CN107145560B - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN107145560B
CN107145560B CN201710301466.9A CN201710301466A CN107145560B CN 107145560 B CN107145560 B CN 107145560B CN 201710301466 A CN201710301466 A CN 201710301466A CN 107145560 B CN107145560 B CN 107145560B
Authority
CN
China
Prior art keywords
text
vector
matrix
classified
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710301466.9A
Other languages
English (en)
Other versions
CN107145560A (zh
Inventor
姚海鹏
张博
张培颖
章扬
王露瑶
殷志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710301466.9A priority Critical patent/CN107145560B/zh
Publication of CN107145560A publication Critical patent/CN107145560A/zh
Application granted granted Critical
Publication of CN107145560B publication Critical patent/CN107145560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本发明实施例提供了一种文本分类方法及装置,应用于计算机技术领域,所述方法包括:通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果。本发明实施例通过将基于世界知识的词语相似度和基于统计的词语相似度应用于文本分类,提高了文本分类的准确性。

Description

一种文本分类方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本分类方法及装置。
背景技术
随着互联网技术的飞速发展,网络、数据库、电子邮件等海量信息资源以文本的形式存在,文本分类已经成为处理互联网海量信息资源的关键技术,可以用于搜索引擎、情感分析和用户画像等领域。参见图1,图1为相关技术中的文本分类方法的流程图,包括:文本预处理、文本表示、训练分类器和分类器性能评价等阶段。首先,对文本进行预处理,文本预处理指的是对文本进行分词并且去除对分类性能提高没有贡献的停用词。其次,对分词结果进行文本表示,即,将非结构化的文本信息映射为VSM(Vector Space Model,向量空间模型)中的一个向量。然后,根据机器学习算法设计分类器,通过训练集(已知文本类型的训练文本的集合)对分类器进行训练。最后,通过测试集(已知文本类型的测试文本的集合)对分类器进行测试,得到分类器性能的评价。在分类器性能达到预期目标之后,通过将待分类文本输入该分类器,即可得到待分类文本的文本类型。
提高文本分类准确率的关键(提高分类器性能的关键)是解决文本中出现的同义词和一词多义的问题,解决这两个问题更有利于计算机理解文本内容,从而对文本进行正确的分类。通常,将语料库中的词语统计信息引入分类器,即基于统计的词语相似度。其中,基于统计的词语相似度的计算,可以采用基于类别的权重计算方式、基于高阶路径的权重计算方式和基于平均值计算的权重计算方式等多种方法。在得到基于统计的词语相似度之后,将基于统计的词语相似度嵌入核函数,核函数将高维空间中的两个点的内积运算替换为两个简单函数的求值,解决了高维空间中内积运算复杂的问题,可以解决非线性分类问题,从而达到文本分类的目的。
虽然基于统计的文本分类方法比较客观,综合反映了词语在句法、语义、语用等方面的相似性和差异。但是,该方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,而且资料稀疏和资料噪声的干扰较大。因此,如果语料库不准确,相应的,通过该方法得到的文本分类的准确性会比较低。
发明内容
本发明实施例的目的在于提供一种文本分类方法及装置,以提高文本分类的准确性。具体技术方案如下:
本发明实施例公开了一种文本分类方法,包括:
通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量;
根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到;
对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果。
可选的,在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,所述方法还包括:
通过文本表示将训练文本映射为VSM中的第二文本向量;
根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵;
根据世界知识,确定所述第二文本向量的词语相似度矩阵;
根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵。
可选的,在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,所述方法还包括:
对所述待分类文本进行预处理,得到预处理后的待分类文本;
所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
可选的,所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
如果所述待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,所述n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:
Figure BDA0001284221260000031
确定所述第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则所述第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
可选的,所述根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵,包括:
根据所述核矩阵公式:S=UUT,确定所述第二文本向量的统计相似度矩阵S,
其中,U表示所述第二文本向量中特征词的权重形成的矩阵。
可选的,所述根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵,包括:
根据公式:E=λ1×S+λ2×Z,通过调节所述统计相似度矩阵S权重的归一化参数λ1和所述词语相似度矩阵Z权重的归一化参数λ2的值得到所述语义平滑矩阵E;
根据所述语义平滑矩阵E,确定所述训练文本的文本分类结果以及所述训练文本的文本分类准确率;
当所述文本分类准确率小于预设阈值时,返回所述通过调节所述统计相似度矩阵S权重的归一化参数λ1和所述词语相似度矩阵Z权重的归一化参数λ2的值得到所述语义平滑矩阵E的步骤,直至所述文本分类准确率大于或等于所述预设阈值;
当所述文本分类准确率大于或等于所述预设阈值时,确定所述语义平滑矩阵E对应的λ1和λ2的值;
根据公式:E=λ1×S+λ2×Z,确定所述语义平滑矩阵E;
其中,λ12=1。
本发明实施例还公开了一种文本分类装置,包括:
第一文本表示模块,用于通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量;
文本映射模块,用于根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到;
文本分类模块,用于对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果。
可选的,本发明实施例的文本分类装置,还包括:
第二文本表示模块,用于通过文本表示将训练文本映射为VSM中的第二文本向量;
统计相似度矩阵确定模块,用于根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵;
词语相似度矩阵确定模块,用于根据世界知识,确定所述第二文本向量的词语相似度矩阵;
语义平滑矩阵确定模块,用于根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵。
可选的,本发明实施例的文本分类装置,还包括:
预处理模块,用于对所述待分类文本进行预处理,得到预处理后的待分类文本;
第一文本表示模块,进一步用于通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
可选的,所述第一文本表示模块具体用于,如果所述待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,所述n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:
Figure BDA0001284221260000051
确定所述第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则所述第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
本发明实施例提供的文本分类方法及装置,通过文本表示将待分类文本映射为VSM中的第一文本向量。根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量。对第一映射向量进行分类,得到待分类文本的文本分类结果。本发明实施例通过将统计相似度矩阵和词语相似度矩阵相结合,建立语义平滑矩阵,通过语义平滑矩阵对文本进行分类,提高了文本分类的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中的文本分类方法的流程图;
图2为本发明实施例的文本分类方法的流程图;
图3为本发明实施例的文本分类装置的一种结构图;
图4为本发明实施例的文本分类装置的另一种结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中的问题,本发明实施例提供了一种文本分类方法及装置,以提高文本分类的准确性。下面首先对本发明实施例所提供的文本分类方法进行介绍。
参见图2,图2为本发明实施例的文本分类方法的流程图,包括以下步骤:
S201,通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。
需要说明的是,文本表示是一种文本信息处理方法,由于文本是一种非结构化的数据,计算机无法直接对文本进行处理。因此,在通过文本表示将文本映射成为VSM中的向量之后,计算机可以对该VSM中的向量进行处理。其中,VSM中向量中的元素表示文本中各个词语的权重。
在现有技术中,通常使用词袋子来表示文章,所谓词袋子,就是词语权重的值通常由词频或者TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)公式得到。TF-IDF是应用最广泛的权值计算方法,它是一种统计方法,用以评估一个字词对于一个文本集或一个语料库中的其中一份文本的重要程度。一般来说,字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
根据TF-IDF公式:TF-IDF(w,di)=tfw*IDF(w),计算特征词w在所有文本中的TF-IDF值。
其中,IDF公式为:
Figure BDA0001284221260000071
IDF(w)表示特征词w在所有文本中的逆向文本频率,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数,tfw表示TF值,也即特征词w在文本D中出现的个数。
通过计算词语权重的值,即TF-IDF值,可以得到词语在文本中的重要程度,将文本映射成为词权重向量φ(dj):
φ(dj)=[tfidf(w1,dj),tfidf(w2,dj),…,tfidf(wn,dj)],其中,tfidf(wi,dj)表示特征词wi在文本dj中的TF-IDF值。那么,φ(dj)即为文本dj通过文本表示后得到的文本向量。
本发明实施例中,根据待分类文本中的词语在待分类文本中的重要程度,确定待分类文本对应的第一文本向量。待分类文本中的词语在待分类文本中的重要程度通过权重计算公式进行计算,权重计算公式的具体计算方法将在下文进行详细描述,在此不再赘述。
S202,根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量,其中,语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。
具体的,在通过S201得到待分类文本的第一文本向量之后,将第一文本向量输入分类器,通过分类器对待分类文本进行分类。由于分类器决定了文本分类的准确率,因此,分类器的设计是文本分类的关键。常用的分类器设计方式包括:贝叶斯分类器、KNN(k-Nearest Neighbor,K最近邻)分类器和SVM(Support Vector Machine,支持向量机)分类器等等。其中,KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于该类别,并具有该类别上样本的特性。SVM是从统计学习理论发展出的一种非常有效的机器学习算法。SVM由Vapnik、Guyon和Boser提出,SVM的核心目标是利用类别间最大间距找到最优的分割超平面,SVM可以发现全局最优解和具有很好的健壮性等。
鉴于SVM的上述优点,本发明实施例中的分类器可以为SVM分类器。对于SVM分类器,在实际操作中,提出定义一个合适的核函数,核函数对找到最优的分割超平面有直接的影响。核函数将高维空间中的两个点的内积运算替换为两个简单函数的求值,解决了高维空间中内积运算复杂的问题,从而可以解决非线性分类问题,从而达到文本分类的目的。
常用的核函数包括:
线性核函数:k(dp,dq)=dpdq
多项式核函数:k(dp,dq)=(dpdq+1)b,b=1,2,……;
RBF(Radial Basis Function,径向基函数):k(dp,dq)=exp(γ||dp-dq||2)。
核函数的选择与先验知识有关,一般来说,运用SVM解决实际问题时通常选用径向基函数,也就是高斯核函数,这是由于实际数据中大部分分布都可以认为近似服从高斯分布。对于文本分类问题,SVM核函数可以看成是一个词语相似函数。本发明实施例中,语义平滑矩阵也是一种核函数。语义平滑矩阵就是对词语的词向量进行调整,使得调整后的词向量更能准确地表示该词语。下文将对语义平滑矩阵进行详细介绍,在此不再赘述。
S203,对第一映射向量进行分类,得到待分类文本的文本分类结果。
需要说明的是,在没有定义核函数时,分割超平面是低维的,此时,通过低维的超平面是不容易对文本进行分类的。在定义核函数之后,核函数将特征向量从低维空间映射到高维空间,映射到高维空间以后,很多线性不可分的数据,就变成了可分的数据。本发明实施例中,通过语义平滑矩阵将第一文本向量映射为第一映射向量,第一映射向量为高维向量。这样,分类器可以直接对第一映射向量进行分类,得到待分类文本的文本分类结果。
可见,本发明实施例的文本分类方法,通过文本表示将待分类文本映射为VSM中的第一文本向量。根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量。对第一映射向量进行分类,得到待分类文本的文本分类结果。本发明实施例通过将统计相似度矩阵和词语相似度矩阵相结合,以及对训练文本进行训练,得到语义平滑矩阵,通过语义平滑矩阵对文本进行分类,提高了文本分类的准确性。
可选的,在通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,本发明实施例的文本分类方法还包括:
第一步,通过文本表示将训练文本映射为VSM中的第二文本向量。
需要说明的是,本发明实施例的语义平滑矩阵,是通过对训练文本进行训练得到的。因此,在训练过程中对训练文本的文本表示方法与实际分类过程中对待分类文本的文本表示方法是相同的,即,第一步中的文本表示与S201中的过程是相同的,具体过程可参见S201,在此不再赘述。
第二步,根据核矩阵公式,计算第二文本向量的统计相似度矩阵。
可选的,上述第二步的一种实施方式中,根据核矩阵公式,计算第二文本向量的统计相似度矩阵,包括:
根据核矩阵公式:S=UUT,确定第二文本向量的统计相似度矩阵S,
其中,U表示第二文本向量中特征词的权重形成的矩阵,第二文本向量中特征词的权重的计算方法与第一文本向量中特征词的权重的计算方法相同,并且将在下文进行介绍,统计相似度矩阵S是一个对称矩阵,统计相似度矩阵S中的元素Si,j表示特征词wi与特征词wj的统计相似度。
第三步,根据世界知识,确定第二文本向量的词语相似度矩阵。
其中,世界知识为文本所用语言的词典知识,词典包括:《知网》和《词林》等。根据世界知识得到词语相似度矩阵,指的是从词典中抽取规则对词语进行分类。《知网》主要包括概念和义原两个概念。每个词语会有多个概念来描述,每个概念都由一系列的义原描述,也就是说义原是《知网》中最小的表达单元。《知网》中共包含1500个义原,可以分为基本义原(描述概念的语义特征)、语法义原(描述词语的语法特征)、关系义原(描述概念之间的关系)三大类。此外,《知网》中还采用一些符号对概念的语义进行描述,这些符号可以包括:逻辑符号(,~^)、关系符号(#%$*+&@?!)、特殊符号({}()[])。所以概念之间的关系既可以使用关系义原,又可以使用关系符号来表示。
《知网》中主要收录了实词和虚词两大类,虚词的表示比较简单,用句法义原或者关系义原表示。实词的描述比较复杂,有一系列的“语义描述式”组成。但是,在计算词语相似度的时候可以对其结构进行重构,将其定义为如下结构:
词语相似度的计算包括:
虚词相似度计算:虚词相似度只需要计算其句法义原或者关系义原之间的相似度即可。而虚词和实词之间的相似度为零。
实词相似度计算:
Figure BDA0001284221260000101
其中,Sim1(S1,S2)表示第一基本义原相似度,Sim2(S1,S2)表示其他基本义原相似度,Sim3(S1,S2)表示关系义原相似度,Sim4(S1,S2)表示关系符号相似度,βi为可调整参数,满足以下约束条件:
β1234=1,β1≥β2≥β3≥β4
其中,Sim1(S1,S2)表示两个义原的相似度,计算公式如下所示:
Figure BDA0001284221260000102
其中,d表示P1和P2在义原层次体系中的路径长度,α是一个可调节参数,Sim2(S1,S2)是两个集合之间的相似度,即所有元素对的相似度的算术平均值。
Sim3(S1,S2)是两个特征结构相似度的计算,即为特征结构中的基本义原或者具体词之间相似度计算之后进行算术平均,Sim4(S1,S2)也是两个特征结构相似度的计算,该特征结构中的元素是集合,而集合的元素是基本义原或者具体词,所以最终转化为对基本义原求相似度再取平均。
从上面基于《知网》作为世界知识的词语相似度的计算方法可以看出,词语相似度矩阵Z中的元素Zi,j表示特征词i和特征词j的相似度。
第四步,根据统计相似度矩阵和词语相似度矩阵,确定语义平滑矩阵。
本发明实施例的目的是将基于统计的统计相似度矩阵和基于世界知识的词语相似度矩阵相结合,得到使文本分类准确率更高的语义平滑矩阵。
本发明实施例的一种实现方式中,根据统计相似度矩阵和词语相似度矩阵确定语义平滑矩阵,包括:
根据公式:E=λ1×S+λ2×Z,通过调节统计相似度矩阵S权重的归一化参数λ1和词语相似度矩阵Z权重的归一化参数λ2的值得到语义平滑矩阵E;
根据语义平滑矩阵E,确定训练文本的文本分类结果以及训练文本的文本分类准确率。
当文本分类准确率小于预设阈值时,返回通过调节统计相似度矩阵S权重的归一化参数λ1和词语相似度矩阵Z权重的归一化参数λ2的值得到语义平滑矩阵E的步骤,直至文本分类准确率大于或等于预设阈值。
当文本分类准确率大于或等于预设阈值时,确定语义平滑矩阵E对应的λ1和λ2的值;
根据公式:E=λ1×S+λ2×Z,确定语义平滑矩阵E;
其中,λ12=1。
本发明实施例中,通过公式:E=λ1×S+λ2×Z,将统计相似度矩阵和词语相似度矩阵相结合。其中,λ12=1,并且λ1和λ2的值是可以调节的。因此,确定语义平滑矩阵E的过程,即为调节λ1和λ2的值,使训练文本的文本分类准确率达到预设阈值的过程。
具体的,在对训练文本进行训练时,通过调节λ1和λ2的值,对训练文本进行训练,得到语义平滑矩阵。例如,可以设置λ1的值为0、0.2、0.4、0.6、0.8和1,相应的,λ2的值为1、0.8、0.6、0.4、0.2和0。计算λ1和λ2取不同值时,训练文本的文本分类结果,将得到的文本分类结果与训练文本实际的文本类型进行比较,计算文本分类的准确率。将文本分类的准确率达到预设阈值时对应的语义平滑矩阵确认为本发明实施例训练得到的语义平滑矩阵。即,确定文本分类准确率达到预设阈值时语义平滑矩阵E对应的λ1和λ2的值,根据公式:E=λ1×S+λ2×Z,确定语义平滑矩阵E。其中,预设阈值可以为80%,也可以为根据实际情况设定的其他值,在此不做限定。
举例而言,某大学训练文本分为艺术,文学,教育,哲学,空间,能源,电子,通讯,计算机,地理,交通,环境,农业,经济,法律,医疗,军事,政治和体育等20个类别。本发明实施例中,在每个类别中选择100个文档,因此,训练文本包含总共2000个文档。表一为训练文本的文本分类准确率,表格中的纵向(第一列)表示训练文本中训练数据占比变化,横向(第一行)表示λ1值,与此对应的λ2的值为1-λ1。通过这个表格表现出语义平滑矩阵在训练集占比不同的情况下,分类器性能的变化。其中,训练文本包括:训练数据和测试数据,训练数据用于训练分类器,测试数据用于测试通过对训练数据进行训练得到的分类器的性能。
表一
TS% 0 0.2 0.4 0.6 0.8 1
30 84.44% 85.81% 85.25% 82.22% 78.81% 73.13%
50 84.69% 85.67% 84.22% 83.32% 78.19% 73.78%
70 86.49% 86.73% 85.78% 85.54% 79.83% 74.92%
80 85.46% 87.23% 86.17% 85.11% 81.20% 75.21%
90 84.82% 84.82% 85.78% 82.06% 78.62% 76.67%
可选的,当文本分类的准确率大于或等于80%时确定分类器是有效的,那么,从表一种可以看出当λ1=1时,即单纯使用基于统计的统计相似度矩阵作为核函数时,准确率并不能达到有效的要求。当训练集在30%时,统计相似度矩阵和词语相似度矩阵占比为2:8时,文本分类的准确率最高。当训练集在90%时,统计相似度和语义相似度占比为4:6时,分类准确率达到最高。并且,当训练集占90%以上,准确率都能保持在较高的水平。可以看出,通过将统计相似度矩阵和词语相似度矩阵相结合,比单独使用该两种矩阵时,提高了文本分类的准确率。
可选的,在通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,本发明实施例的文本分类方法还包括:
对待分类文本进行预处理,得到预处理后的待分类文本。
通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
一般的,待分类文本中包含多种词语,例如:使用频率很低的不常用词语,或者已经停止使用的词语等,这些词语对分类器性能的提高是没有贡献的。通过对待分类文本进行预处理,例如,将这些词语删除,在对预处理后的待分类文本进行文本表示时,可以减小文本表示过程中的计算量。
本发明实施例的一种实现方式中,通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
如果待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:
Figure BDA0001284221260000131
确定第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
本发明实施例通过权重计算公式对待分类文本进行文本表示,与TF-IDF相比,该权重计算公式还将特征词与文本类别相联系,得到特征词在某一文本类别的权重。通过实验测试发现,本发明实施例通过权重计算公式得到的特征词的权重,准确性更高。
相应于上述方法实施例,本发明实施例还公开了了一种文本分类装置,参见图3,图3为本发明实施例的文本分类装置的一种结构图,包括:
第一文本表示模块301,用于通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。
文本映射模块302,用于根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量,其中,语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。
文本分类模块303,用于对第一映射向量进行分类,得到待分类文本的文本分类结果。
可见,本发明实施例的文本分类装置,通过文本表示将待分类文本映射为VSM中的第一文本向量。根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量。对第一映射向量进行分类,得到待分类文本的文本分类结果。本发明实施例通过将统计相似度矩阵和词语相似度矩阵相结合,以及对训练文本进行训练,得到语义平滑矩阵,通过语义平滑矩阵对文本进行分类,提高了文本分类的准确性。
需要说明的是,本发明实施例的装置是应用上述文本分类方法的装置,则上述文本分类方法的所有实施例均适用于该装置,且均能达到相同或相似的有益效果。
参见图4,图4为本发明实施例的文本分类装置的另一种结构图,在图3实施例的基础上,还包括:
第二文本表示模块401,用于通过文本表示将训练文本映射为VSM中的第二文本向量。
统计相似度矩阵确定模块402,用于根据核矩阵公式,计算第二文本向量的统计相似度矩阵。
词语相似度矩阵确定模块403,用于根据世界知识,确定第二文本向量的词语相似度矩阵。
语义平滑矩阵确定模块404,用于根据统计相似度矩阵和词语相似度矩阵,确定语义平滑矩阵。
可选的,本发明实施例的文本分类装置,还包括:
预处理模块,用于对待分类文本进行预处理,得到预处理后的待分类文本。
第一文本表示模块,进一步用于通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
本发明实施例的一种实现方式中,第一文本表示模块具体用于,如果待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:
Figure BDA0001284221260000151
确定第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
可选的,本发明实施例的文本分类装置中,统计相似度矩阵确定模块具体用于,根据核矩阵公式:S=UUT,确定第二文本向量的统计相似度矩阵S,
其中,U表示第二文本向量中特征词的权重形成的矩阵。
可选的,本发明实施例的文本分类装置中,语义平滑矩阵确定模块,包括:
调节子模块,用于根据公式:E=λ1×S+λ2×Z,通过调节统计相似度矩阵S权重的归一化参数λ1和词语相似度矩阵Z权重的归一化参数λ2的值得到语义平滑矩阵E。
文本分类准确率确定子模块,用于根据语义平滑矩阵E,确定训练文本的文本分类结果以及训练文本的文本分类准确率。
循环子模块,用于当文本分类准确率小于预设阈值时,返回通过调节统计相似度矩阵S权重的归一化参数λ1和词语相似度矩阵Z权重的归一化参数λ2的值得到语义平滑矩阵E的步骤,直至文本分类准确率大于或等于预设阈值。
参数确定子模块,用于当文本分类准确率大于或等于预设阈值时,确定语义平滑矩阵E对应的λ1和λ2的值。
矩阵确定子模块,用于根据公式:E=λ1×S+λ2×Z,确定语义平滑矩阵E。
其中,λ12=1。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种文本分类方法,其特征在于,包括:
通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量;
根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到;
对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果;
在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,所述方法还包括:
通过文本表示将训练文本映射为VSM中的第二文本向量;
根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵;
根据世界知识,确定所述第二文本向量的词语相似度矩阵;
根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵。
2.根据权利要求1所述的文本分类方法,其特征在于,在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,所述方法还包括:
对所述待分类文本进行预处理,得到预处理后的待分类文本;
所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
如果所述待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,所述n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:
Figure FDA0002765308520000021
确定所述第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则所述第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵,包括:
根据所述核矩阵公式:S=UUT,确定所述第二文本向量的统计相似度矩阵S,
其中,U表示所述第二文本向量中特征词的权重形成的矩阵。
5.根据权利要求4所述的文本分类方法,其特征在于,所述根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵,包括:
根据公式:E=λ1×S+λ2×Z,通过调节所述统计相似度矩阵S权重的归一化参数λ1和所述词语相似度矩阵Z权重的归一化参数λ2的值得到所述语义平滑矩阵E;
根据所述语义平滑矩阵E,确定所述训练文本的文本分类结果以及所述训练文本的文本分类准确率;
当所述文本分类准确率小于预设阈值时,返回所述通过调节所述统计相似度矩阵S权重的归一化参数λ1和所述词语相似度矩阵Z权重的归一化参数λ2的值得到所述语义平滑矩阵E的步骤,直至所述文本分类准确率大于或等于所述预设阈值;
当所述文本分类准确率大于或等于所述预设阈值时,确定所述语义平滑矩阵E对应的λ1和λ2的值;
根据公式:E=λ1×S+λ2×Z,确定所述语义平滑矩阵E;
其中,λ12=1。
6.一种文本分类装置,其特征在于,包括:
第一文本表示模块,用于通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量;
文本映射模块,用于根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到;
文本分类模块,用于对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果;
第二文本表示模块,用于通过文本表示将训练文本映射为VSM中的第二文本向量;
统计相似度矩阵确定模块,用于根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵;
词语相似度矩阵确定模块,用于根据世界知识,确定所述第二文本向量的词语相似度矩阵;
语义平滑矩阵确定模块,用于根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵。
7.根据权利要求6所述的文本分类装置,其特征在于,还包括:
预处理模块,用于对所述待分类文本进行预处理,得到预处理后的待分类文本;
第一文本表示模块,进一步用于通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
8.根据权利要求6所述的文本分类装置,其特征在于,所述第一文本表示模块具体用于,如果所述待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,所述n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:
Figure FDA0002765308520000041
确定所述第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则所述第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
CN201710301466.9A 2017-05-02 2017-05-02 一种文本分类方法及装置 Active CN107145560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710301466.9A CN107145560B (zh) 2017-05-02 2017-05-02 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710301466.9A CN107145560B (zh) 2017-05-02 2017-05-02 一种文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN107145560A CN107145560A (zh) 2017-09-08
CN107145560B true CN107145560B (zh) 2021-01-29

Family

ID=59774292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710301466.9A Active CN107145560B (zh) 2017-05-02 2017-05-02 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN107145560B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、系统及一种文件分类设备
JP6915809B2 (ja) * 2018-05-02 2021-08-04 株式会社Fronteo 事象予測装置、予測モデル生成装置および事象予測用プログラム
CN109299753A (zh) * 2018-12-11 2019-02-01 济南浪潮高新科技投资发展有限公司 一种用于法律文本信息挖掘的集成学习方法及系统
CN111709276B (zh) * 2020-04-29 2024-01-23 平安国际智慧城市科技股份有限公司 基于平滑矩阵的人脸识别方法、装置和计算机设备
CN113282702B (zh) * 2021-03-16 2023-12-19 广东医通软件有限公司 一种智能检索方法及检索系统
CN113283229B (zh) * 2021-06-24 2024-04-02 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、电子设备及存储介质
CN115409135B (zh) * 2022-11-03 2023-02-03 南昌惠联网络技术有限公司 一种网络业务文档的分类管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102651034A (zh) * 2012-04-11 2012-08-29 江苏大学 一种基于核函数的文档相似检测方法
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468445B2 (en) * 2005-03-30 2013-06-18 The Trustees Of Columbia University In The City Of New York Systems and methods for content extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102651034A (zh) * 2012-04-11 2012-08-29 江苏大学 一种基于核函数的文档相似检测方法
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Also Published As

Publication number Publication date
CN107145560A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN107145560B (zh) 一种文本分类方法及装置
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
CN101295294A (zh) 基于信息增益改进贝叶斯词义消歧方法
Gao et al. Text classification research based on improved Word2vec and CNN
CN106599072B (zh) 一种文本聚类方法及装置
Torki A document descriptor using covariance of word vectors
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Pratiwi et al. Implementation of rumor detection on twitter using the svm classification method
Zhu et al. Improved information gain feature selection method for Chinese text classification based on word embedding
Melamud et al. Information-theory interpretation of the skip-gram negative-sampling objective function
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Zahedi et al. Improving text classification performance using PCA and recall-precision criteria
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Gao et al. Text categorization based on improved Rocchio algorithm
CN110580286A (zh) 一种基于类间信息熵的文本特征选择方法
Pablos et al. A comparison of domain-based word polarity estimation using different word embeddings
AL-SAQQA et al. Unsupervised sentiment analysis approach based on clustering for Arabic text
Wrzalik et al. Balanced word clusters for interpretable document representation
Arif et al. Word sense disambiguation for Urdu text by machine learning
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant