CN107145560B

CN107145560B - 一种文本分类方法及装置

Info

Publication number: CN107145560B
Application number: CN201710301466.9A
Authority: CN
Inventors: 姚海鹏; 张博; 张培颖; 章扬; 王露瑶; 殷志强
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2021-01-29
Anticipated expiration: 2037-05-02
Also published as: CN107145560A

Abstract

本发明实施例提供了一种文本分类方法及装置，应用于计算机技术领域，所述方法包括：通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量，其中，所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。对所述第一映射向量进行分类，得到所述待分类文本的文本分类结果。本发明实施例通过将基于世界知识的词语相似度和基于统计的词语相似度应用于文本分类，提高了文本分类的准确性。

Description

一种文本分类方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种文本分类方法及装置。

背景技术

随着互联网技术的飞速发展，网络、数据库、电子邮件等海量信息资源以文本的形式存在，文本分类已经成为处理互联网海量信息资源的关键技术，可以用于搜索引擎、情感分析和用户画像等领域。参见图1，图1为相关技术中的文本分类方法的流程图，包括：文本预处理、文本表示、训练分类器和分类器性能评价等阶段。首先，对文本进行预处理，文本预处理指的是对文本进行分词并且去除对分类性能提高没有贡献的停用词。其次，对分词结果进行文本表示，即，将非结构化的文本信息映射为VSM(Vector Space Model，向量空间模型)中的一个向量。然后，根据机器学习算法设计分类器，通过训练集(已知文本类型的训练文本的集合)对分类器进行训练。最后，通过测试集(已知文本类型的测试文本的集合)对分类器进行测试，得到分类器性能的评价。在分类器性能达到预期目标之后，通过将待分类文本输入该分类器，即可得到待分类文本的文本类型。

提高文本分类准确率的关键(提高分类器性能的关键)是解决文本中出现的同义词和一词多义的问题，解决这两个问题更有利于计算机理解文本内容，从而对文本进行正确的分类。通常，将语料库中的词语统计信息引入分类器，即基于统计的词语相似度。其中，基于统计的词语相似度的计算，可以采用基于类别的权重计算方式、基于高阶路径的权重计算方式和基于平均值计算的权重计算方式等多种方法。在得到基于统计的词语相似度之后，将基于统计的词语相似度嵌入核函数，核函数将高维空间中的两个点的内积运算替换为两个简单函数的求值，解决了高维空间中内积运算复杂的问题，可以解决非线性分类问题，从而达到文本分类的目的。

虽然基于统计的文本分类方法比较客观，综合反映了词语在句法、语义、语用等方面的相似性和差异。但是，该方法比较依赖于训练所用的语料库，计算量大，计算方法复杂，而且资料稀疏和资料噪声的干扰较大。因此，如果语料库不准确，相应的，通过该方法得到的文本分类的准确性会比较低。

发明内容

本发明实施例的目的在于提供一种文本分类方法及装置，以提高文本分类的准确性。具体技术方案如下：

本发明实施例公开了一种文本分类方法，包括：

通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量；

根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量，其中，所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到；

对所述第一映射向量进行分类，得到所述待分类文本的文本分类结果。

可选的，在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前，所述方法还包括：

通过文本表示将训练文本映射为VSM中的第二文本向量；

根据核矩阵公式，计算所述第二文本向量的统计相似度矩阵；

根据世界知识，确定所述第二文本向量的词语相似度矩阵；

根据所述统计相似度矩阵和所述词语相似度矩阵，确定所述语义平滑矩阵。

对所述待分类文本进行预处理，得到预处理后的待分类文本；

所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量，包括：

通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。

可选的，所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量，包括：

如果所述待分类文本d_j中包含的n个特征词分别为：w_1j,w_2j,…,w_nj，所述n个特征词构成的向量表示为：(w_1j,w_2j,…,w_nj)，根据权重计算公式：

确定所述第一文本向量中特征词w的权重U_w,c(w,d_j)；w包括：w_1j,w_2j,…,w_nj，则所述第一文本向量表示为：[U_w,c(w_1j,d_j),U_w,c(w_2j,d_j),…,U_w,c(w_nj,d_j)]，

其中，tfc_w,c表示特征词w在类别c中出现的总个数，|D|表示文本的总个数，df_w表示包含特征词w的文本的总个数。

可选的，所述根据核矩阵公式，计算所述第二文本向量的统计相似度矩阵，包括：

根据所述核矩阵公式：S＝UU^T，确定所述第二文本向量的统计相似度矩阵S，

其中，U表示所述第二文本向量中特征词的权重形成的矩阵。

可选的，所述根据所述统计相似度矩阵和所述词语相似度矩阵，确定所述语义平滑矩阵，包括：

根据公式：E＝λ₁×S+λ₂×Z，通过调节所述统计相似度矩阵S权重的归一化参数λ₁和所述词语相似度矩阵Z权重的归一化参数λ₂的值得到所述语义平滑矩阵E；

根据所述语义平滑矩阵E，确定所述训练文本的文本分类结果以及所述训练文本的文本分类准确率；

当所述文本分类准确率小于预设阈值时，返回所述通过调节所述统计相似度矩阵S权重的归一化参数λ₁和所述词语相似度矩阵Z权重的归一化参数λ₂的值得到所述语义平滑矩阵E的步骤，直至所述文本分类准确率大于或等于所述预设阈值；

当所述文本分类准确率大于或等于所述预设阈值时，确定所述语义平滑矩阵E对应的λ₁和λ₂的值；

根据公式：E＝λ₁×S+λ₂×Z，确定所述语义平滑矩阵E；

其中，λ₁+λ₂＝1。

本发明实施例还公开了一种文本分类装置，包括：

第一文本表示模块，用于通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量；

文本映射模块，用于根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量，其中，所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到；

文本分类模块，用于对所述第一映射向量进行分类，得到所述待分类文本的文本分类结果。

可选的，本发明实施例的文本分类装置，还包括：

第二文本表示模块，用于通过文本表示将训练文本映射为VSM中的第二文本向量；

统计相似度矩阵确定模块，用于根据核矩阵公式，计算所述第二文本向量的统计相似度矩阵；

词语相似度矩阵确定模块，用于根据世界知识，确定所述第二文本向量的词语相似度矩阵；

语义平滑矩阵确定模块，用于根据所述统计相似度矩阵和所述词语相似度矩阵，确定所述语义平滑矩阵。

可选的，本发明实施例的文本分类装置，还包括：

预处理模块，用于对所述待分类文本进行预处理，得到预处理后的待分类文本；

第一文本表示模块，进一步用于通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。

可选的，所述第一文本表示模块具体用于，如果所述待分类文本d_j中包含的n个特征词分别为：w_1j,w_2j,…,w_nj，所述n个特征词构成的向量表示为：(w_1j,w_2j,…,w_nj)，根据权重计算公式：

本发明实施例提供的文本分类方法及装置，通过文本表示将待分类文本映射为VSM中的第一文本向量。根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量。对第一映射向量进行分类，得到待分类文本的文本分类结果。本发明实施例通过将统计相似度矩阵和词语相似度矩阵相结合，建立语义平滑矩阵，通过语义平滑矩阵对文本进行分类，提高了文本分类的准确性。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中的文本分类方法的流程图；

图2为本发明实施例的文本分类方法的流程图；

图3为本发明实施例的文本分类装置的一种结构图；

图4为本发明实施例的文本分类装置的另一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中的问题，本发明实施例提供了一种文本分类方法及装置，以提高文本分类的准确性。下面首先对本发明实施例所提供的文本分类方法进行介绍。

参见图2，图2为本发明实施例的文本分类方法的流程图，包括以下步骤：

S201，通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。

需要说明的是，文本表示是一种文本信息处理方法，由于文本是一种非结构化的数据，计算机无法直接对文本进行处理。因此，在通过文本表示将文本映射成为VSM中的向量之后，计算机可以对该VSM中的向量进行处理。其中，VSM中向量中的元素表示文本中各个词语的权重。

在现有技术中，通常使用词袋子来表示文章，所谓词袋子，就是词语权重的值通常由词频或者TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)公式得到。TF-IDF是应用最广泛的权值计算方法，它是一种统计方法，用以评估一个字词对于一个文本集或一个语料库中的其中一份文本的重要程度。一般来说，字词的重要性随着它在文本中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

根据TF-IDF公式：TF-IDF(w,d_i)＝tf_w*IDF(w)，计算特征词w在所有文本中的TF-IDF值。

其中，IDF公式为：

IDF(w)表示特征词w在所有文本中的逆向文本频率，|D|表示文本的总个数，df_w表示包含特征词w的文本的总个数，tf_w表示TF值，也即特征词w在文本D中出现的个数。

通过计算词语权重的值，即TF-IDF值，可以得到词语在文本中的重要程度，将文本映射成为词权重向量φ(d_j)：

φ(d_j)＝[tfidf(w₁,d_j),tfidf(w₂,d_j),…,tfidf(w_n,d_j)]，其中，tfidf(w_i,d_j)表示特征词w_i在文本d_j中的TF-IDF值。那么，φ(d_j)即为文本d_j通过文本表示后得到的文本向量。

本发明实施例中，根据待分类文本中的词语在待分类文本中的重要程度，确定待分类文本对应的第一文本向量。待分类文本中的词语在待分类文本中的重要程度通过权重计算公式进行计算，权重计算公式的具体计算方法将在下文进行详细描述，在此不再赘述。

S202，根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量，其中，语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。

具体的，在通过S201得到待分类文本的第一文本向量之后，将第一文本向量输入分类器，通过分类器对待分类文本进行分类。由于分类器决定了文本分类的准确率，因此，分类器的设计是文本分类的关键。常用的分类器设计方式包括：贝叶斯分类器、KNN(k-Nearest Neighbor，K最近邻)分类器和SVM(Support Vector Machine，支持向量机)分类器等等。其中，KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于该类别，并具有该类别上样本的特性。SVM是从统计学习理论发展出的一种非常有效的机器学习算法。SVM由Vapnik、Guyon和Boser提出，SVM的核心目标是利用类别间最大间距找到最优的分割超平面，SVM可以发现全局最优解和具有很好的健壮性等。

鉴于SVM的上述优点，本发明实施例中的分类器可以为SVM分类器。对于SVM分类器，在实际操作中，提出定义一个合适的核函数，核函数对找到最优的分割超平面有直接的影响。核函数将高维空间中的两个点的内积运算替换为两个简单函数的求值，解决了高维空间中内积运算复杂的问题，从而可以解决非线性分类问题，从而达到文本分类的目的。

常用的核函数包括：

线性核函数：k(d_p,d_q)＝d_pd_q；

多项式核函数：k(d_p,d_q)＝(d_pd_q+1)^b,b＝1,2,……；

RBF(Radial Basis Function，径向基函数)：k(d_p,d_q)＝exp(γ||d_p-d_q||²)。

核函数的选择与先验知识有关，一般来说，运用SVM解决实际问题时通常选用径向基函数，也就是高斯核函数，这是由于实际数据中大部分分布都可以认为近似服从高斯分布。对于文本分类问题，SVM核函数可以看成是一个词语相似函数。本发明实施例中，语义平滑矩阵也是一种核函数。语义平滑矩阵就是对词语的词向量进行调整，使得调整后的词向量更能准确地表示该词语。下文将对语义平滑矩阵进行详细介绍，在此不再赘述。

S203，对第一映射向量进行分类，得到待分类文本的文本分类结果。

需要说明的是，在没有定义核函数时，分割超平面是低维的，此时，通过低维的超平面是不容易对文本进行分类的。在定义核函数之后，核函数将特征向量从低维空间映射到高维空间，映射到高维空间以后，很多线性不可分的数据，就变成了可分的数据。本发明实施例中，通过语义平滑矩阵将第一文本向量映射为第一映射向量，第一映射向量为高维向量。这样，分类器可以直接对第一映射向量进行分类，得到待分类文本的文本分类结果。

可见，本发明实施例的文本分类方法，通过文本表示将待分类文本映射为VSM中的第一文本向量。根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量。对第一映射向量进行分类，得到待分类文本的文本分类结果。本发明实施例通过将统计相似度矩阵和词语相似度矩阵相结合，以及对训练文本进行训练，得到语义平滑矩阵，通过语义平滑矩阵对文本进行分类，提高了文本分类的准确性。

可选的，在通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前，本发明实施例的文本分类方法还包括：

第一步，通过文本表示将训练文本映射为VSM中的第二文本向量。

需要说明的是，本发明实施例的语义平滑矩阵，是通过对训练文本进行训练得到的。因此，在训练过程中对训练文本的文本表示方法与实际分类过程中对待分类文本的文本表示方法是相同的，即，第一步中的文本表示与S201中的过程是相同的，具体过程可参见S201，在此不再赘述。

第二步，根据核矩阵公式，计算第二文本向量的统计相似度矩阵。

可选的，上述第二步的一种实施方式中，根据核矩阵公式，计算第二文本向量的统计相似度矩阵，包括：

根据核矩阵公式：S＝UU^T，确定第二文本向量的统计相似度矩阵S，

其中，U表示第二文本向量中特征词的权重形成的矩阵，第二文本向量中特征词的权重的计算方法与第一文本向量中特征词的权重的计算方法相同，并且将在下文进行介绍，统计相似度矩阵S是一个对称矩阵，统计相似度矩阵S中的元素S_i,j表示特征词w_i与特征词w_j的统计相似度。

第三步，根据世界知识，确定第二文本向量的词语相似度矩阵。

其中，世界知识为文本所用语言的词典知识，词典包括：《知网》和《词林》等。根据世界知识得到词语相似度矩阵，指的是从词典中抽取规则对词语进行分类。《知网》主要包括概念和义原两个概念。每个词语会有多个概念来描述，每个概念都由一系列的义原描述，也就是说义原是《知网》中最小的表达单元。《知网》中共包含1500个义原，可以分为基本义原(描述概念的语义特征)、语法义原(描述词语的语法特征)、关系义原(描述概念之间的关系)三大类。此外，《知网》中还采用一些符号对概念的语义进行描述，这些符号可以包括：逻辑符号(,～^)、关系符号(#％$*+&@？！)、特殊符号({}()[])。所以概念之间的关系既可以使用关系义原，又可以使用关系符号来表示。

《知网》中主要收录了实词和虚词两大类，虚词的表示比较简单，用句法义原或者关系义原表示。实词的描述比较复杂，有一系列的“语义描述式”组成。但是，在计算词语相似度的时候可以对其结构进行重构，将其定义为如下结构：

词语相似度的计算包括：

虚词相似度计算：虚词相似度只需要计算其句法义原或者关系义原之间的相似度即可。而虚词和实词之间的相似度为零。

实词相似度计算：

其中，Sim₁(S₁,S₂)表示第一基本义原相似度，Sim₂(S₁,S₂)表示其他基本义原相似度，Sim₃(S₁,S₂)表示关系义原相似度，Sim₄(S₁,S₂)表示关系符号相似度，β_i为可调整参数，满足以下约束条件：

β₁+β₂+β₃+β₄＝1,β₁≥β₂≥β₃≥β₄，

其中，Sim₁(S₁,S₂)表示两个义原的相似度，计算公式如下所示：

其中，d表示P₁和P₂在义原层次体系中的路径长度，α是一个可调节参数，Sim₂(S₁,S₂)是两个集合之间的相似度，即所有元素对的相似度的算术平均值。

Sim₃(S₁,S₂)是两个特征结构相似度的计算，即为特征结构中的基本义原或者具体词之间相似度计算之后进行算术平均，Sim₄(S₁,S₂)也是两个特征结构相似度的计算，该特征结构中的元素是集合，而集合的元素是基本义原或者具体词，所以最终转化为对基本义原求相似度再取平均。

从上面基于《知网》作为世界知识的词语相似度的计算方法可以看出，词语相似度矩阵Z中的元素Z_i,j表示特征词i和特征词j的相似度。

第四步，根据统计相似度矩阵和词语相似度矩阵，确定语义平滑矩阵。

本发明实施例的目的是将基于统计的统计相似度矩阵和基于世界知识的词语相似度矩阵相结合，得到使文本分类准确率更高的语义平滑矩阵。

本发明实施例的一种实现方式中，根据统计相似度矩阵和词语相似度矩阵确定语义平滑矩阵，包括：

根据公式：E＝λ₁×S+λ₂×Z，通过调节统计相似度矩阵S权重的归一化参数λ₁和词语相似度矩阵Z权重的归一化参数λ₂的值得到语义平滑矩阵E；

根据语义平滑矩阵E，确定训练文本的文本分类结果以及训练文本的文本分类准确率。

当文本分类准确率小于预设阈值时，返回通过调节统计相似度矩阵S权重的归一化参数λ₁和词语相似度矩阵Z权重的归一化参数λ₂的值得到语义平滑矩阵E的步骤，直至文本分类准确率大于或等于预设阈值。

当文本分类准确率大于或等于预设阈值时，确定语义平滑矩阵E对应的λ₁和λ₂的值；

根据公式：E＝λ₁×S+λ₂×Z，确定语义平滑矩阵E；

其中，λ₁+λ₂＝1。

本发明实施例中，通过公式：E＝λ₁×S+λ₂×Z，将统计相似度矩阵和词语相似度矩阵相结合。其中，λ₁+λ₂＝1，并且λ₁和λ₂的值是可以调节的。因此，确定语义平滑矩阵E的过程，即为调节λ₁和λ₂的值，使训练文本的文本分类准确率达到预设阈值的过程。

具体的，在对训练文本进行训练时，通过调节λ₁和λ₂的值，对训练文本进行训练，得到语义平滑矩阵。例如，可以设置λ₁的值为0、0.2、0.4、0.6、0.8和1，相应的，λ₂的值为1、0.8、0.6、0.4、0.2和0。计算λ₁和λ₂取不同值时，训练文本的文本分类结果，将得到的文本分类结果与训练文本实际的文本类型进行比较，计算文本分类的准确率。将文本分类的准确率达到预设阈值时对应的语义平滑矩阵确认为本发明实施例训练得到的语义平滑矩阵。即，确定文本分类准确率达到预设阈值时语义平滑矩阵E对应的λ₁和λ₂的值，根据公式：E＝λ₁×S+λ₂×Z，确定语义平滑矩阵E。其中，预设阈值可以为80％，也可以为根据实际情况设定的其他值，在此不做限定。

举例而言，某大学训练文本分为艺术，文学，教育，哲学，空间，能源，电子，通讯，计算机，地理，交通，环境，农业，经济，法律，医疗，军事，政治和体育等20个类别。本发明实施例中，在每个类别中选择100个文档，因此，训练文本包含总共2000个文档。表一为训练文本的文本分类准确率，表格中的纵向(第一列)表示训练文本中训练数据占比变化，横向(第一行)表示λ₁值，与此对应的λ₂的值为1-λ₁。通过这个表格表现出语义平滑矩阵在训练集占比不同的情况下，分类器性能的变化。其中，训练文本包括：训练数据和测试数据，训练数据用于训练分类器，测试数据用于测试通过对训练数据进行训练得到的分类器的性能。

表一

TS％

0

0.2

0.4

0.6

0.8

1

30

84.44％

85.81％

85.25％

82.22％

78.81％

73.13％

50

84.69％

85.67％

84.22％

83.32％

78.19％

73.78％

70

86.49％

86.73％

85.78％

85.54％

79.83％

74.92％

80

85.46％

87.23％

86.17％

85.11％

81.20％

75.21％

90

84.82％

85.78％

82.06％

78.62％

76.67％

可选的，当文本分类的准确率大于或等于80％时确定分类器是有效的，那么，从表一种可以看出当λ₁＝1时，即单纯使用基于统计的统计相似度矩阵作为核函数时，准确率并不能达到有效的要求。当训练集在30％时，统计相似度矩阵和词语相似度矩阵占比为2:8时，文本分类的准确率最高。当训练集在90％时，统计相似度和语义相似度占比为4:6时，分类准确率达到最高。并且，当训练集占90％以上，准确率都能保持在较高的水平。可以看出，通过将统计相似度矩阵和词语相似度矩阵相结合，比单独使用该两种矩阵时，提高了文本分类的准确率。

对待分类文本进行预处理，得到预处理后的待分类文本。

通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量，包括：

一般的，待分类文本中包含多种词语，例如：使用频率很低的不常用词语，或者已经停止使用的词语等，这些词语对分类器性能的提高是没有贡献的。通过对待分类文本进行预处理，例如，将这些词语删除，在对预处理后的待分类文本进行文本表示时，可以减小文本表示过程中的计算量。

本发明实施例的一种实现方式中，通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量，包括：

如果待分类文本d_j中包含的n个特征词分别为：w_1j,w_2j,…,w_nj，n个特征词构成的向量表示为：(w_1j,w_2j,…,w_nj)，根据权重计算公式：

确定第一文本向量中特征词w的权重U_w,c(w,d_j)；w包括：w_1j,w_2j,…,w_nj，则第一文本向量表示为：[U_w,c(w_1j,d_j),U_w,c(w_2j,d_j),…,U_w,c(w_nj,d_j)]，

本发明实施例通过权重计算公式对待分类文本进行文本表示，与TF-IDF相比，该权重计算公式还将特征词与文本类别相联系，得到特征词在某一文本类别的权重。通过实验测试发现，本发明实施例通过权重计算公式得到的特征词的权重，准确性更高。

相应于上述方法实施例，本发明实施例还公开了了一种文本分类装置，参见图3，图3为本发明实施例的文本分类装置的一种结构图，包括：

第一文本表示模块301，用于通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量。

文本映射模块302，用于根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量，其中，语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到。

文本分类模块303，用于对第一映射向量进行分类，得到待分类文本的文本分类结果。

可见，本发明实施例的文本分类装置，通过文本表示将待分类文本映射为VSM中的第一文本向量。根据预先建立的语义平滑矩阵将第一文本向量映射为高维空间中的第一映射向量。对第一映射向量进行分类，得到待分类文本的文本分类结果。本发明实施例通过将统计相似度矩阵和词语相似度矩阵相结合，以及对训练文本进行训练，得到语义平滑矩阵，通过语义平滑矩阵对文本进行分类，提高了文本分类的准确性。

需要说明的是，本发明实施例的装置是应用上述文本分类方法的装置，则上述文本分类方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

参见图4，图4为本发明实施例的文本分类装置的另一种结构图，在图3实施例的基础上，还包括：

第二文本表示模块401，用于通过文本表示将训练文本映射为VSM中的第二文本向量。

统计相似度矩阵确定模块402，用于根据核矩阵公式，计算第二文本向量的统计相似度矩阵。

词语相似度矩阵确定模块403，用于根据世界知识，确定第二文本向量的词语相似度矩阵。

语义平滑矩阵确定模块404，用于根据统计相似度矩阵和词语相似度矩阵，确定语义平滑矩阵。

可选的，本发明实施例的文本分类装置，还包括：

预处理模块，用于对待分类文本进行预处理，得到预处理后的待分类文本。

本发明实施例的一种实现方式中，第一文本表示模块具体用于，如果待分类文本d_j中包含的n个特征词分别为：w_1j,w_2j,…,w_nj，n个特征词构成的向量表示为：(w_1j,w_2j,…,w_nj)，根据权重计算公式：

可选的，本发明实施例的文本分类装置中，统计相似度矩阵确定模块具体用于，根据核矩阵公式：S＝UU^T，确定第二文本向量的统计相似度矩阵S，

其中，U表示第二文本向量中特征词的权重形成的矩阵。

可选的，本发明实施例的文本分类装置中，语义平滑矩阵确定模块，包括：

调节子模块，用于根据公式：E＝λ₁×S+λ₂×Z，通过调节统计相似度矩阵S权重的归一化参数λ₁和词语相似度矩阵Z权重的归一化参数λ₂的值得到语义平滑矩阵E。

文本分类准确率确定子模块，用于根据语义平滑矩阵E，确定训练文本的文本分类结果以及训练文本的文本分类准确率。

循环子模块，用于当文本分类准确率小于预设阈值时，返回通过调节统计相似度矩阵S权重的归一化参数λ₁和词语相似度矩阵Z权重的归一化参数λ₂的值得到语义平滑矩阵E的步骤，直至文本分类准确率大于或等于预设阈值。

参数确定子模块，用于当文本分类准确率大于或等于预设阈值时，确定语义平滑矩阵E对应的λ₁和λ₂的值。

矩阵确定子模块，用于根据公式：E＝λ₁×S+λ₂×Z，确定语义平滑矩阵E。

其中，λ₁+λ₂＝1。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本分类方法，其特征在于，包括：

对所述第一映射向量进行分类，得到所述待分类文本的文本分类结果；

在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前，所述方法还包括：

通过文本表示将训练文本映射为VSM中的第二文本向量；

根据世界知识，确定所述第二文本向量的词语相似度矩阵；

2.根据权利要求1所述的文本分类方法，其特征在于，在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前，所述方法还包括：

3.根据权利要求1所述的文本分类方法，其特征在于，所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量，包括：

4.根据权利要求1所述的文本分类方法，其特征在于，所述根据核矩阵公式，计算所述第二文本向量的统计相似度矩阵，包括：

其中，U表示所述第二文本向量中特征词的权重形成的矩阵。

5.根据权利要求4所述的文本分类方法，其特征在于，所述根据所述统计相似度矩阵和所述词语相似度矩阵，确定所述语义平滑矩阵，包括：

根据公式：E＝λ₁×S+λ₂×Z，确定所述语义平滑矩阵E；

其中，λ₁+λ₂＝1。

6.一种文本分类装置，其特征在于，包括：

文本分类模块，用于对所述第一映射向量进行分类，得到所述待分类文本的文本分类结果；

7.根据权利要求6所述的文本分类装置，其特征在于，还包括：

8.根据权利要求6所述的文本分类装置，其特征在于，所述第一文本表示模块具体用于，如果所述待分类文本d_j中包含的n个特征词分别为：w_1j,w_2j,…,w_nj，所述n个特征词构成的向量表示为：(w_1j,w_2j,…,w_nj)，根据权重计算公式：