CN105045812A

CN105045812A - 文本主题的分类方法及系统

Info

Publication number: CN105045812A
Application number: CN201510341937.XA
Authority: CN
Inventors: 周诚; 赵世亭; 赵营营
Original assignee: Shanghai Gaoxin Computer Systems Co Ltd
Current assignee: Shanghai Gaoxin Computer Systems Co Ltd
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2015-11-11
Anticipated expiration: 2035-06-18
Also published as: CN105045812B

Abstract

本发明涉及文本主题分类技术领域，公开了一种文本主题的分类方法及系统。本发明中，文本主题的分类方法，包含以下步骤：采集语料；其中，语料包含各个主题类型的文本；对语料进行分词，并对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量；根据动态对数激励函数调整各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量；根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类，确定待分类文本的主题类型。这样，使得对文本分类更准确。

Description

文本主题的分类方法及系统

技术领域

本发明涉及文本主题分类技术，特别涉及一种文本主题的分类方法及系统。

背景技术

随着互联网信息的发展，文本分类需求也日趋增大，文本分类在一定程度上能够解决网上信息杂乱的现象，能够方便用户准确的定位自己所需的信息。文本分类是将带有大量标记的训练样本，通过一种分类模型或者函数，将待分类文本映射到指定的类别中。

文本分类方法可分为基于规则的分类方法和基于统计的分类方法。其中，基于规则的分类方法通过对训练集的学习，生成规则库，并将进行优化，最终得到的规则库为规则分类器。但是，基于规则的分类方法的缺点是，如FOIL算法，分为正例和负例提取规则，采用信息增益来提取最好的一个属性值来生成规则，而且一次只生成一条规则，在生成规则以后，将被规则覆盖的训练集删除，继续从生育的训练集中寻找最好的属性值。该方法有效的减少了冗余的规则，然而每条训练集仅被一条规则覆盖，因此在分类的时候准确率不高，特别是当训练集较小的时候。还有基于决策树分类的方法，对于默写数据集，当数据集的实例个数较多时，产生的决策树非常大，分类模型较为复杂。(具体参考文献《基于规则的分类方法研究》)基于统计的分类方法典型的有朴素贝叶斯分类器，贝叶斯分类方法使用于大型数据库，并且表现出高准确率和高速度。贝叶斯分类有如下特点：(1)贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类；(2)一般情况下在贝叶斯分类中所有的属性都潜在地起作用，即并不是一个或几个属性决定分类，而是所有的属性都参与分类；(3)贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。理论上，贝叶斯分类看起来很完美，但在实际中，它并不能直接利用，它需要知道证据的确切分布概率，而实际上我们并不能确切的给出证据的分布概率。因此在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求，使用起来不方便。

除此之外，还有基于向量空间模型的分类器、基于实例的分类器和用支持向量机建立的分类器等。SVM(支持向量机)在解决小样本、非线性及高纬模式识别中表现出其特有的优势，由于SVM算法不受样本趋于无穷大理论的限制，也适合做大样本集的文本分类，并且能够推广应用到函数模拟和其他机器学习问题中。但是，SVM由于要选择合适的核函数，使之训练速度也受样本集的影响，以及选取何种合适的核函数，也是该方法的难题。

文本分类还可以按照其数据训练的方法，分为有监督和无监督文本分类方法，其中有监督的方法有KNN(K最近邻)、神经网络、支持向量机与聚类方法等；其中KNN通过查询已知类别文本的信息，判断未知文本与已知文本是否属于同一类，通过判断训练文本与该未知文本距离最近的K个文本，根据这K个文本所属的类别，来判断该未知文本属于哪个类别。KNN方法计算复杂度低，鲁棒性强，但是，缺点是分类速度较慢，需要计算待分类样本与训练样本之间的距离，不适合做在线实时分类。

无监督的文本方法包括LDA(LatentDirichletAllocation，隐含狄利克雷分布)、无监督聚类等。LDA方法是统计主题模型中的典型算法，文本分类核心问题是提取文本中的特征，从而分析文本属于何种主题。LDA可以看成一种生成式概率问题。LDA是Blei(布雷)提出的一种对离散数据集建模的概率增长模型。LDA模型有着突出的优点：首先LDA模型是全概率生成模型，具有清晰的层次结构；其次LDA模型在主题层与词层都引入了Dirichlet(狄利克雷)先验参数，主题参数个数随训练文档数目增加而线性增加，从而导致过度拟合的问题，因此更适合处理大规模语料库，对中小规模语料库不适用，应用具有局限性。

LDA模型具有三层生成式贝叶斯网络结构，如图1所示。其中，α描述隐含主题间的相对强弱，β反映的是隐含主题自身的概率分布，θ为文本的相应主题分布概率向量，z表示目标文档的隐含主题在每个词上的概率，w表示文档中的特征词向量，m为文档次序，且m∈[1,M]，M为文档数目，n为词语次序，且n∈[1,N_m]，N为词语数目，表示词语在第k个主题类型的多项式分布向量，k∈[1,K]，K为主题类型的数目；101、102、103所示的方框表示重复抽样，101表示对主题类型抽样，102表示对词语抽样，103表示对文档抽样。贝叶斯网络基于这样一种前提假设：文档是由若干个隐含主题构成，而这些主题是由文本中若干个特定词汇构成，忽略文档中的句法结构和词语出现的先后顺序。假设文档集合可以分成若干隐含主题，而隐含主题又由若干特定词汇构成，这些隐含主题拓扑结构是线性的，进一步可以利用概率推断算法将每个文档表示为这些隐含主题特定比例的随机混合，且可将隐含主题看作词的概率分布。LDA属于完全的生成概率模型，具有清晰的层次结构，依次为文档层、主题层和词层。LDA模型应用于文档集主题建模的符号定义如下：

(1)词是文本数据的基本单元，是用{1,2,......,V}索引的词表的分项。词表中的第V个词用一个V维的向量w表示，其中，对于任意μ≠ν，w_ν＝1，w_μ＝0；

(2)文档是N个词的序列，用d＝{w₁,w₂,......,w_n}表示，w_n是序列中的第n个词；

(3)文档集是M个文档的集合，表示成D＝{d₁,d₂,......,d_M}。

LDA模型由文档集合层的参数(α,β)确定，N_m表示第m篇文档中包含的词语个数；随机变量θ服从Dirichlet分布(θ～Dirichlet(α))，用1*K的列向量表示每个隐含主题的权重；Z服从Multinomial分布(Z～Multionomial(θ))；也服从Dirichlet分布用K*V的矩阵表示给定主题时词的条件分布。

LDA概率主题模型生成文本的过程如下：

1)对每个主题j，根据Dirichlet分布Dir(β)得到该主题上面的一个单词多项式分布向量

2)根据泊松分布Possion(ζ)得到文本的单词数目N；根据Dirichlet分布Dir(α)得到文本的相应主题分布概率向量θ；

3)对该文本N个单词中的每一个单词w_n，本步骤中，包含以下子步骤：

a)从θ的多项式分布Multionomial(θ)随机选择一个主题k；

b)从主题k的多项式条件概率分布选择一个单词作为w_n。

假设包含D个文档的文档集中隐含K个独立的主题，则所给文本中的第i个词汇w_i出现的概率为：

p (w_{i}) = Σ_{j = 1}^{K} p (w_{i} | z_{i} = j) p (z_{i} = j) - - - (1)

潜在变量z_i＝j表示第i个词汇w_i曲子第j个隐含主题，p(w_i|z_i＝j)是w_i属于主题j的概率，p(z_i＝j)给出文档d属于主题j的概率。第j个主题表示为词表中V个词的多项式分布文本表示成k个隐含主题上的随机混合所以文本d中词汇w发生的概率为：

通过EM(期望最大化算法)求最大似然函数：

l (α, β) = Σ_{i = 1}^{M} \log p (d_{i} | α, β) - - - (3)

文本d“发生”的条件概率分布：

p (d | α, β) = \frac{Γ (Σ_{i} α_{i})}{Π_{i} Γ (α_{i})} &Integral; (Π_{i = 1}^{k} θ_{i}^{α_{i} - 1}) (Σ_{n = 1}^{N} Σ_{i = 1}^{k} Π_{j = 1}^{V} (θ_{i} β_{ij})) dθ - - - (4)

构建并使用LDA模型的关键问题是隐含变量分布的推断，即获得目标文档内部隐含主题的构成信息(θ,z)。假若给定模型参数α,β，文档d的随机变量θ,z和w的联合分布：

p (θ, z, w | α, β) = p (θ | α) Π_{i = 1}^{N_{m}} P (z_{i} | θ) p (w_{i} | z_{i}, β) - - - (5)

上式中，同时存在多个隐含变量，Blei采用变分Bayes(贝叶斯)推理，还有采用Gibbs(吉布斯)抽样、Laplace(拉普拉斯变换)近似、期望-扩散(ExpectationPropagation)等近似推理算法求得待估计参数值。

由上可知，由于LDA模型需要通过估算多个隐含变量得到最终文档属于该主题的概率，所以计算复杂，且通过直接推理求出结果是非常困难的。另外LDA算法虽然能将文本赋予不同主题的权重，文本本身归属于哪种主题类型，并不是唯一的，因为文本只是属于该种主题的权重较大，属于另外一种主题的权重较为小而已，并不代表文本属于权重较大的主题，而不属于权重较小的主题。

而且，基于贝叶斯网络的分类方法，假设一个属性值对给定类型的影响独立于其它属性的值，其基本思想是计算文本属于该类型的该类，它的前提假设使得分类器具有较高的效率，但是降低了最终的分类精度。

发明内容

本发明解决的问题在于提供一种文本主题的分类方法及系统，使得对文本分类更准确。

为解决上述技术问题，本发明的实施方式提供了一种文本主题的分类方法，包含以下步骤：

采集语料；其中，所述语料包含各个主题类型的文本；

对所述语料进行分词，并对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量；

根据动态对数激励函数调整各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量；

根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类，确定待分类文本的主题类型。

本发明的实施方式还提供了一种文本主题的分类系统，包含：采集模块、分词模块、提取模块、调整模块与分类模块；

所述采集模块，用于采集语料；所述语料包含各个主题类型的文本；

所述分词模块，用于对所述语料进行分词；

所述提取模块，用于对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量；

所述调整模块，用于根据动态对数激励函数调整所述提取模块提取的各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量；

所述分类模块，用于根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类，确定待分类文本的主题类型。

本发明实施方式相对于现有技术而言，利用动态对数激励函数对提取的各主题类型文本的特征向量中的特征值进行调整，可以使各种主题类型的文本的特征属性具备更强的指向性，进而，可以提高文本在分类过程中的准确率和召回率，使待分类文本能够更加准确的分到所属主题类别中。而且，模型简单，计算效率高，分类速度快；上述方法及系统可以直接利用，避免了近似处理带来的分类错误率；计算简单，提高了分类的精度。

另外，所述动态对数激励函数为1、或者其中，f为动态对数激励函数值，x为一个词语在一个主题类型中的占比与该词语在所有主题类型中的占比之比，a为包含同一个词语的主题类型的数目，k与b均为常数。

另外，a∈[1,2,3,....,l-1,l]、k∈[1.3,1.5]、b∈[0,1]；其中，l为文本主题类型的数目。

进一步地，在对所述语料进行分词之后，还包含以下步骤：去除分词后的语料中的停用词；在对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量的步骤中，对去除停用词的语料进行文本特征提取，得到各主题类型文本的特征向量。去除停用词，可以降低计算量，提高文本分类的速度与准确度。

另外，在根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类的步骤中，采用以下任意一种相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度：余弦相似度、欧氏距离、Tanimoto系数、对数似然相似度、曼哈顿相似度、Spearman相似度。计算文本相似度的方法的多样性，保证了本发明实施方式的灵活性。尤其是余弦相似度计算方法，计算简单，且可以提高文本分类的准确度。

附图说明

图1是现有技术中的LDA模型的三层生成式贝叶斯网络结构示意图；

图2是根据本发明第一实施方式的文本主题的分类方法的流程图；

图3是根据本发明第二实施方式的文本主题的分类方法的流程图；

图4是根据本发明第三实施方式的文本主题的分类系统的原理框图；

图5是根据本发明第四实施方式的文本主题的分类系统的原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

本发明的第一实施方式涉及一种文本主题的分类方法，具体流程如图2所示，包含以下步骤：

步骤201，采集语料。具体地说，可以通过爬虫技术，采集各个主题类型的文本(语料)，并将语料分为训练集、验证集与测试集。其中，测试集中的文本是待分类文本；采集的语料可以包含网页、文档等。文本的主题类型可以是娱乐、财经、游戏、体育、科技等。本实施方式中，假设采集的训练集合中文本的数目为M，主题类型的数目为l。

步骤202，对语料进行分词。具体地说，对语料进行分词，就是将语料中的词语分解出来，并统计得出各个词语出现的次数(即词频)。分词技术是现有成熟的技术，在此不再赘述。

步骤203，进行文本特征提取，得到各个主题类型文本的特征向量。在本实施方式中，采用TF-IDF(Termfrequency–inversedocumentfrequency，词频-逆文本率)模型来提取文本的特征向量。其中，TF为训练集中的词频，IDF为训练集中的逆文本频率。由于逆文本率反映的是一个词在其中一个文本中出现的次数多，而在另外一个文本中出现的次数少的特性，这样，利用TF-IDF模型提取的特征向量更加具有代表性。根据TF-IDF模型，则有：

TF = \frac{m_{{word}_{i}}}{N_{1}} - - - (6)

tf = \frac{n_{{word}_{i}}}{N_{2}} - - - (7)

IDF = \log \frac{M}{m_{{word}_{i}}} - - - (8)

其中，代表该词(word_i)在训练样本中出现的次数，N₁为训练样本文本的总词数；tf为测试集文本词频，代表该词(word_i)在测试样本中出现的次数，N₂代表该测试集中样本文本的总词数。每个词在所有主题类别中的词频-逆文本频率矩阵如下：

[\begin{matrix} avg ({tfidf}_{t 11}) & avg ({tfidf}_{t 12}) & . . . & avg ({tfidf}_{t 1 l}) \\ avg ({tfidf}_{t 21}) & avg ({tfidf}_{t 22}) & . . . & avg ({tfidf}_{t 2 l}) \\ . . . & . . . & . . . & . . . \\ avg ({tfidf}_{tn 1}) & avg ({tfidf}_{tn 2}) & . . . & avg ({tfidf}_{tnl}) \end{matrix}] - - - (9)

其中，tfidf为测试集的逆文本频率，且tfidf＝tf·IDF，n为测试集中词语的数目，avg()为取平均数函数，t为主题的种类数。

根据(9)式所示的矩阵，可以训练得出各个主题类型文本的特征向量。其中，每一个特征向量唯一地表征一个主题类型。

步骤204，根据动态对数激励函数调整各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量。具体地说，在本步骤中，是在如(9)式所示的矩阵中的每一项矩阵元素中，减去该词属于每种主题类型的平均概率与函数动态对数激励函数(f(x))的乘积，得到新的矩阵如下

[\begin{matrix} avg ({tfidf}_{t 11}) - {avg}_{1} \cdot f (x) & avg ({tfidf}_{t 12}) - {avg}_{1} \cdot f (x) & . . . & avg ({tfidf}_{t 1 l}) - {avg}_{1} \cdot f (x) \\ avg ({tfidf}_{t 21}) - {avg}_{2} \cdot f (x) & avg ({tfidf}_{t 22}) - {avg}_{2} \cdot f (x) & . . . & avg ({tfidf}_{t 2 l}) - {avg}_{2} \cdot f (x) \\ . . . & . . . & . . . & . . . \\ avg ({tfidf}_{tn 1}) - {avg}_{n} \cdot f (x) & avg ({tfidf}_{tn 2}) - {avg}_{n} \cdot f (x) & . . . & avg ({tfidf}_{tnl}) - {avg}_{n} \cdot f (x) \end{matrix}] - - - (10)

其中，avg_n为第n个词语属于每一个主题类型的平均概率，且

{avg}_{n} = \frac{{Topic 1}_{wn} + {Topic 2}_{wn} + . . . + {Topicl}_{wn}}{l} - - - (11)

其中，Topic1_wl＝avg(tf_i·IDF)，i＝1,2,...,n，Topicl为第l个主题类型，Topicl_wl为词语属于第l个主题类型的概率。

在本实施方式中，利用动态对数激励函数对(10)的矩阵进行调整的具体过程如下：

首先，f(x)的值取1。也就是，每个词语对应的矩阵元素减去该词语属于每一个主题类型的平均概率。

接着，动态对数激励函数采用如下形式

f (x) = \log_{a^{- 1}} x - b - - - (12)

其中，f为动态对数激励函数值，x为一个词语在一个主题类型中的占比与该词语在所有主题类型中的占比之比，a为包含同一个词语的主题类型的数目，b均为常数，且a∈[1,2,3,....,l-1,l]、b∈[0,1]，b的取值范围是经试验得到的值。经过上述调整以后，若求得分类准确率高，b取0，如果分类准确率低，将调整激励函数中的b的值为1。

最后，动态对数激励函数采用如下形式

f (x) = \log_{a^{{- k}^{- 1}}} x - b - - - (13)

其中，k为常数，且k∈[1.3,1.5]，k的取值范围是经试验得到的值，k是决定对a进行开几次方。k的初始值(即在特征向量趋向性不强的情况下)取1.3，在特征向量趋向性强的时候(也即特征向量经过求余弦值，所得到的值准确率高时)情况下取1.5；经过上述调整以后，若求得分类准确率高，b取0，如果分类准确率低，将调整激励函数中的b的值为1。

在本步骤中，可以根据主题的种类，通过调整a与k调整激励函数的值，再通过调整b的值，进一步调整激励函数的值。调整参数a、b、k的值后，得到新的矩阵。根据(10)式所示的矩阵，可以训练得出新的各个主题类型文本的特征向量。

对于激励函数f(x)，f(a)、f(k)分别为增函数、减函数，主题类型越多，调整后，a越大，f(a)的值越大，在原来的特征向量上减去的项avg_n·f(x)越大，使得新的特征向量的方向性越明显，指向性越强。通过种类的变化，调整k的值，可以对整个特征向量进行微调，使新的特征向量的方向性更加明显，指向性进一步增强。

新的各主题类型文本的特征向量的方向性越明显，指向性越增强。当样本文本的特征向量的方向性越明显时，样本文本的特征越明显；样本文本的特征越明显，越有利于确定待分类文本的指向，即越有利于提高文本分类的准确性。

需要说明的是，在本实施方式中，是依次利用动态对数激励函数为1、或对(10)式所示的矩阵进行调整，在实际应用中，既可以单独使用动态对数激励函数的3种形式中的任何一个对(10)式所示的矩阵进行调整，也可以采用3个形式中的任意组合对(10)式所示的矩阵进行调整。

步骤205，采用余弦相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度。待分类文本与新的各主题类型文本的特征向量的余弦相似度通过计算待分类文本与新的各主题类型文本的特征向量的余弦值来获取，一个待分类文本的特征向量与一个主题类型文本的特征向量的余弦值的计算公式如下

\cos θ = \frac{{TFIDF}_{w 1} \cdot {tfidf}_{w 1} + {TFIDF}_{w 2} \cdot {tfidf}_{w 2} + . . . + {TFIDF}_{wn} {\cdot tfidf}_{wn}}{\sqrt{{TFIDF}_{w 1}^{2} + {TFIDF}_{w 2}^{2} + {TFIDF}_{wn}^{2}} \cdot \sqrt{{tfidf}_{w 1}^{2} + {tfidf}_{w 2}^{2} + {tfidf}_{wn}^{2}}} - - - (14)

其中，TFIDF_wn为训练集中的第n个词的逆文本频率，tfidf_wn为测试集中第n个词的逆文本频率，其中，TFIDF_wn＝TF_wn·IDF，tfidf_wn＝tf_wn·IDF。

具体地说，在本步骤中，分别计算待分类文本的特征向量与新的各主题类型文本的特征向量的余弦值，以供根据计算得到的余弦值对待分类文本进行分类。

利用余弦相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度，计算简单，计算效率高，分类速度快且计算准确。利用向量具备的方向性，对文本进行分类，指向性更强。

步骤206，根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类。

具体而言，本步骤中，将与余弦值最大对应的主题类型确定为待分类文本的主题类型。由于余弦值越大，待分类文本的特征向量与主题类型文本的特征向量之间的夹角越小，待分类文本的特征向量越趋向于主题类型文本的特征向量，所以，待分类文本的特征向量最靠近与余弦值最大对应的主题类型文本的特征向量，即待分类文本的主题类型最接近与余弦值最大对应的主题类型。

以上对文本主题的分类方法进行了介绍，下面进行举例说明：假设步骤203中得到的每个词在所有主题类别中的词频-逆文本频率矩阵为

[\begin{matrix} 1 & 0 \\ 0 & 1 \\ 1 & 1 \end{matrix}],

在此代表有两类主题类型T1和T2，其中，T1为

[\begin{matrix} 1 \\ 0 \\ 1 \end{matrix}],

T2为

[\begin{matrix} 0 \\ 1 \\ 1 \end{matrix}];

同时假设待分类文本的特征向量test为

[\begin{matrix} 1 \\ 2 \\ 2 \end{matrix}],

激励函数f(x)＝1。故原每个词在所有主题类别中的词频-逆文本频率矩阵变为

[\begin{matrix} 1 - \frac{1}{2} f (x) & 0 - \frac{1}{2} f (x) \\ 0 - \frac{1}{2} f (x) & 1 - \frac{1}{2} f (x) \\ 1 - f (x) & 1 - 1 \cdot f (x) \end{matrix}] = [\begin{matrix} - \frac{1}{2} & - \frac{1}{2} \\ - \frac{1}{2} & - \frac{1}{2} \\ 0 & 0 \end{matrix}] - - - (15)

从(14)式训练出新的各个主题类型文本的特征向量T1’、T2’，其中，T1’为

[\begin{matrix} - \frac{1}{2} \\ - \frac{1}{2} \\ 0 \end{matrix}],

T2’为

[\begin{matrix} - \frac{1}{2} \\ \frac{1}{2} \\ 0 \end{matrix}] .

对比T1与T1’，T2与T2’可以发现，T1与T2的指向性更强。

不加入激励函数f(x)时，计算test分别与T1、T2的夹角余弦值如下：

\cos θ_{1} = \frac{1 + 2}{3 \sqrt{2}} = \frac{\sqrt{2}}{2} - - - (16)

\cos θ_{2} = \frac{2 + 2}{3 \sqrt{2}} = \frac{4}{3} \cdot \frac{\sqrt{2}}{2} - - - (17)

加入激励函数f(x)对T1、T2调整后，计算test分别与T1’、T2’的夹角余弦值如下：

\cos {θ^{'}}_{1} = \frac{\frac{1}{2} - 1 + 1}{3 \cdot \frac{\sqrt{2}}{2}} = - \frac{1}{3} \cdot \frac{\sqrt{2}}{2} - - - (18)

\cos {θ^{'}}_{2} = \frac{1}{3} \cdot \frac{\sqrt{2}}{2} - - - (19)

对比式(16)～(19)可以看出，加入激励函数后，(19)式的值变小，(18)式的值变成了负值。待分类文本(test)属于T2与T2’，但是，test属于T2’的隶属度更强；由于(18)式的值变成了负值，方向变为反方向，所以test更疏远不属于的主题类型T1’。这表明利用动态对数激励函数对提取的各主题类型文本的特征向量中的特征值进行调整，可以使各种主题类型的文本的特征属性具备更强的指向性，进而，使待分类文本能够更加准确的分到所属主题类别中。

在未对每种主题特征向量经过激励函数调整之前，待分类文本被分类的准确率较低，但是经过激励函数的调整以后，待分类文本被分类的准确率有了一定的提高，在式(15-19)中证明经过激励函数调整以后的特征向量有着更强的特征指向性，这就说明了每种主题类型的特征向量更具有区分性，在进行更多分类，或者是将一主题进行细分类时，如将游戏这一主题类型，细分为网游、页游、手游时，其特征属性比原先未经激励函数调整之前的特征属性，更具有区分性，也即每种细分后的主题特征向量之间区别会被增大，所以待到分类时，能够准确分到所属类别中，所以提高了分类精度。

需要说明的是，本实施方式中，采用余弦相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度，在实际应用时，还可以采用欧氏距离、Tanimoto系数、对数似然相似度、曼哈顿相似度、Spearman相似度的计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度。用户可以根据实际情况进行选择，不限于本实施方式中的余弦相似度计算方法。

与现有技术相比，可以利用动态对数激励函数对提取的各主题类型文本的特征向量中的特征值进行调整，由于向量本身而言是具有方向和长度的，如果特征向量中的各个元素减去对应的每个词属于每种主题类型的平均概率与函数动态对数激励函数(f(x))的乘积，该特征向量长度会变短，或者变为反向，如果一个词属于一个主题的隶属度很强，该特征向量还是这个方向，如果一个词属于一个主题的隶属度弱，该特征向量就变为反方向，这就使得该特征向量变为指向另外一个主题的向量。由上可知，利用动态对数激励函数对提取的各主题类型文本的特征向量中的特征值进行调整，具有纠错功能，可以使各种主题类型的文本的特征属性具备更强的指向性，进而，可以提高文本在分类过程中的准确率和召回率，使待分类文本能够更加准确的分到所属主题类别中。而且，模型简单，计算效率高，分类速度快；本方法可以直接利用，避免了近似处理带来的分类错误率；不存在选取函数的难题，且还可以提高分类的精度。

本发明的第二实施方式涉及一种文本主题的分类方法。第二实施方式在第一实施方式的基础上作了进一步改进，主要区别之处在于：在本发明第二实施方式中，还去除语料中的停用词，这样，不但可以减少文本分类过程中的计算量，还可以提高文本分类的准确性。

具体地说，本实施方式中的文本主题的分类方法，包含步骤301～307，具体如图3所示，其中，301、302、304、305、306、307分别与第一实施方式中的步骤201～206分别相似，在此不再赘述。下面具体介绍步骤303：

步骤303，去除停用词。本实施方式中的停用词为文本分类领域的停用词。去除停用词，一方面，可以减小文本分类的计算量，提高文本分类的效率；另一方面，去除停用词，可以消除对文本分类的干扰，调高文本分类的准确性。

为验证本实施方式中文本主题的分类方法的有效性，本发明的发明人将采用本实施方式的文本分类方法与现有技术的文本分类方法进行了对比，对比结果如下：

表1对比结果

从表1可知，本实施方式中的文本主题的分类方法对文本分类的准确率得到了大幅地提高。

其中，原来特征向量减去包含avg_n与f(x)的项相当于就是使特征向量更具有指向性。比如，某篇娱乐报道新闻经过分词，统计得该新闻共有1005个词，抽取该篇报道中五个词语，及其TF-IDF值如下：

表2词语与TF-IDF值对应表

词语	TF-IDF值
		格斗	0.157773675
台上	0.004550031

美的	0.124624853
		宋佳	0.401784129
比赛	0.061458979

对特征向量未经激励函数调整，上述词语对应的特征向量如下：

表3词语与对应的特征向量表

词语	娱乐	游戏	体育	科技	财经
						格斗	0.01829243	0.022879749	0.027707221	0.009750032	0.024746482
台上	0.011145566	0.008398629	0.009622969	0.004583761	0.004096238
						美的	0.0090623	0.011280811	0.010122807	0.02612635	0.010132202
宋佳	0.072831007	0.034718982	0.024782721	0.011378861	0
						比赛	0.010587506	0.013038363	0.020440727	0.007452473	0.006332767

利用余弦定理，计算该新闻与各个类别的余弦值：其中cosθ_娱乐为该新闻与娱乐之间的余弦值。

cosθ_娱乐＝

(0.157773675*0.01829243+0.004550031*0.011145566+0.124624853*0.0090623+0.401784129*0.072831007+0.061458979*0.010587506+···)/[((0.157773675)²+(0.004550031)²+(0.124624853)²+(0.401784129)²+(0.061458979)²)^1/2+(0.01829243)²+(0.011145566)²+(0.0090623)²+(0.072831007)²+(0.010587506)²)^1/2+···]＝0.798572563

同理还可以得到该新闻与其他类别的余弦值，具体如下表所示：

表4新闻与各主题类型的余弦值

对特征向量经过激励函数调整之后上述词语的特征向量如下表：

表5词语与调整后对应的特征向量表

词语	娱乐	游戏	体育	科技	财经
						格斗	0.020101569	0.025017718	0.029906207	0.010617317	8.14E-04
台上	0.007314254	0.008234909	0.009472867	0.004534832	0.005256293
						美的	0.00818481	0.010226415	0.009171908	0.023972074	0.02971381
宋佳	0.072859115	0.035296595	0.02490313	0.011321682	0.002986635
						比赛	0.00973839	0.012575634	0.019604324	0.007149051	0.010599831

同理得到该新闻与各个类别之间的余弦值：

表6新闻与各主题类型的余弦值

可以观察下表(3)和表(5)中明星姓名“宋佳”一词，在经过激励函数调整以后，该词在娱乐中的特征增强，也即特征值变大；观察表(4)和表(6)，未经激励调整时，该篇新闻报道，可以理解为属于娱乐，或者体育类型新闻，但经过调整以后，得到的余弦值，如表(6)，除了娱乐为正值，其他的余弦值都为负值，使得该新闻报道隶属于娱乐类型隶属度强。不会出现如表(4)中的结果。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包含相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种文本主题的分类系统，如图4所示，包含：采集模块、分词模块、提取模块、调整模块与分类模块。

采集模块，用于采集语料；语料包含各个主题类型的文本。

分词模块，用于对语料进行分词。

提取模块，用于对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量。

调整模块，用于根据动态对数激励函数调整所述提取模块提取的各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量。

其中，动态对数激励函数为1、或者

其中，f为动态对数激励函数值，x为一个词语在一个主题类型中的占比与该词语在所有主题类型中的占比之比，a为包含同一个词语的主题类型的数目，k与b均为常数。且a∈[1,2,3,....,l-1,l]、k∈[1.3,1.5]、b∈[0,1]；其中，l为文本主题类型的数目。

分类模块，用于根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类，确定待分类文本的主题类型。具体地说，分类模块采用以下任意一种相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度：余弦相似度、欧氏距离、Tanimoto系数、对数似然相似度、曼哈顿相似度、Spearman相似度。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第四实施方式涉及一种文本主题的分类系统，具体如图5所示。第四实施方式与第三实施方式上作了进一步改进，主要改进之处在于：在本发明第四实施方式中，还包含去除模块，用于去除语料中的停用词，减小文本分类的计算量，提高文本分类的准确性。

由于第二实施方式与本实施方式相互对应，因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种文本主题的分类方法，其特征在于，包含以下步骤：

采集语料；其中，所述语料包含各个主题类型的文本；

2.根据权利要求1所述的文本主题的分类方法，其特征在于，所述动态对数激励函数为1、

f (x) = \log_{a^{- 1}} x - b

或者

f (x) = \log_{a^{- k^{- 1}}} x - b;

其中，f为动态对数激励函数值，x为一个词语在一个主题类型中的占比与该词语在所有主题类型中的占比之比，a为包含同一个词语的主题类型的数目，k与b均为常数。

3.根据权利要求1所述的文本主题的分类方法，其特征在于，a∈[1,2,3,....,l-1,l]、k∈[1.3,1.5]、b∈[0,1]；

其中，l为文本主题类型的数目。

4.根据权利要求1所述的文本主题的分类方法，其特征在于，在对所述语料进行分词之后，还包含以下步骤：

去除分词后的语料中的停用词；

在对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量的步骤中，

对去除停用词的语料进行文本特征提取，得到各主题类型文本的特征向量。

5.根据权利要求1所述的文本主题的分类方法，其特征在于，在根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类的步骤中，采用以下任意一种相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度：

余弦相似度、欧氏距离、Tanimoto系数、对数似然相似度、曼哈顿相似度、Spearman相似度。

6.根据权利要求1所述的文本主题的分类方法，其特征在于，在对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量的步骤中，

采用TF-IDF的统计方法对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量。

7.一种文本主题的分类系统，其特征在于，包含：采集模块、分词模块、提取模块、调整模块与分类模块；

所述分词模块，用于对所述语料进行分词；

8.根据权利要求7所述的文本主题的分类系统，其特征在于，所述动态对数激励函数为1、

f (x) = \log_{a^{- 1}} x - b

或者

f (x) = \log_{a^{- k^{- 1}}} x - b;

9.根据权利要求7所述的文本主题的分类系统，其特征在于，a∈[1,2,3,....,l-1,l]、k∈[1.3,1.5]、b∈[0,1]；

其中，l为文本主题类型的数目。

10.根据权利要求7所述的文本主题的分类系统，其特征在于，所述分类模块采用以下任意一种相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度：