CN106326346A

CN106326346A - 文本分类方法及终端设备

Info

Publication number: CN106326346A
Application number: CN201610639588.4A
Authority: CN
Inventors: 周诚; 赵世亭
Original assignee: Shanghai Gaoxin Computer Systems Co Ltd
Current assignee: Shanghai Gaoxin Computer Systems Co Ltd
Priority date: 2016-08-06
Filing date: 2016-08-06
Publication date: 2017-01-11

Abstract

本发明涉及信息处理领域，公开了一种文本分类方法及终端设备。本发明实施方式中，计算N种文本类型的训练样本分词后包含各个词向量的词向量矩阵，再基于该词向量矩阵计算出每种文本类型的训练样本的特征向量，并根据计算出的训练样本的特征向量计算后向传播神经网络的输入量，再根据该后向传播神经网络确定出文本分类器，最后根据待测试文本的特征向量和文本分类器，确定待测试文本的类型。CBOW对词向量化时，会考虑当前词的前面几个词和后面几个词的联系，再结合经典的后向传播神经网络，可使整个网络训练也具有语义特性，可进一步让整个网络认知、理解文本内容，具有更好的训练效果。

Description

文本分类方法及终端设备

技术领域

本发明涉及信息处理领域，特别涉及一种文本分类方法及终端设备。

背景技术

文本分类是指把一组预先由专家分类过的文本作为训练样本集，对训练样本集进行分析得出分类模式，用导出的分类模式对其他文本加以分类。它主要应用于信息检索、机器翻译、自动文摘及信息过滤等。

在实现本发明的过程中，本申请的发明人发现，采用基于分层分类器Hierarchical Softmax的CBOW训练方式对罕见词更有利，可实现对该类文本的较快速分类，基于负采样算法的CBOW训练方式对常见词和低维向量的文本分类有利，同时，基于两种不同算法的CBOW在训练时，通常选择的窗口大小在5左右，基于上述两种文本训练方法得到的词向量，虽然具有一定的语义特征，但是并不能深度认知、理解文本的内容。

发明内容

本发明实施方式的目的在于提供一种文本分类方法及终端设备，CBOW对词向量化时，会考虑当前词的前面几个词和后面几个词的联系，再结合经典的后向传播神经网络，可使整个网络训练也具有语义特性，进一步让整个网络认知、理解文本内容，具有更好的训练效果。

为解决上述技术问题，本发明的实施方式提供了一种文本分类方法，包括：

将N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中，计算包含各个词向量w_ij的词向量矩阵W_ij；所述N为大于2的自然数；

根据所述各个训练样本包含的词向量w_ij，计算每种文本类型的训练样本的特征向量D_l；其中，l＝1,2,...,N；

根据各种文本类型的所述训练样本的特征向量D_l，计算后向传播神经网络的输入E；

根据所述后向传播神经网络，计算文本分类器P；

根据待测试文本的特征向量和所述文本分类器P，确定待测试文本的类型；

其中，i为词数，j为词向量的维度。

本发明的实施方式还提供了一种终端设备，包括：

词向量计算模块，用于根据N种文本类型的训练样本的分词，计算包含各个词向量w_ij的词向量矩阵W_ij；所述N为大于2的自然数；

训练样本特征向量计算模块，用于根据所述各个训练样本所包含的词向量w_ij，计算每种文本类型的训练样本的的特征向量D_l；其中，l＝1,2,...,N。

后向传播神经网络输入计算模块，用于根据各种文本类型的所述训练样本的特征向量D_l，计算后向传播神经网络的输入；

文本分类器确定模块，用于根据所述后向传播神经网络，计算文本分类器P；

待测试文本类型确定模块，用于根据待测试文本的特征向量和所述文本分类器P，确定待测试文本的类型；

其中，i为词数，j为词向量的维度。

本发明实施方式相对于现有技术而言，计算N种文本类型的训练样本分词后包含各个词向量的词向量矩阵，再基于该词向量矩阵计算出每种文本类型的训练样本的特征向量，并根据计算出的训练样本的特征向量计算后向传播神经网络的输入量，再根据该后向传播神经网络确定出文本分类器，最后根据待测试文本的特征向量和文本分类器，确定待测试文本的类型。CBOW对词向量化时，会考虑当前词的前面几个词和后面几个词的联系，从而根据词向量计算得到的特征向量在一定程度上具有语义特征，再结合经典的后向传播神经网络，可使整个网络训练也具有语义特性，进一步让整个网络认知、理解文本内容，具有更好的训练效果，根据具有语义特性的后向传播神经网络确定的确定文本分类器P，也会具有一定语义特性，可极大提高文本分类的准确度。

另外，所述根据各种文本类型的所述训练样本的特征向量D_l，计算后向传播神经网络的输入，具体包括：根据所述特征向量D_l，通过以下公式，计算所述后向传播神经网络的输入E：其中，M代表所述训练样本数，M＞N，k为每个所述训练样本中的词数。

通过进一步计算后向传播神经网络的输入量，可以更好的激活后向传播神经网络的神经元，使其具有更好的反馈和回应机制，其中，反馈机制是指信息输入神经网络后，神经网络中的神经元所做出的相应回应，回应机制则是对反馈机制最终认知的正确输出。

另外，所述根据后向传播神经网络，计算文本分类器P，具体包括：将所述后向传播神经网络迭代T次；所述迭代T次的后向传播神经网络，被确定为文本分类器P；其中，T为预设的迭代次数。

通过将后向传播神经网络迭代T次，可以让整个网络具有一定的深度，进一步使整个网络更好的认知、理解文本内容，具有更好的训练效果，提高分类结果的准确度。

另外，所述根据各个训练样本所包含的词向量w_ij，计算每种文本类型的训练样本的特征向量D_l，具体包括：采用加和求平均的计算方式，计算每种文本类型的所述训练样本的特征向量D_l；

通过加和求平均的计算方式，计算每种文本类型的所述训练样本的特征向量时，运算量小而且计算过程简便快捷。

另外，所述确定待测试文本的类型之前，还包括：计算所述待测试文本的特征向量；其中，将所述待测试文本分词后，从所述词向量矩阵W_ij中查找所述待测试文本包含的各个词向量w_ij；根据所述待测试文本的词向量w_ij，采用加和求平均的计算方式，计算所述待测试文本的特征向量。

通过查找词向量矩阵W_ij中的待测试文本所包含的各个词向量w_ij，可以充分利用已有的词向量矩阵W_ij，从而实现对各个词向量的快速准确查找，间接提高整个待测试文本分类过程的效率。

附图说明

图1是根据本发明第一实施方式的一种词向量的文本分类方法流程图；

图2是根据本发明第一实施方式的CBOW模型的结构示意图；

图3是根据本发明第一实施方式的CBOW模型的网络结构示意图；

图4是根据本发明第一实施方式的CBOW模型查词的相关示意图；

图5是根据本发明第一实施方式的负采样算法隐射的建立示意图；

图6是根据本发明第一实施方式的CBOW-BP模型的结构示意图；

图7是根据本发明第三实施方式的一种终端设备的结构示意图；

图8是根据本发明第四实施方式的一种终端设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种词向量的文本分类方法。具体流程如图1所示。

在步骤101中，计算词向量矩阵W_ij，将N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中，计算词向量矩阵W_ij。

具体地说，将包含N种文本类型的训练样本进行分词后，得到的数据输入至CBOW中，计算出该N种文本类型的训练样本的词向量及包含各词向量的词向量矩阵，其中，词向量记作w_ij，词向量矩阵记作W_ij，i为词数，j为词向量的维度，词向量矩阵W_ij的具体形式如下所示：

其中，W_ij中的每一行代表一个词的向量表达。

此外，本发明实施方式中所说的CBOW，是基于负采样算法的CBOW。常用的CBOW有基于Hierarchical Softmax的CBOW和基于负采样算法的CBOW两种类型，下面分别对基于Hierarchical Softmax的CBOW和基于负采样算法的CBOW进行介绍。

其中，基于Hierarchical Softmax的CBOW模型，包含输入层、投影层和输出层，其是在已知当前词w_t的上下文w_t-2，w_t-1，w_t+1，w_t+2的前提下预测当前词w_t，如图2所示。假设样本(Context(w),w)由w前后各c个词构成，则输入层包含Context(w)中2c个词的词向量v(Context(w)₁v)，v(Context(w)₂v)，v(Context(w)_2cv)∈R^m，m表示词向量的长度。投影层将输入的2c个向量做求和累加，即其结构示意图如图3所示。输出层对应一棵二叉树，它是以语料中出现过的词当叶子结点，以各词在语料中出现的次数当权值构造出来的霍夫曼树，在这棵霍夫曼树中，叶子结点共N＝(|D|)个，分别对应词典D中的词s，非叶子结点N-1个(图中标成黑色的那些结点)。

Hierarchical Softmax是词向量中用于提高性能的一项关键技术，霍夫曼树中的某个叶子结点，假设它对应词典D中的词w，记：

1)p^w表示从根结点出发到达w对应叶子结点的路径；

2)l^w表示路径p^w中包含结点的个数；

3)表示路径p^w中的l^w个结点，其中表示根结点，表示词w对应的结点；

4)表示词w的霍夫曼编码，它由l^w-1位编码构成，表示路径p^w中第j个结点对应的编码(根结点不对应编码)；

5)表示路径p^w中非叶子结点对应的向量，表示路径p^w中第j个非叶子结点对应的向量。

现用词w＝“足球”的示例，说明如何在图3所示的网络结构下，利用向量x_w∈R^m以及霍夫曼树来定义函数p(w|Context(w))，具体过程如图4所示。四条虚线边串起来的5个节点就构成路径p^w，其长度l^w＝5，为路径p^w上的5个结点，且对应根结点，分别为1,0,0,1，即“足球”的霍夫曼编码为1001，此外，分别表示路径p^w上4个非叶子结点对应的向量。从根结点出发到达“足球”这个叶子节点，中间共经理了4次分支(每条虚线的边对应一次分支)，而每一次分支都可视为进行了一次二分类。既然是从二分类的角度来考虑问题，那么每一个非叶子结点，就需要为其左右孩子结点制定一个类别，即哪个是正类(标签为1)，哪个是负类(标签为0)，除根结点以外，树中每个结点都对应了一个取值为0或1的霍夫曼编码，因此，一种最自然的做法就是将霍夫曼编码为1的结点定义为正类，编码为0的结点定义为负类(也可将0定义为正类，1定义为负类)，也就是将一个结点进行分类时，分到左边就是负类，分到右边就是正类，在此约定：根据逻辑回归可知，一个结点被分为正类的概率是被分为负类的概率则为其中，θ是待定参数，在这里非叶子结点对应的那些就可以扮演参数θ的角色。

对于从根结点出发到达“足球”这个叶子结点所经历的4次二分类，将每次分类结果的概率写出来就是：

1)第1次：

2)第2次：

3)第3次：

4)第4次：

则至此，通过w＝“足球”的例子可知：对于词典D中的任意词w,霍夫曼树中必存在一条存根结点到词w对应结点的路径p^w(且这条路径是唯一的)。路径p^w上存在l^w-1个分支，将每个分支看作一次二分类，每一次分类就产生一个概率，将这些概率相乘即为p(w|Context(w))。

p (w | C o n t e x t (w)) = Π_{j = 2}^{l^{w}} p (d_{j}^{w} | x_{w}, θ_{j - 1}^{w}) - - - (1)

p (d_{j}^{w} | x_{w}, θ_{j - 1}^{w}) = \{\begin{matrix} σ (x_{w}^{T} θ_{j - 1}^{w}), & d_{j}^{w} = 0 \\ 1 - σ (x_{w}^{T} θ_{j - 1}^{w}), & d_{j}^{w} = 1 \end{matrix}

或者，写成整体表达式的形式：

p (d_{j}^{w} | x_{w}, θ_{j - 1}^{w}) = {[σ (x_{w}^{T} θ_{j - 1}^{w})]}^{1 - d_{j}^{w}} {[1 - σ (x_{w}^{T} θ_{j - 1}^{w})]}^{d_{j}^{w}}

假设Y_w＝(y_w,1,y_w,2,…,y_w,N)^T为一个长度为N的向量，其分量不能表示概率，如果想要Y_w的分量y_w,i表示上下文为Context(w)时下一个词恰巧为词典D中第i个词的概率，则需要做一个softmax的归一化处理，则有其中i_w表示词w在词典D中的索引。因此

将式(1)代入对数似然函数中，则：

\begin{matrix} l = \underset{w &Element; C}{Σ} \log Π_{j = 2}^{l^{w}} {{[σ (x_{w}^{T} θ_{j - 1}^{w})]}^{1 - d_{j}^{w}} {[1 - σ (x_{w}^{T} θ_{j - 1}^{w})]}^{d_{j}^{w}}} \\ = \underset{w &Element; C}{Σ} Π_{j = 2}^{l^{w}} {(1 - d_{j}^{w}) \cdot \log [σ (x_{w}^{T} θ_{j - 1}^{w})] + d_{j}^{w} \cdot \log [1 - σ (x_{w}^{T} θ_{j - 1}^{w})]} \end{matrix}

记为CBOW模型的目标函数，在词向量中是利用随机梯度上升法来优化上述函数的。随机梯度上升法的做法如下所示：

每取一个样本(Context(w),w)，就对目标函数中的所有相关参数做一次更新。观察目标函数可知，该函数中的参数包括向量给出函数关于这些向量的梯度。

其中，关于的梯度为：

\begin{matrix} \frac{\partial l (w, j)}{\partial θ_{j - 1}^{w}} = \frac{\partial}{\partial θ_{j - 1}^{w}} (1 - d_{j}^{w}) \cdot \log [σ (x_{w}^{T} θ_{j - 1}^{w})] + d_{j}^{w} \cdot \log [1 - σ (x_{w}^{T} θ_{j - 1}^{w})]} \\ = (1 - d_{j}^{w}) [1 - σ (x_{w}^{T} θ_{j - 1}^{w})] x_{w} - d_{j}^{w} σ (x_{w}^{T} θ_{j - 1}^{w}) x_{w} \\ = {(1 - d_{j}^{w}) [1 - σ (x_{w}^{T} θ_{j - 1}^{w})] - d_{j}^{w} σ (x_{w}^{T} θ_{j - 1}^{w})} x_{w} \\ = [1 - d_{j}^{w} - σ (x_{w}^{T} θ_{j - 1}^{w})] x_{w} \end{matrix}

于是，的更新公式可写为：η表示学习率。

同理可得对x_w的梯度为：

\frac{\partial l (w, j)}{\partial x_{w}} = [1 - d_{j}^{w} - σ (x_{w}^{T} θ_{j - 1}^{w})] θ_{j - 1}^{w}

这里，x_w表示的是Context(w)中各词的词向量的累加，最终目的是求词典D中每个词的词向量，则

基于负采样算法的CBOW模型中，已知词w的上下文Context(w)，需要预测w,因此，对于给定的Context(w)，词w就是正样本，其他词就是负样本。假设现已选好一个关于w的负样本子集对于定义代表词的标签，即正样本的标签为1，负样本的标签为0。

对于一个给定的正样本(Context(w),w),希望最大化

g (w) = \underset{u &Element; {w} \cup N E G (w)}{Π} p (u | C o n t e x t (w)) - - - (2)

其中，

也可以写成整体表达式的形式：

p (u | C o n t e x t (w)) = {[σ (x_{w}^{T} θ^{u})]}^{L^{w} (u)} \cdot {[1 - σ (x_{w}^{T} θ^{u})]}^{1 - L^{w} (u)} - - - (3)

这里x_w仍表示Context(w)中各个词的向量之和，而θ^u∈R^m表示词u对应的一个向量。将式(3)代入式(2)，有：

g (w) = σ (x_{w}^{T} θ^{w}) \underset{u &Element; N E G (w)}{Π} [1 - σ (x_{w}^{T} θ^{u})]

其中，表示当上下文为(Context(w),w)时，预测中心词为w的概率，而则表示当上下文为Context(w)时，预测中心词为u的概率，则最大化g(w)时，也即最大化同时最小化所有的也即增大正样本的概率的同时降低负样本的概率。对于一个给定的语料库C，函数作为整体优化的目标，为简化计算，对G取对数，则最终的目标函数为：

\begin{matrix} l = \log G = \log \underset{w &Element; C}{Π} g (w) \\ = \underset{w &Element; C}{Σ} \log g (w) \\ = \underset{w &Element; C}{Σ} \log \underset{n &Element; {w} \cup N E G (w)}{Π} {[σ {(x_{w}^{T} θ^{u})}^{L^{w} (u)} \cdot {[1 - σ (x_{w}^{T} θ^{u})]}^{1 - L^{w} (u)}} \\ = \underset{w &Element; C}{Σ} \underset{u &Element; {w} \cup N E G (w)}{Σ} {L^{w} (u) \cdot \log [σ (x_{w}^{T} θ^{u})] + [1 - L^{w} (u)] \cdot \log [1 - σ (x_{w}^{T} θ^{u})]} \end{matrix}

记上式为则：

l (w, u) = L^{w} (u) \cdot l o g [σ (x_{w}^{T} θ^{u})] + [1 - L^{w} (u)] \cdot l o g [1 - σ (x_{w}^{T} θ^{u})]

同样利用随机梯度上升法对其参数进行优化，则：

关于θ^u的梯度为：

\begin{matrix} \frac{\partial l (w, u)}{\partial θ^{u}} = \frac{\partial}{\partial θ^{u}} {L^{w} (u) \cdot \log [σ (x_{w}^{T} θ^{u})] + [1 - L^{w} (u)] \cdot \log [1 - σ (x_{w}^{T} θ^{u})]} \\ = L^{w} (u) [1 - σ (x_{w}^{T} θ^{u})] x_{w} - [1 - L^{w} (u)] σ (x_{w}^{T} θ^{u}) x_{w} \\ = {L^{w} (u) [1 - σ (x_{w}^{T} θ^{u})] - [1 - L^{w} (u)] σ (x_{w}^{T} θ^{u}) x_{w} \\ = [L^{w} (u) - σ (x_{w}^{T} θ^{u})] x_{w} \end{matrix}

于是，θ^u的更新公式可写为：

θ^{u} : = θ^{u} + η [L^{w} (u) - σ (x_{w}^{T} θ)] x_{w}

关于x_w的梯度为：

\frac{\partial l (w, u)}{\partial x_{w}} = [L^{w} (u) - σ (x_{w} θ^{u})] θ^{u}

于是，利用可得的更新公式为：

下面再对本发明实施方式中采用的负采样算法进行简单介绍，词典D中的词在语料C中出现的次数有高有低，对于那些高频词，被选为负样本的概率就应该比较大，反之，对于那些低频词，被选中的概率就会较小。其本质上为带权采样的问题，具体算法过程，可描述为：

假设词典D中的每一个词w对应一个线段l(w),长度为：

l e n (w) = \frac{c o u n t e r (w)}{\underset{u &Element; D}{Σ} c o u n t e r (u)}

这里counter(·)表示一个词在语料C中出现的次数(分母中的求和项用来做归一化)，现在将这些线段收尾相连拼接在一起，形成一个长度为1的单位线段。如果随机的往这个单位线段上打点，则长度越长的线段(对应高频词)被打中的概率就越大。

记这里w_j表示词典D中第j个词，则以为剖分节点可得到区[0,1]上的一个非等距剖分，I_i＝(l_i-1,l_i],i-1,2,…,N为其N个剖分区间。进一步引入区间[0,1]上的一个等距离剖分，剖分节点为其中M＞＞N，如图5所示。

将内部剖分节点投影到非等距剖分上，如图6中的虚线所示，则与区间的映射关系为：

Table(i)＝w_k,where m_i∈I_k,i＝1,2,…,M-1

根据该映射关系，其采样过程即为：每次生成一个[1,M-1]间的随机整数r,Table(r)样本，如果在采样过程中采样刚好取到自身w_i，则跳过即可。

在步骤102中，根据W_ij计算每种文本类型的训练样本的特征向量。

具体地说，根据步骤101计算出的各个训练样本所包含的词向量w_ij，采用加和求平均的计算方式，可以计算出每种文本类型的训练样本的特征向量D_l，其中，l＝1,2,...,N，N表示文本类型数量。

假设有娱乐类、科技类、财经类，分别用D₁、D₂、D₃代表娱乐类、科技类和财经类的特征向量，则有：

D₁＝[avg(w₁₁+w₂₁+…+w_e1)avg(w₁₂+w₂₂+…+w_e2)…avg(w_1n+w_3n+…+w_en)]

＝[W_ent1 W_ent2 … W_entn]

D₂＝[avg(w₁₁+w₃₁+…+w_i1)avg(w₁₂+w₃₂+…+w_i2)…avg(w_1n+w_3n+…+w_in)]

＝[W_tech1 W_tech3 … W_techn]

D₃＝[avg(w₁₁+…+w_f1+…+w_i1)avg(w₁₂+…+w_f2+…+w_i2)…avg(w_1n+…+w_fn+…+w_in)]

＝[W_fina1 W_fina2 … W_finan]

其中，e代表第e个词，i第i个词，f第f个词，

W_ent1＝avg(w₁₁+w₂₁+…+w_e1)，

W_ent2＝avg(w₁₂+w₂₂+…+w_en)，

W_entn＝avg(w_1n+w_3n+…+w_en)，

W_tech1＝avg(w₁₁+w₃₁+…+w_i1)，

W_tech2＝avg(w₁₂+w₃₂+…+w_i2)，

W_techn＝avg(w_1n+w_3n+…+w_in)，

W_fina1＝avg(w₁₁+…+w_f1+…+w_i1)，

W_fina2＝avg(w₁₂+…+w_f2+…+w_i2)，

W_finan＝avg(w_1n+…+w_fn+…+w_in)，

若有其他文本类型，同理可得每种文本类型的特征向量。

需要注意的是，D₁∈[w₁,w₂,…,w_e]，D₂∈[w₁,w₃,…,w_i]，D₃∈[w₁,…,w_f,…,w_i]，其中，每一类中w₁,w₂,…w_m为词的集合，每个不同文本类型由不同或部分相同的词组合而成，且特征向量T₁、T₂、T₃中，每个avg(·)中的元素，与W_ij中m个词的顺序无关，也不需要连续，只与当前该文本类型中的组成的词有关，因此，在求每一类文本类型时，从矩阵W_ij中查找相关词并进行相应的计算即可。

在步骤103中，计算后向传播神经网络的输入。

具体地说，将步骤102计算出的各种文本类型的训练样本的特征向量经过加和求平均的特定运算后，作为后向传播神经网络的输入，于是将CBOW与后向传播神经网络联合起来，形成一个新的网络模型，并将该网络模型称为CBOW-BP模型，如图6所示，其中，该后向传播神经网络(BP神经网络)也分为3层，分别为输入层、隐含层和输出层。定义代表CBOW-BP网路的第4层，并定义作为后向传播神经网络输入层的输入，其中，根据各种文本类型的训练样本的特征向量D_l进行计算得到，具体计算过程为：

&CircleTimes; = E = f_{M} (t) = a v g {(Σ_{k &GreaterEqual; 20}^{K} w {(t)}_{k})}_{M}

其中，M代表训练样本数，M＞N，k为每个训练样本中的词数。

在此计算过程中，将训练样本中词数少于20个的剔除掉，每个训练样本的特征向量D_l经过层的处理后，作为后向传播神经网络的输入。后向传播神经网络隐含层的激活函数采用S型生长函数sigmoid函数，若CBOW-BP模型的输出为文本的种类N，则后向传播神经网络的输出层的神经元个数为N个。

在步骤104中，计算文本分类器P。

具体地说，通过将步骤103计算得到的后向传播神经网络迭代T次，将迭代T次的后向传播神经网络，确定为文本分类器P，其中，T为预设的迭代次数。

在步骤105中，从W_ij中查找待测试文本包含的词向量。

具体地说，首先将待测试文本进行分词，然后在词量矩阵W_ij中查找该待测试文本所包含的各个词向量w_ij。

在步骤106中，计算待测试文本的特征向量。

具体地说，根据步骤105得到的待测试文本所包含的各个词向量w_ij，采用加和求平均的计算方式，计算待测试文本的特征向量。

假设当前待测试文本t_m分词后，由词w₁,w₂,…,w_n组成，通过在词向量矩阵W_ij中查找待测试文本t_m中词w₁,w₂,…,w_n的向量，得到其中，t_m矩阵中一行向量代表一个词的向量，则当前待测试文本的特征向量为：

T_m＝[avg(w₁₁+w₂₁+…+w_n1)avg(w₁₂+w₂₂+…+w_n2)avg(w_1i+w_2i+…+w_nj)]

＝[t₁₁ t₁₂ … t_1n]

其中，t的下标n代表词向量的维度，1代表当前第一个文本，当有多个文本时，该处1的值可为自然数。

在步骤107中，确定待测试文本的类型。

具体地说，根据步骤104的文本分类器P和步骤106的待测试文本的特征向量，确定待测试文本的类型。其中，将待测试文本的特征向量输入到步骤104已确定的文本分类器P中进行测试，该待测试文本的类型就是步骤104已确定的文本分类器P的输出。

不难发现，在本实施方式中，通过基于Hierarchical Softmax的连续词袋模型CBOW，计算M个N种文本类型的训练样本分词后包含各个词向量的词向量矩阵，再基于该词向量矩阵计算出每种文本类型的训练样本的特征向量，并将计算出的训练样本的特征向量经过特定运算后，输入至后向传播神经网络，计算文本分类器，最后根据待测试文本的特征向量和文本分类器，确定待测试文本的类型。通过这种方式，CBOW对词向量化时，会考虑当前词的前面几个词和后面几个词的联系，从而根据词向量计算得到的特征向量在一定程度上具有语义特征，再结合经典的后向传播神经网络，构建出一个新的CBOW-BP网络，不仅使整个CBOW-BP网络训练具有语义特性，还可进一步让CBOW-BP网络认知、理解文本内容，具有更好的训练效果，根据具有语义特性的后向传播神经网络确定的确定文本分类器P，也会具有一定语义特性，可极大提高文本分类的准确度

本发明的第二实施方式涉及一种词向量的文本分类方法。第二实施方式在第一实施方式的基础上做了进一步改进，主要改进之处在于：在本发明第二实施方式中，给出了步骤105中，从词向量矩阵W_ij中快速查找所需词向量的优化方法，该方法具体为：预先为词向量矩阵W_ij中的每一个词向量w_ij建立相应索引，然后根据该索引在向量矩阵W_ij中查找各个待测试文本所包含的词向量w_ij。具体流程如图1所示。

本实施方式不但可以达到第一实施方式的技术效果，而且通过预先为词向量矩阵W_ij中的每一个词向量w_ij建立相应索引的方式，可以更便捷、快速的在词量矩阵W_ij中查找所需的各个词向量w_ij，不仅提高了查找效率，还间接提高了整个文本分类的效率。

本发明第三实施方式涉及一种终端设备，包括：词向量计算模块10、训练样本特征向量计算模块11、后向传播神经网络输入计算模块12、文本分类器确定模块13和待测试文本类型确定模块14，其中，文本分类器确定模块13具体包括：迭代子模块131与确定子模块132，待测试文本类型确定模块14又具体包括：词向量获取子模块141、特征向量计算子模块142，如图7所示。

词向量计算模块10，用于将M个N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中，计算包含各个词向量w_ij的词向量矩阵W_ij。

训练样本特征向量计算模块11，用于根据各个训练样本所包含的词向量w_ij，计算每种文本类型的训练样本的的特征向量D_l。

后向传播神经网络输入计算模块12，用于根据各种文本类型的所述训练样本的特征向量D_l，计算后向传播神经网络的输入。

文本分类器确定模块13，用于根据所述后向传播神经网络，计算文本分类器P。

迭代子模块131，用于将所述后向传播神经网络迭代T次。

确定子模块132，用于将所述迭代T次的后向传播神经网络，确定为所述文本分类器P。

待测试文本类型确定模块14，用于根据待测试文本的特征向量和所述文本分类器P，确定待测试文本的类型。

词向量获取子模块141，用于将所述待测试文本分词后，从所述词向量矩阵W_ij中查找所述待测试文本所包含的各个词向量w_ij。

特征向量计算子模块142，用于根据所述待测试文本的词向量w_ij，采用加和求平均的计算方式，计算所述待测试文本的特征向量。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种终端设备，第四实施方式在第三实施方式的基础上做了进一步改进，主要改进之处在于：在本发明第四实施方式中，在词向量计算模块10之后，还包括：建立索引模块15，如图8所示。

建立索引模块15，用于为词向量矩阵W_ij中的每一个词向量w_ij建立相应索引，使得词向量获取子模块141可以更便捷、快速的根据该索引，在词向量矩阵W_ij中，查找各个待测试文本所包含的词向量w_ij。

由于第二实施方式与本实施方式相互对应，因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、GPU、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种文本分类方法，其特征在于，包括：

根据所述后向传播神经网络，计算文本分类器P；

其中，i为词数，j为词向量的维度。

2.根据权利要求1所述的文本分类方法，其特征在于，所述根据各种文本类型的所述训练样本的特征向量D_l，计算后向传播神经网络的输入E，具体包括：

通过以下公式，计算所述后向传播神经网络的输入E：

E = f_{M} (t) = a v g {(Σ_{k &GreaterEqual; 20}^{K} w {(t)}_{k})}_{M}

其中，M代表所述训练样本数，M＞N，k为每个所述训练文本中的词数。

3.根据权利要求1所述的文本分类方法，其特征在于，所述根据后向传播神经网络，计算文本分类器P，具体包括：

将所述后向传播神经网络迭代T次；

所述迭代T次的后向传播神经网络，被确定为所述文本分类器P；

其中，T为预设的迭代次数。

4.根据权利要求1所述的文本分类方法，其特征在于，所述计算每种文本类型的训练样本的特征向量D_l，具体包括：

采用加和求平均的方式，计算每种文本类型的所述训练样本的特征向量D_l。

5.根据权利要求4所述的文本分类方法，其特征在于，所述确定待测试文本的类型之前，还包括：

将所述待测试文本分词；

从所述词向量矩阵W_ij中查找所述待测试文本包含的各个词向量w_ij；

根据所述待测试文本的词向量w_ij，采用加和求平均的计算方式，计算所述待测试文本的特征向量。

6.根据权利要求5所述的文本分类方法，其特征在于，所述从词向量矩阵W_ij中查找所述待测试文本包含的各个词向量w_ij，具体包括：

预先建立所述词向量矩阵W_ij的索引；

根据所述索引在所述词向量矩阵W_ij中查找所述待测试文本包含的各个词向量w_ij。

7.根据权利要求1所述的文本分类方法，其特征在于，所述根据待测试文本的特征向量和所述文本分类器P，确定待测试文本的类型，具体包括；

将所述待测试文本的特征向量输入所述文本分类器P中测试；

所述待测试文本的类型为所述文本分类器P的输出。

8.一种终端设备，其特征在于，包括：

训练样本特征向量计算模块，用于根据所述各个训练样本所包含的词向量w_ij，计算每种文本类型的训练样本的的特征向量D_l；其中，l＝1,2,...,N；

其中，i为词数，j为词向量的维度。

9.据权利要求8所述的终端设备，其特征在于，所述后向传播神经网络输入计算模块，根据所述训练样本的特征向量D_l，通过以下公式，计算所述后向传播神经网络的输入E：

E = f_{M} (t) = a v g {(Σ_{k &GreaterEqual; 20}^{K} w {(t)}_{k})}_{M}

10.据权利要求8所述的终端设备，其特征在于，所述文本分类器确定模块，具体包括：迭代子模块与确定子模块；

所述迭代子模块，用于将所述后向传播神经网络迭代T次；

确定子模块，用于将所述迭代T次的后向传播神经网络，确定为所述文本分类器P。