CN106326346A - 文本分类方法及终端设备 - Google Patents

文本分类方法及终端设备 Download PDF

Info

Publication number
CN106326346A
CN106326346A CN201610639588.4A CN201610639588A CN106326346A CN 106326346 A CN106326346 A CN 106326346A CN 201610639588 A CN201610639588 A CN 201610639588A CN 106326346 A CN106326346 A CN 106326346A
Authority
CN
China
Prior art keywords
text
tested
neural network
term vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610639588.4A
Other languages
English (en)
Inventor
周诚
赵世亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Gaoxin Computer Systems Co Ltd
Original Assignee
Shanghai Gaoxin Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Gaoxin Computer Systems Co Ltd filed Critical Shanghai Gaoxin Computer Systems Co Ltd
Priority to CN201610639588.4A priority Critical patent/CN106326346A/zh
Publication of CN106326346A publication Critical patent/CN106326346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息处理领域,公开了一种文本分类方法及终端设备。本发明实施方式中,计算N种文本类型的训练样本分词后包含各个词向量的词向量矩阵,再基于该词向量矩阵计算出每种文本类型的训练样本的特征向量,并根据计算出的训练样本的特征向量计算后向传播神经网络的输入量,再根据该后向传播神经网络确定出文本分类器,最后根据待测试文本的特征向量和文本分类器,确定待测试文本的类型。CBOW对词向量化时,会考虑当前词的前面几个词和后面几个词的联系,再结合经典的后向传播神经网络,可使整个网络训练也具有语义特性,可进一步让整个网络认知、理解文本内容,具有更好的训练效果。

Description

文本分类方法及终端设备
技术领域
本发明涉及信息处理领域,特别涉及一种文本分类方法及终端设备。
背景技术
文本分类是指把一组预先由专家分类过的文本作为训练样本集,对训练样本集进行分析得出分类模式,用导出的分类模式对其他文本加以分类。它主要应用于信息检索、机器翻译、自动文摘及信息过滤等。
在实现本发明的过程中,本申请的发明人发现,采用基于分层分类器Hierarchical Softmax的CBOW训练方式对罕见词更有利,可实现对该类文本的较快速分类,基于负采样算法的CBOW训练方式对常见词和低维向量的文本分类有利,同时,基于两种不同算法的CBOW在训练时,通常选择的窗口大小在5左右,基于上述两种文本训练方法得到的词向量,虽然具有一定的语义特征,但是并不能深度认知、理解文本的内容。
发明内容
本发明实施方式的目的在于提供一种文本分类方法及终端设备,CBOW对词向量化时,会考虑当前词的前面几个词和后面几个词的联系,再结合经典的后向传播神经网络,可使整个网络训练也具有语义特性,进一步让整个网络认知、理解文本内容,具有更好的训练效果。
为解决上述技术问题,本发明的实施方式提供了一种文本分类方法,包括:
将N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中,计算包含各个词向量wij的词向量矩阵Wij;所述N为大于2的自然数;
根据所述各个训练样本包含的词向量wij,计算每种文本类型的训练样本的特征向量Dl;其中,l=1,2,...,N;
根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入E;
根据所述后向传播神经网络,计算文本分类器P;
根据待测试文本的特征向量和所述文本分类器P,确定待测试文本的类型;
其中,i为词数,j为词向量的维度。
本发明的实施方式还提供了一种终端设备,包括:
词向量计算模块,用于根据N种文本类型的训练样本的分词,计算包含各个词向量wij的词向量矩阵Wij;所述N为大于2的自然数;
训练样本特征向量计算模块,用于根据所述各个训练样本所包含的词向量wij,计算每种文本类型的训练样本的的特征向量Dl;其中,l=1,2,...,N。
后向传播神经网络输入计算模块,用于根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入;
文本分类器确定模块,用于根据所述后向传播神经网络,计算文本分类器P;
待测试文本类型确定模块,用于根据待测试文本的特征向量和所述文本分类器P,确定待测试文本的类型;
其中,i为词数,j为词向量的维度。
本发明实施方式相对于现有技术而言,计算N种文本类型的训练样本分词后包含各个词向量的词向量矩阵,再基于该词向量矩阵计算出每种文本类型的训练样本的特征向量,并根据计算出的训练样本的特征向量计算后向传播神经网络的输入量,再根据该后向传播神经网络确定出文本分类器,最后根据待测试文本的特征向量和文本分类器,确定待测试文本的类型。CBOW对词向量化时,会考虑当前词的前面几个词和后面几个词的联系,从而根据词向量计算得到的特征向量在一定程度上具有语义特征,再结合经典的后向传播神经网络,可使整个网络训练也具有语义特性,进一步让整个网络认知、理解文本内容,具有更好的训练效果,根据具有语义特性的后向传播神经网络确定的确定文本分类器P,也会具有一定语义特性,可极大提高文本分类的准确度。
另外,所述根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入,具体包括:根据所述特征向量Dl,通过以下公式,计算所述后向传播神经网络的输入E:其中,M代表所述训练样本数,M>N,k为每个所述训练样本中的词数。
通过进一步计算后向传播神经网络的输入量,可以更好的激活后向传播神经网络的神经元,使其具有更好的反馈和回应机制,其中,反馈机制是指信息输入神经网络后,神经网络中的神经元所做出的相应回应,回应机制则是对反馈机制最终认知的正确输出。
另外,所述根据后向传播神经网络,计算文本分类器P,具体包括:将所述后向传播神经网络迭代T次;所述迭代T次的后向传播神经网络,被确定为文本分类器P;其中,T为预设的迭代次数。
通过将后向传播神经网络迭代T次,可以让整个网络具有一定的深度,进一步使整个网络更好的认知、理解文本内容,具有更好的训练效果,提高分类结果的准确度。
另外,所述根据各个训练样本所包含的词向量wij,计算每种文本类型的训练样本的特征向量Dl,具体包括:采用加和求平均的计算方式,计算每种文本类型的所述训练样本的特征向量Dl
通过加和求平均的计算方式,计算每种文本类型的所述训练样本的特征向量时,运算量小而且计算过程简便快捷。
另外,所述确定待测试文本的类型之前,还包括:计算所述待测试文本的特征向量;其中,将所述待测试文本分词后,从所述词向量矩阵Wij中查找所述待测试文本包含的各个词向量wij;根据所述待测试文本的词向量wij,采用加和求平均的计算方式,计算所述待测试文本的特征向量。
通过查找词向量矩阵Wij中的待测试文本所包含的各个词向量wij,可以充分利用已有的词向量矩阵Wij,从而实现对各个词向量的快速准确查找,间接提高整个待测试文本分类过程的效率。
附图说明
图1是根据本发明第一实施方式的一种词向量的文本分类方法流程图;
图2是根据本发明第一实施方式的CBOW模型的结构示意图;
图3是根据本发明第一实施方式的CBOW模型的网络结构示意图;
图4是根据本发明第一实施方式的CBOW模型查词的相关示意图;
图5是根据本发明第一实施方式的负采样算法隐射的建立示意图;
图6是根据本发明第一实施方式的CBOW-BP模型的结构示意图;
图7是根据本发明第三实施方式的一种终端设备的结构示意图;
图8是根据本发明第四实施方式的一种终端设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种词向量的文本分类方法。具体流程如图1所示。
在步骤101中,计算词向量矩阵Wij,将N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中,计算词向量矩阵Wij
具体地说,将包含N种文本类型的训练样本进行分词后,得到的数据输入至CBOW中,计算出该N种文本类型的训练样本的词向量及包含各词向量的词向量矩阵,其中,词向量记作wij,词向量矩阵记作Wij,i为词数,j为词向量的维度,词向量矩阵Wij的具体形式如下所示:
其中,Wij中的每一行代表一个词的向量表达。
此外,本发明实施方式中所说的CBOW,是基于负采样算法的CBOW。常用的CBOW有基于Hierarchical Softmax的CBOW和基于负采样算法的CBOW两种类型,下面分别对基于Hierarchical Softmax的CBOW和基于负采样算法的CBOW进行介绍。
其中,基于Hierarchical Softmax的CBOW模型,包含输入层、投影层和输出层,其是在已知当前词wt的上下文wt-2,wt-1,wt+1,wt+2的前提下预测当前词wt,如图2所示。假设样本(Context(w),w)由w前后各c个词构成,则输入层包含Context(w)中2c个词的词向量v(Context(w)1v),v(Context(w)2v),v(Context(w)2cv)∈Rm,m表示词向量的长度。投影层将输入的2c个向量做求和累加,即其结构示意图如图3所示。输出层对应一棵二叉树,它是以语料中出现过的词当叶子结点,以各词在语料中出现的次数当权值构造出来的霍夫曼树,在这棵霍夫曼树中,叶子结点共N=(|D|)个,分别对应词典D中的词s,非叶子结点N-1个(图中标成黑色的那些结点)。
Hierarchical Softmax是词向量中用于提高性能的一项关键技术,霍夫曼树中的某个叶子结点,假设它对应词典D中的词w,记:
1)pw表示从根结点出发到达w对应叶子结点的路径;
2)lw表示路径pw中包含结点的个数;
3)表示路径pw中的lw个结点,其中表示根结点,表示词w对应的结点;
4)表示词w的霍夫曼编码,它由lw-1位编码构成,表示路径pw中第j个结点对应的编码(根结点不对应编码);
5)表示路径pw中非叶子结点对应的向量,表示路径pw中第j个非叶子结点对应的向量。
现用词w=“足球”的示例,说明如何在图3所示的网络结构下,利用向量xw∈Rm以及霍夫曼树来定义函数p(w|Context(w)),具体过程如图4所示。四条虚线边串起来的5个节点就构成路径pw,其长度lw=5,为路径pw上的5个结点,且对应根结点,分别为1,0,0,1,即“足球”的霍夫曼编码为1001,此外,分别表示路径pw上4个非叶子结点对应的向量。从根结点出发到达“足球”这个叶子节点,中间共经理了4次分支(每条虚线的边对应一次分支),而每一次分支都可视为进行了一次二分类。既然是从二分类的角度来考虑问题,那么每一个非叶子结点,就需要为其左右孩子结点制定一个类别,即哪个是正类(标签为1),哪个是负类(标签为0),除根结点以外,树中每个结点都对应了一个取值为0或1的霍夫曼编码,因此,一种最自然的做法就是将霍夫曼编码为1的结点定义为正类,编码为0的结点定义为负类(也可将0定义为正类,1定义为负类),也就是将一个结点进行分类时,分到左边就是负类,分到右边就是正类,在此约定:根据逻辑回归可知,一个结点被分为正类的概率是被分为负类的概率则为其中,θ是待定参数,在这里非叶子结点对应的那些就可以扮演参数θ的角色。
对于从根结点出发到达“足球”这个叶子结点所经历的4次二分类,将每次分类结果的概率写出来就是:
1)第1次:
2)第2次:
3)第3次:
4)第4次:
至此,通过w=“足球”的例子可知:对于词典D中的任意词w,霍夫曼树中必存在一条存根结点到词w对应结点的路径pw(且这条路径是唯一的)。路径pw上存在lw-1个分支,将每个分支看作一次二分类,每一次分类就产生一个概率,将这些概率相乘即为p(w|Context(w))。
p ( w | C o n t e x t ( w ) ) = Π j = 2 l w p ( d j w | x w , θ j - 1 w ) - - - ( 1 )
p ( d j w | x w , θ j - 1 w ) = σ ( x w T θ j - 1 w ) , d j w = 0 1 - σ ( x w T θ j - 1 w ) , d j w = 1
或者,写成整体表达式的形式:
p ( d j w | x w , θ j - 1 w ) = [ σ ( x w T θ j - 1 w ) ] 1 - d j w [ 1 - σ ( x w T θ j - 1 w ) ] d j w
假设Yw=(yw,1,yw,2,…,yw,N)T为一个长度为N的向量,其分量不能表示概率,如果想要Yw的分量yw,i表示上下文为Context(w)时下一个词恰巧为词典D中第i个词的概率,则需要做一个softmax的归一化处理,则有其中iw表示词w在词典D中的索引。因此
将式(1)代入对数似然函数中,则:
l = Σ w ∈ C log Π j = 2 l w { [ σ ( x w T θ j - 1 w ) ] 1 - d j w [ 1 - σ ( x w T θ j - 1 w ) ] d j w } = Σ w ∈ C Π j = 2 l w { ( 1 - d j w ) · log [ σ ( x w T θ j - 1 w ) ] + d j w · log [ 1 - σ ( x w T θ j - 1 w ) ] }
为CBOW模型的目标函数,在词向量中是利用随机梯度上升法来优化上述函数的。随机梯度上升法的做法如下所示:
每取一个样本(Context(w),w),就对目标函数中的所有相关参数做一次更新。观察目标函数可知,该函数中的参数包括向量给出函数关于这些向量的梯度。
其中,关于的梯度为:
∂ l ( w , j ) ∂ θ j - 1 w = ∂ ∂ θ j - 1 w ( 1 - d j w ) · log [ σ ( x w T θ j - 1 w ) ] + d j w · log [ 1 - σ ( x w T θ j - 1 w ) ] } = ( 1 - d j w ) [ 1 - σ ( x w T θ j - 1 w ) ] x w - d j w σ ( x w T θ j - 1 w ) x w = { ( 1 - d j w ) [ 1 - σ ( x w T θ j - 1 w ) ] - d j w σ ( x w T θ j - 1 w ) } x w = [ 1 - d j w - σ ( x w T θ j - 1 w ) ] x w
于是,的更新公式可写为:η表示学习率。
同理可得对xw的梯度为:
∂ l ( w , j ) ∂ x w = [ 1 - d j w - σ ( x w T θ j - 1 w ) ] θ j - 1 w
这里,xw表示的是Context(w)中各词的词向量的累加,最终目的是求词典D中每个词的词向量,则
基于负采样算法的CBOW模型中,已知词w的上下文Context(w),需要预测w,因此,对于给定的Context(w),词w就是正样本,其他词就是负样本。假设现已选好一个关于w的负样本子集对于定义代表词的标签,即正样本的标签为1,负样本的标签为0。
对于一个给定的正样本(Context(w),w),希望最大化
g ( w ) = Π u ∈ { w } ∪ N E G ( w ) p ( u | C o n t e x t ( w ) ) - - - ( 2 )
其中,
也可以写成整体表达式的形式:
p ( u | C o n t e x t ( w ) ) = [ σ ( x w T θ u ) ] L w ( u ) · [ 1 - σ ( x w T θ u ) ] 1 - L w ( u ) - - - ( 3 )
这里xw仍表示Context(w)中各个词的向量之和,而θu∈Rm表示词u对应的一个向量。将式(3)代入式(2),有:
g ( w ) = σ ( x w T θ w ) Π u ∈ N E G ( w ) [ 1 - σ ( x w T θ u ) ]
其中,表示当上下文为(Context(w),w)时,预测中心词为w的概率,而则表示当上下文为Context(w)时,预测中心词为u的概率,则最大化g(w)时,也即最大化同时最小化所有的也即增大正样本的概率的同时降低负样本的概率。对于一个给定的语料库C,函数作为整体优化的目标,为简化计算,对G取对数,则最终的目标函数为:
l = log G = log Π w ∈ C g ( w ) = Σ w ∈ C log g ( w ) = Σ w ∈ C log Π n ∈ { w } ∪ N E G ( w ) { [ σ ( x w T θ u ) L w ( u ) · [ 1 - σ ( x w T θ u ) ] 1 - L w ( u ) } = Σ w ∈ C Σ u ∈ { w } ∪ N E G ( w ) { L w ( u ) · log [ σ ( x w T θ u ) ] + [ 1 - L w ( u ) ] · log [ 1 - σ ( x w T θ u ) ] }
记上式为则:
l ( w , u ) = L w ( u ) · l o g [ σ ( x w T θ u ) ] + [ 1 - L w ( u ) ] · l o g [ 1 - σ ( x w T θ u ) ]
同样利用随机梯度上升法对其参数进行优化,则:
关于θu的梯度为:
∂ l ( w , u ) ∂ θ u = ∂ ∂ θ u { L w ( u ) · log [ σ ( x w T θ u ) ] + [ 1 - L w ( u ) ] · log [ 1 - σ ( x w T θ u ) ] } = L w ( u ) [ 1 - σ ( x w T θ u ) ] x w - [ 1 - L w ( u ) ] σ ( x w T θ u ) x w = { L w ( u ) [ 1 - σ ( x w T θ u ) ] - [ 1 - L w ( u ) ] σ ( x w T θ u ) x w = [ L w ( u ) - σ ( x w T θ u ) ] x w
于是,θu的更新公式可写为:
θ u : = θ u + η [ L w ( u ) - σ ( x w T θ ) ] x w
关于xw的梯度为:
∂ l ( w , u ) ∂ x w = [ L w ( u ) - σ ( x w θ u ) ] θ u
于是,利用可得的更新公式为:
下面再对本发明实施方式中采用的负采样算法进行简单介绍,词典D中的词在语料C中出现的次数有高有低,对于那些高频词,被选为负样本的概率就应该比较大,反之,对于那些低频词,被选中的概率就会较小。其本质上为带权采样的问题,具体算法过程,可描述为:
假设词典D中的每一个词w对应一个线段l(w),长度为:
l e n ( w ) = c o u n t e r ( w ) Σ u ∈ D c o u n t e r ( u )
这里counter(·)表示一个词在语料C中出现的次数(分母中的求和项用来做归一化),现在将这些线段收尾相连拼接在一起,形成一个长度为1的单位线段。如果随机的往这个单位线段上打点,则长度越长的线段(对应高频词)被打中的概率就越大。
这里wj表示词典D中第j个词,则以为剖分节点可得到区[0,1]上的一个非等距剖分,Ii=(li-1,li],i-1,2,…,N为其N个剖分区间。进一步引入区间[0,1]上的一个等距离剖分,剖分节点为其中M>>N,如图5所示。
将内部剖分节点投影到非等距剖分上,如图6中的虚线所示,则与区间的映射关系为:
Table(i)=wk,where mi∈Ik,i=1,2,…,M-1
根据该映射关系,其采样过程即为:每次生成一个[1,M-1]间的随机整数r,Table(r)样本,如果在采样过程中采样刚好取到自身wi,则跳过即可。
在步骤102中,根据Wij计算每种文本类型的训练样本的特征向量。
具体地说,根据步骤101计算出的各个训练样本所包含的词向量wij,采用加和求平均的计算方式,可以计算出每种文本类型的训练样本的特征向量Dl,其中,l=1,2,...,N,N表示文本类型数量。
假设有娱乐类、科技类、财经类,分别用D1、D2、D3代表娱乐类、科技类和财经类的特征向量,则有:
D1=[avg(w11+w21+…+we1)avg(w12+w22+…+we2)…avg(w1n+w3n+…+wen)]
=[Went1 Went2 … Wentn]
D2=[avg(w11+w31+…+wi1)avg(w12+w32+…+wi2)…avg(w1n+w3n+…+win)]
=[Wtech1 Wtech3 … Wtechn]
D3=[avg(w11+…+wf1+…+wi1)avg(w12+…+wf2+…+wi2)…avg(w1n+…+wfn+…+win)]
=[Wfina1 Wfina2 … Wfinan]
其中,e代表第e个词,i第i个词,f第f个词,
Went1=avg(w11+w21+…+we1),
Went2=avg(w12+w22+…+wen),
Wentn=avg(w1n+w3n+…+wen),
Wtech1=avg(w11+w31+…+wi1),
Wtech2=avg(w12+w32+…+wi2),
Wtechn=avg(w1n+w3n+…+win),
Wfina1=avg(w11+…+wf1+…+wi1),
Wfina2=avg(w12+…+wf2+…+wi2),
Wfinan=avg(w1n+…+wfn+…+win),
若有其他文本类型,同理可得每种文本类型的特征向量。
需要注意的是,D1∈[w1,w2,…,we],D2∈[w1,w3,…,wi],D3∈[w1,…,wf,…,wi],其中,每一类中w1,w2,…wm为词的集合,每个不同文本类型由不同或部分相同的词组合而成,且特征向量T1、T2、T3中,每个avg(·)中的元素,与Wij中m个词的顺序无关,也不需要连续,只与当前该文本类型中的组成的词有关,因此,在求每一类文本类型时,从矩阵Wij中查找相关词并进行相应的计算即可。
在步骤103中,计算后向传播神经网络的输入。
具体地说,将步骤102计算出的各种文本类型的训练样本的特征向量经过加和求平均的特定运算后,作为后向传播神经网络的输入,于是将CBOW与后向传播神经网络联合起来,形成一个新的网络模型,并将该网络模型称为CBOW-BP模型,如图6所示,其中,该后向传播神经网络(BP神经网络)也分为3层,分别为输入层、隐含层和输出层。定义代表CBOW-BP网路的第4层,并定义作为后向传播神经网络输入层的输入,其中,根据各种文本类型的训练样本的特征向量Dl进行计算得到,具体计算过程为:
⊗ = E = f M ( t ) = a v g ( Σ k ≥ 20 K w ( t ) k ) M
其中,M代表训练样本数,M>N,k为每个训练样本中的词数。
在此计算过程中,将训练样本中词数少于20个的剔除掉,每个训练样本的特征向量Dl经过层的处理后,作为后向传播神经网络的输入。后向传播神经网络隐含层的激活函数采用S型生长函数sigmoid函数,若CBOW-BP模型的输出为文本的种类N,则后向传播神经网络的输出层的神经元个数为N个。
在步骤104中,计算文本分类器P。
具体地说,通过将步骤103计算得到的后向传播神经网络迭代T次,将迭代T次的后向传播神经网络,确定为文本分类器P,其中,T为预设的迭代次数。
在步骤105中,从Wij中查找待测试文本包含的词向量。
具体地说,首先将待测试文本进行分词,然后在词量矩阵Wij中查找该待测试文本所包含的各个词向量wij
在步骤106中,计算待测试文本的特征向量。
具体地说,根据步骤105得到的待测试文本所包含的各个词向量wij,采用加和求平均的计算方式,计算待测试文本的特征向量。
假设当前待测试文本tm分词后,由词w1,w2,…,wn组成,通过在词向量矩阵Wij中查找待测试文本tm中词w1,w2,…,wn的向量,得到其中,tm矩阵中一行向量代表一个词的向量,则当前待测试文本的特征向量为:
Tm=[avg(w11+w21+…+wn1)avg(w12+w22+…+wn2)avg(w1i+w2i+…+wnj)]
=[t11 t12 … t1n]
其中,t的下标n代表词向量的维度,1代表当前第一个文本,当有多个文本时,该处1的值可为自然数。
在步骤107中,确定待测试文本的类型。
具体地说,根据步骤104的文本分类器P和步骤106的待测试文本的特征向量,确定待测试文本的类型。其中,将待测试文本的特征向量输入到步骤104已确定的文本分类器P中进行测试,该待测试文本的类型就是步骤104已确定的文本分类器P的输出。
不难发现,在本实施方式中,通过基于Hierarchical Softmax的连续词袋模型CBOW,计算M个N种文本类型的训练样本分词后包含各个词向量的词向量矩阵,再基于该词向量矩阵计算出每种文本类型的训练样本的特征向量,并将计算出的训练样本的特征向量经过特定运算后,输入至后向传播神经网络,计算文本分类器,最后根据待测试文本的特征向量和文本分类器,确定待测试文本的类型。通过这种方式,CBOW对词向量化时,会考虑当前词的前面几个词和后面几个词的联系,从而根据词向量计算得到的特征向量在一定程度上具有语义特征,再结合经典的后向传播神经网络,构建出一个新的CBOW-BP网络,不仅使整个CBOW-BP网络训练具有语义特性,还可进一步让CBOW-BP网络认知、理解文本内容,具有更好的训练效果,根据具有语义特性的后向传播神经网络确定的确定文本分类器P,也会具有一定语义特性,可极大提高文本分类的准确度
本发明的第二实施方式涉及一种词向量的文本分类方法。第二实施方式在第一实施方式的基础上做了进一步改进,主要改进之处在于:在本发明第二实施方式中,给出了步骤105中,从词向量矩阵Wij中快速查找所需词向量的优化方法,该方法具体为:预先为词向量矩阵Wij中的每一个词向量wij建立相应索引,然后根据该索引在向量矩阵Wij中查找各个待测试文本所包含的词向量wij。具体流程如图1所示。
本实施方式不但可以达到第一实施方式的技术效果,而且通过预先为词向量矩阵Wij中的每一个词向量wij建立相应索引的方式,可以更便捷、快速的在词量矩阵Wij中查找所需的各个词向量wij,不仅提高了查找效率,还间接提高了整个文本分类的效率。
本发明第三实施方式涉及一种终端设备,包括:词向量计算模块10、训练样本特征向量计算模块11、后向传播神经网络输入计算模块12、文本分类器确定模块13和待测试文本类型确定模块14,其中,文本分类器确定模块13具体包括:迭代子模块131与确定子模块132,待测试文本类型确定模块14又具体包括:词向量获取子模块141、特征向量计算子模块142,如图7所示。
词向量计算模块10,用于将M个N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中,计算包含各个词向量wij的词向量矩阵Wij
训练样本特征向量计算模块11,用于根据各个训练样本所包含的词向量wij,计算每种文本类型的训练样本的的特征向量Dl
后向传播神经网络输入计算模块12,用于根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入。
文本分类器确定模块13,用于根据所述后向传播神经网络,计算文本分类器P。
迭代子模块131,用于将所述后向传播神经网络迭代T次。
确定子模块132,用于将所述迭代T次的后向传播神经网络,确定为所述文本分类器P。
待测试文本类型确定模块14,用于根据待测试文本的特征向量和所述文本分类器P,确定待测试文本的类型。
词向量获取子模块141,用于将所述待测试文本分词后,从所述词向量矩阵Wij中查找所述待测试文本所包含的各个词向量wij
特征向量计算子模块142,用于根据所述待测试文本的词向量wij,采用加和求平均的计算方式,计算所述待测试文本的特征向量。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种终端设备,第四实施方式在第三实施方式的基础上做了进一步改进,主要改进之处在于:在本发明第四实施方式中,在词向量计算模块10之后,还包括:建立索引模块15,如图8所示。
建立索引模块15,用于为词向量矩阵Wij中的每一个词向量wij建立相应索引,使得词向量获取子模块141可以更便捷、快速的根据该索引,在词向量矩阵Wij中,查找各个待测试文本所包含的词向量wij
由于第二实施方式与本实施方式相互对应,因此本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,在第二实施方式中所能达到的技术效果在本实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、GPU、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
将N种文本类型的训练样本分词后的数据输入连续词袋模型CBOW中,计算包含各个词向量wij的词向量矩阵Wij;所述N为大于2的自然数;
根据所述各个训练样本包含的词向量wij,计算每种文本类型的训练样本的特征向量Dl;其中,l=1,2,...,N;
根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入E;
根据所述后向传播神经网络,计算文本分类器P;
根据待测试文本的特征向量和所述文本分类器P,确定待测试文本的类型;
其中,i为词数,j为词向量的维度。
2.根据权利要求1所述的文本分类方法,其特征在于,所述根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入E,具体包括:
通过以下公式,计算所述后向传播神经网络的输入E:
E = f M ( t ) = a v g ( Σ k ≥ 20 K w ( t ) k ) M
其中,M代表所述训练样本数,M>N,k为每个所述训练文本中的词数。
3.根据权利要求1所述的文本分类方法,其特征在于,所述根据后向传播神经网络,计算文本分类器P,具体包括:
将所述后向传播神经网络迭代T次;
所述迭代T次的后向传播神经网络,被确定为所述文本分类器P;
其中,T为预设的迭代次数。
4.根据权利要求1所述的文本分类方法,其特征在于,所述计算每种文本类型的训练样本的特征向量Dl,具体包括:
采用加和求平均的方式,计算每种文本类型的所述训练样本的特征向量Dl
5.根据权利要求4所述的文本分类方法,其特征在于,所述确定待测试文本的类型之前,还包括:
将所述待测试文本分词;
从所述词向量矩阵Wij中查找所述待测试文本包含的各个词向量wij
根据所述待测试文本的词向量wij,采用加和求平均的计算方式,计算所述待测试文本的特征向量。
6.根据权利要求5所述的文本分类方法,其特征在于,所述从词向量矩阵Wij中查找所述待测试文本包含的各个词向量wij,具体包括:
预先建立所述词向量矩阵Wij的索引;
根据所述索引在所述词向量矩阵Wij中查找所述待测试文本包含的各个词向量wij
7.根据权利要求1所述的文本分类方法,其特征在于,所述根据待测试文本的特征向量和所述文本分类器P,确定待测试文本的类型,具体包括;
将所述待测试文本的特征向量输入所述文本分类器P中测试;
所述待测试文本的类型为所述文本分类器P的输出。
8.一种终端设备,其特征在于,包括:
词向量计算模块,用于根据N种文本类型的训练样本的分词,计算包含各个词向量wij的词向量矩阵Wij;所述N为大于2的自然数;
训练样本特征向量计算模块,用于根据所述各个训练样本所包含的词向量wij,计算每种文本类型的训练样本的的特征向量Dl;其中,l=1,2,...,N;
后向传播神经网络输入计算模块,用于根据各种文本类型的所述训练样本的特征向量Dl,计算后向传播神经网络的输入;
文本分类器确定模块,用于根据所述后向传播神经网络,计算文本分类器P;
待测试文本类型确定模块,用于根据待测试文本的特征向量和所述文本分类器P,确定待测试文本的类型;
其中,i为词数,j为词向量的维度。
9.据权利要求8所述的终端设备,其特征在于,所述后向传播神经网络输入计算模块,根据所述训练样本的特征向量Dl,通过以下公式,计算所述后向传播神经网络的输入E:
E = f M ( t ) = a v g ( Σ k ≥ 20 K w ( t ) k ) M
其中,M代表所述训练样本数,M>N,k为每个所述训练文本中的词数。
10.据权利要求8所述的终端设备,其特征在于,所述文本分类器确定模块,具体包括:迭代子模块与确定子模块;
所述迭代子模块,用于将所述后向传播神经网络迭代T次;
确定子模块,用于将所述迭代T次的后向传播神经网络,确定为所述文本分类器P。
CN201610639588.4A 2016-08-06 2016-08-06 文本分类方法及终端设备 Pending CN106326346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610639588.4A CN106326346A (zh) 2016-08-06 2016-08-06 文本分类方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610639588.4A CN106326346A (zh) 2016-08-06 2016-08-06 文本分类方法及终端设备

Publications (1)

Publication Number Publication Date
CN106326346A true CN106326346A (zh) 2017-01-11

Family

ID=57739801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610639588.4A Pending CN106326346A (zh) 2016-08-06 2016-08-06 文本分类方法及终端设备

Country Status (1)

Country Link
CN (1) CN106326346A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法
CN107633362A (zh) * 2017-09-18 2018-01-26 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统
CN107644074A (zh) * 2017-09-19 2018-01-30 北京邮电大学 一种基于卷积神经网络的中文教材可读性分析的方法
CN107918825A (zh) * 2017-11-13 2018-04-17 珠海金山网络游戏科技有限公司 一种基于应用安装偏好判定用户年龄段的方法和装置
CN108415897A (zh) * 2018-01-18 2018-08-17 北京百度网讯科技有限公司 基于人工智能的类别判别方法、装置及存储介质
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN108628974A (zh) * 2018-04-25 2018-10-09 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN109543036A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 基于语义相似度的文本聚类方法
CN109598517A (zh) * 2017-09-29 2019-04-09 阿里巴巴集团控股有限公司 商品通关处理、对象的处理及其类别预测方法和装置
CN109635116A (zh) * 2018-12-17 2019-04-16 腾讯科技(深圳)有限公司 文本词向量模型的训练方法、电子设备及计算机存储介质
CN109902283A (zh) * 2018-05-03 2019-06-18 华为技术有限公司 一种信息输出方法及装置
WO2019128124A1 (zh) * 2017-12-29 2019-07-04 中国银联股份有限公司 一种文本质量指标获取方法及装置
CN110263854A (zh) * 2019-06-20 2019-09-20 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
WO2019205319A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 商品信息格式处理方法、装置、计算机设备和存储介质
CN111324737A (zh) * 2020-03-23 2020-06-23 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN111966825A (zh) * 2020-07-16 2020-11-20 电子科技大学 一种基于机器学习的电网设备缺陷文本分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148154A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero System for using statistical classifiers for spoken language understanding
US20040254904A1 (en) * 2001-01-03 2004-12-16 Yoram Nelken System and method for electronic communication management
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN104036010A (zh) * 2014-06-25 2014-09-10 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040254904A1 (en) * 2001-01-03 2004-12-16 Yoram Nelken System and method for electronic communication management
US20040148154A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero System for using statistical classifiers for spoken language understanding
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN104036010A (zh) * 2014-06-25 2014-09-10 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江大鹏: "基于词向量的短文本分类方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
火善栋: "用BP 神经网络实现中文文本分类", 《计算机时代》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN108628868B (zh) * 2017-03-16 2021-08-10 北京京东尚科信息技术有限公司 文本分类方法和装置
CN107590177B (zh) * 2017-07-31 2021-02-02 南京邮电大学 一种结合监督学习的中文文本分类方法
CN107590177A (zh) * 2017-07-31 2018-01-16 南京邮电大学 一种结合监督学习的中文文本分类方法
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
CN107633362A (zh) * 2017-09-18 2018-01-26 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统
CN107633362B (zh) * 2017-09-18 2020-11-20 前海梧桐(深圳)数据有限公司 基于生物特征表达企业要素之间联结方式的方法及其系统
CN107644074A (zh) * 2017-09-19 2018-01-30 北京邮电大学 一种基于卷积神经网络的中文教材可读性分析的方法
CN109598517A (zh) * 2017-09-29 2019-04-09 阿里巴巴集团控股有限公司 商品通关处理、对象的处理及其类别预测方法和装置
CN107918825A (zh) * 2017-11-13 2018-04-17 珠海金山网络游戏科技有限公司 一种基于应用安装偏好判定用户年龄段的方法和装置
WO2019128124A1 (zh) * 2017-12-29 2019-07-04 中国银联股份有限公司 一种文本质量指标获取方法及装置
CN108415897A (zh) * 2018-01-18 2018-08-17 北京百度网讯科技有限公司 基于人工智能的类别判别方法、装置及存储介质
CN108628974B (zh) * 2018-04-25 2023-04-18 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
WO2019205319A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 商品信息格式处理方法、装置、计算机设备和存储介质
CN108628974A (zh) * 2018-04-25 2018-10-09 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN109902283A (zh) * 2018-05-03 2019-06-18 华为技术有限公司 一种信息输出方法及装置
CN109543036A (zh) * 2018-11-20 2019-03-29 四川长虹电器股份有限公司 基于语义相似度的文本聚类方法
CN109635116A (zh) * 2018-12-17 2019-04-16 腾讯科技(深圳)有限公司 文本词向量模型的训练方法、电子设备及计算机存储介质
CN109635116B (zh) * 2018-12-17 2023-03-24 腾讯科技(深圳)有限公司 文本词向量模型的训练方法、电子设备及计算机存储介质
CN110263854A (zh) * 2019-06-20 2019-09-20 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
CN111324737A (zh) * 2020-03-23 2020-06-23 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN111324737B (zh) * 2020-03-23 2022-04-22 中国电子科技集团公司第三十研究所 一种基于词袋模型的分布式文本聚类方法、存储介质及计算装置
CN111966825A (zh) * 2020-07-16 2020-11-20 电子科技大学 一种基于机器学习的电网设备缺陷文本分类方法

Similar Documents

Publication Publication Date Title
CN106326346A (zh) 文本分类方法及终端设备
CN106294684A (zh) 词向量的文本分类方法及终端设备
Liu et al. Multi-timescale long short-term memory neural network for modelling sentences and documents
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN110516245A (zh) 细粒度情感分析方法、装置、计算机设备及存储介质
CN106980683A (zh) 基于深度学习的博客文本摘要生成方法
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN105005589A (zh) 一种文本分类的方法和装置
CN107665248A (zh) 基于深度学习混合模型的文本分类方法和装置
Martinez-Gil et al. Automatic design of semantic similarity controllers based on fuzzy logics
CN103324954A (zh) 一种基于树结构的图像分类方法及其系统
Xiao et al. Memory-augmented monte carlo tree search
Chen et al. Binarized neural architecture search for efficient object recognition
Cao et al. Stacked residual recurrent neural network with word weight for text classification
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN112132281A (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
CN116306785A (zh) 一种基于注意力机制的卷积长短期网络的学生成绩预测方法
CN116050523A (zh) 一种基于混合知识图的注意力引导增强的常识推理框架
CN116089713A (zh) 推荐模型训练方法、推荐方法、装置及计算机设备
CN114595641A (zh) 组合优化问题的求解方法和系统
Chen et al. Dynamical conventional neural network channel pruning by genetic wavelet channel search for image classification
CN114202669A (zh) 一种用于医疗图像分割的神经网络搜索方法
CN112686299A (zh) 计算机执行的神经网络模型获取方法及装置
CN111695574A (zh) 可生成依存树的图像描述生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170111