CN109241283B

CN109241283B - 一种基于多角度胶囊网络的文本分类方法

Info

Publication number: CN109241283B
Application number: CN201810898983.3A
Authority: CN
Inventors: 肖明; 左彬靖; 冯文超; 郭瑞祥; 杜成喜
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2022-02-11
Anticipated expiration: 2038-08-08
Also published as: CN109241283A

Abstract

本发明公开了一种基于多角度胶囊网络的文本分类方法，首先利用中文的特性，将中文文本分为中文和拼音两种不同的输入方式，并且分别训练字符级别的词向量，利用注意力模型赋予两种词向量不同的权重，形成文本特征向量对文本的语义扩展，然后用卷积神经网络提取三个定长的文本语义向量特征，之后通过胶囊网络提取卷积神经网络的特征表示，不仅提取文本的局部特征，还能联系各局部特征的相对空间位置和语境信息。使文本的语义信息更加的丰富，语义特征向量化的表示得到进一步增强。

Description

一种基于多角度胶囊网络的文本分类方法

技术领域

本发明涉及文本挖掘和深度学习领域，更具体地，涉及一种基于多角度胶囊网络的文本分类方法。

背景技术

随着互联网时代的发展，许多社交软件或电商软件中用户评论数据所表达的意向十分重要，如何从海量的、非结构化的海量的评论数据中提取出有用的信息已经成为一种越来越迫切的需求，因此一种高效的中文短文本分类方法可以在文本抽取更丰富的语义信息，从而对自己的产品或者工作上的改进产生良好的指导作用。

短文本自动分类是文本挖掘领域一个重要的子问题，目前主流的深度学习文本分类方法主要分为：基于卷积神经网络的方法，基于递归神经网络的方法，基于带注意力机制的双向长短时记忆模型的方法，基于卷积神经网络和循环神经网络的方法等方法。

和本发明最接近的是基于卷积神经网络的方法，它利用卷积神经网络的卷积核提取文本词向量的局部特征，利用池化层对卷积层最突出的特征做二次提取，之后经过softmax层得到分类关系。

发明内容

本发明的目的是解决上述一个或多个缺陷，提出一种基于多角度胶囊网络的文本分类方法。

为实现以上发明目的，采用的技术方案是：

一种基于多角度胶囊网络的文本分类方法，包括以下步骤：

S1：将输入的短文本数据转化成中文文本和英文文本，分别对文本的每一个字或每一个拼音的字母分别用word2vec进行训练，作为文本的初始化字向量；

S2：将中文的字向量和拼音的字向量连接起来，通过注意力模型，使得每个字向量分别带有不同的权重，根据权重代表该字在文本中的重要程度，然后生成新的文本的特征表示；

S3：使用多个不同宽度的卷积核分别对所述短文本的特征映射进行二维卷积运算，并生成多个局部特征卷积矩阵；

S4：通过多个胶囊网络，使用动态路由机制对多个局部特征卷积矩阵进行特征全局提取，保存为全局的语义向量；

S5：在全连接层将短文本的语义特征向量赋予分类器，对短文本的类别进行预测。

优选的是，步骤S1所述文本的初始化字向量为通过运用查表的方式进行获取。

优选的是，步骤S2所述中文的字向量和拼音的字向量通过下面三式计算出新的短文本的特征表示：

u_i＝tanh(W_ω[c_i；p_i]+b_ω) 式(1)

其中c_i为从中文文本中获得的字向量，p_i为拼音中的字向量，w_ω和u_ω是可训练的参数矩阵，s是Attention层的输出向量。

优选的是，在步骤3中，假设卷积核的宽度为d，高度为h的矩阵ω，对于步骤2输出的特征矩阵A∈R^sxd，那么卷积的操作可以用如下公式表示：

o_i＝ω·A[i:i+h-1],i＝1,2,...,s-h+1 式(4)

u_i＝f(o_i+b) 式(5)

其中，s表示中文和拼音字符的个数，d表示词向量的维度，f是Relu激活函数。

优选的是，所述步骤4中，卷积层输出的特征矩阵为u_i，胶囊网络对卷积层的特征矩阵的信息提取的步骤如下：

S4.1：对u_i特征矩阵做一维卷积操作，将其调整成适用于CapsNet的向量神经元层；

S4.2：运用动态路由的方法对向量神经元层进行映射操作，用矢量输出胶囊取代了输出映射检测器。用向量模的大小衡量某个类出现的概率，模值越大，概率越大；具体公式如下：

其中，ui是上一层网络的输出，W,b是要更新的参数矩阵，cij是耦合系数，s是这一层的胶囊网络的输出，v是这一层胶囊网络的输出。

优选的是，在步骤5中，全连接层将胶囊网络的输出用softmax表达书输出，得到每一个类别的分数并分类。

与现有技术相比，本发明的有益效果是：

1)本发明提出了一个中文拼音结合注意力机制的词向量特征表示，可以更好地结合文本的语义，对短文本中的错别字也能够正确识别。提升分类的正确率；

2)本发明提出一种基于多角度胶囊网络的分类器，结合胶囊网络的优点，使得胶囊网络不仅包含文本的分类的类别，还结合文本中的句义和词义，位置关系等信息，让分类器更好地料理解文本当时的环境信息，最终提高分类的效果。

附图说明

图1为本发明的流程图；

图2为本发明所述步骤S2流程图；

图3为本发明所述步骤S4流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

一种基于多角度胶囊网络的文本分类方法，参照图1，本分类器包括5层结构，第一层是中文短文本数据的中文字向量和拼音字向量的训练，第二层是注意力层，将两种字向量结合起来，形成新的文本表示，第三层是卷积神经网络层，第四层是胶囊网络层，第五层是全连接层。所述神经网络分类器的训练按照如下方式进行。

第一步：设定中文字向量的维度为200维，拼音字向量的维度为100维，由于CNN只能处理定长输入，因此在输入之前将中文文本截取前100个字，拼音文本截取前300个字符，不到100(300)个字的用0填充，在字向量编码层中，每个字通过字向量矩阵转换为低维向量。

例如：如图2所示流程，已知一个句子D包含n个词，将句子分为中文和拼音字符，长度分别为100和300，表示为x＝[x₁,x₂,...x_n]，n为中文和拼音的长度，每个字x_i通过查找字向量表W获得其对应的字向量表示，即e_i＝Wx_i，本实例中使用谷歌开源工具word2vec对文本数据进行预训练得到字向量表。

第二步：从字向量层提取中文文本的特征表示c＝[c₁,c₂,...c₂₀₀]和拼音的文本特征表示p＝[p₁,p₂,...p₁₀₀]，构件成一个级联的词向量x_i＝[c_i:p_i]，利用注意力机制，对每一个字向量分配相应的权重，计算公式为：

其中，uw是可训练的向量矩阵，ui是激活后的词向量的特征表示，其公式为：u_i＝tanh(W_ω[c_i；p_i]+b_ω)，其中W和b是可训练的向量矩阵，α_i是响应的权重。最后按照公式

得到最终的映射矩阵。

第三步：得到PM映射矩阵后，对短文本中的候选语义单元进行检测，多尺度候选语义单元u_i的一维卷积运算的具体公式为

其中，E_win是采用的核矩阵，所有核矩阵中E_win的权值为1，u_i是短文本中的第i个候选单元，l-w+1是候选单元的数量，w是核矩阵的宽度，l是短文本的长度。

第四步：如图3所示流程，用一个胶囊的输出向量的长度表示胶囊所代表的实体在当前的输入中所存在的概率，用一个函数来确保向量的长度在0-1之间，其计算公式为：

其中vj是胶囊j的向量输出，Sj是总输入，一个胶囊的总输入Sj是第一层胶囊的所有”预测向量”的uj|i的加权总和，且是通过一个权重矩阵Wij乘以一个低一层的胶囊的输出ui，其公式为：

其中cij是动态路由过程决定的耦合系数，胶囊i和高一层胶囊j直接耦合系数总和为1，并且是由路由“softmax”决定，即用一个初始的对数概率bij经过迭代得出的，其计算的公式为：

在卷积胶囊层中，每个胶囊对高一层中的胶囊的每种类型输出一个向量的局部网格，并对于网格的每一部分和胶囊的每种类型使用不同的变换矩阵。

第五步：将胶囊网络层的输出连接到一个全连接层，并输入到softmax层，即可得到句子和目标之间的关系。

显然本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。