CN108595643A

CN108595643A - 基于多分类节点卷积循环网络的文本特征提取及分类方法

Info

Publication number: CN108595643A
Application number: CN201810384910.2A
Authority: CN
Inventors: 唐贤伦; 林文星; 万辉; 杜铭; 杜一铭; 魏畅; 昌泉; 杨济维; 伍亚明
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2018-09-28

Abstract

本发明请求保护一种基于多分类节点卷积循环网络的文本特征提取及分类方法。首先对文本数据进行预处理生成词向量；然后一维卷积网络提取多个词的词向量的组合特征；分别将提取到的词语组合特征输入双向长短期记忆循环网络和多重卷积网络中。其中双向长短期记忆循环网络的输出作为主分类器的输入，多重卷积网络含有辅分类器，辅助网络训练。优化加权后的总损失函数，并对主分类器进行性能测试并实现分类。本发明能够获得较高的分类准确率。

Description

基于多分类节点卷积循环网络的文本特征提取及分类方法

技术领域

本发明属于文本的特征提取及分类方法技术领域，特别是一种基于多分类节点卷积循环网络的文本特征提取及分类方法。

背景技术

互联网每天都会产生海量的文本数据。如何有效地挖掘文本信息，对文本数据进行有效的分类是自然语言处理领域的经典问题。

当前，针对文本分类的模型已经有了大量的研究。常用的特征分类方法包括线性判别式分析(LDA)，人工神经网络(ANN)，支持向量机(SVM)，朴素贝叶斯(Naive Bayesian)等。而深度学习具有强大的处理非线性和高维数据的能力，能够自动从原始数据中提取有效信息，并且引入了词嵌入(Word Embeding)的机制，将文本数据映射到一个低维度的词向量，为文本的表示方法引入语义信息。因此很多深度学习的方法也被应用到文本特征提取及分类中。

卷积神经网络和循环神经网络是常见的两种深度学习网络结构。卷积神经网络连接稀疏，卷积核参数共享，减小了模型存储容量，统计效率高。循环神经网络，考虑上下文的语义建模，符合文本的时序特性。结合两者优势在网络低层提取词语组合特征，在网络高层提取文本时序特征。整个网络中任何一层的特征均对分类结果有贡献，注重网络低层的特征学习更是有助于整体网络学习文本表达。

因此，需要一种基于多分类节点卷积循环网络的文本特征提取及分类方法，引入辅助分类节点，增加辅助支路加强对低层特征的学习。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种强化低层特征学习和提高模型的泛化能力的基于多分类节点卷积循环网络的文本特征提取及分类方法。本发明的技术方案如下：

一种基于多分类节点卷积循环网络的文本特征提取及分类方法，其包括以下步骤：

步骤1：采用包括分词、清洗文本、词向量训练在内的步骤预处理文本语料

步骤2：使用一维卷积网络获取步骤1预处理后的多个词语的组合特征；

步骤3：使用双向长短期记忆循环网络提取步骤2所得的特征的时序信息，生成句子的特征表达，并作为主分类器的特征输入；

步骤4：使用多重卷积网络将步骤2所得的特征再次组合，生成句子的特征表达，并作为辅分类器的特征输入；

步骤5：加权得到总损失函数，采用RMSprop基于批量梯度下降优化损失函数降至最低；

步骤6：对主分类器进行性能测试并实现分类。

进一步的，所述步骤1：采用包括分词、清洗文本、词向量训练在内的步骤预处理文本语料，具体包括：

分词：对中文词语根据语义分词，英文需根据空格切割单词；

清洗文本：将大写英文字符转换为小写，去除文本中对分类无明显帮助的停用词汇、标点符号及数字；

词向量训练：通过Glove算法，根据复现词语的共现情况，生成d维的词向量。

进一步的，所述步骤2采用一维卷积网络，以滑动的卷积窗口抽取词向量间的词语组合特征，具体包括:固定文本包含m₁个词语，每个词对应d维的词向量,不足长度的文本通过0填充补足，超出长度的文本需要将其在尾部截断,设定滑动窗口大小为k，卷积核为n,表示句长m₁的文本经n个卷积核一维卷积的输出矩阵；

矩阵内每一个元素表示为：

其中是第j个卷积核的参数；是卷积核滑动窗口所接受的词语范围从i到i+k-1的k个词；是j个卷积核的偏执；f是修正线性单元f(x)＝max{0,x}.

进一步的，所述步骤3使用双向长短期记忆循环网络提取步骤2所得的特征的时序信息，生成句子的特征表达，并作为主分类器的特征输入；具体为：

所述双向长短期记忆循环网络包含正逆双向的长短期记忆循环网络,每个长短期记忆单元又由三个门控单元，一个存储状态组成,并对整个序列的隐含层状态加以全局最大池化，输入主Softmax分类器。

进一步的，所述步骤4的多重卷积网络包含两个辅分类器，第一个辅助分类节点包含两个连续的卷积层和一个最大池化层，经全局最大池化输入辅Softmax分类器1；第二个辅助分类节点继续堆叠两个连续的卷积层，经全局最大池化输入辅Softmax分类器2。

进一步的，所述步骤5的最终损失函数是由三个分类器的损失函数加权而得，并且主分类器的损失函数分配较大的权重，辅分类器的损失函数分配较小的权重。

进一步的，所述最终损失函数为

o_c＝W_cS_c+b_c

θ为网络中全部可训练参数的集合，o_c为Softmax分类器输出结果，S_c为Softmax分类器输入的句子特征表达，W_c为Softmax分类器权重矩阵，b_c为Softmax分类器偏置参数，p_c(y|o_c)为归一化概率值，y为真实的样本分类标签值，J_c(θ)为分类器的损失函数值，m为每一批量的样本数，α_c为各分类器损失函数权重，L(θ)为总损失函数值。实践中主分类器损失函数分配较大的权重0.7，两个辅分类器分配较小的权重值0.2及0.1；

将损失函数作为优化目标，使用RMSprop优化损失函数，基于反向传播调整参数；

g←▽_θL(θ)

r←ρr+(1-ρ)g²

θ←θ+Δθ

g为梯度项，r代表累计的梯度平方项(初始化为0)，ρ＝0.9为梯度衰减项，ε＝0.001为全局学习率，δ＝1e-06为防止除0的小常数。

进一步的，所述步骤6具体为：

模型训练完成之后，将测试数据放入模型，利用已学习参数进行测试，最后取主分类器的分类结果评估模型。

本发明的优点及有益效果如下：

本发明将卷积神经网络与循环神经网络相结合。利用卷积神经网络，可提取词语之间的组合特征。利用循环神经网络，可提取文本的时序特征。其次，低层卷积网络进行多路输出，不仅将低层特征传入双向长短期记忆循环网络构成主分类器，也加入辅助分类节点通过多重卷积网络，继续提取不同程度的词语组合特征，从而对低层特征进行微调，缓解模型过拟合程度，提高分类准确率。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

图1是本发明提供优选实施例基于多分类节点卷积循环网络的文本特征提取及分类方法流程图。

图2为基于多分类节点卷积循环网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图所示，本实施例提供的基于多分类节点卷积循环网络的文本特征提取及分类方法，包括以下步骤：

步骤1：对原始数据进行预处理。文本分词是预处理过程中必不可少的一个操作，因为后续的分类操作需要使用文本中的单词来表征文本。对中文词语根据语义分词，英文需根据英文的书写习惯按照单词空格切割单词。文本数据中常常有对分类无明显帮助的部分词汇，需要将其从文本数据中剔除和转换，常见的操作包含去除标点符号，数字，英文大小写转换，去除停用词等。这样做不仅节省存储空间也提高统计效率。通过Glove算法，根据复现词语的共现情况，生成d维的词向量。

步骤2：采用一维卷积网络，以滑动的卷积窗口抽取词向量间的词语组合特征。固定文本包含m₁个词语，每个词对应d维的词向量。不足长度的文本通过0填充补足，超出长度的文本需要将其在尾部截断。设定滑动窗口大小为k，卷积核为n。表示句长m₁的文本经n个卷积核一维卷积的输出矩阵

矩阵内每一个元素表示为：

其中是第j个卷积核的参数；是卷积核滑动窗口所接受的词语范围从i到i+k-1的k个词；是j个卷积核的偏执；f是修正线性单元f(x)＝max{0,x}；

步骤3：将低层一维卷积网络输出的矩阵输入到双向长短期记忆循环网络中，双向长短期记忆循环网络包含正逆双向的长短期记忆循环网络。低层一维卷积输出的矩阵的每一行对应长短期记忆循环网络每一个时刻的输入。

长短期记忆循环内每个单元包含三个门控单元，一个存储状态。

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f) (2)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i) (3)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o) (4)

f_t是遗忘门，控制信息遗忘的程度；i_t是输入门，控制信息输入的程度；o_t是输出门，控制信息输出的程度；c_t是存储状态，记录历史的信息；h_t是长短期记忆循环网络内的单元的隐含层状态；W_f,W_i,W_o，W_c,U_f,U_i,U_o,U_c为权重矩阵；b_f,b_i,b_o,b_c为偏置；σ_h,σ_c是“tanh”函数，σ_g是“hard sigmoid”函数，是对应矩阵元素相乘。

双向长短期记忆循环网络由正向和逆向的长短期记忆循环网络构成。

a_t＝[l_t；r_t] (7)

l_t为正向长短期记忆循环网络的隐含层输出，r_t为逆向长短期记忆循环网络的隐含层输出。将l_t与r_t拼接而成a_t。

记录全部时刻的输出得经全局最大池化后g＝max[A]得到主分类器的输入S₁。

步骤4：将低层一维卷积网络输出的矩阵输入到多重卷积网络中。

当卷积层的输入是上一层卷积的结果时：

当卷积层的输入是上一层最大池化的结果时：

其中，是第l+1层卷积层的j个卷积核的参数；是卷积核滑动窗口接受上层卷积的输出的矩阵的行向量从第i行到第i+k-1行的k行；是积核滑动窗口接受上层最大池化的输出的矩阵行向量从第i行到第i+k-1行的k行，第l+1层是j个卷积核的偏执；f是修正线性单元f(x)＝max{0,x}；

最大池化是对卷积产生的特征图的降采样，缩减特征图的大小：

(10)式表示在池化窗口接受上层卷积的输出的矩阵的行向量从第i行到第i+m-1行的m行

如图2所示l＝3进行一次最大池化降采样操作，并使用全局最大池化，经全连接层得到辅分类器1的输入S₂。l＝5只采用全局最大池化，经全连接层得到辅分类器2的输入S₃。

步骤5：根据步骤3和步骤4所得的分类器的输入，计算Softmax函数下的损失函数。加权计算各Softmax分类器的损失函数，得到总损失函数。

o_c＝W_cS_c+b_c (11)

θ为网络中全部可训练参数的集合，θ为网络中全部可训练参数的集合，o_c为Softmax分类器输出结果，S_c为Softmax分类器输入的句子特征表达，W_c为Softmax分类器权重矩阵，b_c为Softmax分类器偏置参数，p_c(y|o_c)为归一化概率值，y为真实的样本分类标签值，J_c(θ)为分类器的损失函数值，m为每一批量的样本数，α_c为各分类器损失函数权重，L(θ)为总损失函数值。实践中主分类器损失函数分配较大的权重0.7，两个辅分类器分配较小的权重值0.2及0.1。

将损失函数作为优化目标，使用RMSprop优化损失函数，基于反向传播调整参数。

g←▽_θL(θ) (15)

r←ρr+(1-ρ)g² (16)

θ←θ+Δθ (18)

步骤6：模型训练完成之后，将测试数据放入模型，利用已学习参数进行学习特征测试，最后取主分类器的分类结果评估模型。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，包括以下步骤：

步骤1：采用包括分词、清洗文本、词向量训练在内的步骤预处理文本语料；

步骤6：对主分类器进行性能测试并实现分类。

2.根据权利要求1所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述步骤1：采用包括分词、清洗文本、词向量训练在内的步骤预处理文本语料，具体包括：

3.根据权利要求2所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述步骤2采用一维卷积网络，以滑动的卷积窗口抽取词向量间的词语组合特征，具体包括:固定文本包含m₁个词语，每个词对应d维的词向量,不足长度的文本通过0填充补足，超出长度的文本需要将其在尾部截断,设定滑动窗口大小为k，卷积核为n,表示句长m₁的文本经n个卷积核一维卷积的输出矩阵；

矩阵内每一个元素表示为：

其中是第j个卷积核的参数；是卷积核滑动窗口所接受的词语范围从i到i+k-1的k个词；是j个卷积核的偏执；f是修正线性单元f(x)＝max{0,x}。

4.根据权利要求2所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述步骤3使用双向长短期记忆循环网络提取步骤2所得的特征的时序信息，生成句子的特征表达，并作为主分类器的特征输入；具体为：

5.根据权利要求2所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述步骤4的多重卷积网络包含两个辅分类器，第一个辅助分类节点包含两个连续的卷积层和一个最大池化层，经全局最大池化输入辅Softmax分类器1；第二个辅助分类节点继续堆叠两个连续的卷积层，经全局最大池化输入辅Softmax分类器2。

6.根据权利要求2所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述步骤5的最终损失函数是由三个分类器的损失函数加权而得，并且主分类器的损失函数分配较大的权重，辅分类器的损失函数分配较小的权重。

7.根据权利要求6所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述最终损失函数为

o_c＝W_cS_c+b_c

θ为网络中全部可训练参数的集合，θ为网络中全部可训练参数的集合，o_c为Softmax分类器输出结果，S_c为Softmax分类器输入的句子特征表达，W_c为Softmax分类器权重矩阵，b_c为Softmax分类器偏置参数，p_c(y|o_c)为归一化概率值，y为真实的样本分类标签值，J_c(θ)为分类器的损失函数值，m为每一批量的样本数，α_c为各分类器损失函数权重，L(θ)为总损失函数值，实践中主分类器损失函数分配较大的权重0.7，两个辅分类器分配较小的权重值0.2及0.1。

r←ρr+(1-ρ)g²

θ←θ+Δθ

8.根据权利要求6所述的基于多分类节点卷积循环网络的文本特征提取及分类方法，其特征在于，所述步骤6具体为：