CN109376242A

CN109376242A - 基于循环神经网络变体和卷积神经网络的文本分类算法

Info

Publication number: CN109376242A
Application number: CN201811216633.0A
Authority: CN
Inventors: 李云红; 梁思程; 汤汶; 慕兴; 张轩; 张欢欢; 聂梦瑄
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-02-22
Anticipated expiration: 2038-10-18
Also published as: CN109376242B

Abstract

本发明公开了一种基于循环神经网络变体和卷积神经网络的文本分类算法，具体为：步骤1，对数据集SogouC和数据集THUCNews进行预处理，并将两个数据集均分为训练集和测试集，并将各自训练集和测试集中的文本数据均训练为句向量；步骤2，利用步骤1中两个数据集中的训练集中文本建立BGRU‑CNN混合模型，步骤3，建立目标函数，采用随机梯度下降方法训练经步骤2建立好的BGRU‑CNN混合模型；步骤4，将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU‑CNN混合模型中，得到分类结果。本发明解决了现有技术中存在的长文本在文本分类时提取语义关键特征难度大，分类效果差的问题。

Description

基于循环神经网络变体和卷积神经网络的文本分类算法

技术领域

本发明属于自然语言处理方法技术领域，涉及一种基于循环神经网络变体和卷积神经网络的文本分类算法。

背景技术

当前，互联网发展迅猛，每时每刻产生大量文本信息。如何对大量文本进行有效的分类以及管理，进而快速了解信息价值，是许多研究者关注的焦点。其中，长文本内容多，包含多个不同关键字。所以，在文本分类中，保持长文本的结构完整，保持文本词之间的顺序，学习文本上下文语义，可以提高长文本的文本分类效果。

文本分类主要包括文本表示、分类器的选择与训练、分类结果的评价与反馈等工作。其中文本表示是影响分类结果的关键步骤。词袋模型在文本表示中应用最为广泛，它将文本表示为高维度，高稀疏的One-hot向量。但One-hot向量因未考虑文本的语序和上下词之间的联系，词之间相互独立，导致文本信息大量丢失。为了克服词袋模型文本表示的缺陷，词向量的概念应运而生，将词表示成一个定长的连续的稠密向量。Skip-gram和CBOW神经网络模型提升了词向量训练的效率。PV-DM神经网络模型，考虑了文本的语序信息，将文本表示为定长的句向量或者段落向量。

在文本的分类器训练方面，主要采用浅层的朴素贝叶斯，支持向量机，最大熵模型等机器学习模型。而基于时间序列的循环神经网络模型，解决了浅层机器学习模型对关联性强的样本分类效果差，无法学习到类别内信息等问题。卷积神经网络用于文本处理，通过共享权重提升了文本分类的性能。

目前暂时没有出现将循环神经网络变体和卷积神经网络进行结合进行文本分类的有效算法。

发明内容

本发明的目的是提供一种基于循环神经网络变体和卷积神经网络的文本分类算法，将循环神经网络变体和卷积神经网络结合，解决了现有技术中存在的长文本在文本分类时提取语义关键特征难度大，分类效果差的问题。

本发明所采用的技术方案是，基于循环神经网络变体和卷积神经网络的文本分类算法，具体按照以下步骤实施:

步骤1，对数据集SogouC和数据集THUCNews进行预处理，并将经过预处理的数据集SogouC和数据集THUCNews均分为训练集和测试集，并将各自训练集和测试集中的文本数据均训练为句向量；

步骤2，利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型，具体为：将两个数据集中训练集的文本句向量，经过循环层捕捉句子上下文信息，卷积层提取文本的关键特征，通过Softmax分类，输出文本属于某个类别的概率；

步骤3，建立目标函数，采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型；

步骤4，将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中，得到分类结果。

对数据集SogouC和数据集THUCNews进行预处理具体为：采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词，去除停用词和标点符号。

数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。

步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。

步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为：

步骤2.1，经过循环神经网络保留文本的语序信息

采用双向循环结构分别捕获两个数据集的训练集文本第i个句子S_i上文L(S_i)和句子下文R(S_i)的信息，计算方式如公式(1)和公式(2)；

L(S_i)＝f(W^(l)L(S_i-1)+W^(sl)e(S_i-1))， (1)

R(S_i)＝f(W^(r)R(S_i+1)+W^(sr)e(S_i+1))， (2)

其中，公式(1)中，e(S_i-1)表示句子S_i-1的句向量，L(S_i-1)表示句子S_i-1的上文信息，W^(sl)表示S_i句子和S_i-1句子语义信息组合的权阵，W^(l)为隐藏层的转换权阵，f为激活函数，然后，通过公式(3)构成训练集文本第i个句子的句向量x_i，保留了句子左侧的信息L(S_i)和右侧的信息R(S_i)；

x_i＝[L(S_i)；e(S_i)；R(S_i)] (3)

采用GRU结构进行神经元的节点设计，GRU网络节点通过重置门r和更新门z对输入信息进行处理，t时刻的激活状态h_t计算方式如公式(4)；

h_t-1是t-1时刻的激活状态，与h_t呈线性关系表示向量矩阵对应元素相乘；

z_t表示t时刻更新门的状态，计算方式为公式(5)；

t时刻的激活状态h_c的计算方式如公式(6)；

t时刻的重置门r_t的计算方式如公式(7)；

z_t＝σ(W_zx_t+U_zh_t-1)， (5)

r_t＝σ(W_rx_t+U_rh_t-1)， (7)

其中，σ为sigmoid函数，x_t是t时刻该节点输入的句向量，W_z，W_x，W_r和U_z，U，U_r是更新门z、当前候选的激活状态h_c和重置门r要训练的权重参数；

步骤2.2，根据循环层，分别得到两个训练集中的整个文本的语序特征句向量x_i后，使用CNN卷积神经网络进行深层次特征的提取，最后经Softmax分类，得到分类结果。

步骤2.2具体按照以下步骤实施：

步骤2.2.1在循环层获取所有句向量x_i后，使用CNN网络进行特征y_i的提取，计算方式如公式(8)所示；

y_i＝f(w·x_i:h+b)， (8)

其中，卷积核用w∈R^hk来表示，h和k分别表示卷积核的窗口高度和宽度，用来对循环层的输出进行卷积，x_i:h表示输入特征向量第i行到第h行的特征值，b为偏置项，f为激活函数；

获取所有y_i后，通过公式(9)，构建关键特征图Y；

Y＝[y₁,y₂,y₃...y_n]， (9)

然后使用最大池化层来确定文本的最佳特征，计算方式如公式(10)所示；

步骤2.2.2，得到最佳特征y，然后将其输入分类层分类，分类层采用dropout方式将最佳特征y连接到Softmax分类器中，其输出向量O的计算方式如公式(11)所示：

O＝f(W_cc_d+b_c)， (11)

其中，W_c和b_c分别表示Softmax分类器的权重参数和偏置项，c_d为通过dropout产生的向量，f为sigmoid函数；

最后根据输出向量O预测文本属于第k类的概率，其计算方式如公式(12)所示；

其中，O_k表示输出向量O中的第k个元素，N表示类别数。

步骤3建立目标函数，采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型的具体过程如下：

将所有BGRU-CNN模型的参数定义为θ；

将循环层所有参数定义为包括初始上下文信息L(S₁)和R(S_n)、权重参数W^(sl)、W^(l)、W^(sr)、W^(r)；

将卷积层所有参数定义为包括W_z、W_x、W_r、U_z、U、U_r；

则θ包括句向量S、偏置项b_c、W_c、w，如公式(13)所示，其中，S代表整个训练集文本的句向量；

然后经过神经网络训练，找到最小代价的θ，如公式(14)所示：

其中D为训练的文档集，p(class_T|T,θ)表示文档T在参数θ下属于目标类别class_T的概率，采用随机梯度下降方法训练BGRU-CNN模型，则θ的更新如公式(15)所示，其中α为学习率：

得到训练好的BGRU-CNN混合模型。

步骤4具体为：使用测试集中的文本按照步骤2.1-2.2的方法，将测试集中的文本输入到训练好BGRU-CNN模型中，得到分类结果。

本发明的有益效果是：与现有的方法相比，针对长文本在文本分类时提取语义关键特征难度大，分类效果差等问题，经双向门控循环单元(BGRU)实现文本的序列信息表示，利用卷积神经网络(CNN)提取文本的关键特征，通过Softmax分类器实现文本的准确分类，提高了文本的分类性能。

附图说明

图1是本发明基于循环神经网络变体和卷积神经网络的文本分类算法的流程图；

图2是本发明基于循环神经网络变体和卷积神经网络的文本分类算法中使用的PV-DM模型结构图；

图3是本发明建立分类算法模型的原理图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于循环神经网络变体和卷积神经网络的文本分类算法，其流程如图1所示，具体按照以下步骤实施:

具体为：采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词，去除停用词和标点符号，然后将经预处理的数据集SogouC和数据集THUCNews各自分训练集和测试集，训练集中的文本数据量与测试集中的文本数据量之比为7:3，然后，通过PV-DM模型(如图2所示)将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量，获得句向量的表示；文本通过神经网络训练得到词向量W，将词向量W与段落矩阵D拼接在一起。新增段落id可以被看做新的词，每预测一个词，就使用该词所在段落的段落id作为新增加的输入。在一个文本的训练过程中，段落id保持不变，共享着同一个段落矩阵。使用随机梯度下降法训练所有参数，训练结束后得到定长的实向量，即段落向量(本文称句向量)；将长文本长度各异的句子表示为定长的句向量，可以进行句子级的文本分析，提高了长文本分析的速度；

其中，利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为：如图3所示，

步骤2.1，经过循环神经网络保留文本的语序信息

L(S_i)＝f(W^(l)L(S_i-1)+W^(sl)e(S_i-1))， (1)

R(S_i)＝f(W^(r)R(S_i+1)+W^(sr)e(S_i+1))， (2)

x_i＝[L(S_i)；e(S_i)；R(S_i)] (3)

h_t-1是t-1时刻的激活状态，与h_t呈线性关系，表示向量矩阵对应元素相乘；

z_t表示t时刻更新门的状态，计算方式为公式(5)；

t时刻的激活状态h_c的计算方式如公式(6)；

t时刻的重置门r_t的计算方式如公式(7)；

z_t＝σ(W_zx_t+U_zh_t-1)， (5)

r_t＝σ(W_rx_t+U_rh_t-1)， (7)

步骤2.2具体按照以下步骤实施：

y_i＝f(w·x_i:h+b)， (8)

获取所有y_i后，通过公式(9)，构建关键特征图Y；

Y＝[y₁,y₂,y₃...y_n]， (9)

O＝f(W_cc_d+b_c)， (11)

其中，W_c和b_c分别表示Softmax分类器的权重参数和偏置项，c_d为通过dropout产生的向量，f为sigmoid函数；Dropout算法随机将最佳特征y按一定比例置0，其他没有置0的元素参与运算，由于每一次输入特征向量后置0的方式都是随机的，因此网络权重参数每一次都得到了更新，直到所有样本都被训练完成，因为每次网络权重参数都不相同，dropout算法将神经网络变成了多种模型组合，有效的防止了过拟合，提升了模型预测的精度；

其中，O_k表示输出向量O中的第k个元素，N表示类别数。

步骤3，建立目标函数，采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型；具体过程如下：

将所有BGRU-CNN模型的参数定义为θ；

将卷积层所有参数定义为包括W_z、W_x、W_r、U_z、U、U_r；

则则θ包括句向量S、偏置项b_c、W_c、w，如公式(13)所示：

其中，S代表整个训练集文本的句向量；

得到训练好的BGRU-CNN混合模型。

步骤4，将两个数据集中将测试集的文本句向量输入经步骤3训练好的BGRU-CNN混合模型中，得到分类结果，具体为：使用测试集中的文本按照步骤2.1-2.2的方法，将测试集中的文本输入到训练好BGRU-CNN模型中，得到分类结果。

本发明采用文本分类常用评估指标(准确率、召回率和f1值)与CNN、LSTM、GRU、B-LSTM、B-GRU、5个文本分类模型相比，评价本发明算法的文本分类效果，结果如表1-3所示：

BGRU-CNN模型与CNN模型的分类结果进行比较，得出BGRU-CNN模型评估指标均高于CNN模型，表明GRU模型对文本语义的学习提高了文本分类的结果。BGRU-CNN模型与LSTM、GRU、B-LSTM模型的分类结果进行比较。在SogouC数据集中，BGRU-CNN模型评估指标接近LSTM模型，高于其他两个模型。在THUCNews数据集中，B-LSTM模型评估指标高于其他三个模型，得出了双向循环GRU网络结构提高了文本分类的结果。

表1数据集分类准确率/％

表2数据集分类召回率/％

表3数据集分类f1值/％

BGRU-CNN模型和B-GRU模型的分类结果进行比较。在SogouC数据集中，BGRU-CNN模型的分类准确率低于B-GRU模型，但其召回率和f1值却高于B-GRU模型。在THUCNews数据集中，BGRU-CNN模型的评估指标均高于B-GRU模型，得出了BGRU-CNN模型通过卷积层学习到了更深的文本特征，提高了文本分类的结果。

Claims

1.基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，具体按照以下步骤实施:

2.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述对数据集SogouC和数据集THUCNews进行预处理具体为：采用jieba中文分词进行对数据集SogouC和数据集THUCNews进行分词，去除停用词和标点符号。

3.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述数据集SogouC和数据集THUCNews中训练集中的文本数据量与测试集中的文本数据量之比为7:3。

4.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述步骤1中通过PV-DM模型将两个数据集中各自的训练集和测试集中的文本数据均训练为句向量。

5.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述步骤2中利用步骤1中两个数据集中的训练集中文本建立BGRU-CNN混合模型的具体步骤为：

步骤2.1，经过循环神经网络保留文本的语序信息

L(S_i)＝f(W^(l)L(S_i-1)+W^(sl)e(S_i-1))， (1)

R(S_i)＝f(W^(r)R(S_i+1)+W^(sr)e(S_i+1))， (2)

x_i＝[L(S_i)；e(S_i)；R(S_i)] (3)

z_t表示t时刻更新门的状态，计算方式为公式(5)；

t时刻的激活状态h_c的计算方式如公式(6)；

t时刻的重置门r_t的计算方式如公式(7)；

z_t＝σ(W_zx_t+U_zh_t-1)， (5)

r_t＝σ(W_rx_t+U_rh_t-1)， (7)

6.根据权利要求5所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述步骤2.2具体按照以下步骤实施：

y_i＝f(w·x_i:h+b)， (8)

获取所有y_i后，通过公式(9)，构建关键特征图Y；

Y＝[y₁,y₂,y₃...y_n]， (9)

O＝f(W_cc_d+b_c)， (11)

其中，O_k表示输出向量O中的第k个元素，N表示类别数。

7.根据权利要求1所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述步骤3建立目标函数，采用随机梯度下降方法训练经步骤2建立好的BGRU-CNN混合模型的具体过程如下：

将所有BGRU-CNN模型的参数定义为θ；

将卷积层所有参数定义为包括W_z、W_x、W_r、U_z、U、U_r；

则则θ包括句向量S、偏置项b_c、W_c、w，如公式(13)所示：

其中，S代表整个训练集文本的句向量；

得到训练好的BGRU-CNN混合模型。

8.根据权利要求5所述的基于循环神经网络变体和卷积神经网络的文本分类算法，其特征在于，所述步骤4具体为：使用测试集中的文本按照步骤2.1-2.2的方法，将测试集中的文本输入到训练好BGRU-CNN模型中，得到分类结果。