CN110162635A

CN110162635A - 一种文本中全局特征的提取方法、系统及相关装置

Info

Publication number: CN110162635A
Application number: CN201910451681.6A
Authority: CN
Inventors: 关立刚; 陈平华
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-23

Abstract

本申请提供一种文本中全局特征的提取方法，包括：利用BiLSTM模型获取所述文本的特征信息矩阵和输入信息矩阵；将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；利用卷积神经网络抽取所述新矩阵的全局特征。通过引入了注意力机制，解决了文本分类中无法关注重点单词特征的问题；同时通过引入残差连接，解决了网络模型在堆叠多层时出现的梯度消失以及高层网络中的参数更新停滞问题。实验结果表明，本文提出的模型能够更准确的获取文本特征信息，提高了文本分类的准确率。本申请还提供一种文本中全局特征的提取系统、一种计算机可读存储介质和一种终端，具有上述有益效果。

Description

一种文本中全局特征的提取方法、系统及相关装置

技术领域

本申请涉及深度学习领域，特别涉及一种文本中全局特征的提取方法、系统及相关装置。

背景技术

当前，随着互联网的快速发展，每天产生的文本数据在爆炸式的增长。由于文本数据的杂乱无章，仅仅通过人工的方式很难进行整理和区分。文本分类是用计算机设备对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。在文本分类中，如何通过预处理获取文本特征信息，一直是学者研究的热点问题。随着深度学习技术的飞速发展，深度学习在文本分类上的应用所取得的效果相比较于传统的文本分类算法如朴素贝叶斯，支持向量机(Support Vector Machine，SVM)等等取得了更好的效果。

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，最初是从猫眼视觉机制上得到启发，而被设计出来。它的神经元可以响应一部分覆盖范围内的周围单元，在图像识别和语音识别等任务上有着出色的表现。卷积神经网络(CNN)与其他深度学习结构相比，需要的参数更少。Kalchbrenner提出把CNN应用于自然语言处理，并设计了一个动态的神经网络(Dynamic Convolution Neural Network，DCNN)，用来处理长度不同的文本；Kim将经过预处理的词向量作为输入，利用卷积神经网络实现句子级别的分类任务。

然而，现有技术中文本分类中卷积神经网络(CNN)无法获取文本全局特征，且双向循环神经网络(BiLSTM)无法获取文本局部特征，给本领域技术人员带来较大困扰。

发明内容

本申请的目的是提供一种文本中全局特征的提取方法、提取系统、一种计算机可读存储介质和一种终端，解决了卷积神经网络无法获取文本全局特征的问题。

为解决所述技术问题，本申请提供一种文本中全局特征的提取方法，具体技术方案如下：

利用BiLSTM模型获取所述文本的特征信息矩阵和输入信息矩阵；

将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；

利用卷积神经网络抽取所述新矩阵的全局特征。

其中，还包括：

将CNN模型与所述BiLSTM模型相结合，得到BiLSTM-CNN模型；

将所述文本中预设单词的输入向量经过所述BiLSTM模型得到的特征向量拼接后作为所述预设单词的特征向量；

并将所述特征向量作为所述BiLSTM-CNN模型的输出，和所述CNN模型的输入向量；

对所述特征向量进行一维卷积，并经滤波器处理得到最终特征向量。

其中，所述滤波器的大小可以为所述预设单词的特征向量的倍数。

其中，将所述文本中预设单词的输入向量经过所述BiLSTM模型得到的特征向量拼接后作为所述预设单词的特征向量包括：

假设x_j(j＝1,…,n)为所述文本中的第j个单词的输入向量，其维度为K；和是所述第j个单词的输入向量x_j经过所述BiLSTM模型得到的特征向量，其维度分别是和

将拼接后的向量作为所述第j个单词的特征向量，其维度为作为所述BiLSTM-CNN模型的输出，和所述CNN模型的输入向量；

对其进行一维卷积；所述CNN模型中的滤波器的数目为K，得到了K个所述特征向量。

其中，还包括：

利用LSTM模型引入残差连接和注意力机制，并结合所述BiLSTM-CNN模型得到DHABLCR模型。

其中，还包括：

将所述文本中的每个单词采用独热码表示；

将所述单词映射成低维词向量，并生成输出序列；

在Max Pooling层对所述输出序列中所述预设单词的输入特征向量选择最高值作为所述预设单词的显著特征；

将所有所述单词的所有显著特征拼接成最终向量，作为所述文本的特征向量。

其中，将所有所述单词的所有显著特征拼接成最终向量，作为所述文本的特征向量之后，还包括：

经过Softmax层对所述文本进行分类。

本申请还提供一种文本中全局特征的提取系统，其特征在于，包括：

矩阵计算模块，用于利用BiLSTM模型获取所述文本的特征信息矩阵和输入信息矩阵；

矩阵拼接模块，用于将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；

特征提取模块，用于利用卷积神经网络抽取所述新矩阵的全局特征。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的提取方法的步骤。

本申请还提供一种终端，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的提取方法的步骤。

本申请提供一种文本中全局特征的提取方法，包括：利用BiLSTM模型获取所述文本的特征信息矩阵和输入信息矩阵；将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；利用卷积神经网络抽取所述新矩阵的全局特征。

本发明提出的将CNN网络和BiLSTM网络进行融合的模型。该模型引入了注意力机制，解决了文本分类中无法关注重点单词特征的问题；同时通过引入残差连接，解决了网络模型在堆叠多层时出现的梯度消失以及高层网络中的参数更新停滞问题。实验结果表明，本文提出的模型能够更准确的获取文本特征信息，提高了文本分类的准确率。本申请还提供一种文本中全局特征的提取系统、一种计算机可读存储介质和一种终端，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种文本中全局特征的提取方法的流程图；

图2为本申请提供的前向LSTM模型示意图；

图3为本申请提供的后向LSTM模型示意图；

图4为本申请提供的BiLSTM模型示意图；

图5为本申请提供的BiLSTM-CNN模型示意图；

图6为本申请提供的CNN模块的结构展开图；

图7为本申请提供的DAHBLCR模型示意图；

图8为本申请提供的Attention模块结构示意图；

图9为本申请提供的文本分类模型示意图；

图10为本申请提供的一种文本中全局特征的提取系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种文本中全局特征的提取方法的流程图，该提取方法包括：

S101：利用BiLSTM模型获取所述文本的特征信息矩阵和输入信息矩阵；

S102：将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；

S103：利用卷积神经网络抽取所述新矩阵的全局特征。

LSTM作为传统的序列模型，一般只朝一个方向读取文本，图2和图3分别表示从前往后读取文本的前向LSTM模型，和从后往前读取文本的后向LSTM模型。参见图4，图4为本申请提供的BiLSTM模型示意图，Bi-LSTM即双向LSTM，较单向的LSTM，Bi-LSTM能更好地捕获句子中上下文的信息。

在图5中，x_j(j＝1,…,n)是文本中的第j个单词的输入向量，其维度为K。和是第j个单词的输入向量x_j经过BiLSTM模型得到的特征向量，其维度分别是和在图6中，将拼接后的向量作为该单词的特征向量，其维度为作为BiLSTM-CNN模型的输出。同时将其作为CNN模块的输入向量，对其进行一维卷积。CNN模块中的滤波器的数目为K。在图6中，使用K个大小为的滤波器，padding形式为same，得到了K个特征向量。当然，滤波器的大小可以为其他，例如等等。

了实现文本的深层次挖掘，可以将BiLSTM-CNN模型进行层叠起来，通过多层神经网络结果来挖掘文本的深层特征[10]。但当神经网络参数过多时，会出现梯度消失和高层网络参数更新停滞等问题，并且基于BiLSTM-CNN模型的堆叠得到的神经网络无法获取对文本分类结果产生影响的重点单词的特征。因此本文针对BiLSTM-CNN模型堆叠所产生的所述两个问题提出了注意力残差双向LSTM(Deeply Attention Hierarchical BiLSTM-CNNResNet，DAHBLCR)模型进行改进。引入残差连接之后，可以解决深度神经网络模型随着层数的增加而导致的高层网络参数更新停滞，可以帮助训练更深层次的神经网络。注意力机制会决定每个特征向量对分类结果的贡献。

例如，中国成功研发出一战略合金，或将促进量产超音速导弹。“导弹”对于军事新闻来说属于重点单词，而其他单词为非重点单词。

图7为DAHBLCR模型结构图，在整个堆叠的深度神经网络模型中，每一层由BiLSTM-CNN，ResNet和Attention三个模块组成。图8展示了模型的Attention模块。

如图7所示，其中是由n个的单词构成的文本，作为深度神经网络的输入。在第i层中，深度神经网络网络的输入是其中BiLSTM-CNNⁱ模块输入是x^i-1，输出是其中cⁱ是由第i层BiLSTM-CNNⁱ模块获取的文本特征，是文本中第j个单词经过BiLSTM-CNNⁱ模块获取的特征向量。

为了解决挖掘文本的深层特征信息，加深网络层数而导致的梯度消失以及高层网络中的特征很难有效的传递，而引入残差网络连接。如图7所示，在ResNetⁱ模块中输入是xⁱ ^-1和cⁱ，输出是

对于深度神经网络中第i层中的BiLSTM-CNNⁱ模块来说，残差网络在模块中的作用可以通过下面的公式抽象出来：

其中分别是对于文本中的第j个单词在第i层中的BiLSTM-CNNⁱ模块中的记忆单元和输出单元。是第i层中BiLSTM-CNNⁱ模块中，第j个单词的输入向量，θⁱ是第i层网络中的参数集合。

为了获取对分类结果产生影响的重点单词的特征，在深度神经网络第i层中加入Attentionⁱ模块，如图8所示。在Attentionⁱ模块中，输入是输出是其中xⁱ也是深度神经网络模型中第i+1层的输入。在Attentionⁱ模块中，注意力模型在模块中的作用通过MLPⁱ结构表现出来。具体公式抽象出来如下所示：

其中，Wⁱ为第i层获取的第j个单词的特征向量经过一个神经网络获取其隐层表示向量的状态转移参数矩阵，bⁱ和对应的偏置项。vⁱ为随机初始化的权值向量，用于对第j个单词的隐层表示向量进行Softmax标准化的的参数向量。为第i层获中的第j个单词的权重。Wⁱ,bⁱ,vⁱ的更新由模型训练时最小化损失函数反向传播所获得。

在文本分类训练和测试中，本文将上文提出的DHABLCR引入到文本分类模型中。如图9所示。

对于训练中的文本矩阵w＝{w₁,w₂,w₃,…,w_n}由n个单词组成，并且每个词采用独热码表示方式，文本中第j个单词w_j的维度为词汇表的大小。通过Embedding层对采用独热码表示的单词映射成128维的低维词向量。整个深度神经网络(DHABLCR)模型的层数为m，最终的输出为其中Max Pooling层对输入的序列x^m中的第j个单词的输入特征向量选择最高值作为第j个单词的显著特征，将所述n个显著特征拼接成一个n维的向量，作为文本的显著特征向量。最后，经过一个Softmax层进行分类。

本申请实施例提出的将CNN网络和BiLSTM网络进行融合的模型。该模型引入了注意力机制，解决了文本分类中无法关注重点单词特征的问题；同时通过引入残差连接，解决了网络模型在堆叠多层时出现的梯度消失以及高层网络中的参数更新停滞问题。实验结果表明，本文提出的模型能够更准确的获取文本特征信息，提高了文本分类的准确率。

下面对本申请实施例提供的一种文本中全局特征的提取系统进行介绍，下文描述的提取系统与上文描述的一种文本中全局特征的提取方法可相互对应参照。

矩阵计算模块100，用于利用BiLSTM模型获取所述文本的特征信息矩阵和输入信息矩阵；

矩阵拼接模块200，用于将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；

特征提取模块300，用于利用卷积神经网络抽取所述新矩阵的全局特征。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现所述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种终端，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现所述实施例所提供的步骤。当然所述终端还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种文本中全局特征的提取方法，其特征在于，包括：

将所述特征信息矩阵和所述输入信息矩阵拼接得到新矩阵；

利用卷积神经网络抽取所述新矩阵的全局特征。

2.根据权利要求1所述的提取方法，其特征在于，还包括：

将CNN模型与所述BiLSTM模型相结合，得到BiLSTM-CNN模型；

将所述特征向量作为所述BiLSTM-CNN模型的输出，同时作为所述CNN模型的输入向量；

3.根据权利要求2所述的提取方法，其特征在于，所述滤波器的大小可以为所述预设单词的特征向量的倍数。

4.根据权利要求3所述的提取方法，其特征在于，将所述文本中预设单词的输入向量经过所述BiLSTM模型得到的特征向量拼接后作为所述预设单词的特征向量包括：

令_{xj(j＝1,…,n)}为所述文本中的第_j个单词的输入向量，所述输入向量的维度为_K；和是所述第_j个单词的输入向量_xj经过所述BiLSTM模型得到的特征向量，其维度分别是和

将拼接后的向量作为所述第_j个单词的特征向量，所述特征向量的维度为作为所述BiLSTM-CNN模型的输出，同时作为所述CNN模型的输入向量；

对所述特征向量进行一维卷积；所述CNN模型中的滤波器的数目为_K，得到了_K个所述特征向量。

5.根据权利要求2所述的提取方法，其特征在于，还包括：

6.根据权利要求5所述的提取方法，其特征在于，还包括：

将所述文本中的每个单词采用独热码表示；

将所述单词映射成低维词向量，并生成输出序列；

7.根据权利要求5所述的提取方法，其特征在于，将所有所述单词的所有显著特征拼接成最终向量，作为所述文本的特征向量之后，还包括：

经过Softmax层对所述文本进行分类。

8.一种文本中全局特征的提取系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的提取方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-7任一项所述的提取方法的步骤。