CN109508377A

CN109508377A - 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质

Info

Publication number: CN109508377A
Application number: CN201811420523.6A
Authority: CN
Inventors: 张帆
Original assignee: Nanjing Yun Si Powerise Mdt Infotech Ltd
Current assignee: Nanjing Yun Si Powerise Mdt Infotech Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-03-22

Abstract

本发明公开了一种基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质。提取方法包括以下步骤：S1、将词采用Word2vec模型，利用Skip‑gram模型构建词向量，再将词组成的句子映射为句子矩阵；S2、采用卷积神经网络提取词向量的局部特征；S3、采用BLSTM模型提取与词向量上下文相关的全局特征；S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征，并将提取的特征进行融合；S5、将网络逐层提取得到的文本特征向量使用soft‑max分类器进行文本分类。本发明既解决了单卷积神经网络忽略词语在上下文语义信息的问题，也有效的避免了传统循环神经网络梯度消失或者梯度弥散的问题。

Description

基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质

技术领域

本发明属于文本处理技术领域，具体涉及一种基于CNN-BLSTM-Attention融合模型的文本特征提取方法、装置、聊天机器人和存储介质。

背景技术

目前在文本特征提取上依然采用人工特征工程和浅层分类模型进行文本分类。训练文本分类器过程如图1所示。机器学习问题把数据转换成信息再提炼到知识的过程，决定了结果的上限，而模型和算法，则是去逼近这个上限，特征工程不同于分类器模型，十分耗时，且不具备很强的通用性，往往需要结合对特征任务的理解。

所以一般都采用深度学习方法进行文本特征提取，主要包括：卷积神经网络模型(CNN)和长短期记忆人工神经网络(LSTM)。

深度学习方法进行文本分类的第一步是将文本向量化，利用词向量表示文本，作为神经网络的输入。传统的文本表示方法是基于向量空间模型或one-hot表示。向量空间模型中向量的维度与词典中词的个数线性相关，随着数量的增多会产生维度灾难，one-hot虽然简单但是忽略了词语之间的语义。

卷积神经网络是神经网络的一种专门处理矩阵输入的任务，如图2所示，能够将矩阵形式的输入编码为较低维度的一维向量，而保留大多数有用信息。虽然卷积神经网络在文本分类中取得了巨大的突破，但是卷积神经网络更加关注于局部特征而忽略词的上下文含义，这对文本分类的准确率有一定的影响。

LSTM的思想是：每一个单词经过embedding(嵌入层)之后，进入LSTM层，经过一个时间序列得到的神经单元的向量，这些向量经过mean pooling层(平均池化层)之后，可以得到一个组合向量，然后紧接着是一个简单的softmax层(分类器)得到一个类别分布向量。

同时，随着社会的日益信息化，人们更希望能够用自然语言在和机器人交流的过程中，得到自己想要的答案比如：股票查询。在和机器人的聊天的过程中会产生大量的数据，这些数据不光体现了用户的需求和意图，而且具有多样性，如果能够识别用户的需求和意图的话，那么机器人会更智能地提供服务。

在聊天机器人股价查询意图的识别上，传统的SVM方法(如图3所示)采用的是模式匹配或者是基特征进行模型的训练，分类简单但准确性低，CNN更好地利用聊天的上下文从而提取出特征优于刻画局部特征，但是CNN存在对文本的读取的时间序列需求的进一步优化

基于此，本发明提出如何结合上下文语境来进行文本特征提取，以识别用户的意图和需求，通过聊天能够针对性地回答用户的问题。

发明内容

本发明提供一种基于CNN-BLSTM-Attention融合模型的文本特征提取方法、装置、聊天机器人和存储介质，结合上下文语境来进行文本特征提取，以识别用户的意图和需求，通过聊天能够针对性地回答用户的问题。

为解决上述技术问题，本发明采用了如下的技术方案：

基于融合模型的文本特征提取方法，包括以下步骤：

S1、将词采用Word2vec模型，利用Skip-gram模型构建词向量，再将词组成的句子映射为句子矩阵；

S2、采用卷积神经网络提取词向量的局部特征；

S3、采用BLSTM模型提取与词向量上下文相关的全局特征；

S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征，并将提取的特征进行融合；

S5、将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。

进一步地，所述步骤S2具体包括以下步骤：

S21、将句子矩阵作为输入，输入到卷积神经网络的词嵌入层；

S22、卷积神经网络的卷积层进行卷积操作，提取局部特征；

S23、卷积神经网络的池化层进行池化操作，提取关键特征，舍弃冗余特征，生成固定维度的特征向量，将三个池化操作输出的特征拼接起来，得到输出，作为第一层全连接层输入特征的一部分。

进一步地，所述步骤S22具体为：选用3*80、4*80、5*80大小的滤波器各40个，步长stride大小设置为2，padding为VALID，进行卷积运算，通过卷积操作来提取句子的局部特征。

进一步地，所述步骤S3具体为：

S31、将句子矩阵作为输入，输入到BLSTM模型的词嵌入层；

S32、BLSTM模型的两个隐藏层保存两个方向的历史信息和未来信息；

S33、将两个隐藏层输出部分拼接，得到输出，作为第一层全连接层输入特征的一部分。

进一步地，还包括采用tensorflow框架中的concat()方法对卷积神经网络和BLSTM模型输出的特征进行融合，将融合后的特征保存在output中，将其作为第一个全连接层的输入，再连接第二个全连接层，在第二个全连接层之后引入dropout机制。

进一步地，所述步骤S4具体公式描述为：

e_t,i＝V_αtanh(Wq_t+Uk_i)

其中e_t,i表示target中某个元素q_t与source中某个k_i的相似值，V_α、W、U为随机化参数；α_t,i表示e_t,i的归一化值、e_t,j表示target中某个元素q_t与source中各个k_j的相似值，且j＝[1,N]；v_t表示元素q_t的最终Attention值。

本发明还提供一种基于融合模型的文本特征提取装置，包括：

词向量构建模块，用于采用Word2vec模型，利用Skip-gram模型构建词向量；

卷积神经网络模块，用于采用卷积神经网络提取词向量的局部特征；

BLSTM模型模块，用于采用BLSTM模型提取与局部特征上下文相关的全局特征；

Attention机制模块，通过Attention机制提取全局特征更深层次的信息特征，并将提取的特征进行融合；

文本分类模块，用于将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类。

进一步地，还包括映射模块，用于将词组成的句子映射为句子矩阵。

本发明还提供一种聊天机器人，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述基于融合模型的文本特征提取方法；

交互界面，用于处理器在执行程序时提供人机交互。

本发明还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行以实现上述基于融合模型的文本特征提取方法。

本发明的有益效果是：本发明提供一种实现文本特征提取的方法，该方法利用卷积神经网络提取文本向量的局部特征，利用BLSTM提取与文本上下文相关的全局特征，再通过Attention机制提取更深层次的信息，将提取的特征进行融合，既解决了单卷积神经网络忽略词语在上下文语义信息的问题，也有效的避免了传统循环神经网络梯度消失或者梯度弥散的问题。结果表明，与传统的方法相比，融合模型提升了文本分类的准确率，从而能够通过聊天文本准确地识别用户的意图(例如股票查询)，了解用户接下来的操作意图，有针对性地进行信息(股票信息)的推荐，更好地服务于用户。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是现有技术中文本特征提取流程图。

图2是现有技术中卷积神经网络的模型图。

图3是现有技术中在聊天机器人股价查询意图的识别上所采用的传统SVM方法模型图。

图4是现有技术中Skip-gram模型的模型图。

图5是本发明中BLSTM模型的模型图。

图6是本发明中CNN-BLSTM-Attention机制融合的模型图。

图7是本发明提供的实现文本特征提取的方法的流程图。

图8是本发明提供中卷积神经网络提取词向量的局部特征的流程图。

图9是本发明提供中采用BLSTM模型提取与词向量上下文相关的全局特征的流程图。

图10是本发明中的基于融合模型的文本特征提取装置的框架图。

图11是本发明中的聊天机器人的框架图。

图12是本发明中的聊天机器人应用在股票领域中的模型。

图13是本发明中的聊天机器人应用在股票领域中的流程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

实施例一

本实施例中所提到的文本包括词语或者句子，词语是词和语的合称，包括单词、词组及整个词汇，文字组成语句文章的最小组词结构形式。句子是语言运用的基本单位，它由词、词组(短语)构成，能表达一个完整的意思。

本实施例提供基于CNN-BLSTM-Attention融合模型的的文本特征提取方法，该方法适用于文本特征提取的情况，该方法可以由遵循文本特征规则的提取装置来执行，且文本特征规则的提取装置可以由软件和/或硬件的方式来实现，如图5-图8所示，本实施例的基于CNN-BLSTM-Attention融合模型的的文本特征提取方法包括以下步骤：

S1、词向量的构建，采用Word2vec模型，利用Skip-gram模型将词W(i)转化为对应的词向量V(W(i))，并将由词W(i)组成的句子映射为句子矩阵S_j；

S_j＝{V(W(1),V(W(2),...,V(W(m))}其中m代表句子矩阵S_j中句子的个数；

Skip-gram模型如图4所示，Skip-gram模型由输入层(input)，映射层(projection)和输出层(output)构成。Skip-gram输入是当前词W(t)的向量形式，输出是周围词的向量形式，通过当前词来预测周围的词，如果上下文窗口大小设置为4，已知中间词W(t)所对应的向量形式为V(W(t))，利用V(W(t))预测出周围4个词所对应的向量形式，Context(w)＝{V(W(t+2)),V(W(t+1)),V(W(t-1)),V(W(t-2))}，skip-gram模型计算周围词向量是利用中间词向量V(W(t))的条件概率值来求解，公式如下：

P(V(W(i))|V(W(t)))

其中V(W(t))为中间词W(t)所对应的向量形式，V(W(i))表示中间词W(t)左右周围的4个词所对应的向量形式，为V(W(t+2)),V(W(t+1)),V(W(t-1)),V(W(t-2))中的任意一个。

S2、采用卷积神经网络提取词向量的局部特征，参阅图2和图8所示，具体为：

首先、卷积神经网络部分第一层是词嵌入层，将句子矩阵S_j作为词嵌入层的输入，矩阵的列是词向量的维度，矩阵的行为sequence_length的长度；

然后、第二层是卷积层，进行卷积操作，提取局部特征，本实施例分别选用3*80，4*80，5*80大小滤波器各40个，步长stride大小设置为2，padding为VALID，进行卷积运算，通过卷积操作来提取句子的局部特征；

最后、第三层进行最大池化操作，提取关键特征，舍弃冗余特征，生成固定维度的特征向量，将三个池化操作输出的特征拼接起来，作为第一层全连接层输入特征的一部分。

S3、采用BLSTM模型提取与词向量上下文相关的全局特征。虽然LSTM解决了RNN会发生梯度消失或者梯度爆炸的问题，但是LSTM只能学习当前词之前的信息，不能利用当前词之后的信息，因为一个词的语义和上下文的信息有着密切关系，所以本实施例利用BLSTM代替LSTM，既克服了梯度消失或者梯度爆炸的问题，又能充分考虑当前词的上下文语信息。

如图5和图9所示，BLSTM模型的具体方法如下：

首先，BLSTM部分第一层是词嵌入层，将句子矩阵S_j作为词嵌入层的输入，每一个词向量维度设置为80维；

然后、第二层、第三层均为隐藏层，隐藏层大小均为128，当前输入与前后序列都相关，将输入序列分别从两个方向输入模型，经过隐含层保存两个方向的历史信息和未来信息；

最后、将两个隐层输出部分拼接，得到后BLSTM的输出，代码如下：

output_blstm＝rnn.static_bidirectional_rnn(fw,bw,inputs)

利用BLSTM模型提取词的上下文语义信息，提取文本中词的全局特征。本文在第一个FC全连接层前，使用tensorflow框架中的concat()方法对CNN和BLSTM输出的特征进行融合，融合代码如下：

output＝tf.concat([output_cnn,output_blstm],axis＝1)；

将融合后的特征保存在output中，将其作为第一个FC全连接层的输入，再连接第二个FC全连接层，在第二个全连接层之后引入dropout机制，每次迭代放弃部分训练好的参数，使权值更新不再依赖部分固有特征，防止过拟合；接着，使用Attention注意力机制网络层分别对文本中重要的词语和语句进行选择，最后，将提取得到的文本特征向量使用softmax分类器进行文本分类，至此机器人就相应地响应用户所需要的目标信息。

S4、通过Attention机制提取局部特征、全局特征更深层次的信息特征，并将提取的特征进行融合。对于过长的句子，容易丢失一些信息，即使是LSTM，虽然可以在一定程度上解决这个问题，但是对于更长的句子便显得不足，由于在文本中，每一个词语或者句子对于文本类别的贡献度是不一样的，为了实现对重要词语的特征进行提取，所以本实施例中Attention机制的思想是，在预测某个位置时，只考虑句子中的部分内容，而不是全部信息，使用Attention可以更好地表征文本，使训练出的模型具有更高的精度并为模型提供了更好地解释性。

Attention机制可以归纳为三个步骤：第一步，将source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素q，通过计算q和各个k的相似性或者相关性，得到每个k对应的Value的权重系数；第二步，对第一阶段的原始分值进行归一化处理；第三步，权重系数对Value进行加权求和得到最终的Attention值，具体公式描述为：

e_t,i＝V_αtanh(Wq_t+Uk_i)

S5、将网络逐层提取得到的文本特征向量使用soft-max分类器进行文本分类；

y_i＝softmax(w_cV+b_c),i∈[1,n],n为类别c的个数。

其中y_i表示对应类别的分布概率，w_c、b_c为随机初始化参数。

实施例二

本实施例提供一种基于融合模型的文本特征提取装置，包括：

本实施例的文本特征提取装置还包括映射模块，用于将将词组成的句子映射为句子矩阵。

本实施例所提供的一种基于融合模型的文本特征提取装置，与本发明实施例一所提供的基于融合模型的文本特征提取方法属于同一发明构思，可执行本实施例一所提供的基于融合模型的文本特征提取方法，具备相应的功能和有益效果。

实施例三

参阅图11所示，提供了本实施例的一种聊天机器人的框架图，图11仅提供了一种实施例，但是该实施例不应对本发明的功能和适用范围带来任何限制。

如图11所示，聊天机器人一般是表现在计算机设备上的，聊天机器人可以包括但不限制于：

一个或多个处理器100，主要用于执行存储装置20内所存储的一个或多个程序。

存储装置200，用于存储一个或多个程序。

当一个或多个程序被一个或多个处理器100执行，使得一个或多个处理器100实现实施例一所述的基于融合模型的文本特征提取方法。

交互界面300，用于处理器100在执行程序时提供人机交互。

本实施例所提供的聊天机器人集合在计算机设备、平板、移动终端等设备中。

本实施例所提供的聊天机器人主要为实现人机交互，即人们通过在交互界面中输入词语或者句子时，通过处理器100执行实施例一中的基于融合模型的文本特征提取方法进而提升了文本分类的准确率，从而能够通过聊天文本准确地识别用户的意图，了解用户接下来的操作意图，有针对性地进行信息的推荐，更好地服务于用户。

例如，在股票领域中，本实施例的聊天机器人就能很好的使用。

参阅图12所示，为聊天机器人应用在股票领域中的模型，第一层是domain(范围)，如确定是股价这一领域，第二层是该领域下的intent(含义)，比如说search_stock_price(查询股价)，最下面一层是intent下面的slots(原型)。

具体在使用时，基于图11的模型，再参阅图13所示，当人们输入：查询百度时，通过聊天机器人内的处理器100执行程序，对输入的文本采用卷积神经网络提取词向量的局部特征，采用BLSTM模型提取与词向量上下文相关的全局特征，通过Attention机制提取局部特征、全局特征更深层次的信息特征，并将提取的特征进行融合，对文本信息的领域、文本信息的含义以及特定领域和特定喊含义下的特定信息这三个层面进行分类，得到最终的输出文本，列如包括：公司：百度、时间：今日/历史、种类：股价，最低价，最高价，成交量，股息率，开盘价。每个文本有一定的概率分数，通过组合处理输出最终的文本结果，将文本信息存储于存储设备中，并给予用户反馈。

实施例四

本实施例还提供一种包含计算机可执行指令的存储介质，所述的计算机可执行指令在由计算机处理器执行以实现实施例一的基于融合模型的文本特征提取方法。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于融合模型的文本特征提取方法，其特征在于，包括以下步骤：

S2、采用卷积神经网络提取词向量的局部特征；

S3、采用BLSTM模型提取与词向量上下文相关的全局特征；

2.根据权利要求1所述的基于融合模型的文本特征提取方法，其特征在于，所述步骤S2具体包括以下步骤：

S22、卷积神经网络的卷积层进行卷积操作，提取局部特征；

3.根据权利要求2所述的基于融合模型的文本特征提取方法，其特征在于，所述步骤S22具体为：选用3*80、4*80、5*80大小的滤波器各40个，步长stride大小设置为2，padding为VALID，进行卷积运算，通过卷积操作来提取句子的局部特征。

4.根据权利要求1所述的基于融合模型的文本特征提取方法，其特征在于，所述步骤S3具体为：

S31、将句子矩阵作为输入，输入到BLSTM模型的词嵌入层；

5.根据权利要求1所述的基于融合模型的文本特征提取方法，其特征在于，还包括采用tensorflow框架中的concat()方法对卷积神经网络和BLSTM模型输出的特征进行融合，将融合后的特征保存在output中，将其作为第一个全连接层的输入，再连接第二个全连接层，在第二个全连接层之后引入dropout机制。

6.根据权利要求1所述的基于融合模型的文本特征提取方法，其特征在于，所述步骤S4具体公式描述为：

e_t,i＝V_αtanh(Wq_t+Uk_i)

7.基于融合模型的文本特征提取装置，其特征在于，包括：

8.根据权利要求7所述的基于融合模型的文本特征提取装置，其特征在于，还包括映射模块，用于将词组成的句子映射为句子矩阵。

9.一种聊天机器人，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如权利要求1-6中任一项所述的基于融合模型的文本特征提取方法；

交互界面，用于处理器在执行程序时提供人机交互。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行以实现如权利要求1-6中任一项所述的基于融合模型的文本特征提取方法。