CN110162636A

CN110162636A - 基于d-lstm的文本情绪原因识别方法

Info

Publication number: CN110162636A
Application number: CN201910460125.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Current assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-23
Anticipated expiration: 2039-05-30
Also published as: CN110162636B

Abstract

本发明属于自然语言处理文本情绪分析领域，涉及一种对文本情绪原因识别的方法。本发明的主要方法包括：获取包含候选情绪原因和情绪描述的文本；将子句转化为词嵌入矩阵；使用双向长短期记忆网络Bi‑LSTM编码子句上下文信息；用注意力机制学习情绪描述子句与候选原因子句间的语义关系；对情绪描述子句集，用卷积神经网络CNN抽取局部最大语义；使用Bi‑LSTM编码子句间上下文信息；情绪描述子句集与编码后的候选原因子句拼接，使用多层感知机网络MLP判定二者是否存在情绪引发关系。本方法克服了传统方法未充分考虑情绪原因子句与情绪描述子句，情绪原因子句间的语义关系的问题。因此，本发明提出融合子句上下文，句子上下文的方法，提高了情绪原因识别的准确性。

Description

基于D-LSTM的文本情绪原因识别方法

技术领域

本发明属于自然语言处理文本情绪分析领域，具体是一种对文本进行情绪原因识别的方法。

背景技术

近年来，互联网的飞速发展使得信息传播已经不再受到时间、空间的约束，而社交媒体的兴起和快速发展，更是让用户可以随时随地表达观点、交流意见。论坛、博客、微信、微博、Twitter甚至购物评论、电子邮件···人们在网络空间中无时无刻地不在互相沟通、表达观点。而文本就成了网络空间中最常用的表达方式。这些带有发表者情感信息的文本，一直吸引着研究人员的关注。获取、理解这些文本的情感信息在一些应用和决策上变得越来越重要，因此文本情感分析在自然语言处理领域一直受到广大研究人员的关注。目前文本情感分析的相关研究大都在情绪分类上，却忽略了与情绪相关的更深层次信息的挖掘和提取。往往这些深层次信息更具有商业价值，对于生产厂商与电商平台来说，绝不会止步于了解用户是否喜欢自己的产品，而是更想知道用户为什么喜欢或者讨厌自己的产品，知道了这些信息才有利于制定公司未来的规划与发展方向；

近几年来，现有工作提出了多种文本情绪原因识别方法。但是，用这些方法来识别情绪原因或多或少存在着一些问题。比如，规则方法针对语料库构建规则，无法泛化；而基于统计的方法则需要对语料库提取特征向量空间，依赖于大规模的语料库。基于规则与统计的识别方法，未充分考虑情绪原因子句与情绪描述子句之间，情绪原因子句之间的语义联系这一问题。

本发明提出一种基于D-LSTM的文本情绪归因识别的方法。为了让情绪原因识别的效果更好，本发明在如下两个方面进行了考虑：第一，利用词语级双向长短期记忆网络Bi-LSTM与子句级双向长短期记忆网络Bi-LSTM，分别融合单个子句内前后词语信息与多子句的前后语句信息，对词语、句子重新编码，对输入的情绪描述语句与待识别的子句集间的关系进行建模。第二，结合注意力机制，使得模型能够准确地判断情绪原因所在子句，能够更好地完成情绪原因识别任务。

发明内容

本发明的目的在于提供一种基于D-LSTM的文本情绪归因识别的方法。本发明考虑单个子句内上下文词语信息与多子句的上下文语句信息，对词语、句子重新编码，对输入的情绪描述语句与待识别的子句集间的关系进行建模，并结合注意力机制，使得最后的情绪原因识别更加准确。

本发明是一种基于D-LSTM的情绪归因识别方法，包括以下步骤：

步骤1：获取已标注的语料文本，得到候选情绪原因子句和情绪描述子句，所述已标注的语料文本具有情绪原因子句标签，情绪描述子句标签；

步骤2：词嵌入层，将输入句子转化为词嵌入矩阵。

步骤3：词语级网络层，使用双向长短期记忆网络Bi-LSTM 分别对各个句子进行处理，得到融合子句上下文的词向量。

步骤4：注意力网络层，使用注意力机制，增强情绪描述子句与候选原因子句间相似词语的注意力。

步骤5：卷积网络层，使用卷积神经网络CNN对经注意力计算后情绪描述子句集进行卷积，最大池化操作，抽取局部最大语义信息。

步骤6：子句级网络层，使用双向长短期记忆网络Bi-LSTM 进行子句级处理，学习子句之间的相互作用。

步骤7：输出层，卷积后的情绪描述表达向量集与相对应的经过子句级网络处理的候选原因子句拼接，通过多层感知机MLP 网络分类，判定二者是否存在情绪引发关系。

所述步骤1中获取已标注的语料文本，得到候选情绪原因子句和情绪描述子句，所述已标注的语料文本具有情绪原因子句标签，情绪描述子句标签具体为，从已标注的语料文本中，根据标注得到候选情绪原因子句，情绪描述子句，以及是否是情绪原因的标签，为输入网络模型做准备；

所述步骤2中词嵌入层，将输入句子转化为词嵌入矩阵，具体为，使用预训练好的词向量模型，将每个词语映射为长度为V的词向量。对于每一个子句Clause_i，假定由M个词语组成，则每个句子可表示为维度为M*V的词向量矩阵。在具体实现中，将文档D中包含的所有句子都填充为相同的预设长度M。对情绪描述子句E执行与文档D中所有子句同样操作。

所述步骤3中短语级网络层，使用双向长短期记忆网络 Bi-LSTM分别对各个句子进行处理，得到融合子句上下文的词向量具体为，以词为单位进行处理，通过对每个子句中的词向量重新编码，使其融合该子句中上下文的信息。假设输入的第K个子句为经过词嵌入层后，为1*V 维的词向量，经过Bi-LSTM网络，分别得到对于词前向表达与后向表达则对词向量可被重新编码为：

concat为向量连接操作，均为1*h的特征向量，h 为Bi-LSTM隐藏单元大小。拼接子句Clause^K中所有词语得到的W^K，得到对整个子句重新编码的结果。为了方便表示，使用C_K表示对情绪原因候选子句Clause^K的重新编码结果，ED表示情绪描述子句重新编码结果。文档D可表示为：

其中，N表示子句数量

所述步骤4中注意力网络层，使用注意力机制，增强情绪描述子句与候选原因子句间相似词语的注意力具体为，使用经过词语级 Bi-LSTM重新编码后的子句表达，构建第K个子句C_K，与情绪描述子句ED的词语语义相似度矩阵，可表示为：

score表示余弦距离，为M*M的二维矩阵，其中表示CK中第i个词与ED中第j个词的语义相似度。

详细说明如下：

cos(A，B)表示向量A，B间的余弦距离，即为为C_K中第i个词，为ED中第j个词，即为C_K与ED间词语语义关系矩阵。

转换语义关系矩阵维度,表示C_K中第i个词与ED中各个词的语义相似度，但为1*2h的特征向量，对ED中的每个词，不同的维度应当有不同的相关程度，所以在对C_Ki添加注意力时，对每一维度应当有不同的权值，因此通过预设权值矩阵W来自行学习每一维度的注意力大小，s通过预设权值矩阵W^E来自行学习C_K中的每个词对ED中每个词每一维度的注意力大小。

对于输入的每个情绪原因候选子句，都能得到一个与情绪描述子句间的注意力矩阵集合可表示为：

A＝{A¹，A¹，A¹，···，A^N}

将从词语级Bi-LSTM网络部分得到的经重新编码的情绪原因候选子句集与对应的注意力矩阵对应位置相乘，得到每个子句加权后的表达：

其中：

同理，对于输入的情绪描述子句，都能得到一个与情绪原因候选子句间的注意力矩阵集合，可表示为：

Q＝{Q¹，Q²，Q³，···，Q^N}

用经重新编码的情绪描述子句ED与每个关系矩阵对应相乘，得到加权后的表达：

其中：

所述步骤5中卷积网络层，使用卷积神经网络CNN对经注意力计算后情绪描述子句集进行卷积，最大池化操作，抽取局部最大语义信息具体为，如图4，分别对每一个情绪描述子句进行卷积，最大池化操作。假定卷积窗口大小为c，输入句子矩阵为M*V(M表示词个数，V为词向量维度)，卷积窗口个数为n，得到n个数值连接为 n*1维向量；采取最大池化操作，从卷积得到的每个(M-c+1)*1向量中选取最大值作为句子全局语义信息的有效特征。此时得到n个数值，将池化层中得到的n个数值连接为n*1维向量，作为句子语义信息输出。最终得到经CNN操作后的情绪描述子句集：

所述步骤6中句子级网络层，使用双向长短期记忆网络 Bi-LSTM进行句子级处理，学习前后子句的的相互作用具体为，使用 Bi-LSTM来进行子句间的语义融合,得到融合前后子句信息的所有子句表达集合。S_i表示经注意力部分计算后的第K个候选字句。对于第i个子句，可得到两个表达：与其中为前向表达，为后向表达，维度均为1*h，h为该层Bi-LSTM隐藏单元大小。则对第i个子句重新编码结果为：

其中concat表示向量拼接，S_i维度为1*2h

子句集合表示为：

所述步骤7中输出层，卷积池化操作后的情绪描述表达向量集与相对应的经过子句级Bi-LSTM网络处理的候选原因子句拼接，通过多层感知机MLP网络分类，判定二者是否存在情绪引发的关系具体为，S集合中第K个句子表达S_K与连接，通过MLP网络得到该子句是否为原因子句的概率，使用out_K表示对第K个子句的预测概率，可以得到最后的输出结果：

out＝{out₁，out₂，out₃.....out_N}

判定结果为“1”，则该候选原因子句是情绪原因，判断结果为“0”，则该候选原因子句不是情绪原因。

附图说明

图1为本发明的流程示意图。

图2为词嵌入层示意图。

图3为词语级Bi-LSTM网络示意图。

图4为注意力机制示意图。

图5为子句级Bi-LSTM网络示意图。

图6为ED卷积层示意图。

图7为输出层示意图。

具体实施方式

本发明是一种基于D-LSTM的情绪原因识别方法，整体流程如图1所示，包括以下步骤：

本发明的目的在于提供一种基于D-LSTM的文本情绪归因识别的方法。本发明考虑单个子句内上下文词语信息与多子句的上下文语句信息，对词语、句子重新编码，对输入的情绪描述语句与待判断的子句集间的关系进行建模，并结合注意力机制，使得最后的情绪原因识别更加准确。

步骤2：词嵌入层，将输入句子转化为词嵌入矩阵。

步骤3：短语级网络层，使用双向长短期记忆网络Bi-LSTM 分别对各个句子进行处理，得到融合子句上下文的词向量。

步骤6：子句级网络层，使用双向长短期记忆网络Bi-LSTM 进行句子级处理，学习子句之间的相互作用。

所述步骤2中词嵌入层，将输入句子转化为词嵌入矩阵，具体为，使用预训练好的词向量模型，将每个词语映射为长度为V的词向量。如图1，对于每一个子句Clause_i，假定由M个词语组成，则每个句子可表示为维度为M*V的词向量矩阵。在具体实现中，将文档D中包含的所有句子都填充为相同的预设长度M。对情绪描述子句E执行与文档D中所有子句同样操作。

所述步骤3中短语级网络层，使用双向长短期记忆网络 Bi-LSTM分别对各个句子进行处理，得到融合子句上下文的词向量具体为，以词为单位进行处理，通过对每个句子中的词向量重新编码，使其融合该句子中上下文的信息。假设输入的第K个子句为经过词嵌入层后，为1*V 维的词向量，经过Bi-LSTM网络，分别得到对于词前向表达与后向表达则对词向量可被重新编码为：

concat为向量连接操作，均为1*h的特征向量，h 为Bi-LSTM隐藏单元大小。拼接子句Clause^K中所有词语得到的W^K，得到对整个子句重新编码的结果，如图2。为了方便表示，使用C_K表示对情绪原因候选子句Clause^K的重新编码结果，ED表示情绪描述子句重新编码结果。如图2，文档D可表示为：

其中，N表示子句数量

所述步骤4中注意力网络层，使用注意力机制，增强情绪描述子句与候选原因子句间相似词语的注意力具体为，如图3，用经过词语级Bi-LSTM重新编码后的子句表达，构建第K个子句C_K与情绪描述子句ED的词语语义相似度矩阵，表示为：

详细说明如下：

转换语义关系矩阵维度,表示C_K中第i个词与ED中各个词的语义相似度，但为1*2h的特征向量，对ED中的每个词，不同的维度应当有不同的相关程度，所以在对C_Ki添加注意力时，对每一维度应当有不同的权值，因此通过预设权值矩阵W来自行学习每一维度的注意力大小，通过预设权值矩阵W^E来自行学习C_K中的每个词对ED中每个词每一维度的注意力大小。

A＝{A¹，A¹，A¹，···，A^N}

其中：

Q＝{Q¹，Q²，Q³，···，Q^N}

其中：

所述步骤5中卷积网络层，对使用卷积神经网络CNN对经注意力计算后情绪描述子句集进行卷积，最大池化操作，抽取局部最大语义信息具体为，分别对每一个情绪描述子句进行卷积，最大池化操作，如图6。假定卷积窗口大小为c，输入句子矩阵为M*V(M表示词个数，V为词向量维度)，卷积窗口个数为n，得到n个数值连接为 n*1维向量；采取最大池化操作，从卷积得到的每个(M-c+1)*1向量中选取最大值作为句子全局语义信息的有效特征。此时得到n个数值，将池化层中得到的n个数值连接为n*1维向量，作为句子语义信息输出。最终得到经CNN操作后的情绪描述子句集：

所述步骤6中子句级网络层，使用双向长短期记忆网络 Bi-LSTM进行子句级处理，学习前后子句的的相互作用具体为，使用 Bi-LSTM来进行子句间的语义融合,得到融合前后子句信息的所有子句表达集合。S_i表示经注意力部分计算后的第K个候选字句。对于第 i个子句，可得到两个表达：与其中为前向表达，为后向表达，维度均为1*h，h为该层Bi-LSTM隐藏单元大小。则对第i个子句重新编码，如图5，结果为：

其中concat表示向量拼接，S_i维度为1*2h

子句集合表示为：

所述步骤7中输出层，卷积，最大池化操作后的情绪描述表达向量集与相对应的经过子句级Bi-LSTMs处理的候选原因子句拼接，通过多层感知机MLP网络分类，判定二者是否存在情绪引发的关系具体为，如图7，S集合中第K个句子表达S_K与连接，通过 MLP网络得到该子句是否为原因子句的概率，使用out_K表示对第K 个子句的预测概率，可以得到最后的输出结果：

out＝{out₁，out₂，out₃.....out_N}

采用本发明的实施方法，有益效果如下：第一，使用词语级 Bi-LSTM与子句级Bi-LSTM网络，分别融合单个子句内前后词语信息与多子句的前后语句信息，对词语、句子重新编码，对输入的情绪描述语句与待判断的子句集间的关系进行建模。第二，结合注意力机制，使得模型能够准确地判断情绪原因所在子句，能够更好地完成情绪原因识别任务。

以上对本发明实施所提供的一种基于上D-LSTM的情绪原因识别方法进行了详细地介绍，本文对本发明的原理和实施方式进行了阐述，以上实施的说明只是用于辅助理解本发明的方法及其核心思想。

Claims

1.一种基于D-LSTM的文本情绪原因识别方法，其特征在于，所述方法应用于文本情绪原因识别，包括以下步骤：

步骤2：词嵌入层，将子句转化为词嵌入矩阵；

步骤3：词语级网络层，使用双向长短期记忆网络Bi-LSTM分别对每个子句进行处理，得到融合子句上下文的词向量；

步骤4：注意力网络层，使用注意力机制，增强情绪描述子句与候选原因子句间相似词语的注意力；

步骤5：卷积网络层，使用卷积神经网络CNN对经注意力计算后情绪描述子句集进行卷积，最大池化操作，抽取局部最大语义信息；

步骤6：子句级网络层，使用双向长短期记忆网络Bi-LSTM进行子句级处理，学习前后子句的相互作用；

步骤7：输出层，卷积后的情绪描述表达向量集与相对应的经过子句级网络处理的候选原因子句拼接，通过多层感知机MLP网络分类，得到判定概率，判定二者是否存在情绪引发的关系，判定结果为“1”，则该候选原因子句是情绪原因，判断结果为“0”，则该候选原因子句不是情绪原因。

2.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤1中获取已标注的语料文本，得到候选情绪原因子句和情绪描述子句，所述已标注的语料文本具有情绪原因子句标签，情绪描述子句标签具体为，从已标注的语料文本中，根据标注得到候选情绪原因子句，情绪描述子句以及是否是情绪原因，为输入网络模型做准备。

3.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤2中词嵌入层，将输入子句转化为词嵌入矩阵具体为，使用预训练好的词向量模型，将每个词语映射为长度为V的词向量；对于每一个子句Clause_i，假定由M个词语组成，则每个子句可表示为维度为M*V的词向量矩阵；在具体实现中，将文档D中包含的所有子句都填充为相同的预设长度M，对情绪描述子句E执行与文档D中所有子句同样操作。

4.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤3中词语级网络层，使用双向长短期记忆Bi-LSTM网络分别对每个子句进行处理，得到融合子句上下文的词向量具体为，以词为单位进行处理，通过对每个子句中的词向量重新编码，使其融合该子句中上下文的信息；假设输入的第K个子句为经过词嵌入层后，W_i ^K为1*V维的词向量，经过Bi-LSTM网络，分别得到对于词W_i ^K前向表达与后向表达则对词向量W_i ^K可被重新编码为concat为向量连接操作；拼接子句Clause^K中所有词语得到的W^K，得到对整个子句重新编码的结果；为了方便表示，使用C_K表示对情绪原因候选子句Clause^K的重新编码结果，ED表示情绪描述子句重新编码结果。

5.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤4中注意力网络层，使用注意力机制，增强情绪描述子句与候选原因子句间相似词语的注意力具体为，首先，使用经过词语级Bi-LSTM网络重新编码后的子句表达，构建第K个子句C_K与情绪描述子句ED的词语语义相似度矩阵其中表示CK中第i个词与ED中第j个词的语义相似度，语义相似度用余弦距离表示，详细说明如下：

即为为C_K中第i个词，为ED中第j个词，即为C_K与ED间词语语义关系矩阵；然后，转换语义关系矩阵维度，通过预设权值矩阵W来自行学习ED中的每个词对C_K中每个词每一维度的注意力大小，通过预设权值矩阵W^E来自行学习C_K中的每个词对ED中每个词每一维度的注意力大小；分别得到与情绪描述子句间的注意力矩阵，以及与情绪原因候选子句间的注意力矩阵集合；最后，将从词语级Bi-LSTM网络重新编码的情绪原因候选子句集与对应的注意力矩阵对应位置相乘，得到每个子句加权后的表达；将从词语级Bi-LSTM网络重新编码的情绪描述子句与对应的注意力矩阵对应位置相乘，得到情绪描述子句加权后的表达。

6.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤5中卷积网络层，使用卷积神经网络CNN对经注意力计算后情绪描述子句集进行卷积，最大池化操作，抽取局部最大语义信息具体为，分别对每一个情绪描述子句进行卷积，最大池化操作；假定卷积窗口大小为c，输入句子矩阵为M*V，M表示词个数，V为词向量维度，卷积窗口个数为n，得到n个数值连接为n*1维向量；采取最大池化操作，从卷积得到的每个(M-c+1)*1向量中选取最大值作为句子全局语义信息的有效特征，此时得到n个数值，将池化层中得到的n个数值连接为n*1维向量，作为句子语义信息输出，最终得到经CNN操作后的情绪描述子句集：

7.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤6中子句级网络层，使用双向长短期记忆网络Bi-LSTM进行子句级处理，学习前后子句的相互作用具体为，使用双向长短期记忆网络Bi-LSTM来进行子句间的语义融合,得到融合前后子句信息的所有子句表达集合，S_i表示经注意力部分计算后的第K个候选字句；对于第i个子句，可得到两个表达：与其中为前向表达，为后向表达，则对第i个子句重新编码结果为：其中concat表示向量拼接，得到子句集合，表示为：

8.根据权利要求1所述的基于D-LSTM的文本情绪原因识别方法，其特征在于：所述步骤7中输出层，卷积后的情绪描述表达向量集与相对应的经过子句级网络处理的候选原因子句拼接，通过多层感知机MLP网络分类，得到判定概率，判定二者是否存在情绪引发的关系具体为，S集合中第K个句子表达S_K与拼接，通过MLP网络得到该子句是否为原因子句的概率，得到最后的输出结果，判定结果为“1”，则该候选原因子句是情绪原因，判断结果为“0”，则该候选原因子句不是情绪原因。