CN113779245A

CN113779245A - 一种评论情感原因三元组抽取方法

Info

Publication number: CN113779245A
Application number: CN202110973766.8A
Authority: CN
Inventors: 宋大为; 宋昊霖; 华玲誉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-12-10
Anticipated expiration: 2041-08-24
Also published as: CN113779245B

Abstract

本发明涉及一种评论情感原因三元组抽取方法，属于自然语言处理中的情感分析及信息抽取技术领域。本方法综合了情感原因抽取技术、情感分析技术和信息抽取技术，同时抽取出情感句、原因句以及情感类型三元组，即情感原因三元组，并将其应用于评论场景。本方法克服了情感原因抽取结果实用性较低、应用场景受限的缺点，解决了现有情感原因抽取方法存在的错误传播、使用复杂、耗时等缺点，实现了情感原因三元组端到端的抽取。本方法改进了现有评论方式分类粒度较粗、信息过多等问题，可以很好的提高用户的使用体验。

Description

一种评论情感原因三元组抽取方法

技术领域

本发明涉及一种评论情感原因三元组抽取方法，属于自然语言处理中的情感分析及信息抽取技术领域。

背景技术

情感分析的发展和快速起步，得益于网络上的社交媒体，例如产品评论、论坛讨论、微博、微信的快速发展，是人类历史上第一次有如此巨大数字量的形式记录。目前，情感分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一，在数据挖掘、Web挖掘、文本挖掘和信息检索方面有广泛的研究。

传统的情感分析技术，仅能得到文本的情感极性(正向、中性、负向)。但是，更多深层次信息(例如引起情感的原因、表达情感的对象等)仍值得进一步挖掘。

情感原因对的抽取，旨在同时抽取出文本中的情感和引起情感的原因，从而获得更加丰富的和更深层次的信息。例如，“这台笔记本电脑真不好用，风扇特别吵，千万不要购买”，其中，“这台笔记本电脑真不好用”是情感句，而“风扇特别吵”则是与前述情感句所对应的原因句。这两个句子能够组成一个情感原因对。情感原因对的抽取结果，在舆情分析、文本分类、推荐系统等任务中，都有着很好的辅助作用。

目前，情感原因对的抽取，更多专注于情感句和原因句的抽取，且大多采用分开两步的抽取方法。第一步：从文档中抽取出情感句集合和原因句，并对这两个集合做笛卡尔积，转换为一个情感原因对集合。第二步：对情感原因对集合进行分类，判断情感句是否由对应原因句引起。

但是，现有的情感原因对抽取任务忽略了“情感类型”这一特征，导致抽取出的情感原因对不能被很好的利用，这大大限制了情感原因对在实际中的应用。例如，对于大量文本来说，单纯的抽取出情感句和原因句，如想要基于情感原因对进行决策制定(改进商品某点、保持某点，或者以某点为宣传点)或者文本分类则无法做到。但是，同时抽取出情感类型，如“这台笔记本电脑真不好用，风扇特别吵，千万不要购买”中，情感原因对的情感类型为：愤怒，则可以帮助商家了解产品需要改进的方面：风扇。

同时，采用两步的方法还存在着步与步之间的错误传播、使用复杂(需要保存中间结果)、耗时等多种缺点。

此外，目前的评论分类方式大多基于评分、好评差评、关键词抽取等粗粒度的方式，且只能简单的展示用户的完整评价全文。基于评分、好评差评的分类方式更多依靠用户所打分数，但在评论中有可能同时存在好的描述和坏的描述，而分数只是一个总体的指标。基于关键词抽取的分类方式，往往需要多个评论文本中有相同的短语，但每个人用词不同，同一个语义可以有不同的表达方式，这导致关键词抽取的质量不高、数量不多。而更加细粒度的分类以及更加浓缩的高质量的信息往往需要展示给用户。

发明内容

本发明的目的是为了克服现有技术在解决情感原因对抽取时存在的缺陷，为提高情感原因的利用率和应用效果，提出了一种端到端的评论情感原因三元组抽取方法。

本方法的创新点在于：综合了情感原因抽取技术、情感分析技术和信息抽取技术，同时抽取出情感句、原因句以及情感类型三元组，即情感原因三元组，并展示了其在评论场景下的具体应用。

首先，提出<情感-原因-情感类型>的情感原因三元组：从文档中同时抽取出情感句、与情感句对应的原因句和情感类型；之后，利用深度学习模型和双仿射注意力机制建模情感句、原因句以及情感类型之间的联系，得到情感原因三元组的三维概率矩阵；根据三维概率矩阵训练模型，以任意文档作为输入，抽取出情感原因三元组；最后，将用户要表达情感的对象与所有情感原因三元组中的句子进行关键词匹配，若句子中存在对应关键词，则表示此情感原因三元组与关键词相关。

如图1所示，本发明具体包括以下步骤：

步骤1：设计抽取情感原因三元组的模型。

具体地，步骤1包括以下步骤：

步骤1.1：输入数据集中的每个文档，输出标注情感原因三元组后的数据集。其中，数据集包括训练集和测试集。

具体地，步骤1.1包括以下步骤：

步骤1.1.1：对数据集中每个文档中的句子进行分词，词与词之间用空格隔开。

步骤1.1.2：对数据集中的每个文档，标注出所包含的情感原因对。例如，(0，1)表示第0句为情感句，第1句为其对应的原因句。

步骤1.1.3：对数据集中每个文档中的情感句，标注出其情感类型。可以按照以下方式：

高兴：0，惊喜：1，厌恶：2，愤怒：3。

步骤1.2：从步骤1.1输出的数据集中，选择训练文档W。

每个W中包含n个句子S，每个句子S中包含m个词C。其中，文档W个数的范围为1到K，共K个训练文档。

步骤1.3：对步骤1.2得到的训练文档的句子进行编码，得到句向量s_n；

具体地，步骤1.3包括以下步骤：

步骤1.3.1：利用式1的词嵌入函数，将句子的每个词C_m转换为词嵌入向量c_m：

c_m＝embed(C_m) (1)

其中，embed(·)是嵌入函数。对于输入的每一个词C_m，在训练好的词嵌入向量表中查找得到对应的词嵌入向量c_m(向量统一采用加粗的小写字母表示)。

步骤1.3.2：利用式2、3、4，将步骤1.3.1中得到的词嵌入向量c_m作为深度学习模型(双向LSTM与attention)的输入，建模词与词之间的上下文关系，得到每个句子的句向量s_n：

score_j＝v^Ttanh(W′h_m) (3)

其中，

分别表示前向和后向的LSTM(长短期记忆神经网络)；h_m是

拼接了前向和后向LSTM输出后的向量；score_j为attention机制输出的分数，v^T、W′均为可训练参数，T表示转置操作；softmax(·)为归一化函数，限制输出结果总和为1；M表示单词个数；

步骤2：利用双仿射注意力机制建模情感句、原因句和情感类型之间的联系，得到情感原因三元组的三维概率矩阵。

具体地，步骤2包括以下子步骤：

步骤2.1：为了加速训练以及防止过拟合，利用两个全连接网络，对步骤1中得到的句向量s_n进行维度压缩，除去冗余信息，分别得到情感句向量

和原因句向量

步骤2.2：利用双仿射注意力机制建模情感句向量

原因句向量

和情感类型之间的联系。

采用式5得到一个三维的矩阵U_p,q,r，三个维度分别表示情感句、原因句和情感类型。

其中，

与

为可训练参数，

分别为第p个情感句向量、第q个原因句向量；T表示转置操作。

矩阵U_p,q,r中，每一位经过sigmoid函数后，输出0到1的值，表示此位是情感原因三元组的概率。例如，(0，1，0)表示第0句是情感句，第1句是原因句并且情感类型为“高兴”的概率。sigmoid函数如式6所示：

其中，sigmoid(·)表示归一化，将矩阵U中每一位归一化为0到1的值，以此来表示概率；

为最终得到的情感三维矩阵中第p个情感句、第q个原因句、第r个情感类型需要抽取的三元组的概率值。

此处，设置一个阈值0.5，凡是大于该阈值的概率值，认为是需要抽取出的情感原因三元组，反之不需要抽取。

步骤3：根据步骤2得到的三维概率矩阵训练模型，以任意文档作为输入，抽取出情感原因三元组；

具体地，步骤3包括以下步骤：

步骤3.1：采用二元交叉熵衡量真实概率Y_p,q,r与模型预测概率

之间分布的差异性，并以此为模型的目标函数L进行训练，如式7所示：

其中，真实概率Y_p,q,r是指情感原因三元组标签的概率，是情感原因三元组则概率为1，否则为0；∑_p,q,r表示对不同p、q、r二元交叉熵结果的加和。

步骤3.2：使用批量随机梯度下降方法，对步骤3.1的目标函数进行优化，对训练集中的所有训练样本进行批量迭代训练，输出训练好的情感原因三元组抽取模型。

步骤3.3：使用步骤3.2中训练好的抽取模型，输入任意文档，输出抽取出的情感原因三元组。

步骤4：以用户要表达情感的对象(如用户关注的某件商品)的相关文档作为输入，利用该对象不同方面的关键词(如：该件商品的特征等)，匹配所有情感原因三元组中的句子。若句子中存在对应关键词，则表示此情感原因三元组与关键词相关。

进一步地，可以通过可视化的方式，展示出用户对于要表达情感的对象情感类型的具体原因(三元组中的情感句与原因句)。

有益效果

与现有技术相比，本发明具有以下优点：

1.本方法克服了情感原因对抽取结果实用性较低、应用场景受限的缺点，同时抽取出情感句、原因句以及情感类型三元组(情感原因三元组)。

2.本方法解决了现有情感原因对抽取方法存在的错误传播、使用复杂、耗时等缺点，提出了一种基于双仿射的抽取方法，实现了情感原因三元组端到端的抽取。

3.本方法改进了现有评论方式分类粒度较粗、信息过多等问题，可以很好的提高用户的使用体验。

附图说明

图1是本发明所述一种评论情感原因三元组抽取方法的流程图；

图2是用户使用传统的基于好评差评分类的评论示意图；

图3是用户使用传统的基于关键字抽取的评论示意图；

图4是用户使用本发明方法的评论示意图。

具体实施方式

下面结合附图和实施例，对本发明方法作进一步详细描述。

实施例

一种评论情感原因三元组抽取方法，包括以下步骤：

步骤1：标记数据集中每个文档中的情感原因对并标记情感句的情感类型。使用中文分词工具jieba进行分词，词与词之间用空格隔开。

例如：下列文档：

电脑刚刚到货了， 1

迫不及待地打开来试一试。 2

外形真是惊艳到我了， 3

又薄又有科技感， 4

比图片上展示的还漂亮。 5

使用了一下总体是不错的， 6

但是使用的时候有一些小问题， 7

风扇的声音很大， 8

有点烦人。 9

其中，第3句为情感句，情感类型为惊喜，其对应的原因句为第4、第5句。第9句为情感句，情感类型为厌恶，其对应的原因句为第7、第8句。对应的标注为(3，4，1)(3，5，1)(9，7，2)(9，8，2)，其中，惊喜用1标注，厌恶用2标注。

步骤2：将数据集划分为训练集和测试集，训练集用来进行模型的训练，测试集用来测试模型的性能；

步骤3：利用skip-gram算法训练好的300维词向量得到训练集中每一个词的词向量c_m，若训练好的词向量不存在文档中的某个词，则采用随机初始化相同维度的词向量来表示；

步骤4：利用步骤3得到的词向量c_m作为双向LSTM与attention模型的输入对句子进行编码得到每个句子的句向量_sn；

步骤5：以句向量s_n为输入，采用两个全连接网络分别得到表示情感的向量

与表示原因的向量

利用双仿射注意力机制对向量

与

之间的关系进行建模，得到三维概率矩阵

如对步骤1的文档经过以上步骤后会得到9*9*4的三位概率矩阵，9为句子数，4为四种情感类型；其中每一位都是0到1的值，表示概率；

步骤6：采用二元交叉熵衡量真实概率Y_p,q,r与模型预测概率

之间分布的差异性，并以此为模型的目标函数L进行训练，如：步骤1中文档的真实概率为：(3，4，1)(3，4，1)(9，7，2)(9，8，2)四个位置为1，其余位置为0，表示这四个位置存在情感原因三元组需要抽取：

步骤7：使用批量随机梯度下降方法对步骤6的目标函数进行优化，对训练集中的所有训练样本进行批量迭代训练，得到训练好的情感原因三元组抽取模型；

步骤8：使用步骤7中得到的训练好的抽取模型，输入任意的文档，输出抽取出的情感原因三元组；

例如，谈论同一手机两个文档：

1.之前的手机坏了，所以想换一个新的。挑选了很久最终选择了这一款。手机屏幕很不错，分辨率和刷新率都很高，而且屏占比超高。拍照功能是我最喜欢的，光学变焦和防抖功能都很实用，夜间拍摄的质量真的震撼到我了。但是摄像头是突出的有点不太好，很容易磕碰之类的。

2.第一次用这个牌子的手机。屏幕各方面素质都不错，但是有一点不好的是，硬度不太够，很容易摔碎。这么好的手机屏幕摔了就有些可惜了。摄像头改为了圆形我很喜欢，很漂亮也与其他手机有很好的区分度。

上述文档1中模型会抽取出“手机屏幕很不错-分辨率和刷新率都很高–高兴”，“手机屏幕很不错-而且屏占比超高–高兴”，“拍照功能是我最喜欢的-光学变焦和防抖功能都很实用–高兴”，“拍照功能是我最喜欢的-夜间拍摄的质量真的震撼到我了–高兴”以及“但是摄像头是突出的有点不太好-很容易磕碰之类的–厌恶”共5个情感原因三元组；文档2中模型会抽取出“但是有一点不好的是-硬度不太够–厌恶”，“但是有一点不好的是-很容易摔碎–厌恶”以及“摄像头改为了圆形我很喜欢-很漂亮也与其他手机有很好的区分度–高兴”共3个情感原因三元组；

步骤9：匹配到步骤8提取出的三元组的情感句中有“屏幕”、“拍照”、“摄像头”三个关键词；

步骤10：按照关键字对原因句进行分类，包含相同关键字的句子(即描述商品同一方面的句子)属于同一类。

进一步地，可以采用可视化方式，展示出用户对于商品某方面(即关键字)喜爱(情感类型为高兴与惊喜)或者不喜爱(情感类型为厌恶与愤怒)的具体原因(三元组中的情感句与原因句)。

对于上述两个文档，喜爱屏幕的原因为：分辨率和刷新率都很高，而且屏占比超高，不喜爱屏幕的原因为：硬度不太够，很容易摔碎。

对于用户或者买家来说，根据以上信息，他们可以快速的了解商品各方面的优缺点，并且根据自己的需求选择是否购买此款商品。如有些人比较粗心，经常将手机摔下，则有可能不会选购上述的手机，有一些人对于屏幕的分辨率等很看重，使用手机也很小心，则有可能会选购。

对于商户或者卖家来说，根据以上信息，可以快速的了解消费者对于商品各部分的评价以及喜爱或者不喜爱的原因。有了这些信息，商家就可以做出相应的决策，如有很多人更在意屏幕的硬度不够，则商家可以选择改进：采用硬度更高的屏幕，甚至牺牲一点屏幕的性能；再如很多人很喜爱摄像头圆形的设计，则可以保持这一设计，并作为宣传点之一。

图2展示了基于好评差评分类的评论示意图，图片上部的“好评”，“差评”等为不同的分类标签，分类标签是基于用户所给出的评分、星级等确定的，评分高、星级高则为好评，反之则为差评；点击具体标签后会展示相应分类的不同用户的评论全文；

图3展示了基于关键词抽取的评论示意图，图片上部的“好看”，“电池耐用”等为不同的分类标签，分类标签是基于用户评论中所抽取出的常见的关键词所确定的，与此关键词有关的评论无论好差评均会展示；点击具体标签后会展示相应分类的不同用户的评论全文；

图4展示了采用本发明方法的评论示意图，图片上部的分类标签分为两部分，上半部分的“屏幕”“摄像头”等为商品的某个特征、部分标签，通过关键词与抽取出的情感原因三元组中句子匹配得到；下半部分的“高兴”“惊喜”等标签为用户对于此商品的情感类型，同一用户对于同一商品可以体现不同的情感类型，如用户A***rew对“屏幕”表达出高兴的情感，但是却对“摄像头”表达出厌恶的情感，这样可以更加细粒度的展示评论所包含的信息；本发明展示更加浓缩的信息，即只展示用户评论中的情感句以及原因句，而不是全文，这样可以过滤掉很多与商品选择无关的话语；同时，我们也给出了“显示原文”选项，使得用户也可以选择查看全文；点击具体标签后会展示相应分类的不同用户评论中的情感句与原因句；

以上所述为本发明的较佳实施例而已，其中的情感类型不局限于高兴、惊喜、厌恶、愤怒四类，任意情感类型均适用于本发明。

本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种评论情感原因三元组抽取方法，其特征在于，首先，提出<情感-原因-情感类型>的情感原因三元组：从文档中同时抽取出情感句、与情感句对应的原因句和情感类型；之后，利用深度学习模型和双仿射注意力机制建模情感句、原因句以及情感类型之间的联系，得到情感原因三元组的三维概率矩阵；根据三维概率矩阵训练模型，以任意文档作为输入，抽取出情感原因三元组；最后，将用户要表达情感的对象与所有情感原因三元组中的句子进行关键词匹配，若句子中存在对应关键词，则表示此情感原因三元组与关键词相关。

2.如权利要求1所述的一种评论情感原因三元组抽取方法，其特征在于，具体包括以下步骤：

步骤1：设计抽取情感原因三元组的模型，包括以下步骤：

步骤1.1：输入数据集中的每个文档，输出标注情感原因三元组后的数据集；其中，数据集包括训练集和测试集；

步骤1.2：从步骤1.1输出的数据集中，选择训练文档W；

每个W中包含n个句子S，每个句子S中包含m个词C；其中，文档W个数的范围为1到K，共K个训练文档；

步骤2：利用双仿射注意力机制建模情感句、原因句和情感类型之间的联系，得到情感原因三元组的三维概率矩阵，包括以下子步骤：

步骤2.1：利用两个全连接网络，对步骤1中得到的句向量s_n进行维度压缩，除去冗余信息，分别得到情感句向量