CN111382565B

CN111382565B - 基于多标签的情绪-原因对抽取方法及系统

Info

Publication number: CN111382565B
Application number: CN202010159301.4A
Authority: CN
Inventors: 夏睿; 张梦冉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-08-11
Anticipated expiration: 2040-03-09
Also published as: CN111382565A

Abstract

本发明公开了一种基于多标签的情绪‑原因对抽取方法及系统，采用端到端的方式直接抽取情绪‑原因对，该方法主要包括：对新闻数据集进行预处理；构建基于注意力机制的层次双向LSTM模型，建模“词‑子句‑文档”的层次关系，根据多标签的定义特点，本发明设计了两个辅助任务：情绪预测和原因预测；底层双向LSTM用来捕捉词之间的序列关系，注意力机制将词的上下文信息通过加权和得到子句表示，上层双向LSTM用来获得子句间的序列关系，最终获得多标签分类结果。本发明解决了现有技术中每一步都可能存在信息丢失的问题，提升情绪‑原因对抽取的准确性。

Description

基于多标签的情绪-原因对抽取方法及系统

技术领域

本发明涉及自然语言处理技术，特别是一种基于多标签的情绪-原因对抽取方法及系统。

背景技术

当今社会是一个快速发展的时代，比起在日常生活中面对面交流，人们更倾向于在社交媒体上分享他们的经历和情绪。因此，在线文本的情绪分析成为了自然语言处理领域的一个新挑战。近年来，情绪分析研究主要集中在情绪分类上，如分析人们在Twitter上表达的情绪以及新闻中产生的情绪。随着对该领域的一步步探索，很多工作正逐渐从单一地分析情绪表达向对情绪相关的更深层次研究，比如提取情绪触感、情绪状态迁移、隐含情绪分析等。这些方法只关心人们表达了哪种情感，但是有时候我们更关心为什么会产生这种情感，即产生这种情感的原因，做到“知其然”也“知其所以然”。因此衍生出了情绪原因抽取任务，该任务是情绪分析的一项基础性和挑战性的工作，旨在分析产生某种情绪的具体原因。

情绪原因抽取是值得深入研究的一个任务，但是这个任务存在一些问题。首先，如果想抽取出情绪原因必须先对情绪进行标注，这限制了情绪原因抽取在实际场景中的应用。其次，先标注情绪然后抽取原因的方法忽略了情绪和原因之间相互指示的事实。因此出现了一个新任务：情绪-原因对抽取，即在没有提供情绪标注的情况下，直接抽取出文档中潜在的情绪和原因对。为了解决这一问题，以前的工作提出了一种两步走的框架：第一步将情绪-原因对抽取任务转换为两个独立的子任务(情绪抽取和原因抽取)；第二步是将情绪子句和原因子句进行配对，训练一个过滤器来筛选掉没有包含因果关系的伪情绪-原因对。然而，两步走的框架存在一些缺陷。首先，虽然在第一步提出了交互式多任务学习网络来获取情绪和原因之间的相关性，但是这种方法只是为了提高多任务的性能，不是为了提取情绪-原因对，情绪和原因之间只是一种间接互动。其次，这个方法不是一个端到端的模型，因此信息在每一步都可能存在信息丢失，最终的结果在很大程度上受第一步抽取准确性的限制。

发明内容

本发明的目的在于提供一种基于多标签的情绪-原因对抽取方法及系统，将情绪-原因对抽取任务重新定义为一个多标签分类问题，以端到端的方式直接抽取情绪-原因对，本发明还利用两个辅助任务来进一步提升模型的性能。

实现本发明目的的技术方案如下：一种基于多标签的情绪-原因对抽取方法，包括如下步骤：

数据预处理：将数据集中的样本转化为包含多个子句的文档，并处理出情绪子句和原因子句，通过非标注语料，训练得到具有语义信息的词向量；

模型训练：将文档中子句的每个词映射成对应的词向量，输入到层次神经网络模型中训练，将训练得到的子句进行多标签预测；

结果处理：在层次神经网络的基础上，设计情绪预测和原因预测两个辅助任务，利用它们的预测标签作为特征来指导多标签预测。

一种基于多标签的情绪-原因对抽取系统，包括：

待测数据预处理模块，用于对于数据集中的每一个文档，根据标注处理出情绪和原因对，根据标点符号划分子句，通过大规模训练得到子句中每个词的向量表示；

多标签预测模块，用于训练基于多标签的层次神经网络框架，编码“词-子句-文档”之间的关系，以端到端的方式直接抽取情绪-原因对；

结果获取模块，用于根据多标签的预测结果，定位到情绪子句和对应的原因子句的位置，进而抽取出情绪-原因对。

与现有技术相比，本发明的有益效果为：针对现有模型解决情绪-原因对抽取任务存在的问题：一是两步走的框架没有充分利用情绪和原因之间的相关性；二是这种框架不是一种端到端的模型，因此每一步都可能存在信息的丢失；本发明将该任务定义为一个多标签分类问题，用一种层次双向LSTM的模型来直接抽取情绪-原因对，具体为：对于子句中的每个词，利用词级双向LSTM来获得词与词之间的上下文信息；计算每个词相对当前词的权重大小，并通过加权求和得到子句表示向量；利用子句级双向LSTM获得融合了子句上下文信息的子句表示；设计利用情绪和原因两个辅助任务预测标签作为特征，来提升情绪-原因对抽取的准确性。

附图说明

图1为本发明基于多标签的情绪-原因对抽取算法研究流程图。

图2所为本发明实施例提供的情绪-原因对联合抽取任务示例图。

图3为本发明实施例提供的情绪-原因对联合抽取模型整体架构图。

具体实施方式

如图1所示，一种基于多标签的情绪-原因对抽取方法，包括如下步骤：

结果处理：在层次神经网络的基础上，设计了情绪预测和原因预测两个辅助任务，并利用它们的预测标签作为特征来指导多标签预测。

进一步地，数据预处理具体方法包括：

将数据集中的文档根据标点符号进行划分，得到每个文档中所包含的所有子句；

根据数据集中的标注，处理出情绪子句和原因子句，得到情绪-原因对；

利用在word2vec工具包在微博语料库上训练得到词向量。

更进一步地，通过对语料进行统计，子句中词的最大长度设为45，文档中子句的最大长度设为75。

更进一步地，数据集中标注了情绪和原因，根据标注处理出情绪子句和原因子句，进而处理出情绪-原因对。

进一步地，模型训练具体方法包括：

将文档中的每个词映射为对应的词向量，并将其作为用一层双向LSTM编码，得到融合上下文词序信息的隐藏层表示；

考虑到每个词在子句表示中的重要性不同，利用注意力机制来获得加权和的子句表示向量；

整个文档包含的子句组成子句序列，将子句序列送入子句级双向LSTM中，得到每个子句的隐层状态表示向量。

进一步地，模型输入为：

包含多个子句的文档表示为d＝[c₁,…,c_i,…,c_|d|]，c_i表示文档d的第i个子句。每一个子句c_i由多个词组成w_i,t表示第i个子句的第t个词。情绪-原因对抽取任务的目的是抽取文档d中一系列情绪-原因对：Pair＝{…,(c^e,c^c),…}，其中c^e是情绪子句，c^c是原因子句，(c^e,c^c)表示情绪-原因对。

进一步地，模型训练过程包括：

2-1)将子句的词向量作为双向LSTM的输入，其中一个子句对应一个双向LSTM，双向LSTM隐层状态的输出作为自注意力层的输入；

2-2)注意力层将融合了上下文表示的隐层向量作为输入，计算输入句子中的每个词对子句的贡献程度，并以加权和的形式得到文档子句表示；

2-3)将原因预测这一辅助任务的预测标签和经过注意力层获得的子句表示拼接得到的向量，作为上层双向LSTM的输入，通过对子句进行序列编码，获得集成其他子句上下文信息的子句表示，即双向LSTM的输出；

2-4)将通过层次双向LSTM获得的子句表示和情绪预测这一辅助任务的预测标签拼接，得到的向量用于多标签预测，并通过sigmoid函数获得多标签的预测结果；

2-5)选取交叉熵作为模型训练的损失函数；

2-6)通过反向传播算法训练模型，更新模型的所有参数，得到层次双向LSTM的多标签预测模型。

更进一步地，步骤2-1)中所述双向LSTM的输出表示为：

其中和/>分别为词级双向LSTM的前向和后向表示，h_i,t表示第i个子句的第t个词的隐藏层状态。

更进一步地，步骤2-2)中利用词级注意力机制来计算得到文档子句表示，包括：

a)对于每一个隐层向量h_i,t，利用注意力机制来计算每个上下文词的隐层状态向量和它的相关性权重，计算公式为：

u_i,t＝tanh(Wh_i,t+b)

其中u表示上下文向量，用于计算权重值，W和b分别表示权重偏置向量，表示第i个子句的第j个词的权重值的转置向量，α为经过归一化后的隐层状态权重向量；

b)把这些权重和词上下文表示向量相乘并进行加权，得到融合所有词权重的第i个子句上下文信息表示：

r_i＝∑_tα_i,th_i,t

更进一步地，模型预测的多标签每一维表示一个子句和其对应的另一个子句是否为情绪-原因对，因此子句之间的相关性和序列关系对模型性能的影响至关重要，本发明使用双向LSTM来获取子句之间的关系，步骤2-3)中所述双向LSTM的输出表示为：

其中表示第i个子句的原因预测标签，/>表示向量拼接操作，和/>分别为子句级双向LSTM的前向和后向表示。

更进一步地，步骤2-4)中所述多标签预测结果为：

其中表示第i个子句的情绪预测标签，/>表示第i个子句的多标签预测标签。

情绪预测和原因预测两个辅助任务在整体模型上的作用为：

将原因预测标签和子句表示r_i拼接得到新的表示/>作为Bi-LSTM的输入。通过这种方式，再经过Bi-LSTM编码后的子句不仅含有上下文信息，而且包含其他子句所在相对位置的原因预测信息。针对多标签的第二个特点，本节利用情绪预测做辅助任务。将情绪预测标签/>和子句表示o_i拼接，得到新的表示/>再通过sigmoid函数进行多标签分类。这样情绪的预测就可以用来作为特征，来指示当前子句是否为情绪子句，如果是情绪子句则肯定存在相应的原因，即多标签中肯定存在为1的标签。这两种辅助标签的利用使得模型更利于情绪-原因对的预测。

更进一步地，步骤2-5)中所述通过最小化预测概率和真实标签之间的差值来得到最终的优化后的模型，文档中所有子句的交叉熵损失为：

其中corpus表示数据集中的所有文档，|d|表示文档中的子句数，y_i和分别是子句c_i的真实和预测分布。

模型的最终损失loss^all是原因预测误差loss^c、情绪预测误差loss^e和情绪-原因对抽取任务误差loss再加上L2正则化项后的加权和：

loss^all＝λ^closs^c+λ^eloss^e+λloss+λ^r‖θ‖²

其中λ^c，λ^e，λ，λ^r分别是loss^c，loss^e，loss，L2正则项的权重，θ表示参数集。

进一步地，结果处理：具体方法包括：

情绪预测和原因预测两个辅助任务和情绪-原因对抽取任务共享第一层双向LSTM和注意力层参数，获得两者的子句隐层状态表示向量；

两个辅助任务再经过一层双向LSTM独立编码，获得融合上下文序列和文本信息的隐层状态表示；

对辅助任务的子句表示向量进行分类，可以分别获得情绪子句和原因子句在整个文档上的预测结果，并将两者的预测标签作为特征来指导多标签的预测。

本发明还提供一种基于多标签的情绪-原因对抽取系统，包括：

待测数据预处理模块：对于数据集中的每一个文档，根据标注处理出情绪和原因对，根据标点符号划分子句，通过大规模训练得到子句中每个词的向量表示。

多标签预测模块：训练一种基于多标签的层次神经网络框架，用来编码“词-子句-文档”之间的关系，以一种端到端的方式直接抽取情绪-原因对，此外设计了情绪预测和原因预测两个辅助任务来指导多标签预测；

结果获取模块：根据多标签的预测结果，定位到情绪子句和对应的原因子句的位置，进而抽取出情绪-原因对。

为使本发明的上述目的、特征和优点阐述地更加清晰易懂，下面通过具体实施例并结合附图，对本发明做进一步详细说明：

实施例

图2为本发明实施例提供的情绪-原因对联合抽取任务的一个示例，该任务的目的是输出情绪-原因对，所以输入的测试文本无需提供情绪标注。例如，给定情绪标注“伤心”，情绪原因抽取任务的目标是找到相应的原因子句：“我们为她的去世感到伤心”；同样，给定情绪标注“骄傲”，相应的原因子句为：“但也为她所做的一切”和“以及她的正直和同情心感到骄傲”。对于情绪-原因对抽取任务来说，目标是直接抽取文档中所有成对的情绪子句和原因子句：包括(“我们为她的去世感到伤心”，“我们为她的去世感到伤心”)、(“以及她的正直和同情心感到骄傲”，“但也为她所做的一切”)和(“以及她的正直和同情心感到骄傲”，“但也为她所做的一切”)三个情绪-原因对。

为本发明实施例提供的基于多标签的情绪-原因对抽取算法研究流程图，如图1所示，该方法主要包括三个阶段，分别是：数据预处理阶段；基于多标签的层次网络模型训练阶段，对结果进行多标签预测并匹配情绪-原因对结果阶段。

(一)数据预处理阶段

对于数据集，根据标注处理出情绪子句和原因子句，进而得到情绪-原因对。本发明将情绪-原因对抽取任务定义为多标签分类问题，其中多标签是根据相对位置(relativeposition，rp)来定义的。相对位置指的是其他子句相对于情绪子句的距离，定义情绪子句的相对位置为0，-1表示在情绪子句左边且距离情绪子句的距离为1的子句的相对位置，+2表示在情绪子句右边且距离情绪子句的距离为2的子句的相对位置。假设多标签的维度为n，对于第i个子句c_i，每一维多标签依次表示相对位置为的子句和子句c_i是否为情绪-原因对。如果子句c_i为非情绪子句，则子句c_i的真实多标签全为0；如果子句c_i为情绪子句，则子句c_i所对应原因子句的那一维标签为1，其余标签全为0。定义第i个子句的多标签为y_i：

y_i＝{l_i,rp,…,l_i,-1,l_i,0,l_i,+1,…}

其中l_i,rp表示第i个子句和相对位置为rp的子句是否为情绪-原因对，若是则为1否则为0。

表1

表1所示图2例子中每个子句的多标签表示。例子中第4个子句是情绪子句，它有一个原因且原因子句所在相对位置是0，故l_4,0＝1；同样，第5个子句也是情绪子句，它有两个原因且原因子句所在相对位置分别为0和+1，故l_5,0＝1且l_5,+1＝1。按照这种定义，把情绪-原因对抽取任务转化为多标签预测问题，这样就可以通过一轮预测直接得到情绪和原因对抽取的结果。

(二)模型训练阶段

结合图1和图3，基于多标签的情绪-原因对抽取的层次模型具体包括以下步骤：

步骤1，输入为包含多个子句的文档表示为d＝[c₁,…,c_i,…,c_|d|]，c_i表示文档d的第i个子句。每一个子句c_i由多个词组成w_i,t表示第i个子句的第t个词。情绪-原因对抽取任务的目的是抽取文档d中一系列情绪-原因对：Pair＝{…,(c^e,c^c),…}，其中c^e是情绪子句，c^c是原因子句，(c^e,c^c)表示标注的情绪-原因对；

步骤2，利用通过word2vec训练得到的词向量表示以及预训练好的语言模型，分别将输入子句中的每个词映射成对应的词向量；

步骤3，子句级上下文表示层，将子句中每个词对应的词向量作为双向LSTM的输入：

步骤4，词级注意力层，利用自注意力机制来计算词的上下文信息，对于每一个隐层向量h_i,t，利用注意力机制来计算每个上下文词的隐层状态向量和它的相关性权重，计算公式为：

u_i,t＝tanh(Wh_i,t+b)

其中u表示上下文向量，用于计算权重值，α为经过归一化后的隐层状态权重向量；

把这些权重和词上下文表示向量相乘并进行加权，得到融合所有词权重的第i个子句上下文信息表示：

r_i＝∑_tα_i,th_i,t

步骤5，子句级上下文表示层，将注意力层得到的子句表示向量作为子句双向LSTM的输入，用来获取子句之间的上下文关系：

步骤6，经过层次LSTM和注意力编码后得到的子句表示用来进行多标签分类，多标签预测结果为：

步骤7，最小化预测概率和真实标签之间的差值来得到最终的优化后的模型，文档中所有子句的交叉熵损失为：

loss^all＝λ^closs^c+λ^eloss^e+λloss+λ^r‖θ‖²

(三)结果处理阶段

步骤1，把得到的子句向量输入到训练好的情绪-原因对抽取层次模型中，对文档中的所有子句进行多标签预测；

步骤2，对比真实标签和多标签的预测结果，利用precision、recall和F1来评估模型的准确性；

步骤3，根据多标签的预测结果，处理出标签为1对应的情绪子句和原因子句，进而得到预测的情绪-原因对。

以上所述仅是本发明的优选实施方式，本发明不受上述实施例的限制，相关技术人员在不脱离本发明构思的前提下，可以对本发明做出若干改进和润饰，但均应视为在本发明保护范围。

Claims

1.一种基于多标签的情绪-原因对抽取方法，其特征在于，包括如下步骤：

数据预处理：将数据集中的样本转化为包含多个子句的文档，并处理出情绪子句和原因子句，通过非标注语料，训练得到具有语义信息的词向量；数据预处理的具体方法为：

利用word2vec工具包在微博语料库上训练得到词向量；

模型训练：将文档中子句的每个词映射成对应的词向量，输入到层次神经网络模型中训练，将训练得到的子句进行多标签预测；模型训练具体方法包括：

将文档中的每个词映射为对应的词向量，并将其作为一层双向LSTM编码，得到融合上下文词序信息的隐藏层表示；

利用注意力机制来获得加权和的子句表示向量；

整个文档包含的子句组成子句序列，将子句序列送入子句级双向LSTM中，得到每个子句的隐层状态表示向量；

模型输入为：

包含多个子句的文档表示为d＝[c₁,…,c_i,…,c_|d|]，c_i表示文档d的第i个子句；每一个子句c_i由多个词组成w_i,t表示第i个子句的第t个词；情绪-原因对抽取任务的目的是抽取文档d中一系列情绪-原因对：Pair＝{…,(c^e,c^c),…}，其中c^e是情绪子句，c^c是原因子句，(c^e,c^c)表示情绪-原因对；

模型训练具体过程包括：

2-1)将子句的词向量作为双向LSTM的输入，其中一个子句对应一个双向LSTM，双向LSTM隐层状态的输出作为自注意力层的输入；所述双向LSTM的隐层状态表示为：

其中和/>分别为词级双向LSTM的前向和后向表示，h_i,t表示第i个子句的第t个词的隐藏层状态；

2-2)注意力层将融合了上下文表示的隐层向量作为输入，计算输入句子中的每个词对子句的贡献程度，并以加权和的形式得到文档子句表示；利用词级注意力机制来计算得到文档子句表示，包括：

u_i,t＝tanh(Wh_i,t+b)

r_i＝∑_tα_i,th_i,t

双向LSTM的输出表示为：

其中表示第i个子句的原因预测标签，/>表示向量拼接操作，/>和分别为子句级双向LSTM的前向和后向表示；

2-4)将通过层次双向LSTM获得的子句表示和情绪预测这一辅助任务的预测标签拼接，得到的向量用于多标签预测，并通过sigmoid函数获得多标签的预测结果；多标签预测结果为：

其中表示第i个子句的情绪预测标签，/>表示第i个子句的多标签预测标签；

2-5)选取交叉熵作为模型训练的损失函数；

通过最小化预测概率和真实标签之间的差值来得到最终的优化后的模型，文档中所有子句的交叉熵损失为：

其中corpus表示数据集中的所有文档，|d|表示文档中的子句数，y_i和分别是子句c_i的真实和预测分布；

通过交叉熵计算的原因预测误差loss^c、情绪预测误差loss^e和情绪-原因对抽取任务误差loss再加上L2正则化项后的加权和，得到模型的最终损失loss^all：

loss^all＝λ^closs^c+λ^eloss^e+λloss+λ^r‖θ‖²

其中λ^c，λ^e，λ，λ^r分别是loss^c，loss^e，loss，L2正则项的权重，θ表示参数集；

2-6)通过反向传播算法训练模型，更新模型的所有参数，得到层次双向LSTM的多标签预测模型；

结果处理：在层次神经网络的基础上，设计情绪预测和原因预测两个辅助任务，利用它们的预测标签作为特征来指导多标签预测；

结果处理具体方法包括：

情绪预测和原因预测两个辅助任务和情绪-原因对预测任务共享第一层双向LSTM和注意力层参数，获得两者的子句隐层状态表示向量；

对辅助任务的子句表示向量进行分类，分别获得情绪子句和原因子句在整个文档上的预测结果，并将两者的预测标签作为特征来指导多标签的预测。

2.一种基于权利要求1所述抽取方法的抽取系统，其特征在于，包括：