CN113312478B

CN113312478B - 基于阅读理解的观点挖掘方法及装置

Info

Publication number: CN113312478B
Application number: CN202110445975.5A
Authority: CN
Inventors: 陈志鹏; 刘春阳; 张旭; 王鹏; 董善为; 李倩; 虞世城; 李建欣
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-07-19
Anticipated expiration: 2041-04-25
Also published as: CN113312478A

Abstract

本发明公开了基于阅读理解的观点挖掘方法，包括：构建领域情感观点知识库，其内包含领域情感观点词，每个领域情感观点词对应一个情感分类标签和一个立场分类标签；基于所述领域情感观点知识库和事件观点训练文本集，对预训练语言模型进行训练，获得情感预训练语言模型，所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息；从待抽取事件文本中抽取事件观点文本；将所述事件观点文本输入所述情感预训练语言模型中，并对其输出的内容进行编码、句子特征提取和分类，获得待抽取事件文本中观点的情感和立场；以及，基于阅读理解的观点挖掘装置。本发明具有使观点挖掘结果更加准确的优点。

Description

基于阅读理解的观点挖掘方法及装置

技术领域

本发明涉及自然语言处理领域。更具体地说，本发明涉及一种基于阅读理解的观点挖掘方法及装置。

背景技术

观点挖掘包含观点抽取(Identify)和极性分类(Classify)两个步骤。现有的观点抽取研究的主要方法是基于规则的模型，这类方法根据事件的文本特性和实际需求，设计专门的触发词，结合命名实体识别技术识别人名，组织机构等观点关键信息，设计观点提取规则提取事件中的专家观点。但是这类模型需要根据实际需求设计提取规则，属于无监督的模型，缺乏对整体事件文档的语义信息的理解，无法从事件全局的角度理解观点的指向性评价对象、具体情感、具体立场。而现有的极性分类主要采用传统的机器学习分类模型，如支持向量机(SVM)、BERT等。这些模型只考虑了输入的句子每个词语中携带的情感或立场信息，但是在句子的上下文中同样包含大量的情感信息。此外，以往的模型中情感和立场的分类是一个独立的过程，但是情感和立场往往存在隐性的协同关系。

发明内容

本发明的一个目的是提供一种基于阅读理解的观点挖掘方法，其在理解事件文本的整体语义的基础上，对事件文本进行观点文本抽取，并构建领域情感观点知识库对预训练语言模型进行训练，使观点挖掘结果更加准确。

为了实现根据本发明的目的和其它优点，提供了一种基于阅读理解的观点挖掘方法，包括：

构建领域情感观点知识库，其内包含领域情感观点词，每个领域情感观点词对应一个情感分类标签和一个立场分类标签；

基于所述领域情感观点知识库和事件观点训练文本集，对预训练语言模型进行训练，获得情感预训练语言模型，所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息；

从待抽取事件文本中抽取事件观点文本；

将所述事件观点文本输入所述情感预训练语言模型中，并对其输出的内容进行编码、句子特征提取和分类，获得待抽取事件文本中观点的情感和立场。

优选的是，所述的基于阅读理解的观点挖掘方法，所述领域情感观点知识库的构建方法，具体包括，

S11、收集领域语料，并对其进行分词，去重和去噪处理，获得领域情感语料库；

S12、在通用情感词典的基础上，对所述领域情感语料库中的领域情感观点词进行抽取、去重和分类，获得领域情感观点词本体，并对所述领域情感观点词本体进行扩充，生成所述领域情感观点知识库，其中，扩充方法包括同义词集扩充和互信息计算；

S13、计算所述领域情感观点知识库中收录的领域情感观点词和未收录的情感观点词之间的相似度，若相似度超过预设阈值，则将所述未收录的情感观点词作为对应的所述收录的领域情感观点词的别称进行收录，并更新所述领域情感观点知识库，否则，不进行收录。

优选的是，所述的基于阅读理解的观点挖掘方法，所述预训练语言模型的训练方法，具体包括，

S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点训练文本；

S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内，若这个词在所述领域情感观点知识库内，则这个词被认为是领域情感观点词，将所述事件观点训练文本中的这个词Mask，即将该词替换为特殊字符[MASK]，作为所述预训练语言模型的输入，并对所述预训练语言模型的输出结果进行评判；

S23、重复S21、S22，持续对所述预训练语言模型进行训练，使得所述预训练语言模型能够预测出输入文本中被Mask的信息，即获得所述情感预训练语言模型。

优选的是，所述的基于阅读理解的观点挖掘方法，采用机器阅读理解模型并结合观点规则处理模版从所述待抽取事件文本中抽取所述事件观点文本，具体包括，

S31、获取所述待抽取事件文本；

S32、根据事件观点抽取问题模板匹配问题，获得问题文本；

S33、对所述待抽取事件文本和所述问题文本进行中文分词，并通过BERT的预训练向量进行embedding，得到所述待抽取事件文本和所述问题文本的语义空间向量表示；

S34、对中文分词后的每个单词进行分段位置嵌入；

S35、将embedding后的所述待抽取事件文本和所述问题文本使用BERT的通用特殊拼接符号[sep]进行拼接；

S36、将拼接后的文本输入多层transformer，获得观点抽取答案文本；

S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对，并通过观点规则处理模版进行筛选，去掉错误的观点抽取答案文本，即获得所述事件观点文本。

优选的是，所述的基于阅读理解的观点挖掘方法，所述观点规则处理模板的筛选方法具体包括，对所述观点抽取答案文本通过LTP进行语义依存分析，获得所述观点抽取答案文本的语义依存分析树；判断所述观点抽取答案文本是否为陈述句；找到所述语义依存分析树的根节点，判断所述根节点的词性是否为动词；找到根节点下的主语子节点和宾语子节点，判断主语子节点是否是专有名词，判断宾语子节点是否连接一个子句；若上述判断中有一条不满足，则筛选掉该观点抽取答案文本。

优选的是，所述的基于阅读理解的观点挖掘方法，在将所述事件观点文本输入所述情感预训练语言模型前，将所述情感预训练语言模型最后的softmax层裁剪掉，然后输入所述事件观点文本，得到中间层的向量输出。

优选的是，所述的基于阅读理解的观点挖掘方法，将所述中间层的向量输出进行编码，再输入TextCNN，并通过softmax层转换为多分类任务，进行句子特征提取和分类，其中，所述多分类任务包括情感分类和立场分类，分类标签从所述领域情感观点知识库中获取。

优选的是，所述的基于阅读理解的观点挖掘方法，还包括，从所述事件观点文本中抽取观点主体信息，获得待抽取事件文本中观点主体发表观点的情感和立场。

本发明还提供了一种基于阅读理解的观点挖掘装置，其特征在于，包括：

处理器；

存储器，其存储有可执行指令；

其中，所述处理器被配置为执行所述可执行指令，以执行权利要求1～8任一所述的基于阅读理解的观点挖掘方法。

本发明至少包括以下有益效果：

第一，本发明通过对相关事件的专家与专门机构的评论展开对相关事件的观点抽取，并实现对观点主导对象关于热点事件所持立场和情感在不同的时间段的深层次与多维度分析。

第二、机器阅读任务从事件文本中获取事件的整体语义信息，面向关于事件的文本问题，从文本中抽取正确的文本片段信息作为答案。本发明设计基于阅读理解式观点抽取模型融合了基于规则的观点抽取模型和机器阅读模型，机器阅读理解模型阅读事件的文本获取事件的整体语义信息，将具体的多个观点抽取任务转换为阅读理解的具体实际问题，基于场景化事件的设计阅读理解模型，输出事件文本中的答案片段，并进行处理作为具体抽取出来事件的观点，使得抽取的观点的情感和立场能代表事件文本整体的情感立场信息，进而使得观点挖掘结果更加准确。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是根据本发明一个实施例的基于阅读理解的观点挖掘方法的流程示意图；

图2是根据本发明一个实施例的阅读理解式事件观点文本提取流程示意图；

图3是根据本发明一个实施例的情感预训练语言模型；

图4是根据本发明一个实施例的基于情感预训练语言模型的观点主体-情感-立场预测。

具体实施方式

下面结合实施例和附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

术语解释：

Mask：单词遮挡。将文本中的指定单词替换为BERT中定义的通用遮盖标签[MASK]。

BERT：goole提出的一个通用NLP深度学习模型，经过微调后可以用作各种NLP任务。参见Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.NAACL-HLT(1)2019:4171-4186。

Embedding：自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维空间。高维原始数据(图像，句子)映射到低维流形，使得高维的原始数据被映射到低维流形之后变得可分，而这个映射就叫嵌入(Embedding)。比如Word Embedding，就是把单词组成的句子映射到一个表征向量。

transformer：一个基于注意力机制的NLP模型。参见Ashish Vaswani,NoamShazeer, Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,Lukasz Kaiser,Illia Polosukhin:Attention is All you Need.NIPS 2017:5998-6008。

LTP：哈工大语言技术平台(Language Technology Platform)提供的通用中文语言处理模型LTP，提供中文分词和基本语义分析的功能。

TextCNN：一个基于卷积神经网络的文本分类模型。参见Kim Y.ConvolutionalNeural Networks for Sentence Classification[J].Eprint Arxiv,2014。

softmax：机器学习的分类任务中最后一层用于将若干正实数映射成概率的函数。

如图1所示，本发明提供了一种基于阅读理解的观点挖掘方法，包括：

S10、构建领域情感观点知识库，其内包含领域情感观点词，每个领域情感观点词对应一个情感分类标签和一个立场分类标签；

S20、基于所述领域情感观点知识库和事件观点训练文本集，对预训练语言模型进行训练，获得情感预训练语言模型，所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息；

S30、从待抽取事件文本中抽取事件观点文本；

S40、将所述事件观点文本输入所述情感预训练语言模型中，并对其输出的内容进行编码、句子特征提取和分类，获得待抽取事件文本中观点的情感和立场。

其中，S10中，所述领域情感观点知识库的构建方法，具体包括，

S11、构建领域情感语料库：收集领域语料，并对其进行分词，去除停用词、特殊符号，去除不完整的数据和重复的数据，保证语料皆属于同一领域，获得领域情感语料库。

S12、领域情感观点知识库生成：领域情感观点知识库的生成包括两个步骤，分别是领域情感观点词本体识别和领域情感观点词本体扩充。在通用情感词典的基础上，对所述领域情感语料库中的领域情感观点词进行抽取、去重和分类，获得领域情感观点词本体，领域情感观点词本体扩充是通过同义词集扩充、互信息计算等方法获得更多情感词，扩大知识库规模。其中，领域情感观点词包括情感词和观点词。

S13、领域情感观点知识库更新：对于领域情感观点知识库中未收录的情感观点词，通过未收录词与收录词之间的相似度计算，相似度计算的方法采用对应word2vec特征向量的余弦相似度。若计算得到的余弦相似度超过阈值(0.8)，则将该未收录词作为收录词的一个别称进行收录，否则，不进行收录，实现知识库的更新。因此在后续步骤中，每个收录词及其别称相当于同一个情感观点词。

由于通用预训练语言模型主要关注事实型文本(如新闻、百科等)，而情感分析更侧重于分析主观型文本中蕴涵的情感和观点，因此本发明需要训练一个带有情感和观点知识的情感预训练语言模型，具体的，如图3所示，S20中，所述预训练语言模型的训练方法包括，

S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点训练文本。

S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内，若这个词在所述领域情感观点知识库内，则这个词被认为是领域情感观点词，将所述事件观点训练文本中的这个词Mask，即将该词替换为特殊字符[MASK]，作为所述预训练语言模型的输入，并对所述预训练语言模型的输出结果进行评判。如图3，x8、x9位置，如果可以预测出“反对”及其同义词，则预测正确。其中同义词可通过领域情感观点知识库定义。

S23、重复S21、S22，持续对所述预训练语言模型进行训练，使得所述预训练语言模型能够预测出输入文本中被Mask的信息，包括对情感词、观点词的预测，即获得所述情感预训练语言模型。这样，通过持续优化目标函数进行训练，自动挖掘的情感知识就被有效地嵌入到模型的语义表示中，则该模型可以有效的嵌入表示输入文本中的观点和情感信息。

现有的从事件文本中抽取观点文本主要采用基于规则的模型，这类模型需要根据实际需求设计提取规则，属于无监督的模型，缺乏对整体事件文本的语义信息的理解，无法从事件全局的角度理解观点的指向性评价对象、具体情感、具体立场。为了更好的理解事件文本整体的语义信息，使抽取的观点文本的情感和立场表达更加准确，本发明采用机器阅读理解模型并结合观点规则处理模版从所述待抽取事件文本中抽取所述事件观点文本，如图2所示，S30中，具体包括，

S31、获取所述待抽取事件文本(即图2中的事件文本)，其一般为各种新闻语料库中的新闻文本。

S32、根据事件观点抽取问题模板匹配问题，获得问题文本(即图2中的观点抽取问题文本)。例如在分析“A国和B国贸易摩擦进一步加大”事件文本中若想要只抽取B国专家观点，则需配置自定义事件观点抽取问题模版，添加“B国专家针对A国和B国贸易战发表什么观点？”的问题；否则默认执行固定模版匹配，例如：“专家发表了什么观点？”。

S33、对所述待抽取事件文本和所述问题文本进行中文分词，并通过BERT的预训练向量进行embedding，得到所述待抽取事件文本和所述问题文本的语义空间向量表示。

S34、对中文分词后的每个单词进行分段位置嵌入。

S35、将embedding后的所述待抽取事件文本和所述问题文本使用BERT的通用特殊拼接符号[sep]进行拼接。

S36、将拼接后的文本输入多层transformer，得到输出结果，即观点抽取答案文本(即图2中的观点抽取答案片段)。其中多层transformer采用了BERT的设计方案。

S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对，并通过观点规则处理模版进行筛选，去掉错误的观点抽取答案文本，增强结果的鲁棒性，即获得所述事件观点文本(即图2中的专家观点)。

进一步的，所述观点规则处理模板的筛选方法具体包括，对所述观点抽取答案文本通过LTP进行语义依存分析，获得所述观点抽取答案文本的语义依存分析树；判断所述观点抽取答案文本是否为陈述句；找到所述语义依存分析树的根节点，判断所述根节点的词性是否为动词；找到根节点下的主语子节点和宾语子节点，判断主语子节点是否是专有名词 (如专家、机构、媒体等)，判断宾语子节点是否连接一个子句；若上述判断中有一条不满足，则筛选掉该观点抽取答案文本。

通过结合传统基于规则的事件观点抽取和机器阅读理解模型，实现了基于阅读理解的观点抽取模型，由于机器阅读理解模型阅读并理解整体事件的文本语义信息，因此，基于阅读理解的观点抽取模型可以从事件整体角度定位观点的指向性评价对象、具体情感、具体立场。

在获取所述事件观点文本后，需要基于所述情感预训练语言模型进行观点分析和立场归纳，如图4所示，S40中，具体包括，

S41、使用所述情感预训练语言模型，并裁剪掉最后的softmax层，然后输入所述事件观点文本，得到中间层的向量输出，对embedding的文本编码，作为该输入文本的embedding向量。由于该情感预训练语言模型在训练过程中用于预测情感与立场标签，所以该模型的中间层可以通过注意力机制有效提取出句子中含有的情感和观点信息。

S42、将该输入文本的embedding向量输入TextCNN，并通过softmax层转换为多分类任务，进行句子特征提取和分类，其中，所述多分类任务包括情感分类和立场分类，分类标签从所述领域情感观点知识库中获取。

S43、结合从所述事件观点文本中抽取观点主体信息，最后得到该输入文本中某一观点主体发表观点的情感及立场，即获得待抽取事件文本中某一观点主体发表观点的情感和立场。

本发明设计的基于阅读理解式观点抽取模型融合了基于规则的观点抽取模型和机器阅读模型，机器阅读理解模型阅读事件的文本获取事件的整体语义信息，将具体的多个观点抽取任务转换为阅读理解的具体实际问题，基于场景化事件的设计阅读理解模型，输出事件文本中的答案片段，并进行处理作为具体抽取出来事件的观点，使得抽取的观点的情感和立场能代表事件文本整体的情感立场信息，进而使得观点挖掘结果更加准确。

本发明在基于阅读理解的观点挖掘方法的基础上，还提供了一种基于阅读理解的观点挖掘装置，包括：

处理器；

存储器，其存储有可执行指令；

其中，所述处理器被配置为执行所述可执行指令，以执行所述的基于阅读理解的观点挖掘方法。

本技术方案基于与基于阅读理解的观点挖掘方法相同的发明构思得到，可参考方法部分的描述。本技术方案的装置不限于pc、终端、服务器。比如此装置可以设置在服务器中，间隔设定时间采集财务数据，并自动进行计算，给出挖掘结果。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于阅读理解的观点挖掘方法，其特征在于，包括：

采用机器阅读理解模型并结合观点规则处理模板从待抽取事件文本中抽取事件观点文本，具体包括，

S31、获取所述待抽取事件文本；

S32、根据事件观点抽取问题模板匹配问题，获得问题文本；

S34、对中文分词后的每个单词进行分段位置嵌入；

S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对，并通过观点规则处理模板进行筛选，去掉错误的观点抽取答案文本，即获得所述事件观点文本；

2.如权利要求1所述的基于阅读理解的观点挖掘方法，其特征在于，所述领域情感观点知识库的构建方法，具体包括，

3.如权利要求1所述的基于阅读理解的观点挖掘方法，其特征在于，所述预训练语言模型的训练方法，具体包括，

4.如权利要求1所述的基于阅读理解的观点挖掘方法，其特征在于，所述观点规则处理模板的筛选方法具体包括，对所述观点抽取答案文本通过LTP进行语义依存分析，获得所述观点抽取答案文本的语义依存分析树；判断所述观点抽取答案文本是否为陈述句；找到所述语义依存分析树的根节点，判断所述根节点的词性是否为动词；找到根节点下的主语子节点和宾语子节点，判断主语子节点是否是专有名词，判断宾语子节点是否连接一个子句；若上述判断中有一条不满足，则筛选掉该观点抽取答案文本。

5.如权利要求1所述的基于阅读理解的观点挖掘方法，其特征在于，在将所述事件观点文本输入所述情感预训练语言模型前，将所述情感预训练语言模型最后的softmax层裁剪掉，然后输入所述事件观点文本，得到中间层的向量输出。

6.如权利要求5所述的基于阅读理解的观点挖掘方法，其特征在于，将所述中间层的向量输出进行编码，再输入TextCNN，并通过softmax层转换为多分类任务，进行句子特征提取和分类，其中，所述多分类任务包括情感分类和立场分类，分类标签从所述领域情感观点知识库中获取。

7.如权利要求1所述的基于阅读理解的观点挖掘方法，其特征在于，还包括，从所述事件观点文本中抽取观点主体信息，获得待抽取事件文本中观点主体发表观点的情感和立场。

8.基于阅读理解的观点挖掘装置，其特征在于，包括：

处理器；

存储器，其存储有可执行指令；

其中，所述处理器被配置为执行所述可执行指令，以执行权利要求1~7任一所述的基于阅读理解的观点挖掘方法。