CN113312478B - 基于阅读理解的观点挖掘方法及装置 - Google Patents

基于阅读理解的观点挖掘方法及装置 Download PDF

Info

Publication number
CN113312478B
CN113312478B CN202110445975.5A CN202110445975A CN113312478B CN 113312478 B CN113312478 B CN 113312478B CN 202110445975 A CN202110445975 A CN 202110445975A CN 113312478 B CN113312478 B CN 113312478B
Authority
CN
China
Prior art keywords
viewpoint
emotion
text
event
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110445975.5A
Other languages
English (en)
Other versions
CN113312478A (zh
Inventor
陈志鹏
刘春阳
张旭
王鹏
董善为
李倩
虞世城
李建欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN202110445975.5A priority Critical patent/CN113312478B/zh
Publication of CN113312478A publication Critical patent/CN113312478A/zh
Application granted granted Critical
Publication of CN113312478B publication Critical patent/CN113312478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于阅读理解的观点挖掘方法,包括:构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;从待抽取事件文本中抽取事件观点文本;将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场;以及,基于阅读理解的观点挖掘装置。本发明具有使观点挖掘结果更加准确的优点。

Description

基于阅读理解的观点挖掘方法及装置
技术领域
本发明涉及自然语言处理领域。更具体地说,本发明涉及一种基于阅读理解的观点挖 掘方法及装置。
背景技术
观点挖掘包含观点抽取(Identify)和极性分类(Classify)两个步骤。现有的观点抽取研究 的主要方法是基于规则的模型,这类方法根据事件的文本特性和实际需求,设计专门的触 发词,结合命名实体识别技术识别人名,组织机构等观点关键信息,设计观点提取规则提 取事件中的专家观点。但是这类模型需要根据实际需求设计提取规则,属于无监督的模型, 缺乏对整体事件文档的语义信息的理解,无法从事件全局的角度理解观点的指向性评价对 象、具体情感、具体立场。而现有的极性分类主要采用传统的机器学习分类模型,如支持 向量机(SVM)、BERT等。这些模型只考虑了输入的句子每个词语中携带的情感或立场 信息,但是在句子的上下文中同样包含大量的情感信息。此外,以往的模型中情感和立场 的分类是一个独立的过程,但是情感和立场往往存在隐性的协同关系。
发明内容
本发明的一个目的是提供一种基于阅读理解的观点挖掘方法,其在理解事件文本的整 体语义的基础上,对事件文本进行观点文本抽取,并构建领域情感观点知识库对预训练语 言模型进行训练,使观点挖掘结果更加准确。
为了实现根据本发明的目的和其它优点,提供了一种基于阅读理解的观点挖掘方法, 包括:
构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个 情感分类标签和一个立场分类标签;
基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练, 获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点 信息;
从待抽取事件文本中抽取事件观点文本;
将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、 句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。
优选的是,所述的基于阅读理解的观点挖掘方法,所述领域情感观点知识库的构建方 法,具体包括,
S11、收集领域语料,并对其进行分词,去重和去噪处理,获得领域情感语料库;
S12、在通用情感词典的基础上,对所述领域情感语料库中的领域情感观点词进行抽 取、去重和分类,获得领域情感观点词本体,并对所述领域情感观点词本体进行扩充,生成所述领域情感观点知识库,其中,扩充方法包括同义词集扩充和互信息计算;
S13、计算所述领域情感观点知识库中收录的领域情感观点词和未收录的情感观点词 之间的相似度,若相似度超过预设阈值,则将所述未收录的情感观点词作为对应的所述收 录的领域情感观点词的别称进行收录,并更新所述领域情感观点知识库,否则,不进行收 录。
优选的是,所述的基于阅读理解的观点挖掘方法,所述预训练语言模型的训练方法, 具体包括,
S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点 训练文本;
S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内,若 这个词在所述领域情感观点知识库内,则这个词被认为是领域情感观点词,将所述事件观 点训练文本中的这个词Mask,即将该词替换为特殊字符[MASK],作为所述预训练语言模型的输入,并对所述预训练语言模型的输出结果进行评判;
S23、重复S21、S22,持续对所述预训练语言模型进行训练,使得所述预训练语言模型能够预测出输入文本中被Mask的信息,即获得所述情感预训练语言模型。
优选的是,所述的基于阅读理解的观点挖掘方法,采用机器阅读理解模型并结合观点 规则处理模版从所述待抽取事件文本中抽取所述事件观点文本,具体包括,
S31、获取所述待抽取事件文本;
S32、根据事件观点抽取问题模板匹配问题,获得问题文本;
S33、对所述待抽取事件文本和所述问题文本进行中文分词,并通过BERT的预训练向 量进行embedding,得到所述待抽取事件文本和所述问题文本的语义空间向量表示;
S34、对中文分词后的每个单词进行分段位置嵌入;
S35、将embedding后的所述待抽取事件文本和所述问题文本使用BERT的通用特殊拼 接符号[sep]进行拼接;
S36、将拼接后的文本输入多层transformer,获得观点抽取答案文本;
S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对,并通过观点规则处 理模版进行筛选,去掉错误的观点抽取答案文本,即获得所述事件观点文本。
优选的是,所述的基于阅读理解的观点挖掘方法,所述观点规则处理模板的筛选方法 具体包括,对所述观点抽取答案文本通过LTP进行语义依存分析,获得所述观点抽取答案 文本的语义依存分析树;判断所述观点抽取答案文本是否为陈述句;找到所述语义依存分 析树的根节点,判断所述根节点的词性是否为动词;找到根节点下的主语子节点和宾语子 节点,判断主语子节点是否是专有名词,判断宾语子节点是否连接一个子句;若上述判断 中有一条不满足,则筛选掉该观点抽取答案文本。
优选的是,所述的基于阅读理解的观点挖掘方法,在将所述事件观点文本输入所述情 感预训练语言模型前,将所述情感预训练语言模型最后的softmax层裁剪掉,然后输入所 述事件观点文本,得到中间层的向量输出。
优选的是,所述的基于阅读理解的观点挖掘方法,将所述中间层的向量输出进行编码, 再输入TextCNN,并通过softmax层转换为多分类任务,进行句子特征提取和分类,其中, 所述多分类任务包括情感分类和立场分类,分类标签从所述领域情感观点知识库中获取。
优选的是,所述的基于阅读理解的观点挖掘方法,还包括,从所述事件观点文本中抽 取观点主体信息,获得待抽取事件文本中观点主体发表观点的情感和立场。
本发明还提供了一种基于阅读理解的观点挖掘装置,其特征在于,包括:
处理器;
存储器,其存储有可执行指令;
其中,所述处理器被配置为执行所述可执行指令,以执行权利要求1~8任一所述的基 于阅读理解的观点挖掘方法。
本发明至少包括以下有益效果:
第一,本发明通过对相关事件的专家与专门机构的评论展开对相关事件的观点抽取, 并实现对观点主导对象关于热点事件所持立场和情感在不同的时间段的深层次与多维度 分析。
第二、机器阅读任务从事件文本中获取事件的整体语义信息,面向关于事件的文本问 题,从文本中抽取正确的文本片段信息作为答案。本发明设计基于阅读理解式观点抽取模 型融合了基于规则的观点抽取模型和机器阅读模型,机器阅读理解模型阅读事件的文本获 取事件的整体语义信息,将具体的多个观点抽取任务转换为阅读理解的具体实际问题,基 于场景化事件的设计阅读理解模型,输出事件文本中的答案片段,并进行处理作为具体抽 取出来事件的观点,使得抽取的观点的情感和立场能代表事件文本整体的情感立场信息, 进而使得观点挖掘结果更加准确。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明 的研究和实践而为本领域的技术人员所理解。
附图说明
图1是根据本发明一个实施例的基于阅读理解的观点挖掘方法的流程示意图;
图2是根据本发明一个实施例的阅读理解式事件观点文本提取流程示意图;
图3是根据本发明一个实施例的情感预训练语言模型;
图4是根据本发明一个实施例的基于情感预训练语言模型的观点主体-情感-立场预 测。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以令本领域技术人员参照说明 书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
术语解释:
Mask:单词遮挡。将文本中的指定单词替换为BERT中定义的通用遮盖标签[MASK]。
BERT:goole提出的一个通用NLP深度学习模型,经过微调后可以用作各种NLP任务。 参见Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.NAACL-HLT(1)2019:4171-4186。
Embedding:自然的原始数据是低维的流形嵌入于(embedded in)原始数据所在的高维 空间。高维原始数据(图像,句子)映射到低维流形,使得高维的原始数据被映射到低维 流形之后变得可分,而这个映射就叫嵌入(Embedding)。比如Word Embedding,就是把单词组成的句子映射到一个表征向量。
transformer:一个基于注意力机制的NLP模型。参见Ashish Vaswani,NoamShazeer, Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,Lukasz Kaiser,Illia Polosukhin:Attention is All you Need.NIPS 2017:5998-6008。
LTP:哈工大语言技术平台(Language Technology Platform)提供的通用中文语言 处理模型LTP,提供中文分词和基本语义分析的功能。
TextCNN:一个基于卷积神经网络的文本分类模型。参见Kim Y.ConvolutionalNeural Networks for Sentence Classification[J].Eprint Arxiv,2014。
softmax:机器学习的分类任务中最后一层用于将若干正实数映射成概率的函数。
如图1所示,本发明提供了一种基于阅读理解的观点挖掘方法,包括:
S10、构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对 应一个情感分类标签和一个立场分类标签;
S20、基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行 训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感 和观点信息;
S30、从待抽取事件文本中抽取事件观点文本;
S40、将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行 编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。
其中,S10中,所述领域情感观点知识库的构建方法,具体包括,
S11、构建领域情感语料库:收集领域语料,并对其进行分词,去除停用词、特殊符号,去除不完整的数据和重复的数据,保证语料皆属于同一领域,获得领域情感语料库。
S12、领域情感观点知识库生成:领域情感观点知识库的生成包括两个步骤,分别是 领域情感观点词本体识别和领域情感观点词本体扩充。在通用情感词典的基础上,对所述 领域情感语料库中的领域情感观点词进行抽取、去重和分类,获得领域情感观点词本体, 领域情感观点词本体扩充是通过同义词集扩充、互信息计算等方法获得更多情感词,扩大 知识库规模。其中,领域情感观点词包括情感词和观点词。
S13、领域情感观点知识库更新:对于领域情感观点知识库中未收录的情感观点词, 通过未收录词与收录词之间的相似度计算,相似度计算的方法采用对应word2vec特征向 量的余弦相似度。若计算得到的余弦相似度超过阈值(0.8),则将该未收录词作为收录词 的一个别称进行收录,否则,不进行收录,实现知识库的更新。因此在后续步骤中,每个收录词及其别称相当于同一个情感观点词。
由于通用预训练语言模型主要关注事实型文本(如新闻、百科等),而情感分析更侧 重于分析主观型文本中蕴涵的情感和观点,因此本发明需要训练一个带有情感和观点知识 的情感预训练语言模型,具体的,如图3所示,S20中,所述预训练语言模型的训练方法包括,
S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点 训练文本。
S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内,若 这个词在所述领域情感观点知识库内,则这个词被认为是领域情感观点词,将所述事件观 点训练文本中的这个词Mask,即将该词替换为特殊字符[MASK],作为所述预训练语言模型的输入,并对所述预训练语言模型的输出结果进行评判。如图3,x8、x9位置,如果可 以预测出“反对”及其同义词,则预测正确。其中同义词可通过领域情感观点知识库定义。
S23、重复S21、S22,持续对所述预训练语言模型进行训练,使得所述预训练语言模型能够预测出输入文本中被Mask的信息,包括对情感词、观点词的预测,即获得所述情 感预训练语言模型。这样,通过持续优化目标函数进行训练,自动挖掘的情感知识就被有 效地嵌入到模型的语义表示中,则该模型可以有效的嵌入表示输入文本中的观点和情感信息。
现有的从事件文本中抽取观点文本主要采用基于规则的模型,这类模型需要根据实际 需求设计提取规则,属于无监督的模型,缺乏对整体事件文本的语义信息的理解,无法从 事件全局的角度理解观点的指向性评价对象、具体情感、具体立场。为了更好的理解事件 文本整体的语义信息,使抽取的观点文本的情感和立场表达更加准确,本发明采用机器阅 读理解模型并结合观点规则处理模版从所述待抽取事件文本中抽取所述事件观点文本,如 图2所示,S30中,具体包括,
S31、获取所述待抽取事件文本(即图2中的事件文本),其一般为各种新闻语料库中 的新闻文本。
S32、根据事件观点抽取问题模板匹配问题,获得问题文本(即图2中的观点抽取问题文本)。例如在分析“A国和B国贸易摩擦进一步加大”事件文本中若想要只抽取B国 专家观点,则需配置自定义事件观点抽取问题模版,添加“B国专家针对A国和B国贸 易战发表什么观点?”的问题;否则默认执行固定模版匹配,例如:“专家发表了什么观 点?”。
S33、对所述待抽取事件文本和所述问题文本进行中文分词,并通过BERT的预训练向 量进行embedding,得到所述待抽取事件文本和所述问题文本的语义空间向量表示。
S34、对中文分词后的每个单词进行分段位置嵌入。
S35、将embedding后的所述待抽取事件文本和所述问题文本使用BERT的通用特殊拼 接符号[sep]进行拼接。
S36、将拼接后的文本输入多层transformer,得到输出结果,即观点抽取答案文本(即图2中的观点抽取答案片段)。其中多层transformer采用了BERT的设计方案。
S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对,并通过观点规则处 理模版进行筛选,去掉错误的观点抽取答案文本,增强结果的鲁棒性,即获得所述事件观 点文本(即图2中的专家观点)。
进一步的,所述观点规则处理模板的筛选方法具体包括,对所述观点抽取答案文本通 过LTP进行语义依存分析,获得所述观点抽取答案文本的语义依存分析树;判断所述观点 抽取答案文本是否为陈述句;找到所述语义依存分析树的根节点,判断所述根节点的词性 是否为动词;找到根节点下的主语子节点和宾语子节点,判断主语子节点是否是专有名词 (如专家、机构、媒体等),判断宾语子节点是否连接一个子句;若上述判断中有一条不满足,则筛选掉该观点抽取答案文本。
通过结合传统基于规则的事件观点抽取和机器阅读理解模型,实现了基于阅读理解的 观点抽取模型,由于机器阅读理解模型阅读并理解整体事件的文本语义信息,因此,基于 阅读理解的观点抽取模型可以从事件整体角度定位观点的指向性评价对象、具体情感、具 体立场。
在获取所述事件观点文本后,需要基于所述情感预训练语言模型进行观点分析和立场 归纳,如图4所示,S40中,具体包括,
S41、使用所述情感预训练语言模型,并裁剪掉最后的softmax层,然后输入所述事件观点文本,得到中间层的向量输出,对embedding的文本编码,作为该输入文本的embedding向量。由于该情感预训练语言模型在训练过程中用于预测情感与立场标签,所以该模型的中间层可以通过注意力机制有效提取出句子中含有的情感和观点信息。
S42、将该输入文本的embedding向量输入TextCNN,并通过softmax层转换为多分类任务,进行句子特征提取和分类,其中,所述多分类任务包括情感分类和立场分类,分 类标签从所述领域情感观点知识库中获取。
S43、结合从所述事件观点文本中抽取观点主体信息,最后得到该输入文本中某一观 点主体发表观点的情感及立场,即获得待抽取事件文本中某一观点主体发表观点的情感和 立场。
本发明设计的基于阅读理解式观点抽取模型融合了基于规则的观点抽取模型和机器 阅读模型,机器阅读理解模型阅读事件的文本获取事件的整体语义信息,将具体的多个观 点抽取任务转换为阅读理解的具体实际问题,基于场景化事件的设计阅读理解模型,输出 事件文本中的答案片段,并进行处理作为具体抽取出来事件的观点,使得抽取的观点的情 感和立场能代表事件文本整体的情感立场信息,进而使得观点挖掘结果更加准确。
本发明在基于阅读理解的观点挖掘方法的基础上,还提供了一种基于阅读理解的观点 挖掘装置,包括:
处理器;
存储器,其存储有可执行指令;
其中,所述处理器被配置为执行所述可执行指令,以执行所述的基于阅读理解的观点 挖掘方法。
本技术方案基于与基于阅读理解的观点挖掘方法相同的发明构思得到,可参考方法部 分的描述。本技术方案的装置不限于pc、终端、服务器。比如此装置可以设置在服务器中, 间隔设定时间采集财务数据,并自动进行计算,给出挖掘结果。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运 用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地 实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限 于特定的细节和这里示出与描述的图例。

Claims (8)

1.基于阅读理解的观点挖掘方法,其特征在于,包括:
构建领域情感观点知识库,其内包含领域情感观点词,每个领域情感观点词对应一个情感分类标签和一个立场分类标签;
基于所述领域情感观点知识库和事件观点训练文本集,对预训练语言模型进行训练,获得情感预训练语言模型,所述情感预训练语言模型中嵌入有表示输入文本的情感和观点信息;
采用机器阅读理解模型并结合观点规则处理模板从待抽取事件文本中抽取事件观点文本,具体包括,
S31、获取所述待抽取事件文本;
S32、根据事件观点抽取问题模板匹配问题,获得问题文本;
S33、对所述待抽取事件文本和所述问题文本进行中文分词,并通过BERT的预训练向量进行embedding,得到所述待抽取事件文本和所述问题文本的语义空间向量表示;
S34、对中文分词后的每个单词进行分段位置嵌入;
S35、将embedding后的所述待抽取事件文本和所述问题文本使用BERT的通用特殊拼接符号[sep]进行拼接;
S36、将拼接后的文本输入多层transformer,获得观点抽取答案文本;
S37、将所述观点抽取答案文本与所述待抽取事件文本进行比对,并通过观点规则处理模板进行筛选,去掉错误的观点抽取答案文本,即获得所述事件观点文本;
将所述事件观点文本输入所述情感预训练语言模型中,并对其输出的内容进行编码、句子特征提取和分类,获得待抽取事件文本中观点的情感和立场。
2.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述领域情感观点知识库的构建方法,具体包括,
S11、收集领域语料,并对其进行分词,去重和去噪处理,获得领域情感语料库;
S12、在通用情感词典的基础上,对所述领域情感语料库中的领域情感观点词进行抽取、去重和分类,获得领域情感观点词本体,并对所述领域情感观点词本体进行扩充,生成所述领域情感观点知识库,其中,扩充方法包括同义词集扩充和互信息计算;
S13、计算所述领域情感观点知识库中收录的领域情感观点词和未收录的情感观点词之间的相似度,若相似度超过预设阈值,则将所述未收录的情感观点词作为对应的所述收录的领域情感观点词的别称进行收录,并更新所述领域情感观点知识库,否则,不进行收录。
3.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述预训练语言模型的训练方法,具体包括,
S21、获取所述领域情感观点知识库和所述事件观点训练文本集中的任一个事件观点训练文本;
S22、检测所述事件观点训练文本中的每个词是否在所述领域情感观点知识库内,若这个词在所述领域情感观点知识库内,则这个词被认为是领域情感观点词,将所述事件观点训练文本中的这个词Mask,即将该词替换为特殊字符[MASK],作为所述预训练语言模型的输入,并对所述预训练语言模型的输出结果进行评判;
S23、重复S21、S22,持续对所述预训练语言模型进行训练,使得所述预训练语言模型能够预测出输入文本中被Mask的信息,即获得所述情感预训练语言模型。
4.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,所述观点规则处理模板的筛选方法具体包括,对所述观点抽取答案文本通过LTP进行语义依存分析,获得所述观点抽取答案文本的语义依存分析树;判断所述观点抽取答案文本是否为陈述句;找到所述语义依存分析树的根节点,判断所述根节点的词性是否为动词;找到根节点下的主语子节点和宾语子节点,判断主语子节点是否是专有名词,判断宾语子节点是否连接一个子句;若上述判断中有一条不满足,则筛选掉该观点抽取答案文本。
5.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,在将所述事件观点文本输入所述情感预训练语言模型前,将所述情感预训练语言模型最后的softmax层裁剪掉,然后输入所述事件观点文本,得到中间层的向量输出。
6.如权利要求5所述的基于阅读理解的观点挖掘方法,其特征在于,将所述中间层的向量输出进行编码,再输入TextCNN,并通过softmax层转换为多分类任务,进行句子特征提取和分类,其中,所述多分类任务包括情感分类和立场分类,分类标签从所述领域情感观点知识库中获取。
7.如权利要求1所述的基于阅读理解的观点挖掘方法,其特征在于,还包括,从所述事件观点文本中抽取观点主体信息,获得待抽取事件文本中观点主体发表观点的情感和立场。
8.基于阅读理解的观点挖掘装置,其特征在于,包括:
处理器;
存储器,其存储有可执行指令;
其中,所述处理器被配置为执行所述可执行指令,以执行权利要求1~7任一所述的基于阅读理解的观点挖掘方法。
CN202110445975.5A 2021-04-25 2021-04-25 基于阅读理解的观点挖掘方法及装置 Active CN113312478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445975.5A CN113312478B (zh) 2021-04-25 2021-04-25 基于阅读理解的观点挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445975.5A CN113312478B (zh) 2021-04-25 2021-04-25 基于阅读理解的观点挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN113312478A CN113312478A (zh) 2021-08-27
CN113312478B true CN113312478B (zh) 2022-07-19

Family

ID=77372690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445975.5A Active CN113312478B (zh) 2021-04-25 2021-04-25 基于阅读理解的观点挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN113312478B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357204B (zh) * 2021-11-25 2024-03-26 腾讯科技(深圳)有限公司 媒体信息的处理方法及相关设备
CN114638195B (zh) * 2022-01-21 2022-11-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于多任务学习的立场检测方法
CN114970562A (zh) * 2022-06-23 2022-08-30 深圳Tcl新技术有限公司 语义理解方法、装置、介质及设备
CN116090450A (zh) * 2022-11-28 2023-05-09 荣耀终端有限公司 一种文本处理方法及计算设备
CN116720502B (zh) * 2023-06-20 2024-04-05 中国航空综合技术研究所 基于机器阅读理解与模板规则的航空文档信息抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227768A (zh) * 2016-07-15 2016-12-14 国家计算机网络与信息安全管理中心 一种基于互补语料的短文本观点挖掘方法
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN112069312A (zh) * 2020-08-12 2020-12-11 中国科学院信息工程研究所 一种基于实体识别的文本分类方法及电子装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558691B2 (en) * 2016-08-22 2020-02-11 International Business Machines Corporation Sentiment normalization based on current authors personality insight data points

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227768A (zh) * 2016-07-15 2016-12-14 国家计算机网络与信息安全管理中心 一种基于互补语料的短文本观点挖掘方法
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN112069312A (zh) * 2020-08-12 2020-12-11 中国科学院信息工程研究所 一种基于实体识别的文本分类方法及电子装置

Also Published As

Publication number Publication date
CN113312478A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113312478B (zh) 基于阅读理解的观点挖掘方法及装置
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111259987B (zh) 一种基于bert的多模型融合提取事件主体的方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111737975A (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN110414004B (zh) 一种核心信息提取的方法和系统
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN111221939A (zh) 评分方法、装置和电子设备
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110717332A (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN113168499A (zh) 检索专利文档的方法
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN111180025A (zh) 表示病历文本向量的方法、装置及问诊系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111815426B (zh) 一种涉及金融投研的数据处理方法及终端
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117520561A (zh) 直升机装配领域知识图谱构建的实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant