CN114818659A - 一种文本情感来源分析方法、系统及存储介质 - Google Patents

一种文本情感来源分析方法、系统及存储介质 Download PDF

Info

Publication number
CN114818659A
CN114818659A CN202210752436.0A CN202210752436A CN114818659A CN 114818659 A CN114818659 A CN 114818659A CN 202210752436 A CN202210752436 A CN 202210752436A CN 114818659 A CN114818659 A CN 114818659A
Authority
CN
China
Prior art keywords
emotion
sentence
text
level
chapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210752436.0A
Other languages
English (en)
Other versions
CN114818659B (zh
Inventor
马永亮
王少枫
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lanzhou Technology Co ltd
Original Assignee
Beijing Lanzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lanzhou Technology Co ltd filed Critical Beijing Lanzhou Technology Co ltd
Priority to CN202210752436.0A priority Critical patent/CN114818659B/zh
Publication of CN114818659A publication Critical patent/CN114818659A/zh
Application granted granted Critical
Publication of CN114818659B publication Critical patent/CN114818659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本分析技术领域,特别涉及一种文本情感来源分析方法,包括以下步骤:获取文本,分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到句子级情感指数;提取文本中每个句子的权重;获取历史文本的篇章级情感指数数据,基于句子的权重、句子级情感指数和历史篇章级情感指数数据计算得到该文本的篇章级情感指数;对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换前后的该句子的第一情感值和第二情感值,基于替换前后的第一情感值和第二情感值判断出该特定词的情感类别。对文本可同时完成词、句以及整篇文本的情感分析,词和句的情感分析结果也为整篇文本提供了可解释性。

Description

一种文本情感来源分析方法、系统及存储介质
技术领域
本发明涉及文本分析技术领域,其特别涉及一种文本情感来源分析方法、系统及存储介质。
背景技术
以往情感分析方案大多使用BiLSTM等非预训练模型,这需要更多的训练样本,且模型泛化性能较差,预训练模型由于带有更多的先验知识可以避免上述问题。
现有基于Bert预训练模型的情感分析方法,受Bert输入长度限制,只能分析短句的情感极性。在输入文本较长时,只能截取部分文字输入模型,导致信息丢失,往往效果欠佳。近年来研究者提出层次transformer的方案,在一定程度上解决了输入长度受限的问题,但该模型是一个黑盒系统,不具备实际应用需要的可解释性。
同时,为了提供可解释性,现有的情感关键词挖掘,依赖人工收集标注的情感词典,一方面这需要大量的人力,成本很高,另一方面,情感词典适用范围受限,一旦文本领域迁移,已标注或开源的词典会出现不能适用的情况。
发明内容
为了解决目前对于文本的情感分析不具备可解释性的问题,本发明提供一种文本情感来源分析方法、系统及存储介质。
本发明为解决上述技术问题,提供如下的技术方案:一种文本情感来源分析方法,包括以下步骤:
获取文本,分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到句子级情感指数;
提取文本中每个句子的权重;
获取历史文本的篇章级情感指数数据,基于句子的权重、句子级情感指数和历史篇章级情感指数数据计算得到该文本的篇章级情感指数;
对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换前后的该句子的第一情感值和第二情感值,基于替换前后的第一情感值和第二情感值判断出该特定词的情感类别;
基于特定词的情感类别分析出句子的情感来源以及基于句子级情感指数分析出文本的情感来源。
优选地,分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到第一句子级情感指数包括以下步骤:
基于预训练模型对句子进行分词处理,并对应各词生成对应的词嵌入表示;
对应句子的词嵌入表示进行加权求和生成对应的句子级向量表示。
优选地,在获得句子级向量表示之前还包括以下步骤:
获取带有人工标注情感标签的样本句子,对预训练模型进行预训练。
优选地,训练中采用交叉熵损失函数,优化目标为最小化
Figure 454765DEST_PATH_IMAGE001
,其中Llog(Y,P)为交叉熵,N为样本句子数,K为样本句子对应的情感类别,Y为真实标签,P为模型预测概率分布。
优选地,提取文本中每个句子的权重的具体步骤为:
基于层次transformer模型,提供已标注篇章情感得分的样本文本对层次transformer模型进行预训练;
通过其中的第二层transformer模型提取文本中每个句子的权重。
优选地,在提取文本中每个句子的权重之前还包括以下步骤:训练时采用MAE损失函数,优化目标为最小化
Figure 474674DEST_PATH_IMAGE002
,其中N为个样本文本数,y为真实篇章打分,x为样本,h(x)表示模型对样本的预测打分。
优选地,所述历史文本的篇章级情感指数数据包括历史篇章级情感指数的平均值以及标准差,基于句子的权重、第一句子级情感指数和历史篇章级情感指数数据计算得到篇章级情感指数的计算公式为:
Figure 618211DEST_PATH_IMAGE003
,其中α为提取的文本中句子的权重,Score_sentence为句子级情感指数,μ和σ分别为历史篇章级情感指数的平均值和标准差,Scoredocument是当前文本的篇章级情感指数。
优选地,对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子包括以下步骤:
获取句子中每个词的注意力权重;
将注意力权重大于预设阈值的词作为重点关注词;
对重点关注词中的其中至少一个词进行掩码替换得到掩码替换后的句子;
重复上一步骤直至分别针对每个重点关注词都进行掩码替换得到掩码替换后的句子。
本发明为解决上述技术问题,提供又一技术方案如下:一种文本多粒度可解释的情感分析系统,用于实现前述的一种文本情感来源分析方法,包括以下模块:
句子级情感指数生成模块:用于分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到第一句子级情感指数;
权重生成模块:用于提取文本中每个句子的权重;
篇章级情感指数生成模块:用于获取历史文本的篇章级情感指数数据,基于句子的权重、第一句子级情感指数和历史篇章级情感指数数据计算得到该文本的篇章级情感指数;
情感词挖掘模块:用于对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换前后的该句子的第一情感值和第二情感值,基于替换前后的第一情感值和第二情感值判断出该特定词的情感类别;
情感溯源模块:用于基于特定词的情感类别分析出句子的情感来源以及基于句子级情感指数分析出文本的情感来源。
本发明为解决上述技术问题,提供又一技术方案如下:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的一种文本情感来源分析方法。
与现有技术相比,本发明所提供的一种文本情感来源分析方法、系统及存储介质,具有如下的有益效果:
1.本发明实施例提供的一种文本情感来源分析方法,通过先对文本中的句子进行情感打分,之后对每个句子提取权重,表示句子在该文本中的重要程度,同时也体现出句子间重要性的不同,使得篇章级情感打分更为科学,同时句子级情感指数为整篇文本提供了可解释性,读者由此可知整篇文本中的情感类别来源;还通过掩码替换的方式提取情感关键词,通过掩码将该词替换掉,替换掉也表示将句中的这个词删掉,进一步观察比较替换前后模型输出的情感值的变化,变化越大,说明该词对模型的情感判断影响越大,从而通过该方法可自动将文本中的情感词提取出来,无需人为提取情感词,节省大量的人力资源,同时也提供的词级别的可解释性。
2.本发明实施例提供的一种文本情感来源分析方法,采用Bert预训练模型分析句子的句子级情感指数,通过采用带有人工标注情感标签的样本句子对预训练模型进行训练,大大提高了预训练模型生成句子级情感指数的精确度。
3.本发明实施例提供的一种文本情感来源分析方法,采用层次transformer模型提取句子的权重,其中采用层次transformer模型在一定程度上解决了输入的文本长度受限的问题,针对长文本也可进行分析,再通过对层次transformer模型进行预训练,大大提高了模型的精准性与合理性。
4.本发明实施例提供的一种文本情感来源分析方法,计算篇章级情感指数时还利用到历史篇章级情感指数的数据,通过该公式对篇章级情感指数进行归一化处理,使得最终的结果也归入到提前设定的范围内,以便于进行情感类别分析。
5.本发明实施例还提供一种文本多粒度可解释的情感分析系统,具有与上述一种文本情感来源分析方法相同的有益效果,在此不做赘述。
6.本发明实施例还提供一种计算机存储介质,具有与上述一种文本情感来源分析方法相同的有益效果,在此不做赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种文本情感来源分析方法的步骤流程图。
图2是本发明第一实施例提供的一种文本情感来源分析方法之步骤S1的步骤流程图。
图3是本发明第一实施例提供的一种文本情感来源分析方法之步骤S10的步骤流程图。
图4是本发明第一实施例提供的一种文本情感来源分析方法之步骤S2的步骤流程图。
图5是本发明第一实施例提供的一种文本情感来源分析方法之步骤S4的步骤流程图。
图6本发明第二实施例提供的一种文本多粒度可解释的情感分析系统的框图。
附图标识说明:
1、文本多粒度可解释的情感分析系统;
10、句子级情感指数生成模块;20、权重生成模块;30、篇章级情感指数生成模块;40、情感词挖掘模块;50、情感溯源模块。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种文本情感来源分析方法,包括以下步骤:
S1:获取文本,分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到第一句子级情感指数;
S2:提取文本中每个句子的权重;
S3:获取历史文本的篇章级情感指数数据,基于句子的权重、第一句子级情感指数和历史篇章级情感指数数据计算得到篇章级情感指数;
S4:对句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换后的该句子的第二句子级情感指数,基于替换前后的第一句子级情感指数和第二句子级情感指数判断出该特定词的情感类别。
S5:基于句子级情感指数以及特定词的情感类别分析出文本的情感来源。
其中的文本至少包括一个句子,在步骤S1中采用预训练模型获得句子级向量表示,分别将文本的每个句子输入至预训练模型中得到每个句子的句子级情感指数。
需要说明的是,情感指数代表的是情感的分类,一般将情感分为三类,包括积极、中性和消极三类情感,具体的,在本实施例中,情感指数最终用数字表示,一般都在区间[-1,1]之间,当分数为正值时代表积极,当分数为负值时代表消极,0代表中性,而根据最终表示的数字的大小可以判断其情感的程度,越靠近1则表示越积极,越靠近-1则表示越消极,其中获得句子级情感指数也可以理解为对句子的情感进行打分。
需要说明的是,步骤S2采用另一个预训练模型,采用层次transformer模型,将文本输入至该层次transformer模型中提取每个句子的权重和生成文本的篇章级向量表示;其中的权重也是每个句子的注意力权重,也表示句子在该文本中的占比,同时也反映出这个句子在整个文本中的重要程度;
需要说明的是,步骤S4也通过Bert预训练模型进行,先对句子进行分词处理,以方便后续分析各个词的情感类别,其中每次仅针对句子中的一个词进行掩码操作,这样能够更为直观的反映出该词对于判断句子级情感指数的影响,掩码操作也可理解为将该词通过掩码标记“[MASK]”将该词替换掉,通过获取掩码替换前后的情感值来判断出该词的情感类别;其中的情感值也就是句子级情感指数,不过前面步骤S1获取的句子级情感指数只用于在步骤S3中计算得到篇章级情感指数,而步骤S4中重新获取掩码替换前后的句子的情感值则用于判断与挖掘情感关键词,相当于步骤S4是可以单独执行的一个步骤。
在步骤S4中,特定词也可以是任意一个词,且步骤S4可重复进行,以分析出句子中的每个词的情感类别,分析出每个词对于获得该句子的句子级情感指数的影响,进而达到提供可解释性的目的。
通过先对文本中的句子进行情感打分,之后对每个句子提取权重,表示句子在该文本中的重要程度,同时也体现出句子间重要性的不同,使得篇章级情感打分更为科学,同时句子级情感指数为整篇文本提供了可解释性,读者由此可知整篇文本中的情感类别来源;还通过掩码替换的方式提取情感关键词,通过掩码将该词替换掉,替换掉也表示将句中的这个词删掉,进一步观察比较替换前后模型输出的句子级情感指数的变化,变化越大,说明该词对模型的情感判断影响越大,从而通过该方法可自动将文本中的情感词提取出来,无需人为提取情感词,节省大量的人力资源,同时也提供的词级别的可解释性。
在一具体实施例中,通过替换前后的句子级情感指数计算出情感波动值,通过情感波动值的正负判断出该词的情感类别。
具体的,步骤S1中分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到句子级情感指数包括以下步骤:
S11:基于预训练模型对句子进行分词处理,并对应各词生成对应的词嵌入表示;
S12:对应句子的词嵌入表示进行加权求和生成对应的句子级向量表示。
可以理解地,采用Bert预训练模型得到句子级情感指数,词嵌入表示也即生成的与词对应的词向量表示,每个词都有一个对应的词向量表示,由于在此模型中每个词的权重是相等的,因此步骤S12中的加权求和可以理解为将句子中的每个词的向量表示相加求和再去其平均数,即可得到句子级向量表示,也即是该句子的向量表示。
请参阅图3,在获得句子级向量表示之前还包括以下步骤:
S10:获取带有人工标注情感标签的样本句子,对预训练模型进行预训练。
需要说明的是,带有人工标注情感标签也就是人为判断出句子的情感类型,或者也可以采用其他已经被标注情感标签的句子作为训练时的样本句子,一般使用多条样本句子构成一个训练的样本句子集合,对预训练模型的参数进行微调,微调的过程中使用较小的学习率对模型进行训练,进行小幅度的更新模型参数,预训练模型的参数经过微调后,输出的结果也更加符合实际情况。
具体地,预训练模型在训练中采用交叉熵损失函数,优化目标为最小化
Figure 407175DEST_PATH_IMAGE001
,其中Llog(Y,P)为交叉熵,N为样本句子数,K为样本句子对应的情感类别,Y为真实标签,P为模型预测概率分布。
请参阅图4,进一步地,步骤S2“提取文本中每个句子的权重”的具体步骤为:
S21:基于层次transformer模型,提供已标注篇章情感得分的样本文本对层次transformer模型进行预训练;
S22:通过其中的第二层transformer模型提取文本中每个句子的权重。
需要说明的是,在步骤S21中可直接将整个文本输入至transformer模型中,通过其中的第一层transformer模型将提取出每个句子的句子级别表示向量,由于层次ransformer模型与Bert预训练模型之间的参数有所区别,这里获得的句子级表示向量与前述Bert预训练模型获得的句子级别表示向量也有所区别,第二层transformer模型提取的权重也即是每个句子的注意力权重,同样表示的是每个句子在该文本中的占比和重要程度,其中第二层transformer模型通过权重和第一层transformer模型得到的句子级表示向量进行加权融合,得到整个文本的篇章级向量表示,该篇章级表示向量也作为之后获得篇章级情感指数的一个输入。
需要说明的是,步骤S22提取的句子的权重是表示的句子的注意力权重,表示的句子在整体文本中的重要程度,这个注意力权重也作为获得篇章级情感指数的一个重要参数。
同样的,在使用层次transformer模型之前需要先进行预训练,训练采用已经标注好篇章情感得分的样本,也即已经获得篇章级情感指数的文本集。
具体地,对层次transformer模型进行训练时采用MAE损失函数,优化目标为最小化
Figure 243544DEST_PATH_IMAGE002
,其中N为个样本文本数,y为真实篇章打分,也即已经标注好的文本的篇章情感得分,x为样本,h(x)表示模型对样本x的预测打分,也即预测的篇章级情感指数。
进一步地,所述历史文本篇章级情感指数数据包括历史所有文本的篇章级情感指数,历史文本的篇章级情感指数的平均值以及标准差,其中平均值以及标准差都可根据历史所有文本的篇章级情感指数计算获得。
具体地,基于句子的权重、句子级情感指数和历史篇章级情感指数数据计算得到篇章级情感指数的计算公式为:
Figure 16328DEST_PATH_IMAGE004
,其中α为提取的文本中句子的权重,Score_sentence为句子级情感指数,μ和σ分别为历史篇章级情感指数的平均值和标准差,Scoredocument是当前文本的篇章级情感指数。
需要说明的是,最终计算文本的篇章级情感指数时利用了Bert模型得到的句子级情感指数以及层次transformer模型提取出的文本中的每个句子的权重,因此句子级情感指数也为该文本的情感提供了可解释性,使用者可根据句子级情感指数来得知影响整个文本的情感类型的来源,同时通过提取句子的权重,使得句子之间对于整个文本的重要程度的不同被体现了出来,使得最终获得篇章级情感指数更为精准与科学。
同时,本发明实施例还可自动挖掘出文本中的情感词,同样是利用模型的注意力权重和掩码的方式来挖掘出关键词,根据判断出的词的情感类型,也为文本提供了词级别的可解释性,可根据挖掘的关键情感词来得知对整个文本的情感指数影响的是哪些词。
请参阅图5,步骤S4中“对其中的一个词进行掩码替换得到掩码替换后的句子”包括以下步骤:
S41:获取句子中每个词的注意力权重;
S42:将注意力权重大于预设阈值的词作为重点关注词;
S43:对重点关注词中的其中至少一个词进行掩码替换得到掩码替换后的句子;
S44:重复上一步骤直至分别针对每个重点关注词都进行掩码替换得到掩码替换后的句子。
需要说明的是,将句子输入该预训练模型中,通过模型的注意力权重,观察模型在输出时倾向于关注哪些输入词,词的注意力权重越大,说明对应位置的词对输出结果的影响越大,再通过掩码操作,对注意力权重大于预设阈值的词进行掩码,其中的预设阈值可根据具体实际情况进行确定。
通过对句子中的词进行一个初步筛选,使一部分不重要的词不进行掩码操作,降低系统的计算复杂度的同时,还提升情感词的可信度。
需要说明的是,每次仅对重点关注词中的一个词进行掩码替换获得掩码替换后的句子,这样以更好的判断出单个词对于判断整个句子情感的影响程度;可重复进行直至对于每个重点关注词都获取一个掩码替换后的句子,分析出每个词对于该句子情感的影响。
为便于理解,示例性的如下:
提供篇章文本如下(共有3个句子):
研报质量控制和合规审查不到位中信建投证券被责令整改!
11月30日,北京证监局发布相关监管措施决定书称中信建投证券因研报质量控制和合规审查不到位被责令整改。
决定书称,中信建投证券发布的某研究报告存在以下问题:一是研究依据不充分,研究报告参考资料为电子平台个人账户上传文章,未进行规范信息源确认,关键数据交叉验证不足,数据基础不扎实;二是研究方法不够专业谨慎,分析逻辑客观性不足,以预测数据和假设条件主观推定结论。
第一步获得句子级情感指数,将三个句子分别输入Bert预训练模型,分别得到三个句子级情感指数:-0.998,-0.79,-0.83。第二步将文本输入层次transformer模型,提取第二层transformer模型对应三个句子的权重,分别为0.46,0.33,0.21。统计出历史上篇章级情感指数的平均值为-0.11,标准差为0.7,使用篇章级计算公式计算出该篇文档的篇章级情感指数为-1.12。
第三步情感词挖掘,以句子“研报质量控制和合规审查不到位中信建投证券被责令整改!”为例。我们设置判断的阈值为0.5(也即步骤S4中提到的预设阈值)。当我们分析词语“研报”时,先将句子通过Bert预训练模型,提取“研报”对应注意力权重的平均值,发现为0.2,小于阈值,不满足情感关键词条件,当我们分析词语“整改”时,将句子通过模型后提取的注意力权重平均值为0.8,大于阈值,记录此时模型的输出的句子级情感指数为-0.998。将“整改”用掩码标记“[MASK]”替换,即获得以下句子并输入Bert预训练模型:“研报质量控制和合规审查不到位中信建投证券被责令[MASK]!”,记录此时模型输出的句子级情感指数为-0.34,计算情感值波动为0.658,大于判断阈值,且为正数,说明去掉“整改”这个词句子情感向正向移动,词本身带有消极情感,则判定这个词的情感类型为消极。
请参阅图6,本发明第二实施例还提供一种文本多粒度可解释的情感分析系统1,用于实现前述的一种文本情感来源分析方法,包括以下模块:
句子级情感指数生成模块10:用于分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到第一句子级情感指数;
权重生成模块20:用于提取文本中每个句子的权重;
篇章级情感指数生成模块30:用于获取历史文本的篇章级情感指数数据,基于句子的权重、第一句子级情感指数和历史篇章级情感指数数据计算得到该文本的篇章级情感指数;
情感词挖掘模块40:用于对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换前后的该句子的第一情感值和第二情感值,基于替换前后的第一情感值和第二情感值判断出该特定词的情感类别;
情感溯源模块50:用于基于特定词的情感类别分析出句子的情感来源以及基于句子级情感指数分析出文本的情感来源。
本发明第三实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现前述的一种文本情感来源分析方法。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明所提供给的一种文本情感来源分析方法、系统及存储介质具有如下的有益效果:
1.本发明实施例提供的一种文本情感来源分析方法,通过先对文本中的句子进行情感打分,之后对每个句子提取权重,表示句子在该文本中的重要程度,同时也体现出句子间重要性的不同,使得篇章级情感打分更为科学,同时句子级情感指数为整篇文本提供了可解释性,读者由此可知整篇文本中的情感类别来源;还通过掩码替换的方式提取情感关键词,通过掩码将该词替换掉,替换掉也表示将句中的这个词删掉,进一步观察比较替换前后模型输出的情感值的变化,变化越大,说明该词对模型的情感判断影响越大,从而通过该方法可自动将文本中的情感词提取出来,无需人为提取情感词,节省大量的人力资源,同时也提供的词级别的可解释性。
2.本发明实施例提供的一种文本情感来源分析方法,采用Bert预训练模型分析句子的句子级情感指数,通过采用带有人工标注情感标签的样本句子对预训练模型进行训练,大大提高了预训练模型生成句子级情感指数的精确度。
3.本发明实施例提供的一种文本情感来源分析方法,采用层次transformer模型提取句子的权重,其中采用层次transformer模型在一定程度上解决了输入的文本长度受限的问题,针对长文本也可进行分析,再通过对层次transformer模型进行预训练,大大提高了模型的精准性与合理性。
4.本发明实施例提供的一种文本情感来源分析方法,计算篇章级情感指数时还利用到历史篇章级情感指数的数据,通过该公式对篇章级情感指数进行归一化处理,使得最终的结果也归入到提前设定的范围内,以便于进行情感类别分析。
5.本发明实施例还提供一种文本多粒度可解释的情感分析系统,具有与上述一种文本情感来源分析方法相同的有益效果,在此不做赘述。
6.本发明实施例还提供一种计算机存储介质,具有与上述一种文本情感来源分析方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种文本情感来源分析方法、系统及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (10)

1.一种文本情感来源分析方法,其特征在于:包括以下步骤:
获取文本,分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到句子级情感指数;
提取文本中每个句子的权重;
获取历史文本的篇章级情感指数数据,基于句子的权重、句子级情感指数和历史篇章级情感指数数据计算得到该文本的篇章级情感指数;
对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换前后的该句子的第一情感值和第二情感值,基于替换前后的第一情感值和第二情感值判断出该特定词的情感类别;
基于特定词的情感类别分析出句子的情感来源以及基于句子级情感指数分析出文本的情感来源。
2.如权利要求1所述的一种文本情感来源分析方法,其特征在于:分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到第一句子级情感指数包括以下步骤:
基于预训练模型对句子进行分词处理,并对应各词生成对应的词嵌入表示;
对应句子的词嵌入表示进行加权求和生成对应的句子级向量表示。
3.如权利要求2所述的一种文本情感来源分析方法,其特征在于:在获得句子级向量表示之前还包括以下步骤:
获取带有人工标注情感标签的样本句子,对预训练模型进行预训练。
4.如权利要求3所述的一种文本情感来源分析方法,其特征在于:训练中采用交叉熵损失函数,优化目标为最小化
Figure 866007DEST_PATH_IMAGE001
,其中Llog(Y,P)为交叉熵,N为样本句子数,K为样本句子对应的情感类别,Y为真实标签,P为模型预测概率分布。
5.如权利要求1所述的一种文本情感来源分析方法,其特征在于:提取文本中每个句子的权重的具体步骤为:
基于层次transformer模型,提供已标注篇章情感得分的样本文本对层次transformer模型进行预训练;
通过其中的第二层transformer模型提取文本中每个句子的权重。
6.如权利要求5所述的一种文本情感来源分析方法,其特征在于:在提取文本中每个句子的权重之前还包括以下步骤:训练时采用MAE损失函数,优化目标为最小化
Figure 330487DEST_PATH_IMAGE002
,其中N为个样本文本数,y为真实篇章打分,x为样本,h(x)表示模型对样本的预测打分。
7.如权利要求1所述的一种文本情感来源分析方法,其特征在于:所述历史文本的篇章级情感指数数据包括历史篇章级情感指数的平均值以及标准差,基于句子的权重、句子级情感指数和历史篇章级情感指数数据计算得到篇章级情感指数的计算公式为:
Figure 402960DEST_PATH_IMAGE003
,其中α为提取的文本中句子的权重,Score_sentence为句子级情感指数,μ和σ分别为历史篇章级情感指数的平均值和标准差,Scoredocumen是当前文本的篇章级情感指数。
8.如权利要求1所述的一种文本情感来源分析方法,其特征在于:对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子包括以下步骤:
获取句子中每个词的注意力权重;
将注意力权重大于预设阈值的词作为重点关注词;
对重点关注词中的其中至少一个词进行掩码替换得到掩码替换后的句子;
重复上一步骤直至分别针对每个重点关注词都进行掩码替换得到掩码替换后的句子。
9.一种文本情感来源分析系统,用于实现如权利要求1-8任一项所述的一种文本情感来源分析方法,其特征在于:包括以下模块:
句子级情感指数生成模块:用于分别对文本中的每个句子进行处理获得句子级向量表示,并通过神经网络结构得到句子级情感指数;
权重生成模块:用于提取文本中每个句子的权重;
篇章级情感指数生成模块:用于获取历史文本的篇章级情感指数数据,基于句子的权重、句子级情感指数和历史篇章级情感指数数据计算得到该文本的篇章级情感指数;
情感词挖掘模块:用于对每个句子进行分词处理,对其中的特定词进行掩码替换得到掩码替换后的句子,并获取掩码替换前后的该句子的第一情感值和第二情感值,基于替换前后的第一情感值和第二情感值判断出该特定词的情感类别;
情感溯源模块:用于基于特定词的情感类别分析出句子的情感来源以及基于句子级情感指数分析出文本的情感来源。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-8任一项所述的一种文本情感来源分析方法。
CN202210752436.0A 2022-06-29 2022-06-29 一种文本情感来源分析方法、系统及存储介质 Active CN114818659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210752436.0A CN114818659B (zh) 2022-06-29 2022-06-29 一种文本情感来源分析方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210752436.0A CN114818659B (zh) 2022-06-29 2022-06-29 一种文本情感来源分析方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN114818659A true CN114818659A (zh) 2022-07-29
CN114818659B CN114818659B (zh) 2022-09-23

Family

ID=82523183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210752436.0A Active CN114818659B (zh) 2022-06-29 2022-06-29 一种文本情感来源分析方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN114818659B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543242A (zh) * 2019-07-25 2019-12-06 北京智慧章鱼科技有限公司 基于bert技术的表情输入法及其装置
CN110543561A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 对文本进行情感分析的方法及装置
CN111858898A (zh) * 2020-07-30 2020-10-30 中国科学院自动化研究所 基于人工智能的文本处理方法、装置及电子设备
CN112417868A (zh) * 2020-12-09 2021-02-26 浙江大学 一种基于情绪分数和主题模型的区块链新闻可视化方法
CN113065331A (zh) * 2021-04-15 2021-07-02 上海金融期货信息技术有限公司 基于实体上下文判别的实体情感识别方法和系统
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113688620A (zh) * 2021-08-26 2021-11-23 北京阅神智能科技有限公司 文章情感分析方法和装置
CN113761907A (zh) * 2020-11-19 2021-12-07 北京京东尚科信息技术有限公司 一种文本情感分类方法和装置
WO2022057712A1 (zh) * 2020-09-15 2022-03-24 华为技术有限公司 电子设备及其语义解析方法、介质和人机对话系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543242A (zh) * 2019-07-25 2019-12-06 北京智慧章鱼科技有限公司 基于bert技术的表情输入法及其装置
CN110543561A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 对文本进行情感分析的方法及装置
CN111858898A (zh) * 2020-07-30 2020-10-30 中国科学院自动化研究所 基于人工智能的文本处理方法、装置及电子设备
WO2022057712A1 (zh) * 2020-09-15 2022-03-24 华为技术有限公司 电子设备及其语义解析方法、介质和人机对话系统
CN113761907A (zh) * 2020-11-19 2021-12-07 北京京东尚科信息技术有限公司 一种文本情感分类方法和装置
CN112417868A (zh) * 2020-12-09 2021-02-26 浙江大学 一种基于情绪分数和主题模型的区块链新闻可视化方法
CN113065331A (zh) * 2021-04-15 2021-07-02 上海金融期货信息技术有限公司 基于实体上下文判别的实体情感识别方法和系统
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113688620A (zh) * 2021-08-26 2021-11-23 北京阅神智能科技有限公司 文章情感分析方法和装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JUAN VAZQUEZ-RODRIGUEZ等: "T RANSFORMER -B ASED S ELF -S UPERVISED L EARNING FOR E MOTION R ECOGNITION", 《ARXIV》 *
SAYYIDA TABINDA KOKAB等: "Transformer-baseddeeplearningmodelsforthesentimentanalysisofsocial media data", 《ARRAY 14 (2022) 100157》 *
YMCUI: "中⽂BERT-wwm系列模型", 《GITHUB》 *
曾碧卿等: "层次化双注意⼒神经⽹络模型的情感分析研究", 《智能系统学报》 *
李爱萍等: "基于句子情感加权算法的篇章情感分析", 《小型微型计算机系统》 *
霍帅等: "基于 Transformer 和多通道卷积神经网络的情感分析研究", 《计算机科学》 *

Also Published As

Publication number Publication date
CN114818659B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN111221939B (zh) 评分方法、装置和电子设备
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN114743020B (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN115687626A (zh) 一种基于提示学习融合关键词的法律文书分类方法
CN113987183A (zh) 一种基于数据驱动的电网故障处置预案辅助决策方法
CN112270187A (zh) 一种基于bert-lstm的谣言检测模型
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN112434514A (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN114582448A (zh) 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN117592563A (zh) 一种领域知识增强的电力大模型训调方法
CN117312562A (zh) 内容审核模型的训练方法、装置、设备及存储介质
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
CN114818659B (zh) 一种文本情感来源分析方法、系统及存储介质
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant