CN116362237A - 一种混合策略感知的文本情感强度标注方法及系统 - Google Patents

一种混合策略感知的文本情感强度标注方法及系统 Download PDF

Info

Publication number
CN116362237A
CN116362237A CN202310406999.9A CN202310406999A CN116362237A CN 116362237 A CN116362237 A CN 116362237A CN 202310406999 A CN202310406999 A CN 202310406999A CN 116362237 A CN116362237 A CN 116362237A
Authority
CN
China
Prior art keywords
labeling
emotion
emotion intensity
rule
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310406999.9A
Other languages
English (en)
Other versions
CN116362237B (zh
Inventor
许璧麒
马志强
周钰童
贾文超
王春喻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202310406999.9A priority Critical patent/CN116362237B/zh
Publication of CN116362237A publication Critical patent/CN116362237A/zh
Application granted granted Critical
Publication of CN116362237B publication Critical patent/CN116362237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种混合策略感知的文本情感强度标注方法及系统,属于自然语言处理技术领域,首先预训练情感标注模型为待标注文本进行自动预标注,然后利用情感词典和规则构建了多规则投票机制对该文本进行情感强度投票决策,最后在训练过程中利用决策机制来动态调整预训练的情感标注模型,从而提升其情感强度标注能力。该方法平衡了人工标注的低时效高质量和自动标注高时效低质量的问题,能够较为准确的实现文本情感强度标注。实验结果表明,本发明在文本情感强度标注任务上具有良好表现,验证了本发明的有效性。

Description

一种混合策略感知的文本情感强度标注方法及系统
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及一种混合策略感知的文本情感强度标注方法及系统。
背景技术
情感强度是情感的细腻化表达,在情感交互中扮演着重要角色。因此,国际计算语言学会在2007年提出了文本情感强度计算的评测任务,引起了研究者的广泛关注。情感强度作为情感的一个关键属性,细粒度的有标注情感强度文本语料在情感生成、情感对话和情感分析等方面有着重要意义。因此探索一种高效的自动文本情感强度标注方法成为了研究热点。
文本情感强度标注旨在对文本类型数据的情感强度值标注。受限于情感强度的主观性和复杂性,现有的工作通常以人工众包或有监督的方式来完成。人工标注的方式能获得较高的标注质量但效率低下。有监督的方式往往通过训练情感强度分类模型来实现,针对大量无标注数据时有较高的标注效率。但这种计算机生成的标注和人工标注之间存在较大差距,如何缓解二者之间的矛盾是需要考虑的一个问题。
因此,提出一种混合策略感知的文本情感强度标注方法及系统,平衡自动标注方法和人工规则标注方法的数据标注质量及工作复杂度,获取高质量情感强度标注数据,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种混合策略感知的文本情感强度标注方法及系统,能够在开放域文本上进行可靠情感强度标注,提高情感强度标注模型的可靠性和准确性。
为了实现上述目的,本发明采用如下技术方案:
一方面,本发明公开一种混合策略感知的文本情感强度标注方法,包括以下步骤:
构建混合策略感知标注机制,分别利用自动标注模型和多规则投票机制对文字序列X进行情感强度预标注,生成第一情感强度标签I’和第二情感强度标签I*
通过融合决策机制对所述第一情感强度标签I’和第二情感强度标签I*进行决策,获得所述文字序列X的最佳情感强度标签I;
基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;
将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
优选的,所述多规则投票机制为:
构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果;
采用情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I*
优选的,构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果,包括:
(1)确定标注规则数量K,并定义转折词权值;
(2)依据K值和情感词典中的程度副词层级为程度词赋初始值;当所述文字序列X中某程度词前有转折词时,则该程度词的权值为初始值与所述转折词权值之积;
(3)当所述标注规则数量K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长;迭代后的权值大于1.0时仍视为1.0;
(4)获取所述文字序列X中所有程度词权值之和的绝对值,作为当前规则下对所述文字序列X标注的情感强度值;
(5)获取不同规则下对所述文字序列X标注的情感强度值,得到多规则标注结果。
优选的,所述情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I*,包括:
计算不同规则下对所述文字序列X标注的情感强度值的标注和;
获取所述标注和的平均值;
对所述平均值向下取整,得到第二情感强度标签I*
优选的,所述融合决策机制通过计算所述第一情感强度标签I’和第二情感强度标签I*的置信度决策出最佳情感强度标签I;
选取置信度最大的情感强度标签作为最佳情感强度标签I。
优选的,基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型,包括:
根据所述最小化交叉熵损失函数更新所述自动标注模型的模型参数,得到优化情感标注模型;
所述最小交叉熵损失函数如下所示:
Figure BDA0004181775000000031
N为语句的数量,k为N句话中随机一句话;Lk为语句k的损失值;pkI为对于语句k属于最佳情感强度I的预测概率,通过情感标注模型得到;ykI为指示变量,若最佳情感强度标签I和语句k的标签情感强度Ik相同则为1,否则为0,公式如下:
Figure BDA0004181775000000041
式中,所述语句k的标签情感强度Ik由所述自动标注模型输出。
另一方面,本发明还公开一种混合策略感知的文本情感强度标注系统,用于实现上述混合策略感知的文本情感强度标注方法,包括:
自动标注模块,用于利用自动标注模型对文字序列X进行情感强度预标注,生成第一情感强度标签I’;
多规则投票标注模块,用于根据多规则投票机制对文字序列X进行情感强度预标注,生成第二情感强度标签I*
融合决策模块,用于对所述第一情感强度标签I’和第二情感强度标签I*进行决策,获得所述文字序列X的最佳情感强度标签I;
模型优化模块,用于基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;
情感强度标注模块,用于将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种混合策略感知的文本情感强度标注方法及系统,首先预训练情感标注模型为待标注文本进行自动预标注,然后利用情感词典和规则构建了多规则投票机制对该文本进行情感强度投票决策,最后在训练过程中利用决策机制来动态调整预训练的情感标注模型,从而提升其情感强度标注能力。该方法平衡了人工标注的低时效高质量和自动标注高时效低质量的问题,能够较为准确的实现文本情感强度标注。实验结果表明,本发明提出的混合策略感知的文本情感强度标注(MSA-EILF)方法及系统在文本情感强度标注任务上具有良好表现,验证了本发明方法的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种混合策略感知的文本情感强度标注方法流程图;
图2为本发明实施例提供的程度词权值变化图;
图3(a)为不同情感强度标注模型损失值示意图,图3(b)为不同情感强度标注模型准确率示意图;
图4为本发明实施例提供的不同K值对情感标注准确性的影响示意图;
图5为本发明实施例提供的EIL-BERT模型的情感强度分类准确率示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一方面,本发明实施例公开了一种混合策略感知的文本情感强度标注方法,针对文本情感强度标注问题开展研究,文本情感强度标注任务为:给定文本序列X=x1,x2,…,xi,…,xn,其中,xi表示序列中第i个词,n为词序列长度。利用预训练的自动标注模型得到第一情感强度标签I’,为了提高情感强度标注的准确率,利用多规则投票方法得到另一文本情感强度标签I*,最后在二者中决策出最佳情感强度标签I。
在情感强度标注任务中,情感强度标签I∈{0,1,2,3,4,5}。其中0=无,1=弱,2=较弱,3=中等,4=较强,5=强。目标为寻找输入文本最佳的情感强度标签I。
情感强度标注任务需要确保标注的情感强度具有可靠性,因此,本发明借鉴集成学习中组合多个弱监督模型以期得到一个更好更全面的强监督模型思想,引入了混合标注方式,把标注机制分为自动标注和多规则标注。首先通过自动标注模型为待标注数据预标注为带有情感强度标签的数据。同时,基于情感词典设计了一套多规则标注机制为待标注数据在不同规则下生成不同的情感强度标签。之后,通过投票算法生成规则标注的情感强度标签。标注机制生成的多个标签需要通过某种决策方法为待标注数据决策最佳情感强度。
如图1所示,原始标注话语sentencei(或X)在混合策略感知标注机制下由自动标注模型预标注了情感强度标签I’,多规则机制为其预标注了I*。通过融合决策机制对I’和I*进行决策,得到sentencei最终的情感强度标签I。最后,把I作为可靠标签,使用最小化交叉熵损失优化自动标注模型,提高其标注性能。具体流程步骤如下:
1.构建混合策略感知标注机制,分别利用自动标注模型和多规则投票机制对文字序列X进行情感强度预标注,生成第一情感强度标签I’和第二情感强度标签I*
混合策略感知情感强度标注
针对文本情感强度标注任务,本发明提出一种混合策略感知情感强度标注方法。通过自动标注和多规则标注相结合的方法,能够有效对无标注文本进行情感强度标注。
1.1自动标注策略
为能够有效的挖掘语句文本信息,进而提高情感强度标注的性能,本发明设计了自动标注模块用于为待标注语句X=x1,x2,…,xn进行情感强度预标注。通过该模块能够为X生成第一情感强度标签I’。特别地,方法中的自动标注模型并不具体指定情感标注模型,允许通过选用不同的情感强度标注模型完成预标注工作。
1.2多规则标注策略
自动情感强度标注方法能够在挖掘语义特征的条件下快速对待标注语句进行标注,但不可避免的是,因训练数据不足导致的自动标注模型性能低下,进而引起其自动标注的数据不可靠。因此,本发明采用引入多规则标注方法来弥补自动标注的不足,二者共同构成混合策略感知标注方法。
本实施例的多规则标注方法使用知网的HowNet情感词典,其中情感词典包括:评价、情感、主张、程度等情感文本。其中程度副词219个、正面评价词3156个、正面情感836、负面评价词3116个、负面情感词1254个和主张词语36个作为多规则标注的基础情感词典。多规则R详细构造流程如下所示:
(1)根据需求,确定标注规则数量K,并定义转折词权值为-1。
(2)依据K值和HowNet词典中的程度副词层级为程度词赋初始值。其中初值范围为[0,1]。如文本序列X中某程度词前有转折词,则该程度词的权值为二者之积。
(3)当K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长。(本实施例中s=0.1),当迭代后的权值大于1.0时仍视为1.0。图2展示了当规则数量K变化时程度词权值的变化情况。
(4)规则R定义把获取序列X中所有程度词权值之和的绝对值为当前规则下X的情感强度值;
(5)获取不同规则下对所述文字序列X标注的情感强度值,得到多规则标注结果。
为尽可能得到可靠的情感强度标签,使用构建的多规则R对文本序列进行标注,并采用情感强度标签投票生成算法对多规则标注的结果L={I1,I2,…,Ii,…,In}进行投票决策。其中,Ii代表规则i对应的情感强度标注。n为对应的规则数量。投票生成算法如表1所示。
表1情感强度投票生成算法
Figure BDA0004181775000000081
经过多规则标注后的I*兼顾了不同阈值条件下情感强度的标注。在一定程度上缓解了传统规则标注方法因严格依赖于人工设计和先验知识引起的推广能力较差的问题,具备一定程度的灵活性。
2.通过融合决策机制对第一情感强度标签I’和第二情感强度标签I*进行决策,获得文字序列X的最佳情感强度标签I。
通过混合策略标注的文本情感强度存在多个候选结果,如何在候选的结果中决策出最佳值是模型必须考虑的一个问题。为解决以上问题,本发明在融合决策机制中提出一个情感强度重排序决策算法,通过对I’和I*计算置信度和重排序选择最佳情感强度标签I。具体的讲,算法为每一个候选结果(I’和I*)计算置信度,选择置信度最大的一个作为最终标注结果。
本质上是使话语文本序列X在I下置信度最大化,置信度计算公式如下:
I=argmax(P(I|X,I’,I*))。
P(I|X,I’,I*)为通过对I’和I*计算置信度和重排序选择最佳情感强度标签I的概率。
情感强度重排序算法如表2所示,其中θCLS为自动标注机制中自动标注模型采用的情感标注模型参数。
表2情感强度重排序算法
Figure BDA0004181775000000091
3.基于最佳情感强度标签I以及最小化交叉熵损失函数优化自动标注模型,得到优化情感标注模型。
为完成自动情感强度标注模型的训练,利用混合策略感知标注和融合决策机制得到的标签完成情感强度自动标注模型的训练。模型通过最小化交叉熵损失函数使情感强度分类准确率最优化。
最小交叉熵损失函数如下所示:
Figure BDA0004181775000000101
其中,N为语句的数量,k为N句话中随机一句话;Lk为语句k的损失值;pkI为对于语句k属于最佳情感强度I的预测概率,通过情感标注模型得到;ykI为指示变量,若最佳情感强度标签I和语句k的标签情感强度Ik相同则为1,否则为0,公式如下:
Figure BDA0004181775000000102
式中,所述语句k的标签情感强度Ik由所述自动标注模型输出。
4.将文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
进一步,本发明提出的方法还包括:
5.通过实验验证有效性。
5.1实验设置
5.1.1数据准备
文本情感强度标注任务实验数据来自NLPCC 2013和NLPCC 2014情感分类任务的公开数据。经过重新筛选数据,得到40519条语句作为模型训练与人工标注的基础语料。随机选择其中的4000句用于人工标注,其余的36519条作为模型的无标注语料用于模型的训练与标注验证。
5.1.2参数设置
对于情感强度标注实验,本发明实施例提出的方法MSA-EILF在当前文本分类任务主流的深度神经网络模型,即自动标注模型在BERT、LSTM、GRU、Bi-LSTM和Bi-GRU上开展。因LSTM、GRU、Bi-LSTM和Bi-GRU模型结构相似,故采用相同的超参数:嵌入层维度为128,隐藏层维度为128,网络层数为2,丢弃率为0.5,使用Adam优化算法,学习率为1e-3。考虑到计算力的问题,采用小规模的BERT模型,将模型隐藏单元设置为512,注意力头数量为8,隐藏层数设置为4,学习率设置为1.5e-4。同时均采用Adam算法进行优化,所有模型均迭代50轮完成训练。特别地,为防止因计算性能不足导致模型无法训练的问题,本实施例的文本处理均以单字为基本单位,不进行分词处理,所有模型的词表大小为11029,情感强度类别数为6,最大序列长度为64,批处理大小为128。
5.1.3人工标注数据描述
为了提高和验证模型标注的可靠性和准确性。本实施例也开展人工标注的方法,对现有的情感语料进行人工情感强度标注。从课题组选择8人,并从语料库中为每人随机选取500句,作为标注语料。其中3000句用于标注模型预训练,1000句用于模型标注结果验证。人工标注规则如表3所示,标注结果如表4所示。
表3人工标注标准
Figure BDA0004181775000000111
表4人工标注语料情感强度信息统计
Figure BDA0004181775000000112
Figure BDA0004181775000000121
5.2评价指标
5.2.1自动评价
情感强度标注实验可视为对所提出方法的准确性进行评价,准确性越高,则证明情感强度标注效果越好,情感强度标注模型越可靠。本任务使用precision(精确率)、recall(召回率)、F1-score和kappa系数对各个模型进行准确性的自动评价。各指标的含义如下:
Precision:精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例,可视为查准率。
Recall:召回率是指分类正确的正样本个数占真正的正样本个数的比例,可视为查全率。
F1-score:是精确率和召回率的调和平均值,是对二者结果的综合。三者的取值均为0到1之间,越高则表示准确性越好。
Kappa系数:是一个用于一致性检验的指标,也可用于衡量分类的效果。kappa系数相较于常用的准确率,对不平衡的样本有着更客观的评价。kappa系数的取值为-1到1之间,越高则证明准确性越好。
5.2.2人工评价
自动评价指标虽然可以高效的对标注的情感强度进行评价,但只能尽可能对人类评价进行模拟和逼近,无法完全反映人的主观看法。为更好的对模型进行评估,本实施例从模型标注的36519条语句随机抽取5%样本交于8位评审员进行标注合理性的人工打分评价,划分为3个层级:(不合理,0)、(合理,1)、(非常合理,2)。
5.3实验结果与分析
5.3.1模型收敛性实验
模型的训练过程在筛选后的训练集与验证集上,对提出的MSA-EILF在多个神经网络模型完成训练,所有模型均采用每5轮训练取均值,以实现准确记录模型训练曲线的目的。由图3(a)可知,所有模型的损失值均呈现先快速下降后趋于稳定的变化规律,同时在50轮的迭代训练后,损失值曲线基本平稳,可见所有模型都能够收敛。
但是由于模型结构不同,以单向模型为代表的LSTM与GRU,其收敛速度与效果均低于以双向模型为代表的Bi-LSTM与Bi-GRU,而BERT模型因其以Transformer为基础,在收敛速度和收敛效果上远高于基于RNN的神经网络模型,并且在15轮左右基本达到较低的损失值。由图3(b)可知,所有模型在经过50轮的迭代训练均取得了较高的准确率。综上所述,基于混合策略感知情感强度标注方法在神经网络模型上能够完成训练并且能够收敛。
鉴于BERT模型性能更为优越,同时为了得到最恰当的规则数,本实施例选择EIL-BERT模型,针对不同的K值进行了实验,如图4所示。当K值为2时,准确率低于K值大于4时的实验结果,可能是因为原始两种规则相差较大,模型难以拟合。由图4可知,当K值为4和6时,准确率相差无几,因此本实施例将采用K值为4作为主要的规则数。
5.3.2模型有效性实验
为了验证模型的有效性,本实施例采用人工标注的1000句语料作为进行测试,各情感强度标注测试准确率如图5所示。EIL-BERT模型对“0”、“1”、“2”和“3”这4类情感强度的语句分类准确率较高,均为0.699以上;对“4”和“5”情感强度的语句标注准确率较低,只有0.383和0.222,我们分析认为可能是因为数据中分布不均衡造成的。同时,本实施例认为由于MSA-EILF结合了深度学习与词典规则的方法,故而模型很好的拟合了情感词典标注的规则,但由于情感词典标注的方法存在很大不确定性,与人工标注的语料之间仍存在差异,因此对部分类别的情感强度标注表现不佳。
综上所述,EIL-BERT模型在情感强度标注任务的总体准确率较高,基本满足情感强度标注任务的要求。
5.3.3情感强度标注对比实验
情感强度标注实验在人工标注的情感强度测试集和无标注数据集上对多个神经网络模型上展开,自动评价结果如表5所示。实验通过4个评价指标对各个方法的情感强度标注准确性进行了验证和评估。
在人工标注情感强度测试集上的实验结果表明,EIL-Bi-LSTM模型在四个评价指标上的得分优于EIL-LSTM模型,同时EIL-Bi-GRU模型的得分也优于EIL-GRU。由此说明双向循环神经网络模型的分类性能要优于单向循环神经网络模型。相比其它模型,EIL-BERT模型则在Precision、Recall、F1与Kappa指数等方面提高了2%、1.6%、2.9%和6%,证明了Bert模型在语义特征抽取方面优越的性能。同时,实验结果表明,所有模型的准确率均取得了不错的效果。同时多个神经网络模型上均取得了50%以上了准确率,证明了情感强度标注模型的有效性。综上,本实施例选择准确率最高的EIL-BERT模型作为情感标注模型完成数据集情感强度的标注。
情感强度标注对比实验的人工评价在模型标注的无标注数据上展开,通过合理性进行评价。详细评价结果如表6所示。综合来看,MSA-EILF方法下采用的模型在各个情感强度下的实际表现处于可接受范围内。特别地,EIL-BERT对比其它模型在合理性上取得了综合最好结果,在情感强度4和5略弱于EIL-BI-LSTM和EIL-BI-GRU,这也与模型的有效性实验结果相对应,证明了EIL-BERT的文本情感强度标注能力。整体上人工评价结果与在有标注数据集上的自动评价结果基本吻合。表明了本发明实施例选用自动评价指标的合理性与实验结果的可靠性。
根据以上实验结果可知,本发明实施例提出的MSA-BERT模型在情感强度标注实验中取得了综合最优结果,表明了该方法能够对大量无标注数据进行较为可靠的情感强度标注。同时,基于MSA-EILF方法的其它模型也具备可以接受的情感强度标注能力。从而验证了MSA-EILF方法对文本情感强度标注任务的有效性。
表5情感强度标注实验自动评价结果
Figure BDA0004181775000000151
表6情感强度标注实验人工评价结果
Figure BDA0004181775000000152
综上,基于本发明提出的一种混合策略感知的文本情感强度标注方法构建的EIL-BERT自动标注模型能够在开放域文本上进行可靠情感强度标注。为了提高情感强度标注模型的可靠性和准确性,本发明使用少量人工标注的数据对模型进行有监督预训练。之后又利用大量无标注的文本数据实现半监督的情感强度标注。相比现有以人工标注为主情感强度标注的方法相比,该标注方法结合了基于情感词典与规则人工标注方法和基于深度学习自动标注方法两者的优点,在提高标注效率的同时,也提高了标注质量。实验结果表明,本实施例提出的MSA-EILF方法在情感强度标注任务有良好的有效性和适用性。
另一方面,本发明实施例还提供了一种混合策略感知的文本情感强度标注系统,用于实现上述混合策略感知的文本情感强度标注方法,包括:
自动标注模块,用于利用自动标注模型对文字序列X进行情感强度预标注,生成第一情感强度标签I’;
多规则投票标注模块,用于根据多规则投票机制对文字序列X进行情感强度预标注,生成第二情感强度标签I*
融合决策模块,用于采用融合决策机制对第一情感强度标签I’和第二情感强度标签I*进行决策,获得文字序列X的最佳情感强度标签I;
模型优化模块,用于基于最佳情感强度标签I以及最小化交叉熵损失函数优化自动标注模型,得到优化情感标注模型;
情感强度标注模块,用于将文字序列X输入优化情感标注模型,输出情感强度标注结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种混合策略感知的文本情感强度标注方法,其特征在于,包括以下步骤:
构建混合策略感知标注机制,分别利用自动标注模型和多规则投票机制对文字序列X进行情感强度预标注,生成第一情感强度标签I’和第二情感强度标签I*
通过融合决策机制对所述第一情感强度标签I’和第二情感强度标签I*进行决策,获得所述文字序列X的最佳情感强度标签I;
基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;
将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
2.根据权利要求1所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述多规则投票机制为:
构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果;
采用情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I*
3.根据权利要求2所述的一种混合策略感知的文本情感强度标注方法,其特征在于,构建多规则R,使用所述多规则R对所述文字序列X进行标注,得到多规则标注结果,包括:
(1)确定标注规则数量K,并定义转折词权值;
(2)依据K值和情感词典中的程度副词层级为程度词赋初始值;当所述文字序列X中某程度词前有转折词时,则该程度词的权值为初始值与所述转折词权值之积;
(3)当所述标注规则数量K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长;
(4)获取所述文字序列X中所有程度词权值之和的绝对值,作为当前规则下对所述文字序列X标注的情感强度值;
(5)获取不同规则下对所述文字序列X标注的情感强度值,得到多规则标注结果。
4.根据权利要求3所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述当所述标注规则数量K大于1时,程度副词层级各级的程度词权值均在初始值的基础上均增加n*s,n为标注规则数量K的取值,s为权值步长,还包括:
当迭代后的程度词权值大于1.0时,所述程度词权值则视为1.0。
5.根据权利要求3所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述情感强度标签投票生成算法对所述多规则标注结果进行投票决策,生成第二情感强度标签I*,包括:
计算不同规则下对所述文字序列X标注的情感强度值的标注和;
获取所述标注和的平均值;
对所述平均值向下取整,得到第二情感强度标签I*
6.根据权利要求1所述的一种混合策略感知的文本情感强度标注方法,其特征在于,所述融合决策机制通过计算所述第一情感强度标签I’和第二情感强度标签I*的置信度决策出最佳情感强度标签I;
选取置信度最大的情感强度标签作为最佳情感强度标签I。
7.根据权利要求1所述的一种混合策略感知的文本情感强度标注方法,其特征在于,基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型,包括:
根据所述最小化交叉熵损失函数更新所述自动标注模型的模型参数,得到优化情感标注模型;
所述最小交叉熵损失函数如下所示:
Figure FDA0004181774990000031
其中,N为语句的数量,k为N句话中随机一句话;Lk为语句k的损失值;pkI为对于语句k属于最佳情感强度I的预测概率,通过情感标注模型得到;ykI为指示变量,若最佳情感强度标签I和语句k的标签情感强度Ik相同则为1,否则为0,公式如下:
Figure FDA0004181774990000032
式中,所述语句k的标签情感强度Ik由所述自动标注模型输出。
8.一种混合策略感知的文本情感强度标注系统,其特征在于,包括:
自动标注模块,用于利用自动标注模型对文字序列X进行情感强度预标注,生成第一情感强度标签I’;
多规则投票标注模块,用于根据多规则投票机制对文字序列X进行情感强度预标注,生成第二情感强度标签I*
融合决策模块,用于对所述第一情感强度标签I’和第二情感强度标签I*进行决策,获得所述文字序列X的最佳情感强度标签I;
模型优化模块,用于基于所述最佳情感强度标签I以及最小化交叉熵损失函数优化所述自动标注模型,得到优化情感标注模型;
情感强度标注模块,用于将所述文字序列X输入所述优化情感标注模型,输出情感强度标注结果。
CN202310406999.9A 2023-04-17 2023-04-17 一种混合策略感知的文本情感强度标注方法及系统 Active CN116362237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310406999.9A CN116362237B (zh) 2023-04-17 2023-04-17 一种混合策略感知的文本情感强度标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310406999.9A CN116362237B (zh) 2023-04-17 2023-04-17 一种混合策略感知的文本情感强度标注方法及系统

Publications (2)

Publication Number Publication Date
CN116362237A true CN116362237A (zh) 2023-06-30
CN116362237B CN116362237B (zh) 2024-07-19

Family

ID=86933400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310406999.9A Active CN116362237B (zh) 2023-04-17 2023-04-17 一种混合策略感知的文本情感强度标注方法及系统

Country Status (1)

Country Link
CN (1) CN116362237B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320960A (zh) * 2015-10-14 2016-02-10 北京航空航天大学 一种基于投票的跨语言主客观情感分类方法
CN110807320A (zh) * 2019-11-11 2020-02-18 北京工商大学 基于cnn双向gru注意力机制的短文本情感分析方法
CN112183990A (zh) * 2020-09-22 2021-01-05 国网冀北电力有限公司计量中心 基于大数据机器学习的自适应稽查监控管理平台及方法
CN113139042A (zh) * 2021-04-25 2021-07-20 内蒙古工业大学 一种利用微调和重排序策略的情感可控回复生成方法
CN113190664A (zh) * 2021-04-25 2021-07-30 内蒙古工业大学 一种面向多轮对话中回复情感的动态决策方法
CN115391520A (zh) * 2022-07-22 2022-11-25 浙江树人学院 一种文本情感分类方法、系统、装置及计算机介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320960A (zh) * 2015-10-14 2016-02-10 北京航空航天大学 一种基于投票的跨语言主客观情感分类方法
CN110807320A (zh) * 2019-11-11 2020-02-18 北京工商大学 基于cnn双向gru注意力机制的短文本情感分析方法
CN112183990A (zh) * 2020-09-22 2021-01-05 国网冀北电力有限公司计量中心 基于大数据机器学习的自适应稽查监控管理平台及方法
CN113139042A (zh) * 2021-04-25 2021-07-20 内蒙古工业大学 一种利用微调和重排序策略的情感可控回复生成方法
CN113190664A (zh) * 2021-04-25 2021-07-30 内蒙古工业大学 一种面向多轮对话中回复情感的动态决策方法
CN115391520A (zh) * 2022-07-22 2022-11-25 浙江树人学院 一种文本情感分类方法、系统、装置及计算机介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王春喻: "面向多轮对话的情感强度回复生成方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑 (月刊)》, no. 03, 15 March 2023 (2023-03-15), pages 138 - 614 *

Also Published As

Publication number Publication date
CN116362237B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN108804417A (zh) 一种基于特定领域情感词的文档级情感分析方法
CN110717843A (zh) 一种可复用的法条推荐框架
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN110069778A (zh) 中文融入嵌入词位置感知的商品情感分析方法
CN108563638A (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
CN111353040A (zh) 基于gru的属性级别情感分析方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
CN114429143A (zh) 一种基于强化蒸馏的跨语言属性级情感分类方法
CN114610891B (zh) 面向不平衡司法裁判文书数据的法条推荐方法及系统
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN112182227A (zh) 基于transD知识图嵌入的文本情感分类系统及方法
CN110046239A (zh) 基于情感编辑的对话方法
CN117494727A (zh) 用于大语言模型的去偏倚方法
CN114444519B (zh) 一种基于Seq2Seq模型的情感对话生成方法
CN114091469B (zh) 基于样本扩充的网络舆情分析方法
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant