CN114896987B - 基于半监督预训练模型的细粒度情感分析方法和装置 - Google Patents
基于半监督预训练模型的细粒度情感分析方法和装置 Download PDFInfo
- Publication number
- CN114896987B CN114896987B CN202210723971.3A CN202210723971A CN114896987B CN 114896987 B CN114896987 B CN 114896987B CN 202210723971 A CN202210723971 A CN 202210723971A CN 114896987 B CN114896987 B CN 114896987B
- Authority
- CN
- China
- Prior art keywords
- emotion
- fine
- grained
- model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 210
- 238000004458 analytical method Methods 0.000 title claims abstract description 104
- 238000012549 training Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 132
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 230000000873 masking effect Effects 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012552 review Methods 0.000 description 12
- 235000013305 food Nutrition 0.000 description 9
- 230000002996 emotional effect Effects 0.000 description 8
- 239000003550 marker Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 1
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 description 1
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于半监督预训练模型的细粒度情感分析方法和装置,将掩码遮蔽预测任务与BERT模型结合,在随机掩码训练的基础上,通过只对情感单词进行全部掩码,来进一步训练BERT模型从而提高BERT模型的掩码单词预测能力,以便更好地捕捉情感表达,得到参数优化后的预训练BERT模型。在此基础上,以预训练BERT模型结合多个预测模块来构建细粒度情感分析模型,该模型利用了包含注意力机制的预训练BERT模型的优势,可以使用最少量的标记向量来实现高准确度的细粒度情感分析效果,解决了细粒度情感分析中缺乏标签数据和低准确性这两个重要问题,同时使用多标记向量进行分类以最大限度地减少对多个方面主题信息的干扰。
Description
技术领域
本发明属于情感分析技术领域,具体涉及一种基于半监督预训练模型的细粒度情感分析方法和装置。
背景技术
随着当今信息时代的爆炸式增长和人们快节奏的生活方式,电子商务和在线购物已经迅速出现并变得庞大。对于电子商务和在线业务而言,阅读其他客户的评论是使客户能够确保产品/服务质量和认可特定功能的最重要方式之一。根据2020年本地消费者评论调查,87%的消费者在消费前阅读了在线评论。另一方面,制造商或服务提供商也可以通过客户的评论获得客户的意见。考虑到同类产品呈现的大量客户评论,客户阅读所有评论做出决策是一项繁琐的工作,企业评估客户的意见和进行市场调查也很费力。因此引入面向客户评论审查的情感分析具有很多实际应用价值,如针对商品评论的基于方面的情感分析可以提取用户对一个商品不同部分/方面的评价,为厂商进一步改进商品提供更细粒度的参考。
情感分析也称为意见挖掘、情感分类或情感挖掘,它使用计算机技术来自动确定书写时的情绪。客户意见情绪分析的主要目标是分析客户评论并检查客户的情绪是负面的、正面的还是中性的。这种分析可以在不同的层次上进行:文档层次、句子层次、术语层次或方面层次。如今,情感分析中的许多工作都集中在细粒度级别,即基于方面的情感分析(aspect-based sentiment analysis,ABSA),每个方面与单个实体有关。在客户评论中,单个方面是指评论对象的某个角度。例如,“这家餐厅最好的地方是可以参观到湖景。但是我不喜欢这家餐厅的食物。”这篇餐厅评论在位置和食物方面表达了不同的态度。ABSA有助于更全面、更有针对性地了解评论情绪。
ABSA比普通情感分析更为复杂。ABSA任务可以分为两个子任务,即方面抽取和方面级别情感分析,每项任务都需要特定的技术。因此,提高ABSA任务准确性是最受关注的问题之一。此外,方面级别的标记数据不足是另一个挑战。近年来,研究人员一直在努力解决ABSA中的问题,通过提出相对应的方法来实现不同的分析任务。
现有技术中,针对方面级别的检测可以采用无监督、半监督以及监督学习方法。其中,无监督方法主要包括的基于频率的检测方法无法发现不常见的产品特征,即基于方面的细粒度情感分析能力不足;无监督方法主要包括的基于语义或依赖关系的检测方法则表现出较低的准确度,基于方面的情感分析模型性能相对较差。监督学习方法包括的条件随机场在进行情感分析时,虽然在一定程度上提高了模型性能,但是需要手动标注定义明确、全面的词标签集,人工成本较高。
现有技术中,针对情感分析也可以采用无监督、半监督以及监督学习方法。其中,无监督学习的多标签情感分析方法主要包括基于词典的方法和基于聚类的方法,其中基于词典的方法无法发现不包含明确情感词的复杂情感表达;基于聚类的方法与基于词典的方法有同样的问题,它不能处理复杂的句子来实现情感分析。监督学习方法采用机器学习的方式,需要大量的训练数据,并且在数据不足时准确率较低。
发明内容
鉴于上述,本发明的目的是提供一种基于半监督预训练模型的细粒度情感分析方法和装置,在缺少标签样本的情况下实现对评论文本的准确细粒度情感分析。
为实现上述发明目的,实施例提供的一种基于半监督预训练模型的细粒度情感分析方法,包括以下步骤:
采用半监督学习方式构建情感掩码增强的预训练BERT模型,包括:(1)筛选评论语句中具有情感表达的情感单词,并将评论语句中情感单词利用掩码进行遮蔽以形成语句样本;(2)在BERT模型的输出端连接线性映射层;(3)利用BERT模型提取语句样本的隐藏向量,利用线性映射层根据隐藏向量预测被掩码的情感单词的预测概率;(4)在对BERT模型和线性映射层进行半监督学习优化模型参数时,采用的优化损失函数为预测概率的log值,参数优化后的BERT模型为预训练BERT模型;
采用监督学习方式构建细粒度情感分析模型,包括:(1)在预训练BERT模型的输出端并行连接多个预测模块,每个预测模块包含基于前馈神经网络构建的方面主题分类分支和基于前馈神经网络构建的情感分类分支;(2)利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的多个标记向量,分别输入到多个预测模块,每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果;(3)根据方面主题分类结果和细粒度情感分类结果,采用监督学习方式对预测模块进行参数微调,参数微调后的预测模块连接到预训练BERT模型的输出端,形成细粒度情感分析模型;
利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类。
在一个实施例中,在筛选评论语句中具有情感表达的情感单词时,采用情感词典SentiWordNet识别评论语句中的每个单词的情感强度,筛选情感强度大于阈值的单词为情感单词。
在一个实施例中,在构建情感掩码增强的预训练BERT模型时,BERT模型采用注意力机制关注代表情感极性的掩码、代表方面主题的掩码周围单词,以使更新的模型参数嵌入情感掩码增强信息。
在一个实施例中,所述线性映射层采用softmax函数对隐藏向量进行被掩码的情感单词的预测,以得到每个情感单词的预测概率。
在一个实施例中,每个前馈神经网络包括dropout层和线性层,其中,dropout层用于防止标记向量的过拟合,线性层采用softmax函数对标记向量进行方面主题分类、情感分类。
在一个实施例中,在对预测模块进行参数微调时,以评论文本的方面主题分类标签与方面主题分类结果的交叉熵作为方面主题分类分支的微调损失函数,以评论文本的细粒度情感分类标签与细粒度情感分类结果的交叉熵作为情感分类分支的微调损失函数。
在一个实施例中,评论文本的细粒度情感分类标签包括消极、积极、中立和冲突,即对评论文本能够实现四个粒度的情感分类。
在一个实施例中,从隐藏向量中提取标记向量时,按照顺序从隐藏向量的头标记向量向后提取与预测模块数量相同的多个标记向量,每个标记向量嵌有主题信息和情感信息。
为实现上述发明目的,实施例还提供了一种基于半监督预训练模型的细粒度情感分析装置,包括:
预训练BERT模型的构建单元,用于(1)筛选评论语句中具有情感表达的情感单词,并将评论语句中情感单词利用掩码进行遮蔽以形成语句样本;(2)在BERT模型的输出端连接线性映射层;(3)利用BERT模型提取语句样本的隐藏向量,利用线性映射层根据隐藏向量预测被掩码的情感单词的预测概率;(4)在对BERT模型和线性映射层进行半监督学习优化模型参数时,采用的优化损失函数为预测概率的log值,参数优化后的BERT模型为预训练BERT模型;
细粒度情感分析模型的构建单元,用于(1)提取参数优化的预训练BERT模型,并在预训练BERT模型的输出端并行连接多个预测模块,每个预测模块包含基于前馈神经网络构建的方面主题分类分支和基于前馈神经网络构建的情感分类分支;(2)利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的标记向量,分别输入到多个预测模块,每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的标记向量进行情感分类,以得到细粒度情感分类结果;(3)根据方面主题分类结果和细粒度情感分类结果,采用监督学习方式对预测模块进行参数微调,参数微调后的预测模块连接到预训练BERT模型的输出端,形成细粒度情感分析模型;
应用单元,用于利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类。
为实现上述发明目的,实施例还提供了一种基于半监督预训练模型的细粒度情感分析装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述存储器中存储有细粒度情感分析模型,所述细粒度情感分析模型通过上述基于半监督预训练模型的细粒度情感分析方法构建;
所述处理器执行所述计算机程序时实现以下步骤:
步骤1,接收待情感分析的评论文本;
步骤2,调用细粒度情感分析模型对接收的评论文本进行情感分析,包括:
利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的标记向量,分别输入至多个预测模块;每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果;
步骤3,输出方面主题分类结果和对应的细粒度情感分类结果。
与现有技术相比,本发明具有的有益效果至少包括:
将掩码遮蔽预测任务与BERT模型结合,在随机掩码训练的基础上,通过只对情感单词进行全部掩码,来进一步训练BERT模型从而提高BERT模型的掩码单词预测能力,以便更好地捕捉情感表达,得到参数优化后的预训练BERT模型。
在此基础上,以预训练BERT模型结合多个预测模块来构建细粒度情感分析模型,该细粒度情感分析模型利用了包含注意力机制的预训练BERT模型的优势,可以使用最少量的标记(token)向量来实现高准确度的细粒度情感分析效果,解决了细粒度情感分析中缺乏标签数据和低准确性这两个重要问题。
细粒度情感分析模型使用多个token向量并行分类,避免了在仅使用一个token向量进行预测情况下的信息量过大问题,多token向量分类有助于解决多方面主题分类问题,以最大限度地减少对多个方面主题信息的干扰。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于半监督预训练模型的细粒度情感分析方法的流程图;
图2是实施例提供的预训练BERT模型的结构示意图;
图3是实施例提供的细粒度情感分析模型的结构示意图;
图4是实施例提供的基于半监督预训练模型的细粒度情感分析装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了解决细粒度情感分析中缺乏标记数据导致的细粒度情感分析不准确的问题,同时为了实现对评论文本的准确多方面主题分类和多细粒度情感分类。实施例提供了一种基于半监督预训练模型的细粒度情感分析方法和装置。
图1是实施例提供的基于半监督预训练模型的细粒度情感分析方法的流程图。如图1所示,实施例提供的基于半监督预训练模型的细粒度情感分析方法,包括以下步骤:
步骤1,采用半监督学习方式构建情感掩码增强的预训练BERT模型。
实施例中,构建的预训练BERT模型用于增强情感知识学习,预训练BERT模型输出的隐藏向量包含的多标记(token)向量用于检测评论文本中多方面主题的不同特征。基于此,在构建预训练BERT模型时,需要进行语句样本的准备,模型结构的构建以及模型参数的优化三个部分。
针对语句样本的准备,筛选评论语句中具有情感表达的情感单词,并将评论语句中情感单词利用掩码进行遮蔽以形成语句样本。实施例中,可以采用情感词典SentiWordNet识别评论语句中的每个单词的情感强度,筛选情感强度大于阈值的单词为情感单词。
SentiWordNet是基于WordNet构建的情感识别开源数据集,WordNet是大型词汇词典,通过语义关系将名词、动词、形容词和副词分组为同义词集。在情感词典SentiWordNet识别数据评论文本中,每个同义词集的WordNet被分配了三个情感数值分数用于描述表达的客观、积极和消极程度,分别表示为Obj、Pos 和 Neg,其数值范围在0到1之间。
实施例中,采用SemEval2014数据集中针对餐馆领域用户对餐馆服务体验的各种评论文本数据作为样本数据,其中,评论文本由评论语句组成,针对评论文本数据
X=(
x 1 ,
x 2 ,…,
x L )中每个评论语句
x l 中的每个单词
t i ,其中,
l为评论语句的索引,
L为评论语句数量,
i为单词的索引,通过情感词典SentiWordNet识别单词的情感强度,表示为
I i ,如果其积极情感强度或者消极情感强度得分大于0.1,即或,则认为单词具有情感表达,将具有情感表达的情感单词表示为。
实施例中,在对筛选出的情感单词用掩码[MASK]进行遮蔽,评论语句中非情感单词与特殊标记[MASK]形成语句样本作为预训练BERT模型的输入,依据语句样本来预测被掩码的情感单词。
针对模型结构的构建,如图2所示,情感掩码增强的预训练BERT模型包括BERT模型以及线性映射层,其中,BERT模型用于对输入的语句样本进行向量提取以输出隐藏向量,线性映射层连接于BERT模型的输出端,用于根据隐藏向量预测被掩码的情感单词的预测概率。
实施例中,情感单词被遮蔽的语句样本输入至BERT模型中,采用模型包含的Transformer编码器对语句样本进行向量编码,以提取隐藏向量,表示token向量,
Q表示单词数量,隐藏向量输入至线性映射层,线性映射层采用softmax函数对隐藏向量进行被掩码的情感单词的预测,产生归一化的预测概率,理解为在输入语句样本时,对情感单词的预测概率,具体计算公式为:
其中,W1和b1是输出层的参数,
softmax()表示softmax激活函数。
实施例中,Transformer编码器在对语句样本进行向量编码时,采用注意力机制关注代表情感极性的掩码、代表方面主题的掩码周围单词,以使更新的模型参数嵌入情感掩码增强信息。
针对情感掩码增强的BERT模型参数的优化,实施例采用半监督学习方式,采用的优化损失函数为预测概率的log值,表示为:
其中,表示为优化损失函数,K表示掩码对应的token数量,假设语句样本中的掩码为3个,则K为3,表示掩码对应的token数量也为3。损失函数表示假设掩码的概率彼此独立的情况下来进行的损失优化,以最大化正确掩码(即原始情感单词)的预测概率,实现上下文中被掩码情感单词的预测。
结合语句样本并利用上述损失函数对情感掩码增强的BERT模型进行模型参数优化,以实现对BERT模型和线性映射层的预训练,预训练结束后,提取参数优化后的BERT模型为预训练BERT模型。
步骤2,采用监督学习方式构建细粒度情感分析模型。
实施例中,构建的细粒度情感分析模型用于对评论文本进行方面主题的分类和方面级情感极性的分类。基于此,在构建细粒度情感分析模型时,同样需要进行评论文本的准备,模型结构的构建以及模型参数的微调三个部分。
针对评论文本的准备,采用SemEval2014数据集中针对餐馆领域的评论文本数据,该评论文本数据由客户评论句子组成,带有方面主题分类标签和方面级细粒度情感分类标签。其中,餐厅领域的方面主题分类标签包括食物、服务、价格、环境(即餐厅的气氛和周围环境)等。此外,每类方面主题对应的方面级细粒度情感分类标签均包括消极、积极、中立和冲突。由于对细粒度情感分析模型的微调过程是有监督学习,则在准备评论文本时,还需要标记评论文本的方面主题分类标签和对应的方面级细粒度情感分类标签。
需要说明的是,针对不同领域的评论文本,对应的方面主题分类标签的种类不同,因实际情况而定。而对方面级细粒度情感分类标签,基本都是包含这4类:消极、积极、中立和冲突。
针对模型结构的构建,如图3所示,细粒度情感分析模型包括预训练BERT模型、多个预测模块,其中,预训练BERT模型用于提取输入评论文本的隐藏向量。多个预测模块并行连接在预训练BERT模型的输出端,预测模块的个数与实际应用预设的方面主题的种类相同,例如当需要进行4个方面主题的分类时,则预训练BERT模型的输出端并行连接4个预测模块。每个预测模块包含方面主题分类分支和情感分类分支,这两个分支均基于前馈神经网络构建,预训练BERT模型输出隐藏向量后,从隐藏向量中提取与预测模块数量相同的多个token向量,并以一对一的方式输入至多个预测模块,每个预测模块的两个分支分别对输入token向量进行预测,包括:每个预测模块的方面主题分类分支根据输入的token向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同token向量进行情感分类,以得到细粒度情感分类结果。
实施例中,由于方面主题分类分支实现的是对应方面主题的二分类,即是这一类方面主题或者不是这一类方面主题,因此,得到方面主题分类结果理解为预测结果为是对应类的方面主题。
实施例中,属于同一预测模块的采用相同结构的前馈神经网络(FNN),每个前馈神经网络包括dropout层和线性层,其中,dropout层用于防止标记向量的过拟合,线性层采用softmax函数对标记向量进行方面主题分类、情感分类。
实施例中,从隐藏向量中提取标记向量时,按照顺序从隐藏向量的头标记向量向后提取与预测模块数量相同的多个标记向量,每个标记向量嵌有主题信息和情感信息。
以SemEval2014数据集餐厅领域的4类方面主题食物、服务、价格、环境(即餐厅的气氛和周围环境)为例,预训练BERT模型的输出端并行连接4个预测模块,分别对应食物、服务、价格、环境这4类方面主题。同时也从预训练模型输出的隐藏向量中提取4个token向量作为4个预测模块的输入,第一个预测模块的方面主题分类分支以预测评论文本是否包含食物方面主题,如果是(即
P A1=1),则激活情感分类分支以根据相同token向量预测朝向食物方面主题的情绪极性,即细粒度情感分类结果,表示为
P S1=0,1,2或3,分别对应消极、积极、中立或冲突。第二、三、四个预测模块和对应输入的token向量分别用于价格、服务和环境方面主题的分类以及对应方面主题类的情感极性。
针对模型参数的微调,针对预测模块的不同分支采用不同的微调损失函数,方面主题分类分支对应的微调损失函数,表示为:
其中,
L 1表示方面主题分类分支对应的微调损失函数,A表示方面主题的索引,
N A 表示方面主题的分类数量,
L A表示第
A个方面主题对应的交叉熵损失,
y A 表示第
A个方面主题分类标签,
X A 表示包含第
A个方面主题的评论文本,表示第
A个方面主题对应的token向量,
W2和
b2分别表示线性层的权重和偏置,表示针对评论文本
X A 依据token向量针对第
A个方面主题的分类结果,如果属于第
A个方面主题的正确分类结果,输出为1,如果不属于第
A个方面主题的正确分类结果,即错误分类结果,则输出为0,利用微调损失函数
L 1可以优化方面主题分类分支对应的前馈神经网络的参数。
情感分类分支对应的微调损失函数,表示为:
其中,
L 2表示情感分类分支对应的微调损失函数,S表示情感分类的索引,
N s 表示情感的分类数量,
L S表示第
s类情感对应的交叉熵损失,
y S 表示第
S类情感分类标签,
X S 表示包含第
s类情感的评论文本,表示第
s类情感对应的token向量,针对同一个预测模块,token向量和token向量相等,
W3和
b3分别表示线性层的权重和偏置,表示针对评论文本
X S 依据token向量针对第
s类情感的分类结果,利用微调损失函数
L 2可以优化情感分类分支对应的前馈神经网络的参数。
实施例中,结合准备的评论文本和两个微调损失函数分别对预测模块的两个分支进行参数微调,经过参数微调后的预测模块连接到预训练BERT模型的输出端,形成细粒度情感分析模型。
实施例中,构建细粒度情感分析模型时,使用与预设方面主题分类相同的token向量,即SemEval2014数据集的食物、价格、服务和环境这4个方面主题对应的token向量作为预测模块的输入,而不是单个标记作为预测模块的输入。通过这样可以预测与多token向量输入并行的多个方面主题,而不是使用一个token向量来顺序预测每个方面主题,使得情感分析预测更加高效;其次,由于每个token向量代表一个方面主题,经过微调后,这个token向量的参数不会影响其他token向量。因此,多token向量预测可以最大限度地减少聚合在一个token向量中的不同方面信息的干扰。
总之,构建的细粒度情感分析模型可以有效实现方面主题类别分类与情感类别分类,更好地捕捉方面-情感对特征,增强对方面主题分析和情感分类的准确率。
步骤3,利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类。
实施例中,利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类时,包括:将待情感分析的评论文本输入预训练BERT模型,利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的标记向量,分别输入至多个预测模块;每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果。
基于相同的发明构思,如图4所示,实施例还提供的一种基于半监督预训练模型的细粒度情感分析装置,包括:
预训练BERT模型的构建单元,用于(1)筛选评论语句中具有情感表达的情感单词,并将评论语句中情感单词利用掩码进行遮蔽以形成语句样本;(2)在BERT模型的输出端连接线性映射层;(3)利用BERT模型提取语句样本的隐藏向量,利用线性映射层根据隐藏向量预测被掩码的情感单词的预测概率;(4)在对BERT模型和线性映射层进行半监督学习优化模型参数时,采用的优化损失函数为预测概率的log值,参数优化后的BERT模型为预训练BERT模型;
细粒度情感分析模型的构建单元,用于(1)提取参数优化的预训练BERT模型,并在预训练BERT模型的输出端并行连接多个预测模块,每个预测模块包含基于前馈神经网络构建的方面主题分类分支和基于前馈神经网络构建的情感分类分支;(2)利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的标记向量,分别输入到多个预测模块,每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的标记向量进行情感分类,以得到细粒度情感分类结果;(3)根据方面主题分类结果和细粒度情感分类结果,采用监督学习方式对预测模块进行参数微调,参数微调后的预测模块连接到预训练BERT模型的输出端,形成细粒度情感分析模型;
应用单元,用于利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类。
需要说明的是,上述实施例提供的基于半监督预训练模型的细粒度情感分析装置在进行细粒度情感分析时,应以上述各功能单元的划分进行举例说明,可以根据需要将上述功能分配由不同的功能单元完成,即在终端或服务器的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于半监督预训练模型的细粒度情感分析装置与基于半监督预训练模型的细粒度情感分析方法实施例属于同一构思,其具体实现过程详见基于半监督预训练模型的细粒度情感分析方法实施例,这里不再赘述。
实施例还提供了一种基于半监督预训练模型的细粒度情感分析装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,存储器中存储有上述方法构建的细粒度情感分析模型,处理器执行所述计算机程序时实现细粒度情感分析过程,包括以下步骤:
步骤1,接收待情感分析的评论文本;
步骤2,调用细粒度情感分析模型对接收的评论文本进行情感分析,包括:
利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的标记向量,分别输入至多个预测模块;每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果;
步骤3,输出方面主题分类结果和对应的细粒度情感分类结果。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现评论文本的细粒度情感分析步骤。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于半监督预训练模型的细粒度情感分析方法,其特征在于,包括以下步骤:
采用半监督学习方式构建情感掩码增强的预训练BERT模型,包括:采用情感词典SentiWordNet识别评论语句中的每个单词的情感强度,筛选情感强度大于阈值的单词为情感单词,并将评论语句中的情感单词利用掩码进行遮蔽以形成语句样本;在BERT模型的输出端连接线性映射层;利用BERT模型提取语句样本的隐藏向量,隐藏向量 表示token向量,Q表示单词数量,利用线性映射层根据隐藏向量预测被掩码的情感单词的预测概率为在输入语句样本XI≤0.1时,对情感单词的预测概率,计算公式为:W1和b1是线性映射层的参数,softmax()表示softmax激活函数;在对BERT模型和线性映射层采用半监督学习方式进行优化模型参数时,采用的优化损失函数L(XI>0.1|XI≤0.1)为预测概率的log值,表示为K表示掩码对应的token数量,参数优化后的BERT模型为预训练BERT模型;
采用监督学习方式构建细粒度情感分析模型,包括:在预训练BERT模型的输出端并行连接多个预测模块,每个预测模块包含基于前馈神经网络构建的方面主题分类分支和基于前馈神经网络构建的情感分类分支;利用预训练BERT模型提取输入评论文本的隐藏向量,按照顺序从隐藏向量的头标记向量向后提取与预测模块数量相同的多个标记向量,每个标记向量嵌有主题信息和情感信息,将多个标记向量分别输入到多个预测模块,每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果;根据方面主题分类结果和细粒度情感分类结果,采用监督学习方式对预测模块进行参数微调,参数微调后的预测模块连接到预训练BERT模型的输出端,形成细粒度情感分析模型;
利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类。
2.根据权利要求1所述的基于半监督预训练模型的细粒度情感分析方法,其特征在于,在构建情感掩码增强的预训练BERT模型时,BERT模型采用注意力机制关注代表情感极性的掩码、代表方面主题的掩码周围单词,以使更新的模型参数嵌入情感掩码增强信息。
3.根据权利要求1所述的基于半监督预训练模型的细粒度情感分析方法,其特征在于,所述线性映射层采用softmax函数对隐藏向量进行被掩码的情感单词的预测,以得到每个情感单词的预测概率。
4.根据权利要求1所述的基于半监督预训练模型的细粒度情感分析方法,其特征在于,每个前馈神经网络包括dropout层和线性层,其中,dropout层用于防止标记向量的过拟合,线性层采用softmax函数对标记向量进行方面主题分类、情感分类。
5.根据权利要求1所述的基于半监督预训练模型的细粒度情感分析方法,其特征在于,在对预测模块进行参数微调时,以评论文本的方面主题分类标签与方面主题分类结果的交叉熵作为方面主题分类分支的微调损失函数,以评论文本的细粒度情感分类标签与细粒度情感分类结果的交叉熵作为情感分类分支的微调损失函数。
6.根据权利要求5所述的基于半监督预训练模型的细粒度情感分析方法,其特征在于,评论文本的细粒度情感分类标签包括消极、积极、中立和冲突,即对评论文本能够实现四个粒度的情感分类。
7.一种基于半监督预训练模型的细粒度情感分析装置,其特征在于,包括:
预训练BERT模型的构建单元,用于采用情感词典SentiWordNet识别评论语句中的每个单词的情感强度,筛选情感强度大于阈值的单词为情感单词,并将评论语句中的情感单词利用掩码进行遮蔽以形成语句样本;在BERT模型的输出端连接线性映射层;利用BERT模型提取语句样本的隐藏向量,隐藏向量 表示token向量,Q表示单词数量,利用线性映射层根据隐藏向量预测被掩码的情感单词的预测概率为在输入语句样本XI≤0.1时,对情感单词的预测概率,计算公式为:W1和b1是线性映射层的参数,softmax()表示softmax激活函数;在对BERT模型和线性映射层采用半监督学习方式进行优化模型参数时,采用的优化损失函数L(XI>0.1|XI≤0.1)为预测概率的log值,表示为K表示掩码对应的token数量,参数优化后的BERT模型为预训练BERT模型;
细粒度情感分析模型的构建单元,用于提取参数优化的预训练BERT模型,并在预训练BERT模型的输出端并行连接多个预测模块,每个预测模块包含基于前馈神经网络构建的方面主题分类分支和基于前馈神经网络构建的情感分类分支;利用预训练BERT模型提取输入评论文本的隐藏向量,按照顺序从隐藏向量的头标记向量向后提取与预测模块数量相同的多个标记向量,每个标记向量嵌有主题信息和情感信息,将多个标记向量分别输入到多个预测模块,每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果;根据方面主题分类结果和细粒度情感分类结果,采用监督学习方式对预测模块进行参数微调,参数微调后的预测模块连接到预训练BERT模型的输出端,形成细粒度情感分析模型;
应用单元,用于利用细粒度情感分析模型进行评论文本的方面主题分类和细粒度情感分类。
8.一种基于半监督预训练模型的细粒度情感分析装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上执行的计算机程序,其特征在于,所述存储器中存储有细粒度情感分析模型,所述细粒度情感分析模型通过权利要求1-6任一项所述的基于半监督预训练模型的细粒度情感分析方法构建;
所述处理器执行所述计算机程序时实现以下步骤:
步骤1,接收待情感分析的评论文本;
步骤2,调用细粒度情感分析模型对接收的评论文本进行情感分析,包括:
利用预训练BERT模型提取输入评论文本的隐藏向量,并从隐藏向量提取与预测模块数量相同的标记向量,分别输入至多个预测模块;每个预测模块并行进行预测,包括:每个预测模块的方面主题分类分支根据输入的标记向量进行方面主题分类,在得到方面主题分类结果时,同一预测模块的情感分类分支根据输入的相同标记向量进行情感分类,以得到细粒度情感分类结果;
步骤3,输出方面主题分类结果和对应的细粒度情感分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723971.3A CN114896987B (zh) | 2022-06-24 | 2022-06-24 | 基于半监督预训练模型的细粒度情感分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210723971.3A CN114896987B (zh) | 2022-06-24 | 2022-06-24 | 基于半监督预训练模型的细粒度情感分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114896987A CN114896987A (zh) | 2022-08-12 |
CN114896987B true CN114896987B (zh) | 2023-04-07 |
Family
ID=82729832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210723971.3A Active CN114896987B (zh) | 2022-06-24 | 2022-06-24 | 基于半监督预训练模型的细粒度情感分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896987B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723083A (zh) * | 2021-07-15 | 2021-11-30 | 东华理工大学 | 基于bert模型的带权消极监督文本情感分析方法 |
CN114065848A (zh) * | 2021-11-08 | 2022-02-18 | 大连大学 | 一种基于预训练情感嵌入的中文方面级别情感分类方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN110516245A (zh) * | 2019-08-27 | 2019-11-29 | 蓝盾信息安全技术股份有限公司 | 细粒度情感分析方法、装置、计算机设备及存储介质 |
US11501187B2 (en) * | 2019-09-24 | 2022-11-15 | International Business Machines Corporation | Opinion snippet detection for aspect-based sentiment analysis |
CN111339260A (zh) * | 2020-03-02 | 2020-06-26 | 北京理工大学 | 一种基于bert和qa思想的细粒度情感分析方法 |
CN112818698B (zh) * | 2021-02-03 | 2022-07-15 | 北京航空航天大学 | 一种基于双通道模型的细粒度的用户评论情感分析方法 |
CN114117041B (zh) * | 2021-11-10 | 2024-05-24 | 北京理工大学 | 一种基于特定属性词上下文建模的属性级情感分析方法 |
-
2022
- 2022-06-24 CN CN202210723971.3A patent/CN114896987B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723083A (zh) * | 2021-07-15 | 2021-11-30 | 东华理工大学 | 基于bert模型的带权消极监督文本情感分析方法 |
CN114065848A (zh) * | 2021-11-08 | 2022-02-18 | 大连大学 | 一种基于预训练情感嵌入的中文方面级别情感分类方法 |
Non-Patent Citations (1)
Title |
---|
李扬 等.基于主题模型的半监督网络文本情感分类研究.数理统计与管理.2016,第35卷(第6期),第961-970页. * |
Also Published As
Publication number | Publication date |
---|---|
CN114896987A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anastasopoulos et al. | Machine learning for public administration research, with application to organizational reputation | |
Miok et al. | Prediction uncertainty estimation for hate speech classification | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
Kabra et al. | Convolutional neural network based sentiment analysis with tf-idf based vectorization | |
Sudheesh et al. | Bidirectional encoder representations from transformers and deep learning model for analyzing smartphone-related tweets | |
Ahmed et al. | Advancement in Bangla Sentiment Analysis: A Comparative Study of Transformer-Based and Transfer Learning Models for E-commerce Sentiment Classification. | |
El-Alfy et al. | Empirical study on imbalanced learning of Arabic sentiment polarity with neural word embedding | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
Gupta et al. | A Comparative Theoretical and Empirical Analysis of Machine Learning Algorithms. | |
Vielma et al. | Sentiment analysis with novel GRU based deep learning networks | |
Pedipina et al. | Sentimental analysis on twitter data of political domain | |
CN114896987B (zh) | 基于半监督预训练模型的细粒度情感分析方法和装置 | |
Han et al. | Forecasting stock excess returns with SEC 8-K filings | |
Gadri et al. | An efficient system to predict customers’ satisfaction on touristic services using ML and DL approaches | |
Shanto et al. | Binary vs. Multiclass Sentiment Classification for Bangla E-commerce Product Reviews: A Comparative Analysis of Machine Learning Models | |
Nsaif et al. | Political Post Classification based on Firefly and XG Boost | |
Dhanta et al. | Twitter sentimental analysis using machine learning | |
Ghosh et al. | Understanding machine learning | |
Pustokhina et al. | Benchmarking Machine Learning for Sentimental Analysis of Climate Change Tweets in Social Internet of Things. | |
Sai et al. | Extraction of Emojis and Texts to Intensify Opinion Mining using Machine Learning and Deep Learning Models | |
Ajmeera et al. | Hamiltonian deep neural network fostered sentiment analysis approach on product reviews | |
Hariguna et al. | Adaptive sentiment analysis using multioutput classification: a performance comparison | |
CN116304058B (zh) | 企业负面信息的识别方法、装置、电子设备及存储介质 | |
Sarıkaya et al. | Deep Learning and Machine Learning Based Sentiment Analysis on BitCoin (BTC) Price Prediction | |
Sharma | SentiNet: A Word-Cloud based approach towards Social Media Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |