CN114116959A - 方面级情感分析方法、装置以及终端 - Google Patents

方面级情感分析方法、装置以及终端 Download PDF

Info

Publication number
CN114116959A
CN114116959A CN202111229773.3A CN202111229773A CN114116959A CN 114116959 A CN114116959 A CN 114116959A CN 202111229773 A CN202111229773 A CN 202111229773A CN 114116959 A CN114116959 A CN 114116959A
Authority
CN
China
Prior art keywords
word
opinion
representation
emotion
word representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111229773.3A
Other languages
English (en)
Other versions
CN114116959B (zh
Inventor
王博
田原
常毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202111229773.3A priority Critical patent/CN114116959B/zh
Publication of CN114116959A publication Critical patent/CN114116959A/zh
Application granted granted Critical
Publication of CN114116959B publication Critical patent/CN114116959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种方面级情感分析方法、装置以及终端。首先获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示;然后确定方面词在目标语句中对应意见词的意见词表示;根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。由于通过判别器与编码器之间的对抗训练,得到了能够生成情感无关方面词表示的反偏见编码器,因此反偏见编码器可以直接根据方面词的文本片段范围生成情感无关方面词表示,在进行方面级情感分类时就不会受到方面词自身的情感偏见的误导,并且通过目标语句中对应意见词的抽取,最终得到准确的方面级情感分类结果。

Description

方面级情感分析方法、装置以及终端
技术领域
本申请涉及自然语言处理及人工智能领域,尤其涉及一种方面级情感分析方法、装置以及终端。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,自然语言,即人们日常使用的语言,而自然语言处理并不是一般地研究自然语言,它在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。
近年来,情感分析逐渐成了自然语言处理领域的一个重要研究方向,方面级情感分析即为其中一个子方向。方面级情感分析的最全面设定是方面情感三元组提取,它由一系列子任务组成,即方面词抽取、方面级情感分类和意见词抽取。在方面级情感分类任务上,目前主流方法通过利用依存句法分析树和图神经网络来实现。
发明内容
本申请提供一种方面级情感分析方法、装置以及终端,可以解决进行方面级情感分类时被方面词的情感偏见误导,从而无法得到准确分类结果的技术问题。
第一方面,本申请提供一种方面级情感分析方法,所述方法包括:
获取目标语句以及所述目标语句中的方面词,通过反偏见编码器生成所述方面词的第一方面词表示,所述第一方面词表示中的情感偏见已消除;
确定所述方面词在所述目标语句中对应意见词的意见词表示;
根据所述第一方面词表示以及所述意见词表示确定第二方面词表示,将所述第二方面词表示输入分类器,得到所述方面词的方面级情感分类结果。
可选地,所述获取目标语句以及所述目标语句中的方面词之前,还包括:通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,所述通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器,包括:通过预设编码器生成中性情感的方面词表示;根据所述中性情感的方面词表示,通过预设判别器得到所述中性情感的方面词表示的偏见情感预测;根据所述偏见情感预测,得到所述预设判别器的训练损失。
可选地,所述通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器,包括:根据所述中性情感的方面词表示,通过预设编码器得到所述中性情感的方面词表示的中性情感预测;根据所述中性情感预测,得到所述预设编码器的对抗损失;根据所述训练损失以及所述对抗损失之间的对抗学习,实现所述预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,所述获取目标语句以及所述目标语句中的方面词,通过反偏见编码器生成所述方面词的第一方面词表示,包括:获取所述方面词在所述目标语句中的文本片段范围,以及所述目标语句中所有词对应的上下文表示;通过反偏见编码器,根据所述文本片段范围以及所述所有词对应的上下文表示,确定所述方面词的第一方面词表示。
可选地,所述确定所述方面词在所述目标语句中对应意见词的意见词表示之前,还包括:获取所述目标语句以及所述目标语句中的至少一个候选意见词;根据所述候选意见词在所述目标语句中对应的文本片段范围得到所述候选意见词的候选意见词表示。
可选地,所述确定所述方面词在所述目标语句中对应意见词的意见词表示,包括:根据所述候选意见词表示,确定所述候选意见词的情感提及得分;根据所述候选意见词表示以及所述第一方面词表示,确定所述候选意见词与所述方面词的对齐得分;根据所述情感提及得分以及所述对齐得分,从所述候选意见词表示中确定所述方面词对应意见词的意见词表示。
可选地,所述根据所述第一方面词表示以及所述意见词表示确定第二方面词表示,包括:根据所述第一方面词表示以及所述意见词表示,确定所述第一方面词表示和所述意见词表示在第二方面词表示中的比例;根据所述比例确定所述第二方面词表示。
第二方面,本申请提供一种方面级情感分析装置,所述装置包括:
方面词表示模块,用于获取目标语句以及所述目标语句中的方面词,通过反偏见编码器生成所述方面词的第一方面词表示,所述第一方面词表示中的情感偏见已消除;
意见词表示模块,用于确定所述方面词在所述目标语句中对应意见词的意见词表示;
情感分类模块,用于根据所述第一方面词表示以及所述意见词表示确定第二方面词表示,将所述第二方面词表示输入分类器,得到所述方面词的方面级情感分类结果。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第四方面,本申请实施例提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序适于由处理器加载并执行上述的方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请提供一种方面级情感分析方法、装置以及终端。首先获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,此时第一方面词表示中的情感偏见已消除;然后确定方面词在目标语句中对应意见词的意见词表示;根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。由于在本申请中,通过判别器与编码器之间的对抗训练,得到了能够生成情感无关方面词表示的反偏见编码器,因此反偏见编码器可以直接根据方面词在目标语句中的文本片段范围生成情感无关方面词表示,在此基础上使方面词对应的意见词的意见词表示也更加准确,这样在进行方面级情感分类时就不会受到情感偏见的误导,最终得到准确的方面级情感分类结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种方面级情感分析方法的示例性系统架构图;
图2为本申请实施例提供的一种方面级情感分析方法的系统交互图;
图3为本申请实施例提供的一种方面级情感分析方法的流程示意图;
图4为本申请实施例提供的一种反偏见编码器的生成过程示意图;
图5为本申请实施例提供的一种方面级情感分析方法的流程示意图;
图6为本申请实施例提供的一种方面级情感分析装置的结构框图;
图7为本申请实施例提供的一种终端的结构示意图。
具体实施方式
为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
请参阅图1,图1为本申请实施例提供的一种方面级情感分析方法的示例性系统架构图。
如图1所示,系统架构可以包括终端101、网络102和服务器103。网络102用于在终端101和服务器103之间提供通信链路的介质。网络102可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端101可以通过网络102与服务器103交互,以接收来自服务器103的消息或向服务器103发送消息,或者终端101可以通过网络102与服务器103交互,进而接收其他用户向服务器103发送的消息或者数据。终端101可以是硬件,也可以是软件。当终端101为硬件时,可以是各种电子设备,包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端101为软件时,可以是安装在上述所列举的电子设备中,其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
服务器103可以是提供各种服务的业务服务器。需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
应理解,图1中的终端、网络以及服务器的数目仅是示意性的,根据实现需要,可以是任意数量的终端、网络以及服务器。
请参阅图2,图2为本申请实施例提供的一种方面级情感分析方法的系统交互图,下面将结合图1和图2介绍一种方面级情感分析方法中系统交互过程。
S201、获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,第一方面词表示中的情感偏见已消除。
可选地,通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器之,包括:通过预设编码器生成中性情感的方面词表示;根据中性情感的方面词表示,通过预设判别器得到中性情感的方面词表示的偏见情感预测;根据偏见情感预测,得到预设判别器的训练损失。
可选地,通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器,还包括:根据中性情感的方面词表示,通过预设编码器得到中性情感的方面词表示的中性情感预测;根据中性情感预测,得到预设编码器的对抗损失;根据训练损失以及对抗损失之间的对抗学习,实现预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,包括:获取方面词在目标语句中的文本片段范围,以及目标语句中所有词对应的上下文表示;通过反偏见编码器,根据文本片段范围以及所有词对应的上下文表示,确定方面词的第一方面词表示。
S202、确定方面词在目标语句中对应意见词的意见词表示。
可选地,确定方面词在目标语句中对应意见词的意见词表示之前,还包括:获取目标语句以及目标语句中的至少一个候选意见词;根据候选意见词在目标语句中对应的文本片段范围得到候选意见词的候选意见词表示。
可选地,确定方面词在目标语句中对应意见词的意见词表示,包括:根据候选意见词表示,确定候选意见词的情感提及得分;根据候选意见词表示以及第一方面词表示,确定候选意见词与方面词的对齐得分;根据情感提及得分以及对齐得分,从候选意见词表示中确定方面词对应意见词的意见词表示。
S203、根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。
可选地,根据第一方面词表示以及意见词表示确定第二方面词表示,包括:根据第一方面词表示以及意见词表示,确定第一方面词表示和意见词表示在第二方面词表示中的比例;根据比例确定第二方面词表示。
本申请提供一种方面级情感分析方法。首先获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,此时第一方面词表示中的情感偏见已消除;然后确定方面词在目标语句中对应意见词的意见词表示;根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。由于在本申请中,通过判别器与编码器之间的对抗训练,得到了能够生成情感无关方面词表示的反偏见编码器,因此反偏见编码器可以直接根据方面词在目标语句中的文本片段范围生成情感无关方面词表示,在此基础上使方面词对应的意见词的意见词表示也更加准确,这样在进行方面级情感分类时就不会受到情感偏见的误导,最终得到准确的方面级情感分类结果。
近年来,情感分析逐渐成了自然语言处理领域的一个重要研究方向,方面级情感分析即为其中一个子方向。方面级情感分析的最全面设定是方面情感三元组提取,它由一系列子任务组成,即方面词抽取、方面级情感分类和意见词抽取。在方面级情感分类任务上,目前主流方法通过利用依存句法分析树和图神经网络来实现。但是目前主流的实现方法不具有可解释性,无法给出预测的情感是基于什么意见来进行判断的,同时在大规模原始语料库上预训练的模型倾向于内化词语的内在属性,在方面级情感分类场景中,就会存在情感偏见,使得模型无视方面词的上下文信息,直接根据方面词的内在情感属性做出分类,最终导致进行方面级情感分类时被方面词的情感偏见误导,从而无法得到准确分类结果。因此本申请实施例提供一种方面级情感分析方法,以解决上述技术问题。
请参阅图3,图3为本申请实施例提供的一种方面级情感分析方法的流程示意图。本申请实施例的执行主体可以是用户软件需求处理系统,也可以是系统中的服务器,还可以是系统中的任意终端。为方便描述,下面以执行主体是服务器为例,介绍方面级情感分析方法的具体执行过程。
如图3所示,方面级情感分析方法至少可以包括:
S301、获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,第一方面词表示中的情感偏见已消除。
可选地,随着近年来计算机神经网络的研究进步,开发者们逐渐开始将神经网络应用于研究自然语言时,神经网络能够在经过训练和学习之后对给定方面词进行情感分析,对方面词的情感极性进行分类是其中的一个重要步骤。在选择神经网络模型时,可以基于Transformer模型来搭建所需要的神经网络,相较于传统的CNN神经网络和RNN神经网络所使用的序列算法,Transformer模型的网络结构完全由注意力机制组成,在研究自然语言时,Transformer模型能够通过注意力机制将相关单词或语句的理解融入语言处理过程,这使得该模型能够对语言具有一定的可解释性。
然而由于Transformer模型的学习特性,使得依赖于Transformer模型搭建的方面词编码器会难以避免的内化方面词的内在属性,那么方面词编码器就会无视上下文信息,而直接根据方面词的内在情感,生成带有情感偏见的方面词表示,导致最终基于方面词表示的方面级情感分类出现误差,对于一些蕴含强烈情感的方面词,甚至可能会直接做出错误分类。
因此在使用不够准确且容易被干扰的Transformer模型前,可以采用对抗训练的方式,对抗训练可以使得Transformer模型学习某种干扰以不断对自己进行优化,最终得到输出的结果不会被干扰所影响的Transformer模型。那么在本申请实施例中,对于会生成带有情感偏见的方面词表示的预设编码器,可以对预设编码器进行关于方面词表示中情感偏见的对抗训练,使得预设编码器能够通过对抗训练,学习消除情感偏见的方面词表示的生成经验,最终得到能够生成情感无关的方面词表示的反偏见编码器。这样就可以通过反偏见编码器得到针对方面词的情感无关的第一方面词表示,也即第一方面词表示中的情感偏见已消除。
可选地,由于对方面词进行方面级情感分类时,通常将一段包括方面词的文本片段或关于方面词的上下文文本片段输入编码器以生成方面词表示,在多数情况下,一般采用方面词所在的语句与方面词拼接的方式来构成方面词表示,但该语句中有时可能包括多个方面词,当语句中包括不止一个方面词时,会对所有方面词进行查找分析,也即需要进行多次前馈过程以最终确定目标方面词,这样就增加了计算机的计算压力,造成了不必要的损耗。
在本申请实施例中,由于语句是方面词提取的依据,因此语句中必定存在方面词,那么可以获取包括方面词的目标语句,并且直接从目标语句中提取方面词,根据方面词在目标语句中的信息确定方面词表示,此时反偏见编码器在对方面词进行方面词表示时,不需要再对目标语句中其他的方面词进行查找分析,也就是说此时可以在单个前馈过程中预测所选择方面词的情感,在使用神经网络分类器进行方面级情感分类时也能够直接根据确定的方面词表示预测情感极性,可以减轻计算机的计算压力。
进一步地,方面词在目标语句中的信息是多种的,其中,可能是文字信息、位置信息、字数信息、文本片段范围信息等,为了在进行方面词表示时,能够准确的在目标语句中确定出方面词,可以将方面词在目标语句中的文本片段范围作为在目标语句中确定方面词的依据,这样能够更加准确的找到方面词,便于反偏见编码器直接生成方面词的情感无关的方面词表示,也即方面词的第一方面词表示。
S302、确定方面词在目标语句中对应意见词的意见词表示。
可选地,由上述介绍可以知道,目标语句中除了存在方面词,还应该存在方面词对应的意见词,该意见词的情感能够表示在目标语句中的方面词的情感极性,因此在反偏见编码器生成方面词的第一方面词表示之后,还需要确定方面词对应意见词的意见词表示,以使得最终神经网络分类器能够有依据对方面词进行方面级情感分类。
可选地,当需要从目标语句中确定方面词对应的意见词时,同样可以训练一个方面词-意见词依赖对齐模型来学习方面词与意见词之间的依赖关系,构建方面词-意见词依赖对齐器,以能够根据方面词表示,进而准确的从目标语句中确定出方面词对应意见词的意见词表示。
进一步地,从目标语句中确定方面词对应的意见词时,通常需要大量的监督数据来使方面词-意见词依赖对齐模型学习到方面词与意见词之间的依赖关系,以得到方面词-意见词依赖对齐器。而在本申请实施例中,由于在预设编码器经过与预设判别器之间的对抗训练的过程中,预设编码器能够根据预设判别器对方面词表示的情感预测结果,得到方面词的对应的情感标签,因此方面词-意见词依赖对齐器可以根据方面词的情感标签进行自动学习,得到方面词与意见词之间的依赖关系,也就代表了,本申请实施例中的方面词-意见词依赖对齐器在学习方面词与意见词之间的依赖关系时,不需要监督数据,进而方面词-意见词依赖对齐器确定方面词对应意见词的意见词表示时,是在无监督设定下完成的。
S303、根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。
可选地,在得到第一方面词表示和方面词对应意见词的意见词表示之后,就能够确定目标语句中方面词的情感极性,此时可以在反偏见编码器和方面词-意见词依赖对齐器的基础上构建一个方面级情感分类器,以对第一方面词表示和其对应的意见词表示进行分析,最终得到方面词在目标语句中的方面级情感分类结果。
可选地,方面级情感分类器对方面词进行情感分类时,为了直观准确的体现第一方面词表示与意见词表示之间的依赖关系,可以根据第一方面词表示以及意见词表示确定出第二方面词表示,此时的第二方面词表示是在没有情感偏见的第一方面词表示的基础上,还体现了目标语句中方面词对应的意见词的情感,因此方面级情感分类器可以直接根据第二方面词表示对方面词进行情感分类,得到方面词在目标语句中的情感极性。
在本申请实施例中,提供一种方面级情感分析方法。首先获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,第一方面词表示中的情感偏见已消除;然后确定方面词在目标语句中对应意见词的意见词表示;根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。由于在本申请中,通过判别器与编码器之间的对抗训练,得到了能够生成情感无关方面词表示的反偏见编码器,因此反偏见编码器可以直接根据方面词在目标语句中的文本片段范围生成情感无关方面词表示,在此基础上使方面词对应的意见词的意见词表示也更加准确,这样在进行方面级情感分类时就不会受到情感偏见的误导,最终得到准确的方面级情感分类结果。
请参阅图4,图4为本申请实施例提供的一种反偏见编码器的生成过程示意图。
从上述实施例的介绍可以知道,方面级情感分析方法至少可以包括:
获取目标语句以及目标语句中的方面词之前,还包括:通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,在对预设编码器进行对抗训练时,可以使用多种训练方式。例如,根据预设编码器的内部结构和参数,使用一些固定的方面词表示数据集进行攻击,预设编码器可以从攻击中学习到攻击的干扰规律,那么就能够针对规律调整优化自己的相关参数,然而,在固定数据集的限制下预设编码器能够做出的优化是有限的,那么输入输出的方面词表示信息量较庞大时,则还是有可能输出不准确的方面词表示。为了使预设编码器能够快速自动的进行大量迭代,可以设置一个能够对方面词表示进行情感预测的预设判别器,让预设判别器与预设编码器进行对抗训练。
其中,预设判别器可以对预设编码器生成的方面词表示进行情感预测,若预测得到的方面词情感极性与方面词本身的情感极性不同,则说明预设编码器所生成的方面词表示不够准确,此时预设编码器将会根据预测结果对自身内部参数进行优化,继续生成方面词表示,再由预设判别器对该方面词表示进行情感预测,那么以此类推,预设编码器与预设判别器将会不断的进行交替迭代,最终当预设判别器对方面词表示的情感预测为方面词本身的情感极性时,就说明预设编码器生成的方面词表示的情感极性已经能够达到反偏见效果了,即得到反偏见编码器。
具体地,请参阅图4,如图4所示,方面级情感分析方法至少可以包括:
S401、通过预设编码器生成中性情感的方面词表示。
可选地,由于在预设编码器和预设判别器进行对抗训练的过程中,预设判别器可以对预设编码器生成的方面词表示进行情感预测,若预测得到的方面词情感极性与方面词本身的情感极性不同,则说明预设编码器所生成的方面词表示不够准确。通过上述实施例的介绍可以知道,在本申请实施例中,预设编码器的训练目的是生成情感无关的方面词表示,那么可以通过预设编码器尽量生成中性情感的方面词表示c,预设判别器就可以对预设编码器生成的中性情感的方面词表示c进行情感预测,也就可以通过预设判别器的情感预测结果获知预设编码器所生成的方面词表示c是否有情感偏见。
进一步地,在预设编码器生成中性情感的方面词表示时,可以将由包括中性情感方面词的样本语句所组成的样本数据集输入预设编码器,使得编码器以此为基础生成中性情感的方面词表示c。预设编码器在生成方面词表示时,可以根据获取到的方面词在样本语句中的文本片段范围,以及样本语句中所有词对应的上下文表示,生成关于中性情感方面词的方面词表示c。
S402、根据中性情感的方面词表示,通过预设判别器得到中性情感的方面词表示的偏见情感预测。
可选地,在预设编码器生成中性情感的方面词表示c之后,预设判别器就可以对该中性情感的方面词表示c进行情感预测。因此可以构建一个基于多层感知机的以c为输入的神经网络分类器作为预设判别器,即为:
p(pr)=softmax(MLP(c;θ(dis)))∈R3
在此过程中,若需要预设判别器对方面词表示进行情感预测,首先需要预设判别器有关于方面词表示的情感预测标准,那么可以在预设判别器中引用单词情感分数字典(SentiWordNet)来作为方面词的先验情感极性y(pr)的获取依据,单词情感分数字典(SentiWordNet)中可以通过方面词查询到它所对应的先验情感极性,也就是方面词的情感偏见,因此,预设判别器就可以通过方面词的情感标签y(pr)来预测中性情感的方面词表示c中的情感偏见,得到中性情感的方面词表示c的偏见情感预测。
S403、根据偏见情感预测,得到预设判别器的训练损失。
可选地,在得到方面词的情感标签y(pr)之后,预设判别器就能够对输入的方面词表示c进行情感预测,得到方面词情感预测与其情感偏见相同的概率为
Figure BDA0003315037490000121
那么结合在训练过程中使用的句子级样本的方面级情感分类数据集D,以及语句中所有方面词的集合A,可以得到预设判别器的训练损失为:
Figure BDA0003315037490000122
S404、根据中性情感的方面词表示,通过预设编码器得到中性情感的方面词表示的中性情感预测。
可选地,由于预设编码器与预设判别器在进行对抗训练时,预设编码器会尽量生成中性情感的方面词表示c,并由预设判别器对方面词表示c进行情感预测,那么预设编码器对于方面词表示c的情感预测一定是中性的,就得到中性情感的方面词表示c的中性情感预测。
S405、根据中性情感预测,得到预设编码器的对抗损失。
可以理解的,根据方面词表示c的中性情感预测,预设编码器就能够得到方面词情感预测为中性情感的概率为
Figure BDA0003315037490000123
并结合在训练过程中使用的句子级样本的方面级情感分类数据集D,以及语句中所有方面词的集合A,可以得到预设编码器的对抗损失为:
Figure BDA0003315037490000124
S406、根据训练损失以及对抗损失之间的对抗学习,实现预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
进一步地,在得到训练损失和对抗损失之后,通过这两个数值之间进行的对抗学习,在这个过程中,预设编码器会针对预设判别器生成的训练损失,对自身参数进行调整优化,再依据新的参数生成新的对抗损失和新的方面词表示;预设判别器将会针对预设编码器生成的新方面词表示,对自身的判别参数进行调整优化,再生成新的训练损失,以此类推,预设判别器和预设编码器将会彼此进行交替迭代,都在对抗训练的过程中对自身相关参数进行优化,最终,当预设编码器生成的方面词表示满足预设条件,即能够生成情感无关的方面词表示时,得到反偏见编码器。
在本申请实施例中,提供了一种反偏见编码器的训练方法以及生成过程。详细介绍了一种可实现的方面词编码器的对抗训练过程,得到能够对方面词生成情感无关方面词表示的反偏见编码器,并在此基础上,根据对方面词情感极性的分析学习,实现无监督设定下在目标语句中对意见词的抽取,最终将意见词表示聚集在方面词表示中得到蕴含意见词情感极性的方面词表示,并通过训练好的方面级情感分类模型对方面词表示进行情感极性分析和分类。
请参阅图5,图5为本申请实施例提供的一种方面级情感分析方法的流程示意图。
如图5所示,方面级情感分析方法至少可以包括:
S501、获取方面词在目标语句中的文本片段范围,以及目标语句中所有词对应的上下文表示。
可选地,通过上述实施例的介绍可以知道,通过反偏见编码器可以直接得到目标语句中方面词的情感无关的第一方面词表示,由于目标语句中一定包括方面词,那么反偏见编码器在生成方面词表示时,可以直接根据目标语句中的方面词的文本片段范围对方面词进行表示。因此,在使用反偏见编码器进行方面词表示时,数据的输入形式是一个没有拼接方面词的目标语句,可以理解的,为了方便表述,设置参数H表示目标语句,a表示方面词,则该目标语句的表示形式为:
H=Transformer-Enc(x;θ(ptm));
其中,H=[h1,…,hn]∈Rd×n表示目标语句中所有词对应的上下文表示,那么为了对目标语句中的方面词a进行准确定位,标记方面词a在目标语句中的起始位置为sa,结束位置为ea,就可以得到方面词在目标语句中的文本片段范围[sa,ea]。
S502、通过反偏见编码器,根据文本片段范围以及所有词对应的上下文表示,确定方面词的第一方面词表示。
可选地,从上述实施例中得到的反偏见编码器,能够直接生成情感无关的方面词表示,也即当使用反偏见编码器对方面词进行表示时,可以得到已将消除情感偏见的第一方面词表示。
进一步地,反偏见编码器可以根据目标语句中所有词对应的上下文表示以及方面词a在目标语句中的文本片段范围[sa,ea],得到方面词a的方面词表示ca为:
Figure BDA0003315037490000141
此时,在方面词表示ca中,Attn-Pool()是该方面词的句子级表示的注意力池化,ca∈R3d是方面词a的文本片段级即方面词表示,这样就避免了对目标语句中可能包括的其他方面词进行表示,减轻了计算机的计算压力和损耗。需要注意的是,在后续部分的公式中,将在不产生冲突和困惑的情况下,省略部分方面词表示ca中的方面词标识符a,也即后续说明中方面词表示c即为方面词表示ca
S503、获取目标语句以及目标语句中的至少一个候选意见词。
可选地,在获取方面词的第一方面词表示之后,此时的第一方面词表示仅包含了方面词自身的情感极性,而若要对方面词在目标语句中的情感极性进行分类,则还需要确定方面词在目标语句中的情感极性,而方面词在目标语句中的情感极性由方面词在目标语句中对应的意见词来体现,因此,可以获取目标语句以及目标语句中方面词对应的意见词来确定方面词在目标语句中的情感极性。
通过上述实施例的介绍可以知道,目标语句中是由方面词与其他词组成的,那么目标语句中的所有文本片段都可能是方面词对应的意见词,可以将目标语句中所有可能是方面词对应的意见词作为候选意见词。可以理解地,为了便于表述,可以定义一个语句为x=[x1,…,xn],那么为了对语句中的一个候选意见词o进行准确定位,标记候选意见词o在目标语句中的起始位置为so,结束位置为eo,就可以得到候选意见词
Figure BDA0003315037490000142
进而得到所有候选意见词的集合为:
Figure BDA0003315037490000143
其中,eo<saVso>ea表示了方面词与它的候选意见词不存在重叠的情况,集合O中候选意见词的个数为m,就可以得到m的表示可以定义为m:=|O|。
S504、根据候选意见词在目标语句中对应的文本片段范围得到候选意见词的候选意见词表示。
可选地,为了通过意见词来确定方面词在语句中的情感极性,那么可以对候选意见词o进行生成候选意见词表示uo,以便于情感分类器基于此对方面词的情感极性进行分析。根据上述实施例,容易理解的,目标语句中所有词对应的上下文表示为H=[h1,…,hn]∈Rd×n,那么为了根据候选意见词o的起始位置so、结束位置eo,就可以得到候选意见词o在目标语句中的文本片段范围[so,eo]。
进一步地,可以根据目标语句中所有词对应的上下文表示H以及候选意见词o在目标语句中的文本片段范围[so,eo],按照与得到方面词表示相同的表示公式可以得到候选意见词o的候选意见词表示uo为:
Figure BDA0003315037490000151
进而得到候选意见词表示uo的集合为
Figure BDA0003315037490000152
S505、根据候选意见词表示,确定候选意见词的情感提及得分。
可选地,为了从候选意见词中确定出方面词对应的意见词,可以根据方面词与其候选意见词之间的依赖程度来确定方面词对应的意见词,在所有候选意见词中,依赖程度最高的意见词就是目标语句中方面词对应的意见词。关于方面词与意见词之间的依赖程度,可以通过候选意见词的情感提及得分来进行衡量,通过情感提及得分可以确定候选意见词是否与情感相关。
可选地,可以根据候选意见词表示uo,确定候选意见词u的情感提及得分,在计算候选意见词的情感提及得分时,首先需要确定候选意见词表示uo的情感分类,可以使用一个以候选意见词表示uo为输入的多层感知机分类器为:
Figure BDA0003315037490000153
当分类器对候选意见词表示uo进行分类时,可以依据一个基于Transformer模型和短语级情感分析数据集(SST,Stanford Sentiment Treebank)训练好的短语级情感分类模型:
Figure BDA0003315037490000154
此时,可以基于这两个神经网络模型对候选意见词表示uo进行情感分类。随后,基于KL散度,也即两个神经网络之间的交叉熵,得到情感学习的软损失为:
Figure BDA0003315037490000161
在此基础上,可以使用候选意见词u的情感极性为非中性情感的概率作为意见词提及是否蕴含情感极性的置信度,也即得到了候选意见词u的情感提及得分:
Figure BDA0003315037490000162
r={ro}o∈O∈Rm
S506、根据候选意见词表示以及第一方面词表示,确定候选意见词与方面词的对齐得分。
进一步地,为了更加准确的确定方面词对应的意见词,可以在衡量方面词语候选词之间的依赖程度时,不仅以候选意见词的情感提及得分作为依据,还可以通过衡量方面词和候选意见词之间的依赖关系,得到方面词-意见词对齐得分,进而确定出最准确的意见词。
可选地,在计算方面词-意见词的对齐得分时,需要先将方面词表示与意见词的表示拼接得到方面词-意见词的依赖关系嵌入表示为:
Figure BDA0003315037490000163
其中,“⊙”代表哈达玛积,即c与uo的矩阵乘积,zo是可学习的代表意见词与方面词在依存句法分析树上距离的位置嵌入表示。
在本申请实施例中,通过使用一个方面词-意见词依赖对齐器来根据方面词-意见词的依赖关系嵌入表示qo进行方面词与意见词之间对应的对齐打分,得到候选意见词与方面词的对齐得分,为:
Figure BDA0003315037490000164
Figure BDA0003315037490000165
由于在预设编码器经过与预设判别器之间的对抗训练的过程中,得到方面词的对应的情感标签,因此方面词-意见词依赖对齐器可以根据方面词的情感标签进行自动学习,得到方面词与意见词之间的依赖关系,也就代表了,本申请实施例中的方面词-意见词依赖对齐器在学习方面词与意见词之间的依赖关系时,不需要监督数据,进而方面词-意见词依赖对齐器确定方面词对应意见词的意见词表示时,是在无监督设定下完成的。
S507、根据情感提及得分以及对齐得分,从候选意见词表示中确定方面词对应意见词的意见词表示。
可选地,基于候选意见词的情感提及得分和方面词-意见词的对齐得分,还需要使用softmax函数来对
Figure BDA0003315037490000171
进行归一化,得到归一化后的对齐得分,并将情感提及得分作为权重,得到候选意见词与方面词的依赖得分为:
Figure BDA0003315037490000172
此时,根据依赖得分,可以从所有候选意见词表示中确定出方面词对应意见词的意见词表示。
进一步地,由于考虑到真实情况中,可能在目标语句中并没有方面词对应的意见词,即方面词不对应语句中任何意见词或语句中不存在意见词,因此可以通过定义一个“虚拟意见片段”来标明方面词在目标语句中不存在对应的意见词。其中,在计算最终依赖得分时,方面词有对应意见词的情况下,意见词的情感提及得分为r,那么方面词没有对应意见词的情况下,代表方面词在语句中的情感极性为自身的情感极性即中性情感,此时将中性情感对应的情感提及得分(1-r)作为计算“虚拟意见片段”依赖得分的权重,即:
Figure BDA0003315037490000173
其中,δ代表缩放超参数,进而根据方面词有对应意见词时的依赖得分f和方面词没有对应意见词时的依赖得分f(d),得到重写的最终依赖得分为:
f←[f;f(d)]∈Rm+1
可选地,在得到候选意见词(包括虚拟意见片段)的最终依赖得分后,基于注意力机制将最终依赖得分嵌入意见词表示,进而确定方面词对应意见词的意见词表示u为:
u=[U,c]·f;
S508、根据第一方面词表示以及意见词表示,确定第一方面词表示和意见词表示在第二方面词表示中的比例。
可选地,确定第一方面词表示和方面词对应的意见词表示之后,为了便于神将网络分类器对该方面词在目标语句中的情感极性进行分类,需要将意见词表示u聚集到第一方面词表示c中,以得到蕴含意见词情感的第二方面词表示v,因此可以通过门机制将意见词表示u聚集到第一方面词表示c中,门机制可以确定意见词表示u和第一方面词表示c在第二方面词表示v中的比例,即为:
g=Sigmoid(MLP([c;u];θ(gm)))∈R3d
S509、根据比例确定第二方面词表示。
可选地,根据基于门机制的计算,得到有情感极性的第二方面词表示v,为:
v=g·c+(1-g)·u;
最后,第二方面词表示v能够表示方面词目标语句中的情感极性,此时第二方面词表示v可用于最终的情感分类。
S5010、将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。
可选地,得到第二方面词表示v之后,定义一个神经网络分类器来对第二方面词表示进行最终的情感分类,那么定义神经网络分类器为:
p(sc)=softmax(MLP(v;θ(sc)))∈R3
此时,分类器在进行方面级情感分类任务的训练损失为:
Figure BDA0003315037490000181
其中,y(sc)代表方面词所对应的正确的情感标签。
在本申请实施例中,最终得到的包括反偏见编码器、方面词-意见词依赖对齐器、情感分类器等多方面神经网络模块的方面级情感分类模型的训练损失为其他三种损失的线性结合,即为:
L(alsc)=L(sc)+βL(adv)+γL(kl)
基于此,通过设置超参数α来控制判别器学习(即L(dis))和方面级情感分类模型学习(即L(alsc))的比例,最终的推理过程可以写作:
y*=argmax p(sc)
进一步地,最终得到训练好的方面级情感分类模型基于预测过程中的中间变量,能够直接在目标语句中抽取方面词对应的意见词,即:
o*=argmax{o,dummy}f;
因此,o*是在无监督设定下,方面级情感分类模型抽取到的句中特定方面词对应的意见词。
在本申请实施例中,提供了一种方面级情感分析方法。由于使用包括方面词的目标语句作为反偏见编码器的输入,则可以直接通过方面词在目标语句中的文本片段范围对方面词进行标记,再结合目标语句中所有词对应的上下文表示,最终直接得到方面词表示,这样就可以避免对目标语句中可能包括的所有方面词都进行表示,减少了计算机的计算压力和损耗。并且由于反偏见编码器可以直接生成情感无关的方面词表示,在此基础上使方面词对应的意见词的意见词表示也更加准确,并且能够在无监督设定下在目标语句中抽取意见词,这样在进行方面级情感分类时就不会受到情感偏见的误导,最终得到准确的方面级情感分类结果。
请参阅图6,图6为本申请实施例提供的一种方面级情感分析装置的结构框图。如图6所示,方面级情感分析装置600包括:
方面词表示模块610,用于获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,第一方面词表示中的情感偏见已消除。
意见词表示模块620,用于确定方面词在目标语句中对应意见词的意见词表示。
情感分类模块630,用于根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。
可选地,方面级情感分析装置600还包括:反偏见编码器生成模块,用于通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,反偏见编码器生成模块,还用于通过预设编码器生成中性情感的方面词表示;根据中性情感的方面词表示,通过预设判别器得到中性情感的方面词表示的偏见情感预测;根据偏见情感预测,得到预设判别器的训练损失。
可选地,反偏见编码器生成模块,还用于根据中性情感的方面词表示,通过预设编码器得到中性情感的方面词表示的中性情感预测;根据中性情感预测,得到预设编码器的对抗损失;根据训练损失以及对抗损失之间的对抗学习,实现预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
可选地,方面词表示模块610,还用于获取方面词在目标语句中的文本片段范围,以及目标语句中所有词对应的上下文表示;通过反偏见编码器,根据文本片段范围以及所有词对应的上下文表示,确定方面词的第一方面词表示。
可选地,方面级情感分析装置600还包括:候选意见词表示模块,用于获取目标语句以及目标语句中的至少一个候选意见词;根据候选意见词在目标语句中对应的文本片段范围得到候选意见词的候选意见词表示。
可选地,意见词表示模块620,还用于根据候选意见词表示,确定候选意见词的情感提及得分;根据候选意见词表示以及第一方面词表示,确定候选意见词与方面词的对齐得分;根据情感提及得分以及对齐得分,从候选意见词表示中确定方面词对应意见词的意见词表示。
可选地,软件生成模块630,还用于编译目标预设代码与预设代码框架组成的代码模型,生成目标软件。
可选地,情感分类模块630,还用于根据第一方面词表示以及意见词表示,确定第一方面词表示和意见词表示在第二方面词表示中的比例;根据比例确定第二方面词表示。
在本申请实施例中,提供一种方面级情感分析装置。首先获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,第一方面词表示中的情感偏见已消除;然后确定方面词在目标语句中对应意见词的意见词表示;根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。由于在本申请中,通过判别器与编码器之间的对抗训练,得到了能够生成情感无关方面词表示的反偏见编码器,因此反偏见编码器可以直接根据方面词在目标语句中的文本片段范围生成情感无关方面词表示,在此基础上使方面词对应的意见词的意见词表示也更加准确,这样在进行方面级情感分类时就不会受到情感偏见的误导,最终得到准确的方面级情感分类结果。
本申请实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
请参见图7,图7为本申请实施例提供的一种终端的结构示意图。如图7所示,终端700可以包括:至少一个处理器701,至少一个网络接口704,用户接口703,存储器705,至少一个通信总线702。
其中,通信总线702用于实现这些组件之间的连接通信。
其中,用户接口703可以包括显示屏(Display)、摄像头(Camera),可选用户接口703还可以包括标准的有线接口、无线接口。
其中,网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个终端700内的各个部分,通过运行或执行存储在存储器705内的指令、程序、代码集或指令集,以及调用存储在存储器705内的数据,执行终端700的各种功能和处理数据。可选的,处理器701可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器701可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器701中,单独通过一块芯片进行实现。
其中,存储器705可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选的,该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示,作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及方面级情感分析程序。
在图7所示的终端700中,用户接口703主要用于为用户提供输入的接口,获取用户输入的数据;而处理器701可以用于调用存储器705中存储的方面级情感分析程序,并具体执行以下操作:
获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示,第一方面词表示中的情感偏见已消除;确定方面词在目标语句中对应意见词的意见词表示;根据第一方面词表示以及意见词表示确定第二方面词表示,将第二方面词表示输入分类器,得到方面词的方面级情感分类结果。
在一些实施例中,处理器701在执行获取目标语句以及目标语句中的方面词之前,还具体执行以下步骤:通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
在一些实施例中,处理器701在执行通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器时,具体执行以下步骤:通过预设编码器生成中性情感的方面词表示;根据中性情感的方面词表示,通过预设判别器得到中性情感的方面词表示的偏见情感预测;根据偏见情感预测,得到预设判别器的训练损失。
在一些实施例中,处理器701在执行通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器时,还具体执行以下步骤:根据中性情感的方面词表示,通过预设编码器得到中性情感的方面词表示的中性情感预测;根据中性情感预测,得到预设编码器的对抗损失;根据训练损失以及对抗损失之间的对抗学习,实现预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
在一些实施例中,处理器701在执行获取目标语句以及目标语句中的方面词,通过反偏见编码器生成方面词的第一方面词表示时,具体执行以下步骤:获取方面词在目标语句中的文本片段范围,以及目标语句中所有词对应的上下文表示;通过反偏见编码器,根据文本片段范围以及所有词对应的上下文表示,确定方面词的第一方面词表示。
在一些实施例中,处理器701在执行确定方面词在目标语句中对应意见词的意见词表示之前,还具体执行以下步骤:获取目标语句以及目标语句中的至少一个候选意见词;根据候选意见词在目标语句中对应的文本片段范围得到候选意见词的候选意见词表示。
在一些实施例中,处理器701在执行确定方面词在目标语句中对应意见词的意见词表示时,具体执行以下步骤:根据候选意见词表示,确定候选意见词的情感提及得分;根据候选意见词表示以及第一方面词表示,确定候选意见词与方面词的对齐得分;根据情感提及得分以及对齐得分,从候选意见词表示中确定方面词对应意见词的意见词表示。
在一些实施例中,处理器701在执行根据第一方面词表示以及意见词表示确定第二方面词表示时,具体执行以下步骤:根据第一方面词表示以及意见词表示,确定第一方面词表示和意见词表示在第二方面词表示中的比例;根据比例确定第二方面词表示。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的一种方面级情感分析方法、装置以及终端的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种方面级情感分析方法,其特征在于,所述方法包括:
获取目标语句以及所述目标语句中的方面词,通过反偏见编码器生成所述方面词的第一方面词表示,所述第一方面词表示中的情感偏见已消除;
确定所述方面词在所述目标语句中对应意见词的意见词表示;
根据所述第一方面词表示以及所述意见词表示确定第二方面词表示,将所述第二方面词表示输入分类器,得到所述方面词的方面级情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取目标语句以及所述目标语句中的方面词之前,还包括:
通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器。
3.根据权利要求2所述的方法,其特征在于,所述通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器,包括:
通过预设编码器生成中性情感的方面词表示;
根据所述中性情感的方面词表示,通过预设判别器得到所述中性情感的方面词表示的偏见情感预测;
根据所述偏见情感预测,得到所述预设判别器的训练损失。
4.根据权利要求3所述的方法,其特征在于,所述通过预设判别器与预设编码器之间的对抗训练,得到反偏见编码器,还包括:
根据所述中性情感的方面词表示,通过预设编码器得到所述中性情感的方面词表示的中性情感预测;
根据所述中性情感预测,得到所述预设编码器的对抗损失;
根据所述训练损失以及所述对抗损失之间的对抗学习,实现所述预设判别器与所述预设编码器之间的对抗训练,得到反偏见编码器。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取目标语句以及所述目标语句中的方面词,通过反偏见编码器生成所述方面词的第一方面词表示,包括:
获取所述方面词在所述目标语句中的文本片段范围,以及所述目标语句中所有词对应的上下文表示;
通过反偏见编码器,根据所述文本片段范围以及所述所有词对应的上下文表示,确定所述方面词的第一方面词表示。
6.根据权利要求1所述的方法,其特征在于,所述确定所述方面词在所述目标语句中对应意见词的意见词表示之前,还包括:
获取所述目标语句以及所述目标语句中的至少一个候选意见词;
根据所述候选意见词在所述目标语句中对应的文本片段范围得到所述候选意见词的候选意见词表示。
7.根据权利要求5所述的方法,其特征在于,所述确定所述方面词在所述目标语句中对应意见词的意见词表示,包括:
根据所述候选意见词表示,确定所述候选意见词的情感提及得分;
根据所述候选意见词表示以及所述第一方面词表示,确定所述候选意见词与所述方面词的对齐得分;
根据所述情感提及得分以及所述对齐得分,从所述候选意见词表示中确定所述方面词对应意见词的意见词表示。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一方面词表示以及所述意见词表示确定第二方面词表示,包括:
根据所述第一方面词表示以及所述意见词表示,确定所述第一方面词表示和所述意见词表示在第二方面词表示中的比例;
根据所述比例确定所述第二方面词表示。
9.一种方面级情感分析装置,其特征在于,所述装置包括:
方面词表示模块,用于获取目标语句以及所述目标语句中的方面词,通过反偏见编码器生成所述方面词的第一方面词表示,所述第一方面词表示中的情感偏见已消除;
意见词表示模块,用于确定所述方面词在所述目标语句中对应意见词的意见词表示;
情感分类模块,用于根据所述第一方面词表示以及所述意见词表示确定第二方面词表示,将所述第二方面词表示输入分类器,得到所述方面词的方面级情感分类结果。
10.一种终端,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~7任一项所述方法的步骤。
CN202111229773.3A 2021-10-21 2021-10-21 方面级情感分析方法、装置以及终端 Active CN114116959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111229773.3A CN114116959B (zh) 2021-10-21 2021-10-21 方面级情感分析方法、装置以及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111229773.3A CN114116959B (zh) 2021-10-21 2021-10-21 方面级情感分析方法、装置以及终端

Publications (2)

Publication Number Publication Date
CN114116959A true CN114116959A (zh) 2022-03-01
CN114116959B CN114116959B (zh) 2024-07-16

Family

ID=80376500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111229773.3A Active CN114116959B (zh) 2021-10-21 2021-10-21 方面级情感分析方法、装置以及终端

Country Status (1)

Country Link
CN (1) CN114116959B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778967A (zh) * 2023-08-28 2023-09-19 清华大学 基于预训练模型的多模态情感识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN109492229A (zh) * 2018-11-23 2019-03-19 中国科学技术大学 一种跨领域情感分类方法和相关装置
CN111259674A (zh) * 2020-01-13 2020-06-09 济南浪潮高新科技投资发展有限公司 基于gan网络的文字校对和情感分析方法、设备及介质
CN112966503A (zh) * 2021-03-22 2021-06-15 山东建筑大学 方面级情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN109492229A (zh) * 2018-11-23 2019-03-19 中国科学技术大学 一种跨领域情感分类方法和相关装置
CN111259674A (zh) * 2020-01-13 2020-06-09 济南浪潮高新科技投资发展有限公司 基于gan网络的文字校对和情感分析方法、设备及介质
CN112966503A (zh) * 2021-03-22 2021-06-15 山东建筑大学 方面级情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘思叶;田原;冯雨宁;庄育龙;: "游客微博主题情感分析方法比较研究", 北京大学学报(自然科学版), no. 04, 18 April 2018 (2018-04-18) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778967A (zh) * 2023-08-28 2023-09-19 清华大学 基于预训练模型的多模态情感识别方法及装置
CN116778967B (zh) * 2023-08-28 2023-11-28 清华大学 基于预训练模型的多模态情感识别方法及装置

Also Published As

Publication number Publication date
CN114116959B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
US12056458B2 (en) Translation method and apparatus based on multimodal machine learning, device, and storage medium
US11501182B2 (en) Method and apparatus for generating model
WO2022007823A1 (zh) 一种文本数据处理方法及装置
JP6887026B2 (ja) 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置
CN109214386B (zh) 用于生成图像识别模型的方法和装置
JP7316453B2 (ja) オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体
KR20210070891A (ko) 번역품질 평가 방법 및 장치
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
CN110413988A (zh) 文本信息匹配度量的方法、装置、服务器及存储介质
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
WO2019154411A1 (zh) 词向量更新方法和装置
JP7438303B2 (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113707299A (zh) 基于问诊会话的辅助诊断方法、装置及计算机设备
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN109902273A (zh) 关键词生成模型的建模方法和装置
CN110826325A (zh) 一种基于对抗训练的语言模型预训练方法、系统及电子设备
CN114116959A (zh) 方面级情感分析方法、装置以及终端
CN116580704A (zh) 语音识别模型的训练方法、语音识别方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant