CN114564967B - 一种面向情感语义的语义标注及语义依存分析方法及装置 - Google Patents
一种面向情感语义的语义标注及语义依存分析方法及装置 Download PDFInfo
- Publication number
- CN114564967B CN114564967B CN202210462984.XA CN202210462984A CN114564967B CN 114564967 B CN114564967 B CN 114564967B CN 202210462984 A CN202210462984 A CN 202210462984A CN 114564967 B CN114564967 B CN 114564967B
- Authority
- CN
- China
- Prior art keywords
- semantic
- emotion
- text
- word
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向情感语义的语义标注及语义依存分析方法及装置,涉及自然语言处理技术领域。包括:获取待分析的文本;将文本输入到构建好的情感语义模型;其中,情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型;根据文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,标注及分析结果包括情感语义标注结果以及语义分析结果,情感语义标注结果根据文本以及情感语义依存表示及标注模块得到,语义分析结果根据文本以及情感语义依存模型得到。本发明能够构建面向情感的深层语义形式化表示方案,以及构建面向情感语义的深层语义分析算法框架,可以输出高质量的深层情感语义分析结果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是指一种面向情感语义的语义标注及语义依存分析方法及装置。
背景技术
情感分析又称意见挖掘,主要的研究集中在情感分类和细粒度意见挖掘两大方向。其中,情感分类的目标是判别给定文本所蕴含的情感极性,具体有褒贬判别、情绪分类、讽刺检测、幽默识别、虚假评论检测以及立场检测等任务;此方向主要由机器学习或者深度学习的分类模型实现,较为简单。现实场景中,很多应用关注的不仅仅只是情感分类得到的情感倾向性,细粒度的意见(情感)要素比如意见持有者、意见对象、意见属性、意见描述词、意见产生原因等以及意见各个要素之间的关联也是上层相关应用进行决策时所需要了解的信息,因此细粒度意见挖掘、细粒度情感分析或者观点抽取是另一大方向,主要实现方法有基于span(语块)的模型、基于转移 (又称移进归约算法) 的模型和基于序列标注的模型。
依存分析是句法分析的一种,目标是解析出句子中各词语之间的句法依存关系(如谁是谁的形容词、辅助词、定冠词、主语等,以树结构呈现),最常用的句法依存关系的定义是通用依存,常用的模型分为基于转移的模型和基于双仿射分类器的模型。
语义分析主要分析给定句子中的语义信息,包括词义消歧、语义角色标注、指代消歧等任务。语义依存分析是指在句子结构中分析实词和实词之间的语义关系,这种关系是一种事实上或逻辑上的关系,且只有当词语进入到句子时才会存在。语义依存分析的目的即回答句子的“Who did what to whom when and where”的问题。例如句子“张三昨天告诉李四一个秘密”,语义依存分析可以回答四个问题,即谁告诉了李四一个秘密,张三告诉谁一个秘密,张三什么时候告诉李四一个秘密,张三告诉李四什么。语义依存分析的主要方法有基于转移的模型和基于图(使用双仿射分类器)的模型。
语义信息对意见挖掘非常有帮助,但是目前相关两者结合的研究工作仍然比较少,使用方式也比较简单,大部分仅仅只是考虑了提升意见挖掘分析性能这一目标。Johansson和 Moschitti (2010, 2011)均使用了语义角色标注信息,人工将一些语义特征组合在一起,融入到统计机器学习模型中,取得了一定的效果,表明了语义信息对意见挖掘是具有价值的。Marasovic和Frank (2018)提出了一种基于多任务学习的方法,将语义角色标注和细粒度意见挖掘结合在一起,其背后直觉是认为这两个任务存在一定相似性,例如意见持有者一般是某个谓词的施事类似意见对象一般是某个谓词的受事,其实验结果发现多任务联合学习方式非常有效。为了增强意见挖掘模型的可靠性以及可用性,应尽可能弱化与输入句子表述形式相关的特征,因此深层语义是一类比较好的特征来源。不仅如此,深层语义特征还能为模型带来很好的可解释性,从而能更有效为上层应用服务。当前深层语义分析之所以还没有应用于意见挖掘,其主要原因在于缺乏一个比较合理的面向情感的语义表示方案和高性能语义分析系统。
现有的语义依存结构方案主要有三个:DM(Discourse Marker,话语标记),PAS(Predicate-Argument Structures,谓词论元结构)和PSD (Prague SemanticDependencies,布拉格语义依赖关系)。它们都是面向通用语义分析所制定和设计的,并不是针对情感语义的方案,缺少描述情感语义关系的标签,无法全面的建模和表达给定文本中的完整情感语义。
基于这些方案的语义依存解析模型,解码端主要有移进归约算法和双仿射分类算法,编码端主要由LSTM(Long Short Term Memory Network,长短时记忆网络)网络组成,词表示部分通常是词嵌入、字嵌入的和、词元嵌入、和词性嵌入等拼接而成的向量表示。现有的研究和技术中,通常基于上述算法框架构建模型,并在解码、编码和词表示三个部分进行算法改进,并基于前述三种语义依存结构对应的数据集分别进行训练和性能测试评价。
因此,如何构建面向情感的深层语义形式化表示方案,以及构建面向情感语义的深层语义分析算法框架,可以输出高质量的深层情感语义分析结果,是现有
技术亟需解决的问题。
发明内容
本发明针对,如何构建面向情感的深层语义形式化表示方案,以及构建面向情感语义的深层语义分析算法框架,可以输出高质量的深层情感语义分析结果的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种面向情感语义的语义标注及语义依存分析方法,该方法由电子设备实现,该方法包括:
S1、获取待分析的文本。
S2、将文本输入到构建好的情感语义模型;其中,情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型。
S3、根据文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,标注及分析结果包括情感语义标注结果以及语义分析结果,情感语义标注结果根据文本以及情感语义依存表示及标注模块得到,语义分析结果根据文本以及情感语义依存模型得到。
可选地,情感语义依存表示及标注模块包括情感语义依存表示模块以及情感语义标注模块。
S3中的情感语义标注结果根据文本以及情感语义依存表示及标注模块得到包括:
S31、根据文本以及情感语义依存表示模块,得到情感语义依存表示结果;其中,情感语义依存表示结果的表达方式为依存图。
S32、根据情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果。
可选地,S31中的根据文本以及情感语义依存表示模块,得到情感语义依存表示结果包括:
S311、对文本进行预处理,得到文本中每个词语对应的语义义项;其中,对文本进行预处理包括对文本中的每个词语进行语义标准化或对文本中的每个词语进行语义消歧。
S312、将语义义项转换为一组三元组(E1,R,E2),得到情感语义依存表示结果;其中,三元组中的E1和E2为语义义项,R为E1和E2之间的关系。
可选地,S32中的根据情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果包括:
S321、对情感语义依存表示结果中文本的词语进行标准化。
S322、对标准化后的文本中的词语进行词义标注。
S323、对标注后的文本中的词语进行情感触发词标注。
S324、对情感触发词标注后的文本中词语之间的连接关系进行标注,得到标注连接关系后的文本中指定的词语对。
S325、对标注连接关系后的文本中指定的词语对进行标注语义关系,得到情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用众包的方法得到文本的情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用局部标注策略得到文本的情感语义标注结果;其中,局部标注策略为在给定条件下给出文本中相关词语的情感语义标注结果。
得到文本的情感语义标注结果的过程由后台标注管理监控系统进行监控。
可选地,情感语义依存模型由基于管道模型架构得到。
S3中的语义分析结果根据文本以及情感语义依存模型得到包括:
对文本中的词语进行语义标准化,得到每个词语以及词语对应的语义义项。
将每个词语以及词语对应的语义义项转换为词语的输入特征向量。
根据词语的输入特征向量以及特征编码器,得到情感语义依存特征编码结果。
根据情感语义依存特征编码结果以及基于深度学习的解析模型,得到文本的语义分析结果;其中,基于深度学习的解析模型的算法包括移进归约算法或双仿射算法。
可选地,对文本中的词语进行语义标准化,得到每个词语以及词语对应的语义义项包括:
采用分类模型将文本中的词语分为与情感语义有关的词语和与情感语义无关的词语。
计算与情感语义有关的词语和情感语义知识库中的语义义项之间的关联度,选取关联度最高的语义义项作为与情感语义有关的词语的语义义项。
可选地,将每个词语以及词语对应的语义义项转换为词语的输入特征向量包括:
获取词语的特征向量以及词语对应的语义义项的特征向量。
将词语的特征向量以及词语对应的语义义项的特征向量进行拼接,得到词语的输入特征向量。
另一方面,本发明提供了一种面向情感语义的语义标注及语义依存分析装置,该装置应用于实现面向情感语义的语义标注及语义依存分析方法,该装置包括:
获取模块,用于获取待分析的文本。
输入模块,用于将文本输入到构建好的情感语义模型;其中,情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型。
输出模块,用于根据文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,标注及分析结果包括情感语义标注结果以及语义分析结果,情感语义标注结果根据文本以及情感语义依存表示及标注模块得到,语义分析结果根据文本以及情感语义依存模型得到。
可选地,情感语义依存表示及标注模块包括情感语义依存表示模块以及情感语义标注模块。
可选地,输出模块,进一步用于:
S31、根据文本以及情感语义依存表示模块,得到情感语义依存表示结果;其中,情感语义依存表示结果的表达方式为依存图。
S32、根据情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果。
可选地,输出模块,进一步用于:
S311、对文本进行预处理,得到文本中每个词语对应的语义义项;其中,对文本进行预处理包括对文本中的每个词语进行语义标准化或对文本中的每个词语进行语义消歧。
S312、将语义义项转换为一组三元组(E1,R,E2),得到情感语义依存表示结果;其中,三元组中的E1和E2为语义义项,R为E1和E2之间的关系。
可选地,输出模块,进一步用于:
S321、对情感语义依存表示结果中文本的词语进行标准化。
S322、对标准化后的文本中的词语进行词义标注。
S323、对标注后的文本中的词语进行情感触发词标注。
S324、对情感触发词标注后的文本中词语之间的连接关系进行标注,得到标注连接关系后的文本中指定的词语对。
S325、对标注连接关系后的文本中指定的词语对进行标注语义关系,得到情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用众包的方法得到文本的情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用局部标注策略得到文本的情感语义标注结果;其中,局部标注策略为在给定条件下给出文本中相关词语的情感语义标注结果。
得到文本的情感语义标注结果的过程由后台标注管理监控系统进行监控。
可选地,情感语义依存模型由基于管道模型架构得到。
可选地,输出模块,进一步用于:
对文本中的词语进行语义标准化,得到每个词语以及词语对应的语义义项。
将每个词语以及词语对应的语义义项转换为词语的输入特征向量。
根据词语的输入特征向量以及特征编码器,得到情感语义依存特征编码结果。
根据情感语义依存特征编码结果以及基于深度学习的解析模型,得到文本的语义分析结果;其中,基于深度学习的解析模型的算法包括移进归约算法或双仿射算法。
可选地,输出模块,进一步用于:
采用分类模型将文本中的词语分为与情感语义有关的词语和与情感语义无关的词语。
计算与情感语义有关的词语和情感语义知识库中的语义义项之间的关联度,选取关联度最高的语义义项作为与情感语义有关的词语的语义义项。
可选地,输出模块,进一步用于:
获取词语的特征向量以及词语对应的语义义项的特征向量。
将词语的特征向量以及词语对应的语义义项的特征向量进行拼接,得到词语的输入特征向量。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述面向情感语义的语义标注及语义依存分析方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述面向情感语义的语义标注及语义依存分析方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,所提出的面向情感语义的语义依存分析任务,针对情感分析这一方向进行了创新性设计,能够方便分析句子中蕴含的丰富的深层情感语义信息,提供情感语句的语义结构,为意见挖掘等下游任务提供丰富的语义信息。
本发明所提出的情感语义依存结构表示方案和标注方法,可以很好的刻画句子中以表达情感为核心的各词汇语义义项和词汇语义关系,形式简单、直观且易大规模标注,并且众包方法可以控制标注成本。
本发明所提出的情感语义依存分析模型框架,通过将词汇义项融入模型中来引入情感语义知识库中的先验知识,能够一定程度上减少文本和词汇歧义的干扰,可以增强分析模型的性能和鲁棒性。基于管道结构有效的将词汇义项分析和语义依存结构解析两部分解耦,降低了系统构建难度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的面向情感语义的语义标注及语义依存分析方法流程示意图;
图2是本发明实施例提供的情感语义依存分析例句示意图;
图3是本发明实施例提供的词汇语义标准化和知识库示例图;
图4是本发明实施例提供的情感语义依存分析标注流程示意图;
图5是本发明实施例提供的情感语义依存分析模型框架示意图;
图6是本发明实施例提供的面向情感语义的语义标注及语义依存分析装置框图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种面向情感语义的语义标注及语义依存分析方法,该方法可以由电子设备实现。如图1所示的面向情感语义的语义标注及语义依存分析方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待分析的文本。
S2、将文本输入到构建好的情感语义模型。
其中,情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型。
S3、根据文本以及情感语义模型,得到待分析的文本的标注及分析结果。
其中,标注及分析结果包括情感语义标注结果以及语义分析结果,情感语义标注结果根据文本以及情感语义依存表示及标注模块得到,语义分析结果根据文本以及情感语义依存模型得到。
可选地,情感语义依存表示及标注模块包括情感语义依存表示模块以及情感语义标注模块。
S3中的情感语义标注结果根据文本以及情感语义依存表示及标注模块得到包括:
S311、根据文本以及情感语义依存表示模块,得到情感语义依存表示结果;其中,情感语义依存表示结果的表达方式为依存图。
可选地,S311中的根据文本以及情感语义依存表示模块,得到情感语义依存表示结果包括:
S3111、对文本进行预处理,得到文本中每个词语对应的语义义项;其中,对文本进行预处理包括对文本中的每个词语进行语义标准化或对文本中的每个词语进行语义消歧。
一种可行的实施方式中,情感语义依存分析的主要目的是以句子中表达情感的词汇为核心挖掘各词汇语义之间的相互关联与依赖关系。本发明采用基于依存图的语义表示方法,如图2所示例子,基于依存图的深层语义表示简单直观,而且适合展开大规模语料标注。
具体地,首先需要将句子中的各词语进行语义标准化或语义消歧,找到每个词语对应的语义义项。如图3所示,比如“乔丹”一词本身可以指篮球明星或著名机器学习学者,在本句中被识别为“篮球明星乔丹”这个义项。
S3112、将语义义项转换为一组三元组(E1,R,E2),得到情感语义依存表示结果;其中,三元组中的E1和E2为语义义项,R为E1和E2之间的关系。
一种可行的实施方式中,找到每个词语对应的语义义项后需定义语义依存关系结构。本质上而言,基于依存的语义表示方法就是将语义转换成为一组三元组(E1, R, E2)的集合,如图2右上角所示。在每个三元组中,E1和E2为语义义项,R为这两个义项之间的关系;从基于逻辑语义的角度而言,可以将E1看成一个逻辑谓词,R为谓词论元类型,E2为论元的值。本申请规定有7种关系,分别是核心词(root,“喜欢#1”是句子S的核心情感词)、施事(agent,“我#1”是“喜欢#1”这个情感语义的发出者)、受事(patient,“乔丹#2”是“喜欢#1”这个情感语义的目标)、时期(duration,“一直#1”表示“喜欢#1”的持续时间)、范围(coverage,“完全#2”表示了“喜欢#1”的覆盖范围)、强度(intensity,“非常#1”表达了“喜欢#1”的程度)以及属性(attribute,“球星#1”是“乔丹#2”的属性)。
S312、根据情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果。
可选地,S312中的根据情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果包括:
S3121、对情感语义依存表示结果中文本的词语进行标准化。
S3122、对标准化后的文本中的词语进行词义标注。
S3123、对标注后的文本中的词语进行情感触发词标注。
S3124、对情感触发词标注后的文本中词语之间的连接关系进行标注,得到标注连接关系后的文本中指定的词语对。
S3125、对标注连接关系后的文本中指定的词对进行标注语义关系,得到情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用众包的方法得到文本的情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用局部标注策略得到文本的情感语义标注结果;其中,局部标注策略为在给定条件下给出文本中相关词语的情感语义标注结果。
得到文本的情感语义标注结果的过程由后台标注管理监控系统进行监控。
一种可行的实施方式中,情感语义依存结构的标注方法和流程如图4所示:首先对句子中的词进行标准化;然后进行词义标注;第三步确定情感触发词,也就是情感语义分析的核心词;第四步确定哪些词之间存在连接关系;最后一步对于指定的词语对,标注其语义关系。这五步中,除了最后一步难度比较大,需要理解情感语义依存标注体系之外,其它步骤在有一定提示的情况下均可以让普通非专业人士标注,因此可以采用众包的方式得到高质量的标注结果。
进一步地,可以搭建语义标注的标注平台用于得到文本的情感语义标注结果。在搭建语义标注的标注平台时,为了方便众包标注,可以采用局部标注策略,同时提供高质量的标注提示,并且最简化标注动作,也可以构建后台标注管理监控系统,以保证每个用户的标注质量。
其中,局部标注策略是指每个用户并不需要整句标注,只是在指定条件下给出相关部分标注。高质量的标注提示来源的策略有很多,举例来说可以在现有语料下训练一个任务分析器,对候选答案进行排序和裁剪。另一方面,台标注管理监控系统也可以提供其它相关信息,例如在词义标注时,可以给出每个词义的近义词或者详细解释;在标注情感语义依存边时,可以提供当前通用语义依存分析的结果,或者语义角色标注的结果。
可选地,情感语义依存模型由基于管道模型架构得到。
一种可行的实施方式中,本发明提出的情感语义依存模型框架基于管道模型架构,即首先使用一个独立的算法进行词汇语义标准化,得到输入句子的每个词语和其对应的语义义项,然后使用另一个独立的算法进行情感语义依存结构的解析。需要注意的是,由于本发明只是提出了模型框架,并不涉及技术改进,故不阐述所使用的各种算法和模型的详细技术原理。
S3中的语义分析结果根据文本以及情感语义依存模型得到包括:
S321、对文本中的词语进行语义标准化,得到每个词语以及词语对应的语义义项。
可选地,对文本中的词语进行语义标准化,得到每个词语以及词语对应的语义义项包括:
S3211、采用分类模型将文本中的词语分为与情感语义有关的词语和与情感语义无关的词语。
S3212、计算与情感语义有关的词语和情感语义知识库中的语义义项之间的关联度,选取关联度最高的语义义项作为与情感语义有关的词语的语义义项。
一种可行的实施方式中,词汇语义标准化的目标是为文本中的每个词,赋予对应的情感语义义项,如图3给出了一个具体例子。在分析过程中,每个词的候选义项在一个情感语义知识库中已预先定义,如图3下部分,其中左边为情感语义义项定义,右边为例句中每个词对应的候选语义义项,具体情感语义知识库的建设方案可以参考HowNet知网等通用知识库的构建方法,不需要创新性设计,因此不做赘述。
进一步地,输入句子中的所有词语,可以分为与情感语义有关的词语和与情感语义无关的词语,具体可以是首先使用基于BERT(Bidirectional Encoder Representationsfrom Transformer,双向编码器表示)模型的2分类模型对二者进行识别。对于所识别出的有关词,可以将其情感语义知识库中的义项表示联合在一起分析,计算其与义项之间的关联度,选取关联度最高的义项。其中,词的特征表示也由BERT进行抽取,义项的特征表示使用TransE(Translating Embedding,多元关系数据嵌入)算法从情感语义知识库中计算。如图4所示,无关词为词义分析结果以“#0”为后缀的那些词。
S322、将每个词语以及词语对应的语义义项转换为词语的输入特征向量。
可选地,将每个词语以及词语对应的语义义项转换为词语的输入特征向量包括:
S3221、获取词语的特征向量以及词语对应的语义义项的特征向量。
S3222、将词语的特征向量以及词语对应的语义义项的特征向量进行拼接,得到词语的输入特征向量。
S323、根据词语的输入特征向量以及特征编码器,得到情感语义依存特征编码结果。
S324、根据情感语义依存特征编码结果以及基于深度学习的解析模型,得到文本的语义分析结果;其中,基于深度学习的解析模型的算法包括移进归约算法或双仿射算法。
一种可行的实施方式中,句子级别的语义分析属于自然语言处理中的结构学习问题,有监督的模型是当前分析方法的一个主流设置。在对语义依存图的分析中,基于移进归约的方法更受欢迎,并取得了比较好的性能,其核心思想是将一个语义依存图的建立过程转换成为一系列动作,具体包括将待分析词语移入指定区域、对词语进行归约建立语义连接以及语义关系标注这几大类,每一步动作执行会将语义分析向前推进一步,同时对应一个部分语义的分析结果,并且它也是下一步移进归约动作分类评分的依据。除了基于转移的方法之外,基于图的双仿射分类的方法也非常有效,虽然该方法目前主要是应用于基于树的分析,但是该方法也可以非常方便的扩展到依存图分析上面。图5给出了情感语义依存分析模型的框架,框架主要包括两部分,一部分是编码端,负责特征表示;另一部分是解码端,其核心内容是建模方式,即使用移进归约算法或者基于图的双仿射分类算法。
具体地,特征表示方案采用基于深度学习的方法,如图5的编码端所示。本框架中,词汇标准化的结果是情感语义依存分析的一个基本输入,其中义项的表示非常重要,它可以弱化模型对外在输入词汇的依赖,从而提升深层语义分析模型在不同数据上的抗干扰能力。
其中,情感语义依存模型框架的计算流程可以包括:(1)输入特征计算;首先将词语特征向量和相应义项的特征向量进行拼接,得到每个词语的输入特征向量,其中词语特征向量可以基于词嵌入或者预训练语言模型BERT等得到;(2)情感语义依存特征编码;可以采用Transformer特征编码器或LSTM(Long Short-Term Memory,长短期记忆网络)等较为常用的特征编码器;(3)情感语义依存结构解码,得到最终结果;可以采用移进归约算法或者双仿射算法,具体算法的选择由实践决定,其中,双仿射算法一般具有较高的解析速度。
情感语义依存模型遵循基本的深度学习范式,可以使用Adam(Adaptivemomentum,自适应动量)算法在标注数据上进行训练优化。
本发明实施例中,所提出的面向情感语义的语义依存分析任务,针对情感分析这一方向进行了创新性设计,能够方便分析句子中蕴含的丰富的深层情感语义信息,提供情感语句的语义结构,为意见挖掘等下游任务提供丰富的语义信息。
本发明所提出的情感语义依存结构表示方案和标注方法,可以很好的刻画句子中以表达情感为核心的各词汇语义义项和词汇语义关系,形式简单、直观且易大规模标注,并且众包方法可以控制标注成本。
本发明所提出的情感语义依存分析模型框架,通过将词汇义项融入模型中来引入情感语义知识库中的先验知识,能够一定程度上减少文本和词汇歧义的干扰,可以增强分析模型的性能和鲁棒性。基于管道结构有效的将词汇义项分析和语义依存结构解析两部分解耦,降低了系统构建难度。
如图6所示,本发明实施例提供了一种面向情感语义的语义标注及语义依存分析装置600,该装置600应用于实现面向情感语义的语义标注及语义依存分析方法,该装置600包括:
获取模块610,用于获取待分析的文本。
输入模块620,用于将文本输入到构建好的情感语义模型;其中,情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型。
输出模块630,用于根据文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,标注及分析结果包括情感语义标注结果以及语义分析结果,情感语义标注结果根据文本以及情感语义依存表示及标注模块得到,语义分析结果根据文本以及情感语义依存模型得到。
可选地,情感语义依存表示及标注模块包括情感语义依存表示模块以及情感语义标注模块。
可选地,输出模块630,进一步用于:
S31、根据文本以及情感语义依存表示模块,得到情感语义依存表示结果;其中,情感语义依存表示结果的表达方式为依存图。
S32、根据情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果。
可选地,输出模块630,进一步用于:
S311、对文本进行预处理,得到文本中每个词语对应的语义义项;其中,对文本进行预处理包括对文本中的每个词语进行语义标准化或对文本中的每个词语进行语义消歧。
S312、将语义义项转换为一组三元组(E1,R,E2),得到情感语义依存表示结果;其中,三元组中的E1和E2为语义义项,R为E1和E2之间的关系。
可选地,输出模块,进一步用于:
S321、对情感语义依存表示结果中文本的词语进行标准化。
S322、对标准化后的文本中的词语进行词义标注。
S323、对标注后的文本中的词语进行情感触发词标注。
S324、对情感触发词标注后的文本中词语之间的连接关系进行标注,得到标注连接关系后的文本中指定的词语对。
S325、对标注连接关系后的文本中指定的词语对进行标注语义关系,得到情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用众包的方法得到文本的情感语义标注结果。
可选地,得到文本的情感语义标注结果的方法包括:采用局部标注策略得到文本的情感语义标注结果;其中,局部标注策略为在给定条件下给出文本中相关词语的情感语义标注结果。
得到文本的情感语义标注结果的过程由后台标注管理监控系统进行监控。
可选地,情感语义依存模型由基于管道模型架构得到。
可选地,输出模块,进一步用于:
对文本中的词语进行语义标准化,得到每个词语以及词语对应的语义义项。
将每个词语以及词语对应的语义义项转换为词语的输入特征向量。
根据词语的输入特征向量以及特征编码器,得到情感语义依存特征编码结果。
根据情感语义依存特征编码结果以及基于深度学习的解析模型,得到文本的语义分析结果;其中,基于深度学习的解析模型的算法包括移进归约算法或双仿射算法。
可选地,输出模块,进一步用于:
采用分类模型将文本中的词语分为与情感语义有关的词语和与情感语义无关的词语。
计算与情感语义有关的词语和情感语义知识库中的语义义项之间的关联度,选取关联度最高的语义义项作为与情感语义有关的词语的语义义项。
可选地,输出模块630,进一步用于:
获取词语的特征向量以及词语对应的语义义项的特征向量。
将词语的特征向量以及词语对应的语义义项的特征向量进行拼接,得到词语的输入特征向量。
本发明实施例中,所提出的面向情感语义的语义依存分析任务,针对情感分析这一方向进行了创新性设计,能够方便分析句子中蕴含的丰富的深层情感语义信息,提供情感语句的语义结构,为意见挖掘等下游任务提供丰富的语义信息。
本发明所提出的情感语义依存结构表示方案和标注方法,可以很好的刻画句子中以表达情感为核心的各词汇语义义项和词汇语义关系,形式简单、直观且易大规模标注,并且众包方法可以控制标注成本。
本发明所提出的情感语义依存分析模型框架,通过将词汇义项融入模型中来引入情感语义知识库中的先验知识,能够一定程度上减少文本和词汇歧义的干扰,可以增强分析模型的性能和鲁棒性。基于管道结构有效的将词汇义项分析和语义依存结构解析两部分解耦,降低了系统构建难度。
图7是本发明实施例提供的一种电子设备700的结构示意图,该电子设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)701和一个或一个以上的存储器702,其中,存储器702中存储有至少一条指令,至少一条指令由处理器701加载并执行以实现下述面向情感语义的语义标注及语义依存分析方法:
S1、获取待分析的文本。
S2、将文本输入到构建好的情感语义模型;其中,情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型。
S3、根据文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,标注及分析结果包括情感语义标注结果以及语义分析结果,情感语义标注结果根据文本以及情感语义依存表示及标注模块得到,语义分析结果根据文本以及情感语义依存模型得到。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述面向情感语义的语义标注及语义依存分析方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种面向情感语义的语义标注及语义依存分析方法,其特征在于,所述方法包括:
S1、获取待分析的文本;
S2、将所述文本输入到构建好的情感语义模型;其中,所述情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型;
S3、根据所述文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,所述标注及分析结果包括情感语义标注结果以及语义分析结果,所述情感语义标注结果根据所述文本以及情感语义依存表示及标注模块得到,所述语义分析结果根据所述文本以及情感语义依存模型得到;
所述情感语义依存表示及标注模块包括情感语义依存表示模块以及情感语义标注模块;
所述S3中的所述情感语义标注结果根据所述文本以及情感语义依存表示及标注模块得到包括:
S31、根据所述文本以及所述情感语义依存表示模块,得到情感语义依存表示结果;其中,所述情感语义依存表示结果的表达方式为依存图;
S32、根据所述情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果;
所述S31中的根据所述文本以及所述情感语义依存表示模块,得到情感语义依存表示结果包括:
S311、对所述文本进行预处理,得到文本中每个词语对应的语义义项;其中,所述对所述文本进行预处理包括对文本中的每个词语进行语义标准化或对文本中的每个词语进行语义消歧;
S312、将所述语义义项转换为一组三元组(E1,R,E2),得到情感语义依存表示结果;其中,三元组中的E1和E2为语义义项,R为E1和E2之间的关系,所述关系包括核心词、施事、受事、时期、范围、强度以及属性;
所述情感语义依存模型由基于管道模型架构得到;
S3中的所述语义分析结果根据所述文本以及情感语义依存模型得到包括:
对所述文本中的词语进行语义标准化,得到每个词语以及所述词语对应的语义义项;
将所述每个词语以及所述词语对应的语义义项转换为词语的输入特征向量;
根据所述词语的输入特征向量以及特征编码器,得到情感语义依存特征编码结果;
根据所述情感语义依存特征编码结果以及基于深度学习的解析模型,得到文本的语义分析结果;其中,所述基于深度学习的解析模型的算法包括移进归约算法或双仿射算法;
所述S32中的根据所述情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果包括:
S321、对所述情感语义依存表示结果中文本的词语进行标准化;
S322、对标准化后的文本中的词语进行词义标注;
S323、对标注后的文本中的词语进行情感触发词标注;
S324、对情感触发词标注后的文本中词语之间的连接关系进行标注,得到标注连接关系后的文本中指定的词语对;
S325、对所述标注连接关系后的文本中指定的词语对进行标注语义关系,得到情感语义标注结果;
所述得到文本的情感语义标注结果的方法包括:采用众包的方法得到文本的情感语义标注结果;
所述得到文本的情感语义标注结果的方法包括:采用局部标注策略得到文本的情感语义标注结果;其中,局部标注策略为在给定条件下给出文本中相关词语的情感语义标注结果;
所述得到文本的情感语义标注结果的过程由后台标注管理监控系统进行监控;
所述对所述文本中的词语进行语义标准化,得到每个词语以及所述词语对应的语义义项包括:
采用分类模型将所述文本中的词语分为与情感语义有关的词语和与情感语义无关的词语;
计算所述与情感语义有关的词语和情感语义知识库中的语义义项之间的关联度,选取关联度最高的语义义项作为所述与情感语义有关的词语的语义义项;所述语义义项的特征表示使用多元关系数据嵌入算法从所述情感语义知识库中计算得到;
所述将所述每个词语以及所述词语对应的语义义项转换为词语的输入特征向量包括:
获取所述词语的特征向量以及所述词语对应的语义义项的特征向量;
将所述词语的特征向量以及所述词语对应的语义义项的特征向量进行拼接,得到所述词语的输入特征向量。
2.一种面向情感语义的语义标注及语义依存分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析的文本;
输入模块,用于将所述文本输入到构建好的情感语义模型;其中,所述情感语义模型包括情感语义依存表示及标注模块以及情感语义依存模型;
输出模块,用于根据所述文本以及情感语义模型,得到待分析的文本的标注及分析结果;其中,所述标注及分析结果包括情感语义标注结果以及语义分析结果,所述情感语义标注结果根据所述文本以及情感语义依存表示及标注模块得到,所述语义分析结果根据所述文本以及情感语义依存模型得到;
所述情感语义依存表示及标注模块包括情感语义依存表示模块以及情感语义标注模块;
所述情感语义标注结果根据所述文本以及情感语义依存表示及标注模块得到包括:
S31、根据所述文本以及所述情感语义依存表示模块,得到情感语义依存表示结果;其中,所述情感语义依存表示结果的表达方式为依存图;
S32、根据所述情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果;
所述根据所述文本以及所述情感语义依存表示模块,得到情感语义依存表示结果包括:
S311、对所述文本进行预处理,得到文本中每个词语对应的语义义项;其中,所述对所述文本进行预处理包括对文本中的每个词语进行语义标准化或对文本中的每个词语进行语义消歧;
S312、将所述语义义项转换为一组三元组(E1,R,E2),得到情感语义依存表示结果;其中,三元组中的E1和E2为语义义项,R为E1和E2之间的关系,所述关系包括核心词、施事、受事、时期、范围、强度以及属性;
所述情感语义依存模型由基于管道模型架构得到;
所述语义分析结果根据所述文本以及情感语义依存模型得到包括:
对所述文本中的词语进行语义标准化,得到每个词语以及所述词语对应的语义义项;
将所述每个词语以及所述词语对应的语义义项转换为词语的输入特征向量;
根据所述词语的输入特征向量以及特征编码器,得到情感语义依存特征编码结果;
根据所述情感语义依存特征编码结果以及基于深度学习的解析模型,得到文本的语义分析结果;其中,所述基于深度学习的解析模型的算法包括移进归约算法或双仿射算法;
所述S32中的根据所述情感语义依存表示结果以及情感语义标注模块,得到情感语义标注结果包括:
S321、对所述情感语义依存表示结果中文本的词语进行标准化;
S322、对标准化后的文本中的词语进行词义标注;
S323、对标注后的文本中的词语进行情感触发词标注;
S324、对情感触发词标注后的文本中词语之间的连接关系进行标注,得到标注连接关系后的文本中指定的词语对;
S325、对所述标注连接关系后的文本中指定的词语对进行标注语义关系,得到情感语义标注结果;
所述得到文本的情感语义标注结果的方法包括:采用众包的方法得到文本的情感语义标注结果;
所述得到文本的情感语义标注结果的方法包括:采用局部标注策略得到文本的情感语义标注结果;其中,局部标注策略为在给定条件下给出文本中相关词语的情感语义标注结果;
所述得到文本的情感语义标注结果的过程由后台标注管理监控系统进行监控;
所述对所述文本中的词语进行语义标准化,得到每个词语以及所述词语对应的语义义项包括:
采用分类模型将所述文本中的词语分为与情感语义有关的词语和与情感语义无关的词语;
计算所述与情感语义有关的词语和情感语义知识库中的语义义项之间的关联度,选取关联度最高的语义义项作为所述与情感语义有关的词语的语义义项;所述语义义项的特征表示使用多元关系数据嵌入算法从所述情感语义知识库中计算得到;
所述将所述每个词语以及所述词语对应的语义义项转换为词语的输入特征向量包括:
获取所述词语的特征向量以及所述词语对应的语义义项的特征向量;
将所述词语的特征向量以及所述词语对应的语义义项的特征向量进行拼接,得到所述词语的输入特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210462984.XA CN114564967B (zh) | 2022-04-29 | 2022-04-29 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210462984.XA CN114564967B (zh) | 2022-04-29 | 2022-04-29 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114564967A CN114564967A (zh) | 2022-05-31 |
CN114564967B true CN114564967B (zh) | 2022-09-13 |
Family
ID=81721212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210462984.XA Active CN114564967B (zh) | 2022-04-29 | 2022-04-29 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564967B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707520B (zh) * | 2022-06-06 | 2022-09-13 | 天津大学 | 一种面向会话的语义依存分析方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191438A (zh) * | 2019-12-30 | 2020-05-22 | 北京百分点信息科技有限公司 | 一种情感分析方法、装置和电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687B (zh) * | 2017-04-27 | 2021-03-26 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN110362833B (zh) * | 2019-07-22 | 2024-08-20 | 腾讯科技(深圳)有限公司 | 一种基于文本的情感分析方法及相关装置 |
CN112632272B (zh) * | 2020-10-20 | 2022-07-19 | 浙江工业大学 | 基于句法分析的微博情感分类方法和系统 |
CN112667818B (zh) * | 2021-01-04 | 2022-06-14 | 福州大学 | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 |
CN113641820B (zh) * | 2021-08-10 | 2023-11-17 | 福州大学 | 基于图卷积神经网络的视角级文本情感分类方法及系统 |
CN113641822B (zh) * | 2021-08-11 | 2022-05-24 | 哈尔滨工业大学 | 一种基于图神经网络的细粒度情感分类方法 |
CN113743097B (zh) * | 2021-08-23 | 2024-03-01 | 桂林电子科技大学 | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 |
CN114036955B (zh) * | 2021-10-30 | 2023-04-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 中心词跨句事件论元检测方法 |
CN113761941B (zh) * | 2021-11-09 | 2022-02-08 | 华南师范大学 | 一种文本情感分析方法 |
CN114218922A (zh) * | 2021-12-17 | 2022-03-22 | 重庆理工大学 | 一种基于双通道图卷积网络的方面情感分析方法 |
-
2022
- 2022-04-29 CN CN202210462984.XA patent/CN114564967B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191438A (zh) * | 2019-12-30 | 2020-05-22 | 北京百分点信息科技有限公司 | 一种情感分析方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114564967A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN113743097B (zh) | 基于跨度共享和语法依存关系增强的情感三元组抽取方法 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
CN111177351B (zh) | 基于规则的自然语言表达意图获取方法、装置和系统 | |
CN111368540B (zh) | 一种基于语义角色分析的关键词信息抽取方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN112765974A (zh) | 一种业务辅助方法、电子设备及可读存储介质 | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及系统 | |
WO2018174815A1 (en) | Method and apparatus for semantic coherence analysis of texts | |
CN114564967B (zh) | 一种面向情感语义的语义标注及语义依存分析方法及装置 | |
Pais et al. | In-depth evaluation of Romanian natural language processing pipelines | |
Bleyl et al. | Emotion recognition on stackoverflow posts using bert | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
Cuadrado et al. | team UTB-NLP at finances 2023: financial targeted sentiment analysis using a phonestheme semantic approach | |
CN110889284B (zh) | 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 | |
Pappu et al. | Predicting tasks in goal-oriented spoken dialog systems using semantic knowledge bases | |
Lehesvuori et al. | Towards Automatic Analysis of Science Classroom Talk: Focus on Teacher Questions | |
CN114943235A (zh) | 一种基于多类语言模型的命名实体识别方法 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
Zhu et al. | Multi-task learning for aspect level semantic classification combining complex aspect target semantic enhancement and adaptive local focus | |
Abbruzzese et al. | REMOAC: A retroactive explainable method for OCR anomalies correction in legal domain | |
Dissanayake et al. | Enhancing conversational ai model performance and explainability for sinhala-english bilingual speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |