CN114282530B - 一种基于语法结构与连接信息触发的复杂句情感分析方法 - Google Patents

一种基于语法结构与连接信息触发的复杂句情感分析方法 Download PDF

Info

Publication number
CN114282530B
CN114282530B CN202111597320.6A CN202111597320A CN114282530B CN 114282530 B CN114282530 B CN 114282530B CN 202111597320 A CN202111597320 A CN 202111597320A CN 114282530 B CN114282530 B CN 114282530B
Authority
CN
China
Prior art keywords
emotion
sentence
complex
connection information
modules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111597320.6A
Other languages
English (en)
Other versions
CN114282530A (zh
Inventor
陈少杰
曹冬林
林达真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111597320.6A priority Critical patent/CN114282530B/zh
Publication of CN114282530A publication Critical patent/CN114282530A/zh
Application granted granted Critical
Publication of CN114282530B publication Critical patent/CN114282530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于语法结构与连接信息触发的复杂句情感分析方法,涉及自然语言处理。包括以下步骤:1)构建连词信息触发的情感层次模型;2)使用迁移学习方法对子句子编码器进行预训练;3)情感划分模块将复杂句子划分为多个简单的情感模块;4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;5)句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合。可以准确提取复杂句子中的主要情感表达,并且解决复杂句中因多种情感共现和复杂的句子结构导致的情感模型预测效果不佳的问题。当一个句子中出现多种情感共现时,可以准确找到复杂句中重要的情感部分。

Description

一种基于语法结构与连接信息触发的复杂句情感分析方法
技术领域
本发明涉及自然语言处理,尤其是涉及一种基于语法结构与连接信息触发的复杂句情感分析方法。
背景技术
复杂句占据了社交网络平台和现有情感数据集的很大一部分。不同于简单句,复杂句往往由两个或两个以上的非从属主谓结构组成,表达多个相互关联且较为完整的意义,有时中间有小停顿(通常用分号、逗号等标点符号表示),或有特定的连接词,在句子前后形成较大的停顿。这些句子往往有多种情感的共现,次要的情感表达/单词有时会变成噪音(如表1所示),导致模型做出错误判断,因此需要有针对性的研究。
表1
尽管之前的工作在一些基准数据集上取得了很好的结果,但少有研究分析如何高效的使用深度学习来进行复杂句的情感分析。在深度学习中,现有的工作倾向于将简单句和复杂句作为一个整体进行研究,这可能导致复杂句中情感信息的丢失。总的来说,与简单句子相比,复杂的语义关系和多种情感的共现使复杂句子的情感分析变得困难。
发明内容
本发明的目的在于针对现有技术在复杂语义关系和多种情感共现的复杂句子情感分析上存在的预测效果不佳等问题,提供一种基于语法结构与连接信息触发的复杂句情感分析方法。本方法采用连词信息触发的情感层次模型(Connection Information-Triggered Sentiment Hierarchical Model,CITSHM),该模型使用连接信息(标点符号或连接词)来模拟复杂句的情感极性。
本发明包括以下步骤:
1)构建连词信息触发的情感层次模型;
2)使用迁移学习方法对子句子编码器进行预训练;
3)情感划分模块将复杂句子划分为多个简单的情感模块;
4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;
5)句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合。
在步骤1)中,所述连词信息触发的情感层次模型由4个主要模块构成,分别为情感划分模块、子句编码器、句子编码器、连接信息触发的注意力机制(CTAM);情感划分模块用于负责对复杂长句进行情感模块划分;所述子句编码器用于对每个情感模块进行编码;所述句子编码器用于获取每个情感模块的上下文信息,并进行文本序列上的融合;所述连接信息触发的注意力机制用于利用连接信息进行多个情感模块的融合,并突出主要极性;所述连接信息包括标点符号或连接词。
在步骤2)中,所述迁移学习方法,是将简单句的知识应用于复杂句;对于中文,使用现有的微博情感数据集来对子句编码器(预训练语言模型)进行再次训练,微博情感数据集由简单句组成;复杂句中的每个情感模块都可以被类比为一个只有单一情感表达的简单句,经过预训练后,预训练语言模型可以更好地捕捉到单个情感模块的情感信息。
在步骤3)中,所述情感划分模块将复杂句子划分为多个简单的情感模块,是利用复杂句的连接词与标点符号,将复杂句子划分为多个情感模块,每个情感模块通常包含直接和单一的情感表达;
所述情感划分模块将复杂句子划分为多个简单的情感模块的具体步骤包括:
(1)输入复杂长句S={w1,...,wi,...,wn},其中wi代表第i个字符;
(2)收集中文和英文语料库中常用的连词和标点符号,并将它们作为连接信息编入字典;当一个复杂句包含字典中的连接信息T时,复杂句S由该信息连接的两个部分将被划分为两个单独的情感模块;最终S通常被划分为多个情感模块S'={M1,M2,...,Mk},其中Mi={wp,...,wq},以及连接信息T={t1,t2,...,tk-1}。
在步骤4)中,所述子句编码器对每个情感模块单独进行编码,分别生成情感表达的具体步骤可为:
使用子句编码器的预训练语言模型(BERT)来提取每个情感模块的表征为了选择句子中比较重要的情感模块,使用句子编码器的时间序列模型(BI-LSTM)来捕捉情感模块间的交互信息;
Hm=TimeModel(Fm;θtim) (2)
其中,θ代表模型参数,代表第i个情感模块的表征。
最后,使用池化的方法来融合所有的情感模块,生成整个复杂句的表示Fs
在步骤5)中,所述句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合的具体步骤可为:
使用额外的预训练语言模型对复杂句中的每一个连接信息进行编码,得到第i个连接信息的表征并使用全局最大池化获取连接信息的表示Fo
基于连接信息触发的注意力机制结合句子本身的语义信息来融合复杂句中所有的情感信息,并突出句子中主要的情感极性,最终得到句子基于连词信息的表征F′s
其中,ai代表连接信息和第i个情感模块求得的注意力分数;αi是经过SoftMax操作后的结果。
在得到了句子本身的表征Fs以及基于连词的表征F′s之后,将这两种表征进行有机的结合,获得了复杂句最终的表征Fz
将得到的句子表征和基于连接信息的表征连接起来,并将他们投射到一个低维空间
其中,是线性层权重,ReLU是激活函数;
最后,融合表征Fz被用来预测输入句子的情感极性;其中,是线性层的权重;/>是模型的输出,即为预测的情感极性。
与现有技术相比,本发明具有以下优点:
本发明采用连词信息触发的情感层次模型(Connection Information-TriggeredSentiment Hierarchical Model,CITSHM),该模型使用连接信息(标点符号或连接词)来模拟复杂句的情感极性。本发明可以准确提取复杂句子中的主要情感表达,并且解决复杂句中因多种情感共现和复杂的句子结构导致的情感模型预测效果不佳的问题。当一个句子中出现多种情感共现时,现有的序列模型很容易被次要的情感影响,导致情感预测错误,本发明可以准确找到复杂句中重要的情感部分。CITSHM将简单句的知识迁移到了复杂句上,实现高效的知识迁移与复用,并且提出一种新型的注意力机制,可以自动选取复杂句中情感表达最为强烈的片段。同时CITSHM弥补深度学习在复杂句情感分析上的空缺,实验表明,CITSHM在复杂句数据集上的效果明显的超越了现有情感分析方法(准确度提高3%左右,F1值提高4%左右)并有一定的通用性和跨语言能力。
附图说明
图1为连词信息触发的情感层次模型的整体框架示意图。
图2为本发明实施例的案例分析热力图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括以下步骤:
1)构建连词信息触发的情感层次模型;如图1所示,所述连词信息触发的情感层次模型由4个主要模块构成,分别为情感划分模块、子句编码器、句子编码器、连接信息触发的注意力机制(CTAM);情感划分模块用于负责对复杂长句进行情感模块划分;所述子句编码器用于对每个情感模块进行编码;所述句子编码器包括时间序列模型(Bi-LSTM)和池化层,句子编码器用于获取每个情感模块的上下文信息,并进行文本序列上的融合;所述连接信息触发的注意力机制用于利用连接信息进行多个情感模块的融合,并突出主要极性。
2)使用迁移学习方法对子句编码器进行预训练;将简单句的知识应用于复杂句;对于中文,使用现有的微博情感数据集来对子句编码器(预训练语言模型)进行再次训练,此数据集由简单句组成;复杂句中的每个情感模块都可以被类比为一个只有单一情感表达的简单句,经过预训练后,预训练后的子句编码器可以更好地捕捉到单个情感模块的情感信息。
3)情感划分模块将复杂句子划分为多个简单的情感模块;利用复杂句的连接词,将复杂句子划分为多个情感模块,每个情感模块通常包含直接和单一的情感表达;
所述情感划分模块将复杂句子划分为多个简单的情感模块的具体步骤包括:
(1)输入复杂长句S={w1,...,wi,...,wn},其中wi代表第i个字符;
(2)收集中文和英文语料库中常用的连词和标点符号,并将它们作为连接信息编入字典;当一个复杂句包含字典中的连接信息T时,复杂句S由该信息连接的两个部分将被划分为两个单独的情感模块;最终S通常被划分为多个情感模块S'={M1,M2,...,Mk},其中Mi={wp,...,wq},以及连接信息T={t1,t2,...,tk-1}。
4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;
使用预训练语言模型(BERT)(子句编码器)来提取每个情感模块的表征为了选择句子中比较重要的情感模块,使用时间序列模型(Bi-LSTM)来捕捉情感模块间的交互信息。
Hm=TimeModel(Fm;θtim) (2)
其中,θ代表模型参数;最后,使用池化的方法来融合所有的情感模块,生成整个复杂句的表示Fs
5)句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合,具体步骤为:
使用额外的预训练语言模型对复杂句中的每一个连接信息进行编码,并使用全局最大池化获取连接信息的表示Fo
基于连接信息触发的注意力机制结合句子本身的语义信息来融合复杂句中所有的情感信息,并突出句子中主要的情感极性,最终得到句子基于连词信息的表征F′s
在得到了句子本身的表征Fs以及基于连词的表征F′s之后,将这两种表征进行有机的结合,获得了复杂句最终的表征Fz
将得到的句子表征和基于连接信息的表征连接起来,并将他们投射到一个低维空间
其中,ReLU是激活函数;
最后,融合表征Fz被用来预测输入句子的情感极性;其中,是线性层的权重。/>是模型的输出,即为预测的情感极性。
表2给出关于复杂句的实例研究。
表2
如表2所示,三个样例原本是一个复杂句,本发明根据情感变化将该句子拆分成三个样例,并且每一个样例都是基于上一个样例进行添加。当一个句子中出现多种情感共现时,现有的序列模型很容易被次要的情感影响,导致情感预测错误,但是CITSHM可以找到复杂句中重要的情感部分。CITSHM可以准确提取复杂句子中的主要情感表达,并且解决复杂句中因多种情感共现和复杂的句子结构导致的情感模型预测效果不佳的问题。
图1给出CITSHM模型整体框架。从下至上,分别为情感划分模块、子句编码器、句子编码器以及输出层。其中基于连接信息的注意力机制归属于句子编码器模块。如图1所示,情感划分模块将复杂句划分为多个情感模块片段,并将连接信息单独取出。随后子句编码器对每个片段进行单独建模。获取每个模块的情感表示后,句子编码器利用时间序列模型编码不同模块间的顺序关系。最后,句子表征通过基于连接信息的注意力机制和池化层进行整合。
在多个微博复杂句上使用本发明进行情感分析,如图2所示,本发明可以很好的提取复杂句中重要的情感子句(图中深色部分代表权重较高)。以第二个样本为例,此复杂句的前三个短句部分都表达了正向的情感极性,但是只有最后一部分“只是……真是让人抓狂。”才是整个复杂句真实的情感表达,从热力图可以看出,CITSHM中基于连接信息的注意力机制给了该片段最大的权重。
以上为本发明的较佳实施例,本发明准确提取复杂句子中的主要情感表达,并且解决复杂句中因多种情感共现和复杂的句子结构导致的情感模型预测效果不佳的问题。同时CITSHM弥补深度学习在复杂句情感分析上的空缺,实验表明,CITSHM在复杂句数据集上的效果明显的超越了现有情感分析方法,并有一定的通用性和跨语言能力。

Claims (7)

1.一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于包括以下步骤:
1)构建连词信息触发的情感层次模型;
2)使用迁移学习方法对子句编码器进行预训练;
3)情感划分模块将复杂句子划分为多个简单的情感模块;
4)子句编码器对每个情感模块单独进行编码,分别生成情感表达;
5)句子编码器根据基于连接信息触发的注意机制指导多个情感模块的融合;
所述句子编码器融合多个情感模块,并根据基于连接信息触发的注意机制指导多个情感模块的融合的具体步骤为:
使用额外的预训练语言模型对复杂句中的每一个连接信息进行编码,并使用全局最大池化获取连接信息的表示Fo
基于连接信息触发的注意力机制结合句子本身的语义信息来融合复杂句中所有的情感信息,并突出句子中主要的情感极性,最终得到句子基于连词信息的表征F's
在得到句子本身的表征Fs以及基于连词的表征F's之后,将这两种表征进行有机的结合,获得了复杂句最终的表征Fz
将得到的句子表征和基于连接信息的表征连接起来,并将他们投射到一个低维空间
其中,ReLU是激活函数;
最后,融合表征Fz被用来预测输入句子的情感极性;其中,是线性层的权重;是模型的输出,即为预测的情感极性。
2.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤1)中,所述连词信息触发的情感层次模型由4个模块构成,分别为情感划分模块、子句编码器、句子编码器、连接信息触发的注意力机制;情感划分模块用于负责对复杂长句进行情感模块划分;所述子句编码器用于对每个情感模块进行编码;所述句子编码器用于获取每个情感模块的上下文信息,并进行文本序列上的融合;所述连接信息触发的注意力机制用于利用连接信息进行多个情感模块的融合,并突出主要极性。
3.如权利要求2所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于所述连接信息包括标点符号或连接词。
4.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤2)中,所述迁移学习方法,是将简单句的知识应用于复杂句;对于中文,使用现有的微博情感数据集来对子句编码器进行再次训练,微博情感数据集由简单句组成;复杂句中的每个情感模块都可以被类比为一个只有单一情感表达的简单句,经过预训练后,子句编码器能更好地捕捉到单个情感模块的情感信息。
5.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤3)中,所述情感划分模块将复杂句子划分为多个简单的情感模块,是利用复杂句的连接词与标点符号,将复杂句子划分为多个情感模块,每个情感模块包含直接和单一的情感表达。
6.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤3)中,所述情感划分模块将复杂句子划分为多个简单的情感模块的具体步骤包括:
(1)输入复杂长句S={w1,…,wi,…,wn},其中wi代表第i个字符;
(2)收集中文和英文语料库中常用的连词和标点符号,并将它们作为连接信息编入字典;当一个复杂句包含字典中的连接信息T时,复杂句S由该信息连接的两个部分将被划分为两个单独的情感模块;最终S被划分为多个情感模块S‘={M1,M2,…,Mk},其中Mi=(wp,…,wq)(,以及连接信息T=(t1,t2,…,tk-1}。
7.如权利要求1所述一种基于语法结构与连接信息触发的复杂句情感分析方法,其特征在于在步骤4)中,所述子句编码器对每个情感模块单独进行编码,分别生成情感表达的具体步骤为:
使用子句编码器的预训练语言模型BERT来提取每个情感模块的表征为了选择句子中比较重要的情感模块,使用句子编码器的时间序列模型BI-LSTM来捕捉情感模块间的交互信息;
Hm=TimeModel(Fm;θtim) (2)
其中,θm代表模型参数;
最后,使用池化的方法来融合所有的情感模块,生成句子表征Fs
CN202111597320.6A 2021-12-24 2021-12-24 一种基于语法结构与连接信息触发的复杂句情感分析方法 Active CN114282530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111597320.6A CN114282530B (zh) 2021-12-24 2021-12-24 一种基于语法结构与连接信息触发的复杂句情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111597320.6A CN114282530B (zh) 2021-12-24 2021-12-24 一种基于语法结构与连接信息触发的复杂句情感分析方法

Publications (2)

Publication Number Publication Date
CN114282530A CN114282530A (zh) 2022-04-05
CN114282530B true CN114282530B (zh) 2024-06-07

Family

ID=80874763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111597320.6A Active CN114282530B (zh) 2021-12-24 2021-12-24 一种基于语法结构与连接信息触发的复杂句情感分析方法

Country Status (1)

Country Link
CN (1) CN114282530B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
CN103530283A (zh) * 2013-10-25 2014-01-22 苏州大学 情绪触发事件的抽取方法
CN110326261A (zh) * 2017-02-14 2019-10-11 微软技术许可有限责任公司 确定音频输入中的说话者改变
CN110765769A (zh) * 2019-08-27 2020-02-07 电子科技大学 一种基于子句特征的实体属性依赖情感分析方法
CN111487868A (zh) * 2020-04-23 2020-08-04 中国空气动力研究与发展中心设备设计及测试技术研究所 一种适用于积分反馈增广系统l1自适应控制系统和方法
CN112580337A (zh) * 2020-12-29 2021-03-30 南京航空航天大学 基于数据增强的情感分类模型及情感分类方法
CN113255295A (zh) * 2021-04-27 2021-08-13 西安电子科技大学 一种自然语言到pptl形式化规约自动生成方法及系统
CN113536774A (zh) * 2021-07-21 2021-10-22 李勤骞 适用于英语体系长难句结构的表达训练系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129066A1 (en) * 2000-12-28 2002-09-12 Milward David R. Computer implemented method for reformatting logically complex clauses in an electronic text-based document
US8549497B2 (en) * 2008-05-05 2013-10-01 University Of New Brunswick High-level hypermedia synthesis for adaptive web

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
CN103530283A (zh) * 2013-10-25 2014-01-22 苏州大学 情绪触发事件的抽取方法
CN110326261A (zh) * 2017-02-14 2019-10-11 微软技术许可有限责任公司 确定音频输入中的说话者改变
CN110765769A (zh) * 2019-08-27 2020-02-07 电子科技大学 一种基于子句特征的实体属性依赖情感分析方法
CN111487868A (zh) * 2020-04-23 2020-08-04 中国空气动力研究与发展中心设备设计及测试技术研究所 一种适用于积分反馈增广系统l1自适应控制系统和方法
CN112580337A (zh) * 2020-12-29 2021-03-30 南京航空航天大学 基于数据增强的情感分类模型及情感分类方法
CN113255295A (zh) * 2021-04-27 2021-08-13 西安电子科技大学 一种自然语言到pptl形式化规约自动生成方法及系统
CN113536774A (zh) * 2021-07-21 2021-10-22 李勤骞 适用于英语体系长难句结构的表达训练系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多情绪源关联模型的中文微博情感分析;李凌霄;李绍滋;曹冬林;;智能系统学报;20160831(第04期);全文 *

Also Published As

Publication number Publication date
CN114282530A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
Soudi et al. Arabic computational morphology: knowledge-based and empirical methods
Baniata et al. A neural machine translation model for arabic dialects that utilises multitask learning (mtl)
Anand Kumar et al. A sequence labeling approach to morphological analyzer for tamil language
Qu et al. A survey on arabic named entity recognition: Past, recent advances, and future trends
Younes et al. Romanized tunisian dialect transliteration using sequence labelling techniques
Moudjari et al. An experimental study on sentiment classification of algerian dialect texts
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
Abandah et al. Correcting arabic soft spelling mistakes using bilstm-based machine learning
Ovi et al. BaNeP: An End-to-End Neural Network Based Model for Bangla Parts-of-Speech Tagging
He et al. Adversarial cross-lingual transfer learning for slot tagging of low-resource languages
Vasiu et al. Enhancing tokenization by embedding romanian language specific morphology
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
CN114282530B (zh) 一种基于语法结构与连接信息触发的复杂句情感分析方法
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
Kapadia et al. Rule based Gujarati morphological analyzer
Amezian et al. Training an LSTM-based Seq2Seq model on a Moroccan biscript lexicon
Basumatary et al. Deep Learning Based Bodo Parts of Speech Tagger
Shetty et al. An approach to identify Indic languages using text classification and natural language processing
Sun et al. HIT_SUN@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis on Multilingual Code-Mixing Text Base on BERT.
Khan et al. Knowledge-based Word Tokenization System for Urdu
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Jiang et al. Construction of segmentation and part of speech annotation model in ancient chinese
Nahli et al. Challenges and Progress in Constructing Arabic Dialect Corpora and Linguistic tools: A Focus on Moroccan and Tunisian Dialects
Namboodiri et al. On using classical poetry structure for Indian language post-processing
Elsaid et al. Abstractive arabic text summarization based on mt5 and arabart transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant