CN113641822B - 一种基于图神经网络的细粒度情感分类方法 - Google Patents

一种基于图神经网络的细粒度情感分类方法 Download PDF

Info

Publication number
CN113641822B
CN113641822B CN202110922884.6A CN202110922884A CN113641822B CN 113641822 B CN113641822 B CN 113641822B CN 202110922884 A CN202110922884 A CN 202110922884A CN 113641822 B CN113641822 B CN 113641822B
Authority
CN
China
Prior art keywords
word
vector
evaluation object
representing
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110922884.6A
Other languages
English (en)
Other versions
CN113641822A (zh
Inventor
赵妍妍
赵伟翔
陆鑫
秦兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110922884.6A priority Critical patent/CN113641822B/zh
Publication of CN113641822A publication Critical patent/CN113641822A/zh
Application granted granted Critical
Publication of CN113641822B publication Critical patent/CN113641822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于图神经网络的细粒度情感分类方法,涉及自然语言处理技术领域,针对现有技术中由于复杂的句法结构,相关情感词的信息会衰减,进而导致情感分类准确率低的问题,本申请利用评价对象中心化图以缓解基于评价对象的情感分类任务中情感信息在依赖路径上的衰减问题。具体来说,本申请将一个句子中的所有单词直接与评价对象联系起来。此外,为了区分不同词的重要性,并继承句法结构带来的优势,本申请根据相对依存距离对每个词赋予了不同的权重。在此基础上,本申请评价对象为中心的图卷积网,将特定方面的情感特征与上下文信息进行交互,有效捕捉评价对象和潜在情感词之间的关联,进而提高了情感分类的准确率。

Description

一种基于图神经网络的细粒度情感分类方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于图神经网络的细粒度情感分类方法。
背景技术
基于评价对象的情感分类(Aspect-based Sentiment Classification,ASC)是一项细粒度的情感分析任务,旨在根据上下文识别特定方面的情感极性(如积极、消极或中性)。显然,如果像句子级别的情感分析那样,仅仅为句子分配一个单一的情感极性,在本任务下是不恰当的。例如,在评论中,great food but the service was dreadful.给定的两个评价对象food和service的情感极性分别是积极和消极的。
ASC任务的挑战在于将评价对象与它的情感描述词具体地联系起来。早期的研究大多采用机器学习方法来建立情感分类器。随着深度学习技术的巨大发展,基于神经网络的工作取得了良好表现。为了更好地将各方面与他们的意见词联系起来,注意机制被引入到这项任务中,并进一步提高了性能。然而,这种基于注意力机制的方法忽略了句法依赖性,这种依赖性有助于缩短评价对象和情感词之间的距离,使得评价对象能够更正确地注意到相关的上下文词。
最近,一些有吸引力的工作采用了图神经网络模型(Graph Neural Network,GNN),将依存句法树树作为输入,成功地结合了依存句法信息,将评价对象与相关的情感词联系起来。
然而,以前基于GNN的工作的一个局限性是,当通过依存句法树的连接传递到评价对象时,由于复杂的句法结构,相关情感词的信息会衰减,进而导致情感分类准确率低。
发明内容
本发明的目的是:针对现有技术中由于复杂的句法结构,相关情感词的信息会衰减,进而导致情感分类准确率低的问题,提出一种基于图神经网络的细粒度情感分类方法。
本发明为了解决上述技术问题采取的技术方案是:
一种基于图神经网络的细粒度情感分类方法,包括以下步骤;
步骤一:获取待分类的评论句;
步骤二:将待分类的评论句利用Biaffine句法分析器得到表示评论句的依存句法结构图;
步骤三:利用依存句法结构图计算不同词之间的相对依存距离,并根据相对依存距离得到评论句中不同词语相对于评价对象的重要性权重;
步骤四:将评论句中所有词语与评价对象直接相连接,并将评论句中不同词语相对于评价对象的重要性权重赋予该词语与评价对象相连接的边,得到评价对象中心化图;
步骤五:获取评论句的词向量表示;
步骤六:根据评论句的词向量表示得到表示每个词语上下文语义信息的全局语义向量;
步骤七:将评价对象中心化图和表示每个词语上下文语义信息的全局语义向量输入图卷积网络,得到评价对象词的向量表示;
步骤八:将表示每个词语上下文语义信息的全局语义向量和评价对象词的向量表示进行拼接,得到拼接后的向量表示,并将拼接后的向量表示进行特征维度整合;
步骤九:将特征维度整合后的向量表示通过自注意力机制得到拼接后的向量表示中各个词语交互后的向量表示;
步骤十:将各个词语交互后的向量表示进行特征维度的整合,得到情感分类结果。
进一步的,所述依存句法结构图以邻接矩阵D的形式表示,D中的每一个元素可表示为:
Figure BDA0003206763890000021
其中,i表示矩阵的行索引,j表示矩阵的列索引。
进一步的,所述利用依存句法结构图计算相对依存距离的具体步骤为:
基于邻接矩阵D,利用Dijkstra算法通过不同词在邻接矩阵上的最短距离得到不同词之间的相对依存距离。
进一步的,所述评价对象中心化图表示为:
Figure BDA0003206763890000022
其中,a表示Aspect的词集合,N表示句子长度,thr代表一个阈值,SRDsi,j表示评论句中第i个词与第j个词之间的相对依存距离。
进一步的,所述步骤五中获取评论句的词向量表示的具体步骤为:
首先,初始化矩阵
Figure BDA0003206763890000023
然后通过行向量的映射得到评论句中每一个词的词向量,然后通过Spacy工具得到评论句中每一个词语的词性标签,之后建立一个词性嵌入矩阵
Figure BDA00032067638900000316
通过词性标签到P中行向量的映射,获取每一个词语的词性嵌入表示,即词性向量,最后把评论句中每个词的词向量与词性向量拼接在一起,作为最终评论句的词向量表示;
其中,dw表示词向量的维度,|L|是词表的大小,dp表示词性嵌入向量的维度,|N|表示所嵌入的词性种类个数。
进一步的,所述步骤六基于LSTM实现,步骤六的具体步骤为:
首先计算遗忘门、输入门和输出门的阈值:
Figure BDA0003206763890000031
Figure BDA0003206763890000032
Figure BDA0003206763890000033
然后更新当前时间步的候选状态信息:
Figure BDA0003206763890000034
Figure BDA0003206763890000035
当前时间步信息的输出:
Figure BDA0003206763890000036
当前时间步的输出:
Figure BDA0003206763890000037
其中Wf、Wi、Wo、Wc和bf、bi、bo、bc为可训练的参数,tanh表示双曲正切激活函数,F表示前向LSTM的变量,B表示后向LSTM的变量,
Figure BDA0003206763890000038
表示前向LSTM的隐藏层向量,
Figure BDA0003206763890000039
表示后向LSTM的隐藏层向量,xt表示当前时间步的输入,σ表示非线性激活函数,ft表示遗忘门阈值,Ct更新后的当前时间步的候选状态信息,it表示输入门阈值,ot输出门阈值,
Figure BDA00032067638900000310
当前时间步的候选状态信息。
进一步的,所述步骤七中评价对象词的向量表示为:
Figure BDA00032067638900000311
Figure BDA00032067638900000312
Figure BDA00032067638900000313
其中,
Figure BDA00032067638900000314
是图卷积网络中前一层GCN的输出,
Figure BDA00032067638900000315
是图卷积网络中当前层GCN的输出,ACGi表示评价对象中心化图的邻接矩阵表示,di表示ACG中第i行之和,Wl和bl均表示权重,s表示句中Aspect词语的起始位置,m表示Aspect词的长度,n表示句长,t表示评论句中词语的位置索引,
Figure BDA0003206763890000041
表示评价对象的向量表示。
进一步的,所述步骤八中拼接后的向量表示以及特征维度整合表示为:
Figure BDA0003206763890000042
Figure BDA0003206763890000043
其中,
Figure BDA0003206763890000044
Figure BDA0003206763890000045
表示全连接层可学习的权重矩阵和偏置项,hi表示全局语义向量,
Figure BDA0003206763890000046
表示评价对象的向量表示,ai表示特征维度整合后的向量表示,
Figure BDA0003206763890000047
表示拼接后的向量表示。
进一步的,所述步骤九的具体步骤为:
Figure BDA0003206763890000048
Figure BDA0003206763890000049
Figure BDA00032067638900000410
其中,dk表示输入特征的维度,Wi Q
Figure BDA00032067638900000411
和WO均为可训练的参数矩阵,h表示多头注意力机制头的数量,Concat表示拼接操作,
Figure BDA00032067638900000412
表示ai的转置,headh表示第h个自注意力头的表示,Attention(ai,ai,ai)表示ai进行注意力机制运算,headi表示第i个自注意力头的表示,
Figure BDA00032067638900000413
表示经过自注意力机制后的向量表示。
进一步的,所述情感分类结果表示为:
y=softmax(Wor+bo)
Figure BDA00032067638900000414
其中,Wo和bo表示可训练的参数,softmax表示激活函数,Pooling表示平均池化操作,r表示平均池化后的向量。
本发明的有益效果是:本申请利用评价对象中心化图以缓解基于评价对象的情感分类任务中情感信息在依赖路径上的衰减问题。具体来说,本申请将一个句子中的所有单词直接与评价对象联系起来。此外,为了区分不同词的重要性,并继承句法结构带来的优势,本申请根据相对依存距离对每个词赋予了不同的权重。在此基础上,本申请评价对象为中心的图卷积网,将特定方面的情感特征与上下文信息进行交互,有效捕捉评价对象和潜在情感词之间的关联,进而提高了情感分类的准确率。
附图说明
图1为依存句法结构示意图;
图2为本申请流程图;
图3为本申请原始依存树计算相对依存距离示意图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种基于图神经网络的细粒度情感分类方法,其特征在于包括以下步骤;
步骤一:获取待分类的评论句;
步骤二:将待分类的评论句利用Biaffine句法分析器得到表示评论句的依存句法结构图;
步骤三:利用依存句法结构图计算不同词之间的相对依存距离,并根据相对依存距离得到评论句中不同词语相对于评价对象的重要性权重;
步骤四:将评论句中所有词语与评价对象直接相连接,并将评论句中不同词语相对于评价对象的重要性权重赋予该词语与评价对象相连接的边,得到评价对象中心化图;
步骤五:获取评论句的词向量表示;
步骤六:根据评论句的词向量表示得到表示每个词语上下文语义信息的全局语义向量;
步骤七:将评价对象中心化图和表示每个词语上下文语义信息的全局语义向量输入图卷积网络,得到评价对象词的向量表示;
步骤八:将表示每个词语上下文语义信息的全局语义向量和评价对象词的向量表示进行拼接,得到拼接后的向量表示,并将拼接后的向量表示进行特征维度整合;
步骤九:将特征维度整合后的向量表示通过自注意力机制得到拼接后的向量表示中各个词语交互后的向量表示;
步骤十:将各个词语交互后的向量表示进行特征维度的整合,得到情感分类结果。
具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述依存句法结构图以邻接矩阵D的形式表示,D中的每一个元素可表示为:
Figure BDA0003206763890000061
其中,i表示矩阵的行索引,j表示矩阵的列索引,wi和wj表示评论句中任意的两个词语。英文句的翻译是:如果i=j或wi和wj这两个词在依存句法树上有连接的边。
具体实施方式三:本实施方式是对具体实施方式二的进一步说明,本实施方式与具体实施方式二的区别是所述利用依存句法结构图计算相对依存距离的具体步骤为:
基于邻接矩阵D,利用Dijkstra算法通过不同词在邻接矩阵上的最短距离得到不同词之间的相对依存距离。
具体实施方式四:本实施方式是对具体实施方式三的进一步说明,本实施方式与具体实施方式三的区别是所述评价对象中心化图表示为:
Figure BDA0003206763890000062
其中,a表示Aspect的词集合,N表示句子长度,thr代表一个阈值,SRDsi,j表示评论句中第i个词与第j个词之间的相对依存距离。
具体实施方式五:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述步骤五中获取评论句的词向量表示的具体步骤为:
首先,初始化矩阵
Figure BDA0003206763890000063
然后通过行向量的映射得到评论句中每个词的词向量,然后通过Spacy工具得到评论句中每一个词语的词性标签,之后建立一个词性嵌入矩阵
Figure BDA0003206763890000065
通过词性标签到P中行向量的映射,获取每一个词语的词性嵌入表示,即词性向量,最后把评论句中每个词的词向量与词性向量拼接在一起,作为最终评论句的词向量表示;
其中,dw表示词向量的维度,|L|是词表的大小,dp表示词性嵌入向量的维度,N表示所嵌入的词性种类个数。
具体实施方式六:本实施方式是对具体实施方式五的进一步说明,本实施方式与具体实施方式五的区别是所述步骤六的具体步骤为:
首先计算遗忘门、输入门和输出门的阈值:
Figure BDA0003206763890000064
Figure BDA0003206763890000071
Figure BDA0003206763890000072
然后更新当前时间步的候选状态信息:
Figure BDA0003206763890000073
Figure BDA0003206763890000074
当前时间步信息的输出:
Figure BDA0003206763890000075
当前时间步的输出:
Figure BDA0003206763890000076
其中Wf、Wi、Wo、Wc和bf、bi、bo、bc为可训练的参数,tanh表示双曲正切激活函数,F表示前向LSTM的变量,B表示后向LSTM的变量。
具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述步骤七中评价对象词的向量表示表示为:
Figure BDA0003206763890000077
Figure BDA0003206763890000078
Figure BDA0003206763890000079
其中,
Figure BDA00032067638900000710
是图卷积网络中前一层GCN的输出,
Figure BDA00032067638900000711
是图卷积网络中当前层GCN的输出,ACGi表示评价对象中心化图的邻接矩阵表示,di表示ACG中第i行之和,Wl和bl均表示权重,s表示句中Aspect词语的起始位置,m表示Aspect词的长度,n表示句长,t表示评论句中词语的位置索引,
Figure BDA00032067638900000712
表示评价对象的向量表示。
具体实施方式八:本实施方式是对具体实施方式七的进一步说明,本实施方式与具体实施方式七的区别是所述步骤八中拼接后的向量表示以及特征维度整合表示为:
Figure BDA00032067638900000713
Figure BDA00032067638900000714
其中,
Figure BDA00032067638900000715
Figure BDA00032067638900000716
表示全连接层可学习的权重矩阵和偏置项,hi表示全局语义向量,
Figure BDA00032067638900000717
表示评价对象的向量表示,ai表示特征维度整合后的向量表示。
具体实施方式九:本实施方式是对具体实施方式八的进一步说明,本实施方式与具体实施方式八的区别是所述步骤九的具体步骤为:
Figure BDA0003206763890000081
Figure BDA0003206763890000082
Figure BDA0003206763890000083
其中,dk表示输入特征的维度,Wi Q
Figure BDA0003206763890000084
和WO均为可训练的参数矩阵,h表示多头注意力机制头的数量,Concat表示拼接操作,
Figure BDA0003206763890000085
表示ai的转置,headh表示第h个自注意力头的表示,Attention(ai,ai,ai)表示ai进行注意力机制运算,headi表示第i个自注意力头的表示,
Figure BDA0003206763890000086
表示经过自注意力机制后的向量表示。
具体实施方式十:本实施方式是对具体实施方式九的进一步说明,本实施方式与具体实施方式九的区别是所述情感分类结果表示为:
y=softmax(Wor+bo)
Figure BDA0003206763890000087
其中,Wo和bo表示可训练的参数,softmax表示激活函数,Pooling表示平均池化操作。
考虑到图1中句子的句法结构,从人类的角度来看,对于apple-OS这个方面,happy这个词是最能提供情感线索的,应该被更多的考虑。但从句法结构的角度来看,apple-OS这个词需要通过三个中间语境词to、back和be与它的情感词happy联系起来。由于复杂和冗余的句法结构,当happy通过长的依赖路径传递信息时,中间词和它们的邻接词的信息就会被纳入,而这些信息对于情感识别是没有用的。这导致意见词happy在传递到apple-OS方面时只占一小部分权重。因此,happy和apple-OS之间复杂的句法结构使得传播距离太远,削弱了它们之间的交互。
为了更好地将评价对象与其潜在的情感词联系起来,本申请提出了一种新的方法来构建依存结构图,名为评价对象中心化图(Aspect-Centralized Graph,ACG)。更具体地说,本申请直接将一个句子中的所有词与给定的评价对象联系起来。通过这样的简化操作,评价对象和潜在情感词之间的互动变得更加直接和有效。此外,本申请还根据每个语境词和评价对象,在原始依存树计算了其句法上的相对依存距离,并根据它设定了重要性权重。这样做的目的是:一方面,与评价对象不同距离的上下文词应该被赋予不同的权重以表示其重要性。另一方面,不同的权重值可以被看作是原始依存树上的不同跳跃连接。因此,在某种程度上,本申请将句法信息纳入本申请的新结构,并继承了它带来的优势。然后,本申请提出了一个基于图卷积网络的模型,名为以评价对象为中心的图卷积网络(AspectCentralized Graph Convolutional Network,ACGCN),以有效捕捉评价对象和潜在情感词之间的关联。
综上所述,本申请的主要贡献可以归纳为以下几点:
为了缓解情感信息的衰减和更好地将评价对象与情感词进行交互,本申请提出了一种新的方法来构建依存结构图,称为评价对象中心化图(ACG)。
基于相对依存距离来继承句法结构所提供的优势,本申请对句子中的词赋予了不同的重要性权重。
在五个基准数据集上进行的广泛实验表明,本申请技术方案击败了大多数基准工作,并与BERT结合后进一步提高了性能。
图2给出了本申请提出的ACGCN模型的整体架构。为了缓解情感信息在依赖路径上的减少,本申请首先构建了评价对象中心化图(ACG),以便在评价对象和情感词之间进行更好的交互。ACGCN从一个双向的长短期记忆网络(Long Short-Term Memory,LSTM)开始,在每个词的嵌入表征之上捕捉全局的上下文信息。由于GCN能够聚合方面的近邻信息,本申请利用它来获得基于LSTM输出和ACG的方面特定特征。之后的掩蔽机制可以过滤掉非评价对象的词,并进一步突出评价对象的具体特征。最后,使用一个自注意力层,以使LSTM输出的上下文信息彻底地交互出特定评价对象的特征。通过池化操作,本申请得到了基于评价对象的情感预测的最终特征。
本申请将在后面的详细介绍ACGCN的每个组成部分。
假设有这样一句话,它包含n个词,其中的Aspect由m个词构成,表示为:s={w1,w2,…,a1,…,am,…,wn},a={a1,a2,…,am}。为了进一步缩短Aspect与其情感词之间的距离,并且使得它们之间的交互更加直接与高效,本文提出将一句话中的所有词直接与Aspect相连,得到一个新的依存图结构,称之为评价对象中心化图ACG。值得注意的是,目前的这个依存结构中不带有依存句法信息。但仍要考虑并引入依存句法带来的优势,即对依存结构上的节点交互增加一种显示的先验约束。并且直观上来看,与Aspect词在依存结构上距离不同的语境词,应该被加以区分。因此,要针对不同重要性的邻居节点给予不同的权重。为了实现这样一个想法,本本申请将通过以下3个小节详细阐述。
首先,通过神经句法分析器Biaffine得到原始的依存句法树。Biaffine是一种基于图的神经网络句法分析模型,其最大的模型结构特点是使用双仿射分类器来预测依存关系和依存边,并且抛弃了传统的基于多层感知机的注意力计算方法,而是引入双仿射注意力机制,而多层感知机仅用来为LSTM层的输入进行降维。由依存句法分析器Biaffine的输出可以得到依存图,并以邻接矩阵D的形式表示。D中的每一个元素可表示为:
Figure BDA0003206763890000101
基于上一小节得到的邻接矩阵D,对于Aspect中的每一个词,可以视其为一个起点来计算它与句中其他词语的相对依存距离(Syntactic Relative Distance,SRD)。不同词之间的相对依存距离可以通过它们在邻接矩阵上的最短距离,由Dijkstra算法计算得到。关于SRD的计算,下面将用图3中给出的一个例子来简要阐述。
任意两词语间的相对依存距离即为从一个节点出发,经由数条依存边到达另一节点,途中经过依存边的数量即为相对依存距离。由依存句法图是无环连通图的特性,任意两节点间的距离都可由Dijkstra算法计算而得。对于这句话中的Aspect词food,其与句中其余语境词的相对依存距离的计算结果如下所示。
SRD(food,great)=1
SRD(food,but)=1
SRD(food,service)=1
SRD(food,was)=1
SRD(food,dreadful)=2
上一小节中,通过原始的依存句法树得到了SRDs∈Rm×n来依据相对依存距离表示不同词对于Aspect的重要程度。最后,来计算ACG邻接矩阵中每一个元素的值,计算过程如公式(2.1)所示:
Figure BDA0003206763890000102
其中,a表示Aspect的词集合,N表示句子长度以及thr代表一个阈值。实际中将thr设置为2,这意味着距离Aspect两跳以内的词信息将会得到加强,中心节点在聚合信息时会重点考虑,而那些两跳以外的词信息则会被削弱,在中心词聚合后的表示中占有比较小的比重。通过这样实现了不同重要性的词语的区别对待。至此,一个新的依存结构以邻接矩阵的形式构建完成,它不仅更适合Aspect与情感词之间的交互,而且继承了依存句法树所带来的优势,为节点信息的交互提供显示的指导,并且能够将不同的词语依据其在句法结构位置上的不同而加以区分。
在这一小节中,嵌入层能够把一句话中的每一个词进行分布式表示。对于ACGCN模型,这一过程由词嵌入查询矩阵
Figure BDA0003206763890000111
映射得到。其中,dw表示词向量的维度,|L|是词表的大小。本申请用预训练的词向量GloVe来初始化E中每一个词向量,在训练阶段,由于数据集规模有限,训练时将词嵌入查询矩阵E固定,不对其进行更新。而对于ACGCN-BERT,12层的BERT模型可视为一个查询矩阵,起到了和E同样的作用,将最后一层的输出取来可作为一句话的词嵌入表示。在训练过程中,为了让BERT的特征表示更适用于本实验的数据集,要对其进行微调。
直观上来看,同一个词语的不同词性应当被区别对待。比如,like一词在做动词时意为“喜爱”,具有明显的情感指向性,而当其做介词时,表示举例,此时便不可再将其当作情感词。为了实现句中词语的词性嵌入向量表示,首先要获得句中每一个词语的词性标签,这一过程通过使用Spacy工具实现。之后建立了一个词性嵌入矩阵
Figure BDA0003206763890000119
与词嵌入查表的方式类似,同样通过词性标签到P中行向量的映射,来获取每一个词语的词性嵌入表示。其中,dp表示词性嵌入向量的维度,N表示所嵌入的词性种类个数。P将被随机初始化而在训练过程中进行更新。
最后把词向量与词性向量拼接在一起,作为模型嵌入层的最终表示。据此,对于一个包含n个词的语句,可以得到它的嵌入表示,X={x1,x2,…,xn},其中每一个
Figure BDA0003206763890000112
这样的向量表示结果不仅能够根据语义信息的不同使模型学习到不同的特征,并且能够对同一词语的不同词性进行区分,使得模型在对信息进行交互时能够更准确地定位情感词信息。
基于已得到的序列嵌入表示,将其送入一个双向LSTM层。通过前向和后向两个方向的建模,句中的每一个词语丰富地建模了语境上下文信息。公式(2.2)-(3.7)给出每个词语信息在前向LSTM中的计算过程,公式(2.8)给出前向和后向LSTM的结果进行拼接,得到最后的双向表示。
首先计算遗忘门、输入门和输出门的阈值:
Figure BDA0003206763890000113
Figure BDA0003206763890000114
Figure BDA0003206763890000115
然后更新当前时间步的候选状态信息:
Figure BDA0003206763890000116
Figure BDA0003206763890000117
当前时间步信息的输出:
Figure BDA0003206763890000118
双向LSTM当前时间步的输出:
Figure BDA0003206763890000121
其中W,b为可训练的参数,F表示前向LSTM的变量,B表示后向LSTM的变量。通过双向LSTM层,可以得到一个输出向量H={h1,h2,…,hn},其中每一个成员
Figure BDA0003206763890000122
它表示双向LSTM在时间步t时的隐藏层向量,dh表示LSTM单元的输出向量维度。这一向量将作为输入句子的全局语境表示进行后续计算。
在这一层,通过之前章节得到的ACG和双向LSTM层的输入将会作为输入。此时,情感词信息在ACG图上可直接通过一跳连接的传播,使得特定的Aspect会聚合到对于情感分类有指示性的信息。这里的GCN层通过多层堆叠的方式搭建,第1层GCN节点的将直接用双向LSTM的输出进行初始化,这能够使得每个节点感知到全局语境的信息,即
Figure BDA0003206763890000123
随后第l层的每一个节点将会按照公式(2.9)进行更新:
Figure BDA0003206763890000124
本申请还参照之前的一项基于GCN的工作,加入了归一化系数,如公式(2.10)所示,这样可以使每一层图网络的输出更加稳定:
Figure BDA0003206763890000125
其中,
Figure BDA0003206763890000126
是前一层GCN的输出,
Figure BDA0003206763890000127
是当前层GCN的输出,ACGi表示本文提出的评价对象中心化图的邻接矩阵表示,di表示ACG中第i行之和。权重Wl和bl均为可训练的参数。通过在ACG上的图卷积操作,模型不仅能够通过Aspect与情感词的直接相连,使其进行有效的直接交互,而且通过ACG边上不同的权重值,从句法结构的角度对这一交互过程进行了显示的微调,根据不同词语的重要性不同而进行区分,从而使得那些对于情感分类更为重要的情感信息能够凸显出来。
为了突出表示特定的Aspect词,在这一层遮蔽掉了其余非Aspect词的表示,并保持Aspect词本身的向量化表示不变,遮蔽过程如公式(2.11)所示:
Figure BDA0003206763890000128
其中s表示句中Aspect词语的起始位置,m表示Aspect词的长度,n表示句长。
由此,通过这样一个零元素遮蔽层,可以得到一个包含Aspect特征导向的向量,可表示为
Figure BDA0003206763890000129
本质上,这样一个遮蔽操作也可理解为是对局部语义信息的获取,在经过前一阶段的节点信息聚合操作后,模型没有必要再去关注全局的语境信息。因为真正具有情感指向性的信息往往会出现在Aspect附近,并且通过在ACG上的聚合,Aspect词的表示已包含这样的情感信息,只需将其在后续过程中与全局语境信息进行融合。
在前文的章节中,分别通过双向LSTM层获得了基于上下文全局语义信息的表示H以及通过GCN层获得了特定Aspect的局部语境信息表示HL,为了它们的信息进行交互,首先将H与HL进行拼接,得到融合后的特征表示
Figure BDA0003206763890000131
这一过程可由公式(2.12)进行表示。
Figure BDA0003206763890000132
之后将特征向量HM送入一个全连接层,将高维度的特征向低维度进行整合,在降低维度的同时能够提炼情感分类信息,计算过程如公式(2.13)所示:
Figure BDA0003206763890000133
其中,
Figure BDA0003206763890000134
Figure BDA0003206763890000135
表示全连接层可学习的权重矩阵和偏置项。
随后运用一个自注意力层来检索句中与Aspect语义相关的重要特征。通过句子中任意两个词语间的相似度计算与加权求和,每一个词语自身都捕捉到了与其语义最相关的语境词语,从而实现了特定Aspect的表示与全局语境信息的交互。此外,这里用到的是多头注意力机制,通过不同的头在不同的特征子空间分别进行建模,可以捕捉到输入信息在不同方面下的特征,然后再进行多个头特征的拼接和整合。计算公式为公式(2.14)-(2.16):
Figure BDA0003206763890000136
Figure BDA0003206763890000137
Figure BDA0003206763890000138
其中,dk表示输入特征的维度,Wi Q
Figure BDA0003206763890000139
和WO均为可训练的参数矩阵,h表示多头注意力机制头的数量,Concat表示拼接操作。
之后在词语数量这一维度上进行平均池化操作,可以得到最终的情感特征表示
Figure BDA00032067638900001310
这一过程可由公式(2.17)进行表示:
Figure BDA00032067638900001311
最后将这一特征表示再经过一个全连接层,映射到数据集中情感标签的类别数,然后再通过激活函数softmax,得到最终的分类特征的分布。如公式(2.18)所示:
y=softmax(Wor+bo) (2.18)
其中,Wo和bo都是可训练的参数,softmax是softmax激活函数。
训练的目标是去最小化模型输出结果的分布和数据集中实际标签的分布之间的交叉熵:
Figure BDA00032067638900001312
其中,S是训练样本的数量,C表示情感标签的类别数。
Figure BDA0003206763890000141
表示真实的情感标签,λ是L2正则化的相关系数,Θ表示模型中全部的可训练参数。
实施例:
本实施方式在ABSA任务下的5个基线数据集上开展。这5个数据集分别是SemEval2014(Restaurant14,Laptop14),SemEval 2015(Restaurant15),SemEval 2016(Restaurant 16)和Twitter数据集。数据集的划分及三类标签所占比例如表3.1所示:
表3.1实验数据集划分及标签比例
Figure BDA0003206763890000142
对于ACGCN,在实验中用GloVe向量来初始化词向量矩阵。为了得到词性嵌入,首先用词性标注工具Spacy得到句中每一个词的标注结果。词性被分为四类:形容词Padj,副词Padv,动词Pverb和其他Pothers。随后把由Spacy得到的词性标注序列转化为一个词性索引序列,长度与句子长度相等。这一操作通过字典映射完成。例如,给定一句话“Goodfoodbutservice was extremely dreadful”,它对应的词性索引序列可表示为p={Padj,Pothers,Pothers,Pothers,Pverb,Padv,Padj}。之后随机初始化词性嵌入矩阵,并在训练的时候将其更新。词嵌入的维度,词性嵌入的维度以及LSTM隐藏层单元的维度均被设置为300。对于GCN和自注意力,采用2层GCN和6个多头注意力。并且Adam被用作优化器去更新模型参数,学习率选择10-3。最后,L2正则化的惩罚项设置为10-5
主实验结果如表3.2所示。Acc.表示准确率,F1表示Macro-F1分数,二者均以百分数进行计量。表中“-”表示无实验结果。
表3.2主实验结果
Figure BDA0003206763890000151
Figure BDA0003206763890000161
如表3.2所示,本申请提出的ACGCN模型在几乎所有五个基准数据集上都取得了最佳的Acc分数。在LAP14、REST14和REST16上,F1分数也是最好的,只比SOTA模型稍差,差距分别为0.08、0.49和0.36。这证明了ACG在缓解情感信息减少方面的有效性,也验证了ACGCN能够更有效地将方面词与潜在的观点词进行交互。
与不考虑句法结构的模型相比,ACGCN要比他们好得多,说明词与词之间的句法依赖性有利于识别情感极性。同时,比其他基于句法的模型更好的性能证明了本申请ACGCN中的ACG更适合于传播情感信息。
此外,当与预训练的BERT整合时,ACGCN-BERT很大程度上提高了性能。它不仅表现得比普通的BERT好,而且还超过了其他基于BERT的比较模型。这进一步验证了ACG的有效性,也表明ACGCN可以很容易地与预训练的BERT集成。
在本申请中,本申请提出了一种新的方法,即构建评价对象中心化图(ACG),以缓解基于评价对象的情感分类任务中情感信息在依赖路径上的衰减问题。具体来说,本申请将一个句子中的所有单词直接与评价对象联系起来。此外,为了区分不同词的重要性,并继承句法结构带来的优势,本申请根据相对依存距离对每个词赋予了不同的权重。在此基础上,本申请提出了一个以评价对象为中心的图卷积网(ACGCN)模型,将特定方面的情感特征与上下文信息进行交互。在五个基准数据集上的实验结果表明,所提出的ACGCN和ACGCN-BERT效果超过了大多数基线模型。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (9)

1.一种基于图神经网络的细粒度情感分类方法,其特征在于包括以下步骤;
步骤一:获取待分类的评论句;
步骤二:将待分类的评论句利用Biaffine句法分析器得到表示评论句的依存句法结构图;
步骤三:利用依存句法结构图计算不同词之间的相对依存距离,并根据相对依存距离得到评论句中不同词语相对于评价对象的重要性权重;
步骤四:将评论句中所有词语与评价对象直接相连接,并将评论句中不同词语相对于评价对象的重要性权重赋予该词语与评价对象相连接的边,得到评价对象中心化图;
步骤五:获取评论句的词向量表示;
步骤六:根据评论句的词向量表示得到表示每个词语上下文语义信息的全局语义向量;
步骤七:将评价对象中心化图和表示每个词语上下文语义信息的全局语义向量输入图卷积网络,得到评价对象词的向量表示;
步骤八:将表示每个词语上下文语义信息的全局语义向量和评价对象词的向量表示进行拼接,得到拼接后的向量表示,并将拼接后的向量表示进行特征维度整合;
步骤九:将特征维度整合后的向量表示通过自注意力机制得到拼接后的向量表示中各个词语交互后的向量表示;
步骤十:将各个词语交互后的向量表示进行特征维度的整合,得到情感分类结果;
所述步骤五中获取评论句的词向量表示的具体步骤为:
首先,初始化矩阵
Figure FDA0003507304190000011
然后通过行向量的映射得到评论句中每一个词的词向量,然后通过Spacy工具得到评论句中每一个词语的词性标签,之后建立一个词性嵌入矩阵
Figure FDA0003507304190000012
通过词性标签到P中行向量的映射,获取每一个词语的词性嵌入表示,即词性向量,最后把评论句中每个词的词向量与词性向量拼接在一起,作为最终评论句的词向量表示;
其中,dw表示词向量的维度,|L|是词表的大小,dp表示词性嵌入向量的维度,|N|表示所嵌入的词性种类个数。
2.根据权利要求1所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述依存句法结构图以邻接矩阵D的形式表示,D中的每一个元素可表示为:
Figure FDA0003507304190000021
其中,i表示矩阵的行索引,j表示矩阵的列索引。
3.根据权利要求2所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述利用依存句法结构图计算相对依存距离的具体步骤为:
基于邻接矩阵D,利用Dijkstra算法通过不同词在邻接矩阵上的最短距离得到不同词之间的相对依存距离。
4.根据权利要求3所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述评价对象中心化图表示为:
Figure FDA0003507304190000022
其中,a表示评价对象的词集合,N表示句子长度,thr代表一个阈值,SRDsi,j表示评论句中第i个词与第j个词之间的相对依存距离。
5.根据权利要求1所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述步骤六基于LSTM实现,步骤六的具体步骤为:
首先计算遗忘门、输入门和输出门的阈值:
Figure FDA0003507304190000023
Figure FDA0003507304190000024
Figure FDA0003507304190000025
然后更新当前时间步的候选状态信息:
Figure FDA0003507304190000026
Figure FDA0003507304190000027
当前时间步信息的输出:
Figure FDA0003507304190000028
当前时间步的输出:
Figure FDA0003507304190000029
其中Wf、Wi、Wo、Wc和bf、bi、bo、bc为可训练的参数,tanh表示双曲正切激活函数,F表示前向LSTM的变量,B表示后向LSTM的变量,
Figure FDA00035073041900000210
表示前向LSTM的隐藏层向量,
Figure FDA00035073041900000211
表示后向LSTM的隐藏层向量,xt表示当前时间步的输入,σ表示非线性激活函数,ft表示遗忘门阈值,Ct更新后的当前时间步的候选状态信息,it表示输入门阈值,ot输出门阈值,
Figure FDA0003507304190000031
当前时间步的候选状态信息。
6.根据权利要求5所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述步骤七中评价对象词的向量表示为:
Figure FDA0003507304190000032
Figure FDA0003507304190000033
Figure FDA0003507304190000034
其中,
Figure FDA0003507304190000035
是图卷积网络中前一层GCN的输出,
Figure FDA0003507304190000036
是图卷积网络中当前层GCN的输出,ACGi表示评价对象中心化图的邻接矩阵表示,di表示ACG中第i行之和,Wl和bl均表示权重,s表示句中Aspect词语的起始位置,m表示Aspect词的长度,n表示句长,t表示评论句中词语的位置索引,
Figure FDA00035073041900000316
表示评价对象的向量表示。
7.根据权利要求6所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述步骤八中拼接后的向量表示以及特征维度整合表示为:
Figure FDA0003507304190000037
Figure FDA0003507304190000038
其中,
Figure FDA0003507304190000039
Figure FDA00035073041900000310
表示全连接层可学习的权重矩阵和偏置项,hi表示全局语义向量,
Figure FDA00035073041900000311
表示评价对象的向量表示,ai表示特征维度整合后的向量表示,
Figure FDA00035073041900000312
表示拼接后的向量表示。
8.根据权利要求7所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述步骤九的具体步骤为:
Figure FDA00035073041900000313
headi=Attention(aiWi Q,aiWi K,aiWi V)
Figure FDA00035073041900000314
其中,dk表示输入特征的维度,Wi Q,Wi K,Wi V和WO均为可训练的参数矩阵,h表示多头注意力机制头的数量,Concat表示拼接操作,
Figure FDA00035073041900000315
表示ai的转置,headh表示第h个自注意力头的表示,Attention(ai,ai,ai)表示ai进行注意力机制运算,headi表示第i个自注意力头的表示,
Figure FDA0003507304190000041
表示经过自注意力机制后的向量表示。
9.根据权利要求8所述的一种基于图神经网络的细粒度情感分类方法,其特征在于所述情感分类结果表示为:
y=softmax(Wor+bo)
Figure FDA0003507304190000042
其中,Wo和bo表示可训练的参数,softmax表示激活函数,Pooling表示平均池化操作,r表示平均池化后的向量。
CN202110922884.6A 2021-08-11 2021-08-11 一种基于图神经网络的细粒度情感分类方法 Active CN113641822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922884.6A CN113641822B (zh) 2021-08-11 2021-08-11 一种基于图神经网络的细粒度情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922884.6A CN113641822B (zh) 2021-08-11 2021-08-11 一种基于图神经网络的细粒度情感分类方法

Publications (2)

Publication Number Publication Date
CN113641822A CN113641822A (zh) 2021-11-12
CN113641822B true CN113641822B (zh) 2022-05-24

Family

ID=78421012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922884.6A Active CN113641822B (zh) 2021-08-11 2021-08-11 一种基于图神经网络的细粒度情感分类方法

Country Status (1)

Country Link
CN (1) CN113641822B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020897A (zh) * 2021-12-31 2022-02-08 苏州浪潮智能科技有限公司 一种对话情感识别方法及相关装置
CN114564967B (zh) * 2022-04-29 2022-09-13 天津大学 一种面向情感语义的语义标注及语义依存分析方法及装置
CN116340520B (zh) * 2023-04-11 2024-05-14 武汉嫦娥医学抗衰机器人股份有限公司 一种电商评论情感分类方法
CN116957740B (zh) * 2023-08-01 2024-01-05 哈尔滨商业大学 一种基于词特征的农产品推荐系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030414B2 (en) * 2017-12-26 2021-06-08 The Allen Institute For Artificial Intelligence System and methods for performing NLP related tasks using contextualized word representations
CN109582764A (zh) * 2018-11-09 2019-04-05 华南师范大学 基于依存句法的交互注意力情感分析方法
CN112115700B (zh) * 2020-08-19 2024-03-12 北京交通大学 一种基于依存句法树和深度学习的方面级情感分析方法
CN112528672B (zh) * 2020-12-14 2021-07-30 北京邮电大学 一种基于图卷积神经网络的方面级情感分析方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826336A (zh) * 2019-09-18 2020-02-21 华南师范大学 一种情感分类方法、系统、存储介质及设备

Also Published As

Publication number Publication date
CN113641822A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113641822B (zh) 一种基于图神经网络的细粒度情感分类方法
US11132512B2 (en) Multi-perspective, multi-task neural network model for matching text to program code
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
US11645479B1 (en) Method for AI language self-improvement agent using language modeling and tree search techniques
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113535904B (zh) 一种基于图神经网络的方面级情感分析方法
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
US20240233877A1 (en) Method for predicting reactant molecule, training method, apparatus, and electronic device
CN109766557A (zh) 一种情感分析方法、装置、存储介质及终端设备
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
Wang et al. TEDT: transformer-based encoding–decoding translation network for multimodal sentiment analysis
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
Park et al. BERT-based response selection in dialogue systems using utterance attention mechanisms
CN115858756A (zh) 基于感知情绪倾向的共情人机对话系统
US11948560B1 (en) Method for AI language self-improvement agent using language modeling and tree search techniques
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant