CN114357156B - 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法 - Google Patents

一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法 Download PDF

Info

Publication number
CN114357156B
CN114357156B CN202111473889.1A CN202111473889A CN114357156B CN 114357156 B CN114357156 B CN 114357156B CN 202111473889 A CN202111473889 A CN 202111473889A CN 114357156 B CN114357156 B CN 114357156B
Authority
CN
China
Prior art keywords
tensor
word
representing
adjacency
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111473889.1A
Other languages
English (en)
Other versions
CN114357156A (zh
Inventor
李睿凡
陈昊
翟泽鹏
冯方向
王小捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202111473889.1A priority Critical patent/CN114357156B/zh
Publication of CN114357156A publication Critical patent/CN114357156A/zh
Application granted granted Critical
Publication of CN114357156B publication Critical patent/CN114357156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法,多特征多通道图卷积网络模型训练方法包括步骤:将第一语句输入预设的第一模型中,将第一语句划分为单词,编码得到第一词向量,得到隐藏状态序列,生成第一邻接张量;根据单词词性生成第二邻接张量,根据句法依存类型生成第三邻接张量,根据基于树的词对距离生成第四邻接张量,根据单词的相对距离生成第五邻接张量;隐藏状态序列分别与邻接张量图卷积,并平均池化,得到联合特征序列;将邻接张量进行拼接得到联合张量;根据联合张量和联合特征序列为每个词对生成第一词对向量,基于分类函数得到概率分布张量;计算总损失函数,根据总损失函数对第一模型进行训练。

Description

一种多特征多通道图卷积网络模型训练方法及属性情感三元 组抽取方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法。
背景技术
属性级情感分析(Aspect-based Sentiment Analysis,ABSA)是一个细粒度情感分析和观点挖掘任务,在自然语言处理领域受到了广泛的关注和研究。通常,ABSA由三个最基本的任务组成,分别是属性词抽取(Aspect Term Extraction,ATE)、属性情感分类(Aspect Sentiment Classification,ASC)和观点词抽取(Opinion Term Extraction,OTE)。ATE旨在识别出句子中的属性词,而ASC则去判断属性词的情感极性,OTE任务目标是抽取出句子中所有的观点词。然而,在实际的应用中,我们需要同时获得属性词、描述该属性词的观点词以及属性词的情感极性。
属性情感三元组旨在从句子评论中抽取出所有的三元组,每个三元组包含三个元素,分别是属性词、观点词和对应的情感极性。大多数的研究聚焦于设计一种可以实现端到端的属性情感三元组抽取的标注方法。然而,这些方法忽略了在该任务中句子的词与词之间的关系。
发明内容
鉴于此,本发明实施例提供了一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种多特征多通道图卷积网络模型训练方法,该方法包括以下步骤:
将第一语句输入预设的第一模型中,将第一语句划分为多个单词,对每个所述单词进行编码得到第一词向量,组合多个所述第一词向量得到隐藏状态序列,基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量;
根据所述第一语句中单词的词性生成第二邻接张量,根据所述第一语句中单词之间的句法依存类型生成第三邻接张量,根据所述第一语句中单词之间基于树的词对距离生成第四邻接张量,根据所述第一语句中单词的相对距离生成第五邻接张量;
将所述隐藏状态序列分别与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行图卷积,生成第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列,对所述第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列进行平均池化,得到联合特征序列;
将所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行拼接得到联合张量;
将第一语句中每两个单词组合为词对,根据联合张量和联合特征序列为每个词对生成第一词对向量,基于分类函数对多个第一词对向量进行处理,得到概率分布张量;
根据所述概率分布张量计算差异损失函数,基于差异损失函数计算总损失函数,根据总损失函数对所述第一模型进行训练。
本发明的多特征多通道图卷积网络模型训练方法,我们首先为属性情感三元组任务定义多种关系类型,然后采用双仿射注意力机制(Biaffine)构建第一邻接张量表示词之间的关系,多特征多通道图卷积网络(Multi-feature Multi-channel GraphConvolutional Network,MMGCN)可以将句子转换成一个多通道图结构,如本申请中的各个邻接张量,所述关系类型的数量与各个邻接张量的通道数相等,因此,MMGCN可以学习到关系意识的节点表示。此外,我们引入了词性、句法、基于树的词对距离和单词的相对距离,作为多种特征以增强MMGCN模型,充分考虑了句子中词与词之间的关系,提高三元组提取的准确度。
在本发明的一些实施方式中,基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量的步骤包括:
利用多层感知机求得对应每个第一词向量的第二词向量;
对所述词对中分别对应两个单词的两个第二词向量进行注意力计算,得到对应词对的词组向量中每个维度的值,组合所述词组向量中每个维度的值,得到词组向量;
组合所述第一语句中所有词对对应的词组向量得到第一邻接张量。
在本发明的一些实施方式中,利用多层感知机求得对应每个第一词向量的第二词向量,根据如下公式:
Figure GDA0003976261820000031
Figure GDA0003976261820000032
hi表示第i个单词对应的第一词向量,hj表示第j个单词对应的第一词向量,
Figure GDA0003976261820000033
表示第i个单词对应的第二词向量,
Figure GDA0003976261820000034
表示第j个单词对应的第二词向量,MLPa表示对第i个单词进行多层感知机处理,MLPo表示对第j个单词进行多层感知机处理。
在本发明的一些实施方式中,对所述词对中分别对应两个单词的两个第二词向量进行注意力计算,得到对应词对的词组向量中每个维度的值,根据如下公式:
Figure GDA0003976261820000035
gi,j表示由第i个单词和j个单词所组成词对的注意力计算的结果向量,
Figure GDA0003976261820000036
表示第i个单词对应的第二词向量的转置,
Figure GDA0003976261820000037
表示第j个单词对应的第二词向量,
Figure GDA0003976261820000038
表示第i个单词对应的第二词向量,U1和U2均表示注意力计算的权重参数,b1表示注意力计算的偏置;
Figure GDA0003976261820000039
ri,j,k表示由第i个单词和j个单词所组成词对对应的词组向量中第k个维度的值,gi,j,k表示结果向量第k个维度的值,m表示结果向量的维度数量,l表示结果向量的第l个维度。
在本发明的一些实施方式中,根据所述第一语句中单词的词性生成第二邻接张量的步骤为,基于每个单词的词性对词对的词性进行标记,对标记相同的词对生成相同的词性向量,组合所有词对的词性向量得到第二邻接张量;
根据所述第一语句中单词之间的句法依存类型生成第三邻接张量的步骤为,基于每个词对中两个单词在第一语句中的句法依存类型对词对进行标记,对标记相同的词对生成相同的句法向量,组合所有词对的句法向量得到第三邻接张量;
根据所述第一语句中单词之间基于树的词对距离生成第四邻接张量的步骤为,基于每个词对中两个单词基于树的词对距离对词对进行标记,对标记距离相同的词对生成相同的距离向量,组合所有词对的距离向量得到第四邻接张量;
根据所述第一语句中单词的相对距离生成第五邻接张量的步骤为,基于每个词对中两个单词在第一语句中的相对距离对词对进行标记,对标记相对距离相同的词对生成相同的相对距离向量,组合所有词对的相对距离向量得到第五邻接张量。
采用上述方案,本申请能够充分地利用词之间的关系,有助于属性情感三元组的抽取。首先为属性情感三元组任务定义十种词之间关系类型,然后采用一个双仿射(Biaffine)构建第一邻接张量表示词之间的关系。之后,MMGCN可以将句子转换成一个多通道图结构,MMGCN可以学习到关系意识的节点表示。我们引入了词法和句法信息作为多种特征以增强MMGCN模型。我们设计了一种有效的用于抽取三元组的细化策略(refiningstrategy),当判断词对是否匹配时可以考虑到属性词和观点词抽取的隐式结果。
在本发明的一些实施方式中,将所述隐藏状态序列分别与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行图卷积,生成第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列的步骤包括:
分别提取第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量中每个通道的通道切片;
根据图卷积分别求出每个通道切片对应的切片特征序列;
收集第一邻接张量每个通道切片对应的切片特征序列,对第一邻接张量的所有切片特征序列进行平均池化,得到第一特征序列;
收集第二邻接张量每个通道切片对应的切片特征序列,对第二邻接张量的所有切片特征序列进行平均池化,得到第二特征序列;
收集第三邻接张量每个通道切片对应的切片特征序列,对第三邻接张量的所有切片特征序列进行平均池化,得到第三特征序列;
收集第四邻接张量每个通道切片对应的切片特征序列,对第四邻接张量的所有切片特征序列进行平均池化,得到第四特征序列;
收集第五邻接张量每个通道切片对应的切片特征序列,对第五邻接张量的所有切片特征序列进行平均池化,得到第五特征序列。
在本发明的一些实施方式中,根据图卷积分别求出每个通道切片对应的切片特征序列,根据如下公式:
Figure GDA0003976261820000041
R表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个,R:,:,k表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个在第k个通道的通道切片,σ表示激活函数ReLU,H表示隐藏状态序列,Wk表示图卷积的权重,bk表示图卷积的偏置,
Figure GDA0003976261820000042
表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个在第k个通道的通道切片所对应的切片特征序列。
在本发明的一些实施方式中,对第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量、第五邻接张量的所有切片特征序列进行平均池化,根据如下公式:
Figure GDA0003976261820000051
Figure GDA0003976261820000052
分别表示第1,2...m通道的的通道切片所对应的切片特征序列,
Figure GDA0003976261820000053
表示第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列中的任一个,f表示平均池化。
在本发明的一些实施方式中,对所述第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列进行平均池化,得到联合特征序列,根据如下公式:
Figure GDA0003976261820000054
Ha表示联合特征序列,
Figure GDA0003976261820000055
表示第一特征序列,
Figure GDA0003976261820000056
表示第二特征序列,
Figure GDA0003976261820000057
表示第三特征序列,
Figure GDA0003976261820000058
表示第四特征序列,
Figure GDA0003976261820000059
表示第五特征序列,f表示平均池化。
在本发明的一些实施方式中,将所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行拼接得到联合张量,根据如下公式:
Figure GDA00039762618200000510
Ra表示联合张量,R1表示第一邻接张量,R2表示第二邻接张量,R3表示第三邻接张量,R4表示第四邻接张量,R5表示第五邻接张量,
Figure GDA00039762618200000511
表示拼接。
在本发明的一些实施方式中,所述联合特征序列包括对应第一语句中每个单词的第三词向量,所述联合张量包括对应每个词对的第二词对向量,根据联合张量和联合特征序列为每个词对生成第一词对向量,根据根据如下公式:
Figure GDA00039762618200000512
ha表示第一语句中第a个词对应的第三词向量,hb表示第一语句中第b个词对应的第三词向量,rab表示所述联合张量中第a个词和第b个词所组成词对所对应的第二词对向量,raa表示所述联合张量中两个第a个词所组成词对所对应的第二词对向量;rbb表示所述联合张量中两个第b个词所组成词对所对应的第二词对向量,sab表示由第a个词和第b个词所组成词对所对应的第一词对向量。
在本发明的一些实施方式中,基于分类函数对多个第一词对向量进行处理,得到概率分布张量的步骤还包括:
基于所述分类函数得出第一词对向量所对应的预测词向量,组合所有预测词向量得到概率分布张量。
在本发明的一些实施方式中,若分类函数为softmax函数,则基于所述分类函数得出第一词对向量所对应的预测词向量,根据如下公式;
pab=softmax(Wpsab+bp)
pab表示第一语句中第a个词和第b个词所组成词对所对应预测词向量,Wp表示权重参数,bp表示偏置,softmax表示将softmax函数作为分类函数,sab表示由第a个词和第b个词所组成词对所对应的第一词对向量。
在本发明的一些实施方式中,所述第一语句预设有实际标签张量,所述实际标签张量与概率分布张量的通道数相等,所述实际标签张量和概率分布张量的通道均与预设的词对关系表中的关系一一对应,所述第一语句中的词对在实际标签张量或概率分布张量的每个通道的值对应该词对在该种关系的得分,所述第一语句的每个词对均预设有实际关系,所述词对在实际关系对应通道的值大于其他通道的值,根据所述概率分布张量计算差异损失函数,根据如下公式:
Figure GDA0003976261820000061
Figure GDA0003976261820000066
表示差异损失函数的值,a表示第一语句中的第a个单词,b表示第一语句中的第b个单词,n表示第一语句中的总的单词数,
Figure GDA0003976261820000067
表示预设的关系表中所有的关系类型,c表示关系表中的任一关系类型,yab表示由第a个单词和第b个单词所组成词对的实际关系的关系类型,pab|c表示由第a个单词和第b个单词所组成词对所对应的预测词向量在概率分布张量的c关系类型对应的通道所对应的值。
在本发明的一些实施方式中,基于差异损失函数计算总损失函数的步骤包括:
分别计算所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量与实际标签张量的第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数;
联合差异损失函数、第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数进行计算,得到总损失函数。
在本发明的一些实施方式中,分别计算所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量与实际标签张量的第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数,根据如下公式:
Figure GDA0003976261820000062
Figure GDA0003976261820000063
表示第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数的任一个的值,当q=1时,
Figure GDA0003976261820000064
表示第一损失函数的值,当q=2时,
Figure GDA0003976261820000065
表示第二损失函数的值,当q=3时,
Figure GDA0003976261820000071
表示第三损失函数的值,当q=4时,
Figure GDA0003976261820000072
表示第四损失函数的值,当q=5时,
Figure GDA0003976261820000073
表示第五损失函数的值,a表示第一语句中的第a个单词,b表示第一语句中的第b个单词,n表示第一语句中的总的单词数,
Figure GDA0003976261820000074
表示预设的关系表中所有的关系类型,c表示关系表中的任一关系类型,yab表示由第a个单词和第b个单词所组成词对的实际关系的关系类型,当q=1时,
Figure GDA0003976261820000075
Figure GDA0003976261820000076
表示由第a个单词和第b个单词所组成词对所对应的词组向量在第一邻接张量的c关系类型对应的通道所对应的值,当q=2时,
Figure GDA0003976261820000077
Figure GDA0003976261820000078
表示由第a个单词和第b个单词所组成词对所对应的词性向量在第二邻接张量的c关系类型对应的通道所对应的值,当q=3时,
Figure GDA0003976261820000079
Figure GDA00039762618200000710
表示由第a个单词和第b个单词所组成词对所对应的句法向量在第三邻接张量的c关系类型对应的通道所对应的值,当q=4时,
Figure GDA00039762618200000711
Figure GDA00039762618200000712
Figure GDA00039762618200000713
表示由第a个单词和第b个单词所组成词对所对应的距离向量在第四邻接张量的c关系类型对应的通道所对应的值,当q=5时,
Figure GDA00039762618200000714
Figure GDA00039762618200000715
Figure GDA00039762618200000716
表示由第a个单词和第b个单词所组成词对所对应的相对距离向量在第五邻接张量的c关系类型对应的通道所对应的值。
在本发明的一些实施方式中,基于差异损失函数计算总损失函数,根据如下公式:
Figure GDA00039762618200000717
Figure GDA00039762618200000718
表示总损失函数的值,
Figure GDA00039762618200000719
表示差异损失函数值的值,
Figure GDA00039762618200000720
表示第一损失函数的值,
Figure GDA00039762618200000721
表示第二损失函数的值,
Figure GDA00039762618200000722
表示第三损失函数的值,
Figure GDA00039762618200000723
表示第四损失函数的值,
Figure GDA00039762618200000724
表示第五损失函数的值,α,β,γ均表示用于调节对应损失影响的超参数。
在本发明的一些实施方式中,根据总损失函数对所述第一模型进行训练包括对第一模型中双仿射注意力机制的参数值、对每个所述单词进行编码得到第一词向量步骤中的编码模型的参数值、多层感知机的参数值和对所述词对中分别对应两个单词的两个第二词向量进行注意力计算的步骤中注意力计算的权重参数和偏置、图卷积的权重参数和偏置值、第一模型中用于计算预测词向量的权重参数和偏置进行训练,更新各个参数的值。
在本发明的一些实施方式中,在对第一模型进行训练时,不断修改所述第一模型中的参数值,得到多次训练中总损失函数的最小值对应的参数值,即为对第一模型训练完成时第一模型所使用的参数值。
本发明的一个方面提供了一种属性情感三元组抽取方法,该方法包括以下步骤:
将第二语句输入根据上述方法所训练的第一模型,得到所述第二语句所对应的概率分布张量;
对所述第二语句所对应的概率分布张量进行三元组解码,得到第二语句中的属性情感三元组。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明多特征多通道图卷积网络模型训练方法一种实施方式的示意图;
图2为本发明属性情感三元组抽取方法一种实施方式的示意图;
图3为本发明属性情感三元组抽取方法一种细化步骤的示意图;
图4为本发明属性情感三元组抽取方法另一种细化步骤的示意图;
图5为得到第二语句中的属性情感三元组的一种示例图;
图6为第一语句的每个词对均预设有实际关系的一种示例图;
图7为对所述第一语句中的词对进行标记的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
如图1所示,本发明的一个方面提供了一种多特征多通道图卷积网络模型训练方法,该方法包括以下步骤:
步骤S100,将第一语句输入预设的第一模型中,将第一语句划分为多个单词,对每个所述单词进行编码得到第一词向量,组合多个所述第一词向量得到隐藏状态序列,基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量;
在本发明的一些实施方式中,所述第一模型为多特征多通道图卷积网络模型,将第一语句划分为多个单词可以通过分词实现,分词方式可以为BERT的tokenizer分词、Jieba分词、SnowNlp分词或nltk分词等,优选为BERT的tokenizer分词,对每个所述单词进行编码得到第一词向量的编码器可以为BERT编码器,利用BERT作为句子编码器抽取每个词的隐藏状态表示。给定一个输入的第一语句X,w1,w2,…,wz均为X中的单词,X={w1,w2,…,wz},经过编码层输出隐藏状态序列{A1,A2,…,Az},其中A1为对应单词w1的第一词向量,其中A2为对应单词w2的第一词向量,...,其中Az为对应单词wz的第一词向量。
在本发明的一些实施方式中,所述第一邻接张量的通道与预设的词对关系表中的关系一一对应,预设的词对关系表可以如下表所示:
Figure GDA0003976261820000091
B和I分别表示抽取对象的开头和除开头以外的其他部分,而A和O则能够决定抽取对象的角色是属性词还是观点词。表中的A和O关系分别用于检测词对中两个不同的词是否属于一个相同的属性词和观点词。三种情感关系用于去匹配词对是否属于属性词或观点词,并判断其情感极性。
步骤S200,根据所述第一语句中单词的词性生成第二邻接张量,根据所述第一语句中单词之间的句法依存类型生成第三邻接张量,根据所述第一语句中单词之间基于树的词对距离生成第四邻接张量,根据所述第一语句中单词的相对距离生成第五邻接张量;
在本发明的一些实施方式中,所述单词的词性包括形容词、否定词和情态动词等;所述句法依存类型可以依照Stanford依存句法关系,包括名词短语、动词短语和形容词短语等;所述第一语句基于树的词对距离需要预先根据Stanford依存句法关系为第一语句建立建立关系树,计算两个单词在关系树上的边的数量,当计算边的数量时,我们将关系树中的依存弧视为无向边,所述边的数量即为两个单词的词对距离;所述第一语句中单词的相对距离为单词之间的距离,若第一语句为"The gourmet food is delicious",则The和gourmet的相对距离为1,The和food的相对距离为2,gourmet和is的相对距离为3。
采用上述方案,通过词性、句法依存类型、句法依存类型、基于树的词对和词对相对相对位置多特征增强多特征多通道图卷积网络模型,提高模型对属性情感三元组提取的准确度。
步骤S300,将所述隐藏状态序列分别与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行图卷积,生成第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列,对所述第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列进行平均池化,得到联合特征序列;
步骤S400,将所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行拼接得到联合张量;
在本发明的一些实施方式中,所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量均存在多个通道,对所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行拼接为将上述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的多个通道进行叠放,若预设的词对关系表中的存在10中关系类型,第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量均设置有10个通道,则联合张量存在50个通道。
步骤S500,将第一语句中每两个单词组合为词对,根据联合张量和联合特征序列为每个词对生成第一词对向量,基于分类函数对多个第一词对向量进行处理,得到概率分布张量;
在本发明的一些实施方式中,本申请组合词对的方式为将第一语句中的每个单词均与第一语句中的所有单词中的每个单词进行组合,若第一语句包括单词wi,wj,wz,则与单词wi相关的词对包括(wi,wj),(wi,wi)和(wi,wz)。
在本发明的一些实施方式中,所述概率分布张量的通道数量与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量相同。
步骤S600,根据所述概率分布张量计算差异损失函数,基于差异损失函数计算总损失函数,根据总损失函数对所述第一模型进行训练。
本发明的多特征多通道图卷积网络模型训练方法,我们首先为属性情感三元组任务定义多种关系类型,然后采用双仿射注意力机制(Biaffine)构建第一邻接张量表示词之间的关系,多特征多通道图卷积网络(Multi-feature Multi-channel GraphConvolutional Network,MMGCN)可以将句子转换成一个多通道图结构,如本申请中的各个邻接张量,所述关系类型的数量与各个邻接张量的通道数相等,因此,MMGCN可以学习到关系意识的节点表示。此外,我们引入了词性、句法、基于树的词对距离和单词的相对距离,作为多种特征以增强MMGCN模型,充分考虑了句子中词与词之间的关系,提高三元组提取的准确度。
现有的属性情感三元组抽取(Aspect Sentiment Triplet Extraction,ASTE)任务,为通过一种流水线型(pipeline)方法抽取属性词、观点词和情感极性所形成的三元组。流水线型方法独立地抽取三元组中的元素,这种方法会忽略掉元素之间的潜在的关联和交互,从而很可能导致错误传播和额外的计算开销。
以往的大多数研究都是单独地处理属性词和观点词的子任务,而忽略了它们之间的依赖性;本申请从多个层面建立邻接张量,充分考虑了词与词之间的关联性,提高属性情感三元组抽取准确率。
在本发明的一些实施方式中,基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量的步骤包括:
步骤S110,利用多层感知机求得对应每个第一词向量的第二词向量;
在本发明的一些实施方式中,多层感知器(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型。
步骤S120,对所述词对中分别对应两个单词的两个第二词向量进行注意力计算,得到对应词对的词组向量中每个维度的值,组合所述词组向量中每个维度的值,得到词组向量;
步骤S130,组合所述第一语句中所有词对对应的词组向量得到第一邻接张量。
在本发明的一些实施方式中,所述词组向量的维度数与所述第一邻接张量的通道数相等,所述词组向量在第一个维度的值处于所述第一邻接张量的第一个通道上,所述第一语句的所有词组向量在第一个维度的值构成所述第一邻接张量的第一个通道。
在本发明的一些实施方式中,利用多层感知机求得对应每个第一词向量的第二词向量,根据如下公式:
Figure GDA0003976261820000121
Figure GDA0003976261820000122
hi表示第i个单词对应的第一词向量,hj表示第j个单词对应的第一词向量,
Figure GDA0003976261820000123
表示第i个单词对应的第二词向量,
Figure GDA0003976261820000124
表示第j个单词对应的第二词向量,MLPa表示对第i个单词进行多层感知机处理,MLPo表示对第j个单词进行多层感知机处理。
在本发明的一些实施方式中,多层感知机MLPa和MLPo的内部参数值不同。
在本发明的一些实施方式中,对所述词对中分别对应两个单词的两个第二词向量进行注意力计算,得到对应词对的词组向量中每个维度的值,根据如下公式:
Figure GDA0003976261820000125
gi,j表示由第i个单词和j个单词所组成词对的注意力计算的结果向量,
Figure GDA0003976261820000126
表示第i个单词对应的第二词向量的转置,
Figure GDA0003976261820000127
表示第j个单词对应的第二词向量,
Figure GDA0003976261820000128
表示第i个单词对应的第二词向量,U1和U2均表示注意力计算的权重参数,b1表示注意力计算的偏置;
Figure GDA0003976261820000129
ri,j,k表示由第i个单词和j个单词所组成词对对应的词组向量中第k个维度的值,gi,j,k表示结果向量第k个维度的值,m表示结果向量的维度数量,l表示结果向量的第l个维度。
在本发明的一些实施方式中,根据所述第一语句中单词的词性生成第二邻接张量的步骤为,基于每个单词的词性对词对的词性进行标记,对标记相同的词对生成相同的词性向量,组合所有词对的词性向量得到第二邻接张量;
在本发明的一些实施方式中,所述单词的词性包括限定词、常用名词、形容词和动词(现在时态,第三人称单数),将限定词标记为DT,将常用名词标记为NN,形容词标记为JJ,将动词(现在时态,第三人称单数)标记为VBZ,则若第一语句为The food is delicious,则将第一语句标记为如图7,part-of-speech combination部分所示。
在本发明的一些实施方式中,为相同的词对随机生成词性向量,所述词性向量的维度与预设的词对关系表中的关系数量相等,组合第一语句中所有词对的词性向量得到第一语句所对应的第二邻接张量。
根据所述第一语句中单词之间的句法依存类型生成第三邻接张量的步骤为,基于每个词对中两个单词在第一语句中的句法依存类型对词对进行标记,对标记相同的词对生成相同的句法向量,组合所有词对的句法向量得到第三邻接张量;
在本发明的一些实施方式中,单词之间句法依存类型包括相同词关系、决定词关系、名词主语、(命题主词与谓词间的)连系和无关系,将相同词关系标记为self,将决定词关系标记为det,将名词主语标记为nsubj,将名词主语和(命题主词与谓词间的)连系标记为cop,将无关系标记为-,则若第一语句为The food is delicious,The和food为决定词关系,food和delicious为名词主语关系,is和delicious为(命题主词与谓词间的)连系,则将第一语句标记为如图7,syntactic dependency type部分所示。
将无关系以零向量表示。
根据所述第一语句中单词之间基于树的词对距离生成第四邻接张量的步骤为,基于每个词对中两个单词基于树的词对距离对词对进行标记,对标记距离相同的词对生成相同的距离向量,组合所有词对的距离向量得到第四邻接张量;
在本发明的一些实施方式中,若第一语句为The food is delicious,则建立如图7顶部所示的关系树,可知,The和food存在一条边det,则由The和food所组成词对的词对距离为1,The和delicious之间存在两条边det和nsubj,则由The和delicious所组成词对的词对距离为2,The和is之间存在三条边det、nsubj和cop,则由The和is所组成词对的词对距离为3,则将第一语句标记为如图7,tree-based distance部分所示。
相同的词所组成的词对的词对距离为0,以零向量表示。
根据所述第一语句中单词的相对距离生成第五邻接张量的步骤为,基于每个词对中两个单词在第一语句中的相对距离对词对进行标记,对标记相对距离相同的词对生成相同的相对距离向量,组合所有词对的相对距离向量得到第五邻接张量。
在本发明的一些实施方式中,若第一语句为The food is delicious,则The和food的相对距离为1,The和is的相对距离为2,The和delicious的相对距离为3,则将第一语句标记为如图7,relative position distance部分所示。
相同的词所组成的词对的相对词对距离为0,以零向量表示。
受卷积神经网络(CNN)的启发,图卷积神经网络(GCN)是一种可以直接基于图结构进行卷积操作的CNN变体。通常的做法是利用句法依存树构建一个邻接矩阵表示该句子的图结构。
本申请为了建模词之间的不同关系,本申请的MMGCN在原始GCN基础之上利用了双仿射构造了多通道的多个邻接张量,邻接张量中的每个通道都刻画了词与词之间的某一种关系,提高通过第一模型提取属性情感三元组的准确度。
在本发明的一些实施方式中,将所述隐藏状态序列分别与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行图卷积,生成第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列的步骤包括:
分别提取第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量中每个通道的通道切片;
在本发明的一些实施方式中,所述通道切片为第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量或第五邻接张量单个通道的数据,所述第一邻接张量由词组向量组成,每个词组向量的第一维度的数据相组合即为第一邻接张量第一通道的数据,每个词性向量的第一维度的数据相组合即为第二邻接张量第一通道的数据,每个句法向量的第一维度的数据相组合即为第三邻接张量第一通道的数据,每个距离向量的第一维度的数据相组合即为第四邻接张量第一通道的数据,每个相对距离向量的第一维度的数据相组合即为第五邻接张量第一通道的数据。
根据图卷积分别求出每个通道切片对应的切片特征序列;
收集第一邻接张量每个通道切片对应的切片特征序列,对第一邻接张量的所有切片特征序列进行平均池化,得到第一特征序列;
收集第二邻接张量每个通道切片对应的切片特征序列,对第二邻接张量的所有切片特征序列进行平均池化,得到第二特征序列;
收集第三邻接张量每个通道切片对应的切片特征序列,对第三邻接张量的所有切片特征序列进行平均池化,得到第三特征序列;
收集第四邻接张量每个通道切片对应的切片特征序列,对第四邻接张量的所有切片特征序列进行平均池化,得到第四特征序列;
收集第五邻接张量每个通道切片对应的切片特征序列,对第五邻接张量的所有切片特征序列进行平均池化,得到第五特征序列。
在本发明的一些实施方式中,根据图卷积分别求出每个通道切片对应的切片特征序列,根据如下公式:
Figure GDA0003976261820000151
R表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个,R:,:,k表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个在第k个通道的通道切片,σ表示激活函数ReLU,H表示隐藏状态序列,Wk表示图卷积的权重,bk表示图卷积的偏置,
Figure GDA0003976261820000152
表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个在第k个通道的通道切片所对应的切片特征序列。
在本发明的一些实施方式中,对第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量、第五邻接张量的所有切片特征序列进行平均池化,根据如下公式:
Figure GDA0003976261820000153
Figure GDA0003976261820000154
分别表示第1,2...m通道的的通道切片所对应的切片特征序列,
Figure GDA0003976261820000155
表示第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列中的任一个,f表示平均池化。
在本发明的一些实施方式中,对所述第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列进行平均池化,得到联合特征序列,根据如下公式:
Figure GDA0003976261820000156
Ha表示联合特征序列,
Figure GDA00039762618200001513
表示第一特征序列,
Figure GDA0003976261820000157
表示第二特征序列,
Figure GDA0003976261820000158
表示第三特征序列,
Figure GDA0003976261820000159
表示第四特征序列,
Figure GDA00039762618200001510
表示第五特征序列,f表示平均池化。
在本发明的一些实施方式中,将所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行拼接得到联合张量,根据如下公式:
Figure GDA00039762618200001511
Ra表示联合张量,R1表示第一邻接张量,R2表示第二邻接张量,R3表示第三邻接张量,R4表示第四邻接张量,R5表示第五邻接张量,⊕表示拼接。
在本发明的一些实施方式中,所述联合特征序列包括对应第一语句中每个单词的第三词向量,所述联合张量包括对应每个词对的第二词对向量,根据联合张量和联合特征序列为每个词对生成第一词对向量,根据根据如下公式:
Figure GDA00039762618200001512
ha表示第一语句中第a个词对应的第三词向量,hb表示第一语句中第b个词对应的第三词向量,rab表示所述联合张量中第a个词和第b个词所组成词对所对应的第二词对向量,raa表示所述联合张量中两个第a个词所组成词对所对应的第二词对向量;rbb表示所述联合张量中两个第b个词所组成词对所对应的第二词对向量,sab表示由第a个词和第b个词所组成词对所对应的第一词对向量。
在本发明的一些实施方式中,基于分类函数对多个第一词对向量进行处理,得到概率分布张量的步骤还包括:
基于所述分类函数得出第一词对向量所对应的预测词向量,组合所有预测词向量得到概率分布张量。
在本发明的一些实施方式中,若分类函数为softmax函数,则基于所述分类函数得出第一词对向量所对应的预测词向量,根据如下公式;
pab=softmax(Wpsab+bp)
pab表示第一语句中第a个词和第b个词所组成词对所对应预测词向量,Wp表示权重参数,bp表示偏置,softmax表示将softmax函数作为分类函数,sab表示由第a个词和第b个词所组成词对所对应的第一词对向量。
在本发明的一些实施方式中,Wp表示第一模型中用于计算预测词向量的权重参数,bp表示第一模型中用于计算预测词向量的偏置。
在本发明的一些实施方式中,所述第一语句预设有实际标签张量,所述实际标签张量与概率分布张量的通道数相等,所述实际标签张量和概率分布张量的通道均与预设的词对关系表中的关系一一对应,所述第一语句中的词对在实际标签张量或概率分布张量的每个通道的值对应该词对在该种关系的得分,如图6所示,所述第一语句的每个词对均预设有实际关系,所述词对在实际关系对应通道的值大于其他通道的值,根据所述概率分布张量计算差异损失函数,根据如下公式:
Figure GDA0003976261820000161
Figure GDA0003976261820000162
表示差异损失函数的值,a表示第一语句中的第a个单词,b表示第一语句中的第b个单词,n表示第一语句中的总的单词数,
Figure GDA0003976261820000163
表示预设的关系表中所有的关系类型,c表示关系表中的任一关系类型,yab表示由第a个单词和第b个单词所组成词对的实际关系的关系类型,pab|c表示由第a个单词和第b个单词所组成词对所对应的预测词向量在概率分布张量的c关系类型对应的通道所对应的值,I(·)表示指示函数,若满足(·)的条件则函数值为1,否则为0,即c关系类型若与由第a个单词和第b个单词所组成词对的实际关系的关系类型相同,则函数值为1,否则为0。
采用上述方案,通过计算损失函数不断修正第一模型,提高第一模型准确度。
在本发明的一些实施方式中,若词对(w1,w2)的实际关系为词对关系表中的B-O关系,若B-O关系对应实际标签张量的第四个通道,则(w1,w2)在实际标签张量的各个通道的值可以为(0,0,0,1,0,0,0,0,0,0)。
在本发明的一些实施方式中,若词对(w1,w2)的实际关系为词对关系表中的B-O关系,若B-O关系对应概率分布张量的第四个通道,词对(w1,w2)所对应的预测词向量在概率分布张量的各个通道的值可以为(0.11,0.12,0.09,0.95,0.11,0.11,0.15,0.12,0.13,0.16)。
在本发明的一些实施方式中,基于差异损失函数计算总损失函数的步骤包括:
分别计算所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量与实际标签张量的第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数;
联合差异损失函数、第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数进行计算,得到总损失函数。
采用上述方案,本申请联合差异损失函数、第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数进行计算,得到总损失函数,通过总损失函数修正第一模型,综合考虑了各个邻接张量的损失,进一步保证模型精准度。
在本发明的一些实施方式中,分别计算所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量与实际标签张量的第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数,根据如下公式:
Figure GDA0003976261820000171
Figure GDA0003976261820000172
表示第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数的任一个的值,当q=1时,
Figure GDA0003976261820000173
表示第一损失函数的值,当q=2时,
Figure GDA0003976261820000174
表示第二损失函数的值,当q=3时,
Figure GDA0003976261820000175
表示第三损失函数的值,当q=4时,
Figure GDA0003976261820000176
表示第四损失函数的值,当q=5时,
Figure GDA0003976261820000177
表示第五损失函数的值,a表示第一语句中的第a个单词,b表示第一语句中的第b个单词,n表示第一语句中的总的单词数,
Figure GDA0003976261820000178
表示预设的关系表中所有的关系类型,c表示关系表中的任一关系类型,yab表示由第a个单词和第b个单词所组成词对的实际关系的关系类型,当q=1时,
Figure GDA0003976261820000179
Figure GDA00039762618200001710
表示由第a个单词和第b个单词所组成词对所对应的词组向量在第一邻接张量的c关系类型对应的通道所对应的值,当q=2时,
Figure GDA0003976261820000181
Figure GDA0003976261820000182
表示由第a个单词和第b个单词所组成词对所对应的词性向量在第二邻接张量的c关系类型对应的通道所对应的值,当q=3时,
Figure GDA0003976261820000183
Figure GDA0003976261820000184
表示由第a个单词和第b个单词所组成词对所对应的句法向量在第三邻接张量的c关系类型对应的通道所对应的值,当q=4时,
Figure GDA0003976261820000185
Figure GDA0003976261820000186
表示由第a个单词和第b个单词所组成词对所对应的距离向量在第四邻接张量的c关系类型对应的通道所对应的值,当q=5时,
Figure GDA0003976261820000187
Figure GDA0003976261820000188
Figure GDA0003976261820000189
表示由第a个单词和第b个单词所组成词对所对应的相对距离向量在第五邻接张量的c关系类型对应的通道所对应的值。
在本发明的一些实施方式中,基于差异损失函数计算总损失函数,根据如下公式:
Figure GDA00039762618200001810
Figure GDA00039762618200001811
表示总损失函数的值,
Figure GDA00039762618200001812
表示差异损失函数值的值,
Figure GDA00039762618200001813
表示第一损失函数的值,
Figure GDA00039762618200001814
表示第二损失函数的值,
Figure GDA00039762618200001815
表示第三损失函数的值,
Figure GDA00039762618200001816
表示第四损失函数的值,
Figure GDA00039762618200001817
表示第五损失函数的值,α,β,γ均表示用于调节对应损失影响的超参数。
在本发明的一些实施方式中,根据总损失函数对所述第一模型进行训练包括对第一模型中双仿射注意力机制的参数值、对每个所述单词进行编码得到第一词向量步骤中的编码模型的参数值、多层感知机的参数值和对所述词对中分别对应两个单词的两个第二词向量进行注意力计算的步骤中注意力计算的参数值。
在本发明的一些实施方式中,在对第一模型进行训练时,不断修改所述第一模型中的参数值,得到多次训练中总损失函数的最小值对应的参数值,即为对第一模型训练完成时第一模型所使用的参数值。
在本发明的一些实施方式中,对第一模型进行训练时,不断修改所述第一模型中的参数值,所述参数值包括基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量的步骤中多层感知机的参数值、注意力计算中的权重参数和偏置、根据图卷积分别求出每个通道切片对应的切片特征序列步骤中图卷积的权重参数和偏置值、以及分类函数中的参数值等。
如图2所示,本发明的一个方面提供了一种属性情感三元组抽取方法,该方法包括以下步骤:
步骤S001,将第二语句输入根据上述方法所训练的第一模型,得到所述第二语句所对应的概率分布张量;
步骤S002,对所述第二语句所对应的概率分布张量进行三元组解码,得到第二语句中的属性情感三元组。
采用上述方案,将第二语句输入已经训练好的第一模型,能够通过第一模型直接得到概率分布张量,通过对概率分布张量进行三元组解码,可直接得到属性情感三元组,在保证属性情感三元组的获取准确率的前提下,提高获取效率。
如图3、4所示,图4中的
Figure GDA0003976261820000191
的即为
Figure GDA0003976261820000192
图4中的
Figure GDA0003976261820000193
的即为
Figure GDA0003976261820000194
图4中的
Figure GDA0003976261820000195
的即为
Figure GDA0003976261820000196
图4中的
Figure GDA0003976261820000197
的即为
Figure GDA0003976261820000198
图4中的
Figure GDA0003976261820000199
的即为
Figure GDA00039762618200001910
在本发明的一些实施方式中,将第二语句输入根据上述方法所训练的第一模型,执行上述步骤S100-S500,得到第二语句所对应的概率分布张量。
在本发明的一些实施方式中,对所述第二语句所对应的概率分布张量进行三元组解码,可以为遍历所述第二语句的每个词对在各个通道的值,提取最大值所对应的通道,对照预设的关系表中该通道所对应的关系类型,若关系类型属于POS、NEU和NEG中的任一个,则输出关于该词对的三元组。
在本发明的一些实施方式中,对所述第二语句所对应的概率分布张量进行三元组解码的步骤还包括:
分别抽取所述第二语句中的属性词、观点词和属性情感分类;
POS表示正向情感、NEU表示中型情感和NEG表示负向情感,若w1为属性词,w2为观点词,w1对应的属性情感分类为positive,则词对(w1,w2)输出的关系类型为POS,则输出属性情感三元组为(w1,w2,positive);若w1为属性词,w2为观点词,w1对应的属性情感分类为neutral,若词对(w1,w2)输出的关系类型为NEU,则输出属性情感三元组为(w1,w2,neutral);若w1为属性词,w2为观点词,w1对应的属性情感分类为negative,若词对(w1,w2)输出的关系类型为NEG,则输出属性情感三元组为(w1,w2,negative)。
根据上述方法输出第二语句中所有的属性情感三元组。
在本发明的一些实施方式中,输出属性情感三元组的集合为
Figure GDA00039762618200001911
表示第二语句总共有
Figure GDA00039762618200001912
个属性情感三元组,δ表示属性情感三元组的标号第二语句总共有3个属性情感三元组,则包括{(a',o',s')1,(a',o',s')2,(a',o',s')3},其中1、2、3均为δ的标号,若a'表示属性词,o'表示观点词,s'表示属性情感分类。
如图5所示,若第二语句为The gourmet food is delicious but the serviceis poor,则第二语句中的属性词(ATE)包括gourmet food和service,观点词包括delicious和poor,gourmet food对应的属性情感分类为positive,service对应的属性情感分类为negative;则输出的属性情感三元组为(gourmet food,delicious,positive)和(service,poor,negative)。
对于单词(“gourmet”,“food”),“gourmet”和“food”属于同一个属性词“gourmetfood”。同时,对于词对(“food”,“delicious”),“food”是“delicious”的观点目标,并被赋予了正向的情感极性。因此,为了有效地抽取属性词“gourmet food”,使“gourmet”获得“food”的信息,“food”也获得“gourmet”的信息。为了判断属性词的情感极性,观点词“delicious”被传递到属性词“gourmet food”,能够词之间的关系学习任务依赖的词表示。
属性词“gourmet food”和“service”都是名词,而观点词“delicious”和“poor”都是形容词,名词和形容词组成的词对能够形成属性-观点词对。其次,从图5中的关系树可以看出不同的词对之间具有不同的依存类型。这些依存类型不仅能够帮助属性词和观点词的抽取,也能帮助词对匹配的预测,词对匹配是指词和词分别属于属性词和观点词中的某个词,如果该属性词和观点词源于同一个三元组,则词对匹配。
采用上述方案,本申请提供一种有效的细化策略,可以在判断词对是否匹配时考虑到属性词和观点词抽取的隐式结果。
我们为ASTE任务提出了一种多特征多通道图卷积网络(MMGCN)。为了利用词之间的关系,我们首先设计了一个多通道图结构用于建模不同的关系类型。然后,我们利用图卷积操作在所有通道上进行关系意识的节点表示学习。进一步,我们考虑到词法和句法信息作为多种特征对MMGCN模型进行增强。最后,我们设计了一种细化策略用于抽取属性情感三元组,它可以在判断词对是否匹配时利用属性词和观点词抽取的隐式结果作为先验知识。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种多特征多通道图卷积网络模型训练方法,其特征在于,该方法包括以下步骤:
将第一语句输入预设的第一模型中,将第一语句划分为多个单词,对每个所述单词进行编码得到第一词向量,组合多个所述第一词向量得到隐藏状态序列,基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量,基于双仿射注意力机制生成对应所述隐藏状态序列的第一邻接张量的步骤包括:利用多层感知机求得对应每个第一词向量的第二词向量;将第一语句中每两个单词组合为词对,对所述词对中分别对应两个单词的两个第二词向量进行注意力计算,得到对应词对的词组向量中每个维度的值,组合所述词组向量中每个维度的值,得到词组向量;组合所述第一语句中所有词对对应的词组向量得到第一邻接张量;
根据所述第一语句中单词的词性生成第二邻接张量,根据所述第一语句中单词之间的句法依存类型生成第三邻接张量,根据所述第一语句中单词之间基于树的词对距离生成第四邻接张量,根据所述第一语句中单词的相对距离生成第五邻接张量;
将所述隐藏状态序列分别与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行图卷积,生成第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列,对所述第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列进行平均池化,得到联合特征序列;
将所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行拼接得到联合张量;
根据联合张量和联合特征序列为每个词对生成第一词对向量,基于分类函数对多个第一词对向量进行处理,得到概率分布张量;
根据所述概率分布张量计算差异损失函数,基于差异损失函数计算总损失函数,根据总损失函数对所述第一模型进行训练。
2.根据权利要求1所述的方法,其特征在于,利用多层感知机求得对应每个第一词向量的第二词向量,根据如下公式:
Figure FDA0003976261810000011
Figure FDA0003976261810000012
hi表示第i个单词对应的第一词向量,hj表示第j个单词对应的第一词向量,
Figure FDA0003976261810000013
表示第i个单词对应的第二词向量,
Figure FDA0003976261810000021
表示第j个单词对应的第二词向量,MLPa表示对第i个单词进行多层感知机处理,MLPo表示对第j个单词进行多层感知机处理。
3.根据权利要求1或2所述的方法,其特征在于,对所述词对中分别对应两个单词的两个第二词向量进行注意力计算,得到对应词对的词组向量中每个维度的值,根据如下公式:
Figure FDA0003976261810000022
gi,j表示由第i个单词和j个单词所组成词对的注意力计算的结果向量,
Figure FDA0003976261810000023
表示第i个单词对应的第二词向量的转置,
Figure FDA0003976261810000024
表示第j个单词对应的第二词向量,
Figure FDA0003976261810000025
表示第i个单词对应的第二词向量,U1和U2均表示注意力计算的权重参数,b1表示注意力计算的偏置;
Figure FDA0003976261810000026
ri,j,k表示由第i个单词和j个单词所组成词对对应的词组向量中第k个维度的值,gi,j,k表示结果向量第k个维度的值,m表示结果向量的维度数量,l表示结果向量的第l个维度。
4.根据权利要求1所述的方法,其特征在于,根据所述第一语句中单词的词性生成第二邻接张量的步骤为,基于每个单词的词性对词对的词性进行标记,对标记相同的词对生成相同的词性向量,组合所有词对的词性向量得到第二邻接张量;
根据所述第一语句中单词之间的句法依存类型生成第三邻接张量的步骤为,基于每个词对中两个单词在第一语句中的句法依存类型对词对进行标记,对标记相同的词对生成相同的句法向量,组合所有词对的句法向量得到第三邻接张量;
根据所述第一语句中单词之间基于树的词对距离生成第四邻接张量的步骤为,基于每个词对中两个单词基于树的词对距离对词对进行标记,对标记距离相同的词对生成相同的距离向量,组合所有词对的距离向量得到第四邻接张量;
根据所述第一语句中单词的相对距离生成第五邻接张量的步骤为,基于每个词对中两个单词在第一语句中的相对距离对词对进行标记,对标记相对距离相同的词对生成相同的相对距离向量,组合所有词对的相对距离向量得到第五邻接张量。
5.根据权利要求4所述的方法,其特征在于,将所述隐藏状态序列分别与第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量进行图卷积,生成第一特征序列、第二特征序列、第三特征序列、第四特征序列和第五特征序列的步骤包括:
分别提取第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量中每个通道的通道切片;
根据图卷积分别求出每个通道切片对应的切片特征序列;
收集第一邻接张量每个通道切片对应的切片特征序列,对第一邻接张量的所有切片特征序列进行平均池化,得到第一特征序列;
收集第二邻接张量每个通道切片对应的切片特征序列,对第二邻接张量的所有切片特征序列进行平均池化,得到第二特征序列;
收集第三邻接张量每个通道切片对应的切片特征序列,对第三邻接张量的所有切片特征序列进行平均池化,得到第三特征序列;
收集第四邻接张量每个通道切片对应的切片特征序列,对第四邻接张量的所有切片特征序列进行平均池化,得到第四特征序列;
收集第五邻接张量每个通道切片对应的切片特征序列,对第五邻接张量的所有切片特征序列进行平均池化,得到第五特征序列。
6.根据权利要求5所述的方法,其特征在于,根据图卷积分别求出每个通道切片对应的切片特征序列,根据如下公式:
Figure FDA0003976261810000031
R表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个,R:,:,k表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个在第k个通道的通道切片,σ表示激活函数ReLU,H表示隐藏状态序列,Wk表示图卷积的权重,bk表示图卷积的偏置,
Figure FDA0003976261810000032
表示第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量的任一个在第k个通道的通道切片所对应的切片特征序列。
7.根据权利要求1所述的方法,其特征在于,基于分类函数对多个第一词对向量进行处理,得到概率分布张量的步骤还包括:
基于所述分类函数得出第一词对向量所对应的预测词向量,组合所有预测词向量得到概率分布张量。
8.根据权利要求7所述的方法,其特征在于,若分类函数为softmax函数,则基于所述分类函数得出第一词对向量所对应的预测词向量,根据如下公式;
pad=softmax(Wpsab+bp)
pab表示第一语句中第a个词和第b个词所组成词对所对应预测词向量,Wp表示权重参数,bp表示偏置,softmax表示将softmax函数作为分类函数,sab表示由第a个词和第b个词所组成词对所对应的第一词对向量。
9.根据权利要求7或8所述的方法,其特征在于,所述第一语句预设有实际标签张量,所述实际标签张量与概率分布张量的通道数相等,所述实际标签张量和概率分布张量的通道均与预设的词对关系表中的关系一一对应,所述第一语句中的词对在实际标签张量或概率分布张量的每个通道的值对应该词对在该种关系的得分,所述第一语句的每个词对均预设有实际关系,所述词对在实际关系对应通道的值大于其他通道的值,根据所述概率分布张量计算差异损失函数,根据如下公式:
Figure FDA0003976261810000041
Figure FDA0003976261810000042
表示差异损失函数的值,a表示第一语句中的第a个单词,b表示第一语句中的第b个单词,n表示第一语句中的总的单词数,
Figure FDA0003976261810000043
表示预设的关系表中所有的关系类型,c表示关系表中的任一关系类型,yab表示由第a个单词和第b个单词所组成词对的实际关系的关系类型,pab|c表示由第a个单词和第b个单词所组成词对所对应的预测词向量在概率分布张量的c关系类型对应的通道所对应的值,I(·)表示指示函数。
10.根据权利要求9所述的方法,其特征在于,基于差异损失函数计算总损失函数的步骤包括:
分别计算所述第一邻接张量、第二邻接张量、第三邻接张量、第四邻接张量和第五邻接张量与实际标签张量的第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数;
联合差异损失函数、第一损失函数、第二损失函数、第三损失函数、第四损失函数和第五损失函数进行计算,得到总损失函数。
11.根据权利要求10所述的方法,其特征在于,基于差异损失函数计算总损失函数,根据如下公式:
Figure FDA0003976261810000044
Figure FDA0003976261810000045
表示总损失函数的值,
Figure FDA0003976261810000046
表示差异损失函数值的值,
Figure FDA0003976261810000047
表示第一损失函数的值,
Figure FDA0003976261810000048
表示第二损失函数的值,
Figure FDA0003976261810000049
表示第三损失函数的值,
Figure FDA00039762618100000410
表示第四损失函数的值,
Figure FDA00039762618100000411
表示第五损失函数的值,α,β,γ均表示用于调节对应损失影响的超参数。
12.一种属性情感三元组抽取方法,其特征在于,该方法包括以下步骤:
将第二语句输入根据上述权利要求1-11任一项所述方法所训练的第一模型,得到所述第二语句所对应的概率分布张量;
对所述第二语句所对应的概率分布张量进行三元组解码,得到第二语句中的属性情感三元组。
CN202111473889.1A 2021-12-02 2021-12-02 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法 Active CN114357156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111473889.1A CN114357156B (zh) 2021-12-02 2021-12-02 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111473889.1A CN114357156B (zh) 2021-12-02 2021-12-02 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法

Publications (2)

Publication Number Publication Date
CN114357156A CN114357156A (zh) 2022-04-15
CN114357156B true CN114357156B (zh) 2023-02-28

Family

ID=81097845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111473889.1A Active CN114357156B (zh) 2021-12-02 2021-12-02 一种多特征多通道图卷积网络模型训练方法及属性情感三元组抽取方法

Country Status (1)

Country Link
CN (1) CN114357156B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112883741A (zh) * 2021-04-29 2021-06-01 华南师范大学 基于双通道图神经网络的特定目标情感分类方法
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019020893A (ja) * 2017-07-13 2019-02-07 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
CN112818698B (zh) * 2021-02-03 2022-07-15 北京航空航天大学 一种基于双通道模型的细粒度的用户评论情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN112883741A (zh) * 2021-04-29 2021-06-01 华南师范大学 基于双通道图神经网络的特定目标情感分类方法

Also Published As

Publication number Publication date
CN114357156A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
US11620449B2 (en) Method for machine reading comprehension
CN108733792B (zh) 一种实体关系抽取方法
CN112528676B (zh) 文档级别的事件论元抽取方法
US11631338B2 (en) Deep knowledge tracing with transformers
US11625540B2 (en) Encoder, system and method for metaphor detection in natural language processing
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN112395876B (zh) 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113641822B (zh) 一种基于图神经网络的细粒度情感分类方法
CN110688489A (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN109271632B (zh) 一种监督的词向量学习方法
CN110275928A (zh) 迭代式实体关系抽取方法
CN113128206A (zh) 基于单词重要性加权的问题生成方法
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Li et al. A semantic feature-wise transformation relation network for automatic short answer grading
CN114065769B (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN112463924A (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN118278543A (zh) 答案评价模型训练方法、评价方法、装置、设备及介质
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法
CN113704481A (zh) 一种文本处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant