CN116663567A - 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统 - Google Patents
一种基于语义增强双编码器的方面级情感三元组抽取方法及系统 Download PDFInfo
- Publication number
- CN116663567A CN116663567A CN202310686312.1A CN202310686312A CN116663567A CN 116663567 A CN116663567 A CN 116663567A CN 202310686312 A CN202310686312 A CN 202310686312A CN 116663567 A CN116663567 A CN 116663567A
- Authority
- CN
- China
- Prior art keywords
- text
- encoder
- information
- semantics
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 31
- 230000003993 interaction Effects 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000010410 layer Substances 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 239000002344 surface layer Substances 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于语义增强双编码器的方面级情感三元组抽取方法及系统,涉及方面级情感分析技术领域,尤其是方面级情感三元组抽取。该基于语义增强双编码器的用于方面级情感三元组抽取的方法,包括:根据基础上下文编码器学习文本表层语义信息;根据特定上下文编码器学习文本特定于评论领域的特定语义信息;接收文本的词性(POS)信息,句法依赖信息,通过图卷积网络建模文本的句法和结构信息;根据一个新颖的编码交互策略,充分融合基础语义和特定态语义,使得学习到的文本语义能够通过不同的角度提取文本中潜在的情感三元组。本专利解决了目前方面级情感三元组抽取任务中缺少多角度编码器,以及忽略文本句法和结构信息的问题。
Description
技术领域
本发明涉及方面级情感分析技术领域,具体为一种基于语义增强双编码器的方面级情感三元组抽取方法及系统。
背景技术
方面级情感三元组抽取(ASTE)是方面级情感分析(ABSA)中最全面的子任务。其将提取、匹配和分类三种子任务结合在一起,试图同时获得评论中的方面实体、意见实体以及对应的情感态度。在以往的工作中,方面级情感分析(ABSA)由一些独立的子任务完成的,其中主要包括提取、匹配和分类子任务。具体的,Aspect Terms Extraction(ATE)和OpinionTerms Extraction(OTE)只从句子中提取方面实体或观点实体。Aspect-oriented OpinionExtraction(AOE)试图通过给定的方面实体抽取对应的意见实体。Aspect-levelSentiment Classification(ALSC)通过给定句子中的方面词,确定相应的情感态度。尽管这些子任务可以处理情感分析,但在叠加应用时性能会下降。直到定义了ASTE任务,一个情感三元组包括一个方面术语,一个观点术语以及相应的情感。ASTE的目的是以[Aspect,Opinion,Sentiment]的形式从句子中提取三元组。现有的研究方法通过构建新的表格填充策略或跨度融合策略来改进ASTE任务。然而,这些方法忽略了一些策略外的问题。单一的改变已有的抽取策略尽管能提升模型性能,但忽略原有的文本语义却会极大地限制模型的进一步提升。一方面,没有考虑方面词和意见词基于不同编码器多语义域下的交互。另一方面,忽略了三元组内各部分的隐藏语法特征。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了用于方面级情感三元组抽取的语义增强双编码器方法及系统,从不同的角度对句子进行编码,可以综合考虑句子各成分之间的交互,以获得更加精炼的文本语义表示,解决了目前方面级情感三元组抽取模型无法充分提取多角度语义信息的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,提供了一种基于语义增强双编码器的方面级情感三元组抽取方法,包括:
根据基础上下文编码器学习文本表层语义信息;
根据特定上下文编码器学习文本特定于评论领域的特定语义信息;
接收文本的词性(POS)信息,句法依赖信息,通过图卷积网络建模文本的句法和结构信息;
设计一个新颖的编码交互策略,充分融合基础语义和特定态语义,使得学习到的文本语义能够通过不同的角度反应句子的真实表达。
优选的,使用一个基础上下文编码器获得文本表层语义,具体包括:
利用BERT编码器生成文本的隐藏状态向量,将此作为句子的基本上下文语义。具体的,构建一个句子表示“[CLS]sentence[SEP]”,并将其作为输入送入编码器,以获得单词的基本上下文语义h,其中[CLS]和[SEP]是BERT在句首和句尾添加的独特标记。此外,由于BERT基于子词拆分一个完整单词,导致获得的上下文特征h在维度上不符合句子长度。为了弥补这样的问题,本专利为BERT设计了一个崭新的分词器Whitetokenizer,记录每个被拆分成子词的单词。同时,通过平均集合对子词进行对齐操作,得到上下文语义hb。这个过程可以简述如下:
hb=BERT(Whitetokenizer([[CLS],ω1,…,wn,[SEP]]))
值得注意的是,在hb中去除特殊标记[CLS]和[SEP]的隐藏状态,经过对齐后的其中db表示BERT的隐藏状态维度。
优选的,所述特定上下文编码器使用一个具有Bi-LSTM和图卷积网络的模块实现,具体包括如下:
为了准确地捕获单词在不同领域中语义的倾向,首先使用两种不同的语义查找表初始化文本嵌入。其中广义领域嵌入表表示单词在广义语境下的含义,特定领域嵌入表/>表示单词在特定于评论语境下的含义。其中,|v|表示查找表词典的大小。
与上述语义信息不同,单词的词性信息从语言学的角度建立了单词之间的区别。具有不同词性的单词往往存在特定的搭配和区别。使用SpaCy获取每个单词的词性标签。然而,全部的词性标签数量多且大类重叠,为了区分并建模单词的大类词性,把词性标签归纳为其中pnoun,pverb,padj,padv,pothers分别代表名词、动词、形容词、副词以及其余类别单词。基于此,设计一个可学习的POS嵌入/>编码单词的词性信息。
因此,单词经过3-domain嵌入的最终表示E:
如前所述,三元组的组成部分是高度上下文化的。因此,使用Bi-LSTM作为一个特殊的编码器来学习句子的上下文特征。经过几个门控单元和注意力机制,特定编码器将句子的嵌入序列作为输入,以获得上下文特征其中dl表示隐藏状态的维度。可以把这个过程简化为:
X=Bi-LSTM(E)
特征X反映了文本的上下文特征,除此之外,文本的语法信息同样值得重视。为了学习文本的语法结构信息,设计了一个基于句法依赖树的多层图卷积网络(GCN),这可以学习每句评论的语法信息,通过直接相关联单词的状态直接丰富当前单词的表示。具体实施中,Bi-LSTM的结果X作为初始状态,在相应的依赖树上执行多层图卷积运算,获得语法增强的上下文状态hp,该过程可以总结如下:
其中,表示GCN网络每一层的输入特征。对于输入层/>W是每一层可训练的参数矩阵,/>是一个0-1邻接矩阵,它记录了单词间的连接情况。/>是/>的度矩阵,记录每个节点的邻居个数。邻接矩阵/>和度矩阵/>由下式生成:
到此为止,获得了基于BERT编码器学习的基础上下文特征hb和基于3-domain嵌入的Bi-LSTM编码器和GCN网络学习的特定上下文特征hp。接下来将两者送入设计的编码交互层,以融合两种不同编码器获得的上下文特征。
优选的,所述编码交互策略由一个可迭代的基于自注意力机制的编码交互层实现,具体包括如下:
基础语义hb,其反映了每个单词基于上下文语义的隐藏状态。特定语义hp,其反映了句子特定于评论领域背景下的语义,同时反映了每个词的词性差异和句子的语法差异。两种不同的语义从不同的角度反映句子的特征,为了融合侧重方面不同的两种信息,本专利设计了一个巧妙的编码交互层来增强语义特征。
首先,把基础语义和特定语义送入一个交互注意模块,分别得到每个单词在两种语义下的注意力得分αb和αp。具体实施中,交互注意力模块通过以下注意力公式计算。
理论上,注意力分数记录了一个句子中任意单词之间的语义相关性,即可以反映出两个单词在语义方面的紧密程度。同样的,注意力分数/>也承载了大量的信息,其反映词在词性和语法方面的相关性。为了交互两种类型的语义,增强彼此的表达。让注意力分数αb(αp)作用到对立的语义特征hp(hb)上以融合两种语义,同时通过自环强化原本语义特征。这个实现可总结为如下公式。
hb′=Dropout(αphb)+hb
hp′=Dropout(αbhb)+hp
其中设置一个Dropout层的作用是随机掩码部分通道,以抵抗梯度传播错误,提升模型鲁棒性。
引入注意力机制使两种不同方面的语义交互作用,然而单层的交互不能充分融合语义。进一步引入一个多层交互机制强化特征。在每一层交互中,h′p重新送入一个带有多层GCN的BiLSTM编码层。h′b直接作为下一层迭代的输入。这个过程可以通过下式表达。
其中,代表了第l层交互的输出,gk代表了一个k层的GCN网络。/>表示GCN网络中第t-1层的输入,W(t-1)是GCN网络第t-1层的可训练参数。/>代表了第l层交互的输出
在以上的交互中,能够反复提取BERT基础编码器中的有效信息,并通过交互注意机制融合自身。同样的,/>中可以有效地关注到特定上下文编码hp中关于词性和语法的差异,同时通过交互注意强化自我特征。通过对以上公式的迭代交互,选取第L层交互的结果/>作为编码交互层输出,将其输入一个基于BDTF的三元组抽取层。
第二方面,提供了一种基于语义增强双编码器的用于方面级情感三元组抽取系统,包括:
基础编码器模块,用于获取文本的表层语义;
特定编码器模块,用于获取文本的深层语义,同时根据单词的词性信息和句子的句法依赖关系建模深层语法信息;
编码交互模块,用于以迭代的方式融合获取的基础语义和特定于评论表达的语义信息;
BDTF分类器模块,用于对获得的交融语义进行分类,抽取文本中可能的情感三元组。
优选的,所述BDTF分类器由基于边界驱动的表格填充策略设计,具体包括如下:
首先需要明确的是,基于边界驱动的表格填充策略不是本专利提出的策略,其只作为一个优选的搭配用于本专利。
基于边界驱动的表格填充策略(Boundary-Driven Table-Filling,简称BDTF)是用于ASTE任务的一种最新的高性能策略。按照BDTF,如图4所示,方面-意见对被表示为一个双通道2D边界区域,通过区域左上角开始位置S[as,os]和右下角结束位置E[ae,oe]定位。基于此,ASTE被转换为多通道区域抽取和分类任务。
对于获得的高维语义首先构建任意单词间的关系级表示rij,该过程可以简记为如下。
其中,gelu是激活函数。
对于一个长度为n的句子,任意两个单词间的关系级表示构成一个3D关系矩阵/>进一步,把R送入一个L层的ResNet-style CNN编码层抽取高维关系,该过程如下公式。
R(l)=σ(Conv(R(l-1)))+R(l-1)
其中,σ是一个激活函数(如Relu),Conv表示卷积操作。选择最后一层CNN的输出R(L)作为提取结果。
最后,经过一个边界检测分类层,获得一个潜在区域候选池P,它记录了预测的方面-意见对的位置[S(as,os),E(ae,oe)]及其情感态度S。这个过程可以简单表达为如下。
P=(S1[as,os],E1[ae,oe],S1),…,(Sv[as,os],Ev[ae,oe],Sv)
Si[as,os]=topk(sigmoid(Linear(R(L))))
Ei[ae,oe]=topk(sigmoid(Linear(R(L)])))
其中,k是一个超参数。
解码阶段,使用一个区域分类器解码潜在的三元组,排除情感标签为“Invalid”的候选项。通过两个记录候选区域开始和结束位置的标签标记潜在的三元组,如附图4所示,潜在三元组区域的标签为(S[a2,o4],E[a3,o5],Positive),其中ai、oi分别代表方面和意见词,下标表示对应的位置序号。
训练的最终目标是最小化预测三联体和真实值的交叉熵损失。给定一条评论的真实三元组预测结果为/>其中训练的损失函数可以表示为如下。
第三方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
第四方面,提供了一种计算设备,包括:
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述方法中的任一方法的指令。
(三)有益效果
为了验证本专利所提模型的有益效果,使用ASTE任务中公认的四个数据集LAP14、REST4、REST5、REST6的两个版本的数据集上进行测试。并与以往的基线模型进行对比,展示本专利所提模型的先进性能。
表1和表2列出了在两个基准数据集上的实验结果,并选择了ASTE任务的公认指标精确度(P.),召回率(R.),F1作为评价指标。根据这些结果,可以看出本专利提出的模型在每个子数据集上都取得了明显的优势。
具体来说,可以得到以下的有益效果。
(1)在ASTE-Data-V1数据集中,与LAP14,REST14,REST15,REST16中的最佳联合提取方法相比,本专利提出的模型实现了1.77%,1.49%,1.29%,0.78%的F1得分改进。
(2)在ASTE-Data-V2数据集中,与LAP14,REST14,REST15,REST16中的最佳联合提取方法相比,本专利提出的模型在F1分数上分别获得0.43%,1.88%,1.31%,1.93%的提升。与最佳的管道和基于跨度的方法相比,F1的提升分别为3.99%,7.59%,8.64%,6.85%和0.82%,3.61%,2.38%,2.82%。
(3)与之前模型的相应指标的最佳值相比,V1和V2数据集上的精确度(P·)和召回率(R·)指标的平均改进为-0.20,2.60和-0.39,1.17。这样的结果表明,F1分数的提高更多的是归功于召回率的提高。召回率指标的提高标志着该模型在提取真实三联体方面更加全面。
附图说明
图1为本发明方法流程图;
图2为本发明一种用于方面级情感三元组抽取的语义增强双编码器结构示意图;
图3为本发明方面级情感三元组抽取任务示例;
图4为本发明BDTF分类器的表格填充示例;
表1为本发明所提系统在ASTE-Data-V1数据集的实验结果;
表2为本发明所提系统在ASTE-Data-V2数据集的实验结果。
具体实施方式
下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本发明的一个实施例提供了一种基于语义增强双编码器的方面级情感三元组抽取方法,包括:
根据输入文本的表层语言表达借助一个基础编码器获得文本的基础语义;
根据输入文本的句法结构信息生成可用于图卷积网络的句法依赖树;
使用自然语言处理工具,如SpaCy,获得输入文本的词性序列和位置序列用于获得文本的深层语义;
使用设计的3-domain词嵌入层获得输入文本的多领域词嵌入;
根据获得的文本嵌入和文本依存关系,使用一个设计的特定编码器学习文本的特定语义;
通过一个可迭代的基于自注意力机制的编码交互模块对两种语义信息充分融合;
通过一个BDTF分类模块和解码模块获得融合后的语义信息中潜在的情感三元组。
作为本实施例进一步的限定,所述根据输入文本的表层语言表达借助一个基础编码器获得文本的基础语义,具体包括:利用BERT编码器生成文本的隐藏状态向量,将此作为句子的基本上下文语义。具体的,构建一个句子表示“[CLS]sentence[SEP]”,并将其作为输入送入编码器,以获得单词的基本上下文语义h,其中[CLS]和[SEP]是BERT在句首和句尾添加的独特标记。此外,由于BERT基于子词拆分一个完整单词,导致获得的上下文特征h在维度上不符合句子长度。为了弥补这样的问题,本专利为BERT设计了一个崭新的分词器Whitetokenizer,记录每个被拆分成子词的单词。同时,通过平均集合对子词进行对齐操作,得到上下文语义hb。这个过程可以简述如下:
hb=BERT(Whitetokenizer([[CLS],ω1,…,wn,[SEP]]))
值得注意的是,在hb中去除特殊标记[CLS]和[SEP]的隐藏状态,经过对齐后的其中db表示BERT的隐藏状态维度。
作为本实施例进一步的限定,所述根据获得的文本嵌入和文本依存关系,使用一个设计的特定编码器学习文本的特定语义,具体包括:
为了准确地捕获单词在不同领域中语义的倾向,首先使用两种不同的语义查找表初始化文本嵌入。其中广义领域嵌入表表示单词在广义语境下的含义,特定领域嵌入表/>表示单词在特定于评论语境下的含义。其中,|v|表示查找表词典的大小。
与上述语义信息不同,单词的词性信息从语言学的角度建立了单词之间的区别。具有不同词性的单词往往存在特定的搭配和区别。使用SpaCy获取每个单词的词性标签。然而,全部的词性标签数量多且大类重叠,为了区分并建模单词的大类词性,把词性标签归纳为其中pnoun,pverb,padj,padv,pothers分别代表名词、动词、形容词、副词以及其余类别单词。基于此,设计一个可学习的POS嵌入/>编码单词的词性信息。
因此,单词经过3-domain嵌入的最终表示E:
如前所述,三元组的组成部分是高度上下文化的。因此,使用Bi-LSTM作为一个特殊的编码器来学习句子的上下文特征。经过几个门控单元和注意力机制,特定编码器将句子的嵌入序列作为输入,以获得上下文特征其中dl表示隐藏状态的维度。可以把这个过程简化为:
X=Bi-LSTM(E)
特征X反映了文本的上下文特征,除此之外,文本的语法信息同样值得重视。为了学习文本的语法结构信息,设计了一个基于句法依赖树的多层图卷积网络(GCN),这可以学习每句评论的语法信息,通过直接相关联单词的状态直接丰富当前单词的表示。具体实施中,Bi-LSTM的结果X作为初始状态,在相应的依赖树上执行多层图卷积运算,获得语法增强的上下文状态hp,该过程可以总结如下:
其中,表示GCN网络每一层的输入特征。对于输入层/>W是每一层可训练的参数矩阵,/>是一个0-1邻接矩阵,它记录了单词间的连接情况。/>是/>的度矩阵,记录每个节点的邻居个数。邻接矩阵/>和度矩阵/>由下式生成:
到此为止,获得了基于BERT编码器学习的基础上下文特征hb和基于3-domain嵌入的Bi-LSTM编码器和GCN网络学习的特定上下文特征hp。接下来将两者送入设计的编码交互层,以融合两种不同编码器获得的上下文特征。
如图2所示,本发明又一个实施例提供了一种基于语义增强双编码器的方面级情感三元组抽取系统,包括:
基础编码器模块,用于获取文本的表层语义;
特定编码器模块,用于获取文本的深层语义,同时根据单词的词性信息和句子的句法依赖关系建模深层语法信息;
编码交互模块,用于以迭代的方式融合获取的基础语义和特定于评论表达的语义信息;
BDTF分类器模块,用于对获得的交融语义进行分类,抽取文本中可能的情感三元组。
编码交互模块的功能具体的:基础语义hb,其反映了每个单词基于上下文语义的隐藏状态。特定语义hp,其反映了句子特定于评论领域背景下的语义,同时反映了每个词的词性差异和句子的语法差异。两种不同的语义从不同的角度反映句子的特征,为了融合侧重方面不同的两种信息,本专利设计了一个巧妙的编码交互层来增强语义特征。
首先,把基础语义和特定语义送入一个交互注意模块,分别得到每个单词在两种语义下的注意力得分αb和αp。具体实施中,交互注意力模块通过以下注意力公式计算。
理论上,注意力分数记录了一个句子中任意单词之间的语义相关性,即可以反映出两个单词在语义方面的紧密程度。同样的,注意力分数/>也承载了大量的信息,其反映词在词性和语法方面的相关性。为了交互两种类型的语义,增强彼此的表达。让注意力分数αb(αp)作用到对立的语义特征hp(hb)上以融合两种语义,同时通过自环强化原本语义特征。这个实现可总结为如下公式。
hb′=Dropout(αphb)+hb
hp′=Dropout(αbhb)+hp
其中设置一个Dropout层的作用是随机掩码部分通道,以抵抗梯度传播错误,提升模型鲁棒性。
引入注意力机制使两种不同方面的语义交互作用,然而单层的交互不能充分融合语义。进一步引入一个多层交互机制强化特征。在每一层交互中,h′p重新送入一个带有多层GCN的BiLSTM编码层。h′b直接作为下一层迭代的输入。这个过程可以通过下式表达。
其中,代表了第l层交互的输出,gk代表了一个k层的GCN网络。/>表示GCN网络中第t-1层的输入,W(t-1)是GCN网络第t-1层的可训练参数。/>代表了第l层交互的输出
在以上的交互中,能够反复提取BERT基础编码器中的有效信息,并通过交互注意机制融合自身。同样的,/>中可以有效地关注到特定上下文编码hp中关于词性和语法的差异,同时通过交互注意强化自我特征。
如表1和表2所示,验证了本专利所提方面级情感三元组抽取系统的有益效果。使用ASTE任务中公认的四个数据集LAP14、REST4、REST5、REST6的两个版本的数据集上进行测试。并与以往的基线模型进行对比,展示本专利所提模型的先进性能。
表1和表2列出了在两个基准数据集上的实验结果,并选择了ASTE任务的公认指标精确度(P.),召回率(R.),F1作为评价指标。根据这些结果,可以看出本专利提出的模型在每个子数据集上都取得了明显的优势。
具体来说,可以得到以下的有益效果。
(1)在ASTE-Data-V1数据集中,与LAP14,REST14,REST15,REST16中的最佳联合提取方法相比,本专利提出的模型实现了1.77%,1.49%,1.29%,0.78%的F1得分改进。
(2)在ASTE-Data-V2数据集中,与LAP14,REST14,REST15,REST16中的最佳联合提取方法相比,本专利提出的模型在F1分数上分别获得0.43%,1.88%,1.31%,1.93%的提升。与最佳的管道和基于跨度的方法相比,F1的提升分别为3.99%,7.59%,8.64%,6.85%和0.82%,3.61%,2.38%,2.82%。
(3)与之前模型的相应指标的最佳值相比,V1和V2数据集上的精确度(P.)和召回率(R.)指标的平均改进为-0.20,2.60和-0.39,1.17。这样的结果表明,F1分数的提高更多的是归功于召回率的提高。召回率指标的提高标志着该模型在提取真实三联体方面更加全面。
本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Python和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种基于语义增强双编码器的方面级情感三元组抽取方法,其特征在于,包括:
根据基础上下文编码器学习文本表层语义信息;
根据特定上下文编码器学习文本特定于评论领域的特定语义信息;
接收文本的词性(POS)信息,句法依赖信息,通过图卷积网络建模文本的句法和结构信息;
设计一个新颖的编码交互策略,充分融合基础语义和特定态语义,使得学习到的文本语义能够通过不同的角度反应句子的真实表达。
2.根据权利要求1所述的一种基于语义增强双编码器的方面级情感三元组抽取方法,其特征在于:可以根据基础上下文编码器学习输入文本的表层语义信息,具体包括:
构建一个句子表示“[CLS]sentence[SEP]”,并将其作为输入送入基础编码器(主要由一个BERT编码器构成),以获得单词的基本上下文语义h,其中[CLS]和[SEP]是BERT在句首和句尾添加的独特标记。此外,由于BERT基于子词拆分一个完整单词,导致获得的上下文特征h在维度上不符合句子长度。为了弥补这样的问题,为BERT设计了一个空格分词器——Whitetokenizer,记录每个被拆分成子词的单词。同时,通过平均集合对子词进行对齐操作,得到上下文语义hb。这个过程可以简述如下:
hb=BERT(Whitetokenizer([[CLS],ω1,…,wn,[SEP]]))
值得注意的是,在hb中去除特殊标记[CLS]和[SEP]的隐藏状态,经过对齐后的其中db表示BERT的隐藏状态维度。
3.根据权利要求1所述的一种基于语义增强双编码器的方面级情感三元组抽取方法,其特征在于:可以根据特定上下文编码器学习文本特定于评论领域的特定语义信息,具体包括:
使用两种不同的语义查找表初始化文本嵌入。其中广义领域嵌入表表示单词在广义语境下的含义,特定领域嵌入表/>表示单词在特定于评论语境下的含义。其中,|v|表示查找表词典的大小。单词的词性信息从语言学的角度建立了单词之间的区别。具有不同词性的单词往往存在特定的搭配和区别。使用SpaCy获取每个单词的词性标签。然而,全部的词性标签数量多且大类重叠,为了区分并建模单词的大类词性,把词性标签归纳为/>其中pnoun,pverb,padj,padv,pothers分别代表名词、动词、形容词、副词以及其余类别单词。基于此,设计一个可学习的POS嵌入/>编码单词的词性信息。单词经过3-domain嵌入的最终表示E:
如前所述,三元组的组成部分是高度上下文化的。因此,使用Bi-LSTM作为一个特殊的编码器来学习句子的上下文特征。经过几个门控单元和注意力机制,特定编码器将句子的嵌入序列作为输入,以获得上下文特征其中dl表示隐藏状态的维度。可以把这个过程简化为:
X=BiLSTM(E)
4.根据权利要求1所述的一种基于语义增强双编码器的方面级情感三元组抽取方法,其特征在于:可以接收文本的词性(POS)信息,句法依赖信息,通过图卷积网络建模文本的句法和结构信息,具体包括:
根据权力要求3中获得的特征X反映了文本的上下文特征,除此之外,文本的语法信息同样值得重视。为了学习文本的语法结构信息,设计了一个基于句法依赖树的多层图卷积网络(GCN),这可以学习每句评论的语法信息,通过直接相关联单词的状态直接丰富当前单词的表示。具体实施中,Bi-LSTM的结果X作为初始状态,在相应的依赖树上执行多层图卷积运算,获得语法增强的上下文状态hp,该过程可以总结如下:
其中,表示GCN网络每一层的输入特征。对于输入层/>W是每一层可训练的参数矩阵,/>是一个0-1邻接矩阵,它记录了单词间的连接情况。/>是/>的度矩阵,记录每个节点的邻居个数。
5.根据权利要求1所述的一种基于语义增强双编码器的方面级情感三元组抽取方法,其特征在于:拥有一个新颖的编码交互策略,充分融合基础语义和特定态语义,使得学习到的文本语义能够通过不同的角度反应句子的真实表达,具体包括:
基础语义和特定语义送入一个交互注意模块,分别得到每个单词在两种语义下的注意力得分αb和αp。具体实施中,交互注意力模块通过以下注意力公式计算。
理论上,注意力分数记录了一个句子中任意单词之间的语义相关性,即可以反映出两个单词在语义方面的紧密程度。同样的,注意力分数/>也承载了大量的信息,其反映词在词性和语法方面的相关性。为了交互两种类型的语义,增强彼此的表达。让注意力分数αb(αp)作用到对立的语义特征hp(hb)上以融合两种语义,同时通过自环强化原本语义特征。这个实现可总结为如下公式。
hb′=Dropout(αphb)+hb
hp′=Dropout(αbhb)+hp
其中设置一个Dropout层的作用是随机掩码部分通道,以抵抗梯度传播错误,提升模型鲁棒性。
引入注意力机制使两种不同方面的语义交互作用,然而单层的交互不能充分融合语义。进一步引入一个多层交互机制强化特征。在每一层交互中,h′p重新送入一个带有多层GCN的BiLSTM编码层。h′b直接作为下一层迭代的输入。这个过程可以通过下式表达。
其中,代表了第l层交互的输出,gk代表了一个k层的GCN网络。/>表示GCN网络中第t-1层的输入,W(t-1)是GCN网络第t-1层的可训练参数。/>代表了第l层交互的输出。
在以上的交互中,能够反复提取BERT基础编码器中的有效信息,并通过交互注意机制融合自身。同样的,/>中可以有效地关注到特定上下文编码hp中关于词性和语法的差异,同时通过交互注意强化自我特征。
6.一种基于语义增强双编码器的用于方面级情感三元组抽取系统,包括:基础编码器模块,用于获取文本的表层语义;
特定编码器模块,用于获取文本的深层语义,同时根据单词的词性信息和句子的句法依赖关系建模深层语法信息;
编码交互模块,用于以迭代的方式融合获取的基础语义和特定于评论表达的语义信息;
BDTF分类器模块,用于对获得的交融语义进行分类,抽取文本中可能的情感三元组。
7.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-6所述的方法中的任一方法。
8.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-5所述的方法中的任一方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310686312.1A CN116663567A (zh) | 2023-06-09 | 2023-06-09 | 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310686312.1A CN116663567A (zh) | 2023-06-09 | 2023-06-09 | 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116663567A true CN116663567A (zh) | 2023-08-29 |
Family
ID=87724001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310686312.1A Pending CN116663567A (zh) | 2023-06-09 | 2023-06-09 | 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663567A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390140A (zh) * | 2023-12-04 | 2024-01-12 | 中国传媒大学 | 基于机器阅读理解的中文方面级情感分析方法及系统 |
-
2023
- 2023-06-09 CN CN202310686312.1A patent/CN116663567A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117390140A (zh) * | 2023-12-04 | 2024-01-12 | 中国传媒大学 | 基于机器阅读理解的中文方面级情感分析方法及系统 |
CN117390140B (zh) * | 2023-12-04 | 2024-03-15 | 中国传媒大学 | 基于机器阅读理解的中文方面级情感分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11972365B2 (en) | Question responding apparatus, question responding method and program | |
Raymond et al. | Generative and discriminative algorithms for spoken language understanding | |
US9058317B1 (en) | System and method for machine learning management | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
JP7315065B2 (ja) | 質問生成装置、質問生成方法及びプログラム | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN112183094A (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN116663567A (zh) | 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统 | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN114357155A (zh) | 面向自然语言的方面情感分析方法及系统 | |
CN117077655A (zh) | 基于情感知识增强的方面级情感三元组提取方法及系统 | |
CN116681061A (zh) | 一种基于多任务学习和注意力机制的英文语法纠正技术 | |
CN114757181B (zh) | 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 | |
CN111523302B (zh) | 一种句法分析方法、装置、存储介质及电子设备 | |
Anisha et al. | Text to sql query conversion using deep learning: A comparative analysis | |
Sangavi et al. | Analysis on bilingual machine translation systems for English and Tamil | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Laukaitis et al. | Sentence level alignment of digitized books parallel corpora | |
Ahkouk et al. | Seq2seq Vs sketch filling structure for natural language to Sql translation | |
Lv et al. | StyleBERT: Chinese pretraining by font style information | |
Yadav et al. | Image Processing-Based Transliteration from Hindi to English | |
Nabende | Applying dynamic Bayesian Networks in transliteration detection and generation | |
Novák | A model of computational morphology and its application to Uralic languages | |
Le et al. | Technical term similarity model for natural language based data retrieval in civil infrastructure projects | |
CN112784576B (zh) | 一种文本依存句法分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |