CN110888980A - 基于知识增强的注意力神经网络的隐式篇章关系识别方法 - Google Patents

基于知识增强的注意力神经网络的隐式篇章关系识别方法 Download PDF

Info

Publication number
CN110888980A
CN110888980A CN201910957154.2A CN201910957154A CN110888980A CN 110888980 A CN110888980 A CN 110888980A CN 201910957154 A CN201910957154 A CN 201910957154A CN 110888980 A CN110888980 A CN 110888980A
Authority
CN
China
Prior art keywords
knowledge
representation
argument
attention
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910957154.2A
Other languages
English (en)
Other versions
CN110888980B (zh
Inventor
贺瑞芳
郭凤羽
王建
党建武
贺迎春
朱永凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910957154.2A priority Critical patent/CN110888980B/zh
Publication of CN110888980A publication Critical patent/CN110888980A/zh
Application granted granted Critical
Publication of CN110888980B publication Critical patent/CN110888980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识增强的注意力神经网络的隐式篇章关系识别方法,包括如下步骤:1)构建基本论元表示层;2)构建外部知识表示层;3)构建知识增强的论元间交互注意力机制,目的是将外部知识作为关系向量与带有论元交互信息的矩阵相融合;4)知识增强的组合表示模块建模,将外部知识的注意力机制作用于基础论元表示上,从而获取具有外部知识指导且具有重要信息的论元表示,同时包含整个论元对的上下文信息;5)构建篇章关系识别模块,利用所得的带有外部知识信息的论元表示进行关系识别。该方法通过外部知识与内在关系识别特征相结合的方式,得到的隐式篇章关系识别结果相比于现有模型在相关评价指标上取得了更好的表现。

Description

基于知识增强的注意力神经网络的隐式篇章关系识别方法
技术领域
本发明涉及自然语言处理中篇章分析技术领域,尤其是涉及篇章关系识别技术,具体为一种基于知识增强的注意力神经网络的隐式篇章关系识别方法。
背景技术
篇章关系描述了两个相邻的文本单元(例如子句,句子和较大的句子组)如何在逻辑上彼此连接,通常被定义为带有两个论元的连词(分别为Arg1和Arg2),例如时序关系,因果关系等。没有显式连接词的隐式篇章关系识别需要从特定的语境来推断两者之间的关系,这依然是一个具有挑战性的问题。隐式篇章关系识别有利于许多流行自然语言处理(Natural Language Processing,NLP)应用,如机器翻译、文本摘要、对话系统等。
以往的研究主要包括:(1)传统的基于特征的模型,(2)基于神经网络的模型。前者采用人为设计的语言特征(如极性、词对、位置信息等)和复杂的规则等[2-4]。然而,隐性篇章关系根源于语义,难以从表面特征上进行识别[5,6]。后者通过编码两个没有交互信息的篇章论元获得了更好的论元表征,能够更准确地把握篇章关系。进一步的研究采用了较为复杂的神经网络与注意力机制、门控机制或记忆机制对论元对的交互信息和论元的重要指示信息进行挖掘。然而,他们忽略了两个论元之间的双向不对称交互,只关注到句子内部的信息[7-9]。
认知心理学的研究认为,人类记忆和理解事物的能力不仅取决于不同类型的记忆(例如即时记忆,长期记忆),还取决于它们之间的相互作用。直观地说,在判断篇章关系时,大脑会自动地唤醒相关的外部知识,这对关系识别很有帮助。为了模仿这一机制,利用相关知识来捕获有意义的信息,这可以丰富对篇章论元的语义理解。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于知识增强的注意力神经网络的隐式篇章关系识别的方法(KANN)。利用外部知识建立关系矩阵,得到关系嵌入向量,由于关系矩阵增强了两个论元之间的非对称交互,因此关系嵌入向量丰富了论元表示,有利于篇章关系的识别。
该方法为了更好进行隐式篇章关系识别,构建了基于知识增强的注意力神经网络,其引入外部知识,丰富了论元表示,有利于篇章关系的识别。该方法首先利用基本论元表示层得到论元对的嵌入向量,进而通过外部知识表示层得到论元中可能包含的所有实体对-关系的嵌入表示,然后通过知识增强的论元间交互注意力机制分别得到互注意力矩阵和知识增强注意力矩阵,再通过知识增强的组合表示模块得到含有外部知识特征和上下文信息的论元表示,最后通过关系识别模块进行篇章关系识别。
本发明的目的是通过以下技术方案实现的:基于知识增强的注意力神经网络的隐式篇章关系识别方法,包括以下步骤:
(1)构建基本论元表示层;首先根据索引进行查表操作实现单词嵌入;然后将篇章论元中原始单词表示转换为低维分布式表示;继而利用神经网络对所有篇章论元进行编码,最终获得基本的篇章论元表示;
(2)构建外部知识表示层;通过Translating Embedding(TransE)[1]实现篇章论元对中所有实体和实体关系的低维向量表示,其中,实体表示中蕴含了相应的实体关系信息,将实体表示作为隐式篇章关系识别的外部知识引入;整个过程包括对两个部分:1)外部知识的检索,利用外部知识得到实体关系向量表示;2)构建篇章论元对中所有实体的关系矩阵;
(3)构建知识增强的论元间交互注意力机制;利用互注意力机制捕获带有重要信息的论元对间的交互信息,其中,引用注意力机制的神经网络能够动态学习到可体现篇章论元对交互信息的注意力矩阵;然后将步骤(2)中获得的实体关系矩阵作为外部知识投影到注意力矩阵上,即可获得使用外部知识增强基本论元对表示的注意力矩阵;
(4)构建知识增强的组合表示模块;将步骤(3)中获得的知识增强注意力矩阵作用在基础论元表示上,即可获取带有外部知识信息的论元表示,同时包含整个论元对的上下文信息;
(5)构建篇章关系识别模块,利用步骤(4)中获取到的带有外部知识信息的论元表示进行篇章关系识别,从而得到篇章关系。
进一步的,步骤(1)具体包括:
对于篇章论元的原始表示,首先通过嵌入向量函数查找出词汇表中的每个词w相应的向量表示
Figure BDA0002227722690000021
其中d表示嵌入向量的维度;由于每个论元被看作是一个词向量的序列,因此在篇章关系中,论元被表示为:
Arg1:
Figure BDA0002227722690000022
Arg2:
Figure BDA0002227722690000023
其中Arg1和Arg2分别包含n1,n2个单词;为了在上下文中表示论元,使用了双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)捕获在序列中每个位置t处的上下文相关的隐藏状态,公式如下:
ht=BiLSTM(wt,ht-1) (15)
在公式(1)中,
Figure BDA0002227722690000031
Figure BDA0002227722690000032
分别是前向网络层和后向的隐藏层状态,它们分别保存了历史和未来的信息,引入了单词的上下文信息,使单词表示更为符合语义表征;因此,Arg1中的第i个单词和Arg2中的第j个单词的隐藏层状态分别编码为
Figure BDA0002227722690000033
Figure BDA0002227722690000034
其中
Figure BDA0002227722690000035
wt表示t时刻的单词表示;ht-1表示t-1时刻的隐藏层状态。
进一步的,步骤(2)具体包括:
构建外部知识表示层的目的是将带有关系信息的实体嵌入表示作为隐式篇章关系识别的外部知识引入;主要包括两部分:外部知识的检索和外部知识表示作为关系嵌入向量;
外部知识的检索:利用WordNet作为外部知识库,将知识表示为一个三元组fi=(subject,relation,object),其中subject和object分别是主体和客体,realation表示关系;对于每个实例(Arg1,Arg2),首先分别从Arg1和Arg2中抽取所有的实体E1,E2,即实体集合);然后将
Figure BDA0002227722690000036
组合成实体对,通过从WordNet中查找出的实体对来检索实体对拥有的相关知识;
外部知识表示作为关系嵌入向量:检索到的知识由两个实体及其关系组成,关系被表示为从预训练的嵌入向量集中所获取的向量
Figure BDA0002227722690000037
如果关系是词组形式,利用所有词的平均值作为关系的嵌入向量;如果第i个实体对有多个关系,则最终的关系嵌入向量由所有的关系嵌入向量经过加权求和计算得到,如公式(2)所示:
Figure BDA0002227722690000038
其中rk代表第k个关系向量,μk表示第k个关系向量的权重,m表示一个实体对中包含的关系数量,其可通过公式(3)计算得到:
Figure BDA0002227722690000039
公式(3)中,m表示一个实体对中包含的关系数量;rj表示m个关系向量中的第j个关系向量;从外部知识获取到实体关系后,会建立一个知识关系矩阵
Figure BDA0002227722690000041
其元素由指示函数
Figure BDA0002227722690000042
填充;
Figure BDA0002227722690000043
其中,eij表示实体对(e1i,e2j),然后得到相关的知识注意力矩阵K'=f(K),函数f是非线性函数,如relu或tanh。
进一步的,步骤(3)具体包括:
首先利用互注意力机制捕获带有重要信息的论元对间的交互信息,然后通过外部知识表示来扩充论元对间交互信息而得到知识增强的关系矩阵;主要包括两部分:互注意力机制,知识增强注意力机制;
互注意力机制:在获得由BiLSTM产生的两个论元的隐藏层状态向量表示后,得到隐藏层状态向量表示矩阵
Figure BDA0002227722690000044
Figure BDA0002227722690000045
然后根据公式(5)计算得到互注意力矩阵
Figure BDA0002227722690000046
G=tanh((R1)TG0R2) (19)
在公式(5)中,
Figure BDA0002227722690000047
是一个引入注意力机制的神经网络学到的参数矩阵,同时激活函数为tanh,(R1)T是隐藏层状态向量表示矩阵R1的转置,G是两个论元中单词对的隐藏层状态向量表示之间的语义相似度矩阵,即互注意力矩阵。
知识增强注意力机制:通过从外部知识中获取的实体对中挖掘篇章论元之间的有益信息;根据上一步骤所得的互注意力矩阵和知识关系矩阵,通过以下公式计算得到知识增强注意力矩阵Q:
Figure BDA0002227722690000048
其中,G反映了两个论元间的联系,K'反映了论元中的来源于WordNet的实体对的关系,因此,Q是一个与相关外部知识相结合的句内关系矩阵;对矩阵应用行、列池化操作生成重要的特征向量;采用均值池化操作,公式如下:
Figure BDA0002227722690000049
其中,
Figure BDA0002227722690000051
表示Arg1中关于Arg2的带有外部知识的第i个词周围的上下文的重要性分数,一致地,
Figure BDA0002227722690000052
表示Arg2中关于Arg1的带有外部知识的第j个词周围的上下文的重要性分数;其中Qi,m表示Arg1中第i个单词和Arg2中第m个单词的与知识相结合的关系分数;n1,n2分别表示Arg1和Arg2的单词个数。从而,根据公式(8)可以获得重要性向量
Figure BDA0002227722690000053
Figure BDA0002227722690000054
接下来,利用softmax函数将
Figure BDA0002227722690000055
Figure BDA0002227722690000056
进行变换则可得到包含外部知识的注意力向量α,β:
Figure BDA0002227722690000057
其中,αi表示Arg1中第i个重要性向量的注意力权重值,βi表示Arg2中第i个重要性向量的注意力权重值。为利用整体影响信息来表示两个篇章论元间的复杂联系,对所有的αii进行平均操作,得到Arg1和Arg2的最终注意力矩阵;
Figure BDA0002227722690000058
最终将注意力向量和BiLSTM的输出向量进行点积得到论元表示RArg1,RArg2,公式如下:
RArg1=R1α,RArg2=R2β (25)
进一步的,步骤(4)具体包括:
构建了一个基于知识增强的组合表示模块,即通过关系嵌入向量来捕获整个篇章的上下文信息,如公式(12)所示:
Figure BDA0002227722690000059
其中,Rtotal表示整个篇章的上下文表示,vi是权重向量,l是论元中存在的实体对数量,ri是公式(2)中的知识表示;基于知识增强的注意力神经网络的隐式篇章关系识别方法将BiLSTM的输出隐藏层状态向量表示通过池化操作转换为定长向量,并将其输入最终的分类器中识别篇章关系,并使用多层感知器(MLP)分类器进行分类;MLP有一个隐藏层,其中包含tanh激活层和softmax输出层。
进一步的,步骤(5)具体包括:
关系识别模块利用由知识增强的组合表示模块得到的包含外部知识信息的论元表示进行关系识别;对于给定的包含n个实例
Figure BDA0002227722690000061
的训练语料,(x,y)表示一个论元对和它们的标签;采用交叉熵损失评估预测关系在多大程度上代表了真实的关系,定义为:
Figure BDA0002227722690000062
其中,yj是真实关系的one-hot表示;
Figure BDA0002227722690000063
是预测关系的表示,C是关系类别的数量,
Figure BDA0002227722690000064
是第j个标签的预测概率;为了最大限度地最小化目标函数,使用随机梯度下降算法进行优化,在第t个时间步上,第i个参数θt,i的优化方式如下:
Figure BDA0002227722690000065
其中,θt-1,i表示第t-1个时间步上,第i个参数,α是初始学习率,
Figure BDA0002227722690000066
是第τ步,第j个参数θτ,i的梯度,gt,i是第t个时间步上,第i个参数θt,i的梯度。
与现有技术相比,本发明的技术方案所带来的有益效果是:本发明从认知心理学的角度提出了一种新的KANN模型,利用外部知识来增强篇章论元之间的不对称交互信息;
(1)外部知识表示层,通过TransE实现篇章论元对中所有实体和实体关系的低维向量表示,其中,实体表示中蕴含了所应的实体关系信息,将其作为隐式篇章关系识别的外部知识引入;整个过程包括对外部知识的检索和利用外部知识表示得到实体关系向量表示以及构建篇章论元对中所有实体的关系矩阵两个部分。
(2)知识增强的论元间交互注意力机制,利用互注意力机制捕获带有重要信息的论元对间的交互信息,其中,引入注意力机制的神经网络可以动态学习到可体现篇章论元对交互信息的注意力矩阵,将实体关系矩阵作为外部知识投影到注意力矩阵上,即通过外部知识以增强基本论元对的注意力矩阵。
(3)知识增强的组合表示模块,可以获取带有外部知识信息的论元表示,同时包含整个论元对的上下文信息。
附图说明
图1是本发明方法的流程示意图。
图2为本发明提供的基于知识增强的注意力神经网络框架图。
图3为PDTB中的论元和关系数据结构。
图4a为互注意力矩阵可视化图。
图4b为知识增强的互注意力矩阵可视化图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例中使用Penn Discourse TreeBank(PDTB)语料库,是《华尔街日报》(WallStreet Journal,WSJ)2312篇文章中标注的最大的手工标注的篇章关系语料库,该方法整体框架见图2所示。整个系统算法流程见图1,包括:(1)数据集预处理,即将数据集划分成训练集、开发集和测试集;(2)实体-关系的编码,即通过构建外部知识表示层得到论元中可能包含的所有实体对-关系的嵌入表示;(3)获取交互注意力矩阵和知识增强注意力矩阵,即构建知识增强的论元间交互注意力机制分别得到互注意力矩阵和知识增强注意力矩阵;(4)知识增强的组合表示模块建模,通过知识增强的组合表示模块得到含有外部知识特征和上下文信息的论元表示;(5)关系识别模块,通过关系识别模块进行篇章关系识别这五个步骤。
具体步骤如下:
(1)数据集预处理
宾州篇章树库(Penn Discourse Treebank,PDTB)是《华尔街日报》(Wall StreetJournal,WSJ)2312篇文章中标注的最大的手工标注的篇章关系语料库。PDTB的第一层为四种主要的关系类型:对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB作为原始语料,并按照以下步骤对原始语料进行处理:(1)Section2-21部分为训练集,Section22为开发集,Section 23为测试集;(2)过滤没有形成论元对的数据;
表1展示了PDTB数据集的统计信息,其中训练集共有12218条数据,包含1842条Comparison数据、3139条Contingency数据、6658条Expansion数据和579条Temporal数据;开发集共有2317条数据,包含393条Comparison数据、610条Contingency数据、1231条Expansion数据和83条Temporal数据;测试集共有1002条数据,包含144条Comparison数据、266条Contingency数据、537条Expansion数据和55条Temporal数据;
表1隐含篇章关系统计
Relation Train Dev Test
Comparison 1842 393 144
Contingency 3139 610 266
Expansion 6658 1231 537
Temporal 579 83 55
将语料库中的论元作为输入,首先经过嵌入层得到嵌入向量,即one-hot表示转换为分布式表示,以便利用神经网络对论元及其关系进行建模。PDTB中的论元和关系数据结构如图3所示。
(2)实体-关系的编码
按照上步将数据集划分成训练集、开发集和测试集后,为了得到论元中可能包含的所有实体对-关系的嵌入表示,首先将论元中的单词在外部知识库WordNet中检索到对应的实体;然后将实体的符号形式转换为低维连续向量,以便于作为外部知识特征融入关系矩阵中,公式如下:
Figure BDA0002227722690000081
Figure BDA0002227722690000082
Figure BDA0002227722690000083
公式中符号的含义如同前文所述,其中,
Figure BDA0002227722690000084
为从预训练的嵌入向量集中所获取的向量,rk代表第k个关系向量;μk表示第k个关系向量的权重,m表示一个实体对中包含的关系数量,rj表示m个关系向量中的第j个关系向量,eij表示实体对(e1i,e2j),然后可以获取到相关的知识注意力矩阵K'=f(K),函数f是非线性函数,如relu,tanh等。
(3)获取交互注意力矩阵和知识增强注意力矩阵
在获得基本论元表示和外部知识表示后,为了获得每个论元中的重要词汇信息,分别构建了互注意力矩阵和知识增强注意力矩阵,首先利用互注意力机制捕获论元对间的交互信息,通过BiLSTM可以产生的两个论元的隐藏层状态向量表示矩阵
Figure BDA0002227722690000091
Figure BDA0002227722690000092
然后可以根据公式(5)和(6)计分别算得到互注意力矩阵
Figure BDA0002227722690000093
和知识增强注意力矩阵
Figure BDA0002227722690000094
G=tanh((R1)TG0R2) (29)
Figure BDA0002227722690000095
其中,
Figure BDA0002227722690000096
是一个引入注意力机制的神经网络学到的参数矩阵,同时激活函数为tanh,(R1)T是隐藏层状态向量表示矩阵R1的转置。G是两个论元中单词对的隐藏层状态向量表示之间的语义相似度矩阵并反映了两个论元间的联系,K'是步骤(2)所获得的知识关系矩阵并反映了论元中的来源于WordNet的实体对的关系,因此Q是一个与相关外部知识相结合的句内关系矩阵。我们对知识增强注意力矩阵Q应用行、列池化操作来生成重要的特征向量。由于均值池化操作比最大值池化操作具有更好的效果,我们采用均值池化操作,公式如下:
Figure BDA0002227722690000097
其中,
Figure BDA0002227722690000098
表示Arg1中关于Arg2的带有外部知识的第i个词周围的上下文的重要性分数,一致地,
Figure BDA0002227722690000099
表示Arg2中关于Arg1的带有外部知识的第j个词周围的上下文的重要性分数。其中Qi,m表示Arg1中第i个单词和Arg2中第m个单词的与知识相结合的关系分数;n1,n2分别表示Arg1和Arg2的单词个数。然后,我们可以得到重要性向量
Figure BDA00022277226900000910
和包含外部知识注意力向量α,β,公式如下:
Figure BDA00022277226900000911
Figure BDA0002227722690000101
Figure BDA0002227722690000102
其中,αi表示Arg1中第i个重要性向量的注意力权重值,βj表示Arg2中第j个重要性向量的注意力权重值。然后将注意力向量和BiLSTM的输出向量进行点积得到论元表示RArg1,RArg2,公式如下:
RArg1=R1α,RArg2=R2β (35)
根据上述公式,可以将外部知识作为关系向量与关系矩阵相融合,首先利用互注意力机制捕获带有重要信息的论元对间的交互信息,然后通过知识增强来扩充论元对间交互信息得到知识增强的关系矩阵。
(4)基于知识增强的组合表示模块
虽然公式(11)计算的表示包含了相关的知识,但是由于缺少句间上下文(如果只是将两个论元拼接成“[Arg1,Arg2]”),无法进行有效地使用。因此,构建了一个基于知识增强的组合表示模块,即通过关系嵌入向量来捕获整个篇章的上下文信息,如公式(12)所示:
Figure BDA0002227722690000103
其中,Rtotal表示整个篇章的上下文表示,vi是权重,l是论元中存在的实体对数量,ri是公式(2)中的知识表示。模型将BiLSTM的输出隐藏层状态向量表示通过池化操作转换为定长向量,并将其输入最终的分类器中识别篇章关系,并使用多层感知器(MLP)分类器进行分类。MLP有一个隐藏层,其中包含tanh激活层和softmax输出层。
(5)关系识别模块
关系识别模块利用由知识增强的组合表示模块得到的包含外部知识信息的论元表示进行关系识别。对于给定的包含n个实例
Figure BDA0002227722690000104
的训练语料,(x,y)表示一个论元对和它们的标签。我们采用交叉熵损失评估预测关系在多大程度上代表了真实的关系,定义为:
Figure BDA0002227722690000111
其中,yj是真实关系的one-hot表示;
Figure BDA0002227722690000112
是预测关系的表示,C是关系类别的数量,
Figure BDA0002227722690000113
是第j个标签的预测概率。为了最大限度地最小化目标函数,我们使用随机梯度下降算法进行优化,在第t个时间步上,第i个参数θt,i的优化方式如下:
Figure BDA0002227722690000114
其中,θt-1,i表示第t-1个时间步上,第i个参数,α是初始学习率,
Figure BDA0002227722690000115
是第τ步,第j个参数θτ,i的梯度,gt,i是第t个时间步上,第i个参数θt,i的梯度。
在具体实施过程中,以PDTB数据集为例,首先对语料库进行预处理,例如将PDTB中的单词转换为小写,然后把最后输出的维度设为80并且在训练过程中固定不变,如果词向量不是通过GloVe预训练词向量获得,则它们是由[-0.1,0.1]均匀分布随机初始化的单词嵌入。将所有的篇章论元均填充为长度为80的向量,中间表示的长度也设置为80。其他参数由[-0.1,0.1]均匀分布随机初始化得到。这里,不提供调优超参数的细节,只给出它们的最终设置,如表2所示:
表2 KANN模型的超参数
Description Value
The length of hidden states 50
Knowledge embedding size 300
Initial learning rate 0.001
Minibatch size 32
为了验证本发明方法的有效性,本发明方法(KANN)选择以下模型作为基线,这些模型是隐式篇章关系识别中,在论元表示、交互和相关知识方面的最新模型:
1)篇章论元表示
·
Figure BDA0002227722690000116
et al.(2017)[12]他们利用基于注意力的递归神经网络,对篇章单元序列进行联合建模。
·Liu and Li(2016)[8]他们设计了具有多层次注意力的神经网络(NNMA),并选择了重要的词语来识别篇章关系。在这里,选择具有两级和三级注意力的模型作为基线。
2)篇章论元对交互
·Chen et al.(2016)[9]他们使用门控相关网络(GRN)并结合了单词对之间的线性和非线性交互。
·Lei et al.(2017)[7]他们采用词加权平均操作来编码论元表示,这可以有效地与单词对信息相结合。
3)相关知识
·Lan et al.(2017)[10]他们提出了i)一种基于注意力的神经网络,通过相互作用进行表示学习;ii)多任务学习,利用辅助任务的知识来提升性能。
·Lei et al.(2018)[11]他们发现每种关系类型的语义特征和两个内聚特征“主题连续性和归因”共同作用,以促进每个关系的特定属性。
此外,还使用这三种退化模型与的KANN模型进行了比较:
·LSTM分别用LSTMs对两个篇章论元进行编码,然后将这两个表示连接起来作为隐藏层,输入到softmax分类器中。
·BiLSTM基于LSTM,考虑了双向上下文信息,并使用BiLSTM对两个篇章论元进行编码。
·BiLSTM+Mutual Attention进一步通过神经网络动态学到互注意矩阵,并对其进行融合,得到新的论元表示形式(即BMAN)。
目前,篇章分析的评测主要考虑算法的准确度(Accuracy)和F1值两个性能指标。准确度采用式(15)进行度量。
Figure BDA0002227722690000121
这里,TruePositive代表本来是正样例,同时分类成正样例的个数;TrueNegative代表本来是负样例,同时分类成负样例的个数;All代表样例总个数。
F1值由准确率(Precision)和召回率(Recall)共同体现,采用式(16)进行度量。
Figure BDA0002227722690000122
其中,
Figure BDA0002227722690000123
Figure BDA0002227722690000124
这里,FalsePositive代表本来是负样例,但被分类成正样例的个数(通常叫误报);FalseNegative代表本来是正样例,但被分类成负样例的个数(通常叫漏报)。相关分数值越高表示该模型性能越好。
表3与最先进的模型的二分类结果进行比较(%),
Figure BDA0002227722690000131
表示模型复现结果,其它表示引用结果
Figure BDA0002227722690000132
表4与最先进的模型的四类结果进行比较(%),
Figure BDA0002227722690000133
表示模型复现结果,其它表示引用结果
Figure BDA0002227722690000134
表5退化模型不同设置的四分类结果
Figure BDA0002227722690000135
从表3,4,5的实验结果可看出,本发明提出的基于知识增强的注意力神经网络的隐式篇章关系识别的有效性。
从整体上看,基于论元表示的模型的性能低于基于论元对交互和相关知识的模型。这是由于在基于表征的模型中篇章论元的并行编码造成的。随着不同关系中实例数的增加,F1分数也随之提高。由此可见,语料库对隐性篇章关系的识别也起着至关重要的作用。
在各个篇章关系上,LSTM的性能最差。虽然BiLSTM比LSTM捕获更多的信息,但是结果也不是很理想。究其原因,LSTM或BiLSTM分别对篇章论元进行编码时,由于对每个词都做相同处理,忽略了局部焦点词。与LSTM和BiLSTM相比,BMAN模型实现了更好的性能。这表明,BMAN可以通过构造词对之间的关联性,在两个论元中找到特定的有效信息。KANN模型在F1分数和精确度上都达到了最好的性能,其知识增强的注意力模块不仅用非对称的交互信息对论元进行编码,而且利用外部知识来增强对论元的深层语义理解。因此,它可以考虑每个关系的特殊属性。
为了证明外部知识的有效性,可视化图4a和图4b中所示的不同注意力矩阵的热图,其中展示了示例中的注意力矩阵,每个单词都伴随着不同深度色块,较暗的部分表示单词对的相关性较高。关于图4a,可以观察到单词对“not”,“good”是获得语义信息的重要上下文,这表明互注意力机制可以捕捉论点的重要部分。然而,具有较高分数的单词对的分布相对平均,这表明通过该注意力机制来挖掘语义信息是不够的。相比较而言,图4b中词对的得分更加突出,这说明整合外部知识使得论元的重点部分更加清晰。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献
[1]Antoine Bordes,Nicolas Usunier,Alberto GarciaDuran,Jason Weston,and Oksana Yakhnenko.2013.Translating embeddings for modeling multirelationaldata.In Advances in Neural Information Processing Systems 26,pages 2787–2795.
[2]Emily Pitler,Annie Louis,and Ani and Nenkova.2009.Automatic senseprediction for implicit discourse relations in text.In Proceedings of theJoint Conference of the 47th Annual Meeting of the ACL and the 4thInternational Joint Conference on Natural Language Processing of the AFNLP,pages 683–691.
[3]Ziheng Lin,Min-Yen Kan,and Hwee Tou Ng.2009.Recognizing implicitdiscourse relations in the penn discourse treebank.In Proceedings of the2009Conference on Empirical Methods in Natural Language Processing(EMNLP),pages 343–351.
[4]Attapol Rutherford and Nianwen Xue.2014.Discovering implicitdiscourse relations through brown cluster pair representation and coreferencepatterns.In Proceedings of the 14th Conference of the European Chapter of theAssociation for Computational Linguistics(EACL),pages 645–654.
[5]Biao Zhang,Jinsong Su,Deyi Xiong,Yaojie Lu,Hong Duan,and JunfengYao.2015.Shallow convolutional neural network for implicit discourse relationrecognition.In Proceedings of the 2015 Conference on Empirical Methods inNatural Language Processing(EMNLP),pages 2230–2235.
[6]Yang Liu,Sujian Li,Xiaodong Zhang,and Zhifang Sui.2016.Implicitdiscourse relation classification via multi-task neural networks.InProceedings of the Thirtieth AAAI Conference on Artificial Intelligence(AAAI),pages 2750–2756.
[7]Wenqiang Lei,Xuancong Wang,Meichun Liu,Ilija Ilievski,Xiangnan He,and Min-Yen Kan.2017.Swim:A simple word interaction model for implicitdiscourse relation recognition.In Proceedings of the 26th International JointConference on Artificial Intelligence,pages 4026–4032.
[8]Yang Liu and Sujian Li.2016.Recognizing implicit discourserelations via repeated reading:Neural networks with multi-level attention.InProceedings of the 2016 Conference on Empirical Methods in Natural LanguageProcessing(EMNLP),pages 1224–1233.
[9]Jifan Chen,Qi Zhang,Pengfei Liu,Xipeng Qiu,and XuanjingHuang.2016.Implicit discourse relation detection via a deep architecture withgated relevance network.In Proceedings of the 54th Annual Meeting of theAssociation for Computational Linguistics(ACL),pages 1726–1735.
[10]Man Lan,Jianxiang Wang,Yuanbin Wu,Zheng-Yu Niu,and HaifengWang.2017.Multi-task attentionbased neural networks for implicit discourserelationship representation and identification.In Proceedings of the 2017Conference on Empirical Methods in Natural Language Processing(EMNLP),pages1299–1308.
[11]Wenqiang Lei,Yuanxin Xiang,Yuwei Wang,Qian Zhong,Meichun Liu,andMin-Yen Kan.2018.Linguistic properties matter for implicit discourse relationrecognition:Combining semantic interaction,topic continuity andattribution.In Thirty-Second AAAI Conference on Artificial Intelligence.
[12]
Figure BDA0002227722690000151
S,Schenk N,Chiarcos C.A recurrent neural model withattention for the recognition of Chinese implicit discourse relations[J].arXiv preprint arXiv:1704.08092,2017.

Claims (6)

1.基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,包括以下步骤:
(1)构建基本论元表示层;首先根据索引进行查表操作实现单词嵌入;然后将篇章论元中原始单词表示转换为低维分布式表示;继而利用神经网络对所有篇章论元进行编码,最终获得基本的篇章论元表示;
(2)构建外部知识表示层;通过Translating Embedding(TransE)实现篇章论元对中所有实体和实体关系的低维向量表示,其中,实体表示中蕴含了相应的实体关系信息,将实体表示作为隐式篇章关系识别的外部知识引入;整个过程包括两个部分:1)外部知识的检索,利用外部知识得到实体关系向量表示;2)构建篇章论元对中所有实体的关系矩阵;
(3)构建知识增强的论元间交互注意力机制;利用互注意力机制捕获带有重要信息的论元对间的交互信息,其中,引用注意力机制的神经网络能够动态学习到可体现篇章论元对交互信息的注意力矩阵;然后将步骤(2)中获得的实体关系矩阵作为外部知识投影到注意力矩阵上,即可获得使用外部知识增强基本论元对表示的注意力矩阵;
(4)构建知识增强的组合表示模块;将步骤(3)中获得的知识增强注意力矩阵作用在基础论元表示上,即可获取带有外部知识信息的论元表示,同时包含整个论元对的上下文信息;
(5)构建篇章关系识别模块,利用步骤(4)中获取到的带有外部知识信息的论元表示进行关系识别,从而得到篇章关系。
2.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(1)具体包括:
对于篇章论元的原始表示,首先通过嵌入向量函数查找出词汇表中的每个词w相应的向量表示
Figure FDA0002227722680000011
其中d表示嵌入向量的维度;由于每个论元被看作是一个词向量的序列,因此在篇章关系中,论元被表示为:
Figure FDA0002227722680000012
Figure FDA0002227722680000013
其中Arg1和Arg2分别包含n1,n2个单词;为了在上下文中表示论元,使用了双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)捕获在序列中每个位置t处的上下文相关的隐藏状态,公式如下:
ht=BiLSTM(wt,ht-1) (1)
在公式(1)中,
Figure FDA0002227722680000021
Figure FDA0002227722680000022
分别是前向网络层和后向的隐藏层状态,它们分别保存了历史和未来的信息,引入了单词的上下文信息,使单词表示更为符合语义表征;因此,Arg1中的第i个单词和Arg2中的第j个单词的隐藏层状态分别编码为
Figure FDA0002227722680000023
Figure FDA0002227722680000024
其中
Figure FDA0002227722680000025
wt表示t时刻的单词表示;ht-1表示t-1时刻的隐藏层状态。
3.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(2)具体包括:
构建外部知识表示层的目的是将带有关系信息的实体嵌入表示作为隐式篇章关系识别的外部知识引入;主要包括两部分:外部知识的检索和外部知识表示作为关系嵌入向量;
外部知识的检索:利用WordNet作为外部知识库,将知识表示为一个三元组fi=(subject,relation,object),其中subject和object分别是主体和客体,realation表示关系;对于每个实例(Arg1,Arg2),首先分别从Arg1和Arg2中抽取所有的实体E1,E2,即实体集合);然后将
Figure FDA0002227722680000026
组合成实体对,最后通过从WordNet中查找出的实体对来检索实体对拥有的相关知识;
外部知识表示作为关系嵌入向量:检索到的知识由两个实体及其关系组成,关系被表示为从预训练的嵌入向量集中所获取的向量
Figure FDA0002227722680000027
如果关系是词组形式,利用所有词的平均值作为关系的嵌入向量;如果第i个实体对有多个关系,则最终的关系嵌入向量由所有的关系嵌入向量经过加权求和计算得到,如公式(2)所示:
Figure FDA0002227722680000028
其中rk代表第k个关系向量,μk表示第k个关系向量的权重,m表示一个实体对中包含的关系数量,其可通过公式(3)计算得到:
Figure FDA0002227722680000029
公式(3)中,m表示一个实体对中包含的关系数量;rj表示m个关系向量中的第j个关系向量;从外部知识获取到实体关系后,会建立一个知识关系矩阵
Figure FDA00022277226800000210
其元素由指示函数
Figure FDA0002227722680000031
填充;
Figure FDA0002227722680000032
其中,eij表示实体对(e1i,e2j),然后得到相关的知识注意力矩阵K'=f(K),函数f是非线性函数,如relu或tanh。
4.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(3)具体包括:
首先利用互注意力机制捕获带有重要信息的论元对间的交互信息,然后通过外部知识表示来扩充论元对间交互信息而得到知识增强的关系矩阵;主要包括两部分:互注意力机制,知识增强注意力机制;
互注意力机制:在获得由BiLSTM产生的两个论元的隐藏层状态向量表示后,得到隐藏层状态向量表示矩阵
Figure FDA0002227722680000033
Figure FDA0002227722680000034
然后根据公式(5)计算得到互注意力矩阵
Figure FDA0002227722680000035
G=tanh((R1)TG0R2) (5)
在公式(5)中,
Figure FDA0002227722680000036
是一个引入注意力机制的神经网络所学到的参数矩阵,同时激活函数为tanh,(R1)T是隐藏层状态向量表示矩阵R1的转置,G是两个论元中单词对的隐藏层状态向量表示之间的语义相似度矩阵,即互注意力矩阵;
知识增强注意力机制:通过从外部知识中获取的实体对中挖掘篇章论元之间的有益信息;根据上一步骤所得的互注意力矩阵和知识关系矩阵,通过以下公式计算得到知识增强注意力矩阵Q:
Figure FDA0002227722680000037
其中,G反映了两个论元间的联系,K'反映了论元中的来源于WordNet的实体对的关系,因此,Q是一个与相关外部知识相结合的句内关系矩阵;对矩阵应用行、列池化操作生成重要的特征向量;采用均值池化操作,公式如下:
Figure FDA0002227722680000038
其中,
Figure FDA0002227722680000041
表示Arg1中关于Arg2的带有外部知识的第i个词周围的上下文的重要性分数,一致地,
Figure FDA0002227722680000042
表示Arg2中关于Arg1的带有外部知识的第j个词周围的上下文的重要性分数;其中Qi,m表示Arg1中第i个单词和Arg2中第m个单词的与知识相结合的关系分数;n1,n2分别表示Arg1和Arg2的单词个数;从而,根据公式(8)可以获得重要性向量
Figure FDA0002227722680000043
Figure FDA0002227722680000044
接下来,利用softmax函数将
Figure FDA0002227722680000045
Figure FDA0002227722680000046
进行变换则可得到包含外部知识的注意力向量α,β:
Figure FDA0002227722680000047
其中,αi表示Arg1中第i个重要性向量的注意力权重值,βi表示Arg2中第i个重要性向量的注意力权重值;为利用整体影响信息来表示两个篇章论元间的复杂联系,对所有的αii进行平均操作,得到Arg1和Arg2的最终注意力矩阵;
Figure FDA0002227722680000048
最终将注意力向量和BiLSTM的输出向量进行点积得到论元表示RArg1,RArg2,公式如下:
RArg1=R1α,RArg2=R2β (11)。
5.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(4)具体包括:
构建了一个基于知识增强的组合表示模块,即通过关系嵌入向量来捕获整个篇章的上下文信息,如公式(12)所示:
Figure FDA0002227722680000049
其中,Rtotal表示整个篇章的上下文表示,vi是权重向量,l是论元中存在的实体对数量,ri是公式(2)中的知识表示;基于知识增强的注意力神经网络的隐式篇章关系识别方法将BiLSTM的输出隐藏层状态向量表示通过池化操作转换为定长向量,并将其输入最终的分类器中识别篇章关系,并使用多层感知器(MLP)分类器进行分类;MLP有一个隐藏层,其中包含tanh激活层和softmax输出层。
6.根据权利要求1所述基于知识增强的注意力神经网络的隐式篇章关系识别方法,其特征在于,步骤(5)具体包括:
关系识别模块利用由知识增强的组合表示模块得到的包含外部知识信息的论元表示进行关系识别;对于给定的包含n个实例
Figure FDA0002227722680000051
的训练语料,(x,y)表示一个论元对和它们的标签;采用交叉熵损失评估预测关系在多大程度上代表了真实的关系,定义为:
Figure FDA0002227722680000052
其中,yj是真实关系的one-hot表示;
Figure FDA0002227722680000053
是预测关系的表示,C是关系类别的数量,
Figure FDA0002227722680000054
是第j个标签的预测概率;为了最大限度地最小化目标函数,使用随机梯度下降算法进行优化,在第t个时间步上,第i个参数θt,i的优化方式如下:
Figure FDA0002227722680000055
其中,θt-1,i表示第t-1个时间步上,第i个参数,α是初始学习率,
Figure FDA0002227722680000056
是第τ步,第j个参数θτ,i的梯度,gt,i是第t个时间步上,第i个参数θt,i的梯度。
CN201910957154.2A 2019-10-10 2019-10-10 基于知识增强的注意力神经网络的隐式篇章关系识别方法 Active CN110888980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910957154.2A CN110888980B (zh) 2019-10-10 2019-10-10 基于知识增强的注意力神经网络的隐式篇章关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910957154.2A CN110888980B (zh) 2019-10-10 2019-10-10 基于知识增强的注意力神经网络的隐式篇章关系识别方法

Publications (2)

Publication Number Publication Date
CN110888980A true CN110888980A (zh) 2020-03-17
CN110888980B CN110888980B (zh) 2023-12-22

Family

ID=69745998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910957154.2A Active CN110888980B (zh) 2019-10-10 2019-10-10 基于知识增强的注意力神经网络的隐式篇章关系识别方法

Country Status (1)

Country Link
CN (1) CN110888980B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428525A (zh) * 2020-06-15 2020-07-17 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN111930920A (zh) * 2020-09-30 2020-11-13 恒生电子股份有限公司 基于知识增强处理的faq相似度计算方法、装置及电子设备
CN112818128A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于知识图谱增益的机器阅读理解模型
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113255371A (zh) * 2021-07-14 2021-08-13 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN116432752A (zh) * 2023-04-27 2023-07-14 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN109446526A (zh) * 2018-10-26 2019-03-08 苏州大学 一种隐式篇章关系语料库的构建方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN109446526A (zh) * 2018-10-26 2019-03-08 苏州大学 一种隐式篇章关系语料库的构建方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕国英;苏娜;李茹;王智强;柴清华;: "基于框架的汉语篇章结构生成和篇章关系识别" *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置
CN111428525A (zh) * 2020-06-15 2020-07-17 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN111930920A (zh) * 2020-09-30 2020-11-13 恒生电子股份有限公司 基于知识增强处理的faq相似度计算方法、装置及电子设备
CN112818128B (zh) * 2021-01-21 2022-08-09 上海电力大学 一种基于知识图谱增益的机器阅读理解系统
CN112818128A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于知识图谱增益的机器阅读理解模型
CN113076421A (zh) * 2021-04-02 2021-07-06 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113076421B (zh) * 2021-04-02 2023-03-28 西安交通大学 一种社交噪音文本实体关系抽取优化方法及系统
CN113255371A (zh) * 2021-07-14 2021-08-13 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统
CN113255371B (zh) * 2021-07-14 2021-09-24 华东交通大学 一种半监督的中英文隐式篇章关系识别方法与系统
CN113515951A (zh) * 2021-07-19 2021-10-19 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN116432752A (zh) * 2023-04-27 2023-07-14 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用
CN116432752B (zh) * 2023-04-27 2024-02-02 华中科技大学 一种隐式篇章关系识别模型的构建方法及其应用

Also Published As

Publication number Publication date
CN110888980B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN116702091B (zh) 基于多视图clip的多模态讽刺意图识别方法、装置和设备
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN111209366A (zh) 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN112836048A (zh) 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
Qiu et al. Chinese microblog sentiment detection based on CNN-BiGRU and multihead attention mechanism
Sargar et al. Image captioning methods and metrics
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统
Zhang et al. Context-aware dual-attention network for natural language inference
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
Kim Research on Text Classification Based on Deep Neural Network
SiChen A neural network based text classification with attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant