CN112148832B - 一种基于标签感知的双重自注意力网络的事件检测方法 - Google Patents

一种基于标签感知的双重自注意力网络的事件检测方法 Download PDF

Info

Publication number
CN112148832B
CN112148832B CN201910563185.XA CN201910563185A CN112148832B CN 112148832 B CN112148832 B CN 112148832B CN 201910563185 A CN201910563185 A CN 201910563185A CN 112148832 B CN112148832 B CN 112148832B
Authority
CN
China
Prior art keywords
word
event
attention
label
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910563185.XA
Other languages
English (en)
Other versions
CN112148832A (zh
Inventor
贺瑞芳
赵文丽
贺迎春
朱永凯
韩玉桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910563185.XA priority Critical patent/CN112148832B/zh
Publication of CN112148832A publication Critical patent/CN112148832A/zh
Application granted granted Critical
Publication of CN112148832B publication Critical patent/CN112148832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于标签感知的双重自注意力网络的事件检测方法,为了学习事件标签的一致性信息,学习了事件标签嵌入(label embedding)并利用了一个注意力函数去度量单词和事件标签的相关性,这主要为了确保相关事件标签的注意力值总是大于非相关的;然后通过注意力值对标签嵌入加权求和得到每个单词的在标签空间中的表示。最后利用了一个双重自注意力机制去同时捕获任意两个单词在单词空间和标签空间上的相互依赖,包括词级自注意力和标签级自注意力,其中词级自注意力捕获了指示事件类型的单词之间的关系线索,标签级自注意力隐式地建模了事件标签之间的相关性。本发明方法同时考虑了标签信息以及相互依赖,从而增强了单词表示的能力。

Description

一种基于标签感知的双重自注意力网络的事件检测方法
技术领域
本发明涉及自然语言处理以及信息抽取技术领域,具体为一种基于标签感知的双重自注意力网络的事件检测方法。
背景技术
随着计算机的普及和互联网的迅猛发展,大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们从海量信息中快速、准确地提取出感兴趣的信息。信息抽取正是在这种需求背景下应运而生的,而事件抽取作为信息抽取中最具挑战性的任务之一,受到越来越多学者的关注,其主要任务是从非结构化的信息中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户,例如事件的类型,事件的参与者,发生的时间和地点等。
在信息化产业的快速发展和推动下,事件抽取已经成为多学科发展和应用的需要。它涉及到自然语言处理、数据挖掘、机器学习、数据库等多个学科的技术和方法,在自动文摘、信息检索等领域仍有着广泛的应用。因此,事件抽取任务的研究具有重要的现实意义。
从事件抽取的发展历程来看,它几乎与信息抽取的研究同时开始。20世纪七、八十年代,耶鲁大学就针对新闻报道如地震、工人罢工等领域或场景,开展有关故事理解的研究,并根据故事脚本理论建立了一个信息抽取系统,而进一步发展的动力主要是相关评测会议的推动,如信息理解研讨会(Message Understanding for Comprehension,MUC)、自动内容抽取评测(Automatic Content Extraction,ACE)等,其中前者为事件抽取研究奠定了坚实的基础,后者则把事件抽取技术引向新的高度。目前大多数研究都是围绕ACE会议提出的事件抽取框架展开的。ACE2005会议定义了8种事件类型及33种子类型,并为每种事件类型制定了唯一的事件元素角色模板,共涉及35种角色。一个事件通常由一个触发词(trigger)和若干事件元素(argument)组成,其中触发词是指文本中最能体现事件发生的词语,大多为动词或名词,事件元素包含了事件的属性和参与者。根据上述定义,事件抽取可以分成两个子任务,分别是:事件检测(也叫触发词检测)和事件元素识别。本发明关注于事件检测任务,它的目标是识别出表示事件发生的核心词并将其分类为特定的事件类型。例如:在句子“Three boys were hacked to death by a tribal mob.”中,事件检测器应该能够识别两个事件:由“hacked”触发的“Attack”事件和“death”唤醒的“Die”事件。然而,在有限的训练数据中,它仍然是具有挑战性的,因为在不同的上下文中,同一事件可能以不同的触发词形式出现,而相同触发词也可能表示为不同事件。尤其是很多触发词作为特定的事件类型仅出现几次(比如:上面句子中的“hacked”),它们被称为稀有触发词。
目前,事件检测的相关研究主要分为两类:(1)基于特征的传统方法;(2)基于表示的神经网络方法。前者采用各种策略将分类线索(比如:词性标记、依存关系)转换为特征向量或者设计复杂的推理规则,然后通过传统的机器学习方法(如最大熵、支持向量机等模型)得到最终的分类器;后者采用分布式表示作为输入,接着将其喂入各种神经网络中来自动学习相关的特征以完成事件检测。相比于前者,后者的优势在于:(1)避免了复杂的特征工程问题;(2)不需要借助其它自然语言处理工具(词性标注器、句法分析器等),降低了错误传播带来的影响。
尽管以上方法已经取得了不错的性能,但仍然存在着不同程度的数据稀疏问题,为了解决该问题,有些工作利用额外资源去扩大语料,但仍受限于样本空间,而忽略了标签空间的潜在信息;有些工作显式地设计了跨实体/事件/句子的线索,但仍然不能捕获到上下文中潜在的内部依存关系。因为(1)句子中的每个单词都语义对应着它特定的标签,而标签又富含稠密且指示性的线索,可以帮助捕获事件类型特定的上下文,尤其对稀有触发词是有用的;(2)任意两个词之间的直接依赖关系有助于捕获句子的内部结构信息,所以,丰富的标签信息和潜在的语义依存可以为事件检测任务提供有利的线索。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于标签感知的双重自注意力网络的事件检测方法,为了学习事件标签的一致性信息,学习了事件标签嵌入(labelembedding)并利用了一个注意力函数去度量单词和事件标签的相关性,这主要为了确保相关事件标签的注意力值总是大于非相关的;然后通过注意力值对标签嵌入加权求和得到每个单词的在标签空间中的表示。最后利用了一个双重自注意力机制去同时捕获任意两个单词在单词空间和标签空间上的相互依赖,包括词级自注意力和标签级自注意力,其中词级自注意力捕获了指示事件类型的单词之间的关系线索,标签级自注意力隐式地建模了事件标签之间的相关性,该方法相比于当前最优的模型在F1值评价指标上是具有竞争性的。
本发明的目的是通过以下技术方案实现的:
一种基于标签感知的双重自注意力网络的事件检测方法,包括以下步骤:
(101)构建嵌入层:嵌入层内包括词嵌入和事件标签嵌入,通过在嵌入空间中建模事件标签并学习事件标签嵌入以捕获事件类型的上下文,所述事件标签是事件提及的抽象和指示性表达;如果在事件分类期间只将事件标签视为预测目标,并将它们表示为独立且无意义的独热向量(one-hot vector),则会丢失很多有价值的信息。因此,类似于词嵌入[1],在嵌入空间中建模事件标签并学习有效的事件标签嵌入去捕获事件类型特定的上下文是非常有必要的。
(102)对候选事件提及进行序列编码;对于每个单词xi,结合历史信息和未来信息能够更好的增强其嵌入wi的语义丰富性。而相比于传统的循环神经网络,双向的长短期记忆网络(BiLSTM)[2]能够更好的捕获单词的序列语义,因此,本发明仍然采用BiLSTM进行序列编码,它不仅能够捕获当前词的历史信息,还能编码它的未来信息。
(103)建立事件标签感知的注意力交互模型;每个单词都对应有特定的事件标签,而事件标签又充满着类特定的线索,引入事件标签感知的注意力机制将单词空间的词嵌入映射到标签空间中去建模单词与事件标签的交互关系,从而捕获单词内在的事件标签属性,以便利用事件标签的一致性信息;
(104)建立双重自注意力模型:自注意力[3]将单个序列中不同位置的元素关联起来,通过计算每个单词对之间的注意力来得到其序列表示,它对于建立局部和全局依存是很具有表达性和灵活性的。采用双重自注意力机制建立词级自注意力和标签级自注意力模型,分别采用词级自注意力和标签级自注意力模型学习单词空间和标签空间的内部结构以及语义特性,详细地说,词级自注意力捕获了指示事件类型的单词之间的关系线索,标签级自注意力则隐式地建模了事件标签之间的相关性;
(105)整合动态信息;使用门控注意力机制动态整合词级和标签级信息作为每个单词最终的表示;
(106)预测事件类型。
8.进一步的,步骤(101)中具体包括:给定一个事件提及句子X=(x1,x2,…,xi,…,xn),其中n是单词个数,xi是第i个单词,将每个单词xi看作候选触发词,同时用每个单词xi对应的300维的词嵌入向量wi来初始化;所有的事件标签表示为C=(c1,c2,…,cj,…,cm),m是事件标签的个数,cj是第j个事件标签,采用事件标签嵌入向量lj来初始化。
进一步的,步骤(102)具体包括:
对于每个单词xi,结合历史信息和未来信息以增强其向量wi的语义丰富性,采用BiLSTM进行序列编码,给定候选事件提及序列嵌入矩阵W=(w1,w2,…,wi,…,wn),分别通过运行
Figure BDA0002108829680000031
(前向LSTM)和
Figure BDA0002108829680000032
(后向LSTM)得到整个序列的隐表示矩阵
Figure BDA0002108829680000033
Figure BDA0002108829680000034
其中每个向量
Figure BDA0002108829680000035
Figure BDA0002108829680000036
分别通过公式(1)和公式(2)计算得到;
Figure BDA0002108829680000041
Figure BDA0002108829680000042
前向LSTM和后向LSTM分别捕获了第i个单词的历史信息和未来信息;最后通过拼接向量
Figure BDA0002108829680000043
Figure BDA0002108829680000044
的操作得到了句子中第i个单词的序列语义向量,即
Figure BDA0002108829680000045
其中
Figure BDA0002108829680000046
表示拼接符号,则整个句子的语义表示为矩阵H=(h1,h2,…,hn)。
进一步的,步骤(103)具体包括:
在单词空间中的词嵌入向标签空间映射的过程中,考虑到每个事件标签对每个单词的贡献度不同,故利用贡献度对所有的事件标签嵌入进行加权求和得到句子中每个单词在标签空间中的表示,即矩阵T=(t1,t2,…,ti,…,tn),其中向量ti是第i个单词在标签空间中的表示,其计算见公式(3),
Figure BDA0002108829680000047
公式(3)中的αi,j度量了第i个词表示和第j个标签表示之间的相关性,即第j个标签对第i个词的贡献度,其采用了余弦相似度函数进行计算见公式(4),
Figure BDA0002108829680000048
公式(4)中的
Figure BDA0002108829680000049
是hi的转置,此外,对第i个词构建了标准的标签感知的注意力信号为向量
Figure BDA00021088296800000410
以对相关事件标签赋予更大的注意力,最后,利用平方差作为注意力的损失函数El*,α),见公式(5),
Figure BDA00021088296800000411
公式(5)中的
Figure BDA00021088296800000412
是第i个词对第j个事件标签的标准注意力信号值。
进一步的,步骤(104)具体包括:
自注意力机制可将句子序列中不同位置的元素关联起来,公式(6)描述了自注意力机制的形式,其缩放因子d设置为1,
Figure BDA00021088296800000413
为查询矩阵,
Figure BDA00021088296800000414
为键矩阵,
Figure BDA00021088296800000415
为值矩阵,其中n是事件提及句子中单词的个数,h是BiLSTM中隐藏层的单元个数,
Figure BDA00021088296800000416
a)词级自注意力:
给定由BiLSTM得到的序列编码矩阵H=(h1,h2,…,hn),Hq,Hk,Hv均等于H,并且分别对应公式(6)中的Q,K,V;
首先执行Hq和Hk转置之间的矩阵相乘,接着通过softmax归一化指数函数,得到词级注意力矩阵
Figure BDA0002108829680000051
其中每个注意力值Ai,j的计算见公式(7),
Figure BDA0002108829680000052
公式(7)中的Ai,j度量了Hq中第j个单词对Hk中第i个单词的影响,其中
Figure BDA0002108829680000053
是Hq中第j个单词表示,
Figure BDA0002108829680000054
是Hk中第i个单词表示;接着执行A和Hv之间的矩阵相乘来得到整个句子最终的词级表示矩阵
Figure BDA0002108829680000055
其中每个单词的最终的表示
Figure BDA0002108829680000056
的计算见公式(8),
Figure BDA0002108829680000057
公式(8)中的向量
Figure BDA0002108829680000058
代表了第i个单词最终的词级表示,富含局部和全局依赖而不会受到距离远近的影响,其中
Figure BDA0002108829680000059
是Hv中第j个单词表示;
b)标签级自注意力:
为了隐式地捕获标签之间的相互依赖,类似于单词空间的词级自注意力,给定由事件标签感知的注意力交互模型得到的句子中每个单词在标签空间中的表示矩阵
Figure BDA00021088296800000510
Tq,Tk,Tv同样与T相等,并且分别对应公式(6)中的Q,K,V;经过一系列与单词级自注意力相同的操作后得到整个句子富含全局依赖的标签级表示矩阵
Figure BDA00021088296800000511
其中每个单词的标签级表示计算过程见公式(9)和(10);
Figure BDA00021088296800000512
Figure BDA00021088296800000513
公式(9)中的Bi,j度量了Tq中第j个单词对Tk中第i个单词的影响,其中
Figure BDA00021088296800000514
是Tq中第j个单词在标签空间中的表示,
Figure BDA00021088296800000515
是Tk中第i个单词在标签空间中的表示;公式(10)中的向量
Figure BDA00021088296800000516
代表了第i个单词最终在标签空间中的表示,即第i个单词的标签级表示。
进一步的,步骤(105)具体包括:
a)通过一个单层神经网络建模由词级信息提供的置信度gi见公式(11),
Figure BDA00021088296800000517
公式(11)中Wg是一个权重矩阵,bg是偏差向量,σ是S型(sigmoid)函数;
b)通过使用向量gi和1-gi作为权重去组合
Figure BDA0002108829680000061
Figure BDA0002108829680000062
以得到最终的表示fi见公式(12),⊙代表元素对应相乘操作;
Figure BDA0002108829680000063
进一步的,步骤(106)具体包括:通过将向量fi输入带有softmax层的前馈神经网络得到最终m维归一化的标签概率向量oi=(oi,1,oi,2,…,oi,j,…,oi,m),其中oi,j表示将xi分类为第j个事件类型的概率值,假设oi,j的概率值最大,则将第j个事件类型作为该候选触发词xi的事件类型,最后将该预测概率分布与真实事件类型分布不断的比较,使得预测事件类型与真实事件类型一致,形式化如下;
给定一个由n个单词组成的事件提及句子时,对于每个单词xi的输入用向量wi表示,输出则用向量yi来表示,其中yi=(yi,1,yi,2,…,yi,j,…,yi,m)表示候选触发词xi的真实事件类型分布,将损失函数定义为真实事件类型分布和预测概率值分布的交叉熵错误
Figure BDA0002108829680000064
见公式(13);
Figure BDA0002108829680000065
公式(13)中的yi,j是候选触发词xi在第j个事件类型上的真实概率值,其值见公式(14);
Figure BDA0002108829680000066
最后结合公式(5)和(13),定义了整体事件检测模型的联合损失函数见公式(15),其中λ是权衡
Figure BDA0002108829680000068
和Ε的超参数;
Figure BDA0002108829680000067
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)为了解决数据稀疏性尤其是稀有触发词问题,本发明方法不仅考虑了标签信息的一致性和相关性,还考虑了指示事件类型的单词之间的关系线索,从而增强了单词表示的能力。
(2)为了捕获丰富的标签信息,本发明方法学习了标签嵌入并利用了标签感知的注意力交互模型将单词空间中的单词嵌入映射到标签空间中以建立单词和标签之间的联系。
(3)为了挖掘句子的内部结构,使用双重自注意力机制去同时学习单词空间和标签空间上的局部和全局依存,前者倾向于捕获指示事件类型的单词之间的关系线索,后者则隐式地建模了标签信息之间的相关性。在ACE 2005数据集上的实验结果表明本发明方法的有效性以及证明了标签信息的一致性与相关性对于事件检测任务的有效性。
附图说明
图1为本发明提供的基于标签感知的双重注意力网络的事件检测方法框架示意图。
图2为ACE 2005语料测试集中稀有触发词占比最大的十种事件类型;
图3为“hacked”的标准和预训练的标签感知注意力的实例(句子中的第四个词);
图4为自注意力机制的计算图;
图5为每种变体中稀有和常见触发词的召回率,分别对应着左轴和右轴;
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以ACE 2005数据集为例来给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括输入预处理、事件提及的序列语义编码、结合标签影响力到事件检测方法框架、建模双重的相互依赖关系并动态整合到事件检测方法框架、事件类型预测这几个步骤。
具体步骤如下:
(1)输入预处理
为了公平比较,在ACE 2005[4]语料上使用了与前人相同的数据分割:40篇新闻文档作为测试集,来自不同类别的30篇文档作为验证集,剩下的529篇文档作为训练集。接下里按照以下步骤对原始语料进行处理:(1)分句—将每个文档按照句子结束符(句号、问号、叹号和省略号)进行分句,得到每个文档的句子列表;(2)分词—采用StanfordCoreNLP工具进行分词;(3)移除单词数少于4的句子,并将单词数大于80的部分截断;(4)采用在纽约时语料[5]上使用skip-gram模型预训练的词向量来对单词和标签进行初始化,对没有出现在预训练词表中的单词,从一个标准的高斯分布中随机采样来初始化。表1展示了各个集合预处理完后的详细统计信息。训练集共有12785个句子,包括4393个触发词;测试集共有633个句子,包括424个触发词;验证集共有715个句子,包含501个触发词。根据测试集中触发词在训练集中的出现情况,我们将其划分为稀有触发词和常见触发词并统计了稀有触发词占比最大的十种事件类型见图2,其中圆点代表稀有触发词,小竖线表示常见触发词,里面的数字展示了每个类型的实例数。
表1各个集合预处理完后的详细统计信息
集合 文档数 句子数 触发词数
训练集 529 12785 4393
测试集 40 633 424
验证集 30 715 501
2)事件提及的序列语义编码
按照上一步得到的词表示,我们用BiLSTM去编码它们的局部序列语义,如下:
Figure BDA0002108829680000081
Figure BDA0002108829680000082
其中向量wi是第i个单词的词嵌入,向量
Figure BDA0002108829680000083
Figure BDA0002108829680000084
分别代表了第i个单词的历史信息和未来信息。之后将两者拼接作为该单词的序列语义向量,即
Figure BDA0002108829680000085
3)结合标签感知的交互关系到事件检测方法框架
为了计算标签对词表示的影响力,首先采用余弦相似度计算所有标签与单词的相似度
Figure BDA0002108829680000086
然后通过标签嵌入的加权求和来得到标签感知的词表示
Figure BDA0002108829680000087
最后为了保证相关标签的注意力值更大,构建了标准的标签感知的注意力信号
Figure BDA0002108829680000088
如图3所示。
其中向量lj是第j个标签嵌入,αi,j度量了第i个词表示和第j个标签表示之间的相关性,向量ti是第i个单词在标签空间的表示。
4)建模双重的相互依赖关系并动态整合到事件检测方法框架
为了更好的捕获词之间的依赖关系,采用自注意力如图4分别将词空间和标签空间中单个序列的各个元素联系起来以得到每个单词富含局部和全局依赖关系的词表示和标签表示:
Figure BDA0002108829680000089
Figure BDA00021088296800000810
其中
Figure BDA00021088296800000811
Figure BDA00021088296800000812
是分别查询矩阵Hq和Tq中第i个单词表示,
Figure BDA00021088296800000813
Figure BDA00021088296800000814
分别是键矩阵Hk和Tk中第i个单词表示,
Figure BDA00021088296800000815
Figure BDA00021088296800000816
分别是值矩阵Hv和Tv中第j个单词表示,Ai,j度量了Hq中第j个单词对Hk中第i个单词的影响,Bi,j度量了Tq中第j个单词对Tk中第i个单词的影响,
Figure BDA00021088296800000817
代表了第i个单词最终的词级表示,
Figure BDA00021088296800000818
代表了第i个单词的标签级表示。
使用门控注意力机制去动态整合上面得到的两种信息来作为每个单词最终的表示,
Figure BDA0002108829680000091
其中向量gi是由单层神经网络为词级信息提供的置信度,向量fi是整合了词级信息和标签级信息的最终的表示。
5)事件类型预测
通过上一步得到的最终表示fi,之后我们利用带有softmax层的前馈神经网络来得到单词所属事件类型的概率分布。具体目标函数如下:
Figure BDA0002108829680000092
其中oi,j和yi,j分别是候选触发词xi在第j个事件类型上的预测概率值和真实概率值。
在具体实施过程中,通过提前设定各种超参数,即单词表示wi和标签表示lj的维度均为300,其动态更新度分别为0.4和0.2,隐层大小为150,块大小为20,学习率为0.5,损失函数中的λ为1。通过运行本发明方法50次,得到事件检测的结果。表2展示了在这50次运行过程中,整体目标函数的损失值′(θ)的变化。
表2 50次运行过程中,整体目标函数损失值′(θ)在训练集上的变化
Figure BDA0002108829680000093
Figure BDA0002108829680000101
为了验证本发明方法的有效性,将本发明方法(LADSA)与当前先进并具有代表性的模型(Cross-Entity、Joint Local+Global、JRNN、DLRNN、DMCNN+DS、ANN+Att+FN、GMLATT)以及本发明方法的四个变种(BiLSTM、BiLSTM+LA、BiLSTM+LA+WLA、BiLSTM+LA+LLA)进行对比,大致可以分为两类:
基于特征的模型
1)Cross-Entity:使用了实体一致性作为关键特征去预测事件提及。
2)Joint Local+Global:基于联合波束搜索的结构化感知机抽取了事件。
基于表示的模型
3)JRNN:使用了一个双向RNN并设计了离散结构去联合抽取事件触发词和事件元素。
4)DLRNN:通过连接词向量和文档向量自动抽取跨句子的线索。
5)DMCNN+DS:通过远程监督在FreeBase中标记新的训练数据。
6)ANN+Att+FN:显式地利用了事件元素信息和从FrameNet中抽取出的额外的数据。
7)GMLATT:利用了多语数据中的一致性和补充性信息。
8)BiLSTM:仅使用词嵌入作为特征。
9)BiLSTM+LA:除了词嵌入以外,也使用了标签感知的词表示。
10)BiLSTM+LA+WLA:在9)的基础上,使用词级别的自注意力去捕获词空间上的全局依存。
11)BiLSTM+LA+LLA:与10)类似,采用标签级自注意力去捕获标签空间的全局依存。
12)LADSA:同时采用词级和标签级的全局依存作为特征。
具体评价指标采用P、R、F1值进行实验性能的评价。
表3展示了各种方法在测试集上的整体性能,F1分数值越高表示该模型性能越好,其中前两行是基于特征的方法,余下的都是基于表示的方法。
Figure BDA0002108829680000104
表示利用了跨句子级的线索,
Figure BDA0002108829680000105
意味着模型使用了额外的资源,“*”则代表本发明的方法及其变体。
表3本发明方法与其他方法在测试集上的性能比较
Figure BDA0002108829680000111
从表3的实验结果可看出,通过标签感知以及双重自注意力,本发明提供的方法性能得到较大的提升。另外,图5展示了本发明方法及其变体在稀有和常见触发词上的召回率,说明本发明提出的基于标签感知的双重自注意力网络的事件检测方法的有效性,其中BiLSTM+LA简写为LA,其它的类似。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Mikolov T,Yih WT,Zweig G.Linguistic regularities in continuousspace word representations.In Proceedings of the North American Chapter ofthe Association for Computational Linguistics.2013:746-751.
[2]Schuster M,Paliwal KK.Bidirectional recurrent neural networks.TheJournal of IEEE Transactions on Signal Processing.1997:2673-2681.
[3]Vaswani A,Shazeer N,Parmar N,etc.Attention is all you need.InProceedings of Advances in Neural Information Processing Systems.2017:5998-6008.
[4]http://projects.ldc.upenn.edu/ace/.
[5]https://catalog.ldc.upenn.edu/LDC2008T19.

Claims (7)

1.一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,包括以下步骤:
(101)构建嵌入层:嵌入层内包括词嵌入和事件标签嵌入,通过在嵌入空间中建模事件标签并学习事件标签嵌入以捕获事件类型的上下文,所述事件标签是事件提及的抽象和指示性表达;
(102)对候选事件提及进行序列编码;
(103)建立事件标签感知的注意力交互模型;每个单词都对应有特定的事件标签,引入事件标签感知的注意力机制将单词空间的词嵌入映射到标签空间中去建模单词与事件标签的交互关系,从而捕获单词内在的事件标签属性,以便利用事件标签的一致性信息;
(104)建立双重自注意力模型:采用双重自注意力机制建立词级自注意力和标签级自注意力模型,分别采用词级自注意力和标签级自注意力模型学习单词空间和标签空间的内部结构以及语义特性,词级自注意力捕获了指示事件类型的单词之间的关系线索,标签级自注意力隐式地建模了事件标签之间的相关性;
(105)整合动态信息;使用门控注意力机制动态整合词级和标签级信息作为每个单词最终的表示;
(106)预测事件类型。
2.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,步骤(101)中具体包括:给定一个事件提及句子X=(x1,x2,…,xi,…,xn),其中n是单词个数,xi是第i个单词,将每个单词xi看作候选触发词,同时用每个单词xi对应的300维的词嵌入向量wi来初始化;所有的事件标签表示为C=(c1,c2,…,cj,…,cm),m是事件标签的个数,cj是第j个事件标签,采用事件标签嵌入向量lj来初始化。
3.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,步骤(102)具体包括:
对于每个单词xi,结合历史信息和未来信息以增强其向量wi的语义丰富性,采用BiLSTM进行序列编码,给定候选事件提及序列嵌入矩阵W=(w1,w2,…,wi,…,wn),分别通过运行
Figure FDA0003882352560000011
(前向LSTM)和
Figure FDA0003882352560000012
(后向LSTM)得到整个序列的隐表示矩阵
Figure FDA0003882352560000013
Figure FDA0003882352560000014
其中每个向量
Figure FDA0003882352560000015
Figure FDA0003882352560000016
分别通过公式(1)和公式(2)计算得到;
Figure FDA0003882352560000017
Figure FDA0003882352560000018
前向LSTM和后向LSTM分别捕获了第i个单词的历史信息和未来信息;最后通过拼接向量
Figure FDA0003882352560000021
Figure FDA0003882352560000022
的操作得到了句子中第i个单词的序列语义向量,即
Figure FDA0003882352560000023
其中
Figure FDA0003882352560000024
表示拼接符号,则整个句子的语义表示为矩阵H=(h1,h2,…,hn)。
4.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,步骤(103)具体包括:
在单词空间中的词嵌入向标签空间映射的过程中,考虑到每个事件标签对每个单词的贡献度不同,故利用贡献度对所有的事件标签嵌入进行加权求和得到句子中每个单词在标签空间中的表示,即矩阵T=(t1,t2,…,ti,…,tn),其中向量ti是第i个单词在标签空间中的表示,其计算见公式(3),
Figure FDA0003882352560000025
公式(3)中的lj表示事件标签嵌入向量,αi,j度量了第i个词表示和第j个标签表示之间的相关性,即第j个标签对第i个词的贡献度,其采用了余弦相似度函数进行计算见公式(4),
Figure FDA0003882352560000026
公式(4)中的
Figure FDA0003882352560000027
是hi的转置,此外,对第i个词构建了标准的标签感知的注意力信号为向量
Figure FDA0003882352560000028
以对相关事件标签赋予更大的注意力,最后,利用平方差作为注意力的损失函数El*,α),见公式(5),
Figure FDA0003882352560000029
公式(5)中的
Figure FDA00038823525600000210
是第i个词对第j个事件标签的标准注意力信号值。
5.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,步骤(104)具体包括:
自注意力机制可将句子序列中不同位置的元素关联起来,公式(6)描述了自注意力机制的形式,其缩放因子d设置为1,
Figure FDA00038823525600000211
为查询矩阵,
Figure FDA00038823525600000212
为键矩阵,
Figure FDA00038823525600000213
为值矩阵,其中n是事件提及句子中单词的个数,h是BiLSTM中隐藏层的单元个数,
Figure FDA00038823525600000214
a)词级自注意力:
给定由BiLSTM得到的序列编码矩阵H=(h1,h2,…,hn),Hq,Hk,Hv均等于H,并且分别对应公式(6)中的Q,K,V;
首先执行Hq和Hk转置之间的矩阵相乘,接着通过softmax归一化指数函数,得到词级注意力矩阵
Figure FDA0003882352560000031
其中每个注意力值Ai,j的计算见公式(7),
Figure FDA0003882352560000032
公式(7)中的Ai,j度量了Hq中第j个单词对Hk中第i个单词的影响,其中hqj是Hq中第j个单词表示,
Figure FDA0003882352560000033
是Hk中第i个单词表示;接着执行A和Hv之间的矩阵相乘来得到整个句子最终的词级表示矩阵
Figure FDA0003882352560000034
其中每个单词的最终的表示
Figure FDA0003882352560000035
的计算见公式(8),
Figure FDA0003882352560000036
公式(8)中的向量
Figure FDA0003882352560000037
代表了第i个单词最终的词级表示,富含局部和全局依赖而不会受到距离远近的影响,其中
Figure FDA0003882352560000038
是Hv中第j个单词表示;
b)标签级自注意力:
为了隐式地捕获标签之间的相互依赖,类似于单词空间的词级自注意力,给定由事件标签感知的注意力交互模型得到的句子中每个单词在标签空间中的表示矩阵
Figure FDA0003882352560000039
Tq,Tk,Tv同样与T相等,并且分别对应公式(6)中的Q,K,V;经过一系列与单词级自注意力相同的操作后得到整个句子富含全局依赖的标签级表示矩阵
Figure FDA00038823525600000310
其中每个单词的标签级表示计算过程见公式(9)和(10);
Figure FDA00038823525600000311
Figure FDA00038823525600000312
公式(9)中的Bi,j度量了Tq中第j个单词对Tk中第i个单词的影响,其中
Figure FDA00038823525600000313
是Tq中第j个单词在标签空间中的表示,
Figure FDA00038823525600000314
是Tk中第i个单词在标签空间中的表示;公式(10)中的向量
Figure FDA00038823525600000315
代表了第i个单词最终在标签空间中的表示,即第i个单词的标签级表示,
Figure FDA00038823525600000316
是矩阵Tv中第j个单词表示。
6.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,步骤(105)具体包括:
a)通过一个单层神经网络建模由词级信息提供的置信度gi见公式(11),
Figure FDA00038823525600000317
公式(11)中Wg是一个权重矩阵,bg是偏差向量,σ是S型(sigmoid)函数;
b)通过使用向量gi和1-gi作为权重去组合
Figure FDA0003882352560000041
Figure FDA0003882352560000042
以得到最终的表示fi见公式(12),⊙代表元素对应相乘操作;
Figure FDA0003882352560000043
7.根据权利要求1所述一种基于标签感知的双重自注意力网络的事件检测方法,其特征在于,步骤(106)具体包括:通过将向量fi输入带有softmax层的前馈神经网络得到最终m维归一化的标签概率向量oi=(oi,1,oi,2,…,oi,j,…,oi,m),其中oi,j表示将xi分类为第j个事件类型的概率值,假设oi,j的概率值最大,则将第j个事件类型作为该候选触发词xi的事件类型,最后将该预测概率分布与真实事件类型分布不断的比较,使得预测事件类型与真实事件类型一致,形式化如下;
给定一个由n个单词组成的事件提及句子时,对于每个单词xi的输入用向量wi表示,输出则用向量yi来表示,其中yi=(yi,1,yi,2,…,yi,j,…,yi,m)表示候选触发词xi的真实事件类型分布,将损失函数定义为真实事件类型分布和预测概率值分布的交叉熵错误
Figure FDA0003882352560000044
见公式(13);
Figure FDA0003882352560000045
公式(13)中的yi,j是候选触发词xi在第j个事件类型上的真实概率值,其值见公式(14);
Figure FDA0003882352560000046
最后结合公式(5)和(13),定义了整体事件检测模型的联合损失函数见公式(15),其中λ是权衡
Figure FDA0003882352560000047
和Ε的超参数;
Figure FDA0003882352560000048
CN201910563185.XA 2019-06-26 2019-06-26 一种基于标签感知的双重自注意力网络的事件检测方法 Active CN112148832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910563185.XA CN112148832B (zh) 2019-06-26 2019-06-26 一种基于标签感知的双重自注意力网络的事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910563185.XA CN112148832B (zh) 2019-06-26 2019-06-26 一种基于标签感知的双重自注意力网络的事件检测方法

Publications (2)

Publication Number Publication Date
CN112148832A CN112148832A (zh) 2020-12-29
CN112148832B true CN112148832B (zh) 2022-11-29

Family

ID=73870072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910563185.XA Active CN112148832B (zh) 2019-06-26 2019-06-26 一种基于标签感知的双重自注意力网络的事件检测方法

Country Status (1)

Country Link
CN (1) CN112148832B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239685B (zh) * 2021-01-13 2023-10-31 中国科学院计算技术研究所 一种基于双重情感的舆情检测方法及系统
CN112836017B (zh) * 2021-02-09 2022-07-26 天津大学 一种基于分层主题驱动的自注意力机制的事件检测方法
CN113626589B (zh) * 2021-06-18 2023-04-18 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113282714B (zh) * 2021-06-29 2022-09-20 中国人民解放军国防科技大学 一种基于区分性词向量表示的事件检测方法
CN113672711B (zh) * 2021-08-09 2024-01-19 之江实验室 一种服务型机器人意图识别装置及其训练、识别方法
CN113779987A (zh) * 2021-08-23 2021-12-10 科大国创云网科技有限公司 一种基于自注意力增强语义的事件共指消岐方法及系统
CN114417846B (zh) * 2021-11-25 2023-12-19 湘潭大学 一种基于注意力贡献度的实体关系抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491817A (zh) * 2018-03-30 2018-09-04 国信优易数据有限公司 一种事件检测模型训练方法、装置以及事件检测方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN109783812A (zh) * 2018-12-28 2019-05-21 中国科学院自动化研究所 基于自注意力机制的中文命名实体识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN108491817A (zh) * 2018-03-30 2018-09-04 国信优易数据有限公司 一种事件检测模型训练方法、装置以及事件检测方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN109783812A (zh) * 2018-12-28 2019-05-21 中国科学院自动化研究所 基于自注意力机制的中文命名实体识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Prior Knowledge Integrated;Yan Li, Chenliang Li, Weiran Xu1, and Junliang Li;《Information Retrieval》;20180930;全文 *
基于事件框架的生物信息抽取的研究;王安然;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190228;全文 *
门控循环神经网络LSTM与GRU;安小雨;《知乎》;20181124;全文 *

Also Published As

Publication number Publication date
CN112148832A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112148832B (zh) 一种基于标签感知的双重自注意力网络的事件检测方法
CN112163416B (zh) 一种融合句法和实体关系图卷积网络的事件联合抽取方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
Chen et al. Implicit discourse relation detection via a deep architecture with gated relevance network
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
CN110008323A (zh) 一种半监督学习结合集成学习的问题等价性判别的方法
CN112836017B (zh) 一种基于分层主题驱动的自注意力机制的事件检测方法
Wu et al. Community answer generation based on knowledge graph
CN108874896A (zh) 一种基于神经网络和幽默特征的幽默识别方法
Huang et al. Relation classification via knowledge graph enhanced transformer encoder
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112559723A (zh) 一种基于深度学习的faq检索式问答构建方法及系统
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN116628186B (zh) 文本摘要生成方法及系统
CN109359299A (zh) 一种基于商品数据的物联网设备能力本体自构建方法
Rasool et al. WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model
CN111859938A (zh) 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN113157974B (zh) 一种基于文字表述的行人检索方法
Alian et al. Paraphrasing identification techniques in English and Arabic texts
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
CN109189820A (zh) 一种煤矿安全事故本体概念抽取方法
Huang et al. Named Entity Recognition in Chinese Judicial Domain Based on Self-attention mechanism and IDCNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant