CN112836017B - 一种基于分层主题驱动的自注意力机制的事件检测方法 - Google Patents
一种基于分层主题驱动的自注意力机制的事件检测方法 Download PDFInfo
- Publication number
- CN112836017B CN112836017B CN202110174820.2A CN202110174820A CN112836017B CN 112836017 B CN112836017 B CN 112836017B CN 202110174820 A CN202110174820 A CN 202110174820A CN 112836017 B CN112836017 B CN 112836017B
- Authority
- CN
- China
- Prior art keywords
- word
- document
- topic
- theme
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于分层主题驱动的自注意力机制的事件检测方法,包括如下步骤:(1)构建主题感知的文档表示向量和单词表示向量;(2)对候选事件提及进行序列编码;(3)建立分层的自注意力模型;(4)预测事件类型;该方法首先利用变分自编码器推断文档的文档‑主题分布和主题‑词分布,计算得到主题感知的文档表示向量和单词表示向量;接着将主题感知的文档表示向量和候选的事件触发词的词嵌入进行拼接,通过Bi‑LSTM进行序列编码,通过文档级自注意力模型得到包含通用全局信息的中间表示,然后将中间表示和主题感知的单词级表示向量拼接,通过Bi‑LSTM和单词级自注意力模型得到单词的最终表示,最后通过全连接层、softmax归一化得到事件检测结果。
Description
技术领域
本发明涉及自然语言处理中信息抽取技术领域,尤其是涉及事件抽取技术,具体为一种基于分层主题驱动的自注意力机制的事件检测方法。
背景技术
近年来,随着信息技术的不断发展,互联网的信息量也日益膨胀。因此如何利用自动化的工具从海量信息中准确地提取出用户感兴趣的信息成为一个亟待解决的问题。在这种背景下,信息抽取技术成为一个尤为重要的研究方向。从20世纪80年代末开始,信息抽取技术开始发展起来,这主要得益于信息理解研讨会(Message Understanding forComprehension,MUC)的召开。它由美国国防高级研究计划委员发起和资助,从1987年到1998年间一共举办了七届,极大地推动了信息抽取技术的发展。从1999年开始,在强大的应用需求下,美国国家标准技术研究所组织召开了自动内容抽取(Automatic ContentExtraction,ACE)评测会议,迄今为止已经举办了七次,该评测项目推动了信息抽取技术研究的进一步发展。而事件抽取作为信息抽取中最具挑战性的任务之一,受到越来越多学者的关注。
事件抽取的主要任务是从大量非结构化的信息中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户(如什么人、什么地方、什么时候、做什么事),为进一步的信息检索、自动文摘、自动问答等应用打下基础。比如在信息检索领域中,事件抽取技术能够帮助用户快速得到需要的信息,进而提高用户接收信息的效率;在自动文摘领域中,结合事件抽取技术能够更全面的涵盖文章中所发生的事件,以得到比较完整的摘要内容。此外,事件抽取技术在实际应用场景中也具有很重要的研究意义,比如从新闻报道中抽取出地震事件的基本情况:时间、地点、震级、遇害情况等,能够帮助人们方便快速地了解到所关注事件的重要信息。
当前大部分研究都是面向ACE国际评测会议提供的数据集进行事件抽取的相关研究。ACE评测会议将事件抽取划分为两个子任务:事件检测和事件论元抽取。前者旨在从候选文本中识别出触发事件的关键词(通常动词和名词居多),并判断其事件类型和子类型;后者则是从已识别的事件中标注事件的参与者及事件属性(包括事件发生的时间,地点和人物等信息)。本发明主要在ACE 2005英文数据集上进行事件检测任务的研究,比如:在句子“He had no plans to leave.”中,事件检测需要识别出由“leave”触发的“End-Position”事件。然而,这仍然具有挑战性,因为同一触发词在不同的上下文中可能触发不同类型的事件,即触发词的歧义性(比如:例句中的“leave”还可以触发“Transport”事件)。
根据所使用的上下文特征的范围不同,事件抽取可以划分为两类:1)句子级模型;2)跨句子级模型。前者仅考虑了句子级的上下文信息,不管是依赖精心设计有效特征集的基于特征的方法[1][2]还是将分布式表示输入各种神经网络的基于表示的方法,它们都未充分解决触发词的歧义性;受假设“每个对话都有一个意思”的影响,Ji等人[1]将上下文范围从一个句子扩大到一个文档,甚至是主题相关的文档。因为基于特征的方法存在着复杂的特征工程和错误传播的问题,基于表示的方法[6][7][8]仍是主流方向,它们通过无监督或有监督的方法获得全局文档表示,并用它来增强文档中所有单词的表示。尽管这确实可以为触发词带来有价值的消歧依据,但是也可能会引入一些噪音信息,加剧触发词的歧义性甚至干扰检测。为了缓解该问题,一些工作通过注意力机制为每个句子选择不同的文档表示形式,这直接增强了句子中每个单词的特定语义表示,然而,他们只考虑了句子所在的文档,而忽略了相关文档提供的宝贵线索。因此,除了文档内的信息表示外,文档间的特定语义线索对于触发词的消歧也是十分重要的。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于分层主题驱动的自注意力机制的事件检测方法。本发明认为主题模型可以更好地从主题相关的文档中捕获文档中每个单词的有价值的线索。首先,依赖于主题模型,采用变分自编码器(VAE)来推断文档-主题分布和主题-词分布。除此之外,根据主题-词分布和词嵌入,得到文档主题的表示向量,根据概率计算,得到特定文档中每个单词的主题分布。其次,结合分布与主题表示向量,得到主题感知的文档表示向量和主题感知的单词表示向量,文档表示向量倾向于捕获文档的通用全局信息,单词表示向量则包含局部特定语义线索。然后,采用Bi-LSTM对候选事件序列进行编码,进而采用文档-单词的分层自注意力模型检测句子中的事件,与前人工作中由低到高的分层结构(即单词-文档)不同。这种由高到低的结构反映了人们识别文本中事件的直观过程:核查全文以理解文章的主要内容,然后再进一步理解局部的特定语义。该方法相比于当前最优的模型在F1值评价指标上是具有竞争性的。
本发明的目的是通过以下技术方案实现的:
一种基于分层主题驱动的自注意力机制的事件检测方法,包括以下步骤:
(101)构建主题感知的文档表示向量和单词表示向量:对于每篇文档,采用变分自编码器(Variational Auto-Encoder,VAE)来推断文档-主题分布和主题-词分布,根据主题-词分布和词嵌入得到文档主题的表示向量,然后根据文档-主题分布和主题表示向量得到主题感知的文档表示向量,根据文档-主题分布、主题-词分布以及主题表示向量得到主题感知的单词表示向量;
(102)对候选事件提及进行序列编码;
(103)建立分层的自注意力模型:分层的自注意力模型包括主题感知的文档级自注意力模型和主题感知的单词级自注意力模型;主题感知的文档级自注意力模型建立文档之间的联系使得具有相似内容的文档能够相互借鉴;主题感知的单词级自注意力模型能够确保不同文档中的相同单词具有独自的表示向量,为歧义消除提供信息;
(104)预测事件类型:计算每个候选触发词对应每个子类的置信度。
进一步的,步骤(101)中具体如下:给定一个文档d={x1,x2,...,xi,...,xp},其中p是文档的长度,xi是第i个单词;采用变分自编码器(VAE)来推断文档-主题分布p(zj|d)和主题-词分布p(xi|zj),其中zj属于预定义的主题集Z={z1,z2,...,zT},T是预定义主题的个数;变分自编码器(VAE)的损失函数的计算方式如公式(1)所示:
L(d)=KL(q(m|d)||p(m))-Em~q(m|d)[logp(d|m)] (1)
公式(1)使用KL散度衡量变分分布q(m|d)和先验分布p(m)的接近程度,其中KL(q(m|d)||p(m))表示q(m|d)相对p(m)的KL散度,Em~q(m|d)[logp(d|m)]表示变分自编码器的重构误差,m~q(m|d)表示m服从q(m|d)分布,m是变分自编码器(VAE)编码器部分得到的中间潜在语义变量;文档-主题分布由中间潜在语义变量m经softmax概率归一化得到,主题-词分布则是变分自编码器(VAE)解码器的参数。此外,使用归一化概率对属于第j个主题的前c个单词的词嵌入向量进行加权求和,以获得该主题的表示向量,具体形式如公式(2)所示:
其中tj表示第j个主题的表示向量,p(xk|zj)是属于该主题的前c个单词的概率值,wk是单词xk的词嵌入向量。
主题感知的文档表示向量:在变分自编码器(VAE)后,得到文档在每个主题上的概率分布,具体形式如公式(3)所示:
其中p(zj|d)表示文档d被分配给第j个主题的概率,然后,通过文档-主题概率分布与主题表示向量进行加权求和得到主题感知的文档表示向量td,具体形式如公式(4)所示:
其中td为文档d包含通用全局信息的表示向量,即为主题感知的文档表示向量,确保内容相似的文档,主题感知的文档表示向量也接近。
主题感知的单词表示向量:对于文档d中的每个单词xi,单词xi在潜在主题上的概率分布由p(zj|xi,d)∝p(xi|zj)*p(zj|d)计算得到;再对其进行归一化后,得到单词xi的主题分布由向量pxi表示,具体形式如公式(5)所示:
进一步的,步骤(102)中具体如下:给定文档中的句子X={x1,x2,...,xi,...,xn},其中n是句子的长度,xi是第i个单词;将句子中的每个词都看作候选事件触发词,包含事件触发词的句子即为事件提及,因此文档中的每个句子都看作候选事件提及。对于单词xi的表示,使用它的词嵌入向量wi初始化;然后与主题感知的文档表示向量td拼接得到第i个单词的文档级表示向量如公式(7)所示:
对于每个单词xi,结合历史信息和将来信息以增强其文档级表示向量的语义丰富性,采用双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)进行序列编码,给定候选事件提及序列文档级表示向量矩阵分别通过(前向LSTM)和(后向LSTM)得到整个序列的隐表示矩阵和其中向量和分别通过公式(8)和公式(9)计算得到:
进一步的,步骤(103)中具体如下:自注意力机制能将句子序列中不同位置的元素关联起来,公式(10)描述了自注意力机制的形式,其缩放因子d设置为1,Q∈Rn*2h为查询矩阵,K∈Rn*2h为键矩阵,V∈Rn*2h为值矩阵;
主题感知的文档级自注意力模型:利用公式(10)对矩阵Ht_d进行自注意力编码,其中,首先将与的转置矩阵相乘,接着通过softmax归一化函数得到注意力矩阵At_d,其中每个注意力值如公式(11)所示:
将公式(12)获得的表示向量与主题感知的单词表示向量拼接,得到主题感知的单词级表示向量,如公式(13)所示:
同样,经过Bi-LSTM序列编码得到隐表示矩阵,如公式(14)所示:
主题感知的单词级自注意力模型:利用公式(10)对得到的矩阵Ht_x进行自注意力编码,得到单词的最终表示,如公式(15)和公式(16)所示:
在公式(18)中,m为事件类型oi=(oi,1,oi,2,...,oi,j,...oi,m)的个数,oi,j是将单词xi分类为第j个事件类型的概率值;假设oi,j的值最大,则将第j个事件类型作为候选触发词xi的事件类型,最后将该预测概率分布与真实事件类型分布不断比较,使得预测事件类型与真实事件类型一致,形式化定义如下;
给定全部H个训练样例(x(i),y(i)),采用真实事件类型分布和预测概率值分布的交叉熵的平均值作为分类模型的损失函数,具体形式如公式(19)所示:
公式(19)中的yi,j是候选触发词xi在第j个事件类型上的真实概率值,其值如公式(20)所示:
结合公式(1)和公式(20),定义完整模型的联合损失函数如公式(21)所示:
J′(θ)=J(y,o)+λL(d) (21)
其中λ为权衡J和L的超参数。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)为了解决数据歧义性问题,本发明方法采用一种分层主题驱动的自注意力机制方法,不仅考虑了全局的通用信息,还考虑了特定的语义线索,从而消除噪声带来的负面影响。
(2)利用主题模型来学习文档的全局通用信息和单词的特定语义线索,对于事件检测任务来说,这是第一个考虑主题模型的工作。
(3)采用符合人类直觉的层次结构,以充分利用主题感知表示丰富的信息;在ACE2005英文数据集上的实验结果表明本发明方法的有效性以及证明了主题信息对于事件检测任务的有效性
附图说明
图1是变分自编码器(VAE)框架图。
图2为本发明提供的一种基于分层主题驱动的自注意力机制的事件检测方法框架图。
图3为三个最常见事件类型中歧义词的召回率。
图4为三种主题感知模型在不同主题数量下的性能。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以ACE 2005数据集为例来给出本发明的实施方法。该方法整体框架见图2所示,图2最下面的变分自编码器(VAE)框架如图1所示。整个系统算法流程包括输入预处理、构建主题感知的文档表示向量和主题感知的单词表示向量、对候选事件提及进行序列编码、建立分层的自注意力模型、预测事件类型这几个步骤。
具体步骤如下:
(1)输入预处理
为了进行公平的比较,在ACE 2005语料上使用了与前人相同的数据分割,40篇新闻文档作为测试集,来自不同类别的30篇文档作为验证集,剩下的529篇文档作为训练集。然后按照以下步骤对原始语料进行处理:1)分句—将每个文档按照句子结束符(句号、问号、叹号和省略号)进行分句,得到每个文档的句子列表;2)分词—采用StanfordCoreNLP工具进行分词;3)移除单词数少于4的句子,并将单词数大于80的部分截断;4)采用在纽约时报语料上通过skip-gram模型预训练的词向量来对单词进行初始化,对没有出现在预训练词表中的单词,从一个标准的高斯分布中随机采样来初始化。表1展示了各个集合预处理完后的详细统计信息。训练集共有12785个句子,包括4393个触发词;测试集共有633个句子,包括424个触发词;验证集共有715个句子,包含501个触发词。
表1各个集合预处理完后的详细统计信息
集合 | 文档数 | 句子数 | 触发词数 |
训练集 | 529 | 12785 | 4393 |
测试集 | 40 | 633 | 424 |
验证集 | 30 | 715 | 501 |
(2)构建主题感知的文档表示向量和主题感知的单词表示向量
给定一个文档d={x1,x2,...,xi,...,xp},其中p是文档的长度,xi是第i个单词;采用变分自编码器(VAE)来推断文档-主题分布p(zj|d)和主题-词分布p(xi|zj),其中zj属于预定义的主题集Z={z1,z2,...,zT},T是预定义主题的个数;变分自编码器(VAE)的损失函数的计算方式如公式(1)所示:
L(d)=KL(q(m|d)||p(m))-Em~q(m|d)[logp(d|m)] (1)
公式(1)使用KL散度衡量变分分布q(m|d)和先验分布p(m)的接近程度,其中KL(q(m|d)||p(m))表示q(m|d)相对p(m)的KL散度,Em~q(m|d)[logp(d|m)]表示变分自编码器的重构误差,m~q(m|d)表示m服从q(m|d)分布,m是变分自编码器(VAE)编码器部分得到的中间潜在语义变量;文档-主题分布由中间潜在语义变量m经softmax概率归一化得到,主题-词分布则是变分自编码器(VAE)解码器的参数。此外,使用归一化概率对属于第j个主题的前c个单词的词嵌入向量进行加权求和,以获得该主题的表示向量,具体形式如公式(2)所示:
其中tj表示第j个主题的表示向量,p(xk|zj)是属于该主题的前c个单词的概率值,wk是单词xk的词嵌入向量。
主题感知的文档表示向量:在变分自编码器(VAE)后,得到文档在每个主题上的概率分布,具体形式如公式(3)所示:
其中p(zj|d)表示文档d被分配给第j个主题的概率,然后,通过文档-主题概率分布与主题表示向量进行加权求和得到主题感知的文档表示向量td,具体形式如公式(4)所示:
其中td为文档d包含通用全局信息的表示向量,即为主题感知的文档表示向量,确保内容相似的文档,主题感知的文档表示向量也接近。
主题感知的单词表示向量:对于文档d中的每个单词xi,单词xi在潜在主题上的概率分布由p(zj|xi,d)∝p(xi|zj)*p(zj|d)计算得到;再对其进行归一化后,得到单词xi的主题分布由向量pxi表示,具体形式如公式(5)所示:
(3)对候选事件提及进行序列编码
给定文档中的句子X={x1,x2,...,xi,...,xn},其中n是句子的长度,xi是第i个单词;将句子中的每个词都看作候选事件触发词,包含事件触发词的句子即为事件提及,因此文档中的每个句子都看作候选事件提及。对于单词xi的表示,使用它的词嵌入向量wi初始化;然后与主题感知的文档表示向量td拼接得到第i个单词的文档级表示向量如公式(7)所示:
对于每个单词xi,结合历史信息和将来信息以增强其文档级表示向量的语义丰富性,采用双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)进行序列编码,给定候选事件提及序列文档级表示向量矩阵分别通过(前向LSTM)和(后向LSTM)得到整个序列的隐表示矩阵和其中向量和分别通过公式(8)和公式(9)计算得到:
(4)建立分层的自注意力模型
自注意力机制能将句子序列中不同位置的元素关联起来,公式(10)描述了自注意力机制的形式,其缩放因子d设置为1,Q∈Rn*2h为查询矩阵,K∈Rn*2h为键矩阵,V∈Rn*2h为值矩阵;
主题感知的文档级自注意力模型:利用公式(10)对矩阵Ht_d进行自注意力编码,其中,首先将与的转置矩阵相乘,接着通过softmax归一化函数得到注意力矩阵At_d,其中每个注意力值如公式(11)所示:
将公式(12)获得的表示向量与主题感知的单词表示向量拼接,得到主题感知的单词级表示向量,如公式(13)所示:
同样,经过Bi-LSTM序列编码得到隐表示矩阵,如公式(14)所示:
主题感知的单词级自注意力模型:利用公式(10)对得到的矩阵Ht_x进行自注意力编码,得到单词的最终表示,如公式(15)和公式(16)所示:
(5)预测事件类型
其中oi,j和yi,j分别是候选触发词xi在第j个事件类型上的预测概率值和真实概率值。
在具体实施过程中,通过提前设定各种超参数的值,即将单词表示wi的维度设置为300,VAE中的主题个数设置为50,学习率设置为1e-4,batch的大小设置为32;事件检测中学习率设置为0.5,隐藏层设置为150,batch设置为64,dropout率设置为0.2。通过运行本发明方法100次,得到事件检测的结果。表2展示了在这100次运行过程中,整体目标函数的损失值J′(θ)的变化。
表2 100次运行过程中,整体目标函数损失值J′(θ)在训练集上的变化
为了验证本发明方法的有效性,将本发明方法(HTDSA)与当前先进并具有代表性的模型(Cross-Document、Cross-Event、Cross-Entity、Joint Model、JRNN、DLRNN、DEEB-RNN、HBTNGMA)进行对比,大致可以分为两类:
基于特征的模型
1)Cross-Document:Ji等人[1]采用文档主题聚类并设计复杂的推理规则以保证文档层面和主题层面事件类型的一致性。
2)Cross-Event:Liao等人[2]利用同一篇文档内相同事件和相关事件的一致线索来检测事件。
3)Cross-Entity:Hong等人[3]提出将实体共现信息作为关键特征以进行事件检测。
4)Joint Model:Li等人[4]提出一种基于联合波束搜索的结构化感知机来抽取事件。
基于表示的方法
5)JRNN:Nguyen等人[5]采用双向RNN并设计了离散结构来联合抽取事件触发词和事件元素。
6)DLRNN:Duan等人[6]通过拼接词向量和文档向量自动抽取跨句子的线索。
7)DEEB-RNN:Zhao等人[7]采过有监督的分层注意力机制来学习文档嵌入,在此基础上进行事件触发词检测。
8)HBTNGMA:Chen等人[8]通过门控多级注意力并动态融合了句子级和文档级信息以自动抽取事件。
具体评价指标采用P、R、F1值进行实验性能的评价。
表3本发明方法与其他方法在同一测试集上的性能比较
从表3的实验结果可看出:
1)除了DEEB-RNN,本发明的HTDSA框架几乎超过了所有比较的方法。具体地,在所有基于表示的跨句子模型中,HTDSA获得了至少0.4%(HBTNGMA)和最高3.2%(DLRNN)的改进。这主要是因为本发明的主题模型同时捕获了通用的全局文档信息和特定语义的单词线索,相比于前者,后者可以为消歧提供更有价值的信息依据。
2)总的来说,无论是基于特征的还是基于表示的模型,使用跨句子级线索的模型都比句子级别模型更具优势。具体地,在基于特征的模型中,相比于Joint Model,除了Cross-Document低一些外,其余的模型分别得到0.8%和1.3%的改进;在基于表示的模型中,所有跨句子模型都超过了JRNN的性能。这证明了跨句子级线索对于事件检测任务是很有用的。
3)与DEEB-RNN相比,尽管本发明的HTDSA模型并没有提高F1值(降低了0.3%),但HTDSA仍获得了相当具有竞争力的F1值。这可能是无监督学习方法的固有局限性引起的。
另外,为了验证主题感知的表示和分层结构的效果。本发明实施设计了一系列的对比实验如表4所示,“T-A”是主题感知的缩写,其中前两种结构中的特征通过拼接操作得到,最后的分层结构有两个变体,分别是:
All-1:使用了从低到高的分层结构,即“单词-文档”。
All-2:采用了从高到低的分层结构,即“文档-单词”,这就是本发明提到的HTDSA模型。
表4不同结构和特征组合的性能比较
从表4中,可以得到以下观察结果:
1)相比于仅使用词嵌入作为特征的模型,大部分纳入主题感知表示的模型均提高了事件检测的性能,尤其是在前两个结构中,分别得到了至少2%和1.3%的性能改进。这意味着主题模型确实可以带来有效的信息。
2)在相同特征的情况下,相比于结构1(Bi-LSTM),结构2(Bi-LSTM+Self ATT)实现了更好的性能。具体地,在不同的特征组合下,结构2比结构1分别得到1.2%,0.5%,0.6%的改进。这证明了自注意力机制的有效性。
3)当所有特征全部使用的情况下,结构3(HBi-LSTM+Self ATT)的性能明显好于前两种结构。具体而言,它的性能至少得到0.3%的提高,主要原因是层次结构更易于捕获语义和语法信息。
4)在结构3中,All-2(HTDSA)比All-1得到了0.5%的改进。这意味着本发明的直觉是有效的,即“文档-单词”的分层结构反映了人们识别文本事件的直观过程。
此外还研究了使用不同主题感知策略来解决歧义问题的效果。基于相同的层次结构,使用不同的特征设计了三种比较方法,如下所示:
T1:仅使用单词嵌入作为特征。
T2:除了单词嵌入外,主题感知的文档表示也被用作特征。
T3:在T2的基础上,主题感知的词表示也用作特征。
图3展示了三个比较方法中最常见的三个事件类型中歧义词的召回率。通过观察实验结果得到:1)主题感知的文档表示可能会引入一定的噪音信息干扰事件检测,如上图Die事件在引入主题感知的文档表示后召回率下降;2)主题感知的单词表示可以捕获更多特定类型的信息来改进事件检测。特别是,在三种事件类型的歧义词中,相比于T1,T3均完成了接近两倍的性能改进。
最后,本发明还研究了主题数量对于事件检测性能的影响。众所周知,主题个数是一个重要的超参数,其对主题模型的结果有很大的影响。如果主题数量太小,模型描述数据的能力则会受到限制,这将导致很难捕获到合适的主题分布;而当主题数量超过一个阈值,主题数量的增加不仅无效,而且会增加模型训练的时间。
下面比较了三个主题感知模型在不同主题数量下的性能,包括结构2(Bi-LSTM+Self ATT)中的T-A Doc、T-A Word和结构3(HTDSA)中的All-2,将主题数量分别设置为0,25,50,75,100,0个主题对应着结构2中仅使用词嵌入的模型。图4展示了实验结果,其中x轴代表主题数量,y轴表示F1值。
直观上来看,随着主题数量的增加,HTDSA都优于其两个模型。除此之外,还注意到:1)当主题数为50的时候,三个模型均得到了最佳的性能;2)当主题数为100时,它们都达到与原始模型(主题数为0)相似的性能。这些不仅证明了本发明设计的HTDSA模型的有效性,而且进一步验证了主题数目对性能的重要影响。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Ji H,Grishman R.Refining Event Extraction through Cross-documentInference[C].In Proceedings of the 46th Annual Meeting of the Association forComputational Linguistics:Human Language Technologies,2008:254–262.
[2]Liao S,Grishman R.Using Document Level Cross-Event Inference toImprove Event Extraction[C].In Proceedings of the 48th Annual Meeting of theAssociation for Computational Linguistics,2010:789–797.
[3]Hong Y,Zhang J,Ma B,et al.Using Cross-Entity Inference to ImproveEvent Extraction[C].In Proceedings of the 49th Annual Meeting of theAssociation for Computational Linguistics,2011:1127–1136.
[4]Li Q,Ji H,Huang L.Joint Event Extraction via Structured Predictionwith Global Features[C].In Proceedings of the 51st Annual Meeting of theAssociation for Computational Linguistics,2013:73–82.
[5]Nguyen T H,Cho K,Grishman R.Joint Event Extraction via RecurrentNeural Networks[C].In Proceedings of the 15th Annual Conference of the NorthAmerican Chapter of the Association for Computational Linguistics,2016:300–309.
[6]DuanS,HeR,zhaoW.Exploiting Document Level Information to ImproveEvent Detection via Recurrent Neural Networks[C].In Proceedings of the 8thInternational Joint Conference on Natural Language Processing,2017:351–361.
[7]Zhao Y,Jin X,Wang Y,et al.Document Embedding Enhanced EventDetection with Hierarchical and Supervised Attention[C].In Proceedings of the56th Annual Meeting of the Association for Computational Linguistic,2018:414–419.
[8]Chen Y,Yang H,Liu K,et al.Collective Event Detection via aHierarchical and Bias Tagging Networks with Gated Multi-level AttentionMechanisms[C].In Proceedings of the 2018Conference on Empirical Methods inNatural Language Processing,2018:1267–1276.
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (3)
1.一种基于分层主题驱动的自注意力机制的事件检测方法,其特征在于,包括如下步骤:
(101)构建主题感知的文档表示向量和单词表示向量:对于每篇文档,采用变分自编码器(Variational Auto-Encoder,VAE)来推断文档-主题分布和主题-词分布,根据主题-词分布和词嵌入得到文档主题的表示向量,然后根据文档-主题分布和主题表示向量得到主题感知的文档表示向量,根据文档-主题分布、主题-词分布以及主题表示向量得到主题感知的单词表示向量;
(102)对候选事件提及进行序列编码;具体包括:
给定文档中的句子X={x1,x2,...,xi,...,xn},其中n是句子的长度,xi是第i个单词;将句子中的每个词都看作候选事件触发词,包含事件触发词的句子即为事件提及,因此文档中的每个句子都看作候选事件提及;对于单词xi的表示,使用它的词嵌入向量wi初始化;然后与主题感知的文档表示向量td拼接得到第i个单词的文档级表示向量如公式(7)所示:
对于每个单词xi,结合历史信息和将来信息以增强其文档级表示向量的语义丰富性,采用双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)进行序列编码,给定候选事件提及序列文档级表示向量矩阵分别通过(前向LSTM)和(后向LSTM)得到整个序列的隐表示矩阵和其中向量和分别通过公式(8)和公式(9)计算得到:
(103)建立分层的自注意力模型:分层的自注意力模型包括主题感知的文档级自注意力模型和主题感知的单词级自注意力模型;主题感知的文档级自注意力模型建立文档之间的联系使得具有相似内容的文档能够相互借鉴;主题感知的单词级自注意力模型能够确保不同文档中的相同单词具有独自的表示向量,为歧义消除提供信息;具体包括:
自注意力机制能将句子序列中不同位置的元素关联起来,公式(10)描述了自注意力机制的形式,其缩放因子d设置为1,Q∈Rn*2h为查询矩阵,K∈Rn*2h为键矩阵,V∈Rn*2h为值矩阵;
主题感知的文档级自注意力模型:利用公式(10)对矩阵Ht_d进行自注意力编码,其中,首先将与的转置矩阵相乘,接着通过softmax归一化函数得到注意力矩阵At_d,其中每个注意力值如公式(11)所示:
将公式(12)获得的表示向量与主题感知的单词表示向量拼接,得到主题感知的单词级表示向量,如公式(13)所示:
同样,经过Bi-LSTM序列编码得到隐表示矩阵,如公式(14)所示:
主题感知的单词级自注意力模型:利用公式(10)对得到的矩阵Ht_x进行自注意力编码,得到单词的最终表示,如公式(15)和公式(16)所示:
(104)预测事件类型:计算每个候选触发词对应每个子类的置信度。
2.根据权利要求1所述基于分层主题驱动的自注意力机制的事件检测方法,其特征在于,步骤(101)具体包括:
给定一个文档d={x1,x2,…,xi,…,xp},其中p是文档的长度,xi是第i个单词;采用变分自编码器(VAE)来推断文档-主题分布p(zj|d)和主题-词分布p(xi|zj),其中zj属于预定义的主题集Z={z1,z2,…,zT},T是预定义主题的个数;变分自编码器(VAE)的损失函数的计算方式如公式(1)所示:
公式(1)使用KL散度衡量变分分布q(m|d)和先验分布p(m)的接近程度,其中KL(q(m|d)||p(m))表示q(m|d)相对p(m)的KL散度,表示变分自编码器的重构误差,表示m服从q(m|d)分布,m是变分自编码器(VAE)编码器部分得到的中间潜在语义变量;文档-主题分布由中间潜在语义变量m经softmax概率归一化得到,主题-词分布则是变分自编码器(VAE)解码器的参数,此外,使用归一化概率对属于第j个主题的前c个单词的词嵌入向量进行加权求和,以获得该主题的表示向量,具体形式如公式(2)所示:
其中tj表示第j个主题的表示向量,p(xk|zj)是属于该主题的前c个单词的概率值,wk是单词xk的词嵌入向量;
主题感知的文档表示向量:在变分自编码器(VAE)后,得到文档在每个主题上的概率分布,具体形式如公式(3)所示:
其中p(zj|d)表示文档d被分配给第j个主题的概率,然后,通过文档-主题概率分布与主题表示向量进行加权求和得到主题感知的文档表示向量td,具体形式如公式(4)所示:
其中td为文档d包含通用全局信息的表示向量,即为主题感知的文档表示向量,确保内容相似的文档,主题感知的文档表示向量也接近;
主题感知的单词表示向量:对于文档d中的每个单词xi,单词xi在潜在主题上的概率分布由p(zj|xi,d)∝p(xi|zj)*p(zj|d)计算得到;再对其进行归一化后,得到单词xi的主题分布由向量表示,具体形式如公式(5)所示:
3.根据权利要求1所述一种基于分层主题驱动的自注意力机制的事件检测方法,其特征在于,步骤(104)具体包括:
在公式(18)中,m为事件类型oi=(oi,1,oi,2,...,oi,j,...oi,m)的个数,oi,j是将单词xi分类为第j个事件类型的概率值;假设oi,j的值最大,则将第j个事件类型作为候选触发词xi的事件类型,最后将该预测概率分布与真实事件类型分布不断比较,使得预测事件类型与真实事件类型一致,形式化定义如下;
给定全部H个训练样例(x(i),y(i)),采用真实事件类型分布和预测概率值分布的交叉熵的平均值作为分类模型的损失函数,具体形式如公式(19)所示:
公式(19)中的yi,j是候选触发词xi在第j个事件类型上的真实概率值,其值如公式(20)所示:
结合公式(1)和公式(20),定义完整模型的联合损失函数如公式(21)所示:
J′(θ)=J(y,o)+λL(d) (21)
其中λ为权衡J和L的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174820.2A CN112836017B (zh) | 2021-02-09 | 2021-02-09 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174820.2A CN112836017B (zh) | 2021-02-09 | 2021-02-09 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836017A CN112836017A (zh) | 2021-05-25 |
CN112836017B true CN112836017B (zh) | 2022-07-26 |
Family
ID=75932927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110174820.2A Active CN112836017B (zh) | 2021-02-09 | 2021-02-09 | 一种基于分层主题驱动的自注意力机制的事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836017B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186068A (zh) * | 2021-11-04 | 2022-03-15 | 国网天津市电力公司 | 一种基于多级注意力网络的审计制度依据问答方法 |
CN114548101B (zh) * | 2022-04-25 | 2022-08-02 | 北京大学 | 基于可回溯序列生成方法的事件检测方法和系统 |
CN115879515B (zh) * | 2023-02-20 | 2023-05-12 | 江西财经大学 | 文档网络主题建模方法、变分邻域编码器、终端及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN111274814A (zh) * | 2019-12-26 | 2020-06-12 | 浙江大学 | 一种新型的半监督文本实体信息抽取方法 |
CN112148832A (zh) * | 2019-06-26 | 2020-12-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135457B (zh) * | 2019-04-11 | 2021-04-06 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
-
2021
- 2021-02-09 CN CN202110174820.2A patent/CN112836017B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109446331A (zh) * | 2018-12-07 | 2019-03-08 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN112148832A (zh) * | 2019-06-26 | 2020-12-29 | 天津大学 | 一种基于标签感知的双重自注意力网络的事件检测方法 |
CN111274814A (zh) * | 2019-12-26 | 2020-06-12 | 浙江大学 | 一种新型的半监督文本实体信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112836017A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836017B (zh) | 一种基于分层主题驱动的自注意力机制的事件检测方法 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
Yan et al. | Docchat: An information retrieval approach for chatbot engines using unstructured documents | |
Deng et al. | Syntax-guided hierarchical attention network for video captioning | |
McCallum et al. | Toward conditional models of identity uncertainty with application to proper noun coreference | |
CN112148832B (zh) | 一种基于标签感知的双重自注意力网络的事件检测方法 | |
US20070038653A1 (en) | Probabilistic retrospective event detection | |
US20220122588A1 (en) | System to detect and reduce understanding bias in intelligent virtual assistants | |
Plepi et al. | Unifying data perspectivism and personalization: An application to social norms | |
Hannah et al. | Automatic extractive text summarization based on fuzzy logic: a sentence oriented approach | |
Fu et al. | Improving distributed word representation and topic model by word-topic mixture model | |
Nandi et al. | Iit-uhh at semeval-2017 task 3: Exploring multiple features for community question answering and implicit dialogue identification | |
Keikha et al. | Rich document representation and classification: An analysis | |
Mansour et al. | Text vectorization method based on concept mining using clustering techniques | |
Thayaparan et al. | Graph based semi-supervised learning approach for Tamil POS tagging | |
Zhang et al. | Combining the attention network and semantic representation for Chinese verb metaphor identification | |
CN113158669B (zh) | 一种用工平台正负面评论识别的方法及系统 | |
Sundararajan et al. | Probabilistic model based context augmented deep learning approach for sarcasm detection in social media | |
Panagiotou et al. | First story detection using entities and relations | |
Zhu et al. | The mining method of trigger word for food nutrition matching | |
Ni'mah et al. | ProtoInfoMax: prototypical networks with mutual information maximization for out-of-domain detection | |
Kuhr et al. | Context-specific adaptation of subjective content descriptions | |
Shi | The design and implementation of domain-specific text summarization system based on co-reference resolution algorithm | |
CN112270185A (zh) | 一种基于主题模型的文本表示方法 | |
Motameni et al. | Morphology of composition functions in Persian sentences through a newly proposed classified fuzzy method and center of gravity defuzzification method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |