CN113239142A - 融合句法信息的无触发词事件检测方法 - Google Patents

融合句法信息的无触发词事件检测方法 Download PDF

Info

Publication number
CN113239142A
CN113239142A CN202110451650.8A CN202110451650A CN113239142A CN 113239142 A CN113239142 A CN 113239142A CN 202110451650 A CN202110451650 A CN 202110451650A CN 113239142 A CN113239142 A CN 113239142A
Authority
CN
China
Prior art keywords
word
sentence
information
event
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110451650.8A
Other languages
English (en)
Other versions
CN113239142B (zh
Inventor
张亚飞
汪翠
郭军军
高盛祥
余正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110451650.8A priority Critical patent/CN113239142B/zh
Publication of CN113239142A publication Critical patent/CN113239142A/zh
Application granted granted Critical
Publication of CN113239142B publication Critical patent/CN113239142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合句法信息的无触发词事件检测方法,属于自然语言处理技术领域。本发明首先获取预处理语料的句法依存信息以及进行BPE编码获取子词单元;将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示;采用transformer作为编码器,将句法信息与文本的语义信息进行融合;最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。本发明的检测方法更简便有效。

Description

融合句法信息的无触发词事件检测方法
技术领域
本发明涉及融合句法信息的无触发词事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是从非结构化的文本中识别出事件信息并对其进行分类。随着信息的快速增长,相关新闻报道也随之增多,检测新闻中所报道的相关事件,有助于准确、 快速地把握热点新闻的事态动态,并做出有效的应对措施。
大多数现有的事件检测模型需要带标注的事件触发词和事件类型进行训练。这些方法根据输入的不同,可以分为基于语义表示的方法和基于句法依存表示的方法。 其中,基于语义表示的方法只使用给定的句子作为模型的输入,在长距离依赖方面 存在着低效率的问题。基于句法依存表示的方法通过在模型中融入句法信息能够准 确定位与触发词最相关的信息,以及在单个句子中存在多个事件时,增强事件之间 的信息流动性。现有的基于句法依存表示的模型通常采用邻接矩阵来表示原始的句 法依赖关系,但邻接矩阵表示范围有限,只能捕获当前节点与相邻节点的关系。同 时,邻接矩阵需要GCN网络对其进行编码以获取句法信息。但是,利用GCN编码 会引入额外的训练参数,增加了模型的复杂度。此外,这些方法对触发词的标注会 耗费大量的人力工程。
针对以上问题,提出了通过在模型源端以一种无参数的方式将句法依存树中依赖父词信息融入到依赖子词的单词嵌入使模型在编码源句子时关注到每个单词的父 级依赖项及其上下文,而不需要采用GCN网络进行编码;以及采用基于多头注意力 机制的类型感知器对句子中隐藏的触发词进行建模,以实现无触发词的事件检测。
发明内容
本发明提供了融合句法信息的无触发词事件检测方法,用于解决目前事件检测模型依赖于GCN网络对句法信息编码增加模型复杂度以及对触发词标注费时费力的 问题。
本发明的技术方案是:融合句法信息的无触发词事件检测方法,所述融合句法 信息的无触发词事件检测方法的具体步骤如下:
Step1、本发明语料收集是在ACE2005数据集上进行,并对ACE数据集进行了 预处理;
Step2、获取预处理语料的句法依存信息以及进行BPE编码获取子词单元,并分 配训练语料、测试语料和验证语料;
Step3、将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子 中每个子词单元的向量表示;
Steps4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置, 然后将每个单词映射为其父词的中间位置表示。对新闻事件句进行BPE编码能获取 基于BPE子词单元的新闻事件句;
Step5、采用基于transformer的语义表示层作为编码器,将句法信息与文本的语义信息进行融合,以编码获取句子的上下文语义表征。
Step6、最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。
作为本发明的优选方案,所述步骤Step1具体步骤为:
Step1.1、本发明的语料是在ACE2005数据集上进行的,ACE2005语料库包括8 种事件类型,33种事件子类型。将33种事件子类型视为33个独立的事件类型,而 忽略它们之间的层次结构。
Step1.2、ACE数据集预处理:删除数据集中触发词的标注,并为每一个句子分 配一组标签,不包含任何事件时标注为NA。
作为本发明的优选方案,所述步骤Step2具体步骤为:
Step2.1、使用Stanford CoreNLP工具获取句子的句法依存信息。
Step2.2、使用BPE(Byte Pair Encoding)子词单元来缓解未登录词与罕见词问题, 将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度;
Step2.3、将预处理后的ACE数据集,按照13:1:1的比例分配训练语料、测 试语料和验证语料,具体的,将ACE数据集中40篇文章作为测试集,30篇文章作 为开发集,剩余的529篇文章作为训练集。
作为本发明的优选方案,所述步骤Step3包括:
将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度,将其表 示为X={x1,x2,…,xi,…xn},n为句子长度。对X进行随机初始化后获得词向量 W={w1,w2,…,wi,…wn},其中,wi为xi的向量表示。
作为本发明的优选方案,所述步骤Step4中:
获取父级依赖词中间位置的处理步骤如图2所示,如:单词married被分成3个 子词单元“mar@@”、“ri@@”、“ed@@”,位置分别为3、4、5,则该单词的中间 位置为4.0;然后将给定单词的每个子词单元映射为其父词的中间位置4.0(词根的 父词定义为自身);从而为目标句子产生一个由父词的中间位置组成的向量表示P。
作为本发明的优选方案,所述步骤Step5中包括:
Step5.1、如图3所示,融合句法信息的无触发词事件检测模型的语义表示层由 12层的transformer编码端组成。其中,在第一层transformer的局部自注意力层中融 入了句法信息,而其他层的transformer则采用普通的自注意力层。融入句法信息 的局部自注意力称为依赖缩放自注意力(parent-scaled self-attention,PASCAL),其 结构如图4所示。
Step5.2、在图4中,词向量W经过线性变换后,获得查询Qh、键Kh和值Vh。 先计算Qh和所有Kh之间的点积,给出句子中每个单词对输入的其他部分放置多少焦 点的分数。然后,这个分数除以
Figure BDA0003038940610000031
以缓解如果点积很大时出现的梯度消失问题, 最后获得相似度权重Sh∈Rn×n,如式(1)所示。
Figure BDA0003038940610000032
然后,通过父词的位置向量P来将句子中的每一个词关联到其父级依赖项。以xi作为当前词,通过dist(pi,j)计算出所有xj到xi的父词的距离来衡量xi位于位置i的得 分。如式(2)所示,pi表示xi的父词的中间位置,j表示句子所有词的绝对位置, 输出的句法关联矩阵D∈Rn×n,D的每一行表示任意j到xi的父词的中间位置pi的距 离。
Figure BDA0003038940610000033
之后,将相似度矩阵Sh、值Vh与句法关联矩阵D通过向量运算的方式进行融合。 如式(3)和式(4)所示,序列相似度矩阵Sh与关联矩阵D对应元素相乘后得到中 间向量Nh,对Nh应用Softmax后再与值Vh相乘,获得PASCAL每个头的输出Mh。 这样便实现了以局部无参的方式将句法依赖信息融入到缺乏任何上下文的词嵌入中。
Nh=ShD (3)
Mh=softmax(Nh)Vh,(1<=h=8) (4)
将Mh拼接后获得PASCAL的最终输出M,之后M经过transformer后续的残差 连接、归一化以及全连接层后获得M′。然后M′经过剩下的11层transformer编码 器后获得句子的全局特征表示Zglobal,如式(5)~(7)所示。
M=Contact(Mh) (5)
M′=Norm(W+M)+FeedFward(Norm(W+M)) (6)
Zglobal=Transformer11(M′) (7)
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.1、如式(8)和式(9)所示,通过对全局特征Zglobal和候选事件类型的 词嵌入G进行头数为8的多头注意力机制,来给Zglobal中潜在的触发词分配更高的 权重。
Figure BDA0003038940610000041
Zatt=Contact(At), (1<=t<=8) (9)
其中,Zglobal为语义表示层的输出,G为候选事件类型的词嵌入,
Figure BDA0003038940610000042
是 在输入向量上执行线性投影的参数,At表示多头注意力机制中每个头的最终输出;Zatt为At的拼接,表示包含触发词信息的局部特征。
Step6.2、为了获取全局的事件信息,将全局特征Zglobal和局部特征Zatt进行加权求和后再执行平均池化操作,然后经过一个线性层后获得向量H;最后,对H执行softmax获取对应类别的分布概率,并根据概率分布的值来判断输入句子的事件类型, 如式(10)~(12)所示。
H=Linear(AvgPooling(Zglobal+Zatt)) (10)
y=softmax(WH+b) (11)
Figure BDA0003038940610000051
其中,H表示全局事件信息,W和b为权重和偏置,y表示输入句子是否为预标 注类型的概率,
Figure BDA0003038940610000052
表示最终的预测值。
此优选方案设计对隐藏的触发器进行更好的建模,有助于更好的识别事件类型。
本发明首先将句法依存信息中父词及其上下文转换为位置标记向量后,并在模型源端以无参数的方式融入到依赖子词的单词嵌入来捕获候选触发词与相关实体之 间的句法关联性,以及增强不同触发词之间的信息流动性;此外,针对触发词的标注 费时费力,设计了基于多头注意力机制的类型感知器,其可以对句子中潜在的触发 词进行建模。最后,将局部的触发词信息与全局的语义表征进行联合,以完成对新 闻的事件检测。本发明的事件检测需要识别新闻中的事件信息并对其进行分类,针 对目前的事件检测方法通常采用邻接矩阵来表示原始的句法依赖关系,但邻接矩阵 表示范围有限,只能捕获当前节点与相邻节点的关系。同时,邻接矩阵需要GCN网 络对其进行编码才能获取句法信息。因此,提出了将父词信息连接到依赖子词来表 征句法依存树中的依赖关系,并在transformer的编码器中将非结构化的句法信息 与结构化的语义信息进行融合,不破坏transformer原本的结构性、减少了GCN单 独编码的额外参数,并且更加的简便有效。
由于标注触发词标注费时费力并且标注准率低,为了对句子中隐藏的触发词进行建模,本发明通过在多头注意力机制中引入候选事件类型来发现句子中隐藏的触 发词,并根据识别的触发词信息来完成事件类型的分类。
本发明的有益效果是:
1、本发明的融合句法信息额无触发词事件检测方法,通过在transformer的局 部自注意力机制中以一种无参的方式将父词信息融入到依赖子词的单词嵌入使模型 在编码源句子时关注到每个单词的父级依赖项及其上下文,不需要借助GCN的编码 便能获取句法信息,并提高事件检测的准确性。
2、本发明的融合句法信息的无触发词事件检测方法,针对触发词的标注费时费力,提出了基于多头注意力机制的类型感知器对句子中隐藏的触发词进行建模,以 实现无触发词的事件检测。
附图说明
图1为本发明提出的融合句法信息的无触发词事件检测模型的流程图;
图2为本发明提出的融合句法信息的无触发词事件检测方法中的句法信息处理实例图;
图3为本发明提出的融合句法信息的无触发词事件检测模型结构图;
图4为本发明提出的融合句法信息的无触发词事件检测模型中语义表示层中的依赖缩放自注意力机制(PASCAL)结构图;
具体实施方式
实施例1:如图1-4所示,融合句法信息的无触发词事件检测方法,所述融合句 法信息的无触发词事件检测方法的具体步骤如下:
Step1、本发明语料收集是在ACE2005数据集上进行,并对ACE数据集进行了 预处理;
Step2、获取预处理语料的句法依存信息以及进行BPE编码获取子词单元,并分 配训练语料、测试语料和验证语料;
Step3、将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子 中每个子词单元的向量表示;
Steps4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置, 然后将每个单词映射为其父词的中间位置表示。
Step5、采用基于transformer的语义表示层作为编码器,将句法信息与文本的语义信息进行融合,以编码获取句子的上下文语义表征。
Step6、最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。
作为本发明的优选方案,所述步骤Step1具体步骤为:
Step1.1、本发明的语料是在ACE2005数据集上进行的,ACE2005语料库包括8 种事件类型,33种事件子类型。将33种事件子类型视为33个独立的事件类型,而 忽略它们之间的层次结构。
Step1.2、ACE数据集预处理:删除数据集中触发词的标注,并为每一个句子分 配一组标签,不包含任何事件时标注为NA。
作为本发明的优选方案,所述步骤Step2具体步骤为:
Step2.1、使用Stanford CoreNLP工具获取句子的句法依存信息。
Step2.2、使用BPE(Byte Pair Encoding)子词单元来缓解未登录词与罕见词问题, 将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度;
Step2.3、将预处理后的ACE数据集,按照13:1:1的比例分配训练语料、测 试语料和验证语料,具体的,将ACE数据集中40篇文章作为测试集,30篇文章作 为开发集,剩余的529篇文章作为训练集。
作为本发明的优选方案,所述步骤Step3包括:
将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度,将其表 示为X={x1,x2,…,xi,…xn},n为句子长度。对X进行随机初始化后获得词向量 W={w1,w2,…,wi,…wn},其中,wi为xi的向量表示。
作为本发明的优选方案,所述步骤Step4中:
获取父级依赖词中间位置的处理步骤如图2所示,如:单词married被分成3个 子词单元“mar@@”、“ri@@”、“ed@@”,位置分别为3、4、5,则该单词的中间 位置为4.0;然后将给定单词的每个子词单元映射为其父词的中间位置4.0(词根的 父词定义为自身);从而为目标句子产生一个由父词的中间位置组成的向量表示P。
作为本发明的优选方案,所述步骤Step5中包括:
Step5.1、如图3所示,融合句法信息的无触发词事件检测模型的语义表示层由 12层的transformer编码端组成。其中,在第一层transformer的局部自注意力层中融 入了句法信息,而其他层的transformer则采用普通的自注意力层。融入句法信息 的局部自注意力称为依赖缩放自注意力(parent-scaled self-attention,PASCAL),其 结构如图4所示。
Step5.2、在图4中,词向量W经过线性变换后,获得查询Qh、键Kh和值Vh。 先计算Qh和所有Kh之间的点积,给出句子中每个单词对输入的其他部分放置多少焦 点的分数。然后,这个分数除以
Figure BDA0003038940610000071
以缓解如果点积很大时出现的梯度消失问题, 最后获得相似度权重Sh∈Rn×n,如式(1)所示。
Figure BDA0003038940610000072
然后,通过父词的位置向量P来将句子中的每一个词关联到其父级依赖项。以xi作为当前词,通过dist(pi,j)计算出所有xj到xi的父词的距离来衡量xi位于位置i的得 分。如式(2)所示,pi表示xi的父词的中间位置,j表示句子所有词的绝对位置, 输出的句法关联矩阵D∈Rn×n,D的每一行表示任意j到xi的父词的中间位置pi的距 离。
Figure BDA0003038940610000081
之后,将相似度矩阵Sh、值Vh与句法关联矩阵D通过向量运算的方式进行融合。 如式(3)和式(4)所示,序列相似度矩阵Sh与关联矩阵D对应元素相乘后得到中 间向量Nh,对Nh应用Softmax后再与值Vh相乘,获得PASCAL每个头的输出Mh。 这样便实现了以局部无参的方式将句法依赖信息融入到缺乏任何上下文的词嵌入中。
Nh=ShD (3)
Mh=softmax(Nh)Vh,(1<=h=8) (4)
将Mh拼接后获得PASCAL的最终输出M,之后M经过transformer后续的残差 连接、归一化以及全连接层后获得M′。然后M′经过剩下的11层transformer编码 器后获得句子的全局特征表示Zglobal,如式(5)~(7)所示。
M=Contact(Mh) (5)
M′=Norm(W+M)+FeedFward(Norm(W+M)) (6)
Zglobal=Transformer11(M′) (7)
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.1、由于本文任务没有标注触发词,为了对隐藏的触发词进行建模,通过 在多头注意力机制中引入候选事件类型来发现句子中隐藏的触发词。如式(8)和式 (9)所示,通过对全局特征Zglobal和候选事件类型的词嵌入G进行头数为8的多头 注意力机制,来给Zglobal中潜在的触发词分配更高的权重。
Figure BDA0003038940610000091
Zatt=Contact(At),(1<=t<=8) (9)
其中,Zglobal为语义表示层的输出,G为候选事件类型的词嵌入,
Figure BDA0003038940610000092
是 在输入向量上执行线性投影的参数,At表示多头注意力机制中每个头的最终输出; Zatt为At的拼接,表示包含触发词信息的局部特征。
Step6.2、为了获取全局的事件信息,将全局特征Zglobal和局部特征Zatt进行加权求和后再执行平均池化操作,然后经过一个线性层后获得向量H;最后,对H执行 softmax获取对应类别的分布概率,并根据概率分布的值来判断输入句子的事件类型, 如式(10)~(12)所示。
H=Linear(AvgPooling(Zglobal+Zatt)) (10)
y=softmax(WH+b) (11)
Figure BDA0003038940610000093
其中,H表示全局事件信息,W和b为权重和偏置,y表示输入句子是否为预标 注类型的概率,
Figure BDA0003038940610000094
表示最终的预测值。
此优选方案设计对隐藏的触发器进行更好的建模,有助于更好的识别事件类型。
Step7、通过对训练数据的分析可知:
Step7.1、为了解决机器学习中的多标签问题:一个句子可能包含零个或多个事件;本文在模型中将多标签分类转化为多个二分类。如表1所示,假设句子s共有 三个预定义的事件类型t1,t2,t3,而句子s包含事件类型t1,t3。则可以转化为以 下三个实例:
Table 1An example of two classifications of event sentence S
表1事件句S的二分类举例
Figure BDA0003038940610000095
Figure BDA0003038940610000101
这样的话,如果一个句子中包含多个事件,则可以产生多个正对,从而很好地 解决了多标签问题。
Step7.2、模型训练的目标函数采用交叉熵损失,如式(13)所示:
Figure BDA0003038940610000102
其中,0表示模型中需要更新的参数;N表示一个batch的样本数;K表示类别数, 本文将其设置为2,即每个句子属于预标注类型或无类型—NA;y代表真实标签,值 为0或1;
Figure BDA0003038940610000103
表示候选事件的预测概率。本文使用Adam优化函数来更新参数0。
Step8、结合本文模型分别做了与先进方法的对比试验和模块有效性分析实验,证明本方法在新闻事件检测上具有较好效果以及证明模型设置的合理性与高效性。
Step8.1、评估方法使用准确率(Precision,P),召回率(Recall,R),F1值(F1-score) 作为评价指标。P、R、F1定义如式(14)~(16)所示。
Figure BDA0003038940610000104
Figure BDA0003038940610000105
Figure BDA0003038940610000106
Step8.2、本模型选择Pytorch框架进行开发,采用12层的transformer编码端作为编码器,本发明模型中用到的多头注意力机制的头数均设置为8,具体的超参数设 置如表2所示。
Table 2Model hyperparameters
表2模型超参数
Figure BDA0003038940610000107
Step8.3、本文选用以下7个事件检测模型作为基线模型,其中前4种是基于语 义表示的事件检测模型,后3种是基于句法依存表示的事件检测模型,它们都是当 前事件检测方面经典或最新的方法,分别如下:
基于语义表示:
动态多池卷积神经网络(DMCNN):使用动态多池层从纯文本中自动提取词汇 级和句子级特征;
双向递归神经网络(JRNN):采用双向递归神经网络的联合框架来进行事件抽 取;
混合型神经网络(HNN):将双向长短时记忆网络(Bi-LSTMs)和卷积神经网 络(CNNs)相结合,获取来自特定上下文的序列和结构语义信息;
类型感知偏差注意机制神经网络(TBNNAM):该方法基于目标事件类型对句 子的表示进行编码。
基于句法依存表示:
多阶图注意力网络(MOGANED):使用GCN网络对句法信息编码,并使用 attention机制聚合句中多阶的句法信息。
门控机制(Bi-LSTM+GCN):采用Bi-LSTM与GCN网络分别学习语义表示与句 法表示,再利用门控将语义信息与句法信息动态融合。
多个潜在上下文感知图结构上的图卷积网络(MH-GCN):通过在bert表示和邻 接矩阵上应用注意力机制,再使用GCN网络生成多个潜在的上下文感知图结构,动 态的保留与事件检测有关的信息而忽略无关信息。
为了验证本文提出的方法在事件检测任务上具有优势,将本文模型与以上7个 基线模型进行了对比,实验结果如表3所示(前人工作的实验性能数据均引入相应 参考文献中的公开数据)。
Table 3Performance of all methods
表3所有方法的性能
Figure BDA0003038940610000111
Figure BDA0003038940610000121
分析表3可知,本文模型的整体性能优于其他的方法,其中与基于语义表示的 HNN方法相比F1值提升了7.1%,与基于句法依存表示的MH-GCN方法相比,F1提 升了4.2%。
原因分析:
(1)基于语义表示的方法将文本嵌入作为模型的输入。然而,LSTM等神经网络 模型固有的特性并不能很好的解决句子的长距离依赖问题。本文通过引入句法信息 加强了事件信息之间的语义关联性以及增强了整个句子的上下文语义表征,因此实 验效果得到明显提升。
(2)相比之前基于句法依存表示的方法通过采用GCN来编码邻接矩阵以获取句 法信息,本文方法证明通过将父词信息连接到依赖子词也能有效的进行句法信息的 表征。此外,相较于之前的方法采用GCN网络对句法信息编码后再与文本的语义信 息进行融合。本文采用向量运算的方式将句法依赖的位置信息融入到句子的单词嵌 入,减少了基于GCN网络编码的额外参数,一定程度上提升了模型的性能。
Step8.4、为了验证句法信息中父级依赖词的语境可以丰富句子中孤立的单词嵌入表示,在语义表示层中设置了如下两组实验:不设置PASCAL以及在不同的 transformer层中设置PASCAL。其中,-PASCAL表示不融入句法信息,n+PASCAL 表示分别在不同的transformer层中融入句法信息。
Table4 Test results of not setting PASCAL and setting PASCAL indifferent transformer layers
表4不设置PASCAL以及在不同transformer层中设置PASCAL的试验结果
Figure BDA0003038940610000122
如表4所示,在第一层设置PASCAL的实验性能比只采用句子进行编码的性能 更优越。由此表明融入句法解析中的句法依赖关系可以使句中单词关注到语义上与 之关联的其它单词。另外,当在不同的transformer中设置PASCAL时,在底层的效 果明显优于高层,由此证明:在底层时,更多的注意力集中于句法关系的编码,而 在高层中则偏向于语义任务。因此,我们可以推断,在第一层执行PASCAL时能充 分利用句法依赖的位置信息来丰富孤立的单词嵌入表示;而在高层时由于已经初步 编码到文本的语义表征,将导致模型偏向于文本的语义编码而忽略来自底层的句法 位置信息。
Step8.5、本发明通过在transformer的编码器中融入句法信息有效捕获到了候选触发词与相关实体之间的句法关联性,以及增强了多事件句中不同触发词之间的信 息流动性。同时,通过采用类型感知器发现了句子中潜在的触发词,实现了无触发 词的事件检测。试验表明,本文模型在相比于其他事件检测方法取得了更优越的性 能,
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下做出各种变化。

Claims (6)

1.融合句法信息的无触发词事件检测方法,其特征在于:所述方法包括:
Step1、语料收集并进行预处理;
Step2、获取预处理语料的句法依存信息以及进行BPE编码获取子词单元,并分配训练语料、测试语料和验证语料;
Step3、将基于BPE子词单元的句子转为ID之后,再通过随机初始化获取句子中每个子词单元的向量表示;
Steps4、根据句子BPE编码后的子词单元数量来计算出每个单词的中间位置,然后将每个单词映射为其父词的中间位置表示;
Step5、采用基于transformer的语义表示层作为编码器,将句法信息与文本的语义信息进行融合,以编码获取句子的上下文语义表征;
Step6、最后通过类型感知器获取局部的触发词特征,再将局部的触发词特征与全局的语义表征进行联合,来完成事件检测任务。
2.根据权利要求1所述的融合句法信息的无触发词事件检测方法,其特征在于:所述步骤Step1具体步骤为:
Step1.1、语料采用ACE2005数据集:ACE2005语料库包括8种事件类型,33种事件子类型,将33种事件子类型视为33个独立的事件类型,而忽略它们之间的层次结构;
Step1.2、ACE数据集预处理:删除数据集中触发词的标注,并为每一个句子分配一组标签,不包含任何事件时标注为NA。
3.根据权利要求1所述的融合句法信息的无触发词事件检测方法,其特征在于:所述Step2具体步骤为:
Step2.1、使用Stanford CoreNLP工具获取预处理语料的句法依存信息;
Step2.2、使用BPE子词单元来缓解未登录词与罕见词问题,将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度;
Step2.3、将预处理后的数据集,按照13:1:1的比例分配训练语料、测试语料和验证语料。
4.根据权利要求1所述的融合句法信息的无触发词事件检测方法,其特征在于:所述Step3包括:
将输入的文本序列进行BPE编码后以补全或截断的方式固定句子长度,将其表示为X={x1,x2,…,xi,…xn},n为句子长度,对X进行随机初始化后获得词向量W={w1,w2,…,wi,…wn},其中,wi为xi的向量表示。
5.根据权利要求1所述的融合句法信息的无触发词事件检测方法,其特征在于:所述Step5中:采用12层的transformer编码端组成编码器;其中,在第一层transformer的局部自注意力层中融入了句法信息,而其他层的transformer则采用普通的自注意力层。
6.根据权利要求1所述的融合句法信息的无触发词事件检测方法,其特征在于:所述Step6的具体步骤如下:
Step6.1、如式(1)和式(2)所示,通过对全局特征Zglobal和候选事件类型的词嵌入G进行头数为8的多头注意力机制,来给Zglobal中潜在的触发词分配更高的权重;
Figure FDA0003038940600000021
Zatt=Contact(At),(1<=t<=8) (2)
其中,Zglobal为语义表示层的输出,G为候选事件类型的词嵌入,Wt Z、Wt G是在输入向量上执行线性投影的参数,At表示多头注意力机制中每个头的最终输出;Zatt为At的拼接,表示包含触发词信息的局部特征;
Step6.2、为了获取全局的事件信息,将全局特征Zglobal和局部特征Zatt进行加权求和后再执行平均池化操作,然后经过一个线性层后获得向量H;最后,对H执行softmax获取对应类别的分布概率,并根据概率分布的值来判断输入句子的事件类型,如式(3)~(5)所示:
H=Linear(AvgPooling(Zglobal+Zatt)) (3)
y=softmax(W H+b) (4)
Figure FDA0003038940600000022
其中,H表示全局事件信息,W和b为权重和偏置,y表示输入句子是否为预标注类型的概率,
Figure FDA0003038940600000023
表示最终的预测值。
CN202110451650.8A 2021-04-26 2021-04-26 融合句法信息的无触发词事件检测方法 Active CN113239142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451650.8A CN113239142B (zh) 2021-04-26 2021-04-26 融合句法信息的无触发词事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451650.8A CN113239142B (zh) 2021-04-26 2021-04-26 融合句法信息的无触发词事件检测方法

Publications (2)

Publication Number Publication Date
CN113239142A true CN113239142A (zh) 2021-08-10
CN113239142B CN113239142B (zh) 2022-09-23

Family

ID=77129200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451650.8A Active CN113239142B (zh) 2021-04-26 2021-04-26 融合句法信息的无触发词事件检测方法

Country Status (1)

Country Link
CN (1) CN113239142B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN115130472A (zh) * 2022-08-31 2022-09-30 北京澜舟科技有限公司 一种基于bpe的子词分割方法、系统及可读存储介质
CN115577112A (zh) * 2022-12-09 2023-01-06 成都索贝数码科技股份有限公司 一种基于类型感知门控注意力机制的事件抽取方法及系统
CN115757775A (zh) * 2022-11-05 2023-03-07 内蒙古大学 基于文本蕴含的无触发词文本事件检测方法及系统
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729326A (zh) * 2017-09-25 2018-02-23 沈阳航空航天大学 基于Multi‑BiRNN编码的神经机器翻译方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
CN111428511A (zh) * 2020-03-12 2020-07-17 北京明略软件系统有限公司 一种事件检测方法和装置
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111859935A (zh) * 2020-07-03 2020-10-30 大连理工大学 基于文献的癌症相关生物医学事件数据库构建方法
CN112668319A (zh) * 2020-12-18 2021-04-16 昆明理工大学 基于中文信息和越南语句法指导的越南语新闻事件检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729326A (zh) * 2017-09-25 2018-02-23 沈阳航空航天大学 基于Multi‑BiRNN编码的神经机器翻译方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
CN111428511A (zh) * 2020-03-12 2020-07-17 北京明略软件系统有限公司 一种事件检测方法和装置
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111859935A (zh) * 2020-07-03 2020-10-30 大连理工大学 基于文献的癌症相关生物医学事件数据库构建方法
CN112668319A (zh) * 2020-12-18 2021-04-16 昆明理工大学 基于中文信息和越南语句法指导的越南语新闻事件检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIALI CHEN ET AL.: "Using Mention Segmentation to Improve Event Detection with Multi-head Attention", 《2019 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING》 *
王吉地 等: "融合依存信息和卷积神经网络的越南语新闻事件检测", 《南京大学学报(自然科学)》 *
陈佳丽 等: "利用门控机制融合依存与语义信息的事件检测方法", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN113468333B (zh) * 2021-09-02 2021-11-19 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN115130472A (zh) * 2022-08-31 2022-09-30 北京澜舟科技有限公司 一种基于bpe的子词分割方法、系统及可读存储介质
CN115757775A (zh) * 2022-11-05 2023-03-07 内蒙古大学 基于文本蕴含的无触发词文本事件检测方法及系统
CN115757775B (zh) * 2022-11-05 2023-10-27 内蒙古大学 基于文本蕴含的无触发词文本事件检测方法及系统
CN115577112A (zh) * 2022-12-09 2023-01-06 成都索贝数码科技股份有限公司 一种基于类型感知门控注意力机制的事件抽取方法及系统
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和系统

Also Published As

Publication number Publication date
CN113239142B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN113239142B (zh) 融合句法信息的无触发词事件检测方法
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
Jung Semantic vector learning for natural language understanding
Wang et al. Learning latent opinions for aspect-level sentiment classification
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN109635280A (zh) 一种基于标注的事件抽取方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN110489553B (zh) 一种基于多源信息融合的情感分类方法
CN111563166A (zh) 一种针对数学问题分类的预训练模型方法
CN111651974A (zh) 一种隐式篇章关系分析方法和系统
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112966117A (zh) 实体链接方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115906842A (zh) 一种政策信息识别方法
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
Zhang et al. A data processing method based on sequence labeling and syntactic analysis for extracting new sentiment words from product reviews
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant