CN116795979A - 一种基于触发词增强的标签信号指导事件检测方法 - Google Patents
一种基于触发词增强的标签信号指导事件检测方法 Download PDFInfo
- Publication number
- CN116795979A CN116795979A CN202310399435.7A CN202310399435A CN116795979A CN 116795979 A CN116795979 A CN 116795979A CN 202310399435 A CN202310399435 A CN 202310399435A CN 116795979 A CN116795979 A CN 116795979A
- Authority
- CN
- China
- Prior art keywords
- event
- sentence
- classification
- trigger
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000000873 masking effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 54
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 13
- 238000013461 design Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000011664 signaling Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 3
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种基于触发词增强的标签信号指导事件检测方法,包括以下步骤:(1)触发词增强,在不改变上下文的前提下利用预训练掩码语言模型知识通过掩码触发词来生成候选触发词;(2)标签信号指导的事件检测,为了控制触发词增强的噪声,提出标签信号指导的事件分类,先进行事件类型分类,再进行事件子类型分类,事件类型分类结果作为信号指导事件子类型分类,可以多次搜索计算,最终依据事件类型和子类型分类结果乘积的最大值进行最终的分类;(3)句子语义一致性,为了进一步保证生成触发词的质量,提出句子语义一致性进行联合训练。
Description
技术领域
本发明涉及自然语言处理中信息抽取技术,主要涉及事件抽取,具体为一种基于触发词增强的标签信号指导事件检测方法。
背景技术
近年来,随着信息技术的不断发展,互联网的信息量日益膨胀。自动化地从海量信息中准确地抽取用户感兴趣的信息成为一个亟待解决的问题。在这种背景下,面向大数据的信息抽取技术成为一个尤为重要的研究方向。事件抽取作为信息抽取的重要子任务,旨在从大量非结构化文本中抽取用户感兴趣的事件,包括触发事件的词(称为触发词),事件中包含的论元(什么人、什么地方、什么时候,什么事),以及这些论元所扮演的角色(参与者、地点、时间等等)。事件抽取对其他研究有极大的促进作用。例如在信息检索领域中,事件抽取技术能够帮助用户快速得到需要的事件信息,进而提高用户接收信息的效率;在自动文摘领域中,结合事件抽取技术能够更全面地涵盖文章中所发生的事件,以得到比较完整的摘要内容。此外,事件抽取技术在实际应用场景中也具有很重要的研究意义,例如从新闻报道中抽取出地震事件的基本情况:时间、地点、震级、遇害情况等,能够帮助人们方便快速地了解到所关注事件的重要信息。
事件抽取可以进一步分为两个子任务,事件检测和事件论元抽取。前者旨在从候选文本中识别出触发事件的关键词(通常动词和名词居多),并判断其事件类型;后者则是从已识别的事件中标注事件的论元及其扮演的角色(包括事件发生的时间,地点和人物等信息)。由于事件检测依然面临着严峻挑战,本发明主要专注于事件检测。比如:在句子“Helost an election to a dead man.”中,模型需要识别单词“election”触发了“Personnel.Elect”事件,其中“Personnel”是事件类型,“Elect”是事件子类型。
到目前为止,针对事件检测研究已经提出了很多方法,从基于特征到基于表示。尽管之前的方法在很多方面也取得了很大成功,数据稀缺随着主流监督模型越来越大变得越来越严重。这里以事件检测常用的ACE2005语料库举例:
ACE2005一共定义了8个事件类型,共包括33个事件子类型。然而,70%的事件子类型的样本数目小于100,甚至有3个事件子类型的样例数小于10。训练数据的缺乏严重阻碍了现存监督方法的性能,它们需要大量的训练数据来完成模型训练。为了缓解这一问题,Liu等人[4]提出一个多语料方法,通过机器翻译来增强源数据。然而,确保多语言之间单词和标签的对应关系是复杂的,而且可能存在偏差。也有一些工作[3][5][9]通过远程监督机制来扩大训练数据。此外,Veyseh等人[12]利用预训练语言模型GPT-2来自动生成训练数据。这些方法的共同点是生成包含事件的句子。然而主要存在两个缺点:1)生成的句子里面有噪声,需要额外的机制(知识蒸馏)去控制;2)事件检测是一个单词级别的分类任务,确定生成句子中触发词的位置以及事件类型是困难的,而且可能存在偏差(位置或标签偏差)。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于触发词增强的标签信号指导事件检测。
本发明提供一种新的触发词增强方法,在不改变上下文的情况下直接掩码触发词,通过预训练掩码语言模型知识直接生成合适的候选触发词,从源头上控制噪声。为了保证生成触发词的质量,每次只掩码一个单词,同时加入句子的上下文作为提示以丰富当前句子的语义。为了控制生成数据的噪声,本发明提出了标签信号指导的分类机制并设计了事件类型-子类型指导分类网络,先进行事件类型分类,再进行事件子类型分类,事件类型分类结果作为信号指导事件子类型分类。通过事件类型分类作为媒介,多次搜索计算事件子类型分类并依据事件类型分类和事件子类型分类乘积结果的最大值进行最终的分类。此外,为了进一步控制生成触发词的质量,提出句子语义一致性来进行联合训练。
本发明的目的是通过以下技术方案实现的:
一种基于触发词增强的标签信号指导事件检测方法,包括以下步骤:
(1)触发词增强,在不改变触发词上下文的前提下,对触发词进行掩码并通过预训练掩码语言模型生成候选触发词;
(2)标签信号指导的事件检测,包括事件类型和子类型分类,采用(1)中候选触发词进行事件类型分类,分类结果作为信号指导事件子类型分类,进行多次事件子类型分类,依据事件类型和子类型分类结果乘积的最大值进行最终的分类;
(3)句子语义一致性,原句子和生成候选句子语义尽可能相似,以进一步保证生成触发词的质量。
进一步的,步骤(1)具体包括:
本发明采用触发词增强获取合适的候选触发词,其实现策略为掩码触发词并通过预训练掩码语言模型生成候选词;具体地,给定输入x=[x1,…,xi,…,xn],其中x表示句子,n是输入单词的个数,xi是第i个单词;假定xi是句子x的唯一触发词,则掩码后句子的形式如下:
x′=[x1,…,[MASK],…,xn] (1)
其中x′表示掩码后的句子,[MASK]是用来代表触发词的特殊符号;x′接下来作为预训练掩码语言模型的输入来获取[MASK]的表示:
hmask=PMLM(x′)∈Rd (2)
其中hmask指[MASK]的表示,PMLM表示预训练掩码语言模型,在实施过程中,可根据具体情况进行选择,如RoBERTa,d表示预训练掩码语言模型隐层的输出维度;然后利用预训练掩码语言模型头,即PMLM head来获取得分最高的k个候选触发词集合T=[t1,…,ti,…,tk]以及对应的得分集合s=[s1,…,si,…,sk]:
(T,s)=PMLM head(hmask)(3)
其中T代表候选触发词集合,k表示集合内元素的个数,ti表示第i个候选触发词;s表示候选触发词得分集合,si表示第i个候选触发词ti的得分,触发词的得分在集合s降序排列;PMLM head是一个预训练的带有Dropout和Layer Normalization的两层非线性分类器,其输出维度对应预训练掩码语言模型词库;候选触发词的得分为PMLM head在对应词库单词上的概率;值得注意的是s中元素的和小于1,然后通过下面的方式进行归一化:
然后将T中的候选触发词填入[MASK],可以得到k个候选句子;不同的候选句子除了触发词不同,其他的单词都相同;在填入之前,本发明通过xi∈T是否成立来初步判断生成触发词集合T的质量,这里xi表示被掩码之前的触发词;如果不成立,本发明认为T的质量不可靠,进而放弃进行触发词增强;
考虑到触发词通常是句子中的核心词,并且在预训练语言模型巨大的词库范围下将有很多可选的单词;为了帮助预训练掩码语言模型正确理解掩码后的句子,生成合适的候选触发词,本发明将当前句子x的前一和后一句子作为提示加入到x′中以丰富当前句子的语义,增强后的x′形式如下:
x′=[Sent1,[SEP],x1,…,[MASK],…,xn,[SEP],Sent2] (5)
这里Sent1和Sent2分别表示当前句子x的前一和后一句子,[SEP]是用来区分不同句子的特殊符号;如果当前句子是文档的第一个句子,则添加后面两句,如果是最后一句,则添加前面两句;
为了进一步帮助预训练掩码语言模型理解掩码后的句子,x′只包含一个[MASK]单词,尽管x可能包含多个触发词;为了解决这个问题,本发明每次只掩码一个触发词并且获得候选的触发词集合和得分,最终通过笛卡尔积获取多个触发词的候选序列和其对应的得分,序列的得分是序列里每个触发词得分的乘积;因此,如果一个句子包含q个触发词,理论上最多可以获得kq个候选句子。
进一步的,步骤(2)具体包括:
(201)标签信号指导的分类机制
考虑到一个事件类型包含一个或多个事件子类型,本发明设计一种标签信号指导的分类机制,首先进行事件类型分类,然后进行事件子类型分类;具体地,根据预定义的事件模式,有一个事件类型集合C和事件子类型集合Y;总体的目标是预测句子x中定义的所有事件集合εx,旨在最大化下面的似然函数:
其中D表示所有的训练语料,x表示训练语料中的句子,εx表示句子x中定义的所有事件,Tx表示句子x中的触发词集合,t表示触发词集合Tx中的触发词,c表示触发词t的事件类型,y表示触发词t的事件子类型;事件类型分类结果作为信号来指导事件子类型分类;分类机制是一个高度为3的树,根节点为触发词,第二层和第三层分别代表事件类型和子类型,第二层节点的孩子节点即为其包含的事件子类型,边上的权重为触发词在对应事件类型和子类型上的分类概率;在分类过程中,基于边的权重以深度优先搜索(Depth SearchFirst,DFS)选择一条从根到叶子节点的路径,确定触发词对应的事件类型和子类型;
为了控制触发词增强中的噪声,本发明在选择路径进行DFS时,不是仅选择一条路径,而是选择多条路径,从每个节点出发时,根据边的权重选择m条路径,考虑树高为3,因此总的路径数为m2,最终通过路径上边的权重乘积的最大值确定事件类型和子类型;相较于仅根据一条路径进行贪心搜索,选择多条路径进行搜索可以避免局部最优的情况,即使事件类型的分类结果错误,最终仍有可能通过多次搜索获取正确结果;具体到事件类型和子类型分类过程中,即为在信号传递过程中不是仅将事件类型分类概率分布的最大值对应的事件类型作为信号,而是选择前m大结果,依次进行多次搜索,以控制触发词增强过程中的噪声,从而使得分类结果最优;
(202)事件类型-子类型指导分类网络
根据上面的分类机制,本发明设计一个事件类型-子类型指导分类网络,包括事件类型和子类型分类;事件类型和子类型分类的思想类似,不同的是事件类型分类在候选句子上进行训练,进而通过预测得到事件类型结果,事件子类型分类根据事件类型分类结果在原句子上进行训练,进而得到事件子类型分类结果;假定原句子x经过触发词增强后获得z个候选句子其中z≤kq,q是句子x中的触发词数量;然后将x和/>送入预训练掩码语言模型获取句子中单词的表示:
H=PMLM(x) (7)
其中PMLM表示预训练掩码语言模型,和公式2中的PMLM相同,二者共享权重,H表示原句子x中单词的词嵌入,表示候选句子/>中单词的词嵌入;接下来/>作为事件类型分类的输入获得事件类型结果/>
其中ETC表示事件类型分类,是一个两层的带有Dropout和LayerNormalization的非线性分类器,分类器的输出维度大小为事件类型的个数;此外,通过公式(3)和(4)可以得到候选句子的得分s;接下来通过加权求和得到加权的事件类型分类结果:
其中表示加权后的事件类型分类结果,Softmax表示归一化函数;然后由/>的前m大概率v和对应标签l组成信号来指导事件子类型分类:
其中ESC表示事件子类型分类,共包含|C|个分类器,每个都是带有Dropout和Layer Normalization的两层非线性分类器;|C|表示事件类型集合元素的个数,表示根据li的值选择第li个分类器,vi表示第i个信号对应的概率值,li表示第i个信号对应的事件类型标签,Softmax表示归一化函数,/>表示事件类型和子类型分类概率的乘积,max表示取集合中的最大值,y表示x中单词的最终事件子类型标签。
进一步的,步骤(3)具体包括:
本发明提出句子语义一致性机制,以进一步保证生成触发词的质量;考虑到候选句子和原句子只有触发词不同,因此本发明尝试让原句子和生成候选句子的语义尽可能相似;在本发明中,使用Hcls和的均方误差损失作为监督目标加入到最终优化的损失函数中:
其中Ls表示原句子和候选句子的均方误差损失,Hcls和分别表示原句子和候选句子中第一个单词[CLS]经过预训练掩码语言模型编码后的表示,本发明将其作为各自句子的语义表示,|Hcls|表示Hcls的维度大小,Hcls,i和/>分别表示Hcls和/>中的第i个元素;
为了优化模型,联合训练采用如下的损失函数:
L=LETC+αLESc+βLs (13)
其中L表示最终的损失,LETC和LESC分别表示事件类型和子类型分类的损失,其中LETC表示真实事件类型标签和预测之间的交叉熵损失,LESC表示真实事件子类型标签和预测之间的交叉熵损失,α和β表示权衡参数;值得注意的是,在ESC分类阶段,H会根据l计算m次前向传播,但LESC只会在li等于H中触发词的真实事件类型时才计算损失,如果真实的事件类型不在信号中,此时ESC将会被剪枝。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)提出使用预训练语言模型知识直接生成候选触发词,进而增强事件检测任务中的触发词;
(2)设计一个标签信号指导的事件类型-子类型分类机制用来控制触发词增强的噪声;
(3)采用句子语义一致性来保证生成触发词的质量;
(4)在多个数据集上的实验结果证明本发明的有效性。
附图说明
图1为本发明提供的一种基于触发词增强的标签信号指导事件检测方法架构图。包含两个子模块,分别是:1)触发词增强,2)标签信号指导的事件检测。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于触发词增强的标签信号指导事件检测方法,该方法整体框架如图1所示。整个系统包括数据预处理、触发词增强、标签信号指导的事件检测和句子语义一致性这几个步骤。
具体步骤如下:
(1)为了验证本发明的有效性,在多个数据集上进行实验,包括ACE2005[1]和FewEvent[2]数据集。
ACE2005定义了8个事件类型,33个事件子类型,共标注了599篇英文文档。此外,ACE2005采用和前人工作相同的划分方式。
FewEvent是另一个事件检测数据集,定义了19个事件类型,100个事件子类型,包括70852个句子。但是FewEvent中不同事件的分布差距十分悬殊。出现次数最多的事件出现了26135次,大部分的事件仅出现了30次。为了验证模型的性能,本发明每次实验中每个事件子类型选取30个训练样本,训练集、验证集、测试集的比例分别是70%、10%,20%,5次实验结果的平均值作为最终的结果。
(2)触发词增强
本发明采用触发词增强获取合适的候选触发词,其实现策略为掩码触发词并通过预训练掩码语言模型生成候选词;具体地,给定输入x=[x1,…,xi,…,xn],其中x表示句子,n是输入单词的个数,xi是第i个单词;假定xi是句子x的唯一触发词,则掩码后句子的形式如下:
x′=[x1,…,[MASK],…,xn] (1)
其中x′表示掩码后的句子,[MASK]是用来代表触发词的特殊符号;x′接下来作为预训练掩码语言模型的输入来获取[MASK]的表示:
hmask=PMLM(x′)∈Rd (2)
其中hmask指[MASK]的表示,PMLM表示预训练掩码语言模型,在实施过程中,可根据具体情况进行选择,如RoBERTa,d表示预训练掩码语言模型隐层的输出维度;然后利用预训练掩码语言模型头,即PMLM head来获取得分最高的k个候选触发词集合T=[t1,…,ti,…,tk]以及对应的得分集合s=[s1,…,si,…,sk]:
(T,s)=PMLM head(hmask) (3)
其中T代表候选触发词集合,k表示集合内元素的个数,ti表示第i个候选触发词;s表示候选触发词得分集合,si表示第i个候选触发词ti的得分,触发词的得分在集合s降序排列;PMLM head是一个预训练的带有Dropout和Layer Normalization的两层非线性分类器,其输出维度对应预训练掩码语言模型词库;候选触发词的得分为PMLM head在对应词库单词上的概率;值得注意的是s中元素的和小于1,然后通过下面的方式进行归一化:
然后将T中的候选触发词填入[MASK],可以得到k个候选句子;不同的候选句子除了触发词不同,其他的单词都相同;在填入之前,本发明通过xi∈T是否成立来初步判断生成触发词集合T的质量,这里xi表示被掩码之前的触发词;如果不成立,本发明认为T的质量不可靠,进而放弃进行触发词增强;
考虑到触发词通常是句子中的核心词,并且在预训练语言模型巨大的词库范围下将有很多可选的单词;为了帮助预训练掩码语言模型正确理解掩码后的句子,生成合适的候选触发词,本发明将当前句子x的前一和后一句子作为提示加入到x′中以丰富当前句子的语义,增强后的x′形式如下:
x′=[Sent1,[SEP],x1,…,[MASK],…,xn,[SEP],Sent2] (5)
这里Sent1和Sent2分别表示当前句子x的前一和后一句子,[SEP]是用来区分不同句子的特殊符号;如果当前句子是文档的第一个句子,则添加后面两句,如果是最后一句,则添加前面两句;
为了进一步帮助预训练掩码语言模型理解掩码后的句子,x′只包含一个[MASK]单词,尽管x可能包含多个触发词;为了解决这个问题,本发明每次只掩码一个触发词并且获得候选的触发词集合和得分,最终通过笛卡尔积获取多个触发词的候选序列和其对应的得分,序列的得分是序列里每个触发词得分的乘积;因此,如果一个句子包含q个触发词,理论上最多可以获得kq个候选句子。
(3)标签信号指导的事件检测
(301)标签信号指导的分类机制
考虑到一个事件类型包含一个或多个事件子类型,本发明设计一种标签信号指导的分类机制,首先进行事件类型分类,然后进行事件子类型分类;具体地,根据预定义的事件模式,有一个事件类型集合C和事件子类型集合Y;总体的目标是预测句子x中定义的所有事件集合εx,旨在最大化下面的似然函数:
其中D表示所有的训练语料,x表示训练语料中的句子,εx表示句子x中定义的所有事件,Tx表示句子x中的触发词集合,t表示触发词集合Tx中的触发词,c表示触发词t的事件类型,y表示触发词t的事件子类型;事件类型分类结果作为信号来指导事件子类型分类;分类机制是一个高度为3的树,根节点为触发词,第二层和第三层分别代表事件类型和子类型,第二层节点的孩子节点即为其包含的事件子类型,边上的权重为触发词在对应事件类型和子类型上的分类概率;在分类过程中,基于边的权重以深度优先搜索(Depth SearchFirst,DFS)选择一条从根到叶子节点的路径,确定触发词对应的事件类型和子类型;
为了控制触发词增强中的噪声,本发明在选择路径进行DFS时,不是仅选择一条路径,而是选择多条路径,从每个节点出发时,根据边的权重选择m条路径,考虑树高为3,因此总的路径数为m2,最终通过路径上边的权重乘积的最大值确定事件类型和子类型;相较于仅根据一条路径进行贪心搜索,选择多条路径进行搜索可以避免局部最优的情况,即使事件类型的分类结果错误,最终仍有可能通过多次搜索获取正确结果;具体到事件类型和子类型分类过程中,即为在信号传递过程中不是仅将事件类型分类概率分布的最大值对应的事件类型作为信号,而是选择前m大结果,依次进行多次搜索,以控制触发词增强过程中的噪声,从而使得分类结果最优;
(302)事件类型-子类型指导分类网络
根据上面的分类机制,本发明设计一个事件类型-子类型指导分类网络,包括事件类型和子类型分类;事件类型和子类型分类的思想类似,不同的是事件类型分类在候选句子上进行训练,进而通过预测得到事件类型结果,事件子类型分类根据事件类型分类结果在原句子上进行训练,进而得到事件子类型分类结果;假定原句子x经过触发词增强后获得z个候选句子其中z≤kq,q是句子x中的触发词数量;然后将x和/>送入预训练掩码语言模型获取句子中单词的表示:
H=PMLM(x)(7)
其中PMLM表示预训练掩码语言模型,和公式2中的PMLM相同,二者共享权重,H表示原句子x中单词的词嵌入,表示候选句子/>中单词的词嵌入;接下来/>作为事件类型分类的输入获得事件类型结果/>
其中ETC表示事件类型分类,是一个两层的带有Dropout和LayerNormalization的非线性分类器,分类器的输出维度大小为事件类型的个数;此外,通过公式(3)和(4)可以得到候选句子的得分s;接下来通过加权求和得到加权的事件类型分类结果:
其中表示加权后的事件类型分类结果,Softmax表示归一化函数;然后由/>的前m大概率v和对应标签l组成信号来指导事件子类型分类:
其中ESC表示事件子类型分类,共包含|C|个分类器,每个都是带有Dropout和Layer Normalization的两层非线性分类器;|C|表示事件类型集合元素的个数,表示根据li的值选择第li个分类器,vi表示第i个信号对应的概率值,li表示第i个信号对应的事件类型标签,Softmax表示归一化函数,/>表示事件类型和子类型分类概率的乘积,max表示取集合中的最大值,y表示x中单词的最终事件子类型标签。
(4)句子语义一致性
本发明提出句子语义一致性机制,以进一步保证生成触发词的质量;考虑到候选句子和原句子只有触发词不同,因此本发明尝试让原句子和生成候选句子的语义尽可能相似;在本发明中,使用Hcls和的均方误差损失作为监督目标加入到最终优化的损失函数中:
其中Ls表示原句子和候选句子的均方误差损失,Hcls和分别表示原句子和候选句子中第一个单词[CLS]经过预训练掩码语言模型编码后的表示,本发明将其作为各自句子的语义表示,|Hcls|表示Hcls的维度大小,Hcls,i和/>分别表示Hcls和/>中的第i个元素;
为了优化模型,联合训练采用如下的损失函数:
L=LETC+αLESc+βLs (13)
其中L表示最终的损失,LETC和LESC分别表示事件类型和子类型分类的损失,其中LETC表示真实事件类型标签和预测之间的交叉熵损失,LESC表示真实事件子类型标签和预测之间的交叉熵损失,α和β表示权衡参数;值得注意的是,在ESC分类阶段,H会根据l计算m次前向传播,但LESC只会在li等于H中触发词的真实事件类型时才计算损失,如果真实的事件类型不在信号中,此时ESC将会被剪枝。
在具体实施过程中,本发明采用RoBERTa作为预训练掩码语言模型进行实验。通过提前设定各种超参数,事件类型分类和事件子类型分类的隐层和Dropout分别设置为768和0.1,权衡参数α和β分别设置为0.6和0.4,学习率设置为1e-5,优化器采用Adam,batch size设置为4。k设置为4表明触发词增强会生成4个候选句子,z设置为4表明一个包含触发词的句子会获得4个候选句子,对于包含多个触发词的句子,本发明选取得分最高的前4个候选句子。m设置为2表明事件子类型分类会根据事件类型分类结果计算2次。epoch设置为50,early stop设置为8。
为了验证本发明方法的有效性,对于ACE2005数据集,将本发明方法(LSEDTA)与当前先进并具有代表性的模型(DMCNN、GMLATT、DMBERT、EEQA、RCEE_ER、DRMM、EKD、MLBiNet、ED3C、GPTEDOT)进行比较;对于FewEvent数据集,由于数据划分方式不一致,本节选择手动实现或论文代码公开的工作作为对比模型,包括PLMEE、DMBERT和EEQA。大致可以分为三类:
基于多标签分类的方法:
1)PLMEE:Yang等人[13]借助预训练语言模型直接对句子中的单词进行分类,完成事件检测任务。
2)MLBiNet:Lou等人[10]提出了一种多层双向网络,以同时捕获事件和语义信息的关联。
3)ED3C:Veyseh等人[11]提出了一种建模文档级上下文的新方法,该方法动态地选择文档中的相关句子以对目标句子进行事件预测。
基于问答的方法:
4)EEQA:Du等人[6]引入了一种新的事件抽取范式,将其转化为问答任务,以端到端的方式解决。
5)RCEE_ER:Liu等人[7]将事件抽取转化为机器阅读理解问题,其中包括一个无监督的问题生成过程,然后是基于BERT的问答以检索答案作为结果。
基于数据增强的方法:
6)DMCNN:Chen等人[3]利用世界知识和语言知识来检测每种事件类型的论元和触发词,进而自动标记文本中的事件,进行数据增强。
7)GMLATT:Liu等人[4]提出了一个多语料方法,通过机器翻译方法来增强源数据。
8)DMBERT:Wang等人[5]构建了一个覆盖率良好的大型事件相关候选集,并通过对抗训练机制从候选集中迭代的识别事件并过滤掉有噪声的事件。
9)DRMM:Tong等人[8]提出了一种新颖的双循环多模态模型,用于图像和句子之间进行深度交互,进而完成事件检测。
10)EKD:Tong等人[9]通过WordNet进行知识收集,然后借助teacher-student模型来从有标注和无标注的数据中蒸馏开放域触发词知识,进而完成事件检测。
11)GPTEDOT:Veyseh等人[12]利用GPT-2来生成包含事件的句子,实现数据增强。
具体评价指标采用精准率(Precision,P)、召回率(Recall,R)、F1值进行实验性能的评价。
表1和2分别展示了模型和所有比较方法在ACE2005和FewEvent上的实验结果,F1分数值越高表示该模型性能越好。“*”表示该模型利用了预训练语言模型。表3展示了模型以及退化模型在FewEvent上的实验结果。其中ED表示直接进行多分类,完成事件检测,LSED表示基于ED,添加额外的标签信号指导,EDTA表示进行触发词增强,但不采用标签信号指导的事件分类。表4展示了模型在ACE2005数据集上的退化实验结果。其中ED、LSED、EDTA、LSEDTA和前面介绍的一致,“-cp”表示移除上下文提示,“-ssc”表示移除句子语义一致性,“-all”表示移除上下文提示和句子语义一致性。
表1:本发明方法与其他方法在ACE2005同一测试集上的性能比较
表2:本发明方法与其他方法在FewEvent同一测试集上的性能比较
模型 | P | R | F1 |
PLMEE | 60.1 | 58.2 | 59.1 |
DMBERT | 60.3 | 58.4 | 59.3 |
EEQA | 61.2 | 59.3 | 60.2 |
LSEDTA | 62.0 | 60.3 | 61.1 |
表3:本发明方法在FewEvent数据集上的退化实验结果
模型 | P | R | F1 |
ED | 60.2 | 53.3 | 56.5 |
LSED | 60.7 | 54.1 | 57.2 |
EDTA | 57.4 | 59.6 | 58.5 |
LSEDTA | 62.0 | 60.3 | 61.1 |
表4:本发明在方法在ACE2005数据集上的退化实验结果
/>
表5:超参数k对模型结果的影响
k | P | R | F1 |
1 | 74.6 | 75 | 74.8 |
2 | 75.5 | 78.4 | 76.9 |
3 | 76.9 | 79.5 | 78.2 |
4 | 76.6 | 82.8 | 79.6 |
5 | 74.9 | 80.9 | 77.8 |
6 | 75.6 | 74.5 | 75.0 |
表6:超参数m对模型结果的影响
m | P | R | F1 |
1 | 75.8 | 81.6 | 78.6 |
2 | 76.6 | 82.8 | 79.6 |
3 | 76.8 | 82.9 | 79.7 |
从表1和2的评估结果可以看出,通过直接生成触发词,并引入标签信号指导的事件分类,本发明提供的方法得到较大的性能提升。为了进一步观察不同模块对于模型结果的影响,表5展示了掩码触发词生成候选触发词数量k的改变对模型结果的影响。表6展示了超参数m的改变对模型结果的影响。由实验可知,本发明的有效性。
以上内容旨在示意性地说明本发明的技术方案,本发明并不限于上文描述的实施方式。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Doddington G R,Mitchell A,Przybocki M A,et al.The automaticcontent extraction(ace)program-tasks,data,and evaluation[C]//Lrec.2004,2(1):837-840.
[2]Deng S,Zhang N,Kang J,et al.Meta-learning with dynamic-memory-based prototypical network for few-shot event detection[C]//Proceedings ofthe 13th International Conference on Web Search and Data Mining.2020:151-159.
[3]Chen Y,Liu S,Zhang X,et al.Automatically labeled data generationfor large scale event extraction[C]//Proceedings of the 55th Annual Meetingof the Association for Computational Linguistics(Volume 1:Long Papers).2017:409-419.
[4]Liu J,Chen Y,Liu K,et al.Event detection via gated multilingualattention mechanism[C]//Proceedings of the AAAI conference on artificialintelligence.2018,32(1).
[5]Wang X,Han X,Liu Z,et al.Adversarial training for weaklysupervised eventdetection[C]//Proceedings of the 2019 Conference of the NorthAmerican Chapter of theAssociation for Computational Linguistics:HumanLanguage Technologies,Volume 1(Long andShort Papers).2019:998-1008.
[6]Du X,Cardie C.Event Extraction by Answering(Almost)NaturalQuestions[C]//Proceedings of the 2020 Conference on Empirical Methodsin Natural LanguageProcessing(EMNLP).2020:671-683.
[7]Liu J,Chen Y,Liu K,et al.Event extraction as machinereadingcomprehension[C]//Proceedings of the 2020 Conference on EmpiricalMethods in NaturalLanguage Processing(EMNLP).2020:1641-1651.
[8]Tong M,Wang S,Cao Y,et al.Image enhanced event detection innewsarticles[C]//Proceedings of the AAAI Conference on ArtificialIntelligence.2020,34(05):9040-9047.
[9]Tong M,Xu B,Wang S,et al.Improving event detection via open-domaintriggerknowledge[C]//Proceedings of the 58th annual meeting of theassociation for computationallinguistics.2020:5887-5897.
[10]Lou D,Liao Z,Deng S,et al.MLBiNet:A Cross-Sentence CollectiveEvent DetectionNetwork[C]//Proceedings of the 59th Annual Meeting of theAssociation for ComputationalLinguistics and the 11th International JointConference on Natural Language Processing(Volume 1:Long Papers).2021:4829-4839.
[11]Veyseh A P B,Van Nguyen M,Trung N N,et al.Modeling document-levelcontext forevent detection via important context selection[C]//Proceedings ofthe 2021 Conference onEmpirical Methods in Natural Language Processing.2021:5403-5413.
[12]Veyseh A P B,Lai V,Dernoncourt F,et al.Unleash GPT-2 power foreventdetection[C]//Proceedings of the 59th Annual Meeting of the Associationfor ComputationalLinguistics and the 11th International Joint Conference onNatural Language Processing(Volume 1:Long Papers).2021:6271-6282.
[13]Yang S,Feng D,Qiao L,et al.Exploring pre-trained language modelsfor event extractionand generation[C]//Proceedings of the 57th annual meetingof the association for computationallinguistics.2019:5284-5294.
Claims (4)
1.一种基于触发词增强的标签信号指导事件检测方法,其特征在于,包括以下步骤:
(1)触发词增强,在不改变触发词上下文的前提下,对触发词进行掩码并通过预训练掩码语言模型生成候选触发词;
(2)标签信号指导的事件检测,包括事件类型和子类型分类,采用(1)中候选触发词进行事件类型分类,分类结果作为信号指导事件子类型分类,进行多次事件子类型分类,依据事件类型和子类型分类结果乘积的最大值进行最终的分类;
(3)句子语义一致性,原句子和生成候选句子语义尽可能相似,以进一步保证生成触发词的质量。
2.根据权利要求1所述一种基于触发词增强的标签信号指导事件检测方法,其特征在于,步骤(1)具体包括:
本发明采用触发词增强获取合适的候选触发词,其实现策略为掩码触发词并通过预训练掩码语言模型生成候选词;具体地,给定输入x=[x1,…,xi,…,xn],其中x表示句子,n是输入单词的个数,xi是第i个单词;假定xi是句子x的唯一触发词,则掩码后句子的形式如下:
x′=[x1,…,[MASK],…,xn] (1)
其中x′表示掩码后的句子,[MASK]是用来代表触发词的特殊符号;x′接下来作为预训练掩码语言模型的输入来获取[MASK]的表示:
hmask=PMLM(x′)∈Rd (2)
其中hmask指[MASK]的表示,PMLM表示预训练掩码语言模型,在实施过程中,可根据具体情况进行选择,如RoBERTa,d表示预训练掩码语言模型隐层的输出维度;然后利用预训练掩码语言模型头,即PMLM head来获取得分最高的k个候选触发词集合T=[t1,…,ti,…,tk]以及对应的得分集合s=[s1,…,si,…,sk]:
(T,s)=PMLM head(hmask) (3)
其中T代表候选触发词集合,k表示集合内元素的个数,ti表示第i个候选触发词;s表示候选触发词得分集合,si表示第i个候选触发词ti的得分,触发词的得分在集合s降序排列;PMLM head是一个预训练的带有Dropout和Layer Normalization的两层非线性分类器,其输出维度对应预训练掩码语言模型词库;候选触发词的得分为PMLM head在对应词库单词上的概率;值得注意的是s中元素的和小于1,然后通过下面的方式进行归一化:
然后将T中的候选触发词填入[MASK],可以得到k个候选句子;不同的候选句子除了触发词不同,其他的单词都相同;在填入之前,本发明通过xi∈T是否成立来初步判断生成触发词集合T的质量,这里xi表示被掩码之前的触发词;如果不成立,本发明认为T的质量不可靠,进而放弃进行触发词增强;
考虑到触发词通常是句子中的核心词,并且在预训练语言模型巨大的词库范围下将有很多可选的单词;为了帮助预训练掩码语言模型正确理解掩码后的句子,生成合适的候选触发词,本发明将当前句子x的前一和后一句子作为提示加入到x′中以丰富当前句子的语义,增强后的x′形式如下:
x′=[Sent1,[SEP],x1,…,[MASK],…,xn,[SEP],Sent2] (5)
这里Sent1和Sent2分别表示当前句子x的前一和后一句子,[SEP]是用来区分不同句子的特殊符号;如果当前句子是文档的第一个句子,则添加后面两句,如果是最后一句,则添加前面两句;
为了进一步帮助预训练掩码语言模型理解掩码后的句子,x′只包含一个[MASK]单词,尽管x可能包含多个触发词;为了解决这个问题,本发明每次只掩码一个触发词并且获得候选的触发词集合和得分,最终通过笛卡尔积获取多个触发词的候选序列和其对应的得分,序列的得分是序列里每个触发词得分的乘积;因此,如果一个句子包含q个触发词,理论上最多可以获得kq个候选句子。
3.根据权利要求1所述一种基于触发词增强的标签信号指导事件检测方法,其特征在于,步骤(2)具体包括:
(201)标签信号指导的分类机制
考虑到一个事件类型包含一个或多个事件子类型,本发明设计一种标签信号指导的分类机制,首先进行事件类型分类,然后进行事件子类型分类;具体地,根据预定义的事件模式,有一个事件类型集合C和事件子类型集合Y;总体的目标是预测句子x中定义的所有事件集合εx,旨在最大化下面的似然函数:
其中D表示所有的训练语料,x表示训练语料中的句子,εx表示句子x中定义的所有事件,Tx表示句子x中的触发词集合,t表示触发词集合Tx中的触发词,c表示触发词t的事件类型,y表示触发词t的事件子类型;事件类型分类结果作为信号来指导事件子类型分类;分类机制是一个高度为3的树,根节点为触发词,第二层和第三层分别代表事件类型和子类型,第二层节点的孩子节点即为其包含的事件子类型,边上的权重为触发词在对应事件类型和子类型上的分类概率;在分类过程中,基于边的权重以深度优先搜索,Depth Search First,DFS,选择一条从根到叶子节点的路径,确定触发词对应的事件类型和子类型;
为了控制触发词增强中的噪声,本发明在选择路径进行DFS时,不是仅选择一条路径,而是选择多条路径,从每个节点出发时,根据边的权重选择m条路径,考虑树高为3,因此总的路径数为m2,最终通过路径上边的权重乘积的最大值确定事件类型和子类型;相较于仅根据一条路径进行贪心搜索,选择多条路径进行搜索可以避免局部最优的情况,即使事件类型的分类结果错误,最终仍有可能通过多次搜索获取正确结果;具体到事件类型和子类型分类过程中,即为在信号传递过程中不是仅将事件类型分类概率分布的最大值对应的事件类型作为信号,而是选择前m大结果,依次进行多次搜索,以控制触发词增强过程中的噪声,从而使得分类结果最优;
(202)事件类型-子类型指导分类网络
根据上面的分类机制,本发明设计一个事件类型-子类型指导分类网络,包括事件类型和子类型分类;事件类型和子类型分类的思想类似,不同的是事件类型分类在候选句子上进行训练,进而通过预测得到事件类型结果,事件子类型分类根据事件类型分类结果在原句子上进行训练,进而得到事件子类型分类结果;假定原句子x经过触发词增强后获得z个候选句子其中z≤kq,q是句子x中的触发词数量;然后将x和/>送入预训练掩码语言模型获取句子中单词的表示:
H=PMLM(x) (7)
其中PMLM表示预训练掩码语言模型,和公式2中的PMLM相同,二者共享权重,H表示原句子x中单词的词嵌入,表示候选句子/>中单词的词嵌入;接下来/>作为事件类型分类的输入获得事件类型结果/>
其中ETC表示事件类型分类,是一个两层的带有Dropout和Layer Normalization的非线性分类器,分类器的输出维度大小为事件类型的个数;此外,通过公式(3)和(4)可以得到候选句子的得分s;接下来通过加权求和得到加权的事件类型分类结果:
其中表示加权后的事件类型分类结果,Softmax表示归一化函数;然后由/>的前m大概率v和对应标签l组成信号来指导事件子类型分类:
其中ESC表示事件子类型分类,共包含|C|个分类器,每个都是带有Dropout和LayerNormalization的两层非线性分类器;|C|表示事件类型集合元素的个数,表示根据li的值选择第li个分类器,vi表示第i个信号对应的概率值,li表示第i个信号对应的事件类型标签,Softmax表示归一化函数,/>表示事件类型和子类型分类概率的乘积,max表示取集合中的最大值,y表示x中单词的最终事件子类型标签。
4.根据权利要求1所述一种基于触发词增强的标签信号指导事件检测方法,其特征在于,步骤(3)具体包括:
本发明提出句子语义一致性机制,以进一步保证生成触发词的质量;考虑到候选句子和原句子只有触发词不同,因此本发明尝试让原句子和生成候选句子的语义尽可能相似;在本发明中,使用Hcls和的均方误差损失作为监督目标加入到最终优化的损失函数中:
其中Ls表示原句子和候选句子的均方误差损失,Hcls和分别表示原句子和候选句子中第一个单词[CLS]经过预训练掩码语言模型编码后的表示,本发明将其作为各自句子的语义表示,|Hcls|表示Hcls的维度大小,Hcls,i和/>分别表示Hcls和/>中的第i个元素;
为了优化模型,联合训练采用如下的损失函数:
L=LETC+αLESc+βLs (13)
其中L表示最终的损失,LErC和LESC分别表示事件类型和子类型分类的损失,其中LETC表示真实事件类型标签和预测之间的交叉熵损失,LESC表示真实事件子类型标签和预测之间的交叉熵损失,α和β表示权衡参数;值得注意的是,在ESC分类阶段,H会根据l计算m次前向传播,但LESC只会在li等于H中触发词的真实事件类型时才计算损失,如果真实的事件类型不在信号中,此时ESC将会被剪枝。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310399435.7A CN116795979A (zh) | 2023-04-14 | 2023-04-14 | 一种基于触发词增强的标签信号指导事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310399435.7A CN116795979A (zh) | 2023-04-14 | 2023-04-14 | 一种基于触发词增强的标签信号指导事件检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116795979A true CN116795979A (zh) | 2023-09-22 |
Family
ID=88041136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310399435.7A Pending CN116795979A (zh) | 2023-04-14 | 2023-04-14 | 一种基于触发词增强的标签信号指导事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795979A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171653A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
-
2023
- 2023-04-14 CN CN202310399435.7A patent/CN116795979A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171653A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
CN117171653B (zh) * | 2023-11-02 | 2024-01-23 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arora et al. | Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis | |
Malik et al. | Deep learning for hate speech detection: a comparative study | |
Alqaisi et al. | Extractive multi-document Arabic text summarization using evolutionary multi-objective optimization with K-medoid clustering | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
CN110209818B (zh) | 一种面向语义敏感词句的分析方法 | |
Duong et al. | An unsupervised method for OCR post-correction and spelling normalisation for Finnish | |
Hossain et al. | Authorship classification in a resource constraint language using convolutional neural networks | |
Parde et al. | Exploring the terrain of metaphor novelty: A regression-based approach for automatically scoring metaphors | |
CN116795979A (zh) | 一种基于触发词增强的标签信号指导事件检测方法 | |
Garcia et al. | Fakerecogna: A new brazilian corpus for fake news detection | |
Anjum et al. | Exploring humor in natural language processing: a comprehensive review of JOKER tasks at CLEF symposium 2023 | |
Manikandan et al. | A system for detecting abusive contents against lgbt community using deep learning based transformer models | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
Balouchzahi et al. | LA-SACo: A study of learning approaches for sentiments analysis inCode-mixing texts | |
Ziani et al. | Combining RSS-SVM with genetic algorithm for Arabic opinions analysis | |
Saifullah et al. | Cyberbullying Text Identification based on Deep Learning and Transformer-based Language Models | |
Sharma et al. | Bits2020@ Dravidian-CodeMix-FIRE2020: Sub-Word Level Sentiment Analysis of Dravidian Code Mixed Data. | |
CN114970557A (zh) | 基于知识增强的跨语言结构化情感分析方法 | |
CN114548117A (zh) | 一种基于bert语义增强的因果关系抽取方法 | |
Wijanarko et al. | Automated question generating method based on derived keyphrase structures from bloom’s taxonomy | |
Nigusie et al. | Lexical complexity detection and simplification in amharic text using machine learning approach | |
Corizzo et al. | One-GPT: A One-Class Deep Fusion Model for Machine-Generated Text Detection | |
Gandhi12 et al. | Transfer learning for aspect term polarity determination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |