CN115982339A - 突发事件抽取方法、系统、介质、电子设备 - Google Patents
突发事件抽取方法、系统、介质、电子设备 Download PDFInfo
- Publication number
- CN115982339A CN115982339A CN202310246023.XA CN202310246023A CN115982339A CN 115982339 A CN115982339 A CN 115982339A CN 202310246023 A CN202310246023 A CN 202310246023A CN 115982339 A CN115982339 A CN 115982339A
- Authority
- CN
- China
- Prior art keywords
- argument
- extraction
- text
- extracted
- trigger word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 104
- 230000006870 function Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种突发事件抽取方法、系统、介质、电子设备,所述方法包括以下步骤:获取包含突发事件的待抽取文本;提取所述待抽取文本中的触发词和事件类别;当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元;对所述第一论元和所述第二论元进行融合。本发明的突发事件抽取方法、系统、介质、电子设备基于管道式抽取方式,在步骤中融入触发词信息,从而有效提高了突发事件任务抽取的有效性。
Description
技术领域
本发明涉及事件抽取的技术领域,特别是涉及一种突发事件抽取方法、系统、介质、电子设备。
背景技术
事件抽取指的是从自然语言文本中抽取出用户感兴趣的事件信息,并且以结构化的形式呈现出来。较为权威的数据集ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要相关信息包括:事件的类型和子类型、事件元素角色等。
现有技术中事件抽取方式主要包括以下几种。
(1)模式匹配,根据语言的模式、设计模板,将待抽取的句子和已有的模板进行匹配。常见的方法有,基于语法树或者正则表达式。
(2)基于机器学习的方法,其中将事件抽取问题转化为分类问题,采用常见的分类算法如svm实现,需要人工设计语言特征。该方法主要有以下两种实现方式。
a)基于管道式/流水线式(pipeline),将任务转化为多阶段分类任务。完整的事件抽取有如下步骤:步骤1、事件触发词分类,即判断一个词是否出发了事件,并对事件进行分类;步骤2、元素分类,判断词组是否是构成该事件的元素;步骤3、元素角色分类,判断上一步中构成事件的元素是哪种元角色;步骤4、判断事件的属性;步骤5、判断事件的可报告性。
b)基于联合建模式(joint modeling),将任务转化为依存树结构的预测问题,把触发词提取和元素提取联合在一个端到端的模型中。其中,设计联合学习的深度学习网络,如JRNN网络,采用端到端的设计网络的形式,减少每一个步骤的错误,并让网络学习到全局的信息。
(3)基于深度学习的方法,其主要实现框架与机器学习的方法相同。但是深度学习可以自动地抽取文本特征,不需要额外的特征设计。目前基于深度学习的事件抽取方法逐渐成为研究热点。
在实际使用中,突发事件抽取场景较为收敛。公开事件抽取语料较为学术。面对实际的突发事件业务场景,针对突发事件的抽取由于缺乏实际业务语料,难以在公开平台找到与本次任务完全一致的现有技术描述。针对公开事件的抽取方案,单纯的基于分类的管道式抽取方式步骤冗长,导致错误传导;而联合抽取方式对于中间过程不可控,基于业务的实际调整较为困难。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种突发事件抽取方法、系统、介质、电子设备,基于管道式抽取方式,在步骤中融入触发词信息,从而有效提高了突发事件任务抽取的有效性。
第一方面,本发明提供一种突发事件抽取方法,所述方法包括以下步骤:获取包含突发事件的待抽取文本;提取所述待抽取文本中的触发词和事件类别;当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元;对所述第一论元和所述第二论元进行融合。
在第一方面的一种实现方式中,提取所述待抽取文本中的触发词和事件类别包括以下步骤:
训练用于提取触发词和事件类别的触发词识别和事件类别识别联合模型,所述触发词识别和事件类别识别联合模型的损失为触发词提取损失和所述事件类别提取损失之和;
将所述待抽取文本输入训练好的触发词识别和事件类别识别联合模型,以获取所述触发词和所述事件类别。
在第一方面的一种实现方式中,基于所述触发词提取所述待抽取文本的第一论元包括以下步骤:
构建基于触发词的论元提取模型,所述基于触发词的论元提取模型包括依次连接的BERT模型、所述触发词的位置信息层、基于所述触发词的条件Layer Normalization层和抽取层;
将所述待抽取文本输入所述基于触发词的论元提取模型,以获取所述第一论元。
在第一方面的一种实现方式中,所述触发词的位置信息层中,根据距离触发词的距离设定一位置向量,并将所述位置向量映射到一个维度与所述BERT模型的输出级联。
在第一方面的一种实现方式中,所述基于所述触发词的条件LayerNormalization层中,对所述触发词的向量进行线性映射后代替Layer Normalization层中的gamma和beta。
在第一方面的一种实现方式中,基于所述事件类别提取所述待抽取文本的第二论元包括以下步骤:
构建基于事件类别的论元提取模型,所述基于事件类别的论元提取模型包括MRC问答式信息抽取框架、BERT模型和抽取层;
将所述待抽取文本输入所述基于事件类别的论元提取模型,以获取所述第二论元。
在第一方面的一种实现方式中,对所述第一论元和所述第二论元进行融合包括以下步骤:
采用softmax函数对所述第一论元进行转化,获取所述第一论元的第一置信分数;
采用softmax函数对所述第二论元进行转化,获取所述第二论元的第二置信分数;
判断所述第一置信分数和所述第二置信分数是否大于预设阈值;若是,保留对应的论元;
判断所述第一论元和所述第二论元是否同时提取事件触发词和论元组合;若是,保留对应的论元;
将保留的第一论元和第二论元合并。
第二方面,本发明提供一种突发事件抽取系统,所述系统包括获取模块、第一提取模块、第二提取模块和融合模块;
所述获取模块用于获取包含突发事件的待抽取文本;
所述第一提取模块用于提取所述待抽取文本中的触发词和事件类别;
所述第二提取模块用于当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元;
所述融合模块用于对所述第一论元和所述第二论元进行融合。
第三方面,本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的突发事件抽取方法。
第四方面,本发明提供一种电子设备,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的突发事件抽取方法。
如上所述,本发明的突发事件抽取方法、系统、介质、电子设备,具有以下有益效果。
(1)基于管道式抽取方式,在步骤中融入触发词信息,从而有效提高了突发事件任务抽取的有效性。
(2)能够充分利用事件信息,减少误判和漏判,提高事件抽取任务的抽取效果。
(3)采用基于事件类型的论元提取模型和基于触发词信息的论元提取模型,并在模型结构上融入了事件类别和触发词信息,增强了模型的可解释性。
附图说明
图1显示为本发明的突发事件抽取方法于一实施例中的流程图。
图2显示为本发明的触发词识别和事件类别识别联合模型于一实施例中的结构示意图。
图3显示为本发明的基于触发词的论元提取模型于一实施例中的结构示意图。
图4显示为本发明的基于事件类别的论元提取模型于另一实施例中的结构示意图。
图5显示为本发明的突发事件抽取系统于一实施例中的结构示意图。
图6显示为本发明的电子设备于一实施例中的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明以下实施例提供了一种突发事件抽取方法,其可应用于电子设备。本发明中所述电子设备可以包括具备无线充电功能的手机、平板电脑、笔记本电脑、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等,本申请实施例对终端的具体类型不作任何限制。
例如,所述电子设备可以是具备无线充电功能的WLAN中的站点(STAION,ST),可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理 (Personal Digital Assistant,PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统,例如,5G 网络中的移动终端、未来演进的公共陆地移动网络 (PublicLand Mobile Network,PLMN)中的移动终端或者未来演进的非地面网络(Non-terrestrial Network,NTN)中的移动终端等。
例如,所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统 (GlobalSystem of Mobilecommunication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service,SMS)、BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System,GPS),全球导航卫星系统 (GlobalNavigation Satellite System,GLONASS),北斗卫星导航系统(BeiDou navigationSatellite System,BDS),准天顶卫星系统(Quasi-Zenith Satellite System,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细描述。
如图1所示,于一实施例中,本发明的突发事件抽取方法包括以下步骤。
步骤S1、获取包含突发事件的待抽取文本。
具体地,所述待抽取文本可以从网络下载获取,也可以是本地存储的电子文本,其中包含有突发事件。
步骤S2、提取所述待抽取文本中的触发词和事件类别。
具体地,本发明通过基于神经网络的触发词识别和事件类别识别联合模型来进行所述待抽取文本中的触发词和事件类别的抽取。
于一实施例中,提取所述待抽取文本中的触发词和事件类别包括以下步骤。
21)训练用于提取触发词和事件类别的触发词识别和事件类别识别联合模型,所述触发词识别和事件类别识别联合模型的损失为触发词提取损失和所述事件类别提取损失之和。
其中,如图2所示,所述触发词识别和事件类别识别联合模型包括BERT模型。文本经过所述BERT模型之后拆为两个分支,一个分支用于提取触发词,一个分支用于提取事件类别。在模型训练阶段,文本进入BERT模型之后,隐层通过span式的序列抽取层抽取触发词,[CLS]取出后通过池化层pooling和线性层linear进行事件类别抽取。所述触发词识别和事件类别识别联合模型的损失为触发词提取损失和所述事件类别提取损失之和,从而实现事件类别和触发词抽取,且两个抽取任务会互相影响,事件类别提取的时候也融入了触发词信息。在模型预测阶段,须同时提取到触发词和对应的事件类别,否则文本就被抛弃。
22)将所述待抽取文本输入训练好的触发词识别和事件类别识别联合模型,以获取所述触发词和所述事件类别。
其中,在所述触发词识别和事件类别识别联合模型训练完毕后,将所述待抽取文本输入训练好的触发词识别和事件类别识别联合模型,即可输出所述待抽取文本中的触发词和事件类别。
步骤S3、当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元。
具体地,论元是指带有论元角色的体词性成分,而论元角色是由谓词根据其与相关的名词短语之间语义关系而指派给这些名词短语的语义角色,即与动词连用的论元在与动词所表示的动作或状态里扮演的语义角色。跟谓词搭配的名词称为论元。每个动词都有自己的论元结构,规定哪些论元是必需的,哪些是任选的,还规定论元在句子的语法功能(如主语、宾语等)以及论元与动词的语义关系(如施事、受事等)。简单来说,在语言学中,论元就是指一个句子中带有名词性的词。比如,Children like sweets.这是一个two-placepredication,也就是含有两个论元(argument),即CHILDREN,SWEET。
于一实施例中,基于所述触发词提取所述待抽取文本的第一论元包括以下步骤。
311)构建基于触发词的论元提取模型,所述基于触发词的论元提取模型包括依次连接的BERT模型、所述触发词的位置信息层、基于所述触发词的条件Layer Normalization层和抽取层。
如图3所示,触发词通过两个方式进行融入:一个是利用触发词位置信息和BERT模型级联,一个是利用conditional layer normalization层融入触发词信息。其中,所述触发词的位置信息层中,根据距离触发词的距离设定一位置向量。其中离触发词越远给一个越大的位置向量,触发词本身的位置向量为0,距离加一步长加一。然后该位置向量embedding映射到一个维度和BERT模型输出的hidden级联。conditional layernormnormalization是在layer normalization的基础上进行改变。具体地,将触发词的相连tensor取出来,做一个linear映射,代替layer normalization层原本的gamma和beta。所述抽取层是span的抽取方式。
312)将所述待抽取文本输入所述基于触发词的论元提取模型,以获取所述第一论元。
于一实施例中,基于所述事件类别提取所述待抽取文本的第二论元包括以下步骤。
321)构建基于事件类别的论元提取模型,所述基于事件类别的论元提取模型包括MRC问答式信息抽取框架、BERT模型和抽取层。
如图4所示,MRC问答式信息抽取框架中,问题是结合了事件和论元类别的问题。比如:该火灾类别的火灾发生地点是哪里?在[SEP]之后拼接源文本,抽取层是span的抽取形式,抽取出论元的开始位置和结束位置。
322)将所述待抽取文本输入所述基于事件类别的论元提取模型,以获取所述第二论元。
步骤S4、对所述第一论元和所述第二论元进行融合。
具体地,对所述第一论元和所述第二论元进行融合包括以下步骤。
41)采用softmax函数对所述第一论元进行转化,获取所述第一论元的第一置信分数。
42)采用softmax函数对所述第二论元进行转化,获取所述第二论元的第二置信分数。
43)判断所述第一置信分数和所述第二置信分数是否大于预设阈值;若是,保留对应的论元。
44)判断所述第一论元和所述第二论元是否同时提取事件触发词和论元组合;若是,保留对应的论元。
45)将保留的第一论元和第二论元合并。
本发明实施例所述的突发事件抽取方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明实施例还提供一种突发事件抽取系统,所述突发事件抽取系统可以实现本发明所述的突发事件抽取方法,但本发明所述的突发事件抽取系统的实现装置包括但不限于本实施例列举的突发事件抽取系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
如图5所示,于一实施例中,本发明的突发事件抽取系统包括获取模块51、第一提取模块52、第二提取模块53和融合模块54。
所述获取模块51用于获取包含突发事件的待抽取文本。
所述第一提取模块52与所述获取模块51相连,用于提取所述待抽取文本中的触发词和事件类别。
所述第二提取模块53与所述第一提取模块52相连,用于当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元。
所述融合模块54与所述第二提取模块53相连,用于对所述第一论元和所述第二论元进行融合。
其中,获取模块51、第一提取模块52、第二提取模块53和融合模块54的结构和原理与上述突发事件抽取方法中的步骤一一对应,故在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明实施例的目的。例如,在本发明各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的突发事件抽取方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
本发明实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。
所述存储器用于存储计算机程序。
所述存储器包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的突发事件抽取方法。
优选地,所述处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图6所示,本发明的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元61,存储器62,连接不同系统组件(包括存储器62和处理单元61)的总线63。
总线63表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器62可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)621和/或高速缓存存储器622。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统623可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM ,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线63相连。存储器62可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块6241的程序/实用工具624,可以存储在例如存储器62中,这样的程序模块6241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6241通常执行本发明所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口64进行。并且,电子设备还可以通过网络适配器65与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器65通过总线63与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种突发事件抽取方法,其特征在于:所述方法包括以下步骤:
获取包含突发事件的待抽取文本;
提取所述待抽取文本中的触发词和事件类别;
当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元;
对所述第一论元和所述第二论元进行融合。
2.根据权利要求1所述的突发事件抽取方法,其特征在于:提取所述待抽取文本中的触发词和事件类别包括以下步骤:
训练用于提取触发词和事件类别的触发词识别和事件类别识别联合模型,所述触发词识别和事件类别识别联合模型的损失为触发词提取损失和所述事件类别提取损失之和;
将所述待抽取文本输入训练好的触发词识别和事件类别识别联合模型,以获取所述触发词和所述事件类别。
3.根据权利要求1所述的突发事件抽取方法,其特征在于:基于所述触发词提取所述待抽取文本的第一论元包括以下步骤:
构建基于触发词的论元提取模型,所述基于触发词的论元提取模型包括依次连接的BERT模型、所述触发词的位置信息层、基于所述触发词的条件Layer Normalization层和抽取层;
将所述待抽取文本输入所述基于触发词的论元提取模型,以获取所述第一论元。
4.根据权利要求3所述的突发事件抽取方法,其特征在于:所述触发词的位置信息层中,根据距离触发词的距离设定一位置向量,并将所述位置向量映射到一个维度与所述BERT模型的输出级联。
5.根据权利要求3所述的突发事件抽取方法,其特征在于:所述基于所述触发词的条件Layer Normalization层中,对所述触发词的向量进行线性映射后代替LayerNormalization层中的gamma和beta。
6.根据权利要求1所述的突发事件抽取方法,其特征在于:基于所述事件类别提取所述待抽取文本的第二论元包括以下步骤:
构建基于事件类别的论元提取模型,所述基于事件类别的论元提取模型包括MRC问答式信息抽取框架、BERT模型和抽取层;
将所述待抽取文本输入所述基于事件类别的论元提取模型,以获取所述第二论元。
7.根据权利要求1所述的突发事件抽取方法,其特征在于:对所述第一论元和所述第二论元进行融合包括以下步骤:
采用softmax函数对所述第一论元进行转化,获取所述第一论元的第一置信分数;
采用softmax函数对所述第二论元进行转化,获取所述第二论元的第二置信分数;
判断所述第一置信分数和所述第二置信分数是否大于预设阈值;若是,保留对应的论元;
判断所述第一论元和所述第二论元是否同时提取事件触发词和论元组合;若是,保留对应的论元;
将保留的第一论元和第二论元合并。
8.一种突发事件抽取系统,其特征在于:所述系统包括获取模块、第一提取模块、第二提取模块和融合模块;
所述获取模块用于获取包含突发事件的待抽取文本;
所述第一提取模块用于提取所述待抽取文本中的触发词和事件类别;
所述第二提取模块用于当同时提取到所述触发词和所述事件类别时,基于所述触发词提取所述待抽取文本的第一论元,基于所述事件类别提取所述待抽取文本的第二论元;
所述融合模块用于对所述第一论元和所述第二论元进行融合。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的突发事件抽取方法。
10.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至7中任一项所述的突发事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310246023.XA CN115982339A (zh) | 2023-03-15 | 2023-03-15 | 突发事件抽取方法、系统、介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310246023.XA CN115982339A (zh) | 2023-03-15 | 2023-03-15 | 突发事件抽取方法、系统、介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982339A true CN115982339A (zh) | 2023-04-18 |
Family
ID=85964676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310246023.XA Pending CN115982339A (zh) | 2023-03-15 | 2023-03-15 | 突发事件抽取方法、系统、介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982339A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN113535963A (zh) * | 2021-09-13 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
US20210365306A1 (en) * | 2020-05-21 | 2021-11-25 | International Business Machines Corporation | Unsupervised event extraction |
CN114036276A (zh) * | 2021-11-09 | 2022-02-11 | 建信金融科技有限责任公司 | 一种信息抽取方法、装置、设备及存储介质 |
CN114328838A (zh) * | 2021-12-31 | 2022-04-12 | 北京小米移动软件有限公司 | 事件抽取方法、装置、电子设备及可读存储介质 |
CN115587591A (zh) * | 2022-10-31 | 2023-01-10 | 电子科技大学 | 一种基于mrc的事件抽取方法 |
-
2023
- 2023-03-15 CN CN202310246023.XA patent/CN115982339A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
US20210365306A1 (en) * | 2020-05-21 | 2021-11-25 | International Business Machines Corporation | Unsupervised event extraction |
CN113535963A (zh) * | 2021-09-13 | 2021-10-22 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
CN114036276A (zh) * | 2021-11-09 | 2022-02-11 | 建信金融科技有限责任公司 | 一种信息抽取方法、装置、设备及存储介质 |
CN114328838A (zh) * | 2021-12-31 | 2022-04-12 | 北京小米移动软件有限公司 | 事件抽取方法、装置、电子设备及可读存储介质 |
CN115587591A (zh) * | 2022-10-31 | 2023-01-10 | 电子科技大学 | 一种基于mrc的事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
朱晨光: "机器阅读理解:算法与实践", 机械工业出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107210035B (zh) | 语言理解系统和方法的生成 | |
CN108460011B (zh) | 一种实体概念标注方法及系统 | |
US20180225306A1 (en) | Method and system to recommend images in a social application | |
US10579835B1 (en) | Semantic pre-processing of natural language input in a virtual personal assistant | |
WO2020232943A1 (zh) | 用于事件预测的知识图构建方法与事件预测方法 | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
US10223349B2 (en) | Inducing and applying a subject-targeted context free grammar | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
US12034683B2 (en) | Emoji recommendation system and method | |
CN108932218A (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN111309305A (zh) | 面向智能合约的代码自动推荐方法、系统、计算机设备和存储介质 | |
CN113326702A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN113761923A (zh) | 命名实体识别方法、装置、电子设备及存储介质 | |
CN115687563A (zh) | 一种可解释的智能判决方法、装置、电子设备及存储介质 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN112581297A (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
US10984191B2 (en) | Experiential parser | |
CN115982339A (zh) | 突发事件抽取方法、系统、介质、电子设备 | |
WO2022227166A1 (zh) | 词语替换方法、装置、电子设备和存储介质 | |
Behera | An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia. | |
US11531811B2 (en) | Method and system for extracting keywords from text | |
CN105975610A (zh) | 场景识别方法及装置 | |
Mehta et al. | A survey on part-of-speech tagging of Indian languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230418 |