CN110555440A - 一种事件抽取方法及装置 - Google Patents
一种事件抽取方法及装置 Download PDFInfo
- Publication number
- CN110555440A CN110555440A CN201910854965.XA CN201910854965A CN110555440A CN 110555440 A CN110555440 A CN 110555440A CN 201910854965 A CN201910854965 A CN 201910854965A CN 110555440 A CN110555440 A CN 110555440A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- argument
- processed
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 235000013601 eggs Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种事件抽取方法及装置,其中所述事件抽取方法包括:获取待处理文本;对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;对所述待处理文本进行文本识别,获取对应的第一结合信息;对所述待处理文本进行分句处理,获取对应的第二结合信息;对所述待处理文本进行分段处理,获取对应的第三结合信息;根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
Description
技术领域
本申请涉互联网技术领域,特别涉及一种事件抽取方法及装置、计算设备和计算机可读存储介质。
背景技术
随着互联网技术的快速发展,用户每天从网上获取到的信息也呈爆炸式的增长。
目前,用户每天需要大量的时间和精力从海量的资讯、新闻、文章中查找自己需要的信息,极大的消耗了用户的精力。
那么,如何快速、准确的从海量信息中获取用户所要关注的信息就成了亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种事件抽取方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种事件抽取方法,包括:
获取待处理文本;
对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;
对所述待处理文本进行文本识别,获取对应的第一结合信息;
对所述待处理文本进行分句处理,获取对应的第二结合信息;
对所述待处理文本进行分段处理,获取对应的第三结合信息;
根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
根据本申请实施例的第二方面,提供了一种事件抽取装置,包括:
获取模块,被配置为获取待处理文本;
主题识别模块,被配置为对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;
文本识别模块,被配置为对所述待处理文本进行文本识别,获取对应的第一结合信息;
分句模块,被配置为对所述待处理文本进行分句处理,获取对应的第二结合信息;
分段模块,被配置为对所述待处理文本进行分段处理,获取对应的第三结合信息;
事件抽取模块,被配置为根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述事件抽取方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述事件抽取方法的步骤。
本申请提供的事件抽取方法,获取待处理文本;对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;对所述待处理文本进行文本识别,获取对应的第一结合信息;对所述待处理文本进行分句处理,获取对应的第二结合信息;对所述待处理文本进行分段处理,获取对应的第三结合信息;根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合,快速、准确、简洁的从海量繁琐的新闻、资讯、文章中获取关键信息,可以让用户更便捷的了解本文信息,节省了用户的时间和精力,极大的提高了效率。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的事件抽取方法的流程图;
图3是本申请另一实施例提供的事件抽取方法的流程图;
图4是本申请另一实施例提供的事件抽取方法的流程图;
图5是本申请另一实施例提供的事件抽取方法的流程图;
图6是本申请实施例提供的事件抽取装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
事件:是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
触发词:表示事件发生的核心词,多为动词或名词。
论元:事件的参与者,主要由实体、值、时间组成
事件抽取:就是把事件信息从非结构化的文本中抽取出来,并以结构化的形式呈现出来,事件抽取任务核心要解决的问题是从非结构化、半结构化、结构化的文本中抽取信息。
XPath:即为XML路径语言(XMLPathLanguage),它是一种用来确定XML文档中某部分位置的语言。
在本申请中,提供了一种事件抽取方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示事件抽取方法中的步骤。图2示出了根据本申请一实施例的事件抽取方法的流程图,包括步骤202至步骤212。
步骤202:获取待处理文本。
当需要对文章、新闻、资讯等文本进行事件抽取操作的时候,需要首先获取待处理的内容,待处理的内容就是待处理文本,本申请中的待处理文本可以是文章、新闻、资讯等,待处理的文本可以是从网络中获取的文本,也可以是预先存储到本地的文本。
步骤204:对所述待处理文本进行主题识别,获取预先存储的对应的事件模板。
对待处理文本的主题识别可以通过快速文本分类器实现,识别出待处理文本要表达的主题信息,如会议、活动通知、足球比赛等。
为不同主题配置有不同的事件模板,事件模板中有基于主题类别及主题对应的事件框架配置的相对应的抽取规则,抽取规则支持Xpath组装嵌套,其中事件模板存储在预选配置好的事件模板库中。
例如对于一个会议主题来说,对应的模板的抽取规则有对会议的时间、地点、主题、主办机构、与会人员、政府的反映及会议带来的影响等信息的抽取;
对于一个足球比赛主题,对应的模板的抽取规则有对比赛时间、比赛地点、参赛队伍、比分、进球时间、进球队员等信息的抽取。
可选的,参见图3,步骤204可以通过下述步骤302至步骤304实现。
步骤302:对所述待处理文本进行主题识别,获取待处理文本的主题类别。
基于分类算法如快速文本分类等对待处理文本进行主题识别,获取待处理文本的主题类别,如会议、活动通知、足球比赛等。
步骤304:根据所述主题类别选择与所述主题类别相对应的事件模板,其中,所述事件模板包括基于文本和与所述文本对应的事件框架信息相应配置的抽取规则。
根据主题类别,在预先存储的事件模板库中查找与主题类别对应存储的事件模板,事件模板中有基于主题类别及主题对应的事件框架配置的相对应的抽取规则,抽取规则支持Xpath组装嵌套。
步骤206:对所述待处理文本进行文本识别,获取对应的第一结合信息。
对获取的待处理文本进行文本识别和信息抽取,获取待处理文本对应的全文参考信息,全文参考信息为对待处理文本全文内容的总结概括信息,将全文参考信息作为第一结合信息,其中信息抽取可以通过隐马尔科夫模型、条件随机场等模型实现。
步骤208:对所述待处理文本进行分句处理,获取对应的第二结合信息。
可选的,参见图4,步骤208可以通过下述步骤402至步骤410实现。
步骤402:对所述待处理文本进行分句处理,获取对应的句子集合。
对待处理的文本进行分句处理,可以通过查找待处理文本中的指定分隔符的方法实现对待处理文本的分句处理,将待处理的文本拆分为句子集合。
步骤404:获取所述句子集合中包含事件触发词的目标句子,所述事件触发词预先存储在触发词集合中。
判断句子中是否包含有预先存储的触发词,触发词也称事件关键词,出现触发词时句子中含有事件的概率非常高,如:“发生”、“研制”、“生产”、“举行”、“举办”、“开幕”等,将含有事件触发词的句子作为目标句子,例如:
“周杰伦将于2010年6月11日在台北小巨蛋举办超时代演唱会”中包含触发词“举办”,则这句话为目标句子;
“今天天气不错”这句话中没有包含触发词,则不作为目标句子。
步骤406:将所述目标句子输入到预先训练的识别模型中,所述识别模型被训练于根据输入的句子提取句子级论元。
将获取的目标句子输入到预先训练的识别模型中,所述识别模型可以根据输入的句子提取句子中的论元。
其中,所述识别模型经以下步骤训练生成,包括:
获取样本数据以及每个样本数据对应的样本标签,所述样本数据为句子,所述样本标签为句子对应的句子级论元;
生成识别模型,所述识别模型使所述样本数据与所述样本标签相关;
储存所述识别模型。
步骤408:所述识别模型响应于输入的所述目标句子生成与所述目标句子对应的句子级论元,目标句子与所述目标句子对应的句子级论元组成第二结合信息单元。
识别模型根据输入的目标句子获取所述目标句子对应的句子级论元,将目标句子和所述目标句子对应的句子级论元组成第二结合信息单元,例如:
识别模型根据输入的“周杰伦将于2010年6月11日在台北小巨蛋举办超时代演唱会”识别出这一目标句子对应的句子级论元为“周杰伦”、“2010年6月11日”、“台北小巨蛋”、“超时代演唱会”,将句子和句子级论元作为第二结合信息单元。
步骤410:获取由至少一个第二结合信息单元组成的第二结合信息。
当所有目标句子输入识别完毕后,将获得的第二结合信息单元组成第二结合信息,获取第二集合信息。
步骤210:对所述待处理文本进行分段处理,获取对应的第三结合信息。
可选的,参见图5,步骤210可以通过下述步骤502至步骤506实现。
步骤502:对所述待处理文本进行分段处理,获取对应的段落集合。
将待处理的文本进行分段处理,可以通过查找待处理文本中的指定分隔符的方法实现对待处理文本的分段处理,将文本待处理的文本拆分为段落集合。
步骤504:根据所述段落集合、所述第二结合信息和所述事件模板对所述段落集合中的目标段落进行事件抽取,获取对应的段落级论元,所述目标段落与对应的段落级论元组成第三结合信息单元。
在对段落集合中的所有段落进行事件抽取时,当前被处理的段落为目标段落,其他段落为被处理段落的参考段落,例如一个段落集合中包含五个段落,在对第一个段落进行事件抽取时,第一个段落为目标段落,第二、三、四、五个段落为第一个段落的参考段落;在对第二个段落进行事件抽取时,第二个段落为目标段落,第一、三、四、五个段落为第二个段落的参考段落,以此类推。
在对目标段落进行事件抽取时,可以通过如下方式实现:
通过事件模板中的抽取规则对目标段落中的句子对应的句子级论元进行抽取,获取目标段落对应的段落级子论元;
将参考段落的句子中与目标段落信息相关的句子级论元补充到目标段落的段落级子论元中,从而获取目标段落对应的段落级论元;
将目标段落与对应的段落级论元组成第三结合信息单元。
步骤506:获取由至少一个第三结合信息单元组成的第三结合信息。
在对所有的段落完成事件抽取后,将获取到的第三结合信息单元组成第三结合信息,获取第三集合信息。
步骤212:根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
在对待处理文本进行事件抽取时,可以通过如下方式实现:
获取第二集合信息中的第二结合信息单元和第三结合信息中的第三结合信息单元;
结合待处理文本的主题与第一结合信息中的全文参考信息,通过事件模板中的抽取规则对第二结合信息单元中的句子级论元和第三结合信息单元中的段落级论元进行抽取,从而获取待处理文本对应的篇章级论元。
根据全文参考信息对获取的句子级论元、段落级论元和篇章级论元进行归类,保留与全文参考信息相关的论元,获取待处理文本的核心论元集合。
上述对句子级论元、段落级论元、篇章级论元的获取方式只是众多获取方式中的一种,在本申请中不对获取方式做具体限定。
在本申请另一实施例提供的事件抽取方法中,在步骤212之后,还可以包括:
对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合。
其中,目标论元为代表相同含义但有不同表达方式的论元,为了便于识别理解,将目标论元归一为同一个表述,例如:
2019年1月1日的新闻中出现的“今日”、“当天”、“2019年1月1日”等信息,其实质是相同的含义,因此将这几种信息归一为“2019年1月1日”的表述;
在一篇报道中,出现了北京、京、首都等信息,其实质都是同一个城市北京,因此将这几种表达方式归一为“北京市”的表述。
将经过归一识别处理后的核心论元集合作为待存储论元集合。
对论元的归一识别并存储,实现对论元对比标准化,有助于用户更直观的了解论元,理解待处理文本的内容,节省了时间,提高效率。
在本申请的另一个实施例中,优选的,还可以为所述待存储论元集合中的论元与预先存储的数据库建立链接关系,所述数据库用以存储论元及论元属性。
数据库中存储论元和论元属性,为从文本中提取的论元与数据识库中的论元建立链接,例如:论元为姚明,通过数据库链接到身份为中国篮协主席的姚明。
本实施例中提供的方法,有助于对论元进行丰富化,从而实现更精准的事件判别。
在本申请的另一个实施例中,还可以将所述待存储论元集合进行存储。
根据模板中预设的规则对从待处理文本中提取的论元进行合并处理,并结构化存储构成事件,便于用户更直观的了解待处理文本传递的主要信息。
本实施例提供的事件抽取方法,通过获取待处理文本;对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;对所述待处理文本进行文本识别,获取对应的第一结合信息;对所述待处理文本进行分句处理,获取对应的第二结合信息;对所述待处理文本进行分段处理,获取对应的第三结合信息;根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合,快速、准确、简洁的从海量繁琐的新闻、资讯、文章中获取关键信息,忽略冗余信息,节省了时间和精力,极大的提高了效率。
与上述方法实施例相对应,本申请还提供了事件抽取装置实施例,图6示出了本申请一个实施例的事件抽取装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取待处理文本。
主题识别模块604,被配置为对所述待处理文本进行主题识别,获取预先存储的对应的事件模板。
所述主题识别模块604,进一步被配置为对所述待处理文本进行主题识别,获取待处理文本的主题类别;根据所述主题类别选择与所述主题类别相对应的事件模板,其中,所述事件模板包括基于文本和与所述文本对应的事件框架信息相应配置的抽取规则。
文本识别模块606,被配置为对所述待处理文本进行文本识别,获取对应的第一结合信息。
分句模块608,被配置为对所述待处理文本进行分句处理,获取对应的第二结合信息。
所述分句模块608,进一步被配置为对所述待处理文本进行分句处理,获取对应的句子集合;获取所述句子集合中包含事件触发词的目标句子,所述事件触发词预先存储在触发词集合中;将所述目标句子输入到预先训练的识别模型中,所述识别模型被训练于根据输入的句子提取句子级论元;所述识别模型响应于输入的所述目标句子生成与所述目标句子对应的句子级论元,目标句子与所述目标句子对应的句子级论元组成第二结合信息单元,获取由至少一个第二结合信息单元组成的第二结合信息。
模型训练模块610,被配置为获取样本数据以及每个样本数据对应的样本标签,所述样本数据为句子,所述样本标签为句子对应的句子级论元;生成识别模型,所述识别模型使所述样本数据与所述样本标签相关;储存所述识别模型。
分段模块612,被配置为对所述待处理文本进行分段处理,获取对应的第三结合信息。
所述分段模块612,进一步被配置为对所述待处理文本进行分段处理,获取对应的段落集合;根据所述段落集合、所述第二结合信息和所述事件模板对所述段落集合中的目标段落进行事件抽取,获取对应的段落级论元,所述目标段落与对应的段落级论元组成第三结合信息单元;获取由至少一个第三结合信息单元组成的第三结合信息。
事件抽取模块614,被配置为根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
归一模块616,被配置为对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合。
所述归一模块616,进一步被配置为对所述核心论元集合中标识时间信息的论元做归一识别,获取所述论元的时间归一词条;对所述核心论元集合中标识地域信息的论元做归一识别,获取所述论元的地域归一词条。
链接模块618,被配置为为所述待存储论元集合中的论元与预先存储的数据库建立链接关系,所述数据库用以存储论元及论元属性。
存储模块620,被配置为将所述待存储论元集合进行存储。
本实施例提供的事件抽取装置,通过该装置可以快速、准确、简洁的从海量繁琐的新闻、资讯、文章中获取关键信息,忽略冗余信息,节省了时间和精力,极大的提高了效率。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的事件抽取方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述事件抽取方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述的事件抽取方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述事件抽取方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (16)
1.一种事件抽取方法,其特征在于,包括:
获取待处理文本;
对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;
对所述待处理文本进行文本识别,获取对应的第一结合信息;
对所述待处理文本进行分句处理,获取对应的第二结合信息;
对所述待处理文本进行分段处理,获取对应的第三结合信息;
根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
2.如权利要求1所述的事件抽取方法,其特征在于,
对所述待处理文本进行主题识别,获取预先存储的对应的事件模板包括:
对所述待处理文本进行主题识别,获取待处理文本的主题类别;
根据所述主题类别选择与所述主题类别相对应的事件模板,其中,所述事件模板包括基于文本和与所述文本对应的事件框架信息相应配置的抽取规则。
3.如权利要求1所述的事件抽取方法,其特征在于,
对所述待处理文本进行分句处理,获取对应的第二结合信息包括:
对所述待处理文本进行分句处理,获取对应的句子集合;
获取所述句子集合中包含事件触发词的目标句子,所述事件触发词预先存储在触发词集合中;
将所述目标句子输入到预先训练的识别模型中,所述识别模型被训练于根据输入的句子提取句子级论元;
所述识别模型响应于输入的所述目标句子生成与所述目标句子对应的句子级论元,目标句子与所述目标句子对应的句子级论元组成第二结合信息单元;
获取由至少一个第二结合信息单元组成的第二结合信息。
4.如权利要求3所述的事件抽取方法,其特征在于,
所述识别模型经以下步骤训练生成,包括:
获取样本数据以及每个样本数据对应的样本标签,所述样本数据为句子,所述样本标签为句子对应的句子级论元;
生成识别模型,所述识别模型使所述样本数据与所述样本标签相关;
储存所述识别模型。
5.如权利要求1所述的事件抽取方法,其特征在于,
对所述待处理文本进行分段处理,获取对应的第三结合信息包括:
对所述待处理文本进行分段处理,获取对应的段落集合;
根据所述段落集合、所述第二结合信息和所述事件模板对所述段落集合中的目标段落进行事件抽取,获取对应的段落级论元,所述目标段落与对应的段落级论元组成第三结合信息单元;
获取由至少一个第三结合信息单元组成的第三结合信息。
6.如权利要求1所述的事件抽取方法,其特征在于,还包括:
对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合;
为所述待存储论元集合中的论元与预先存储的数据库中的论元建立链接关系,所述数据库用以存储论元及论元属性;
将所述待存储论元集合进行存储。
7.如权利要求6所述的事件抽取方法,其特征在于,
对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合包括:
对所述核心论元集合中标识时间信息的论元做归一识别,获取所述论元的时间归一词条;
对所述核心论元集合中标识地域信息的论元做归一识别,获取所述论元的地域归一词条。
8.一种事件抽取装置,其特征在于,包括:
获取模块,被配置为获取待处理文本;
主题识别模块,被配置为对所述待处理文本进行主题识别,获取预先存储的对应的事件模板;
文本识别模块,被配置为对所述待处理文本进行文本识别,获取对应的第一结合信息;
分句模块,被配置为对所述待处理文本进行分句处理,获取对应的第二结合信息;
分段模块,被配置为对所述待处理文本进行分段处理,获取对应的第三结合信息;
事件抽取模块,被配置为根据所述事件模板、所述第一结合信息、所述第二结合信息和所述第三结合信息对所述待处理文本进行事件抽取获取对应的核心论元集合。
9.如权利要求8所述的事件抽取装置,其特征在于,
所述主题识别模块,进一步被配置为对所述待处理文本进行主题识别,获取待处理文本的主题类别;根据所述主题类别选择与所述主题类别相对应的事件模板,其中,所述事件模板包括基于文本和与所述文本对应的事件框架信息相应配置的抽取规则。
10.如权利要求8所述的事件抽取装置,其特征在于,
所述分句模块,进一步被配置为对所述待处理文本进行分句处理,获取对应的句子集合;获取所述句子集合中包含事件触发词的目标句子,所述事件触发词预先存储在触发词集合中;将所述目标句子输入到预先训练的识别模型中,所述识别模型被训练于根据输入的句子提取句子级论元;所述识别模型响应于输入的所述目标句子生成与所述目标句子对应的句子级论元,目标句子与所述目标句子对应的句子级论元组成第二结合信息单元;获取由至少一个第二结合信息单元组成的第二结合信息。
11.如权利要求10所述的事件抽取装置,其特征在于,还包括:
模型训练模块,被配置为获取样本数据以及每个样本数据对应的样本标签,所述样本数据为句子,所述样本标签为句子对应的句子级论元;生成识别模型,所述识别模型使所述样本数据与所述样本标签相关;储存所述识别模型。
12.如权利要求8所述的事件抽取装置,其特征在于,
所述分段模块,进一步被配置为对所述待处理文本进行分段处理,获取对应的段落集合;根据所述段落集合、所述第二结合信息和所述事件模板对所述段落集合中的目标段落进行事件抽取,获取对应的段落级论元,所述目标段落与对应的段落级论元组成第三结合信息单元;获取由至少一个第三结合信息单元组成的第三结合信息。
13.如权利要求8所述的事件抽取装置,其特征在于,还包括:
归一模块,被配置为对所述核心论元集合中有相同词义的目标论元做归一识别,获取待存储论元集合;
链接模块,被配置为为所述待存储论元集合中的论元与预先存储的数据库建立链接关系,所述数据库用以存储论元及论元属性;
存储模块,被配置为将所述待存储论元集合进行存储。
14.如权利要求13所述的事件抽取装置,其特征在于,
所述归一模块,进一步被配置为对所述核心论元集合中标识时间信息的论元做归一识别,获取所述论元的时间归一词条;对所述核心论元集合中标识地域信息的论元做归一识别,获取所述论元的地域归一词条。
15.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
16.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910854965.XA CN110555440B (zh) | 2019-09-10 | 2019-09-10 | 一种事件抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910854965.XA CN110555440B (zh) | 2019-09-10 | 2019-09-10 | 一种事件抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555440A true CN110555440A (zh) | 2019-12-10 |
CN110555440B CN110555440B (zh) | 2022-03-22 |
Family
ID=68739728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910854965.XA Expired - Fee Related CN110555440B (zh) | 2019-09-10 | 2019-09-10 | 一种事件抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555440B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126058A (zh) * | 2019-12-18 | 2020-05-08 | 中汇信息技术(上海)有限公司 | 文本信息自动抽取方法、装置、可读存储介质和电子设备 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
WO2021120979A1 (zh) * | 2019-12-19 | 2021-06-24 | 智慧芽信息科技(苏州)有限公司 | 生成专利概述信息的方法、装置、电子设备和介质 |
US20210200947A1 (en) * | 2020-03-20 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Event argument extraction method and apparatus and electronic device |
CN114742055A (zh) * | 2022-03-29 | 2022-07-12 | 北京感易智能科技有限公司 | 数据处理方法、装置、电子设备、介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109800284A (zh) * | 2018-12-19 | 2019-05-24 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
CN110162632A (zh) * | 2019-05-17 | 2019-08-23 | 北京百分点信息科技有限公司 | 一种新闻专题事件发现的方法 |
CN110163257A (zh) * | 2019-04-23 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 抽取结构化信息的方法、装置、设备和计算机存储介质 |
-
2019
- 2019-09-10 CN CN201910854965.XA patent/CN110555440B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109800284A (zh) * | 2018-12-19 | 2019-05-24 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
CN110163257A (zh) * | 2019-04-23 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 抽取结构化信息的方法、装置、设备和计算机存储介质 |
CN110162632A (zh) * | 2019-05-17 | 2019-08-23 | 北京百分点信息科技有限公司 | 一种新闻专题事件发现的方法 |
Non-Patent Citations (2)
Title |
---|
M TURAN 等: "The Benchmark of Paragraph and Sentence Extraction Summaries on Outlier Document Filtering Applied Multi-Document Summarizer", 《INFORMATION TECHNOLOGY AND CONTROL》 * |
徐霞 等: "面向半监督中文事件抽取的事件推理方法", 《山东大学学报(理学版)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126058A (zh) * | 2019-12-18 | 2020-05-08 | 中汇信息技术(上海)有限公司 | 文本信息自动抽取方法、装置、可读存储介质和电子设备 |
CN111126058B (zh) * | 2019-12-18 | 2023-09-12 | 中国外汇交易中心(全国银行间同业拆借中心) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 |
WO2021120979A1 (zh) * | 2019-12-19 | 2021-06-24 | 智慧芽信息科技(苏州)有限公司 | 生成专利概述信息的方法、装置、电子设备和介质 |
US20210200947A1 (en) * | 2020-03-20 | 2021-07-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Event argument extraction method and apparatus and electronic device |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN111597817B (zh) * | 2020-05-27 | 2023-12-08 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN114742055A (zh) * | 2022-03-29 | 2022-07-12 | 北京感易智能科技有限公司 | 数据处理方法、装置、电子设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN110555440B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555440B (zh) | 一种事件抽取方法及装置 | |
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
JP2022539138A (ja) | 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法 | |
CN110569354B (zh) | 弹幕情感分析方法及装置 | |
CN113055386B (zh) | 一种攻击组织的识别分析方法和装置 | |
US20180113856A1 (en) | Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts | |
CN110209802B (zh) | 一种提取摘要文本的方法及装置 | |
WO2017198031A1 (zh) | 解析语义的方法和装置 | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN113076423A (zh) | 数据处理方法及装置、数据查询方法及装置 | |
Mohandas et al. | Domain specific sentence level mood extraction from malayalam text | |
JP6994289B2 (ja) | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 | |
CN110309513B (zh) | 一种文本依存分析的方法和装置 | |
CN114138969A (zh) | 文本处理方法及装置 | |
JP6775465B2 (ja) | 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム | |
CN114138947A (zh) | 文本处理方法及装置 | |
Marukatat et al. | Authorship attribution analysis of thai online messages | |
CN114786059B (zh) | 视频生成方法、视频生成装置、电子设备、存储介质 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN110750989A (zh) | 一种语句分析的方法及装置 | |
CN115098680B (zh) | 数据处理方法、装置、电子设备、介质及程序产品 | |
US11971915B2 (en) | Language processor, language processing method and language processing program | |
CN113283240B (zh) | 共指消解方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220322 |
|
CF01 | Termination of patent right due to non-payment of annual fee |