CN112487171A - 一种开放域下的事件抽取系统和方法 - Google Patents

一种开放域下的事件抽取系统和方法 Download PDF

Info

Publication number
CN112487171A
CN112487171A CN202011472752.XA CN202011472752A CN112487171A CN 112487171 A CN112487171 A CN 112487171A CN 202011472752 A CN202011472752 A CN 202011472752A CN 112487171 A CN112487171 A CN 112487171A
Authority
CN
China
Prior art keywords
extraction
event
open domain
event extraction
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011472752.XA
Other languages
English (en)
Inventor
成清
黄金才
程光权
杜航
胡星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011472752.XA priority Critical patent/CN112487171A/zh
Publication of CN112487171A publication Critical patent/CN112487171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种开放域下的事件抽取系统和方法,一种开放域下的事件抽取系统,所述事件抽取系统包括事件抽取框架,领域规则模块和人机交互模块,所述事件抽取框架用于建立训练模型和框架对需求序列进行捕捉抽取,所述领域规则模块用于建立多种训练规则并融入训练模型,丰富事件抽取框架的抽取精度,所述人机交互模块用于反馈系统抽取信息和抽取状态信息,所述事件抽取框架包括自注意力层和门卷积层,所述自注意力层用于对抽取需求进行捕捉和筛选,所述门卷积层利用卷积网络用于依据抽取需求序列在开放域下对需求序列进行提取,所述卷积神经网络具体为门控卷积神经网络,本发明用于对开放域下的事件进行高精度抽取。

Description

一种开放域下的事件抽取系统和方法
技术领域
本发明涉及事件抽取技术领域,具体为一种开放域下的事件抽取系统和方法。
背景技术
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
互联网应用的快速发展使得网络获取的数据量也大幅度的增加。如何快速、高效的从大规模数据中分析出真正有用的信息显得尤为重要而迫切。信息抽取这一研究领域在此背景下应运而生。而事件抽取作为信息抽取的一项子任务,不仅依赖于基础的自然语言处理技术,而且对分词、词性标注、命名实体识别、句法分析等结果也有所依赖。但不能单纯的理解为信息检索或浅层语义理解,而是需要去挖掘句子背后隐藏的真正含义。因此,作为信息抽取任务中一个至关重要的研究点,事件抽取技术方面的研究将变得任重而道远。传统的事件抽取研究所采用的语料大多都是面向限定域,而且必须事先给定事件类别,而后利用机器学习或者模式匹配算法进行事件类别识别以及事件元素识别工作。所以,传统的事件抽取方法在处理领域移植问题时的效果不佳。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种开放域下的事件抽取系统和方法,以解决上述背景技术中提出的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种开放域下的事件抽取系统,所述事件抽取系统包括事件抽取框架,领域规则模块和人机交互模块,所述事件抽取框架用于建立训练模型和框架对需求序列进行捕捉抽取,所述领域规则模块用于建立多种训练规则并融入训练模型,丰富事件抽取框架的抽取精度,所述人机交互模块用于反馈系统抽取信息和抽取状态信息。
优选的,所述事件抽取框架包括自注意力层和门卷积层,所述自注意力层用于对抽取需求进行捕捉和筛选,所述门卷积层利用卷积网络用于依据抽取需求序列在开放域下对需求序列进行提取。
优选的,所述卷积网络具体为门控卷积神经网络,所述门控卷积神经网络在每层卷积操作后设有一个输出卷积门限,控制信息流动。
优选的,所述领域规则模块包括有多种抽取规则,所述抽取规则有关键词抽取、相关词抽取、组合式抽取和自定义抽取。
优选的,所述组合式抽取包括关键词抽取、相关词抽取、自定义抽取之间任意两两结合进行抽取。
优选的,所述自定义抽取可依据开放域结构不同进行自定义抽取程序。
优选的,所述人机交互模块还包括有输入模块和输出模块,所述输入模块包括有输入设备以及生物识别装置,所述输出模块包括显示设备和音频输出模块。
优选的,所述抽取状态包括有抽取数据列表以及识别的关联数据。
一种开放域下的事件抽取方法:在开放域下的事件抽取系统中人机交互界面输入抽取需求,在事件抽取框架中生成抽取需求序列,依据抽取需求序列在开放域中对事件进行捕捉,捕捉后事件发送至人机交互界面进行反馈和交互,依据不同的开放域或者不同的抽取需求对抽取规则进行补充,包括有关键词抽取、相关词抽取、组合式抽取和自定义抽取,利用不同抽取方式对事件抽取框架进行补充,事件在抽取捕捉的同时对未识别的复杂事件进行收集后在人机交互界面进行反馈。
(三)有益效果
本发明提供了一种开放域下的事件抽取系统和方法,具备以下有益效果:采用预训练模型构建通用事件抽取框架,提高抽取效果,建立多种规则融入预训练模型提升领域事件抽取精度,自动推荐未能识别的复杂预警的文本,采用人机交互的方式实现复杂事件抽取,通过人工判断介入,提高复杂抽取的可行性,进而任何文本通过原建立的模型能达到60%以上,注入规则后能达到90%,辅助人机交互能达到95%以上,同时在抽取时借助卷积神经网络进行深度自主学习,通过多组数据模拟训练建模,并在卷积计算后加入输出门限,有效降低梯度弥散,同时保留了卷积神经网络的非线性变化能力。
附图说明
图1为本发明系统结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
如图1所示,本发明实施例提供一种开放域下的事件抽取系统,事件抽取系统包括事件抽取框架,领域规则模块和人机交互模块,事件抽取框架用于建立训练模型和框架对需求序列进行捕捉抽取,领域规则模块用于建立多种训练规则并融入训练模型,丰富事件抽取框架的抽取精度,人机交互模块用于反馈系统抽取信息和抽取状态信息。
事件抽取框架包括自注意力层和门卷积层,自注意力层用于对抽取需求进行捕捉和筛选,门卷积层利用卷积网络用于依据抽取需求序列在开放域下对需求序列进行提取,卷积网络具体为门控卷积神经网络,门控卷积神经网络在每层卷积操作后设有一个输出卷积门限,控制信息流动,领域规则模块包括有多种抽取规则,抽取规则有关键词抽取、相关词抽取、组合式抽取和自定义抽取,组合式抽取包括关键词抽取、相关词抽取、自定义抽取之间任意两两结合进行抽取,自定义抽取可依据开放域结构不同进行自定义抽取程序,人机交互模块还包括有输入模块和输出模块,输入模块包括有输入设备以及生物识别装置,输出模块包括显示设备和音频输出模块,抽取状态包括有抽取数据列表以及识别的关联数据。
一种开放域下的事件抽取方法:在开放域下的事件抽取系统中人机交互界面输入抽取需求,在事件抽取框架中生成抽取需求序列,依据抽取需求序列在开放域中对事件进行捕捉,捕捉后事件发送至人机交互界面进行反馈和交互,依据不同的开放域或者不同的抽取需求对抽取规则进行补充,包括有关键词抽取、相关词抽取、组合式抽取和自定义抽取,利用不同抽取方式对事件抽取框架进行补充,事件在抽取捕捉的同时对未识别的复杂事件进行收集后在人机交互界面进行反馈。
综上,采用预训练模型构建通用事件抽取框架,提高抽取效果,建立多种规则融入预训练模型提升领域事件抽取精度,自动推荐未能识别的复杂预警的文本,采用人机交互的方式实现复杂事件抽取,通过人工判断介入,提高复杂抽取的可行性,进而任何文本通过原建立的模型能达到60%以上,注入规则后能达到90%,辅助人机交互能达到95%以上,同时在抽取时借助卷积神经网络进行深度自主学习,通过多组数据模拟训练建模,并在卷积计算后加入输出门限,有效降低梯度弥散,同时保留了卷积神经网络的非线性变化能力。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种开放域下的事件抽取系统,其特征在于:所述事件抽取系统包括事件抽取框架,领域规则模块和人机交互模块,所述事件抽取框架用于建立训练模型和框架对需求序列进行捕捉抽取,所述领域规则模块用于建立多种训练规则并融入训练模型,丰富事件抽取框架的抽取精度,所述人机交互模块用于反馈系统抽取信息和抽取状态信息。
2.根据权利要求1所述的一种开放域下的事件抽取系统,其特征在于:所述事件抽取框架包括自注意力层和门卷积层,所述自注意力层用于对抽取需求进行捕捉和筛选,所述门卷积层利用卷积网络用于依据抽取需求序列在开放域下对需求序列进行提取。
3.根据权利要求2所述的一种开放域下的事件抽取系统,其特征在于:所述卷积网络具体为门控卷积神经网络,所述门控卷积神经网络在每层卷积操作后设有一个输出卷积门限,控制信息流动。
4.根据权利要求1所述的一种开放域下的事件抽取系统,其特征在于:所述领域规则模块包括有多种抽取规则,所述抽取规则有关键词抽取、相关词抽取、组合式抽取和自定义抽取。
5.根据权利要求4所述的一种开放域下的事件抽取系统,其特征在于:所述组合式抽取包括关键词抽取、相关词抽取、自定义抽取之间任意两两结合进行抽取。
6.根据权利要求4所述的一种开放域下的事件抽取系统,其特征在于:所述自定义抽取可依据开放域结构不同进行自定义抽取程序。
7.根据权利要求1所述的一种开放域下的事件抽取系统,其特征在于:所述人机交互模块还包括有输入模块和输出模块,所述输入模块包括有输入设备以及生物识别装置,所述输出模块包括显示设备和音频输出模块。
8.根据权利要求1所述的一种开放域下的事件抽取系统,其特征在于:所述抽取状态包括有抽取数据列表以及识别的关联数据。
9.一种开放域下的事件抽取方法,其特征在于:在开放域下的事件抽取系统中人机交互界面输入抽取需求,在事件抽取框架中生成抽取需求序列,依据抽取需求序列在开放域中对事件进行捕捉,捕捉后事件发送至人机交互界面进行反馈和交互,依据不同的开放域或者不同的抽取需求对抽取规则进行补充,包括有关键词抽取、相关词抽取、组合式抽取和自定义抽取,利用不同抽取方式对事件抽取框架进行补充,事件在抽取捕捉的同时对未识别的复杂事件进行收集后在人机交互界面进行反馈。
CN202011472752.XA 2020-12-15 2020-12-15 一种开放域下的事件抽取系统和方法 Pending CN112487171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011472752.XA CN112487171A (zh) 2020-12-15 2020-12-15 一种开放域下的事件抽取系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011472752.XA CN112487171A (zh) 2020-12-15 2020-12-15 一种开放域下的事件抽取系统和方法

Publications (1)

Publication Number Publication Date
CN112487171A true CN112487171A (zh) 2021-03-12

Family

ID=74917107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011472752.XA Pending CN112487171A (zh) 2020-12-15 2020-12-15 一种开放域下的事件抽取系统和方法

Country Status (1)

Country Link
CN (1) CN112487171A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951530A (zh) * 2017-03-21 2017-07-14 苏州大学 一种事件类型抽取方法和装置
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN109460553A (zh) * 2018-11-05 2019-03-12 中山大学 一种基于门限卷积神经网络的机器阅读理解方法
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN111783394A (zh) * 2020-08-11 2020-10-16 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN106951530A (zh) * 2017-03-21 2017-07-14 苏州大学 一种事件类型抽取方法和装置
CN109460553A (zh) * 2018-11-05 2019-03-12 中山大学 一种基于门限卷积神经网络的机器阅读理解方法
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN111783394A (zh) * 2020-08-11 2020-10-16 深圳市北科瑞声科技股份有限公司 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112069811A (zh) * 2020-08-24 2020-12-11 武汉大学 多任务交互增强的电子文本事件抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法

Similar Documents

Publication Publication Date Title
CN107092596B (zh) 基于attention CNNs和CCR的文本情感分析方法
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及系统
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN108427670A (zh) 一种基于语境词向量和深度学习的情感分析方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN110232149A (zh) 一种热点事件检测方法和系统
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN110609983B (zh) 一种政策文件结构化分解方法
CN108763353A (zh) 基于规则和远程监督的百度百科关系三元组抽取方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN105512347A (zh) 一种基于地理主题模型的信息处理方法
CN117009524B (zh) 一种基于舆情情感分析的互联网大数据分析方法及系统
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN112765974A (zh) 一种业务辅助方法、电子设备及可读存储介质
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN112487171A (zh) 一种开放域下的事件抽取系统和方法
Fouadi et al. Applications of deep learning in arabic sentiment analysis: Research perspective
CN111191413A (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN113626596B (zh) 基于深度学习的地铁设计规范文本分析和语料库构建方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination