CN110765231A - 一种基于共指融合的篇章事件抽取方法 - Google Patents

一种基于共指融合的篇章事件抽取方法 Download PDF

Info

Publication number
CN110765231A
CN110765231A CN201910964681.6A CN201910964681A CN110765231A CN 110765231 A CN110765231 A CN 110765231A CN 201910964681 A CN201910964681 A CN 201910964681A CN 110765231 A CN110765231 A CN 110765231A
Authority
CN
China
Prior art keywords
events
information
event
data
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910964681.6A
Other languages
English (en)
Inventor
杨理想
张侨
王银瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingyao Intelligent Technology Co.,Ltd.
Original Assignee
Nanjing Shixing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shixing Intelligent Technology Co Ltd filed Critical Nanjing Shixing Intelligent Technology Co Ltd
Priority to CN201910964681.6A priority Critical patent/CN110765231A/zh
Publication of CN110765231A publication Critical patent/CN110765231A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于共指融合的篇章事件抽取的方法,用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题,具体为通过利用对根据相同的触发词进行人工标注的数据集,进行数据结构获取及预处理后,切分句子进行文本初始化特征提取,进行模型训练后,再进行事件融合处理的方法,通过此方法,可以将篇章文本中的相同事件进行融合,去除冗余信息,获取事件的更多要素信息,得到更加全面的事件描述,同时,可有效提高事件抽取效果,具有广泛的应用前景。

Description

一种基于共指融合的篇章事件抽取方法
技术领域
本发明属于自然语言处理领域,特别涉及一种基于共指融合的篇章事件抽取的方法。
背景技术
事件抽取是信息抽取的主要形式之一,它是从大量的自然文本中抽取人们感兴趣的结构化事件信息,如什么人,什么地方,什么时间,做了什么事。基于共指融合的篇章事件抽取是从篇章文本中找出共指事件进行融合,以达到抽取到更多事件信息以及事件融合的目的。
目前,业内的事件抽取方法主要是对单独的事件进行抽取,虽然这种方法取得了不错的成果,但自然语言本身的灵活性决定了这种事件抽取方法不足以很好地解决事件抽取的问题。
发明内容
有鉴于此,本发明提供了一种基于共指融合的篇章事件抽取的方法,用以解决针对传统的事件抽取方法并不能很好地解决事件抽取的问题,具体步骤为:
(1)标注数据集
从待抽取事件的篇章文本中找出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据;
(2)获取数据结构
对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;
(3)数据预处理
对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;
(4)切分句子
根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;
(5)初始化处理
通过查找预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;
(6)特征提取
将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;
(7)模型训练
将构造的数据送进分段卷积神经网络模型进行训练;
(8)事件融合
提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。
作为改进,步骤(2)中,构造数据时,只标注最临近具有相同类型的事件分类信息事件。
作为改进,步骤(3)中,位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息,其中所述方向信息为左侧或右侧。
作为改进,模型的结构如下:进行语料信息切断处理成词,通过word2vec的Skip-gram模型将词表示成向量形式,与位置向量即各词语与两个实体的相对位置,进行拼接作为输入,之后通过卷积层得到feature map,在池化层通过两个实体位置将feature map分为三段进行池化,用于捕获两个实体间的结构化信息,最后,通过softmax层进行分类。
作为改进,步骤(7)中,切断语料信息时,只截取包含两个触发词的语句以及其中间语句。
有益效果:本发明提供的基于共指融合的篇章事件抽取的方法,通过此方法,可以将篇章文本中的相同事件进行融合,去除冗余信息,获取事件的更多要素信息,得到更加全面的事件描述,同时,可有效提高事件抽取效果,具有广泛的应用前景。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明方法的流程图。
图2为分段卷积神经网络模型的架构设计图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于共指融合的篇章事件抽取的方法,具体的步骤为:
A:从待抽取事件的篇章文本中找出相同的触发词,即为相同类型的事件。人工标注出相同类型的事件分类信息,是否属于同一个事件,得到标注数据集;
A1:标注事件时,只标注最邻近的同一事件,即如果A、B为同一事件,B、C为同一事件,则标注A和B,B和C,A和C不再标注。
B:对标注数据进行处理,得到相同事件和不同事件的语料集合,构造出我们需要的数据结构,每条数据包括:包含2个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;
B1:构造数据,标注为同一事件的为正例,没有标注为同一事件的为负例。
C:数据预处理:首先对数据进行位置编码,按句子中各个词离触发词的距离进行编码,获得。由于句子中有两个触发词,所以这条句子就会产生两个和句子长度相同的编码;位置特征编码信息。
C1:此网络结构很注重触发词之间的距离信息,位置信息,以及触发词之间或者左右的信息。这些都是是事件抽取中最重要的特征。一般来说两个触发词之间距离越近,则他们有关系的可能性越大。而透露出触发词之间有关系的词一般会出现在两个触发词之间,左侧,或者右侧。
D:切分句子:根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作,此修改提高了特征提取的能力;
E:通过查找预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;
F:特征提取:将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;
G:模型训练:将构造的数据送进分段卷积神经网络模型进行训练;模型的结构如下:进行语料信息切断处理成词,通过word2vec的Skip-gram模型将词表示成向量形式,与位置向量即各词语与两个实体的相对位置,进行拼接作为输入,之后通过卷积层得到feature map。在池化层通过两个实体位置将feature map分为三段进行池化,其目的是为了更好的捕获两个实体间的结构化信息。最后,通过softmax层进行分类,模型架构如图2;
H:事件融合:提取篇章文本中的同一类型事件,经模型判断是否为同一事件。如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。
H1:事件要素抽取的流程:将待抽取事件的本文依次进行分句、分词、实体识别,然后通过正则匹配和句法和依存关系分析提取出事件的发生时间、主体、客体等事件要素,组成结构化信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于共指融合的篇章事件抽取方法,其特征在于:具体步骤为:
(1)标注数据集
从待抽取事件的篇章文本中找出相同的触发词,即为相同类型的事件,人工标注出相同类型的事件分类信息,得到标注数据集;
(2)获取数据结构
对标注数据进行处理,得到相同事件和不同事件的语料集合,获得需要的数据结构,每条数据包括:包含两个触发词的语句以其中间的语句、两个触发词首字的索引、以及这两个触发词是否属于同一事件的标注结果;
(3)数据预处理
对步骤(2)中获得数据结构进行预处理,获得数据的位置特征编码信息;
(4)切分句子
根据触发词位置将一条文本数据在两个触发词处各切一刀,将一句话分为三部分,同时对位置向量也进行同样的切分操作;
(5)初始化处理
通过查找预先训练好的词嵌入,将每个输入词标记转换成向量,获取文本特征信息;
(6)特征提取
将位置特征编码信息和文本特征信息拼接,然后将上面三个数据分别通过CNN提取特征,提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,经过全连接层进行二分类,最终得到两个事件的分类结果;
(7)模型训练
将构造的数据送进分段卷积神经网络模型进行训练;
(8)事件融合
提取篇章文本中的同一类型事件,经模型判断是否为同一事件,如果是同一事件,则将两个事件融合,抽取两个事件中的要素信息并互相补充,生成事件的结构化信息;如果经过判断,多个事件两两为同一事件,则将多个事件融合,事件要素生成一个事件的结构化信息。
2.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(2)中,构造数据时,只标注最临近具有相同类型的事件分类信息事件。
3.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(3)中,位置特征编码信息包括按句子中各个词离触发词的长度信息、方向信息,其中所述方向信息为左侧或右侧。
4.根据权利要求1所述的基于共指融合的篇章事件抽取方法,其特征在于:步骤(7)中,所述模型的结构如下:进行语料信息切断处理成词,通过word2vec的Skip-gram模型将词表示成向量形式,与位置向量即各词语与两个实体的相对位置,进行拼接作为输入,之后通过卷积层得到feature map;在池化层通过两个实体位置将feature map分为三段进行池化,用于捕获两个实体间的结构化信息;最后,通过softmax层进行分类。
5.根据权利要求4所述的基于共指融合的篇章事件抽取方法,其特征在于:切断语料信息时,只截取包含两个触发词的语句以及其中间语句。
CN201910964681.6A 2019-10-11 2019-10-11 一种基于共指融合的篇章事件抽取方法 Pending CN110765231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910964681.6A CN110765231A (zh) 2019-10-11 2019-10-11 一种基于共指融合的篇章事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910964681.6A CN110765231A (zh) 2019-10-11 2019-10-11 一种基于共指融合的篇章事件抽取方法

Publications (1)

Publication Number Publication Date
CN110765231A true CN110765231A (zh) 2020-02-07

Family

ID=69331890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910964681.6A Pending CN110765231A (zh) 2019-10-11 2019-10-11 一种基于共指融合的篇章事件抽取方法

Country Status (1)

Country Link
CN (1) CN110765231A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858725A (zh) * 2020-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种事件属性确定方法及系统
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN113627194A (zh) * 2021-10-13 2021-11-09 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN113836269A (zh) * 2021-09-27 2021-12-24 河海大学 一种基于问答式系统的篇章级核心事件抽取方法
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统
CN114168738A (zh) * 2021-12-16 2022-03-11 北京感易智能科技有限公司 篇章级事件抽取方法、系统和设备
CN114168738B (zh) * 2021-12-16 2024-06-07 北京感易智能科技有限公司 篇章级事件抽取方法、系统和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仲伟峰等: "基于联合标注和全局推理的篇章级事件抽取" *
魏萍等: "基于触发词语义选择的Twitter事件共指消解研究" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858725A (zh) * 2020-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种事件属性确定方法及系统
CN112528625A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN112528625B (zh) * 2020-12-11 2024-02-23 北京百度网讯科技有限公司 事件抽取的方法、装置、计算机设备以及可读存储介质
CN113836269A (zh) * 2021-09-27 2021-12-24 河海大学 一种基于问答式系统的篇章级核心事件抽取方法
CN113836269B (zh) * 2021-09-27 2024-04-02 河海大学 一种基于问答式系统的篇章级核心事件抽取方法
CN113627194A (zh) * 2021-10-13 2021-11-09 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN113627194B (zh) * 2021-10-13 2022-02-22 北京中科海芯科技有限公司 信息抽取方法及装置、通信消息分类方法及装置
CN114168738A (zh) * 2021-12-16 2022-03-11 北京感易智能科技有限公司 篇章级事件抽取方法、系统和设备
CN114168738B (zh) * 2021-12-16 2024-06-07 北京感易智能科技有限公司 篇章级事件抽取方法、系统和设备
CN114064937A (zh) * 2022-01-14 2022-02-18 云孚科技(北京)有限公司 一种事理图谱自动构建方法和系统

Similar Documents

Publication Publication Date Title
CN110765231A (zh) 一种基于共指融合的篇章事件抽取方法
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN110472235A (zh) 一种面向中文文本的端到端实体关系联合抽取方法
CN112101028A (zh) 一种多特征双向门控领域专家实体抽取方法及系统
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN110175246A (zh) 一种从视频字幕中提取概念词的方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN103559181A (zh) 一种双语语义关系分类模型的建立方法和系统
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN113723330A (zh) 一种图表文档信息理解的方法及系统
CN113449084A (zh) 基于图卷积的关系抽取方法
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN113157918B (zh) 一种基于注意力机制的商品名称短文本分类方法和系统
CN101794378A (zh) 基于图片编码的垃圾图片过滤方法
CN107943783A (zh) 一种基于lstm‑cnn的分词方法
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN103699568A (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN108763487B (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN111191029A (zh) 基于监督学习和文本分类的ac构建方法
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210310

Address after: 210000 rooms 1201 and 1209, building C, Xingzhi Science Park, Qixia Economic and Technological Development Zone, Nanjing, Jiangsu Province

Applicant after: Nanjing Xingyao Intelligent Technology Co.,Ltd.

Address before: Room 1211, building C, Xingzhi Science Park, 6 Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210000

Applicant before: Nanjing Shixing Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right