CN113076468B - 一种基于领域预训练的嵌套事件抽取方法 - Google Patents
一种基于领域预训练的嵌套事件抽取方法 Download PDFInfo
- Publication number
- CN113076468B CN113076468B CN202110459415.5A CN202110459415A CN113076468B CN 113076468 B CN113076468 B CN 113076468B CN 202110459415 A CN202110459415 A CN 202110459415A CN 113076468 B CN113076468 B CN 113076468B
- Authority
- CN
- China
- Prior art keywords
- event
- nested
- domain
- extraction
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000007711 solidification Methods 0.000 claims abstract description 7
- 230000008023 solidification Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于领域预训练的嵌套事件抽取方法。本发明包括以下步骤:步骤1:获取领域语料并预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽文本数据进行人工标注得嵌套事件文本数据集;步骤2:利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用语言模型BERT内部增加新闻类别分类预训练任务;步骤3:定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;步骤4:采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集进行触发词和事件属性联合抽取。本发明适用于领域性的多主体嵌套事件抽取任务,通过预训练领域语言模型和预定义嵌套事件分层抽取模板,有效提高领域嵌套事件抽取的准确率。
Description
技术领域
本发明属于自然语言处理技术领域,具体来说涉及文本信息抽取技术领域,更具体地说,涉及提供了一种基于领域预训练的嵌套事件抽取方法。
背景技术
随着互联网信息量爆炸式的增长,在浩如烟海的信息源中快速、准确地获取所需信息的需求愈发迫切。事件抽取做作为信息抽取的深层次研究任务,其旨在从纯文本中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户,进而供用户查询、分析利用,常见的重要下游应用,比如:构建知识图谱、智能问答和信息检索等。对文本进行事件抽取,尤其是多主体嵌套事件抽取,已成为当前文本挖掘技术领域的研究难点。
面对垂直领域文本,如新闻文本、生物医疗等领域,大量文本均存在多主体嵌套事件,对准确抽取文本信息提出了巨大挑战。当前运用较多基于模式匹配、基于机器学习等方法对于元事件抽取基本有较高的准确率。但当文本出现多主体嵌套事件时,上述方法难以准确全面高效地抽取信息,主要难点在于:1)事件属性分布在文本不同句子中;2)文本中多个嵌套事件之间存在事件论元属性重叠,从而导致信息抽取准确率下降。
近年来,随着预训练语言模型的出现将自然语言处理带入一个新时代,基于预训练语言模型诸多优点:1)在大规模无监督语料上预训练通用语言表示对下游任务效果提升明显;2)提供了更好的模型初始化参数,使在目标任务上有更好的泛化性能和更快的收敛速度;3)能够避免在小数据集上过拟合。但是,大多数预训练模型都在诸如Wikipedia的通用语料中训练,而在领域化的特定场景会受到限制。
综上所述,本交叉领域亟需设计一种新的多主体嵌套事件抽取方法来解决上述问题。
发明内容
有鉴于此,本发明提供了一种基于预训练模型的嵌套事件抽取方法。第一,解决将BERT直接迁移到垂直领域,在领域化的特定场景会受到限制,其性能效果会下降的问题。本发明提出一种预训练领域语言模型的方法,以新闻案件领域为例,提高领域语言处理能力;第二,多主体嵌套事件存在属性重叠、事件属性分散于各个不同句子等因素造成信息抽取效果差的问题。本发明提出一套基于分层抽取嵌套事件信息模版的嵌套事件分层抽取流程。
本发明的技术路线实现形式为:首先,从领域数据库中获取原始领域语料,并对其进行预处理;其次,改进通用BERT模型,并利用领域语料进行预训练,得到领域预训练语言模型CaseBERT;再次,通过梳理多主体嵌套事件的层次关系,对嵌套事件预定义分层抽取模版;最后,通过触发词和事件属性联合抽取模型,基于CaseBERT和嵌套事件抽取模板,进行多主体嵌套事件抽取,获得文本最终结构化信息。
本发明以新闻领域嵌套事件抽取为例,亦可用于其他领域文本的嵌套事件抽取。具体步骤为:
S1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽小部分数据进行人工标注得嵌套事件文本数据集;
S2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加案由类别分类预训练任务;
S3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;
S4、采用CaseBERT模型和预定义好的嵌套事件抽取模版,对嵌套事件文本数据集进行触发词和事件属性联合抽取。
进一步地,步骤S1包括:
S11、从领域语料数据库中抽取原始领域语料,包括:新闻领域嵌套文本及其对应的新闻类别;
S12、设定一个最小文本长度,将每条文本固定在这个长度之上,换言之小于该设定的文本长度就删除,目的是:尽可能过滤掉可能存在的单事件短文本;
S13、通过正则手段删除乱码文本,若语料均是复杂长文本,可省略此流程;
S14、利用相邻字凝固度对抽取的原始领域语料构建领域专业词表;
S15、抽取小部分数据,进行标注,构造有监督信号的嵌套事件文本数据集。
进一步地,步骤S2包括:
S21、在通用BERT模型的基础上,在MLM预训练任务中融入了新闻类别分类任务;
S22、利用领域语料和领域专业词表作为输入来预训练基于新闻案件领域特点改进的BERT语言模型;
S23、搭建得到新闻案件领域预训练语言模型CaseBERT,并得到训练好的模型参数。
进一步地,步骤S3包括:
S31、对新闻文本中的多主体嵌套事件,定义各事件的重要性,并按重要性排序;
S32、设置新闻文本中每类事件的触发词和对应触发词的事件属性;
S33、基于预定义多嵌套事件抽取模板所要结构化的信息,用嵌套事件文本信息按事件重要性分层进行对应的槽填充。
此步骤,不限于规定模板,面对不同特点的文本,可自定义设计嵌套事件信息抽取模板。
进一步地,步骤S4包括:
本发明提出触发词和事件属性联合抽取模型。
S41、事件触发词抽取模型用于抽取文本的所有事件触发词,模型结构为CaseBERT叠加开始位置与结束位置的指针网络,使用圆形损失函数对其进行优化。
S42、事件属性抽取模型用于抽取每个触发词对应的事件属性信息,其输入为文本以及触发词在文本中的位置,其结构为CaseBERT配合条件标准化层,叠加开始位置与结束位置的指针网络,也使用同样的圆形损失函数对其进行优化。
采用上述策略后,本发明的积极效果是:
(1)本发明针对预训练模型在领域化的特定场景会受到限制的问题,提出一种改进BERT模型MLM任务的领域语言模型预训练方法,提高了模型领域语言处理能力。
(2)本发明针对多主体嵌套事件抽取任务,提出了一套基于分层抽取嵌套事件信息模版的嵌套事件分层抽取方法,有效地解决了多主体嵌套事件存在论元属性重叠、事件属性分散于各个不同句子等因素造成信息抽取效果差的问题,提高了复杂信息抽取的准确率。
附图说明
图1是本发明基于领域预训练的嵌套事件抽取方法的原理示意图
图2是本发明基于领域预训练的嵌套事件抽取方法的流程示意图
图3是本发明方法中融入新闻类别分类任务的CaseBERT改进部分的模型结构示意图
图4是本发明方法中分层抽取嵌套事件信息模版实例示意图
图5是本发明方法中多主体嵌套事件分层抽取流程示意图
图6是本发明方法中触发词与事件属性联合抽取模型结构示意图
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,并使本发明的上述目的、技术方案和优点能够更加明显易懂,下面结合实施例及实施例附图对本发明作进一步详细说明。
请参见图1,图1是本发明实施例提供基于领域预训练的嵌套事件抽取方法的原理示意图。该方法包括:首先,从领域数据库中获取原始领域语料,并对其进行预处理;其次,改进通用BERT模型,并利用领域语料进行预训练,得到领域CaseBERT;再次,通过梳理嵌套事件的层次关系,对嵌套事件预定义分层抽取模版;最后,通过触发词和事件属性联合抽取模型,基于CaseBERT和嵌套事件抽取模板,进行多主体嵌套事件抽取,获得嵌套事件文本最终结构化信息。
请参见图2,图2是本发明基于领域预训练的嵌套事件抽取方法的流程示意图,具体步骤包括:
S1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽不少于7000条文本数据进行人工标注得嵌套事件文本数据集A。
S11、从领域数据库中抽取原始领域语料,原始领域语料包括:领域文本及其对应的文本类别;
S12、设定最小文本长度80字,筛选原始领域语料,过滤掉可能存在的单事件短文本;
S13、通过正则手段删除乱码文本与重复文本,得到140万条长度不小于80字的领域语料;
S14、利用相邻字凝固度对抽取的领域语料构建领域专业词表;
S15、随机抽不少于7000条文本数据,进行人工标注,构造有监督信号的嵌套事件文本数据集A。
S2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加新闻类别分类预训练任务。
S21、在通用BERT模型的基础上,在MLM预训练任务中融入了新闻类别分类任务。改进部分的示意图如图3所示。输入模型前在嵌套事件文本数据集A的首部加上特殊字符“[CLS]”,尾部加上特殊字符“[SEP]”,使用“[CLS]”处的向量作为类别信息的特征向量,输出最终的新闻类别;
S22、利用领域语料和领域专业词表作为输入来预训练基于新闻案件领域特点改进的BERT语言模型;
S23、搭建得到新闻案件领域预训练语言模型CaseBERT,并得到训练好的模型参数。
S3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系。
举例分析如图4所示。
S31、在处理新闻嵌套事件文本时,首先将新闻打架事件发生定义为最重要的事件;其次将参与人员信息等定义为次要事件;
S32、将滋事方式做为新闻打架事件的触发词,其他信息均归为新闻打架事件属性;同理,将参与人员姓名做为参与人事件的触发词,其他信息均归为参与人事件属性;
S33、基于预定义多主体嵌套事件抽取模板所要结构化的信息,用新闻嵌套事件文本信息按事件重要性分层进行对应的槽填充。具体流程如图5所示。此流程不限于示意图上的三层,可基于文本特点进行适当扩展;
此步骤,不限于规定模板,面对不同特点的文本,可自定义设计嵌套事件信息抽取模板。
S4、采用CaseBERT模型和预定义好的嵌套事件抽取模版,对嵌套事件文本数据集A进行触发词和事件属性联合抽取。
本发明提出触发词和事件属性联合抽取模型。模型结构图如图6所示。
S41、事件触发词抽取模型用于抽取文本的所有事件触发词,模型结构为CaseBERT叠加开始位置与结束位置的指针网络,使用圆形损失函数对其进行优化。圆形损失函数:
其中和/>是非负整数权重因子,γ是一个尺度因子。深度特征学习目的是最大化类内相似性sp,同时最小化类间相似性。在余弦相似性度量下,sp趋近于1,sn趋近于0。假设有K个类内关于x相似性得分,L个类间关于x相似性得分。圆形损失函数分别采用/> 和/>表示两种相似性得分。
S42、事件属性抽取模型用于抽取每个触发词对应的事件属性信息,其输入为文本以及触发词在文本中的位置,其结构为CaseBERT配合条件标准化层,叠加开始位置与结束位置的指针网络,使用同样的圆形损失函数对其进行优化。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。
Claims (3)
1.一种基于领域预训练的嵌套事件抽取方法,其特征在于包括以下步骤:
S1、获取领域语料,并数据预处理,采用相邻字凝固度方法对语料构造领域专业词表,随机抽不少于7000条文本数据进行人工标注得嵌套事件文本数据集A;
S2、利用领域语料和领域专业词表作为输入,预训练领域语言模型CaseBERT,其是在通用预训练语言模型BERT内部增加新闻类别分类预训练任务;
S3、定义分层抽取嵌套事件信息模版,梳理嵌套事件层次关系;
S4、采用CaseBERT模型和预定义的嵌套事件抽取模版,对嵌套事件文本数据集A进行触发词和事件属性联合抽取;
所述的步骤S3具体包括:
S31、对新闻文本中的多主体嵌套事件,定义各事件的重要性,并按重要性排序;
S32、设置新闻文本中每类事件的触发词和对应触发词的事件属性;
S33、基于预定义多嵌套事件抽取模板所要结构化的信息,用嵌套事件文本信息按事件重要性分层进行对应的槽填充;
所述的步骤S33,模板可基于事件数量扩充,并且面对不同特点的文本可自定义设计嵌套事件信息抽取模板;
所述的步骤S4具体包括:
S41、事件触发词抽取模型用于抽取文本的所有事件触发词,模型结构为CaseBERT叠加开始位置与结束位置的指针网络,使用圆形损失函数对其进行优化,圆形损失函数:
S42、事件属性抽取模型用于抽取每个触发词对应的事件属性信息,其输入为文本以及触发词在文本中的位置,其结构为CaseBERT配合条件标准化层,叠加开始位置与结束位置的指针网络,使用所述的圆形损失函数对其进行优化。
2.根据权利要求1所述的一种基于领域预训练的嵌套事件抽取方法,其特征在于,所述的步骤S1具体包括:
S11、从领域数据库中抽取原始领域语料,原始领域语料包括:领域文本及其对应的文本类别;
S12、设定一个最小文本长度80,筛选原始领域语料,过滤掉可能存在的单事件短文本;
S13、通过正则手段删除乱码文本与重复文本,得到条长度不小于80字的领域语料;
S14、利用相邻字凝固度对抽取的领域语料构建公安领域专业词表;
S15、随机抽不少于7000条文本数据,进行人工标注,构造有监督信号的嵌套事件文本数据集A。
3.根据权利要求1所述的一种基于领域预训练的嵌套事件抽取方法,其特征在于,所述的步骤S2具体包括:
S21、在通用BERT模型的基础上,在MLM预训练任务中融入了新闻类别分类任务,输入模型前在嵌套事件文本数据集A的首部加上特殊字符“[CLS]”,尾部加上特殊字符“[SEP]”,使用“[CLS]”处的向量作为类别信息的特征向量,输出最终的新闻类别;
S22、利用领域语料和领域专业词表作为输入来预训练基于新闻案件领域特点改进的BERT语言模型;
S23、搭建得到新闻案件领域预训练语言模型CaseBERT,并得到训练好的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110459415.5A CN113076468B (zh) | 2021-04-27 | 2021-04-27 | 一种基于领域预训练的嵌套事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110459415.5A CN113076468B (zh) | 2021-04-27 | 2021-04-27 | 一种基于领域预训练的嵌套事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076468A CN113076468A (zh) | 2021-07-06 |
CN113076468B true CN113076468B (zh) | 2024-03-15 |
Family
ID=76618916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110459415.5A Active CN113076468B (zh) | 2021-04-27 | 2021-04-27 | 一种基于领域预训练的嵌套事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076468B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943221A (zh) * | 2022-04-11 | 2022-08-26 | 哈尔滨工业大学(深圳) | 片段指针交互模型的构建方法及社会传感灾情监测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133728B2 (en) * | 2015-03-20 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
-
2021
- 2021-04-27 CN CN202110459415.5A patent/CN113076468B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
陈平 ; 匡尧 ; 陈婧 ; .基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究.武汉电力职业技术学院学报.2020,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113076468A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
US11782928B2 (en) | Computerized information extraction from tables | |
CN110598005A (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN106951498A (zh) | 文本聚类方法 | |
CN105824959A (zh) | 舆情监控方法及系统 | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
CN110175334A (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN112417100A (zh) | 辽代历史文化领域知识图谱及其智能问答系统的构建方法 | |
WO2017193472A1 (zh) | 一种东巴经典古籍数字化释读库的建立方法 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN112069327A (zh) | 一种在线教育课堂教学资源的知识图谱构建方法及系统 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN113076468B (zh) | 一种基于领域预训练的嵌套事件抽取方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN115203429B (zh) | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 | |
CN113868389B (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |