CN114579695A - 一种事件抽取方法、装置、设备及存储介质 - Google Patents
一种事件抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114579695A CN114579695A CN202210065802.5A CN202210065802A CN114579695A CN 114579695 A CN114579695 A CN 114579695A CN 202210065802 A CN202210065802 A CN 202210065802A CN 114579695 A CN114579695 A CN 114579695A
- Authority
- CN
- China
- Prior art keywords
- event
- word
- description sentences
- division
- granularity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种事件抽取方法、装置、设备及存储介质,涉及自然语言智能处理技术领域,包括以下步骤:获取目标领域的多个事件描述句,并定义事件标注的标签类别;基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;将所述训练样本集输入预先构建的BERT‑BILSTM‑ATTN‑CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。本方案针对产业领域相关的资讯新闻,结合多种粒度分割方法和BERT‑BiLSTM‑ATTN‑CRF模型在少量标注样本的基础上,保持事件抽取的识别率并提高事件抽取中对象元素和触发词的识别率。
Description
技术领域
本申请涉及自然语言智能处理技术领域,尤其涉及一种事件抽取方法、装置、设备及存储介质。
背景技术
随着互联网的快速发展,如何帮助用户在海量信息中快速找到有效信息已经成为一个亟需解决的问题,针对此问题,提出了信息提取的概念,信息抽取是指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。而事件抽取则是信息抽取领域的一个重要研究方向,主要指把含有事件信息的非结构化文本以结构化的形式呈现出来,同时事件抽取任务并非单纯用于事件信息整理,还可应用于事件信息检索、人工问答、事件知识图谱构建等高级任务中。
目前事件抽取的主要方法有:1、徐霞等人选用少量触发词得到种子模板,通过自举学习方式扩充种子模型完成中文事件抽取任务;2、Zhang等人在新闻文本数据上使用依存句法分析后,结合CRF和人工规则定义触发词,再用语义角色标注算法确定事件的关键元素,并取得了明显的优化效果;3、Liao等人将事件作为基本语法单位,并基于这些事件构造事件共现网络,并利用PageRank算法提取重要事件。但这些方法或因模板生成依赖个人主观判断,或因触发词库难以完全覆盖所有事件描述,或因人工标注大量语料数据造成成本高而存在各种问题。
发明内容
本申请提供的一种事件抽取方法,旨在解决现有技术中触发词识别率不高且事件抽取需依赖大量人工标注导致人工成本高的问题。
为实现上述目的,本申请采用以下技术方案:
本申请的一种事件抽取方法,包括以下步骤:
获取目标领域的多个事件描述句,并定义事件标注的标签类别;
基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
作为优选,所述获取目标领域的多个事件描述句,并定义事件标注的标签类别,包括:
采集产业领域的多个事件描述句;
根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别。
作为优选,所述基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分,包括:
根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;
按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分。
作为优选,所述按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分,包括:
利用字向量训练网络抽取出所述多个事件描述句中字的特征向量;
利用LTP工具对所述多个事件描述句进行分词处理,并在相邻词间添加分割符;
根据依存句法分析和预先设定的分割条件对分词后的多个事件描述句进行事件分段和定中短语分段。
作为优选,所述预先设定的分割条件包括:
如果当前词与前一个词成定中关系,则当前词与前一个词合为一段作为定中短语;
如果当前词与句子中某一个词是主谓关系、动宾关系、间宾关系、前置关系和介宾关系,且所述词并不属于任何一个事件段,则所述词到当前词之间所有的词都属于同一个事件段。
作为优选,所述BERT-BILSTM-ATTN-CRF模型使用Adam优化器训练模型参数,并利用dropout方法进行模型训练。
一种事件抽取装置,包括:
采集模块,用于获取目标领域的多个事件描述句,并定义事件标注的标签类别;
处理模块,用于基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
设置模块,用于对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
训练模块,用于将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
作为优选,所述采集模块,包括:
获取单元,用于采集产业领域的多个事件描述句;
分析单元,用于根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别。
作为优选,所述处理模块,包括:
标注单元,用于根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;
划分单元,用于按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种事件抽取方法。
本发明具有如下有益效果:
本方案公开了一种针对产业领域的混合粒度事件抽取方法,针对产业领域相关的资讯新闻,结合多种粒度分割方法和BERT-BiLSTM-ATTN-CRF模型在少量标注样本的基础上,保持事件抽取的识别率并提高事件抽取中对象元素和触发词的识别率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1实现一种事件抽取方法第一流程图;
图2是本申请实施例2实现一种事件抽取方法第二流程图;
图3是本申请实施例3中基于依存关系进行粗分割的处理示例图;
图4是本申请实施例4实现一种事件抽取装置示意图;
图5是本申请实施例5实现一种事件抽取装置的采集模块示意图;
图6是本申请实施例6实现一种事件抽取装置的处理模块示意图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式,此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。
实施例1
如图1所示,一种事件抽取方法,包括以下步骤:
S110、获取目标领域的多个事件描述句,并定义事件标注的标签类别;
S120、基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
S130、对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
S140、将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
根据实施例1可知,采集产业领域新闻资讯的事件描述句,利用BIO标注方法对这些事件描述句进行分析,找出这些事件描述句的共通点,根据这些共通点确定事件标注的标签类别,然后对这些事件描述句进行标注,同时利用基于字的分割粒度、基于词的分割粒度和基于依存句法分析的分割粒度对这些事件描述句依次进行划分,其中,基于字的分割粒度主要利用字向量训练网络,基于词的分割粒度和基于依存句法的分割粒度都利用了LTP工具,同时基于依存句法分析的分割粒度主要作用是提取出这些事件描述句中的定中关系短语和包含主语、宾语元素的短语,从而得到这些事件描述句的字特征向量、分词结果和关键短语,将进行依存句法分析后的事件描述句再次进行标注,并将两次标注文本与三次分割文本整体作为训练样本集输入到预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,最后用该事件抽取模型进行事件抽取。本实施例针对产业领域相关的资讯新闻,结合依存句法分析和BERT-BiLSTM-ATTN-CRF模型在少量标注样本的基础上,保持事件抽取的识别率并将事件抽取中对象元素的识别率提高到72.84%,触发词识别率提高到77.96%。
其中,预先构建的BERT-BILSTM-ATTN-CRF模型具体设置为:
BERT预训练语言模型默认采用12头注意力机制,每次读取序列长度为128,预训练词长度为768,受机器内存限制,每个BERT预训练语言模型默认采用12头注意力机制,每次读取序列长度为128,预训练词长度为768,每个训练批次大小为16,采用Adam优化器训练参数,学习率设置为3e-5;LSTM隐藏单元设为128维,dropout率为0.9,采用梯度裁剪技术,clip设置为5;由双向LSTM网络输出得到的256维字向量,经过网络映射为16维向量作为CRF层的输入,最终得到输出,为防止训练过程中出现过拟合问题,网络模型中多处使用dropout方法训练网络。
模型训练的过程为:
使用get_sequence_output方法获取BERT模型的输出,得到[batch_size,seq_length,embedding_size]的向量作为BILSTM层的输入,BILSTM隐藏单元设为128维,将双向LSTM输出拼接得到256层的输出,经过dropout层再通过Self-attention层转换为[batch_size,seq_length,num_labels]的向量输入CRF层更新CRF的转移矩阵参数,最后通过Viterbi解码得到最优的序列标注解。
此外,使用该BERT-BILSTM-ATTN-CRF模型是因为BERT模型泛化能力强、能获取更丰富的语义信息以及能表示字的多义性等,在各个自然语言处理任务上取得了优秀的成绩;双向LSTM解决了梯度消失和爆炸问题,能够提取更长文本之间的信息;在自注意力网络中,Self-attention层会逐一计算该词与句中其它词的相关度,再将结果进行归一化得到权重分布,最终加权求和得到基于全局的词向量;而CRF模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏见问题。
实施例2
如图2所示,一种事件抽取方法,包括:
S210、采集产业领域的多个事件描述句;
S220、根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别;
S230、基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
S240、对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
S250、将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
由实施例2可知,事件作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实,一般是句子级的;在TDT(Topic Detection Tracking)中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。通过对事件的描述可知,一段描述事件的句子通常可以分为事件元素和非事件元素,事件元素通常包含事件触发词、事件发生时间、事件发生地点,事件参与者与事件对象等五类元素,其中,事件触发词表示事件发生的核心词,多为动词或名词;如事件描述句“警方已经对这起儿童食物中毒事件展开调查”中,事件触发词是展开,事件参与者是警方,事件对象是儿童食物中毒事件,因此我们可以将事件抽取问题转换为序列标注问题,如上述例句中的标签为:
警方已经对这起儿童食物中毒事件展开调查。
B-PAR I-PAR O O O O OB-OBJ I-OBJ I-OBJ I-OBJ I-OBJ I-OBJ I-OBJ I-OBJB-DEN I-DEN O OO
在这里我们采用BIO标注方法,O表示非事件元素,B-XX表示事件元素XX的起始标志,I-XX表示事件元素XX的中间字符。
通过对新闻资讯事件进行分析,最终提取出O、B-LOC、I-LOC、B-TIM、I-TIM、B-DEN、I-DEN、B-OBJ、I-OBJ、B-PAR、I-PAR、X、[CLS]和[SEP]共14类标签,其中TIM表示事件时间元素,LOC表示事件地点元素,DEN表示事件触发词元素,OBJ表示事件对象元素,PAR表示事件参与者元素,X表示分割符标签,[CLS]标志放在第一个句子的首位,经过BERT得到的的表征向量C可以用于后续的分类任务,[SEP]标志用于分开两个输入句子,例如输入句子A和B,要在句子A、B后面各增加一个[SEP]标志,例如给定两个句子"my cats are active"和"They’ve been dashing about all day"作为输入样本,BERT会转为"[CLS]my cats are active[SEP]They’ve been dashing about all day[SEP]",再对采集的事件描述句进行标注。本实施例中通过将事件抽取问题转换为序列标注问题,提高了触发词识别率。
实施例3
如图3所示,一种事件抽取方法,包括:
S310、获取目标领域的多个事件描述句,并定义事件标注的标签类别;
S320、根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;
S330、利用字向量训练网络抽取出所述多个事件描述句中字的特征向量;
S340、利用LTP工具对所述多个事件描述句进行分词处理,并在相邻词间添加分割符;
S350、根据依存句法分析和预先设定的分割条件对分词后的多个事件描述句进行事件分段和定中短语分段;
S360、对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
S370、将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
由实施例3可知,与英文不同,中文在描述的时候并没有分割词,因此一般在处理中文的自然语言处理任务时,需要对文本进行分词处理,但是分词带来的误差将会影响下级的自然语言处理任务。而基于字的特征抽取又会忽略中文中词语组合带来的信息,因此,在字向量的基础上,我们可以通过对所有事件描述句进行分词得到基于词的分割粒度,并在分词基础上进一步得到基于依存句法的切分粒度,具体的分割方法如下:
(1)基于字的分割粒度:这是最常见的文本预处理方式,通过字向量训练网络抽取字的特征向量作为输入特征传入网络模型中;
(2)基于词的分割粒度:使用LTP工具对文本做分词处理,与常见的基于词的学习方法不同,本实施例中并不提供词的特征向量,而是在原始的事件描述句中添加分隔符再输入基于字的网络模型当中,例如“今天天气很好。”,经过分词后得到“今天天气很好。”四个词,在每个词中间加上分隔符(假设#为分隔符)作为一条新的训练文本,即“今天#天气#很好#。”。提供添加分割符的训练样本,其实是相当于提供了文本中词之间的粘连信息,在保留了字符特征的基础上补充了词的信息,更有利于网络提取出一个完整的事件元素。
(3)基于依存句法分析的分割粒度:利用LTP工具完成句法分析后提取出定中关系短语、包含主语、宾语元素的短语。由于任务是做事件元素提取,而事件元素通常由动词短语结构组成,此类短语结构在依存句法分析中通常以“主谓宾”的形式出现,同时又因为中文中的修饰词通常以定中关系短语的形式出现,例如“杭州量知数据有限公司”经过分词后成为“杭州量知数据有限公司”,而“杭州”与“量知数据”为定中关系,“量知数据”与“有限公司”也为定中关系,因此我们可以将定中短语提取出来,通过提取出的定中关系短语和主谓、动宾关系短语可以在网络模型训练中提供事件元素块信息,更容易提取出字符串长度较长的事件元素,而分割也可以看成是句子分块(chunking)操作,是将句子中能够独立描述一定语义的实体语句段或者短语组成一块的操作,分词也属于另类的分块操作。本实施例中利用依存关系分析对句子进行粗分割处理,分割方法分为事件分段和定中短语分段,其中,事件分段是指将句子中可能描述事件的语句段分为一段,定中短语分段是指将句子中存在修饰或者被修饰的短语分为一段,同时本实施例设定了两个分割条件:
[1]如果当前词与前一个词成定中关系,则该词与前一个词合为一段作为定中短语;
[2]如果当前词与句子中某一个词是主谓关系、动宾关系、间宾关系、前置关系和介宾关系,且该词并不属于任何一个事件段,则该词到当前词之间所有的词语都属于同一个事件段。
完成定中短语分段后,进行事件分段,如图3,“警方”在句中与“展开”存在主谓关系,很有可能作为事件的参与者在事件中出现,我们通过统计人工标注的数据集中触发词和事件对象元素共现的概率得到比例1:0.86,因此在做划分时,只做主谓或者动宾的划分,让一个触发词尽量对应一个事件对象元素。例如图3中,只对应将“警方”到“展开”这段字段划分为一段,“调查”作为动宾关系中的直接宾语,也适合划分为一段,但这里“展开”已经被划分入上一段了,故“调查”无法分为事件段,最后分割的结果是:
[警方已经对这起儿童食物中毒事件展开]调查。
对最终的划分结果进行标注,其中词段之间的分割用“#”,相应标签为“X”,事件句段之间用“[”、“]”字符框起,同样以标签“X”标注,同样以上句为例,处理过后的字符为:
[#警方#已经#对#这起#儿童食物中毒事件#展开]#调查#。
相应的标签为:
X X B-PAR I-PAR X O O X O X O O X B-OBJ I-OBJ I-OBJ I-OBJ I-OBJ I-OBJI-OBJ I-OBJ X B-DEN I-DEN X X OOXO
然后将两次标注的文本和三种分割粒度的文本全部作为训练样本输入到预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练。本实施例在少量样本下测试,通过字、词不同粒度分割的混合特征对样本做增量操作,且提供事件中各类短语的组合信息作为网络模型的输入,客观高效,同时减少了人工标注数据所耗费的时间。
实施例4
如图4所示,一种事件抽取装置,包括:
采集模块10,用于获取目标领域的多个事件描述句,并定义事件标注的标签类别;
处理模块20,用于基于所述标签类别对所述采集模块10获取的多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
设置模块30,用于对所述处理模块20中划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
训练模块40,用于将所述设置模块30得到的训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
上述装置的一种实施方式可为:采集模块10获取目标领域的多个事件描述句,并定义事件标注的标签类别;处理模块20基于所述标签类别对所述采集模块10获取的多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;设置模块30对所述处理模块20中划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;训练模块40将所述设置模块30得到的训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
实施例5
如图5所示,一种事件抽取装置的采集模块10,包括:
获取单元12,用于采集产业领域的多个事件描述句;
分析单元14,用于根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别。
上述装置的采集模块10的一种实施方式可为:获取单元12采集产业领域的多个事件描述句;分析单元14根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别。
实施例6
如图6所示,一种事件抽取装置的处理模块20,包括:
标注单元22,用于根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;
划分单元24,用于按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分。
上述装置的处理模块20的一种实施方式可为:标注单元22根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;划分单元24按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种事件抽取方法,其特征在于,包括以下步骤:
获取目标领域的多个事件描述句,并定义事件标注的标签类别;
基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
2.根据权利要求1所述的一种事件抽取方法,其特征在于,所述获取目标领域的多个事件描述句,并定义事件标注的标签类别,包括:
采集产业领域的多个事件描述句;
根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别。
3.根据权利要求1所述的一种事件抽取方法,其特征在于,所述基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分,包括:
根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;
按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分。
4.根据权利要求3所述的一种事件抽取方法,其特征在于,所述按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分,包括:
利用字向量训练网络抽取出所述多个事件描述句中字的特征向量;
利用LTP工具对所述多个事件描述句进行分词处理,并在相邻词间添加分割符;
根据依存句法分析和预先设定的分割条件对分词后的多个事件描述句进行事件分段和定中短语分段。
5.根据权利要求4所述的一种事件抽取方法,其特征在于,所述预先设定的分割条件包括:
如果当前词与前一个词成定中关系,则当前词与前一个词合为一段作为定中短语;
如果当前词与句子中某一个词是主谓关系、动宾关系、间宾关系、前置关系和介宾关系,且所述词并不属于任何一个事件段,则所述词到当前词之间所有的词都属于同一个事件段。
6.根据权利要求1所述的一种事件抽取方法,其特征在于,所述BERT-BILSTM-ATTN-CRF模型使用Adam优化器训练模型参数,并利用dropout方法进行模型训练。
7.一种事件抽取装置,其特征在于,包括:
采集模块,用于获取目标领域的多个事件描述句,并定义事件标注的标签类别;
处理模块,用于基于所述标签类别对所述多个事件描述句分别进行标注,并利用多种粒度分割方法对所述多个事件描述句进行特征划分;
设置模块,用于对划分后的所述多个事件描述句进行二次标注,并将两次标注结果与多种划分结果全部记为训练样本集;
训练模块,用于将所述训练样本集输入预先构建的BERT-BILSTM-ATTN-CRF模型中进行训练,得到事件抽取模型,以进行事件抽取。
8.根据权利要求7所述的一种事件抽取装置,其特征在于,所述采集模块,包括:
获取单元,用于采集产业领域的多个事件描述句;
分析单元,用于根据序列标注方法对所述多个事件描述句进行分析,提取出事件标注的标签类别。
9.根据权利要求7所述的一种事件抽取装置,其特征在于,所述处理模块,包括:
标注单元,用于根据所述标签类别为所述多个事件描述句中的每个单词标注一个标签;
划分单元,用于按照字分割粒度、词分割粒度和依存句法分割粒度的顺序对所述多个事件描述句分别进行特征划分。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1~6中任一项所述的一种事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210065802.5A CN114579695A (zh) | 2022-01-20 | 2022-01-20 | 一种事件抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210065802.5A CN114579695A (zh) | 2022-01-20 | 2022-01-20 | 一种事件抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579695A true CN114579695A (zh) | 2022-06-03 |
Family
ID=81772695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210065802.5A Pending CN114579695A (zh) | 2022-01-20 | 2022-01-20 | 一种事件抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579695A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818721A (zh) * | 2022-06-30 | 2022-07-29 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
WO2024046316A1 (zh) * | 2022-09-01 | 2024-03-07 | 国网智能电网研究院有限公司 | 电力领域模型预训练方法、精调方法、装置、设备、存储介质和计算机程序产品 |
-
2022
- 2022-01-20 CN CN202210065802.5A patent/CN114579695A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818721A (zh) * | 2022-06-30 | 2022-07-29 | 湖南工商大学 | 一种结合序列标注的事件联合抽取模型与方法 |
WO2024046316A1 (zh) * | 2022-09-01 | 2024-03-07 | 国网智能电网研究院有限公司 | 电力领域模型预训练方法、精调方法、装置、设备、存储介质和计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Interpreting semantic relations in noun compounds via verb semantics | |
KR100420096B1 (ko) | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 | |
CN105808524A (zh) | 一种基于专利文献摘要的专利自动分类方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN110162651B (zh) | 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法 | |
Mohit et al. | Syntax-based semi-supervised named entity tagging | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
Jang et al. | Detecting incongruent news headlines with auxiliary textual information | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN115713085A (zh) | 文献主题内容分析方法及装置 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
KR101126186B1 (ko) | 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 | |
Li et al. | Sentiment classification of financial microblogs through automatic text summarization | |
Ekbal et al. | Rapid adaptation of ne resolvers for humanities domains using active annotation | |
Raafat et al. | Comparative study for Stylometric analysis techniques for authorship attribution | |
US11928427B2 (en) | Linguistic analysis of seed documents and peer groups | |
Li et al. | Single Document Viewpoint Summarization based on Triangle Identification in Dependency Graph | |
Brown | Entity-tagged language models for question classification in a qa system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |