CN112084381A - 一种事件抽取方法、系统、存储介质以及设备 - Google Patents
一种事件抽取方法、系统、存储介质以及设备 Download PDFInfo
- Publication number
- CN112084381A CN112084381A CN202010952877.6A CN202010952877A CN112084381A CN 112084381 A CN112084381 A CN 112084381A CN 202010952877 A CN202010952877 A CN 202010952877A CN 112084381 A CN112084381 A CN 112084381A
- Authority
- CN
- China
- Prior art keywords
- event
- character string
- matching
- trigger
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000002372 labelling Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 16
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种事件抽取方法、系统、存储介质以及设备。本发明通过匹配法对文本中的字符串进行匹配,得到候选事件元素,将候选事件元素输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征并将两者输入到训练好的Argument Span模型中,得到事件元素;最后将触发词和事件元素进行组合,从而形成一个完整事件。本发明在进行事件抽取的过程中无需进行人工标注,利用匹配法来获取候选事件元素,利用机器学习来完成触发词和事件元素的抽取,将字符串多模匹配算法和机器学习相互结合完成了事件抽取,大大提高了事件抽取的准确率以及效率。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种事件抽取方法、系统、存储介质以及设备。
背景技术
随着信息技术的不断发展,目前,基本上所有的信息都可以在互联网中获取;然而,互联网中的信息数目过于庞大,为了帮助用户在海量信息中快速找到所需要的信息,提出了事件抽取的概念。事件抽取主要用于提取文本中最主要的事件,具体的主要工作是从一段文本中识别出发生的事件以及事件中的各个元素。现有的事件抽取方法一般是将模型回标或者人工标注的作为测试数据,然后将这些标注好的数据进行输入到模型中进行训练,得到训练好的模型,但现有的方法存在以下缺陷:
由于不同的任务往往要定义不同的事件类型,不同的事件类型无法使用通用的训练数据,因此需要消耗大量的时间和精力来标注专属的数据,人工标注的结果普遍存在一致性差、准确度低等问题,从而也导致了后续对事件识别的准确率比较低。
综上所述,现有技术中对事件进行抽取时,存在着事件抽取的准确率比较低的技术问题。
发明内容
本发明提供了一种事件抽取方法、系统、存储介质以及设备,用于解决现有技术中对事件进行抽取时,存在着事件抽取的准确率比较低的技术问题。
本发明提供的一种事件抽取方法,所述方法适用于预先训练好的BERT序列标注模型以及预先训练好的Argument Span模型,所述方法包括以下步骤:
S1:获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;
S2:对经过匹配处理的字符串进行预处理,将经过预处理的字符串输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征;将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
S3:将触发词和事件元素进行组合,形成一个完整事件。
优选的,模式匹配法基于正则表达式从待匹配字符串中匹配出候选事件元素;字符串匹配法基于AC自动机从待匹配字符串中匹配出候选事件元素。
优选的,AC自动机根据预先设置的字符串匹配规则生成。
优选的,在AC自动机中为字符串匹配规则分配权重,AC自动机在匹配过程中优先选择权重最大的字符串匹配规则进行匹配。
优选的,训练好的BERT序列标注模型以BIO格式输出每一个触发词,其中B代表触发词中的起始字符,I代表触发词的中间字符,O表示该字符不在词汇中。
优选的,BERT序列标注模型由嵌入层、编码层、输出层组成;其中,嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层,编码层为BertEncoder,输出层为全连接层。
优选的,触发词的特征为触发词的位置。
一种事件抽取系统,包括字符串匹配模块、字符串预处理模块、BERT序列标注模型模块、Argument Span模型模块以及事件组合模块;
字符串匹配模块用于获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;
字符串预处理模块用于对经过匹配处理的字符串进行预处理;
BERT序列标注模型模块用于对BERT序列标注模型模块进行训练,得到训练好的BERT序列标注模型模块;将经过预处理的字符串输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征;
Argument Span模型模块用于对Argument Span模型进行训练,得到训练好的Argument Span模型;将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
事件组合模块用于将触发词和事件元素进行组合,形成一个完整事件。
一种存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述的一种事件抽取方法的步骤。
一种设备,包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述的一种事件抽取方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例通过对文本中的字符串进行匹配,得到候选事件元素,将候选事件元素输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征并将两者输入到训练好的Argument Span模型中,得到事件元素;最后将触发词和事件元素进行组合,从而形成一个完整事件。本发明实施例在进行事件抽取的过程中无需进行人工标注,利用匹配法来实现候选时间的匹配,利用机器学习来完成触发词和事件元素的抽取,将字符串多模匹配算法和机器学习相互结合完成了事件抽取,大大提高了事件抽取的准确率以及效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种事件抽取方法、系统、存储介质以及设备的方法流程图。
图2为本发明实施例提供的一种事件抽取方法、系统、存储介质以及设备的系统框架图。
图3为本发明实施例提供的一种事件抽取方法、系统、存储介质以及设备的设备框架图。
具体实施方式
本发明实施例提供了一种事件抽取方法、系统、存储介质以及设备,用于解决现有技术中对事件进行抽取时,存在着事件抽取的准确率比较低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
请参阅图1,图1为本发明实施例提供的一种事件抽取方法、系统、存储介质以及设备的方法流程图。
对本实施例中出现的术语进行解释:
事件触发词(Event Trigger):事件描述中最能代表事件发生的词,是决定事件类别的重要特征,事件触发词一般是动词或名词。
事件元素(EventArgument):事件的参与者,是组成事件的核心部分,与事件触发词构成了事件的整个框架。事件元素主要由实体、时间和属性值等表达完整语义的细粒度单位组成。
事件元素和事件触发词决定了事件的类别。
本发明实施例提供的一种事件抽取方法,所述方法适用于预先训练好的BERT序列标注模型以及预先训练好的Argument Span模型,所述方法包括以下步骤:
S1:获取文本中的待匹配字符串,获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;对待匹配的字符串进行匹配处理主要是用来提取事件元素中的时间、国别、地点等不同领域的不同需求的事件元素。例如对于每一个技术领域,所需要识别的元素是存在千差万别的,分析该技术领域的事件元素类型,需要找出字符串中规律性比较强的字符,例如时间类型大都是xxxx年xx月xx日的格式,国别类型的词是固定集合的词,时间,国别即为规律性强的事件元素,对于这规律性较强的事件元素,通过匹配法对文本中待匹配字符串进行匹配获得;
需要进一步说明的是,AC自动机的底层基于Trie树,Trie树是一种多模式串匹配算法,又称单词查找树或键树,是一种树形结构,利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,因此AC自动机能够快速查找句子中的词,例如将所有国家的名字使用AC自动机来处理构建Trie树,能够快速定位到句子中的国家名字以及国家名字所在的位置。
S2:对经过匹配处理的字符串进行预处理,将经过预处理的字符串输入到训练好的BERT序列标注模型中,训练好的BERT序列标注模型对经过预处理的字符串中的字符进行标注,为序列中的每个字符打上相应的标签,从而完成字符的分类,得到候选事件元素的触发词以及触发词的特征;需要进一步说明的是,在本实施例中,为了提升训练与预测速度,BERT序列标注模型不包括CRF层。将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
S3:将触发词和事件元素进行组合,形成一个完整事件。需要进一步说明的是,在得到事件的触发词与事件元素之后,对抽取出来的事件元素通过预先设置的筛选条件进行处理:例如,当字符串“位于”作为触发词时,事件元素的主体不可以是人名,当触发词是进行类的词时,例如进行、举行等词时,事件元素的客体如果包含“的***”等子字符串作为结尾,则此字符串是多余,将其删除。当事件的合并条件为当两个触发词是紧邻时,则提取为一个事件,并且两个事件的事件主体和事件客体是共享的。在对组合后的触发词和事件元素进行处理后,形成了一个完整的事件。
实施例2
如图1所示,本发明实施例提供的一种事件抽取方法,所述方法适用于预先训练好的BERT序列标注模型以及预先训练好的Argument Span模型,所述方法包括以下步骤:
S1:获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;对待匹配的字符串进行匹配处理主要是用来提取事件元素中的时间、国别、地点等不同领域的不同需求的事件元素。例如对于每一个技术领域,所需要识别的元素是存在千差万别的,分析该技术领域的事件元素类型,需要找出字符串中规律性比较强的字符,例如时间类型大都是xxxx年xx月xx日的格式,国别类型的词是固定集合的词,时间,国别即为规律性强的事件元素,对于这规律性较强的事件元素,通过AC自动机对文本中待匹配字符串进行匹配获得;模式匹配法一般使用正则表达式,如时间正则表达式“\d{4}年\d{1,2}月\d{1,2}日”能够从待识别的字符串中抽取“xxxx年xx月xx日”格式的时间。
需要进一步说明的是,AC自动机根据预先设置的字符串匹配规则生成,AC自动机的底层基于Trie树,Trie树是一种多模式串匹配算法,又称单词查找树或键树,是一种树形结构,Trie树中的每个结点除了有指向子节点的指针,还有一个fail指针,它表示输入的字符与当前结点的所有子结点都不匹配时,AC自动机应转移到的状态;Trie树中每个结点的fail指针表示由根结点到该结点所组成的字符序列的所有后缀和整个目标字符串集合(也即整个Trie树)中的所有前缀两者中最长公共的部分。因此,AC自动机利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,因此能够快速查找句子中的词,例如将所有国家的名字使用AC自动机来处理构建Trie树,能够快速定位到句子中的国家名字以及国家名字所在的位置。
需要进一步说明的是,在AC自动机中为字符串匹配规则分配权重,AC自动机在匹配过程中优先选择权重最大的字符串匹配规则进行匹配。以事件元素中的时间为例,如时间的抽取规则1:xxxx年xx月xx日,但是时间又不总是有年份的,所有增加抽取规则2:xx月xx日;由于抽取规则1能抽取的范围比抽取规则2长,所以给抽取规则1设置权重为5,抽取规则2设置权重为4,目的是当遇到规则冲突的情况,选择权重最高的规则来识别。
S2:对经过匹配处理的字符串进行预处理,将字符串拆分成一系列字符,将经过预处理的字符串输入到训练好的BERT序列标注模型中,训练好的BERT序列标注模型对经过预处理的字符串中的字符进行标注,为序列中的每个字符打上相应的标签,从而完成字符的分类,得到候选事件元素的触发词以及触发词的位置;需要进一步说明的是,在本实施例中,为了提升训练与预测速度,BERT序列标注模型不包括CRF层。将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
需要进一步说明的是,在对BERT序列标注模型进行训练时,需要对数据进行预处理,将原文本拆分成一系列的汉字,并对每个汉字进行词性标注。这种分词处理有多种体系,这里使用“BIO”,其中“B”表示该汉字是词汇开始字符,同时也可以表示单字词;“I”表示该汉字是词汇的中间字符;“O”表示该汉字不在词汇当中。“O”在词性标注任务当中不会出现,但是在命名实体标注中有意义;训练好的BERT序列标注模型以BIO格式输出每一个触发词。
需要进一步说明的是,BERT序列标注模型由嵌入层、编码层、输出层组成;其中,嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层,编码层为BertEncoder,输出层为全连接层。
嵌入层将输入的字符串在子词嵌入层、位置嵌入层和分割嵌入层中分别转换为子词嵌入、位置嵌入和分割嵌入等三个词嵌入特征;子词(WordPiece)是指将字符串划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。在子词嵌入层中,把字符串切割为单字的文本列表,将这个文本列表作为tokens,在tokens的开始([CLS])和结束([SEP])处添加额外的token,token的目的是作为分类任务的输入表示,并分隔一对输入文本;之后,将每个token转换为768维向量表示形式,例如若输入的是4个字的字符串,在加上开始和结束额外的token,则共有6个token,将6个token转换成一个形状为(6,768)的矩阵;位置嵌入层用于将字符串的位置信息编码成特征向量;分割嵌入层中只有两个向量表示,用于区分两个句子,第一个向量(索引0)分配给属于输入1的所有tokens,而最后一个向量(索引1)分配给属于输入2的所有tokens。如果一个输入只有一个输入语句,那么它的分割嵌入就是对应于分割嵌入中的索引为0的向量。编码层将基于嵌入层输出的每个子词的向量,为每个待分类的字符构造代表其语义的向量表示,将每个字符对应的向量表示输入到一个全连接层进行分类,输出一个2维的向量,向量中的第一个值为该字符属于第一类的概率值,例如,属于触发词的概率;向量中的第二个值该字符属于第二类的概率值,例如,不属于触发词的概率;输出的2维的向量之和为1,取概率最大的类别作为该字符的实体分类标记,从而得到候选事件元素的触发词以及触发词的位置。
Argument Span模型基本结构与BERT序列标注模型类似,同样由嵌入层、编码层、输出层组成,但是在嵌入层修改了BERT的segment id,使用1表示触发词出现的位置,通过触发词出现的位置,和与其对应的事件元素来保证触发词和事件元素之间联系。具体的工作流程为输入触发词的位置,以及触发词所在的字符串,首先嵌入层将输入的文本转换成子词嵌入、位置嵌入和分割嵌入等三个词嵌入特征,在子词嵌入特征中把触发词的位置替换为1,编码层将基于嵌入层输出的每个子词的向量,为每个待分类的字构造代表其语义的向量表示。输出层将每个字对应的向量表示最后输入到一个全连接层进行多分类,取概率最大的类别作为该字的实体分类标记,得到事件元素;如果字符串中具有多个触发词,则进行多次预测,每次输入触发词位置和触发词所在的字符串;
S3:将触发词和事件元素进行组合,形成一个完整事件。需要进一步说明的是,在得到事件的触发词与事件元素之后,对抽取出来的事件元素通过预先设置的筛选条件进行处理:例如,当字符串“位于”作为触发词时,事件元素的主体不可以是人名,当触发词是进行类的词时,例如进行、举行等词时,事件元素的客体如果包含“的***”等子字符串作为结尾,则此字符串是多余,将其删除。当事件的合并条件为当两个触发词是紧邻时,则提取为一个事件,并且两个事件的事件主体和事件客体是共享的,在对组合后的触发词和事件元素进行处理后,形成了一个完整的事件。
实施例3
如图2所示,一种事件抽取系统,包括字符串匹配模块201、字符串预处理模块202、BERT序列标注模型模块203、Argument Span模型模块204以及事件组合模块205;
字符串匹配模块201用于获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;
字符串预处理模块202用于对经过匹配处理的字符串进行预处理;
BERT序列标注模型模块203用于对BERT序列标注模型模块进行训练,得到训练好的BERT序列标注模型模块;将经过预处理的字符串输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征;
Argument Span模型204用于对Argument Span模型进行训练,得到训练好的Argument Span模型;将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
事件组合模块205用于将触发词和事件元素进行组合,形成一个完整事件。
一种存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述的一种事件抽取方法的步骤。
如图3所示,一种设备30,所述设备包括处理器300以及存储器301;
所述存储器301用于存储程序代码302,并将所述程序代码302传输给所述处理器;
所述处理器300用于根据所述程序代码302中的指令执行上述的一种事件抽取方法中的步骤。
示例性的,所述计算机程序302可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器301中,并由所述处理器300执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序302在所述终端设备30中的执行过程。
所述终端设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器300、存储器301。本领域技术人员可以理解,图3仅仅是终端设备30的示例,并不构成对终端设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器300可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-ProgrammaBle GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器301可以是所述终端设备30的内部存储单元,例如终端设备30的硬盘或内存。所述存储器301也可以是所述终端设备30的外部存储设备,例如所述终端设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器301还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。所述存储器301用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器301还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种事件抽取方法,其特征在于,所述方法适用于预先训练好的BERT序列标注模型以及预先训练好的Argument Span模型,所述方法包括以下步骤:
S1:获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;
S2:对经过匹配处理的字符串进行预处理,将经过预处理的字符串输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征;将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
S3:将触发词和事件元素进行组合,形成一个完整事件。
2.根据权利要求1所述的一种事件抽取方法,其特征在于,模式匹配法基于正则表达式从待匹配字符串中匹配出候选事件元素;字符串匹配法基于AC自动机从待匹配字符串中匹配出候选事件元素。
3.根据权利要求2所述的一种事件抽取方法,其特征在于,AC自动机根据预先设置的字符串匹配规则生成。
4.根据权利要求3所述的一种事件抽取方法,其特征在于,在AC自动机中为字符串匹配规则分配权重,AC自动机在匹配过程中优先选择权重最大的字符串匹配规则进行匹配。
5.根据权利要求4所述的一种事件抽取方法,其特征在于,训练好的BERT序列标注模型以BIO格式输出每一个触发词,其中B代表触发词中的起始字符,I代表触发词的中间字符,O表示该字符不在词汇中。
6.根据权利要求1所述的一种事件抽取方法,其特征在于,BERT序列标注模型由嵌入层、编码层、输出层组成;其中,嵌入层包括子词嵌入层、位置嵌入层和分割嵌入层,编码层为BertEncoder,输出层为全连接层。
7.根据权利要求1所述的一种事件抽取方法,其特征在于,触发词的特征为触发词的位置。
8.一种事件抽取系统,其特征在于,包括字符串匹配模块、字符串预处理模块、BERT序列标注模型模块、Argument Span模型模块以及事件组合模块;
字符串匹配模块用于获取文本中的待匹配字符串,基于匹配法对文本中的待匹配字符串进行匹配处理,得到候选事件元素;其中,匹配法为模式匹配法或字符串匹配法;
字符串预处理模块用于对经过匹配处理的字符串进行预处理;
BERT序列标注模型模块用于对BERT序列标注模型模块进行训练,得到训练好的BERT序列标注模型模块;将经过预处理的字符串输入到训练好的BERT序列标注模型中,得到候选事件元素的触发词以及触发词的特征;
Argument Span模型模块用于对Argument Span模型进行训练,得到训练好的ArgumentSpan模型;将候选事件元素的触发词以及触发词的特征输入到训练好的Argument Span模型中,得到事件元素;
事件组合模块用于将触发词和事件元素进行组合,形成一个完整事件。
9.一种存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7中任一项所述一种事件抽取方法的步骤。
10.一种设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1~7任一项所述的一种事件抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010952877.6A CN112084381A (zh) | 2020-09-11 | 2020-09-11 | 一种事件抽取方法、系统、存储介质以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010952877.6A CN112084381A (zh) | 2020-09-11 | 2020-09-11 | 一种事件抽取方法、系统、存储介质以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084381A true CN112084381A (zh) | 2020-12-15 |
Family
ID=73738062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010952877.6A Pending CN112084381A (zh) | 2020-09-11 | 2020-09-11 | 一种事件抽取方法、系统、存储介质以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084381A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541341A (zh) * | 2020-12-18 | 2021-03-23 | 广东电网有限责任公司 | 一种文本事件元素提取方法 |
CN113177416A (zh) * | 2021-05-17 | 2021-07-27 | 同济大学 | 一种联合序列标注和模式匹配的事件元素检测方法 |
CN113222119A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | 利用拓扑依存关系多视角图编码器的论元抽取方法 |
CN113241138A (zh) * | 2021-06-21 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
CN113255322A (zh) * | 2021-06-10 | 2021-08-13 | 深圳追一科技有限公司 | 事件抽取方法、装置、计算机设备和计算机可读存储介质 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113408279A (zh) * | 2021-06-23 | 2021-09-17 | 平安科技(深圳)有限公司 | 序列标注模型的训练方法、装置、设备及存储介质 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN113705218A (zh) * | 2021-09-03 | 2021-11-26 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113761132A (zh) * | 2021-09-09 | 2021-12-07 | 上海明略人工智能(集团)有限公司 | 一种事件检测方法、系统、电子设备及存储介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
WO2022134071A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN111222305A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN111428504A (zh) * | 2020-03-17 | 2020-07-17 | 北京明略软件系统有限公司 | 一种事件抽取方法和装置 |
-
2020
- 2020-09-11 CN CN202010952877.6A patent/CN112084381A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
CN109858018A (zh) * | 2018-12-25 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向威胁情报的实体识别方法及系统 |
CN111222305A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 一种信息结构化方法和装置 |
CN111428504A (zh) * | 2020-03-17 | 2020-07-17 | 北京明略软件系统有限公司 | 一种事件抽取方法和装置 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541341A (zh) * | 2020-12-18 | 2021-03-23 | 广东电网有限责任公司 | 一种文本事件元素提取方法 |
WO2022134071A1 (zh) * | 2020-12-25 | 2022-06-30 | 京东方科技集团股份有限公司 | 文本抽取方法及装置、计算机可读存储介质以及电子设备 |
CN113392213A (zh) * | 2021-04-19 | 2021-09-14 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113392213B (zh) * | 2021-04-19 | 2024-05-31 | 合肥讯飞数码科技有限公司 | 事件抽取方法以及电子设备、存储装置 |
CN113177416B (zh) * | 2021-05-17 | 2022-06-07 | 同济大学 | 一种联合序列标注和模式匹配的事件元素检测方法 |
CN113177416A (zh) * | 2021-05-17 | 2021-07-27 | 同济大学 | 一种联合序列标注和模式匹配的事件元素检测方法 |
CN113222119A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | 利用拓扑依存关系多视角图编码器的论元抽取方法 |
CN113222119B (zh) * | 2021-05-28 | 2022-09-20 | 北京理工大学 | 利用拓扑依存关系多视角图编码器的论元抽取方法 |
CN113255322A (zh) * | 2021-06-10 | 2021-08-13 | 深圳追一科技有限公司 | 事件抽取方法、装置、计算机设备和计算机可读存储介质 |
CN113241138A (zh) * | 2021-06-21 | 2021-08-10 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
CN113241138B (zh) * | 2021-06-21 | 2022-06-17 | 中国平安人寿保险股份有限公司 | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 |
CN113408279A (zh) * | 2021-06-23 | 2021-09-17 | 平安科技(深圳)有限公司 | 序列标注模型的训练方法、装置、设备及存储介质 |
CN113408279B (zh) * | 2021-06-23 | 2022-05-20 | 平安科技(深圳)有限公司 | 序列标注模型的训练方法、装置、设备及存储介质 |
CN113468889A (zh) * | 2021-06-29 | 2021-10-01 | 上海犀语科技有限公司 | 一种基于bert预训练模型信息提取的方法和装置 |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理系统 |
CN113705218B (zh) * | 2021-09-03 | 2023-03-21 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
CN113705218A (zh) * | 2021-09-03 | 2021-11-26 | 四川大学 | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 |
CN113761132A (zh) * | 2021-09-09 | 2021-12-07 | 上海明略人工智能(集团)有限公司 | 一种事件检测方法、系统、电子设备及存储介质 |
CN113761132B (zh) * | 2021-09-09 | 2024-03-19 | 上海明略人工智能(集团)有限公司 | 一种事件检测方法、系统、电子设备及存储介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN112800201B (zh) | 自然语言的处理方法、装置及电子设备 | |
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
US20230195773A1 (en) | Text classification method, apparatus and computer-readable storage medium | |
CN110196906B (zh) | 面向金融行业的基于深度学习文本相似性检测方法 | |
CN113591457B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN112084746A (zh) | 一种实体识别方法、系统、存储介质及设备 | |
CN110457676B (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN112818117A (zh) | 标签映射方法、系统、计算机可读存储介质 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113918686A (zh) | 智能问答模型构建方法、装置、计算机设备及存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |