CN112149386A - 一种事件抽取方法、存储介质及服务器 - Google Patents
一种事件抽取方法、存储介质及服务器 Download PDFInfo
- Publication number
- CN112149386A CN112149386A CN202011028849.1A CN202011028849A CN112149386A CN 112149386 A CN112149386 A CN 112149386A CN 202011028849 A CN202011028849 A CN 202011028849A CN 112149386 A CN112149386 A CN 112149386A
- Authority
- CN
- China
- Prior art keywords
- event
- text
- trigger word
- trigger
- argument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 125
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000002372 labelling Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种事件抽取方法、存储介质及服务器,该事件抽取方法包括:获取待抽取的文本语料;对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;对文本语料中的每条文本进行人工标注;将专业领域的roberta模型、触发词识别模块、事件类型识别模块及事件论元识别模块组成一个事件抽取模型;根据经过人工标注的文本语料对事件抽取模型进行监督训练;将文本语料中的每条文本输入事件抽取模型,由事件抽取模型提取每条文本中的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型;整合所得到的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型,得到事件抽取结果。提升事件抽取模型提取事件的精度和效率。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种事件抽取方法、存储介质及服务器。
背景技术
事件抽取,指的是将需要的事件的信息从非结构化的文本中提取出来,整合成结构化的形式。文本的事件抽取通过包括事件类型判断、事件触发词提取、事件论元的提取。其中,事件论元包括事件主体、事件客体、时间、地点等。事件抽取在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。在真实的场景中,由于文本中存在句式复杂、主被动转换、多事件主客体共享等难点,因此事件抽取是一项极具挑战的抽取任务。
发明内容
本发明提供了一种事件抽取方法、存储介质及服务器,用以提高事件抽取的准确性及效率。
第一方面,本发明提供了一种事件抽取方法,该事件抽取方法包括:
获取待抽取的文本语料,其中,该文本语料包括至少一条文本;
根据待抽取的文本语料,对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;
对文本语料中的每条文本进行人工标注,标注标签包括事件触发词及事件论元标签、每个事件触发词对应的事件论元标签、每条文本的事件类型标签;
将专业领域的roberta模型、触发词识别模块、事件类型识别模块及事件论元识别模块组成一个事件抽取模型;
根据经过人工标注的文本语料对事件抽取模型进行监督训练;
将文本语料中的每条文本输入事件抽取模型,由事件抽取模型提取每条文本中的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型;
整合所得到的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型,得到事件抽取结果。
在上述的方案中,通过利用待抽取的语料文本对通用领域的roberta模型进行预训练后,所得到的专业领域的roberta模型可以更好地捕捉到待抽取的语料文本中的独有信息。并且进行预训练可以减少字的unk(unknown)的情况,为准确提取事件的特征打下基础。对于上述标注出的事件触发词及事件论元标签,主要是为了后续步骤中的触发词识别模块提取事件触发词,为了提升触发词识别模块提取事件触发词的准确率。且通过采用一个事件抽取模型同时预测事件类型、事件触发词、事件论元,无需采用多个模型共同协作的方式,减少模型层与层之间传播时产生的积累误差,提升事件抽取模型提取事件的精度和效率。
在一个具体的实施方式中,通用领域的roberta模型为基于中文维基百科训练的通用的roberta模型。
在一个具体的实施方式中,标注方法采用BEIO加所属事件类型的标注方法。
在一个具体的实施方式中,由事件抽取模型提取每条文本中事件的触发词、每个事件触发词对应的事件论元及每条文本的事件类型为:
触发词识别模块提取每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置;
事件类型识别模块提取每条文本的事件类型;
将每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入事件抽取模型,由事件论元识别模块提取每个事件触发词对应的事件论元。
在一个具体的实施方式中,触发词识别模块提取每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置具体为:
触发词识别模块识别每条文本中的事件触发词及事件论元;
根据所识别到的事件触发词及事件论元,触发词识别模块提取每条文本中的事件触发词。对于触发词识别模块在识别时,不仅识别出事件触发词标签,还识别出事件论元的标签,提升触发词识别模块提取事件触发词的准确率。对于具有多个事件触发词的情况,采用事件抽取模型自动确定事件触发词对应的事件论元,提升事件触发词和相应的事件论元的准确率。
在一个具体的实施方式中,触发词识别模块对应于一个双向的lstm和线性分类层。触发词识别模块接收从事件抽取模型中的roberta模型输出的每个token;根据对应的一个双向的lstm和线性分类层,得到每个token对应的事件触发词类别的概率;根据每个token对应的事件触发词类别的概率,得到每个文本中的事件触发词及事件论元。
在一个具体的实施方式中,事件类型识别模块提取每条文本的事件类型具体为:根据每条文本的特征向量确定每条文本的事件类型。
在一个具体的实施方式中,事件类型识别模块对应于一个线性分类层。事件类型识别模块接收事件抽取模块中的roberta模型输出的每条文本的特征向量;根据对应的一个线性分类层,得到每条文本的事件类型的概率;根据所得到的每条文本的事件类型的概率,得到每条文本的事件类型。
在一个具体的实施方式中,事件论元识别模块对应于一个一维的cnn和线性分类层。将每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入事件抽取模型,由事件论元识别模块提取每个事件触发词对应的事件论元具体为:将每条文本与从该条文本中提取出的每个事件触发词通过分隔符隔开;将每条文本、分隔符及从该条文本中提取出的每个事件触发词输入事件抽取模型;事件论元识别模块接收从事件抽取模型的roberta模型中输出的每个token;根据对应的一个一维的cnn和线性分类层,得到每个token对应的事件论元类别的概率;根据每个token对应的事件论元类别的概率,得到每个事件触发词对应的事件论元。
在一个具体的实施方式中,事件抽取模块中的触发词识别模块、事件类型识别模块及事件论元识别模块中的每个模块的损失函数均选择交叉熵损失函数;触发词识别模块、事件类型识别模块及事件论元识别模块的总损失函数为三个模块的损失函数的加权平均。
在一个具体的实施方式中,对文本语料中的每条文本中的事件触发词及事件论元标签进行标注包括:
在每条文本中具有同名的事件触发词时,得到同名的事件触发词中的一个事件触发词和当前的一个事件触发词的位置;
用替换字符替换每条文本中其他位置的同名的事件触发词;
找到距离该当前的一个事件触发词最近的事件论元;
对当前的事件触发词及距离该事件触发词最近的事件论元进行标注。对于同名的事件触发词,根据事件抽取模型输出事件触发词的位置来唯一确定事件触发词,通过诸如*等的替换字符替换掉其他的同名事件触发词,减少同名事件触发词的干扰,提升预测的准确率。
在一个具体的实施方式中,根据经过人工标注的文本语料对事件抽取模型进行监督训练具体为:
将标注后的语料文本划分成训练集、验证集和测试集;
利用训练集对事件抽取模型进行训练;
利用验证集对事件抽取模型的参数进行调节;
利用测试集对参数调节后的事件抽取模型进行测试,当测试集测试的结果大于预设的评价时,选取该调节后的参数作为事件抽取模型的参数。通过多任务的联合训练的方式能够提升事件抽取模型的效率和准确率。
第二方面,本发明还提供了一种存储介质,该存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行上述任一种事件抽取方法。
第三方面,本发明还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有计算机程序,处理器通过调用存储器中存储的计算机程序,用于执行上述任一种事件抽取方法。
附图说明
图1为本发明实施例提供的一种事件抽取方法的流程图;
图2为本发明实施例提供的一种事件抽取模型抽取待抽取文本的事件触发词、事件类型及对应的事件论元的流程图;
图3为本发明实施例提供的一种事件抽取模型结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便理解本发明实施例提供的事件抽取方法,下面首先说明一下本发明实施例提供的事件抽取方法的应用场景,该事件抽取方法应用于从语料文本中抽取出事件。下面结合附图对该事件抽取方法进行详细的叙述。
参考图1,本发明实施例提供的事件抽取方法包括:
S10:获取待抽取的文本语料,其中,该文本语料包括至少一条文本;
S20:根据待抽取的文本语料,对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;
S30:对文本语料中的每条文本进行人工标注,标注标签包括事件触发词及事件论元标签、每个事件触发词对应的事件论元标签、每条文本的事件类型标签;
S40:将专业领域的roberta模型、触发词识别模块、事件类型识别模块及事件论元识别模块组成一个事件抽取模型;
S50:根据经过人工标注的文本语料对事件抽取模型进行监督训练;
S60:将文本语料中的每条文本输入事件抽取模型,由事件抽取模型提取每条文本中的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型;
S70:整合所得到的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型,得到事件抽取结果。
在上述的方案中,通过利用待抽取的语料文本对通用领域的roberta模型进行预训练后,所得到的专业领域的roberta模型可以更好地捕捉到待抽取的语料文本中的独有信息。并且进行预训练可以减少字的unk(unknown)的情况,为准确提取事件的特征打下基础。对于上述标注出的事件触发词及事件论元标签,主要是为了后续步骤中的触发词识别模块提取事件触发词,为了提升触发词识别模块提取事件触发词的准确率。且通过采用一个事件抽取模型同时预测事件类型、事件触发词、事件论元,无需采用多个模型共同协作的方式,减少模型层与层之间传播时产生的积累误差,提升事件抽取模型提取事件的精度和效率。下面结合附图对上述各个步骤的具体操作进行详细的介绍。
首先,参考图1,获取待抽取的文本语料,其中,该文本语料中包括至少一条文本。该文本语料中的每条文本可以为一条体育新闻、财经新闻、军事新闻、社会新闻、娱乐新闻、历史新闻等。
接下来,根据待抽取的文本语料对通用领域的roberta模型进行预训练,得到专业领域的roberta模型。其中,通用领域的roberta模型可以为基于中文维基百科、百度百科、新浪及微博等数据库训练的通用的roberta模型。具体采用待提取热点的文本语料对通用领域的roberta模型进行预训练以得到专业领域的roberta模型的方式为现有技术中的预训练方式。通用的roberta模型会按照vocab.txt文件进行字符级别的切割,在待提取热点的文本语料中,如果存在vocab.txt里没有包含的字,就将其添加到vocab.txt里,并按照vocab.txt的长度扩展通用的roberta模型的embedding层。通过对通用领域的roberta模型进行预训练,能够使所得到的专业领域的roberta模型更适合提取特定语料文本的语义特征,减少字符的unk情况,提高事件抽取的准确性。
接下来,对文本语料中的每条文本进行人工标注,标注标签包括事件触发词及事件论元标签、每个事件触发词对应的事件论元标签、每条文本的事件类型标签。这里面需要说明的是:一条文本可以有多个事件触发词,每个事件触发词对应有一个事件论元,待抽取的文本加上事件触发词唯一确定事件论元,该事件论元包括事件主体、事件客体、事件发生的时间、事件发生的地点等。每个事件触发词对应一个事件类型,每个事件类型可以对应多个事件触发词。且对于事件类型标签,只需要对每条待抽取的文本标注一个事件类型就可以。
在此步骤中,人工标注需要标注3种不同类型的标签,这3种不同类型的标签分别是事件触发词及事件论元标签、事件类型标签、每个事件触发词对应的事件论元标签。对于上述标注出的事件触发词及事件论元标签,主要是为了后续步骤中的触发词识别模块提取事件触发词,为了提升触发词识别模块提取事件触发词的准确率。
标注方法可以采用BEIO加所属事件类型的标注方法,下面以事件论元包括事件主体及事件客体为例进行说明。在标注事件触发词、事件触发词对应的事件主体及事件客体时,事件触发词、事件主体、事件客体可以采用BEIO加上类型的方法。其中的B代表实体的开始,E代表实体的结束,I代表实体的中间位置,O代表非实体。比如事件触发词标注为B_trigger,I_trigger,E_trigger。事件主体标注为B_Subject,I_Subject,E_Subject。事件客体标注为B_object,I_object,E_object。应当理解的是,标注方法并不限于采用BEIO的标注方法,除此之外,还可以采用其他的标注方法。例如,还可以采用BMES、BEIOS等的标注方法。
另外在对文本语料中的每条文本中的事件触发词及事件论元标签进行标注时,如果在每条文本中具有同名的事件触发词,则可以对其中一个事件触发词标注时,将其他同名的事件触发词采用替换字符进行替换,减少同名事件触发词的干扰。具体的方式为:可以先得到同名的事件触发词中的一个事件触发词和当前的一个事件触发词的位置。之后,用替换字符替换每条文本中其他位置的同名的事件触发词。之后,找到距离该当前的一个事件触发词最近的事件论元。接下来,对当前的事件触发词及距离该事件触发词最近的事件论元进行标注。对于同名的事件触发词,根据事件抽取模型输出事件触发词的位置来唯一确定事件触发词,通过诸如*等的替换字符替换掉其他的同名事件触发词,减少同名事件触发词的干扰,提升预测的准确率。
接下来,将专业领域的roberta模型、触发词识别模块、事件类型识别模块及事件论元识别模块组成一个事件抽取模型。即事件抽取模型由专业领域的roberta模型加上3个特定模块组成。其中,3个特定模块分别是触发词识别模块、事件类型识别模块和对每个事件触发词对应的事件论元进行识别的事件论元识别模块。
接下来,根据经过人工标注的文本语料对事件抽取模型进行监督训练。在根据经过人工标注的文本语料对事件抽取模型进行监督训练时,首先将标注后的语料文本划分成训练集、验证集和测试集。然后,利用训练集对事件抽取模型进行训练。之后,利用验证集对事件抽取模型的参数进行调节。再后来,利用测试集对参数调节后的事件抽取模型进行测试。重复上述步骤,至到当测试集测试的结果大于预设的评价时,选取该调节后的参数作为事件抽取模型的参数。通过多任务的联合训练的方式能够提升事件抽取模型的效率和准确率。
接下来,将文本语料中的每条文本输入事件抽取模型,由事件抽取模型提取每条文本中的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型。
具体在由事件抽取模型提取每条文本中事件的触发词、每个事件触发词对应的事件论元及每条文本的事件类型时,参考图2:
S61:由触发词识别模块提取每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置;
S62:由事件类型识别模块提取每条文本的事件类型;
S63:将每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入事件抽取模型,由事件论元识别模块提取每个事件触发词对应的事件论元。接下来,对上述每一步骤进行详细的介绍。
首先,将待抽取的文本语料输入到事件抽取模型中,先由事件抽取模型输出得到待抽取的文本的触发词和事件类型。具体地,将待抽取的文本依据vocab.txt文件转换成数字id。在此过程中,会形成vocab.txt文件与数字id之间表示对应关系的映射字典。将数字id输入到事件抽取模型中,依据触发词识别模块、事件类型识别模块得到对应事件的触发词标签和触发词位置信息以及事件类型的标签。
其中,在触发词识别模块提取每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置时,可以先由触发词识别模块识别每条文本中的事件触发词及事件论元。之后,根据所识别到的事件触发词及事件论元,由触发词识别模块提取每条文本中的事件触发词。对于触发词识别模块在识别时,不仅识别出事件触发词标签,还识别出事件论元的标签,提升触发词识别模块提取事件触发词的准确率。对于多个事件触发词的情况,采用事件抽取模型自动确定事件触发词对应的事件论元,提升事件触发词和相应的事件论元的准确率。
可以使触发词识别模块对应于一个双向的lstm和线性分类层。在触发词识别模块提取每条文本中的事件触发词及事件论元时,触发词识别模块接收从事件抽取模型中的roberta模型输出的每个token。对于触发词识别模块只选择专业领域的roberta模型输出的待抽取的文本部分的特征。之后,根据对应的一个双向的lstm和线性分类层,得到每个token对应的事件触发词类别的概率。再后来,根据每个token对应的事件触发词类别的概率,得到每个文本中的事件触发词及事件论元。通过待抽取的文本特征去预测事件的触发词、事件论元,引入事件论元的预测能够提升触发词识别的准确率。
在事件类型识别模块提取每条文本的事件类型时,可以根据每条文本的特征向量确定每条文本的事件类型。具体的,可以使事件类型识别模块对应于一个线性分类层。首先,由事件类型识别模块接收事件抽取模块中的roberta模型输出的每条文本的特征向量。对于事件类型识别模块同样选择专业领域的roberta模型输出的待抽取的文本部分的特征。之后,根据对应的一个线性分类层,得到每条文本的事件类型的概率。可以选择cls字符的特征来当做整个待提取文本的一个特征向量,通过cls字符的特征向量预测待抽取文本的事件类型的概率。可以通过接收事件抽取模块中的roberta模型的cls字符的输出,以得到事件类型的概率。再后来,根据所得到的每条文本的事件类型的概率,得到每条文本的事件类型。具体的,可以根据映射字典和从数字id中提取出事件触发词文本,之后根据事件触发词及事件类型之间的映射字典,转换得到事件类型文本。
接下来,将每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入事件抽取模型,由事件论元识别模块提取每个事件触发词对应的事件论元。
具体的,可以使事件论元识别模块对应于一个一维的cnn和线性分类层。在将每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入事件抽取模型,由事件论元识别模块提取每个事件触发词对应的事件论元时,可以先将每条文本与从该条文本中提取出的每个事件触发词通过分隔符隔开。之后,将每条文本、分隔符及从该条文本中提取出的每个事件触发词输入事件抽取模型。之后,事件论元识别模块接收从事件抽取模型的roberta模型中输出的每个token。之后,根据对应的一个一维的cnn和线性分类层,得到每个token对应的事件论元类别的概率。之后,根据每个token对应的事件论元类别的概率,得到每个事件触发词对应的事件论元。即事件论元识别模块通过选择专业领域的roberta模型输出的待抽取的文本部分的特征和触发词的组合特征,依据组合特征预测事件论元。具体的预测方式为:事件论元识别模块接收roberta模型的每个token的输出,从而得到每个token对应的事件论元类别的概率。根据每个token对应的事件论元类别的概率,得到每个事件触发词对应的事件论元。
在将每条文本与从该条文本中提取出的每个事件触发词通过分隔符隔开时,参考图3,可以在待抽取文本与触发词之间通过诸如sep等特殊字符分割。还可以在待抽取文本和触发词的开头位置加上诸如cls等特殊字符。还可以在待抽取文本和触发词的结尾位置加上诸如sep等特殊字符。具体的,可以将前述步骤中提取出来的触发词依据vocab.txt文本转换成数字id,和待抽取文本的数字id进行拼接。在拼接id串的过程中,中间插入诸如sep等特殊字符的数字id以进行分割区分。将合并后的数字id串输入到事件抽取模型中,依据事件论元识别模块得到对应事件触发词的事件论元。
另外,可以使事件抽取模块中的触发词识别模块、事件类型识别模块及事件论元识别模块中的每个模块的损失函数均选择交叉熵损失函数。使触发词识别模块、事件类型识别模块及事件论元识别模块的总损失函数为三个模块的损失函数的加权平均。
接下来,整合所得到的事件触发词、每个事件触发词对应的事件论元及每条文本的事件类型,得到事件抽取结果。事件抽取结果可以由事件触发词、事件类型及事件论元组成的一句话展示出来,也可以通过表格方式列出该文本语料中每条文本的事件触发词、事件类型及事件论元。
通过利用待抽取的语料文本对通用领域的roberta模型进行预训练后,所得到的专业领域的roberta模型可以更好地捕捉到待抽取的语料文本中的独有信息。并且进行预训练可以减少字的unk(unknown)的情况,为准确提取事件的特征打下基础。对于上述标注出的事件触发词及事件论元标签,主要是为了后续步骤中的触发词识别模块提取事件触发词,为了提升触发词识别模块提取事件触发词的准确率。且通过采用一个事件抽取模型同时预测事件类型、事件触发词、事件论元,无需采用多个模型共同协作的方式,减少模型层与层之间传播时产生的积累误差,提升事件抽取模型提取事件的精度和效率。
另外,本发明实施例还提供了一种存储介质,该存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行上述任一种事件抽取方法。具有的效果参考上述的描述,在此不再赘述。
另外,本发明实施例还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有计算机程序,处理器通过调用存储器中存储的计算机程序,用于执行上述任一种事件抽取方法。具有的效果参考上述的描述,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (12)
1.一种事件抽取方法,其特征在于,包括:
获取待抽取的文本语料,其中,所述文本语料包括至少一条文本;
根据所述待抽取的文本语料,对通用领域的roberta模型进行预训练,得到专业领域的roberta模型;
对所述文本语料中的每条文本进行人工标注,标注标签包括事件触发词及事件论元标签、每个事件触发词对应的事件论元标签、所述每条文本的事件类型标签;
将所述专业领域的roberta模型、触发词识别模块、事件类型识别模块及事件论元识别模块组成一个事件抽取模型;
根据经过人工标注的文本语料对所述事件抽取模型进行监督训练;
将所述文本语料中的每条文本输入所述事件抽取模型,由所述事件抽取模型提取所述每条文本中的事件触发词、每个事件触发词对应的事件论元及所述每条文本的事件类型;
整合所得到的事件触发词、每个事件触发词对应的事件论元及所述每条文本的事件类型,得到事件抽取结果。
2.如权利要求1所述的事件抽取方法,其特征在于,所述由所述事件抽取模型提取所述每条文本中事件的触发词、每个事件触发词对应的事件论元及所述每条文本的事件类型为:
所述触发词识别模块提取所述每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置;
所述事件类型识别模块提取所述每条文本的事件类型;
将所述每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入所述事件抽取模型,由所述事件论元识别模块提取每个事件触发词对应的事件论元。
3.如权利要求2所述的事件抽取方法,其特征在于,所述触发词识别模块提取所述每条文本中的事件触发词、以及每个事件触发词在该条文本中所在的位置具体为:
所述触发词识别模块识别所述每条文本中的事件触发词及事件论元;
根据所识别到的事件触发词及事件论元,所述触发词识别模块提取所述每条文本中的事件触发词。
4.如权利要求3所述的事件抽取方法,其特征在于,所述触发词识别模块对应于一个双向的lstm和线性分类层;
所述触发词识别模块识别每个文本中的事件触发词及事件论元标签具体为:
所述触发词识别模块接收从所述事件抽取模型中的roberta模型输出的每个token;
根据对应的一个双向的lstm和线性分类层,得到每个token对应的事件触发词类别的概率;
根据每个token对应的事件触发词类别的概率,得到每个文本中的事件触发词及事件论元。
5.如权利要求2所述的事件抽取方法,其特征在于,所述事件类型识别模块提取所述每条文本的事件类型为:
根据所述每条文本的特征向量确定所述每条文本的事件类型。
6.如权利要求5所述的事件抽取方法,其特征在于,所述事件类型识别模块对应于一个线性分类层;
所述事件类型识别模块接收所述事件抽取模型中的roberta模型输出的所述每条文本的特征向量;
根据对应的一个线性分类层,得到所述每条文本的事件类型的概率;
根据所得到的所述每条文本的事件类型的概率,得到所述每条文本的事件类型。
7.如权利要求2所述的事件抽取方法,其特征在于,所述事件论元识别模块对应于一个一维的cnn和线性分类层;
所述将所述每条文本与从该条文本中提取出的每个事件触发词进行组合,并输入所述事件抽取模型,由所述事件论元识别模块提取每个事件触发词对应的事件论元具体为:
将所述每条文本与从该条文本中提取出的每个事件触发词通过分隔符隔开;
将所述每条文本、分隔符及从该条文本中提取出的每个事件触发词输入所述事件抽取模型;
所述事件论元识别模块接收从所述事件抽取模型的roberta模型中输出的每个token;
根据对应的一个一维的cnn和线性分类层,得到每个token对应的事件论元类别的概率;
根据每个token对应的事件论元类别的概率,得到每个事件触发词对应的事件论元。
8.如权利要求1所述的事件抽取方法,其特征在于,所述事件抽取模块中的触发词识别模块、事件类型识别模块及事件论元识别模块中每个模块的损失函数均选择交叉熵损失函数;
所述触发词识别模块、事件类型识别模块及事件论元识别模块的总损失函数为所述三个模块的损失函数的加权平均。
9.如权利要求1所述的事件抽取方法,其特征在于,对所述文本语料中的每条文本中的事件触发词及事件论元标签进行标注包括:
在所述每条文本中具有同名的事件触发词时,得到所述同名的事件触发词中的一个事件触发词和当前的一个事件触发词的位置;
用替换字符替换所述每条文本中其他位置的同名的事件触发词;
找到距离该当前的一个事件触发词最近的事件论元;
对当前的事件触发词及距离该事件触发词最近的事件论元进行标注。
10.如权利要求1所述的事件抽取方法,其特征在于,所述根据经过人工标注的文本语料对所述事件抽取模型进行监督训练具体为:
将标注后的语料文本划分成训练集、验证集和测试集;
利用所述训练集对所述事件抽取模型进行训练;
利用验证集对所述事件抽取模型的参数进行调节;
利用所述测试集对参数调节后的事件抽取模型进行测试,当所述测试集测试的结果大于预设的评价时,选取该调节后的参数作为所述事件抽取模型的参数。
11.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1~10任一项所述的事件抽取方法。
12.一种服务器,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如权利要求1~10任一项所述的事件提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028849.1A CN112149386A (zh) | 2020-09-25 | 2020-09-25 | 一种事件抽取方法、存储介质及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028849.1A CN112149386A (zh) | 2020-09-25 | 2020-09-25 | 一种事件抽取方法、存储介质及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149386A true CN112149386A (zh) | 2020-12-29 |
Family
ID=73897517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011028849.1A Pending CN112149386A (zh) | 2020-09-25 | 2020-09-25 | 一种事件抽取方法、存储介质及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149386A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860852A (zh) * | 2021-01-26 | 2021-05-28 | 北京金堤科技有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN113032520A (zh) * | 2021-02-26 | 2021-06-25 | 北京金堤征信服务有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN113434697A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 事件要素抽取方法、计算机设备及存储介质 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809105A (zh) * | 2015-05-11 | 2015-07-29 | 苏州大学 | 基于最大熵的事件论元及论元角色的识别方法及系统 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
US9652530B1 (en) * | 2014-08-27 | 2017-05-16 | Google Inc. | Generating and applying event data extraction templates |
CN109325228A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 英文事件触发词抽取方法和系统 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
-
2020
- 2020-09-25 CN CN202011028849.1A patent/CN112149386A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9652530B1 (en) * | 2014-08-27 | 2017-05-16 | Google Inc. | Generating and applying event data extraction templates |
CN104809105A (zh) * | 2015-05-11 | 2015-07-29 | 苏州大学 | 基于最大熵的事件论元及论元角色的识别方法及系统 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN109325228A (zh) * | 2018-09-19 | 2019-02-12 | 苏州大学 | 英文事件触发词抽取方法和系统 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860852A (zh) * | 2021-01-26 | 2021-05-28 | 北京金堤科技有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN112860852B (zh) * | 2021-01-26 | 2024-03-08 | 北京金堤科技有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN113032520A (zh) * | 2021-02-26 | 2021-06-25 | 北京金堤征信服务有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN113434697A (zh) * | 2021-06-29 | 2021-09-24 | 平安科技(深圳)有限公司 | 事件要素抽取方法、计算机设备及存储介质 |
CN113779227A (zh) * | 2021-11-12 | 2021-12-10 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113779227B (zh) * | 2021-11-12 | 2022-01-25 | 成都数之联科技有限公司 | 案情事实抽取方法及系统及装置及介质 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN114661881A (zh) | 一种基于问答模式的事件抽取方法、装置和设备 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
CN115730058A (zh) | 一种基于知识融合的推理问答方法 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN114036283A (zh) | 一种文本匹配的方法、装置、设备和可读存储介质 | |
CN112069833B (zh) | 日志分析方法、日志分析装置及电子设备 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113204956A (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
CN115048523B (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN115510192A (zh) | 一种新闻事件脉络关系检测方法及装置 | |
CN113157946B (zh) | 实体链接方法、装置、电子设备及存储介质 | |
Xu et al. | Estimating similarity of rich internet pages using visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |