CN113779182B - 从文本数据抽取事件的方法及装置 - Google Patents
从文本数据抽取事件的方法及装置 Download PDFInfo
- Publication number
- CN113779182B CN113779182B CN202111336032.5A CN202111336032A CN113779182B CN 113779182 B CN113779182 B CN 113779182B CN 202111336032 A CN202111336032 A CN 202111336032A CN 113779182 B CN113779182 B CN 113779182B
- Authority
- CN
- China
- Prior art keywords
- event
- feature
- text data
- character
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种从文本数据抽取事件的方法及装置,所述方法包括:获取文本数据;基于所述文本数据,确定所述文本数据的第一特征序列;对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记;基于标记后的第一特征序列,对所述文本数据中的事件进行抽取。根据本申请的从文本数据抽取事件的方法及装置解决了无法对多个事件分别抽取的问题,能够从文本数据抽取事件的方法及装置能够对输入的自然语言文本中的一个或多个事件分别进行抽取,提高事件抽取的效率和准确性。
Description
技术领域
本申请涉及自然语言处理领域,更具体地讲,涉及一种从文本数据抽取事件的方法及装置。
背景技术
事件抽取(Event Extraction,EE)是自然语言处理领域中的一个典型任务,利用事件抽取技术可以从非结构化信息中抽取出用户感兴趣的事件,并且以结构化形式呈现给用户。
一般来说,事件抽取可以包括触发词识别和事件论元提取,其中,触发词可以表示事件发生的核心词,事件论元可以表示事件的参与者。在现有的事件抽取过程中,通常采用流水线方法或序列标注的方式,对输入的自然语言文本进行顺序标注,以确定事件的触发词和事件论元。
然而,这样的事件抽取方法仅能从输入文本中抽取出单个事件,当输入文本中包括多个事件时,无法针对每个事件进行分别抽取。
发明内容
鉴于现有的事件抽取方法仅能从输入文本中抽取出单个事件而无法对多个事件分别抽取的问题,本申请提供一种从文本数据抽取事件的方法及装置。
根据本申请的第一方面,提供一种从文本数据抽取事件的方法,所述方法包括:获取文本数据;基于所述文本数据,确定所述文本数据的第一特征序列,其中,所述第一特征序列包括字符的在所述文本数据中的序列位置信息以及与所述文本数据中的每个字符对应的第一特征向量,每个第一特征向量包括多个第一特征元素,所述第一特征元素表示字符在一个或多个事件中的每个事件的事件要素中的预定位置的概率;对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记;基于标记后的第一特征序列,对所述文本数据中的事件进行抽取。
可选地,对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记的步骤包括:将所述第一特征序列中的每个第一特征向量的每个第一特征元素和预设阈值进行比较;当所述第一特征元素大于所述预设阈值时,将所述第一特征元素赋值为第一值;当所述第一特征元素小于或等于所述预设阈值时,将所述第一特征元素赋值为第二值。
可选地,基于标记后的第一特征序列,对所述文本数据中的事件进行抽取的步骤包括:基于标记后的第一特征序列,针对所述一个或多个事件中的每个事件,提取赋值为第一值的第一特征元素作为第二特征元素,以获得针对每个事件的第二特征序列,其中,所述第二特征序列包括所述第二特征元素以及对应的字符的序列位置信息;基于所述第二特征序列,对所述文本数据中的事件进行抽取。
可选地,所述预定位置包括事件要素的开始字符位置和结束字符位置,基于所述第二特征序列,对所述文本数据中的事件进行抽取的步骤包括:基于所述第二特征序列,针对事件中的每个事件要素,确定事件要素的与表示开始字符位置的第二特征元素所对应的开始字符以及与表示结束字符位置的第二特征元素所对应的结束字符;基于所述开始字符和所述结束字符,对所述文本数据中的事件进行抽取。
可选地,基于所述开始字符和所述结束字符,对所述文本数据中的事件进行抽取,包括:针对每个事件要素,基于所述开始字符、所述结束字符以及所述序列位置信息,抽取在所述开始字符与所述结束字符之间的所有字符作为中间字符;基于所述开始字符、所述结束字符和所述中间字符,确定组成所述文本数据中的每个事件的每个事件要素的字符组合,以从文本数据抽取所述一个或多个事件中的每个事件。
可选地,所述第一特征向量的维度通过事件的数量、事件要素的数量以及所述预定位置的数量来确定,所述事件要素包括触发词和事件论元,所述事件论元包括主体、客体、时间、地点、原因中的至少一者。
可选地,所述预定位置包括事件要素参考位置、中间字符位置及无关字符位置,所述第一特征向量的维度通过事件的数量、事件要素的数量与事件要素参考位置的数量相乘得到的结果加上中间字符位置的数量和无关字符位置的数量而获得。
根据本申请的第二方面,提供一种从文本数据抽取事件的装置,所述装置包括:获取单元,获取文本数据;处理单元,基于所述文本数据,确定所述文本数据的第一特征序列,其中,所述第一特征序列包括字符的在所述文本数据中的序列位置信息以及与所述文本数据中的每个字符对应的第一特征向量,每个第一特征向量包括多个第一特征元素,所述第一特征元素表示字符在一个或多个事件中的每个事件的事件要素中的预定位置的概率;标记单元,对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记;抽取单元,基于标记后的第一特征序列,对所述文本数据中的事件进行抽取。
根据本申请的第三方面,提供一种电子设备,所述电子设备包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现根据本申请的第一方面所述的从文本数据抽取事件的方法。
根据本申请的第四方面,提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,实现根据本申请的第一方面所述的从文本数据抽取事件的方法。
根据本申请的从文本数据抽取事件的方法及装置能够对输入的自然语言文本中的一个或多个事件分别进行抽取,提高事件抽取的效率和准确性。
此外,根据本申请的从文本数据抽取事件的方法及装置基于一个或多个事件和事件要素联合进行事件抽取,并且基于二值标记方法构建端到端联合抽取的标记框架,联合抽取文本中一个或多个事件的事件要素。如此,与现有的流水线方法和序列标注方法相比,既解决了流水线方法中存在的误差传递问题,同时也解决了序列标注方法仅能抽取单一事件的问题,从而能够在确保事件抽取的准确率的同时允许抽取出多个事件。
此外,根据本申请的从文本数据抽取事件的方法及装置通过基于事件、事件要素以及预定位置来构建第一特征向量,将多个事件的抽取问题转换为标记预测问题,从自然语言文本中联合抽取多个事件,提高了事件抽取的性能。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了根据本申请实施例的从文本数据抽取事件的方法的流程示意图;
图2示出了根据本申请实施例的从文本数据抽取事件的方法中的二值标记步骤的流程示意图;
图3示出了根据本申请实施例的从文本数据抽取事件的方法中的抽取步骤的流程示意图;
图4示出了根据本申请实施例的从文本数据抽取事件的装置的示意性框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其他的特征。
本申请涉及一种从文本数据抽取事件的方法及装置,值得注意的是,在本申请提出申请之前,现有的事件抽取技术仅能从输入文本中抽取出单个事件而无法对多个事件分别抽取。
具体来说,随着近年来诸如人工智能等计算机技术的发展,事件抽取技术也在不断更新。在事件抽取技术发展的早期阶段,事件抽取工作通常采用流水线的方法,将事件抽取分为两个阶段的多分类任务。第一阶段的任务是执行事件的触发词分类(triggerclassification),即,对文本中的每个词进行分类,逐一判断每个词是否为触发词,若判断出在文本中存在触发词,则继而执行第二阶段的任务。第二阶段的任务是执行事件的事件论元提取。然而,在这样的流水线方法中,一方面,在抽取工作的先前阶段中产生的误差,无法在后续阶段中得到修正,因此,存在传播误差的问题;另一方面,该方法无法有效地利用触发词和事件论元之间的依赖关系,不利于提高事件抽取的准确性。
随着事件抽取技术的发展,出现对事件的序列标注方法,即,利用条件随机场(Conditional Random Field,CRF)对事件中的预定义的要素进行联合抽取。然而,该方法实际上是将事件抽取转变为序列标注的问题,虽然能够缓解误差的传递,但是并不能够从一段自然语言文本中抽取出多个事件。
例如,输入的文本可以是“3月26日王某在北京出席A活动并发表题为B的演讲”,在该文本中实际存在两个事件,即,“3月26日王某在北京出席A活动”和“3月26日王某在北京发表题为B的演讲”,而在采用序列标注方法的情况下,仅能抽取出上述两个事件中的一个事件,而无法获得另一事件的抽取结果,这在对复杂语义文本的事件抽取过程中是非常不利的。
鉴于此,本申请的第一方面提供一种从文本数据抽取事件的方法,该方法能够对输入的自然语言文本中的一个或多个事件分别进行抽取,提高事件抽取的效率和准确性。
图1示出了根据本申请实施例的从文本数据抽取事件的方法的流程示意图。
如图1所示,根据本申请实施例的从文本数据抽取事件的方法可以包括:
步骤S10,获取文本数据。
在该步骤中,文本数据可以是非结构化的自然语言文本。文本数据可以包括多个字符,每个字符在文本数据中具有预定的序列位置。这里,字符也可以被称为子词/单词。
步骤S20,基于文本数据,确定文本数据的第一特征序列。
在该步骤中,第一特征序列可以包括字符的在文本数据中的序列位置信息以及与文本数据中的每个字符对应的第一特征向量。
这里,序列位置信息可以表示字符在文本数据中的序列位置,例如其可以是诸如序号的位置标识。
每个字符可以对应有一个第一特征向量,每个第一特征向量可以包括多个第一特征元素,第一特征元素表示字符出现在一个或多个事件中的每个事件的事件要素中的预定位置的概率。
具体来说,事件可以为多个,根据本申请的方法可以允许对任意数量的事件进行抽取,因此事件的数量可以是根据任意方法而预先设定的。
每个事件可以对应有用于表示该事件的事件要素,事件要素可以包括触发词(trigger)和事件论元。
这里,触发词可以是表示事件发生的核心词,例如可以是动词或名词。事件论元是事件的参与者,其例如可以包括主体(subject)、客体(object)、时间(time)、地点(location)、原因(reason)中的至少一者,然而,事件论元的种类不限于此,其可根据所研究的文本内容而设定,例如也可以是“问题”、“任务”、“目标”等。有利的是,在本申请的方法中,将作为事件论元的主体、客体、时间和地点以及触发词作为进行抽取的5个事件要素,如此,可以通用于一般性的文本数据中的事件抽取,同时可以平衡抽取中的计算速度,优化事件抽取的效率。
预定位置可以是字符在事件要素中的标注位置,其可以根据标注方式而预先确定。预定位置可以包括事件要素参考位置、中间字符位置及无关字符位置,事件要素参考位置表示的是在提取事件要素时必要的基准字符位置,可以通过基准字符位置定位到事件要素在文本序列中的位置,例如事件要素参考位置可以包括开始字符位置和结束字符位置,从而可以定位到事件要素的开始字符和结束字符,由此确定整个事件要素所包含的字符。无关字符位置是与事件要素无关的位置,中间字符位置是位于事件要素参考位置之间的位置。
在此情况下,预定位置可以包括作为事件要素参考位置的开始字符位置和结束字符位置、中间字符位置和无关字符位置,这里,可以采用BIEO的标注方式来标注事件要素的开始位置、中间位置和结束位置,即,“B”标签和“E”标签分别表示事件要素的开始标记和结束标记,“I”标签表示事件要素的中间标记,“O”标签表示事件要素的其他不相关文本的标记。然而,本申请不限于此,事件要素参考位置也可以为多于或少于两个,并且可以包括除了开始字符位置和结束字符位置之外的其他位置。
在根据本申请的方法中,第一特征向量的维度(即,第一特征元素的数量)可以基于预先设定的事件数量、每个事件的事件要素数量以及每个事件要素的预定位置数量来确定。
作为示例,可以基于事件、事件要素以及预定位置来构建标记框架,基于标记框架确定第一特征向量的维度。
具体来说,可以基于事件的数量和事件要素的数量,确定标记类别的数量;接着,可以基于标记类别的数量和预定位置的数量,确定第一特征向量的维度。这里,标记类别的数量可以通过事件的数量和事件要素的数量相乘获得,在预定位置包括事件要素参考位置、中间字符位置及无关字符位置的情况下,第一特征向量的维度可以为标记类别的数量乘以事件要素参考位置的数量,再加上中间字符位置的数量和无关字符位置的数量之和(即,2)。然而,上述构思的关键在于根据事件的数量、事件要素的数量和预定位置的数量来确定第一特征向量的维度,本申请不限于此,根据预定位置的设置方式不同,可对基于标记类别的数量和预定位置的数量确定第一特征向量的维度的步骤进行相应的调整。
例如,预定从文本中抽取n个事件,其中,n>1,每个事件包含主体(subject)、客体(object)、时间(time)、地点(location)以及触发词(trigger)这5个事件要素,则每个事件中存在5×n个标记类别,分别可以记为subject_1、object_1、time_1、location_1、trigger_1、…、subject_n、object_n、time_n、location_n、trigger_n。
在此情况下,可以设定事件要素的预定位置包括开始字符位置(B)、中间字符位置(I)、结束字符位置(E)和无关字符位置(O),如此,在对文本进行标注时,可以为文本数据中的每个字符构造出(2×(5×n)+2)维的第一特征向量,这里,可以规定第一特征向量中的第一特征元素的顺序,例如,第1个位置的第一特征元素可以表示O不相关文本的标记,第2个位置的第一特征元素可以表示I中间标记,其他位置的第一特征元素可以依次表示为subject_1_start、subject_1_end、object_1_start、object_1_end、time_1_start、time_1_end、location_1_start、location_1_end、trigger_1_start、trigger_1_end、…、subject_n_start、subject_n_end、object_n_start、object_n_end、time_n_start、time_n_end、location_n_start、location_n_end、trigger_n_start、trigger_n_end。
例如,当n=2时,即,预定从文本中抽取2个事件,于是得到5×2=10个标记类别,这10个标记类别分别表示为subject_1、trigger_1、object_1、time_1、location_1、subject_2、trigger_2、object_2、time_2、location_2。此外,还需要标记出针对每个要素的开始字符位置和结束字符位置以及中间字符位置和无关字符位置,最后得到(2×(5×2)+2)=22个标签,即,每个字符对应一个22维的第一特征向量。
上述步骤S20可以通过预先训练好的机器学习模型来实现。具体来说,可以将文本数据输入到预定的用于事件的机器学习模型,通过机器学习模型获得文本数据的第一特征序列。
机器学习模型可以根据上文中描述的标记框架对输入的文本数据进行编码和多标签分类。具体地,机器学习模型可以从输入的文本数据中提取每个字符的特征信息,并根据特征信息对每个字符进行多标签分类,以输出由字符的序列位置与其对应的第一特征向量构成的第一特征序列。这里,标签的分类的数量可以根据预定的事件数量、事件要素数量以及预定位置数量来确定。
在编码过程中,特征信息可以包括子词嵌入矩阵和位置嵌入矩阵。具体来说,可以将输入的文本数据转化为每个字符的独热编码向量,以得到字符嵌入矩阵;可以根据字符在输入的文本数据中的序列位置信息,确定位置嵌入矩阵。这里,由于输入的文本数据可以是单独的语句,因此可以不考虑该语句的上下文的嵌入信息。
作为示例,上述编码过程可以基于BERT(Bidirectional EncoderRepresentation from Transformers)模型的编码模型来实现,其中,BERT模型是一种基于多层双向转换器的语言表示模型。
在分类过程中,对编码后的特征信息进行多标签分类,例如,可以设置一层全连接层,采用其接收从基于BERT模型的编码模型输出的特征信息,并输出作为第一特征序列的二维矩阵。这里,全连接层可以采用Sigmoid激活函数。
上述机器学习模型可以通过与真实标注数据计算损失来训练,例如,可以利用二分类交叉熵计算损失函数,并将损失最小的最优模型作为训练好的机器学习模型。此外,在训练好的机器学习模型中,事件数量可以是训练样本中出现的最多事件的数量,而进一步有利的是,事件数量可以是所有训练样本中出现的事件数量的中值,如此,一方面可以确保覆盖到训练样本中的大部分样本的事件数量情况,另一方面可以尽可能提高准确率和召回率,从而平衡模型应用的普适性与模型性能之间的关系。
返回参照图1和图2,步骤S30,对第一特征序列中的每个第一特征向量的第一特征元素进行二值标记。
在该步骤中,二值标记可以指的是采用表示互斥含义的两个值进行标记,例如可以是采用值0和值1进行标记的二进制标记。对于每个字符当它为某个标签时,我们将会在相应的位置赋值为1,其他位置赋值为0。
具体来说,步骤S30可以包括:S301、将第一特征序列中的每个第一特征向量的每个第一特征元素和预设阈值进行比较;S302、当第一特征元素大于预设阈值时,将第一特征元素赋值为第一值,当第一特征元素小于或等于预设阈值时,将第一特征元素赋值为第二值。
在采用二进制标记的情况下,第一特征序列可以为一个二维矩阵,矩阵大小为文本长度×(2×(5×n)+2),即,文本中的每个字对应一个大小为(2×(5×n)+2)维的第一特征向量X,第一特征元素X[i]表示字符在某一位置的概率,预设阈值p例如可以设定为0.5,当第一特征元素X[i]≥0.5时,可以对第一特征元素赋值1,当第一特征元素X[i]<p时,可以对第一特征元素赋值0。在第一特征元素X[i]的值为1的情况下,该位置对应的字符即为预测出的构成某一事件的某一要素的字符,通过赋值为1的第一特征元素的不同就能得到不同的事件要素,从而匹配得到多个事件。
这里,以上文中提到的文本“3月26日王某在北京出席A活动并发表题为B的演讲”为例,“发表”是第一个事件的触发词,因此按照上述标记框架,可以在字符“发”的trigger_1_start位置处赋值为1,在字符“表”的trigger_1_end位置处赋值为1;“出席”是第二个事件的触发词,因此可以在字符“出”的trigger_2_start位置处赋值为1,在字符“席”的trigger_2_end位置处赋值为1;对于其他要素,依次进行赋值。
步骤S40,基于标记后的第一特征序列,对文本数据中的事件进行抽取。
在该步骤中,可以基于上文中描述的标记框架对第一特征序列进行解码,以从文本数据中抽取出多个事件。
具体来说,如图3所示,步骤S40可以包括:
步骤S401,基于标记后的第一特征序列,针对一个或多个事件中的每个事件,提取赋值为第一值的第一特征元素作为第二特征元素,以获得针对每个事件的第二特征序列,其中,第二特征序列包括第二特征元素以及对应的字符的序列位置信息;
在步骤S401中,第二特征元素表示在单个事件中字符出现在事件要素中的预定位置。也就是说,第二特征序列包含了单个事件中所有事件要素的预定位置处的字符的序列位置信息,每个事件对应有一个第二特征序列。
步骤S402,基于第二特征序列,对文本数据中的事件进行抽取。
如上所述,在预定位置包括事件要素的开始字符位置和结束字符位置的示例中,步骤S402可以包括:
步骤S4021,基于第二特征序列,针对事件中的每个事件要素,确定事件要素的与表示开始字符位置的第二特征元素所对应的开始字符以及与表示结束字符位置的第二特征元素所对应的结束字符。
在步骤S4021中,由于第二特征序列包含了出现在所有事件要素的预定位置处的字符的序列位置信息,因此,可以基于表示开始字符位置的第二特征元素确定单个事件要素的开始字符在文本数据中的序列位置,并且可以基于表示结束字符位置的第二特征元素确定单个事件要素的结束字符在文本数据中的序列位置。
步骤S4022,基于开始字符和结束字符,对文本数据中的事件进行抽取。
具体来说,步骤S4022可以包括:针对每个事件要素,基于开始字符、结束字符以及序列位置信息,抽取在开始字符与结束字符之间的所有字符作为中间字符;基于开始字符、结束字符和中间字符,确定组成文本数据中的每个事件的每个事件要素的字符组合,以从文本数据抽取一个或多个事件中的每个事件。
在步骤S4022中,在确定了每个事件要素的开始字符和结束字符的情况下,可以确定在文本数据的字符序列中,处于事件要素的开始字符和结束字符之间的所有中间字符均属于该事件要素,因此,可以提取开始字符、结束字符及二者之间的所有中间字符,组成该事件要素。可针对每个事件要素执行上述步骤,以抽取出每个事件中的每个事件要素,从而基于抽取出的事件要素生成最终的事件。
作为示例,上述步骤S30和步骤S40可以通过预定的解码模型来实现,解码模型可以进行二值标记并解析字符表示,以允许从输入的文本数据中匹配得到每个事件的相应字符。解码模型可以根据上文中描述的标记框架来构建。
与传统的事件抽取方法相比,根据本申请实施例的从文本数据抽取事件的方法,通过对待处理文本中的一个或多个事件中的每个要素进行二值标记,能够任意标记文本中的事件,以允许有效地抽取多个事件。
本申请的另一方面涉及一种从文本数据抽取事件的装置。图4示出了根据本申请示例性实施例的从文本数据抽取事件的装置的示意性框图。
如图4所示,根据本申请示例性实施例的从文本数据抽取事件的装置包括获取单元100、处理单元200、标记单元300和抽取单元400。
获取单元100获取文本数据。
处理单元200基于文本数据,确定文本数据的第一特征序列。这里,第一特征序列包括字符的在文本数据中的序列位置信息以及与文本数据中的每个字符对应的第一特征向量,每个第一特征向量包括多个第一特征元素,第一特征元素表示字符在一个或多个事件中的每个事件的事件要素中的预定位置的概率。
标记单元300对第一特征序列中的每个第一特征向量的第一特征元素进行二值标记。
抽取单元400基于标记后的第一特征序列,对文本数据中的事件进行抽取。
处理单元200还可以基于事件的数量和事件要素的数量,确定标记类别的数量;基于标记类别的数量和预定位置的数量,确定第一特征向量的维度。
标记单元300还可以将第一特征序列中的每个第一特征向量的每个第一特征元素和预设阈值进行比较,当第一特征元素大于预设阈值时,标记单元300将第一特征元素赋值为第一值;当第一特征元素小于或等于预设阈值时,标记单元300将第一特征元素赋值为第二值。
抽取单元400还可以基于标记后的第一特征序列,针对一个或多个事件中的每个事件,提取赋值为第一值的第一特征元素作为第二特征元素,以获得针对每个事件的第二特征序列;基于第二特征序列,对文本数据中的事件进行抽取。这里,第二特征序列包括第二特征元素以及对应的字符的序列位置信息。
此外,预定位置可以包括事件要素的开始字符位置和结束字符位置。抽取单元400还可以基于第二特征序列,针对事件中的每个事件要素,确定事件要素的与表示开始字符位置的第二特征元素所对应的开始字符以及与表示结束字符位置的第二特征元素所对应的结束字符;基于开始字符和结束字符,对文本数据中的事件进行抽取。
抽取单元400还可以针对每个事件要素,基于开始字符、结束字符以及序列位置信息,抽取在开始字符与结束字符之间的所有字符作为中间字符;基于开始字符、结束字符和中间字符,确定组成文本数据中的每个事件的每个事件要素的字符组合,以从文本数据抽取一个或多个事件中的每个事件。
需要说明的是,获取单元100、处理单元200、标记单元300和抽取单元400可以根据如上述图1至图3所示的方法实施例中的从文本数据抽取事件的方法执行所述方法中的相应步骤,例如通过获取单元100、处理单元200、标记单元300和抽取单元400可执行的机器可读指令来实现,获取单元100、处理单元200、标记单元300和抽取单元400的具体实现方式可参见上面描述的方法实施例,在此不再赘述。
本申请实施例还提供一种电子设备,电子设备包括处理器和存储器。存储器存储有计算机程序。当该计算机程序被处理器执行时,电子设备可以根据如上述图1至图3所示的方法实施例中的从文本数据抽取事件的方法执行所述方法中的相应步骤,例如通过电子设备可执行的机器可读指令来实现,电子设备的具体实现方式可参见上面描述的方法实施例,在此不再赘述。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当该计算机程序被处理器执行时可以执行如上述图1至图3所示的方法实施例中的从文本数据抽取事件的方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请的实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请的从文本数据抽取事件的方法及装置能够对输入的自然语言文本中的一个或多个事件中的每个事件分别进行抽取,提高事件抽取的效率和准确性。
此外,根据本申请的从文本数据抽取事件的方法及装置基于一个或多个事件和事件要素联合进行事件抽取,并且基于二值标记方法构建端到端联合抽取的标记框架,联合抽取文本中一个或多个事件的事件要素。如此,与现有的流水线方法和序列标注方法相比,既解决了流水线方法中存在的误差传递问题,同时也解决了序列标注方法仅能抽取单一事件的问题,从而能够在确保事件抽取的准确率的同时允许抽取出多个事件。
此外,根据本申请的从文本数据抽取事件的方法及装置通过基于事件、事件要素以及预定位置来构建第一特征向量,将多个事件的抽取问题转换为标记预测问题,从自然语言文本中联合抽取多个事件,提高了事件抽取的性能。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种从文本数据抽取事件的方法,其特征在于,所述方法包括:
获取文本数据;
基于所述文本数据,确定所述文本数据的第一特征序列,其中,所述第一特征序列包括字符的在所述文本数据中的序列位置信息以及与所述文本数据中的每个字符对应的第一特征向量,每个第一特征向量包括多个第一特征元素,所述第一特征元素表示字符在多个事件中的每个事件的事件要素中的预定位置的概率;
对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记;
基于标记后的第一特征序列,对所述文本数据中的事件进行抽取,
其中,基于标记后的第一特征序列,对所述文本数据中的事件进行抽取的步骤包括:
基于标记后的第一特征序列,针对所述多个事件中的每个事件,提取通过二值标记被赋值为第一值的第一特征元素作为第二特征元素,以获得针对每个事件的第二特征序列,其中,所述第二特征序列包括所述第二特征元素以及对应的字符的序列位置信息;
基于所述第二特征序列,对所述文本数据中的事件进行抽取,
其中,所述第二特征元素表示在单个事件中字符出现在事件要素中的预定位置,每个第二特征序列包含单个事件中所有事件要素的预定位置处的字符的序列位置信息,每个事件对应有一个第二特征序列。
2.根据权利要求1所述的方法,其特征在于,对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记的步骤包括:
将所述第一特征序列中的每个第一特征向量的每个第一特征元素和预设阈值进行比较;
当所述第一特征元素大于所述预设阈值时,将所述第一特征元素赋值为第一值;
当所述第一特征元素小于或等于所述预设阈值时,将所述第一特征元素赋值为第二值。
3.根据权利要求2所述的方法,其特征在于,所述预定位置包括事件要素的开始字符位置和结束字符位置,
基于所述第二特征序列,对所述文本数据中的事件进行抽取的步骤包括:
基于所述第二特征序列,针对事件中的每个事件要素,确定事件要素的与表示开始字符位置的第二特征元素所对应的开始字符以及与表示结束字符位置的第二特征元素所对应的结束字符;
基于所述开始字符和所述结束字符,对所述文本数据中的事件进行抽取。
4.根据权利要求3所述的方法,其特征在于,基于所述开始字符和所述结束字符,对所述文本数据中的事件进行抽取,包括:
针对每个事件要素,基于所述开始字符、所述结束字符以及所述序列位置信息,抽取在所述开始字符与所述结束字符之间的所有字符作为中间字符;
基于所述开始字符、所述结束字符和所述中间字符,确定组成所述文本数据中的每个事件的每个事件要素的字符组合,以从文本数据抽取所述多个事件中的每个事件。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一特征向量的维度通过事件的数量、事件要素的数量以及所述预定位置的数量来确定,所述事件要素包括触发词和事件论元,所述事件论元包括主体、客体、时间、地点、原因中的至少一者。
6.根据权利要求5所述的方法,其特征在于,所述预定位置包括事件要素参考位置、中间字符位置及无关字符位置,所述第一特征向量的维度通过事件的数量、事件要素的数量与事件要素参考位置的数量相乘得到的结果加上中间字符位置的数量和无关字符位置的数量而获得。
7.一种从文本数据抽取事件的装置,其特征在于,所述装置包括:
获取单元,获取文本数据;
处理单元,基于所述文本数据,确定所述文本数据的第一特征序列,其中,所述第一特征序列包括字符的在所述文本数据中的序列位置信息以及与所述文本数据中的每个字符对应的第一特征向量,每个第一特征向量包括多个第一特征元素,所述第一特征元素表示字符在多个事件中的每个事件的事件要素中的预定位置的概率;
标记单元,对所述第一特征序列中的每个第一特征向量的第一特征元素进行二值标记;
抽取单元,基于标记后的第一特征序列,对所述文本数据中的事件进行抽取,
其中,基于标记后的第一特征序列,对所述文本数据中的事件进行抽取的操作包括:
基于标记后的第一特征序列,针对所述多个事件中的每个事件,提取通过二值标记被赋值为第一值的第一特征元素作为第二特征元素,以获得针对每个事件的第二特征序列,其中,所述第二特征序列包括所述第二特征元素以及对应的字符的序列位置信息;
基于所述第二特征序列,对所述文本数据中的事件进行抽取,
其中,所述第二特征元素表示在单个事件中字符出现在事件要素中的预定位置,每个第二特征序列包含单个事件中所有事件要素的预定位置处的字符的序列位置信息,每个事件对应有一个第二特征序列。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现根据权利要求1至6中的任一项所述的从文本数据抽取事件的方法。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,实现根据权利要求1至6中的任一项所述的从文本数据抽取事件的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336032.5A CN113779182B (zh) | 2021-11-12 | 2021-11-12 | 从文本数据抽取事件的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336032.5A CN113779182B (zh) | 2021-11-12 | 2021-11-12 | 从文本数据抽取事件的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779182A CN113779182A (zh) | 2021-12-10 |
CN113779182B true CN113779182B (zh) | 2022-02-15 |
Family
ID=78957068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111336032.5A Active CN113779182B (zh) | 2021-11-12 | 2021-11-12 | 从文本数据抽取事件的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779182B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177326B (zh) * | 2020-04-10 | 2020-08-04 | 深圳壹账通智能科技有限公司 | 基于精标注文本的关键信息抽取方法、装置及存储介质 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN113342935A (zh) * | 2021-06-04 | 2021-09-03 | 北京捷通华声科技股份有限公司 | 语义识别方法、装置、电子设备及可读存储介质 |
CN113553854B (zh) * | 2021-09-18 | 2021-12-10 | 航天宏康智能科技(北京)有限公司 | 实体关系的联合抽取方法和联合抽取装置 |
-
2021
- 2021-11-12 CN CN202111336032.5A patent/CN113779182B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113779182A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN111832318B (zh) | 单语句自然语言处理方法、装置、计算机设备及可读存储介质 | |
CN110209816A (zh) | 基于对抗模仿学习的事件识别及分类方法、系统、装置 | |
CN112232024A (zh) | 一种基于多标注数据的依存句法分析模型训练方法及装置 | |
CN110472234A (zh) | 敏感文本识别方法、装置、介质和计算机设备 | |
CN113239668B (zh) | 关键词智能提取方法、装置、计算机设备及存储介质 | |
CN112307337B (zh) | 基于标签知识图谱的关联推荐方法、装置及计算机设备 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN113283238A (zh) | 文本数据处理的方法和装置、电子设备和存储介质 | |
CN114490953A (zh) | 训练事件抽取模型、事件抽取的方法和目标事件抽取模型 | |
CN115099233A (zh) | 一种语义解析模型的构建方法、装置、电子设备及存储介质 | |
CN110413996B (zh) | 构造零指代消解语料的方法及装置 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN111159394A (zh) | 一种文本摘要生成方法和装置 | |
CN112395880B (zh) | 结构化三元组的纠错方法、装置、计算机设备及存储介质 | |
CN114218940A (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN113779182B (zh) | 从文本数据抽取事件的方法及装置 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN113868417A (zh) | 一种敏感评论识别方法、装置、终端设备和存储介质 | |
CN113011173A (zh) | 单位的识别方法、装置、设备以及存储介质 | |
CN118468822B (zh) | 一种目标领域文本生成方法和系统 | |
CN111160042B (zh) | 一种文本语义解析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |