CN113553424A - 数据处理方法、装置及设备及事件抽取模型的生成方法 - Google Patents
数据处理方法、装置及设备及事件抽取模型的生成方法 Download PDFInfo
- Publication number
- CN113553424A CN113553424A CN202010340500.5A CN202010340500A CN113553424A CN 113553424 A CN113553424 A CN 113553424A CN 202010340500 A CN202010340500 A CN 202010340500A CN 113553424 A CN113553424 A CN 113553424A
- Authority
- CN
- China
- Prior art keywords
- natural language
- language text
- target natural
- entity
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims description 38
- 238000012360 testing method Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 5
- 239000002585 base Substances 0.000 description 41
- 238000010586 diagram Methods 0.000 description 10
- 239000012458 free base Substances 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- -1 for example Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法,包括:获得目标自然语言文本;获得所述目标自然语言文本包含的实体对应的摘要文本;根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量;根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进行事件抽取处理。采用上述方法,以解决现有技术存在的事件抽取系统的性能较低的问题。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法,本申请同时涉 及一种数据处理装置、电子设备及存储设备,本申请同时涉及一种事件抽取模 型的生成方法和一种训练集的生成方法。
背景技术
近年来计算机与互联网技术持续高速发展,互联网沉淀了并持续产生着数 量巨大的自然语言文本信息,如不断更新的新闻报道,自媒体发布的观点以及 个人发布的社交状态信息等。这些大量的自然语言文本信息背后蕴藏着巨大的 价值,但目前大多数计算机应用难以直接处理非结构化的自然语言文本信息, 因此就需要发展能够将非结构化的自然语言文本转化为结构化信息的技术。
现有技术下,在将非结构化的自然语言文本转化为结构化信息的技术中, 通常采用人工标注的方法获得样本对事件抽取系统进行训练,存在着样本量较 小的问题,在一定程度上影响了事件抽取系统的性能。
发明内容
本申请提供一种数据处理方法,以解决现有技术存在的事件抽取系统的性 能较低的问题。
本申请提供一种数据处理方法,包括:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言 文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理。
可选的,还包括:
从第二知识库中获得所述目标自然语言文本包含的实体对应的三元组信息; 所述三元组信息包括头实体、实体之间关系和尾实体;
对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达式;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理,包括:
根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达式, 对所述目标自然语言文本进行事件抽取处理。
可选的,对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达 式,包括:
采用知识表示学习模型,对所述三元组信息进行嵌入式表示,获得所述实 体的嵌入式表达式。
可选的,所述第二知识库为记录有三元组信息的知识库。
可选的,所述获得所述目标自然语言文本包含的实体对应的摘要文本,包 括:
获取所述目标自然语言文本中包含的实体;
根据所述目标自然语言文本中包含的实体,获得所述目标自然语言文本中 包含的实体的摘要信息。
可选的,所述根据所述目标自然语言文本包含的实体的摘要信息生成目标 自然语言文本的摘要嵌入向量,包括:
根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文本包 含的实体的嵌入向量;
对目标自然语言文本包含的所有实体的嵌入向量进行摘要注意力处理,生 成目标自然语言文本的摘要嵌入向量。
可选的,所述根据目标自然语言文本包含的实体的摘要信息,获得目标自 然语言文本包含的实体的嵌入向量,包括:
对目标自然语言文本包含的实体的摘要信息中的每一个句子进行编码,生 成每一个句子的句子向量;
对所有句子向量进行编码处理,生成所述目标自然语言文本包含的实体的 嵌入向量。
可选的,所述根据所述目标自然语言文本包含的实体的摘要文本生成目标 自然语言文本的摘要嵌入向量,包括:
采用下述至少一种网络,对所述目标自然语言文本包含的实体的摘要信息 进行编码生成目标自然语言文本的摘要嵌入向量:
GRU网络;
LSTM网络;
CNN网络;
Transformer网络。
本申请还提供一种数据处理装置,包括:
目标自然语言文本获得单元,用于获得目标自然语言文本;
摘要文本获得单元,用于获得所述目标自然语言文本包含的实体对应的摘 要文本;
摘要嵌入向量生成单元,用于根据所述目标自然语言文本包含的实体对应 的摘要文本生成目标自然语言文本的摘要嵌入向量;
事件抽取处理单元,用于根据所述目标自然语言文本的摘要嵌入向量,对 所述目标自然语言文本进行事件抽取处理。
本申请还提供一种电子设备,包括:
处理器;以及
存储器,用于存储数据处理方法的程序,该设备通电并通过所述处理器运 行该数据处理方法的程序后,执行下述步骤:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言 文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理。
本申请还提供一种存储设备,存储有数据处理方法的程序,该程序被处理 器运行,执行下述步骤:包括:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言 文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理。
本申请提供一种事件抽取模型的生成方法,包括:
构建初始事件抽取模型,其中,所述初始事件抽取模型的参数为初始化数 据;
获得用于训练所述初始事件抽取模型的训练数据,其中,所述训练数据根 据如前述任意一项方法获取;
利用所述训练数据,对所述初始事件抽取模型进行训练,获得所述初始事 件抽取模型的目标参数;
根据所述目标参数,生成目标事件抽取模型。
可选的,所述生成方法,还包括:
获得包括目标自然语言文本的测试数据;
将所述测试数据输入所述目标事件抽取模型,获得测试数据的事件抽取信 息。
本申请提供一种训练集的生成方法,包括:
获得三元组知识库中的实体对象;
根据所述实体对象,在知识库中进行检索,获得所述实体对象对应的触发 词;
利用远程监督算法对所述触发词进行处理,获得标注训练集。
可选的,所述方法,还包括:
获得三元组知识库中的更新后实体对象;
根据所述更新后实体对象,在知识库中进行检索,获得所述实体对象对应 的更新后触发词;
利用远程监督算法对所述更新后触发词进行处理,获得更新后的标注训练 集。
与现有技术相比,本申请具有以下优点:
本申请提出了一种利用大规模知识库数据生成目标自然语言文本的摘要嵌 入向量,并将摘要嵌入向量用于对目标自然语言文本进行事件抽取处理的方法, 本申请在有限的训练集场景下引入大量的外部信息的知识,用于扩展有限训练 集所能表示的信息,解决了标注数据匮乏带来的事件抽取系统性能受限的问题。
附图说明
图1a是本申请提供的一种数据处理方法应用场景实施例的示意图。
图1b是本申请提供的一种数据处理方法应用场景的新闻事件提取的示意图。
图1是本申请第一实施例提供的一种数据处理方法的流程图。
图2是本申请第一实施例提供的一种采用维基百科嵌入模块将一个句子包 含的实体的摘要信息生成该句子的摘要嵌入向量的过程的示意图。
图3是本申请第一实施例提供的一种采用GRU网络对目标自然语言文本包 含的实体的摘要信息进行编码生成目标自然语言文本的摘要嵌入向量示意图。
图4是本申请第一实施例提供的一种根据目标自然语言文本的摘要嵌入向 量和实体的嵌入式表达,对目标自然语言文本进行事件抽取处理的示意图。
图5是本申请第一实施例提供的一种数据处理装置的示意图。
图6是本申请第一实施例提供的一种电子设备的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明 能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背 本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
为了使本领域的技术人员更好的理解本申请方案,首先对本申请的一个具 体应用场景实施例进行详细描述。如图1a所示,其为本申请提供的一种数据处 理方法的应用场景的实施例示意图。在具体实施过程中,可以由用户108-1通过 客户端设备106-1上的客户端应用107-1,利用网络105向新闻数据服务器109 发送获取新闻数据的指令。如图1b所示,该新闻数据可以是AB边界对峙事件 的新闻数据。新闻数据服务器109根据该指令向客户端应用107-1返回新闻数据, 客户端应用107-1将所述新闻数据通过网络105发送到事件提取生成服务器100。 所述事件提取生成服务器100收到新闻数据后,将所述新闻数据发送到目标自 然语言文本获得单元101,所述目标自然语言文本获得单元。然后,通过摘要文 本获得单元102,获得所述目标自然语言文本包含的实体对应的摘要文本。接着, 通过摘要嵌入向量生成单元103,根据所述目标自然语言文本包含的实体对应的 摘要文本生成目标自然语言文本的摘要嵌入向量。进而,通过事件抽取处理单 元104,根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本 进行事件抽取处理,获得事件抽取结果。最后,事件提取生成服务器100将生 成的事件抽取结果返回到客户端应用107-1。事件抽取结果请参考图1b所示, 为AB边界对峙事件新闻的追踪事件提取结果。
现有技术下,在将非结构化的自然语言文本转化为结构化信息的技术中, 通常采用人工标注的方法获得样本对事件抽取系统进行训练,存在着样本量较 小的问题,在一定程度上影响了事件抽取系统的性能。
采用本实施例提供的数据处理方法,利用大规模知识库数据生成目标自然 语言文本的摘要嵌入向量,并将摘要嵌入向量用于对目标自然语言文本进行事 件抽取处理的方法,从而在有限的训练集场景下引入大量的外部信息的知识, 扩展了有限训练集所能表示的信息。
本申请第一实施例提供一种数据处理方法,下面结合图1至图4进行说明。
如图1所示,在步骤S101中,获得目标自然语言文本。
所述目标自然语言文本,可以包括目标句子,或目标短语。例如,句子“他 因一名士兵的手榴弹袭击而受伤”为一个目标自然语言文本。
如图1所示,在步骤S102中,从第一知识库中获得所述目标自然语言文本 包含的实体对应的摘要文本。
所述第一知识库为记录有摘要文本的知识库。例如,第一知识库可以为Wikipedia(维基百科),Wikipedia为一个大型的百科知识编辑站点,存储有大 量以自然语言文字表示的知识,其可以不断地自动更新。例如,图2中的“A hand Grenade is anysmall bomb…”为Wikipedia记录的Grenade的摘要文本。
所述实体,指自然语言中用于指代人名、地名与机构名等概念的词语,例 如:中国、总统A、火山等。实体可以包括头实体和尾实体,例如,句子“总 统A与总统夫人B是夫妻关系”,头实体为总统A,尾实体为总统夫人B。
所述从第一知识库中获得所述目标自然语言文本包含的实体对应的摘要文 本,包括:
获取所述目标自然语言文本中包含的实体;
根据所述目标自然语言文本中包含的实体,获得所述目标自然语言文本中 包含的实体在所述第一知识库中的摘要信息。
例如,自然语言文本为句子“...attack…fellow”,从第一知识库中获得所 上述句子包含的实体对应的摘要文本的过程为:首先获取上述句子包含的实体 为“grenade”和“soldier”,然后获得实体“grenade”和“soldier”在第一知识 库中的摘要信息。
如图1所示,在步骤S103中,根据所述目标自然语言文本包含的实体对应 的摘要文本生成目标自然语言文本的摘要嵌入向量。
所述摘要嵌入向量,指由目标自然语言文本包含的实体对应的摘要文本最 终生成的一个向量。
所述根据所述目标自然语言文本包含的实体的摘要信息生成目标自然语言 文本的摘要嵌入向量,包括:
根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文本包 含的实体的嵌入向量;
对目标自然语言文本包含的所有实体的嵌入向量进行摘要注意力处理,生 成目标自然语言文本的摘要嵌入向量。
所述根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文 本包含的实体的嵌入向量,包括:
对目标自然语言文本包含的实体的摘要信息中的每一个句子进行编码,生 成每一个句子的句子向量;
对所有句子向量进行编码处理,生成所述目标自然语言文本包含的实体的 嵌入向量。
如图2所示,其为一个采用维基百科嵌入模块将一个句子包含的实体的摘 要信息生成该句子的摘要嵌入向量的过程的示意图。维基百科嵌入模块的目标 是以句子为单位,将句子包含的所有实体对应的摘要文本,最终对于每一个句 子生成一个对应的摘要嵌入向量。
采用维基百科嵌入模块将一个句子包含的实体的摘要信息生成该句子的摘 要嵌入向量的具体步骤如下:在步骤S201中,根据句子包含的实体,获得维基 百科中句子包含的实体对应的摘要文本,图2中获得了实体“grenade”和“soldier” 在维基百科中的摘要信息。在步骤S202中,对于获取得到的维基百科摘要中的 每一句话,该模块通过词汇编码步骤将一个句子中的所有词汇编码成一个句子 向量,图2中实体“grenade”和“soldier”在维基百科中的摘要信息分别为两 句话,因此通过词汇编码步骤将实体“grenade”在维基百科中的摘要信息编 码成两个句子向量201和句子向量202;通过词汇编码步骤将实体“soldier”在 维基百科中的摘要信息编码成两个句子向量203和句子向量204;在步骤S203中,维基百科嵌入模块通过句子编码步骤将一个摘要中的所有句子向量编码成 实体嵌入向量,图2中将句子向量201和句子向量202编码成实体嵌入向量205, 将句子向量203和句子向量204编码成实体嵌入向量206。在步骤S204中,对 于一个句子中在先前步骤中生成的所有实体嵌入向量,维基百科嵌入模块通过 摘要注意力步骤生成一个摘要嵌入向量,图2中通过摘要注意力步骤根据实体 嵌入向量205和实体嵌入向量206生成摘要嵌入向量。
所述根据所述目标自然语言文本包含的实体的摘要文本生成目标自然语言 文本的摘要嵌入向量,包括:
采用下述至少一种网络,对所述目标自然语言文本包含的实体的摘要信息 进行编码生成目标自然语言文本的摘要嵌入向量:
GRU网络;
LSTM网络;
CNN网络;
Transformer网络。
如图3所示,其为采用GRU网络对目标自然语言文本包含的实体的摘要信 息进行编码生成目标自然语言文本的摘要嵌入向量示意图。如图3所示,在输 入为单个句子的情况下,输入的维度为3,即第一个维度为该句子中包含有多 少实体,第二个维度为实体的摘要中包含有多少句子,第三个维度为每一个句 子中包含有多少词汇,图3中以3个数字下标指代词汇,2个数字下标指代句 子,1个数字下标指代实体。图3中仅展示一个句子含有两个实体的情况。
图3中采用了GRU网络对目标自然语言文本包含的实体的摘要信息进行编 码生成目标自然语言文本的摘要嵌入向量,在具体实施时,GRU网络也可以换 成LSTM、CNN或者Transformer结构,针对不同的数据和运行环境可以根据算 法效果与执行效率选择适合的网络结构。
如图1所示,在步骤S104中,根据所述目标自然语言文本的摘要嵌入向量, 对所述目标自然语言文本进行事件抽取处理。
所述事件抽取,指从非结构化的自然语言文本中,抽取出事件并转为结构 化的信息。主要包含触发词和要素的抽取。其中触发词为表示事件发生的核心 词,多为动词或名词,要素指组成事件的要素,组成事件的角色。
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理,可以提高事件抽取系统的性能。
为了进一步提高事件抽取系统的性能,本申请第一实施例的方法还可以包 括:
从第二知识库中获得所述目标自然语言文本包含的实体对应的三元组信息; 所述三元组信息包括头实体、实体之间关系和尾实体;
对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达式。
所述第二知识库为记录有三元组信息的知识库。例如,Freebase知识库。
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理,包括:
根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达,对 所述目标自然语言文本进行事件抽取处理。
所述三元组信息的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属 性值)等。每个实体(概念的外延)可用一个全局唯一确定的pair,AVP)可用来刻 画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。
如下图1的知识图谱例子所示,中国是一个实体,北京是一个实体,中国- 首都-北京是一个(实体-关系-实体)的三元组。
在具体实施时,对三元组信息进行嵌入式表示,获得实体的嵌入式表达式, 可以采用知识表示学习模型,对三元组信息进行嵌入式表示,获得所述实体的 嵌入式表达式。例如,可以采用OpenKE等知识嵌入库对三元组进行嵌入式表 示,获得实体的嵌入式表达。OpenKE是一个开源的知识表示学习平台,包括 普遍使用的知识表示学习(knowledgerepresentation learning,KRL)方法。
根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达,对 所述目标自然语言文本进行事件抽取处理,包括:
根据目标自然语言文本的摘要嵌入向量中的实体的摘要嵌入向量和实体的 嵌入式表达,得到实体的词向量;
根据所述实体的词向量,对所述目标自然语言文本进行事件抽取处理。
例如,如图4所示,实体“Grenade”的摘要文本通过摘要嵌入模块生成实 体“Grenade”的摘要嵌入向量401,实体“Grenade”的三元组信息,通过Freebase 知识嵌入模块生成实体“Grenade”的嵌入式表达402,将摘要嵌入向量401和 嵌入式表达402组合生成实体“Grenade”的词向量403,根据实体的词向量, 对所述目标自然语言文本进行事件抽取处理。
这里需要指出,对于大规模知识库的事件抽取,可以应用于电商网站中的 商品评论,也可以应用于视频网站中的视频评论,还可以应用于电子票务平台 的票务评论。例如,在电商网站的促销活动中,可以从热点的商品评论中,获 得诸如“XX商品是YY同款”等抽取的事件。
至此,对本申请第一实施例进行了详细介绍,本申请第一实施例提供的数 据处理方法,通过引入源自第一知识库以及第二知识库的知识对原有训练集信 息进行扩充,以弥补人工有标记数据成本较高的问题以及降低事件抽取系统性 能的问题。例如,在新闻事件抽取场景下,人工标注训练集包含“总统A访问 中国”事件的标注,但受限于人工标注的成本,很可能会漏标“总统A访问捷 克”等事件。如果使用来自Wikipedia以及Freebase知识库的信息,捷克则被标 注为一个国家,就能提高事件抽取系统检出该事件的概率。此外,利用Wikipedia 以及Freebase知识库的信息也能提高事件抽取系统的信息利用率,譬如在以下句子中:他因一名士兵的手榴弹袭击而受伤。训练数据无法提供关于士兵以 及手榴弹这两个名词的详细解释,但是在Wikipedia以及Freebase知识库中,士 兵与手榴弹的解释分别为:一种小型的投掷炸弹与一种有组织有纪律的武装力 量。因此,引入Wikipedia以及Freebase知识库能够向事件抽取系统提供更全面 的信息。再如,在自然灾害事件抽取场景下,人工标注训练集中包含“佛罗里 达州出现龙卷风”,但同样人工标注受限于高昂成本,可能会漏标“俄克拉荷马 州出现龙卷风”,但如果利用知识库来进行辅助事件抽取,俄克拉荷马州会被识 别为一个州名,进而提高该事件被检出的概率。本申请在有限的训练集场景下 引入大量的外部信息的知识,用于扩展有限训练集所能表示的信息;同时本申 请首次利用Freebase知识嵌入表示模块将Freebase中的知识以离散化向量的形 式引入到了事件抽取领域;此外本申请提出的维基百科摘要嵌入模块将维基百 科中的知识运用至事件抽取任务上,取得了较好的效果。
与本申请第一实施例提供的一种数据处理方法相对应的,本申请第二实施 例还提供了一种数据处理装置。
如图5所示,所述数据处理装置,包括:
目标自然语言文本获得单元501,用于获得目标自然语言文本;
摘要文本获得单元502,用于获得所述目标自然语言文本包含的实体对应的 摘要文本;
摘要嵌入向量生成单元503,用于根据所述目标自然语言文本包含的实体对 应的摘要文本生成目标自然语言文本的摘要嵌入向量;
事件抽取处理单元504,用于根据所述目标自然语言文本的摘要嵌入向量, 对所述目标自然语言文本进行事件抽取处理。
可选的,所述数据处理装置还包括:
三元组信息获得单元,用于从第二知识库中获得所述目标自然语言文本包 含的实体对应的三元组信息;所述三元组信息包括头实体、实体之间关系和尾 实体;
嵌入式表达式获得单元,用于对所述三元组信息进行嵌入式表示,获得所 述实体的嵌入式表达式;
所述事件抽取处理单元,具体用于:
根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达式, 对所述目标自然语言文本进行事件抽取处理。
可选的,所述嵌入式表达式获得单元,具体用于:
采用知识表示学习模型,对所述三元组信息进行嵌入式表示,获得所述实 体的嵌入式表达式。
可选的,所述第二知识库为记录有三元组信息的知识库。
可选的,所述摘要文本获得单元具体用于:
获取所述目标自然语言文本中包含的实体;
根据所述目标自然语言文本中包含的实体,获得所述目标自然语言文本中 包含的实体的摘要信息。
可选的,所述摘要嵌入向量生成单元具体用于:
根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文本包 含的实体的嵌入向量;
对目标自然语言文本包含的所有实体的嵌入向量进行摘要注意力处理,生 成目标自然语言文本的摘要嵌入向量。
可选的,所述摘要嵌入向量生成单元具体用于:
对目标自然语言文本包含的实体的摘要信息中的每一个句子进行编码,生 成每一个句子的句子向量;
对所有句子向量进行编码处理,生成所述目标自然语言文本包含的实体的 嵌入向量。
可选的,所述摘要嵌入向量生成单元具体用于:
采用下述至少一种网络,对所述目标自然语言文本包含的实体的摘要信息 进行编码生成目标自然语言文本的摘要嵌入向量:
GRU网络;
LSTM网络;
CNN网络;
Transformer网络。
需要说明的是,对于本申请第二实施例提供的装置的详细描述可以参考对 本申请第一实施例的相关描述,这里不再赘述。
与本申请第一实施例提供的一种数据处理方法相对应的,本申请第三实施 例还提供了一种电子设备。
如图6所示,所述电子设备,包括:
处理器601;以及
存储器602,用于存储数据处理方法的程序,该设备通电并通过所述处理器 运行该数据处理方法的程序后,执行下述步骤:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言 文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理。
可选的,所述电子设备还执行下述步骤:
从第二知识库中获得所述目标自然语言文本包含的实体对应的三元组信息; 所述三元组信息包括头实体、实体之间关系和尾实体;
对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达式;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理,包括:
根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达式, 对所述目标自然语言文本进行事件抽取处理。
可选的,对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达 式,包括:
采用知识表示学习模型,对所述三元组信息进行嵌入式表示,获得所述实 体的嵌入式表达式。
可选的,所述第二知识库为记录有三元组信息的知识库。
可选的,所述获得所述目标自然语言文本包含的实体对应的摘要文本,包 括:
获取所述目标自然语言文本中包含的实体;
根据所述目标自然语言文本中包含的实体,获得所述目标自然语言文本中 包含的实体的摘要信息。
可选的,所述根据所述目标自然语言文本包含的实体的摘要信息生成目标 自然语言文本的摘要嵌入向量,包括:
根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文本包 含的实体的嵌入向量;
对目标自然语言文本包含的所有实体的嵌入向量进行摘要注意力处理,生 成目标自然语言文本的摘要嵌入向量。
可选的,所述根据目标自然语言文本包含的实体的摘要信息,获得目标自 然语言文本包含的实体的嵌入向量,包括:
对目标自然语言文本包含的实体的摘要信息中的每一个句子进行编码,生 成每一个句子的句子向量;
对所有句子向量进行编码处理,生成所述目标自然语言文本包含的实体的 嵌入向量。
可选的,所述根据所述目标自然语言文本包含的实体的摘要文本生成目标 自然语言文本的摘要嵌入向量,包括:
采用下述至少一种网络,对所述目标自然语言文本包含的实体的摘要信息 进行编码生成目标自然语言文本的摘要嵌入向量:
GRU网络;
LSTM网络;
CNN网络;
Transformer网络。
需要说明的是,对于本申请第三实施例提供的电子设备的详细描述可以参 考对本申请第一实施例的相关描述,这里不再赘述。
与本申请第一实施例提供的一种数据处理方法相对应的,本申请第四实施 例还提供了一种存储设备,存储有数据处理方法的程序,该程序被处理器运行, 执行下述步骤:包括:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言 文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进 行事件抽取处理。
需要说明的是,对于本申请第四实施例提供的存储设备的详细描述可以参 考对本申请第一实施例的相关描述,这里不再赘述。
本申请第五实施例提供一种事件抽取模型的生成方法,包括:
构建初始事件抽取模型,其中,所述初始事件抽取模型的参数为初始化数 据。
例如,可以构建DMCNN(Dynamic Multi-Pooling Convolutional NeuralNetworks)模型,作为事件抽取模型。获得用于训练所述初始事件抽取模型的训 练数据,其中,所述训练数据根据如本申请第一实施例提供的任意一项方法获 取。
例如,可以利用训练数据训练所述DMCNN模型。
利用所述训练数据,对所述初始事件抽取模型进行训练,获得所述初始事 件抽取模型的目标参数。
例如,利用后向传播算法,对该DMCNN模型进行训练,获得所述初始事 件抽取模型的目标参数。
根据所述目标参数,生成目标事件抽取模型。
例如,获得所述目标参数后,可以根据该目标参数,生成目标事件抽取模 型。
本实施例中,所述生成方法,还包括:
获得包括目标自然语言文本的测试数据;
将所述测试数据输入所述目标事件抽取模型,获得测试数据的事件抽取信 息。
例如,在获得目标事件抽取模型后,可以利用该模型进行测试数据的处理, 获得测试结果。
本申请第六实施例提供一种训练集的生成方法,包括:
获得三元组知识库中的实体对象。
根据所述实体对象,在知识库中进行检索,获得所述实体对象对应的触发 词。
利用远程监督算法对所述触发词进行处理,获得标注训练集。
首先对Freebase中的核心实体进行检测,根据角色显著性(role saliency)、 事件相关性(event relevance)和核心率(key rate)对实体进行优先级排序, 接着利用所有的核心实体去Wikipeida中回标,根据触发率(trigger rate)、触 发词频率(triggercandidate frequency)、触发词事件频率(trigger event type frequency)来进行触发词检测,这一阶段得到的触发词表中只有动词,缺少名 词,也存在噪声,于是再利用FrameNet过滤动词性触发词中的噪声,同时扩 展名词性触发词,最后利用远程监督算法(SoftDistant Supervision)来自动生成 标注训练集数据。
本实施例中,所述方法,还包括:
获得三元组知识库中的更新后实体对象。
根据所述更新后实体对象,在知识库中进行检索,获得所述实体对象对应 的更新后触发词。
利用远程监督算法对所述更新后触发词进行处理,获得更新后的标注训练 集。
类似的,当三元组知识库,例如Freebase更新后,可以根据所述更新后实 体对象,在知识库中进行检索,获得所述实体对象对应的更新后触发词。利用 远程监督算法对所述更新后触发词进行处理,获得更新后的标注训练集。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本 领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改, 因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出 接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、 静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随 机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数 字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁 性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。 按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程 序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和 硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算 机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
Claims (15)
1.一种数据处理方法,其特征在于,包括:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进行事件抽取处理。
2.根据权利要求1所述的方法,其特征在于,还包括:
从第二知识库中获得所述目标自然语言文本包含的实体对应的三元组信息;所述三元组信息包括头实体、实体之间关系和尾实体;
对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达式;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进行事件抽取处理,包括:
根据所述目标自然语言文本的摘要嵌入向量和所述实体的嵌入式表达式,对所述目标自然语言文本进行事件抽取处理。
3.根据权利要求2所述的方法,其特征在于,对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达式,包括:
采用知识表示学习模型,对所述三元组信息进行嵌入式表示,获得所述实体的嵌入式表达式。
4.根据权利要求2所述的方法,其特征在于,所述第二知识库为记录有三元组信息的知识库。
5.根据权利要求1所述的方法,其特征在于,所述获得所述目标自然语言文本包含的实体对应的摘要文本,包括:
获取所述目标自然语言文本中包含的实体;
根据所述目标自然语言文本中包含的实体,获得所述目标自然语言文本中包含的实体的摘要信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标自然语言文本包含的实体的摘要信息生成目标自然语言文本的摘要嵌入向量,包括:
根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文本包含的实体的嵌入向量;
对目标自然语言文本包含的所有实体的嵌入向量进行摘要注意力处理,生成目标自然语言文本的摘要嵌入向量。
7.根据权利要求6所述的方法,其特征在于,所述根据目标自然语言文本包含的实体的摘要信息,获得目标自然语言文本包含的实体的嵌入向量,包括:
对目标自然语言文本包含的实体的摘要信息中的每一个句子进行编码,生成每一个句子的句子向量;
对所有句子向量进行编码处理,生成所述目标自然语言文本包含的实体的嵌入向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述目标自然语言文本包含的实体的摘要文本生成目标自然语言文本的摘要嵌入向量,包括:
采用下述至少一种网络,对所述目标自然语言文本包含的实体的摘要信息进行编码生成目标自然语言文本的摘要嵌入向量:
GRU网络;
LSTM网络;
CNN网络;
Transformer网络。
9.一种数据处理装置,其特征在于,包括:
目标自然语言文本获得单元,用于获得目标自然语言文本;
摘要文本获得单元,用于获得所述目标自然语言文本包含的实体对应的摘要文本;
摘要嵌入向量生成单元,用于根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量;
事件抽取处理单元,用于根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进行事件抽取处理。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储数据处理方法的程序,该设备通电并通过所述处理器运行该数据处理方法的程序后,执行下述步骤:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进行事件抽取处理。
11.一种存储设备,其特征在于,存储有数据处理方法的程序,该程序被处理器运行,执行下述步骤:包括:
获得目标自然语言文本;
获得所述目标自然语言文本包含的实体对应的摘要文本;
根据所述目标自然语言文本包含的实体对应的摘要文本生成目标自然语言文本的摘要嵌入向量;
根据所述目标自然语言文本的摘要嵌入向量,对所述目标自然语言文本进行事件抽取处理。
12.一种事件抽取模型的生成方法,其特征在于,包括:
构建初始事件抽取模型,其中,所述初始事件抽取模型的参数为初始化数据;
获得用于训练所述初始事件抽取模型的训练数据,其中,所述训练数据根据权利要求1-8中的任意一项方法获取;
利用所述训练数据,对所述初始事件抽取模型进行训练,获得所述初始事件抽取模型的目标参数;
根据所述目标参数,生成目标事件抽取模型。
13.根据权利要求12所述的生成方法,其特征在于,还包括:
获得包括目标自然语言文本的测试数据;
将所述测试数据输入所述目标事件抽取模型,获得测试数据的事件抽取信息。
14.一种训练集的生成方法,其特征在于,包括:
获得三元组知识库中的实体对象;
根据所述实体对象,在知识库中进行检索,获得所述实体对象对应的触发词;
利用远程监督算法对所述触发词进行处理,获得标注训练集。
15.根据权利要求14所述的方法,其特征在于,还包括:
获得三元组知识库中的更新后实体对象;
根据所述更新后实体对象,在知识库中进行检索,获得所述实体对象对应的更新后触发词;
利用远程监督算法对所述更新后触发词进行处理,获得更新后的标注训练集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340500.5A CN113553424A (zh) | 2020-04-26 | 2020-04-26 | 数据处理方法、装置及设备及事件抽取模型的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010340500.5A CN113553424A (zh) | 2020-04-26 | 2020-04-26 | 数据处理方法、装置及设备及事件抽取模型的生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553424A true CN113553424A (zh) | 2021-10-26 |
Family
ID=78129907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010340500.5A Pending CN113553424A (zh) | 2020-04-26 | 2020-04-26 | 数据处理方法、装置及设备及事件抽取模型的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553424A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547312A (zh) * | 2022-04-07 | 2022-05-27 | 华南师范大学 | 基于常识知识图谱的情感分析方法、装置以及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599032A (zh) * | 2016-10-27 | 2017-04-26 | 浙江大学 | 一种结合稀疏编码和结构感知机的文本事件抽取方法 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107562772A (zh) * | 2017-07-03 | 2018-01-09 | 南京柯基数据科技有限公司 | 事件抽取方法、装置、系统和存储介质 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
US20200097597A1 (en) * | 2018-09-24 | 2020-03-26 | International Business Machines Corporation | On-demand relation extraction from text |
-
2020
- 2020-04-26 CN CN202010340500.5A patent/CN113553424A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599032A (zh) * | 2016-10-27 | 2017-04-26 | 浙江大学 | 一种结合稀疏编码和结构感知机的文本事件抽取方法 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107562772A (zh) * | 2017-07-03 | 2018-01-09 | 南京柯基数据科技有限公司 | 事件抽取方法、装置、系统和存储介质 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
US20200097597A1 (en) * | 2018-09-24 | 2020-03-26 | International Business Machines Corporation | On-demand relation extraction from text |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
Non-Patent Citations (2)
Title |
---|
PIN WU 等: "Template Oriented Text Summarization via Knowledge Graph", 2018 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), 6 September 2018 (2018-09-06), pages 79 - 83 * |
冯骁骋: "基于表示学习的信息抽取技术研究", 中国博士学位论文全文数据库 信息科技辑, vol. 2019, no. 1, 15 January 2019 (2019-01-15), pages 138 - 269 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547312A (zh) * | 2022-04-07 | 2022-05-27 | 华南师范大学 | 基于常识知识图谱的情感分析方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
Jiang et al. | FreebaseQA: A new factoid QA data set matching trivia-style question-answer pairs with Freebase | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
CN109408826A (zh) | 一种文本信息提取方法、装置、服务器及存储介质 | |
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN116775847A (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN112667780B (zh) | 一种评论信息的生成方法、装置、电子设备及存储介质 | |
CN110134780B (zh) | 文档摘要的生成方法、装置、设备、计算机可读存储介质 | |
CN111611452B (zh) | 搜索文本的歧义识别方法、系统、设备及存储介质 | |
CN111767796A (zh) | 一种视频关联方法、装置、服务器和可读存储介质 | |
CN110956021A (zh) | 一种原创文章的生成方法、装置、系统及服务器 | |
WO2023231331A1 (zh) | 一种知识抽取方法、系统、设备及存储介质 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
Dalmia et al. | IIIT-H at SemEval 2015: Twitter sentiment analysis–the good, the bad and the neutral! | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN113553424A (zh) | 数据处理方法、装置及设备及事件抽取模型的生成方法 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
Yao et al. | AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes | |
CN110929085B (zh) | 基于元语义分解的电力客服留言生成模型样本处理系统及方法 | |
CN116186244A (zh) | 生成文本摘要的方法、训练摘要生成模型的方法及装置 | |
CN111949765B (zh) | 基于语义的相似文本搜索方法、系统、设备和存储介质 | |
CN114547233A (zh) | 数据查重方法、装置及电子设备 | |
CN114048742A (zh) | 文本信息的知识实体和关系抽取方法及文本质量评估方法 | |
Aroonmanakun et al. | Thai monitor corpus: Challenges and contribution to thai nlp | |
Zhang-Li et al. | HOSMEL: A Hot-Swappable Modularized Entity Linking Toolkit for Chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |