CN112651234A

CN112651234A - 一种半开放信息抽取的方法及装置

Info

Publication number: CN112651234A
Application number: CN202011502018.3A
Authority: CN
Inventors: 柳厅文; 郁博文; 王玉斌; 张振宇; 亚静
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-13
Anticipated expiration: 2040-12-18
Also published as: CN112651234B

Abstract

本发明公开一种半开放信息抽取的方法及装置，涉及自然语言处理领域，通过将目标实体和无结构文本前后拼接构成组合文本，处理得到目标实体感知的上下文表示；再将目标实体感知的上下文表示作为共享特征，为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示，对私有表示进行谓语和宾语的抽取，以及进行边界对齐；最后通过谓语和宾语组合，查找起始和结束位置组合在边界对齐矩阵中是否有相应的标签，如果找到，则保留<谓语，宾语>元组并作为输出的关系知识。本发明能够克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足。

Description

一种半开放信息抽取的方法及装置

技术领域

本发明涉及自然语言处理领域，具体为一种面向特定实体抽取对应的描述、同义词、下位词等词汇知识，以及包含特定实体的三元组等关系知识的抽取方法及装置。

背景技术

信息抽取是从大量数据中准确、快速地获取目标信息，提高信息的利用率，随着互联网应用的发展，其价值也正日益显现。传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取，这大大制约了文本信息抽取技术在开放领域的发展和应用。为了适应互联网实际应用的需求，越来越多的研究者开始研究开放信息抽取技术，目标是从海量、冗余、含有大量噪声的网页文本中大规模地抽取开放类别的实体、关系等语义单元信息。总体来看，目前的开放信息抽取方法都以自由文本作为输入，输出无目标的结构化知识。其中，比较流行的有OpenIE系列、NeuOIE、Logician等。

然而，众多知识增强的自然语言处理任务如知识库构建、语义搜索、问答系统通常会指定一个目标实体，并要求抽取系统返回该实体的相关知识作为外部信息辅助任务解决。现有的开放信息抽取方法应用于这一场景存在以下两个问题：(1)冗余抽取。现有方法只能先从文本集合中抽取一般性的知识，再从抽取结果中进行检索，造成计算资源和存储资源的浪费。(2)语义缺失。现有方法无法利用给定的实体语义信息进行抽取，缺失了这一重要的先验知识，导致目标相关的知识无法被准确的抽取。

发明内容

为了克服现有的开放信息抽取方法不能有效抽取特定实体相关的目标知识的不足，本发明提供一种新的半开放信息抽取的方法及装置，给定目标实体以及包含该实体的文本集合，返回目标实体的描述、同义词、下位词等词汇知识集合(包含一个或多个<词汇知识，知识类型>元组)，以及目标实体参与的关系知识集合(包含一个或多个<谓语，宾语>元组)。

本发明采用以下技术方案：

一种半开放信息抽取的方法，包括以下步骤：

将目标实体和无结构文本前后拼接，构成组合文本，处理得到融入目标实体语义的文本表示序列，该表示序列中目标实体位置的表示作为条件向量对其他位置的词表示进行条件层正则化，得到目标实体感知的上下文表示；

将目标实体感知的上下文表示作为共享特征，为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示；

对谓语抽取的私有表示进行一次标注，得到以每个词为起始词开始的所有谓语片段，并通过递归的片段组合得到所有的谓语；

对宾语抽取的私有表示进行一次标注，得到以每个词为起始词开始的所有宾语片段，并通过递归的片段组合得到所有的宾语；

对边界对齐的私有表示中的各个词项进行两两组合，构成词对矩阵，对词对矩阵中的每个位置分配一个标签，产生每个<谓语，宾语>元组的开始位置对PS-OS标签和结束位置对PE-OE标签；

对抽取得到的谓语和宾语进行两两组合，通过判断谓语和宾语的起始位置组合和结束位置组合是否在边界对齐矩阵中找到对应的PS-OS和PE-OE标签，如果找到，则保留<谓语，宾语>元组并作为输出的关系知识。

进一步地，每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作，得到关于当前子任务的其他子任务表示，并与当前子任务的私有表示拼接，作为后续的三个子任务的输入，以此建立三个子任务之间的相互依赖关系。

进一步地，在对边界对齐的私有任务的标注中，对词对矩阵中的每个位置分配标签时，还产生不属于PS-OS和PE-OE标签的所有词对O标签。

进一步地，在对宾语抽取的私有表示进行标注中，还标注同义词、下位词和描述语句，作为最终输出的关系知识的一部分。

一种半开放信息抽取的装置，包括：

目标实体感知的编码器，用于处理目标实体和无结构文本前后拼接构成的组合文本，得到融入目标实体语义的文本表示序列，该表示序列中目标实体位置的表示作为条件向量对其他位置的词表示进行条件层正则化，得到目标实体感知的上下文表示；

协同学习模块，用于将目标实体感知的上下文表示作为共享特征，为后续的谓语抽取、宾语抽取和边界对齐这三个子任务生成特定的私有表示；

谓语抽取器，用于对谓语抽取的私有表示进行一次标注，得到以每个词为起始词开始的所有谓语片段，并通过递归的片段组合得到所有的谓语；

宾语抽取器，用于对宾语抽取的私有表示进行一次标注，得到以每个词为起始词开始的所有宾语片段，并通过递归的片段组合得到所有的宾语；

边界对齐模块，用于对边界对齐的私有表示中的各个词项进行两两组合，构成词对矩阵，对词对矩阵中的每个位置分配一个标签，产生每个<谓语，宾语>元组的开始位置对PS-OS标签和结束位置对PE-OE标签；

解码模块，用于对抽取得到的谓语和宾语进行两两组合，通过判断谓语和宾语的起始位置组合和结束位置组合是否在边界对齐矩阵中找到对应的PS-OS和PE-OE标签，如果找到，则保留<谓语，宾语>元组并作为输出的关系知识。

进一步地，目标实体感知的编码器，基于深层预训练表示模型，该模型包括多层可进行交互的Transformer网络。

进一步地，协同学习模块基于卷积神经网络，谓语抽取器和宾语抽取器均基于矩阵标注网络。

进一步地，协同学习模块还用于将每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作，得到关于当前子任务的其他子任务表示，并与当前子任务的私有表示拼接，作为后续的三个子任务的输入，以此建立谓语抽取器、宾语抽取器和边界对齐模块之间的相互依赖关系。

进一步地，边界对齐模块对词对矩阵中的每个位置分配标签时，还产生不属于PS-OS和PE-OE标签的所有词对O标签。

进一步地，宾语抽取器还标注同义词、下位词和描述语句，作为最终输出的关系知识的一部分。

本发明方法有以下优点：

(1)将特定实体的语义编码进入抽取过程中，能够准确地抽取目标相关的知识；

(2)不受级联误差影响。和当前基于序列到序列的抽取算法相比，本发明将抽取任务分解为谓语抽取、宾语抽取以及边界对齐三个子任务，他们独立执行，不依赖于其他抽取模块的结果，同时利用协同学习策略隐式建模不同抽取子任务间的语义关联，在人工标注的大规模数据集上获得了当前最好的技术效果。

附图说明

图1是本发明的一种半开放信息抽取的装置结构图。

具体实施方式

为使本发明的技术方案能更明显易懂，特举实施例并结合附图详细说明如下。

如图1所示，为了实现半开放抽取的目标，本发明提出的模型将抽取过程分解为四个模块：目标实体感知的编码器、协同学习模块、谓语抽取器、宾语抽取器以及边界对齐模块。对于输入的目标实体以及无结构文本，编码器首先将目标实体的语义信息融入上下文表示的建模过程中，作为后续抽取步骤的基础特征。协同学习模块接受编码器输出的共享表示，为后续的三个抽取子任务生成任务特定的私有表示，增强不同子任务的抽取器间的关联性。谓语抽取和宾语抽取模块以矩阵标注的方式得到目标实体的谓语和宾语，边界对齐模块产生每个<谓语，宾语>元组的开始位置对和结束位置对。最后，通过组合抽取出的谓语、宾语以及他们对齐的边界来获得目标实体相关的结构化知识。词汇知识被当做特殊类型的宾语由宾语抽取器直接产生。接下来对各个模块的详细信息进行具体介绍。

(一)目标实体感知的编码器

深层预训练表示模型在自然语言处理的各个任务上都表现了极佳的效果。本发明将目标实体拼接在文本之前，构成组合文本，再输入表示模型中，通过多层的Transformer网络进行交互，得到融入目标实体语义的文本表示序列。进一步地，表示序列中拼接的目标实体位置的表示被当做是条件向量对其他位置的词表示进行条件层正则化，得到目标实体感知的上下文表示。

(二)协同学习模块

该模块接收编码器产生的上下文表示作为共享特征，通过任务特定的卷积神经网络为后续的每个子任务生成私有表示，每个任务的私有表示作为查询向量对其他任务的表示进行自注意力操作，得到关于该任务的其他任务表示，与该任务的私有表示拼接作为后续抽取模块的输入，以此建模谓语抽取器、宾语抽取器和边界对齐模块间的相互依赖关系。

(三)谓语(宾语)抽取器

谓语抽取和宾语抽取可以分别被建模为两个单独的序列标注任务，考虑到不连贯谓语和宾语的存在，本发明使用矩阵标注网络作为谓语(宾语)的抽取器。对于序列中的每个词t，网络对输入序列进行一次标注，得到以t为起始词的所有谓语(宾语)片段，并通过递归的片段组合到所有的谓语(宾语)，每个词对应的标注序列可以看做标注矩阵的一行。

(四)边界对齐模块

输入序列的N个词项两两组合，得到N*N个词对，构成N*N的词对矩阵。边界对齐模块为词对矩阵中的每个位置分配一个标签：PS-OS(表示谓语起始词-宾语起始词)或PE-OE(表示谓语结束词-宾语结束词)或O(表示不属于PS-OS和PE-OE的所有词对)

(五)解码模块

所有模块执行完毕后，对于抽取得到的谓语和宾语进行两两组合，通过判断他们的起始位置组合以及结束位置组合是否在边界对齐矩阵中可以找到对应的PS-OS和PE-OE的标签，来获得<谓语，宾语>元组作为输出的关系知识。如果找到，那么保留该<谓语，宾语>；如果未能找到，则舍弃。宾语抽取器还会标注同义词、下位词和描述等词汇知识，也一并作为抽取系统的输出，这些词汇知识通过宾语抽取器中特殊的标签加以区分。

以下列举一具体实例：

如图1所示，本例基于一种半开放信息抽取的装置，首先利用搜索引擎等工具从互联网中检索得到包含特定实体的网页，对其进行文本提取、清洗、分句，得到包含特定实体的句子集合。对于候选的每个<实体，句子>元组，均采用半开放信息抽取模型从中获取实体相关的知识。具体来说，假设候选句为“全国社会保障基金(社保基金)是政府用以提供社会保障的基金，包括养老保险基金，医疗保险基金等，用于社会保险待遇的当期发放。”目标实体为“全国社会保障基金”，首先将目标实体和候选句拼接输入中文预训练表示模型中，基于协同学习得到的任务特定表示，谓语抽取器标注得到谓语集合{“包括”，“用于”}，宾语抽取器标注得到基础宾语集合{“养老保险基金”，“医疗保险基金”，“社会保险待遇的当期发放”}以及同义词集合{“社保基金”}、下位词集合{“养老保险基金”，“医疗保险基金”}以及描述集合{“政府用以提供社会保障的基金”}，边界对齐模块得到开始位置对齐集合{“包-养”，“包-医”，“用-社}与结束位置对齐集合{“括-金”，“括-金”，“用-放”}，综合考虑对齐的边界和抽取出的谓语和宾语，可以得到最终的抽取结果。

本发明的半开放信息抽取装置(USE)与其他基线模型在中文数据集上的抽取结果如表1，可见在各项的F1值中表现优越，表中overall指代关系知识(Relational Fact)和词汇知识(Lexical Fact)抽取结果的微平均，P表示准确率，R表示召回率，F1值表示P和R的调和平均。

表1

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，本发明的保护范围以权利要求所述为准。

Claims

1.一种半开放信息抽取的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作，得到关于当前子任务的其他子任务表示，并与当前子任务的私有表示拼接，作为后续的三个子任务的输入，以此建立三个子任务之间的相互依赖关系。

3.如权利要求1所述的方法，其特征在于，在对边界对齐的私有任务的标注中，对词对矩阵中的每个位置分配标签时，还产生不属于PS-OS和PE-OE标签的所有词对O标签。

4.如权利要求1所述的方法，其特征在于，在对宾语抽取的私有表示进行标注中，还标注同义词、下位词和描述语句，作为最终输出的关系知识的一部分。

5.一种半开放信息抽取的装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，目标实体感知的编码器，基于深层预训练表示模型，该模型包括多层可进行交互的Transformer网络。

7.如权利要求5所述的装置，其特征在于，协同学习模块基于卷积神经网络，谓语抽取器和宾语抽取器均基于矩阵标注网络。

8.如权利要求5所述的装置，其特征在于，协同学习模块还用于将每个子任务的私有表示作为查询向量对其他子任务的私有表示进行自注意力操作，得到关于当前子任务的其他子任务表示，并与当前子任务的私有表示拼接，作为后续的三个子任务的输入，以此建立谓语抽取器、宾语抽取器和边界对齐模块之间的相互依赖关系。

9.如权利要求5所述的装置，其特征在于，边界对齐模块对词对矩阵中的每个位置分配标签时，还产生不属于PS-OS和PE-OE标签的所有词对O标签。

10.如权利要求5所述的装置，其特征在于，宾语抽取器还标注同义词、下位词和描述语句，作为最终输出的关系知识的一部分。