CN108280058A

CN108280058A - 基于强化学习的关系抽取方法和装置

Info

Publication number: CN108280058A
Application number: CN201810003062.6A
Authority: CN
Inventors: 何世柱; 刘康; 赵军; 曾祥荣
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-07-13

Abstract

本发明涉及自然语言处理技术领域，具体提供了一种基于强化学习的关系抽取方法和装置，旨在解决如何在弱监督数据中进行关系抽取的技术问题。为此目的，本发明中的基于强化学习的关系抽取方法，包括下述步骤：获取句子中各词的词向量和各词的位置向量；依据各词的词向量和位置向量，利用预设关系抽取器获取句子的关系类别；其中，预设关系抽取器为基于神经网络构建的模型，包括用于获取各词对应的词的向量表示的向量表示层，用于获取特征映射向量的卷积神经网络层，用于获取最终句子的向量表示的池化层，用于获取句子的关系类别的分类器层。通过本发明可以利用有监督模型在弱监督数据中获取句子的关系类别。

Description

基于强化学习的关系抽取方法和装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于强化学习的关系抽取方法和装置。

背景技术

信息抽取技术是指快速地从各领域海量的非结构化的文本中发现知识，并将这些文本数据表示成计算机能够“理解”的形式。

关系抽取是信息抽取技术中的重要内容，是从非结构化文本中自动识别出一对概念和联系这对概念的语义关系，并构成三元组。在关系抽取任务中，可以把这对概念称为一对实体，把这对概念之间的语义关系称为关系。

传统的关系抽取方法大都为有监督模型方法。有监督模型方法依赖人工标注的数据，不仅费时费力而且难以进行大规模扩展。近年来，弱监督方法得到了一定的发展。弱监督方法是利用现有的知识库自动回标文本来自动获得大规模的训练数据。每个实体对所回标的句子集合为一个包，根据知识库可以获得每个包的标签信息，但是每个句子是没有直接的标签信息，这就导致传统的有监督模型无法在弱监督数据中进行关系抽取。

发明内容

为了解决现有技术中的上述问题，即为了解决如何在弱监督数据中进行关系抽取的技术问题，本发明提供了一种基于强化学习的关系抽取方法和装置。

在第一方面，本发明中的基于强化学习的关系抽取方法，包括：

步骤S100，获取句子中各词的词向量和各词的位置向量；

步骤S200，依据所获取的各词的词向量和各词的位置向量，利用预设关系抽取器获取句子的关系类别；

其中，所述预设关系抽取器为基于神经网络构建的模型，所述预设关系抽取器包括向量表示层、卷积神经网络层、池化层和分类器层；

所述向量表示层，用于将所述各词的词向量和各词的位置向量进行拼接，获取各词对应的词的向量表示；

所述卷积神经网络层，用于依据所述向量表示层所获取的词的向量表示，获取特征映射向量；

所述池化层，用于依据所述卷积神经网络层所获取的特征映射向量，获取初步句子的向量表示，并将其与词的位置向量拼接，获取最终句子的向量表示；

所述分类器层，用于依据所述池化层所获取的最终句子的向量表示，获取句子关系类别概率值，并将所获取的句子关系类别概率值最大的关系类别作为句子的关系类别。

优选地，“获取句子中各词的词向量和各词的位置向量”的步骤具体包括：

步骤S110，利用分词工具获取句子中的词序列，并利用词向量工具获取所述词序列中各词对应的词向量；

步骤S120，获取句子中各词的位置向量。

优选地，所述预设关系抽取器，其训练优化方法包括：

步骤A1，使用弱监督方法处理预设的训练集；

步骤A2，依据所述弱监督方法处理后的数据，利用预设关系抽取器，依次预测包中各句子的关系类别；

步骤A3，依据所预测的各句子的关系类别和预设规则预测所述包的关系类别；

步骤A4，依据预设奖赏值规则和所预测的包的关系类别与真实的包的关系类别，获取奖赏值；

步骤A5，依据所得到的奖赏值，采用有基线的REINFORCE算法训练所述预设关系抽取器。

优选地，所述预设规则为：

当包中所有的句子的预测关系类别为NA，则预测包的关系类别为NA；所述NA的类别表示为没有关系；

当所述包中有预测关系类别不为NA的句子时，将所述预测概率值最大的句子的预测关系类别作为包的关系类别。

优选地，所述预设奖赏值规则为：

当所述预测的包的关系类别与真实的包的关系类别一致，则得到的奖赏值+1；否则得到的奖赏值-1。

在第二方面，本发明中的基于强化学习的关系抽取装置，包括第一获取模块和第二获取模块；

所述第一获取模块，配置为获取句子中各词的词向量和各词的位置向量；

所述第二获取模块，配置为依据所述第一获取模块所获取的各词的词向量和各词的位置向量，利用预设关系抽取器获取句子的关系类别；

其中，所述预设关系抽取器为基于神经网络构建的模型，所述预设关系抽取器依次包括向量表示层、卷积神经网络层、池化层和分类器层；

优选地，所述第一获取模块包括词向量获取单元和位置向量获取单元；

所述词向量获取单元，配置为利用分词工具获取句子中的词序列，并利用词向量工具获取所述词序列中各词对应的词向量；

所述位置向量获取单元，配置为获取句子中各词的位置向量。

优选地，所述装置还包括训练优化模块；所述训练优化模块包括处理单元、句子关系预测单元、包的关系预测单元、奖赏值获取单元和训练单元；

所述处理单元，配置为使用弱监督方法处理预设的训练集；

所述句子关系预测单元，配置为依据所述处理单元所获取的弱监督方法处理后的数据，利用预设关系抽取器，依次预测包中每个句子的关系类别；所述包为实体对所回标的句子的集合；所述实体为从非结构化的文本中自动识别出的概念；

所述包的关系预测单元，配置为依据所述句子关系预测单元所预测的各句子的关系类别和预设规则预测所述包的关系类别；

所述奖赏值获取单元，配置为依据预设奖赏值规则和所述包的关系预测单元所预测的包的关系类别与真实的包的关系类别，获取奖赏值；

所述训练单元，配置为依据所述奖赏值获取单元所得到的奖赏值，采用有基线的REINFORCE算法训练所述预设关系抽取器。

在第三方面，本发明中的存储装置，其中存储有多条程序，适用于由处理器加载并执行以实现上述技术方案所述的基于强化学习的关系抽取方法。

在第四方面，本发明中的处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

所述程序适于由处理器加载并执行以实现上述技术方案所述的基于强化学习的关系抽取方法。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

1.本发明的基于强化学习的关系抽取方法中，通过获取句子中各词的词向量和各词的位置向量，然后依据所获取的各词的词向量和各词的位置向量，利用预设关系抽取器获取句子的关系类别，这样就可以利用有监督模型在弱监督数据中获取抽取句子的关系类别，不仅省时省力还可以应用于大规模的数据中。

2.本发明的基于强化学习的关系抽取方法中，通过基于强化学习的方法训练预设关系抽取器，可以使预设关系抽取器获取的结果更加精确。

附图说明

图1是本发明实施例的基于强化学习的关系抽取方法的主要步骤示意图。

图2是本发明实施例的基于强化学习的关系抽取方法中的预设关系抽取器的主要结构示意图；

图3是本发明实施例的基于强化学习的关系抽取方法中的预设关系抽取器的主要训练过程示意图；

图4是本发明实施例的三种分类器获取句子的关系类别的准确率的对比直方图；

图5是本发明实施例中的现有方法与本发明中的方法在New York Times数据集第一版本上的召回率与精确率的曲线图；

图6是本发明实施例中的现有方法与本发明中的方法在New York Times数据集第二版本上的召回率与精确率的曲线图；

附图中标记为：1-基于跨句子最大池化的分段卷积网络，2-基于强化学习的关系抽取方法，3-基于多示例学习的分段卷积网络，4-基于注意力机制的分段卷积网络方法一，5-多关系法，6-多示例学习法，7-基线方法(Mintz)，8-基于注意力机制的分段卷积网络方法二。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

下面结合附图，对本发明实施例中基于强化学习的关系抽取方法进行说明。

参阅附图1，图1示例性的示出了本发明实施例的基于强化学习的关系抽取方法中的预设关系抽取器的主要结构。如图1所示，本实施例中基于强化学习的关系抽取方法可以包括步骤S100和步骤S200。

步骤S100，获取句子中各词的词向量和各词的位置向量。

进一步地，本实施例中步骤S100具体包括步骤S110和S120。

步骤S110，利用分词工具获取句子中的词序列，并利用词向量工具获取词序列中各词对应的词向量。

具体地，本实施例中可以利用分词工具对句子进行分词，获取句子中的词序列。利用word2vec工具在New York Times文本集合中可以学得所获取的词序列中每一个词的词向量。

步骤S120，获取句子中各词的位置向量。

具体地，本实施例中在关系抽取任务中，可以把抽取的句子中的一对概念称为一对实体，把这对概念之间的语义关系称为关系。

位置向量表示一个位置值的低维稠密的向量。句子中的一个词的位置是指它到句子中实体之间词的个数。如果该词在实体之前，则位置值为正，否则位置值为负。由于每个句子包含两个实体，因此每个词有两个位置值，对应两个位置向量。将这两个位置向量拼接在一起可以构成这个词的位置向量。

步骤S200，依据所获取的各词的词向量和各词的位置向量。利用预设关系抽取器获取句子的关系类别。

下面参阅附图2对本发明中的预设关系抽取器进行详细说明。图2示例性的示出了本发明实施例的基于强化学习的关系抽取方法中的预设关系抽取器的主要结构。

如图2所示，本实施例中的预设关系抽取器为基于神经网络构建的模型，预设关系抽取器包括向量表示层、卷积神经网络层、池化层和分类器层。

向量表示层用于将各词的词向量和各词的位置向量进行拼接，获取各词对应的词的向量表示。

卷积神经网络层用于依据向量表示层所获取的词的向量表示，获取特征映射向量。

具体地，本实施中定义为句子s_i中的第j个词，M_i为所有词的向量表示的拼接将过滤器W_q沿着句子s_i移动，便可以得到映射向量其中f(x)是非线性函数，bias是偏置值。通常会使用多个过滤器来得到多个特征映射向量。

池化层用于依据卷积神经网络层所获取的特征映射向量，获取初步句子的向量表示，并将其与词的位置向量拼接，获取最终句子的向量表示。

具体地，本实施例中的最大池化就是计算

其中，表示第s_i个句子的第q个特征映射向量，该特征向量共有m维。

分类器层用于依据池化层所获取的最终句子的向量表示，获取句子关系类别概率值，并将所获取的句子关系类别概率值最大的关系类别作为句子的关系类别。

具体地，本实施例中通过将池化层所获取的最终句子的向量表示送入多层感知机，可以输出一个置信度向量，该置信度向量为将该句子分成各关系类别的置信度。最终利用softmax分类函数将所获取的置信度向量转化为概率分类向量，从而获取句子关系类别概率值，并选取所获取的句子关系类别概率值最大的关系类别作为该句子的关系类别。

在使用预设关系抽取器获取句子的关系类别之前，还需要利用弱监督数据并采用强化学习的方法对预设关系抽取器进行优化训练，以便获的更加精准的结果。下面结合附图3对预设关系抽取器的训练过程进行详细说明。

参阅附图3，图3示例性的示出了本发明实施例的基于强化学习的关系抽取方法中的预设关系抽取器的主要训练过程。如图3所示，预设关系抽取器的训练优化方法包括步骤A1、步骤A2、步骤A3、步骤A4和步骤A5。

步骤A1，使用弱监督方法处理预设的训练集。

具体地，本实施例中的预设的训练集为大规模的知识库，如reebase。弱监督方法为利用现有的知识库自动回标文本来自动获得大规模的训练数据。

步骤A2，依据弱监督方法处理后的数据，利用预设关系抽取器，依次预测包中各句子的关系类别。

步骤A3，依据所预测的各句子的关系类别和预设规则预测包的关系类别。

进一步地，本实施中预设规则为：

当包中所有的句子的预测关系类别为NA，则预测包的关系类别为NA；NA的类别表示为没有关系；

当包中有预测关系类别不为NA的句子时，将预测概率值最大的句子的预测关系类别作为包的关系类别。

步骤A4，依据预设奖赏值规则和所预测的包的关系类别与真实的包的关系类别，获取奖赏值。

具体地，本实施例中预设奖赏值规则为：当预测的包的关系类别与真实的包的关系类别一致，则得到的奖赏值+1；否则得到的奖赏值-1。

步骤A5，依据所得到的奖赏值，采用有基线的REINFORCE算法训练预设关系抽取器。

具体地，本实施中预测一个包的关系类别视为一个强化学习回合，包中的每个句子视为一个状态，对句子的关系类别的预测视为执行一次动作。每个状态的奖赏值等同于最后得到的奖赏值。可以采用增加了基线的REINFORCE算法来训练预设关系抽取器，那么奖赏值函数J(θ)如下式(1)所示：

其中，E为期望函数，θ为所有的参数，n为一个包中句子的个数，R(s_i)为第si个句子的奖励。

可以根据下式(2)所示方法来训练：

其中，aⁱ为第si个句子的所属的关系类别。

为使训练更加平稳，基线函数如下式(3)所示：

其中，N为包的个数，sj为包中的第j个句子，ni为第i个包中句子的个数。

则更新公式如下式(4)所示：

为了证明本发明的有效性，可以根据实验验证本发明中基于强化学习的关系抽取方法的性能。

具体地，本实施例中采用的测试语料为New York Times数据集的两个版本，其中，第一个版本的训练集有65726个包，测试集有93574个包，共26个关系类别。第二个版本的训练集有281270个包，测试集有96678个包，共53个关系类别。

参阅附图4，图4是本发明实施例的三种分类器获取的句子的关系类别的准确率的对比直方图。如图4所示，可以知道，本发明实施例的基于强化学习的关系抽取方法的准确率最高，本发明中的基于强化学习的关系抽取方法比基线方法取得了更好的结果。

参阅附图5和附图6，图5是本发明实施例中的现有方法与本发明在New YorkTimes数据集第一版本上的召回率与精确率的曲线图，图6是本发明实施例中的现有方法与本发明在New York Times数据集第二版本上的召回率与精确率的曲线图。通过图5和图6可知，本发明中的基于强化学习的关系抽取方法的召回率和精确率较高，能够获取更加精准的句子关系类别结果。

基于与基于强化学习的关系抽取方法实施例相同的技术构思，本发明实施例还提供了一种基于强化学习的关系抽取装置。下面对该基于强化学习的关系抽取装置进行具体说明。

本实施中基于强化学习的关系抽取装置还可以包括第一获取模块和第二获取模块。

其中，第一获取模块可以配置为获取句子中各词的词向量和各词的位置向量。

第二获取模块可以配置为依据第一获取模块所获取的各词的词向量和各词的位置向量，利用预设关系抽取器获取句子的关系类别。

其中，预设关系抽取器为基于神经网络构建的模型，预设关系抽取器依次包括向量表示层、卷积神经网络层、池化层和分类器层。

向量表示层，用于将各词的词向量和各词的位置向量进行拼接，获取各词对应的词的向量表示。

卷积神经网络层，用于依据向量表示层所获取的词的向量表示，获取特征映射向量。

池化层，用于依据卷积神经网络层所获取的特征映射向量，获取初步句子的向量表示，并将其与词的位置向量拼接，获取最终句子的向量表示。

分类器层，用于依据池化层所获取的最终句子的向量表示，获取句子关系类别概率值，并将所获取的句子关系类别概率值最大的关系类别作为句子的关系类别。

进一步地，本实施例中的第一获取模块包括词向量获取单元和位置向量获取单元。

其中，词向量获取单元可以配置为利用分词工具获取句子中的词序列，并利用词向量工具获取词序列中各词对应的词向量。

位置向量获取单元可以配置为获取句子中各词的位置向量。

进一步地，本实施中的基于强化学习的关系抽取装置还可以包括训练优化模块；训练优化模块包括处理单元、句子关系预测单元、包的关系预测单元、奖赏值获取单元和训练单元。

其中，处理单元可以配置为使用弱监督方法处理预设的训练集。

句子关系预测单元可以配置为依据处理单元所获取的弱监督方法处理后的数据，利用预设关系抽取器，依次预测包中每个句子的关系类别；包为实体对所回标的句子的集合；实体为从非结构化的文本中自动识别出的概念。

包的关系预测单元可以配置为依据句子关系预测单元所预测的各句子的关系类别和预设规则预测包的关系类别。

奖赏值获取单元可以配置为依据预设奖赏值规则和包的关系预测单元所预测的包的关系类别与真实的包的关系类别，获取奖赏值。

训练单元可以配置为依据奖赏值获取单元所得到的奖赏值，采用有基线的REINFORCE算法训练预设关系抽取器。

上述基于强化学习的关系抽取方法的实施例，其技术原理、所解决的技术问题及产生的技术效果相似，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于强化学习的关系抽取装置的具体工作过程及有关说明，可以参考前述基于强化学习的关系抽取方法，在此不再赘述。

本领域技术人员可以理解，上述基于强化学习的关系抽取装置还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未示出。

本领域技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

基于上述基于强化学习的关系抽取方法的实施例，本发明还提供了一种存储装置。本实施例中存储装置中存储有多条程序，该程序适用于由处理器加载并执行以实现上述基于强化学习的关系抽取方法。

基于上述基于强化学习的关系抽取方法的实施例，本发明还提供了一种处理装置。本实施例中处理装置可以包括处理器和存储设备。其中，处理器适于执行各条程序，存储设备适于存储多条程序，并且这些程序适于由处理器加载并执行以实现上述基于强化学习的关系抽取方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述基于强化学习的关系抽取方法实施例中的对应过程，在此不再赘述。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于强化学习的关系抽取方法，其特征在于，所述方法包括：

步骤S100，获取句子中各词的词向量和各词的位置向量；

2.根据权利要求1所述的基于强化学习的关系抽取方法，其特征在于，“获取句子中各词的词向量和各词的位置向量”的步骤具体包括：

步骤S120，获取句子中各词的位置向量。

3.根据权利要求1所述的基于强化学习的关系抽取方法，其特征在于，所述预设关系抽取器，其训练优化方法包括：

步骤A1，使用弱监督方法处理预设的训练集；

4.根据权利要求3所述的基于强化学习的关系抽取方法，其特征在于，所述预设规则为：

5.根据权利要求3所述的基于强化学习的关系抽取方法，其特征在于，所述预设奖赏值规则为：

6.一种基于强化学习的关系抽取装置，其特征在于，所述装置包括第一获取模块和第二获取模块；

7.根据权利要求6所述的基于强化学习的关系抽取装置，其特征在于，所述第一获取模块包括词向量获取单元和位置向量获取单元；

8.根据权利要求6或7所述的基于强化学习的关系抽取装置，其特征在于，所述装置还包括训练优化模块；所述训练优化模块包括处理单元、句子关系预测单元、包的关系预测单元、奖赏值获取单元和训练单元；

所述处理单元，配置为使用弱监督方法处理预设的训练集；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-5任一项所述的基于强化学习的关系抽取方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：权利要求1-5任一项所述的基于强化学习的关系抽取方法。