CN110059314B

CN110059314B - 一种基于增强学习的关系抽取方法

Info

Publication number: CN110059314B
Application number: CN201910278459.0A
Authority: CN
Inventors: 刘兵; 漆桂林; 柏超宇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2023-04-25
Anticipated expiration: 2039-04-08
Also published as: CN110059314A

Abstract

本发明公开了一种基于增强学习的关系抽取方法，包括：步骤10)构建强化学习的关系抽取框架；所述关系抽取框架包括基于DNN模型的关系抽取模型、用于表示关系的人类知识形式的软规则和含有查询问题的关系证据、外部的知识源和智能体；步骤20)获取所述基于DNN模型的关系抽取模型的抽取结果；步骤30)所述智能体在强化学习环境中，利用所述软规则和所述关系证据，对所述抽取结果进行动态调整。所述基于增强学习的关系抽取方法可以增强现有的基于DNN的关系抽取模型。

Description

一种基于增强学习的关系抽取方法

技术领域

本发明属于计算机自然语言处理领域，具体来说，涉及一种基于增强学习的关系抽取方法。

背景技术

关系抽取(RE)目的在于抽取文本中实体对的语义关系。例如，在图1中给定句子#1，关系抽取的目标是确定Phil Schiller和sale department存在关系director_of_organization<e1，e2>。关系抽取被广泛用于后续应用，例如本体构建，知识库(KB)构建以及问答系统。解决关系抽取问题，前人已经做了许多的工作，其中使用基于深度神经网络(DNN)的模型逐渐成为主流。这些基于DNN的模型为从大量数据中学习特征提供了巨大的机能，以及显著提高了关系抽取的效果。尽管取得了令人瞩目的进步，但广泛使用基于DNN的关系抽取模型仍有局限性。

一个局限是基于DNN的关系抽取系统难以人工校正。基于DNN的关系抽取模型具有从数据中自动提取特征的强大功能。但它们是黑盒模型，并且难将人类意图编码至模型，来引导它们捕获所需的模式，除非借助耗费资源的直接监督或临时初始化。因此，在调优关系抽取结果时，人们很难采取手段去纠正基于DNN的关系抽取模型。另一方面，虽然基于规则的关系抽取系统依赖于人工规则，这些规则构建起来非常耗时且无法扩展，但它们应对错误时易于定制并且可由人类解释。

另一个局限是基于DNN的RE模型缺乏足够的信息来进行预测。一方面，基于DNN的关系抽取模型依赖于词向量，其包含的信息可能不足够进行关系抽取。另一方面，单句中信息的稀疏可能导致判断的模糊。如图1所示关系″the director of″，在句子#1中表示关系director_of_organization<e1，e2>，而在句子#2中表示关系director_of_film<e1，e2>。在这种情况下，如果没有足够的背景信息(例如实体的类型)，关系抽取模型就无法进行正确的预测。这样的背景信息可能来自多个异构的信息源，例如知识库，搜索引擎和大量的在线数据。但是，之前的工作只是尝试引入其他语言信息，例如WordNet中的上位词以及使用自然语言处理工具(NLP)得到的依赖树结构。他们都忽略了其他信息。

发明内容

本发明提出一种基于增强学习的关系抽取方法，以增强现有的基于DNN的关系抽取模型。

为解决上述技术问题，本发明实施例采用以下技术方案：

一种基于增强学习的关系抽取方法，包括：

步骤10)构建强化学习的关系抽取框架；所述关系抽取框架包括基于DNN模型的关系抽取模型、用于表示关系的人类知识形式的软规则和含有查询问题的关系证据、外部的知识源和智能体；

步骤20)获取所述基于DNN模型的关系抽取模型的抽取结果；

步骤30)所述智能体在强化学习环境中，利用所述软规则和所述关系证据，对所述抽取结果进行动态调整。

作为优选例，所述步骤20)中，获取所述基于DNN模型的关系抽取概率分布，并进行降序排列，生成关系抽取结果。

作为优选例，所述的基于增强学习的关系抽取方法，还包括预定义：设定关系集合

以及一个已标注的数据集

数据集中每一个实例都包含了一对标记了实体<e₁，e₂>的一个句子sen，以及它们的关系标签

输入句子sen，输出关系

的概率分布

句子

表示为一组词向量序列

由词向量

和位置向量

连接得到；MDP五元组

其中S＝{s}表示所有可能的状态空间，

表示行为集合，大小为N^a，

表示状态转移函数，

表示奖励函数，γ表示衰减因子。

作为优选例，所述步骤30)中，所述强化学习环境包括：

(a)设定状态信息：将状态信息表示为实值向量，每个状态信息包含：

表示提取出的句子，在训练期间，它来自于从

中抽样的实例(sen，l)；

表示句子向量所处的空间，即由句子中的单词与两个位置标识符组成；

表示综合的关系抽取结果，为一组概率分布，并在MDP开始时使用基于DNN的模型进行初始化；

表示关系抽取结果所处的状态空间，即一个不超过关系总数的整数；

表示当前框架正在应用人类知识来辅助分类的关系；

表示指示句子是否与某个关系的软规则相匹配；

表示每种关系已发现的关系证据数量；

表示已经运用人类知识的总步数；

表示当前关系上已经运用人类知识的总步数；

(b)在

上定义行为：

NextRel表示移动到下一个关系，并将句子与其软规则匹配；

NextQue表示继续对当前关系搜索证据；

Stop表示结束MDP；

(c)定义奖励：

奖励函数用来在保证消耗的时间最小的同时，使关系抽取的性能最大化；奖励函数

定义如下：

r_t+1＝P_t+1(l|sen)-P_t(l|sen)-δ

其中，P_t(l|sen)是在时间t时在正确标签上的概率值，负奖励δ用于惩罚智能体消耗了更多的资源；P_t+1(l|sen)是在时间t+1时在正确标签上的概率值；

(d)状态转移

智能体的每一段经历以一个句子sen开始；P(re|sen)使用基于DNN的关系抽取模型得到的结果P′(re|sen)来初始化，CurRel、IndOfRules、EviNum、TotalSteps和CurRelSteps用零或者零向量来初始化；转移具体是指所述变量的更新；状态转移函数T(s_t+1|s_t，a_t)的定义如下：

无论采取什么动作，TotalSteps←TotalSteps+1。即所采取的总步数增加1，对应上一节中的负奖励δ；

假如采取了NextRel操作，CurRelSteps←1，即重置当前关系上消耗的步数；

假如采取了NextQue操作，CurRelSteps←CurRelSteps+1，即在当前关系上消耗的步数加1；

假如采取了NextRel操作，CurRel会被更新为下一个关系的独热向量；

假如句子sen符合当前关系CurRel的任意一条软规则，那么相应的IndOfRules会被更新为1；

假如采取了NextQue，以及找出关于这个关系的证据，那么对应的EviNum就会被加1；

假如句子sen匹配到软规则或者是找到了关系证据，那么按下面的公式更新关系抽取结果：

P(re|sen)＝norm(P′(re|sen)+λ₁IndOfRules+λ₂EviNum)

其中，norm表示归一化函数，λ₁是归一化函数的第一平衡因子；λ₂是归一化函数的第二平衡因子。

与现有技术相比，本发明实施例的基于增强学习的关系抽取方法，可以增强现有的基于DNN的关系抽取模型。本发明实施例的方法能以软规则和关系证据的形式引入人类知识来增强现有的基于DNN的关系抽取模型。本发明实施例可以增强现有的基于DNN的关系抽取模型，引入的智能体通过标注过的训练集数据学习应用人类知识的策略，智能体通过DNN模型得到各种关系的概率分布，再根据学习到的策略去线性结合软规则和关系证据提高在正确标签上的概率，同时不会利用特别多的资源。

附图说明

图1是背景技术中介绍的关系抽取实例；

图2是本发明实施例的基于强化学习的关系抽取框架的架构图；

图3是本发明实施例中步骤30)的流程示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行详细的说明。

本发明实施例的一种基于增强学习的关系抽取方法，包括：

步骤20)获取所述基于DNN模型的关系抽取模型的抽取结果；

对于某种关系，软规则用于指示句子是否直接表达这种关系，而关系证据是任何倾向于支持这种关系的信息(参见图1的下半部分)。本实施例的框架使用基于DNN的关系抽取模型首先提供基础的关系预测，然后应用人类知识动态调整关系抽取结果。软规则的引入使人类能够对关系抽取结果产生影响，并通过自定义规则集来修改关系抽取系统。考虑到硬性规则构建起来非常耗时，本实施例使用软规则来灵活的规则编码。此外，当输入语句中没有足够的信息时，本实施例的框架可以动态地从外部信息源中搜索关系证据。虽然人类知识的应用是有益的，但会花费时间和其他资源。此外，应用人类关系知识的宽度和深度对于提高关系抽取结果非常重要。因此，本实施例将人类知识的应用视为动态决策问题，并使用强化学习对其进行建模。

作为优选例，所述步骤10)中，基于强化学习的关系抽取框架如图1所示，包括以下几个部分：(1)一个基于深度神经网络(DNN)的关系抽取模型，它可以提供关系抽取的基础结果；(2)用于表示关系的人类知识形式的软规则，以及一些含有查询问题的关系证据；(3)外部的知识源，比如知识库和搜索引擎，其中包括了大量的关系证据信息；(4)智能体，它用来结合人类知识对关系抽取结果进行动态调整。强化学习框架组合了这些组件，并且进行马尔科夫决策过程(MDP)来获得综合的关系抽取结果。

以及一个已标注的数据集

目标是获得一个有效的关系抽取器，在关系抽取器中输入句子sen，输出关系

的概率分布

句子

表示为一组词向量序列

由词向量

和位置向量

连接得到；对于每个关系

它有一个软规则集合以及一组对关系证据

的询问集合，这个关系抽取任务被形式化为一个MDP五元组

其中S＝{s}表示所有可能的状态空间，

表示行为集合，大小为N^a，

表示状态转移函数，

表示奖励函数，γ表示衰减因子。

作为优选例，所述步骤30)中，所述强化学习环境包括：

表示提取出的句子，在训练期间，它来自于从

中抽样的实例(sen，l)；

表示句子向量所处的空间，即由句子中的单词与两个位置标识符组成。

表示当前框架正在应用人类知识来辅助分类的关系，为一个独热向量。

表示指示句子是否与某个关系的软规则相匹配，使用二进制进行编码。

表示每种关系已发现的关系证据数量，为一个整数。

表示已经运用人类知识的总步数，为一个整数。

表示当前关系上已经运用人类知识的总步数，为一个整数。

(b)在

上定义行为：

NextRel表示移动到下一个关系，并将句子与其软规则匹配；

NextQue表示继续对当前关系搜索证据；

Stop表示结束MDP；

当这些行为被用在模型中时，被独热向量

来表示。

(c)定义奖励：

定义如下：

r_t+1＝P_t+1(l|sen)-P_t(l|sen)-δ

(d)状态转移

P(re|sen)＝norm(P`(re|sen)+λ₁IndOfRules+λ₂EviNum)

其中，norm表示归一化函数，λ₁是归一化函数的第一平衡因子；λ₂是归一化函数的第二平衡因子。采取该线性结合模型是为了使结合后的效果更具有可解释性。

硬规则可以被表述为“If<condition>，then<conclusion>”，而软规则可以被表述为“If<condition>，thenit is possible that<conclusion)”。硬规则是精确的，因此构建非常耗时。在关系抽取任务中，为了获得特定关系的硬规则，需要总结该关系相关的许多正实例的共有模式，然后通过检查它们的提取结果来迭代地校正这些规则。相反，软规则可以非常容易和快速地制定，甚至可以根据单个正实例为关系抽取任务编写软规则，而无需考虑其准确率和召回率等指标。因此，利用软规则在框架中支持灵活的规则编码。虽然不准确，但这些软规则可以为识别关系提供重要的提示。

为了构建关系抽取的软规则，定义了一个模板“If<sentence>matches<pattern>，thenit is possible that<sentence>expresses<relation>”然后就可以根据这个模板来构建软规则。例如在图1中，我们可以将<relation>替换为director_of_film，并将<pattern>替换为表1中的模式。

表1用于抽取director_of_film关系的模式举例

#	模板
		1	<e1>is the director of<e2>
2	<e1＞directs the film<e2>
		3	<e1>is a director and his/her works include<e2>...
4	<e1>directs a film named<e2>

为了在RE中加入有用的背景信息，框架可以利用人工请问来寻找关系证据。对于某一种关系，其证据可以是有助于句子表达两个实体之间的这种关系。表2展示了有关于图1的几个关系证据。至于图1所描述的句子，假如能从外部信息源中找到一些信息的话，那么这个模糊的问题可以很容易的解决。关系证据的查询表达式取决于特定的信息系统。

表2关系证据举例说明

本实施例基于强化学习的关系抽取模型中，用于关系抽取的DNN模型是可更换的，它可以被替换成任何可以输出概率分布P(re|sen)的DNN结构。采用基于CNN的关系抽取模型以及加上注意力机制的CNN模型作为基于DNN的模型。将DNN模型的所有参数记作

其中θ^word是词向量的嵌入，θ^pos是位置特征的嵌入，

表示基于DNN的关系抽取模型的其他参数。

本实施例的方法将强化学习融入进了传统的关系抽取任务。它可以将基于DNN的关系抽取模型与软规则相结合。由此产生的关系抽取方法不仅可以利用DNN模型强大的性能，而且更加方便去进行人为纠正。该方法也可以从异质的知识源中寻找关系证据来补充背景信息，从而增强基于DNN的关系抽取模型。

在关系抽取的常用数据集SemEval2010Task8上进行实验，该数据集有10717人工标注的句子，包含了8000句的训练集和2717句的测试集。每个句子中实体已经被标注了出来，同时也给出了两个实体之间的关系。采用本实施例的方法(即CNN+RL和CNN+ATT+RL)和其他现有方法对数据集SemEval2010 Task 8上进行实验，结果如下：

表3

从表3中，我们可以看到，在应用了强化学习之后，确实能够对原有DNN抽取出来的结果有一定的纠正作用。CNN+ATT+RL这种方法在关系抽取任务上展现出来的性能也已经到达了当前最好水平。

下面例举一实例，验证本发明方法具有可行性。如表4所示：

表4

从表4的两个例子中可以看到，DNN在进行关系抽取任务时会发生一些错误，在正确标签上的概率不是最高的，但是也不算太低，也就是该句子经过DNN抽取后概率分布的熵较大，智能体大多会在这种状态下开始利用人类知识增强结果。例1中，DNN在正确标签上的概率是23％，但我们在存储的软规则库中找到了一条Instrument-Agency(e2，e1)的规则与句子相匹配，经过增强模型后在正确标签上的概率能够达到49％此时Instrument-Agency(e2，e1)在各种关系的概率分布中已经达到了最大。

本实施例的方法中，智能体观察到的状态非常复杂，而且都是用高维向量来表示，使用DNN模型Q(s，a；θ^q)来估计行为-价值对函数，其中θ^q代表了DeepQ-Network结构中的参数，以及使用深度Q-Learning来估计最优的行为-价值对函数。利用DeepQ-Network结构对DNN模型进行训练。