CN107169079B

CN107169079B - 一种基于Deepdive的领域文本知识抽取方法

Info

Publication number: CN107169079B
Application number: CN201710326192.9A
Authority: CN
Inventors: 陈华钧; 陈曦; 张宁豫; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2019-09-20
Anticipated expiration: 2037-05-10
Also published as: CN107169079A

Abstract

本发明公开了一种基于Deepdive的领域文本知识抽取方法，包括：(1)获取知识库构建系统所需的原始文本，并且对其进行预处理；(2)对预处理后的文本进行实体连接，找到与预设特定关系对应的目标实体，并生成满足实体‑关系‑实体的三元组，组成候选关系实体对集；(3)采用弱监督的方法对多个候选关系实体对进行学习和标注，生成Deepdive工具的训练样本；(4)将训练样本输入至Deepdive工具中，对Deepdive进行训练，并输出概率值大于阈值的候选关系实体对，组成提取的知识库。本发明能够用于完成领域知识库的构建工作，具有很强的扩展性，对于非结构化数据的利用和提取工作具有很好的实用价值。

Description

一种基于Deepdive的领域文本知识抽取方法

技术领域

本发明涉及计算机自然语言处理技术，具体设计了一种基于Deepdive的领域文本知识抽取方法。

背景技术

知识库构建在现实中非常具有现实意义和应用前景。苹果的Siri、微软的Cortana的日常运行都建立在大型的知识库基础上，并针对用户的问题，快速的返回正确的答复。而在一些垂直领域，如客服、金融、聊天机器人等，缺乏一些针对特定关系的知识库，或是缺乏信息完备、内容更新及时的知识库。如果能够针对某个特定的领域和某些特定的关系，进行知识库的自动化构建，并达到较高的准确度，能够有效减少在知识库构建上的人力、时间成本，并且为下游应用提供更好的服务。

目前大多数知识库的构建方法很多还是基于半结构化的数据源或者基于众包的方式进行抽取。例如YAGO通过从维基百科的infobox中抽取事实，构建了大规模的多源知识库；google的freebase通过众包的方式构建了一个大规模高质量的知识库辅助其搜索引擎进行更好的搜索服务。对于非结构化文本的知识抽取方法相对工作较少，而且集中在英文的开放域文本，例如Reverb通过对整个Web的开放信息进行抽取自动化构建知识库，但是由于其只按照动词的划分方法来提取关系，所以提取的三元组实体和关系非常粗糙，致使最后的提取结果也不能应用到各个领域中。

目前随着垂直领域数据的不断积累和对智能化需求的不管提高，垂直领域的知识库已经扮演着非常重要的作用。对于结构化和半结构化的数据，已经有非常多的工具能够帮助我们转化为知识库中的知识，但是目前大多数数据来源都是非结构化的，包括资料数据、对话数据等等，针对这一类中文数据的自动化知识提取的方法非常缺乏，使得数据利用非常困难，迫切需要一种领域文本知识抽取方法来弥补这一块缺失。另一方面，Deepdive是一个最新的针对英文文本的知识库提取基础框架，提供了很大的灵活性用于自定义的特征构建以便更好的挖掘知识，目前已经展示出非常好的效果，如果能够针对中文文本的特点加以改造，对于中文文本抽取将会带来非常大的帮助。

发明内容

有鉴于此，本发明提供了一种基于Deepdive的领域文本知识抽取方法，可以自动的从非结构化的文本中提取特定关系的知识。

一种基于Deepdive的领域文本知识抽取方法，包括以下步骤：

(1)获取知识库构建系统所需的原始文本，并且采用jieba工具对原始文本分词，并采用斯坦福的core NLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理，得到预处理后的文本数据；

(2)对预处理后的文本数据进行实体连接，找到与预设特定关系对应的目标实体，并生成满足实体-关系-实体的三元组，组成候选关系实体对集；

(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注，生成大量的候选关系实体对作为Deepdive工具的训练样本，并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签；

(4)将训练样本和真值标签输入至Deepdive工具中，以目标函数y最大为目标，对Deepdive进行训练，并输出概率值大于阈值的候选关系实体对，组成提取的知识库。

步骤(2)中，知识库构建的原始数据是非结构化的文本数据对象，通过特定的本体和先验知识，从中提取出所需要的知识三元组。候选关系实体对的获取通过构建一个映射表和简单的判断规则来得到，例如对于公司类的实体，需要去除一些后缀词汇例如“股份”、“有限”等。

使用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括：

(a)候选关系实体对集中的候选关系实体对标注为正例，采用负抽样方法获得反例；

(b)使用规则进行弱监督，对于大多数垂直领域，领域专家都有相应的规则来表达某些特定的关系，因此可以利用相似的语法结构来制定相应的规则从而检测某些语句是否表达某一特定关系，并且将这些数据标注为正例；

(c)不断迭代步骤(b)，直到满足迭代次数或获得足够多的候选关系实体为止，输出最后得到的所有候选关系实体。

不同于传统的基于规则提取的方法，Deepdive提供了一套更健壮性的特征提取的方法来获取目标知识三元组。

步骤(4)中，所述Deepdive进行训练的过程为：

首先，Deepdive内建的特征库处理训练样本中候选关系实体对的上下文，从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签；

然后，根据提取的nGram特性和词性标签以及训练样本，采用Factor Graph进行图概率的统计推理和知识学习，得到概率值大于阈值的候选关系实体对，组成提取的知识库。

步骤(4)中，所述的目标函数y为：

其中：

g_j＝w_jf(σ(v₁),σ(v₂),…,σ(v_aj))

σ(v₁)表示因子图变量v₁的概率值，σ(v_aj)表示因子图变量v_aj的概率值，a_j表示为与第j个变量有相关性的随机变量的数目，f(·)表示因子图各随机变量之间的相关性表，w_j表示f(·)的实数权重，Z[I]表示一个区分函数，I表示可能的一种结果假设；Ie表示多种可能的结果假设组成的可能世界；f_i∈f表示一个随机变量以特定方式和其他变量的相关性。

在factor graph的概率分布上，权重学习计算得到每种factor对应的权值。在给定的“可能世界”集合Ie上，通过最大化这些“可能世界”的出现概率，能够得到集合Ie对应的权值。

相比于中文非结构化文本知识提取工具和方法的缺失，本发明提出的基于Deepdive的知识库构建方法，可以自动的从非结构化的文本中提取特定关系的知识，具体优势体现如下：

(1)本发明利用弱监督的方法进行样本标注，大大降低了人工标注的成本。

(2)本发明提供了灵活的特征提取方法使得其可以有效的应用到各个垂直领域的知识提取中去，具有很强的实用性和灵活性。

(3)本发明可用于中文非结构化内容的提取。

附图说明

图1是本发明基于Deepdive的领域文本知识抽取方法的基本流程图；

图2是本发明中原始文本预处理的示例图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本实例要求分析金融公告数据，提取金融领域股权变化类知识，从而构建相应的公司股权知识库。总体的相应的公司股权知识库的构建方法如图1所示：

S01，获取相应的金融公告数据，通过一系列工具将其转化为txt文本内容，并且采用jieba工具对公告数据分词，并采用斯坦福的core NLP工具对分词后的公告数据进行词性标注、命名实体标注以及语法依赖处理，得到预处理后的公告数据，图2所示的是对一句话进行预处理的结果示意图。

S02，对预处理后的公告数据进行实体连接，找到与买卖关系对应的目标实体，并生成满足实体-买卖关系-实体的三元组，组成候选关系实体对集。

S03，采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注，生成大量的候选关系实体对作为Deepdive工具的训练样本，并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签。

本步骤中，首先在已有知识库的基础上通过远程监督构建关系候选表，随后构建相应的关系特征表，之后利用弱监督的方法从已有的知识库中进行样本的标记，基于规则的标记方法也同样可以进行标记。

S04，将训练样本和真值标签输入至Deepdive工具中，以目标函数y最大为目标，对Deepdive进行训练，并输出概率值大于0.95的候选关系实体对，组成提取的知识库。

目标函数y为：

其中：

g_j＝w_jf(σ(v₁),σ(v₂),…,σ(v_aj))

此步骤中，Deepdive进行训练的过程为：

首先，Deepdive内建的特征库处理训练样本中候选关系实体对的上下文，进而从从上下文的分词结果、语法依赖、词性标注结果中提取词语的nGram特性和词性标签。

然后，根据提取的nGram特性和词性标签以及训练样本，采用Factor Graph进行图概率的统计推理和知识学习，进而得到概率值大于阈值的候选关系实体对，组成提取的知识库。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Deepdive的领域文本知识抽取方法，包括以下步骤：

(4)将训练样本和真值标签输入至Deepdive工具中，以目标函数y最大为目标，对Deepdive进行训练，并输出概率值大于阈值的候选关系实体对，组成提取的知识库；

所述的采用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括：

(b)利用相似的语法结构来制定相应的规则，检测某些语句是否表达某一特定关系，并且将这些数据标注为正例；

(c)不断迭代步骤(b)，直到满足迭代次数或获得足够多的候选关系实体为止，输出最后得到的所有候选关系实体；

所述Deepdive训练的过程为：

2.如权利要求1所述的Deepdive的领域文本知识抽取方法，其特征在于，所述的目标函数y为：

其中：

g_j(t,I)＝w_jf(σ(v₁),σ(v₂),…,σ(v_aj))