CN114997398B

CN114997398B - 一种基于关系抽取的知识库融合方法

Info

Publication number: CN114997398B
Application number: CN202210232531.8A
Authority: CN
Inventors: 叶东; 肖岩; 李晖; 王日昆; 孙兆伟
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2023-05-26
Anticipated expiration: 2042-03-09
Also published as: CN114997398A

Abstract

一种基于关系抽取的知识库融合方法，本发明涉及基于关系抽取的知识库融合方法。本发明的目的是为了解决现有知识融合方法忽略了文本中不同表述方式而语义相同的潜在合并内容，无法将属于同一知识的不同实体进行有效合并的问题。一种基于关系抽取的知识库融合方法过程为：步骤1：文本数据预处理；步骤2：关系规则抽取，获取关系规则库；步骤3：使用步骤2获取的关系规则库作为数据驱动，抽取待抽取文本数据中的关系三元组，从而构建统一的知识库。本发明用于信息抽取领域。

Description

一种基于关系抽取的知识库融合方法

技术领域

本发明属于信息抽取领域，具体涉及一种使用先验知识库作为驱动，通过开放式关系抽取方法对多个文本数据源中存在知识进行融合的方法。

背景技术

随着互联网技术的飞速发展，其中蕴含的数据信息得到了爆炸式的增长，其中文本信息是受众最广泛的形式之一，该文本信息为各个领域的文本信息，比如生物医学领域、机械领域、航天领域、航海领域、通信领域等，在生物医学中，文本数据为生物医学数据，Leukemia(白血病)和Liver and Intrahepatic Biliary Tract Carcinoma(肝脏和肝内胆道癌)代表实体1和实体2，这两个实体以节点的形式进行展示，两个节点间存在一条边，由白血病指向肝脏和肝内胆道癌，边的名称是Affect(影响)，这两个节点和这一条边所代表的含义为白血病影响肝脏和肝内胆道癌；三元组体现了疾病与疾病间的关系；在机械领域中，三元组为(锻件，拉，孔)和(锻件，钻，孔)等。

面对各个领域的海量文本信息，人们从中获取有意义的信息越来越困难，一种有效的方式是通过抽取各个领域的海量文本信息中的实体与实体间的关联关系快速汲取有效知识。实体关系抽取作为信息抽取的重要组成部分，旨在从非结构化以及半结构化的文本中检测和抽取实体之间的语言关系，从而获得各个领域的文本中的有效知识。这一任务不仅可以快速构建知识网络，帮助用户全面快速获取信息和知识资源，而且对社会网络分析、问答系统的自动构建具有十分重要的作用。

然而，不同来源的各个领域的文本由于存在环境、表述方式、侧重重点等方面的不同，常常其中对于相同知识具有不同的表达方式，从而导致其中抽取出的实体与关系均存在知识不一致的问题。因此产生了知识融合的现实需求，对不同数据源中知识进行整合，获取具有一致性的完整知识网络。有效的知识融合方法对于知识系统间共享、知识图谱构建扩展等问题的研究都具有重要帮助。现有知识融合方法通常通过图融合的形式存在，通过对知识图间拓扑结构的计算合并相似对象。这类方法更多关注于图结构而忽略了文本中不同表述方式而语义相同的潜在合并内容，因此无法将属于同一知识的不同实体进行有效合并。

发明内容

本发明的目的是为了解决现有知识融合方法忽略了文本中不同表述方式而语义相同的潜在合并内容，无法将属于同一知识的不同实体进行有效合并的问题，而提出一种基于关系抽取的知识库融合方法。

一种基于关系抽取的知识库融合方法具体过程为：

步骤1：文本数据预处理；

步骤2：关系规则抽取，获取关系规则库；

步骤3：使用步骤2获取的关系规则库作为数据驱动，抽取待抽取文本数据中的关系三元组，从而构建统一的知识库。

优选地，所述步骤1中文本数据预处理；具体过程为：

步骤11：获取多个待融合数据，读取待融合数据中文本数据，使用{。}{？}{！}{…}{.}{？}{！}断句字符以及特殊的引号{”}{’}{"}作为切分句子的标记，将文本数据切分为以句子为单位的独立单元；

步骤12：对切分后的每个句子进行词法分析；

步骤13：对词法分析后的每个句子进行句法分析。

优选地，所述步骤12中对切分后的每个句子进行词法分析；具体过程为：

对切分后的每个句子通过中文分词工具处理，获得每个句子的词序列；

对每个句子的词序列中的词语进行词性标注；

通过命名实体识别工具识别每个句子的词序列中的词语的命名实体并进行记录。

优选地，所述步骤13中对词法分析后的每个句子进行句法分析，具体过程为：

通过依存句法分析方法构建每个句子的依存句法树，将每个句子中的代词性指代进行指代消解处理，将代词替换为代词指代的词。

优选地，所述步骤2中关系规则抽取，获取关系规则库；具体过程为：

步骤21：采集文本数据源，人工标注文本数据的关系三元组，对人工标注后的文本数据进行文本数据预处理；

步骤22：中心词提取；

步骤23：依存路径提取；

步骤24：基于中心词提取和依存路径提取进行关系规则提取；获取关系规则库。

优选地，所述步骤22中中心词提取；具体过程为：

抽取标注关系三元组中实体1、关系和实体2的中心词；当实体或者关系由一个词语表示时，该词语就是实体或者关系的中心词，当实体或者关系由多个词语组成的词组表示时，需要从词组中抽取一个词作为中心词来表示实体或者关系。

优选地，所述步骤23中依存路径提取；具体过程为：

依存路径提取就是给定依存句法树中的任意两个节点，提取两个节点之间的最短依存路径；

使用依存句法分析工具判断分词之后的词语对之间的依存关系，并以树的结构将所有词语组织起来得到依存句法树；

树中的每个节点就是一个词语，词语之间依存关系的方向性由树中节点之间的父子关系表示；

通过构建的依存句法树，获取实体1中心词与关系中心词和实体2中心词与关系中心词两条依存路径。

优选地，所述步骤24中基于中心词提取和依存路径提取进行关系规则提取；具体过程为：

关系规则包含关系三元组“<实体1，关系，实体2>”中关系的构成以及构成关系词语的词性、实体1和实体2在句子中的先后位置关系、实体和关系之间的依存关系信息。

优选地，所述步骤3中使用步骤2获取的关系规则库作为数据驱动，抽取待抽取文本数据中的关系三元组，从而构建统一的知识库；

具体步骤如下：

步骤31：采集待抽取文本数据源，对待抽取文本数据源进行文本数据预处理；

步骤32：候选实体选取：

通过词语词性约束抽取句子中单个名词和名词性短语；

然后再根据词性和命名实体类型约束获得过滤后的单个名词和名词性短语作为候选实体；

所述名词性短语包括以名词、动词或者形容词为中心词的偏正短语、用名词构成的联合短语、复指短语；

步骤33：候选实体对选取：

首先，遍历句子中候选实体集中的每个元素，如果句子中包含多个命名实体类型，则将这些命名实体类型的词语两两组合，每个组合根据两个词语先后顺序不同可以表示两个候选实体对；

然后，将句子中候选实体集中的所有元素两两组合，每个组合根据元素先后顺序不同可以表示两个候选实体对；

最后，将句子中候选实体集中的元素与句子中名词性短语集中不属于候选实体集的元素进行两两组合，每个组合根据元素先后顺序不同可以表示两个候选实体对；

得到整个句子中所有可能的候选实体对；

步骤34：规则匹配与关系抽取：

首先判断候选实体对中两个实体的先后位置信息是否符合关系规则库中实体的先后位置信息；

然后根据候选实体对中的两个实体的中心词，分别在句子的依存句法树中按照关系规则库中的实体中心词与关系中心词的依存路径匹配关系中心词；

最后根据关系规则库中的关系词语词性与实体间依存关系扩展关系中心词得到最终关系，获取关系三元组，并加入知识库中；

将获取关系三元组补充到步骤2中关系规则库，得到多数据源融合的关系规则库，用于下一待处理数据源的知识抽取。

优选地，所述步骤32中根据词性和命名实体类型约束获得过滤后的单个名词和名词性短语作为候选实体；具体过程为：

根据词性和命名实体类型约束遍历句子中词语找出必须存在的词语词性的词，不能存在的词语词性的词以及词语之间的依存关系；

根据不能存在的词语词性和词语之间的依存关系约束，对句子中每个词在其作为根节点的依存句法树上找到符合不能存在的词语词性和词语之间的依存关系约束条件所有子节点的词语，将符合约束条件所有子节点的词语转换成一个短语或者单独名词；

然后去掉转换后的短语的祖先节点词是其他短语的子节点词的短语，获得句子中所有的名词性短语和单独名词作为候选实体；

所述必须存在的词语词性为名词，时间词，代词，习惯用语，简称，人名，地名，机构名称，其他专名；

所述不能存在的词语词性为动词，介词，连词，形式动词；

所述词语之间的依存关系为定中关系，状中关系，左附加关系，右附加关系，标点符号。

本发明的有益效果为：

本发明针对不同文本数据间的知识融合问题，提出了一种基于关系抽取的知识库融合方法，能够对多个文本数据源间通过实体关系抽取方法进行融合，从而构建统一的实体关系网络。现有的领域知识库构建大多通过大量的人工标注来完成，巨大的标注量带来了人力成本的大幅增加。为了降低人力成本的开销，一般使用大量的低成本人力来标注，然后用群智算法来对已标注数据的低质量部分进行剔除。群智算法在此场景下的使用通常是和标注混杂在一起，即“标注-群智-再标注-再群智-…”，这对标注和群智系统的要求往往很高，且周期较长。为此，在一些质量要求高的应用中，高成本人力的大量投入在所难免。本发明旨在改变现实的知识库构建方式，即利用高质量标注的结果来自动学习，直接获取大量被标注的知识，以解决知识库构建中人力和训练成本过高的现状。

本发明要解决的技术问题是提供一种针对不同文本数据源间进行知识融合的方法，首先使用一组数据源作为知识融合的驱动数据源，对其进行实体关系标注，并抽取关系规则库作为驱动，再通过开放式关系抽取方法再其他数据源中抽取关系三元组，进一步补充关系规则库，从而得到多数据源融合的一致性关系规则库。

附图说明

图1是本发明基于关系抽取的知识融合方法的整体流程图；

图2是本发明文本预处理步骤中对于所有数据源进行预处理的流程图；

图3是本发明中关系规则抽取步骤的流程图；

图4是本发明关系规则表示步骤中关系规则表示的示例图；

图5是本发明中抽取关系三元组构建融合知识库步骤的流程图。

具体实施方式

具体实施方式一：本实施方式一种基于关系抽取的知识库融合方法具体过程为：

本发明基于关系抽取的知识库融合方法可应用于多种领域，比如生物医学领域、机械领域、航天领域、航海领域、通信领域等；

在生物医学中，文本数据为生物医学数据，Leukemia(白血病)和Liver andIntrahepatic Biliary Tract Carcinoma(肝脏和肝内胆道癌)代表实体1和实体2，这两个实体以节点的形式进行展示，两个节点间存在一条边，由白血病指向肝脏和肝内胆道癌，边的名称是Affect(影响)，这两个节点和这一条边所代表的含义为白血病影响肝脏和肝内胆道癌；三元组体现了疾病与疾病间的关系；

在机械领域中，三元组为(锻件，拉，孔)和(锻件，钻，孔)等。

步骤1：文本数据预处理；

步骤2：关系规则抽取，获取关系规则库；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤1中文本数据预处理；具体过程为：

文本预处理包括文本分句、词法分析以及句法分析；

步骤11：获取多个待融合数据，读取待融合数据中文本数据，通常输入的文本都包含多个句子，因此首先需要对输入的文本进行分句处理。使用{。}{？}{！}{…}{.}{？}{！}断句字符(包括全角和半角字符)以及特殊的引号{”}{’}{"}作为切分句子的标记，将文本数据切分为以句子为单位的独立单元；

步骤12：对切分后的每个句子进行词法分析；

步骤13：对词法分析后的每个句子进行句法分析。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤12中对切分后的每个句子进行词法分析；具体过程为：

对每个句子的词序列中的词语进行词性(词性分为实词和虚词，实词包括名词、动词、形容词、数量词、代词；虚词包括副词、介词、连词、助词、叹词、拟声词；)标注；

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤13中对词法分析后的每个句子进行句法分析，具体过程为：

通过依存句法分析方法构建每个句子的依存句法树，将每个句子中的代词性指代进行指代消解处理，将代词替换为代词指代的词，从而从文本中提取更多的关系三元组。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤2中关系规则抽取，获取关系规则库；通过作为驱动数据源的标注数据抽取标注语料集关系元组的潜在关系规则，作为先验知识库，用于驱动其他数据源中的知识抽取过程。开放式关系抽取将句子中的表示两个实体之间关系的词语或者词组作为关系三元组中的关系，具体操作流程如图3所示，具体过程为：

步骤21：采集文本数据源，人工标注文本数据的关系三元组(比如标注实体1、关系和实体2)，对人工标注后的文本数据进行文本数据预处理(文本数据预处理过程如步骤1)；

步骤22：中心词提取；

步骤23：依存路径提取；

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤22中中心词提取；具体过程为：

抽取标注关系三元组中实体1、关系和实体2的中心词；由于实体1、关系和实体2可能是由一个词或者多个词组成，而依存句法树是以词语为节点，因此需要先提取出中心词；当实体或者关系由一个词语表示时，该词语就是实体或者关系的中心词，当实体或者关系由多个词语组成的词组表示时，需要从词组中抽取一个词作为中心词来表示实体或者关系。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述步骤23中依存路径提取；具体过程为：

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述步骤24中基于中心词提取和依存路径提取进行关系规则提取；具体过程为：

根据前两步得到的相关信息构建最终的关系规则。关系规则主要包含关系三元组“<实体1，关系，实体2>”中关系的构成以及构成关系词语的词性、实体1和实体2在句子中的先后位置关系、实体和关系之间的依存关系等信息；

为了能够使得从驱动数据源中学习得到的关系规则可以更好的应用到其他数据源的知识融合方法中，使用关系三元组中实体与关系之间的依存信息，两个实体在句子中的先后位置信息以及关系中词语的词性和依存关系信息来表示关系规则。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述步骤3中使用步骤2获取的关系规则库作为数据驱动，抽取待抽取文本数据中的关系三元组，从而构建统一的知识库；

包括三个步骤：候选实体选取、候选实体对选取、规则匹配与关系抽取；

具体步骤如下：

步骤31：采集待抽取文本数据源，对待抽取文本数据源进行文本数据预处理(文本数据预处理过程如步骤1)；

步骤32：候选实体选取：

通过词语词性约束抽取句子中单个名词和名词性短语；

所述名词性短语包括以名词、动词或者形容词为中心词的偏正短语、用名词构成的联合短语、复指短语等，名词性短语可以作为主语、宾语以及其他成分；

偏正短语中的中心语可以是动词、名词和形容词，修饰词可以是形容词、名词等等，并且以名词为中心的偏正短语可能带有多项修饰语。

步骤33：候选实体对选取：权衡候选实体对的质量和数量，同时考虑候选实体对中两个实体在句子中的先后位置关系。

首先，遍历句子中候选实体集中的每个元素(每个元素是单个名词和名词性短语)，如果句子中包含多个命名实体类型(句子中可能包含多个)，则将这些命名实体类型的词语两两组合，每个组合根据两个词语先后顺序不同可以表示两个候选实体对；

得到整个句子中所有可能的候选实体对；

步骤34：规则匹配与关系抽取：关系规则包含实体与关系之间的依存信息、两个实体在句子中的先后位置信息以及关系中词语的词性和依存关系等信息。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是，所述步骤32中根据词性和命名实体类型约束获得过滤后的单个名词和名词性短语作为候选实体；具体过程为：

所述必须存在的词语词性为名词n，时间词t，代词r，习惯用语l，简称j，人名nr，地名ns，机构名称nt，其他专名nz；

所述不能存在的词语词性为动词v，介词p，连词c，形式动词vx；

所述词语之间的依存关系为定中关系ATT，状中关系ADV，左附加关系LAD，右附加关系RAD，标点符号WP。

其它步骤及参数与具体实施方式一至九之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

为了使本发明的目的、技术方案与起到的作用更加明确，下面结合本发明附图说明中的流程图等，对本发明的具体实施过程进行描述。但需要说明，所描述实施例为本发明的部分实施例，不能代表全部实施例，所举实施例不作为对本发明的限定。

本实施例提出了一种使用先验知识库作为驱动，通过开放式关系抽取方法对多个文本数据源中存在知识进行融合的方法，是一种多文本数据源进行关系抽取的知识融合方法。具体实施流程如附图1所示，包含关系规则抽取与关系三元组抽取两个部分。其中，在两部分操作中的共同步骤为文本预处理过程，通过分句、分词和待指消解等步骤消除数据中噪声，对数据进行规则统一化。关系规则抽取是将标注数据作为先验知识，抽取其中实体与关系构建关系规则库，作为其他数据源融合的驱动数据的处理过程。关系三元组部分对数据源数据进行处理，使用关系规则库作为驱动，通过实体选取与规则匹配等过程抽取其中的关系三元组，并加入知识库中。对所有数据源重复上述关系三元组抽取过程，通过迭代过程补充关系规则库，构建数据源间统一的知识库。

现对文本预处理、关系规则抽取与关系三元组抽取三个阶段的具体实现过程进行描述。

步骤1:文本预处理。文本预处理的具体操作流程如图2所示，其具体步骤如下：

步骤1.1:使用{。？！…？！}断句字符以及特殊的引号{”’"}作为切分句子的标记，将文本数据切分为以句子为单位的独立单元进行操作。

步骤1.2：对切分后的句子进行词法分析，通过中文分词工具获得句子的词序列。

步骤1.3：对词序列中的词语进行词性标注，通过命名实体识别工具识别其中的命名实体并进行记录。

步骤1.4：通过依存句法分析方法构建每个句子的依存句法树，将其中的的代词性指代进行指代消解处理，将代词替换为其指代的词。

步骤2:关系规则抽取。使用进行完文本预处理后的文本进行关系规则抽取的具体操作流程如图3所示，其具体步骤如下：

步骤2.1：获取先验数据集，其中通过标注工具对文本中命名实体及词性关系进行了标注。并抽取标注的关系三元组中关系和实体的词性、实体类型，使用依存句法分析工具判断分词之后的词语对之间的依存关系，并以树的结构将所有词语组织起来得到依存句法树。

步骤2.2：提取已分词的句子中命名实体的中心词信息。当词语列表的长度为1，那中心词就是列表中仅有的词语。当词语列表的长度超过1，对列表中的每个词语，在以其为节点的依存句法子树上使用广度优先遍历所有子节点，判断该子树中是否包含输入词语列表中的所有词语，如果包含，则该词语就是中心词。

如句子“张三支持者冲进某某电视台大厦。”中标注的关系三元组为“<张三支持者，冲进，某某电视台大厦>”，实体“张三支持者”由词语“张三”和“支持者”组成，实体“某某大厦”由词语“某某”、“电视台”和“大厦”组成。实体“张三支持者”的中心词是“支持者”，实体“某某电视台大厦”的中心词是“大厦”。

步骤2.3：给定依存句法树中的任意两个节点提取它们之间的最短依存路径。根据步骤2.2中提取的中心词在依存句法树中的节点位置，找到中心词之间的最短依存路径。首先在句子依存句法树上，使用深度优先搜索找到从树根节点分别到实体中心词word1和关系中心词word2上的节点列表nodes1和nodes2；然后判断两个路径中是否有最近公共祖先节点；最后根据公共祖先节点不同情况得到实体和关系的依存路径。

步骤2.4：通过整合标注关系的词法和句法特征等信息获得关系规则。使用关系三元组中实体与关系之间的依存信息，两个实体在句子中的先后位置信息以及关系中词语的词性和依存关系信息来表示关系规则。

获取关系规则库；

如图4所示，对句子“第一中学校长李四对高一年级进行成绩询问。”标记的关系三元组“<第一中学校长李四，进行成绩询问，高一年级>”经过抽取得到对应的关系规则。其中，实体1“第一中学校长李四”和实体2“高一年级”到关系“进行成绩询问”的依存路径就是实体中心词“李四”和“高一年级”到关系中心词“进行”的依存路径，实体之间的顺序就是实体中心词在句子中的先后位置顺序，以及关系“进行成绩询问”的词语词性和词语之间的依赖关系。

步骤3:关系三元组抽取与知识库构建。依次对于每个待融合的文本数据源利用构建好的高质量规则库进行规则匹配实现关系三元组抽取，并将关系三元组加入关系规则库中进行知识库的补充融合。关系三元组抽取的具体操作流程如图5所示，其具体步骤如下：

步骤3.1：将经过文本预处理的文本数据源作为输入，通过词语词性约束抽取句子中单个名词和名词性短语；

其中名词性短语包括以名词、动词或者形容词为中心词的偏正短语、用名词构成的联合短语、复指短语等；

步骤3.2：根据词性和命名实体类型约束获得过滤后的单个名词和名词性短语作为候选实体；具体过程为：

根据词性和命名实体类型约束遍历句子中词语找出符合必须存在的词语词性的词，不能存在的词语词性的词以及词语(必须存在的词语词性的词之间的依存关系、不能存在的词语词性的词之间的依存关系，以及必须存在的词语词性的词和不能存在的词语词性的词之间的依存关系)之间的依存关系；

根据不能存在的词语词性和词语之间的依存关系约束，对句子中每个词(必须存在的词语词性的词和不能存在的词语词性的词)在其作为根节点的依存句法树上找到符合不能存在的词语词性和词语之间的依存关系约束条件所有子节点的词语，将符合约束条件所有子节点的词语转换成一个短语或者单独名词(连续的若干词是否构成一个短语，是基于依存关系来的，有的能转换成一个短语，不能转换成短语的做单独名词)；然后去掉转换后的短语的祖先节点词是其他短语的子节点词的短语(祖先节点词和其他短语的子节点词是依存句法树上的祖先-后代关系。在构建这棵树时，是有要求的。由于后代节点常是祖先节点的一个修饰成份，需要把它们识别成不同的短语。)(若干单词变成短语后，短语去掉单词也就去掉了。因为已经变短语了)，获得句子中所有的名词性短语和单独名词作为候选实体；

所述词语之间的依存关系为定中关系ATT，状中关系ADV，左附加关系LAD，右附加关系RAD，标点符号WP；

步骤3.3：利用获得的名词性短语集和候选实体集选取候选实体对；

遍历句子中候选实体集中的每个元素，如果包含多个命名实体类型，则将这些命名实体类型的词语两两组合，每个组合根据两个词语先后顺序不同可以表示两个候选实体对；

得到整个句子中所有可能的候选实体对；

步骤3.4：利用已有的关系规则库，对每对候选实体对依照关系规则在句子中匹配符合条件的词语或者词组作为候选实体对的语义关系，实现关系三元组的抽取；具体过程为：

首先判断候选实体对中两个实体的先后位置信息是否符号关系规则中实体的先后位置信息，然后根据候选实体对中的两个实体的中心词，分别在句子的依存句法树中按照关系规则中的实体中心词与关系中心词的依存路径匹配关系中心词，最后根据关系规则中的关系词语词性与依存关系扩展关系中心词得到最终关系；

步骤3.5：将步骤3.4抽取的关系三元组加入知识库。并通过关系三元组对关系规则库进行补充，用于下一待处理数据源的知识抽取过程中。

实施例二：

文本信息为生物医学数据；

现对生物医学数据预处理、关系规则抽取与关系三元组抽取三个阶段的具体实现过程进行描述。

步骤1:生物医学数据预处理。生物医学数据预处理的具体操作流程如图2所示，其具体步骤如下：

步骤2:关系规则抽取。使用进行完生物医学数据预处理后的生物医学数据进行关系规则抽取的具体操作流程如图3所示，其具体步骤如下：

步骤2.1：获取先验数据集，其中通过标注工具对生物医学数据中命名实体及词性关系进行了标注。并抽取标注的关系三元组中关系和实体的词性、实体类型，使用依存句法分析工具判断分词之后的词语对之间的依存关系，并以树的结构将所有词语组织起来得到依存句法树。

如句子“白血病影响肝脏和肝内胆道癌”中标注的关系三元组为“<白血病，影响，肝脏和肝内胆道癌>”，实体“白血病”的中心词是“白血病”，实体“肝脏和肝内胆道癌”的中心词是“肝脏和肝内胆道癌”。

白血病和肝脏和肝内胆道癌代表实体1和实体2，这两个实体以节点的形式进行展示，两个节点间存在一条边，由白血病指向肝脏和肝内胆道癌，边的名称是Affect(影响)，这两个节点和这一条边所代表的含义为白血病影响肝脏和肝内胆道癌；三元组体现了疾病与疾病间的关系；

步骤2.4：通过整合标注关系的词法和句法特征等信息获得关系规则。使用关系三元组中实体与关系之间的依存信息，两个实体在句子中的先后位置信息以及关系中词语的词性和依存关系信息来表示关系规则。获取关系规则库；

步骤3:关系三元组抽取与知识库构建。依次对于每个待融合的生物医学数据利用构建好的高质量规则库进行规则匹配实现关系三元组抽取，并将关系三元组加入关系规则库中进行知识库的补充融合。关系三元组抽取的具体操作流程如图5所示，其具体步骤如下：

步骤3.1：将经过生物医学数据预处理的生物医学数据作为输入，通过词语词性约束抽取句子中单个名词和名词性短语；

得到整个句子中所有可能的候选实体对；

步骤3.5：将步骤3.4抽取的关系三元组加入知识库。并通过关系三元组对关系规则库进行补充，用于下一待处理生物医学数据的知识抽取过程中。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于关系抽取的知识库融合方法，其特征在于：所述方法具体过程为：

步骤1：文本数据预处理；

步骤2：关系规则抽取，获取关系规则库；

步骤3：使用步骤2获取的关系规则库作为数据驱动，抽取待抽取文本数据中的关系三元组，从而构建统一的知识库；

所述步骤1中文本数据预处理；具体过程为：

步骤12：对切分后的每个句子进行词法分析；

步骤13：对词法分析后的每个句子进行句法分析；

所述步骤12中对切分后的每个句子进行词法分析；具体过程为：

对每个句子的词序列中的词语进行词性标注；

通过命名实体识别工具识别每个句子的词序列中的词语的命名实体并进行记录；

所述步骤13中对词法分析后的每个句子进行句法分析，具体过程为：

通过依存句法分析方法构建每个句子的依存句法树，将每个句子中的代词性指代进行指代消解处理，将代词替换为代词指代的词；

所述步骤2中关系规则抽取，获取关系规则库；具体过程为：

步骤22：中心词提取；

步骤23：依存路径提取；

步骤24：基于中心词提取和依存路径提取进行关系规则提取；获取关系规则库；

所述步骤22中中心词提取；具体过程为：

抽取标注关系三元组中实体1、关系和实体2的中心词；

当实体或者关系由一个词语表示时，该词语就是实体或者关系的中心词，当实体或者关系由多个词语组成的词组表示时，需要从词组中抽取一个词作为中心词来表示实体或者关系；

所述步骤23中依存路径提取；具体过程为：

通过构建的依存句法树，获取实体1中心词与关系中心词和实体2中心词与关系中心词两条依存路径；

所述步骤24中基于中心词提取和依存路径提取进行关系规则提取；具体过程为：

关系规则包含关系三元组“<实体1，关系，实体2>”中关系的构成以及构成关系词语的词性、实体1和实体2在句子中的先后位置关系、实体和关系之间的依存关系信息；

所述步骤3中使用步骤2获取的关系规则库作为数据驱动，抽取待抽取文本数据中的关系三元组，从而构建统一的知识库；具体步骤如下：

步骤32：候选实体选取；具体过程为：

通过词语词性约束抽取句子中单个名词和名词性短语；

步骤33：候选实体对选取；具体过程为：

得到整个句子中所有可能的候选实体对；

步骤34：规则匹配与关系抽取；具体过程为：

将获取关系三元组补充到S2中关系规则库，得到多数据源融合的关系规则库，用于下一待处理数据源的知识抽取；

所述步骤32中根据词性和命名实体类型约束获得过滤后的单个名词和名词性短语作为候选实体；具体过程为：

所述不能存在的词语词性为动词，介词，连词，形式动词；