CN110502642B

CN110502642B - 一种基于依存句法分析与规则的实体关系抽取方法

Info

Publication number: CN110502642B
Application number: CN201910773552.9A
Authority: CN
Inventors: 李晓林; 范佳莹; 刘玮; 陈灯; 李道庆; 胡泽荣; 邓庆康; 潘治霖
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2024-01-23
Anticipated expiration: 2039-08-21
Also published as: CN110502642A

Abstract

本发明提供了一种基于依存句法分析与规则的实体关系抽取方法，通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系，通过制定规则识别和提取文本中的实体关系，约束三元组的形成，提高了提取实体关系的准确度；本发明直接对输入的文本进行提取，不需要形成关键词词库，通用性强；本发明输出三元组的速度快，提高了运算效率。

Description

一种基于依存句法分析与规则的实体关系抽取方法

技术领域

本发明属于自然语言处理和语义分析技术领域，具体涉及一种基于依存句法分析与规则的实体关系抽取方法。

背景技术

互联网技术的快速发展和大数据时代的到来使得互联网信息量激增，如何从海量的信息中获取人们感兴趣的内容成为自然语言处理的焦点问题。美国国防高级研究计划委员会(DARPA，defense advanced research project agency)在1998年资助的最后一届消息理解会议(MUC，message understanding conference)上首次引入了实体关系抽取任务，实体关系抽取是自然语言处理中较为重要的子任务，同时也是语义分析的重要组成部分。在自然语言处理发展的过程中，已经有很多学者根据不同的需求和文本内容提出了不同的实体关系抽取方法，但现有的实体关系抽取的方法均存在一定的局限性以及准确率不高的问题。

基于模式匹配的关系抽取方法，需要领域专家和语言学家互相合作，运用语言学知识和专业领域知识构造出基于词语、词性或语义的模式集合。该方法需要大量人工工作且对于文本格式有一定的限制，虽然在正确率上有较为出色的成绩，但需要人工编写方法，只适用于特定格式；且人工处理容易出错，不便于维护，实用性相对较差。

基于树核的语义信息抽取方法，利用解析树和实体对构造丰富的语义关系结构来综合句法和语义信息。基于核函数的方法在运算速度上有一定的弊端，研究者希望通过对核函数的进一步研究来获得关系抽取方法的进展。

基于Bootstrapping的半监督方法进行实体关系抽取，该方法首先需要确立关系种子类型，接着从包含种子的上下文中总结关系模式从而寻找更多的关系种子实例以便于扩充种子集合，最后迭代得到领域关系实例和序列模式。这种方法对初始关系种子的质量要求较高，如果初始关系种子选择不恰当就会对种子集合的扩展有影响。当领域发生迁移时需要重新确立序列模式并且重新构建高质量的关系种子。

基于无监督的关系抽取方法，该方法识别出实体对的类型，把共同出现次数多于一定阈值的实体对作为潜在的语义关系，并且计算实体对间的词汇相似度对其进行聚类，最后根据经验给聚类的实体对冠上合适的关系名称。无监督的实体关系抽取需要预先确定聚类阈值，这是该方法的难点，同时，无监督的实体关系抽取尚缺乏客观的评价标准。

面向开放领域文本的实体关系抽取方法，该方法不需要人工标注语料，也不需要事先知道抽取哪些实体关系，其目标是自动将自然语言句子转换为有意义的事实性命题。开放式实体关系抽取方法还存在很大的进步空间：其一，由于数据来源的不统一，实体关系抽取结果评价体系还没有达成一致标准；其二，当前大部分实验都是在数据进行大量清洗之后的干净数据上进行的，数据真实性难免会有所下降。

句子成分间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中，这一特点为依存关系的普遍性。依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系，反映出句子各成分之间的语义修饰关系，获得长距离的搭配信息，并且与句子成分的物理位置无关。依存句法通过分析语言单位内成分之间的依存关系来解释句法结构，主张句子中的核心动词是支配其他成分的中心成分；而动词本身不受其他任何成分的支配，所有受支配成分都以某种关系从属于支配者。

发明内容

本发明要解决的技术问题是：提供一种基于依存句法分析与规则的实体关系抽取方法，通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系，通过制定规则识别和提取文本中的实体关系，约束三元组的形成，提高提取实体关系的准确度

本发明为解决上述技术问题所采取的技术方案为：一种基于依存句法分析与规则的实体关系抽取方法，包括以下步骤：

S1：输入文本并进行预处理，形成数据集合；

S2：以句号为句子的结束点将数据集合中的文本分割为多个句子，更新数据集合；

S3：遍历步骤S2得到的数据集合，通过句法分析逐句得到构成句子的成分，形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组；

S4：通过依存句法分析确定句子的中心词；

S5：检测中心词分别与句子的其他成分的依存距离，构造满足约束的依存树，得到句子的最佳依存关系；

S6：根据预设规则约束最佳依存关系，得到并输出句子的最佳三元组；

S7：判断对数据集合的遍历是否完成，若未完成，则从步骤S3循环；若完成，则根据得到的数据集合中的每个句子的最佳三元组，输出文本的三元组的合集。

按上述方案，所述的步骤S1中，具体步骤为：

S11：输入文本；

S12：将文本整合为统一的存储格式，形成数据集合。

进一步的，所述的步骤S2中，具体步骤为：

S21：遍历步骤S1得到的数据集合检测是否有句号，若未检测到句号则继续遍历；若检测到句号，则将句号及句号之前的成分判断为一个句子，直至遍历完成；

S22：按步骤S21得到的结果更新数据集合。

进一步的，所述的步骤S3中，具体步骤为：

S31：将句子分解为若干个成分，所述的成分是有意义的、不可拆分的最小语言单位，成分包括实体和节点；

S32：通过句法分析得到实体和节点的词性；

S33：根据实体和节点的词性得出句子的成分之间的依存关系，所述的依存关系满足：实体作为被依赖的结构，一个实体即为一个节点，一个节点依赖一个结构，一个节点被多个结构所依赖，被依赖的成分是支配词，依赖支配词的成分是被支配词；

S34：根据成分和成分之间的依存关系得到若干三元组，更新数据集合。

进一步的，所述的步骤S4中，具体步骤为：根据步骤S3得到的句子的成分确定句子的谓语动词为中心词，句子的其他成分为从属词；所述的中心词和从属词满足依存关系的公理描述：一个句子只有一个中心词；从属词直接依存某一成分；任何成分都不能依存两个或两个以上成分；若成分C在成分A和成分B之间，且成分A直接依存成分B，则成分C直接依存成分B，或者成分C直接依存成分A和成分B之间某一成分；中心词左右两边的成分相互不发生关系。

进一步的，所述的步骤S5中，具体步骤为：

S51：检测中心词分别与句子的其他成分的依存距离，若存在依存距离不相等的情况，则删去较大的依存距离对应的依存关系，直至所有成分到中心词的依存距离相等，形成满足约束的依存树；所述的依存距离是两个具有句法关系的成分在句子中的线性距离；

S52：通过依存树得到句子的最佳依存关系，更新数据集合。

进一步的，所述的步骤S6中，具体步骤为：

S61：根据预设规则约束最佳依存关系得到句子的最佳三元组，所述的预设规则为：将紧跟谓语动词且距谓语动词最短长度的左右两个句子成分识别为主语和宾语；若谓语动词后紧跟成分过长，则将紧跟成分再次进行句法分析直至整个句子为词距最短的三元组形式；将拥有共同主语的宾语成分作为同级目标进行整理且根据距离特征筛选出该主语的最佳三元组形式；

S62：更新数据集合并输出句子的最佳三元组。

本发明的有益效果为：

1.本发明的一种基于依存句法分析与规则的实体关系抽取方法通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系，通过制定规则识别和提取文本中的实体关系，约束三元组的形成，提高了提取实体关系的准确度。

2.本发明直接对输入的文本进行提取，不需要形成关键词词库，通用性强。

3.本发明输出三元组的速度快，提高了运算效率。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的句法分析示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1，采用本发明的一种基于依存句法分析与规则的实体关系抽取方法提取句子“中国企业将奋力追赶各国企业的科技工程建设事业。”的实体关系，包括以下步骤：

S1：输入文本并进行预处理，形成数据集合：

S11：输入文本“中国企业将奋力追赶各国企业的科技工程建设事业。”；

S12：将文本整合为统一的txt或word存储格式，形成数据集合。

S2：以句号为句子的结束点将数据集合中的文本分割为多个句子，更新数据集合：

S21：遍历步骤S1得到的数据集合检测是否有句号，检测到句号，将句号及句号之前的成分判断为一个句子，遍历完成；

S22：按步骤S21得到的结果更新数据集合。

S3：遍历步骤S2得到的数据集合，通过句法分析逐句得到构成句子的成分，形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组：

S31：将句子“中国企业将奋力追赶各国企业的科技工程建设事业”分解为若干个成分“中国企业”、“将”、“奋力”、“追赶”、“各国企业”、“的”、“科技”、“工程”和“建设事业”；

S32：分别确定各成分的词性：“中国企业”为名词，“将”为副词，“奋力”为形容词，“追赶”为动词，“各国企业”为名词，“的”为助词，“科技”为名词，“工程”为名词，“建设事业”为名词；

S33：根据实体和节点的词性参照下表的定义分别确定句子各成分的之间的依存关系：实体作为箭头的头部表示被依赖的结构，一个实体即为一个节点，一个节点依赖一个结构，一个节点被多个结构所依赖，被依赖的成分是支配词，依赖支配词的成分是被支配词；

表1 依存句法分析标注关系

S34：根据上述分析结果得到若干三元组，更新数据集合。

S4：通过依存句法分析确定句子的中心词：

根据步骤S3得到的句子的成分确定“追赶”为中心词，句子的其他成分为从属词；所述的中心词和从属词满足依存关系的公理描述：一个句子只有一个中心词；从属词直接依存某一成分；任何成分都不能依存两个或两个以上成分；若成分C在成分A和成分B之间，且成分A直接依存成分B，则成分C直接依存成分B，或者成分C直接依存成分A和成分B之间某一成分；中心词左右两边的成分相互不发生关系。

S5：检测中心词分别与句子的其他成分的依存距离，构造满足约束的依存树，参见图2，得到句子的最佳依存关系：

S52：通过依存树得到句子的最佳依存关系，更新数据集合。

S62：更新数据集合并输出句子的最佳三元组形式(中国企业，追赶，建设事业)；

综上所述，本发明的一种基于依存句法分析与规则的实体关系抽取方法通过依存句法分析确定句子的句法结构和识别句子中的实体之间的依存关系，通过制定规则识别和提取文本中的实体关系，约束三元组的形成，提高了提取实体关系的准确度；本发明直接对输入的文本进行提取，不需要形成关键词词库，通用性强；本发明输出三元组的速度快，提高了运算效率。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于依存句法分析与规则的实体关系抽取方法，其特征在于：包括以下步骤：

S1：输入文本并进行预处理，形成数据集合；具体步骤为：

S11：输入文本；

S12：将文本整合为统一的存储格式，形成数据集合；

S2：以句号为句子的结束点将数据集合中的文本分割为多个句子，更新数据集合；具体步骤为：

S22：按步骤S21得到的结果更新数据集合；

S3：遍历步骤S2得到的数据集合，通过句法分析逐句得到构成句子的成分，形成由包括支配词、被支配词的成分以及成分间的依存关系构成的若干三元组；具体步骤为：

S32：通过句法分析得到实体和节点的词性；

S34：根据成分和成分之间的依存关系得到若干三元组，更新数据集合；

S4：通过依存句法分析确定句子的中心词；具体步骤为：

根据步骤S3得到的句子的成分确定句子的谓语动词为中心词，句子的其他成分为从属词；所述的中心词和从属词满足依存关系的公理描述：一个句子只有一个中心词；从属词直接依存某一成分；任何成分都不能依存两个或两个以上成分；若成分C在成分A和成分B之间，且成分A直接依存成分B，则成分C直接依存成分B，或者成分C直接依存成分A和成分B之间某一成分；中心词左右两边的成分相互不发生关系；

S5：检测中心词分别与句子的其他成分的依存距离，构造满足约束的依存树，得到句子的最佳依存关系；具体步骤为：

S52：通过依存树得到句子的最佳依存关系，更新数据集合；

S6：根据预设规则约束最佳依存关系，得到并输出句子的最佳三元组；具体步骤为：

S62：更新数据集合并输出句子的最佳三元组；