CN113486189A

CN113486189A - 一种开放性知识图谱挖掘方法及系统

Info

Publication number: CN113486189A
Application number: CN202110649339.4A
Authority: CN
Inventors: 牟昊; 何宇轩; 徐亚波; 李旭日
Original assignee: Guangzhou Datastory Information Technology Co ltd
Current assignee: Guangzhou Datastory Information Technology Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-10-08
Anticipated expiration: 2041-06-08
Also published as: CN113486189B

Abstract

本发明公开了一种开放性知识图谱挖掘方法及系统，方法包括：输入待分析的自然语言文本；从自然语言文本提取出与分析对象相关的命名实体，得到实体列表；对所述实体列表进行开放域关系抽取，当实体在文本中作主语时，提取出相关的谓语和宾语，当实体在文本中作宾语时，提取出相关的主语和谓语，得到第一知识三元组；对所述实体列表进行限定域关系抽取，提取出具有指定关系的实体对，得到第二知识三元组；将第一知识三元组和第二知识三元组进行知识融合将融合后的结果存储到图数据库中，得到知识图谱。本发明对实体列表信息抽取更全面，同时提高了知识准确率和召回率。

Description

一种开放性知识图谱挖掘方法及系统

技术领域

本发明涉及计算机文本处理技术领域，更具体地，涉及一种开放性知识图谱挖掘方法及系统。

背景技术

知识图谱是通用的知识可视化和存储工具。知识图谱可通过结构化、半结构化信息生成，但存在结构化和半结构化的信息相对较少，且更新较慢的问题。知识图谱亦可通过解析非结构化的文本信息生成，但将存在知识准确率和召回率相关的问题。

现有技术中，公开号为CN111061832A的中国发明专利公开了一种基于开放域信息抽取的人物行为抽取方法，包括步骤：a、使用CoreNLP工具的Open IE功能生成三元组，三元组对应有元素，元素包括主语、谓语、宾语、时间、地点、间接宾语和其他；其中，t的下标代表三元组的分组号，t的上标代表三元组在组内的序号；b、将表示同一元素的三元组聚合到一起形成分组；c、从分组后的三元组中获取最佳三元组代表其描述的元素；d、将剩余的三元组进行二次分组；e、将三元组的宾语进行分类；f、构建行为链。该方案仅限于使人物行为的抽取，仅利用了开放域的抽取，信息抽取不够全面。

发明内容

本发明为克服现有技术中通过解析非结构化的文本信息生成知识图谱的方法存在知识准确率和召回率低的相关的问题，提供一种开放性知识图谱挖掘方法及系统。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种开放性知识图谱挖掘方法，包括以下步骤：

输入待分析的自然语言文本；

从自然语言文本提取出与分析对象相关的命名实体，得到实体列表；

对所述实体列表进行开放域关系抽取，当实体在文本中作主语时，提取出相关的谓语和宾语，当实体在文本中作宾语时，提取出相关的主语和谓语，得到第一知识三元组；

对所述实体列表进行限定域关系抽取，提取出具有指定关系的实体对，得到第二知识三元组；

将第一知识三元组和第二知识三元组进行知识融合；

将融合后的结果存储到图数据库中，得到知识图谱。

进一步的，所述实体列表中每个实体均包括有实体名称和实体类型。

进一步的，开放域关系抽取采用的算法模型通过大规模预训练模型的fine-tune模式对标注数据进行训练得到，标注数据由文本、文本中的实体及其类型组成。

进一步的，开放域关系抽取以实体列表中的实体作为输入，分别提取出各个实体的在原文中的知识三元组，当实体在原文句子中作主语时，提取出相关的谓语和宾语，组成知识三元组；当实体在原文句子中作宾语时，提取出相关的主语和谓语，组成知识三元组。

进一步的，第一知识三元组包括：主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度；当主语或宾语存在于实体列表中时，取实体列表中对应的实体类型；否则，将实体类型暂定为其他。

进一步的，限定域关系抽取，需事先定义指定关系列表，指定关系列表由若干个指定关系组成，每个指定关系需定义实体对中，起始实体的类型、结束实体的类型和指定关系名称。

进一步的，限定域关系抽取中，提取出的实体对同时满足的条件包括：

条件1：实体对在原文中存在语义关系；

条件2：实体对的关系在指定关系列表中；

条件3：实体对起始实体的类型和结束实体的类型满足条件2中匹配到的指定关系要求。

进一步的，限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语，实体对中结束实体作为宾语，包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。

进一步的，所述知识融合包括对实体融合和对关系融合；

将第一知识三元组和第二知识三元组进行知识融合的具体过程为：

先进行实体融合，将实体进行存储，再进行关系融合，将关系进行存储，最后以实体的关系的置信度计算实体的置信度；

在实体融合中，第一知识三元组和第二知识三元组的主语和宾语均为实体融合的对象，当某个知识三元组中，主语或宾语的实体类型为其他时，遍历实体列表中的实体，统计实体名称与主语或宾语相同的实体的实体类型，取出现次数最多的实体类型，作为主语或宾语的实体类型；

在实体融合中同一实体存在多种写法，需将实体名称作繁简转换、大小写转换完成后，对实体进行存储；

在关系融合中，需同时对第一知识三元组和第二知识三元组进行融合，具体关系融合的步骤为：

对开放域关系抽取结果中的谓语作归一化，开放域关系抽取中，表达同一意思的谓语可能存在多种表达方式，需将不同的表达方式以相对正规的写法代替；

遍历谓语归一化之后的知识三元组，统计知识三元组一致出现的个数，即主语、谓语、宾语均一致出现个数及其最大置信度，其中，将限定域关系抽取的知识三元组中的指定关系名称看作是谓语；

根据一致的知识三元组出现个数及其最大置信度，计算关系的置信度；

对关系进行存储。

本发明第二方面提供了一种开放性知识图谱挖掘系统，所述系统包括存储器和处理器，所述存储器中包括开放性知识图谱挖掘方法程序，所述开放性知识图谱挖掘方法程序被所述处理器执行时实现如下步骤：

输入待分析的自然语言文本；

将第一知识三元组和第二知识三元组进行知识融合；

将融合后的结果存储到图数据库中，得到知识图谱。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过对得到的实体列表分别进行开放域关系抽取和限定域关系抽取，使信息抽取更全面，然后将抽取结果进行进一步的知识融合进而得到知识图谱，提高了知识准确率和召回率。

附图说明

图1为本发明一种开放性知识图谱挖掘方法流程图。

图2为本发明实施例中开放域关系抽取算法标注数据示例图。

图3为本发明实施例中限定域关系抽取算法标注数据示例图。

图4为本发明中关系融合流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，本发明第一方面提供了一种开放性知识图谱挖掘方法，包括以下步骤：

S1，输入待分析的自然语言文本；

需要说明的是，若针对某特定事件或分析对象进行知识图谱挖掘，需对文本进行降噪处理。

S2，从自然语言文本提取出与分析对象相关的命名实体，得到实体列表；

需要说明的是，在进行命名实体提取的时候，可以选用公开的命名实体提取算法，亦可训练专门的算法，只要命名实体识别算法能提取出分析对象相关的命名实体即可。所述实体列表中每个实体均包括有实体名称和实体类型。

S3，对所述实体列表进行开放域关系抽取，当实体在文本中作主语时，提取出相关的谓语和宾语，当实体在文本中作宾语时，提取出相关的主语和谓语，得到第一知识三元组；

需要说明的是，在进行开放域关系抽取前，需要训练开放域关系抽取算法。选取部分文本，依次输入从文本中提取出来的实体列表，进行标注。并对标注数据进行模型训练。

其中，同一条文本，需要对文本里面的出现的不同实体各标注一次，一条标注数据由一条文本加上标注实体的类型和名称组成。

其中，当实体在文本中充当主语时，标注出对应的谓语和宾语。

其中，当实体在文本中充当宾语时，标注出对应的谓语和主语。

其中，以大规模预训练模型的fine-tune模式对标注数据进行训练，并得到算法模型，算法模型可以复用，所述标注数据由文本、文本中的实体及其类型组成。标注数据示例如图2所示。

在得到开放域关系抽取算法模型后，运用其进行对所述实体列表进行开放域关系抽取，将全部文本，整理成图2中标注输入示例的格式，输入到开放域关系抽取算法模型中，算法模型会输出实体相关的谓语和宾语，或主语和谓语，输出结果与输入实体一同组成知识三元组，记为第一知识三元组，更具体的，当实体在原文句子中作主语时，提取出相关的谓语和宾语，组成知识三元组；当实体在原文句子中作宾语时，提取出相关的主语和谓语，组成知识三元组。

其中，算法模型会一同输出谓语和宾语，或主语和谓语结果的置信度，也就说第一知识三元组包括：主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。

其中，当文本的实体列表中包含提取出来的主语(或宾语)时，以实体列表中的实体类型作为主语(或宾语)的实体类型，否则，以“其他”作为实体类型。

S4，对所述实体列表进行限定域关系抽取，提取出具有指定关系的实体对，得到第二知识三元组；

需要说明的是，在进行限定域关系抽取前，需要训练限定域关系抽取算法模型，首先制定指定关系列表，指定关系列表由若干个指定关系组成，每个指定关系需定义好起始实体的类型、结束实体的类型和指定关系名称。选取部分文本，同时输入从文本中提取出来的实体列表，进行标注。并对标注数据进行模型训练。

其中，指定关系列表示例见表1。

表1指定关系列表示例

其中，对文本进行标注时，标注出的内容应为实体对。标注出的实体对应在文本中存在语义关系，并满足指定关系的类型要求。标注数据示例详见图3。

得到限定域关系抽取算法模型后，利用限定域关系抽取算法模型进行限定域关系抽取，将全部文本，整理成图3中标注输入示例的格式，输入到限定域关系抽取算法模型中，算法模型会输出满足指定关系列表的实体对，实体对的起始实体、指定关系的名称、实体对的结束实体一同组成知识三元组，记为第二知识三元组。

在限定域关系抽取中，提取出的实体对同时满足的条件包括：

条件1：实体对在原文中存在语义关系；

条件2：实体对的关系在指定关系列表中；

其中，算法模型会一同输出每个实体对的置信度，该置信度应视为知识三元组的置信度。

综上限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语，实体对中结束实体作为宾语，包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。

S5，将第一知识三元组和第二知识三元组进行知识融合；

需要说明的是，在进行融合前先进行实体类型推断。合并第一知识三元组和第二知识三元组，当某个知识三元组中，主语(或宾语)的实体类型为“其他”时，遍历实体列表中的实体，取实体名称与主语(或宾语)相同时，出现次数最多的实体类型，作为主语(或宾语)的实体类型。

在实体融合中同一实体存在多种写法，需将实体名称作繁简转换、大小写转换；

遍历所有知识三元组的主语和宾语，作为实体，当其实体名称和实体类型均相同时，视为一个实体。将所有实体进行存储，存储的内容包括实体名称、实体类型、实体出现的次数，存储的形式是将实体以节点的形式保存到图数据库中。

其中，遍历所有三元组时，需统计同一实体出现的次数。

在关系融合中，需同时对第一知识三元组和第二知识三元组进行融合，如图4所示，具体关系融合的步骤为：

S501，对开放域关系抽取结果中的谓语作归一化，开放域关系抽取中，表达同一意思的谓语可能存在多种表达方式，需将不同的表达方式以相对正规的写法代替；

S502，遍历谓语归一化之后的知识三元组，统计知识三元组一致出现的个数，即主语、谓语、宾语均一致出现个数及其最大置信度，其中，将限定域关系抽取的知识三元组中的指定关系名称看作是谓语；

S503，根据一致的知识三元组出现个数及其最大置信度，计算关系的置信度；

S504，对关系进行存储。

需要说明的是，遍历知识三元组时，某个知识三元组的置信度低于10％时，将其过滤，不参与后续计算，亦不参与出现次数的统计。

其中，存储是指将知识三元组中的谓语以边的形式，保存到图数据库中。边的起始节点应为知识三元组中主语在图数据库中的节点，边的结束节点应为知识三元组中宾语在图数据库中的节点。

其中，关系的置信度通过知识出现的次数及其最大置信度计算：

关系置信度＝70％*最大知识三元组置信度+30％*max(ln(知识三元组出现次数)/10,1) (1)

公式(1)中，ln指自然对数，max指取最大值。

利用关系的置信度计算实体的置信度具体如下：

遍历图数据库中的实体，查询其关系的置信度。当实体的关系个数大于或等于三个时，实体的置信度为置信度最高的3个关系的平均值，当实体的关系个数为1个时，实体置信度计算方式如下：

实体置信度＝关系置信度/3 (2)

当实体的关系个数为2时，实体置信度计算方式如下：

实体置信度＝(关系1置信度+关系2置信度)/3 (3)

S6，将融合后的结果存储到图数据库中，得到知识图谱。

输入待分析的自然语言文本；

将第一知识三元组和第二知识三元组进行知识融合；

将融合后的结果存储到图数据库中，得到知识图谱。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种开放性知识图谱挖掘方法，其特征在于，包括以下步骤：

输入待分析的自然语言文本；

将第一知识三元组和第二知识三元组进行知识融合；

将融合后的结果存储到图数据库中，得到知识图谱。

2.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，所述实体列表中每个实体均包括有实体名称和实体类型。

3.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，开放域关系抽取采用的算法模型通过大规模预训练模型的fine-tune模式对标注数据进行训练得到，标注数据由文本、文本中的实体及其类型组成。

4.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，开放域关系抽取以实体列表中的实体作为输入，分别提取出各个实体的在原文中的知识三元组，当实体在原文句子中作主语时，提取出相关的谓语和宾语，组成知识三元组；当实体在原文句子中作宾语时，提取出相关的主语和谓语，组成知识三元组。

5.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，第一知识三元组包括：主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度；当主语或宾语存在于实体列表中时，取实体列表中对应的实体类型；否则，将实体类型暂定为其他。

6.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，限定域关系抽取，需事先定义指定关系列表，指定关系列表由若干个指定关系组成，每个指定关系需定义实体对中，起始实体的类型、结束实体的类型和指定关系名称。

7.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，限定域关系抽取中，提取出的实体对同时满足的条件包括：

条件1：实体对在原文中存在语义关系；

条件2：实体对的关系在指定关系列表中；

8.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语，实体对中结束实体作为宾语，包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。

9.根据权利要求1所述的一种开放性知识图谱挖掘方法，其特征在于，所述知识融合包括对实体融合和对关系融合；

对关系进行存储。

10.一种开放性知识图谱挖掘系统，其特征在于，所述系统包括存储器和处理器，所述存储器中包括开放性知识图谱挖掘方法程序，所述开放性知识图谱挖掘方法程序被所述处理器执行时实现如下步骤：

输入待分析的自然语言文本；

将第一知识三元组和第二知识三元组进行知识融合；

将融合后的结果存储到图数据库中，得到知识图谱。