CN115017335A

CN115017335A - 知识图谱构建方法和系统

Info

Publication number: CN115017335A
Application number: CN202210686237.4A
Authority: CN
Inventors: 范凌; 王喆; 裴子龙
Original assignee: Tezign Shanghai Information Technology Co Ltd
Current assignee: Tezign Shanghai Information Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-06

Abstract

本发明实施例公开了一种知识图谱构建方法和系统以及电子设备、存储介质，包括设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库；获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果；在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱。本申请解决了相关技术中的数据依赖问题，实现自动从海量营销领域文本中抽取、构建知识图谱。

Description

知识图谱构建方法和系统

技术领域

本发明涉及知识图谱构建技术领域，具体涉及一种知识图谱构建方法和系统以及电子设备、存储介质。

背景技术

目前的OIE技术大都依赖于自然语言处理(Natural Language Processing,NLP)技术，目前的知识抽取到图谱构建的过程分为如下几个步骤：

1、定义领域中的本体(ontology)关系，包含：定义领域内存在的实体类型、定义实体之间存在的链接关系；

2、标注一部分所在领域文本词汇的实体类型，使用NLP技术中的实体识别技术，训练实体识别模型，以抽取海量文本中符合本体定义的命名实体；

3、标注一部分所在领域文本实体词汇之间的关系类型，使用NLP技术中的关系预测技术，训练关系预测模型，以对海量文本中的命名实体建立关系链接；

4、对已抽取的命名实体以及实体关系链接对齐到预先定义的图谱本体中，完成知识图谱的抽取与构建。

如上过程中，业界存在分步式的实体识别到关系预测的技术方案，也存在端到端的实体与关系同步抽取的技术方案。但是，其本质上是一种有监督深度学习技术，其中依赖大量的领域标注语料，而在开放的语料数据集中没有针对营销领域标注的中文语料，人工标注海量营销文本会耗费大量人力与时间，这使得营销场景的知识抽取陷入数据困境。

因此本专利结合了多种自然语言处理技术与预训练语言模型(PreTrainLanguage Model，PLM)，声明了一种无监督的中文OIE技术，避免了数据依赖问题，可以自动从海量营销领域文本中抽取、构建知识图谱。

发明内容

本发明实施例的目的在于提供一种知识图谱构建方法和系统以及电子设备、存储介质，用以解决现有技术中的数据依赖问题，实现自动从海量营销领域文本中抽取、构建知识图谱。

为实现上述目的，本发明实施例提供一种知识图谱构建方法，包括：

设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库；

获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果；

在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱。

进一步的，所述设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库，包括：

设置新词发现算法优化分词器，通过优化的分词器对文本进行专用领域中文分词；

获取专用领域的数据，将专用领域的专有名词加入优化的分词器的数据库；

获取开放社区的开放知识图谱，对其进行整理并加入数据库。

进一步的，所述获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果，包括：

获取输入的文本，并通过分词器对文本分词；

对分词后的文本进行句法解析，得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性；

将提取的包括主语、谓语、宾语在内的三元组持续化存储。

进一步的，所述在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱，包括：

获取提取的三元组对应的节点，在开放知识图谱中查询相关的三元组并添加到三元组列表中；

连接三元组列表中的所有三元组称为新知识图谱，并存储在知识图谱的数据库中；

获取新文本时，自动抽取新的三元组加入知识图谱以更新构建的知识图谱。

一种知识图谱构建系统，包括：

前置处理模块，用于设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库；

三元组提取模块，用于获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果；

知识图谱构建模块，用于在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱。

进一步的，所述前置处理模块，包括：

专用领域分词单元，用于设置新词发现算法优化分词器，通过优化的分词器对文本进行专用领域中文分词；

专有名词准备单元，用于获取专用领域的数据，将专用领域的专有名词加入优化的分词器的数据库；

开放知识图谱整理单元，用于获取开放社区的开放知识图谱，对其进行整理并加入数据库。

进一步的，所述三元组提取模块，包括

文本获取单元，用于获取输入的文本，并通过分词器对文本分词；

文本解析单元，用于对分词后的文本进行句法解析，得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性；

持续化存储单元，用于将提取的包括主语、谓语、宾语在内的三元组持续化存储。

进一步的，所述知识图谱构建模块，包括：

三元组添加单元，用于获取提取的三元组对应的节点，在开放知识图谱中查询相关的三元组并添加到三元组列表中；

三元组连接单元，用于连接三元组列表中的所有三元组称为新知识图谱，并存储在知识图谱的数据库中；

知识图谱更新单元，用于获取新文本时，自动抽取新的三元组加入知识图谱以更新构建的知识图谱。

一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，其特征在于，所述计算机程序在所述处理器中执行可实现上述中任一种方法。

一种存储介质，存储计算机程序，其特征在于，所述计算机程序在处理器中执行可实现上述中任一种方法。

本发明实施例具有如下优点：

1、摆脱了有监督的图谱构建过程中对数据标注的依赖；

2、能够自发性的在数据中获取领域知识，而非人工预先定义；

3、充分利用了PLM、开放知识，在知识丰富度上本营销领域图谱比传统预定义的图谱要广泛；

4、实现了结合内部营销领域知识、外部开放知识来共同服务下游任务。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的知识图谱构建方法的流程示意图。

图2为本发明实施例提供的知识图谱信息的示意图。

图3为本发明实施例提供的知识图谱构建结果的示意图。

图4为本发明实施例提供的知识图谱构建系统的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本申请技术方案提供一种知识图谱构建方法，如图1所示，包括：

S100、设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库；

S200、获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果；

S300、在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱。

在进一步的此实施例中，所述设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库，包括：

S110、设置新词发现算法优化分词器，通过优化的分词器对文本进行专用领域中文分词；

S120、获取专用领域的数据，将专用领域的专有名词加入优化的分词器的数据库；

S130、获取开放社区的开放知识图谱，对其进行整理并加入数据库。

在更进一步的此实施例中，新词发现算法是一种基于统计的、无监督的NLP算法，包括：

首先，按照一定的窗口n，在语料文本字符串序列上进行滑动获取长度为窗口n的候选字符序列；

计算每个候选字符序列出现的频率，以及该候选字符序列的左右信息熵、候选字符序列互信息，

其中左右信息熵衡量了候选字符序列的左右文字的变化程度，词汇的左右变化程度都非常高；

其中互信息衡量了候选字符序列的内部凝聚程度，词汇的内部字符相关性凝聚度都非常高；

按照一定的阈值在如上衡量指标上进行筛选，最终将符合阈值规则的候选字符序列判定为领域词汇；

最后通过添加分词词典的方式来优化通用分词器。经过如上新词发现技术优化分词器，“618电商节”将被划分为一个词汇“618电商节”。

在进一步的此实施例中，所述获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果，包括：

S210、获取输入的文本，并通过分词器对文本分词；

S220、对分词后的文本进行句法解析，得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性；

S230、将提取的包括主语、谓语、宾语在内的三元组持续化存储。

在更进一步的此实施例中，对分词后的文本进行句法解析，得到分出的词在文本的句中承担的主谓宾语法成分、成分依赖和词性，包括：

当句子中存在主谓宾结构，而且主语是一个实体词并该实体类型存在于营销领域实体类型列表中，那么针对主语、宾语在其上下文上搜索前置形容词、副词的修饰，以构建完整的知识性短语，将【修饰词+主语，谓语，修饰词+宾语】三元组作为知识抽取结果进行存储；

当句子中存在指代结构，那么同样对主语和指代词进行修饰补充，将【修饰词+主语，“是”，修饰词+指代词】三元组作为知识抽取结果进行存储；

当句子中存在通用实体类型，且该实体类型存在于营销领域实体类型列表中，将【案例ID，“提及”，实体词】三元组作为知识抽取结果进行存储。

在进一步的此实施例中，所述在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱，如图2所示，包括：

S310、获取提取的三元组对应的节点，在开放知识图谱中查询相关的三元组并添加到三元组列表中；

S320、连接三元组列表中的所有三元组称为新知识图谱，并存储在知识图谱的数据库中；

S330、获取新文本时，自动抽取新的三元组加入知识图谱以更新构建的知识图谱。

实施例2

本发明实施例还提供一种知识图谱构建方法。

本申请的知识图谱构建方法，包括：

S100、前置处理。

如图1所示，数据来源于已存储的海量营销案例文本。

S110、专用领域中文分词。

中文自然语言处理技术中，分词技术是基础且核心的部分。分词是指(分割文本中在文法上有其特殊性而存在的词汇)，分词的正确与否影响着下游任务的部分能力，通用的中文分词技术可以处理大部分文本分词，但是对专用领域的文本分词性能差强人意，易将领域词汇分错，例如营销领域中“618电商节”这一营销领域词，使用通用分词器会被分为【“618”、“电商”、“节”】，对后续的知识抽取的准确性有很大的影响。

针对这个问题，本专利使用了新词发现技术来从领域文本中自动识别出可能为领域专用词汇的字符串。这是知识抽取过程中保证准确性的重要一步。

其中，新词发现技术是一种基于统计的、无监督的NLP算法：

S120、已知专用词汇准备

营销领域中，有部分已结构化的数据，如品牌、明星等，将这些专用名词组织起来并加入分词器，将提升分词、命名实体识别能力。

S130、开放中文知识图谱

开源社区公布了1.4亿中文开放知识图谱，包含通用领域的大量知识，如人物关系、企业详情、自然科学等知识，该开放知识图谱经过对齐后将用于后续知识扩展、修正。

S200、OIE提取器。

Spacy是一款开源NLP工具，其基于开源PLM预训练语言模型，实现了句法解析、通用命名实体识别能力。本专利基于该开源工具实现营销领域OIE提取器构建句法模式挖掘方法，其主要步骤如下：

S210、输入一条营销领域文本。

S220、对该文本进行分词。

S230、对该文本进行句法解析，解析出文本中每个词在句子中承担的主谓宾语法成分、成分依赖、词性，包括：

S231、若，句子中存在主谓宾结构，而且主语是一个实体词并该实体类型存在于营销领域实体类型列表中，那么针对主语、宾语在其上下文上搜索前置形容词、副词的修饰，以构建完整的知识性短语，将【修饰词+主语，谓语，修饰词+宾语】三元组作为知识抽取结果进行存储；

S232、若，句子中存在指代结构，那么同样对主语和指代词进行修饰补充，将【修饰词+主语，“是”，修饰词+指代词】三元组作为知识抽取结果进行存储；

S233、若，句子中存在通用实体类型，且该实体类型存在于营销领域实体类型列表中，将【案例ID，“提及”，实体词】三元组作为知识抽取结果进行存储。

S240、如上，三种方法可提取出以案例ID为中心的三元组子图，该文本提取的所有三元组持久化存储，作为后续构建图谱的数据。

S300、开放领域知识对齐。

在如上已抽取的三元组中，对每个节点，在开放知识图谱中查询，寻找与其相关的三元组，添加到三元组列表中。

S400、构建知识图谱。

对所有以上步骤获取的三元组，打通链接，组织成最终的图谱，存储在图数据库Neo4j中。

S500、图谱自动更新。

每日对新增营销案例执行OIE和开放领域知识对齐操作，将新抽取的三元组加入已存在的图谱中。

构建的图谱信息如图2所示，构建的图谱结果如图3所示。

实施例3

提供一种知识图谱构建系统，如图4所示，包括：

在进一步的此实施例中，所述前置处理模块，包括：

在进一步的此实施例中，所述三元组提取模块，包括

在进一步的此实施例中，所述知识图谱构建模块，包括：

实施例4

本发明实施例，还包括一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序在所述处理器中执行时用于实现上述的知识图谱构建方法，该方法包括：

实施例5

本发明实施例还提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的知识图谱构建方法，该方法包括：

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述设置新词发现算法，并组织专用名词以及开放知识图谱作为分词识别的数据库，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取输入的文本，基于数据库以及分词提取器提取文本中的包括主语、谓语、宾语在内的三元组作为知识抽取结果，包括：

获取输入的文本，并通过分词器对文本分词；

将提取的包括主语、谓语、宾语在内的三元组持续化存储。

4.根据权利要求1所述的方法，其特征在于，所述在开放知识图谱中查询与抽取的三元组对应节点相关的三元组，并将所有三元组组成新的知识图谱，包括：

5.一种知识图谱构建系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述前置处理模块，包括：

7.根据权利要求5所述的系统，其特征在于，所述三元组提取模块，包括

8.根据权利要求5所述的系统其特征在于，所述知识图谱构建模块，包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，其特征在于，所述计算机程序在所述处理器中执行可实现权利要求1至4中任一种方法。

10.一种存储介质，存储计算机程序，其特征在于，所述计算机程序在处理器中执行可实现权利要求1至4中任一种方法。