CN113987152B

CN113987152B - 一种知识图谱抽取方法、系统、电子设备及介质

Info

Publication number: CN113987152B
Application number: CN202111284929.8A
Authority: CN
Inventors: 王绪刚; 刘栋梁; 王新梅
Original assignee: Beijing Oula Cognitive Intelligent Technology Co ltd
Current assignee: Beijing Oula Cognitive Intelligent Technology Co ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-08-12
Anticipated expiration: 2041-11-01
Also published as: CN113987152A

Abstract

本发明涉及知识图谱抽取技术领域，其目的在于提供一种知识图谱抽取方法。本发明公开了一种知识图谱抽取方法，包括：获取指定目标场景下的文本段落数据；抽取所述文本段落数据中的文本要素，并将当前文本要素组建为图结构数据；基于图神经网络模型，得到所述图结构数据中所有文本要素的特征编码；根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇。本发明可提高知识图谱抽取效率，同时提高了图谱抽取的准确度。

Description

一种知识图谱抽取方法、系统、电子设备及介质

技术领域

本发明涉及知识图谱抽取技术领域，特别是涉及一种知识图谱抽取方法、系统、电子设备及介质。

背景技术

当前知识图谱已经应用于KBQA(Knowledge Base Question Answering，知识库问答)系统、语义搜索系统及推荐系统等众多形式的系统中，但是，在使用现有技术过程中，发明人发现现有技术中至少存在如下问题：

图谱元素的抽取成本仍然很高，具体地，现有的图谱元素的抽取方式主要包括规则抽取和有监督模型抽取两类，由于不同场景下生产系统中数据形式的多样性和描述形式的复杂性，规则抽取的开发和维护成本居高不下，有监督模型抽取又因为人工精准地标注句子级别的数据代价十分高昂，需要耗费大量的时间和人力；另外，采用规则抽取和有监督模型抽取，无法加入知识结构的考量，造成了抽取任务上的信息损失，影响了抽取准确性，知识结构信息利用率低。

发明内容

本发明旨在至少在一定程度上解决上述技术问题，本发明提供了一种知识图谱抽取方法、系统、电子设备及介质。

本发明采用的技术方案是：

本发明提供了一种知识图谱抽取方法，包括：

获取指定目标场景下的文本段落数据；

抽取所述文本段落数据中的文本要素，并将当前文本要素组建为图结构数据；

基于图神经网络模型，得到所述图结构数据中所有文本要素的特征编码；

根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇。

在一个可能的设计中，获取指定目标场景下的文本段落数据，包括：

收集指定目标场景下的文件数据；

对所述文件数据进行解析，得到所述文件数据中的初始文本数据；

对所述初始文本数据进行清洗，得到清洗后文本数据；

对所述清洗后文本数据进行段落拆解，得到指定目标场景下的文本段落数据。

在一个可能的设计中，所述文本要素包括主语名词、谓语名词和宾语名词；抽取所述文本段落数据中的文本要素，并将当前文本要素组建为图结构数据，包括：

通过HMM对所述文本段落数据进行分词，得到多个名词，并识别出每个名词的词性；

通过分类模型依次判断每个名词的词性是否为谓语，若是，则将谓语名词作为一个文本段落数据的中心；

获取当前文本段落数据中，与谓语名词前后相邻的名词，并根据对应名词与谓语名词的位置关系，得到对应名词的主语或宾语词性，最终得到当前文本段落数据中的所有主语名词、谓语名词和宾语名词；

基于所有主语名词、谓语名词和宾语名词，组建出主谓宾句式结构的图结构数据。

在一个可能的设计中，基于所有谓语名词、主语名词和宾语名词，组建出主谓宾句式结构的图结构数据，包括：

以主语名词和宾语名词为节点，以谓语名词为边，依照各谓语名词、主语名词和宾语名词之间的位置关系，组建出主谓宾句式结构的图结构数据。

在一个可能的设计中，基于图神经网络模型，得到所述图结构数据中所有文本要素的特征编码，包括：

初始化词向量或词性向量，得到初始化特征编码，并将该初始化特征编码作为图结构数据中各节点的基础特征编码；

获取图结构数据中任一节点相邻节点的基础特征编码；

使用聚合类函数，得到所有节点的基础特征编码，并将所有节点的基础特征编码作为图神经网络模型的输入层；

使用全连接的神经网络结构，使所述输入层形成多层的单元结构，并指定输出维度，得到单个的图神经网络结构单元；

针对图结构数据中的每个节点，使用图神经网络结构单元中相同的单元结构，对该节点基础特征编码进行非线性计算，得到网络隐藏层；

级联多个单层的网络隐藏层，进行多层的网络计算，得到所述图结构数据中所有节点与边的最新特征编码。

在一个可能的设计中，所述图神经网络模型为GAT模型、DCNN模型、Graph SAGE模型或GCN模型。

在一个可能的设计中，根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇，包括：

分别获取文本要素的特征编码中的节点特征编码和边的特征编码，并通过层次聚类算法分别计算出所有节点之间的相似性与所有边之间的相似性，然后得到实体聚类树和关系聚类树；

根据实体聚类树和关系聚类树，得到图结构数据内知识图谱对应的实体群簇和关系群簇。

在一个可能的设计中，所述聚类计算为通过余弦相似度、欧氏相似度、汉明相似度或曼哈顿相似度进行的层次聚类计算。

本发明通过获取指定文本段落数据，以得到文本段落数据中的文本数据及对应的图结构数据，再基于图神经网络模型得到所有文本要素的特征编码，最后通过聚类计算进行知识图谱的抽取，该知识图谱过程基于机器即可实现，节省了大量的人力参与，提高了知识图谱抽取效率，同时避免了抽取过程中对于知识结构信息利用的损失，很大程度上提高了图谱抽取的准确度。

附图说明

图1是本发明中一种知识图谱抽取方法的结构示意图；

图2是本发明中主谓宾句式结构的图结构数据；

图3是本发明中得到图结构数据内知识图谱对应的实体群簇和关系群簇的流程图；

图4是本发明中一种电子设备的模块框图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。

本申请实施例中的涉及的名词说明如下：

实体：指的是具有可区别性且独立存在的某种事物，如某一个人、某一个城市、某一种植物等、某一种商品等；

关系：知识图谱上图节点(实体、概念等)间的联系。

实施例1：

本实施例第一方面提供了一种知识图谱抽取方法，可以但不限于由具有一定计算资源的计算机设备或虚拟机执行，例如由个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digitalassistant，PAD)或可穿戴设备等电子设备执行，或者由虚拟机Hypervisor执行，以便降低人力成本，并快速准确地进行知识图谱的抽取任务。

如图1所示，一种知识图谱抽取方法，可以但不限于包括有如下步骤：

S1.获取指定目标场景下的文本段落数据；

本实施例中，步骤S1具体包括：

S101.收集指定目标场景下的文件数据；本实施例中，所述文件数据可以但不仅限于为Excel格式、CSV(Comma-Separated Values，逗号分隔值)文件格式、TXT格式或Word格式等格式的文件数据。

S102.对接与当前格式文件数据对应的数据库，并对所述文件数据进行解析，得到所述文件数据中的初始文本数据；

S103.对所述初始文本数据进行清洗，如删除初始文本数据中的特殊符号、乱码等不正常的文本数据，得到清洗后文本数据；

S104.对所述清洗后文本数据进行段落拆解，得到指定目标场景下的文本段落数据。

S2.抽取所述文本段落数据中的文本要素，并将当前文本要素组建为图结构数据；

本实施例中，所述文本要素包括主语名词、谓语名词和宾语名词；步骤S2具体包括：

S201.通过HMM(Hidden Markov Model，隐马尔科夫模型)对所述文本段落数据进行分词，得到多个名词，并识别出每个名词的词性；

S202.通过分类模型依次判断每个名词的词性是否为谓语，若是，则将谓语名词作为一个文本段落数据的中心；需要说明的是，分类模型可通过词的词性、位置等特征对词进行是否谓语的识别。

S203.获取当前文本段落数据中，与谓语名词前后相邻的名词，并根据对应名词与谓语名词的位置关系，得到对应名词的主语或宾语词性，最终得到当前文本段落数据中的所有主语名词、谓语名词和宾语名词；

S204.基于所有主语名词、谓语名词和宾语名词，组建出主谓宾句式结构的图结构数据。

由此通过建立出各个名词之间的依存关系，可获取多个名词之间在句法上的搭配关系，进而可从文本段落数据中抽取出多组主语、谓语及宾语等文本要素。

本实施例中，步骤S204具体包括：

以主语名词和宾语名词为节点，以谓语名词为边，依照各谓语名词、主语名词和宾语名词之间的位置关系，组建出主谓宾句式结构的图结构数据。并将当前图结构数据以知识图谱的形式存储至如Neo4j图形数据库(是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中)、OrientDB(指兼具文档数据库的灵活性和图形数据库管理链接能力的可深层次扩展的文档-图形数据库管理系统)图形数据库等图数据库中。

需要说明的是，图形数据库是NoSQL(Not Only SQL，泛指非关系型的数据库)的一种类型，它应用图形理论存储实体之间的关系信息，图形数据库是一种非关系型数据库，它应用图形理论存储实体之间的关系信息。

具体地，以电信行业的文本段落数据为例，抽取的主语名词、谓语名词和宾语名词为：

{5G套餐，参与，送积分活动}，

{本人身份证，办理，移机}，

{过户，需要，本人身份证}，

{……}。

其中，主谓宾句式结构的图结构数据如图2所示。

S3.基于图神经网络模型，得到所述图结构数据中所有文本要素的特征编码；

所述步骤S3具体包括：

S301.初始化词向量或词性向量，得到初始化特征编码，并将该初始化特征编码作为图结构数据中各节点的基础特征编码；其中，节点的特征编码包括节点本身的向量特征及节点的度(连接的边的个数)；

S302.获取图结构数据中任一节点相邻节点的基础特征编码；

S303.使用求和、平均等聚合类函数，得到所有节点的基础特征编码，并将所有节点的基础特征编码作为图神经网络模型的输入层；

本实施例中，所述图神经网络模型为GAT(Graph Attention Network，图注意力网络)模型、DCNN(Diffusion-Convolutional Neural Networks，深度卷积神经网络)模型、Graph SAGE(Graph SAmple and aggreGatE，图形采样和聚合)模型或GCN(Graphconvolution Network，图卷积网络)模型。

S304.使用全连接的神经网络结构，使所述输入层形成多层的单元结构，并指定输出维度，得到单个的图神经网络结构单元；

S305.针对图结构数据中的每个节点，使用图神经网络结构单元中相同的单元结构，对该节点基础特征编码进行非线性计算，具体地，进行非线性计算时，可以但不限于采用than、relu、sigmoid、swish等计算函数进行，并通过逐个节点计算完成整个图结构数据的单层卷积计算操作，得到网络隐藏层，从而可便于完成图结构数据多层网络隐藏层的卷积计算；该流程计算出网络隐藏层，进而可得到各节点的最新特征编码，既利用了图结构数据中相邻节点的基础特征编码，又暗含了图结构数据的信息，对于最新特征编码可起到更好的语义泛化能力；

S306.级联多个单层的网络隐藏层，进行多层的网络计算，得到所述图结构数据中所有节点与边的最新特征编码。应当理解的是，节点的最新特征编码即对应文本要素的特征编码。

需要说明的是，在最终训练完成的图神经网络中，网络隐藏层的节点特征编码可以作为实体特征编码，边的特征编码可以通过两端节点的特征编码加和得出，即为：边的特征编码＝边上首节点特征编码+边上尾节点特征编码；边的特征编码为关系特征编码。

本实施例中，特征编码的形态为向量类型，以便于支持多种不同形态的相似计算。如下以电信行业的数据为例，各节点与边对应的特征编码为：

{5G套餐：[0.241,0.823,0.094,0.108,0.081,0.137,…]}，

{送积分活动：[0.002,0.139,0.624,0.003,0.915,0.472,…]}，

{参与：[0.243,0.962,0.718,0.108,0.111,0.996,0.609,…]}，

{……}。

S4.根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇，从而达到知识图谱抽取的目标。

如图3所示(图中的E代表实体entity，R代表关系relation)，所述步骤S4具体包括：

S401.分别获取文本要素的特征编码中的节点特征编码和边的特征编码，并通过层次聚类算法(Hierarchical Clustering)分别计算出所有节点之间的相似性与所有边之间的相似性，然后得到实体聚类树和关系聚类树；

具体地，以实体聚类树的生成为例，聚类树的计算流程为：将所有节点中相似度最高的节点组合为一层节点，并以一层节点为单位，再次进行相似度计算，反复迭代这一过程，直到生成实体聚类树。同理可通过层次聚类算法生成关系聚类树。

本实施例中，所述聚类计算为通过余弦相似度、欧氏相似度、汉明相似度或曼哈顿相似度进行的层次聚类计算。

S402.根据实体聚类树和关系聚类树，得到图结构数据内知识图谱对应的实体群簇和关系群簇。

具体地，针对实体聚类树中的每一个节点，计算当前节点下所有节点的平均相似度，选出平均相似度高且包含节点数量多的节点，得到实体群簇；同理针对于关系聚类树，使用同样的方式形成关系群簇；后期可针对不同的实体群簇和关系群簇，保留合理的实体群簇和关系群簇与概念，以便得到知识图谱中的概念层，进而可形成包含概念、实体、关系的完整知识图谱。

如以电信行业的数据为例，聚类结果如下：

实体群簇1：{5G套餐，4G套餐,单产品套餐…}->概念：套餐；

关系群簇2：{办理，办，申请，买，购买，……}->概念：办理；

实体群簇2：{身份证，护照，户口本,………}->概念：证件；

群簇4：{……}。

本实施例通过获取指定文本段落数据，以得到文本段落数据中的文本数据及对应的图结构数据，再基于图神经网络模型得到所有文本要素的特征编码，最后通过聚类计算进行知识图谱的抽取，该知识图谱过程基于机器即可实现，节省了大量的人力参与，提高了知识图谱抽取效率，同时避免了抽取过程中对于知识结构信息利用的损失，很大程度上提高了图谱抽取的准确度。

实施例2：

本实施例提供一种知识图谱抽取系统，用于实现实施例1中知识图谱抽取方法；所述知识图谱抽取系统包括：

文本段落数据获取模块，用于获取指定目标场景下的文本段落数据；

图结构数据构建模块，与文本段落数据获取模块通信连接，用于抽取所述文本段落数据中的文本要素，并将当前文本要素组建为图结构数据；

特征编码获取模块，与图结构数据构建模块通信连接，用于基于图神经网络模型，得到所述图结构数据中所有文本要素的特征编码；

知识图谱抽取模块，与特征编码获取模块通信连接，用于根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇。

实施例3：

在实施例1或2的基础上，本实施例公开了一种电子设备，该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等，如图4所示，电子设备包括：

存储器，用于存储计算机程序指令；以及，

处理器，用于执行所述计算机程序指令从而完成如实施例1中任一所述的知识图谱抽取方法的操作。

具体地，处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的知识图谱抽取方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。

电源306用于为电子设备中的各个组件进行供电。

实施例4：

在实施例1至3任一项实施例的基础上，本实施例公开了一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，所述计算机程序指令被配置为运行时执行如实施例1所述的知识图谱抽取方法的操作。

需要说明的是，所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种知识图谱抽取方法，其特征在于：包括：

获取指定目标场景下的文本段落数据；

根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇；

所述文本要素包括主语名词、谓语名词和宾语名词；抽取所述文本段落数据中的文本要素，并将当前文本要素组建为图结构数据，包括：

基于所有主语名词、谓语名词和宾语名词，组建出主谓宾句式结构的图结构数据；

基于所有谓语名词、主语名词和宾语名词，组建出主谓宾句式结构的图结构数据，包括：

以主语名词和宾语名词为节点，以谓语名词为边，依照各谓语名词、主语名词和宾语名词之间的位置关系，组建出主谓宾句式结构的图结构数据；

基于图神经网络模型，得到所述图结构数据中所有文本要素的特征编码，包括：

获取图结构数据中任一节点相邻节点的基础特征编码；

2.根据权利要求1所述的一种知识图谱抽取方法，其特征在于：获取指定目标场景下的文本段落数据，包括：

收集指定目标场景下的文件数据；

对所述初始文本数据进行清洗，得到清洗后文本数据；

3.根据权利要求1所述的一种知识图谱抽取方法，其特征在于：根据文本要素的特征编码，通过聚类计算，得到图结构数据内知识图谱对应的实体群簇和关系群簇，包括：

4.根据权利要求3所述的一种知识图谱抽取方法，其特征在于：所述聚类计算为通过余弦相似度、欧氏相似度、汉明相似度或曼哈顿相似度进行的层次聚类计算。

5.一种知识图谱抽取系统，其特征在于：用于实现如权利要求1至4中任一项所述的知识图谱抽取方法；所述知识图谱抽取系统包括：

6.一种电子设备，其特征在于：包括：

存储器，用于存储计算机程序指令；以及，

处理器，用于执行所述计算机程序指令从而完成如权利要求1至4中任一项所述的知识图谱抽取方法的操作。

7.一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，其特征在于：所述计算机程序指令被配置为运行时执行如权利要求1至4中任一项所述的知识图谱抽取方法的操作。