CN114625843A

CN114625843A - 基于知识图谱的查询方法及装置

Info

Publication number: CN114625843A
Application number: CN202210352662.XA
Authority: CN
Inventors: 张伟; 郝爽; 臧利利; 羊晋; 赵鲲驰; 孙真真; 刘光远; 马凤春
Original assignee: Shandong Academy Of Sciences Yida Technology Consulting Co ltd
Current assignee: Shandong Yifang Jinze Information Technology Co ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-06-14
Anticipated expiration: 2042-04-06
Also published as: CN114625843B

Abstract

本发明涉及知识图谱技术领域，公开了基于知识图谱的查询方法及装置，其中基于知识图谱的查询方法包括以下步骤：获得包括客体或概念的用户搜索信息；将用户搜索文信息划分为最小意义单位的关键词元素；根据各个关键词要素生成关键词数据对应组；关键词对应组根据预定的组合规则生成顺序对组合；将生成的顺序对组合映射到知识图谱中生成元组；为生成的元组的用户提供搜索结果；本发明的基于对于检索输入内容的处理映射以及匹配，使其符合知识图谱的知识结构，能够基于知识图谱得到更为匹配的内容，充分发挥知识图谱的知识结构的优越性。

Description

基于知识图谱的查询方法及装置

技术领域

本发明涉及知识图谱技术领域，更具体地说，它涉及基于知识图谱的查询方法及装置。

背景技术

知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论；

知识图谱是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合，转化为简单、清晰的“实体、关系、实体”的三元组，最后聚合大量知识，从而实现知识的快速响应和推理。

知识图谱的核心是从既有数据经过抽取、融合、分析加工，将结点属性数据抽象提取出标准的实体与关系，主要包括：

信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；

知识融合：在获得新知识之后，对其进行整合，以消除矛盾和歧义，如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；

知识加工：对于经过融合的新知识，经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量；

知识图谱虽然为智能化信息应用提供了基础，传统的基于关键词的简单的检索方法无法发挥知识图谱的知识结构的优越性。

发明内容

本发明提供一种基于知识图谱的查询方法，解决相关技术中基于关键词的简单的检索方法无法发挥知识图谱的知识结构的优越性的技术问题。

根据本发明的一个方面，提供了基于知识图谱的查询方法，包括以下步骤：

步骤S11，获得包括客体或概念的用户搜索信息；

步骤S12，将用户搜索文信息划分为最小意义单位的关键词元素；

步骤S13，根据各个关键词要素生成关键词数据对应组；

步骤S14，关键词对应组根据预定的组合规则生成顺序对组合；

步骤S15，将生成的顺序对组合映射到知识图谱中生成元组；

步骤S16，为生成的元组的用户提供搜索结果。

进一步地，所述关键词对应组根据预定的组合规则生成顺序对组合包括以下步骤：

步骤S21，按照一个关系的关键词要素加两个本体的关键词要素生成多个关键词数据对应组；

步骤S22，提取上述关键词数据对应组中的一个，并将该关键词数据组与其他的关键词数据组对比，删除与其关键词要素完全重复的关键词数据组；

步骤S23，提取下一个关键词数据对应组，并将该关键词数据组与其他的关键词数据组对比，删除与其关键词要素完全重复的关键词数据组；

步骤S24，重复上一步骤，直至所有关键词数据对应组对比完毕。

进一步地，所述知识图谱是将从多种来源获得的信息用客体、概念、关系要素来表现，并将它们连接起来以图表形式表现。

进一步地，所述搜索结果包括知识图谱中的关键词以及知识图谱所联系的内容数据库中的内容。

进一步地，所述知识图谱所联系的内容数据库中的内容的搜索结果的获得方法包括以下步骤：

基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词；

评价重要关键词的权重；

内容标签是内容数据库中赋予内容的标签，用于区分内容；

基于重要关键词的权重进行TOP-N的方式进行筛选获得重要关键词集合；

基于重要关键词集合联系数据库中与其关联或匹配的内容作为搜索结果。

进一步地，所述基于元组中的关键词以及图表中心度从知识图谱中提取至少一个重要关键词是基于近似性中心度的提取方式，是从知识结构图表中提取与元组中的关键词连接的最短路径的节点对应的关键词。

进一步地，所述重要关键词的权重由以下公式计算：

其中，

表示关键词

的TF*IDF值，

表示关键词中最大的TF*IDF值，

表示关键词

的链接数，

是拥有最多链接的关键词链接数，

表示关键词

是否属于内容的标签（属于为1，不属于为0），w₁，w₂，w₃表示权重系数。

根据本发明的一个方面，提供了基于知识图谱的查询装置，包括：

信息获得单元、预处理单元、知识图谱映射单元和搜索服务提供单元，其中，信息获得单元用于获得包含搜索关键词的客体或概念的用户搜索信息；

预处理单元用于将获得的用户搜索信息分割为最小意义单位的关键词元素；

知识图谱映射单元根据预处理单元分离的关键词要素生成关键词数据对应组，基于所述关键词数据对应组根据预先设置的组合规则消除重复元素生成顺序对组合。

进一步地，所述分割最小意义单位关键词要素的方法可以利用复合名词词典、用语词典、体言词典等，将这些现有的记载的单词和短文选择为最小关键词要素。

进一步地，所述知识图谱映射单元至少包括关键词对应生成单元、元组组合单元和元组映射单元，其中，关键词对应组生成单元用于根据所分割的各个关键词元素生成关键词数据对应组；

元组组合单元用于根据预定的组合规则生成顺序对组合；

元组映射器用于将生成的顺序对组合映射到知识图谱中生成元组。

本发明的有益效果在于：

本发明的基于对于检索输入内容的处理映射以及匹配，使其符合知识图谱的知识结构，能够基于知识图谱得到更为匹配的内容，充分发挥知识图谱的知识结构的优越性。

附图说明

图1是本发明实施例的基于知识图谱的查询方法的流程示意图；

图2是本发明实施例的关键词对应组根据预定的组合规则生成顺序对组合的流程示意图；

图3是本发明实施例的基于知识图谱的查询装置的模块示意图一；

图4是本发明实施例的基于知识图谱的查询装置的知识图谱映射单元的模块示意图；

图5是本发明实施例的基于知识图谱的查询装置的模块示意图二。

图中：信息获得单元100、预处理单元200、知识图谱映射单元300、搜索服务提供单元400、内容服务器500、关键词对应生成单元310、元组组合单元320、元组映射单元330。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

在本实施例中提供了基于知识图谱的查询方法，如图1所示是根据本发明的基于知识图谱的查询方法的流程示意图，如图1所示，该基于知识图谱的查询方法，包括以下步骤：

步骤S11，获得包括客体或概念的用户搜索信息；

根据本发明的一个实施例，可以接收与用户输入的客体及概念对应的数据，生成用户搜索信息。

根据本发明的实施例，决定最小意义单位的关键词要素的方法可以利用复合名词词典、用语词典、体言词典，将这些事先记载的单词和短文选择为最小关键词要素。

步骤S13，根据各个关键词要素生成关键词数据对应组；

根据本发明的一个实施例，可以生成包含在知识图谱中获得的意义上相关的多个单词和短文的关键词数据对应组。

步骤S14，关键词对应组根据预定的组合规则生成顺序对组合。

如图2所示，关键词对应组根据预定的组合规则生成顺序对组合包括：

例如“A公司、申请、发明专利”与“A公司、申请、发明专利”；

步骤S24，重复上一步骤，直至所有关键词数据对应组对比完毕；

步骤S15，将生成的顺序对组合映射到知识图谱中生成元组；

这里的元组基本上意味着事物的有限顺序，或者意味着包括遵循某种顺序的要素的集合，根据本发明的实施例，从知识图谱组件中，用户检索文可以指在知识图谱中映射而生成的知识图谱组成要素对。

步骤S16，为生成的元组的用户提供搜索结果。

如图3-图4所示，基于上述的基于知识图谱的查询方法，本发明提供一种基于知识图谱的查询装置，包括：

信息获得单元100、预处理单元200、知识图谱映射单元300和搜索服务提供单元400，其中，信息获得单元100用于获得包含搜索关键词的客体或概念的用户搜索信息。

根据本发明的实施例，可以接收与用户输入的客体及概念对应的数据，生成用户搜索信息。

例如，“A公司申请发明专利和实用新型专利”用户输入了由3个关键词构成的搜索语句，一般可以解释为“企业A公司申请的申请号为X的发明专利”。

但是根据本发明的搜索方式的实施例，输入的“A公司申请发明专利”中的“企业A”的关键词相当于知识图谱的客体，“发明专利”“实用新型专利”的关键词相当于知识图谱的概念。

另外，以这些知识图谱要素的映射结果为基础，得出了相当于“企业A”的客体和“发明专利”“实用新型专利”概念的某个客体与“申请”的关系相连接的意义，提供了有意义的搜索功能。

对于知识图谱来说，实体包括客体以及概念，对应于知识图谱而生成的知识图谱的构成要素，在知识图谱上生成的“实体、关系、概念”的三元组是“企业A、申请、发明专利”。

知识图谱是将从多种来源获得的信息用客体、概念、关系等要素来表现，并将它们连接起来以图表形式表现。

预处理单元200用于将获得的用户搜索信息分割为最小意义单位的关键词元素，进而将用户搜索语句与知识图谱相匹配生成知识图谱顺序对组合，顺序对组合是客体、概念、关系这些知识图谱的关键词要素的按照预定的顺序的组合，例如“客体、关系、客体”。

分割最小意义单位关键词要素的方法可以利用复合名词词典、用语词典、体言词典等，将这些现有的记载的单词和短文选择为最小关键词要素。

知识图谱映射单元300根据分离的关键词要素，将知识图谱中获得的意义上相关的多数要素客体、概念、关系生成为关键词数据对应组，基于上述关键词数据对应组，可以根据预先设置的组合规则消除重复元素，生成顺序对组合。

知识图谱映射单元300至少包括关键词对应生成单元310、元组组合单元320和元组映射单元330，其中，关键词对应组生成单元310根据所分割的各个关键词元素生成关键词数据对应组。

关键词对应组是指通过预处理单元200生成的关键词要素与知识图谱相匹配，获得有意义的相关知识图谱要素，并将获得的要素捆绑在一起生成的数据集。

元组组合单元320根据预定的组合规则生成顺序对组合。

例如，根据预定的组合规则生成生成生成的顺序对组合包括：

按照一个关系的关键词要素加两个本体的关键词要素生成多个关键词数据对应组；

提取上述关键词数据对应组中的一个，并将该关键词数据组与其他的关键词数据组对比，删除与其关键词要素完全重复的关键词数据组；

提取下一个关键词数据对应组，并将该关键词数据组与其他的关键词数据组对比，删除与其关键词要素完全重复的关键词数据组；

重复上一步骤，直至所有关键词数据对应组对比完毕；

元组映射器330可以将生成的顺序对组合映射到知识图谱中生成元组。

搜索服务提供单元400基于元组在知识图谱中匹配搜索结果。

进一步的，搜索服务提供单元400的搜索结果不仅仅是知识图谱中的关键词，也可以是知识图谱所联系的内容数据库500中的内容，知识图谱的关键词连接数据库中的内容；

利用图表中心度的方法是现有的多种，例如一种基于近似性中心度（ClosenessCentrality）的提取方式，是从知识结构图表中提取与元组中的关键词连接的最短路径的节点对应的关键词的方式；

评价重要关键词的权重；

重要关键词的权重可以通过TF—IDF（Term Frequency-Inverse DocumentFrequency）分数、该节点的链接数和用户是否存在于当前会话中的关键词来决定。具体来说，关键词重要度可以由以下公式计算：

其中，

表示关键词

的TF*IDF值，

表示关键词中最大的TF*IDF值，

表示关键词

的链接数，

是拥有最多链接的关键词链接数，

表示关键词

是否属于内容标签（属于为1，不属于为0），w₁，w₂，w₃表示权重系数。每个权重系数是根据关键词重要度考虑的各因素的比例来决定的值，可以是预设值；

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument Frequency)；

TF-IDF是一种统计方法，用以评估一字词对于一个内容集或一个语料库中的其中一份内容的重要程度。字词的重要性随着它在内容中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为内容与用户查询之间相关程度的度量或评级；

TF（单词频率，term frequency）是表示特定单词在内容中经常出现的值，这个值越高，在内容中就越重要。但是，如果单词本身在内容群内经常使用，这意味着这个单词很常见。这被称为DF（内容频率，document frequency），该值的倒数称为IDF（逆内容频率，inverse document frequency）。TF-IDF是TF和IDF的乘；

内容标签是内容数据库中赋予内容的标签，用于区分内容；

例如，“湫隘”这个词在一般的内容中不太常见，所以IDF的会升高，可以成为内容的核心词，但是对于文学内容集合来说，这个单词是惯用语，IDF的会下降。

例如利用图表中心度从知识结构中提取了重要关键词q₁、q₂、q₃、q₄、q₅，基于重要关键词的权重进行TOP-N的方式进行筛选获得重要关键词q₂、q₃、q₅；

基于q₂、q₃、q₅联系数据库中与其关联或匹配的内容。

如图5所示，基于上述的进一步的方案，本发明提供一种基于知识图谱的查询装置，包括：

信息获得单元100、预处理单元200、知识图谱映射单元300和搜索服务提供单元400，其中搜索服务提供单元400联系内容数据库500。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本实施例各个实施例的方法。

本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

上面结合附图对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的。