CN115809345A

CN115809345A - 一种基于知识图谱的多源数据差异溯源检索方法

Info

Publication number: CN115809345A
Application number: CN202211527513.9A
Authority: CN
Inventors: 廖竞; 吴亚东; 鲍忠将; 王桂娟; 汪永洋
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-17

Abstract

本发明涉及多源数据差异溯源检索技术领域，具体为一种基于知识图谱的多源数据差异溯源检索方法，包括以下步骤，知识图谱构建，将带有差异的多元数据进行整理合并，提取出有效的信息，实现知识图谱的构建，具体包括以下步骤：知识提取和知识合并；多源数据溯源检索，具体包括以下步骤：知识图谱数据检索与溯源，通过Django服务器，对Neo4j数据库进行请求，来获得图数据库中的各个节点的键值对信息。本发明通过知识图谱构建，解决知识获取困难和关系体现问题，通过获取不同来源的专业数据，并进行分析和整理，自顶向下地构建领域知识本体，然后对这些数据进行知识抽取和融合，使其知识语义信息更完备，从而构建知识图谱。

Description

一种基于知识图谱的多源数据差异溯源检索方法

技术领域

本发明涉及多源数据差异溯源检索技术领域，具体为一种基于知识图谱的多源数据差异溯源检索方法。

背景技术

传统语义网络与知识图谱的差别首先表现在其规模上。知识图谱是一种大规模语义网络，与上世纪七八十年代的各类语义网络相比较，最显著的差异就是规模差异。推而广之，以知识图谱为代表的大数据时代的各种知识表示与传统的知识表示的根本差别首先体现在规模上。传统知识工程一系列知识表示都是一种典型的“小知识”。

多源异构数据处理的传统方法是利用数据挖掘、机器学习、统计分析等技术对集成的多源异构数据进行分析和处理，从而提取出有价值的信息和知识。目前的多源异构数据的处理大多为数据分析类。利用数据关联分析，就是发现表面看来无规律的数据间的关联性，从而发现事物之间的规律性和发展趋势。传统常用的数据处理算法包括Apriori算法和FP-Growth算法。而多元异构数据处理算法主要为两大类分类算法和聚类算法。分类是指通过算法将数据划分到已经定义好的类别中。常用的分类算法包括决策树算法、基于规则的分类法、人工神经网络算法、深度学习算法、支持向量机(SVM)算法、贝叶斯算法等；聚类就是将相似的数据归为一类，原则是使每一类数据的相似性最大。常用的聚类算法包括基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法和基于模型的聚类方法四大类。

知识的关系体现不够全面，现有的知识获取模型中，最为常见的是欧式空间点集模型，多为体现实体间的关联强度信息，关系结构信息和语义信息体现较少。有关知识结构的表达的大多为矢向量模型，将知识关系映射到极坐标上，但是该模型只针对知识实体之间的结构关系，对于语义信息表达较少。而最近流行的复向量空间模型在面对多关系结构上有着很好的表现，但计算开销很大。

知识图谱溯源困难，面对大量数据本身的查找就存在着效率问题，特别的在知识图谱中，往往问题不仅仅只在唯一的单一实体中，需要对其关系节点甚至在其长尾的祖先节点上。目前知识图谱针对长尾路径查询问题，大多以随机游走为基础上的改进，利用强化学习实现对目标实体节点的访问查找。但在面对复杂关系如实体间存在多对多关系时，实体间存在闭环关系时，强化学习改进的随机游走的方法就愈发陷入局部最优与路线闭环，损耗算力的同时又难以找寻正确的实体，为此提出一种基于知识图谱的多源数据差异溯源检索方法。

发明内容

本发明的目的在于提供一种基于知识图谱的多源数据差异溯源检索方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于知识图谱的多源数据差异溯源检索方法，包括以下步骤：

步骤S1，知识图谱构建，将带有差异的多元数据进行整理合并，提取出有效的信息，实现知识图谱的构建，具体包括以下步骤：

a，知识提取，知识抽取选用数据语料中的命名实体作为节点，一个实体对应现实世界中的一个事物，从面向对象的角度也可以把实体当作一个对象，每个实体有自己的属性，每个实体在图谱中代表一个知识单元，检索时也会返回以实体为检索单位的相关信息，实体通过其名字在文本中使用，实体词性为名词或名词性短语；

基于从上到下的原则做命名实体的提取，首先结合领域专家意见整理出了该领域的专业层级词汇表，此外，经过提取发现除了这些实体外，语料数据中的许多词语也适合作为知识图谱中的知识单元，所以本项目将使用关键词提取算法提取出语料中的关键词，并过滤出其中名词性质的关键词同样作为图谱中的命名实体；

b，知识合并，把不同数据学习得到的实体中描述同一目标的进行合并，得到一个具有具体指向的层级节点；

首先借助现有领域数据体系和的规范描述对数据进行筛选，排除不符合原有体系规划的实体，然后再利用实体字符串的相似度进行对齐；

首先使用别名属性进行对齐，对于缺失别名信息的实体，再依次利用实体名的字符串特征，实体描述，属性信息和语义网信息对实体进行对齐，其中两个实体的字符串相似度可以通过Word2Vec模型进行向量化，再通过向量的余弦相似度计算得到，实体描述相似度可以通过Doc2Vec模型、编辑距离和TF-IDF算法计算得到，语义网信息是指实体在语义网中的结构信息，也可以认为是实体的关联实体信息，使用实体的嵌入式向量作为其语义网结构特征向量，然后通过余弦相似度计算匹配得分；

步骤S2，多源数据溯源检索，根据构建出的知识图谱，提取待溯源的知识特征，将该特征带入溯源模型中，实现溯源检索，具体包括以下步骤：

a，知识图谱数据检索与溯源，通过溯源检索来确定可疑数据的问题与数据来源，溯源检索针对量大、多层次、多维度、多来源、描述不一致等特点的数据，构建专业知识图谱，解决在大数据环境下，较大数量级专业数据的知识级表示和分析，在此基础上，结合语义和图结构进行溯源检索，帮助用户理解和分析数据间的关系；

溯源检索部分，分为对节点的溯源检索和对自然语言查询问句的溯源检索，分为以下两种情况：

如果输入的内容是知识图谱中的节点，则可以直接在neo4j中使用Cypher语句根据提供者和来源两种关系，对节点的来源信息进行多节点多关系的嵌套查询；

如果输入内容是自然语言则通过HanLp工具包对用户输入的自然语言查询问句进行依存句法分析和语义依存分析，根据自定义词典提取实体关系作为问题特征，然后根据这些特征词汇的语义理解和知识图谱中的实体关系，建立不同的问题类型；然后参照输入问句的特征词，利用朴素贝叶斯分类算法匹配查询问题的类别；最后传递参数给预设的Cypher语句查询模板，从图数据库Neo4j中检索结果返回给用户；

b，通过Django服务器，对Neo4j数据库进行请求，来获得图数据库中的各个节点的键值对信息，利用Jackjson包，将半结构化的map键值对数据转化为前端所需要的的Json数据，前端利用D3前端开发工具包实现对Json数据的渲染；

所述步骤S1中的知识提取使用开源软件包HanLP进行命名实体识别，识别的流程包括以下步骤：多源特征数据输入，数据获取，本体构建，知识抽取与融合，知识储存，特征知识图谱，数据处理，问题分类，溯源检索，结果呈现；

步骤S2中的知识图谱数据检索与溯源的详细检索流程包括：数据准备，贝叶斯分类器和溯源查找；

所述数据准备包括以下流程：专业知识图谱，数据预处理，收集问题描述语句，定义问题类别，选择特征构建特征词库，所述专业知识图谱，数据预处理，收集问题描述语句，定义问题类别，选择特征构建特征词库步骤依次进行；

所述贝叶斯分类器包括，问句样本集，70％训练样本，30％测试样本，训练得到分类模型，加载朴素贝叶斯分类模型，根据特征值对测试问句分类，得到分类标签；

所述问句样本集与收集问题描述语句连接；所述70％训练样本训练得到分类模型，所述30％测试样本与所述训练得到分类模型处理数据加载朴素贝叶斯分类模型，所述加载朴素贝叶斯分类模型连接得出根据特征值对测试问句分类，通过根据特征值对测试问句分类得到分类标签；

所述溯源查找，包括以下步骤；

a，判断用户输入的是否是句子，如果是则进入b步骤，如果不是则进入e步骤；

b，句法语意分析；

c，特征词，且通过贝叶斯分类器根据特征值对测试问句分类；

d，通过贝叶斯分类器中得到分类标签，根据分类标签匹配问题模板，套用所述模板对应的Cypher语句；

e，查询数据来源；

返回查询结果。

与现有技术相比，本发明的有益效果是：

1.该一种基于知识图谱的多源数据差异溯源检索方法，通过知识图谱构建，解决知识获取困难和关系体现问题。为避免知识图谱结构关系和语义信息表达不充分。知识图谱构建前，在数据预处理阶段对层级结构提取。将数据预先分类，并赋予不同层级关系。实现知识图谱构建过程中对数据结构展示；通过获取不同来源的专业数据，并进行分析和整理，自顶向下地构建领域知识本体，然后对这些数据进行知识抽取和融合，使其知识语义信息更完备，从而构建知识图谱。

2.该一种基于知识图谱的多源数据差异溯源检索方法，通过知识溯源检索，解决知识图谱问题溯源困难。不仅实现对单一节点搜索，还实现对该节点的关系节点和源头路径展示。溯源检索模块针对专业数据具有量大、多层次、多维度、多来源、描述不一致等特点，构建知识图谱，以解决在大数据环境下，较大数量级数据的知识级表示和分析。在此基础上，结合语义和图结构进行溯源检索，帮助用户理解和分析数据间的关系。知识图谱存储到图数据库中，然后根据用户操作，可以实现对节点的溯源检索和对自然语言查询问句的溯源检索。最终将检索结果呈现给用户，帮助用户掌握不同来数据描述对象的来源以及之间的关系。

附图说明

图1为本发明的知识图谱构建与溯源技术流程示意图；

图2为本发明的知识抽取示意图；

图3为本发明的知识对齐示意图；

图4为本发明的溯源模块结构图；

图5为本发明的知识图谱数据检索与溯源的详细检索流程示意图；

图6为本发明的知识图谱展示技术流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本专利的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“设置”应做广义理解，例如，可以是固定相连、设置，也可以是可拆卸连接、设置，或一体地连接、设置。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本专利中的具体含义。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“若干”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1-图6所示，本发明提供的一种技术方案：

步骤S1中的知识提取使用开源软件包HanLP进行命名实体识别，识别的流程包括以下步骤：多源特征数据输入，数据获取，本体构建，知识抽取与融合，知识储存，特征知识图谱，数据处理，问题分类，溯源检索，结果呈现；

数据准备包括以下流程：专业知识图谱，数据预处理，收集问题描述语句，定义问题类别，选择特征构建特征词库，专业知识图谱，数据预处理，收集问题描述语句，定义问题类别，选择特征构建特征词库步骤依次进行；

贝叶斯分类器包括，问句样本集，70％训练样本，30％测试样本，训练得到分类模型，加载朴素贝叶斯分类模型，根据特征值对测试问句分类，得到分类标签；

问句样本集与收集问题描述语句连接；70％训练样本训练得到分类模型，30％测试样本与训练得到分类模型处理数据加载朴素贝叶斯分类模型，加载朴素贝叶斯分类模型连接得出根据特征值对测试问句分类，通过根据特征值对测试问句分类得到分类标签；

溯源查找，包括以下步骤；

b，句法语意分析；

d，通过贝叶斯分类器中得到分类标签，根据分类标签匹配问题模板，套用模板对应的Cypher语句；

e，查询数据来源；

f，返回查询结果。

构建具有层次结构性知识图谱，在传统构建技术上，在知识图谱构建过程中往往重点关注的是其语义信息的保留和局部结构信息的提取，在面对复杂关系时尤其面对具有层次结构关系时，传统技术往往无法实现对结构的保留，本专利则在面对层次结构数据进行知识构建时具有良好的表现，本技术可以实现层级化的知识图谱构建。在知识图谱溯源检索上，传统技术在面对复杂结构进行路径搜索时，往往容易陷入局部最优和路径闭环。本技术利用构建时的层次分布可以轻松的实现路径查找和节点溯源查询；

知识图谱构建，解决知识获取困难和关系体现问题。为避免知识图谱结构关系和语义信息表达不充分。知识图谱构建前，在数据预处理阶段对层级结构提取。将数据预先分类，并赋予不同层级关系。实现知识图谱构建过程中对数据结构展示；通过获取不同来源的专业数据，并进行分析和整理，自顶向下地构建领域知识本体，然后对这些数据进行知识抽取和融合，使其知识语义信息更完备，从而构建知识图谱。

知识溯源检索，解决知识图谱问题溯源困难。不仅实现对单一节点搜索，还实现对该节点的关系节点和源头路径展示。溯源检索模块针对专业数据具有量大、多层次、多维度、多来源、描述不一致等特点，构建知识图谱，以解决在大数据环境下，较大数量级数据的知识级表示和分析。在此基础上，结合语义和图结构进行溯源检索，帮助用户理解和分析数据间的关系。知识图谱存储到图数据库中，然后根据用户操作，可以实现对节点的溯源检索和对自然语言查询问句的溯源检索。最终将检索结果呈现给用户，帮助用户掌握不同来数据描述对象的来源以及之间的关系。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于知识图谱的多源数据差异溯源检索方法，其特征在于，包括以下步骤：

b，通过Django服务器，对Neo4j数据库进行请求，来获得图数据库中的各个节点的键值对信息，利用Jackjson包，将半结构化的map键值对数据转化为前端所需要的的Json数据，前端利用D3前端开发工具包实现对Json数据的渲染。

2.根据权利要求1所述的一种基于知识图谱的多源数据差异溯源检索方法，其特征在于：所述步骤S1中的知识提取使用开源软件包HanLP进行命名实体识别，识别的流程包括以下步骤：多源特征数据输入，数据获取，本体构建，知识抽取与融合，知识储存，特征知识图谱，数据处理，问题分类，溯源检索，结果呈现。

3.根据权利要求1所述的一种基于知识图谱的多源数据差异溯源检索方法，其特征在于：步骤S2中的知识图谱数据检索与溯源的详细检索流程包括：数据准备，贝叶斯分类器和溯源查找；

所述溯源查找，包括以下步骤；

b，句法语意分析；

e，查询数据来源；

f，返回查询结果。