CN117932089A

CN117932089A - 一种基于知识图谱的数据分析方法

Info

Publication number: CN117932089A
Application number: CN202410340913.1A
Authority: CN
Inventors: 夏有兵; 刘岱; 徐天成; 朱梓敬; 吴响
Original assignee: Nanjing University of Chinese Medicine; Xuzhou Medical University
Current assignee: Nanjing University of Chinese Medicine; Xuzhou Medical University
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-04-26

Abstract

本申请公开了一种基于知识图谱的数据分析方法，涉及知识图谱技术领域，包括：采集包含结构化数据和非结构化数据的多个不同来源的数据集并进行预处理；采用基于模式匹配的数据集成方法，换成格式和结构统一的数据集；提取数据集中的实体和关系，建立知识图谱，作为第一知识图谱；获取第一知识图谱的实体三元组和关系三元组；构建图神经网络；构建连接度矩阵，计算实体三元组和关系三元组与图神经网络之间的连接概率；根据连接概率，连接第一知识图谱和训练后的图神经网络，生成概率知识图谱；利用概率知识图谱对数据集进行分析。针对现有技术中领域知识关联性低的问题，本申请通过图神经网络进行知识关联优化等，提高了领域知识的关联性。

Description

一种基于知识图谱的数据分析方法

技术领域

本申请涉及知识图谱技术领域，更具体地说，涉及一种基于知识图谱的数据分析方法。

背景技术

在当今信息爆炸的时代，大量数据被生成和积累，但其中许多数据分散在不同的源头，形成了信息孤岛。这种数据的碎片化导致了领域知识的碎片化和关联性不足的问题。传统的数据分析方法往往难以有效地将这些碎片化的知识联系起来，从而限制了数据的价值挖掘和应用。

在数据集成方面，传统方法主要依赖于手工编写的规则或者基于相似度的匹配，这种方法往往效率低下且无法处理数据之间的语义关联。此外，在实体关系抽取方面，传统的基于规则或模板的方法局限于特定领域或语言，难以适应多样化和复杂化的数据。而在图神经网络的应用方面，传统的方法往往只注重图的拓扑结构，忽略了实体与实体之间的语义关联。因此，现有技术中存在着领域知识关联性低的问题，需要一种更加智能和高效的方法来解决这一挑战。

中国专利申请，申请号CN202010756119.7，公开日2020年11月17日，公开了一种多模态数据融合的医疗知识图谱智能自动构建系统和方法，涉及知识图谱领域。本发明通过对预处理后的语料数据进行知识抽取，构建三元组数据，得到语料数据集；对语料数据集采用混合式方法进行实体属性扩充；对扩充后的语料数据集中的不同类别的实体属性按不同的方式进行实体属性值融合；计算实体属性值融合后的语料数据集中的各个病症属性的权重；对三元组数据中的实体设置约束条件，将三元组数据、约束条件和各个病症属性的权重存储到Neo4j图数据库中。但是该方案中知识抽取仅针对预处理后的语料数据进行，来源单一，因此该方案的领域知识关联性有待进一步提高。

发明内容

1.要解决的技术问题

针对现有技术中存在的领域知识关联性低的问题，本申请提供了一种基于知识图谱的数据分析方法，通过图神经网络进行知识关联优化等，提高了领域知识的关联性。

2.技术方案

本申请的目的通过以下技术方案实现。

本说明书实施例提供一种基于知识图谱的数据分析方法，包括：采集包含结构化数据和非结构化数据的多个不同来源的数据集，对获取的数据集进行预处理；采用基于模式匹配的数据集成方法，将预处理后的数据集转换成格式和结构统一的数据集，并存储到关系数据库中；提取数据集中的实体和关系，根据提取的实体和关系建立知识图谱，作为第一知识图谱；根据第一知识图谱，通过实体识别和关系抽取，获取第一知识图谱的实体三元组和关系三元组，实体三元组表示实体及其属性，关系三元组表示实体之间的关系及其属性；构建图神经网络，利用获取的实体三元组和关系三元组训练构建的图神经网络；构建连接度矩阵，计算实体三元组和关系三元组与图神经网络之间的连接概率；根据连接概率，连接第一知识图谱和训练后的图神经网络，生成概率知识图谱；利用概率知识图谱对数据集进行分析。

其中，模式匹配的数据集成方法：这是一种用于整合不同来源、格式和结构的数据的方法。它通过定义数据模式（即数据的结构和格式），然后在数据集中查找与这些模式匹配的数据，从而实现数据的集成和统一。在本申请中，模式匹配用于将预处理后的不同来源的数据转换为格式和结构一致的数据集。关系数据库是一种以表格形式组织数据的数据库，表格中的每一行表示一个实体，每一列表示实体的一个属性。表格之间可以通过共享的属性建立关联。在本申请中，统一格式和结构的数据集被存储到关系数据库中，为后续的知识图谱构建提供数据基础。

其中，实体三元组是知识图谱中表示实体及其属性的基本单元，由（实体，属性，属性值）组成。例如，（“张三”，“年龄”，“25岁”）就是一个实体三元组。在本申请中，通过对关系数据库中的数据进行实体识别和属性提取，获得实体三元组。关系三元组是知识图谱中表示实体之间关系的基本单元，由（实体1，关系，实体2）组成。例如，（“张三”，“朋友”，“李四”）就是一个关系三元组。在本申请中，通过对关系数据库中的数据进行关系抽取，获得关系三元组。

其中，图神经网络是一种专门用于处理图结构数据的神经网络模型。它可以学习图中节点的特征表示，以及节点之间的关系。在本申请中，利用获得的实体三元组和关系三元组训练图神经网络，使其能够捕捉知识图谱中的实体和关系的语义信息。概率知识图谱是一种在传统知识图谱的基础上，为实体、属性和关系添加概率信息的知识图谱。它可以表示知识的不确定性和多样性。在本申请中，通过计算实体三元组和关系三元组与图神经网络的连接概率，然后根据概率连接第一知识图谱和图神经网络，生成概率知识图谱，用于后续的数据分析任务。

进一步的，采用基于模式匹配的数据集成方法，包括：分析不同来源的数据集的表结构，提取每个数据集的结构特征，结构特征包含表名称、列名称和列数据类型；比较不同数据集的结构特征；获取列名称和列数据类型一致的数据集，作为结构特征相同的数据集；获取列名称一致且数据类型不一致的数据集，作为结构特征的数据集。

进一步的，采用基于模式匹配的数据集成方法，还包括：分析不同数据集的数据内容，提取每个数据集的数据语义特征，数据语义特征包含数据的值域范围；比较不同数据集的数据语义特征，获取值域范围存在交集的数据集作为数据语义特征的数据集；将获取的结构特征相同或相近且数据语义特征的数据集，进行集成，生成结构和语义统一的数据集。

其中，数据语义特征是指数据所蕴含的意义和内容的特征。它不仅包括数据的结构和格式，还包括数据的值域范围、数据间的关联关系、数据所表示的实体或概念等。数据语义特征可以帮助理解数据的内在含义，发现不同数据集之间的语义相似性和关联性。

具体的，对每个数据集进行分析，提取其数据语义特征。这里特别提到了值域范围，即数据集中每个属性的取值范围。值域范围可以帮助判断不同数据集中的属性是否具有可比性和关联性。例如，如果两个数据集中都有“年龄”属性，并且其值域范围都是0-120，那么这两个数据集在“年龄”属性上可能具有语义相似性。将不同数据集的数据语义特征进行比较，特别是值域范围的比较。如果两个数据集的某些属性的值域范围存在交集，那么这两个数据集在这些属性上可能具有语义关联性。通过这种比较，可以找出在语义上相似或相关的数据集。对于结构特征相同或相近（即数据格式和组织方式相似），且数据语义特征存在关联性的数据集，进行集成，生成结构和语义统一的数据集。这样集成后的数据集不仅在格式和结构上一致，而且在语义上也具有相关性和可比性，为后续的数据分析和知识图谱构建提供了更好的数据基础。

进一步的，构建的图神经网络，包括：设置输入层，输入层为获取的实体三元组和关系三元组；设置隐藏层，采用编码器和解码器框架或者图卷积网络框架，用于获取实体三元组和关系三元组的特征向量表示；设置输出层，输出实体三元组和关系三元组的特征向量表示。

具体的，输入层接收获取的实体三元组和关系三元组数据。这些三元组数据表示了知识图谱中的实体、属性和关系。输入层的作用是将这些三元组数据传递给后续的隐藏层进行处理。隐藏层是图神经网络的核心部分，其主要作用是学习实体三元组和关系三元组的特征表示。这里提供了两种可选的框架：编码器－解码器框架和图卷积网络框架。在这个框架下，编码器将输入的三元组数据映射到一个低维的特征空间，学习其压缩表示。然后，解码器根据编码器生成的压缩表示，重构出原始的三元组数据。通过这种自编码的过程，网络可以学习到三元组数据的高层次特征表示。

图卷积网络是专门用于处理图结构数据的卷积神经网络。它通过聚合节点的邻居信息来更新节点的特征表示。在这个框架下，实体和关系被视为图中的节点，三元组则表示节点之间的边。图卷积网络通过迭代地聚合节点的邻居信息，学习节点的特征表示，从而捕捉实体和关系之间的语义信息。输出层接收隐藏层学习到的实体三元组和关系三元组的特征向量表示。这些特征向量表示了实体和关系的语义信息，可以用于后续的任务，如链接预测、实体分类、关系预测等。输出层的具体形式取决于具体的任务和应用场景。

进一步的，训练图神经网络，包括：设置损失函数L，损失函数L包含实体预测损失和关系预测损失/>；输入连接度矩阵，迭代更新图神经网络的参数，最小化损失函数L，得到实体三元组和关系三元组的特征向量表示。

其中，连接度矩阵，也称为邻接矩阵，是图论中用于表示图的结构信息的一种矩阵。对于一个有n个节点的图，其连接度矩阵是一个n×n的方阵。矩阵中的元素表示节点之间的连接关系：如果节点i和节点j之间有边相连，则矩阵的（i，j）位置的值为1（或边的权重），否则为0。在知识图谱的上下文中，连接度矩阵可以用来表示实体之间的关系。每个实体可以看作图中的一个节点，实体之间的关系可以看作节点之间的边。连接度矩阵可以直观地表示实体之间的连接模式，揭示知识图谱的结构信息。

具体的，在训练图神经网络时，将连接度矩阵作为输入。这个矩阵携带了知识图谱的结构信息，告诉网络哪些实体之间存在关系。通过输入连接度矩阵，网络可以在学习实体和关系的语义表示时，考虑到实体之间的连接模式，从而得到更准确、更全面的表示。图神经网络的核心思想是通过消息传递和聚合来更新节点的表示。连接度矩阵在这个过程中起到了关键的作用。网络根据连接度矩阵来确定信息传递的路径，即确定每个节点应该与哪些邻居节点进行信息交互。通过连接度矩阵指定的连接关系，网络可以有效地聚合每个节点的邻居信息，更新节点的表示。连接度矩阵不仅表示了直接的边的连接关系，还可以揭示高阶的、间接的实体关系。通过对连接度矩阵进行幂运算，可以得到描述多跳关系的矩阵。例如，连接度矩阵的平方可以表示两个节点通过一个中间节点相连的关系。将这种高阶关系矩阵输入到图神经网络中，可以帮助网络捕捉到更复杂、更长程的实体关系模式。在训练图神经网络时，通过最小化损失函数来更新网络参数。连接度矩阵在这个过程中起到了引导作用。网络根据连接度矩阵来确定哪些参数需要更新，以及更新的方向和大小。通过考虑实体之间的连接关系，网络可以更有针对性地调整参数，使得学习到的实体和关系表示更加准确和有效。

进一步的，

式中，L为总损失函数，为关系预测的损失函数，/>为实体预测的损失函数，A为知识图谱中实体三元组和关系三元组的集合，/>是集合A的/>的标签；/>为集合A的/>的评分函数，T为关系集合，Y是实体集合，K是实体标签的总类别，/>是第i个实体通过图神经网络输出的第k个类别的概率，/>是第i个实体的真实类别。

具体的，A代表的是知识图谱中的全部三元组的集合，包括两部分：实体三元组的集合，表示为（头实体，属性，尾实体），关系三元组的集合，表示为（头实体，关系，尾实体）。即A包含知识图谱中所有抽取出来的实体三元组和关系三元组。损失函数L1针对的是关系三元组，用于评估关系预测的损失。损失函数L2针对的是实体三元组，用于评估实体预测的损失。总损失函数L是L1和L2的求和，综合反映了关系预测和实体预测的损失。A代表的是整个知识图谱的三元组集合，包括了实体三元组和关系三元组。

L表示了图神经网络的总损失，它由两部分组成：关系预测的损失和实体预测的损失。通过最小化总损失函数，可以训练图神经网络，使其能够更好地捕捉知识图谱中的实体和关系的语义信息。关系预测损失：表示了关系预测任务的损失函数。其中，A为知识图谱中实体三元组和关系三元组的集合，是集合A中第i个三元组的真实关系标签，是网络对第i个三元组的关系的评分函数，T为关系集合。这个损失函数衡量了网络对实体之间关系的预测能力。通过最小化这个损失函数，网络可以学习到更准确的关系表示。

实体预测损失：表示了实体预测任务的损失函数。其中，Y是实体集合，K是实体标签的总类别，是第i个实体通过图神经网络输出的第k个类别的概率，是第i个实体的真实类别。这个损失函数衡量了网络对实体类别的预测能力。通过最小化这个损失函数，网络可以学习到更准确的实体表示。在总损失函数L中，关系预测损失和实体预测损失通过超参数和来平衡。这两个超参数控制了两个任务在总损失中的权重。通过调节这两个超参数，可以使网络在关系预测和实体预测两个任务上达到最优的平衡，从而获得更好的整体性能。

进一步的，构建反映实体三元组之间和实体三元组与关系三元组之间的连接强度的连接度矩阵；将连接度矩阵作为图神经网络的输入，计算损失函数L，通过反向传播算法迭代更新图神经网络的参数，以使损失函数L最小化，获得实体三元组和关系三元组的特征向量表示。

进一步的，基于获得的特征向量表示计算连接概率，包括：计算第一知识图谱中的实体三元组与训练后的图神经网络输出层输出的关系三元组的特征向量之间的余弦相似度，作为第一知识图谱中实体三元组与图神经网络中关系三元组之间的连接概率。

具体的，通过训练图神经网络，得到了实体三元组和关系三元组的特征向量表示。这些特征向量蕴含了实体和关系的语义信息，捕捉了它们在知识图谱中的角色和模式。对于第一知识图谱中的每个实体三元组，可以通过查找或向前传播的方式，从图神经网络的输出层得到其对应的特征向量表示。同样，对于图神经网络输出层输出的每个关系三元组，直接获取其特征向量表示。有了实体三元组和关系三元组的特征向量表示后，计算第一知识图谱中每个实体三元组与图神经网络输出的每个关系三元组之间的余弦相似度。余弦相似度是一种常用的度量两个向量之间相似性的方法。它通过计算两个向量之间的夹角的余弦值来衡量它们的相似程度。余弦相似度的取值范围在-1到1之间，值越大表示两个向量越相似。具体来说，对于第一知识图谱中的实体三元组i和图神经网络输出的关系三元组j，它们的余弦相似度可以表示为：cos_sim（i，j）=（i（j）/（||i||*||j||），其中，i和j分别是实体三元组i和关系三元组j的特征向量，（表示向量点积，||i||和||j||表示向量的模。将计算得到的余弦相似度作为第一知识图谱中实体三元组与图神经网络中关系三元组之间的连接概率。如果一个实体三元组的特征向量与某个关系三元组的特征向量非常相似（余弦相似度高），那么它们很可能在语义上是相关的，在知识图谱中应该存在连接。反之，如果两个三元组的特征向量差异很大（余弦相似度低），那么它们在语义上可能是不相关的，在知识图谱中连接的概率也较低。

进一步的，利用概率知识图谱对数据集进行分析，包括：从概率知识图谱中，根据由实体三元组和关系三元组构成的结点和边，进行模糊查询，获取候选数据集；对候选数据集进行特征提取，得到数据特征矩阵；基于用户的历史行为数据构建用户特征矩阵；计算数据特征矩阵与用户特征矩阵的相似度，作为候选数据的推荐得分；根据推荐得分对候选数据集行排序；得到排名最高的候选数据集作为推荐结果。

其中，模糊查询是一种允许查询条件存在不确定性或不完整性的查询方式。与传统的精确查询不同，模糊查询可以在查询条件不完全匹配的情况下，返回相关的、可能满足查询意图的结果。在本申请中，从概率知识图谱中进行模糊查询。概率知识图谱中的结点和边分别对应实体三元组和关系三元组，它们携带了实体和关系的语义信息以及不确定性。通过模糊查询，可以根据用户的查询意图，找到与之相关的、可能满足查询需求的候选数据集。模糊查询允许在实体和关系的语义空间中进行近似匹配，发现潜在的、隐含的相关数据。这种查询方式更加灵活和鲁棒，可以处理查询条件的不确定性和变化，提高数据分析的recall。

数据特征矩阵是一种用于表示数据集特征的矩阵。在该矩阵中，每一行对应一个数据样本，每一列对应一个特征维度。矩阵中的元素表示每个数据样本在不同特征维度上的取值。在本申请中，对候选数据集进行特征提取，得到数据特征矩阵。这一步的目的是将候选数据集转化为结构化的、可计算的特征表示。可以从数据的内容、元数据、结构等多个角度提取特征，构建全面的数据特征矩阵。数据特征矩阵提供了一种紧凑的、数值化的方式来表示候选数据集的特征。它为后续的相似度计算和排序奠定了基础。通过对数据特征矩阵的分析，可以刻画候选数据集的特点，发现数据之间的相似性和差异性。

用户特征矩阵是一种用于表示用户特征的矩阵。与数据特征矩阵类似，用户特征矩阵的每一行对应一个用户，每一列对应一个用户特征维度。矩阵中的元素表示每个用户在不同特征维度上的取值。在本申请中，基于用户的历史行为数据构建用户特征矩阵。历史行为数据可以包括用户的搜索记录、浏览记录、点击记录等。通过分析这些行为数据，可以提取出反映用户兴趣、偏好、需求的特征，构建全面的用户画像。

具体的，首先从概率知识图谱中，根据实体三元组和关系三元组构成的结点和边，进行模糊查询。这一步利用了知识图谱的语义信息和概率信息，找到与查询意图相关的候选数据集。对候选数据集进行特征提取，得到数据特征矩阵。这一步将非结构化的候选数据转化为结构化的特征表示，为后续的分析提供了便利。基于用户的历史行为数据构建用户特征矩阵。这一步通过分析用户的行为模式，刻画用户的兴趣和偏好，为个性化推荐提供了依据。计算数据特征矩阵与用户特征矩阵的相似度，作为候选数据的推荐得分。这一步衡量了每个候选数据与用户的匹配程度，得到个性化的推荐结果。根据推荐得分对候选数据集进行排序。这一步将候选数据按照与用户的相关性进行排序，得到最终的推荐结果。得到排名最高的候选数据集作为推荐结果。这一步输出了与用户最相关、最匹配的数据，实现了个性化的数据推荐。

进一步的，推荐得分的计算公式为：

式中，为第j个数据特征矩阵的推荐得分，/>为第j个数据特征矩阵，/>为第m个用户特征矩阵，M为用户特征矩阵的数量，/>为/>的维度，/>为/>的维度，/>为元素积。

3.有益效果

相比于现有技术，本申请的优点在于：

（1）通过基于模式匹配的数据集成方法，实现不同数据源的结构化集成，并考虑数据语义特征的相似性，从而提高数据间的关联性；

（2）利用实体识别和关系抽取技术，从集成的数据中提取实体和关系，建立知识图谱，使领域内的关联信息得以表达和利用；

（3）通过构建图神经网络，并利用连接度矩阵计算实体与关系的连接概率，进一步强化知识图谱中实体之间的关联性；

（4）利用概率知识图谱进行数据集推荐和分析，通过计算连接概率，提高数据集推荐的准确性和针对性，从而增强领域知识的关联性。

附图说明

图1为本申请的一种基于知识图谱的数据分析方法的示例性结构图。

具体实施方式

下面结合说明书附图和具体的实施例，对本申请作详细描述。

实施例1

图1为本申请的一种基于知识图谱的数据分析方法的示例性结构图，第一方面：针灸手法数据预处理，基于数据类型确定与待分类数据匹配的数据分类模型，得到匹配分类模型。在本实施例中，服务器基于数据类型在预设的模型库中确定与待分类数据匹配的数据分类模型，得到匹配分类模型，其中，模型库中的模型至少包括决策树模型和支持向量机，通过匹配合适的数据分类模型，可以提高数据分类的准确性。将待分类数据导入到匹配分类模型中，得到初始分类数据。在本实施例中，服务器提取待分类数据的数据特征后，将待分类数据的数据特征导入到匹配分类模型中，得到初始分类数据。

进一步地，数据分类模型包括决策树模型和支持向量机，当匹配分类模型为决策树模型时，将待分类数据导入到匹配分类模型中，得到初始分类数据，具体包括：对待分类数据进行预处理，其中，预处理包括数据去重、缺失值处理、数值标准化；对完成预处理的待分类数据进行特征提取，得到第一数据特征；加载预先训练好的决策树模型，并将第一数据特征导入决策树模型，获取决策树模型输出的分类标签；根据分类标签对待分类数据进行分类，得到初始分类数据。

在本实施例中，首先，对待分类数据进行预处理，其中，预处理包括数据去重、缺失值处理、数值标准化。然后，将待分类数据进行特征提取，提取出能够描述数据特征的属性，将待分类数据的特征与决策树模型中的特征进行匹配，从根节点开始，根据待分类数据的特征值与决策树节点的条件进行比较，根据匹配结果选择相应的子节点，这个过程会一直持续，直到达到叶节点，得到决策树的最终分类结果，即分类标签，根据决策树的分类决策路径，将待分类数据分配给相应的类别标签，完成待分类数据的分类，得到初始分类数据。

需要说明的是，决策树模型是由训练数据学习到的一系列特征条件和决策规则组成的，因此需要确保待分类数据的特征与决策树模型的特征一致。决策树模型通过一系列的特征条件和决策规则对待分类数据进行分类，可以将待分类数据归入不同的类别或进行二分类决策。

在本申请一种具体的实施例中，假设有一些数据集针灸手法数据，其中包含以下字段：平刺、15°、30mm，捻转，2寸，30min，7壮等，通过使用决策树模型对这些针刺手法数据进行分类。确定待选结果集，获取针灸手法数据并提取手法数据中的患者关键信息。在本步骤中，针灸手法数据包括：针刺手法数据、治疗疗程数据，艾灸手法数据。其中针刺手法数据包括：针刺手法名称、行针辅助手法名称、补泻手法名称、针刺方向、针刺角度、针刺深度、针刺力度、捻转方向、捻转力度、手法频率。治疗疗程数据包括：是否留针、留针时长、艾灸时长、治疗频率、治疗疗程。艾灸手法数据包括：艾灸方法名称、艾灸壮数。利用预设检索模型，确定待选结果集。

在本步骤中，待选结果集中包括至少一种待选数据结果，利用预设神经网络模型，对触发时间之后的数据集进行特征提取，确定多个词向量。通过分词处理，可以将针灸手法中的文本信息转化为离散的词语表示，使得每个词语都可以被独立地表示和处理。语义编码器的作用是将分词处理后的文本数据转化为语义理解特征向量，将文本序列映射为低维的语义空间表示。这样可以将文本的语义信息编码为连续的向量表示，捕捉文本之间的语义相似性和关联性。将词向量合成检索子图，并将检索子图与知识图谱进行匹配，确定多个匹配实体以及对应的匹配度。将匹配度大于或等于预设阈值的匹配实体组合成待选诊断结果集。

针灸手法知识图谱，S1获取领域知识，根据领域知识和针灸手法数据的特点设计知识图谱模型；S2调用数据库将整合的两种数据导入知识图谱模型中，根据知识图谱模型将两种数据转换为知识图谱的节点和边，形成第一知识图谱；S3构建图神经网络模型，将第一知识图谱输入图神经网络模型中进行优化，得到优化后的第二知识图谱；S4利用第二知识图谱对数据进行管理，包括质量检查和修复、语义查询和分析、数据推荐。

在上述技术方案的基础上，进一步的，步骤S1包括：S11获取结构化数据和非结构化数据，对结构化数据和非结构化数据进行数据清洗，包括去除重复数据、处理缺失数据、处理异常数据、明确数据特点；S12采用基于匹配的数据集成方法将格式转换后的结构化数据和非结构化数据进行数据集成，包括数据模式一致化、去除数据冗余和解决数据冲突；S13将数据集成后的结构化数据和非结构化数据存储于数据库中。

在上述技术方案的基础上，进一步的，步骤S2包括：S21获取领域知识，包括确定知识图谱所覆盖的范围、收集领域资料和获取领域专家的建议；S22对针灸手法数据的特点进行分析，包括分析针灸手法数据的类型、分析针灸手法数据的结构，分析后得到针灸手法数据的类型特点和限制、针灸手法数据的属性和关系；S23根据针灸手法数据的特点和领域知识，确定知识图谱中的实体类型和关系类型，并选择知识表示方式来表示知识图谱中的实体和关系；S24设计查询语言和推理机制，采用基于模板的方式构建得到知识图谱模型。

在上述技术方案的基础上，进一步的，步骤S3包括：S31使用连接工具连接至数据库，根据查询语言编写查询语句对针灸手法数据进行提取；S32将提取的针灸手法数据按照知识图谱模型所需的格式，进行实体识别和关系抽取，形成实体和关系的三元组，其中，三元组中的实体和关系均包含属性；S33将针灸手法数据的三元组导入知识图谱模型中，实体和关系分别对应添加至知识图谱的节点和边；S34使用查询语言检查知识图谱是否构建完成，若没有，则返回步骤S31，重新提取针灸手法数据，若构建完成，则执行步骤S35；S35选择验证查询语句，利用验证查询语句来验证针灸手法数据是否被正确导入知识图谱模型中，若验证通过，则得到第一知识图谱，若验证不通过，则返回步骤S32，重新生成针灸手法数据的三元组。

在上述技术方案的基础上，进一步的，步骤S4包括：S41将第一知识图谱输入图神经网络模型，将知识图谱中的实体和关系表示为图将属性表示为节点或边的属性信息；S42对第一知识图谱中的各个节点和边，采用编码方法为每个节点和边分配唯一标识符，将节点、边和属性信息采用词嵌入方法转化为节点向量、边向量和属性特征矩阵；S43采用采样策略对单个节点进行邻居节点选择，得到邻居节点集，将邻居节点集进行嵌入表示，并拼接为一个邻居节点矩阵；S44根据采样策略获取该节点与邻居节点之间的连接信息，将连接信息编码为连接矩阵；S45将该节点的节点向量与邻居节点矩阵和连接矩阵进行融合，得到融合后的节点表达；S46将该节点相关的边向量与连接矩阵进行融合，得到融合后的边表达；S47重复步骤S43-S46，对知识图谱完成优化，得到优化后的第二知识图谱。

在上述技术方案的基础上，进一步的，图神经网络模型包括预训练过程，在预训练过程中，图神经网络模型的损失函数为：

式中，L为总损失函数，为关系预测的损失函数，/>为实体预测的损失函数，A为知识图谱中实体三元组和关系三元组的集合，/>是集合A的/>的标签；为集合A的/>的评分函数，T为关系集合，Y是实体集合，K是实体标签的总类别，/>是第i个实体通过图神经网络输出的第k个类别的概率，/>是第i个实体的真实类别。

在上述技术方案的基础上，进一步的，步骤S5中，利用第二知识图谱对针灸手法数据进行质量检查和修复包括：

数据准确性：通过比较第二知识图谱中的针灸手法数据与其来源数据源或领域知识，基于第一质量指标检查实体、属性和关系的准确性，若准确性未达到第一质量指标，则根据领域知识或领域规则对准确性进行修复；

数据完整性：基于第二质量指标检查第二知识图谱中是否存在缺失的实体、属性或关系，若完整性未达到第二质量指标，则根据来源数据源或领域知识补充缺失的内容，对完整性进行修复；数据一致性：通过不同数据源之间的针灸手法数据，基于第三质量指标检查针灸手法数据的一致性，若一致性未达到第三质量指标，则根据修复算法对一致性进行修复。

在上述技术方案的基础上，进一步的，步骤S5中，利用第二知识图谱对针灸手法数据进行语义查询和分析包括：确定查询目标，根据查询目标构建查询语句，将查询语句提交给知识图谱的查询引擎执行查询操作，得到查询结果；解析查询结果，得到查询信息，包括查询需要的实体、属性或关系的取值；

在上述技术方案的基础上，进一步的，步骤S5中，利用第二知识图谱对针灸手法数据进行数据推荐包括：获取用户需求，用户需求包括用户偏好和查询条件。首先需要获取用户的需求，包括用户的偏好和查询条件。用户的偏好可以通过用户的历史行为数据和历史标签数据进行分析和提取，查询条件可以是用户提供的具体要求或者系统预设的默认条件。根据查询条件在第二知识图谱中进行模糊查询，得到候选数据；根据用户提供的查询条件，在第二知识图谱中进行模糊查询，得到一组候选数据。模糊查询可以根据用户提供的关键词或者属性条件进行匹配和筛选。用户偏好包括用户历史行为数据、用户历史标签数据，将用户历史行为数据和用户历史标签数据进行合并和向量化，得到用户特征矩阵。用户特征矩阵为二维向量。将用户的历史行为数据和历史标签数据进行合并和向量化，得到用户的特征矩阵。用户特征矩阵可以表示用户的偏好和兴趣，用于计算推荐得分。对候选数据进行特征提取，得到数据特征矩阵。对候选数据进行特征提取，将候选数据转化为特征矩阵。特征可以包括数据的属性、关系、标签等，通过对特征的提取和编码，将候选数据转化为可计算的矩阵形式。数据特征矩阵为三维向量。

利用数据特征矩阵对每个数据特征矩阵计算推荐得分，根据推荐得分对候选数据进行排序，得到第一推荐结果，其中，推荐得分的计算公式为：

式中，为第j个数据特征矩阵的推荐得分，/>为第j个数据特征矩阵，/>为第m个用户特征矩阵，M为用户特征矩阵的数量，/>为/>的维度，/>为/>的维度，/>为元素积。根据过滤规则对第一推荐结果进行过滤，得到最终的推荐结果。

另一方面，本发明还提供一种基于知识图谱技术的针灸手法数据管理系统，包括：数据获取模块，其配置为获取针灸手法数据，并将针灸手法数据进行处理和整合后存储于数据库；知识图谱模块，其配置为获取领域知识，根据领域知识和针灸手法数据的特点设计知识图谱模型，并调用数据库将针灸手法数据导入知识图谱模型中，形成第一知识图谱，之后利用图神经网络模型对第一知识图谱进行优化，得到第二知识图谱；数据管理模块，其配置为利用第二知识图谱对针灸手法数据进行质量检查和修复、语义查询和分析、数据推荐，并对管理的内容和结果进行可视化展示，对针灸手法数据进行全程监控；数据更新模块，其配置为与数据获取模块和知识图谱模块相连，用于获取新的多源数据，并将新的针灸手法数据传输至数据获取模块进行处理和整合，之后返回整合后的数据并传至知识图谱模块，将新的针灸手法数据导入第一知识图谱中进行更新和再次优化。

实施例2

本申请提供了一种基于知识图谱的针灸手法处理方法及系统。通过获取各类针灸医案、文献中记录的内容提取针灸手法数据。不仅能自动识别、筛选针灸手法，量化针灸手法，还可以将针灸手法的数据进行拆分与整合，形成新的知识图谱，用以开展智能化研究。为解决上述问题，本申请提供了一种针灸手法的数据处理方法，包括如下步骤：

第一方面，本申请提供了一种针灸手法的数据处理方法，所述方法包括：获取针灸手法数据集；对待分类数据进行预处理，其中，预处理包括数据去重、缺失值处理、数值标准化。然后，将待分类数据进行特征提取，提取出能够描述数据特征的属性，将待分类数据的特征与决策树模型中的特征进行匹配，从根节点开始，根据待分类数据的特征值与决策树节点的条件进行比较，根据匹配结果选择相应的子节点，这个过程会一直持续，直到达到叶节点，得到决策树的最终分类结果，即分类标签，根据决策树的分类决策路径，将待分类数据分配给相应的类别标签，完成待分类数据的分类，得到初始分类数据。

第二方面：利用预设检索模型，确定待选结果集；根据待选结果集，确定预设检索模型的预测评价值；若预测评价值低于预设阈值，则根据数据信息，调整预设检索模型的参数，直至预测评价值大于或等于预设阈值。在一种可能的设计中，利用预设检索模型，根据针灸手法数据，确定待选结果集，包括：提取针灸手法数据中的文本信息；并利用预设神经网络模型对文本进行特征提取，得到多个词向量；将词向量组合成检索子图，并将检索子图与知识图谱进行匹配，确定多个匹配实体以及对应的匹配度；将匹配度大于或等于预设阈值的匹配实体组合成待选诊断结果集。

第三方面，本申请提供一种将非标准化的针灸手法数据存储于数据库；获取领域知识，根据领域知识和针灸手法数据的特点设计知识图谱模型；调用数据库将数据导入知识图谱模型中，根据知识图谱模型将两种数据转换为知识图谱的实体和关系，形成第一知识图谱；构建图神经网络模型，将第一知识图谱输入图神经网络模型中进行优化，得到优化后的第二知识图谱；利用第二知识图谱对数据进行管理，包括质量检查和修复、语义查询和分析。

实施例3

将本申请用于针灸中，例如数据集中“采用0.35mm×40mm一次性无菌针灸针，百会向后平刺30mm，认知情感区沿额部皮肤从下向上沿帽状腱膜平刺30mm，语言一区、语言二区从上至下平刺约30mm，以上头针行经颅重复针刺手法；风池选取0.30mm×75mm一次性毫针，横向平刺进针透刺对侧风池；太冲、合谷直刺10～20mm；金津、玉液点刺不留针；哑门直刺20～30mm，不可向上深刺；廉泉、地仓、后溪、通里、神门直刺10～20mm。诸穴捻转得气后，连接KWD-808I型电针仪，认知情感区左右两针连接1组电极，同侧语言一区、语言二区连接1组电极，双侧风池连接1组电极，连续波，10Hz，每次30min，每日1次，每周治疗5次。”要将其分为“针刺手法模块：向后、平刺、30mm、沿额部皮肤从下向上沿帽状腱膜、横向、透刺、直刺、点刺不留针、捻转得气。治疗疗程模块：每次30min、每日1次、每周治疗、5次。”

以上示意性地对本申请创造及其实施方式进行了描述，该描述没有限制性，在不背离本申请的精神或者基本特征的情况下，能够以其他的具体形式实现本申请。附图中所示的也只是本申请创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种基于知识图谱的数据分析方法，包括：

采集包含结构化数据和非结构化数据的多个不同来源的数据集，对获取的数据集进行预处理；

采用基于模式匹配的数据集成方法，将预处理后的数据集转换成格式和结构统一的数据集，并存储到关系数据库中；

提取数据集中的实体和关系，根据提取的实体和关系建立知识图谱，作为第一知识图谱；

根据第一知识图谱，通过实体识别和关系抽取，获取第一知识图谱的实体三元组和关系三元组，实体三元组表示实体及其属性，关系三元组表示实体之间的关系及其属性；

构建图神经网络，利用获取的实体三元组和关系三元组训练构建的图神经网络；

构建连接度矩阵，计算实体三元组和关系三元组与图神经网络之间的连接概率；

根据连接概率，连接第一知识图谱和训练后的图神经网络，生成概率知识图谱；

利用概率知识图谱对数据集进行分析。

2.根据权利要求1所述的基于知识图谱的数据分析方法，其特征在于：

采用基于模式匹配的数据集成方法，包括：

分析不同来源的数据集的表结构，提取每个数据集的结构特征，结构特征包含表名称、列名称和列数据类型；

比较不同数据集的结构特征；

获取列名称和列数据类型一致的数据集，作为结构特征相同的数据集；

获取列名称一致且数据类型不一致的数据集，作为结构特征的数据集。

3.根据权利要求2所述的基于知识图谱的数据分析方法，其特征在于：

采用基于模式匹配的数据集成方法，还包括：

分析不同数据集的数据内容，提取每个数据集的数据语义特征，数据语义特征包含数据的值域范围；

比较不同数据集的数据语义特征，获取值域范围存在交集的数据集作为数据语义特征的数据集；

将获取的数据语义特征的数据集，进行集成，生成结构和语义统一的数据集。

4.根据权利要求1至3任一所述的基于知识图谱的数据分析方法，其特征在于：

构建的图神经网络，包括：

设置输入层，输入层为获取的实体三元组和关系三元组；

设置隐藏层，采用编码器和解码器框架或者图卷积网络框架，用于获取实体三元组和关系三元组的特征向量表示；

设置输出层，输出实体三元组和关系三元组的特征向量表示。

5.根据权利要求4所述的基于知识图谱的数据分析方法，其特征在于：

训练图神经网络，包括：

设置损失函数L，损失函数L包含实体预测损失和关系预测损失/>；

输入连接度矩阵，迭代更新图神经网络的参数，最小化损失函数L，得到实体三元组和关系三元组的特征向量表示。

6.根据权利要求5所述的基于知识图谱的数据分析方法，其特征在于：

7.根据权利要求5所述的基于知识图谱的数据分析方法，其特征在于：

构建反映实体三元组之间和实体三元组与关系三元组之间的连接强度的连接度矩阵；

将连接度矩阵作为图神经网络的输入，计算损失函数L，通过反向传播算法迭代更新图神经网络的参数，以使损失函数L最小化，获得实体三元组和关系三元组的特征向量表示。

8.根据权利要求7所述的基于知识图谱的数据分析方法，其特征在于：

基于获得的特征向量表示计算连接概率，包括：

计算第一知识图谱中的实体三元组与训练后的图神经网络输出层输出的关系三元组的特征向量之间的余弦相似度，作为第一知识图谱中实体三元组与图神经网络中关系三元组之间的连接概率。

9.根据权利要求8所述的基于知识图谱的数据分析方法，其特征在于：

利用概率知识图谱对数据集进行分析，包括：

从概率知识图谱中，根据由实体三元组和关系三元组构成的结点和边，进行模糊查询，获取候选数据集；

对候选数据集进行特征提取，得到数据特征矩阵；

基于用户的历史行为数据构建用户特征矩阵；

计算数据特征矩阵与用户特征矩阵的相似度，作为候选数据的推荐得分；

根据推荐得分对候选数据集行排序；

得到排名最高的候选数据集作为推荐结果。

10.根据权利要求9所述的基于知识图谱的数据分析方法，其特征在于：

推荐得分的计算公式为：