CN117235281A

CN117235281A - 基于知识图谱技术的多元数据管理方法及系统

Info

Publication number: CN117235281A
Application number: CN202311241329.2A
Authority: CN
Inventors: 熊华兵
Original assignee: Wuhan Beta Century Technology Co ltd
Current assignee: Wuhan Beta Century Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-15

Abstract

本发明提供一种基于知识图谱技术的多元数据管理方法及系统，涉及数据管理技术领域，所述方法包括：获取多元数据，将多元数据进行整合并存储于数据库；获取领域知识，根据领域知识和多元数据的特点设计知识图谱模型；调用数据库将整合的多元数据导入知识图谱模型中，形成第一知识图谱；构建图神经网络模型，将第一知识图谱输入图神经网络模型中进行优化，得到优化后的第二知识图谱；利用第二知识图谱对多元数据进行管理，包括质量检查和修复、语义查询和分析、数据推荐。本发明提高了数据的可管理性、提供更直观的数据组织方式、揭示数据之间的关联、挖掘数据中的隐藏模式、提供高级的处理和分析等，能提升数据的价值和应用，支持决策和创新。

Description

基于知识图谱技术的多元数据管理方法及系统

技术领域

本发明涉及数据管理技术领域，尤其涉及一种基于知识图谱技术的多元数据管理方法及系统。

背景技术

随着数据时代的到来，各个领域正在面临着大量且复杂的数据处理问题。这些数据不仅包括传统的结构化数据，也包括大量的非结构化数据。如何有效地管理和利用这些多元数据成为了亟待解决的问题。

传统的数据处理方法主要针对结构化数据，通过关系型数据库进行存储和管理。这种方法对于结构化数据的处理很有效，但对于非结构化数据处理则显得力不从心。非结构化数据包括图片、音频、视频等，它们不遵循固定的数据结构，因此很难用传统的方法进行处理。此外，这些数据往往也包含丰富的语义信息，而这些信息在传统的数据处理方法中并没有得到充分的利用。

为了更好地管理和利用这些多元数据，领域知识和图谱技术被引入到数据处理中。领域知识是指某个特定领域的专业知识，它可以指导如何理解和处理数据。而图谱技术则可以将多元数据转化为图结构，将实体、概念及其之间的关系以节点和边的方式表示出来，形成知识图谱。

然而，知识图谱的构建和维护是一个复杂的过程，需要大量的人力和物力。因此，如何有效地构建和维护知识图谱，并利用知识图谱来对多元数据进行多方位管理成为了亟待解决的问题。

中国申请号为202310644149.2的发明专利公开了一种基于知识增强图神经网络的中文专利文本去冗余方法，采用引入知识图谱的方法，提高专利文本中实体语义的准确度，并将权利要求书文本转化为图结构，使用图卷积网络获取文本表征，最后通过文本相似度来降低文本冗余，为专利机构进行专利数据管理提供技术支持。该现有技术是针对文本数据进行的数据处理，重点仍是语义相似度的文本过滤方法，没有考虑知识图谱构建和维护的复杂过程。

发明内容

有鉴于此，本发明提供一种基于知识图谱技术的多元数据管理方法及系统，通过知识图谱技术和图神经网络模型的特性，对多元数据进行整合和管理，提高数据的可管理性和可访问性、提供更直观和灵活的数据组织方式、揭示数据之间的关联和关系、挖掘数据中的隐藏模式和特征、提供高级的数据处理和分析能力等，有助于提升数据的价值和应用，支持决策和创新。

本发明的技术方案是这样实现的：

一方面，本发明提供一种基于知识图谱技术的多元数据管理方法，包括：

S1获取多元数据，包括结构化数据和非结构化数据，将多元数据进行整合并存储于数据库；

S2获取领域知识，根据领域知识和多元数据的特点设计知识图谱模型；

S3调用数据库将整合的多元数据导入知识图谱模型中，根据知识图谱模型将多元数据转换为知识图谱的节点和边，形成第一知识图谱；

S4构建图神经网络模型，将第一知识图谱输入图神经网络模型中进行优化，得到优化后的第二知识图谱；

S5利用第二知识图谱对多元数据进行管理，包括质量检查和修复、语义查询和分析、数据推荐。

在上述技术方案的基础上，优选的，步骤S1包括：

S11获取结构化数据和非结构化数据，对结构化数据和非结构化数据进行数据清洗，包括去除重复数据、处理缺失数据、处理异常数据；

S12对结构化数据和非结构化数据进行格式转换，将结构化数据和非结构化数据映射和转换至同一数据格式；

S13采用基于匹配的数据集成方法将格式转换后的结构化数据和非结构化数据进行数据集成，包括数据模式一致化、去除数据冗余和解决数据冲突；

S14将数据集成后的结构化数据和非结构化数据存储于数据库中。

在上述技术方案的基础上，优选的，步骤S2包括：

S21获取领域知识，包括确定知识图谱所覆盖的范围、收集领域资料和获取领域专家的建议；

S22对多元数据的特点进行分析，包括分析多元数据的类型、分析多元数据的结构和分析多元数据的来源，分析后得到多元数据的类型特点和限制、多元数据的属性和关系、多元数据的更新频率；

S23根据多元数据的特点和领域知识，确定知识图谱中的实体类型和关系类型，并选择知识表示方式来表示知识图谱中的实体和关系；

S24设计查询语言和推理机制，采用基于模板的方式构建得到知识图谱模型。

在上述技术方案的基础上，优选的，步骤S3包括：

S31使用连接工具连接至数据库，根据查询语言编写查询语句对多元数据进行提取；

S32将提取的多元数据按照知识图谱模型所需的格式，进行实体识别和关系抽取，形成实体和关系的三元组，其中，三元组中的实体和关系均包含属性；

S33将多元数据的三元组导入知识图谱模型中，实体和关系分别对应添加至知识图谱的节点和边；

S34使用查询语言检查知识图谱是否构建完成，若没有，则返回步骤S31，重新提取多元数据，若构建完成，则执行步骤S35；

S35选择验证查询语句，利用验证查询语句来验证多元数据是否被正确导入知识图谱模型中，若验证通过，则得到第一知识图谱，若验证不通过，则返回步骤S32，重新生成多元数据的三元组。

在上述技术方案的基础上，优选的，步骤S4包括：

S41将第一知识图谱输入图神经网络模型，将知识图谱中的实体和关系表示为图的节点和边，将属性表示为节点或边的属性信息；

S42对第一知识图谱中的各个节点和边，采用编码方法为每个节点和边分配唯一标识符，将节点、边和属性信息采用词嵌入方法转化为节点向量、边向量和属性特征矩阵；

S43采用采样策略对单个节点进行邻居节点选择，得到邻居节点集，将邻居节点集进行嵌入表示，并拼接为一个邻居节点矩阵；

S44根据采样策略获取该节点与邻居节点之间的连接信息，将连接信息编码为连接矩阵；

S45将该节点的节点向量与邻居节点矩阵和连接矩阵进行融合，得到融合后的节点表达；

S46将该节点相关的边向量与连接矩阵进行融合，得到融合后的边表达；

S47重复步骤S43-S46，对知识图谱完成优化，得到优化后的第二知识图谱。

在上述技术方案的基础上，优选的，图神经网络模型包括预训练过程，在预训练过程中，图神经网络模型的损失函数为：

L＝L₁+L₂

式中，L为总损失函数，L₁为关系预测的损失函数，L₂为实体预测的损失函数，A为知识图谱中三元组的集合，y(h,r,t)是三元组(h,r,t)的标签，将标签y(h,r,t)归一化为[0,1]，f(h,r,t)为三元组(h,r,t)的评分函数，T为关系集合，Y是实体集合，K是实体标签的总类别，h_ik是第i个实体的网络输出的第k个类别，t_ik是第i个实体的真实类别。

在上述技术方案的基础上，优选的，步骤S5中，利用第二知识图谱对多元数据进行质量检查和修复包括：

数据准确性：通过比较第二知识图谱中的多元数据与其来源数据源或领域知识，基于第一质量指标检查实体、属性和关系的准确性，若准确性未达到第一质量指标，则根据领域知识或领域规则对准确性进行修复；

数据完整性：基于第二质量指标检查第二知识图谱中是否存在缺失的实体、属性或关系，若完整性未达到第二质量指标，则根据来源数据源或领域知识补充缺失的内容，对完整性进行修复；

数据一致性：通过不同数据源之间的多元数据，基于第三质量指标检查多元数据的一致性，若一致性未达到第三质量指标，则根据修复算法对一致性进行修复。

在上述技术方案的基础上，优选的，步骤S5中，利用第二知识图谱对多元数据进行语义查询和分析包括：

确定查询目标，根据查询目标构建查询语句，将查询语句提交给知识图谱的查询引擎执行查询操作，得到查询结果；

解析查询结果，得到查询信息，包括查询需要的实体、属性或关系的取值；

对查询信息进行统计分析和可视化处理，得到查询信息中数据的特征和关系，并将数据的特征和关系以图形可视化形式进行展示。

在上述技术方案的基础上，优选的，步骤S5中，利用第二知识图谱对多元数据进行数据推荐包括：

获取用户需求，用户需求包括用户偏好和查询条件；

根据查询条件在第二知识图谱中进行模糊查询，得到候选数据；

用户偏好包括用户历史行为数据、用户历史标签数据，将用户历史行为数据和用户历史标签数据进行合并和向量化，得到用户特征矩阵；

对候选数据进行特征提取，得到数据特征矩阵；

利用用户特征矩阵对每个数据特征矩阵计算推荐得分，根据推荐得分对候选数据进行排序，得到第一推荐结果，其中，推荐得分的计算公式为：

式中，F_j为第j个数据特征矩阵的推荐得分，[B_j]为第j个数据特征矩阵，[C_m]为第m个用户特征矩阵，M为用户特征矩阵的数量，n₁为[B_j]的维度，n₂为[C_m]的维度，为元素积；

根据过滤规则对第一推荐结果进行过滤，得到最终的推荐结果，并将最终的推荐结果展示给用户。

另一方面，本发明还提供一种基于知识图谱技术的多元数据管理系统，包括：

数据获取模块，其配置为获取多元数据，并将多元数据进行处理和整合后存储于数据库；

知识图谱模块，其配置为获取领域知识，根据根据领域知识和多元数据的特点设计知识图谱模型，并调用数据库将多元数据导入知识图谱模型中，形成第一知识图谱，之后利用图神经网络模型对第一知识图谱进行优化，得到第二知识图谱；

数据管理模块，其配置为利用第二知识图谱对多元数据进行质量检查和修复、语义查询和分析、数据推荐，并对管理的内容和结果进行可视化展示，对多元数据进行全程监控；

数据更新模块，其配置为与数据获取模块和知识图谱模块相连，用于获取新的多元数据，并将新的多元数据传输至数据获取模块进行处理和整合，之后返回整合后的数据并传至知识图谱模块，将新的多元数据导入第一知识图谱中进行更新和再次优化。

本发明的方法相对于现有技术具有以下有益效果：

(1)本发明通过知识图谱技术和图神经网络模型的特性，对多元数据进行整合和管理，提高数据的可管理性和可访问性、提供更直观和灵活的数据组织方式、揭示数据之间的关联和关系、挖掘数据中的隐藏模式和特征、提供高级的数据处理和分析能力等，有助于提升数据的价值和应用，支持决策和创新；

(2)本发明通过将结构化数据和非结构化数据整合并存储于数据库，可以提高数据的可访问性和可管理性，方便后续的数据处理和分析；

(3)本发明通过获取领域知识和多元数据的特点，设计知识图谱模型可以将数据以图的形式表示，提供了更直观和灵活的方式来理解和组织数据，将整合的多元数据导入知识图谱模型中，将数据转换为知识图谱的节点和边，可以更好地揭示数据之间的关联和关系；

(4)本发明通过构建图神经网络模型并将第一知识图谱输入其中进行优化，可以进一步挖掘数据中的隐藏模式和特征，得到优化后的第二知识图谱，提高了知识图谱的准确性和可信度；

(5)本发明利用第二知识图谱对多元数据进行管理，包括质量检查和修复、语义查询和分析、数据推荐等功能，可以提供更高级的数据处理和分析能力，帮助用户更好地理解和利用数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的系统结构图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，一方面，本发明提供一种基于知识图谱技术的多元数据管理方法，包括：

具体地，本发明一实施例中，步骤S1包括：

S11获取结构化数据和非结构化数据，对结构化数据和非结构化数据进行数据清洗，包括去除重复数据、处理缺失数据、处理异常数据。

首先，需要获取结构化数据和非结构化数据，结构化数据是指以表格形式存储的数据，如数据库中的数据表；非结构化数据是指没有固定格式和组织形式的数据，如文本、图像、音频等。

数据清洗包括去除重复数据、处理缺失数据和处理异常数据。对于重复数据，可以通过比较数据的各个字段来判断是否存在重复，并将重复数据删除或合并。对于缺失数据，可以采用填充、删除或插值等方法进行处理。对于异常数据，可以使用统计方法或规则来检测和处理异常值。

S12对结构化数据和非结构化数据进行格式转换，将结构化数据和非结构化数据映射和转换至同一数据格式。

结构化数据和非结构化数据需要转换为同一数据格式，以便进行后续的数据集成和存储。例如，非结构化数据可以通过文本解析、图像处理或音频转录等技术转换为结构化数据，如文本转为表格或音频转为文本。

S13采用基于匹配的数据集成方法将格式转换后的结构化数据和非结构化数据进行数据集成，包括数据模式一致化、去除数据冗余和解决数据冲突。

将格式转换后的结构化数据和非结构化数据进行数据集成。数据集成是将来自不同数据源的数据进行合并和整合，使其具有一致的数据模式，并解决数据冗余和数据冲突。

基于匹配的数据集成方法可以通过数据字段的匹配、数据值的相似度计算等方式将数据进行集成。在数据集成过程中，需要解决数据模式不一致的问题，如字段名称不同、数据类型不同等，并去除数据冗余和解决数据冲突，以确保集成后的数据具有一致性和准确性。

将数据集成后的结构化数据和非结构化数据存储于数据库中。选择适当的数据库管理系统，并设计合适的数据表结构和索引，以便高效地存储和查询数据。

本实施例中，数据清洗可以提高数据的质量和准确性，减少重复数据、缺失数据和异常数据对后续分析和应用的影响，提高数据的可信度和可用性。格式转换使得结构化数据和非结构化数据具有相同的数据格式，方便后续的数据集成和处理。数据集成将来自不同数据源的数据进行合并和整合，提供了更全面和一致的数据视图，支持更深入的数据分析和决策。存储数据集成后的数据于数据库中，提供了高效的数据访问和管理方式，支持数据的持久化和长期使用。

具体地，本发明一实施例中，步骤S2包括：

S21获取领域知识，包括确定知识图谱所覆盖的范围、收集领域资料和获取领域专家的建议。

具体地，步骤S21包括：

确定知识图谱所覆盖的范围：明确知识图谱所要覆盖的领域和主题，确定知识图谱的目标和应用场景。

收集领域资料：通过文献调研、专家访谈、在线资源等方式，收集与知识图谱相关的领域资料和数据，包括文本、图像、视频等多种形式的数据。

获取领域专家的建议：与领域专家进行沟通和交流，获取他们对知识图谱的建议和意见，以便更好地理解领域知识和需求。

获取领域知识可以帮助建立准确、全面的知识图谱，提高知识图谱的质量和可用性。收集领域资料和获取专家建议可以填补知识图谱中的空白和缺失，确保知识图谱的完整性和准确性。

S22对多元数据的特点进行分析，包括分析多元数据的类型、分析多元数据的结构和分析多元数据的来源，分析后得到多元数据的类型特点和限制、多元数据的属性和关系、多元数据的更新频率。

具体地，步骤S22包括：

分析多元数据的类型：确定多元数据的种类和形式，如文本、图像、音频等。

分析多元数据的结构：了解多元数据的组织结构和属性，如文本的段落、句子和词语，图像的像素和颜色等。

分析多元数据的来源：确定多元数据的获取途径和来源，如文本数据可以来自网页、新闻、论文等，图像数据可以来自照片、摄像头等。

分析多元数据的类型特点和限制：根据多元数据的分析结果，确定其特点和限制，如文本数据可能存在语义模糊性，图像数据可能存在视角变化等。

分析多元数据的属性和关系：识别多元数据中的属性和关系，如文本数据中的实体和关键词，图像数据中的对象和场景等。

分析多元数据的更新频率：了解多元数据的更新频率，以便及时更新和维护知识图谱。

本实施例中，分析多元数据的特点可以帮助了解数据的性质和特征，为后续的知识图谱建模和处理提供基础。分析多元数据的结构和属性可以帮助设计知识图谱的实体和关系类型，以及知识表示方式。分析多元数据的来源和更新频率可以帮助确定知识图谱的数据来源和更新策略，保证知识图谱的及时性和准确性。

S23根据多元数据的特点和领域知识，确定知识图谱中的实体类型和关系类型，并选择知识表示方式来表示知识图谱中的实体和关系。

具体地，步骤S23包括：

确定实体类型：根据多元数据的特点和领域知识，确定知识图谱中的实体类型，如人物、地点、事件等。

确定关系类型：根据多元数据的特点和领域知识，确定知识图谱中的关系类型，如相似关系、层级关系等。

选择知识表示方式：根据实际需求和数据特点，选择适合的知识表示方式，如图形表示、文本表示、属性图表示等。

本实施例确定实体类型和关系类型可以帮助建立清晰的知识图谱结构，提高知识图谱的可读性和可理解性。选择合适的知识表示方式可以使知识图谱的表达更加直观和易于理解。

具体地，步骤S24包括：

设计查询语言：根据知识图谱的实体和关系类型，设计适合的查询语言，以支持对知识图谱的检索和查询操作。设计查询语言可以提供灵活和高效的检索和查询方式，方便用户对知识图谱进行信息提取和分析。

设计推理机制：根据知识图谱中的实体和关系类型，设计推理机制，以支持对知识图谱中的隐含知识和关联关系的推理和推断。设计推理机制可以帮助发现知识图谱中的隐藏知识和关联关系，提供更全面和深入的知识推理能力。

采用基于模板的方式构建知识图谱模型：根据实体和关系类型，设计合适的模板和规则，用于构建知识图谱模型，包括实体的属性和关系的定义。采用基于模板的方式构建知识图谱模型可以提高知识图谱的构建效率和质量，减少人工干预的需求。

具体地，步骤S3包括：

S31使用连接工具连接至数据库，根据查询语言编写查询语句对多元数据进行提取。

首先，使用适当的连接工具，例如数据库管理工具，来连接至数据库，用于从数据库中调取多元数据。通过连接工具连接至数据库，可以方便地获取多元数据，减少了数据获取的复杂度和工作量。

之后，根据查询语言，如SQL技术来编写查询语句，以提取所需的多元数据。查询语句可以包括特定表格、筛选条件、排序等执行内容，以获取符合要求的数据。使用查询语言进行提取操作，可以精确地获取所需的多元数据，提高了数据提取的效率。

S32将提取的多元数据按照知识图谱模型所需的格式，进行实体识别和关系抽取，形成实体和关系的三元组，其中，三元组中的实体和关系均包含属性。

对于文本数据，可以使用自然语言处理技术进行实体识别和关系抽取，如命名实体识别、关系抽取等。识别出的实体和关系可以表示为三元组的形式，其中实体和关系都可以包含属性信息，三元组格式可以为“实体1(属性)-关系(属性)-实体2(属性)”。

对于图像数据，可以使用计算机视觉技术进行实体识别和关系抽取，如目标检测、场景理解等。例如采用Fast-RCNN模型对图像数据进行目标检测来识别出的实体和关系，并同样可以表示为三元组的形式，并包含属性信息。

S33将多元数据的三元组导入知识图谱模型中，实体和关系分别对应添加至知识图谱的节点和边。

根据知识图谱模型的设计，将多元数据的三元组导入知识图谱中。将实体作为节点添加到知识图谱中，将关系作为边连接实体节点。可以使用图数据库或知识图谱管理系统等工具来实现导入操作。

S34使用查询语言检查知识图谱是否构建完成，若没有，则返回步骤S31，重新提取多元数据，若构建完成，则执行步骤S35。

基于预先设置的查询语言来随机生成查询语句，根据这个查询语句来在知识图谱中查询数据，若查询得到结果，则说明知识图谱已构建完成，否则，返回步骤S31，增加查询语句，以对多元数据进行更深入的提取。

随机选择验证查询语句，在知识图谱中执行查询，检查得到的查询结果是否符合预期，即所期望的实体和关系是否正确出现，若是验证通过，即查询结果与预期一致，可以得到第一知识图谱。如果验证不通过，即查询结果与预期不一致，则需要返回步骤S32，重新生成多元数据的三元组，进行调整和改进。

具体地，本发明一实施例中，步骤S4包括：

采样策略包括第一采样策略和第二采样策略，步骤S47中，重复步骤S43-S46时，采用交替使用第一采样策略和第二采样策略来对知识图谱进行优化。

以一具体实施例对步骤S4进行说明：

本实施例的图神经网络模型采用GCN-KGE组合模型，即GCN为图卷积模型，KGE为图嵌入模型，该组合模型框架采用编码器-解码器，其中GCN作为编码器，KGE作为解码器，GCN根据其邻居实体和关系生成实体和关系的表达表示；KGE模型使用GCN生成的表示来对实体和关系之间的交互进行建模。

具体地，编码器生成知识图谱中实体和关系的表示。与在嵌入空间中直接使用可训练向量相比，GCN生成的表示有望捕获更多有关实体和关系的结构信息。然后，解码器使用生成的表示来预测邻接张量中的值。由于邻接张量和图结构之间存在双射，因此预测可以看作是原始图结构的恢复。在恢复图结构时，解码器可以预测原始图谱中缺失的节点和链接，即完成知识图谱的补全。

将第一知识图谱中的实体和关系转化为图的节点和边，其中每个实体对应一个节点，每个关系对应一条边。将属性信息表示为节点或边的属性信息，例如将实体的属性作为节点的属性信息，将关系的属性作为边的属性信息。为第一知识图谱中的每个节点和边分配唯一标识符，可以使用整数或字符串等方式进行标识。使用词嵌入方法，例如Word2Vec，将节点、边和属性信息转化为节点向量、边向量和属性特征矩阵。

本实施例中，第一采样策略为：

采用基于节点重要度的采样策略为单个节点选择其邻居节点，得到邻居节点集合，在遍历邻居节点集合后，获得该节点与每个邻居节点之间的连接信息，例如是否存在边或边的类型等，将这些连接信息编码为连接矩阵。

本实施例中，第二采样策略为：

采用深度优先算法的图采样策略为单个节点选择其邻居节点，得到邻居节点集合。在图遍历之后，构建连接矩阵，其中每行表示一个节点，每列表示一个邻居节点，矩阵元素表示节点与邻居节点之间的连接信息，如边的权重或边的类型。

在得到连接矩阵后，将该节点的节点向量与邻居节点集合进行嵌入表示，采用Word2Vec学习节点的表示，将节点向量与邻居节点矩阵、连接矩阵分别进行拼接或加权融合，得到融合后的节点表达。同时也将边向量与连接矩阵进行拼接或加权融合，得到融合后的边表达。

具体地，在得到融合后的节点表达和融合后的边表达，将它们输入解码器KGE中，对融合后的节点、边进行解码，恢复图结构，得到缺失信息的补全，进而得到优化后的第二知识图谱。

在进行每个节点的优化时，采用两种采样策略交替使用的方式，例如，第一采样策略可以优先选择邻居节点数量较多的节点进行采样，而第二采样策略可以重点关注邻居节点数量较少的节点。通过交替使用两种采样策略的方式，增加采样多样性，从而更全面地探索知识图谱的结构和信息，可以在保证覆盖全局结构的同时，更加高效地采样邻居节点。

本实施例中，可预先对图神经网络模型进行训练，训练时亦采用两种采样策略交替的方式，可以让模型在不同的采样条件下进行训练，从而更好地适应不同的图结构和节点特征，提高模型的泛化能力和性能。同时可以引入一定的随机性和变化性，减少模型对特定采样策略的过度依赖，从而缓解过拟合问题，提高模型的泛化能力。

在训练图神经网络模型时，以GCN-KGE组合模型为训练对象，损失函数为：

L＝L₁+L₂

具体地，在对知识图谱进行优化后，得到第二知识图谱，则可利用第二知识图谱对多元数据进行管理，包括质量检查和修复、语义查询和分析、数据推荐。

利用第二知识图谱对多元数据进行质量检查和修复包括：

数据准确性：通过比较第二知识图谱中的多元数据与其来源数据源或领域知识，基于第一质量指标检查实体、属性和关系的准确性，若准确性未达到第一质量指标，则根据领域知识或领域规则对准确性进行修复。

本实施例中，第一质量指标可以是第二知识图谱中的实体、属性和关系与来源数据源中的真实情况相同，当未达到第一质量指标时，根据来源数据源中的数据信息，或者领域知识中所指导的参考信息对错误的多元数据进行替换，并更新第二知识图谱。

数据完整性：基于第二质量指标检查第二知识图谱中是否存在缺失的实体、属性或关系，若完整性未达到第二质量指标，则根据来源数据源或领域知识补充缺失的内容，对完整性进行修复。

本实施例中，第二质量指标可以是第二知识图谱中的三元组没有缺失，若有些三元组缺失了实体、属性或关系，可以从来源数据源的源信息中获取缺失的内容对第二知识图谱进行补充，也可以是根据领域知识的参考建议对第二知识图谱进行补充，并更新第二知识图谱。

本实施例中，第三质量指标可以是来自不同数据源的同一数据在第二知识图谱中位置一致，若出现不一致的情况，则可以根据修复算法来对一致性进行修复。

具体地，修复算法可以是冲突解决算法、数据合并算法或数据推理算法。

冲突解决算法：当不同数据源之间存在冲突的多元数据时，可以采用冲突解决算法来解决冲突。冲突解决算法包括最新值优先、权重加权平均等。最新值优先算法选择最新的数据作为修复结果，权重加权平均算法根据数据源的权重分配修复结果。

数据合并算法：当不同数据源之间存在重复的多元数据时，可以采用数据合并算法来合并重复的数据。数据合并算法包括去重、合并属性值、合并关系等。去重算法通过比较多元数据的属性值，去除重复的数据。合并属性值算法将重复的属性值合并成一个值。合并关系算法将重复的关系合并成一个关系。

本实施例通过对第二知识图谱的多元数据进行质量检查和修复，可以提高数据的准确性、完整性和一致性，从而提高整个知识图谱的数据质量，优化后的知识图谱能够更准确地反映真实世界的实体、属性和关系，提供更可靠的数据支持，从而提升在知识图谱应用中的效果和价值，通过对第二知识图谱进行质量检查和修复，可以减少数据的错误和不完整性，提高数据的可信度，使得其他应用和用户更加信任和依赖知识图谱中的数据，通过修复知识图谱中的错误和缺失，可以提供更准确和完整的数据支持，从而优化决策和推荐系统的结果，提供更精准和有效的决策和推荐服务。

利用第二知识图谱对多元数据进行语义查询和分析包括：

确定查询目标，根据查询目标构建查询语句，将查询语句提交给知识图谱的查询引擎执行查询操作，得到查询结果。

首先需要明确查询的目标，即要获取哪些实体、属性或关系的信息。例如，可以查询某个特定实体的属性值，或者查询满足一定条件的实体集合。根据查询目标，构建相应的查询语句。查询语句可以使用知识图谱的查询语言或API进行构建，包括指定查询的实体、属性或关系，以及查询的条件和限制等。将构建好的查询语句提交给知识图谱的查询引擎执行查询操作。查询引擎会根据查询语句，在知识图谱中进行检索和匹配，找到满足查询条件的数据。

解析查询结果，得到查询信息，包括查询需要的实体、属性或关系的取值。

获取查询结果，并解析查询结果，提取出查询需要的实体、属性或关系的取值。可以通过解析查询结果，获取实体的属性值、关系的连接等信息。

可以使用统计方法对查询结果进行聚合、分类、排序等操作，得到数据的特征和趋势。同时，可以使用图形可视化技术将查询结果以图形的形式展示出来，使得用户更直观地理解和分析查询结果。

本实施例提供个性化查询，根据查询目标构建查询语句，可以根据用户的需求进行个性化查询，获取满足用户需求的数据，提供更精准和有针对性的查询结果。通过对查询结果进行统计分析和可视化处理，可以发现数据中的隐藏信息和规律，从而帮助用户深入理解数据，发现潜在的关系和趋势。通过对查询结果进行统计分析和可视化处理，可以提供决策和推荐的依据。用户可以根据查询结果中的数据特征和关系，进行决策和推荐的优化。通过语义查询和分析，可以提供数据探索的工具，帮助用户更好地了解和利用知识图谱中的数据，提高数据的可用性和应用效果。通过图形可视化技术将查询结果以图形的形式展示出来，可以使用户更直观地理解和分析查询结果，提高用户对数据的认知和理解能力。

利用第二知识图谱对多元数据进行数据推荐包括：

获取用户需求，用户需求包括用户偏好和查询条件。

首先需要获取用户的需求，包括用户的偏好和查询条件。用户的偏好可以通过用户的历史行为数据和历史标签数据进行分析和提取，查询条件可以是用户提供的具体要求或者系统预设的默认条件。

根据查询条件在第二知识图谱中进行模糊查询，得到候选数据。

根据用户提供的查询条件，在第二知识图谱中进行模糊查询，得到一组候选数据。模糊查询可以根据用户提供的关键词或者属性条件进行匹配和筛选。

用户偏好包括用户历史行为数据、用户历史标签数据，将用户历史行为数据和用户历史标签数据进行合并和向量化，得到用户特征矩阵。用户特征矩阵为二维向量。

将用户的历史行为数据和历史标签数据进行合并和向量化，得到用户的特征矩阵。用户特征矩阵可以表示用户的偏好和兴趣，用于计算推荐得分。

对候选数据进行特征提取，得到数据特征矩阵。

对候选数据进行特征提取，将候选数据转化为特征矩阵。特征可以包括数据的属性、关系、标签等，通过对特征的提取和编码，将候选数据转化为可计算的矩阵形式。数据特征矩阵为三维向量。

式中，F_j为第j个数据特征矩阵的推荐得分，[B_j]为第j个数据特征矩阵，[C_m]为第m个用户特征矩阵，M为用户特征矩阵的数量，n₁为[B_j]的维度，n₂为[C_m]的维度，为元素积。

在得到数据特征矩阵的推荐得分后，按照得分从大到小的顺序对候选数据进行排序，得到第一推荐结果。

具体地，过滤规则为去除不符合用户需求或系统规定的数据。

本实施例根据用户的偏好和查询条件，对候选数据进行筛选和排序，提供个性化的数据推荐结果，满足用户的需求和兴趣。通过推荐数据，可以帮助用户快速找到感兴趣的数据，提升用户的体验和满意度。通过推荐数据，可以引导用户发现和利用更多的数据资源，提高数据的利用率和价值。通过推荐数据，可以帮助用户发现潜在的数据关系和规律，优化数据探索的效果和效率。

具体地，本实施例的管理方法还包括：在产生了新的实时多元数据后，将新的多元数据进行整合并存储与数据库，之后对新的多元数据进行三元组生成，并导入第一知识图谱中，对第一知识图谱进行更新，再利用图神经网络模型对更新后的第一知识图谱进行补全，得到更新的第二知识图谱，以对数据库、知识图谱和图神经网络模型进行维护，实时对多元数据进行监控和管理。

如图2所示，另一方面，本发明还提供一种基于知识图谱技术的多元数据管理系统，所述系统用于执行上述任一所述的方法，所述系统包括：

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱技术的多元数据管理方法，其特征在于，包括：

2.如权利要求1所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S1包括：

3.如权利要求1所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S2包括：

4.如权利要求3所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S3包括：

5.如权利要求4所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S4包括：

6.如权利要求5所述的基于知识图谱技术的多元数据管理方法，其特征在于，图神经网络模型包括预训练过程，在预训练过程中，图神经网络模型的损失函数为：

L＝L₁+L₂

式中，L为总损失函数，L₁为关系预测的损失函数，L₂为实体预测的损失函数，A为知识图谱中三元组的集合，y(g,r,t)是三元组(h,r,t)的标签，将标签y(h,r,t)归一化为[0,1]，f(h,r,t)为三元组(h,r,t)的评分函数，T为关系集合，Y是实体集合，K是实体标签的总类别，h_ik是第i个实体的网络输出的第k个类别，t_ik是第i个实体的真实类别。

7.如权利要求1所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S5中，利用第二知识图谱对多元数据进行质量检查和修复包括：

8.如权利要求1所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S5中，利用第二知识图谱对多元数据进行语义查询和分析包括：

9.如权利要求1所述的基于知识图谱技术的多元数据管理方法，其特征在于，步骤S5中，利用第二知识图谱对多元数据进行数据推荐包括：

获取用户需求，用户需求包括用户偏好和查询条件；

对候选数据进行特征提取，得到数据特征矩阵；

10.一种基于知识图谱技术的多元数据管理系统，其特征在于，所述系统用于执行权利要求1-9任一所述的方法，所述系统包括：