CN115827899A - 基于知识图谱的数据集成方法、装置、设备及存储介质 - Google Patents

基于知识图谱的数据集成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115827899A
CN115827899A CN202310108052.XA CN202310108052A CN115827899A CN 115827899 A CN115827899 A CN 115827899A CN 202310108052 A CN202310108052 A CN 202310108052A CN 115827899 A CN115827899 A CN 115827899A
Authority
CN
China
Prior art keywords
data
target
integration
knowledge graph
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310108052.XA
Other languages
English (en)
Inventor
李保平
谢超
黄月梅
王辉
陈�峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huitong Guoxin Technology Co ltd
Original Assignee
Guangzhou Huitong Guoxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huitong Guoxin Technology Co ltd filed Critical Guangzhou Huitong Guoxin Technology Co ltd
Priority to CN202310108052.XA priority Critical patent/CN115827899A/zh
Publication of CN115827899A publication Critical patent/CN115827899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及数据集成技术领域,公开了一种基于知识图谱的数据集成方法、装置、设备及存储介质。其中,该方法包括:获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据;基于元数据信息与历史数据集成信息的实体关系,构建数据知识图谱;基于数据知识图谱匹配待集成目标数据,得到数据匹配结果;基于数据匹配结果,确定待集成目标数据对应的数据集成路径与数据映射关系;基于数据集成路径与数据映射关系,对该待集成目标数据进行集成。通过实施本发明技术方案,简化了数据查找过程,能够通过数据知识图谱快速定位数据的集成路径,无需人力查找,提升了数据集成效率,节省了人力成本。

Description

基于知识图谱的数据集成方法、装置、设备及存储介质
技术领域
本发明涉及数据集成技术领域,具体涉及一种基于知识图谱的数据集成方法、装置、设备及存储介质。
背景技术
随着大数据技术的发展,对于数据可视化的需求越来越多,且展示的内容不断变化,而如何从数据仓库的海量数据中快速的定位和查找相关数据进行集成亟待解决。当前数据集成主要通过人工的方式进行,在海量分散的数据中根据目标表进行数据集成,这对数据工程师的能力及其对业务了解程度要求非常高。即使是有经验的数据工程师,其面对海量的数据及经常变化的需求,其数据定位和查找的效率也较低,导致数据集成效率低,人力成本较高。
发明内容
有鉴于此,本发明实施例提供了一种基于知识图谱的数据集成方法、装置、设备及存储介质,以解决数据集成效率低、人力成本高的问题。
根据第一方面,本发明实施例提供了一种基于知识图谱的数据集成方法,包括:获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据;基于所述元数据信息与所述历史数据集成信息的实体关系,构建数据知识图谱;基于所述数据知识图谱匹配所述待集成目标数据,得到数据匹配结果;基于所述数据匹配结果,确定所述待集成目标数据对应的数据集成路径与数据映射关系;基于所述数据集成路径与所述数据映射关系,对所述待集成目标数据进行集成。
本发明实施例提供的基于知识图谱的数据集成方法,通过构建数据知识图谱以确定数据实体之间的关系,基于该数据知识图谱确定待集成目标数据的数据匹配结果,从而根据该数据匹配结果确定数据集成路径和数据映射关系,继而实现针对于待集成目标数据的集成。该方法简化了数据查找过程,能够通过数据知识图谱快速定位数据的集成路径,无需人力查找,提升了数据集成效率,节省了人力成本。
结合第一方面,在第一方面的第一实施方式中,所述基于所述数据知识图谱匹配所述待集成目标数据,得到数据匹配结果,包括:将所述待集成目标数据进行向量化,得到目标向量;将所述目标向量与所述数据知识图谱中的数据实体向量进行匹配,得到多个候选实体向量;对所述多个候选实体向量进行排序,得到所述数据匹配结果。
本发明实施例提供的基于知识图谱的数据集成方法,通过构建待集成目标数据对应的目标向量,根据目标向量与数据实体向量进行数据匹配以确定数据匹配结果,提升了数据匹配准确度。
结合第一方面第一实施方式,在第一方面的第一实施方式中,所述将所述目标向量与所述数据知识图谱中的数据实体向量进行匹配,得到多个候选实体向量,包括:确定所述目标向量与所述数据实体向量之间的匹配度;将所述匹配度超过预设值的多个数据实体向量确定为所述候选实体向量。
本发明实施例提供的基于知识图谱的数据集成方法,通过匹配度确定出对应于待集成目标数据的候选实体向量,便于确定出与待集成目标数据相关的所有数据实体向量,避免数据实体向量的遗漏,进一步保证了数据匹配的准确度。
结合第一方面,在第一方面的第三实施方式中,所述基于所述数据匹配结果,确定所述待集成目标数据对应的数据集成路径与数据映射关系,包括:获取针对于所述数据匹配结果的历史交互信息的权重值;基于所述权重值对所述数据匹配结果进行加权平均处理,得到所述数据集成路径;基于所述数据集成路径和所述数据匹配结果,确定所述数据映射关系。
本发明实施例提供的基于知识图谱的数据集成方法,通过结合历史交互信息的权重值与数据匹配结果进行加权平均,以确定数据集成路径,提升了数据集成路径的推荐精确度。结合数据集成路径和数据匹配结果自动构建数据映射关系,大大减少了集成人员的工作量,提升了数据集成效率。
结合第一方面第三实施方式,在第一方面的第四实施方式中,所述方法还包括:响应于对所述数据映射关系的确认操作,基于所述确认操作确定目标映射关系;基于所述目标映射关系优化所述数据知识图谱。
本发明实施例提供的基于知识图谱的数据集成方法,支持数据映射关系的确认,最大程度上保证了数据映射的准确性。同时,对经过确认的目标映射关系进行存储,以对数据知识图谱进行优化,实现了知识图谱和数据集成的交替训练学习,不仅丰富了数据知识图谱,还能够提升数据的推荐准确性。
结合第一方面,在第一方面的第五实施方式中,所述方法还包括:当监测到所述数据知识图谱发生更新时,生成数据更新提醒信息,并展示更新后的数据集成结果。
本发明实施例提供的基于知识图谱的数据集成方法,在数据知识图谱发生更新后,能够生成数据更新提醒信息以提醒相关集成人员,提升了数据应用效率和数据应用价值。
结合第一方面,在第一方面的第六实施方式中,所述基于所述元数据信息与所述历史数据集成信息的实体关系,构建数据知识图谱,包括:识别所述元数据信息对应的第一实体集合,以及所述历史数据集成信息对应的第二实体集合;解析所述第一实体集合和所述第二实体集合,得到所有实体与实体关系;基于所述所有实体和所述实体关系,采用距离的平移模型构建所述数据知识图谱。
本发明实施例提供的基于知识图谱的数据集成方法,通过识别元数据信息和历史数据集成信息中的实体集合,根据实体集合中的所有实体以及实体关系构建数据知识图谱,便于简化数据查找过程,提高数据查找效率。
根据第二方面,本发明实施例提供了一种基于知识图谱的数据集成装置,包括:获取模块,用于获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据;构建模块,用于基于所述元数据信息与所述历史数据集成信息的实体关系,构建数据知识图谱;匹配模块,用于基于所述数据知识图谱匹配所述待集成目标数据,得到数据匹配结果;映射模块,用于基于所述数据匹配结果,确定所述待集成目标数据对应的数据集成路径与数据映射关系;集成模块,用于基于所述数据集成路径与所述数据映射关系,对所述待集成目标数据进行集成。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的基于知识图谱的数据集成方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行第一方面或第一方面任一实施方式所述的基于知识图谱的数据集成方法。
需要说明的是,本发明实施例提供的基于知识图谱的数据集成装置、电子设备以及计算机可读存储介质的相应有益效果,请参见基于知识图谱的数据集成方法中相应内容的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的知识图谱与集成推荐系统的架构图;
图2是根据本发明实施例的基于知识图谱的数据集成方法的流程图;
图3是根据本发明实施例的基于知识图谱的数据集成方法的另一流程图;
图4示出了本发明实施例的数据集成路径的示意图;
图5示出了本发明实施例的数据映射关系的示意图;
图6是根据本发明实施例的基于知识图谱的数据集成方法的又一流程图;
图7示出了本发明实施例的数据三元组的示意图;
图8示出了本发明实施例的数据知识图谱的构建示意图;
图9是根据本发明实施例的基于知识图谱的数据集成装置的结构框图;
图10是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前数据集成主要通过人工的方式进行,在海量分散的数据中根据目标表进行数据集成,这对数据工程师的能力及其对业务了解程度要求非常高。即使是有经验的数据工程师,其面对海量的数据及经常变化的需求,其数据定位和查找的效率也较低,导致数据集成效率低,人力成本较高。
基于此,本技术方案将知识图谱特征学习应用到集成推荐系统中,如图1所示。通过交替学习(alternate learning)的方式将知识图谱特征学习和集成推荐系统的推荐算法视为两个分离但又相关联的任务,使用多任务学习(multi-task learning)的框架进行交替学习。结合卷积神经网络(convolutional neural network,CNN)进行数据实体的过滤,将深度感知网络(deep knowledge-aware network,DKN)方法应用于数据集成,提升数据集成及数据应用效率。
根据本发明实施例,提供了一种基于知识图谱的数据集成方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种基于知识图谱的数据集成方法,可用于电子设备,如电脑、平板电脑、服务器等,图2是根据本发明实施例的基于知识图谱的数据集成方法的流程图,如图2所示,该流程包括如下步骤:
S11,获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据。
目标数据库为存储各个数据源的数据仓库,该目标数据库可以部署在服务器或云端,电子设备则可以通过既定的通信协议与服务器或云端进行通信连接,以对目标数据库进行访问。
元数据信息用于描述数据属性的信息,用于指示数据的存储位置、历史数据、资源查找、文件记录等。历史数据集成信息用于记录数据的历史集成状态,包括历史集成需求数据和历史数据集成操作信息。
电子设备中部署有集成推荐系统,该集成推荐系统可以通过访问目标数据库以获取各个数据源的元数据信息以及历史数据集成信息。
待集成目标数据为需要进行集成的数据,该待集成目标数据可以以目标表的形式存储。待集成目标数据为集成人员根据业务需求所设定的。
在一种可选的实施方式中,集成人员可以将该待集成目标数据上传至电子设备。相应地,电子设备则可以响应集成人员对于待集成目标数据的上传操作,获取该待集成目标数据。在另一种可选的实施方式中,集成人员可以通过电子设备中的数据处理软件编辑待集成目标数据,相应地,电子设备则可以响应集成人员的编辑操作,基于该编辑操作生成待集成目标数据。
当然,待集成目标数据还可以通过其他方式获取,此处不作具体限定。
S12,基于元数据信息与历史数据集成信息的实体关系,构建数据知识图谱。
结合元数据信息、数据字典以及历史数据集成信息,能够提取数据实体之间的关系。继而,根据数据实体之间的关系,采用预设模型构建数据知识图谱,例如,采用基于距离的平移模型构建数据知识图谱。
数据知识图谱可以以网络架构图的方式展示,该数据知识图谱具体包括有数据之间的全链路关系、数据之间的逻辑关系、数据的元数据、数据的含义、数据的词义关系等信息。
S13,基于数据知识图谱匹配待集成目标数据,得到数据匹配结果。
电子设备中的集成推荐系统具有相应的数据需求池,该数据需求池中存储有数据可视化需求内容,具体包括需求数据说明、需求数据指标、需求描述、需求数据模型等内容。
将待集成目标数据导入数据需求池,基于机器学习算法将数据知识图谱与待集成目标数据对应的数据内容进行匹配,从目标数据库中查询与待集成目标数据存在匹配关系的多条数据实体,该多条数据实体即为得到的数据匹配结果。
S14,基于数据匹配结果,确定待集成目标数据对应的数据集成路径与数据映射关系。
数据集成路径用于表征待集成目标数据中的各个数据在目标数据库中的存储路径。根据数据匹配结果确定出各个匹配数据,通过访问目标数据库可以确定出各个匹配数据在目标数据库中的存储路径。
数据映射关系为待集成目标数据中的各条数据与目标数据库中所存储的匹配数据之间的映射关系,例如字段映射关系、名称映射关系等。此处,结合数据匹配结果构建待集成目标数据与目标数据库所存储数据之间的数据映射关系。
S15,基于数据集成路径与数据映射关系,对待集成目标数据进行集成。
根据数据集成路径确定数据最短集成路径,根据数据映射关系从目标数据库中提取相应的匹配数据,便于更快、更准确的获取高质量数据。继而,按照数据最短集成路径对数据映射关系所确定出的匹配数据进行集成,并将数据集成结果展示在可视化页面中以实现数据可视化。
本实施例提供的基于知识图谱的数据集成方法,通过构建数据知识图谱以确定数据实体之间的关系,基于该数据知识图谱确定待集成目标数据的数据匹配结果,从而根据该数据匹配结果确定数据集成路径和数据映射关系,继而实现针对于待集成目标数据的集成。该方法简化了数据查找过程,能够通过数据知识图谱快速定位数据的集成路径,无需人力查找,提升了数据集成效率,节省了人力成本。
在本实施例中提供了一种基于知识图谱的数据集成方法,可用于电子设备,如电脑、平板电脑、服务器等,图3是根据本发明实施例的基于知识图谱的数据集成方法的流程图,如图3所示,该流程包括如下步骤:
S21,获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
S22,基于元数据信息与历史数据集成信息的实体关系,构建数据知识图谱。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
S23,基于数据知识图谱匹配待集成目标数据,得到数据匹配结果。
具体地,上述步骤S23可以包括:
S231,将待集成目标数据进行向量化,得到目标向量。
采用上下文嵌入(context embedding)模型刻画待集成目标数据的数据实体,实现待集成目标数据的向量化,生成相应的目标向量。由于每个数据实体的上下文实体可能存在有多个,此处为了保证数据维度相同,可以取均值,具体表达式如下:
Figure SMS_1
其中,
Figure SMS_2
为经过向量化的待集成目标数据,
Figure SMS_3
为上下文实体;
Figure SMS_4
为上下文实体中的第i个实体。
此处使用上下文去定位数据实体并扩展实体的关联关系,便于将不同空间的向量进行多通道拼接,有利于提升数据集成及数据应用效率。
S232,将目标向量与数据知识图谱中的数据实体向量进行匹配,得到多个候选实体向量。
数据知识图谱中的数据实体向量即数据属性向量,将各个目标向量与数据实体向量进行相似度匹配,从数据知识图谱的数据实体向量中确定出多个具有相似度的候选实体向量。
作为一个可选的实施方式,上述步骤S232可以包括:
(1)确定目标向量与数据实体向量之间的匹配度。
(2)将匹配度超过预设值的多个数据实体向量确定为候选实体向量。
匹配度表示目标向量与数据实体向量之间的相似度,该匹配度可以通过向量间的距离确定,可以通过向量间的夹角余弦确定,还可以通过向量间的相关系数确定。当然,该匹配度还可以通过其他方式确定,此处不作具体限定,本领域技术人员可以根据实际需要确定。
将该匹配度的数值进行归一化,使其处于范围0-1之间,数值越大,表示向量间的匹配度越高。
预设值为预先设定的匹配值,例如0.01、0.3、0.5、0.7、0.8、0.9等,此处不作具体限定,本领域技术人员可以根据实际需要确定。将各个数据实体向量对应的匹配度与预设值进行对比,以确定超出预设值的多个数据实体向量,并将这多个数据实体向量确定为候选实体向量。
通过匹配度确定出对应于待集成目标数据的候选实体向量,便于确定出与待集成目标数据相关的所有数据实体向量,避免数据实体向量的遗漏,进一步保证了数据匹配的准确度。
S233,对多个候选实体向量进行排序,得到数据匹配结果。
将各个候选实体向量按照匹配度从高到低进行排序,或从低到高进行排序,得到候选实体向量的排序结果,该排序结果即为数据匹配结果。例如,与目标向量存在匹配度的候选实体向量有n个,按照匹配度从高到低进行排序,则得到的数据匹配结果为:候选实体向量1(匹配度0.80)、候选实体向量2(匹配度0.72)、候选实体向量3(匹配度0.40)……候选实体向量n(匹配度0.02)。
S24,基于数据匹配结果,确定待集成目标数据对应的数据集成路径与数据映射关系。
具体地,上述步骤S24可以包括:
S241,获取针对于数据匹配结果的历史交互信息的权重值。
历史交互信息为集成人员在历史时间内与电子设备进行交互确定集成数据的操作信息。权重值用于表征集成人员根据推荐的数据匹配结果进行数据集成的比重。
具体地,集成人员可以通过可视化页面查看推荐的数据匹配结果,并根据该推荐的数据匹配结果进行数据集成或对该数据匹配结果进行调整后进行数据集成。电子设备针对集成人员在历史时间内的每次集成操作均能够进行记录和存储,并能够基于推荐算法确定每次集成操作所对应的权重值。当再次得到数据匹配结果时,电子设备解析当前数据匹配结果中的匹配数据,并查询存储空间,以获取与当前匹配数据相关联的历史交互信息及其权重值。
S242,基于权重值对数据匹配结果进行加权平均处理,得到数据集成路径。
根据历史交互信息的权重值与当前数据匹配结果进行加权求和取均值,结合数据匹配结果中各个匹配数据的均值高低进行排序,得到各个匹配数据所对应节点的推荐值,生成数据集成路径,如图4所示。
根据该数据集成路径确定出数据最短集成路径,能够减少数据复制的次数及数据访问次数,从而减少了数据集成的工作,进一步地,能够减少硬件架构和存储的开销。
S243,基于数据集成路径和数据匹配结果,确定数据映射关系。
数据映射关系是根据待集成目标数据的目标向量与数据知识图谱中的数据属性向量进行匹配所生成的。根据数据集成路径,结合数据匹配结果中的数据匹配关系,自动生成数据映射关系,如图5所示。由此能够大幅度减少人工集成数据,手动建立数据映射关系的工作量。
作为一个可选的实施方式,在得到数据映射关系后,为了能够保证数据映射关系的准确度,在步骤S243之后,还可以包括:
S244,响应于对数据映射关系的确认操作,基于确认操作确定目标映射关系。
确认操作为集成人员对数据映射关系的二次确认,以避免数据映射关系出错而导致数据集成无效或失败。电子设备的集成推荐系统具有数据集成页面,在该数据集成页面中可以显示基于数据匹配关系所生成的数据映射关系。集成人员可以通过该集成页面查看数据映射关系以确认该数据映射关系是否需要调整。
具体地,集成页面中设置有确定标签,当集成人员确定当前所生成的数据映射关系无误后,其可以操作该确定标签。相应地,电子设备则可以响应该确定操作,将当前所生成的数据映射关系确定为目标映射关系。
具体地,集成页面中设置有调整标签,当集成人员确定当前所生成的数据映射关系需要调整时,其可以操作该调整标签,以对数据映射关系进行调整。相应地,电子设备则可以响应该调整操作,将经过调整的数据映射关系确定为目标映射关系。
S245,基于目标映射关系优化数据知识图谱。
电子设备的集成推荐系统将经过集成人员确定或调整后所得到的目标映射关系存储到数据知识图谱中,通过该目标映射关系对数据知识图谱的内容进行优化和强化。
S25,基于数据集成路径与数据映射关系,对待集成目标数据进行集成。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
本实施例提供的基于知识图谱的数据集成方法,通过构建待集成目标数据对应的目标向量,根据目标向量与数据实体向量进行数据匹配以确定数据匹配结果,提升了数据匹配准确度。通过结合历史交互信息的权重值与数据匹配结果进行加权平均,以确定数据集成路径,提升了数据集成路径的推荐精确度。结合数据集成路径和数据匹配结果自动构建数据映射关系,大大减少了集成人员的工作量,提升了数据集成效率。该方法能够支持数据映射关系的确认,最大程度上保证了数据映射的准确性。同时,对经过确认的目标映射关系进行存储,以对数据知识图谱进行优化,实现了知识图谱和数据集成的交替训练学习,不仅丰富了数据知识图谱,还能够提升数据的推荐准确性。
在本实施例中提供了一种基于知识图谱的数据集成方法,可用于电子设备,如电脑、平板电脑、服务器等,图6是根据本发明实施例的基于知识图谱的数据集成方法的流程图,如图6所示,该流程包括如下步骤:
S31,获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
S32,基于元数据信息与历史数据集成信息的实体关系,构建数据知识图谱。
具体地,上述步骤S32可以包括:
S321,识别元数据信息对应的第一实体集合,以及历史数据集成信息对应的第二实体集合。
第一实体集合为元数据信息所包含的数据对象的集合,第二实体集合为历史数据集成信息所包含的数据对象的集合。
对于元数据信息而言,其包含有各个数据源的元数据,电子设备可以对元数据所表征的数据属性进行识别,以确定数据内容以及数据存储信息,从而得到所有数据源的数据内容及其数据存储信息所构成的第一实体集合。
对于历史数据集成信息而言,其包含有集成数据以及数据集成操作,电子设备可以从历史数据集成信息中提取集成数据的数据内容以及数据存储信息,从而得到对应于数据内容和数据存储信息的第二实体集合。
S322,解析第一实体集合和第二实体集合,得到所有实体与实体关系。
解析第一实体集合所包含的所有实体以及第二实体集合所包含的所有实体,对所有实体进行对比,以确定出实体与实体之间的关系。具体地,通过对比各个实体,可以确定出各个数据源中是否存在有相同数据内容,还可以确定出具有相同存储位置的实体。
S323,基于所有实体和实体关系,采用距离的平移模型构建数据知识图谱。
以实体作为节点,实体间关系作为边,采用TransE算法构建数据三元组(h,r,t),如图7所示。其中,h为头节点,表示一个实体;t为尾节点,表示一个实体;r为两实体间的关系。
如图8所示,基于距离的平移模型使用基于距离的评分函数来评估三元组的概率,将尾节点视为头结点基于实体间关系进行平移得到的结果。其中,该评分函数的计算方式为:
Figure SMS_5
继而根据各个尾节点以及头节点的位置关系,确定数据属性中各单词所对应的实体嵌入矩阵,基于该实体嵌入矩阵生成数据知识图谱。
S33,基于数据知识图谱匹配待集成目标数据,得到数据匹配结果。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
S34,基于数据匹配结果,确定待集成目标数据对应的数据集成路径与数据映射关系。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
S35,基于数据集成路径与数据映射关系,对待集成目标数据进行集成。
详细说明参见上述实施例对应的相关描述,此处不再赘述。
S36,当监测到数据知识图谱发生更新时,生成数据更新提醒信息,并展示更新后的数据集成结果。
当目标数据库的元数据信息、业务系统数据发生变化时,如新增数据时,此时,数据知识图谱的内容就会发生更新,那么针对该数据知识图谱进行的数据集成相应的会产生更新。
电子设备中的推荐系统对数据知识图谱进行实时检测,以确定其是否发生更新,当监测到其发生更新时,电子设备能够结合该数据知识图谱的更新确定相关的历史集成数据,并生成针对于该历史集成数据的数据更新提醒信息。将该数据更新提醒信息发送至相关集成人员,同时向集成人员展示更新后的数据集成结果,以使集成人员确认是否进行数据更新。由此,通过数据知识图谱和推荐系统自动将相关数据推荐给集成人员,提升了数据应用效率,便于持续性释放数据价值。
本实施例提供的基于知识图谱的数据集成方法,在数据知识图谱发生更新后,能够生成数据更新提醒信息以提醒相关集成人员,提升了数据应用效率和数据应用价值。通过识别元数据信息和历史数据集成信息中的实体集合,根据实体集合中的所有实体以及实体关系构建数据知识图谱,便于简化数据查找过程,提高数据查找效率。
在本实施例中还提供了一种基于知识图谱的数据集成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种基于知识图谱的数据集成装置,如图9所示,包括:
获取模块41,用于获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据。
构建模块42,用于基于元数据信息与历史数据集成信息的实体关系,构建数据知识图谱。
匹配模块43,用于基于数据知识图谱匹配待集成目标数据,得到数据匹配结果。
映射模块44,用于基于数据匹配结果,确定待集成目标数据对应的数据集成路径与数据映射关系。
集成模块45,用于基于数据集成路径与数据映射关系,对待集成目标数据进行集成。
可选地,上述匹配模块43可以包括:
向量化子模块,用于将待集成目标数据进行向量化,得到目标向量。
匹配子模块,用于将目标向量与数据知识图谱中的数据实体向量进行匹配,得到多个候选实体向量。
排序子模块,用于对多个候选实体向量进行排序,得到数据匹配结果。
可选地,上述匹配子模块具体用于:确定目标向量与数据实体向量之间的匹配度;将匹配度超过预设值的多个数据实体向量确定为候选实体向量。
可选地,上述映射模块44可以包括:
权重获取子模块,用于获取针对于数据匹配结果的历史交互信息的权重值。
加权子模块,用于,基于权重值对数据匹配结果进行加权平均处理,得到数据集成路径。
映射确定子模块,用于,基于数据集成路径和数据匹配结果,确定数据映射关系。
可选地,上述映射模块44还可以包括:
确认子模块,用于响应于对数据映射关系的确认操作,基于确认操作确定目标映射关系。
优化子模块,用于基于目标映射关系优化数据知识图谱。
可选地,上述构建模块42可以包括:
识别子模块,用于识别元数据信息对应的第一实体集合,以及历史数据集成信息对应的第二实体集合。
解析子模块,用于解析第一实体集合和第二实体集合,得到所有实体与实体关系。
构建子模块,用于基于所有实体和实体关系,采用距离的平移模型构建数据知识图谱。
可选地,上述基于知识图谱的数据集成装置还可以包括:
提醒模块,用于当监测到数据知识图谱发生更新时,生成数据更新提醒信息,并展示更新后的数据集成结果。
本实施例中的基于知识图谱的数据集成装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块以及各个子模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。本实施例提供的基于知识图谱的数据集成装置,通过构建数据知识图谱以确定数据实体之间的关系,基于该数据知识图谱确定待集成目标数据的数据匹配结果,从而根据该数据匹配结果确定数据集成路径和数据映射关系,继而实现针对于待集成目标数据的集成。该装置简化了数据查找过程,能够通过数据知识图谱快速定位数据的集成路径,无需人力查找,提升了数据集成效率,节省了人力成本。
本发明实施例还提供一种电子设备,具有上述图9所示的基于知识图谱的数据集成装置。
请参阅图10,图10是本发明可选实施例提供的一种电子设备的结构示意图,如图10所示,该电子设备可以包括:至少一个处理器501,例如中央处理器(Central ProcessingUnit,CPU),至少一个通信接口503,存储器504,至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信。其中,通信接口503可以包括显示屏(Display)、键盘(Keyboard),可选通信接口503还可以包括标准的有线接口、无线接口。存储器504可以是高速易挥发性随机存取存储器(Random Access Memory,RAM),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器504可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图9所描述的装置,存储器504中存储应用程序,且处理器501调用存储器504中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线502可以是外设部件互连标准(peripheralcomponentinterconnect,PCI)总线或扩展工业标准结构(extended industrystandardarchitecture,EISA)总线等。通信总线502可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器504可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器504还可以包括上述种类的存储器的组合。
其中,处理器501可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。
其中,处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit,ASIC),可编程逻辑器件(programmablelogic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gatearray,FPGA),通用阵列逻辑(generic array logic, GAL)或其任意组合。
可选地,存储器504还用于存储程序指令。处理器501可以调用程序指令,实现如本申请上述实施例中所示的基于知识图谱的数据集成方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于知识图谱的数据集成方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于知识图谱的数据集成方法,其特征在于,包括:
获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据;
基于所述元数据信息与所述历史数据集成信息的实体关系,构建数据知识图谱;
基于所述数据知识图谱匹配所述待集成目标数据,得到数据匹配结果;
基于所述数据匹配结果,确定所述待集成目标数据对应的数据集成路径与数据映射关系;
基于所述数据集成路径与所述数据映射关系,对所述待集成目标数据进行集成。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数据知识图谱匹配所述待集成目标数据,得到数据匹配结果,包括:
将所述待集成目标数据进行向量化,得到目标向量;
将所述目标向量与所述数据知识图谱中的数据实体向量进行匹配,得到多个候选实体向量;
对所述多个候选实体向量进行排序,得到所述数据匹配结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标向量与所述数据知识图谱中的数据实体向量进行匹配,得到多个候选实体向量,包括:
确定所述目标向量与所述数据实体向量之间的匹配度;
将所述匹配度超过预设值的多个数据实体向量确定为所述候选实体向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述数据匹配结果,确定所述待集成目标数据对应的数据集成路径与数据映射关系,包括:
获取针对于所述数据匹配结果的历史交互信息的权重值;
基于所述权重值对所述数据匹配结果进行加权平均处理,得到所述数据集成路径;
基于所述数据集成路径和所述数据匹配结果,确定所述数据映射关系。
5.根据权利要求4所述的方法,其特征在于,还包括:
响应于对所述数据映射关系的确认操作,基于所述确认操作确定目标映射关系;
基于所述目标映射关系优化所述数据知识图谱。
6.根据权利要求1所述的方法,其特征在于,还包括:
当监测到所述数据知识图谱发生更新时,生成数据更新提醒信息,并展示更新后的数据集成结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述元数据信息与所述历史数据集成信息的实体关系,构建数据知识图谱,包括:
识别所述元数据信息对应的第一实体集合,以及所述历史数据集成信息对应的第二实体集合;
解析所述第一实体集合和所述第二实体集合,得到所有实体与实体关系;
基于所述所有实体和所述实体关系,采用距离的平移模型构建所述数据知识图谱。
8.一种基于知识图谱的数据集成装置,其特征在于,包括:
获取模块,用于获取目标数据库中的元数据信息、历史数据集成信息以及待集成目标数据;
构建模块,用于基于所述元数据信息与所述历史数据集成信息的实体关系,构建数据知识图谱;
匹配模块,用于基于所述数据知识图谱匹配所述待集成目标数据,得到数据匹配结果;
映射模块,用于基于所述数据匹配结果,确定所述待集成目标数据对应的数据集成路径与数据映射关系;
集成模块,用于基于所述数据集成路径与所述数据映射关系,对所述待集成目标数据进行集成。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7任一项所述的基于知识图谱的数据集成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7任一项所述的基于知识图谱的数据集成方法。
CN202310108052.XA 2023-02-14 2023-02-14 基于知识图谱的数据集成方法、装置、设备及存储介质 Pending CN115827899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310108052.XA CN115827899A (zh) 2023-02-14 2023-02-14 基于知识图谱的数据集成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310108052.XA CN115827899A (zh) 2023-02-14 2023-02-14 基于知识图谱的数据集成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115827899A true CN115827899A (zh) 2023-03-21

Family

ID=85521182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310108052.XA Pending CN115827899A (zh) 2023-02-14 2023-02-14 基于知识图谱的数据集成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115827899A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150438A (zh) * 2023-04-19 2023-05-23 苏州傲林科技有限公司 基于交易图谱的数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200401908A1 (en) * 2019-06-19 2020-12-24 Samsung Electronics Company, Ltd. Curated data platform
CN112395430A (zh) * 2020-12-14 2021-02-23 广州汇通国信科技有限公司 一种基于知识图谱的电力设备缺陷检索方法及系统
CN113159320A (zh) * 2021-03-08 2021-07-23 北京航空航天大学 一种基于知识图谱的科技资源数据集成方法及装置
CN115221337A (zh) * 2022-07-13 2022-10-21 中国电信股份有限公司 数据编织处理方法、装置、电子设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200401908A1 (en) * 2019-06-19 2020-12-24 Samsung Electronics Company, Ltd. Curated data platform
CN112395430A (zh) * 2020-12-14 2021-02-23 广州汇通国信科技有限公司 一种基于知识图谱的电力设备缺陷检索方法及系统
CN113159320A (zh) * 2021-03-08 2021-07-23 北京航空航天大学 一种基于知识图谱的科技资源数据集成方法及装置
CN115221337A (zh) * 2022-07-13 2022-10-21 中国电信股份有限公司 数据编织处理方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150438A (zh) * 2023-04-19 2023-05-23 苏州傲林科技有限公司 基于交易图谱的数据处理方法及装置

Similar Documents

Publication Publication Date Title
US11238310B2 (en) Training data acquisition method and device, server and storage medium
CN108108499B (zh) 人脸检索方法、装置、存储介质及设备
US11373257B1 (en) Artificial intelligence-based property data linking system
US10628136B2 (en) Internet of things (IoT) application development
US20180307948A1 (en) Method and device of constructing decision model, computer device and storage apparatus
US20200183900A1 (en) Deduplication of Metadata for Places
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
US20180121535A1 (en) Multiple record linkage algorithm selector
CN110139067B (zh) 一种野生动物监测数据管理信息系统
US20200387553A1 (en) Digitization of technical documentation driven by machine learning
CN110968801A (zh) 地产产品搜索方法、存储介质及电子设备
CN115827899A (zh) 基于知识图谱的数据集成方法、装置、设备及存储介质
US20150379112A1 (en) Creating an on-line job function ontology
CN112115372A (zh) 一种停车场的推荐方法及装置
CN114565916A (zh) 目标检测模型训练方法、目标检测方法以及电子设备
CN114491200A (zh) 基于图神经网络的异源兴趣点匹配方法和装置
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN111737330A (zh) 一种空间数据标准化方法、装置、计算机设备和存储介质
CN116361502A (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN110688995A (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN112861474B (zh) 一种信息标注方法、装置、设备及计算机可读存储介质
CN114118410A (zh) 图结构的节点特征提取方法、设备及存储介质
CN116415020A (zh) 一种图像检索的方法、装置、电子设备及存储介质
CN113704314A (zh) 数据的分析方法及装置、电子设备和存储介质
CN111143626A (zh) 团伙识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230321