CN114840686B

CN114840686B - 基于元数据的知识图谱构建方法、装置、设备及存储介质

Info

Publication number: CN114840686B
Application number: CN202210496077.7A
Authority: CN
Inventors: 刘康; 李馨迟; 杨明川; 张凯程; 夏晓晴; 闫汇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2024-01-02
Anticipated expiration: 2042-05-07
Also published as: CN114840686A

Abstract

本申请的实施例揭示了一种基于元数据的知识图谱构建方法、装置、设备及存储介质，该方法包括：对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集；根据各元数据子集中元数据包含的实体构建对应的子知识图谱；基于各元数据子集对应的子知识图谱确定元数据集的知识图谱。本申请揭示的基于元数据的知识图谱构建方法提高了元数据管理效率。

Description

基于元数据的知识图谱构建方法、装置、设备及存储介质

技术领域

本申请涉及元数据管理技术领域，具体而言，涉及一种基于元数据的知识图谱构建方法、装置、电子设备及计算机存储介质。

背景技术

随着各行各业的发展，在发展过程中会不断产生各种各样需要进行管理的元数据，其中，各种各样的元数据包括不同种类的元数据，而现有技术通常采用对采集的元数据进行直接管理的方式，也即不区分所管理元数据的种类，对所采集的元数据进行直接管理处理，上述方式可能导致元数据管理混乱，且管理效率低下问题。

发明内容

为解决上述技术问题，本申请的实施例提供了一种基于元数据的知识图谱构建方法、装置、电子设备及计算机存储介质。

根据本申请实施例的一个方面，提供了一种基于元数据的知识图谱构建方法，所述方法包括：对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；根据所述主数据名称对所述元数据集中的元数据进行聚类处理，得到多个元数据子集；根据各元数据子集中元数据包含的实体构建对应的子知识图谱；基于各元数据子集对应的子知识图谱确定所述元数据集的知识图谱。

根据本申请实施例的一个方面，提供了一种基于元数据的知识图谱构建装置，所述装置包括：类别划分模块，配置为对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；类别划分模块，配置为根据所述主数据名称对所述元数据集中的元数据进行聚类处理，得到多个元数据子集；类别划分模块，配置为根据各元数据子集中的元数据包含的实体构建对应的子知识图谱；类别划分模块，配置为基于各元数据子集对应的子知识图谱确定所述元数据集的知识图谱。

根据本申请实施例的一个方面，提供了一种电子设备，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行上述任一项的基于元数据的知识图谱构建方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的基于元数据的知识图谱构建方法。

在本申请的实施例提供的技术方案中，一方面，根据隶属于同一数据类别的元数据之间的共同特征确定主数据名称，并根据主数据名称对元数据集进行聚类，由此以主数据名称进行聚类的方式提高了聚类的准确性；另一方面，相较于现有技术对采集的元数据进行直接管理来说，本申请对聚类得到的元数据子集分别构建子知识图谱，并基于各子知识图谱确定元数据集的知识图谱，提高了元数据的管理效率，避免了直接对元数据集中的元数据进行管理而导致的管理混乱。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请的一示例性实施例示出的基于元数据的知识图谱构建方法的流程图；

图3是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图；

图4是本申请的又一示例性实施例示出的基于元数据的知识图谱构建方法的流程图；

图5是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图；

图6是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图；

图7是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图；

图8是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图；

图9是一示例性应用场景示出的基于元数据的知识图谱构建方法的流程示意图；

图10是一示例性实施例示出的数据编织系统；

图11是一示例性实施例示出的数据编织系统架构；

图12是本申请的一示例性实施例示出的基于元数据的知识图谱构建装置的框图；

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先需要说明的是，数据编织结合了人和机器的优势，可在适当的地点访问或整合元数据。在应用时可以不断识别和连接来自不同应用的元数据，以发现可用数据之间独特的业务相关关系；也可以支持重新涉及决策，能够通过快速访问和理解提供比传统数据管理时间更多的价值。在更广泛的意义上，数据编织存在于生活中的方方面面，可涉及应用数据编织的任何技术领域。

目前，通常采用对采集的各行各业的元数据进行统一管理的方式。但上述方式中，由于各行各业所涉及元数据不同，且同一行业涉及的元数据也可能不同，导致统一管理的难度较大，且管理效率低下。

基于此，为提高管理效率，降低管理难度，本申请实施例提出了一种基于元数据的知识图谱构建方法、装置、电子设备及计算机存储介质。

本申请的实施例涉及：对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称，并基于主数据名称对元数据集中的元数据进行聚类处理，进而根据聚类得到的元数据子集中元数据包含的实体构建对应的子知识图谱，以基于各子知识图谱确定元数据集的知识图谱。一方面，根据隶属于同一数据类别的元数据之间的共同特征确定主数据名称，并根据主数据名称对元数据集进行聚类，由此以主数据名称进行聚类的方式提高了聚类的准确性；另一方面，相较于现有技术对采集的元数据进行直接管理来说，本申请对聚类得到的元数据子集分别构建子知识图谱，并基于各子知识图谱确定元数据集的知识图谱，提高了元数据管理效率，避免了直接对元数据集中的元数据进行管理而导致的管理混乱。

图1是本申请涉及的一种实施环境的示意图。该实施环境包括服务端110和设备终端120，服务端110和设备终端120预先建立有线或者无线的网络连接。

如图1所示，服务端110通过接收采集的元数据或直接采集元数据，将采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；根据主数据名称对元数据集中的元数据进行聚类处理；根据聚类得到的各元数据子集中元数据包含的实体进行对应子知识图谱的构建；基于各元数据子集对应的子知识图谱确定元数据集的知识图谱。设备终端120生成元数据调取指令，并发送元数据调取指令至服务端110，服务端110接收设备终端120发送的元数据调取指令，并基于元数据调取指令从元数据集的知识图谱中调取元数据，并将调取的元数据发送至设备终端120，设备终端120接收调取的元数据，并基于调取的元数据进行数据编织应用。

其中，图1所示的设备终端120可以是智能手机、车载电脑、平板电脑、笔记本电脑或者可穿戴设备等任意支持数据编织的设备，但并不限于此。图1所示的服务端110是服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，在此也不进行限制。设备终端120可以通过6G(第三代的移动信息技术)、4G(第四代的移动信息技术)、5G(第五代的移动信息技术)等无线网络与服务端110进行通信，本处也不对此进行限制。

请参阅图2，图2是本申请的一示例性实施例示出的基于元数据的知识图谱构建方法的流程图。该方法可以应用于图1所示的实施环境，并由该实施环境中的服务端110具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

下面以服务器作为具体的执行主体来对本申请实施例提出的基于元数据的知识图谱构建方法进行详细介绍。

如图2所示，在一示例性的实施例中，基于元数据的知识图谱构建方法至少包括步骤S210至步骤S240，详细介绍如下：

步骤S210，对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称。

首先需要说明的是，元数据，又称中介数据或中继数据，是描述数据的数据，主要是描述数据的属性信息。示例性的，元数据可以是一张表，也可以是一个合同等，本申请对此不进行限定。

元数据集是指包括若干元数据的集合，具体可以包括不同行业的元数据，也可以包括同一行业不同元类别的元数据，例如元数据集中可以包括业务元数据、操作元数据或技术元数据等。

共同数据特征是指元数据集中各元数据之间共有的数据特征。例如，各元数据的数据特征是一字段，那么共同数据特征则是元数据中字段出现频率最高的字段的字段特征。

主数据名称是指基于共同数据特征获取的主数据名称。继续以上述例子为例进行说明，由于主数据名称是基于共同数据特征获取，若共同数据特征是一字段特征，那么主数据名称则是该字段名称。

服务器采集元数据，基于采集的元数据组成元数据集，并按照元数据集中的各元数据的数据类别对各元数据进行类别划分，进而根据隶属于同一数据类别的元数据之间的共同数据特征确定对应的主数据名称。在实际应用中，服务器可按照企业内部或行业内部的业务主线对采集的元数据集进行业务划分，并对隶属于同一业务类别中的元数据进行主业务名称提取，得到主业务名称集合，以便利用主业务名称集合对采集的元数据进行聚类。需要说明的是，元数据集中的元数据也可以由其它设备采集，其它设备发送采集的元数据集至服务器，服务器接收其它设备发送的元数据集。其中，可以采取数据仓库技术ETL(Extract-Transform-Load)采集元数据，且采集的元数据可以来自任何数据、任何云端或任何位置，也即不同行业的不同元数据或同一行业的不同元数据均可。另外需要说明的是，对于隶属于同一数据类别的元数据之间的共同数据特征的获取方式，可以为选取隶属于同一数据类别的元数据中的一元数据，并计算选取的元数据与同一数据类别的其它元数据之间的多个特征相似度，进而基于多个特征相似度确定所选取的元数据的共性特征值，比较隶属于同一数据类别中的各元数据的共性特征值，再尔基于其中最大共性特征值的元数据的数据特征确定对应的主数据名称。其中，共性特征值可以理解为选取的元数据与同一数据类别的其它元数据之间的多个特征相似度的平均值。

步骤S220，根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集。

聚类处理是指将基于主数据名称将相似的元数据确定为同一数据类别的方式。需要说明的是，本申请实施例可以采取聚类算法对元数据集中的元数据进行聚类。示例性的，聚类算法可以为基于密度的聚类算法dbscan(Density-Based Spatial Clustering ofApplications with Noise)或基于迭代求和的聚类分析算法kmeans(k-means clusteringalgorithm)等。

元数据子集是指由聚类处理后的元数据组成的集合。

服务器根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集。在实际应用中，则为根据主业务名称对元数据集中的元数据进行聚类处理，实现归类整合，得到多个元数据子集。

步骤S230，根据各元数据子集中元数据包含的实体构建对应的子知识图谱。

实体是指从元数据中抽取的用于说明元数据特征、内容的结构化数据。示例性的，若元数据为巨星A身高两米，那么该元数据中的实体为巨星A和两米。又一示例性的，若元数据为学生A的成绩为九十分，那么该元数据中的实体为学生A和九十分。

子知识图谱是指根据元数据中的实体与实体之间的实体关系确定的图谱，以上述例子继续进行说明，元数据为巨星A身高两米，元数据中的实体为巨星A和两米，则两实体之间的关系为身高，进而基于巨星A、两米以及身高构建图谱。

服务器根据聚类得到的元数据子集中元数据包含的实体构建对应元数据子集的子知识图谱。

步骤S240，基于各元数据子集对应的子知识图谱确定元数据集的知识图谱。

知识图谱是基于各子知识图谱确定的。换句话说，各子知识图谱基于相互之间的关联关系确定知识图谱。

服务器根据各元数据子集对应的子知识图谱构建元数据集的知识图谱。具体的，服务器可利用各元数据子集对应的子知识谱图之间的关联关系构建元数据集的知识图谱。

可以看出，本实施例的基于元数据的知识图谱构建方法通过对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集；根据各元数据子集中元数据包含的实体构建对应的子知识图谱；基于各元数据子集对应的子知识图谱确定元数据集的知识图谱。一方面，根据隶属于同一数据类别的元数据之间的共同特征确定主数据名称，并根据主数据名称对元数据集进行聚类，由此以主数据名称进行聚类的方式提高了聚类的准确性；另一方面，相较于现有技术对采集的元数据进行直接管理来说，本申请对聚类得到的元数据子集分别构建子知识图谱，并基于各子知识图谱确定元数据集的知识图谱，提高了元数据的管理效率和使用价值，避免了直接对元数据集中的元数据进行管理而导致的管理混乱。

图3是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图。在图3所示的实施例中，数据类别划分具体是基于采集的元数据集中各元数据的语义特征与预设特征之间的相似度确定的，获取元数据集的知识图谱的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图3所示，在一示例性实施例中，步骤S210对采集的元数据集中的元数据进行类别划分的过程至少还包括步骤S211至步骤S213，详细介绍如下：

步骤S211，对采集的元数据集中的元数据进行语义识别处理，得到各元数据的语义特征。

语义识别处理是自然语言处理的重要组成部分之一，语义识别具体可以是理解文本词汇含义以及词汇在语句、篇章中所代表的的意思等。

语义特征可以是指文本词汇的特征信息。

服务器识别元数据中文本词汇含义或对应词汇在元数据中所代表的的意思等，以得到各元数据的语义特征。

步骤S212，计算各元数据的语义特征与预设特征之间的第一特征相似度。

预设特征是指人为设定的特征，用于在各元数据的语义特征相似于预设特征时，将对应的元数据的数据类别确定为预设特征对应的数据类别。

第一特征相似度是指元数据的语义特征和预设特征之间的相似度。

服务器计算采集的元数据集中各元数据的语义特征与预设特征之间的第一特征相似度。

步骤S213，若第一特征相似度大于或等于第一预设相似度阈值，则确定对应元数据的数据类别为预设特征对应的数据类别。

第一预设相似度阈值是用于判断对应的元数据的数据类别是否为预设特征对应数据类别的标准，若第一特征相似度大于或等于第一预设相似度阈值，则确定对应的元数据的数据类别为预设特征对应数据类别，若第一特征相似度小于第一预设相似度阈值，则确定对应的元数据的数据类别不为预设特征对应的数据类别。

服务器判断第一特征相似度是否大于或等于第一预设相似度阈值，若是，则确定对应的元数据隶与预设特征属于同一数据类别，若否，则确定对应的元数据与预设特征不属于同一数据类别。

可以看出，本实施例的基于元数据的知识图谱构建方法通过采集的元数据集中各元数据的语义特征与预设特征之间的第一特征相似度确定对应元数据的数据类别是否为预设特征对应的数据类别，由此可知语义特征的比较提高了各元数据的分类准确性。

图4是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图。在图4所示的实施例中，元数据聚类具体是通过主数据名称对应的元数据与其他元数据之间的数据相似度确定的，获取元数据集的知识图谱的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图4所示，在一示例性实施例中，步骤S220根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集的过程至少还包括步骤S221至步骤S223，详细介绍如下：

步骤S221，根据主数据名称选取元数据集中的元数据，并将选取的元数据作为类中心。

类中心是指聚类时的聚类中心。

服务器根据主数据名称选取元数据集中的元数据，并将选取的元数据作为聚类的类中心。

步骤S222，计算类中心与元数据集中其它元数据之间的数据相似度。

数据相似度是用于表明类中心与元数据中其他元数据之间的相似程度。

服务器计算类中心与元数据集中其它元数据之间的数据相似度。示例性的，由于服务器可以利用词向量表示主数据名称，因此，在利用主数据名称确定的类中心与其他元数据进行聚类时，可计算利用类中心的词向量与其他元数据的词向量之间的词向量相似度，并将词向量相似度作为数据相似度。

步骤S223，将数据相似度大于或等于第二预设相似度阈值的其它元数据作为类中心所在的元数据子集中的元数据。

第二预设相似度阈值是用于判断其它元数据是否能作为类中心所属的元数据子集中的元数据，若数据相似度大于或等于第二预设相似度阈值，则确定对应的元数据属于类中心所在元数据子集中的元数据，若数据相似度小于第二预设相似度阈值，则确定对应的元数据不属于类中心所在元数据子集中的元数据。

服务器判断数据相似度是否大于或等于第二预设相似度阈值，若是，则确定对应的元数据作为类中心所在元数据子集中的元数据，若否，则确定对应的元数据不作为类中心所在元数据子集中的元数据。

可以看出，本实施例的基于元数据的知识图谱构建方法根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集，由此可提高聚类的效率和聚类准确性，进而基于元数据子集中元数据包含的实体构建对应的子知识图谱，提高了知识图谱构建的效率和准确性。

图5是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图。在图5所示的实施例中，类中心具体是通过匹配主数据名称的名称特征与各元数据的数据特征确定的，获取元数据集的知识图谱的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图5所示，在一示例性实施例中，步骤S221根据主数据名称选取元数据集中的元数据，并将选取的元数据作为类中心的过程至少还包括步骤S2211至步骤S2212，详细介绍如下：

步骤S2211，提取主数据名称的名称特征，以及元数据集中各元数据的数据特征。

名称特征可以是主数据名称的词向量特征。

元数据的数据特征可以是元数据的词向量特征。

服务器提取主数据名称的名称特征，以及元数据集中各元数据的数据特征。也即服务器提取提取主数据名称的词向量特征，以及元数据集中各元数据的词向量特征。

步骤S2212，将数据特征与名称特征相匹配的元数据作为类中心。

服务器匹配数据特征与名称特征，并根据匹配结果确定类中心。也即服务器将词向量特征与主数据名称的词向量特征相匹配的元数据作为类中心。

可以看出，本实施例的基于元数据的知识图谱构建方法根据主数据名称的名称特征与各元数据的数据特征之间的匹配结果确定类中心，由此可提高聚类的效率和聚类准确性，进而基于元数据子集中元数据包含的实体构建对应的子知识图谱，提高了知识图谱构建的效率和准确性。

图6是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图。在图6所示的实施例中，子知识图谱的构建具体是基于元数据子集中元数据包含的实体以及实体之间的关联关系确定的，获取元数据集的知识图谱的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图6所示，在一示例性实施例中，步骤S230根据各元数据子集中元数据包含的实体构建对应的子知识图谱的过程至少还包括步骤S231至步骤S233，详细介绍如下：

步骤S231，对元数据子集中的各元数据进行实体抽取。

为了基于元数据子集中的各元数据包含的实体构建各元数据子集的子知识图谱，本申请实施例的服务器对各元数据子集中元数据包含的实体进行抽取，以便于利用抽取的实体确定各实体之间的关联关系。

步骤S232，从自定义实体关系规则中确定任意两实体之间的目标实体关系规则，自定义实体关系规则包括不同实体之间的关联关系。

自定义实体关系包括不同实体之间的关联关系。需要说明的是，自定义实体关系规则可以包括人为定义的实体关系规则，还可以包括服务器对采集的元数据集中的元数据进行语义识别处理后虚拟构建的关系规则，或者，包括进行语义识别处理后虚拟构建确定的关系规则以及人为基于虚拟构建确定的关系规则的进一步补充关系规则。本申请实施例对其不进行限定。

目标实体关系规则是指从自定义实体关系规则中确定的任意两实体之间的关联关系。

服务器任选两实体，并从自定义实体关系规则中确定所选两实体之间的关联关系，也即得到各实体之间的目标实体关系规则。

步骤S233，基于目标实体关系规则和对应的实体构建子知识图谱。

服务器利用各目标实体关系规则及对应的实体构建子知识图谱。换句话说，服务器利用存在关联关系的实体构建子知识图谱。

可以看出，本实施例的基于元数据的知识图谱构建方法根据实体与实体之间的目标实体关系规则构建子知识图谱，可以基于子知识图谱得到能够擅长集成不同元数据的知识图谱，相较于关系数据库来说，知识图谱能够通过分析元数据之间的关联关系提供业务和运营所需的洞察力。

图7是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图。在图7所示的实施例中，考虑到知识图谱能够集成不同的元数据，为此，利用包含不同数据类别的子知识图谱构建元数据集的知识图谱，获取元数据集的知识图谱的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图7所示，在一示例性实施例中，步骤S240基于各元数据子集对应的子知识图谱确定元数据集的知识图谱的过程至少还包括步骤S241，详细介绍如下：

步骤S241，根据自定义实体关系规则确定不同子知识图谱之间具有关联关系的实体，并基于具有关联关系的实体汇总各子知识图谱，得到元数据集的知识图谱。

由于各子知识图谱是基于聚类的元数据子集构建的，且知识图谱能够集成不同的元数据，因此，本申请实施例可以基于各元数据子集对应的子知识图谱得到元数据集的知识图谱。具体的，服务器根据不同子知识图谱之间的具有关联关系的实体汇总各子知识图谱，得到元数据的知识谱图。也即从自定义实体关系规则中确定子知识图谱中具有关联关系的实体，并根据具有关联关系的实体汇总对应子知识图谱，得到元数据集的知识图谱。换句话说，服务器需要在各知识图谱中确定目标实体，并遍历其他子知识图谱中的实体，以确定与目标实体存在关联关系的实体，进而得到元数据集的知识图谱。

需要说明的是，自定义实体关系规则包括各元数据子集中元数据包含的实体之间的关联关系，也即各业务关系规则，也可以包括关联各子知识图谱的关联关系，也即跨业务关系规则。

另外需要说明的是，为了方便后续从确定的元数据集的知识图谱中快速调取元数据，本申请实施例还可对知识图谱中调取的元数据情况进行统计，以便确定其中的业务主次，也即可以理解为将经常应用的元数据预先存储，以便在调取的时候快速调取。

可以看出，本实施例的基于元数据的知识图谱构建方法根据各子知识图谱确定擅长集成不同元数据的知识图谱，避免了对元数据进行统一管理所带来的管理效率低下及难度较高问题，相较于关系数据库来说，知识图谱能够通过分析元数据之间的关联关系提供业务和运营所需的洞察力，进而实现“数据找人”，以及在对应的时间对对应的元数据进行推送。

图8是本申请的又一示例性实施例示出的一种基于元数据的知识图谱构建方法的流程图。在图8所示的实施例中，步骤S240基于各元数据子集对应的子知识图谱确定元数据集的知识图谱的过程之后至少还包括步骤S250至步骤S260，详细介绍如下：

步骤S250，根据接收到的元数据调取指令调取元数据集的知识图谱中的元数据。

元数据调取指令是用于从元数据集的知识图谱中调取对应的元数据进行元数据编织的指令。

元数据编织终端生成元数据调取指令，并发送元数据调取指令至服务器，服务器根据接收的元数据调取指令调取知识图谱中的元数据。其中，元数据编织终端可以为对元数据进行数据编织的终端，也可以为混合云-多云平台。

步骤S260，发送调取的元数据至数据编织终端，以使数据编织终端基于调取的元数据进行应用。

服务器将调取的元数据发送至数据编织终端，数据编织终端接收服务器发送的元数据，并对接收的元数据进行编织应用。在实际应用中，服务器将调取的元数据发送至混合云-多云平台，混合云-多云平台根据接收的元数据进行智能建模、智能目录、数据检索或数据安全隐私等应用。

可以看出，本实施例的基于元数据的知识图谱构建方法能够基于构建的元数据集的知识图谱进行各种元数据的调用，以基于调用的元数据进行数据编织，并且适用所有环境(包括混合云和多云台)中的设计、部署、利用和可重复使用的集成元数据，知识图谱的构建也能够使数据编织终端实现分布式数据访问，并能够智能的整理和编排元数据。

为了详细描述本申请提出的基于元数据的知识图谱构建方法，下面以图9示出的一示例性应用场景进行说明，详情如下：

首先，采集各种类别的元数据，例如可以是业务元数据、技术元数据以及操作元数据等，并对采集的元数据集中的元数据进行业务划分，并基于隶属于同一业务类别的元数据确定主业务名称(也即主数据名称)，得到主业务名称集合{N₁,N₂,N₃…N_n}，例如，可以按照企业内部或行业内部的业务主线进行业务划分，并基于隶属于同一业务类别的元数据提取主业务名称；利用主业务名称对元数据集中的元数据进行聚类处理，得到元数据子集，也即业务集N_n；对业务集中的元数据进行实体抽取，并利用各业务关系规则S_rules定义实体之间的实体关系，得到各业务集的子知识图谱，也即各项业务的知识图谱R_n，最后利用跨业务集合关系规则Rb_n进行各业务知识图谱的实体和关系抽取，实现元数据的跨业务关联，得到元数据集的知识谱图。

请参阅图10，图10中示出了数据编织系统，该数据编织系统应用了上述基于元数据的知识图谱构建方法，具体的，该数据编织系统包括数据源、元数据编织区间、元数据图谱构造器以及客户端接口。

其中，数据源是指元数据的存储区域，用于存储来自云cloud、企业ERP、数据中心Data Mart(DW)和Sass应用等的元数据，并将存储的元数据发送至元数据编织区间，元数据编织区间负责与每个分布式数据源通过集成通信时发生的性能和存储过程中使用混合云环境中执行数据源来源，也即充当数据构建器的窗口，从相关数据源检索数据构建器请求的元数据，并将请求的元数据发送至数据构建器，以方便数据构建器将获取的元数据进行编织后提供给所需的用户；元数据知识图谱构造器作为客户端接口提供服务的后端系统，从数据编织区间接收分布式数据，并向客户端接口提供元数据，以建立数据之间的相互关系，且在知识图谱中存储和管理集合关系，并实现从客户端接口接收数据搜索请求，也即调取指令，从知识图谱中确定对应的元数据，并将确定的元数据集成后提供给客户端接口；客户端接口作为为用户提供服务的接口，接收来自数据构建器的分布式数据，并建立元数据之间的关系，以实现将用户请求的数据交付给数据构建器，以及将检索到的数据提供给所需的用户。

在上述实施例示出的基于元数据的知识图谱构建方法的基础上，本申请还提出了一种元数据编织系统，元数据编织系统的架构可参阅图11。如图11所示，元数据编织系统中包括元数据资产分析、数据编织方法以及混合云-多云台等多个部分。其中，元数据资产分析可针对任何数据、任何云端和任何位置进行元数据采集，并将采集的元数据集中的元数据进行语义知识识别，进而利用语音识别后的元数据进行虚拟连接构建，得到元数据中各实体之间的初步元数据图谱模型；数据编织方法即对采集的元数据集中的元数据进行识别分析，并将识别分析后的元数据集中的元数据进行集成、整合以及治理，得到基于知识图谱的数据网络架构，也即对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称，以根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集，并基于元数据子集构建子知识图谱，并基于各子知识图谱中元数据包含的实体构建元数据集的知识图谱；混合云-多云台是用于从元数据集的知识图谱中获取元数据进行人工智能建模(Auto AI)、用于从元数据集的知识图谱中获取元数据进行智能化的数据目录(Auto Catalog)、用于从元数据集的知识图谱中获取元数据进行数据检索(Auto SQ)以及用于从元数据集的知识图谱中获取元数据进行数据安全隐私(Auto Privacy)等应用。

图12是本申请的一示例性实施例示出的基于元数据的知识图谱构建装置的框图。该装置可以应用于图1所示的实施环境。该装置也可以适用于其它的示例性实施环境，并具体配置在其它设备中，本实施例不对该装置所适用的实施环境进行限制。

如图12所示，该示例性的基于元数据的知识图谱构建装置1200包括类别划分模块121、聚类模块122、子知识图谱构建模块123以及知识图谱构建模块124，具体而言：

类别划分模块121，配置为对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称。

聚类模块122，配置为根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集。

子知识图谱构建模块123，配置为根据各元数据子集中的元数据包含的实体构建对应的子知识图谱。

知识图谱构建模块124，配置为基于各元数据子集对应的子知识图谱确定元数据集的知识图谱。

在该示例性的基于元数据的知识图谱构建装置中，通过对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；根据主数据名称对元数据集中的元数据进行聚类处理，得到多个元数据子集；根据各元数据子集中元数据包含的实体构建对应的子知识图谱；基于各元数据子集对应的子知识图谱确定元数据集的知识图谱。一方面，根据隶属于同一数据类别的元数据之间的共同特征确定主数据名称，并根据主数据名称对元数据集进行聚类，由此以主数据名称进行聚类的方式提高了聚类的准确性；另一方面，相较于现有技术对采集的元数据进行直接管理来说，本申请分别对聚类得到的元数据子集构建子知识图谱，并基于各子知识图谱确定元数据集的知识图谱，提高了基于元数据的知识图谱构建效率，避免了直接对元数据集中的元数据进行管理而导致的管理混乱。

在另一示例性的实施例中，类别划分模块121还包括语义识别处理模块、第一特征相似度计算模块和第一判断模块。具体的：

语义识别处理模块，配置为对采集的元数据集中的元数据进行语义识别处理，得到各元数据的语义特征。

特征相似度计算模块，配置为计算各元数据的语义特征与预设特征之间的第一特征相似度。

第一判断模块，配置为若第一特征相似度大于或等于第一预设相似度阈值，则确定对应元数据的数据类别为预设特征对应的数据类别。

在另一示例性的实施例中，聚类模块122还包括类中心选取模块、数据相似度计算模块和第二判断模块。具体的：

类中心选取模块，配置为根据主数据名称选取元数据集中的元数据，并将选取的元数据作为类中心。

数据相似度计算模块，配置为计算类中心与元数据集中其它元数据之间的数据相似度。

第二判断模块，配置为将数据相似度大于或等于第二预设相似度阈值的其它元数据作为类中心所在的元数据子集中的元数据。

在另一示例性的实施例中，类中心选取模块还包括提取模块和匹配确定类中心模块。具体的：

提取模块，配置为提取主数据名称的名称特征，以及元数据集中各元数据的数据特征。

匹配确定类中心模块，配置为将数据特征与名称特征相匹配的元数据作为类中心。

在另一示例性的实施例中，子知识图谱构建模块123还包括实体抽取模块、目标实体关系规则确定模块、子知识图谱构建子模块。具体的：

实体抽取模块，配置为对元数据子集中的各元数据进行实体抽取。

目标实体关系规则确定模块，配置为从自定义实体关系规则中确定任意两实体之间的目标实体关系规则，自定义实体关系规则包括不同实体之间的关联关系。

子知识图谱构建子模块，配置为基于目标实体关系规则和对应的实体构建子知识图谱。

在另一示例性的实施例中，知识图谱构建模块124还包括关联模块。具体的：

关联模块，配置为根据自定义实体关系规则确定不同子知识图谱之间具有关联关系的实体，并基于具有关联关系的实体汇总各子知识图谱，得到元数据集的知识图谱。

在另一示例性的实施例中，知识图谱构建模块124之后还包括调取模块和应用模块。具体的：

调取模块，配置为根据接收到的元数据调取指令调取元数据集的知识图谱中的元数据。

应用模块，配置为发送调取的元数据至数据编织终端，以使数据编织终端基于调取的元数据进行应用。

需要说明的是，上述实施例所提供的基于元数据的知识图谱构建装置与上述实施例所提供的基于元数据的知识图谱构建方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的基于元数据的知识图谱构建装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的基于元数据的知识图谱构建方法。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元(Central Processing Unit，CPU)1301，其可以根据存储在只读存储器(Read-Only Memory，ROM)1302中的程序或者从储存部分1308加载到随机访问存储器(Random Access Memory，RAM)1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output，I/O)接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1307；包括硬盘等的储存部分1308；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入储存部分1308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分13013从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种基于元数据的知识图谱构建方法，其特征在于，所述方法包括：

对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；

根据所述主数据名称对所述元数据集中的元数据进行聚类处理，得到多个元数据子集；

根据各元数据子集中元数据包含的实体构建对应的子知识图谱；

基于各元数据子集对应的子知识图谱确定所述元数据集的知识图谱；

其中，所述基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称，包括：

选取隶属于同一数据类别的元数据中的一元数据，并计算选取的元数据与同一数据类别的其它元数据之间的特征相似度，基于得到的多个特征相似度确定所选取的元数据的共性特征值；

比较隶属于同一数据类别中的各元数据的共性特征值，并基于最大共性特征值的元数据的数据特征确定对应的主数据名称。

2.根据权利要求1所述的方法，其特征在于，所述对采集的元数据集中的元数据进行类别划分的步骤，包括：

对所述采集的元数据集中的元数据进行语义识别处理，得到各元数据的语义特征；

计算各元数据的语义特征与预设特征之间的第一特征相似度；

若所述第一特征相似度大于或等于第一预设相似度阈值，则确定对应元数据的数据类别为所述预设特征对应的数据类别。

3.根据权利要求1所述的方法，其特征在于，所述根据所述主数据名称对所述元数据集中的元数据进行聚类处理，得到多个元数据子集的步骤，包括：

根据所述主数据名称选取所述元数据集中的元数据，并将选取的元数据作为类中心；

计算所述类中心与所述元数据集中其它元数据之间的数据相似度；

将所述数据相似度大于或等于第二预设相似度阈值的其它元数据作为所述类中心所在的元数据子集中的元数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述主数据名称选取所述元数据集中的元数据，并将选取的元数据作为类中心的步骤，包括：

提取所述主数据名称的名称特征，以及所述元数据集中各元数据的数据特征；

将数据特征与所述名称特征相匹配的元数据作为所述类中心。

5.根据权利要求1所述的方法，其特征在于，所述根据各元数据子集中元数据包含的实体构建对应的子知识图谱的步骤，包括：

对所述元数据子集中的各元数据进行实体抽取；

从自定义实体关系规则中确定任意两实体之间的目标实体关系规则，所述自定义实体关系规则包括不同实体之间的关联关系；

基于所述目标实体关系规则和对应的实体构建所述子知识图谱。

6.根据权利要求1所述的方法，其特征在于，所述基于各元数据子集对应的子知识图谱确定所述元数据集的知识图谱的步骤，包括：

根据自定义实体关系规则确定不同子知识图谱之间具有关联关系的实体，并基于所述具有关联关系的实体汇总各子知识图谱，得到所述元数据集的知识图谱。

7.根据权利要求1所述的方法，其特征在于，在所述基于各元数据子集对应的子知识图谱确定所述元数据集的知识图谱的步骤之后，所述方法还包括：

根据接收到的元数据调取指令调取所述元数据集的知识图谱中的元数据；

发送调取的元数据至数据编织终端，以使所述数据编织终端基于所述调取的元数据进行应用。

8.一种基于元数据的知识图谱构建装置，其特征在于，所述装置包括：

类别划分模块，配置为对采集的元数据集中的元数据进行类别划分，并基于隶属于同一类别的元数据之间的共同数据特征确定对应的主数据名称；

聚类模块，配置为根据所述主数据名称对所述元数据集中的元数据进行聚类处理，得到多个元数据子集；

子知识图谱构建模块，配置为根据各元数据子集中的元数据包含的实体构建对应的子知识图谱；

知识图谱构建模块，配置为基于各元数据子集对应的子知识图谱确定所述元数据集的知识图谱；

其中，所述类别划分模块还配置为：

9.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-7中的任一项所述的基于元数据的知识图谱构建方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-7中的任一项所述的基于元数据的知识图谱构建方法。