CN117520620B

CN117520620B - 一种基于元数据的数据资源自动关联方法与系统

Info

Publication number: CN117520620B
Application number: CN202410016662.1A
Authority: CN
Inventors: 戚可生; 周中元; 严红; 陆保国; 蒋锴; 郑少秋; 苏晓威; 后弘毅
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-03-19
Anticipated expiration: 2044-01-05
Also published as: CN117520620A

Abstract

本发明公开了一种基于元数据的数据资源自动关联方法与系统，所述方法包括：对业务系统产生的数据，提供页面配置的方式对数据源信息进行配置，划定接入的数据资源范围，采集相关数据资源的元数据信息；针对接入数据，根据数据结构的不同采用不同的元数据关联计算方法，计算元数据关联信息；解析计算出的元数据关联信息，自动构建数据资源的关联关系；针对自动构建的数据资源关联关系，进行审核校验；针对审核通过后的数据资源的关联关系，提供多维度的可视化方式，以及支持与数据资源的关联关系进行查询应用。本发明根据元数据信息自动计算出数据资源的关联关系，无需对业务数据进行理解，有力支撑了数据的关联关系的发现与运用。

Description

一种基于元数据的数据资源自动关联方法与系统

技术领域

本发明涉及数据资源的关联方法，具体涉及一种基于元数据的数据资源自动关联方法与系统。

背景技术

随着信息技术的发展，业务系统产生数据量越来越大，快速找到业务数据间的关联，增加关联数据发现与利用的需求越来越迫切。数据资源的关联方法，通常是数据工程师对数据结构与内容非常理解，然后人为的定义数据资源的关联关系，需要耗费很大的人力资源与时间资源，影响数据价值的运用。

发明内容

发明目的：本发明的目的是提供一种基于元数据的数据资源自动关联方法与系统，能够实现对数据资源之间的关联关系的快速发现。

技术方案：第一方面，一种基于元数据的数据资源自动关联方法，包括以下步骤：

S1、对业务系统产生的数据库表、文档、图片、音频和视频数据，提供页面配置的方式对数据源信息进行配置，划定接入的数据资源范围，采集相关数据资源的元数据信息；

S2、针对接入的异构数据资源的元数据信息，根据数据结构的不同采用不同的元数据关联计算方法，计算元数据关联信息；

S3、解析计算出的元数据关联信息，自动构建数据资源的关联关系，并将数据资源的关联关系进行持久化；

S4、针对自动构建的数据资源关联关系，进行审核校验，包括对关联关系进行增加、修改、删除；

S5、针对审核通过后的数据资源的关联关系，提供多维度的可视化方式，以及支持与数据资源的关联关系进行查询应用。

进一步地，所述步骤S1中，可接入的数据源类型包括结构化数据源、半结构化数据源与非结构化数据源，结构化数据源和半结构化数据源包括数据库，非结构化数据源包括分布式文件系统、FTP；通过配置异构数据源的信息，连接相应数据源，在数据源中设置接入的数据范围：

若所述的数据源类型为结构化数据源或半结构化数据源，则在数据源中设置接入的数据库表范围，采集表的元数据信息，包括表名、表备注、字段名、字段类型、字段备注、主外键信息，表的连接信息中的一项或多项；

若所述的数据源类型为非结构化数据源，则在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据，采集文件名称、创建时间、创建人、文件大小、文件的存储位置信息中的一项或多项。

进一步地，所述步骤S2中，针对接入的元数据，所述关联计算方法包括3种情况：库表资源与库表资源、库表资源与文件资源、文件资源与文件资源，通过文本相似度算法自动计算不同数据资源的元数据关联关系。

进一步地，对于库表资源与库表资源，根据以下步骤计算关联关系：

S21、若数据库表之间存在外键关联，则将外键定义为两张表之间的关联，记为F1，格式为{表A，表B，外键值}，若数据库表之间不存在外键关联，转步骤S22；

S22、通过文本相似度算法计算数据资源间的表名、表备注的文本相似度；若相似度大于等于第一阈值，转步骤S23，若小于第一阈值，则认为两个数据资源之间没有关联；

S23、计算两张表的字段名和字段备注的相似度，若相似度大于等于第二阈值，则认为两张表有通过该字段建立的关联关系，若所有字段的相似度都小于第二阈值，则认为两张表的数据资源没有关联关系；

S24、将步骤S23中计算得出相似的字段映射集合F2，定义为这两张表的关联，F2格式为{表名A，表名B，（字段Ai|字段Bj|相似度值Sij，字段Am|字段Bn|相似度值Smn，…）}。

进一步地，对于库表资源与文件资源，根据以下步骤计算关联关系：

S2a、通过文本相似度算法计算库表资源的表名、表备注与文件资源的文件名的相似度，若相似度大于等于第三阈值，则认为库表资源与文件资源存在关联，若相似度小于第三阈值，则认为库表资源与文件资源没有关联；

S2b、将库表与文件资源的名称映射F3，定义为这两个数据资源的关联，F3格式为{表名At，文件Bf，相似度值Stf}。

进一步地，对于文件资源与文件资源，根据以下步骤计算关联关系：

S2A、通过文本相似度算法计算两个文件资源的文件名的相似度，若相似度大于等于第四阈值，则认为两个文件资源存在关联，若相似度小于第四阈值，则认为两个文件资源没有关联；

S2B、将两个文件资源的名称映射F4，定义为这两个数据资源的关联，F4格式为{文件Aa，文件Bb，相似度值Sab}。

进一步地，所述的文本相似度算法包括：余弦相似度算法、TF-IDF模型、LDA算法、杰卡德相似度算法中的一种或多种，配置页面支持用户自定义上传文本相似度算法，也支持以配置权重的方式综合利用各个文本相似度算法。

第二方面，一种基于元数据的数据资源自动关联系统，包括：

元数据接入模块，用于对业务系统产生的数据库表、文档、图片、音频和视频数据，提供页面配置的方式对数据源信息进行配置，划定接入的数据资源范围，采集相关数据资源的元数据信息；

关联计算模块，用于针对接入的异构数据资源的元数据信息，根据数据结构的不同采用不同的元数据关联计算方法，计算元数据关联信息；

关联构建模块，用于解析计算出的元数据关联信息，自动构建数据资源的关联关系，并将数据资源的关联关系进行持久化；

审核校验模块，用于针对自动构建的数据资源关联关系，进行审核校验，包括对关联关系进行增加、修改、删除；

关联应用模块，用于针对审核通过后的数据资源的关联关系，提供多维度的可视化方式，以及支持与数据资源的关联关系进行查询应用。

有益效果：（1）本发明提出了一种基于元数据的数据资源自动关联方法与系统，能够根据根据业务场景需要，灵活地接入数据资源，通过数据资源的元数据来构建数据资源间的关联关系，并且进行校验审核和可视化呈现，在工程上更能全面发现数据资源间的关联，提升数据资源的利用率。（2）本发明只需要在WEB页面中配置待分析的数据资源的信息，即可自动采集元数据信息，并且能够根据元数据信息自动计算出数据资源的关联关系，无需对业务数据进行理解，有力支撑了数据的关联关系的发现与运用。

附图说明

图1是本发明的基于元数据的数据资源自动关联方法的流程图；

图2是本发明的异构数据元数据接入示意图；

图3是本发明的异构数据资源相关度计算示意图；

图4是本发明的数据资源关联构建与可视化呈现示意图；

图5是本发明的基于元数据的数据资源自动关联系统示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参照图1，本发明所述的基于元数据的数据资源自动关联方法，包括以下步骤：

S1，对业务系统产生的数据库表、文档、图片、音频和视频数据，提供页面配置的方式对数据源信息进行配置，划定接入的数据资源范围，采集相关数据资源的元数据信息；

根据本发明的实施方式，在步骤S1中，根据业务需求来配置数据源，接入待分析关联的业务数据资源。本发明通过在Web页面输入数据源参数，配置待分析的数据源信息，示意图如图2所示。本发明将可接入的数据源类型划分为结构化数据源、半结构化数据源与非结构化数据源，其中结构化数据源和半结构化数据源包括数据库，例如，结构化数据源包括mysql、达梦、oracle等关系型的数据库，半结构化数据源包括hbase等数据库，数据库以表的形式存储数据信息；非结构化数据源包括分布式文件系统、FTP等，主要存储等文档、视频、音频、图片等资源。本发明中结构化数据源和半结构化数据源也被称为数据库数据源，非结构化数据源也被称为文件数据源。

对于每一张数据库表，可以根据其配置信息获取数据库的元数据，所述数据库的元数据是指构成或标识数据库表的基本元素，例如，表名、表备注、字段名、字段类型、字段备注、主外键、表的连接信息等。对于每一个文件，可以根据文件配置信息获取文件数据的元数据，所述文件数据的元数据是指标识文件的基本元素，例如，文件名称、创建时间、创建人、文件大小、文件的存储位置信息等。

通过在配置页面上配置异构数据源的信息，连接相应数据源，在数据源中设置接入的数据范围，获取元数据：若所述的数据源类型为结构化数据源或半结构化数据源，则在数据源中设置接入的数据库表范围，采集表的元数据信息，包括表名、表备注、字段名、字段类型、字段备注、主外键信息；若所述的数据源类型为非结构化数据源，则在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据，采集文件名称、创建时间、创建人、文件大小信息。采集的数据库元数据和文件元数据存入元数据库中。完成元数据的接入，为后续的进行数据资源关联分析提供元数据支撑。

根据本发明的实施方式，在步骤S2中，针对接入的异构数据资源的元数据信息，采用元数据的关联计算算法，计算数据资源的元数据关联信息。所述关联计算方法包括3种情况：库表资源与库表资源（库表资源包含结构化与半结构化数据资源）、库表资源与文件资源、文件资源与文件资源，通过文本相似度算法自动计算不同数据资源的元数据关联关系。

对于库表资源与库表资源，根据以下步骤计算关联关系：

S21、若数据库表之间存在外键关联，则将该外键定义为这两张表之间的关联，记为F1，格式为{表A，表B，外键值}，表A和表B分别为两张表的标识（如表名），若数据库表之间不存在外键关联，转步骤S22；

数据库外键用于建立表与表之间的关系，以保证数据的完整性和一致性。外键是指一个表中的一个或多个字段，它们的值必须在另一个表中的某个字段中存在。这个被参照的表中的字段通常是主键（Primary Key），这样就可以通过外键将两个表关联起来。外键关联指的是一个表中的一个或多个字段在另一个表中的某个字段中存在。

S22、通过文本相似度算法计算数据资源间的表名、表备注的文本相似度；若相似度大于等于第一阈值，转步骤S23，若小于第一阈值，则认为这两个数据资源之间没有关联；

具体地，两张表的表名和表备注的文本相似度计算方法如下：根据表A的表名和表备注构建第一特征值，根据表B的表名和表备注构建第二特征值，计算两个特征值之间的相似度。其中特征值的构建根据采用的相似度算法的要求来构建。例如，对于余弦相似度算法，通过文本切分获得表名和表备注的关键词、用数值向量表示文本内容来建立词向量、根据公式计算两个词向量之间的余弦距离来表征相似度。又例如，对于杰卡德相似度算法，通过文本切分获得对应表A和表B的两个词语集合，通过公式计算两个集合之间的杰卡德相似度作为文本相似度。对于其他的文本相似度算法，不再一一举例。

S23、计算这两张表的字段名和字段备注的相似度，若相似度大于等于第二阈值，则认为这两张表有通过该字段建立的关联关系，若所有字段的相似度都小于第二阈值，则认为这两张表的数据资源没有关联关系。两张表的字段名和字段备注的相似度计算方法可参照前述步骤S22中关于表名和表备注的文本相似度的计算。

对于库表资源与文件资源，根据以下步骤计算关联关系：

S2a、通过文本相似度算法计算库表资源的表名、表备注与文件资源的文件名的相似度，若相似度大于等于第三阈值，则认为该库表资源与该文件资源存在关联，若相似度小于阈值第三阈值，则认为该库表资源与该文件资源没有关联；

这里，库表资源的表名、表备注与文件资源的文件名的相似度计算包括：根据表资源的表名、表备注形成表信息At，根据表信息At构建第三特征，根据文件资源的文件名Bf构建第四特征，计算两个特征值之间的相似度Stf。特征值的构建方法可参照前述步骤S22中的描述，此处不再赘述。

S2b、将该表与该文件资源的名称映射F3，定义为这两个数据资源的关联，F3格式为{表At，文件Bf，相似度值Stf}。

对于文件资源与文件资源，根据以下步骤计算关联关系：

S2A、通过文本相似度算法计算两个文件资源的文件名的相似度，若相似度大于等于第四阈值，则认为这两个文件资源存在关联，若相似度小于第四阈值，则认为两个文件资源没有关联；

这里，两个文件资源的文件名的相似度计算包括：根据文件A的文件名Aa构建第五特征，根据文件B的文件名Bb构建第六特征，计算两个特征值之间的相似度Sab。特征值的构建方法可参照前述步骤S22中的描述，此处不再赘述。

S2B、将这两个文件资源的名称映射F4，定义为这两个数据资源的关联，F4格式为{文件Aa，文件Bb，相似度值Sab}。

可选地，文件资源与文件资源之间的关联关系，还可以利用两个文件的创建时间、创建人、文件大小信息、文件存储位置信息进行计算。

可选地，文件资源与文件资源之间的关联关系，可以通过文件名相似度、创建时间相似度、创建人相似度、文件大小相似度、文件存储相似度进行组合计算，例如通过其中两项或更多项的加权融合的方式来计算得到F4。

所述的文本相似度算法包括：余弦相似度算法、TF-IDF（Term Frequency-InverseDocument Frequency）模型、LDA（Latent Dirichlet allocation）算法、杰卡德（Jaccard）相似度算法中的一种或多种，且在配置页面支持用户自定义上传文本相似度算法，也支持以配置权重的方式综合利用各个文本相似度算法。例如，在存在多张表和多个文件的场景下，对于第一张表与第二张表之间的相似度，可以指定为余弦相似度，资源关联关系记为R₁；对于第二张表与第三张表之间的相似度，可以指定为TF-IDF模型相似度，资源关联关系记为R₂；对于第三张表与第一文件之间的相似度，可以指定为自定义相似度，资源关联关系记为R₃，……。又例如，在利用权重配置的方式下，对于第一文件与第二文件之间的相似度，可以指定为余弦相似度、TF-IDF模型相似度、杰卡德相似度的加权融合方式，其中权重系数之和为1，资源关联关系记为R₁；对于第二文件与第一张表之间的相似度，可以指定为其他几种相似度算法的加权融合，资源关联关系记为R₂。异构数据资源的相关度计算示例如图3所示。

根据本发明的实施方式，在步骤S3中，将计算得到的关联关系（包括F1、F2、F3、F4等）进行解析，获得对应数据资源之间的关联映射，并将映射进行持久化存储到数据库表中，支撑后续的数据资源的查询应用。

根据本发明的实施方式，在步骤S4中对自动构建的数据关联进行人工校验审核，支持对自动生成的关联关系进行修改、增加、删除。通过审核进一步提高关联的准确性。

根据本发明的实施方式，在步骤S5中，针对自动生成的数据资源关联关系，提供多种可视化的呈现方式来展示数据资源的关联关系（包括树状图、力导向图等），提升关联的可理解性。并且支持与数据资源的关联关系进行查询应用。参照图4，在关联关系持久化存储之后，响应于查询请求，可以提供表、文件、视频、图片等资源之间的对应关联关系的可视化展示。

本发明能够自动发现数据资源间的关联关系，该方法只需要在WEB页面中配置待分析的数据资源的信息，即可自动采集元数据信息，并且能够根据元数据信息自动计算出数据资源的关联关系，无需对业务数据进行理解，有力支撑了数据的关联关系的发现与运用。

参照图5，基于和方法实施例相同的技术构思，本发明还提供一种基于元数据的数据资源自动关联系统，包括：

应理解，本发明实施例中的基于元数据的数据资源自动关联系统可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

Claims

1.一种基于元数据的数据资源自动关联方法，其特征在于，包括以下步骤：

S1、对业务系统产生的数据库表、文档、图片、音频和视频数据，提供页面配置的方式对数据源信息进行配置，划定接入的数据资源范围，采集相关数据资源的元数据信息，其中，可接入的数据源类型包括结构化数据源、半结构化数据源与非结构化数据源，结构化数据源和半结构化数据源包括数据库，非结构化数据源包括分布式文件系统、FTP；通过配置异构数据源的信息，连接相应数据源，在数据源中设置接入的数据范围：

若所述的数据源类型为结构化数据源或半结构化数据源，则在数据源中设置接入的数据库表范围，采集表的元数据信息，包括表名、表备注、字段名、字段类型、字段备注、主外键、表的连接信息中的一项或多项；

若所述的数据源类型为非结构化数据源，则在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据，采集文件名称、创建时间、创建人、文件大小、文件的存储位置信息中的一项或多项；

S2、针对接入的异构数据资源的元数据信息，根据数据结构的不同采用不同的元数据关联计算方法，计算元数据关联信息，所述关联计算方法包括3种情况：库表资源与库表资源、库表资源与文件资源、文件资源与文件资源，通过文本相似度算法自动计算不同数据资源的元数据关联信息；

2.根据权利要求1所述的方法，其特征在于，对于库表资源与库表资源，根据以下步骤计算关联信息：

3.根据权利要求1所述的方法，其特征在于，对于库表资源与文件资源，根据以下步骤计算关联信息：

4.根据权利要求1所述的方法，其特征在于，对于文件资源与文件资源，根据以下步骤计算关联信息：

5.根据权利要求1所述的方法，其特征在于，所述的文本相似度算法包括：余弦相似度算法、TF-IDF模型、LDA算法、杰卡德相似度算法中的一种或多种，配置页面支持用户自定义上传文本相似度算法，也支持以配置权重的方式综合利用各个文本相似度算法。

6.一种基于元数据的数据资源自动关联系统，其特征在于，包括：

元数据接入模块，用于对业务系统产生的数据库表、文档、图片、音频和视频数据，提供页面配置的方式对数据源信息进行配置，划定接入的数据资源范围，采集相关数据资源的元数据信息，其中，可接入的数据源类型包括结构化数据源、半结构化数据源与非结构化数据源，结构化数据源和半结构化数据源包括数据库，非结构化数据源包括分布式文件系统、FTP；所述元数据接入模块支持配置异构数据源的信息，连接相应数据源，在数据源中设置接入的数据范围：

若所述的数据源类型为结构化数据源或半结构化数据源，则支持在数据源中设置接入的数据库表范围，采集表的元数据信息，包括表名、表备注、字段名、字段类型、字段备注、主外键、表的连接信息中的一项或多项；

若所述的数据源类型为非结构化数据源，则支持在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据，采集文件名称、创建时间、创建人、文件大小、文件存储位置信息中的一项或多项；

关联计算模块，用于针对接入的异构数据资源的元数据信息，根据数据结构的不同采用不同的元数据关联计算方法，计算元数据关联信息，所述关联计算方法包括3种情况：库表资源与库表资源、库表资源与文件资源、文件资源与文件资源，所述关联计算模块通过文本相似度算法自动计算不同数据资源的元数据关联信息；