CN117520620A - 一种基于元数据的数据资源自动关联方法与系统 - Google Patents

一种基于元数据的数据资源自动关联方法与系统 Download PDF

Info

Publication number
CN117520620A
CN117520620A CN202410016662.1A CN202410016662A CN117520620A CN 117520620 A CN117520620 A CN 117520620A CN 202410016662 A CN202410016662 A CN 202410016662A CN 117520620 A CN117520620 A CN 117520620A
Authority
CN
China
Prior art keywords
data
association
resources
metadata
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410016662.1A
Other languages
English (en)
Other versions
CN117520620B (zh
Inventor
戚可生
周中元
严红
陆保国
蒋锴
郑少秋
苏晓威
后弘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202410016662.1A priority Critical patent/CN117520620B/zh
Publication of CN117520620A publication Critical patent/CN117520620A/zh
Application granted granted Critical
Publication of CN117520620B publication Critical patent/CN117520620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元数据的数据资源自动关联方法与系统,所述方法包括:对业务系统产生的数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;针对接入数据,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;解析计算出的元数据关联信息,自动构建数据资源的关联关系;针对自动构建的数据资源关联关系,进行审核校验;针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。本发明根据元数据信息自动计算出数据资源的关联关系,无需对业务数据进行理解,有力支撑了数据的关联关系的发现与运用。

Description

一种基于元数据的数据资源自动关联方法与系统
技术领域
本发明涉及数据资源的关联方法,具体涉及一种基于元数据的数据资源自动关联方法与系统。
背景技术
随着信息技术的发展,业务系统产生数据量越来越大,快速找到业务数据间的关联,增加关联数据发现与利用的需求越来越迫切。数据资源的关联方法,通常是数据工程师对数据结构与内容非常理解,然后人为的定义数据资源的关联关系,需要耗费很大的人力资源与时间资源,影响数据价值的运用。
发明内容
发明目的:本发明的目的是提供一种基于元数据的数据资源自动关联方法与系统,能够实现对数据资源之间的关联关系的快速发现。
技术方案:第一方面,一种基于元数据的数据资源自动关联方法,包括以下步骤:
S1、对业务系统产生的数据库表、文档、图片、音频和视频数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;
S2、针对接入的异构数据资源的元数据信息,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;
S3、解析计算出的元数据关联信息,自动构建数据资源的关联关系,并将数据资源的关联关系进行持久化;
S4、针对自动构建的数据资源关联关系,进行审核校验,包括对关联关系进行增加、修改、删除;
S5、针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。
进一步地,所述步骤S1中,可接入的数据源类型包括结构化数据源、半结构化数据源与非结构化数据源,结构化数据源和半结构化数据源包括数据库,非结构化数据源包括分布式文件系统、FTP;通过配置异构数据源的信息,连接相应数据源,在数据源中设置接入的数据范围:
若所述的数据源类型为结构化数据源或半结构化数据源,则在数据源中设置接入的数据库表范围,采集表的元数据信息,包括表名、表备注、字段名、字段类型、字段备注、主外键信息,表的连接信息中的一项或多项;
若所述的数据源类型为非结构化数据源,则在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据,采集文件名称、创建时间、创建人、文件大小、文件的存储位置信息中的一项或多项。
进一步地,所述步骤S2中,针对接入的元数据,所述关联计算方法包括3种情况:库表资源与库表资源、库表资源与文件资源、文件资源与文件资源,通过文本相似度算法自动计算不同数据资源的元数据关联关系。
进一步地,对于库表资源与库表资源,根据以下步骤计算关联关系:
S21、若数据库表之间存在外键关联,则将外键定义为两张表之间的关联,记为F1,格式为{表A,表B,外键值},若数据库表之间不存在外键关联,转步骤S22;
S22、通过文本相似度算法计算数据资源间的表名、表备注的文本相似度;若相似度大于等于第一阈值,转步骤S23,若小于第一阈值,则认为两个数据资源之间没有关联;
S23、计算两张表的字段名和字段备注的相似度,若相似度大于等于第二阈值,则认为两张表有通过该字段建立的关联关系,若所有字段的相似度都小于第二阈值,则认为两张表的数据资源没有关联关系;
S24、将步骤S23中计算得出相似的字段映射集合F2,定义为这两张表的关联,F2格式为{表名A,表名B,(字段Ai|字段Bj|相似度值Sij,字段Am|字段Bn|相似度值Smn,…)}。
进一步地,对于库表资源与文件资源,根据以下步骤计算关联关系:
S2a、通过文本相似度算法计算库表资源的表名、表备注与文件资源的文件名的相似度,若相似度大于等于第三阈值,则认为库表资源与文件资源存在关联,若相似度小于第三阈值,则认为库表资源与文件资源没有关联;
S2b、将库表与文件资源的名称映射F3,定义为这两个数据资源的关联,F3格式为{表名At,文件Bf,相似度值Stf}。
进一步地,对于文件资源与文件资源,根据以下步骤计算关联关系:
S2A、通过文本相似度算法计算两个文件资源的文件名的相似度,若相似度大于等于第四阈值,则认为两个文件资源存在关联,若相似度小于第四阈值,则认为两个文件资源没有关联;
S2B、将两个文件资源的名称映射F4,定义为这两个数据资源的关联,F4格式为{文件Aa,文件Bb,相似度值Sab}。
进一步地,所述的文本相似度算法包括:余弦相似度算法、TF-IDF模型、LDA算法、杰卡德相似度算法中的一种或多种,配置页面支持用户自定义上传文本相似度算法,也支持以配置权重的方式综合利用各个文本相似度算法。
第二方面,一种基于元数据的数据资源自动关联系统,包括:
元数据接入模块,用于对业务系统产生的数据库表、文档、图片、音频和视频数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;
关联计算模块,用于针对接入的异构数据资源的元数据信息,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;
关联构建模块,用于解析计算出的元数据关联信息,自动构建数据资源的关联关系,并将数据资源的关联关系进行持久化;
审核校验模块,用于针对自动构建的数据资源关联关系,进行审核校验,包括对关联关系进行增加、修改、删除;
关联应用模块,用于针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。
有益效果:(1)本发明提出了一种基于元数据的数据资源自动关联方法与系统,能够根据根据业务场景需要,灵活地接入数据资源,通过数据资源的元数据来构建数据资源间的关联关系,并且进行校验审核和可视化呈现,在工程上更能全面发现数据资源间的关联,提升数据资源的利用率。(2)本发明只需要在WEB页面中配置待分析的数据资源的信息,即可自动采集元数据信息,并且能够根据元数据信息自动计算出数据资源的关联关系,无需对业务数据进行理解,有力支撑了数据的关联关系的发现与运用。
附图说明
图1是本发明的基于元数据的数据资源自动关联方法的流程图;
图2是本发明的异构数据元数据接入示意图;
图3是本发明的异构数据资源相关度计算示意图;
图4是本发明的数据资源关联构建与可视化呈现示意图;
图5是本发明的基于元数据的数据资源自动关联系统示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
参照图1,本发明所述的基于元数据的数据资源自动关联方法,包括以下步骤:
S1,对业务系统产生的数据库表、文档、图片、音频和视频数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;
S2、针对接入的异构数据资源的元数据信息,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;
S3、解析计算出的元数据关联信息,自动构建数据资源的关联关系,并将数据资源的关联关系进行持久化;
S4、针对自动构建的数据资源关联关系,进行审核校验,包括对关联关系进行增加、修改、删除;
S5、针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。
根据本发明的实施方式,在步骤S1中,根据业务需求来配置数据源,接入待分析关联的业务数据资源。本发明通过在Web页面输入数据源参数,配置待分析的数据源信息,示意图如图2所示。本发明将可接入的数据源类型划分为结构化数据源、半结构化数据源与非结构化数据源,其中结构化数据源和半结构化数据源包括数据库,例如,结构化数据源包括mysql、达梦、oracle等关系型的数据库,半结构化数据源包括hbase等数据库,数据库以表的形式存储数据信息;非结构化数据源包括分布式文件系统、FTP等,主要存储等文档、视频、音频、图片等资源。本发明中结构化数据源和半结构化数据源也被称为数据库数据源,非结构化数据源也被称为文件数据源。
对于每一张数据库表,可以根据其配置信息获取数据库的元数据,所述数据库的元数据是指构成或标识数据库表的基本元素,例如,表名、表备注、字段名、字段类型、字段备注、主外键、表的连接信息等。对于每一个文件,可以根据文件配置信息获取文件数据的元数据,所述文件数据的元数据是指标识文件的基本元素,例如,文件名称、创建时间、创建人、文件大小、文件的存储位置信息等。
通过在配置页面上配置异构数据源的信息,连接相应数据源,在数据源中设置接入的数据范围,获取元数据:若所述的数据源类型为结构化数据源或半结构化数据源,则在数据源中设置接入的数据库表范围,采集表的元数据信息,包括表名、表备注、字段名、字段类型、字段备注、主外键信息;若所述的数据源类型为非结构化数据源,则在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据,采集文件名称、创建时间、创建人、文件大小信息。采集的数据库元数据和文件元数据存入元数据库中。完成元数据的接入,为后续的进行数据资源关联分析提供元数据支撑。
根据本发明的实施方式,在步骤S2中,针对接入的异构数据资源的元数据信息,采用元数据的关联计算算法,计算数据资源的元数据关联信息。所述关联计算方法包括3种情况:库表资源与库表资源(库表资源包含结构化与半结构化数据资源)、库表资源与文件资源、文件资源与文件资源,通过文本相似度算法自动计算不同数据资源的元数据关联关系。
对于库表资源与库表资源,根据以下步骤计算关联关系:
S21、若数据库表之间存在外键关联,则将该外键定义为这两张表之间的关联,记为F1,格式为{表A,表B,外键值},表A和表B分别为两张表的标识(如表名),若数据库表之间不存在外键关联,转步骤S22;
数据库外键用于建立表与表之间的关系,以保证数据的完整性和一致性。外键是指一个表中的一个或多个字段,它们的值必须在另一个表中的某个字段中存在。这个被参照的表中的字段通常是主键(Primary Key),这样就可以通过外键将两个表关联起来。外键关联指的是一个表中的一个或多个字段在另一个表中的某个字段中存在。
S22、通过文本相似度算法计算数据资源间的表名、表备注的文本相似度;若相似度大于等于第一阈值,转步骤S23,若小于第一阈值,则认为这两个数据资源之间没有关联;
具体地,两张表的表名和表备注的文本相似度计算方法如下:根据表A的表名和表备注构建第一特征值,根据表B的表名和表备注构建第二特征值,计算两个特征值之间的相似度。其中特征值的构建根据采用的相似度算法的要求来构建。例如,对于余弦相似度算法,通过文本切分获得表名和表备注的关键词、用数值向量表示文本内容来建立词向量、根据公式计算两个词向量之间的余弦距离来表征相似度。又例如,对于杰卡德相似度算法,通过文本切分获得对应表A和表B的两个词语集合,通过公式计算两个集合之间的杰卡德相似度作为文本相似度。对于其他的文本相似度算法,不再一一举例。
S23、计算这两张表的字段名和字段备注的相似度,若相似度大于等于第二阈值,则认为这两张表有通过该字段建立的关联关系,若所有字段的相似度都小于第二阈值,则认为这两张表的数据资源没有关联关系。两张表的字段名和字段备注的相似度计算方法可参照前述步骤S22中关于表名和表备注的文本相似度的计算。
S24、将步骤S23中计算得出相似的字段映射集合F2,定义为这两张表的关联,F2格式为{表名A,表名B,(字段Ai|字段Bj|相似度值Sij,字段Am|字段Bn|相似度值Smn,…)}。
对于库表资源与文件资源,根据以下步骤计算关联关系:
S2a、通过文本相似度算法计算库表资源的表名、表备注与文件资源的文件名的相似度,若相似度大于等于第三阈值,则认为该库表资源与该文件资源存在关联,若相似度小于阈值第三阈值,则认为该库表资源与该文件资源没有关联;
这里,库表资源的表名、表备注与文件资源的文件名的相似度计算包括:根据表资源的表名、表备注形成表信息At,根据表信息At构建第三特征,根据文件资源的文件名Bf构建第四特征,计算两个特征值之间的相似度Stf。特征值的构建方法可参照前述步骤S22中的描述,此处不再赘述。
S2b、将该表与该文件资源的名称映射F3,定义为这两个数据资源的关联,F3格式为{表At,文件Bf,相似度值Stf}。
对于文件资源与文件资源,根据以下步骤计算关联关系:
S2A、通过文本相似度算法计算两个文件资源的文件名的相似度,若相似度大于等于第四阈值,则认为这两个文件资源存在关联,若相似度小于第四阈值,则认为两个文件资源没有关联;
这里,两个文件资源的文件名的相似度计算包括:根据文件A的文件名Aa构建第五特征,根据文件B的文件名Bb构建第六特征,计算两个特征值之间的相似度Sab。特征值的构建方法可参照前述步骤S22中的描述,此处不再赘述。
S2B、将这两个文件资源的名称映射F4,定义为这两个数据资源的关联,F4格式为{文件Aa,文件Bb,相似度值Sab}。
可选地,文件资源与文件资源之间的关联关系,还可以利用两个文件的创建时间、创建人、文件大小信息、文件存储位置信息进行计算。
可选地,文件资源与文件资源之间的关联关系,可以通过文件名相似度、创建时间相似度、创建人相似度、文件大小相似度、文件存储相似度进行组合计算,例如通过其中两项或更多项的加权融合的方式来计算得到F4。
所述的文本相似度算法包括:余弦相似度算法、TF-IDF(Term Frequency-InverseDocument Frequency)模型、LDA(Latent Dirichlet allocation)算法、杰卡德(Jaccard)相似度算法中的一种或多种,且在配置页面支持用户自定义上传文本相似度算法,也支持以配置权重的方式综合利用各个文本相似度算法。例如,在存在多张表和多个文件的场景下,对于第一张表与第二张表之间的相似度,可以指定为余弦相似度,资源关联关系记为R1;对于第二张表与第三张表之间的相似度,可以指定为TF-IDF模型相似度,资源关联关系记为R2;对于第三张表与第一文件之间的相似度,可以指定为自定义相似度,资源关联关系记为R3,……。又例如,在利用权重配置的方式下,对于第一文件与第二文件之间的相似度,可以指定为余弦相似度、TF-IDF模型相似度、杰卡德相似度的加权融合方式,其中权重系数之和为1,资源关联关系记为R1;对于第二文件与第一张表之间的相似度,可以指定为其他几种相似度算法的加权融合,资源关联关系记为R2。异构数据资源的相关度计算示例如图3所示。
根据本发明的实施方式,在步骤S3中,将计算得到的关联关系(包括F1、F2、F3、F4等)进行解析,获得对应数据资源之间的关联映射,并将映射进行持久化存储到数据库表中,支撑后续的数据资源的查询应用。
根据本发明的实施方式,在步骤S4中对自动构建的数据关联进行人工校验审核,支持对自动生成的关联关系进行修改、增加、删除。通过审核进一步提高关联的准确性。
根据本发明的实施方式,在步骤S5中,针对自动生成的数据资源关联关系,提供多种可视化的呈现方式来展示数据资源的关联关系(包括树状图、力导向图等),提升关联的可理解性。并且支持与数据资源的关联关系进行查询应用。参照图4,在关联关系持久化存储之后,响应于查询请求,可以提供表、文件、视频、图片等资源之间的对应关联关系的可视化展示。
本发明能够自动发现数据资源间的关联关系,该方法只需要在WEB页面中配置待分析的数据资源的信息,即可自动采集元数据信息,并且能够根据元数据信息自动计算出数据资源的关联关系,无需对业务数据进行理解,有力支撑了数据的关联关系的发现与运用。
参照图5,基于和方法实施例相同的技术构思,本发明还提供一种基于元数据的数据资源自动关联系统,包括:
元数据接入模块,用于对业务系统产生的数据库表、文档、图片、音频和视频数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;
关联计算模块,用于针对接入的异构数据资源的元数据信息,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;
关联构建模块,用于解析计算出的元数据关联信息,自动构建数据资源的关联关系,并将数据资源的关联关系进行持久化;
审核校验模块,用于针对自动构建的数据资源关联关系,进行审核校验,包括对关联关系进行增加、修改、删除;
关联应用模块,用于针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。
应理解,本发明实施例中的基于元数据的数据资源自动关联系统可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。

Claims (10)

1.一种基于元数据的数据资源自动关联方法,其特征在于,包括以下步骤:
S1、对业务系统产生的数据库表、文档、图片、音频和视频数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;
S2、针对接入的异构数据资源的元数据信息,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;
S3、解析计算出的元数据关联信息,自动构建数据资源的关联关系,并将数据资源的关联关系进行持久化;
S4、针对自动构建的数据资源关联关系,进行审核校验,包括对关联关系进行增加、修改、删除;
S5、针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,可接入的数据源类型包括结构化数据源、半结构化数据源与非结构化数据源,结构化数据源和半结构化数据源包括数据库,非结构化数据源包括分布式文件系统、FTP;通过配置异构数据源的信息,连接相应数据源,在数据源中设置接入的数据范围:
若所述的数据源类型为结构化数据源或半结构化数据源,则在数据源中设置接入的数据库表范围,采集表的元数据信息,包括表名、表备注、字段名、字段类型、字段备注、主外键、表的连接信息中的一项或多项;
若所述的数据源类型为非结构化数据源,则在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据,采集文件名称、创建时间、创建人、文件大小、文件的存储位置信息中的一项或多项。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,针对接入的元数据,所述关联计算方法包括3种情况:库表资源与库表资源、库表资源与文件资源、文件资源与文件资源,通过文本相似度算法自动计算不同数据资源的元数据关联关系。
4.根据权利要求3所述的方法,其特征在于,对于库表资源与库表资源,根据以下步骤计算关联关系:
S21、若数据库表之间存在外键关联,则将外键定义为两张表之间的关联,记为F1,格式为{表A,表B,外键值},若数据库表之间不存在外键关联,转步骤S22;
S22、通过文本相似度算法计算数据资源间的表名、表备注的文本相似度;若相似度大于等于第一阈值,转步骤S23,若小于第一阈值,则认为两个数据资源之间没有关联;
S23、计算两张表的字段名和字段备注的相似度,若相似度大于等于第二阈值,则认为两张表有通过该字段建立的关联关系,若所有字段的相似度都小于第二阈值,则认为两张表的数据资源没有关联关系;
S24、将步骤S23中计算得出相似的字段映射集合F2,定义为这两张表的关联,F2格式为{表名A,表名B,(字段Ai|字段Bj|相似度值Sij,字段Am|字段Bn|相似度值Smn,…)}。
5.根据权利要求3所述的方法,其特征在于,对于库表资源与文件资源,根据以下步骤计算关联关系:
S2a、通过文本相似度算法计算库表资源的表名、表备注与文件资源的文件名的相似度,若相似度大于等于第三阈值,则认为库表资源与文件资源存在关联,若相似度小于第三阈值,则认为库表资源与文件资源没有关联;
S2b、将库表与文件资源的名称映射F3,定义为这两个数据资源的关联,F3格式为{表名At,文件Bf,相似度值Stf}。
6.根据权利要求3所述的方法,其特征在于,对于文件资源与文件资源,根据以下步骤计算关联关系:
S2A、通过文本相似度算法计算两个文件资源的文件名的相似度,若相似度大于等于第四阈值,则认为两个文件资源存在关联,若相似度小于第四阈值,则认为两个文件资源没有关联;
S2B、将两个文件资源的名称映射F4,定义为这两个数据资源的关联,F4格式为{文件Aa,文件Bb,相似度值Sab}。
7.根据权利要求3所述的方法,其特征在于,所述的文本相似度算法包括:余弦相似度算法、TF-IDF模型、LDA算法、杰卡德相似度算法中的一种或多种,配置页面支持用户自定义上传文本相似度算法,也支持以配置权重的方式综合利用各个文本相似度算法。
8.一种基于元数据的数据资源自动关联系统,其特征在于,包括:
元数据接入模块,用于对业务系统产生的数据库表、文档、图片、音频和视频数据,提供页面配置的方式对数据源信息进行配置,划定接入的数据资源范围,采集相关数据资源的元数据信息;
关联计算模块,用于针对接入的异构数据资源的元数据信息,根据数据结构的不同采用不同的元数据关联计算方法,计算元数据关联信息;
关联构建模块,用于解析计算出的元数据关联信息,自动构建数据资源的关联关系,并将数据资源的关联关系进行持久化;
审核校验模块,用于针对自动构建的数据资源关联关系,进行审核校验,包括对关联关系进行增加、修改、删除;
关联应用模块,用于针对审核通过后的数据资源的关联关系,提供多维度的可视化方式,以及支持与数据资源的关联关系进行查询应用。
9.根据权利要求8所述的系统,其特征在于,所述元数据接入模块可接入的数据源类型包括结构化数据源、半结构化数据源与非结构化数据源,结构化数据源和半结构化数据源包括数据库,非结构化数据源包括分布式文件系统、FTP;所述元数据接入模块支持配置异构数据源的信息,连接相应数据源,在数据源中设置接入的数据范围:
若所述的数据源类型为结构化数据源或半结构化数据源,则支持在数据源中设置接入的数据库表范围,采集表的元数据信息,包括表名、表备注、字段名、字段类型、字段备注、主外键、表的连接信息中的一项或多项;
若所述的数据源类型为非结构化数据源,则支持在分布式文件系统或FTP中设置接入文档、图片、音频和视频数据,采集文件名称、创建时间、创建人、文件大小、文件存储位置信息中的一项或多项。
10.根据权利要求8所述的系统,其特征在于,所述关联计算模块中,针对接入的元数据,所述关联计算方法包括3种情况:库表资源与库表资源、库表资源与文件资源、文件资源与文件资源,所述关联计算模块通过文本相似度算法自动计算不同数据资源的元数据关联关系。
CN202410016662.1A 2024-01-05 2024-01-05 一种基于元数据的数据资源自动关联方法与系统 Active CN117520620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410016662.1A CN117520620B (zh) 2024-01-05 2024-01-05 一种基于元数据的数据资源自动关联方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410016662.1A CN117520620B (zh) 2024-01-05 2024-01-05 一种基于元数据的数据资源自动关联方法与系统

Publications (2)

Publication Number Publication Date
CN117520620A true CN117520620A (zh) 2024-02-06
CN117520620B CN117520620B (zh) 2024-03-19

Family

ID=89755365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410016662.1A Active CN117520620B (zh) 2024-01-05 2024-01-05 一种基于元数据的数据资源自动关联方法与系统

Country Status (1)

Country Link
CN (1) CN117520620B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120023109A1 (en) * 2010-07-13 2012-01-26 Viprocom Contextual processing of data objects in a multi-dimensional information space
CN111259006A (zh) * 2019-11-19 2020-06-09 中国科学院计算机网络信息中心 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统
CN115190331A (zh) * 2022-07-06 2022-10-14 安徽福斯特信息技术有限公司 一种适用于5g环境的全服务型媒资资源管理系统及方法
CN115809302A (zh) * 2023-02-21 2023-03-17 合肥喆塔科技有限公司 元数据处理方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120023109A1 (en) * 2010-07-13 2012-01-26 Viprocom Contextual processing of data objects in a multi-dimensional information space
CN111259006A (zh) * 2019-11-19 2020-06-09 中国科学院计算机网络信息中心 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统
CN115190331A (zh) * 2022-07-06 2022-10-14 安徽福斯特信息技术有限公司 一种适用于5g环境的全服务型媒资资源管理系统及方法
CN115809302A (zh) * 2023-02-21 2023-03-17 合肥喆塔科技有限公司 元数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117520620B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
US11157550B2 (en) Image search based on feature values
US8380750B2 (en) Searching and displaying data objects residing in data management systems
US11216516B2 (en) Method and system for scalable search using microservice and cloud based search with records indexes
MX2013005056A (es) Enfoque multimodal para entrada de busqueda de consulta.
US11334549B2 (en) Semantic, single-column identifiers for data entries
CN111782824B (zh) 信息查询方法、装置、系统和介质
CN114385620A (zh) 数据处理方法、装置、设备及可读存储介质
CN111611448A (zh) 知识驱动的联合大数据查询和分析平台
US11068459B2 (en) Computer implemented and computer controlled method, computer program product and platform for arranging data for processing and storage at a data storage engine
US10437872B2 (en) Computer implemented and computer controlled method, computer program product and platform for arranging data for processing and storage at a data storage engine
Lee et al. An integrated approach to metadata interoperability
CN110874366A (zh) 数据处理、查询方法和装置
CN117520620B (zh) 一种基于元数据的数据资源自动关联方法与系统
US20230237019A1 (en) Terminal and method for storing and parsing log data
US20180060404A1 (en) Schema abstraction in data ecosystems
CN115292285A (zh) 一种基于分布式架构的数据专题管理方法及系统
US20170293671A1 (en) Post-hoc management of datasets
CN115168390A (zh) 一种多维度的资产检索分析方法、系统、终端及存储介质
US20130024761A1 (en) Semantic tagging of user-generated content
Tian et al. A framework for the data integration of earthquake events
JP2004192657A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
EP3805956A1 (en) Computer implemented and computer controlled method, computer program product and platform for arranging data for processing and storage at a data storage engine
JP2001067369A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
CN114297228A (zh) Es服务器查询方法、装置和计算机可读存储介质
CN116882396A (zh) 功能点分析方法、装置、计算机设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant