CN117454892B - 元数据管理方法、装置、终端设备以及存储介质 - Google Patents

元数据管理方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN117454892B
CN117454892B CN202311757107.6A CN202311757107A CN117454892B CN 117454892 B CN117454892 B CN 117454892B CN 202311757107 A CN202311757107 A CN 202311757107A CN 117454892 B CN117454892 B CN 117454892B
Authority
CN
China
Prior art keywords
metadata
target
data
preset
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311757107.6A
Other languages
English (en)
Other versions
CN117454892A (zh
Inventor
王雪敏
巩怀志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhicheng Software Technology Service Co ltd
Shenzhen Smart City Technology Development Group Co ltd
Original Assignee
Shenzhen Zhicheng Software Technology Service Co ltd
Shenzhen Smart City Technology Development Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhicheng Software Technology Service Co ltd, Shenzhen Smart City Technology Development Group Co ltd filed Critical Shenzhen Zhicheng Software Technology Service Co ltd
Priority to CN202311757107.6A priority Critical patent/CN117454892B/zh
Publication of CN117454892A publication Critical patent/CN117454892A/zh
Application granted granted Critical
Publication of CN117454892B publication Critical patent/CN117454892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种元数据管理方法、装置、终端设备以及存储介质,所述方法包括:获取系统现有元数据;根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。本发明实施例通过预设的数据筛选规则,对所述系统现有元数据进行筛选以构建所述标准元数据库,从而实现对元数据的精确分类与映射,改善元数据管理效果。

Description

元数据管理方法、装置、终端设备以及存储介质
技术领域
本发明涉及大数据处理领域,尤其涉及一种元数据管理方法、装置、终端设备以及存储介质。
背景技术
企业在进行元数据管理项目实施中,需要对已有系统的存量元数据进行梳理、集成和维护,沉淀出企业级的元数据规范和标准指导新元数据的产生。
为了实现元数据的一致性和互操作性,实现元数据标准化管理,需要定义一些数据标准和模式在元数据管理过程中遵循。
目前业界内常用的元数据管理方法主要包括建立元数据与数据标准的映射关系和使用数据库字段名作为类别对元数据进行分类这两种方法,应用于数据字段名称这一类元数据,并通过意义相似度和词语相似度阈值判断同义数据标准中是否存在与该元数据完全对应的数据标准,以及通过相似度值大小进行匹配,理清数据库字段之间的关联关系,划分其类别。
然而,目前业界的元数据管理方法的缺点在于:现有的元数据管理方法主要应用于数据字段名称这一类元数据,当出现命名不规范、缺失等问题,会严重影响算法使用。且只通过字段名称是否相似来判断也会导致映射、分类等结果的不准确。综上所述,目前业界的元数据管理方法对元数据映射和分类的精确度不高,导致元数据管理效果较差。
发明内容
本发明的主要目的在于提供一种元数据管理方法、装置、终端设备以及存储介质,旨在实现对元数据的精确分类与映射,改善元数据管理效果。
为实现上述目的,本发明提供一种元数据管理方法,所述元数据管理方法包括如下步骤:
获取系统现有元数据;
根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;
根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
可选地,所述目标多类别元数据至少包括数据字段名称、数据备注、业务定义、业务规则、数据标签、数据类型、计量单位中的一种或多种。
可选地,所述根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系的步骤包括:
根据所述目标多类别元数据进行预处理,得到目标文本词集合;
根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;
根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;
根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
可选地,所述根据所述目标多类别元数据进行预处理,得到目标文本词集合的步骤包括:
对所述目标多类别元数据进行分词处理,得到所述目标文本词集合;和/或,
对所述目标多类别元数据进行去停用词处理,得到所述目标文本词集合。
可选地,所述根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量的步骤包括:
根据预设的词向量生成Word2vec模型,遍历所述目标文本词集合中的文本词并进行向量映射,得到原始词向量;
对所述原始词向量进行归一化处理,得到所述目标文本词集合对应的目标元数据词向量。
可选地,所述根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果的步骤包括:
根据预设的层次凝聚聚类方法对所述目标元数据词向量进行分簇处理,得到当前簇集合;
根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果。
可选地,所述根据所述当前簇集合进行语义相似度计算,以根据计算结果得到所述聚类结果的步骤包括:
遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
判断所述语义相似度是否小于预设阈值;
若否,则对所述簇对中的簇进行合并,得到新的目标簇集合作为当前簇集合,执行步骤:遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
若是,则确定所述当前簇集合为所述聚类结果。
此外,为实现上述目的,本发明还提供一种元数据管理装置,所述元数据管理装置包括:
数据获取模块,用于获取系统现有元数据;
数据筛选模块,用于根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;
数据库生成模块,用于根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。可选地,所述数据筛选模块还用于:
所述目标多类别元数据至少包括数据字段名称、数据备注、业务定义、业务规则、数据标签、数据类型、计量单位中的一种或多种。
可选地,所述数据库生成模块还用于:
根据所述目标多类别元数据进行预处理,得到目标文本词集合;
根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;
根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;
根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
可选地,所述数据库生成模块还用于:
对所述目标多类别元数据进行分词处理,得到所述目标文本词集合;和/或,
对所述目标多类别元数据进行去停用词处理,得到所述目标文本词集合。
可选地,所述数据库生成模块还用于:
根据预设的词向量生成Word2vec模型,遍历所述目标文本词集合中的文本词并进行向量映射,得到原始词向量;
对所述原始词向量进行归一化处理,得到所述目标文本词集合对应的目标元数据词向量。
可选地,所述数据库生成模块还用于:
根据预设的层次凝聚聚类方法对所述目标元数据词向量进行分簇处理,得到当前簇集合;
根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果。
可选地,所述数据库生成模块还用于:
遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
判断所述语义相似度是否小于预设阈值;
若否,则对所述簇对中的簇进行合并,得到新的目标簇集合作为当前簇集合,执行步骤:遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
若是,则确定所述当前簇集合为所述聚类结果。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据管理程序,所述元数据管理程序被所述处理器执行时实现如上所述的元数据管理方法。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有元数据管理程序,所述元数据管理程序被处理器执行时实现如上所述的元数据管理方法。
本发明实施例提出的一种元数据管理方法、装置、终端设备以及存储介质,通过获取系统现有元数据;根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。本发明实施例通过预设的数据筛选规则,对所述系统现有元数据进行筛选以构建所述标准元数据库,从而实现对元数据的精确分类与映射,改善元数据管理效果。
附图说明
图1为本发明数据筛选装置所属终端设备的功能模块示意图;
图2为本发明元数据管理方法第一示例性实施例的流程示意图;
图3为本发明元数据管理方法第一实例性实施例中建立元数据与数据标准的映射关系的流程示意图;
图4为本发明元数据管理方法第二示例性实施例的流程示意图;
图5为本发明元数据管理方法第二示例性实施例中元数据分类的流程示意图;
图6为本发明元数据管理方法第三示例性实施例的流程示意图;
图7为本发明元数据管理方法第四示例性实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取系统现有元数据;根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
本申请实施例涉及的技术术语:
词向量模型,Word2vec:是用于产生词向量的相关模型。基本思想是通过训练将每个词映射成高维实数向量,后续可通过实数向量间的距离计算方法(如余弦相似度、欧式距离等)判断词之间的语义相似度。
层次凝聚聚类法:算法在聚类初始时将数据中的每个样本点均看作是一个独立的簇结构,后将当前状态下最相似的两个簇进行合并,迭代直到最后只剩下一个簇时聚类结束。
元数据:元数据是描述数据的数据。元数据通常分为业务元数据、技术元数据和操作元数据三类。业务元数据描述数据的业务含义、业务规则等,包括:数据的业务名称、业务定义、业务术语、数据安全敏感级别等;技术元数据是描述数据系统中结构化处理后的技术数据,包括库表名称、列名称、字段长度、字段类型、数据存储等。
本申请实施例考虑到,当前业界中现有技术主要应用于数据字段名称这一类元数据,但元数据的范围还包括业务定义、业务规则、数据标签、数据类型、数据长度、计量单位等。若数据字段名称存在命名不规范、缺失等问题,会严重影响算法使用。且只通过字段名称是否相似来判断也会导致映射、分类等结果的不准确。此外,现有的元数据标准化管理方法依赖于预先定义好的数据标准库或是元数据库,在企业数据治理项目初期,标准库的制定需要先对存量元数据梳理后才可以生成,现有技术不适用该企业数据治理场景。
基于此,本申请实施例提供一种解决方案,本发明实施例通过预设的数据筛选规则,对所述系统现有元数据进行筛选以构建所述标准元数据库,从而实现对元数据的精确分类与映射,改善元数据管理效果。
具体地,参照图1,图1为本申请元数据管理装置所属终端设备的功能模块示意图。该元数据管理装置可以为独立于终端设备的、能够进行元数据管理的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等,此外,该元数据管理装置还可以承载于元数据管理系统中。
在本实施例中,该元数据管理装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及元数据管理程序;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的元数据管理程序被处理器执行时实现以下步骤:
获取系统现有元数据;
根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;
根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
所述目标多类别元数据至少包括数据字段名称、数据备注、业务定义、业务规则、数据标签、数据类型、计量单位中的一种或多种。
进一步地,存储器130中的元数据管理程序被处理器执行时还实现以下步骤:
根据所述目标多类别元数据进行预处理,得到目标文本词集合;
根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;
根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;
根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
进一步地,存储器130中的元数据管理程序被处理器执行时还实现以下步骤:
对所述目标多类别元数据进行分词处理,得到所述目标文本词集合;和/或,
对所述目标多类别元数据进行去停用词处理,得到所述目标文本词集合。
进一步地,存储器130中的元数据管理程序被处理器执行时还实现以下步骤:
根据预设的词向量生成Word2vec模型,遍历所述目标文本词集合中的文本词并进行向量映射,得到原始词向量;
对所述原始词向量进行归一化处理,得到所述目标文本词集合对应的目标元数据词向量。
进一步地,存储器130中的元数据管理程序被处理器执行时还实现以下步骤:
根据预设的层次凝聚聚类方法对所述目标元数据词向量进行分簇处理,得到当前簇集合;
根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果。
进一步地,存储器130中的元数据管理程序被处理器执行时还实现以下步骤:
遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
判断所述语义相似度是否小于预设阈值;
若否,则对所述簇对中的簇进行合并,得到新的目标簇集合作为当前簇集合,执行步骤:遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
若是,则确定所述当前簇集合为所述聚类结果。
本实施例通过上述方案,具体通过获取系统现有元数据;根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。本实施例通过预设的数据筛选规则,对所述系统现有元数据进行筛选以构建所述标准元数据库,从而实现对元数据的精确分类与映射,改善元数据管理效果。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请元数据管理方法第一示例性实施例的流程示意图。所述元数据管理方法包括:
步骤S10,获取系统现有元数据;
需要说明的是,本实施例所提出的元数据管理方法可应用于企业进行元数据管理项目实施以进行数据治理的场景中。具体地,在进行数据治理的过程中,元数据管理是一个重要的组成部分。通过建立元数据管理项目,可以对企业内各类数据进行全面地收集、描述和分类,帮助企业更好地管理数据资源,提高数据质量和数据可信度。目前业界的元数据标准化管理方法,主要应用于数据字段名称这一类元数据,但元数据的范围还包括业务定义、业务规则、数据标签、数据类型、数据长度、计量单位等。若数据字段名称存在命名不规范、缺失等问题,会严重影响算法使用。且只通过字段名称是否相似来判断也会导致关系映射、分类等结果的不准确。此外,现有技术还依赖于预先定义好的数据库或者是元数据,在企业数据治理项目初期,标准库的制定需要先对存量元数据梳理后才可以生成,因此,现有技术不适用于本实施例所提的应用场景。
在本实施例中,所述元数据管理方法可应用于企业系统,所述方法需要收集所述系统现有元数据以根据所述系统现有数据进行梳理、集成和维护,沉淀出企业级的元数据规范和标准指导新元数据的产生。可以理解的是,所述系统现有数据指的是在企业数据治理项目的初期,企业系统内部已有的元数据。
具体地,本实施例可以通过采集适配器对所述企业系统进行数据采集,从而获取所述系统现有元数据,若所述企业系统还包括若干分系统,所述采集适配器也可以根据采集对象的类型和数据源的种类(如关系型数据库、Hadoop数据库等),选择相应分系统的采集适配器。
步骤S20,根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;
需要说明的是,本实施例预先设定数据筛选规则,以使得元数据映射、分类结果更加准确,现有技术在进行元数据管理时主要应用于数据字段名称这一类元数据,但元数据的范围还包括业务定义、业务规则、数据标签、数据类型、数据长度、计量单位等。若数据字段名称存在命名不规范、缺失等问题,会严重影响算法使用。且只通过字段名称是否相似来判断也会导致映射、分类等结果的不准确。
在本实施例中,步骤S20,根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据包括:
具体地,目标多类别元数据至少包括数据字段名称、数据备注、业务定义、业务规则、数据标签、数据类型、计量单位中的一种或多种。
所述数据字段名称是指每个数据字段所使用的标识符或名称。分类依据是根据数据表中的列名来区分,每个数据字段都有独特的名称,以便于识别和管理不同的数据;
所述数据备注通常是对一个数据字段或数据集合的详细说明。分类依据是根据数据表中的注释信息或其他文档中的相关说明来区分,一般包括数据的来源、处理方式、特殊说明等;
所述业务定义指一个数据字段所代表的业务含义或操作,即该数据项的具体业务意义。分类依据是根据业务部门对数据字段的定义和解释来区分,业务定义应该与业务需求相对应;
所述业务规则是指在特定业务环境下对数据进行限制或约束的规则。分类依据是根据不同的业务规则来区分,例如数据的有效性、范围、格式等;
所述数据标签是指对数据进行分类和归类的标识符,以便于数据的管理和查询。分类依据是根据不同的数据类型或归类方式来区分,例如按照业务部门、数据用途、数据格式等进行标签化;
所述数据类型是指每个数据字段中所存储的数据的类型,包括整数、小数、字符串、日期等。分类依据是根据每个数据字段存储的数据类型来区分;
所述计量单位是指衡量某种数据的单位,例如数据传输计量可以使用位、比特、字节、千字节等单位。分类依据是根据每个数据字段所表示的物理量及其计量单位来区分。
步骤S30,根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
参照图3,图3为本实施例中建立元数据与数据标准的映射关系的流程示意图。
需要说明的是,如图3所示,构建所述标准元数据库的意义在于建立元数据与数据标准的映射关系,其中,所述数据标准即指对元数据进行定义、组织和管理的规范和准则,所述标准元数据库是指遵循特定元数据库标准的元数据存储和管理系统。它是一个用于存储、组织和管理元数据的数据库,提供了对元数据进行有效管理和检索的功能。
通过设置的同义词映射规则从数据标准库中获取到与元数据对应的同义数据标准,并由意义相似度和词语相似度阈值判断同义数据标准中是否存在与该元数据完全对应的数据标准(例如图3中的数据标准A至数据标准N)。若不存在完全对应的数据标准,可选择将该元数据增加至数据标准库,或选择相似度最高的同义数据标准作为该元数据对应的数据标准。
本实施例通过上述方案,具体通过获取系统现有元数据;根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。本实施例通过预设的数据筛选规则,对所述系统现有元数据进行筛选以构建所述标准元数据库,从而实现对元数据的精确分类与映射,改善元数据管理效果。
参照图4,图4为本申请元数据管理方法第二示例性实施例的流程示意图。
基于第一实施例,提出本申请第二实施例,本申请第二实施例与第一实施例的区别在于:本实施例对步骤S30,根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系进行细化。
在本实施例中,步骤S30,根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系包括:
步骤S301,根据所述目标多类别元数据进行预处理,得到目标文本词集合;
需要说明的是,为了使系统更好地对所述目标多类别元数据进行分析,可以对所述目标多类别元数据进行预处理以得到目标文本词集合。其中,所述目标文本词集合指的是从一个文本数据集合中提取出的所有唯一的词汇列表。所述目标文本词集合是由文本中出现的词语组成的,并且没有重复的词语。
在本实施例中,可以对步骤301,根据所述目标多类别元数据进行预处理,得到目标文本词集合进行细化,步骤S301的细化步骤可以包括:
对所述目标多类别元数据进行分词处理,得到所述目标文本词集合;和/或,
对所述目标多类别元数据进行去停用词处理,得到所述目标文本词集合。
具体地,所述分词处理指的是分词处理是将连续的文本序列切分成一个个独立的词语或词组单元的过程。在中文等没有明确的词语边界的语言中尤为重要。分词处理能够帮助计算机理解文本,并获得更加精确的词语信息;停用词是指在文本中频繁出现但对于文本分析任务无关紧要的常见词语,如“的”,“是”,“在”等。这些词语通常不带有太多的语义信息,而且在文本中的频率非常高,因此在任务中可能对数据分析或管理的效果产生负面影响。去停用词就是从文本中移除这些停用词,以减少噪声和提高后续任务的性能。具体去除哪些词语可以根据任务需要进行调整。
步骤S302,根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;
具体地,本实施例中预设的词向量生成模型可以为Word2vec模型、全局词向量生成GloVe模型、快速文本FastText模型等,这些模型都可以生成高质量的词向量,用于表示词语在语义和语法上的含义,并在自然语言处理任务中广泛应用,如文本分类、情感分析、命名实体识别等。
在本实施例中,可以对步骤S302,根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量进行细化,步骤S302的细化步骤可以包括:
步骤S3021,根据预设的词向量生成Word2vec模型,遍历所述目标文本词集合中的文本词并进行向量映射,得到原始词向量;
步骤S3022,对所述原始词向量进行归一化处理,得到所述目标文本词集合对应的目标元数据词向量。
需要说明的是,本实施例以Word2vec模型作为预设的词向量生成模型为例;
参照图5,图5为根据数据库字段名作为类别对元数据分类的流程示意图;如图5所示,对数据库字段名进行依存句法分析,得到字段名称短语的主干特征词语;根据预先训练的Word2vec模型将数据库字段的主干特征词语转化为词向量;计算其与预先生成的元数据字段库的向量值的相似度,所述相似度可采用余弦相似度;通过相似度值大小进行匹配,若所述余弦相似度最大值大于0.4(该阈值可根据实际情况进行设置,在此不作具体限定),则确定与元数据对应的字段数据库完成匹配,若所述余弦相似度最大值低于或等于0.4,进行人工分配或添加新的元数据字段以匹配该数据库字段名元数据。此外,所述对所述原始词向量进行归一化处理,即指确保所述原始词向量在空间中具有相似的尺度和范围,一般可以采用均值方差归一化。
步骤S303,根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;
需要说明的是,所述聚类方法是一种无监督学习方法,用于将数据集中的对象分组成具有相似性的簇(clusters)。聚类的目标是在同一簇内的对象相似度较高,而不同簇之间的对象相似度较低。聚类方法可以将数据集中的对象按照特定的相似性度量进行组织。值得注意的是,本实施例对所述预设的聚类方法并不作具体限定,所述预设的聚类方法可以是应用层次凝聚聚类、k-means聚类、密度聚类、神经网络聚类等方法。
步骤S304,根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
需要说明的是,所述聚类结果为一个元数据的簇集合,所述簇集合中的簇之间的最大相似度小于预设阈值。通过构建标准元数据库和建立目标映射关系,可以实现系统现有元数据与行业标准元数据之间的对应和映射,有助于提高数据管理、数据集成和数据分析等任务的效率和准确性。
本实施例通过上述方案,具体通过根据所述目标多类别元数据进行预处理,得到目标文本词集合;根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。本实施例通过将词向量模型和文本聚类算法应用到元数据管理领域,通过系统存量元数据相似度计算和聚类获得企业级的标准元数据库,并与已有元数据做映射,统一元数据理解,从而解决相同数据的元数据不一致的问题,实现元数据标准化管理。
参照图6,图6为本申请元数据管理方法第三示例性实施例的流程示意图。
基于第二实施例,提出本申请第三实施例,本申请第三实施例与第二实施例的区别在于:本实施例对步骤S303,根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果进行细化。
在本实施例中,步骤S303,根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果包括:
步骤S3031,根据预设的层次凝聚聚类方法对所述目标元数据词向量进行分簇处理,得到当前簇集合;
步骤S3032,根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果。
在本实施例中,预设的聚类方法设计为层次凝聚聚类方法,具体可以将每个目标元数据词向量看作具有单个成员的簇,并通过对簇之间的语义相似度进行计算,得到计算结果。值得注意的是,本实施例对于语义相似度计算的方法并不作具体限定,也可使用欧式距离、杰卡德系数等方法。本实施例中的语义相似度计算以余弦相似度计算为例,步骤S3032,根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果可以包括:
首先,遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
然后,判断所述语义相似度是否小于预设阈值;
若否,则对所述簇对中的簇进行合并,得到新的目标簇集合作为当前簇集合,执行步骤:遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;若是,则确定所述当前簇集合为所述聚类结果。更具体地,根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果可以包括如下步骤:
步骤A:假设有n个簇,那么需要计算的簇对数量为C(n,2),即n个簇中任选两个的组合数;
步骤B:判断计算得到的语义相似度是否小于预设的阈值。如果语义相似度低于阈值,则继续执行下一步;否则,说明簇对之间的语义相似度较高,不需要进行合并。
步骤C:如果步骤B中的判断结果为否,即语义相似度低于阈值,那么对簇对中的簇进行合并。将这两个簇合并成一个新的目标簇,并将其加入当前簇集合中。
执行步骤A至步骤C:重复执行步骤A至步骤C,直到没有新的簇合并发生。也即在每次合并后,再次进行步骤A和步骤B的判断。这样可以确保所有簇对的语义相似度都被计算且满足语义相似度阈值。
步骤D:如果最后的合并过程中没有新的簇被合并,那么确定当前簇集合为聚类结果。这意味着簇集合中的每个簇都不再与其他簇语义相似度低于阈值,形成了最终的聚类结果。
本实施例通过上述方案,具体通过根据预设的层次凝聚聚类方法对所述目标元数据词向量进行分簇处理,得到当前簇集合;根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果。
参照图7,图7为本申请元数据管理方法第四示例性实施例的流程示意图。
基于第一至第三实施例,提出本申请第四实施例。
如图7所示,作为一种实施方式,本实施例提出的元数据管理方法包括如下步骤:
首先,本实施例通过采集获取业务系统数据的元数据信息,从其中筛选出数据字段名称、备注、业务定义、业务规则、数据标签、数据类型、计量单位7类元数据,将这些文本进行分词、去停用词等预处理后,得到表示/>的元数据的/>个文本词集合/>
其次,本实施例将预处理后形成的词集合中的每个词利用Word2vec处理获取到每一个词的词向量,其中/>表示每个词向量的维度,将词向量相加后得到表示/>的元数据的归一化向量/>,计算公式为:
再次,本实施例应用层次凝聚法对元数据词向量进行分类:将每个词向量/>看做具有单个成员的簇/>,则初始聚类为/>,其中/>表示元数据词向量数量;
计算每对簇的语义相似度/>,可以选择余弦相似度进行计算:/>
选取具有最大相似度的簇对,将其合并成为一个新的簇,从而构成新的簇类/>;重复上述步骤,直到簇之间的最大相似度小于阈值为止。
然后,在得到聚类结果后,对每一类元数据进行整合,并参照国家标准、行业标准,以及实际业务定义等生成一条标准的元数据,从而构建出标准的元数据库。并在系统中保存与标准元数据的映射关系,从而解决系统原有元数据缺失、难以理解、不规范等问题,实现元数据标准化的管理。
最后,对于系统新增的元数据,本实施例通过上述步骤将系统新增元数据转化成词向量,并与元数据库进行相似度计算,完成元数据映射或者补充增加到元数据库中。
本实施例通过上述方案,将词向量模型和文本聚类算法应用到元数据管理领域,通过系统存量元数据相似度计算和聚类获得企业级的标准元数据库,并与已有元数据做映射,统一元数据理解;本实施例还将多个元数据对应的词向量整合为一个向量来表示一个数据的多个元数据信息,可以更加准确地对数据进行匹配,从而改善元数据管理效果。
需要说明的是,上述各实施例可以根据实际情况进行合理的组合实施,本实施例对此不再赘述。
此外,本申请实施例还提供一种元数据管理装置,所述元数据管理装置包括:
数据获取模块,用于获取系统现有元数据;
数据筛选模块,用于根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据;
数据库生成模块,用于根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
本实施例实现元数据管理的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据管理程序,所述元数据管理程序被所述处理器执行时实现如上所述的元数据管理方法的步骤。
由于本元数据管理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提供一种计算机可读存储介质,所述数据筛选可读存储介质上存储有元数据管理程序,所述元数据管理程序被处理器执行时实现如上所述的元数据管理方法的步骤。
由于本元数据管理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例排序仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种元数据管理方法,其特征在于,所述元数据管理方法包括以下步骤:
获取系统现有元数据,所述系统现有元数据通过采集适配器对企业系统进行数据采集得到;
根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据,所述目标多类别元数据至少包括数据字段名称、数据备注、业务定义、业务规则、数据标签、数据类型、计量单位中的一种或多种;
根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系;
所述根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系的步骤包括:
根据所述目标多类别元数据进行预处理,得到目标文本词集合;
根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;
根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;
根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
2.如权利要求1所述的元数据管理方法,其特征在于,所述根据所述目标多类别元数据进行预处理,得到目标文本词集合的步骤包括:
对所述目标多类别元数据进行分词处理,得到所述目标文本词集合;和/或,
对所述目标多类别元数据进行去停用词处理,得到所述目标文本词集合。
3.如权利要求1所述的元数据管理方法,其特征在于,所述根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量的步骤包括:
根据预设的词向量生成Word2vec模型,遍历所述目标文本词集合中的文本词并进行向量映射,得到原始词向量;
对所述原始词向量进行归一化处理,得到所述目标文本词集合对应的目标元数据词向量。
4.如权利要求1所述的元数据管理方法,其特征在于,所述根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果的步骤包括:
根据预设的层次凝聚聚类方法对所述目标元数据词向量进行分簇处理,得到当前簇集合;
根据所述当前簇集合进行语义相似度计算,并根据计算结果得到所述聚类结果。
5.如权利要求4所述的元数据管理方法,其特征在于,所述根据所述当前簇集合进行语义相似度计算,以根据计算结果得到所述聚类结果的步骤包括:
遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
判断所述语义相似度是否小于预设阈值;
若否,则对所述簇对中的簇进行合并,得到新的目标簇集合作为当前簇集合,执行步骤:遍历所述当前簇集合中的簇对,并根据预设算法计算所述簇对的语义相似度;
若是,则确定所述当前簇集合为所述聚类结果。
6.一种元数据管理装置,其特征在于,所述元数据管理装置包括:
数据获取模块,用于获取系统现有元数据,所述系统现有元数据通过采集适配器对企业系统进行数据采集得到;
数据筛选模块,用于根据预设的数据筛选规则,对所述系统现有元数据从多个类别进行筛选,得到目标多类别元数据,所述目标多类别元数据至少包括数据字段名称、数据备注、业务定义、业务规则、数据标签、数据类型、计量单位中的一种或多种;
数据库生成模块,用于根据所述目标多类别元数据,构建标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系;
所述数据库生成模块,还用于根据所述目标多类别元数据进行预处理,得到目标文本词集合;
根据预设的词向量生成模型和所述目标文本词集合,生成所述目标文本词集合对应的目标元数据词向量;
根据预设的聚类方法对所述目标元数据词向量进行聚类,得到聚类结果;
根据所述聚类结果,构建所述标准元数据库,以得到所述系统现有元数据与所述标准元数据库两者之间的目标映射关系。
7.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据管理程序,所述元数据管理程序被所述处理器执行时实现如权利要求1-5中任一项所述的元数据管理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有元数据管理程序,所述元数据管理程序被处理器执行时实现如权利要求1-5中任一项所述的元数据管理方法。
CN202311757107.6A 2023-12-20 2023-12-20 元数据管理方法、装置、终端设备以及存储介质 Active CN117454892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311757107.6A CN117454892B (zh) 2023-12-20 2023-12-20 元数据管理方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311757107.6A CN117454892B (zh) 2023-12-20 2023-12-20 元数据管理方法、装置、终端设备以及存储介质

Publications (2)

Publication Number Publication Date
CN117454892A CN117454892A (zh) 2024-01-26
CN117454892B true CN117454892B (zh) 2024-04-02

Family

ID=89591218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311757107.6A Active CN117454892B (zh) 2023-12-20 2023-12-20 元数据管理方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN117454892B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033457A1 (en) * 2009-09-16 2011-03-24 Intellisemantic Srl System and method for content classification
CN110362601A (zh) * 2019-06-19 2019-10-22 平安国际智慧城市科技股份有限公司 元数据标准的映射方法、装置、设备及存储介质
CN115238071A (zh) * 2022-07-14 2022-10-25 云南电网有限责任公司信息中心 一种基于相似聚类和数据探索的数据标准生成方法、存储介质及系统
CN116401369A (zh) * 2023-06-07 2023-07-07 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN116521865A (zh) * 2023-03-31 2023-08-01 广东南方财经控股有限公司 一种基于自动识别技术的元数据分类方法、存储介质及系统
CN116992887A (zh) * 2023-08-31 2023-11-03 广东粤电南水发电有限责任公司 一种元数据的数据目录处理方法、装置以及处理设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033457A1 (en) * 2009-09-16 2011-03-24 Intellisemantic Srl System and method for content classification
CN110362601A (zh) * 2019-06-19 2019-10-22 平安国际智慧城市科技股份有限公司 元数据标准的映射方法、装置、设备及存储介质
CN115238071A (zh) * 2022-07-14 2022-10-25 云南电网有限责任公司信息中心 一种基于相似聚类和数据探索的数据标准生成方法、存储介质及系统
CN116521865A (zh) * 2023-03-31 2023-08-01 广东南方财经控股有限公司 一种基于自动识别技术的元数据分类方法、存储介质及系统
CN116401369A (zh) * 2023-06-07 2023-07-07 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN116992887A (zh) * 2023-08-31 2023-11-03 广东粤电南水发电有限责任公司 一种元数据的数据目录处理方法、装置以及处理设备

Also Published As

Publication number Publication date
CN117454892A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US20190220470A1 (en) Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
EP2705442B1 (en) Representing information from documents
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
US7970766B1 (en) Entity type assignment
CN108090068B (zh) 医院数据库中的表的分类方法及装置
CN110597844B (zh) 异构数据库数据统一访问方法及相关设备
WO2012129152A2 (en) Annotating schema elements based associating data instances with knowledge base entities
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN110569289A (zh) 基于大数据的列数据处理方法、设备及介质
CN114491034B (zh) 一种文本分类方法及智能设备
US20150261837A1 (en) Querying Structured And Unstructured Databases
WO2023134075A1 (zh) 基于人工智能的文本主题生成方法、装置、设备及介质
US11163761B2 (en) Vector embedding models for relational tables with null or equivalent values
CN105512270B (zh) 一种确定相关对象的方法和装置
CN117454892B (zh) 元数据管理方法、装置、终端设备以及存储介质
CN111523309A (zh) 药品信息归一化的方法、装置、存储介质及电子设备
CN116541578A (zh) 资产数字化多维度管理方法及系统
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
US20230297648A1 (en) Correlating request and response data using supervised learning
CN118036606B (zh) 一种基于智能决策框架的数据处理方法
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备
CN113127573B (zh) 相关数据的确定方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant