CN116932832B - 数据资产目录生成方法、设备及计算机可读存储介质 - Google Patents
数据资产目录生成方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116932832B CN116932832B CN202311191102.1A CN202311191102A CN116932832B CN 116932832 B CN116932832 B CN 116932832B CN 202311191102 A CN202311191102 A CN 202311191102A CN 116932832 B CN116932832 B CN 116932832B
- Authority
- CN
- China
- Prior art keywords
- directory
- data asset
- training
- data
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012216 screening Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 99
- 230000006870 function Effects 0.000 claims description 43
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 4
- 238000013523 data management Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据资产目录生成方法、设备及计算机可读存储介质,属于数据管理技术领域。该方法包括:获取全局目录体系框架,以及技术元数据;从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架;将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录。本发明通过目标目录体系框架和多任务学习模型,旨在使生成的数据更加有针对性。
Description
技术领域
本发明涉及数据管理技术领域,尤其涉及数据资产目录生成方法、设备及计算机可读存储介质。
背景技术
数据资产目录是对企业中数据资产全景式、结构化的描述。数据资产目录可以打通数据的业务信息和技术信息,便于使用者快速定位公司数据资产并加以利用和管理,一定程度上为企业数据治理、业务变革提供指引。
在相关技术中,检索得到系统操作日志、数据库元数据、数据库日志、业务规范文档等,然后通过机器学习、知识表示和知识推理,构建数据资产分类体系,并推断数据库、表和系统功能之间的对应关系,从而生成数据资产目录。
然而,上述数据资产目录是基于数据资产的特征和文本信息,分类和聚类得到的全局目录结构,这种全局的目录结构无法满足个别业务的特定需求,即缺乏针对性。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据资产目录生成方法、设备及计算机可读存储介质,旨在解决现有的数据资产目录缺乏针对性。
为实现上述目的,本发明提供一种数据资产目录生成方法,其特征在于,所述数据资产目录生成方法包括以下步骤:
获取全局目录体系框架,以及技术元数据;
从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架;
将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录。
可选地,所述将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录的步骤包括:
根据所述目标目录体系框架,构建若干训练任务,以及各所述训练任务之间的关联关系;
根据所述关联关系,从所述训练任务中提取底层参数和顶层参数;
根据所述底层参数和所述顶层参数,构建各所述训练任务对应的多任务模型;
计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录。
可选地,所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤之前,包括:
根据所述关联关系,确定所述训练任务的概率限制;
所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤包括:
计算所述技术元数据在各所述多任务模型中的目录概率;
若各所述多任务模型对应的目录概率满足所述概率限制,则根据所述目录概率生成数据资产目录;
若各所述多任务模型对应的目录概率不满足所述概率限制,则跳转执行所述根据所述关联关系,从所述训练任务中提取底层参数和顶层参数的步骤。
可选地,所述从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架的步骤包括:
根据所述全局目录体系框架,确定待构建目录层级;
若所述待构建目录层级是一级目录,则从所述一级目录中筛选出满足业务需求的目标目录;
若所述待构建目录层级不是一级目录,则获取待构建目录层级的上一层级的目标目录,并在所述目标目录中的子目录中筛选出满足业务需求的目标目录;
汇总所有目录层级对应的目标目录,构建目标目录体系框架。
可选地,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
接收用户发送的生成指令,并获取所述生成指令所携带的业务需求;
从所有业务元数据中,筛选出满足业务需求的业务元数据;
根据所述业务元数据和技术元数据之间的关联关系,从所有技术元数据中筛选出部分技术元数据。
可选地,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
获取训练全局目录体系框架和训练技术元数据,以及对应的训练目录标签;
从所述训练全局目标体系框架中,筛选出满足所述业务需求的目标训练目录体系框架;
将所述目标训练目录体系框架和所述训练技术元数据,输入构建好的多任务学习模型,生成各训练任务对应的预测结果;
比较所述预测结果和所述训练目录标签,确定各任务的损失函数值;
根据各任务的损失函数值,调整所述多任务学习模型的参数,直至达到最小损失函数值。
可选地,所述根据各任务的损失函数值,调整所述任务学习模型的参数,直至达到最小损失函数值的步骤包括:
根据各任务的损失函数值,以及对应的损失函数权重,计算所述任务学习模型的总损失函数值;
根据所述总损失函数值调整所述多任务学习模型的参数,直至达到最小损失函数值。
可选地,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
从原始数据中筛选出若干数据表以及关联表的备注信息和数据项描述信息;
对所述备注信息和所述数据项描述信息进行拼接,并对拼接结果进行过滤和清洗处理,得到技术元数据。
此外,为实现上述目的,本发明还提供一种数据资产目录生成设备,所述数据资产目录生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据资产目录生成程序,所述数据资产目录生成程序配置为实现所述的数据资产目录生成方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据资产目录生成程序,所述数据资产目录生成程序被处理器执行时实现所述的数据资产目录生成方法的步骤。
在本发明提供的一个技术方案中,从全局目录体系框架中,筛选出满足业务需求的目标目录体系框架,然后将目标目录体系框架和技术元数据,输入训练好的多任务学习模型,生成数据资产目录。本方案选定与业务相关的细致目录体系框架,对其进行多任务学习,得到的结果也是与业务相关的数据资产目录,这种方案可以广泛应用于各种复杂的系统或组织,只需要通过细化框架,就可以专注于特定的业务需求,并更好地理解技术元数据的特征和关系,以进行针对性更强和精确度更高的预测或分析。
附图说明
图1为本发明数据资产目录生成方法第一实施例的流程示意图;
图2为本发明数据资产目录生成方法第一实施例中步骤S12的流程示意图;
图3为本发明数据资产目录生成方法第一实施例中步骤S13的流程示意图;
图4为本发明数据资产目录生成方法第二实施例中步骤S134的流程示意图;
图5为本发明数据资产目录生成方法第二实施例的流程示意图;
图6为本发明数据资产目录生成方法第三实施例的流程示意图;
图7为本发明实施例方案涉及的硬件运行环境的数据资产目录生成设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
企业的数据散落在各个异构系统,甚至保存在个人电脑中,数据结构、数据类型、存储形式、敏感级别、重要程度各不相同。单纯靠人工操作去进行数据资产盘点,在系统上完成数据资产目录注册难度较大,效果不尽如人意。
现有的解决数据资产目录自动化注册的方案主要分为:
1.通过对系统操作日志、数据库元数据、数据库日志、业务规范文档等进行检索,并通过机器学习、知识表示和知识推理,构建数据资产分类体系,并推断数据库、表和系统功能之间的对应关系,从而生成数据资产目录。
2.人工获取数据资产分类体系和训练数据表,对分类体系的各个节点分别建立二分类模型,即逻辑回归算法,根据训练数据表训练各初始分类模型,得到与分类体系所对应的数据资产分类模型,对数据资产进行分类,得到数据资产目录。
上述方案分别存在以下缺陷:
1.数据资产目录是基于数据资产的特征和文本信息,分类和聚类得到的全局目录结构,这种全局的目录结构无法满足个别业务的特定需求,即缺乏针对性。
2.逻辑回归算法的使用,需要对分类体系的每个树节点设置模型进行训练,计算成本和资源消耗较大,即效率低下。
为解决上述问题,本发明先筛选出满足业务需求的目标目录体系框架,并利用训练好的多任务学习模型,生成对应的数据资产目录,这种方法可以提高数据生成的效率,并且使生成的数据更加有针对性。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据资产目录生成方法,参照图1,图1为本发明一种数据资产目录生成方法第一实施例的流程示意图。
本实施例中,所述数据资产目录生成方法包括:
步骤S11:获取全局目录体系框架,以及技术元数据;
步骤S12:从所述全局目录体系框架中,筛选出满足业务需求的目标目录体系框架;
可以理解的是,全局目录体系框架和局部目录体系框架是两种不同的目录组织结构。
其中,全局目录体系框架是指整个系统或组织中的目录结构框架,用于组织和管理各种类型的数据和文件,具有全局性。示例性地,根据数据类型的不同设立多个一级目录,如业务A、部门B、项目C等;在每个一级目录下,可以设立不同的二级目录,如在业务目录A下设立销售A1、采购A2、人力资源A3等二级目录;在二级目录下,可以设立更细分的三级目录,如在销售目录A1下设立客户A11、订单A12、销售报告A13、物流情况A14等三级目录;在三级目录下,可以设立更细分的四级目录,如在客户目录A11下设立地区A111、行业A112、客户类型A113、满意度A114等四级目录。
目标目录体系框架,即局部目录体系框架,是指与某个特定业务下的目录结构框架,用于组织和管理该业务场景下的数据和文件,具有局部性。
元数据是指描述数据的数据,元数据可以帮助用户理解和使用数据,同时也对数据的管理和维护提供支持,具体包括技术元数据、业务元数据等。
其中,技术元数据主要描述数据的技术细节和特性,具体包括数据的物理存储位置、数据格式、数据类型、数据大小、数据来源、数据更新频率等信息。技术元数据对于数据的处理和分析非常重要,可以帮助用户了解数据的结构和特性,从而对数据进行有效的管理和分析。例如,在一个数据库系统中,技术元数据可以包括表结构、字段类型、索引信息等。
可选地,接收到用户触发的数据资产目录生成指令后,从数据库中调取全局目录体系框架,以及技术元数据/>。其中,/>是指一级目录,/>是指m级目录,/>是指第一项技术元数据,/>是指第n项技术元数据。
可以理解的是,起初在构建全局目录体系框架时,定义了每一个目录项的属性信息,包括但不限于标签、描述、备注等,以便于快速识别和检索相关的目录项。
可选地,对用户触发的数据资产目录生成指令进行解析,得到其所携带的业务需求。其中,业务需求与业务场景紧密相关,是根据业务目标和业务流程来确定的,它们反映了组织或企业在特定业务场景下所需的功能和特性。示例性地,已知业务目标为提高客户满意度,那么对应的业务需求包括客户情况等;已知业务目标为提升物流速度,那么对应的业务需求包括各环节的物流情况等。
进一步地,对业务需求进行分析,提取出对应的目标标签,具体过程为,使用自然语言处理技术,如分词、词频统计、TF-IDF等方法,确定业务需求中的关键词和词频,并提取出频繁出现的词汇作为标签。
更进一步地,将全局目录体系框架中所有目录项的属性信息和业务需求的目标标签进行匹配,并根据匹配结果,从全局目录体系框架中筛选出目标目录项,如业务A、销售A1、客户A11、满意度A114等,然后参照全局目录体系框架中的目录层级,重组生成目标目录体系框架,确保目标目录体系框架的相协调,不会产生冲突或重复。
可选地,参照图2,步骤S12包括:
步骤S121:根据所述全局目录体系框架,确定待构建目录层级;
步骤S122:若所述待构建目录层级是一级目录,则从所述一级目录中筛选出满足业务需求的目标目录;
步骤S123:若所述待构建目录层级不是一级目录,则获取待构建目录层级的上一层级的目标目录,并在所述目标目录中的子目录中筛选出满足业务需求的目标目录;
步骤S124:汇总所有目录层级对应的目标目录,构建目标目录体系框架。
可以理解的是,本方案不会匹配所有目录项的属性信息和业务需求的目标标签,而是采用逐层缩小范围的方式,将特定的父子目录项作为匹配对象,进而减少任务量,提升速率。
可选地,根据全局目录体系框架,确定待构建目录层级。如果待构建目录层级是一级目录,此时需要比较该目录下的所有目录项的匹配情况,如分别将业务A、部门B、项目C和业务需求进行比较,筛选出匹配率最高的目标目录,为业务A,具体原理同上,在此不再赘述。
如果待构建目录层级是二级目录,此时不需要比较该目录下的所有目录项,只获取上一层级的目标目录,即一级目录/>的目标目录,然后确定该目标目录在/>的子目录有哪些,如销售A1、采购A2、人力资源A3,至此,便可以在这三者中选出最满足业务需求的目标目录,以此类推,层层递进,汇总所有目录层级对应的目标目录,得到目标目录体系框架。
步骤S13:将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录。
可以理解的是,多任务学习(Multi task Learning,MTL),是一种归纳迁移机制,基本目标是提高泛化性能,多任务学习通过同时训练多个相关任务,学习到任务之间的一些共享表示,并进一步地挖掘训练信号中的特定域信息来提高每个任务泛化能力。
可选地,对技术元数据目标目录体系框架进行整合后,进行必要的预处理,包括数据清洗、格式转换等,确保数据的一致性和规范性。然后,将预处理后的数据进行编码,即将数据转换为模型可理解的表示形式。随后,使用训练好的多任务学习模型对编码后的数据进行预测,具体可以采用硬参数共享,也可以采用软参数共享,本实施例不作具体限定。根据模型输出的多个任务的预测结果,即每个目录层级的预测结果,汇总生成数据资产目录。
可选地,本方案采用硬参数共享,参见图3,步骤S13包括:
步骤S131:根据所述目标目录体系框架,构建若干训练任务,以及各所述训练任务之间的关联关系;
可选地,确定数据填充后的目标目录体系框架中的目录层级,并按照每一层目录对应一个任务的原则,构建若干个训练任务。另外,按照目录层级之间的关系,以及训练好的多任务学习模型中的各类参数,确定各训练任务之间的关联关系,即父子关系。
步骤S132:根据所述关联关系,确定各所述训练任务的底层参数和顶层参数;
进一步地,根据关联关系,从训练任务中提取底层参数和顶层参数,其中,底层参数是指父子训练任务共享的特征,而顶层参数是指各个任务的特定特征,以降低模型在单个任务上过拟合的风险。在此种设定下,考虑到父子训练任务之间的关联性,某一级目录的下一层级目录共享的特性可视为该级目录本身的特性。
步骤S133:根据所述底层参数和所述顶层参数,构建各所述训练任务对应的多任务模型;
可选地,根据底层参数和顶层参数,构建各训练任务对应的多任务模型,对于一个训练任务,对应的多任务模型为:
其中,是指第i个训练任务,也对应于第i层目录,/>是指技术元数据,/>为技术元数据x在训练任务/>上的概率,即技术元数据x在i级目录上的概率,/>为训练任务/>的底层参数,/>为训练任务/>的顶层参数,T、b均为将数据转为向量的转置系数。
需要注意的是,为训练任务/>的顶层参数,其是描述任务间关联的系数,故/>同样也是其上一级目录/>的系数,即/>,描述了父子之间的关联。
步骤S134:计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录。
可选地,将技术元数据输入各训练任务对应的多任务模型,得到技术元数据x在各级目录上的概率。即目录概率。具体表现为/>、……/>。基于此,生成数据资产目录。
示例性地,已知一级目录细分为二级目录/>、/>,二级目录/>细分为三级目录、/>,二级目录/>细分为三级目录/>、/>,相应构建训练任务/>和训练任务2。
步骤S132:
针对训练任务1,分析一级目录和二级目录/>、/>之间的共享特征,将其作为训练任务/>的底层参数;分析相较于二级目录/>、/>,一级目录/>具备的独特特征,将其作为训练任务/>的顶层参数。
针对训练任务2,其实包括和/>两部分,一方面,结合三级目录/>、/>,确定的底层参数和顶层参数;另一方面,结合三级目录/>、/>,确定/>的底层参数和顶层参数。
步骤S133:
构建训练任务1的多任务模型,为。
构建训练任务2的多任务模型,为,,其中,/>对应的是/>部分,/>对应的是/>部分。
步骤S134:
将技术元数据输入训练任务1的多任务模型,得到/>,即为训练任务1的目录概率。
将技术元数据分别输入训练任务2的多任务模型,得到/>,比较两者的大小,将数值较大的概率作为训练任务2的目录概率。
然后,汇总训练任务1和训练任务2的目录概率,并确定其对应的目录,如一级目录和二级目录/>,汇总得到数据资产目录。
需要注意的是,相较于软参数共享,硬参数共享中的底层参数的共享程度更高,可以使得模型在多个任务之间共享更多的特征表示,这样可以更精确地捕捉到数据集中的普遍模式和规律,从而提高模型在新样本上的泛化能力,而且,有助于捕捉到不同任务之间的共性和相互影响,从而在面对噪声、缺失数据或异常情况时具有更好的鲁棒性。
需要注意的是,参照图4,步骤S134包括:
步骤S1341:根据所述关联关系,确定所述训练任务的概率限制;
可以理解的是,在正常目录中,技术元数据属于某一目录的概率不得大于属于其所属上一级目录的概率,如已知二级目录是一级目录细化的结果,故属于二级目录的概率不会超过一级目录/>的概率。
可选地,根据训练任务之间的关联关系,确定训练任务之间的概率限制,如。
所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤包括:
步骤S1342:计算所述技术元数据在各所述多任务模型中的目录概率;
步骤S1343:若各所述多任务模型对应的目录概率满足所述概率限制,则根据所述目录概率生成数据资产目录;
步骤S1344:若各所述多任务模型对应的目录概率不满足所述概率限制,则跳转执行所述根据所述关联关系,从所述训练任务中提取底层参数和顶层参数的步骤。
可选地,计算目录概率,具体表现为、……/>。
进一步地,按照上述概率限制,对每个技术元数据在相邻目录上的概率进行分析比较。如果满足概率限制,则说明父子目录的概率符合规律,故进一步生成数据资产目录;反之,如果不满足概率限制,则说明父子目录的概率存在冲突,反推出各多任务模型存在错误,因此,需要重新构建新的多任务模型,即执行根据所述关联关系,从所述训练任务中提取底层参数和顶层参数的步骤。
在本实施例提供的一个技术方案中,从全局目录体系框架中,筛选出满足业务需求的目标目录体系框架,然后将目标目录体系框架和技术元数据,输入训练好的多任务学习模型,生成数据资产目录。本方案选定与业务相关的细致目录体系框架,对其进行多任务学习,得到的结果也是与业务相关的数据资产目录,这种方案可以广泛应用于各种复杂的系统或组织,只需要通过细化框架,就可以专注于特定的业务需求,并更好地理解技术元数据的特征和关系,以进行针对性更强和精确度更高的预测或分析。
进一步的,参照图5,提出本发明数据资产目录生成方法的第二实施例。基于上述图1所示的实施例,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
步骤S21:接收用户发送的生成指令,并获取所述生成指令所携带的业务需求;
步骤S22:从所有业务元数据中,筛选出满足业务需求的业务元数据;
步骤S23:根据所述业务元数据和技术元数据之间的关联关系,从所有技术元数据中筛选出部分技术元数据。
可以理解的是,业务元数据主要描述数据的业务规则,具体包括数据的业务定义、业务规则、业务流程、业务所有者等信息。业务元数据帮助用户理解数据在业务上的意义和用途,以支持业务决策和业务流程的设计。例如,在一个销售系统中,业务元数据可以包括产品名称、价格、销售日期等信息。
可选地,了解业务的目标、要求和约束条件,明确需要筛选的业务元数据的范围和要求,进而从所有业务元数据中,筛选出满足业务需求的业务元数据。
进一步地,对业务元数据进行分析,如业务规则、业务流程、数据模型等,进而确定关键的属性和特征,这些属性和特征就是业务元数据和技术元数据之间的关联关系,可以用来筛选技术元数据。
更进一步地,根据上述关联关系,定义技术元数据的筛选条件,包括但不限于数据表的结构、字段的定义、索引和键的信息等,从而筛选出部分相关性高的技术元数据。
在本实施例提供的一个技术方案中,先筛选出满足业务需求的业务元数据,然后根据业务元数据和技术元数据之间的关联关系,实现对技术元数据的筛选。本方案通过业务元数据和技术元数据的联合使用,可以实现数据资产目录正式生成前的数据筛选,以确保能够提供所需的数据结构、关系信息等,而且,只选择包含必要信息的技术元数据进行目录生成,能够有效减少目录生成阶段的数据处理量,加快目录生成速率。
进一步的,参照图6,提出本发明数据资产目录生成方法的第三实施例。基于上述图1所示的实施例,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
步骤S31:获取全局训练目录体系框架和训练技术元数据,以及对应的训练目录标签;
步骤S32:从所述全局训练目标体系框架中,筛选出满足所述业务需求的目标训练目录体系框架;
步骤S33:将所述目标训练目录体系框架和所述训练技术元数据,输入构建好的多任务学习模型,生成各训练任务对应的预测结果;
步骤S34:比较所述预测结果和所述训练目录标签,确定各任务的损失函数值;
步骤S35:根据各任务的损失函数值,调整所述多任务学习模型的参数,直至达到最小损失函数值。
可选地,获取训练全局目录体系框架和训练技术元数据,以及对应的训练目录标签、/>……/>,其中,/>是指训练技术元数据属于n目录层级中,m目录项的概率。
进一步地,从全局训练目标体系框架中,筛选出满足业务需求的目标训练目录体系框架,然后将目标训练目录体系框架和训练技术元数据,输入构建好的多任务学习模型,生成各训练任务对应的预测结果,具体步骤同前述实施例,在此不再赘述。
更进一步地,比较预测结果和训练目录标签,如训练任务1的预测结果为,对应的训练目录标签为/>,采用交叉熵损失函数,Loss =y_true * log(y_pred),其中,y_true是训练目录标签,y_pred是预测结果,log表示自然对数。如果损失函数值未达到最小损失函数值,那么调整多任务学习模型的参数,让模型参数尽可能符合数据的分布,得到与目录体系框架对应的数据资产目录模型;反之,如果达到最小损失函数值,那么输出训练好的多任务学习模型,以投入正式使用。
可选地,步骤S35包括:
根据各任务的损失函数值,以及对应的损失函数权重,计算所述任务学习模型的总损失函数值;
根据所述总损失函数值调整所述任务学习模型的参数,直至达到最小损失函数值。
可选地,采用加权求和的方式,汇总各任务的损失函数值,对模型进行调整,具体公式为
其中,为总损失函数值,/>为任务损失函数的权重,/>为第/>个损失函数
通过设置损失函数权重来使得每个任务的损失都较小,调节多任务学习过程的平衡性,减小不同任务之间的冲突,从而达到模型最优。对模型损失函数中权重的设置也可以选择算术平均值、根据先验状态等手工设置或自动设置方法。
另外,无论是训练阶段还是正式使用阶段,都可以设置数据预先处理步骤。可选地,通过元数据采集的方式获得技术元数据,具体步骤如下:从原始数据中获取每张数据表的备注和数据项描述信息,通过数据血缘关系,获取每张数据表关联的其他表的表备注信息和数据项描述信息,然后将每张数据表的备注、数据项描述和关联表的表备注信息进行拼接,得到一条条文本信息。进一步地,对文本信息进行过滤和清洗,具体方法包括正则表达式、停用词过滤、词性标注、分词等,最终得到技术元数据。
在本实施例提供的一个技术方案中,提供了多任务学习模型的训练过程,以及根据损失函数进行调整的步骤,使用训练集对多任务学习模型进行训练可以通过模型参数学习和模型调优来提高模型的性能和泛化能力,而根据损失函数进行修正可以引导模型在训练过程中朝着期望的方向进行学习,可以更好地满足任务的需求,并提高模型在该任务上的性能。
参照图7,图7为本发明实施例方案涉及的硬件运行环境的数据资产目录生成设备结构示意图。
如图7所示,该数据资产目录生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图7中示出的结构并不构成对数据资产目录生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及数据资产目录生成程序。
在图7所示的数据资产目录生成设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明数据资产目录生成设备中的处理器1001、存储器1005可以设置在数据资产目录生成设备中,所述数据资产目录生成设备通过处理器1001调用存储器1005中存储的数据资产目录生成程序,并执行本发明实施例提供的数据资产目录生成方法。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现上述数据资产目录生成方法任一实施例中的步骤。
由于计算机可读存储介质部分的实施例与方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,在此暂不赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术作出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种数据资产目录生成方法,其特征在于,所述数据资产目录生成方法包括以下步骤:
接收用户发送的生成指令,并获取所述生成指令所携带的业务需求;
从所有业务元数据中,筛选出满足业务需求的业务元数据,所述业务元数据表征数据的业务规则;
根据所述业务元数据和技术元数据之间的关联关系,从所有技术元数据中筛选出部分技术元数据,所述技术元数据表征数据的技术细节和特性;
获取全局目录体系框架,以及技术元数据,所述全局目录体系框架是指整个系统或组织中的目录结构框架,用于组织和管理各种类型的数据和文件,具有全局性;
根据所述全局目录体系框架,确定待构建目录层级,并提取所述业务需求对应的目标标签;
若所述待构建目录层级是一级目录,则将所述一级目录的所有目录项与所述目标标签进行匹配,并筛选出匹配率最高的目标目录;
若所述待构建目录层级不是一级目录,则获取待构建目录层级的上一层级的目标目录,并将所述目标目录的所有子目录项与所述目标标签进行匹配,并筛选出匹配率最高的目标目录;
汇总所有目录层级对应的目标目录,构建目标目录体系框架,所述目标目录体系框架是指某个特定业务下的目录结构框架,用于组织和管理该业务场景下的数据和文件,具有局部性;
将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录。
2.如权利要求1所述的数据资产目录生成方法,其特征在于,所述将所述目标目录体系框架和所述技术元数据,输入训练好的多任务学习模型,生成数据资产目录的步骤包括:
根据所述目标目录体系框架,构建若干训练任务,以及各所述训练任务之间的关联关系;
根据所述关联关系,从所述训练任务中提取底层参数和顶层参数;
根据所述底层参数和所述顶层参数,构建各所述训练任务对应的多任务模型;
计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录。
3.如权利要求2所述的数据资产目录生成方法,其特征在于,所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤之前,包括:
根据所述关联关系,确定所述训练任务的概率限制;
所述计算所述技术元数据在各所述多任务模型中的目录概率,并根据所述目录概率生成数据资产目录的步骤包括:
计算所述技术元数据在各所述多任务模型中的目录概率;
若各所述多任务模型对应的目录概率满足所述概率限制,则根据所述目录概率生成数据资产目录;
若各所述多任务模型对应的目录概率不满足所述概率限制,则跳转执行所述根据所述关联关系,从所述训练任务中提取底层参数和顶层参数的步骤。
4.如权利要求1所述的数据资产目录生成方法,其特征在于,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
获取训练全局目录体系框架和训练技术元数据,以及对应的训练目录标签;
从所述训练全局目标体系框架中,筛选出满足所述业务需求的目标训练目录体系框架;
将所述目标训练目录体系框架和所述训练技术元数据,输入构建好的多任务学习模型,生成各训练任务对应的预测结果;
比较所述预测结果和所述训练目录标签,确定各任务的损失函数值;
根据各任务的损失函数值,调整所述多任务学习模型的参数,直至达到最小损失函数值。
5.如权利要求4所述的数据资产目录生成方法,其特征在于,所述根据各任务的损失函数值,调整所述任务学习模型的参数,直至达到最小损失函数值的步骤包括:
根据各任务的损失函数值,以及对应的损失函数权重,计算所述任务学习模型的总损失函数值;
根据所述总损失函数值调整所述多任务学习模型的参数,直至达到最小损失函数值。
6.如权利要求1所述的数据资产目录生成方法,其特征在于,所述获取全局目录体系框架,以及技术元数据的步骤之前,包括:
从原始数据中筛选出若干数据表以及关联表的备注信息和数据项描述信息;
对所述备注信息和所述数据项描述信息进行拼接,并对拼接结果进行过滤和清洗处理,得到技术元数据。
7.一种数据资产目录生成设备,其特征在于,所述数据资产目录生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据资产目录生成程序,所述数据资产目录生成程序配置为实现如权利要求1至6中任一项所述的数据资产目录生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据资产目录生成程序,所述数据资产目录生成程序被处理器执行时实现如权利要求1至6任一项所述的数据资产目录生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311191102.1A CN116932832B (zh) | 2023-09-15 | 2023-09-15 | 数据资产目录生成方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311191102.1A CN116932832B (zh) | 2023-09-15 | 2023-09-15 | 数据资产目录生成方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932832A CN116932832A (zh) | 2023-10-24 |
CN116932832B true CN116932832B (zh) | 2024-01-23 |
Family
ID=88375696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311191102.1A Active CN116932832B (zh) | 2023-09-15 | 2023-09-15 | 数据资产目录生成方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932832B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309888A (zh) * | 2019-07-11 | 2019-10-08 | 南京邮电大学 | 一种基于分层多任务学习的图像分类方法与系统 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
KR20200131736A (ko) * | 2019-05-14 | 2020-11-24 | 고려대학교 산학협력단 | 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 |
CN112507170A (zh) * | 2020-12-01 | 2021-03-16 | 平安医疗健康管理股份有限公司 | 基于智能决策的数据资产目录构建方法、及其相关设备 |
CN113342921A (zh) * | 2021-06-16 | 2021-09-03 | 杭州数梦工场科技有限公司 | 资源编目方法及装置 |
CN114519085A (zh) * | 2022-02-23 | 2022-05-20 | 云基华海信息技术股份有限公司 | 一种数据标准化管理方法与共享系统 |
CN116010670A (zh) * | 2022-12-28 | 2023-04-25 | 城云科技(中国)有限公司 | 一种基于数据血缘关系的数据目录推荐方法、装置及应用 |
-
2023
- 2023-09-15 CN CN202311191102.1A patent/CN116932832B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200131736A (ko) * | 2019-05-14 | 2020-11-24 | 고려대학교 산학협력단 | 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 |
CN110309888A (zh) * | 2019-07-11 | 2019-10-08 | 南京邮电大学 | 一种基于分层多任务学习的图像分类方法与系统 |
CN110347839A (zh) * | 2019-07-18 | 2019-10-18 | 湖南数定智能科技有限公司 | 一种基于生成式多任务学习模型的文本分类方法 |
CN112507170A (zh) * | 2020-12-01 | 2021-03-16 | 平安医疗健康管理股份有限公司 | 基于智能决策的数据资产目录构建方法、及其相关设备 |
CN113342921A (zh) * | 2021-06-16 | 2021-09-03 | 杭州数梦工场科技有限公司 | 资源编目方法及装置 |
CN114519085A (zh) * | 2022-02-23 | 2022-05-20 | 云基华海信息技术股份有限公司 | 一种数据标准化管理方法与共享系统 |
CN116010670A (zh) * | 2022-12-28 | 2023-04-25 | 城云科技(中国)有限公司 | 一种基于数据血缘关系的数据目录推荐方法、装置及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN116932832A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
US8719192B2 (en) | Transfer of learning for query classification | |
US9064212B2 (en) | Automatic event categorization for event ticket network systems | |
JP5921536B2 (ja) | コンピュータ化エージェントのシステムとユーザ指図セマンティックネットワーキング | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
CN108701256A (zh) | 用于应用编程接口的元数据驱动的外部接口生成的系统和方法 | |
US20090099920A1 (en) | Data Mining | |
JP2005316999A (ja) | エンハンストドキュメント取り出しのためのコンテンツ伝播 | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
US9069880B2 (en) | Prediction and isolation of patterns across datasets | |
CN107247728B (zh) | 文本处理方法、装置及计算机存储介质 | |
JP2004164290A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
CN114510735A (zh) | 基于角色管理的智慧共享财务管理方法及平台 | |
Hrnjica et al. | Model-based recommender systems | |
US20220188315A1 (en) | Estimating execution time for batch queries | |
US20130054616A1 (en) | System and Method for Finding Mood-Dependent Top Selling/Rated Lists | |
tong et al. | Mining and analyzing user feedback from app reviews: An econometric approach | |
US11698811B1 (en) | Machine learning-based systems and methods for predicting a digital activity and automatically executing digital activity-accelerating actions | |
CN116932832B (zh) | 数据资产目录生成方法、设备及计算机可读存储介质 | |
EP4002152A1 (en) | Data tagging and synchronisation system | |
US11741099B2 (en) | Supporting database queries using unsupervised vector embedding approaches over unseen data | |
US20220036006A1 (en) | Feature vector generation for probabalistic matching | |
US20220004718A1 (en) | Ontology-Driven Conversational Interface for Data Analysis | |
CN113571198A (zh) | 转化率预测方法、装置、设备及存储介质 | |
WO2018002664A1 (en) | Data aggregation and performance assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |