CN115203194A - 一种元数据信息的生成方法、相关装置、设备及存储介质 - Google Patents
一种元数据信息的生成方法、相关装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115203194A CN115203194A CN202110383069.7A CN202110383069A CN115203194A CN 115203194 A CN115203194 A CN 115203194A CN 202110383069 A CN202110383069 A CN 202110383069A CN 115203194 A CN115203194 A CN 115203194A
- Authority
- CN
- China
- Prior art keywords
- metadata
- information
- target
- service
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 138
- 239000013598 vector Substances 0.000 claims description 90
- 238000003066 decision tree Methods 0.000 claims description 81
- 230000001419 dependent effect Effects 0.000 claims description 54
- 238000007637 random forest analysis Methods 0.000 claims description 39
- 238000011144 upstream manufacturing Methods 0.000 claims description 32
- 230000035945 sensitivity Effects 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 21
- 239000008280 blood Substances 0.000 claims description 9
- 210000004369 blood Anatomy 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000001976 improved effect Effects 0.000 abstract description 14
- 238000007726 management method Methods 0.000 description 35
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000013461 design Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000003672 processing method Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 8
- 239000013589 supplement Substances 0.000 description 8
- 230000001502 supplementing effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种元数据信息的生成方法,包括:获取目标元数据表的已有元数据,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据;根据已有元数据获取K个元数据信息;对K个元数据信息进行特征处理,得到K个元数据特征;基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。本申请还提供了相关装置、设备及存储介质。本申请一方面节省人工成本,提升工作效率。另一方面能够避免主观因素的影响,由此提升信息准确性。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种元数据信息的生成方法、相关装置、设备及存储介质。
背景技术
随着业务的发展,元数据(metadata)在数据侧的重要程度也与日俱增。元数据是描述其它数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据是描述信息资源或数据等对象的数据,其使用目的在于识别资源,评价资源,追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现对使用资源的有效管理等。
但是元数据信息的缺失是在所难免的,例如,一张数据表中缺少表描述信息,或者缺少字段信息等,因此,目前通常需要由技术人员通过数据平台对这些缺失的元数据信息进行补充,以此得到元数据信息更加完善的数据表。
然而,对于补充缺失的元数据信息而言,往往需要花费技术人员大量的时间和精力,不但人工成本较高,而且工作效率较低,还可能影响到相关业务的正常运行。与此同时,还可能因为主观因素,导致人为补充的元数据信息并不准确。
发明内容
本申请实施例提供了一种元数据信息的生成方法、相关装置、设备及存储介质,一方面无需花费技术人员大量的时间和精力来手动补充缺失的元数据信息,从而节省人工成本,提升工作效率。另一方面通过模型进行缺失元数据信息的预测,能够避免主观因素的影响,由此提升信息准确性。
有鉴于此,本申请一方面提供一种元数据信息的生成方法,包括:
获取目标元数据表的已有元数据,其中,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据,K为大于或等于1的整数;
根据已有元数据获取K个元数据信息,其中,元数据信息与元数据具有一一对应的关系;
对K个元数据信息进行特征处理,得到K个元数据特征,其中,元数据特征与元数据信息具有一一对应的关系;
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。
本申请另一方面提供一种元数据信息生成装置,包括:
获取模块,用于获取目标元数据表的已有元数据,其中,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据,K为大于或等于1的整数;
获取模块,还用于根据已有元数据获取K个元数据信息,其中,元数据信息与元数据具有一一对应的关系;
处理模块,用于对K个元数据信息进行特征处理,得到K个元数据特征,其中,元数据特征与元数据信息具有一一对应的关系;
获取模块,还用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,K个元数据信息包括表名文本信息,其中,表名文本信息属于预设语种;
处理模块,具体用于对表名文本信息进行分词处理,得到表名文本序列,其中,表名文本序列包括M个词语,M为大于或等于1的整数;
对表名文本序列中的每个词语进行预处理,得到M个词向量嵌入,其中,词向量嵌入与词语具有一一对应的关系,M个词向量嵌入属于表名文本信息的元数据特征;
获取模块,具体用于基于M个词向量嵌入,通过元数据预测模型所包括的编码器,获取表名文本序列所对应的语义信息向量;
基于语义信息向量,通过元数据预测模型所包括的解码器获取表描述信息,其中,表描述信息属于目标元数据信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于若已有元数据包括数据表名,则从目标元数据表中获取数据表名所对应的表名文本信息;
或者,
获取模块,具体用于若已有元数据未包括数据表名,则根据已有元数据所包括的数据血缘获取关联元数据表,其中,关联元数据表为上游元数据表或下游元数据表;
从关联元数据表中获取数据表名所对应的表名文本信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项;
处理模块,具体用于若已有元数据包括下游依赖任务数,则对下游依赖任务数的元数据信息进行数据分箱处理,得到下游依赖任务数的元数据特征,其中,下游依赖任务数的元数据特征属于K个元数据特征;
若已有元数据包括上游依赖任务数,则对上游依赖任务数的元数据信息进行数据分箱处理,得到上游依赖任务数的元数据特征,其中,上游依赖任务数的元数据特征属于K个元数据特征;
若已有元数据包括访问频率,则对访问频率进行数据分箱处理,得到访问频率的元数据特征,其中,访问频率的元数据特征属于K个元数据特征;
若已有元数据包括在线业务服务情况,则对在线业务服务情况进行独热编码处理,得到在线业务服务情况的元数据特征,其中,在线业务服务情况的元数据特征属于K个元数据特征;
若已有元数据包括在线业务数量,对在线业务数量进行特征缩放处理,得到在线业务数量的元数据特征,其中,在线业务数量的元数据特征属于K个元数据特征;
若已有元数据包括字段数量,对字段数量进行特征缩放处理,得到字段数量的元数据特征,其中,字段数量的元数据特征属于K个元数据特征;
若已有元数据包括数据行数,对数据行数进行特征缩放处理,得到数据行数的元数据特征,其中,数据行数的元数据特征属于K个元数据特征;
若已有元数据包括存储大小,对存储大小进行特征缩放处理,得到存储大小的元数据特征,其中,存储大小的元数据特征属于K个元数据特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,已有元数据还包括业务重要等级以及业务敏感情况中的至少一项;
处理模块,具体用于若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
获取模块,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于基于K个元数据特征,通过决策树模型获取针对于目标元数据表的所属业务类型信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
获取模块,具体用于基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的所属业务类型信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
获取模块,具体用于基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的所属业务类型;
或者,
获取模块,具体用于基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的所属业务类型信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,已有元数据还包括所属业务类型以及业务敏感情况中的至少一项;
处理模块,具体用于若已有元数据包括所属业务类型,则对所属业务类型所对应的元数据信息进行独热编码处理,得到所属业务类型的元数据特征,其中,所属业务类型的元数据特征属于K个元数据特征;
若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
获取模块,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于基于K个元数据特征,通过决策树模型获取针对于目标元数据表的业务重要等级信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
获取模块,具体用于基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的业务重要等级信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
获取模块,具体用于基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的业务重要等级;
或者,
获取模块,具体用于基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的业务重要等级信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,已有元数据还包括所属业务类型以及业务重要等级中的至少一项;
处理模块,具体用于若已有元数据包括所属业务类型,则对所属业务类型所对应的元数据信息进行独热编码处理,得到所属业务类型的元数据特征,其中,所属业务类型的元数据特征属于K个元数据特征;
若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
获取模块,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于基于K个元数据特征,通过决策树模型获取针对于目标元数据表的业务敏感情况信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
获取模块,具体用于基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的业务敏感情况信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
获取模块,具体用于基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的业务敏感情况信息;
或者,
获取模块,具体用于基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的业务敏感情况信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,元数据信息生成装置还包括生成模块以及记录模块;
生成模块,用于在获取模块基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息之后,根据K个元数据以及K个元数据信息,生成K条元数据记录;
生成模块,还用于根据缺失元数据以及目标元数据信息,生成目标元数据记录;
记录模块,用于将K条元数据记录以及目标元数据记录至区块链进行同步存储,其中,区块链用于为至少两个节点设备提供数据表的元数据信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,元数据信息生成装置还包括显示模块;
显示模块,用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息之后,显示目标元数据表的目标元数据信息;
或,
将目标元数据表的目标元数据信息发送至终端设备,以使终端设备显示目标元数据表的目标元数据信息。
本申请另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种元数据信息的生成方法,首先获取目标元数据表的已有元数据,已有元数据为在目标元数据表中已经存在的元数据,然后根据已有元数据获取K个元数据信息,再对K个元数据信息进行特征处理,得到K个元数据特征,最后,可基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。通过上述方式,基于已经存在的元数据信息,利用训练好的模型可预测出缺失的元数据信息,从而实现数据资产的精细化运营和管理。一方面无需花费技术人员大量的时间和精力来手动补充缺失的元数据信息,从而节省人工成本,提升工作效率。另一方面通过模型进行缺失元数据信息的预测,能够避免主观因素的影响,由此提升信息准确性。
附图说明
图1为本申请实施例中元数据管理系统的一个架构示意图;
图2为本申请实施例中目标元数据信息生成过程的一个示意图;
图3为本申请实施例中元数据信息生成方法的一个流程示意图;
图4为本申请实施例中基于元数据预测模型获取表描述信息的一个示意图;
图5为本申请实施例中基于数据血缘获取表名文本信息的一个示意图;
图6为本申请实施例中采用混淆矩阵评估元数据预测模型的一个示意图;
图7为本申请实施例中分布式系统应用于区块链系统的一个可选的结构示意图;
图8为本申请实施例中区块结构的一个可选示意图;
图9为本申请实施例中自动补充目标元数据信息的操作界面示意图;
图10为本申请实施例中元数据信息生成装置的一个示意图;
图11为本申请实施例中终端设备的一个结构示意图;
图12为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种元数据信息的生成方法、相关装置、设备及存储介质,一方面无需花费技术人员大量的时间和精力来手动补充缺失的元数据信息,从而节省人工成本,提升工作效率。另一方面通过模型进行缺失元数据信息的预测,能够避免主观因素的影响,由此提升信息准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
元数据是用于描述数据的数据,可理解为比一般意义的数据范畴更加广泛的数据,不仅表示数据的类型、名称以及值等信息,它可以进一步提供数据的上下文描述信息,例如数据的所属域、取值范围、数据间的关系、业务规则以及数据的来源等。数据应用系统中元数据泛指描述数据概念(concepts)、数据间关系(roles)和数据处理规则(rules)的数据,其中,领域语义(semantics)和知识(knowledge)也属于元数据的范畴。
元数据有利于盘点数据资产,以及进行数据之间的关联关系分析。构建元数据管理平台,可以为后续工作打下基石,实现集中化管理、自动化管理和版本管理,从而将数据价值最大化的体现出来。元数据管理作为数据描述的信息,通过元数据的采集、存储、检索、共享和开放等能力,帮助业务更好理解与应用数据,也是数据资产管理的基石,类型涵盖数据字典、数据血缘、业务指标和运营指标等。但考虑到有些元数据信息的缺失可能会导致数据资产的管理受到一定限制,因此,本申请提供了一种元数据信息的生成方法,能够基于对已有元数据信息的采集,预测出缺失的元数据信息,从而帮助业务更好地管理数据资产,快速定位业务领域及重要的核心数据资产,进而提升数据效能。
为了更好地解决元数据信息缺失的问题,本申请提出了一种元数据信息的生成方法,该方法应用于图1所示的元数据管理系统,如图所示,元数据管理系统包括服务器和终端设备,且元数据管理平台部署于终端设备上。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。下面将分别对两种元数据管理系统进行介绍。
一、元数据管理系统包括终端设备;
首先,终端设备获取目标元数据表的已有元数据,然后终端设备根据已有元数据获取K个元数据信息,于是,继续对K个元数据信息进行特征处理,得到K个元数据特征,调用训练好的元数据预测模型对K个元数据特征进行处理,得到针对于目标元数据表的目标元数据信息,该目标元数据信息为缺失元数据所对应的元数据信息。
二、元数据管理系统包括终端设备以及服务器;
首先,终端设备触发针对于目标元数据表的信息补充指令,由此,服务器获取获取目标元数据表的已有元数据,然后服务器根据已有元数据获取K个元数据信息,于是,继续对K个元数据信息进行特征处理,得到K个元数据特征,服务器调用训练好的元数据预测模型对K个元数据特征进行处理,得到针对于目标元数据表的目标元数据信息,该目标元数据信息为缺失元数据所对应的元数据信息。最后,还可以向终端设备反馈目标元数据信息。
可以理解的是,终端设备上部署的元数据管理平台能够实现集中化管理、自动化管理和版本管理。其中,集中化管理能够确保企业各应用系统使用的数据信息保持一致。自动化管理能够使得数据通过平台加以体现和自动化更新,数据之间的血缘关系可以在平台中清晰地展现出来,以提升沟通配置效率及数据质量。版本管理能够使得元数据管理平台与版本应用开发设计相结合,提高数据的可靠性与权威性。
本申请利用机器学习(Machine Learning,ML)的思想,利用已有元数据的元数据信息预测出缺失的元数据信息。其中,ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于此,下面将结合图2介绍生成目标元数据信息的过程。请参阅图2,图2为本申请实施例中目标元数据信息生成过程的一个示意图,如图所示,假设当前存在一张数据表,该数据表中已有元数据有三类,且每类元数据具有一个元数据信息,于是对这些元数据信息进行特征处理,然后输入至训练好的元数据预测模型,通过元数据预测模型输出某个缺失元数据下的目标元数据信息。可以理解的是,在实际应用中,可根据需求选择要预测的缺失元数据,且针对于每个缺失元数据的预测采用对应的元数据预测模型。
结合上述介绍,下面将对本申请中元数据信息的生成方法进行介绍,请参阅图3,本申请实施例中元数据信息生成方法的一个实施例包括:
101、获取目标元数据表的已有元数据,其中,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据,K为大于或等于1的整数;
本实施例中,元数据信息生成装置获取目标元数据表的已有元数据,其中,目标元数据表具有K个元数据,这些已经出现在目标元数据表中的K个元数据即为已有元数据。
具体地,元数据通常分为技术元数据、业务元数据和管理元数据。其中,技术元数据是指在数据开发过程中产生的技术性统计指标,是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据,主要包括数据源信息,数据转换的描述,数据仓库内对象和数据结构的定义,数据清理和数据更新时用的规则,源数据到目的数据的映射。常见的技术元数据有数据血缘、扇入数、扇出数、字段名称、字段长度以及数据库表结构等。其中,业务元数据是指使用业务名称、定义以及描述等信息表示企业环境中的各种属性和概念,从一定程度上讲,所有数据背后的业务上下文都可以看成是业务元数据。常见的业务元数据有业务领域、业务定义、业务描述、重要等级以及敏感等级等。其中,管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,常见的管理元数据主要包括数据所有者、数据质量定责以及数据安全等级等。
需要说明的是,元数据信息生成装置可部署于终端设备,也可以部署于服务器,还可以部署于由终端设备和服务器构成的元数据管理系统,此处不做限定。
102、根据已有元数据获取K个元数据信息,其中,元数据信息与元数据具有一一对应的关系;
本实施例中,元数据信息生成装置针对已有元数据获取K个元数据信息,其中,已有元数据包括K个元数据,因此,分别获取每个元数据所对应的元数据信息,即得到K个元数据信息,K个元数据信息属于“事实”。在一种情况下,K个元数据信息可能全部来源于目标元数据表,在另一种情况下,K个元数据信息可能一部分来源于目标元数据包,另一个部分来源于目标元数据表的关联元数据表。可以理解的是,事实是相对于预测的,也就是真实确定的元数据信息。例如,元数据为“扇入数”,其对应的元数据信息为“50”。
103、对K个元数据信息进行特征处理,得到K个元数据特征,其中,元数据特征与元数据信息具有一一对应的关系;
本实施例中,元数据信息生成装置对K个元数据信息中的每个元数据信息进行特征处理,得到每个元数据信息所对应的元数据特征。
具体地,可基于特征工程对元数据信息进行处理,特征工程包括但不仅限于特征归一化(例如,对技术元数据的元数据信息与业务元数据的元数据信息进行归一化,通常一般采用正态分布归一化)以及特征变换处理(例如,对技术元数据的元数据信息与业务元数据的元数据信息进行正则化、离散化以及独热编码等),
104、基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。
本实施例中,元数据信息生成装置调用元数据预测模型,对特征处理后得到的K个元数据特征进行信息预测,由此得到针对于目标元数据表的目标元数据信息。其中,信息预测是指对于缺失的元数据信息而言,基于已有的元数据信息,通过元数据预测模型对缺失的元数据信息进行预测,由此采集到完整的元数据信息。例如,缺失元数据为“业务重要等级”,其对应的目标元数据信息为“非常重要”。
本申请实施例中,提供了一种元数据信息的生成方法,通过上述方式,基于已经存在的元数据信息,利用训练好的模型可预测出缺失的元数据信息,从而实现数据资产的精细化运营和管理。一方面无需花费技术人员大量的时间和精力来手动补充缺失的元数据信息,从而节省人工成本,提升工作效率。另一方面通过模型进行缺失元数据信息的预测,能够避免主观因素的影响,由此提升信息准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,K个元数据信息包括表名文本信息,其中,表名文本信息属于预设语种;
对K个元数据信息进行特征处理,得到K个元数据特征,具体可以包括:
对表名文本信息进行分词处理,得到表名文本序列,其中,表名文本序列包括M个词语,M为大于或等于1的整数;
对表名文本序列中的每个词语进行预处理,得到M个词向量嵌入,其中,词向量嵌入与词语具有一一对应的关系,M个词向量嵌入属于表名文本信息的元数据特征;
基于K个元数据特征,通过元数据预测模型获取目标元数据信息,具体可以包括:
基于M个词向量嵌入,通过元数据预测模型所包括的编码器,获取表名文本序列所对应的语义信息向量;
基于语义信息向量,通过元数据预测模型所包括的解码器获取表描述信息,其中,表描述信息属于目标元数据信息。
本实施例中,介绍了一种利用元数据预测模型生成表描述信息的方式。假设目标元数据信息为表描述信息,下面将结合图4,介绍基于元数据预测模型获取表描述信息的方式。
具体地,请参阅图4,图4为本申请实施例中基于元数据预测模型获取表描述信息的一个示意图,如图所示,假设表名文本信息为“Employee Information RegistrationTable”,即预设语种可以是英文。基于此,可对表名文本信息进行分词处理,得到表名文本序列,例如,“Employee/Information/Registration/Table”,其中,“/”表示分隔符。接下来,对表名文本序列中的每个词语进行预处理,得到M个词向量嵌入(embedding),例如,可采用词语向量化(word to vector,word2vec)的方式生成每个词语所对应的词向量嵌入。于是,将M个词向量嵌入输入至元数据预测模型所包括的编码器,经过编码后生成一个语义信息向量。将语义信息向量输入至元数据预测模型所包括的解码器,经过解码后生成翻译结果,即表描述信息,例如“员工信息登记表”。
需要说明的是,元数据预测模型所包括的编码器可采用循环神经网络(RecurrentNeural Network,RNN),或者采用长短期记忆网络(Long Short-Term Memory,LSTM),或者采用门控循环单元(gated recurrent unit,GRU),又或者其他网络,此处不做限定。
需要说明的是,预设语种可以是英文、日文、法文、德文或者其他语种,此处仅为一个示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种利用元数据预测模型生成表描述信息的方式,通过上述方式,将文本翻译模型作为元数据预测模型,直接翻译已有的表名文本信息,由此推断出表描述信息,从而提升补充元数据信息的效率和准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,根据已有元数据获取K个元数据信息,具体可以包括:
若已有元数据包括数据表名,则从目标元数据表中获取数据表名所对应的表名文本信息;
或者,
根据已有元数据获取K个元数据信息,具体可以包括:
若已有元数据未包括数据表名,则根据已有元数据所包括的数据血缘获取关联元数据表,其中,关联元数据表为上游元数据表或下游元数据表;
从关联元数据表中获取数据表名所对应的表名文本信息。
本实施例中,介绍了一种基于关联元数据表获取表名文本信息的方式。由前述实施例可知,在预测表描述信息的时候,需要获取数据表名所对应的表名文本信息,下面将结合示例,说明获取表名文本信息的方式。
方式一、直接从目标元数据表中获取表名文本信息;
具体地,假设目标元数据表所包括的K个元数据信息中存在数据表名,那么直接提取该数据表名所对应的表名文本信息即可。
方式二、从关联元数据表中获取表名文本信息;
具体地,假设目标元数据表所包括的K个元数据信息中不存在数据表名,于是获取目标元数据表所包括的数据血缘。数据的联姻融合、转换变换、流转流通形成了数据的血缘关系,通过数据血缘能够查看到表与表,字段与字段之间的血缘关系。为了便于理解,请参阅图5,图5为本申请实施例中基于数据血缘获取表名文本信息的一个示意图,如图所示,目标元数据表的关联元数据表可以是元数据表A、元数据表B或元数据表F,其中,元数据表A和元数据表B属于目标元数据表的上游数据表,元数据表F属于目标元数据表的下游数据表。
基于此,可选择任意一个包括数据表名的关联元数据表,然后将该关联元数据表中数据表名所对应的表名文本信息,作为目标元数据表的表名文本信息。
再次,本申请实施例中,提供了一种基于关联元数据表获取表名文本信息的方式,通过上述方式,对于目标元数据表中不存在数据表名的情况下,还可以根据数据血缘获取关联元数据表的数据表名,并将该数据表名所对应的表名文本信息作为预测表描述信息的依据,一方面能够提升信息预测的灵活性,另一方面,有助于得到更准确的预测结果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项;
对K个元数据信息进行特征处理,得到K个元数据特征,具体可以包括:
若已有元数据包括下游依赖任务数,则对下游依赖任务数的元数据信息进行数据分箱处理,得到下游依赖任务数的元数据特征,其中,下游依赖任务数的元数据特征属于K个元数据特征;
若已有元数据包括上游依赖任务数,则对上游依赖任务数的元数据信息进行数据分箱处理,得到上游依赖任务数的元数据特征,其中,上游依赖任务数的元数据特征属于K个元数据特征;
若已有元数据包括访问频率,则对访问频率进行数据分箱处理,得到访问频率的元数据特征,其中,访问频率的元数据特征属于K个元数据特征;
若已有元数据包括在线业务服务情况,则对在线业务服务情况进行独热编码处理,得到在线业务服务情况的元数据特征,其中,在线业务服务情况的元数据特征属于K个元数据特征;
若已有元数据包括在线业务数量,对在线业务数量进行特征缩放处理,得到在线业务数量的元数据特征,其中,在线业务数量的元数据特征属于K个元数据特征;
若已有元数据包括字段数量,对字段数量进行特征缩放处理,得到字段数量的元数据特征,其中,字段数量的元数据特征属于K个元数据特征;
若已有元数据包括数据行数,对数据行数进行特征缩放处理,得到数据行数的元数据特征,其中,数据行数的元数据特征属于K个元数据特征;
若已有元数据包括存储大小,对存储大小进行特征缩放处理,得到存储大小的元数据特征,其中,存储大小的元数据特征属于K个元数据特征。
本实施例中,介绍了一种基于特征工程对元数据信息进行特征处理的方式。通常情况下,已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项。下面将分别介绍这些元数据信息的特征处理方式。
一、下游依赖任务数(即扇出数);
具体地,下游依赖任务数是指该模块直接调用的下级模块的个数,扇出大表示模块的复杂度高。下游依赖任务数的元数据信息可以表示为数值。对下游依赖任务数的元数据信息进行数据分箱(binning)处理,得到下游依赖任务数的元数据特征。其中,数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。
需要说明的是,对下游依赖任务数的特征处理方式不限于数据分箱处理,在实际应用中,还可以根据情况选择其他合理的特征处理方式,此处仅为示意,不应理解为对本申请的限定。
二、上游依赖任务数(即扇入数);
具体地,上游依赖任务数是指直接调用该模块的上级模块的个数。扇入大表示模块的复用程序高。上游依赖任务数的元数据信息可以表示为数值。对上游依赖任务数的元数据信息进行binning处理,得到上游依赖任务数的元数据特征。
需要说明的是,对上游依赖任务数的特征处理方式不限于数据分箱处理,在实际应用中,还可以根据情况选择其他合理的特征处理方式,此处仅为示意,不应理解为对本申请的限定。
三、访问频率;
具体地,访问频率可以是1天、7天或者30天等,即访问频率的元数据信息可以表示为数值。对访问频率的元数据信息进行binning处理,得到访问频率的元数据特征。
需要说明的是,对访问频率的特征处理方式不限于数据分箱处理,在实际应用中,还可以根据情况选择其他合理的特征处理方式,此处仅为示意,不应理解为对本申请的限定。
四、在线业务服务情况;
具体地,在线业务服务情况是指是否服务在线业务。在线业务服务的元数据信息可以表示为一个结果,例如,“是”或者“否”。对在线业务服务情况的元数据信息进行独热编码(One-Hot Encoding)处理,得到在线业务服务情况的元数据特征。其中,One-HotEncoding是一种数据预处理的方式,它可以把类别数据变成长度相同的特征。例如,在线业务服务情况为“是”,则在线业务服务情况的元数据特征表示为(1,0)。又例如,在线业务服务情况为“否”,则在线业务服务情况的元数据特征表示为(0,1)。
需要说明的是,对在线业务服务情况的特征处理方式不限于独热编码,在实际应用中,还可以根据情况选择其他合理的特征处理方式,此处仅为示意,不应理解为对本申请的限定。
五、在线业务数量;
具体地,在线业务数量的元数据信息可以表示为数值。对在线业务数量的元数据信息进行特征缩放(Scaling)处理,得到在线业务数量的元数据特征。其中,特征缩放是一种用于标准化独立变量或数据特征范围的方法。在数据处理中,它也称为数据标准化,并且通常在数据预处理步骤期间执行。特征缩放可以将很大范围的数据限定在指定范围内。
需要说明的是,对在线业务数量的特征处理方式不限于特征缩放,在实际应用中,还可以根据情况选择其他合理的特征处理方式,例如,数据分箱处理,此处仅为示意,不应理解为对本申请的限定。
六、字段数量;
具体地,字段数量的元数据信息可以表示为数值。对字段数量的元数据信息进行特征缩放处理,得到字段数量的元数据特征。
需要说明的是,对字段数量的特征处理方式不限于特征缩放,在实际应用中,还可以根据情况选择其他合理的特征处理方式,例如,数据分箱处理,此处仅为示意,不应理解为对本申请的限定。
七、数据行数;
具体地,数据行数的元数据信息可以表示为数值。对数据行数的元数据信息进行特征缩放处理,得到数据行数的元数据特征。
需要说明的是,对数据行数的特征处理方式不限于特征缩放,在实际应用中,还可以根据情况选择其他合理的特征处理方式,例如,数据分箱处理,此处仅为示意,不应理解为对本申请的限定。
八、存储大小;
具体地,存储大小的元数据信息可以表示为数值。对存储大小的元数据信息进行特征缩放处理,得到存储大小的元数据特征。
需要说明的是,对存储大小的特征处理方式不限于特征缩放,在实际应用中,还可以根据情况选择其他合理的特征处理方式,例如,数据分箱处理,此处仅为示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种基于特征工程对元数据信息进行特征处理的方式,通过上述方式,能够使得处理后得到的元数据特征具有更好的解释性(例如,采用数据分箱处理),而且能够捕获更加复杂的关系(例如,采用神经网络),并且减少数据冗余,降低数据维度(例如,主成分分析),由此,使用机器学习产生准确的预测结果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,已有元数据还包括业务重要等级以及业务敏感情况中的至少一项;
对K个元数据信息进行特征处理,得到K个元数据特征,具体可以包括:
若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,包括:
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息。
本实施例中,介绍了一种基于元数据预测模型生成所属业务类型信息的方式。已有元数据还包括业务重要等级以及业务敏感情况中的至少一项,假设同时包括业务重要等级以及业务敏感情况,还需要对业务重要等级所对应的元数据信息(例如,“是”)进行独热编码处理,得到业务重要等级的元数据特征(例如,(1,0))。对业务敏感情况所对应的元数据信息(例如,“否”)进行独热编码处理,得到业务敏感情况的元数据特征(例如,(0,1))。
具体地,将特征化处理后得到的K个元数据特征,输入至训练好的元数据预测模型,由此,输出所属业务类型信息,例如,所属业务类型信息为“朋友圈业务”或者“支付业务”等。在分类任务中,需要对训练集进行建模,预测人工标注的标签,其中,本申请采用的元数据预测模型可采用传统学习模型,例如,树模型或者逻辑回归(Logistic Regression,LR),也可以采用集成学习模型,例如,随机森林模型或者可扩展的提升树(extremeGradient Boosting,XGBoost)模型,还可以采用深度学习模型,例如,LSTM或者神经网络等,此处不做限定。
在训练阶段,还可以进行模型评估,即建模后对测试集数据进行预测验证,可采用多分类模型评估指标。例如,采用混淆矩阵,请参阅图6,图6为本申请实施例中采用混淆矩阵评估元数据预测模型的一个示意图,如图所示,假设有150个样本数据,预测为类别1、类别2和类别3的各有50个。其中,每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量。例如,第一行说明有43个属于类别1的样本被正确预测为了类别1,有2个属于类别1的样本被错误预测为了类别2。
可以理解的是,还可以采用曲线下面积(Area Under Curve,AUC)、准确率或者召回率进行模型效果评估。
再次,本申请实施例中,提供了一种基于元数据预测模型生成所属业务类型信息的方式,通过上述方式,采用已经存在的元数据信息,利用训练好的模型可预测出缺失的所属业务类型信息,从而实现数据资产的精细化运营和管理。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息,具体可以包括:
基于K个元数据特征,通过决策树模型获取针对于目标元数据表的所属业务类型信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息,具体可以包括:
基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的所属业务类型信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息,具体可以包括:
基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的所属业务类型;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息,具体可以包括:
基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的所属业务类型信息。
本实施例中,介绍了一种基于模型预测所属业务类型的方式。由前述实施例可知,本申请采用的元数据预测模型可采用传统学习模型,集成学习模型或者深度学习模型。下面将对本申请所采用的元数据预测模型的类型进行介绍。
一、决策树模型;
具体地,将决策树模型作为元数据预测模型,决策树模型包括多个节点,每个节点标识一个元数据特征上的分类,将K个元数据特征输入至决策树模型后,对这K个元数据特征进行分类,最后输出所属业务类型信息。
二、随机森林模型;
具体地,将随机森林模型作为元数据预测模型,随机森林模型包括多个决策树,每个决策树包括多个节点,每个节点标识一个元数据特征上的分类。将K个元数据特征输入至不同的决策树模型后,根据所有决策树输出的分类结果,确定所属业务类型信息。
三、XGBoost模型;
具体地,XGBoost模型作为元数据预测模型。将K个元数据特征输入至不同的XGBoost模型后,XGBoost模型能够对K个元数据特征进行初筛,剔除不相关或者冗余的特征,保留靠前的若干个元数据特征,最后输出所属业务类型信息。
四、神经网络模型;
具体地,将K个元数据特征输入至元数据预测模型所包括的输入层,由此输出第一特征向量,然后将第一特征向量输入至至少一个隐藏层,得到第二特征向量,最后,将第二特征向量输入至输出层,其中,输出层可采用softmax操作,得到概率分布。根据概率分布即可确定所属业务类型信息。
进一步地,本申请实施例中,提供了一种基于模型预测所属业务类型信息的方式,通过上述方式,提供了多种可预测所属业务类型信息的模型,其中,XGBoost模型体现了比较强的分类效果,在计算成本与最终效果的抉择上,采用XGBoost模型作为分类模型可具有更好的分类效果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,已有元数据还包括所属业务类型以及业务敏感情况中的至少一项;
对K个元数据信息进行特征处理,得到K个元数据特征,具体可以包括:
若已有元数据包括所属业务类型,则对所属业务类型所对应的元数据信息进行独热编码处理,得到所属业务类型的元数据特征,其中,所属业务类型的元数据特征属于K个元数据特征;
若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,具体可以包括:
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息。
本实施例中,介绍了一种基于元数据预测模型生成业务重要等级信息的方式。已有元数据还包括所属业务类型以及业务敏感情况中的至少一项,假设同时包括所属业务类型以及业务敏感情况,还需要对所属业务类型所对应的元数据信息(例如,“朋友圈业务”)进行独热编码处理,得到所属业务类型的元数据特征(例如,(1,0,0,0))。对业务敏感情况所对应的元数据信息(例如,“否”)进行独热编码处理,得到业务敏感情况的元数据特征(例如,(0,1))。
具体地,将特征化处理后得到的K个元数据特征,输入至训练好的元数据预测模型,由此,输出业务重要等级信息,例如,业务重要等级信息为“重要”等。在分类任务中,需要对训练集进行建模,预测人工标注的标签,其中,本申请采用的元数据预测模型可采用传统学习模型,也可以采用集成学习模型,还可以采用深度学习模型,此处不做限定。在训练阶段,还可以进行模型评估,即建模后对测试集数据进行预测验证,可采用多分类模型评估指标,包含但不仅限于混淆矩阵、AUC、准确率或者召回率进行模型效果评估。
再次,本申请实施例中,提供了一种基于元数据预测模型生成业务重要等级信息的方式,通过上述方式,采用已经存在的元数据信息,利用训练好的模型可预测出缺失的业务重要等级信息,从而实现数据资产的精细化运营和管理。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息,具体可以包括:
基于K个元数据特征,通过决策树模型获取针对于目标元数据表的业务重要等级信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息,具体可以包括:
基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的业务重要等级信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息,具体可以包括:
基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的业务重要等级;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息,具体可以包括:
基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的业务重要等级信息。
本实施例中,介绍了一种基于模型预测业务重要等级信息的方式。由前述实施例可知,本申请采用的元数据预测模型可采用传统学习模型,集成学习模型或者深度学习模型。下面将对本申请所采用的元数据预测模型的类型进行介绍。
一、决策树模型;
具体地,将决策树模型作为元数据预测模型,决策树模型包括多个节点,每个节点标识一个元数据特征上的分类,将K个元数据特征输入至决策树模型后,对这K个元数据特征进行分类,最后输出业务重要等级信息。
二、随机森林模型;
具体地,将随机森林模型作为元数据预测模型,随机森林模型包括多个决策树,每个决策树包括多个节点,每个节点标识一个元数据特征上的分类。将K个元数据特征输入至不同的决策树模型后,根据所有决策树输出的分类结果,确定业务重要等级信息。
三、XGBoost模型;
具体地,XGBoost模型作为元数据预测模型。将K个元数据特征输入至不同的XGBoost模型后,XGBoost模型能够对K个元数据特征进行初筛,剔除不相关或者冗余的特征,保留靠前的若干个元数据特征,最后输出业务重要等级信息。
四、神经网络模型;
具体地,将K个元数据特征输入至元数据预测模型所包括的输入层,由此输出第一特征向量,然后将第一特征向量输入至至少一个隐藏层,得到第二特征向量,最后,将第二特征向量输入至输出层,其中,输出层可采用softmax操作,得到概率分布。根据概率分布即可确定业务重要等级信息。
进一步地,本申请实施例中,提供了一种基于模型预测业务重要等级信息的方式,通过上述方式,提供了多种可预测业务重要等级信息的模型,其中,XGBoost模型体现了比较强的分类效果,在计算成本与最终效果的抉择上,采用XGBoost模型作为分类模型可具有更好的分类效果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,已有元数据还包括所属业务类型以及业务重要等级中的至少一项;
对K个元数据信息进行特征处理,得到K个元数据特征,具体可以包括:
若已有元数据包括所属业务类型,则对所属业务类型所对应的元数据信息进行独热编码处理,得到所属业务类型的元数据特征,其中,所属业务类型的元数据特征属于K个元数据特征;
若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,具体可以包括:
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息。
本实施例中,介绍了一种基于元数据预测模型生成业务敏感情况信息的方式。已有元数据还包括所属业务类型以及业务重要等级中的至少一项,假设同时包括所属业务类型以及业务重要等级,还需要对所属业务类型所对应的元数据信息(例如,“朋友圈业务”)进行独热编码处理,得到业务重要等级的元数据特征(例如,(1,0,0,0))。对业务重要等级所对应的元数据信息(例如,“是”)进行独热编码处理,得到业务重要等级的元数据特征(例如,(1,0))。
具体地,将特征化处理后得到的K个元数据特征,输入至训练好的元数据预测模型,由此,输出业务敏感情况信息,例如,业务敏感情况信息为“是”。在分类任务中,需要对训练集进行建模,预测人工标注的标签,其中,本申请采用的元数据预测模型可采用传统学习模型,也可以采用集成学习模型,还可以采用深度学习模型,此处不做限定。在训练阶段,还可以进行模型评估,即建模后对测试集数据进行预测验证,可采用多分类模型评估指标,包含但不仅限于混淆矩阵、AUC、准确率或者召回率进行模型效果评估。
再次,本申请实施例中,提供了一种基于元数据预测模型生成业务敏感情况信息的方式,通过上述方式,采用已经存在的元数据信息,利用训练好的模型可预测出缺失的业务敏感情况信息,从而实现数据资产的精细化运营和管理。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息,具体可以包括:
基于K个元数据特征,通过决策树模型获取针对于目标元数据表的业务敏感情况信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息,具体可以包括:
基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的业务敏感情况信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息,具体可以包括:
基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的业务敏感情况信息;
或者,
基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息,具体可以包括:
基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的业务敏感情况信息。
本实施例中,介绍了一种基于模型预测业务敏感情况信息的方式。由前述实施例可知,本申请采用的元数据预测模型可采用传统学习模型,集成学习模型或者深度学习模型。下面将对本申请所采用的元数据预测模型的类型进行介绍。
一、决策树模型;
具体地,将决策树模型作为元数据预测模型,决策树模型包括多个节点,每个节点标识一个元数据特征上的分类,将K个元数据特征输入至决策树模型后,对这K个元数据特征进行分类,最后输出业务敏感情况信息。
二、随机森林模型;
具体地,将随机森林模型作为元数据预测模型,随机森林模型包括多个决策树,每个决策树包括多个节点,每个节点标识一个元数据特征上的分类。将K个元数据特征输入至不同的决策树模型后,根据所有决策树输出的分类结果,确定业务敏感情况信息。
三、XGBoost模型;
具体地,XGBoost模型作为元数据预测模型。将K个元数据特征输入至不同的XGBoost模型后,XGBoost模型能够对K个元数据特征进行初筛,剔除不相关或者冗余的特征,保留靠前的若干个元数据特征,最后输出业务敏感情况信息。
四、神经网络模型;
具体地,将K个元数据特征输入至元数据预测模型所包括的输入层,由此输出第一特征向量,然后将第一特征向量输入至至少一个隐藏层,得到第二特征向量,最后,将第二特征向量输入至输出层,其中,输出层可采用softmax操作,得到概率分布。根据概率分布即可确定业务敏感情况信息。
进一步地,本申请实施例中,提供了一种基于模型预测业务敏感情况信息的方式,通过上述方式,提供了多种可预测业务敏感情况信息的模型,其中,XGBoost模型体现了比较强的分类效果,在计算成本与最终效果的抉择上,采用XGBoost模型作为分类模型可具有更好的分类效果。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息之后,还可以包括:
根据K个元数据以及K个元数据信息,生成K条元数据记录;
根据缺失元数据以及目标元数据信息,生成目标元数据记录;
将K条元数据记录以及目标元数据记录至区块链进行同步存储,其中,区块链用于为至少两个节点设备提供数据表的元数据信息。
本实施例中,介绍了一种基于区块链技术实现对数据表的元数据信息进行存储的方式。在生成目标元数据信息之后,还可以对元数据及其对应的元数据信息生成元数据记录,类似地,对缺失元数据及其对应的目标元数据信息生成目标元数据记录,将K条元数据记录以及目标元数据均记录至区块中进行同步存储。
具体地,上述过程可在分布式系统中实现,本申请涉及的系统可以是由客户端202、多个节点201(接入网络中的任意形式的计算设备,如服务器或终端)通过网络通信的形式连接形成的分布式系统。以分布式系统为区块链系统为例,参见图7,图7为本申请实施例中分布式系统应用于区块链系统的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(Peer To Peer,P2P)网络,P2P协议是一个运行在传输控制协议(Transmission ControlProtocol,TCP)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
参见图7示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
请参见图8,图8为本申请实施例中区块结构(block structure)的一个可选示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
其次,本申请实施例中,提供了一种基于区块链技术实现对数据表的元数据信息进行存储的方式,通过上述方式,还可以将实际存在的元数据信息和预测得到的元数据信息进行上链处理,一方面便于相关人员或机构等进行查看,另一方面,能够有效地防止对这些元数据信息进行篡改。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息之后,还可以包括:
显示目标元数据表的目标元数据信息;
或,
将目标元数据表的目标元数据信息发送至终端设备,以使终端设备显示目标元数据表的目标元数据信息。
本实施例中,介绍了一种自动补齐目标元数据表的内容并进行展示的方式。对于相关人员而言,还可以通过元数据管理平台触发信息补充指令,以此选择需要补充的目标元数据信息。
具体地,为了便于理解,请参阅图9,图9为本申请实施例中自动补充目标元数据信息的操作界面示意图,如图9中(A)图所示,元数据管理平台上显示有目标元数据表(即,元数据表A),如果用户希望了解缺失的元数据,则触发信息补充指令。假设触发针对于“所属业务类型”的信息补充指令,此时,跳转至如图9中(B)图所示的界面,并显示“所属业务类型”所对应的所属业务类型信息(例如,金融业务)。假设触发针对于“业务重要等级”的信息补充指令,此时,跳转至如图9中(C)图所示的界面,并显示“业务重要等级”所对应的业务重要等级信息(例如,最高)。假设触发针对于“业务敏感情况”的信息补充指令,此时,跳转至如图9中(D)图所示的界面,并显示“业务敏感情况”所对应的业务敏感情况信息(例如,敏感)。
其次,本申请实施例中,提供了一种自动补齐目标元数据表的内容并进行展示的方式,通过上述方式,相关人员还可以根据需求选择需要补充的元数据,经过预测之后,向相关提供预测得到的元数据数据,从而提升方案的灵活性和可操作性。
下面对本申请中的元数据信息生成装置进行详细描述,请参阅图10,图10为本申请实施例中元数据信息生成装置的一个实施例示意图,元数据信息生成装置30包括:
获取模块301,用于获取目标元数据表的已有元数据,其中,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据,K为大于或等于1的整数;
获取模块301,还用于根据已有元数据获取K个元数据信息,其中,元数据信息与元数据具有一一对应的关系;
处理模块302,用于对K个元数据信息进行特征处理,得到K个元数据特征,其中,元数据特征与元数据信息具有一一对应的关系;
获取模块301,还用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,K个元数据信息包括表名文本信息,其中,表名文本信息属于预设语种;
处理模块302,具体用于对表名文本信息进行分词处理,得到表名文本序列,其中,表名文本序列包括M个词语,M为大于或等于1的整数;
对表名文本序列中的每个词语进行预处理,得到M个词向量嵌入,其中,词向量嵌入与词语具有一一对应的关系,M个词向量嵌入属于表名文本信息的元数据特征;
获取模块301,具体用于基于M个词向量嵌入,通过元数据预测模型所包括的编码器,获取表名文本序列所对应的语义信息向量;
基于语义信息向量,通过元数据预测模型所包括的解码器获取表描述信息,其中,表描述信息属于目标元数据信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,
获取模块301,具体用于若已有元数据包括数据表名,则从目标元数据表中获取数据表名所对应的表名文本信息;
或者,
获取模块301,具体用于若已有元数据未包括数据表名,则根据已有元数据所包括的数据血缘获取关联元数据表,其中,关联元数据表为上游元数据表或下游元数据表;
从关联元数据表中获取数据表名所对应的表名文本信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项;
处理模块302,具体用于若已有元数据包括下游依赖任务数,则对下游依赖任务数的元数据信息进行数据分箱处理,得到下游依赖任务数的元数据特征,其中,下游依赖任务数的元数据特征属于K个元数据特征;
若已有元数据包括上游依赖任务数,则对上游依赖任务数的元数据信息进行数据分箱处理,得到上游依赖任务数的元数据特征,其中,上游依赖任务数的元数据特征属于K个元数据特征;
若已有元数据包括访问频率,则对访问频率进行数据分箱处理,得到访问频率的元数据特征,其中,访问频率的元数据特征属于K个元数据特征;
若已有元数据包括在线业务服务情况,则对在线业务服务情况进行独热编码处理,得到在线业务服务情况的元数据特征,其中,在线业务服务情况的元数据特征属于K个元数据特征;
若已有元数据包括在线业务数量,对在线业务数量进行特征缩放处理,得到在线业务数量的元数据特征,其中,在线业务数量的元数据特征属于K个元数据特征;
若已有元数据包括字段数量,对字段数量进行特征缩放处理,得到字段数量的元数据特征,其中,字段数量的元数据特征属于K个元数据特征;
若已有元数据包括数据行数,对数据行数进行特征缩放处理,得到数据行数的元数据特征,其中,数据行数的元数据特征属于K个元数据特征;
若已有元数据包括存储大小,对存储大小进行特征缩放处理,得到存储大小的元数据特征,其中,存储大小的元数据特征属于K个元数据特征。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,已有元数据还包括业务重要等级以及业务敏感情况中的至少一项;
处理模块302,具体用于若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
获取模块301,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务类型信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,
获取模块301,具体用于基于K个元数据特征,通过决策树模型获取针对于目标元数据表的所属业务类型信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
获取模块301,具体用于基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的所属业务类型信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
获取模块301,具体用于基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的所属业务类型;
或者,
获取模块301,具体用于基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的所属业务类型信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,已有元数据还包括所属业务类型以及业务敏感情况中的至少一项;
处理模块302,具体用于若已有元数据包括所属业务类型,则对所属业务类型所对应的元数据信息进行独热编码处理,得到所属业务类型的元数据特征,其中,所属业务类型的元数据特征属于K个元数据特征;
若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
获取模块301,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务重要等级信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,
获取模块301,具体用于基于K个元数据特征,通过决策树模型获取针对于目标元数据表的业务重要等级信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
获取模块301,具体用于基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的业务重要等级信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
获取模块301,具体用于基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的业务重要等级;
或者,
获取模块301,具体用于基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的业务重要等级信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,已有元数据还包括所属业务类型以及业务重要等级中的至少一项;
处理模块302,具体用于若已有元数据包括所属业务类型,则对所属业务类型所对应的元数据信息进行独热编码处理,得到所属业务类型的元数据特征,其中,所属业务类型的元数据特征属于K个元数据特征;
若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
获取模块301,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的业务敏感情况信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,
获取模块301,具体用于基于K个元数据特征,通过决策树模型获取针对于目标元数据表的业务敏感情况信息,其中,决策树模型属于元数据预测模型,决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
获取模块301,具体用于基于K个元数据特征,通过随机森林模型获取针对于目标元数据表的业务敏感情况信息,其中,随机森林模型属于元数据预测模型,随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
获取模块301,具体用于基于K个元数据特征,通过可扩展提升树模型获取针对于目标元数据表的业务敏感情况信息;
或者,
获取模块301,具体用于基于K个元数据特征,通过元数据预测模型所包括的输入层,得到第一特征向量;
基于第一特征向量,通过元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于第二特征向量,通过元数据预测模型所包括的输出层,得到概率分布;
根据概率分布确定目标元数据表的业务敏感情况信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,元数据信息生成装置30还包括生成模块303以及记录模块304;
生成模块303,用于在获取模块301基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息之后,根据K个元数据以及K个元数据信息,生成K条元数据记录;
生成模块303,还用于根据缺失元数据以及目标元数据信息,生成目标元数据记录;
记录模块304,用于将K条元数据记录以及目标元数据记录至区块链进行同步存储,其中,区块链用于为至少两个节点设备提供数据表的元数据信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的元数据信息生成装置30的另一实施例中,元数据信息生成装置30还包括显示模块305;
显示模块305,用于在获取模块301基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息之后,显示目标元数据表的目标元数据信息;
或,
将目标元数据表的目标元数据信息发送至终端设备,以使终端设备显示目标元数据表的目标元数据信息。
本申请实施例还提供了另一种元数据信息生成装置,该元数据信息生成装置可部署于终端设备,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端设备为智能手机为例进行说明:
图11示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图11,智能手机包括:射频(radio frequency,RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity,WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图4中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对智能手机的各个构成部件进行具体的介绍:
RF电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元430可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元440可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图4中,触控面板431与显示面板441是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现智能手机的输入和输出功能。
智能手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路460、扬声器461,传声器462可提供用户与智能手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经RF电路410以发送给比如另一智能手机,或者将音频数据输出至存储器420以便进一步处理。
WiFi属于短距离无线传输技术,智能手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块470,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器480是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器480可包括一个或多个处理单元;可选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。
智能手机还包括给各个部件供电的电源490(比如电池),可选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
上述实施例中由终端设备所执行的步骤可以基于该图11所示的终端设备结构。
本申请实施例还提供了另一种元数据信息生成装置,该元数据信息生成装置可部署于服务器,图12是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种元数据信息的生成方法,其特征在于,包括:
获取目标元数据表的已有元数据,其中,所述已有元数据为在所述目标元数据表中已经存在的元数据,且所述已有元数据包括K个元数据,所述K为大于或等于1的整数;
根据所述已有元数据获取K个元数据信息,其中,所述元数据信息与所述元数据具有一一对应的关系;
对所述K个元数据信息进行特征处理,得到K个元数据特征,其中,所述元数据特征与所述元数据信息具有一一对应的关系;
基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,其中,所述目标元数据信息为缺失元数据所对应的元数据信息,所述缺失元数据为在所述目标元数据表中不存在的元数据。
2.根据权利要求1所述的生成方法,其特征在于,所述K个元数据信息包括表名文本信息,其中,所述表名文本信息属于预设语种;
所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:
对所述表名文本信息进行分词处理,得到表名文本序列,其中,所述表名文本序列包括M个词语,所述M为大于或等于1的整数;
对所述表名文本序列中的每个词语进行预处理,得到M个词向量嵌入,其中,所述词向量嵌入与所述词语具有一一对应的关系,所述M个词向量嵌入属于所述表名文本信息的元数据特征;
所述基于所述K个元数据特征,通过元数据预测模型获取目标元数据信息,包括:
基于所述M个词向量嵌入,通过所述元数据预测模型所包括的编码器,获取所述表名文本序列所对应的语义信息向量;
基于所述语义信息向量,通过所述元数据预测模型所包括的解码器获取表描述信息,其中,所述表描述信息属于所述目标元数据信息。
3.根据权利要求2所述的生成方法,其特征在于,所述根据所述已有元数据获取K个元数据信息,包括:
若所述已有元数据包括数据表名,则从所述目标元数据表中获取所述数据表名所对应的所述表名文本信息;
或者,
所述根据所述已有元数据获取K个元数据信息,包括:
若所述已有元数据未包括所述数据表名,则根据所述已有元数据所包括的数据血缘获取关联元数据表,其中,所述关联元数据表为上游元数据表或下游元数据表;
从所述关联元数据表中获取所述数据表名所对应的所述表名文本信息。
4.根据权利要求1所述的生成方法,其特征在于,所述已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项;
所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:
若所述已有元数据包括所述下游依赖任务数,则对所述下游依赖任务数的元数据信息进行数据分箱处理,得到所述下游依赖任务数的元数据特征,其中,所述下游依赖任务数的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述上游依赖任务数,则对所述上游依赖任务数的元数据信息进行数据分箱处理,得到所述上游依赖任务数的元数据特征,其中,所述上游依赖任务数的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述访问频率,则对所述访问频率进行数据分箱处理,得到所述访问频率的元数据特征,其中,所述访问频率的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述在线业务服务情况,则对所述在线业务服务情况进行独热编码处理,得到所述在线业务服务情况的元数据特征,其中,所述在线业务服务情况的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述在线业务数量,对所述在线业务数量进行特征缩放处理,得到所述在线业务数量的元数据特征,其中,所述在线业务数量的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述字段数量,对所述字段数量进行特征缩放处理,得到所述字段数量的元数据特征,其中,所述字段数量的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述数据行数,对所述数据行数进行特征缩放处理,得到所述数据行数的元数据特征,其中,所述数据行数的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述存储大小,对所述存储大小进行特征缩放处理,得到所述存储大小的元数据特征,其中,所述存储大小的元数据特征属于所述K个元数据特征。
5.根据权利要求4所述的生成方法,其特征在于,所述已有元数据还包括业务重要等级以及业务敏感情况中的至少一项;
所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:
若所述已有元数据包括所述业务重要等级,则对所述业务重要等级所对应的元数据信息进行独热编码处理,得到所述业务重要等级的元数据特征,其中,所述业务重要等级的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述业务敏感情况,则对所述业务敏感情况所对应的元数据信息进行独热编码处理,得到所述业务敏感情况的元数据特征,其中,所述业务敏感情况的元数据特征属于所述K个元数据特征;
所述基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,包括:
基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息。
6.根据权利要求5所述的生成方法,其特征在于,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:
基于所述K个元数据特征,通过决策树模型获取针对于所述目标元数据表的所属业务类型信息,其中,所述决策树模型属于所述元数据预测模型,所述决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:
基于所述K个元数据特征,通过随机森林模型获取针对于所述目标元数据表的所属业务类型信息,其中,所述随机森林模型属于所述元数据预测模型,所述随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:
基于所述K个元数据特征,通过可扩展提升树模型获取针对于所述目标元数据表的所属业务类型;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:
基于所述K个元数据特征,通过所述元数据预测模型所包括的输入层,得到第一特征向量;
基于所述第一特征向量,通过所述元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于所述第二特征向量,通过所述元数据预测模型所包括的输出层,得到概率分布;
根据所述概率分布确定所述目标元数据表的所属业务类型信息。
7.根据权利要求4所述的生成方法,其特征在于,所述已有元数据还包括所属业务类型以及业务敏感情况中的至少一项;
所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:
若所述已有元数据包括所述所属业务类型,则对所述所属业务类型所对应的元数据信息进行独热编码处理,得到所述所属业务类型的元数据特征,其中,所述所属业务类型的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述业务敏感情况,则对所述业务敏感情况所对应的元数据信息进行独热编码处理,得到所述业务敏感情况的元数据特征,其中,所述业务敏感情况的元数据特征属于所述K个元数据特征;
所述基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,包括:
基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务重要等级信息。
8.根据权利要求7所述的生成方法,其特征在于,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务重要等级信息,包括:
基于所述K个元数据特征,通过决策树模型获取针对于所述目标元数据表的业务重要等级信息,其中,所述决策树模型属于所述元数据预测模型,所述决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务重要等级信息,包括:
基于所述K个元数据特征,通过随机森林模型获取针对于所述目标元数据表的业务重要等级信息,其中,所述随机森林模型属于所述元数据预测模型,所述随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务重要等级信息,包括:
基于所述K个元数据特征,通过可扩展提升树模型获取针对于所述目标元数据表的业务重要等级;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务重要等级信息,包括:
基于所述K个元数据特征,通过所述元数据预测模型所包括的输入层,得到第一特征向量;
基于所述第一特征向量,通过所述元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于所述第二特征向量,通过所述元数据预测模型所包括的输出层,得到概率分布;
根据所述概率分布确定所述目标元数据表的业务重要等级信息。
9.根据权利要求4所述的生成方法,其特征在于,所述已有元数据还包括所属业务类型以及业务重要等级中的至少一项;
所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:
若所述已有元数据包括所述所属业务类型,则对所述所属业务类型所对应的元数据信息进行独热编码处理,得到所述所属业务类型的元数据特征,其中,所述所属业务类型的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述业务重要等级,则对所述业务重要等级所对应的元数据信息进行独热编码处理,得到所述业务重要等级的元数据特征,其中,所述业务重要等级的元数据特征属于所述K个元数据特征;
所述基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,包括:
基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务敏感情况信息。
10.根据权利要求9所述的生成方法,其特征在于,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务敏感情况信息,包括:
基于所述K个元数据特征,通过决策树模型获取针对于所述目标元数据表的业务敏感情况信息,其中,所述决策树模型属于所述元数据预测模型,所述决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务敏感情况信息,包括:
基于所述K个元数据特征,通过随机森林模型获取针对于所述目标元数据表的业务敏感情况信息,其中,所述随机森林模型属于所述元数据预测模型,所述随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务敏感情况信息,包括:
基于所述K个元数据特征,通过可扩展提升树模型获取针对于所述目标元数据表的业务敏感情况信息;
或者,
所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的业务敏感情况信息,包括:
基于所述K个元数据特征,通过所述元数据预测模型所包括的输入层,得到第一特征向量;
基于所述第一特征向量,通过所述元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;
基于所述第二特征向量,通过所述元数据预测模型所包括的输出层,得到概率分布;
根据所述概率分布确定所述目标元数据表的业务敏感情况信息。
11.根据权利要求1至10中任一项所述的生成方法,其特征在于,所述基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息之后,所述方法还包括:
根据所述K个元数据以及所述K个元数据信息,生成K条元数据记录;
根据所述缺失元数据以及所述目标元数据信息,生成目标元数据记录;
将所述K条元数据记录以及目标元数据记录至区块链进行同步存储,其中,所述区块链用于为至少两个节点设备提供数据表的元数据信息。
12.根据权利要求1至10中任一项所述的生成方法,其特征在于,所述基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息之后,所述方法还包括:
显示所述目标元数据表的所述目标元数据信息;
或,
将所述目标元数据表的所述目标元数据信息发送至终端设备,以使所述终端设备显示所述目标元数据表的所述目标元数据信息。
13.一种元数据信息生成装置,其特征在于,包括:
获取模块,用于获取目标元数据表的已有元数据,其中,所述已有元数据为在所述目标元数据表中已经存在的元数据,且所述已有元数据包括K个元数据,所述K为大于或等于1的整数;
所述获取模块,还用于根据所述已有元数据获取K个元数据信息,其中,所述元数据信息与所述元数据具有一一对应的关系;
处理模块,用于对所述K个元数据信息进行特征处理,得到K个元数据特征,其中,所述元数据特征与所述元数据信息具有一一对应的关系;
所述获取模块,还用于基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,其中,所述目标元数据信息为缺失元数据所对应的元数据信息,所述缺失元数据为在所述目标元数据表中不存在的元数据。
14.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的生成方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110383069.7A CN115203194A (zh) | 2021-04-09 | 2021-04-09 | 一种元数据信息的生成方法、相关装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110383069.7A CN115203194A (zh) | 2021-04-09 | 2021-04-09 | 一种元数据信息的生成方法、相关装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115203194A true CN115203194A (zh) | 2022-10-18 |
Family
ID=83570624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110383069.7A Pending CN115203194A (zh) | 2021-04-09 | 2021-04-09 | 一种元数据信息的生成方法、相关装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203194A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860564A (zh) * | 2023-09-05 | 2023-10-10 | 山东智拓大数据有限公司 | 一种云服务器数据管理方法及其数据管理装置 |
CN117709723A (zh) * | 2023-12-18 | 2024-03-15 | 江苏安胜达安全科技有限公司 | 一种基于数据分析的实验室安全流程监管系统 |
-
2021
- 2021-04-09 CN CN202110383069.7A patent/CN115203194A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860564A (zh) * | 2023-09-05 | 2023-10-10 | 山东智拓大数据有限公司 | 一种云服务器数据管理方法及其数据管理装置 |
CN116860564B (zh) * | 2023-09-05 | 2023-11-21 | 山东智拓大数据有限公司 | 一种云服务器数据管理方法及其数据管理装置 |
CN117709723A (zh) * | 2023-12-18 | 2024-03-15 | 江苏安胜达安全科技有限公司 | 一种基于数据分析的实验室安全流程监管系统 |
CN117709723B (zh) * | 2023-12-18 | 2024-06-11 | 江苏安胜达安全科技有限公司 | 一种基于数据分析的实验室安全流程监管系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310034B (zh) | 一种资源推荐方法及相关设备 | |
US9633115B2 (en) | Analyzing a query and provisioning data to analytics | |
CN107003877A (zh) | 应用的上下文深层链接 | |
CN105659209B (zh) | 在客户端设备上托管的云服务 | |
CN112163428A (zh) | 语义标签的获取方法、装置、节点设备及存储介质 | |
CN110704661A (zh) | 一种图像分类方法和装置 | |
US11514054B1 (en) | Supervised graph partitioning for record matching | |
CN107171894A (zh) | 终端设备、分布式云端检测系统以及样本检测的方法 | |
CN110503409B (zh) | 信息处理的方法以及相关装置 | |
US20200349226A1 (en) | Dictionary Expansion Using Neural Language Models | |
CN115203194A (zh) | 一种元数据信息的生成方法、相关装置、设备及存储介质 | |
CN112116391A (zh) | 多媒体资源投放方法、装置、计算机设备及存储介质 | |
CN115022098B (zh) | 人工智能安全靶场内容推荐方法、装置及存储介质 | |
CN113392150A (zh) | 一种基于业务域的数据表展示方法、装置、设备及介质 | |
CN109388551A (zh) | 预测代码存在漏洞概率的方法、漏洞检测方法、相关装置 | |
CN111597804A (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN113220848A (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN116883181B (zh) | 基于用户画像的金融服务推送方法、存储介质及服务器 | |
US20220366138A1 (en) | Rule-based machine learning classifier creation and tracking platform for feedback text analysis | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
US20230230408A1 (en) | Methods, systems, articles of manufacture, and apparatus for decoding images | |
CN116204709A (zh) | 一种数据处理方法及相关装置 | |
CN102880927A (zh) | 用于企业情报架构中的企业情报管理的方法和设备 | |
CN116957585A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN113486260B (zh) | 互动信息的生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40074130 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |