CN112396108A - 业务数据评估方法、装置、设备及计算机可读存储介质 - Google Patents
业务数据评估方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112396108A CN112396108A CN202011298674.6A CN202011298674A CN112396108A CN 112396108 A CN112396108 A CN 112396108A CN 202011298674 A CN202011298674 A CN 202011298674A CN 112396108 A CN112396108 A CN 112396108A
- Authority
- CN
- China
- Prior art keywords
- classification
- metadata
- service
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000011157 data evaluation Methods 0.000 title claims abstract description 96
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 148
- 238000013145 classification model Methods 0.000 claims abstract description 120
- 230000008569 process Effects 0.000 claims abstract description 73
- 238000011156 evaluation Methods 0.000 claims abstract description 56
- 238000007726 management method Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000007405 data analysis Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 22
- 230000000694 effects Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 230000001419 dependent effect Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000012821 model calculation Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000010276 construction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011426 transformation method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种业务数据评估方法、装置、设备及计算机可读存储介质;方法包括:获取业务过程中生成的元数据集;元数据集表征业务过程中技术数据与过程定义对应的描述信息;从业务价值维度对元数据集进行特征提取,得到元数据特征集;业务价值维度为技术元数据与业务元数据所表征的业务管理运营状态;使用目标多分类模型对元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;基于重要性分级结果实现对业务的数据分析。通过本申请,能够通过人工智能技术提高业务数据评估的效率和准确性。
Description
技术领域
本申请涉及计算机技术,尤其涉及一种业务数据评估方法、装置、设备及计算机可读存储介质。
背景技术
随着数据管理行业的成熟和发展,数据资产对企业的重要性也日益凸显。目前,各企业都依赖于数据资产做出更明智和有效的决策,提供更好的产品和服务,降低成本,控制风险。企业的业务发展过程中会生产出大量的数据表,随着数据表的数据量和数据种类的不断增加,需要有效的方法对庞大的数据表进行评估,从中提炼出对企业更重要更有价值的数据资产以供决策者进行分析。
然而,目前的方法或者以人工的方式进行重要性评估,从而造成了业务数据评估工作量大,效率低;或者局限于通过既定规则或单一的指标对数据资产的重要性进行简单的划分和评估,从而降低了业务数据评估的效率和准确性。
发明内容
本申请实施例提供一种业务数据评估方法、装置及计算机可读存储介质,能够通过人工智能技术提高业务数据评估的效率和准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种业务数据评估方法,包括:
获取业务过程中生成的元数据集;所述元数据集表征业务过程中技术数据与过程定义对应的描述信息;
从业务价值维度对所述元数据集进行特征提取,得到元数据特征集;所述业务价值维度为所述技术元数据与所述业务元数据所表征的业务管理运营状态;
使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,
所述目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;所述特征样本集中包含多个样本类的元数据特征;
基于所述重要性分级结果实现对业务的数据分析。
本申请实施例提供一种业务数据评估装置,包括:
数据采集模块,用于获取业务过程中生成的元数据集;所述元数据集表征业务过程中技术数据与过程定义对应的描述信息;
特征提取模块,用于从业务价值维度对所述元数据集进行特征提取,得到元数据特征集;所述业务价值维度为所述技术元数据与所述业务元数据所表征的业务管理运营状态;
模型计算模块,用于使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,
所述目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;所述特征样本集中包含多个样本类的元数据特征;
数据分析模块,用于基于所述重要性分级结果实现对业务的数据分析。
上述装置中,所述特征提取模块,还用于从所述技术元数据中,提取出技术元数据特征;所述技术元数据特征表征业务规模与业务访问量对应的技术性统计指标;从所述业务元数据中,提取出业务元数据特征;所述业务元数据特征表征业务属性和业务过程定义对应的描述性统计指标;分别对所述技术元数据特征与所述业务元数据特征,进行特征归一化、特征变换以及特征选择中的至少一种特征处理,得到所述元数据特征集。
上述装置中,所述技术元数据包括:数据源信息、数据转换描述信息、对象定义、数据结构定义、数据清理和数据更新时用的规则、以及源数据到目的数据的映射中的至少一种;所述业务元数据包括:业务名称、业务定义、业务描述信息、业务属性中的至少一种;所述技术元数据特征,包括下游依赖任务数、上游依赖任务数、访问频率、是否服务在线业务、服务在线业务数量、字段数量、数据行数、存储大小中的至少一项;所述业务元数据特征,包括所属业务分类、所属业务星级、是否涉及敏感数据中的至少一项。
上述装置中,所述目标多分类模型为集成学习模型,所述集成学习模型包含至少一个分类树,所述模型计算模块,还用于使用所述至少一个分类树中的每个分类树,分别对所述元数据特征集中的不同元数据特征进行重要性评估分类,得到所述每个分类树对应的子分类结果,所述子分类结果属于至少一个预设重要级别;基于每个子分类结果进行汇总投票,并基于投票结果确定所述重要性分级结果。
上述装置中,所述业务数据评估装置还包括模型训练模块,所述模型训练模块,用于使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果之前,获取原始特征集;所述原始特征集中包含带有标注分类结果的多个原始元数据特征;对所述原始特征集进行特征处理,得到所述特征样本集;通过所述特征样本集对所述初始多分类模型进行训练,得到目标多分类模型。
上述装置中,所述模型训练模块,还用于对所述原始特征集使用特征归一化方法、特征变换方法以及特征选择方法中的至少一种方法进行处理,从而得到所述特征样本集。
上述装置中,所述模型训练模块,还用于在当前次训练中,从所述特征样本集中选取预设第一数量的特征样本,作为当前训练集;使用所述初始多分类模型对所述当前训练集进行分类预测,得到预测分类结果,并基于所述预测分类结果与所述标注分类结果对所述初始多分类模型进行迭代更新,直至达到预设训练目标时,结束训练,得到训练后的多分类模型;从所述特征样本集中选取预设第二数量特征样本作为测试集;使用所述训练后的多分类模型对所述测试集进行分类预测,得到测试分类结果;使用预设评估方法对所述测试分类结果进行分类效果评估,得到评估结果,当所述评估结果为通过时,将所述训练后的多分类模型作为所述目标多分类模型。
上述装置中,所述初始多分类模型包括:初始分类树,所述模型训练模块,还用于当所述当前次训练为首次训练时,使用初始分类树对所述当前训练集进行分类预测,得到所述初始分类树对应的分类预测值;当所述当前次训练为非首次训练时,基于上一个分类树对应的分类预测值与所述标注分类结果构建本次训练对应的当前分类树;使用所述当前分类树对所述当前训练集进行分类预测,得到所述当前分类树对应的分类预测值,持续上述迭代过程直至达到预设训练目标时,将训练过程得到的至少一个分类树作为所述训练后的多分类模型。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的业务数据评估方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的业务数据评估方法。
本申请实施例具有以下有益效果:
利用目标多分类模型,对业务过程产生的元数据集进行重要性评估,提高了评估速度,进而提高了业务数据评估的效率,并且,由于目标多分类模型是使用包含多种元数据特征的特征样本集,对初始多分类模型进行训练后得到的,因此使用目标多分类模型可以基于多种元数据特征的评估指标对元数据集进行综合性、体系化的评估,从而提高了业务数据评估的准确性。
附图说明
图1是本申请实施例提供的业务数据评估系统架构的一个可选的结构示意图;
图2是本申请实施例提供的业务数据评估装置的一个可选的结构示意图;
图3是本申请实施例提供的业务数据评估方法的一个可选的流程示意图;
图4是本申请实施例提供的业务数据评估方法的一个可选的流程示意图;
图5是本申请实施例提供的业务数据评估方法的一个可选的流程示意图;
图6是本申请实施例提供的至少一个分类树对测试集进行分类预测的示意图;
图7是本申请实施例提供的业务数据评估方法的一个可选的流程示意图;
图8是本申请实施例提供的业务数据评估方法的一个可选的流程示意图;
图9是本申请实施例提供的业务数据评估方法实用过程的一个可选的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)元数据:元数据是描述数据间关系的数据。数据应用系统中元数据泛指描述数据概念(Concepts)、数据间关系(Roles)、数据处理规则(Rules)的数据,其中,领域语义(Semantics)和知识(Knowledge)也属于元数据的范畴。
元数据也被称作关于数据的数据(data about data),此术语指任何用于帮助网络电子资源的识别、描述和定位的数据。元数据可以用来描述数据本身的内容特征和其他特征,目的是加强对网络信息资源的发现、识别、开发、组织和评价,并对相关的信息资源进行选择、定位、调用,追踪资源在使用过程中的变化,实现信息资源的整合、有效管理和长期保存。
2)元数据管理:作为数据描述的信息,通过元数据的采集、存储、检索、共享、开放等能力,帮助业务更好理解与应用数据,也是数据资产管理的基石,类型涵盖数据字典、数据血缘、业务指标、运营指标等。
3)数据资产管理:是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。通过流程、制度、技术等组合手段,为业务团队在数据交付质量、效率、成本和安全等维度提供有力保障,实现数据快速形成资产化,助力业务获得成功。
4)数据资产评级与分层:业务在发展过程中会生产出大量的数据表,但并非所有的数据都是资产,因此需要一套评价体系来综合对数据资产进行评级与分层,划分重要等级,如高、中、低三档。
5)元数据特征:元数据特征是建立在原始的元数据之上的特定表示,它是一个单独的可测量属性,通常用元数据集中的列表示。对于一个通用的二维元数据集,每个元数据由一行表示,每个元数据特征由一列表示,对于每一元数据具有一个特定的值。
6)数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
7)数据仓库(Data Warehouse,DW),是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
8)数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL结构化查询语言(Structured Query Language)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
9)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
10)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及基于人工智能进行数据资产评级的技术,具体通过如下实施例进行说明。
本申请实施例提供一种业务数据评估方法、装置、设备和计算机可读存储介质,能够通过人工智能技术提高业务数据评估的效率和准确性,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为终端时示例性应用。
参见图1,图1是本申请实施例提供的业务数据评估系统100的一个可选的架构示意图,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于获取业务过程中生成的元数据集;元数据集表征业务过程中技术数据与过程定义对应的描述信息;从业务价值维度对元数据集进行特征提取,得到元数据特征集;业务价值维度为技术元数据与业务元数据所表征的业务管理运营状态;使用目标多分类模型对元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;特征样本集中包含多个样本类的元数据特征;基于重要性分级结果实现对业务的数据分析,在图形界面400-1显示分类结果,服务器200用于将业务过程中生成的元数据集保存在数据库500中,并在终端400获取元数据集时从数据库500中取得元数据集提供给终端400。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的终端400的结构示意图,图2所示的终端400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的业务数据评估装置可以采用软件方式实现,图2示出了存储在存储器450中的业务数据评估装置455,其可以是程序和插件等形式的软件,包括以下软件模块:数据采集模块4551、特征提取模块4552、模型计算模块4553和数据分析模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的业务数据评估方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application S pecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logi c Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Devi ce)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的业务数据评估方法。
参见图3,图3是本申请实施例提供的业务数据评估方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
S101、获取业务过程中生成的元数据集;元数据集表征业务过程中技术数据与过程定义对应的描述信息。
本申请实施例中,业务数据评估装置获取业务过程中生成的元数据集,基于元数据集对业务过程中产生的数据进行评估。
本申请实施例中,元数据集表征业务过程中技术数据与过程定义对应的描述信息,元数据集可以由技术元数据和业务元数据构成。其中,技术元数据为在数据开发过程中产生的技术性统计指标,是指数据仓库的设计和管理人员用于开发和日常管理数据仓库时用的数据。在一些实施例中,技术元数据的范围可以包括:数据源信息、数据转换的描述、数据仓库内对象和数据结构的定义、数据清理和数据更新时用的规则、源数据到目的数据的映射等。示例性的,如数据血缘、扇入数、扇出数、字段名称、字段长度、数据库表结构等。而业务元数据是指使用业务名称、定义、描述等信息表示企业环境中的各种属性和概念。在一些实施例中,业务过程中产生的数据背后的业务上下文都可以看成是业务元数据,示例性的,如业务名称、业务定义、业务描述等。
本申请实施例中,业务数据评估装置可以从人工填写的数据表格中获取到业务元数据,以及通过从数据仓库调度任务的配置信息中获取到技术元数据,进而得到元数据集,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,元数据的数据结构可以是元数据项目与元数据内容对应构成的二维向量。其中,元数据内容为具体的数据,元数据项目为描述元数据的指标。
在一些实施例中,业务数据评估装置采集到的元数据集可以以表格的方式体现,表格中每一行数据对应一个技术元数据或业务元数据。
S102、从业务价值维度对元数据集进行特征提取,得到元数据特征集;业务价值维度为技术元数据与业务元数据所表征的业务管理运营状态。
本申请实施例中,为了从原始的元数据集中获取对业务过程进行评估时更有价值的信息,业务数据评估装置可以从业务价值维度,对元数据进行必要的的清洗、预处理分析以及特征提取,从而得到元数据特征集,其中,元数据特征集表征元数据所能体现的具有业务价值的属性特征。
本申请实施例中,业务价值维度表征对业务数据整体价值进行评估的维度,可以涵盖热度、广度、收益度等多个维度。
S103、使用目标多分类模型对元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;特征样本集中包含多个样本类的元数据特征。
本申请实施例中,业务数据评估装置可以使用目标多分类模型,根据元数据特征集对元数据集进行重要性评估分类,将元数据集中包含的多个元数据分别分类至至少一个预设重要级别,从而得到元数据集对应的重要性分级结果。其中,重要性分级结果中的每个预设重要级别中包含有该预设重要级别对应的至少一个元数据。
本申请实施例中,目标多分类模型是使用特征样本集对初始多分类模型进行重要性评估分类训练后得到的,具有对多种元数据特征进行多个类别的重要性评估分类的能力。在一些实施例中,至少一个预设重要级别可以是1至5的数值,其中,1代表该元数据特征的业务价值非常重要;5代表该元数据特征的重要性最低;2、3和4分别代表重要、中等以及普通的重要性级别。
S104、基于重要性分级结果实现对业务的数据分析。
本申请实施例中,由于重要性分级结果表征了元数据集中所包含的各种元数据所属的不同预设重要级别,业务数据评估装置得到元数据集对应的重要性分级结果时,就可以基于重要性分级结果,提炼出对业务过程重要性较高的元数据,作为业务过程中的数据资产进行保存,并基于数据资产,获知业务数据的各项指标的变化趋势,整体价值指标的排名情况等,从而实现对业务过程进行数据分析,并实现数据资产的有效运营与沉淀。
可以理解的是,本申请实施例中,业务数据评估装置利用目标多分类模型,对业务过程产生的元数据集进行重要性评估,提高了评估速度,进而提高了业务数据评估的效率,并且,由于目标多分类模型是使用包含多种元数据特征的特征样本集,对初始多分类模型进行训练后得到的,因此使用目标多分类模型可以基于多种元数据特征的评估指标对元数据集进行综合性、体系化的评估,从而提高了业务数据评估的准确性。
在一些实施例中,参见图4,图4是本申请实施例提供的业务数据评估方法的一个可选的流程示意图,基于图3,元数据集包括:技术元数据和业务元数据;技术元数据表征业务运行过程中产生和使用的技术类数据;业务元数据表征业务运行过程中产生和定义的上下文描述信息,S102可以通过执行S1021-S1023来实现,将结合各步骤进行说明。
S1021、从技术元数据中,提取出技术元数据特征;技术元数据特征表征业务规模与业务访问量对应的技术性统计指标。
本申请实施例中,业务数据评估装置可以从技术元数据中提取出表征业务规模与业务访问量的技术性统计指标,作为技术元数据特征。
在一些实施例中,技术元数据特征可以包括下游依赖任务数、上游依赖任务数、访问频率、是否服务在线业务、服务在线业务数量、字段数量、数据行数、存储大小中的至少一项。
S1022、从业务元数据中,提取出业务元数据特征;业务元数据特征表征业务属性和业务过程定义对应的描述性统计指标。
本申请实施例中,业务数据评估装置可以从业务元数据中提取出表征业务属性和业务过程定义对应的描述性统计指标,作为业务元数据特征。
在一些实施例中,业务元数据特征可以包括所属业务分类、所属业务星级、是否涉及敏感数据中的至少一项。
S1023、分别对技术元数据特征与业务元数据特征,进行特征归一化、特征变换以及特征选择中的至少一种特征处理,得到元数据特征集。
本申请实施例中,业务数据评估装置可以分别对技术元数据特征与业务元数据特征进行处理,得到元数据特征集。
本申请实施例中,业务数据评估装置可以利用特征工程中的特征构建方法,从原始的技术元数据特征与业务元数据特征中构建出高质量的元数据特征集,使用目标多分类模型对经过特征处理的元数据特征集进行分类预测,以提高分类预测结果的稳定性和准确性。
本申请实施例中,业务数据评估装置可以分别对技术元数据特征与业务元数据特征进行特征归一化处理,以提高输入目标多分类模型的特征样本的稳定性,进而保证目标多分类模型预测结果的稳定性。在一些实施例中,特征归一化的方法可以采用正态分布归一化。
本申请实施例中,业务数据评估装置可以分别对技术元数据特征与业务元数据特征进行特征变换。在一些实施例中,特征变换的方法可以包括:正则化、离散化、独热编码等。
本申请实施例中,业务数据评估装置可以分别对技术元数据特征与业务元数据特征进行特征选择,以剔除不相关或者冗余的特征,保留高价值特征。在一些实施例中,特征选择的方法可以包括:分布式梯度增强(Extreme Gradien t Boosting,XGboost)算法。
需要说明的是,本申请实施例中,业务数据评估装置进行特征处理的方法可以是上述提到的特征归一化、特征变换与特征选择中的任意一种,也可以使用任意几种进行组合来进行特征构建,具体的根据实际情况进行选择,本申请实施例不作限定。
可以理解的是,本申请实施例中,业务数据评估装置通过对技术元特征与业务元特征进行特征处理,得到元数据特征集,提高了使用目标多分类模型对元数据特征集进行分类预测的准确性。
在一些实施例中,参见图5,图5是本申请实施例提供的业务数据评估方法的一个可选的流程示意图,基于图3或图4,目标多分类模型可以为集成学习模型,其中,集成学习模型包含至少一个分类树,S103可以通过执行S1031-S1032来实现,将结合各步骤进行说明。
S1031、使用至少一个分类树中的每个分类树,分别对元数据特征集中的不同元数据特征进行重要性评估分类,得到每个分类树对应的子分类结果,子分类结果属于至少一个预设重要级别。
本申请实施例中,业务数据评估装置使用至少一个分类树中的每个分类树分别对元数据特征集进行分类预测,可以得到元数据特征集中的不同元数据与至少一个预设重要级别的对应关系,作为每个分类树对应的子分类结果。
S1032、基于每个子分类结果进行汇总投票,并基于投票结果确定重要性分级结果。
本申请实施例中,业务数据评估装置将每个分类树对应的子分类结果进行汇总,基于汇总结果,统计出每个元数据特征属于每种预设重要级别的票数,将票数最高的预设重要级别作为该元数据特征的分级结果,最终得到整个元数据集的重要性分级结果。
在一些实施例中,业务数据评估装置也可以对至少一个分类树中的每个分类树预设不同的权重值,这样,在进行投票时,可以将每个分类树对应的子分类结果分别乘以各自预设的权重后再进行投票,进而基于投票结果确定重要性分级结果。
在一些实施例中,目标多分类模型中包含的至少一个分类树如图6所示,其中,元数据特征集中包含特征1至特征5的至少一个元数据特征,预设重要级别为1-5级,在第一棵树的子分类结果中,对于特征2的重要性预测为1,表征非常重要;在第二棵树的子分类结果中,对于特征2的重要性预测为3,表征重要性中等;在第三棵树的子分类结果中,对于特征2的重要性预测也为1,则业务数据评估装置可以将预设重要级别1确定为特征2的分级结果。
可以理解的是,本申请实施例中,通过集成学习模型对元数据特征集进行重要性分类评估与预测,节省了人工对元数据进行重要性划分的工作量,提高了业务数据评估的效率。并且,可以利用集成学习模型包含的多个决策分类树,提高重要性分类预测的准确性,进而提高业务数据评估的准确性。
在一些实施例中,参见图7,图7是本申请实施例提供的业务数据评估方法的一个可选的流程示意图,基于图5,在S102之前,还可以执行S001-S003,将结合各步骤进行说明。
S001、获取原始特征集;原始特征集包含带有标注分类结果的多个原始元数据特征。
本申请实施例中,业务数据评估装置首先获取原始特征集,其中,原始特征集中包含多个从业务样本数据中提取出的原始元数据特征,每个原始元数据特征带有对应的标注分类结果。
本申请实施例中,标注分类结果属于至少一种预设重要级别。
S002、对原始特征集进行特征处理,得到特征样本集。
本申请实施例中,为了提高分类模型的泛化能力,业务数据评估装置可以对原始特征集进行特征构建,以得到特征样本集,使用特征样本集对初始多分类模型进行训练,从而提高对初始多分类模型进行模型训练的训练效果。
本申请实施例中,业务数据评估装置对原始特征集进行特征处理的过程与S102描述一致,此处不再赘述。其中,业务数据评估装置还可以利用特征归一化方法加速模型在训练过程中得到收敛;还可以利用特征变换方法增加特征样本的多样性,提高模型的训练效果和分类精度。
S003、通过特征样本集对初始多分类模型进行训练,得到目标多分类模型。
本申请实施例中,业务数据评估装置使用特征构建处理得到的特征样本集对初始多分类模型进行训练,得到目标多分类模型。
本申请实施例中,初始多分类模型可以是传统学习模型、集成学习模型、以及深度学习模型等多种类型的网络模型。业务数据评估装置可以将特征样本集输入初始多分类模型,使用初始多分类模型对特征样本集进行重要性分类预测,得到分类预测结果,并将分类预测结果与特征样本集对应的标注分类结果进行对比,得到训练误差,基于训练误差对初始多分类模型进行迭代更新,通过预设的目标优化函数在后续的每一次训练中逐渐减小训练误差,直至满足训练条件时,得到目标多分类模型。
在一些实施例中,业务数据评估也可以将特征样本集划分为训练集和测试集来对初始多分类模型进行模型训练。参见图8,图8是本申请实施例提供的业务数据评估方法的一种可选的流程示意图,基于图7,S003具体可以通过执行S201-S205来实现,将结合各步骤进行说明:
S201、在当前次训练中,从特征样本集中选取预设第一数量的特征样本,作为当前训练集。
本申请实施例中,对于当前次训练,业务数据评估装置从特征样本集中选取预设第一数量的特征样本作为当前训练集。
本申请实施例中,对于初始多分类模型的每一次训练,业务数据评估装置都从特征样本集中进行当前训练集的选择,也就是说,对初始多分类模型每一次训练所使用的当前训练集都是不同的。
在一些实施例中,业务数据评估装置可以通过随机选取的方式进行当前训练集的选择,也可以通过其他方式,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,预设第一数量可以是特征样本集中特征样本总数的70%,也可以根据实际应用的需要预设为其他数值,具体的根据实际情况进行选择,本申请实施例不作限定。
S202、使用初始多分类模型对当前训练集进行分类预测,得到预测分类结果,并基于预测分类结果与标注分类结果对初始多分类模型进行迭代更新,直至达到预设训练目标时,结束训练,得到训练后的多分类模型。
本申请实施例中,业务数据评估装置使用初始多分类模型对当前次训练的当前训练集进行分类预测,得到当前次训练对应预测分类结果,并基于当前次训练的预测分类结果与标注分类结果之间的误差,对初始多分类模型的模型参数进行调整和更新,使用调整后的多分类模型进行下一轮训练,重复上述迭代过程,并在每一次模型参数更新中优化预测分类结果与标注分类结果之间的误差,直至达到预设训练目标,如达到预设训练次数,或误差小于预设阈值时,结束训练,得到训练后的多分类模型。
在一些实施例中,初始多分类模型包含初始分类树,S202可以通过执行S2021-S2023来实现,将结合各步骤进行说明。
S2021、当当前次训练为首次训练时,使用初始分类树对当前训练集进行分类预测,得到初始分类树对应的分类预测值。
本申请实施例中,业务数据评估装置可以使用初始分类树作为初始多分类模型,对当前训练集进行分类预测。
在一些实施例中,初始分类树可以是分类回归树,(Classification and Regression Trees,CART),也可以是其他类型的决策分类树,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,当当前次训练为首次训练时,业务数据评估装置使用默认树结构和叶子节点参数值作为初始分类树,使用初始分类树对当前训练集进行分类预测,得到初始分类树对应的分类预测值。
S2022、当当前次训练为非首次训练时,基于上一个分类树对应的分类预测值与标注分类结果构建本次训练对应的当前分类树。
本申请实施例中,当当前次训练为非首次训练时,业务数据评估装置基于上一个分类树对应的分类与测试与标注分类结果,得到上一次训练的训练误差。业务数据评估装置基于上一次训练的训练误差构建本次训练对应的分类树的结构以及每个叶子节点对应的参数,作为当前分类树,以通过当前分类树拟合上一次训练的训练误差,使得训练误差能够在训练过程中得到逐步减小和收敛。
S2023、使用当前分类树对当前训练集进行分类预测,得到当前分类树对应的分类预测值,持续上述迭代过程直至达到预设训练目标时,将训练过程得到的至少一个分类树作为训练后的多分类模型。
本申请实施例中,业务数据评估装置使用本次训练构建的当前分类树对本次训练随机选取的当前训练集进行分类预测,得到当前分类树对应的分类预测值作为训练结果,并判断本次训练是否达到了预设训练目标。当本次训练未达到预设训练目标时,业务数据评估装置进入下一轮训练,将下一轮训练作为当前次训练,继续基于上一次训练的训练误差构建本次训练对应的当前分类树,持续上述迭代过程直至达到预设训练目标时,结束训练,得到至少一个分类树。业务数据评估装置将至少一个分类树作为训练后的多分类模型。
S203、从特征样本集中选取预设第二数量的测试集。
本申请实施例中,业务数据评估装置可以从特征样本集中随机选取预设第二数量的测试集,示例性的,选取特征样本集中30%的特征样本作为测试集。
S204、使用训练后的多分类模型对测试集进行分类预测,得到测试分类结果。
本申请实施例中,为了验证训练后的多分类模型的分类效果,业务数据评估装置使用训练后的多分类模型对测试集进行分类预测,得到测试分类结果,以通过测试分类结果验证分类效果是否达到要求。
S205、对测试分类结果进行分类效果评估,得到评估结果,当评估结果满足预设评估阈值时,将训练后的多分类模型作为目标多分类模型。
本申请实施例中,业务数据评估装置使用预设的模型效果评估方法,基于准确率、召回率、接受者操作特征(Receiver Operating Characteristic,ROC)曲线等指标对测试分类结果进行分类效果评估,得到评估结果,当评估结果为通过时,将训练后的多分类模型作为目标多分类模型。
在一些实施例中,当业务数据评估装置基于正确率评估指标对测试分类结果进行分类效果评估时,业务数据评估装置可以将测试分类结果与标注分类结果进行对比,得到分类正确率。其中,分类测试正确率为分类结果正确的特征样本的数量与测试集中所有特征样本的数量的比值。当分类正确率大于预设正确率阈值时,说明训练后的多分类模型的分类预测结果可以满足重要性评估分类的要求,业务数据评估装置将训练后的多分类模型作为目标多分类模型。
可以理解的是,本申请实施例中,用作训练的特征样本集是经过特征构建处理的,因此可以提高训练所得到的目标多分类模型的模型精度,并且,由于目标多分类模型是使用包含多种元数据特征的特征样本集,对初始多分类模型进行训练后得到的,因此使用目标多分类模型可以基于多种元数据特征的评估指标对元数据集进行综合性、体系化的评估,从而进一步提高了业务数据评估的准确性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例中,对于金融业务场景,可以如图9所示,通过数据准备阶段、数据处理、特征构建、模型调优、模型部署阶段实现本申请提出的业务数据评估方法。其中,在数据准备阶段中,业务数据评估装置可以获取数据仓库的设计人员和管理人员填写的业务数据表格作为业务元数据,并通过自动化任务读取数据仓库配置信息和运行记录中的技术数据表格作为技术元数据,从而得到10000张表格作为元数据集。接着,在数据准备阶段中,可以从元数据集中随机抽样5%,即不少于500张表格使用人工进行重要性分类标注,根据业务经验对数据资产的重要等级进行人工判别。示例性的,重要性等级的预设分类可以定义为:1-非常重要;2-重要;3-中等;4-普通;5-不重要。为了对不同标注者的人工判别标准进行统一,可以从500张表格中随机抽取100张表格,使用两个以上的标注者进行盲标,当所有标注者的标注一致率大于或等于90%时,可以是为标注结果达标,进入特征构建过程。在特征构建过程中,业务数据评估装置可以将500张表格中的技术元数据特征和业务元数据特征作为原始特征样本集中的原始特征样本,将人工标注的分类结果作为原始特征样本集中每个原始特征样本的标注分类结果。进而,在特征构建阶段中,业务数据评估装置可以通过特征工程中的特征构建方法,结合原始特征样本集中的技术元数据及业务元数据特征,构建数据资产特征集。在模型调优阶段的模型训练过程中,业务数据评估装置将数据资产数据集切分为训练集及测试集,使用训练集,对至少一种候选模型,如传统学习模型中树模型(决策树)、逻辑回归(LogisticsRegresssion,LR)模型;集成学习模型中的XGBoost模型、随机森林模型;以及深度学习模型中的长短期记忆(Long-Short Term Memory,LSTM)模型、神经网络模型等进行训练,以从中选型出分类效果最好的目标多分类模型。业务数据评估装置对上述每一种候选模型进行模型训练,在每一种候选模型训练完成后,业务数据评估装置进入模型评估过程,使用测试集对每一种候选模型的训练结果进行预测验证,并采用多分类模型评估指标,评估至少一种候选模型的模型效果,最终,根据本申请实施例的多次实验,就数据资产重要程度的分类任务与数据特性而言,集成学习模型中的XGBoost模型体现了比较强的分类效果,在计算成本与最终效果的抉择上,本申请实施例最终采用XGBoost模型作为目标多分类模型。在模型部署阶段中,业务数据评估装置可以将后续业务过程中全量未标注的数据表及元数据特征输入XGBoost模型中,预测全数据资产当前的重要等级,完成数据资产评级的分类任务。
可以理解的是,使用本申请实施例中的业务数据评估方法进行多分类任务预测建模,可以达到对数据资产评级与分层的效果,得到对数据资产评级的精细化分类,进而帮助产品及业务团队对不同分类的数据资产实施差异化的数据资产监控与加工,提升精细化运营程度,提升数据资产管理水平,解决数据开发过程中的数据质量与价值评估的问题,助力业务快速实现数据资产化。
下面继续说明本申请实施例提供的业务数据评估装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的业务数据评估装置455中的软件模块可以包括:
数据采集模块4551,用于获取业务过程中生成的元数据集;所述元数据集表征业务过程中技术数据与过程定义对应的描述信息;
特征提取模块4552,用于从业务价值维度对所述元数据集进行特征提取,得到元数据特征集;所述业务价值维度为所述技术元数据与所述业务元数据所表征的业务管理运营状态;
模型计算模块4553,用于使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,
所述目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;所述特征样本集中包含多个样本类的元数据特征;
数据分析模块4554,用于基于所述重要性分级结果实现对业务的数据分析。在一些实施例中,所述特征提取模块4552,还用于从所述技术元数据中,提取出技术元数据特征;所述技术元数据特征表征业务规模与业务访问量对应的技术性统计指标;从所述业务元数据中,提取出业务元数据特征;所述业务元数据特征表征业务属性和业务过程定义对应的描述性统计指标;分别对所述技术元数据特征与所述业务元数据特征,进行特征归一化、特征变换以及特征选择中的至少一种特征处理,得到所述元数据特征集。
在一些实施例中,所述技术元数据包括:数据源信息、数据转换描述信息、对象定义、数据结构定义、数据清理和数据更新时用的规则、以及源数据到目的数据的映射中的至少一种;所述业务元数据包括:业务名称、业务定义、业务描述信息、业务属性中的至少一种;所述技术元数据特征,包括下游依赖任务数、上游依赖任务数、访问频率、是否服务在线业务、服务在线业务数量、字段数量、数据行数、存储大小中的至少一项;所述业务元数据特征,包括所属业务分类、所属业务星级、是否涉及敏感数据中的至少一项。
在一些实施例中,所述目标多分类模型为集成学习模型,所述集成学习模型包含至少一个分类树,所述模型计算模块4553,还用于使用所述至少一个分类树中的每个分类树,分别对所述元数据特征集中的不同元数据特征进行重要性评估分类,得到所述每个分类树对应的子分类结果,所述子分类结果属于至少一个预设重要级别;基于每个子分类结果进行汇总投票,并基于投票结果确定所述重要性分级结果。
在一些实施例中,所述业务数据评估装置还包括模型训练模块,所述模型训练模块,用于使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果之前,获取原始特征集;所述原始特征集中包含带有标注分类结果的多个原始元数据特征;对所述原始特征集进行特征处理,得到所述特征样本集;通过所述特征样本集对所述初始多分类模型进行训练,得到目标多分类模型。
在一些实施例中,所述模型训练模块,还用于对所述原始特征集使用特征归一化方法、特征变换方法以及特征选择方法中的至少一种方法进行处理,从而得到所述特征样本集。
在一些实施例中,所述模型训练模块,还用于在当前次训练中,从所述特征样本集中选取预设第一数量的特征样本,作为当前训练集;使用所述初始多分类模型对所述当前训练集进行分类预测,得到预测分类结果,并基于所述预测分类结果与所述标注分类结果对所述初始多分类模型进行迭代更新,直至达到预设训练目标时,结束训练,得到训练后的多分类模型;从所述特征样本集中选取预设第二数量特征样本作为测试集;使用所述训练后的多分类模型对所述测试集进行分类预测,得到测试分类结果;使用预设评估方法对所述测试分类结果进行分类效果评估,得到评估结果,当所述评估结果为通过时,将所述训练后的多分类模型作为所述目标多分类模型。
在一些实施例中,所述初始多分类模型包括:初始分类树,所述模型训练模块,还用于当所述当前次训练为首次训练时,使用初始分类树对所述当前训练集进行分类预测,得到所述初始分类树对应的分类预测值;当所述当前次训练为非首次训练时,基于上一个分类树对应的分类预测值与所述标注分类结果构建本次训练对应的当前分类树;使用所述当前分类树对所述当前训练集进行分类预测,得到所述当前分类树对应的分类预测值,持续上述迭代过程直至达到预设训练目标时,将训练过程得到的至少一个分类树作为所述训练后的多分类模型。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的业务数据评估方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3-5、图7及图8中示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例,业务数据评估装置利用目标多分类模型,对业务过程产生的元数据集进行重要性评估,提高了评估速度,进而提高了业务数据评估的效率,并且,由于目标多分类模型是使用包含多种元数据特征的特征样本集,对初始多分类模型进行训练后得到的,因此使用目标多分类模型可以基于多种元数据特征的评估指标对元数据集进行综合性、体系化的评估,从而提高了业务数据评估的准确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (10)
1.一种业务数据评估方法,其特征在于,包括:
获取业务过程中生成的元数据集;所述元数据集表征业务过程中技术数据与过程定义对应的描述信息;
从业务价值维度对所述元数据集进行特征提取,得到元数据特征集;所述业务价值维度为所述技术元数据与所述业务元数据所表征的业务管理运营状态;
使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,
所述目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;所述特征样本集中包含多个样本类的元数据特征;
基于所述重要性分级结果实现对业务的数据分析。
2.根据权利要求1所述的方法,其特征在于,所述元数据集包括:技术元数据和业务元数据;所述技术元数据表征业务运行过程中产生和使用的技术类数据;所述业务元数据表征业务运行过程中产生和定义的上下文描述信息,
所述对所述元数据集从业务价值维度进行特征提取,得到元数据特征集,包括:
从所述技术元数据中,提取出技术元数据特征;所述技术元数据特征表征业务规模与业务访问量对应的技术性统计指标;
从所述业务元数据中,提取出业务元数据特征;所述业务元数据特征表征业务属性和业务过程定义对应的描述性统计指标;
分别对所述技术元数据特征与所述业务元数据特征,进行特征归一化、特征变换以及特征选择中的至少一种特征处理,得到所述元数据特征集。
3.根据权利要求2所述的方法,其特征在于,所述技术元数据包括:数据源信息、数据转换描述信息、对象定义、数据结构定义、数据清理和数据更新时用的规则、以及源数据到目的数据的映射中的至少一种;
所述业务元数据包括:业务名称、业务定义、业务描述信息、业务属性中的至少一种;
所述技术元数据特征,包括下游依赖任务数、上游依赖任务数、访问频率、是否服务在线业务、服务在线业务数量、字段数量、数据行数、存储大小中的至少一项;
所述业务元数据特征,包括所属业务分类、所属业务星级、是否涉及敏感数据中的至少一项。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述目标多分类模型为集成学习模型,所述集成学习模型包含至少一个分类树,所述使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果,包括:
使用所述至少一个分类树中的每个分类树,分别对所述元数据特征集中的不同元数据特征进行重要性评估分类,得到所述每个分类树对应的子分类结果,所述子分类结果属于至少一个预设重要级别;
基于每个子分类结果进行汇总投票,并基于投票结果确定所述重要性分级结果。
5.根据权利要求4所述的方法,其特征在于,所述使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果之前,所述方法还包括:
获取原始特征集;所述原始特征集包含带有标注分类结果的多个原始元数据特征;
对所述原始特征集进行特征处理,得到所述特征样本集;
通过所述特征样本集对所述初始多分类模型进行训练,得到目标多分类模型。
6.根据权利要求5所述的方法,其特征在于,所述通过所述特征样本集对所述初始多分类模型进行训练,得到目标多分类模型,包括:
在当前次训练中,从所述特征样本集中选取预设第一数量的特征样本,作为当前训练集;
使用所述初始多分类模型对所述当前训练集进行分类预测,得到预测分类结果,并基于所述预测分类结果与所述标注分类结果对所述初始多分类模型进行迭代更新,直至达到预设训练目标时,结束训练,得到训练后的多分类模型;
从所述特征样本集中选取预设第二数量特征样本作为测试集;
使用所述训练后的多分类模型对所述测试集进行分类预测,得到测试分类结果;
对所述测试分类结果进行分类效果评估,得到评估结果,当所述评估结果满足预设评估阈值时,将所述训练后的多分类模型作为所述目标多分类模型。
7.根据权利要求6所述的方法,其特征在于,所述初始多分类模型包括:初始分类树,所述使用所述初始多分类模型对所述当前训练集进行分类预测,得到预测分类结果,并基于所述预测分类结果与所述标注分类结果对所述初始多分类模型进行迭代更新,直至达到预设训练目标时,结束训练,得到训练后的多分类模型,包括:
当所述当前次训练为首次训练时,使用初始分类树对所述当前训练集进行分类预测,得到所述初始分类树对应的分类预测值;
当所述当前次训练为非首次训练时,基于上一个分类树对应的分类预测值与所述标注分类结果构建本次训练对应的当前分类树;
使用所述当前分类树对所述当前训练集进行分类预测,得到所述当前分类树对应的分类预测值,持续上述迭代过程直至达到预设训练目标时,将训练过程得到的至少一个分类树作为所述训练后的多分类模型。
8.一种业务数据评估装置,其特征在于,包括:
数据采集模块,用于获取业务过程中生成的元数据集;所述元数据集表征业务过程中技术数据与过程定义对应的描述信息;
特征提取模块,用于从业务价值维度对所述元数据集进行特征提取,得到元数据特征集;所述业务价值维度为所述技术元数据与所述业务元数据所表征的业务管理运营状态;
模型计算模块,用于使用目标多分类模型对所述元数据特征集进行重要性评估分类,得到元数据集对应的重要性分级结果;其中,
所述目标多分类模型是使用带有标注分类结果的特征样本集对初始多分类模型进行重要性评估分类训练后得到的;所述特征样本集中包含多个样本类的元数据特征;
数据分析模块,用于基于所述重要性分级结果实现对业务的数据分析。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011298674.6A CN112396108A (zh) | 2020-11-19 | 2020-11-19 | 业务数据评估方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011298674.6A CN112396108A (zh) | 2020-11-19 | 2020-11-19 | 业务数据评估方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112396108A true CN112396108A (zh) | 2021-02-23 |
Family
ID=74606704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011298674.6A Pending CN112396108A (zh) | 2020-11-19 | 2020-11-19 | 业务数据评估方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396108A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784077A (zh) * | 2021-03-17 | 2021-05-11 | 陕西省大数据集团有限公司 | 一种分类提取数据资产价值方法及装置 |
CN113055393A (zh) * | 2021-03-26 | 2021-06-29 | 支付宝(杭州)信息技术有限公司 | 一种安全服务化方法、装置以及设备 |
CN113177613A (zh) * | 2021-05-25 | 2021-07-27 | 中国工商银行股份有限公司 | 系统资源数据分配方法及装置 |
CN113342964A (zh) * | 2021-06-03 | 2021-09-03 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113486596A (zh) * | 2021-07-27 | 2021-10-08 | 中国银行股份有限公司 | 一种数据预处理方法、装置、设备及存储介质 |
CN113535699A (zh) * | 2021-07-16 | 2021-10-22 | 中国工商银行股份有限公司 | 一种数据质量检测方法、装置和设备 |
CN113656808A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 数据安全评估方法、装置、设备及存储介质 |
CN113673889A (zh) * | 2021-08-26 | 2021-11-19 | 上海罗盘信息科技有限公司 | 一种智能化数据资产识别的方法 |
CN113687933A (zh) * | 2021-09-08 | 2021-11-23 | 中国银行股份有限公司 | 一种模型级别确定方法及装置 |
CN114724656A (zh) * | 2022-04-20 | 2022-07-08 | 北京金山云网络技术有限公司 | 数据安全级别的确定方法、装置及服务器 |
CN114841132A (zh) * | 2022-05-16 | 2022-08-02 | 中国工商银行股份有限公司 | 大型机业务分析模型的训练方法、业务分析方法和装置 |
CN115481197A (zh) * | 2022-09-26 | 2022-12-16 | 高维国 | 一种分布式数据处理方法、系统及云平台 |
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
CN116152189A (zh) * | 2023-01-31 | 2023-05-23 | 华纺股份有限公司 | 一种图案织物瑕疵检测方法、系统及检测终端机 |
CN116611793A (zh) * | 2023-06-14 | 2023-08-18 | 中国长江三峡集团有限公司 | 一种基于特征分析的业务数据归纳方法及系统 |
CN118196567A (zh) * | 2024-05-16 | 2024-06-14 | 武汉大学 | 基于大语言模型的数据评价方法、装置、设备及存储介质 |
-
2020
- 2020-11-19 CN CN202011298674.6A patent/CN112396108A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784077A (zh) * | 2021-03-17 | 2021-05-11 | 陕西省大数据集团有限公司 | 一种分类提取数据资产价值方法及装置 |
CN113055393A (zh) * | 2021-03-26 | 2021-06-29 | 支付宝(杭州)信息技术有限公司 | 一种安全服务化方法、装置以及设备 |
CN113177613A (zh) * | 2021-05-25 | 2021-07-27 | 中国工商银行股份有限公司 | 系统资源数据分配方法及装置 |
CN113342964A (zh) * | 2021-06-03 | 2021-09-03 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113342964B (zh) * | 2021-06-03 | 2022-04-19 | 云南大学 | 一种基于移动业务的推荐类型确定方法及系统 |
CN113535699A (zh) * | 2021-07-16 | 2021-10-22 | 中国工商银行股份有限公司 | 一种数据质量检测方法、装置和设备 |
CN113486596A (zh) * | 2021-07-27 | 2021-10-08 | 中国银行股份有限公司 | 一种数据预处理方法、装置、设备及存储介质 |
CN113673889A (zh) * | 2021-08-26 | 2021-11-19 | 上海罗盘信息科技有限公司 | 一种智能化数据资产识别的方法 |
CN113656808A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 数据安全评估方法、装置、设备及存储介质 |
CN113687933A (zh) * | 2021-09-08 | 2021-11-23 | 中国银行股份有限公司 | 一种模型级别确定方法及装置 |
CN114724656A (zh) * | 2022-04-20 | 2022-07-08 | 北京金山云网络技术有限公司 | 数据安全级别的确定方法、装置及服务器 |
CN114841132A (zh) * | 2022-05-16 | 2022-08-02 | 中国工商银行股份有限公司 | 大型机业务分析模型的训练方法、业务分析方法和装置 |
CN115481197A (zh) * | 2022-09-26 | 2022-12-16 | 高维国 | 一种分布式数据处理方法、系统及云平台 |
CN115481197B (zh) * | 2022-09-26 | 2023-10-31 | 北京国联视讯信息技术股份有限公司 | 一种分布式数据处理方法、系统及云平台 |
CN116051296A (zh) * | 2022-12-28 | 2023-05-02 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
CN116051296B (zh) * | 2022-12-28 | 2023-09-29 | 中国银行保险信息技术管理有限公司 | 基于标准化保险数据的客户评价分析方法及系统 |
CN116152189A (zh) * | 2023-01-31 | 2023-05-23 | 华纺股份有限公司 | 一种图案织物瑕疵检测方法、系统及检测终端机 |
CN116152189B (zh) * | 2023-01-31 | 2023-12-19 | 华纺股份有限公司 | 一种图案织物瑕疵检测方法、系统及检测终端机 |
CN116611793A (zh) * | 2023-06-14 | 2023-08-18 | 中国长江三峡集团有限公司 | 一种基于特征分析的业务数据归纳方法及系统 |
CN116611793B (zh) * | 2023-06-14 | 2024-04-16 | 中国长江三峡集团有限公司 | 一种基于特征分析的业务数据归纳方法及系统 |
CN118196567A (zh) * | 2024-05-16 | 2024-06-14 | 武汉大学 | 基于大语言模型的数据评价方法、装置、设备及存储介质 |
CN118196567B (zh) * | 2024-05-16 | 2024-08-06 | 武汉大学 | 基于大语言模型的数据评价方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396108A (zh) | 业务数据评估方法、装置、设备及计算机可读存储介质 | |
US11526579B1 (en) | System and methods for performing automatic data aggregation | |
Bilal et al. | Big Data in the construction industry: A review of present status, opportunities, and future trends | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
CA2953959C (en) | Feature processing recipes for machine learning | |
Karnitis et al. | Migration of relational database to document-oriented database: structure denormalization and data transformation | |
JP2021504789A (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN103839183A (zh) | 智能授信方法及智能授信装置 | |
Grover et al. | BCD: BigData, cloud computing and distributed computing | |
CN111898675A (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN114840869A (zh) | 基于敏感度识别模型的数据敏感度识别方法及装置 | |
KR102532216B1 (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 이루어진 esg 데이터베이스를 구축하는 방법 및 이를 수행하는 esg 서비스 제공 시스템 | |
Strickland | Data analytics using open-source tools | |
CN116244367A (zh) | 一种基于多模型的自定义算法的可视化大数据分析平台 | |
CN116595191A (zh) | 一种交互式低代码知识图谱的构建方法及装置 | |
Nurhachita et al. | A comparison between deep learning, naïve bayes and random forest for the application of data mining on the admission of new students | |
Yang et al. | User story clustering in agile development: a framework and an empirical study | |
CN116860311A (zh) | 脚本分析方法、装置、计算机设备及存储介质 | |
Shi et al. | Human resources balanced allocation method based on deep learning algorithm | |
CN114722789B (zh) | 数据报表集成方法、装置、电子设备及存储介质 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN111242520B (zh) | 特征合成模型的生成方法、装置及电子设备 | |
Yang et al. | Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies | |
Li | Python Data Analysis and Attribute Information Extraction Method Based on Intelligent Decision System | |
CN118095270B (zh) | 一种逻辑分析图的构建方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038805 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |