CN111125531A - 数仓模型的分值确定方法、装置、设备及存储介质 - Google Patents
数仓模型的分值确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111125531A CN111125531A CN201911353069.1A CN201911353069A CN111125531A CN 111125531 A CN111125531 A CN 111125531A CN 201911353069 A CN201911353069 A CN 201911353069A CN 111125531 A CN111125531 A CN 111125531A
- Authority
- CN
- China
- Prior art keywords
- model
- bin
- score
- target
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012423 maintenance Methods 0.000 claims description 89
- 238000012545 processing Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 27
- 238000004422 calculation algorithm Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013480 data collection Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数仓模型的分值确定方法、装置、设备及存储介质,属于大数据技术领域。本实施例提供了一种对数仓模型智能评分的方法,通过利用机器学习技术,提取数仓模型的与分值关联的特征,通过分值预测模型将特征映射为分值,从而自动化地对模型进行打分,通过该方法,免去了人工进行打分的繁琐操作,从而极大地节省了人力成本和时间开销,因而提高了数仓模型评分的效率,并且,由于综合统计多个维度的数据对数仓模型进行自动评分,可以提供统一、客观的标准,从而提高数仓模型评分的准确性。
Description
技术领域
本申请涉及大数据技术领域,特别涉及一种数仓模型的分值确定方法、装置、设备及存储介质。
背景技术
数据仓库简称数仓,是指面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数仓模型是指按照一定的数据模型,对企业的数据进行采集、整理后,按照各个业务的需要,提供跨部门的、一致的业务报表数据。通过数仓模型,能够对业务进行指导,为决策提供数据支持。由于系统的数仓模型往往数量繁多,为了帮助用户选择模型,可以为每个数仓模型进行评分,用户可以根据数仓模型的分值,确定应用哪一个数仓模型进行分析和决策。
时下,数仓模型都是人工打分的。具体而言,用户会根据自己对模型的理解,对模型进行评分。
然而,人工评分的方式太过于主观,无法有统一的标准,而且,需要耗费大量的时间成本和人力资源,导致成本过高,效率低下。
发明内容
本申请实施例提供了一种数仓模型的分值确定方法、装置、设备及存储介质,能够提高数仓模型评分的效率和准确性。所述技术方案如下:
一方面,提供了一种数仓模型的分值确定方法,所述方法包括:
获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;
将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓模型的目标特征以及所述样本数仓模型的分值训练得到;
通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值。
可选地,所述分值预测模型包括极端梯度提升XGBoost模型,所述XGBoost模型包括多个回归树,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值,包括:
通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树为所述数仓模型预测的分值;
获取所述多个回归树预测的分值之和,作为所述数仓模型的分值。
可选地,所述XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支以及多个叶子节点,所述非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少一项;
所述热度节点用于根据数仓模型的热度进行分类,所述热度节点的每个分支表示热度的一个取值范围;
所述属性维护数量节点用于根据属性维护数量进行分类,所述属性维护数量节点的每个分支表示属性维护数量的一个取值范围;
所述标签数量节点用于根据标签数量进行分类,所述标签数量节点的每个分支表示标签数量的一个取值范围;
所述报警数量节点用于根据报警数量进行分类,所述报警数量节点的每个分支表示报警数量的一个取值范围;
所述使用方式维护完善值节点用于根据使用方式维护完善值进行分类,所述使用方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;
所述通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树为所述数仓模型预测的分值,包括:
对于所述多个回归树中的每个回归树,根据所述目标特征在所述回归树中经过的目标非叶子节点以及目标分支,确定所述目标特征对应的目标叶子节点;
将所述目标叶子节点表示的分值,获取为所述回归树为所述数仓模型预测的分值。
可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述方法包括:
根据所述数仓模型的分值,向用户推荐所述数仓模型。
可选地,所述根据所述数仓模型的分值,向用户推荐所述数仓模型,包括:
按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果;
若所述数仓模型的分值在排序结果中排在前预设位数,向所述用户推荐所述数仓模型。
可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述方法包括:
接收搜索指令;
响应于所述搜索指令,根据所述数仓模型的分值,确定所述数仓模型的标识在搜索结果中的排列顺序;
输出携带有所述数仓模型的标识的搜索结果。
可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述方法包括:
根据所述数仓模型的分值,生成数据质量报告,所述数据质量报告包括所述数仓模型的分值。
另一方面,提供了一种数仓模型的分值确定装置,所述装置包括:
获取模块,用于获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;
输入模块,用于将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓模型的目标特征以及所述样本数仓模型的分值训练得到;
处理模块,用于通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值。
可选地,所述分值预测模型包括极端梯度提升XGBoost模型,所述XGBoost模型包括多个回归树,所述处理模块,用于:通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树为所述数仓模型预测的分值;获取所述多个回归树预测的分值之和,作为所述数仓模型的分值。
可选地,所述XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支以及多个叶子节点,所述非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少一项;
所述热度节点用于根据数仓模型的热度进行分类,所述热度节点的每个分支表示热度的一个取值范围;
所述属性维护数量节点用于根据属性维护数量进行分类,所述属性维护数量节点的每个分支表示属性维护数量的一个取值范围;
所述标签数量节点用于根据标签数量进行分类,所述标签数量节点的每个分支表示标签数量的一个取值范围;
所述报警数量节点用于根据报警数量进行分类,所述报警数量节点的每个分支表示报警数量的一个取值范围;
所述使用方式维护完善值节点用于根据使用方式维护完善值进行分类,所述使用方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;
所述处理模块,用于对于所述多个回归树中的每个回归树,根据所述目标特征在所述回归树中经过的目标非叶子节点以及目标分支,确定所述目标特征对应的目标叶子节点;将所述目标叶子节点表示的分值,获取为所述回归树为所述数仓模型预测的分值。
可选地,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述装置包括:
推荐模块,用于根据所述数仓模型的分值,向用户推荐所述数仓模型。
可选地,所述推荐模块,用于:按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果;若所述数仓模型的分值在排序结果中排在前预设位数,向所述用户推荐所述数仓模型。
可选地,所述装置还包括:
接收模块,用于接收搜索指令;
确定模块,用于响应于所述搜索指令,根据所述数仓模型的分值,确定所述数仓模型的标识在搜索结果中的排列顺序;
输出模块,用于输出携带有所述数仓模型的标识的搜索结果。
可选地,所述装置包括:生成模块,用于根据所述数仓模型的分值,生成数据质量报告,所述数据质量报告包括所述数仓模型的分值。
另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现上述数仓模型的分值确定方法所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述数仓模型的分值确定方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本实施例提供了一种对数仓模型智能评分的方法,通过利用机器学习技术,提取数仓模型的与分值关联的特征,通过分值预测模型将特征映射为分值,从而自动化地对模型进行打分,通过该方法,免去了人工进行打分的繁琐操作,从而极大地节省了人力成本和时间开销,因而提高了数仓模型评分的效率,并且,由于综合统计多个维度的数据对数仓模型进行自动评分,可以提供统一、客观的标准,从而提高数仓模型评分的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数仓模型的分值确定方法的实施环境的示意图;
图2是本申请实施例提供的一种分值预测模型的训练方法的流程图;
图3是本申请实施例提供的一种数仓模型的分值确定方法的流程图;
图4是本申请实施例提供的一种模型评分界面的示意图;
图5是本申请实施例提供的一种数仓模型的推荐方法的流程图;
图6是本申请实施例提供的一种模型推荐界面的示意图;
图7是本申请实施例提供的一种数仓模型的搜索方法的流程图;
图8是本申请实施例提供的一种数仓模型的搜索界面的示意图;
图9是本申请实施例提供的一种数仓模型的搜索方法的流程图;
图10是本申请实施例提供的一种数仓模型的智能评分系统的架构图;
图11是本申请实施例提供的一种数仓模型的分值确定装置的结构示意图;
图12是本申请实施例提供的一种终端的结构示意图;
图13是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如,在不脱离各种示例的范围的情况下,第一图像可以被称为第二图像,并且类似地,第二图像可以被称为第一图像。第一图像和第二图像都可以是图像,并且在某些情况下,可以是单独且不同的图像。
本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上,例如,多个数据包是指两个或两个以上的数据包。
应理解,在本文中对各种示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”“,an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。
还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中的字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
还应理解,术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。
还应理解,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
以下,示例性介绍本申请的硬件环境。
图1是本申请实施例提供的一种数仓模型的分值确定方法的实施环境的示意图。该实施环境包括:终端101和智能评分系统102。终端101通过无线网络或有线网络与智能评分系统102相连。
终端101可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端101安装和运行有支持应用程序,例如,该应用程序可以具有数仓模型推荐功能、数仓模型搜索功能、数据质量报告生成功能的至少一种。
智能评分系统102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。智能评分系统102用于为应用程序提供后台服务。可选地,智能评分系统102承担主要处理工作,终端101承担次要处理工作;或者,智能评分系统102承担次要处理工作,终端101承担主要处理工作;或者,智能评分系统102或终端101分别可以单独承担处理工作。或者,智能评分系统102和终端101两者之间采用分布式计算架构进行协同计算。
可选地,智能评分系统102包括:服务器1021和数据库1022。服务器1021用于提供数仓模型打分有关的后台服务。服务器1021可以是一台或多台。当服务器1021是多台时,存在至少两台服务器1021用于提供不同的服务,和/或,存在至少两台服务器1021用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。数据库1022存储有确定数仓模型的分值所需的数据,例如数仓模型的数据、数仓模型的目标特征、分值预测模型等,当服务器1021需要数据时,可以访问数据库1022,读取数据库1022存储的数据。当服务器得到计算结果时,可以将计算结果写入至数据库1022,从而通过数据库1022对计算结果进行持久化存储。其中,该计算结果包括而不限于已训练的分值预测模型、已提取的数仓模型的目标特征等等。
本领域技术人员可以知晓,上述终端101、服务器1021的数量可以更多或更少。比如上述终端101、服务器1021可以仅为一个,或者上述终端101、服务器1021为几十个或几百个,或者更多数量,此时虽然图中未示出,上述实施环境还包括其他终端,本申请实施例对终端或服务器的数量和设备类型不加以限定。
本实施例提供了一种能够对数仓模型进行智能评分的方法,可以提供为基于数仓元数据的智能评分系统。该方法的应用前景较为广阔,例如,可以应用到数仓模型的搜索排序、数仓模型的智能推荐、数据质量白皮书的自动生成等场景。以下,结合图2实施例至图10实施例,对实现数仓模型智能评分的方案进行介绍。
图2是本申请实施例提供的一种数仓模型的分值预测模型的训练方法的流程图。参见图2,该方法包括:
201、电子设备对样本数仓模型进行数据采集,得到数据集。
数据仓库在流转数据的过程中,会积累大量的数据,例如人工对数仓模型的评分、数仓模型的热度、数仓模型监控指标值、数仓模型监控任务、数仓模型的使用方式、数仓模型的生命周期、数仓模型的标签、数仓模型列标签等等。为了从大量的数据中,找到与评分存在关联关系的数据,可以定期通过调度系统,将这些数据同步至电子设备,可以对同步的数据进行清洗,根据清洗后的数据生成以下步骤202所需的数据集。其中,生成的数据集包括而不限于训练(train)数据集、测试(test)数据集及合集(trainval)数据集。
202、电子设备根据数据集,提取样本数仓模型的目标特征。
目标特征为分值预测模型的输入特征,数仓模型的目标特征与数仓模型的分值具有关联关系。本实施例中,能够在机器学习的特征工程阶段,对数据进行分析及挖掘,选择与数仓模型的分值存在关联关系的特征,作为目标特征。由于选中的目标特征是影响数仓模型评分结果的特征,分值预测模型能够利用样本数仓模型的目标特征以及分值,学习出目标特征与分值之间的关联关系,从而在模型预测阶段,依据待预测的数仓模型的目标特征,自动化地进行准确打分。
目标特征的提取过程可以包括以下步骤2021至步骤2024:
步骤2021、对数据的缺失值进行处理。
对于存在缺失值的数据而言,可以将缺失值设置为预先设定的默认值,或者剔除缺失值,或者对缺失值进行插补。其中,插补的方式可以包括计算缺失值所在的列的平均值或中位数,将缺失值设置为该平均值或中位数。其中,可以根据特征的类别和影响范围确定具体的处理方法。
步骤2022、对连续数据进行离散化处理。
连续数据是统计学中的概念,又称连续变量,例如,连续数据可以是数仓模型的热度。本实施例中,可以将连续数据映射为离散数据,从而提高数据对模型评分的影响程度,那么通过根据离散化后的数据进行训练,可以提高模型进行评分的准确性。例如,如果数仓模型的热度为(X1、X2…Xn),可以对(X1、X2…Xn)进行离散化处理,得到(K1、K2…Km),其中,X表示离散化处理前的热度,K表示离散化处理后的热度,m和n为正整数,且m远小于n。
步骤2023、对特征值为字符串的数据进行处理。
很多数据的特征值包含字符,或者很多数据本身就是字符串类型,可以将这些数据的特征值从字符转换为数值。例如,可以采取正则提取或数值转换等方式,对字符串进行计算,得到字符串对应的数值。
步骤2024、从样本数仓模型的多个维度的特征中,选择目标特征。
机器学习模型通常可以视为一个函数,机器学习模型的特征选择过程可以理解成为计算每个特征变量对响应变量的影响,以找到对响应变量影响大、与响应变量强相关的特征变量。应用在数仓模型评估的场景下,可以通过对数仓模型的数据进行分析及挖掘,找出所有可能会影响数仓模型评分结果的特征,对这些特征进行统计,计算每个特征对人工标注的分值的影响,从而根据影响的强弱,选择机器学习模型的输入特征,并确定特征的值域对模型的影响。
在一些实施例中,选择的目标特征可以包括数仓模型的热度、数仓模型的属性维护数量、数仓模型的标签数量、数仓模型的报警数量、数仓模型的使用方式维护完善值、数仓模型的生命周期维护完善值、数仓模型的事故次数中的至少一项。其中,数仓模型的报警数量可以是距离当前时间点最近的统计周期的报警数量,例如近3个月的报警数量。数仓模型的报警数量可以分为多个等级的报警数量,例如可以包括近三个月红色报警个数、数仓模型近三个月橙色报警个数、数仓模型近三个月蓝色报警个数。数仓模型的事故次数可以是距离当前时间点最近的统计周期的事故次数,例如数仓模型最近一个月事故次数。
203、电子设备使用样本数仓模型的目标特征以及样本数仓模型的分值进行模型训练,得到分值预测模型。
分值预测模型是指用于预测数仓模型的分值的机器学习模型。可以将样本数仓模型的目标特征作为模型训练的输入特征,将分值作为模型训练的标签(label),构建训练集,采用机器学习算法,对多个样本数仓模型的目标特征以及分值进行模型训练,得到该分值预测模型。其中,该机器学习算法可以包括多种,例如可以是集成学习算法,具体可以是提高(boosting)算法、引导聚合(bagging)算法、堆叠(stacking)算法等。相应地,训练得出的分值预测模型可以是集成学习模型,该集成学习模型可以包括多个子模型,每个子模型均可以根据样本数仓模型的目标特征进行预测,通过结合多个子模型的预测结果,可以让分值预测模型自动得出的分值更加准确。
在一些实施例中,在训练分值预测模型的过程中,可以采用极端梯度提升(eXtreme Gradient Boosting,XGBoost)算法,使用样本数仓模型的目标特征以及样本数仓模型的分值进行模型训练,得到的XGBoost模型,该XGBoost模型即为分值预测模型。根据结果调整XGBoost的学习速率、迭代次数、梯度下降等参数,选择合适的参数并验证模型,经过验证数据集的结果分析,继续迭代,直到验证数据集结果达到预期的效果。
例如,使用XGBoost算法进行训练的过程可以包括:不断地生成回归树,通过将许多弱监督的回归树集成在一起,形成一个强监督的机器学习模型,以避免单个回归树预测时容易出现过拟合的情况。具体地,会参考第1个回归树进行预测时产生的误差,生成第2个回归树,参考第1个回归树以及第2个回归树的组合进行预测时产生的误差,生成第3个回归树,依次类推,参考n-1个回归树组合而成的模型进行预测时产生的误差,生成第n个回归树,从而得到n个回归树,其中n为正整数。在生成回归树的过程中,每当新增一个回归树,模型整体的损失会不断降低。其中,应用在对数仓模型智能评估的场景,误差可以是模型预测的分值与人工标注的分值之间的残差。
XGBoost模型可以包括多个回归树。每个回归树可以包括一个或多个非叶子节点、多个分支以及多个叶子节点。每个非叶子节点可以视为一个分类器,每个非叶子节点用于根据目标特征的一个维度行分类。每个非叶子节点连接多个分支,每个分支可以视为一个分类结果,该分类结果可以是目标特征的一种取值范围。
示例性地,XGBoost模型中的回归树上的非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少一项;热度节点用于根据数仓模型的热度进行分类,热度节点的每个分支表示热度的一个取值范围;属性维护数量节点用于根据属性维护数量进行分类,属性维护数量节点的每个分支表示属性维护数量的一个取值范围;标签数量节点用于根据标签数量进行分类,标签数量节点的每个分支表示标签数量的一个取值范围;报警数量节点用于根据报警数量进行分类,报警数量节点的每个分支表示报警数量的一个取值范围;使用方式维护完善值节点用于根据使用方式维护完善值进行分类,使用方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围。
以热度节点为例,XGBoost模型基于非叶子节点的计算过程可以包括:热度节点可以连接2个分支,第一个分支表示热度<k1,第二个分支表示热度≥k1,那么如果该样本数仓模型的热度为a,且a<k1,则将该样本数仓模型的热度输入至热度节点后,热度会输出至第一个分支,落入左子树。其中,k1和a均≥0,如果对热度进行了归一化,则k1和a均≥0,且k1和a均≤1。
应理解,上面这个例子中,非叶子节点具有两个分支仅是举例说明,在一些可能的实施例中,非叶子节点可以具有三个或三个以上的分支,本实施例对非叶子节点具有的分支数量并不做限定。例如,热度节点可以连接3个分支,第一个分支表示热度<k1,第二个分支表示k1≤热度≤k2,第三个分支表示热度>k2,热度节点会根据样本数仓模型的热度,将热度目标特征输入至三个分支中的一个分支。其中,k2≥0,如果对热度进行了归一化,则k2≥0,且k2≤1。
还应理解,上面这个例子中,每个分支对应的取值范围仅是举例说明,每个分支对应的取值范围可以是开区间、闭区间或半开半闭区间中的任一种,本实施例对分支对应的取值范围是否包含端点值不做限定。
XGBoost模型中每个叶子节点表示数仓模型的分值的一种取值,将样本数仓模型的目标特征输入至任一个回归树后,该目标特征会经过非叶子节点和分支,落入至多个叶子节点中的一个叶子节点,该叶子节点表示的分值即为这个回归树预测的分值。例如,第一个回归树的每个叶子节点可以表示数仓模型的基础分值。第二个回归树的每个叶子节点可以表示第一个回归树的误差,例如可以表示数仓模型的基础分值与数仓模型的标注分值之间的偏差。第三个回归树的每个叶子节点可以表示第一个回归树与第二个回归树的误差之和,第四个回归树的每个叶子节点可以表示第一个回归树、第二个回归树至第三个回归树的误差之和,依次类推,第n个回归树的叶子节点可以表示分值的预测误差,预测误差为第1个回归树至第n-1个回归树的误差之和,n为大于1的正整数。
应理解,模型训练时采用XGBoost算法,分值预测模型为XGBoost是举例说明,在另一些可能的实施例中,也可以采用XGBoost算法之外的其他集成学习算法来进行模型训练,相应地,机器学习模型可以是其他集成学习模型,比如可以采用随机森林算法进行模型训练,则机器学习模型可以是随机森林。应理解,也可以采用集成学习算法之外的机器学习算法进行模型训练,比如采用神经网络算法、支持向量机算法、贝叶斯算法、逻辑回归算法进行模型训练,相应地,机器学习模型可以是深度神经网络、支持向量机、贝叶斯网络、逻辑回归模型等。
本实施例提供的方法,通过使用样本数仓模型的目标特征以及样本数仓模型的分值进行模型训练,在训练过程中,可以根据分值预测模型每次预测的分值与标注的分值之间的差异,不断调整分值预测模型的参数,使得分值预测模型的准确性得以提升,使得下一次预测时预测的分值与标注的分值之间的差距得以减小。当训练结束时,分值预测模型学习出了目标特征与分值之间的关联关系,从而具备了自动对数仓模型进行打分的功能。
上述图2实施例提供了一种基于机器学习训练出分值预测模型的流程,以下对应用该分值预测模型对数仓模型自动评分的流程进行介绍。
参见图3,图3是本申请实施例提供的一种数仓模型的分值确定方法的流程图,该方法包括:
301、电子设备获取数仓模型的目标特征。
该电子设备可以为图1所示系统架构中的智能评分系统102,比如是服务器1021。执行图3实施例的电子设备和执行图2实施例的电子设备可以是同一个电子设备,也可以是不同的电子设备。如果执行图3实施例的电子设备和执行图2实施例的电子设备不同,两个方法实施例中的电子设备可以进行交互,协同完成数仓模型自动打分的任务。比如说,分值预测模型的训练步骤可以由服务器执行,利用分值预测模型进行打分的步骤可以由终端执行。当然,预测模型的训练步骤和预测步骤也可以均在终端侧执行,或者均在服务器侧执行。还应理解,图3实施例侧重描述与图2实施例的区别之处,而与图2实施例同理的步骤还请参见图2实施例,在图3实施例中不做赘述。
302、电子设备将目标特征输入分值预测模型。
303、电子设备通过分值预测模型对目标特征进行处理,输出数仓模型的分值。
例如,可以在模型评分界面中输出数仓模型的分值。参见图4,图4为模型评分界面的示意图,该模型评分界面包括模型名称区域以及模型分值区域,该模型名称区域包括至少一个数仓模型的名称,该模型分值区域包括至少一个数仓模型的分值,同一个数仓模型的名称和分值在模型评分界面中的位置相互对应,例如在列表的同一行中。比如在图4中的表中,表头之后的第一行为fact_material_supply_demand(物质供给与需求)和86.00,表示名称为fact_material_supply_demand的数仓模型的分值为86分。表头之后的第一行为fact_material_supply_demand_test(材料供需测试)和74.25,表示名称为fact_material_supply_demand_test的数仓模型的分值为74.25分。表头之后的第三行为fact_material_supply_demand_tmp2(临时物质供给与需求)和74.25,表示名称为fact_material_supply_demand_tmp2的数仓模型的分值为74.25分。
示例性地,分值预测模型可以为XGBoost模型,XGBoost模型内部运算的过程具体可以包括以下步骤:
步骤3031、通过XGBoost模型的每个回归树对数仓模型的目标特征进行处理,得到每个回归树为数仓模型预测的分值。
例如,对于多个回归树中的每个回归树,可以根据目标特征在回归树中经过的目标非叶子节点以及目标分支,确定目标特征对应的目标叶子节点;将目标叶子节点表示的预测结果,获取为回归树预测的分值。
以XGBoost模型中的一颗回归树为例,该回归树计算数仓模型的分值的流程可以包括以下步骤3031A至步骤3031B。
步骤3031A、电子设备根据数仓模型的目标特征在回归树中经过的目标非叶子节点以及目标分支,确定数仓模型对应的目标叶子节点。
目标非叶子节点是指回归树的所有非叶子节点中目标特征经过的非叶子节点,目标非叶子节点可以是为热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的任意一种。目标分支是指回归树的所有分支中目标特征经过的分支,目标分支可以是目标非叶子节点的分支。目标叶子节点是指回归树的所有叶子节点中目标特征到达的叶子节点。
具体地,将数仓模型的目标特征输入回归树后,会首先到达回归树的根节点,根节点会对目标特征进行分类,判断目标特征落入第一个目标非叶子节点的哪个分支的取值范围,得出目标特征所属的目标分支,将该目标特征输入该目标分支连接的子节点,则该目标分支连接的子节点为第二个目标非叶子节点;第二个目标非叶子节点也会对目标特征进行分类,判断目标特征落入第二个目标非叶子节点的哪个分支的取值范围,将该目标特征输入该目标分支连接的子节点,则该目标分支连接的子节点为第三个目标非叶子节点,依次类推,数仓模型的目标特征会经过一个或多个目标非叶子节点以及一个或多个目标分支,到达目标叶子节点。
结合目标非叶子节点的具体类型,如果目标非叶子节点为热度节点,则该目标非叶子节点会根据数仓模型的热度,对数仓模型的目标特征进行分类,判断目标特征中的热度属于哪个分支对应的热度的取值范围,得出数仓模型的目标特征所属的目标分支。
如果目标非叶子节点为属性维护数量节点,则该目标非叶子节点会根据数仓模型的属性维护数量,对数仓模型的目标特征进行分类,判断目标特征中的属性维护数量属于哪个分支对应的属性维护数量的取值范围,得出数仓模型的目标特征所属的目标分支。
如果目标非叶子节点为标签数量节点,则该目标非叶子节点会根据数仓模型的标签数量,对数仓模型的目标特征进行分类,判断目标特征中的标签数量属于哪个分支对应的标签数量的取值范围,得出数仓模型的目标特征所属的目标分支。
如果目标非叶子节点为报警数量节点,则该目标非叶子节点会根据数仓模型的报警数量,对数仓模型的目标特征进行分类,判断目标特征中的报警数量属于哪个分支对应的报警数量的取值范围,得出数仓模型的目标特征所属的目标分支。
如果目标非叶子节点为使用方式维护完善值节点,则该目标非叶子节点会根据数仓模型的使用方式维护完善值,对数仓模型的目标特征进行分类,判断目标特征中的使用方式维护完善值属于哪个分支对应的使用方式维护完善值的取值范围,得出数仓模型的目标特征所属的目标分支。
如果目标非叶子节点为生命周期维护完善值节点,则该目标非叶子节点会根据数仓模型的生命周期维护完善值,对数仓模型的目标特征进行分类,判断目标特征中的生命周期维护完善值属于哪个分支对应的生命周期维护完善值的取值范围,得出数仓模型的目标特征所属的目标分支。
如果目标非叶子节点为事故次数节点,则该目标非叶子节点会根据数仓模型的事故次数,对数仓模型的目标特征进行分类,判断目标特征中的事故次数属于哪个分支对应的事故次数的取值范围,得出数仓模型的目标特征所属的目标分支。
步骤3031B、电子设备将目标叶子节点表示的分值,获取为回归树为数仓模型预测的分值。
在一种可能的实现中,XGBoost模型可以包括回归树、叶子节点与预测结果之间的对应关系,每个回归树的每个叶子节点可以对应一个分值。电子设备可以从该对应关系中,获取该回归树以及该目标非叶子节点均对应的分值,得到目标叶子节点表示的分值。
步骤3032、电子设备获取多个回归树预测的分值之和,作为数仓模型的分值。
具体地,如果XGBoost模型包括n个回归树,则n个回归树中的每个回归树可以得出一个预测的分值,共计得到n个分值,可以将n个预测结果累加起来,将得到的和值作为数仓模型的分值。
示例性地,XGBoost模型中第一个回归树的预测结果可以表示数仓模型的基础分值,第二个回归树的预测结果可以表示第一个回归树的误差,第三个回归树的预测结果可以表示第一个回归树和第二个回归树的误差之和,以此类推,第n个回归树的预测结果可以表示分值的预测误差,预测误差为第1个回归树至第n-1个回归树的误差之和,n为大于1的正整数。
例如,第一个回归树得出80,表示基础分值为80;第二个回归树得出3,表示第一个回归树少预测了3分,则将第一个回归树和第二个回归树的预测结果相加后,预测结果之和为83,从而修正了第一个回归树的误差;第三个回归树得出-1,表示第一个回归树和第二个回归树总计多预测了1分,则第一个回归树和第二个回归树的预测结果相加后,预测结果之和为82分,从而修正了第一个回归树和第二个回归树总计的误差;以此类推,每当加上一个回归树的预测结果,可以修正该回归树之前的所有回归树的总计预测的分值,从而让模型打出的分值通过累加得以不断优化。
本实施例提供了一种对数仓模型智能评分的方法,通过利用机器学习技术,提取数仓模型的与分值关联的特征,通过分值预测模型将特征映射为分值,从而自动化地对模型进行打分,通过该方法,免去了人工进行打分的繁琐操作,从而极大地节省了人力成本和时间开销,因而提高了数仓模型评分的效率,并且,由于综合统计多个维度的数据对数仓模型进行自动评分,可以提供统一、客观的标准,从而提高数仓模型评分的准确性。
上述方法可以封装为数仓模型的分值获取接口,当任一业务需要获取数仓模型的分值时,可以调用该分值获取接口,触发上述方法流程,自动得出数仓模型的分值,将分值返回给该分值获取接口的调用方,从而快捷地应用在各种需要对数仓模型评分的场景。
以下通过图5实施例至图9实施例,对该智能评分方案的具体应用场景进行示例性说明。还应理解,图5实施例至图9实施例侧重描述与图3实施例的区别之处,而与图3实施例同理的步骤还请参见图3实施例,在图5实施例至图9实施例中不做赘述。
图5是本申请实施例提供的一种数仓模型的推荐方法的流程图。参见图5,该方法包括:
501、电子设备接收用户的推荐请求,推荐请求用于请求为用户推荐数仓模型。
例如,终端可以响应于用户的操作,调用分值获取接口,生成推荐请求,向电子设备发送推荐请求,以触发电子设备执行本实施例的方法流程。
502、电子设备获取数据仓库中多个数仓模型的目标特征。
503、对于多个数仓模型中的每个数仓模型,电子设备将数仓模型的目标特征输入分值预测模型,通过分值预测模型对数仓模型的目标特征进行处理,输出数仓模型的分值。
504、电子设备按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果。
505、电子设备根据排序结果,向用户推荐数仓模型。
例如,对于数据仓库中的某个数仓模型而言,若该数仓模型的分值在排序结果中排在前预设位数,可以向用户推荐数仓模型。例如,可以将排序结果中排在第一位的数仓模型推荐给用户。
示例性地,参见图6,可以提供图6所示的模型推荐界面,该模型推荐界面包括模型分值显示区域,该模型分值显示区域包括模型的分值。其中,数仓模型的分值可以作为数仓模型的推荐度呈现给用户。例如,参见图5,模型分值显示区域可以包括推荐度、10个星星符号以及8分,其中有8个星星符号是实心的,表示数仓模型被打了8分。
本实施例提供了一种对数仓模型智能推荐的方法,通过利用机器学习技术,使用分值预测模型对数仓模型进行自动打分,根据数仓模型的分值来向用户推荐合适的数仓模型,由于使用的数仓模型的分值更加客观、准确,因此根据分值进行推荐时,能够保证推荐结果的准确性。
图7是本申请实施例提供的一种数仓模型的搜索方法的流程图。参见图7,该方法包括:
701、电子设备接收搜索指令。
例如,参见图8,可以在界面中显示搜索选项,当对该搜索选项进行操作时,可以触发搜索指令。该搜索指令用于指示搜索数仓模型。例如,终端可以响应于用户对搜索选项的点击操作,调用电子设备提供的分值获取接口,向电子设备发送搜索指令,以触发电子设备执行本实施例的方法流程。
702、电子设备响应于搜索指令,获取数据仓库中多个数仓模型的目标特征。
703、对于多个数仓模型中的每个数仓模型,电子设备将数仓模型的目标特征输入分值预测模型,通过分值预测模型对数仓模型的目标特征进行处理,输出数仓模型的分值。
704、电子设备根据数仓模型的分值,确定搜索结果。
电子设备可以按照分值从高到低的顺序,对每个候选数仓模型进行排序,得到排序结果,从排序结果中选择排在前预设位数的候选数仓模型,作为搜索结果。其中,对于任一个数仓模型而言,可以根据数仓模型的分值,确定数仓模型的标识在搜索结果中的排列顺序;例如,对于相同指标的数仓模型而言,分值越高,则该数仓模型的标识在排序结果中的位置越靠前,从而为使用方的决策提供依据。
705、电子设备输出携带有数仓模型的标识的搜索结果。
本实施例提供了一种对数仓模型搜索排序的方法,通过利用机器学习技术,使用分值预测模型对数仓模型进行自动打分,根据数仓模型的分值来向用户推荐合适的数仓模型,由于使用的数仓模型的分值更加客观、准确,因此根据分值进行搜索时,能够保证搜索结果的准确性。经实验测试,本实施例提供的数仓模型的搜索方法的准确率提高了10%。
图9是本申请实施例提供的一种数据质量报告的获取方法的流程图。参见图9,该方法包括:
901、电子设备接收用户的数据质量报告获取请求,数据质量报告获取请求用于请求获取数据质量报告。
例如,终端可以响应于用户对报告获取选项的点击操作,调用电子设备提供的分值获取接口,向电子设备发送数据质量报告获取请求,以触发电子设备执行本实施例的方法流程。
902、电子设备获取数仓模型的目标特征。
在一些实施例中,数据质量报告获取请求可以包括用户账号,电子设备可以从数据质量报告获取请求中,获取用户账号,查询该用户账号对应的数仓模型的数仓模型的目标特征。
903、电子设备将目标特征输入分值预测模型。
904、电子设备通过分值预测模型对目标特征进行处理,输出数仓模型的分值。
905、电子设备根据数仓模型的分值,生成数据质量报告。
电子设备可以将数仓模型的分值写入至数据质量报告,以使数据质量报告携带数仓模型的分值。其中,该数据质量报告可以为个人数据质量白皮书,数据质量报告包括数仓模型的分值,可以通过分值指明数据仓库的数据质量。
906、电子设备输出数据质量报告。
本实施例提供了一种对数据质量报告的自动生成方法,通过利用机器学习技术,使用分值预测模型对数仓模型进行自动打分,数仓模型的分值来向用户推荐合适的数仓模型,由于使用的数仓模型的分值更加客观、准确,因此根据分值可以准确有效地反映数据质量,保证数据质量报告的科学性。
综合上述各个方法实施例,参见图10,本申请提供了一种数仓模型的智能评分系统,该智能评分系统的逻辑功能架构包括:
一、数据搜集模块1001
数据搜集模块1001可以用于获取模型下游使用热度、模型监控指标、模型使用方式、模型属性信息维度以及各类型告警信息,可以根据上述各个维度的信息构建测试数据集以及数据合集,根据上述各个维度的信息构建人工标记训练数据集,将人工标记训练数据集、测试数据集以及数据合集输出至特征工程模块1002。
二、特征工程模块1002
特征工程模块1002可以根据人工标记训练数据集、测试数据集以及数据合集,进行缺失值处理、连续特征值处理、字符串特征处理以及预测模型特征选择,将结果输出至智能评分模块1003。
三、智能评分模块1003
智能评分模块1003可以进行模型特征选择、模型训练,通过数据搜集模块1001得到的测试数据集,对训练的模型进行验证,依据验证的结果对模型的参数进行调整,该参数调整的过程可以是一个循环迭代的过程,经过多次迭代后,得到已训练的模型,可以使用已训练的模型进行系统评估,例如进行模型推荐、搜索排序以及个人数据质量白皮书的自动生成。
本实施例提供的系统,将数仓生成过程中产生及维护的元数据信息和XGBoost机器学习算法相结合,对数仓模型进行智能评估,可以提高元数据维护完善程度。经实验,本实施例提供的系统可以将元数据维护完善程度提高了20%。
图11是本申请实施例提供的一种数仓模型的分值确定装置的结构示意图。参见图11,该装置包括:
获取模块1101,用于获取数仓模型的目标特征,目标特征包括热度、属性维护数量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;
输入模块1102,用于将目标特征输入分值预测模型,分值预测模型根据样本数仓模型的目标特征以及样本数仓模型的分值训练得到;
处理模块1103,用于通过分值预测模型对目标特征进行处理,输出数仓模型的分值。
可选地,分值预测模型包括XGBoost模型,XGBoost模型包括多个回归树,处理模块1103,用于:通过XGBoost模型的每个回归树对目标特征进行处理,得到每个回归树为数仓模型预测的分值;获取多个回归树预测的分值之和,作为数仓模型的分值。
可选地,XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支以及多个叶子节点,非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少一项;
热度节点用于根据数仓模型的热度进行分类,热度节点的每个分支表示热度的一个取值范围;属性维护数量节点用于根据属性维护数量进行分类,属性维护数量节点的每个分支表示属性维护数量的一个取值范围;标签数量节点用于根据标签数量进行分类,标签数量节点的每个分支表示标签数量的一个取值范围;报警数量节点用于根据报警数量进行分类,报警数量节点的每个分支表示报警数量的一个取值范围;使用方式维护完善值节点用于根据使用方式维护完善值进行分类,使用方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;
处理模块1103,用于对于多个回归树中的每个回归树,根据目标特征在回归树中经过的目标非叶子节点以及目标分支,确定目标特征对应的目标叶子节点;将目标叶子节点表示的分值,获取为回归树为数仓模型预测的分值。
可选地,通过分值预测模型对目标特征进行处理,输出数仓模型的分值之后,装置包括:
推荐模块,用于根据数仓模型的分值,向用户推荐数仓模型。
可选地,推荐模块,用于:按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果;若数仓模型的分值在排序结果中排在前预设位数,向用户推荐数仓模型。
可选地,装置还包括:接收模块,用于接收搜索指令;确定模块,用于响应于搜索指令,根据数仓模型的分值,确定数仓模型的标识在搜索结果中的排列顺序;输出模块,用于输出携带有数仓模型的标识的搜索结果。
可选地,装置包括:生成模块,用于根据数仓模型的分值,生成数据质量报告,数据质量报告包括数仓模型的分值。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的数仓模型的分值确定装置在确定数仓模型的分值时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将数仓模型的分值确定装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数仓模型的分值确定装置与数仓模型的分值确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述方法实施例中的电子设备可以实现为终端。例如,图12示出了本申请一个示例性实施例提供的终端1200的结构框图。该终端1200可以是:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1200包括有:一个或多个处理器1201和一个或多个存储器1202。
处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一条指令,该至少一条指令用于被处理器1201所执行以实现本申请中方法实施例提供的数仓模型的分值确定方法。
在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、触摸显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。
外围设备接口1203可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中,处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上;在一些其他实施例中,处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1204包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1204还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1205用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时,显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时,显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1205可以为一个,设置终端1200的前面板;在另一些实施例中,显示屏1205可以为至少两个,分别设置在终端1200的不同表面或呈折叠设计;在再一些实施例中,显示屏1205可以是柔性显示屏,设置在终端1200的弯曲表面上或折叠面上。甚至,显示屏1205还可以设置成非矩形的不规则图形,也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1206用于采集图像或视频。可选地,摄像头组件1206包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1207还可以包括耳机插孔。
定位组件1208用于定位终端1200的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于:加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。
加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号,控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1212可以检测终端1200的机体方向及转动角度,陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1213可以设置在终端1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时,可以检测用户对终端1200的握持信号,由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时,由处理器1201根据用户对触摸显示屏1205的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1214用于采集用户的指纹,由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份,或者,由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1201授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时,指纹传感器1214可以与物理按键或厂商Logo集成在一起。
光学传感器1215用于采集环境光强度。在一个实施例中,处理器1201可以根据光学传感器1215采集的环境光强度,控制触摸显示屏1205的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1205的显示亮度;当环境光强度较低时,调低触摸显示屏1205的显示亮度。在另一个实施例中,处理器1201还可以根据光学传感器1215采集的环境光强度,动态调整摄像头组件1206的拍摄参数。
接近传感器1216,也称距离传感器,通常设置在终端1200的前面板。接近传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中,当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时,由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态;当接近传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时,由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述方法实施例中的电子设备可以实现为服务器。例如,图13是本申请实施例提供的一种服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1301和一个或一个以上的存储器1302,其中,存储器1302中存储有至少一条指令,至少一条指令由处理器1301加载并执行以实现上述各个方法实施例提供的数仓模型的分值确定方法。当然,该服务器还可以具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令由可由处理器执行以完成上述实施例中的数仓模型的分值确定方法。例如,计算机可读存储介质可以是只读存储器(Read-Only Memory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、只读光盘(Compact Disc Read-OnlyMemory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上描述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数仓模型的分值确定方法,其特征在于,所述方法包括:
获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;
将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓模型的目标特征以及所述样本数仓模型的分值训练得到;
通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值。
2.根据权利要求1所述的方法,其特征在于,所述分值预测模型包括极端梯度提升XGBoost模型,所述XGBoost模型包括多个回归树,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值,包括:
通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树为所述数仓模型预测的分值;
获取所述多个回归树预测的分值之和,作为所述数仓模型的分值。
3.根据权利要求2所述的方法,其特征在于,所述XGBoost模型中的每个回归树包括一个或多个非叶子节点、多个分支以及多个叶子节点,所述非叶子节点包括热度节点、属性维护数量节点、标签数量节点、报警数量节点、使用方式维护完善值节点、生命周期维护完善值节点、事故次数节点中的至少一项;
所述热度节点用于根据数仓模型的热度进行分类,所述热度节点的每个分支表示热度的一个取值范围;
所述属性维护数量节点用于根据属性维护数量进行分类,所述属性维护数量节点的每个分支表示属性维护数量的一个取值范围;
所述标签数量节点用于根据标签数量进行分类,所述标签数量节点的每个分支表示标签数量的一个取值范围;
所述报警数量节点用于根据报警数量进行分类,所述报警数量节点的每个分支表示报警数量的一个取值范围;
所述使用方式维护完善值节点用于根据使用方式维护完善值进行分类,所述使用方式维护完善值节点的每个分支表示使用方式维护完善值的一个取值范围;
所述通过所述XGBoost模型的每个回归树对所述目标特征进行处理,得到每个回归树为所述数仓模型预测的分值,包括:
对于所述多个回归树中的每个回归树,根据所述目标特征在所述回归树中经过的目标非叶子节点以及目标分支,确定所述目标特征对应的目标叶子节点;
将所述目标叶子节点表示的分值,获取为所述回归树为所述数仓模型预测的分值。
4.根据权利要求1所述的方法,其特征在于,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述方法包括:
根据所述数仓模型的分值,向用户推荐所述数仓模型。
5.根据权利要求4所述的方法,所述根据所述数仓模型的分值,向用户推荐所述数仓模型,包括:
按照分值从高到低的顺序,对数据仓库的每个数仓模型进行排序,得到排序结果;
若所述数仓模型的分值在排序结果中排在前预设位数,向所述用户推荐所述数仓模型。
6.根据权利要求1所述的方法,其特征在于,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述方法包括:
接收搜索指令;
响应于所述搜索指令,根据所述数仓模型的分值,确定所述数仓模型的标识在搜索结果中的排列顺序;
输出携带有所述数仓模型的标识的搜索结果。
7.根据权利要求1所述的方法,其特征在于,所述通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值之后,所述方法包括:
根据所述数仓模型的分值,生成数据质量报告,所述数据质量报告包括所述数仓模型的分值。
8.一种数仓模型的分值确定装置,其特征在于,所述装置包括:
获取模块,用于获取数仓模型的目标特征,所述目标特征包括热度、属性维护数量、标签数量、报警数量、使用方式维护完善值、生命周期维护完善值、事故次数中的至少一项;
输入模块,用于将所述目标特征输入分值预测模型,所述分值预测模型根据样本数仓模型的目标特征以及所述样本数仓模型的分值训练得到;
处理模块,用于通过所述分值预测模型对所述目标特征进行处理,输出所述数仓模型的分值。
9.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数仓模型的分值确定方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的数仓模型的分值确定方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353069.1A CN111125531A (zh) | 2019-12-25 | 2019-12-25 | 数仓模型的分值确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353069.1A CN111125531A (zh) | 2019-12-25 | 2019-12-25 | 数仓模型的分值确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125531A true CN111125531A (zh) | 2020-05-08 |
Family
ID=70502590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911353069.1A Pending CN111125531A (zh) | 2019-12-25 | 2019-12-25 | 数仓模型的分值确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125531A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN110059112A (zh) * | 2018-09-12 | 2019-07-26 | 中国平安人寿保险股份有限公司 | 基于机器学习的用户挖掘方法及装置、电子设备、介质 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110462636A (zh) * | 2017-06-02 | 2019-11-15 | 谷歌有限责任公司 | 黑盒优化的系统和方法 |
-
2019
- 2019-12-25 CN CN201911353069.1A patent/CN111125531A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110462636A (zh) * | 2017-06-02 | 2019-11-15 | 谷歌有限责任公司 | 黑盒优化的系统和方法 |
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN110059112A (zh) * | 2018-09-12 | 2019-07-26 | 中国平安人寿保险股份有限公司 | 基于机器学习的用户挖掘方法及装置、电子设备、介质 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740068B (zh) | 媒体数据推荐方法、装置及存储介质 | |
CN111182453B (zh) | 定位方法、装置、电子设备及存储介质 | |
CN111552470B (zh) | 物联网中的数据分析任务创建方法、装置及存储介质 | |
CN110471858B (zh) | 应用程序测试方法、装置及存储介质 | |
CN110458360B (zh) | 热门资源的预测方法、装置、设备及存储介质 | |
CN112069414A (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN111192005B (zh) | 政务业务处理方法、装置、计算机设备及可读存储介质 | |
CN109784351B (zh) | 行为数据分类方法、分类模型训练方法及装置 | |
CN111737573A (zh) | 资源推荐方法、装置、设备及存储介质 | |
CN111897996B (zh) | 话题标签推荐方法、装置、设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN111930964B (zh) | 内容处理方法、装置、设备及存储介质 | |
CN111368116B (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN111078521A (zh) | 异常事件的分析方法、装置、设备、系统及存储介质 | |
CN114282587A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
CN111931075A (zh) | 一种内容推荐方法、装置、计算机设备及存储介质 | |
CN113762585B (zh) | 数据的处理方法、账号类型的识别方法及装置 | |
CN112560612B (zh) | 确定业务算法的系统、方法、计算机设备及存储介质 | |
CN111259252B (zh) | 用户标识识别方法、装置、计算机设备及存储介质 | |
CN109635153B (zh) | 迁移路径生成方法、装置及存储介质 | |
CN111125531A (zh) | 数仓模型的分值确定方法、装置、设备及存储介质 | |
CN113936240A (zh) | 确定样本图像的方法、装置、设备及存储介质 | |
CN113222771A (zh) | 一种基于知识图谱确定目标群体的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211201 Address after: Room 084, No. 1-309, 3rd floor, commercial building, No. 9 Wangjing street, Chaoyang District, Beijing 100102 Applicant after: Beijing Daily Youxian Technology Co.,Ltd. Address before: 100102 room 801, 08 / F, building 7, yard 34, Chuangyuan Road, Chaoyang District, Beijing Applicant before: BEIJING MISSFRESH E-COMMERCE Co.,Ltd. |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200508 |