CN112200538A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112200538A CN112200538A CN202011078606.9A CN202011078606A CN112200538A CN 112200538 A CN112200538 A CN 112200538A CN 202011078606 A CN202011078606 A CN 202011078606A CN 112200538 A CN112200538 A CN 112200538A
- Authority
- CN
- China
- Prior art keywords
- data
- machine model
- parameters
- preprocessing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 161
- 238000012545 processing Methods 0.000 claims abstract description 152
- 238000000034 method Methods 0.000 claims abstract description 128
- 230000008569 process Effects 0.000 claims abstract description 86
- 238000012795 verification Methods 0.000 claims abstract description 67
- 238000010276 construction Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 82
- 239000013598 vector Substances 0.000 claims description 37
- 230000000694 effects Effects 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 16
- 238000009795 derivation Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 description 34
- 230000006399 behavior Effects 0.000 description 25
- 230000003993 interaction Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000011835 investigation Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000207961 Sesamum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009133 cooperative interaction Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法、装置、设备及存储介质,所述方法包括:从业务平台获取业务数据集,将该业务数据集输入到业务处理流程中,得到包括该业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数的建模参数,其中,该业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证,该目标机器模型为预设的候选模型训练后性能最优的机器模型,根据该建模参数可以确定建模工作流。该技术方案中,数据处理过程开始之后,无需专业的技能人员参与也可实现整个过程,进而得到了建模工作流,不仅降低了人工成本,提高了处理效率,而且为以后的模型使用提供了实现条件。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的蓬勃发展,机器学习建模成为人工智能领域的一个重要方面,如何利用已知数据自主构建机器学习模型在金融行业、互联网领域等方面具有重要应用。
现有技术中,由于机器学习建模过程需要用到建模工具和机器学习组件,因而,在机器学习建模过程的各个步骤中,研发人员主要采用的开源软件进行业务编码或二次开发,以将建模工具和机器学习组件结合起来,进而实现各个步骤的操作。
然而,由于现有机器学习建模过程的各个步骤需要不同的技能人员进行操作,存在人工成本高、处理效率低的问题。
发明内容
本发明的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在降低机器学习建模过程中的人工成本,提高处理效率。
为实现上述目的,本发明提供一种数据处理方法,包括:
从业务平台获取业务数据集;
将所述业务数据集输入到业务处理流程中,得到建模参数;其中,所述业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证;所述建模参数包括所述业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数;所述目标机器模型为预设的候选模型训练后性能最优的机器模型;
根据所述建模参数,确定建模工作流。
在本发明的一种可能设计中,所述将所述业务数据集输入到业务处理流程中,得到建模参数,包括:
基于所述业务数据集所属的业务类型,对所述业务数据集进行数据预处理,得到业务数据样本集和所述数据预处理的运行参数,所述业务数据样本集包括:训练样本集和验证样本集;
对所述训练样本集中的每条样本数据执行特征工程,得到用于模型训练的特征向量和所述特征工程的运行参数;
利用所述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、所述目标机器模型的属性参数以及所述机器模型构建的运行参数;
利用所述验证样本集对所述目标机器模型进行机器模型验证,得到验证报告和所述机器模型验证的运行参数,所述验证报告是表征所述目标机器模型性能的报告;
其中,所述建模参数包括:所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数以及所述目标机器模型的属性参数。
可选的,所述基于所述业务数据集所属的业务类型,对所述业务数据集进行数据预处理,得到业务数据样本集和所述数据预处理的运行参数,包括:
根据所述业务数据集所属的业务类型,确定所述业务数据集对应的至少两个预处理操作组合,不同的预处理操作组合包括不同的预处理操作和/或不同数量的预处理操作,每个预处理操作组合包括如下至少一种:数据清洗、缺失值填充、数据对齐、数据融合、数据归一化;
利用每个预处理操作组合分别对所述业务数据集进行预处理,得到每个预处理操作组合对应的用户数据集,每个用户数据集中的每条用户数据具有相同的特征属性;
根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合;
根据所述目标用户数据集中每条用户数据具有的特征属性,对每条用户数据进行数据标注,得到所述业务数据样本集;
将利用所述目标预处理操作集合和所述述业务数据集得到所述业务数据样本集的过程参数确定为所述数据预处理的运行参数。
可选的,所述根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合,包括:
在所述至少两个预处理操作组合对应的至少两个用户数据集的质量中,确定出质量最好的用户数据集;
将质量最好的所述用户数据集确定为目标用户数据集;
将所述目标用户数据集对应的预处理操作组合确定为目标预处理操作集合。
可选的,所述利用所述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、所述目标机器模型的属性参数以及所述机器模型构建的运行参数,包括:
利用所述特征工程输出的特征向量,对预设的至少两种候选模型执行超参数寻优,确定针对每种候选模型对应的训练效果,所述至少两种候选模型包括:预设的至少一个神经网络模型、经验函数模型;其中,所述经验函数模型是基于历史操作信息确定的模型;
基于训练效果从好到差的顺序对所述至少两种候选模型的训练结果进行排序,将训练后性能最优的候选模型确定为所述目标机器模型,并确定出所述目标机器模型的属性参数;
将利用所述特征向量和所述目标机器模型训练前对应的候选模型得到所述目标机器模型的过程参数确定为所述机器模型构建的运行参数。
在本发明的另一种可能设计中,所述根据所述建模参数,确定建模工作流,包括:
将所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数分别填充至预先配置的建模模板中,得到具有所述属性参数的所述目标机器模型的建模工作流。
在本发明的再一种可能设计中,在所述从业务平台获取业务数据集之前,所述方法还包括:
获取用户发出的处理指示,所述处理指示用于触发获取所述业务数据集;
在所述根据所述建模参数,确定建模工作流之后,所述方法还包括:
获取用户发出的工作流导出指示;
根据所述工作流导出指示,输出所述建模工作流。
本发明还提供一种数据处理装置,包括:获取模块、处理模块和确定模块;
所述获取模块,用于从业务平台获取业务数据集;
所述处理模块,用于将所述业务数据集输入到业务处理流程中,得到建模参数;其中,业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证;所述建模参数包括所述业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数;所述目标机器模型为预设的候选模型训练后性能最优的机器模型;
所述确定模块,用于根据所述建模参数,确定建模工作流。
在本发明的一种可能设计中,所述处理模块,包括:预处理单元、特征工程单元、模型构建单元和模型验证单元;
所述预处理单元,用于基于所述业务数据集所属的业务类型,对所述业务数据集进行数据预处理,得到业务数据样本集和所述数据预处理的运行参数,所述业务数据样本集包括:训练样本集和验证样本集;
所述特征工程单元,用于对所述训练样本集中的每条样本数据执行特征工程,得到用于模型训练的特征向量和所述特征工程的运行参数;
所述模型构建单元,用于利用所述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、所述目标机器模型的属性参数以及所述机器模型构建的运行参数;
所述模型验证单元,用于利用所述验证样本集对所述目标机器模型进行机器模型验证,得到验证报告和所述机器模型验证的运行参数,所述验证报告是表征所述目标机器模型性能的报告;
其中,所述建模参数包括:所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数以及所述目标机器模型的属性参数。
可选的,所述预处理单元,具体用于:
根据所述业务数据集所属的业务类型,确定所述业务数据集对应的至少两个预处理操作组合,不同的预处理操作组合包括不同的预处理操作和/或不同数量的预处理操作,每个预处理操作组合包括如下至少一种:数据清洗、缺失值填充、数据对齐、数据融合、数据归一化;
利用每个预处理操作组合分别对所述业务数据集进行预处理,得到每个预处理操作组合对应的用户数据集,每个用户数据集中的每条用户数据具有相同的特征属性;
根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合;
根据所述目标用户数据集中每条用户数据具有的特征属性,对每条用户数据进行数据标注,得到所述业务数据样本集;
将利用所述目标预处理操作集合和所述述业务数据集得到所述业务数据样本集的过程参数确定为所述数据预处理的运行参数。
可选的,所述预处理单元,用于根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合,具体为:
所述预处理单元,具体用于:
在所述至少两个预处理操作组合对应的至少两个用户数据集的质量中,确定出质量最好的用户数据集;
将质量最好的所述用户数据集确定为目标用户数据集;
将所述目标用户数据集对应的预处理操作组合确定为目标预处理操作集合。
可选的,所述模型构建单元,具体用于:
利用所述特征工程输出的特征向量,对预设的至少两种候选模型执行超参数寻优,确定针对每种候选模型对应的训练效果,所述至少两种候选模型包括:预设的至少一个神经网络模型、经验函数模型;其中,所述经验函数模型是基于历史操作信息确定的模型;
基于训练效果从好到差的顺序对所述至少两种候选模型的训练结果进行排序,将训练后性能最优的候选模型确定为所述目标机器模型,并确定出所述目标机器模型的属性参数;
将利用所述特征向量和所述目标机器模型训练前对应的候选模型得到所述目标机器模型的过程参数确定为所述机器模型构建的运行参数。
在本发明的另一种可能设计中,所述确定模块,具体用于将所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数分别填充至预先配置的建模模板中,得到具有所述属性参数的所述目标机器模型的建模工作流。
在本发明的再一种可能设计中,所述获取模块,还用于在从业务平台获取业务数据集之前,获取用户发出的处理指示,所述处理指示用于触发获取所述业务数据集,以及在根据所述建模参数,确定建模工作流之后,获取用户发出的工作流导出指示;
所述处理模块,还用于根据所述工作流导出指示,输出所述建模工作流。
本发明还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上述的数据处理方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现上述的数据处理方法的步骤。
本发明提供的数据处理方法、装置、设备及存储介质,通过将从业务平台获取到的业务数据集输入到业务处理流程中,得到包括该业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数的建模参数,而且该业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证,该目标机器模型为预设的候选模型训练后性能最优的机器模型,因而,根据该建模参数可以确定建模工作流。该技术方案中,数据处理过程开始之后,无需专业的技能人员参与也可实现整个过程,进而得到了建模工作流,不仅降低了人工成本,提高了处理效率,而且为以后的模型使用提供了实现条件。
附图说明
图1是本申请实施例提供的数据处理方法的应用场景示意图;
图2为本申请实施例提供的数据处理方法实施例一的流程示意图;
图3为本申请实施例提供的数据处理方法实施例二的流程示意图;
图4为本申请实施例提供的数据处理方法实施例三的流程示意图;
图5为本申请实施例提供的数据处理方法实施例四的流程示意图;
图6为本申请实施例提供的数据处理方法实施例五的流程示意图;
图7为图6所示实施例中电子设备的人机交互界面的示意图;
图8为本申请实施例提供的数据处理装置实施例一的结构示意图;
图9为本申请实施例提供的数据处理装置实施例二的结构示意图;
图10为本申请实施例提供的电子设备实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,其在多个领域均具有广泛的应用。例如,金融行业、互联网领域等。
示例性的,过程自动化是机器学习在金融领域最常见的应用之一,其可以替代手动工作,自动执行重复性任务并提高生产率。因此,机器学习能够优化企业成本,改善客户体验并扩展服务。
下面主要从金融领域和互联网领域两个应用场景对机器学习建模的必要性和原理进行解释说明。
在金融领域中,银行和保险公司的系统中存储了大量的历史消费者数据,因此,可以使用这些数据来训练机器学习模型。可选的,银行存储的消费者数据可以包括客户的交易记录,与客户的沟通信息,内部信息等。现在,大数据技术可以解决类似的大规模数据存储和处理的问题,数据量越大,就越能够探查到客户的需求和行为模式。在大数据的基础之上,通过人工智能和机器学习算法,利用相关软件学习客户的行为能够实现自主决策或对用户的信用测评。
示例性的,通过从分布式数据平台获取大量的消费者的信息,分析消费者的行为,进而确定出用户的信用信息,利用训练的机器学习模型在现实环境中执行相同的承保和信用评分任务。这种评分引擎可以帮助人员更快,更准确地工作。
在互联网普及的大环境下,每天都会产生大量的用户上网信息,通过分析用户上网信息,训练出一个机器学习模型,进而有针对性的为用户推荐其可能感兴趣的商品或产品。
可以理解的是,上述仅针对金融行业和互联网领域的机器学习建模进行解释说明,在实际应用中,其还可以应用于其他的行业,此处不再赘述。
由上述分析可知,机器模型学习在多个行业均具有重要的应用,可以在金融行业,利用大数据进行用户信用评分,在互联网行业,利用大数据进行商品个性化推荐等。因而,如何利用大数据进行机器学习建模是应用的关键。
通常情况下,机器学习建模过程主要包括数据处理、特征工程、模型训练、效果评估与报告等步骤,建立过程需要用到建模工具和机器学习组件,因而,在机器学习建模过程的各个步骤中,研发人员可以采用开源软件进行业务编码或二次开发,以将建模工具和机器学习组件结合起来,进而实现各个步骤的操作。可选的,机器学习组件可以是sklearn、spark、tensorflow、pytorch,利用的建模工具主要是开源软件,例如matlab、SAS等。
可选的,特征工程和模型训练需要大量的时间进行试验寻找最优方案,但是针对偏重业务的建模人员,需要使用上述开源工具进行繁复的编码调试工作,效率不够高。此外,整套建模流程每个步骤都需要不同技能的建模人员,整套流程对人力要求高,并且涉及不同步骤之间的衔接交互、报告的产出也比较割裂独立。
针对上述问题,本申请技术方案的发明构思过程如下:在具有用户界面的设备中,首先可以在设备中预先配置机器学习模型的业务处理流程,然后从金融系统或征信平台或电商网站等对接的业务平台获取待处理的业务数据,再基于上述预先配置的业务处理流程对业务数据进行处理,最终确定出业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数,从而得到建模工作流,这样能够实现从数据预处理到模型评估等整个建模流程的自动化执行,建模人员通过设备的人机交互界面进行少量的参数配置工作,便可完成整个建模流程,提高了数据处理效率、
基于上述技术构思,可以确定本申请的技术方案如下:通过从业务平台获取业务数据集,进而将该业务数据集输入到业务处理流程中,得到包括业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数的建模参数,该业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证,该目标机器模型为预设的候选模型训练后性能最优的机器模型,从而根据所述建模参数能够确定建模工作流。该技术方案中,机器建模过程从数据预处理过程开始之后,无需专业的技能人员参与也可实现整个过程,降低了人工成本,提高了处理效率。
示例性的,图1是本申请实施例提供的数据处理方法的应用场景示意图。参照图1所示,该应用场景可以包括:业务平台11、电子设备12和计算机集群13。
其中,业务平台11在不同的行业具有不同的表现形式。示例性的,在金融行业中,业务平台11可以是银行系统、征信系统或第三方平台的分布式业务数据库。在互联网领域中,业务平台11可以是电商平台,或搜索引擎的数据平台等分布式数据库。图1示例性的示出了2个业务数据库,分别为业务数据库111和业务数据库112。本申请实施例并不对业务平台11的具体表现形式和数量进行限定,其可以根据实际应用场景进行确定,此处不再赘述。
可选的,当需要构建机器学习模型时,该电子设备12可以从该业务平台11获取待处理的业务数据集,进而根据电子设备12中预先配置的业务处理流程执行机器学习模型的建立过程。
在实际应用中,该电子设备12是具有人机交互界面120的设备,其可以通过人机交互界面120获取用户发出的处理指示,并基于该处理指示执行机器学习建模的业务处理流程。可选的,该人机交互界面120还可以用于显示电子设备在各阶段的处理进展、处理结果等。进一步的,该人机交互界面120还可以用于获取用户的建模工作流导出指示,以导出电子设备的处理信息以及建立的机器学习模型的参数信息。
可选的,电子设备12在执行数据处理的过程中,还可以将某些处理工作发送给计算机集群13中的某些设备执行,并接收计算机集群13中相应设备的处理结果。例如,电子设备12可以在模型建立过程中将建模任务发送给某些计算机,以使得这些计算机可以执行模型的超参数寻优,并将处理结果反馈给电子设备。
在本申请的实施例中,电子设备12还可以称为机器学习模型的训练设备,即利用从业务平台获取到的业务数据集执行模型训练,确定出目标机器模型,并获取到该目标机器模型的建模工作流。关于该方案的具体实现可以参见下述实施例中的记载,此处不再赘述。
可以理解的是,图1示出的应用场景图仅是一种示例性说明。在实际应用中,可以根据实际需求进行调整,例如,业务平台可以集成在电子设备上,也可以是单独的设备,该应用场景还可以包括存储设备等,本申请实施例并不对其进行限定。
可选的,本申请实施例以执行主体为电子设备12进行解释说明。该电子设备12可以是计算机、平板电脑等终端设备,也可以是后台的处理平台等服务器。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图2为本申请实施例提供的数据处理方法实施例一的流程示意图。该方法以图1所示应用场景中的电子设备为例进行解释说明。如图2所示,该数据处理方法可以包括如下步骤:
S201、从业务平台获取业务数据集。
示例性的,在本申请的实施例中,当电子设备获取到建模指示时,首先可以与关联的业务平台建立连接,然后从业务平台的至少一个业务数据库中获取业务数据集。
可以理解的是,由于人工智能(Artificial Intelligence,AI)或机器学习的基础是数据,如何收集数据且收集的数据质量的高低决定了待训练的模型的稳定性或效果,因而,在整个机器模型建立的过程中收集数据这一步非常关键。
可选的,在申请实施例中业务数据可以包括多种类型,例如,通信业务数据、金融业务数据、教育业务数据、消费业务数据等多种类型。可选的,业务数据根据在不同领域中的不同作用还可以具有不同的名称,例如,金融业务数据也可以称为用户信用数据,消费业务数据也可以称为用户操作数据等。
作为一种示例,在金融行业中,电子设备从分布式业务平台获取至少一个征信系统的业务数据集,该业务数据集包括:多条用户信用数据,每条用户信用数据包括:用户属性信息和用户行为信息。
具体的,在金融行业中,该业务平台可以是银行等金融系统或第三方系统等分布式业务平台,其可以包括多个征信系统,每个征信系统上均存储有大量的用户信用数据,例如,用户属性信息,用户行为信息等。其中,用户属性信息可以包括身份信息、家庭信息、联系方式、教育信息、职业信息、生活方式等,用户行为信息可以包括用户认证数据、消费收支数据、交易数据信息、芝麻信用信息等。本申请实施例并不对业务数据集在金融领域的具体表现形式进行限定,此处不再赘述。
作为另一种示例,在互联网领域中,电子设备还可以从分布式业务平台获取至少一个电商平台的业务数据集,该业务数据集包括:多条用户操作数据,每条用户操作数据包括:用户信息、操作对象信息、用户行为信息。
具体的,在互联网领域中,业务平台可以包括多个电商平台和/或搜索引擎平台的分布式平台,不同的电商平台或搜索引擎平台均会记录有大量的用户操作数据,例如,用户信息、操作对象信息、用户行为信息。可选的,用户信息可以指用户身份信息、使用设备标识、访问网络标识等,操作对象信息可以指搜索的物体信息、访问的商品信息等。用户行为信息可以指电商平台中的点击行为、浏览行为、下单行为等。
S202、将业务数据集输入到业务处理流程中,得到建模参数;其中,该业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证;该建模参数包括业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数;该目标机器模型为预设的候选模型训练后性能最优的机器模型。
在本申请的实施例中,电子设备在获取到业务数据集后,为了得到目标机器模型的属性参数,需要经过数据预处理、特征工程、机器模型构建以及机器模型验证等处理过程。
可选的,数据预处理即对获取到的上述业务数据进行预处理,例如,数据降噪、数据清洗、数据对齐、格式转换等,以保证后续模型的准确性。
可选的,特征工程是指从数据或样本中提取出对预测结果有价值的信息,不同的应用场景所涉及的特征是不一样的,因而,提取有效特征的过程即是特征工程,经过特征工程后的每一个数据都可以转换成向量或者矩阵或张量这种数值类型,其可以直接作为模型的输入的数据类型。
机器模型构建就是使用各种各样的候选模型去尝试,通过调整各个模型的参数使得选中的模型效果最优。机器模型验证就是验证已经训练的模型的好坏。
在本申请的实施例中,电子设备可以基于该业务数据集依次执行设备中预先配置的业务处理流程,即依次执行数据预处理、特征工程、机器模型构建以及机器模型验证等处理过程。在每种处理过程中,电子设备可以根据预先存储的配置信息串行或并行每种处理操作组合,并将效果最优的处理操作组合对应的处理结果作为下一个处理的输入,并实现自动化执行,最后基于各个处理过程中的目标处理操作组合得到目标机器模型的建模工作流。
可选的,在本实施例中,业务处理流程包括的各个处理过程的数据流是连续的,相邻的处理接口可以顺序执行,即各个处理过程中使用的建模工具和机器学习组件之间可以基于预设配置的信息配合使用,在预设的业务处理流程开始之后,无需专业的技能人员参与也可实现整个过程,确定出目标机器模型。
S203、根据上述建模参数,确定建模工作流。
在本申请的实施例中,电子设备基于上述S202的步骤确定出目标机器模型的属性参数后,设备内会记录上述各个处理过程的实现信息,例如,各个处理过程中预设的多种处理操作组合对应的运行参数等。
在本申请的实施例中,业务处理流程中各处理过程的运行参数也就是数据预处理的运行参数、特征工程的运行参数、机器模型构建的运行参数和机器模型验证的运行参数等,所以,该S203可以通过如下步骤实现:
将数据预处理的运行参数、特征工程的运行参数、机器模型构建的运行参数和机器模型验证的运行参数分别填充至预先配置的建模模板中,得到具有所述属性参数的目标机器模型的建模工作流。
可选的,该电子设备中可以存储有预先配置的建模模板,这样电子设备在得到各处理过程的运行参数后,可以分别将数据预处理的运行参数、特征工程的运行参数、机器模型构建的运行参数和机器模型验证的运行参数等分别填充至预先配置的建模模板中,从而生成了具有上述属性参数的目标机器模型的建模工作流,其可以为后续模型的直接建立提供实现可能。
本申请实施例提供的数据处理方法,通过从业务平台获取业务数据集,进而将给业务数据集输入到业务处理流程中,得到包括业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数的建模参数,该业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证,该目标机器模型为预设的候选模型训练后性能最优的机器模型,根据该建模参数确定建模工作流。该技术方案中,机器建模过程从数据预处理过程开始之后,无需专业的技能人员参与也可实现整个过程,降低了人工成本,提高了处理效率。
可选的,在上述实施例的基础上,图3为本申请实施例提供的数据处理方法实施例二的流程示意图。如图3所示,上述S202可以通过如下步骤实现:
S301、基于业务数据集所属的业务类型,对业务数据集进行数据预处理,得到业务数据样本集和该数据预处理的运行参数。
其中,业务数据样本集包括:训练样本集和验证样本集。
在本申请的一种应用场景中,例如,在金融行业中,电子设备可以从分布式业务平台获取至少一个征信系统的业务数据集,该业务数据集包括:多条用户信用数据,每条用户信用数据包括:用户属性信息和用户行为信息,且每条用户信用数据可以具有相同的特征属性,由此可知,该业务数据集所属的业务类型可以为用户信用评分。因而,利用与该用户信用评分相对应的预处理操作组合对业务数据集进行数据预处理,可以得到业务数据样本集和该数据预处理的运行参数。
在本申请的另一种应用场景中,例如,在互联网行业中,电子设备可以从分布式业务平台获取至少一个电商平台的业务数据集,该业务数据集包括:多条用户操作数据,每条用户操作数据包括:用户信息、操作对象信息、用户行为信息。由此可知,该业务数据集所属的业务类型可以为用户行为分析。因而,利用与该用户行为分析相对应的预处理操作组合对业务数据集进行数据预处理,也可以得到对应的业务数据样本集和该数据预处理的运行参数。
可选的,在实际应用中,为了在确定目标机器模型后,验证目标机器模型的效果和稳定性,在得到业务数据样本集之后,可以对其进行划分,得到训练样本集和验证样本集。即,业务数据样本集包括:训练样本集和验证样本集。
S302、对训练样本集中的每条样本数据执行特征工程,得到用于模型训练的特征向量和该特征工程的运行参数。
作为一种示例,在金融行业中,训练样本集中的每条样本数据具有多个维度信息,例如,时间信息、用户性别、年龄、职业、教育等基本信息。不同维度的信息对每条样本数据的贡献值不同,因而,在模型训练之前,首先可以为各数据维度预设权重信息,进而结合每条样本数据的时序信息对每条样本数据执行特征工程处理,得到用于模型训练的特征向量,从而提高训练得到的目标机器模型的可解释性。
可选的,针对不同的实例,特征工程包括的具体过程可以不同,例如,特征分箱、特征选择、特征交互。其中,特征分箱也称为离散分箱或分段,是一种将多个连续值分组为较少数量的方法。示例性的,对于年龄这个属性,假设取值区间为[0,100],通过特征分箱可以将其划分为[0,30]、[31,60]、[61,100]。特征选择可以从众多维度的数据特征中选择出对用户信用评分影响较大的特征。特征交互可以是将不同征信平台的数据融合成一条数据的过程。
可以理解的是,本申请实施例并不限定特征处理包括的具体过程,其可以根据实际需要确定,此处不再赘述。
作为另一种示例,在互联网行业中,通过对训练样本集中的每条样本数据进行分析,可以得到每条样本数据包括的用户特征信息、操作对象特征信息,相应的,通过对用户特征信息进行特征化处理,可以得到用户特征向量,通过对操作对象特征信息进行处理可以得到操作对象的特征向量。
其中,用户特征信息主要指用户行为特征信息、用户属性特征信息。用户行为特征主要包括用户在线产生的行为信息,例如,浏览、购买、点击、观看等,其通常以序列的形式使用,用户属性特征信息主要指用户的基本信息,例如,性别、年龄、地区、学历等。
操作对象特征信息主要指操作对象属性信息,例如,电商商品的类别、价格、品牌、评价等多种维度;视频的作者、标题、语言、年代等多种维度。
可选的,在实际应用中,每条用户样本数据还可以包括上下文特征信息、内容特征等。可选的,上下文特征信息主要是代表应用场景状态的特征,例如,用户的地理位置、当前时间等。内容特征主要是经过自然语言处理得到的特征等,例如,内容来源、标题分词等。上下文特征信息和内容特征可以辅助其他特征的处理,此处不再赘述。
可选的,在确定出每条用户样本数据中的用户特征向量和操作对象的特征向量,可以对用户特征向量和操作对象的特征向量进行顺序整合,从而得到每条用户样本数据对应的用于模型训练的特征向量。
S303、利用上述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、该目标机器模型的属性参数以及该机器模型构建的运行参数。
可选的,在本实施例中,电子设备中可以预设有机器模型构建过程能够使用的至少两种候选模型,这样,电子设备可以利用上述得到的特性向量分别对每种候选模型进行模型训练,确定训练后的每种模型的性能,进而从训练后的所有模型中确定出性能最优的一个机器模型作为目标机器模型,相应的,可以得到该目标机器模型的属性参数以及该机器模型构建的运行参数。
S304、利用上述验证样本集对目标机器模型进行机器模型验证,得到验证报告和该机器模型验证的运行参数。
其中,该验证报告是表征目标机器模型性能的报告。示例性的,该验证报告包括如下至少一种:特征工程中所使用的每个特征的重要性、业务处理流程中每个处理过程的运行详情、数据可视化信息。
可选的,本申请实施例可以采用交叉验证的方式验证目标机器模型的性能。具体的,上述S301中得到的业务数据样本集可以划分为训练样本集和验证样本集,利用训练样本集进行模型训练,利用验证样本集来评估目标机器模型的性能,从而降低模型过拟合,该方法简单有效且易于实现。
示例性的,表征模型性能的指标有多个,比如,错误率,精准率,召回率等等。本申请实施例并不对表征性能的指标形式进行限定,其可以根据实际场景确定。
进一步的,电子设备可以基于验证的结果生成验证报告,其中,该验证报告可以包括但不局限于包括各个处理的运行详情、特征工程中选定特征的各特征的重要性、各个处理后在人机交互界面上呈现的结果等。
由上述各步骤可知,在本申请中,建模参数包括:数据预处理的运行参数、特征工程的运行参数、机器模型构建的运行参数和机器模型验证的运行参数以及目标机器模型的属性参数。
本申请实施例提供的数据处理方法,基于业务数据集所属的业务类型,对业务数据集进行数据预处理,得到包括训练样本集和验证样本集的业务数据样本集和数据预处理的运行参数,对训练样本集中的每条样本数据执行特征工程,得到用于模型训练的特征向量和该特征工程的运行参数,利用特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、目标机器模型的属性参数以及机器模型构建的运行参数,最后利用验证样本集对目标机器模型进行机器模型验证,得到验证报告和机器模型验证的运行参数,从而能够确定出目标机器模型的性能。该技术方案对业务处理流程包括的各个处理过程进行分析,详细分析了各处理过程的具体实现,从而为后续的模型构建提供实现基础。
可选的,图4为本申请实施例提供的数据处理方法实施例三的流程示意图。如图4所示,上述S301可以通过如下步骤实现:
S401、根据业务数据集所属的业务类型,确定业务数据集对应的至少两个预处理操作组合。
其中,不同的预处理操作组合包括不同的预处理操作和/或不同数量的预处理操作,每个预处理操作组合包括如下至少一种:数据清洗、缺失值填充、数据对齐、数据融合、数据归一化。
可选的,在金融行业中,电子设备从征信系统获取到的业务数据集中通常有好几十个维度的数据,有些维度的数据,与模型的目标结果相关度不高,因此,可以业务数据集中的数据进行数据清洗,删除部分维度的数据。在互联网行业中,电子设备从至少一个电商平台获取到的业务数据集数据量庞大,其中有些数据可能与商品推荐或用户操作行为的相关度不大或取值不准确,因而,为了提高后续目标机器模型的稳定性,可以对业务数据集中的数据进行数据清洗,删除相关度不大或取值不准确的异常数据。
类似的,缺失值填充可以根据数据类型执行例如均值/中位数方法(对于数值数据),one-hot编码(对于分类数据)的数据填充,以确保最终得到的样本数据不包含任何遗漏值。
在数据集中,还可能存在空值等情况,因而,还需要对存在空值的列的数据进行补齐。例如,对业务数据集中数据格式或数据维度不一致的数据进行数据对齐,使得得到的数据具有一致的数据格式和数据维度。
可选的,在数据量不能满足要求的情况下,可以对获取到的多条数据的维度进行数据融合等。数据融合可以是对多条数据的维度进行数据融合,得到具有较多维度的数据样本。
对于业务数据集中数据格式不完全统一的数据,例如,存在日期格式、中文格式等等,因而,需要将此类数据进行数据标准化。数据标准化即数据归一化的目的是将数据集中的数据都转换成0~1之间的数据,降低数据之间的差异,以提高后续确定目标机器模型的稳定性。
可以理解的是,业务数据集对应的至少两个预处理操作组合可以有多种,可以根据不同的应用场景选择相应的预处理操作组合,或者根据每种预处理操作组合的效果确定最终使用的预处理操作组合。
S402、利用每个预处理操作组合分别对业务数据集进行预处理,得到每个预处理操作组合对应的用户数据集,每个用户数据集中的每条用户数据具有相同的特征属性。
在本实施例中,电子设备利用至少两种预处理操作组合中的每种预处理操作组合分别对业务数据集进行预处理,从而可以得到每个预处理操作组合对应的用户数据集,即不同的预处理操作组合产生的用户数据集的质量不同。
可以理解的是,电子设备对获取到的业务数据集进行数据预处理操作组合的目的是使得得到的用户数据集中的每条用户数据具有相同的特征属性,本申请实施例并不限定预处理操作组合的具体内容,其可以根据实际场景确定,此处不再赘述。
S403、根据上述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合。
可选的,在本实施例中,电子设备可以利用每个预处理操作组合分别对业务数据集进行预处理后,可以得到每个预处理操作组合对应的用户数据集,从而可以在至少两个预处理操作组合对应的至少两个用户数据集的质量中,确定出质量最好的用户数据集,将质量最好的用户数据集确定为目标用户数据集,以及将目标用户数据集对应的预处理操作组合确定为目标预处理操作集合。
S404、根据目标用户数据集中每条用户数据具有的特征属性,对每条用户数据进行数据标注,得到业务数据样本集。
可选的,在本申请的实施例中,为了提高机器学习模型的训练效率,可以对目标用户数据集中的每条用户数据进行数据标注,进而为后续采用监督学习的方式进行构建学习模型奠定基础。
示例性的,在金融行业中,电子设备根据每条用户数据具有的用户行为信息,可以分析用户的信用等级,进而对每条用户数据进行标注,使其携带信用等级的标签。可选的,具有信用等级标签的用户数据组成的集合称为业务数据样本集。
可选的,在互联网行业中,目标用户数据集中的每条用户数据具有用户信息、操作对象信息、用户行为信息等信息,其中,用户信息主要指用户的标识,操作对象信息主要指用户在电商平台中操作的对象,例如,浏览的商品、下单的商品等,用户行为信息主要指具体的动作,例如,浏览、下单、点击等。可选的,电子设备可以首先对目标用户数据集中的每条用户数据进行分析,根据用户信息、操作对象信息、用户行为信息,建立用户与操作对象之间的关联关系,例如,用户1浏览了商品A、商品B、商品C,用户2浏览了商品A、商品B、商品C,用户1购买了商品A,用户2购买了商品B等;然后根据该关联关系,确定出用户操作的对象种类,进而可以根据用户操作的对象种类对每条用户数据进行标注,从而可以得到业务数据样本集。
可选的,为了能够在建立的目标机器模型后采用交叉验证的方式验证目标机器模型的性能,因而,在建立目标机器模型之前,首先可以对业务数据样本集进行划分,以得到训练样本集和验证样本集。其中,训练样本集用于进行机器模型构建,验证样本集用于对训练样本集生成的目标机器模型进行测试,以相对客观的判断目标机器模型对训练样本集之外的数据的符合程度。
S405、将利用目标预处理操作集合和业务数据集得到业务数据样本集的过程参数确定为数据预处理的运行参数。
示例性的,电子设备可以基于目标预处理操作集合的确定过程和对业务数据集进行处理的过程,确定出业务数据样本集的过程参数,进而基于该过程参数中涉及中的运行信息,确定出数据预处理的运行参数。
本申请实施例提供的数据处理方法,首先根据业务数据集所属的业务类型,确定业务数据集对应的至少两个预处理操作组合,利用每个预处理操作组合分别对业务数据集进行预处理,得到每个预处理操作组合对应的用户数据集,其次根据至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合,进而根据目标用户数据集中每条用户数据具有的特征属性,对每条用户数据进行数据标注,得到业务数据样本集,最后将利用目标预处理操作集合和业务数据集得到业务数据样本集的过程参数确定为数据预处理的运行参数。该技术方案,电子可以根据用户数据集的质量确定后续特征工程处理过程中的用户数据集,以及得到该用户数据集的预处理操作组合,从而可以为后续降低模型构建成本、提高处理效率奠定了基础。
可选的,图5为本申请实施例提供的数据处理方法实施例四的流程示意图。如图5所示,上述S303可以通过如下步骤实现:
S501、利用特征工程输出的特征向量,对预设的至少两种候选模型执行超参数寻优,确定针对每种候选模型对应的训练效果。
可选的,至少两种候选模型包括:预设的至少一个神经网络模型、经验函数模型;其中,经验函数模型是基于历史操作信息确定的模型。
在本申请的实施例中,电子设备中可以预设至少两种候选模型,以用于机器模型构建。可选的,至少两种候选模型可以包括但不局限于决策树、逻辑回归(logisticregression,LR)、随机森林、梯度提升决策树(gradient boosting decision tree,GBDT)、支持向量机(support vector machine,SVM)。
可选的,在本申请实施例中,至少两种候选模型还可以包括经验函数模型。该经验函数模型可以是用户基于历史操作信息确定的模型,即可以是用户基于之前的经验确定出一种处理方式,关于经验函数模型的具体实现可以根据实际场景确定,此处不再赘述。
在本步骤中,电子设备可以同时对上述至少两个候选模型进行超参数寻优,从而分别得到针对每种候选模型对应的训练效果。其中,超参数不是目标机器模型的参数,其一般用于训练过程中,比如正则化的系数,学习率,迭代次数等等,合适的超参数可以降低模型的过拟合,加速训练速度等优点。
S502、基于训练效果从好到差的顺序对至少两种候选模型的训练结果进行排序,将训练后性能最优的候选模型确定为目标机器模型,并确定出该目标机器模型的属性参数。
可选的,电子设备在得到针对每种候选模型对应的训练效果时,一方面可以根据设定的训练停止条件终止寻优,另一方面,电子设备还可以按照训练效果由好到差的顺序排列呈现在人机交互界面上,这样用户可以决定何时提前终止寻优,通过人机交互界面发出停止指示,以使的电子设备基于该停止指示提前终止寻优。最后,电子设备将预设的候选模型训练后性能最优的机器模型确定为目标机器模型,相应的,可以确定出该目标机器模型的属性参数。
在本申请实施例的模型构建过程中,一方面,电子设备可以并行训练多个候选模型,并根据最终训练的结果,寻找效果最优的模型;另一方面,每个模型的参数可以基于每个候选模型的自动化运行过程中进行超参数寻优。
在实际应用中,该电子设备可以与计算机集群通信,在模型训练过程中,电子设备可以控制某些计算机执行第一候选模型的寻优,也可以控制另一些计算机执行第二候选模型的寻优等处理过程。本申请实施例并不限定各个寻优过程的具体执行位置,其可以根据用户的指示确定,此处不再赘述。
S503、将利用该特征向量和目标机器模型训练前对应的候选模型得到目标机器模型的过程参数确定为机器模型构建的运行参数。
在本实施例中,电子设备执行上述S501和S502后,在确定出性能最优的目标机器模型时,便可以将电子设备利用特征向量对目标机器模型训练前对应的候选模型进行训练过程中的参数确定为目标机器模型的过程参数。
本申请实施例提供的数据处理方法,利用特征工程输出的特征向量,对预设的至少两种候选模型执行超参数寻优,确定针对每种候选模型对应的训练效果,基于训练效果从好到差的顺序对上述至少两种候选模型的训练结果进行排序,将训练后性能最优的候选模型确定为目标机器模型,并确定出该目标机器模型的属性参数,最后将利用特征向量和目标机器模型训练前对应的候选模型得到目标机器模型的过程参数确定为机器模型构建的运行参数。该技术方案中,电子设备能够自动实现目标机器模型的自动寻优,降低了技能人员的劳动力,提高了处理效率。
示例性的,在上述实施例的基础上,图6为本申请实施例提供的数据处理方法实施例五的流程示意图。图7为图6所示实施例中电子设备的人机交互界面的示意图。如图6所示,在上述S201之前,该方法可以包括如下步骤:
S601、获取用户发出的处理指示,该处理指示用于触发获取业务数据集。
示例性的,参照图7所示,电子设备具有人机交互界面,用户可以通过该人机交互界面对机器学习建模过程进行一些参数配置或修改。示例性的,在人机交互界面上,可以具有多个应用场景的选项,用户可以根据实际需要选择目标应用场景,即发出处理指示,从而触发该电子设备从目标应用场景对应的业务平台上获取业务数据集。
示例性的,参照图7所示,该人机交互界面上具有金融行业、教育行业、互联网行业等多个不同的选项,用户可以基于需要选择目标选项。例如,当用户选择金融行业时,电子设备则与至少一个征信系统建立连接,进而从上述至少一个征信系统中获取用户信用数据对应的业务数据集。当用户选择互联网时,电子设备可以与至少一个电商平台建立连接,进而从上述至少一个电商平台中获取用户操作数据对应的业务数据集。
相应的,在上述S203之后,该方法还可以包括如下步骤:
S602、获取用户发出的工作流导出指示。
S603、根据该工作流导出指示,输出建模工作流。
在本申请的实施例中,当电子设备执行完上述S201至S203的步骤,并根据建模参数确定目标机器模型的建模工作流时,还可以通过该人机交互界面获取用户发出的工作流导出指示,进而将目标机器模型的建模工作流输出。
可选的,该建模工作流可以包括业务处理流程中每种处理过程的运行信息、目标机器模型的属性参数。可选的,该建模工作流还可以包括:目标机器模型确定的各处理过程中的运行详情、经过特征工程确定的每个特征的重要性信息等,以及机器模型验证的各个步骤。
进一步的,在目标机器模型的确定过程中,通常情况下,电子设备可以根据预先设定的停止条件确定各个处理阶段的停止时机,也可以获取用户发出的暂停指示,即用户可以根据人机交互界面上显示的处理结果决定是否继续执行,例如,在机器模型构建阶段,用户可以通过交互方式决定何时提前终止参数寻优,在满足一定精度的前提下,实现了模型提前停止寻优。
本申请实施例提供的数据处理方法,从业务平台获取业务数据流之前,首先获取用户发出的处理指示,该处理指示用于触发获取业务数据集,进而在根据建模参数确定建模工作流之后,还可以获取用户发出的工作流导出指示,进而根据该工作流导出指示,输出建模工作流。该技术方案中,电子设备可以基于人机交互界面与用户进行交互,缩短了数据处理时长,为提高处理处理效率奠定了基础。
由上述分析可知,本申请提出的数据处理方法能够基于预设的业务处理流程和获取到的业务数据集实现自动化学习,而且能够导出目标机器模型的建模工作流,使得建模工作流细化成一套标准流程,从而提高了机器学习的自动化能力,能够使得建模人员从繁复的编码操作中解放出来,降低了人工成本,提高了处理效率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图8为本申请实施例提供的数据处理装置实施例一的结构示意图。参照图8所示,该装置可以包括:获取模块801、处理模块802和确定模块803。
其中,获取模块801,用于从业务平台获取业务数据集;
处理模块802,用于将所述业务数据集输入到业务处理流程中,得到建模参数;其中,业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证;所述建模参数包括所述业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数;所述目标机器模型为预设的候选模型训练后性能最优的机器模型;
确定模块803,用于根据所述建模参数,确定建模工作流。
上述装置用于实现前述图2所示方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
在上述图8所述实施例的基础上,图9为本申请实施例提供的数据处理装置实施例二的结构示意图。参照图9所示,上述处理模块802可以包括:预处理单元901、特征工程单元902、模型构建单元903和模型验证单元904。
其中,预处理单元901,用于基于所述业务数据集所属的业务类型,对所述业务数据集进行数据预处理,得到业务数据样本集和所述数据预处理的运行参数,所述业务数据样本集包括:训练样本集和验证样本集;
特征工程单元902,用于对所述训练样本集中的每条样本数据执行特征工程,得到用于模型训练的特征向量和所述特征工程的运行参数;
模型构建单元903,用于利用所述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、所述目标机器模型的属性参数以及所述机器模型构建的运行参数;
模型验证单元904,用于利用所述验证样本集对所述目标机器模型进行机器模型验证,得到验证报告和所述机器模型验证的运行参数,所述验证报告是表征所述目标机器模型性能的报告;
其中,所述建模参数包括:所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数以及所述目标机器模型的属性参数。
在图9所示的数据处理装置中,预处理单元901,具体用于:
根据所述业务数据集所属的业务类型,确定所述业务数据集对应的至少两个预处理操作组合,不同的预处理操作组合包括不同的预处理操作和/或不同数量的预处理操作,每个预处理操作组合包括如下至少一种:数据清洗、缺失值填充、数据对齐、数据融合、数据归一化;
利用每个预处理操作组合分别对所述业务数据集进行预处理,得到每个预处理操作组合对应的用户数据集,每个用户数据集中的每条用户数据具有相同的特征属性;
根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合;
根据所述目标用户数据集中每条用户数据具有的特征属性,对每条用户数据进行数据标注,得到所述业务数据样本集;
将利用所述目标预处理操作集合和所述述业务数据集得到所述业务数据样本集的过程参数确定为所述数据预处理的运行参数。
可选的,该预处理单元901,用于根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合,具体为:
所述预处理单元901,具体用于:
在所述至少两个预处理操作组合对应的至少两个用户数据集的质量中,确定出质量最好的用户数据集;
将质量最好的所述用户数据集确定为目标用户数据集;
将所述目标用户数据集对应的预处理操作组合确定为目标预处理操作集合。
在图9所示的数据处理装置中,模型构建单元903,具体用于:
利用所述特征工程输出的特征向量,对预设的至少两种候选模型执行超参数寻优,确定针对每种候选模型对应的训练效果,所述至少两种候选模型包括:预设的至少一个神经网络模型、经验函数模型;其中,所述经验函数模型是基于历史操作信息确定的模型;
基于训练效果从好到差的顺序对所述至少两种候选模型的训练结果进行排序,将训练后性能最优的候选模型确定为所述目标机器模型,并确定出所述目标机器模型的属性参数;
将利用所述特征向量和所述目标机器模型训练前对应的候选模型得到所述目标机器模型的过程参数确定为所述机器模型构建的运行参数。
可选的,在图8和图9所示的数据处理装置中,确定模块803,具体用于将所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数分别填充至预先配置的建模模板中,得到具有所述属性参数的所述目标机器模型的建模工作流。
在图8和图9所示的数据处理装置中,获取模块801,还用于在从业务平台获取业务数据集之前,获取用户发出的处理指示,所述处理指示用于触发获取所述业务数据集,以及在根据所述建模参数,确定建模工作流之后,获取用户发出的工作流导出指示;
处理模块802,还用于根据所述工作流导出指示,输出所述建模工作流。
上述装置用于实现前述图3至图6所示方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
示例性的,图10为本申请实施例提供的电子设备实施例的结构示意图。如图10所示,该电子设备可以包括:存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的数据处理程序,该数据处理程序被处理器1002执行时实现如上述的数据处理方法的步骤。
可选的,该电子设备还可以包括通信接口1003和系统总线1004,存储器1001和通信接口1003通过系统总线1004与处理器1002连接并完成相互间的通信,通信接口1003用于和其他设备进行通信。
可选的,在本申请的实施例中,该电子设备还可以包括人机交互界面1005,该人机交互界面1005可以用于接收用户的指示并显示处理结果。
可选的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如上述方法实施例所述的技术方案。
可选的,本申请实施例还提供一种运行指令的芯片,所述芯片用于执行上述方法实施例所述的技术方案。
本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,至少一个处理器可以从所述计算机可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述方法实施例所述的技术方案。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
从业务平台获取业务数据集;
将所述业务数据集输入到业务处理流程中,得到建模参数;其中,所述业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证;所述建模参数包括所述业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数;所述目标机器模型为预设的候选模型训练后性能最优的机器模型;
根据所述建模参数,确定建模工作流。
2.根据权利要求1所述的方法,其特征在于,所述将所述业务数据集输入到业务处理流程中,得到建模参数,包括:
基于所述业务数据集所属的业务类型,对所述业务数据集进行数据预处理,得到业务数据样本集和所述数据预处理的运行参数,所述业务数据样本集包括:训练样本集和验证样本集;
对所述训练样本集中的每条样本数据执行特征工程,得到用于模型训练的特征向量和所述特征工程的运行参数;
利用所述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、所述目标机器模型的属性参数以及所述机器模型构建的运行参数;
利用所述验证样本集对所述目标机器模型进行机器模型验证,得到验证报告和所述机器模型验证的运行参数,所述验证报告是表征所述目标机器模型性能的报告;
其中,所述建模参数包括:所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数以及所述目标机器模型的属性参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述业务数据集所属的业务类型,对所述业务数据集进行数据预处理,得到业务数据样本集和所述数据预处理的运行参数,包括:
根据所述业务数据集所属的业务类型,确定所述业务数据集对应的至少两个预处理操作组合,不同的预处理操作组合包括不同的预处理操作和/或不同数量的预处理操作,每个预处理操作组合包括如下至少一种:数据清洗、缺失值填充、数据对齐、数据融合、数据归一化;
利用每个预处理操作组合分别对所述业务数据集进行预处理,得到每个预处理操作组合对应的用户数据集,每个用户数据集中的每条用户数据具有相同的特征属性;
根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合;
根据所述目标用户数据集中每条用户数据具有的特征属性,对每条用户数据进行数据标注,得到所述业务数据样本集;
将利用所述目标预处理操作集合和所述述业务数据集得到所述业务数据样本集的过程参数确定为所述数据预处理的运行参数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少两个预处理操作组合对应的至少两个用户数据集的质量,确定出目标用户数据集和目标预处理操作集合,包括:
在所述至少两个预处理操作组合对应的至少两个用户数据集的质量中,确定出质量最好的用户数据集;
将质量最好的所述用户数据集确定为目标用户数据集;
将所述目标用户数据集对应的预处理操作组合确定为目标预处理操作集合。
5.根据权利要求2所述的方法,其特征在于,所述利用所述特征向量对预设的至少两种候选模型进行机器模型构建,得到目标机器模型、所述目标机器模型的属性参数以及所述机器模型构建的运行参数,包括:
利用所述特征工程输出的特征向量,对预设的至少两种候选模型执行超参数寻优,确定针对每种候选模型对应的训练效果,所述至少两种候选模型包括:预设的至少一个神经网络模型、经验函数模型;其中,所述经验函数模型是基于历史操作信息确定的模型;
基于训练效果从好到差的顺序对所述至少两种候选模型的训练结果进行排序,将训练后性能最优的候选模型确定为所述目标机器模型,并确定出所述目标机器模型的属性参数;
将利用所述特征向量和所述目标机器模型训练前对应的候选模型得到所述目标机器模型的过程参数确定为所述机器模型构建的运行参数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述建模参数,确定建模工作流,包括:
将所述数据预处理的运行参数、所述特征工程的运行参数、所述机器模型构建的运行参数和所述机器模型验证的运行参数分别填充至预先配置的建模模板中,得到具有所述属性参数的所述目标机器模型的建模工作流。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述从业务平台获取业务数据集之前,所述方法还包括:
获取用户发出的处理指示,所述处理指示用于触发获取所述业务数据集;
在所述根据所述建模参数,确定建模工作流之后,所述方法还包括:
获取用户发出的工作流导出指示;
根据所述工作流导出指示,输出所述建模工作流。
8.一种数据处理装置,其特征在于,包括:获取模块、处理模块和确定模块;
所述获取模块,用于从业务平台获取业务数据集;
所述处理模块,用于将所述业务数据集输入到业务处理流程中,得到建模参数;其中,业务处理流程包括依次执行的数据预处理、特征工程、机器模型构建以及机器模型验证;所述建模参数包括所述业务处理流程中各处理过程的运行参数以及目标机器模型的属性参数;所述目标机器模型为预设的候选模型训练后性能最优的机器模型;
所述确定模块,用于根据所述建模参数,确定建模工作流。
9.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078606.9A CN112200538A (zh) | 2020-10-10 | 2020-10-10 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078606.9A CN112200538A (zh) | 2020-10-10 | 2020-10-10 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112200538A true CN112200538A (zh) | 2021-01-08 |
Family
ID=74014007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011078606.9A Pending CN112200538A (zh) | 2020-10-10 | 2020-10-10 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200538A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949711A (zh) * | 2021-02-26 | 2021-06-11 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN113239199A (zh) * | 2021-05-18 | 2021-08-10 | 重庆邮电大学 | 一种基于多方数据集的信用分类方法 |
CN113486933A (zh) * | 2021-06-22 | 2021-10-08 | 中国联合网络通信集团有限公司 | 模型训练方法、用户身份信息预测方法及装置 |
CN113610113A (zh) * | 2021-07-09 | 2021-11-05 | 中国银行股份有限公司 | 一种数据可视化方法及装置 |
CN114693387A (zh) * | 2021-07-01 | 2022-07-01 | 山东浪潮爱购云链信息科技有限公司 | 一种核心企业的认证方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185904A1 (en) * | 2015-12-29 | 2017-06-29 | 24/7 Customer, Inc. | Method and apparatus for facilitating on-demand building of predictive models |
CN107844634A (zh) * | 2017-09-30 | 2018-03-27 | 平安科技(深圳)有限公司 | 多元通用模型平台建模方法、电子设备及计算机可读存储介质 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
US20200265512A1 (en) * | 2019-02-20 | 2020-08-20 | HSIP, Inc. | System, method and computer program for underwriting and processing of loans using machine learning |
-
2020
- 2020-10-10 CN CN202011078606.9A patent/CN112200538A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185904A1 (en) * | 2015-12-29 | 2017-06-29 | 24/7 Customer, Inc. | Method and apparatus for facilitating on-demand building of predictive models |
CN107844634A (zh) * | 2017-09-30 | 2018-03-27 | 平安科技(深圳)有限公司 | 多元通用模型平台建模方法、电子设备及计算机可读存储介质 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
US20200265512A1 (en) * | 2019-02-20 | 2020-08-20 | HSIP, Inc. | System, method and computer program for underwriting and processing of loans using machine learning |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949711A (zh) * | 2021-02-26 | 2021-06-11 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN112949711B (zh) * | 2021-02-26 | 2023-10-27 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN113239199A (zh) * | 2021-05-18 | 2021-08-10 | 重庆邮电大学 | 一种基于多方数据集的信用分类方法 |
CN113486933A (zh) * | 2021-06-22 | 2021-10-08 | 中国联合网络通信集团有限公司 | 模型训练方法、用户身份信息预测方法及装置 |
CN113486933B (zh) * | 2021-06-22 | 2023-06-27 | 中国联合网络通信集团有限公司 | 模型训练方法、用户身份信息预测方法及装置 |
CN114693387A (zh) * | 2021-07-01 | 2022-07-01 | 山东浪潮爱购云链信息科技有限公司 | 一种核心企业的认证方法及设备 |
CN114693387B (zh) * | 2021-07-01 | 2024-04-30 | 山东浪潮爱购云链信息科技有限公司 | 一种核心企业的认证方法及设备 |
CN113610113A (zh) * | 2021-07-09 | 2021-11-05 | 中国银行股份有限公司 | 一种数据可视化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saelens et al. | A comparison of single-cell trajectory inference methods | |
CN112200538A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN109872015A (zh) | 用于行为数据评估的方法及装置 | |
US20170323316A1 (en) | Method for Documenting a Customer's Journey Using an Online Survey Platform | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
Rio et al. | Websites Quality: Does It Depend on the Application Domain? | |
KR20220035792A (ko) | 데이터 마이닝과 기계학습 방법을 이용한 고객의 요구와 그 제한조건에 따른 부동산 투자 분석 및 추천 시스템 | |
CN117786086A (zh) | 答复文本生成方法、装置、计算机设备和可读存储介质 | |
Zhang et al. | Investigating participants’ attributes for participant estimation in knowledge-intensive crowdsourcing: a fuzzy DEMATEL based approach | |
WO2021033338A1 (ja) | 分析システム、装置、制御方法、及びプログラム | |
Bąska et al. | Identification of advanced data analysis in marketing: A systematic literature review | |
CN112860878A (zh) | 业务数据推荐方法、存储介质及设备 | |
KR20190024502A (ko) | 데이터베이스 상의 기계제품정보를 효율적으로 표시하기 위한 방법 및 시스템 | |
Pane et al. | Mapping log data activity using heuristic miner algorithm in manufacture and logistics company | |
Klosterman | Data Science Projects with Python: A case study approach to gaining valuable insights from real data with machine learning | |
WO2020106950A1 (en) | User-experience development system | |
CN115982391A (zh) | 信息处理方法及装置 | |
CN113377640B (zh) | 解释业务场景下模型的方法、介质、装置和计算设备 | |
CN109951859A (zh) | 无线网络连接推荐方法、装置、电子设备及可读介质 | |
US20150193708A1 (en) | Perspective analyzer | |
Vasantham et al. | Combination of Scrum Lean-UX-based AI UX Design | |
US20200342302A1 (en) | Cognitive forecasting | |
On et al. | An Analysis of the Factors Affecting User Satisfaction in Computational Science and Engineering Platforms: A Case Study of EDISON | |
CN117151247B (zh) | 机器学习任务建模的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |