CN110991474A - 一种机器学习建模平台 - Google Patents

一种机器学习建模平台 Download PDF

Info

Publication number
CN110991474A
CN110991474A CN201910977164.2A CN201910977164A CN110991474A CN 110991474 A CN110991474 A CN 110991474A CN 201910977164 A CN201910977164 A CN 201910977164A CN 110991474 A CN110991474 A CN 110991474A
Authority
CN
China
Prior art keywords
data
model
initial
module
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910977164.2A
Other languages
English (en)
Inventor
齐越
司雨东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weikun Shanghai Technology Service Co Ltd
Original Assignee
Weikun Shanghai Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weikun Shanghai Technology Service Co Ltd filed Critical Weikun Shanghai Technology Service Co Ltd
Priority to CN201910977164.2A priority Critical patent/CN110991474A/zh
Publication of CN110991474A publication Critical patent/CN110991474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明涉及机器学习领域,公开一种机器学习建模平台,该机器学习建模平台通过接收初始建模数据,对初始建模数据进行数据预处理获得有效建模数据;对有效建模数据进行聚类,获得预设数据维度的初始特征数据,利用预设算法对初始特征数据进行重要性评估,并根据重要性评估结果从初始特征数据中选取有效特征数据;将有效特征数据输入至待训练模型进行模型训练,获得目标模型。本发明通过对初始建模数据进行数据预处理,提高了建模数据的数据质量,同时通过对较高质量的建模数据进行聚类然后再进行特征筛选,从而保证了参与模型训练的特征数据的有效性,使得最终训练出的模型精确度较高,提升了建模效率。

Description

一种机器学习建模平台
技术领域
本发明涉及机器学习技术领域,尤其涉及一种机器学习建模平台。
背景技术
随着计算机技术的发展,越来越多的建模平台被开发并应用到不同领域的不同业务场景中,例如电商平台的用户喜好分析场景,电力系统的用电数据分析场景,医学上的基因分析场景等。
由于建模平台的应用领域广泛,为提高建模效率,现有建模平台采用的建模框架(如auto-sklearn)基本都是针对通用场景进行自动化建模,对建模数据并没有进行过多的优化处理,对特征数据也未进行有效的筛选,使得最终训练出的模型精确度较低,导致经常需要对模型进行重新训练,既浪费了计算资源,也降低了模型训练的效率。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种机器学习建模平台,旨在解决现有建模平台训练出的模型精确度较低、浪费计算资源且模型训练效率不高的技术问题。
为实现上述目的,本发明提供了一种机器学习建模平台,所述平台包括:数据预处理模块、特征筛选模块以及模型训练模块;
所述数据预处理模块,用于接收初始建模数据,对所述初始建模数据进行数据预处理获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块;
所述特征筛选模块,用于对接收到的所述有效建模数据进行聚类,获得预设数据维度的初始特征数据;
所述特征筛选模块,还用于利用预设算法对所述初始特征数据进行重要性评估,并根据重要性评估结果从所述初始特征数据中选取有效特征数据;
所述模型训练模块,用于从所述特征筛选模块中获取所述有效特征数据,并将所述有效特征数据输入至待训练模型进行模型训练,获得目标模型。
优选地,所述数据预处理模块,还用于根据预设数据判断指标检测所述初始建模数据中是否存在低质量列数据;若存在,则按预设数据修正策略对所述初始建模数据中的所述低质量列数据进行修正,以获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块。
优选地,所述低质量列数据包括异常数据;所述数据预处理模块,还用于在检测到所述初始建模数据中存在所述异常数据时,确定所述异常数据所属的目标数据列;所述数据预处理模块,还用于获取所述目标数据列对应的数据列均值或数据列最大值,并根据所述数据列均值或所述数据列最大值对所述初始建模数据中的所述异常数据进行数值替换,获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块。
优选地,所述初始建模数据包括若干初始数据列;所述数据预处理模块,还用于计算所述初始建模数据中所述初始数据列对应的列平均值;所述数据预处理模块,还用于根据所述列平均值计算所述初始数据列所包含的数据与所述列平均值之间的乖离值,并检测所述乖离值是否处于预设乖离范围;所述数据预处理模块,还用于在所述乖离值未处于所述预设乖离范围时,判定所述初始建模数据中存在异常数据。
优选地,所述低质量列数据包括缺失数据;所述数据预处理模块,还用于在检测到所述初始建模数据中存在所述缺失数据时,获取所述缺失数据对应的数据类型;所述数据预处理模块,还用于在预设构建的映射关系中查找所述数据类型对应的缺失值填充策略,所述映射关系中储存有数据类型和缺失值填充策略之间的对应关系;所述数据预处理模块,还用于根据查找到的缺失值填充策略对所述初始建模数据中的所述缺失数据进行数值填充获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块。
优选地,所述特征筛选模块,还用于检测所述有效建模数据是否为不平衡数据,若是则对所述有效建模数据进行采样操作以获得待聚类数据,其中,所述采样操作包括上采样操作或下采样操作;所述特征筛选模块,还用于对所述待聚类数据进行聚类,获得所述预设数据维度的初始特征数据。
优选地,所述特征筛选模块,还用于获取所述初始特征数据所包含的待评估特征,根据所述待评估特征构建随机森林,所述随机森林包含若干个决策树;所述特征筛选模块,还用于对所述待评估特征进行遍历,并查询当前遍历到的目标待评估特征在各决策树中所处的目标节点;所述特征筛选模块,还用于分别计算所述目标节点在各决策树中的重要性评分,对各重要性评分进行归一化处理获得目标重要性评分,将所述目标重要性评分作为所述目标待评估特征对应的重要性评估结果。
优选地,所述平台还包括:模型评估模块;所述模型训练模块,还用于将所述目标模型发送至所述模型评估模块;所述模型评估模块,用于接收所述目标模型并获取所述目标模型对应的模型类型,根据所述模型类型从数据库中读取对应的模型验证集;所述模型评估模块,还用于将所述模型验证集中包含的样本输入至所述目标模型中进行样本分类预测,并获得预测结果;所述模型评估模块,还用于根据所述预测结果确定预设评价指标集合中各评价指标对应的指标值,并根据所述指标值获取所述目标模型的模型评价结果。
优选地,所述预设评价指标集合包含精确率和召回率;所述模型评估模块,还用于根据所述精确率和所述召回率,通过预设公式计算所述目标模型的模型评价结果,其中,所述预设公式为:
F1=(2*precision*recall)/(precision+recall)
式中,F1为模型评价结果,precision为精确率,recall为召回率。
优选地,所述模型评估模块,还用于将所述模型评价结果与预设值进行比较,若所述模型评价结果低于所述预设值,则判定所述目标模型不符合预设条件;所述特征筛选模块,还用于在所述目标模型不符合所述预设条件时,利用随机森林算法从所述初始特征数据中重新选取新的有效特征数据,并根据所述新的有效特征数据对所述待训练模型进行模型训练,获得新的目标模型。
本发明机器学习建模平台通过数据预处理模块接收初始建模数据,对初始建模数据进行数据预处理获得有效建模数据;通过特征筛选模块对有效建模数据进行聚类,获得预设数据维度的初始特征数据,利用预设算法对初始特征数据进行重要性评估,并根据重要性评估结果从初始特征数据中选取有效特征数据;通过模型训练模块将有效特征数据输入至待训练模型进行模型训练,获得目标模型。由于是通过对获取到的初始建模数据进行数据预处理,提高了建模数据的数据质量,同时通过对较高质量的建模数据进行聚类然后进行特征筛选,从而能够保证了参与模型训练的特征数据的有效性,使得最终训练出的模型精确度较高,提升了模型的构建效率。
附图说明
图1为本发明机器学习建模平台第一实施例的结构框图;
图2为本发明机器学习建模平台第三实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明机器学习建模平台第一实施例的结构框图。
如图1所示,该机器学习建模平台可以包括:数据预处理模块101、特征筛选模块102以及模型训练模块103。
本领域技术人员可以理解,图1中示出的结构并不构成对机器学习建模平台的限定,可以包括比图示更多或更少的模块,或者组合某些模块,或者不同的模块布置。
本发明实施例提供了一种机器学习建模平台,所述平台包括:数据预处理模块101、特征筛选模块102以及模型训练模块103;
所述数据预处理模块101,用于接收初始建模数据,对所述初始建模数据进行数据预处理获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块102;
需要说明的是,本实施例机器学习建模平台具有数据处理、网络通信以及程序运行功能。所述初始建模数据可以是由建模平台的使用者(用户)根据建模需求提供的数据,这些数据可按照不同的类型或维度以行和列的方式进行保存,例如将这些数据可存放在Excel表格中,用户可直接通过导入Excel文件来上传初始建模数据。本实施例所述初始建模数据包括若干个未经建模平台处理的初始数据列。
应理解的是,本实施例中所述数据预处理包括低质量列数据检测与处理、数据类型判断、数据类型转换以及时间特征处理等。其中,所述数据类型判断可以是判断数据的类型或特点,数据特点一般包括离散型数据,连续性数据,时间类型数据,文本数据等。具体的,本实施例中数据预处理模块101还可自动根据数据类型判断的结果进行数据类型的转换。所谓数据类型转换,即将某一个数据的当前数据类型转换成需要的目标数据类型,例如,离散型数据需要通过Label Encoding(标签编码)或者One-Hot Encoding(独热码)等方式转化成为整数的形式,而对时间特征进行数据类型转换,则是将时间类型的数据变成年、月、日三个列等。
可理解的是,在数据质量评估体系中常用以下几个指标来衡量某一列数据质量的高低,这些指标包括:完整性Completeness、规范性Conformity、一致性Consistency、准确性Accuracy、唯一性Uniqueness、关联性Integration等。本实施例判断低质量列数据的指标主要包括:缺失值占比是否过高、数据是否具有high-cardinality特点、列重要性是否过低以及信息量是否过低等。若某一列数据满足缺失值占比过高、具有high-cardinality特点、列重要性过低或者信息量过低中的任意一项,则可认定其为低质量列数据。
另外,本实施例对低质量列数据的处理大致包括:数据清洗、缺失值填充以及异常值处理等。
其中,所述数据清洗包括:对初始建模数据中相关性较高的特征变量进行随机筛选,只保留其中一个或几个,或对特征数据进行标准化(将不同量纲的数据进行量纲统一),或采用3σ准则(又称拉依达准则)对特征数据内的极值进行平滑处理,或对特征数据内的集中度较大的特征数据进行剔除等。
所述缺失值填充包括:按照预先设定的缺失值填充策略对数值缺失的数值项进行填充,本实施例中填充策略有多种,例如可以使用数据列均值、同列相邻两个数据项的均值,数据列最大值等。本实施例中缺失值填充策略与数据的内在含义和具体的业务场景有较大的关联性。例如充值金额这一类型的数据列,如果缺失,经常是因为没有充值,也就是充值金额为0,这时就需要用0来填充,但是其他类型的数据列,例如年龄,如果缺失,并不代表年龄为0,这时需要用其他方式,例如通过数据列均值来填充。
所述异常值处理包括将数据值明显不同于本列其它数据值或与同列数据均值乖离率过大的数据值定义为异常值,并对这些数值进行修正。
在具体实现中,数据预处理模块101在接收到用户输入的初始建模数据时,将对初始建模数据进行上述数据预处理,从而获得有效的建模数据,并将所述有效建模数据发送至所述特征筛选模块102。
所述特征筛选模块102,用于对接收到的所述有效建模数据进行聚类,获得预设数据维度的初始特征数据;
需要说明的是,为保证参与建模的数据能够训练出较为精确的模型,本实施例中,特征筛选模块102在对有效建模数据进行聚类前,还需要检测所述有效建模数据是否为不平衡数据。
应理解的是,所谓的不平衡数据指的是数据(或数据集)中各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下把多数类样本的比例接近100:1(当然该比例也可是10:1或1000:1,具体数值可自行设定)的数据称为不平衡数据。而针对不平衡数据,一种方法就是生成少数类的样本,即从少数类的样本中进行随机采样来增加新的样本,即上采样;与上采样相反,下采样是从多数类样本中随机选择少量样本,再合并原有少数类样本作为新的样本。另外,判断数据是否平衡可以是计算数据集中正负两种样本的比例,若比例非常悬殊,则认为不平衡。具体的,本实施例中所述特征筛选模块102,还用于检测所述有效建模数据是否为不平衡数据,若是则对所述有效建模数据进行采样操作以获得待聚类数据,其中,所述采样操作包括上采样操作或下采样操作;对所述待聚类数据进行聚类,获得所述预设数据维度的初始特征数据。
应理解的是,本实施例中特征筛选模块102在获取到有效建模数据后还将按照预设数据维度(例如时间维度、产品类别维度、客户维度、金额等)对有效建模数据进行聚类(也称聚合),获得初始特征数据。
具体的,特征筛选模块102可将不同维度的特征以不同的聚类方式进行聚类,如在检测到50岁以上男性在过去3个月购买股权私募共10次,金额共100万,则可以以时间维度“过去三个月”,产品类别维度“股权私募”、客户维度“50岁以上男性”、金额维度“100万”来进行特征聚类,然后根据聚类结果创建特征数据。聚类方式也可以根据实际情况设定,例如可以是通过平均值、极大极小值、增长比例等方式来进行,本实施例对此不作具体限制。
所述特征筛选模块102,还用于利用预设算法对所述初始特征数据进行重要性评估,并根据重要性评估结果从所述初始特征数据中选取有效特征数据;
需要说明的是,所述预设算法可以是随机森林算法、极端梯度提升(eXt remeGradient Boosting,XGBoost)算法等能够用来对特征数据进行重要性评价的算法。所述重要性评估即评价特征数据的重要性,特征重要性越高的特征数据则越“有效,”有效的特征数据是与抽样有关的,最终筛选出的特征即为模型需要的特征数据,可直接用于模型训练。在实际应用中可通过随机森林模型选取的特征重要性最高的几个的特征作为有效特征数据。
考虑到随机森林算法易于实现且对计算资源占用较小,本实施例中所述预设算法优选为随机森林算法。相应的,所述特征筛选模块102,还用于获取所述初始特征数据所包含的待评估特征,根据所述待评估特征构建随机森林,所述随机森林包含若干个决策树;对所述待评估特征进行遍历,并查询当前遍历到的目标待评估特征在各决策树中所处的目标节点;分别计算所述目标节点在各决策树中的重要性评分,对各重要性评分进行归一化处理获得目标重要性评分,将所述目标重要性评分作为所述目标待评估特征对应的重要性评估结果。
本实施例采用随机森林算法计算特征数据的重要性评分的具体步骤可如下所示:
将随机森林中各待评估特征对应的重要性评分用VIM表示,若初始特征数据X1,X2,X3,...,Xc包含中m个待评估特征;
(1)通过公式
Figure BDA0002231343850000071
计算出待评估特征Xj的基尼指数GIm;其中,K表示待评估特征有K个特征类别,pmk表示节点m中类别K所占的比例;
(2)根据待评估特征Xj的基尼指数GIm通过公式
Figure BDA0002231343850000072
计算待评估特征Xj的在节点m的重要性
Figure BDA0002231343850000073
(即节点m所在决策树所处节点位置分枝前后的Gini指数变化量),GIl和GIτ分别表示决策树中节点m分枝后两个新节点的Gini指数;
(3)若待评估特征Xj在决策树i中出现的节点在集合M中,那么待评估特征Xj在第i颗决策树中的重要性评分为
Figure BDA0002231343850000074
(4)若随机森林中存在n棵树,那么待评估特征Xj对应的所有重要性评分为
Figure BDA0002231343850000081
(5)将所有求得的待评估特征Xj所有的重要性评分通过公式
Figure BDA0002231343850000082
进行归一化处理得到目标重要性评分,即待评估特征Xj最终的重要性评估结果。
在具体实现中,特征筛选模块102在对所述初始特征数据进行重要性评估后,即可根据重要性评估结果从初始特征数据中选取有效特征数据,然后利用这些有效特征数据进行模型训练。
所述模型训练模块103,用于从所述特征筛选模块102中获取所述有效特征数据,并将所述有效特征数据输入至待训练模型进行模型训练,获得目标模型。
需要说明的是,所述待训练模型可以是用户在输入初始建模数据时根据需求选择的初始模型(例如分类预测模型、回归预测模型、时间序列预测模型等),具体的模型类别本实施例对此不作限制。
在具体实现中,模型训练模块103可利用特征筛选模块102筛选的有效特征数据对待训练模型进行模型训练,从而获得训练好的目标模型。
本实施例机器学习建模平台通过数据预处理模块接收初始建模数据,对初始建模数据进行数据预处理获得有效建模数据;通过特征筛选模块对有效建模数据进行聚类,获得预设数据维度的初始特征数据,利用预设算法对初始特征数据进行重要性评估,并根据重要性评估结果从初始特征数据中选取有效特征数据;通过模型训练模块将有效特征数据输入至待训练模型进行模型训练,获得目标模型。由于是通过对获取到的初始建模数据进行数据预处理,提高了建模数据的数据质量,同时通过对较高质量的建模数据进行聚类然后进行特征筛选,从而能够保证了参与模型训练的特征数据的有效性,使得最终训练出的模型精确度较高,提升了模型的构建效率。
基于上述本发明机器学习建模平台第一实施例,提出本发明机器学习建模平台第二实施例。
为保证参与建模的数据的有效性,本实施例中所述数据预处理模块101,还用于对初始建模数据中的低质量列数据进行检测与处理。
具体的,所述数据预处理模块101可根据预设数据判断指标检测所述初始建模数据中是否存在低质量列数据;若存在,则按预设数据修正策略对所述初始建模数据中的所述低质量列数据进行修正以获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块102。
其中,所述预设数据判断指标包括但不限于:缺失值占比、数据特点、列数据重要性以及数据信息量等。在实际应用中,这些不同维度的指标均可预先配置一个相应的基准值,以便根据这些基准值判断初始建模数据中是否存在低质量列数据。与上述第一实施例类似,本实施例中所述预设数据修正策略包括:数据清洗、缺失值填充或异常值处理等。
进一步地,为有效检测初始建模数据中是否存在异常数据,所述数据预处理模块101还将计算所述初始建模数据中所述初始数据列对应的列平均值;然后根据所述列平均值计算所述初始数据列所包含的数据与所述列平均值之间的乖离值,并检测所述乖离值是否处于预设乖离范围;在所述乖离值未处于所述预设乖离范围时,判定所述初始建模数据中存在异常数据。
相应地,本实施例中所述数据预处理模块101还用于在检测到所述初始建模数据中存在所述异常数据时,确定所述异常数据所属的目标数据列;获取所述目标数据列对应的数据列均值或数据列最大值,并根据所述数据列均值或所述数据列最大值对所述初始建模数据中的所述异常数据进行数值替换获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块102。
例如,初始建模数据A包括若干初始数据列{a1,a2,a3……an},数据预处理模块101计算每一个初始数据列对应的列平均值,如计算出包含5个年龄数据“15、25、30、35、45”的初始数据列“a1”对应的平均年龄为30岁,然后通过公式“乖离值=(目标数据-列平均值)/列平均值”计算出初始数据列a1对应的5个年龄数据对应的乖离值分别为-0.5、-0.17、0、0.17和0.5,且将计算出的5个乖离值与预设乖离范围[-0.2,0.2]进行匹配后获知初始数据列a1中存在乖离值为-0.5和0.5的异常年龄数据,此时即可判定初始数据列a1为异常数据列,乖离值-0.5和0.5对应的年龄数据“15和45”为该异常数据列中的异常(年龄)数据。此时,数据预处理模块101即可通过初始数据列“a1”的数据列均值“30”或数据列最大值“45”对所述初始建模数据中的异常数据“15和45”进行数值替换得到新的数据列a1“30、25、30、35、30”或“45、25、30、35、45”,从而获得有效建模数据。当然在选择是根据数据列均值还是数据列最大值对异常数据进行替换时,需要结合具体场景,本实施例仅做举例说明,不做具体限定,且本实施例对于乖离值(也称乖离率)的具体计算方式本实施例也不做具体限制。
进一步地,在进行缺失值填充操作时,为提高缺失值填充效率,可预先在数据预处理模块101中建立一个数据类型(例如,充值金额、年龄等)和缺失值填充策略之间的映射关系,使得数据预处理模块101在获取到缺失数据对应的数据类型后,根据该映射关系实现对相应缺失值填充策略的快速获取。
具体的,本实施例中所述数据预处理模块101,还用于在检测到所述初始建模数据中存在所述缺失数据时,获取所述缺失数据对应的数据类型;在预设构建的映射关系中查找所述数据类型对应的缺失值填充策略,所述映射关系中储存有数据类型和缺失值填充策略之间的对应关系;根据查找到的缺失值填充策略对所述初始建模数据中的所述缺失数据进行数值填充,获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块102。
本实施例机器学习建模平台通过对初始建模数据中的低质量列数据进行检测与处理,对初始建模数据中的数据缺失项进行缺失值填充,对初始建模数据中的异常值进行数值替换,使得获得的有效建模数据具有较高的数据质量,有利于提高最终训练出的模型的精确度。
参考图2,图2为本发明机器学习建模平台第三实施例的结构框图。
如图2所示,本实施例中该机器学习建模平台还包括:模型评估模块104,相应地,本实施例中所述模型训练模块103,还用于将所述目标模型发送至所述模型评估模块104;
所述模型评估模块104,用于获取所述目标模型对应的模型类型,根据所述模型类型从数据库中读取对应的模型验证集;
应理解的是,所述模型类型可以是目标模型对应的模型种类,例如支持向量机模型、神经网络模型、决策树模型等,当然每一类模型还可以根据应用场景的不同进一步细分,例如神经网络模型可分为前馈神经网络模型(FFNN)、径向基神经网络模型(RBF)、霍普菲尔网络模型(HN)等。本实施例可预先为不同类型的模型配置相应的验证集,以便具有针对性的对目标模型进行验证,提高模型评估的准确性。
需要说明的是,本实施例中将包含有两种数据(正样本和负样本)的数据集作为验证集。所谓正样本可以理解为与目的相关的数据即正样本,与目的不相关的即负样本,例如对于某一环境下的人脸识别应用来说,教室中学生的人脸则为正样本,教室的墙壁,窗户,身体,衣服等便属于负样本的范畴。
所述模型评估模块104,还用于将所述模型验证集中包含的样本输入至所述目标模型中进行样本分类预测,并获得预测结果;
需要说明的是,对于包含有两种或两种以上类型样本的验证集,对应的模型预测则可以是对样本进行分类的过程。
可以理解的是,分类是指对给定的数据记录预测该记录所属的类别,并且类别空间已知。它包括二分类与多分类,二分类便是指只有两种类别,如垃圾邮件分类中便是二分类问题,因为类别空间只有垃圾邮件和非垃圾邮件这两种,可以称为“负”(negative)与正(positive)两种类别,一般在实际计算中,将其映射到“0”-“1”对象(class)中;而多分类则指类别数超过两种。
在具体实现中,模型评估模块104,在获取到模型验证集后,还可将模型验证集中包含的样本输入至目标模型中进行样本分类预测,然后获得预测结果。
所述模型评估模块104,还用于根据所述预测结果确定预设评价指标集合中各评价指标对应的指标值,并根据所述指标值获取所述目标模型的模型评价结果。
需要说明的是,本实施例中预设评价指标集合中包括但不限于:准确率(Accuracy)、平均准确率(Average Per-class Accuracy)、对数损失函数(Log-loss)、精确率-召回率(Precision-Recall)、F1分数(F1-score,用来衡量二分类模型精确度的一种指标)、接收者操作特征(Receiver Operating Characteristic,ROC)曲线以及AUC(AreaUnder Curve,被定义为ROC曲线下与坐标轴围成的面积)等评价指标。具体选择哪一种或几种指标来对目标模型进行评价,可根据实际情况而定,本实施例对此不作具体限制。
在具体实现中,模型评估模块在将验证集中包含的样本输入至待评估模型中进行分类预测后,即可根据预测结果来计算相应的指标,即根据模型对正负样本的识别结果来计算不同维度的评价指标。例如,根据被正确判断为正样本的样本在实际正样本中所占的比率来获得召回率、根据所有被正确分类的样本占总样本的比例来获得准确率,然后根据精确率和召回率通过公式“F1=(2*precision*recall)/(precision+recall),式中precision为精确率,recall为召回率”来计算模型对应的F1值(模型评价结果)等。
进一步地,为保证训练出的模型具有较高的实用性,本实施例中所述模型评估模块104,还用于将所述模型评价结果与预设值进行比较,若所述模型评价结果低于所述预设值,则判定所述目标模型不符合预设条件;在所述目标模型不符合所述预设条件时,利用随机森林算法从所述初始特征数据中重新选取新的有效特征数据,并根据所述新的有效特征数据对所述待训练模型进行模型训练,获得新的目标模型。其中,所述预设条件即模型能够投入实际场景进行使用。
应理解的是,当模型在预测集上的预测结果不佳时,可能是在训练过程中的特征选择存在问题,此时就需要对参与模型训练的初始特征数据进行排查,从初始特征数据中剔除掉一些存在问题的特征数据之后,再基于新的特征数据重新对待训练模型的进行训练,然后使用重新训练好的模型进行预测,最再根据预测结果来进行模型评估,直至模型评价结果高于预设值,即目标模型不符合预设条件。
本实施例通过模型评估模块获取目标模型对应的模型类型,根据模型类型从数据库中读取对应的模型验证集;将模型验证集中包含的样本输入至目标模型中进行样本分类预测,并获得预测结果;根据预测结果确定预设评价指标集合中各评价指标对应的指标值,并根据指标值获取目标模型的模型评价结果,能够有效的对训练出的模型进行评估,为用户在进行模型选择时提供了有效的参考。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种机器学习建模平台,其特征在于,所述平台包括:数据预处理模块、特征筛选模块以及模型训练模块;
所述数据预处理模块,用于接收初始建模数据,对所述初始建模数据进行数据预处理获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块;
所述特征筛选模块,用于对接收到的所述有效建模数据进行聚类,获得预设数据维度的初始特征数据;
所述特征筛选模块,还用于利用预设算法对所述初始特征数据进行重要性评估,并根据重要性评估结果从所述初始特征数据中选取有效特征数据;
所述模型训练模块,用于从所述特征筛选模块中获取所述有效特征数据,并将所述有效特征数据输入至待训练模型进行模型训练,获得目标模型。
2.如权利要求1所述的平台,其特征在于,所述数据预处理模块,还用于根据预设数据判断指标检测所述初始建模数据中是否存在低质量列数据;若存在,则按预设数据修正策略对所述初始建模数据中的所述低质量列数据进行修正以获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块。
3.如权利要求2所述的平台,其特征在于,所述低质量列数据包括异常数据;
所述数据预处理模块,还用于在检测到所述初始建模数据中存在所述异常数据时,确定所述异常数据所属的目标数据列;
所述数据预处理模块,还用于获取所述目标数据列对应的数据列均值或数据列最大值,并根据所述数据列均值或所述数据列最大值对所述初始建模数据中的所述异常数据进行数值替换获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块。
4.如权利要求3所述的平台,其特征在于,所述初始建模数据包括若干初始数据列;
所述数据预处理模块,还用于计算所述初始建模数据中所述初始数据列对应的列平均值;
所述数据预处理模块,还用于根据所述列平均值计算所述初始数据列所包含的数据与所述列平均值之间的乖离值,并检测所述乖离值是否处于预设乖离范围;
所述数据预处理模块,还用于在所述乖离值未处于所述预设乖离范围时,判定所述初始建模数据中存在异常数据。
5.如权利要求2所述的平台,其特征在于,所述低质量列数据包括缺失数据;
所述数据预处理模块,还用于在检测到所述初始建模数据中存在所述缺失数据时,获取所述缺失数据对应的数据类型;
所述数据预处理模块,还用于在预设构建的映射关系中查找所述数据类型对应的缺失值填充策略,所述映射关系中储存有数据类型和缺失值填充策略之间的对应关系;
所述数据预处理模块,还用于根据查找到的缺失值填充策略对所述初始建模数据中的所述缺失数据进行数值填充获得有效建模数据,并将所述有效建模数据发送至所述特征筛选模块。
6.如权利要求1所述的平台,其特征在于,所述特征筛选模块,还用于检测所述有效建模数据是否为不平衡数据,若是则对所述有效建模数据进行采样操作以获得待聚类数据,其中,所述采样操作包括上采样操作或下采样操作;
所述特征筛选模块,还用于对所述待聚类数据进行聚类,获得所述预设数据维度的初始特征数据。
7.如权利要求1所述的平台,其特征在于,所述特征筛选模块,还用于获取所述初始特征数据所包含的待评估特征,根据所述待评估特征构建随机森林,所述随机森林包含若干个决策树;
所述特征筛选模块,还用于对所述待评估特征进行遍历,并查询当前遍历到的目标待评估特征在各决策树中所处的目标节点;
所述特征筛选模块,还用于分别计算所述目标节点在各决策树中的重要性评分,对各重要性评分进行归一化处理获得目标重要性评分,将所述目标重要性评分作为所述目标待评估特征对应的重要性评估结果。
8.如权利要求1至7任一项所述的平台,其特征在于,所述平台还包括:模型评估模块;
所述模型训练模块,还用于将所述目标模型发送至所述模型评估模块;
所述模型评估模块,用于接收所述目标模型并获取所述目标模型对应的模型类型,根据所述模型类型从数据库中读取对应的模型验证集;
所述模型评估模块,还用于将所述模型验证集中包含的样本输入至所述目标模型中进行样本分类预测,并获得预测结果;
所述模型评估模块,还用于根据所述预测结果确定预设评价指标集合中各评价指标对应的指标值,并根据所述指标值获取所述目标模型的模型评价结果。
9.如权利要求8所述的平台,其特征在于,所述预设评价指标集合包含精确率和召回率;
所述模型评估模块,还用于根据所述精确率和所述召回率,通过预设公式计算所述目标模型的模型评价结果,
其中,所述预设公式为:
F1=(2*precision*recall)/(precision+recall)
式中,F1为模型评价结果,precision为精确率,recall为召回率。
10.如权利要求9所述的平台,其特征在于,所述模型评估模块,还用于将所述模型评价结果与预设值进行比较,若所述模型评价结果低于所述预设值,则判定所述目标模型不符合预设条件;
所述特征筛选模块,还用于在所述目标模型不符合所述预设条件时,利用随机森林算法从所述初始特征数据中重新选取新的有效特征数据,并根据所述新的有效特征数据对所述待训练模型进行模型训练,获得新的目标模型。
CN201910977164.2A 2019-10-12 2019-10-12 一种机器学习建模平台 Pending CN110991474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910977164.2A CN110991474A (zh) 2019-10-12 2019-10-12 一种机器学习建模平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910977164.2A CN110991474A (zh) 2019-10-12 2019-10-12 一种机器学习建模平台

Publications (1)

Publication Number Publication Date
CN110991474A true CN110991474A (zh) 2020-04-10

Family

ID=70081950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910977164.2A Pending CN110991474A (zh) 2019-10-12 2019-10-12 一种机器学习建模平台

Country Status (1)

Country Link
CN (1) CN110991474A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738610A (zh) * 2020-06-29 2020-10-02 金电联行(北京)信息技术有限公司 一种基于舆情数据的企业流失性风险预警系统和方法
CN111860630A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 基于特征重要性的模型建立方法及系统
CN112070239A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 基于用户数据建模的分析方法、系统、介质及设备
CN112613983A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备
CN112684130A (zh) * 2020-11-23 2021-04-20 深圳市水务科技有限公司 流域水质预测方法和装置、计算机可读存储介质
CN113392104A (zh) * 2021-05-19 2021-09-14 江苏星月测绘科技股份有限公司 一种基于cim的海量数据分析方法及系统
CN114095268A (zh) * 2021-11-26 2022-02-25 河北师范大学 用于网络入侵检测的方法、终端及存储介质
CN114676167A (zh) * 2022-05-27 2022-06-28 太平金融科技服务(上海)有限公司深圳分公司 用户存留模型的训练方法、用户存留预测方法和装置
CN115328062A (zh) * 2022-08-31 2022-11-11 济南永信新材料科技有限公司 水刺布生产线智能控制系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738610A (zh) * 2020-06-29 2020-10-02 金电联行(北京)信息技术有限公司 一种基于舆情数据的企业流失性风险预警系统和方法
CN111860630B (zh) * 2020-07-10 2023-10-13 深圳无域科技技术有限公司 基于特征重要性的模型建立方法及系统
CN111860630A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 基于特征重要性的模型建立方法及系统
CN112070239A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 基于用户数据建模的分析方法、系统、介质及设备
CN112684130A (zh) * 2020-11-23 2021-04-20 深圳市水务科技有限公司 流域水质预测方法和装置、计算机可读存储介质
CN112613983A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备
CN112613983B (zh) * 2020-12-25 2023-11-21 北京知因智慧科技有限公司 一种机器建模过程中的特征筛选方法、装置及电子设备
CN113392104B (zh) * 2021-05-19 2021-12-28 江苏星月测绘科技股份有限公司 一种基于cim的海量数据分析方法及系统
CN113392104A (zh) * 2021-05-19 2021-09-14 江苏星月测绘科技股份有限公司 一种基于cim的海量数据分析方法及系统
CN114095268A (zh) * 2021-11-26 2022-02-25 河北师范大学 用于网络入侵检测的方法、终端及存储介质
CN114676167A (zh) * 2022-05-27 2022-06-28 太平金融科技服务(上海)有限公司深圳分公司 用户存留模型的训练方法、用户存留预测方法和装置
CN114676167B (zh) * 2022-05-27 2022-08-30 太平金融科技服务(上海)有限公司深圳分公司 用户存留模型的训练方法、用户存留预测方法和装置
CN115328062A (zh) * 2022-08-31 2022-11-11 济南永信新材料科技有限公司 水刺布生产线智能控制系统

Similar Documents

Publication Publication Date Title
CN110991474A (zh) 一种机器学习建模平台
CN109598095B (zh) 评分卡模型的建立方法、装置、计算机设备和存储介质
US10685044B2 (en) Identification and management system for log entries
CN111291816B (zh) 针对用户分类模型进行特征处理的方法及装置
CN107563757B (zh) 数据风险识别的方法及装置
CN107633030B (zh) 基于数据模型的信用评估方法及装置
CN111368147B (zh) 图特征处理的方法及装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN112559900B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN110222733B (zh) 一种高精度的多阶神经网络分类方法及系统
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、系统、介质及设备
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN107203772B (zh) 一种用户类型识别方法及装置
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN113177643A (zh) 一种基于大数据的自动建模系统
CN111222994A (zh) 客户风险评估方法、装置、介质和电子设备
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114741592A (zh) 一种基于多模型融合的产品推荐方法、设备及介质
CN113239126A (zh) 一种基于bor方法的业务活动信息标准化方案
CN111931035B (zh) 业务推荐方法、装置及设备
CN114255125A (zh) 交易风险判断方法、装置、存储介质以及电子装置
CN113554501A (zh) 基于大数据的数字金融业务策略推送方法及系统
CN113988890A (zh) 一种跨境电商企业评估方法、装置及设备
CN116993139A (zh) 风险企业识别方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination