CN113177643A - 一种基于大数据的自动建模系统 - Google Patents
一种基于大数据的自动建模系统 Download PDFInfo
- Publication number
- CN113177643A CN113177643A CN202110564484.2A CN202110564484A CN113177643A CN 113177643 A CN113177643 A CN 113177643A CN 202110564484 A CN202110564484 A CN 202110564484A CN 113177643 A CN113177643 A CN 113177643A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- sample
- model
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 67
- 238000013507 mapping Methods 0.000 claims abstract description 42
- 238000005070 sampling Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000000638 solvent extraction Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 230000000694 effects Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于大数据的自动建模系统,包括:数据读取模块、数据预处理模块、特征分析模块、模型训练模块,数据预处理模块包括:样本抽样模块、样本分区模块、特征筛选模块、缺失值填充模块和特征值映射模块;模型训练模块对于训练集数据进行训练,得到训练集、验证集的模型预测结果。本发明提出的自动建模系统,适应多场景建模流程,协助业务人员经过简单操作即可完成建模,支持大数据计算处理,释放人力,提升效率。
Description
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种基于大数据的自动建模系统。
背景技术
传统的人工建模方式从数据提取、模型算法选择、模型参数配置、后续调优上线都需要专业的模型人员和开发人员投入大量人力时间完成。在面对高维特征和海量数据的时候需要进行数据采样和特征筛选,降低了数据的使用,并且建模的成本十分高昂。
发明内容
针对现有技术的问题,本发明提出一种基于大数据的自动建模系统,包括:数据读取模块、数据预处理模块、特征分析模块和模型训练模块,
数据读取模块从大数据集群读取数据,读取的数据为一张宽表,包含特征列,并且对数据中的索引信息ID列、标签列和日期列进行标记;
数据预处理模块对读取的数据进行处理,数据预处理模块包括:样本抽样模块、样本分区模块、特征筛选模块、缺失值填充模块和特征值映射模块,其中,样本抽样模块根据设定的采样比率对样本进行随机抽样或分层抽样,样本分区模块按照设定的样本划分比率将样本划分为训练集和验证集,特征筛选模块对验证集和训练集中的样本进行筛选以选出入模特征,缺失值填充模块对数据中缺失值进行填充,特征值映射模块在训练集上进行特征值映射;
模型训练模块对于训练集数据进行训练,得到训练集、验证集的模型预测结果。
可选地,所述样本抽样模块根据设定的采样比率对样本进行随机抽样、分层抽样;特征分析模块结合样本标签、时间,统计每一维特征的KS、IV和PSI指标。
可选地,模型训练模块还进行噪声去除:在模型训练之前,采用孤立森林算法去除异常样本。
可选地,数据预处理模块的操作还包括:基于购物篮FP-Growth算法对输入数据进行数据去重和格式转换,其中输入数据为用户的商品购买情况,数据去重使得用户与同一商品的记录只出现过一次。
可选地,数据预处理模块的操作还包括:基于协同过滤ALS算法对输入数据进行数据去重和信息映射,其中输入数据为用户与商品的交互行为,数据去重使得用户与商品的交互行为只出现过一次,信息映射为将用户与商品映射为标签索引。
可选地,模型评估模块的输出的用于评估模型效果的指标包括:准确率、召回率、精准度、基尼系数、F1统计量、混淆矩阵、ROC曲线图、AUC、KS曲线图、提升度曲线图、召回率曲线图和响应率曲线图;MSE、RMSE、R2、调整R2、SMAPE、EVS、Median absolute error、MAE、特征的残差图、预测值与实际值对比图、分位数-分位数图和预测值残差分布图;簇内的点到中心点的距离平方和;正确率、混淆矩阵、准确率和召回率。
可选地,数据预处理模块还包括样本配比模块和概率校正模块,样本配比模块能够对负样本进行抽样,调整正样本在总样本中的占比,概率校正模块对建模结果概率进行调整,使用先验概率进行校正。
可选地,所述特征映射模块将特征不同的取值映射为与标签有关信息,所述特征映射模块对特征中每一种取值的样本进行统计,计算正标签样本量与总体样本中正标签样本量的比值B,计算负标签样本量与总体样本中负标签样本量的比值G,取ln(B/G)为该种取值的映射值。
可选地,所述特征映射模块对特征进行映射后入模,特征交叉时将映射值相乘。
可选地,所述的自动建模系统还包括:模型上线模块,进行实时预测和对已上线模型的管理。
本发明提的自动建模系统,适应多场景建模流程,协助业务人员经过简单操作即可完成建模,支持大数据计算处理,释放人力,提升效率。
本发明的模型算法可以分为传统机器学习与深度学习两部分。传统机器学习使用Spark作为计算引擎,通过RDD(Resilient Distributed Datasets,弹性分布式数据集)分布式内存设计,可以根据数据集大小分配计算资源,能轻松处理海量数据并构建模型,如逻辑回归、随机森林、XGBoost、LightGBM等。深度学习使用TensorFlow框架,使用大规模数据分批次更新模型结构,完成模型训练,如FM、DeepFM等。两部分最后都调用Python脚本进行结果的评估。
本发明对各领域的共性问题的解决方案在信贷领域、推荐营销领域已经得到了使用,可以比未使用解决方案效果上有5%的提升。本发明在信贷领域可以有效帮助相关人员自动建模,将模型开发平均用时减少80%。本发明在推荐风控领域提供的解决方案可以在类别型占40%的数据上AUC有3个点的增量。
附图说明
为了更容易理解本发明,将通过参照附图中示出的具体实施方式更详细地描述本发明。这些附图只描绘了本发明的典型实施方式,不应认为对本发明保护范围的限制。
图1为本发明的系统的工作流程图。
图2为本发明的系统的一个实施方式的示意图。
具体实施方式
下面参照附图描述本发明的实施方式,其中相同的部件用相同的附图标记表示。在不冲突的情况下,下述的实施例及实施例中的技术特征可以相互组合。
本发明的系统为数据量大、处理操作繁多的信贷风控领域提供了标准化的解决方案。本发明的系统能够对模型全生命周期管理,包括:数据读取模块、数据预处理模块、特征分析模块、模型训练模块、模型评估模块、模型上线模块,减少大量流程中人工操作出错的可能。还提供各模块的流程日志,方便业务人员了解进度。
如图1所示,本发明的系统的工作原理包括:
1)通过数据读取节点从大数据集群读取数据;
2)根据采样比率(可以由用户设定)对样本进行随机抽样或分层抽样;
3)按照样本划分比率(可以由用户设定)将样本划分训练集和验证集;
4)对训练集全部特征进行特征类型分析,划分出类别型特征和数值型特征,进行特征分析;
5)使用训练集特征分析的结果对训练集特征和验证集特征进行筛选;
6)使用训练集统计值或固定值对训练集和验证集进行缺失值填充;
7)在训练集上进行特征值映射,使用同一映射字典处理验证集;
8)对于训练集数据使用不同的模型进行训练,得到训练集、验证集的模型预测结果;
9)使用验证集评估训练完的模型效果,并输出模型报告;
10)在测试集上重复步骤5-7同验证集的操作,将处理好的测试数据输入模型,得到模型的预测结果。
11)根据模型评估结果,选择数据集上最优的模型进行模型上线,对线上数据进行实时预测
12)如果模型执行一段时间后效果衰减,可进行下线操作,并将最新数据重复1-11)步骤得到更新模型
数据读取模块从大数据集群读取数据,以备数据训练、测试所用。读取的数据为一张宽表,包含各个特征列,并通过对输入数据中每一列的类型判断,结合用户的输入,对数据中的索引信息ID列(用于区分样本、而不用于训练模型)、标签列和日期列进行识别,以便在特征分析模块使用。所述表可以是多种文件格式和多类型数据库,包括txt、csv等常用格式文件上传或对接常用数据库,包括Greenplum、MySQL等。
数据预处理模块对数据读取模块读取的数据进行处理,提供入模的数据。数据预处理模块包括:样本抽样模块、样本分区模块、特征筛选模块、缺失值填充模块和特征值映射模块。
样本抽样模块根据设定的采样比率对样本进行随机抽样或分层抽样。包括在数据库中进行随机抽样和分层抽样,以减少建模样本的规模,如此可以降低成本,提高后续模型训练的速度。另外,针对标签不平衡数据集,该模块还提供了用户课自定义正负标签比例的采样方法,以提供后续模型训练效果。在一个实施实例中,使用自定义正负标签比例采样方法,将正负标签1:100的数据集采样为1:10,避免后续模型有偏学习。
样本分区模块按照设定的样本划分比率将样本划分为训练集和验证集。验证集可以用于调整模型的超参数,并用于对同分布训练集构建出模型的能力进行初步评估。在一个实施例中,使用随机按输入比例划分或按时间列进行先后划分。
特征分析模块用于对数据各特征进行统计分析。本模块可用于数据流各个特征宽表的分析,但权衡本次流程中所分析数据对模型的影响和执行时间,选择在样本分区和特征筛选之间进行特征分析。特别地,特征分析模块根据每一维特征唯一取值个数与总样本数的比例,和特征的取值类型,自动地判断该特征是连续型特征、类别型特征、字符型特征或是日期型特征。对数值连续型特征、数值类别型特征和字符型特征(后两种下文统称类别型)进行不同指标的统计,并可以可视化以方便业务人员理解数据分布。具体地,所述统计分析包括:对数值连续型特征统计空值率、零值率、最大值、最小值、均值、中位数、1/4位点、3/4位点、标准差、方差、偏度、峰度,并绘制特征分布的直方图、箱线图、密度曲线图。对类别型特征统计别数、空值率、占比最高类别、占比最低类别、特征分布的饼状图,以方便用户对单特征进行分析。特别地,针对信贷风控领域的应用,特征分析模块结合样本标签,统计每一维特征的KS(Kolmogorov Smirnov)和IV(Information Value,信息值)指标。这两项指标都是信贷风控建模领域所关注的必要指标,其中KS反映了该特征对正负样本的区分程度,KS越大则区分度越好;IV指标反映了该特征与标签之间的相关性,IV越大则该特征与标签之间关系越大。另外,本发明还会统计每一维特征PSI(Population Stability Index,群体稳定度)指标,该指标同样是信贷风控建模领域在特征筛选中的常用指标,其反映了特征的稳定性,PSI越大则特征约不稳定,一般PSI大于0.2的特征在建模过程中会被删去。
特征筛选模块对验证集和训练集中的样本进行筛选,选出入模特征。具体包括:按照特征列的数据类型分别统计数值型特征和类别型特征列表,然后对特征列表进行筛选。优选地,本发明除了通过交互让业务人员可以使用特征分析结果人工筛选,提供特征列表外,还可以按照特征分析模块提供的缺失率、离散型特征取值水平、特征KS值、IV值和PSI值进行筛选,设定阈值可以快速进行筛选,比如类别型特征取值水平超过了设定数量(如100),或变量缺失率达到了设定值(如0.8)时认为特征无效,将其删除。
缺失值填充模块对数据中缺失值进行处理,保证不接收缺失值的模型也能正常运行,使用训练集统计值或固定值对训练集和验证集进行缺失值填充。对于数值型特征可选择使用均值、中位数和用户指定值三种方式进行填充,类别型变量则使用用户指定值或默认值进行填充。
特征值映射模块在训练集上进行特征值映射,使用同一映射字典处理验证集。可选地,特征值映射模块对类别型特征进行编码。考虑到OneHotEncoder(独特编码)对于平台大量的树类方法增加了树的深度,所以优选地使用LabelEncoder(标签编码)将类别型特征映射成从0开始的序数值。对于取值数量较多的类别型变量,可以使用类WOE(Weight ofEvidence证据权重)衍生的方法将其转换为连续型变量。
优选地,针对信贷风控的二分类,数据预处理模块还可以包括样本配比模块和概率校正模块。在二分类问题中,实际场景中正样本的比例往往较少,样本配比模块能够对负样本进行抽样,调整正样本在总样本中的占比,减少样本比例不平衡可能对风控模型造成的影响。概率校正模块对建模结果概率进行调整,使用先验概率进行校正,样本经过抽样,为了保证评估指标提升度、响应率不受到正负样本比例变化的影响,使用先验概率进行校正,并在模型训练的结果中增加校正后的预测概率。在步骤3)样本分区前会增加样本配比的步骤,在步骤8)、10)的模型预测结果中会增加概率校正步骤,得到预测概率和校正后的预测概率。
再次参照图2,本发明的系统包括模型训练模块。数据预处理后得到入模数据,模型训练模块即可对于训练集数据使用不同的模型进行训练,得到训练集、验证集的模型预测结果。
模型训练模块能够针对二分类、回归、聚类、多分类等不同问题对数据进行建模,针对二分类问题,模型训练模块采用Logistic Regression(逻辑回归)、GBDT(GradientBoosting Decision Tree,梯度提升决策树)、XGBoost(eXtreme Gradient Boosting,极端梯度提升)、LightGBM(Light Gradient Boosting Machine,轻量梯度提升机)算法。针对回归问题,模型训练模块采用Linear Regression(线性回归)、GBDT、XGBoost、LightGBM算法。针对聚类问题,模型训练模块采用KMeans(K均值)算法。针对多分类问题,模型训练模块采用XGBoost、LightGBM算法。上述算法的建模可根据需要配置算法参数。
优选地,在模型训练模块中,针对二分类和回归场景,本发明还提供一种一键自动建模的功能。该功能主要面向信贷风控领域中的业务人员,他们对建模算法不了解,但在业务工作中却常常有需要快速建模以判断数据效果的需求。因此,一键建模的功能使得用户只需要上传数据,并点击建模按钮,本发明中的算法将自动进行特征分析和筛选,并针对数据场景选择3种常用模型算法GBDT、XGBoost、LightGBM,分别在参数空间中自动寻找最优模型参数,最终经过比较自动输出最优模型并进行效果评估,让业务人员能够方便快捷的得到该数据的建模效果。特别地,在参数空间搜索的过程中,本发明结合融360模型组多年来在信贷风控领域的技术积累,内置了多组在信贷风控场景下比较有效的经验参数,从而能够显著的提升模型参数寻优阶段的效率和效果。
在模型训练后,模型训练模块输出训练集、验证集上模型的预测值与实际值组成的训练结果。对聚类外的其他算法提供模型的特征重要性,以方便业务人员理解模型,也可以使用关键特征进行后续分析。
另外,在测试集上重复特征筛选、特征分析、缺失值填充、特征值映射的操作,将处理好的测试数据输入模型训练模块中,得到模型的预测结果。
再次参照图2,本发明的系统包括模型评估模块。模型评估模块用于计算模型的评估指标反映模型的效果。模型评估模块使用验证集预测结果评估训练完的模型效果,并输出模型报告。
针对二分类问题,模型评估模块输出如下指标:准确率、召回率、精准度、基尼系数、F1统计量、混淆矩阵、ROC(Receiver Operating Characteristic,接受者操作特性曲线)曲线图及AUC(Area Under Curve,ROC曲线下方的面积大小)、KS曲线图、提升度曲线图、召回率曲线图、响应率曲线图。针对回归问题,模型评估模块输出如下指标:MSE(MeanSquare Error,均方误差)、RMSE(Root Mean Square Error,均方根误差)、R2(确定系数)、调整R2、SMAPE(Symmetric Mean Absolute Percentage Error,对称平均绝对误差比例)、EVS(Explained Variance Score,解释方差分数)、Median absolute error(中位数绝对误差)、MAE(Mean Absolute Error,平均绝对值误差),各特征的残差图、预测值与实际值对比图、分位数-分位数图、预测值残差分布图。针对聚类问题,本发明支持用户尝试多个聚类类别数,系统根据用户输入的类别数范围运行多次聚类算法并生成相应结果。模型评估模块输出如下指标:簇内的点到中心点的距离平方和,模型划分的各类数据的二维投影图、各特征的分布图及体现簇内平方和随类别数变化的手肘图。针对多分类问题,模型评估模块输出如下指标:正确率、混淆矩阵、各类别的准确率、召回率作为评估指标。上述评估指标中,除了常用的分析指标外,本发明还加入了信贷风控领域常用的分析指标,如KS曲线图等。
优选地,在二分类问题中,特征分析模块提供KS、IV指标(用于观察特征的区分度),PSI(观察特征的稳定性)。供建模前进行特征筛选,以降低建模复杂度。在传统领域中通常会使用准确率,召回率,F1,AUC等作为模型评估指标,在信贷领域则会以KS、lift指标来评估模型整体效果。现有的通用建模平台提供的评估指标多为准确率、召回率、F1、AUC等,无法满足信贷风控领域用户对模型评估的要求,本发明采用的指标为业务人员对比挑选模型提供直观标准。
在测试时,再次使用与数据预处理中的特征筛选、缺失值填充、特征值映射的功能模块相同的功能进行测试数据的处理,使用模型进行预测,得到测试数据上模型的预测值与实际值组成的训练结果,并以此复用模型评估,得到测试的评估效果。
在模型上线模块中,用户可以根据模型评估结果,选择最优的模型进行上线操作。对于已上线的模型,用户可以通过API接口调用的方式来请求,本发明会返回相应的模型结果,可以满足业务上实时预测的需求。同时,对已上线的模型还可以进行更新、下线等操作,以确保线上模型的有效性。
优选地,本发明系统的模型训练模块中还包括噪声去除功能,解决数据中噪声影响模型训练的问题。噪声去除模块采用孤立森林算法,对数据预处理后的待入模数据进行处理。孤立森林算法的原理是异常数据只占很少量且和正常数据差别很大,可以有效发现其中的异常样本。噪声去除模块的输入包含各特征列的宽表,输出结果为异常的概率,为此可以在模型训练前先一步除掉部分异常值。
在一个实施方式中,针对推荐营销领域的庞大数据量,本发明进行了优化改进。
推荐营销领域中数据量大,数据认识薄弱。本发明的系统采用了关联规则挖掘的购物篮FP-Growth算法。输入数据为用户的商品购买情况,模型训练模块使用购物篮算法对输入数据进行训练;在模型评估模块,平台输出频繁共同出现商品间的规则,并提供前项支持度、后项支持度、支持度、置信度、提升度、平衡度、确信度做为评估指标,用来挖掘出有价值的商品相关关系。数据预处理5)-7)步骤由于输入变化而省略,替换为数据去重和格式转换的功能,前者是对用户和商品组合的去重,保证该用户购买统一商品的记录只出现过一次,后者是将购买情况按照用户进行组织,得到用户的交易记录,方便后续模型的处理。FP-Growth算法会挖掘交易记录中的频繁规则并输出。模型评估会利用模型频繁规则中的各商品集的出现的频度计算上述输出评估指标。
另外,推荐营销领域中交互数据繁杂,却需要快速得到推荐结果的问题,本发明的系统采用了根据用户商品交互矩阵进行推荐的协同过滤ALS(Alternating Least Square,交替最小二乘法),输入数据为用户与商品的交互行为,如评分、投票、购买等,平台会提供RMSE、MAE评估结果,并根据业务人员需求为用户推荐前K个商品,或为物品推荐前K个用户。数据预处理提供数据去重和信息映射的功能,数据去重同上,在步骤5)前执行,保证协同过滤输入数据中该用户与商品的交互行为只出现过一次,信息映射为将用户与商品映射为标签索引,便于模型使用,在步骤7)前执行;在模型训练模块,协同过滤ALS算法会使用用户与商品的交互行为矩阵计算各个用户与商品的向量;在模型评估模块,模型评估会根据各个用户与商品的向量补全交互矩阵,计算RMSE、MAE评估结果,并在补全矩阵的基础上,选取该用户前K高分的商品或该商品前K高分的用户进行推荐。
在一个实施方式中,针对推荐营销领域等二分类场景中中存在大量独热编码,数据稀疏的问题,本发明的系统提供了FM(Factorization Machine,因子分解机)模型和DeepFM深度因子分解机模型算法,供用户在建模步骤使用。模型算法的输入支持已处理好的宽表,也支持以领域中常用的存储形式:用户表、物品表、用户物品交互表作为输入,输出为对用户与物品交互的预测概率,并按二分类的指标准确率、AUC、召回率进行评估。
优选地,在因子分解机模型数据预处理流程中,除了进行特征筛选、缺失值填充等操作外,本发明还对特征值映射流程作出了额外的改进。特征值映射支持对类别型特征的编码,在营销领域中,对特征值进行OneHotEncoder(独特编码)是最为常见的。
本发明在营销领域中还结合金融风控领域的实践经验,使用类WOE的编码形式,根据特征取值和标签之间的关系,将特征不同的取值映射为与标签有关信息。具体地,对于类别型特征,本发明将对该特征中每一种取值的样本进行统计,计算其正标签样本量与总体样本中正标签样本量的比值B,计算其负标签样本量与总体样本中负标签样本量的比值G,然后取ln(B/G)为该种取值的映射值,具体映射关系如下表1所示。
对于连续型特征,本发明对特征值从小到大进行排序后,对特征值进行等频分箱,然后将属于该箱范围内的特征值映射为每一箱的样本计算得到的ln(B/G)值,具体映射关系如下表2所示。
特别地,映射过后的特征值有其业务含义,即值越大,则该特征值对应的样本为正样本的概率越高。同时,在后续FM、DeepFM算法进行特征交叉时将映射值相乘,也将保留其业务含义,如:将学历和月收入特征进行交叉,则学历为“高中及以下”且月收入在(-inf,1000]区间内的用户乘积最大,即同时具有以上两种特征属性的用户为正标签的概率更高。
表格1类别型特征映射示例
表格2连续型特征映射示例
具体同如前所述的步骤1-12),值得注意的是在步骤1)数据读取数据时,也就是数据读取模块读取数据(用户表、物品表、用户物品交互表)后,需要进行样本拼接,将存储的这三张表进行拼接,得到规范的宽表格式。在步骤中7)中,特征值映射使用本发明类WOE的方法。
实验证明,本发明中特征映射的方法大大提高了营销领域数据的模型效果。其是一种风控领域常用的有监督编码方式,将预测类别的集中度的属性作为编码的数值,具有鲁棒性强、较好地处理离群点;较好地处理缺失值;与独热编码相比,类WOE生成的特征维度更小;可以生成严格线性相关特征等优点。本发明也将其推广到类别型特征多,急需编码的推荐营销领域中,本次在因子分解机和深度因子分解机的类别型特征的数据处理阶段使用该编码方式,经验证可以提高最终的模型效果。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种基于大数据的自动建模系统,其特征在于,包括:数据读取模块、数据预处理模块、特征分析模块和模型训练模块,
数据读取模块从大数据集群读取数据,读取的数据为一张宽表,包含特征列,并且对数据中的索引信息ID列、标签列和日期列进行标记;
数据预处理模块对读取的数据进行处理,数据预处理模块包括:样本抽样模块、样本分区模块、特征筛选模块、缺失值填充模块和特征值映射模块,其中,样本抽样模块根据设定的采样比率对样本进行随机抽样或分层抽样,样本分区模块按照设定的样本划分比率将样本划分为训练集和验证集,特征筛选模块对验证集和训练集中的样本进行筛选以选出入模特征,缺失值填充模块对数据中缺失值进行填充,特征值映射模块在训练集上进行特征值映射;
模型训练模块对于训练集数据进行训练,得到训练集、验证集的模型预测结果。
2.根据权利要求1所述的自动建模系统,其特征在于,所述样本抽样模块根据设定的采样比率对样本进行随机抽样、分层抽样;特征分析模块结合样本标签、时间,统计每一维特征的KS、IV和PSI指标。
3.根据权利要求1所述的自动建模系统,其特征在于,模型训练模块还进行噪声去除:在模型训练之前,采用孤立森林算法去除异常样本。
4.根据权利要求3所述的自动建模系统,其特征在于,数据预处理模块的操作还包括:基于购物篮FP-Growth算法对输入数据进行数据去重和格式转换,其中输入数据为用户的商品购买情况,数据去重使得用户与同一商品的记录只出现过一次。
5.根据权利要求4所述的自动建模系统,其特征在于,数据预处理模块的操作还包括:基于协同过滤ALS算法对输入数据进行数据去重和信息映射,其中输入数据为用户与商品的交互行为,数据去重使得用户与商品的交互行为只出现过一次,信息映射为将用户与商品映射为标签索引。
6.根据权利要求5所述的自动建模系统,其特征在于,模型评估模块的输出的用于评估模型效果的指标包括:准确率、召回率、精准度、基尼系数、F1统计量、混淆矩阵、ROC曲线图、AUC、KS曲线图、提升度曲线图、召回率曲线图和响应率曲线图;MSE、RMSE、R2、调整R2、SMAPE、EVS、Median absolute error、MAE、特征的残差图、预测值与实际值对比图、分位数-分位数图和预测值残差分布图;簇内的点到中心点的距离平方和;正确率、混淆矩阵、准确率和召回率。
7.根据权利要求1所述的自动建模系统,其特征在于,数据预处理模块还包括样本配比模块和概率校正模块,样本配比模块能够对负样本进行抽样,调整正样本在总样本中的占比,概率校正模块对建模结果概率进行调整,使用先验概率进行校正。
8.根据权利要求7所述的自动建模系统,其特征在于,所述特征映射模块将特征不同的取值映射为与标签有关信息,所述特征映射模块对特征中每一种取值的样本进行统计,计算正标签样本量与总体样本中正标签样本量的比值B,计算负标签样本量与总体样本中负标签样本量的比值G,取ln(B/G)为该种取值的映射值。
9.根据权利要求8所述的自动建模系统,其特征在于,
所述特征映射模块对特征进行映射后入模,特征交叉时将映射值相乘。
10.根据权利要求9所述的自动建模系统,其特征在于,还包括:
模型上线模块,进行实时预测和对已上线模型的管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110564484.2A CN113177643A (zh) | 2021-05-24 | 2021-05-24 | 一种基于大数据的自动建模系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110564484.2A CN113177643A (zh) | 2021-05-24 | 2021-05-24 | 一种基于大数据的自动建模系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113177643A true CN113177643A (zh) | 2021-07-27 |
Family
ID=76929725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110564484.2A Pending CN113177643A (zh) | 2021-05-24 | 2021-05-24 | 一种基于大数据的自动建模系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177643A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177642A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种针对数据不平衡的自动建模系统 |
CN113780383A (zh) * | 2021-08-27 | 2021-12-10 | 北京工业大学 | 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 |
CN114116742A (zh) * | 2021-11-18 | 2022-03-01 | 佳都科技集团股份有限公司 | 一种基于地铁综合监控系统的时序数据填补方法及装置 |
CN113780383B (zh) * | 2021-08-27 | 2024-07-05 | 北京工业大学 | 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104718547A (zh) * | 2013-10-11 | 2015-06-17 | 文化便利俱乐部株式会社 | 顾客数据解析系统 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
CN109670892A (zh) * | 2017-10-17 | 2019-04-23 | Tcl集团股份有限公司 | 一种协同过滤推荐方法及系统、终端设备 |
CN111046283A (zh) * | 2019-12-04 | 2020-04-21 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及存储介质 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其系统 |
CN112330047A (zh) * | 2020-11-18 | 2021-02-05 | 交通银行股份有限公司 | 一种基于用户行为特征的信用卡还款概率预测方法 |
-
2021
- 2021-05-24 CN CN202110564484.2A patent/CN113177643A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104718547A (zh) * | 2013-10-11 | 2015-06-17 | 文化便利俱乐部株式会社 | 顾客数据解析系统 |
CN109670892A (zh) * | 2017-10-17 | 2019-04-23 | Tcl集团股份有限公司 | 一种协同过滤推荐方法及系统、终端设备 |
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
CN111046283A (zh) * | 2019-12-04 | 2020-04-21 | 深圳前海微众银行股份有限公司 | 特征选择方法、装置、设备及存储介质 |
CN111311400A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 基于gbdt算法的评分卡模型的建模方法及其系统 |
CN112330047A (zh) * | 2020-11-18 | 2021-02-05 | 交通银行股份有限公司 | 一种基于用户行为特征的信用卡还款概率预测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177642A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种针对数据不平衡的自动建模系统 |
CN113780383A (zh) * | 2021-08-27 | 2021-12-10 | 北京工业大学 | 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 |
CN113780383B (zh) * | 2021-08-27 | 2024-07-05 | 北京工业大学 | 基于半监督随机森林和深度森林回归集成的二噁英排放浓度预测方法 |
CN114116742A (zh) * | 2021-11-18 | 2022-03-01 | 佳都科技集团股份有限公司 | 一种基于地铁综合监控系统的时序数据填补方法及装置 |
CN114116742B (zh) * | 2021-11-18 | 2023-08-08 | 佳都科技集团股份有限公司 | 一种基于地铁综合监控系统的时序数据填补方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009479B (zh) | 信用评价方法及装置、存储介质、计算机设备 | |
CN113935434A (zh) | 一种数据分析处理系统及自动建模方法 | |
CN107168995B (zh) | 一种数据处理方法及服务器 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN111079941B (zh) | 信用信息处理方法、系统、终端和存储介质 | |
CN112116184A (zh) | 使用历史检验数据的工厂风险估计 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN113240518A (zh) | 基于机器学习的银行对公客户流失预测方法 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN111026870A (zh) | 一种综合文本分类和图像识别的ict系统故障分析方法 | |
CN113590396A (zh) | 一次设备的缺陷诊断方法、系统、电子设备及存储介质 | |
CN112860769A (zh) | 一种能源规划数据管理系统 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
CN112241805A (zh) | 使用历史检验数据进行缺陷预测 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
CN115907608A (zh) | 仓储物流项目的分析方法、系统、存储介质及计算机设备 | |
CN113177644A (zh) | 一种基于词嵌入和深度时序模型的自动建模系统 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
KR102406375B1 (ko) | 원천 기술의 평가 방법을 포함하는 전자 장치 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN116091206B (zh) | 信用评价方法、装置、电子设备及存储介质 | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
CN116611911A (zh) | 基于支持向量机的信用风险预测方法及装置 | |
CN116128275A (zh) | 一种事件推演预测系统 | |
CN113935819A (zh) | 核算异常特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |