CN110956277A - 一种交互式的迭代建模系统及方法 - Google Patents
一种交互式的迭代建模系统及方法 Download PDFInfo
- Publication number
- CN110956277A CN110956277A CN201911185505.9A CN201911185505A CN110956277A CN 110956277 A CN110956277 A CN 110956277A CN 201911185505 A CN201911185505 A CN 201911185505A CN 110956277 A CN110956277 A CN 110956277A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- modeling
- training
- management module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 230000003993 interaction Effects 0.000 claims description 29
- 238000007726 management method Methods 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 23
- 230000008676 import Effects 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000013144 data compression Methods 0.000 claims description 5
- 238000013501 data transformation Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012804 iterative process Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 11
- 238000003066 decision tree Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种交互式的迭代建模系统及方法,方法包括以下步骤:步骤1:导入数据;步骤2:数据预处理;步骤3:选择模型参数;步骤4:自动化配置;步骤5:训练模型,步骤6:迭代建模;步骤7:结束建模。该方法通过对模型本身的分析,把训练模型的过程变得是可以交互的,可以不断地基于现有模型快速优化的过程,这使得每一次模型训练不再独立,而是变成一种迭代过程,每一次的迭代,模型的效果都可以更优,从而提高了训练模型的效率,在更短的时间内训练出更好的模型。且实现简单、可靠性强、便于广泛推广。
Description
技术领域
本发明涉及机器人学习领域,本发明特别涉及了一种建模系统及方法。
背景技术
当前人工智能是计算机领域里的发展重点,二机器学习则是人工智能的核心。机器学习主要研究如何利用算法让计算机模拟人的学习方式,使得计算机可以从数据中总结规律,发现新知识,进而用这些规律或者知识去预测未来的时间和行为等。和传统的基于专家经验的商业智能形式相比,机器学习具有明显的优势。传统的机器学习有SPSS(Statistical Product and Solutions)、SAS(StatisticalAnalysis System)等桌面软件,或者是使用R、Python等编程语言开发特定程序对特定的数据进行处理和挖掘。但是这些传统机器学习方法对使用者的应用能力要求较高或者要求使用者具有良好的编程能力。因此在当今大数据和人工智能普及的时代,这种传统的机器学习方法难以快速推广和普及,在开发效率和部署重用等方面也有很大的不足。
通常,使用机器学习算法训练模型,都是一个从数据预处理、训练、预测的流水线作业。每一次模型训练都像是一个黑匣子,模型开发或使用者通常都只专注于模型的效果,而很少有人会关注模型本身。这使得训练模型更像是一种一次性用品,模型使用者如果对模型效果不满意,只能推倒重来,根据经验调整参数或者输入变量,重新训练一个新的模型。这是一种低效的、时间成本很高建模方法。
发明内容
为了解决上述问题,本发明的目的在于提供一种交互式的迭代建模系统及方法,该系统和方法通过对模型本身的分析,把训练模型的过程变得是可以交互的,可以不断地基于现有模型快速优化的过程,这使得每一次模型训练不再独立,而是变成一种迭代过程,每一次的迭代,模型的效果都可以更优,从而提高了训练模型的效率,在更短的时间内训练出更好的模型。
本发明的另一个目的在于提供一种实现简单、可靠性强、便于广泛推广的交互式的迭代建模系统及方法。
为了实现上述目的,本发明的技术方案如下。
本发明提供一种交互式的迭代建模系统及方法,该方法包括以下步骤:
步骤1:导入数据,获得用于建模的基础数据;机器学习的目标就是要从数据中总结规律、发现知识,所以数据导入是机器学习训练模型的必要操作。
步骤2:数据预处理,对基础数据进行建模前的预处理,使其适直接用于训练模型;原始数据通常不适宜直接用于训练模型,还需要做一些数据预处操作。
步骤3:选择模型参数,对建模的模型训练参数进行选择和配置,并判断是否进行自动化配置,若进行自动化配置,则进入步骤4;若不进行自动化配置,则进入步骤5;
步骤4:自动化配置,设置自动化建模参数,利用自动化模型训练系统自动训练多个用于迭代的参考模型;
步骤5:训练模型,根据给定的模型参数进行模型训练,若训练的模型符合要求,则进入步骤7;若训练的模型不符合要求,则进入步骤6;用户可以随时终止模型的训练。
步骤6:迭代建模,参考自动化配置中生成的参考模型,对比后回到步骤3;
步骤7:结束建模。
进一步的,该方法中步骤5和步骤6之间包括步骤51:展示模型报告,展示生成的模型的各项性能指标。在模型报告页面,系统会向用户展示模型的各种衡量模型性能的指标,如ROC(Receiver Operating Characteristic,受试者工作特征曲线,是反映敏感性和特异性连续变量的综合指标)曲线,AUC(Area Under Curve,ROC曲线的曲线下面积)值,KS(Kolmogorov Smirnov,用于评估模型的分类能力)值等。如果用户有做自动化配置,自动化的结果也将在模型报告页面展示。同时参与建模的变量也将按照对模型的贡献程度从高到低展示出重要变量排名。用户可以在模型报告页面衡量模型是否符合预期效果,进而做出一些交互进行迭代建模。
进一步的,用户可以根据重要变量排名与变量的业务含义综合考量,选择一些重要变量跳转的步骤三进行迭代建模。
进一步的,用户可以根据自动的结果选择符合预期的自动化模型配置参数跳转到步骤三进行迭代建模。
进一步的,所述步骤1中导入数据方法包括文件导入、数据库导入和分布式储存系统导入。数据导入中,数据的来源可以是多样的,包含但不限于以下来源:(1)文件,系统支持直接导入数据文件;(2)数据库,系统可以直接连接数据库获取数据库中的数据表作为训练数据;(3)分布式存储系统,系统也可以从hadoop、hive等分布式存储系统中获取海量数据作为训练数据。
进一步的,所述步骤2中的数据预处理包括数据清理、数据变换和数据压缩。数据预处理包括但不限于以下处理:(1)数据清理:数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。(2)数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于模型训练的形式。(3)数据压缩:数据读入计算机内存时,通常都以系统默认类型存储如32位的整形或64位的浮点型,然后很多数据集中的具体特征取值范围通常都不需要如此大的变量类型来存储,因此如果把变量类型自适应的压缩位合适的类型,能提减少建模对系统资源的消耗。
进一步的,为了方便对同一数据进行多次迭代建模,系统会把预处理完的数据保存起来,以便于下次用同一份数据进行建模时,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
例如一个数据集的数值型变量里面如果由空值,可以用该列的平均值替换空值,数据集中的数值型变量,可以通过公式或者作标准化处理,对于取值只有0或1的变量,可以用8位整型变量代替系统默认的64位整型变量,这样数据存储空间可以压缩8倍等。
进一步的,所述步骤3中的参数选择具体包括:
从基础数据中确定模型参数的输入变量和目标变量;
选择建模所需算法;如基于GBDT的建模算法、逻辑回归、规则抽取等。
根据建模算法,配置不同模型参数,所述模型参数包括学习率、子样本比率、迭代轮数和树模型的每棵树最大节点数。上述的配置选项可以是手动输入的,也可以是在迭代建模过程中,用户交互后系统自动填写的。
例如,GBDT模型可以配置训练的迭代次数,每棵树的交互变量数,学习率,最大数深度,最小分裂增益等参数;逻辑回归模型可以配置收敛阈值,正则化系数,分类方式,归一化方式等参数。
进一步的,所述步骤4中自动化配置包括:
特征筛选:利用剃刀、单变量删除、单变量预测、重要特征筛选和单变量递减中的一个或多个方式对基础数据进行筛选;其中,(1)剃刀,将数据集中的变量按照一定的顺序无放回地从数据集中剔除,这使得参与建模的变量越来越少。(2)单变量删除,将数据集中的变量按照一定的顺序一个一个的删除,每次训练只删除一个变量。(3)单变量预测,从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。(4)重要特征筛选,每一次训练用上一次训练的重要变量作为输入变量。单变量递减,每一轮迭代都将所有变量依次由放回的删除进行,选取最优模型,直到模型性能比初始模型性能低。
数据交互:利用无交互变量集、交互变量集、单变量无交互、递增中的一个或多个方式对基础数据的交互策略进行确定;具体的,(1)无交互变量集,将数据集中的变量按照一定的顺序挑选出来形成一个无交互变量集,在这个无交互变量集中的变量不允许和其他变量在同一个决策树上相互作用。(2)交互变量集,将数据集中的变量按照一定的顺序挑选出来形成一个交互变量集,在这个交互变量集中的变量只允许和集中的其他变量在同一个决策树上相互作用。(3)单变量无交互,将数据集中的变量按照一定的顺序选取出来,每次训练该变量不允许和其他变量在同一棵决策树中交互。(4)每棵树最大交互特征数,给定一个取值范围,每次训练限制决策树内允许能相互作用的变量个数。递增,每一轮迭代都将所有变量依次有放回的放进无交互作用集,当模型效果最优时确定这一轮的无交互作用集进行下一轮的选择。
样本筛选:利用目标固定、等比压缩、异常样本、规则过滤和跨期验证中的一个或多个方式对基础数据中的样本进行筛选;具体的,(1)目标固定,保持目标样本不变,改变非目标样本于目标样本的比例去建模。(2)等比压缩,保持正负样本比例不变,改变样本的总数量进行建模,比较模型的预测能力。(3)异常样本,多次建模预测样本,找到方差大的样本剔除后重新建模。(4)规则过滤,如果建模时存在已排除样本的规则,每轮迭代依次删除其中一条规则,将剩余规则命中的所有样本过滤掉,再用剩余的样本建模。跨期验证,通过选择的日期变量及其间隔条件将样本数据划分成训练集和检验集,依次构建一个模型。
稳定性检测:目标洗牌、置换、分割和重新抽样中的一个或多个方式对参考模型的稳定性进行检测。具体的,(1)目标洗牌,将数据集目标变量值打乱再建模(2)置换,将原始的训练集作为测试集,原始的测试集作为训练集然后建模(3)分割,重新切分数据建模(4)重新抽样,在原始样本基础上有放回的抽取同样维度的样本作为新的数据集进行建模。
进一步的,自动化配置包含特征生成功能。特征生成是指用一定的方法对原始数据衍生出新的变量,包含但不限于以下方法:
(1)变量分箱,将数值型变量转换成类别型,同时将一定范围内的数值划分成确定的块,使算法减少噪声的干扰。
(2)类别聚合,将类别型变量做卡方分箱操作,较少变量的箱数,提高模型稳定性。
例如配置学习率的超参优化,起始值设定为0.01,步长0.01,中止值为0.1,那么系统会自动训练10个模型,这10个模型的学习率分别是0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.10。
本发明还提供了一种交互式的迭代建模系统,该系统包括:
源数据适配模块:用于适配不同数据来源实现数据导入;
数据集管理模块:用于对导入的数据进行预处理;
参数管理模块:用于对建模系统进行建模参数配置;
模型管理模块:用于根据参数管理模块配置的建模参数进行建模;
自动化管理模块:用于自动生成参考模型,与模型管理模块生成的模型对比后作为迭代模型用于参数管理模块进行参数设置。
进一步的,所述自动化管理模块包括特征筛选单元、交互作用单元、样本筛选单元、稳定性检测单元和特征生成单元。
本发明的有益效果在于,与现有技术相比,在本发明具有以下优势,
1.操作简单,无需很高的学习成本。即使是没有很多建模经验的普通业务人员也可以通过简单的自动化配置操作训练出一个符合业务预期的、有效的模型。
2.不需要使用者有开发经验就能达到较好的模型效果。
3.模型可以根据业务需求不断进行迭代,模型的高可解析性让业务人员用的放心。
4、自动化配置的后台训练,大大减少了建模人员的训练模型的时间成本。
附图说明
图1是本发明一种交互式的迭代建模方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为实现上述目的,本发明的具体实施例如下。
本发明提供一种交互式的迭代建模系统及方法,该方法包括以下步骤:
步骤1:导入数据,获得用于建模的基础数据;机器学习的目标就是要从数据中总结规律、发现知识,所以数据导入是机器学习训练模型的必要操作。
步骤2:数据预处理,对基础数据进行建模前的预处理,使其适直接用于训练模型;原始数据通常不适宜直接用于训练模型,还需要做一些数据预处操作。
步骤3:选择模型参数,对建模的模型训练参数进行选择和配置,并判断是否进行自动化配置,若进行自动化配置,则进入步骤4;若不进行自动化配置,则进入步骤5;
步骤4:自动化配置,设置自动化建模参数,利用自动化模型训练系统自动训练多个用于迭代的参考模型;
步骤5:训练模型,根据给定的模型参数进行模型训练,若训练的模型符合要求,则进入步骤7;若训练的模型不符合要求,则进入步骤6;用户可以随时终止模型的训练。
步骤6:迭代建模,参考自动化配置中生成的参考模型,对比后回到步骤3;
步骤7:结束建模。
在本实施例中,该方法中步骤5和步骤6之间包括步骤51:展示模型报告,展示生成的模型的各项性能指标。在模型报告页面,系统会向用户展示模型的各种衡量模型性能的指标,如ROC(Receiver Operating Characteristic,受试者工作特征曲线,是反映敏感性和特异性连续变量的综合指标)曲线,AUC(Area Under Curve,ROC曲线的曲线下面积)值,KS(Kolmogorov Smirnov,用于评估模型的分类能力)值等。如果用户有做自动化配置,自动化的结果也将在模型报告页面展示。同时参与建模的变量也将按照对模型的贡献程度从高到低展示出重要变量排名。用户可以在模型报告页面衡量模型是否符合预期效果,进而做出一些交互进行迭代建模。
在本实施例中,用户可以根据重要变量排名与变量的业务含义综合考量,选择一些重要变量跳转的步骤三进行迭代建模。
在本实施例中,用户可以根据自动的结果选择符合预期的自动化模型配置参数跳转到步骤三进行迭代建模。
在本实施例中,所述步骤1中导入数据方法包括文件导入、数据库导入和分布式储存系统导入。数据导入中,数据的来源可以是多样的,包含但不限于以下来源:(1)文件,系统支持直接导入数据文件;(2)数据库,系统可以直接连接数据库获取数据库中的数据表作为训练数据;(3)分布式存储系统,系统也可以从hadoop、hive等分布式存储系统中获取海量数据作为训练数据。
在本实施例中,所述步骤2中的数据预处理包括数据清理、数据变换和数据压缩。数据预处理包括但不限于以下处理:(1)数据清理:数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。(2)数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于模型训练的形式。(3)数据压缩:数据读入计算机内存时,通常都以系统默认类型存储如32位的整形或64位的浮点型,然后很多数据集中的具体特征取值范围通常都不需要如此大的变量类型来存储,因此如果把变量类型自适应的压缩位合适的类型,能提减少建模对系统资源的消耗。
在本实施例中,为了方便对同一数据进行多次迭代建模,系统会把预处理完的数据保存起来,以便于下次用同一份数据进行建模时,省略数据导入和数据预处理两个步骤,加快迭代模型的速度。
例如一个数据集的数值型变量里面如果由空值,可以用该列的平均值替换空值,数据集中的数值型变量,可以通过公式或者作标准化处理,对于取值只有0或1的变量,可以用8位整型变量代替系统默认的64位整型变量,这样数据存储空间可以压缩8倍等。
在本实施例中,所述步骤3中的参数选择具体包括:
从基础数据中确定模型参数的输入变量和目标变量;
选择建模所需算法;如基于GBDT的建模算法、逻辑回归、规则抽取等。
根据建模算法,配置不同模型参数,所述模型参数包括学习率、子样本比率、迭代轮数和树模型的每棵树最大节点数。上述的配置选项可以是手动输入的,也可以是在迭代建模过程中,用户交互后系统自动填写的。
例如,GBDT模型可以配置训练的迭代次数,每棵树的交互变量数,学习率,最大数深度,最小分裂增益等参数;逻辑回归模型可以配置收敛阈值,正则化系数,分类方式,归一化方式等参数。
在本实施例中,所述步骤4中自动化配置包括:
特征筛选:利用剃刀、单变量删除、单变量预测、重要特征筛选和单变量递减中的一个或多个方式对基础数据进行筛选;其中,(1)剃刀,将数据集中的变量按照一定的顺序无放回地从数据集中剔除,这使得参与建模的变量越来越少。(2)单变量删除,将数据集中的变量按照一定的顺序一个一个的删除,每次训练只删除一个变量。(3)单变量预测,从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。(4)重要特征筛选,每一次训练用上一次训练的重要变量作为输入变量。单变量递减,每一轮迭代都将所有变量依次由放回的删除进行,选取最优模型,直到模型性能比初始模型性能低。
数据交互:利用无交互变量集、交互变量集、单变量无交互、递增中的一个或多个方式对基础数据的交互策略进行确定;具体的,(1)无交互变量集,将数据集中的变量按照一定的顺序挑选出来形成一个无交互变量集,在这个无交互变量集中的变量不允许和其他变量在同一个决策树上相互作用。(2)交互变量集,将数据集中的变量按照一定的顺序挑选出来形成一个交互变量集,在这个交互变量集中的变量只允许和集中的其他变量在同一个决策树上相互作用。(3)单变量无交互,将数据集中的变量按照一定的顺序选取出来,每次训练该变量不允许和其他变量在同一棵决策树中交互。(4)每棵树最大交互特征数,给定一个取值范围,每次训练限制决策树内允许能相互作用的变量个数。递增,每一轮迭代都将所有变量依次有放回的放进无交互作用集,当模型效果最优时确定这一轮的无交互作用集进行下一轮的选择。
样本筛选:利用目标固定、等比压缩、异常样本、规则过滤和跨期验证中的一个或多个方式对基础数据中的样本进行筛选;具体的,(1)目标固定,保持目标样本不变,改变非目标样本于目标样本的比例去建模。(2)等比压缩,保持正负样本比例不变,改变样本的总数量进行建模,比较模型的预测能力。(3)异常样本,多次建模预测样本,找到方差大的样本剔除后重新建模。(4)规则过滤,如果建模时存在已排除样本的规则,每轮迭代依次删除其中一条规则,将剩余规则命中的所有样本过滤掉,再用剩余的样本建模。跨期验证,通过选择的日期变量及其间隔条件将样本数据划分成训练集和检验集,依次构建一个模型。
稳定性检测:目标洗牌、置换、分割和重新抽样中的一个或多个方式对参考模型的稳定性进行检测。具体的,(1)目标洗牌,将数据集目标变量值打乱再建模(2)置换,将原始的训练集作为测试集,原始的测试集作为训练集然后建模(3)分割,重新切分数据建模(4)重新抽样,在原始样本基础上有放回的抽取同样维度的样本作为新的数据集进行建模。
在本实施例中,自动化配置包含特征生成功能。特征生成是指用一定的方法对原始数据衍生出新的变量,包含但不限于以下方法:
(1)变量分箱,将数值型变量转换成类别型,同时将一定范围内的数值划分成确定的块,使算法减少噪声的干扰。
(2)类别聚合,将类别型变量做卡方分箱操作,较少变量的箱数,提高模型稳定性。
例如配置学习率的超参优化,起始值设定为0.01,步长0.01,中止值为0.1,那么系统会自动训练10个模型,这10个模型的学习率分别是0.01,0.02,0.03,0.04,0.05,0.06,0.07,0.08,0.09,0.10。
本发明还提供了一种交互式的迭代建模系统,该系统包括:
源数据适配模块:用于适配不同数据来源实现数据导入;
数据集管理模块:用于对导入的数据进行预处理;
参数管理模块:用于对建模系统进行建模参数配置;
模型管理模块:用于根据参数管理模块配置的建模参数进行建模;
自动化管理模块:用于自动生成参考模型,与模型管理模块生成的模型对比后作为迭代模型用于参数管理模块进行参数设置。
在本实施例中,所述自动化管理模块包括特征筛选单元、交互作用单元、样本筛选单元、稳定性检测单元和特征生成单元。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种交互式的迭代建模方法,其特征在于,该方法包括以下步骤:
步骤1:导入数据,获得用于建模的基础数据;
步骤2:数据预处理,对基础数据进行建模前的预处理,使其适直接用于训练模型;
步骤3:选择模型参数,对建模的模型训练参数进行选择和配置,并判断是否进行自动化配置,若进行自动化配置,则进入步骤4;若不进行自动化配置,则进入步骤5;
步骤4:自动化配置,即设置自动化建模参数,利用自动化模型训练系统自动训练多个用于迭代的参考模型;
步骤5:训练模型,根据给定的模型参数进行模型训练,若训练的模型符合要求,则进入步骤7;若训练的模型不符合要求,则进入步骤6;
步骤6:迭代建模,参考自动化配置中生成的参考模型,对比后回到步骤3;
步骤7:结束建模。
2.如权利要求1所述的一种交互式的迭代建模方法,其特征在于,该方法中步骤5和步骤6之间包括步骤51:展示模型报告,展示生成的模型的各项性能指标。
3.如权利要求1所述的一种交互式的迭代建模方法,其特征在于,所述步骤1中导入数据方法包括文件导入、数据库导入和分布式储存系统导入。
4.如权利要求1所述的一种交互式的迭代建模方法,其特征在于,所述步骤2中的数据预处理包括数据清理、数据变换和数据压缩。
5.如权利要求1所述的一种交互式的迭代建模方法,其特征在于,所述步骤3中的参数选择具体包括:
从基础数据中确定模型参数的输入变量和目标变量;
选择建模所需算法;
根据建模算法,配置不同模型参数,所述模型参数包括学习率、子样本比率、迭代轮数和树模型的每棵树最大节点数。
6.如权利要求1所述的一种交互式的迭代建模方法,其特征在于,所述步骤4中自动化配置包括:
特征筛选:利用剃刀、单变量删除、单变量预测、重要特征筛选和单变量递减中的一个或多个方式对基础数据进行筛选;
数据交互:利用无交互变量集、交互变量集、单变量无交互、递增中的一个或多个方式对基础数据的交互策略进行确定;
样本筛选:利用目标固定、等比压缩、异常样本、规则过滤和跨期验证中的一个或多个方式对基础数据中的样本进行筛选;
稳定性检测:目标洗牌、置换、分割和重新抽样中的一个或多个方式对参考模型的稳定性进行检测。
7.一种交互式的迭代建模系统,其特征在于,该系统包括:
源数据适配模块:用于适配不同数据来源实现数据导入;
数据集管理模块:用于对导入的数据进行预处理;
参数管理模块:用于对建模系统进行建模参数配置;
模型管理模块:用于根据参数管理模块配置的建模参数进行建模;
自动化管理模块:用于自动生成参考模型,与模型管理模块生成的模型对比后作为迭代模型用于参数管理模块进行参数设置。
8.如权利要求7所述的一种交互式的迭代建模系统,其特征在于,所述自动化管理模块包括特征筛选单元、交互作用单元、样本筛选单元、稳定性检测单元和特征生成单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185505.9A CN110956277A (zh) | 2019-11-27 | 2019-11-27 | 一种交互式的迭代建模系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185505.9A CN110956277A (zh) | 2019-11-27 | 2019-11-27 | 一种交互式的迭代建模系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110956277A true CN110956277A (zh) | 2020-04-03 |
Family
ID=69978690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911185505.9A Pending CN110956277A (zh) | 2019-11-27 | 2019-11-27 | 一种交互式的迭代建模系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956277A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949640A (zh) * | 2020-08-04 | 2020-11-17 | 上海微亿智造科技有限公司 | 基于工业大数据的智能调参方法及系统 |
CN112380216A (zh) * | 2020-11-17 | 2021-02-19 | 北京融七牛信息技术有限公司 | 一种基于交叉的自动特征生成方法 |
CN113392921A (zh) * | 2021-06-29 | 2021-09-14 | 深圳市魔数智擎人工智能有限公司 | 一种数据驱动的风控策略规则生成方法及系统 |
CN115860141A (zh) * | 2022-12-23 | 2023-03-28 | 深圳市魔数智擎人工智能有限公司 | 一种自动化机器学习交互式黑箱可视建模方法及系统 |
-
2019
- 2019-11-27 CN CN201911185505.9A patent/CN110956277A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949640A (zh) * | 2020-08-04 | 2020-11-17 | 上海微亿智造科技有限公司 | 基于工业大数据的智能调参方法及系统 |
CN112380216A (zh) * | 2020-11-17 | 2021-02-19 | 北京融七牛信息技术有限公司 | 一种基于交叉的自动特征生成方法 |
CN113392921A (zh) * | 2021-06-29 | 2021-09-14 | 深圳市魔数智擎人工智能有限公司 | 一种数据驱动的风控策略规则生成方法及系统 |
CN115860141A (zh) * | 2022-12-23 | 2023-03-28 | 深圳市魔数智擎人工智能有限公司 | 一种自动化机器学习交互式黑箱可视建模方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741361B2 (en) | Machine learning-based network model building method and apparatus | |
Shang et al. | Democratizing data science through interactive curation of ml pipelines | |
CN110580501B (zh) | 一种基于变分自编码对抗网络的零样本图像分类方法 | |
CN110956277A (zh) | 一种交互式的迭代建模系统及方法 | |
KR101130524B1 (ko) | 목표 변수를 위한 데이터 전망 자동 생성 | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN116561542B (zh) | 模型的优化训练系统、方法以及相关装置 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN115587543A (zh) | 基于联邦学习和lstm的刀具剩余寿命预测方法及系统 | |
CN114328048A (zh) | 一种磁盘故障预测方法及装置 | |
CN112115131A (zh) | 数据去噪方法、装置、设备及计算机可读存储介质 | |
CN114386580A (zh) | 决策模型训练、决策方法、装置、电子设备及存储介质 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
Jia et al. | Latent task adaptation with large-scale hierarchies | |
CN115860141A (zh) | 一种自动化机器学习交互式黑箱可视建模方法及系统 | |
CN115437960A (zh) | 回归测试用例排序的方法、装置、设备和存储介质 | |
CN110705889A (zh) | 一种企业筛选方法、装置、设备及存储介质 | |
CN116257758A (zh) | 模型训练方法、人群拓展方法、介质、装置和计算设备 | |
CN111461344B (zh) | 高阶特征的自动生成方法、系统、设备和介质 | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN112115991B (zh) | 移动终端换机预测方法、装置、设备及可读存储介质 | |
CN111353860A (zh) | 产品信息推送方法及系统 | |
Njah et al. | A new equilibrium criterion for learning the cardinality of latent variables | |
CN115393659B (zh) | 基于多级决策树的个性化分类流程优化方法和装置 | |
CN117371876B (zh) | 基于关键词的指标数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200403 |
|
RJ01 | Rejection of invention patent application after publication |