CN110956277A

CN110956277A - 一种交互式的迭代建模系统及方法

Info

Publication number: CN110956277A
Application number: CN201911185505.9A
Authority: CN
Inventors: 柴磊; 许靖; 李永辉
Original assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co Ltd
Current assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-03

Abstract

本发明提供一种交互式的迭代建模系统及方法，方法包括以下步骤：步骤1：导入数据；步骤2：数据预处理；步骤3：选择模型参数；步骤4：自动化配置；步骤5：训练模型，步骤6：迭代建模；步骤7：结束建模。该方法通过对模型本身的分析，把训练模型的过程变得是可以交互的，可以不断地基于现有模型快速优化的过程，这使得每一次模型训练不再独立，而是变成一种迭代过程，每一次的迭代，模型的效果都可以更优，从而提高了训练模型的效率，在更短的时间内训练出更好的模型。且实现简单、可靠性强、便于广泛推广。

Description

一种交互式的迭代建模系统及方法

技术领域

本发明涉及机器人学习领域，本发明特别涉及了一种建模系统及方法。

背景技术

当前人工智能是计算机领域里的发展重点，二机器学习则是人工智能的核心。机器学习主要研究如何利用算法让计算机模拟人的学习方式，使得计算机可以从数据中总结规律，发现新知识，进而用这些规律或者知识去预测未来的时间和行为等。和传统的基于专家经验的商业智能形式相比，机器学习具有明显的优势。传统的机器学习有SPSS(Statistical Product and Solutions)、SAS(StatisticalAnalysis System)等桌面软件，或者是使用R、Python等编程语言开发特定程序对特定的数据进行处理和挖掘。但是这些传统机器学习方法对使用者的应用能力要求较高或者要求使用者具有良好的编程能力。因此在当今大数据和人工智能普及的时代，这种传统的机器学习方法难以快速推广和普及，在开发效率和部署重用等方面也有很大的不足。

通常，使用机器学习算法训练模型，都是一个从数据预处理、训练、预测的流水线作业。每一次模型训练都像是一个黑匣子，模型开发或使用者通常都只专注于模型的效果，而很少有人会关注模型本身。这使得训练模型更像是一种一次性用品，模型使用者如果对模型效果不满意，只能推倒重来，根据经验调整参数或者输入变量，重新训练一个新的模型。这是一种低效的、时间成本很高建模方法。

发明内容

为了解决上述问题，本发明的目的在于提供一种交互式的迭代建模系统及方法，该系统和方法通过对模型本身的分析，把训练模型的过程变得是可以交互的，可以不断地基于现有模型快速优化的过程，这使得每一次模型训练不再独立，而是变成一种迭代过程，每一次的迭代，模型的效果都可以更优，从而提高了训练模型的效率，在更短的时间内训练出更好的模型。

本发明的另一个目的在于提供一种实现简单、可靠性强、便于广泛推广的交互式的迭代建模系统及方法。

为了实现上述目的，本发明的技术方案如下。

本发明提供一种交互式的迭代建模系统及方法，该方法包括以下步骤：

步骤1：导入数据，获得用于建模的基础数据；机器学习的目标就是要从数据中总结规律、发现知识，所以数据导入是机器学习训练模型的必要操作。

步骤2：数据预处理，对基础数据进行建模前的预处理，使其适直接用于训练模型；原始数据通常不适宜直接用于训练模型，还需要做一些数据预处操作。

步骤3：选择模型参数，对建模的模型训练参数进行选择和配置，并判断是否进行自动化配置，若进行自动化配置，则进入步骤4；若不进行自动化配置，则进入步骤5；

步骤4：自动化配置，设置自动化建模参数，利用自动化模型训练系统自动训练多个用于迭代的参考模型；

步骤5：训练模型，根据给定的模型参数进行模型训练，若训练的模型符合要求，则进入步骤7；若训练的模型不符合要求，则进入步骤6；用户可以随时终止模型的训练。

步骤6：迭代建模，参考自动化配置中生成的参考模型，对比后回到步骤3；

步骤7：结束建模。

进一步的，该方法中步骤5和步骤6之间包括步骤51：展示模型报告，展示生成的模型的各项性能指标。在模型报告页面，系统会向用户展示模型的各种衡量模型性能的指标，如ROC(Receiver Operating Characteristic，受试者工作特征曲线，是反映敏感性和特异性连续变量的综合指标)曲线，AUC(Area Under Curve，ROC曲线的曲线下面积)值，KS(Kolmogorov Smirnov，用于评估模型的分类能力)值等。如果用户有做自动化配置，自动化的结果也将在模型报告页面展示。同时参与建模的变量也将按照对模型的贡献程度从高到低展示出重要变量排名。用户可以在模型报告页面衡量模型是否符合预期效果，进而做出一些交互进行迭代建模。

进一步的，用户可以根据重要变量排名与变量的业务含义综合考量，选择一些重要变量跳转的步骤三进行迭代建模。

进一步的，用户可以根据自动的结果选择符合预期的自动化模型配置参数跳转到步骤三进行迭代建模。

进一步的，所述步骤1中导入数据方法包括文件导入、数据库导入和分布式储存系统导入。数据导入中，数据的来源可以是多样的，包含但不限于以下来源：(1)文件，系统支持直接导入数据文件；(2)数据库，系统可以直接连接数据库获取数据库中的数据表作为训练数据；(3)分布式存储系统，系统也可以从hadoop、hive等分布式存储系统中获取海量数据作为训练数据。

进一步的，所述步骤2中的数据预处理包括数据清理、数据变换和数据压缩。数据预处理包括但不限于以下处理：(1)数据清理：数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。(2)数据变换：通过平滑聚集，数据概化，规范化等方式将数据转换成适用于模型训练的形式。(3)数据压缩：数据读入计算机内存时，通常都以系统默认类型存储如32位的整形或64位的浮点型，然后很多数据集中的具体特征取值范围通常都不需要如此大的变量类型来存储，因此如果把变量类型自适应的压缩位合适的类型，能提减少建模对系统资源的消耗。

进一步的，为了方便对同一数据进行多次迭代建模，系统会把预处理完的数据保存起来，以便于下次用同一份数据进行建模时，省略数据导入和数据预处理两个步骤，加快迭代模型的速度。

例如一个数据集的数值型变量里面如果由空值，可以用该列的平均值替换空值，数据集中的数值型变量，可以通过公式

或者

作标准化处理，对于取值只有0或1的变量，可以用8位整型变量代替系统默认的64位整型变量，这样数据存储空间可以压缩8倍等。

进一步的，所述步骤3中的参数选择具体包括：

从基础数据中确定模型参数的输入变量和目标变量；

选择建模所需算法；如基于GBDT的建模算法、逻辑回归、规则抽取等。

根据建模算法，配置不同模型参数，所述模型参数包括学习率、子样本比率、迭代轮数和树模型的每棵树最大节点数。上述的配置选项可以是手动输入的，也可以是在迭代建模过程中，用户交互后系统自动填写的。

例如，GBDT模型可以配置训练的迭代次数，每棵树的交互变量数，学习率，最大数深度，最小分裂增益等参数；逻辑回归模型可以配置收敛阈值，正则化系数，分类方式，归一化方式等参数。

进一步的，所述步骤4中自动化配置包括：

特征筛选：利用剃刀、单变量删除、单变量预测、重要特征筛选和单变量递减中的一个或多个方式对基础数据进行筛选；其中，(1)剃刀，将数据集中的变量按照一定的顺序无放回地从数据集中剔除，这使得参与建模的变量越来越少。(2)单变量删除，将数据集中的变量按照一定的顺序一个一个的删除，每次训练只删除一个变量。(3)单变量预测，从数据集中按照一定的顺序挑选单个变量作为输入变量训练模型。(4)重要特征筛选，每一次训练用上一次训练的重要变量作为输入变量。单变量递减，每一轮迭代都将所有变量依次由放回的删除进行，选取最优模型，直到模型性能比初始模型性能低。

数据交互：利用无交互变量集、交互变量集、单变量无交互、递增中的一个或多个方式对基础数据的交互策略进行确定；具体的，(1)无交互变量集，将数据集中的变量按照一定的顺序挑选出来形成一个无交互变量集，在这个无交互变量集中的变量不允许和其他变量在同一个决策树上相互作用。(2)交互变量集，将数据集中的变量按照一定的顺序挑选出来形成一个交互变量集，在这个交互变量集中的变量只允许和集中的其他变量在同一个决策树上相互作用。(3)单变量无交互，将数据集中的变量按照一定的顺序选取出来，每次训练该变量不允许和其他变量在同一棵决策树中交互。(4)每棵树最大交互特征数，给定一个取值范围，每次训练限制决策树内允许能相互作用的变量个数。递增，每一轮迭代都将所有变量依次有放回的放进无交互作用集，当模型效果最优时确定这一轮的无交互作用集进行下一轮的选择。

样本筛选：利用目标固定、等比压缩、异常样本、规则过滤和跨期验证中的一个或多个方式对基础数据中的样本进行筛选；具体的，(1)目标固定，保持目标样本不变，改变非目标样本于目标样本的比例去建模。(2)等比压缩，保持正负样本比例不变，改变样本的总数量进行建模，比较模型的预测能力。(3)异常样本，多次建模预测样本，找到方差大的样本剔除后重新建模。(4)规则过滤，如果建模时存在已排除样本的规则，每轮迭代依次删除其中一条规则，将剩余规则命中的所有样本过滤掉，再用剩余的样本建模。跨期验证，通过选择的日期变量及其间隔条件将样本数据划分成训练集和检验集，依次构建一个模型。

稳定性检测：目标洗牌、置换、分割和重新抽样中的一个或多个方式对参考模型的稳定性进行检测。具体的，(1)目标洗牌，将数据集目标变量值打乱再建模(2)置换，将原始的训练集作为测试集，原始的测试集作为训练集然后建模(3)分割，重新切分数据建模(4)重新抽样，在原始样本基础上有放回的抽取同样维度的样本作为新的数据集进行建模。

进一步的，自动化配置包含特征生成功能。特征生成是指用一定的方法对原始数据衍生出新的变量，包含但不限于以下方法：

(1)变量分箱，将数值型变量转换成类别型，同时将一定范围内的数值划分成确定的块，使算法减少噪声的干扰。

(2)类别聚合，将类别型变量做卡方分箱操作，较少变量的箱数，提高模型稳定性。

例如配置学习率的超参优化，起始值设定为0.01，步长0.01，中止值为0.1，那么系统会自动训练10个模型，这10个模型的学习率分别是0.01，0.02，0.03，0.04，0.05，0.06，0.07，0.08，0.09，0.10。

本发明还提供了一种交互式的迭代建模系统，该系统包括：

源数据适配模块：用于适配不同数据来源实现数据导入；

数据集管理模块：用于对导入的数据进行预处理；

参数管理模块：用于对建模系统进行建模参数配置；

模型管理模块：用于根据参数管理模块配置的建模参数进行建模；

自动化管理模块：用于自动生成参考模型，与模型管理模块生成的模型对比后作为迭代模型用于参数管理模块进行参数设置。

进一步的，所述自动化管理模块包括特征筛选单元、交互作用单元、样本筛选单元、稳定性检测单元和特征生成单元。

本发明的有益效果在于，与现有技术相比，在本发明具有以下优势，

1.操作简单，无需很高的学习成本。即使是没有很多建模经验的普通业务人员也可以通过简单的自动化配置操作训练出一个符合业务预期的、有效的模型。

2.不需要使用者有开发经验就能达到较好的模型效果。

3.模型可以根据业务需求不断进行迭代，模型的高可解析性让业务人员用的放心。

4、自动化配置的后台训练，大大减少了建模人员的训练模型的时间成本。

附图说明

图1是本发明一种交互式的迭代建模方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为实现上述目的，本发明的具体实施例如下。

步骤7：结束建模。

在本实施例中，该方法中步骤5和步骤6之间包括步骤51：展示模型报告，展示生成的模型的各项性能指标。在模型报告页面，系统会向用户展示模型的各种衡量模型性能的指标，如ROC(Receiver Operating Characteristic，受试者工作特征曲线，是反映敏感性和特异性连续变量的综合指标)曲线，AUC(Area Under Curve，ROC曲线的曲线下面积)值，KS(Kolmogorov Smirnov，用于评估模型的分类能力)值等。如果用户有做自动化配置，自动化的结果也将在模型报告页面展示。同时参与建模的变量也将按照对模型的贡献程度从高到低展示出重要变量排名。用户可以在模型报告页面衡量模型是否符合预期效果，进而做出一些交互进行迭代建模。

在本实施例中，用户可以根据重要变量排名与变量的业务含义综合考量，选择一些重要变量跳转的步骤三进行迭代建模。

在本实施例中，用户可以根据自动的结果选择符合预期的自动化模型配置参数跳转到步骤三进行迭代建模。

在本实施例中，所述步骤1中导入数据方法包括文件导入、数据库导入和分布式储存系统导入。数据导入中，数据的来源可以是多样的，包含但不限于以下来源：(1)文件，系统支持直接导入数据文件；(2)数据库，系统可以直接连接数据库获取数据库中的数据表作为训练数据；(3)分布式存储系统，系统也可以从hadoop、hive等分布式存储系统中获取海量数据作为训练数据。

在本实施例中，所述步骤2中的数据预处理包括数据清理、数据变换和数据压缩。数据预处理包括但不限于以下处理：(1)数据清理：数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。(2)数据变换：通过平滑聚集，数据概化，规范化等方式将数据转换成适用于模型训练的形式。(3)数据压缩：数据读入计算机内存时，通常都以系统默认类型存储如32位的整形或64位的浮点型，然后很多数据集中的具体特征取值范围通常都不需要如此大的变量类型来存储，因此如果把变量类型自适应的压缩位合适的类型，能提减少建模对系统资源的消耗。

在本实施例中，为了方便对同一数据进行多次迭代建模，系统会把预处理完的数据保存起来，以便于下次用同一份数据进行建模时，省略数据导入和数据预处理两个步骤，加快迭代模型的速度。

例如一个数据集的数值型变量里面如果由空值，可以用该列的平均值替换空值，数据集中的数值型变量，可以通过公式或者作标准化处理，对于取值只有0或1的变量，可以用8位整型变量代替系统默认的64位整型变量，这样数据存储空间可以压缩8倍等。

在本实施例中，所述步骤3中的参数选择具体包括：

从基础数据中确定模型参数的输入变量和目标变量；

在本实施例中，所述步骤4中自动化配置包括：

在本实施例中，自动化配置包含特征生成功能。特征生成是指用一定的方法对原始数据衍生出新的变量，包含但不限于以下方法：

本发明还提供了一种交互式的迭代建模系统，该系统包括：

源数据适配模块：用于适配不同数据来源实现数据导入；

数据集管理模块：用于对导入的数据进行预处理；

参数管理模块：用于对建模系统进行建模参数配置；

在本实施例中，所述自动化管理模块包括特征筛选单元、交互作用单元、样本筛选单元、稳定性检测单元和特征生成单元。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种交互式的迭代建模方法，其特征在于，该方法包括以下步骤：

步骤1：导入数据，获得用于建模的基础数据；

步骤2：数据预处理，对基础数据进行建模前的预处理，使其适直接用于训练模型；

步骤4：自动化配置，即设置自动化建模参数，利用自动化模型训练系统自动训练多个用于迭代的参考模型；

步骤5：训练模型，根据给定的模型参数进行模型训练，若训练的模型符合要求，则进入步骤7；若训练的模型不符合要求，则进入步骤6；

步骤7：结束建模。

2.如权利要求1所述的一种交互式的迭代建模方法，其特征在于，该方法中步骤5和步骤6之间包括步骤51：展示模型报告，展示生成的模型的各项性能指标。

3.如权利要求1所述的一种交互式的迭代建模方法，其特征在于，所述步骤1中导入数据方法包括文件导入、数据库导入和分布式储存系统导入。

4.如权利要求1所述的一种交互式的迭代建模方法，其特征在于，所述步骤2中的数据预处理包括数据清理、数据变换和数据压缩。

5.如权利要求1所述的一种交互式的迭代建模方法，其特征在于，所述步骤3中的参数选择具体包括：

从基础数据中确定模型参数的输入变量和目标变量；

选择建模所需算法；

根据建模算法，配置不同模型参数，所述模型参数包括学习率、子样本比率、迭代轮数和树模型的每棵树最大节点数。

6.如权利要求1所述的一种交互式的迭代建模方法，其特征在于，所述步骤4中自动化配置包括：

特征筛选：利用剃刀、单变量删除、单变量预测、重要特征筛选和单变量递减中的一个或多个方式对基础数据进行筛选；

数据交互：利用无交互变量集、交互变量集、单变量无交互、递增中的一个或多个方式对基础数据的交互策略进行确定；

样本筛选：利用目标固定、等比压缩、异常样本、规则过滤和跨期验证中的一个或多个方式对基础数据中的样本进行筛选；

稳定性检测：目标洗牌、置换、分割和重新抽样中的一个或多个方式对参考模型的稳定性进行检测。

7.一种交互式的迭代建模系统，其特征在于，该系统包括：

源数据适配模块：用于适配不同数据来源实现数据导入；

数据集管理模块：用于对导入的数据进行预处理；

参数管理模块：用于对建模系统进行建模参数配置；

8.如权利要求7所述的一种交互式的迭代建模系统，其特征在于，所述自动化管理模块包括特征筛选单元、交互作用单元、样本筛选单元、稳定性检测单元和特征生成单元。