CN108334954A

CN108334954A - 逻辑回归模型的构建方法、装置、存储介质及终端

Info

Publication number: CN108334954A
Application number: CN201810058831.2A
Authority: CN
Inventors: 王进
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-07-27

Abstract

本发明适用于通信技术领域，提供了一种逻辑回归模型的构建方法，所述分析方法包括：获取样本数据，对所述样本数据进行预处理；将预处理后的所述样本数据导出至Excel文档中；生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。本发明实现了在构建逻辑回归模型的过程中对样本数据的单调性校验，且实现了可视化的操作界面，有利于快速地检视样本数据的单调性，提高了单调性校验的效率，以及提高了所构建模型的稳定性和准确性。

Description

逻辑回归模型的构建方法、装置、存储介质及终端

技术领域

本发明属于通信技术领域，尤其涉及一种逻辑回归模型的构建方法、装置、存储介质及终端。

背景技术

逻辑回归(logistic regression)模型是研究因变量为二类观察结果与影响因数(自变量)之间关系的一种多变量分析方法，属概率型非线性回归。在利用逻辑回归模型进行数据建模时，若输入模型的变量不单调时，会大大地降低模型整体的准确性、稳定性。

发明内容

本发明实施例提供了一种逻辑回归模型的构建方法、装置、存储介质及终端，以解决现有技术中输入模型的变量不单调时，模型的准确性低、稳定性不佳的问题。

本发明实施例提供了一种逻辑回归模型的构建方法，所述构建方法包括：

获取样本数据，对所述样本数据进行预处理；

将预处理后的所述样本数据导出至Excel文档中；

生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；

将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。

可选地，所述获取样本数据，对所述样本数据进行预处理包括：

剔除所述样本数据中的异常数据；

从已剔除异常数据的所述样本数据中获取数值型变量，对每一个数值型变量执行分箱操作；

针对同一数值型变量的每一分箱，计算每一分箱内数据的特征信息度IV值；

剔除特征信息度IV值最小的分箱及其内数据。

可选地，所述对所述Excel文档中的样本数据进行单调性校验及调整包括：

针对同一数值型变量，计算每一分箱的WOE值；

统计所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减变化趋势的分箱数；

选取分箱数较大的变化趋势作为所述数值型变量的目标变化趋势；

调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势；

其中，第i分箱的WOE_i值的计算公式为：

在上式中，py_i表示同一数值型变量对应的第i分箱数据中正样本与所有分箱数据中所有正样本的比例；pn_i表示同一数值型变量对应的第i分箱数据中负样本与所有分箱数据中所有负样本的比例。

可选地，所述调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势包括：

遍历同一数值型变量对应的所有分箱，获取与所述目标变化趋势不一致的分箱作为待调整分箱；

获取所述待调整分箱的相邻分箱；

合并所述待调整分箱和所述相邻分箱，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势。

可选地，所述根据所述目标变化趋势，调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势还包括：

以直方图的方式输出所述数值型变量对应的所有分箱的WOE值。

基于所述直方图获取用户操作指令，根据所述用户操作指令获取待调整分箱，合并所述待调整分箱。

可选地，所述构建方法还包括：

调用所述逻辑回归模型，根据因变量预测目标变量在指定时间范围内的变化情况，以评估模型的准确度。

本发明实施例还提供了一种逻辑回归模型的构建装置，所述构建装置包括：

预处理模块，用于获取样本数据，对所述样本数据进行预处理；

导出模块，用于将预处理后的所述样本数据导出至Excel文档中；

校验调整模块，用于生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；

训练模块，用于将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。

可选地，所述校验调整模块包括：

权重计算单元，用于针对同一数值型变量，计算每一分箱的WOE值；

统计单元，用于统计所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减变化趋势的分箱数；

选取单元，用于选取分箱数较大的变化趋势作为所述数值型变量的目标变化趋势；

调整单元，用于调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势；

其中，第i分箱的WOE_i值的计算公式为：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现如上所述的逻辑回归模型的构建方法所述的步骤。

本发明实施例还提供了一种终端，所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的逻辑回归模型的构建方法的所述的步骤。

与现有技术相比，本发明实施例将Excel文档和VBA技术结合应用到回归模型的构建过程中；通过获取样本数据，对所述样本数据进行预处理后，将预处理后的所述样本数据导出到Excel文档中；然后生成VBA任务，执行所述VBA任务，根据所述Excel文档中的样本数据生成可视化图表，对所述Excel文档中的样本数据进行单调性校验及调整，以保持样本数据的单调性；最后以单调性校验及调整后的样本数据作为训练集，训练目标变量的逻辑回归模型；从而实现了在构建逻辑回归模型的过程中对样本数据的单调性校验，且实现了可视化的操作界面，有利于快速地检视样本数据的单调性，基于单调性调整后的样本数据可有效地提高所构建模型的稳定性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的逻辑回归模型的构建方法的第一实现流程图；

图2是本发明实施例提供的逻辑回归模型的构建方法的第二实现流程图；

图3是本发明实施例提供的逻辑回归模型的构建方法的第三实现流程图；

图4是本发明实施例提供的逻辑回归模型的构建方法的第四实现流程图；

图5是本发明实施例提供的以直方图的方式输出WOE值的示例图；

图6是本发明实施例提供的基于图5人工单调性调整后的WOE值的示例图；

图7是本发明实施例提供的逻辑回归模型的构建装置的组成结构图；

图8是本发明实施例提供的终端的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的逻辑回归模型的构建方法的第一实现流程。本发明实施例提供的所述逻辑回归模型的构建方法应用于终端，包括但不限于计算机、服务器。参阅图1，所述构建方法包括：

在步骤S101中，获取样本数据，对所述样本数据进行预处理。

在这里，本发明实施例要构建逻辑回归模型，根据逻辑回归模型是研究因变量为二类观察结果与影响因数(自变量)之间关系的一种多变量分析方法，需要获取正负样本。其中，所述正样本为响应数据，负样本为作为参照的未响应数据。然后对所述样本数据进行预处理，以修正所述样本数据中的异常数据，提高样本数据的质量，以及降低参与单调性校验的样本数据维度。

在步骤S102中，将预处理后的所述样本数据导出至Excel文档中。

本发明实施例利用Excel+VBA技术来对单调性不一致的样本数据进行调整，在调整前，需要将所述预处理后的样本数据导出到Excel文档中，并在所述Excel文档中展示所述样本数据，以实现对所述样本数据的可视化操作。

在步骤S103中，生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整。

在这里，VBA是Visual Basic For Application的简称，为Visual Basic的一种宏语言，是建立在Office中的一种应用程序开发工具，可以对Excel进行二次开发，以自定义和扩展Excel的功能。在将样本数据导出到Excel文档之后，本发明实施例读取预先设定的VBA代码，生成指定的VBA任务。在本发明实施例中，所述VBA任务为对样本数据进行单调性校验，包括：自动执行所述VBA任务中的自编单调性校验程序及调整程序，以完成对所述样本数据的机器单调性校验及调整；和/或获取用户根据所述Excel文档输入的操作指令，执行所述操作指令对应的VBA任务，以完成对所述样本数据的人工单调性校验及调整。

在本发明实施例中，所述Excel文档中的样本数据均可作为逻辑归回模型的输入变量，所述单调性校验是指检验每一个变量对应的在所述Excel文档中的样本数据的增减性，所述单调性调整是指对单调性不一致的变量对应的样本数据进行调整，以保持所述变量的单调性，为单调递增或者单调递减。

在步骤S104中，将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。

当完成对样本数据的单调性调整后，本发明实施例将调整后的样本数据重新导入至数据库中；然后以单调性调整后的样本数据作为训练集输入至预设的逻辑回归模型，以训练目标变量的逻辑回归模型。在这里，所述目标变量根据具体业务需求设置，此处不做限制。由于输入逻辑回归模型的所述样本数据的单调性一致，大大地提高了所得到的逻辑回归模型对目标变量的预测准确性和稳定性。

可选地，在训练之前，本发明实施例还可以对单调性调整后的样本数据进行归一化处理，将不同类型的数据转换为同样的量纲标准，以便于构建逻辑回归模型，提高模型构建的效率。

可选地，在逻辑回归模型构建完之后，本发明实施例还可以对所构建的逻辑回归模型进行评估，所述构建方法还可以包括：

在这里，本发明实施例采用时间平移的方式对逻辑回归模型进行校验，即将指定的因变量输入至逻辑回归模型中，预测目标变量在未来一段时间内的变化情况，并与实际情况进行比对，得到预测命中率、覆盖率及提升度。基于所述预测命中率、覆盖率及提升度对所述模型进行评估、修正，以进一步提高逻辑回归模型的准确度和稳定性。

综上所述，本发明实施例通过开发单调性校验及调整的Excel+VBA模板，并应用到逻辑回归模型的构建过程中；通过将样本数据导出到Excel文档中，然后执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整，以保持样本数据的单调性；最后以单调性校验及调整后的样本数据作为训练集，训练逻辑回归模型；从而实现了在构建逻辑回归模型的过程中对样本数据的单调性校验，保证了样本数据的一致性，有效地提高了所构建模型的稳定性和准确性；且实现了可视化的校验、调整过程，能够快速地检视样本数据的单调性，提高了单调性校验的效率。

进一步地，基于图1提供的逻辑回归模型的构建方法的第一实现流程的基础上，提出本发明实施例提供的逻辑回归模型的构建方法的第二实现流程。

如图2所示，是本发明实施例提供的逻辑回归模型的构建方法的第二实现流程示意图。在本发明实施例中，所述步骤S101获取样本数据，对所述样本数据进行预处理包括：

在步骤S1011中，获取样本数据，剔除所述样本数据中的异常数据。

在本发明实施例中，所述异常数据是指样本中的个别值，其数值明显偏离所属样本的其余观测值，也称离群值，将这些异常数据和正常数据放在一起进行统计会影响到结果的正确性，因此，需要对样本数据中的异常数据进行剔除，所述异常数据包括但不限于缺失值、异常值以及最小值。在这里，可以采用统计判别法来对异常值进行判别及剔除。所谓统计判别法是指给定一个置信概率，并确定一个置信限，凡超过此限的误差样本数据，则认为其不属于随机误差范围内，将其视为异常数据进行剔除。本发明实施例通过剔除异常值，有效地提高了样本数据的质量。

在步骤S1012中，从已剔除异常数据的所述样本数据中获取数值型变量，对每一个数值型变量执行分箱操作。

在这里，所述数值型变量是指数据类型为数值的变量，所述数值型变量又包括整数类型，比如byte、short、int、long，和浮点类型，比如float、double。针对每一个数值型变量进行分箱操作。其中，分箱是按照属性值划分子区间，若数值型变量的某个样本数值处于某个子区间范围内，则把该数值放入该子区间代表的箱子内。分箱是一种常用的数据预处理方法，通过考察相邻数据来确定最终值。

可选地，在本发明实施例中，可以采用无监督分箱方式来对每一个数值型变量进行机器分箱，包括等频分箱法、等宽分箱法。其中，等频分箱是指将数值型变量对应的样本数据按照从小到大的顺序排列，根据观测的个数等分为k部分，每一部分当做一个分箱；等宽分箱是指将数值型变量的取值范围分为k个等宽区间，每个区间当做一个分箱。本发明实施例通过分箱操作来对数值型变量进行平滑以消除噪声。

在步骤S1013中，针对同一数值型变量的每一分箱，计算每一分箱内数据的特征信息度IV值。

在这里，IV的全称是Information Value，中文意思为信息价值或信息度。在本发明实施例中，所述特征信息度IV值用于衡量数值型变量中某个或某些样本数据的预测能力，以判定是否将这些样本数据用于训练逻辑回归模型。

针对同一数值型变量的每一分箱数据，均对应一个特征信息度IV值，其中第i分箱数据的特征信息度IV值的计算公式如下：

在上式中，py_i表示同一数值型变量对应的第i分箱数据中正样本与所有分箱数据中所有正样本的比例；pn_i表示同一数值型变量对应的第i分箱数据中负样本与所有分箱数据中所有负样本的比例。特征信息度IV值越大，表明所述特征信息度IV值对应的分箱数据对因变量的影响程度越大，即该分箱中样本数据的预测能力越强，反之则影响程度越小，即该分箱中样本数据的预测能力越弱。

在步骤S1014中，剔除特征信息度IV值最小的分箱及其内数据。

在通过步骤S1013得到同一数值型变量对应的每一分箱的特征信息度IV值之后，比较所述特征信息度IV值，获取最小值对应的分箱，从而得到对因变量的影响程度最小的样本数据，剔除所述样本数据。

遍历每一个数值型变量，执行步骤S1012至步骤S1014，剔除每一数值型变量中预测能力最弱的样本数据。本发明实施例通过计算特征信息度IV值来剔除样本数据，大大地降低了参与单调性校验的数据维度及可靠性，有利于提高回归模型构建的稳定性和准确度。

进一步地，基于图1提供的逻辑回归模型的构建方法的第一实现流程的基础上，提出本发明实施例提供的逻辑回归模型的构建方法的第三实现流程。

如图3所示，是本发明实施例提供的逻辑回归模型的构建方法的第三实现流程示意图。在本发明实施例中，所述步骤S103中对所述Excel文档中的样本数据进行单调性校验及调整包括：

在步骤S1031中，针对同一数值型变量，计算每一分箱的WOE值。

在这里，WOE是英文Weight Of Evidence的缩写，中文意思为证据权重，是对原始自变量的一种编码形式。在完成对同一数值型变量的分箱之后，计算每一分箱的WOE值，得到每一分箱的权重。其中，第i分箱的WOE_i值的计算公式为：

在上式中，WOE_i表示第i分箱的WOE值，即权重；py_i表示同一数值型变量对应的第i分箱数据中正样本与所有分箱数据中所有正样本的比例；pn_i表示同一数值型变量对应的第i分箱数据中负样本与所有分箱数据中所有负样本的比例。

其中，py_i＝#y_i/#y_T，pn_i＝#n_i/#n_T，所述#y_i表示第i分箱数据中正样本的数量，#n_i表示第i分箱数据中负样本的数量，#y_T表示该数值型变量对应的所有正样本的数量，#n_T表示该数值型变量对应的所有负样本的数量。

从上式可以知道，WOE值表示“当前分箱数据中正样本占数值型变量对应的所有正样本的比例”和“当前分箱数据中负样本占数值型变量对应的所有负样本的比例”，通过公式变形可以得到WOE值还表示“当前分箱数据中正样本和负样本的比值”和“数值型变量对应的所有样本数据中正样本和负样本的比值”的差异。WOE值越大，表示的差异越大，对应分箱中样本数据出现正样本的可能性越大；WOE值越小，表示的差异越小，对应分箱中样本数据出现正样本的可能性越小。

在步骤S1032中，统计所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减变化趋势的分箱数。

本发明实施例针对同一数值型变量，统计其所有分箱的WOE值，以分析每一分箱数据中出现正样本的可能性；综合比较所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减变化趋势的分箱数。

示例性地，在第一示例中，若一个数值型变量对应的所有分箱有12个，这12个分箱的WOE值呈连续递增变化，则将续递增变化趋势的分箱数赋值为12，连续递减变化趋势的分箱数赋值为0。

在第二示例中，若一个数值型变量对应的所有分箱有12个，这12个分箱的WOE值中，第1至2分箱呈连续递减变化，第3至4分箱呈连续递增变化，第5至6分箱呈连续递减变化，第7至12分箱呈连续递增变化，经统计，WOE值呈连续递增变化趋势的分箱数为8，WOE值呈连续递减变化趋势的分箱数为4，则将续递增变化趋势的分箱数赋值为8，连续递减变化趋势的分箱数赋值为4。

在步骤S1033中，选取分箱数较大的变化趋势作为该数值型变量的目标变化趋势。

在这里，本发明实施例通过比较WOE值呈连续递增变化趋势的分箱数和WOE值呈连续递减变化趋势的分箱数，以其中分箱数较大的变化趋势作为该数值型变量的目标变化趋势。所述目标变化趋势为对该数值型变量进行单调性调整的目标趋势。

示例性地，如步骤S1032中所述的，在第一示例中，连续递增变化趋势的分箱数赋值为12，连续递减变化趋势的分箱数赋值为0，12>0，选择续递增变化趋势作为目标变化趋势。在第二示例中，连续递增变化趋势的分箱数赋值为8，连续递减变化趋势的分箱数赋值为4，8>4，选择续递增变化趋势作为目标变化趋势。

在步骤S1034中，调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势。

在获取到目标变化趋势之后，重新调整所述数值型变量的分箱方式，包括但不限于分箱数量、分箱宽度，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势，为单调递增或者单调递减。遍历每一个数值型变量，重复执行步骤S1031至步骤S1034，即有多少个数值型变量就进行多少次单调性校验及调整。

可选地，作为本发明的一个优选示例，步骤S1034重新调整分箱方式包括机器重新调整的方式以及人工调整的方式。图4示出了本发明实施例提供的步骤S1034中调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势包括：

在步骤S401中，遍历同一数值型变量对应的所有分箱，获取与所述目标变化趋势不一致的分箱作为待调整分箱。

本发明实施例针对同一数值型变量，获取其所有的分箱，将分箱的WOE值的变化趋势与所述目标变化趋势进行比对，获取与所述目标变化趋势不一致的分箱作为待调整分箱。

示例性地，如前步骤S1032所述的第二示例中，第1至2分箱呈连续递减变化，第3至4分箱呈连续递增变化，第5至6分箱呈连续递减变化，第7至12分箱呈连续递增变化，目标变化趋势为连续递增。经过比对，可以得到第1至2、第5至6分箱与目标变化趋势不一致，作为待调整分箱。

在步骤S402中，获取所述待调整分箱的相邻分箱。

在这里，对于第i分箱，其相邻分箱包括第i+1分箱和第i-1分箱。示例性地，如前所述，第1至2、第5至6分箱作为待调整分箱时，第1分箱的相邻分箱包括第2分箱；第2分箱的相邻分箱包括第1分箱和第3分箱；第5分箱的相邻分箱包括第4分箱和第6分箱；第6分箱的相邻分箱包括第5分箱和第7分箱。

在步骤S403中，合并所述待调整分箱和所述相邻分箱，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势。

将所述待调整分箱和所述相邻分箱进行合并，即将所述待调整分箱和所述相邻分箱的样本数值放入同一区间内，得到合并分箱；然后计算合并分箱的WOE值，与其他未合并分箱的WOE值进行比较，以强制性地调整分箱的WOE值的变化趋势。如前所述，将第1至7分箱进行合并。合并之后，计算合并分箱的WOE值，继续校验分箱合并后的数值型变量的WOE值变化趋势，若满足目标变化趋势，则所述数值型变量的单调性校验完成。

可选地，在步骤S403之后，若机器合并相邻分箱后的分箱之间未满足所述目标变化趋势，还可以进行人工调整。所述步骤S1034中还可以包括：

在步骤S404中，以直方图的方式输出所述数值型变量对应的所有分箱的WOE值。

在这里，本发明实施例通过Excel文档输出所述数值型变量对应的所有分箱的WOE值，以提示用户对所述数值型变量进行人工分箱。输出的方式优选为直方图，每一分箱的WOE值对应一个柱子，该柱子的方向、颜色与WOE值的正负相关，比如WOE值为正数时，柱子向右延伸且为浅灰色；WOE值为负数时，柱子向左延伸且为深灰色；WOE值的绝对值越大，柱子的延伸长度越大。可选地，图5示出了本发明实施例提供的以直方图的方式输出WOE值的示例图。在图5中，数值型变量的名称为Col-name，通过以直方图的方式输出输出WOE值，用户可以直观地观测到各分箱的WOE值以及WOE值之间的变化趋势，大大地提升了用户的体验感。

在步骤S405中，基于所述直方图获取用户操作指令，根据所述用户操作指令获取待调整分箱，合并所述待调整分箱。

可选地，用户可以基于所述直方图人工分析WOE值得到所述数值型变量的机器分箱情况，做出分箱重调整的策略，并输入调整指令以及待调整分箱的序号。终端基于所述直方图获取用户操作指令，获取待调整分箱，对用户指定的所述待调整分箱进行合并，以使调整后的分箱的WOE值符合目标变化趋势。

示例性地，以图5为例，机器分箱得到第2分箱至第6分箱如深色部分所显示，WOE值为负数，变化趋势规律不明显；第7箱至第12箱如浅色部分所显示，WOE值为正数，呈现单调递增趋势。经过步骤S405进行人工调整时，用户可以将机器分箱中的第1分箱至第6分箱划为一个分箱，将第7、8分箱划为一个分箱，将第9、10分箱划为一个分箱，将第11、12分箱划为一个分箱。终端据此合并所述待调整分箱，以使调整后的分箱的WOE值符合单调递增趋势。图6示出了本发明实施例提供的基于图5人工单调性调整后的WOE值的示例图。在图6中，经人工分箱及调整宽度后，从直方图可直观得到所有分箱的WOE值呈现单调递增，符合目标变化趋势。

本发明实施例通过结合Excel和VBA技术开发单调性校验及调整的模板，实现了可视化的校验、调整过程，能够快速地检视样本数据的单调性，提高了模型构建的效率。

应理解，在上述实施例中，各步骤的序号的大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

图7示出了本发明实施例提供的逻辑回归模型的构建装置的组成结构图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，所述逻辑回归模型的构建装置用于实现上述图1、图2、图3、图4实施例中所述的逻辑回归模型的构建方法，可以是内置于终端的软件单元、硬件单元或者软硬件结合的单元。

参阅图7，所述逻辑回归模型的构建装置包括：

预处理模块71，用于获取样本数据，对所述样本数据进行预处理；

导出模块72，用于将预处理后的所述样本数据导出至Excel文档中；

校验调整模块73，用于生成VBA任务，执行所述VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整；

训练模块74，用于将单调性校验及调整后的样本数据从所述Excel文档导入至数据库中，并作为训练集以训练目标变量的逻辑回归模型。

可选地，所述预处理模块71包括：

第一剔除单元711，用于获取样本数据，剔除所述样本数据中的异常数据；

分箱单元712，用于从已剔除异常数据的所述样本数据中获取数值型变量，对每一个数值型变量执行分箱操作；

特征信息度计算单元713，用于针对同一数值型变量的每一分箱，计算每一分箱内数据的特征信息度IV值；

第二剔除单元714，用于剔除特征信息度IV值最小的分箱及其内数据。

可选地，所述校验调整模块73包括：

权重计算单元731，用于针对同一数值型变量，计算每一分箱的WOE值；

统计单元732，用于统计所有分箱的WOE值，获取WOE值呈连续递增变化趋势的分箱数和/或WOE值呈连续递减变化趋势的分箱数；

选取单元733，用于选取分箱数较大的变化趋势作为所述数值型变量的目标变化趋势；

调整单元734，用于调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势；

其中，第i分箱的WOE_i值的计算公式为：

可选地，所述调整单元734还包括：

待调整分箱获取单元，用于遍历同一数值型变量对应的所有分箱，获取与所述目标变化趋势不一致的分箱作为待调整分箱；

相邻分箱获取单元，用于获取所述待调整分箱的相邻分箱；

第一合并单元，用于合并所述待调整分箱和所述相邻分箱，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势。

可选地，所述调整单元734还包括：

输出单元，用于以直方图的方式输出所述数值型变量对应的所有分箱的WOE值。

第二合并单元，用于基于所述直方图获取用户操作指令，根据所述用户操作指令获取待调整分箱，合并所述待调整分箱。

本发明实施例通过开发单调性校验及调整的Excel+VBA模板，并应用到逻辑回归模型的构建过程中；通过导出模块72将样本数据导出到Excel文档中，然后通过校验调整模块73执行VBA任务，对所述Excel文档中的样本数据进行单调性校验及调整，以保持样本数据的单调性；最后通过训练模块74将单调性校验及调整后的样本数据到入至数据库中，作为训练集训练逻辑回归模型；从而实现了在构建逻辑回归模型的过程中对样本数据的单调性校验，有效地提高了所构建模型的稳定性和准确性；且实现了可视化的校验、调整过程，能够快速地检视样本数据的单调性，提高了单调性校验的效率。

可选地，所述构建装置还包括：

校验模块，用于调用所述逻辑回归模型，根据因变量预测目标变量在指定时间范围内的变化情况，以评估模型的准确度。

需要说明的是，本发明实施例中的各模块/单元可以用于实现上述方法实施例中的全部技术方案，其具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中逻辑回归模型的构建方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中逻辑回归模型的构建装置中各模块/单元的功能，为避免重复，这里不再赘述。

实施例4

图8是本发明实施例提供的一种终端的示意图，所述终端包括但不限于服务器、移动终端。如图8所示，该实施例的终端8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82时实现上述逻辑回归模型的构建方法实施例中的步骤，例如图1所示的步骤S101至S104，图2实施例中所述的步骤S1011至S1014，图3实施例中所述的步骤S1031至S1034以及图4实施例中所述的步骤S401至步骤S405，或者，所述处理器80执行所述计算机程序82时实现上述逻辑回归模型的构建装置实施例中各模块/单元的功能，例如图7所示模块71至74的功能。

示例性的，所述计算机程序82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述终端8中的执行过程。例如，所述计算机程序82可以被分割成预处理模块、导出模块、校验调整模块、训练模块，各模块具体功能如下：

所述终端8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是终端8的示例，并不构成对终端8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

所述存储器81可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(Smart MediaCard，SMC)、安全数字卡(Secure Digital，SD)、闪存卡(Flash Card)，至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种逻辑回归模型的构建方法，其特征在于，所述构建方法包括：

获取样本数据，对所述样本数据进行预处理；

将预处理后的所述样本数据导出至Excel文档中；

2.如权利要求1所述的逻辑回归模型的构建方法，其特征在于，所述获取样本数据，对所述样本数据进行预处理包括：

获取样本数据，剔除所述样本数据中的异常数据；

剔除特征信息度IV值最小的分箱及其内数据。

3.如权利要求1所述的逻辑回归模型的构建方法，其特征在于，所述对所述Excel文档中的样本数据进行单调性校验及调整包括：

针对同一数值型变量，计算每一分箱的WOE值；

其中，第i分箱的WOE_i值的计算公式为：

4.如权利要求3所述的逻辑回归模型的构建方法，其特征在于，所述调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势包括：

获取所述待调整分箱的相邻分箱；

5.如权利要求3或4所述的逻辑回归模型的构建方法，其特征在于，所述根据所述目标变化趋势，调整所述数值型变量的分箱方式，以使调整后的所述数值型变量对应的分箱之间呈现所述目标变化趋势还包括：

以直方图的方式输出所述数值型变量对应的所有分箱的WOE值；

6.如权利要求1所述的逻辑回归模型的构建方法，其特征在于，所述构建方法还包括：

7.一种逻辑回归模型的构建装置，其特征在于，所述装置包括：

8.如权利要求7所述的逻辑回归模型的构建装置，其特征在于，所述校验调整模块包括：

其中，第i分箱的WOE_i值的计算公式为：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序由处理器执行时实现权利要求1至6任一项所述的逻辑回归模型的构建方法所述的步骤。

10.一种终端，所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述权利要求1至6任一项所述的逻辑回归模型的构建方法所述的步骤。