CN116993548A

CN116993548A - 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统

Info

Publication number: CN116993548A
Application number: CN202311016630.3A
Authority: CN
Inventors: 刘从军; 俞奕超; 薛峰; 郭昌言; 陈刚; 刘绍成; 黄健荣
Original assignee: Jiangsu Keda Huifeng Science And Technology Co ltd; Jiangsu University of Science and Technology
Current assignee: Jiangsu Keda Huifeng Science And Technology Co ltd; Jiangsu University of Science and Technology
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-03

Abstract

本发明公开了基于增量学习的LightGBM‑SVM的教育培训机构信用评估方法及系统，该方法包括：根据监管机构提供的教育培训机构的相关数据，构建建模样本集，并将样本集预处理后分为测试集和训练集；在增量学习框架下，运用SVM模型作为基础，结合LightGBM模型，搭建基于增量学习的LightGBM‑SVM模型；利用蜂群算法在训练集上选取SVM的最优化超平面参数和核函数参数，完成模型的优化；本发明充分利用了LightGBM和SVM的特点，LightGBM提供了较好的特征重要性排序，可以帮助识别影响信用评估的主要特征。而SVM的决策函数可以通过支持向量来解释，进一步提供模型的可解释性。

Description

基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统

技术领域

本发明涉及信用评估技术领域，具体涉及一种增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统。

背景技术

在现行社会生活中，教育和培训的需求在不断提升。为保护消费者权益并提高教育培训效果，对教育机构的信用评估变得日趋重要。然而，过去的信用评级方法常存在诸多限制，比如，传统方法在精度上不尽人意，对于大规模数据的处理效率低，对异常数据过于敏感等等。此外，传统评估模型在处理数据增量更新时效率不高。虽然已有如公告号为CN104463603B的信用评估方法从多个角度全面衡量了用户的信用可靠性，但与互联网数据增长的速度相比，该方法在精度上依然有待提高。

发明内容

发明目的：为了克服上述现有技术的不足，本发明提供一种基于增量学习的LightGBM-SVM的教育培训机构信用评估方法，本发明还提供基于增量学习的LightGBM-SVM的教育培训机构信用评估系统。

技术方案：一方面，本发明提供基于增量学习的LightGBM-SVM的教育培训机构信用评估方法，其特征在于，该方法包括以下步骤：

S1根据监管机构提供的教育培训机构的相关数据，构建建模样本集，并将样本集预处理后分为测试集和训练集；

S2在增量学习框架下，运用SVM模型作为基础，结合LightGBM模型，搭建基于增量学习的LightGBM-SVM模型；

S3利用蜂群算法在训练集上选取SVM的最优化超平面参数和核函数参数，完成模型的优化；

S4利用优化过的LightGBM-SVM模型对测试集进行预测，并以平均绝对误差为标准，与单一模型以及其他智能优化算法与优化过的LightGBM-SVM模型进行实验对比。

还包括：

S5将LightGBM-SVM信用评估模型部署到系统平台上，在系统平台上输出教育培训机构的信用评分，并定期对数据进行增量更新并投入到模型中进行进一步的训练；

S6将每个教育培训机构的信用评分反馈给监管部门，以便监管部门对存在问题的培训机构进行进一步处理。

进一步的，包括：

所述步骤S2中，搭建基于增量学习的LightGBM-SVM模型包括两部分确定增量学习策略和更新LightGBM-SVM模型，其中，确定增量学习策略包括：

S21获取初始训练集中的数据，对训练数据进行初始分类；

S22判断是否接收新的训练数据，若否，则接收测试数据后，输入到训练模型中，若是，则增量调整初始SVM模型；

S23再次判断是否接收新的训练数据，若是，则返回到步骤S21，若否，则结束增量学习；

更新LightGBM-SVM模型，包括：

(1)随机选择一个初始参数集，称为权值，记为w，并设置步长，记为α；

(2)在每次迭代中随机选择一个包含m个训练样本的小批量；

(3)将该小批量代入代价函数J(w)中，根据这个小批量，计算模型参数的梯度；

(4)用该梯度去更新模型参数：

其中，是对应与小批量数据集对应的梯度。

进一步的，包括：

(1)建立LightGBM模型：

初始化LightGBM模型的超参数，包括最大叶子节点数、最大树深度，从而获得一个基础模型；基础模型的平均绝对百分比误差MAPE为103％，效果一般，因此，需要对树深度与叶子节点数进行调参，做进一步的优化；

优化方法选择网格搜索，引入五折交叉验证，网格搜索过程如下：

首先声明一个基础模型model_lgb；

设置需要搜索的参数params_test1，支持range()方法；

设置GridSearchCV()，scoring为评估函数，cv＝5为五折交叉验证；

最终得到搜索结果，即参数设置成最大树深度为8，叶子结点数为40；

(2)用优化后的LightGBM对特征进行筛选；

将训练集输入到LightGBM模型中，提取输出的特征；使用筛选后的可解释性与可区分度排名靠前的四个特征作为SVM模型的输入；

(3)建立SVM模型。

进一步的，包括：

所述步骤S3具体包括：

S31在SVM中，决策函数表示为：

f(x)＝sign(w*x+b)

其中，w是超平面的法向量，x是输入样本，b是偏置项，目标是找到一组合适的w和b，使得决策函数能够对样本进行正确分类；

S32蜂群算法通过模拟蜜蜂搜索食物的行为来实现优化，它将候选解表示为蜜蜂在搜索空间中的位置，通过不断更新和评估候选解，以找到最优解，在其应用于SVM的优化中，蜜蜂的位置可以表示为超平面的参数w和b；

S33蜂群算法步骤：

初始化蜜蜂的位置和速度，即初始化超平面的参数w和b；

根据蜜蜂的位置计算适应度值，即评估超平面在训练数据上的分类性能；

更新蜜蜂的位置和速度，采用蜜蜂的搜索行为进行更新，使用局部搜索或全局搜索策略，以找到更好的解；

重复步骤S32和S33，直到满足停止条件，如达到最大迭代次数或适应度值收敛。

进一步的，包括：

超平面参数w和b的更新包括：

在蜂群算法中，超平面的更新使用位置和速度的公式进行推导和更新，假设超平面的参数为w和b，位置表示为x＝[w,b]，速度表示为v＝[v_w，v_b]，则超平面的更新可以表示为：

x_new＝x+v

其中，v的计算可以基于当前位置和速度来更新，具体公式可以根据算法的策略进行定义；

适应度值，即SVM的分类性能的计算通过超平面的参数w和b来实现；

更新速度的公式也根据蜜蜂的搜索策略来定义，以确保能够找到更好的解。

另一方面，本发明提供一种基于增量学习的LightGBM-SVM的教育培训机构信用评估系统，该系统包括：

样本集采集模块，用于根据监管机构提供的教育培训机构的相关数据，构建建模样本集，并将样本集预处理后分为测试集和训练集；

模型搭建模块，用于在增量学习框架下，运用SVM模型作为基础，结合LightGBM模型，搭建基于增量学习的LightGBM-SVM模型；

模型优化模块，其利用蜂群算法在训练集上选取SVM的最优化超平面参数和核函数参数，完成模型的优化；

对比模块，用于利用优化过的LightGBM-SVM模型对测试集进行预测，并以平均绝对误差为标准，与单一模型以及其他智能优化算法与优化过的LightGBM-SVM模型进行实验对比。

该系统，还包括：

部署模块，用于将LightGBM-SVM信用评估模型部署到系统平台上，在系统平台上输出教育培训机构的信用评分，并定期对数据进行增量更新并投入到模型中进行进一步的训练；

监管模块，用于将每个教育培训机构的信用评分反馈给监管部门，以便监管部门对存在问题的培训机构进行进一步处理。

进一步的，包括：

所述模型搭建模块中，搭建基于增量学习的LightGBM-SVM模型包括两部分确定增量学习策略和更新LightGBM-SVM模型，其中，确定增量学习策略包括：

获取初始训练集中的数据，对训练数据进行初始分类；

判断是否接收新的训练数据，若否，则接收测试数据后，输入到训练模型中，若是，则增量调整初始SVM模型；

再次判断是否接收新的训练数据，若是，则返回到步骤S21，若否，则结束增量学习；

更新LightGBM-SVM模型，包括：

随机选择一个初始参数集，称为权值，记为w，并设置步长，记为α；

在每次迭代中随机选择一个包含m个训练样本的小批量；

将该小批量代入代价函数J(w)中，根据这个小批量，计算模型参数的梯度；

用该梯度去更新模型参数：

其中，是对应与小批量数据集对应的梯度。

进一步的，包括：

(1)建立LightGBM模型：

首先声明一个基础模型model_lgb；

设置需要搜索的参数params_test1，支持range()方法；

设置GridSearchCV()，scoring为评估函数，cv＝5为五折交叉验证；

(2)用优化后的LightGBM对特征进行筛选；

(3)建立SVM模型。

进一步的，包括：

所述模型优化模块包括：

S31在SVM中，决策函数表示为：

f(x)＝sign(w*x+b)

S33蜂群算法步骤：

初始化蜜蜂的位置和速度，即初始化超平面的参数w和b；

在上面的基础上，本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被计算机处理器执行时实现上述所述的方法。

有益效果：(1)本发明充分利用了LightGBM和SVM的特点：在信用评估领域，模型的解释性和可解释性往往很重要。LightGBM提供了较好的特征重要性排序，可以帮助识别影响信用评估的主要特征。而SVM的决策函数可以通过支持向量来解释，进一步提供模型的可解释性。(2)相比于遗传算法、粒子群算法等智能优化算法，蜂群算法可以同时在不同的位置搜索并传递信息，这种并行性有助于更好地探索搜索空间。相比之下，遗传算法和粒子群算法更偏向于局部搜索。具有较好的鲁棒性，能够适应不同的问题和搜索空间。它可以通过合理的调整参数和策略来适应不同的优化问题。遗传算法和粒子群算法需要对问题进行较多的问题特定参数调整。蜂群算法具有自适应的特性，可以基于问题的性质和搜索过程进行动态调整。蜜蜂通过传递信息和观察当前搜索状态，可以调整搜索策略和行为，以适应不同的问题和目标。(3)将本发明的模型与增量学习框架相融合，更适合数据量不断增大的场景，可以实时维护，具有现实意义，可以应用于系统平台，创造社会价值。

附图说明

图1是本发明所述的评估方法流程图；

图2是本发明所述的增量学习策略流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，本发明是为了改良传统评估方法的一些不足，提供一种基于增量学习的LightGBM-SVM的教育培训机构信用评估方法。通过以下步骤实现:

S1：根据地方监管机构提供的教育培训机构相关数据(例如师资数据、营业执照、交易数据等)，构建一套有效的信用评估体系；

S2：依据信用评估体系，按照监管方要求，对每个指标进行加权，然后清洗数据，生成建模样本集，并将数据分为测试集和训练集；

S3：在增量学习框架下，运用SVM模型作为基础，结合LightGBM模型，搭建基于增量学习的LightGBM-SVM模型；

S4：利用蜂群算法在训练集上选取SVM的最优化超平面参数和核函数参数；

S5：利用优化过的LightGBM-SVM模型对测试集进行预测，并以平均绝对误差为标准，与单一模型以及其他智能优化算法优化过的LightGBM-SVM模型进行实验对比；采用均方根误差作为指标。

S6：将LightGBM-SVM信用评估模型部署到系统平台上，输出教育培训机构的信用评分，并定期对数据进行增量更新并投入到模型中进行进一步的训练；

S7：将每个教育培训机构的信用评分反馈给监管部门，以便监管部门对存在问题的培训机构进行进一步处理。

步骤S1根据我国各地监管方对培训机构的评估标准，建立以下更适应于我国校外培训机构的信用评估指标体系，如表1所示。因为在目前评级估过程中尚未能做到完全信息化，因此有些指标的评分标准为加分、扣分。

表1

所述步骤S2中数据预处理包括：

首先，从教育培训机构监管平台的数据库中获取相关数据，将其作为数据集并进行预处理。其中，样本数量为600，特征数量为28。

预处理包括缺失值处理、特征选择、特征缩放以及数据分割为训练集和测试集等。利用Z-Score归一化处理特征值中的字段，使得所有数据的数值都处在[0，1]区间，从而消除各维度数据之间的数量级差别。Z-Score归一化的公式如下：

其中，X是原始数据，X_mean是原始数据的均值，X_std是原始数据的标准差。处理后的数据，我们采用K折交叉验证法将其划分为训练集和测试集，其中训练集占70％，测试集占30％。

所述S3基于训练集，在增量学习框架下，构建LightGBM-SVM模型。构建步骤总共分为确定增量学习策略和构建LightGBM-SVM模型两步，如图1所示。

在增量学习框架下，首先，提供增量学习策略：

在实施增量学习策略时，需要选择一个有限大小的历史数据集。由于资源限制，您可以选择代表性强且能够涵盖关键概念变化的样本作为历史数据。为了更新历史数据集，可以采用随机替换的方法，而不是顺序替换。顺序替换可能导致遗忘历史数据中的一些重要模式或信息，特别是当数据的分布在时间上发生改变时。相比之下，随机替换允许新到来的样本替换缓冲区中的任何样本，而不仅仅是最旧的样本。随机替换有助于保持概念漂移的多样性，即数据的概率分布可能随着时间的推移而改变。这种方式可以尽量保留旧的重要模式，同时也接纳新的模式，从而保持数据的代表性。

在增量学习中，批量学习方法用于在累积一定数量的新数据后进行模型更新。批量学习适合于那些离线模型训练时间相对较长，但最终模型表现稳定的场景。采用小批量梯度下降法可以控制计算复杂度，并增强模型效果，如图2所示。

小批量梯度下降法是在每轮更新中使用一小部分训练样本的方法。它的核心思想是，每次迭代时只使用一小批数据(例如32、64、128等)，而不是对所有样本进行计算。这样的好处是可以利用计算机的内存来处理更大量的独立空间的数据，并降低计算复杂度。

具体步骤如下：

(2)在每次迭代中随机选择一个包含m个训练样本的小批量；

(4)用该梯度去更新模型参数：

其中，是对应与小批量数据集对应的梯度。

相比于批量梯度下降，小批量梯度下降可以实现更快的模型参数更新和收敛速度，并且相对于随机梯度下降更稳定。

构建LightGBM模型，包括：

(1)首先，建立LightGBM模型：

初始化LightGBM模型的超参数，包括最大叶子节点数、最大树深度等，从而获得一个基础模型；基础模型的平均绝对百分比误差MAPE为103％，效果一般。因此，需要对树深度与叶子节点数进行调参，做进一步的优化。

优化方法选择网格搜索，引入五折交叉验证。网格搜索过程如下：

首先声明一个基础模型model_lgb

设置需要搜索的参数params_test1，支持range()方法

设置GridSearchCV()，scoring为评估函数，cv＝5为五折交叉验证

最终得到搜索结果，即参数设置成最大树深度为8，叶子结点数为40。

(2)用优化后的LightGBM对特征进行筛选。

将训练集输入到LightGBM模型中，提取输出的特征；使用筛选后的可解释性与可区分度排名靠前的四个特征作为SVM模型的输入。

(3)建立SVM模型。

所述步骤S4在训练集上利用蜂群算法搜索SVM的搜索最优的超平面参数、核函数参数，经过理论和实验的论证，有关蜂群算法优化SVM的推导过程如下：

(1)在SVM中，决策函数可以表示为：

f(x)＝sign(w*x+b)

其中，w是超平面的法向量，x是输入样本，b是偏置项。目标是找到一组合适的w和b，使得决策函数能够对样本进行正确分类。

(2)蜂群算法通过模拟蜜蜂搜索食物的行为来实现优化。它将候选解表示为蜜蜂在搜索空间中的位置，通过不断更新和评估候选解，以找到最优解。在其应用于SVM的优化中，蜜蜂的位置可以表示为超平面的参数w和b。

(3)蜂群算法步骤：

初始化蜜蜂的位置和速度，即初始化超平面的参数w和b。

根据蜜蜂的位置计算适应度值，即评估超平面在训练数据上的分类性能。

更新蜜蜂的位置和速度，采用蜜蜂的搜索行为进行更新。可以使用某些策略，如局部搜索和全局搜索，以找到更好的解。

重复步骤2和3，直到满足停止条件，如达到最大迭代次数或适应度值收敛。

(4)优化SVM的蜂群算法公式推导：

在蜂群算法中，超平面的更新可以使用位置和速度的公式进行推导和更新。假设超平面的参数为w和b，位置表示为x＝[w,b]，速度表示为v＝[v_w，v_b]。则超平面的更新可以表示为：

x_new＝x+v

其中，v的计算可以基于当前位置和速度来更新，具体公式可以根据算法的策略进行定义。

适应度值(即SVM的分类性能)的计算可以通过超平面的参数w和b来实现。

更新速度的公式也可以根据蜜蜂的搜索策略来定义，以确保能够找到更好的解。

该系统，还包括：

进一步的，包括：

获取初始训练集中的数据，对训练数据进行初始分类；

更新LightGBM-SVM模型，包括：

在每次迭代中随机选择一个包含m个训练样本的小批量；

用该梯度去更新模型参数：

其中，是对应与小批量数据集对应的梯度。

进一步的，包括：

所述模型优化模块包括：

S31在SVM中，决策函数表示为：

f(x)＝sign(w*x+b)

S33蜂群算法步骤：

初始化蜜蜂的位置和速度，即初始化超平面的参数w和b；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于增量学习的LightGBM-SVM的教育培训机构信用评估方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述步骤S2中，搭建基于增量学习的LightGBM-SVM模型包括两部分确定增量学习策略和更新LightGBM-SVM模型，其中，首先，确定增量学习策略包括：

S21获取初始训练集中的数据，对训练数据进行初始分类；

更新LightGBM-SVM模型，包括：

(2)在每次迭代中随机选择一个包含m个训练样本的小批量；

(4)用该梯度去更新模型参数：

其中，是对应与小批量数据集对应的梯度。

4.根据权利要求3所述的方法，其特征在于，所述步骤S2还包括：

(1)建立LightGBM模型：

首先声明一个基础模型model_lgb；

设置需要搜索的参数params_test1，支持range()方法；

设置GridSearchCV()，scoring为评估函数，cv＝5为五折交叉验证；

(2)用优化后的LightGBM对特征进行筛选；

(3)建立SVM模型。

5.根据权利要求4所述的方法，其特征在于，所述步骤S3包括：

S31在SVM中，决策函数表示为：

f(x)＝sign(w*x+b)

S33蜂群算法步骤：

初始化蜜蜂的位置和速度，即初始化超平面的参数w和b；

6.根据权利要求5所述的方法，其特征在于，超平面参数w和b的更新包括：

x_new＝x+v

7.一种基于增量学习的LightGBM-SVM的教育培训机构信用评估系统，其特征在于，该系统包括：

8.根据权利要求7所述的系统，还包括：

9.根据权利要求7或8所述的系统，其特征在于，所述模型搭建模块中，建立LightGBM模型：

首先声明一个基础模型model_lgb；

设置需要搜索的参数params_test1，支持range()方法；

设置GridSearchCV()，scoring为评估函数，cv＝5为五折交叉验证；

(2)用优化后的LightGBM对特征进行筛选；

(3)建立SVM模型。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序在被计算机处理器执行时实现如权利要求1至6任一项所述的方法。