CN114611598A

CN114611598A - 一种分群处理方法及装置

Info

Publication number: CN114611598A
Application number: CN202210225895.3A
Authority: CN
Inventors: 黄佳玥
Original assignee: Industrial Consumer Finance Co Ltd
Current assignee: Industrial Consumer Finance Co Ltd
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-10

Abstract

本发明提供了一种分群处理方法及装置，其中，该方法包括：获取训练样本的分群特征；根据该分群特征的分群节点对该训练样本进行分群建模；根据建立的分群模型与基于该训练样本建立的全样本基准模型进行分群处理，可以解决相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题，根据分群节点进行分群建模，可以提升分群后模型效果，可以满足目标需求。

Description

一种分群处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种分群处理方法及装置。

背景技术

聚类算法可以实现对客户进行分群的目的，但由于其为无监督算法，采取此算法获得的客户分群一是容易缺乏解释性，难以描述每个客群的特征，二是无法满足分群后，对不同客群建模提升整体模型精度的需求，极有可能造成无监督聚类得到的分群，分群建模后反而使整体模型效果下降。

决策树算法是一种有监督学习算法，得到的分群直观可解释，但采用此算法需要预先获得一批带有分群标签的样本，而在探索分群建模这一问题上，建模人员并没有“准确”的分群标签样本，无法直接使用此算法解决目标问题。

在样本没有已知分群标记的情况下，通常会使用无监督算法将数据集分成一个个簇(可理解为一个个小组)，从而实现客户的分群，但无监督聚类的算法也会带来上述问题，无法根本性满足目标需求。

针对相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种分群处理方法及装置，以至少解决相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题。

根据本发明的一个实施例，提供了一种分群处理方法，包括：

获取训练样本的分群特征；

根据所述分群特征的分群节点对所述训练样本进行分群建模；

根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。

可选地，根据所述分群特征的分群节点对所述训练样本进行分群建模包括：

根据所述训练样本或分群的每个分群特征的每个分群节点对所述训练样本进行分群，得到多组分群，其中，每组分群包括两个分群；

分别对每组分群进行建模，得到每组分群对应的多组分群模型，其中，每组分群模型包括两个分群模型。

可选地，根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理包括：

将每组分群模型进行融合，得到多个融合模型；

从所述多个融合模型中选取最优融合模型；

根据所述最优融合模型与所述全样本基准模型进行分群处理。

可选地，从所述多个融合模型中选取最优融合模型包括：

分别确定所述多个融合模型的预测效果值；

从每个分群特征对应的多个融合模型中选取每个分群特征对应的预测效果值最大的目标融合模型；

从所有分群特征对应的多个目标融合模型中选取所述预测效果值最大的所述最优融合模型。

可选地，所述方法还包括：

将所述最优融合模型对应的分群节点确定为目标分群节点；

在分群树上为对应的分群设置包括所述目标分群节点的分群条件。

可选地，根据所述最优融合模型与所述全样本基准模型进行分群处理包括：

将所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标进行对比；

若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值大于第一预设阈值，判断所述分群树的当前深度是否大于第二预设阈值；

若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值小于或等于所述第一预设阈值，删除本轮确定的目标分群节点，停止分群处理，其中，所述目标分群节点为所述最优融合模型对应的分群节点；

在分群树的当前深度大于第二预设阈值的情况下，停止分群处理；在所述分群树的当前深度小于或等于所述第二预设阈值的情况下，继续分群建模，直到所述分群树的当前深度大于所述第二预设阈值，停止分群处理。

可选地，在获取训练样本的分群特征之前，所述方法还包括：

根据预设比例或者样本时间将所述训练样本划分为训练集与验证集，其中，所述训练集用于建立所述分群模型，所述验证集用于验证所述分群模型；

基于特征的稳定性确定所述训练样本的分群特征。

对于无序类分群特征，将所述无序分群特征转换为哑变量形式的分群特征，根据预设模型要求设置转换后的所述分群特征的分群节点；

对于数值类分群特征，对数值类分群特征的缺失值进行预处理，根据预设模型要求设置处理后的所述分群特征的分群节点。

根据本发明的另一个实施例，还提供了一种分群处理装置，包括：

获取模块，用于获取训练样本的分群特征；

建模模块，用于根据所述分群特征的分群节点对所述训练样本进行分群建模；

分群处理模块，用于根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。

可选地，所述建模模块包括：

分群子模块，用于根据所述训练样本或分群的每个分群特征的每个分群节点对所述训练样本进行分群，得到多组分群，其中，每组分群包括两个分群；

建模子模块，用于分别对每组分群进行建模，得到每组分群对应的多组分群模型，其中，每组分群模型包括两个分群模型。

可选地，所述分群处理模块包括：

融合子模块，用于将每组分群模型进行融合，得到多个融合模型；

选取子模块，用于从所述多个融合模型中选取最优融合模型；

分群处理子模块，用于根据所述最优融合模型与所述全样本基准模型进行分群处理。

可选地，所述选取子模块，还用于分别确定所述多个融合模型的预测效果值；从每个分群特征对应的多个融合模型中选取每个分群特征对应的预测效果值最大的目标融合模型；从所有分群特征对应的多个目标融合模型中选取所述预测效果值最大的所述最优融合模型。

可选地，所述装置还包括：

确定模块，用于将所述最优融合模型对应的分群节点确定为目标分群节点；

设置模块，用于在分群树上为对应的分群设置包括所述目标分群节点的分群条件。

可选地，所述分群处理子模块，还用于

可选地，所述装置还包括：

划分模块，用于根据预设比例或者样本时间将所述训练样本划分为训练集与验证集，其中，所述训练集用于建立所述分群模型，所述验证集用于验证所述分群模型；

确定模块，用于基于特征的稳定性确定所述训练样本的分群特征。

可选地，所述装置还包括：

转换模块，用于对于无序类分群特征，将所述无序分群特征转换为哑变量形式的分群特征，根据预设模型要求设置转换后的所述分群特征的分群节点；

预处理模块，用于对于数值类分群特征，对数值类分群特征的缺失值进行预处理，根据预设模型要求设置处理后的所述分群特征的分群节点。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取训练样本的分群特征；根据所述分群特征的分群节点对所述训练样本进行分群建模；根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理，可以解决相关技术中在样本没有已知分群标记的情况下，使用无监督算法进行分群无法根本性满足目标需求的问题，根据分群节点进行分群建模，可以提升分群后模型效果，可以满足目标需求。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的分群处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的分群处理方法的流程图；

图3是根据本发明实施例的自动化分群建模分群处理的流程图；

图4是根据本发明实施例的最优分群节点选择的流程图；

图5是根据本发明实施例的分群树的示意图；

图6是根据本发明实施例的分群处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的分群处理方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的分群处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的分群处理方法，图2是根据本发明实施例的分群处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取训练样本的分群特征；

步骤S204，根据所述分群特征的分群节点对所述训练样本进行分群建模；

本发明实施例中，上述步骤S204具体可以包括：根据所述训练样本或分群的每个分群特征的每个分群节点对所述训练样本进行分群，得到多组分群，其中，每组分群包括两个分群；分别对每组分群进行建模，得到每组分群对应的多组分群模型，其中，每组分群模型包括两个分群模型。

步骤S206，根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。

本发明实施例中，上述步骤S206具体可以包括：

S2061，将每组分群模型进行融合，得到多个融合模型；

S2062，从所述多个融合模型中选取最优融合模型，具体可以根据模型的预测效果值选取，对应的，分别确定所述多个融合模型的预测效果值；从每个分群特征对应的多个融合模型中选取每个分群特征对应的预测效果值最大的目标融合模型；从所有分群特征对应的多个目标融合模型中选取所述预测效果值最大的所述最优融合模型；

S2063，根据所述最优融合模型与所述全样本基准模型进行分群处理，进一步的，将所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标进行对比；若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值大于第一预设阈值，判断所述分群树的当前深度是否大于第二预设阈值；若所述融合模型的模型评价指标与所述全样本基准模型的模型评价指标的差值小于或等于所述第一预设阈值，删除本轮确定的目标分群节点，停止分群处理，其中，所述目标分群节点为所述最优融合模型对应的分群节点；在分群树的当前深度大于第二预设阈值的情况下，停止分群处理；在所述分群树的当前深度小于或等于所述第二预设阈值的情况下，继续分群建模，直到所述分群树的当前深度大于所述第二预设阈值，停止分群处理。

进一步的，在确定最优融合模型之后，将所述最优融合模型对应的分群节点确定为目标分群节点；在分群树上为对应的分群设置包括所述目标分群节点的分群条件。

在一可选的实施例中，在上述步骤S202之前，根据预设比例或者样本时间将所述训练样本划分为训练集与验证集，其中，所述训练集用于建立所述分群模型，所述验证集用于验证所述分群模型；基于特征的稳定性确定所述训练样本的分群特征。

在另一可选的实施例中，在上述步骤S202之前，对于无序类分群特征，将所述无序分群特征转换为哑变量形式的分群特征，根据预设模型要求设置转换后的所述分群特征的分群节点；对于数值类分群特征，对数值类分群特征的缺失值进行预处理，根据预设模型要求设置处理后的所述分群特征的分群节点。

在样本没有已知分群标记的情况下，通常会使用无监督算法将数据集分成一个个簇(可理解为一个个小组)，从而实现客户的分群，但无监督聚类的算法也会带来上述问题，无法根本性满足目标需求。本发明实施例使用有监督决策树的算法思路，通过改变决策树的分群条件，相关技术中的决策树的分群条件多为信息增益的提升、信息增益比的提升或基尼系数的提升(CART)，本发明将分群条件改为了分群后模型效果(KS或AUC)的提升，并且加入了稳定性验证，使得能够在仅有无监督样本的情况下，在算法过程中实现有监督的学习。

图3是根据本发明实施例的自动化分群建模分群处理的流程图，如图3所示，包括：

步骤S301，划分训练样本，确定候选分群特征；

将训练样本划分为训练集及验证集，一般划分比例为7:3，可随机划分，也可根据样本时间划分。在训练样本的时间外还需准备测试样本，测试样本一般为训练样本时间后的样本集，用来进一步验证模型鲁棒性。

根据业务建模经验或初步的样本分析结果，确定候选的分群特征，一般而言一些属性类，相对稳定的特征更适合作为分群特征，而一些在短期内容易发生较大波动及变化的特征则不适合。

步骤S302，建立全样本基准模型；

首先在不分群的情况下，基于全样本训练集及验证集开发一版基准模型，并记录下基准模型的KS、AUC等模型效果评价指标。

步骤S303，遍历所有分群特征的所有分群节点；

对于无序的属性类分群特征，需预先进行转化，转化为哑变量的形式；对于数值类分群特征，需对缺失值进行预处理。数值类变量的分群节点多为各分位点，具体精度按模型的要求进行设置，精度越高，算法遍历时间越长。

步骤S304，根据分群节点进行快速分群建模；

快速建模指采用预设的模型经验参数，直接对训练样本进行建模，全过程无需人工调参干预，可快速对训练样本建模效果有一个初步评估。对分群节点的快速建模要求在模型方法及参数上与全样本基准模型一致。

步骤S305，选择最优特征分群节点；

步骤S306，判断是否需要继续分群建模，在判断结果为是的情况下，执行步骤S307，否则执行步骤S308；

步骤S307，生成数据子集，返回步骤S303继续分群处理；

图4是根据本发明实施例的最优分群节点选择的流程图，如图4所示，包括:

步骤S401，遍历每个分群特征的分群节点，假设目前遍历到特征F1，节点为P1，在这个节点下，数据集被分为A与B，对AB分别进行快速建模，将AB模型预测结果融合后，得到全样本模型预测结果，计算AB融合模型的KS及AUC，记录并保留此节点结果。

步骤S402，一轮遍历完成后，选出融合后预测效果最好的特征及其分群节点；

步骤S403，将此节点下的分群融合模型效果与未分群时建立的全样本基准模型进行比较，判断分群融合模型相较于基准模型的提升是否大于预设阈值，在判断结果为否的情况下，执行步骤S404，在判断结果为是的情况下，执行步骤S405；

步骤S404，删除本轮选出的分区节点，并停止分群；

步骤S405，判断当前分群树深度是否大于预设阈值，在判断结果为是的情况下，执行步骤S406，在判断结果为是的情况下，执行步骤S407；

步骤S406，保留本轮选出的分群节点，并停止分群；

步骤S407，若未达到则继续进行下一层分群。

S308，结束并输出分群结果。

在完成自动化分群建模搜索算法后，输出最终分群树与每轮分群的模型提升度，图5是根据本发明实施例的分群树的示意图，如图5所示，与CART决策树算法输出结果类似，以二叉树的形式逐层采用上述步骤分群。

根据本发明的另一个实施例，还提供了一种分群处理装置，图6是根据本发明实施例的分群处理装置的框图，如图6所示，包括：

获取模块62，用于获取训练样本的分群特征；

建模模块64，用于根据所述分群特征的分群节点对所述训练样本进行分群建模；

分群处理模块66，用于根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。

可选地，所述建模模块64包括：

可选地，所述分群处理模块66包括：

可选地，所述装置还包括：

可选地，所述分群处理子模块，还用于

可选地，所述装置还包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取训练样本的分群特征；

S2，根据所述分群特征的分群节点对所述训练样本进行分群建模；

S3，根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取训练样本的分群特征；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分群处理方法，其特征在于，包括：

获取训练样本的分群特征；

2.根据权利要求1所述的方法，其特征在于，根据所述分群特征的分群节点对所述训练样本进行分群建模包括：

3.根据权利要求2所述的方法，其特征在于，根据建立的分群模型与基于所述训练样本建立的全样本基准模型进行分群处理包括：

将每组分群模型进行融合，得到多个融合模型；

从所述多个融合模型中选取最优融合模型；

4.根据权利要求3所述的方法，其特征在于，从所述多个融合模型中选取最优融合模型包括：

分别确定所述多个融合模型的预测效果值；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述最优融合模型对应的分群节点确定为目标分群节点；

6.根据权利要求3所述的方法，其特征在于，根据所述最优融合模型与所述全样本基准模型进行分群处理包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，在获取训练样本的分群特征之前，所述方法还包括：

基于特征的稳定性确定所述训练样本的分群特征。

8.根据权利要求1至6中任一项所述的方法，其特征在于，在获取训练样本的分群特征之前，所述方法还包括：

9.一种分群处理装置，其特征在于，包括：

获取模块，用于获取训练样本的分群特征；

10.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8中任一项所述的方法。