CN114330562B

CN114330562B - 小样本细化分类及多分类模型构建方法

Info

Publication number: CN114330562B
Application number: CN202111655236.5A
Authority: CN
Inventors: 宋丹
Original assignee: Dazhu Hangzhou Technology Co ltd
Current assignee: Dazhu Hangzhou Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-09-26
Anticipated expiration: 2041-12-31
Also published as: CN114330562A

Abstract

本发明公开了一种小样本细化分类及多分类模型构建方法，属于数据分类预测技术领域。本发明在粗分类的基础上，通过构造混淆矩阵并计算混淆矩阵的F1‑分数和AUC的调和平均值，以搜索出概率序列中作为样本细分依据的最优阈值切分点，并基于该最优阈值切分点将原始同一标签类别下的样本集细分为具有更多标签类别的多个样本集，细分后的样本集与样本集之间不仅保持了由高到低的区分度，同时规避了以小样本数据集训练具有更多分类能力的多分类模型容易出现过拟合以及人为对小样本数据集进行进一步的细化分类缺乏量化依据的问题。

Description

小样本细化分类及多分类模型构建方法

技术领域

本发明涉及数据分类预测技术领域，具体涉及一种小样本细化分类及多分类模型构建方法。

背景技术

对于小样本量下构建的分类模型，比如三分类的还款能力评估模型，该三分类的还款能力评估模型根据输入数据将客户的还款能力分为三个等级，比如分别为还款能力低(用“0”表示该等级)、中(用“1”表示该等级)、高(用“1”表示该等级)。但当希望进一步细分客群时，通常的做法是，对原始作三分类标注的样本进一步人为细化为更多分类(比如五分类)的标注，然后重新训练具有更多分类能力的还款能力评估模型。但是，由于小样本的样本量少，基于已有的样本，很难继续拆分样本数据集，即已有的样本量不足以支撑训练具有更多分类能力的模型。此外，人为对原始样本作更多分类的标注，难以客观且量化的描述不同分类的样本集之间由高到低的区分度。

发明内容

本发明以将小样本细分为更多标签类别的样本集，并保持细分后的样本集间的区分度以构建具有更多分类能力的模型为目的，提供了一种小样本细化分类及多分类模型构建方法。

为达此目的，本发明采用以下技术方案：

提供一种小样本细化分类方法，包括步骤：

S1，根据每个样本被划分到对应标签类别的概率值，对同一标签类别下的原始样本集中的样本按概率值高低作升序或降序排列后形成概率序列S；

S2，通过构造混淆矩阵并计算所述混淆矩阵的F1-分数和AUC的调和平均值，以搜索出所述概率序列S中作为样本细分依据的最优阈值切分点；

S3，将所述概率序列S中概率值小于所述最优阈值切分点的值的样本细化为第一类别，将所述概率序列S中概率值大于等于所述最优阈值切分点的值的样本细化为第二类别。

作为本发明的一种优选方案，步骤S2中，搜索所述概率序列S中的所述最优阈值切分点的方法步骤包括：

S21，计算所述概率序列S中的第i+1个概率值P_i+1和第i个概率值P_i的算数平均值mean_i作为样本划分的阈值，i＝1,2,…,n-1，n表示所述概率序列S中的概率值个数；

S22，将所述概率序列S中概率值小于mean_i的样本预测为第一类别，否则预测为第二类别；

S23，根据所述概率序列S中的每个样本的真实类别和步骤S22得到的预测类别构造二分类的混淆矩阵M_i，M_i表示第i个混淆矩阵；

S24，计算所述混淆矩阵M_i的F1-分数值和AUC值/>的调和平均值，记为ag_i；

S25，将值最大的所述调和平均值所对应的算数平均值作为所述最优阈值切分点。

作为本发明的一种优选方案，调和平均值ag_i通过以下公式(1)计算而得：

作为本发明的一种优选方案，通过以下公式(2)计算而得：

公式(2)中，precision表示对所述混淆矩阵M_i计算的精准率；

recall表示对所述混淆矩阵M_i计算的召回率。

作为本发明的一种优选方案，precision通过以下公式(3)计算而得：

公式(3)中，TP表示步骤S22对所述概率序列S中的样本预测为正例，实际也为正例的个数；

FP表示步骤S22对所述概率序列S中的样本预测为正例，实际为负例的样本个数。

作为本发明的一种优选方案，recall通过以下公式(4)计算而得：

公式(4)中，TP表示步骤S22对所述概率序列S中的样本预测为正例，实际也为正例的个数；

FN表示步骤S22对所述概率序列S中的样本预测为负例，实际为正例的个数。

本发明还提供了一种多分类模型构建方法，多分类模型以所述的小样本细化分类方法划分的归属于不同分类标签的样本集经模型训练而得。

本发明在粗分类的基础上，通过构造混淆矩阵并计算混淆矩阵的F1-分数和AUC的调和平均值，以搜索出概率序列中作为样本细分依据的最优阈值切分点，并基于该最优阈值切分点将原始同一标签类别下的样本集细分为具有更多标签类别的多个样本集，且细分后的样本集与样本集之间不仅保持了由高到低的区分度，同时规避了以小样本数据集训练具有更多分类能力的多分类模型容易出现过拟合以及人为对小样本数据集进行进一步的细化分类缺乏量化依据的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的小样本细化分类方法的实现步骤图；

图2是搜索概率序列S中的最优阈值切分点的具体方法步骤图；

图3是实现小样本构建多分类模型的方法的逻辑框图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

首先从数据集、算法、评估指标三个维度阐述直接对原始的小样本以人为方式作更多分类标注后去训练具有更多分类能力的模型存在的技术难点：

1、数据集。对于已分类的小样本，若要继续拆分细类，再建模，除了需要细分的目标类别的数据量支撑外，在训练过程中，还很容易训练出过拟合的模型。

2、算法。有监督的多分类算法在训练多分类模型时，需要已知已有样本对应的分类。比如，训练三分类模型用的是随机森林算法，如果再训练一个五分类模型，则目前样本对应的三个分类标签需要改变为对应五个分类标签，这个对应关系如何转化目前没有合适的方法。

3、评估指标。现有的用于评价样本不平衡的分类模型的训练效果的评估指标比如F1-分数、AUC等各有利弊。目前，通常使用不同的评估指标从不同维度对分类模型进行评估，然后根据不同模型的评估结果对模型进行综合评价，但这种综合评价的方式比较繁琐。

本发明实施例提供的小样本细化分类方法，其思想是：首先根据已作标签标注的小样本训练一个分类模型，目的是将小样本根据已知大类做个粗粒度的分类。然后根据原始的分类模型对每个样本预测为对应类别的概率值，将各类别内部对应的概率从小到大或从大到小排序，得到一个概率序列S，比如S＝(P₁、P₂、…P_i、…、P_n)，P_i表示分类模型预测的第i个样本被划分到对应类别的概率值，i＝1,2,…,n，n表示概率序列S的元素个数(即被划分为同一个类别的样本集中的样本个数)。然后在概率序列S中插入切分阈值后对样本作二次分类预测，并根据每个样本的预测类别和真实类别构造二分类的混淆矩阵。然后计算每个混淆矩阵的F1-分数值和AUC值并计算两者的调和平均值。最终将调和平均值最大时对应的切分阈值作为最优阈值切分点对概率序列S对应的样本集进行样本二次分类划分，并输出二次分类结果和对应的评估指标(即对混淆矩阵计算的F1-分数、AUC值及两者的调和平均值)。

以下以三分类模型为作粗粒度分类的模型为例，对本发明实施例提供的小样本细化分类方法进行具体阐述。

如图3所示，本发明实施例提供的小样本细化分类方法包括三个阶段：1)建模(即建立三分类模型)；2)搜索概率序列S的最优阈值切分点；3)输出细分类别和多分类模型的评估指标。

一、建模

本发明的技术核心在于对三分类模型输出的分类结果的再分类，因此对于做粗粒度分类的三分类模型的具体构建过程在此不做阐述。我们关注的是，三分类模型将每个样本划分为对应标签类别的概率值，比如假设三分类模型的分类目标为根据输入数据将客群分类为还款能力低(用类别标签“0”表示)、中(用类别标签“1”)表示、高(用类别标签“2”表示)三个类别，三分类模型比如将样本1-10划分到“0”标签类别下的概率分别为(0.9、0.8、0.75、0.7、0.65、0.6、0.6、0.55、0.54、0.5)。

二、搜索最优阈值切分点

该阶段的目的是，对三分类模型的分类预测结果作进一步的客群细分，比如现在希望将客户的还款能力分为低(比如用类别标签“0”表示)、较低(用类别标签“1”表示)、中(用类别标签“2”表示)、较高(用类别标签“3”表示)、高(用类别标签“4”表示)，即将原本三分类模型所分的类别标签“0”继续细化分类出“0”和“1”，将原本三分类模型所分的类别标签“2”继续细化分类出“3”和“4”。

搜索最优阈值切分点以对粗分类结果继续进行细分的具体步骤为：

1)将被三分类模型划分到“0”客群的样本集中的每个样本按照概率值由低到高或由高到低排序，得到概率序列S；

2)计算概率序列S中的第i+1个概率值P_i+1和第i个概率值P_i的算数平均值mean_i作为样本划分的阈值，i＝1,2,…,n-1，n表示概率序列S中的概率值个数，比如概率序列S＝(0.9、0.8、0.75、0.7、0.65、0.6、0.6、0.55、0.54、0.5)，则第2个概率值为0.8，第1个概率值为0.9，则

3)以mean_i为样本划分的阈值，将小于该阈值的样本预测为第一类别，否则预测为第二类别；比如mean₁＝0.85，由于概率序列S中只有第一个概率值0.9大于0.85，则将第一个概率值0.9对应的样本预测为第二类别(比如用类别标签“1”表示)，剩余的第2至第10个概率值对应的样本预测为第一类别(比如用类别标签“0”表示)；

4)根据概率序列S中的每个样本的真实类别以及步骤3)得到的预测类别构造二分类的混淆矩阵M_i，M_i表示第i个混淆矩阵，混淆矩阵通过下表a表达为：

表a

由于“0”客群标签的样本集中的每个样本的标签类别“0”就是三分类模型预测得到的，所以步骤3)中，将概率序列S中概率值小于mean_i的样本标记为第一类别，否则标记为第二类别，这里细分的第一类别、第二类别自然属于预测值。但每个样本具有自带的真实类别标签，我们根据每个样本的真实类别和步骤3)得到的预测类别构造上表a所示的混淆矩阵。

混淆矩阵中的TP表示步骤3)中对概率序列S中的样本预测为正例，实际也为正例的个数；

FP表示步骤3)中对概率序列S中的样本预测为正例，实际为负例的样本个数；

FN表示步骤3)中对概率序列S中的样本预测为负例，实际为正例的个数；

TN表示步骤3)中对概率序列S中的样本预测为负例，实际也为负例的样本个数。

5)对于每个混淆矩阵，可计算精准率和召回率/>然后根据精准率和召回率计算每个混淆矩阵的F1-分数值，

并以分别为ROC曲线的拟合点的横坐标和纵坐标绘制ROC曲线并计算ROC曲线下的面积作为针对混淆矩阵计算的AUC值。本发明中，ROC曲线的绘制以及AUC值的计算方法采用的是现有的方法，在此不做具体说明。

然后，根据每个混淆矩阵对应的F1-分数值和AUC值计算F1-分数和AUC的调和平均值，并将最大调和平均值所对应的算数平均值作为最优阈值切分点，这么做的原理支撑是：每个混淆矩阵都可以对应计算精准率precision、召回率recall、真阳率TPR、假阳率FPR、F1-分数值、AUC值等指标，其中，F1-分数优化的目标是精准率precision和召回率recall，而AUC优化的目标是真阳率TPR和假阳率FPR，F1-分数希望提高检验预测为阳性的样本中实际为阳性的比例，以提高真阳率，AUC则希望提高非真样本在检验中为非真的比例，以降低假阳率。简而言之，通过F1-分数评估模型是希望训练一个不放过任何可能的模型，而AUC希望训练一个尽量不误报的模型，两者评估的侧重点不同。因此，综合考虑，我们通过计算F1-分数和AUC的调和平均值来评估模型，当且仅当F1-分数和AUC都表现较好的情况下，调和平均值才可能达到较高的水平。

需要说明的是，F1-分数和AUC的调和平均值可采用循环遍历方式计算或并行计算。循环遍历计算，即步骤3)中，首先计算概率序列S中的第一个概率值和第二概率值的算数平均值mean₁，然后根据该mean₁并通过步骤4)-5)后计算出F1-分数和AUC的调和平均值，然后再计算概率序列S中的第二个概率值和第三概率值的算数平均值mean₂，然后根据mean₂并通过步骤4)-5)后计算出F1-分数和AUC的调和平均值，以此类推，最终从各个调和平均值中选择值最大的调和平均值对应的算数平均值作为最优阈值切分点对三分类模型划分的同一标签类别下的样本集作进一步的细分。

并行计算，即步骤3)中，同时计算出概率序列S中的两两概率值的算数平均值，然后根据各个算数平均值并通过步骤4)-5)并行计算F1-分数和AUC的调和平均值，最终从各个调和平均值中选择值最大的调和平均值对应的算数平均值作为最优阈值切分点对三分类模型划分的同一标签类别下的样本集作进一步的细分。

三、输出细分类别和模型评估指标

基于阶段二搜索得到的最优阈值切分点，我们可以对三分类模型原本划分的“0”客群进行更为细致的分类。例如，客群“0”上的最优切分阈值是mean_i，则我们将概率序列S中概率值小于mean_i的样本划分到“0”分类标签下，将大于等于mean_i的样本划分到“1”分类标签下，由此而将原本客群“0”(需要注意的是，这里的“0”为三分类模型预测的表示还款能力等级为“低”的分类标签)中的样本细分为“0”(这里的“0”表示细分后表示还款能力等级为“低”的分类标签)、“1”(这里的“1”表示细分后表示还款能力等级为“较低”的分类标签)分类标签。

通过阶段一、二、三完成了对三分类模型预测的“0”客群的样本集的细化分类。对于其他标签类型的客群的细化分类方法同客群“0”。对小样本作细化分类后，我们可以得到多分类模型的评估指标，即最优阈值切分点对应的F1-分数、AUC值。

综上，本发明实施例提供的小样本细化分类方法，如图1所示，包括：

步骤S1，根据每个样本被划分到对应标签类别的概率值，对同一标签类别下的原始样本集中的样本按概率值高低作升序或降序排列后形成概率序列S；

步骤S2，通过构造混淆矩阵并计算混淆矩阵的F1-分数和AUC的调和平均值，以搜索除概率序列S中作为样本细分依据的最优阈值切分点，

步骤S3，将概率序列S中概率值小于最优阈值切分点的值的样本细化为第一类别，将概率序列S中概率值大于等于最优阈值切分点的值的样本细化为第二类别。

步骤S2中，如图2所示，搜索概率序列S中的最优阈值切分点的方法包括：

步骤S21，计算概率序列S中的第i+1个概率值P_i+1和第i个概率值P_i的算数平均值mean_i作为样本划分的阈值，i＝1,2,…,n-1，n表示概率序列S中的概率值个数；

步骤S22，将概率序列S中概率值小于mean_i的样本预测为第一类别，否则预测为第二类别；

步骤S23，据概率序列S中的每个样本的真实类别和步骤S22得到的预测类别构造二分类的混淆矩阵M_i，M_i表示第i个混淆矩阵；

步骤S24，计算混淆矩阵M_i的F1-分数值和AUC值/>的调和平均值，记为ag_i；

ag_i通过以下公式(1)计算而得：

通过以下公式(2)计算而得：

公式(2)中，precision表示对混淆矩阵M_i计算的精准率；

recall表示对混淆矩阵M_i计算的召回率。

precision通过以下公式(3)计算而得：

recall通过以下公式(4)计算而得：

公式(3)-(4)中，TP表示步骤S22对概率序列S中的样本预测为正例，实际也为正例的个数；

FN表示步骤S22对概率序列S中的样本预测为负例，实际为正例的个数；

FP表示步骤S22对概率序列S中的样本预测为正例，实际为负例的样本个数。

请继续参照图2，搜索概率序列S中的最优阈值切分点的方法还包括：

步骤S25，将值最大的调和平均值所对应的算数平均值作为最优阈值切分点。

本发明还提供了一种多分类模型构建方法，多分类模型以上述的小样本细化分类方法划分的归属于不同分类标签的样本集经模型训练而得。

综上，本发明在粗分类的基础上，通过构造混淆矩阵并计算混淆矩阵的F1-分数和AUC的调和平均值，以搜索出概率序列中作为样本细分依据的最优阈值切分点，并基于该最优阈值切分点将原始同一标签类别下的样本集细分为具有更多标签类别的多个样本集，且细分后的样本集与样本集之间不仅保持了由高到低的区分度，同时规避了对小样本进行人为细化分类以构建具有更多分类能力的多分类模型容易出现过拟合的问题。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种小样本用户还款能力细化分类方法，其特征在于，包括步骤：

S3，将所述概率序列S中概率值小于所述最优阈值切分点的值的样本细化为第一类别，将所述概率序列S中概率值大于等于所述最优阈值切分点的值的样本细化为第二类别，不同类别代表不同用户的还款能力；

步骤S2中，搜索所述概率序列S中的所述最优阈值切分点的方法步骤包括：

S25，将值最大的所述调和平均值所对应的算数平均值作为所述最优阈值切分点；

所述最优阈值切分点具体计算方法如下：

首先计算概率序列S中的第一个概率值和第二概率值的算数平均值mean₁，然后根据该mean₁计算出F1-分数和AUC的调和平均值，然后再计算概率序列S中的第二个概率值和第三概率值的算数平均值mean₂，然后根据mean₂计算出F1-分数和AUC的调和平均值，以此类推，最终从各个调和平均值中选择值最大的调和平均值对应的算数平均值作为所述最优阈值切分点。

2.根据权利要求1所述的小样本用户还款能力细化分类方法，其特征在于，调和平均值ag_i通过以下公式(1)计算而得：

3.根据权利要求2所述的小样本用户还款能力细化分类方法，其特征在于，通过以下公式(2)计算而得：

公式(2)中，precision表示对所述混淆矩阵M_i计算的精准率；

recall表示对所述混淆矩阵M_i计算的召回率。

4.根据权利要求3所述的小样本用户还款能力细化分类方法，其特征在于，precision通过以下公式(3)计算而得：

5.根据权利要求3所述的小样本用户还款能力细化分类方法，其特征在于，recall通过以下公式(4)计算而得：

6.一种多分类模型构建方法，其特征在于，多分类模型以权利要求1-5任意一项所述的小样本用户还款能力细化分类方法划分的归属于不同分类标签的样本集经模型训练而得。