CN107563453B

CN107563453B - 一种不平衡样本数据分类方法及系统

Info

Publication number: CN107563453B
Application number: CN201710848315.5A
Authority: CN
Inventors: 罗欢; 权圣
Original assignee: Consumer Finance Ltd By Share Ltd
Current assignee: Consumer Finance Ltd By Share Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-07-06
Anticipated expiration: 2037-09-19
Also published as: CN107563453A

Abstract

本申请公开了一种不平衡样本数据分类方法，该方法包括：向预先获取的分类器模型中输入待判别的不平衡样本数据，根据分类器模型的输出值得到不平衡样本数据的分类结果；其中，分类器模型的获取过程为：利用预设的正类惩罚因子C_ip对逻辑回归算法中损失函数的正类惩罚因子C_p进行调整，得到优化后逻辑回归算法；利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练，得到分类器模型；在本发明中，通过对逻辑回归算法中损失函数的正类惩罚因子进行调整，对逻辑回归算法进行了优化，降低了不平衡样本数据对测试结果的影响，从而提高了分类器的分类准确率。相应的，本发明公开的一种不平衡样本数据分类系统，同样具有上述有益效果。

Description

一种不平衡样本数据分类方法及系统

技术领域

本发明涉及数据处理领域，特别涉及一种不平衡样本数据分类方法及系统。

背景技术

样本数据的分类问题一直是机器学习领域中一个重要的研究方向，传统的分类算法是以提高数据集的总体分类准确率为目标，且假定样本集中的各类样本的数量是平衡的，然而在实际的问题当中却存在着大量的不平衡样本数据集，例如：信用卡欺诈行为检测，网络入侵行为检测以及医学诊断等问题，对于此类问题，少类样本的分类准确率往往会比多类样本的分类准确率更为重要。

支持向量机是以统计学理论和结构风险最小化原则为基础的学习机器，在分类领域有着广泛的应用，尤其以国立台湾大学的Chih-Jen Lin博士开发的Liblinear应用范围最广，Liblinear在分类平衡问题上表现出来的效果非常好，可以克服最小值的问题，但是Liblinear在分类不平衡数据集时，其效果却不是特别理想。目前在解决这一问题时，最常用的方法是对采集到的不平衡样本数据进行重采样，来均衡采集到的样本数据集，进而来提高分类的准确率，但是这种方法，是通过对样本数据集中的稀有类数据集进行上采样，对大类样本数据集进行下采样，来解决样本数据集中的不平衡问题，但是在实际应用当中很难确定上采样和下采样的样本数量，所以怎样提高不平衡样本的分类准确率是目前该领域亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种不平衡样本数据分类方法，以提高不平衡样本数据的分类准确率。其具体方案如下：

一种不平衡样本数据分类方法，包括：

向预先获取的分类器模型中输入待判别的不平衡样本数据，根据所述分类器模型的输出值得到所述不平衡样本数据的分类结果；

其中，所述分类器模型的获取过程为：

将逻辑回归算法中损失函数的正类惩罚因子C_p调整为预设的正类惩罚因子C_ip，得到优化后逻辑回归算法；

其中，所述正类惩罚因子C_ip的表达式为：

式中，C_ip为第i类样本数据的正类惩罚因子，w_ij为第i类第j个样本数据的样本权重；

利用历史不平衡样本数据对基于所述优化后逻辑回归算法构建的待训练模型进行训练，得到所述分类器模型；

其中，所述历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。

优选的，所述将逻辑回归算法中损失函数的正类惩罚因子C_p调整为预设的正类惩罚因子C_ip的过程，包括：

当所述样本数据中的第i类中的每一个样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第一正类惩罚因子C'_ip；

其中，所述第一正类惩罚因子C'_ip的表达式为：

式中，C'_ip为第i类样本数据的正类惩罚因子，N_i为第i类样本数据的数量，w_i为第i类样本数据的类别权重；

将所述正类惩罚因子C_p调整为所述第一正类惩罚因子C'_ip。

当所述样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第二正类惩罚因子C”_ip；

其中，所述第二正类惩罚因子C”_ip的表达式为：

C”_ip＝(N-N_i)/N_i；

式中，C”_ip为第i类样本数据的正类惩罚因子，N为所述样本数据的总数量，N_i为第i类样本数据的数量；

将所述正类惩罚因子C_p调整为所述第二正类惩罚因子C”_ip。

当所述样本数据的权重均相等且所述样本数据为二分类时，则对所述正类惩罚因子C_ip进行化简，得到第三正类惩罚因子C”’_ip；

其中，所述第三正类惩罚因子C”’_ip的表达式为：

C”’_ip＝N₀/N_p；

式中，C”’_ip为第i类样本数据的正类惩罚因子，N_p为第i类样本数据的数量，N₀为所述样本数据的总数量除去第i类样本数据的数量；

将所述正类惩罚因子C_p调整为所述第三正类惩罚因子C”’_ip。

优选的，所述损失函数为：

式中，l(θ)为损失函数，C为逆惩罚因子，C_p为正类惩罚因子，y_i为所述样本数据的类别，x_i为第i个样本数据的特征值，h(x_i)为激励函数，w_i为第i个样本数据的特征的权重。

优选的，所述正类惩罚因子C_p为1。

相应的，本发明还公开了一种不平衡样本数据分类系统，包括：

分类器分类模块，用于向预先获取的分类器模型中输入待判别的不平衡样本数据，根据所述分类器模型的输出值得到所述不平衡样本数据的分类结果；

其中，所述分类器模型为分类器创建模块创建获得，所述分类器创建模块包括：

逻辑回归算法优化子模块，用于将逻辑回归算法中损失函数的正类惩罚因子C_p调整为预设的正类惩罚因子C_ip，得到优化后逻辑回归算法；

其中，所述正类惩罚因子C_ip的表达式为：

分类器获取子模块，用于利用历史不平衡样本数据对基于所述优化后逻辑回归算法构建的待训练模型进行训练，得到所述分类器模型；

优选的，所述逻辑回归算法优化子模块包括：

第一参数化简单元，用于当所述样本数据中的第i类中的每一个样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第一正类惩罚因子C’_ip；

其中，所述第一正类惩罚因子C’_ip的表达式为：

式中，C’_ip为第i类样本数据的正类惩罚因子，N_i为第i类样本数据的数量，w_i为第i类样本数据的类别权重；

第一参数调整单元，用于将所述正类惩罚因子C_p调整为所述第一正类惩罚因子C’_ip。

优选的，所述逻辑回归算法优化子模块包括：

第二参数化简单元，用于当所述样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第二正类惩罚因子C”_ip；

其中，所述第二正类惩罚因子C”_ip的表达式为：

C”_ip＝(N-N_i)/N_i；

第二参数调整单元，用于将所述正类惩罚因子C_p调整为所述第二正类惩罚因子C”_ip。

优选的，所述逻辑回归算法优化子模块包括：

第三参数化简单元，用于当所述样本数据的权重均相等且所述样本数据为二分类时，则对所述正类惩罚因子C_ip进行化简，得到第三正类惩罚因子C”'_ip；

其中，所述第三正类惩罚因子C”'_ip的表达式为：

C”'_ip＝N₀/N_p；

式中，C”'_ip为第i类样本数据的正类惩罚因子，N_p为第i类样本数据的数量，N₀为所述样本数据的总数量除去第i类样本数据的数量；

第三参数调整单元，用于将所述正类惩罚因子C_p调整为所述第三正类惩罚因子C”'_ip。

在本发明中，一种不平衡样本数据分类方法，包括：向预先获取的分类器模型中输入待判别的不平衡样本数据，根据分类器模型的输出值得到不平衡样本数据的分类结果；其中，分类器模型的获取过程为：利用预设的正类惩罚因子C_ip对逻辑回归算法中损失函数的正类惩罚因子C_p进行调整，得到优化后逻辑回归算法；其中，正类惩罚因子C_ip的表达式为：

式中，C_ip为第i类样本数据的正类惩罚因子，w_ij为第i类第j个样本数据的样本权重；利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练，得到分类器模型；其中，历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。可见，在本发明中，利用样本数据中的数据权重对正类惩罚因子C_p进行调整，为均衡不平衡样本数据中的大样本和稀有类样本提供了可靠的理论依据，从而降低了不平衡样本数据对分类结果的影响；解决了在现有技术当中默认正类惩罚因子C_p为1，也即，认为样本数据中所有类别的数量都相等，而忽略了样本数据中大样本和稀有类样本分布不均匀问题，所以利用本发明中的方法可以提高不平衡样本数据的分类准确率。同样，本发明公开一种不平衡样本数据分类系统，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种不平衡样本数据分类方法流程图；

图2为本发明实施例二公开的一种不平衡样本数据分类方法中对参数调整的示意图；

图3为本发明实施例二公开的一种不平衡样本数据分类方法中对参数调整的示意图；

图4为本发明实施例二公开的一种不平衡样本数据分类方法中对参数调整的示意图；

图5为利用本发明公开的优化逻辑回归算法对正类惩罚因子C_p在粗调情形下测试集准确率的示意图；

图6为利用本发明公开的优化逻辑回归算法对样本数据进行测试的测试集准确率的示意图；

图7为利用本发明公开的优化逻辑回归算法对正类惩罚因子C_p在微调情形下交叉验证集准确率的示意图；

图8为利用本发明公开的优化逻辑回归算法对正类惩罚因子C_p在粗调情形下交叉验证集准确率的示意图；

图9为本发明实施例三公开的一种不平衡样本数据分类系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例一公开了一种不平衡样本数据分类方法，参见图1所示，该方法包括：

步骤S11：利用预设的正类惩罚因子C_ip对逻辑回归算法中损失函数的正类惩罚因子C_p进行调整，得到优化后逻辑回归算法；

其中，正类惩罚因子C_ip的表达式为：

步骤S12：利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练，得到分类器模型；

其中，历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。

需要说明的是，在本实施例中，步骤S11和步骤S12均为创建分类器模型的过程，在本实施例中可以是按照步骤S11和步骤S12来创建分类器模型后，直接向分类器模型中输入待判别的不平衡样本数据，根据分类器模型的输出值得到不平衡样本数据的分类结果；也可以是预先获取一个已经训练好的分类器模型直接对待判别的不平衡样本数据进行分类。一切以达到实际应用为目的，此处不作限定。

可见，在本发明中，利用样本数据中的数据权重对正类惩罚因子C_p进行调整，为均衡不平衡样本数据中的大样本和稀有类样本提供了可靠的理论依据，从而降低了不平衡样本数据对分类结果的影响；解决了在现有技术当中默认正类惩罚因子C_p为1，也即，认为样本数据中所有类别的数量都相等，而忽略了样本数据中大样本和稀有类样本分布不均匀问题，所以利用本发明中的方法可以提高不平衡样本数据的分类准确率。

发明实施例二公开了一种具体的不平衡样本分类方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

在上一实施例步骤S21中，利用预设的正类惩罚因子C_ip对逻辑回归算法中损失函数的正类惩罚因子C_p进行调整的过程，可以有多种不同的情况，具体的，在本实施例中公开了三种不同的调整方式，分别为第一种调整方式、第二种调整方式和第三种调整方式。

本实施例中，上述第一种调整方式的具体过程包括步骤S211和步骤S212，如图2所示。

步骤S211：当样本数据中的第i类中的每一个样本数据的权重均相等时，则对正类惩罚因子C_ip进行化简，得到第一正类惩罚因子C'_ip；

其中，第一正类惩罚因子C'_ip的表达式为：

步骤S212：利用第一正类惩罚因子C'_ip对正类惩罚因子C_p进行调整。

本实施例中，上述第二种调整方式的具体过程包括步骤H211和步骤H212，如图3所示。

步骤H211：当样本数据的权重均相等时，则对正类惩罚因子C_ip进行化简，得到第二正类惩罚因子C”_ip；

其中，第二正类惩罚因子C”_ip的表达式为：

C”_ip＝(N-N_i)/N_i；

式中，C”_ip为第i类样本数据的正类惩罚因子，N为样本数据的总数量，N_i为第i类样本数据的数量；

步骤H212：利用第二正类惩罚因子C”_ip对正类惩罚因子C_p进行调整。

本实施例中，上述第三种调整方式的具体过程包括步骤S01和步骤S02，如图4所示。

步骤S01：当样本数据的权重均相等且样本数据为二分类时，则对正类惩罚因子C_ip进行化简，得到第三正类惩罚因子C”'_ip；

其中，第三正类惩罚因子C”'_ip的表达式为：

C”'_ip＝N₀/N_p；

式中，C”'_ip为第i类样本数据的正类惩罚因子，N_p为第i类样本数据的数量，N₀为样本数据的总数量除去第i类样本数据的数量；

步骤S02：利用第三正类惩罚因子C”'_ip对正类惩罚因子C_p进行调整。

可以理解的是，在利用不平衡样本数据中的权重对样本数据的数量进行调整时，样本数据中的权重会出现不同的变化情况，根据权重的不同情况可以对正类惩罚因子C_ip进行化简，从而减少计算量，进而对逻辑回归算法进行优化。

具体的，在本实施例中，逻辑回归算法中的损失函数为：

式中，l(θ)为损失函数，C为逆惩罚因子，C_p为正类惩罚因子，y_i为样本数据的类别，x_i为第i个样本数据的特征值，h(x_i)激励函数，w_i为第i个样本数据的特征的权重。

进一步的，在本实施例中逻辑回归算法中的正类惩罚因子C_p为1。

具体的，利用本发明中的方法对NLP意图识别中做分类识别，在实验过程中共有58451条人工标注语料，共91个分类，测试集有5118条人工标注语料，首先将人工标注语料进行分词，然后作3交叉验证，训练时采用第二正类惩罚因子C”_ip＝(N-N_i)/N_i对正类惩罚因子C_p进行调整，其他参数使用默认值，实验结果如图5、图6、图7和图8所示，由图中结果可得，在liblinear中对正类惩罚因子C_p调整后，测试结果相比于未调整正类惩罚因子C_p时，准确率提升了大约1％，该结果说明本方案的可靠性。

可见，在本发明中，利用样本数据中的数据权重对正类惩罚因子C_p进行调整，为均衡不平衡样本数据中的大样本和稀有类样本提供了可靠的理论依据，从而降低了不平衡样本数据对分类结果的影响。

相应的，本发明还公开了一种不平衡样本分类系统，如图9所示，该系统包括：

分类器分类模块32，用于向预先获取的分类器模型中输入待判别的不平衡样本数据，根据分类器模型的输出值得到不平衡样本数据的分类结果；

其中，分类器模型为分类器创建模块31创建获得，分类器创建模块包括：

逻辑回归算法优化子模块，用于利用预设的正类惩罚因子C_ip对逻辑回归算法中损失函数的正类惩罚因子C_p进行调整，得到优化后逻辑回归算法；

其中，正类惩罚因子C_ip的表达式为：

分类器获取子模块，用于利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练，得到分类器模型；

优选的，逻辑回归算法优化子模块包括：

第一参数化简单元，用于当样本数据中的第i类中的每一个样本数据的权重均相等时，则对正类惩罚因子C_ip进行化简，得到第一正类惩罚因子C'_ip；

其中，第一正类惩罚因子C'_ip的表达式为：

第一参数调整单元，用于利用第一正类惩罚因子C'_ip对正类惩罚因子C_p进行调整。

优选的，逻辑回归算法优化子模块包括：

第二参数化简单元，用于当样本数据的权重均相等时，则对正类惩罚因子C_ip进行化简，得到第二正类惩罚因子C”_ip；

其中，第二正类惩罚因子C”_ip的表达式为：

C”_ip＝(N-N_i)/N_i；

第二参数调整单元，用于利用第二正类惩罚因子C”_ip对正类惩罚因子C_p进行调整。

优选的，逻辑回归算法优化子模块包括：

第三参数化简单元，用于当样本数据的权重均相等且样本数据为二分类时，则对正类惩罚因子C_ip进行化简，得到第三正类惩罚因子C”'_ip；

其中，第三正类惩罚因子C”'_ip的表达式为：

C”'_ip＝N₀/N_p；

第三参数调整单元，用于利用第三正类惩罚因子C”'_ip对正类惩罚因子C_p进行调整。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种不平衡样本数据分类方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种不平衡样本数据分类方法，其特征在于，包括：

其中，所述分类器模型的获取过程为：

其中，所述正类惩罚因子C_ip的表达式为：

2.根据权利要求1所述的方法，其特征在于，所述将逻辑回归算法中损失函数的正类惩罚因子C_p调整为预设的正类惩罚因子C_ip的过程，包括：

当所述样本数据中的第i类中的每一个样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第一正类惩罚因子C′_ip；

其中，所述第一正类惩罚因子C′_ip的表达式为：

式中，C′_ip为第i类样本数据的正类惩罚因子，N_i为第i类样本数据的数量，w_i为第i类样本数据的类别权重；

将所述正类惩罚因子C_p调整为所述第一正类惩罚因子C′_ip。

3.根据权利要求1所述的方法，其特征在于，所述将逻辑回归算法中损失函数的正类惩罚因子C_p调整为预设的正类惩罚因子C_ip的过程，包括：

当所述样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第二正类惩罚因子C″_ip；

其中，所述第二正类惩罚因子C″_ip的表达式为：

C″_ip＝(N-N_i)/N_i；

式中，C″_ip为第_i类样本数据的正类惩罚因子，N为所述样本数据的总数量，N_i为第i类样本数据的数量；

将所述正类惩罚因子C_p调整为所述第二正类惩罚因子C″_ip。

4.根据权利要求1所述的方法，其特征在于，所述将逻辑回归算法中损失函数的正类惩罚因子C_p调整为预设的正类惩罚因子C_ip的过程，包括：

当所述样本数据的权重均相等且所述样本数据为二分类时，则对所述正类惩罚因子C_ip进行化简，得到第三正类惩罚因子C″′_ip；

其中，所述第三正类惩罚因子C″′_ip的表达式为：

C″′_ip＝N₀/N_p；

式中，C″′_ip为第i类样本数据的正类惩罚因子，N_p为第i类样本数据的数量，N₀为所述样本数据的总数量除去第i类样本数据的数量；

将所述正类惩罚因子C_p调整为所述第三正类惩罚因子C″′_ip。

5.根据权利要求1所述的方法，其特征在于，所述损失函数为：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述正类惩罚因子C_p为1。

7.一种不平衡样本数据分类系统，其特征在于，包括：

其中，所述正类惩罚因子C_ip的表达式为：

8.根据权利要求7所述的系统，其特征在于，所述逻辑回归算法优化子模块包括：

第一参数化简单元，用于当所述样本数据中的第i类中的每一个样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第一正类惩罚因子C′_ip；

其中，所述第一正类惩罚因子C′_ip的表达式为：

第一参数调整单元，用于将所述正类惩罚因子C_p调整为所述第一正类惩罚因子C′_ip。

9.根据权利要求7所述的系统，其特征在于，所述逻辑回归算法优化子模块包括：

第二参数化简单元，用于当所述样本数据的权重均相等时，则对所述正类惩罚因子C_ip进行化简，得到第二正类惩罚因子C″_ip；

其中，所述第二正类惩罚因子C″_ip的表达式为：

C″_ip＝(N-N_i)/N_i；

式中，C″_ip为第i类样本数据的正类惩罚因子，N为所述样本数据的总数量，N_i为第i类样本数据的数量；

第二参数调整单元，用于将所述正类惩罚因子C_p调整为所述第二正类惩罚因子C″_ip。

10.根据权利要求7所述的系统，其特征在于，所述逻辑回归算法优化子模块包括：

第三参数化简单元，用于当所述样本数据的权重均相等且所述样本数据为二分类时，则对所述正类惩罚因子C_ip进行化简，得到第三正类惩罚因子C″′_ip；

其中，所述第三正类惩罚因子C″′_ip的表达式为：

C″′_ip＝N₀/N_p；

第三参数调整单元，用于将所述正类惩罚因子C_p调整为所述第三正类惩罚因子C″′_ip。