CN107392259A

CN107392259A - 构建不均衡样本分类模型的方法和装置

Info

Publication number: CN107392259A
Application number: CN201710704684.7A
Authority: CN
Inventors: 刘朋飞; 赵鸿; 赵一鸿; 李爱华; 葛胜利
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2017-11-24
Anticipated expiration: 2037-08-16
Also published as: CN107392259B

Abstract

本公开提供了一种构建不均衡样本分类模型的方法。所述方法包括接收原始样本总体数据、构建分类模型和输出所述分类模型。其中，构建分类模型包括对于所述原始样本总体中属于少数类的每一个第一样本个体计算其在所述少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数，所述原始样本总体中的所有样本个体所属的分类为已知；然后对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体；接着将所述原始样本总体与所有的所述第二样本个体混合形成混合样本总体；最后基于所述混合样本总体构建分类模型。本公开还提供了一种构建不均衡样本分类模型的装置、系统以及可读存储介质。

Description

构建不均衡样本分类模型的方法和装置

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种构建不均衡样本分类模型的方法和装置。

背景技术

在数据挖掘分类或预测任务中，有时候得到的数据分布是不均衡的。对于各个分类占比悬殊的不均衡样本中，数据量较少的少数类的特征容易被忽略，从而会导致进行数据预测时容易将本应属于少数类的数据分类至多数类中。这对于一些少数类虽然占比少、但影响力又非常大的不均衡样本的分析是非常不利的。例如，假设将网络用户分为正常用户与恶意用户(例如网络黑客)两大类时，恶意用户的数量远远小于正常用户，但是这些恶意用户的破坏力又相当的强大。现有技术中解决此类不均衡样本在数据分析预测中的不准确性主要是通过过抽样、欠抽样和代价敏感度学习。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：欠抽样和过抽样都属于简单随机复制已有的数据样本。过抽样会在模型中产生过度拟合问题，影响分类模型的效果。欠抽样可能还会导致训练样本中一些隐含信息的丢失，损失分类模型的精度。另外，代价敏感度学习是指对正类和负类赋予不同的代价，会涉及到修改分类模型的代价函数或目标函数，增加分类模型的复杂度和工程开发难度，而且不一定能保证最终的分类效果。

发明内容

有鉴于此，本公开提供了一种能够有效提高不均衡样本的分类模型分类效果的构建不均衡样本分类模型的方法和装置。

本公开的一个方面提供了一种构建不均衡样本分类模型的方法。所述方法包括接收原始样本总体数据、构建分类模型和输出所述分类模型。其中构建分类模型包括首先对于所述原始样本总体中属于少数类的每一个第一样本个体计算其在所述少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数，所述原始样本总体中的所有样本个体所属的分类为已知。然后对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体。接着将所述原始样本总体与所有的所述第二样本个体混合形成混合样本总体。最后基于所述混合样本总体构建分类模型。

根据本公开的实施例，所述方法还包括根据所述原始样本总体中各个分类所占的比例确定所述少数类。

根据本公开的实施例，所述方法中对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体包括，对于所述每一个第一样本个体通过对所述k个距离最近的第一样本个体进行插值运算得到所述至少一个第二样本个体，以及所述插值运算包括线性插值、抛物线插值、或者样条插值。

根据本公开的实施例，所述方法还包括对所述分类模型的分类效果进行评估。

根据本公开的实施例，所述方法中对所述分类模型的分类效果进行评估包括，基于原始样本总体构建第二分类模型，其中构建所述第二分类模型的算法与构建所述分类模型的算法相同，然后根据所述分类模型对原始样本总体进行分类的结果得到第一分类准确率，同时根据所述第二分类模型对原始样本总体进行分类的结果得到第二分类准确率，以及根据第一分类准确率和第二分类准确率的比较，评估所述分类模型的分类效果。具体地评估所述分类模型的分类效果包括，当所述第一分类准确率高于第二分类准确率时，评估所述分类模型的分类效果提升；或者当所述第一分类准确率等于或低于第二分类准确率时，评估所述分类模型的分类效果未提升。

根据本公开的实施例，所述方法还包括当评估所述分类模型的分类效果未提升时，改变k的值，和/或改变根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式，以及根据改变后的k值和/或改变后的根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式执行所述构建分类模型的操作。

本公开的另一个方面提供了一种构建不均衡样本分类模型的装置，包括原始数据接收模块、分类模型构建模块和分类模型输出模块。其中，原始数据接收模块用于接收原始样本总体数据。分类模型构建模块用于构建分类模型，包括首先对于所述原始样本总体中属于少数类的每一个第一样本个体计算其在所述少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数，所述原始样本总体中的所有样本个体所属的分类为已知，然后对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体，接着将所述原始样本总体与所有的所述第二样本个体混合形成混合样本总体，最后基于所述混合样本总体构建分类模型。分类模型输出模块用于输出所述分类模型。

根据本公开的实施例，所述装置还包括少数类确定模块，用于根据所述原始样本总体中各个分类所占的比例确定所述少数类。

根据本公开的实施例，所述分类模型构建模块中对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体包括，对于所述每一个第一样本个体，通过对所述k个距离最近的第一样本个体进行插值运算得到所述至少一个第二样本个体，以及所述插值运算包括线性插值、抛物线插值、或者样条插值。

根据本公开的实施例，所述装置还包括分类效果评估模块，用于对所述分类模型的分类效果进行评估。

根据本公开的实施例，所述分类效果评估模块中对所述分类模型的分类效果进行评估包括，首先基于原始样本总体构建第二分类模型，其中构建所述第二分类模型的算法与构建所述分类模型的算法相同，然后根据所述分类模型对原始样本总体进行分类的结果得到第一分类准确率，同时根据所述第二分类模型对原始样本总体进行分类的结果得到第二分类准确率，以及根据第一分类准确率和第二分类准确率的比较，评估所述分类模型的分类效果。具体地，评估所述分类模型的分类效果包括，当所述第一分类准确率高于第二分类准确率时，评估所述分类模型的分类效果提升，或者当所述第一分类准确率等于或低于第二分类准确率时，评估所述分类模型的分类效果未提升。

根据本公开的实施例，所述装置还包括参数调整模块，用于当评估所述分类模型的分类效果未提升时，改变k的值，和/或改变根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式。所述分类模型构建模块还用于根据改变后的k值和/或改变后的根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式执行所述构建分类模型的操作。

本公开的另一个方面提供了一种构建不均衡样本分类模型的系统，包括一个或多个存储器，存储可执行指令，以及一个或多个处理器，所述处理器执行所述可执行指令以实现如上所述的方法。

本公开的另一个方面提供了一种构建不均衡样本分类模型的可读存储介质，其上存储有可执行指令，所述指令被处理器执行时使处理器实现如上所述的方法。

根据本公开的实施例，可以一定程度上避免分析不均衡样本时对少数类进行简单复制的过抽样导致的过拟合问题和欠抽样带来的信息丢失的问题，又能避免代价敏感度学习带来的构建分类模型的复杂度和工厂开发难度过高的问题，并因此可以实现有效提取少数类的共性特征，提高预测新的个体所在的分类的准确度、提升分类模型的分类效果的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的构建不均衡样本分类模型的方法和装置的示例性构架；

图2示意性示出了根据本公开实施例的构建不均衡样本分类模型的方法的流程图；

图3示意性示出了根据本公开实施例的构建分类模型的方法的流程图；

图4示意性示出了根据本公开另一实施例的构建不均衡样本分类模型的方法的流程图；

图5示意性示出了根据本公开另一实施例的构建不均衡样本分类模型的方法的流程图；

图6示意性示出了根据本公开另一实施例的对分类模型的分类效果进行评估的流程图；

图7示意性示出了根据本公开再一实施例的构建不均衡样本的分类模型的方法的流程图；

图8示意性示出了根据本公开实施例的构建不均衡样本分类模型装置的框图；以及

图9示意性示出了根据本公开实施例的适于实现构建不均衡样本分类模型的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

本公开的实施例提供了一种用于多个机器人中每个机器人的通信方法以及能够应用该方法的机器人。该方法包括身份识别过程和信息收发过程。在身份识别过程中，每个机器人在不同时隙发送对自身进行标识的身份识别信号，并接收来自其他机器人的身份识别信号。基于接收的身份识别信号，多个机器人可以彼此相互识别。在完成身份识别之后，进入信息收发过程，多个机器人可以根据预定规则彼此通信。

图1示意性示出了根据本公开实施例的构建不均衡样本分类模型的方法和装置的示例性系统架构100。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

在本公开实施例所提供的构建不均衡分类模型的方法中，服务器105可以收集或统计终端设备101、102、103通过网络104向服务器105提供各种历史数据。这些历史数据可以包括用户通过终端设备101、102、103任意一个输入的信息数据或者操作信息数据等，例如用户的注册信息、各种操作行为等数据。其中，这些历史数据的所属的分类已经根据已发生的事件明确确定，例如某一用户曾经发生过对网络104或者服务器105等的攻击行为，从而根据这一事件确定出该某一用户属于恶意用户。

当然，服务器105还可以从终端设备101、102、103以外的其他位置获得各种历史数据。例如，服务器105可以直接从云端接收各种历史数据。

另外服务器105还可以从这些历史数据中按照一定的方法抽样获得原始样本总体数据。由于该原始样本总体数据是从该历史数据中抽样获得的，因此该原始样本总体中的所有样本个体的分类均为已知。

服务器105还可以执行根据本公开实施例所提供的方法来构建不均衡样本分类模型并输出该分类模型。从而，当服务器105构建得到不均衡样本的分类模型后，就可以根据该分类模型对新获得的数据(例如通过终端终端设备101、102、103上新输入的数据)进行分类，以预测该新获得的数据所属的分类。

需要说明的是，本公开实施例所提供的构建不均衡样本分类模型的方法一般可以由服务器105执行。相应地，本公开实施例所提供的构建不均衡样本分类模型的装置一般可以设置于服务器105中。本公开实施例所提供的构建不均衡样本分类模型的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的构建不均衡样本分类模型的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的构建不均衡样本分类模型的方法的流程图。

如图2所示，根据本公开的实施例的构建不均衡样本分类模型的方法包括操作S210～操作S230。

在操作S210，接收原始样本总体数据。如前所述，该原始样本总体数据是从对应的历史数据中按照一定的方法抽样获得的，并且该原始样本总体中的所有样本个体所属的分类均为已知。

然后在操作S220，构建分类模型。

并在操作S230，输出该分类模型。

其中，在操作S220中构建分类模型的具体过程可以参考图3的描述。

图3示意性示出了根据本公开实施例的操作S220构建分类模型的方法的流程图。

如图3所示，操作S220构建分类模型的具体过程包括操作S221～操作S224。

首先在操作S221，对于该原始样本总体中属于少数类的每一个第一样本个体计算其在该少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数。

该原始样本总体中的少数类可以有一个，也可以有多个。

第一样本个体为对来自原始样本总体的属于任意一个要进行分析的少数类的所有样本个体的统称。

对属于该少数类的每一个第一样本个体计算其在该少数类中的k个距离最近的第一样本个体。

根据kNN(k-Neareast Nerghbor，k最近邻)算法的思想，每个第一样本个体都可以用它最接近的k个邻居(即k个最近邻)来代表，即根据本公开的实施例，每个第一样本个体都可以用在该少数类中与它距离最为接近的的k个第一样本个体来代表。

根据本公开的实施例，该距离可以是通过计算欧式距离来度量。

k的取值可以根据分析数据的需要以及计算复杂度综合确定。k取值越大，则计算得到的每一个样本个体的最近邻的样本个体就越多，从而有助于更精确提取出该k个近邻的共性特征。但是，k取值越大，计算的复杂度会增加，计算的效率会降低，所耗费的资源也会增大。

根据本公开的实施例，k为大于等于2的正整数。这是考虑到根据本公开的实施例在获得每一个第一样本个体的k个最近邻的目的是为了提取这k个最近邻的共性特征，以便确定至少一个与该每一个第一样本个体相类似的第二样本个体。若k为1时，对于该每一个第一样本个体仅有1个最近邻，从而根本无法从该仅有的1个最近邻中提取出共性特征。

然后在操作S222，对于该每一个第一样本个体，根据该k个距离最近的第一样本个体确定至少一个第二样本个体。

根据该k个距离最近的第一样本个体确定至少一个第二样本个体，即提取这k个最近邻的共性特征，以便确定至少一个第二样本个体。该至少一个第二样本个体可以被视为与对应的第一样本个体具有类似的共性特征。

根据该k个距离最近的第一样本个体确定至少一个第二样本个体的方式可以多种多样，例如通过几何方法找到该k个第一样本个体的中心，或者例如通过算数加权法通过该k个第一样本个体得到至少一个第二样本个体，再或者例如通过对该k个第一样本个体按照一定的插值运算得到至少一个第二样本个体。

根据本公开的实施例，对于该每一个第一样本个体，根据该k个距离最近的第一样本个体确定至少一个第二样本个体，可以是对于该每一个第一样本个体，通过对该k个距离最近的第一样本个体进行插值运算得到该至少一个第二样本个体；以及该插值运算包括线性插值、抛物线插值、或者样条插值。

接着在操作S223，将该原始样本总体与所有的该第二样本个体混合形成混合样本总体。

通过操作S222对该每一个第一样本个体确定至少一个第二样本个体，从而第二样本个体的总个数会与该少数类中的第一样本个体的总个数相当。

该混合样本总体与该原始样本总体相比，其中的少数类的样本的特征会更为突出。该混合样本总体中增加的这些第二样本个体，是通过操作S221和操作S222根据对应的第一样本个体通过kNN算法提取共性特征后生成的。因此，这些第二样本个体的增加能够进一步地提升该混合样本总体中的少数类的样本的特征。

最后在操作S224，基于该混合样本总体构建分类模型。

基于该混合样本总体构建的分类模型，由于该混合样本总体中的少数类的样本的特征更为突出，从而使得构建得到的该分类模型能够将新获得的数据更为准确地在多数类和少数类之中进行分类。

根据本公开的实施例，对于不均衡样本中的少数类，通过对少数类中的每一个第一样本计算在该少数类中的k个最近邻，并根据这k个最近邻确定至少一个第二样本个体，从而扩充了该少数类样本的个数，也同时扩展了样本总体的个数。基于这样的混合样本总体构建的分类模型，有助于更好地提取少数类的共性特征，有利于更准确地预测新获得的数据所在的分类。

更进一步地，根据本公开实施例的构建不均衡样本分类模型的方法可以一定程度上避免分析不均衡样本时对少数类进行简单复制的过抽样导致的过拟合问题和欠抽样带来的信息丢失的问题，又能避免代价敏感度学习带来的构建分类模型的复杂度和工厂开发难度过高的问题，并可以实现有效提取少数类的共性特征，提高预测新获得的数据所在的分类的准确度，提升分类模型的分类效果。

图4示意性示出了根据本公开另一实施例的构建不均衡样本分类模型的方法的流程图。

如图4所示，该方法除了操作S210、S220和操作S230外还包括操作S420，其中操作S420位于操作S210和操作S220之间。

在操作S420，根据该原始样本总体中各个分类所占的比例确定该少数类。

可以理解的是，图4示意的操作S420位于操作S210和操作S220之间仅是多种实施例中的一种。在另一些实施例中，操作S420也可以位于操作S210之前，即在接收该原始样本总体数据之前就已经确定出了其中的少数类。

根据本公开的实施例，可以根据分析的需要指定不均衡样本中多数类与少数类的临界比例，从而当不均衡样本任意两个分类的比例中有超过该临界比例时，样本容量较小的分类就可以被确定为少数类。

以下示出了一个根据本公开实施例的构建不均衡样本分类模型方法的具体例子，以便于更直观和清晰地理解根据本公开实施例构建不均衡样本分类模型的过程。

表1所列示的为一种可能的原始样本数据。

表1原始样本总体示例

表1中所示的该原始样本数据是根据用户在网站上的行为等信息将用户分为两个大类，其分类的样本标记分别为1和0。其中样本标记1代表此类数据中均为普通用户数据，样本标记0代表此类数据中均为恶意用户的数据，例如网络黑客等就属于此类恶意用户。表1中每个样本个体(即每个用户)都对应有各自的特征参数，这些特征参数包括一系列的参数指标，这些参数指标是根据分析的需要而选择得到的指标数据，这些参数指标综合起来用来表征每个样本个体的特性。

可以理解，表1中为了后续分析和示例的方便，仅示意性示出了用户A01、A02和A06的部分参数指标的代号，其余均用短线或省略号简略代表。

可以理解，表1中的原始样本数据以及其分类仅是一种示例。原始样本数据还可以是其他数据，并具有多个分类。例如服务类公司可以根据客户是否向客服投诉、以及向客服投诉的频繁次数将客户分成多个类，例如包括经常投诉的客户、偶尔投诉的客户、从不投诉的客户等多个分类。

若根据分析的需要指定不均衡样本中多数类与少数类的临界比例10∶1，那么在表1所示的该原始样本数据中，样本标记为1和0的两个分类的比例为12∶1，已超出该临界比例，从而可以确定样本标记为0的分类为少数类。

根据本公开的实施例，确定该原始样本总体数据中的少数类可以是在操作S210接收该样本总体数据之前就已经确定完成，从而在操作S210中接收该样本总体数据时就按照多数类和少数类分别接收。

或者，在确定该原始样本总体数据中的少数类也可以是在操作S210接收该原始样本总体数据的同时或者之后再确定其中的少数类。

然后，在操作S220构建分类模型。具体地，在构建分类模型时首先计算样本标记为0的分类中每一个第一样本个体在该样本标记为0的分类中的k个距离最近的第一样本个体。

具体的，指定k的值(例如k为2时)，对用户A01分别计算其与该样本标记为0中的其他用户(用户A02、用户A03、......一直到用户A10)之间的距离，然后将得到的距离值按照大小排序，从中选择最小的两个距离值所对应的用户作为用户A02的两个最近邻。

例如，通过计算该样本标记为0中的其他用户与用户A01的欧式距离来度量其他用户与用户A01的距离。

当计算用户A01与用户A02的欧式距离d₁₂时，可以通过如下计算得到：

通过类似的方法，依次类推可以得到用户A01与样本标记为0的其他用户之间的特征参数d₁₃、d₁₄、...，d₁₁₀、。

然后将d₁₂，d₁₃、d₁₄、...，d₁₁₀按照大小排序，得到其中最小的两个值(例如，最小的是d₁₂，接下来最小的是d₁₆)，则用户A01的两个最近邻分别是用户A02和用户A06。

类似地，对于用户A02、用户A03、......以及用户A10也用同样的方法得到其各自的两个最近邻。

在得到样本标记为0中的每个样本个体对应的两个最近邻后，对每个样本个体根据该两个最近邻确定出至少一个第二样本个体。

具体仍以用户A01为例，通过上述计算得到用户A01的两个最近邻为用户A02和用户A06。此时，可以根据用户A02和用户A06确定得到一个第二样本个体(例如，该第二样本个体为用户AA01，当然该用户AA01并非真实存在的用户数据)。

具体地，可以通过对用户A02和用户A06的特征参数插值确定出用户AA01的各个特征参数，例如可以是通过线性插值计算得到。

例如，计算用户AA01的登陆的地域的变化率ee01时，可以通过如下线性计算得到：

ee01＝e02+α·(e06-e02)，α∈(0，1)

其中，α可以根据经验选择确定，而且α值一经选定，在后续计算样本标记为0的每个样本个体对应的至少一个第二样本个体的过程中始终保持不变。

例如取α＝0.5时，即用户AA01登录的地域的变化率ee01的值为用户A02和用户A06的对应参数的平均值。通过同样的方法，计算出用户AA01的特征参数中其他参数指标的值。

按照确定用户AA01同样的方法，可以确定出用户A02、用户A03....以及用户A10各自对应的第二样本个体。

需要说明的是，以上示例中k取值为2时通过线性插值法确定出第二样本个体仅为一种示例。当k取值为3或者更大的正整数时，在通过插值法确定至少一个第二样本的过程中还可以通过抛物线插值、样条插值或者多项式插值等。

对样本标记为0的每个样本个体都对应确定出至少一个第二样本个体后，将得到的所有的第二样本个体和表1中的原始样本总体混合形成混合样本总体，如表2所示。

表2混合样本总体示例

表2所示的混合样本总体中，样本标记为0的样本个体包括来自原始样本总体的数据，还包括根据本实施例的方法确定出的第二样本个体(如图2中的用户AA01、用户用户AA02...、用户AA10)，从而属于样本标记0的样本个体的数量增加。

根据本公开的实施例，基于表2所示的混合样本总体构建分类模型。以此方式，该分类模型能够更准确地提取到样本标记为0的用户的共性特征，从而将新获得的数据更为准确地在多数类和少数类之中进行分类。

图5示意性示出了根据本公开另一实施例的构建不均衡样本分类模型的方法的流程图。

如图5所示，该方法除操作S201、操作S220和操作S230之外，还包括操作S530，其中操作S530位于操作S230之前。

在操作S530，对操作S220获得的该分类模型的分类效果进行评估。即对基于该混合样本总体构建的分类模型的分类效果进行评估，测算其分类准确度。

当然在一些实施例中，操作S530还可以位于操作S230之后。

根据本公开的实施例，在操作S530对该分类模型的分类效果进行评估的具体过程可以参考图6的示意性描述。

图6示意性示出了根据本公开另一实施例的操作S530对分类模型的分类效果进行评估的流程图。

如图6所示，操作S530具体可以包括操作S531～操作S534。

在操作S531，基于原始样本总体构建第二分类模型，其中构建该第二分类模型的算法与构建该分类模型的算法相同。

在操作S532，根据该分类模型对原始样本总体进行分类的结果得到第一分类准确率。

在操作S533，根据该第二分类模型对原始样本总体进行分类的结果得到第二分类准确率。

在操作S534，根据第一分类准确率和第二分类准确率的比较，评估该分类模型的分类效果。具体地，当该第一分类准确率高于第二分类准确率时，评估该分类模型的分类效果提升；或者当该第一分类准确率等于或低于第二分类准确率时，评估该分类模型的分类效果未提升。

以表1所示的原始样本总体为例。在操作S531基于该原始样本总体构建第二分类模型，其中构建的过程中的算法与基于表2所示的混合样本总体构建分类模型时的算法相同。

然后在操作S532和操作S533对表1中的原始样本总体，分别通过基于混合样本总体得到的该分类模型和基于原始样本总体得到的该第二分类模型进行分类，分别得到第一分类准确率和第二分类准确率。

由于表1中的原始样本总体中的各个样本个体实际所属的分类是已知的，如表1中所示的用户01～用户120属于标记为1的分类，用户A01～用户A10属于标记为0的分类。

这样，将该原始样本总体通过该分类模型和该第二分类模型进行分类后，将分类到标记为1的样本个体与分类到标记为0的样本个体与表1中列示的分类信息进行对比，从而可以得到对应的分类准确率。

该分类准确率可以仅包括少数类的分类准确率，例如，经过该分类模型分类后用户A01～用户A08均被分到标记为0的类中，而用户A09和用户A10未被分到标记为0的类中，此时少数类的分类准确率未80％，相应的该分类模型的分类准确率就是80％。

当然，该分类准确率也可以同时包括少数类的分类准确率和多数类的分类准确率的综合值，例如该分类准确率可以是将少数类的分类准确率和多数类的分类准确率进行加权计算得到。

然后在操作S534，根据第一分类准确率和第二分类准确率的比较，评估该分类模型的分类效果，从而确定基于混合样本总体构建的该分类模型的分类效果是否提升以及提升的程度。

可以理解，对该分类模型的分类效果进行评估的方法可以有多种，例如，可以是该分类模型和该第二分类模型分别对混合样本总体进行分类后对比评估。这种情况下例如可以将表2中的混合样本总体中的所有第二样本个体均视为属于样本标记为0的分类。

或者，还可以是通过该分类模型和该第二分类模型分别对另一已知分类的样本总体进行分类后对比评估。具体方式此处不做限定。

图7示意性示出了根据本公开再一实施例的构建不均衡样本的分类模型的方法的流程图。

如图7所示，该方法在操作S210、操作S220和操作S230之外，还包括操作S530。并且，根据操作S530的评估结果，若在评估该分类模型的分类效果得到提升时执行操作S230，若在评估该分类模型的分类效果未提升时执行操作S730。

如前所述，在操作S530，对该分类模型的分类效果进行评估。评估结果可以是根据本公开实施例中示出的该分类模型的分类效果提升或者未提升。

当在操作S530评估结果是该分类模型的分类效果得到提升，则执行操作S230输出该分类模型。

而当在操作S530评估结果是该分类模型的分类效果未提升，此时执行操作S730，改变k的值，和/或改变根据该k个距离最近的第一样本个体确定至少一个第二样本个体的方式。然后再执行操作S220，即根据改变后的k值和/或改变后的根据该k个距离最近的第一样本个体确定至少一个第二样本个体的方式再次构建分类模型。

根据本公开的实施例，在操作S730中改变k的值，和/或改变根据该k个距离最近的第一样本个体确定至少一个第二样本个体的方式，可以是例如改变k的取值，或者将在根据该k个距离最近的第一样本个体确定至少一个第二样本个体的插值方式进行改变，例如从抛物线插值法改成样条插值法，或者改变插值过程中表达式中的参数的具体取值等等。

根据本公开的实施例，通过将对该分类模型的分类效果的评估结果反馈至构建该分类模型的过程中，从而保证了根据本公开实施例的方法构建不均衡样本分类模型的分类效果能够极大地提升。

若评估表明分类效果未提升时，说明在扩充原始样本总体以形成混合总体过程中，没有能够有效地提取出少数类的共性特征。从而，重新确定形成混合样本总体时的参数k和确定第二样本个体的方式，例如将线性插值换成抛物线插值法，或者将插值运算法替换为其他运算方法，然后重新形成混合样本总体，并重新构建分类模型，直到得到的分类模型的分类效果提升。以此方式，保证了最终输出的分类模型的性能提示，使得在对新的数据进行预测时更加准确，从而可以智能、高效的实现不均衡样本的分类模型的建立。

图8示意性示出了根据本公开实施例的构建不均衡样本分类模型的装置的框图。

如图8所示，该装置800包括原始数据接收模块810、分类模型构建模块820和分类模型输出模块830。装置800可用于实现参考图2～图7所述的方法。

原始数据接收模块810用于接收原始样本总体数据；

分类模型构建模块820用于构建分类模型。

分类模型输出模块830用于输出所述分类模型。

其中分类模型构建模块820用于构建分类模型的过程可以是首先对于所述原始样本总体中属于少数类的每一个第一样本个体计算其在所述少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数，所述原始样本总体中的所有样本个体所属的分类为已知。

然后，对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体。

具体地，对于该每一个第一样本个体，根据该k个距离最近的第一样本个体确定至少一个第二样本个体，可以是对于该每一个第一样本个体，通过对该k个距离最近的第一样本个体进行插值运算得到该至少一个第二样本个体。该插值运算可以是线性插值、抛物线插值、或者样条插值。

接着，将所述原始样本总体与所有的所述第二样本个体混合形成混合样本总体。

最后基于所述混合样本总体构建分类模型。

根据本公开实施例的装置800，对于不均衡样本中的少数类，通过对少数类中的每一个第一样本计算在该少数类中的k个近邻，并根据这k个近邻确定一个第二样本个体，从而扩充少数类样本的个数，也同时扩展了样本总体的个数。基于这样的混合样本总体构建的分类模型，有助于更好地提取少数类的共有特征，有利于更准确地预测新的个体所在的分类。

更进一步地，装置800可以一定程度上避免分析不均衡样本时对少数类进行简单复制的过抽样导致的过拟合问题和欠抽样带来的信息丢失的问题，又能避免代价敏感度学习带来的构建分类模型的复杂度和工厂开发难度过高的问题，并因此可以实现有效提取少数类的共性特征，提高预测新的个体所在的分类的准确度、提升分类模型的分类效果的技术效果。

根据本公开的实施例，装置800还包括少数类确定模块840。该少数类确定模块840用于根据该原始样本总体中各个分类所占的比例确定其中的少数类。

根据本公开的实施例，装置800还包括分类效果评估模块850，用于对该分类模型的分类效果进行评估。

具体地，该分类效果评估模块850对该分类模型的分类效果进行评估的过程可以是，首先基于原始样本总体构建第二分类模型，其中构建该第二分类模型的算法与构建该分类模型的算法相同。然后根据该分类模型对原始样本总体进行分类的结果得到第一分类准确率，同时根据该第二分类模型对原始样本总体进行分类的结果得到第二分类准确率。最后，根据第一分类准确率和第二分类准确率的比较，评估该分类模型的分类效果。

根据第一分类准确率和第二分类准确率的比较，评估该分类模型的分类效果具体可以是当该第一分类准确率高于第二分类准确率时，评估该分类模型的分类效果提升，或者当该第一分类准确率等于或低于第二分类准确率时，评估该分类模型的分类效果未提升。

根据本公开的实施例，装置800还包括参数调整模块860。该参数调整模块860用于当评估所述分类模型的分类效果未提升时，改变k的值，和/或改变根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式。

分类模型构建模块830还用于根据改变后的k值和/或改变后的根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式执行如图2～图7中的操作S220。

根据本公开的实施例，装置800当评估所述分类模型的分类效果未提升时可以通过参数调整模块860改变k的值和/或改变根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式，从而重新构建分类模型，从而保证了最终输出的分类模型的分类效果。装置800通过参数调整模块860能够对构建分类模型的过程形成有效地反馈，以此方式，保证了最终输出的分类模型的性能提升，使得在对新的数据进行预测时更加准确，从而可以智能、高效的实现不均衡样本的分类模型的建立。

图9示意性示出了根据本公开实施例的适于实现构建不均衡样本分类模型的计算机系统900的方框图。

图9示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，根据本公开实施例的计算机系统900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器910还可以包括用于缓存用途的板载存储器。处理器510可以包括用于执行参考图2～图7描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行以上参考图2～图7描述的根据本公开实施例的构建不均衡样本分类模型的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2～图7描述的根据本公开实施例的构建不均衡样本分类模型的各种操作。

根据本公开的实施例，系统900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

根据本公开的实施例，上文参考流程图描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。根据本公开的实施例，计算机可读介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行根据本公开实施例的构建不均衡样本分类模型的方法。所述方法包括接收原始样本总体数据、构建分类模型和输出所述分类模型。其中构建分类模型包括首先对于所述原始样本总体中属于少数类的每一个第一样本个体计算其在所述少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数，所述原始样本总体中的所有样本个体所属的分类为已知。然后对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体。接着将所述原始样本总体与所有的所述第二样本个体混合形成混合样本总体。最后基于所述混合样本总体构建分类模型。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种构建不均衡样本分类模型的方法，包括：

接收原始样本总体数据；

构建分类模型，包括：

对于所述原始样本总体中属于少数类的每一个第一样本个体计算其在所述少数类中的k个距离最近的第一样本个体，其中，k为大于等于2的正整数，所述原始样本总体中的所有样本个体所属的分类为已知；

对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体；

将所述原始样本总体与所有的所述第二样本个体混合形成混合样本总体；

基于所述混合样本总体构建分类模型；以及

输出所述分类模型。

2.根据权利要求1所述的方法，还包括：

根据所述原始样本总体中各个分类所占的比例确定所述少数类。

3.根据权利要求1所述的方法，其中，对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体，包括：

对于所述每一个第一样本个体，通过对所述k个距离最近的第一样本个体进行插值运算得到所述至少一个第二样本个体；以及

所述插值运算包括线性插值、抛物线插值、或者样条插值。

4.根据权利要求1所述的方法，还包括：

对所述分类模型的分类效果进行评估。

5.根据权利要求4所述的方法，对所述分类模型的分类效果进行评估，包括：

基于原始样本总体构建第二分类模型，其中构建所述第二分类模型的算法与构建所述分类模型的算法相同；

根据所述分类模型对原始样本总体进行分类的结果得到第一分类准确率；

根据所述第二分类模型对原始样本总体进行分类的结果得到第二分类准确率；以及

根据第一分类准确率和第二分类准确率的比较，评估所述分类模型的分类效果，包括：

当所述第一分类准确率高于第二分类准确率时，评估所述分类模型的分类效果提升；或者

当所述第一分类准确率等于或低于第二分类准确率时，评估所述分类模型的分类效果未提升。

6.根据权利要求5所述的方法，还包括：

当评估所述分类模型的分类效果未提升时，改变k的值，和/或改变根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式；以及

根据改变后的k值和/或改变后的根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式执行所述构建分类模型的操作。

7.一种构建不均衡样本分类模型的装置，包括：

原始数据接收模块，用于接收原始样本总体数据；

分类模型构建模块，用于构建分类模型，包括：

基于所述混合样本总体构建分类模型；以及

分类模型输出模块，用于输出所述分类模型。

8.根据权利要求7所述的装置，还包括：

少数类确定模块，用于根据所述原始样本总体中各个分类所占的比例确定所述少数类。

9.根据权利要求7所述的装置，其中，对于所述每一个第一样本个体，根据所述k个距离最近的第一样本个体确定至少一个第二样本个体，包括：

所述插值运算包括线性插值、抛物线插值、或者样条插值。

10.根据权利要求7所述的装置，还包括：

分类效果评估模块，用于对所述分类模型的分类效果进行评估。

11.根据权利要求10所述的装置，对所述分类模型的分类效果进行评估，包括：

12.根据权利要求11所述的装置，还包括：

参数调整模块，用于当评估所述分类模型的分类效果未提升时，改变k的值，和/或改变根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式；

所述分类模型构建模块还用于根据改变后的k值和/或改变后的根据所述k个距离最近的第一样本个体确定至少一个第二样本个体的方式执行所述构建分类模型的操作。

13.一种构建不均衡样本分类模型的系统，包括：

一个或多个存储器，存储可执行指令；以及

一个或多个处理器，所述处理器执行所述可执行指令以实现权利要求1～6任意一项所述的方法。

14.一种构建不均衡样本分类模型的可读存储介质，其上存储有可执行指令，所述指令被处理器执行时使处理器实现权利要求1～6任意一项所述的方法。