CN114462465A

CN114462465A - 一种分类模型的训练方法、质检预测方法及对应装置

Info

Publication number: CN114462465A
Application number: CN202111166123.9A
Authority: CN
Inventors: 陈实; 李宽; 王洪斌; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-05-10

Abstract

本发明公开了一种分类模型的训练方法、质检预测方法及对应装置，涉及模型训练技术领域，在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。本发明的主要技术方案为：获取样本数据集，样本数据集包括训练集和验证集，样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值；利用训练集训练初始分类模型，得到第一分类模型；将验证集输入第一分类模型，输出预测验证集为正样本的预测结果，预测结果中至少包含验证集中原始正样本被预测为正样本所对应的目标概率值；根据目标概率值，从训练集中删除容易负样本，得到新训练集；利用新训练集训练第一分类模型，得到第二分类模型。

Description

一种分类模型的训练方法、质检预测方法及对应装置

技术领域

本发明涉及模型训练技术领域，尤其涉及一种分类模型的训练方法、质检预测方法及对应装置。

背景技术

分类技术在各种业务场景中使用非常广泛，分类技术是指主要采用分类器在数据挖掘过程中对样本进行分类的方法，可以包含使用决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

目前，在某些业务场景中，在训练分类模型时，对于采集到的样本数据，会出现正负样本极度不平衡的情况，那么现在主要是采用以下3种方案来控制这种样本不平衡：1、降采样方案，即在负样本中随机采样，从而通过降低负样本的数量，以使正负样本数量达到平衡，但是由于采样的随机性，无法确保得到负样本的质量；2、过采样方案，即将正样本进行扩充，以使正负样本数量达到平衡，但是对于负样本数量很大的情况，此种方案并不适合；3、调整样本权重的方案，但对于正负样本差异较大时，无法确保调整的效果。

但是以上3种方案都是存在一些缺陷的，控制样本不平衡的效果不够好，从而导致最终会影响分类模型的训练效果。

发明内容

有鉴于此，本发明提供一种分类模型的训练方法、质检预测方法及对应装置，主要目的在于在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。

为了达到上述目的，本发明主要提供如下技术方案：

本申请第一方面提供了一种分类模型的训练方法，该方法包括：

获取样本数据集，所述样本数据集包括训练集和验证集，所述样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值；

利用所述训练集训练初始分类模型，得到第一分类模型；

将所述验证集输入所述第一分类模型，输出预测所述验证集为正样本的预测结果，所述预测结果中至少包含所述验证集中原始正样本被预测为正样本所对应的目标概率值；

根据所述目标概率值，从所述训练集中删除容易负样本，得到新训练集；

利用所述新训练集训练所述第一分类模型，得到第二分类模型。

在本申请第一方面的一些变更实施方式中，在所述将所述验证集输入所述第一分类模型，输出预测所述验证集为正样本的预测结果之后，所述方法还包括：

获取所述预测结果中每个样本被预测为正样本所对应的概率值；

按照所述概率值从高到低，从所述验证集中获取预设数量的样本，其中，所述预设数量中原始正样本数量与所述验证集中原始正样本数量之间比值达到第一预设阈值；

将获取到的所述预设数量的样本组成新验证集，所述新验证集用于测试所述新训练集训练得到的分类模型。

在本申请第一方面的一些变更实施方式中，所述根据所述目标概率值，从所述训练集中删除容易负样本，得到新训练集，包括：

在所述预设数量的样本对应的概率值中，选取最小概率值，作为目标概率值；

将所述训练集输入所述第一分类模型，输出预测所述训练集为正样本的预测结果，所述预测结果中至少包含所述训练集被预测为正样本所对应的概率值；

在所述概率值小于或等于所述目标概率值，且所述概率值对应的样本为所述训练集中的原始负样本的情况下，将所述概率值对应的原始负样本确定为容易负样本；

从所述训练集中删除所述容易负样本，得到新训练集。

在本申请第一方面的一些变更实施方式中，将所述第二分类模型作为一轮优化所述第一分类模型对应的处理结果，所述方法还包括：

在所述新训练集中负样本数量和正样本数量之间的比值大于或等于所述预设样本不平衡阈值的情况下，利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作；

在所述新训练集中原始负样本数量和原始正样本数量之间的比值小于所述预设样本不平衡阈值的情况下，停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。

在所述新验证集中判断原始负样本数量占样本总数量的比值是否达到第二预设阈值；

若是，则利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作；

若否，则停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。

本申请第二方面提供了一种分类模型的训练装置，该装置包括：

获取单元，用于获取样本数据集，所述样本数据集包括训练集和验证集，所述样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值；

训练单元，用于利用所述训练集训练初始分类模型，得到第一分类模型；

处理单元，用于将所述验证集输入所述第一分类模型，输出预测所述验证集为正样本的预测结果，所述预测结果中至少包含所述验证集中原始正样本被预测为正样本所对应的目标概率值；

删除单元，用于根据所述目标概率值，从所述训练集中删除容易负样本，得到新训练集；

所述训练单元，还用于利用所述新训练集训练所述第一分类模型，得到第二分类模型。

在本申请第二方面的一些变更实施方式中，所述装置包括：

所述获取单元，还用于获取所述预测结果中每个样本被预测为正样本所对应的概率值；

所述获取单元，还用于按照所述概率值从高到低，从所述验证集中获取预设数量的样本，其中，所述预设数量中原始正样本数量与所述验证集中原始正样本数量之间比值达到第一预设阈值；

组成单元，用于将获取到的所述预设数量的样本组成新验证集，所述新验证集用于测试所述新训练集训练得到的分类模型。

在本申请第二方面的一些变更实施方式中，所述删除单元包括：

选取模块，用于在所述预设数量的样本对应的概率值中，选取最小概率值，作为目标概率值；

处理模块，用于将所述训练集输入所述第一分类模型，输出预测所述训练集为正样本的预测结果，所述预测结果中至少包含所述训练集被预测为正样本所对应的第二概率值；

确定模块，用于在所述第二概率值小于或等于所述目标概率值，且所述第二概率值对应的样本为所述训练集中的原始负样本的情况下，将所述第二概率值对应的原始负样本确定为容易负样本；

删除模块，用于从所述训练集中删除所述容易负样本，得到新训练集，所述新训练集用于测试新训练集训练得到的分类模型。

在本申请第二方面的一些变更实施方式中，将所述第二分类模型作为一轮优化所述第一分类模型对应的处理结果，所述装置还包括：

执行单元，用于在所述新训练集中负样本数量和正样本数量之间的比值大于或等于所述预设样本不平衡阈值的情况下，利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作；

停止单元，用于在所述新训练集中原始负样本数量和原始正样本数量之间的比值小于所述预设样本不平衡阈值的情况下，停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。

判断单元，用于在所述新验证集中判断原始负样本数量占样本总数量的比值是否达到第二预设阈值；

所述执行单元，还用于当在所述新验证集中判断原始负样本数量占样本总数量的比值达到第二预设阈值时，则利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作；

所述停止单元，还用于当在所述新验证集中判断原始负样本数量占样本总数量的比值未达到第二预设阈值时，则停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。

本申请第三方面提供了一种质检预测方法，应用如上分类模型训练方法得到的分类模型，该方法包括：

获取待质检数据；

将所述待质检数据输入所述分类模型，输出所述待质检数据为异常数据的概率值；

根据所述概率值，确定所述待质检数据中存在的目标异常数据。

本申请第四方面提供了一种质检预测装置，所述装置包括：

获取单元，用于获取待质检数据；

处理单元，用于将所述获取单元获取的待质检数据输入所述分类模型，输出所述待质检数据为异常数据的概率值；

确定单元，用于根据处理单元输出的所述概率值，确定所述待质检数据中存在的目标异常数据。

本申请第五方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的分类模型的训练方法。

本申请第六方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的分类模型的训练方法。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供了一种分类模型的训练方法、装置及质检预测方法、装置，对于负样本数量远大于正样本数量的样本不平衡情况，本发明是将样本不平衡的样本数据集划分为训练集和验证集，该训练集用于训练一个第一分类模型，利用该验证集去测试该第一分类模型而得到在验证集中每个样本被预测为正样本的概率值的预测结果。那么可以选取预测结果中一个原始正样本被预测为正样本的概率值作为目标概率值，用于衡量训练集中一个原始负样本被预测为正样本的难易程度，从而获取到训练集中的容易负样本并删除而得到一个新训练集，该新训练集中缩小了负样本和正样本之间数量差距，相当于是有效地减轻样本不平衡程度，从而利用该新训练集训练得到的第二分类模型，也实现了对第一分类模型的优化。相较于现有技术，本发明是有针对性地删除训练集中容易负样本，继而有效地减轻了样本不平衡程度，解决了现有技术因不能有效控制样本不平衡情况而导致影响训练分类模型质量的问题，本发明实现了在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种分类模型的训练方法流程图；

图2为本发明实施例提供的另一种分类模型的训练方法流程图；

图3为本发明实施例例举的样本不平衡情况的分类模型训练方法的设计方案框图；

图4为本发明实施例提供的一种质检预测方法流程图；

图5为本发明实施例提供的一种分类模型的训练装置的组成框图；

图6为本发明实施例提供的另一种分类模型的训练装置的组成框图；

图7为本发明实施例提供的一种质检预测装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

对于背景技术中列举的降采样方案、过采样方案和调整样本权重的方案，都不能有效控制正负样本不平衡的情况，因而会导致影响训练分类模型质量的问题。对于背景技术中列举的3种控制正负样本不平衡的方法，无论是降低负样本数量、增加正样本数量或者向正负样本分配权重，操作都过于随机、难免介入过多人为经验，因此控制样本不平衡效果不够好。

但是，本发明避免了这种夹杂了过多随机性和介入过多人为经验的情况，主要是考虑到在负样本数量远大于正样本数量的样本不平衡情况下，是会存在一些正负样本之间差异很大的样本的，这样的负样本被预测为正样本的概率是很低的，这样负样本属于容易负样本，那么对于提高训练分类模型质量，使用这样的负样本也是几乎没什么积极作用的。因此从判断不平衡样本中哪些是容易负样本并删除容易负样本的角度，本发明实现了有针对性地减少样本数据集中容易负样本数量，继而有效地减轻样本不平衡程度，最终达到确保训练分类模型的质量的目的。下面，结合本发明实施例实施例，具体阐述本发明提供的分类模型训练方法。

本发明实施例提供了一种分类模型的训练方法，如图1所示，该方法是在样本不平衡情况下实现优化训练分类模型的实施方法，对此本发明实施例提供以下具体步骤：

101、获取样本数据集，样本数据集包括训练集和验证集，样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值。

其中，样本数据集包括图像样本数据集、语音样本数据集、文本样本数据集等。预设样本不平衡阈值用于去衡量样本数据集中负样本数量和正样本数量极度不平衡的情况，也就是负样本数量远远大于正样本数量的应用场景，例如在一个应用场景中，采集到负样本数量和正样本数量达到了10000比1。

其中，训练集是应用于训练一个分类模型的，而验证集是用于验证该训练得到分类模型的质量和分类效果的。对于本发明实施例，在采集到样本数据之后，可以将样本数据划分成一个训练集和一个验证集，训练集与验证集与样本数据集的负样本数量与正样本数量之间的比值相同，示例性的，划分训练集和验证集的具体实施方法可以为如下：

首先，对于采集到的样本数据，哪个是正样本、哪个是负样本都是已知的，那么就可以分别统计该样本数据中包含正样本数量和样本数据总数量，并计算两者数量之间比值；其次，通常是将采集到的样本数据总数量按照预设比例(如8:2的比例)划分成训练集和验证集，并且在划分操作时，还可以将每个数据集内正样本数量的占比与未划分之前原样本数据中正样本数量占比保持一致。

示例性的，以客服服务的质检应用场景为例，假设采集到语音样本数据为总共有100万个拨通电话的用户，其中投诉用户(即正样本)有1000个，将样本数据按8:2的比例划分为训练集和验证集，则划分训练集包含80万个用户和验证集包含20万个用户，同时在划分操作时还确保了训练集包含800个投诉用户以及验证集包含200个投诉用户。

在本发明实施例中，对于划分的训练集和验证集，每个数据集内负样本数量与正样本数量之间的比值也是大于预设样本不平衡阈值，因此包含正负样本也是不平衡的；优选的实施中，初始划分的训练集和验证集的负样本数量与正样本数量之间的比值与原始样本数据集中负样本数量与正样本数量之间的比值是一致的。

102、利用训练集训练初始分类模型，得到第一分类模型。

在本发明实施例中，训练集主要用于训练一个分类模型，标识为第一分类模型，但由于训练集内正负样本是不平衡的，所以本次训练的分类模型的质量不会太高。但就本发明实施例而言，本次训练的分类模型不是最终版本，而是还需要后续验证集的验证，以及下述步骤103-105的优化，而得到优化的第二模型。

需要说明的是，本发明实施例采用词语“第一”和“第二”用于清楚区分标识训练得到的不同分类模型，而不存在其他排序的特殊含义。

103、将验证集输入第一分类模型，输出预测验证集为正样本的预测结果，预测结果中至少包含验证集中原始正样本被预测为正样本所对应的目标概率值。

在本发明实施例中，步骤102训练得到的第一分类模型的功能用途是用于预测一个样本是否为正样本，那么利用该第一分类模型对验证集进行处理，输出的预测结果为预测验证集中每个样本为正样本的概率值。

就预测结果而言，在本发明实施例中是将预测结果中原始正样本被预测为正样本所对应的目标概率值，继而利用该目标概率值应用后续在训练集中筛选容易负样本。

需要说明的是，在本发明实施例中采用词语“原始”指代一个训练集或验证集中原本存在的已知为正样本或负样本的样本，继而本发明实施例采用“原始正样本”或“原始负样本”这样的标识一个样本，能够更加清楚地将已知为正样本或负样本的样本与那些被预测为正样本或负样本的样本进行区分。

104、根据目标概率值，从训练集中删除容易负样本，得到新训练集。

在本发明实施例中，就步骤103得到的预测结果而言，由于第一分类模型的质量不太高，那么预测结果中可能会包含：原始负样本被预测为正样本的概率值为大于50％(例如70％)的情况，或者，原始负样本被预测为正样本的概率值为小于等于50％(例如10％)的情况。

相应的，预测结果中也可能会包含：原始正样本被预测为正样本的概率值为大于50％(例如70％)的情况，或者，原始正样本被预测为正样本的概率值为小于等于50％(例如10％)的情况。

在本发明实施例中提及的“原始正样本”和“原始负样本”是验证集中被已知的样本(即来源是样本数据集)，利用这两个词语仅是方便用于与预测结果中指代被预测为正样本或负样本的样本进行区分。

对于本发明实施例，虽然原始正样本或原始负样本被预测为正样本的概率值都会出现偏差，但是就任意一个原始正样本和任意一个原始负样本而言，如果该原始负样本被预测为正样本的概率值是大于原始正样本对应的预测概率值的，那么说明该原始负样本是不容易被预测正确的，进而该原始负样本是困难负样本，据此，本发明实施例就是采用原始正样本被预测为正样本对应的概率值作为一个目标概率值，作为一个衡量标准。

那么根据该目标概率值作为的衡量标准，去训练集中筛选困难负样本和容易负样本，从而方便于实现了从训练集中删除容易负样本，得到一个新训练集。

105、利用新训练集训练第一分类模型，得到第二分类模型。

在本发明实施例中，根据步骤104得到的新训练集，相较于原训练集是删除了容易负样本，继而缩小了负样本数量和正样本数量之间差距，也就是间接地减轻了原训练集内样本不平衡程度，那么利用这样新训练集训练第一分类模型，相当于是在模型质量上进行了优化，得到第二分类模型。

以上，本发明实施例提供一种分类模型的训练方法，对于负样本数量远大于正样本数量的样本不平衡情况，本发明实施例是将这种样本不平衡的样本数据集划分为训练集和验证集，该训练集用于训练一个第一分类模型，利用该验证集去测试该第一分类模型而得到在验证集中每个样本被预测为正样本的概率值的预测结果。那么可以选取预测结果中一个原始正样本被预测为正样本的概率值作为目标概率值，用于衡量训练集中一个原始负样本被预测为正样本的难易程度，从而获取到训练集中的容易负样本并删除而得到一个新训练集，该新训练集中缩小了负样本和正样本之间数量差距，相当于是有效地减轻样本不平衡程度，从而利用该新训练集训练得到的第二分类模型，也实现了对第一分类模型的优化。相较于现有技术，本发明实施例是有针对性地删除训练集中容易负样本，继而有效地减轻了样本不平衡程度，解决了现有技术因不能有效控制样本不平衡情况而导致影响训练分类模型质量的问题，本发明实施例实现了在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。

为了对上述实施例做出更加详细的说明，本发明实施例还提供了另一种分类模型的训练方法，如图2所示，对此本发明实施例提供以下具体步骤：

201、获取样本数据集，样本数据集包括训练集和验证集，样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值。

在本发明实施例中，对于步骤201的陈述，参见步骤101，此处不再赘述了。

202、利用训练集训练初始分类模型，得到第一分类模型。

在本发明实施例中，可以用XGBoost训练一个分类模型，XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。需要说明的是，本发明实施例对采用何种技术训练分类模型不做具体限定。

203、将验证集输入第一分类模型，输出预测验证集为正样本的预测结果，预测结果中至少包含验证集中原始正样本被预测为正样本所对应的目标概率值。

在本发明实施例中，对于预测结果中每个样本被预测为正样本所对应的概率值，还可以进一步地按照概率值从高到低，从验证集中获取预设数量的样本，组成一个新验证集，具体实施方法可以包括如下：

首先，对于验证集中每个样本被预测为正样本所对应的概率值，按照概率值高低，对验证集中样本进行排序，得到一个样本序列。

需要说明的是，由于经样本不平衡的训练集训练的第一分类模型质量不会太高，那么对于该样本序列，排序在前概率值对应的样本中会混入原始负样本的情况，以及排序在后概率值对应的样本中也会混入原始正样本的情况。

其次，按照由首位至末位顺序，遍历样本序列并抽取遍历到的样本。若统计抽取到原始正样本数量与验证集中原始正样本总数量之间的比值达到一个预设阈值，则停止遍历抽取样本的操作。

需要说明的是，该预设阈值用于衡量：对于经遍历抽取验证集中样本操作而得到原始正样本，占验证集中原始正样本总数量的百分比。示例性的，如以质检应用场景为例，验证集包含20万个用户，以及其中包含200个投诉用户(即正样本)，那么可以设预设阈值为99％，则需要遍历抽取到198个原始正样本，此时也许已经在验证集中遍历抽取了3000个样本了，那么则停止遍历抽取下一个样本操作。

如此，对于从验证集中获取预设数量的样本，则为：在预设数量中原始正样本数量与验证集中原始正样本数量之间比值，是达到这个预设阈值的。

最后，将从验证集中遍历抽取到的样本，组成一个新验证集。

204、根据目标概率值，从训练集中删除容易负样本，得到新训练集。

在本发明实施例中，对本步骤细化陈述可以包括如下：

首先，对于如步骤203组成的新验证集，选取最小概率值，作为目标概率值。

需要说明的是，新验证集中每个样本是通过如上步骤203陈述的遍历抽取操作而得到的，以及“若统计抽取到原始正样本数量与验证集中原始正样本总数量之间的比值达到一个预设阈值，则停止遍历抽取样本的操作”，那么在新验证集中最后一个被遍历抽取到的样本，就是原始正样本，本发明实施例是将这个原始正样本对应的概率值，作为目标概率值。

其次，将训练集输入第一分类模型，输出预测训练集为正样本的预测结果，预测结果中至少包含训练集被预测为正样本所对应的概率值。

在本发明实施例中，本步骤是利用第一分类模型对训练集中每个样本执行预测是否为正样本操作，得到预测结果。

进一步的，在概率值小于或等于目标概率值，且概率值对应的样本为训练集中的原始负样本的情况下，将概率值对应的原始负样本确定为容易负样本。最后，从训练集中删除容易负样本，得到新训练集。

205、利用新训练集训练第一分类模型，得到第二分类模型。

但是，进一步的，可以将第二分类模型作为一轮优化第一分类模型对应的处理结果，继而利用新训练集和新验证集重复执行步骤202-205，能够得到第二轮对第一分类模型的优化处理结果(即可标识为第三分类模型)，以及再次更新的训练集和验证集。据此，每一轮优化操作，都可以得到一个优化的分类模型、更新的训练集和验证集，那么如何具体衡量是否需要再多一轮的优化操作，可以实施步骤206-207。

206、将第二分类模型作为一轮优化第一分类模型对应的处理结果，在新训练集中负样本数量和正样本数量之间的比值大于或等于预设样本不平衡阈值的情况下，利用新训练集和新验证集重复执行一轮优化第一分类模型操作。

207、在新训练集中原始负样本数量和原始正样本数量之间的比值小于预设样本不平衡阈值的情况下，停止执行下一轮优化第一分类模型操作并存储第二分类模型。

在本发明实施例中，对于每一轮优化操作会得到一个优化的分类模型、更新的训练集和验证集，那么结合步骤206-207分析，主要是依据这个更新的训练集中负样本数量和正样本数量是否仍然处于样本不平衡情况，而进一步地判断是否还需要下一轮优化分类模型操作，如这个更新的训练集中负样本数量和正样本数量不存在处于样本不平衡情况，那么不需要再优化分类模型了，否则将继续执行下一轮优化分类模型操作。

以及，作为并列方案，对于每一轮优化操作会得到一个优化的分类模型、更新的训练集和验证集，本发明实施例还可以以更新的验证集中原始负样本比例是否达到一个预设阈值进行衡量是否需要下一轮优化分类模型操作。

示例性的，将第二分类模型作为一轮优化第一分类模型对应的处理结果，在新验证集中判断原始负样本数量占样本总数量的比值是否达到一个预设阈值；若是，则利用新训练集和新验证集重复执行一轮优化第一分类模型操作；若否，则停止执行下一轮优化第一分类模型操作并存储第二分类模型。

对于该并列方案而言，需要说明的是，由于如上步骤203，在组成的新验证集中，按照概率值高低，最小概率值对应的为原始正样本，该原始正样本被从验证集中遍历抽取的原因为“若统计抽取到原始正样本数量与验证集中原始正样本总数量之间的比值达到一个预设阈值，则停止遍历抽取样本的操作”，据此，经多轮优化模型操作，得到更新的验证集中原始负样本会越来越少，而是会保留更多原始正样本。

示例性的，如以质检应用场景为例，验证集包含20万个用户，以及其中包含200个投诉用户(即正样本)，那么可以设预设阈值为99％。如果在某一轮优化分类模型，训练得到一个目标分类模型，以及得到经上一轮优化分类模型操作而更新的验证集，对于该更新的验证集中因多轮优化分类模型操作使得可能保留原始正样本为190个，但如果在本轮中利用目标分类模型去预测更新的验证集，按照概率值高低顺序遍历到第190个样本就统计到了188个原始正样本(即190*99％＝188.1，则近似取188)，那么对于遍历抽取的样本中原始负样本占比是非常小的，表明了该目标分类模型的预测效果很好、模型质量很高的。那么就保留该目标分类模型，而不必需要下一轮优化分类模型操作了。

在本发明实施例中总结以上步骤201-207，本发明实施例还给出了相应的样本不平衡情况的分类模型训练方法的设计方案框图，如图3所示，该设计方案框图简明扼要的阐述了步骤201-207，此处不再重复解释说明了。

进一步的，本发明实施例还给出了利用上述实施例所训练分类模型的去实现的数据预测方法，如图4所示，可以应用于质检分类应用场景，对此本发明实施例提供以下具体步骤：

301、获取待预测数据。

在本发明实施例中，待预测数据中包含未知正负样本数据。

示例性的，例举一个质检分类应用场景，客服向用户拨打电话沟通业务，以时间单位(天)统计，那么每天将统计电话语音数据量是很大的，基于客服的服务态度或其他业务事由，会接到投诉电话，那么在这些大量电话语音数据中就会存在非投诉电话语音和投诉电话语音，可以设定需要质检预测出的投诉电话语音为正样本，相应的，非投诉电话为负样本，并且在这些电话语音数据中哪个电话语音是正样本或负样本都是未知的。

302、将待预测数据输入分类模型，输出待预测数据为异常数据的概率值。

在本发明实施例中，正是采用如上实施例所训练的分类模型，执行预测处理这些未知正负样本数据实际是正样本还是负样本的。

示例性的，利用分类模型预测电话语音数据哪些是投诉电话语音(即正样本)，继而输出每条电话语音数据被预测为正样本的概率值。

303、根据概率值，确定待预测数据中存在的目标异常数据。

在本发明实施例中，由于分类模型的作用是预测是否为正样本，那么预测为正样本的概率值越大，则表明一条电话语音数据为正样本的可能性越高，反之如果概率值越小，则表明一条电话语音数据为正样本的可能性越低，因此使用分类模型能够大大提高了质检分类的效率。

但是进一步的，考虑到模型处理能力和实际业务数据情况(如正样本数量远小于负样本数量)，那么通过获取到概率值较高的部分样本(即电话语音数据)，那么就能够找到这些正样本(即投诉电话语音)了。因此，为了提高查找到正样本(即投诉电话语音)的效率、节省处理资源，可以从分类模型处理得到的大量概率值中抽取概率值较高的部分样本，再利用人工进一步分析查找这些样本实际是否为正样本(即投诉电话语音)。

进一步的，作为对上述图1、图2所示方法的实现，本发明实施例提供了一种分类模型的训练装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于在样本不平衡情况下训练分类模型，具体如图5所示，该装置包括：

获取单元31，用于获取样本数据集，所述样本数据集包括训练集和验证集，所述样本数据集的负样本数量与正样本数量之间的比值大于预设样本不平衡阈值；

训练单元32，用于利用所述训练集训练初始分类模型，得到第一分类模型；

处理单元33，用于将所述验证集输入所述第一分类模型，输出预测所述验证集为正样本的预测结果，所述预测结果中至少包含所述验证集中原始正样本被预测为正样本所对应的目标概率值；

删除单元34，用于根据所述目标概率值，从所述训练集中删除容易负样本，得到新训练集；

所述训练单元32，还用于利用所述新训练集训练所述第一分类模型，得到第二分类模型。

进一步的，如图6所示，所述装置包括：

所述获取单元31，还用于获取所述预测结果中每个样本被预测为正样本所对应的概率值；

所述获取单元31，还用于按照所述概率值从高到低，从所述验证集中获取预设数量的样本，其中，所述预设数量中原始正样本数量与所述验证集中原始正样本数量之间比值达到第一预设阈值。

组成单元35，用于将获取到的所述预设数量的样本组成新验证集，所述新验证集用于测试新训练集训练得到的分类模型。

进一步的，如图6所示，所述删除单元34包括：

选取模块341，用于在所述预设数量的样本对应的概率值中，选取最小概率值，作为目标概率值；

处理模块342，用于将所述训练集输入所述第一分类模型，输出预测所述训练集为正样本的预测结果，所述预测结果中至少包含所述训练集被预测为正样本所对应的第二概率值；

确定模块343，用于在所述第二概率值小于或等于所述目标概率值，且所述第二概率值对应的样本为所述训练集中的原始负样本的情况下，将所述第二概率值对应的原始负样本确定为容易负样本；

删除模块344，用于从所述训练集中删除所述容易负样本，得到新训练集，所述新训练集用于测试新训练集训练得到的分类模型。

进一步的，如图6所示，将所述第二分类模型作为一轮优化所述第一分类模型对应的处理结果，所述装置还包括：

执行单元36，用于在所述新训练集中负样本数量和正样本数量之间的比值大于或等于所述预设样本不平衡阈值的情况下，利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作；

停止单元37，用于在所述新训练集中原始负样本数量和原始正样本数量之间的比值小于所述预设样本不平衡阈值的情况下，停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。

判断单元38，用于在所述新验证集中判断原始负样本数量占样本总数量的比值是否达到第二预设阈值；

所述执行单元36，还用于当在所述新验证集中判断原始负样本数量占样本总数量的比值达到第二预设阈值时，则利用所述新训练集和所述新验证集重复执行一轮优化所述第一分类模型操作；

所述停止单元37，还用于当在所述新验证集中判断原始负样本数量占样本总数量的比值未达到第二预设阈值时，则停止执行下一轮优化所述第一分类模型操作并存储所述第二分类模型。

进一步的，作为对上述图4所示方法的实现，本发明实施例提供了一种质检预测装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置使用分类模型执行数据预测，具体如图7所示，该装置包括：

获取单元41，用于获取待预测数据；

处理单元42，用于将所述获取单元41获取的待预测数据输入所述分类模型，输出所述待预测数据为异常数据的概率值；

确定单元43，用于根据处理单元42输出的所述概率值，确定所述待预测数据中存在的目标异常数据。

综上所述，本发明实施例提供一种分类模型的训练方法、装置及质检预测方法、装置，对于负样本数量远大于正样本数量的样本不平衡情况，本发明实施例是将这样样本不平衡的样本数据集划分为训练集和验证集，该训练集用于训练一个第一分类模型，利用该验证集去测试该第一分类模型而得到在验证集中每个样本被预测为正样本的概率值的预测结果。那么可以选取预测结果中一个原始正样本被预测为正样本的概率值作为目标概率值，用于衡量训练集中一个原始负样本被预测为正样本的难易程度，从而获取到训练集中的容易负样本并删除而得到一个新训练集，该新训练集中缩小了负样本和正样本之间数量差距，相当于是有效地减轻样本不平衡程度，从而利用该新训练集训练得到的第二分类模型，也实现了对第一分类模型的优化。相较于现有技术，本发明实施例是有针对性地删除训练集中容易负样本，继而有效地减轻了样本不平衡程度，解决了现有技术因不能有效控制样本不平衡情况而导致影响训练分类模型质量的问题，本发明实施例实现了在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。

所述分类模型的训练装置包括处理器和存储器，上述获取单元、训练单元、处理单元和删除单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来在样本不平衡情况下优化分类模型的训练方法以及将该分类模型应用到质检预测场景实现有效质检分类。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的分类模型的训练方法。

本发明实施例还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的分类模型的训练方法。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种分类模型的训练方法，其特征在于，所述方法包括：

利用所述训练集训练初始分类模型，得到第一分类模型；

2.根据权利要求1所述的方法，其特征在于，在所述将所述验证集输入所述第一分类模型，输出预测所述验证集为正样本的预测结果之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标概率值，从所述训练集中删除容易负样本，得到新训练集，包括：

从所述训练集中删除所述容易负样本，得到新训练集。

4.根据权利要求3所述的方法，其特征在于，将所述第二分类模型作为一轮优化所述第一分类模型对应的处理结果，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，将所述第二分类模型作为一轮优化所述第一分类模型对应的处理结果，所述方法还包括：

6.一种数据预测方法，应用如权利要求1-5中任一项所述分类模型训练方法得到的分类模型，其特征在于，所述方法包括：

获取待预测数据；

将所述待预测数据输入所述分类模型，输出所述待预测数据为异常数据的概率值；

根据所述概率值，确定所述待预测数据中存在的目标异常数据。

7.一种分类模型的训练装置，其特征在于，所述装置包括：

8.一种数据预测装置，其特征在于，所述装置包括：

获取单元，用于获取待预测数据；

处理单元，用于将所述获取单元获取的待预测数据输入所述分类模型，输出所述待预测数据为异常数据的概率值；

确定单元，用于根据处理单元输出的所述概率值，确定所述待预测数据中存在的目标异常数据。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的分类模型的训练方法。

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的分类模型的训练方法。