CN111612023A

CN111612023A - 一种分类模型构建方法及装置

Info

Publication number: CN111612023A
Application number: CN201910138844.5A
Authority: CN
Inventors: 杨晓庆; 李奘; 谢君; 卓呈祥; 叶杰平
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-09-01

Abstract

本申请实施例公开了一种分类模型构建方法及装置，涉及计算机技术领域，本申请实施例提供的分类模型构建方法，基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记；并基于多个训练样本和多个训练样本中每个训练样本的分类标记，对初始分类模型进行训练，得到目标分类模型。上述技术方案在模型训练的过程中，会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升，即利用训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。

Description

一种分类模型构建方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种分类模型构建方法及装置。

背景技术

目前，一般利用分类模型自动对待分类对象进行分类处理。现有技术中，一般利用大量真实的样本数据对分类模型进行训练。在分类模型的训练过程中，经常会出现不同类的样本数据数量不均衡的情况，例如，某一类样本数据的数据量非常大，其他类的样本数据的数据量很少。样本数据数量不均衡导致训练得到的分类模型的分类准确度不够。

现有技术中一般采用对数据量大的样本数据进行负采样，对数据量小的样本数据进行正采样的方式，来提高分类模型的分类准确度。该方式虽然在一定程度上提高了训练得到的分类模型的分类准确度，但是训练得到的分类模型的分类稳定无法保证。

发明内容

有鉴于此，本申请实施例的目的在于提供一种分类模型构建方法及装置，能够在不同类的样本数据存在数量不均衡的情况下，得到分类准确度和分类稳定性均较高的分类模型。

第一方面，本申请实施例提供一种分类模型构建方法，包括：

获取多个训练样本以及多个训练样本中每个训练样本的分类标记；

基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记；

基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型。

一种可能的实施方式中，所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，包括：

基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，确定所述初始分类模型的分类准确度；

在确定的所述分类准确度大于预定数值的情况下，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记。

一种可能的实施方式中，所述分类结果信息包括对应的训练样本属于所述目标分类标记对应的类别的概率值；

所述在确定的所述分类准确度大于预定数值的情况下，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，包括：

在确定的所述分类准确度大于预定数值的情况下，基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本；

将筛选得到的训练样本的分类标记修订为所述目标分类标记。

一种可能的实施方式中，所述基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本，包括：

对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值，进行均匀分布处理，得到每个训练样本属于所述目标分类标记对应的类别的目标概率值；

所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本。

一种可能的实施方式中，所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本，包括：

基于所述预制分类比例，确定筛选标准值；

将属于所述目标分类标记对应的类别的目标概率值，大于所述筛选标准值的训练样本，作为筛选得到需要修改分类标记的训练样本。

一种可能的实施方式中，所述将筛选得到的训练样本的分类标记修订为所述目标分类标记，包括：

针对筛选得到的训练样本，基于该训练样本属于所述目标分类标记对应的类别的目标概率值，和所述初始分类模型的分类准确度，确定修订概率；

按照确定的所述修订概率，将训练样本的分类标记修订为所述目标分类标记。

一种可能的实施方式中，所述基于该训练样本属于所述目标分类标记对应的类别的目标概率值，和所述初始分类模型的分类准确度，确定修订概率，包括：

计算该训练样本属于所述目标分类标记对应的类别的目标概率值，与所述初始分类模型的分类准确度的乘积，得到所述修订概率。

一种可能的实施方式中，所述目标分类标记为在多个训练样本中的占比小于预定占比的类别对应的分类标记。

一种可能的实施方式中，所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，还包括：

在确定的所述分类准确度不大于所述预定数值的情况下，对所述初始分类模型中的参数进行修订，利用参数修订后的初始分类模型对每个训练样本进行的分类，得到每个训练样本的分类结果信息，并返回所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，确定所述初始分类模型的分类准确度的步骤。

一种可能的实施方式中，所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型，包括：

利用所述初始分类模型对所述多个训练样本中的每个训练样本进行分类，得到每个训练样本的分类结果信息；

基于每个训练样本的分类结果信息，和每个训练样本的分类标记，对所述初始分类模型中的参数进行修订；

在参数修订后的初始分类模型对应的分类准确度大于预定准确度的情况下，将参数修订后的初始分类模型作为所述目标分类模型。

一种可能的实施方式中，所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型，还包括：

在参数修订后的初始分类模型对应的分类准确度不大于预定准确度的情况下，返回所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记的步骤。

第二方面，本申请实施例提供一种分类模型构建装置，包括：

获取模块，用于获取多个训练样本以及多个训练样本中每个训练样本的分类标记；

标记模块，用于基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记；

训练模块，用于基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型。

一种可能的实施方式中，所述标记模块，具体用于：

所述标记模块，包括：

筛选模块，用于在确定的所述分类准确度大于预定数值的情况下，基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本；

修订模块，还用于将筛选得到的训练样本的分类标记修订为所述目标分类标记。

一种可能的实施方式中，所述筛选模块，还用于：

基于所述预制分类比例，确定筛选标准值；

一种可能的实施方式中，所述修订模块，还用于：

一种可能的实施方式中，所述标记模块，还用于：

一种可能的实施方式中，所述训练模块，具体用于：

一种可能的实施方式中，所述训练模块，还用于：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行本申请实施例第一方面，以及第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行本申请实施例第一方面，以及第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种分类模型构建方法及装置，基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记；并基于多个训练样本和多个训练样本中每个训练样本的分类标记，对初始分类模型进行训练，得到目标分类模型。上述技术方案在模型训练的过程中，会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升，即利用训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种分类模型构建方法的流程图；

图2示出了本申请实施例所提供的另一种分类模型构建方法的流程图；

图3示出了本申请实施例所提供的一种分类模型构建装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

值得注意的是，在本申请提出申请之前，主流的分类模型构建方法，一般是采用对样本数量较小的罕见分类样本进行正采样，对样本数量较大的常见分类样本进行负采样的方法，来平衡不同分类的样本之间的样本数量，因此，现有技术只能在一定程度上提升样本数量较小的罕见分类的检出率。然而，在常见分类样本中可能包含与罕见分类样本差异度较小的样本。具体的，例如在金融领域中对骗贷人群的检测，在保险领域中对骗保人群的检测，在网约车的业务场景中，对性骚扰订单的检测等，都属于这种情况。暴露出问题的样本通常为罕见分类样本，并且暴露出问题的样本很可能只是冰山一角，还存在一些潜在的问题样本尚未暴露出来，这些潜在的问题样本都包含在样本数量较大的常见分类样本中。因此，现有技术的分类模型构建方法构建的分类模型对样本数量较小的罕见分类样本的检出率仍然较低，同时稳定性较低。

基于此，本申请实施例提供了一种分类模型构建方法及装置，通过基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记；并基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型。在进行分类模型训练的过程中，样本数量较大的常见分类样本有一定几率会变成样本数量较小的罕见分类样本，并且当分类模型的置信度越高，分类模型的分类准确度越大时，与罕见分类样本之间的距离越近的常见分类样本，越有机会被当作罕见分类样本，因此，可以大幅提升分类模型的稳定性。并且，在对分类模型进行训练的过程中，通过调整训练样本的分类标记，将部分数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度也得到了有效提升。从而在每种类型的训练样本数量不均衡的情况下，提升了数量较少的类型的数据检出率，并且提升了分类模型的分类稳定性。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种分类模型构建方法进行详细介绍。

实施例一

本申请实施例提供的一种分类模型构建方法，可以应用于服务器等电子设备中，对各个领域的分类模型进行构建，例如，应用于金融领域、交通领域、网约车等业务场景中。如图1所示，本实施例的方法包括：

S101：获取多个训练样本以及多个训练样本中每个训练样本的分类标记。

在执行此步骤之前，已经对每个训练样本的分类标记进行了设定。示例性的，多个训练样本中的每个训练样本的分类标记可以包括：正样本和负样本。

例如，在金融领域贷款的业务场景中对骗贷人群的检测时，骗贷人群对应的训练样本的分类标记为正样本，正常贷款人群对应的训练样本的分类标记为负标记。在网约车的业务场景中，对性骚扰订单的检测时，发生性骚扰的订单对应的训练样本的分类标记为正样本，没有发生性骚扰的订单对应的训练样本的分类标记为负样本。

当然的，每个训练样本的分类标记也可以包括其他更多样的分类标记，以适应对更复杂的分类模型进行训练的情况。

S102：基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记。

现有技术中，通常在对分类模型训练前就确定好每个训练样本的分类标记，并且基于确定好的每个训练样本的分类标记，对分类模型进行训练。由于，在对分类模型训练前就确定好的每个训练样本的分类标记可能引入错误，并且，存在边缘的训练样本和具有潜在属性的训练样本，例如，在金融领域贷款的业务场景中对骗贷人群的检测时，正常贷款人群对应的训练样本中存在潜在的高危骗贷人群的训练样本，只是由于目前没有发生骗贷行为，因此高危骗贷人群的训练样本对应的分类标记，仍然是正常人群的训练样本对应的分类标记。

因此，本申请实施例将每个训练样本输入初始分类模型，并检验初始分类模型的分类准确度，在初始分类模型已经具备一定的分类准确度，即分类模型的分类准确度大于预定数值的情况下，通过将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记，进一步提升构建的目标分类模型的稳定性。具体的，采用下述步骤基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记：

基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，确定所述初始分类模型的分类准确度；在确定的所述分类准确度大于预定数值的情况下，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记。

这里，所述分类结果信息包括对应的训练样本属于所述目标分类标记对应的类别的概率值；并且在确定的所述分类准确度大于预定数值的情况下，基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本；将筛选得到的训练样本的分类标记修订为所述目标分类标记。

在一种可能的实施方式中，可以对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值，进行均匀分布处理，得到每个训练样本属于所述目标分类标记对应的类别的目标概率值。

在得到目标概率之后，基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本。

示例性的，在二分类问题中，可以按照多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值，生成0-1的均匀分布。每个训练样本中，为所述目标分类标记对应的类别的概率值最小的训练样本赋予0分，为所述目标分类标记对应的类别的概率值最大的训练样本赋予1分。对其余训练样本，基于多个训练样本中训练样本的个数，为每个训练样本赋予相应的分值。例如，在多个训练样本中训练样本的个数为M的情况下，将多个训练样本中的每个训练样本，按照目标分类标记对应的类别的概率值的大小，从小到大进行排序，为排序后得到的多个训练样本序列中的第N个训练样本，赋予N/M分。并且，在二分类问题中，多个训练样本中的每个训练样本对应的分类标记可以包括正样本和负样本，越靠近0分的训练样本表明该训练样本为负样本的概率越大，越靠近1分的训练样本表明该训练样本为正样本的概率越大。在上述二分类问题中，本申请实施例把罕见分类的样本当作正样本，是上述具有目标分类标记的样本，常见分类的样本当作负样本，是上述具有预定分类标记的样本。

这里，所述目标分类标记为在多个训练样本中的占比小于预定占比的类别对应的分类标记。例如，在上述二分类问题中，目标分类标记为正样本，预定分类标记为负样本。因此，在上述二分类问题中，如果训练样本的分类样本为正样本，不会被筛选为需要修改分类标记的训练样本。

进一步的，可以使用下述步骤基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本：

对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值，进行均匀分布处理，得到每个训练样本属于所述目标分类标记对应的类别的目标概率值；所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本。

具体的，采用下述步骤基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本：

基于所述预制分类比例，确定筛选标准值；将属于所述目标分类标记对应的类别的目标概率值，大于所述筛选标准值的训练样本，作为筛选得到需要修改分类标记的训练样本。

示例性的，在上述二分类问题中，为了方便表述，将预制分类比例用R表示，由于，将多个训练样本中的每个训练样本，按照目标分类标记对应的类别的概率值的大小，从小到大进行排序，为排序后得到的多个训练样本序列中的第N个训练样本，赋予N/M分，因此，可以比较N/M和1-R的大小，筛选得到需要修改分类标记的训练样本。如果N/M小于1-R，对应的训练样本不会被筛选为需要修改分类标记的训练样本。在这种情况下，对应的训练样本仍然为负样本。如果N/M大于等于1-R，将对应的训练样本筛选为需要修改分类标记的训练样本。

在筛选得到需要修改分类标记的训练样本之后，采用下述步骤将筛选得到的训练样本的分类标记修订为所述目标分类标记：

针对筛选得到的训练样本，基于该训练样本属于所述目标分类标记对应的类别的目标概率值，和所述初始分类模型的分类准确度，确定修订概率；按照确定的所述修订概率，将训练样本的分类标记修订为所述目标分类标记。

具体的，通过计算该训练样本属于所述目标分类标记对应的类别的目标概率值，与所述初始分类模型的分类准确度的乘积，得到所述修订概率。

示例性的，在上述二分类问题中，根据该训练样本属于所述目标分类标记对应的类别的目标概率值，例如将多个训练样本中的每个训练样本，按照目标分类标记对应的类别的概率值的大小，从小到大进行排序，为排序后得到的多个训练样本序列中的第N个训练样本，该训练样本属于所述目标分类标记对应的类别的目标概率值为N/M，为了便于表述，所述初始分类模型的分类准确度用a表示。因此，计算该训练样本属于所述目标分类标记对应的类别的目标概率值，与所述初始分类模型的分类准确度的乘积，即N/M*a，得到所述修订概率。并且，按照确定的所述修订概率，例如，N/M*a，将训练样本的分类标记修订为所述目标分类标记。

另外，本申请实施例将每个训练样本输入初始分类模型，并检验初始分类模型的分类准确度，在初始分类模型的分类准确度不足的情况下，即分类模型的分类准确度不大于预定数值的情况下，需要对初始分类模型进行训练，首先提升初始分类模型的分类准确度。

具体的，在确定的所述分类准确度不大于所述预定数值的情况下，对所述初始分类模型中的参数进行修订，利用参数修订后的初始分类模型对每个训练样本进行的分类，得到每个训练样本的分类结果信息，并返回所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，确定所述初始分类模型的分类准确度的步骤。

承接上述S102，在将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记后，本申请实施例提供的目标检测方法还包括S103：

S103：基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型。

具体的，采用下述步骤基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型：

利用所述初始分类模型对所述多个训练样本中的每个训练样本进行分类，得到每个训练样本的分类结果信息；基于每个训练样本的分类结果信息，和每个训练样本的分类标记，对所述初始分类模型中的参数进行修订；在参数修订后的初始分类模型对应的分类准确度大于预定准确度的情况下，将参数修订后的初始分类模型作为所述目标分类模型。

进一步的，上述S101到S103的步骤可以被反复迭代进行，不断提升分类模型的准确度和分类模型的稳定性，进而不断提升数量较少的类型的检出率。

本申请实施例一提供的一种分类模型构建方法，在模型训练的过程中，会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升，即利用训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。

实施例二

如图2所示是本申请实施例二提供的一种分类模型构建方法，包括：

S201：使用多个训练样本对初始分类模型进行训练，其中多个训练样本中的每个训练样本包含对应的分类标记；获得分类模型的分类准确度。

为了方便表述，分类模型的分类准确度，例如受试者工作特征曲线下方的面积大小(Area Under Curve，AUC)用a表示。

由于，本申请实施例在初始分类模型已经具备一定的分类准确度的情况下，进一步提升初始分类模型的稳定性。因此，在获得分类模型的分类准确度之后，比较分类模型的分类准确度是否大于预定数值。

如果是，进行步骤S202；反之，继续对分类模型进行迭代训练。

S202：对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值，进行均匀分布处理。

这里，将包含样本数量较少的罕见分类样本作为正样本，而将其他包含样本数量较多的常见分类样本均作为负样本，基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，将多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值进行均匀分布处理，生成0-1的均匀分布，属于所述目标分类标记对应的类别的目标概率值最大的训练样本得1分，属于所述目标分类标记对应的类别的目标概率值最小的训练样本得0分，在多个训练样本中的训练样本的数量为X的情况下，相邻名次之间的分数间隔是1/|X|分，越靠近0分的训练样本表明该训练样本为负样本的概率越大，越靠近1分的训练样本表明该训练样本为正样本的概率越大。

在本申请实施例中，采用了自步学习的方法，在初始分类模型训练完成之后，基于多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的目标概率值，对每个训练样本进行排名，排名越靠前的训练样本属于包含样本数量较少的罕见分类样本的概率越低，因此将排名足够靠前的训练样本在训练中当作负样本来对初始分类模型进行训练。

S203：将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记。

首先判断训练样本的原始分类标记，如果训练样本的原始分类标记是正样本，不修改该训练样本的分类标记；如果训练样本的原始分类标记是负样本，基于所述预制分类比例，确定筛选标准值。

为了方便表述，将预制分类比例用R表示，此时，在步骤S202中，对每个训练样本进行排名后，得到的每个训练样本的分数用r表示。

因此，比较训练样本的分数r与1-R的大小。针对每个分类标记为负样本的训练样本，如果该训练样本的分数r<1-R，那么不修改该训练样本的分类标记；如果该训练样本的分数r>＝1-R，基于该训练样本的分数，和所述初始分类模型的分类准确度，确定修订概率。

具体的，分类模型的分类准确度为a，该训练样本的分数为r，按照确定的所述修订概率r*a将训练样本的分类标记修订为所述目标分类标记。

S204：基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练。

基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对初始分类模型中的参数进行修订。并且，重新计算参数修订后的初始分类模型的分类准确度a。

在参数修订后的初始分类模型对应的分类准确度不大于预定准确度的情况下，返回步骤S202。

本申请实施例二提供的一种分类模型构建方法，在模型训练的过程中，会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升，即利用训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。

基于相同的技术构思，本申请实施例还提供一种分类模型构建装置、电子设备、以及计算机存储介质等，具体可参见以下实施例。

实施例三

图3是示出本申请的一些实施例的分类模型构建装置的框图，该分类模型构建装置实现的功能对应上述分类模型构建方法的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，分类模型构建装置可以包括获取模块301、标记模块302、训练模块303。

获取模块301，用于获取多个训练样本以及多个训练样本中每个训练样本的分类标记；

标记模块302，用于基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记；

训练模块303，用于基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型。

一种可能的实施方式中，所述标记模块302，具体用于：

所述标记模块302，包括：

筛选模块321，用于在确定的所述分类准确度大于预定数值的情况下，基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本；

修订模块322，还用于将筛选得到的训练样本的分类标记修订为所述目标分类标记。

一种可能的实施方式中，所述筛选模块321，还用于：

基于所述预制分类比例，确定筛选标准值；

一种可能的实施方式中，所述修订模块322，还用于：

一种可能的实施方式中，所述标记模块302，还用于：

一种可能的实施方式中，所述训练模块303，具体用于：

一种可能的实施方式中，所述训练模块303，还用于：

本申请实施例提供的一种分类模型构建装置300，在模型训练的过程中，会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升，即利用训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。

实施例四

基于相同的技术构思，本申请实施例还提供了一种电子设备。参照图4所示，为本申请实施例提供的电子设备400的结构示意图，包括处理器401、存储器402、和总线403。其中，存储器402用于存储执行指令，包括内存421和外部存储器422；这里的内存421也称内存储器，用于暂时存放处理器401中的运算数据，以及与硬盘等外部存储器422交换的数据，处理器401通过内存421与外部存储器422进行数据交换，当电子设备600运行时，处理器401与存储器402之间通过总线403通信，使得处理器401在执行以下指令：

具体实施中，上述处理器401执行的处理中，所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，包括：

具体实施中，上述处理器401执行的处理中，所述分类结果信息包括对应的训练样本属于所述目标分类标记对应的类别的概率值；

具体实施中，上述处理器401执行的处理中，所述基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本，包括：

具体实施中，上述处理器401执行的处理中，所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本，包括：

基于所述预制分类比例，确定筛选标准值；

具体实施中，上述处理器401执行的处理中，所述将筛选得到的训练样本的分类标记修订为所述目标分类标记，包括：

具体实施中，上述处理器401执行的处理中，所述基于该训练样本属于所述目标分类标记对应的类别的目标概率值，和所述初始分类模型的分类准确度，确定修订概率，包括：

具体实施中，上述处理器401执行的处理中，所述目标分类标记为在多个训练样本中的占比小于预定占比的类别对应的分类标记。

具体实施中，上述处理器401执行的处理中，所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，还包括：

具体实施中，上述处理器401执行的处理中，所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型，包括：

具体实施中，上述处理器401执行的处理中，所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型，还包括：

本申请实施例提供的一种电子设备，在模型训练的过程中，会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记，利用分类标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升，即利用训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。

本发明实施例提供的一种分类模型构建装置及电子设备，与上述实施例提供的一种分类模型构建方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例五

本实施例公开了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述实施例分类模型构建方法中的步骤。

本申请实施例所提供的进行分类模型构建方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种分类模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，包括：

3.根据权利要求2所述的方法，其特征在于，所述分类结果信息包括对应的训练样本属于所述目标分类标记对应的类别的概率值；

4.根据权利要求3所述的方法，其特征在于，所述基于每个训练样本属于所述目标分类标记对应的类别的概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值，和预制分类比例，从具有预定分类标记的训练样本中，筛选需要修改分类标记的训练样本，包括：

基于所述预制分类比例，确定筛选标准值；

6.根据权利要求4所述的方法，其特征在于，所述将筛选得到的训练样本的分类标记修订为所述目标分类标记，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于该训练样本属于所述目标分类标记对应的类别的目标概率值，和所述初始分类模型的分类准确度，确定修订概率，包括：

8.根据权利要求3所述的方法，其特征在于，所述目标分类标记为在多个训练样本中的占比小于预定占比的类别对应的分类标记。

9.根据权利要求2所述的方法，其特征在于，所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有目标分类标记的训练样本的分类标记修订为目标分类标记，还包括：

10.根据权利要求1所述的方法，其特征在于，所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述多个训练样本和多个训练样本中每个训练样本的分类标记，对所述初始分类模型进行训练，得到目标分类模型，还包括：

12.一种分类模型构建装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述标记模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，所述分类结果信息包括对应的训练样本属于所述目标分类标记对应的类别的概率值；

所述标记模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述筛选模块，还用于：

16.根据权利要求15所述的装置，其特征在于，所述筛选模块，还用于：

基于所述预制分类比例，确定筛选标准值；

17.根据权利要求15所述的装置，其特征在于，所述修订模块，还用于：

18.根据权利要求17所述的装置，其特征在于，所述修订模块，还用于：

19.根据权利要求14所述的装置，其特征在于，所述目标分类标记为在多个训练样本中的占比小于预定占比的类别对应的分类标记。

20.根据权利要求13所述的装置，其特征在于，所述标记模块，还用于：

在确定的所述分类准确度不大于所述预定数值的情况下，对所述初始分类模型中的参数进行修订，利用参数修订后的初始分类模型对每个训练样本进行的分类，得到每个训练样本的分类结果信息，并利用所述标记模块执行所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，确定所述初始分类模型的分类准确度的步骤。

21.根据权利要求12所述的装置，其特征在于，所述训练模块，具体用于：

22.根据权利要求21所述的装置，其特征在于，所述训练模块，还用于：

在参数修订后的初始分类模型对应的分类准确度不大于预定准确度的情况下，利用所述标记模块执行所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记，将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记的步骤。

23.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至11任一所述的分类模型构建方法的步骤。

24.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任一所述的分类模型构建方法的步骤。