CN112541542A

CN112541542A - 多分类样本数据的处理方法、装置及计算机可读存储介质

Info

Publication number: CN112541542A
Application number: CN202011453238.1A
Authority: CN
Inventors: 蔡恒兴; 罗远飞; 涂威威
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-23
Anticipated expiration: 2040-12-11
Also published as: CN112541542B

Abstract

本公开涉及一种多分类样本数据的处理方法、装置及计算机可读存储介质，该方法包括：将原始的多分类样本数据集拆分成多个二分类样本数据集；对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集；将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

Description

多分类样本数据的处理方法、装置及计算机可读存储介质

技术领域

本公开实施例涉及计算机技术领域，更具体地，涉及一种多分类样本数据的处理方法、装置及计算机可读存储介质。

背景技术

多分类样本数据集是指具有两个以上分类标签的样本数据集。举例来说，对于某一关于出行方式的多分类样本数据集，其分类标签可以有开车、步行、公交、自行车。再比如，对于某一关于物质属性的多分类样本数据集，其分类标签可以有狗、猫、汽车。多分类任务在很多场景中都会涉及。

目前可通过该种多分类样本数据集训练多分类模型，但存在收敛速度较慢的问题。

发明内容

本公开实施例的一个目的是提供一种处理多分类样本数据的新的技术方案。

根据本公开的第一方面，提供了一种多分类样本数据的处理方法，包括：将原始的多分类样本数据集拆分成多个二分类样本数据集；对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集；将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

可选地，所述将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码，包括：对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量；对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量。

可选地，所述对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量，包括：获取所述多分类编码的编码向量；对于所述多分类标签中的每个标签：将所述编码向量中对应于对应标签的编码序位的分类概率值设置为1，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述对应标签转换为多分类标签向量。

可选地，所述模型识别二分类标签包括二分类标签中每一标签所对应的分类概率值。

可选地，所述对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量，包括：获取所述多分类编码的编码向量；将所述编码向量中对应于所述二分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述模型识别二分类标签转换为多分类标签向量。

可选地，所述获取对应的二分类模型包括：通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数，获得所述对应的二分类模型。

可选地，所述预设二分类模型为随机森林模型、GBDT模型、Lightgbm模型、xgboost模型、Adaboost模型、全连接神经网络模型中的任意一个模型。

可选地，所述方法在所述通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数之前，还包括：将该二分类样本数据集拆分成训练样本数据集和测试样本数据集，其中，进行所述二分类识别的至少部分样本数据为所述测试样本数据集中的样本数据，进行训练的至少部分样本数据为所述训练样本数据集中的样本数据。

可选地，所述通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，包括：获取该二分类样本数据集具有的两种分类标签，分别作为第一分类标签和第二分类标签，其中，所述第一分类标签为所述对应的二分类模型的识别目标；对于所述至少部分样本数据中的每一样本数据：通过所述对应的二分类模型对该样本数据进行分类识别，获得该样本数据对于所述第一分类标签的分类概率值；根据该样本数据对于所述第一分类标签的分类概率值，获得该样本数据对于所述第二分类标签的分类概率值；以及，根据该样本数据分别对于所述第一分类标签和所述第二分类标签的分类概率值，获得该样本数据的模型识别二分类标签。

可选地，所述将原始的多分类样本数据集拆分成多个二分类样本数据集，包括：根据所述多分类标签，按照不同的分类标签两两匹配的拆分方式，将原始的多分类样本数据集拆分成多个二分类样本数据集。

可选地，所述方法还包括：获取选择的用于训练多分类模型的样本数据类型；在所述样本数据类型为第一类型的情况下，通过所述原始的多分类样本数据集训练多分类模型；在所述样本数据类型为第二类型的情况下，通过所述增强后的多分类样本数据集训练多分类模型。

可选地，所述方法还包括：通过所述增强后的多分类样本数据集训练多分类模型，并输出训练得到的多分类模型。

根据本公开的第二方面，还提供了一种多分类样本数据的处理装置，包括：拆分模块，用于将原始的多分类样本数据集拆分成多个二分类样本数据集；第一处理模块，用于对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集；第二处理模块，用于将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

可选地，所述第二处理模块，用于对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量；对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量。

可选地，所述第二处理模块，用于获取所述多分类编码的编码向量；对于所述多分类标签中的每个标签：将所述编码向量中对应于对应标签的编码序位的分类概率值设置为1，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述对应标签转换为多分类标签向量。

可选地，所述第二处理模块，用于获取所述多分类编码的编码向量；将所述编码向量中对应于所述二分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述模型识别二分类标签转换为多分类标签向量。

可选地，所述第一处理模块，用于通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数，获得所述对应的二分类模型。

可选地，所述第一处理模块，用于在执行所述通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数的步骤之前，将该二分类样本数据集拆分成训练样本数据集和测试样本数据集，其中，进行所述二分类识别的至少部分样本数据为所述测试样本数据集中的样本数据，进行训练的至少部分样本数据为所述训练样本数据集中的样本数据。

可选地，所述第一处理模块，用于获取该二分类样本数据集具有的两种分类标签，分别作为第一分类标签和第二分类标签，其中，所述第一分类标签为所述对应的二分类模型的识别目标；对于所述至少部分样本数据中的每一样本数据：通过所述对应的二分类模型对该样本数据进行分类识别，获得该样本数据对于所述第一分类标签的分类概率值；根据该样本数据对于所述第一分类标签的分类概率值，获得该样本数据对于所述第二分类标签的分类概率值；以及，根据该样本数据分别对于所述第一分类标签和所述第二分类标签的分类概率值，获得该样本数据的模型识别二分类标签。

可选地，所述拆分模块，用于根据所述多分类标签，按照不同的分类标签两两匹配的拆分方式，将原始的多分类样本数据集拆分成多个二分类样本数据集。

可选地，所述装置还包括：第三处理模块；所述第三处理模块，用于获取选择的用于训练多分类模型的样本数据类型；在所述样本数据类型为第一类型的情况下，通过所述原始的多分类样本数据集训练多分类模型；在所述样本数据类型为第二类型的情况下，通过所述增强后的多分类样本数据集训练多分类模型。

可选地，所述装置还包括：训练模块；所述训练模块，用于通过所述增强后的多分类样本数据集训练多分类模型，并输出训练得到的多分类模型。

根据本公开的第三方面，还提供了一种包括至少一个计算装置和至少一个存储装置的系统，其中，所述至少一个存储装置用于存储指令，所述指令用于控制所述至少一个计算装置执行根据本公开第一方面所述的方法。

根据本公开的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序在被处理器执行时实现根据本公开的第一方面所述的方法。

本公开实施例的一个有益效果在于，通过将多分类样本数据集拆分为多个二分类样本数据集，利用二分类算法较高的预测准确率这一特点，对二分类样本数据集中的样本数据进行二分类识别获得相应的二分类标签，进而得到新的样本数据集，进而将二分类标签和多分类标签进行统一编码后，合并新的样本数据集和原始的多分类样本数据集，得到增强后的多分类样本数据集。如此，利用增强后的多分类样本数据集训练多分类模型，可提高收敛速度。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开实施例的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且连同其说明一起用于解释本公开实施例的原理。

图1为能够实施根据一个实施例的多分类样本数据的处理方法的电子设备组成结构的示意图。

图2是根据一个实施例的多分类样本数据的处理方法的流程示意图；

图3是根据另一个实施例的多分类样本数据的处理方法的流程示意图；

图4是根据一个实施例的多分类样本数据的处理装置的方框原理图；

图5是根据一个实施例的多分类样本数据的处理装置的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例的一个应用场景为多分类样本数据的处理。其中，多分类样本数据可用于训练多分类模型。

在实现的过程中，发明人发现在直接利用多分类样本数据训练多分类模型的情况下，会有收敛速度较慢的问题。

针对以上实施方式存在的技术问题，发明人提出了一种多分类样本数据的处理方法，通过将多分类样本数据集拆分为多个二分类样本数据集，利用二分类算法较高的预测准确率这一特点，对二分类样本数据集中的样本数据进行二分类识别获得相应的二分类标签，进而得到新的样本数据集，进而将二分类标签和多分类标签进行统一编码后，合并新的样本数据集和原始的多分类样本数据集，得到增强后的多分类样本数据集。如此，利用增强后的多分类样本数据集训练多分类模型，可提高收敛速度。

<硬件配置>

图1是能够应用根据一个实施例的多分类样本数据的处理方法的电子设备1000的组成结构示意图。如图1所示，该可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等，该电子设备1000可以应用于处理多分类样本数据的场景。

本实施例中，电子设备1000例如是服务器、台式电脑、手机、便携式电脑、平板电脑、掌上电脑等。处理器1100用于执行计算机程序，该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信，通信装置1400可以包括至少一种短距离通信模块，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意模块，通信装置1400也可以包括远程通信模块，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意模块。显示装置1500例如是液晶显示屏、LED显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘等。电子设备1000可以通过扬声器1700输出音频信号，及通过麦克风1800采集音频信号。

尽管在图1中示出了电子设备1000的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，电子设备1000只涉及处理器1100、存储器1200。

应用于本公开实施例中，电子设备1000的存储器1200用于存储计算机程序，该计算机程序用于控制该电子设备1000的处理器1100进行操作以实施根据任意实施例的多分类样本数据的处理方法。技术人员可以根据本公开实施例的方案设计计算机程序。该计算机程序如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

下面，参照附图描述根据本发明的各个实施例和例子。

<方法实施例>

图2是根据一个实施例的多分类样本数据的处理方法的流程示意图。本实施例的实施主体例如为图1中的电子设备1000。

如图2所示，本实施例的多分类样本数据的处理方法可以包括如下步骤S201-步骤S203：

步骤S201，将原始的多分类样本数据集拆分成多个二分类样本数据集。

详细地，多分类样本数据集具有多种分类标签。比如一多分类样本数据集中的多分类标签可以有：标签1、标签2、标签3、……、标签n。n为不小于3的正整数。

为利用二分类算法较高的预测准确率这一特点，可以对原始的多分类样本数据集进行拆分，拆分得到多个二分类样本数据集，从而可以利用二分类算法相关技术手段，对拆分得到的二分类样本数据集进行处理。

详细地，二分类样本数据集具有两种分类标签。比如，一个二分类样本数据集中的二分类标签可以为：标签1和标签2，另一个二分类样本数据集中的二分类标签可以为：标签1和标签4，又一个二分类样本数据集中的二分类标签可以为：标签3和标签4。

在本公开一个实施例中，所述步骤S201，将原始的多分类样本数据集拆分成多个二分类样本数据集，包括：根据所述原始的多分类样本数据集中的多分类标签，按照不同的分类标签两两匹配的拆分方式，将原始的多分类样本数据集拆分成多个二分类样本数据集。

本实施例中，优选以多分类标签中的各个分类标签为基准，按照分类标签两两匹配的拆分方式，对多分类样本数据集拆分成多个二分类样本数据集。如此，拆分得到的该多个二分类样本数据集，可以涵盖到对应原始多分类样本数据集的所有二分类可能性，使得处理效果更全面。

详细地，若原始的多分类样本数据集为一个N分类数据集，N＞2，则可将其拆分成

个二分类数据集。

举例来说，若原始多分类样本数据集中的多分类标签包括A、B、C、D这四种分类标签，则可以拆分得到6个二分类样本数据集，各个二分类样本数据集对应的二分类标签分别为：A和B、A和C、A和D、B和C、B和D、C和D。

基于上述内容，在步骤S201中拆分得到多个二分类样本数据集后，即可执行下述步骤S202，以对拆分得到的二分类样本数据集进行二分类识别处理，以便于得到相应的新样本数据集。

步骤S202，对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集。

本实施例中，即可以对拆分得到的部分二分类样本数据集进行处理，也可以对拆分得到的全部二分类样本数据集进行处理，对各二分类样本数据集的处理方式保持一致。

本实施例中，对于拆分得到的任一二分类样本数据集，首先获取对应的二分类模型；然后据此对该二分类样本数据集中的样本数据进行二分类识别，可获得相应的模型识别二分类标签。

与原始多分类数据集中的样本数据对应有多种分类标签不同，二分类样本数据集中的样本数据仅对应有两种分类标签，使得对其进行二分类识别所得到的标签是针对该两种分类标签的，故而基于获得的模型识别二分类标签，可得到新的样本数据集。

下面，分别对获取二分类模型的可能实现方式和进行二分类识别的可能实现方式进行说明。

对于获取二分类模型的可能实现方式，在本公开一个实施例中，步骤S202中，所述获取对应的二分类模型包括：通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数，获得所述对应的二分类模型。

本实施例中，使用拆分得到的二分类样本数据集中的样本数据，来训练预设二分类模型的模型参数，从而可获得对应该二分类样本数据集的二分类模型。

由于是利用二分类样本数据集中的样本数据来获取相应二分类模型，并利用该二分类模型进一步对该二分类样本数据集中的样本数据进行二分类识别，则这一分类识别操作更具针对性，识别到的二分类标签可以更符合实际分类情况，故而可以提高识别结果的准确性。

在本公开一个实施例中，所述预设二分类模型为随机森林模型、GBDT模型、Lightgbm模型、xgboost模型、Adaboost模型、全连接神经网络模型中的任意一个模型。

基于上述内容，在本公开一个实施例中，所述方法在所述通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数之前，还包括：将该二分类样本数据集拆分成训练样本数据集和测试样本数据集，其中，进行所述二分类识别的至少部分样本数据为所述测试样本数据集中的样本数据，进行训练的至少部分样本数据为所述训练样本数据集中的样本数据。

本实施例中，将二分类样本数据集拆分为两部分，一部分为训练样本数据集，另一部分为测试样本数据集。其中，利用训练样本数据集中的部分或全部样本数据对预设二分类模型的模型参数进行训练，再利用训练得到的二分类模型对测试样本数据集中的部分或全部样本数据进行二分类识别。

详细地，可以按照预设的拆分比例来执行拆分。比如，假设某一二分类样本数据集包括4000条样本数据，并按照80％和20％的拆分比例，随机拆分出训练集和测试集，即随机取其中的3200条样本数据组成训练集，剩余800条样本数据组成测试集。当然，拆分比例可以按需设置，比如还可设置为75％和25％。

当然，在本公开其他实施例中，也可以按需使用其他方式来获取二分类模型。比如可以利用预设的其他相应二分类数据集中的样本数据，来训练预设二分类模型的模型参数。

对于对二分类样本数据集中的样本数据进行二分类识别的可能实现方式，在本公开一个实施例中，步骤S202中，所述通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，包括：获取该二分类样本数据集具有的两种分类标签，分别作为第一分类标签和第二分类标签，其中，所述第一分类标签为所述对应的二分类模型的识别目标；对于所述至少部分样本数据中的每一样本数据：通过所述对应的二分类模型对该样本数据进行分类识别，获得该样本数据对于所述第一分类标签的分类概率值；根据该样本数据对于所述第一分类标签的分类概率值，获得该样本数据对于所述第二分类标签的分类概率值；以及，根据该样本数据分别对于所述第一分类标签和所述第二分类标签的分类概率值，获得该样本数据的模型识别二分类标签。

本实施例中，以二分类样本数据集对应的两种分类标签中的一个分类标签，作为相应二分类模型的识别目标。基于此，对样本数据进行二分类识别，即可以为利用相应二分类模型识别该二分类样本数据集中的样本数据针对该识别目标的分类概率值。进而基于该分类概率值，还可获得该样本数据针对另一分类标签的分类概率值。基于这两个分类概率值，可获得该样本数据的模型识别二分类标签。

可选地，该识别目标可以为相应两种分类标签中的任一分类标签。或者，该识别目标还可以为相应两种分类标签中的类别排序在前的分类标签。该类别排列顺序可以以原始多分类样本数据集对应的多种分类标签的类别排列顺序为准。比如，上述原始多分类样本数据集对应的A、B、C、D这四种分类标签顺序排序，若二分类样本数据集对应的分类标签为A和B，则识别目标为A，若二分类样本数据集对应的分类标签为B和D，则识别目标为B，若二分类样本数据集对应的分类标签为C和D，则识别目标为C。

举例来说，假设二分类样本数据集对应的两种分类标签分别为A和D，则识别目标为A，则经相应二分类模型对该二分类样本数据集中的一样本数据进行分类识别，可获得该样本数据针对A的分类概率值：X_A。进而根据X1可得到该样本数据针对D的分类概率值：X_D。根据X_A和X_D，可获得该样本数据的模型识别二分类标签。

此外，还可以将所有的二分类样本数据集的标签均标注为1和0两类，设置原始标签类别小的为1，原始标签类别大的为0。举例来说，在一个四分类的数据集中，原始标签类别分为1、2、3、4，这4个原始标签类别依次增大，各自的样本数量为1000、2000、3000、4000条。

如此，将它拆成六个二分类数据集后，在第一个二分类数据集中，保留数据集中原始标签为1和2的样本，共1000+2000＝3000条样本，将所有原始标签为1的数据标记为1，所有原始标签为2的数据标记为0；在第二个二分类数据集中，保留数据集中原始标签为1和3的样本，共1000+3000＝4000条样本，将所有标签为1的数据标记为1，所有标签为3的数据标记为0；以此类推。

在步骤S202中得到模型识别二分类标签后，即可执行下述步骤S203，以获得增强后的多分类样本数据集。

步骤S203，将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

本实施例中，对新的样本数据集中的模型识别二分类标签和原始多分类样本数据集中的多分类标签进行统一编码，以使新的样本数据集和原始多分类样本数据集针对多分类编码形式保持一致，从而可合并为统一的、可用于训练多分类模型的多分类样本数据集。

由上可知，由于该新的样本数据集，是通过利用二分类算法对原始多分类样本数据集拆分出的二分类样本数据集进行处理所得到的，则在进行统一编码操作后，通过合并新样本数据集和原始多分类样本数据集所得到的多分类样本数据集，与原始多分类样本数据集相比具有增强效果。根据该增强的多分类样本数据集训练多分类模型时，可以提高收敛速度。

对于进行统一编码操作的可能实现方式，在本公开一个实施例中，步骤S203中，所述将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码，包括：对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量；对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量。

本实施例中，分别对新样本数据集中的模型识别二分类标签和原始多分类样本数据集中的多分类标签，进行统一的多分类编码，可获得各自对应的多分类标签向量。

本实施例中，通过对模型识别二分类标签进行多分类编码，以对其进行转换，使得转化为适合于多分类的场景，从而可利用转化后的相应样数据对原始数据进行数据增强，以便于提高多分类预测的准确率。

此外，基于统一的多分类编码，可使得新样本数据集与原始多分类样本数据集在标签向量格式上保持一致，以便于其中的任一数据样本均可用于训练同一多分类模型，即可利用增强的多分类样本数据集训练多分类模型，而不再局限于仅可使用原始的多分类样本数据集训练多分类模型，从而可以解决使用原始的多分类样本数据集训练多分类模型时收敛速度较低的问题。

详细地，对于对原始的多分类样本数据集中的多分类标签进行多分类编码的情况：

在本公开一个实施例中，所述对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量，包括：获取所述多分类编码的编码向量；对于所述多分类标签中的每个标签：将所述编码向量中对应于对应标签的编码序位的分类概率值设置为1，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述对应标签转换为多分类标签向量。

本实施例中，为进行统一编码，可先获取多分类编码的编码向量。该编码向量可与原始多分类样本数据集中的多分类标签相对应。比如，若多分类标签包括A、B、C、D这四种分类标签，则多分类编码的编码向量即可以为[X_A，X_B，X_C，X_D]。其中，X_A为对应分类标签A的分类概率值，X_B为对应分类标签B的分类概率值，X_C为对应分类标签C的分类概率值，X_D为对应分类标签D的分类概率值。

本实施例中，可以令各个分类概率值的加和为1。如此，对于多分类标签中的任一标签，可以将编码向量中对应于该标签的编码序位的分类概率值设置为1，以及将编码向量中对应于其他标签的编码序位的分类概率值设置为0，从而将该标签转换为多分类标签向量。

详细地，可以对分类标签进行onehot变换，以将其转换为相应的多分类标签向量，以将分类标签转换为onehot的格式。

比如，对于分类标签A，可以转换为[1，0，0，0]这一多分类标签向量，对于分类标签B，可以转换为[0，1，0，0]这一多分类标签向量，对于分类标签C，可以转换为[0，0，1，0]这一多分类标签向量，对于分类标签D，可以转换为[0，0，0，1]这一多分类标签向量。

详细地，对于对新的样本数据集中的模型识别二分类标签进行多分类编码的情况：

在本公开一个实施例中，所述模型识别二分类标签包括二分类标签中每一标签所对应的分类概率值。

本实施例中，由于模型识别二分类标签是对二分类样本数据集中的样本数据进行二分类识别所得到的，且二分类样本数据集对应有两种分类标签，如此，该模型识别二分类标签可以包括针对该两种分类标签中任一标签的分类概率值。比如既包括对应上述识别目标的分类概率值，还包括对应上述第二分类标签的分类概率值。

举例来说，一个二分类样本数据集n对应的二分类标签为上述分类标签A和分类标签B，则对应得到的模型识别二分类标签包括X_A的值和X_B的值。

在本公开一个实施例中，所述模型识别二分类标签包括各个分类概率值的加和为1。比如，X_A的值和X_B的值的加和为1，即X_A+X_B＝1。

通常情况下，若二分类样本数据集n中的某一样本数据，在原始多分类样本数据集中对应于分类标签A，则相应模型识别二分类标签中，X_A的值通常接近于1。对应地，根据X_A的值可以计算X_B的值，即X_B＝1-X_A，X_B的值通常接近于0。比如，X_A＝0.9，X_B＝0.1。

基于上述内容，在本公开一个实施例中，所述对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量，包括：获取所述多分类编码的编码向量；将所述编码向量中对应于所述二分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述模型识别二分类标签转换为多分类标签向量。

同上所述，为进行统一编码，可先获取多分类编码的编码向量。根据模型识别二分类标签中的各个分类概率值，可对编码向量进行取值，具体为将编码向量中对应于二分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将编码向量中对应于多分类标签中其他标签的编码序位的分类概率值设置为0，从而将该模型识别二分类标签转换为多分类标签向量。

举例来说，某一模型识别二分类标签包括X_A的值和X_B的值，且X_A＝0.9，X_B＝0.1，则可以将其转换为[0.9，0.1，0，0]这一多分类标签向量。

基于上述内容可知，步骤S203中，可对得到的模型识别二分类标签和多分类标签中的标签进行统一编码，并在完成统一编码后合并各新的样本数据集和原始的多分类样本数据集，即可得到增强后的多分类样本数据集。从而可用增强后的多分类样本数据集，来训练多分类模型。

由上可知，在本实施例中，通过将多分类样本数据集拆分为多个二分类样本数据集，利用二分类算法相对于多分类算法具有较高的预测准确率这一特点，对二分类样本数据集中的样本数据进行二分类识别获得相应的二分类标签，进而得到新的样本数据集，进而将二分类标签和多分类标签进行统一编码后，合并新的样本数据集和原始的多分类样本数据集，得到增强后的多分类样本数据集。如此，利用增强后的多分类样本数据集训练多分类模型，可提高收敛速度。

基于上述内容可知，本实施例通过对原始的多分类样本数据集进行多分类样本数据处理，可以得到增强后的多分类样本数据集，该增强后的多分类样本数据集不仅包括原始的多分类样本数据集，还包括对原始多分类样本数据集进行二分类处理后所得到的新样本数据集。如此，利用增强后的多分类样本数据集训练多分类模型时，有益于提高收敛速率。

基于此，在本公开一个实施例中，所述方法还包括：通过所述增强后的多分类样本数据集训练多分类模型，并输出训练得到的多分类模型。比如，可以利用增强后的多分类样本数据集，训练一个全连接神经网络，此时模型不仅对原始数据进行学习，还从增强的样本中学习，从而可提高多分类模型的准确率。

此外，基于本实施例提供的多分类样本数据处理方法，可以得到增强后的多分类样本数据集，如此相当于具有两个多分类样本数据集，一是原始的多分类样本数据集，二是增强后的多分类样本数据集。这两个多分类样本数据集均可用于训练多分类模型，比如可以分别用于训练不同样本数据类型的多分类模型。

基于此，在本公开一个实施例中，所述方法还包括：获取选择的用于训练多分类模型的样本数据类型；在所述样本数据类型为第一类型的情况下，通过所述原始的多分类样本数据集训练多分类模型；在所述样本数据类型为第二类型的情况下，通过所述增强后的多分类样本数据集训练多分类模型。

本实施例中，先获取待训练的多分类模型的样本数据类型，并据此选择使用相应的多分类样本数据集来进行训练，使得模型训练更具针对性。

图3给出了根据一实施例的多分类样本数据的处理方法的流程示意图。如图3所示，该实施例的方法可以包括如下步骤S301-步骤S310：

步骤S301，根据原始的多分类样本数据集中的多分类标签，按照不同的分类标签两两匹配的拆分方式，将所述原始的多分类样本数据集拆分成多个二分类样本数据集。

步骤S302，对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：将该二分类样本数据集拆分成训练样本数据集和测试样本数据集。

步骤S303，通过所述训练样本数据集中的样本数据训练预设二分类模型的模型参数，获得对应的二分类模型。

步骤S304，获取该二分类样本数据集具有的两种分类标签，分别作为第一分类标签和第二分类标签，其中，所述第一分类标签为所述对应的二分类模型的识别目标。

步骤S305，对于所述测试样本数据集中的每一样本数据：通过所述对应的二分类模型对该样本数据进行分类识别，获得该样本数据对于所述第一分类标签的分类概率值；根据该样本数据对于所述第一分类标签的分类概率值，获得该样本数据对于所述第二分类标签的分类概率值；以及，根据该样本数据分别对于所述第一分类标签和所述第二分类标签的分类概率值，获得该样本数据的模型识别二分类标签，进而得到新的样本数据集。

详细地，所述预设二分类模型为随机森林模型、GBDT模型、Lightgbm模型、xgboost模型、Adaboost模型、全连接神经网络模型中的任意一个模型。

步骤S306，获取设定的多分类编码的编码向量。

步骤S307，将所述编码向量中对应于所述两种分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述模型识别二分类标签转换为多分类标签向量。

步骤S308，对于所述多分类标签中的每个标签：将所述编码向量中对应于对应标签的编码序位的分类概率值设置为1，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述对应标签转换为多分类标签向量。

步骤S309，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

步骤S310，通过所述增强后的多分类样本数据集训练多分类模型，并输出训练得到的多分类模型。

本实施例提供了多分类数据的数据增强方法，先获取一个多分类数据集，将多分类数据集拆分成多个二分类数据集，再对于每一个二分类数据集，将数据集拆分成训练集和测试集，利用训练集进行训练，对预测集进行预测，预测的结果作为伪标签，然后将所有预测样本的伪标签进行进行转换，并对原始数据集的标签进行转换，进而将转换后的预测样本和原始数据集合并，获得数据增强后的数据集。

本实施例中，通过将多分类样本数据集拆分为多个二分类样本数据集，利用二分类算法较高的预测准确率这一特点，对二分类样本数据集中的样本数据进行二分类识别获得相应的二分类标签，进而得到新的样本数据集，进而将二分类标签和多分类标签进行统一编码后，合并新的样本数据集和原始的多分类样本数据集，得到增强后的多分类样本数据集。如此，利用增强后的多分类样本数据集训练多分类模型，可提高收敛速度。

<设备实施例>

图4是根据一个实施例的多分类样本数据的处理装置40的原理框图。如图4所示，该多分类样本数据的处理装置可以包括拆分模块401、第一处理模块402和第二处理模块403。该多分类样本数据的处理装置40可以是图1所示的电子设备1000。

所述拆分模块401将原始的多分类样本数据集拆分成多个二分类样本数据集。所述第一处理模块402对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集。所述第二处理模块403将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

在本公开一个实施例中，所述第二处理模块403，用于对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量；对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量。

在本公开一个实施例中，所述第二处理模块403，用于获取所述多分类编码的编码向量；对于所述多分类标签中的每个标签：将所述编码向量中对应于对应标签的编码序位的分类概率值设置为1，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述对应标签转换为多分类标签向量。

在本公开一个实施例中，所述第二处理模块403，用于获取所述多分类编码的编码向量；将所述编码向量中对应于所述二分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述模型识别二分类标签转换为多分类标签向量。

在本公开一个实施例中，所述第一处理模块402，用于通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数，获得所述对应的二分类模型。

在本公开一个实施例中，所述第一处理模块402，用于在执行所述通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数的步骤之前，将该二分类样本数据集拆分成训练样本数据集和测试样本数据集，其中，进行所述二分类识别的至少部分样本数据为所述测试样本数据集中的样本数据，进行训练的至少部分样本数据为所述训练样本数据集中的样本数据。

在本公开一个实施例中，所述第一处理模块402，用于获取该二分类样本数据集具有的两种分类标签，分别作为第一分类标签和第二分类标签，其中，所述第一分类标签为所述对应的二分类模型的识别目标；对于所述至少部分样本数据中的每一样本数据：通过所述对应的二分类模型对该样本数据进行分类识别，获得该样本数据对于所述第一分类标签的分类概率值；根据该样本数据对于所述第一分类标签的分类概率值，获得该样本数据对于所述第二分类标签的分类概率值；以及，根据该样本数据分别对于所述第一分类标签和所述第二分类标签的分类概率值，获得该样本数据的模型识别二分类标签。

在本公开一个实施例中，所述拆分模块401，用于根据所述多分类标签，按照不同的分类标签两两匹配的拆分方式，将原始的多分类样本数据集拆分成多个二分类样本数据集。

在本公开一个实施例中，所述多分类样本数据的处理装置40还包括：第三处理模块。所述第三处理模块获取选择的用于训练多分类模型的样本数据类型；在所述样本数据类型为第一类型的情况下，通过所述原始的多分类样本数据集训练多分类模型；在所述样本数据类型为第二类型的情况下，通过所述增强后的多分类样本数据集训练多分类模型。

在本公开一个实施例中，所述多分类样本数据的处理装置40还包括：训练模块。所述训练模块通过所述增强后的多分类样本数据集训练多分类模型，并输出训练得到的多分类模型。

图5是根据另一个实施例的多分类样本数据的处理装置50的硬件结构示意图。

如图5所示，该多分类样本数据的处理装置50包括处理器501和存储器502，该存储器502用于存储可执行的计算机程序，该处理器501用于根据该计算机程序的控制，执行如以上任意方法实施例的方法。

以上多分类样本数据的处理装置50的各模块可以由本实施例中的处理器501执行存储器502存储的计算机程序实现，也可以通过其他电路结构实现，在此不做限定。

该多分类样本数据的处理装置50可以包括至少一个如图1所示的电子设备1000，或者具有与该电子设备1000相同或者类似的硬件结构，在此不做限定。

此外，本公开另一实施例还提供了一种计算机可读存储介质，其上存储有可供处理器执行的计算机程序，所述计算机程序在被处理器执行时实现如本公开方法实施例中任一项所述的方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种多分类样本数据的处理方法，包括：

将原始的多分类样本数据集拆分成多个二分类样本数据集；

对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集；

将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

2.根据权利要求1所述的方法，其中，所述将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码，包括：

对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量；

对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量。

3.根据权利要求2所述的方法，其中，所述对所述原始的多分类样本数据集中的多分类标签进行所述多分类编码，获得对应的多分类标签向量，包括：

获取所述多分类编码的编码向量；

对于所述多分类标签中的每个标签：将所述编码向量中对应于对应标签的编码序位的分类概率值设置为1，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述对应标签转换为多分类标签向量。

4.根据权利要求2所述的方法，其中，所述模型识别二分类标签包括二分类标签中每一标签所对应的分类概率值。

5.根据权利要求4所述的方法，其中，所述对所述新的样本数据集中的模型识别二分类标签进行设定的多分类编码，获得对应的多分类标签向量，包括：

获取所述多分类编码的编码向量；

将所述编码向量中对应于所述二分类标签中每一标签的编码序位的分类概率值设置为每一标签所对应的分类概率值，及将所述编码向量中对应于所述多分类标签中其他标签的编码序位的分类概率值设置为0，进而将所述模型识别二分类标签转换为多分类标签向量。

6.根据权利要求1所述的方法，其中，所述获取对应的二分类模型包括：

通过该二分类样本数据集中的至少部分样本数据训练预设二分类模型的模型参数，获得所述对应的二分类模型。

7.根据权利要求6所述的方法，其中，所述预设二分类模型为随机森林模型、GBDT模型、Lightgbm模型、xgboost模型、Adaboost模型、全连接神经网络模型中的任意一个模型。

8.一种多分类样本数据的处理装置，包括：

拆分模块，用于将原始的多分类样本数据集拆分成多个二分类样本数据集；

第一处理模块，用于对于所述多个二分类样本数据集中的至少部分二分类样本数据集中的每个二分类样本数据集：获取对应的二分类模型；通过对应的二分类模型对该二分类样本数据集中至少部分样本数据进行二分类识别，获得相应的模型识别二分类标签，进而得到新的样本数据集；

第二处理模块，用于将得到的各新的样本数据集中的模型识别二分类标签和所述原始的多分类样本数据集中的多分类标签进行统一编码后，合并所述各新的样本数据集和所述原始的多分类样本数据集，得到增强后的多分类样本数据集。

9.一种包括至少一个计算装置和至少一个存储装置的系统，其中，所述至少一个存储装置用于存储指令，所述指令用于控制所述至少一个计算装置执行根据权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可供处理器执行的计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至7中任一项所述的方法。