CN114662568A

CN114662568A - 数据分类方法、装置、设备和存储介质

Info

Publication number: CN114662568A
Application number: CN202210209523.1A
Authority: CN
Inventors: 魏子麒; 刘璘; 陈俊; 黄海峰; 刘军伟
Original assignee: Tsinghua University; Baidu Online Network Technology Beijing Co Ltd
Current assignee: Tsinghua University; Baidu Online Network Technology Beijing Co Ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-24

Abstract

本发明提供一种数据分类方法、装置、设备和存储介质，包括：将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。本发明的技术方案可以实现提高非均衡数据集分类任务的处理效率、优化分类效果。

Description

数据分类方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据分类方法、装置、电子设备和非暂态计算机可读存储介质。

背景技术

近年来，人工智能技术被广泛地运用于多个领域。由于人工智能技术的本质是通过对大量真实数据中进行模式抽取预测未知情况，真实数据的数据特征和数据质量将直接影响人工智能应用的效果。

高度非均衡的自然数据在机器学习领域被认为是难以学习的。自然数据通常在多个维度上具有长尾的分布特征，因而对于机器学习的一般分类器来说，大部分的自然分布数据均难以直接给出优秀的分类结果。

相关技术中的一种应对数据均衡等复杂场景的分类方案中，需要从不同的类中选择数量规模均衡的实例，通过使用人工的方式对训练集进行均衡的方案处理非均衡数据集的分类任务时处理效率较低、分类效果较差。

发明内容

本发明提供一种数据分类方法、装置、电子设备和非暂态计算机可读存储介质，用以解决现有技术中对非均衡数据集进行分类时的处理效率较低、分类效果较差的问题，提高非均衡数据集分类任务的处理效率、优化分类效果。

本发明提供一种数据分类方法，包括：将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；采用投票机制将所述单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

根据本发明提供的一种数据分类方法，所述多个单一分类器的训练方法包括：对预先选取的所述多个初始的单一分类模型根据所述训练数据子集执行多次循环训练，直到满足所述停止准则；所述循环训练包括：采用多个训练数据子集对单一分类模型分别进行训练；采用评估数据集输入训练后的多个单一分类模型，并将分类结果采用投票机制进行评估，得到中间评估值；根据所述中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环；若否，将本次循环过程中最优的中间评估值对应的多个单一分类模型作为单一分类器输出。

根据本发明提供的一种数据分类方法，所述根据所述中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环之后，所述方法还包括：若是，获取单一分类模型的单一评估值；判断所述单一评估值是否优于本地最优单一评估值和全局最优单一评估值，得到判断结果，其中，所述本地最优单一评估值为训练过程中动态调整的当前单一分类模型的最优的单一评估值；根据所述判断结果保留或者更新所述本地最优单一评估值和全局最优单一评估值，其中，全局最优单一评估值为训练过程中动态调整的全部单一分类模型的最优的单一评估值。

根据本发明提供的一种数据分类方法，所述根据所述判断结果保留或者更新所述本地最优单一评估值和全局最优单一评估值之后，所述方法还包括：根据所述本地最优单一评估值和所述全局最优单一评估值更新所述训练数据子集，以进行下一次循环。

根据本发明提供的一种数据分类方法，所述停止准则包括以下任一准则：所述中间评估值大于设定的第一阈值；第二阈值次数的多个中间评估值均小于等于所述推荐评估值；训练所述单一分类模型的循环次数大于等于设定的第三阈值。

根据本发明提供的一种数据分类方法，所述根据所述本地最优单一评估值和所述全局最优单一评估值更新所述训练数据子集，包括：若单一分类模型的单一评估值大于所述全局最优单一评估值，则以概率η改变所述当前单一分类模型对应的训练数据子集的所有项所选择的所述训练数据集中的样本数据，其中，η为一个预设值，预设区间为[0.03，0.05]；若单一分类模型的单一评估值小于所述全局最优单一评估值但高于所述当前单一分类模型对应的本地最优单一评估值，则以random(0,1)*C的概率改变当前所选用的训练数据子集中本地最优单一评估值与全局最优单一评估值不同的项所选择的所述训练数据集中的样本数据，其中，C为一个预设整数值，预设区间为[2，4]；若单一分类模型的单一评估值小于其对应的本地最优单一评估值，则执行以下步骤：若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，且与当前单一分类模型的选择一致，则保持原有选择不变；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，但与当前单一分类模型的选择不一致，则以2*random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况不同，则以random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据。

根据本发明提供的一种数据分类方法，所述将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器之前，所述方法还包括：选取m个长度为n的向量，所述向量的取值为随机的0或1，其中，n为所述待分类数据集中的数据实例的数量；根据所述m个长度为n的向量在所述待分类数据集中对应选取m个待分类数据子集，其中，向量的取值为0代表不选择对应待分类数据，向量的取值为1代表选择对应待分类数据。

本发明提供一种数据分类装置，包括：分类单元，用于将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；整合单元，用于采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

根据本发明提供的一种数据分类装置，所述装置还包括训练单元，用于对预先选取的所述多个初始的单一分类模型根据所述训练数据子集执行多次循环训练，直到满足所述停止准则；所述循环训练包括：采用多个训练数据子集对单一分类模型分别进行训练；采用评估数据集输入训练后的多个单一分类模型，并将分类结果采用投票机制进行评估，得到中间评估值；根据所述中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环；若否，将本次循环过程中最优的中间评估值对应的多个单一分类模型作为单一分类器输出。

根据本发明提供的一种数据分类装置，所述训练单元还用于：若是，获取单一分类模型的单一评估值；判断所述单一评估值是否优于本地最优单一评估值和全局最优单一评估值，得到判断结果，其中，所述本地最优单一评估值为训练过程中动态调整的当前单一分类模型的最优的单一评估值；根据所述判断结果保留或者更新所述本地最优单一评估值和全局最优单一评估值，其中，全局最优单一评估值为训练过程中动态调整的全部单一分类模型的最优的单一评估值。

根据本发明提供的一种数据分类装置，所述训练单元还用于：根据所述本地最优单一评估值和所述全局最优单一评估值更新所述训练数据子集，以进行下一次循环。

根据本发明提供的一种数据分类装置，所述停止准则包括以下任一准则：所述中间评估值大于设定的第一阈值；第二阈值次数的多个中间评估值均小于等于所述推荐评估值；训练所述单一分类模型的循环次数大于等于设定的第三阈值。

根据本发明提供的一种数据分类装置，所述训练单元还用于：若单一分类模型的单一评估值大于所述全局最优单一评估值，则以概率η改变所述当前单一分类模型对应的训练数据子集的所有项所选择的所述训练数据集中的样本数据，其中，η为一个预设值，预设区间为[0.03，0.05]；若单一分类模型的单一评估值小于所述全局最优单一评估值但高于所述当前单一分类模型对应的本地最优单一评估值，则以random(0,1)*C的概率改变当前所选用的训练数据子集中本地最优单一评估值与全局最优单一评估值不同的项所选择的所述训练数据集中的样本数据，其中，C为一个预设整数值，预设区间为[2，4]；若单一分类模型的单一评估值小于其对应的本地最优单一评估值，则执行以下步骤：若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，且与当前单一分类模型的选择一致，则保持原有选择不变；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，但与当前单一分类模型的选择不一致，则以2*random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况不同，则以random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据。

根据本发明提供的一种数据分类装置，所述装置还包括选取单元，用于：选取m个长度为n的向量，所述向量的取值为随机的0或1，其中，n为所述待分类数据集中的数据实例的数量；根据所述m个长度为n的向量在所述待分类数据集中对应选取m个待分类数据子集，其中，向量的取值为0代表不选择对应待分类数据，向量的取值为1代表选择对应待分类数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述数据分类方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述数据分类方法的步骤。

本发明提供的数据分类方法、装置、电子设备和非暂态计算机可读存储介质，通过将待分类数据子集输入到单一分类器，并对单一分类器的分类结果进行整合，可以高效率地得到待分类数据集的分类结果，并且分类效果较好。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数据分类方法的流程示意图；

图2是本发明提供的训练单一分类器的单次循环的流程示意图；

图3是本发明提供的训练单一分类器的流程示意图；

图4是本发明提供的数据分类装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

相关技术中，通过使用人工或机器筛选的方式对训练集主动进行均衡化的方案被称为数据型的处理方案。直接将原始数据作为输入，保留其固有非均衡的分布，采用其他方法来获得更准确的分类预测结果的分类方案被称为算法型的处理方案。

采用数据型的处理方案针对相关技术中对非均衡数据集进行分类时，分类效率较低，分类效果较差的问题，本发明实施例的技术方案提供一种算法型的技术方案，该方案可以对非均衡数据集进行高效率处理，且分类效果较好。

下面结合附图对本发明示例实施方式进行详细说明。

如图1所示的是本发明实施例的数据分类方法的流程图。本发明实施例提供的方法可以由任意具备计算机处理能力的电子设备执行，例如终端或服务器。如图1所示，该数据分类方法包括：

步骤102，将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到单一分类结果，其中，多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的。

具体地，多个单一分类器是采用训练数据集的多个训练数据子集分别对初始的单一分类模型进行训练得到的。粒子群优化算法(Particle Swarm optimization，简称PSO)是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法。

步骤104，采用投票机制将多个单一分类结果进行整合，得到待分类数据集的第一数据分类结果。

具体地，投票机制(voting)是集成学习里面针对分类问题的一种结合策略，其基本思想是选择所有机器学习算法当中输出最多的那个类。

本发明实施例的技术方案针对一般的非均衡数据集提出了一种通用的完整处理框架，通过该处理框架可以得到分类效果较优的单一分类器。该技术方案可以处理非均衡分布数据集分类问题，可以应用于如医疗分诊、股市预测等多个领域。具体地，通过训练单一分类器和集成投票机制，本发明实施例的技术方案可以针对不同的数据集采用一致的方法进行处理，从而提高非均衡数据集分类任务的处理效率和分类效果。

在步骤102之前，需要对单一分类器进行训练，该训练由一个循环训练系统实现。其中，循环训练系统对对预先选取的多个初始的单一分类模型根据训练数据子集执行多次循环训练，直到满足停止准则为止。其中，如图2所示，循环训练的单次循环过程包括：

步骤201，采用多个训练数据子集对单一分类模型分别进行训练。

步骤202，采用评估数据集输入训练后的多个单一分类模型，并将分类结果采用投票机制进行评估，得到中间评估值。

步骤203，根据中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环。

步骤204，若否，将本次循环过程中最优的中间评估值对应的多个单一分类模型作为单一分类器输出。

其中，在步骤201之前，需要根据训练数据集得到多个训练数据子集，即从训练数据集中选取出便于训练单一分类器的训练数据子集。训练数据子集的获取方法可以为：选取m个长度为n的向量，向量的取值为随机的0或1，其中，n为训练数据集中的数据实例的数量；根据m个长度为n的向量在训练数据集中对应选取m个训练数据子集，其中，向量的取值为0代表不选择对应训练数据，向量的取值为1代表选择对应训练数据。

具体地，在系统的初始化过程中，需要设定粒子群规模及取值方式。例如，可以设定粒子群规模为m，生成m个长度为n的向量，将其中的所有取值均随机置为0或1。为便于解释，设训练数据集为一个包含n条数据实例的数据集，采用只包含0、1两个取值的长度为n的向量表示粒子群中每个粒子在当前状态下所选取的训练数据子集。若数据在向量中对应位置的值为1，则表示该数据被选择放入生成的数据子集中，若值为0则代表不选择该数据。

在步骤201中，将获取的多个向量所代表的训练数据子集分别放入一种预先选取的机器学习分类器即初始的分类模型中，采用该机器学习分类器进行自主学习，生成该机器学习分类器的多个互不相同的单一分类模型。该m个不同的单一分类模型将均具有独立的针对训练数据子集进行分类的能力。

在步骤203中，根据所述中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环之后，若需要进行下一次循环，则需要更新本地最优单一评估值和全局最优单一评估值。其中，本地最优单一评估值为训练过程中动态调整的当前单一分类模型的最优的单一评估值，全局最优单一评估值为训练过程中动态调整的全部单一分类模型的最优的单一评估值。

具体地，若当前循环为训练过程的首个循环，则以当前循环得到的单一分类模型的单一评估值作为本地最优单一评估值，以当前循环得到的全部单一分类模型的最优的单一评估值为全局最优单一评估值。若当前循环不为训练过程的首个循环，则判断单一评估值是否优于本地最优单一评估值和全局最优单一评估值，并根据判断结果保留或更新本地最优单一评估值和全局最优单一评估值。其中，若单一分类模型当前的单一评估值优于本地最优单一评估值或者全局最优单一评估值，则使用当前的单一评估值更新本地最优单一评估值或全局最优单一评估值；若单一分类模型的当前的单一评估值不优于本地最优单一评估值和全局最优单一评估值，则保留原有的本地最优单一评估值和全局最优单一评估值。

根据目标分类模型和停止准则判断是否进行下一次循环时，若单一分类器的训练过程满足停止准则，则不进行下一次循环，将当前循环过程中最优的中间评估值对应的多个单一分类模型作为单一分类器输出；若单一分类器的训练过程不满足停止准则，则根据所述本地最优单一评估值和所述全局最优单一评估值更新训练数据子集，以进行下一次循环。

在本发明实施例中，停止准则包括以下任一准则：中间评估值大于设定的第一阈值；第二阈值次数的多个中间评估值均小于等于推荐评估值；训练单一分类模型的循环次数大于等于设定的第三阈值Smax。

具体地，停止准则可以理解为训练的结束条件，满足停止准则即满足结束条件时，不再进行下一次循环，从而结束训练过程。若不满足结束条件，则进行下一循环的训练过程。

在本发明实施例中，可以记录训练过程中i个单一分类模型的最优的单一评估值即本地最优单一评估值pbesti及其对应的训练数据子集，其中，i为自然数，且1≤i≤m。将pbest1至pbestm中的最大值作为全局最优单一评估值gbest。在更新训练数据子集的所有项所选择的训练数据集中的样本数据之前，需要更新本地最优单一评估值和全局最优单一评估值。

根据所述本地最优单一评估值和所述全局最优单一评估值更新所述训练数据子集时，分以下几种情况：

若当前单一分类模型的单一评估值大于全局最优单一评估值，则以概率η改变当前单一分类模型对应的训练数据子集的所有项所选择的训练数据集中的样本数据，其中，η为一个预设值，预设区间为[0.03，0.05]。

若当前单一分类模型的单一评估值小于全局最优单一评估值但高于当前单一分类模型对应的本地最优单一评估值，则以random(0,1)*C的概率改变当前所选用的训练数据子集中本地最优单一评估值与全局最优单一评估值不同的项所选择的训练数据集中的样本数据，其中，C为一个预设整数值，预设区间为[2，4]。

若单一分类模型的单一评估值小于其对应的本地最优单一评估值，则执行以下步骤：

若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，且与当前单一分类模型的选择一致，则保持原有选择不变；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，但与当前单一分类模型的选择不一致，则以2*random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况不同，则以random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据。

如图3所示，非均衡数据集301为训练数据集，根据非均衡数据集301可以得到训练数据子集302，即实例1，实例2，……，实例n。分别采用这些实例对机器学习分类器进行训练，可以得到单一分类模型303，即分类器1，分类器2，……，分类器n。

在步骤304中，采用预先选取的训练数据子集对单一分类模型303进行分类器评估，得到评估结果，并在步骤305中，将步骤304得到的评估结果与推荐评估值对比，得到对比结果。

在步骤306中，根据步骤305的对比结果判断单一分类模型的当前分类结果是否为最优分类结果。若是，则执行步骤307；若否，则执行步骤308。

具体地，若评估结果小于推荐评估值，则确定单一分类模型的当前分类结果不是最优分类结果；若评估结果大于等于推荐评估值，则确定单一分类模型的当前分类结果是最优分类结果。

步骤307，以单一分类模型303作为最优分类器，替换原有的最优分类器保存到系统的存储器中。

步骤308，判断是否满足停止准则。若是，则执行步骤311；若否，则执行步骤309。

步骤309，更新本地及全局最优解，具体地，本地最优解即本地最优单一评估值，全局最优解即全局最优单一评估值。

步骤310，根据本地及全局最优解更新实例。

步骤311，结束循环过程，将系统存储器中的最优分类器作为单一分类器输出。

在步骤102之前，需要根据待分类数据集得到多个待分类数据子集。从待分类的数据集中选取出便于分类器使用的多个数据子集；待分类数据子集的获取方法可以为：选取m个长度为n的向量，向量的取值为随机的0或1，其中，n为待分类数据集中的数据实例的数量；根据m个长度为n的向量在待分类数据集中对应选取m个待分类数据子集，其中，向量的取值为0代表不选择对应待分类数据，向量的取值为1代表选择对待分类数据。

本发明提供的数据分类方法，通过将待分类数据子集输入到单一分类器，并对单一分类器的分类结果进行整合，可以高效率地得到待分类数据集的分类结果，并且分类效果较好。

下面对本发明提供的数据分类装置进行描述，下文描述的数据分类装置与上文描述的数据分类方法可相互对应参照。

如图4所示，本发明实施例的一种数据分类装置，该装置包括：

分类单元402，用于将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到单一分类结果，其中，多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的。

整合单元404，用于采用投票机制将多个单一分类结果进行整合，得到待分类数据集的第一数据分类结果。

在本发明实施例中，装置还包括训练单元，包括：用于对预先选取的多个初始的单一分类模型根据训练数据子集执行多次循环训练，直到满足停止准则；循环训练包括：采用多个训练数据子集对单一分类模型分别进行训练；采用评估数据集输入训练后的多个单一分类模型，并将分类结果采用投票机制进行评估，得到中间评估值；根据中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环；若否，将本次循环过程中最优的中间评估值对应的多个单一分类模型作为单一分类器输出。

在本发明实施例中，训练单元还可以用于：若是，获取单一分类模型的单一评估值；判断单一评估值是否优于本地最优单一评估值和全局最优单一评估值，得到判断结果，其中，本地最优单一评估值为训练过程中动态调整的当前单一分类模型的最优的单一评估值；根据判断结果保留或者更新本地最优单一评估值和全局最优单一评估值，其中，全局最优单一评估值为训练过程中动态调整的全部单一分类模型的最优的单一评估值。

在本发明实施例中，训练单元还可以用于：根据本地最优单一评估值和全局最优单一评估值更新训练数据子集，以进行下一次循环。

在本发明实施例中，停止准则包括以下任一准则：中间评估值大于设定的第一阈值；第二阈值次数的多个中间评估值均小于等于推荐评估值；训练单一分类模型的循环次数大于等于设定的第三阈值。

在本发明实施例中，训练单元还可以用于：若单一分类模型的单一评估值大于全局最优单一评估值，则以概率η改变当前单一分类模型对应的训练数据子集的所有项所选择的训练数据集中的样本数据，其中，η为一个预设值，预设区间为[0.03，0.05]；若单一分类模型的单一评估值小于全局最优单一评估值但高于当前单一分类模型对应的本地最优单一评估值，则以random(0,1)*C的概率改变当前所选用的训练数据子集中本地最优单一评估值与全局最优单一评估值不同的项所选择的训练数据集中的样本数据，其中，C为一个预设整数值，预设区间为[2，4]；若单一分类模型的单一评估值小于其对应的本地最优单一评估值，则执行以下步骤：若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，且与当前单一分类模型的选择一致，则保持原有选择不变；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况相同，但与当前单一分类模型的选择不一致，则以2*random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据；若根据本地最优单一评估值与全局最优单一评估值得到的训练数据子集的选取情况不同，则以random(0,1)*C的概率改变当前单一分类模型所选用的训练数据子集所选择的训练数据集中的样本数据。

在本发明实施例中，装置还可以包括选取单元，用于：选取m个长度为n的向量，向量的取值为随机的0或1，其中，n为待分类数据集中的数据实例的数量；根据m个长度为n的向量在待分类数据集中对应选取m个待分类数据子集，其中，向量的取值为0代表不选择对应待分类数据，向量的取值为1代表选择对应待分类数据。

由于本发明的示例实施例的数据分类装置的各个功能模块与上述数据分类方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的数据分类方法的实施例。

本发明提供的数据分类装置，通过将待分类数据子集输入到单一分类器，并对单一分类器的分类结果进行整合，可以高效率地得到待分类数据集的分类结果，并且分类效果较好。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行数据分类方法，该方法包括：将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的数据分类方法，该方法包括：将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的数据分类方法，该方法包括：将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据分类方法，其特征在于，包括：

将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器是采用训练数据子集对多个初始的单一分类模型训练得到的，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；

采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

2.根据权利要求1所述的方法，其特征在于，所述多个单一分类器的训练方法包括：对预先选取的所述多个初始的单一分类模型根据所述训练数据子集执行多次循环训练，直到满足停止准则；

所述循环训练包括：

采用多个训练数据子集对单一分类模型分别进行训练；

采用评估数据集输入训练后的多个单一分类模型，并将分类结果采用投票机制进行评估，得到中间评估值；

根据所述中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环；

若否，将本次循环过程中最优的中间评估值对应的多个单一分类模型作为单一分类器输出。

3.根据权利要求2所述的方法，其特征在于，所述根据所述中间评估值、预设的推荐评估值和预设的停止准则判断是否进行下一次循环之后，所述方法还包括：

若是，获取单一分类模型的单一评估值；

判断所述单一评估值是否优于本地最优单一评估值和全局最优单一评估值，得到判断结果，其中，所述本地最优单一评估值为训练过程中动态调整的当前单一分类模型的最优的单一评估值；

根据所述判断结果保留或者更新所述本地最优单一评估值和全局最优单一评估值，其中，全局最优单一评估值为训练过程中动态调整的全部单一分类模型的最优的单一评估值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述判断结果保留或者更新所述本地最优单一评估值和全局最优单一评估值之后，所述方法还包括：

根据所述本地最优单一评估值和所述全局最优单一评估值更新所述训练数据子集，以进行下一次循环。

5.根据权利要求2所述的方法，其特征在于，所述停止准则包括以下任一准则：

所述中间评估值大于设定的第一阈值；

第二阈值次数的多个中间评估值均小于等于所述推荐评估值；

训练所述单一分类模型的循环次数大于等于设定的第三阈值。

6.根据权利要求3所述的方法，其特征在于，所述根据所述本地最优单一评估值和所述全局最优单一评估值更新所述训练数据子集，包括：

若单一分类模型的单一评估值大于所述全局最优单一评估值，则以概率η改变所述当前单一分类模型对应的训练数据子集的所有项所选择的所述训练数据集中的样本数据，其中，η为一个预设值，预设区间为[0.03，0.05]；

若单一分类模型的单一评估值小于所述全局最优单一评估值但高于所述当前单一分类模型对应的本地最优单一评估值，则以random(0,1)*C的概率改变当前所选用的训练数据子集中本地最优单一评估值与全局最优单一评估值不同的项所选择的所述训练数据集中的样本数据，其中，C为一个预设整数值，预设区间为[2，4]；

7.根据权利要求6所述的方法，其特征在于，所述将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器之前，所述方法还包括：

选取m个长度为n的向量，所述向量的取值为随机的0或1，其中，n为所述待分类数据集中的数据实例的数量；

根据所述m个长度为n的向量在所述待分类数据集中对应选取m个待分类数据子集，其中，向量的取值为0代表不选择对应待分类数据，向量的取值为1代表选择对应待分类数据。

8.一种数据分类装置，其特征在于，包括：

分类单元，用于将待分类数据集的多个待分类数据子集分别输入预设的多个单一分类器，得到多个单一分类结果，其中，所述多个单一分类器采用训练数据子集对多个初始的单一分类模型训练得到，所述训练数据子集是采用粒子群优化算法对训练数据集中的样本数据进行动态选取得到的；

整合单元，用于采用投票机制将所述多个单一分类结果进行整合，得到所述待分类数据集的第一数据分类结果。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。