CN114330135B

CN114330135B - 分类模型构建方法及装置、存储介质及电子设备

Info

Publication number: CN114330135B
Application number: CN202111667583.XA
Authority: CN
Inventors: 王红凯; 冯珺; 潘司晨; 江樱; 琚小明; 黄海潮; 张烨华; 彭梁英; 赵帅; 冯泳铭; 陈可; 谢裕清
Original assignee: Zhejiang Jierui Power Technology Co ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang Jierui Power Technology Co ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2024-08-23
Anticipated expiration: 2041-12-30
Also published as: CN114330135A

Abstract

本发明提供了一种分类模型构建方法及装置、存储介质及电子设备，该方法包括：确定预设样本集合和每个预设特征维度对应的特征权重，基于预设的集成学习算法进行预测模型的迭代训练，在当前迭代周期中，确定该迭代周期对应的初始模型，和该迭代周期对应的各个训练特征维度所对应的训练样本集合。通过该训练样本集合对该初始模型进行训练，得到该迭代周期对应的预测模型，并更新当前训练特征维度对应的特征权重，以调整下个迭代周期对应的各个训练特征维度。当结束迭代训练过程后，对训练得到的各个预测模型进行组合，得到分类模型。应用本发明的方法，可对用于训练的特征进行调整，采用对分类影响较大的特征进行训练，可提高模型的分类准确度。

Description

分类模型构建方法及装置、存储介质及电子设备

技术领域

本发明涉及数据分类技术领域，特别是涉及一种分类模型构建方法及装置、存储介质及电子设备。

背景技术

随着人工智能技术的发展，机器学习已广泛应用于各个领域的工程应用中，分类模型则是常见的应用模型之一。

集成学习技术是构建分类模型常用的技术之一，它通过训练多个分类器，结合经训练的多个分类器得到最终的分类模型。现有的分类模型构建过程中，通常是直接采用训练样本集合，对各个分类器进行训练。

在实际的应用过程中，收集到的训练样本或多或少都带有数据不平衡的特性，也就是训练样本集合中分属各个类别的样本数据的数量不平衡。若直接采用训练样本集合进行训练，分类模型的输出结果会倾向于样本数据较多的类别，使得分类模型的分类准确度较低。

发明内容

有鉴于此，本发明实施例提供了一种分类模型构建方法，以解决现有的训练方法得到的分类模型的分类准确度较低的问题。

本发明实施例还提供了一种分类模型构建装置，用以保证上述方法实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

一种分类模型构建方法，包括：

确定预设样本集合和每个预设特征维度对应的特征权重，所述预设样本集合包括每个预设类别对应的多个预设样本，每个所述预设样本中包括每个所述预设特征维度对应的特征数据；

基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，对各个所述预测模型进行组合，得到分类模型；

所述基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，包括：

基于预设的集成学习算法进行预测模型的迭代训练，在当前迭代周期中，确定所述当前迭代周期对应的初始模型和训练样本集合，所述训练样本集合包括每个所述预设样本对应的训练样本，每个所述训练样本中包括其对应的预设样本中，所述当前迭代周期对应的每个训练特征维度所对应的特征数据；

基于所述训练样本集合，对所述初始模型进行训练，得到所述当前迭代周期对应的预测模型；

判断所述当前迭代周期是否符合预设结束条件，若所述当前迭代周期不符合所述预设结束条件，则基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，进入下一个迭代周期；所述调整特征维度为各个所述训练特征维度中的特征维度；

若所述当前迭代周期符合所述预设结束条件，则结束迭代训练过程；

其中，各个所述预设特征维度为首个迭代周期对应的各个训练特征维度，每个迭代周期对应的各个调整特征维度，为该迭代周期的下一个迭代周期对应的各个训练特征维度。

上述的方法，可选的，所述确定预设样本集合，包括：

确定每个所述预设类别对应的多个初始样本；

将每个所述预设类别对应的每个初始样本作为该预设类别对应的预设样本；

在各个所述预设类别中，确定至少一个目标类别；

对于每个所述目标类别对应的每个初始样本，构建该初始样本对应的合成样本；

将每个所述目标类别对应的每个初始样本所对应的合成样本作为该目标类别对应的预设样本，以组成所述预设样本集合。

上述的方法，可选的，所述确定每个预设特征维度对应的特征权重，包括：

对于每个所述预设特征维度，确定该预设特征维度对应的均值集合和标准差集合，所述均值集合包括每个所述预设类别对应的样本数据均值，每个所述样本数据均值为，其对应预设类别所对应的各个预设样本中，该预设特征维度对应的各个特征数据的均值；所述标准差集合包括每个所述预设类别对应的样本数据标准差，每个所述样本数据标准差为，其对应预设类别所对应的各个预设样本中，该预设特征维度对应的各个特征数据的标准差；

基于每个所述预设特征维度对应的均值集合和标准差集合，确定每个所述预设特征维度对应的类间差异值；

对于每个所述预设特征维度，确定该预设特征维度对应的第一差异比重，并将所述第一差异比重作为该预设特征维度对应的特征权重，所述第一差异比重为该预设特征维度对应的类间差异值与第一差异总和值的比值，所述第一差异总和值为各个所述预设特征维度对应的类间差异值的总和。

上述的方法，可选的，所述对各个所述预测模型进行组合，得到分类模型，包括：

对于每个迭代周期对应的预测模型，确定该预测模型对应的误差率，并基于所述误差率确定该预测模型对应的融合比重；

基于每个所述迭代周期对应的预测模型所对应的融合比重，对各个所述迭代周期对应的预测模型进行加权组合，将加权组合得到的模型作为所述分类模型。

上述的方法，可选的，所述基于所述训练样本集合，对所述初始模型进行训练，包括：

确定所述当前迭代周期对应的各个样本权重，所述各个样本权重与所述预设样本集合中的各个预设样本一一对应；

确定所述训练样本集合中每个训练样本对应的训练权重，每个所述训练样本对应的训练权重为该训练样本对应的预设样本所对应的样本权重；

依据所述训练样本集合中的每个训练样本及其对应的训练权重，对所述初始模型进行训练，将完成训练的初始模型作为所述当前迭代周期对应的预测模型。

上述的方法，可选的，所述基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，包括：

基于所述分类结果，在所述训练样本集合中确定多个错误分类样本；

确定错误分类比重，所述错误分类比重为所述多个错误分类样本的样本数量与所述训练样本集合的样本数量的比值；

确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重和更新特征值，每个所述更新特征值为，其对应的训练特征维度所对应的特征权重与目标乘积的和，所述目标乘积为其对应的训练特征维度所对应的错误分类权重与所述错误分类比重的乘积；

确定所述当前迭代周期对应的每个训练特征维度所对应的更新权重，每个所述训练特征维度对应的更新权重为，该训练特征维度对应的更新特征值与更新总和值的比值，所述更新总和值为各个所述训练特征维度对应的更新特征值的总和；

将每个所述训练特征维度对应的更新权重与预设权重进行比较，并将对应的更新权重大于所述预设权重的训练特征维度，确定为所述当前迭代周期对应的调整特征维度；

将每个所述调整特征维度对应的更新权重确定为每个所述调整特征维度对应的特征权重。

上述的方法，可选的，所述确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重，包括：

在所述多个错误分类样本中，确定每个所述预设类别对应的各个错误分类样本；

对于所述当前迭代周期对应的每个训练特征维度，确定该训练特征维度对应的错误样本均值集合和错误样本标准差集合；所述错误样本均值集合包括每个所述预设类别对应的错误数据均值，每个所述错误数据均值为，其对应预设类别所对应的各个错误分类样本中，该训练特征维度对应的各个特征数据的均值；所述错误样本标准差集合包括每个所述预设类别对应的错误数据标准差，每个所述错误数据标准差为，其对应预设类别所对应的各个错误分类样本中，该训练特征维度对应的各个特征数据的标准差；

基于所述当前迭代周期对应的每个训练特征维度对应的错误样本均值集合和错误样本标准差集合，确定所述当前迭代周期对应的每个训练特征维度对应的类间差异值；

对于所述当前迭代周期对应的每个训练特征维度，确定该训练特征维度对应的第二差异比重，并将所述第二差异比重作为该训练特征维度对应的错误分类权重，所述第二差异比重为该训练特征维度对应的类间差异值与第二差异总和值的比值，所述第二差异总和值为所述当前迭代周期对应的各个训练特征维度对应的类间差异值的总和。

一种分类模型构建装置，包括：

第一确定单元，用于确定预设样本集合和每个预设特征维度对应的特征权重，所述预设样本集合包括每个预设类别对应的多个预设样本，每个所述预设样本中包括每个所述预设特征维度对应的特征数据；

组合单元，用于基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，对各个所述预测模型进行组合，得到分类模型；

所述组合单元，包括：

第一确定子单元，用于基于预设的集成学习算法进行预测模型的迭代训练，在当前迭代周期中，确定所述当前迭代周期对应的初始模型和训练样本集合，所述训练样本集合包括每个所述预设样本对应的训练样本，每个所述训练样本中包括其对应的预设样本中，所述当前迭代周期对应的每个训练特征维度所对应的特征数据；

训练子单元，用于基于所述训练样本集合，对所述初始模型进行训练，得到所述当前迭代周期对应的预测模型；

判断子单元，用于判断所述当前迭代周期是否符合预设结束条件，若所述当前迭代周期不符合所述预设结束条件，则基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，进入下一个迭代周期；所述调整特征维度为各个所述训练特征维度中的特征维度；若所述当前迭代周期符合所述预设结束条件，则结束迭代训练过程；

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的分类模型构建方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的分类模型构建方法。

基于上述本发明实施例提供的一种分类模型构建方法，该方法包括：确定预设样本集合和每个预设特征维度对应的特征权重，所述预设样本集合包括每个预设类别对应的多个预设样本，每个所述预设样本中包括每个所述预设特征维度对应的特征数据；基于所述预设样本集合、每个预设特征维度对应的特征权重和集成学习算法进行迭代训练，得到至少一个预测模型，对各个预测模型进行组合得到分类模型。在迭代训练过程中，除最后一个迭代周期外，在每个迭代周期中，确定该迭代周期对应的各个调整特征维度。在每个迭代周期中，基于该迭代周期对应的训练样本集合进行训练，所述训练样本集合包括每个预设样本对应的训练样本，每个训练样本中包括其对应预设样本中，该迭代周期对应的每个训练特征维度所对应的特征数据。首个迭代周期对应的各个训练特征维度为各个预设特征维度，而每个迭代周期对应的各个调整特征维度则为该迭代周期的下一个迭代周期对应的各个训练特征维度。应用本发明实施例提供的方法，在迭代训练的过程中，基于特征维度对应的特征权重，确定训练样本中包含的特征维度的特征数据，可采用作用较大的特征维度对应的特征数据对模型进行训练，以提高获得的预测模型的分类准确度，进而提高组合得到的分类模型的分类准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种分类模型构建方法的方法流程图；

图2为本发明实施例提供的一种合成样本的构建过程的流程示意图；

图3为本发明实施例提供的一种分类模型构建方法的又一方法流程图；

图4为本发明实施例提供的一种特征权重的确定过程的流程示意图；

图5为本发明实施例提供的一种分类模型构建方法的另一方法流程图；

图6为本发明实施例提供的一种分类模型构建装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，不平衡数据是影响机器学习模型效果的重要因素之一，而现实中收集到的数据或多或少都带有不平衡特性，若在此不平衡数据上直接训练，模型的学习效果大概率会倾向于多数类样本。目前，模型的评价指标通常为平均精度，如果训练集中90％的样本是属于同一个类别的，分类器可能将所有的样本都分类为该类别，在这种情况下，最后的分类准确度为90％，但实际上该分类器是无效的。故以样本数据直接进行训练的方法得到的分类模型的分类准确度较低。

因此，本发明实施例提供了一种分类模型构建方法，在训练过程中可调整用于训练的特征数据，采用作用较大的特征维度对应的特征数据，对模型进行训练，提高分类模型的分类准确度。

本发明实施例提供了一种分类模型构建方法，所述方法可应用于分类模型构建系统，其执行主体可以为系统的处理器，所述方法的方法流程图如图1所示，包括：

S101：确定预设样本集合和每个预设特征维度对应的特征权重，所述预设样本集合包括每个预设类别对应的多个预设样本，每个所述预设样本中包括每个所述预设特征维度对应的特征数据；

本发明实施例提供的方法中，在需要构建分类模型时，可确定用于训练模型的预设样本集合，该预设样本集合中包括模型需学习分类的每个预设类别对应的多个预设样本，预设样本集合中的每个预设样本中包含每个预设特征维度的特征数据，特征维度指的是样本中描述对象的某一属性，例如描述用户的预设样本，该样本中包含用户的性别、年龄、身高、体重和家庭住址的相关数据，性别、年龄、身高、体重和家庭住址则为各个特征维度。

本发明实施例提供的方法中，可基于预设的特征权重设定策略，确定每个预设特征维度对应的特征权重，该特征权重表征其对应预设特征维度的特征数据在分类过程中的重要程度。

S102：基于预设的集成学习算法进行预测模型的迭代训练；

本发明实施例提供的方法中，可基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，对各个所述预测模型进行组合，得到分类模型。具体的，可基于预设的集成学习算法进行预测模型的迭代训练，以周期性的迭代训练，得到每个迭代周期训练得到的预测模型。

S103：在当前迭代周期中，确定所述当前迭代周期对应的初始模型和训练样本集合，所述训练样本集合包括每个所述预设样本对应的训练样本，每个所述训练样本中包括其对应的预设样本中，所述当前迭代周期对应的每个训练特征维度所对应的特征数据；

本发明实施例提供的方法中，在进入迭代训练的当前迭代周期时，可确定当前迭代周期对应的初始模型和训练样本集合。若当前迭代周期为首个迭代周期，可以将预先构建的基本模型作为初始模型，基本模型可以是决策树或是神经网络等等模型。若当前迭代周期非首个迭代周期，可在先前的各个迭代周期训练得到的各个预测模型中，选取误差率最小的模型作为初始模型，也可以构建一个基本模型作为初始模型。

其中，各个预设特征维度为首个迭代周期对应的各个训练特征维度，每个迭代周期对应的各个调整特征维度，为该迭代周期的下一个迭代周期对应的各个训练特征维度。即首个迭代周期对应的训练样本集合为预设样本集合，而其他迭代周期的训练样本集合，是在预设样本集合的基础上，基于其上一个迭代周期对应的各个调整特征维度进行特征筛选得到的训练样本集合。

S104：基于所述训练样本集合，对所述初始模型进行训练，得到所述当前迭代周期对应的预测模型；

本发明实施例提供的方法中，在当前的迭代周期中，基于其对应的训练样本集合对其对应的初始模型进行训练，将完成训练的初始模型作为当前迭代周期对应的预测模型。

S105：判断所述当前迭代周期是否符合预设结束条件；

本发明实施例提供的方法中，可以根据实际的训练需求，设置迭代训练的结束条件，例如可以预设迭代总次数，若当前的迭代次数到达预设迭代总次数，则符合预设结束条件。还可以预设预测模型的分类精度阈值，若当前训练得到的预测模型的分类精度达到预设阈值，则符合预设结束条件。

在训练得到当前迭代周期的预测模型后，判断当前迭代周期是否符合预设结束条件。若当前迭代周期不符合预设结束条件，则进入步骤S106，若符合，则进入步骤S107。

S106：基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，进入下一个迭代周期；

本发明实施例提供的方法中，若所述当前迭代周期不符合所述预设结束条件，则根据当前迭代周期对应的初始模型在训练过程中的分类结果，和每个训练特征维度对应的特征权重，确定当前迭代周期对应的各个调整特征维度和每个调整特征维度对应的特征权重。当前迭代周期对应的调整特征维度为当前迭代周期对应的各个训练特征维度中的特征维度。初始模型在训练过程中的分类结果，也就是该初始模型在对每个训练样本进行分类的分类结果。

S107：结束迭代训练过程，获得至少一个预测模型；

本发明实施例提供的方法中，若当前迭代周期符合所述预设结束条件，则结束迭代训练过程，获得各个迭代周期中训练得到的预测模型。在实际的应用过程中，训练过程中通常有多个迭代周期，故通常获得多个预测模型。

S108：对各个所述预测模型进行组合，得到分类模型；

本发明实施例提供的方法中，对各个迭代周期中训练得到的预测模型进行组合，将组合得到的模型作为分类模型。

基于本发明实施例提供的方法，基于集成学习算法迭代训练得到多个预测模型，通过对所述多个预测模型进行组合得到分类模型。在此迭代训练的场景下，可确定预设样本对应的各个预设特征维度，并确定每个预设特征维度对应的特征权重。在训练过程中，可基于当前迭代周期对应的各个训练特征维度，在预设样本包含的各个特征数据中，筛选出每个训练特征维度对应的特征数据，作为训练样本，并基于当前迭代周期训练过程中模型的分类结果确定下一个迭代周期对应的训练特征维度。应用本发明实施例提供的方法，在迭代训练的过程中，可根据分类结果不断调整用于训练的特征维度，可采用影响作用较大的特征维度对应的特征数据对模型进行训练，在样本数据不平衡的情况下，亦可提高训练得到的预测模型的分类准确度，进而提高分类模型的分类准确度。

本发明实施例提供的方法中所提及的集成学习算法，指的是通过构建并结合多个学习器来完成学习任务的一类算法，主要有Bagging算法、Boosting算法等等。Bagging算法指的是引导聚合(引导聚集)算法，其通过减少基分类器的方差，改善了泛化误差。例如，可以用训练集的不同子集训练M个不同的树，计算最后的结果。Boosting算法指的是通过算法集合将弱学习器转换为强学习器的一类算法。主要是训练一系列的弱学习器，弱学习器是指仅比随机猜测好一点的模型，例如较小的决策树，通常是利用加权数据训练，对于错误分类的数据给予较大的权重。AdaBoost算法是Boosting算法中的经典算法之一，AdaBoost首先初始化一个样本权重分布，然后每轮迭代都更新样本权重分布，使得预测模型能更加注重对分类错误的样本的学习，以提高分类准确率。本发明实施例提供的方法中，可以采用AdaBoost算法进行迭代训练。

本发明实施例提供的方法中，可从三个层面提高构建得到的分类模型的分类准确度，分别是针对数据的层面、针对特征的层面和针对分类器的层面。针对数据的层面主要指过采样和欠采样，过采样是增多少数类样本的数量，如复制多份现有的少数类样本数据。欠采样是减少多数类样本的数量，例如从多数类样本中随机抽取等同于少数类样本数量的样本。针对特征的层面主要指特征选择，数据样本的各维特征对分类结果的贡献有所不同，有些冗余的特征去除掉后，对分类效果存在正面的影响。针对分类器的层面指，采用集成学习训练多个弱分类器(预测模型)，最后加权输出所有弱分类器(预测模型)的结果作为强分类器(分类模型)的输出结果。

进一步的，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，步骤S101中提及的确定预设样本集合的过程，包括：

确定每个所述预设类别对应的多个初始样本；

本发明实施例提供的方法中，可通过采集数据的方式，获得每个预设类别对应的多个初始样本，也就是分类属于该预设类别的多个初始样本数据。每个初始样本中亦包含每个预设特征维度对应的特征数据。

在各个所述预设类别中，确定至少一个目标类别；

本发明实施例提供的方法中，可根据每个预设类别对应的初始样本的数量，在各个预设类别中确定至少一个目标类别，目标类别为初始样本数量较少的类别，具体可通过样本数量与预设数量阈值的比较，确定目标类别。

本发明实施例提供的方法中，构建每个目标类别对应的每个初始样本所对应的合成样本，具体的，可通过人工少数类过采样算法(Synthetic Minority OversamplingTechnique，SMOTE)合成样本。

如图2所示流程图，合成样本的构建过程包括：

S201：对于少数类中每一个样本，找到它在少数类中的k个近邻样本；

对于每个少数类，也就是每个目标类别对应的每个初始样本，在该目标类别对应的各个初始样本中，找到其对应的多个近邻样本。

S202：从近邻样本中随机选择一个目标近邻样本，在该样本和该目标近邻样本之间合成新样本。

对于每个初始样本，在其对应的各个近邻样本中，随机选取初始样本A对应的目标近邻样本B，并生成一个0～1之间的随机数C，C＝rand(0,1)，以在A和B之间合成新样本。初始样本A对应的合成样本D，可根据：D＝A+C(B-A)，进行构建。

将每个所述预设类别对应的每个初始样本作为该预设类别对应的预设样本；将每个所述目标类别对应的每个初始样本所对应的合成样本作为该目标类别对应的预设样本，以组成所述预设样本集合。

本发明实施例提供的方法中，对于每个预设类别，将其对应的每个初始样本作为该预设类别对应的预设样本，若该预设类别为目标类别，则将其对应的每个初始样本所对应的合成样本也作为该预设类别对应的预设样本，以得到所述预设样本集合。

基于本发明实施例提供的方法，对于不平衡样本中的少数类，可通过SMOTE算法合成多个新样本，增加该类别对应的样本数量，以降低样本集合的不平衡性，有利于提高模型的分类准确度。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，本发明实施例提供的分类模型构建方法的大致流程可如图3所示，包括：

S301：使用SMOTE算法合成一定数量的少数类样本；

本发明实施例提供的方法中，可通过SMOTE算法，在初始样本的基础上，对于样本数量较少的类别，合成一定数量的新样本，得到样本集。其具体过程可参见上述实施例中结合图2提供的说明，在此不再赘述。

S302：计算样本集的每一维特征在不同类别样本上的分布；

本发明实施例提供的方法中，可通过样本集中的每一维特征对应的各个特征数据，也就是每一个预设特征维度对应的各个特征数据，计算每一维特征在不同类别样本上的分布情况。

S303：根据分布情况赋予不同维度特征不同的分类权重；

本发明实施例提供的方法中，可以根据每个预设特征维度的特征数据在各个类别上的分布情况，确定每个预设特征维度对应的分类权重，也就是上述实施例中的特征权重。

S304：使用AdaBoost算法对不平衡样本进行分类。

本发明实施例提供的方法中，可通过AdaBoost算法，以包含不平衡样本数据的样本集对各个初始模型进行训练，得到各个预测模型。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，图1所示方法中步骤S101所提及的确定每个预设特征维度对应的特征权重的过程，也就是上述实施例中所提及的步骤S302与S303的过程，包括：

本发明实施例提供的方法中，确定每个预设特征维度对应的特征维度的原理流程可如图4所示，包括：

使用Gauss概率密度函数描述特征集(预设样本集合)中每一类特征(预设特征维度)的分布；

本发明实施例提供的方法中，Gauss概率密度函数指的是高斯概率密度函数，其函数表达式如下所示：

其中，σ表示Gauss概率密度函数对应的所有特征数据的标准差，μ为其对应的均值，在描述某一预设特征维度在某一类别上的分布时，该函数对应的所有特征数据为该类别对应的各个预设样本中，该预设特征维度对应的特征数据。对于某一Gauss概率密度函数中的数据，离均值μ越近的值的取值概率越大，离均值μ越远的值的取值概率越小，标准差σ表示数据分散程度的大小，σ越大数据越分散，σ越小数据越集中。

通过比对不同类别Gauss概率密度函数来衡量每一维特征的类间差异；

本发明实施例提供的方法中，对于每一个预设特征维度，可通过每个预设类别的Gauss概率密度函数中的均值和标准差，来衡量每一个预设特征维度对应的类间差异。预设特征维度对应的类间差异，可根据下述公式确定：

其中，d_k表示第k维特征(第k个预设特征维度)的类间差异大小，n为类别数量，μ_i表示第i个预设类别对应的各个预设样本中，第k个预设特征维度对应的特征数据的均值，μ_j同理。σ_i表示第i个预设类别对应的各个预设样本中，第k个预设特征维度对应的特征数据的标准差，σ_j同理。

根据类间差异的大小，赋予各维特征分类权重值。

本发明实施例提供的方法中，可以根据各个预设特征维度对应的类间差异的大小关系，确定每个预设特征维度对应的特征权重，也就是上述各位特征分类权重值。具体的，可以采用下述公式确定特征权重：

其中，w_k表示第k维特征的分类权重大小，也就是特征权重，z表示特征的维度数，也就是各个预设特征维度的数量。本发明实施例提供的方法中，根据每一维特征在不同类别样本上的分布，分布相差大的特征赋予较高的分类权重，分布相似的特征赋予较低的分类权重。

基于上述原理，本发明实施例提供的方法中，确定每个预设特征维度对应的均值集合和标准差集合，对于每个预设特征维度，基于该预设特征维度对应的均值集合和标准差集合，通过上述公式2所示原理，可计算得到该预设特征维度对应的类间差异值。根据各个预设特征维度对应的类间差异值，通过上述公式3所示原理，可计算得到每个预设特征维度对应的第一差异比重，也就是每个预设特征维度对应的特征权重。

为了更好地说明本发明实施例提供的方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤S108中所提及的对各个所述预测模型进行组合，得到分类模型的过程，包括：

本发明实施例提供的方法中，采用AdaBoost算法进行迭代训练，该训练过程是有权重的训练，也就是用于训练模型的每个训练样本对应有训练权重，在训练过程中会按照各个训练权重进行训练。且在每个迭代周期t中，对于该迭代周期训练得到的预测模型h_t，均会确定该预测模型对应的误差率。预测模型h_t的误差率，可以通过下述公式确定：

其中，ε_t表示第t个迭代周期对应的预测模型的误差率，D_t(i)表示第t个迭代周期的训练过程中，预测模型h_t分类错误的训练样本对应的训练权重。x_i表示训练样本的样本输入，y_i表示训练样本的样本输出。

基于每个预测模型的误差率，可确定每个预测模型对应的融合比重，具体的，可采用下述公式计算：

其中，α_t表示第t个迭代周期训练得到的预测模型对应的融合比重。

本发明实施例提供的方法中，可以按照下述公式，将各个预测模型进行加权组合，得到分类模型。

其中，S为迭代周期的个数，g(x)为组合得到的分类模型。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，步骤S104所提及的基于所述训练样本集合，对所述初始模型进行训练，包括：

本发明实施例提供的方法中，采用AdaBoost算法进行模型的迭代训练，在整个迭代训练过程中，可先初始化每个预设样本对应的样本权重，例如，对于容量为m的预设样本集T{x,y|x∈X,y∈Y}中的每一个样本的样本权重初始化为1/m，即AdaBoost算法的第一个迭代周期中，所有样本权重为：

D₁(i)＝1/m

其中，D₁(i)表示首个迭代周期中，第i个预设样本对应的样本权重。

在每个迭代周期中，会根据当前迭代周期训练得到的预测模型和当前迭代周期对应的各个样本权重，对每个预设样本对应的样本权重进行更新，以得到下一个迭代周期对应的各个样本权重。其更新的原理公式可如下所示：

其中，D_t(i)为迭代周期t中，第i个预设样本对应的样本权重，D_t+1(i)为更新后第i个预设样本对应的样本权重，也就是在迭代周期t+1中，第i个预设样本对应的样本权重。基于上述原理，可增加错误分类的样本所对应的样本权重，对于分类正确的样本降低其权重，使得被分错的样本被突出出来，以得到一个新的样本分布，下次训练就会更多地考虑这些被错分的样本。

本发明实施例提供的方法中，可基于每个预设样本对应的样本权重，确定其对应训练样本的训练权重。

本发明实施例提供的方法中，基于各个训练样本和每个训练样本对应的训练权重，对初始模型进行训练，得到该迭代周期对应的预测模型。

进一步的，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，步骤S106中所提及的基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重的过程，包括：

本发明实施例提供的方法中，可基于当前迭代周期的初始模型在训练过程中，对各个训练样本的分类结果，确定各个错误分类样本，也就是在训练过程中，该初始模型分类错误的样本。

本发明实施例提供的方法中，可统计错误分类样本的样本数量，并将该样本数量与训练样本集合中训练样本的总数量的比值，作为错误分类比重。

本发明实施例提供的方法中，可基于确定特征维度对应的特征权重的原理，确定每个训练特征维度对应的错误分类权重，将每个训练特征维度对应的错误分类权重和错误分类比重的乘积，作为该训练特征维度对应的目标乘积。将每个训练特征维度对应的特征权重与其对应的目标乘积的和，作为每个训练特征维度对应的更新特征值。

本发明实施例提供的方法中，可以将每个训练特征维度对应的更新特征值相加，将相加的总和作为更新总和值。对于每个训练特征维度，可根据其对应的更新特征值与更新总和值的比值，确定其对应的更新权重。具体的，可根据下述公式确定每个训练特征维度对应的更新权重：

其中，w_k,t+1表示第k个训练特征维度对应的更新权重，w_k,t表示第k个训练特征维度对应的特征权重，w_k,false表示第k个训练特征维度对应的错误分类权重，β表示错误分类比重，n表示训练特征维度的个数。根据上述原理，可增大分类错误的样本中特征分布类间差异大的特征维度的权重，减小分类错误的样本中特征分布类间差异小的特征维度的权重。

本发明实施例提供的方法中，可以根据对于特征维度影响程度的衡量，设置一个权重阈值，将当前每个训练特征维度对应的更新权重与预设权重进行比较，将更新权重大于预设权重的训练特征维度，确定为调整特征维度，其对应的特征数据仍可继续用于模型训练，而更新权重小于或等于预设权重的训练特征维度，则不再用于模型训练。特征维度的筛选公式如下：

columns_t+1＝{column_i|if w_i,t+1>τ}

(公式9)

其中，columns_t+1表示调整特征维度集合，column_i表示训练特征维度集合，τ表示预设权重。

本发明实施例提供的方法中，将每个调整特征维度对应的更新权重，确定为该调整特征维度对应的特征权重。

进一步的，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，所述确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重的过程，包括：

本发明实施例提供的方法中，可基于每个错误分类样本对应的预设类别，确定每个预设类别对应的各个错误分类样本。

本发明实施例提供的方法中，对于每个训练特征维度，可计算每个预设类别对应的各个错误分类样本中，该训练特征维度对应的特征数据的均值和标准差，将该均值和标准差作为该预设类别与该训练特征维度相对应的错误数据均值和错误数据标准差，以得到每个训练特征维度对应的错误样本均值集合，以及错误样本标准差集合。

本发明实施例提供的方法中，可基于上述实施例中的公式2所示原理，确定每个训练特征维度对应的类间差异值，应用公式2所示原理，计算某一训练特征维度对应的类间差异值时，预设类别对应的均值，采用的是该训练特征维度对应的错误样本均值集合中，该预设类别对应的错误数据均值，而预设类别对应的标准差，采用的是该训练特征维度对应的错误数据标准差集合中，该预设类别对应的错误数据标准差。

本发明实施例提供的方法中，可基于上述实施例中的公式3所示原理，计算每个训练特征维度对应的第二差异比重，并将其作为对应的错误分类权重。

为了更好地说明本发明实施例提供的方法，结合图5所示流程图，本发明实施例提供了又一种分类模型构建方法，以进一步对本发明实施例提供的分类模型构建过程作整体简要说明。如图5所示，分类模型的构建过程包括：

S401：初始化样本权重；

对于预设样本集合中的每个预设样本，初始化其对应的样本权重。对于每个预设特征维度，亦根据上述实施例提供的公式2和公式3所示原理，初始化其对应的特征权重。

S402：设定迭代轮数、特征权重阈值；

可根据实际的训练需求，设定迭代轮数和特征权重阈值。

S403：得到在当前样本权重分布下的预测模型和误差率；

根据预设的迭代训练算法，在当前样本权重分布下，训练得到一个预测模型，并确定该预测模型的误差率。其过程原理可参见上述实施例中结合公式4所提供的说明，在此不再赘述。

S404：得到当前预测模型在所有预测模型中的比重；

根据当前预测模型的误差率，确定其对应的融合比重，其过程原理可参见上述实施例中结合公式5所提供的说明，在此不再赘述。

S405：根据当前预测模型的分类结果，更新样本权重分布；

参见上述结合公式7所提供的说明，根据当前预测模型的分类结果和当前的样本权重分布，更新样本权重分布，即更新每个预设样本对应的样本权重。

S406：根据当前预测模型的分类结果，更新特征权重；

参见上述结合公式8和公式9所提供的说明，根据当前预测模型的分类结果和当前的特征权重分布，更新特征维度的特征权重，并根据更新后的特征权重，对特征维度进行筛选，得到新的特征维度分布和特征权重分布。

S407：判断是否达到迭代轮数；

判断当前已迭代训练的次数是否达到预设的迭代轮数，若达到，进入步骤S408。若没有达到，根据更新后的样本权重分布、特征维度分布和特征权重分布，再次执行S403至S406的过程，进行迭代训练得到一个新的预测模型。

S408：按照各个预测模型的比重，将各个训练得到的预测模型组合成一个强预测模型。

结束迭代训练后，可结合上述提及的公式6所示原理，对各个预测模型进行组合，得到一个强预测模型，将该强预测模型作为最终的分类模型。

与图1所示的分类模型构建方法相对应的，本发明实施例还提供了一种分类模型构建装置，用于对图1中所示方法的具体实现，其结构示意图如图6所示，包括：

第一确定单元501，用于确定预设样本集合和每个预设特征维度对应的特征权重，所述预设样本集合包括每个预设类别对应的多个预设样本，每个所述预设样本中包括每个所述预设特征维度对应的特征数据；

组合单元502，用于基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，对各个所述预测模型进行组合，得到分类模型；

所述组合单元502，包括：第一确定子单元503，用于基于预设的集成学习算法进行预测模型的迭代训练，在当前迭代周期中，确定所述当前迭代周期对应的初始模型和训练样本集合，所述训练样本集合包括每个所述预设样本对应的训练样本，每个所述训练样本中包括其对应的预设样本中，所述当前迭代周期对应的每个训练特征维度所对应的特征数据；

训练子单元504，用于基于所述训练样本集合，对所述初始模型进行训练，得到所述当前迭代周期对应的预测模型；

判断子单元505，用于判断所述当前迭代周期是否符合预设结束条件，若所述当前迭代周期不符合所述预设结束条件，则基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，进入下一个迭代周期；所述调整特征维度为各个所述训练特征维度中的特征维度；若所述当前迭代周期符合所述预设结束条件，则结束迭代训练过程；

基于本发明实施例提供的装置，基于集成学习算法迭代训练得到多个预测模型，通过对所述多个预测模型进行组合得到分类模型。在此迭代训练的场景下，可确定预设样本对应的各个预设特征维度，并确定每个预设特征维度对应的特征权重。在训练过程中，可基于当前迭代周期对应的各个训练特征维度，在预设样本包含的各个特征数据中，筛选出每个训练特征维度对应的特征数据，作为训练样本，并基于当前迭代周期训练过程中模型的分类结果确定下一个迭代周期对应的训练特征维度。应用本发明实施例提供的装置，在迭代训练的过程中，可根据分类结果不断调整用于训练的特征维度，可采用影响作用较大的特征维度对应的特征数据对模型进行训练，在样本数据不平衡的情况下，亦可提高训练得到的预测模型的分类准确度，进而提高分类模型的分类准确度。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第一确定单元501，包括：第二确定子单元，用于确定每个所述预设类别对应的多个初始样本；将每个所述预设类别对应的每个初始样本作为该预设类别对应的预设样本；在各个所述预设类别中，确定至少一个目标类别；第三确定子单元，用于对于每个所述目标类别对应的每个初始样本，构建该初始样本对应的合成样本；将每个所述目标类别对应的每个初始样本所对应的合成样本作为该目标类别对应的预设样本，以组成所述预设样本集合。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第一确定单元501，包括：第四确定子单元，用于对于每个所述预设特征维度，确定该预设特征维度对应的均值集合和标准差集合，所述均值集合包括每个所述预设类别对应的样本数据均值，每个所述样本数据均值为，其对应预设类别所对应的各个预设样本中，该预设特征维度对应的各个特征数据的均值；所述标准差集合包括每个所述预设类别对应的样本数据标准差，每个所述样本数据标准差为，其对应预设类别所对应的各个预设样本中，该预设特征维度对应的各个特征数据的标准差；基于每个所述预设特征维度对应的均值集合和标准差集合，确定每个所述预设特征维度对应的类间差异值；第五确定子单元，用于对于每个所述预设特征维度，确定该预设特征维度对应的第一差异比重，并将所述第一差异比重作为该预设特征维度对应的特征权重，所述第一差异比重为该预设特征维度对应的类间差异值与第一差异总和值的比值，所述第一差异总和值为各个所述预设特征维度对应的类间差异值的总和。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述组合单元502，包括：第六确定子单元，用于对于每个所述迭代周期对应的预测模型，确定该预测模型对应的误差率，并基于所述误差率确定该预测模型对应的融合比重；加权组合子单元，用于基于每个所述迭代周期对应的预测模型所对应的融合比重，对各个所述迭代周期对应的预测模型进行加权组合，将加权组合得到的模型作为所述分类模型。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述训练子单元，包括：第七确定子单元，用于确定所述当前迭代周期对应的各个样本权重，所述各个样本权重与所述预设样本集合中的各个预设样本一一对应；确定所述训练样本集合中每个训练样本对应的训练权重，每个所述训练样本对应的训练权重为该训练样本对应的预设样本所对应的样本权重；加权训练子单元，用于依据所述训练样本集合中的每个训练样本及其对应的训练权重，对所述初始模型进行训练，将完成训练的初始模型作为所述当前迭代周期对应的预测模型。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述判断子单元，包括：第八确定子单元，用于基于所述分类结果，在所述训练样本集合中确定多个错误分类样本；确定错误分类比重，所述错误分类比重为所述多个错误分类样本的样本数量与所述训练样本集合的样本数量的比值；第九确定子单元，用于确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重和更新特征值，每个所述更新特征值为，其对应的训练特征维度所对应的特征权重与目标乘积的和，所述目标乘积为其对应的训练特征维度所对应的错误分类权重与所述错误分类比重的乘积；确定所述当前迭代周期对应的每个训练特征维度所对应的更新权重，每个所述训练特征维度对应的更新权重为，该训练特征维度对应的更新特征值与更新总和值的比值，所述更新总和值为各个所述训练特征维度对应的更新特征值的总和；比较子单元，用于将每个所述训练特征维度对应的更新权重与预设权重进行比较，并将对应的更新权重大于所述预设权重的训练特征维度，确定为所述当前迭代周期对应的调整特征维度；将每个所述调整特征维度对应的更新权重确定为每个所述调整特征维度对应的特征权重。

在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第九确定子单元，包括：第十确定子单元，用于在所述多个错误分类样本中，确定每个所述预设类别对应的各个错误分类样本；对于所述当前迭代周期对应的每个训练特征维度，确定该训练特征维度对应的错误样本均值集合和错误样本标准差集合；所述错误样本均值集合包括每个所述预设类别对应的错误数据均值，每个所述错误数据均值为，其对应预设类别所对应的各个错误分类样本中，该训练特征维度对应的各个特征数据的均值；所述错误样本标准差集合包括每个所述预设类别对应的错误数据标准差，每个所述错误数据标准差为，其对应预设类别所对应的各个错误分类样本中，该训练特征维度对应的各个特征数据的标准差；第十一确定子单元，用于基于所述当前迭代周期对应的每个训练特征维度对应的错误样本均值集合和错误样本标准差集合，确定所述当前迭代周期对应的每个训练特征维度对应的类间差异值；对于所述当前迭代周期对应的每个训练特征维度，确定该训练特征维度对应的第二差异比重，并将所述第二差异比重作为该训练特征维度对应的错误分类权重，所述第二差异比重为该训练特征维度对应的类间差异值与第二差异总和值的比值，所述第二差异总和值为所述当前迭代周期对应的各个训练特征维度对应的类间差异值的总和。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的分类模型构建方法。

本发明实施例还提供了一种电子设备，其结构示意图如图7所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种分类模型构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定预设样本集合，包括：

确定每个所述预设类别对应的多个初始样本；

在各个所述预设类别中，确定至少一个目标类别；

3.根据权利要求1所述的方法，其特征在于，所述确定每个预设特征维度对应的特征权重，包括：

4.根据权利要求1所述的方法，其特征在于，所述对各个所述预测模型进行组合，得到分类模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本集合，对所述初始模型进行训练，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，包括：

7.根据权利要求6所述的方法，其特征在于，所述确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重，包括：

8.一种分类模型构建装置，其特征在于，包括：

所述组合单元，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～7任意一项所述的分类模型构建方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～7任意一项所述的分类模型构建方法。