CN116910660A

CN116910660A - 面向不平衡数据的自步半监督集成分类器训练方法及系统

Info

Publication number: CN116910660A
Application number: CN202311145834.7A
Authority: CN
Inventors: 管红娇; 鹿文鹏; 董祥军; 赵龙; 任晓强; 陈川
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-10-20
Anticipated expiration: 2043-09-07
Also published as: CN116910660B

Abstract

本发明提供了一种面向不平衡数据的自步半监督集成分类器训练方法及系统，其属于数据处理技术领域，该方案通过结合分类器和加权k近邻确定安全的伪标注样本，来提高伪标注样本的质量；然后，使用基于聚类的自步学习选择伪标注样本，有效提高添加的伪标注样本的多样性并缓解错误积累；最后，利用增强后的平衡样本集训练基分类器并集成，来缓解由不平衡的类分布造成的分类器偏差，特别是对于医疗领域的图像分类、征信风险评估领域的风险评估等经常存在数据样本不平衡的情况下，能够有效保证训练后分类器分类结果的准确性。

Description

面向不平衡数据的自步半监督集成分类器训练方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种面向不平衡数据的自步半监督集成分类器训练方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在机器学习和人工智能领域，数据不平衡和标注不足是常见的问题。例如，在医学诊断中，癌症患者比普通患者少得多；在软件缺陷检测中，大多数缺陷数据集的缺陷率低于30%，传统分类方法处理不平衡数据时性能较差，因此不平衡数据的分类研究应运而生。另一方面，为了获得高的识别率，需要获得大量有类别标注的样本，然而，标注类别是非常耗时和费力的，因此半监督分类被广泛研究，其目的是通过使用大量未标注的样本来提高有限标注样本的性能。

不平衡分类和半监督分类一直以来是独立发展的，目前，针对不平衡数据的半监督方法还没有得到广泛的研究。发明人发现，当前面向不平衡数据的半监督分类方法仍存在以下问题：有标注样本的数量有限，而且标注样本的分布没有很好表示无标注样本；错误伪标注样本累积，导致分类器的偏差不断增加；不平衡的类分布会严重加剧错误传播。

发明内容

本发明为了解决上述问题，提供了一种面向不平衡数据的自步半监督集成分类器训练方法及系统，所述方案通过结合分类器和加权k近邻确定安全的伪标注样本，来提高伪标注样本的质量；然后，使用基于聚类的自步学习选择伪标注样本，有效提高添加的伪标注样本的多样性并缓解错误积累；最后，利用增强后的平衡样本集训练基分类器并集成，来缓解由不平衡的类分布造成的分类器偏差，特别是对于医疗领域的图像分类、征信风险评估领域的风险评估等经常存在数据样本不平衡的情况下，能够有效保证训练后分类器分类结果的准确性。

根据本发明实施例的第一个方面，提供了一种面向不平衡数据的自步半监督集成分类器训练方法，包括：

步骤1：基于不平衡数据集获取若干平衡有标注样本子集，其中，所述不平衡数据集包括有标注样本集和无标注样本集；

步骤2：分别基于预先训练的分类器以及加权K近邻方法对不平衡数据集中的无标注样本进行分类，并基于分类结果确定每个平衡有标注样本子集对应的安全伪标注样本；

步骤3：基于安全伪标注样本所属簇以及对应的难度值，从每个平衡有标注样本子集对应的安全伪标注样本中选择预设数量的安全伪标注样本；

步骤4：将选择的安全伪标注样本加入对应的平衡有标注样本子集，将已选择的安全伪标注样本在无标注样本集中删除，得到新的有标注样本集和无标注样本集；

步骤5：重复步骤2至步骤4预设次数，获得若干平衡有标注样本集，基于若干平衡有标注样本集分别训练若干基分类器，并通过对若干基分类器进行集成，实现集成分类器的训练。

进一步的，所述基于不平衡数据集获取平衡有标注样本子集，具体为：从不平衡数据集的负样本中随机选择与正样本数量一致的样本，将获得的样本与不平衡数据集中的正样本进行组合，获得平衡有标注样本。

进一步的，分别基于预先训练的分类器以及加权K近邻方法对不平衡数据集中的无标注样本进行分类，其中，所述分类器分别利用获得的若干平衡有标注样本子集进行训练，通过训练好的分类器获得无标注样本的伪标签及其对应的后验概率。

进一步的，基于加权K近邻方法对不平衡数据集中的无标注样本进行分类，具体为：计算每个无标注样本在整个样本集中的K个近邻样本；其中整个样本包括平衡有标注样本子集和无标注样本集；基于无标注样本对应的K个近邻样本的标注情况进行无标注样本的分类。

进一步的，基于无标注样本对应的K个近邻样本的标注情况进行无标注样本的分类，具体为：当无标注样本的K个近邻样本中存在标注样本，且标注标签一致，则以该标签作为无标注样本的伪标签，且该伪标签的后验概率为1；当K个近邻样本中存在标注样本且标注标签不同，则通过邻近样本中有标注样本的加权求和确定无标注样本所属类别的后验概率，并选择后验概率最大的类别作为无标注样本的伪标签；当K个近邻样本中不存在标注样本，则当前无标注样本不赋予伪标签。

进一步的，通过邻近样本中有标注样本的加权求和确定无标注样本所属类别的后验概率，具体为：计算当前无标注样本到K个近邻样本中有标注样本的距离，并基于所述距离计算每个有标注样本对当前无标注样本的权重，通过权重求和确定当前无标注样本属于不同类别的后验概率。

进一步的，基于分类器与加权K近邻方法的分类结果，确定安全伪标注样本，具体为：对于无标注样本，若基于分类器与加权K近邻方法获得的伪标签相同，则该样本为安全伪标注样本，该样本对类别的后验概率为基于分类器与加权K近邻方法的分类结果对应后验概率的均值。

进一步的，基于安全伪标注样本所属簇以及对应的难度值，从每个平衡有标注样本子集对应的安全伪标注样本中选择预设数量的安全伪标注样本；具体为：以分类器对安全伪标注样本进行分类的交叉熵作为安全伪标注样本的难度值；对不平衡数据集的初始有标注样本集中的正样本集和负样本集分别进行聚类，分别获得若干簇中心；基于安全伪标注样本到各个簇中心的距离，对所有的安全伪标注样本划分为若干簇；从每个簇中按照安全伪标注样本的难度值选择预设数量的安全伪标注样本。

进一步的，通过对若干基分类器进行集成，实现集成分类器的训练，具体采用多数投票机制将若干基分类器进行集成。

根据本发明实施例的第二个方面，提供了一种面向不平衡数据的自步半监督集成分类器训练系统，包括：

平衡样本集获取单元，其用于基于不平衡数据集获取若干平衡有标注样本子集，其中，所述不平衡数据集包括有标注样本集和无标注样本集；

伪标注样本获取单元，其用于分别基于预先训练的分类器以及加权K近邻方法对不平衡数据集中的无标注样本进行分类，并基于分类结果确定每个平衡有标注样本子集对应的安全伪标注样本；

伪标注样本选择单元，其用于基于安全伪标注样本所属簇以及对应的难度值，从每个平衡有标注样本子集对应的安全伪标注样本中选择预设数量的安全伪标注样本；

样本集更新单元，其用于将选择的安全伪标注样本加入对应的平衡有标注样本子集，将已选择的安全伪标注样本在无标注样本集中删除，得到新的有标注样本集和无标注样本集；

迭代求解单元，其用于重复伪标注样本获取单元、伪标注样本选择单元以及样本集更新单元的处理过程预设次数，获得若干平衡有标注样本集，基于若干平衡有标注样本集分别训练若干基分类器，并通过对若干基分类器进行集成，实现集成分类器的训练。

与现有技术相比，本发明的有益效果是：

（1）本发明所述方案一种面向不平衡数据的自步半监督集成分类器训练方法及系统，所述方案针对征信风险评估、医疗诊断等分类过程中训练数据不平衡以及数据标注不足的问题，通过结合分类器和加权k近邻确定安全的伪标注样本，来提高伪标注样本的质量；然后，使用基于聚类的自步学习选择伪标注样本，有效提高添加的伪标注样本的多样性并缓解错误积累；最后，利用增强后的平衡样本集训练基分类器并集成，来缓解由不平衡的类分布造成的分类器偏差，特别是对于医疗领域的图像分类、征信风险评估领域的风险评估等经常存在数据样本不平衡的情况下，能够有效保证训练后分类器分类结果的准确性。

（2）本发明所述方案采用基于下采样的集成框架能够较好地处理类分布不平衡导致的分类偏置问题，最终提高分类器的训练效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中所述的一种面向不平衡数据的自步半监督集成分类器训练方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

伪标签：即通过预先训练的分类器以及加权K近邻方法对不平衡数据集中的无标注样本进行分类获得的分类类别，例如：征信风险评估中获得的高风险征信用户及低风险征信用户分类类别；以及医疗领域基于图像样本获得的肿瘤图像的良性和恶性分类类别。

实施例一：

本实施例的目的是提供一种面向不平衡数据的自步半监督集成分类器训练方法。

一种面向不平衡数据的自步半监督集成分类器训练方法，包括：

在具体实施中，所述基于不平衡数据集获取平衡有标注样本子集，具体为：从不平衡数据集的负样本中随机选择与正样本数量一致的样本，将获得的样本与不平衡数据集中的正样本进行组合，获得平衡有标注样本。

在具体实施中，分别基于预先训练的分类器以及加权K近邻方法对不平衡数据集中的无标注样本进行分类，其中，所述分类器分别利用获得的若干平衡有标注样本子集进行训练，通过训练好的分类器获得无标注样本的伪标签及其对应的后验概率。

基于加权K近邻方法对不平衡数据集中的无标注样本进行分类，具体为：计算每个无标注样本在整个样本集中的K个近邻样本；其中整个样本包括平衡有标注样本子集和无标注样本集；基于无标注样本对应的K个近邻样本的标注情况进行无标注样本的分类。

基于无标注样本对应的K个近邻样本的标注情况进行无标注样本的分类，具体为：当无标注样本的K个近邻样本中存在标注样本，且标注标签一致，则以该标签作为无标注样本的伪标签，且该伪标签的后验概率为1；当K个近邻样本中存在标注样本且标注标签不同，则通过邻近样本中有标注样本的加权求和确定无标注样本所属类别的后验概率，并选择后验概率最大的类别作为无标注样本的伪标签；当K个近邻样本中不存在标注样本，则当前无标注样本不赋予伪标签。

通过邻近样本中有标注样本的加权求和确定无标注样本所属类别的后验概率，具体为：计算当前无标注样本到K个近邻样本中有标注样本的距离，并基于所述距离计算每个有标注样本对当前无标注样本的权重，通过权重求和确定当前无标注样本属于不同类别的后验概率。

在具体实施中，基于分类器与加权K近邻方法的分类结果，确定安全伪标注样本，具体为：对于无标注样本，若基于分类器与加权K近邻方法获得的伪标签相同，则该样本为安全伪标注样本，该样本对类别的后验概率为基于分类器与加权K近邻方法的分类结果对应后验概率的均值。

在具体实施中，基于安全伪标注样本所属簇以及对应的难度值，从每个平衡有标注样本子集对应的安全伪标注样本中选择预设数量的安全伪标注样本；具体为：以分类器对安全伪标注样本进行分类的交叉熵作为安全伪标注样本的难度值；对不平衡数据集的初始有标注样本集中的正样本集和负样本集分别进行聚类，分别获得若干簇中心；基于安全伪标注样本到各个簇中心的距离，对所有的安全伪标注样本划分为若干簇；从每个簇中按照安全伪标注样本的难度值选择预设数量的安全伪标注样本。

在具体实施中，所述通过对若干基分类器进行集成，实现集成分类器的训练，具体采用多数投票机制将若干基分类器进行集成。

具体的，为了便于理解，以下结合具体实例对本实施例所述方案进行详细说明：

以征信风险评估为例，本实施例提供了一种用于征信风险评估的面向不平衡数据的自步半监督集成分类器训练方法，本实施例所述方案通过结合分类器和加权k近邻确定安全的伪标注样本，来提高伪标注样本的质量；然后，使用基于聚类的自步学习选择伪标注样本，有效提高添加的伪标注样本的多样性并缓解错误积累；最后，利用增强后的平衡样本集训练基分类器并集成，来缓解由不平衡的类分布造成的分类器偏差，最终获得训练后的用于征信风险评估的半监督集成分类器。

具体的，一种用于征信风险评估的面向不平衡数据的自步半监督集成分类器训练方法，具体包括如下步骤：

步骤1：获得初始的用于征信风险评估的平衡有标注样本子集，在征信风险评估中，通常情况下，高风险征信用户（属于正类或小类）远远少于低风险征信用户（属于负类或大类），即两种类别征信数据的样本数量是不平衡的。其中，所述征信样本集为采集的用户银行征信数据，包括信贷历史状况、现有账户状况、贷款目的、信用额度、雇佣状态、担保人、目前居住地、财产状况、年龄以及工作类型。少量征信样本及其风险类型构成有标注样本集，大量无风险类型标签的征信样本构成无标注样本集，有标注样本集和无标注样本集构成初始的不平衡数据集。

具体的：假设不平衡数据集中包括大类（负类）样本集，小类（正类）样本集/>和无标注样本集Unlabel，从大类集Neg中随机选取与Pos集中样本数量相同的样本，构成集合/>（i=1,2，...,n），构建平衡的有标注样本子集/>，假设初始的平衡有标注样本子集有n个；

其中，大类（负类）和小类（正类）是人们通常约定的叫法，即一般样本多的一类称为大类或负类，样本少的一类称为小类或正类；若存在正类大于负类的情况，将两类的标签交换即可，在本实施例中，一说负类就是指样本多的一类，正类指样本少的一类。

步骤2：利用分类器和加权k近邻确定安全伪标注样本，具体为：

首先，利用分类器(在本实施例中采用决策树分类器)获得Unlabel集中每个无标注样本的伪标签和后验概率，具体为：利用每个平衡的有标注样本子集B_i训练分类器（可选择常用的分类方法，如决策树、支持向量机等），然后利用该分类器对Unlabel集中的每个无标注样本x进行分类（在征信风险评估中，其分类类别设置为高风险征信用户和低风险征信用户），得到无标注样本的伪标签（该伪标签对应于获得的分类类别，即高风险征信用户和低风险征信用户）和分类为每个类别的后验概率。注：获得伪标签后的无标注样本称为伪标注样本。

其次，利用加权k近邻获得Unlabel集中每个无标注样本的伪标签和后验概率，具体为：计算Unlabel集中每个无标注样本x在所有样本（包括有标注样本集Bi和无标注样本集Unlabel中的样本）中的k近邻x_i（i=1,2,...,k），假设k=5，通过如下方式判断每个无标注样本x的伪标签和后验概率：

（1）若k个近邻样本中有标注样本，且这些标注样本的类别标签（即样本中的用户在征信风险评估中用户对应的征信风险等级）是相同的，则把该标签作为无标注样本x的伪标签，属于该类别标签的后验概率为1，属于另一类别标签的后验概率为0。

（2）若k个近邻样本中有标注样本，但是它们的类别标签（即征信风险等级）不同，则无标注样本x的类别通过加权近邻的方式确定，计算该无标注样本x到k个近邻中有标注样本x_i的欧式距离d，然后通过公式（1）计算每个有标注样本x_i对x的权重w_i：

（1）

其中，d表示两个样本的欧式距离，LNN(x)表示无标注样本x的k近邻中有标注样本构成的集合。然后，对属于同类的近邻样本的权重求和，即得到无标注样本x属于每个类别的后验概率，该无标注样本的伪标签为和值较大的那个类别。

（3）若k个近邻中无标注样本，则该无标注样本x不赋予类别标签（即征信风险等级），属于两类的后验概率都为0。

最后，确定安全伪标注样本及其后验概率，具体为：利用上述两种方式得到的无标注样本的伪标签若相同，则该伪标注样本为安全伪标注样本，属于每类的后验概率为两种方式分别得到的后验概率的均值。

步骤3：使用基于聚类的自步学习选择伪标注样本，具体为：

首先，计算每个安全伪标注样本x的难度值即当前分类器（即利用B_i训练得到的分类器）对x进行分类后的交叉熵，如公式（2）所示：

（2）

其中，是安全伪标签样本x的伪标签，0表示该样本属于负类（大类），1表示该样本属于正类（小类），p ₁表示x属于正类的后验概率。

其次，确定每个安全伪标注样本所属的簇，具体为：在初始的正样本集Pos和负样本集Neg中分别进行聚类，采用kmeans聚类方法，假设每个类别的样本分别聚类为m簇，正类中m个簇中心分别记为，负类中m个簇中心分别记为/>。每个安全伪标注样本x所属的簇为与x的伪标签相同且到该类簇中心欧式距离最小的那个簇，如公式（3）所示：

（3）

其中，y为安全伪标注样本x的伪标签，c表明是正类还是负类。

最后，从每簇中按照难度值从小到大的顺序选择一定数量的安全伪标注样本，假设该数量为，/>为每类选择的安全伪样本数，如公式（4）所示：

（4）

其中，t表示当前迭代次数，u是初始无标注样本集Unlabel中样本的数量，r为不平衡数据集的不平衡比，为Neg集中样本数量除以Pos集中样本数量的比值，T为总迭代次数。

步骤4：把所有簇选择的安全伪标注样本加入到B_i中，得到增强的平衡样本子集（共有n个）；同时把已选择的安全伪标注样本从无标注集Unlabel中删除，得到新的有标注样本集（即增强后的平衡样本集）和无标注样本集（即删减后的无标注样本集）。

步骤5：上述步骤2-步骤4迭代T次，得到最后的有标注样本集（共n个），利用最后的有标注样本集训练基分类器，并利用多数投票机制集成这n个基分类器，得到最终的集成分类器。

在具体实施中，所述基分类器采用决策树分类器，所述多数投票机制具体为：利用n个预先训练的基分类器对某个样本进行分类，得到该样本的n个预测类别，该样本的最终类别是n个预测类别中占多数的那个类别。

进一步的，在另一实施例中，将一种面向不平衡数据的自步半监督集成分类器训练方法应用于医疗领域中，具体的，根据肿瘤图像判断良恶性，恶性肿瘤占少数，属于正类或小类，良性肿瘤占多数，属于负类或大类。

首先，提取肿瘤图像特征，包括从医院的数字成像仪器上得到的关于肿瘤的大小、形状、位置、钙化等信息，也可以根据现有的机器学习特征提取方法如方向梯度直方图（HOG）或深度卷积神经网络等提取得到的肿瘤图像的形态学或纹理等特征。少量肿瘤图像特征及其良恶性标签构成有标注样本集，大量无良恶性标签的肿瘤图像特征构成无标注样本集，有标注样本集和无标注样本集构成初始的不平衡数据集。

基于上述不平衡数据集，作为本实施例所述一种面向不平衡数据的自步半监督集成分类器训练方法的初始数据，并执行上述步骤1至步骤5，实现集成分类器的训练。

可以理解的，本实施例所述方法中利用的不平衡数据，对于不同应用场景获取数据的方式不同，获取的样本特征不同，理论上本实施例所述方案可以应用于不同的应用场景下的不平衡数据。

实施例二：

本实施例的目的是提供一种面向不平衡数据的自步半监督集成分类器训练系统。

一种面向不平衡数据的自步半监督集成分类器训练系统，包括：

进一步的，本实施例所述系统与实施例一中所述方法相对应，其技术细节在实施例一中已经进行了详细说明，故此处不再赘述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，包括：

2.如权利要求1所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，所述基于不平衡数据集获取平衡有标注样本子集，具体为：从不平衡数据集的负样本中随机选择与正样本数量一致的样本，将获得的样本与不平衡数据集中的正样本进行组合，获得平衡有标注样本。

3.如权利要求1所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，分别基于预先训练的分类器以及加权K近邻方法对不平衡数据集中的无标注样本进行分类，其中，所述分类器分别利用获得的若干平衡有标注样本子集进行训练，通过训练好的分类器获得无标注样本的伪标签及其对应的后验概率。

4.如权利要求1所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，基于加权K近邻方法对不平衡数据集中的无标注样本进行分类，具体为：计算每个无标注样本在整个样本集中的K个近邻样本；其中整个样本包括平衡有标注样本子集和无标注样本集；基于无标注样本对应的K个近邻样本的标注情况进行无标注样本的分类。

5.如权利要求4所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，基于无标注样本对应的K个近邻样本的标注情况进行无标注样本的分类，具体为：当无标注样本的K个近邻样本中存在标注样本，且标注标签一致，则以该标签作为无标注样本的伪标签，且该伪标签的后验概率为1；当K个近邻样本中存在标注样本且标注标签不同，则通过邻近样本中有标注样本的加权求和确定无标注样本所属类别的后验概率，并选择后验概率最大的类别作为无标注样本的伪标签；当K个近邻样本中不存在标注样本，则当前无标注样本不赋予伪标签。

6.如权利要求5所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，所述通过邻近样本中有标注样本的加权求和确定无标注样本所属类别的后验概率，具体为：计算当前无标注样本到K个近邻样本中有标注样本的距离，并基于所述距离计算每个有标注样本对当前无标注样本的权重，通过权重求和确定当前无标注样本属于不同类别的后验概率。

7.如权利要求1所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，基于分类器与加权K近邻方法的分类结果，确定安全伪标注样本，具体为：对于无标注样本，若基于分类器与加权K近邻方法获得的伪标签相同，则该样本为安全伪标注样本，该样本对类别的后验概率为基于分类器与加权K近邻方法的分类结果对应后验概率的均值。

8.如权利要求1所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，基于安全伪标注样本所属簇以及对应的难度值，从每个平衡有标注样本子集对应的安全伪标注样本中选择预设数量的安全伪标注样本；具体为：以分类器对安全伪标注样本进行分类的交叉熵作为安全伪标注样本的难度值；对不平衡数据集的初始有标注样本集中的正样本集和负样本集分别进行聚类，分别获得若干簇中心；基于安全伪标注样本到各个簇中心的距离，对所有的安全伪标注样本划分为若干簇；从每个簇中按照安全伪标注样本的难度值选择预设数量的安全伪标注样本。

9.如权利要求1所述的一种面向不平衡数据的自步半监督集成分类器训练方法，其特征在于，所述通过对若干基分类器进行集成，实现集成分类器的训练，具体采用多数投票机制将若干基分类器进行集成。

10.一种面向不平衡数据的自步半监督集成分类器训练系统，其特征在于，包括：