CN112818791A

CN112818791A - 一种二级筛选模式融合校验的协同式半监督算法

Info

Publication number: CN112818791A
Application number: CN202110096596.XA
Authority: CN
Inventors: 季晓玮; 杨强; 李佳明; 张鑫
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-18

Abstract

一种二级筛选模式融合校验的协同式半监督算法。训练基础分类器；使用多种主动学习策略对未标记样本进行挑选，再分别运用多种聚类算法进行聚类，从而形成二级筛选模式。对每一种二级筛选模式挑选完的样本进行标记并更新有标签样本集；分别用每一种二级筛选模式挑选出的有标记样本训练对应的校验分类器；将训练好的多个校验分类器与基础分类器对未标记样本与伪标签样本进行分类，比较基础分类器与多个校验分类器对每一个未标记样本与伪标签样本的分类结果；当分类结果一致时，将此未标记样本贴上伪标签并放入到伪标签样本集，当分类结果不一致时，将此未标记样本放回未标记样本集中，继续迭代；当达到设定迭代次数，得到训练好的分类框架。

Description

一种二级筛选模式融合校验的协同式半监督算法

技术领域

本发明属于复杂环境下遥感图像的目标分类领域，涉及一种多模式融合校验的协同式半监督算法，具体涉及一种遥感图像背景下二级筛选模式融合校验的协同式半监督算法。

背景技术

遥感是远距离目标或自然现象的检测技术，它并不与地物进行直接接触。遥感可以根据收集到的电磁波来确定地物的种类及一些自然现象。所有物体因为其类别，所处环境条件等因素对电磁波的反射存在差异。高光谱分辨率遥感能够获取特定物体信息依据基础是测谱学，具体表现形式为众多窄波段的电磁波的处理与分析来感知物体信息。高光谱图像具有无法比拟的优势，它所拥有的超高分辨率能够直接解决多光谱无法解决的问题。如在军事侦察中的真/假目标识别，战场姿态评估等。高光谱还有一个重要的特点就是“图谱合一”技术，其图像不仅能够在二维平面进行地物的刻画，而且得益于大量的波段数，使得高光谱图像更像一个三维的“超级立方体”。因此，三维的图像数据对高光谱技术关于地物的精确判断提供了很大的帮助。分类技术是高光谱图像处理技术中最广泛应用的技术之一。其目的是给图像中的每个像元赋予一个唯一标识，也就是传统意义上的类别标识。

有监督分类算法更多的依赖于有标记训练样本的信息量，即训练集中有标记样本的数量与分布。而大量的有标记样本是难以获取的，普通人对于遥感图像的标注是有局限性的，这些都会导致训练样本的缺失，进一步导致提升分类性能受限。解决方法之一是专家进行训练样本的标注，但这需要耗费极大的人工成本。因此，如何使用尽可能少的有标记样本使分类器具有优秀的分类性能成为国内外科研工作者的重要研究任务之一。

近些年来，半监督算法在高光谱数据集上的成功使得越来越多的学者将工作重心偏向于此。一方面半监督学习可以缓解标记样本缺失的问题，但另一方面可能会出现伪标签的不正确标记导致“污染”样本的出现，不但起不到辅助分类器的作用，反而会使分类器恶化。因此，如何正确的挑选具有辅助信息量的伪标签也成为了半监督学习过程中一个必须解决的问题。在近期已提出的研究中，例如Collaborative Active and Semi-supervised Learning(CASSL)算法无法保证在半监督学习过程中正确地挑选具有辅助信息量的伪标签样本，同时也存在校验模型的性能过于依赖于初始有标记样本的问题，如果初始化有标记样本没有包含此数据集中所有类别的样本将很难训练出高效的分类器。在此前提出的协同式半监督算法中，置信度阈值的选定是确定分类效果的关键，过低的阈值会导致大量的低置信度的样本混入，导致所训练的模型无法正确分类。而置信度设置过高时，符合阈值的样本较少，模型无法获取足够的信息学习，导致模型性能较差，整体分类精度较低。

发明内容

本发明的目的是为了解决CollaborativeActive and Semi-supervisedLearning算法使用单一的主动学习策略降低了模型的差异性从而导致了伪标签的可靠程度降低的问题，以及CASSL算法停止条件过于依赖校验模型的可靠性，算法过早的截止和收敛严重影响到分类结果的问题，提供了一种二级筛选模式融合校验的协同式半监督算法，本发明提出将性能较好二级筛选模式嵌入到协同式半监督算法中，挑选多种类且最具有代表性的样本，提高分类器的泛化能力从而获得较高的分类精度。在算法融合这一过程中，选择不同且具有良好性能的算法，然后将差异化的算法整合。将本发明提出的算法运用到了在初始有标记样本稀少情况下的遥感图像目标分类中，也可以运用于其他图像的分类。

为实现上述目的，本发明采取的技术方案如下：

一种二级筛选模式融合校验的协同式半监督算法，所述方法包括如下步骤：

步骤一：设置好数据集中训练集，未标记样本集U与初始化伪标签样本集S_pseudo，设定算法的迭代次数与每次迭代中选取的代表性样本的数量，分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比；

步骤二：选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本，分别用三种不同的聚类算法进行聚类，构成三种不同的二级筛选模式，按设置好的权重参数选出相应数量的代表性样本，检查在一次迭代中，不同的二级筛选模式是否选择了相同的候选样本，而为达到每次迭代需求，则需要运用跳变因子R来补充；

步骤三：将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签，同时放入有标记样本集中，训练基础分类器，然后更新有标记样本集和未标记样本集；

步骤四：用基础分类器对未标记样本集和伪标签样本集进行分类，得到标签Label₁，用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器，三种二级筛选模式对应训练三个校验分类器；

步骤五：对未标记样本和伪标签样本使用3个校验分类器预测分类，获取3个预测标签，分别为Label_{2_c1}，Label_{2_c2}，Label_{2_c3}；

步骤六：比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签，即比较Label₁，Label_{2_c1}，Label_{2_c2}，Label_{2_c3}的结果是否相同，如果所有的类别标签结果相同，将此样本投入到伪标签样本集中，更新未标记样本集和伪标签样本集，如果有标签结果不相同，将此样本放回到未标记样本中，继续迭代，直到达到预设的迭代次数。

本发明相比于现有技术的有益效果为：

即使在初始有标记样本较少的情况下，本发明的校验模型的性能不会完全依赖于初始有标记样本。同时，本发明设置恰当的置信度阈值，通过多模式融合提升分类器的泛化性，避免算法过早的截止和收敛，能够快速地得到理想的分类性能，增强了算法的鲁棒性。

在相同设定的实验环境和实验数据下，本发明能够使用较少的时间成本、获取更理想的目标样本分类精度，同时提出的算法鲁棒性较强。当采用多种分类器组成验证分类器组时会获得更好的分类效果，此算法解决了阈值设置不当导致的算法过早收敛的现象。

附图说明

图1为二级筛选模式融合校验的协同式半监督算法框图；

图2为本发明一种应用实例的原始遥感图像结果图；

图3为本发明一种应用实例的CASSL算法分类结果图；

图4为本发明一种应用实例的SFMFVCSA算法分类结果图；

图5为本发明方法流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，下面结合实例以及附图对本发明的技术方案作进一步的说明，本发明提供了多模式融合校验的协同式半监督算法，但并不局限于用于高光谱图像中的目标分类，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。为使本发明的目的、技术方案及优点更加清楚明白，以下结合实例，对本发明进行进一步的详细说明，此处所描述的具体实例仅用于解释本发明，并不用于限定发明。

具体实施方式一：本实施方式记载的是一种二级筛选模式融合校验的协同式半监督算法，所述方法包括如下步骤：

步骤二：选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本，提高分类器的泛化能力从而获得较高的分类精度，然后，分别用三种不同的聚类算法进行聚类，构成三种不同的二级筛选模式，按设置好的权重参数选出相应数量的代表性样本，保证所选样本的多样性；检查在一次迭代中，不同的二级筛选模式是否选择了相同的候选样本，为达到每次迭代需求，则需要运用跳变因子R来补充；性能好坏与具体的数据集和实验设置的初始条件有关，在本发明使用的数据集和设置的实验初始条件中，OA精度大于85％属于性能较好。

具体实施方式二：具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法，所述步骤一具体为：

(1)确定每轮迭代时待标记样本的总数N；

(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量，三种二级筛选模式分别对应着不同的主动学习算法，每种主动学习算法挑选样本的数量可以相同也可不同；

(3)分别将三种主动学习算法挑选样本的数量记为h₁，h₂，h₃，并且满足H＝h₁+h₂+h₃；其中，H代表在一次迭代中所有的主动学习算法挑选的信息量较大的未标记样本总数；

(4)通过不同的聚类算法分别对三种不同的主动学习算法挑选的样本进行聚类，通过聚类形成的簇的数量分别为m₁，m₂，m₃，其中m₁，m₂，m₃占总数N的比例定义为权重系数，从而，每一种二级筛选模式挑选出的样本数量分别定义为m₁，m₂，m₃,并满足N＝m₁+m₂+m₃。

具体实施方式三：具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法，所述步骤二，步骤三的具体步骤为：先用主动学习算法按照样本不确定度的大小(即样本信息量的大小，不确定度代表信息量，越不确定的样本越有价值)进行排序，按照预先设定的参数值挑选排在前列，即富含信息量的样本；用聚类算法对挑选出的样本进行聚类，再从每一个的簇中挑选一个样本，第一种主动学习算法V₁对未标记样本按照信息量大小进行排列，组成L_A有序列表，挑选m₁个有价值且分布在不同簇的未标记样本

这m₁个有价值的未标记样本索引为N_A，x_k表示此未标记样本集中的一个未标记样本，k表示样本编号；第二种主动学习算法V₂对未标记样本按照信息量大小进行排列，组成L_B有序列表，挑选m₂个未标记样本

这m₂个有价值且分布在不同簇的未标记样本索引为N_B，第三种主动学习算法V₃对未标记样本按照信息量大小进行排列，组成L_C有序列表，挑选m₃个未标记样本

这m₃个有价值且分布在不同簇的未标记样本索引为N_C，N＝m₁+m₂+m₃构成最终的待标记样本，二级筛选模式保证挑选出的样本具有代表性与多样性；在每一次迭代时，将三种二级筛选模式选出的样本进行融合，如果有二级筛选模式在一次迭代中挑中同一个样本，即N_A∩N_B≠φorN_B∩N_C≠φorN_A∩N_C≠φ，则采用预先设定的跳变因子R来进行补充，Rindex＝Random(L_A-N×W_a，L_B-N×W_b，L_c-N×W_c)，W_a、W_b和W_c分别为MCLU-KM算法、nEQB-HC算法和anEQB-KM算法的权重参数，即在算法一次迭代的情况下，每个算法贡献样本的个数占此次迭代挑选样本总数的比重；跳变因子R随机挑选三种二级筛选模式中排名靠前却未选择的样本作为补充；由此在满足设定每次迭代选择的样本数量后，再融合三种二级筛选模式挑选的样本与跳变因子，并对它们进行标记；在算法融合这一过程中，要选择不同且具有良好性能的算法，将差异化的算法整合，然后，将标记好的样本放入有标记样本集中，用于训练基础分类器，此时，训练基础分类器的样本由多种二级筛选模式算法挑选，能够更加准确的找出有代表性的样本，提高分类器的泛化性能与分类精度。

具体实施方式四：具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法，所述步骤四具体步骤为：此算法选用三种不同的二级筛选模式，在算法流程中，由三种二级筛选模式同时训练对应的校验分类器，并同时得到类别标签，不同的二级筛选模式所训练的分类器的性能会有所差异，各自的优势互补有助于提升后续样本的分类精度。

具体实施方式五：具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法，所述步骤五具体步骤为：对所有未标记样本和伪标签样本使用3个校验分类器预测分类，获得类别标签，在每一次迭代时，同时获取3个预测标签，分别为Label_{2_c1}，Label_{2_c2}，Label_{2_c3}，其中三个检验分类器可以是同种分类器，也可以是不同种分类器。

具体实施方式六：具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法，所述步骤六具体步骤为：比较每一个未标记样本和伪标签样本x_i由基础分类器和三个校验分类器获得到的类别标签，即比较Label₁，Label_{2_c1}，Label_{2_c2}，Label_{2_c3}的类别标签是否相同，如果所有的类别标签结果相同，即

说明此未标记样本符合算法设定的条件，将此样本投入到伪标签样本集中，更新未标记样本集和伪标签样本集，如果有标签结果不相同，即

说明此未标记样本不符合算法设定的条件，将此样本放回到未标记样本集中。

如图1所示，二级筛选模式融合校验的协同式半监督算法分别用不同的主动学习算法来挑选最具有代表性的样本。然后，分别用不同的聚类算法进行聚类，保证所选样本的多样性，更好的训练校验分类器，提高分类器的泛化能力从而获得较高的分类精度。对于算法融合这一过程，应该选择不同且具有良好性能的算法，然后将差异化的算法整合。在实际算法设置中，本发明选择多类别不确定度采样算法，正则化熵值装袋查询算法和均值正则化熵值装袋算法，与K-means聚类算法和层次聚类算法分别相结合。形成的二级筛选模式分别为MCLU-KM、nEQB-HC以及anEQB-KM。这三种二级筛选模式在选择样本的角度具有差异。使用算法融合策略挑选样本就是在每一次迭代中通过不同的侧重点，即运用不同的算法选出最有价值的待标记样本，之后进行比例分配。具体来讲，假设每次迭代中待标记的样本个数为N，MCLU-KM算法挑选出的样本个数为A个，nEQB-HC算法挑选出的样本个数为B个，anEQB-KM算法挑选出的样本个数为C个，且满足下面的等式关系：

A＝N×W_a (1)

B＝N×W _b (2)

C＝N×W_c (3)

N＝AU BU C+R (4)

首先确定其中W_a、W_b和W_c分别为MCLU-KM算法、nEQB-HC算法和anEQB-KM算法的权重参数，即每种算法所挑选的样本数量占每次迭代待标记样本数量N的比重，R是随机跳变因子，若A I B≠φorB I C≠φorAI C≠φ，即存在两种或三种二级筛选模式同时挑选同一个最具价值的样本，会产生被选样本空缺，无法满足一次迭代要标记N个样本的要求，所以要随机挑选符合条件的有价值样本作为补充。要强调的是，不是每一次迭代都需要补充，所以R不会在每次迭代中出现，要根据每次策略选取样本的结果来确定。此算法继承了集成模型的简易特点，不会增加太多时间成本。

然后，根据不同策略挑选出的样本进行人工标记，添加到有标签集中，分别训练三个校验分类器，这时候的三个校验模型因为不同策略的选择导致所选样本分布差异较大，训练出的模型将放大差异性。第三步，将伪标签样本集和未标记样本集中的样本分别使用基础分类器以及三个校验分类器进行预测标记获得预测标签，当所有分类器对待分类样本的判断保持一致时，算法认为该样本可靠性符合标准，形成新的伪标签样本，同样，只要四个分类器对样本判断结果不一致，则代表存在异议，那么这个样本则会被重新投入到未标记样本中，进行下次迭代。

在二级筛选模式融合校验的半监督协同式算法中，首先使用不同的主动学习算法挑选信息量较大的样本，再分别采用多种聚类方法进行聚类，由此挑选出不同种类的样本，之后进入融合模式。这个过程保证了所挑选样本的种类多样性与代表性。有助于后续分类性能的提升，同时会增强算法的鲁棒性。

实施例1：

一种二级筛选模式融合校验的协同式半监督算法，包括如下步骤：

步骤1：读取图像数据，根据实验的具体要求，将数据划分为训练集和测试集，在每个类别的数据中选出少量样本，贴上标签作为初始标记样本。

步骤2：输入：

初始化训练集：

x_i表示初始化训练集的样本；y_i表示样本对应的类别标签，i表示样本的编号，l表示初始化训练集样本的数量；

未标记样本集：

x_j表示未标记样本；j表示样本的编号、u表示未标记样本集样本的数量；

初始化伪标签样本集：S_pseudo＝φ

初始化迭代次数：t＝0

设定迭代次数：T

设定三个不同的二级筛选模式挑选标记样本个数分别为：m₁，m₂，m₃

设定每轮迭代时待标记样本的总数：N

步骤3：挑选三种性能优异的二级筛选模式：Q₁,Q₂，,Q₃

三个性能优异的主动学习算法：V₁,V₂,V₃

三个性能优异的聚类算法：P₁，P₂，P₃

while：sizeof(U)≥10and t＜T：

步骤4：使用S_pseudo U L训练基础分类器

步骤5：使用基础分类器对U分类，使用主动学习算法V₁选出最有价值的未标记样本，并组成L_A有序列表，经过聚类算法P₁进行聚类，形成二级筛选模式Q₁，挑选出m₁个未标记样本，构成未标记样本集

这m₁个有价值的未标记样本索引为N_A。使用主动学习算法V₂选出最有价值的未标记样本并组成L_B有序列表，经过聚类算法P₂进行聚类，形成二级筛选模式Q₂，挑选出m₂个未标记样本，构成未标记样本集

这m₂个有价值的未标记样本索引为N_B。使用主动学习算法V₃选出最有价值未标记样本并组成L_C有序列表，经过聚类算法P₃进行聚类，形成二级筛选模式Q₃，挑选出m₃个未标记样本，构成未标记样本集

这m₃个有价值的未标记样本索引为N_C。满足N＝m₁+m₂+m₃。

步骤6：If N_A∩N_B≠φorN_B∩N_C≠φorN_A∩N_C≠φ

R＝Number(N-A∪B∪C)即不同的主动学习算法选择了相同的候选样本，而为达到每次迭代需求，则需要运用跳变因子R来补充Rindex＝Random(L_A-N×W_a，L_B-N×W_b，L_c-N×W_c)随机挑选Q₁，Q₂，Q₃策略中排名靠前却未选择的样本。

else：R＝0

步骤7：将选择的未标记样本人工贴上标签，然后更新标签集如下：

表示由二级筛选模式Q₁挑选的未标记样本在贴上标签后构成的有标签样本集；

表示由二级筛选模式Q₂挑选的未标记样本在贴上标签后构成的有标签样本集；

表示由二级筛选模式Q₃挑选的未标记样本在贴上标签后构成的有标签样本集；

步骤8：对集合U＝U∪S_Pseudo使用基础分类器预测分类，获取预测标签为Label₁。

步骤9：使用

训练校验分类器1，使用

训练校验分类器2，使用

训练校验分类器3。

步骤10：对集合U＝U∪S_Pseudo使用校验分类器1预测分类，获取预测标签为Label_{2_c1}。对集合U＝U∪S_Pseudo使用校验分类器2预测分类，获取预测标签为Label_{2_c2}。对集合U＝U∪S_Pseudo使用校验分类器3预测分类，获取预测标签为Label_{2_c3}。

步骤11：If：

更新伪标签样本集：S_pseudo

Else：

更新未标记样本集：U

步骤12.迭代次数递增t＝t+1

While sizeof(U)＜10or t≥T:

Return:TrainedModel

应用例1：

为了验证本发明对图像分类的效果，我们将此算法运用在复杂的高光谱图像中进行验证讨论。参照图2，采用图像尺寸是145×145，空间分辨率是20m的原始遥感图像，印第安纳州(Indianpines)实验区的高光谱图像。为了突出本发明的方法对遥感图像的分类的优越性，采用原始的CASSL算法进行对比。图3是运用CASSL算法得到的分类结果图，图4是运用本发明提出的SFMFVCSA算法得到的分类结果图。

SFMFVCSA框架每次迭代挑选10个样本对其标记，在使用二级筛选模式融合时，每一种策略具体贡献的样本数一定会对实验结果产生影响。为了保证融合策略算法的多样性和每种策略所占比重的差异性，首先定义MCLU-KM算法的权重参数为W_a，nEQB-HC算法的权重参数为W_b，anEQB-KM算法的权重参数为W_c。设计了几组权重参数来探讨权重比对分类性能的影响，分别为(W_a＝0.6,W_b＝0.2,W_c＝0.2；W_a＝0.4,W_b＝0.3,W_c＝0.3；W_a＝0.2,W_b＝0.4,W_c＝0.4)。以整体分类精度(OA)作为对比指标，权重与人工标记成本间的关系如表格1所示。在表1中可以发现，权重参数设定为W_a＝0.4,W_b＝0.3,W_c＝0.3的SFMFVCSA算法的分类效果最好，并在今后的迭代过程中，一直保持着最好的分类效果。所以在后续Indianpines数据集的实验中采用W_a＝0.4,W_b＝0.3,W_c＝0.3的参数设定。

表1 Indianpines数据集下不同权重参数的SFMFVCSA算法在不同数量的标记样本下OA精度比较表

表2在Indian pines数据集下对比算法在不同数量的标记样本下OA精度与标准差的比较表

从图3与图4的分类结果对比图与表2各个算法的OA精度与标准差的对比中可以看出，两种方法均有较好的分类结果，本发明提出的SFMFVCSA算法有较好的分类效果。同时，本发明提出的算法均有较小的标准差，这说明SFMFVCSA算法的稳定性较好，能够保持较好的分类结果。

应用例2：

为了验证本发明的方法对遥感图像的分类效果，采用空间分辨率为18m，图像大小是512×614的肯尼迪航天中心的高光谱遥感图像进行分类。实验框架每次迭代选择样本数与各算法的权重参数设置与应用例1中的设置相同。在SFMFVCSA框架中，权重参数设置为W_a＝0.6,W_b＝0.2,W_c＝0.2能在整体迭代的过程中获得最好的分类效果。所以在后面的算法性能比较中，我们将权重参数设置为W_a＝0.6,W_b＝0.2,W_c＝0.2。

表4 KSC数据集下不同权重参数的SFMFVCSA算法在不同数量的标记样本下OA精度比较表

同样采用原始的CASSL算法作为对比参照。如表格5可以看出两种方法均有较好的分类结果，两者之间相比，本发明二级筛选模式融合校验的协同式半监督算法SFMFVCSA获得了更理想的分类结果，遥感图像的整体分类精度更高，标准差较小，说明算法的性能稳定性较好，鲁棒性较强。

表5在KSC数据集下对比算法在不同数量的标记样本下OA精度与标准差的比较表

同时，通过表6可以看出在相同的实验条件下，设定相同的迭代次数，本发明提出的算法需要最少的时间成本。由此可以判断，本发明提出的算法，二级筛选模式融合校验的协同式半监督算法SFMFVCSA可以在较短的时间内完成迭代，也获得了较好的分类结果。

表6在不同数据集下算法的运行时间对比表

Claims

1.一种二级筛选模式融合校验的协同式半监督算法，其特征在于：所述方法包括如下步骤：

步骤二：选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本，分别用三种不同的聚类算法进行聚类，构成三种不同的二级筛选模式，按设置好的权重参数选出相应数量的代表性样本，检查在每次迭代中，不同的二级筛选模式算法是否选择了相同的候选样本，而为达到每次迭代需求，则需要运用跳变因子R来补充；

2.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤一具体为：

(1)确定每轮迭代时待标记样本的总数N；

(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量，三种二级筛选模式分别对应着不同的主动学习算法；

3.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤二，步骤三的具体步骤为：先用主动学习算法按照样本不确定度的大小进行排序，按照预先设定的参数值挑选排在前列，即富含信息量的样本；用聚类算法对挑选出的样本进行聚类，再从每一个的簇中挑选一个样本，第一种主动学习算法V₁对未标记样本按照信息量大小进行排列，组成L_A有序列表，挑选m₁个有价值且分布在不同簇的未标记样本

这m₃个有价值且分布在不同簇的未标记样本索引为N_C，N＝m₁+m₂+m₃构成最终的待标记样本，二级筛选模式保证挑选出的样本具有代表性与多样性；在每一次迭代时，将三种二级筛选模式选出的样本进行融合，如果有二级筛选模式在一次迭代中挑中同一个样本，即N_A∩N_B≠φorN_B∩N_C≠φorN_A∩N_C≠φ，则采用预先设定的跳变因子R来进行补充，Rindex＝Random(L_A-N×W_a，L_B-N×W_b，L_c-N×W_c)，W_a、W_b和W_c分别为MCLU-KM算法、nEQB-HC算法和anEQB-KM算法的权重参数，即在算法一次迭代的情况下，每个算法贡献样本的个数占此次迭代挑选样本总数的比重；跳变因子R随机挑选三种二级筛选模式中排名靠前却未选择的样本作为补充；由此在满足设定每次迭代选择的样本数量后，再融合三种二级筛选模式挑选的样本与跳变因子，并对它们进行标记；在算法融合这一过程中，要选择不同且具有良好性能的算法，将差异化的算法整合，然后，将标记好的样本放入有标记样本集中，用于训练基础分类器，此时，训练基础分类器的样本由多种二级筛选模式算法挑选。

4.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤四具体步骤为：此算法选用三种不同的二级筛选模式，在算法流程中，由三种二级筛选模式同时训练对应的校验分类器，并同时得到类别标签。

5.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤五具体步骤为：对所有未标记样本和伪标签样本使用3个校验分类器预测分类，获得类别标签，在每一次迭代时，同时获取3个预测标签，分别为Label_{2_c1}，Label_{2_c2}，Label_{2_c3}。

6.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法，其特征在于：所述步骤六具体步骤为：比较每一个未标记样本和伪标签样本x_i由基础分类器和三个校验分类器获得到的类别标签，即比较Label₁，Label_{2_c1}，Label_{2_c2}，Label_{2_c3}的类别标签是否相同，如果所有的类别标签结果相同，即

说明此未标记样本不符合算法设定的条件，将此样本放回到未标记样本中。