CN112818791A - 一种二级筛选模式融合校验的协同式半监督算法 - Google Patents

一种二级筛选模式融合校验的协同式半监督算法 Download PDF

Info

Publication number
CN112818791A
CN112818791A CN202110096596.XA CN202110096596A CN112818791A CN 112818791 A CN112818791 A CN 112818791A CN 202110096596 A CN202110096596 A CN 202110096596A CN 112818791 A CN112818791 A CN 112818791A
Authority
CN
China
Prior art keywords
samples
sample
algorithm
secondary screening
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110096596.XA
Other languages
English (en)
Inventor
季晓玮
杨强
李佳明
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110096596.XA priority Critical patent/CN112818791A/zh
Publication of CN112818791A publication Critical patent/CN112818791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种二级筛选模式融合校验的协同式半监督算法。训练基础分类器;使用多种主动学习策略对未标记样本进行挑选,再分别运用多种聚类算法进行聚类,从而形成二级筛选模式。对每一种二级筛选模式挑选完的样本进行标记并更新有标签样本集;分别用每一种二级筛选模式挑选出的有标记样本训练对应的校验分类器;将训练好的多个校验分类器与基础分类器对未标记样本与伪标签样本进行分类,比较基础分类器与多个校验分类器对每一个未标记样本与伪标签样本的分类结果;当分类结果一致时,将此未标记样本贴上伪标签并放入到伪标签样本集,当分类结果不一致时,将此未标记样本放回未标记样本集中,继续迭代;当达到设定迭代次数,得到训练好的分类框架。

Description

一种二级筛选模式融合校验的协同式半监督算法
技术领域
本发明属于复杂环境下遥感图像的目标分类领域,涉及一种多模式融合校验的协同式半监督算法,具体涉及一种遥感图像背景下二级筛选模式融合校验的协同式半监督算法。
背景技术
遥感是远距离目标或自然现象的检测技术,它并不与地物进行直接接触。遥感可以根据收集到的电磁波来确定地物的种类及一些自然现象。所有物体因为其类别,所处环境条件等因素对电磁波的反射存在差异。高光谱分辨率遥感能够获取特定物体信息依据基础是测谱学,具体表现形式为众多窄波段的电磁波的处理与分析来感知物体信息。高光谱图像具有无法比拟的优势,它所拥有的超高分辨率能够直接解决多光谱无法解决的问题。如在军事侦察中的真/假目标识别,战场姿态评估等。高光谱还有一个重要的特点就是“图谱合一”技术,其图像不仅能够在二维平面进行地物的刻画,而且得益于大量的波段数,使得高光谱图像更像一个三维的“超级立方体”。因此,三维的图像数据对高光谱技术关于地物的精确判断提供了很大的帮助。分类技术是高光谱图像处理技术中最广泛应用的技术之一。其目的是给图像中的每个像元赋予一个唯一标识,也就是传统意义上的类别标识。
有监督分类算法更多的依赖于有标记训练样本的信息量,即训练集中有标记样本的数量与分布。而大量的有标记样本是难以获取的,普通人对于遥感图像的标注是有局限性的,这些都会导致训练样本的缺失,进一步导致提升分类性能受限。解决方法之一是专家进行训练样本的标注,但这需要耗费极大的人工成本。因此,如何使用尽可能少的有标记样本使分类器具有优秀的分类性能成为国内外科研工作者的重要研究任务之一。
近些年来,半监督算法在高光谱数据集上的成功使得越来越多的学者将工作重心偏向于此。一方面半监督学习可以缓解标记样本缺失的问题,但另一方面可能会出现伪标签的不正确标记导致“污染”样本的出现,不但起不到辅助分类器的作用,反而会使分类器恶化。因此,如何正确的挑选具有辅助信息量的伪标签也成为了半监督学习过程中一个必须解决的问题。在近期已提出的研究中,例如Collaborative Active and Semi-supervised Learning(CASSL)算法无法保证在半监督学习过程中正确地挑选具有辅助信息量的伪标签样本,同时也存在校验模型的性能过于依赖于初始有标记样本的问题,如果初始化有标记样本没有包含此数据集中所有类别的样本将很难训练出高效的分类器。在此前提出的协同式半监督算法中,置信度阈值的选定是确定分类效果的关键,过低的阈值会导致大量的低置信度的样本混入,导致所训练的模型无法正确分类。而置信度设置过高时,符合阈值的样本较少,模型无法获取足够的信息学习,导致模型性能较差,整体分类精度较低。
发明内容
本发明的目的是为了解决CollaborativeActive and Semi-supervisedLearning算法使用单一的主动学习策略降低了模型的差异性从而导致了伪标签的可靠程度降低的问题,以及CASSL算法停止条件过于依赖校验模型的可靠性,算法过早的截止和收敛严重影响到分类结果的问题,提供了一种二级筛选模式融合校验的协同式半监督算法,本发明提出将性能较好二级筛选模式嵌入到协同式半监督算法中,挑选多种类且最具有代表性的样本,提高分类器的泛化能力从而获得较高的分类精度。在算法融合这一过程中,选择不同且具有良好性能的算法,然后将差异化的算法整合。将本发明提出的算法运用到了在初始有标记样本稀少情况下的遥感图像目标分类中,也可以运用于其他图像的分类。
为实现上述目的,本发明采取的技术方案如下:
一种二级筛选模式融合校验的协同式半监督算法,所述方法包括如下步骤:
步骤一:设置好数据集中训练集,未标记样本集U与初始化伪标签样本集Spseudo,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,检查在一次迭代中,不同的二级筛选模式是否选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子R来补充;
步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签Label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为Label2_c1,Label2_c2,Label2_c3
步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较Label1,Label2_c1,Label2_c2,Label2_c3的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
本发明相比于现有技术的有益效果为:
即使在初始有标记样本较少的情况下,本发明的校验模型的性能不会完全依赖于初始有标记样本。同时,本发明设置恰当的置信度阈值,通过多模式融合提升分类器的泛化性,避免算法过早的截止和收敛,能够快速地得到理想的分类性能,增强了算法的鲁棒性。
在相同设定的实验环境和实验数据下,本发明能够使用较少的时间成本、获取更理想的目标样本分类精度,同时提出的算法鲁棒性较强。当采用多种分类器组成验证分类器组时会获得更好的分类效果,此算法解决了阈值设置不当导致的算法过早收敛的现象。
附图说明
图1为二级筛选模式融合校验的协同式半监督算法框图;
图2为本发明一种应用实例的原始遥感图像结果图;
图3为本发明一种应用实例的CASSL算法分类结果图;
图4为本发明一种应用实例的SFMFVCSA算法分类结果图;
图5为本发明方法流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,下面结合实例以及附图对本发明的技术方案作进一步的说明,本发明提供了多模式融合校验的协同式半监督算法,但并不局限于用于高光谱图像中的目标分类,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。为使本发明的目的、技术方案及优点更加清楚明白,以下结合实例,对本发明进行进一步的详细说明,此处所描述的具体实例仅用于解释本发明,并不用于限定发明。
具体实施方式一:本实施方式记载的是一种二级筛选模式融合校验的协同式半监督算法,所述方法包括如下步骤:
步骤一:设置好数据集中训练集,未标记样本集U与初始化伪标签样本集Spseudo,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,提高分类器的泛化能力从而获得较高的分类精度,然后,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,保证所选样本的多样性;检查在一次迭代中,不同的二级筛选模式是否选择了相同的候选样本,为达到每次迭代需求,则需要运用跳变因子R来补充;性能好坏与具体的数据集和实验设置的初始条件有关,在本发明使用的数据集和设置的实验初始条件中,OA精度大于85%属于性能较好。
步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签Label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为Label2_c1,Label2_c2,Label2_c3
步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较Label1,Label2_c1,Label2_c2,Label2_c3的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
具体实施方式二:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤一具体为:
(1)确定每轮迭代时待标记样本的总数N;
(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量,三种二级筛选模式分别对应着不同的主动学习算法,每种主动学习算法挑选样本的数量可以相同也可不同;
(3)分别将三种主动学习算法挑选样本的数量记为h1,h2,h3,并且满足H=h1+h2+h3;其中,H代表在一次迭代中所有的主动学习算法挑选的信息量较大的未标记样本总数;
(4)通过不同的聚类算法分别对三种不同的主动学习算法挑选的样本进行聚类,通过聚类形成的簇的数量分别为m1,m2,m3,其中m1,m2,m3占总数N的比例定义为权重系数,从而,每一种二级筛选模式挑选出的样本数量分别定义为m1,m2,m3,并满足N=m1+m2+m3
具体实施方式三:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤二,步骤三的具体步骤为:先用主动学习算法按照样本不确定度的大小(即样本信息量的大小,不确定度代表信息量,越不确定的样本越有价值)进行排序,按照预先设定的参数值挑选排在前列,即富含信息量的样本;用聚类算法对挑选出的样本进行聚类,再从每一个的簇中挑选一个样本,第一种主动学习算法V1对未标记样本按照信息量大小进行排列,组成LA有序列表,挑选m1个有价值且分布在不同簇的未标记样本
Figure BDA0002914520880000051
这m1个有价值的未标记样本索引为NA,xk表示此未标记样本集中的一个未标记样本,k表示样本编号;第二种主动学习算法V2对未标记样本按照信息量大小进行排列,组成LB有序列表,挑选m2个未标记样本
Figure BDA0002914520880000052
这m2个有价值且分布在不同簇的未标记样本索引为NB,第三种主动学习算法V3对未标记样本按照信息量大小进行排列,组成LC有序列表,挑选m3个未标记样本
Figure BDA0002914520880000053
这m3个有价值且分布在不同簇的未标记样本索引为NC,N=m1+m2+m3构成最终的待标记样本,二级筛选模式保证挑选出的样本具有代表性与多样性;在每一次迭代时,将三种二级筛选模式选出的样本进行融合,如果有二级筛选模式在一次迭代中挑中同一个样本,即NA∩NB≠φorNB∩NC≠φorNA∩NC≠φ,则采用预先设定的跳变因子R来进行补充,Rindex=Random(LA-N×Wa,LB-N×Wb,Lc-N×Wc),Wa、Wb和Wc分别为MCLU-KM算法、nEQB-HC算法和anEQB-KM算法的权重参数,即在算法一次迭代的情况下,每个算法贡献样本的个数占此次迭代挑选样本总数的比重;跳变因子R随机挑选三种二级筛选模式中排名靠前却未选择的样本作为补充;由此在满足设定每次迭代选择的样本数量后,再融合三种二级筛选模式挑选的样本与跳变因子,并对它们进行标记;在算法融合这一过程中,要选择不同且具有良好性能的算法,将差异化的算法整合,然后,将标记好的样本放入有标记样本集中,用于训练基础分类器,此时,训练基础分类器的样本由多种二级筛选模式算法挑选,能够更加准确的找出有代表性的样本,提高分类器的泛化性能与分类精度。
具体实施方式四:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤四具体步骤为:此算法选用三种不同的二级筛选模式,在算法流程中,由三种二级筛选模式同时训练对应的校验分类器,并同时得到类别标签,不同的二级筛选模式所训练的分类器的性能会有所差异,各自的优势互补有助于提升后续样本的分类精度。
具体实施方式五:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤五具体步骤为:对所有未标记样本和伪标签样本使用3个校验分类器预测分类,获得类别标签,在每一次迭代时,同时获取3个预测标签,分别为Label2_c1,Label2_c2,Label2_c3,其中三个检验分类器可以是同种分类器,也可以是不同种分类器。
具体实施方式六:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤六具体步骤为:比较每一个未标记样本和伪标签样本xi由基础分类器和三个校验分类器获得到的类别标签,即比较Label1,Label2_c1,Label2_c2,Label2_c3的类别标签是否相同,如果所有的类别标签结果相同,即
Figure BDA0002914520880000061
说明此未标记样本符合算法设定的条件,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,即
Figure BDA0002914520880000062
说明此未标记样本不符合算法设定的条件,将此样本放回到未标记样本集中。
如图1所示,二级筛选模式融合校验的协同式半监督算法分别用不同的主动学习算法来挑选最具有代表性的样本。然后,分别用不同的聚类算法进行聚类,保证所选样本的多样性,更好的训练校验分类器,提高分类器的泛化能力从而获得较高的分类精度。对于算法融合这一过程,应该选择不同且具有良好性能的算法,然后将差异化的算法整合。在实际算法设置中,本发明选择多类别不确定度采样算法,正则化熵值装袋查询算法和均值正则化熵值装袋算法,与K-means聚类算法和层次聚类算法分别相结合。形成的二级筛选模式分别为MCLU-KM、nEQB-HC以及anEQB-KM。这三种二级筛选模式在选择样本的角度具有差异。使用算法融合策略挑选样本就是在每一次迭代中通过不同的侧重点,即运用不同的算法选出最有价值的待标记样本,之后进行比例分配。具体来讲,假设每次迭代中待标记的样本个数为N,MCLU-KM算法挑选出的样本个数为A个,nEQB-HC算法挑选出的样本个数为B个,anEQB-KM算法挑选出的样本个数为C个,且满足下面的等式关系:
A=N×Wa (1)
B=N×W b (2)
C=N×Wc (3)
N=AU BU C+R (4)
首先确定其中Wa、Wb和Wc分别为MCLU-KM算法、nEQB-HC算法和anEQB-KM算法的权重参数,即每种算法所挑选的样本数量占每次迭代待标记样本数量N的比重,R是随机跳变因子,若A I B≠φorB I C≠φorAI C≠φ,即存在两种或三种二级筛选模式同时挑选同一个最具价值的样本,会产生被选样本空缺,无法满足一次迭代要标记N个样本的要求,所以要随机挑选符合条件的有价值样本作为补充。要强调的是,不是每一次迭代都需要补充,所以R不会在每次迭代中出现,要根据每次策略选取样本的结果来确定。此算法继承了集成模型的简易特点,不会增加太多时间成本。
然后,根据不同策略挑选出的样本进行人工标记,添加到有标签集中,分别训练三个校验分类器,这时候的三个校验模型因为不同策略的选择导致所选样本分布差异较大,训练出的模型将放大差异性。第三步,将伪标签样本集和未标记样本集中的样本分别使用基础分类器以及三个校验分类器进行预测标记获得预测标签,当所有分类器对待分类样本的判断保持一致时,算法认为该样本可靠性符合标准,形成新的伪标签样本,同样,只要四个分类器对样本判断结果不一致,则代表存在异议,那么这个样本则会被重新投入到未标记样本中,进行下次迭代。
在二级筛选模式融合校验的半监督协同式算法中,首先使用不同的主动学习算法挑选信息量较大的样本,再分别采用多种聚类方法进行聚类,由此挑选出不同种类的样本,之后进入融合模式。这个过程保证了所挑选样本的种类多样性与代表性。有助于后续分类性能的提升,同时会增强算法的鲁棒性。
实施例1:
一种二级筛选模式融合校验的协同式半监督算法,包括如下步骤:
步骤1:读取图像数据,根据实验的具体要求,将数据划分为训练集和测试集,在每个类别的数据中选出少量样本,贴上标签作为初始标记样本。
步骤2:输入:
初始化训练集:
Figure BDA0002914520880000071
xi表示初始化训练集的样本;yi表示样本对应的类别标签,i表示样本的编号,l表示初始化训练集样本的数量;
未标记样本集:
Figure BDA0002914520880000081
xj表示未标记样本;j表示样本的编号、u表示未标记样本集样本的数量;
初始化伪标签样本集:Spseudo=φ
初始化迭代次数:t=0
设定迭代次数:T
设定三个不同的二级筛选模式挑选标记样本个数分别为:m1,m2,m3
设定每轮迭代时待标记样本的总数:N
步骤3:挑选三种性能优异的二级筛选模式:Q1,Q2,,Q3
三个性能优异的主动学习算法:V1,V2,V3
三个性能优异的聚类算法:P1,P2,P3
while:sizeof(U)≥10and t<T:
步骤4:使用Spseudo U L训练基础分类器
步骤5:使用基础分类器对U分类,使用主动学习算法V1选出最有价值的未标记样本,并组成LA有序列表,经过聚类算法P1进行聚类,形成二级筛选模式Q1,挑选出m1个未标记样本,构成未标记样本集
Figure BDA0002914520880000082
这m1个有价值的未标记样本索引为NA。使用主动学习算法V2选出最有价值的未标记样本并组成LB有序列表,经过聚类算法P2进行聚类,形成二级筛选模式Q2,挑选出m2个未标记样本,构成未标记样本集
Figure BDA0002914520880000083
这m2个有价值的未标记样本索引为NB。使用主动学习算法V3选出最有价值未标记样本并组成LC有序列表,经过聚类算法P3进行聚类,形成二级筛选模式Q3,挑选出m3个未标记样本,构成未标记样本集
Figure BDA0002914520880000084
这m3个有价值的未标记样本索引为NC。满足N=m1+m2+m3
步骤6:If NA∩NB≠φorNB∩NC≠φorNA∩NC≠φ
R=Number(N-A∪B∪C)即不同的主动学习算法选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子R来补充Rindex=Random(LA-N×Wa,LB-N×Wb,Lc-N×Wc)随机挑选Q1,Q2,Q3策略中排名靠前却未选择的样本。
else:R=0
步骤7:将选择的未标记样本人工贴上标签,然后更新标签集如下:
Figure BDA0002914520880000091
Figure BDA0002914520880000092
Figure BDA0002914520880000093
表示由二级筛选模式Q1挑选的未标记样本在贴上标签后构成的有标签样本集;
Figure BDA0002914520880000094
表示由二级筛选模式Q2挑选的未标记样本在贴上标签后构成的有标签样本集;
Figure BDA0002914520880000095
表示由二级筛选模式Q3挑选的未标记样本在贴上标签后构成的有标签样本集;
步骤8:对集合U=U∪SPseudo使用基础分类器预测分类,获取预测标签为Label1
步骤9:使用
Figure BDA0002914520880000096
训练校验分类器1,使用
Figure BDA0002914520880000097
训练校验分类器2,使用
Figure BDA0002914520880000098
训练校验分类器3。
步骤10:对集合U=U∪SPseudo使用校验分类器1预测分类,获取预测标签为Label2_c1。对集合U=U∪SPseudo使用校验分类器2预测分类,获取预测标签为Label2_c2。对集合U=U∪SPseudo使用校验分类器3预测分类,获取预测标签为Label2_c3
步骤11:If:
Figure BDA0002914520880000099
更新伪标签样本集:Spseudo
Else:
Figure BDA00029145208800000910
更新未标记样本集:U
步骤12.迭代次数递增t=t+1
While sizeof(U)<10or t≥T:
Return:TrainedModel
应用例1:
为了验证本发明对图像分类的效果,我们将此算法运用在复杂的高光谱图像中进行验证讨论。参照图2,采用图像尺寸是145×145,空间分辨率是20m的原始遥感图像,印第安纳州(Indianpines)实验区的高光谱图像。为了突出本发明的方法对遥感图像的分类的优越性,采用原始的CASSL算法进行对比。图3是运用CASSL算法得到的分类结果图,图4是运用本发明提出的SFMFVCSA算法得到的分类结果图。
SFMFVCSA框架每次迭代挑选10个样本对其标记,在使用二级筛选模式融合时,每一种策略具体贡献的样本数一定会对实验结果产生影响。为了保证融合策略算法的多样性和每种策略所占比重的差异性,首先定义MCLU-KM算法的权重参数为Wa,nEQB-HC算法的权重参数为Wb,anEQB-KM算法的权重参数为Wc。设计了几组权重参数来探讨权重比对分类性能的影响,分别为(Wa=0.6,Wb=0.2,Wc=0.2;Wa=0.4,Wb=0.3,Wc=0.3;Wa=0.2,Wb=0.4,Wc=0.4)。以整体分类精度(OA)作为对比指标,权重与人工标记成本间的关系如表格1所示。在表1中可以发现,权重参数设定为Wa=0.4,Wb=0.3,Wc=0.3的SFMFVCSA算法的分类效果最好,并在今后的迭代过程中,一直保持着最好的分类效果。所以在后续Indianpines数据集的实验中采用Wa=0.4,Wb=0.3,Wc=0.3的参数设定。
表1 Indianpines数据集下不同权重参数的SFMFVCSA算法在不同数量的标记样本下OA精度比较表
Figure BDA0002914520880000101
表2在Indian pines数据集下对比算法在不同数量的标记样本下OA精度与标准差的比较表
Figure BDA0002914520880000102
从图3与图4的分类结果对比图与表2各个算法的OA精度与标准差的对比中可以看出,两种方法均有较好的分类结果,本发明提出的SFMFVCSA算法有较好的分类效果。同时,本发明提出的算法均有较小的标准差,这说明SFMFVCSA算法的稳定性较好,能够保持较好的分类结果。
应用例2:
为了验证本发明的方法对遥感图像的分类效果,采用空间分辨率为18m,图像大小是512×614的肯尼迪航天中心的高光谱遥感图像进行分类。实验框架每次迭代选择样本数与各算法的权重参数设置与应用例1中的设置相同。在SFMFVCSA框架中,权重参数设置为Wa=0.6,Wb=0.2,Wc=0.2能在整体迭代的过程中获得最好的分类效果。所以在后面的算法性能比较中,我们将权重参数设置为Wa=0.6,Wb=0.2,Wc=0.2。
表4 KSC数据集下不同权重参数的SFMFVCSA算法在不同数量的标记样本下OA精度比较表
Figure BDA0002914520880000111
同样采用原始的CASSL算法作为对比参照。如表格5可以看出两种方法均有较好的分类结果,两者之间相比,本发明二级筛选模式融合校验的协同式半监督算法SFMFVCSA获得了更理想的分类结果,遥感图像的整体分类精度更高,标准差较小,说明算法的性能稳定性较好,鲁棒性较强。
表5在KSC数据集下对比算法在不同数量的标记样本下OA精度与标准差的比较表
Figure BDA0002914520880000112
Figure BDA0002914520880000121
同时,通过表6可以看出在相同的实验条件下,设定相同的迭代次数,本发明提出的算法需要最少的时间成本。由此可以判断,本发明提出的算法,二级筛选模式融合校验的协同式半监督算法SFMFVCSA可以在较短的时间内完成迭代,也获得了较好的分类结果。
表6在不同数据集下算法的运行时间对比表
Figure BDA0002914520880000122

Claims (6)

1.一种二级筛选模式融合校验的协同式半监督算法,其特征在于:所述方法包括如下步骤:
步骤一:设置好数据集中训练集,未标记样本集U与初始化伪标签样本集Spseudo,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,检查在每次迭代中,不同的二级筛选模式算法是否选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子R来补充;
步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签Label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为Label2_c1,Label2_c2,Label2_c3
步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较Label1,Label2_c1,Label2_c2,Label2_c3的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
2.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤一具体为:
(1)确定每轮迭代时待标记样本的总数N;
(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量,三种二级筛选模式分别对应着不同的主动学习算法;
(3)分别将三种主动学习算法挑选样本的数量记为h1,h2,h3,并且满足H=h1+h2+h3;其中,H代表在一次迭代中所有的主动学习算法挑选的信息量较大的未标记样本总数;
(4)通过不同的聚类算法分别对三种不同的主动学习算法挑选的样本进行聚类,通过聚类形成的簇的数量分别为m1,m2,m3,其中m1,m2,m3占总数N的比例定义为权重系数,从而,每一种二级筛选模式挑选出的样本数量分别定义为m1,m2,m3,并满足N=m1+m2+m3
3.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤二,步骤三的具体步骤为:先用主动学习算法按照样本不确定度的大小进行排序,按照预先设定的参数值挑选排在前列,即富含信息量的样本;用聚类算法对挑选出的样本进行聚类,再从每一个的簇中挑选一个样本,第一种主动学习算法V1对未标记样本按照信息量大小进行排列,组成LA有序列表,挑选m1个有价值且分布在不同簇的未标记样本
Figure FDA0002914520870000021
这m1个有价值的未标记样本索引为NA,xk表示此未标记样本集中的一个未标记样本,k表示样本编号;第二种主动学习算法V2对未标记样本按照信息量大小进行排列,组成LB有序列表,挑选m2个未标记样本
Figure FDA0002914520870000022
这m2个有价值且分布在不同簇的未标记样本索引为NB,第三种主动学习算法V3对未标记样本按照信息量大小进行排列,组成LC有序列表,挑选m3个未标记样本
Figure FDA0002914520870000023
这m3个有价值且分布在不同簇的未标记样本索引为NC,N=m1+m2+m3构成最终的待标记样本,二级筛选模式保证挑选出的样本具有代表性与多样性;在每一次迭代时,将三种二级筛选模式选出的样本进行融合,如果有二级筛选模式在一次迭代中挑中同一个样本,即NA∩NB≠φorNB∩NC≠φorNA∩NC≠φ,则采用预先设定的跳变因子R来进行补充,Rindex=Random(LA-N×Wa,LB-N×Wb,Lc-N×Wc),Wa、Wb和Wc分别为MCLU-KM算法、nEQB-HC算法和anEQB-KM算法的权重参数,即在算法一次迭代的情况下,每个算法贡献样本的个数占此次迭代挑选样本总数的比重;跳变因子R随机挑选三种二级筛选模式中排名靠前却未选择的样本作为补充;由此在满足设定每次迭代选择的样本数量后,再融合三种二级筛选模式挑选的样本与跳变因子,并对它们进行标记;在算法融合这一过程中,要选择不同且具有良好性能的算法,将差异化的算法整合,然后,将标记好的样本放入有标记样本集中,用于训练基础分类器,此时,训练基础分类器的样本由多种二级筛选模式算法挑选。
4.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤四具体步骤为:此算法选用三种不同的二级筛选模式,在算法流程中,由三种二级筛选模式同时训练对应的校验分类器,并同时得到类别标签。
5.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤五具体步骤为:对所有未标记样本和伪标签样本使用3个校验分类器预测分类,获得类别标签,在每一次迭代时,同时获取3个预测标签,分别为Label2_c1,Label2_c2,Label2_c3
6.根据权利要求1所述的二级筛选模式融合校验的协同式半监督算法,其特征在于:所述步骤六具体步骤为:比较每一个未标记样本和伪标签样本xi由基础分类器和三个校验分类器获得到的类别标签,即比较Label1,Label2_c1,Label2_c2,Label2_c3的类别标签是否相同,如果所有的类别标签结果相同,即
Figure FDA0002914520870000031
说明此未标记样本符合算法设定的条件,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,即
Figure FDA0002914520870000032
说明此未标记样本不符合算法设定的条件,将此样本放回到未标记样本中。
CN202110096596.XA 2021-01-25 2021-01-25 一种二级筛选模式融合校验的协同式半监督算法 Pending CN112818791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110096596.XA CN112818791A (zh) 2021-01-25 2021-01-25 一种二级筛选模式融合校验的协同式半监督算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110096596.XA CN112818791A (zh) 2021-01-25 2021-01-25 一种二级筛选模式融合校验的协同式半监督算法

Publications (1)

Publication Number Publication Date
CN112818791A true CN112818791A (zh) 2021-05-18

Family

ID=75859343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110096596.XA Pending CN112818791A (zh) 2021-01-25 2021-01-25 一种二级筛选模式融合校验的协同式半监督算法

Country Status (1)

Country Link
CN (1) CN112818791A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627390A (zh) * 2022-05-12 2022-06-14 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法
WO2023001193A1 (en) * 2021-07-20 2023-01-26 United Imaging Research Institute of Innovative Medical Equipment Systems and methods for image segmentation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130063565A (ko) * 2011-12-07 2013-06-17 조윤진 언라벨데이터를 이용한 앙상블 형태의 데이터마이닝 모형 구축장치 및 그 방법
CN111414942A (zh) * 2020-03-06 2020-07-14 重庆邮电大学 一种基于主动学习和卷积神经网络的遥感图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130063565A (ko) * 2011-12-07 2013-06-17 조윤진 언라벨데이터를 이용한 앙상블 형태의 데이터마이닝 모형 구축장치 및 그 방법
CN111414942A (zh) * 2020-03-06 2020-07-14 重庆邮电大学 一种基于主动学习和卷积神经网络的遥感图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CUI YING, JI XIAOWEI, XU KAI, WANG LIGUO: "A Double-Strategy-Check Active Learning Algorithm for Hyperspectral Image Classification", PHOTOGRAMMETRIC ENGINEERING AND REMOTE SENSING, vol. 85, no. 11, 1 November 2019 (2019-11-01), pages 841 - 851 *
Y. CUI, XIAOWEI. JI, H. WANG, K. XU, S. WU AND L. WANG: "A New Framework for Hyperspectral Image Classification Using Multiple Semisupervised Collaborative Classification Algorithm", IEEE ACCESS, 6 August 2019 (2019-08-06), pages 125155 - 125175 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023001193A1 (en) * 2021-07-20 2023-01-26 United Imaging Research Institute of Innovative Medical Equipment Systems and methods for image segmentation
CN114627390A (zh) * 2022-05-12 2022-06-14 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法
CN114627390B (zh) * 2022-05-12 2022-08-16 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法
WO2023216725A1 (zh) * 2022-05-12 2023-11-16 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法

Similar Documents

Publication Publication Date Title
CN108108657B (zh) 基于多任务深度学习的修正局部敏感哈希车辆检索方法
CN105488809B (zh) 基于rgbd描述符的室内场景语义分割方法
Li et al. A three-step approach for TLS point cloud classification
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN106096506B (zh) 基于子类类间判别双字典的sar目标识别方法
Lee et al. Shape discovery from unlabeled image collections
Wang et al. Object proposal by multi-branch hierarchical segmentation
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN109583305A (zh) 一种基于关键部件识别和细粒度分类的车辆重识别的先进方法
CN102034107B (zh) 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
Bosch et al. Segmentation and description of natural outdoor scenes
CN103440508B (zh) 基于视觉词袋模型的遥感图像目标识别方法
CN103679192A (zh) 基于协方差特征的图像场景类型判别方法
CN104751475B (zh) 一种面向静态图像对象识别的特征点优选匹配方法
do Nascimento et al. On the development of a robust, fast and lightweight keypoint descriptor
CN112818791A (zh) 一种二级筛选模式融合校验的协同式半监督算法
CN105608443B (zh) 一种多特征描述及局部决策加权的人脸识别方法
CN113220915B (zh) 一种基于残差注意力的遥感图像检索方法及装置
CN106228027A (zh) 一种多视角数据的半监督特征选择方法
CN110399828A (zh) 一种基于多角度的深度卷积神经网络的车辆再识别方法
Zhang et al. Category modeling from just a single labeling: Use depth information to guide the learning of 2d models
CN111738052B (zh) 基于深度学习的多特征融合高光谱遥感地物分类方法
Singh et al. 3D-MFDNN: Three-dimensional multi-feature descriptors combined deep neural network for vegetation segmentation from airborne laser scanning data
Chen et al. Large-scale indoor/outdoor image classification via expert decision fusion (edf)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination