CN114627390B - 一种改进的主动学习遥感样本标记方法 - Google Patents

一种改进的主动学习遥感样本标记方法 Download PDF

Info

Publication number
CN114627390B
CN114627390B CN202210512002.3A CN202210512002A CN114627390B CN 114627390 B CN114627390 B CN 114627390B CN 202210512002 A CN202210512002 A CN 202210512002A CN 114627390 B CN114627390 B CN 114627390B
Authority
CN
China
Prior art keywords
sample
value
samples
marked
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210512002.3A
Other languages
English (en)
Other versions
CN114627390A (zh
Inventor
董铱斐
段红伟
邹圣兵
陈婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuhui Spatiotemporal Information Technology Co ltd
Original Assignee
Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuhui Spatiotemporal Information Technology Co ltd filed Critical Beijing Shuhui Spatiotemporal Information Technology Co ltd
Priority to CN202210512002.3A priority Critical patent/CN114627390B/zh
Publication of CN114627390A publication Critical patent/CN114627390A/zh
Application granted granted Critical
Publication of CN114627390B publication Critical patent/CN114627390B/zh
Priority to PCT/CN2023/082939 priority patent/WO2023216725A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种改进的主动学习遥感样本标记方法,属于遥感图像处理技术领域。该方法首先利用改进的价值样本筛选策略筛选出兼具不确定性和多样性的价值样本,然后利用生成对抗网络生成价值生成样本以增加价值样本的数据丰富度,进一步利用价值生成样本训练出第二分类器组,利用训练的第二分类器组完成价值样本集的标记。本发明解决了传统主动学习中通过专家进行价值样本标记导致的人工成本高的问题,利用学习到丰富的价值样本特征的第二分类器组进行价值样本标记,在降低了人工成本的同时,有效增加了标记准确率。

Description

一种改进的主动学习遥感样本标记方法
技术领域
本发明涉及遥感图像处理技术领域,尤其涉及一种改进的主动学习遥感样本标记方法。
背景技术
全球土地覆盖数据是人类认识自然、掌握自然规律必备的信息,也是各种资源管理和地理信息服务所需要的最基本数据。遥感数据的优势在于其包含了丰富的空间信息,有利于研究地物的空间特性。随着我国卫星硬件技术和对地观测技术的不断突破使得遥感数据的空间分辨率、时间分辨率乃至光谱分辨率日益提升,遥感数据量呈井喷式增长,如果全部采用人工标记数据将会导致标记成本过大。在此背景下,主动学习进行样本标记的方法应运而生。
现有基于主动学习样本标记原理是从未标记样本中挑选部分价值量高的未标注样本,经过专家标记后补充到已标记样本集中,再用补充的已标记样本集训练分类器来提高分类器精度,继续利用当前分类器选取价值样本进行专家标记,再次训练当前分类器,直至分类器满足预设的训练停止条件,最后用训练好的分类器对其余未标记样本进行样本标记。主动学习通过主动选择一些价值量高的未标注样本给相关领域的专家进行标注,这样的样本通常蕴含了丰富的信息,并且对模型调优起着很好的作用。
现有的主动学习任务尚存在许多不足之处。具体的,第一,传统的主动学习通过专家知识对价值样本进行标记,但是,在具体实践中,但是由于缺少专业知识,人工标注是一件异常困难且代价很大的事,目前采用机器标注取代人工标注,然而由于价值样本数量较少,导致机器不能很好地学习价值样本的特征,不能保证标记的准确率;第二,现有的主动学习方法通常利用不确定性衡量未标记样本的价值量,而基于不确定性的主动学习方法通常忽略了数据之间的差异性,存在同一类中重复选择不必要的样本的情况。
发明内容
本发明提出一种改进的主动学习遥感样本标记方法,弥补了现有的主动学习依赖专家标记价值样本的导致人工成本较高的缺陷的同时,弥补了现有的机器标记价值样本导致的标记错误率高的缺陷。本发明通过生成对抗网络生成价值生成样本以增加价值样本的数据丰富度,进一步利用价值生成样本训练出能够更好地学习价值样本的特征的第二分类器组,提高了机器标记价值样本的准确率,保证样本标记的准确率的同时大大降低了人工成本。
为实现上述技术目的,本发明的技术方案如下:
一种改进的主动学习遥感样本标记方法,该方法包括以下步骤:
S1获取样本集,所述样本集包括未标记样本集和已标记样本集;
S2通过所述已标记样本集训练得到第一分类器模型;
S3判断是否满足所述第一分类器模型训练终止的条件:
若满足,结束训练,执行步骤S11;
若不满足,执行步骤S4;
S4将未标记样本放入第一分类器模型进行预测,并利用改进的价值样本查询策略筛选未标记样本,得到既有不确定性又具有多样性的价值样本集{b i },b i 为价值样本;
S5获取价值样本b i 在所述第一分类器中的预测结果,包括类别标签和类别标签的预测分数,并按照从大到小的顺序对预测分数进行排序,选取预测分数排名前s的类别标签,得到价值样本b i 的候选伪标签集{L i n };
i为价值样本的编号,n为候选伪标签的编号,s为候选伪标签集中的候选伪标签个数,其中s≥2;
S6通过所述价值样本集{b i }训练生成对抗网络,并通过训练的生成对抗网络获得价值生成样本集{b ij };
S7将s个价值样本b i 的候选伪标签L i n ,分别赋予价值生成样本集{b ij },得到s个已标记价值生成样本集{b ij /L i n };
S8分别对s个已标记价值生成样本集和已标记样本集取并集,得到s个合并已标记样本集;
S9通过已标记样本集训练出第二分类器组,并通过第二分类器组的响应,从s个候选伪标签中筛选出所述价值样本b i 的真实标签L i a ,完成价值样本b i 的标记,得到已标记价值样本集{(b i /L i a )};
a为价值样本伪标签的编号;
S10将所述已标记价值样本集{b i /L i a }加入所述已标记样本集,返回至所述步骤S2;
S11通过所述第一分类器模型对未标记样本集进行样本标记。
更进一步地,所述步骤S7包括:
将所述价值样本b i 的s个候选伪标签L i n 分别赋予所述价值生成样本集{b ij },得到s个已标记价值生成样本集{(b ij /L i 1)},{(b ij /L i 2)},...,{(b ij /L i s)}。
更进一步地,所述步骤S8包括:
将已标记样本集分别和s个已标记价值生成样本集取并集,得到s个合并已标记样本集。
更进一步地,所述步骤S9包括:
S91通过s个合并已标记样本集训练出s个第二分类器模型,组成第二分类器组;
S92将所述价值样本b i 分别输入s个第二分类器模型,根据所述价值样本b i 在s个第二分类器模型的响应差异在s个候选伪标签中确定所述价值样本b i 的伪标签。
更进一步地,所述改进的价值样本查询策略包括:
S41根据聚类算法对已标记样本集进行聚类,得到n个聚类中心
Figure 431543DEST_PATH_IMAGE001
S42对于每个未标记样本x,经过第一分类器的预测,基于不确定性筛选产生预测概率向量f(x);
S43基于不确定性筛选计算未标记样本x和所述n个聚类中心
Figure 338319DEST_PATH_IMAGE002
之间的最大距离,产生多样性向量g(x);
S44通过预测概率向量f(x)和多样性向量g(x),得到未标记样本的样本价值T;
S45判断是否存在当前动态阈值:若不存在,执行步骤S46,若存在,跳转至S47;
S46设置初始动态阈值初始值作为当前动态阈值,并构建价值样本集,初始价值样本集为空集,执行步骤S47;
S47根据所述价值样本集是否为空集判断当前动态阈值是否进行调整:
若所述价值样本集为空集,则对所述当前动态阈值增加预设数值,获得新的当前动态阈值;
若所述价值样本集不为空集,则保持所述当前动态阈值不变;
S48根据所述样本价值T与当前动态阈值TTHR的关系判断所述未标记样本x是否为价值样本;
若否,则将所述未标记样本x赋予伪标签y1,并将该样本
Figure 227777DEST_PATH_IMAGE003
合并入已标记样本集;
若是,则将所述未标记样本x记为价值样本b i i为价值样本的编号,并加入价值样本集{b i }。
更进一步地,所述第一分类器模型训练终止的条件包括所述价值样本的数量达到预先设定的上限或所述第一分类器模型训练误差在预先设定的范围内。
更进一步地,所述步骤S6包括:
S61对所述价值样本b i 进行编码,得到价值样本b i 对应的隐变量;
S62初始化所述生成对抗网络的生成器和鉴别器的参数;
S63将所述价值样本b i 对应的隐变量和随机噪声输入所述生成器,得到合成样本,并将所述合成样本和所述价值样本同时输入所述鉴别器以鉴别真伪;
S64所述生成器和所述鉴别器相互博弈直至所述鉴别器将所述合成样本鉴定为真;
S65将所述价值样本对应的隐变量和随机噪声输入训练好的生成器,得到价值生成样本b ij ,所述价值生成样本b ij 与所述价值样本b i 服从相同分布。
本发明的有益效果为:
(1) 本发明通过生成对抗网络得到与价值样本同分布的价值生成样本,从而利用价值生成样本训练出能够更好地学习价值样本的特征的第二分类器组,利用第二分类器组完成对价值样本的标记,相比现有的主动学习方法,本方法增加价值样本的数据丰富度,使分类器更好地学习价值样本的特征,显著提升分类器的标注准确率,同时降低人工标记成本;
(2) 本发明通过改进的价值样本查询策略,考虑了价值样本与已标记样本的差异性,从不确定性和多样性对样本进行价值筛选,得到在不确定性和多样性上均具备训练价值的价值样本,相比现有的主动学习查询策略,本方法在价值样本的选取上避免了样本偏差问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明提供的一种改进的主动学习遥感样本标记方法流程图;
附图2为本发明一具体实施例中一种改进的主动学习遥感样本标记过程示意图;
附图3为本发明一具体实施例中生成对抗网络的训练过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参考图1和图2,理解以下具体实施例。图1为本发明提供的一种改进的主动学习遥感样本标记方法的流程图。该方法包括以下步骤:
S1获取样本集,所述样本集包括未标记样本集和已标记样本集。
S2通过所述已标记样本集训练得到第一分类器模型。
在具体实现中,可选择Resnet50作为网络架构并通过已标记样本集训练得到第一分类器模型C1
S3判断是否满足所述第一分类器模型训练终止的条件。
若满足,结束训练,执行步骤S11;
若不满足,执行步骤S4。
在具体实现中,判断当前第一分类器模型C1的训练误差是否在预先设定的范围内:
若是,停止训练并输出训练好的第一分类器模型C1,执行步骤S11;
若否,继续训练第一分类器模型C1,执行步骤S4。
S4将未标记样本放入第一分类器模型进行预测,并利用改进的价值样本查询策略筛选未标记样本,得到既有不确定性又具有多样性的价值样本集{b i },b i 为价值样本。
作为一种实现方式,改进的价值样本查询策略包括:
S41根据聚类算法对已标记样本集进行聚类得到n个聚类中心
Figure 418456DEST_PATH_IMAGE004
在具体实现中,距离计算使用欧几里得距离,也可以使用其他类型的度量方法,如余弦距离等,根据具体的任务来设定。假设已标记样本x L k(i)表示第i个已标记样本第k个维度,则样本x L(i)和x L(j)之间的欧几里得距离
Figure 735168DEST_PATH_IMAGE005
(i,j)为:
Figure 129240DEST_PATH_IMAGE006
根据聚类结果,得到n个聚类中心
Figure 822390DEST_PATH_IMAGE007
S42将未标记样本放入第一分类器模型进行预测,对于每个未标记样本x,选取最大可能类别标签
Figure 103460DEST_PATH_IMAGE008
和第二可能类别标签
Figure 856653DEST_PATH_IMAGE009
,基于不确定性筛选产生预测概率f(x):
Figure 738021DEST_PATH_IMAGE010
其中,
Figure 234862DEST_PATH_IMAGE011
Figure 134553DEST_PATH_IMAGE012
分别表示对未标记样本x而言,第一分类器预测为最大可能类别标签
Figure 58647DEST_PATH_IMAGE013
和第二可能类别标签
Figure 161732DEST_PATH_IMAGE014
的概率分数。
S43基于不确定性筛选计算未标记样本x和所述聚类中心
Figure 196684DEST_PATH_IMAGE015
之间的最大距离,产生多样性向量g(x):
Figure 717927DEST_PATH_IMAGE016
其中,对于不同分布的数据集,p将会选取不同值,p=1时,
Figure 547342DEST_PATH_IMAGE017
表示曼哈顿距离,p=2时,
Figure 403303DEST_PATH_IMAGE017
表示欧几里得距离,n为聚类中心的个数,
Figure 241946DEST_PATH_IMAGE018
表示未标记样本和聚类中心样本的维度,
Figure 850651DEST_PATH_IMAGE019
表示未标记样本x的第k个维度,
Figure 116547DEST_PATH_IMAGE020
分别表示第i个聚类中心样本
Figure 459804DEST_PATH_IMAGE021
的第k个维度。
S44通过改进的价值样本查询策略公式进行价值样本查询,得到未标记样本的样本价值T,公式如下:
Figure 102138DEST_PATH_IMAGE022
S45判断是否存在当前动态阈值:若不存在,执行步骤S46,若存在,跳转至S47。
S46设置初始动态阈值初始值作为当前动态阈值,并构建价值样本集,初始价值样本集为空集,执行步骤S47。
S47根据所述价值样本集是否为空集判断当前动态阈值是否进行调整:
若所述价值样本集为空集,则对所述当前动态阈值增加预设数值,获得新的当前动态阈值;
若所述价值样本集不为空集,则保持所述当前动态阈值不变。
S48根据所述样本价值T与当前动态阈值TTHR的关系判断所述未标记样本x是否为价值样本;
若否,则将所述未标记样本x赋予伪标签y1,并将该样本
Figure 66814DEST_PATH_IMAGE023
合并入已标记样本;
若是,则将所述未标记样本x记为价值样本b i i为价值样本的编号,并加入价值样本集{b i }。
在现有的价值样本的查询策略中,通常利用样本的不确定性进行价值样本的筛选,但是可能会造成数据偏差,通过样本的多样性改进查询策略,倾向于选择离群点的可能性,避免出现样本偏差,使查询出的价值样本兼具不确定性和多样性。其中,在样本多样性计算中,倾向于选择与已标记样本距离较远的样本,具体做法是对已标记样本聚类中心,
值得说明的是,x来自未标记样本集,
Figure 503611DEST_PATH_IMAGE024
来自已标记样本集,两个样本集中的样本均具有k个维度。
值得说明的是,对于T≥TTHR的未标记样本,其对第一分类器来说是无价值样本,由于T≥TTHR,即最大可能类的概率在一定程度上大于第二可能类,当前第一分类器模型足以能够区分出所述无价值样本的类别,所以不再需要使用所述无价值样本对模型进行微调,即无价值样本对模型的作用相对较小,甚至没有作用,所以不需要用无价值样本再次进行模型训练。
S5获取价值样本b i 在所述第一分类器中的预测结果,包括类别标签和类别标签的预测分数,并按照从大到小的顺序对预测分数进行排序,选取预测分数排名前s的类别标签,得到价值样本b i 的候选伪标签集{L i n }。i为价值样本的编号,n为候选伪标签的编号,s为候选伪标签集中的候选伪标签个数,其中s≥2。
在具体实现中,参考图2,以价值样本b1的候选伪标签集{L i n }获取过程为例详细说明步骤S5:
价值样本b1的在所述第一分类器中类别标签按照预测概率分数从大到小排列表示为L1 1,L1 2,...,其中L1 1是价值样本b1被第一分类器C1预测为最大可能的类别标签,L1 2是价值样本b1被第一分类器C1预测为第二大可能的类别标签,以此类推,按照预测概率分数从大到小选取前s个类别标签,作为价值样本b1的候选伪标签,构成价值样本b1的候选伪标签集{L1 n },说明机器无法确定价值样本b1的类别标签,需要在s个类别标签L1 1,L1 2,...,L1 s中找到价值样本b1的真实类别标签。
S6通过所述价值样本集{b i }训练生成对抗网络,并通过训练的生成对抗网络获得价值生成样本集{b ij }。
作为一种实现方式,上述步骤S6包括:
S61对所述价值样本b i 进行编码,得到价值样本b i 对应的隐变量;
S62初始化所述生成对抗网络的生成器和鉴别器的参数;
S63将所述价值样本b i 对应的隐变量和随机噪声输入所述生成器,得到合成样本,并将所述合成样本和所述价值样本同时输入所述鉴别器以鉴别真伪;
S64所述生成器和所述鉴别器相互博弈直至所述鉴别器将所述合成样本鉴定为真;
S65将所述价值样本对应的隐变量和随机噪声输入训练好的生成器,得到价值生成样本b ij ,所述价值生成样本b ij 与所述价值样本b i 服从相同分布。
其中,步骤S61-S64是生成对抗网络的训练过程,该训练过程参考图3。在训练过程中,合成样本会被鉴别器认为是“假样本”,而生成器的目的就是“欺骗”鉴别器,生成让鉴别器鉴别为“真样本”的合成样本,整个训练过程就是鉴别器和生成器的博弈过程,博弈的最终结果就是获得令鉴别器分类准确率最大化的参数,以及获得最大化欺骗鉴别器的生成器参数。
S7将s个价值样本b i 的候选伪标签L i n ,分别赋予价值生成样本集{b ij },得到s个已标记价值生成样本集{b ij /L i n }。
作为一种实现方式,上述步骤S7包括:
将所述价值样本b i 的s个候选伪标签L i n 分别赋予所述价值生成样本b ij ,得到s个已标记价值生成样本集{(b ij /L i 1)},{(b ij /L i 2)},...,{(b ij /L i s)}。
S8分别将s个已标记价值生成样本集与已标记样本集取并集,得到s个合并已标记样本集。
作为一种实现方式,上述步骤S8包括:
分别将s个已标记价值生成样本集{(b ij /L i 1)},{(b ij /L i 2)},...,{(b ij /L i s)}与已标记样本集R取并集,得到s个合并已标记样本集:{(b ij /L i 1)}∪R,{(b ij /L i 2)}∪R,...,{(b ij /L i s)}∪R。
S9通过已标记样本集训练出第二分类器组,并通过第二分类器组的响应,从s个候选伪标签中筛选出所述价值样本b i 的伪标签L i a ,完成价值样本b i 的标记,得到已标记价值样本集{(b i /L i a )},a为价值样本伪标签的编号。
在具体实现中,可选择Resnet50作为第二分类器模型的网络架构。
作为一种实现方式,上述步骤S9包括:
S91通过s个合并已标记样本集训练出s个第二分类器模型,组成第二分类器组;
S92将所述价值样本b i 分别输入s个第二分类器模型,根据所述价值样本b i 在s个第二分类器模型的响应差异在s个候选伪标签中确定所述价值样本b i 的伪标签。
将s个预测标签分别赋予生成样本b ij ,得到s个有标记价值生成样本b ij /L i n
然后,根据有标记价值生成样本集{b ij /L i n }混合有标记样本集训练出s个第二分类器模型C2 in ,并根据价值样本b i 在s个第二分类器模型的响应不同,在b i 的预测标签集{L i n}中确定价值样本b i 的伪标签L i a ,完成价值样本b i 的标记,得到已标记价值样本b i /L i a
在具体实现中,参考图2,以价值样本b1的标记过程为例详细说明步骤S7-S9:
(1)从步骤S4中获取价值样本b1在第一分类器模型C1中预测分数最大值对应的候选伪标签L1 1和预测分数第二大值对应的候选伪标签L1 2
(2)将所述预测标签L1 1和所述预测标签L1 2分别赋予所述价值生成样本集{b1j },得到2个已标记价值生成样本集{(b1j /L1 1)}和{(b1j /L1 2)};
(3)分别将2个已标记价值生成样本集{(b1j /L1 1)}和{(b1j /L1 2)}和已标记样本集R取并集,得到2个合并已标记样本集:{(b ij /L i 1)}∪R和{(b ij /L i 2)}∪R;
(4)通过2个合并已标记样本集训练出第二分类器组,包括2个第二分类器模型C2 11和C2 12,具体步骤为:
1)利用合并已标记样本集{(b1j /L1 1)}∪R训练出第二分类器模型C2 11
2)利用合并已标记样本集{(b1j /L1 2)}∪R训练出第二分类器模型C2 12
(5)将所述价值样本b1分别输入训练的第二分类器模型C2 11和C2 12得到响应m11和m12,并根据输出的响应m11和m12之间的差异,在第一预测标签L1 1和第二预测标签L1 2中确定所述价值样本b i 的伪标签:
若存在m11<m12,赋予价值样本b1标签L1 2,得到已标记价值样本b1/L1 2
若存在m11>m12,赋予价值样本b1标签L1 1,得到已标记价值样本b1/L1 1
若存在m11=m12,价值样本b1无法标记,将所述价值样本b1放回价值样本集{b i };
(6)参考步骤(1)-(5)对价值样本集{b i }中其他的价值样本b i i≠1)进行样本标记,得到已标记价值样本集{(b i /L i a )}。
值得说明的是,传统的主动学习通过专家知识对价值样本进行标记,在具体实践中,由于缺少专业知识,人工标注是一件异常困难且代价很大的事,目前采用机器标注取代人工标注,然而由于价值样本数量较少,导致机器不能很好地学习价值样本的特征,不能保证标记的准确率。
针对以上问题,本实例的步骤S7-S9利用对抗生成网络,模拟价值样本的分布,增加价值样本的数据丰富度,得到价值生成样本,进一步利用价值生成样本训练出能够更好地学习价值样本的特征的第二分类器组,利用第二分类器组完成对价值样本的标记。由于本方法增加价值样本的数据丰富度,使分类器更好地学习价值样本的特征,所以本发明可以显著降低人工标记成本的同时,显著提升机器标记的准确率。
S10将所述已标记价值样本集{b i /L i a }加入所述已标记样本集,返回至所述步骤S2。
S11通过所述第一分类器模型对未标记样本集进行样本标记。
本发明的有益效果是:一方面,本发明通过生成对抗网络得到与价值样本同分布的价值生成样本,从而利用价值生成样本训练出能够更好地学习价值样本的特征的第二分类器组,利用第二分类器组完成对价值样本的标记,相比现有的主动学习方法,本方法增加价值样本的数据丰富度,使分类器更好地学习价值样本的特征,显著提升分类器的标注准确率,同时降低人工标记成本;
另一方面,本发明通过改进的价值样本查询策略,考虑了价值样本与已标记样本的差异性,从不确定性和多样性对样本进行价值筛选,得到在不确定性和多样性上均具备训练价值的价值样本,相比现有的主动学习查询策略,本方法在价值样本的选取上避免了样本偏差问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种改进的主动学习遥感样本标记方法,其特征在于,该方法包括以下步骤:
S1获取样本集,所述样本集包括未标记样本集和已标记样本集;
S2通过所述已标记样本集训练得到第一分类器模型;
S3判断是否满足所述第一分类器模型训练终止的条件:
若满足,结束训练,执行步骤S11;
若不满足,执行步骤S4;
S4将未标记样本放入第一分类器模型进行预测,并利用改进的价值样本查询策略筛选未标记样本,得到既有不确定性又具有多样性的价值样本集{b i },b i 为价值样本,所述改进的价值样本查询策略包括:
S41根据聚类算法对已标记样本集进行聚类,得到n个聚类中心x C
S42对于每个未标记样本x,经过第一分类器的预测,基于不确定性筛选产生预测概率向量f(x);
S43基于不确定性筛选计算未标记样本x和所述n个聚类中心x C之间的最大距离,产生多样性向量g(x);
S44通过预测概率向量f(x)和多样性向量g(x),得到未标记样本的样本价值T;
S45判断是否存在当前动态阈值:若不存在,执行步骤S46,若存在,跳转至S47;
S46设置初始动态阈值初始值作为当前动态阈值,并构建价值样本集,初始价值样本集为空集,执行步骤S47;
S47根据所述价值样本集是否为空集判断当前动态阈值是否进行调整:
若所述价值样本集为空集,则对所述当前动态阈值增加预设数值,获得新的当前动态阈值;
若所述价值样本集不为空集,则保持所述当前动态阈值不变;
S48根据所述样本价值T与当前动态阈值TTHR的关系判断所述未标记样本x是否为价值样本;
若否,则将所述未标记样本x赋予伪标签y1,并将该样本
Figure 202916DEST_PATH_IMAGE001
合并入已标记样本集;
若是,则将所述未标记样本x记为价值样本b i i为价值样本的编号,并加入价值样本集{b i };
S5获取价值样本b i 在所述第一分类器中的预测结果,包括类别标签和类别标签的预测分数,并按照从大到小的顺序对预测分数进行排序,选取预测分数排名前s的类别标签,得到价值样本b i 的候选伪标签集{L i n };
i为价值样本的编号,n为候选伪标签的编号,s为候选伪标签集中的候选伪标签个数,其中s≥2;
S6通过所述价值样本集{b i }训练生成对抗网络,并通过训练的生成对抗网络获得价值生成样本集{b ij };
S7将s个价值样本b i 的候选伪标签L i n ,分别赋予价值生成样本集{b ij },得到s个已标记价值生成样本集{(b ij /L i n )};
S8分别对s个已标记价值生成样本集和已标记样本集取并集,得到s个合并已标记样本集;
S9通过已标记样本集训练出第二分类器组,并通过第二分类器组的响应,从s个候选伪标签中筛选出所述价值样本b i 的真实标签L i a ,完成价值样本b i 的标记,得到已标记价值样本集{(b i /L i a )};
a为价值样本伪标签的编号;
S10将所述已标记价值样本集{(b i /L i a )}加入所述已标记样本集,返回至所述步骤S2;
S11通过所述第一分类器模型对未标记样本集进行样本标记。
2.根据权利要求1所述方法,其特征在于,所述步骤S7包括:
将所述价值样本b i 的s个候选伪标签L i n 分别赋予所述价值生成样本集{b ij },得到s个已标记价值生成样本集{(b ij /L i 1)},{(b ij /L i 2)},...,{(b ij /L i s)}。
3.根据权利要求1所述方法,其特征在于,所述步骤S8包括:
将已标记样本集分别和s个已标记价值生成样本集取并集,得到s个合并已标记样本集。
4.根据权利要求1所述方法,其特征在于,所述步骤S9包括:
S91通过s个合并已标记样本集训练出s个第二分类器模型,组成第二分类器组;
S92将所述价值样本b i 分别输入s个第二分类器模型,根据所述价值样本b i 在s个第二分类器模型的响应差异在s个候选伪标签中确定所述价值样本b i 的伪标签。
5.根据权利要求1所述方法,其特征在于,所述第一分类器模型训练终止的条件包括所述价值样本的数量达到预先设定的上限或所述第一分类器模型训练误差在预先设定的范围内。
6.根据权利要求1所述方法,其特征在于,所述步骤S6包括:
S61对所述价值样本b i 进行编码,得到价值样本b i 对应的隐变量;
S62初始化所述生成对抗网络的生成器和鉴别器的参数;
S63将所述价值样本b i 对应的隐变量和随机噪声输入所述生成器,得到合成样本,并将所述合成样本和所述价值样本同时输入所述鉴别器以鉴别真伪;
S64所述生成器和所述鉴别器相互博弈直至所述鉴别器将所述合成样本鉴定为真;
S65将所述价值样本对应的隐变量和随机噪声输入训练好的生成器,得到价值生成样本b ij ,所述价值生成样本b ij 与所述价值样本b i 服从相同分布。
CN202210512002.3A 2022-05-12 2022-05-12 一种改进的主动学习遥感样本标记方法 Active CN114627390B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210512002.3A CN114627390B (zh) 2022-05-12 2022-05-12 一种改进的主动学习遥感样本标记方法
PCT/CN2023/082939 WO2023216725A1 (zh) 2022-05-12 2023-03-22 一种改进的主动学习遥感样本标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210512002.3A CN114627390B (zh) 2022-05-12 2022-05-12 一种改进的主动学习遥感样本标记方法

Publications (2)

Publication Number Publication Date
CN114627390A CN114627390A (zh) 2022-06-14
CN114627390B true CN114627390B (zh) 2022-08-16

Family

ID=81906166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210512002.3A Active CN114627390B (zh) 2022-05-12 2022-05-12 一种改进的主动学习遥感样本标记方法

Country Status (2)

Country Link
CN (1) CN114627390B (zh)
WO (1) WO2023216725A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627390B (zh) * 2022-05-12 2022-08-16 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法
CN115063692B (zh) * 2022-07-06 2024-02-27 西北工业大学 一种基于主动学习的遥感图像场景分类方法
CN115272870A (zh) * 2022-09-19 2022-11-01 北京数慧时空信息技术有限公司 基于地学信息和主动学习的遥感样本标注方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818791A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学 一种二级筛选模式融合校验的协同式半监督算法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800785B (zh) * 2018-12-12 2021-12-28 中国科学院信息工程研究所 一种基于自表达相关的数据分类方法和装置
CN110309868A (zh) * 2019-06-24 2019-10-08 西北工业大学 结合无监督学习的高光谱图像分类方法
EP3767536A1 (en) * 2019-07-17 2021-01-20 Naver Corporation Latent code for unsupervised domain adaptation
CN110990576B (zh) * 2019-12-24 2023-06-16 用友网络科技股份有限公司 基于主动学习的意图分类方法、计算机设备和存储介质
CN111950619B (zh) * 2020-08-05 2022-09-09 东北林业大学 一种基于双重生成对抗网络的主动学习方法
CN113408605B (zh) * 2021-06-16 2023-06-16 西安电子科技大学 基于小样本学习的高光谱图像半监督分类方法
CN113780097B (zh) * 2021-08-17 2023-12-01 北京数慧时空信息技术有限公司 基于知识图谱和深度学习的耕地提取方法
CN114627390B (zh) * 2022-05-12 2022-08-16 北京数慧时空信息技术有限公司 一种改进的主动学习遥感样本标记方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818791A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学 一种二级筛选模式融合校验的协同式半监督算法

Also Published As

Publication number Publication date
WO2023216725A1 (zh) 2023-11-16
CN114627390A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN114627390B (zh) 一种改进的主动学习遥感样本标记方法
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN111667050B (zh) 度量学习方法、装置、设备及存储介质
CN110135562B (zh) 基于特征空间变化的蒸馏学习方法、系统、装置
CN107256017B (zh) 路线规划方法及系统
CN110263979A (zh) 基于强化学习模型预测样本标签的方法及装置
CN112819162B (zh) 一种知识图谱三元组的质检方法
CN109033944A (zh) 一种全天空极光图像分类与关键局部结构定位方法及系统
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
CN114943965B (zh) 基于课程学习的无监督域自适应遥感图像语义分割方法
CN109472030A (zh) 一种系统回复质量的评价方法及装置
WO2023201938A1 (zh) 缺失轨迹填补方法及系统
CN115861738A (zh) 一种类别语义信息引导的遥感目标检测主动采样方法
CN112733035A (zh) 基于知识图谱的知识点推荐方法、装置、存储介质及电子装置
CN113807278A (zh) 一种基于深度学习的土地利用分类及变化预测方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN111797935B (zh) 基于群体智能的半监督深度网络图片分类方法
CN113870254A (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN111814883A (zh) 一种基于异质集成的标签噪声纠正方法
CN113919983A (zh) 试题画像方法、装置、电子设备和存储介质
CN113420821A (zh) 一种基于标记和特征局部相关性的多标记学习方法
CN112348048A (zh) 一种多结构多任务深度神经网络及其训练、分类方法
CN114331950A (zh) 基于稠密连接稀疏激活网络的sar图像舰船检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant