CN110222793A - 基于多视角主动学习的在线半监督分类方法及系统 - Google Patents
基于多视角主动学习的在线半监督分类方法及系统 Download PDFInfo
- Publication number
- CN110222793A CN110222793A CN201910539276.XA CN201910539276A CN110222793A CN 110222793 A CN110222793 A CN 110222793A CN 201910539276 A CN201910539276 A CN 201910539276A CN 110222793 A CN110222793 A CN 110222793A
- Authority
- CN
- China
- Prior art keywords
- data
- angle
- label
- view
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 46
- VMXUWOKSQNHOCA-UKTHLTGXSA-N ranitidine Chemical compound [O-][N+](=O)\C=C(/NC)NCCSCC1=CC=C(CN(C)C)O1 VMXUWOKSQNHOCA-UKTHLTGXSA-N 0.000 claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000010287 polarization Effects 0.000 claims description 10
- 230000003139 buffering effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 241000894007 species Species 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000233855 Orchidaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多视角主动学习的在线半监督分类方法及系统,所述在线半监督分类方法包括:步骤S1:获取当前时刻的多视角数据;步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;步骤S3:根据所述地物类别标签及次大标签确定分类间隔qt;步骤S4:根据所述分类间隔qt,对分类器进行更新。本发明基于多视角主动学习的在线半监督分类方法在线获取任意时刻的多视角数据,利用分类间隔,对分类器进行更新,可提高分类效率,节省人力,实现了少量样本标注时的高精度分类。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于多视角主动学习的在线半监督分类方法及系统。
背景技术
随着信息技术的不断发展,从不同信息源、空间及模态获取到的数据越来越丰富,这些不同属性的数据构成多视角数据集。与单视角学习相比,多视角学习可发掘各视角有用特征来改善学习能力,因此多视角学习受到广泛的关注。
在线学习能够有效处理实时数据流和大规模数据,是机器学习领域的一个研究热点。在线学习可以从数据流中增量地学习分类模型并且不重复使用之前的样本,适用于动态增长和大规模数据集。
近年来,在线学习引起了越来越多的关注和重视,现有的方法包括感知器算法、在线被动攻击(Passive attack,PA)算法和基于凸包顶点选择的支持向量机方法。
PA算法因为性能好、可扩展性强、计算成本低而被广泛应用。然而,PA算法只适用于单视角数据。为此,Nie等提出一种多视角PA算法,其利用了视角间的一致性和互补性有效提升了分类精度。然而,上述两种方法在应用中有很大局限性,首先它们都属于被动学习方法,即需要获取每个样本的类标签;另外,类别数目需要固定并且事先知道,对动态变化数据并不适用。
大数据为机器学习提供了丰富的原材料,这些海量的数据大部分是未标注的,而人工标注样本往往代价昂贵。主动学习的主要思想是挑选部分最有价值的数据进行标注,以实现在尽可能少的样本标记下获取尽可能高的精度。在此我们主要研究在线主动学习问题,其数据是以流的形式一个一个到达的。基于感知器的主动(PEA)学习方法仅使用错误分类的样本来更新分类模型,基于PA和随机规则的在线主动(PAA)学习算法对错误分类或具有低预测置信度的正确分类的样本都进行分类器更新。PAA解决了监督被动在线学习算法需要向每个新实例请求标签的问题。然而,主动学习规则是针对单视图数据而设计的,并且没有预先筛选的过程,导致筛选过程复杂、分类效率低。
发明内容
为了解决现有技术中的上述问题,即为了在线根据数据标签类别进行分类,以提高分类效率,本发明提供了一种基于多视角主动学习的在线半监督分类方法及系统。
为实现上述目的,本发明提供了如下方案:
一种基于多视角主动学习的在线半监督分类方法,所述在线半监督分类方法包括:
步骤S1:获取当前时刻的多视角数据;
步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;
步骤S3:根据所述地物类别标签及次大标签确定分类间隔qt;
步骤S4:根据所述分类间隔qt,对分类器进行更新。
可选地,所述多视角数据包括极化特征、颜色特征、纹理特征;其中,
所述极化特征包括从极化合成孔径雷达SAR数据中提取的原始特征和基于极化分解的特征;
所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图;
所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。
可选地,采用以下公式分别计算视角数据的地物类别标签及次大标签
多视角预测函数:
地物类别标签:
多视角预测函数中次大得分对应的次大类别:
其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。
可选地,所述根据所述地物类别标签及次大标签确定分类间隔qt,具体包括:
根据以下公式计算qt:
其中,表示预测向量ft的第个元素的值,表示预测向量ft的第个元素的值。
可选地,所述根据所述分类间隔qt,对分类器进行更新,具体包括:
步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;
步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
步骤S43:根据所述有标签数据更新分类器;
步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;
步骤S45:根据所述当前视角数据的类别对分类器进行更新。
可选地,所述确定当前视角数据的类别,具体包括:
计算当前视角数据的概率;
根据所述概率,生成服从伯努利分布概率的随机变量Zt;
判断所述随机变量Zt的数值是否为1;
如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。
可选地,所述计算当前视角数据的概率,具体包括:
计算分别基于不同视角数据的地物类别标签
根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧;
根据判断结果,计算当前视角数据的概率:
如果存在分歧,则根据公式计算概率;
如果不存在分歧,则根据公式计算概率;
其中,ηt与分别为非负数。
可选地,所述根据所述当前视角数据的类别对分类器进行更新,具体包括:
当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式对所述分类器进行增量拓展,并执行步骤S43;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤S43;
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:
s.t.l(W;(xt,yt))≤ξ;
其中l(W;(xt,yt))为损失函数,定义为ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为
对于无标签数据,令δt=0,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
更新分类器:
可选地,所述步骤S43具体包括:
根据计算多视角预测函数中得分最大的不相关类别;
根据公式计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:
s.t.l(W;(xt,yt))≤ζ;
其中l(W;(xt,yt))为损失函数,定义为ξ:表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为
对于有标签数据,δt=1,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
更新分类器:
为实现上述目的,本发明还提供了如下方案:
一种基于多视角主动学习的在线半监督分类系统,所述在线半监督分类系统包括:
获取单元,用于获取当前时刻的多视角数据;
标签确定单元,用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;
间隔确定单元,用于根据所述地物类别标签及次大标签确定分类间隔qt;
更新单元,用于根据所述分类间隔qt,对分类器进行更新。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于多视角主动学习的在线半监督分类方法在线获取任意时刻的多视角数据,利用分类间隔,对分类器进行更新,可提高分类效率,节省人力,实现了少量样本标注时的高精度分类。
附图说明
图1是本发明基于多视角主动学习的在线半监督分类方法的流程图;
图2是本发明基于多视角主动学习的在线半监督分类方法的具体实施流程图;
图3是本发明基于多视角主动学习的在线半监督分类系统的模块结构示意图。
符号说明:
获取单元—1,标签确定单元—2,间隔确定单元—3,更新单元—4。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的在于提供一种基于多视角主动学习的在线半监督分类方法,通过在线获取任意时刻的多视角数据,利用分类间隔,对分类器进行更新,可提高分类效率,节省人力,实现了少量样本标注时的高精度分类。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于多视角主动学习的在线半监督分类方法包括:
步骤100:获取当前时刻的多视角数据;
步骤200:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;
步骤300:根据所述地物类别标签及次大标签确定分类间隔qt;
步骤400:根据所述分类间隔qt,对分类器进行更新。
其中,所述多视角数据可以是不同传感器获取的同一目标的数据或者不同属性的特征。
例如,所述不同属性的特征包括极化特征、颜色特征、纹理特征。所述极化特征包括从极化合成孔径雷达(Synthetic Aperture Radar,SAR)数据中提取的原始特征和基于极化分解的特征。所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图。所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。
在步骤200中,采用以下公式分别计算视角数据的地物类别标签及次大标签
多视角预测函数:
地物类别标签:
多视角预测函数中次大得分对应的次大类别:
其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。
在步骤300中,所述根据所述地物类别标签及次大标签确定分类间隔qt,具体包括:
根据以下公式计算qt:
其中,表示预测向量ft的第个元素的值,表示预测向量ft的第个元素的值。
如图2所示,在步骤400中,所述根据所述分类间隔qt,对分类器进行更新,具体包括:
步骤410:比较所述分类间隔qt与设定的间隔阈值∈的大小。所述间隔阈值∈为大于0的常数。
步骤420:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
步骤430:根据所述有标签数据更新分类器。
步骤440:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别。
步骤450:根据所述当前视角数据的类别对分类器进行更新。
具体地,在步骤440中,所述确定当前视角数据的类别,具体包括:
步骤4401:计算当前视角数据的概率;
步骤4402:根据所述概率,生成服从伯努利分布概率的随机变量Zt(随机变量Zt的取值为0或1);
步骤4403:判断所述随机变量Zt的数值是否为1;
如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。
进一步地,在步骤4401中,所述计算当前视角数据的概率,具体包括:
步骤4401a:计算分别基于不同视角数据的地物类别标签
步骤4401b:根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧。
具体的,如果i,j=1,2,3且i≠j,则判断不存在分歧;如果则判断存在分歧。在本实施例中,m取值为3。
步骤4401c:根据判断结果,计算当前视角数据的概率:
如果存在分歧,则根据公式计算概率;
如果不存在分歧,则根据公式计算概率;
其中,ηt和均为非负数。
在步骤450中,所述根据所述当前视角数据的类别对分类器进行更新,具体包括:
步骤4501:当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式对所述分类器进行增量拓展,并执行步骤430;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤430。
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:
s.t.l(W;(xt,yt))≤ξ;
其中l(W;(xt,yt))为损失函数,定义为ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为
在本实施例中,均衡参数λi包括λ1、λ2、λ3;λ1=1,λ2,λ3∈{1.5,2}。视角一致性约束参数d;d∈{1e-4,1e-3,1e-2};图正则化参数θ∈{0.001,0.005};惩罚参数c∈{0.05,0.1,0.5};权重参数r1,r2∈{0.3,0.4}且满足
对于无标签数据,令δt=0,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
更新分类器:
其中,步骤430具体包括:
根据计算多视角预测函数中得分最大的不相关类别;
根据公式计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:
s.t.l(W;(xt,yt))≤ξ;
其中l(W;(xt,yt))为损失函数,定义为ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为
对于有标签数据,δt=1,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
更新分类器:
此外,本发明基于多视角主动学习的在线半监督分类方法还包括:将全部时刻的数据处理完毕后,计算总的在线分类错误率,并绘制分类图。
本发明使用真实的极化SAR数据做测试实验,是由AIRSAR传感器获取的荷兰弗莱福兰(Flevoland)地区的L波段数据。该数据的Pauli分解伪彩色图像,尺寸为1020*1024。
仿真实验中,使用的软件:MATLAB R2015b,处理器:Intel(R)Core(TM)i7-6700HQ,内存:16.0GB,操作系统:64位Windows10。
实验内容及结果分析:
为评估本发明提出的方法的效果,进行实验对比的方法包括:PEA算法和PAA算法。这些方法的参数通过交叉验证进行选择,选择范围设置如下:PAA的惩罚参数c∈[0.01,0.1],本方法的惩罚参数c∈{0.05,0.1,0.5},平衡参数λ1=1,λ2,λ3∈{1.5,2},耦合参数d∈{1e-4,1e-3,1e-2},图正则化参数θ∈{0.001,0.005},权重参数r1,r2∈{0.3,0.4},且满足通过交叉验证的方式可以选出最优的参数取值,即错误率最小的一组参数。
表1给出了这些方法在不同样本标签查询率情况下的在线分类错误率对比结果:本发明提出的方法的分类结果要明显好于PEA和PAA的结果。另外,根据表1可知提出的方法的在不同的样本标签查询率下得到的在线分类错误率均低于PEA和PAA的分类错误率,在只查询20%的样本标签时的精度接近于查询100%的样本标签的精度。从表1可得出结论,本发明提出的方法可实现少量样本标注时的高精度在线分类。
表1:不同样本标签查询率下的在线分类错误率对比结果
样本查询率 | 1% | 10% | 20% | 50% | 100% |
PEA | 0.2066 | 0.0879 | 0.0713 | 0.0587 | 0.0538 |
PAA | 0.1483 | 0.0622 | 0.0497 | 0.0385 | 0.0349 |
本方法 | 0.1104 | 0.0350 | 0.0306 | 0.0296 | 0.0296 |
本发明与现有技术相比较,具有以下优点:
(1)只需要对部分重要样本进行标注,节省人力。
本发明提出的在线主动学习方法充分利用了分类间隔和多视角分类器间的分歧,以此设置不同的查询概率,从而挑选出在分类边界上的样本以查询其标签,克服了现有技术需要查询所有样本标签及未利用多视角间关系的不足,使得本发明节省了人力,实现了少量样本标注时的高精度分类。
(2)能对数据量和类数都不断增长的数据进行增量学习。
本发明提出的在线方法既能处理数据量不断增长的问题,也能处理样本类别不断增加的问题,克服了现有技术不能增量学习新类的不足,使得本发明更适用于大规模动态数据集。
(3)同时利用有标签和无标签样本,实现了更低的在线分类错误率。
此外,本发明还提供一种基于多视角主动学习的在线半监督分类系统,可在线根据数据标签类别进行分类,提高分类效率。
如图3所示,本发明基于多视角主动学习的在线半监督分类系统包括获取单元1、标签确定单元2、间隔确定单元3及更新单元4。
其中,所述获取单元1用于获取当前时刻的多视角数据;所述标签确定单元2用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;所述间隔确定单元3用于根据所述地物类别标签及次大标签确定分类间隔qt;所述更新单元4用于根据所述分类间隔qt,对分类器进行更新。
相对于现有技术,本发明基于多视角主动学习的在线半监督分类系统与上述基于多视角主动学习的在线半监督分类方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于多视角主动学习的在线半监督分类方法,其特征在于,所述在线半监督分类方法包括:
步骤S1:获取当前时刻的多视角数据;
步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;
步骤S3:根据所述地物类别标签及次大标签确定分类间隔qt;
步骤S4:根据所述分类间隔qt,对分类器进行更新。
2.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述多视角数据包括极化特征、颜色特征、纹理特征;其中,
所述极化特征包括从极化合成孔径雷达SAR数据中提取的原始特征和基于极化分解的特征;
所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图;
所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。
3.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,采用以下公式分别计算视角数据的地物类别标签及次大标签
多视角预测函数:
地物类别标签:
多视角预测函数中次大得分对应的次大类别:
其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。
4.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述根据所述地物类别标签及次大标签确定分类间隔qt,具体包括:
根据以下公式计算qt:
其中,表示预测向量ft的第个元素的值,表示预测向量ft的第个元素的值。
5.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述根据所述分类间隔qt,对分类器进行更新,具体包括:
步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;
步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
步骤S43:根据所述有标签数据更新分类器;
步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;
步骤S45:根据所述当前视角数据的类别对分类器进行更新。
6.根据权利要求5所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述确定当前视角数据的类别,具体包括:
计算当前视角数据的概率;
根据所述概率,生成服从伯努利分布概率的随机变量Zt;
判断所述随机变量Zt的数值是否为1;
如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。
7.根据权利要求6所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述计算当前视角数据的概率,具体包括:
计算分别基于不同视角数据的地物类别标签
根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧;
根据判断结果,计算当前视角数据的概率:
如果存在分歧,则根据公式计算概率;
如果不存在分歧,则根据公式计算概率;
其中,ηt和均为非负常数。
8.根据权利要求7所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述根据所述当前视角数据的类别对分类器进行更新,具体包括:
当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式对所述分类器进行增量拓展,并执行步骤S43;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤S43;
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:
s.t.l(W;(xt,yt))≤ξ;
其中,l(W;(xt,yt))为损失函数,定义为ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据xb (i)和xt (i)的距离度量,定义为
对于无标签数据,令δt=0,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
更新分类器:
9.根据权利要求5-8中任一项所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述步骤S43具体包括:
根据计算多视角预测函数中得分最大的不相关类别;
根据公式计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型为:
s.t.l(W;(xt,yt))≤ξ;
其中,l(W;(xt,yt))为损失函数,定义为ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,表示在b时刻第i个视角数据,是第i视角的两个数据和的距离度量,定义为
对于有标签数据,δt=1,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
更新分类器:
10.一种基于多视角主动学习的在线半监督分类系统,其特征在于,所述在线半监督分类系统包括:
获取单元,用于获取当前时刻的多视角数据;
标签确定单元,用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签及次大标签t表示当前时刻;
间隔确定单元,用于根据所述地物类别标签及次大标签确定分类间隔qt;
更新单元,用于根据所述分类间隔qt,对分类器进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539276.XA CN110222793B (zh) | 2019-06-20 | 2019-06-20 | 基于多视角主动学习的在线半监督分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539276.XA CN110222793B (zh) | 2019-06-20 | 2019-06-20 | 基于多视角主动学习的在线半监督分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222793A true CN110222793A (zh) | 2019-09-10 |
CN110222793B CN110222793B (zh) | 2021-06-22 |
Family
ID=67814013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910539276.XA Active CN110222793B (zh) | 2019-06-20 | 2019-06-20 | 基于多视角主动学习的在线半监督分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222793B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418118A (zh) * | 2022-01-21 | 2022-04-29 | 中国人民解放军国防科技大学 | 决策能力约束下多源网络流数据预测方法和装置 |
CN117237748A (zh) * | 2023-11-14 | 2023-12-15 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103903007A (zh) * | 2014-03-10 | 2014-07-02 | 哈尔滨工程大学 | 一种基于空-谱信息的高光谱半监督分类方法 |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN105956612A (zh) * | 2016-04-25 | 2016-09-21 | 西安电子科技大学 | 基于主动学习和半监督学习的高光谱图像分类方法 |
CN108021930A (zh) * | 2017-11-16 | 2018-05-11 | 苏州大学 | 一种自适应的多视角图像分类方法及系统 |
CN108388907A (zh) * | 2017-12-29 | 2018-08-10 | 中国科学院自动化研究所 | 基于多视角学习的极化sar数据分类器实时更新方法 |
US20180285771A1 (en) * | 2017-03-31 | 2018-10-04 | Drvision Technologies Llc | Efficient machine learning method |
CN109376796A (zh) * | 2018-11-19 | 2019-02-22 | 中山大学 | 基于主动半监督学习的图像分类方法 |
-
2019
- 2019-06-20 CN CN201910539276.XA patent/CN110222793B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103903007A (zh) * | 2014-03-10 | 2014-07-02 | 哈尔滨工程大学 | 一种基于空-谱信息的高光谱半监督分类方法 |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN105956612A (zh) * | 2016-04-25 | 2016-09-21 | 西安电子科技大学 | 基于主动学习和半监督学习的高光谱图像分类方法 |
US20180285771A1 (en) * | 2017-03-31 | 2018-10-04 | Drvision Technologies Llc | Efficient machine learning method |
CN108021930A (zh) * | 2017-11-16 | 2018-05-11 | 苏州大学 | 一种自适应的多视角图像分类方法及系统 |
CN108388907A (zh) * | 2017-12-29 | 2018-08-10 | 中国科学院自动化研究所 | 基于多视角学习的极化sar数据分类器实时更新方法 |
CN109376796A (zh) * | 2018-11-19 | 2019-02-22 | 中山大学 | 基于主动半监督学习的图像分类方法 |
Non-Patent Citations (3)
Title |
---|
SHILIANG SUN ET AL: "Multiview Active Learning", 《MULTIVIEW MACHINE LEARNING》 * |
XIANGLI NIE ET AL: "An Incremental Multi-view Active Learning Algorithm for PolSAR Data Classification", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 * |
王志强: "基于语义场景分类与多视角学习的图像自动标注方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418118A (zh) * | 2022-01-21 | 2022-04-29 | 中国人民解放军国防科技大学 | 决策能力约束下多源网络流数据预测方法和装置 |
CN114418118B (zh) * | 2022-01-21 | 2024-03-12 | 中国人民解放军国防科技大学 | 决策能力约束下多源网络流数据预测方法和装置 |
CN117237748A (zh) * | 2023-11-14 | 2023-12-15 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
CN117237748B (zh) * | 2023-11-14 | 2024-02-23 | 南京信息工程大学 | 一种基于多视角对比置信度的图片识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110222793B (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vieira et al. | Two cooperative ant colonies for feature selection using fuzzy models | |
CN103886330B (zh) | 基于半监督svm集成学习的分类方法 | |
CN108510559A (zh) | 一种基于有监督多视角离散化的多媒体二值编码方法 | |
CN109461025A (zh) | 一种基于机器学习的电能替代潜在客户预测方法 | |
CN110245131A (zh) | 一种知识图谱中实体对齐方法、系统及其存储介质 | |
CN107957946B (zh) | 基于邻域嵌入保护算法支持向量机的软件缺陷预测方法 | |
Chen et al. | Research on location fusion of spatial geological disaster based on fuzzy SVM | |
Zhang et al. | Imbalanced data based fault diagnosis of the chiller via integrating a new resampling technique with an improved ensemble extreme learning machine | |
CN109583635A (zh) | 一种面向运行可靠性的短期负荷预测建模方法 | |
CN110222793A (zh) | 基于多视角主动学习的在线半监督分类方法及系统 | |
CN107153837A (zh) | 深度结合K‑means和PSO的聚类方法 | |
CN102722578B (zh) | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 | |
Wang et al. | Design of the Sports Training Decision Support System Based on the Improved Association Rule, the Apriori Algorithm. | |
CN111737294A (zh) | 一种基于动态增量集成模糊的数据流分类方法 | |
CN108388907A (zh) | 基于多视角学习的极化sar数据分类器实时更新方法 | |
Wang et al. | R2-trans: Fine-grained visual categorization with redundancy reduction | |
CN110232397A (zh) | 一种结合支持向量机和投影矩阵的多标签分类方法 | |
CN109242039A (zh) | 一种基于候选标记估计的未标记数据利用方法 | |
CN106339354B (zh) | 基于改进pca的云计算网络中高维数据可视化方法 | |
El Bouchti et al. | Forecasting financial risk using quantum neural networks | |
Mao et al. | Naive Bayesian algorithm classification model with local attribute weighted based on KNN | |
CN114386494A (zh) | 基于可扩展本体的产品全生命周期质量追溯方法和装置 | |
CN112465253A (zh) | 一种城市路网中的链路预测方法及装置 | |
Xin | [Retracted] Application of Optimized Support Vector Machine Model in Tax Forecasting System | |
Wijayanto et al. | Predicting future potential flight routes via inductive graph representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |