CN112101263A - 一种主动学习样本选取方法、系统及计算机可读存储介质 - Google Patents

一种主动学习样本选取方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN112101263A
CN112101263A CN202011003427.9A CN202011003427A CN112101263A CN 112101263 A CN112101263 A CN 112101263A CN 202011003427 A CN202011003427 A CN 202011003427A CN 112101263 A CN112101263 A CN 112101263A
Authority
CN
China
Prior art keywords
sample
active learning
matrix
samples
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011003427.9A
Other languages
English (en)
Other versions
CN112101263B (zh
Inventor
吕文君
康宇
昌吉
许婷
李婧
李泽瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011003427.9A priority Critical patent/CN112101263B/zh
Publication of CN112101263A publication Critical patent/CN112101263A/zh
Application granted granted Critical
Publication of CN112101263B publication Critical patent/CN112101263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种主动学习样本选取方法,通过数据收集、系统初始化、生成隐藏层输出矩阵、基分类器交叉优化、在满足一定判定条件后做出对目标域样本的选择。基于该方法本发明又公开了一种主动学习的样本选取系统以及对应的计算机可读存储介质。相较于已有的技术,本发明公开的技术方案所选取的目标样本更加分散在数据分类界面处,能够进一步提升主动学习的效率、以及分类器的泛化性能,特别适用于解决例如基于振动信号的机器人地面分类、基于测井曲线的岩性识别、基于超光谱的遥感图像处理等标签较为昂贵的任务。

Description

一种主动学习样本选取方法、系统及计算机可读存储介质
技术领域
本发明属于数据处理领域,具体涉及一种主动学习样本选取方法、系统及计算机可读存储介质。
背景技术
信息分类是信息处理、模式识别领域中一个非常重要的问题,分类方法的研究已成为当前研究的热门。各分类方法实现分类的关键问题是基于已标注的样本训练具有较高分类准确率的分类器。目前使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。因此。为了在尽可能小的标注代价下获取较高的分类准确率,现提出一种主动学习分类方法,其从原始的未标注样本集中筛选样本,且需筛选出对训练的分类器而言信息含量较高的样本进行标注。
主动学习方法一般可以分为两部分:学习引擎和选择引擎。其中学习引擎维护一个基准分类器,并使用监督学习算法对系统提供的已标注样例进行学习从而使该分类器的性能提高;而选择引擎负责运行样本选择算法,选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样本加入到已标注样例集中。故主动学习的关键在于如何主动地选取样本并推荐给专家进行标注,进而能够以较小的标注代价实现高性能分类器的训练。
机器人在自主导航的过程中,必须具备感知通过的路面类别信息从而稳定安全地穿越未知地面的能力。所以机器人利用其机载传感器(振动、触觉、视觉、听觉等)感知地面数据,并将这些数据输入到一个训练好的分类器中以获取当前移动地面的类型(草地、水泥地等)。机器人地面分类有助于机器人避险、路径规划、航迹推算、姿态控制等,已经成为自主化机器人的一个核心功能。专利CN202010105923.9公开了一种路面特征聚类分析的机器人速度自适应控制方法,在复杂路面情况下,基于姿态传感器获取的运动中机器人本体垂直方向的振动加速度信号,采用聚类算法完成对路面信息的聚类分析,获得地面类型所处类别的概率,同时通过获取分析机器人本体的俯仰角信号,对机器人所处的路面坡度进行分类,最终通过决策完成对机器人的自适应速度控制。其根据机器人本体的垂直方向振动加速度以及机器人所处路面的坡度实现机器人运动速度的自适应控制,在保证机器人运动的稳定性的前提下实现了机器人运动的高效性,提高了机器人运动控制的总体性能。类似研究较多,例如CN201910254116.0、CN201811118835.1等。
然而,目前现有的机器人地面分类领域几乎没有涉及到主动学习,这意味着机器人地面分类模型的训练需要依赖大量的人工标注;另外,已有的主动学习方法大多是基于单分类器的,因此其预测样本不确定性的度量就存在一定的盲区,某些关键样本往往无法覆盖,降低了选取样本的整体价值。因此,现有的主动学习算法的精度还有提升的空间,其在机器人地面分类的应用也能得到进一步的加强。
发明内容
本发明的发明目的是提供一种主动学习样本选取方法、系统及计算机可读存储介质。使选取的目标样本更加分散在数据分类界面处,以进一步提升主动学习的效率、以及分类器的泛化性能。
具体的技术方案如下:
一种主动学习样本选取方法,其包括以下步骤:
(1)数据收集:
分别收集源域数据、目标域数据,得到源域样本集合
Figure BDA0002695101280000021
和目标域的样本集合
Figure BDA0002695101280000022
其中,ns与nt分别表示源域样本集合与目标域样本集合的样本数量,ns与nt为正整数;源域、目标域样本集合中的样本维度相同,则
Figure BDA0002695101280000023
d表示样本x,
Figure BDA0002695101280000024
的特征数,d为正整数,
Figure BDA0002695101280000025
表示实数域;
对源域样本集合进行标注,源域样本
Figure BDA0002695101280000026
的标签分别为
Figure BDA0002695101280000027
则标注矩阵
Figure BDA0002695101280000028
以y表示一个标签,则
Figure BDA0002695101280000029
c表示分类任务目标类别数量,c为正整数;
y为独热编码,如果样本x为第h类,h∈{1,2,…,c},则y的第h个元素为1且其余元素均为0;
(2)系统初始化:
手动设定以下系数:经验损失系数γ,分歧系数λ,隐层神经元数量k,样本选取数量K;
Figure BDA00026951012800000210
初始化为零矩阵,其中,βi为第i个基分类器的输出权重矩阵,i=1,2,…,m,m为正整数;设定学习步数Step初始化为零,最大学习步数MaxStep为一个大于1的正整数;
(3)生成隐藏输出矩阵:
采用随机映射方式,分别生成Hs、Ht矩阵,其中
Figure BDA0002695101280000031
Figure BDA0002695101280000032
上式中,Hs表示源域的隐藏输出矩阵,Ht表示目标域的隐藏输出矩阵;k表示隐层神经元数量,
Figure BDA0002695101280000033
表示实数域;
(4)基分类器交叉优化:
令Step自增1,按下式依次序地计算βi,具体如下:
Figure BDA0002695101280000034
其中,βi为第i个基分类器的输出权重矩阵,
Figure BDA0002695101280000035
矩阵
Figure BDA0002695101280000036
为适维单位阵;
i=1,2,…,m,m为正整数;
γ为经验损失系数,λ为分歧系数,H′s为源域的隐藏输出矩阵Hs的转置,Y为标注矩阵;集合
Figure BDA0002695101280000037
(5)判断:当Step大于MaxStep,则执行步骤(6);如果Step小于等于MaxStep,则跳至步骤(4);
(6)目标域样本选择:
计算第i个分类器对目标域样本集合的预测结果,即Pi=Htβi,其中,
Figure BDA0002695101280000038
Figure BDA0002695101280000039
m为正整数;
Figure BDA00026951012800000310
为Pi的第e行,其中e=1,2,…,nt
根据
Figure BDA00026951012800000311
计算目标域第e个样本的不确定性指数θe,其中,cov(·)表示求协方差矩阵,‖·‖F表示F范数;
Figure BDA00026951012800000312
中按从大到小选取K个θe,并将选取的θe所对应的下标取出得到下标集合
Figure BDA00026951012800000313
则样本集合
Figure BDA00026951012800000314
即为选取的样本集合;
其中K为样本选取数量,
Figure BDA00026951012800000315
为选取出来的样本。
进一步方案,所述γ、λ为大于0的实数,k、K为大于0的整数。
进一步方案,步骤(4)中所述{1,2,…,m}-i表示从由1,2,…,m组成的集合中去除元素i。
进一步方案,步骤(6)中θe值中若有两个或两个以上相同且只需选取其部分时,则从相同的θe值中任意选取所需要的个数,再将所选的θe的下标放入下标集合
Figure BDA0002695101280000041
中。
具体说明如下:
当nt=8,且θ12,…,θ8分别为1,2,3,4,4,6,7,8,则其最大的3个值的下标为6、7、8;而最大得4个值得下标为4、6、7、8或者5、6、7、8;也就是说,当出现多个值相同且只可取其中部分值的下标的时候,可以从这些相同值的下标中任意选取一部分。
本发明的第二个发明目的是提供一种主动学习样本选取系统,其包括数据收集模块、标注模块、处理器,以及与所述处理器连接的存储器;
所述数据收集模块用于收集源域数据和目标域数据,并将源域数据、目标域数据输入处理器中进行处理,得到源域样本集合和目标域样本集合;
所述标注模块用于对源域样本集合进行标注,得到标注矩陈;
所述存储器存储有样本选取程序,所述样本选取程序被所述处理器执行时用于实现上述主动学习的样本选取方法。
本发明的第三个发明目的是提供一种计算机可读存储介质,其上储存有样本选取程序,该样本选取程序被处理器执行时实现上述主动学习样本选取方法的步骤。
本发明的第四个发明目的是提供一种基于振动信号的机器人地面分类的主动学习样本选取方法,其采用上述主动学习样本选取方法的步骤。
本发明的第五个发明目的是提供一种基于测井曲线的岩性识别的主动学习样本选取方法,其采用上述主动学习样本选取方法的步骤。
本发明的技术效果有:
本发明公开的技术方案所选取的目标样本更加分散在数据分类界面处,能够进一步提升主动学习的效率、以及分类器的泛化性能,特别适用于解决例如基于振动信号的机器人地面分类、基于测井曲线的岩性识别、基于超光谱的遥感图像处理等标签较为昂贵的任务。
说明书附图
图1为本发明的流程图。
具体实施方式
本发明的方案可以应用到基于振动信号的机器人地面分类、基于测井曲线的岩性识别等,以提高分类准确性。
实施例1:基于振动信号的机器人地面分类的主动学习样本选取方法,具体如图1包括以下步骤:
(1)数据收集:
在机器人本体上安装振动传感器以检测垂直于地面方向的振动信号,在机器人本体上安装摄像头,摄像头镜头朝向地面,用以拍摄机器人当前所处的地面,振动传感器与摄像头均为等时间采样工作模式。利用振动传感器和摄像头收集原始数据,让机器人在期望被识别的地面上随机游走,并从振动传感器和摄像头采集振动信号与图像信号,振动与图像信号均有时间戳。
振动传感器的采样频率大于1,例如:100;也就是说一秒钟采样100个振动数据。每秒的振动数据序列组成一个振动帧,对每个振动帧进行d点快速傅里叶变换,得到d维向量,即实现了每个振动帧的特征提取,该d维向量成为特征向量或样本x。由于每个振动帧可以根据时间戳对应到地面图像,因此可以请求人工为振动帧打上地面类型的标签。地面类型有c种,常见的分类如:草地、水泥地、泥土、瓷砖等。
在构造训练集时,收集振动信号,并按照上述方式提取振动帧并转化为样本x,得到样本集合
Figure BDA0002695101280000051
即为源域样本集合;对源域样本集合进行标注,源域样本x1,x2,…,xns的地面类型的标签分别为
Figure BDA0002695101280000052
则标注矩阵
Figure BDA0002695101280000053
Figure BDA0002695101280000054
以y表示一个地面类型的标签,则
Figure BDA0002695101280000055
c表示地面类型的数量,c为正整数;y为独热编码,如果样本x为第h类,h∈{1,2,…,c},则y的第h个元素为1且其余元素均为0;
在构造测试集时,收集振动信号,并按照上述方式提取振动帧并转化为样本
Figure BDA0002695101280000056
得到样本集合
Figure BDA0002695101280000057
即为目标域样本集合;
其中,ns与nt分别表示源域样本集合与目标域样本集合的样本数量,ns与nt为正整数;源域、目标域样本集合中的样本维度相同,则
Figure BDA0002695101280000061
d表示样本x和
Figure BDA00026951012800000610
的特征数,d为正整数,
Figure BDA0002695101280000062
表示实数域;
(2)系统初始化:
手动设定以下系数:经验损失系数γ,分歧系数λ,隐层神经元数量k,样本选取数量K;
Figure BDA0002695101280000063
初始化为零矩阵,其中,βi为第i个基分类器的输出权重矩阵,i=1,2,…,m,m为正整数;设定学习步数Step初始化为零,最大学习步数MaxStep为一个大于1的正整数;
其中经验损失系数γ,分歧系数λ:将收集的数据分出训练集和验证集,然后采用网格化搜索(grid search)确定这两个值。例如:在本实施例机器人地面分类中,γ可取1000-100000之间的数,λ可取10-10000之间的数,且一般保证λ比γ小一个数量级左右。
隐层神经元数量k:当训练精度无法提高时,增加k值;
样本选取数量K:根据实际成本确定,例如:在本实施例机器人地面分类,只允许机器人远程请求10个标注,则K=10;
最大学习步数MaxStep:一般可选5-10之间的整数。
(3)生成隐藏输出矩阵:
采用随机映射方式,分别生成Hs、Ht矩阵,其中
Figure BDA0002695101280000064
Figure BDA0002695101280000065
上式中,Hs表示源域的隐藏输出矩阵,Ht表示目标域的隐藏输出矩阵;k表示隐层神经元数量,
Figure BDA0002695101280000066
表示实数域;
(4)基分类器交叉优化:
令Step自增1,按下式依次序地计算βi,具体如下:
Figure BDA0002695101280000067
其中,βi为第i个基分类器的输出权重矩阵,
Figure BDA0002695101280000068
矩阵
Figure BDA0002695101280000069
为适维单位阵;
i=1,2,…,m,m为正整数;
γ为经验损失系数,λ为分歧系数,H′s为源域的隐藏输出矩阵Hs的转置,Y为标注矩阵;集合
Figure BDA0002695101280000071
其中{1,2,…,m}-i表示从由1,2,…,m组成的集合中去除元素i;
(5)判断:当Step大于MaxStep,则执行步骤(6);如果Step小于等于MaxStep,则跳至步骤(4);
(6)目标域样本选择:
计算第i个分类器对目标域样本集合的预测结果,即Pi=Htβi,其中,
Figure BDA0002695101280000072
Figure BDA0002695101280000073
i=1,2,…,m,m为正整数;
Figure BDA0002695101280000074
为Pi的第e行,其中e=1,2,…,nt
根据
Figure BDA0002695101280000075
计算目标域第e个样本的不确定性指数θe,其中,cov(·)表示求协方差矩阵,‖·‖F表示F范数;
Figure BDA0002695101280000076
中按从大到小选取K个θe,并将选取的θe所对应的下标取出得到下标集合
Figure BDA0002695101280000077
则样本集合
Figure BDA0002695101280000078
即为选取的样本集合;θe值中若有两个或两个以上相同且只需选取其部分时,则从相同的θe值中任意选取所需要的个数,再将所选的θe的下标放入下标集合
Figure BDA0002695101280000079
中;
例如:当nt=8,且θ12,…,θ8分别为1,2,3,4,4,6,7,8,则其最大的3个值的下标为6、7、8;而最大得4个值得下标为4、6、7、8或者5、6、7、8;也就是说,当出现多个值相同且只可取其中部分值的下标的时候,可以从这些相同值的下标中任意选取一部分。
其中K为样本选取数量,
Figure BDA00026951012800000710
为选取出来的样本。
进一步方案,所述γ、λ为大于0的实数,k、K为大于0的整数。
实施例2:基于测井曲线的岩性识别的主动学习样本选取方法,具体包括以下步骤:
(1)数据收集:
在构造训练集时,利用测井设备收集测井曲线,每个深度上的测井值组成一个样本x,得到样本集合
Figure BDA00026951012800000711
即为源域样本集合;对源域样本集合进行标注(一般可采用录井或者人工解释),源域样本
Figure BDA00026951012800000712
的岩性标签分别为
Figure BDA00026951012800000713
则标注矩阵
Figure BDA0002695101280000081
以y表示一个岩性标签,则
Figure BDA0002695101280000082
c表示岩性种类的数量,c为正整数;y为独热编码,如果样本x为第h类,h∈{1,2,…,c},则y的第h个元素为1且其余元素均为0;
在构造测试集时,利用测井设备收集测井曲线,每个深度上的测井值组成一个样本
Figure BDA0002695101280000083
得到样本集合
Figure BDA0002695101280000084
即为目标域样本集合;
其中,ns与nt分别表示源域样本集合与目标域样本集合的样本数量,ns与nt为正整数;源域、目标域样本集合中的样本维度相同,则
Figure BDA0002695101280000085
d表示样本x和
Figure BDA0002695101280000086
的特征数,即测井曲线的种类数,d为正整数,
Figure BDA0002695101280000087
表示实数域;
步骤(2)-(6)同实施例1。
另外,本发明中的随机映射方式生成隐藏输出矩阵可参考“极限学习机(ExtremeLearning Machine)”相关文献,例如,从
Figure BDA0002695101280000088
到Hs的计算过程如下:
首先,随机生成k个输入权重向量
Figure BDA0002695101280000089
与k个输入偏置
Figure BDA00026951012800000810
Figure BDA00026951012800000811
然后,计算
Figure BDA00026951012800000812
其中,
Figure BDA00026951012800000813
Figure BDA00026951012800000814
其中,x表示一个样本,w,b分别为输入权重向量和输入偏置。
Figure BDA00026951012800000815
到Ht的计算过程同理可得。
本发明中采用上标′来表示矩阵的转置,例如矩阵H′为矩阵H的转置,此为数学或信息学领域常用标识。
本发明中适维单位阵的意思为:该单位阵具有适当的维度,且这个维度可以根据公式整体推断,例如:A+I,其中,
Figure BDA00026951012800000816
由于A是n×n维度的,因此I也为n×n维度,即
Figure BDA00026951012800000817
本发明中出现的专业名词“标注”、“标签”为同一意思,均为label的意思。
本发明中的独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。假设分类目标可分为4类,样本x属于类别2,则x对应的y=[0,1,0,0]。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (8)

1.一种主动学习样本选取方法,其特征在于:包括以下步骤:
(1)数据收集:
分别收集源域数据、目标域数据,得到源域样本集合
Figure FDA0002695101270000011
和目标域的样本集合
Figure FDA0002695101270000012
其中,ns与nt分别表示源域样本集合与目标域样本集合的样本数量,ns与nt为正整数;源域、目标域样本集合中的样本维度相同,则
Figure FDA0002695101270000013
d表示样本x,
Figure FDA0002695101270000014
的特征数,d为正整数,
Figure FDA0002695101270000015
表示实数域;
对源域样本集合进行标注,源域样本
Figure FDA0002695101270000016
的标签分别为
Figure FDA0002695101270000017
则标注矩阵
Figure FDA0002695101270000018
以y表示一个标签,则
Figure FDA0002695101270000019
c表示分类任务目标类别数量,c为正整数;
y为独热编码,如果样本x为第h类,h∈{1,2,…,c},则y的第h个元素为1且其余元素均为0;
(2)系统初始化:
手动设定以下系数:经验损失系数γ,分歧系数λ,隐层神经元数量k,样本选取数量K;
Figure FDA00026951012700000110
初始化为零矩阵,其中,βi为第i个基分类器的输出权重矩阵,i=1,2,…,m,m为正整数;
设定学习步数Step初始化为零,最大学习步数MaxStep为一个大于1的正整数;
(3)生成隐藏输出矩阵:
采用随机映射方式,分别生成Hs、Ht矩阵,其中
Figure FDA00026951012700000111
Figure FDA00026951012700000112
上式中,Hs表示源域的隐藏输出矩阵,Ht表示目标域的隐藏输出矩阵;k表示隐层神经元数量,
Figure FDA00026951012700000113
表示实数域;
(4)基分类器交叉优化:
令Step自增1,按下式依次序地计算βi,具体如下:
Figure FDA00026951012700000114
其中,βi为第i个基分类器的输出权重矩阵,
Figure FDA00026951012700000115
矩阵
Figure FDA00026951012700000116
为适维单位阵;
i=1,2,…,m,m为正整数;
γ为经验损失系数,λ为分歧系数,H′s为源域的隐藏输出矩阵Hs的转置,Y为标注矩阵;集合
Figure FDA0002695101270000021
(5)判断:当Step大于MaxStep,则执行步骤(6);如果Step小于等于MaxStep,则跳至步骤(4);
(6)目标域样本选择:
计算第i个分类器对目标域样本集合的预测结果,即Pi=Htβi,其中,
Figure FDA0002695101270000022
Figure FDA0002695101270000023
m为正整数;
Figure FDA0002695101270000024
为Pi的第e行,其中e=1,2,…,nt
根据
Figure FDA0002695101270000025
计算目标域第e个样本的不确定性指数θe,其中,cov(·)表示求协方差矩阵,‖·‖F表示F范数;
Figure FDA00026951012700000210
中按从大到小选取K个θe,并将选取的θe所对应的下标取出得到下标集合
Figure FDA0002695101270000026
则样本集合
Figure FDA0002695101270000027
即为选取的样本集合;
其中K为样本选取数量,
Figure FDA0002695101270000028
为选取出来的样本。
2.根据权利要求1所述的一种主动学习样本选取方法,其特征在于:所述γ、λ为大于0的实数,k、K为大于0的整数。
3.根据权利要求1所述的一种主动学习的样本选取方法,其特征在于:步骤(4)中所述{1,2,…,m}-i表示从由1,2,…,m组成的集合中去除元素i。
4.根据权利要求1所述的一种主动学习样本选取方法,其特征在于:步骤(6)中θe值中若有两个或两个以上相同且只需选取其部分时,则从相同的θe值中任意选取所需要的个数,再将所选的θe的下标放入下标集合
Figure FDA0002695101270000029
中。
5.一种主动学习样本选取系统,其特征在于:包括数据收集模块、标注模块、处理器,以及与所述处理器连接的存储器;
所述数据收集模块用于收集源域数据和目标域数据,并将源域数据、目标域数据输入处理器中进行处理,得到源域样本集合和目标域样本集合;
所述标注模块用于对源域样本集合进行标注,得到标注矩陈;
所述存储器存储有样本选取程序,所述样本选取程序被所述处理器执行时用于实现如权利要求1-4任一项所述主动学习的样本选取方法。
6.一种计算机可读存储介质,其上储存有样本选取程序,其特征在于:该样本选取程序被处理器执行时实现如权利要求1-4任意一项所述的主动学习样本选取方法的步骤。
7.一种基于振动信号的机器人地面分类的主动学习样本选取方法,其特征在于:其采用如权利要求1-4任意一项所述的主动学习样本选取方法的步骤。
8.一种基于测井曲线的岩性识别的主动学习样本选取方法,其特征在于:其采用如权利要求1-4任意一项所述的主动学习样本选取方法的步骤。
CN202011003427.9A 2020-09-22 2020-09-22 一种主动学习样本选取方法、系统及计算机可读存储介质 Active CN112101263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011003427.9A CN112101263B (zh) 2020-09-22 2020-09-22 一种主动学习样本选取方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011003427.9A CN112101263B (zh) 2020-09-22 2020-09-22 一种主动学习样本选取方法、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112101263A true CN112101263A (zh) 2020-12-18
CN112101263B CN112101263B (zh) 2022-09-06

Family

ID=73755891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011003427.9A Active CN112101263B (zh) 2020-09-22 2020-09-22 一种主动学习样本选取方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112101263B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784818A (zh) * 2021-03-03 2021-05-11 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844287A (zh) * 2016-03-15 2016-08-10 民政部国家减灾中心 一种遥感影像分类的域自适应方法及系统
CN108596224A (zh) * 2018-04-12 2018-09-28 清华大学 基于半监督学习的孪生超限学习机分类的数据处理方法
CN110781788A (zh) * 2019-10-18 2020-02-11 中国科学技术大学 一种基于少量标注的野外机器人地面分类方法及系统
US20200082221A1 (en) * 2018-09-06 2020-03-12 Nec Laboratories America, Inc. Domain adaptation for instance detection and segmentation
CN111325116A (zh) * 2020-02-05 2020-06-23 武汉大学 一种基于线下训练-线上学习深度可演化的遥感影像目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844287A (zh) * 2016-03-15 2016-08-10 民政部国家减灾中心 一种遥感影像分类的域自适应方法及系统
CN108596224A (zh) * 2018-04-12 2018-09-28 清华大学 基于半监督学习的孪生超限学习机分类的数据处理方法
US20200082221A1 (en) * 2018-09-06 2020-03-12 Nec Laboratories America, Inc. Domain adaptation for instance detection and segmentation
CN110781788A (zh) * 2019-10-18 2020-02-11 中国科学技术大学 一种基于少量标注的野外机器人地面分类方法及系统
CN111325116A (zh) * 2020-02-05 2020-06-23 武汉大学 一种基于线下训练-线上学习深度可演化的遥感影像目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CLAUDIO PERSELLO 等: "A novel active learning strategy for domain adaptation in the classification of remote sensing images", 《2011 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》 *
张军 等: "基于逐步优化分类模型的跨领域文本情感分类", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784818A (zh) * 2021-03-03 2021-05-11 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法

Also Published As

Publication number Publication date
CN112101263B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN111368886B (zh) 一种基于样本筛选的无标注车辆图片分类方法
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
Endo et al. Classifying spatial trajectories using representation learning
CN112312541B (zh) 一种无线定位方法及系统
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN111401426B (zh) 基于伪标签学习的小样本高光谱图像分类方法
CN111476285B (zh) 一种图像分类模型的训练方法及图像分类方法、存储介质
CN111027627A (zh) 一种基于多层感知机的振动信息地形分类识别方法
CN102169631A (zh) 基于流形学习的交通拥堵事件协同检测方法
CN105809119A (zh) 一种基于稀疏低秩结构多任务学习的行为识别方法
CN114266977A (zh) 基于超分辨可选择网络的多auv的水下目标识别方法
CN106251375A (zh) 一种通用隐写分析的深度学习堆栈式自动编码方法
CN115131313A (zh) 基于Transformer的高光谱图像变化检测方法及装置
CN112101263B (zh) 一种主动学习样本选取方法、系统及计算机可读存储介质
CN115511214A (zh) 基于多尺度样本不均的矿产预测方法及系统
Carolina Jara Ten Kathen et al. A comparison of pso-based informative path planners for autonomous surface vehicles for water resource monitoring
CN112784487B (zh) 飞行动作识别方法和装置
Stuhr et al. Carlane: A lane detection benchmark for unsupervised domain adaptation from simulation to multiple real-world domains
CN117690164A (zh) 基于边缘计算的机场飞鸟识别驱赶方法及系统
CN113570595B (zh) 车辆轨迹预测方法和车辆轨迹预测模型的优化方法
CN115512214A (zh) 一种基于因果注意力的室内视觉导航方法
Yang et al. UAV Landmark Detection Based on Convolutional Neural Network
Chen et al. A modified convolutional neural network with transfer learning for road extraction from remote sensing imagery
CN115359437A (zh) 一种基于语义轨迹的伴随车辆识别方法
Da et al. Remote sensing image ship detection based on improved YOLOv3

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant