CN108875816A - 融合置信度准则和多样性准则的主动学习样本选择策略 - Google Patents

融合置信度准则和多样性准则的主动学习样本选择策略 Download PDF

Info

Publication number
CN108875816A
CN108875816A CN201810567407.0A CN201810567407A CN108875816A CN 108875816 A CN108875816 A CN 108875816A CN 201810567407 A CN201810567407 A CN 201810567407A CN 108875816 A CN108875816 A CN 108875816A
Authority
CN
China
Prior art keywords
sample
model
active learning
cluster
selection strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810567407.0A
Other languages
English (en)
Inventor
王晓军
潘龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810567407.0A priority Critical patent/CN108875816A/zh
Publication of CN108875816A publication Critical patent/CN108875816A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及融合置信度准则和多样性准则的主动学习样本选择策略,包括以下步骤:基于已有的标记数据集DL训练模型Mt;使用Mt对当前未标记数据集DU进行预测,得到预测向量集Pt;根据Pt计算每个样本的信息熵,选择熵值最大的前K个样本;根据Mt提取K个未标记样本的特征表示,得到特征向量集Ft;对Ft进行密度峰值聚类,分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本,交由专家标记,加入已标记数据集DL,同时从未标记数据集DU中删除相应样本;利用当前已标记数据集DL对Mt进行更新得到Mt+1;重复上述步骤,直到所有样本标记结束或达到指定迭代次数完成整个算法流程。

Description

融合置信度准则和多样性准则的主动学习样本选择策略
技术领域
本发明涉及一种主动学习样本的选择策略,尤其是一种融合置信度准则和多样性准则的主动学习样本选择策略,属于计算机应用的技术领域。
背景技术
近年来,统计学习技术已得到了广泛的应用。使用一些传统的监督学习方法做分类的时候,往往是训练数据规模越大,分类的效果越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所需要花费的时间成本和经济成本很大。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,能够使用较少的训练样本来获得性能较好的分类器呢?主动学习(ActiveLearning)为我们提供了这种可能。主动学习算法实现了动态的实例选择和标记,能够根据部分已知的标记样本,主动地从未标记样本集中挑选样本交由专家进行标注。这些由主动学习算法筛选出的样本往往是对训练贡献最大的一些样本,因此,使用主动学习技术进行样本标记训练可以更快速有效的提升模型的性能。
当前的主动学习策略主要基于置信度和多样性两大准则来设计。置信度衡量了当前模型对于样本的不确定性,该准则的思想是:模型越是不能确定的样本,说明当前模型并没有学习到或者没有学习好该种样本的数据模式,那么就越需要将其标注之后交给模型进行训练。多样性准则衡量了样本数据模式的丰富程度,该准则的思想是:模型学习的数据模式应该尽量的丰富,如果每次选择类型比较单一的样本进行训练,那么势必会因为数据不平衡或者数据模式的单一性造成模型对未出现的数据模式识别性能较差。
发明内容
本发明的目的在于:针对现有技术存在的缺陷,提出一种融合置信度和多样性的主动学习样本选择策略,解决基于置信度准则的主动学习方法过度依赖模型的性能,没有考虑样本多样性的问题。
为了达到以上目的,本发明提供了融合置信度准则和多样性准则的主动学习样本选择策略,包括如下步骤:
步骤1,基于已有的标记数据集DL训练初始模型Mt
步骤2,使用Mt对当前未标记数据集DU进行预测,得到预测向量集Pt
步骤3,根据Pt计算每个样本的信息熵,取熵值最大的前K个样本作为主动学习备选样本,如果未标记样本数量未达到K,则跳过该步骤;
步骤4,根据Mt提取K个未标记样本的特征表示,得到特征向量集Ft;由步骤3得到当前模型Mt对于所有未标记样本最不确定的K个未标记样本,再对这K个样本进行模型的深层特征提取,得到特征映射向量集Ft,其中Ft和输入的K个标记样本呈一一对应关系;
步骤5,对F0进行密度峰值聚类,将K个样本划分为C簇,其中C<K;
步骤6,依据步骤5的聚类结果,分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本,交由专家标记,加入已标记数据集DL,同时从未标记数据集DU中删除相应样本;
步骤7,利用当前已标记数据集DL对Mt进行更新得到Mt+1,如果所有样本标记结束或达到指定迭代次数,则完成整个算法流程;否则转至步骤1重复上述步骤,直到所有样本标记结束或达到指定迭代次数。
进一步的,所述步骤1中的初始训练集DL的数据是经过预处理的特征数据;
Mt为能够输出概率值的分类模型,包括但不限于深度神经网络、卷积神经网络、逻辑回归模型,模型的选择视具体任务而定。
进一步的,所述步骤2中,对于DU中大量的未标记样本,利用已有的分类模型Mt对其进行预测;
对于每个样本x,经过分类模型的预测,产生预测概率向量p(x),对未标记样本集Du中的每个样本进行预测并产生所述概率向量p(x),并得到当前轮次预测概率向量集Pt={p(x)|x∈Du},Pt中每个预测向量与Du中的样本呈一一对应关系。
进一步的,所述步骤3中,对于步骤2中所述单个样本x的预测向量p(x),那么信息熵H(x)的计算方式为:
H(x)=-∑0≤j<Np(y=j|x)logp(y=j|x) (1)
其中,N为类别数量。对每个样本的预测输出概率向量p(x)计算熵值,然后按照熵值大小降序排序,取熵值最大的前K个样本作为构成候选集,并提取候选集中各样本的特征表示作为步骤5的输入。
进一步的,所述步骤5中,距离计算使用欧几里得距离,
假设表示第i个样本第p个维度,则样本xi和样本xj之间的欧式距离为:
进一步的,所述步骤6中,根据步骤5中产生的C个簇中心所对应的在DU中的编号,从DU依次删除,并把这C个簇中心和标记好的标签组成键值对存入带标签样本集DL,令DAL表示当前专家新标记的样本集合,过程可描述为:
DL=DL+DAL (3)
DU=DU-DAL (4)。
进一步的,所述步骤7中,由前述步骤已得到更新过后的已标记样本集DL,此时需要对上一步的模型Mt进行微调更新;该步骤基于已经训练好的Mt的基础上进行参数更新,使得新生成的模型Mt+1对标记数据集进行再学习,让模型具有辨识新样本数据模式的能力。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明设计了一种融合了置信度和多样性准则的主动学习策略,汲取了置信度和多样性两大主动学习准则的思想,解决基于置信度准则的主动学习方法过度依赖模型的性能,没有考虑样本多样性的问题。同时解决了基于多样性准则的方法完全脱离当前模型的束缚,导致选取的样本可能并不是当前模型最不确定的样本,使得模型的性能提升不够明显。此外,融合的方案也解决了单纯使用聚类等基于多样性准则的选择策略计算复杂度过高的问题。
其中,步骤3中对样本预测结果熵值的计算基于置信度准则,选取模型最不能确定的前K个样本,模型对这些样本的数据模式最“陌生”,需要对其进行学习。步骤5中采用的密度峰值聚类的方式基于多样性准则,希望能够在模型比较“陌生”的K个样本中选取尽可能多样的数据模式,这里的C通常小于K,即“优中选优”的思想。而K通常远小于总体未标记样本,这也节约了聚类时的计算资源。该策略吸纳了基于置信度策略具有稳定性的优点,使得模型在连续学习的过程中对自身比较“陌生”的样本持续不断的改善性能。同时,该策略也具有多样性准则的优点,每次迭代获得了更多样的数据模式,从而避免了每次主动学习选择的数据模式过于单一的风险。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的流程框图。
图2是本发明中密度峰值聚类(Density Peaks Clustering)的流程框图。
具体实施方式
下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
本实施例提供了一种融合置信度和多样性准则的主动学习样本选择策略,并应用到连续学习框架当中。以下结合音频识别领域的实例对本发明进行陈述,其流程如图1所示,包括以下步骤:
步骤1、基于已有的标记数据训练模型Mt
首先,该策略基于模型的输出来计算,我们需要在使用该策略选择样本之前利用已有带标签的训练集DL构建模型Mt。其中,初始训练集DL的数据是经过预处理的特征数据。例如在音频领域,模型的输入数据通常是经过信号预处理后的特征,比如对原始音频作短时傅里叶变换(SIFT),或者梅尔倒谱系数(MFCC)等。Mt是一个能够输出概率值的分类模型,比如深度神经网络(DNN),卷积神经网络(CNN),逻辑回归模型(LR)等,模型的选择视具体任务而定。
本实例使用深度卷积神经网络模型(CNN),使用MFCC变换对音频数据集进行预处理。其中初始标记数据集DL的大小为1000,未标记数据集DU的大小为10000,固定测试数据集的大小为2500。
步骤2、根据Mt对当前未标记数据集DU进行预测,得到预测向量集Pt
经过步骤1,得到分类模型Mt。对于DU中大量的未标记样本,利用已有的分类模型Mt对其进行预测。
对于每个样本x,经过分类模型的预测,产生预测概率向量p(x),如对于一个二分类任务而言,p(x)=[p(y=0|x),p(y=1|x)]表示模型判断x属于0类的概率为p(y=0|x),属于1类的概率为p(y=1|x)。对未标记样本集Du中的每个样本进行预测并产生上述概率向量p(x),可以得到当前轮次预测概率向量集Pt={p(x)|x∈Du},Pt中每个预测向量与Du中的样本呈一一对应关系。
步骤3、根据Pt计算每个样本的信息熵,选择熵值最大的前K个样本,如果未标记样本数量未达到K,则跳过该步骤。
对于步骤2中所述单个样本x的预测向量p(x),那么信息熵H(x)的计算方式为:
其中,N为类别数量。对每个样本的预测输出概率向量p(x)计算熵值,然后按照熵值大小降序排序,取熵值最大的前K个样本作为主动学习备选样本。
本实例K设置为1000。
步骤4、根据Mt提取K个未标记样本的特征表示,得到特征向量集Ft
特征表示指的是样本经过模型Mt进行前向传播计算得到的深层特征映射(feature map,即深度模型隐藏层的激活输出),如CNN输出层前一层的激活输出(logits)。
经过步骤3得到当前模型Mt对于所有未标记样本最不确定的K个未标记样本,再对这K个样本进行模型的深层特征提取,得到特征映射向量集Ft。这里的Ft和输入的K个标记样本呈一一对应关系。
步骤5、对Ft进行密度峰值聚类(Density Peaks Clustering),类簇的个数为C(C<K)。
密度峰值聚类是一种基于密度的聚类算法,算法于2014年被发表于Science。密度峰值聚类算法详细步骤如图2所示。
本实例中,距离计算使用欧几里得距离,也可以使用其他类型的度量方法,如余弦距离等,根据具体的任务来设定。假设表示第i个样本第p个维度,则样本xi和样本xj之间的欧式距离为:
取簇中心个数C=200,可以根据具体情况适当更改,但需保证C<K。其他聚类参数均采用密度峰值聚类算法的默认设置,详情见论文(Rodriguez A,Laio A.Clustering byfast search and find of density peaks[J].Science,2014,344(6191):1492-1496.)。
步骤6、依据(5)的聚类结果,分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本,交由专家标记,加入已标记数据集DL,同时从未标记数据集DU中删除相应样本;
根据步骤5中产生的C个簇中心所对应的在DU中的编号,从DU依次删除,并把这C个簇中心和标记好的标签组成键值对存入带标签样本集DL。令DAL表示当前专家新标记的样本集合,过程可描述为:
DL=DL+DAL (3)
DU=DU-DAL (4)
本实例中,簇中心、簇的边缘点、离群点的比例设置为5:3:2。
步骤7、利用当前已标记数据集DL对Mt进行更新得到Mt+1
此时,已经得到更新过后的已标记样本集DL,如图1中总体流程所示,此时需要对上一步的模型Mt进行微调(fine-tuning)更新。该步骤基于已经训练好的Mt的基础上进行参数更新,使得新生成的模型Mt+1对标记数据集进行再学习,让模型具有辨识新样本数据模式的能力。
步骤8、重复上述步骤,直到所有样本标记结束或达到指定迭代次数。
综上,本发明融合了置信度和多样性准则,结合了基于置信度策略的稳定性的优点,使得模型在连续学习的过程中对自身比较“陌生”的样本持续不断的改善性能,同时也吸收了多样性准则的优点,每次迭代获得了更多样的数据模式,从而避免了主动学习选择的数据模式过于单一的风险。
以上结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:包括如下步骤:
步骤1,基于已有的标记数据集DL训练初始模型Mt
步骤2,使用Mt对当前未标记数据集DU进行预测,得到预测向量集Pt
步骤3,根据Pt计算每个样本的信息熵,取熵值最大的前K个样本作为主动学习备选样本,如果未标记样本数量未达到K,则跳过该步骤;
步骤4,根据Mt提取K个未标记样本的特征表示,得到特征向量集Ft;由步骤3得到当前模型Mt对于所有未标记样本最不确定的K个未标记样本,再对这K个样本进行模型的深层特征提取,得到特征映射向量集Ft,其中Ft和输入的K个标记样本呈一一对应关系;
步骤5,对F0进行密度峰值聚类,将K个样本划分为C簇,其中C<K;
步骤6,依据步骤5的聚类结果,分别从密度峰值聚类产生的簇中心、簇的边缘点和离群点选取相应比例数量的样本,交由专家标记,加入已标记数据集DL,同时从未标记数据集DU中删除相应样本;
步骤7,利用当前已标记数据集DL对Mt进行更新得到Mt+1,如果所有样本标记结束或达到指定迭代次数,则完成整个算法流程;否则转至步骤1重复上述步骤,直到所有样本标记结束或达到指定迭代次数。
2.根据权利要求1所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤1中的初始训练集DL的数据是经过预处理的特征数据;
Mt为能够输出概率值的分类模型,包括但不限于深度神经网络、卷积神经网络、逻辑回归模型,模型的选择视具体任务而定。
3.根据权利要求1所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤2中,对于DU中大量的未标记样本,利用已有的分类模型Mt对其进行预测;
对于每个样本x,经过分类模型的预测,产生预测概率向量p(x),对未标记样本集Du中的每个样本进行预测并产生所述概率向量p(x),并得到当前轮次预测概率向量集Pt={p(x)|x∈Du},Pt中每个预测向量与Du中的样本呈一一对应关系。
4.根据权利要求2所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤3中,对于步骤2中所述单个样本x的预测向量p(x),那么信息熵H(x)的计算方式为:
H(x)=-∑0≤j<Np(y=j|x)log p(y=j|x) (1)
其中,N为类别数量。对每个样本的预测输出概率向量p(x)计算熵值,然后按照熵值大小降序排序,取熵值最大的前K个样本作为构成候选集,并提取候选集中各样本的特征表示作为步骤5的输入。
5.根据权利要求1所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤5中,距离计算使用欧几里得距离,
假设表示第i个样本第p个维度,则样本xi和样本xj之间的欧式距离为:
6.根据权利要求5所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤5中,距离计算根据具体的任务来设定,选用余弦距离等其他度量方法。
7.根据权利要求5所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤6中,根据步骤5中产生的C个簇中心所对应的在DU中的编号,从DU依次删除,并把这C个簇中心和标记好的标签组成键值对存入带标签样本集DL,令DAL表示当前专家新标记的样本集合,过程可描述为:
DL=DL+DAL (3)
DU=DU-DAL (4)。
8.根据权利要求5所述的融合置信度准则和多样性准则的主动学习样本选择策略,其特征在于:所述步骤7中,由前述步骤已得到更新过后的已标记样本集DL,此时需要对上一步的模型Mt进行微调更新;该步骤基于已经训练好的Mt的基础上进行参数更新,使得新生成的模型Mt+1对标记数据集进行再学习,让模型具有辨识新样本数据模式的能力。
CN201810567407.0A 2018-06-05 2018-06-05 融合置信度准则和多样性准则的主动学习样本选择策略 Pending CN108875816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810567407.0A CN108875816A (zh) 2018-06-05 2018-06-05 融合置信度准则和多样性准则的主动学习样本选择策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810567407.0A CN108875816A (zh) 2018-06-05 2018-06-05 融合置信度准则和多样性准则的主动学习样本选择策略

Publications (1)

Publication Number Publication Date
CN108875816A true CN108875816A (zh) 2018-11-23

Family

ID=64336599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810567407.0A Pending CN108875816A (zh) 2018-06-05 2018-06-05 融合置信度准则和多样性准则的主动学习样本选择策略

Country Status (1)

Country Link
CN (1) CN108875816A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615018A (zh) * 2018-12-24 2019-04-12 广东德诚科教有限公司 用户个性化行为评价方法、装置、计算机设备和存储介质
CN109857653A (zh) * 2019-01-17 2019-06-07 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN109902827A (zh) * 2019-01-18 2019-06-18 厦门快商通信息咨询有限公司 一种模型迭代更新方法及装置
CN109934354A (zh) * 2019-03-12 2019-06-25 北京信息科技大学 基于主动学习的异常数据检测方法
CN110245757A (zh) * 2019-06-14 2019-09-17 上海商汤智能科技有限公司 一种图像样本的处理方法及装置、电子设备和存储介质
CN110472743A (zh) * 2019-07-31 2019-11-19 北京百度网讯科技有限公司 样本集中特征穿越的处理方法及装置、设备与可读介质
CN111401980A (zh) * 2020-02-19 2020-07-10 北京值得买科技股份有限公司 一种提升样本排序多样性方法以及装置
CN111506757A (zh) * 2020-04-10 2020-08-07 复旦大学 基于增量迭代的语音标记装置及方法
CN111898630A (zh) * 2020-06-06 2020-11-06 东南大学 一种面向含噪标记样本的特征方法
CN111914061A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 文本分类主动学习的基于半径的不确定度采样方法和系统
CN112150307A (zh) * 2020-09-18 2020-12-29 浙江大学 供热系统在线映射模型参数估计方法与系统
CN112149721A (zh) * 2020-09-10 2020-12-29 南京大学 一种基于主动学习降低标注需求的目标检测方法
WO2020259582A1 (zh) * 2019-06-25 2020-12-30 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备
TWI726420B (zh) * 2018-12-04 2021-05-01 開曼群島商創新先進技術有限公司 叢集結果的解釋方法和裝置
CN112784818A (zh) * 2021-03-03 2021-05-11 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
CN114550932A (zh) * 2022-02-23 2022-05-27 西南交通大学 一种睡眠呼吸暂停风险评估方法、装置、设备及存储介质
CN115296933A (zh) * 2022-10-08 2022-11-04 国家工业信息安全发展研究中心 一种工业生产数据风险等级评估方法及系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI726420B (zh) * 2018-12-04 2021-05-01 開曼群島商創新先進技術有限公司 叢集結果的解釋方法和裝置
CN109615018B (zh) * 2018-12-24 2020-03-20 广东德诚科教有限公司 用户个性化行为评价方法、装置、计算机设备和存储介质
CN109615018A (zh) * 2018-12-24 2019-04-12 广东德诚科教有限公司 用户个性化行为评价方法、装置、计算机设备和存储介质
CN109857653A (zh) * 2019-01-17 2019-06-07 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN109857653B (zh) * 2019-01-17 2022-02-25 南通大学 一种基于主动学习的无监督缺陷程序模块识别方法
CN109902827A (zh) * 2019-01-18 2019-06-18 厦门快商通信息咨询有限公司 一种模型迭代更新方法及装置
CN109934354A (zh) * 2019-03-12 2019-06-25 北京信息科技大学 基于主动学习的异常数据检测方法
CN110245757B (zh) * 2019-06-14 2022-04-01 上海商汤智能科技有限公司 一种图像样本的处理方法及装置、电子设备和存储介质
CN110245757A (zh) * 2019-06-14 2019-09-17 上海商汤智能科技有限公司 一种图像样本的处理方法及装置、电子设备和存储介质
WO2020259582A1 (zh) * 2019-06-25 2020-12-30 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备
CN110472743A (zh) * 2019-07-31 2019-11-19 北京百度网讯科技有限公司 样本集中特征穿越的处理方法及装置、设备与可读介质
CN111401980A (zh) * 2020-02-19 2020-07-10 北京值得买科技股份有限公司 一种提升样本排序多样性方法以及装置
CN111506757A (zh) * 2020-04-10 2020-08-07 复旦大学 基于增量迭代的语音标记装置及方法
CN111898630A (zh) * 2020-06-06 2020-11-06 东南大学 一种面向含噪标记样本的特征方法
CN111914061A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 文本分类主动学习的基于半径的不确定度采样方法和系统
CN112149721A (zh) * 2020-09-10 2020-12-29 南京大学 一种基于主动学习降低标注需求的目标检测方法
CN112149721B (zh) * 2020-09-10 2023-11-17 南京大学 一种基于主动学习降低标注需求的目标检测方法
CN112150307A (zh) * 2020-09-18 2020-12-29 浙江大学 供热系统在线映射模型参数估计方法与系统
CN112150307B (zh) * 2020-09-18 2024-03-26 浙江大学 供热系统在线映射模型参数估计方法与系统
CN112784818A (zh) * 2021-03-03 2021-05-11 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
CN112784818B (zh) * 2021-03-03 2023-03-14 电子科技大学 基于分组式主动学习在光学遥感图像上的识别方法
CN114550932A (zh) * 2022-02-23 2022-05-27 西南交通大学 一种睡眠呼吸暂停风险评估方法、装置、设备及存储介质
CN115296933A (zh) * 2022-10-08 2022-11-04 国家工业信息安全发展研究中心 一种工业生产数据风险等级评估方法及系统

Similar Documents

Publication Publication Date Title
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN111191732B (zh) 一种基于全自动学习的目标检测方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN114241282A (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN108229550B (zh) 一种基于多粒度级联森林网络的云图分类方法
CN108171136A (zh) 一种多任务卡口车辆以图搜图的系统及方法
CN110197286A (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
CN109697469A (zh) 一种基于一致性约束的自学习小样本遥感图像分类方法
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN109581339B (zh) 一种基于头脑风暴自动调整自编码网络的声呐识别方法
CN105320967A (zh) 基于标签相关性的多标签AdaBoost集成方法
CN111967325A (zh) 一种基于增量优化的无监督跨域行人重识别方法
CN112819065A (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN113157800A (zh) 实时发现空中动态目标识别方法
CN110225001A (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN104268507A (zh) 一种基于rgb-d图像的手语字母识别方法
CN107577994A (zh) 一种基于深度学习的行人、车辆附属品识别及检索方法
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
CN111291705B (zh) 一种跨多目标域行人重识别方法
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
CN109933619A (zh) 一种半监督分类预测方法
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN107423697A (zh) 基于非线性融合深度3d卷积描述子的行为识别方法
CN111191033A (zh) 一种基于分类效用的开集分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123