CN115239991A - 一种面向标记噪声的深度度量学习方法 - Google Patents

一种面向标记噪声的深度度量学习方法 Download PDF

Info

Publication number
CN115239991A
CN115239991A CN202210768595.XA CN202210768595A CN115239991A CN 115239991 A CN115239991 A CN 115239991A CN 202210768595 A CN202210768595 A CN 202210768595A CN 115239991 A CN115239991 A CN 115239991A
Authority
CN
China
Prior art keywords
sample
mark
neural network
confidence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210768595.XA
Other languages
English (en)
Inventor
张敏灵
王维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210768595.XA priority Critical patent/CN115239991A/zh
Publication of CN115239991A publication Critical patent/CN115239991A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种面向标记噪声的深度度量学习算法;该方法包含以下步骤:(1)用户收集含有标记噪声的数据,包括样本特征和含有真实标记的候选标记集合;(2)为每个候选标记初始化置信度,并初始化神经网络参数;(3)计算损失函数,利用优化器对神经网络的参数进行更新,求得分类模型;(4)使用训练得到的分类模型对测试示例进行预测,得到每个样本的分类结果;(5)如果用户对预测结果满意,则结束,否则转到步骤(2),重新初始化标记置信度和神经网络参数。通过设计新型损失函数,将分类损失和度量学习损失统一在一个框架中。该方法不仅可以最小化模型输出结果和标记之间的差异,而且缩小了同类样本之间的距离并拉大异类样本之间的距离,从而可以实现含有标记噪声的情况下,特征表示能力的提升。

Description

一种面向标记噪声的深度度量学习方法
技术领域
本发明涉及一种数据分类方法,具体是一种面向标记噪声的深度度量学习方法,属于机器学习中的弱监督学习和度量学习技术领域。
背景技术
机器学习是目前人工智能中应用最为广泛的技术,而分类问题也是机器学习中最核心的问题。在分类问题中,样本在输入空间中由一个特征向量表示,在输出空间与一个标记相关联,这个标记刻画了这个样本的语义信息。监督学习成功的一大关键因素是可以获取大量有单一、正确标记的训练数据。但是在很多现实场景中,对数据给予完美的标注经常比较困难且经常发生错误,我们采集的数据的标记往往会带有大量的噪声。因此,研究带有标记噪声的分类问题,具有非常广泛的现实应用价值。
本发明研究的是含有冗余标记噪声的分类问题。在该问题中,每个样本在输出空间中和一组候选标记相关联,其中有且仅有一个标记是这个样本的真实标记,但是这个真实标记无法被学习算法获取。我们的目的是根据这样的数据学习多分类分类器,完成从输入空间到输出空间的映射。该类问题的核心技术是对候选标记集合进行消岐,即对真实标记进行估计。深度度量学习通过设计代理任务,学习特征映射,使得同类样本的特征表示尽可能接近,异类样本的特征表示尽可能远离,可以辅助分类模型的训练。
发明内容
在含有标记噪声的分类问题中,现有工作主要聚焦于如何设计有效的模型对含噪的候选标记集合进行消岐,很少关注于样本的特征空间。但是,在该任务中,由于标记噪声的存在,样本可能无法学习到较好的特征表示。因此,如何设计方法提升分类模型的特征表示能力是一个值得研究的问题。
为解决上述问题,本发明公开了一种面向标记噪声的深度度量学习方法,引入深度度量学习技术,对样本的特征表示加以约束,能够辅助特征表示的学习并提升模型分类的性能。
本发明提出一种面向标记噪声的深度度量学习算法。通过设计新型损失函数,将分类损失和度量学习损失统一在一个框架中。该方法不仅可以最小化模型输出结果和标记之间的差异,而且缩小了同类样本之间的距离并拉大异类样本之间的距离,从而可以实现含有标记噪声的情况下,特征表示能力的提升。该方法包含以下步骤:(1)用户收集含有标记噪声的数据,包括样本特征和含有真实标记的候选标记集合;(2)为每个候选标记初始化置信度,并初始化神经网络参数; (3)计算损失函数,利用优化器对神经网络的参数进行更新,求得分类模型;(4)使用训练得到的分类模型对测试示例进行预测,得到每个样本的分类结果;(5)如果用户对预测结果满意,则结束,否则转到步骤(2),重新初始化标记置信度和神经网络参数。
本发明进一步改进在于:
所述步骤(2)使用标记置信度来表示标记信息,为每个标记初始化置信度值,具体说明如下:
令X=Rd表示d维特征空间,令Y={1,2,...q}表示含有q个标记的标记空间;假设用户提交的样例图像集合 D={(x1,S1),(x2,S2),...,(xm,Sm)},其中样本xi∈X为d维的特征向量,而
Figure BDA0003726558180000031
为与样本xi对应的一组候选标记集合;标记yi为样本xi的真实标记,隐藏在候选标记集合之中,但是不能被学习算法获取;
为了对候选标记是真实标记的可能性进行描述,令fi= [fi1;fi2;...;fiq]表示样本xi的标记置信度向量,该向量所有元素和为1;由于候选标记集合外的标记不可能是样本的真实标记,因此初始化标记置信度如下:如果l∈Si,那么我们初始化
Figure BDA0003726558180000032
如果
Figure BDA0003726558180000033
那么我们初始化fil=0;同时,我们随机初始化神经网络模型参数。
本发明进一步改进在于:
步骤(3)通过最小化损失函数进行神经网络模型的训练,具体包括:利用深度学习技术端到端地对样本xi的特征进行提取,通过使用多层神经网络来逐步提取样本特征;
在利用神经网络提取特征后,我们利用全连接层将图像特征映射到一个低维向量hi,该向量可以看作样本xi的特征表示向量;
最后,通过最后一层全连接层将hi映射至类别概率向量pi∈[0,1]q,如下所示:
pi=softmax(Whi+b)
其中,W和b为最后一层全联接层的神经网络参数,softmax(·)为 softmax函数;类别概率向量pi=[pi1;pi2;...;piq]每一维可以看作对应类别是样本xi真实标记的概率;由于样本的真实标记难以确定,我们利用标记置信度对每个类别各自对应的交叉墒损失进行加权,如下所示:
Figure BDA0003726558180000041
其中,log(·)为对数函数;
本发明利用深度度量学习技术学习更优的特征表示空间;具体来说,在每一轮迭代时,首先根据标记置信度向量的内积确定属于同类和异类的样本对,如下所示:
Figure BDA0003726558180000042
其中,γ∈[0,1]为划分同类样本对与异类样本对的阈值。如果wij=1,那么(xi,xj)为同类样本对;如果wij=0,那么(xi,xj)为异类样本对。在确定样本对后,我们引入如下的度量学习损失:
Figure BDA0003726558180000043
上式中,P代表所有样本对组成的数据集,β为预先定义的间隔,||·||2为向量的L2范数,max(·,·)为最大化运算符;
最终的损失函数由上面两部分损失相加而成,即:
L=Lc+λLm
其中,λ为这两部分损失之间的权衡系数;我们计算损失函数L的值,求得对于神经网络参数的梯度,并利用优化器更新神经网络参数;随后,我们利用指数移动平均的方式更新标记置信度,即
Figure BDA0003726558180000044
Figure BDA0003726558180000045
本发明的有益效果:
本发明面向含有标记噪声的分类问题,利用深度度量学习方法,学习更好的样本特征表示空间。该方法可在含有大量标记噪声的弱监督环境下学习更优的特征表示,从而促进模型的训练,使得模型取得更好的泛化性能。
附图说明
图1是图像分类装置的工作流程图;
图2是本发明方法的流程图;
图3是分类模型构建阶段的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
如图1所示,以图像分类的过程为例。图像存储设备中包含了大量含有标记噪声的图像,每张图像和多个候选标记相关联,其中有且仅有一个标记是这个样本的真实标记。在对图像的真实标记进行判断时,用户首先从全部带有标记噪声的图像中选择m张样例图像提交给图像分类器(计算机模型)处理。在这里,首先需要对样例图像的特征进行提取。我们利用深度学习技术端到端地对图像的特征进行提取,通过使用多层卷积神经网络来逐步提取图像的有效特征。在利用卷积神经网络提取了图像的特征之后,我们利用全连接层将图像特征映射到一个低维向量h,该向量可以作为这张图像的特征表示向量。最后,通过全连接层将该低维向量映射到一个维度为类别数量的向量p,该向量每一个维度可以看作对应类别是该图像真实标记的概率。通过最小化本发明设计的损失函数,利用优化器对神经网络的参数进行更新。在测试阶段,若需要预测图像的标记时,将该图像输入该模型,并利用模型预测返回结果。如果用户对预测结果不满意,可从图像库中选择更多的图像反馈给图像分类装置。
本发明涉及的方法如图2所示。步骤10是起始动作。令X=Rd表示d维特征空间,令Y={1,2,...q}表示含有q个标记的标记空间。假设用户提交的样例图像集合D={(x1,S1),(x2,S2),...,(xm,Sm)},其中样本xi∈X为d维的特征向量,而
Figure BDA0003726558180000061
为与样本xi对应的一组候选标记集合。标记yi为样本xi的真实标记,隐藏在候选标记集合之中,但是不能被学习算法获取。在步骤11中,初始化样本的标记置信度和神经网络参数。在步骤12中,基于本发明提出的方法,计算损失函数,利用优化器对神经网络的参数进行更新。具体方法如图3所示。步骤 13中,利用步骤12得到的分类模型对测试示例进行预测,并返回分类结果。最后进入步骤14的结束状态。
图3给出了步骤12的详细描述。步骤1200是起始动作。步骤 1201至步骤1205构成循环体,循环的每一轮中对神经网络的参数和样本的标记置信度进行一轮更新。具体来说,步骤1203计算的损失函数由两部分组成,分别是基于标记置信度加权的分类损失和深度度量学习损失。首先介绍基于标记置信度加权的分类损失。令 fi=[fi1;fi2;...;fiq]表示样本xi的标记置信度向量,该向量所有元素和为1。由于样本的真实标记难以确定,我们利用标记置信度对每个类别对应的交叉墒损失进行加权,如下所示:
Figure BDA0003726558180000071
其中,pil表示模型预测第i个样本为第l个类别的概率。如果模型对第 i个样本预测为第l个类别的置信度比较大,那么第l个类别很有可能是第i个样本的真实标记,损失函数也会把更多的权重放在该类别对应的交叉墒损失上。
在训练数据含有标记噪声时,样本的特征表示学习会受到负面影响。本发明利用深度度量学习技术学习更优的特征表示空间。具体来说,在每一轮迭代时,根据标记置信度向量的内积确定属于同类和异类的样本对,如下所示:
Figure BDA0003726558180000072
其中,γ∈[0,1]为划分同类样本对与异类样本对的阈值。如果样本xi的标记置信度向量fi与样本xj的标记置信度向量fj的内积大于γ,则认为这两个样本属于同一类,需要让他们的特征表示尽可能接近;而如果样本xi的标记置信度向量fi与样本xj的标记置信度向量fj的内积小于γ,则认为这两个样本属于同一个类,需要让他们的特征表示尽可能远离。在确定如上样本对后,我们引入如下的度量学习损失:
Figure BDA0003726558180000081
上式中,P代表所有样本对组成的数据集,β为预先定义的间隔,hi为神经网络输出的样本xi的特征表示向量。如果(xi,xj)为上一步确定的同类样本对,那么该损失函数会让它们的特征表示更加接近;如果 (xi,xj)为上一步确定的异类样本对,那么该损失函数会让它们的特征表示向量距离更大,并希望该距离最终大于β。步骤1203中最终的损失函数由上面两部分损失相加而成,即:
L=Lc+λLm#(4)
其中,λ为这两部分损失之间的权衡系数。步骤1203计算上式,求得对神经网络参数的梯度,并利用优化器更新网络参数。随后进入步骤 1204。
为了更加准确地估计样本的标记置信度,步骤1204利用对模型输出结果进行指数移动平均(Exponential Moving Average)的方式来更新标记置信度。具体来说,令
Figure BDA0003726558180000082
表示第i个样本在第t轮迭代后的标记置信度向量,令
Figure BDA0003726558180000083
表示第i个样本在第t轮迭代时模型输出的类别概率向量,则我们按如下方式更新标记置信度向量:
Figure BDA0003726558180000084
通过指数移动平均方式来估计标记置信度,会给予最近时刻的模型输出更大的权重,给予初始时刻的模型输出越来越小的权重。由于模型逐渐收敛,预测结果也更加精准稳定,因此通过指数移动平均可以得到更加精准的标记置信度。经过T轮迭代,神经网络模型训练结束,随即进入步骤1206的结束状态。
本发明给出了一种面向标记噪声的深度度量学习方法。该方法首先对原始数据的候选标记初始化标记置信度,并初始化神经网络参数。然后,通过本发明给出方法计算同类样本对和异类样本对,并计算损失函数和对神经网络参数求导数,利用优化器更新神经网络参数。随后,对样本的标记置信度进行更新,并最终完成神经网络的训练。在测试阶段,利用训练得到的神经网络模型对测试样本的标记进行预测。通过引入本发明中的深度度量学习,可以学习样本更好的特征表示,从而提升模型的泛化性能。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (3)

1.一种面向标记噪声的深度度量学习方法,其特征在于;该方法包括以下步骤:
步骤(1)用户收集含有标记噪声的数据,包括样本特征和含有真实标记的候选标记集合;
步骤(2)为每个候选标记初始化置信度,并初始化神经网络参数;
步骤(3)计算损失函数,利用优化器对神经网络的参数进行更新,求得分类模型;
步骤(4)使用训练得到的分类模型对测试示例进行预测,得到每个样本的分类结果;
步骤(5)如果用户对预测结果满意,则结束,否则转到步骤(2),重新初始化标记置信度和神经网络参数。
2.根据权利要求1所述的一种面向标记噪声的深度度量学习方法,其特征在于;所述步骤(2)使用标记置信度来表示标记信息,为每个标记初始化置信度值,具体说明如下:
令X=Rd表示d维特征空间,令Y={1,2,…q}表示含有q个标记的标记空间;假设用户提交的样例图像集合D={(x1,S1),(x2,S2),…,(xm,Sm)},其中样本xi∈X为d维的特征向量,而
Figure FDA0003726558170000011
为与样本xi对应的一组候选标记集合;标记yi为样本xi的真实标记,隐藏在候选标记集合之中,但是不能被学习算法获取;
为了对候选标记是真实标记的可能性进行描述,令fi=[fi1;fi2;…;fiq]表示样本xi的标记置信度向量,该向量所有元素和为1;由于候选标记集合外的标记不可能是样本的真实标记,因此初始化标记置信度如下:如果l∈Si,那么我们初始化
Figure FDA0003726558170000021
如果
Figure FDA0003726558170000022
那么我们初始化fil=0;同时,我们随机初始化神经网络模型参数。
3.根据权利要求1所述的一种面向标记噪声的深度度量学习方法,其特征在于:所述步骤(3)通过最小化损失函数进行神经网络模型的训练,具体包括:
利用深度学习技术端到端地对样本xi的特征进行提取,通过使用多层神经网络来逐步提取样本特征;
在利用神经网络提取特征后,我们利用全连接层将图像特征映射到一个低维向量hi,该向量可以看作样本xi的特征表示向量;
最后,通过最后一层全连接层将hi映射至类别概率向量pi∈[0,1]q,如下所示:
pi=softmax(Whi+b)
其中,W和b为最后一层全联接层的神经网络参数,softmax(·)为softmax函数;类别概率向量pi=[pi1;pi2;…;piq]每一维可以看作对应类别是样本xi真实标记的概率;由于样本的真实标记难以确定,我们利用标记置信度对每个类别各自对应的交叉墒损失进行加权,如下所示:
Figure FDA0003726558170000023
其中,log(·)为对数函数;
本发明利用深度度量学习技术学习更优的特征表示空间;具体来说,在每一轮迭代时,首先根据标记置信度向量的内积确定属于同类和异类的样本对,如下所示:
Figure FDA0003726558170000031
其中,γ∈[0,1]为划分同类样本对与异类样本对的阈值。如果wij=1,那么(xi,xj)为同类样本对;如果wij=0,那么(xi,xj)为异类样本对。在确定样本对后,我们引入如下的度量学习损失:
Figure FDA0003726558170000032
上式中,P代表所有样本对组成的数据集,β为预先定义的间隔,‖·‖2为向量的L2范数,max(·,·)为最大化运算符;
最终的损失函数由上面两部分损失相加而成,即:
L=Lc+λLm
其中,λ为这两部分损失之间的权衡系数;我们计算损失函数L的值,求得对于神经网络参数的梯度,并利用优化器更新神经网络参数;随后,我们利用指数移动平均的方式更新标记置信度,即
Figure FDA0003726558170000033
Figure FDA0003726558170000034
CN202210768595.XA 2022-07-01 2022-07-01 一种面向标记噪声的深度度量学习方法 Pending CN115239991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210768595.XA CN115239991A (zh) 2022-07-01 2022-07-01 一种面向标记噪声的深度度量学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210768595.XA CN115239991A (zh) 2022-07-01 2022-07-01 一种面向标记噪声的深度度量学习方法

Publications (1)

Publication Number Publication Date
CN115239991A true CN115239991A (zh) 2022-10-25

Family

ID=83670579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210768595.XA Pending CN115239991A (zh) 2022-07-01 2022-07-01 一种面向标记噪声的深度度量学习方法

Country Status (1)

Country Link
CN (1) CN115239991A (zh)

Similar Documents

Publication Publication Date Title
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN109523018B (zh) 一种基于深度迁移学习的图片分类方法
CN111127364B (zh) 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
Sefidian et al. Estimating missing data using novel correlation maximization based methods
CN113361627A (zh) 一种面向图神经网络的标签感知协同训练方法
CN115098789B (zh) 基于神经网络的多维兴趣融合推荐方法、装置及相关设备
Qu et al. Improving the reliability for confidence estimation
CN112465016A (zh) 基于最优劣距的部分多标记学习方法
CN112270334A (zh) 一种基于异常点暴露的少样本图像分类方法及系统
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
US11669565B2 (en) Method and apparatus for tracking object
CN115239991A (zh) 一种面向标记噪声的深度度量学习方法
CN113724325B (zh) 一种基于图卷积网络的多场景单目相机位姿回归方法
CN114882279A (zh) 基于直推式半监督深度学习的多标签图像分类方法
Suyal et al. An Agile Review of Machine Learning Technique
JP6993250B2 (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN117237720B (zh) 基于强化学习的标签噪声矫正图像分类方法
CN116310463B (zh) 一种无监督学习的遥感目标分类方法
US20210365794A1 (en) Discovering Novel Artificial Neural Network Architectures
CN118037738B (zh) 一种沥青路面灌缝胶黏结性能检测方法及设备
Singh et al. CHELM: Convex Hull based Extreme Learning Machine for salient object detection
CN114860945A (zh) 基于规则信息的高质量噪音检测方法与装置
CN115035330A (zh) 一种面向环境变化的无监督迁移学习图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination