CN106897390B - 基于深度度量学习的目标精确检索方法 - Google Patents

基于深度度量学习的目标精确检索方法 Download PDF

Info

Publication number
CN106897390B
CN106897390B CN201710060334.1A CN201710060334A CN106897390B CN 106897390 B CN106897390 B CN 106897390B CN 201710060334 A CN201710060334 A CN 201710060334A CN 106897390 B CN106897390 B CN 106897390B
Authority
CN
China
Prior art keywords
class
group
loss
sample
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710060334.1A
Other languages
English (en)
Other versions
CN106897390A (zh
Inventor
段凌宇
白燕
楼燚航
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710060334.1A priority Critical patent/CN106897390B/zh
Publication of CN106897390A publication Critical patent/CN106897390A/zh
Priority to PCT/CN2017/104397 priority patent/WO2018137358A1/zh
Application granted granted Critical
Publication of CN106897390B publication Critical patent/CN106897390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度度量学习的目标精确检索方法,方法包括:深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象相互靠近,不同类别的目标对象相互远离,具有不同类别标签的目标对象的特征距离大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间距离相互靠近,具有不同属性的类内个体之间大于预设距离,以获得训练后的深度神经网络模型;采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。本实施例的方法解决了垂直领域的精确检索问题。

Description

基于深度度量学习的目标精确检索方法
技术领域
本发明涉及计算机视觉技术,具体涉及一种基于深度度量学习的目标精确检索方法。
背景技术
目标精确检索一直是计算机领域中的至关重要的问题,同时也是对象跟踪、行为分析等应用分析的基础。精确检索(同时也称细粒度识别),旨在精细地区分不同种视觉上相似的物体类别。例如,细粒度车辆识别可以识别出图片内特定的汽车模型,比如“奥迪A62015款”。近年来,随着计算机大规模并行计算能力的突飞猛进以及深度卷积神经网络的成功应用,人们在大量细粒度图像分类的垂直领域投入了更多研究,比如识别不同品种的动物、植物、车辆、衣服、行人的身份等。
目标精确检索的目的在于将某个特定查询目标从一系列具有相似外表的参考对象数据集中识别出来。识别的过程是一个相似度比对的过程,依据与查询图像的相似度得分从高到低排序。相似度得分的产生过程通常包含三个步骤:提取特征、做相应变换、相似度度量。
对于查询目标和参考对象,常见的提取特征有颜色、纹理、以及尺度不变特征等,这些特征再经过某种数学模型进行变换或融合,再选取适当的距离度量生成特征之间的相似度得分并排序。
细粒度图像识别的难点在于类间的相似性和类内的多样性。一方面,不同的细粒度类别对象本身属于某一个大类别(如:奥迪A6和奥迪A8都属于奥迪车),其具有类间相似性,使得提取出的特征也非常相似导致难以区分。另一方面,同一细粒度类别的对象由于不同的视角,姿态和光照条件会呈现出极大的差异性,称为类内多样性。
为了减轻在细粒度物体识别过程中类间相似性和类内差异性带来的负作用,为此,通过基于局部部件的方法被用来捕捉细微的局部特征,区分不同类别物体,减小由于视角和姿势变化导致的特征上的差异。例如,细粒度鸟类识别中学习鸟头和身体的局部特征模型,在局部部件之间加入几何约束。
但是,基于局部部件的方法依赖于精确的部件定位,当缺少大量视角变化时性能低下。
最近业内人士提出了基于度量学习的方法,这种方法旨在最大化类间距离同时最小化类内距离,以降低类间相似性和类内多样性的影响。基于度量学习方法中使用的目标检索算法大多依赖手工设计的特征,如:HOG、LBP、SIFT等,然后主要研究两幅图像之间的距离度量方法。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的一种基于深度度量学习的目标精确检索方法。
为此目的,第一方面,本发明提出一种基于深度度量学习的目标精确检索方法,包括:
深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,具有不同类别标签的目标对象的特征距离大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络模型;
采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。
可选地,所述深度神经网络模型为根据选择对象的属性信息能够区分不同对象类别的网络模型;
和/或,
迭代训练之前的深度神经网络结构为通用的深度卷积神经网络结构。
可选地,深度神经网络结构的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法回传网络中各个层对应的输出误差,通过梯度下降算法调整深度神经网络结构中的权重值,使得训练后的深度神经网络结构中损失收敛。
可选地,所述深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;
迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确定的损失。
可选地,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下:
采用Kmeans(K均值)聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;
将一个类别中所有样本均值作为该类内均值点;以及
根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。
可选地,迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确定的损失,包括:
根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS
其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为融入类内多样性的均值三元组损失函数的损失。
可选地,采用Kmeans聚类算法对类内的所有特征点进行聚类,得到类内的若干分组,包括:
使用
Figure BDA0001218822700000041
对类内的所有特征点进行聚类,得到类内的若干分组;
其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。
可选地,将一个类别中所有样本均值作为该类内均值点,包括:
若一个包含Np个类内样本集Xp
Figure BDA0001218822700000042
1≤i≤Np,则该类内样本集的类内均值参考点cp为:
Figure BDA0001218822700000043
Figure BDA0001218822700000044
可选地,根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点,包括:
若一个包含Np个组内样本集Xp
Figure BDA0001218822700000045
1≤i≤Np,则组内均值参考点cp为:
Figure BDA0001218822700000046
可选地,根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数,包括:
根据公式一获取融入类内多样性的三元组损失函数的损失值;
公式一:
Figure BDA0001218822700000051
Figure BDA0001218822700000052
其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g
代表两个取自不同组的同类样本。对于类间关系,
Figure BDA0001218822700000054
是正样本,
Figure BDA0001218822700000055
是负样本;
α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔;
反向传播的偏导数:
正样本
Figure BDA0001218822700000056
对损失的偏导数为:
负样本
Figure BDA0001218822700000058
对损失的的偏导数为:
Figure BDA0001218822700000059
由上述技术方案可知,本发明的基于深度度量学习的目标精确检索方法,能实现类内个体具有相似属性的距离更接近,相比传统的三元组损失函数训练的模型,检索的准确率得到了极大的提高;通过多损失函数联合优化的模型产生的特征更加鲁棒,检索性能比单一损失函数优化的模型更高。
附图说明
图1为本发明一实施例提供的同类样本在模型优化过程中相应的特征分布的示意图;
图2为现有技术中基于聚类方法产生的车辆图像的类内分组示意图;
图3为本发明一实施例提供的以VGGM为基本网络结构的训练阶段示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
结合图1所示,本发明实施例的基于深度度量学习的目标精确检索方法,包括:
步骤A01、深度神经网络结构的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,具有不同类别标签的目标对象的特征距离大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离(如图1中的(a)、(b)所示),以获得训练后的深度神经网络结构。
应说明的是,结合图1中的(a)、(b),该步骤中,训练后的深度神经网络结构可使得相同类别的目标对象相互靠近,不同类别的目标对象相互远离,具有不同类别标签的目标对象的特征距离大于预设距离;相应地,属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离相互靠近,具有不同属性的类内个体之间的特征距离大于预设距离。
步骤A02、采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标。
在具体应用中,上述的深度神经网络结构可为根据选择对象的属性信息能够区分不同对象类别的网络结构。
在本实施例中,迭代训练之前的深度神经网络结构优选为通用的深度卷积神经网络结构。
上述实施例的目标精确检索方法属于计算机视觉领域,可,适用于基于视频处理的智能交通和智能监控技术。由此,可解决垂直领域的精确检索问题,即给定一个查询图片,需要在一个大型的垂直领域的数据库(如:车辆的数据集)中查找相同的对象目标或类别。
需要说明的是,本实施例中,深度神经网络结构的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法计算到各个层对应的损失,再根据梯度下降算法更新深度神经网络结构中的权重值,使得训练后的深度神经网络结构中损失收敛。
也就是说,深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;
迭代训练中执行前向传播计算的损失LGS-TRS为:Softmax损失函数和均值三元组损失函数根据各自的权重值确定的损失。
例如,可根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS
其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为均值三元组损失函数的损失。
也就是说,三元组损失网络使用相似度距离学习而不是选择超平面,这种网络对特征的判别能力可以通过在学习目标中加入分类损失(Softmax损失)来显著提升性能。
因此,上述方法通过多任务学习的方法联合优化融入类内多样性的均值三元组损失和Softmax损失。在网络的前向传播计算损失的过程中,使用线性加权的方法实现这两种损失的结合。本发明实施例中,优化这个多损失函数可以实现有力的细粒度分类性能和提取有区分度的细粒度检索特征。
上述实施例中目标精确检索的方法,在距离度量的优化过程创新性的中融入了类内多样性的表达。利用该方法训练的模型提取出的图片特征表达,可以较好的保留细粒度类别类内的多样性,在精确检索时拥有相同或相似的类内属性的图片可以在检索结果中得到较高的排名。不同对象图片的相似度时表现为两幅图像生成的特征之间的欧式距离,距离越近越相似。如图1所示,为同类样本在模型优化过程中相应的特征分布。
图1(a)示出的是现有传统的三元组损失示意图,图1(b)示出的是本发明的加入类内多样性(ICV)的均值三元组损失的特征分布示意图。在图1(a)和图1(b)中可以看出,本发明的损失函数在模型优化过程中,同类对象会聚集在一起,同时同类对象内部具有相似属性的对象会在类内聚集成更小的团。
另外,在深度网络训练阶段,输入是正负样本集合,正样本集合包含同一个对象或类别但是拍摄自不同摄像头的多张图片,负样本集合包含不同对象或类别的多张图片,图片的数目没有特殊限制。每一个对象除了本身的类别信息,还拥有一个类别内的组别信息。前者是根据类别定义界定的不同类别标签,后者是在一个细粒度类别内进行划分的组别,划分的依据是通过Kmeans算法聚类得到。所有的输入图片经过相同的深度神经网络被映射到一个高维欧式空间,优化目标是在欧式空间中相同类别的的对象尽可能靠近,不同类别的对象尽可能远离,同时在类内的特征分布上,拥有相似属性的同一个组别的对象尽可能接近,不同组别的对象保持一定的距离间隔。
为此,在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下步骤B01至步骤B04:
B01、采用Kmeans(K均值)聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;
举例来说,使用对类内的所有特征点进行聚类,得到类内的若干分组;
其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。
B02、将一个类别中所有样本均值作为该类内均值点。
可理解的是,如果一个包含Np个类内样本集Xp
Figure BDA0001218822700000093
1≤i≤Np,则该类内样本集的类内均值参考点cp为:
Figure BDA0001218822700000094
B03、根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;
若一个包含Np个组内样本集Xp
Figure BDA0001218822700000095
1≤i≤Np,则组内均值参考点cp为:
Figure BDA0001218822700000096
B04、根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数。
即根据公式一获取融入类内多样性的三元组损失函数的损失值;
公式一:
Figure BDA0001218822700000101
其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g
Figure BDA0001218822700000102
代表两个取自不同组的同类样本。对于类间关系,
Figure BDA0001218822700000103
是正样本,
Figure BDA0001218822700000104
是负样本;
α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔;
反向传播的偏导数:
正样本
Figure BDA0001218822700000105
对损失的偏导数为:
Figure BDA0001218822700000106
负样本
Figure BDA0001218822700000107
对损失的的偏导数为:
下面将对具体对用于目标精确检索的方法进行详细描述:
在深度网络训练阶段,输入是正负样本集合,正样本集合包含同一个对象或类别但是拍摄自不同摄像头的多张图片,负样本集合包含不同对象或类别的多张图片,图片的数目没有特殊限制。每一个对象除了本身的类别信息,还拥有一个类别内的组别信息。
1.类内组别划分
为了表现类内多样性,需要将相同类别的样本进行分组。不同于类别标签,类内数据的内在属性特征非常抽象,难以精确表述。
为此,本发明中使用无监督的方法给每个类别中的对象进行分组。
首先,用一个在ImageNet数据集上做过1000类分类任务的VGG_CNN_M_1024(VGGM)深度神经网络作为特征提取器;
接着,对所有的训练图像提取网络最后的全相连层的输出作为特征,并用主成员分析(PCA)进行特征降维;
最后,使用K-means方法聚类:
Figure BDA0001218822700000111
这里f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg为聚类中心。每个图片实例在聚类后都有一个组标签,并且划分在一个组内的对象成员往往有相似的性质如颜色、拍摄视角,背景等。
2.均值三元组损失
当前现有技术在正样本中,三元组的参考点通常是随机选取的。为了降低不恰当参考点选择带来的负影响,本发明实施例中使用通过计算所有正样本平均值的方法选择参考点,并建立均值三元组损失。
例如,给定一个包含Np个样本的正样本集
Figure BDA0001218822700000112
和包含Nn个从其他类选取的样本的负样本集
Figure BDA0001218822700000113
这样,均值参考点可以被表述为:
Figure BDA0001218822700000114
其中1≤i≤Np,1≤j≤Nn。区别于使用随机选取的参考点,均值三元组损失表述为:
这里
Figure BDA0001218822700000121
是最接近均值参考点cp的样本。虽然损失函数只用到了作为正样本均值的参考点,但在反向传播过程中涉及到所有正样本。
如果用所有正样本计算得到的均值参考点不满足约束所有的正样本都需要反向传播,正样本
Figure BDA0001218822700000123
对损失的偏导数为:
Figure BDA0001218822700000124
关于正样本
Figure BDA0001218822700000125
对损失的偏导数为:
Figure BDA0001218822700000126
关于负样本
Figure BDA0001218822700000127
对损失的的偏导数为:
Figure BDA0001218822700000128
可理解的是,下面的融入类内多样性的均值三元组损失是在上述三元组损失的基础上进一步优化的。本实施例可以选择上述1和2实现,也可以选择1和3实现。本发明不对其进行限定。
3.融入类内多样性的均值三元组损失
为了保存与类内属性相似的样本相对距离更近,本发明在提出的均值三元组损失中加入了类内多样性。
令cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心。每一个类别c有一个类中心cp和G个组中心cp,g
对于类内多样性,令
Figure BDA0001218822700000129
代表两个取自不同组的同类样本。
对于类间关系,
Figure BDA00012188227000001210
是正样本,
Figure BDA00012188227000001211
是负样本。
将类内方差加入三元组中,约束为:
Figure BDA0001218822700000131
Figure BDA0001218822700000132
这里α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔。因此,加入类内多样性的均值三元组损失可表示为:
Figure BDA0001218822700000133
以下以监控场景下的车辆精确检索为例进行说明。
本实施例着重介绍如何将本发明应用在车辆的精确检索问题上。需要注意的是,本实施例针对的问题是针对车牌识别失效的场景如无牌、套牌、遮挡牌照等情况,利用车辆本身的细节特性进行卡口车辆精确检索。车辆本身的细节包括车辆上的喷绘,年检表、纸巾盒,装饰性图案、喷漆等。
现有技术中在模型训练阶段,对训练图像进行聚类获得类内的组别信息,如图2所示,现有技术中的针对同一款捷豹车的聚类效果图。图2为现有基于聚类方法产生的车辆图像的类内分组示意图。对车辆数据集进行组内划分,同一分组下的图像体现了相似的属性,如:角度,颜色等,其中聚类中心K=5。
图3为本实施例的以VGGM为基本网络结构的训练阶段示意图。该网络结构的损失函数由两部分组成,分别是Softmax损失函数和融入类内多样性的均值三元组损失函数。
本实施例的深度神经网络结构图如图3所示,此处以VGG_M神经网络为例。网络的训练过程是一个多损失函数的优化过程包括Softmax损失函数与本发明中提出的融入类内多样性的均值三元组损失函数。两个损失函数均连接在网络的最后一层全连接层FC7之后,在VGG_M网络中,FC7层的网络输出是1024维。在特征进入融入类内多样性的均值三元组损失之前需经过L2归一化层。
关于标签,每个训练样本均标注一个类别标签和组别ID。对于Softmax损失函数,需要提供类别标签,对于融入类内多样性的均值三元组损失函数需要提供类别标签与类内的组别ID。
在实际的测试阶段,可以将训练的网络中的损失函数层都除去,测试图片送入网络前向传播并提取FC7层的输出向量作为图片的特征表达。图片之间的相似度只需计算特征向量之间的欧式距离。在检索过程中,依次比较查询图片与数据库中的参考图片之间的特征之间的欧氏距离,按从小到大排序寻找与查询图像最像的目标对象。
由此,本发明中提出的融入类内多样性的均值三元组损失函数,能实现类内个体具有相似属性的距离更接近,相比传统的三元组损失函数训练的模型,检索的准确率得到了极大的提高;通过多损失函数联合优化的模型产生的特征更加鲁棒,检索性能比单一损失函数优化的模型更高。
本领域技术人员可以理解,实施例中的各步骤可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (5)

1.一种基于深度度量学习的目标精确检索方法,其特征在于,包括:
深度神经网络的迭代训练中,对提取的同类目标对象的多张图片的特征进行处理过程中,使得相同类别的目标对象的特征距离减小,不同类别的目标对象的特征距离增加,具有不同类别标签的目标对象大于预设距离,且属于同一类别的个体的特征分布中,具有相似属性的类内个体之间的特征距离减小,具有不同属性的类内个体之间的特征距离大于预设距离,以获得训练后的深度神经网络模型;
采用训练后的深度神经网络模型对待查询图片与预设的参考图片分别提取各自的特征,并获取查询图片与参考图片之间特征的欧式距离,对该距离进行从小到大的排序,获得精确检索的目标;
所述深度神经网络结构为根据选择对象的属性信息能够区分不同对象类别的网络结构;
和/或,
迭代训练之前的深度神经网络结构为通用的深度卷积神经网络结构;
深度神经网络模型的迭代训练中,还用于执行前向传播计算损失,并通过反向传播算法回传网络中每一层输出对应的误差,进一步调整深度神经网络结构中的权重值,使得训练中的深度神经网络模型损失能收敛;
所述深度卷积神经网络的最后一层全连接的输出有两个分支,一个分支连接Softmax归一化指数损失函数,另一分支连接融入类内多样性的均值三元组损失函数;
迭代训练中执行前向传播计算的损失为:Softmax损失函数和均值三元组损失函数根据各自的权重值确定的损失;
在深度卷积神经网络迭代训练过程中,融入类内多样性的均值三元组损失函数的损失确定方式如下:
采用Kmeans聚类算法对类内的所有特征点进行聚类,得到类内的若干分组;
将一个类别中所有样本均值作为该类内均值点;以及
根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点;根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数;
根据所有样本的类别标签和每一类内的组别标识,获取所有正样本、负样本分别到类内均值点和各自分组后的组内均值点的距离,并计算融入类内多样性的均值三元组损失函数,包括:
根据公式一获取融入类内多样性的三元组损失函数的损失值;
公式一:
Figure FDA0002090301770000021
Figure FDA0002090301770000022
其中,cp代表类别c中所有样本的均值中心,cp,g代表类别c的组g中所有样本的均值中心;每一个类别c有一个类中心cp和G个组中心cp,g;f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量;Np表示类别c中的样本数量;
Figure FDA0002090301770000023
代表两个取自不同组的同类样本;对于类间关系,
Figure FDA0002090301770000024
是正样本,是负样本;
α1是类中心与不同类别样本距离的间隔,α2是类内组中心与不同组别样本距离的间隔;
反向传播的偏导数:
正样本
Figure FDA0002090301770000031
对损失的偏导数为:
负样本
Figure FDA0002090301770000033
对损失的的偏导数为:
Figure FDA0002090301770000034
2.根据权利要求1所述的方法,其特征在于,迭代训练中执行前向传播计算的损失为:Softmax损失函数和融入类内多样性的均值三元组损失函数根据各自的权重值确定的损失,包括:
根据LGS-TRS=ωLsoftmax+(1-ω)LICV-triplet确定前向传播计算的损失LGS-TRS
其中,ω是加权权重,Lsoftmax为Softmax损失函数的损失,LICV-triplet为融入类内多样性的均值三元组损失函数的损失。
3.根据权利要求1所述的方法,其特征在于,采用Kmeans聚类算法对类内的所有特征点进行聚类,得到类内的若干分组,包括:
使用
Figure FDA0002090301770000035
对类内的所有特征点进行聚类,得到类内的若干分组;
其中,f(x)是提取的图像的特征,G是组数,代表聚类族的数目,Np,g是在组Sc,g内的样本数量,μg是聚类中心。
4.根据权利要求1所述的方法,其特征在于,将一个类别中所有样本均值作为该类内均值点,包括:
若一个包含Np个类内样本集Xp
Figure FDA0002090301770000036
1≤i≤Np,则该类内样本集的类内均值参考点cp为:
Figure FDA0002090301770000041
Figure FDA0002090301770000042
5.根据权利要求1所述的方法,其特征在于,根据聚类得到的类内若干分组,在一个类内计算组内均值,作为组内均值点,包括:
若一个包含Np个组内样本集Xp
Figure FDA0002090301770000043
1≤i≤Np,则组内均值参考点cp为:
CN201710060334.1A 2017-01-24 2017-01-24 基于深度度量学习的目标精确检索方法 Active CN106897390B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710060334.1A CN106897390B (zh) 2017-01-24 2017-01-24 基于深度度量学习的目标精确检索方法
PCT/CN2017/104397 WO2018137358A1 (zh) 2017-01-24 2017-09-29 基于深度度量学习的目标精确检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710060334.1A CN106897390B (zh) 2017-01-24 2017-01-24 基于深度度量学习的目标精确检索方法

Publications (2)

Publication Number Publication Date
CN106897390A CN106897390A (zh) 2017-06-27
CN106897390B true CN106897390B (zh) 2019-10-15

Family

ID=59199235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710060334.1A Active CN106897390B (zh) 2017-01-24 2017-01-24 基于深度度量学习的目标精确检索方法

Country Status (2)

Country Link
CN (1) CN106897390B (zh)
WO (1) WO2018137358A1 (zh)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897390B (zh) * 2017-01-24 2019-10-15 北京大学 基于深度度量学习的目标精确检索方法
WO2019017990A1 (en) * 2017-07-17 2019-01-24 Google Llc UNIFIED INTEGRATION OF LEARNING
CN107688823B (zh) * 2017-07-20 2018-12-04 北京三快在线科技有限公司 一种图像特征获取方法及装置,电子设备
WO2019015785A1 (en) * 2017-07-21 2019-01-24 Toyota Motor Europe METHOD AND SYSTEM FOR LEARNING A NEURAL NETWORK TO BE USED FOR SEMANTIC INSTANCE SEGMENTATION
CN107392158A (zh) * 2017-07-27 2017-11-24 济南浪潮高新科技投资发展有限公司 一种图像识别的方法及装置
CN108229532B (zh) * 2017-10-30 2021-02-12 北京市商汤科技开发有限公司 图像识别方法、装置和电子设备
CN107886073B (zh) * 2017-11-10 2021-07-27 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法
CN108090499B (zh) * 2017-11-13 2020-08-11 中国科学院自动化研究所 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN107944366B (zh) * 2017-11-16 2020-04-17 山东财经大学 一种基于属性学习的手指静脉识别方法及装置
CN109815971B (zh) * 2017-11-20 2023-03-10 富士通株式会社 信息处理方法和信息处理装置
CN107943938A (zh) * 2017-11-23 2018-04-20 清华大学 一种基于深度乘积量化的大规模图像相似检索方法及系统
CN108010060B (zh) * 2017-12-06 2021-07-27 北京小米移动软件有限公司 目标检测方法及装置
CN108197538B (zh) * 2017-12-21 2020-10-16 浙江银江研究院有限公司 一种基于局部特征和深度学习的卡口车辆检索系统及方法
CN108427740B (zh) * 2018-03-02 2022-02-18 南开大学 一种基于深度度量学习的图像情感分类与检索算法
CN110569836B (zh) * 2018-06-06 2022-07-12 赛灵思电子科技(北京)有限公司 一种可变长字符串识别方法与装置
CN108830209B (zh) * 2018-06-08 2021-12-17 西安电子科技大学 基于生成对抗网络的遥感图像道路提取方法
CN108986168B (zh) * 2018-06-13 2022-08-23 深圳市感动智能科技有限公司 一种基于深度度量学习结合词袋树模型的机器人回环检测方法和装置
CN110633722B (zh) * 2018-06-22 2023-07-14 赛灵思电子科技(北京)有限公司 人工神经网络调整方法和装置
CN110717359B (zh) * 2018-07-12 2023-07-25 浙江宇视科技有限公司 基于数理统计的反向传播优化方法、装置及电子设备
CN109086811B (zh) * 2018-07-19 2021-06-22 南京旷云科技有限公司 多标签图像分类方法、装置及电子设备
CN110766152B (zh) * 2018-07-27 2023-08-04 富士通株式会社 用于训练深度神经网络的方法和装置
CN109101602B (zh) * 2018-08-01 2023-09-12 腾讯科技(深圳)有限公司 图像检索模型训练方法、图像检索方法、设备及存储介质
CN109147446A (zh) * 2018-08-20 2019-01-04 国政通科技有限公司 电子考试系统
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
CN109558898B (zh) * 2018-11-09 2023-09-05 复旦大学 一种基于深度神经网络的高置信度的多选择学习方法
CN109271462A (zh) * 2018-11-23 2019-01-25 河北航天信息技术有限公司 一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
CN111274422A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 模型训练方法、图像特征提取方法、装置及电子设备
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN111382602A (zh) * 2018-12-28 2020-07-07 深圳光启空间技术有限公司 一种跨域人脸识别算法、存储介质及处理器
CN109934281B (zh) * 2019-03-08 2021-01-26 电子科技大学 一种二分类网络的非监督训练方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN111651433B (zh) * 2019-03-27 2023-05-12 上海铼锶信息技术有限公司 一种样本数据清洗方法及系统
CN110070120B (zh) * 2019-04-11 2021-08-27 清华大学 基于判别采样策略的深度度量学习方法及系统
CN110032973B (zh) * 2019-04-12 2021-01-19 哈尔滨工业大学(深圳) 一种基于人工智能的无监督寄生虫分类方法及系统
CN110147732A (zh) * 2019-04-16 2019-08-20 平安科技(深圳)有限公司 指静脉识别方法、装置、计算机设备及存储介质
CN110263644B (zh) * 2019-05-21 2021-08-10 华南师范大学 基于三胞胎网络的遥感图像分类方法、系统、设备及介质
CN110414550B (zh) * 2019-06-14 2022-07-29 北京迈格威科技有限公司 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN110263207A (zh) * 2019-06-20 2019-09-20 杭州时趣信息技术有限公司 图像搜索方法、装置、设备及计算机可读存储介质
CN110647914A (zh) * 2019-08-14 2020-01-03 深圳壹账通智能科技有限公司 智能服务水平训练方法、装置及计算机可读存储介质
CN110674692A (zh) * 2019-08-23 2020-01-10 北京大学 一种基于难样本生成的目标精确检索方法及系统
CN110704666B (zh) * 2019-08-30 2022-06-03 北京大学 一种提升跨视角车辆精确检索的方法及系统
CN110688976A (zh) * 2019-10-09 2020-01-14 创新奇智(北京)科技有限公司 基于图像识别的门店比对方法
CN110851645B (zh) * 2019-11-08 2022-09-13 吉林大学 一种基于深度度量学习下相似性保持的图像检索方法
CN110866134B (zh) * 2019-11-08 2022-08-05 吉林大学 一种面向图像检索的分布一致性保持度量学习方法
CN111008224B (zh) * 2019-11-13 2023-10-27 浙江大学 一种基于深度多任务表示学习的时间序列分类和检索方法
CN112819019B (zh) * 2019-11-15 2023-06-20 财团法人资讯工业策进会 分类模型生成装置及其分类模型生成方法
CN111062430B (zh) * 2019-12-12 2023-05-09 易诚高科(大连)科技有限公司 一种基于概率密度函数的行人重识别评价方法
CN111126470B (zh) * 2019-12-18 2023-05-02 创新奇智(青岛)科技有限公司 基于深度度量学习的图片数据迭代聚类分析方法
CN111062440B (zh) * 2019-12-18 2024-02-02 腾讯科技(深圳)有限公司 一种样本选择方法、装置、设备及存储介质
CN111144566B (zh) * 2019-12-30 2024-03-22 深圳云天励飞技术有限公司 神经网络权重参数的训练方法、特征分类方法及对应装置
CN111242951A (zh) * 2020-01-08 2020-06-05 上海眼控科技股份有限公司 车辆检测方法、装置、计算机设备和存储介质
CN111339886B (zh) * 2020-02-19 2024-01-09 中山大学 一种基于相似性损失的行为识别方法
CN111291887B (zh) * 2020-03-06 2023-11-10 北京迈格威科技有限公司 神经网络的训练方法、图像识别方法、装置及电子设备
CN111401519B (zh) * 2020-03-06 2023-07-04 北京工业大学 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN111397870B (zh) * 2020-03-08 2021-05-14 中国地质大学(武汉) 一种基于多样化集成卷积神经网络的机械故障预测方法
CN111460096B (zh) * 2020-03-26 2023-12-22 北京金山安全软件有限公司 一种碎片文本的处理方法、装置及电子设备
CN111507289A (zh) * 2020-04-22 2020-08-07 上海眼控科技股份有限公司 视频匹配方法、计算机设备和存储介质
CN111626212B (zh) * 2020-05-27 2023-09-26 腾讯科技(深圳)有限公司 图片中对象的识别方法和装置、存储介质及电子装置
CN111667001B (zh) * 2020-06-05 2023-08-04 平安科技(深圳)有限公司 目标重识别方法、装置、计算机设备和存储介质
CN111931807B (zh) * 2020-06-24 2024-02-23 浙江大学 一种基于特征空间组合的小样本类增量学习方法
CN112101114B (zh) * 2020-08-14 2024-05-24 中国科学院深圳先进技术研究院 一种视频目标检测方法、装置、设备以及存储介质
CN112036511B (zh) * 2020-09-30 2024-04-30 上海美迪索科电子科技有限公司 基于注意力机制图卷积神经网络的图像检索方法
CN112818162B (zh) * 2021-03-04 2023-10-17 泰康保险集团股份有限公司 图像检索方法、装置、存储介质和电子设备
CN112949528B (zh) * 2021-03-12 2023-08-15 长安大学 一种基于时空重要性的隧道内车辆再识别方法
CN113239223A (zh) * 2021-04-14 2021-08-10 浙江大学 一种基于输入梯度正则化的图像检索方法
CN113360700B (zh) * 2021-06-30 2023-09-29 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113936301B (zh) * 2021-07-02 2024-03-12 西北工业大学 基于中心点预测损失函数的目标重识别方法
CN113821670B (zh) * 2021-07-23 2024-04-16 腾讯科技(深圳)有限公司 图像检索方法、装置、设备及计算机可读存储介质
CN113743251B (zh) * 2021-08-17 2024-02-13 华中科技大学 一种基于弱监督场景的目标搜索方法及装置
CN116050508A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 神经网络训练方法以及装置
CN115115868B (zh) * 2022-04-13 2024-05-07 之江实验室 一种基于三元组的多模态协同场景识别方法
CN115146718A (zh) * 2022-06-27 2022-10-04 北京华能新锐控制技术有限公司 基于深度表示的风电机组异常检测方法
CN115909403B (zh) * 2022-11-25 2023-08-22 天津大学四川创新研究院 基于深度学习的低成本高精度猪脸识别方法
CN116844646B (zh) * 2023-09-04 2023-11-24 鲁东大学 一种基于深度对比学习的酶功能预测方法
CN117274578B (zh) * 2023-11-23 2024-02-02 武汉工程大学 基于逻辑元变换乘积量化的细粒度图像检索方法及系统
CN117708199A (zh) * 2023-12-14 2024-03-15 北京智乐享科技有限公司 基于标签用户模型的信息检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN105808732A (zh) * 2016-03-10 2016-07-27 北京大学 一种基于深度度量学习的一体化目标属性识别与精确检索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070297675A1 (en) * 2006-06-26 2007-12-27 Shih-Jong J. Lee Method of directed feature development for image pattern recognition
US9646226B2 (en) * 2013-04-16 2017-05-09 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN106203242B (zh) * 2015-05-07 2019-12-24 阿里巴巴集团控股有限公司 一种相似图像识别方法及设备
CN106022226B (zh) * 2016-05-11 2019-03-01 同济大学 一种基于多方向多通道条形结构的行人再辨识方法
CN106897390B (zh) * 2017-01-24 2019-10-15 北京大学 基于深度度量学习的目标精确检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN105808732A (zh) * 2016-03-10 2016-07-27 北京大学 一种基于深度度量学习的一体化目标属性识别与精确检索方法

Also Published As

Publication number Publication date
CN106897390A (zh) 2017-06-27
WO2018137358A1 (zh) 2018-08-02

Similar Documents

Publication Publication Date Title
CN106897390B (zh) 基于深度度量学习的目标精确检索方法
Liu et al. Person re-identification: What features are important?
CN107944431B (zh) 一种基于运动变化的智能识别方法
Tu Probabilistic boosting-tree: Learning discriminative models for classification, recognition, and clustering
Hasija et al. Fish species classification using graph embedding discriminant analysis
CN108509860A (zh) 基于卷积神经网络的可可西里藏羚羊检测方法
CN105975932B (zh) 基于时间序列shapelet的步态识别分类方法
CN105095884B (zh) 一种基于随机森林支持向量机的行人识别系统及处理方法
Stottinger et al. Sparse color interest points for image retrieval and object categorization
CN110084211B (zh) 一种动作识别方法
Yahiaoui et al. Leaf shape descriptor for tree species identification
Shen et al. Image recognition method based on an improved convolutional neural network to detect impurities in wheat
CN108280421B (zh) 基于多特征深度运动图的人体行为识别方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
Golge et al. Conceptmap: Mining noisy web data for concept learning
Saleh et al. A unified framework for painting classification
Wang et al. Bikers are like tobacco shops, formal dressers are like suits: Recognizing urban tribes with caffe
Hassan et al. Vision based entomology: a survey
Ghosal et al. Face classification using Gabor wavelets and random forest
CN107729945A (zh) 基于类间稀疏表示的鉴别回归、分类方法及系统
CN116978090A (zh) 一种基于特征分离和融合的行人重识别表征学习技术
CN109800657A (zh) 一种针对模糊人脸图像的卷积神经网络人脸识别方法
Yang et al. Intelligent collection of rice disease images based on convolutional neural network and feature matching
CN109800854A (zh) 一种基于概率神经网络的复合绝缘子憎水性等级判定方法
Pandey et al. Clustering of hierarchical image database to reduce inter-and intra-semantic gaps in visual space for finding specific image semantics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant