CN109063746A - 一种基于深度无监督学习的视觉相似性学习方法 - Google Patents
一种基于深度无监督学习的视觉相似性学习方法 Download PDFInfo
- Publication number
- CN109063746A CN109063746A CN201810773103.XA CN201810773103A CN109063746A CN 109063746 A CN109063746 A CN 109063746A CN 201810773103 A CN201810773103 A CN 201810773103A CN 109063746 A CN109063746 A CN 109063746A
- Authority
- CN
- China
- Prior art keywords
- cluster
- batch
- similitude
- sample
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明中提出的一种基于深度无监督学习的视觉相似性学习方法,其主要内容包括:紧凑簇和批次的生成、卷积神经网络(CNN)的训练、局部时间池化和多实例学习,其过程为,先从样本中获取相关联的初始样本集,然后优化单个成本函数得到紧凑的簇(位置分布紧凑且相似的样本组),并选择相似性相互一致的簇组成随机梯度下降(SGD)批次,接着,交替地对CNN进行训练,以及对产生的相似点执行局部时间池化操作,并使用得到的相似点重新计算簇和批次,迭代多次之后得到样本之间的相似性。本发明解决了以往的视觉相似性学习方法需要大量手工标注数据且计算成本高的问题,能够提供更精细的相似结构,在姿态分析任务和分类问题上具有良好的性能。
Description
技术领域
本发明涉及计算机视觉领域,尤其是涉及了一种基于深度无监督学习的视觉相似性学习方法。
背景技术
在计算机视觉领域中,视觉相似性是指图像或视频之间的相似程度,视觉相似性的学习对许多计算机视觉任务起着核心作用,这些任务涉及不同的抽象层次,从低级图像处理到高级对象识别或人体姿态估计。在安防领域,利用视觉相似性学习技术可以通过对比监控视频和数据库中的违法犯罪分子图片,快速识别违法犯罪分子;在机器人领域应用也很广泛,利用视觉相似性学习技术可以使机器人更精准地识别目标,减小失误率;在遥感领域,视觉相似性学习技术同样可以用于检测多个相似的追踪目标。然而,以往的视觉相似性学习方法存在着需要大量手工标注数据且计算成本高的问题。
本发明提出了一种基于深度无监督学习的视觉相似性学习方法,先从样本中获取相关联的初始样本集,然后优化单个成本函数得到紧凑的簇(位置分布紧凑且相似的样本组),并选择相似性相互一致的簇组成随机梯度下降(SGD)批次,接着,交替地对CNN进行训练,以及对产生的相似点执行局部时间池化操作,并使用得到的相似点重新计算簇和批次,迭代多次之后得到样本之间的相似性。本发明解决了以往的视觉相似性学习方法需要大量手工标注数据且计算成本高的问题,能够提供更精细的相似结构,在姿态分析任务和分类问题上具有良好的性能。
发明内容
针对以往的视觉相似性学习方法需要大量手工标注数据且计算成本高的问题,本发明的目的在于提供一种基于深度无监督学习的视觉相似性学习方法,先从样本中获取相关联的初始样本集,然后优化单个成本函数得到紧凑的簇(位置分布紧凑且相似的样本组),并选择相似性相互一致的簇组成随机梯度下降(SGD)批次,接着,交替地对CNN进行训练,以及对产生的相似点执行局部时间池化操作,并使用得到的相似点重新计算簇和批次,迭代多次之后得到样本之间的相似性。
为解决上述问题,本发明提供一种基于深度无监督学习的视觉相似性学习方法,其主要内容包括:
(一)紧凑簇和批次的生成;
(二)卷积神经网络(CNN)的训练;
(三)局部时间池化;
(四)多实例学习。
其中,紧凑簇和批次的生成,是指从样本中得到相关联的初始样本集后,通过优化单个成本函数,得到紧凑的簇(位置分布紧凑且相似的样本组),然后选择相似性相互一致的簇组成随机梯度下降(SGD)批次。
进一步地,所述的紧凑的簇,是指使用全联聚类法合并每个范例和它的局部邻近样本,使得簇内所有的样本都是相似的,得到多个紧凑但大小不同的簇,这些簇可能是相互重叠的;为了减少冗余,通过最远邻近聚类法合并高度重叠的簇,如果簇内相似性小于其组成成分的一半,则该聚类分组终止。
进一步地,所述的SGD批次,是得到紧凑的簇后,给每个簇分配一个唯一的代理标签,即同一个簇内的样本会有同一个代理标签,然后利用代理标签选择相似性相互一致的簇组成SGD批次。
进一步地,所述的选择相似性相互一致的簇是指为了寻找相似性相互一致的簇组成的不同批次,先设计一个优化问题对簇和批次进行优化,接着,令惩罚函数的参数p为1/16,使惩罚函数大致接近非线性阶跃函数,则优化问题的目标变成一个最小值函数,其中批次的数量可以任意地设置更高的值来满足想要的SGD训练回合,然后松弛二元约束,并利用范数最大化附加项对可行范围的边界实行连续求解;最后,通过给S′的特征向量设定阈值并投影到生成的库上,使S′是半正定的,同时因为p<1,求解的目标函数转化为两个凸函数的差,再利用凹凸优化算法(CCCP)分别求解凸函数u(X)和v(X),其中:
其中X∈{0,1}B×K为把K个簇分配到B个批次的指示矩阵,为簇之间的相似度;最后通过内点法对有约束的优化问题进行求解。
进一步地,通过最小化tr(XS′XT)使同一批次的簇尽可能地不相似,本质上是寻找每个批次中相似度最小的簇的组合,应用到所有批次;然后减去tr(Xdiag(S′)XT)以删除对选择紧凑簇的惩罚,它定义了簇跟它自身的相似度总和,同样应用到所有批次;最大化每个批次样本的覆盖范围,使最后所有批次共同包含尽可能多的样本。
其中,所述的卷积神经网络(CNN)的训练,是指在每个批次中,根据样本所在的簇,将对样本的分类作为学习相似性的一个引导任务,其中簇分类问题可以有效地分解为一系列的子任务;在训练时,每次迭代随机挑选一个批次并计算随机梯度,接着测量从CNN提取出的特征表示之间的关联,最后利用损失函数计算样本之间的相似度。
其中,所述的损失函数是指在CNN训练过程中,用损失函数计算样本之间的相似度:
其中,M是SGD批次的大小,Wt表示第t次迭代CNN的权重,Vt表示前一次迭代的权重更新,参数α和μ分别表示学习速率和动力。
其中,所述的局部时间池化,是指对一个小的时间区域的相似性局部地进行池化,形式上,令为两个样本之间的相似度,其中φ′是CNN中学习到的特征表示,然后,定义使用时间平均池化得到的相似度s′为:
使用时间平均池化得到的相似度如上式所示。
其中,所述的多实例学习,是指遵循多实例学习的思想迭代地对相似点进行交替推测以及对CNN进行训练,即交替地训练CNN,以及对产生的相似点执行局部时间池,并使用得到的相似点重新计算簇和批次,多实例学习过程会在四次迭代内收敛。
附图说明
图1是本发明一种基于深度无监督学习的视觉相似性学习方法的系统流程图。
图2是本发明一种基于深度无监督学习的视觉相似性学习方法的不同视觉相似性学习方法的性能比较图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于深度无监督学习的视觉相似性学习方法的系统流程图。主要包括紧凑簇和批次的生成、卷积神经网络(CNN)的训练、局部时间池化和多实例学习。
其中,紧凑簇和批次的生成,是指从样本中得到相关联的初始样本集后,通过优化单个成本函数,得到紧凑的簇(位置分布紧凑且相似的样本组),然后选择相似性相互一致的簇组成随机梯度下降(SGD)批次。
进一步地,所述的紧凑的簇,是指使用全联聚类法合并每个范例和它的局部邻近样本,使得簇内所有的样本都是相似的,得到多个紧凑但大小不同的簇,这些簇可能是相互重叠的;为了减少冗余,通过最远邻近聚类法合并高度重叠的簇,如果簇内相似性小于其组成成分的一半,则该聚类分组终止。
进一步地,所述的SGD批次,是得到紧凑的簇后,给每个簇分配一个唯一的代理标签,即同一个簇内的样本会有同一个代理标签,然后利用代理标签选择相似性相互一致的簇组成SGD批次。
进一步地,所述的选择相似性相互一致的簇是指为了寻找相似性相互一致的簇组成的不同批次,先设计一个优化问题对簇和批次进行优化,接着,令惩罚函数的参数p为1/16,使惩罚函数大致接近非线性阶跃函数,则优化问题的目标变成一个最小值函数,其中批次的数量可以任意地设置更高的值来满足想要的SGD训练回合,然后松弛二元约束,并利用范数最大化附加项对可行范围的边界实行连续求解;最后,通过给S′的特征向量设定阈值并投影到生成的库上,使S′是半正定的,同时因为p<1,求解的目标函数转化为两个凸函数的差,再利用凹凸优化算法(CCCP)分别求解凸函数u(X)和v(X),其中:
其中X∈{0,1}B×K为把K个簇分配到B个批次的指示矩阵,为簇之间的相似度;最后通过内点法对有约束的优化问题进行求解。
进一步地,通过最小化tr(XS′XT)使同一批次的簇尽可能地不相似,本质上是寻找每个批次中相似度最小的簇的组合,应用到所有批次;然后减去tr(Xdiag(S′)XT)以删除对选择紧凑簇的惩罚,它定义了簇跟它自身的相似度总和,同样应用到所有批次;最大化每个批次样本的覆盖范围,使最后所有批次共同包含尽可能多的样本。
其中,所述的卷积神经网络(CNN)的训练,是指在每个批次中,根据样本所在的簇,将对样本的分类作为学习相似性的一个引导任务,其中簇分类问题可以有效地分解为一系列的子任务;在训练时,每次迭代随机挑选一个批次并计算随机梯度,接着测量从CNN提取出的特征表示之间的关联,最后利用损失函数计算样本之间的相似度。
其中,所述的损失函数是指在CNN训练过程中,用损失函数计算样本之间的相似度:
其中,M是SGD批次的大小,Wt表示第t次迭代CNN的权重,Vt表示前一次迭代的权重更新,参数α和μ分别表示学习速率和动力。
其中,所述的局部时间池化,是指对一个小的时间区域的相似性局部地进行池化,形式上,令为两个样本之间的相似度,其中φ′是CNN中学习到的特征表示,然后,定义使用时间平均池化得到的相似度s′为:
使用时间平均池化得到的相似度如上式所示。
其中,所述的多实例学习,是指遵循多实例学习的思想迭代地对相似点进行交替推测以及对CNN进行训练,即交替地训练CNN,以及对产生的相似点执行局部时间池,并使用得到的相似点重新计算簇和批次,多实例学习过程会在四次迭代内收敛。
图2是本发明一种基于深度无监督学习的视觉相似性学习方法的不同视觉相似性学习方法的性能比较图。图中(a)是单样本卷积神经网络(CNN)、神经网络(NN)-卷积神经网络(CNN)和本发明三种方法的接收器操作特性曲线,其中本发明的特性曲线与x轴所围成的面积最大,即处理分类问题时正确率最高且误判率最低,因此本发明处理分类问题的性能最好。而图中(b)、(c)、(d)分别是单样本CNN、NN-CNN和本发明三种方法在奥林匹克运动数据集中学习到的相似性矩阵的部分矩阵放大图,其中本发明的相似性矩阵最精细,因此在姿态分析任务中能够提供更精细的相似结构。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于深度无监督学习的视觉相似性学习方法,其特征在于,主要包括紧凑簇和批次的生成(一);卷积神经网络(CNN)的训练(二);局部时间池化(三);多实例学习(四)。
2.基于权利要求书1所述的紧凑簇和批次的生成(一),其特征在于,从样本中得到相关联的初始样本集后,通过优化单个成本函数,得到紧凑的簇(位置分布紧凑且相似的样本组),然后选择相似性相互一致的簇组成随机梯度下降(SGD)批次。
3.基于权利要求书2所述的紧凑的簇,其特征在于,使用全联聚类法合并每个范例和它的局部邻近样本,使得簇内所有的样本都是相似的,得到多个紧凑但大小不同的簇,这些簇可能是相互重叠的;为了减少冗余,通过最远邻近聚类法合并高度重叠的簇,如果簇内相似性小于其组成成分的一半,则该聚类分组终止。
4.基于权利要求书2所述的SGD批次,其特征在于,得到紧凑的簇后,给每个簇分配一个唯一的代理标签,即同一个簇内的样本会有同一个代理标签,然后利用代理标签选择相似性相互一致的簇组成SGD批次。
5.基于权利要求书4所述的选择相似性相互一致的簇,其特征在于,为了寻找相似性相互一致的簇组成的不同批次,先设计一个优化问题对簇和批次进行优化,接着,令惩罚函数的参数p为1/16,使惩罚函数大致接近非线性阶跃函数,则优化问题的目标变成一个最小值函数,其中批次的数量可以任意地设置更高的值来满足想要的SGD训练回合,然后松弛二元约束,并利用范数最大化附加项对可行范围的边界实行连续求解;最后,通过给S′的特征向量设定阈值并投影到生成的库上,使S′是半正定的,同时因为p<1,求解的目标函数转化为两个凸函数的差,再利用凹凸优化算法(CCCP)分别求解凸函数u(X)和v(X),其中:
其中X∈{0,1}B×K为把K个簇分配到B个批次的指示矩阵,为簇之间的相似度;最后通过内点法对有约束的优化问题进行求解。
6.基于权利要求书5所述的优化问题,其特征在于,通过最小化tr(XS′XT)使同一批次的簇尽可能地不相似,本质上是寻找每个批次中相似度最小的簇的组合,应用到所有批次;然后减去tr(Xdiag(S′)XT)以删除对选择紧凑簇的惩罚,它定义了簇跟它自身的相似度总和,同样应用到所有批次;最大化每个批次样本的覆盖范围,使最后所有批次共同包含尽可能多的样本。
7.基于权利要求书1所述的CNN的训练(二),其特征在于,在每个批次中,根据样本所在的簇,将对样本的分类作为学习相似性的一个引导任务,其中簇分类问题可以有效地分解为一系列的子任务;在训练时,每次迭代随机挑选一个批次并计算随机梯度,接着测量从CNN提取出的特征表示之间的关联,最后利用损失函数计算样本之间的相似度。
8.基于权利要求书7所述的损失函数,其特征在于,在CNN训练过程中,用损失函数计算样本之间的相似度:
其中,M是SGD批次的大小,Wt表示第t次迭代CNN的权重,Vt表示前一次迭代的权重更新,参数α和μ分别表示学习速率和动力。
9.基于权利要求书1所述的局部时间池化(三),其特征在于,对一个小的时间区域的相似性局部地进行池化,形式上,令为两个样本之间的相似度,其中φ′是CNN中学习到的特征表示,然后,定义使用时间平均池化得到的相似度s′为:
使用时间平均池化得到的相似度如上式所示。
10.基于权利要求书1所述的多实例学习(四),其特征在于,遵循多实例学习的思想迭代地对相似点进行交替推测以及对CNN进行训练,即交替地训练CNN,以及对产生的相似点执行局部时间池,并使用得到的相似点重新计算簇和批次,多实例学习过程会在四次迭代内收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810773103.XA CN109063746A (zh) | 2018-07-14 | 2018-07-14 | 一种基于深度无监督学习的视觉相似性学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810773103.XA CN109063746A (zh) | 2018-07-14 | 2018-07-14 | 一种基于深度无监督学习的视觉相似性学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109063746A true CN109063746A (zh) | 2018-12-21 |
Family
ID=64816591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810773103.XA Withdrawn CN109063746A (zh) | 2018-07-14 | 2018-07-14 | 一种基于深度无监督学习的视觉相似性学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063746A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872364A (zh) * | 2019-01-28 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 图像区域定位方法、装置、存储介质和医学影像处理设备 |
CN110009674A (zh) * | 2019-04-01 | 2019-07-12 | 厦门大学 | 基于无监督深度学习的单目图像景深实时计算方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127197A (zh) * | 2016-04-09 | 2016-11-16 | 北京交通大学 | 一种基于显著标签排序的图像显著性目标检测方法 |
CN106203483A (zh) * | 2016-06-29 | 2016-12-07 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
-
2018
- 2018-07-14 CN CN201810773103.XA patent/CN109063746A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127197A (zh) * | 2016-04-09 | 2016-11-16 | 北京交通大学 | 一种基于显著标签排序的图像显著性目标检测方法 |
CN106203483A (zh) * | 2016-06-29 | 2016-12-07 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
Non-Patent Citations (1)
Title |
---|
ARTSIOM SANAKOYEU ET.AL: "Deep unsupervised learning of visual similarities", 《PATTERN RECOGNITION》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872364A (zh) * | 2019-01-28 | 2019-06-11 | 腾讯科技(深圳)有限公司 | 图像区域定位方法、装置、存储介质和医学影像处理设备 |
CN110009674A (zh) * | 2019-04-01 | 2019-07-12 | 厦门大学 | 基于无监督深度学习的单目图像景深实时计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Bounding box regression with uncertainty for accurate object detection | |
Baradel et al. | Glimpse clouds: Human activity recognition from unstructured feature points | |
Richard et al. | Weakly supervised action learning with rnn based fine-to-coarse modeling | |
Chu et al. | Spot and learn: A maximum-entropy patch sampler for few-shot image classification | |
Budiharto et al. | Fast object detection for quadcopter drone using deep learning | |
Gopal et al. | Fuzzy neural network classification of global land cover from a 1 AVHRR data set | |
Mahmon et al. | A review on classification of satellite image using Artificial Neural Network (ANN) | |
Nelson et al. | Large-scale tests of a keyed, appearance-based 3-D object recognition system | |
Medina et al. | Self-supervised prototypical transfer learning for few-shot classification | |
Wang et al. | Storm: Structure-based overlap matching for partial point cloud registration | |
Gundavarapu et al. | Structured Aleatoric Uncertainty in Human Pose Estimation. | |
US20210133580A1 (en) | Upgrading a machine learning model's training state | |
Sawada et al. | Transfer learning method using multi-prediction deep Boltzmann machines for a small scale dataset | |
Abdulsalam et al. | Deep weed detector/classifier network for precision agriculture | |
EP4078445A1 (en) | Medical image analysis using machine learning and an anatomical vector | |
CN109063746A (zh) | 一种基于深度无监督学习的视觉相似性学习方法 | |
Balafas et al. | Machine learning and deep learning for plant disease classification and detection | |
Shashank et al. | Identifying epiphytes in drones photos with a conditional generative adversarial network (C-GAN) | |
Zhang et al. | Astronaut visual tracking of flying assistant robot in space station based on deep learning and probabilistic model | |
CN106971176A (zh) | 基于稀疏表示的红外人体目标跟踪方法 | |
Nikpour et al. | Joint selection using deep reinforcement learning for skeleton-based activity recognition | |
Mendoza-Bernal et al. | A Convolutional Neural Network approach for image-based anomaly detection in smart agriculture | |
Salamut et al. | Deep learning object detection for image analysis of cherry fruit fly (rhagoletis cerasi l.) on yellow sticky traps | |
Coppola et al. | Applying a 3d qualitative trajectory calculus to human action recognition using depth cameras | |
Nikpour et al. | Deep reinforcement learning in human activity recognition: A survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181221 |
|
WW01 | Invention patent application withdrawn after publication |