CN109063746A

CN109063746A - 一种基于深度无监督学习的视觉相似性学习方法

Info

Publication number: CN109063746A
Application number: CN201810773103.XA
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-07-14
Filing date: 2018-07-14
Publication date: 2018-12-21

Abstract

本发明中提出的一种基于深度无监督学习的视觉相似性学习方法，其主要内容包括：紧凑簇和批次的生成、卷积神经网络(CNN)的训练、局部时间池化和多实例学习，其过程为，先从样本中获取相关联的初始样本集，然后优化单个成本函数得到紧凑的簇(位置分布紧凑且相似的样本组)，并选择相似性相互一致的簇组成随机梯度下降(SGD)批次，接着，交替地对CNN进行训练，以及对产生的相似点执行局部时间池化操作，并使用得到的相似点重新计算簇和批次，迭代多次之后得到样本之间的相似性。本发明解决了以往的视觉相似性学习方法需要大量手工标注数据且计算成本高的问题，能够提供更精细的相似结构，在姿态分析任务和分类问题上具有良好的性能。

Description

一种基于深度无监督学习的视觉相似性学习方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于深度无监督学习的视觉相似性学习方法。

背景技术

在计算机视觉领域中，视觉相似性是指图像或视频之间的相似程度，视觉相似性的学习对许多计算机视觉任务起着核心作用，这些任务涉及不同的抽象层次，从低级图像处理到高级对象识别或人体姿态估计。在安防领域，利用视觉相似性学习技术可以通过对比监控视频和数据库中的违法犯罪分子图片，快速识别违法犯罪分子；在机器人领域应用也很广泛，利用视觉相似性学习技术可以使机器人更精准地识别目标，减小失误率；在遥感领域，视觉相似性学习技术同样可以用于检测多个相似的追踪目标。然而，以往的视觉相似性学习方法存在着需要大量手工标注数据且计算成本高的问题。

本发明提出了一种基于深度无监督学习的视觉相似性学习方法，先从样本中获取相关联的初始样本集，然后优化单个成本函数得到紧凑的簇(位置分布紧凑且相似的样本组)，并选择相似性相互一致的簇组成随机梯度下降(SGD)批次，接着，交替地对CNN进行训练，以及对产生的相似点执行局部时间池化操作，并使用得到的相似点重新计算簇和批次，迭代多次之后得到样本之间的相似性。本发明解决了以往的视觉相似性学习方法需要大量手工标注数据且计算成本高的问题，能够提供更精细的相似结构，在姿态分析任务和分类问题上具有良好的性能。

发明内容

针对以往的视觉相似性学习方法需要大量手工标注数据且计算成本高的问题，本发明的目的在于提供一种基于深度无监督学习的视觉相似性学习方法，先从样本中获取相关联的初始样本集，然后优化单个成本函数得到紧凑的簇(位置分布紧凑且相似的样本组)，并选择相似性相互一致的簇组成随机梯度下降(SGD)批次，接着，交替地对CNN进行训练，以及对产生的相似点执行局部时间池化操作，并使用得到的相似点重新计算簇和批次，迭代多次之后得到样本之间的相似性。

为解决上述问题，本发明提供一种基于深度无监督学习的视觉相似性学习方法，其主要内容包括：

(一)紧凑簇和批次的生成；

(二)卷积神经网络(CNN)的训练；

(三)局部时间池化；

(四)多实例学习。

其中，紧凑簇和批次的生成，是指从样本中得到相关联的初始样本集后，通过优化单个成本函数，得到紧凑的簇(位置分布紧凑且相似的样本组)，然后选择相似性相互一致的簇组成随机梯度下降(SGD)批次。

进一步地，所述的紧凑的簇，是指使用全联聚类法合并每个范例和它的局部邻近样本，使得簇内所有的样本都是相似的，得到多个紧凑但大小不同的簇，这些簇可能是相互重叠的；为了减少冗余，通过最远邻近聚类法合并高度重叠的簇，如果簇内相似性小于其组成成分的一半，则该聚类分组终止。

进一步地，所述的SGD批次，是得到紧凑的簇后，给每个簇分配一个唯一的代理标签，即同一个簇内的样本会有同一个代理标签，然后利用代理标签选择相似性相互一致的簇组成SGD批次。

进一步地，所述的选择相似性相互一致的簇是指为了寻找相似性相互一致的簇组成的不同批次，先设计一个优化问题对簇和批次进行优化，接着，令惩罚函数的参数p为1/16，使惩罚函数大致接近非线性阶跃函数，则优化问题的目标变成一个最小值函数，其中批次的数量可以任意地设置更高的值来满足想要的SGD训练回合，然后松弛二元约束，并利用范数最大化附加项对可行范围的边界实行连续求解；最后，通过给S′的特征向量设定阈值并投影到生成的库上，使S′是半正定的，同时因为p<1，求解的目标函数转化为两个凸函数的差，再利用凹凸优化算法(CCCP)分别求解凸函数u(X)和v(X)，其中：

其中X∈{0,1}^B×K为把K个簇分配到B个批次的指示矩阵，为簇之间的相似度；最后通过内点法对有约束的优化问题进行求解。

进一步地，通过最小化tr(XS′X^T)使同一批次的簇尽可能地不相似，本质上是寻找每个批次中相似度最小的簇的组合，应用到所有批次；然后减去tr(Xdiag(S′)X^T)以删除对选择紧凑簇的惩罚，它定义了簇跟它自身的相似度总和，同样应用到所有批次；最大化每个批次样本的覆盖范围，使最后所有批次共同包含尽可能多的样本。

其中，所述的卷积神经网络(CNN)的训练，是指在每个批次中，根据样本所在的簇，将对样本的分类作为学习相似性的一个引导任务，其中簇分类问题可以有效地分解为一系列的子任务；在训练时，每次迭代随机挑选一个批次并计算随机梯度，接着测量从CNN提取出的特征表示之间的关联，最后利用损失函数计算样本之间的相似度。

其中，所述的损失函数是指在CNN训练过程中，用损失函数计算样本之间的相似度：

其中，M是SGD批次的大小，W_t表示第t次迭代CNN的权重，V_t表示前一次迭代的权重更新，参数α和μ分别表示学习速率和动力。

其中，所述的局部时间池化，是指对一个小的时间区域的相似性局部地进行池化，形式上，令为两个样本之间的相似度，其中φ′是CNN中学习到的特征表示，然后，定义使用时间平均池化得到的相似度s′为：

使用时间平均池化得到的相似度如上式所示。

其中，所述的多实例学习，是指遵循多实例学习的思想迭代地对相似点进行交替推测以及对CNN进行训练，即交替地训练CNN，以及对产生的相似点执行局部时间池，并使用得到的相似点重新计算簇和批次，多实例学习过程会在四次迭代内收敛。

附图说明

图1是本发明一种基于深度无监督学习的视觉相似性学习方法的系统流程图。

图2是本发明一种基于深度无监督学习的视觉相似性学习方法的不同视觉相似性学习方法的性能比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于深度无监督学习的视觉相似性学习方法的系统流程图。主要包括紧凑簇和批次的生成、卷积神经网络(CNN)的训练、局部时间池化和多实例学习。

其中，所述的局部时间池化，是指对一个小的时间区域的相似性局部地进行池化，形式上，令为两个样本之间的相似度，其中φ′是CNN中学习到的特征表示，然后，定义使用时间平均池化得到的相似度s^′为：

使用时间平均池化得到的相似度如上式所示。

图2是本发明一种基于深度无监督学习的视觉相似性学习方法的不同视觉相似性学习方法的性能比较图。图中(a)是单样本卷积神经网络(CNN)、神经网络(NN)-卷积神经网络(CNN)和本发明三种方法的接收器操作特性曲线，其中本发明的特性曲线与x轴所围成的面积最大，即处理分类问题时正确率最高且误判率最低，因此本发明处理分类问题的性能最好。而图中(b)、(c)、(d)分别是单样本CNN、NN-CNN和本发明三种方法在奥林匹克运动数据集中学习到的相似性矩阵的部分矩阵放大图，其中本发明的相似性矩阵最精细，因此在姿态分析任务中能够提供更精细的相似结构。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于深度无监督学习的视觉相似性学习方法，其特征在于，主要包括紧凑簇和批次的生成(一)；卷积神经网络(CNN)的训练(二)；局部时间池化(三)；多实例学习(四)。

2.基于权利要求书1所述的紧凑簇和批次的生成(一)，其特征在于，从样本中得到相关联的初始样本集后，通过优化单个成本函数，得到紧凑的簇(位置分布紧凑且相似的样本组)，然后选择相似性相互一致的簇组成随机梯度下降(SGD)批次。

3.基于权利要求书2所述的紧凑的簇，其特征在于，使用全联聚类法合并每个范例和它的局部邻近样本，使得簇内所有的样本都是相似的，得到多个紧凑但大小不同的簇，这些簇可能是相互重叠的；为了减少冗余，通过最远邻近聚类法合并高度重叠的簇，如果簇内相似性小于其组成成分的一半，则该聚类分组终止。

4.基于权利要求书2所述的SGD批次，其特征在于，得到紧凑的簇后，给每个簇分配一个唯一的代理标签，即同一个簇内的样本会有同一个代理标签，然后利用代理标签选择相似性相互一致的簇组成SGD批次。

5.基于权利要求书4所述的选择相似性相互一致的簇，其特征在于，为了寻找相似性相互一致的簇组成的不同批次，先设计一个优化问题对簇和批次进行优化，接着，令惩罚函数的参数p为1/16，使惩罚函数大致接近非线性阶跃函数，则优化问题的目标变成一个最小值函数，其中批次的数量可以任意地设置更高的值来满足想要的SGD训练回合，然后松弛二元约束，并利用范数最大化附加项对可行范围的边界实行连续求解；最后，通过给S′的特征向量设定阈值并投影到生成的库上，使S′是半正定的，同时因为p<1，求解的目标函数转化为两个凸函数的差，再利用凹凸优化算法(CCCP)分别求解凸函数u(X)和v(X)，其中：

6.基于权利要求书5所述的优化问题，其特征在于，通过最小化tr(XS′X^T)使同一批次的簇尽可能地不相似，本质上是寻找每个批次中相似度最小的簇的组合，应用到所有批次；然后减去tr(Xdiag(S′)X^T)以删除对选择紧凑簇的惩罚，它定义了簇跟它自身的相似度总和，同样应用到所有批次；最大化每个批次样本的覆盖范围，使最后所有批次共同包含尽可能多的样本。

7.基于权利要求书1所述的CNN的训练(二)，其特征在于，在每个批次中，根据样本所在的簇，将对样本的分类作为学习相似性的一个引导任务，其中簇分类问题可以有效地分解为一系列的子任务；在训练时，每次迭代随机挑选一个批次并计算随机梯度，接着测量从CNN提取出的特征表示之间的关联，最后利用损失函数计算样本之间的相似度。

8.基于权利要求书7所述的损失函数，其特征在于，在CNN训练过程中，用损失函数计算样本之间的相似度：

9.基于权利要求书1所述的局部时间池化(三)，其特征在于，对一个小的时间区域的相似性局部地进行池化，形式上，令为两个样本之间的相似度，其中φ′是CNN中学习到的特征表示，然后，定义使用时间平均池化得到的相似度s′为：

使用时间平均池化得到的相似度如上式所示。

10.基于权利要求书1所述的多实例学习(四)，其特征在于，遵循多实例学习的思想迭代地对相似点进行交替推测以及对CNN进行训练，即交替地训练CNN，以及对产生的相似点执行局部时间池，并使用得到的相似点重新计算簇和批次，多实例学习过程会在四次迭代内收敛。