CN107609586A

CN107609586A - 一种基于自我监督的视觉表征学习方法

Info

Publication number: CN107609586A
Application number: CN201710807231.7A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-19

Abstract

本发明中提出的一种基于自我监督的视觉表征学习方法，其主要内容包括：自我监督、视觉表征、图像构造和在图像中学习转换，其过程为，采用自我监督的方法学习不变性，其表示包括实例间的差异和实例内部的差异，构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁，在图中定义两种将图像补丁相互关联的边缘类型，构造一个具有实例和内部边缘的图，包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘，训练深层神经网络来生成类似的视觉表示。本发明的视觉特征学习方法为自我监督，能够自己获取注释标签，大大节省了人力和物力；同时降低了视点、姿势、变形、照明等带来的影响，提高了准确度。

Description

一种基于自我监督的视觉表征学习方法

技术领域

本发明涉及视觉表征学习领域，尤其是涉及了一种基于自我监督的视觉表征学习方法。

背景技术

随着社会迈入数字化信息时代，快速增长的图像和视频量给数据管理和分析带来了巨大挑战，使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉表征学习，就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。它可以应用在视觉对象识别，如Web图像自动标注、海量图像搜索、图像内容过滤、医学远程会诊等多种领域；也可以应用在视觉对象的检测，如工业机器人和无人驾驶汽车等领域；还可以应用在视觉对象跟踪，如对视频监控中的可以人物进行识别和跟踪等。传统的视觉表征学习在实例间容易受到视点、姿势、变形、照明等的影响，精确度不高，而且需要大规模的注释，耗费了许多人力和物力。

本发明提出了一种基于自我监督的视觉表征学习方法，采用自我监督的方法学习不变性，其表示包括实例间的差异和实例内部的差异，构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁，在图中定义两种将图像补丁相互关联的边缘类型，构造一个具有实例和内部边缘的图，包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘，训练深层神经网络来生成类似的视觉表示。本发明的视觉特征学习方法为自我监督，能够自己获取注释标签，大大节省了人力和物力；同时降低了视点、姿势、变形、照明等带来的影响，提高了准确度。

发明内容

针对容易受到视点、姿势、变形、照明等的影响，精确度不高等问题，本发明的目的在于提供一种基于自我监督的视觉表征学习方法，采用自我监督的方法学习不变性，其表示包括实例间的差异和实例内部的差异，构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁，在图中定义两种将图像补丁相互关联的边缘类型，构造一个具有实例和内部边缘的图，包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘，训练深层神经网络来生成类似的视觉表示。

为解决上述问题，本发明提供一种基于自我监督的视觉表征学习方法，其主要内容包括：

(一)自我监督；

(二)视觉表征；

(三)图像构造；

(四)在图像中学习转换。

其中，所述的自我监督，自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异；实例间的差异反映不同实例之间的共同性，例如，可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置；实例内部的差异通过在视频中跟踪单个移动实例，从姿势、视角和照明变化中学习实例内部的不变性。

其中，所述的视觉表征，学习视觉表征捕获实例间的不变性(例如，猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异)；然后通过对数据进行传递推理来获取更丰富的不变性集；首先构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁；在图中定义了两种将图像补丁相互关联的边缘类型；其中，称为实例间边缘的第一种类型的边缘，连接了对应于具有相似视觉外观的不同对象实例的两个节点；而称为实例内边缘的第二类型的边缘，连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。

进一步地，所述的边缘类型，给定建立的图形，通过已知的边缘传递关系，并关联未连接节点；具体来说，如果补丁<A,B>通过实例间边缘连接，<A,A′>和<B,B′>分别通过实例内边缘连接，通过简单的传递性丰富不变性，包括三个新对：<A′,B′>、<A,B>、<A′,B>；

训练一个三层暹罗网络，激励不变样本之间类似的视觉表示(例如，任何由A,A′,B,B′组成的对)，同时不对与第三个错误选择样本类似的视觉表示进行激励(例如，随机样本C未连接到A,A′,B,B′)；将VGG16网络作为三层暹罗网络每个分支的骨干架构；通过这种骨干架构学习的视觉表征，对其他识别任务进行评估。

进一步地，所述的三层暹罗网络，三层暹罗网络包括具有共享权重的卷积网络的三个层；对于每个层，采用标准的VGG16网络架构到卷积层，之后添加两个具有4096维和1024维输出的完全连接的层；三层暹罗网络接受三元组样本作为其输入：三元组中的前两个图像块是正对，最后两个是负对；提取其1024维特征并计算排序损失函数；

给定一对图像补丁A和B，将它们的距离定义为：

其中，F(·)是网络的映射；使用(X,X⁺,X^-)的三元组，其中(X,X⁺)是正对，(X,X^-)是负对，最小化排序损失：

其中，m是实验中设置为0.5的边距。

其中，所述的图像构造，构造一个具有实例和内部边缘的图；通过自我监督方法实例化实例间边缘，该方法学习了大量静止图像的上下文预测，这些静态图像提供了群集节点和建立实例间边缘的特点；另一方面，通过实例内边缘连接相同视觉轨迹中的图像补丁；图像构造包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘。

进一步地，所述的缩放移动对象，首先在视频上应用改进密集轨迹来提取加速鲁棒特征点及其运动；如果运动过多(指示相机的运动)或运动过少(例如噪声信号)，则剪辑视频帧；对于剩余的帧，从图像中剪切一个227×227个边界框，其中包含最多的移动点作为前景对象；然而，为了计算效率，将图像修补程序重新缩放到96×96之后，将其用作群集和训练的输入。

进一步地，所述的通过群集的实例间的边缘，提取训练的VGG16网络的第五个池层的特征；使用没有标签的ImageNet数据集来训练这个网络；由于使用96×96的补丁大小，第五个池层的特征的维度为3×3×512＝4608；通过这些特征的余弦距离计算样本之间的距离；由于将数百万个图像块直接群集成数百万个小簇非常耗时，因此，应用层次群集方法，首先将图像分组成相对较少数量的群集，然后通过最近邻搜索在每个群集内找到少量示例的组。

进一步地，所述的通过跟踪的实例内部的边缘，给定视频中的移动对象，跟踪N＝30帧的对象，并在轨迹的末端获得对象的另一个样本；跟踪器不需要人为的监督；将这些新对象作为节点添加到图形中，并将两个样本以相同的轨迹连接在一起。

其中，所述的在图像中学习转换，如果图像块通过实例间/实例内边缘或其传递性连接，则训练一个深层神经网络(VGG16)来生成类似的视觉表示；如果节点是无关的，鼓励网络生成不同的表示；具体来说，约束来自不同“父系”集群的图像补丁具有不同的表示(称之为负对样本)；设计具有排序损失函数的三层暹罗网络，使得相关样本之间的距离应小于不相关样本的距离。

附图说明

图1是本发明一种基于自我监督的视觉表征学习方法的系统框架图。

图2是本发明一种基于自我监督的视觉表征学习方法的视觉表征。

图3是本发明一种基于自我监督的视觉表征学习方法的通过跟踪的实例内部的边缘。

图4是本发明一种基于自我监督的视觉表征学习方法的在图像中学习转换。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于自我监督的视觉表征学习方法的系统框架图。主要包括自我监督，视觉表征，图像构造和在图像中学习转换。

自我监督，自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异；实例间的差异反映不同实例之间的共同性，例如，可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置；实例内部的差异通过在视频中跟踪单个移动实例，从姿势、视角和照明变化中学习实例内部的不变性。

图像构造，构造一个具有实例和内部边缘的图；通过自我监督方法实例化实例间边缘，该方法学习了大量静止图像的上下文预测，这些静态图像提供了群集节点和建立实例间边缘的特点；另一方面，通过实例内边缘连接相同视觉轨迹中的图像补丁；图像构造包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘。

缩放移动对象，首先在视频上应用改进密集轨迹来提取加速鲁棒特征点及其运动；如果运动过多(指示相机的运动)或运动过少(例如噪声信号)，则剪辑视频帧；对于剩余的帧，从图像中剪切一个227×227个边界框，其中包含最多的移动点作为前景对象；然而，为了计算效率，将图像修补程序重新缩放到96×96之后，将其用作群集和训练的输入。

通过群集的实例间的边缘，提取训练的VGG16网络的第五个池层的特征；使用没有标签的ImageNet数据集来训练这个网络；由于使用96×96的补丁大小，第五个池层的特征的维度为3×3×512＝4608；通过这些特征的余弦距离计算样本之间的距离；由于将数百万个图像块直接群集成数百万个小簇非常耗时，因此，应用层次群集方法，首先将图像分组成相对较少数量的群集，然后通过最近邻搜索在每个群集内找到少量示例的组。

图2是本发明一种基于自我监督的视觉表征学习方法的视觉表征。学习视觉表征捕获实例间的不变性(例如，猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异)；然后通过对数据进行传递推理来获取更丰富的不变性集；首先构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁；在图中定义了两种将图像补丁相互关联的边缘类型；其中，称为实例间边缘的第一种类型的边缘，连接了对应于具有相似视觉外观的不同对象实例的两个节点；而称为实例内边缘的第二类型的边缘，连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。

给定建立的图形，通过已知的边缘传递关系，并关联未连接节点；具体来说，如果补丁<A,B>通过实例间边缘连接，<A,A′>和<B,B′>分别通过实例内边缘连接，通过简单的传递性丰富不变性，包括三个新对：<A′,B′>、<A,B>、<A′,B>；

图3是本发明一种基于自我监督的视觉表征学习方法的通过跟踪的实例内部的边缘。给定视频中的移动对象，跟踪N＝30帧的对象，并在轨迹的末端获得对象的另一个样本；跟踪器不需要人为的监督；将这些新对象作为节点添加到图形中，并将两个样本以相同的轨迹连接在一起。

图4是本发明一种基于自我监督的视觉表征学习方法的在图像中学习转换。如果图像块通过实例间/实例内边缘或其传递性连接，则训练一个深层神经网络(VGG16)来生成类似的视觉表示；如果节点是无关的，鼓励网络生成不同的表示；具体来说，约束来自不同“父系”集群的图像补丁具有不同的表示(称之为负对样本)；设计具有排序损失函数的三层暹罗网络，使得相关样本之间的距离应小于不相关样本的距离。

三层暹罗网络包括具有共享权重的卷积网络的三个层；对于每个层，采用标准的VGG16网络架构到卷积层，之后添加两个具有4096维和1024维输出的完全连接的层；三层暹罗网络接受三元组样本作为其输入：三元组中的前两个图像块是正对，最后两个是负对；提取其1024维特征并计算排序损失函数；

给定一对图像补丁A和B，将它们的距离定义为：

其中，m是实验中设置为0.5的边距。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于自我监督的视觉表征学习方法，其特征在于，主要包括自我监督(一)；视觉表征(二)；图像构造(三)；在图像中学习转换(四)。

2.基于权利要求书1所述的自我监督(一)，其特征在于，自我监督的方法学习不变性的表示包括实例间的差异和实例内部的差异；实例间的差异反映不同实例之间的共同性，例如，可以通过许多对象实例共享的共性来预测补丁或颜色通道的相对位置；实例内部的差异通过在视频中跟踪单个移动实例，从姿势、视角和照明变化中学习实例内部的不变性。

3.基于权利要求书1所述的视觉表征(二)，其特征在于，学习视觉表征捕获实例间的不变性(例如，猫的两个实例应该具有相似的特征)和实例内部的不变性(姿势、视角、变形、照明和相同对象实例的其他差异)；然后通过对数据进行传递推理来获取更丰富的不变性集；首先构建描述图像补丁之间的相似处的图形，图中的节点表示图像补丁；在图中定义了两种将图像补丁相互关联的边缘类型；其中，称为实例间边缘的第一种类型的边缘，连接了对应于具有相似视觉外观的不同对象实例的两个节点；而称为实例内边缘的第二类型的边缘，连接了对应于在轨迹的不同时间步长捕获的相同对象的两个节点。

4.基于权利要求书3所述的边缘类型，其特征在于，给定建立的图形，通过已知的边缘传递关系，并关联未连接节点；具体来说，如果补丁<A,B>通过实例间边缘连接，<A,A′>和<B,B′>分别通过实例内边缘连接，通过简单的传递性丰富不变性，包括三个新对：<A′,B′>、<A,B>、<A′,B>；

5.基于权利要求书4所述的三层暹罗网络，其特征在于，三层暹罗网络包括具有共享权重的卷积网络的三个层；对于每个层，采用标准的VGG16网络架构到卷积层，之后添加两个具有4096维和1024维输出的完全连接的层；三层暹罗网络接受三元组样本作为其输入：三元组中的前两个图像块是正对，最后两个是负对；提取其1024维特征并计算排序损失函数；

给定一对图像补丁A和B，将它们的距离定义为：

<mrow> <mi>D</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>B</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，m是实验中设置为0.5的边距。

6.基于权利要求书1所述的图像构造(三)，其特征在于，构造一个具有实例和内部边缘的图；通过自我监督方法实例化实例间边缘，该方法学习了大量静止图像的上下文预测，这些静态图像提供了群集节点和建立实例间边缘的特点；另一方面，通过实例内边缘连接相同视觉轨迹中的图像补丁；图像构造包括缩放移动对象、通过群集的实例间的边缘和通过跟踪的实例内部的边缘。

7.基于权利要求书6所述的缩放移动对象，其特征在于，首先在视频上应用改进密集轨迹来提取加速鲁棒特征点及其运动；如果运动过多(指示相机的运动)或运动过少(例如噪声信号)，则剪辑视频帧；对于剩余的帧，从图像中剪切一个227×227个边界框，其中包含最多的移动点作为前景对象；然而，为了计算效率，将图像修补程序重新缩放到96×96之后，将其用作群集和训练的输入。

8.基于权利要求书6所述的通过群集的实例间的边缘，其特征在于，提取训练的VGG16网络的第五个池层的特征；使用没有标签的ImageNet数据集来训练这个网络；由于使用96×96的补丁大小，第五个池层的特征的维度为3×3×512＝4608；通过这些特征的余弦距离计算样本之间的距离；由于将数百万个图像块直接群集成数百万个小簇非常耗时，因此，应用层次群集方法，首先将图像分组成相对较少数量的群集，然后通过最近邻搜索在每个群集内找到少量示例的组。

9.基于权利要求书6所述的通过跟踪的实例内部的边缘，其特征在于，给定视频中的移动对象，跟踪N＝30帧的对象，并在轨迹的末端获得对象的另一个样本；跟踪器不需要人为的监督；将这些新对象作为节点添加到图形中，并将两个样本以相同的轨迹连接在一起。

10.基于权利要求书1所述的在图像中学习转换(四)，其特征在于，如果图像块通过实例间/实例内边缘或其传递性连接，则训练一个深层神经网络(VGG16)来生成类似的视觉表示；如果节点是无关的，鼓励网络生成不同的表示；具体来说，约束来自不同“父系”集群的图像补丁具有不同的表示(称之为负对样本)；设计具有排序损失函数的三层暹罗网络，使得相关样本之间的距离应小于不相关样本的距离。