CN111695416A

CN111695416A - 一种基于自监督学习的稠密光流估计系统及方法

Info

Publication number: CN111695416A
Application number: CN202010355759.7A
Authority: CN
Inventors: 刘勇; 刘亮; 王亚彪
Original assignee: Zhejiang University ZJU; Tencent Technology Shanghai Co Ltd
Current assignee: Zhejiang University ZJU; Tencent Technology Shanghai Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-22

Abstract

本发明提供一种基于自监督学习的稠密光流估计系统及方法，一种基于自监督学习的稠密光流估计系统，包括图像对获取单元、类比估计单元、参数更新单元和预测单元；图像对获取单元用于从任意视频数据中抽取出待训练的光流估计模型训练所需要的大量原始图像对组成的训练数据集，所述图像对包含基准图像和与基准图像之后的任意一帧目标图像；参数更新单元用于根据原始估计与扩增估计的结果更新卷积神经网络模型参数，并最终得到用于预测稠密光流的卷积神经网络模型；采用本发明技术方案，通过卷积神经网络估计稠密光流速度快，精度高；采用自监督学习的方法，无需对数据进行标注，更容易获得大量的训练数据，从而提升了本发明方案的应用能力。

Description

一种基于自监督学习的稠密光流估计系统及方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于自监督学习的稠密光流估计系统及方法。

背景技术

在计算机视觉领域，稠密光流(Dense Optical Flow)描述了图像中所有像素点的运动轨迹或是一对图像中像素点的对应关系。在行为识别，目标跟踪，运动预测等影像处理任务中，光流作为一种运动特征起到了十分重要的作用。

在过去的影像任务中，稠密光流的估计方法通常基于深度学习，计算量大且精度较低，无法在实际应用中使用；另外由于对视频中所有像素点逐帧地进行标注需要极大人力成本，因此只能从计算机仿真合成的数据来进行有监督学习，导致其在真实场景中性能退化严重。

综上，现有的稠密光流预估方法仍然存在诸如计算量大、训练样本依赖性严重、实际使用性能差等问题。目前亟待针对这一问题，提出一种充分利用海量的视频数据进行无需标注的学习方法，进而获得高实用性的稠密光流以供影像处理任务使用。

发明内容

鉴于上述问题，本发明提供一种基于自监督学习的稠密光流估计系统及方法，从海量原始视频数据进行模型训练，以提高影像处理任务中稠密光流估计的准确性和实用性。

本发明提供一种基于自监督学习的稠密光流估计系统，包括：

图像对获取单元：用于从任意视频数据中抽取出待训练的光流估计模型训练所需要的大量原始图像对组成的训练数据集，所述图像对包含基准图像和与基准图像之后的任意一帧目标图像；

类比估计单元：用于将原始图像对，输入随机初始化的卷积神经网络模型得到原始估计的稠密光流图；另外，将原始图像对进行变换，获得扩增图像对，输入到用于与自学习单元一致的卷积神经网络，获得扩增估计的稠密光流；

参数更新单元：用于根据原始估计与扩增估计的结果更新卷积神经网络模型参数，并最终得到用于预测稠密光流的卷积神经网络模型；

预测单元：用于将任意图像对输入学习得到的卷积神经网络模型，得到所述图像对的稠密光流。

本发明还提供一种基于自监督学习的稠密光流估计方法，包括如下步骤：

步骤(1):从任意视频数据中抽取出待训练的光流估计模型训练所需要的大量原始图像对组成的训练数据集，原始图像对包含基准图像和与基准图像之后的任意一帧目标图像。

优选地，所述训练数据集是通过判断前后帧画面是否变化滤去静止画面以及不属于同一段分镜的图像对，这样能提升训练数据有效性，从而使本发明方法更高效。

其中，将待预估稠密光流的图像对中，时间较前的图像称为基准图像，较后的图像称为目标图像，以{I,I′}表示图像对，其中I为基准图像，I′为目标图像。I(x,y)表示基准图像在像素坐标(x,y)的亮度值，光流F_(x,y)＝(u,v)表示坐标为(x,y)的像素点的运动轨迹，其中(u,v)表示当前帧中的像素对应到下一帧中的像素偏移量，则光流F满足下式(1)：

I(x,y)＝I′(x+u,y+v) 式(1)

步骤(2)、将原始图像对输入卷积神经网络得到初次估计的原始稠密光流图F。

本申请并不对所述的卷积神经网络模型的具体结构进行严格的限定，只要具有编码、解码功能的深度卷积神经网络均可。优选地，本例中的网络模型由卷积层、反卷积层、池化层等常见的深度学习层级联而成，其中待优化的参数为网络中所有卷积层与反卷积层中的参数。网络参数的初始化方式不限，可以是随机初始化，也可以由其它任务迁移而来。

步骤(3)、将原始图像对经过变换，获得扩增图像对，将扩增图像对输入至与步骤(2)相同的卷积神经网络，获得估计的扩增稠密光流图F^*。

优选地，对图像对进行的变换同时包括1.外观变换，如随机亮度变化、随机颜色抖动、随机对比度变化、随机高斯模糊、随机锐化。2.空间变换，如随机平移、随机翻转、随机缩放、随机旋转、随机裁剪。3.遮挡变换，如随机遮挡住参考图或目标图的某些区域。本发明不限定于某几种变换方式，任何能改变原始图像对的方式都可以使用到发明中。

步骤(4)、利用步骤(2)估计的原始稠密光流图F，对图中的所有坐标从目标图像I′中取值以获得重构的基准图像。按式(1)，重构的基准图像

在像素坐标(x,y)处的像素值满足

对于坐标值(x+u,y+v)可能出现的非整数问题，采用插值方法获取对应整数坐标的像素值。本发明不限定具体插值方法，可以使用例如双线性插值、最近邻插值或其它插值方法。

步骤(5)、对比从步骤(4)中所获得的重构的基准图像

与原始基准图像I的差异，通过度量函数计算逐像素的差异值，并对所有像素的差异求和得到自监督学习的优化目标：光度损失。

步骤(6)、对比步骤(2)中所估计的原始稠密光流图F与步骤(3)中所估计的扩增稠密光流图F^*的差异，通过度量函数计算逐像素的差异值，并对所有像素的差异求和得到类比学习的优化目标：类比损失。

上述度量函数可以是任意描述像素差异的函数，且对所有像素的求和方式不限定于直接求和，加权求和等。

优选地，步骤(5)、(6)中使用的度量函数为所有像素值之差的绝对值之和。

步骤(7)、将光度损失与类比损失加权求和获得总损失值，即为总体优化目标，并通过计算卷积神经网络模型中各层参数关于总损失值的梯度，以基于梯度的优化方法对卷积神经网络模型的参数进行更新。

优选地，本发明采用同时优化自监督学习损失与类比学习损失。

步骤(8)、对训练数据及中所有的图像对不断重复步骤(2)至步骤(7)，直至总体优化目标的损失值收敛，完成深度卷积神经网络的自监督训练。

步骤(9)、通过对给定的任意图像对，输入训练完成的网络模型，即可获得对应的稠密光流图。

本发明中，通过从视频中抽取的海量图像对进行无需标注的自监督学习，采用随机梯度下降等方式训练卷积神经网络模型得到用于预估稠密光流的卷积神经网络。训练方式可采用传统的神经网络训练方式，本申请不做严格限定。

与现有技术相比，本发明的有益效果是：

采用本发明技术方案，一方面，通过卷积神经网络估计稠密光流速度快，精度高；另一方面，采用自监督学习的方法，无需对数据进行标注，更容易获得大量的训练数据，从而提升了本发明方案的应用能力。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例中稠密光流估计方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

参见图1，为本发明实施例提供的一种基于自监督学习的稠密光流估计方法的流程图，方法包括：

优选地，本发明实施例中，所述训练数据集通过判断前后帧画面是否变化滤去静止画面以及不属于同一段分镜的图像对，这样能提升训练数据有效性，从而使本发明方法更高效。

本发明实施例中，将待预估稠密光流的图像对中，时间较前的图像称为基准图像，较后的图像称为目标图像，以{I,I′}表示图像对，其中I为基准图像，I′为目标图像。I(x,y)表示基准图像在像素坐标(x,y)的亮度值，光流F_(x,y)＝(u,v)表示坐标为(x,y)的像素点的运动轨迹，其中(u,v)表示当前帧中的像素对应到下一帧中的像素偏移量，则光流F满足下式(1)：

I(x,y)＝I′(x+u,y+v) 式(1)

优选地，本发明实施例中，对图像对进行的变换同时包括1.外观变换，如随机亮度变化、随机颜色抖动、随机对比度变化、随机高斯模糊、随机锐化。2.空间变换，如随机平移、随机翻转、随机缩放、随机旋转、随机裁剪。3.遮挡变换，如随机遮挡住参考图或目标图的某些区域。本发明实施例不限定于某几种变换方式，任何能改变原始图像对的方式都可以使用到发明实施例中。

在像素坐标(x,y)处的像素值满足

对于坐标值(x+u,y+v)可能出现的非整数问题，采用插值方法获取对应整数坐标的像素值。本发明实施例不限定具体插值方法，可以使用例如双线性插值、最近邻插值或其它插值方法。

步骤(5)、对比从步骤(4)中所获得的重构的基准图像

本方法的度量函数可以是任意描述像素差异的函数，且对所有像素的求和方式不限定于直接求和，加权求和等。

优选地，本发明实施例采用同时优化自监督学习损失与类比学习损失，

本发明实施例中，通过从视频中抽取的海量图像对进行无需标注的自监督学习，采用随机梯度下降等方式训练卷积神经网络模型得到用于预估稠密光流的卷积神经网络。训练方式可采用传统的神经网络训练方式，本申请不做严格限定。

上述实施例是本发明较佳的实施方式，但是本发明的实施方式不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于自监督学习的稠密光流估计系统，其特征在于，包括：

2.一种基于自监督学习的稠密光流估计方法，其特征在于，包括如下步骤：

步骤(1):从任意视频数据中抽取出待训练的光流估计模型训练所需要的大量原始图像对组成的训练数据集，原始图像对包含基准图像和与基准图像之后的任意一帧目标图像；

I(x,y)＝I′(x+u,y+v) 式(1)

步骤(2)、将原始图像对输入卷积神经网络得到初次估计的原始稠密光流图F；

步骤(4)、利用步骤(2)估计的原始稠密光流图F，对图中的所有坐标从目标图像I′中取值以获得重构的基准图像；按上述式(1)，重构的基准图像

在像素坐标(x,y)处的像素值满足

对于坐标值(x+u,y+v)出现的非整数问题，采用插值方法获取对应整数坐标的像素值；

步骤(5)、对比从步骤(4)中所获得的重构的基准图像

与原始基准图像I的差异，通过度量函数计算逐像素的差异值，并对所有像素的差异求和得到自监督学习的优化目标：光度损失；

步骤(6)、对比步骤(2)中所估计的原始稠密光流图F与步骤(3)中所估计的扩增稠密光流图F^*的差异，通过度量函数计算逐像素的差异值，并对所有像素的差异求和得到类比学习的优化目标：类比损失；

步骤(7)、将光度损失与类比损失加权求和获得总损失值，即为总体优化目标，并通过计算卷积神经网络模型中各层参数关于总损失值的梯度，以基于梯度的优化方法对卷积神经网络模型的参数进行更新；

步骤(8)、对训练数据集中所有的图像对不断重复步骤(2)至步骤(7)，直至总体优化目标的损失值收敛，完成深度卷积神经网络的自监督训练。

步骤(9)、通过对给定的任意图像对，输入训练完成的卷积神经网络模型，即可获得对应的稠密光流图。

3.根据权利要求2中所述的一种基于自监督学习的稠密光流估计方法，其特征在于，所述训练数据集是通过判断前后帧画面是否变化滤去静止画面以及不属于同一段分镜的图像对，这样能提升训练数据有效性，从而使本发明方法更高效。

4.根据权利要求2中所述的一种基于自监督学习的稠密光流估计方法，其特征在于，在步骤(3)中对图像对进行的变换方式包括外观变换、空间变换和遮挡变换。

5.根据权利要求4中所述的一种基于自监督学习的稠密光流估计方法，其特征在于，所述外观变换采用随机亮度变化、随机颜色抖动、随机对比度变化、随机高斯模糊或者随机锐化；所述空间变换采用随机平移、随机翻转、随机缩放、随机旋转或者随机裁剪；所述遮挡变换是采用随机遮挡住参考图或目标图的某些区域。

6.根据权利要求2中所述的一种基于自监督学习的稠密光流估计方法，其特征在于，在步骤(4)中插值方法是使用双线性插值或者最近邻插值。

7.根据权利要求2中所述的一种基于自监督学习的稠密光流估计方法，其特征在于，在步骤(5)、(6)中的度量函数是任意描述像素差异的函数，且对所有像素的求和方式包括直接求和、加权求和。

8.根据权利要求7中所述的一种基于自监督学习的稠密光流估计方法，其特征在于，在步骤(5)、(6)中使用的度量函数为所有像素值之差的绝对值之和，公式如下：