CN113658231A

CN113658231A - 光流预测方法、装置、电子设备及存储介质

Info

Publication number: CN113658231A
Application number: CN202110770569.6A
Authority: CN
Inventors: 罗堃铭; 刘帅成
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-16
Anticipated expiration: 2041-07-07
Also published as: CN113658231B

Abstract

本发明公开一种光流预测方法、装置、电子设备及存储介质，包括：将两帧图像输入光流预测网络；通过光流预测网络进行处理：生成两帧图像的初始前向光流和初始后向光流；确定每一帧图像中的遮挡区域；生成每一帧图像的外观流，外观流中记录有图像中外观相似的像素点之间的对应关系；根据每一帧图像的外观流和遮挡区域，确定每一帧图像中非遮挡区域内的目标像素点，目标像素点包括：与遮挡区域内各像素点外观相似的各像素点；对于前一帧图像，将遮挡区域的初始前向光流替换为非遮挡区域内目标像素点的初始前向光流，得到预测的前向光流；对于后一帧图像，将遮挡区域的初始后向光流替换为非遮挡区域内目标像素点的初始后向光流，得到预测的后向光流。

Description

光流预测方法、装置、电子设备及存储介质

技术领域

本发明涉及机器视觉技术领域，特别涉及一种光流预测方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，计算机视觉领域的发展也相当迅速。光流预测是计算机视觉的一项基础任务，在自动驾驶、视频处理、目标检测、行为分析等许多领域中起着重要作用。目前，现有的光流预测方法在预测图像的光流时，对于图像中遮挡区域的光流估计的准确性较差。因此，需要提出一种新的光流预测方法，以提高图像中遮挡区域的光流估计的准确性。

发明内容

本发明实施例提供一种光流预测方法、装置、电子设备及存储介质，以解决现有技术中存在的遮挡区域的光流估计准确性较差的技术问题。

根据本发明的第一方面，公开了一种光流预测方法，所述方法包括：

将两帧图像输入光流预测网络；

通过所述光流预测网络进行处理，得到预测的光流；其中，所述光流预测网络的处理过程包括：

生成所述两帧图像的初始前向光流和初始后向光流；

对于所述两帧图像中的每一帧图像，确定每一帧图像中的遮挡区域；

生成每一帧图像的外观流，其中，所述外观流中记录有图像中外观相似的像素点之间的对应关系；

根据每一帧图像的外观流和遮挡区域，确定每一帧图像中非遮挡区域内的目标像素点，其中，所述目标像素点包括：与所述遮挡区域内各像素点外观相似的各像素点；

对于所述两帧图像中的前一帧图像，保持非遮挡区域的初始前向光流不变，将遮挡区域的初始前向光流替换为非遮挡区域内目标像素点的初始前向光流，得到预测的前向光流；以及对于后一帧图像，保持非遮挡区域的初始后向光流不变，将遮挡区域的初始后向光流替换为非遮挡区域内目标像素点的初始后向光流，得到预测的后向光流。

根据本发明的第二方面，公开了一种光流预测装置，所述装置包括：

输入模块，用于将两帧图像输入光流预测网络；

处理模块，用于通过所述光流预测网络进行处理，得到预测的光流；其中，所述光流预测网络的处理过程包括：

生成所述两帧图像的初始前向光流和初始后向光流；

根据本发明的第三方面，公开了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面中光流预测方法的步骤。

根据本发明的第四方面，公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被所述处理器执行时实现如第一方面中光流预测方法的步骤。

本发明实施例中，通过外观流，引入图像本身的像素之间的外观相似性，依据外观相似性，使用图像中非遮挡区域的光流优化遮挡区域的光流，由于图像中非遮挡区域的光流能够被正常学习，因此使用非遮挡区域的光流优化遮挡区域的光流，可以提高遮挡区域内光流估计的准确性。

附图说明

图1是本发明的一个实施例的光流预测方法的流程图；

图2是本发明的一个实施例的光流预测网络的处理过程的流程图；

图3是本发明的一个实施例的光流优化方式的示例图；

图4是本发明的一个实施例的光流预测过程的示例图；

图5是本发明的一个实施例的外观流生成过程的示例图；

图6是本发明的一个实施例的光流预测网络训练方法的流程图；

图7是本发明的一个实施例的目标损失函数的确定过程的流程图；

图8是本发明的一个实施例的光流预测装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

现阶段基于深度学习的光流预测方法主要有FlowNet、FlowNetv2、PWC-Net以及最近的IRR-PWCNet等。这些方法的主要步骤是：首先收集训练样本，需要训练图像及其对应的Groud Truth(光流真实值)；之后搭建深度学习环境并构建深度神经网络模型；最后利用所收集的训练数据集训练神经网络模型。然而，在实际应用中，光流真实值的获取十分困难。因此，基于深度学习的光流预测方法的应用在很大程度上受限于其数据依赖性。

为了缓解深度学习光流预测方法的数据依赖性，研究人员提出了自监督的光流学习方法。在自监督光流学习方法中，神经网络的训练只需要视频中的图像帧，而不再需要光流真实值。在实际应用中，视频图像是能够大量采集的，因此自监督光流学习方法的应用成本变得非常低。

现有的自监督光流学习方法主要有UnFlow，OAFlow，DDFlow和最近的SelFlow。这些方法的主要步骤是：首先收集视频数据作为训练数据(不需要任何光流标注，只使用图像)；之后构建深度神经网络模型；最后使用图像损失和平滑损失进行模型训练。其中，图像损失是自监督光流学习的核心。图像损失的主要根据是著名的亮度一致假设，即视频相邻两帧之间的亮度变化极小可视为一致。

然而，在物体移动产生的遮挡区域中，亮度一致假设无法成立，导致这些区域的图像损失错误，继而对整个学习过程产生严重的影响。为了避免遮挡区域带来的不利影响，现有技术中，提出将遮挡区域从图像损失中排除，但是简单的排除方法会导致遮挡区域的光流无法学习，进而使得遮挡区域的光流估计的准确性较差。

为解决上述技术问题，本发明实施例提供了一种光流预测方法、装置、电子设备及存储介质。

为了便于理解，下面首先对本发明实施例中涉及到的概念进行描述。

光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度。

光流学习是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。在时间间隔很小(例如视频的连续前后两帧之间)时，光流可以等同于目标点的位移。

接下来对本发明实施例提供的一种光流预测方法进行介绍。

需要说明的是，本发明实施例提供的方法适应于电子设备，在实际应用中，该电子设备可以为服务器，本发明实施例对此不作限定。

图1是本发明的一个实施例的光流预测方法的流程图，如图1所示，该方法可以包括以下步骤：步骤101和步骤102，其中，

在步骤101中，将两帧图像输入光流预测网络。

本发明实施例中，两帧图像为两帧相邻的待预测图像。在实际应用中，两帧图像可以为视频中的两帧相邻图像。

本发明实施例中，光流预测网络用于生成两帧图像的预测的双向光流，其中，双向光流包括前向光流(也称为“正向光流”)和后向光流(也称为“反向光流”)，前向光流为前一帧图像中的像素点相对于后一帧图像的瞬时速度。后向光流为后一帧图像中的像素点相对于前一帧图像的瞬时速度。

在步骤102中，通过光流预测网络进行处理，得到预测的光流。

本发明实施例中，光流预测网络的输入为两帧待预测图像，输出为预测的前向光流和后向光流。

本发明实施例中，如图2所示，光流预测网络的处理过程，包括以下步骤：步骤1021、步骤1022、步骤1023、步骤1024和步骤1025，其中，

在步骤1021中，生成两帧图像的初始前向光流和初始后向光流。

本发明实施例中，两帧图像的初始双向光流是基于两帧图像的特征生成的、且没有经过优化的光流，其中，图像中非遮挡区域内像素点的初始光流的质量较高，而遮挡区域内像素点的初始光流的质量较差。

本发明实施例中，在生成两帧图像的初始双向光流时，可以提取每一帧图像的第二特征，该第二特征包括：与图像中各像素的光流相关的特征，为了便于后续描述，将两帧图像的特征用“特征对”代替描述，基于两帧图像的第二特征对，生成两帧图像的初始双向光流。

本发明实施例中，在提取每一帧图像的第二特征时，可以采用编码神经网络，具体的，将图像输入至编码神经网络中进行处理，输出图像的第二特征，其中，编码神经网络可以包含两个卷积层，第一个卷积层为3×3卷积，步长为2，第二个卷积层为3×3卷积，步长为1。当然，实际应用中也可以采用其他结构的编码神经网络，本发明实施例对此不作限定。

本发明实施例中，在基于两帧图像的第二特征对生成初始双向光流时，可以采用解码神经网络，具体的，将两帧图像的第二特征对输入至解码神经网络中进行处理，输出两帧图像的初始双向光流，其中，解码神经网络可以包含相关性层、卷积层和空洞卷积层。当然，实际应用中也可以采用其他结构的解码神经网络，本发明实施例对此不作限定。

在步骤1022中，对于两帧图像中的每一帧图像，确定每一帧图像中的遮挡区域。

本发明实施例中，可以根据双向光流检测算法，以及两帧图像的初始前向光流和初始后向光流，确定每一帧图像中的遮挡区域。

双向光流检测算法的原理是：对于非遮挡区域的物体，其前向光流和后向光流中的矢量应该相反且长度相等，即其前向光流和后向光流的矢量和应该为零；而对于遮挡区域的光流，则不适用。

具体的，使用前向光流对后向光流进行映射操作，之后与前向光流逐像素相加并进行取阈值。如果小于阈值，则认为该像素属于非遮挡区域，反之则属于遮挡区域。

映射操作可以表示为

为图像中的一个像素坐标，X为被映射的图矩阵，V为映射的流，

为映射的结果。映射操作的意义是：将

位置的像素放置在

位置作为结果。

相应的，双向光流检测可表示为：

其中，1表示遮挡区域，0表示非遮挡区域。

在步骤1023中，生成每一帧图像的外观流，其中，外观流中记录有图像中外观相似的像素点之间的对应关系。

本发明实施例中，外观流中可以记录有图像中外观相似的像素点之间的坐标位置关系。

本发明实施例中，在生成每一帧图像的外观流时，可以提取每一帧图像的第一特征，该第一特征包括：与图像中各像素点的外观相关的特征，基于每一帧图像的第一特征，生成每一帧图像的外观流。

本发明实施例中，在提取每一帧图像的第一特征时，可以采用现有的特征提取网络，具体的，可以将图像输入至特征提取网络进行处理，输出图像的第一特征，或者，为了让网络有充足的输入信息用于提取遮挡区域像素和非遮挡区域像素之间的外观相似性，也可以将图像、图像的第二特征一并输入至特征提取网络中进行处理，输出图像的第一特征，其中，特征提取网络中包含多个卷积层。

本发明实施例中，在基于图像的第一特征生成图像的外观流时，可以采用外观流估计网络，具体的，将图像的第一特征输入至外观流估计网络中进行处理，输出图像的外观流，其中，外观流估计网络中可以包含一个1×1的卷积层、多个稠密连接的卷积层和几个不同尺寸的空洞卷积层。当然，实际应用中也可以采用其他结构的外观流估计网络，本发明实施例对此不作限定。

在步骤1024中，根据每一帧图像的外观流和遮挡区域，确定每一帧图像中非遮挡区域内的目标像素点，其中，目标像素点包括：与遮挡区域内各像素点外观相似的各像素点。

在一个例子中，以一帧图像A为例，图像A中遮挡区域内包含100个像素点{S₁,S₂,…,S₁₀₀}，由于图像A的外观流中记录有图像A中的外观相似的像素点之间的对应关系，因此根据图像A的外观流可以确定非遮挡区域内与{S₁,S₂,…,S₁₀₀}外观相似的各目标像素点{Q₁,Q₂,…,Q₁₀₀}。

在步骤1025中，对于两帧图像中的前一帧图像，保持非遮挡区域的初始前向光流不变，将遮挡区域的初始前向光流替换为非遮挡区域内目标像素点的初始前向光流，得到预测的前向光流；以及对于后一帧图像，保持非遮挡区域的初始后向光流不变，将遮挡区域的初始后向光流替换为非遮挡区域内目标像素点的初始后向光流，得到预测的后向光流。

在一个例子中，仍以图像A为例，图像A为前一帧图像，如图3所示，图像A中非遮挡区域内的像素点Q₁与遮挡区域内的像素点S₁的外观相似，在对遮挡区域内的光流进行优化时，保持Q₁位置的初始前向光流不变，将S₁位置的初始前向光流替换为Q₁位置的初始前向光流，对于S₂,…,S₁₀₀，重复上述操作，得到图像A的预测的前向光流。

由上述实施例可见，该实施例中，通过外观流，引入图像本身的像素之间的外观相似性，依据外观相似性，使用图像中非遮挡区域的光流优化遮挡区域的光流，由于图像中非遮挡区域的光流能够被正常学习，因此使用非遮挡区域的光流优化遮挡区域的光流，可以提高遮挡区域内光流估计的准确性。

在本发明提供的再一个实施例中，考虑到计算速度和复杂度，可以仅提取每一帧图像的单一尺度的第二特征，基于单一尺度的第二特征，生成初始双向光流，此时，上述步骤1021具体可以包括以下步骤：

获取两帧图像的第二特征对，其中，第二特征对包括：与图像中各像素的光流相关的特征；

根据第二特征对，生成两帧图像的初始前向光流和初始后向光流。

对于这种情况，可以采用一个编码神经网络和一个解码神经网络实现，具体的，首先将两帧图像输入至编码神经网络中进行处理，之后将编码神经网络输出的特征对输入至解码神经网络中进行处理，解码神经网络的输出即为两帧图像的初始前向光流和初始后向光流。

在本发明提供的再一个实施例中，考虑到图像中的内容在一种尺度中不容易看清或者在另外的某种尺度下就很容易发现，可以提取每一帧图像在多个不同尺度的第二特征，基于多个不同尺度的第二特征，生成初始双向光流，此时，上述步骤1021具体可以包括以下步骤：

获取两帧图像的M个不同尺度的第二特征对，其中，M为大于1的整数；

根据第j个尺度的第二特征对和相邻小尺度的预测双向光流，生成第j个尺度的初始双向光流，其中，第j个尺度为最小尺度时，其相邻小尺度的预测双向光流为0，1≤j≤M；

将最大尺度的初始双向光流确定为两帧图像的初始前向光流和初始后向光流。

对于这种情况，可以采用M个编码神经网络和M个解码神经网络，M个编码神经网络与M个解码神经网络一一对应，具体的，首先将两帧图像分别输入至M个编码神经网络中进行处理，之后将M个编码神经网络输出的特征对分别输入至对应的M个解码神经网络中进行处理，尺度最大的特征对所对应的解码神经网络的输出即为两帧图像的初始前向光流和初始后向光流。

其中，对于一个尺度特征对所对应的解码神经网络，其输入除包含该尺度的特征对之外，还包含相邻小尺度的预测双向光流，相邻小尺度的预测双向光流可以帮助解码神经网络学习光流信息，更快地生成该解码神经网络所对应的尺度下的预测双向光流。

可见，本发明实施例中，可以对图像采用多尺度的表达，提取图像的多个不同尺度的特征，并且在不同尺度下分别进行处理，从粗到细进行初始光流估计，由于图像的有些特征在大尺度上容易提取，有些特征在小尺度上容易提取，因此从小尺度估计到大尺度，能够提高整体光流预测的准确性。

在本发明提供的再一个实施例中，考虑到计算速度和复杂度，可以仅提取每一帧图像的单一尺度的第一特征，基于单一尺度的第一特征，生成每一帧图像的外观流，此时，上述步骤1023具体可以包括以下步骤：

获取每一帧图像的第一特征，其中，第一特征包括：与图像中各像素点的外观相关的特征；

根据每一帧图像的第一特征，生成每一帧图像的初始外观流；

获取每一帧图像的初始外观流的残差信息；

将每一帧图像的初始外观流与残差信息进行相加，得到每一帧图像的输出外观流。

本发明实施例中，考虑到在图像中一些像素可能与较远位置的像素相似，为了获取较大范围的信息来优化外观流，可以学习初始外观流的残差信息，将初始外观流与残差信息进行相加得到最终输出的外观流。

对于这种情况，可以采用一个特征提取网络和一个外观流估计网络，以一帧图像为例，具体的，首先将一帧图像输入至特征提取网络中进行处理，之后将特征提取网络输出的特征输入至外观流估计网络中进行处理，其中，外观流估计网络中的稠密连接卷积层用于基于输入的特征生成初始外观流，空洞卷积层用于学习初始外观流残差信息，之后将稠密连接卷积层的输出和空洞卷积层的输出相加，得到输出外观流。

在本发明提供的再一个实施例中，考虑到图像中的内容在一种尺度中不容易看清或者在另外的某种尺度下就很容易发现，可以提取每一帧图像在多个不同尺度的第一特征，基于多个不同尺度的第一特征，生成每一帧图像的外观流，此时，上述步骤1023具体可以包括以下步骤：

获取每一帧图像的N个不同尺度的第一特征，其中，N为大于1的整数；

对于每一帧图像，将第i个尺度的第一特征和相邻小尺度的输出外观流进行拼接，生成第i个尺度的拼接特征，其中，第i个尺度为最小尺度时，其相邻小尺度的输出外观流为0，1≤i≤N；

根据第i个尺度的拼接特征，生成第i个尺度的初始外观流；

获取第i个尺度的初始外观流的残差信息；

将第i个尺度的初始外观流与残差信息相加，得到第i个尺度的输出外观流；

将最大尺度的输出外观流确定为每一帧图像的外观流。

对于这种情况，可以采用N个特征提取网络和N个外观流估计网络，N个特征提取网络与N个外观流估计网络一一对应，以一帧图像为例，具体的，首先将一帧图像分别输入至N个特征提取网络中进行处理，之后将N个特征提取网络输出的特征分别输入至对应的N个外观流估计网络中进行处理，尺度最大的特征所对应的外观流估计网络的输出即为一帧图像的外观流。

其中，对于一个尺度特征对所对应的外观流估计网络，其输入除包含该尺度的特征之外，还包含相邻小尺度的输出外观流，相邻小尺度的输出外观流可以帮助外观流估计网络学习图像的外观信息，更快地生成该外观流估计网络所对应的尺度下的输出外观流。

可见，本发明实施例中，可以对图像采用多尺度的表达，提取图像的多个不同尺度的特征，并且在不同尺度下分别进行处理，从粗到细进行外观流估计，由于图像的有些特征在大尺度上容易提取，有些特征在小尺度上容易提取，因此从小尺度估计到大尺度，能够提高外观流估计的准确性。

为了便于对本发明实施例技术方案进行理解，结合图4和图5所示的示例图进行举例说明。

如图4所示，待预测的两帧图像为I₁和I₂，I₁为前一帧图像，I₂为后一帧图像，H为图像的高度，W为图像的宽度。

光流预测网络中包含多个编码神经网络，多个解码神经网络和多个光流优化网络，其中，如图5所示，每个光流优化网络中包含两个特征提取网络和两个外观流估计网络。

首先，将I₁和I₂分别输入至各个编码神经网络中进行处理，输出多个不同尺度的第二特征对

为I₁在第i个尺度下的第二特征，

为I₂在第i个尺度下的第二特征；

之后，将每个尺度的特征对

分别输入至对应的各个解码神经网络中进行处理，输出初始光流

以及归一化的特征对

其中，

为第i个尺度下的初始前向光流，

为第i个尺度下的初始后向光流，

为

归一化后的特征，

为

归一化后的特征。需要说明的是，也可以不对特征进行归一化处理，归一化的目的是便于后续统一输入到后续网络中进行处理，实际应用中，可以通过一个1×1的卷积层将图像的特征的通道数归一化为32。

最后，将每个尺度的

和初始光流

分别输入至对应的各个光流优化模块中进行处理，输出预测光流

和

其中，

为第i个尺度下的预测前向光流，

为第i个尺度下的预测后向光流。每个尺度的预测光流均输入到下一个尺度的解码神经网络中(最小尺度下的该输入设为0)。出于计算速度和复杂度的考虑，本发明实施例中，可以将1/4尺度下的预测双向光流经过4倍上采样作为最终输出，得到最终预测的前向光流V_f和后向光流V_b。

其中，以生成一个图像的一个尺度的外观流为例，对光流优化网络如何生成外观流进行介绍，如图5中的左图所示，首先将第i个尺度的图像

归一化的特征

和遮挡区域

分别输入至两个特征提取网络中进行处理，输出尺度为1的特征和尺度为1/2的特征。

将尺度为1的特征和尺度为1/2的特征分别输入至对应的外观流估计网络中进行处理，输出1和1/2尺度下的外观流，其中，外观流估计网络的处理过程如图5中的右图所示，对于输入外观流估计网络的特征，通过一个卷积层将该特征进行归一化处理，之后与上一个尺寸的外观流进行拼接，得到拼接后的特征，其中，尺度为1/2的归一化特征所对应的上一个尺度的外观流为0；基于拼接后的特征生成初始外观流，学习初始外观流的残差信息，将初始外观流和残差信息相加，得到输出外观流。

在本发明提供的再一个实施例中，还可以在上述任一实施例的基础上增加以下步骤：预先训练光流预测网络，如图6所示，图6是本发明的一个实施例的光流预测网络训练方法的流程图，可以包括以下步骤：步骤601、步骤602和步骤603，其中，

在步骤601中，获取训练集，训练集中包含多个图像对，每个图像对中包含两帧样本图像。

本发明实施例中，考虑到自监督光流学习方法，在进行光流预测网络训练时不需要光流真实值，因此训练数据只需要从视频中提取连续的视频帧即可，任何视频图像数据均可用于训练光流预测网络。

考虑到Sintel数据集是一个公开的数据集，其使用3D渲染技术，来生成图像和光流真值以供光流预测网络训练和验证。优选地，本发明实施例中，可以采用Sintel数据集的训练集图像进行光流预测网络训练，使用Sintel数据集的测试集来验证光流估计的准确性。

在一个例子中，训练集中可以包含1041个图像对，每个图像对中包含相邻的两帧图像。

本发明实施例中，考虑到样本数量越多，训练出的网络的预测结果越准确，优选地，训练集中可以包括海量的图像对。

在步骤602中，构建初始模型和对应的目标损失函数。

本发明实施例中，初始模型中可以包含编码神经网络、解码神经网络和光流优化网络，初始模型根据目标损失函数的反馈修改模型的参数。

本发明实施例中，如图7所示，目标损失函数通过以下步骤确定：步骤6021、步骤6022、步骤6023和步骤6024，其中，

在步骤6021中，根据两帧样本图像、两帧样本图像的预测的前向光流和后向光流，确定图像损失函数。

本发明实施例中，图像损失的计算公式可以为：

Lp＝ψ(P₁-W(P₂,V_f))+ψ(P₂-W(P₁,V_b))；

其中，P₁为前一帧样本图像和P₂为后一帧样本图像，V_f为模型输出的前向光流，V_b为模型输出的后向光流，W为映射操作，ψ为鲁棒损失函数，ψ(x)＝(|x|+ξ)^q，ξ和q为预设参数。

在步骤6022中，根据两帧样本图像的预测的前向光流和后向光流，确定平滑损失函数。

本发明实施例中，对于光流预测网络所预测的光流，加上了平滑约束，即相邻像素点的光流需要相似。具体的，直接采用x和y方向的相邻预测光流做差作为平滑损失函数：

在步骤6023中，根据两帧样本图像、两帧样本图像的遮挡区域和外观流，确定外观流损失函数。

本发明实施例中，对于光流网络预测的光流，加上外观流损失，外流损失是基于将图像中的遮挡区域视为缺失区域，使用外观流补全缺失区域来构建的，外观流损失使得学习到的外观流能够成功提升光流预测的效果，外观流损失的计算公式可以为：

其中，

为P₁在第i个尺度下的图像，

为P₂在第i个尺度下的图像，

为

中的遮挡区域，

为

中的遮挡区域，

为

的外观流，

为

的外观流。

在步骤6024中，根据图像损失函数、平滑损失函数和外观流损失函数，确定目标损失函数。

本发明实施例中，目标损失函数L可以为：

L＝λp*Lp+λα*Lα+λs*Ls；

其中，Lp为图像损失，λp为图像损失的权重系数，Lα为外观流损失，λα为外观流损失的权重系数，Ls为平滑损失，λs为平滑损失的权重系数。由于平滑损失函数权重较大会导致光流预测网络输出的光流为恒定值，则在本发明实施例中，设置较小的λs＝0.01，而λp＝1，λα＝1。

在步骤603中，将训练集中的图像对输入至初始模型，根据目标损失函数对初始模型的模型参数进行调整，直至模型收敛，得到光流预测网络。

由上述实施例可见，该实施例中，通过外观流，引入图像本身的像素之间的外观相似性，依据外观相似性，利用图像中非遮挡区域的光流优化遮挡区域，为图像中的遮挡区域引入监督信息，使得遮挡区域内的光流可以正常被学习，从而提高自监督光流学习方法在遮挡区域内光流估计的准确性。

图8是本发明的一个实施例的光流预测装置的结构示意图，如图8所示，光流预测装置800，可以包括：输入模块801和处理模块802，其中，

输入模块801，用于将两帧图像输入光流预测网络；

处理模块802，用于通过所述光流预测网络进行处理，得到预测的光流；其中，所述光流预测网络的处理过程包括：

生成所述两帧图像的初始前向光流和初始后向光流；

可选地，作为一个实施例，所述处理模块802，具体用于：

获取每一帧图像的第一特征，其中，所述第一特征包括：与图像中各像素点的外观相关的特征；

获取每一帧图像的初始外观流的残差信息；

可选地，作为一个实施例，所述处理模块802，具体用于：

根据第i个尺度的拼接特征，生成第i个尺度的初始外观流；

获取第i个尺度的初始外观流的残差信息；

将最大尺度的输出外观流确定为每一帧图像的外观流。

可选地，作为一个实施例，所述处理模块802，具体用于：

获取所述两帧图像的第二特征对，其中，所述第二特征对包括：与图像中各像素的光流相关的特征；

根据所述第二特征对，生成所述两帧图像的初始前向光流和初始后向光流。

可选地，作为一个实施例，所述处理模块802，具体用于：

获取所述两帧图像的M个不同尺度的第二特征对，其中，M为大于1的整数；

将最大尺度的初始双向光流确定为所述两帧图像的初始前向光流和初始后向光流。

可选地，作为一个实施例，所述光流预测装置800，还可以包括：训练模块，用于训练所述光流预测网络；

所述训练模块，具体用于：

获取训练集，所述训练集中包含多个图像对，每个图像对中包含两帧样本图像；

构建初始模型和对应的目标损失函数；

将所述训练集中的图像对输入至所述初始模型，根据所述目标损失函数对所述初始模型的模型参数进行调整，直至模型收敛，得到所述光流预测网络；

其中，所述目标损失函数通过以下方式确定：

根据所述两帧样本图像、所述两帧样本图像的预测的前向光流和后向光流，确定图像损失函数；

根据所述两帧样本图像的预测的前向光流和后向光流，确定平滑损失函数；

根据所述两帧样本图像、所述两帧样本图像的遮挡区域和外观流，确定外观流损失函数；

根据所述图像损失函数、所述平滑损失函数和所述外观流损失函数，确定所述目标损失函数。

可选地，作为一个实施例，所述处理模块802，具体用于：

根据双向光流检测算法，以及所述两帧图像的初始前向光流和初始后向光流，确定每一帧图像中的遮挡区域。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据本发明的再一个实施例，本发明还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上述任意一个实施例所述的光流预测方法中的步骤。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时实现如上述任意一个实施例所述的光流预测方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种光流预测方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种光流预测方法，其特征在于，所述方法包括：

将两帧图像输入光流预测网络；

生成所述两帧图像的初始前向光流和初始后向光流；

2.根据权利要求1所述的方法，其特征在于，所述生成每一帧图像的外观流，包括：

获取每一帧图像的初始外观流的残差信息；

3.根据权利要求1所述的方法，其特征在于，所述生成每一帧图像的外观流，包括：

根据第i个尺度的拼接特征，生成第i个尺度的初始外观流；

获取第i个尺度的初始外观流的残差信息；

将最大尺度的输出外观流确定为每一帧图像的外观流。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述生成所述两帧图像的初始前向光流和初始后向光流，包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述生成所述两帧图像的初始前向光流和初始后向光流，包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述将两帧图像输入光流预测网络的步骤之前，还包括：训练所述光流预测网络；其中，

所述训练所述光流预测网络，包括：

构建初始模型和对应的目标损失函数；

其中，所述目标损失函数通过以下方式确定：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述确定每一帧图像中的遮挡区域，包括：

8.一种光流预测装置，其特征在于，所述装置包括：

输入模块，用于将两帧图像输入光流预测网络；

生成所述两帧图像的初始前向光流和初始后向光流；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的光流预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时实现如权利要求1至7中任一项所述的光流预测方法的步骤。