CN114612510A

CN114612510A - 图像处理方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: CN114612510A
Application number: CN202210200502.3A
Authority: CN
Inventors: 齐晓娟; 吴秀哲; 单瀛; 黄奇浩; 伍洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-10
Anticipated expiration: 2042-03-01
Also published as: CN114612510B

Abstract

一种图像处理方法、装置、设备、存储介质及计算机程序产品，可应用于计算机视觉、机器学习等领域。其中方法包括：获取第一图像的深度图；对第一图像和第二图像进行处理，得到相机运动变化矩阵，第一图像和第二图像为针对运动物体拍摄得到的相邻图像帧；基于深度图、相机运动变化矩阵、第一图像和第二图像确定预测图像，对第一图像和预测图像进行处理，得到物体运动变化矩阵，物体运动变化矩阵用于指示预测图像相对第一图像的运动物体的运动变化；基于物体运动变化矩阵和第一图像确定目标运动变化信息，目标运动变化信息用于指示第二图像相对第一图像中运动物体的运动变化。采用本申请实施例，可以确定较为准确的运动物体的目标运动变化信息。

Description

图像处理方法、装置、设备、存储介质及计算机程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及图像处理方法、图像处理装置、计算机设备、计算机可读存储介质及计算机程序产品。

背景技术

现有的基于有监督学习和自监督学习的深度预测方法都强烈依赖光度一致性假设，即假设场景中的前景和背景均是完全静止的。然而真实的场景中往往存在除相机运动以外的大量运动的物体，在这种场景下，此类方法预测的运动物体的深度容易存在深度与背景前后关系不一致或是无穷远等问题。为了提升深度预测的准确性，需要对场景中的运动物体进行运动预测。

目前有部分工作尝试对运动物体进行建模，或者基于2D光流一致性的信息来拟合物体的运动等，但由于缺乏对运动物体所造成的影响的理解，导致无法得到较为准确的运动物体的运动变化信息，从而对运动物体的运动预测效果不佳，进而无法对运动物体得到较为准确的深度预测结果。因此，如何得到较为准确的运动物体的运动变化信息是一个丞待解决的问题。

发明内容

本申请实施例提供一种图像处理方法、装置、设备、存储介质及计算机程序产品，可得到较为准确的运动物体的运动变化信息。

第一方面，本申请实施例提供了一种图像处理方法，该方法包括：

获取第一图像的深度图，并对所述第一图像和第二图像进行处理，得到相机运动变化矩阵；所述第一图像和所述第二图像为针对运动物体拍摄得到的相邻图像帧，所述相机运动变化矩阵用于指示所述第一图像和所述第二图像所对应视角下的相机运动变化；

对所述第一图像和预测图像进行处理，得到物体运动变化矩阵；所述预测图像是基于所述深度图、所述相机运动变化矩阵、所述第一图像和所述第二图像确定的，所述物体运动变化矩阵用于指示所述预测图像中的所述运动物体相对所述第一图像中的所述运动物体的运动变化；所述预测图像为所述第二图像相对所述第一图像消除相机运动影响后的图像；

基于所述物体运动变化矩阵和所述第一图像，确定目标运动变化信息；所述目标运动变化信息用于指示所述第二图像中的所述运动物体相对所述第一图像中的所述运动物体的运动变化。

第二方面，本申请实施例提供了一种图像处理装置，该装置包括：

获取模块，用于获取第一图像的深度图，并对所述第一图像和第二图像进行处理，得到相机运动变化矩阵；所述第一图像和所述第二图像为针对运动物体拍摄得到的相邻图像帧，所述相机运动变化矩阵用于指示所述第一图像和所述第二图像所对应视角下的相机运动变化；

处理模块，用于对所述第一图像和预测图像进行处理，得到物体运动变化矩阵；所述预测图像是基于所述深度图、所述相机运动变化矩阵、所述第一图像和所述第二图像确定的，所述物体运动变化矩阵用于指示所述预测图像中的所述运动物体相对所述第一图像中的所述运动物体的运动变化；

确定模块，用于基于所述物体运动变化矩阵和所述第一图像，确定目标运动变化信息；所述目标运动变化信息用于指示所述第二图像中的所述运动物体相对所述第一图像中的所述运动物体的运动变化。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括处理器、通信接口和存储器，该处理器、通信接口和存储器相互连接，其中，该存储器存储有计算机程序，该处理器用于调用该计算机程序，执行本申请实施例提供的图像处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的图像处理方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行本申请实施例提供的图像处理方法。

本申请实施例中，获取第一图像的深度图；对第一图像和第二图像进行处理，得到相机运动变化矩阵，第一图像和第二图像为针对运动物体拍摄得到的相邻图像帧；基于深度图、相机运动变化矩阵、第一图像和第二图像确定预测图像；对第一图像和预测图像进行处理，得到物体运动变化矩阵，物体运动变化矩阵用于指示预测图像相对第一图像的运动物体的运动变化；基于物体运动变化矩阵和第一图像，确定目标运动变化信息，目标运动变化信息用于指示第二图像相对第一图像的运动物体的运动变化。采用本申请实施例，首先，基于深度图和相机运动变化矩阵可得到消除相机运动影响后的预测图像；然后，基于第一图像和消除相机运动影响后的预测图像，可得到消除相机运动影响后的运动物体的物体运动变化矩阵，此时得到的运动物体的物体运动变化矩阵较为准确；最后，基于该较为准确的运动物体的物体运动变化矩阵和第一图像可得到较为准确的运动物体的目标运动变化信息，从而基于所得到的目标运动变化信息可以降低甚至消除场景中运动物体对光照一致性约束的影响，进而可提升深度预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理系统的架构图；

图2a是本申请实施例提供的一种图像处理方法的流程示意图；

图2b是本申请实施例提供的一种图像处理方法的子流程示意图；

图3是本申请实施例提供的一种逆向映射的示意图；

图4是本申请实施例提供的一种训练运动估计模型的方法的流程示意图；

图5是本申请实施例提供的一种训练运动估计模型的部分过程示意图；

图6是本申请实施例提供的不同方法对物体运动的预测示意图；

图7是本申请实施例提供的不同方法对物体深度的预测示意图；

图8是本申请实施例提供的一种图像处理装置的示意图；

图9是本申请实施例提供的一种计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请实施例，下面对本申请的图像处理方法进行描述。

为了得到较为准确的运动物体的目标运动变化信息，本申请实施例提供了一种图像处理方案。请参见图1，图1是本申请实施例提供的一种图像处理系统的架构图。下面结合图1对本申请实施例提出的图像处理方法的大致实施过程进行阐述：首先，计算机设备101通过拍摄装置102获取第一图像103和第二图像104，第一图像103和第二图像104为拍摄装置102针对运动物体105拍摄得到的相邻图像帧。其次，计算机设备101通过深度预测网络获取第一图像103的深度图；通过相机运动预测网络对第一图像103和第二图像104进行处理，得到相机运动变化矩阵。然后，基于深度图和相机运动变化矩阵，得到第一预测图像；基于第一图像103和第一预测图像，利用刚性运动预测网络得到运动物体105的刚性运动变化矩阵；基于深度图、相机运动变化矩阵和刚性运动变化矩阵，利用非刚性预测网络得到运动物体105的非刚性运动变化矩阵。最后，基于刚性运动变化矩阵、非刚性运动变化矩阵和第一图像103的初始图像矩阵，确定运动物体105的目标运动变化信息；其中，目标运动变化信息用于指示第二图像104中的运动物体105相对第一图像103中的运动物体105的运动变化。

经实践表明，本申请实施例所提出的图像处理方案可具有如下有益效果：基于深度图和相机运动变化矩阵可得到消除相机运动影响后的第一预测图像，从而可以得到较为准确的运动物体的刚性运动变化矩阵；基于深度图和相机运动变化矩阵以及较为准确的运动物体的刚性运动变化矩阵，可得到消除相机运动影响和刚性运动影响后的第二预测图像，从而可得到较为准确的运动物体的非刚性运动变化矩阵；最后，基于较为准确的运动物体的刚性运动变化矩阵、较为准确的运动物体的非刚性运动变化矩阵以及第一图像的初始图像矩阵，可得到较为准确的运动物体的目标运动变化信息，从而基于所得到的目标运动变化信息可以降低甚至消除场景中运动物体对光照一致性约束的影响，进而可提升深度预测的准确性。

需要说明的是：在具体实现中，上述方案可由计算机设备执行，该计算机设备可以是终端或者服务器；其中，此处所提及的终端可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能电视、智能车载终端等；终端内可运行各式各样的客户端(application，APP)，如视频播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。并且，本申请实施例所提及的计算机设备可以位于区块链网络外，也可以位于区块链网络内，对此不作限定；所谓的区块链网络是一种由点对点网络(P2P网络)和区块链所构成的网络，而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式，其本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块(或称为区块)。

本申请实施例提供的图像处理方法可以基于人工智能(ArtificialIntelligence，AI)技术实现。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，其涉及的领域较为广泛，既有硬件层面的技术也有软件层面的技术AI基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的图像处理方法主要涉及AI技术中的计算机视觉技术(Computer Vision,CV)。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。

为了便于理解本申请实施例，下面对上述图像处理方案的具体实现方式进行详细阐述。

请参见图2a，图2a是本申请实施例提供的一种图像处理方法的流程示意图。该方法可由计算机设备(例如图1中的计算机设备100)来执行，如图2a所示，该图像处理方法可包括如下步骤S201-S204：

S201、获取第一图像的深度图。

其中，深度图也被称为距离影像，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图中每个像素值代表的是该像素在空间中的点到相机中心所在平面的距离。

在一实施例中，计算机设备在获取第一图像的深度图之前，还包括获取第一图像。第一图像可以是利用拍摄装置拍摄得到的，该拍摄装置可以配置于计算机设备上，也可以是独立于计算机设备的。第一图像还可以是从某视频中提取的图像帧。

在一实施例中，计算机设备在获取第一图像的深度图时，可将第一图像输入深度预测网络中进行处理，得到第一图像的深度图。可选地，深度预测网络例如可以是Monodepth2网络，也可以是几何神经网络(Geometric Neural Networks，GeoNet)等。

S202、对第一图像和第二图像进行处理，得到相机运动变化矩阵，该第一图像和第二图像为针对运动物体拍摄得到的相邻图像帧。

相机运动变化矩阵用于指示第一图像和第二图像所对应视角下的相机运动变化。本申请实施例中的相机运动变化矩阵是利用相机运动预测网络对第一图像和第二图像进行处理得到的。可选地，相机运动预测网络例如可以是几何对应网络(GeometricCorrespondence Network，GCN)，该网络可以同时学习特征定位(用于运动估计)和描述(用于匹配)，以此完成相机的运动估计。

在一实施例中，计算机设备在对第一图像和第二图像进行处理之前，还包括获取第二图像。第二图像可以是利用拍摄装置拍摄得到的，该拍摄装置可以配置于计算机设备上，也可以是独立于计算机设备的。第二图像还可以是从上述某视频中提取的与第一图像相邻的图像帧，相邻可以是指拍摄时间相邻。

在一实施例中，计算机设备可将第一图像和第二图像输入到相机运动预测网络中进行处理，得到相机运动变化矩阵。

S203、对第一图像和预测图像进行处理，得到物体运动变化矩阵，该预测图像是基于深度图、相机运动变化矩阵、第一图像和第二图像确定的。

其中，物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵。物体运动变化矩阵用于指示预测图像中的运动物体相对所述第一图像中的运动物体的运动变化。预测图像为第二图像相对第一图像消除相机运动影响后的图像。

刚性运动变化矩阵表示物体本身的刚性运动。刚性运动指的是只有物体的位置和朝向发生了改变，而形状不变，例如是汽车运动。因此，刚性运动变化矩阵是一个具有六自由度的变化矩阵，六自由度包括物体沿x、y、z方向的移动自由度，以及物体绕x、y、z轴的转动自由度。

非刚性运动变化矩阵表示物体本身的非刚性运动，也可以理解为物体区域运动的残差。非刚性运动指的是形状发生改变的运动，例如是人体运动。

请参见图2b，图2b是本申请实施例提供的一种图像处理方法的子流程图，对应步骤S203。如图2b所示，步骤S203可包括如下步骤S2031-S2032：

S2031、对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵。

其中，刚性运动变化矩阵用于指示第一预测图像中的所述运动物体相对所述第一图像中的所述运动物体的刚性运动变化。

第一预测图像为第二图像相对第一图像消除相机运动影响后的图像。可以理解的是，如果第二图像与第一图像之间的差异既包括相机运动影响所造成的差异，也包括物体运动影响所造成的差异，则第一预测图像与第一图像之间的差异只包括物体运动影响所造成的差异，第一预测图像与第二图像之间的差异只包括相机运动影响所造成的差异。

在一实施例中，计算机设备对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵的方式如下步骤S2031a-S2031b：

S2031a、基于深度图、相机运动变化矩阵、第一图像和第二图像确定第一预测图。

在一实施例中，计算机设备基于深度图、相机运动变化矩阵、第一图像和第二图像确定第一预测图的方式为：基于深度图、相机运动变化矩阵，确定第一图像和第二图像之间各个像素的第一对应关系；基于第一对应关系，利用逆向映射将第二图像中的各个像素映射到第一图像中，生成第一预测图像。

其中，第一对应关系表示的是仅有相机运动(场景中的其余物体全为静止状态)情况下，两个相机坐标下中的成像平面的每个像素之间的相关性。该相关性可以是像素坐标的相关性。例如是第一图像中的像素坐标(2，5)和第二图像中的像素坐标(3，7)的相关性。也可以理解为，第一图像中的像素坐标(2，5)对应第二图像中的像素坐标(3，7)。

在一实施例中，设第一图像为图像帧I_t，第二图像为图像帧I_t+1，第一图像的深度图为D_t，相机运动变化矩阵为T_ego，以图像帧中的一个像素为例，计算机设备可通过以下式(1)确定第一图像和第二图像之间该像素的第一对应关系。

d_t+1p_t+1＝KT_t→t+1(d_tK^-1p_t) (1)

上式(1)中，d_t+1表示的是图像帧I_t+1中该像素的深度值；p_t+1表示的是图像帧I_t+1中该像素的坐标；K表示的是相机内参矩阵，为预设值；T_t→t+1表示的是相机运动变化矩阵，即T_ego；d_t表示的是图像帧I_t中该像素的深度值，可通过深度图D_t获得；p_t表示的是图像帧I_t中该像素的坐标，为已知值。

可选地，假设d_t+1和d_t近似相等，计算机设备可通过上式(1)得到p_t+1的值。可选地，计算机设备还可通过深度预测网络对第二图像进行处理，得到第二图像的深度图(记为D_t+1)；基于D_t+1得到第二图像(图像帧I_t+1)中一个像素的深度值d_t+1；通过上式(1)得到p_t+1的值。计算机设备可根据p_t+1和p_t，确定第一图像和第二图像中该像素的对应关系。

在一实施例中，计算机设备可通过上式(1)得到第一图像和第二图像之间每个像素的第一对应关系。

请参见图3，图3是本申请实施例提供的一种逆向映射的示意图。逆向映射是对于每个获得的新坐标(x,y)，用逆向的映射函数u(x,y)、v(x,y)找到它在原图中对应的位置(u,v)，然后让g(x,y)＝f(u,v)，如果算出来的点(u,v)不在格子上(例如初始预测图像301中的P′)，用插值方法获得新的像素值，即根据P1、P2、P3、P4对P′进行插值，获得新的像素值。其中新的像素值都在格子上，如图中的预测图像302。

在一实施例中，计算机设备在得到第一图像和第二图像之间每个像素的第一对应关系之后，可基于第一对应关系，通过逆向映射将第二图像中的各个像素映射到第一图像中的方式，插值得到第一预测图像(例如记为

)。例如，第二图像中的一个像素(3,4)通过逆向映射到第一图像中所对应的像素为(2,3)，则计算机设备将第二图像中像素(3,4)的像素值赋给第一图像中像素(2,3)对应的像素值，之后通过插值方法获得新的像素值，多个新的像素值组成的图像即为第一预测图像。

S2031b、对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵。

在一实施例中，计算机设备对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵的方式为：提取第一图像中运动物体所在图像区域的第一图像特征，以及提取第一预测图像中运动物体所在图像区域的第二图像特征；将第一图像特征和第二图像特征进行拼接，得到拼接图像特征；将拼接图像特征输入刚性运动预测网络中进行处理，得到刚性运动变化矩阵。可选地，刚性运动预测网络例如可以是基于编码器-解码器(encoder-decoder)架构构建的，也可以是基于encoder-decoder和运动估计和运动补偿网络(MotionEstimate and Motion CompensationNetwork，MEMC-Net)共同构建的。

在一实施例中，计算机设备可利用特征提取网络提取第一图像中运动物体所在图像区域的第一图像特征，以及提取第一预测图像中运动物体所在图像区域的第二图像特征。可选地，计算机设备可通过训练好的语义预测网络所提供的物体检测框，确定同一运动物体所在图像区域。可选地，特征提取网络可以是卷积神经网络(Convolutional NeuralNetworks,CNN)，例如可以是基于ResNet18网络(一种包括卷积层和全连接层，不包括池化层和BN层的网络)构建的。

在一实施例中，计算机设备还可利用特征提取网络提取第一图像中所有物体所在图像区域的第一图像特征，以及提取第一预测图像中所有物体所在图像区域的第二图像特征；通过物体检测框对该第一图像特征和该第二图像特征进行处理，确定多个同一物体所在图像区域的图像特征；将多个同一物体所在区域的图像特征进行拼接，得到多个拼接图像特征；将多个拼接图像特征输入到刚性运动预测网络中进行处理，得到第一图像中所有物体的刚性运动变化矩阵(例如记为

)。此时，若该第一图像特征和第二图像特征中都包含静态物体，则该刚性运动变化矩阵中对应静态物体的刚性运动为设定值(例如0)。若该第一图像特征和该第二图像特征都包括了多个运动物体，则该刚性运动变化矩阵中包括了每个运动物体的刚性运动变化。例如该第一图像特征和该第二图像特征都包括了运动物体1和运动物体2，则该刚性运动变化矩阵中包括了运动物体1的刚性运动变化矩阵(例如记为

)和运动物体2的刚性运动变化矩阵(例如记为

)。

本申请实施例中，由于第一预测图像为第二图像相对第一图像消除相机运动影响后的图像，因此，基于第一图像和第一预测图像得到的刚性运动变化矩阵可以理解为第二图像相对第一图像消除相机运动变化后得到的矩阵，该刚性运动变化矩阵中仅指示物体本身的刚性运动变化。所以，该刚性运动变化矩阵可以较为准确的指示第一预测图像中的运动物体相对第一图像中的运动物体的刚性变化。

S2032、对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵。

其中，第二预测图像为第二图像相对第一图像消除相机运动影响和物体刚性运动影响后的图像。可以理解的是，如果第二图像与第一图像之间的差异既包括相机运动影响所造成的差异，也包括物体刚性运动影响和物体非刚性运动影响所造成的差异，则第二预测图像与第一图像之间的差异只包括物体非刚性运动影响所造成的差异，第二预测图像与第二图像之间的差异包括相机运动影响和物体刚性运动影响所造成的差异。

非刚性运动变化矩阵用于指示第二预测图像中的运动物体相对第一图像中的运动物体的非刚性运动变化。非刚性运动变化矩阵可以包括第一图像中每个像素点对应的非刚性变化，其中，一个像素点对应的非刚性运动变化也可以用(Δx,Δy,Δz)表示，Δx,Δy,Δz分别表示第一图像中该像素点沿x，y，z三个方向的变化量。

在一实施例中，计算机设备对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵的方式如下步骤S2032a-S2032b：

S2032a、基于深度图、相机运动变化矩阵、刚性运动变化矩阵、第一图像和第二图像，确定第二预测图像。

在一实施例中，计算机设备基于深度图、相机运动变化矩阵T_ego、刚性运动变化矩阵、第一图像和第二图像确定第二预测图的方式为：基于深度图、相机运动变化矩阵和刚性运动变化矩阵，确定第一图像和第二图像之间各个像素的第二对应关系；基于第二对应关系，利用逆向映射将第二图像中的各个像素映射到第一图像中，生成第二预测图像。

其中，第二对应关系表示的是加入物体刚性运动建模后的第一训练图像和第二训练图像之间各个像素的对应关系。

在一实施例中，计算机设备可基于深度图，相机运动变化矩阵和刚性运动变化矩阵

通过式(2)可确定加入刚性运动建模后的第一图像和第二图像之间每个像素的对应关系(即第一图像和第二图像之间每个像素的第二对应关系)。由于在此过程中，计算机设备已经固定了深度预测网络和相机运动预测网络，因此可用

替换式(1)中的T_t→t+1。

上式(2)中，

表示的是刚性运动变化矩阵；T_ego表示的是相机运动变化矩阵。公式(2)中其他参数的物理意义可参见前述式(1)中对应参数的物理意义的描述，此处不再进行赘述。

在一实施例中，计算机设备可通过上式(2)确定第一图像和第二图像之间每个像素的第二对应关系。

在一实施例中，计算机设备基于第二对应关系，利用逆向映射将第二图像中的各个像素映射到第一图像中的方式，插值得到第二预测图像(例如记为

)。需要说明的是，计算机设备获得第二预测图像的具体阐述可参见上述获得第一预测图像的相关阐述，此处不再进行赘述。

S2032b、对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵。

在一实施例中，计算机设备对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵的方式为：利用非刚性运动预测网络，对所述第一图像中所述运动物体所在图像区域的图像特征以及所述第二图像中所述运动物体所在图像区域的图像特征进行处理，得到非刚性运动变化矩阵。具体可包括：提取第一图像中运动物体所在图像区域的第一图像特征，以及提取第二预测图像中运动物体所在图像区域的第三图像特征；将第一图像特征和第三图像特征进行拼接，得到拼接图像特征；将拼接图像特征输入非刚性运动预测网络中进行处理，得到非刚性运动变化矩阵。可选地，非刚性运动预测网络例如可以是基于编码器-解码器(encoder-decoder)架构构建的，也可以是基于encoder-decoder和运动估计和运动补偿网络(Motion Estimate and Motion CompensationNetwork，MEMC-Net)共同构建的。

在一实施例中，计算机设备可利用特征提取网络提取第一图像中运动物体所在图像区域的第一图像特征，以及提取第二预测图像中运动物体所在图像区域的第三图像特征。可选地，计算机设备可通过训练好的语义预测网络所提供的物体检测框，确定同一运动物体所在图像区域。

在一实施例中，计算机设备还可利用特征提取网络提取第一图像中所有物体所在图像区域的第一图像特征，以及提取第二预测图像中所有物体所在图像区域的第三图像特征；通过物体检测框对该第一图像特征和该第三图像特征进行处理，确定多个同一物体所在图像区域的图像特征；将多个同一物体所在区域的图像特征进行拼接，得到多个拼接图像特征；将多个拼接图像特征输入到非刚性运动预测网络中进行处理，得到第一图像中所有物体的非刚性运动变化矩阵。此时，若该第一图像特征和第二图像特征中都包含静态物体，则该非刚性运动变化矩阵中对应静态物体的非刚性运动为设定值(例如0)。若该第一图像特征和该第二图像特征都包括了多个运动物体，则该非刚性运动变化矩阵中包括了每个运动物体的非刚性运动变化。

本申请实施例中，由于第二预测图像为第二图像相对第一图像消除相机运动影响和物体刚性运动影响后的图像，因此，基于第一图像和第二预测图像得到的非刚性运动变化矩阵可以理解为第二图像相对第一图像消除相机运动变化和刚性运动变化后得到的矩阵，该非刚性运动变化矩阵中仅指示物体本身的非刚性运动变化。所以，该非刚性运动变化矩阵可以较为准确的指示第二预测图像中的运动物体相对第一图像中的运动物体的非刚性变化。

S204、基于物体运动变化矩阵和第一图像，确定目标运动变化信息。

其中，目标运动变化信息用于指示第二图像中的运动物体相对第一图像中的运动物体的运动变化。

在一实施例中，计算机设备基于物体运动变化矩阵和第一图像，确定目标运动变化信息的方式为：获取第一图像的初始图像矩阵；将初始图像矩阵和非刚性运动变化矩阵进行求和处理，得到第一图像的中间图像矩阵；将中间图像矩阵和刚性运动变化矩阵进行求积处理，得到第一图像的目标图像矩阵；基于目标图像矩阵和第一图像矩阵，确定目标运动变化信息。

一个实施例中，计算机设备可基于下式(3)确定目标变化信息。

上式(3)中，M_t→t+1表示的是第一图像的目标变化信息；

表示的是第一图像中所有物体的刚性运动变化矩阵；

表示的是第一图像中所有物体的非刚性运动变化矩阵；P_t表示的是第一图像的初始图像矩阵。

由前述可知，物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵，且通过上述方法得到的刚性运动变化矩阵只包括运动物体的刚性运动变化、非刚性运动变化矩阵只包括运动物体的非刚性运动变化，因此通过上式(3)可以得到较为准确的运动物体的目标运动变化信息。

本申请实施例中，获取第一图像的深度图，并对第一图像和第二图像进行处理，得到相机运动变化矩阵，第一图像和第二图像为针对运动物体拍摄得到的相邻图像帧；基于深度图、相机运动变化矩阵、第一图像和第二图像确定预测图像；对第一图像和预测图像进行处理，得到物体运动变化矩阵，物体运动变化矩阵用于指示预测图像和第一图像中的运动物体的运动变化；基于物体运动变化矩阵和第一图像，确定目标运动变化信息，目标运动变化信息用于指示第二图像和第一图像中的运动物体的运动变化中的运动物体相对。采用本申请实施例，首先，基于深度图和相机运动变化矩阵可得到消除相机运动影响后的预测图像；然后，基于第一图像和消除相机运动影响后的预测图像，可得到消除相机运动影响后的运动物体的物体运动变化矩阵，此时得到的运动物体的物体运动变化矩阵由于只包括运动物体的运动变化，因此较为准确；最后，基于该较为准确的运动物体的物体运动变化矩阵和第一图像可得到较为准确的运动物体的目标运动变化信息，从而基于所得到的目标运动变化信息可以降低甚至消除场景中运动物体对光照一致性约束的影响，进而可提升深度预测的准确性。

在一实施例中，本申请提供的图像处理方法可以利用训练后的运动估计模型实现，该训练后的运动估计模型中包括深度预测网络、相机运动预测网络、刚性运动预测网络和非刚性运动预测网络。本申请实施例中，运动估计模型是通过训练集中多组样本图像进行多次训练获得的。为便于阐述，下面以一组样本图像(第一训练图像和第二训练图像)为例对训练运动估计模型的流程进行阐述。

请参见图4，图4是本申请实施例提供的一种训练运动估计模型的流程示意图。请参见图5，图5是本申请实施例提供的一种训练运动估计模型的部分过程示意图，如图5所示，该训练运动估计模型可包括相机运动501部分、物体刚性运动502部分和物体非刚性运动503部分。下面结合图4和图5对本申请实施例提供的训练运动估计模型的流程进行描述。如图4所示，该训练运动估计模型的方法可包括如下步骤S401-S405：

S401、利用运动估计模型对第一训练图像和第二训练图像进行处理，确定第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵。

在一实施例中，计算机设备利用运动估计模型对第一训练图像和第二训练图像进行处理，确定第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵(对应图5中的相机运动501部分)的方式可包括：利用深度预测网络505获取第一训练图像I_t的深度图D_t；利用相机运动预测网络504获取第一训练图像I_t和第二训练图像I_t+1的相机运动变化矩阵T_ego。

可选地，该实施例中相关内容的阐述可参见上述步骤S201和S202中的描述，此处不再进行赘述。

S402、基于第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵、第一训练图像和第二训练图像，确定第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵。

需要说明的是，计算机设备确定第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵，可以理解为确定第一训练图像相对第一中间预测图像的刚性运动变化矩阵，以及确定第一训练图像相对第二中间预测图像的非刚性变化矩阵。

第一中间预测图为第二训练图像相对第一训练图像消除相机运动影响后的图像。可以理解的是，如果第二训练图像与第一训练图图像之间的差异既包括相机运动影响所造成的差异，也包括物体运动影响所造成的差异，则第一中间预测图像与第一训练图图像之间的差异只包括物体运动影响所造成的差异，第一中间预测图像与第二训练图图像之间的差异只包括相机运动影响所造成的差异。

第二中间预测图为第二训练图像相对第一训练图像消除相机运动影响和刚性运动影响后的图像。可以理解的是，如果第二训练图像与第一训练图像之间的差异既包括相机运动影响所造成的差异，也包括物体刚性运动影响和物体非刚性运动影响所造成的差异，则第二中间预测图像与第一训练图像之间的差异只包括物体非刚性运动影响所造成的差异，第二中间预测图像与第二训练图像之间的差异包括相机运动影响和物体刚性运动影响所造成的差异。

在一实施例中，基于第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵、第一训练图像和第二训练图像，确定第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵的方式可包括如下步骤S4021和S4022：

S4021、基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、第一训练图像I_t和第二训练图像I_t+1，确定刚性运动变化矩阵。

在一实施例中，计算机设备基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、第一训练图像I_t和第二训练图像I_t+1，确定刚性运动变化矩阵的方式可包括如下步骤S4021a-S4021b：

S4021a、基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、第一训练图像I_t和第二训练图像I_t+1，确定第一中间预测图像。

在一实施例中，在相机运动501部分，计算机设备基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、第一训练图像I_t和第二训练图像I_t+1，确定第一中间预测图像的方式为：基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego，确定第一训练图像I_t和第二训练图像I_t+1之间各个像素的第三对应关系，该第三对应关系表示仅有相机运动(场景中的其余物体全为静止状态)情况下的两个相机坐标下中的成像平面的每个像素之间的相关性；基于该第三对应关系，利用逆向映射将第二训练图像I_t+1的每个像素映射到第一训练图像I_t所在的图像平面，从而得到第一中间预测图像

S4021b、基于第一训练图像I_t和第一中间预测图像

得到刚性运动变化矩阵。

在一实施例中，计算机设备基于第一训练图像和第一中间预测图像，得到刚性运动变化矩阵(对应图5中的物体刚性运动502部分)的方式为：利用特征提取网络508，提取第一训练图像I_t中运动物体所在图像区域的第一图像特征，以及提取第一中间预测图像

中运动物体所在图像区域的第二图像特征；其中，运动物体所在图像区域是通过训练好的语义预测网络所提供的物体检测框509，确定的运动物体所在的同一图像区域；将第一图像特征和第二图像特征进行拼接，得到拼接图像特征；将拼接图像特征输入刚性运动预测网络506中进行处理，得到刚性运动变化矩阵

(或者记为

)。由于该过程固定了深度预测网络和相机预测网络，所以该过程得到的物体运动矩阵为

(或者记为

)。当第一训练图像中的运动物体有多个时，则会产生多个

图中刚性运动预测510输出的即是刚性运动变化矩阵。

在一实施例中，计算机设备还可利用特征提取网络508提取第一训练图像中所有物体所在图像区域的第一图像特征，以及提取第一中间预测图像中所有物体所在图像区域的第二图像特征；通过物体检测框对该第一图像特征和该第二图像特征进行处理，确定多个同一物体所在图像区域的图像特征；将多个同一物体所在区域的图像特征进行拼接，得到多个拼接图像特征(对应图5中物体特征512)；将多个拼接图像特征输入到刚性运动预测网络506中进行处理，得到第一训练图像中所有物体的刚性运动变化矩阵(例如记为

)。该过程对应图5中的刚性运动预测510部分。此时，若该第一图像特征和第二图像特征中都包含静态物体，则该刚性运动变化矩阵中对应静态物体的刚性运动为设定值(例如0)。若该第一图像特征和该第二图像特征都包括了多个运动物体，则该刚性运动变化矩阵中包括了每个运动物体的刚性运动变化。例如该第一图像特征和该第二图像特征都包括了运动物体1和运动物体2，则该刚性运动变化矩阵中包括了运动物体1的刚性运动变化矩阵(例如记为

)和运动物体2的刚性运动变化矩阵(例如记为

)。

本申请实施例中，由于第一中间预测图像为第二训练图像相对第一训练图像消除相机运动影响后的图像，因此，基于第一训练图像和第一中间预测图像得到的刚性运动变化矩阵可以理解为第二训练图像相对第一训练图像消除相机运动变化后得到的矩阵，该刚性运动变化矩阵中仅指示物体本身的刚性运动变化。所以，该刚性运动变化矩阵可以较为准确的指示第一中间预测图像中的运动物体相对第一训练图像中的运动物体的刚性变化。

S4022、基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、刚性运动变化矩阵

第一训练图像I_t和第二训练图像I_t+1，确定非刚性运动变化矩阵。

在一实施例中，在物体刚性运动502部分，计算机设备基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、刚性运动变化矩阵

第一训练图像I_t和第二训练图像I_t+1，确定非刚性运动变化矩阵的方式包括如下步骤S4022a-S4022b：

S4022a、基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、刚性运动变化矩阵

确定第二中间预测图像。

在一实施例中，计算机设备基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、刚性运动变化矩阵

确定第二中间预测图像的方式为：基于第一训练图像I_t的深度图D_t、第一训练图像I_t和第二训练图像I_t+1对应的相机运动变化矩阵T_ego、刚性运动变化矩阵

确定第一训练图像I_t和第二训练图像I_t+1之间各个像素的第四对应关系，该第四对应关系表示的是加入物体刚性运动建模后的第一训练图像I_t和第二训练图像I_t+1之间各个像素的对应关系；基于第四对应关系，利用逆向映射将第二训练图像I_t+1中的各个像素映射到第一训练图像I_t中，从而得到第二中间预测图像

需要说明的是，在该过程中，计算机设备可固定深度预测网络和相机运动预测网络。

S4022b、基于第一训练图像I_t和第二中间预测图像

得到非刚性运动变化矩阵。

在一实施例中，计算机设备基于第一训练图像I_t和第二中间预测图像

得到非刚性运动变化矩阵(对应图5中的物体刚性运动503部分)的方式为：利用特征提取网络508，提取第一训练图像I_t中运动物体所在图像区域的第一图像特征，以及提取第二中间预测图像

中运动物体所在图像区域的第三图像特征；其中，运动物体所在图像区域是通过训练好的语义预测网络所提供的物体检测框，确定的运动物体所在的同一图像区域；将第一图像特征和第三图像特征进行拼接，得到拼接图像特征；将该拼接图像特征输入非刚性运动预测网络(或者称为逐像素运动预测网络)507中进行处理，得到非刚性运动变化矩阵。

在一实施例中，计算机设备还可利用特征提取网络提取第一训练图像中所有物体所在图像区域的第一图像特征，以及提取第二中间预测图像中所有物体所在图像区域的第三图像特征；通过物体检测框对该第一图像特征和该第三图像特征进行处理，确定多个同一物体所在图像区域的图像特征；将多个同一物体所在区域的图像特征进行拼接，得到多个拼接图像特征；将多个拼接图像特征输入到非刚性运动预测网络中进行处理，得到第一图像中所有物体的非刚性运动变化矩阵。此时，若该第一图像特征和第二图像特征中都包含静态物体，则该非刚性运动变化矩阵中对应静态物体的非刚性运动为设定值(例如0)。若该第一图像特征和该第二图像特征都包括了多个运动物体，则该非刚性运动变化矩阵中包括了每个运动物体的非刚性运动变化。图中非刚性运动预测511部分输出的即为第一图像中所有物体的非刚性运动变化矩阵。

可选地，上述步骤S402中的具体实现过程可参见步骤S203中的描述，此处不再进行赘述。

本申请实施例中，由于第二中间预测图像为第二训练图像相对第一训练图像消除相机运动影响和物体刚性运动影响后的图像，因此，基于第一训练图像和第二中间预测图像得到的非刚性运动变化矩阵可以理解为第二训练图像相对第一训练图像消除相机运动变化和刚性运动变化后得到的矩阵，该非刚性运动变化矩阵中仅指示物体本身的非刚性运动变化。所以，该非刚性运动变化矩阵可以较为准确的指示第二中间预测图像中的运动物体相对第一训练图像中的运动物体的非刚性变化。

S403、基于第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵、第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵、第一训练图像以及第二训练图像，生成第一训练图像对应的目标预测图像。

在一实施例中，计算机设备基于第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵、第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵、第一训练图像以及第二训练图像，生成第一训练图像对应的目标预测图像的方式可包括：基于深度图、相机运动变化矩阵、刚性运动变化矩阵和非刚性运动变化矩阵，确定第一训练图像和第二训练图像之间各个像素的第五对应关系，该第五对应关系表示的是加入物体非刚性运动建模后的第一训练图像和第二训练图像之间各个像素的对应关系；基于该第五对应关系，利用逆向映射将第二训练图像中的各个像素映射到第一训练图像中，生成第一训练图像对应的目标预测图像。需要说明的是，在该过程中，计算机设备可固定深度预测网络、相机运动预测网络和刚性运动预测网络。

其中，计算机设备可通过下式(4)确定第一训练图像和第二训练图像之间各个像素的第五对应关系。

上式(4)中参数的物理意义可参见前述式(1)、式(2)和式(3)中参数的物理意义的描述，此处不再进行赘述。

计算机设备通过上式(2)可确定第一训练图像和第二训练图像之间各个像素的第五对应关系。基于第五对应关系，利用逆向映射将第二训练图像中的各个像素映射到第一训练图像中，插值得到第一训练图像对应的目标预测图像。

可选的，上述步骤S403中的具体实现过程可参见步骤S20231a中的描述，此处不再进行赘述。

S404、基于目标预测图像和第一训练图像确定损失数据。

在一实施例中，计算机设备可通过对目标预测图像和第一训练图像进行处理，确定目标预测图像相对第一训练图像的损失数据。可选地，计算机设备可以通过对目标预测图像和第一训练图像进行逐像素对比，确定目标预测图像和第一训练图像中每个像素的差异值；根据差异值确定目标预测图像和第一训练图像的损失数据。其中，该差异值和该损失数据可以是呈正比例关系，例如，差异值越大，损失数据越大。

S405、若基于损失数据确定不满足收敛条件，则对运动估计模型包括的深度预测网络、相机运动预测网络、刚性运动预测网络和非刚性运动预测网络中的一种或者多种网络的网络参数进行调整，以得到训练后的运动估计模型。

在一实施例中，该运动估计模型会对训练集中样本图像中每一个物体做预测，确定最终预测图像。假设训练集中的样本图像中有两个运动物体，则计算机设备可对该两个物体分别进行预测，确定第一训练图像的最终预测图像。

在一实施例中，计算机设备可基于训练集中多组样本图像，得到多个目标预测图像；基于多个目标预测图像和每个目标预测图像对应的第一训练图像的损失数据，确定目标损失数据。

在一实施例中，计算机设备可通过比较目标损失数据和预设值的大小确定目标损失数据是否满足收敛条件。若目标损失数据小于预设值，则确定目标损失数据满足收敛条件，此时可确定运动估计模型训练完成，得到训练后的运动估计模型。若目标损失数据大于预设值，则确定目标损失数据不满足收敛条件，此时可对运动估计模型包括的深度预测网络、相机运动预测网络、刚性运动预测网络和非刚性运动预测网络中的一种或者多种网络的网络参数进行调整，以得到训练后的运动估计模型。例如，对运动估计模型中的深度预测网络的网络参数进行调整，以得到训练后的运动估计模型。又例如，对运动估计模型中的深度预测网络和相机运动预测网络的网络参数进行调整，以得到训练后的运动估计模型。

在一实施例中，当得到训练后的运动估计模型后，计算机设备可通过该运动估计模型对物体进行运动预测和/或深度预测。当只需要预测物体的深度时，计算机设备可获取一张图像(或者称为单帧图像)直接使用深度预测网络为所输入的单帧图像预测深度；当需要预测物体的运动时，计算机设备可获取两张图像(例如是前述第一图像和第二图像)，通过运动估计模型中的深度预测网络、相机运动预测网络、刚性运动预测网络和非刚性运动预测网络，得到物体的目标运动变化信息。

可选地，本申请所提供的运动估计模型可接在任意其他性能好的深度估计框架中，实现“即插即用”的功能。随着深度估计网络模型的发展，本申请所提供的模型也可在任意场景下随时进行适配，因此本申请所提供的运动估计模型泛化性较强。

本申请实施例所提供的运动估计模型是计算机设备基于自监督学习框架训练完成的。因此，相较于有监督学习框架需要大量标注数据而言，本申请提供的训练运动估计模型的方法无需对图像数据进行标注，成本较低，规模可扩展。

本申请实施例中，首先，基于深度图和相机运动变化矩阵可得到消除相机运动影响后的第一中间预测图像，从而可以得到较为准确的刚性运动变化矩阵。其次，基于深度图和相机运动变化矩阵以及较为准确的刚性运动变化矩阵，可得到消除相机运动影响和刚性运动影响后的第二中间预测图像，从而可得到较为准确的非刚性运动变化矩阵。然后，基于深度图、相机运动变化矩阵、较为准确的刚性运动变化矩阵以及较为准确的非刚性运动变化矩阵，可得到消除相机运动影响、刚性运动影响以及非刚性运动影响后的目标预测图像。最后，基于目标预测图像和第一训练图像的损失值对运动估计模型进行参数调整，得到训练后的运动估计模型。从而在应用该训练后的杨对估计模型时，能够获得较为准确的目标运动变化信息，进而提升深度预测的准确性。

为了保证本申请实施例所提供的运动估计模型在应用时的准确性，利用本申请实施例提供的运动估计模型与基础模型MonoDepth2做了对比实验。

请参见图6，图6是本申请实施例提供的运动估计模型与基础模型对物体运动的预测示意图。如图6所示，第一图像601和第二图像602分别表示输入的时域上相邻的两帧图像帧，图片603是光流真值图。I^Mono2所在的第二行是根据基础模型MonoDepth2预测的结果、I^def所在的第三行是根据本申请提供的运动估计模型预测的结果。图片604是根据基础模型MonoDepth2逆向映射得到的目标预测图，图片607是根据本申请提供的运动估计模型中逆向映射得到的目标预测图。图片605是根据基础模型MonoDepth2预测的光流与光流真值的误差图(即光流误差图)，图片608是根据本申请提供的运动估计模型预测的光流与光流真值的误差图。图片606是根据基础模型MonoDepth2预测的光流图(即预测光流图)，图片609是根据本申请提供的运动估计模型预测的光流图。可以从图6中明显地看出本申请提供的运动估计模型在对物体运动建模方面的优越性。

请参见图7，图7是本申请实施例提供的运动估计模型与基础模型对物体深度的预测示意图。图像701表示输入的图像，图片702是根据基础模型MonoDepth2预测的结果，图片703是根据本申请提供的运动估计模型预测的结果。从图中可以看出，本申请预测的深度更为准确。

请参见表1，表1是不同方法在数据集KITTI与数据集vKITTI2中的测试集上对光流预测(物体运动)的定量比较。

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

vKITTI2数据集是一个虚拟数据集。

表1

在表1中，为了比较物体区域的光流，将区域划分成背景、前景，并在背景、前景以及整张图上评估光流预测的结果。GeoNet设计了含FlowNet的模型(即表1中的GeoNet w/FlowNet)与不含FlowNet的模型(即表1中的GeoNet w/o FlowNet)，故同时比较了两个模型。从表1中可以看出，本申请提供的运动估计模型相对于对比模型而言，在所有指标上都取得了最好的结果。

请参见表2，表2是不同方法在数据集KITTI与vKITTI2的测试集上对光流预测(物体运动)的定量比较。

表2

由表2中的数据可以看出，本申请提供的运动估计模型相较于基础模型MonoDepth2而言，在所有指标上都取得了最好的结果。

请参见表3，表3是本申请提供的运动估计模型与基础模型MonoDepth2在数据集KITTI与VKITTI2的测试集上的对深度预测的定量比较。

表3

由表3可以看出，本申请提供的运动估计模型与基础模型MonoDepth2在数据集KITTI与VKITTI2的测试集上的对深度预测的结果的定量比较，及本申请提供的运动估计模型所带来的增益。表中Abs Rel表示的是绝对相对误差(Absolute Relative error)；SqRel表示的是平方相对误差(Squared Relative error)；RMSE表示的是均方根误差(Root MeanSquared Error)；RMSE log表示的是均方根对数误差(Root Mean Squared logarithmicerror)；δ表示的是修正经度指标。需要说明的是，表3中Abs Rel、SqRel、RMSE和RMSE log这四个指标对应的值越小模型性能越好，δ<1.25、δ<1.25²和δ<1.25³对应的值越大模型性能越好。为了验证本申请提供的运动估计模型在物体区域带来的效果，我们同样将区域分为前景与背景，并分别评估了模型。从表中可以看出，在深度预测任务上，本申请提供的运动估计模型的精度提升明显，特别是在前景区域。同时，由于VKITTI2相较于KITTI存在更大量的动态场景，因此本申请提供的运动估计模型在VKITTI2的前景上的表现的增益显得尤其突出。

本申请实施例通过训练运动估计模型，并使用不同数据集对该运动估计模型与现有的模型进行对比，结果显示该运动估计模型在不同的数据集上均可以得到较好的预测结果。可见，采用本申请实施例能够提升运动物体的运动预测和深度预测的准确性。

需要说明的是，当本申请实施例运用到具体产品或技术中时，本申请实施例所涉及的第一图像、第二图像、第一训练图像以及第二训练图像等数据均是在获得用户的许可或者同意后才获取的；并且第一图像、第二图像、第一训练图像以及第二训练图像等的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

基于上述图像处理方法的相关实施例的描述，本申请实施例还提出了一种图像处理装置，该图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该图像处理装置可以执行图2a所示的图像处理方法或图4所示的训练运动估计模型的方法；请参见图8，图8是本申请实施例提供的一种图像处理装置的示意图，该图像处理装置可以包括如下模块：

获取模块801，用于获取第一图像的深度图，并对第一图像和第二图像进行处理，得到相机运动变化矩阵；第一图像和第二图像为针对运动物体拍摄得到的相邻图像帧，相机运动变化矩阵用于指示第一图像和第二图像所对应视角下的相机运动变化；

处理模块802，用于对第一图像和预测图像进行处理，得到物体运动变化矩阵；预测图像是基于深度图、相机运动变化矩阵、第一图像和第二图像确定的，物体运动变化矩阵用于指示预测图像中的运动物体相对第一图像中的运动物体的运动变化；预测图像为第二图像相对第一图像消除相机运动影响后的图像；

确定模块803，用于基于物体运动变化矩阵和第一图像，确定目标运动变化信息；目标运动变化信息用于指示第二图像中的运动物体相对第一图像中的运动物体的运动变化。

在一实施例中，物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵，处理模块802在用于对第一图像和预测图像进行处理，得到物体运动变化矩阵时，具体用于：

对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵；第一预测图像是基于深度图、相机运动变化矩阵、第一图像和第二图像确定的，第一预测图像为第二图像相对第一图像消除相机运动影响后的图像；刚性运动变化矩阵用于指示第一预测图像中的运动物体相对第一图像中的运动物体的刚性运动变化；

对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵；第二预测图像是基于深度图、相机运动变化矩阵、刚性运动变化矩阵、第一图像和第二图像确定的，第二预测图像为第二图像相对第一图像消除相机运动影响和物体刚性运动影响后的图像；非刚性运动变化矩阵用于指示第二预测图像中的运动物体相对第一图像中的运动物体的非刚性运动变化。

在一实施例中，处理模块802还用于基于深度图、相机运动变化矩阵，确定第一图像和第二图像之间各个像素的第一对应关系；

基于第一对应关系，利用逆向映射将第二图像中的各个像素映射到第一图像中，生成第一预测图像。

在一实施例中，处理模块在用于对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵时，具体用于：提取第一图像中运动物体所在图像区域的第一图像特征，以及提取第一预测图像中运动物体所在图像区域的第二图像特征；

将第一图像特征和第二图像特征进行拼接，得到拼接图像特征；

将拼接图像特征输入刚性运动预测网络中进行处理，得到刚性运动变化矩阵。

在一实施例中，处理模块在用于对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵时，具体用于：

基于深度图、相机运动变化矩阵和刚性运动变化矩阵，确定第一图像和第二图像之间各个像素的第二对应关系；

基于第二对应关系，利用逆向映射将第二图像中的各个像素映射到第一图像中，确定第二预测图像；

利用非刚性运动预测网络，对第一图像中运动物体所在图像区域的图像特征以及第二图像中运动物体所在图像区域的图像特征进行处理，得到非刚性运动变化矩阵。

在一实施例中，物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵，确定模块803在用于基于物体运动变化矩阵和第一图像确定目标运动变化信息时，具体用于：

获取第一图像的初始图像矩阵；

将初始图像矩阵和非刚性运动变化矩阵进行求和处理，得到第一图像的中间图像矩阵；

将中间图像矩阵和刚性运动变化矩阵进行求积处理，得到第一图像的目标图像矩阵；

基于目标图像矩阵和第一图像矩阵，确定目标运动变化信息。

在一实施例中，刚性运动预测网络和非刚性运动预测网络包含于运动估计模型中，运动估计模型还包括深度预测网络和相机运动预测网络，深度图是利用深度预测网络对第一图像进行处理得到，相机运动变化矩阵是利用相机运动预测网络对第一图像和第二图像进行处理得到，该装置还包括训练模块804。

训练模块804，用于利用第一训练图像和第二训练图像对运动估计模型进行训练；第一训练图像和第二训练图像为针对运动物体拍摄得到的相邻图像帧；

在训练过程中，利用运动估计模型对第一训练图像和第二训练图像进行处理，确定第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵、第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵；

基于第一训练图像的深度图、第一训练图像和第二训练图像对应的相机运动变化矩阵、第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵、第一训练图像以及第二训练图像，生成第一训练图像对应的目标预测图像；

基于目标预测图像和第一训练图像确定损失数据，若基于损失数据确定不满足收敛条件，则对运动估计模型包括的深度预测网络、相机运动预测网络、刚性运动预测网络和非刚性运动预测网络中的一种或者多种网络的网络参数进行调整，以得到训练后的运动估计模型。

根据本申请通过的实施例，图2a所示的方法所涉及的各个步骤均可由图8所示的图像处理装置中的各个模块来执行的。例如，图2a中所示的步骤S201可由图8中所示的获取模块801执行，步骤S202可由图8中所示的处理模块802执行，步骤S203可由图8中所示的确定模块803执行。又如，图4中所示的训练运动估计模型过程可由图8中所示的训练模块804执行等等。

根据本申请提供的实施例，图8所示的图像处理装置中的各个模块可以分别或全部合并为一个或若干个另外的模块来构成，或者其中的某个(些)模块还可以再拆分为功能上更小的多个模块来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个模块来实现，或者多个模块的功能由一个模块实现。在本申请的其它实施例中，基于图像处理装置也包括其他模块，在实际应用中，这些功能也可以由其它模块协助实现，并且可以由多个模块协作实现。

根据本申请提供的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图2a所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的图像处理装置，以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算机设备中，并在其中运行。

可以理解的是，本申请实施例提供的图像处理装置中各个单元的具体实现以及可以达到的有益效果可参考前述图像处理方法实施例的描述，在此不再赘述。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图9，该计算机设备至少包括处理器901、存储器902、通信接口903。上述处理器901、存储器902和通信接口903可通过总线904或其他方式连接，本申请实施例以通过总线904连接为例。

其中，处理器901(或称中央处理器(Central Processing Unit，CPU))是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：CPU可以用于解析用户向计算机设备所发送的开关机指令，并控制计算机设备进行开关机操作；再如：CPU可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口903可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等)，受处理器901的控制用于收发数据。存储器902(Memory)是计算机设备中的记忆设备，用于存放计算机程序和数据。可以理解的是，此处的存储器902既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器902提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：Windows系统、Linux系统、Android系统、iOS系统，等等，本申请对此并不作限定。在一种可选的实施方式中，本申请实施例的处理器901可通过运行存储器902中存储的计算机程序，执行如下操作：

获取第一图像的深度图，并对第一图像和第二图像进行处理，得到相机运动变化矩阵；第一图像和第二图像为针对运动物体拍摄得到的相邻图像帧，相机运动变化矩阵用于指示第一图像和第二图像所对应视角下的相机运动变化；

对第一图像和预测图像进行处理，得到物体运动变化矩阵；预测图像是基于深度图、相机运动变化矩阵、第一图像和第二图像确定的，物体运动变化矩阵用于指示预测图像中的运动物体相对第一图像中的运动物体的运动变化；预测图像为第二图像相对第一图像消除相机运动影响后的图像；

基于物体运动变化矩阵和第一图像确定目标运动变化信息；目标运动变化信息用于指示第二图像中的运动物体相对第一图像中的运动物体的运动变化。

在一实施例中，处理器901在用于对第一图像和预测图像进行处理，得到物体运动变化矩阵时，具体用于：

在一实施例中，处理器901还用于基于深度图、相机运动变化矩阵，确定第一图像和第二图像之间各个像素的第一对应关系；

在一实施例中，处理器901在用于对第一图像和第一预测图像进行处理，得到刚性运动变化矩阵时，具体用于：

提取第一图像中运动物体所在图像区域的第一图像特征，以及提取第一预测图像中运动物体所在图像区域的第二图像特征；

在一实施例中，处理器901在用于对第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵时，具体用于：

在一实施例中，物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵，处理器901在用于基于物体运动变化矩阵和第一图像确定目标运动变化信息时，具体用于：

获取第一图像的初始图像矩阵；

在一实施例中，刚性运动预测网络和非刚性运动预测网络包含于运动估计模型中，运动估计模型还包括深度预测网络和相机运动预测网络，深度图是利用深度预测网络对第一图像进行处理得到，相机运动变化矩阵是利用相机运动预测网络对第一图像和第二图像进行处理得到，处理器901还用于：

利用第一训练图像和第二训练图像对运动估计模型进行训练；第一训练图像和第二训练图像为针对运动物体拍摄得到的相邻图像帧；

具体实现中，本申请实施例中所描述的处理器901、存储器902、通信接口903可执行本申请实施例提供的图像处理方法中所描述的计算机设备的实现方式，也可执行本申请实施例提供的图像处理装置中所描述的实现方式，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述任一可能实现方式的图像处理方法。其具体实现方式可参考前文描述，此处不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一可能实现方式的图像处理方法。其具体实现方式可参考前文描述，此处不再赘述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请部分实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

基于所述物体运动变化矩阵和所述第一图像确定目标运动变化信息；所述目标运动变化信息用于指示所述第二图像中的所述运动物体相对所述第一图像中的所述运动物体的运动变化。

2.根据权利要求1所述的方法，其特征在于，所述物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵，所述对所述第一图像和预测图像进行处理，得到物体运动变化矩阵，包括：

对所述第一图像和第一预测图像进行处理，得到刚性运动变化矩阵；所述第一预测图像是基于所述深度图、所述相机运动变化矩阵、所述第一图像和所述第二图像确定的，所述第一预测图像为所述第二图像相对所述第一图像消除相机运动影响后的图像；所述刚性运动变化矩阵用于指示所述第一预测图像中的所述运动物体相对所述第一图像中的所述运动物体的刚性运动变化；

对所述第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵；所述第二预测图像是基于所述深度图、所述相机运动变化矩阵、所述刚性运动变化矩阵、所述第一图像和所述第二图像确定的，所述第二预测图像为所述第二图像相对所述第一图像消除相机运动影响和物体刚性运动影响后的图像；所述非刚性运动变化矩阵用于指示所述第二预测图像中的所述运动物体相对所述第一图像中的所述运动物体的非刚性运动变化。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述深度图、所述相机运动变化矩阵，确定所述第一图像和所述第二图像之间各个像素的第一对应关系；

基于所述第一对应关系，利用逆向映射将所述第二图像中的各个像素映射到所述第一图像中，生成所述第一预测图像。

4.根据权利要求2或3所述的方法，其特征在于，所述对所述第一图像和第一预测图像进行处理，得到刚性运动变化矩阵，包括：

提取所述第一图像中所述运动物体所在图像区域的第一图像特征，以及提取所述第一预测图像中所述运动物体所在图像区域的第二图像特征；

将所述第一图像特征和所述第二图像特征进行拼接，得到拼接图像特征；

将所述拼接图像特征输入刚性运动预测网络中进行处理，得到刚性运动变化矩阵。

5.根据权利要求4所述的方法，其特征在于，所述对所述第一图像和第二预测图像进行处理，得到非刚性运动变化矩阵，包括：

基于所述深度图、所述相机运动变化矩阵和所述刚性运动变化矩阵，确定所述第一图像和所述第二图像之间各个像素的第二对应关系；

基于所述第二对应关系，利用逆向映射将所述第二图像中的各个像素映射到所述第一图像中，确定所述第二预测图像；

利用非刚性运动预测网络，对所述第一图像中所述运动物体所在图像区域的图像特征以及所述第二图像中所述运动物体所在图像区域的图像特征进行处理，得到非刚性运动变化矩阵。

6.根据权利要求1所述的方法，其特征在于，所述物体运动变化矩阵包括刚性运动变化矩阵和非刚性运动变化矩阵，所述基于所述物体运动变化矩阵和所述第一图像确定目标运动变化信息，包括：

获取第一图像的初始图像矩阵；

将所述初始图像矩阵和所述非刚性运动变化矩阵进行求和处理，得到所述第一图像的中间图像矩阵；

将所述中间图像矩阵和所述刚性运动变化矩阵进行求积处理，得到所述第一图像的目标图像矩阵；

基于所述目标图像矩阵和所述第一图像矩阵，确定所述目标运动变化信息。

7.根据权利要求5所述的方法，其特征在于，所述刚性运动预测网络和所述非刚性运动预测网络包含于运动估计模型中，所述运动估计模型还包括深度预测网络和相机运动预测网络，所述深度图是利用所述深度预测网络对所述第一图像进行处理得到，所述相机运动变化矩阵是利用所述相机运动预测网络对所述第一图像和所述第二图像进行处理得到，所述方法还包括：

利用第一训练图像和第二训练图像对所述运动估计模型进行训练；所述第一训练图像和所述第二训练图像为针对运动物体拍摄得到的相邻图像帧；

在训练过程中，利用所述运动估计模型对所述第一训练图像和所述第二训练图像进行处理，确定所述第一训练图像的深度图、所述第一训练图像和所述第二训练图像对应的相机运动变化矩阵、所述第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵；

基于所述第一训练图像的深度图、所述第一训练图像和所述第二训练图像对应的相机运动变化矩阵、所述第一训练图像相对中间预测图像的刚性运动变化矩阵和非刚性运动变化矩阵、所述第一训练图像以及所述第二训练图像，生成所述第一训练图像对应的目标预测图像；

基于所述目标预测图像和所述第一训练图像确定损失数据，若基于所述损失数据确定不满足收敛条件，则对所述运动估计模型包括的深度预测网络、相机运动预测网络、刚性运动预测网络和非刚性运动预测网络中的一种或者多种网络的网络参数进行调整，以得到训练后的运动估计模型。

8.一种图像处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、通信接口以及处理器，其中，所述存储器、所述通信接口和所述处理器相互连接；所述存储器存储有计算机程序，所述处理器调用所述存储器中存储的计算机程序，用于实现权利要求1至7任一项所述的图像处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的图像处理方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如权利要求1至7中任一项所述的图像处理方法。