CN113592875B

CN113592875B - 数据处理方法、图像处理方法、存储介质及计算设备

Info

Publication number: CN113592875B
Application number: CN202010366987.4A
Authority: CN
Inventors: 刘梦怡; 刘铸; 冷晓旭
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2024-01-23
Anticipated expiration: 2040-04-30
Also published as: CN113592875A

Abstract

本申请公开了一种数据处理方法、图像处理方法、存储介质及计算设备。其中，该方法包括：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。本申请解决了相关技术中图像处理方法计算复杂度大，且准确度低的技术问题。

Description

数据处理方法、图像处理方法、存储介质及计算设备

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据处理方法、图像处理方法、存储介质及计算设备。

背景技术

在室内场景三维建模领域中，利用全景图像中每个像素的深度值可以计算出该像素点在三维空间的坐标，进而得到整个场景的点云模型实现三维重建。

传统的全景图像处理方法依赖于较大数据量的全监督学习，其中深度数据需要通过多个深度摄像头以密集点位对场景进行扫描以获得全方位深度信息，硬件设备成本高且采集流程复杂效率低。同理，语义分割数据需要人工进行标注，人力标注成本高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据处理方法、图像处理方法、存储介质及计算设备，以至少解决相关技术中图像处理方法计算复杂度大，且准确度低的技术问题。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：接收输入的图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；基于深度结果和分割结果，生成图像序列对应的三维模型；展示三维模型；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：获取训练序列；将训练序列中的第一图像输入至图像处理模型的第一网络，得到第一图像对应的深度图；将第一图像和训练序列中的第二图像输入至图像处理模型的第二网络，得到第一图像到第二图像的位姿变换矩阵；基于第二图像、深度图和位姿变换矩阵，生成合成图像；基于第一图像和合成图像，确定图像处理模型的第一损失函数；基于第一损失函数，对图像处理模型的网络权重进行更新。

根据本申请实施例的另一方面，还提供了一种数据处理方法，包括：接收处理请求；基于处理请求获取训练序列和图像处理模型；利用训练序列对图像处理模型进行训练，得到图像处理模型的网络权重，其中，图像处理模型用于将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定；输出训练好的图像处理模型。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的图像处理方法。

根据本申请实施例的另一方面，还提供了一种计算设备，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的图像处理方法。

根据本申请实施例的另一方面，还提供了一种图像处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

在本申请实施例中，在获取到图像序列之后，可以利用图像处理模型对图像序列进行处理，得到深度结果和分割结果，实现全景深度估计与语义分割的目的。容易注意到的是，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定，采用自监督模式，无需对训练序列进行标注，而且，无需进行立方体切图对6个透视面分别处理，也避免了估计6次相机位姿引入的累积误差，从而达到了降低设备及人力成本，提高处理效率，保证位姿估计的一致性的技术效果，进而解决了相关技术中图像处理方法计算复杂度大，且准确度低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现图像处理方法的计算机终端的硬件结构框图；

图2是根据本申请实施例的一种图像处理方法的流程图；

图3a是根据本申请实施例的一种可选的图像处理方法的流程图；

图3b是图3a所示的图像处理方法的训练流程图；

图4是根据本申请实施例的又一种图像处理方法的流程图；

图5是根据本申请实施例的一种可选的交互界面的示意图；

图6是根据本申请实施例的一种图像处理装置的示意图；

图7是根据本申请实施例的另一种图像处理装置的示意图；

图8是根据本申请实施例的一种数据处理方法的流程图；

图9是根据本申请实施例的另一种数据处理方法的流程图；以及

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

全景图：一种广角图，视角涵盖地平线+/-各180°，垂直+/-各90°。由于水平角度为360°，垂直为180°，全景图与球面的投影有关。当前最广泛使用的单一照片呈现方式为等距长方投影(equirectangular)，全景照片的长宽比例固定为2:1。

深度：场景中物理点位到相机光心的距离。

光度(重构)误差：光度误差是两张图片中由变换矩阵关联起来的两个像素点的灰度差异。

利用全监督学习进行全景深度估计和语义分割，导致硬件设备成本和人力成本较高，而且训练数据采集流程复杂且效率低。

另外，相关技术中公开了一种基于单目视频的无监督深度估计相关工作，利用景深与相机位姿的几何约束关系进行视角合成，之后计算合成帧和真实帧之间的光度重构误差作为自监督信号。由于全景图成像模型与单目透视图有所差异，该类方法无法直接应用，通常做法会将每个全景图像转换为立方体切图模式，再对立方体6个表面对应的透视图进行分别处理。这种方案不仅增加了计算复杂度，在分别预测6个相机位姿时还会引入累计误差。

为了解决上述问题，本申请提供了一种基于自监督多任务网络的全景深度估计与语义分割方法，具体实现方式如下：

实施例1

根据本申请实施例，还提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的图像处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

此处需要说明的是，在一些实施例中，上述图1所示的计算机设备(或移动设备)具有触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。在一些实施例中，上述图1所示的计算机设备(或移动设备)具有图像用户界面(GUI)，用户可以通过触摸触敏表面上的手指接触和/或手势来与GUI进行人机交互，此处的人机交互功能可选的包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。

在上述运行环境下，本申请提供了如图2所示的图像处理方法。图2是根据本申请实施例的一种图像处理方法的流程图。如图2所示，该方法包括如下步骤：

步骤S202，获取图像序列；

上述步骤中的图像序列可以是通过相机采集到的多张全景图像，或者是通过相机采集到的全景视频。在室内场景的三维建模领域中，上述的图像序列可以通过对室内场景进行全景拍摄得到。

步骤S204，利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果，其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

上述步骤中的深度结果可以是图像序列中每个像素点的深度值，分割结果可以是图像序列中不同物体、平面等结构的语义分割结果，通过语义分割结果可以协同优化场景中不同物体、平面等结构的预测结果。

上述步骤中的训练序列可以是无标注的多张全景图像或全景视频，以降低设备及人力成本。第一图像可以是训练序列中的中间帧，作为目标视图，第二图像可以是训练序列中与中间帧相邻的相邻帧，作为相邻视图。

上述步骤中的第一网络可以是采用编码器-解码器结构的多任务网络，第二网络可以是深度卷积神经网络，两个网络可以采用不同的主干网络或结构，本申请实施例并不限定两个网络的具体网络结构。

在一种可选的实施例中，针对全景图像的几何成像模型，可以直接基于全景图像进行二维到三维空间坐标转换以及视角合成，得到与第一图像相对应的合成图像，进一步基于第一图像和合成图像的差异，得到深度估计任务的损失函数(即上述的第一损失函数)，从而将第一图像和合成图像的差值作为自监督信号，对模型的网络权重进行更新，达到训练模型的目的。

需要说明的是，第一图像和合成图像的差异可以通过不同的算法得到，优选地，可以获取第一图像和合成图像的光度误差，作为第一损失函数。理想情况下，同一个点灰度差异应该为0(基于灰度不变假设)。但实际中由于相机位姿变换矩阵不准确会造成一些差异，因此可以把大量像素点的光度误差的平方和作为模型的第一损失函数。

例如，在家装行业场景中，为了给用户展示更加生动立体的家装效果，可以通过拍摄未装修的情况下，整个室内场景的全景图像序列，然后利用图像处理模型对全景图像序列进行处理，得到相应的深度结果和分割结果，进一步根据深度结果和分割结果进行三维重建，得到室内场景的三维重建结果，并在三维重建结果上给出装修后的效果图。

基于本申请上述实施例提供的方案，在获取到图像序列之后，可以利用图像处理模型对图像序列进行处理，得到深度结果和分割结果，实现全景深度估计与语义分割的目的。容易注意到的是，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定，采用自监督模式，无需对训练序列进行标注，而且，无需进行立方体切图对6个透视面分别处理，也避免了估计6次相机位姿引入的累积误差，从而达到了降低设备及人力成本，提高处理效率，保证位姿估计的一致性的技术效果，进而解决了相关技术中图像处理方法计算复杂度大，且准确度低的技术问题。

本申请上述实施例中，基于第二图像、深度图和位姿变换矩阵，生成合成图像包括：获取等量矩阵投影的变换矩阵，其中，等量矩阵投影变换用于表征将三维坐标映射到平面坐标点的变换；获取变换矩阵、位姿变换矩阵、深度图中的像素、变换矩阵的逆矩阵和第二图像中的像素的乘积，得到合成图像中的像素。

在一种可选的实施例中，可以将现有方案中的透视变换替换为适配全景图像的等量矩阵投影仪处理全景成像出现的畸变，进而可以直接基于全景图像进行二维到三维空间坐标变换以及视角合成。从而可以有效处理全景成像出现的畸变以恢复出场景的原始三维坐标，进而得到更准确的视角合成结果。

普通的单目透视视图，实现第二图像到第一图像的合成可以表示为如下公式：

p_s＝KTD(p_t)K^-1p_t，

其中，K为透视图下的相机内参矩阵，p_s为合成图像中的像素，p_t为第二图像中的像素。

对于全景视图，全景成像面为球形，需要等量矩阵投影生成平面图像，故需要将上述合成公式中的内参矩阵K替换为等量矩阵投影变换Ψ：

p_s＝ΨTD(p_t)Ψ^-1p_t，

其中，这里Ψ变换可描述为，给定空间三维点p＝(x,y,z)，首先可计算映射到球坐标系的经纬坐标(u,v):

再映射到平面坐标：

其中w和h分别为图像的宽和高。

本申请上述实施例中，该方法还包括：将第一图像输入至第一网络，得到第一图像的分割图；将第一图像和第二图像输入至第三网络，得到第一图像对应的第一超像素分割结果，以及第二图像对应的第二超像素分割结果；基于第一超像素分割结果和分割图，得到第二损失函数；基于第二超像素分割结果、深度图和位姿变换矩阵，生成合成图像对应的第三超像素分割结果；基于第三超像素分割结果和分割图，得到第三损失函数；基于第一损失函数、第二损失函数和第三损失函数，对图像处理模型的网络权重进行更新。

上述步骤中的第三网络可以是现有的用于进行超像素分割的网络，本申请对此不作具体限定。

在一种可选的实施例中，针对语义分割分支，可以将训练序列的超像素分割结果(即上述的第一超像素分割结果)作为自监督信号，结合第一网络输出的分割图生成第一图像的“伪标签”，得到分割任务的损失函数(即上述的第二损失函数)。另外，可以采用等量矩形投影的变换矩阵，得到合成图像的超像素分割结果(即上述的第三超像素分割结果)，进而得到合成图像的“伪标签”。为了保持语义一致性，可以计算第一图像的“伪标签”和合成图像的“伪标签”之间的差异，作为一致性损失函数(即上述的第三损失函数)。最后可以将三个损失函数联合作为整个模型训练的损失进行权重更新。

需要说明的是，上述的第二损失函数和第三损失函数可以采用多种形式，例如第二损失函数可以采用最小损失函数，第三损失函数可以采用L1范数损失函数，但不仅限于此。

通过引入无监督语义分割分支，构造了无监督多任务学习框架，避免了全监督学习中深度采集设备的昂贵成本，以及语义分割任务对大量标注数据的依赖。对两个像素级预测任务进行联合优化，利用视频前后帧语义一致性对深度预测的连续性和平滑性进一步约束，多任务并行在提高效率的同时也分别提升了不同任务的预测精度。

本申请上述实施例中，基于第一超像素分割结果和分割图，得到第二损失函数包括：获取第一超像素分割结果中的多个像素聚类；基于分割图，确定像素聚类中每个像素的分类结果；对像素聚类中所有像素的分类结果进行统计，得到像素聚类的类别标签；基于多个像素聚类的类别标签，生成第一图像的标签信息；基于第一图像的标签信息，得到第二损失函数。

在一种可选的实施例中，超像素分割结果可以是像素聚类结果，假设像素聚类数为K，也即包括K个像素聚类，分割图中可以包含M个分类结果，可以针对每个聚类中的像素，统计其与分割图中M类中最多数量的一个类，将该类作为该聚类的类别标签。在所有K个聚类完成之后，可以得到第一图像的“伪标签”(即上述的标签信息)，进而可以计算分割任务的损失函数。

需要说明的是，第三损失函数可以采用相同的方式得到，在此不做赘述。

本申请上述实施例中，利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果包括：确定图像序列中的目标图像；将目标图像输入至第一网络中，得到深度结果和分割结果。

可选地，上述的目标图像为位于图像序列的中间位置的图像。

在一种可选的实施例中，可以获取图像序列中的中间帧作为目标图像，并经过编码器-解码器结构的多任务网络，同时得到深度结果和分割结果。

本申请上述实施例中，在利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果之后，该方法还包括：基于深度结果和分割结果，生成图像序列对应的三维模型。

在一种可选的实施例中，在得到全景图像中每个像素的深度值和语义分割结果之后，可以利用每个像素的深度值和语义分割结果进行三维重建，得到整个场景的点云模型(也即上述的三维模型)。

本申请上述实施例中，基于深度结果和分割结果，生成图像序列对应的三维模型包括：基于分割结果，确定图像序列中目标对象；基于深度结果，确定目标对象在三维空间内的坐标；基于目标对象的坐标，生成三维模型。

上述步骤中的目标对象可以是三维重建的不同物体、平面等结构，但不仅限于此。

在一种可选的实施例中，可以基于语义分割结果预测场景中不同物体、平面等结构，利用全景图像中每个像素的深度值计算出像素点在三维空间的坐标，进而得到整个场景的点云模型实现三维重建。

下面结合图3a和图3b对本申请一种优选的实施例进行详细说明，如图3a和图3b所示，该方法包括如下步骤：

步骤S31，输入全景视频帧序列，其中，序列长度为L；

步骤S32，取序列中的中间帧，作为目标视图，经过编码器-解码器结构的多任务网络，同时得到语义分割图和深度图D；

步骤S33，整个序列经过另一个深度网络，得到目标视图到其邻近视图对应的相机位姿变换T＝<R,t>；

步骤S34，利用邻近视图，以及深度图D和相机位姿变换T，通过反向插值合成新的目标视图；

可选地，可以基于等量矩形投影实现邻近视图到目标视图的合成。

步骤S35，计算合成目标视图到目标视图的光度重构误差，作为深度估计任务的损失函数；

步骤S36，以目标视图的超像素分割结果作为自监督信号，结合网络输出分割图生成“伪标签”，计算分割任务的损失函数；

步骤S37，按照如步骤S34所示的方式合成目标视图的超像素分割结果，进而得到合成目标视图的“伪标签”。为保持语义一致性，计算原始伪标签与合成伪标签之间的差异，作为一致性损失函数。

步骤S38，将上述步骤S35至步骤S37得到的三部分损失函数联合作为整个模型训练的损失进行优化。

通过上述步骤，本申请提出了一种基于自监督多任务网络的全景深度估计与语义分割方法，在不使用激光雷达及红外等昂贵深度传感器的情况下，仅依靠全景视频中的视觉信息，构造多任务深度网络，利用全景成像及相机运动的几何约束，计算相邻帧间重构误差作为自监督信号，同时学习景深及语义，实现场景的结构化三维重建。该方案规避了高成本的设备依赖，有效地简化了数据采集与标注流程，带来了更好的用户体验与实际的经济与社会效益。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种图像处理方法。

图4是根据本申请实施例的另一种图像处理方法的流程图。如图4所示，该方法包括如下步骤：

步骤S402，接收输入的图像序列；

在一种可选的实施例中，为了方便用户上传拍摄到的图像序列，可以给用户提供一个交互界面，如图5所示，用户可以通过点击“上传图像序列”，或者直接将图像序列拖至虚线框中实现。

步骤S404，利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果，其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定；

步骤S406，基于深度结果和分割结果，生成图像序列对应的三维模型；

步骤S408，展示三维模型。

在一种可选的实施例中，在生成整个场景的三维模型之后，可以将三维模型显示在如图5所示的交互界面的显示区域中。

本申请上述实施例中，在展示三维模型之后，该方法还包括：接收输入的操作信号；基于操作信号对三维模型进行更新。

上述步骤中的操作信号可以是用户通过在如图5所示的交互界面上的操作区域中进行操作所生成的信号，例如，旋转操作、放大操作等，也可以是用户直接在显示区域中对三维模型进行滑动、点击等操作所生成的信号，例如通过点击实现放大操作，通过滑动实现旋转操作等。

在一种可选的实施例中，当用户需要查看三维模型的其他视角，或者希望查看场景中某个物体的模型时，用户可以在交互界面中进行操作，在接收到操作信号之后，可以基于操作信号对三维模型进行更新，并将更新后的三维模型显示在交互界面的显示区域中。

本申请上述实施例中，基于第一超像素分割结果和分割图，得到第二损失函数包括：获取第一超像素分割结果中的多个像素聚类；基于分割图，确定像素聚类中每个像素的分类结果；对像素聚类中所有像素的分类结果进行统计，得到像素聚类的类别标签；基于多个像素聚类的类别标签，生成第一图像的标签信息；基于第一图像的标签信息，得到第一损失函数。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，如图6所示，该装置600包括：第一获取模块602和第一处理模块604。

其中，第一获取模块602用于获取图像序列；第一处理模块604用于利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

此处需要说明的是，上述第一获取模块602和第一处理模块604对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：第二获取模块和第二处理模块。

其中，第二获取模块还用于获取等量矩阵投影的变换矩阵，其中，等量矩阵投影变换用于表征将三维坐标映射到平面坐标点的变换；第二处理模块还用于获取变换矩阵、位姿变换矩阵、深度图中的像素、变换矩阵的逆矩阵和第二图像中的像素的乘积，得到合成图像中的像素。

本申请上述实施例中，该装置还包括：第一输入模块、第二输入模块、第三处理模块、第一生成模块、第四处理模块和更新模块。

其中，第一输入模块用于将第一图像输入至第一网络，得到第一图像的分割图；第二输入模块用于将第一图像和第二图像输入至第三网络，得到第一图像对应的第一超像素分割结果，以及第二图像对应的第二超像素分割结果；第三处理模块用于基于第一超像素分割结果和分割图，得到第二损失函数；第一生成模块用于基于第二超像素分割结果、深度图和位姿变换矩阵，生成合成图像对应的第三超像素分割结果；第四处理模块用于基于第三超像素分割结果和分割图，得到第三损失函数；更新模块用于基于第一损失函数、第二损失函数和第三损失函数，对图像处理模型的网络权重进行更新。

本申请上述实施例中，第三处理模块包括：获取单元、第一确定单元、统计单元、第一生成单元和处理单元。

其中，获取单元用于获取第一超像素分割结果中的多个像素聚类；第一确定单元用于基于分割图，确定像素聚类中每个像素的分类结果；统计单元用于对像素聚类中所有像素的分类结果进行统计，得到像素聚类的类别标签；第一生成单元用于基于多个像素聚类的类别标签，生成第一图像的标签信息；处理单元用于基于第一图像的标签信息，得到第一损失函数。

本申请上述实施例中，第一处理模块包括：第二确定单元和输入单元。

其中，第二确定单元用于确定图像序列中的目标图像；输入单元用于将目标图像输入至第一网络中，得到深度结果和分割结果。

本申请上述实施例中，该装置还包括：第二生成模块。

其中，第二生成模块用于基于深度结果和分割结果，生成图像序列对应的三维模型。

本申请上述实施例中，第二生成模块包括：第三确定单元、第四确定单元和第二生成单元。

其中，第三确定单元用于基于分割结果，确定图像序列中目标对象；第四确定单元用于基于深度结果，确定目标对象在三维空间内的坐标；第二生成单元用于基于目标对象的坐标，生成三维模型。

实施例4

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，如图7所示，该装置700包括：接收模块702、第一处理模块704、第一生成模块706和展示模块708。

其中，接收模块702用于接收输入的图像序列；第一处理模块704用于利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果，其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定；第一生成模块706用于基于深度结果和分割结果，生成图像序列对应的三维模型；展示模块708用于展示三维模型。

此处需要说明的是，上述接收模块702、处理模块704、第一生成模块706和展示模块708对应于实施例2中的步骤S402至步骤S408，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：第一更新模块。

其中，接收模块还用于接收输入的操作信号；第一更新模块用于基于操作信号对三维模型进行更新。

本申请上述实施例中，该装置还包括：获取模块和第二处理模块。

其中，获取模块还用于获取等量矩阵投影的变换矩阵，其中，等量矩阵投影变换用于表征将三维坐标映射到平面坐标点的变换；第二处理模块还用于获取变换矩阵、位姿变换矩阵、深度图中的像素、变换矩阵的逆矩阵和第二图像中的像素的乘积，得到合成图像中的像素。

本申请上述实施例中，该装置还包括：第一输入模块、第二输入模块、第三处理模块、第二生成模块、第四处理模块和第二更新模块。

其中，第一输入模块用于将第一图像输入至第一网络，得到第一图像的分割图；第二输入模块用于将第一图像和第二图像输入至第三网络，得到第一图像对应的第一超像素分割结果，以及第二图像对应的第二超像素分割结果；第三处理模块用于基于第一超像素分割结果和分割图，得到第二损失函数；第二生成模块用于基于第二超像素分割结果、深度图和位姿变换矩阵，生成合成图像对应的第三超像素分割结果；第四处理模块用于基于第三超像素分割结果和分割图，得到第三损失函数；第二更新模块用于基于第一损失函数、第二损失函数和第三损失函数，对图像处理模型的网络权重进行更新。

本申请上述实施例中，第一生成模块包括：第三确定单元、第四确定单元和第二生成单元。

实施例5

根据本申请实施例，还提供了一种图像处理系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

实施例6

根据本申请实施例，还提供了一种数据处理方法。

图8是根据本申请实施例的一种数据处理方法的流程图。如图8所示，该方法包括如下步骤：

步骤S802，获取训练序列；

上述步骤中的训练序列可以是无标注的多张全景图像或全景视频，以降低设备及人力成本。

步骤S804，将训练序列中的第一图像输入至图像处理模型的第一网络，得到第一图像对应的深度图；

上述步骤中的第一图像可以是训练序列中的中间帧，作为目标视图。第一网络可以是采用编码器-解码器结构的多任务网络。深度图可以由图像序列中每个像素点的深度值构成。

步骤S806，将第一图像和训练序列中的第二图像输入至图像处理模型的第二网络，得到第一图像到第二图像的位姿变换矩阵；

上述步骤中的第一图像可以是第二图像可以是训练序列中与中间帧相邻的相邻帧，作为相邻视图。第二网络可以是深度卷积神经网络。

需要说明的是，第一网络和第二网络可以采用不同的主干网络或结构，本申请实施例并不限定两个网络的具体网络结构。

步骤S808，基于第二图像、深度图和位姿变换矩阵，生成合成图像；

步骤S810，基于第一图像和合成图像，确定图像处理模型的第一损失函数；

步骤S812，基于第一损失函数，对图像处理模型的网络权重进行更新。

本申请上述实施例中，在基于第一损失函数，对图像处理模型的网络权重进行更新之后，该方法还包括：获取图像序列；利用图像处理模型对图像序列进行处理，得到得到图像序列对应的深度结果和分割结果；基于深度结果和分割结果，生成图像序列对应的三维模型。

实施例7

根据本申请实施例，还提供了一种数据处理方法。

图9是根据本申请实施例的另一种数据处理方法的流程图。如图9所示，该方法包括如下步骤：

步骤S902，接收处理请求；

上述步骤中的处理请求可以是构建网络模型的请求，该请求中可以携带需要处理的数据以及相应的处理结果等。针对不同的处理请求需要构建不同的网络模型。在本申请实施例中，以构建图像处理模型，对图像序列进行处理，得到深度结果和分割结果为例进行说明。

在一种可选的实施例中，企业用户往往有使用网络模型对数据进行处理的需求，但是往往无法构建满足需求的网络模型。为了方便用户使用，可以提供给用户一个训练接口，用户将构建网络模型的请求通过该接口上传，从而服务器可以根据用户的请求为用户构建网络模型并训练。

步骤S804，基于处理请求获取训练序列和图像处理模型；

在一种可选的实施例中，服务器在接收到用户的请求之后，可以根据用户具体的数据处理需求，确定满足用户需求的图像处理模型，以及对模型进行训练的训练序列。

步骤S806，利用训练序列对图像处理模型进行训练，得到图像处理模型的网络权重，其中，图像处理模型用于将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定；

上述步骤中的第一图像可以是训练序列中的中间帧，作为目标视图，第二图像可以是训练序列中与中间帧相邻的相邻帧，作为相邻视图。

步骤S4808，输出训练好的图像处理模型。

在一种可选的实施例中，在图像处理模型训练完成之后，可以将训练好的图像处理模型返回给用户，由用户自行进行图像处理等操作。

本申请上述实施例中，在输出图像处理模型之后，该方法还包括：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；基于深度结果和分割结果，生成图像序列对应的三维模型。

实施例8

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行图像处理方法中以下步骤的程序代码：接收输入的图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；基于深度结果和分割结果，生成图像序列对应的三维模型；展示三维模型；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1002、以及存储器1004。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像处理方法和装置对应的程序指令/模块，以及数据处理方法对应的程序指令，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法和数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收输入的图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；基于深度结果和分割结果，生成图像序列对应的三维模型；展示三维模型；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

可选的，上述处理器还可以执行如下步骤的程序代码：获取等量矩阵投影的变换矩阵，其中，等量矩阵投影变换用于表征将三维坐标映射到平面坐标点的变换；获取变换矩阵、位姿变换矩阵、深度图中的像素、变换矩阵的逆矩阵和第二图像中的像素的乘积，得到合成图像中的像素。

可选的，上述处理器还可以执行如下步骤的程序代码：将第一图像输入至第一网络，得到第一图像的分割图；将第一图像和第二图像输入至第三网络，得到第一图像对应的第一超像素分割结果，以及第二图像对应的第二超像素分割结果；基于第一超像素分割结果和分割图，得到第二损失函数；基于第二超像素分割结果、深度图和位姿变换矩阵，生成合成图像对应的第三超像素分割结果；基于第三超像素分割结果和分割图，得到第三损失函数；基于第一损失函数、第二损失函数和第三损失函数，对图像处理模型的网络权重进行更新。

可选的，上述处理器还可以执行如下步骤的程序代码：获取第一超像素分割结果中的多个像素聚类；基于分割图，确定像素聚类中每个像素的分类结果；对像素聚类中所有像素的分类结果进行统计，得到像素聚类的类别标签；基于多个像素聚类的类别标签，生成第一图像的标签信息；基于第一图像的标签信息，得到第一损失函数。

可选的，上述处理器还可以执行如下步骤的程序代码：确定图像序列中的目标图像；将目标图像输入至第一网络中，得到深度结果和分割结果。

可选的，上述处理器还可以执行如下步骤的程序代码：基于深度结果和分割结果，生成图像序列对应的三维模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于分割结果，确定图像序列中目标对象；基于深度结果，确定目标对象在三维空间内的坐标；基于目标对象的坐标，生成三维模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

可选的，上述处理器还可以执行如下步骤的程序代码：接收输入的操作信号；基于操作信号对三维模型进行更新。

采用本申请实施例，提供了一种图像处理的方案。采用自监督模式，无需对训练序列进行标注，而且，无需进行立方体切图对6个透视面分别处理，也避免了估计6次相机位姿引入的累积误差，从而达到了降低设备及人力成本，提高处理效率，保证位姿估计的一致性的技术效果，进而解决了相关技术中图像处理方法计算复杂度大，且准确度低的技术问题。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取训练序列；将训练序列中的第一图像输入至图像处理模型的第一网络，得到第一图像对应的深度图；将第一图像和训练序列中的第二图像输入至图像处理模型的第二网络，得到第一图像到第二图像的位姿变换矩阵；基于第二图像、深度图和位姿变换矩阵，生成合成图像；基于第一图像和合成图像，确定图像处理模型的第一损失函数；基于第一损失函数，对图像处理模型的网络权重进行更新。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收处理请求；基于处理请求获取训练序列和图像处理模型；利用训练序列对图像处理模型进行训练，得到图像处理模型的网络权重，其中，图像处理模型用于将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定；输出训练好的图像处理模型。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例9

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的图像处理方法和数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收输入的图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；基于深度结果和分割结果，生成图像序列对应的三维模型；展示三维模型；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取等量矩阵投影的变换矩阵，其中，等量矩阵投影变换用于表征将三维坐标映射到平面坐标点的变换；获取变换矩阵、位姿变换矩阵、深度图中的像素、变换矩阵的逆矩阵和第二图像中的像素的乘积，得到合成图像中的像素。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将第一图像输入至第一网络，得到第一图像的分割图；将第一图像和第二图像输入至第三网络，得到第一图像对应的第一超像素分割结果，以及第二图像对应的第二超像素分割结果；基于第一超像素分割结果和分割图，得到第二损失函数；基于第二超像素分割结果、深度图和位姿变换矩阵，生成合成图像对应的第三超像素分割结果；基于第三超像素分割结果和分割图，得到第三损失函数；基于第一损失函数、第二损失函数和第三损失函数，对图像处理模型的网络权重进行更新。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一超像素分割结果中的多个像素聚类；基于分割图，确定像素聚类中每个像素的分类结果；对像素聚类中所有像素的分类结果进行统计，得到像素聚类的类别标签；基于多个像素聚类的类别标签，生成第一图像的标签信息；基于第一图像的标签信息，得到第一损失函数。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：确定图像序列中的目标图像；将目标图像输入至第一网络中，得到深度结果和分割结果。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于深度结果和分割结果，生成图像序列对应的三维模型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于分割结果，确定图像序列中目标对象；基于深度结果，确定目标对象在三维空间内的坐标；基于目标对象的坐标，生成三维模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取图像序列；利用图像处理模型对图像序列进行处理，得到图像序列对应的深度结果和分割结果；其中，图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：接收输入的操作信号；基于操作信号对三维模型进行更新。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取训练序列；将训练序列中的第一图像输入至图像处理模型的第一网络，得到第一图像对应的深度图；将第一图像和训练序列中的第二图像输入至图像处理模型的第二网络，得到第一图像到第二图像的位姿变换矩阵；基于第二图像、深度图和位姿变换矩阵，生成合成图像；基于第一图像和合成图像，确定图像处理模型的第一损失函数；基于第一损失函数，对图像处理模型的网络权重进行更新。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收处理请求；基于处理请求获取训练序列和图像处理模型；利用训练序列对图像处理模型进行训练，得到图像处理模型的网络权重，其中，图像处理模型用于将训练序列中的第一图像输入至第一网络，得到第一图像对应的深度图，并将第一图像和训练序列中的第二图像输入至第二网络，得到第一图像到第二图像的位姿变换矩阵，图像处理模型的第一损失函数由第一图像，和，基于第二图像、深度图和位姿变换矩阵生成的合成图像确定；输出训练好的图像处理模型。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理方法，包括：

接收处理请求；

基于所述处理请求获取训练序列和图像处理模型；

利用所述训练序列对所述图像处理模型进行训练，得到所述图像处理模型的网络权重，其中，所述图像处理模型用于将所述训练序列中的第一图像输入至第一网络，得到所述第一图像对应的深度图，并将所述第一图像和所述训练序列中的第二图像输入至第二网络，得到所述第一图像到所述第二图像的位姿变换矩阵，所述图像处理模型的第一损失函数由所述第一图像，和，基于所述第二图像、所述深度图和所述位姿变换矩阵生成的合成图像确定；

输出训练好的图像处理模型；

将所述第一图像输入至所述第一网络，得到所述第一图像的分割图；

将所述第一图像和所述第二图像输入至第三网络，得到所述第一图像对应的第一超像素分割结果，以及所述第二图像对应的第二超像素分割结果；

基于所述第一超像素分割结果和所述分割图，得到第二损失函数；

基于所述第二超像素分割结果、所述深度图和所述位姿变换矩阵，生成所述合成图像对应的第三超像素分割结果；

基于所述第三超像素分割结果和所述分割图，得到第三损失函数；

基于所述第一损失函数、所述第二损失函数和所述第三损失函数，对所述图像处理模型的网络权重进行更新。

2.根据权利要求1所述的方法，其中，基于所述第二图像、所述深度图和所述位姿变换矩阵，生成所述合成图像包括：

获取等量矩阵投影的变换矩阵，其中，所述等量矩阵投影变换用于表征将三维坐标映射到平面坐标点的变换；

获取所述变换矩阵、所述位姿变换矩阵、所述深度图中的像素、所述变换矩阵的逆矩阵和所述第二图像中的像素的乘积，得到所述合成图像中的像素。

3.根据权利要求1所述的方法，其中，基于所述第一超像素分割结果和所述分割图，得到第二损失函数包括：

获取所述第一超像素分割结果中的多个像素聚类；

基于所述分割图，确定所述像素聚类中每个像素的分类结果；

对所述像素聚类中所有像素的分类结果进行统计，得到所述像素聚类的类别标签；

基于多个所述像素聚类的类别标签，生成所述第一图像的标签信息；

基于所述第一图像的标签信息，得到所述第二损失函数。

4.一种数据处理方法，包括：

获取训练序列；

将所述训练序列中的第一图像输入至图像处理模型的第一网络，得到所述第一图像对应的深度图；

将所述第一图像和所述训练序列中的第二图像输入至所述图像处理模型的第二网络，得到所述第一图像到所述第二图像的位姿变换矩阵；

基于所述第二图像、所述深度图和所述位姿变换矩阵，生成合成图像；

基于所述第一图像和所述合成图像，确定所述图像处理模型的第一损失函数；

基于所述第一损失函数，对所述图像处理模型的网络权重进行更新；

5.根据权利要求4所述的方法，其中，基于所述第二图像、所述深度图和所述位姿变换矩阵，生成所述合成图像包括：

6.根据权利要求4所述的方法，其中，基于所述第一超像素分割结果和所述分割图，得到第二损失函数包括：

获取所述第一超像素分割结果中的多个像素聚类；

基于所述第一图像的标签信息，得到所述第二损失函数。

7.一种图像处理方法，包括：

接收输入的图像序列；

利用图像处理模型对所述图像序列进行处理，得到所述图像序列对应的深度结果和分割结果；

基于所述深度结果和所述分割结果，生成所述图像序列对应的三维模型；

展示所述三维模型；

其中，所述图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到所述第一图像对应的深度图，并将所述第一图像和所述训练序列中的第二图像输入至第二网络，得到所述第一图像到所述第二图像的位姿变换矩阵，所述图像处理模型的第一损失函数由所述第一图像，和，基于所述第二图像、所述深度图和所述位姿变换矩阵生成的合成图像确定；

8.根据权利要求7所述的方法，其中，在展示所述三维模型之后，所述方法还包括：

接收输入的操作信号；

基于所述操作信号对所述三维模型进行更新。

9.根据权利要求7所述的方法，其中，基于所述第二图像、所述深度图和所述位姿变换矩阵，生成所述合成图像包括：

10.根据权利要求7所述的方法，其中，基于所述第一超像素分割结果和所述分割图，得到第二损失函数包括：

获取所述第一超像素分割结果中的多个像素聚类；

基于所述第一图像的标签信息，得到所述第二损失函数。

11.一种图像处理方法，包括：

获取图像序列；

12.根据权利要求11所述的方法，其中，基于所述第二图像、所述深度图和所述位姿变换矩阵，生成所述合成图像包括：

13.根据权利要求11所述的方法，其中，基于所述第一超像素分割结果和所述分割图，得到第二损失函数包括：

获取所述第一超像素分割结果中的多个像素聚类；

基于所述第一图像的标签信息，得到所述第二损失函数。

14.根据权利要求11所述的方法，其中，利用图像处理模型对所述图像序列进行处理，得到所述图像序列对应的深度结果和分割结果包括：

确定所述图像序列中的目标图像；

将所述目标图像输入至所述第一网络中，得到所述深度结果和所述分割结果。

15.根据权利要求14所述的方法，其中，所述目标图像为位于所述图像序列的中间位置的图像。

16.根据权利要求11所述的方法，其中，在利用图像处理模型对所述图像序列进行处理，得到所述图像序列对应的深度结果和分割结果之后，所述方法还包括：

基于所述深度结果和所述分割结果，生成所述图像序列对应的三维模型。

17.根据权利要求16所述的方法，其中，基于所述深度结果和所述分割结果，生成所述图像序列对应的三维模型包括：

基于所述分割结果，确定所述图像序列中目标对象；

基于所述深度结果，确定所述目标对象在三维空间内的坐标；

基于所述目标对象的坐标，生成所述三维模型。

18.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的数据处理方法，或权利要求7至17中任意一项所述的图像处理方法。

19.一种计算设备，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的数据处理方法，或权利要求7至17中任意一项所述的图像处理方法。

20.一种图像处理系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取图像序列；利用图像处理模型对所述图像序列进行处理，得到所述图像序列对应的深度结果和分割结果；其中，所述图像处理模型用于获取训练序列，将训练序列中的第一图像输入至第一网络，得到所述第一图像对应的深度图，并将所述第一图像和所述训练序列中的第二图像输入至第二网络，得到所述第一图像到所述第二图像的位姿变换矩阵，所述图像处理模型的第一损失函数由所述第一图像，和，基于所述第二图像、所述深度图和所述位姿变换矩阵生成的合成图像确定；将所述第一图像输入至所述第一网络，得到所述第一图像的分割图；将所述第一图像和所述第二图像输入至第三网络，得到所述第一图像对应的第一超像素分割结果，以及所述第二图像对应的第二超像素分割结果；基于所述第一超像素分割结果和所述分割图，得到第二损失函数；基于所述第二超像素分割结果、所述深度图和所述位姿变换矩阵，生成所述合成图像对应的第三超像素分割结果；基于所述第三超像素分割结果和所述分割图，得到第三损失函数；基于所述第一损失函数、所述第二损失函数和所述第三损失函数，对所述图像处理模型的网络权重进行更新。