CN110049303A

CN110049303A - 立体图像的视觉风格化

Info

Publication number: CN110049303A
Application number: CN201810036211.9A
Authority: CN
Inventors: 袁路; 华刚; 廖菁; 陈冬冬
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2019-07-23
Anticipated expiration: 2038-01-15
Also published as: US20200342570A1; WO2019139858A1; US11308576B2; EP3741107A1; CN110049303B

Abstract

根据本公开的实现，提出了一种立体图像的视觉风格化的方案。在该方案中，提取第一和第二源图像的第一和第二特征图。第一和第二源图像分别对应于立体图像的第一和第二视角。基于第一和第二源图像确定从第一源图像到第二源图像的第一单向视差。将第一特征图与第一变形特征图进行合并得到第一合并特征图。通过基于第一单向视差处理第一和第二特征图，来生成具有视觉风格的第一和第二目标图像。通过该方案，在执行视觉风格变换的同时，还考虑组成立体图像的两幅源图像之间的视差，从而维持由目标图像组成的立体图像中的立体效果。

Description

立体图像的视觉风格化

背景技术

图像风格化指的是将一幅图像的原始视觉风格变换为期望的其他视觉风格。图像的视觉风格可以由该图像呈现的一个或多个维度的视觉属性来体现，这样的视觉属性包括但不限于图像中的颜色、纹理、亮度、线条等等。例如，由图像采集设备等获得的真实图像可以被认为是一种视觉风格，而诸如油画、素描、水彩画等艺术作品也可以被认为是其他不同视觉风格。在变换一幅图像的视觉风格时，该图像中呈现的内容应当基本保持不变。例如，如果该图像中原先包含建筑、人物、天空或植被等内容，那么在视觉风格变换之后，这些内容基本上被保留，但是内容的一个或多个维度的视觉属性会发生改变，使得图像的总体视觉风格改变，例如从照片风格变为油画风格，等等。

发明内容

根据本公开的实现，提出了一种用于立体图像的视觉风格化的方案。在该方案中，提取第一和第二源图像的第一和第二特征图。第一和第二源图像分别对应于立体图像的第一和第二视角。基于第一和第二源图像确定从第一源图像到第二源图像的第一单向视差。将第一特征图与第一变形特征图进行合并得到第一合并特征图。通过基于第一单向视差处理第一和第二特征图，来生成具有视觉风格的第一和第二目标图像。通过该方案，在执行视觉风格变换的同时，还考虑立体图像的两幅源图像之间的视差，从而可以维持由目标图像组成的立体图像中的立体效果。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算环境的框图；

图2示出了根据本公开的一个实现的用于立体图像的风格化的学习网络的框图；

图3示出了根据本公开的另一个实现的用于立体图像的风格化的学习网络；

图4示出了根据本公开的一个实现的对图2的学习网络的特征提取子网络的具体框图；

图5示出了根据本公开的一个实现的用于立体图像的风格化的过程的流程图；以及

图6示出了根据本公开的一个实现的用于训练学习网络的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本主题的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，可以对图像执行视觉风格变换，以呈现更丰富的图像内容。目前很多技术研究重点在于变换静态二维(2D)图像或视频的各个帧的视觉风格。随着视觉内容的不断丰富，静态立体图像或动态立体视频越来越容易由各种设备被捕获和再现。立体图像也称为三维(3D)图像，能够让观看者感受到立体3D场景的效果。立体图像由一对图像组成，包括与观看者的左眼视角对应的图像和与观看者的右眼视角对应的另一图像。这两幅图像之间具有一定差异，这样的视差是为了模拟观看者用不同眼睛观看同一场景时的视差，以使得观看者体验到立体效果。立体视频指的是由时间上连续的多个立体图像组成的视频。

随着立体图像越来越容易由各种设备被捕获和再现，也期望变换立体图像的视觉风格，以便向观看者呈现更丰富多样的内容。已经存在很多对于静态二维(2D)图像或视频中的动态2D图像进行视觉风格变换的技术，但却没有针对立体图像的视觉风格变换的研究。当考虑对立体图像进行视觉变换时，一种可能的方法是将针对2D图像的视觉风格变换技术单独应用于组成立体图像的各个图像上。然而，本申请的发明人发现，经过这样的视觉风格变换之后，组成立体图像的两幅图像上的某些对应区域产生不同的变化，例如具有不同的颜色、纹理等，虽然这些颜色和纹理均来自预期要变换的风格。这样的风格变换结果会导致深度感知方面的问题，并且容易让观看者产生3D视觉疲劳。因此，需要针对立体图像的视觉风格变换的方案。

示例环境

以下参考附图来说明本公开的基本原理和若干示例实现。图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如内存、闪存驱动、磁盘或者任何其他介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。

计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

计算设备100可以用于实施本公开的多种实现中的对立体图像的视觉风格化。因此，在下文中，计算设备也被称为“图像处理设备100”。存储器120可以包括一个或多个图像处理模块122，其具有一个或多个程序指令，这些模块可以由处理单元110访问和运行，以实现本文所描述的各种实现的功能。

在执行视觉风格化时，图像处理设备100能够通过输入设备150接收组成立体图像的源图像102和源图像104。源图像102和源图像104分别对应于立体图像的第一视角(例如左视角)和第二视角(例如右视角)。源图像102与源图像104之间存在视差，以使得观看者在观看时能体验到场景的立体3D效果。输入设备150还接收视觉风格的指示106，用于指示期望将源图像102和104的原始视觉风格改变该指定视觉风格。在图1的示例中，该指示106由具有期望变换的视觉风格的图像来表示。由输入设备150获取的源图像102、104以及指示106被提供作为图像处理模块122的输入。图像处理模块122将指示106所指示的视觉风格施加到源图像102和104，并且输出风格变换后的目标图像182和184。目标图像182对应于源图像102的左视角，并且目标图像184对应于源图像104的右视角。目标图像182和184组成具有变换后的视觉风格的立体图像。输出设备160可以将目标图像182和184呈现给观看者或者传输给其他设备。

在本文中，图像的视觉风格也可以被简称为图像的风格，可以由该图像呈现的一个或多个视觉属性来体现。这样的视觉属性包括但不限于图像中的颜色、纹理、亮度、线条等等。因此，图像的视觉风格可以涉及该图像中的色彩搭配、明暗过渡、纹理特点、线条粗细和弯曲特点等一个或多个方面。在一些实现中，不同类型的图像可以被认为具有不同的视觉风格，例如由成像设备拍摄的图像，由艺术家创作的各种素描、油画、水彩画等。

应当理解，图1示出的源图像102和104，指示图像106，目标图像182和184仅用于示例的目的。在其他示例中，任何组成立体图像的源图像可以被处理，任何指示特定视觉风格的图像可以被输入，并且可能生成不同的目标图像。

工作原理和基于学习网络的示例

根据本公开的实现，提出了一种立体图像的视觉风格化的方案。在该方案中，提取组成立体图像的两幅源图像的相应特征图，并且确定从一幅源图像到另一幅源图像的单向视差。在从源图像的特征图变换到具有指定视觉风格的目标图像时考虑所确定的单向视差，以便在目标图像中尽可能维持这样的单向视差。这有助于维持目标图像组成的立体图像中的立体效果。

在一些实现中，在视觉风格变换时，可以基于单向视差来将一个视角的特征图变形到另一视角，并且变形后的特征图与另一视角的特征图进行合并。合并后的特征图和另一未被处理的特征图一起被变换成具有指定视觉风格的目标图像。通过变形和合并，对于特定视角，实现了在参考与另一视角的视差的情况下实现视觉风格变换，从而减小或避免影响目标图像中的立体效果。可以理解，对于组成立体图像的第一源图像和第二源图像，可以考虑这两个图像之间任一方向的单向视差。

在另外一些实现中，还可以将从立体图像中的第一源图像到第二源图像的第一单向视差和从第二源图像到第一源图像的第二单向视差结合起来考虑，从而实现在目标图像中维持双向视差。这可以进一步提高所获得的目标图像之间的感知深度一致，从而维持目标图像中的立体效果。

在一些实现中，源图像的特征提取和从特征图到目标图像的变换可以基于学习网络来实现。这样的学习网络可以例如是在图像处理方面具有良好性能的卷积神经网络(CNN)。在一些实现中，对源图像的视差的确定也可以由相应的学习网络来实现。在下文中，为了更清楚地描述本公开，将结合学习网络进行描述。然而，应当理解，在另外一些实现中，本公开描述的一些或全部功能还可以以基于软件或硬件的其他手段来实现。

在本文中，学习网络也可以被称为“神经网络”或“学习模型”。在下文中，术语“学习模型”、“学习网络”、“神经网络”、“模型”和“网络”可替换地使用。

参照图2示出了根据本公开的一些实现的用于立体图像的视觉风格化的学习网络200的总体架构。该学习网络200可以被实现在图1的计算设备100的图像处理模块122处。在图2的示例中，学习网络200在单向视差的基础上执行立体图像的视觉风格变换。

如所示出的，学习网络200包括特征提取子网络210(为讨论方便，也称为“第一子网络”)、视差子网络220(为讨论方便，也称为“第二子网络”)和特征变换子网络230(为讨论方便，也称为“第三子网络”)。在该学习网络200中，特征提取子网络210和特征变换子网络230负责变换源图像102和104的视觉风格，而视差子网络220可以估计指示源图像102与104之间的视差，以用于在视觉风格化的过程中尽可能维持这样的视差。

具体地，源图像102和104被输入到特征提取子网络210。源图像102和104组成立体图像，分别对应于立体图像的左眼视角和右眼视角。特征提取子网络210被配置为提取源图像102的一个或多个特征图212(被表示为F_l)，并且提取源图像104的一个或多个特征图214(被表示为F_r)。每个特征图212或214分别指示源图像102或104的一部分特征信息，诸如源图像中的一个或多个物体的颜色、轮廓、边缘、线条等信息。特征变换子网络230执行与特征提取子网络210基本相反的操作，以基于特征图来重新生成与源图像102和104对应的目标图像182和184。因此，特征提取子网络210有时可以被称为编码器，并且特征变换子网络230有时可以被称为解码器。

图2的示例涉及维持源图像102和104之间的单向视差的示例实现。为了便于讨论，下文以从源图像102到源图像104的单向视差为例进行说明。然而应当理解，类似的方案也可以用于维持从源图像104到源图像102的另一单向视差。具体地，视差子网络220被配置为基于源图像102和104来确定从源图像102到源图像104的单向视差(为了方便讨论，也被称为“第一单向视差”)。在这个具体示例中，视差子网络220可以生成视差图222(被表示为D_l)来指示第一单向视差。视差图222可以在像素级上指示从源图像102的一个像素点到源图像104的对应像素点的偏移程度，也称为偏移距离(例如以像素为单位)。视差图222将被应用到特征图，因此如果由视差子网络220确定的视差图的尺寸与特征图212和214不同，视差图222的尺寸可以被双线性变换到与特征图212和214的尺寸相同。

学习网络200还包括变形模块240。视差图(D_l)222和源图像104的特征图(F_r)214被提供给变形模块240。变形模块240被配置为基于视差图222来变形特征图214，从而将特征图214从右视角变形到左视角。可以通过对特征图214执行后向变形来实现：在已知与左视角相关联的视差图222的基础上从右视角到左视角的变形。变形模块240可以输出变形特征图242(被表示为F′_l，为便于讨论，也称为第一变形特征图)，其中并且表示变形操作，例如可以为后向变形操作。学习网络200还包括合并模块250，用于将变形特征图242和源图像102的特征图212进行合并，以获得针对左视角的合并特征图252。

在一些实现中，还考虑源图像102和104中的对象的相互遮挡。由于视差的存在，源图像102和104中的有些对象整体或部分对象在两个视角中并非总是均可见。例如，在源图像102中可见的有些对象或部分对象可能在源图像104中被遮挡，而有些在源图像104中可见的有些对象或部分对象可能在源图像102中被遮挡。考虑到这样的对象遮挡，在一些实现中，可以确定源图像102的掩蔽图224(被表示为M_l)，该掩蔽图224指示源图像102在源图像104中被遮挡的部分。例如，掩蔽图224可以由0和1的像素值构成。对于掩蔽图224中的给定像素p，如果该像素p在源图像102中的对应像素可见并且在源图像104中的对应像素也可见，则掩蔽图224中的像素p＝0；如果该像素p在源图像102中的对应像素可见，但在源图像104中的对应像素被遮挡，则掩蔽图224中的像素p＝1。

在一些实现中，掩蔽图224可以由视差子网络220基于源图像102和104而确定。例如，视差子网络220可以通过对源图像102到源图像104的视差和从源图像104到源图像102的视差执行前向和后向一致性检查来确定掩蔽图224。在一些实现中，掩蔽图224可以在特征空间中被确定为与特征图212的尺寸对应。通过掩蔽图224，可以确定特征图212中与源图像102在另一视角中被遮挡或未被遮挡的部分对应的部分特征图。

在合并模块250执行合并时，为了在目标图像中维持对应视差，可以将特征图212的第一部分特征图和变形特征图242的第二部分特征图进行合并，以获得合并特征图252(被表示为)，其中特征图212的第一部分特征图与源图像102在源图像104中被遮挡的部分相对应，并且变形特征图242的第二部分特征图与源图像102在源图像104中未被遮挡的部分相对应。第一部分特征图和第二部分特征图可以由掩蔽图224(M_l)来确定。合并模块250中的合并操作可以被表示为：其中⊙表示逐像素相乘。通过这种方式，可以仅对在另一视角中未被遮挡的部分来维持相应的视差。对于仅在当前视角中可见的部分，可以直接施加视觉风格变化，因为另一视角的视觉风格变换并不会影响到这部分图像。

合并模块250输出合并特征图252。与源图像102对应的合并特征图252和源图像104的特征图214被提供给特征变换子网络230。特征变换子网络230被配置为处理特征图252和214，以生成具有指定视觉风格的目标图像182和184。具体地，特征图252可以由特征变换子网络230变换为目标图像182，并且特征图214可以由特征变换子网络230变换为目标图像184。

在本公开的实现中，可以以各种方式将指定的视觉风格施加到源图像102和104以获得具有该视觉风格的目标图像182和184。这样的视觉风格变换由特征提取子网络210、特征变换子网络220或者另外的子网络来实现。各种视觉风格的施加方案都可以被应用到学习网络200中，同时还能够经由视差子网络220来保持立体图像的不同视角的视差。

在视觉风格变换的一些示例中，可以由特征提取子网络210或者其他子网络将指定视觉风格(例如，图像106的视觉风格)施加到特征图212和214中，然后按上文描述的过程来处理特征图212和214。在另外的实现中，可以由其他子网络指定视觉风格分别施加到特征图212、变形特征图242以及特征图214中。被施加有特定视觉风格的特征图212和242继续被合并，并且与特征图214一起被输入到特征变换子网络230以生成目标图像182和184。对要变换的视觉风格的指定例如可以由图1的图像106指示，或者通过诸如选项选择、文本输入等其他方式指示。通常，对目标图像182和184指定的视觉风格可以不同于源图像182和184呈现的视觉风格。

以上描述了基于学习网络200的立体图像视觉风格变换。在一些实现中，特征提取子网络210、视差子网络220和特征变换子网络230可以由神经网络的多个层组成。可以采用在图像处理方面表现出色的卷积神经网络(CNN)的多个层来构成特征提取子网络210。例如，特征提取子网络210可以用于特征提取的由多个卷积层构成。特征变换子网络230可以对称地设置。例如，如果特征提取子网络210包括一个步长为1的卷积层和两个步长为2的卷积层，那么特征变换子网络230可以包括两个步长为1/2的卷积层和1个步长为1的卷积层。视差子网络220也可以类似地由神经网络的多个层构成。每个层可以包括多个隐含节点，用于利用非线性变换的激励函数对来自前一层的输入进行处理，以将输入作为下一层的输入。

应当理解，以上仅给出子网络210、220和230在使用过程中能够实现的功能的一些示例。学习网络的子网络210、220和230已经被训练为具有相应的参数，以实现上述功能。子网络的训练将在下文描述。可以理解，在学习网络200中，变形模块240和合并模块250执行相应的变形和合并功能而无需被训练。在其他实现中，也可以以其他方式设置这些子网络，以达到从源图像中提取特征图、生成源图像的视差图以及将特征图变换回图像内容空间的目的。

双向视差的扩展

在上述实现中讨论了在维持单向视差的情况下对立体图像执行视觉风格变换。为了进一步提高视觉变换后的目标图像中的感知误差和保持目标图像的立体效果，在一些实现中，由于源图像102对应的左视角和源图像104对应的右视角是完全对称的，还可以维持从源图像102到源图像104以及从源图像104到源图像102的对称双向视差。图3示出了学习网络200的另一个示例，在该示例中，视差子网络220确定两个方向的单向视差。

具体地，特征提取子网络210提取源图像102的一个或多个特征图212(被表示为F_l)，并且提取源图像104的一个或多个特征图214(被表示为F_r)。除了确定从源图像102到源图像104的第一单向视差之外，视差子网络220还基于源图像102和104来确定从源图像104到源图像102的单向视差(为了方便讨论，也被称为“第二单向视差”)。与第一单向视差类似，视差子网络220也可以生成视差图224(被表示为D_r)来指示第二单向视差。视差图226可以在像素级上指示从源图像104的一个像素点到源图像102的对应像素点的偏移程度，也称为偏移距离(例如以像素为单位)。

在本公开的一些实现中，为了保持双向视差，可以基于第一单向视差和第二单向视差来将与左视角对应的特征图212和与右视角对应的特征图214均首先变形到中间域，然后再从中间域变形回到原始视角。具体地，对于左视角(l)，变形模块240基于视差图222来将特征图214从右视角变形到左视角。由于与左视角相关联的视差图222和与右视角相关联的特征图214均已知，从右视角到左视角的变形可以通过对特征图212执行前向变形来实现。

在变形时，可以仅变形特征图212中与源图像102在源图像104中未被遮挡的部分相对应的部分特征图(为便于讨论，也称为“第一部分特征图”)，而排除特征图212中与源图像102在源图像104中被遮挡的部分相对应的部分特征图(为便于讨论，也称为“第二部分特征图”)。为了确定特征图212中在源图像102和源图像104中均可见，或者在源图像102中可见而在源图像104中被遮挡的部分，如以上关于图2描述的，可以由视差子网络220(或者额外的子网络)来确定掩蔽图224(被表示为M_l)。

为了实现到中间域的变形，变形模块240在执行变形时，可以以视差图222指示的单向视差的预定量来变形特征图212的第一部分特征图。通常，由视差图222指示的单向视差以像素为单位表示从源图像102到源图像104的偏移程度(即，偏移距离)。在一些实现中，单向视差的预定量可以是视差图222指示的单向视差的一半。例如，对于特征图212中的给定像素p，如果视差图222指示在变形时要将该像素p以距离d(以像素为单位)偏移到变形特征图中的像素q，则在变形模块240中仅将该像素p偏移d/2的距离。变形模块240可以使用前向变形函数来执行这样的变形。应当理解，通过以单向视差的其他预定量来变形特征图也是可能的。

对于右视角(r)，学习网络200还包括变形模块340，用于基于视差图226来将特征图212从左视角变形到右视角。这样的变形也可以通过对特征图214执行前向变形来实现。变形模块340的操作与变形模块240的操作是对称的。在变形模块340的变形操作中，也需要确定特征图214与源图像104在源图像102中未被遮挡的部分和被遮挡的部分分别对应的部分特征图。因此，也可以由视差子网络220(或其他附加子网络)确定与源图像104对应的掩蔽图228。掩蔽图228可以在特征空间中被确定为与特征图214的尺寸对应。通过掩蔽图228，可以确定特征图214中与源图像104在另一视角中被遮挡或未被遮挡的部分对应的部分特征图。

为了变形到中间域，学习网络200还包括合并模块310，用于将变形模块240输出的变形特征图(也被称为第一中间特征图)和变形模块340输出的变形特征图(也被称为第二中间特征图)进行合并，以获得中间合并特征图316(被表示为F_h)。在一些实现中，合并模块310还将第一中间特征图和第二中间特征图中的对应像素值进行平均，以获得中间合并特征图316。在变形模块240、340和合并模块310中实现的特征图到中间域的变形可以被表示如下：

其中表示前向变形函数，其在掩蔽图m的引导下，使用视差图y来将特征图x进行变形。假设表示变形特征图，那么可以确定：

其中表示像素p的八个邻居像素，ω_q表示双线性插值的权重，以使得z区别于x和y。在掩蔽图m的引导下，在前向变形过程中，将所有被遮挡的像素q排除在外，这可以避免“多到一”的映射问题。

为了后续从中间域中再次变形回到原始视角，可以基于视差图222和226来确定源图像102与源图像104之间的双向视差，以用于从中间特征图从中间域到原始视角的变形。在一些实现中，可以通过变形模块240、340以及合并模块310，以与特征图212和214的类似处理来将视差图222和226变形到中间域，以获得中间视差图来指示双向视差。具体地，对于左视角(l)，变形模块240可以对视差图222执行一半的变形，即以视差图222指示的单向视差的度量的一半来变形该视差图222，以获得第一部分视差图。变形模块340对视差图226执行类似操作，以获得第二部分视差图。在变形过程中，可以执行前向变形，并且将在相对视角中被遮挡的像素排除在变形过程以外。合并模块310将变形模块240、340变形后的第一和第二部分视差图进行合并，以获得中间视差图312(被表示为D_h)。

中间视差图312指示源图像102与源图像104之间的双向对称视差。在一些实现中，中间视差图312在像素级上指示在源图像102的一个像素点与源图像104的对应像素点之间的对称偏移距离。例如，对于中间视差图312中的给定像素D_h(p)，对于左视角而言，可以偏移反向距离-D_h(p)，而对于右视角，可以偏移正向距离+D_h(p)。在变形模块240、340和合并模块310中实现的视差图到中间域的变形可以被表示如下：

除了中间合并特征图316和中间视差图312之外，还可以确定中间掩蔽图314(被表示为M_h)。中间掩蔽图314的生成与中间合并特征图316和中间视差图312的生成过程类似，即通过分别对掩蔽图224和226执行一半的变形，并且然后进行合并而获得。中间掩蔽图314用于指示在中间合并特征图316中与源图像102和104中均可见的部分对应的部分特征图。

在获得中间域中的中间合并特征图316、中间视差图312和中间掩蔽图314之后，学习网络200还包括变形模块320、变形模块330、合并模块250和合并模块350来执行从中间域到原始视角的变形。具体地，变形模块320基于中间视差图312来将中间合并特征图316变形到左视角，以获得变形特征图322(被表示为F′_l，也被称为第一变形特征图)。变形模块330基于中间视差图312来将中间合并特征图316变形到右视角，以获得变形特征图332(被表示为F′_r，也被称为第二变形特征图)。变形模块320和330中的变形可以分别被表示如下：

合并模块250将特征图212和左视角中对应的变形特征图322进行合并，以生成合并特征图252(被表示为也被称为第一合并特征图)。在合并时，可以将特征图212中与源图像102在源图像104中被遮挡的部分对应的部分特征图和特征图322中与源图像102在源图像104中未被遮挡的部分对应的部分特征图进行合并。这样的部分特征图可以通过掩蔽图224来实现。类似地，合并模块350将特征图214和右视角中对应的变形特征图332进行合并，以生成合并特征图352(被表示为也被称为第二合并特征图)。因此，合并模块250或350中的合并过程可以被表示为：

合并特征图252和352被馈送至特征变换子网络230，以获得具有变换后的视觉风格的目标图像182和184。具体地，合并特征图252可以用于生成目标图像182，而合并特征图352用于生成目标图像184。

如以上提及的，在本公开的实现中，可以以各种方式将指定的视觉风格施加到源图像102和104以获得具有该视觉风格的目标图像182和184。这样的视觉风格变换由特征提取子网络210、特征变换子网络220或者另外的子网络来实现。各种视觉风格的施加方案都可以在学习网络200中采用，同时还能够经由视差子网络220来保持立体图像的不同视角的视差。

通过考虑双向视差来执行对立体图像的视觉风格变换过程，可以使得左、右视角对应的对称视差得以被维持，从而保持目标图像182和184组成的立体图像的立体效果，避免了由于视觉风格变换而引入任何感知损失。

学习网络的训练

以上讨论了基于学习网络200的立体图像视觉风格变换的示例。为了使得学习网络200具备实现视觉风格化且保持单向或双向视差的能力，在构建好学习网络200的架构之后，采用训练图像对该网络进行训练。在学习网络200的架构中，特征提取子网络210、视差子网络220和特征变换子网络230均需要被训练以确定其中的参数集。

在一些实现中，可以联合训练特征提取子网络210和特征变换子网络230，并且可以单独地训练视差子网络220。在训练过程中，特征提取子网络210和特征变换子网络230的训练目标是实现如以上描述的特征提取、特征变换以及视觉风格变换的功能。因此，训练子网络210和230的训练数据可以包括立体图像和对应的参考立体图像。参考立体图像具有变换后的视觉风格。参考立体图像可以被认为是真实的风格变换后的立体图像。每个立体图像包括与左视角对应的源图像和与右视角对应的源图像，而每个参考立体图像也包括与相应视角对应的两个参考图像。在一些视觉风格变换的实现中，还可以用具有相应的视觉风格的参考图像来一起进行训练。这样的参考图像可以是2D参考图像。

在训练过程中，视差子网络220的训练目标是实现如以上描述的从源图像生成视差图(以及掩蔽图)的功能。因此，训练视差子网络220的训练数据包括立体图像以及组成立体图像的源图像之间的单向视差(例如，以视差图的形式)。训练数据还可以包括参考掩蔽图。参考视差图和参考掩蔽图指示针对源图像的真实视差和掩蔽图。

利用训练数据，可以通过迭代更新过程，不断更新和优化特征提取子网络210、视差子网络220和特征变换子网络230的参数的值，使得收敛后获得的子网络210、220和230能够实现相应功能。迭代更新的收敛可以通过由损失函数表示的优化目标来确定。这样的损失函数可以由各个子网络210、220和230的相应损失函数的总和来实现，这被表示为：

其中表示学习网络200的总体损失函数，表示内容损失函数，表示视觉风格损失函数，表示视差损失函数，v∈{l，r}表示左视角或右视角，I_l，I_r表示立体图像，S表示具有要变换的视觉风格的参考图像，O_l，O_r表示参考立体图像，其中O_l，O_r是I_l，I_r的视觉风格变换结果，并且具有参考图像S的视觉风格。

在上述损失函数中，损失函数和被用作特征提取子网络210和特征变换子网络230的优化目标，以使得在从图像内容到特征的变换以及从特征到图像内容的变化过程中，输出的目标图像与输入的源图像在图像内容上的差异较小或在阈值以内，并且输出的目标图像与具有相应视觉风格的参考图像在视觉风格上的差异较小或在阈值以内。应当理解，在训练用于静态2D图像的视觉风格变换的学习网络时采用的损失函数和也适用于本公开的实现。在一个示例中，损失函数数和可以被表示为：

其中Fⁱ和G是由特征提取子网络210和特征变换子网络230计算的第i层计算的特征图和Gram矩阵，并且{l_c}，{l_s}分别表示特征提取子网络210和特征变换子网络230的层数。

在一个示例中，与给定视角v对应的视差损失函数可以被定义为：

其中v∈{l，r}，v^*表示v的相对视角(例如，如果v是左视角，则v^*是右视角；反之亦然)。表示使用视差图D_v，经由双线性插值来变形O_v*，即M^v表示与相应视角对应的掩蔽图，用于指示相应视角的源图像在相对视角中的遮蔽情况。在给定两个视角中的视差图D_v时，M^v可以通过执行前向一致性校验来获得。应当理解，对应左、右视角而言是对称的，并且取决于视差子网络计算的双向视差和掩蔽图。

在一些实现中，在计算损失函数时，还可以针对不同尺寸的视差图D_v和掩蔽图M_v(例如，源图像的原始尺寸的1/64……1/2)进行计算，使得在不同尺寸上损失函数都能实现收敛。当然，在训练之后的使用过程中，视差子网络220生成的视差图D_v和掩蔽图M^v为最大的尺寸(例如与源图像的原始尺寸或1/2尺寸)。在每个尺寸中，损失函数可以被确定为：

其中上标g表示真实数据，例如表示与视角v对应的真实掩蔽图。W_v表示像素级的平滑权值图，在W_v中与源图像在相对视角中被遮挡的部分对应的像素值可以是未被遮挡部分与遮挡部分的像素数目的比例(被表示为)，而与源图像在相对视角中未被遮挡的部分对应的像素值可以被设置为1。注意到，不同尺寸的D_v，M_v的真实数据(例如，和)也可以通过对原始尺寸的真实数据的双线性差值来确定。损失函数可以是每个尺寸上的损失函数的总和。

在一些实现中，在通过损失函数和更新子网络210和230并且通过损失函数更新子网络230之外(例如，更新若干次之外)，还可以再将这三个子网络进行联合更新，以使得这三个子网络可以更紧密工作。联合更新的收敛目标是使得总体损失函数接近目标值。

以上讨论了在训练如图3所示的学习网络200时损失函数的设计。对于图2所示的基于单向视差的学习网络200，也可以类似地通过损失函数来更新学习网络200的各个子网络，以确定子网络的参数集。

对立体视频的视觉风格变换

以上讨论了学习网络200应用于静态立体图像的视觉风格变换的实现。在一些实现中，对于立体视频，可以将相应时间的立体图像通过以上讨论的学习网络200来执行视觉风格变换。在另外一些实现中，由于立体视频包括在时间上相关的多个立体图像，在对当前的立体图像执行视觉风格变换时，还考虑立体图像在时间上的相关性。在一些实现中，这种时域相关性的考虑可以由特征提取子网络210来实现，以影响所提取的源图像的特征图。具体地，在提取当前时刻的源图像的特征图时，还基于前一时刻的源图像的特征图(或者经过学习网络200变形特征图和合并特征图)来执行提取。图4示出了这样的实现中的特征提取子网络210的结构。

在图4的示例中，特征提取子网络210用于对与给定视角v∈{l，r}相对应的源图像的特征提取。特征提取子网络210可以包括与左右视角分别对应的如图4所示的结构。此处假设当前时刻被输入到学习网络的与给定视角对应的源图像为与前一时刻的对应源图像为如图4所示，特征提取子网络210包括特征提取模块410，用于直接从当前源图像提取特征图。此处的特征图不考虑其他时刻的源图像，因此也可以被称为时间无关特征图(表示为)。特征提取子网络210还包括相关性提取模块420，用于基于相邻源图像和来确定从先前时刻t-1的源图像到当前时刻t的源图像的时间相关性。在一些实现中，相关性提取模块420可以确定时间流图(被表示为)用于指示这样的时间相关性。时间流图以像素级上指示先前时刻t-1的源图像的一个像素点与当前时刻t的源图像的相应像素点在前向时间上的相关性。

时间流图用于对源图像对应的特征图进行变形。特征图是在学习网络200中对源图像进行处理后，由合并模块250或350(取决于给定视角)输出的合并特征图。特征提取子网络210包括变形模块430用于执行这样的变形，以获得变形特征图时间无关特征图和变形特征图被馈送到差异确定模块440，用以确定这两个特征图之间的差异

该差异被提供给掩蔽图确定模块450，用于确定掩蔽图M。该掩蔽图M指示当前源图像在先前源图像中可见的部分或不可见的部分。在一些实现中，掩蔽图M的尺寸与源图像相同，并且与两个源图像和中均可见的部分对应的区域的像素值被设置为1，而其他区域被设置为0。这样的掩蔽图M可以指示立体视频中在时间上可追踪的点或区域。

特征提取子网络210还包括合并模块460，用于将时间无关特征图和从与先前源图像有关的特征图变形得到的特征图进行合并。这样的合并基于掩蔽图M。通过掩蔽图M，可以将特征图的第一部分特征图和特征图的第二部分特征图进行合并，以获得合并特征图第一部分特征图是特征图与源图像在时间上不可追踪的部分相对应的部分特征图，这指的是与源图像中新出现的图像内容对应的特征部分。第二部分特征图是特征图与源图像在时间上可追踪的部分相对应的部分特征图，这指的是与源图像在时间上保留的图像内容对应的特征部分。合并模块460中的合并可以被表示为

合并特征图和然后可以被认为是图2和图3的学习网络中的特征图212或214。应当理解，在初始时刻t＝1时，是特征提取模块410提取的时间无关特征图。根据本公开的实现，对于来自立体视频的立体图像，除了通过学习网络200的视差子网络220来维持不同视角的空间视差之外，还考虑了维持了时间上的相关性，这可以使得在学习网络200的合并模块250和350输出的特征图在时间上的相关性和空间视差都得以保持。

在图4的示例中，可以理解，特征提取子网络210中包括的特征提取模块410和相关性提取模块420需要通过训练过程来确定相应的参数，其他模块可以被配置为执行相应功能而无需训练参数。因此，特征提取模块410和相关性提取模块420也可以分别被称为特征提取子网络210的第一部分和第二部分。特征提取模块410仍然可以与特征变换子网络230一起联合训练。在一些实现中，可以单独地训练相关性提取模块420。相关性提取模块420可以通过如下的损失函数来更新和优化其中的参数：

示例过程

图5示出了根据本公开一些实现的用于立体图像的视觉风格变换的过程500的流程图。过程500可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的图像处理模块122处。在510，提取第一源图像的第一特征图和第二源图像的第二特征图。第一源图像和第二源图像分别对应于立体图像的第一视角和第二视角。在520，基于第一源图像和第二源图像确定从第一源图像到第二源图像的第一单向视差。在530，通过基于第一单向视差处理第一特征图和第二特征图，来生成具有指定视觉风格的第一目标图像和第二目标图像。

在一些实现中，生成第一目标图像和第二目标图像包括：基于第一单向视差，将第二特征图从第二视角变形到第一视角，以获得第一变形特征图；将第一特征图与第一变形特征图进行合并，以获得第一合并特征图；以及基于第一合并特征图和第二特征图来生成第一目标图像和第二目标图像。

在一些实现中，基于第一合并特征图和第二特征图来生成第一目标图像和第二目标图像包括：基于第一源图像和第二源图像确定从第二源图像到第一源图像的第二单向视差；基于第二单向视差，将第一特征图从第一视角变形到第二视角，以获得第二变形特征图；将第二特征图与第二变形特征图进行合并，以获得第二合并特征图；以及将第一合并特征图和第二合并特征图变换为第一目标图像和第二目标图像。

在一些实现中，变形第一特征图包括：以第一单向视差的预定量来变形第一特征图，以获得第一中间特征图；以第二单向视差的预定量来变形第二特征图，以获得第二中间特征图；将第一中间特征图和第二中间特征图进行合并，以获得中间合并特征图；基于第一单向视差和第二单向视差来确定第一源图像与第二源图像之间的双向视差；以及基于双向视差来将中间合并特征图变形到第一视角，以获得第一变形特征图。

在一些实现中，变形第二特征图包括：基于双向视差来将中间合并特征图变形到第二视角，以获得第二变形特征图。

在一些实现中，第一单向视差和第二单向视差分别由第一视差图和第二视差图表示，并且确定双向视差包括：以第一单向视差的预定量来变形第一视差图，以获得第一部分视差图；以第二单向视差的预定量来变形第二视差图，以获得第二部分视差图；以及通过将第一部分视差图和第二部分视差图进行合并来确定双向视差。

在一些实现中，第一源图像和第二源图像被包括立体视频中，立体视频还包括在第一源图像之前与第一视角对应的第三源图像和在第二源图像之前与第二视角对应的第四源图像。提取第一特征图和第二特征图包括：基于第三源图像和与第三源图像的第三特征图对应的第三合并特征图来提取第一特征图；以及基于第四源图像和与第四源图像的第四特征图对应的第四合并特征图来提取第二特征图。

在一些实现中，基于第三源图像和第三合并特征图来提取第一特征图包括：从第一源图像提取时间无关特征图；基于第一源图像和第三源图像确定从第三源图像到第一源图像的时间相关性；基于时间相关性来变形第三合并特征图，以获得第三变形特征图；以及将时间无关特征图和第三变形特征图进行合并，以获得第一特征图。

在一些实现中，将第一特征图与第一变形特征图进行合并包括：确定第一特征图中的第一部分特征图和第一变形特征图中的第二部分特征图，第一部分特征图与第一源图像在第二源图像中被遮挡的部分相对应，第二部分特征图与第一源图像在第二源图像中未被遮挡的部分相对应；以及将第一部分特征图和第二部分特征图进行合并。

在一些实现中，确定第一部分特征图包括：基于第一源图像和第二源图像来生成掩蔽图，掩蔽图指示第一源图像在第二源图像中被遮挡的部分；以及基于掩蔽图来确定第一部分特征图和第二部分特征图。

图6示出了根据本公开一些实现的训练用于立体图像的视觉风格变换的学习网络的过程600的流程图。过程600可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的图像处理模块122处。在610，基于立体图像和参考立体图像来更新学习网络的第一子网络，每个立体图像包括对应于第一视角的第一源图像和对应于第二视角的第二源图像，并且参考立体图像具有预定视觉风格，以使得利用第一子网络来提取第一源图像的第一特征图和第二源图像的第二特征图。在620，基于立体图像和从第一源图像到第二源图像的第一单向视差来更新学习网络的第二子网络，以使得利用第二子网络、基于第一源图像和第二源图像来生成相应的第一单向视差。在630，基于立体图像和参考立体图像来更新学习网络的第三子网络，以使得利用第三子网络通过基于第一单向视差处理第一特征图和第二特征图来生成参考立体图像。

在一些实现中，更新第三子网络包括：基于第一单向视差，将第二特征图从第二视角变形到第一视角，以获得第一变形特征图；第一变形特征图与第一特征图进行合并，以获得第一合并特征图；以及更新学习网络的第三子网络，以使得利用第三子网络、基于第一合并特征图和第二特征图来生成参考立体图像

在一些实现中，更新第二子网络还包括：还基于从第二源图像到第一源图像的第二单向视差来更新第二子网络，以使得利用第二子网络、基于第一源图像和第二源图像来生成相应的第二单向视差。在一些实现中，更新第三子网络还包括：基于第二单向视差，将第一特征图从第一视角变形到第二视角，以获得第二变形特征图；将第二特征图与第二变形特征图进行合并，以获得第二合并特征图；以及更新第三子网络，以使得利用第三子网络将第一合并特征图和第二合并特征图变换为参考立体图像。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实现的方法。该方法包括提取第一源图像的第一特征图和第二源图像的第二特征图，第一源图像和第二源图像分别对应于立体图像的第一视角和第二视角；基于第一源图像和第二源图像确定从第一源图像到第二源图像的第一单向视差；以及通过基于第一单向视差处理第一特征图和第二特征图，来生成具有指定视觉风格的第一目标图像和第二目标图像。

在另一方面，本公开提供了一种设备。该设备包括处理单元；存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：提取第一源图像的第一特征图和第二源图像的第二特征图，第一源图像和第二源图像分别对应于立体图像的第一视角和第二视角；基于第一源图像和第二源图像确定从第一源图像到第二源图像的第一单向视差；以及通过基于第一单向视差处理第一特征图和第二特征图，来生成具有指定视觉风格的第一目标图像和第二目标图像。

在又一方面，本公开提供了一种计算机实现的方法。该方法包括基于立体图像和参考立体图像来更新学习网络的第一子网络，每个立体图像包括对应于第一视角的第一源图像和对应于第二视角的第二源图像，并且参考立体图像具有预定视觉风格，以使得利用第一子网络来提取第一源图像的第一特征图和第二源图像的第二特征图；基于立体图像和从第一源图像到第二源图像的第一单向视差来更新学习网络的第二子网络，以使得利用第二子网络、基于第一源图像和第二源图像来生成相应的第一单向视差；以及基于立体图像和参考立体图像来更新学习网络的第三子网络，以使得利用第三子网络通过基于第一单向视差处理第一特征图和第二特征图来生成参考立体图像。

在另一方面，本公开提供了一种设备。该设备包括处理单元；存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：基于立体图像和参考立体图像来更新学习网络的第一子网络，每个立体图像包括对应于第一视角的第一源图像和对应于第二视角的第二源图像，并且参考立体图像具有预定视觉风格，以使得利用第一子网络来提取第一源图像的第一特征图和第二源图像的第二特征图；基于立体图像和从第一源图像到第二源图像的第一单向视差来更新学习网络的第二子网络，以使得利用第二子网络、基于第一源图像和第二源图像来生成相应的第一单向视差；以及基于立体图像和参考立体图像来更新学习网络的第三子网络，以使得利用第三子网络通过基于第一单向视差处理第一特征图和第二特征图来生成参考立体图像。

在一些实现中，更新第三子网络包括：基于第一单向视差，将第二特征图从第二视角变形到第一视角，以获得第一变形特征图；第一变形特征图与第一特征图进行合并，以获得第一合并特征图；以及更新学习网络的第三子网络，以使得利用第三子网络、基于第一合并特征图和第二特征图来生成参考立体图像。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备执行上述任一方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实现的方法，包括：

提取第一源图像的第一特征图和第二源图像的第二特征图，所述第一源图像和所述第二源图像分别对应于立体图像的第一视角和第二视角；

基于所述第一源图像和所述第二源图像，确定从所述第一源图像到所述第二源图像的第一单向视差；以及

通过基于所述第一单向视差处理所述第一特征图和所述第二特征图，来生成具有指定视觉风格的第一目标图像和第二目标图像。

2.根据权利要求1所述的方法，其中生成所述第一目标图像和所述第二目标图像包括：

基于所述第一单向视差，将所述第二特征图从所述第二视角变形到所述第一视角，以获得第一变形特征图；

将所述第一特征图与所述第一变形特征图进行合并，以获得第一合并特征图；以及

基于所述第一合并特征图和所述第二特征图来生成所述第一目标图像和所述第二目标图像。

3.根据权利要求2所述的方法，其中基于所述第一合并特征图和所述第二特征图来生成所述第一目标图像和所述第二目标图像包括：

基于所述第一源图像和所述第二源图像，确定从所述第二源图像到所述第一源图像的第二单向视差；

基于所述第二单向视差，将所述第一特征图从所述第一视角变形到所述第二视角，以获得第二变形特征图；

将所述第二特征图与所述第二变形特征图进行合并，以获得第二合并特征图；以及

将所述第一合并特征图和所述第二合并特征图变换为所述第一目标图像和所述第二目标图像。

4.根据权利要求3所述的方法，其中变形所述第一特征图包括：

以所述第一单向视差的预定量来变形所述第一特征图，以获得第一中间特征图；

以所述第二单向视差的所述预定量来变形所述第二特征图，以获得第二中间特征图；

将所述第一中间特征图和所述第二中间特征图进行合并，以获得中间合并特征图；

基于所述第一单向视差和所述第二单向视差来确定所述第一源图像与所述第二源图像之间的双向视差；以及

基于所述双向视差来将所述中间合并特征图变形到所述第一视角，以获得所述第一变形特征图。

5.根据权利要求4所述的方法，其中变形所述第二特征图包括：

基于所述双向视差来将所述中间合并特征图变形到所述第二视角，以获得所述第二变形特征图。

6.根据权利要求4所述的方法，其中所述第一单向视差和所述第二单向视差分别由第一视差图和第二视差图表示，并且其中确定所述双向视差包括：

以所述第一单向视差的所述预定量来变形所述第一视差图，以获得所述第一部分视差图；

以所述第二单向视差的所述预定量来变形所述第二视差图，以获得所述第二部分视差图；以及

通过将所述第一部分视差图和所述第二部分视差图进行合并来确定所述双向视差。

7.根据权利要求1所述的方法，其中所述第一源图像和所述第二源图像被包括立体视频中，所述立体视频还包括在所述第一源图像之前与所述第一视角对应的第三源图像和在所述第二源图像之前与所述第二视角对应的第四源图像，并且其中提取所述第一特征图和所述第二特征图包括：

基于所述第三源图像和与所述第三源图像的第三特征图对应的第三合并特征图来提取所述第一特征图；以及

基于所述第四源图像和与所述第四源图像的第四特征图对应的第四合并特征图来提取所述第二特征图。

8.根据权利要求7所述的方法，其中基于所述第三源图像和所述第三合并特征图来提取所述第一特征图包括：

从所述第一源图像提取时间无关特征图；

基于所述第一源图像和所述第三源图像，确定从所述第三源图像到所述第一源图像的时间相关性；

基于所述时间相关性来变形所述第三合并特征图，以获得第三变形特征图；以及

将所述时间无关特征图和所述第三变形特征图进行合并，以获得所述第一特征图。

9.根据权利要求2所述的方法，其中将所述第一特征图与所述第一变形特征图进行合并包括：

确定所述第一特征图中的第一部分特征图和所述第一变形特征图中的第二部分特征图，所述第一部分特征图与所述第一源图像在所述第二源图像中被遮挡的部分相对应，所述第二部分特征图与所述第一源图像在所述第二源图像中未被遮挡的部分相对应；以及

将所述第一部分特征图和所述第二部分特征图进行合并。

10.根据权利要求9所述的方法，其中确定所述第一部分特征图包括：

基于所述第一源图像和所述第二源图像来生成掩蔽图，所述掩蔽图指示所述第一源图像在所述第二源图像中被遮挡的部分；以及

基于所述掩蔽图来确定所述第一部分特征图和所述第二部分特征图。

11.一种设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

12.根据权利要求11所述的设备，其中生成所述第一目标图像和所述第二目标图像包括：

13.根据权利要求12所述的设备，其中基于所述第一合并特征图和所述第二特征图来生成所述第一目标图像和所述第二目标图像包括：

14.根据权利要求13所述的设备，其中变形所述第一特征图包括：

15.根据权利要求14所述的设备，其中变形所述第二特征图包括：

16.根据权利要求14所述的设备，其中所述第一单向视差和所述第二单向视差分别由第一视差图和第二视差图表示，并且其中确定所述双向视差包括：

17.根据权利要求11所述的设备，其中所述第一源图像和所述第二源图像被包括立体视频中，所述立体视频还包括在所述第一源图像之前与所述第一视角对应的第三源图像和在所述第二源图像之前与所述第二视角对应的第四源图像，并且其中提取所述第一特征图和所述第二特征图包括：

18.根据权利要求17所述的设备，其中基于所述第三源图像和与所述第三源图像的第三特征图对应的第三合并特征图来提取所述第一特征图包括：

从所述第一源图像提取时间无关特征图；

19.一种计算机实现的方法，包括：

基于立体图像和参考立体图像来更新学习网络的第一子网络，每个立体图像包括对应于第一视角的第一源图像和对应于第二视角的第二源图像，并且所述参考立体图像具有预定视觉风格，以使得利用所述第一子网络来提取所述第一源图像的第一特征图和所述第二源图像的第二特征图；

基于所述立体图像和从所述第一源图像到所述第二源图像的第一单向视差来更新所述学习网络的第二子网络，以使得利用所述第二子网络、基于所述第一源图像和所述第二源图像来生成相应的所述第一单向视差；以及

基于所述立体图像和所述参考立体图像来更新所述学习网络的第三子网络，以使得利用所述第三子网络通过基于所述第一单向视差处理所述第一特征图和所述第二特征图来生成所述参考立体图像。

20.根据权利要求19所述的方法，其中更新所述第三子网络包括：

将所述第一变形特征图与所述第一特征图进行合并，以获得第一合并特征图；以及

更新所述学习网络的第三子网络，以使得利用所述第三子网络、基于所述第一合并特征图和所述第二特征图来生成所述第一目标图像和所述第二目标图像。