CN117956130A

CN117956130A - 视频处理方法、装置、设备、系统及可读取存储介质

Info

Publication number: CN117956130A
Application number: CN202211336886.8A
Authority: CN
Inventors: 刘鹏鹏; 李林格
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2024-04-30

Abstract

本申请提供一种视频处理方法、装置、设备、系统及可读取存储介质，涉及图像处理领域。该方法包括：视频处理设备确定整段二维视频中不同场景对应的二维视频片段，利用三维转换模型分别对不同二维视频片段中每帧图像进行视差范围预测，再基于不同二维视频片段的视差范围对二维视频片段进行三维转换得到三维图像，最后将多个二维视频片段的三维图像整合成二维视频对应的三维视频。从而在二维视频转换为三维视频的过程中针对不同场景分别进行二维视频片段的视差范围预测，从而适用于不同场景自身的视差范围，从而使不同场景对应的二维视频片段在三维转换时具有适用于本场景的景深，即提高了3D效果的强弱的合理性。

Description

视频处理方法、装置、设备、系统及可读取存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种视频处理方法、装置、设备、系统及可读取存储介质。

背景技术

三维(3-dimension，3D)视频的原理是将具有水平视差的两个画面通过3D眼镜等设备分别输送到左眼和右眼，从而使人的双眼基于视差形成立体影像。

目前，将二维(2-dimension，2D)视频转换为3D视频是增加3D视频片源的常用手段，在将2D视频转换为3D视频的过程中需要对图像的视差或深度进行估计，利用图像的视差或深度确定转换后的3D视频中图像的3D效果的强弱，即人眼感知图像凸出屏幕或陷入屏幕的程度。

但现有的2D视频转换为3D视频的技术，因为没有办法解决视差或深度的尺度问题，一般会对整个视频设置同一个视差或深度范围，使整个3D视频的3D效果相同，导致部分3D视频的3D效果的强弱与人眼感知习惯不匹配，存在3D视频的3D效果的强弱不合理的问题。

发明内容

本申请实施例提供一种视频处理方法、装置、设备、系统及可读取存储介质，能够解决现有的2D视频转换为3D视频的技术中3D视频的3D效果的强弱不合理的问题。

第一方面，提供一种视频处理方法。该视频处理方法包括：视频处理设备首先对需要进行2D至3D转换的二维视频进行场景分割，得到多个二维视频片段，然后将每个二维视频片段分别输入三维转换模型，获得三维转换模型输出的每个二维视频片段的视差范围，即每个二维视频片段中每帧图像的最小视差值和最大视差值，再将每个二维视频片段的图像基于自身的视差范围转换为三维图像，最后将多个二维视频片段的三维图像整合成二维视频对应的三维视频。

基于该视频处理方法，由于视频中不同场景的景物之间通常具有不同的视差范围，采用三维转换模型对二维视频中不同场景的视频片段的视差范围进行预测，再根据每个二维视频片段对应的视差范围分别对多个二维视频片段进行三维图像的转换，使不同场景对应的三维图像部分的3D效果的强弱适应于自身场景，在三维图像中感知到的3D效果的强弱符合该类型场景下的人眼深度感知的习惯，从而提高了3D视频的3D效果的强弱的合理性。

其中，场景分割是指将视频分割为具有不同视差范围的多个二维视频片段，例如，镜头从正面拍摄物体A和物体B的远景和镜头从正面拍摄物体A和物体B的近景是具有不同视差范围的两个场景，镜头从正面拍摄物体A和物体B的远景和镜头从侧面拍摄物体A和物体B的远景也是具有不同视差范围的两个场景。视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异，视差范围是指一帧图像包含的最小视差值和最大视差值。

作为一种可能的实现方式，视频处理设备利用三维转换模型对多个二维视频片段的视差范围分别进行预测。该三维转换模型是利用已标注视差范围的视频片段对预训练模型进行训练得到的，训练获得的三维转换模型具有预测视频片段中每帧图像的视差范围的功能，下面对三维转换模型的训练过程进行说明。

首先，视频处理设备获取三维视频。可选地，视频处理设备获取的三维视频可以是从视频流数据库下载的，或采用视频拍摄设备采集的三维视频。并且，为了视频处理设备能够在同一尺度上进行后续图像处理步骤，保证视差范围的预测准确性，视频处理设备获取的三维视频具有相同的分辨率。

其次，视频处理设备对三维视频进行场景分割，得到多个三维视频片段。可选地，视频处理设备可以基于操作人员的先验知识对二维视频中不同场景的标注对二维视频进行场景分割，也可以利用神经网络模型对二维视频进行场景分割。其中，神经网络模型是以已标注场景的视频片段对图像识别模型进行训练得到的，训练获得的神经网络模型具有基于场景将视频划分为多个二维视频片段的功能。

然后，视频处理设备采用光流模型确定每个三维视频片段的左右视频画面的视差范围。其中，光流(Optical Flow)是物体在三维空间中的运动在二维像平面上的投影，反映了物体在极小时间内对应的图像像素的运动方向和速度，光流模型具有计算两幅图像之间的光流的功能。视差范围是指光流模型输出的左右视频画面在水平方向的光流，左右视频画面是指以左右格式存储的三维视频中同一帧画面包含的左右两幅并排的画面。

最后，视频处理设备对每个三维视频片段中每帧图像的视差范围进行标注，获得已标注视差范围的三维视频片段，将已标注视差范围的三维视频片段作为三维转换模型的训练集。视频处理设备将训练集输入对Transformer预训练模型进行模型训练，得到三维转换模型。

可选地，视频处理设备在进行视差范围标注之前，还可以基于左右一致性校验对光流模型输出的每帧图像的视差范围进行置信度过滤，来过滤掉估计不准确的视差范围，从而提高训练集的数据准确性，以提高基于训练集进行训练获得的三维转换模型的精度。

可选地，视频处理设备在进行视差范围标注之前，还可以分别对每个三维视频片段进行时序平滑处理，以得到鲁棒性更好的视差范围。

基于上述三维转换模型的训练方式，视频处理设备基于包含不同场景的三维视频片段及视差范围的标注对Transformer预训练模型进行训练，得到三维转换模型，使三维转换模型能够针对不同场景的视频片段输出与场景适应的视差范围，提高了视差范围的准确度。同时，采用Transformer预训练模型进行模型训练，保证了模型收敛速度和收敛效果。

作为一种可能的实现方式，数据处理设备在利用三维转换模型得到每个二维视频片段的视差范围后，对所述每个二维视频片段内的每帧图像的视差范围进行时序平滑处理，再基于每个二维视频片段平滑后的视差范围将每个二维视频片段的图像转换为三维图像，以保证二维视频片段转换后的三维视频片段在时序上的稳定性。

可选地，数据处理设备可以采用基于深度图的图像绘制(Depth-Image-BasedRendering，DIBR)算法进行三维图像转换。例如，数据处理设备基于每个二维视频片段的平滑后视差范围，利用DIBR算法生成新视角图像，然后利用图像修复对DIBR产生的空洞进行填补，得到最终的三维图像。

作为一种可能的实现方式，数据处理设备将每个二维视频片段对应的三维图像按照时序进行整合，得到二维视频转换后的三维视频。

第二方面，提供一种视频处理装置，所述装置包括用于执行第一方面或第一方面任一种可能实现方式中的视频处理方法的各个模块。

需要说明的是，第二方面所述的视频处理装置可以是终端设备或网络设备，也可以是可设置于终端设备或网络设备中的芯片(系统)或其他部件或组件，还可以是包含终端设备或网络设备的装置，本申请对此不做限定。

第三方面，提供了一种视频处理设备，包括存储器和处理器，所述存储器用于存储一组计算机指令，当所述处理器执行所述一组计算机指令时，用于执行第一方面中任一种可能设计中的视频处理方法的操作步骤。

第四方面，提供了一种视频处理系统，包括训练设备和执行设备，所述训练设备用于执行第一方面中进行模型训练得到三维转换模型的操作步骤，并将所述三维转换模型部署至所述执行设备，所述执行设备用于执行第一方面中利用三维转换模型将二维视频转换为三维视频的操作步骤。

此外，第二方面所述的视频处理装置的技术效果、第三方面所述的视频处理设备的技术效果以及第四方面所述的视频处理系统的技术效果，可以参考第一方面所述的视频处理方法的技术效果，此处不再赘述。

第五方面，提供一种计算机可读存储介质，包括：计算机软件指令；当计算机软件指令在数据处理系统中运行时，使得计算设备执行如第一方面中任意一种可能的实现方式中所述方法的操作步骤。

第六方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算设备执行如第一方面中任意一种可能的实现方式中所述方法的操作步骤。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1为本申请提供的一种神经网络的结构示意图；

图2为本申请提供的一种Transformer模型的结构示意图；

图3为本申请提供的一种视差与人眼感知深度的关系示意图；

图4为本申请提供的一种视频处理系统的架构示意图；

图5为本申请提供的一种视频处理方法的流程示意图；

图6为本申请提供的一种三维转换模型的训练步骤的流程示意图；

图7为本申请提供的一种Transformer预训练模型的结构示意图；

图8为本申请提供的一种新视角图像渲染步骤的流程示意图；

图9为本申请提供的一种视频处理装置的结构示意图；

图10为本申请提供的一种视频处理设备的结构示意图。

具体实施方式

为了便于理解，下面先对本申请实施例涉及的相关术语进行介绍。

(1)神经网络

神经网络可以是由神经元组成的，神经元可以是指以x_s和截距1为输入的运算单元。该运算单元的输出满足如下公式：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经元的偏置。f为神经元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经元联结在一起形成的网络，即一个神经元的输出可以是另一个神经元的输入。每个神经元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经元组成的区域。权重表征不同神经元之间连接的强度。权重决定着输入对输出的影响力。权重近于0意味着改变输入不改变输出。负权重意味着增加输入降低输出。

如图1所示，为本申请实施例提供的一种神经网络的结构示意图。神经网络100包括N个处理层，N为大于或等于3的整数。神经网络100的第一层为输入层110，负责接收输入信号，神经网络100的最后一层为输出层130，负责输出神经网络的处理结果。除去第一层和最后一层的其他层为中间层140，这些中间层140共同组成隐藏层120，隐藏层120中的每一层中间层140既可以接收输入信号，也可以输出信号。隐藏层120负责输入信号的处理过程。每一层代表了信号处理的一个逻辑级别，通过多个层，数据信号可经过多级逻辑的处理。

在一些可行的实施例中该神经网络的输入信号可以是视频信号、语音信号、文本信号、图像信号或温度信号等各种形式的信号。语音信号可以是麦克风(声音传感器)录制的人说话、唱歌的人声音频信号等各类传感器信号。该神经网络的输入信号还包括其他各种计算机可处理的工程信号，在此不再一一列举。若利用神经网络对图像信号进行深度学习，可以提高神经网络处理图像的质量。

(2)Transformer模型

Transformer模型是一种包括注意力机制(attention)和全连接层(fully-connected layer)的序列模型。注意力机制能够有效探访并储存序列中位于不同位置的信息。而且，注意力机制与全连接层的结合，在保证了信息提取质量的同时，规避了相对复杂的循环层或卷积层结构，有效降低了计算复杂度并提高了可平行化计算(parallelization)的能力。

如图2所示，Transformer模型200通常包括多层编码器(encoder)210、多层解码器(decoder)220和线性层230。其中，编码器210包括多头自注意力层(multihead self-attention layer)211和多层全连接层(fully-connected layer)212。多头自注意力层利用三种矩阵间的计算对输入编码器210的数据进行计算。三种矩阵包括查询矩阵Q(query)、键矩阵K(key)和值矩阵V(value)。多头自注意力层在编码序列(如：源序列和目标序列)中当前位置的单词时，参考当前位置的单词与序列中其他位置的单词间的多种相互依赖关系。多头自注意力的输出结果满足如下公式(2)。

Multihead(Q,K,V)＝Concatenate(head₁,…,head_h)W^O (2)

其中，Multihea()是计算多头自注意力的函数名称。Concatenate()是用于连接操作的函数名称，用于将head_1至head_h计算得到的向量拼接起来。W^O是权重矩阵，用于调整输出向量的维度。Attention()是计算每个头(head)里的自注意力函数名称。Head_i表示head_1至head_h中任意一个。softmax()是一种激活函数。d_k＝键矩阵列维度。

全连接层通过线性转换(linear transformation)和激活函数(activationfunction)的方式进一步将数据映射到隐层特征空间(hidden space)。激活函数满足公式(3)。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (3)

其中，FFN表示全连接层的计算函数。x是输入向量，W₁和W₂都是权重矩阵，b₁和b₂称为偏置(bias)向量，用于对整个向量进行缩放操作。

可选的，第一多头自注意力层211和第一全连接层212在输出前均采用了残差连接(residual connection)和层标准化(layer normalization)来稳定深层网络的训练过程。

解码器220包括第二多头自注意力层221、第三多头自注意力层222和第二全连接层223。其中，第三多头自注意力层222与第一全连接层212连接。

线性层230用于利用集束搜索，依据解码器220从多个视差值中选取最小视差值和最大视差值。

在此结构上，transformer模型还利用位置编码(positional encoding)提取隐含信息。

(3)基于深度图的图像绘制(Depth-Image-Based Rendering，DIBR)

在图像处理过程中，通常会采用DIBR算法来合成立体影像。DIBR算法是一种虚拟视角映射技术，DIBR技术的核心是虚拟映射算法，其原理是把彩色参考图像中的像素点位置经过与深度信息的结合重新排列到虚拟视角中的对应位置处。在深度图中是用灰度值的大小来表征图像中的对象距离相机位置的远近，在深度图中的对象像素点的取值范围设定为0-255，距离相机越近的点设定深度值越大，无限远处假设值为0。而参考影像是一幅二维彩色图像，如果把参考图像平面定义为直角坐标系里的x轴与y轴构成的平面，那么，该二维彩色图像就构成了该平面。而深度图则代表了z轴，进而由x轴、y轴和z轴可以构建出一个三维立体模型，进而向人们进行展示最终的效果图。

(4)光流

光流(optical flow)是指时变图像中模式运动速度。因为当物体在运动时，它在图像上对应点的亮度模式也在运动。这种图像亮度模式的表观运动(apparent motion)就是光流。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。由光流的定义可以引申出光流场，它是指图像中所有像素点构成的一种二维瞬时速度场，其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影。所以光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息。

(5)视差

如图3所示，3D视频中两个画面(人眼感知的深度画面与屏幕)之间的视差跟人眼的深度感知相关，假定人两眼直接距离为B，人眼到屏幕的距离为Z_c，视差为d，则视差d与人眼感知的深度Z直接的关系可以表述为当d>0时，人眼感知的深度在人眼和屏幕之间，即出屏效果；当d＝0时，人眼感知的深度在屏幕上，等同于平时所看的2D视频；当d<0时，人眼感知的深度在屏幕外侧，即入屏效果；特别的，当d＝-B时，人眼感知的深度在无穷远。

现有技术在利用DIBR算法将2D视频转换为3D视频时，需要对2D视频的图像进行视差或深度的估计，估计视差或深度的常用方式包括根据运动、物体边缘、阴影等提取深度线索来计算视差或深度，但这些方法通常只针对特定场景有效，且泛化能力弱。在引入深度学习技术后，采用深度学习算法通过利用大量数据学习图像与视差图或深度图的对应关系，取得了不错的视差或深度的估计效果。但是，单目的视差或深度估计无法解决尺度问题，即估计出的视差或深度只能反映物体之间的相对前后关系，将视差或深度乘以一个系数α后仍是成立的。因此，在DIBR过程之前，都需要人工设置视差范围或深度范围将估计出的视差或深度图放缩和平移到指定范围内。而在3D视频中，3D效果通常需要随着不同场景的变换而改变，需要设置合理的视差范围以达到较好的3D效果。例如，特写镜头的场景需要较强的3D效果，即视差范围较大，远景镜头的场景需要较弱的3D效果，即视差范围较小，才能使观众获得物体前后顺序合理的3D视频观看体验。若3D视频被设置统一的视差范围，在很多场景下会使3D效果不合理，例如某个深度范围比较小的物体如果设置的视差范围过大，会导致人眼感知到的物体深度范围过大。因此，现有的2D视频转3D视频技术由于统一设置相同的视差范围，存在3D视频的3D效果的强弱不合理的问题。

本申请提供了一种视频处理方法，尤其是一种根据不同场景的视频片段的视差范围分别将二维视频包含的多个二维视频片段转换为三维视频的视频处理方法，即视频处理设备首先对待转换的二维视频进行场景分割，得到多个二维视频片段，然后将多个二维视频片段分别输入三维转换模型，获得三维转换模型输出的各个视频片段的视差范围，再根据每个二维视频片段的视差范围分别将每个二维视频片段的图像转换为三维图像，最后将多个二维视频片段的三维图像整合为三维图像。由此，视频处理设备分别对不同场景的视频片段进行视差范围预测，基于每个二维视频片段的视差范围分别对每个二维视频片段进行三维转换，使不同场景基于视差范围转换的三维图像的3D效果的强弱适应于自身场景，在三维图像中感知到的3D效果的强弱符合该类型场景下的人眼深度感知的习惯，从而提高了3D视频的3D效果的强弱的合理性。

下面将结合附图对本申请实施例的实施方式进行详细描述。

图4为本申请实施例提供的一种视频处理系统的架构示意图。如图4所示，视频处理系统400包括执行设备410、训练设备420、数据库430、终端设备440、数据存储系统450和数据采集设备460。

执行设备410可以是终端，如手机终端、平板电脑、笔记本电脑、虚拟现实(virtualreality，VR)设备、增强现实(augmented reality，AR)设备、混合现实(Mixed Reality，MR)设备、扩展现实(Extended Reality，ER)设备、摄像头或车载终端等，还可以是边缘设备(例如，携带具有处理能力芯片的盒子)等。

训练设备420可以是终端，还可以是其他支持整型计算的计算设备，如服务器或者云端设备等。

作为一种可能的实施例，执行设备410和训练设备420是部署在不同物理设备(如：服务器或集群中的服务器)上的不同处理器。例如，执行设备410可以是图形处理单元(graphic processing unit，GPU)、中央处理器(central processing unit，CPU)、其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。训练设备420可以是图形处理器(graphics processing unit，GPU)、神经网络处理器(neural networkprocessing unit，NPU)、微处理器、特定应用集成电路(application-specificintegrated circuit，ASIC)、或一个或多个用于控制本申请方案程序执行的集成电路。

在另一可能的实施例中，执行设备410和训练设备420部署在同一物理设备，或执行设备410和训练设备420为同一物理设备。

数据采集设备460用于采集训练数据，并将训练数据存入数据库430，数据采集设备460与执行设备410、训练设备420可以是相同或不同的设备。训练数据包括图像、语音和文字等中至少一种形式的数据。例如，数据采集设备460采集的训练数据可以是以最小视差值和最大视差值为标注的三维视频。

训练设备420用于利用训练数据对神经网络进行训练，直到神经网络中的损失函数收敛，且损失函数值小于特定阈值则神经网络训练完成，从而使得神经网络达到一定精度。或者，数据库430中所有的训练数据被用于训练，则神经网络训练完成，使训练完成的神经网络具有视差范围预测、二维图像至三维图像转换、图像识别、图像分类或语音识别等目标功能。进而，训练设备420将训练完成的神经网络401即三维转换模型配置到执行设备410。可选地，神经网络401是Transformer预训练模型。执行设备410用于根据训练完成的神经网络401实现视差范围预测的功能。例如，执行设备410根据训练完成的神经网络401预测出每个二维视频片段的视差范围后，对每个二维视频片段的视差范围进行时序平滑处理，得到平滑后视差范围，将平滑后视差范围作为后续DIBR算法处理的输入参数。

此外，执行设备410还用于对待转换为三维视频的二维视频进行场景分割得到多个二维视频片段，根据神经网络401输出的视差范围，将每个二维视频片段的图像转换为三维图像。例如，执行设备410根据每个二维视频片段的视差范围，利用DIBR算法生成新视角图像，以得到三维图像。

在一些实施例中，执行设备410和训练设备420为同一计算设备，计算设备可以将训练完成的神经网络401配置到自身，利用训练完成的神经网络401实现图像识别、语音识别等目标功能。

在另一些实施例中，训练设备420可以将训练完成的神经网络401配置到多个执行设备410。每个执行设备410利用训练完成的神经网络401实现神经网络模型的目标功能。

需要说明的是，在实际的应用中，数据库430中维护的训练数据不一定都来自于数据采集设备460，也有可能是从其他设备接收得到的。另外，训练设备420也不一定完全基于数据库430维护的训练数据训练神经网络，也有可能从云端或其他地方获取训练数据训练神经网络。上述描述不应该作为对本申请实施例的限定。

进一步地，根据执行设备410所执行的功能，还可以进一步将执行设备410细分为如图4所示的架构，如图所示，执行设备410配置有计算模块411、I/O接口412和预处理模块413。

I/O接口412用于与外部设备进行数据交互。用户可以通过终端设备440向I/O接口412输入数据。另外，输入数据也可以来自数据库430。

预处理模块413用于根据I/O接口412接收到的输入数据进行预处理。在本申请实施例中，预处理模块413可以用于根据从I/O接口412接收到的输入数据生成训练数据。例如，预处理模块413从I/O接口412接收三维视频，将三维视频进行场景分割来获得多个三维视频片段，然后采用光流模型确定每个三维视频片段的左右视频画面的视差范围，再对每个三维视频片段标注视差范围，得到训练集。

可选地，预处理模块413对三维视频的预处理还包括置信度过滤和时序平滑处理，即处理模块413对每个三维视频片段的左右视频画面的视差范围进行置信度过滤，得到过滤后视差范围，对每个三维视频片段的过滤后视差范围进行时序平滑处理，得到训练集。

在执行设备410对输入数据进行预处理，或者在执行设备410的计算模块411执行计算等相关的处理过程中，执行设备410可以调用数据存储系统450中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据和指令等存入数据存储系统450中。

最后，I/O接口412将处理结果返回给终端设备440，从而提供给用户，以便用户查看处理结果。

终端设备440也可以作为数据采集端，采集如图所示输入I/O接口412的输入数据及输出I/O接口412的处理结果作为新的样本数据，并存入数据库430。当然，也可以不经过终端设备440进行采集，而是由I/O接口412将如图所示输入I/O接口412的输入数据及输出I/O接口412的处理结果，作为新的样本数据存入数据库430。

图4仅是本申请实施例提供的一种系统架构的示意图，图4中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图4中，数据存储系统450相对执行设备410是外部存储器，在其它情况下，也可以将数据存储系统450置于执行设备410中。

接下来请参考图5，对视频处理方法进行详细阐述。在这里以图4中的执行设备410为例进行说明。

步骤510、执行设备410对二维视频进行场景分割，得到多个二维视频片段。

执行设备410基于不同视差范围的场景划分对二维视频进行场景分割，得到多个二维视频片段，多个二维视频片段包含的场景的视差范围不同。二维视频是执行设备410从数据库下载或利用拍摄设备拍摄获得的。

例如，多个与镜头距离相近的人物的场景相对于距离镜头较近的人物站在距离镜头较远的山体的场景，前者的视差范围小于后者，执行设备410会将两者划分为具有不同视差范围的场景，从而将包含前者场景的二维视频片段和包含后者场景的二维视频片段进行分割。

作为一种可能的实现方式，执行设备410可以根据操作人员的先验知识对二维视频中不同场景的标注对二维视频进行场景分割。

作为另一种可能的实现方式，执行设备410可以利用神经网络模型对二维视频进行场景分割。其中，神经网络模型是以已标注场景的视频片段对基于卷积神经网络(Convolutional Neural Networks，CNN)、Transformer模型的图像识别模型进行训练得到的，训练获得的神经网络模型具有识别二维视频片段中的场景的功能，来将视频划分为多个二维视频片段。

基于步骤510对二维视频进行场景分割，在后续视差范围预测和三维转换等步骤中分别对不同场景的二维视频片段进行处理，能够避免在三维视频的场景快速切换时连续的两个场景之间出现景深渐变的情况。

步骤520、执行设备410将每个二维视频片段分别输入三维转换模型，获得三维转换模型输出的每个二维视频片段的视差范围。

执行设备410将每个二维视频片段包含的每帧图像分别输入三维转换模型，获得三维转换模型输出的每帧图像的视差范围。其中，同一个二维视频片段包含的每帧图像的视差范围的集合称为二维视频片段的视差范围，即二维视频片段的视差范围包含二维视频片段包含的每帧图像的最小视差值和最大视差值。

其中，三维转换模型是利用已标注视差范围的视频片段对预训练模型进行训练得到的，训练获得的三维转换模型具有预测二维视频片段中每帧图像的视差范围的功能。三维转换模型的训练步骤和具体结构请本分别参考图6中的步骤610-步骤620以及图7，在此不再赘述。

步骤530、执行设备410基于每个二维视频片段的视差范围将每个二维视频片段的图像转换为三维图像。

执行设备410基于每个二维视频片段包含的每帧图像的视差范围将每帧图像转换为三维图像。

以视差范围的表现形式为视差图为例，执行设备410在获得二维视频片段中一帧图像的视差图后，利用该帧图像的视差范围和视差图将该帧图像转换为三维图像。

作为一种可能的实现方式，执行设备410基于图像的视差范围和视差图，利用DIBR算法对视差图进行渲染得到新视角图像，然后对新视角图像进行图像修复来填补其中的空洞，得到最终的新视角图像，最终的新视角图像和原始二维图像的组合为三维图像。

执行设备410利用DIBR算法对视差图进行渲染得到新视角图像的具体步骤请参考图8中步骤810-步骤860，在此不再赘述。

步骤540、执行设备410将多个二维视频片段的三维图像整合为三维视频。

执行设备410根据多个二维视频片段的时序，将多个二维视频片段的三维图像即左右视图合并，得到完整的二维视频转换后的三维视频。

基于上述视频处理方法，执行设备410采用三维转换模型对二维视频中不同场景的视频片段的视差范围进行预测，再根据每个二维视频片段对应的视差范围分别对多个二维视频片段进行三维图像的转换，使不同场景对应的三维图像部分的3D效果的强弱适应于自身场景，在三维图像中感知到的3D效果的强弱符合该类型场景下的人眼深度感知的习惯，从而提高了3D视频的3D效果的强弱的合理性。

上文结合图5对视频处理方法的整体流程进行了说明，接下来结合图6对三维转换模型的训练过程进行说明。请参考图6，图6为本申请提供的一种三维转换模型的训练步骤的流程示意图，以训练设备420为例，三维转换模型的训练步骤包括步骤610-步骤620。

步骤610、训练设备420获取训练集。

训练设备420获取的训练集可以是三维视频，该三维视频以最小视差值和最大视差值为标注。

作为一种可能的实现方式，训练设备420获取训练集的具体步骤可以如下步骤611-步骤615所示。

步骤611、训练设备420获取预设时长的三维视频。

训练设备420从通过三维视频拍摄或从视频数据块中下载预设时长的三维视频，该预设时长可以根据三维转换模型的精度需求进行灵活调节，例如200分钟、8小时、20小时、121小时等。

由于视差d与人眼感知的深度Z直接的关系可以表述为则人眼感知的深度受左右两个眼睛之间的距离B和人眼到屏幕的距离Z_c等因素的影响，因此以视差范围作为衡量3D效果的强弱的标准。视差范围大小受视频分辨率的影响，当分辨率放大或缩小α倍时，视差也会放大或缩小α倍。为了转换后的三维视频具有强弱均衡的3D效果，本实施例中获取的三维视频具有相同的分辨率，例如1080p分辨率、4k分辨率等。

可选地，训练设备420在收集到的三维视频的分辨率不同时，可以先对较高分辨率的视频进行降采样，使收集到的三维视频的分辨率相同。例如，训练设备420收集到的三维视频包括1080p分辨率的三维视频和4k分辨率的三维视频时，可以将4k分辨率的三维视频降采样到1080p分辨率。

步骤612、训练设备420对三维视频进行场景分割，获得多个三维视频片段。

训练设备420对三维视频进行场景分割的方式与执行设备410对二维视频进行场景分割的方式相同，请参考图5所示的步骤510，在此不再赘述。

步骤613、训练设备420采用光流模型确定每个三维视频片段的左右视频画面的视差范围。

训练设备420从三维视频片段的每帧图像中提取左右视频画面，使用光流模型(例如Recurrent All-pairs Field Transforms for Optical Flow，RAFT)求出左右视频画面之间的光流，只保留水平方向的光流即为该帧图像的左右视频画面之间的视差。其中，左右视频画面是指以左右格式存储的三维视频中同一帧画面包含的左右两幅并排的画面。

步骤614、训练设备420对左右视频画面的视差范围进行置信度过滤，得到过滤后视差范围。

训练设备420对每个三维视频片段包含的每帧图像的左右视频画面的视差范围进行置信度过滤，得到过滤后视差范围。

其中，左右一致性校验是根据空域一致性假设，即同一个像从左到右的视差和从右向左的视差应该大小相同方向相反，严重违反这一假设的像素视差估计结果可以被认定为错误，将被过滤掉。

假定从左到右视差为d_l→r，从右到左视差为d_r→l，假定像素p为左图中一个点，则训练设备420判断该像素违反公式(4)表征的条件，则将该像素定义为置信度低的视差值，从而过滤掉该视差值。

|d_l→r(p)+d_r→l(p+d_l→r(p))|²<α·(|d_l→r(p)|²+|d_r→l(p+d_l→r(p))|²)+β (4)

其中，α和β可以根据置信度过滤的需求进行灵活设置。例如α设置为0.01，β设置为0.05。

步骤615、训练设备420对过滤后视差范围进行时序平滑处理，得到训练集。

训练设备420对三维视频片段中每一对左右视频画面分别求取过滤后的最小视差值d^min和最大视差值d^max，对最小视差值d^min和最大视差值d^max在时序上进行平滑处理，从而得到鲁棒性更好的视差范围作为训练集。

可选地，假定第t帧的视差估计最小值和最大值分别为和/>则时序平滑处理的方式可以如公式(5)和公式(6)所示。

其中，γ是一个超参，本实施例中根据经验设γ的取值为0.9。

在另外的可能的实施方式中，训练设备420获取训练集的步骤中步骤614和步骤615是可选的步骤，若训练设备420无需执行步骤614和/或步骤615也能够获得达到训练集标准的视差范围作为训练集，训练设备420可以执行步骤611-步骤613后，将步骤613得到的视差范围作为三维转换模型的训练集。

步骤620、训练设备420利用训练集对Transformer预训练模型进行训练，得到三维转换模型。

训练设备420将训练集输入Transformer预训练模型，对Transformer预训练模型进行训练，在Transformer预训练模型达到模型精度需求时获得训练完成的三维转换模型。

接下来结合图7对Transformer预训练模型的结构进行说明。如图7所示，Transformer预训练模型包括卷积模块710、嵌入模块720、编解码模块730和多层感知模块740。

卷积模块710包括卷积神经网络，该卷积神经网络用于对输入的图像进行多次降采样，例如对图像进行4次降采样。

嵌入模块720包括patch embedding和position embedding，patch embedding和position embedding根据降采样的图像输出embedded patches。

编解码模块730包括多个重复的编解码单元，该编解码单元可以是TransformerEncoder，每个Transformer Encoder包括Layer Norm、MSA(Multi-headed Self-Attention)和多层感知器(Multi-Layer Perception，MLP)。

可选地，编解码模块730可以包括12个循环的Transformer Encoder。

多层感知模块740包括多层感知器，该多层感知器用于对编解码模块730包含的多个编解码单元的输出结果进行整合，并输出预测的视差范围。

基于上述步骤610-步骤620，训练设备420能够根据包含不同场景的三维视频片段进行三维转换模型的模型训练，使三维转换模型具有对不同场景的三维视频片段分别进行视差范围预测的功能，且三维转换模型是基于Transformer预训练模型训练得到，保证了模型的收敛速度和收敛效果。

上文结合图6对三维转换模型的训练过程进行了详细说明，接下来结合图8对如何应用三维转换模型输出的视差范围和DIBR算法对视差图进行渲染得到新视角图像进行详细说明。请参考图8，图8位本申请提供的一种新视角图像渲染步骤的流程示意图，包括如下步骤810-步骤860。

步骤810、执行设备410对二维视频片段包含的原始二维图像进行视差估计，得到视差图。

执行设备410使用传统方式或深度学习方式对二维视频片段包含的原始二维图像进行视差估计，得到视差图。

其中，传统方法包括根据运动、物体边缘、阴影等提取深度线索来确定视差图的方式，基于深度学习的方法是通过构建大量的原图-视差或深度图的训练数据对，学习从原图到视差或深度图的映射关系，从而提取原始二维图像的视差图。

步骤820、执行设备410获取三维转换模型输出的视差范围。

可选地，执行设备410在后续步骤830使用视差范围前，对视差范围进行时序平滑处理，保证该二维视频片段的场景的3D效果处于稳定状态。此处对视差范围进行时序平滑处理的步骤与步骤615中的时序平滑步骤类似，在此不再赘述。

步骤830、执行设备410根据视差范围对视差图进行处理，得到处理后视差图。

执行设备410根据二维视频片段中每帧图像的视差范围，对该帧图像的视差图进行放缩和平移，得到处理后视差图。

可选地，假定估计出的第t帧图像的视差大小为d_t，则放缩和平移的规则如公式(7)所示。

其中，min(d_t)和max(d_t)分别表示三维转换模型输出的最小视差值和最大视差值。

步骤840、执行设备410对每个二维视频片段的处理后视差图进行时序平滑处理，得到平滑后视差图。

可选地，假定第t帧到第t-1帧的光流为F_t→t-1，则基于F_t→t-1对d_t-1进行反向扭曲操作得到视差图d_t-1→t，则最终第t帧的视差为d_t＝γ·d_t+(1-γ)·d_t-1→t。

步骤850、执行设备410利用DIBR算法对平滑后视差图进行渲染，获得新视角图像。

执行设备410利用DIBR算法对平滑后视差图进行渲染的具体方式与常规的DIBR算法相同，在此不再赘述。

执行设备410在DIBR算法中生成新视角图像的方式可以是但不限于是：(1)假定原始二维图像为左图，生成右图作为新视角图像；(2)假定原始二维图像为右图，生成左图作为新视角图像；(3)假定原始二维图像为中间图，分别生成左图和右图作为新视角图像。

步骤860、执行设备410对新视角图像进行图像修复，得到最终的新视角图像。

由于遮挡等原因，执行设备410基于DIBR算法生成新视角图片过程中会产生空洞，因此需要使用图像修复的方法将空洞补全，进而生成最终的新视角图片。

基于上述步骤810-步骤860，训练设备420利用三维转换模型对不同场景即不同二维视频片段包含的每帧图像进行视差范围的预测，再基于DIBR算法对包含不同场景的视频片段分别进行二维图像至三维图像的转换，从而将每个二维视频片段的视差范围应用于自身的三维转换中，使不同场景对应的三维图像部分的3D效果的强弱适应于自身场景，保证了利用DIBR算法得到的三维视频在不同场景下均具有合理的3D效果。

上文结合图4-图8详细描述了根据本实施例所提供的视频处理方法，下面将结合图9，描述本实施例所提供的视频处理装置。

图9为本实施例提供的可能的视频处理装置的示意图。视频处理装置可以用于实现上述方法实施例中执行设备的功能，因此也能实现上述方法实施例所具备的有益效果。在本实施例中，该视频处理装置可以是如图4所示的执行设备410或训练设备420，还可以是应用于服务器的模块(如芯片)。

视频处理装置900包括分割模块910、预测模块920、转换模块930和合成模块940。视频处理装置900用于实现上述图5所示方法实施例中执行设备410的功能。

分割模块910，用于对二维视频进行场景分割，得到多个二维视频片段。例如，分割模块910用于执行上述图5中所示的步骤510。

预测模块920，用于将每个二维视频片段分别输入三维转换模型，获得三维转换模型输出的每个二维视频片段的视差范围，每个二维视频片段的视差范围包含每个二维视频片段中每帧图像的最小视差值和最大视差值。例如，预测模块920用于执行上述图5中所示的步骤520。

转换模块930，用于基于每个二维视频片段的视差范围将每个二维视频片段的图像转换为三维图像。例如，转换模块930用于执行上述图5中所示的步骤530。

合成模块940，用于将多个二维视频片段的三维图像整合为三维视频。例如，合成模块940用于执行上述图5中所示的步骤540。

作为一种可能的实现方式，多个二维视频片段中每个二维视频片段包含的场景的视差范围不同。

作为一种可能的实现方式，转换模块930具体用于：对每个二维视频片段的视差范围进行时序平滑处理，得到平滑后视差范围；基于每个二维视频片段的平滑后视差范围将每个二维视频片段的图像转换为三维图像。

作为一种可能的实现方式，转换模块930具体用于：基于每个二维视频片段的平滑后视差范围，利用基于深度图的图像绘制DIBR算法生成新视角图像；对新视角图像进行图像修复，得到每个二维视频片段的图像的三维图像。

作为一种可能的实现方式，视频处理装置900还包括模型训练模块，用于：获取训练集，训练集包括以最小视差值和最大视差值为标注的三维视频；利用训练集对Transformer预训练模型进行训练，得到三维转换模型。例如，模型训练模块用于执行上述图6中步骤610-步骤620。

作为一种可能的实现方式，模型训练模块具体用于：对三维视频进行场景分割，获得多个三维视频片段；采用光流模型确定每个三维视频片段的左右视频画面的视差范围；对每个三维视频片段标注视差范围，得到训练集。

作为一种可能的实现方式，模型训练模块具体用于：对每个三维视频片段的左右视频画面的视差范围进行置信度过滤，得到过滤后视差范围；对每个三维视频片段的过滤后视差范围进行时序平滑处理，得到训练集。

应理解的是，本申请实施例的视频处理装置900可以通过GPU、NPU、ASIC实现，或可编程逻辑器件(programmable logic device，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。此外，在通过软件实现图5所示的方法时，视频处理装置900及其各个模块也可以为软件模块。

本申请实施例的视频处理装置900可对应于执行本申请实施例中描述的方法，并且视频处理装置900中的各个单元的上述和其它操作和/或功能分别为了实现图5中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种视频处理设备，请参考图10，图10为本申请实施例提供的一种视频处理设备的结构示意图。视频处理设备1000包括存储器1001、处理器1002、通信接口1003以及总线1004。其中，存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。在本实施例中，视频处理设备1000可以是图4中的执行设备410或训练设备420。

存储器1001可以是只读存储器，静态存储设备，动态存储设备或者随机存取存储器。存储器1001可以存储计算机指令，当存储器1001中存储的计算机指令被处理器1002执行时，处理器1002和通信接口1003用于执行软件系统的视频处理方法中的步骤。例如，通信接口1003用于执行上述图5所示的视频处理方法中获得二维视频的步骤，以及上述视频处理装置900中训练模块的获取训练集的功能，处理器1002用于执行上述图5所示的视频处理方法中的步骤510、步骤520和步骤530，以及上述图9所述的视频处理装置900中分割模块910、预测模块920、转换模块930和合成模块940的功能。存储器还可以存储数据集合，例如：存储器1001中的一部分存储资源被划分成一个区域，用于存储实现本申请实施例的神经网络模型的功能的程序。

处理器1002可以采用通用的CPU，应用专用集成电路(application specificintegrated circuit，ASIC)，GPU或其任意组合。处理器1002可以包括一个或多个芯片。处理器1002可以包括AI加速器，例如NPU。

通信接口1003使用例如但不限于收发器一类的收发模块，来实现视频处理设备1000与其他设备或通信网络之间的通信。例如，可以通过通信接口1003获取迭代训练请求、训练数据，以及反馈迭代训练后神经网络。

总线1004可包括在视频处理设备1000各个部件(例如，存储器1001、处理器1002、通信接口1003)之间传送信息的通路。

视频处理设备1000可以为云数据中心中的计算机(例如：服务器)，或边缘数据中心中的计算机，或终端。

每个视频处理设备1000上都可以部署训练设备420的功能。例如，GPU用于实现训练设备420的功能。

对于同一个视频处理设备1000内部署的训练设备420的功能和执行设备410的功能，训练设备420可以通过总线1004与执行设备410进行通信。

对于不同视频处理设备1000内部署的训练设备420的功能和执行设备410的功能，训练设备420可以通过通信网络与执行设备410进行通信。

本实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于终端设备中。当然，处理器和存储介质也可以作为分立组件存在于网络设备或终端设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(digital video disc，DVD)；还可以是半导体介质，例如，固态硬盘(solid state drive，SSD)。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

对二维视频进行场景分割，得到多个二维视频片段；

将每个二维视频片段分别输入三维转换模型，获得所述三维转换模型输出的所述每个二维视频片段的视差范围，所述每个二维视频片段的视差范围包含所述每个二维视频片段中每帧图像的最小视差值和最大视差值；

基于所述每个二维视频片段的视差范围将所述每个二维视频片段的图像转换为三维图像；

将所述多个二维视频片段的三维图像整合为三维视频。

2.根据权利要求1所述的方法，其特征在于，所述多个二维视频片段中每个二维视频片段包含的场景的视差范围不同。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述每个二维视频片段的视差范围将所述每个二维视频片段的图像转换为三维图像，包括：

对所述每个二维视频片段的视差范围进行时序平滑处理，得到平滑后视差范围；

基于所述每个二维视频片段的所述平滑后视差范围将所述每个二维视频片段的图像转换为三维图像。

4.根据权利要求3所述的方法，其特征在于，所述基于所述每个二维视频片段的所述平滑后视差范围将所述每个二维视频片段的图像转换为三维图像，包括：

基于所述每个二维视频片段的所述平滑后视差范围，利用基于深度图的图像绘制DIBR算法生成新视角图像；

对所述新视角图像进行图像修复，得到所述每个二维视频片段的图像的三维图像。

5.根据权利要求1-4中任一项所述的方法，其特征在于，在所述将每个二维视频片段分别输入三维转换模型，获得所述三维转换模型输出的所述每个二维视频片段的视差范围之前，所述方法还包括：

获取训练集，所述训练集包括以最小视差值和最大视差值为标注的三维视频；

利用所述训练集对Transformer预训练模型进行训练，得到所述三维转换模型。

6.根据权利要求5所述的方法，其特征在于，所述获取训练集，包括：

对三维视频进行场景分割，获得多个三维视频片段；

采用光流模型确定每个三维视频片段的左右视频画面的视差范围；

对所述每个三维视频片段标注视差范围，得到所述训练集。

7.根据权利要求6所述的方法，其特征在于，所述对所述每个三维视频片段标注视差范围，得到所述训练集，包括：

对所述每个三维视频片段的左右视频画面的视差范围进行置信度过滤，得到过滤后视差范围；

对所述每个三维视频片段的过滤后视差范围进行时序平滑处理，得到所述训练集。

8.一种视频处理装置，其特征在于，所述装置包括：

分割模块，用于对二维视频进行场景分割，得到多个二维视频片段；

预测模块，用于将每个二维视频片段分别输入三维转换模型，获得所述三维转换模型输出的所述每个二维视频片段的视差范围，所述每个二维视频片段的视差范围包含所述每个二维视频片段中每帧图像的最小视差值和最大视差值；

转换模块，用于基于所述每个二维视频片段的视差范围将所述每个二维视频片段的图像转换为三维图像；

合成模块，用于将所述多个二维视频片段的三维图像整合为三维视频。

9.根据权利要求8所述的装置，其特征在于，所述多个二维视频片段中每个二维视频片段包含的场景的视差范围不同。

10.根据权利要求8或9所述的装置，其特征在于，所述转换模块具体用于：

11.根据权利要求10所述的装置，其特征在于，所述转换模块具体用于：

12.根据权利要求8-11中任一项所述的装置，其特征在于，所述装置还包括模型训练模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述模型训练模块具体用于：

对三维视频进行场景分割，获得多个三维视频片段；

对所述每个三维视频片段标注视差范围，得到所述训练集。

14.根据权利要求13所述的装置，其特征在于，所述模型训练模块具体用于：

15.一种视频处理设备，其特征在于，所述视频处理设备包括存储器和至少一个处理器，所述存储器用于存储一组计算机指令；当所述处理器执行所述一组计算机指令时，执行上述权利要求1至7中任一所述的方法的操作步骤。

16.一种视频处理系统，其特征在于，所述系统包括训练设备和执行设备，所述训练设备用于执行上述权利要求5-7中任一项所述的方法的操作步骤，来得到所述三维转换模型，并将所述三维转换模型部署至所述执行设备，所述执行设备用于执行上述权利要求1-4中任一项所述的方法的操作步骤。

17.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得所述计算机执行上述权利要求1-7中任一所述的方法的操作步骤。