CN116703995B

CN116703995B - 视频虚化处理方法和装置

Info

Publication number: CN116703995B
Application number: CN202211349189.6A
Authority: CN
Inventors: 卢溜
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2024-05-14
Anticipated expiration: 2042-10-31
Also published as: CN116703995A

Abstract

本申请实施例提供视频虚化处理方法和装置，包括：响应于对目标视频进行的虚化处理操作，终端设备获取目标视频中的图像序列以及图像序列中各图像对应的观测角度；终端设备利用图像序列中的各图像对应的各位置、以及图像序列中各图像对应的观测角度，训练得到目标神经辐射场；终端设备将目标图像对应的目标观测角度、以及目标图像对应的各位置输入到目标神经辐射场，输出目标图像在目标观测角度下各位置的透明度；终端设备根据目标图像在目标观测角度下各位置的透明度，对目标图像进行虚化处理。这样，终端设备可以将神经辐射场应用于图像深度信息的预测过程，基于神经辐射场输出的透明度，准确识别图像的深度信息，进而提高虚化处理的准确性。

Description

视频虚化处理方法和装置

技术领域

本申请涉及终端技术领域，尤其涉及一种视频虚化处理方法和装置。

背景技术

随着互联网的普及和发展，人们对于终端设备的功能需求也越发多样化，例如用户可以利用终端设备进行视频录制。由于视频录制过程中，终端设备可以拍摄得到较为清晰的前景和后景，使得视频录制结果难以获得较好的空间感和电影感。因此，终端设备可以通过视频虚化，优化视频录制结果。

通常情况下，终端设备可以基于单目摄像头获取多个单目图像，通过对多个单目图像中的各单目图像分别进行语义分割的方式获取各单目图像的前景以及后景，并对各单目图像前景或者后景进行虚化处理，进而得到视频虚化处理结果。

然而，上述视频虚化处理方法的准确性较低，且视频虚化效果较差。

发明内容

本申请实施例提供一种视频虚化处理方法和装置，使得终端设备可以将神经辐射场应用于图像深度信息的预测过程，基于神经辐射场输出的透明度，准确识别图像的深度信息，进而提高虚化处理的准确性。

第一方面，本申请实施例提供一种视频虚化处理方法，方法包括：响应于对目标视频进行的虚化处理操作，终端设备获取目标视频中的图像序列以及图像序列中各图像对应的观测角度；终端设备利用图像序列中的各图像对应的各位置、以及图像序列中各图像对应的观测角度，训练得到目标神经辐射场；目标神经辐射场用于获得图像在观测角度下各位置的透明度；终端设备将目标图像对应的目标观测角度、以及目标图像对应的各位置输入到目标神经辐射场，输出目标图像在目标观测角度下各位置的透明度，目标图像为目标视频中的任一图像；终端设备根据目标图像在目标观测角度下各位置的透明度，对目标图像进行虚化处理，得到视频虚化处理结果。这样，终端设备可以将神经辐射场应用于图像深度信息的预测过程，基于神经辐射场输出的透明度，准确识别图像的深度信息，进而提高虚化处理的准确性。

在一种可能的实现方式中，终端设备根据目标图像在目标观测角度下各位置的透明度，对目标图像进行虚化处理，得到视频虚化处理结果，包括：终端设备根据目标图像在目标观测角度下各位置的透明度，确定目标图像对应的深度图像；终端设备根据深度图像对目标图像进行虚化处理，得到视频虚化处理结果。这样，终端设备可以实现将神经辐射场应用于图像深度信息的预测过程，由于目标神经辐射场是基于包含目标图像在内的图像序列训练得到的，因此目标神经辐射场可以准确的预测目标图像中各位置的透明度。

在一种可能的实现方式中，终端设备根据目标图像在目标观测角度下各位置的透明度，确定目标图像对应的深度图像，包括：终端设备获取目标图像在目标观测角度下各位置的透明度中透明度为0时对应的目标位置；终端设备获取目标位置中的深度数值，得到目标图像对应的深度图像。这样，终端设备可以将透明度为0处对应的目标位置确定为图像中像素点所在的目标位置，并目标位置从中获取到深度数值。

在一种可能的实现方式中，终端设备利用图像序列中的各图像对应的各位置、以及图像序列中各图像对应的观测角度，训练得到目标神经辐射场，包括：终端设备获取训练数据；训练数据包括：图像序列中的各图像对应的各位置、图像序列中各图像对应的观测角度、以及图像序列中的各图像对应的各位置的透明度标签；终端设备使用训练数据训练初始神经辐射场，得到目标神经辐射场。这样，训练好的目标神经辐射场可以学习到从世界坐标系下的观测角度和位置，向图像坐标系下该位置的颜色值和透明度的映射，减少由于相邻图像之间的跳变对于虚化效果的影响，提高虚化处理的准确性。

在一种可能的实现方式中，图像序列中各图像对应的观测角度为终端设备基于运动恢复结构SFM方法对图像序列中的各图像进行三维重建时得到的。

在一种可能的实现方式中，对目标视频进行的虚化处理操作，包括下述一种或多种：从目标应用中打开目标视频的操作、或者用于结束拍摄目标视频的操作。这样，终端设备可以在接收到用户的固定操作时，触发视频虚化过程，简化视频虚化处理的方式。

第二方面，本申请实施例提供一种视频虚化处理装置，装置包括：获取单元以及处理单元；响应于对目标视频进行的虚化处理操作，获取单元，用于获取目标视频中的图像序列以及图像序列中各图像对应的观测角度；处理单元，用于利用图像序列中的各图像对应的各位置、以及图像序列中各图像对应的观测角度，训练得到目标神经辐射场；目标神经辐射场用于获得图像在观测角度下各位置的透明度；处理单元，还用于将目标图像对应的目标观测角度、以及目标图像对应的各位置输入到目标神经辐射场，输出目标图像在目标观测角度下各位置的透明度，目标图像为目标视频中的任一图像；处理单元，还用于根据目标图像在目标观测角度下各位置的透明度，对目标图像进行虚化处理，得到视频虚化处理结果。

在一种可能的实现方式中，处理单元，具体用于：根据目标图像在目标观测角度下各位置的透明度，确定目标图像对应的深度图像；根据深度图像对目标图像进行虚化处理，得到视频虚化处理结果。

在一种可能的实现方式中，获取单元，具体用于：获取目标图像在目标观测角度下各位置的透明度中透明度为0时对应的目标位置；获取目标位置中的深度数值，得到目标图像对应的深度图像。

在一种可能的实现方式中，获取单元，具体用于：获取训练数据；训练数据包括：图像序列中的各图像对应的各位置、图像序列中各图像对应的观测角度、以及图像序列中的各图像对应的各位置的透明度标签；处理单元，具体用于：使用训练数据训练初始神经辐射场，得到目标神经辐射场。

在一种可能的实现方式中，对目标视频进行的虚化处理操作，包括下述一种或多种：从目标应用中打开目标视频的操作、或者用于结束拍摄目标视频的操作。

第三方面，本申请实施例提供一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时，使得终端设备执行第一方面或第一方面的任意一种可能的实现方式中描述的视频处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的视频处理方法。

第五方面，本申请实施例提供一种包括计算机程序的计算机程序产品，当计算机程序在计算机上运行时，使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的视频处理方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的一种场景示意图；

图2为本申请实施例提供的一种终端设备的硬件结构示意图；

图3为本申请实施例提供的一种视频虚化处理方法的流程示意图；

图4为本申请实施例提供的一种基于SFM方法恢复观测角度的流程示意图；

图5为本申请实施例提供的一种使用目标神经辐射场的示意图；

图6为本申请实施例提供的一种生成深度信息的示意图；

图7为本申请实施例提供的一种视频虚化处理装置的结构示意图；

图8为本申请实施例提供的另一种终端设备的硬件结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一值和第二值仅仅是为了区分不同的值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a和b，a和c，b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

示例性的，图1为本申请实施例提供的一种场景示意图。在图1对应的实施例中，以终端设备为手机为例进行示例说明，该示例并不构成对本申请实施例的限定。

如图1所示，该场景中可以包括终端设备101，例如该终端设备101可以为手机等，以及利用终端设备101拍摄得到的画面102，该画面102中可以包括位于前景的用户103以及位于后景的用户104。

当终端设备接收到用户在终端设备中触发开启录制视频的控件的操作时，终端设备可以基于摄像头采集到包含画面102的视频数据。在画面102中，终端设备可以拍摄得到较为清晰的用户103以及用户104。由于清晰的视频画面难以体现出较好的空间感和电影感，因此终端设备可以对拍摄画面的前景和/或后景进行虚化处理。

可以理解的是，虚化处理对于提升图片的立体感和艺术性至关重要，专业的单反相机可以通过调整焦距和调整光圈大小等方式得到虚化图像，但由于手机是固定焦距的，没法直接得到虚化图像，因此需要在拍摄得到视频后通过一定的算法模仿大光圈的效果。

通常情况下，终端设备可以通过基于双目图像的深度计算方法、基于单目图像的语义分割方法、或者基于单目图像的深度计算方法等，对终端设备获取的画面进行虚化处理，进而得到视频虚化处理结果。

在基于双目图像的深度计算方法中，终端设备可以通过双目摄像头获取的双目图像，并利用该双目图像以及相机内外参数，确定该双目图像中各像素点的深度信息，并利用深度信息对视频中的各图像进行虚化处理，进而得到视频虚化处理结果。

在基于单目图像的语义分割方法中，终端设备可以基于单目摄像头获取多个单目图像，并利用语义分割方法对多个单目图像中的任一张图像的前景以及后景进行分割，并在语义分割后对该任一张图像的前景或者后景进行虚化处理，通过对多个单目图像的语义分割，得到视频虚化处理结果。

在基于单目图像的深度计算方法中，终端设备可以基于单目摄像头获取多个单目图像，并利用神经网络模型对单目图像中的任一张图像的深度进行计算，并基于该任一张图像的深度信息对该任一张图像的前景或者后景进行虚化处理，通过对多个单目图像分别进行深度计算以及虚化处理，得到视频虚化处理结果。

然而，在基于双目图像的深度计算方法中，由于需要相机内外参数信息进行深度计算，因此终端设备只能实现对于本机摄像头拍摄得到的视频的虚化处理，而无法对录屏或从网络中获取的视频进行虚化处理，虚化处理的场景受限；在基于单目图像的语义分割方法中，终端设备对语义分割的准确性要求较高，而语义分割的准确性较低时将很容易导致虚化处理过程中图像主体被虚化的情况，并且基于单目图像的语义分割方法也可能会使得处于后景的所有内容进行相同程度的虚化处理，虚化效果不够美观。

另外，在基于单目图像的语义分割方法或者基于单目图像的深度计算方法中，基于单目摄像头获取的多个单目图像中的相邻图像之间可能存在画面差异较大的情况，因此无论是对该多个单目图像中的任一张图像进行深度计算还是语义分割的方法，都可能导致最终的视频虚化处理结果中存在相邻图像发生跳变的问题，导致虚化处理效果较差。

有鉴于此，本申请实施例提供一种视频虚化处理方法，使得终端设备可以将神经辐射场应用于图像深度信息的预测过程，利用图像序列以及该图像序列中的各图像对应的观测角度训练目标神经辐射场，通过目标神经辐射场确定目标图像在目标观测角度下各位置的透明度，进而确定目标图像对应的深度图像，基于深度图像实现对于视频中任一图像的虚化处理，提高虚化处理的准确性。

可以理解的是，上述终端设备也可以称为终端，(terminal)、用户设备(userequipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)等。终端设备可以为手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

因此，为了能够更好地理解本申请实施例，下面对本申请实施例的终端设备的结构进行介绍。示例性的，图2为本申请实施例提供的一种终端设备的结构示意图。

终端设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，指示器192，摄像头193，以及显示屏194等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中还可以设置存储器，用于存储指令和数据。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备充电，也可以用于终端设备与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端设备，例如AR设备等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块141用于连接充电管理模块140与处理器110。

终端设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块150可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。

无线通信模块160可以提供应用在终端设备上的包括无线局域网(wirelesslocalarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)等无线通信的解决方案。

终端设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。在一些实施例中，终端设备可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。本申请实施例中，该摄像头193可以为单目摄像头。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备可以支持一种或多种视频编解码器。这样，终端设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

摄像头193用于捕获静态图像或视频。在一些实施例中，终端设备可以包括1个或N个摄像头193，N为大于1的正整数。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。

终端设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备可以通过扬声器170A收听音乐，或收听免提通话。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。耳机接口170D用于连接有线耳机。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

传感器模块180可以包括下述一种或多种传感器，例如：压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，或骨传导传感器等(图2中未示出)。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的键信号输入。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

终端设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等，在此不再赘述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

示例性的，图3为本申请实施例提供的一种视频虚化处理方法的流程示意图。

如图3所示，该视频虚化处理方法可以包括如下步骤：

S301、响应于对视频进行虚化处理的操作，终端设备获取待处理的图像序列。

本申请实施例中，该图像序列是由视频中部分连续的多张图像构成的序列；该视频可以为终端设备预先存储的视频。例如，该视频可以为：用户预先拍摄好并存储在终端设备的图库中的视频、终端设备基于用户操作录屏得到的视频、或者终端设备基于用户操作通过互联网下载的视频等，本申请实施例中对视频的来源不做限定。

可以理解的是，该图像序列中的多张图像也可以为图像之间的相似度满足一定阈值的图像，减少由于图像相似度较低时对于后续观测角度以及目标神经辐射场的准确度的影响。

示例性的，当视频为用户预先拍摄好并存储在终端设备的图库中的视频时，该对视频进行虚化处理的操作可以为：用户结束视频录制的操作、或者用户在图库中打开视频的操作等；当视频为终端设备基于用户操作录屏得到的视频、或者终端设备基于用户操作通过互联网下载的视频时，该对视频进行虚化处理的操作可以为：用户在图库中打开视频的操作。其中，该图库可以理解为用于存储图像或视频的应用程序，该图库或也可以称为相册。

具体的，在终端设备接收到用户对视频进行虚化处理的操作时，响应于用户的操作，终端设备可以从视频中获取待处理的图像序列，例如终端设备可以从视频中获取多个图像。其中，当视频为用户预先拍摄好并存储在终端设备的图库中的视频，该多个图像均可以为单目图像，该多个图像可以用于观测角度的计算，也可以作为目标神经辐射场的训练数据。

可能的实现方式中，当终端设备需要对视频中的第一个图像进行虚化处理时，终端设备可以获取第一个图像至第N+1个图像等N+1个图像构成待处理的图像序列。或者，当终端设备需要对视频中的第M个图像进行虚化处理时，终端设备可以获取该第M个图像中的前Q个图像以及该M个图像中的后Q个图像等2Q+1个图像构成待处理的图像序列。其中，该N或Q的数值可以为9、10或11等，本申请实施例中对此不做限定。

可以理解的是，当终端设备利用由第M个图像中的前Q个图像以及该M个图像中的后Q个图像等构成待处理的图像序列训练目标神经辐射场的场景中，终端设备可以通过连续的图像，保障基于目标序列训练得到的目标神经辐射场可以输出较为准确的透明度数据，进而提高虚化处理结果的稳定性和准确性。

S302、终端设备确定图像序列中的各图像分别对应的观测角度。

其中，观测角度(或称为视角)可以理解为相机相对于不同被观测对象的方向。

示例性的，终端设备可以利用运动恢复结构(structure from motion，SFM)方法，预测终端设备的图像序列中的各图像分别对应的观测角度。其中，SFM可以理解为一种从不同时间拍摄得到的图像序列中恢复观测角度的方法。

具体的，终端设备利用SFM方法恢复观测角度的方法可以参见图4对应的实施例。示例性的，图4为本申请实施例提供的一种基于SFM方法恢复观测角度的流程示意图。

如图4所示，图像序列可以包括：图411、图412、图413、图414、图415、图416、图417、图418、图419、图420、图421、以及图422；该基于SFM方法恢复观测角度的方法可以包括：特征提取401、特征点匹配402、SFM三维重建403。

在特征提取401中，终端设备可以提取各图像中的特征点。例如，终端设备可以利用加速鲁棒特征(speed up robust features，SURF)方法、尺度不变特征变换(scale-invariant feature transform，SIFT)方法、使用二进制字符串作为有效的特征点描述符(binary robust independent elementary features，BRIEF)方法、二进制鲁棒不变可扩展关键点(binary robust invariant scalable keypoints，BRISK)、或者快速特征点提取和描述(oriented fast and rotated BRIEF，ORB)方法中的一种或多种等，对各图像进行特征点的提取。

可以理解的是，由于拍摄视频过程中拍摄设备的移动，使得同一目标在不同图像上处于不同的位置，因此为了实现同一目标的多张图像在空间位置上对准，需要对各图像分别进行特征提取，提取各图像的特征点。其中，该特征点可以为角点等，角点可以用于反映图像的局部结构特征，且角度可以被描述成灰度强度变化不连续的点，焦点也可以被称为灰度图像上的奇异特征点。

在特征点匹配402中，终端设备可以根据各图像中各特征点相似度，在特征点的相似度较高时确定图像序列中至少两个图像之间的位置匹配关系。例如，终端设备可以将特征点的匹配个数较高的至少两个图像确定为图像对。

在SFM三维重建403中，终端设备可以基于图像对中特征点的匹配关系，确定基础矩阵；利用基础矩阵以及内参矩阵确定本质矩阵，通过本质矩阵恢复出多个可能的观测角度；进而根据正景深约束以及相机光心的位置，从该多个可能的观测角度中确定出准确的观测角度。

可以理解的是，该观测角度可以为终端设备基于SFM方法预测出的相机参数，或理解为该观测角度可以不是终端设备的摄像头实际拍摄过程中生成的相机参数。

可能的实现方式中，在SFM三维重建403中，终端设备也可以采用八点法以及随机抽样一致性(random sample consensus，RANSAC)算法等，进行观测角度的确定，本申请实施例中对此不做具体限定。

可以理解的是，终端设备可以基于图4对应的实施例中描述的SFM方法，确定图像序列中的各图像分别对应的观测角度。

S303、终端设备利用图像序列以及该图像序列中各图像分别对应的观测角度，训练目标神经辐射场(neural radiance fields，NeRF)。

其中，神经辐射场可以理解为一种利用多层感知机(multilayer perceptron，MLP)进行隐式神经场景绘制的新型视图合成方法，本申请实施例可以利用神经辐射场确定图像的深度信息。

示例性的，图像序列中可以包括多个图像，针对图像序列中的任一图像，终端设备可以在观测角度处进行遍历，得到该观测角度下任一图像对应的所有位置(该位置也可以称为空间坐标)。例如，观测角度对应的所有位置可以是以观测角度为起始位置的射线上的所有位置。

针对图像序列中的任一图像训练目标神经辐射场的过程可以为：终端设备可以将图像序列中的任一图像、该任一图像的观测角度，以及该观测角度下的任一图像对应的所有位置输入到初始神经辐射场中进行训练，输出任一图像对应的任一位置在该观测角度上的颜色值以及透明度。进一步的，终端设备可以基于所有位置的颜色值和透明度确定像素点的颜色值，例如确定以该观测角度为起始点的一条射线上的所有位置，以该条射线上每个位置的透明度为权重，通过对颜色值进行加权求和方式得到一个预测颜色值，该预测颜色值作为像素点的颜色值。在遍历所有射线后，得到多个像素点的预测颜色值，这些像素点的预测颜色值作为所要合成图像的图像，完成一张图像的合成。基于合成出的图像、训练数据中的图像以及损失函数，调整初始神经辐射场中的参数，直到训练得到符合预设条件的目标神经辐射场。其中，透明度也可以理解为体密度。

可以理解的是，训练好的目标神经辐射场可以学习到从世界坐标系下的观测角度和位置(或称为空间坐标)，向图像坐标系下该位置的颜色值和透明度的映射。其中，该颜色值可以为：红绿蓝(red green blue，RGB)。

可能的实现方式中，终端设备也可以在检测到任两个图像之间的相似度小于预设的相似度阈值时，终端设备可以重新获取图像序列，并基于S302所示的步骤计算重新获取的图像序列中各图像对应的观测角度。利用重新获取的图像序列、以及该重新获取的图像序列中各图像对应的观测角度，重新训练目标神经辐射场。进而，基于重新训练的目标神经辐射场，确定图像对应位置处的透明度，并生成深度信息。

S304、终端设备将目标图像对应的位置、以及该目标图像对应的观测角度(或称为目标观测角度)输入至目标神经辐射场，输出目标图像对应的位置处的透明度。

其中，该目标图像可以为图像序列中的一张图像；该目标图像对应的位置可以理解为：以观测角度为起始点的射线上的所有位置；该目标图像对应的位置处的透明度可以理解为：以观测角度为起始点的射线上的任一位置处的透明度。其中，该目标图像对应的位置中可以包括：目标图像中的像素点所在位置。

示例性的，图5为本申请实施例提供的一种使用目标神经辐射场的示意图。如图5所示，目标神经辐射场的输入可以是世界坐标系下的观测角度和位置，输出可以是图像坐标系下一个位置的颜色值和透明度，XYZ表示世界坐标系，d表示观测角度，P表示位置，RGB表示图像坐标系，C表示颜色值，σ表示透明度。观测角度d包括：世界坐标系XYZ三个坐标轴下的取值，位置P也包括世界坐标系XYZ三个坐标轴下的取值，颜色值C包括图像坐标系RGB三个坐标轴下的取值，透明度的取值是单一的。

如图5中描述的目标神经辐射场，如果目标神经辐射场的一个输入节点对应一个取值，一个输出节点对应一个取值，那么目标神经辐射场可以包括六个输入节点和四个输出节点。六个输入节点中的三个输入节点对应观测角度d在XYZ三个坐标轴下的取值，另外三个输入节点对应位置P在XYZ三个坐标轴下的取值；四个输出节点中的三个输出节点对应颜色值C在RGB三个坐标轴下的取值，另外一个输出节点对应透明度的取值。如果目标神经辐射场的一个输入节点对应一个参数，一个输出节点对应一个参数，例如观测角度d和位置P分别对应一个输入节点，那么目标神经辐射场可以包括两个输入节点和两个输出节点。两个输入节点中一个输入节点对应观测角度d，另一个输入节点对应位置P；两个输出节点中一个输出节点对应颜色值C，另一个输出节点对应透明度。此处输入节点和输出节点仅是示例，本实施例不进行限定，并且目标神经辐射场的全连接层中神经元的数量也不限于图5所示。

S305、终端设备利用目标图像对应的位置处的透明度，确定目标图像中各像素点对应的深度信息，得到深度图像。

示例性的，终端设备基于目标神经辐射场输出的目标图像对应的位置处的透明度，筛选出透明度为0时对应的位置，并获取该位置中的Z轴的数值，并将该Z轴的数值确定为该位置处的深度信息，进而获取到目标图像中所有透明度为0时对应的深度数值，得到目标图像对应的深度图像。可以理解的是，该透明度为0时对应的位置可以为目标图像中的像素点所在位置。

图6为本申请实施例提供的一种生成深度信息的示意图。图6中的a可以为目标图像，图6中的b可以为目标图像对应的深度图像。可见，图6中的b中靠近相机处较深颜色对应位置的深度较小，图6中的b处远离相机处较深颜色对应位置的深度较大。

S306、终端设备利用深度图像对目标图像进行虚化处理，得到目标图像对应的虚化处理结果。

示例性的，终端设备可以根据深度图像确定目标图像中前景和后景的分割阈值，并基于分割阈值对目标图像的前后景进行图像分割，根据用户需求确定sigma值进而对前景和/或后景进行不同程度的虚化处理。其中，sigma值越大，虚化程度越大；前景区域深度越小sigma值越大，后景区域深度越大sigma值越大。

其中，虚化处理的方法可以包括下述一种或多种：圆形滤波器、或IIR滤波器等。具体的，在利用圆形滤波器以及IIR滤波器对目标图像进行虚化处理的场景中，圆形滤波器可以对目标图像中的高亮区域产生光斑效果，使得虚化效果更具有美感；IIR滤波器可以使得目标图像的边缘更加平滑，因此两种滤波器的融合处理，可以使得最终的虚化处理结果过渡自然。

可能的实现方式中，当目标图像所在的视频为用户预先拍摄好并存储在终端设备的图库中的视频时，终端设备也可以根据用户选取的对焦点对目标图像进行虚化处理，本申请实施例中对具体的虚化处理结果不做限定。

S307、终端设备获取视频中的各图像分别对应的虚化处理结果，得到视频虚化处理结果。

适应的，终端设备可以对视频中的各图像执行S304-S306所示的步骤确定各图像对应的深度信息，并分别进行虚化处理，得到视频虚化处理结果。

可以理解的是，由于神经辐射场通常用于新视角的合成，例如利用不同观测角度分别对应的图像训练神经辐射场，则训练好的神经辐射场可以预测所有观测角度分别对应的图像。而本申请实施例中可以获取图像序列，利用SMF方法预测图像序列中各图像分别对应的观测角度，并利用神经辐射场确定固定观测角度以及固定位置下的透明度，将透明度为0时对应的Z轴数值确定为深度信息，进而利用深度信息实现视频的虚化处理。

基于此，相比于基于单目图像的语义分割方法，终端设备可以减少由于语义分割的准确性较低对虚化处理结果造成的影响，提高虚化处理的准确性。相比于基于单目图像的语义分割方法或者基于单目图像的深度计算方法，终端设备可以根据由图像序列训练得到的目标神经辐射场准确的输出相应位置处的透明度，进而精准预测图像的深度信息，减少由于相邻图像之间可能存在画面差异较大的情况。相比于基于双目图像的深度计算方法，终端设备可以通过SFM方法预测相机参数(该相机参数可以包括观测角度)，减少对于虚化场景的限制。

在图3对应的实施例的基础上，可能的实现方式中，终端设备可以在本设备中执行S301-S307所示的步骤；或者，终端设备可以在服务器中执行视频虚化方法，例如终端设备在S301中获取图像序列后，将图像数据发送至服务器，使得服务器可以执行S301-S307所示的步骤得到视频虚化处理结果，服务器可以将视频虚化处理结果发送至终端设备，使得终端设备可以基于视频虚化处理结果进行后续存储处理或送显处理。可以理解的是，本申请实施例中对视频虚化方法的处理设备，不做具体限定。

上面结合图3-图6，对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的执行上述方法的装置进行描述。如图7所示，图7为本申请实施例提供的一种视频虚化处理装置的结构示意图，该视频虚化处理装置可以是本申请实施例中的终端设备，也可以是终端设备内的芯片或芯片系统。

如图7所示，视频虚化处理装置700可以用于通信设备、电路、硬件组件或者芯片中，该视频虚化处理装置包括：获取单元701、以及处理单元702。其中，获取单元701用于支持视频虚化处理装置700执行数据获取的步骤，处理单元702用于支持视频虚化处理装置700执行数据处理的步骤。

具体的，本申请实施例提供一种视频虚化处理装置700，装置包括：获取单元701以及处理单元702；响应于对目标视频进行的虚化处理操作，获取单元701，用于获取目标视频中的图像序列以及图像序列中各图像对应的观测角度；处理单元702，用于利用图像序列中的各图像对应的各位置、以及图像序列中各图像对应的观测角度，训练得到目标神经辐射场；目标神经辐射场用于获得图像在观测角度下各位置的透明度；处理单元702，还用于将目标图像对应的目标观测角度、以及目标图像对应的各位置输入到目标神经辐射场，输出目标图像在目标观测角度下各位置的透明度，目标图像为目标视频中的任一图像；处理单元702，还用于根据目标图像在目标观测角度下各位置的透明度，对目标图像进行虚化处理，得到视频虚化处理结果。

可能的实现方式中，该视频虚化处理装置700中也可以包括通信单元703。具体的，通信单元703用于支持视频虚化处理装置700执行数据的发送以及数据的接收的步骤。其中，该通信单元703可以是输入或者输出接口、管脚或者电路等。

可能的实施例中，视频虚化处理装置700还可以包括：存储单元704。处理单元702、存储单元704通过线路相连。存储单元704可以包括一个或者多个存储器，存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。存储单元704可以独立存在，通过通信线路与视频虚化处理装置具有的处理单元702相连。存储单元704也可以和处理单元702集成在一起。

存储单元704可以存储终端设备中的方法的计算机执行指令，以使处理单元702执行上述实施例中的方法。存储单元704可以是寄存器、缓存或者RAM等，存储单元704可以和处理单元702集成在一起。存储单元704可以是只读存储器(read-only memory，ROM)或者可存储静态信息和指令的其他类型的静态存储设备，存储单元704可以与处理单元702相独立。

图8为本申请实施例提供的另一种终端设备的硬件结构示意图，如图8所示，该终端设备包括处理器801，通信线路804以及至少一个通信接口(图8中示例性的以通信接口803为例进行说明)。

处理器801可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路804可包括在上述组件之间传送信息的电路。

通信接口803，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线局域网(wireless local area networks，WLAN)等。

可能的，该终端设备还可以包括存储器802。

存储器802可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路804与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器802用于存储执行本申请方案的计算机执行指令，并由处理器801来控制执行。处理器801用于执行存储器802中存储的计算机执行指令，从而实现本申请实施例所提供的方法。

可能的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器801可以包括一个或多个CPU，例如图8中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端设备可以包括多个处理器，例如图8中的处理器801和处理器805。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质(例如，软盘、硬盘或磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory，CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(digital versatile disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

上述的组合也应包括在计算机可读介质的范围内。以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频虚化处理方法，其特征在于，所述方法包括：

响应于对目标视频进行的虚化处理操作，终端设备获取所述目标视频中的图像序列以及所述图像序列中各图像对应的观测角度；

所述终端设备利用所述图像序列中的各图像对应的各位置、以及所述图像序列中各图像对应的观测角度，训练得到目标神经辐射场；所述目标神经辐射场用于获得图像在观测角度下各位置的透明度；

所述终端设备将目标图像对应的目标观测角度、以及所述目标图像对应的各位置输入到所述目标神经辐射场，输出目标图像在所述目标观测角度下各位置的透明度，所述目标图像为所述目标视频中的任一图像；

所述终端设备获取所述目标图像在所述目标观测角度下各位置的透明度中透明度为0时对应的目标位置；

所述终端设备获取所述目标位置中的深度数值，得到目标图像对应的深度图像；

所述终端设备根据所述深度图像对目标图像进行虚化处理，得到所述视频虚化处理结果。

2.根据权利要求1所述的方法，其特征在于，所述终端设备利用所述图像序列中的各图像对应的各位置、以及所述图像序列中各图像对应的观测角度，训练得到目标神经辐射场，包括：

所述终端设备获取训练数据；所述训练数据包括：所述图像序列中的各图像对应的各位置、所述图像序列中各图像对应的观测角度、以及图像序列中的各图像对应的各位置的透明度标签；

所述终端设备使用所述训练数据训练初始神经辐射场，得到所述目标神经辐射场。

3.根据权利要求1或2所述的方法，其特征在于，所述图像序列中各图像对应的观测角度为所述终端设备基于运动恢复结构SFM方法对所述图像序列中的各图像进行三维重建时得到的。

4.根据权利要求1或2所述的方法，其特征在于，所述对目标视频进行的虚化处理操作，包括下述一种或多种：从目标应用中打开所述目标视频的操作、或者用于结束拍摄所述目标视频的操作。

5.一种视频虚化处理装置，其特征在于，所述装置包括：获取单元以及处理单元；

响应于对目标视频进行的虚化处理操作，所述获取单元，用于获取所述目标视频中的图像序列以及所述图像序列中各图像对应的观测角度；

所述处理单元，用于利用所述图像序列中的各图像对应的各位置、以及所述图像序列中各图像对应的观测角度，训练得到目标神经辐射场；所述目标神经辐射场用于获得图像在观测角度下各位置的透明度；

所述处理单元，还用于将目标图像对应的目标观测角度、以及所述目标图像对应的各位置输入到所述目标神经辐射场，输出目标图像在所述目标观测角度下各位置的透明度，所述目标图像为所述目标视频中的任一图像；

所述处理单元，还用于根据所述目标图像在所述目标观测角度下各位置的透明度，对目标图像进行虚化处理，得到视频虚化处理结果；

所述获取单元，具体用于：

获取所述目标图像在所述目标观测角度下各位置的透明度中透明度为0时对应的目标位置；获取所述目标位置中的深度数值，得到目标图像对应的深度图像；

所述处理单元，具体用于：

根据所述深度图像对目标图像进行虚化处理，得到所述视频虚化处理结果。

6.根据权利要求5所述的装置，其特征在于，

所述获取单元，具体用于：获取训练数据；所述训练数据包括：所述图像序列中的各图像对应的各位置、所述图像序列中各图像对应的观测角度、以及图像序列中的各图像对应的各位置的透明度标签；

所述处理单元，具体用于：使用所述训练数据训练初始神经辐射场，得到所述目标神经辐射场。

7.根据权利要求5或6所述的装置，其特征在于，所述图像序列中各图像对应的观测角度为终端设备基于运动恢复结构SFM方法对所述图像序列中的各图像进行三维重建时得到的。

8.根据权利要求5或6所述的装置，其特征在于，所述对目标视频进行的虚化处理操作，包括下述一种或多种：从目标应用中打开所述目标视频的操作、或者用于结束拍摄所述目标视频的操作。

9.一种终端设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序，当所述处理器调用所述计算机程序时，使得所述终端设备执行如权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于实现如权利要求1至4中任一项所述的方法的指令。

11.一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机实现如权利要求1至4中任一项所述的方法。