CN117749979A

CN117749979A - 一种视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN117749979A
Application number: CN202311578024.0A
Authority: CN
Inventors: 常彪
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-03-22

Abstract

本发明实施例提供了一种视频处理方法、装置、电子设备及存储介质。方法包括：获取针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及虚拟现实设备针对第一用户的目标人脸区域拍摄的第二视频；目标人脸区域为所述虚拟现实设备覆盖的人脸区域；根据第一视频和第二视频，生成目标视频；目标视频的图像包括第一用户所处空间的空间图像和第一用户的人脸图像。通过本发明实施例可以当用户佩戴虚拟现实设备时，获取包含第一用户所处空间的空间图像和第一用户清晰无遮挡的脸部图像的目标视频。

Description

一种视频处理方法、装置、电子设备及存储介质

技术领域

本发明涉及视频技术领域，特别是涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

相比写信，语音和电话，视频聊天能直接看到对方和对方周围的环境，通过对方的面部表情观察到更多的信息，增强视频双方的临场感。而当视频双方是通过虚拟现实设备进行视频通信时，由于虚拟现实设备通常为头戴式的设备，会遮挡住视频双方的脸部，导致视频双方无法在视频中清晰看到对方的脸部，影响通信双方的体验感。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法、装置、电子设备及存储介质。

第一方面，本发明实施例公开了一种视频处理方法，包括：

获取针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及所述虚拟现实设备针对所述第一用户的目标人脸区域拍摄的第二视频；所述目标人脸区域为所述虚拟现实设备覆盖的人脸区域；

根据所述第一视频和所述第二视频，生成目标视频；所述目标视频的图像包括所述第一用户所处空间的空间图像和所述第一用户的人脸图像。

可选地，所述目标人脸区域为眼部，所述视频处理方法还包括：

获取所述第一用户的参考图像；所述参考图像包括所述第一用户的参考人脸图像；

所述根据所述第一视频和所述第二视频，生成目标视频，包括：

根据所述第一视频的各帧第一图像，所述第二视频中的各帧第二图像和所述参考图像，生成多帧目标图像，所述目标图像包括所述第一用户所处空间的空间图像和所述第一用户的目标人脸图像，所述目标人脸图像根据所述参考人脸图像和所述第二图像中的眼部图像生成。

可选地，所述根据所述第一视频的各帧第一图像，所述第二视频中的各帧第二图像和所述参考图像，生成多帧目标图像，包括：

将所述参考图像中所述第一用户的人脸图像替换所述各帧第一图像中所述第一用户的人脸图像；

以及将所述各帧第二图像中所述第一用户的眼部图像替换所述各帧第一图像中所述第一用户的眼部图像，以得到多帧目标图像。

可选地，所述将所述各帧第二图像中所述第一用户的眼部图像替换所述各帧第一图像中所述第一用户的眼部图像，以得到多帧目标图像，包括：

将时间戳相同的第一图像和第二图像组成图像对；

将所述图像对中第二图像中的所述第一用户的眼部图像替换第一图像中所述第一用户的眼部图像，以得到目标图像。

可选地，所述第一视频和所述第二视频是在相同起始时间按照相同采样频率拍摄得到。

可选地，所述第一视频为第一拍摄设备拍摄得到，当所述第一用户处于与第二用户进行视频通信的场景时，所述视频处理方法还包括：

获取所述第二用户佩戴的虚拟现实设备的位姿信息；

根据所述第二用户佩戴的虚拟现实设备的位姿信息，生成针对所述第一拍摄设备的控制指令；

根据所述控制指令控制所述第一拍摄设备的位姿。

可选地，所述视频处理方法还包括：

获取所述第一用户的音频；

将所述第一用户的音频与所述目标视频融合，得到目标音视频。

第一方面，本发明实施例公开了一种视频处理装置，包括：

视频获取模块，用于获取针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及所述虚拟现实设备针对所述第一用户的目标人脸区域拍摄的第二视频；所述目标人脸区域为所述虚拟现实设备覆盖的人脸区域；

目标视频生成模块，用于根据所述第一视频和所述第二视频，生成目标视频；所述目标视频的图像包括所述第一用户所处空间的空间图像和所述第一用户的人脸图像。

可选地，所述目标人脸区域为眼部，所述视频处理装置还包括：

参考图像获取模块，用于获取所述第一用户的参考图像；所述参考图像包括所述第一用户的参考人脸图像；

所述目标视频生成模块具体用于：根据所述第一视频的各帧第一图像，所述第二视频中的各帧第二图像和所述参考图像，生成多帧目标图像，所述目标图像包括所述第一用户所处空间的空间图像和所述第一用户的目标人脸图像，所述目标人脸图像根据所述参考人脸图像和所述第二图像中的眼部图像生成。

可选地，所述目标视频生成模块具体用于：将所述参考图像中所述第一用户的人脸图像替换所述各帧第一图像中所述第一用户的人脸图像；以及将所述各帧第二图像中所述第一用户的眼部图像替换所述各帧第一图像中所述第一用户的眼部图像，以得到多帧目标图像。

可选地，所述目标视频生成模块具体用于：将时间戳相同的第一图像和第二图像组成图像对；将所述图像对中第二图像中的所述第一用户的眼部图像替换第一图像中所述第一用户的眼部图像，以得到目标图像。

可选地，所述第一视频为第一拍摄设备拍摄得到，当所述第一用户处于与第二用户进行视频通信的场景时，所述视频处理装置还包括：

位姿信息获取模块，用于获取所述第二用户佩戴的虚拟现实设备的位姿信息；

指令生成模块，用于根据所述第二用户佩戴的虚拟现实设备的位姿信息，生成针对所述第一拍摄设备的控制指令；

第一拍摄设备位姿调整模块，用于根据所述控制指令控制所述第一拍摄设备的位姿。

可选地，所述视频处理装置还包括：

音频获取模块，用于获取所述第一用户的音频；

音视频融合模块，用于将所述第一用户的音频与所述目标视频融合，得到目标音视频。

第三方面，本发明实施例公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的视频处理方法的步骤。

第四方面，本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的视频处理方法的步骤。

本发明实施例包括以下优点：

通过针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及虚拟现实设备针对第一用户被虚拟现实设备覆盖的人脸区域拍摄的第二视频，生成目标视频；目标视频的图像包括第一用户所处空间的空间图像和第一用户的人脸图像。可以当用户佩戴虚拟现实设备时，生成包含第一用户所处空间的空间图像和第一用户清晰无遮挡的脸部图像的目标视频。

附图说明

图1是本发明实施例提供的一种视频处理方法的步骤流程图；

图2是本发明实施例提供的另一种视频处理方法的步骤流程图；

图3是本发明实施例提供的一种设备连接示意图；

图4是本发明实施例提供的一种视频处理方法的流程图；

图5是本发明实施例提供的一种视频处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

鉴于相关技术中，当视频双方通过虚拟现实设备进行视频通信时，存在虚拟现实设备会遮挡住视频双方的脸部，导致视频双方无法在视频中清晰看到对方的脸部，影响视频双方体验感的问题。本发明旨在通过获取针对佩戴虚拟现实设备的用户拍摄的第一视频，以及虚拟现实设备针对虚拟现实设备覆盖的人脸区域拍摄的第二视频，来合成目标视频，以提供一个包括第一用户所处空间的空间图像和第一用户清晰无遮挡的脸部图像的视频。

参照图1，示出了本发明实施例提供的一种视频处理方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤101，获取针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及虚拟现实设备针对第一用户的目标人脸区域拍摄的第二视频；目标人脸区域为虚拟现实设备覆盖的人脸区域。

在第一用户所处空间可以设置有第一拍摄设备，当第一用户佩戴虚拟现实(Virtual Reality，VR)设备时，第一拍摄设备可以针对于第一用户进行拍摄，得到第一视频。第一视频中包括第一用户的图像和第一用户所处空间的空间图像。

虚拟现实设备中可以设置有摄像装置，当第一用户佩戴虚拟现实设备时，虚拟现实设备可以针对于虚拟现实设备所覆盖的人脸区域进行拍摄，得到第二视频。人脸区域可以包括额头、眼睛、鼻子、嘴巴、耳朵、下巴和头发等区域中的至少一个区域。

例如，若虚拟现实设备为眼镜样式的设备，则可以针对于虚拟现实设备所覆盖的眼睛区域进行拍摄；若虚拟现实设备为头盔样式的设备，则可以针对于虚拟现实设备所覆盖的额头、眼睛、鼻子、嘴巴、耳朵、下巴和头发区域也即头部区域进行拍摄。

步骤102，根据第一视频和第二视频，生成目标视频；目标视频的图像包括第一用户所处空间的空间图像和第一用户的人脸图像。

由于第一视频中第一用户的脸部会被第一用户佩戴的虚拟现实设备遮盖，而第二视频中则包括第一用户脸部被遮盖的那部分图像。因此，可以将第一视频和第二视频进行合成，得到目标视频，目标视频中包括第一用户所处空间的空间图像和第一用户的图像，且第一用户的脸部的图像是清晰完整的。

本发明实施例中，通过针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及虚拟现实设备针对第一用户被虚拟现实设备覆盖的人脸区域拍摄的第二视频，生成目标视频；目标视频的图像包括第一用户所处空间的空间图像和第一用户的人脸图像。可以当用户佩戴虚拟现实设备时，获取包含第一用户所处空间的空间图像和第一用户清晰无遮挡的脸部图像的目标视频。

在一种实施例中，得到目标视频后，可以对目标视频进行增强现实(AugmentedReality，AR)技术处理，得到AR处理视频；以及获取第一用户的音频；将AR处理视频与音频进行融合，得到目标音视频；将目标音视频发送至第二用户的虚拟现实设备，以使目标音视频通过第二用户的虚拟现实设备在第二用户侧进行显示。

参照图2，示出了本发明实施例提供的另一种视频处理方法的步骤流程图，所述方法具体可以包括如下步骤：

步骤201，获取针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及虚拟现实设备针对第一用户的眼部拍摄的第二视频。

通过虚拟现实设备针对虚拟现实设备覆盖的人脸区域进行拍摄，可能存在拍摄不够清晰，或者需要在虚拟现实设备中设置多个拍摄装置，增加设备成本的问题。

因此，虚拟现实设备可以只针对于第一用户的眼部进行拍摄，得到第二视频。

步骤202，获取第一用户的参考图像；参考图像包括第一用户的参考人脸图像。

虚拟现实设备覆盖的除眼部外的其他人脸区域的图像，则可以通过第一用户的参考图像获取。第一用户的参考图像可以是第一用户上传的日常照片中第一用户指定的其中一张照片，或者可以是第一用户上传的多张日常照片中，与第一用户当前发型，和/或当前发饰，和/或当前耳饰相同的一张照片，或者还可以是在第一用户佩戴上虚拟现实设备之前针对于第一用户拍摄的照片。

参考图像中包括第一用户的参考人脸图像。

步骤203，根据第一视频的各帧第一图像，第二视频中的各帧第二图像和参考图像，生成多帧目标图像，目标图像包括第一用户所处空间的空间图像和第一用户的目标人脸图像，目标人脸图像根据参考人脸图像和第二图像中的眼部图像生成。

由于第一视频中第一用户的脸部会被第一用户佩戴的虚拟现实设备遮盖，而第一用户的参考图像中则包括第一用户脸部被遮盖的那部分图像。因此，可以将参考图像中第一用户的人脸图像替换各帧第一图像中第一用户的人脸图像，使得第一视频中的第一用户的人脸部分清晰无遮挡。而为了使得生成的目标视频中第一用户的眼神神态能够与现实中第一用户的眼神神态保持一致，因此，可以再将各帧第二图像中第一用户的眼部图像替换各帧第一图像中第一用户的眼部图像，以得到多帧目标图像。

两个替换步骤没有先后顺序的限制，可以先替换各帧第一图像中第一用户的人脸图像，再替换各帧第一图像中第一用户的眼部图像。也可以先替换各帧第一图像中第一用户的眼部图像，再替换各帧第一图像中第一用户的人脸图像，当眼部图像先替换，人脸图像后替换时，需要注意进行人脸图像替换时，保留上一步已替换的眼部图像。或者，还可以先将参考图像中的人脸图像与各帧第二图像中的眼部图像进行合成，合成得到多帧目标人脸图像，再将多帧目标人脸图像替换各帧第一图像中第一用户的人脸图像。

在一种实施例中，将各帧第二图像中第一用户的眼部图像替换各帧第一图像中第一用户的眼部图像，以得到多帧目标图像的步骤，具体可以包括：将时间戳相同的第一图像和第二图像组成图像对；将图像对中第二图像中的第一用户的眼部图像替换第一图像中第一用户的眼部图像，以得到目标图像。

拍摄第一视频时，可以记录第一视频中各帧第一图像的时间戳；拍摄第二视频时，同样也可以记录各帧第二图像的时间戳。则在生成目标图像时，可以将第一图像的时间戳和第二图像的时间戳进行匹配处理，将时间戳相同的第一图像和第二图像组成图像对，替换过程中，则可以直接将图像对中第二图像中的第一用户的眼部图像替换第一图像中第一用户的眼部图像，以得到目标图像。

在本发明实施例中，第一视频和第二视频可以是在相同起始时间按照相同采样频率拍摄得到，如此可以保证各帧第一图像的时间戳和各帧第二图像的时间戳是相互匹配的。

在本发明实施例中，视频处理方法还包括：对多帧目标视频进行采样处理，得到待发送视频帧；将待发送视频帧发送给第二用户，其中，对多帧目标视频的采样频率低于拍摄第一视频时的采样频率。例如，拍摄第一视频时的采样频率为每10ms拍摄得到一帧第一图像，而多多帧目标视频的采样频率可以为每100ms采样一次。

在一种实施例中，第一视频为第一拍摄设备拍摄得到，当第一用户处于与第二用户进行视频通信的场景时，视频处理方法还可以包括：获取第二用户佩戴的虚拟现实设备的位姿信息；根据第二用户佩戴的虚拟现实设备的位姿信息，生成针对第一拍摄设备的控制指令；根据控制指令控制第一拍摄设备的位姿。

当第一用户处于与第二用户进行视频通信的场景时，可以通过第一拍摄设备针对于第一用户进行拍摄，得到第一视频。而在第一设备拍摄过程中，可以获取第二用户佩戴的虚拟现实设备的位姿信息，位姿信息包括位置信息和姿势信息。第二用户佩戴的虚拟现实设备的位姿信息可以通过第二用户佩戴的虚拟现实设备中的位置传感器获取，位置传感器可以包括陀螺仪，加速度计等。当获取到第二用户佩戴的虚拟现实设备的位姿信息后，可以生成控制指令，通过控制指令控制第一拍摄设备的位姿，使得第一拍摄设备的位姿与第二用户佩戴的虚拟现实设备的位姿保持一致。

例如，当第一用户与第二用户进行视频通信时，第二用户头部左转了45°，也即第二用户佩戴的虚拟现实设备左转了45°，则对第一用户进行拍摄的第一拍摄设备同样也左转45°；当第二用户头部向下旋转了45°时，则第一拍摄设备同样也向下旋转45°。

在本发明实施例中，第一拍摄设备的位姿调整过程具体可以为：当开启第一拍摄设备时，提示第一用户头部居正，并正对第一拍摄设备；当第一用户头部居正并且与第一拍摄设备正对时，将第一拍摄设备的当前位置作为第一拍摄设备的初始位置。当第二用户使用虚拟现实设备时，提示第二用户头部居正，当第二用户头部居正时，将第二用户佩戴的虚拟现实设备的当前位置作为第二用户佩戴的虚拟现实设备的初始位置。获取第二用户佩戴的虚拟现实设备的实时位置，并根据第二用户佩戴的虚拟现实设备的实时位置与第二用户佩戴的虚拟现实设备的初始位置，确定所述第二用户佩戴的虚拟现实设备的位移信息。根据第一拍摄设备的初始位置和第二用户佩戴的虚拟现实设备的位移信息，调节第一拍摄设备的位置。

在本发明实施例中，可以营造第一用户与第二用户在同一空间环境面对面交流的视觉效果，进一步增强视频双方的临场感。

参照图3，示出了本发明实施例提供的一种设备连接示意图。第一用户与第一拍摄设备正对，第一用户佩戴有眼镜样式的虚拟现实设备，第一用户佩戴的虚拟现实设备与第一拍摄设备通过线缆连接，以及与第二用户佩戴的虚拟现实设备无线连接。

参照图4，示出了本发明实施例提供的一种视频处理方法的流程图。当第一用户佩戴的第一虚拟现实设备接收到第二用户佩戴的第二虚拟现实设备发起的视频请求时，第一虚拟现实设备检测第一拍摄设备是否与本设备连接。如果检测到第一拍摄设备与本设备正常连接，则征询第一用户是否进入online视频模式。若第一用户同意进入online视频模式，则开启第一拍摄设备。第一拍摄设备通过对周围环境的扫描，锁定第一用户，并以第一用户为中心进行空间环境和人物视频的拍摄，得到第一视频，并记录拍摄的第一视频中每帧第一图像的时间戳。以及，第一拍摄设备在拍摄过程中实时根据第二虚拟现实设备发送过来的位置信息调整自身镜头的位置，第二虚拟现实设备通过内置的位置传感器实时采集自身的位置信息，并通过相关的信息处理单元和模数转换单元，将位置信息转换成ADC(Analogto Digital Converter，模拟数字转换器)数字信息发送至第一拍摄设备。第一拍摄设备将拍摄的第一视频通过有线或无线的方式发送至第一虚拟现实设备。当第一用户同意进入online视频模式的同时，第一虚拟现实设备通过内置的摄像头拍摄第一用户的眼部图像，得到第二视频，并记录拍摄的第二视频中每帧第二图像的时间戳。第一虚拟现实设备获取服务器中存储的第一用户的日常照片，将第一图像中第一用户的眼部图像替换为同一时间戳的第二图像中的第一用户的眼部图像，以及将第一图像中第一用户的脸部图像替换为日常照片中第一用户的脸部图像，得到目标视频。将目标视频进行现实增强技术处理，并与第一用户的音频进行融合，得到目标音视频。将目标音视频发送至第二虚拟现实设备。第二虚拟现实设备以第一视角的形式通过配备的高分辨率显示屏幕将目标音视频进行显示播放，创造出一种第一用户跟第二用户在同一空间环境3D立体面对面交流的视觉，进一步增强双方的临场感。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明实施例提供的一种视频处理装置的结构框图，具体可以包括如下模块：

视频获取模块301，用于获取针对佩戴虚拟现实设备的第一用户拍摄的第一视频，以及所述虚拟现实设备针对所述第一用户的目标人脸区域拍摄的第二视频；所述目标人脸区域为所述虚拟现实设备覆盖的人脸区域；

目标视频生成模块302，用于根据所述第一视频和所述第二视频，生成目标视频；所述目标视频的图像包括所述第一用户所处空间的空间图像和所述第一用户的人脸图像。

所述目标视频生成模块302具体用于：根据所述第一视频的各帧第一图像，所述第二视频中的各帧第二图像和所述参考图像，生成多帧目标图像，所述目标图像包括所述第一用户所处空间的空间图像和所述第一用户的目标人脸图像，所述目标人脸图像根据所述参考人脸图像和所述第二图像中的眼部图像生成。

可选地，所述目标视频生成模块302具体用于：将所述参考图像中所述第一用户的人脸图像替换所述各帧第一图像中所述第一用户的人脸图像；以及将所述各帧第二图像中所述第一用户的眼部图像替换所述各帧第一图像中所述第一用户的眼部图像，以得到多帧目标图像。

可选地，所述目标视频生成模块302具体用于：将时间戳相同的第一图像和第二图像组成图像对；将所述图像对中第二图像中的所述第一用户的眼部图像替换第一图像中所述第一用户的眼部图像，以得到目标图像。

可选地，所述视频处理装置还包括：

音频获取模块，用于获取所述第一用户的音频；

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频处理方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的视频处理方法，其特征在于，所述目标人脸区域为眼部，所述方法还包括：

3.根据权利要求2所述的视频处理方法，其特征在于，所述根据所述第一视频的各帧第一图像，所述第二视频中的各帧第二图像和所述参考图像，生成多帧目标图像，包括：

4.根据权利要求3所述的视频处理方法，其特征在于，所述将所述各帧第二图像中所述第一用户的眼部图像替换所述各帧第一图像中所述第一用户的眼部图像，以得到多帧目标图像，包括：

将时间戳相同的第一图像和第二图像组成图像对；

5.根据权利要求4所述的视频处理方法，其特征在于，所述第一视频和所述第二视频是在相同起始时间按照相同采样频率拍摄得到。

6.根据权利要求1所述的视频处理方法，其特征在于，所述第一视频为第一拍摄设备拍摄得到，当所述第一用户处于与第二用户进行视频通信的场景时，所述方法还包括：

获取所述第二用户佩戴的虚拟现实设备的位姿信息；

根据所述控制指令控制所述第一拍摄设备的位姿。

7.根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括：

获取所述第一用户的音频；

8.一种视频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的视频处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的视频处理方法的步骤。