CN110266973B

CN110266973B - 视频处理方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110266973B
Application number: CN201910657251.XA
Authority: CN
Inventors: 胡贝
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2020-08-25
Anticipated expiration: 2039-07-19
Also published as: CN110266973A

Abstract

本申请涉及一种视频处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取视频的每一帧的人像信息，所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息；获取模板图像，根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像；利用处理后的所述模板图像对应替换所述视频的每一帧。本申请提供的方案可以实现处理后的模板图像适应各个视频场景，提升了视频中替换图像和被替换图像之间的融合度。

Description

视频处理方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视频处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着多媒体技术的发展，具有视频处理功能的应用受到广大用户的青睐，该种应用以视频为载体，通过图像处理算法更改视频中人物的容貌、表情、体型等，常见的比如视频换脸应用，利用用户头像的照片替换视频中目标人物的人脸，从而给用户带来娱乐。

然而，目前的视频换脸应用大多只是将用户头像的照片覆盖至视频中目标人物的人脸位置，随着视频的动态播放，被替换位置一直是静态的照片，导致视频中图像割裂。

发明内容

基于此，有必要针对目前的替换视频中图像割裂的技术问题，提供一种视频处理方法、装置、计算机可读存储介质和计算机设备。

一种视频处理方法，包括：

获取视频的每一帧的人像信息，所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息；

获取模板图像，根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像，其中，处理后的所述模板图像的第二位置信息与所述第一位置信息匹配，处理后的所述模板图像的第二偏移信息与所述第一偏移信息匹配，处理后的所述模板图像的第二尺寸信息大于所述第一尺寸信息；

利用处理后的所述模板图像对应替换所述视频的每一帧。

一种视频处理装置，所述装置包括：

获取模块，用于获取视频的每一帧的人像信息，所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息，所述人体部位包括头部和身体中的至少一个；

处理模块，用于获取模板图像，根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像，其中，处理后的所述模板图像的第二位置信息与所述第一位置信息匹配，处理后的所述模板图像的第二偏移信息与所述第一偏移信息匹配，处理后的所述模板图像的第二尺寸信息大于所述第一尺寸信息；

替换模块，用于利用处理后的所述模板图像对应替换所述视频的每一帧。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述视频处理方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述视频处理方法的步骤。

上述视频处理方法、装置、计算机可读存储介质和计算机设备，获取视频的每一帧的人像信息，根据人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理模板图像，其中，处理后的模板图像的第二位置信息与视频中目标人物的人体部位的第一位置信息匹配，处理后的模板图像的第二偏移信息与第一偏移信息匹配，处理后的模板图像的第二尺寸信息大于第一尺寸信息，利用处理后的模板图像对应替换视频的每一帧。这样，根据视频每一帧的人像信息处理模板图像，再利用处理后的模板图像对应替换视频的每一帧，使得处理后的模板图像适应各个视频场景，提升了视频中替换图像和被替换图像之间的融合度。

附图说明

图1为一个实施例中视频处理方法的应用环境图；

图2为一个实施例中视频处理方法的流程示意图；

图3为一个实施例中视频处理前的界面示意图；

图4为一个实施例中视频处理后的界面示意图；

图5为另一个实施例中视频处理后的界面示意图；

图6为一个实施例中拍照界面示意图；

图7为一个实施例中照片处理的流程示意图；

图8为一个实施例中视频处理方法的流程示意图；

图9为另一个实施例中视频处理方法的流程示意图；

图10为又一个实施例中视频处理方法的流程示意图；

图11为一个实施例中应用界面示意图；

图12为再一个实施例中视频处理方法的流程示意图；

图13为一个实施例中语音输入界面示意图；

图14为一个实施例中语音处理的示意图；

图15为再一个实施例中视频处理方法的流程示意图；

图16为一个实施例中视频合成流程；

图17为另一个实施例中视频合成流程；

图18为一个实施例中视频处理装置的结构框图；

图19为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中视频处理方法的应用环境图。参照图1，该视频处理方法应用于视频处理系统，该视频处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种视频处理方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2，该视频处理方法具体包括如下步骤：

步骤202，获取视频的每一帧的人像信息，所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息。

其中，目标人物是指视频中待替换人体部位和/或语音的人物，在视频中只有一个人物时，将该人物作为目标人物；在视频中有多个人物时，目标人物可由用户选定，比如用户通过点击等触发操作选定目标人物。

其中，人体部位包括头颈部(头、颈)、躯干部(胸、背、脊椎)、上肢部(肩、上臂、前臂、手)和下肢部(臀、大腿、小腿、足)。本实施例所述方法可部分替换视频中目标人物的人体部位，比如只替换视频中目标人物的头部；也可整体替换视频中的目标人物。

其中，人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息，第一位置信息用于表征目标人物的人体部位在视频帧中的位置(比如通过X坐标值和Y坐标值表征位置)，第一尺寸信息用于表征目标人物的人体部位在视频帧中的尺寸，第一偏移信息用于表征目标人物的人体部位在视频帧中的偏移方向和偏移角度。

具体地，终端110(或服务器120)获取视频，对视频进行解码操作，得到视频的视频帧和每一视频帧对应的人像信息。视频帧包括I帧、P帧和B帧，I帧为关键帧，其存储有完整的帧数据，P帧和B帧分别为前向预测帧和双向运动帧。在一个实施例中，终端提取I帧的人像信息，根据I帧的人像信息计算得到P帧和B帧的人像信息，从而获取视频每一帧的人像信息。

步骤204，获取模板图像，根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像，其中，处理后的所述模板图像的第二位置信息与所述第一位置信息匹配，处理后的所述模板图像的第二偏移信息与所述第一偏移信息匹配，处理后的所述模板图像的第二尺寸信息大于所述第一尺寸信息。

其中，模板图像是用于替换视频中目标人物的人体部位的图像，比如，模板图像可以是用户头部的图像。需要说明的是，视频的每一帧均有对应的模板图像。

其中，第二位置信息用于表征模板图像在视频帧中的位置(比如通过X坐标值和Y坐标值表征位置)，第二尺寸信息用于表征模板图像在视频帧中的尺寸，第二偏移信息用于表征模板图像在视频帧中的偏移方向和偏移角度。

具体地，可从第一存储空间中提取模板头像，也可从第二存储空间中根据用户的选定操作提取模板头像，也可通过摄像头获取初始模板图像，对初始模板图像进行裁剪处理后得到模板图像。在一个实施例中，所述获取模板图像的步骤包括：通过摄像头获取初始模板图像，在初始模板图像中有人体部位时，基于人体部位裁剪初始模板图像，得到模板图像。在另一个实施例中，所述获取模板图像的步骤包括：通过摄像头获取初始模板图像，在初始模板图像中有人体部位时，基于人体部位裁剪初始模板图像，获取修饰图片，将修饰图片与裁剪后的初始模板图像执行合并操作，得到模板图像。

具体地，可根据第一位置信息确定第二位置信息，并按照第二位置信息移动模板图像，以使得第一位置信息与第二位置信息匹配，即第一位置信息可与第二位置信息相同，或者第一位置信息与第二位置信息之间的差值在预设范围内。在一实施例中，根据第一位置信息确定所述模板图像在预设纹理图片中的目标位置，移动模板图像至所述目标位置。

具体地，可根据第一尺寸信息确定第二尺寸信息，并按照第二尺寸信息缩小或者放大模板图像，以使得第二尺寸信息大于第一尺寸信息，第二尺寸信息与第一尺寸信息之间的差值可根据实际应用进行设定。

具体地，可根据第一偏移信息确定第二偏移信息，并按照第二偏移信息旋转模板图像，以使得第一偏移信息与第二偏移信息匹配，即第一偏移信息可与第二偏移信息相同，或者第一偏移信息与第二偏移信息之间的差值在预设范围内。

需要说明的是，第一位置信息、第一尺寸信息和第一偏移信息的处理顺序不做限定。

步骤206，利用处理后的所述模板图像对应替换所述视频的每一帧。

具体地，利用处理后的模板图像替换对应的视频帧，在对视频的每一帧执行替换操作后，对视频帧执行编码操作，得到替换后的视频。

在一实施例中，将视频的每一帧转换为纹理图片，将每一纹理图片和对应的包括模板图像的预设纹理图片执行合并操作，以对应替换所述视频的每一帧。

以图3至图5为例，图3为视频替换前的效果，图4和图5为视频替换后的效果，可以理解，为了保护用户的肖像，所以以卡通图片作为示例。

本实施例公开的技术方案中，根据视频每一帧的人像信息处理模板图像，再利用处理后的模板图像对应替换视频的每一帧，使得处理后的模板图像适应各个视频场景，提升了视频中替换图像和被替换图像之间的融合度。

在一个实施例中，所述获取视频的每一帧的人像信息的步骤包括：

获取所述视频的I帧的人像信息；

根据所述I帧的人像信息计算P帧和B帧的人像信息，得到所述视频的每一帧的人像信息。

本实施例公开的技术方案中，视频帧包括I帧、P帧和B帧，其中I帧为关键帧，其存储有完整的帧数据，可根据相邻两个I帧的人像信息，通过差值平滑过渡计算出两个I帧之间每一帧的人像信息。

以第一位置信息中的X坐标值为例进行说明：假设第n个I帧和第m个I帧的X坐标值分别为100、200，则第n个I帧和第m个I帧之间每一帧的差值为delta＝(200-100)/(m-n)，那么第n+1个视频帧的X坐标值即为100+delta。同理，两个I帧之间每一帧的第一尺寸信息和第一偏移信息均可按照上述方法进行计算。

本实施例公开的技术方案中，通过I帧的人像信息计算P帧和B帧的人像信息，得到视频每一帧的人像信息，从而根据视频每一帧的人像信息对模板图像进行处理，提升了模板图像与视频帧之间的契合度。

在一个实施例中，所述获取模板图像的步骤包括：

通过摄像头获取初始模板图像；

在所述初始模板图像中有人体部位时，基于所述人体部位裁剪所述初始模板图像，得到所述模板图像。

其中，初始模板图像是指通过摄像头获取的用户的照片。以人体部位为头部为例，基于头部轮廓对初始模板图像进行裁剪，所得到的用户的头部的照片即为模板图像。

具体地，调用终端的摄像头获取原始模板图像。在拍摄过程中，如图6所示，可输出拍摄模板引导用户进行拍照，以使得用户将人体部位置于拍摄界面的指定位置，便于后期裁剪。当检测到镜头中的人体部位不符合拍摄要求，比如偏移程度较大、不完整等，可输出文字或者语音提示信息，引导用户进行拍照。具体地，如图7所示，采用识别算法基于人体部位裁剪初始模板图像。以人体部位为头部为例，可采用基于深度学习方法的MTCNN人脸检测系统裁剪初始模板图像：全卷积网络P-Net生成候选窗和边框回归向量(bounding boxregression vectors)，利用Bounding box regression校正候选窗，使用非极大值抑制(NMS)合并重叠的候选框；将通过P-Net的候选窗输入R-Net中，拒绝掉大部分false的窗口，继续使用Bounding box regression和NMS合并；使用O-Net输出最终的人脸框。本实施例公开的技术方案中，通过摄像头获取初始模板图像，并基于人体部位裁剪初始模板图像得到模板图像，以去除模板图像中的背景，突出人体部位。

在一个实施例中，所述在所述初始模板图像中有人体部位时，基于所述人体部位裁剪所述初始模板图像，得到所述模板图像的步骤包括：

在所述初始模板图像中有人体部位时，基于所述人体部位裁剪所述初始模板图像；

获取修饰图片，将所述修饰图片与裁剪后的所述初始模板图像执行合并操作，得到所述模板图像。

其中，修饰图片用于修饰裁剪后的初始模板图像。所述修饰图片可以是帽子、眼镜、饰品等修饰物，也可以是眼睛、鼻子、嘴巴、耳朵等人像特征部位。修饰图片可以是预设的，也可以是基于用户的触发操作选定的。

具体地，可在纹理图片上执行所述修饰图片与裁剪后的初始模板图像的合并操作。

以人体部位为头部为例，如图8所示，启动相机，拍摄用户照片，检测用户照片中是否有人脸，若有，基于深度学习方法的MTCNN人脸检测系统进行裁剪操作，在裁剪后的用户照片中添加修饰图片(比如帽子)，生成用户头像。解码视频，得到视频的每一帧和每一帧对应的人像信息，利用每一帧对应的人像信息处理用户头像，再用处理后的用户头像对应替换视频的每一帧，即可得到替换后的视频，替换头像效果可参照图5。

本实施例公开的技术方案中，通过修饰图片增加替换视频的有趣性。

在一个实施例中，所述根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像的步骤包括：根据所述第一位置信息确定所述模板图像在预设纹理图片中的目标位置，移动所述模板图像至所述目标位置；根据所述第一尺寸信息确定所述模板图像的第二尺寸信息，按照所述第二尺寸信息缩放所述模板图像；根据所述第一偏移信息确定所述模板图像的第二偏移信息，按照所述第二偏移信息旋转所述模板图像。

其中，预设纹理图片可以是空白纹理图片，所述预设纹理图片的尺寸与视频帧的尺寸一致。预设纹理图片用于与视频帧的纹理图片执行合并操作，以通过预设纹理图片上处理后的模板图像替换视频帧的纹理图片上的人体部位，因此第二位置信息与第一位置信息匹配(即第一位置信息可与第二位置信息相同，或者第一位置信息与第二位置信息之间的差值在预设范围内)、第二尺寸信息大于第一尺寸信息、第一偏移信息与第二偏移信息匹配(即第一偏移信息可与第二偏移信息相同，或者第一偏移信息与第二偏移信息之间的差值在预设范围内)。

可以理解，之所以设置第二尺寸信息大于第一尺寸信息，一是因为P帧和B帧的人像信息是通过I帧计算得到的，与P帧和B帧真实的人像信息会有些许出入，因此设置第二尺寸信息大于第一尺寸信息，这样即使计算得到的P帧和B帧的人像信息有些许偏差，尺寸较大的模板图像也可以覆盖P帧和B帧的人体部位，保证了视频效果；二是模板图像尺寸较大也可以增加视频的有趣性。

具体地，第一位置信息、第一尺寸信息和第一偏移信息的处理顺序不做限定，作为一较佳的实施例，首先根据第一位置信息确定模板图像在预设纹理图片中的目标位置，移动模板图像至目标位置，然后根据第一尺寸信息确定模板图像的第二尺寸信息，按照第二尺寸信息缩放模板图像，最后根据第一偏移信息确定第二偏移信息，根据第二偏移信息旋转模板图像。

本实施例公开的技术方案中，根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理模板图像，使得模板图像更加切合每一帧对应的视频场景。

在一个实施例中，所述利用处理后的所述模板图像对应替换所述视频的每一帧的步骤包括：

将所述视频的每一帧转换为纹理图片；

将每一所述纹理图片和对应的包括所述模板图像的预设纹理图片执行合并操作，以对应替换所述视频的每一帧。

具体地，如图9所示，将视频的每一帧转换为纹理图片，将每一帧的纹理图片以及该帧的人像信息输入至Opengl，Opengl根据每一帧的人像信息在每一预设纹理图片上处理模板图像，然后将每一预设纹理图片与对应的纹理图片一起绘制到Surface上，即完成合并操作。

本实施例公开的技术方案中，将每一纹理图片和对应的包括模板图像的预设纹理图片执行合并操作，以对应替换视频的每一帧，使得模板图像更加切合每一帧对应的视频场景。

在一个实施例中，所述方法还包括：

获取所述视频中目标人物发出语音的起始位置；

接收输入的语音，并记录所述语音的时长；

根据所述起始位置、所述语音和所述语音的时长生成输入的音轨数据；

利用所述输入的音轨数据替换所述视频中目标人物的音轨数据。

其中，输入的语音是指终端接收到的来自外界的语音，可选的，输入的语音为终端接收到的用户发出的语音。

具体地，如图10所示：

1)终端110(或服务器120)在获取到视频时，对视频进行解码操作，得到视频的视频帧和每一视频帧对应的人像信息；

2)获取视频中目标人物发出语音的起始位置；

3)获取视频的背景音乐，其中，背景音乐是指视频中除去目标人物的语音的语音部分；

4)将背景音乐、目标人物发出语音的起始位置、视频帧和每一视频帧对应的人像信息存储至预设区域，其中，预设区域可以是终端110的存储区域，也可以是服务器120的存储区域；

5)获取模板图像，按照人像信息处理模板图像，利用处理后的模板图像对应替换每一视频帧，对替换后的视频帧进行编码操作，得到新的视频帧；

6)接收输入的语音，根据所述语音、所述语音的时长和目标人物发出语音的起始位置生成输入的音轨数据；

7)将输入的音轨数据与背景音乐的音轨数据合并，得到新的音频；

8)将新的视频帧和新的音频执行合并操作，得到替换了人体部位和输入语音的视频。

需要说明的是，也可以只替换视频中的音频，方法如下：

1)终端110(或服务器120)在获取到视频时，对视频进行解码操作，得到视频的视频帧；

2)获取视频中目标人物发出语音的起始位置；

3)获取视频的背景音乐；

4)将背景音乐、目标人物发出语音的起始位置存储至预设区域；

5)接收输入的语音，根据所述语音、所述语音的时长和目标人物发出语音的起始位置生成输入的音轨数据；

6)将输入的音轨数据与背景音乐的音轨数据合并，得到新的音频；

7)将编码后的视频帧和新的音频执行合并操作，得到替换了语音的视频。

本实施例公开的技术方案中，利用输入的语音替换视频中目标人物的语音，使得视频整体氛围更加和谐。

在一个实施例中，所述利用所述输入的音轨数据替换所述视频中目标人物的音轨数据的步骤包括：

获取所述视频中背景音乐的音轨数据；

将所述输入的音轨数据与所述背景音乐的音轨数据执行合并操作，以替换所述视频中目标人物的音轨数据。

本实施例公开的技术方案中，将输入的音轨数据与背景音乐的音轨数据执行合并操作，使得输入语音很好地融合入视频中。

在一个实施例中，所述方法还包括：

获取所述视频中目标人物发出语音的起始位置，根据所述起始位置确定调整节点；

在所述调整节点处调用对应的模板图像，其中，不同调整节点对应的模板图像中的人像特征部位的第三位置信息、第三尺寸信息和第三偏移信息中的至少一个不同。

其中，调整节点是指待调整人像特征部位的视频帧。

其中，第三位置信息用于表征人像特征部位在模板图像中的位置(比如通过X坐标值和Y坐标值表征位置)，第三尺寸信息用于表征人像特征部位在模板图像中的尺寸，第三偏移信息用于表征人像特征部位在模板图像中的偏移方向和偏移角度。

其中，人像特征部位是人体部位的下位概念，其可以是嘴巴、鼻子、眼睛、耳朵等，在采用识别算法基于人体部位裁剪初始模板图像时，即可确定人像特征部位。具体地，以人体部位为头部为例：全卷积网络P-Net生成候选窗和边框回归向量(bounding boxregression vectors)，利用Bounding box regression校正候选窗，使用非极大值抑制(NMS)合并重叠的候选框；将通过P-Net的候选窗输入R-Net中，拒绝掉大部分false的窗口，继续使用Bounding box regression和NMS合并；使用O-Net输出最终的人脸框和特征点，在特征点中确定人像特征部位。

在获取到模板图像后，对模板图像上的人像特征部位进行处理，得到与模板图像的人像特征部位的第三位置信息、第三尺寸信息和第三偏移信息中的至少一个不同的其它模板图像(其它模板图像可以是一个，也可以是多个)，在调整节点处替换模板图像和其它模板图像，以在人像特征部位营造动态效果，比如人像特征部位是嘴巴，那么在视频播放时，会有嘴巴张合模拟讲话的效果。

可以理解，本实施例方案也适用于上述替换输入语音的视频的方案，即人像特征部位配合语音实现动态效果。

本实施例公开的技术方案中，通过在人像特征部位营造动态效果，增加了替换视频的趣味性，也使得视频整体氛围更加和谐。

在一个实施例中，所述根据所述起始位置确定调整节点的步骤之后，还包括：

在所述调整节点处调用对应的模板图像，其中，不同调整节点对应的模板图像中的修饰图片的第四位置信息、第四尺寸信息和第四偏移信息中的至少一个不同。

其中，修饰图片可以是帽子、眼镜、饰品等修饰物，也可以是眼睛、鼻子、嘴巴、耳朵等人像特征部位。修饰图片可以是预设的，也可以是基于用户的触发操作选定的。

其中，第四位置信息用于表征修饰图片在模板图像中的位置(比如通过X坐标值和Y坐标值表征位置)，第四尺寸信息用于表征修饰图片在模板图像中的尺寸，第四偏移信息用于表征修饰图片在模板图像中的偏移方向和偏移角度。

具体地，获取初始模板图像，在初始模板图像中有人体部位时，基于人体部位裁剪初始模板图像，获取修饰图片，将修饰图片与裁剪后的初始模板图像执行合并操作，得到模板图像。其中，在调整节点处对应的模板图像中的修饰图片的第四位置信息、第四尺寸信息和第四偏移信息中的至少一个不同，以在人像特征部位通过修饰物营造动态效果。比如人像特征部位是嘴巴，那么在视频播放时，会有嘴巴修饰物张合模拟讲话的效果。

可以理解，本实施例方案也适用于上述替换输入语音的视频的方案，即修饰物配合语音实现动态效果。

本实施例公开的技术方案中，通过在人像特征部位添加修饰物营造动态效果，增加了替换视频的趣味性，也使得视频整体氛围更加和谐。

在一个具体的实施例中，英语的重要性日益凸显，越来越多的家长开始注重孩子的英语教育，本实施例提供的视频处理方法可用于孩子的英语学习。

具体地，提供一款英语学习应用，如图11所示，该英语学习应用可包括学习乐园、主线课程、我的小窝、图书馆、书架、书籍推荐、电影院、英语资源和英语儿歌等多个模块，上述模块可采用场景化设计，比如动画场景，使得孩子有兴趣来接触该应用，并且，虚拟场景也为孩子提供了学习和使用英文的语境。

如图12所示，该英语学习应用可将AI人脸识别的人像照片拼接到目标人物的头部，合成好玩、有趣的人体形象；同时将语音识别技术融入口语跟读中，将孩子产生的语音替换至视频中；并可将孩子的人像照片和产生的语音合成至视频中。该英语学习应用在完成教学目标的前提下，增强了活动的趣味性与参与度，提高了孩子的使用兴趣。

具体地，如图6所示，在拍摄过程中，加入了AI人脸检测与融合功能，引导孩子拍摄一张完整的正脸头像，系统会对人脸进行检测、五官定位、人脸融合以及智能剪裁。对人脸扫描结果给出实时反馈，合格的人脸会进行效果展示，让孩子和家长使用该图继续合成或重新拍摄。当检测到镜头中的人体部位不符合拍摄要求，比如偏移程度较大、不完整等，可输出文字或者语音提示信息，引导孩子进行拍照。

如图13所示，孩子进入口语打分环节，对孩子的口语跟读进行录音、评价和保存。该英语学习应用会根据不同的动画主题提供相应的单词或语句让孩子跟读：页面上先自动播放一遍标准读音，然后出现一个投递麦克风的动画特效，通过麦克风上的动态声波视觉效果，引导孩子跟读单词或语句。该英语学习应用利用AI智能打分技术，对孩子的跟读语音实时反馈跟读效果，同时，为降低孩子使用该功能可能引起的挫败感，通过智能打分设置多个等级，并全部采用正向积极的面部表情和统一色调给出跟读质量等级。

如图14所示，该英语学习应用还引入了智能静音检测功能，当孩子读完单词或语句后，会自动结束录音，无需孩子手动结束，从而降低了孩子的使用难度；该英语学习应用还引入了降噪技术，保证了孩子跟读语音的清晰度。

如图15所示，获取孩子的人像照片和口语跟读的语音，在应用场景中自动拼接合成。在提供的人像照片中，响应定位到的嘴巴位置，添加开、闭口等动效，这样在播放孩子跟读的语音时，会有模仿孩子讲话的效果。在视频展示页，有重拍和重读功能，用户根据播放效果进行照片和语音的修改，保证视频的效果。

如图16和图17所示，图16和图17分别是Android端和iOS端的视频合成流程。在视频合成部分，基于平台提供的接口，对视频进行编解码，实现边合成边预览。

图2为一个实施例中视频处理方法的流程示意图。应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图18所示，提供了一种视频处理装置100，包括：获取模块101、处理模块102和替换模块103，其中：

获取模块101，用于获取视频的每一帧的人像信息，所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息；

处理模块102，用于获取模板图像，根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像，其中，处理后的所述模板图像的第二位置信息与所述第一位置信息匹配，处理后的所述模板图像的第二偏移信息与所述第一偏移信息匹配，处理后的所述模板图像的第二尺寸信息大于所述第一尺寸信息；

替换模块103，用于利用处理后的所述模板图像对应替换所述视频的每一帧。

本实施例公开的视频处理装置100，根据视频每一帧的人像信息处理模板图像，再利用处理后的模板图像对应替换视频的每一帧，使得处理后的模板图像适应各个视频场景，提升了视频中替换图像和被替换图像之间的融合度。

在一个实施例中，该获取模块101包括获取子模块和计算子模块，所述获取子模块用于获取所述视频的I帧的人像信息；所述计算子模块1012用于根据所述I帧的人像信息计算P帧和B帧的人像信息，得到所述视频的每一帧的人像信息。

在一个实施例中，该处理模块102包括拍摄子模块和裁剪子模块，所述拍摄子模块用于通过摄像头获取初始模板图像；所述裁剪子模块用于在所述初始模板图像中有人体部位时，基于所述人体部位裁剪所述初始模板图像，得到所述模板图像。

在一个实施例中，该裁剪子模块包括裁剪单元和修饰单元，所述裁剪单元用于在所述初始模板图像中有人体部位时，基于所述人体部位裁剪所述初始模板图像；所述修饰单元用于获取修饰图片，将所述修饰图片与裁剪后的所述初始模板图像执行合并操作，得到所述模板图像。

在一个实施例中，该处理模块102还包括移动子模块、缩放子模块、旋转子模块，所述移动子模块用于根据所述第一位置信息确定所述模板图像在预设纹理图片中的目标位置，移动所述模板图像至所述目标位置；所述缩放子模块用于根据所述第一尺寸信息确定所述模板图像的第二尺寸信息，按照所述第二尺寸信息缩放所述模板图像；所述旋转子模块用于根据所述第一偏移信息确定所述模板图像的第二偏移信息，按照所述第二偏移信息旋转所述模板图像。

在一个实施例中，所述替换模块103包括转换子模块和执行子模块，所述转换子模块用于将所述视频的每一帧转换为纹理图片；所述执行子模块用于将每一所述纹理图片和对应的包括所述模板图像的预设纹理图片执行合并操作，以对应替换所述视频的每一帧。

在一个实施例中，所述视频处理装置还包括记录模块和生成模块，所述获取模块101还用于获取所述视频中目标人物发出语音的起始位置；所述记录模块用于接收输入的语音，并记录所述语音的时长；所述生成模块用于根据所述起始位置、所述语音和所述语音的时长生成输入的音轨数据；所述替换模块103还用于利用所述输入的音轨数据替换所述视频中目标人物的音轨数据。

在一个实施例中，所述替换模块103还包括提取子模块，所述提取子模块用于获取所述视频中背景音乐的音轨数据；所述执行子模块还用于将所述输入的音轨数据与所述背景音乐的音轨数据执行合并操作，以替换所述视频中目标人物的音轨数据。

在一个实施例中，所述视频处理装置还包括调用模块，所述获取模块101还用于获取所述视频中目标人物发出语音的起始位置，根据所述起始位置确定调整节点；所述调用模块用于在所述调整节点处调用对应的模板图像，其中，不同调整节点对应的模板图像中的人像特征部位的第三位置信息、第三尺寸信息和第三偏移信息中的至少一个不同。

在一个实施例中，所述调用模块还用于在所述调整节点处调用对应的模板图像，其中，不同调整节点对应的模板图像中的修饰图片的第四位置信息、第四尺寸信息和第四偏移信息中的至少一个不同。

图19示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图19所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图19中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的视频处理装置可以实现为一种计算机程序的形式，计算机程序可在如图19所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频处理装置的各个程序模块，比如，图18所示的获取模块、处理模块和替换模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频处理方法中的步骤。

例如，图19所示的计算机设备可以通过如图18所示的视频处理装置中的获取模块执行步骤202，计算机设备可通过处理模块执行步骤204，计算机设备可通过替换模块执行步骤206。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频处理方法的步骤。此处视频处理方法的步骤可以是上述各个实施例的视频处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频处理方法的步骤。此处视频处理方法的步骤可以是上述各个实施例的视频处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频处理方法，其特征在于，包括：

获取视频的帧内编码帧的人像信息，根据所述帧内编码帧的人像信息计算帧间预测编码帧和双向预测编码帧的人像信息，得到所述视频的每一帧的人像信息；所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息，第一偏移信息用于表征所述目标人物的人体部位在所述视频帧中的偏移方向和偏移角度；

利用处理后的所述模板图像对应替换所述视频的每一帧；

2.根据权利要求1所述的方法，其特征在于，所述根据所述人像信息中的第一位置信息、第一尺寸信息和第一偏移信息处理所述模板图像的步骤包括：

根据所述第一位置信息确定所述模板图像在预设纹理图片中的目标位置，移动所述模板图像至所述目标位置；

根据所述第一尺寸信息确定所述模板图像的第二尺寸信息，按照所述第二尺寸信息缩放所述模板图像；

根据所述第一偏移信息确定所述模板图像的第二偏移信息，按照所述第二偏移信息旋转所述模板图像。

3.根据权利要求2所述的方法，其特征在于，所述利用处理后的所述模板图像对应替换所述视频的每一帧的步骤包括：

将所述视频的每一帧转换为纹理图片；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述视频中目标人物发出语音的起始位置；

接收输入的语音，并记录所述语音的时长；

5.根据权利要求4所述的方法，其特征在于，所述利用所述输入的音轨数据替换所述视频中目标人物的音轨数据的步骤包括：

获取所述视频中背景音乐的音轨数据；

6.根据权利要求1所述的方法，其特征在于，所述根据所述起始位置确定调整节点的步骤之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述获取模板图像的步骤包括：

通过摄像头获取初始模板图像；

8.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取视频的帧内编码帧的人像信息，根据所述帧内编码帧的人像信息计算帧间预测编码帧和双向预测编码帧的人像信息，得到所述视频的每一帧的人像信息；所述人像信息包括视频中目标人物的人体部位的第一位置信息、第一尺寸信息和第一偏移信息，第一偏移信息用于表征所述目标人物的人体部位在所述视频帧中的偏移方向和偏移角度；

替换模块，用于利用处理后的所述模板图像对应替换所述视频的每一帧；

所述获取模块，还用于获取所述视频中目标人物发出语音的起始位置，根据所述起始位置确定调整节点；

调用模块，用于在所述调整节点处调用对应的模板图像，其中，不同调整节点对应的模板图像中的人像特征部位的第三位置信息、第三尺寸信息和第三偏移信息中的至少一个不同。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。