CN110910479A

CN110910479A - 视频处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN110910479A
Application number: CN201911140425.1A
Authority: CN
Inventors: 靳聪; 吕欣; 郭越千; 左翼翀; 赵薇; 李亚杰; 谭丽锋; 王君昊; 王南苏; 帖云
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-24
Anticipated expiration: 2039-11-19
Also published as: CN110910479B

Abstract

本申请提供一种视频处理方法、装置、电子设备及可读存储介质。方法包括：将获取的语料内容输入完成训练的滑动窗口深度学习模型中；根据目标面部模型、语料内容的第一音素序列，通过滑动窗口深度学习模型生成目标面部模型的视频图像，视频图像的口型与语料内容的发音口型相对应。在本方案中，通过利用滑动窗口深度学习模型来对语料内容进行识别处理，从而得到与语料内容的发音口型相对应的视频图像，有利于提高语音动画制作的效率低，降低制作成本。

Description

视频处理方法、装置、电子设备及可读存储介质

技术领域

本发明涉及视频技术领域，具体而言，涉及一种视频处理方法、装置、电子设备及可读存储介质。

背景技术

语音动画，即利用动画效果来设计和表现说话人的面部表情、口型变化等，可以应用在电影、游戏、动画视频等场景中。目前语音动画的制作方式通常为：由动画师逐帧设计制作，或者通过动作捕捉的方式来制作。其中，由动画师制作语音动画时，需要的制作时间长，效率低。通过动作捕捉制作语音动画时，对用于动作捕捉的设备高昂，使得制作成本高。

发明内容

本申请提供一种视频处理方法、装置、电子设备及可读存储介质，能够改善语音动画制作的效率低、成本高的问题。

为了实现上述目的，本申请实施例所提供的技术方案如下所示：

第一方面，本申请实施例提供一种视频处理方法，所述方法包括：

将获取的语料内容输入完成训练的滑动窗口深度学习模型中；根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，所述视频图像的口型与所述语料内容的发音口型相对应。

在上述的实施方式中，通过利用滑动窗口深度学习模型来对语料内容进行识别处理，从而得到与语料内容的发音口型相对应的视频图像，有利于提高语音动画制作的效率低，降低制作成本。

结合第一方面，在一些可选的实施方式中，在将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前，所述方法还包括：

获取训练数据集，所述训练数据集包括多个视频片段，每个视频片段包括第二音素序列及与所述第二音素序列中的音素对应的人脸图像；从人脸图像中确定多个第一特征点，所述多个第一特征点包括所述人脸图像中的下颚及嘴部的第一特征点；将所述第二音素序列通过滑动窗口划分为多个训练组，每个训练组包括时序相邻的多个音频帧；通过所述多个训练组、每个所述训练组对应的视频画面、所述多个第一特征点在所述人脸图像中的位置与所述音频帧的音素的对应关系，训练深度学习模型，得到完成训练的滑动窗口深度学习模型。

在上述的实施方式中，通过将时序相邻的多个音频帧作为训练组对深度学习模型进行训练，得到滑动窗口深度学习模型，使得滑动窗口深度学习模型能够直接基于语料内容生成流畅的视频，无需对视频图像作插值运算，从而有利于简化制作语音动画的流程。

结合第一方面，在一些可选的实施方式中，根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，包括：

从所述目标面部模型中确定与每个所述第一特征点对应的第二特征点；通过所述滑动窗口深度学习模型识别所述第一音素序列得到的与所述第二特征点对应的位移向量，控制所述目标面部模型的所述第二特征点以所述对应的位移向量运动；基于运动后的所述第二特征点的位置及所述目标面部模型生成所述视频图像，所述视频图像包括下颚及嘴部的特征点的位置与对应的所述第二特征点的位置相同的面部图像。

在上述的实施方式中，通过将目标面部模型中的第二特征点与训练的人脸图像的第一特征点相对应，然后基于第二特征点的位移向量控制目标面部模型的面部各个点的运动，从而生成目标面部模型的视频图像，基于此，可以使得生成的视频图像的口型与语料内容的发音口型相对应。

结合第一方面，在一些可选的实施方式中，所述目标面部模型包括脸部模型及口腔模型，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，包括：

通过所述滑动窗口深度学习模型生成所述脸部模型的第一图像及所述口腔模型的第二图像；基于所述第二特征点的位置判断所述第一图像中的嘴部是否呈张开状态；当所述第一图像中的嘴部呈所述张开状态时，在所述第一图像中显示嘴部张开区域中的第二图像的第一区域，并在所述第一图像中隐藏所述第二图像中的除去所述第一区域之外区域。

在上述的实施方式中，通过控制嘴部张开区域显示的画面内容，以在讲话过程中展现嘴部张开后嘴内的细节画面，从而能够提高生成的视频的质量。

当所述语料内容为文本数据时，将所述文本数据转换为语音数据，用于输入完成训练的所述滑动窗口深度学习模型中。

在上述的实施方式中，通将文本数据转换为语音数据，从而能基于文本数据生成与文本数据的发音口型相对应的视频图像。

结合第一方面，在一些可选的实施方式中，所述方法还包括：

通过主动外观模型对每帧所述视频图像中的下颚及嘴部的区域进行优化跟踪处理。

在上述的实施方式中，通过对视频图像的画面进行优化，有利于提高生成视频的画面的流畅度，从而提高视频的质量。

第二方面，本申请实施例还提供一种视频处理装置，所述装置包括：

数据获取单元，用于将获取的语料内容输入完成训练的滑动窗口深度学习模型中；

模型处理单元，用于根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，所述视频图像的口型与所述语料内容的发音口型相对应。

结合第二方面，在一些可选的实施方式中，所述装置还包括特征确定单元、划分单元及模型训练单元；

在所述数据获取单元将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前，所述数据获取单元，还用于获取训练数据集，所述训练数据集包括多个视频片段，每个视频片段包括第二音素序列及与所述第二音素序列中的音素对应的人脸图像；

所述特征确定单元，用于从人脸图像中确定多个第一特征点，所述多个第一特征点包括所述人脸图像中的下颚及嘴部的第一特征点；

所述划分单元，用于将所述第二音素序列通过滑动窗口划分为多个训练组，每个训练组包括时序相邻的多个音频帧；

所述模型训练单元，用于通过所述多个训练组、每个所述训练组对应的视频画面、所述多个第一特征点在所述人脸图像中的位置与所述音频帧的音素的对应关系，训练深度学习模型，得到完成训练的滑动窗口深度学习模型。

第三方面，本申请实施例还提供一种电子设备，所述电子设备包括相互耦合的存储器及处理器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行上述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构示意图。

图2为本申请实施例提供的视频处理方法的流程示意图。

图3为本申请实施例提供的模型训练中的面部图像的示意图。

图4为本申请实施例提供的采用滑动窗口处理语料内容的示意图。

图5为本申请实施例提供的目标面部模型的视频图像的示意图。

图6为本申请实施例提供的视频处理装置的功能框图。

图标：10-电子设备；11-处理模块；12-存储模块；100-视频处理装置；110-数据获取单元；120-模型处理单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，本申请提供一种电子设备10，可以根据语料内容自动生成语音动画。其中，语音动画中的角色通常为虚拟角色，比如为二维动画人物、三维动画人物等。语料内容包括但不限于语音文件、实时录入的语音数据、文本数据等。其中，文本数据的内容可以是但不限于汉字、英文单词、数字等内容。

在本实施例中，电子设备10包括相互耦合的处理模块11及存储模块12，存储模块12中存储有计算机程序，当计算机程序被所述处理模块11执行时，可以使得电子设备10执行下述的视频处理方法中的各步骤。可理解地，视频处理方法、电子设备10可以应用于动画、影视、游戏等场景中的虚拟角色中。例如，虚拟角色为动画中的主持人，电子设备10可以控制动画主持人基于语音文件或文本数据自动完成相应的讲解，从而提高制作语音动画的效率。

其中，电子设备10可以是但不限于个人电脑(Personal Computer，PC)、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动上网设备(Mobile InternetDevice，MID)、服务器等设备。

当然，电子设备10还可以包括其他器件。例如，电子设备10还可以包括显示模块、输入/输出模块、通信模块等。显示模块可以用于显示视频图像或播放视频画面。输入/输出模块可以用于供用户输入参数，以供用户根据情况对滑动窗口深度学习模型进行设置，另外可以输出生成的视频。通信模块可以供电子设备10与其他设备通过网络建立通信连接，以进行数据交互。

处理模块11、存储模块12、通信模块、显示模块、输入/输出模块以及视频处理装置100各个元件之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

处理模块11可以是一种集成电路芯片，具有信号的处理能力。上述处理模块11可以是通用处理器。例如，该处理器可以是中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

存储模块12可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块12可以用于存储目标面部模型、深度学习模型、滑动窗口深度学习模型、语料内容。当然，存储模块12还可以用于存储程序，处理模块11在接收到执行指令后，执行该程序。

通信模块用于通过网络建立电子设备10与服务器或其他设备的通信连接，并通过网络收发数据。例如，电子设备10可以通过网络从服务器获取用于训练深度学习模型的视频片段。

另外，显示模块可以为显示屏，用于显示播放视频图像。输入/输出模块可以包括但不限于触控屏、鼠标、键盘、数据接口(包括但不限于USB接口、RS-232接口等用于传输数据的接口)等，可以供用户根据实际情况输入相应的数据，或从电子设备10输出相应的数据至其他设备(比如服务器)或模块(比如U盘)。

视频处理装置100包括至少一个可以软件或固件(firmware)的形式存储于存储模块12中或固化在电子设备10操作系统(Operating System，OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块，例如视频处理装置100所包括的软件功能模块及计算机程序等。

请参照图2，本申请实施例还提供一种视频处理方法，可以应用于上述的电子设备10中，由电子设备10执行或实现视频处理方法的各步骤。在本实施例中，视频处理方法可以包括步骤S210、步骤S220。

下面将对视频处理方法的各步骤进行详细阐述：

步骤S210，将获取的语料内容输入完成训练的滑动窗口深度学习模型中。

在本实施例中，当需要制作语音动画时，用户可以通过电子设备10将语料内容输入完成训练的滑动窗口深度学习模型中。其中，语料内容可以为完成录制的语音文件、实时录制的语音数据等。

电子设备10获取语料内容的方式可以为：由电子设备10中的录音模块录制语音，从而获得语料内容。或者，由其他录音模块录制语音，得到语料内容，然后将得到的语料内容传输给电子设备10。其中录制的语音可以为人员的讲话。

当电子设备10获取到语料内容后，可以自动将语料内容输入滑动窗口深度学习模型中；或者在用户的操作下，将语料内容输入滑动窗口深度学习模型中，其输入方式可以根据实际情况进行设置，这里对将语料内容输入滑动窗口深度学习模型中的方式不作具体限定。

例如，用户可以通过电子设备10可以将完成录制的语音文件输入滑动窗口深度学习模型中，以供滑动窗口深度学习模型输出语音动画。或者，用户可以通过电子设备10将正在录制的语音数据输入滑动窗口深度学习模型中，以供滑动窗口深度学习模型实时地生成与语音数据对应的语音动画。其中，正在录制的语音可以为实时录制的人员的讲话。

作为一种可选的实施方式，在步骤S210之前，方法还可以包括：当所述语料内容为文本数据时，将所述文本数据转换为语音数据，用于输入完成训练的所述滑动窗口深度学习模型中。

在本实施例中，电子设备10还可以包括语音转换模块。当语料内容为文本数据时，语音转换模块可以将文本数据转换为语音数据，其语音转换方式为本领域技术人员所熟知，这里不再赘述。此时，输入到滑动窗口深度学习模型的语料内容实际上为：语音转换模块转换文本数据得到的完整语音文件，或者语音转换模块实时转换文本数据得到的实时的语音数据。

可理解地，电子设备10获取的语料内容可以是但不限于语音数据、文本数据。输入到指定窗口深度学习模型中的语料内容为语音数据。语音数据由多个音频帧组成，每个音频帧通常对应一个音素。即，语音数据也可看着多个音素的序列组成。

步骤S220，根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，所述视频图像的口型与所述语料内容的发音口型相对应。

在本实施例中，目标面部模型可以为指定角色的二维动画面部模型、三维动画面部模型。指定角色的生物类型可以是但不限于人、猴或其他动物。可理解地，目标面部模型的动画面部模型的生物类型及五官尺寸可以根据实际情况进行设置，这里不作具体限定。

另外，电子设备10可以将语料内容转换为音素序列。比如，输入至滑动窗口深度学习模型的语料内容可以被电子设备10转换为第一音素序列。电子设备10可以基于目标面部模型、语料内容的第一音素序列，通过滑动窗口深度学习模型自动生成语音动画的视频图像。

在本实施例中，滑动窗口深度学习模型在识别处理第一音素序列的过程中，可以将第一音素序列划分为多个识别组，每个识别组包括多个时序相邻的音频帧。滑动窗口深度学习模型可以以一个识别组为识别单位，进行识别处理，并输出与识别组对应的连续的多帧视频图像。滑动窗口深度学习模型通过对多个识别组进行识别处理，得到多个识别组的视频图像，然后基于视频图像的时序，将多个识别组的视频图像组合成语音动画。该语音动画中的视频图像的口型即为与语料内容的发音口型相对应的口型。

可理解地，滑动窗口深度学习模型可以通过滑动窗口的形式将语料内容的音素序列分成多个识别组，每个识别组可看做语料内容中的其中一个语料片段。基于此，滑动窗口深度学习模型无需逐个地对每个音素进行识别，而是基于一个识别组中的所有音素序列的特征的组合进行识别处理，从而输出该识别组对应的视频片段。

在上述实施方式中，无需建立每帧音频帧与视频图像的对应关系，无需对视频图像作插值运算，从而有利于简化制作语音动画的流程。另外，通过利用滑动窗口深度学习模型来对语料内容进行识别处理，从而得到与语料内容的发音口型相对应的视频图像，有利于提高语音动画制作的效率低，降低制作成本。

例如，在数字传媒行业中，电子设备10中预先存储有相应的面部模型，当需要利用动画角色作为主持人来制作语音动画时，设计人员可以将用于主持的主持稿件(文本数据)存储至电子设备10中，电子设备10便可以将主持稿件转换为语音数据，然后利用完成训练的滑动窗口深度学习模型，基于主持人的面部模型(目标面部模型)生成用于主持的语音动画。基于此，无需动画设计人员逐帧设计动画主持人的面部画面，从而有利于提高语音动画的制作效率，降低制作成本。

作为一种可选的实施方式，在步骤S210之前，方法还可以包括对训练滑动窗口深度学习模型的步骤。例如，在步骤S210之前，方法还可以包括：获取训练数据集，所述训练数据集包括多个视频片段，每个视频片段包括第二音素序列及与所述第二音素序列中的音素对应的人脸图像；从人脸图像中确定多个第一特征点，所述多个第一特征点包括所述人脸图像中的下颚及嘴部的第一特征点；将所述第二音素序列通过滑动窗口划分为多个训练组，每个训练组包括时序相邻的多个音频帧；通过所述多个训练组、每个所述训练组对应的视频画面、所述多个第一特征点在所述人脸图像中的位置与所述音频帧的音素的对应关系，训练深度学习模型，得到完成训练的滑动窗口深度学习模型。

在本实施例中，电子设备10可以通过网络获取训练数据集，或者由设计人员将训练数据集传输至电子设备10，以使电子设备10获取到训练数据集。其中，训练数据集的内容可以根据实际情况进行选取。例如，训练数据集可以包括新闻主持人讲话的视频片段、影视中人物说话的视频片段等。

可理解地，通常将处于静止状态下的人物讲话的视频片段作为训练数据集中的视频片段，以便于电子设备10从视频片段中提取人脸图像的下颚及嘴部的第一特征点。其中，静止状态下的人物可理解为在视频界面中，头部的位置未发生移动，或未发生较大移动的人物。

在本实施例中，电子设备10在从人脸图像中确定多个第一特征点时，可以从人脸图像中确定出下颚轮廓线、嘴部的嘴唇轮廓线，然后从下颚轮廓线、嘴唇轮廓线选择多个特征点以作为所述多个第一特征点。其中，从下颚轮廓线中选取的第一特征点的数量、以及从嘴唇轮廓线中选取的第一特征点的数量均可以根据实际情况进行设置，这里不作具体限定。例如，从下颚轮廓线中选取的第一特征点的数量可以为9、10、15等数量，从嘴唇轮廓线中选取的第一特征点的数量可以为20、30等数量。

在采集到人脸图像中的特征点后，通过对多个视频片进行学习训练，深度学习模型便可以得到多个第一特征点的位移矢量与不同训练组的映射关系，从而得到完成训练的滑动窗口深度学习模型。其中，在制作语音动画时，利用学习到的映射关系，可以将语料内容中的识别组直接转换为相应的动画片段。

作为一种可选的实施方式，步骤S220可以包括：从所述目标面部模型中确定与每个所述第一特征点对应的第二特征点；通过所述滑动窗口深度学习模型识别所述第一音素序列得到的与所述第二特征点对应的位移向量，控制所述目标面部模型的所述第二特征点以所述对应的位移向量运动；基于运动后的所述第二特征点的位置及所述目标面部模型生成所述视频图像，所述视频图像包括下颚及嘴部的特征点的位置与对应的所述第二特征点的位置相同的面部图像。

在本实施例中，在基于目标面部模型生成语音动画时，需要在目标面部模型确定出多个第二特征点，多个第二特征点与训练过程中的人脸图像中的多个第一特征点相对应。然后，利用滑动窗口深度学习模型对第一音素序列进行识别处理，基于上述的映射关系，便可以得到与第二特征点对应的位移向量；在得到位移向量后，电子设备10可以控制目标面部模型中的各特征点以每帧图像对应的位移向量进行移动，然后对特征点形成的面部图像进行渲染，从而生成语音动画的视频图像。

作为一种可选的实施方式，所述目标面部模型包括脸部模型及口腔模型，步骤S220可以包括：通过所述滑动窗口深度学习模型生成所述脸部模型的第一图像及所述口腔模型的第二图像；基于所述第二特征点的位置判断所述第一图像中的嘴部是否呈张开状态；当所述第一图像中的嘴部呈所述张开状态时，在所述第一图像中显示嘴部张开区域中的第二图像的第一区域，并在所述第一图像中隐藏所述第二图像中的除去所述第一区域之外区域。

在本实施例中，电子设备10可以基于语料内容，利用滑动窗口深度学习模型分别对脸部模型、口腔模型生成相应的动态图像，然后对脸部模型及口腔模型的动态图像进行合并。即，在张开嘴时，才显示嘴部张开区域中口腔模型的图像，而口腔模型在嘴部张开区域之外的图像不显示。其中，脸部模型的图像即为第一图像，口腔模型的图像即为第二图像，脸部模型、口腔模型的形状、尺寸均可以根据实际情况进行设置，这里不作具体限定。

在本实施例中，通过脸部模型与口腔模型相互配合，可以提高生成的视频图像的细节，使得张开嘴时视频图像中嘴部区域的画面(包括口腔内牙齿、舌头等)与实际人物讲话时的画面相近或一致，避免生成的视频图像中在嘴张开时的画面始终未变化而出现违和感。

在步骤S220之后，方法还可以包括：通过主动外观模型对每帧所述视频图像中的下颚及嘴部的区域进行优化跟踪处理。

在本实施例中，电子设备10可以通过主动外观模型(Active Appearance Model，AAM)，对每帧视频图像中的下颚及嘴部的区域的边缘轮廓进行优化处理。优化处理的原理可以为：对多个第一特征点，通过线性模式捕捉多个特征点的形状变化，然后对轮廓边缘进行平滑处理，以优化每帧视频图像中的下颚及嘴部的区域的边缘轮廓。

下面将举例阐述视频处理方法实现的流程。需要说明的是，下述举例仅为便于理解本方案的实现流程的示例，并不表示本申请的实施方式只能以下述的示例实现。比如，在实际应用过程中滑动窗口每次采集到的每个识别组、训练组所包括的音频帧的数量可以根据实际情况进行设置，例如可以为5个、10个等数量。滑动窗口每次移动所间隔的音频帧的数量可以根据实际情况进行设置，比如，间隔的音频帧的数量可以为1、2、3等数量。

请结合参照图3至图5，在图3中，－3σ、+3σ表示标准偏差，(a)所示为实际的人脸图像的示意图，(b)所示为预设模型的示意图，即为人脸图像参量化后的示意图。

可理解地，在模型训练和应用过程中，人脸图像(或面部模型)可以进行参量化。参量化可理解为人脸图像中的特征点的位置可以用形状向量s＝{u₁，v₁；u₂，v₂；...；u_N，v_N}^T表示。形状向量s可以表示下脸和下颚的多个第一特征点的位置，其中，每组(u，v)表示一个特征点的位置坐标u、v分别为特征点在图像中的像素坐标的坐标值，N为大于0的整数，表示特征点的个数。在讲话期间，人脸图像的形状向量可以表示为

其中，m表示人脸图像上的特征点的数量，为大于0的整数；s₀表示初始的平均形状，每个s_i表示形状基矢量，p_i表示形状参数，可以根据时间情况进行确定。

人脸图像(外观模型)可以被分割为k＝2个非重叠区域A_k(u)，其中u表示在s₀处取样的像素坐标(u，v)的集合。使用两个区域允许嘴内部区域(当可见时)的像素独立于嘴唇和下巴的剩余面部像素变化。

为每个区域的平均外观向量，

为基向量，

为外观参数，n为语料库的样本数量。

请参照图4，例如，输入语料内容(或训练数据集中的音频)为“SIGGRAPH”，该语料内容发音的音素为“sihgraef”，该语料内容的音频帧的数量为22个，其音素序列为“-,s,s,s,s,ih,ih,ih,g,g,g,r,r,ae,ae,ae,ae,f,f,f,f,-”，滑动窗口每次采集的音频帧的数量为5个，每次所采集的音频帧的音素即为一个识别组(或训练组)，完成当前的采集后，下移一个音素帧继续采集得到新的识别组，直至完成音素序列的所有音素的采集。例如，通过滑动窗口采集的相邻的三个识别组可以如下“s,s,ih,ih,ih”、“s,ih,ih,ih,g”、“ih,ih,ih,g,g”。

在图4中，音素x序列作为输入(a)，通过利用滑动窗口，可以得到识别组(x1,x2,…)，然后利用滑动窗口深度学习模型中的学习预测器，对每个识别组xi进行预测，得到输出音频帧序列y(e)＝(y1,y2,...)。其中，在模型训练完后，向学习预测器输入音频帧序列便可以得到与口型坐标相关的一系列向量(例如特征点的位移向量)。另外，在训练期间，输出音频帧序列y(e)可以用于建立音频帧序列与语音动画之间的关联关系。在后期运用完成训练的滑动窗口深度学习模型生成语音动画时，输出音频帧序列y(e)可以用于生成语音动画。

在学习训练深度学习模型期间，可以通过完全连接的前馈神经网络，一个(滑动窗口)输入层连接到三个完全连接的隐藏层和一个最终的输出层。每个隐藏层设置第一指定数量(第一指定数量可以根据实际情况进行设置，比如为3000)个隐藏单元，每个隐藏单元使用双曲正切传递函数。采用标准的小批量随机下降法进行培训，小批量规模为第二指定数量(第二指定数量可以根据实际情况进行设置，比如为100)。为了抵消过拟合，可以使用50％可能性的辍降法。最后的输出层是标准的多元线性回归训练，以最小化平方损失。

通常而言，音素的种类可以包括41种，电子设备10可以对跨特定位置的音素识别，以及对音素在特定位置时进行转换。例如，对于一组音素序列，每个特性(包括声音的频率、振幅等)都对应于一个特定音素是否跨越一组特定帧的指示函数，用于显示一个音素是否属于特定帧位置的特定类别，例如，“输入音素序列中的j处的音素是否为鼻音辅音”。在进行音素转换期间，即两个相邻的音频帧是否对应于一个特定类型的音素转换。例如，“第k和第k+1输入音频帧的音素是否是一组特定的辅音元音对”。其中，特定位置、特定类型均可以根据实际情况进行设置，j，k均为大于0的整数。

请参照图5，图5中所示的+3σ与－3σ两横列对应的面部形状图像均为一种形状模式下的两种图像。图5中，包括了四种形状模式(模式一至模式四)描述面部形状中嘴的张开程度的示例。(a)纵列所示为参量化后的面部示意图，(b)中的每纵列表示一种目标面部模型的示意图，图5中，包括4种目标面部模型的示意图。－3σ横列与+3σ横列所示为不同张开程度的口型的示意图

在利用语料内容生成语音动画期间，可以使用多种形状模式来描述面部的形状，例如，采用四种形状模式(四种形状模式可以根据实际情况进行设置)来描述面部的形状，在与均值相同的±3σ和+3σ标准偏差处将输出字符呈现，结果产生一组8个位置，

其中

相对于位置姿势s₀。可理解地，四种形状模式对应八种最常见的口型，每种口型可以作为语音动画中的关键帧，最终可以由这八个关键帧组合成语音动画。当然，在其他实施方式中，形状模式的种类数量还可以是其他数量，例如为5、6、7等数量，可以根据实际情况进行设置。

电子设备10可以基于每种模式的初始形状姿态r₀，计算预测的形状R_t＝(R-r₀)w+r₀，从而得到视频画面。其中w为面部的形状姿态在四种形状模式下对应的8维权重向量，可以通过下述公式计算权重向量。

在上式中，p_k是神经网络预测的形状分量，常数u∈{－3，+3}与姿态与平均值的负偏差或正偏差有关，可以根据实际情况进行确定。

请参照图6，本申请还提供一种视频处理装置100，可以用于执行或实现上述的视频处理方法中的各步骤，可以应用于上述的电子设备10中。该视频处理装置100可以包括数据获取单元110、模型处理单元120。

数据获取单元110，用于将获取的语料内容输入完成训练的滑动窗口深度学习模型中。

模型处理单元120，用于根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，所述视频图像的口型与所述语料内容的发音口型相对应。

可选地，视频处理装置100还包括特征确定单元、划分单元及模型训练单元。

在所述数据获取单元110将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前，所述数据获取单元110，还用于获取训练数据集，所述训练数据集包括多个视频片段，每个视频片段包括第二音素序列及与所述第二音素序列中的音素对应的人脸图像；所述特征确定单元，用于从人脸图像中确定多个第一特征点，所述多个第一特征点包括所述人脸图像中的下颚及嘴部的第一特征点；所述划分单元，用于将所述第二音素序列通过滑动窗口划分为多个训练组，每个训练组包括时序相邻的多个音频帧；所述模型训练单元，用于通过所述多个训练组、每个所述训练组对应的视频画面、所述多个第一特征点在所述人脸图像中的位置与所述音频帧的音素的对应关系，训练深度学习模型，得到完成训练的滑动窗口深度学习模型。

可选地，模型处理单元120还可以用于：从所述目标面部模型中确定与每个所述第一特征点对应的第二特征点；通过所述滑动窗口深度学习模型识别所述第一音素序列得到的与所述第二特征点对应的位移向量，控制所述目标面部模型的所述第二特征点以所述对应的位移向量运动；基于运动后的所述第二特征点的位置及所述目标面部模型生成所述视频图像，所述视频图像包括下颚及嘴部的特征点的位置与对应的所述第二特征点的位置相同的面部图像。

可选地，目标面部模型包括脸部模型及口腔模型，模型处理单元120还可以用于：通过所述滑动窗口深度学习模型生成所述脸部模型的第一图像及所述口腔模型的第二图像；基于所述第二特征点的位置判断所述第一图像中的嘴部是否呈张开状态；当所述第一图像中的嘴部呈所述张开状态时，在所述第一图像中显示嘴部张开区域中的第二图像的第一区域，并在所述第一图像中隐藏所述第二图像中的除去所述第一区域之外区域。

可选地，视频处理装置100还可以包括语音转换单元。在数据获取单元110将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前，语音转换单元用于：当所述语料内容为文本数据时，将所述文本数据转换为语音数据，用于输入完成训练的所述滑动窗口深度学习模型中。

可选地，视频处理装置100还可以包括优化单元，用于通过主动外观模型对每帧所述视频图像中的下颚及嘴部的区域进行优化跟踪处理。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备10、视频处理装置100的具体工作过程，可以参考前述方法中的各步骤对应过程，在此不再过多赘述。

本申请实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述实施例中所述的视频处理方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

综上所述，本申请提供一种视频处理方法、装置、电子设备及可读存储介质。方法包括：将获取的语料内容输入完成训练的滑动窗口深度学习模型中；根据目标面部模型、语料内容的第一音素序列，通过滑动窗口深度学习模型生成目标面部模型的视频图像，视频图像的口型与语料内容的发音口型相对应。在本方案中，通过利用滑动窗口深度学习模型来对语料内容进行识别处理，从而得到与语料内容的发音口型相对应的视频图像，有利于提高语音动画制作的效率低，降低制作成本。

在本申请所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

将获取的语料内容输入完成训练的滑动窗口深度学习模型中；

根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，所述视频图像的口型与所述语料内容的发音口型相对应。

2.根据权利要求1所述的方法，其特征在于，在将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前，所述方法还包括：

获取训练数据集，所述训练数据集包括多个视频片段，每个视频片段包括第二音素序列及与所述第二音素序列中的音素对应的人脸图像；

从人脸图像中确定多个第一特征点，所述多个第一特征点包括所述人脸图像中的下颚及嘴部的第一特征点；

将所述第二音素序列通过滑动窗口划分为多个训练组，每个训练组包括时序相邻的多个音频帧；

通过所述多个训练组、每个所述训练组对应的视频画面、所述多个第一特征点在所述人脸图像中的位置与所述音频帧的音素的对应关系，训练深度学习模型，得到完成训练的滑动窗口深度学习模型。

3.根据权利要求2所述的方法，其特征在于，根据目标面部模型、所述语料内容的第一音素序列，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，包括：

从所述目标面部模型中确定与每个所述第一特征点对应的第二特征点；

通过所述滑动窗口深度学习模型识别所述第一音素序列得到的与所述第二特征点对应的位移向量，控制所述目标面部模型的所述第二特征点以所述对应的位移向量运动；

基于运动后的所述第二特征点的位置及所述目标面部模型生成所述视频图像，所述视频图像包括下颚及嘴部的特征点的位置与对应的所述第二特征点的位置相同的面部图像。

4.根据权利要求3所述的方法，其特征在于，所述目标面部模型包括脸部模型及口腔模型，通过所述滑动窗口深度学习模型生成所述目标面部模型的视频图像，包括：

通过所述滑动窗口深度学习模型生成所述脸部模型的第一图像及所述口腔模型的第二图像；

基于所述第二特征点的位置判断所述第一图像中的嘴部是否呈张开状态；

当所述第一图像中的嘴部呈所述张开状态时，在所述第一图像中显示嘴部张开区域中的第二图像的第一区域，并在所述第一图像中隐藏所述第二图像中的除去所述第一区域之外区域。

5.根据权利要求1所述的方法，其特征在于，在将获取的语料内容输入完成训练的滑动窗口深度学习模型中之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种视频处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括特征确定单元、划分单元及模型训练单元；

9.一种电子设备，其特征在于，所述电子设备包括相互耦合的存储器及处理器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-6中任意一项所述的方法。