CN111212245B

CN111212245B - 一种合成视频的方法和装置

Info

Publication number: CN111212245B
Application number: CN202010042313.9A
Authority: CN
Inventors: 程大治; 夏龙; 吴凡; 卓邦声; 高强; 马楠; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2022-03-25
Anticipated expiration: 2040-01-15
Also published as: CN111212245A

Abstract

本申请提供一种合成视频的方法和装置，所述方法包括：获取与原语音匹配的待处理视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标，截除所述语音段对应的原图像帧中嘴部区域形成截除区域，这样截除所述语音段对应的原图像帧中嘴部区域形成截除区域，以在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓，根据所述语音段对应的包含嘴形轮廓的原图像帧来生成所述语音段对应的目标图像帧，根据每个所述语音段对应的目标图像帧和原语音合成目标视频，目标视频中人物的嘴形与原语音匹配度高，确保合成目标视频的质量。

Description

一种合成视频的方法和装置

技术领域

本申请涉及计算机技术领域，特别涉及一种合成视频的方法和装置、计算设备以及计算机可读存储介质。

背景技术

随着计算机技术的快速发展，视频制作也得到了广泛的应用，视频制作是将图片、音频、视频等素材经过非线性编辑后，通过二次编码生成视频，能够将多种素材合成视频。

现有的视频制作中，可以将一段语音与无声的视频合成为有声视频，但是生成的有声视频播放出来之后，会出现嘴形与语音不对应的情况，人物的嘴形与语音匹配度低，合成的视频的真实性差，生成的有声视频的质量低下，无法满足视频制作的需求。

发明内容

有鉴于此，本申请实施例提供了一种合成视频的方法和装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种合成视频的方法，包括：

接收原语音，获取与所述原语音匹配的待处理视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标；

截除所述语音段对应的原图像帧中嘴部区域形成截除区域；

基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓；

根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧；

根据每个所述语音段对应的目标图像帧和原语音合成目标视频。

可选地，获取与所述原语音匹配的待处理视频，包括：

接收视频库，在所述视频库中提取与原语音时间长度匹配的视频片段；

截取所述原语音获取与视频片段中的图像帧对应的语音段，抽取所述语音段对应的所述视频片段中图像帧的嘴形关键点向量；

确定每个所述语音段对应的嘴形关键点向量；

分别计算所述语音段对应的视频片段中的图像帧的嘴形关键点向量与所述语音段对应的嘴形关键点向量的相似度，确定提取的视频片段与所述原语音的相似值；

获取所述视频库中与所述原语音相似值最高的视频片段作为与所述原语音匹配的待处理视频。

可选地，分别计算所述语音段对应的视频片段中的图像帧的嘴形关键点向量与所述语音段对应的嘴形关键点向量的相似度，包括：

通过主成分分析法确定所述语音段对应的视频片段中的图像帧的嘴形关键点向量的主成分以及所述语音段对应的嘴形关键点向量的主成分；

计算所述语音段对应的视频片段中的图像帧的嘴形关键点向量的主成分以及所述语音段对应的嘴形关键点向量的主成分的相似度。

可选地，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标，包括：

以滑动窗口的方式截取与待处理视频中至少两个原图像帧对应的语音长段，所述语音长段包括至少两个语音段；

将每个所述语音长段通过倒谱向量表示的方式分别转化为语音长段向量；

将所述语音长段向量输入至深度神经网络中，获取所述深度神经网络输出的所述语音长段对应的至少两个原嘴形关键点坐标；

根据每个所述语音长段对应的至少两个原嘴形关键点坐标，确定所述语音段对应的目标嘴形关键点坐标。

可选地，以滑动窗口的方式截取与待处理视频中至少两个原图像帧对应的语音长段，包括：

以滑动窗口的方式每隔单个语音段的时间截取所述原语音获取与待处理视频中至少两个原图像帧对应的语音长段；

根据每个所述语音长段对应的至少两个原嘴形关键点坐标，确定所述语音段对应的目标嘴形关键点坐标，包括：

计算各所述语音长段中相同的语音段对应的原嘴形关键点坐标的平均值，将所述原嘴形关键点坐标的平均值作为所述语音段对应的目标嘴形关键点坐标。

可选地，截除所述语音段对应的原图像帧中嘴部区域形成截除区域，包括：

抽取所述语音段对应的原图像帧中的嘴形关键点以及脸形关键点；

根据所述原图像帧中的嘴形关键点以及脸形关键点，确定所述图像帧中脸部区域以及嘴部区域；

截除所述原图像帧中位于脸部区域内的嘴部区域形成截除区域。

可选地，基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓，包括：

根据所述语音段对应的嘴形关键点坐标确定在所述截除区域中的嘴形关键点；

连接所述原图像帧的截除区域中的嘴形关键点形成嘴形轮廓。

可选地，根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧，包括：

将当前所述语音段对应的包含嘴形轮廓的原图像帧以及与当前所述语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络；

获取所述卷积神经网络输出的当前所述语音段对应的目标图像帧。

可选地，根据每个所述语音段对应的目标图像帧和原语音合成目标视频，包括：

串接所述语音段对应的目标图像帧形成视频；

匹配串接的所述视频与原语音以生成目标视频。

本申请实施例还公开了一种合成视频的装置，包括：

处理模块，被配置为接收原语音，获取与所述原语音匹配的待处理视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标；

截除模块，被配置为截除所述语音段对应的原图像帧中嘴部区域形成截除区域；

绘制模块，被配置为基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓；

生成模块，被配置为根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧；

合成模块，被配置为根据每个所述语音段对应的目标图像帧和原语音合成目标视频。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的合成视频的方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的合成视频的方法的步骤。

本申请提供的一种合成视频的方法和装置，通过截取原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标，截除所述语音段对应的原图像帧中嘴部区域形成截除区域，这样截除所述语音段对应的原图像帧中嘴部区域形成截除区域，以在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓，根据所述语音段对应的包含嘴形轮廓的原图像帧来生成所述语音段对应的目标图像帧，在视频制作中，根据每个所述语音段对应的目标图像帧和原语音制作得到目标视频，实现了修改待处理视频中人物的嘴形，合成的目标视频中人物的嘴形与原语音匹配度高，所述目标视频更具有真实性，保证合成的目标视频的质量，而且大幅提高视频的制作效率。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请第一实施例合成视频的方法的流程示意图；

图3是本申请获取待处理视频的流程示意图；

图4是本申请第二实施例合成视频的方法的流程示意图；

图5是本申请确定所述语音段对应的目标嘴形关键点坐标的示意图；

图6是本申请深度神经网络输出的嘴形关键点坐标的示意图；

图7是本申请第三实施例合成视频的方法的流程示意图；

图8是本申请卷积神经网络输出目标图像帧的示意图；

图9是本申请实施例的合成视频的装置结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

梅尔频谱倒数系数特征(Mel-Frequency Cipstal Coefficients,简称MFCC)：又称倒谱，是一组用来建立梅尔倒频谱的关键系数，能够将语音信号通过一系列的倒谱向量来表示。

主成分分析(Principal ComponentAnalysis，简称PCA)：是一种通用的降维方法，将高维数据通过线性变换投影到低维空间上去，并且投影后的数据不能失真，也就是说，被PCA除掉的是那些噪声或是冗余的数据，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

欧氏距离(euclidean metri)：也称欧几里得度量，是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度，在二维和三维空间中的欧氏距离就是两点之间的实际距离。

Premiere：是一种视频编辑软件，能够对视频、声音、动画、图片、文本进行编辑加工，并最终生成视频文件。

卷积神经网络(CNN)：采用卷积运算的神经网络，由输入和输出层以及多个隐藏层组成。CNN的隐藏层通常由一系列卷积层组成，也包含非线性激活层和全连接层，卷积神经网络通常通过前向传播与反向传播进行训练。

本申请中，提供了一种合成视频的方法和装置、计算设备以及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请第一实施例的合成视频的方法的示意性流程图，包括步骤202至步骤210。

步骤202：接收原语音，获取与所述原语音匹配的待处理视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标。

所述原语音为一段搭载着特定的信息模拟信号，所述原语音可以为演讲音频或动画音频或游戏音频等，所述原语音即为需要与视频中真人或动物或卡通人物的嘴形进行匹配的语音。

所述语音段一般为20ms以上，这样根据所述语音段包含的稳态的信息来确定每个所述语音段对应的目标嘴形关键点坐标。

截取所述原语音获取与待处理视频中的原图像帧对应的语音段，也可以是将原语音分成若干语音帧，所述语音段可以为单个语音帧或者为连续的多个语音帧形成，单个语音帧的时间长度可以为10ms，本申请对语音段包含的帧数和单个语音帧的时间长度不作限制。

参见图3所示，所述步骤202中获取与所述原语音匹配的待处理视频通过下述步骤302至步骤310实现。

步骤302：接收视频库，在所述视频库中提取与原语音时间长度匹配的视频片段。

所述视频库包括大量的视频素材，比如本实施例需要将原语音与真人张三的演讲视频合成，那么所述视频素材可以为张三历史的演讲视频，从视频素材中提取与原语音时间长度匹配的若干视频片段。

步骤304：截取所述原语音获取与视频片段中的图像帧对应的语音段，抽取所述语音段对应的所述视频片段中图像帧的嘴形关键点向量。

获取与视频片段中的图像帧对应的语音段，也就是说单个所述语音段对应一帧的图像，比如，语音段的时间长度为100ms，所述视频片段的帧率为30，那么100ms的语音段对应3帧图像，语音段对应的图像帧可以选取3帧图像中的一帧，所述语音段与一帧图像为对应关系，也就是说播放语音段的时间区间内呈现的是语音段对应的一帧图像。

抽取所述语音段对应的图像帧中嘴形关键点向量，可以通过人脸识别工具对图像帧中人脸进行特征提取，获取所述语音段对应的图像帧中人脸的嘴形关键点向量。

人脸特征提取的工具可以为开源工具dlib或是其它工具。

步骤306：确定每个所述语音段对应的嘴形关键点向量。

将语音段通过倒谱转换成特定维度的特征向量，再将语音段对应的特定维度的特征向量输入训练好的深度神经网络，深度神经网络映射到嘴形关键点向量作为输出。

步骤308：分别计算所述视频片段中图像帧的嘴形关键点向量与所述图像帧对应的原语音中语音段对应的嘴形关键点向量的相似度，确定提取的视频片段与所述原语音的相似值。

所述步骤308包括步骤3082至步骤3084。

步骤3082：通过主成分分析法确定所述语音段对应的视频片段中的图像帧的嘴形关键点向量的主成分以及所述语音段对应的嘴形关键点向量的主成分。

通过主成分分析法能够把m维的嘴形关键点向量降到k维，其中k<m且k和m均为大于1的正整数，降维成k维的嘴形关键点向量能够保留降维前m维的嘴形关键点向量的绝大部分信息。

可以取所述语音段对应的图像帧中嘴形关键点向量的主成分前若干维，比如，可以取嘴形关键点向量的前两维主成分，对语音段对应的嘴形关键点向量同样进行主成分分析并取前两维主成分，这样下述步骤中确保计算准确度的前提下，能够大幅降低相似度的计算量。

步骤3084：计算所述语音段对应的视频片段中的图像帧的嘴形关键点向量的主成分以及所述语音段对应的嘴形关键点向量的主成分的相似度。

比如，计算所述视频片段中图像帧的嘴形关键点向量的前两维主成分与所述图像帧对应的原语音中语音段对应的嘴形关键点向量的前两维主成分的相似度，计算每个语音段与其对应的图像帧的欧氏距离并进行平均，将得到的欧氏距离的平均值作为提取的视频片段与所述原语音的相似值。

步骤310：获取所述视频库中与所述原语音相似值最高的视频片段作为待处理视频。

计算提取的与原语音时间长度匹配的视频片段与原语音的相似值，将所述视频库中与所述原语音相似值最高的视频片段作为待处理视频，这样下述步骤中合成目标视频过程中，选择的待处理视频与原语音的嘴形具有一定的匹配度，这样下述步骤中合成的目标视频的真实性更高，提高合成目标视频的质量。

步骤204：截除所述语音段对应的原图像帧中嘴部区域形成截除区域。

将所述语音段对应的原图像帧中嘴部区域除去形成的区域即为截除区域。

步骤206：基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓。

通过将所述语音段对应的目标嘴形关键点坐标，能够确定所述语音段对应的原图像帧的截除区域中的目标嘴形关键点，通过绘制目标嘴形关键点得到嘴形轮廓。

步骤208：根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧。

可以通过将所述语音段对应的包含嘴形轮廓的原图像帧输入至训练好的卷积神经网络中，训练好的卷积神经网络输出所述语音段对应的目标图像帧，即所述目标图像帧中的嘴形图像与语音段的声音相符。

步骤210：根据每个所述语音段对应的目标图像帧和原语音合成目标视频。

所述步骤210可以通过步骤2102至步骤2104实现。

步骤2102：串接所述语音段对应的目标图像帧形成视频。

通过串接每个所述语音段对应的目标图像帧生成视频，该视频中人物呈现的嘴形与原语音相符。

步骤2104：匹配串接的所述视频与原语音以生成目标视频。

可以通过视频编辑软件将所述视频与原语音合成以生成目标视频，比如通过视频编辑软件premiere来进行目标视频的合成。

本实施例通过截取原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标，截除所述语音段对应的原图像帧中嘴部区域形成截除区域，这样截除所述语音段对应的原图像帧中嘴部区域形成截除区域，以在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓，根据所述语音段对应的包含嘴形轮廓的原图像帧来生成所述语音段对应的目标图像帧，在视频制作中，根据每个所述语音段对应的目标图像帧和原语音制作得到目标视频，本实施例能够修改待处理视频中的人物嘴形，目标视频中人物的嘴形与原语音匹配度高，使得合成的目标视频的真实性更高，确保合成目标视频的质量的前提下，大幅提高视频的制作效率。

图4是示出了根据本申请第二实施例的合成视频的方法的示意性流程图，包括步骤402至步骤416。

步骤402：接收原语音，获取与所述原语音匹配的待处理视频，以滑动窗口的方式截取所述原语音获取与待处理视频中至少两个原图像帧对应的语音长段，所述语音长段包括至少两个语音段。

可以通过滑动窗口的方式每隔单个语音段的时间截取所述原语音获取与待处理视频中至少两个原图像帧对应的语音长段。

下面结合图5和图6对确定所述语音段对应的目标嘴形关键点坐标进行示意性说明。

比如，帧率为100赫兹的原语音，获取与所述原语音匹配的待处理视频的帧率为30赫兹，一帧原图像帧的持续时间为1/30s，则一帧原图像帧对应的语音段的时间长度也为1/30s，可以通过以滑动窗口的方式每隔单个语音段的1/30s的时间截取所述原语音获取语音长段，假设语音长段为0.35s且语音长段对应7帧原图像帧，0.35s的语音长段包括35帧语音，通过滑动窗口1截取0.35s的第一语音长段；向右滑动单个语音段1/30s的时间长度至滑动窗口2，通过滑动窗口2截取0.35s的第二语音长段，依次类推，直至滑动窗口n截取0.35s的第n语音长段后完成所述原语音的截取。

步骤404：将每个所述语音长段通过倒谱向量表示的方式分别转化为语音长段向量。

步骤406：将所述语音长段向量输入至深度神经网络中，获取所述深度神经网络输出的所述语音长段对应的至少两个原嘴形关键点坐标。

将将滑动窗口1截取0.35s的第一语音长段通过倒谱向量表示的方式转化成的第一语音长段向量为35帧×14维的MFCC特征，将35帧×14维的MFCC特征输入深度神经网络，获取深度神经网络输出的7帧×5维主成分的嘴形关键点向量，也就是分别获取第一语音长段对应的7帧原图像帧的嘴形关键点坐标。

依次类推，将滑动窗口2截取0.35s的第二语音长段向量输入至深度神经网络中，获取所述深度神经网络输出的所述第二语音长段对应的7帧原图像帧分别对应的原嘴形关键点坐标；依次类推，将滑动窗口n截取0.35s的第n语音长段输入至深度神经网络中，获取所述深度神经网络输出的所述第n语音长段对应的7帧原图像帧对应的原嘴形关键点坐标。

步骤408：根据每个所述语音长段对应的至少两个原嘴形关键点坐标，确定所述语音段对应的目标嘴形关键点坐标。

上述第一语音长段至第n语音长段分别输出的7帧原图像帧对应的原嘴形关键点坐标存在重叠，通过计算各所述语音长段中相同的语音段对应的原嘴形关键点坐标的平均值，将所述原嘴形关键点坐标的平均值作为所述语音段对应的目标嘴形关键点坐标，即最终输出特征为各所述语音段对应的单个目标嘴形关键点坐标，也就是帧率为30赫兹的目标嘴形关键点坐标，确保输出的原语音对应的目标嘴形关键点坐标的准确度，保证下述步骤中根据目标嘴形关键点坐标绘制的嘴形与原语音相符。

步骤410：截除所述语音段对应的原图像帧中嘴部区域形成截除区域。

步骤412：基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓。

步骤414：根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧。

步骤416：根据每个所述语音段对应的目标图像帧和原语音合成目标视频。

所述步骤410至步骤416与上述步骤204至步骤210的构思一致，具体参见上述步骤204至步骤210的说明，此处不再赘述。

本实施例中通过接收原语音，以滑动窗口的方式截取所述原语音获取语音长段，所述语音长段包括至少两个语音段，将每个所述语音长段通过倒谱向量表示的方式分别转化为语音长段向量，将所述语音长段向量输入至深度神经网络中，获取所述深度神经网络输出的所述语音长段对应的至少两个原嘴形关键点坐标，确保输出的原语音对应的目标嘴形关键点坐标的准确度，保证根据目标嘴形关键点坐标绘制的嘴形与原语音匹配，使得合成的目标视频的真实性更高，提高合成目标视频的质量。

图7是示出了根据本申请第三实施例的合成视频的方法的示意性流程图，包括步骤702至步骤716。

步骤702：接收原语音，获取与所述原语音匹配的待处理视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标。

步骤704：抽取所述语音段对应的原图像帧中的嘴形关键点以及脸形关键点。

步骤706：根据所述原图像帧中的嘴形关键点以及脸形关键点，确定所述图像帧中脸部区域以及嘴部区域。

步骤708：截除所述原图像帧中位于脸部区域内的嘴部区域形成截除区域。

若出现截除区域超出脸部区域的情况下，那么脸部区域以外的图像生成结果非常差，本步骤根据所述原图像帧中的嘴形关键点以及脸形关键点，确定图像帧中脸部区域以及嘴部区域，这样截除原图像帧中位于脸部区域内的嘴部区域形成截除区域，保证截除区域位于脸部范围内，确保目标图像帧的生成质量。

步骤710：基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓。

可以根据所述语音段对应的嘴形关键点坐标确定在所述截除区域中的嘴形关键点，连接所述图像帧的截除区域中的嘴形关键点形成嘴形轮廓。

步骤712：将当前所述语音段对应的包含嘴形轮廓的原图像帧以及与当前所述语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络。

步骤714：获取所述卷积神经网络输出的当前所述语音段对应的目标图像帧。

为了避免生成目标图像帧形成的视频的嘴部处连贯性差，造成视频中嘴部处有明显的抖动现象，本申请通过额外将当前语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络，比如将之前已生成的三帧目标图像帧作为额外输入，增强卷积神经网络的输入信息，确保卷积神经网络输出的当前所述语音段对应的目标图像帧嘴部处与之前已生成的目标图像帧嘴部处连贯，有效提升了生成目标视频的稳定性，提高目标视频的生成质量。

需要说明的是，在生成第一帧目标图像帧输出的情况下，可以只将包含嘴形轮廓的第一帧原图像帧作为卷积神经网络的输入，而在生成第二帧目标图像帧输出的情况下，可以将包含嘴形轮廓的第二帧原图像帧以及第二帧目标图像帧作为卷积神经网络的输入，依次类推，在生成第n帧目标图像帧输出的情况下，将包含嘴形轮廓的n帧原图像帧以及第n-1帧目标图像帧作为卷积神经网络的输入。

截除所述原图像帧中位于脸部区域内的嘴部区域形成截除区域，在截除区域中绘制嘴形轮廓的方式得到卷积神经网络的输入，通过残差连接将卷积计算模块的输入直接连接到输出，缓解了在深度神经网络中增加深度带来的梯度消失问题，生成结果对截除区域的边界处理效果好，避免出现截除区域的截除边界，提高目标图像帧的生成质量。

步骤716：根据每个所述语音段对应的目标图像帧和原语音合成目标视频。

本实施例通过将当前所述语音段对应的包含嘴形轮廓的原图像帧以及与当前所述语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络。通过截除所述原图像帧中位于脸部区域内的嘴部区域形成截除区域，在截除区域中绘制嘴形轮廓的方式得到卷积神经网络的输入，生成结果对抠图的边界处理效果好，避免出现截除区域的截除边界，提高目标图像帧的生成质量。额外将当前所述语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络，增强卷积神经网的输入信息，确保卷积神经网络输出的当前所述语音段对应的目标图像帧与之前已生成的目标图像帧嘴部处连贯，有效提升了生成目标视频的稳定性，提高目标视频的生成质量。

下面结合图8对上述实施例进行举例说明。

假设原语音为演讲语音，获取与所述原语音匹配的待处理视频，所述待处理视频为张三的演讲视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，所述原图像帧为待处理视频中与语音段对应的一帧图像，所述嘴形关键点根据语音段对应的目标嘴形关键点坐标确定的。

抽取所述语音段对应的原图像帧中的嘴形关键点以及脸形关键点，根据所述原图像帧中的嘴形关键点以及脸形关键点，确定所述图像帧中脸部区域以及嘴部区域，截除所述原图像帧中位于脸部区域内的嘴部区域形成截除区域，即形成的截除区域为纯黑色的区域，或者是截除区域内不存在像素。

在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓，即根据所述语音段对应的嘴形关键点坐标确定在所述截除区域中的嘴形关键点，连接所述图像帧的截除区域中的嘴形关键点形成嘴形轮廓。

将当前所述语音段对应的包含嘴形轮廓的原图像帧以及与当前所述语音段邻近的语音段对应的已生成的三帧目标图像帧输入至包含残差结构的卷积神经网络，获取所述卷积神经网络输出的当前所述语音段对应的目标图像帧。

串接所述语音段对应的目标图像帧形成视频，即所述视频为更改嘴形后张三的演讲视频，将原语音与串接的所述视频匹配以生成目标视频。

需要说明的是，图8中原图像帧、目标图像帧以及已生成的三帧目标图像帧均为真人张三的图像，其中，为了避免出现真人的图像，而将图像帧中眼部区域除去。

通过截除所述原图像帧中位于脸部区域内的嘴部区域形成截除区域，在截除区域中绘制嘴形轮廓的方式得到卷积神经网络的输入，生成结果对抠图的边界处理效果好，避免出现截除区域的截除边界，提高目标图像帧的生成质量。额外将当前所述语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络，增强卷积神经网的输入信息，确保卷积神经网络输出的当前所述语音段对应的目标图像帧与之前已生成的目标图像帧嘴部处连贯，有效提升了生成目标视频的稳定性，提高目标视频的生成质量。

图9是本申请第五实施例合成视频的装置的结构示意图，包括：

处理模块902，被配置为接收原语音，获取与所述原语音匹配的待处理视频，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标；

截除模块904，被配置为截除所述语音段对应的原图像帧中嘴部区域形成截除区域；

绘制模块906，被配置为基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓；

生成模块908，被配置为根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧；

合成模块910，被配置为根据每个所述语音段对应的目标图像帧和原语音合成目标视频。

所示处理模块902被进一步配置为，获取与所述原语音匹配的待处理视频，包括：

确定每个所述语音段对应的嘴形关键点向量；

所示处理模块902被进一步配置为，通过主成分分析法确定所述语音段对应的视频片段中的图像帧的嘴形关键点向量的主成分以及所述语音段对应的嘴形关键点向量的主成分；

所述处理模块902被进一步配置为，以滑动窗口的方式截取与待处理视频中至少两个原图像帧对应的语音长段，所述语音长段包括至少两个语音段；

所述处理模块902被进一步配置为，以滑动窗口的方式每隔单个语音段的时间截取所述原语音获取与待处理视频中至少两个原图像帧对应的语音长段；

所述截除模块904被进一步配置为，抽取所述语音段对应的原图像帧中的嘴形关键点以及脸形关键点；

所述绘制模块906被进一步配置为根据所述语音段对应的嘴形关键点坐标确定在所述截除区域中的嘴形关键点；

所述生成模块908被进一步配置为将当前所述语音段对应的包含嘴形轮廓的原图像帧以及与当前所述语音段邻近的语音段对应的已生成的目标图像帧输入至包含残差结构的卷积神经网络；

所述合成模块910被进一步配置为，串接所述语音段对应的目标图像帧形成视频；

匹配串接的所述视频与原语音以生成目标视频。

本实施例通过截取原语音获取语音段，先确定每个所述语音段对应的目标嘴形关键点坐标，再确定所述语音段对应的待处理视频中的原图像帧，这样截除所述语音段对应的原图像帧中嘴部区域形成截除区域，以在所述语音段对应的原图像帧的截除区域中绘制嘴形轮廓，根据所述语音段对应的包含嘴形轮廓的原图像帧来生成所述语音段对应的目标图像帧，在视频制作中，根据每个所述语音段对应的目标图像帧和原语音制作得到目标视频，本实施例能够修改待处理视频中的人物嘴形，目标视频中人物的嘴形与原语音匹配度高，使得合成的目标视频的真实性更高，确保合成目标视频的质量的前提下，大幅提高视频的制作效率。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如前所述合成视频的方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述合成视频的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述合成视频的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述合成视频的方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种合成视频的方法，其特征在于，包括：

截除所述语音段对应的原图像帧中嘴部区域形成截除区域；

基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中通过绘制目标嘴型关键点绘制嘴形轮廓；

2.根据权利要求1所述的方法，其特征在于，获取与所述原语音匹配的待处理视频，包括：

确定每个所述语音段对应的嘴形关键点向量；

3.根据权利要求2所述的方法，其特征在于，分别计算所述语音段对应的视频片段中的图像帧的嘴形关键点向量与所述语音段对应的嘴形关键点向量的相似度，包括：

4.根据权利要求1所述的方法，其特征在于，截取所述原语音获取与待处理视频中的原图像帧对应的语音段，确定所述语音段对应的目标嘴形关键点坐标，包括：

5.根据权利要求4所述的方法，其特征在于，以滑动窗口的方式截取与待处理视频中至少两个原图像帧对应的语音长段，包括：

6.根据权利要求1所述的方法，其特征在于，截除所述语音段对应的原图像帧中嘴部区域形成截除区域，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中通过绘制目标嘴型关键点绘制嘴形轮廓，包括：

8.根据权利要求1所述的方法，其特征在于，根据所述语音段对应的包含嘴形轮廓的原图像帧，生成所述语音段对应的目标图像帧，包括：

9.根据权利要求1所述的方法，其特征在于，根据每个所述语音段对应的目标图像帧和原语音合成目标视频，包括：

串接所述语音段对应的目标图像帧形成视频；

匹配串接的所述视频与原语音以生成目标视频。

10.一种合成视频的装置，其特征在于，包括：

绘制模块，被配置为基于所述语音段对应的目标嘴形关键点坐标，在所述语音段对应的原图像帧的截除区域中通过绘制目标嘴型关键点绘制嘴形轮廓；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。