CN112188304B

CN112188304B - 视频生成方法、装置、终端及存储介质

Info

Publication number: CN112188304B
Application number: CN202011045540.3A
Authority: CN
Inventors: 刘春宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-11-15
Anticipated expiration: 2040-09-28
Also published as: CN112188304A

Abstract

本申请实施例公开了一种视频生成方法、装置、终端及存储介质，属于计算机技术领域。该方法包括：获得所选取的待匹配音频对应的发音嘴型序列；获取与发音嘴型序列对应的嘴型素材图像序列；利用嘴型素材图像序列对待匹配图像进行替换融合处理，得到目标图像序列；对待匹配音频与目标图像序列进行合并编码，生成目标视频；同一时刻下，目标视频中视频帧对应的发音嘴型与音频帧对应的发音嘴型相同。本申请实施例中，通过替换待匹配图像中发音嘴型的方式生成目标图像，使目标图像的发音嘴型适配待匹配音频的内容，用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频，降低了制作目标视频的成本，提高了视频生成效率。

Description

视频生成方法、装置、终端及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种视频生成方法、装置、终端及存储介质。

背景技术

随着计算机技术的发展，智能终端通常具有音频播放和视频拍摄功能。用户可以利用智能终端播放音频，同时开启视频拍摄功能，从而根据音频内容进行表演或模仿，例如在终端播放音乐时使其拍摄用户跟随音乐对嘴型的视频。

相关技术中，终端在音频的播放起始时刻开始拍摄视频，并在音频的播放结束时刻停止拍摄，直接生成包含用户模仿画面的视频，或者在音频的播放起始时刻开始采集用户的动态图像，并将音频文件与图像文件进行编码，合成视频文件。

然而，若采用相关技术中的视频生成方法，用户需要预先熟悉音频内容，并且需要根据音频内容对口型，从而达到逼真的效果，操作较为费时费力，拍摄视频的效率较低。

发明内容

本申请实施例提供了一种视频生成方法、装置、终端及存储介质，使得用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频，从而降低制作目标视频的成本，提高视频生成效率。所述技术方案如下：

一方面，本申请实施例提供了一种视频生成方法，所述方法包括：

获得所选取的待匹配音频对应的发音嘴型序列；

获取与所述发音嘴型序列对应的嘴型素材图像序列，所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应；

利用所述嘴型素材图像序列对待匹配图像进行替换融合处理，得到目标图像序列，所述待匹配图像为包含嘴部的人脸图像；

对所述待匹配音频与所述目标图像序列进行合并编码，生成目标视频；同一时刻下，所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。

另一方面，本申请实施例提供了一种视频生成装置，所述装置包括：

第一获取模块，用于获得所选取的待匹配音频对应的发音嘴型序列；

第二获取模块，用于获取与所述发音嘴型序列对应的嘴型素材图像序列，所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应；

替换模块，用于利用所述嘴型素材图像序列对待匹配图像进行替换融合处理，得到目标图像序列，所述待匹配图像为包含嘴部的人脸图像；

生成模块，用于对所述待匹配音频与所述目标图像序列进行合并编码，生成目标视频；同一时刻下，所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频生成方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频生成方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的视频生成方法。

本申请实施例提供的技术方案的有益效果至少包括：

本申请实施例中，根据待匹配音频对应的发音嘴型序列，利用嘴型素材图像对待匹配图像进行替换融合处理，从而得到不同嘴型的目标图像，通过替换待匹配图像中发音嘴型的方式生成目标图像，使目标图像的发音嘴型适配待匹配音频的内容，用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频，降低了制作目标视频的成本，提高了视频生成效率。

附图说明

图1是根据本申请一示例性实施例示出的视频生成方法的流程图；

图2是根据本申请一示例性实施例示出的不同发音嘴型的示意图；

图3是根据本申请另一示例性实施例示出的视频生成方法的流程图；

图4是根据本申请一示例性实施例示出的对待匹配图片进行替换融合处理的示意图；

图5是根据本申请另一示例性实施例示出的视频生成方法的流程图；

图6是根据本申请另一示例性实施例示出的视频生成方法的流程图；

图7是根据本申请一示例性实施例示出的视频生成装置的结构框图；

图8是根据本申请一示例性实施例示出的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

相关技术中，用户在想要获取自身模仿他人说话、唱歌等的视频时，通常利用智能终端播放音频，同时开启视频拍摄功能，从而根据音频内容进行表演或模仿，例如在终端播放音乐时使其拍摄用户跟随音乐对嘴型的视频。终端在音频的播放起始时刻开始拍摄视频，并在音频的播放结束时刻停止拍摄，直接生成包含用户模仿画面的视频，或者在音频的播放起始时刻开始采集用户的动态图像，并将音频文件与图像文件进行编码，合成视频文件。

然而，若采用相关技术中的视频生成方法，用户需要预先熟悉音频内容，并且需要根据音频内容对口型，并且需要保证自己的发音嘴型与同一时刻的音频内容的发音嘴型一致，操作较为费时费力，拍摄视频的效率较低。

为了解决相关技术中存在的问题，本申请实施例提供了一种视频生成方法。本申请各个实施例提供的视频生成方法用于具有图像处理、音频处理以及视频处理和播放功能的终端，该终端可以是智能手机、平板电脑、电子书阅读器、个人便携式计算机等。通过本申请实施例提供的视频生成方法，终端可以通过替换待匹配图像中发音嘴型的方式生成目标图像，使目标图像的发音嘴型适配待匹配音频的内容，用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频，从而降低制作目标视频的成本，提高视频生成效率。

图1示出了本申请的一个实施例示出的视频生成方法的流程图。本实施例以视频生成方法用于具有图像处理、音频处理以及视频处理和播放功能的终端为例进行说明，该方法包括：

步骤101，获得所选取的待匹配音频对应的发音嘴型序列。

其中，发音嘴型是指人通过嘴部发声时对应的口型。例如，人在说话或唱歌时，每个字都对应有特定的发音，不同的发音需要人控制嘴部维持不同的嘴型。比如汉字“啊”对应的嘴型中上唇与下唇距离较大，而汉字“一”对应的嘴型中上唇与下唇距离较小。

在一种可能的实施方式中，开发人员预先确定字母、文字或单词等发音单位的发音与嘴型之间的对应关系，并规定获取待匹配音频发音序列的方式，例如每隔预定时长获取该时刻待匹配音频中音频内容的发音，或者对待匹配音频进行音频识别，得到待匹配音频对应的音频内容，并解析得到每个文字或单词的首字母对应的发音等，本申请实施例对此不作限定。

可选的，当终端接收到对待匹配音频的选择操作时，根据发音与发音嘴型的对应关系，确定所选取的待匹配音频的发音嘴型序列；或者应用程序具有根据音频和图像进行匹配生成视频的功能，当接受到对应用程序中待匹配音频的选择操作时，终端向该应用程序的后台服务器发送发音嘴型序列获取请求，并接收服务器发送的发音嘴型序列，其中，服务器用于在获取到未存储的音频时，生成并存储该音频与发音嘴型序列的对应关系。

示意性的，不同发音对应的发音嘴型可能不同，如图2所示，字母“c”的发音对应的发音嘴型为微张嘴的发音嘴型201，其上唇与下唇距离较小；字母“a”的发音对应的发音嘴型为张大嘴的发音嘴型203，其上唇与下唇距离较大；字母“e”的发音对应的发音嘴型为适度张嘴的发音嘴型202，其上唇与下唇距离介于前述两种发音嘴型之间。

步骤102，获取与发音嘴型序列对应的嘴型素材图像序列，嘴型素材图像序列中的嘴型素材图像与发音嘴型序列中的发音嘴型一一对应。

其中，嘴型素材图像为包含某一特定发音嘴型的嘴部图像。在一种可能的实施方式中，开发人员按照预设的发音嘴型，通过计算机设备从图像素材库中获取包含发音嘴型的人脸图像，使各个发音嘴型对应有至少一张人脸图像，并按照预定尺寸截取各个人脸图像中的嘴部区域，得到嘴型素材图像；或者计算机设备获取一张人脸图像，按照预设的发音嘴型对该张人脸图像的嘴部进行调整并截取，得到嘴型素材图像。

可选的，终端中存储有各个嘴型的嘴型素材图像，当获取到发音嘴型序列时，终端根据发音嘴型序列中发音嘴型的排序，获取嘴型素材图像序列；或者，终端直接从后台服务器处获取嘴型素材图像序列，本申请实施例对此不作限定。

示意性的，嘴型A对应有嘴型素材图像a，嘴型B对应有嘴型素材图像b，嘴型C对应有嘴型素材图像c。终端获取到待匹配音频对应的发音嘴型序列为“嘴型A-嘴型B-嘴型A-嘴型C”，则确定嘴型素材图像序列为“嘴型素材图像a-嘴型素材图像b-嘴型素材图像a-嘴型素材图像c”。

步骤103，利用嘴型素材图像序列对待匹配图像进行替换融合处理，得到目标图像序列，待匹配图像为包含嘴部的人脸图像。

嘴型素材图像中只包含嘴部及周围一定范围内的人脸区域，终端利用嘴型素材图像对待匹配图像进行替换融合处理时，只需将待匹配图像中的嘴部区域替换为对应的嘴型素材图像(例如将嘴型素材图像覆盖至待匹配图像中的相应区域)，并进行融合处理(例如模糊嘴型素材图像的边缘)，即可得到待匹配图像中的人脸处于不同发音嘴型时的目标图像。

目标图像序列中的发音嘴型与发音嘴型序列中的发音嘴型数量相同且一一对应。

步骤104，对待匹配音频与目标图像序列进行合并编码，生成目标视频。

同一时刻下，目标视频中视频帧对应的发音嘴型与音频帧对应的发音嘴型相同。

终端在得到目标图像序列后，按照根据发音序列中各个发音对应的音频播放时刻，确定各个目标图像的播放起始时刻，对待匹配音频与目标图像序列进行合并编码，生成目标视频。目标视频播放过程中，当达到某一目标图像的播放起始时刻时，视频画面切换为该目标图像的显示画面，即目标视频为待匹配图像中的人模仿待匹配音频中音频内容的视频。

示意性的，待匹配音频为歌手演唱某歌曲的音频，用户利用终端上传一张包含自身人脸图像的待匹配图像，就能够使终端生成该用户模仿歌手演唱该首歌曲的目标视频。

在一种可能的实施方式中，为了提高视频的逼真效果，终端对待匹配音频进行音频处理，改变待匹配音频中的声音特征，再将处理后的待匹配音频与目标图像序列进行合并编码。

综上所述，本申请实施例中，根据待匹配音频对应的发音嘴型序列，利用嘴型素材图像对待匹配图像进行替换融合处理，从而得到不同嘴型的目标图像，通过替换待匹配图像中发音嘴型的方式生成目标图像，使目标图像的发音嘴型适配待匹配音频的内容，用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频，降低了制作目标视频的成本，提高了视频生成效率。

由于终端中通常存储有大量的嘴型素材图像，其唇部特征可能不同，为了提高嘴型素材图像与待匹配图像中原有唇部的相似度，从而使生成的目标视频更加自然、逼真，在一种可能的实施方式中，终端根据待匹配图像中的人脸属性以及嘴型素材图像的素材属性，确定最适合待匹配图像的嘴型素材图像。

图3示出了本申请的另一个实施例示出的视频生成方法的流程图。本实施例以视频生成方法用于具有图像处理、音频处理以及视频处理和播放功能的终端为例进行说明，该方法包括：

步骤301，获得所选取的待匹配音频对应的发音嘴型序列。

步骤301的具体实施方式可以参考上述步骤101，本申请实施例在此不再赘述。

步骤302，对待匹配图像进行图像识别，得到待匹配图像的人脸属性。

为了提高嘴型素材图像与待匹配图像的融合度，使生成的目标视频更加自然，针对每一种发音嘴型，终端中都存储有素材库，素材库中包含对应发音嘴型的至少一张嘴型素材图像，终端从素材库中选取最符合待匹配图像的嘴型素材图像，对待匹配图像进行替换融合处理。

在一种可能的实施方式中，终端获取到待匹配图像后，对待匹配图像进行图像识别，得到待匹配图像的人脸属性，并根据人脸属性确定嘴型素材图像。

步骤303，根据人脸属性从候选素材库中确定第一目标素材库。

其中，第一目标素材库对应的素材属性与人脸属性的匹配度符合第一预设匹配条件，候选素材库中包含同一素材属性下不同发音嘴型的嘴型素材图像。

终端将存储的素材库作为候选素材库，且存储有每个候选素材库对应的素材属性。终端获取到待匹配图像的人脸属性后，将素材属性与人脸属性的匹配度符合第一预设匹配条件的候选素材库确定为目标素材库。

在一种可能的实施方式中，上述人脸属性包括第一目标年龄、目标唇形和第一目标性别中的至少一种，素材属性包括素材年龄区间、素材唇形和素材性别中的至少一种。

可选的，第一预设匹配条件包括：第一目标性别与素材性别相同；和/或，第一目标年龄属于素材年龄区间；和/或，目标唇形与素材唇形的相似度大于相似度阈值。

例如，第一预设匹配条件为目标唇形与，素材唇形的相似度大于相似度阈值，则终端对待匹配图像与各个候选素材库中的嘴型素材图像进行图像识别，分别计算其唇形的相似度，将相似度大于相似度阈值的候选素材库确定为目标素材库，若相似度大于相似度阈值的候选素材库的数量大于一，则将相似度最高的候选素材库确定为目标素材库。

在一种可能的实施方式中，第一预设匹配条件可能大于一项，例如包括目标唇形与素材唇形的相似度大于相似度阈值，以及第一目标性别与素材性别相同。当满足不同条件项的候选素材库不同时，终端根据第一预设匹配条件的重要程度确定目标素材库。

示意性的，第一预设匹配条件包括目标唇形与素材唇形的相似度大于相似度阈值，以及第一目标性别与素材性别相同，其中，前者的重要程度大于后者。若满足目标唇形与素材唇形的相似度大于相似度阈值的候选素材库为素材库A，满足第一目标性别与素材性别相同的素材库为素材库B，则终端将素材库A确定为目标素材库。

步骤304，根据发音嘴型序列，从第一目标素材库中获取嘴型素材图像，得到嘴型素材图像序列。

在一种可能的实施方式中，开发人员利用计算机设备从网络图像素材库中获取不同的人脸图像，并对获取到的人脸图像进行裁剪，存储其嘴部区域的嘴型图像，并调整为相同的尺寸和格式。再为每一张嘴型图像构建素材库，即根据预设的发音与发音嘴型的对应关系，将对嘴型图像进行处理，得到每一种发音嘴型对应的嘴型素材图像。因此一个素材库中包含一张嘴型图像对应所有发音嘴型的嘴型素材图像。

当终端确定出第一目标素材库时，根据发音嘴型序列，从第一目标素材库中获取嘴型素材图像，得到嘴型素材图像序列，其中嘴型素材图像序列中发音嘴型的排序与发音嘴型序列一致。

步骤305，根据待匹配图像中的发音嘴型与嘴型素材图像序列中各个嘴型素材图像的相似度，确定各个嘴型素材图像的透明度。

其中，相似度与透明度呈正相关关系。

当待匹配图像中的发音嘴型与嘴型素材图像的发音嘴型不同时，终端需要将待匹配图像中的嘴部区域替换为嘴型素材图像，而当待匹配图像中的发音嘴型与嘴型素材图像中的发音嘴型相似度较高时，终端无需对待匹配图像进行修改，可以直接将待匹配图像作为该发音嘴型对应的目标图像，而为了保证图像处理过程的一致性，方便终端对待匹配图像进行批量处理，根据待匹配图像中的发音嘴型与嘴型素材图像序列中各个嘴型素材图像的相似度，确定各个嘴型素材图像的透明度，从而将待匹配图像中的嘴部区域替换为透明处理后的嘴型素材图像。

例如，终端中存储有嘴型相似度阈值，当待匹配图像中的发音嘴型与嘴型素材图像序列中各个嘴型素材图像的相似度大于嘴型相似度阈值时，确定该嘴型素材图像对应的透明度为1，当待匹配图像中的发音嘴型与嘴型素材图像序列中各个嘴型素材图像的相似度小于嘴型相似度阈值时，确定该嘴型素材图像对应的透明度为0。

步骤306，按透明度对嘴型素材图像序列中的各个嘴型素材图像进行透明处理。

当终端确定出嘴型素材图像序列中各个嘴型素材图像的透明度时，对嘴型素材图像进行透明处理。例如，对于透明度为0的嘴型素材图像，终端只需保留其原图像，而对于透明度为1的嘴型素材图像，终端则将其处理为完全透明。

步骤307，利用透明处理后的嘴型素材图像序列对待匹配图像进行替换融合处理，得到目标图像序列。

其中，目标图像序列中的目标图像与嘴型素材图像序列中的嘴型素材图像一一对应。

在一种可能的实施方式中，由于终端只对待匹配图像的嘴部区域进行处理，将嘴部区域的图像替换为嘴型素材图像，因此终端首先需要确定待匹配图像的替换融合区域，即嘴部区域。因此，在步骤307之前，视频生成方法还包括如下步骤：

步骤一，响应于对待匹配图像的区域框选操作，获取待匹配图像和区域框选操作对应的区域信息。

可选的，用户上传待匹配图像后，手动框选待匹配图像的嘴部区域，当终端检测到对待匹配图像的区域框选操作(例如作用于图像上传界面的滑动操作)时，获取待匹配图像和区域框选操作对应的区域信息；或者，终端检测到图像上传操作时，获取待匹配图像，并对待匹配图像进行图像识别，自动框选待匹配图像中的嘴部区域。

若用户手动框选待匹配图像的嘴部区域，可能由于区域框选操作不规范导致框选出的嘴部区域过大而包含其他部位，或者导致框选出的嘴部区域过小而使部分嘴部位于框选区域之外。因此，在一种可能的实施方式中，终端对框选区域图像进行图像识别，当确定嘴部不完整或包含有其他部位时，提示用户再次进行框选并调整框选区域。

步骤二，将待匹配图像中区域信息对应的图像区域确定为替换融合区域。

可选的，区域信息中包含至少两个参考点相对于框选区域的位置信息以及相对于待匹配图像的位置信息；或者区域信息中包含至少两个参考点相对于待匹配图像的位置信息，以及框选区域的尺寸和形状等，本申请实施例对此不作限定。

示意性的，区域信息中包含框选区域中最高点、最低点以及左右端点的坐标信息，终端根据四个点的信息确定出矩形的替换融合区域。

步骤307还包括如下步骤：

步骤三，根据替换融合区域的区域尺寸以及嘴型素材图像的图像尺寸，对嘴型素材图像进行缩放处理。

由于终端中存储的嘴型素材图像具有一定的尺寸，而待匹配图像的尺寸、待匹配图像中的人脸大小、嘴部大小等都不相同，因此通常需要先调整嘴型素材图像，对其进行缩放处理，使嘴型素材图像序列中的各个嘴型素材图像的尺寸与替换融合区域一致。

步骤四，将嘴型素材图像序列中，经过缩放处理的嘴型素材图像替换至待匹配图像中的替换融合区域，并进行融合处理，得到目标图像序列。

可选的，终端裁剪并剔除替换融合区域中的原图像，将经过缩放处理的嘴型素材图像放置在替换融合区域；或者终端直接将嘴型素材图像叠加在替换融合区域上层。

此外，为了提高嘴型素材图像与待匹配图像的融合度，使目标图像更加自然，终端将嘴型素材图像替换至替换融合区域后，对替换融合区域的边缘进行融合处理，使替换融合区域内外两侧像素较为接近。

示意性的，如图4所示，终端将待匹配图像401中区域信息对应的图像区域确定为替换融合区域402，对嘴型素材图像403进行缩放处理并替换至待匹配图像401中的替换融合区域402，得到目标图像404。

步骤308，根据待匹配音频中相邻两个发音嘴型的播放时刻，确定目标图像序列中各个目标图像的播放时刻和播放时长。

由于终端并非根据每一帧音频帧的发音生成目标图像，而在播放目标视频时需要始终显示视频画面，因此一张目标图像可能对应多个视频帧。在一种可能的实施方式中，终端根据待匹配音频中相邻两个发音嘴型的播放时刻，确定目标图像序列中各个目标图像的播放时刻和播放时长。从播放时刻开始，至播放时长结束，中间的视频帧中始终包含目标图像。

示意性的，待匹配音频的00:01:00时的音频内容为汉字“啊”，下一个汉字“哦”的播放时刻为00:01:02。且“啊”的发音嘴型为发音嘴型A，“哦”的发音嘴型为发音嘴型B，则确定发音嘴型A对应的目标图像的播放时刻为00:01:00，播放时长为2秒。

步骤309，按照目标图像的播放时刻和播放时长，对待匹配音频与目标图像序列进行合并编码，生成目标视频。

终端确定出目标图像序列中各个目标图像的播放时刻和播放时长后，按照目标图像的播放时刻和播放时长，对待匹配音频与目标图像序列进行合并编码，使目标图像的播放时刻与对应发音的播放时刻一致。例如上述步骤308的示例中，目标视频播放至00:01:00时开始播放包含发音嘴型A对应的目标图像的视频帧，目标视频播放至00:01:02时开始播放包含发音嘴型B对应的目标图像的视频帧。

本申请实施例中，根据待匹配图像的人脸属性与候选素材库的素材属性确定目标素材库，使嘴型素材图像与候选素材图像中的人脸较为匹配；此外，根据待匹配图像中的发音嘴型与嘴型素材图像的相似度确定嘴型素材图像的透明度，在相似度较高时直接利用待匹配图像原有的发音嘴型，进一步提高了目标图像的自然度，使目标视频更加逼真。

上述实施例中，终端根据待匹配图像的人脸属性与候选素材库的素材属性确定目标素材库，然而，若终端中不存在满足第一预设匹配条件的候选素材库，则采用上述方法无法确定目标素材库。在一种可能的实施方式中，当候选素材库的素材属性与待匹配图像的人脸属性的匹配度均不符合第一预设条件时，终端根据待匹配音频的声音属性确定目标素材库，在图3的基础上，请参考图5，上述步骤304可以替换为步骤310至312：

步骤310，响应于匹配度不符合第一预设匹配条件，对待匹配音频进行声音识别，得到待匹配音频的声音属性。

当候选素材库的素材属性与待匹配图像的人脸属性的匹配度均不符合第一预设条件时，终端无法根据人脸属性确定目标素材库。而用户通常会选择与自身声音较为相似的音频进行模仿，因此终端在匹配度不符合第一预设匹配条件时，对待匹配音频进行声音识别，得到待匹配音频的声音属性。

或者，终端中预先存储有各个待匹配音频的声音属性，无需进行声音识别即可直接获取声音属性。

步骤311，根据声音属性从候选素材库中确定第二目标素材库，第二目标素材库对应的素材属性与声音属性的匹配度符合第二预设匹配条件。

在一种可能的实施方式中，声音属性包括第二目标年龄和第二目标性别中的至少一种，素材属性包括素材年龄区间和素材性别中的至少一种。第二预设匹配条件包括：第二目标性别与素材性别相同，和/或，第二目标年龄属于素材年龄区间。

第二预设匹配条件可能大于一项，例如包括第二目标性别与素材性别相同，以及第二目标年龄属于素材年龄区间。当满足不同条件项的候选素材库不同时，终端根据第二预设匹配条件的重要程度确定目标素材库。

示意性的，第二预设匹配条件包括第二目标性别与素材性别相同，以及第二目标年龄属于素材年龄区间，其中，前者的重要程度大于后者。若满足第二目标性别与素材性别相同的候选素材库为素材库A，满足第二目标年龄属于素材年龄区间的素材库为素材库B，则终端将素材库A确定为目标素材库。

步骤312，根据发音嘴型序列，从第二目标素材库中获取嘴型素材图像，得到嘴型素材图像序列。

当终端确定出第二目标素材库时，根据发音嘴型序列，从第二目标素材库中获取嘴型素材图像，得到嘴型素材图像序列，其中嘴型素材图像序列中发音嘴型的排序与发音嘴型序列一致。

本申请实施例中，当候选素材库的素材属性与待匹配图像的人脸属性的匹配度均不符合第一预设条件时，终端根据待匹配音频的声音属性确定目标素材库，使目标图像中的唇部特征符合待匹配音频的声音属性，从而避免嘴型素材图像与待匹配图像中的人脸匹配度较低，使得嘴型素材图像与待匹配图像融合度较低的情况。

上述实施例中，终端合并编码生成的目标视频中，从某一发音嘴型对应的播放时刻开始，至对应的播放时长结束，视频帧始终包含其对应的目标图像，而这种视频生成方式可能导致目标视频中发音嘴型变化较为突兀，为了提高目标视频的自然度和逼真程度，在一种可能的实施方式中，在图3的基础上，请参考图6，上述步骤308和309可以替换为步骤313和314：

步骤313，根据所目标图像序列中相邻两个目标图像中的发音嘴型，确定嘴型切换动画序列。

其中，嘴型切换动画是从目标图像中的发音嘴型渐变至下一目标图像中的发音嘴型的动画。

若终端直接将目标图像序列和待匹配音频合并编码，则生成的目标视频中发音嘴型的变换较为突兀。因此终端需要在相邻两个发音嘴型对应的目标图像之间加入嘴型切换动画。

例如，目标图像序列中存在一张闭着嘴巴的目标图像，而下一张目标图像中的发音嘴型为张大嘴，若直接切换则视频效果较差，因此终端在这两张目标图像之间插入由闭嘴变化为张大嘴的嘴型切换动画。

其中，若相邻两个发音嘴型相同，则终端确定不加入嘴型切换动画，在变换至其他发音嘴型之前，始终显示对应的目标图像。

步骤314，对所待匹配音频、目标图像序列和嘴型切换动画序列进行合并编码，生成目标视频。

终端确定出目标图像序列中相邻两个目标图像之间的嘴型切换动画序列后，按照目标图像的播放时刻和播放时长，对待匹配音频、嘴型切换动画序列与目标图像序列进行合并编码，目标图像的播放时刻与对应发音的播放时刻一致，嘴型切换动画在显示目标图像的视频帧结束后开始播放，在显示下一目标图像的视频帧播放前结束。

本申请实施例中，终端根据发音嘴型序列，在相邻两个发音嘴型对应的目标图像之间加入嘴型切换动画，使目标视频中的发音嘴型变换更加自然，提高了目标视频的自然度和逼真程度。

图7示出了本申请一个示例性实施例提供的视频生成装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

第一获取模块701，用于获得所选取的待匹配音频对应的发音嘴型序列；

第二获取模块702，用于获取与所述发音嘴型序列对应的嘴型素材图像序列，所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应；

替换模块703，用于利用所述嘴型素材图像序列对待匹配图像进行替换融合处理，得到目标图像序列，所述待匹配图像为包含嘴部的人脸图像；

生成模块704，用于对所述待匹配音频与所述目标图像序列进行合并编码，生成目标视频；同一时刻下，所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。

可选的，所述装置还包括：

第一识别模块，用于对所述待匹配图像进行图像识别，得到所述待匹配图像的人脸属性；

第一确定模块，用于根据所述人脸属性从候选素材库中确定第一目标素材库，所述第一目标素材库对应的素材属性与所述人脸属性的匹配度符合第一预设匹配条件，所述候选素材库中包含同一所述素材属性下不同所述发音嘴型的所述嘴型素材图像；

所述第二获取模块702，包括：

第一获取单元，用于根据所述发音嘴型序列，从所述第一目标素材库中获取所述嘴型素材图像，得到所述嘴型素材图像序列。

可选的，所述人脸属性包括第一目标年龄、目标唇形和第一目标性别中的至少一种，所述素材属性包括素材年龄区间、素材唇形和素材性别中的至少一种；

所述第一预设匹配条件包括：

所述第一目标性别与所述素材性别相同；

和/或，所述第一目标年龄属于所述素材年龄区间；

和/或，所述目标唇形与所述素材唇形的相似度大于相似度阈值。

可选的，所述装置还包括：

第二识别模块，用于响应于所述匹配度不符合所述第一预设匹配条件，对所述待匹配音频进行声音识别，得到所述待匹配音频的声音属性；

第二确定模块，用于根据所述声音属性从所述候选素材库中确定第二目标素材库，所述第二目标素材库对应的所述素材属性与所述声音属性的匹配度符合第二预设匹配条件；

所述第二获取模块702，包括：

第二获取单元，用于根据所述发音嘴型序列，从所述第二目标素材库中获取所述嘴型素材图像，得到所述嘴型素材图像序列。

可选的，所述声音属性包括第二目标年龄和第二目标性别中的至少一种，所述素材属性包括素材年龄区间和素材性别中的至少一种；

所述第二预设匹配条件包括：

所述第二目标性别与所述素材性别相同，和/或，所述第二目标年龄属于所述素材年龄区间。

可选的，所述替换模块703，包括：

第一确定单元，用于根据所述待匹配图像中的所述发音嘴型与所述嘴型素材图像序列中各个所述嘴型素材图像的相似度，确定各个所述嘴型素材图像的透明度，所述相似度与所述透明度呈正相关关系；

第一处理单元，用于按所述透明度对所述嘴型素材图像序列中的各个所述嘴型素材图像进行透明处理；

第一替换单元，用于利用所述透明处理后的所述嘴型素材图像序列对所述待匹配图像进行替换融合处理，得到所述目标图像序列，所述目标图像序列中的目标图像与所述嘴型素材图像序列中的所述嘴型素材图像一一对应。

可选的，所述装置还包括：

第三获取模块，用于响应于对所述待匹配图像的区域框选操作，获取所述待匹配图像和所述区域框选操作对应的区域信息；

第三确定模块，用于将所述待匹配图像中所述区域信息对应的图像区域确定为替换融合区域；

所述替换模块703，包括：

第二处理单元，用于根据所述替换融合区域的区域尺寸以及所述嘴型素材图像的图像尺寸，对所述嘴型素材图像进行缩放处理；

第二替换单元，用于将所述嘴型素材图像序列中，经过所述缩放处理的所述嘴型素材图像替换至所述待匹配图像中的所述替换融合区域，并进行融合处理，得到所述目标图像序列。

可选的，所述生成模块704，包括：

第二确定单元，用于根据所述待匹配音频中相邻两个所述发音嘴型的播放时刻，确定所述目标图像序列中各个目标图像的所述播放时刻和播放时长；

第一生成单元，用于按照所述目标图像的所述播放时刻和所述播放时长，对所述待匹配音频与所述目标图像序列进行合并编码，生成所述目标视频。

可选的，所述生成模块704，包括：

第三确定单元，用于根据所述目标图像序列中相邻两个所述目标图像中的所述发音嘴型，确定嘴型切换动画序列，嘴型切换动画是从所述目标图像中的所述发音嘴型渐变至下一所述目标图像中的所述发音嘴型的动画；

第二生成单元，用于对所述待匹配音频、所述目标图像序列和所述嘴型切换动画序列进行合并编码，生成所述目标视频。

请参考图8，其示出了本申请一个示例性实施例提供的终端800的结构方框图。该终端800可以是智能手机、平板电脑、电子书、便携式个人计算机等安装并运行有应用程序的电子设备。本申请中的终端800可以包括一个或多个如下部件：处理器820、存储器810和屏幕830。

处理器820可以包括一个或者多个处理核心。处理器820利用各种接口和线路连接整个终端800内的各个部分，通过运行或执行存储在存储器810内的指令、程序、代码集或指令集，以及调用存储在存储器810内的数据，执行终端800的各种功能和处理数据。可选地，处理器820可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器820可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责屏幕830所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器820中，单独通过一块通信芯片进行实现。

存储器810可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器810包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器810可用于存储指令、程序、代码、代码集或指令集。存储器810可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端800在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕830可以为电容式触摸显示屏，该电容式触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端800的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端800的结构并不构成对终端800的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端800中还包括射频电路、拍摄组件、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)组件、电源、蓝牙组件等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的视频生成方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获得所选取的待匹配音频对应的发音嘴型序列；

根据待匹配图像中的所述发音嘴型与所述嘴型素材图像序列中各个所述嘴型素材图像的相似度，确定各个所述嘴型素材图像的透明度，所述相似度与所述透明度呈正相关关系；

按所述透明度对所述嘴型素材图像序列中的各个所述嘴型素材图像进行透明处理；

利用所述透明处理后的所述嘴型素材图像序列对所述待匹配图像进行替换融合处理，得到目标图像序列，所述目标图像序列中的目标图像与所述嘴型素材图像序列中的所述嘴型素材图像一一对应，所述待匹配图像为包含嘴部的人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述获取与所述发音嘴型序列对应的嘴型素材图像序列之前，所述方法包括：

对所述待匹配图像进行图像识别，得到所述待匹配图像的人脸属性；

根据所述人脸属性从候选素材库中确定第一目标素材库，所述第一目标素材库对应的素材属性与所述人脸属性的匹配度符合第一预设匹配条件，所述候选素材库中包含同一所述素材属性下不同所述发音嘴型的所述嘴型素材图像；

所述获取与所述发音嘴型序列对应的嘴型素材图像序列，包括：

根据所述发音嘴型序列，从所述第一目标素材库中获取所述嘴型素材图像，得到所述嘴型素材图像序列。

3.根据权利要求2所述的方法，其特征在于，所述人脸属性包括第一目标年龄、目标唇形和第一目标性别中的至少一种，所述素材属性包括素材年龄区间、素材唇形和素材性别中的至少一种；

所述第一预设匹配条件包括：

所述第一目标性别与所述素材性别相同；

和/或，所述第一目标年龄属于所述素材年龄区间；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

响应于所述匹配度不符合所述第一预设匹配条件，对所述待匹配音频进行声音识别，得到所述待匹配音频的声音属性；

根据所述声音属性从所述候选素材库中确定第二目标素材库，所述第二目标素材库对应的所述素材属性与所述声音属性的匹配度符合第二预设匹配条件；

根据所述发音嘴型序列，从所述第二目标素材库中获取所述嘴型素材图像，得到所述嘴型素材图像序列。

5.根据权利要求4所述的方法，其特征在于，所述声音属性包括第二目标年龄和第二目标性别中的至少一种，所述素材属性包括素材年龄区间和素材性别中的至少一种；

所述第二预设匹配条件包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

响应于对所述待匹配图像的区域框选操作，获取所述待匹配图像和所述区域框选操作对应的区域信息；

将所述待匹配图像中所述区域信息对应的图像区域确定为替换融合区域；

所述利用所述嘴型素材图像序列对待匹配图像进行替换融合处理，包括：

根据所述替换融合区域的区域尺寸以及所述嘴型素材图像的图像尺寸，对所述嘴型素材图像进行缩放处理；

将所述嘴型素材图像序列中，经过所述缩放处理的所述嘴型素材图像替换至所述待匹配图像中的所述替换融合区域，并进行融合处理，得到所述目标图像序列。

7.根据权利要求1至5任一所述的方法，其特征在于，所述对所述待匹配音频与所述目标图像序列进行合并编码，生成目标视频，包括：

根据所述待匹配音频中相邻两个所述发音嘴型的播放时刻，确定所述目标图像序列中各个目标图像的所述播放时刻和播放时长；

按照所述目标图像的所述播放时刻和所述播放时长，对所述待匹配音频与所述目标图像序列进行合并编码，生成所述目标视频。

8.根据权利要求1至5任一所述的方法，其特征在于，所述对所述待匹配音频与所述目标图像序列进行合并编码，生成目标视频，包括：

根据所述目标图像序列中相邻两个所述目标图像中的所述发音嘴型，确定嘴型切换动画序列，嘴型切换动画是从所述目标图像中的所述发音嘴型渐变至下一所述目标图像中的所述发音嘴型的动画；

对所述待匹配音频、所述目标图像序列和所述嘴型切换动画序列进行合并编码，生成所述目标视频。

9.一种视频生成装置，其特征在于，所述装置包括：

第一替换单元，用于利用所述透明处理后的所述嘴型素材图像序列对所述待匹配图像进行替换融合处理，得到目标图像序列，所述目标图像序列中的目标图像与所述嘴型素材图像序列中的所述嘴型素材图像一一对应，所述待匹配图像为包含嘴部的人脸图像；

10.一种终端，其特征在于，所述终端包括：处理器和存储器，所述存储器中存储有至少一段程序，所述所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的视频生成方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一项所述的视频生成方法。