CN115052197A

CN115052197A - 虚拟人像视频的生成方法及装置

Info

Publication number: CN115052197A
Application number: CN202210303667.3A
Authority: CN
Inventors: 赵超; 肖立鹏
Original assignee: Beijing Wofeng Times Data Technology Co ltd
Current assignee: Beijing Wofeng Times Data Technology Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-09-13
Anticipated expiration: 2042-03-24
Also published as: CN115052197B

Abstract

本发明提供一种虚拟人像视频的生成方法及装置，所述虚拟人像视频的生成方法，包括：从样本数据库中获取与目标音频对应的M个样本三音素；基于M个样本三音素，分别从样本数据库中获取与M个样本三音素对应的P个样本图像，样本图像包括人像的嘴部区域信息，人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联；基于P个样本图像和目标音频合成目标虚拟人像视频，目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。本发明的虚拟人像视频的生成方法，合成效率高且合成的视频效果生动形象，具有较高的分辨率，从而有助于提高智能服务领域的服务效率和服务质量。

Description

虚拟人像视频的生成方法及装置

技术领域

本发明涉及虚拟视频合成技术领域，尤其涉及一种虚拟人像视频的生成方法及装置。

背景技术

随着人工智能产品在生活中的渗透率越来越高，虚拟视频作为人机自然交互的最直观、最有效以及体验最好的途径方法，虚拟视频包括但不限于虚拟偶像主播、虚拟员工、虚拟助手、虚拟管家以及虚拟驾驶员等。相关技术中，主要采用动态扫描技术或采用深度学习GAN网络驱动技术生成虚拟视频，第一种方法需要将采集到的光影效果或是照片数据通过人脸特征识别、空间变换组件、模型重建组件、骨骼变形组件以及纹理融合组件等搭配合成多模态3D模型，然后通过面部表情驱动，对建模要求高且生成的形象生硬；第二种方法需要采集大量的训练数据来对模型进行训练，然后基于模型与给定音频驱动唇形，不仅GAN训练难度大，而且生成的图像分辨率低。以上两种方法均会导致最终合成的虚拟视频的效果不佳。

发明内容

本发明提供一种虚拟人像视频的生成方法及装置，用以解决现有技术中虚拟视频合成效率低且合成效果较差的缺陷，实现高效且高质量的虚拟视频合成。

本发明提供一种虚拟人像视频的生成方法，包括：

从样本数据库中获取与目标音频对应的M个样本三音素，所述样本数据库中包括N个样本三音素，以及与所述N个样本三音素对应的Q个样本图像；

基于所述M个样本三音素，分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像，所述样本图像包括人像的嘴部区域信息，所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联，其中N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q为正整数；

基于所述P个样本图像和所述目标音频合成目标虚拟人像视频，所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。

根据本发明提供的一种虚拟人像视频的生成方法，所述从样本数据库中获取与目标音频对应的M个样本三音素，包括：

将所述目标音频与所述目标音频对应的目标文本进行时间对齐；

将所述目标文本转化为目标三音素序列；

切分所述目标三音素序列，生成多个目标三音素；

从所述样本数据库中匹配得到与所述目标三音素对应的样本三音素。

根据本发明提供的一种虚拟人像视频的生成方法，所述分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像，包括：

获取所述目标三音素在所述目标音频中的时长信息；

从所述样本数据库中匹配得到与所述样本三音素对应的多个样本图像；

基于所述目标三音素在所述目标音频中的时长信息调整所述多个样本图像对应的时长信息。

根据本发明提供的一种虚拟人像视频的生成方法，所述基于所述P个样本图像和所述目标音频合成目标虚拟人像视频，包括：

基于所述P个样本三音素中相邻的两个样本三音素对应的样本图像，生成所述两个样本三音素对应的样本图像之间的过渡图像；

基于所述样本图像对应的样本三音素在所述目标音频中的时间信息，拼接所述样本图像和所述过渡图像，生成目标图像序列；

合成所述目标图像序列和所述目标音频，生成所述目标虚拟人像视频。

根据本发明提供的一种虚拟人像视频的生成方法，在所述从样本数据库中获取与目标音频对应的M个样本三音素之前，所述方法包括：

获取样本视频，所述样本视频包括样本图像序列和样本音频；

基于所述样本音频，获取与所述样本音频对应的样本三音素序列；

对所述样本图像序列和所述样本三音素序列进行时间对齐，生成时间序列；

基于所述时间序列，建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系；

将所述样本图像、与所述样本图像对应的样本三音素以及所述样本图像与所述样本图像对应的样本三音素之间的映射关系存储至所述样本数据库。

根据本发明提供的一种虚拟人像视频的生成方法，所述基于所述时间序列，建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系，包括：

基于所述样本图像中人像的嘴部区域信息，生成所述样本图像中人像的嘴部区域坐标；

建立所述嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。

本发明还提供一种虚拟人像视频的生成装置，包括：

第一处理模块，用于从样本数据库中获取与目标音频对应的M个样本三音素，所述样本数据库中包括N个样本三音素，以及与所述N个样本三音素对应的Q个样本图像；

第二处理模块，用于基于所述M个样本三音素，分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像，所述样本图像包括人像的嘴部区域信息，所述人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联，其中N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q为正整数；

第三处理模块，用于基于所述P个样本图像和所述目标音频合成目标虚拟人像视频，所述目标虚拟人像视频中的人像的嘴部区域信息与所述目标音频相对应。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述虚拟人像视频的生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述虚拟人像视频的生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述虚拟人像视频的生成方法。

本发明提供的虚拟人像视频的生成方法及装置，通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系，以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像，对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频，无需对大量数据进行重复训练即可进行视频合成，合成效率高；且合成的视频效果生动形象，具有较高的分辨率，有助于提高智能服务领域的服务效率和服务质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的虚拟人像视频的生成方法的流程示意图；

图2是本发明提供的虚拟人像视频的生成装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的虚拟人像视频的生成方法。

该虚拟人像视频的生成方法的执行主体可以为虚拟人像视频的生成装置，或者为服务器，或者还可以为用户的终端，包括移动终端和非移动终端，其中，非移动终端包括但不限于：用户的手机、平板电脑、车载终端、手表以及其他智能终端等。

如图1所示，该虚拟人像视频的生成方法包括：步骤110、步骤120和步骤130。

步骤110、从样本数据库中获取与目标音频对应的M个样本三音素，样本数据库中包括N个样本三音素，以及与N个样本三音素对应的Q个样本图像，其中N≥M，Q≥N且M、N和Q为正整数；

在该步骤中，目标音频为用于进行目标虚拟人像视频合成的音频。

样本数据库为预先建立的映射关系数据库，样本数据库用于存储预先生成的样本三音素和样本三音素对应的一帧或多帧样本图像。

其中，样本图像包括人像的嘴部区域信息，人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联。

人像的嘴部区域信息表征人像的嘴部变化状态，包括但不限于人像的嘴部形状以及位置等。

需要说明的是，在实际执行过程中，可预先获取样本视频，对该样本视频进行特征提取，可获取多帧样本图像和样本音频，其中，多帧样本图像可以记为：P₁P₂P₃…P_n，其中P_n表示样本视频中第n帧样本图像，n为样本视频中的总帧数。

对样本音频进行特征提取，可以生成样本音频对应的样本三音素序列，对样本三音素序列进行切分，即可生成多个样本三音素。

然后将获取的多帧样本图像：P₁P₂P₃…P_n和多个样本三音素存储于样本数据库中。

可以理解的是，对于任一样本三音素，其对应的样本图像可能为一帧，也可能为多帧；样本三音素对应的样本图像的帧数基于样本三音素的发音时长确定。

其中，三音素为音素的一种，由三个单音素组成，包含有上下文之间的关系。

样本图像为样本视频中的任意一帧图像帧，且样本图像中的内容与样本视频对应的样本音频在该图像帧下的音频具有对应关系，也即样本图像中的内容与样本视频对应的样本音频在该图像帧下的样本三音素具有对应关系。

例如，在样本图像包括人像的情况下，该样本图像中人像的口型应与样本音频在该图像帧下的音频相对应，如在样本音频为“我”的情况下，样本图像中人像的口型应近似为o型。

样本数据库为预先建立的数据库，样本数据库的具体建立方式将在后续实施例中进行说明，在此暂不作赘述。

下面通过具体实施例，对该步骤的实现方式进行说明。

在一些实施例中，步骤110可以包括：

将目标音频与目标音频对应的目标文本进行时间对齐；

将目标文本转化为目标三音素序列；

切分目标三音素序列，生成多个目标三音素；

从样本数据库中匹配得到与目标三音素对应的样本三音素。

在该实施例中，目标文本用于表征目标音频中的文本信息。

在该实施例中，将目标音频与目标音频对应的目标文本进行时间对齐，也即将目标音频中的每一个字符所对应的读音与该读音所对应的字符在文本中的位置进行对齐。

在对齐之后，基于目标文本将目标音频转化为目标三音素序列F₁F₂F₃…F_m，其中F_m表示目标三音素序列中第m个三音素，m为目标三音素序列中的三音素的总数。

例如，对于目标文本“今天天气很好”，可以将其转化为目标三音素序列：sil-j+in/j-in+t/t-ian+q/q-i+h/h-en+h/h-ao+sil，其中，sil为开始结束的标志。

其中，目标三音素序列是针对音素发音的特点聚类生成的，如ao的上文是清辅音聚为一类等，b/p-ao+*。

在生成目标三音素序列后，对目标三音素序列进行切分所得到的多个三音素，其中每一个三音素均可以用F_a-b+c表示，其中a、b和c分别表示三音素中的各个音素，F_a-b+c即为本实施例中的目标三音素。

在获取得到目标三音素后，将目标三音素与样本数据库中的样本三音素进行匹配，以获取与目标三音素相同或近似的样本三音素，并将该样本三音素对应的样本图像确定为目标三音素对应的目标图像。

下面分别从两种实现角度，对目标三音素的匹配过程进行说明。

其一，样本数据库中存在有与目标三音素相同的样本三音素。

在一些实施例中，从样本数据库中匹配得到与目标三音素对应的样本三音素，可以包括：从样本数据库中匹配得到与目标三音素相同的样本三音素。

在该实施例中，样本数据库中存在有与目标三音素相同的样本三音素，则直接从样本数据库中获取与目标三音素相同的样本三音素即可。

其二，样本数据库中不存在有与目标三音素相同的样本三音素。

在另一些实施例中，从样本数据库中匹配得到与目标三音素对应的样本三音素，可以包括：

获取与目标三音素相似的第一三音素；

从样本数据库中匹配得到与第一三音素相同的样本三音素序列。

在该实施例中，第一三音素为与目标三音素的相似程度较高的三音素。

样本数据库中不存在有与目标三音素相同的样本三音素，则获取与目标三音素近似的样本三音素。

在实际执行过程中，可以采用聚类模型获取与目标三音素相似第一三音素。

步骤120、基于M个样本三音素，分别从样本数据库中获取与M个样本三音素对应的P个样本图像；

在该步骤中，N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q均为正整数。

其中，一个样本三音素可以对应有一帧或多帧样本图像。

可以理解的是，从样本数据库中获取的与M个样本三音素对应的P个样本图像，可以为与目标三音素相同的样本三音素对应的样本图像，也可以为与目标三音素相似的样本三音素对应的样本图像。

例如，样本数据库C中包括：N个样本三音素F’以及与N个样本三音素对应的Q个样本图像P’。

对于目标音频V和目标音频对应的目标文本T，在将目标音频V和目标文本T进行对齐后，生成目标音频V对应的目标三音素序列F₁F₂F₃…F_m，其中F_m表示目标三音素序列中第m个三音素，m为目标三音素序列中的三音素的总数。

对于目标三音素序列中的任意目标三音素F_i，从样本数据库C中获取与目标三音素F_i对应的样本三音素F_j’，其中1≤i≤m，1≤j≤N；然后从样本数据库C中获取与该样本三音素F_j’对应的一帧或多帧样本图像P_j’，并将该一帧或多帧样本图像P_j’确定为目标三音素对应的目标图像P_i。

在一些实施例中，步骤120可以包括：

获取目标三音素在目标音频中的时长信息；

从样本数据库中匹配得到与样本三音素对应的样本图像；

基于目标三音素在目标音频中的时长信息调整样本图像对应的时长信息。

在该实施例中，时长信息用于表征目标三音素在目标音频中的发音时长。

目标三音素序列中的每一个目标三音素均对应有时长信息。

需要说明的是，在目标三音素序列对应有时长信息的情况下，样本数据库中的样本三音素也应对应有时长信息。

例如，对于目标音频V和目标音频对应的目标文本T，在将目标音频V和目标文本T进行对齐后，可以生成目标音频V对应的目标三音素序列F₁F₂F₃…F_m，以及目标三音素序列中每一个目标三音素的时长T，生成目标三音素序列对应的时长序列T₁T₂T₃…T_m。

对于目标三音素序列中的任意目标三音素F_i，其对应的时长信息为T_i，从样本数据库C中获取与目标三音素F_i对应的样本三音素F_j’，该样本三音素F_j’对应的时长信息为T_j’，其中1≤i≤m，1≤j≤N；

然后从样本数据库C中获取与该样本三音素F_j’对应的一帧或多帧样本图像P_i’，通过线性差值将T _j’对应的一帧或多帧样本图像P_i’和T_i对应的一帧或多帧目标图像P_i进行对齐，以将一帧或多帧样本图像P_i’对应的时长调整至与T_i一致。

步骤130、基于P个样本图像和目标音频合成目标虚拟人像视频，目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。

在该步骤中，目标虚拟人像视频为基于目标音频所合成的视频，目标虚拟人像视频包括图像信息和音频信息。

可以理解的是，对于任一目标音频，可以将其合成为一段目标虚拟人像视频，且所合成的目标虚拟人像视频中的图像信息与音频信息相对应。

例如，在图像信息包括人像的情况下，人像的嘴型变化状态应与音频信息相对应。

在实际执行过程中，在通过步骤110和步骤120生成目标音频对应的P个样本图像后，可以基于P个样本图像中每一个样本图像对应的样本三音素在目标音频中的时间序列，对P个样本图像进行拼接，生成P帧样本图像序列，并对P帧样本图像序列和目标音频进行合成，从而生成目标虚拟人像视频。

在一些实施例中，步骤130可以包括：

基于P个样本三音素中相邻的两个样本三音素对应的样本图像，生成两个样本三音素对应的样本图像之间的过渡图像；

基于样本图像对应的样本三音素在目标音频中的时间信息，拼接样本图像和过渡图像，生成目标图像序列；

合成目标图像序列和目标音频，生成目标虚拟人像视频。

在该实施例中，过渡图像为任意两个相邻的目标三音素对应的样本图像之间的图像。

例如，对于目标三音素序列F₁F₂F₃…F_m中的目标三音素F₁和F₂，其中，第一个目标三音素F₁对应有三帧样本图像，从前至后依次为P₁P₂P₃，第二个目标三音素F₂对应有三帧样本图像，从前至后依次为P₄P₅P₆；过渡图像即为P₃和P₄之间的图像。

时间信息包括样本三音素在目标音频中的时长信息以及时间序列。

目标图像序列包括多帧目标图像，其中，多帧目标图像包括P帧样本图像以及除样本图像外的过渡图像。

可以理解的是，在本实施例中，目标图像的帧数应不低于P。

在实际执行过程中，可以基于第一个目标三音素F₁对应有多帧样本图像中的最后一帧样本图像对应的目标像素点的坐标，在第二个目标三音素F₂对应的样本图像序列中，通过余弦距离与目标像素点坐标最接近的像素点坐标作为过渡图像中的目标像素点的坐标。

其中，目标像素点为需要与目标音频保持一致的像素点，例如，在图像信息包括人像信息的情况下，目标像素点可以为样本图像上的嘴部区域对应的坐标。

重复上述操作，依次生成目标三音素序列F₁F₂F₃…F_m中的任意两个相连的目标三音素对应的样本图像之间的过渡图像，以获取多个过渡图像。

在生成目标三音素序列F₁F₂F₃…F_m对应的全部样本图像和过渡图像后，基于每一帧样本图像对应的样本三音素所对应的目标三音素在目标音频中的时间信息，对全部的样本图像以及过渡图像按照时间序列进行拼接，以生成目标图像序列。

例如，对于目标三音素序列F₁F₂，其中目标三音素F₁对应的样本图像序列为P₁P₂P₃，目标三音素F₂对应的样本图像序列为P₄P₅P₆，基于P₃和P₄可以生成过渡图像P_g。

基于P₁P₂P₃和P₄P₅P₆对应的目标三音素在目标三音素序列中的时间序列，依次拼接P₁P₂P₃、P_g以及P₄P₅P₆，生成目标图像序列P₁P₂P₃P_gP₄P₅P₆。

根据本发明实施例提供的虚拟人像视频的生成方法，通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系，以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像，对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频，无需对大量数据进行重复训练即可进行视频合成，合成效率高；且合成的视频效果生动形象，具有较高的分辨率，有助于提高智能服务领域的服务效率和服务质量。

下面通过具体实施例对样本数据库的构建过程进行说明。

在一些实施例中，在步骤110之前，该方法还可以包括：

获取样本视频，样本视频包括样本图像序列和样本音频；

基于样本音频，获取与样本音频对应的样本三音素序列；

对样本图像序列和样本三音素序列进行时间对齐，生成时间序列；

基于时间序列，建立样本图像序列中的样本图像与样本三音素序列中的样本三音素之间的映射关系；

将样本图像、与样本图像对应的样本三音素以及样本图像与样本图像对应的样本三音素之间的映射关系存储至样本数据库。

在该实施例中，样本视频为用于构建样本数据库的视频。

样本视频可以为多个人物说话视频，且不同的说话视频中的样本音频所对应的样本文本不同。

例如，可以采集多段目标人物的具有高表现力的说话视频作为样本视频，以提高样本视频的清晰度；并限制目标任务的头部转向角度小于目标阈值，以保证目标人物的嘴部左右对称，从而保证采集的样本图像中的任务的嘴部图像具有对称性。

其中，目标阈值可以基于用户自定义，如设置为10°或12°等。

在实际执行过程中，可以对获取的样本视频进行视频分帧处理，以生成多帧样本图像，其中，多帧样本图像可以记为：P’₁P’₂P’₃…P’_n，其中P’_n表示样本视频中第n帧样本图像，n为样本视频中的总帧数。

在一些实施例中，基于时间序列，建立样本图像序列中的样本图像与样本三音素序列中的样本三音素之间的映射关系，可以包括：

基于样本图像中人像的嘴部区域信息，生成样本图像中人像的嘴部区域坐标；

建立嘴部区域坐标与其所在的样本图像所对应的样本三音素之间的映射关系。

在该实施例中，对于样本图像中包括人像信息的图像，可以基于人脸检测算法对每张样本图像进行人脸识别与检测，将每张样本图像调整至相同的高与宽，并标记样本图像中人像的位置坐标，用[x1,x2,y1,y2]表示，并取人像的嘴部区域坐标为

除此之外，对获取的样本视频进行语音提取，获取样本音频以及样本音频对应的样本文本，利用语音识别系统对样本音频以及样本音频对应的样本文本进行对齐，根据对齐结果，生成样本音频对应的样本三音素序列以及样本三音素序列对应的时间序列。

然后对样本三音素序列进行切分，生成多个样本三音素。基于样本三音素序列对应的时间序列可以获取各样本三音素对应的时长信息。

对于任一样本三音素，可以获取该样本三音素在时间序列上对应于同一时间信息的样本图像，并建立样本三音素与样本图像之间的映射关系。

对于建立有嘴部区域坐标的样本图像而言，建立样本三音素与样本图像之间的映射关系，也即建立样本三音素与该样本三音素对应的样本图像中的人像的嘴部区域坐标之间的映射关系。

根据本发明实施例提供的虚拟人像视频的生成方法，通过建立嘴型区域坐标与样本三音素之间的映射关系数据库，通过人像中嘴型区域的关键点坐标检测，来合成与给定的目标音频对应的目标图像序列，能够保证所生成的目标图像序列的分辨率无损失，且画面生动形象。

下面通过具体实施例，对本申请提供的虚拟人像视频的生成方法的实现方式进行说明。

首先获取样本视频，对获取的样本视频进行视频分帧处理，以生成多帧样本图像，其中，多帧样本图像可以记为：P’₁P’₂P’₃…P’_n，其中P_n表示样本视频中第n帧样本图像，n为样本视频中的总帧数。

对于样本图像中包括人像信息的图像，可以基于人脸检测算法对每张样本图像进行人脸识别与检测，将每张样本图像调整至相同的高与宽，并标记样本图像中人像的位置坐标，用[x1,x2,y1,y2]表示，并取人像中嘴型部分区域坐标V为

基于三音素对齐结果以及人脸检测结果，实现样本三音素序列与样本图像序列中的口型的对应关系，如样本三音素序列F’₁F’₂F’₃…F’_n对应的样本图像序列为P’₁P’₂P’₃…P’_n，P’_n为第n个样本三音素对应的子样本图像序列，对于任意的P’_k，其对应的子样本图像序列可以表示为：P’_1kP’_2kP’_3k…P’_mk，其中，m为子样本图像序列中的样本图像的数量，且1≤k≤n。

该子样本图像序列也即时间序列下的嘴部区域坐标序列。

其中，每个样本图像对应16点坐标

其中，1≤i≤m，

为第k个样本三音素对应的第i张样本图像中的嘴部区域坐标。

在该实施例中，采用108点人脸检测，在其他实施例中，也可以采用其他人脸检测方法，本发明不作限定。

根据以上步骤，即可建立样本三音素与对应的样本图像之间的映射关系，并将该样本三音素、该样本三音素对应的样本图像以及本三音素与对应的样本图像之间的映射关系存储至样本数据库中。

在构建生成样本数据库后，在实际应用中，对于任一目标音频，均可基于语音识别系统将目标音频与该目标音频对应的目标文本进行强制对齐，生成目标音频对应的目标三音素序列F₁F₂F₃…F_m，其中F_m表示目标三音素序列中第m个三音素，m为目标三音素序列中的三音素的总数；以及目标三音素序列对应的音素时长序列T₁T₂T₃…T_m。

从样本数据库中随机抽取一组与目标三音素F₁对应的子图像序列P’₁以及子图像序列P’₁对应的时长T₁’，通过线性差值将目标三音素对应的时长T₁与T₁’对应的图像进行对齐处理，以生成目标三音素对应的子目标图像序列。

取F₁对应的最后一帧样本图像中嘴型对应的坐标

在F对应的子样本图像序列中，通过余弦距离确定与嘴部区域坐标

最接近的嘴型对应的坐标所对应的样本图像确定为过渡图像。

重复以上两个步骤，生成目标三音素序列F₁F₂F₃…F_m对应的嘴部区域坐标序列，并将嘴部区域坐标序列与其对应的样本图像中的背景图像进行融合，即可生成目标三音素序列F₁F₂F₃…F_m对应的目标图像序列，并将目标图像序列与目标音频进行合成，生成对应于目标音频的虚拟人像视频，即目标虚拟人像视频。

根据本发明实施例提供的虚拟人像视频的生成方法，通过构建样本数据库以建立并存储样本三音素、样本图像中人像的嘴部区域坐标以及样本文本之间的对应关系，以便于后续实际应用过程中能够从样本数据库中匹配与目标音频对应的样本图像来进行视频合成，无需进行重复训练，合成过程高效快捷，且合成的视频具有较高的分辨率，合成的视频中人物形象更加生动自然。

下面对本发明提供的虚拟人像视频的生成装置进行描述，下文描述的虚拟人像视频的生成装置与上文描述的虚拟人像视频的生成方法可相互对应参照。

如图2所示，该虚拟人像视频的生成装置包括：第一处理模块210、第二处理模块220和第三处理模块230。

第一处理模块210，用于从样本数据库中获取与目标音频对应的M个样本三音素，样本数据库中包括N个样本三音素，以及与N个样本三音素对应的Q个样本图像；

第二处理模块220，用于基于M个样本三音素，分别从样本数据库中获取与M个样本三音素对应的P个样本图像，样本图像包括人像的嘴部区域信息，人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联，其中N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q为正整数；

第三处理模块230，用于基于P个样本图像和目标音频合成目标虚拟人像视频，目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。

根据本发明实施例提供的虚拟人像视频的生成装置，通过建立三音素、嘴部区域坐标以及文本信息之间的对应关系，以能够从样本数据库中获取与目标音频对应的样本三音素所对应的样本图像，对获取的样本图像和目标音频进行合成以生成目标虚拟人像视频，无需对大量数据进行重复训练即可进行视频合成，合成效率高；且合成的视频效果生动形象，具有较高的分辨率，有助于提高智能服务领域的服务效率和服务质量。

在一些实施例中，第一处理模块210，还可以用于：

将目标音频与目标音频对应的目标文本进行时间对齐；

将目标文本转化为目标三音素序列；

切分目标三音素序列，生成多个目标三音素；

从样本数据库中匹配得到与目标三音素对应的样本三音素。

在一些实施例中，第二处理模块220，还可以用于：

获取目标三音素在目标音频中的时长信息；

从样本数据库中匹配得到与样本三音素对应的多个样本图像；

基于目标三音素在目标音频中的时长信息调整多个样本图像对应的时长信息。

在一些实施例中，第三处理模块230，还可以用于：

合成目标图像序列和目标音频，生成目标虚拟人像视频。

在一些实施例中，该装置还可以包括：

第四处理模块，用于在从样本数据库中获取与目标音频对应的M个样本三音素之前，获取样本视频，样本视频包括样本图像序列和样本音频；

第五处理模块，用于基于样本音频，获取与样本音频对应的样本三音素序列；

第六处理模块，用于对样本图像序列和样本三音素序列进行时间对齐，生成时间序列；

第七处理模块，用于基于时间序列，建立样本图像序列中的样本图像与样本三音素序列中的样本三音素之间的映射关系；

第八处理模块，用于将样本图像、与样本图像对应的样本三音素以及样本图像与样本图像对应的样本三音素之间的映射关系存储至样本数据库。

在一些实施例中，第七处理模块，还可以用于：

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行虚拟人像视频的生成方法，该方法包括：从样本数据库中获取与目标音频对应的M个样本三音素，样本数据库中包括N个样本三音素，以及与N个样本三音素对应的Q个样本图像；基于M个样本三音素，分别从样本数据库中获取与M个样本三音素对应的P个样本图像，样本图像包括人像的嘴部区域信息，人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联，其中N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q为正整数；基于P个样本图像和目标音频合成目标虚拟人像视频，目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的虚拟人像视频的生成方法，该方法包括：从样本数据库中获取与目标音频对应的M个样本三音素，样本数据库中包括N个样本三音素，以及与N个样本三音素对应的Q个样本图像；基于M个样本三音素，分别从样本数据库中获取与M个样本三音素对应的P个样本图像，样本图像包括人像的嘴部区域信息，人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联，其中N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q为正整数；基于P个样本图像和目标音频合成目标虚拟人像视频，目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的虚拟人像视频的生成方法，该方法包括：从样本数据库中获取与目标音频对应的M个样本三音素，样本数据库中包括N个样本三音素，以及与N个样本三音素对应的Q个样本图像；基于M个样本三音素，分别从样本数据库中获取与M个样本三音素对应的P个样本图像，样本图像包括人像的嘴部区域信息，人像的嘴部区域信息与其所在的样本图像所对应的样本三音素相关联，其中N≥M，Q≥P，P≥M，Q≥N且M、N、P和Q为正整数；基于P个样本图像和目标音频合成目标虚拟人像视频，目标虚拟人像视频中的人像的嘴部区域信息与目标音频相对应。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种虚拟人像视频的生成方法，其特征在于，包括：

2.根据权利要求1所述的虚拟人像视频的生成方法，其特征在于，所述从样本数据库中获取与目标音频对应的M个样本三音素，包括：

将所述目标文本转化为目标三音素序列；

切分所述目标三音素序列，生成多个目标三音素；

3.根据权利要求2所述的虚拟人像视频的生成方法，其特征在于，所述分别从所述样本数据库中获取与所述M个样本三音素对应的P个样本图像，包括：

获取所述目标三音素在所述目标音频中的时长信息；

4.根据权利要求1-3任一项所述的虚拟人像视频的生成方法，其特征在于，所述基于所述P个样本图像和所述目标音频合成目标虚拟人像视频，包括：

5.根据权利要求1-3任一项所述的虚拟人像视频的生成方法，其特征在于，在所述从样本数据库中获取与目标音频对应的M个样本三音素之前，所述方法包括：

6.根据权利要求5所述的虚拟人像视频的生成方法，其特征在于，所述基于所述时间序列，建立所述样本图像序列中的样本图像与所述样本三音素序列中的样本三音素之间的映射关系，包括：

7.一种虚拟人像视频的生成装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述虚拟人像视频的生成方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述虚拟人像视频的生成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述虚拟人像视频的生成方法。