CN114697759B

CN114697759B - 虚拟形象视频生成方法及其系统、电子设备、存储介质

Info

Publication number: CN114697759B
Application number: CN202210439789.5A
Authority: CN
Inventors: 何黎平
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2024-04-09
Anticipated expiration: 2042-04-25
Also published as: CN114697759A

Abstract

本发明涉及计算机技术领域，本发明提出一种虚拟形象视频生成方法及其系统、电子设备、存储介质。本发明虚拟形象视频生成方法包括：获取多模态输入数据，提取音频特征，并根据音频特征匹配得到虚拟形象语音包；对人像图片进行处理得到基础虚拟形象；将基础虚拟形象的面部特征进行调整，合成多张视频帧，并结合虚拟形象语音包生成虚拟形象视频。本发明中虚拟形象视频生成系统按照虚拟形象视频生成方法的处理逻辑，将各个环节进行合理拆分、独立部署，并入各自的运行模块执行处理逻辑，实现基本算法能力的复用，为虚拟形象视频生成系统高效并行处理多种请求提供基础，因此，本发明能够提高的虚拟形象视频的生成效率。

Description

虚拟形象视频生成方法及其系统、电子设备、存储介质

技术领域

本发明涉及计算机技术领域，尤其是涉及一种虚拟形象视频生成方法及其系统、电子设备、存储介质。

背景技术

近年来，虚拟形象随着语音合成技术、视频生成技术的发展，作为新的展示媒介参与到人机交互的过程之中，提升了人机交互自然度和体验感。然而，相关技术中虚拟形象视频生成方法与系统存在着资源消耗大、合成耗时长、算法协调执行困难等问题，以至于目前虚拟形象的合成效率低下，上述问题对虚拟形象合成技术领域的从业人员来说亟待解决。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种虚拟形象视频生成方法及其系统、电子设备、存储介质，能够提升虚拟形象的合成效率。

根据本发明的第一方面实施例的虚拟形象视频生成方法，应用于虚拟形象视频生成系统，所述方法包括：

获取目标用户的多模态输入数据，所述多模态输入数据包括所述目标用户的个人音频、人像图片；

提取所述个人音频中的音频特征，并根据所述音频特征从预设音频数据库中匹配得到虚拟形象语音包；

对所述人像图片进行处理，得到所述目标用户的基础虚拟形象；

将所述基础虚拟形象的面部特征进行调整，合成多张视频帧，并基于所述多张视频帧与所述虚拟形象语音包，生成虚拟形象视频。

可选的，根据本发明的一些实施例，所述提取所述个人音频中的音频特征，并根据所述音频特征从预设音频数据库中匹配得到虚拟形象语音包，包括：

从所述个人音频中提取所述音频特征，并根据所述音频特征得到所述个人音频的声音频段；

从所述预设音频数据库中匹配得到与所述个人音频的所述声音频段相似度最高的所述虚拟形象语音包。

可选的，根据本发明的一些实施例，所述对所述人像图片进行处理，得到所述目标用户的基础虚拟形象，包括：

对所述人像图片进行预处理，并将预处理后的所述人像图片进行分割处理，得到若干图像块；

根据所述若干图像块对所述人像图片进行卡通化处理，得到所述目标用户的基础虚拟形象。

可选的，根据本发明的一些实施例，所述对所述人像图片进行处理，得到所述目标用户的基础虚拟形象，还包括：

识别所述人像图片或者所述基础虚拟形象的面部特征,确定所述面部特征的像素位置；

将所述面部特征的所述像素位置调整至与预设表情对应的预设位置，生成带表情的所述基础虚拟形象。

根据本发明的第二方面实施例的虚拟形象视频生成系统，包括多模态数据获取模块、音频处理模块、图像处理模块、视频合成模块和逻辑控制模块，所述逻辑控制模块用于控制所述多模态数据获取模块、所述音频处理模块、所述图像处理模块和所述视频合成模块配合执行第一方面实施例所述的虚拟形象视频生成方法；

其中，所述多模态数据获取模块用于获取目标用户的多模态输入数据，所述多模态输入数据包括所述目标用户的个人音频、人像图片；

所述音频处理模块用于提取所述个人音频中的音频特征，根据所述音频特征从预设音频数据库中匹配得到虚拟形象语音包；

所述图像处理模块用于对所述人像图片进行处理，得到所述目标用户的基础虚拟形象；

所述视频合成模块用于根据所述基础虚拟形象与所述虚拟形象语音包，生成虚拟形象视频。

可选的，根据本发明的一些实施例，所述音频处理模块包括音频提取单元和音频匹配单元；

其中，所述音频提取单元用于从所述个人音频中提取所述音频特征，并根据所述音频特征得到所述个人音频的声音频段；

所述音频匹配单元用于根据所述音频特征，从所述预设音频数据库中匹配得到与所述个人音频的所述声音频段相似度最高的所述虚拟形象语音包。

可选的，根据本发明的一些实施例，所述图像处理模块包括预处理单元、分割处理单元和卡通化单元：

其中，所述预处理单元用于对所述人像图片进行预处理；

所述分割处理单元用于以图形处理器的算力资源将预处理后的所述人像图片进行分割处理，得到若干图像块；

所述卡通化单元用于以图形处理器的算力资源为基础，根据所述若干图像块对所述人像图片进行卡通化处理，得到所述目标用户的基础虚拟形象。

可选的，根据本发明的一些实施例，所述图像处理模块还包括：

表情合成单元，用于以图形处理器的算力资源为基础，识别所述人像图片或者所述基础虚拟形象的面部特征,确定所述面部特征的像素位置，并将所述面部特征的像素位置调整至与预设表情对应的预设位置，生成带表情的所述基础虚拟形象。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面实施例中任意一项所述的虚拟形象视频生成方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如本发明第一方面实施例中任意一项所述的虚拟形象视频生成方法。

根据本发明实施例的虚拟形象视频生成方法及其系统、电子设备、存储介质，至少具有如下有益效果：

本发明通过虚拟形象视频生成系统完成虚拟形象视频的生成，虚拟形象视频生成系统中的多模态数据获取模块用于获取目标用户的多模态输入数据，其中多模态输入数据包括目标用户的个人音频、人像图片。虚拟形象视频生成系统中的音频处理模块用于提取个人音频中的音频特征，根据音频特征从预设音频数据库中匹配得到虚拟形象语音包。虚拟形象视频生成系统中的图像处理模块用于对人像图片进行处理，得到目标用户的基础虚拟形象。虚拟形象视频生成系统中的视频合成模块用于根据基础虚拟形象与虚拟形象语音包，生成虚拟形象视频。本发明按照虚拟形象视频生成方法的处理逻辑，将虚拟形象视频生成方法中的各个环节进行合理拆分，独立部署，并入各自的运行模块执行处理逻辑，实现基本算法能力的复用，为虚拟形象视频生成系统高效并行处理多种请求提供基础，进而提升虚拟形象的合成效率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例提供的一个虚拟形象视频生成方法流程图；

图2为根据本发明实施例提供的另一个虚拟形象视频生成方法流程图；

图3为根据本发明实施例提供的另一个虚拟形象视频生成方法流程图；

图4为根据本发明实施例提供的另一个虚拟形象视频生成方法流程图；

图5为根据本发明实施例提供的虚拟形象视频生成系统的架构示意图；

图6为根据本发明实施例提供的音频处理模块的架构示意图；

图7为根据本发明实施例提供的图像处理模块的架构示意图；

图8为根据本发明实施例提供的图像处理模块的另一架构示意图；

图9为根据本发明实施例提供的一个实现本发明虚拟形象视频生成方法的电子设备示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、左、右、前、后等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。另外，下文中对于具体步骤的标识并不代表对于步骤顺序与执行逻辑的限定，步骤之间的执行顺序与执行逻辑应参照对应的说明性表述进行理解与推定。

对于需要面向客户服务的系统来说，常常需要人工坐席通过真实视频提供服务。传统的人工坐席工作效率较低且难以获得提升，运营成本相对较高。用虚拟视频替代人工坐席的真实视频可以解决这些问题，从而提升用户体验。

应当理解，本申请实施例提供的虚拟形象视频生成方法的执行主体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、大屏电视等终端设备或者服务器，本申请实施例对该终端设备和服务器的具体类型不作任何限制。

这里的服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下面将参照附图作出进一步说明。

参照图1，根据本发明的第一方面实施例的虚拟形象视频生成方法，应用于虚拟形象视频生成系统，方法包括：

步骤S101，获取目标用户的多模态输入数据，多模态输入数据包括目标用户的个人音频、人像图片；

需要说明的是，多模态输入数据指的是包含两种及两种以上输入类型的用户输入数据，其中，输入类型包括但不限于语音、文本、图像、视频等模态类型的信息。应理解，模态是指某件事发生或经历的方式，当一个数据包含多个模态时，它就具有多模态的特征。目标用户则指的是多模态输入数据的提供方。需要指出，获取目标用户的多模态输入数据的目的是为后续生成虚拟形象视频提供数据基础。在本发明一些实施例中，多模态输入数据包括目标用户的个人音频、人像图片，其中，目标用户的个人音频指的是目标用户提供的音频，个人音频并不限于目标用户本人的音频，也可以是目标用户提供的、反映其他人声音频段的音频，还可以是目标用户提供的、反映卡通角色声音频段的音频，应理解，本发明中的个人音频包括但不限于上述举出的实施例。目标用户的人像图片指的是目标用户提供的人像图片，人像图片并不限于目标用户本人的肖像图片，也可以是目标用户提供的、反映其他人肖像的图片，还可以是目标用户提供的、反映计算机合成肖像的图片，应理解，本发明中的人像图片包括但不限于上述举出的实施例。

步骤S102，提取个人音频中的音频特征，并根据音频特征从预设音频数据库中匹配得到虚拟形象语音包；

根据本发明提供的一些实施例，从个人音频中提取到的音频特征，一般可以从以下维度区分：音频特征由提取模型从信号中直接提取得到，或者，音频特征基于提取模型的输出而得到(如均值、方差等)；音频特征表示的是瞬态值，或者，音频特征表示全局上的值，其中瞬态一般以帧为单位而全局则覆盖更长的时间维度；根据音频特征的抽象程度，底层特征抽象程度最低也是最易从原始音频信号中提取，它可以进一步被处理为高一级的中间特征代表乐谱中常见的音乐元素，如音高、音符的起始时间等，而高层特征最为抽象大多用于音乐的曲风和情绪任务；根据音频特征提取过程的差异可以分为：从原始信号中直接提取的特征(如过零率)、将信号转换为频率得到的特征(如谱心质)、需经过特定的模型得到的特征(如旋律)、受人耳听觉认知启发改变量化特征尺度得到的特征(如MFCC)，其中MFCC为梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)。另外，一些常用于提取音频特征的工具包括：Aubio、Essentia、Librosa、Madmom、pyAudioAnalysis、Vamp-plugins、Yaafe。应理解，本发明中提取音频特征的工具包括但不限于上述举出的实施例。

需要说明的是，音频特征指的是音频所具备的、能够体现辨识特征的性质，例如音色、声音频率、音调使用习惯等。而预设音频数据库指的是预先设置的、包含有多种音频语音包的数据库。而从预设音频数据库中匹配得到虚拟形象语音包，则指的是以个人音频中的音频特征为基础，按照预先设定的标准从预设音频数据库中匹配出符合要求的虚拟形象语音包。其中，匹配虚拟形象语音包所参照的标准可以是：依照个人音频的音频特征从预设音频数据库匹配出音色最为接近的音频语音包、依照个人音频的音频特征从预设音频数据库匹配出音调使用习惯最为接近的音频语音包、依照个人音频的音频特征从预设音频数据库匹配出声音频率最为接近的音频语音包。应理解，通过从预设音频数据库匹配出虚拟形象语音包，能够节省本发明虚拟形象视频生成方法在音频处理环节所需要的算力资源与时间，从而提升本发明虚拟形象视频生成方法的生成效率。需要强调，本发明中匹配虚拟形象语音包所能够参照的标准包括但不限于上述举出的实施例。

步骤S103，对人像图片进行处理，得到目标用户的基础虚拟形象；

需要说明的是，基础虚拟形象指的是基于目标用户的人像图片而合成的虚拟人物图片。在本发明提供的一些实施例中，对人像图片进行处理，得到目标用户的基础虚拟形象，包括以下环节：对人像图片进行预处理，例如对人像图片进行有效性检测或者其他类型的预处理；预处理完毕后对人像图片进行分割处理，得到若干图像块；以分割处理后的若干图像块为基础，对人像图片进行卡通风格化处理，得到基础虚拟形象。应理解，在对人像图片进行卡通风格化处理的过程中调用一些运算量大的算法时，通常需要考虑到效率问题，例如将双边滤波器应用于对人像图片进行卡通风格化处理的过程，因此本发明一个实施例中，利用双边滤波器的平滑区域及保持边缘锐化的特性，将双边滤波器应用于对人像图片进行卡通风格化处理的过程，令双边滤波器在更低的分辨率中使用，使得卡通化的速度进一步加快。应理解，本发明中对人像图片进行处理，得到目标用户的基础虚拟形象不限于上述举出的实施例。

步骤S104，将基础虚拟形象的面部特征进行调整，合成多张视频帧，并基于多张视频帧与虚拟形象语音包，生成虚拟形象视频。

根据本发明提供的一些实施例，将基础虚拟形象的面部特征进行调整，合成多张视频帧，需要先提取基础虚拟形象的面部特征，再以各个面部特征在图中的位置为基准，根据所需要作出的表情调整基础虚拟形象面部特征的像素变化，从而达到形成表情的效果。而合成多张视频帧，则是基于对基础虚拟形象的面部特征进行调整而完成的，例如：通过调整面部特征，将基础虚拟形象中眼角、嘴角的形状进行上扬拉伸调整，在整个调整的过程中可以形成多张视频帧，进而通过多种视频帧来反映“展开笑容”这一表情变化的动态过程。

在本发明提供的一些实施例中，基于多张视频帧与虚拟形象语音包，生成虚拟形象视频，指的是将步骤S102从预设音频数据库匹配到的虚拟形象语音包以及根据调整基础虚拟形象面部特征而合成的多张视频帧，进行整合而生成虚拟形象视频。基于调整基础虚拟形象面部特征而合成的多张视频帧，能够让画面呈现动态的变化，而基于个人音频中的音频特征所匹配到的虚拟形象语音包，与目标用户之间具备着相似性与关联性，因此，虚拟形象视频能够生动的展现出一个为目标用户量身定制的虚拟角色，将虚拟形象视频作为新的展示媒介参与到人机交互的过程之中，将提升人机交互的自然度和体验感。

参照图2，根据本发明的一些实施例，提取个人音频中的音频特征，并根据音频特征从预设音频数据库中匹配得到虚拟形象语音包，包括：

步骤S201，从个人音频中提取音频特征，并根据音频特征得到个人音频的声音频段；

需要说明的是，声音频段即声音的频率范围，如：音乐的声音频段约为20Hz---20KHz，人的声音频段约为300Hz---3.4KHz。由于步骤S201中从个人音频中提取音频特征，是按照预先设定的标准从预设音频数据库中匹配出符合要求的虚拟形象语音包，在本发明提供的一些实施例中，匹配虚拟形象语音包所参照的标准是：依照个人音频的音频特征从预设音频数据库匹配出声音频率最为接近的音频语音包。因此，在步骤S202从预设音频数据库中匹配得到与个人音频的声音频段相似度最高的虚拟形象语音包之前，需要先从个人音频的音频特征中获取个人音频的声音频段。

应理解，音频数字信号是一系列数字代表时域中连续变化的样本，要对数字信号进行分析操作，首先需要对信号进行采样和量化。采样，是指连续时间的离散化的过程，其中均匀采样是指每隔相等时间间隔采样一次，每秒需要采集的声音样本个数叫做采样频率，音频文件中常常见到的44.1kHz、11kHz就是指的采样频率。量化，是指将连续波形转变为离散化的数字，先将整个幅度划分为有限个量化阶距的集合，幅度的划分可以是等间距或不等间距的把落入某个阶距内的样本值赋予相同的量化值，音频文件中的位深代表的就是量化值，16bit位深代表的就是将幅值量化为2^16。

步骤S202，从预设音频数据库中匹配得到与个人音频的声音频段相似度最高的虚拟形象语音包。

需要说明的是，步骤S202从预设音频数据库中匹配得到与个人音频的声音频段相似度最高的虚拟形象语音包，指的是以个人音频的音频特征中提取出的声音频段为基础，在预设音频数据库中进行匹配，并从预设音频数据库中选中声音频段相似度最高的音频语音包作为虚拟形象语音包。应理解，以个人音频的音频特征中提取出的声音频段为基础匹配得到虚拟形象语音包，能够体现目标用户的个人音频的声音特征，从而提升了用户在使用虚拟形象视频过程中自然度和体验感。

参照图3，根据本发明的一些实施例，对人像图片进行处理，得到目标用户的基础虚拟形象，包括：

步骤S301，对人像图片进行预处理，并将预处理后的人像图片进行分割处理，得到若干图像块；

需要说明的是，图像预处理，指的是在图像分析中对输入图像进行特征抽取、分割和匹配前所进行的处理。图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。对人像图片进行预处理包括：对人像图片进行有效性检测或者其他类型的预处理。在本发明一些实施例中，对人像图片进行预处理后，进一步对人像图片进行分割处理，得到若干图像块，需要说明的是，将人像图片分割成图像块的目的是为步骤S302中根据若干图像块对人像图片进行卡通化处理的环节提供处理基础。

步骤S302，根据若干图像块对人像图片进行卡通化处理，得到目标用户的基础虚拟形象。

需要说明的是，以分割处理后的若干图像块为基础，对人像图片进行卡通风格化处理，得到基础虚拟形象。由于人脸不同面部器官具有不同的特性，例如眼睛和眉毛具有对称性，即左右眼和左右眉毛基本都是相似的，且是左右对称的，因此在卡通器官生成方法上要考虑这种对称性。对于人脸的嘴巴，其基本形状都是闭合的且形状都是一致的。对于卡通的主要面部器官(包括眼睛、眉毛、鼻子、嘴巴、轮廓)应该保持与真实人脸器官形状上的相似性，特征点能够很好地描述人脸及面部器官的形状。因此，本发明一些实施例中，关于如何生成卡通面部器官，采用基于特征点定位的方法，对于不同器官采用不同的方法生成，然后再按照特征点的位置将生成的卡通面部器官组合在一起从而得到完整的卡通人脸。其中在面部器官生成方法上，主要是基于特征点的信息对人像图片中的面部区域进行分块，通过块匹配方法找到最优块，然后将所有最优块按照相应的方法进行合成，从而得到完整的卡通面部器官。在将各个面部器官卡通化之后，即可得到目标用户的基础虚拟形象。应理解，本发明中对人像图片进行卡通化处理的方法，不限于上述举出的实施例。

参照图4，根据本发明的一些实施例，对人像图片进行处理，得到目标用户的基础虚拟形象，还包括：

步骤S401，识别人像图片或者基础虚拟形象的面部特征,确定面部特征的像素位置；

根据本发明提供的一些实施例，识别人像图片或者基础虚拟形象的面部特征,确定面部特征的像素位置，包括：对人像图片或者基础虚拟形象中的面部区域进行识别，并提取面部特征；确定提取出来的面部特征在人像图片或者基础虚拟形象中的位置。需要说明的是，提取面部特征可以采用多种方式，例如：基于模板的特征提取，由于人脸的基本轮廓和脸部器官位置基本是固定的，在提取特征之前先定义一个标准的模板，利用霍夫变换、方差投影和模板匹配相结合，有效地确定出眼睛、嘴巴和鼻子等器官的位置；基于代数方法的特征提取，此类方法使用代数变换来提取人脸特征，其中比较经典的方法是特征脸方法，人脸由一些基本特征就可以描述，如鼻子、眼睛和嘴等特征，因此描述人脸的图像可以缩小到很小空间，通过将原始图像变换到一个新的维数较低的特征空间，通过计算矩阵的特征值和特征向量，利用图像的代数特征信息进行提取脸部器官的特征；基于弹性匹配法的特征提取，弹性匹配法是一种较好的特征提取方法，主要思路是采用畸变不变性物体识别特性，定义了一种对于人脸变形具有不变性的距离，采用属性拓扑图代表人脸，图中任一顶点均包含一个特征向量，用来记录人脸在该顶点位置四周的信息，边则表示各特征点之间的关系。在识别得到人像图片或者基础虚拟形象中的面部特征之后,需要进一步确定面部特征的像素位置。根据本发明提供的一些实施例，确定面部特征的像素位置可以通过在人像图片或者基础虚拟形象中建立坐标系，然后确定面部特征的像素在坐标系中的坐标位置。应理解，本发明中进行面部特征识别的方法、确定面部特征像素位置的方法，不限于上述举出的实施例。

步骤S402，将面部特征的像素位置调整至与预设表情对应的预设位置，生成带表情的基础虚拟形象。

根据本发明提供的一些实施例，在确定面部特征的像素位置之后，进一步，基于面部特征像素位置，对人像图片或者基础虚拟形象进行调整，直至面部特征被调整至预设位置，得到带表情的基础虚拟形象。应理解，对人像图片或者基础虚拟形象进行调整的过程中，还可以对面部特征像素的颜色属性进行调整，以提高基础虚拟形象所作表情的的自然程度。在本发明一些较为具体的实施例中，可以基于面部特征像素位置，对人像图片或者基础虚拟形象进行调整，拉伸眼睛、眉毛、嘴巴至上扬，从而生成面带笑容的基础虚拟形象；还可以基于面部特征像素位置，对人像图片或者基础虚拟形象进行调整，拉伸眼睛、眉毛、嘴巴至下撇，并对面部特征像素的颜色属性进行调整，甚至于脸颊生成泪珠，从而生成表现出沮丧、失落的基础虚拟形象。应理解，将面部特征的像素位置调整至与预设表情对应的预设位置，其中的预设位置可以根据实际虚拟形象视频生成方法的使用场合进行确定。

需要指出的是，本发明中的虚拟形象视频生成方法，应用于虚拟形象视频生成系统，而虚拟形象视频生成系统则是按照虚拟形象视频生成方法的处理逻辑，将虚拟形象视频生成方法中的各个环节进行合理拆分，独立部署，并入各自的运行模块执行处理逻辑，实现基本算法能力的复用，为虚拟形象视频生成系统高效并行处理多种请求提供基础，因此，本发明应用于虚拟形象视频生成系统的虚拟形象视频生成方法，将会具备更高的虚拟形象的合成效率。

相关技术中，虚拟形象视频生成系统的各个模块的算法耦合紧密、算力资源分配不合理，因此存在着资源消耗大、合成耗时长、算法协调执行困难等问题，以至于目前虚拟形象的合成效率低下，上述问题对虚拟形象合成技术领域的从业人员来说亟待解决。本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种虚拟形象视频生成系统，能够提升虚拟形象的合成效率。

参照图5，根据本发明的第二方面实施例的虚拟形象视频生成系统500，包括多模态数据获取模块510、音频处理模块520、图像处理模块530、视频合成模块540和逻辑控制模块550，逻辑控制模块550用于控制多模态数据获取模块510、音频处理模块520、图像处理模块530和视频合成模块540配合执行本发明第一方面实施例的虚拟形象视频生成方法；

其中，多模态数据获取模块510用于获取目标用户的多模态输入数据，多模态输入数据包括目标用户的个人音频、人像图片；

音频处理模块520用于提取个人音频中的音频特征，根据音频特征从预设音频数据库570中匹配得到虚拟形象语音包；

图像处理模块530用于对人像图片进行处理，得到目标用户的基础虚拟形象；

视频合成模块540用于根据基础虚拟形象与虚拟形象语音包，生成虚拟形象视频。

需要说明的是，按照虚拟形象视频生成方法中各个步骤的处理过程，本发明中的虚拟形象视频生成系统500将系统中的模块分为两大类：业务逻辑类模块，用于管理视频合成逻辑；以及具体环节类模块，用于实现多模态数据获取以及实现音频处理、图像处理、视频合成等相关算法。因此，通过对虚拟形象视频生成方法中各个步骤的处理过程的进行拆分、通过对各类模块的独立部署，能够实现虚拟形象视频生成过程中基本算法能力的复用，以及为系统能够高效地同时并行处理多种请求提供基础。

根据本发明一些实施例，用于多模态数据获取、音频处理、图像处理、视频合成等相关算法的具体流程类模块包括：多模态数据获取模块510、音频处理模块520、图像处理模块530、视频合成模块540。而用于管理视频合成逻辑的业务逻辑类模块，可以包括逻辑控制模块550，还可以包括数据库管理模块560，其中逻辑控制模块550用于控制多模态数据获取模块510、音频处理模块520、图像处理模块530和视频合成模块540配合执行本发明第一方面实施例的虚拟形象视频生成方法，数据库管理模块560则用于对包括预设音频数据库570在内的各类数据库进行增添数据、删改数据、查询数据、调用数据等操作。具体而言，虚拟形象视频生成系统500中的多模态数据获取模块510用于获取目标用户的多模态输入数据，其中多模态输入数据包括目标用户的个人音频、人像图片。虚拟形象视频生成系统500中的音频处理模块520用于提取个人音频中的音频特征，根据音频特征从预设音频数据库570中匹配得到虚拟形象语音包。虚拟形象视频生成系统500中的图像处理模块530用于对人像图片进行处理，得到目标用户的基础虚拟形象。虚拟形象视频生成系统500中的视频合成模块540用于根据基础虚拟形象与虚拟形象语音包，生成虚拟形象视频。

需要说明的是，通过对虚拟形象视频生成方法中各个步骤的处理过程的进行拆分、通过对各类模块的独立部署，需要从以下四个层面对虚拟形象视频生成系统500进行调整。下面以本发明的一些较为具体的实施例作出说明：

其一，数据类型的设置。本发明的虚拟形象视频生成系统500，将系统中的数据分为三种类型：逻辑控制数据、具体流程数据、数据库数据。其中，逻辑控制数据，即系统中用于控制多模态数据获取模块510、音频处理模块520、图像处理模块530和视频合成模块540配合执行第一方面实施例虚拟形象视频生成方法的数据；具体流程数据，则是用于实现多模态数据获取以及实现音频处理、图像处理、视频合成等相关算法的数据；数据库数据，指的是用于对包括预设音频数据库570在内的各类数据库进行增添数据、删改数据、查询数据、调用数据等操作所用到的数据以及存储与各类数据库之中的数据，为避免重复下载，在本发明一些实施例中，音频文件、视频文件、头像文件均可以采用网络附属存储盘(NetworkAttached Storage，NAS)进行存储。由于上述明确的数据划分，本方案中的虚拟形象视频生成系统500得以对这三类数据进行分别管理，从而实现数据控制、数据计算以及数据更新三者数据处理方式之间互不干预，较大限度的降低数据在各个模块之间的流动，从而提升系统的运行效率。

其二，功能模块的划分。如上，本发明通过以功能为依据，对虚拟形象视频生成系统500进行模块划分，清晰地对虚拟形象视频生成方法中各个步骤的处理过程的进行合理拆分、对各类模块的独立加以部署，以至于能够实现虚拟形象视频生成过程中基本算法能力的复用，以及为系统能够高效地同时并行处理多种请求提供基础。

其三，操作组件的部署。本发明一些实施例中，操作组件可以分为三类：第一类是服务组件，负责对系统外提供能力接口，为外界提供虚拟形象视频生成服务；第二类是逻辑控制组件，负责通过调配接口来控制虚拟形象视频生成方法的流程，以及协调中央处理器(Central Processing Unit，CPU)资源、图形处理器(Graphics Processing Unit，GPU)资源的使用；第三类是具体流程数据，按照具体流程类模块对CPU、GPU资源的依赖，调配接口对多模态数据获取、音频处理、图像处理、视频合成等相关环节拆分部署，并且通过对接口类型的调整令各个模块之间相互之间按照特定协议通信。另外，在本发明提供的一些实施例中，本发明中的虚拟形象视频生成系统500还包括缓存组件，用于调用接口使得缓存模块对各类算法的运行结果进行缓存，能够避免重复计算，进而提高整个系统的并发能力与运行速度。

需要说明的是，由于CPU需要同时支持并行和串行操作，因而需要很强的通用性来处理各种不同的数据类型，同时又要支持复杂通用的逻辑判断，这样会引入大量的分支跳转和中断的处理，以至于CPU的内部结构异常复杂，计算单元的比重被降低。因此，CPU不适合用于在虚拟形象视频生成系统500中负责算力消耗大的具体环节。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境，因此GPU设计者将更多的晶体管用作执行单元，而不是像CPU那样用作复杂的控制单元和缓存，这也是导致GPU计算能力较强的原因。也正是因为上述原因，为了令算力资源分配更加合理从而提升虚拟形象视频生成的效率，在本发明一些实施例中，通过部署组件调用接口的方式，将一些需要较大算力处理单元的算力消耗，归于GPU进行处理，以实现算力资源的有效利用。

其四，通信协议的拓展。针对CPU与GPU实例之间的通信，在通信协议中加入特定的标志位，以便于虚拟形象视频生成系统500执行本发明第一方面实施例的虚拟形象视频生成方法。例如，针对音频模块、视频模块等对于CPU或者GPU资源有较大要求的模块，在协议中设计不同的标志位，如audio_match、make_head_frame，以方便控制各个模块是利用相关硬件资源执行算法。另外，在协议中还可以进一步对各个算法模块的执行时间作出限定，以控制虚拟形象视频生成系统500执行本发明第一方面实施例的虚拟形象视频生成方法中各个步骤所占用的时间，如head_frame_cost_time，方便根据各个模块的执行情况动态调整资源分配、或者优化相关算法。

参照图2、图6，根据本发明的一些实施例，音频处理模块520包括音频提取单元511和音频匹配单元512；

需要说明的是，由于音频处理即专门对多模态数据获取模块510中提取到的个人音频进行处理的过程，具备较强的独立性，因此为了提升虚拟形象视频生成系统500的效率，本发明实施例将音频处理的环节从虚拟形象视频生成方法中进行合理拆分，单独部署为音频处理模块520，用以实现音频处理相关算法的复用，同时为系统能够高效地同时并行处理多种请求提供基础。

应理解，音频处理单元用于在虚拟形象视频生成系统500中实现步骤S201与步骤S202，具体而言，本发明一些实施例为了以更高的效率实现步骤S201与步骤S202，在音频处理模块520中分别部署有音频提取单元511与音频匹配单元512。其中，音频提取单元511用于从个人音频中提取音频特征，并根据音频特征得到个人音频的声音频段；音频匹配单元512用于根据音频特征，从预设音频数据库570中匹配得到与个人音频的声音频段相似度最高的虚拟形象语音包。

需要说明的是，由于步骤S201中从个人音频中提取音频特征，是按照预先设定的标准从预设音频数据库570中匹配出符合要求的虚拟形象语音包，在本发明提供的一些实施例中，匹配虚拟形象语音包所参照的标准是：依照个人音频的音频特征从预设音频数据库570匹配出声音频率最为接近的音频语音包。因此，在步骤S202从预设音频数据库570中匹配得到与个人音频的声音频段相似度最高的虚拟形象语音包之前，需要先从个人音频的音频特征中获取个人音频的声音频段。另外，由于音频特征的提取过程需要较大的算力资源，因此在本发明一些实施例中，通过部署组件调用接口的方式，将音频提取单元511的算力消耗归于GPU进行处理，以实现算力资源的有效利用。

根据本发明提供的一些实施例，步骤S202从预设音频数据库570中匹配得到与个人音频的声音频段相似度最高的虚拟形象语音包，指的是以个人音频的音频特征中提取出的声音频段为基础，在预设音频数据库570中进行匹配，并从预设音频数据库570中选中声音频段相似度最高的音频语音包作为虚拟形象语音包。需要说明的是，在本发明一些实施例中，从预设音频数据库570中选中声音频段相似度最高的音频语音包作为虚拟形象语音包，需要经由数据库管理模块560对预设音频数据进行调用，其中数据库管理模块560用于对包括预设音频数据库570在内的各类数据库进行增添数据、删改数据、查询数据、调用数据等操作。应理解，以个人音频的音频特征中提取出的声音频段为基础匹配得到虚拟形象语音包，能够体现目标用户的个人音频的声音特征，从而提升了用户在使用虚拟形象视频过程中自然度和体验感。

参照图3、图7，根据本发明的一些实施例，图像处理模块530包括预处理单元531、分割处理单元532和卡通化单元533：

需要说明的是，由于图像处理即专门对多模态数据获取模块510中提取到的人像图片进行处理的过程，具备较强的独立性，因此为了提升虚拟形象视频生成系统500的效率，本发明实施例将图像处理的环节从虚拟形象视频生成方法中进行合理拆分，单独部署为图像处理模块530，用以实现图像处理相关算法的复用，同时为系统能够高效地同时并行处理多种请求提供基础。

应理解，图像处理模块530用于在虚拟形象视频生成系统500中实现步骤S301与步骤S302，具体而言，本发明一些实施例为了以更高的效率实现步骤S301与步骤S302，在图像处理模块530中分别部署有预处理单元531、分割处理单元532和卡通化单元533。其中，预处理单元531用于对人像图片进行预处理；分割处理单元532用于以图形处理器的算力资源将预处理后的人像图片进行分割处理，得到若干图像块；卡通化单元533用于以图形处理器的算力资源为基础，根据若干图像块对人像图片进行卡通化处理，得到目标用户的基础虚拟形象。需要说明的是，由于将预处理后的人像图片进行分割处理、根据若干图像块对人像图片进行卡通化处理，均需要较大的算力资源，因此在本发明一些实施例中，通过部署组件调用接口的方式，将分割处理单元532和卡通化单元533的算力消耗归于GPU进行处理，以实现算力资源的有效利用。

需要说明的是，图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。对人像图片进行预处理包括：对人像图片进行有效性检测或者其他类型的预处理。在本发明一些实施例中，对人像图片进行预处理后，进一步对人像图片进行分割处理，得到若干图像块，需要说明的是，将人像图片分割成图像块的目的是为步骤S302中根据若干图像块对人像图片进行卡通化处理的环节提供处理基础。

由于人脸不同面部器官具有不同的特性，例如眼睛和眉毛具有对称性，即左右眼和左右眉毛基本都是相似的，且是左右对称的，因此在卡通器官生成方法上要考虑这种对称性。对于人脸的嘴巴，其基本形状都是闭合的且形状都是一致的。对于卡通的主要面部器官(包括眼睛、眉毛、鼻子、嘴巴、轮廓)应该保持与真实人脸器官形状上的相似性，特征点能够很好地描述人脸及面部器官的形状。因此，本发明一些实施例中，关于如何生成卡通面部器官，采用基于特征点定位的方法，对于不同器官采用不同的方法生成，然后再按照特征点的位置将生成的卡通面部器官组合在一起从而得到完整的卡通人脸。其中在面部器官生成方法上，主要是基于特征点的信息对人像图片中的面部区域进行分块，通过块匹配方法找到最优块，然后将所有最优块按照相应的方法进行合成，从而得到完整的卡通面部器官。在将各个面部器官卡通化之后，即可得到目标用户的基础虚拟形象。应理解，本发明中对人像图片进行卡通化处理的方法，不限于上述举出的实施例。

参照图4、图8，根据本发明的一些实施例，图像处理模块530还包括：

应理解，图像处理模块530还用于在虚拟形象视频生成系统500中实现步骤S401与步骤S402，具体而言，本发明一些实施例为了以更高的效率实现步骤S401与步骤S402，在图像处理模块530中还部署有表情合成单元534，用于以图形处理器的算力资源为基础，识别人像图片或者基础虚拟形象的面部特征,确定面部特征的像素位置，并将面部特征的像素位置调整至与预设表情对应的预设位置，生成带表情的基础虚拟形象。

根据本发明提供的一些实施例，识别人像图片或者基础虚拟形象的面部特征,确定面部特征的像素位置，包括：对人像图片或者基础虚拟形象中的面部区域进行识别，并提取面部特征；确定提取出来的面部特征在人像图片或者基础虚拟形象中的位置。在识别得到人像图片或者基础虚拟形象中的面部特征之后,需要进一步确定面部特征的像素位置。根据本发明提供的一些实施例，确定面部特征的像素位置可以通过在人像图片或者基础虚拟形象中建立坐标系，然后确定面部特征的像素在坐标系中的坐标位置。应理解，本发明中进行面部特征识别的方法、确定面部特征像素位置的方法，不限于上述举出的实施例。

应理解，视频合成模块540用于在虚拟形象视频生成系统500中实现步骤S104将基础虚拟形象的面部特征进行调整，合成多张视频帧，并基于多张视频帧与虚拟形象语音包，生成虚拟形象视频。需要说明的是，由于将基础虚拟形象的面部特征进行调整并合成多张视频帧，需要较大的算力资源，因此在本发明一些实施例中，通过部署组件调用接口的方式，将视频合成模块540中关于将基础虚拟形象的面部特征进行调整并合成多张视频帧的算力消耗归于GPU进行处理，以实现算力资源的有效利用。

图9示出了本发明实施例提供的电子设备900。电子设备900包括：处理器901、存储器902及存储在存储器902上并可在处理器901上运行的计算机程序，计算机程序运行时用于执行上述的虚拟形象视频生成方法。

处理器901和存储器902可以通过总线或者其他方式连接。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明实施例描述的虚拟形象视频生成方法。处理器901通过运行存储在存储器902中的非暂态软件程序以及指令，从而实现上述的虚拟形象视频生成方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序。存储数据区可存储执行上述的虚拟形象视频生成方法。此外，存储器902可以包括高速随机存取存储器902，还可以包括非暂态存储器902，例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器902可选包括相对于处理器901远程设置的存储器902，这些远程存储器902可以通过网络连接至该电子设备900。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的虚拟形象视频生成方法所需的非暂态软件程序以及指令存储在存储器902中，当被一个或者多个处理器901执行时，执行上述的虚拟形象视频生成方法，例如，执行图1中的方法步骤S101至步骤S104、图2中的方法步骤S201至步骤S202、图3中的方法步骤S301至步骤S302、图4中的方法步骤S401至步骤S402。

本发明实施例还提供了计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的虚拟形象视频生成方法。

在一实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，执行图1中的方法步骤S101至步骤S104、图2中的方法步骤S201至步骤S202、图3中的方法步骤S301至步骤S302、图4中的方法步骤S401至步骤S402。

以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储系统、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种虚拟形象视频生成方法，其特征在于，应用于虚拟形象视频生成系统，所述方法包括：

获取目标用户的多模态输入数据，所述多模态输入数据包括所述目标用户的个人音频和人像图片；

从所述个人音频中提取音频特征，并根据所述音频特征得到所述个人音频的声音频段；

从预设音频数据库中匹配得到与所述个人音频的所述声音频段相似度最高的虚拟形象语音包；

2.根据权利要求1所述的方法，其特征在于，所述对所述人像图片进行处理，得到所述目标用户的基础虚拟形象，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述人像图片进行处理，得到所述目标用户的基础虚拟形象，还包括：

识别所述基础虚拟形象的面部特征,确定所述面部特征的像素位置；

4.一种虚拟形象视频生成系统，其特征在于，包括多模态数据获取模块、音频处理模块、图像处理模块、视频合成模块和逻辑控制模块，所述逻辑控制模块用于控制所述多模态数据获取模块、所述音频处理模块、所述图像处理模块和所述视频合成模块配合执行权利要求1至3任一项所述的虚拟形象视频生成方法；

其中，所述多模态数据获取模块用于获取目标用户的多模态输入数据，所述多模态输入数据包括所述目标用户的个人音频和人像图片；

所述音频处理模块用于提取所述个人音频中的音频特征，根据所述音频特征从预设音频数据库中匹配得到虚拟形象语音包；所述音频处理模块包括音频提取单元和音频匹配单元，其中，所述音频提取单元用于从所述个人音频中提取所述音频特征，并根据所述音频特征得到所述个人音频的声音频段；所述音频匹配单元用于根据所述音频特征，从所述预设音频数据库中匹配得到与所述个人音频的所述声音频段相似度最高的所述虚拟形象语音包；

5.根据权利要求4所述的虚拟形象视频生成系统，其特征在于，所述图像处理模块包括预处理单元、分割处理单元和卡通化单元：

其中，所述预处理单元用于对所述人像图片进行预处理；

6.根据权利要求5所述的虚拟形象视频生成系统，其特征在于，所述图像处理模块还包括：

表情合成单元，用于以图形处理器的算力资源为基础，识别所述基础虚拟形象的面部特征,确定所述面部特征的像素位置，并将所述面部特征的像素位置调整至与预设表情对应的预设位置，生成带表情的所述基础虚拟形象。

7.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3中任意一项所述的虚拟形象视频生成方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至3中任意一项所述的虚拟形象视频生成方法。