CN114359517A

CN114359517A - 虚拟形象生成方法、虚拟形象生成系统和计算设备

Info

Publication number: CN114359517A
Application number: CN202111404407.7A
Authority: CN
Inventors: 左童春; 何山; 胡金水; 刘聪; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-04-15

Abstract

本发明公开了虚拟形象生成方法、虚拟形象生成系统和计算设备，该方法包括：基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据的语音特征；基于每一帧所述回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像；基于从用户获取的至少两个参考人脸图像，得到用于虚拟形象的五官特征；以及基于所述包含人脸特征点的人脸掩模图像与所述五官特征，得到与当前帧的所述回答语音数据相对应的所述虚拟形象。本发明能够自动实现多人五官的融合，避免使用同一个人五官带来的法律风险，无需人工参与，即可实现个性化、逼真的虚拟形象设计，耗时短、成本低，且可以输出与语音匹配的唇形和表情，提高了虚拟形象的表现力。

Description

虚拟形象生成方法、虚拟形象生成系统和计算设备

技术领域

本发明涉及视音频合成技术领域，更具体地，涉及虚拟形象生成方法、虚拟形象生成系统和计算设备。

背景技术

近年来，混合现实产品逐渐进入大众视野，作为虚拟世界重要的信息表达载体——虚拟形象，在线上(例如，智能手机助手、虚拟电商主播、虚拟明星等)和线下(例如，银行、地铁、医院等的智能问答一体机)多点开花，并呈现扩张趋势。

目前虚拟形象生成主要有两种实现方法：第一种是使用CG(Computer Graphics，计算机图形学)技术建模，这种技术如果要实现个性化，需要从建模开始修改，制作时间较长、人力成本高，而且渲染过程对硬件设备的要求很高(例如，高配显卡)，在虚拟形象逼真程度和光影复杂度等渲染视觉效果方面，利用性能有限的硬件设备(例如，手机)很难生成令人满意的虚拟形象。第二种是使用视音频合成技术，这种技术需要采集真人的视音频数据，并且要经过后期处理、AI模型训练与引擎部署等步骤，完成整个流程大约需要1个月时间，时间和经济成本均较高，且存在侵犯肖像权、生物信息滥用的法律风险。

因此，需要一种新型的虚拟形象生成方法、虚拟形象生成系统和计算设备，以解决上述问题。

发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

根据本发明的一方面，提供了一种虚拟形象生成方法，所述方法包括：基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据的语音特征；基于每一帧所述回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像；基于从用户获取的至少两个参考人脸图像，得到用于虚拟形象的五官特征；以及基于所述包含人脸特征点的人脸掩模图像与所述五官特征，得到与当前帧的所述回答语音数据相对应的所述虚拟形象。

在一个实施例中，其中基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据的语音特征，包括：基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据；基于所述回答语音数据，得到与所述回答语音数据相对应的所述语音特征。

在一个实施例中，其中基于所述回答语音数据，得到与所述回答语音数据相对应的所述语音特征，包括：从所述回答语音数据提取所述回答语音数据的归一化频谱系数；基于所述归一化频谱系数得到所述回答语音数据的语义特征；基于所述归一化频谱系数得到所述回答语音数据的情感特征；以及将所述语义特征与所述情感特征进行融合，得到所述回答语音数据的语音特征。

在一个实施例中，其中基于每一帧所述回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像，包括：基于每一帧所述回答语音数据的语音特征，得到与所述回答语音数据相对应的人脸特征点；以及将所述人脸特征点与存储的人脸掩模图像进行组合，得到所述包含人脸特征点的人脸掩模图像。

在一个实施例中，其中基于每一帧所述回答语音数据的语音特征，得到与所述回答语音数据相对应的人脸特征点，包括：基于所述回答语音数据的语音特征，得到所述回答语音数据的正交基向量系数；以及对所述回答语音数据的正交基向量系数进行反归一化处理，得到与所述回答语音数据相对应的人脸特征点。

在一个实施例中，其中基于从用户获取的至少两个参考人脸图像，得到用于虚拟形象的五官特征，包括：从每个参考人脸图像提取人脸的人脸语义特征；对每个参考人脸图像进行面部分割，得到所述参考人脸图像中人脸五官的二值化的五官掩模图像；使用所述五官掩模图像从所述人脸语义特征分别计算每个人脸五官的平均特征向量；以及对各个所述参考人脸图像中人脸五官的平均特征向量进行融合，得到用于虚拟形象的五官特征。

在一个实施例中，其中基于所述参考人脸图像，得到用于虚拟形象的五官特征，还包括：在从所述参考人脸图像提取人脸的人脸语义特征之前，将所述参考人脸图像与预设的标准人脸图像进行人脸对齐处理，得到对齐后的参考人脸图像；以及从所述对齐后的参考人脸图像提取人脸语义特征。

在一个实施例中，其中基于所述参考人脸图像，得到用于虚拟形象的五官特征，还包括：在使用所述五官掩模图像计算每个人脸五官的平均特征向量之前，将所述五官掩模图像进行适度膨胀，得到膨胀后的五官掩模图像；以及使用所述膨胀后的五官掩模图像来计算每个人脸五官的平均特征向量。

在一个实施例中，其中得到与当前帧的所述回答语音数据相对应的所述虚拟形象还基于前一帧的虚拟形象。

在一个实施例中，其中所述五官特征包括眼部特征、眉部特征、鼻部特征和嘴部特征。

在一个实施例中，所述虚拟形象生成方法使用神经网络来实现。

根据本发明的另一方面，提供了一种虚拟形象生成系统，所述系统包括：处理器，用于使用神经网络来执行如上所述的虚拟形象生成方法；存储器，用于存储所述神经网络的网络参数。

根据本发明的又一实施例，提供了一种计算设备，所述计算设备包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如上所述的方法。

根据本发明的再一实施例，提供了一种计算机可读介质，所述计算机可读介质上存储有计算机程序，所述计算机程序在被运行时，执行如上所述的方法。

根据本发明实施例的根据本发明的虚拟形象生成方法、虚拟形象生成系统和计算设备，自动实现多人五官的融合，避免使用同一个人五官带来的法律风险，无需人工参与，即可实现个性化、逼真的虚拟形象设计，耗时短、成本低，且可以输出与语音匹配的唇形和表情，提高了虚拟形象的表现力。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述，用来解释本发明的原理。

附图中：

图1为根据本发明的一个实施例的实现根据本发明实施例的虚拟形象生成方法、虚拟形象生成系统和计算设备的电子设备的示意性结构框图。

图2为根据本发明的一个实施例的虚拟形象生成方法的示例性步骤流程图。

图3示出了根据本发明的一个实施例的包含人脸特征点的人脸掩模图像的示意图。

图4示出了根据本发明的一个实施例的得到的用于虚拟形象的五官特征的示意图。

图5示出了根据本发明的一个实施例的虚拟形象生成系统的示意性结构框图。

图6示出了根据本发明的一个实施例的计算设备的示意性结构框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

如上所述，现有的虚拟形象生成方法存在不能实现个性化、成本高、侵犯肖像权等问题。

因此，为了解决上述问题，本发明提供了一种虚拟形象生成方法，所述方法包括：基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据的语音特征；基于每一帧所述回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像；基于从用户获取的至少两个参考人脸图像中的每个参考人脸图像，得到所述参考人脸图像中人脸的五官特征；以及基于所述包含人脸特征点的人脸掩模图像与所述五官特征，得到与当前帧的所述回答语音数据相对应的所述虚拟形象。

根据本发明的虚拟形象生成方法，自动实现多人五官的融合，避免使用同一个人五官带来的法律风险，无需人工参与，即可实现个性化、逼真的虚拟形象设计，耗时短、成本低，且可以输出与语音匹配的唇形和表情，提高了虚拟形象的表现力。

下面结合具体实施例详细描述根据本发明的知识图谱构建方法、知识图谱构建系统和计算设备。

首先，参照图1来描述用于实现根据本发明实施例的知识图谱构建方法、知识图谱构建系统和计算设备的电子设备100。

在一个实施例中，电子设备100可以是例如笔记本电脑、台式计算机、平板电脑、学习机、移动设备(诸如，智能手机、电话手表等)、嵌入式计算机、塔式服务器、机架服务器、刀片服务器或任何其他合适的电子设备。

在一个实施例中，电子设备100可以包括至少一个处理器102和至少一个存储器104。

其中，存储器104可以是易失性存储器，诸如随机存取存储器(RAM)、高速缓存存储器(cache)、动态随机存取存储器(DRAM)(包括堆叠的DRAM)或高带宽存储器(HBM)等，也可以是非易失性存储器，诸如只读存储器(ROM)、闪存、3D Xpoint等。在一个实施例中，存储器104的某些部分可以是易失性存储器，而另一部分可以是非易失性存储器(例如，使用两级存储器层次结构)。存储器104用于存储计算机程序，该计算机程序在被运行时，能够实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。

处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)、微处理器或具有数据处理能力和/或指令执行能力的其他处理单元。处理器102可经由通信总线通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备。在一个实施例中，通信总线可以使用任何合适的协议来实现，诸如外围组件互连(PCI)、快速外围组件互连(PCIe)、加速图形端口(AGP)、超传输或任何其他总线或一个或更多个点对点通信协议。

电子设备100还可以包括输入装置106和输出装置108。其中，输入装置106是用于接收用户输入的装置，其可以包括键盘、鼠标、触摸板、麦克风等。此外，输入装置106也可以是任何接收信息的接口。输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，其可以包括显示器、扬声器等中的一个或更多个。此外，输出装置108也可以是任何其他具备输出功能的设备，例如打印机等。

下面参考图2描述根据本发明的一个实施例的虚拟形象生成方法200的示例性步骤流程图。如图2所示，虚拟形象生成方法200可以包括如下步骤：

在步骤S210中，基于从用户获取的输入语音数据，得到与该输入语音数据相对应的回答语音数据的语音特征。

在步骤S220中，基于每一帧回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像(如图3所示)。

在步骤S230中，基于从用户获取的至少两个参考人脸图像，得到用于虚拟形象的五官特征(如图4所示)。

在步骤S240中，基于包含人脸特征点的人脸掩模图像与用于虚拟形象的五官特征，得到与当前帧的回答语音数据相对应的虚拟形象。

在本发明的实施例中，该虚拟形象生成方法200可以使用神经网络来实现。

在本发明的实施例中，虚拟形象可以包括虚拟人、虚拟动画人物、虚拟动物或其他能够由电子设备呈现的虚拟形象，本发明对此不作限定。

在本发明的实施例中，输入语音数据可以为从用户获取的音频、视频等数据，本发明对此不作限定。

在本发明的实施例中，步骤S210中的基于从用户获取的输入语音数据，得到与该输入语音数据相对应的回答语音数据的语音特征，可以包括：基于从用户获取的输入语音数据，得到与该输入语音数据相对应的回答语音数据；基于所述回答语音数据，得到与所述回答语音数据相对应的所述语音特征。

在本发明的实施例中，基于从用户获取的输入语音数据，得到与该输入语音数据相对应的回答语音数据的步骤，可以使用本领域公知的任何自然语言处理模型，例如统计语言模型、N-gram模型、神经概率语言模型、MM(马尔可夫模型)和HMM(隐马尔可夫模型)、最大熵模型、SVM(支持向量机)、CRF(条件随机场)等来实现，本发明对此不作限定。示例性地，可以使用语音端点检测技术将输入语音数据划分成长度为例如2秒到20秒不等的若干个语音片段，将各段音频片段输入上述自然语音处理模型，从而得到与输入语音片段相对应若干个回答语音片段。

在本发明的实施例中，基于回答语音数据，得到与该回答语音数据相对应的语音特征的步骤，可以包括：从回答语音数据提取该回答语音数据的归一化频谱系数；基于该归一化频谱系数得到该回答语音数据的语义特征Af；基于该归一化频谱系数得到该回答语音数据的情感特征Ae；以及将该语义特征Af与该情感特征Ae进行融合，得到该回答语音数据的语音特征Am。其中，语义特征Af用于控制虚拟形象的唇形的合成，情感特征Ae用于控制虚拟形象的面部表情的合成。

在本发明的实施例中，从回答语音数据提取该回答语音数据的归一化频谱系数的步骤，可以包括提取该回答语音数据的梅尔频率倒谱系数(MFCC)，用于表征该回答语音数据的频谱系数，并将该梅尔频率倒谱系数进行归一化，从而得到回答语音数据的归一化频谱系数。示例性地，可以提取例如100HZ、维度为28的梅尔频率倒谱系数。

在本发明的实施例中，可以将回答语音数据的归一化频谱系数输入预训练的语音语义识别模型，以从该归一化频谱系数得到回答语音数据的语义特征Af，例如GMM-HMM(高斯混合模型-隐马尔可夫模型)、RNN(循环神经网络，例如LSTM(长短期记忆网络)、GRU(门控循环单元))、FSMN(前馈全连接网络)、DFSMN(深度前馈全连接网络)等，本发明对此不作限定。

在本发明的实施例中，可以将回答语音数据的归一化频谱系数输入预训练的语音情感识别模型，以从该归一化频谱系数得到回答语音数据的情感特征Ae，例如GMM(高斯混合模型)、SVM(支持向量机)、HMM(隐马尔可夫模型)、CNN(卷积神经网络)、LSTM(长短期记忆网络)等，本发明对此不作限定。

在本发明的实施例中，语义特征可以为例如25HZ、维度为512的语义特征，情感特征可以为例如维度为128的情感特征。

在本发明的实施例中，将语义特征与情感特征进行融合的步骤，可以包括：将语义特征与情感特征进行拼接、相加、相减或其他融合操作，本发明对此不作限定。

在本发明的实施例中，步骤S220中的基于每一帧回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像，可以包括：基于每一帧回答语音数据的语音特征，得到与该回答语音数据相对应的人脸特征点；以及将该人脸特征点与存储的人脸掩模图像进行组合，得到包含人脸特征点的人脸掩模图像。

在本发明的实施例中，可以将回答语音数据的语音特征输入经训练的循环神经网络(RNN)，例如长短期记忆网络(LSTM)、门控循环单元(GRU)等，以得到与该回答语音数据相对应的人脸特征点。

在本发明的实施例中，基于每一帧回答语音数据的语音特征，得到与该回答语音数据相对应的人脸特征点的步骤，可以包括：基于该回答语音数据的语音特征，得到该回答语音数据的正交基向量系数；以及对该回答语音数据的正交基向量系数进行反归一化处理，得到与回答语音数据相对应的人脸特征点。

在本发明的实施例中，可以搭建2层的LSTM网络，并将其训练为基于每一帧回答语音数据的语音特征，得到与该语音特征相对应的人脸特征点。其中，将回答语音数据的语音特征输入至LSTM网络的第一层，由该第一层从语音特征得到回答语音数据的正交基向量系数，该回答语音数据的正交基向量系数输入LSTM网络的第二层，由该第二层对该正交基向量系数进行反归一化处理，得到与该回答语音数据相对应的人脸特征点。

在本发明的实施例中，上述正交基向量系数可以为例如PCA(主成分分析)系数，还可以为MDS(多维缩放)系数、LDA(线性判别分析)系数、Isomap(等度量映射)系数、LLE(局部线性嵌入)系数等降维算法的系数，本发明对此不作限定。

在本发明的实施例中，人脸特征点的个数可根据需要进行设定，例如64个，本发明对此不作限定。

在本发明的实施例中，该人脸掩模图像可以根据在训练期间得到的人脸特征点的轮廓描绘得到，还可以将训练期间得到的人脸图像抹去面部信息而得到等，本发明对此不作限定。

在本发明的实施例中，参考人脸图像的个数可以根据需要进行设定，例如2、3、4、5、6个等，本发明对此不作限定。

在本发明的实施例中，五官特征可以包括眼部特征、眉部特征、鼻部特征和嘴部特征，还可以包括耳部特征，本发明对此不作限定。

在本发明的实施例中，步骤S230中的基于至少两个参考人脸图像得到用于虚拟形象的五官特征，可以包括如下步骤：

在步骤a1中，从每个参考人脸图像提取其中人脸的人脸语义特征。

在步骤a2中，对每个参考人脸图像进行面部分割，得到该参考人脸图像中人脸五官的二值化的五官掩模图像。

在步骤a3中，使用该五官掩模图像从人脸语义特征分别计算每个人脸五官的平均特征向量。

在步骤a4中，对各个参考人脸图像中人脸五官的平均特征向量进行融合，得到用于虚拟形象的五官特征。

在本发明的实施例中，可以使用经训练的人脸识别网络来从每个参考人脸图像提取人脸的人脸语义特征。示例性地，人脸识别网络可以采用本领域公知的任何图像语义特征提取方法来提取人脸语义特征，例如PCA(主成分分析)、ICA(独立成分分析)、ISA(独立子空间分析)等，本发明对此不作限定。示例性地，可以使用基于resnet100框架的arcface人脸识别网络来提取人脸语义特征。示例性地，所提取的人脸语义特征可以为维度为14*14*256的人脸语义特征。

在本发明的实施例中，在从参考人脸图像提取人脸语义特征之前，还可以包括步骤：将参考人脸图像与预设的标准人脸图像进行人脸对齐处理，得到对齐后的参考人脸图像，并从该对齐后的参考人脸图像提取人脸语义特征。

在本发明的实施例中，参考人脸图像与预设的标准人脸图像进行人脸对齐的示例性方法可以包括：设定某分辨率(例如，256)下的5个特征点(两个瞳孔点、一个鼻尖点、两个嘴角点)为标准人脸的特征点TP5，使用特征点检测模型(例如mtcnn(多任务卷积神经网络)等)提取参考人脸图像中对应的5个坐标点P5，使用最小二乘法计算P5到TP5的仿射变换矩阵H，使用该仿射变换矩阵H对参考人脸图像的像素进行变形，得到对齐后的参考人脸图像。

在本发明的实施例中，可以使用经训练的人脸语义分割网络来对参考人脸图像进行面部分割，以得到参考人脸图像中人脸五官的二值化的五官掩模图像。示例性地，人脸语义分割网络可以由对FCN(全卷积神经网络)、dilated convolution(空洞卷积)、U-net等进行训练而得到，本发明对此不作限定。

在本发明的实施例中，该平均特征向量可以为维度为1*1*256等的特征向量，本发明对此不作限定。

在本发明的实施例中，在使用五官掩模图像计算每个人脸五官的平均特征向量之前，还可以包括步骤：将五官掩模图像进行适度膨胀，得到膨胀后的五官掩模图像，以及使用该膨胀后的五官掩模图像来计算每个人脸五官的平均特征向量。将将五官掩模图像进行适度膨胀可以确保不丢失双眼皮、睫毛等细节信息，使得得到的五官掩模图像更加逼真。

在本发明的实施例中，对各个参考人脸图像中人脸五官的平均特征向量进行融合可以包括：对人脸五官的平均特征向量进行拼接、相加、相减或其他融合操作，本发明对此不作限定。

在本发明的实施例中，得到的用于虚拟形象的五官特征可以为维度为1*1*768等的特征向量，本发明对此不作限定。

在本发明的实施例中，步骤S240中的基于包含人脸特征点的人脸掩模图像与用于虚拟形象的五官特征，得到与当前帧的回答语音数据相对应的虚拟形象，可以利用视频合成网络，例如经训练的生成对抗网络(GAN)等，来实现。示例性地，除了将包含人脸特征点的人脸掩模图像与用于虚拟形象的五官特征输入GAN之外，还可以将前一帧的虚拟形象输入GAN，从而得到与当前帧的回答语音数据相对应的所述虚拟形象还基于前一帧的虚拟形象。

在本发明的实施例中，生成对抗网络GAN可以包括生成器网络G和判别器网络D，其中生成器网络G用于合成当前帧的虚拟形象，判别器网络D用于判别合成的虚拟形象是否符合期望。

在本发明的实施例中，生成器网络G可以由编码器网络E、特征变换网络Res和解码器网络De组成。其中，编码器网络E可以由3个卷积层和3个池化层组成，特征变换网络Res可以由5个残差网络组成，解码器网络De可以由3个上采样层组成。

在本发明的实施例中，可以采用AdaIN(自适应实例归一化)方法将包含人脸特征点的人脸掩模图像、用于虚拟形象的五官特征和前一帧的虚拟形象一起输入生成器网络G的各个网络层中。

在本发明的实施例中，判别器网络D可以包括图像判别器Di和视频判别器Dt，其中图像判别器Di用于判别合成的虚拟形象是否符合真实分布，视频判别器Dt用于判别合成的多个虚拟形象是否具备时间连续性。

将生成的各帧虚拟形象的图像按照时间顺序排列，即可得到虚拟形象的视频帧序列。

在本发明的实施例中，用户可以随时更改输入的参考图像，则生成的虚拟形象的五官也随之改变，大大提高了合成虚拟形象的灵活性和多样性。

下面简单介绍将神经网络进行训练为执行上述虚拟形象生成方法200的训练过程的简单步骤：

第一步，构建训练数据集。

示例性地，训练数据集包括一段不少于10分钟的基础形象视音频数据，不少于5万张不同人的高清人脸数据。

第二步，对训练数据进行处理。

首先，对采集到的音频数据进行降噪处理，使得人声清晰，并使用语音端点检测技术将该音频数据切分为长度从2秒到20秒不等的音频片段，得到了多个音频片段。对每个音频片段提取例如100HZ、维度为28的梅尔频率倒谱系数(MFCC)，将该梅尔频率倒谱系数作为预训练的语音语义识别模型的输入，可得到例如25HZ、维度为512的语义特征，记为Af，用于控制虚拟形象的唇形的合成。同时将该梅尔频率倒谱系数作为语音情感识别网络的输入，提取例如维度为128的情感特征，记为Ae，用于控制虚拟形象的面部表情的合成。将这两种特征进行拼接，得到融合后的语音特征Am。

其次，将采集到的视频数据按照与音频数据相同的时间戳进行裁剪，逐帧解码为图像。使用人脸检测器确定人脸框的位置，并裁剪出人脸图像,记为Ir(0),Ir(t),…,Ir(T)。为了提高神经网络的鲁棒性，对训练数据中的M张(例如，约10万)人脸图像R(0),R(m),…,R(M)和上一步裁剪出的人脸图像Ir(0),Ir(t),…,Ir(T)进行人脸对齐，对齐过程具体如下：

设定256分辨率下5个(两个瞳孔点、一个鼻尖点、两个嘴角点)特征点为标准图像特征点TP5，使用mtcnn等特征点检测工具提取所有人脸图像Ir(0),Ir(t),…,Ir(T),R(0),R(m),…,R(M)中的5个坐标点，记为P5(i),i∈[0,T+M-1]。使用最小二乘法计算P5(i)到TP5的仿射变换矩阵H(i),i∈[0,T+M-1]，使用该矩阵H对Ir(t),R(m)的像素进行变形，得到对齐后的人脸图像I_align(t),R_align(m)。

使用基于Xception39框架的人脸语义分割网络对对齐后的所有人脸图像提取面部分割结果，并分离出眼睛、鼻子、嘴对应区域的二值化掩模图M_align(m)，m∈[0,M-1]。为了不丢失双眼皮、睫毛等细节信息，需要对该掩模图进行适度膨胀，膨胀后的掩模图记为M(m)。

然后使用Dlib人脸特征检测器获取裁剪出的人脸图像Ir(0),Ir(t),…,Ir(T)中每个人脸图像的68个人脸特征点。将该68个特征点根据双眼的一对特征点进行旋转归一化和尺度归一化，并以鼻尖点为中心位置进行平移归一化，以去除头部运动的影响。对归一化的特征点(例如维度为132)使用降维算法(例如，主成分分析(PCA))降维到64维，记为Lp(t),t∈[0,T-1]。同时，需要根据标准图像特征点使用旋转反归一化、平移反归一化、尺度反归一化和PCA反归一化得到68个特征点在对齐后的人脸图像I_align(t)上的位置，在人脸掩模图上叠加该68个特征点，得到包含人脸特征点的人脸掩模图像与相应的人脸图像的配对图像，分别记为I_in(t)和I_lb(t)，t∈[0,T-1]。其中，该人脸掩模图像可以根据特征脸的轮廓描绘得到，还可以将特征脸抹去面部信息而得到。

第三步，驱动特征点生成。

搭建2层标准LSTM(长短期记忆)网络，将融合后的语音特征Am(t),t∈[0,T-1]作为输入，降维后的PCA系数Lp(t),t∈[0,T-1]作为训练时的监督标签，使用

损失函数进行训练，进行若干次(例如40次)迭代后，损失下降到1^e-3的水平，则训练结束。

第四步，视频合成。

从人脸对齐后的人脸图像R_align(0),R_align(1),…,R_align(M)中随机选取至少两张作为参考人脸图像，例如选取三张人脸图像R1、R2、R3，分别经过人脸识别网络F_R(例如，使用基于resnet100框架的arcface人脸识别网络)，得到(例如14*14*256维度的)人脸语义特征F1、F2、F3，使用膨胀后的掩模图M(m)分别计算五官(例如眉眼、鼻子、嘴)区域的平均特征向量(例如维度为1*1*256)，记为V_e,V_n,V_l，对这些平均特征向量进行拼接，得到融合特征V(例如，维度为1*1*768)，即用于虚拟形象的五官特征，将该融合特征V和上述得到的配对图像以及前一帧生成的图像I_p(t-1)通过AdaIN方法输入到视频合成网络中。

为了使得神经网络具备五官融合能力、提高视频连续性，该网络的损失函数设计如下：

具体地，

L_id＝1-cos(F_R(I_p(t)，F_R(R1))，其中I_p(t)为当前帧生成的虚拟形象的图像。期望生成的虚拟形象的图像和参考人脸图像的相似度接近1。

期望生成的虚拟形象的图像和相应的人脸图像间的像素误差最小化。

其中VGG表示人脸特征检测器。

为视频合成网络的标准WGAN损失。

L_local＝3-cos(F_R(I_p(t))*M1(t)，F_R(R1)*M1(t))-cos(F_R(I_p(t))*M2(t)，F_R(R2)*M2(t))-cos(F_R(I_p(t))*M3(t)，F_R(R3)*M3(t))

经过上述步骤训练后的神经网络能够实现本发明的实施例中的虚拟形象生成方法200。

参考图5，图5示出了根据本发明的一个实施例的虚拟形象生成系统500的示意性结构框图。如图5所示，虚拟形象生成系统500可以包括处理器510和存储器520。

其中，处理器510用于使用一个或更多个神经网络来执行如上所述的虚拟形象生成方法200。

本领域技术人员可以结合前文所述的内容理解根据本发明实施例的虚拟形象生成系统500的具体操作，为了简洁，此处不再赘述具体的细节，仅描述处理器510的一些主要操作如下：

基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据的语音特征；

基于每一帧所述回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像；

基于从用户获取的至少两个参考人脸图像，得到用于虚拟形象的五官特征；以及

基于所述包含人脸特征点的人脸掩模图像与所述五官特征，得到与当前帧的所述回答语音数据相对应的所述虚拟形象。

示例性地，处理器510可以为本领域公知的任何处理设备，例如，中央处理单元(CPU)、图形处理单元(GPU)、微处理器、微控制器、现场可编程门阵列(FPGA)等，本发明对此不作限定。

其中，存储器520用于存储神经网络的网络参数。示例性地，存储器520可以为RAM、ROM、EEPROM、闪存或者其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备，或者可以用来存储期望的信息且可以由处理器510访问的任何其他介质。

根据本发明的虚拟形象生成系统，自动实现多人五官的融合，避免使用同一个人五官带来的法律风险，无需人工参与，即可实现个性化、逼真的虚拟形象设计，耗时短、成本低，且可以输出与语音匹配的唇形和表情，提高了虚拟形象的表现力。

参考图6，图6示出了根据本发明的一个实施例的计算设备600的示意性结构框图。如图6所示，计算设备600可以包括存储器610和处理器620，其中存储器610上存储有计算机程序，该计算机程序在被该处理器620运行时，使得处理器620执行如上所述的虚拟形象生成方法200。

本领域技术人员可以结合前文所述的内容理解根据本发明实施例的计算设备600的具体操作，为了简洁，此处不再赘述具体的细节，仅描述处理器620的一些主要操作如下：

根据本发明的计算设备，自动实现多人五官的融合，避免使用同一个人五官带来的法律风险，无需人工参与，即可实现个性化、逼真的虚拟形象设计，耗时短、成本低，且可以输出与语音匹配的唇形和表情，提高了虚拟形象的表现力。

根据本发明的实施例，还提供了一种计算机可读介质，该计算机可读介质上存储有计算机程序，所述计算机程序在运行时执行如上述实施例所述的虚拟形象生成方法200。任何有形的、非暂时性的计算机可读介质皆可被使用，包括磁存储设备(硬盘、软盘等)、光存储设备(CD-ROM、DVD、蓝光光盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器，使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行，这样存储在计算机可读存储器中的指令就可以形成一件制造品，包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上，从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程，使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚拟形象生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，其中基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据的语音特征，包括：

基于从用户获取的输入语音数据，得到与所述输入语音数据相对应的回答语音数据；

基于所述回答语音数据，得到与所述回答语音数据相对应的所述语音特征。

3.如权利要求2所述的方法，其特征在于，其中基于所述回答语音数据，得到与所述回答语音数据相对应的所述语音特征，包括：

从所述回答语音数据提取所述回答语音数据的归一化频谱系数；

基于所述归一化频谱系数得到所述回答语音数据的语义特征；

基于所述归一化频谱系数得到所述回答语音数据的情感特征；以及

将所述语义特征与所述情感特征进行融合，得到所述回答语音数据的语音特征。

4.如权利要求1所述的方法，其特征在于，其中基于每一帧所述回答语音数据的语音特征，得到包含人脸特征点的人脸掩模图像，包括：

基于每一帧所述回答语音数据的语音特征，得到与所述回答语音数据相对应的人脸特征点；以及

将所述人脸特征点与存储的人脸掩模图像进行组合，得到所述包含人脸特征点的人脸掩模图像。

5.如权利要求4所述的方法，其特征在于，其中基于每一帧所述回答语音数据的语音特征，得到与所述回答语音数据相对应的人脸特征点，包括：

基于所述回答语音数据的语音特征，得到所述回答语音数据的正交基向量系数；以及

对所述回答语音数据的正交基向量系数进行反归一化处理，得到与所述回答语音数据相对应的人脸特征点。

6.如权利要求1所述的方法，其特征在于，其中基于从用户获取的至少两个参考人脸图像，得到用于虚拟形象的五官特征，包括：

从每个参考人脸图像提取人脸的人脸语义特征；

对每个参考人脸图像进行面部分割，得到所述参考人脸图像中人脸五官的二值化的五官掩模图像；

使用所述五官掩模图像从所述人脸语义特征分别计算每个人脸五官的平均特征向量；以及

对各个所述参考人脸图像中人脸五官的平均特征向量进行融合，得到用于虚拟形象的五官特征。

7.如权利要求6所述的方法，其特征在于，其中基于所述参考人脸图像，得到用于虚拟形象的五官特征，还包括：

在从所述参考人脸图像提取人脸的人脸语义特征之前，将所述参考人脸图像与预设的标准人脸图像进行人脸对齐处理，得到对齐后的参考人脸图像；以及

从所述对齐后的参考人脸图像提取人脸语义特征。

8.如权利要求6所述的方法，其特征在于，其中基于所述参考人脸图像，得到用于虚拟形象的五官特征，还包括：

在使用所述五官掩模图像计算每个人脸五官的平均特征向量之前，将所述五官掩模图像进行适度膨胀，得到膨胀后的五官掩模图像；以及

使用所述膨胀后的五官掩模图像来计算每个人脸五官的平均特征向量。

9.如权利要求1所述的方法，其特征在于，其中得到与当前帧的所述回答语音数据相对应的所述虚拟形象还基于前一帧的虚拟形象。

10.如权利要求1所述的方法，其特征在于，其中所述五官特征包括眼部特征、眉部特征、鼻部特征和嘴部特征。

11.如权利要求1所述的方法，其特征在于，所述虚拟形象生成方法使用神经网络来实现。

12.一种虚拟形象生成系统，其特征在于，所述系统包括：

处理器，用于使用神经网络来执行如权利要求1-11中任一项所述的虚拟形象生成方法；

存储器，用于存储所述神经网络的网络参数。

13.一种计算设备，其特征在于，所述计算设备包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-11中任一项所述的方法。

14.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序在被运行时，执行如权利要求1-11中任一项所述的方法。