CN116091660A

CN116091660A - 一种虚拟表情的生成方法及装置

Info

Publication number: CN116091660A
Application number: CN202111295384.0A
Authority: CN
Inventors: 俞雨; 邵凯; 徐亚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2023-05-09

Abstract

一种虚拟表情的生成方法及装置，用于提高虚拟人物表情的灵动性，提高虚拟人物的应用范围。本申请在音素特征的基础上结合能量特征、同音高持续时间、同音素持续时间来获得三维虚拟人物的表情基向量系数。由于在歌曲高潮部分，演唱者往往通过拖长音将情绪与表情调动到最高点。因此同音高持续时间和同音素持续时长也是决定人物表情的重要线索。进而通过在音素特征的基础上增加能量特征、长音特征来丰富所驱动的虚拟人物的表情。此外，通过生成器网络来获得表情基向量系数，使得表情基向量系数的生成准确度更高。

Description

一种虚拟表情的生成方法及装置

技术领域

本申请涉及视频处理技术领域，特别涉及一种虚拟表情的生成方法及装置。

背景技术

虚拟数字人，通常是指具有数字化外形的虚拟人物，一般依赖显示设备存在。随着计算机图形学(computer graphics，CG)技术的发展，数字人可以通过三维建模、动作(面部)捕捉等技术制作，提升真实感。

尽管虚拟数字人的外形制作通过高精模型与渲染获得了突飞猛进的进步，但虚拟数字人的面部动作及肢体动作的驱动在很多场景下仍需依赖真实演员的表演，较大限制虚拟数字人的应用范围与制作效率。目前虚拟表情生成采用自动语音识别模型(automaticspeech recognition，ASR)提取出语音的音素输入到虚拟表情生成模型中，或者通过梅尔频率倒谱系数(mel-frequency cepstrum coefficients，MFCC)作为网络的特征，导致生成的虚拟人物的表情僵硬，仅适用于语音播报或者客服等场景，较大限制虚拟人物的应用范围。

发明内容

本申请实施例提供一种虚拟表情的生成方法及装置，用于提高虚拟人物表情的灵动性，提高虚拟人物的应用范围。

第一方面，本申请实施例提供一种虚拟表情的生成方法，包括：获取待播放音乐数据，所述待播放音乐数据包括多个音频帧；对所述音乐数据包括的每个音频帧进行特征提取获得多个音频帧分别对应的音频特征，所述音频特征包括音素特征，所述音频特征还包括能量特征、同音高持续时间、同音素持续时间中的一项或者多项；其中，第一音频帧的同音高持续时间用于表征位于以第一音频帧的音高为基准的设定波动范围内音高的持续时长；所述第一音频帧为多个音频帧中的任一个；第一音频帧的同音素持续时间用于表征第一音频帧的音素特征的持续时长；根据所述多个音频帧分别对应的音频特征通过AI网络获得所述多个音频帧分别对应的表情基向量系数；通过表情基系统根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。

示例性地，AI网络可以是生成器网络。生成器网络的网络参数是根据多个样本音乐数据对初始配置的生成对抗网络进行训练得到的，不同样本音乐数据对应不同的歌唱者的一首或几首歌曲。

通过上述方案，在音素特征的基础上结合能量特征、同音高持续时间、同音素持续时间来获得三维虚拟人物的表情基向量系数。由于在歌曲高潮部分，演唱者往往通过拖长音将情绪与表情调动到最高点。因此同音高持续时间和同音素持续时长也是决定人物表情的重要线索。进而通过在音素特征的基础上增加能量特征、长音特征来丰富所驱动的虚拟人物的表情。此外，通过生成器网络来获得表情基向量系数，使得表情基向量系数的生成准确度更高。

在一种可能的设计中，所述音频特征还包括音高特征、歌手特征或歌曲特征中的一项或者多项；其中，所述歌手特征包括性别特征、年龄特征和歌手标识中的一项或者多项；所述歌曲特征包括歌曲主题特征、歌曲情绪特征、歌曲音高分布特征中的一项或者多项。

由于一首歌曲的主歌和副歌情绪不同，比如主歌部分往往情绪变化平缓、音高较低、表情相对平静，而副歌部分则相对主歌更为激昂、音高较高、表情较为夸张。因此，上述设计中通过结合音高特征来获取表情基向量基系数，使得通过表情基向量系数确定的表情更能根据歌曲的主歌和副歌的音高的不同而变化。

在一种可能的设计中，方法还包括：接收调整指令，所述调整指令用于对第一音频帧的音频特征进行调整；根据所述多个音频帧分别对应的音频特征通过生成器获得所述多个音频帧分别对应的表情基向量系数，包括：根据所述调整指令对所述多个音频帧分别对应的音频特征中所述第一音频帧的音频特征进行调整；根据调整后的所述多个音频帧分别对应的音频特征通过生成器获得所述多个音频帧分别对应的表情基向量系数。

上述设计中，用户可以根据需求来调整音频帧的音频特征，比如更换歌手性别，调整歌手年龄，调整歌曲风格等。进一步可以提高三维虚拟人物的应用范围。

在一种可能的设计中，所述根据所述多个音频帧分别对应的音频特征通过生成器网络获得所述多个音频帧分别对应的表情基向量系数，包括：根据第一时间窗口包括的音频帧的音频特征通过所述生成器网络获得第一音频帧对应的表情基向量系数，所述第一音频帧为所述待播放音乐数据包括多个音频帧中的一个；所述第一时间窗口包括所述第一音频帧在内的连续N个音频帧，N为正整数。

通过上述设计，通过时间滑窗的方式，结合当前帧的前后多帧的音频特征，由于前后多帧的音频特征更能反映三维虚拟人物的表情在过去和未来的变化，从而结合前后多帧的音频特征获得当前帧的表情基向量系数，使得获得的表情基向量系数的准确度更高。

在一种可能的设计中，所述第一音频帧位于所述连续N个音频帧的第k个；N为奇数时，k等于(N+1)/2或者(N-1)/2；N为偶数时，k等于N/2。

在一种可能的设计中，所述生成对抗网络包括待训练的生成器网络和判别器网络；所述生成器网络的网络参数是根据第一损失值和第二损失值进行调整得到的；所述第一损失值用于表征所述生成器网络在输入多个样本音乐数据包括的任一样本音频帧的音频特征时输出的生成表情基向量系数与目标表情基向量系数的差异；所述目标表情基向量系数是根据所述样本音乐数据对应的视频数据确定的；所述第二损失值用于表征所述判别器网络对所述生成器网络输入的生成表情基向量系数与所述目标表情基向量系数的相似度。

通过上述方式来训练生成器网络，使得训练得到的生成器网络输出的表情基向量系数的准确度更高。

在一种可能的设计中，所述判别器网络的网络参数是根据所述第二损失值进行调整得到。

在一种可能的设计中，第一样本音乐数据与第二样本音乐数据的歌唱者的年龄或者性别不同，所述第一样本音乐数据与所述第二样本音乐数据是所述多个样本音乐数据中的任两个样本音乐数据。

第二方面，本申请实施例还提供一种虚拟表情的生成装置，虚拟表情的生成装置包括相应的功能模块，分别用于实现以上方法中的步骤，具体参见方法示例中的详细描述，此处不做赘述。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。例如，虚拟表情的生成装置包括特征提取单元、生成器网络以及表情基系统。特征提取单元，用于待播放音乐数据包括的多个音频帧分别进行特征提取获得多个音频帧分别对应的音频特征，所述音频特征包括音素特征，所述音频特征还包括能量特征、同音高持续时间、同音素持续时间中的一项或者多项；其中，第一音频帧的同音高持续时间用于表征位于以第一音频帧的音高为基准的设定波动范围内音高的持续时长；所述第一音频帧为多个音频帧中的任一个；第一音频帧的同音素持续时间用于表征第一音频帧的音素特征的持续时长；生成器网络，用于根据所述多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数；其中，所述生成器网络的网络参数是根据多个样本音乐数据对初始配置的生成对抗网络进行训练得到的，不同样本音乐数据对应不同的歌唱者的一首或几首歌曲；表情基系统，用于根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。

在一种可能的设计中，还包括：特征编辑模块，用于接收调整指令，所述调整指令用于对第一音频帧的音频特征进行调整；根据所述调整指令对所述多个音频帧分别对应的音频特征中所述第一音频帧的音频特征进行调整；所述生成器网络，具体用于根据调整后的所述多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数。

在一种可能的设计中，所述生成器网络，具体用于：根据第一时间窗口包括的音频帧的音频特征获得第一音频帧对应的表情基向量系数，所述第一音频帧为所述待播放音乐数据包括多个音频帧中的一个；所述第一时间窗口包括所述第一音频帧在内的连续N个音频帧，N为正整数。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器。所述存储器，用于存储程序或指令；所述处理器，用于调用所述程序或指令，以使得所述电子设备执行第一方面或者第一方面的任一设计所述的方法。具体的，处理器调用程序和指令，执行第一方面或者第一方面的任一设计所述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，当计算机程序或指令被终端设备执行时，使得该终端设备执行上述第一方面或第一方面的任意可能的设计中的方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机程序或指令，当该计算机程序或指令被终端设备执行时，实现上述第一方面或第一方面的任意可能的实现方式中的方法。

上述第二方面至第五方面中任一方面可以达到的技术效果可以参照上述第一方面中有益效果的描述，此处不再重复赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍。

图1为本申请实施例提供的虚拟人物表情基示意图；

图2为本申请实施例提供的电子设备100的硬件结构示意图；

图3为本申请实施例提供的一种可能的虚拟表情的生成方法流程示意图；

图4为本申请实施例提供的音素特征示意图；

图5为本申请实施例提供的能量特征与闭眼、皱眉表情基向量系数的走势图；

图6为本申请实施例提供的音频帧的能量特征和音素特征示意图；

图7为本申请实施例提供的主歌表情(皱眉、闭眼)与副歌表情的对比示意图；

图8为本申请实施例提供的音高特征与闭眼、皱眉表情基向量系数的走势图；

图9为本申请实施例提供的生成器网络的训练方法流程示意图；

图10为本申请实施例提供的生成器网络的训练装置示意图；

图11A为本申请实施例提供的一种虚拟表情的生成装置1100示意图；

图11B为本申请实施例提供的另一种虚拟表情的生成装置1100示意图；

图12为本申请实施例提供的生成器网络示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。

本申请实施例中“至少一个(项)”是指一个(项)或者多(项)，“多个(项)”是指两个(项)或两个(项)以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b或c中的至少一项(个)，可以表示：a、b、c、a-b、a-c、b-c或a-b-c，其中a、b、c可以是单个，也可以是多个。除非有相反的说明，本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分，不用于限定多个对象的大小、内容、顺序、时序、优先级或者重要程度等。例如，第一音频帧或者第二音频帧，只是为了区分不同的音频帧，而并不是表示这两个音频帧的大小、优先级或者重要程度等的不同。

在电影制作、三维动画、增强现实(augmented reality，AR)或者虚拟现实(virtual reality，VR)等等领域，对虚拟人物的表情的生成具有不同的需求。三维虚拟人物也可以称为“数字人”，是指具有数字化外形的虚拟人物，可以通过显示设备(如手机、电脑、VR/AR眼镜等)等显示出来。数字人的人物特征可以基于真人的人物特征产生，数字人可以具有与真人相同或相近的相貌、性别等人物特征。

面部变形(Blend shape)系统可以用于表达三维人脸表情。Blend shape系统可以理解为基于表情基向量及其系数的线性加权系统。Blend shape系统的核心原理认为人的表情可以拆分局部元表情，每个表情，均可以由若干个局部表元线性叠加而形成。因此，一个目标三维人脸网格可以通过如下公式(1)来表示。

其中，M表示目标人脸网格，μ表示中性表情，即平静状态下的表情状态(或者自然状态下的表情状态)。中性表情不带有“喜”、“怒”、“哀”、“乐”等任何表情。B_i表示第i个表情基向量。表情基向量可以理解为一系列预先定义的、彼此独立的且带有一定语义信息的极限表情向量。每个表情基一般控制虚拟人物脸部某一区域的几何变化。B_i-μ表示每个表情基向量相对于中性表情的偏移量(即差值)。三维虚拟人物的表情的变化从而通过各个表情基向量的偏移量的线性加权求和来拟合、逼近。α_i表示第i个表情基向量系数，即线性加权的权重，用于以所述中性表情为基础，对其他带有不同表情的表情基B_i与所述中性表情基μ的差值进行如上述公式(1)的插值融合，从而为虚拟对象获得新的表情基。例如，参见图1所示，示例一个虚拟人物的张嘴表情基、闭眼表情基和O型嘴表情基。

通过上述分析可知，虚拟人物的不同表情的人脸网格都可以由各个表情基向量分别对应的表情基向量系数构成的一个低维的表情基向量系数序列{α_i}来表示。本申请实施例可以通过训练AI模型使得输出表情基向量系数序列。

本申请实施例提供一种虚拟表情的生成方法及装置，提供在一种歌唱场景下，基于音乐数据中表达情绪、节奏等信息的特征通过训练的AI模型来获得表情基向量系数，从而基于表情基向量系数结合表情基系统(比如Blend shape)生成音乐数据包括的每个音频帧对应的表情下的三维虚拟人物的人脸网格，从而在播放该音乐数据时驱动基于三维虚拟人物的人脸网格驱动虚拟人物的表情变化。

本申请实施例提供的方案可以应用于电子设备中。电子设备可以是任意能够进行数据处理的静止或者移动计算设备，例如笔记本电脑、智能手机、可穿戴设备等移动计算设备，或者台式计算机等静止的计算设备，或者服务器，或者其它类型的计算设备等，本申请对此不作限制。可穿戴设备，比如可以是AR设备或者VR设备等。

作为一种示例，参见图2所示，为一种可能的电子设备100的硬件结构示意图。电子设备100包括处理器110、存储器120。电子设备还包括显示屏130。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，现场可编程门阵列(field-programmable gate array，FPGA)，控制器，视频编解码器，数字信号处理器(digitalsignal processor，DSP)，基带处理器，和/或神经网络处理器(neural-networkprocessing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

一些实施例中，处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

一些实施例中，处理器110外部可以设置存储器120，例如图1所示。存储器120可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在存储器120的指令，从而执行电子设备100的各种功能应用以及数据处理。存储器120可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如事件数据的处理功能)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如事件数据)等，或者存储电子设备100从外部获取或者接收到的数据，比如事件数据。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

显示屏130用于显示虚拟人物等。显示屏130包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N1个显示屏130，N1为大于1的正整数。

电子设备100通过GPU，显示屏130，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏130和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

一些实施例中，电子设备100中还包括扬声器、麦克风等等，图2中未示出。扬声器用于播放音乐数据。麦克风可以用于录制音频数据或者音乐数据。

需要说明的是，图2所示的电子设备100仅作为一种举例，电子设备100还可以包括更多的组件，本申请实施例对此不作具体限定。

下面结合附图对本申请实施例提供的方案进行详细说明。

参见图3所示为一种可能的虚拟表情的生成方法流程示意图。虚拟表情的生成方法可以由电子设备执行，或者由电子设备包括的处理器执行。

301，获取待播放音乐数据，待播放音乐数据包括多个音频帧。待播放的音乐数据可以是电子设备通过通信接口从其它电子设备获取到的。通信接口可以是硬件接口，比如通用串行总线(universal serial bus，USB)接口等。USB接口是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。通信接口也可以无线通信接口，比如天线、蓝牙等。待播放的音乐数据也可以是通过麦克风进行录制得到的。

302，对音乐数据包括的每个音频帧进行特征提取获得多个音频帧分别对应的音频特征。其中，音频特征包括音素特征。

音素特征是最小的语音单位。比如可以是汉语中声母、韵母等音节的组成单元。音素特征直接决定发声过程中的口型及其同步变化。例如参见图4所示的音频特征。作为一种举例，音素特征可以采用ASR模型获得。作为一种举例，音素特征可以被编码为0-1类别向量。例如，向量维度可以根据ASR模型所能识别的音素数量确定。

一些实施例中，音频特征还包括能量特征、长音特征。长音特征可以包括同音高持续时间和/或同音素持续时间。需要说明的是，音频特征中包括多种用于描述歌声信息的特征，音频特征也可以称为多元歌声特征，当然也可以采用其它的名称命名，本申请实施例对此不作具体限定。

可以理解的是，歌手演唱歌曲过程中，情绪爆发(此时表情比较丰富或者夸张)的时候，相对音频能量输出会增大。因此音频能量特征是决定虚拟人物表情变化的重要特征之一。示例性地，音频能量与虚拟人物表情的关系，随机选择了某一首歌曲，绘制出音频能量特征与闭眼、皱眉两个表情基向量系数的走势图，横轴表示帧号，纵轴表示归一化数值。参见图5所示，为能量特征与闭眼、皱眉表情基向量系数的走势图。通过计算可知，皱眉与能量的皮尔逊相关系数为0.16左右，而闭眼与能量的相关系数为0.04左右，能量特征与不同表情基向量系数的确定存在相关关系。

下面针对同音高持续时间和同音素持续时间进行解释说明。以多个音频帧中的某一音频帧为例。比如以第一音频帧为例，第一音频帧的同音高持续时间用于表征位于以第一音频帧的音高为基准的设定波动范围内音高的持续时长。第一音频帧的同音素持续时间用于表征第一音频帧的音素特征的持续时长。

作为一种举例，参见图6所示，以获取帧10的同音高持续时间为例。帧10的音高为800Hz(赫兹)。设定波动范围为(-50,50)。可以理解帧10的前后帧中，音高位于750-850之间的音频帧包括帧8、帧9、帧11。则帧10的同音高持续时间为帧8-帧11的持续时长，或者说4个音频帧。再比如，帧9的音高为820，帧9前后音高位于770-880之间的音频帧包括帧8、帧9、帧10、帧11、帧12，则帧9的同音高持续时间为帧8-帧12的持续时长，或者说5个音频帧。

作为另一种举例，参见图6所示，以帧10的同音素持续时间为例，帧10-帧12均为音素“o”特征，因此帧10的同音素持续时间为帧10-帧12的持续时长，即3个音频帧。

需要说明的是，歌曲在高潮部分，演唱者往往通过拖长音将情绪与表情调动到最高点。因此同音高持续时间和同音素持续时长也是决定人物表情的重要线索。因此，本申请实施例中通过在音素特征的基础上增加能量特征、长音特征来丰富所驱动的虚拟人物的表情。

在一些实施例中，音频特征中还可以包括音高特征、歌手特征或者歌曲特征中的一项或多项。

可以理解的是，一首歌曲一般由主歌与副歌组成。主歌部分往往情绪变化平缓、音高较低、表情相对平静。而副歌部分则相对主歌更为激昂、音高较高、表情较为夸张，比如参见图7中所示的主歌表情(皱眉、闭眼)与副歌表情的对比。一些实施例中，可以通过音频算法获得基频特征用来表征音高特征。基于此，本申请一些实施例中通过结合音高特征来获取表情基向量基系数，使得通过表情基向量系数确定的表情更能根据歌曲的主歌和副歌的音高的不同而变化。

为了更好的验证音高特征与虚拟人物表情的关系，随机选择了某一首歌曲，绘制出音高特征与闭眼、皱眉两个表情基向量系数的走势图，横轴表示帧号，纵轴表示归一化数值。参见图8所示，为音高特征与闭眼、皱眉表情基向量系数的走势图。通过计算可知，皱眉与能量的皮尔逊相关系数为0.34左右，而闭眼与能量的相关系数为0.17左右，音高特征与不同表情基向量系数的确定存在相关关系。

需要说明的是，歌手在演唱歌曲时往往有自己独特的表演风格。除声音外，表演风格也会通过表情与肢体动作(手势)呈现，而表演风格(比如表情风格)又与歌手本身的性别、年龄段等属性有关。基于此，本申请的一些实施例中还可以结合歌手特征来获取表情基向量系数，使得通过表情基向量系数确定的表情更能根据歌手的不同而变化。

作为一种举例，歌手特征可以包括性别特征、年龄特征或者歌手标识中的一项或者多项。针对性别特征来说，一般男女歌手在歌唱同一首歌时有不同的表情风格。因此性别特征对虚拟人物表情的生成有影响。示例性地，可以通过类别向量的方式来编码歌手特征，比如男歌手特征为(1,0)，女歌手为(0,1)。

针对年龄特征来说，一般不同年龄段的歌手因为不同的时代背景，在演唱时会呈现出不同的表情风格，因此年龄特征对虚拟人物表情的生成有影响。示例性地，可以通过划分年龄段的方式来编码年龄特征。比如10年作为一个年龄段，通过歌手所属的年龄段进行类别向量编码。举例来说，30-40岁这一年龄段的年龄特征为(0,0,1,0)。其中年龄特征编码后的向量维度可以根据划分的年龄段的数量来确定。

一些实施例中，还可以增加歌手标识，不同的歌手命名采用不同的ID。作为一种举例，可以使用类别向量的方式编码歌手ID，不同的歌手对应不同的ID，针对不同的歌手编码不同的类别。比如，针对A、B、C三位歌手，则三位歌手的歌手标识特征可以分别编码为(1,0,0)、(0,1,0)、(0,0,1)。

如下针对歌曲特征进行描述。歌手在演唱不同风格的歌曲时往往呈现出不同的表情风格。例如，在演唱抒情歌曲时，表情柔和、变化平缓；在演唱快节奏歌曲时，表情节奏感强、变化明快。基于此，本申请实施例中通过歌曲特征来描述歌曲的风格。歌曲特征可以包括歌曲主题特征、歌曲情绪特征、歌曲音高分布特征、节奏特征中的一项或者多项。一些实施例中，歌曲主题特征和歌曲情绪特征也可以称为歌词语义特征。歌曲音高分布特征、节奏特征也可以称为歌曲全局音频特征。

歌曲主题特征是指歌曲表达的主题，包括校园歌曲、钢琴曲、儿童等等。歌曲情绪主题是指歌曲所表达的情感，比如浪漫、快乐、伤感等等。一些实施例中，电子设备在提取歌词语义特征时，可以采用自然语言处理算法从歌曲对应的歌词中获取歌曲主题特征和歌曲情绪特征。

歌曲音高分布特征是指整首歌曲的音高分布。比如可以通过统计每一帧音高特征，然后通过直方图统计方式获得整首歌曲的音高分布。节奏特征是指歌曲所采用的风格，比如布鲁斯、舞曲、说唱、爵士、拉丁等等。

303，根据所述多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数。

一些实施例中，可以根据多个音频帧分别对应的音频特征通过AI网络获取多个音频帧分别对应的表情基向量系数。比如AI网络可以是生成器网络、流模型等等。以生成器网络为例，生成器网络的网络参数是根据多个样本音乐数据对初始配置的生成对抗网络进行训练得到的，不同样本音乐数据对应不同的歌唱者的一首或几首歌曲。

在一些场景中，在根据多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数之前，或者说将多个音频帧分别对应的音频特征输入到AI网络之前，可以先对多个音频帧进行预处理，比如归一化处理等。

在一种可能的实施方式中，音频特征在输入到AI网络后，AI网络可以对音频特征中的各个特征分别进行编码，然后在对编码后的各个特征进行拼接，然后再根据拼接后的特征向量进行推理输出网络中间层特征，然后可以对网络中间层特征进行解码得到表情基向量系数。在另一种可能的实施方式中，电子设备可以在将音频特征输入到AI网络之前，先对音频特征中的各个特征分别进行编码，然后对编码后的各个特征进行拼接，然后再将拼接后的特征向量输入到AI网络。进一步地，AI网络根据输入的特征向量进行推理输出表情基向量系数，电子设备可以对AI网络输出的表情基向量系数进行解码得到表情基系统能够识别的表情基向量系数。在该实施方式中，无需AI网络具备编码功能。

304，通过表情基系统根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。比如可以通过面部变形(Blend shape)方式来获取每个音频帧对应的三维虚拟人物的人脸网格。

一些实施例中，可以将获取的每个音频帧对应的表情基向量系数输入到动画处理系统，动画处理系统通过Blend shape方式得到三维人脸网格，然后进一步通过三维人物的纹理、法线和材质等贴图来获得三维虚拟人物的面部动画。

在一种可能的实施方式中，在获取某个音频帧对应的表情基向量系数时，可以通过时间窗口的方式结合该音频帧的前后音频帧的特征来获取该音频帧的表情基向量系数。前后音频帧的特征的可以进一步反应过去和未来时间内的特征变化。一些实施例中，可以通过生成器网络对多个音频帧分别对应的音频特征进行滑动分窗操作。以第一音频帧对应的第一时间窗口为例，基于第一时间窗口包括的多个音频帧的特征来生成该第一音频帧的表情基向量系数。需要说明的是，第一时间窗口内包括第一音频帧在内的连续N个音频帧。第一音频帧可以是第一时间窗口内的第i个音频帧，比如i取值可以是1-N中的数值。一些实施例中，第一音频帧位于第一时间窗口包括的连续N个音频帧的第k个。N为奇数时，k等于(N+1)/2或者(N-1)/2；N为偶数时，k等于N/2。

在一种可能的实现方式中，本申请实施例还支持对音频帧的音频特征的调整。比如风格编辑，具体通过编辑调整歌手特征或者歌曲特征。比如用户可以根据喜好编辑歌手性别、年龄、歌曲主题、歌曲情绪、歌曲节奏等。比如针对某个男中年演唱的歌曲，用户可以根据需求将歌手性别由男变为女，将年龄特征由中年改变为青年，即将男中年演唱的歌曲，输出以年轻女性的风格演唱的表情动画。在对音频特征调整时，还可以进行音频编辑，比如可以改变音高、能量、同音高持续时间等等特征。

作为一种举例，电子设备可以为用户提供编辑界面。比如，电子设备可以通过显示编辑框的方式为用户提供编辑窗口，用于编辑歌手特征或者歌曲特征。再比如，电子设备可以通过下拉菜单的方式为用户提供歌手特征或者歌手特征的选项，当然还可以提供其它的方式来实现。作为另一种举例，电子设备中可以内置有音乐编辑软件，用于提供音频编辑，比如可以改变音高、能量、同音高持续时间等等特征。一些实施例中，电子设备提供编辑窗口用来编辑歌手特征、歌曲特征以及提供音频编辑。需要说明的是，同一音乐数据的不同音频帧可以对应的歌手特征或者歌曲特征相同，当然也可以对应不同的歌手特征或者歌曲特征，用户可以需求进行编辑。

示例性地，以针对第一音频帧的音频特征调整为例。用户可以通过编辑窗口来编辑音频特征，比如针对第一音频帧的音频特征进行编辑，从而触发调整指令，从而电子设备响应于用户的编辑操作，即接收调整指令，从而根据调整指令对多个音频帧分别对应的音频特征中第一音频帧的音频特征进行调整；然后根据调整后的多个音频帧分别对应的音频特征通过生成器网络获得多个音频帧分别对应的表情基向量系数。进一步地，通过表情基系统根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。

本申请实施例中通过提供可编辑方式，使得用户可以根据需求调整三维虚拟人物的表情，提高用户体验。

在一些实施例中，本申请实施例中的AI网络可以使用生成器网络。生成器网络可以是基于生成对抗网络(generative adversarial networks，GAN)进行训练得到的。生成对抗网络包括由一个或者多个生成器构成的生成器网络和一个或者多个判别器构成的判别器网络。通过样本音乐数据对生成对抗网络进行训练得到本申请中所使用的生成器网络。示例性地，生成对抗网络可以采用基础的GAN，也可以是改进的GAN、分类GAN，或者三元GAN等等，本申请实施例对此不作具体限定。需要说明的是，一般情况下，生成器网络的训练装置与使用生成器网络对待播放的音乐数据进行处理获得表情基向量系数的装置不同。生成器网络的训练装置可以是电子设备，电子设备可以是服务器、移动或者静止计算设备等等，比如笔记本电脑、个人计算机等等。

作为一种举例，可以将若干不同性别、年龄的歌手演唱歌曲的音乐数据作为样本数据。可以根据歌手演唱歌曲的视频数据来确定每个样本音乐数据的每一音频帧的真实表情基向量系数。真实表情基向量系数在本申请中也可以称为目标表情基向量系数。比如，可以通过邀请若干不同性别、年龄的歌手演唱歌曲，并在记录音乐数据的同时，通过一个或者多个摄像头来记录表情。摄像头可以包括深度摄像头和/或普通红绿蓝(red green blue，RGB)摄像头。一种方式中，可以基于视频数据使用非刚性迭代最近点算法(iterativeclosest points，ICP)算法获得每一帧的人脸表情基向量系数作为训练的目标表情基向量系数。另一种方式中，还可以根据歌手的二维MTV视频进行三维人脸重建的方法来获得样本音乐数据的每一音频帧的真实表情基向量系数。本申请实施例对三维人脸重建所采用的具体算法不作具体限定。

进一步地，在使用样本音乐数据训练生成器网络时，通过迭代调整生成器网络的网络参数，例如可以根据输入的样本音乐数据产生的损失函数值来迭代调整生成器网络的网络参数。损失函数值可以根据第一损失值和第二损失值来确定。第一损失值用于表征生成器网络在输入多个样本音乐数据包括的任一样本音频帧的音频特征时输出的生成表情基向量系数与目标表情基向量系数的差异；目标表情基向量系数是根据样本音乐数据对应的视频数据确定的；第二损失值用于表征判别器网络对生成器网络输入的生成表情基向量系数与目标表情基向量系数的相似度。

如下结合图9对生成器网络的训练方法流程进行详细说明。样本音乐数据输入到电子设备，样本音乐数据可以包括歌曲音频、歌曲相关信息以及歌曲音频中每一音频帧对应的目标表情基向量系数。电子设备对样本音乐数据进行特征提取获取样本音乐数据包括的每个音频帧的音频特征。具体特征提取方式可以参见步骤302的相关描述，此处不再赘述。电子设备利用每个音频帧的音频特征和真实表情向量基系数来对GAN进行训练。第i个音频帧的音频特征输入到待训练的生成器网络后，生成器网络根据第i个音频帧的音频特征进行推理得到该第i个音频帧的表情基向量系数。生成器网络根据推理得到的表情基向量系数与第i个音频帧的真实表情基向量系数的差异(比如称为第一损失值)对生成器网络进行更新。生成器网络将推理得到的表情基向量系数输出给判别器网络，判别器网络根据第i个音频帧的真实表情基向量系数与生成器网络输入的表情基向量系数进行比较，确定生成器网络输入的表情基向量系数是否是真实的表情基向量系数。判别器网络本质上类似于一个二分类器，在接收到生成器网络传输的推理得到的表情基向量系数，对接收到的表情基向量系数进行判别，判别该接收到的表情基向量系数是真实表情基向量系数还是生成器网络推理得到的表情基向量系数，从而得出是真实表情基向量系数的概率值，也可以理解为所述生成器网络输入的生成表情基向量系数与所述目标表情基向量系数的相似度。而每次计算得到概率值后，GAN可以根据该概率值(作为第二损失值)和第一损失值来计算生成器网络对应的损失函数(lossfunction)值，进而根据损失函数值调整生成器网络的网络参数。进一步根据第二损失值调整判别器网络的网络参数。

在一些可能的实施例中，考虑到音频特征与表情基向量系数的多模态分布，本申请实施例中可以先每一维表情基向量系数量化为多类，每一类的系数值是一个范围，不同类对应的范围之间不存在重叠。因此生成器网络的输出可以是每个表情基向量对应的每一类别的概率，每个表情基向量对应的所有类别的概率的和为1，概率最大的类别就是目标所属的分类。示例性地，计算第一损失值的损失函数可以采用交叉熵。

需要说明的是，本申请实施例中的损失函数也可以采用其它的损失函数，本申请实施例对此不作具体限定。

一些实施例中，在更新判别器网络的网络参数和生成器网络的网络参数时，可以采用交替迭代的更新策略，比如先固定生成器网络，更新判别器网络的网络参数，下一次再固定判别器网络，更新生成器网络的网络参数。比如，根据k1个时间窗口得到的k1个第二损失值用于更新判别器网络，然后再根据k2个时间窗口得到的k2个损失函数值来更新生成器网络的网络参数。示例性地，k1和k2可以相同，也可以不相同，本申请实施例对此不作具体限定。作为一种举例，k1取值范围可以为16-256，k2的取值范围可以为16-256。

另一些实施例中，在更新判别器网络的网络参数和生成器网络的网络参数时，根据k1个时间窗口得到的k1个第二损失值更新判别器网络，然后根据k1个时间窗口得到的k1个损失函数值来更新生成器网络的网络参数。

在更新判别器网络和生成器网络的网络参数后，生成器网络的“伪造”能力和判别器网络的“鉴伪”能力可以进一步提高。GAN通过多次地循环进行“生成-判别-更新”过程，最终使得判别器网络可以准确地判别一个接收到的表情基向量系数是否为真实表情基向量系数，并且生成器网络利用音频帧的音频特征推理的表情基向量系数逼近真实表情基向量系数。此时判别器网络无法判断生成器网络传递的表情基向量系数是真是假，也即最终实现生成器网络和判别器网络之间的均衡，GAN训练完成。

需要说明的是，在完成GAN的训练后，后续在使用过程中仅使用GAN中的生成器网络，判别器网络不再参与。后续使用过程中，也不会再计算第一损失值和第二损失值。在GAN训练完成后，生成器网络的网络参数已经完成更新，后续使用的生成器网络的网络参数是GAN训练完成时生成器网络的网络参数，并且使用过程中，一般情况下，生成器网络的网络参数不再更新，除非重新训练生成器网络的网络参数。

可以理解的是，为了实现上述方法实施例中功能，电子设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

作为一种举例，参见图10所示，生成器网络的训练装置可以包括特征提取模块1010、生成器训练模块1020、判别器训练模块1030。例如，生成器训练模块1020可以包括生成器网络1021和第一参数更新模块1022。判别器训练模块可以包括判别器网络1031和第二参数更新模块1032。

样本音乐数据输入到生成器网络的训练装置的特征提取模块1010。样本音乐数据可以包括歌曲音频、歌曲相关信息以及歌曲音频中每一音频帧对应的目标表情基向量系数(即真实表情基向量系数)。特征提取模块1010对样本音乐数据进行特征提取获取样本音乐数据包括的每个音频帧的音频特征。具体特征提取方式可以参见步骤302的相关描述，第i个音频帧的音频特征输入到待训练的生成器网络1021后，生成器网络1021根据第i个音频帧的音频特征进行推理得到该第i个音频帧的表情基向量系数。为了便于区分，将生成器网络1021推理输出的表情基向量系数称为生成表情基向量系数。第一参数更新模块1022确定生成器网络1021推理得到的生成表情基向量系数与第i个音频帧的真实表情基向量系数的差异(比如称为第一损失值)。生成器网络1021将推理得到的表情基向量系数输出给判别器网络1031，判别器网络1031根据第i个音频帧的真实表情基向量系数与生成器网络1021输入的表情基向量系数进行比较，确定生成器网络1021输入的表情基向量系数是否是真实的表情基向量系数。判别器网络1031本质上类似于一个二分类器，在接收到生成器网络1021传输的推理得到的生成表情基向量系数，对接收到的表情基向量系数进行判别，判别该接收到的表情基向量系数是真实表情基向量系数还是生成器网络1021推理得到的表情基向量系数，从而得出是真实表情基向量系数的概率值。判别器网络1031每次计算得到概率值，将计算得到的概率发送给第一参数更新模块1022，第一参数更新模块1022可以根据第一损失值和第二损失值来计算生成器网络1021对应的损失函数(lossfunction)值，进而根据损失函数值调整生成器网络1021的网络参数。第二参数更新模块1032根据第二损失值调整判别器网络1031的网络参数。

基于与上述方法同样的发明构思，如图11A和图11B所示，本申请实施例还提供一种虚拟表情的生成装置1100。虚拟表情的生成装置1100应用于电子设备中，比如应用于图2所示的电子设备100中，装置1100可以用于实现上述方法实施例中电子设备的功能，因此可以实现上述方法实施例所具备的有益效果。例如，虚拟表情的生成装置1100可以包括特征提取模块1101和生成器网络1102。

特征提取模块1101对待播放音乐数据包括的每个音频帧进行特征提取获得多个音频帧分别对应的音频特征，所述音频特征包括音素特征，所述音频特征还包括能量特征、同音高持续时间、同音素持续时间中的一项或者多项。

生成器网络1102根据所述多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数。

虚拟表情的生成装置1100还包括表情基系统1103。

表情基系统1103根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。

一些实施例中，虚拟表情的生成装置1100还包括动画系统，动画系统通过表情基系统1103根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。然后进一步通过三维人物的纹理、法线和材质等贴图来获得三维虚拟人物的面部动画。

在一种可能的实现方式中，参见图11B所示，虚拟表情的生成装置1100还可以包括特征编辑模块1104。

特征编辑模块1103接收调整指令，调整指令用于对第一音频帧的音频特征进行调整。然后根据所述调整指令对所述多个音频帧分别对应的音频特征中所述第一音频帧的音频特征进行调整。进一步地，生成器网络1102根据调整后的所述多个音频帧分别对应的音频特征通过生成器获得所述多个音频帧分别对应的表情基向量系数。

一种可能的实现方式中，在获取某个音频帧对应的表情基向量系数时，可以通过时间窗口的方式结合该音频帧的前后音频帧的特征来获取该音频帧的表情基向量系数。一些实施例中，生成器网络具有滑动分窗操作的功能，通过生成器网络对多个音频帧分别对应的音频特征进行滑动分窗。以第一音频帧对应的第一时间窗口为例，生成器网络1102基于第一时间窗口包括的多个音频帧的特征来生成该第一音频帧的表情基向量系数。需要说明的是，第一时间窗口内包括第一音频帧在内的连续N个音频帧。第一音频帧可以是第一时间窗口内的第i个音频帧，比如i取值可以是1-N中的数值。一些实施例中，第一音频帧位于第一时间窗口包括的连续N个音频帧的第k个。N为奇数时，k等于(N+1)/2或者(N-1)/2；N为偶数时，k等于N/2。

一种可能的实现方式中，生成器网络1102可以包括音频特征中的各个特征的编码器。例如，参见图12所示。各个编码器对音频特征中的各个特征分别进行编码，然后生成器网络1102对编码后的各个特征进行拼接，然后再根据拼接后的特征向量进行推理得到表情基向量系数。一些实施例中，生成器网络1102还可以包括解码器，用于对根据拼接后的特征向量进行推理输出的网络中间层特征进行解码得到表情基向量系数。在该实现方式下，生成器网络1102可以执行对经过编码后的音频特征执行分窗操作，然后根据时间窗口包括的编码后的音频特征来进行处理输出表情基向量系数。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。在本申请的文字描述中，字符“/”，一般表示前后关联对象是一种“或”的关系。在本申请的公式中，字符“/”，表示前后关联对象是一种“相除”的关系。另外，在本申请中，“示例性地”一词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。或者可理解为，使用示例的一词旨在以具体方式呈现概念，并不对本申请构成限定。

可以理解的是，在本申请中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。术语“第一”、“第二”等类似表述，是用于分区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请的一个实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行图3对应的方法实施例中的方法步骤的指令。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种虚拟表情的生成方法，其特征在于，包括：

获取待播放音乐数据，所述待播放音乐数据包括多个音频帧；

对所述音乐数据包括的每个音频帧进行特征提取获得多个音频帧分别对应的音频特征，所述音频特征包括音素特征，所述音频特征还包括能量特征、同音高持续时间、同音素持续时间中的一项或者多项；

其中，第一音频帧的同音高持续时间用于表征位于以第一音频帧的音高为基准的设定波动范围内音高的持续时长；所述第一音频帧为多个音频帧中的任一个；

第一音频帧的同音素持续时间用于表征第一音频帧的音素特征的持续时长；

根据所述多个音频帧分别对应的音频特征通过生成器网络获得所述多个音频帧分别对应的表情基向量系数；

其中，所述生成器网络的网络参数是根据多个样本音乐数据对初始配置的生成对抗网络进行训练得到的，不同样本音乐数据对应不同的歌唱者的一首或几首歌曲；

通过表情基系统根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。

2.如权利要求1所述的方法，其特征在于，所述音频特征还包括音高特征、歌手特征或歌曲特征中的一项或者多项；

其中，所述歌手特征包括性别特征、年龄特征和歌手标识中的一项或者多项；

所述歌曲特征包括歌曲主题特征、歌曲情绪特征、歌曲音高分布特征中的一项或者多项。

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

接收调整指令，所述调整指令用于对第一音频帧的音频特征进行调整；

根据所述多个音频帧分别对应的音频特征通过生成器获得所述多个音频帧分别对应的表情基向量系数，包括：

根据所述调整指令对所述多个音频帧分别对应的音频特征中所述第一音频帧的音频特征进行调整；

根据调整后的所述多个音频帧分别对应的音频特征通过生成器获得所述多个音频帧分别对应的表情基向量系数。

4.如权利要求1-3任一项所述的方法，其特征在于，所述根据所述多个音频帧分别对应的音频特征通过生成器网络获得所述多个音频帧分别对应的表情基向量系数，包括：

根据第一时间窗口包括的音频帧的音频特征通过所述生成器网络获得第一音频帧对应的表情基向量系数，所述第一音频帧为所述待播放音乐数据包括多个音频帧中的一个；

所述第一时间窗口包括所述第一音频帧在内的连续N个音频帧，N为正整数。

5.如权利要求4所述的方法，其特征在于，所述第一音频帧位于所述连续N个音频帧的第k个；

N为奇数时，k等于(N+1)/2或者(N-1)/2；N为偶数时，k等于N/2。

6.如权利要求1-5任一项所述的方法，其特征在于，所述生成对抗网络包括待训练的生成器网络和判别器网络；

所述生成器网络的网络参数是根据第一损失值和第二损失值进行调整得到的；

所述第一损失值用于表征所述生成器网络在输入多个样本音乐数据包括的任一样本音频帧的音频特征时输出的生成表情基向量系数与目标表情基向量系数的差异；所述目标表情基向量系数是根据所述样本音乐数据对应的视频数据确定的；

所述第二损失值用于表征所述判别器网络对所述生成器网络输入的生成表情基向量系数与所述目标表情基向量系数的相似度。

7.如权利要求6所述的方法，其特征在于，所述判别器网络的网络参数是根据所述第二损失值进行调整得到。

8.如权利要6或7所述的方法，其特征在于，第一样本音乐数据与第二样本音乐数据的歌唱者的年龄或者性别不同，所述第一样本音乐数据与所述第二样本音乐数据是所述多个样本音乐数据中的任两个样本音乐数据。

9.一种虚拟表情的生成装置，其特征在于，包括：

特征提取单元，用于待播放音乐数据包括的多个音频帧分别进行特征提取获得多个音频帧分别对应的音频特征，所述音频特征包括音素特征，所述音频特征还包括能量特征、同音高持续时间、同音素持续时间中的一项或者多项；其中，第一音频帧的同音高持续时间用于表征位于以第一音频帧的音高为基准的设定波动范围内音高的持续时长；所述第一音频帧为多个音频帧中的任一个；第一音频帧的同音素持续时间用于表征第一音频帧的音素特征的持续时长；

生成器网络，用于根据所述多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数；其中，所述生成器网络的网络参数是根据多个样本音乐数据对初始配置的生成对抗网络进行训练得到的，不同样本音乐数据对应不同的歌唱者的一首或几首歌曲；

表情基系统，用于根据所述表情基向量系数生成所述多个音频帧分别对应的表情下的三维虚拟人物的人脸网格。

10.如权利要求9所述的装置，其特征在于，所述音频特征还包括音高特征、歌手特征或歌曲特征中的一项或者多项；

11.如权利要求9或10所述的装置，其特征在于，还包括：

特征编辑模块，用于接收调整指令，所述调整指令用于对第一音频帧的音频特征进行调整；根据所述调整指令对所述多个音频帧分别对应的音频特征中所述第一音频帧的音频特征进行调整；

所述生成器网络，具体用于根据调整后的所述多个音频帧分别对应的音频特征获得所述多个音频帧分别对应的表情基向量系数。

12.如权利要求9-11任一项所述的装置，其特征在于，所述生成器网络，具体用于：根据第一时间窗口包括的音频帧的音频特征获得第一音频帧对应的表情基向量系数，所述第一音频帧为所述待播放音乐数据包括多个音频帧中的一个；所述第一时间窗口包括所述第一音频帧在内的连续N个音频帧，N为正整数。

13.如权利要求12所述的装置，其特征在于，所述第一音频帧位于所述连续N个音频帧的第k个；N为奇数时，k等于(N+1)/2或者(N-1)/2；N为偶数时，k等于N/2。

14.如权利要求9-13任一项所述的装置，其特征在于，所述生成对抗网络包括待训练的生成器网络和判别器网络；

15.如权利要求14所述的装置，其特征在于，所述判别器网络的网络参数是根据所述第二损失值进行调整得到。

16.如权利要求14或15所述的装置，其特征在于，第一样本音乐数据与第二样本音乐数据的歌唱者的年龄或者性别不同，所述第一样本音乐数据与所述第二样本音乐数据是所述多个样本音乐数据中的任两个样本音乐数据。

17.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序，实现如权利要求1-8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在虚拟表情的生成装置上运行时，使得所述虚拟表情的生成装置执行如上述权利要求1-8任一项所述的方法。