CN114242037A

CN114242037A - 一种虚拟人物生成方法及其装置

Info

Publication number: CN114242037A
Application number: CN202010936464.9A
Authority: CN
Inventors: 黄涛; 肖甫; 赵文斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-25

Abstract

本申请提供了一种虚拟人物生成方法，方法包括：获取目标文本；根据文本转语音TTS模型，对目标文本进行处理，以获取音频特征以及与目标文本对应的语音数据，其中，TTS模型用于将输入的文本转换为语音数据，音频特征为TTS模型的中间网络层得到的音频特征，音频特征相比语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；通过神经网络对音频特征进行处理，以获取虚拟人物的脸部特征，神经网络为预先训练得到的，神经网络用于将输入的音频特征转换为脸部特征；根据脸部特征，生成虚拟人物的图像帧集合，并根据图像帧集合和语音数据，生成包括虚拟人物的视频。本申请可以降低运算开销和模型的部署成本。

Description

一种虚拟人物生成方法及其装置

技术领域

本申请涉及电子技术领域，尤其涉及一种虚拟人物生成方法及其装置。

背景技术

随着人工智能和智能终端的发展，人机交互越来越多样化，在交互方式上，人们也不满足单维度的听觉上，将文字已视频方式播放，让体验更加饱满。当前已经出现了一些虚拟人物主播，用户可以在网页上输入一段文字，网页可以生成语音以及对应的虚拟人物表情及动作。

在现有的实现中，虚拟人物的声音及面部特征都基于文本建模，先通过文本转语音(text to speech，TTS)将文本转换为语音，再通过神经网路对语音进行处理来获取图片帧集合，两者融合生成虚拟人物的视频，然而这类方法虚拟人物的嘴型和语音往往不能完全对齐，导致效果不自然。

发明内容

第一方面，本申请提供了一种虚拟人物生成方法，所述方法包括：

获取目标文本；根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征；根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。

TTS模型在处理目标文本时得到的音频特征，相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种，也就是说音频特征包含的信息量和细节是更为丰富的。且相对于目标文本，逐帧的音频特征与图像帧天然对齐，相对于语音数据，这些音频特征表示包含了很多语音风格的高阶信息，这些信息也能传递到脸部特征合成中，达到声音与表情在时间帧以及情感风格表达等多维度在帧级别上的完全对齐。且由于将TTS模型处理目标文本过程中得到的音频特征作为脸部特征提取的依据，使得不需要对语音数据重新进行特征提取，降低了运算开销和模型的部署成本，利用音频特征同时驱动语音数据预测以及脸部特征预测。

在一种可能的实现中，所述目标文本用于供虚拟人物在N帧内演示，所述音频特征的数量为N，且N个音频特征中的每个音频特征对应于所述N帧中的一帧。

在一种可能的实现中，所述根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征，包括：获取所述目标文本的M个音素；

通过神经网络对所述M个音素进行处理，以获取M个特征向量；

根据所述M个特征向量，基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度；

根据所述关联度和所述M个特征向量，确定所述N帧中每帧的音频特征。

在一种可能的实现中，所述根据所述关联度和所述M个特征向量，确定所述N帧中每帧的音频特征，包括：

根据所述关联度，对所述M个特征向量进行加权求和，以确定所述N帧中每帧的音频特征。

在一种可能的实现中，目标音素为所述M个音素中的任意的一个音素，所述目标音素对应于所述M个特征向量中的目标特征向量，所述目标音素用于供虚拟人物在N帧中的多个帧内演示，且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。

在一种可能的实现中，第一目标帧为所述N帧中的任意一帧，所述根据所述M个特征向量，基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度，包括：

获取所述第一目标帧相邻的前一帧的语音数据；

对所述第一目标帧相邻的前一帧的语音数据进行解码，得到所述第一目标帧相邻的前一帧的解码状态；

基于注意力机制，根据所述第一目标帧相邻的前一帧的解码状态与所述M个特征向量中每个特征向量的近似度，确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度。

在一种可能的实现中，第二目标帧为所述N帧中的任意一帧，所述根据所述M个特征向量，所述根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征，包括：

获取所述第二目标帧相邻的前一帧的语音数据；

对所述第二目标帧相邻的前一帧的语音数据进行解码，得到所述第二目标帧相邻的前一帧的解码状态，所述第二目标帧相邻的前一帧的解码状态用于作为所述第二目标帧对应的音频特征。

在一种可能的实现中，所述获取目标文本，包括：

接收终端设备发送的目标文本。

在一种可能的实现中，所述获取目标文本，包括：

显示文本输入框以及文本输入指示，所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本；

获取用户在所述文本输入框输入的目标文本。

在一种可能的实现中，所述目标文本用于供虚拟人物在N帧内演示，所述视频包括N帧，所述N帧中的每一帧为所述图像帧集合中的一帧。

第二方面，本申请提供了一种虚拟人物生成装置，所述装置包括：

获取模块，用于获取目标文本；

文本转语音TTS模块，用于根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；

脸部特征生成模块，用于通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征；

虚拟人物生成模块，用于根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。

在一种可能的实现中，所述文本转语音TTS模块，用于：

获取所述目标文本的M个音素；

在一种可能的实现中，所述文本转语音TTS模块，用于：

在一种可能的实现中，第一目标帧为所述N帧中的任意一帧，所述文本转语音TTS模块，用于：

获取所述第一目标帧相邻的前一帧的语音数据；

在一种可能的实现中，第二目标帧为所述N帧中的任意一帧，所述文本转语音TTS模块，用于：

获取所述第二目标帧相邻的前一帧的语音数据；

在一种可能的实现中，所述获取模块，用于接收终端设备发送的目标文本。

在一种可能的实现中，所述获取模块，用于显示文本输入框以及文本输入指示，所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本；获取用户在所述文本输入框输入的目标文本。

第三方面，本申请提供了一种虚拟人物生成装置，包括处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现上述第一方面所述的方法。对于处理器执行第一方面的各个可能实现方式中的步骤，具体均可以参阅第一方面，此处不再赘述。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第五方面，本申请提供了一种电路系统，所述电路系统包括处理电路，所述处理电路配置为执行上述第一方面所述的方法。

第六方面，本申请提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第七方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持服务器或门限值获取装置实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存服务器或通信设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

本申请实施例提供了一种虚拟人物生成方法，所述方法包括：获取目标文本；根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征；根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。TTS模型在处理目标文本时得到的音频特征，相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种，也就是说音频特征包含的信息量和细节是更为丰富的。且相对于目标文本，逐帧的音频特征与图像帧天然对齐，相对于语音数据，这些音频特征表示包含了很多语音风格的高阶信息，这些信息也能传递到脸部特征合成中，达到声音与表情在时间帧以及情感风格表达等多维度在帧级别上的完全对齐。且由于将TTS模型处理目标文本过程中得到的音频特征作为脸部特征提取的依据，使得不需要对语音数据重新进行特征提取，降低了运算开销和模型的部署成本，利用音频特征同时驱动语音数据预测以及脸部特征预测。

附图说明

图1示出了通信系统的一个示例性的结构示意图；

图2示出了服务器的一个示例性的结构示意图；

图3示出了电子设备的一个示例性的结构示意图；

图4示出了电子设备的软件层的一个示例性的结构示意图；

图5为本申请实施例提供的一种虚拟人物生成方法的流程示意；

图6为本申请实施例提供的一种界面示意；

图7为本申请实施例提供的一种界面示意；

图8为本申请实施例提供的一种界面示意；

图9为本申请实施例提供的一种界面示意；

图10为本申请实施例提供的一种界面示意；

图11为本申请实施例提供的一种虚拟人物生成方法的流程示意；

图12为本申请实施例提供的一种虚拟人物生成方法的流程示意；

图13为本申请实施例提供的一种虚拟人物生成方法的流程示意；

图14为本申请实施例提供的一种虚拟人物生成方法的流程示意；

图15为本申请实施例提供的一种虚拟人物生成装置的示意；

图16为本申请实施例提供的一种电子设备的结构示意。

具体实施方式

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

图1示出了通信系统的一个示例性的结构示意图，如图1所示，该通信系统包括服务器200和电子设备100，可选地，该通信系统可以包括一个或多个服务器并且每个服务器的覆盖范围内可以包括一个或多个电子设备，本申请对此不做限定。可选地，该通信系统还可以包括网络控制器、交换设备等其他网络实体，本申请不限于此。图1中的双向箭头表示服务器与电子设备存在通信连接，即服务器和电子设备之间可以通过通信网络实现数据传输。

需要说明的是，上述通信网络可以是局域网，也可以是通过中继(relay)设备转接的广域网，或者包括局域网和广域网。当该通信网络为局域网时，示例性的，该通信网络可以是wifi热点网络、wifi P2P网络、蓝牙网络、zigbee网络或近场通信(near fieldcommunication，NFC)网络等近距离通信网络。当该通信网络为广域网时，示例性的，该通信网络可以是第三代移动通信技术(3rd-generation wireless telephone technology，3G)网络、第四代移动通信技术(the 4th generation mobile communication technology，4G)网络、第五代移动通信技术(5th-generation mobile communication technology，5G)网络、未来演进的公共陆地移动网络(public land mobile network，PLMN)或因特网等，本申请对此不作限定。

其中，在一种实现中，电子设备可以获取到用户输入供虚拟人物演示的目标文本，电子设备可以将目标文本发送至服务器侧，服务器可以根据目标文本生成包括虚拟人物的视频，在视频中虚拟人物可以发出目标文本相应的语音，以及做出与发出语音相对应的口型、动作以及面部表情等等，服务器可以将视频发送至电子设备。

其中，在另一种实现中，电子设备可以获取到用户输入供虚拟人物演示的目标文本，并根据目标文本生成包括虚拟人物的视频，在视频中虚拟人物可以发出目标文本相应的语音，以及做出与发出语音相对应的口型、动作以及面部表情等等。

应理解，图1中仅为便于理解，示意性地示出了一个通信系统，但这不应对本申请构成任何限定，该通信系统中还可以包括更多数量的服务器，也可以包括更多数量的电子设备，与不同的电子设备通信的服务器可以是相同的服务器，也可以是不同的服务器，与不同的电子设备通信的服务器的数量可以相同，也可以不同，本申请对此不做限定。还应理解，该通信系统中的服务器可以是任意一种具有收发功能的设备或可设置于该设备的芯片。图2示出了服务器200的一个示例性的结构示意图，服务器200的结构可以参考图2所示的结构。

服务器包括至少一个处理器201、至少一个存储器202和至少一个网络接口203。处理器201、存储器202和网络接口203相连，例如通过总线相连，在本申请中，所述连接可包括各类接口、传输线或总线等，本实施例对此不做限定。网络接口203用于使得服务器通过通信链路，与其它通信设备相连，例如以太网接口。

处理器201主要用于对通信数据进行处理，以及对整个服务器进行控制，执行软件程序，处理软件程序的数据，例如用于支持服务器执行实施例中所描述的动作。处理器201主要用于对整个服务器进行控制，执行软件程序，处理软件程序的数据。本领域技术人员可以理解，服务器可以包括多个处理器以增强其处理能力，服务器的各个部件可以通过各种总线连接。处理器201也可以表述为处理电路或者处理器芯片。

存储器202主要用于存储软件程序和数据。存储器202可以是独立存在，与处理器201相连。可选的，存储器202可以和处理器201集成在一起，例如集成在一个芯片之内。其中，存储器202能够存储执行本申请的技术方案的程序代码，并由处理器201来控制执行，被执行的各类计算机程序代码也可被视为是处理器201的驱动程序。

图2仅示出了一个存储器和一个处理器。在实际的服务器中，可以存在多个处理器和多个存储器。存储器也可以称为存储介质或者存储设备等。存储器可以为与处理器处于同一芯片上的存储元件，即片内存储元件，或者为独立的存储元件，本申请对此不做限定。

还应理解，该通信系统中的电子设备又可称之为用户设备(user equipment，UE)，可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上(如轮船等)；还可以部署在空中(例如飞机、气球和卫星上等)。电子设备可以是手机(mobile phone)、平板电脑(pad)、具备无线通讯功能的可穿戴设备(如智能手表)、具有定位功能的位置追踪器、带无线收发功能的电脑、虚拟现实(virtual reality，VR)设备、增强现实(augmentedreality，AR)设备、智慧家庭(smart home)中的无线设备等，本申请对此不作限定。本申请中将前述电子设备及可设置于前述电子设备的芯片统称为电子设备。

本申请中的电子设备可以包括但不限于：智能移动电话、电视、平板电脑、手环、头戴显示设备(Head Mount Display，HMD)、增强现实(augmented reality，AR)设备，混合现实(mixed reality，MR)设备、蜂窝电话(cellular phone)、智能电话(smart phone)、个人数字助理(personal digital assistant，PDA)、平板型电脑、车载电子设备、膝上型电脑(laptop computer)、个人电脑(personal computer，PC)、监控设备、机器人、车载终端、自动驾驶车辆等。当然，在以下实施例中，对该电子设备的具体形式不作任何限制。

示例性地，参阅图3，下面以一个具体的结构为例，对本申请提供的电子设备的结构进行示例性说明。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M，运动传感器180N等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括但不限于：第五代移动通信技术(5th-Generation，5G)系统，全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multipleaccess，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(longterm evolution，LTE)，蓝牙(bluetooth)，全球导航卫星系统(the global navigationsatellite system，GNSS)，无线保真(wireless fidelity，WiFi)，近距离无线通信(nearfield communication，NFC)，FM(也可以称为调频广播)，紫蜂协议(Zigbee)，射频识别技术(radio frequency identification，RFID)和/或红外(infrared，IR)技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)等。

在一些实施方式中，电子设备100也可以包括有线通信模块(图1中未示出)，或者，此处的移动通信模块150或者无线通信模块160可以替换为有线通信模块(图1中未示出)，该有线通信模块可以使电子设备通过有线网络与其他设备进行通信。该有线网络可以包括但不限于以下一项或者多项：光传送网(optical transport network，OTN)、同步数字体系(synchronous digital hierarchy，SDH)、无源光网络(passive optical network，PON)、以太网(Ethernet)、或灵活以太网(flex Ethernet，FlexE)等。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB摄像头，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

运动传感器180N，可以用于对摄像头拍摄的范围内的运动物体进行检测，采集运动物体的运动轮廓或者运动轨迹等。例如，该运动传感器180N可以是红外传感器、激光传感器、动态视觉传感器(dynamic vision sensor，DVS)等，该DVS具体可以包括DAVIS(Dynamicand Active-pixel Vision Sensor)、ATIS(Asynchronous Time-based Image Sensor)或者CeleX传感器等传感器。DVS借鉴了生物视觉的特性，每个像素模拟一个神经元，独立地对光照强度(以下简称“光强”)的相对变化做出响应。当光强的相对变化超过阈值时，像素会输出一个事件信号，包括像素的位置、时间戳以及光强的特征信息。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100从逻辑上可划分为硬件层、操作系统，以及应用程序层。硬件层包括如上所述的应用处理器、MCU、存储器、modem、Wi-Fi模块、传感器、定位模块等硬件资源。本申请对电子设备100搭载的操作系统类型不作任何限制。

操作系统和应用程序层可以统称为电子设备100的软件层，图4示出了电子设备100的软件层的一个示例性的结构示意图。如图4所示，以操作系统为Android为例，操作系统作为硬件层和应用程序层之间的软件中间件，是管理和控制硬件与软件资源的计算机程序。

应用程序层包括一个或多个应用程序，应用程序可以为社交类应用、电子商务类应用、浏览器等任意类型的应用程序。例如，桌面启动器、设置、日历、相机、照片、通话和短信等等。

Android操作系统包括内核层、安卓运行时和系统库以及应用程序框架层。其中，内核层用于提供底层系统组件和服务，例如：电源管理、内存管理、线程管理、硬件驱动程序等；硬件驱动程序包括显示驱动、摄像头驱动、音频驱动和触控驱动等。内核层对内核驱动程序的封装，向应用程序框架层提供接口，屏蔽低层的实现细节。

安卓运行时和系统库为可执行程序在运行时提供所需要的库文件和执行环境。能够把应用程序的字节码转换为机器码的虚拟机或虚拟机实例。系统库是为可执行程序在运行时提供支持的程序库，包括二维图像引擎、三维图形引擎、媒体库、表面管理器、状态监测服务等。

应用程序框架层用于为应用程序层中的应用程序提供各种基础的公共组件和服务，包括窗口管理器、活动管理器、包管理器、资源管理器、显示策略服务等等。

以上描述的操作系统的各个组件的功能均可以由应用处理器执行存储器中存储的程序来实现。

所属领域的技术人员可以理解电子设备100可包括比图3所示的更少或更多的部件，图3所示的该电子设备仅包括与本申请所公开的多个实现方式更加相关的部件。

参照图5，图5为本申请实施例提供的一种虚拟人物生成方法的流程示意，如图5所示，本申请实施例提供的虚拟人物生成方法包括：

501、获取目标文本。

步骤501的执行主体可以为电子设备，具体的，用户可以在电子设备上输入供虚拟人物演示的目标文本，相应的，电子设备可以获取到目标文本。

步骤501的执行主体可以为服务器，具体的，用户可以在电子设备上输入供虚拟人物演示的目标文本，电子设备可以将目标文本发送至服务器，相应的，服务器可以获取到目标文本。

本申请实施例中，电子设备可以显示文本输入框以及文本输入指示，所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本，获取用户在所述文本输入框输入的目标文本。

在一种场景中，电子设备上可以安装有可以根据目标文本生成包括虚拟人物的视频的应用程序，用户可以打开相关的应用程序，在应用程序中输入供虚拟人物演示的目标文本，进而电子设备可以根据目标文本生成包括虚拟人物的视频，或者将目标文本发送至服务器，由服务器根据目标文本生成包括虚拟人物的视频。

以电子设备为手机为例，具体的，可以参照图6，手机上可以安装有可以根据目标文本生成包括虚拟人物的视频的应用程序，例如图6所示的虚拟人物应用程序(application，APP)，用户可以打开虚拟人物APP，响应于用户的点击操作，手机可以显示如图7所示的界面，其中，界面可以但不限于包括指示用户输入文本的提示、供用户输入目标文本的输入框、以及“确定”等相关控件，用户可以在输入框内输入工虚拟人物演示的目标文本(例如图7中用户输入的目标文本为“我是谁”)，之后用户可以点击“确定”控件，进而手机可以根据目标文本生成并显示包括虚拟人物的视频，或者将目标文本发送至服务器，由服务器根据目标文本生成包括虚拟人物的视频，手机可以接收到服务器发送的包括虚拟人物的视频，并进行视频的显示。示例性的，可以参照图8，手机可以显示包括虚拟人物的视频，其中虚拟人物可以发出目标文本对应的语音，如图8所示，虚拟人物可以说出“我是谁”，同时，虚拟人物可以做出与该语音相对应的口型、面部表情等。

应理解，上述“与该语音相对应的口型等”可以理解为，人在正确清楚的说出某一语音时，需要做出的口型，“与该语音相对应的面部表情等”可以理解为，人在正确清楚的说出某一语音时，会做出与该语音所蕴含的情绪相应的表情，例如若语音蕴含了生气的情绪，则人可以在说出该语音时，同时表现出生气的面部表情(例如皱眉等等)。

在另一种场景中，开发者可以配置具有根据目标文本生成虚拟人物的功能的网页，用户可以在电子设备上打开网页，在网页中输入目标文本，之后网页可以基于目标文本生成包括虚拟人物的视频，供用户在网页上预览或者下载到电子设备上。

以电子设备为便携式电脑为例，具体的，可以参照图9，用户可以在便携式电脑上打开具有根据目标文本生成虚拟人物的功能的网页，例如图9所示的网页，该网页可以但不限于包括指示用户输入文本的提示、供用户输入目标文本的输入框、以及“确定”等相关控件，用户可以在输入框内输入工虚拟人物演示的目标文本(例如图9中用户输入的目标文本为“我是谁”)，之后用户可以点击“确定”控件，进而便携式电脑可以将目标文本发送至服务器，由服务器根据目标文本生成包括虚拟人物的视频，手机可以接收到服务器发送的包括虚拟人物的视频，并进行视频的显示或者指示用户对于食品进行后续操作的提示(预览或者下载)。示例性的，可以参照图10，网页可以显示指示用户对于食品进行后续操作的提示(预览或者下载)，用户可以点击“预览”控件，相应的，网页可以在页面上显示视频的预览，用户可以点击“下载”控件，相应的，便携式电脑可以将视频保存到本地。

在另一种场景中，用户可以在电子设备处发出声音，电子设备可以识别出用户声音所表达的目标文本，进而根据目标文本生成包括虚拟人物的视频，或者将目标文本发送至服务器，由服务器根据目标文本生成包括虚拟人物的视频。

502、根据文本转语音(text To speech，TTS)模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种。

步骤502的执行主体可以是电子设备或者是服务器。

在一种实现中，电子设备在获取到用户输入的目标文本后，可以根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及供虚拟人物演示的语音数据。

在一种实现中，电子设备在获取到用户输入的目标文本后，可以将目标文本发送至服务器，服务器可以根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及供虚拟人物演示的语音数据。

以步骤502的执行主体为服务器为例，本申请实施例中，服务器在获取到目标文本之后，可以首先对目标文本进行预处理，将目标文本处理为适配于TTS模型输入格式的序列，示例性的，服务器可以对目标文本进行文本归一化，将不规范的目标文本转为可发音格式，并进行分词处理，按词语为单位分割目标文本中的句子，来解决句子歧义性，并进行韵律分析，预测目标文本中各个句子的停顿节奏和/或重音等，并将目标文本的字转换为音素级别，以得到音素串，并将音素串转换为TTS模型需要的序列格式(后续实施例可以称之为ID序列)。

具体的，服务器可以获取目标文本的M个音素，并通过神经网络对所述M个音素进行处理，以获取M个特征向量，参照图11，服务器可以首先将目标文本转换为序列化的ID序列，ID序列中的每个标识可以对应于M个音素中的一个音素，再利用神经网络(例如图11中示出的卷积神经网络(convolutional neural networks，CNN)、循环神经网络(recurrentneural network，RNN)、transformer等网络结构或混合网络结构)，将ID序列编码为M个特征向量(或者称之为嵌入embedding向量)，其中，特征向量可以表示目标文本的抽象内容信息。

本申请实施例中，TTS模型可以将目标文本转换为声学特征，并通过声学特征生成语音数据，同时输出处理所述目标文本过程中得到的音频特征(或者称之为隐层特征)，其中，隐层特征相比于语音数据携带有更丰富的高维特征(例如但不限于人脸情感信息、发音信息以及语义信息中的至少一种)。

本申请实施例中，服务器可以根据所述M个特征向量，基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度；根据所述关联度和所述M个特征向量，确定所述N帧中每帧的音频特征。更具体的，服务器可以根据所述关联度，对所述M个特征向量进行加权求和，以确定所述N帧中每帧的音频特征。

本申请实施例中，第一目标帧为所述N帧中的任意一帧，服务器可以获取所述第一目标帧相邻的前一帧的语音数据；对所述第一目标帧相邻的前一帧的语音数据进行解码，得到所述第一目标帧相邻的前一帧的解码状态，并基于注意力机制，根据所述第一目标帧相邻的前一帧的解码状态与所述M个特征向量中每个特征向量的近似度，确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度。

参照图12，第一目标帧可以为图12中所示的T，服务器可以获取到与T帧相邻的前一帧(T-1帧)的语音数据(例如可以是图12中所示的梅尔频谱Mel)，并将Mel输入到Pre-net模块以及解码模块，进而得到解码状态Decoder state，之后服务器可以根据解码状态与所述M个特征向量中每个特征向量的近似度，确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度，并对所述M个特征向量进行加权求和，以确定所述N帧中每帧的音频特征(图12所示的Context T)，服务器还可以基于音频特征Context T和解码状态Decoderstate，确定第一目标帧的语音数据Mel。应理解，语音特征不限于图12中示出的Mel，还可以是bark谱等等，本申请并不限定。

接下来描述服务器如何根据解码状态与所述M个特征向量中每个特征向量的近似度，确定所述M个特征向量中每个特征向量与所述N帧中各帧的关联度。

本申请实施例中，服务器可以获取到第一目标帧相邻的上一帧的解码Decoder状态，并基于解码Decoder状态与M个特征向量(每个特征向量对应一帧)之间的相似度作为所述M个特征向量中每个特征向量与所述N帧中各帧的关联度，在一种可选的实现中，可以通过如下计算过程计算：

e＝v^Ttanh(Query*s+Key*h+U)；

α＝softmax(e)；

其中，tanh为双曲正切函数；Softmax为归一化指数函数，将e中每个元素压缩到(0,1)内，且总和为1，以便作为加权系数；s，h，U，v都是注意力机制Atttention网络中的可训练权重系数。

关联度α值越大，表示该特征向量Embedding与解码Decoder状态越接近，可认为当前正在对该音素进行解码，之后可以对根据所述关联度α，对所述M个特征向量进行加权求和，以确定所述N帧中每帧的音频特征Context。

context＝∑_jα_j*Key_j；

示例性的，可以参照图13，Decoder state表示上一帧的解码状态，Embedding(i)表示第i个特征向量，需要计算上一帧的解码状态Decoder state与各个特征向量Embedding(i)之间的相似度(α₁、α₂、…、α_j)，并根据相似度(α₁、α₂、…、α_j)对特征向量Embedding(i)进行加权求和，得到当前帧的音频特征Context。

本申请实施例中，除了将上述实施例中的Context作为TTS模型处理目标文本过程中输出的音频特征，还可以将各个帧的解码状态作为TTS模型处理目标文本过程中输出的音频特征，具体的，第二目标帧为所述N帧中的任意一帧，服务器可以获取所述第二目标帧相邻的前一帧的语音数据，并对所述第二目标帧相邻的前一帧的语音数据进行解码，得到所述第二目标帧相邻的前一帧的解码状态，所述第二目标帧相邻的前一帧的解码状态用于作为所述第二目标帧对应的音频特征。

本申请实施例中，还可以将上述音频特征Context与解码状态进行权重分配或者通过对音频特征Context与解码状态进行其他运算，来得到各个帧的音频特征，本申请实施例并不限定。

在一种可能的实现中，目标音素为所述M个音素中的任意的一个音素，所述目标音素对应于所述M个特征向量中的目标特征向量，所述目标音素用于供虚拟人物在N帧中的多个帧内演示，且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。也就是说，针对于供虚拟人物在多个帧内演示的目标音素，在这多个帧之内，目标音素和目标特征向量之间的关联度，是目标音素和全部特征向量之间的关联度中最大的，使得音频特征可以和目标文本的因素完全对齐。

本申请实施例中，服务器除了获取TTS模型在处理目标文本过程中生成的音频特征，还需要获取语音数据，语音数据可以为上述实施例中的Mel谱或者Bark谱。服务器可以通过声码器，将语音数据合成为人可以识别的声音。

503、通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征。

步骤503的执行主体可以为电子设备或者服务器，以服务器为例，服务器可以通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征。

具体的，服务器可以根据音频特征，映射到脸部特征，并根据映射得到的脸部特征渲染重构得到人物形象，其中，脸部特征可以为2D常用的唇形和/或眼睛关键点，3D的混合变形blendshape系数等。

504、根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。

本申请实施例中，服务器可以根据所述脸部特征，生成所述虚拟人物的图像帧集合，并将图像帧转为视频，同时将视频融合步骤502获取到的语音数据，生成包括所述虚拟人物的视频。所述目标文本用于供虚拟人物在N帧内演示，所述视频包括N帧，所述N帧中的每一帧为所述图像帧集合中的一帧。

更细节的，可以参照图14，在进行虚拟人物的生成过程中，首先可以将文本进行预处理，并对预处理后的文本进行编码，得到特征向量Embedding，之后基于注意力机制进行对齐Alignment，并得到音频特征Context，基于音频特征进行面部特征(面部参数&形象重建)的提取以及声音的生成，之后基于面部特征和声音进行视频的合成。

本申请实施例中，由于语音数据和脸部特征都是基于音频特征得到的，因此可做到音视频的完全对齐，使得语音与虚拟人物的脸部特征准确匹配。同时，TTS模型在处理目标文本时得到的音频特征，相比于目标文本，信息量逐步增大，音频特征包含的信息量和细节是更为丰富的。相对于目标文本，逐帧的音频特征与图像帧天然对齐，相对于语音数据，这些音频特征表示包含了很多语音风格的高阶信息，这些信息也能无损传递到脸部特征合成中，达到声音与表情在时间帧以及情感风格表达等多维度在帧级别上的完全对齐。

本申请实施例中，由于将TTS模型处理目标文本过程中得到的音频特征作为脸部特征提取的依据，使得不需要对语音数据重新进行特征提取，降低了运算开销和模型的部署成本，利用音频特征同时驱动语音数据预测以及脸部特征预测。

应理解，在TTS模型的训练过程中，可以使用视频中的语音数据，指导TTS模型对齐并生成对应的音频特征，由于TTS模型中的解码Decoder为一个迭代过程，预测得到语音数据过程中产生的误差会持续累加，故可以首先提取视频中的语音数据，并提取与训练TTS模型对应的音频特征，然后将此特征送入Pre-net/Decoder网络，以这种方式指导对齐过程。

本申请实施例提供了一种虚拟人物生成方法，所述方法包括：获取目标文本；根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征；根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。TTS模型在处理目标文本时得到的音频特征，相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种，也就是说音频特征包含的信息量和细节是更为丰富的。且相对于目标文本，逐帧的音频特征与图像帧天然对齐，相对于语音数据，这些音频特征表示包含了很多语音风格的高阶信息，这些信息也能无损传递到脸部特征合成中，达到声音与表情在时间帧以及情感风格表达等多维度在帧级别上的完全对齐。且由于将TTS模型处理目标文本过程中得到的音频特征作为脸部特征提取的依据，使得不需要对语音数据重新进行特征提取，降低了运算开销和模型的部署成本，利用音频特征同时驱动语音数据预测以及脸部特征预测。

参照图15，本申请实施例还提供了一种虚拟人物生成装置1500，所述装置包括：

获取模块1501，用于获取目标文本；

文本转语音TTS模块1502，用于根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；

脸部特征生成模块1503，用于通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征；

虚拟人物生成模块1504，用于根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。

在一种可能的实现中，所述文本转语音TTS模块，用于：

获取所述目标文本的M个音素；

在一种可能的实现中，所述文本转语音TTS模块1502，用于：

获取所述第一目标帧相邻的前一帧的语音数据；

获取所述第二目标帧相邻的前一帧的语音数据；

在一种可能的实现中，所述获取模块1501，用于接收终端设备发送的目标文本。

在一种可能的实现中，所述获取模块1501，用于显示文本输入框以及文本输入指示，所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本；获取用户在所述文本输入框输入的目标文本。

获取模块1501相关的描述可以参照步骤501的描述，相似之处这里不再赘述。

文本转语音TTS模块1502相关的描述可以参照步骤502的描述，相似之处这里不再赘述。

脸部特征生成模块1503相关的描述可以参照步骤503的描述，相似之处这里不再赘述。

虚拟人物生成模块1504相关的描述可以参照步骤504的描述，相似之处这里不再赘述。

在一个简单的实施例中，本领域的技术人员可以想到所述电子设备可采用图16所示的形式。

如图16所示的装置1600，包括至少一个处理器1601、收发器1602，可选的，还可以包括存储器1603。

一种可能的实现方式中，所述装置1600还可以包括显示器1606；所述装置还可以包括传感器1605，用于捕捉电子设备的姿态和位置。

存储器1603可以是易失性存储器，例如随机存取存储器；存储器也可以是非易失性存储器，例如只读存储器，快闪存储器，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1603是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1603可以是上述存储器的组合。

本申请实施例中不限定上述处理器1601以及存储器1603之间的具体连接介质。本申请实施例在图中以存储器1603和处理器1601之间通过总线连接，总线在图中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

当所述电子设备采用图16所示的形式时，图16中的处理器1601可以通过调用存储器1603中存储的计算机执行指令，使得所述电子设备可以执行上述任一方法实施例中的所述电子设备执行的方法。

其中，所述处理器1601在执行触发显示的功能时，如涉及显示图像或视频的操作，处理器1601可以通过所述装置1600中的显示器1606显示包括虚拟人物的视频。

可选的，处理器1601在执行显示的功能时，也可以通过其他设备中的显示器显示图像或视频，如向其他设备发送显示指令，指示显示包括虚拟人物的视频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者其他网络设备等)执行本申请图2至图16中各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种虚拟人物生成方法，其特征在于，所述方法包括：

获取目标文本；

根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征以及与所述目标文本对应的语音数据，其中，所述TTS模型用于将输入的文本转换为语音数据，所述音频特征为所述TTS模型的中间网络层得到的音频特征，所述音频特征相比所述语音数据携带有更丰富的人脸情感信息、发音信息以及语义信息中的至少一种；

通过神经网络对所述音频特征进行处理，以获取所述虚拟人物的脸部特征，所述神经网络为预先训练得到的，所述神经网络用于将输入的音频特征转换为脸部特征；

根据所述脸部特征，生成所述虚拟人物的图像帧集合，并根据所述图像帧集合和所述语音数据，生成包括所述虚拟人物的视频。

2.根据权利要求1所述的方法，其特征在于，所述目标文本用于供虚拟人物在N帧内演示，所述音频特征的数量为N，且N个音频特征中的每个音频特征对应于所述N帧中的一帧。

3.根据权利要求2所述的方法，其特征在于，所述根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征，包括：

获取所述目标文本的M个音素；

4.根据权利要求3所述的方法，其特征在于，所述根据所述关联度和所述M个特征向量，确定所述N帧中每帧的音频特征，包括：

5.根据权利要求3或4所述的方法，其特征在于，目标音素为所述M个音素中的任意的一个音素，所述目标音素对应于所述M个特征向量中的目标特征向量，所述目标音素用于供虚拟人物在N帧中的多个帧内演示，且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。

6.根据权利要求3至5任一所述的方法，其特征在于，第一目标帧为所述N帧中的任意一帧，所述根据所述M个特征向量，基于注意力机制获取所述M个特征向量中每个特征向量与所述N帧中各帧的关联度，包括：

获取所述第一目标帧相邻的前一帧的语音数据；

7.根据权利要求2所述的方法，其特征在于，第二目标帧为所述N帧中的任意一帧，所述根据所述M个特征向量，所述根据文本转语音TTS模型，对所述目标文本进行处理，以获取音频特征，包括：

获取所述第二目标帧相邻的前一帧的语音数据；

8.根据权利要求1至7任一所述的方法，其特征在于，所述获取目标文本，包括：

接收终端设备发送的目标文本。

9.根据权利要求1至7任一所述的方法，其特征在于，所述获取目标文本，包括：

获取用户在所述文本输入框输入的目标文本。

10.根据权利要求1至9任一所述的方法，其特征在于，所述目标文本用于供虚拟人物在N帧内演示，所述视频包括N帧，所述N帧中的每一帧为所述图像帧集合中的一帧。

11.一种虚拟人物生成装置，其特征在于，所述装置包括：

获取模块，用于获取目标文本；

12.根据权利要求11所述的装置，其特征在于，所述目标文本用于供虚拟人物在N帧内演示，所述音频特征的数量为N，且N个音频特征中的每个音频特征对应于所述N帧中的一帧。

13.根据权利要求12所述的装置，其特征在于，所述文本转语音TTS模块，用于：

获取所述目标文本的M个音素；

14.根据权利要求13所述的装置，其特征在于，所述文本转语音TTS模块，用于：

15.根据权利要求13或14所述的装置，其特征在于，目标音素为所述M个音素中的任意的一个音素，所述目标音素对应于所述M个特征向量中的目标特征向量，所述目标音素用于供虚拟人物在N帧中的多个帧内演示，且所述目标特征向量在所述M个特征向量中与所述多个帧中的各个帧的关联度最大。

16.根据权利要求12至15任一所述的装置，其特征在于，第一目标帧为所述N帧中的任意一帧，所述文本转语音TTS模块，用于：

获取所述第一目标帧相邻的前一帧的语音数据；

17.根据权利要求12所述的装置，其特征在于，第二目标帧为所述N帧中的任意一帧，所述文本转语音TTS模块，用于：

获取所述第二目标帧相邻的前一帧的语音数据；

18.根据权利要求11至17任一所述的装置，其特征在于，所述获取模块，用于接收终端设备发送的目标文本。

19.根据权利要求11至17任一所述的装置，其特征在于，所述获取模块，用于显示文本输入框以及文本输入指示，所述目标指示用于指示用户在所述文本输入框中输入供虚拟人物演示的文本；获取用户在所述文本输入框输入的目标文本。

20.根据权利要求11至19任一所述的装置，其特征在于，所述目标文本用于供虚拟人物在N帧内演示，所述视频包括N帧，所述N帧中的每一帧为所述图像帧集合中的一帧。

21.一种虚拟人物生成装置，其特征在于，包括处理器、和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，当所述处理器运行所述程序指令时，使所述电子设备执行如权利要求1至10任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述程序请求被计算机运行时使所述计算机执行如权利要求1至10任一项所述的方法。