CN114401434A

CN114401434A - 对象显示方法和装置、存储介质及电子设备

Info

Publication number: CN114401434A
Application number: CN202111398167.4A
Authority: CN
Inventors: 陈盛福; 蔡海军
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-04-26

Abstract

本发明公开了一种对象显示方法和装置、存储介质及电子设备。其中，该方法包括：获取直播应用中当前发音对象的音频帧序列；将音频帧序列发送至服务器；接收服务器发送的发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；在直播应用的显示界面中显示虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行展示。本发明解决了由于虚拟人物的各个驱动模块之间配合效率较低所导致虚拟人物动作和表情失真的技术问题。

Description

对象显示方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种对象显示方法和装置、存储介质及电子设备。

背景技术

目前虚拟人物大多是通过三维建模后进行后期处理得到的，对于虚拟人物的肢体驱动、表情驱动和声音是独立的不同模块，各模块之间配合效率较低导致虚拟人物动作生硬，表情不自然，如语音内容与嘴型和表情不一致等等，因此会造成用户与虚拟人物进行互动时体验感较差，而且虚拟人物的说话和姿态变化需要通过三维建模构建虚拟人物的影像来实现，也增加了人力和时间成本。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种对象显示方法和装置、存储介质及电子设备，以至少解决由于虚拟人物的各个驱动模块之间配合效率较低所导致虚拟人物动作和表情失真的技术问题。

根据本发明实施例的一个方面，提供了一种对象显示方法，包括：获取直播应用中当前发音对象的音频帧序列；将上述音频帧序列发送至服务器；接收上述服务器发送的上述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，上述当前表情特征为将上述音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，上述当前姿态特征为将上述频谱特征输入至姿态模型中得到的；上述表情模型为利用第一样本视频进行多次训练得到的用于预估上述第一样本视频中显示的对象的表情特征的神经网络模型，上述姿态模型为利用第二样本视频进行多次训练得到的用于预估上述第二样本视频中显示的对象的姿态特征的神经网络模型；在上述直播应用的显示界面中显示上述虚拟对象，并控制上述虚拟对象按照上述当前表情特征和上述当前姿态特征进行展示。

根据本发明实施例的另一个方面，提供了另一种对象显示方法，包括：接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；提取上述音频帧序列中每帧音频各自对应的频谱特征；将上述频谱特征输入至表情模型中，得到当前表情特征，并将上述频谱特征输入至姿态模型中，得到当前姿态特征；其中，上述表情模型为利用第一样本视频进行多次训练得到的用于预估上述第一样本视频中显示的对象的表情特征的神经网络模型，上述姿态模型为利用第二样本视频进行多次训练得到的用于预估上述第二样本视频中显示的对象的姿态特征的神经网络模型；将上述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至上述客户端。

根据本发明实施例的另一方面，还提供了一种对象显示装置，包括：第一获取单元，用于获取直播应用中当前发音对象的音频帧序列；第一发送单元，用于将上述音频帧序列发送至服务器；第一接收单元，用于接收上述服务器发送的上述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，上述当前表情特征为将上述音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，上述当前姿态特征为将上述频谱特征输入至姿态模型中得到的，上述表情模型为利用第一样本视频进行多次训练得到的用于预估上述第一样本视频中显示的对象的表情特征的神经网络模型，上述姿态模型为利用第二样本视频进行多次训练得到的用于预估上述第二样本视频中显示的对象的姿态特征的神经网络模型；

显示单元，用于在上述直播应用的显示界面中显示上述虚拟对象，并控制上述虚拟对象按照上述当前表情特征和上述当前姿态特征进行展示。

作为一种可选的方案，上述显示单元，包括：获取模块，用于获取上述当前发音对象的对象身份标签并将上述对象身份标签发送至上述服务器；接收模块，用于接收上述服务器发送的上述虚拟对象；其中，上述虚拟对象为上述服务器从数据库中查找到与上述对象身份标签对应的虚拟对象；显示模块，用于在上述直播应用的显示界面中显示上述虚拟对象。

作为一种可选的方案，上述获取模块，包括：确定子模块，用于根据上述频谱特征确定上述当前发音对象的声纹特征；发送子模块，用于将上述声纹特征发送至上述服务器。

作为一种可选的方案，上述第一获取单元还包括：匹配模块，用于在检测到上述直播应用中的自动回复触发操作时，基于上述直播应用中的评论文本信息匹配对应的回复文本信息；转换模块，用于将上述回复文本信息转换为上述当前发音对象的音频帧序列，以获取上述当前发音对象的音频帧序列。

根据本发明实施例的另一方面，还提供了另一种对象显示装置，包括：第一接收单元，用于接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；提取单元，用于提取上述音频帧序列中每帧音频各自对应的频谱特征；第二获取单元，用于将上述频谱特征输入至表情模型中，得到当前表情特征，并将上述频谱特征输入至姿态模型中，得到当前姿态特征；其中，上述表情模型为利用第一样本视频进行多次训练得到的用于预估上述第一样本视频中显示的对象的表情特征的神经网络模型，上述姿态模型为利用第二样本视频进行多次训练得到的用于预估上述第二样本视频中显示的对象的姿态特征的神经网络模型；第二发送单元，用于将上述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至上述客户端。

作为一种可选的方案，上述第二获取单元，包括：第一输入模块，用于将上述频谱特征输入至上述表情模型的第一子表情模型，以得到眼睛特征，其中，上述第一子表情模型用于根据上述频谱特征确定眼睛变化量，上述当前表情特征包括上述眼睛特征；第二输入模块，用于将上述频谱特征输入至上述表情模型的第二子表情模型，以得到嘴部特征，其中，上述第二子表情模型用于根据上述频谱特征确定嘴部变化量，上述当前表情特征包括上述嘴部特征；第三输入模块，用于将上述频谱特征输入至上述表情模型的第三子表情模型，以得到眉毛特征，其中，上述第三子表情模型用于根据上述频谱特征确定眉毛变化量，上述当前表情特征包括上述眉毛特征。

作为一种可选的方案，上述第二获取单元，包括：第四输入模块，用于将上述频谱特征输入至上述姿态模型的第一子姿态模型，以得到头部特征，其中，上述第一子姿态模型用于根据上述频谱特征确定头部变化量，上述当前姿态特征包括上述头部特征；第五输入模块，用于将上述频谱特征输入至上述姿态模型的第二子姿态模型，以得到肢体特征，其中，上述第二子姿态模型用于根据上述频谱特征确定肢体变化量，上述当前姿态特征包括上述肢体特征。

作为一种可选的方案，包括：第三获取单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，获取第一样本视频集合；第一配置单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，为上述第一样本视频集合中每个第一样本视频按照表情类型定义配置上述表情特征集合；第一训练单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，将上述第一样本视频集合及对应的上述表情特征集合输入初始化的表情模型进行训练，得到训练输出结果，其中，在上述表情模型的每次训练过程中，根据上述第一样本视频的视频内容中提取到的多维特征，确定上述第一样本视频中的音频帧序列对应的第一表情类型集合；第四获取单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，在上述训练输出结果指示达到第一收敛条件的情况下，确定得到用于获取上述表情特征集合的表情模型，其中，上述第一收敛条件用于指示确定出的上述第一表情类型集合与上述表情特征集合所指示的表情类型之间的差异度小于等于第一阈值。

作为一种可选的方案，还包括：第五获取单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，获取第二样本视频集合；第二配置单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，为上述第二样本视频集合中每个第一样本视频按照姿态类型定义配置上述姿态特征集合；第二训练单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，将上述第二样本视频集合及对应的上述姿态特征集合输入初始化的姿态模型进行训练，得到训练输出结果，其中，在上述姿态模型的每次训练过程中，根据上述第二样本视频的视频内容中提取到的多维特征，确定上述第二样本视频中的音频帧序列对应的第一姿态特征集合；第六获取单元，用于在上述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，在上述训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取上述姿态特征集合的姿态模型，其中，上述第二收敛条件用于指示确定出的上述第一姿态特征集合与上述姿态特征集合所指示的姿态类型之间的差异度小于等于第二阈值。

作为一种可选的方案，上述装置还包括：第二接收单元，用于接收上述客户端发送的上述当前发音对象的对象身份标签；查找单元，用于从数据库中查找到与上述对象身份标签对应的上述虚拟对象；第三发送单元，用于将上述虚拟对象发送至上述客户端。

作为一种可选的方案，上述对象身份标签包括上述当前发音对象的声纹特征；上述查找单元包括：确定模块，用于确定出与上述声纹特征对应的虚拟对象。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述对象显示方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的对象显示方法。

在本发明实施例中，通过在上述直播应用的显示界面中显示与上述当前发音对象对应的虚拟对象，并控制上述虚拟对象按照上述当前表情特征和上述当前姿态特征进行展示，达到了通过声音来同步驱动虚拟人物的姿态和表情相配合输出目的，不仅实现了虚拟人物和真人相同的姿态和表情的自然表达，而且降低了人力和时间成本的技术效果，进而解决了由于虚拟人物的各个驱动模块之间配合效率较低所导致虚拟人物动作和表情失真的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的对象显示方法的应用环境的示意图；

图2是根据本发明实施例的另一种可选的对象显示方法的应用环境的示意图；

图3是根据本发明实施例的一种可选的对象显示方法的流程示意图；

图4是根据本发明实施例的一种可选的对象显示方法的应用场景示意图；

图5是根据本发明实施例的一种可选的对象显示方法的应用界面示意图；

图6是根据本发明实施例的另一种可选的对象显示方法的应用界面示意图；

图7是根据本发明实施例的又一种可选的对象显示方法的应用界面示意图；

图8是根据本发明实施例的另一种可选的对象显示方法的应用界面示意图；

图9是根据本发明实施例的一种可选的对象显示装置的结构示意图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种对象显示方法，可选地，作为一种可选的实施方式，上述对象显示方法可以但不限于应用于如图1 所示的硬件环境中。该硬件环境中包括：与用户进行人机交互的终端设备 102、网络104、服务器106。用户108与终端设备102之间可以进行人机交互，终端设备102中运行有对象显示应用客户端。上述终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022 用于呈现虚拟对象，还用于呈现目标数据资源中的多个用户账号对应的健康图像码，及用于呈现对当前表情特征和姿态特征；处理器1024用于采集直播应用中当前发音对象的音频帧序列获取直播应用中当前发音对象的音频帧序列；提取音频帧序列中每帧音频各自对应的频谱特征。存储器 108用于存储当前发音对象的音频帧序列，频谱特征，及用于存储频谱特征对应的当前表情特征和当前姿态特征。

此外，服务器106中包括数据库1062及处理引擎1064，数据库1062 中用于存储当前发音对象的音频帧序列，频谱特征，表情模型，姿态模型，及用于存储频谱特征对应的当前表情特征和当前姿态特征；处理引擎1064 用于将频谱特征输入至表情模型中，得到当前表情特征，并将频谱特征输入至姿态模型中，得到当前姿态特征。

具体过程如以下步骤：假设如图1所示终端设备102中运行有对象显示应用客户端，用户108操作人机交互屏幕1022对数据资源进行管理和操作，如步骤S102-S104，采集直播应用中当前发音对象的音频帧序列获取直播应用中当前发音对象的音频帧序列；提取音频帧序列中每帧音频各自对应的频谱特征。然后执行步骤S106，将上述频谱特征通过网络104 发送给服务器106。如步骤S108，将上述频谱特征输入至表情模型中，得到当前表情特征，并将上述频谱特征输入至姿态模型中，得到当前姿态特征；其中，上述表情模型为利用第一样本视频进行多次训练得到的用于预估上述第一样本视频中显示的对象的表情特征的神经网络模型，上述姿态模型为利用第二样本视频进行多次训练得到的用于预估上述第二样本视频中显示的对象的姿态特征的神经网络模型。并如步骤S110，通过网络 104通知终端设备102，返回上述当前表情特征和当前姿态特征。步骤S112，在直播应用的显示界面中显示与当前发音对象对应的虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行(静态/动态)展示。

作为另一种可选的实施方式，本申请上述对象显示方法可以应用于图 2中。如图2所示，用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204 可以但不限于参考执行上述终端设备102所执行的操作，以示与当前发音对象对应的虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行展示。

可选地，上述终端设备102和用户设备204可以但不限于为手机、平板电脑、笔记本电脑、PC机等终端，上述网络104可以包括但不限于无线网络或有线网络。其中，该无线网络包括：WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器106可以包括但不限于任何可以进行计算的硬件设备。

可选地，作为一种可选的实施方式，如图3所示，上述对象显示方法包括：

S302，获取直播应用中当前发音对象的音频帧序列；

S304，将音频帧序列发送至服务器；接收服务器发送的发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，当前表情特征为将音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，当前姿态特征为将频谱特征输入至姿态模型中得到的；表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；

S306，在直播应用的显示界面中显示虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行展示。

在步骤S302中，实际应用时，如图4所示，直播应用400接收当前发音对象402的音频帧序列，当前发音对象402可以为一个或多个对象，在此不做任何限定；以采集到的音频为MP3格式为例，MP3每帧均为1152 个字节，这里在采样频率为44.1KHZ时，每帧音频播放时长为26ms。也就是说，当前发音对象402的音频帧序列每帧播放时长为26ms。

在步骤S304中，实际应用时，提取上述音频帧序列中每帧音频各自对应的频谱特征，这里可以包括但不限于通过梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)来获取每帧音频各自对应的频谱特征，在此不做限定。

此外，可选的将上述频谱特征输入至表情模型中，得到当前表情特征，并将上述频谱特征输入至姿态模型中，得到当前姿态特征。这里，表情特征包括面部特征，例如五官特征，眼睛，鼻子，眉毛，嘴部特征等，姿态特征包括肢体特征和头部特征等，例如，手部，肘部，膝部和脚部的特征等，在此不做限定。需要说明的是，当前表情特征可以为一个或多个，当前姿态信息也可以为一个或多个，这里的第一样本视频和第二样本视频可以为同样的视频，也可以为不同的视频。

在步骤S306中，实际应用时，如图4所示，在当前直播应用400中，显示有与当前发音对象402对应的虚拟对象404。这里，虚拟对象404可以为卡通人物，或者是通过三维模型构建的与发音对象402具有相同外貌的人物；当前发音对象402发出声音后，虚拟对象404会做出与该声音相匹配的表情和肢体动作。例如，如图5所示，在直播应用500中，虚拟对象502按照上述当前表情特征和上述当前姿态特征进行展示，这里虚拟对象502为抬手状态，嘴部张开，眼睛睁大，可以展示出无奈的表情。如图 6所示，在直播应用600中，虚拟对象602按照上述当前表情特征和上述当前姿态特征进行展示，这里虚拟对象602为立正状态，眼睛睁开，嘴巴闭合，一副严肃的表情。

在本发明实施例中，采用获取直播应用中当前发音对象的音频帧序列；将音频帧序列发送至服务器；接收服务器发送的发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，当前表情特征为将音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，当前姿态特征为将频谱特征输入至姿态模型中得到的；表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；在直播应用的显示界面中显示虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行展示的方式，通过在上述直播应用的显示界面中显示与上述当前发音对象对应的虚拟对象，并控制上述虚拟对象按照上述当前表情特征和上述当前姿态特征进行展示，达到了通过声音来同步驱动虚拟人物的姿态和表情相配合变化目的，不仅实现了虚拟人物和真人相同的姿态和表情的自然表达，而且降低了人力和时间成本的技术效果，进而解决了由于虚拟人物的各个驱动模块之间配合效率较低所导致虚拟人物动作和表情失真的技术问题。

在一个或多个实施例中，步骤S304，将上述频谱特征输入至表情模型中，得到当前表情特征，包括：

将上述频谱特征输入至上述表情模型的第一子表情模型，以得到眼睛特征，其中，上述第一子表情模型用于根据上述频谱特征确定眼睛变化量，上述当前表情特征包括上述眼睛特征；这里，眼睛的变化量可以包括但不限于眼睛的开合状态，上眼皮和下眼皮之间的距离等参数，在此不做任何限定。

将上述频谱特征输入至上述表情模型的第二子表情模型，以得到嘴部特征，其中，上述第二子表情模型用于根据上述频谱特征确定嘴部变化量，上述当前表情特征包括上述嘴部特征；这里，嘴部的变化量可以包括但不限于嘴巴的打开或闭合，上嘴唇和下嘴唇之间的距离等参数，在此不做任何限定。

将上述频谱特征输入至上述表情模型的第三子表情模型，以得到眉毛特征，其中，上述第三子表情模型用于根据上述频谱特征确定眉毛变化量，上述当前表情特征包括上述眉毛特征。这里，眉毛变化量可以包括但不限于眉毛与眼睛之间的距离。在此不做任何限定。

在本发明实施例中，将上述频谱特征输入至表情模型，可以得到包括眼睛变化量，嘴部变化量和眉毛变化量的表情特征，可以精准的获取与音频对应的各种表情特征信息，从而可以提高虚拟人物表情与声音同步的真实性。

在一个或多个实施例中，步骤S304，将上述频谱特征输入至姿态模型中，得到当前姿态特征，包括：

将上述频谱特征输入至上述姿态模型的第一子姿态模型，以得到头部特征，其中，上述第一子姿态模型用于根据上述频谱特征确定头部变化量，上述当前姿态特征包括上述头部特征；这里，头部变化量可以包括但不限于头部的旋转角度，俯仰角，和平移距离等参数，在此不做任何限定。

将上述频谱特征输入至上述姿态模型的第二子姿态模型，以得到肢体特征，其中，上述第二子姿态模型用于根据上述频谱特征确定肢体变化量，上述当前姿态特征包括上述肢体特征。这里，肢体变化量可以包括但不限于手部或脚部的位置变化，腕部，肘部或膝部的角度变化参数等，在此不做任何限定。

在本发明实施例中，将上述频谱特征输入至姿态模型，可以得到包括头部变化量，肢体变化量的表情特征，可以精准的获取与音频对应的各种姿态特征信息，从而可以提高虚拟人物的肢体动作与声音同步的真实性。

在一个或多个实施例中，上述对象显示方法还包括：

获取第一样本视频集合；为上述第一样本视频集合中每个第一样本视频按照表情类型定义配置上述表情特征集合；

将上述第一样本视频集合及对应的上述表情特征集合输入初始化的表情模型进行训练，得到训练输出结果，其中，在上述表情模型的每次训练过程中，根据上述第一样本视频的视频内容中提取到的多维特征，确定上述第一样本视频中的音频帧序列对应的第一表情类型集合；

在上述训练输出结果指示达到第一收敛条件的情况下，确定得到用于获取上述表情特征集合的表情模型，其中，上述第一收敛条件用于指示确定出的上述第一表情类型集合与上述表情特征集合所指示的表情类型之间的差异度小于等于第一阈值。

在本实施例中，第一样本视频集合可以为采集到的一个主播的不同时段的多个直播视频帧集合，也可以多个主播的各自对应的直播视频帧集合。

在本发明实施例中，通过获取第一样本视频集合输出标签模型进行训练，可以精准的得到的获取与音频对应的各种表情特征信息的表情模型，基于该模型可以提高虚拟人物表情与声音同步的真实性。

在一个或多个实施例中，上述对象显示方法还包括：

获取第二样本视频集合；为上述第二样本视频集合中每个第一样本视频按照姿态类型定义配置上述姿态特征集合；

将上述第二样本视频集合及对应的上述姿态特征集合输入初始化的姿态模型进行训练，得到训练输出结果，其中，在上述姿态模型的每次训练过程中，根据上述第二样本视频的视频内容中提取到的多维特征，确定上述第二样本视频中的音频帧序列对应的第一姿态特征集合；

在上述训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取上述姿态特征集合的姿态模型，其中，上述第二收敛条件用于指示确定出的上述第一姿态特征集合与上述姿态特征集合所指示的姿态类型之间的差异度小于等于第二阈值。

在本实施例中，第二样本视频集合可以为采集到的一个主播的不同时段的多个直播视频帧集合，也可以多个主播的各自对应的直播视频帧集合。

在本发明实施例中，通过获取第二样本视频集合输出标签模型进行训练，可以精准的得到的获取与音频对应的各种姿态特征信息的姿态模型，基于该模型可以提高虚拟人物姿态与声音同步的真实性。

在一个或多个实施例中，步骤S306，在上述直播应用的显示界面中显示与上述当前发音对象对应的虚拟对象，包括：

获取上述当前发音对象的对象身份标签；从数据库中查找到与上述对象身份标签对应的上述虚拟对象；在上述直播应用的显示界面中显示上述虚拟对象。

在本实施例中，对象身份标签可以包括性别标签和/或皮肤标签，如图 5所示，当检测到发音对象的性别为女性时，在直播应用500中显示的虚拟对象502为女性虚拟主播的形象。如图6所示，当检测到发音对象的性别为男性时，在直播应用600中显示的虚拟对象602为男性虚拟主播的形象。如图7所示，当检测到发音对象有两人，且两个发音对象的性别不同时，在直播应用700中可以同时显示的第一虚拟对象702和第二虚拟对象 704。

此外，从数据库中查找到与上述发音对象对应的皮肤标签，这里，可以为发音对象在直播应用中购买的虚拟人物的皮肤，也就是说，当发音对象在直播应用中购买了虚拟人物的特定装饰的皮肤后，当发音对象在直播的过程中，在直播应用中就可以对应显示添加了该装饰匹配的虚拟人物。

在本发明实施例中，基于发音对象的不同对象身份标签，在直播应用中可以灵活多样的显示不同的虚拟人物的形象。

在一个或多个实施例中，上述获取上述当前发音对象的对象身份标签，包括：根据上述频谱特征确定上述当前发音对象的声纹特征；在本实施例中，声纹特征可以包括但不限于声音的物理属性，音质，音长，音强和音高等多个声音参数。

上述从数据库中查找到与上述对象身份标签对应的上述虚拟对象包括：确定出与上述声纹特征对应的目标显示对象。这里，可以将多个发音对象的声纹特征(音质，音长，音强和音高等多个声音参数)存入数据库，然后可以在数据库中查找与上述声纹特征相匹配的目标显示对象。

在本发明实施例中，基于发音对象的声纹信息，可以精准的匹配到发音对象在直播应用中对应显示的虚拟人物的形象。

在一个或多个实施例中，上述对象显示方法还包括：在检测到上述直播应用中的自动回复触发操作时，基于上述直播应用中的评论文本信息匹配对应的回复文本信息；将上述回复文本信息转换为上述当前发音对象的音频帧序列。

在本实施例中，如图8所示，当检测到直播应用800中的自动回复按键804的触发操作后，也就是说当前发音对象不在发音，离开直播间时，基于上述直播应用800中的评论显示框802中的评论文本信息匹配对应的回复文本信息，这里可以同通过自然语音处理NLP算法解析直播应用中的用户评论文本信息(你喜欢谁的电影)，通过NLP算法生成待回复内容(我喜欢XXX的电影)，然后将该回复内容转换为当前主播的声音序列以及对应的表情和肢体动作，在直播应用800上进行显示。

通过上述技术手段，可以实现虚拟主播声形并茂(声音和动作)的与直播间的用户进行实时对话，进一步实现直播应用中的虚拟对象与用户自动聊天，进一步达到提高直播互动性的技术效果。

基于上述实施例，在一应用实施例中，上述对象显示方法包括：

步骤S1：采集目标人物(上述发音对象)一定时长(如5分钟)的视频，该视频包含说话语音、表情和肢体动作等；

步骤S2：通过步骤S1的视频素材提取目标人物的声音频谱特征；

步骤S3：通过神经网络模型建立语音序列的声音频谱特征与脸部表情特征的映射模型；

步骤S4：通过神经网络模型建立语音序列的声音频谱特征与肢体和头部动作的映射模型；

步骤S5：将步骤S1的视频数据训练步骤S3和步骤S4的神经网络模型，从而训练好语音驱动虚拟对象的脸部表情的模型(表情模型)、头部动作和肢体动作的模型(姿态模型)。

通过上述技术手段，本发明实施例可以通过声音驱动虚拟对象的肢体动画和脸部表情，从而达到将主播的声音和虚拟对象的动作表情一体化的技术效果。

在一应用场景中，通过直播应用实时采集当前主播声音，通过声音驱动直播应用中显示的虚拟主播的表情和动作，可以达到将当前主播声音和虚拟主播的表情与动作的协调一致性。

目前的视频直播交互方式多为通过预设的人机交互界面来进行交互，不能通过语音来与虚拟人物进行直接交互，减少了用户在直播互动时的体验度。为了解决上述技术问题，在另一应用场景中，在当前主播中途离开直播间的情况下，可以同通过自然语音处理NLP算法解析直播应用中的用户评论文本信息，通过NLP算法生成待回复内容，然后将该回复内容转换为当前主播的声音序列以及对应的动作，通过上述技术手段，可以实现虚拟主播声形并茂(声音和动作)的与直播间的用户进行对话，从而实现主播对应的虚拟对象与用户自动聊天的技术效果。

作为一种可选的方案，在直播应用的显示界面中显示虚拟对象，包括：

S1，获取当前发音对象的对象身份标签并将对象身份标签发送至服务器；

S2，接收服务器发送的虚拟对象；其中，虚拟对象为服务器从数据库中查找到与对象身份标签对应的虚拟对象；

S3，在直播应用的显示界面中显示虚拟对象。

可选的，在本实施例中，发音对象可以但不限于包括一个或多类身份标识，进而在获取到当前发音对象的对象身份标签并将对象身份标签发送至服务器，可在直播应用的显示界面中显示与之对应的虚拟对象。

作为一种可选的方案，获取当前发音对象的对象身份标签并将对象身份标签发送至服务器，包括：

S1，根据频谱特征确定当前发音对象的声纹特征；

S2，将声纹特征发送至服务器。

可选的，在本实施例中，可以但不限于根据发音对像的声纹(频谱特征)来判断不同的类型的虚拟对象。

作为一种可选的方案，获取直播应用中当前发音对象的音频帧序列还包括：

S1，在检测到直播应用中的自动回复触发操作时，基于直播应用中的评论文本信息匹配对应的回复文本信息；

S2，将回复文本信息转换为当前发音对象的音频帧序列，以获取当前发音对象的音频帧序列。

可选的，在本实施例中，识别到用户评论(回复文本信息)后，生成回复内容的语音，并进一步基于该语音取得对目标画面中的对象显示。

可选地，作为一种可选的实施方式，上述对象显示方法包括：

S902，接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；

S904，提取音频帧序列中每帧音频各自对应的频谱特征；

S906，将频谱特征输入至表情模型中，得到当前表情特征，并将频谱特征输入至姿态模型中，得到当前姿态特征；其中，表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；

S908，将发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至客户端。

需要说明的是，接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；提取音频帧序列中每帧音频各自对应的频谱特征；将频谱特征输入至表情模型中，得到当前表情特征，并将频谱特征输入至姿态模型中，得到当前姿态特征；其中，表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；将发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至客户端。

具体实施例可以参考上述区域动态调整方法中所示示例，本示例中在此不再赘述。

在本发明实施例中，采用接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；提取音频帧序列中每帧音频各自对应的频谱特征；将频谱特征输入至表情模型中，得到当前表情特征，并将频谱特征输入至姿态模型中，得到当前姿态特征；其中，表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；将发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至客户端的方式，通过在上述直播应用的显示界面中显示与上述当前发音对象对应的虚拟对象，并控制上述虚拟对象按照上述当前表情特征和上述当前姿态特征进行展示，达到了通过声音来同步驱动虚拟人物的姿态和表情相配合变化目的，不仅实现了虚拟人物和真人相同的姿态和表情的自然表达，而且降低了人力和时间成本的技术效果，进而解决了由于虚拟人物的各个驱动模块之间配合效率较低所导致虚拟人物动作和表情失真的技术问题。

作为一种可选的方案，将频谱特征输入至表情模型中，得到当前表情特征，包括：

S1，将频谱特征输入至表情模型的第一子表情模型，以得到眼睛特征，其中，第一子表情模型用于根据频谱特征确定眼睛变化量，当前表情特征包括眼睛特征；

S2，将频谱特征输入至表情模型的第二子表情模型，以得到嘴部特征，其中，第二子表情模型用于根据频谱特征确定嘴部变化量，当前表情特征包括嘴部特征；

S3，将频谱特征输入至表情模型的第三子表情模型，以得到眉毛特征，其中，第三子表情模型用于根据频谱特征确定眉毛变化量，当前表情特征包括眉毛特征。

可选的，在本实施例中，表情特征包括眼睛嘴巴和眉毛等特征。

作为一种可选的方案，将频谱特征输入至姿态模型中，得到当前姿态特征，包括：

S1，将频谱特征输入至姿态模型的第一子姿态模型，以得到头部特征，其中，第一子姿态模型用于根据频谱特征确定头部变化量，当前姿态特征包括头部特征；

S2，将频谱特征输入至姿态模型的第二子姿态模型，以得到肢体特征，其中，第二子姿态模型用于根据频谱特征确定肢体变化量，当前姿态特征包括肢体特征。

可选的，在本实施例中，姿态特征可以但不限于包括头部和四肢的特征。

作为一种可选的方案，在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，包括：

S1，获取第一样本视频集合；

S2，为第一样本视频集合中每个第一样本视频按照表情类型定义配置表情特征集合；

S3，将第一样本视频集合及对应的表情特征集合输入初始化的表情模型进行训练，得到训练输出结果，其中，在表情模型的每次训练过程中，根据第一样本视频的视频内容中提取到的多维特征，确定第一样本视频中的音频帧序列对应的第一表情类型集合；

S4，在训练输出结果指示达到第一收敛条件的情况下，确定得到用于获取表情特征集合的表情模型，其中，第一收敛条件用于指示确定出的第一表情类型集合与表情特征集合所指示的表情类型之间的差异度小于等于第一阈值。

作为一种可选的方案，在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，还包括：

S1，获取第二样本视频集合；

S2，为第二样本视频集合中每个第一样本视频按照姿态类型定义配置姿态特征集合；

S3，将第二样本视频集合及对应的姿态特征集合输入初始化的姿态模型进行训练，得到训练输出结果，其中，在姿态模型的每次训练过程中，根据第二样本视频的视频内容中提取到的多维特征，确定第二样本视频中的音频帧序列对应的第一姿态特征集合；

S4，在训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取姿态特征集合的姿态模型，其中，第二收敛条件用于指示确定出的第一姿态特征集合与姿态特征集合所指示的姿态类型之间的差异度小于等于第二阈值。

作为一种可选的方案，方法还包括：

S1，接收客户端发送的当前发音对象的对象身份标签；

S2，从数据库中查找到与对象身份标签对应的虚拟对象；

S3，将虚拟对象发送至客户端。

作为一种可选的方案，对象身份标签包括当前发音对象的声纹特征；

从数据库中查找到与对象身份标签对应的虚拟对象包括：确定出与声纹特征对应的虚拟对象。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述对象显示方法的对象显示装置。该装置包括：

第一获取单元1002，用于获取直播应用中当前发音对象的音频帧序列；

第一发送单元1004，用于将音频帧序列发送至服务器；

第一接收单元1006，用于接收服务器发送的发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，当前表情特征为将音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，当前姿态特征为将频谱特征输入至姿态模型中得到的，表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；

显示单元1008，用于在直播应用的显示界面中显示虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行展示。

作为一种可选的方案，显示单元1008，包括：

获取模块，用于获取当前发音对象的对象身份标签并将对象身份标签发送至服务器；

接收模块，用于接收服务器发送的虚拟对象；其中，虚拟对象为服务器从数据库中查找到与对象身份标签对应的虚拟对象；

显示模块，用于在直播应用的显示界面中显示虚拟对象。

作为一种可选的方案，获取模块，包括：

确定子模块，用于根据频谱特征确定当前发音对象的声纹特征；

发送子模块，用于将声纹特征发送至服务器。

作为一种可选的方案，第一获取单元1002还包括：

匹配模块，用于在检测到直播应用中的自动回复触发操作时，基于直播应用中的评论文本信息匹配对应的回复文本信息；

转换模块，用于将回复文本信息转换为当前发音对象的音频帧序列，以获取当前发音对象的音频帧序列。

根据本发明实施例的另一个方面，还提供了另一种用于实施上述对象显示方法的对象显示装置。该装置包括：

第二接收单元1102，用于接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；

提取单元1104，用于提取音频帧序列中每帧音频各自对应的频谱特征；

第二获取单元1106，用于将频谱特征输入至表情模型中，得到当前表情特征，并将频谱特征输入至姿态模型中，得到当前姿态特征；其中，表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；

第二发送单元1108，用于将发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至客户端。

作为一种可选的方案，第二获取单元1106，包括：

第一输入模块，用于将频谱特征输入至表情模型的第一子表情模型，以得到眼睛特征，其中，第一子表情模型用于根据频谱特征确定眼睛变化量，当前表情特征包括眼睛特征；

第二输入模块，用于将频谱特征输入至表情模型的第二子表情模型，以得到嘴部特征，其中，第二子表情模型用于根据频谱特征确定嘴部变化量，当前表情特征包括嘴部特征；

第三输入模块，用于将频谱特征输入至表情模型的第三子表情模型，以得到眉毛特征，其中，第三子表情模型用于根据频谱特征确定眉毛变化量，当前表情特征包括眉毛特征。

作为一种可选的方案，第二获取单元1106，包括：

第四输入模块，用于将频谱特征输入至姿态模型的第一子姿态模型，以得到头部特征，其中，第一子姿态模型用于根据频谱特征确定头部变化量，当前姿态特征包括头部特征；

第五输入模块，用于将频谱特征输入至姿态模型的第二子姿态模型，以得到肢体特征，其中，第二子姿态模型用于根据频谱特征确定肢体变化量，当前姿态特征包括肢体特征。

作为一种可选的方案，包括：

第三获取单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，获取第一样本视频集合；

第一配置单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，为第一样本视频集合中每个第一样本视频按照表情类型定义配置表情特征集合；

第一训练单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，将第一样本视频集合及对应的表情特征集合输入初始化的表情模型进行训练，得到训练输出结果，其中，在表情模型的每次训练过程中，根据第一样本视频的视频内容中提取到的多维特征，确定第一样本视频中的音频帧序列对应的第一表情类型集合；

第四获取单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，在训练输出结果指示达到第一收敛条件的情况下，确定得到用于获取表情特征集合的表情模型，其中，第一收敛条件用于指示确定出的第一表情类型集合与表情特征集合所指示的表情类型之间的差异度小于等于第一阈值。

作为一种可选的方案，还包括：

第五获取单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，获取第二样本视频集合；

第二配置单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，为第二样本视频集合中每个第一样本视频按照姿态类型定义配置姿态特征集合；

第二训练单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，将第二样本视频集合及对应的姿态特征集合输入初始化的姿态模型进行训练，得到训练输出结果，其中，在姿态模型的每次训练过程中，根据第二样本视频的视频内容中提取到的多维特征，确定第二样本视频中的音频帧序列对应的第一姿态特征集合；

第六获取单元，用于在接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，在训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取姿态特征集合的姿态模型，其中，第二收敛条件用于指示确定出的第一姿态特征集合与姿态特征集合所指示的姿态类型之间的差异度小于等于第二阈值。

作为一种可选的方案，装置还包括：

第二接收单元1102，用于接收客户端发送的当前发音对象的对象身份标签；

查找单元，用于从数据库中查找到与对象身份标签对应的虚拟对象；

第三发送单元，用于将虚拟对象发送至客户端。

查找单元包括：确定模块，用于确定出与声纹特征对应的虚拟对象。

根据本发明实施例的又一个方面，还提供了一种用于实施上述对象显示方法的电子设备，如图10所示，该电子设备包括存储器1002和处理器 1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取直播应用中当前发音对象的音频帧序列；

S2，将音频帧序列发送至服务器；接收服务器发送的发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，当前表情特征为将音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，当前姿态特征为将频谱特征输入至姿态模型中得到的；表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；

S3，在直播应用的显示界面中显示虚拟对象，并控制虚拟对象按照当前表情特征和当前姿态特征进行展示。或，

S1，接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；

S2，提取音频帧序列中每帧音频各自对应的频谱特征；

S3，将频谱特征输入至表情模型中，得到当前表情特征，并将频谱特征输入至姿态模型中，得到当前姿态特征；其中，表情模型为利用第一样本视频进行多次训练得到的用于预估第一样本视频中显示的对象的表情特征的神经网络模型，姿态模型为利用第二样本视频进行多次训练得到的用于预估第二样本视频中显示的对象的姿态特征的神经网络模型；

S4，将发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至客户端。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的对象显示方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的对象显示方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储音频帧序列，表情特征和姿态特征等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述对象显示装置中的第一获取单元、第一发送单元、第一接收单元与显示单元(或未显示的第二接收单元、提取单元、第二获取单元与第二发送单元)。此外，还可以包括但不限于上述道具获取装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示上述音频帧序列，表情特征和姿态特征；和连接总线1012，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取直播应用中当前发音对象的音频帧序列；

S2，提取音频帧序列中每帧音频各自对应的频谱特征；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对象显示方法，其特征在于，包括：

获取直播应用中当前发音对象的音频帧序列；

将所述音频帧序列发送至服务器；接收所述服务器发送的所述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，所述当前表情特征为将所述音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，所述当前姿态特征为将所述频谱特征输入至姿态模型中得到的；所述表情模型为利用第一样本视频进行多次训练得到的用于预估所述第一样本视频中显示的对象的表情特征的神经网络模型，所述姿态模型为利用第二样本视频进行多次训练得到的用于预估所述第二样本视频中显示的对象的姿态特征的神经网络模型；

在所述直播应用的显示界面中显示所述虚拟对象，并控制所述虚拟对象按照所述当前表情特征和所述当前姿态特征进行展示。

2.根据权利要求1所述的方法，其特征在于，在所述直播应用的显示界面中显示所述虚拟对象，包括：

获取所述当前发音对象的对象身份标签并将所述对象身份标签发送至所述服务器；

接收所述服务器发送的所述虚拟对象；其中，所述虚拟对象为所述服务器从数据库中查找到与所述对象身份标签对应的虚拟对象；

在所述直播应用的显示界面中显示所述虚拟对象。

3.根据权利要求2所述的方法，其特征在于，所述获取所述当前发音对象的对象身份标签并将所述对象身份标签发送至所述服务器，包括：

根据所述频谱特征确定所述当前发音对象的声纹特征；

将所述声纹特征发送至所述服务器。

4.根据权利要求1所述的方法，其特征在于，所述获取直播应用中当前发音对象的音频帧序列还包括：

在检测到所述直播应用中的自动回复触发操作时，基于所述直播应用中的评论文本信息匹配对应的回复文本信息；

将所述回复文本信息转换为所述当前发音对象的音频帧序列。

5.一种对象显示方法，其特征在于，包括

接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；

提取所述音频帧序列中每帧音频各自对应的频谱特征；

将所述频谱特征输入至表情模型中，得到当前表情特征，并将所述频谱特征输入至姿态模型中，得到当前姿态特征；其中，所述表情模型为利用第一样本视频进行多次训练得到的用于预估所述第一样本视频中显示的对象的表情特征的神经网络模型，所述姿态模型为利用第二样本视频进行多次训练得到的用于预估所述第二样本视频中显示的对象的姿态特征的神经网络模型；

将所述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至所述客户端。

6.根据权利要求5所述的方法，其特征在于，将所述频谱特征输入至表情模型中，得到当前表情特征，包括：

将所述频谱特征输入至所述表情模型的第一子表情模型，以得到眼睛特征，其中，所述第一子表情模型用于根据所述频谱特征确定眼睛变化量，所述当前表情特征包括所述眼睛特征；

将所述频谱特征输入至所述表情模型的第二子表情模型，以得到嘴部特征，其中，所述第二子表情模型用于根据所述频谱特征确定嘴部变化量，所述当前表情特征包括所述嘴部特征；

将所述频谱特征输入至所述表情模型的第三子表情模型，以得到眉毛特征，其中，所述第三子表情模型用于根据所述频谱特征确定眉毛变化量，所述当前表情特征包括所述眉毛特征。

7.根据权利要求5所述的方法，其特征在于，将所述频谱特征输入至姿态模型中，得到当前姿态特征，包括：

将所述频谱特征输入至所述姿态模型的第一子姿态模型，以得到头部特征，其中，所述第一子姿态模型用于根据所述频谱特征确定头部变化量，所述当前姿态特征包括所述头部特征；

将所述频谱特征输入至所述姿态模型的第二子姿态模型，以得到肢体特征，其中，所述第二子姿态模型用于根据所述频谱特征确定肢体变化量，所述当前姿态特征包括所述肢体特征。

8.根据权利要求5所述的方法，其特征在于，在所述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，包括：

获取第一样本视频集合；

为所述第一样本视频集合中每个第一样本视频按照表情类型定义配置所述表情特征集合；

将所述第一样本视频集合及对应的所述表情特征集合输入初始化的表情模型进行训练，得到训练输出结果，其中，在所述表情模型的每次训练过程中，根据所述第一样本视频的视频内容中提取到的多维特征，确定所述第一样本视频中的音频帧序列对应的第一表情类型集合；

在所述训练输出结果指示达到第一收敛条件的情况下，确定得到用于获取所述表情特征集合的表情模型，其中，所述第一收敛条件用于指示确定出的所述第一表情类型集合与所述表情特征集合所指示的表情类型之间的差异度小于等于第一阈值。

9.根据权利要求5所述的方法，其特征在于，在所述接收运行有直播应用的客户端发送的当前发音对象的音频帧序列之前，还包括：

获取第二样本视频集合；

为所述第二样本视频集合中每个第一样本视频按照姿态类型定义配置所述姿态特征集合；

将所述第二样本视频集合及对应的所述姿态特征集合输入初始化的姿态模型进行训练，得到训练输出结果，其中，在所述姿态模型的每次训练过程中，根据所述第二样本视频的视频内容中提取到的多维特征，确定所述第二样本视频中的音频帧序列对应的第一姿态特征集合；

在所述训练输出结果指示达到第二收敛条件的情况下，确定得到用于获取所述姿态特征集合的姿态模型，其中，所述第二收敛条件用于指示确定出的所述第一姿态特征集合与所述姿态特征集合所指示的姿态类型之间的差异度小于等于第二阈值。

10.根据权利要求5至9中任一项所述的方法，其特征在于，所述方法还包括：

接收所述客户端发送的所述当前发音对象的对象身份标签；

从数据库中查找到与所述对象身份标签对应的所述虚拟对象；

将所述虚拟对象发送至所述客户端。

11.根据权利要求10所述的方法，其特征在于，所述对象身份标签包括所述当前发音对象的声纹特征；

所述从数据库中查找到与所述对象身份标签对应的所述虚拟对象包括：确定出与所述声纹特征对应的虚拟对象。

12.一种对象显示装置，其特征在于，包括：

第一获取单元，用于获取直播应用中当前发音对象的音频帧序列；

第一发送单元，用于将所述音频帧序列发送至服务器；

第一接收单元，用于接收所述服务器发送的所述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征；其中，所述当前表情特征为将所述音频帧序列中的每帧音频各自对应的频谱特征输入至表情模型中得到的，所述当前姿态特征为将所述频谱特征输入至姿态模型中得到的，所述表情模型为利用第一样本视频进行多次训练得到的用于预估所述第一样本视频中显示的对象的表情特征的神经网络模型，所述姿态模型为利用第二样本视频进行多次训练得到的用于预估所述第二样本视频中显示的对象的姿态特征的神经网络模型；

显示单元，用于在所述直播应用的显示界面中显示所述虚拟对象，并控制所述虚拟对象按照所述当前表情特征和所述当前姿态特征进行展示。

13.一种对象显示装置，其特征在于，包括

第二接收单元，用于接收运行有直播应用的客户端发送的当前发音对象的音频帧序列；

提取单元，用于提取所述音频帧序列中每帧音频各自对应的频谱特征；

第二获取单元，用于将所述频谱特征输入至表情模型中，得到当前表情特征，并将所述频谱特征输入至姿态模型中，得到当前姿态特征；其中，所述表情模型为利用第一样本视频进行多次训练得到的用于预估所述第一样本视频中显示的对象的表情特征的神经网络模型，所述姿态模型为利用第二样本视频进行多次训练得到的用于预估所述第二样本视频中显示的对象的姿态特征的神经网络模型；

第二发送单元，用于将所述发音对象对应的虚拟对象，以及当前表情特征和当前姿态特征发送至所述客户端。

14.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至4或5至11任一项中所述的方法。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至4或5至11任一项中所述的方法。