CN109410297A

CN109410297A - 一种用于生成虚拟化身形象的方法与装置

Info

Publication number: CN109410297A
Application number: CN201811076442.9A
Authority: CN
Inventors: 李茂�; 闻亚洲
Original assignee: Chongqing IQIYI Intelligent Technology Co Ltd
Current assignee: Chongqing IQIYI Intelligent Technology Co Ltd
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2019-03-01

Abstract

本申请的目的是提供一种生成虚拟化身形象的方法与设备。本申请能够基于用户的语音信息，来确定与所述语音信息相对应的所述虚拟化身形象的表情信息，并根据所述表情信息，更新所述虚拟化身形象的展现状态。与现有技术相比，本申请提高了虚拟环境下虚拟化身交互的自然感，满足了用户多人交互的需求，提升了用户体验。

Description

一种用于生成虚拟化身形象的方法与装置

技术领域

本申请涉及虚拟现实技术领域，尤其涉及一种用于生成虚拟化身形象的技术。

背景技术

虚拟现实技术(VR，Virtual Reality)的发展使得多用户之间能够通过VR进行多人在线互动交流。当多人VR交流时，需要为每名用户生成对应的虚拟化身形象，以使得用户借助该虚拟化身形象，来实现真实的交互效果。因此，所生成的虚拟化身形象直接关系着用户的VR体验。

发明内容

本申请的目的是提供一种用于生成虚拟化身形象的方法与设备。

根据本申请的一个实施例，提供了一种用于生成虚拟化身形象的方法，其中，该方法包括以下步骤：

a确定与用户相对应的虚拟化身形象；

b获取所述用户的语音信息；

c对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息；

d根据所述表情信息，更新所述虚拟化身形象的展现状态。

可选地，所述步骤c包括以下至少任一项：

c1对所述语音信息进行语义识别和情感分析，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息；

c2对所述语音信息进行音频分析，以确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

可选地，所述步骤c1包括：

对所述语音信息进行语义识别和/或情感分析，以确定与所述语音信息相对应的情感类型；

根据所述情感类型，确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

可选地，确定与所述语音信息相对应的情感类型的步骤包括：

对所述语音信息进行语义识别，以提取所述语音信息中的关键词信息；

对所述语音信息进行频谱分析，以确定所述语音信息所对应的情感信息；

根据所述关键词信息和/或情感信息，确定与所述语音信息相对应的情感类型。

可选地，所述步骤c2包括：

对所述语音信息进行音频分析，以确定与所述语音信息相对应的发音信息和/或音调信息；

根据所述发音信息和/或音调信息，确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

可选地，所述步骤a包括：

根据用户的个人信息和/或结合虚拟化身形象所在的场景信息，确定与用户相对应的虚拟化身形象。

可选地，该方法还包括：

获取所述用户的表情信息；

其中，所述步骤c包括：

对所述语音信息进行分析，并结合所述用户的表情信息，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息。

可选地，该方法还包括：

获取用户对输入设备的一个或多个操作信息；

其中，所述步骤d包括：

根据所述表情信息，结合所述操作信息，确定所述虚拟化身形象的动作信息并更新所述虚拟化身形象的展现状态。

可选地，所述步骤d包括：

根据所述表情信息，结合所述虚拟化身形象所在的场景信息，更新所述虚拟化身形象的展现状态。

根据本申请的另一个实施例，还提供了一种用于生成虚拟化身形象的生成设备，其中，所述生成设备包括：

第一装置，用于确定与用户相对应的虚拟化身形象；

第二装置，用于获取所述用户的语音信息；

第三装置，用于对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息；

第四装置，用于根据所述表情信息，更新所述虚拟化身形象的展现状态。

可选地，所述第三装置包括以下至少任一项：

三一单元，用于对所述语音信息进行语义识别和情感分析，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息；

三二单元，用于对所述语音信息进行音频分析，以确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

可选地，所述三一单元用于：

根据所述关键词信息和/或情感信息，确定与所述语音信息相对应的情感类型；

可选地，所述三二单元用于：

可选地，所述第一装置用于：

可选地，所述生成设备还包括：

第五装置，用于获取所述用户的表情信息；

其中，所述第三装置用于：

可选地，所述生成设备还包括：

第六装置，用于获取用户对输入设备的一个或多个操作信息；

其中，所述第四装置用于：

可选地，所述第四装置用于：

根据本申请的另一个实施例，还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述任一项所述的方法。

根据本申请的另一个实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如上述任一项所述的方法。

与现有技术相比，本申请能够基于用户的语音信息，来确定与所述语音信息相对应的所述虚拟化身形象的表情信息，并根据所述表情信息，更新所述虚拟化身形象的展现状态，因此提高了虚拟环境下虚拟化身交互的自然感，满足了用户多人交互的需求，提升了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个实施例的一种用于生成虚拟化身形象的生成设备示意图；

图2示出根据本申请的另一个实施例的一种用于生成虚拟化身形象的生成设备示意图；

图3示出根据本申请的一个实施例的一种用于生成虚拟化身形象的方法流程图；

图4示出根据本申请的另一个实施例的一种用于生成虚拟化身形象的方法流程图；

图5示出根据本申请的一个实施例的一种虚拟化身形象的口型示意图；

图6(a)与图6(b)示出根据本申请的一个实施例的用户对输入设备的一个或多个操作信息示意图；

图7示出了可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存 (flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指生成设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互的电子产品，例如虚拟现实个人终端、个人电脑、智能手机、平板电脑等，所述电子产品可以采用任意操作系统，如windows操作系统、android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN 网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述生成设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在本申请的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。

图1示出根据本申请的一个实施例的一种用于生成虚拟化身形象的生成设备示意图，其中，所述生成设备包括第一装置1、第二装置 2、第三装置3、第四装置4。

具体地，所述第一装置1确定与用户相对应的虚拟化身形象；所述第二装置2获取所述用户的语音信息；所述第三装置3对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息；所述第四装置4根据所述表情信息，更新所述虚拟化身形象的展现状态。

在此，所述虚拟化身形象指的是当用户在VR场景下，与该用户所对应的虚拟形象，该虚拟化身形象代表了用户本身，用户的行为表情等均通过该虚拟化身形象进行展现；当多个用户存在于同一虚拟场景下时，用户通过VR设备，能够看到彼此的虚拟化身形象，并通过虚拟化身形象进行交互。

所述虚拟化身形象包括二维形象以及三维形象(如年龄、性别、面部长相、服饰、配件)、动作、表情等。

所述第一装置1确定与用户相对应的虚拟化身形象。

具体地，所述第一装置1根据以下任意一种或多种方式，来确定与用户相对应的虚拟化身形象：

-随机分配的方式：当用户接入VR或登入特定VR场景时，为该用户随机分配一个虚拟化身形象；

-用户选择的方式：当用户接入VR或登入特定VR场景时，根据用户从预订的多个虚拟化身形象中所选择的形象，来确定与该用户相对应的虚拟化身形象；

-优选地，根据用户的个人信息，确定与用户相对应的虚拟化身形象：在此，所述个人信息包括但不限于该用户的照片、视频、个人资料 (如性别、年龄、职业、喜好等)。例如，根据用户照片，通过将照片进行处理，以生成该用户的虚拟化身形象；或者，例如，根据用户的个人资料，选择适合该用户性别年龄等的虚拟化身形象作为该用户的虚拟化身形象等。在此，所述个人信息可以通过用户输入、实时拍摄、根据所存储的资料进行选择等方式进行获取。

-优选地，根据虚拟化身形象所在的场景信息，确定与用户相对应的虚拟化身形象。在此，所述场景信息包括但不限于当前VR场景的主题、环境、其他参与该场景信息的用户的相关信息等。例如，若当前VR 场景为会议，则为用户选择正装作为虚拟化身形象的服饰，若当前VR 场景为看电影，则为用户选择休闲装作为虚拟化身形象的服饰等。

优选地，所述第一装置1可以根据用户的修改操作，对所确定的虚拟化身形象进行调整，以将调整后的虚拟化身形象作为该用户的虚拟化身形象。

所述第二装置2获取所述用户的语音信息。

具体地，所述第二装置2获取所述用户通过语音输入设备所输入的语音信息，或者所述第二装置2与其他能够提供该用户语音信息的设备相交互，以获取所述用户的语音信息。

所述第三装置3对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息。

具体地，所述第三装置3基于现有的语音分析技术，对所述语音信息中所包含的语义与情感信息进行分析，以获取所述语音信息中的语义信息和/或情感信息；然后，所述第三装置3根据分析得到的语义信息和 /或情感信息，为所述虚拟化身形象确定对应的表情信息。其中，所述情感信息包括但不限于高兴、反感、正常状态、无所谓等态度。

例如，当所述语义信息和/或情感信息表示高兴状态时，则确定所述虚拟化身形象的表情信息为：眼睛、眉毛、唇形、嘴型通过适当的弯曲等明显表达出阳光、乐观的情感，如高兴的程度更深，则可露牙表示愉悦的心情。若当所述语义信息和/或情感信息表示无所谓状态时，则可将虚拟化身形象的五官都远离中心、眼神涣散并呆滞，面部松弛放松，头部可适当偏移以配合表情。如当所述语义信息和/或情感信息表示反感状态时，则可使得所述虚拟化身形象的眉形紧绷并下垂，嘴型紧张并由明显远离的表现，头部可适当偏移以配合表情。如当所述语义信息和/或情感信息表示正常状态时，如当该用户处于初始化、待机等状态时，则可将五官正常随机、微小变动，自然化呈现。

优选地，所述生成设备还包括第五装置(未示出)，其中，所述第五装置获取所述用户的表情信息；所述第三装置3对所述语音信息进行分析，并结合所述用户的表情信息，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息。

具体地，所述第五装置获取所述用户通过表情输入设备(如摄像头或其他设备)所输入的表情信息，在此，所述表情输入设备可通过实时摄像、定时拍照等方式获取所述用户的表情信息。

然后，所述第三装置3基于现有的语音分析技术，对所述语音信息中所包含的语义与情感信息进行分析，以获取所述语音信息中的语义信息和/或情感信息；然后，所述第三装置3通过根据所述语义信息和/或情感信息，结合所述用户的表情信息，确定所述语音信息相对应的所述虚拟化身形象的表情信息。例如，若所述语义信息和/或情感信息、以及所述用户的表情信息均表示高兴，则确定所述虚拟化身形象的表情信息为高兴，并根据当前用户的表情信息对所述虚拟化身形象的表情信息进行调整；若所述语义信息以及情感信息表征用户的情绪为高兴，而所述用户的表情信息为正常，则可将所述虚拟化身形象的表情信息确定为高兴等。

本领域技术人员应能理解，所述表情信息可以作为所述虚拟化身形象的表情信息的表现参考(如确定眉眼弧度、嘴唇曲线等)，也可以作为确定所述虚拟化身形象的表情信息的依据(如确定高兴、反感等情绪信息)。

所述第四装置4根据所述表情信息，更新所述虚拟化身形象的展现状态。

具体地，所述第四装置4根据所述表情信息，将所述表情信息展现在所述第一装置1所确定的虚拟化身形象上，使得所述虚拟化身形象的表情信息进行更新。

在此，本领域技术人员应能理解，所述虚拟化身形象的表情信息的确定以及所述虚拟化身形象的展现状态的更新均是实时且连续进行的。

优选地，所述第四装置4根据所述表情信息，结合所述虚拟化身形象所在的场景信息，更新所述虚拟化身形象的展现状态。

具体地，所述第四装置4根据所确定的表情信息，结合所述场景信息对所述表情信息进行调整或确认；例如，若所述表情信息为高兴，所述场景信息为会议，则所述表情信息所对应的唇部弧度更收敛；若所述表情信息为高兴，所述场景信息为聚会，则所述表情信息所对应的唇部弧度更大等。例如，若所述表情信息为正常，当所述场景信息为白天时，该表情信息所对应的眼部状态为普通状态；当所述场景信息为黑天时，则该表情信息所对应的眼部状态为困倦状态。

在此，所述场景信息包括但不限于当前VR场景的主题、环境、时间以及其他参与该场景信息的用户的相关信息等中的一项或多项。

优选地，所述生成设备还包括第六装置(未示出)，其中，所述第六装置获取用户对输入设备的一个或多个操作信息；所述第四装置4根据所述表情信息，结合所述操作信息，确定所述虚拟化身形象的动作信息并更新所述虚拟化身形象的展现状态。

具体地，所述第六装置获取所述用户通过任意输入设备(如摄像头、遥控器、触摸屏等)所输入的操作信息，其中，所述操作信息包括但不限于声音、表情、手势、按键、触摸等。

图6(a)与图6(b)示出根据本申请的一个实施例的用户对输入设备的一个或多个操作信息示意图。其中，图6(a)分别示出了指向、针对、拳头的手势，图6(b)分别示出了赞/踩、打招呼等手势。所述第六装置可以通过摄像头拍摄到上述手势，以作为操作信息；也可以通过对遥控器按键的控制，根据对特定按键或按键组合的操作来触发上述操作信息；也可以通过对触摸屏的触摸操作，来触发上述操作信息等。

然后，所述第四装置4根据所述操作信息，确定所述虚拟化身形象所对应的动作信息，并根据所述表情信息，确定所述虚拟化身形象的表情信息，最终更新所述虚拟化身形象的展现状态；或者，所述第四装置4根据所述操作信息与所述表情信息，同时来确定所述虚拟化身形象的动作信息，如根据所述操作信息对所述表情信息进行微调，或者根据所述表情信息来对所述操作信息进行微调，以使得所述虚拟化身形象的身体动作与表情信息相协调，从而确定所述虚拟化身形象的动作信息并更新所述虚拟化身形象的展现状态。其中，所述身体动作包括但不限于手势动作、肢体动作等任意动作行为。

图2示出根据本申请的另一个实施例的一种用于生成虚拟化身形象的生成设备示意图；其中，所述生成设备包括第一装置1、第二装置2、第三装置3、第四装置4，所述第三装置3包括三一单元31以及三二单元32。

具体地，所述第一装置1确定与用户相对应的虚拟化身形象；所述第二装置2获取所述用户的语音信息；所述第三装置3对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息；所述第四装置4根据所述表情信息，更新所述虚拟化身形象的展现状态；其中，所述三一单元31对所述语音信息进行语义识别和情感分析，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息；所述三二单元32对所述语音信息进行音频分析，以确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

其中，所述第一装置1、所述第二装置2以及所述第四装置4与图 1所示的对应装置相同或相似，故在此不再赘述。

本领域技术人员应能理解，所述第三装置3可以包括所述三一单元 31和/或所述三二单元32中的至少任一项；在一种优选实施例中，所述第三装置3同时包括所述三一单元31以及所述三二单元32，以实现更好的处理效果。

所述三一单元31对所述语音信息进行语义识别和情感分析，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

具体地，所述三一单元31通过对所述语音信息进行语义识别，以确定所述语音信息所对应的语义；在此，所述语义识别可以将所述语音信息完全识别，也可以提取所述语音信息中的关键词，例如，“高兴”、 “烦”、“唉”(叹气)等表示情绪的词。

然后，所述三一单元31还可以对所述语音信息进行情感分析，在此，所述情感分析可以通过对音频的语速、语调等进行数据分析，如根据高频、低频、持续时间等频谱信息来确定所述语音信息所对应的情绪信息，例如，若通过音频分析得知音调高亢且短促，则可认为所述情绪信息为恐惧。

然后，所述三一单元31根据所述语义识别以及所述情感分析得到的信息，确定所述语音信息相对应的情绪信息，进而确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。例如，不同的情绪信息的数据对应于不同的唇部弧度、眉眼角度、头部偏移角度等，而上述唇部弧度、眉眼角度、头部偏移角度又将进一步影响肌肉纹理走向等面部表情信息。

优选地，所述三一单元31对所述语音信息进行语义识别和/或情感分析，以确定与所述语音信息相对应的情感类型；根据所述情感类型，确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

具体地，所述三一单元31通过对所述语音信息进行语义识别和/或情感分析后，根据所述语义识别中的语句、关键词，和/或所述情感分析中的情绪信息，根据预先设定的映射关系，将语义和/或情绪信息确定为与所述语音信息相对应的情感类型。在此，所述情感类型包括但不限于如高兴、愤怒、反感、正常、无所谓、伤心等。

不同的情感类型对应于不同的面部表情信息模型，当确定了所述情感类型后，所述三一单元31直接调用相应的面部表情信息模型，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

更优选地，所述三一单元31对所述语音信息进行语义识别，以提取所述语音信息中的关键词信息；对所述语音信息进行频谱分析，以确定所述语音信息所对应的情感信息；根据所述关键词信息和/或情感信息，确定与所述语音信息相对应的情感类型；根据所述情感类型，确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

具体地，所述三一单元31通过对所述语音信息进行语义识别，通过将所识别的语义与预先设置的关键词列表进行匹配，以确定所述语义识别中的关键词信息；然后基于所述关键词信息，如“高兴”、“难过”、 “伤心”等，确定所述语音信息相对应的情感类型。

所述三一单元31还通过对所述语音信息进行频谱分析，根据所述频谱分析所得到的音频高低、时长信息等，确定所述语音信息所对应的情感信息，进一步地，确定所述情感类型。

最后，所述三一单元31根据所述情感类型，直接调用相应的面部表情信息模型，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

所述三二单元32对所述语音信息进行音频分析，以确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

具体地，所述三二单元32通过对所述语音信息进行音频分析，例如通过音频的高中低音频谱等信息，以确定与所述语音信息相对应的音频高低；然后根据不同的音频信息，确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

在此，图5示出根据本申请的一个实施例的一种虚拟化身形象的口型示意图。所述口型包括但不限于低音、中低音、中高音、高音等分类。例如，当所述音频分析得出该语音信息为高音时，则采用高音所对应的口型信息，作为该虚拟化身形象的口型动作。

优选地，所述三二单元32对所述语音信息进行音频分析，以确定与所述语音信息相对应的发音信息和/或音调信息；根据所述发音信息和/或音调信息，确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

具体地，所述三二单元32通过对所述语音信息进行音频分析后，根据频谱信息等数据，确定与所述语音信息相对应的发音信息和/或音调信息。其中，所述发音信息包括但不限于各类元音、辅音、浊音、清音等，根据不同的发音信息，所述三二单元32可以确定不同的口型动作，如元音等需要开口口型；所述音调信息包括但不限于低音、中低音、中高音、高音等，不同的音调信息也对应于不同的口型，如图5所示。

所述三二单元32可以分别基于发音信息和/或音调信息来确定口型动作，也可以将两者进行结合，以确定口型动作。如元音+低音，则属于开口不大的开口口型；元音+高音，则属于开口相对较大的开口口型等。

图3示出根据本申请的一个实施例的一种用于生成虚拟化身形象的方法流程图。

具体地，在步骤S1中，所述生成设备确定与用户相对应的虚拟化身形象；在步骤S2中，所述生成设备获取所述用户的语音信息；在步骤S3中，所述生成设备对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息；在步骤S4中，所述生成设备根据所述表情信息，更新所述虚拟化身形象的展现状态。

在步骤S1中，所述生成设备确定与用户相对应的虚拟化身形象。

具体地，在步骤S1中，所述生成设备根据以下任意一种或多种方式，来确定与用户相对应的虚拟化身形象：

优选地，在步骤S1中，所述生成设备可以根据用户的修改操作，对所确定的虚拟化身形象进行调整，以将调整后的虚拟化身形象作为该用户的虚拟化身形象。

在步骤S2中，所述生成设备获取所述用户的语音信息。

具体地，在步骤S2中，所述生成设备获取所述用户通过语音输入设备所输入的语音信息，或者在步骤S2中，所述生成设备与其他能够提供该用户语音信息的设备相交互，以获取所述用户的语音信息。

在步骤S3中，所述生成设备对所述语音信息进行分析，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息。

具体地，在步骤S3中，所述生成设备基于现有的语音分析技术，对所述语音信息中所包含的语义与情感信息进行分析，以获取所述语音信息中的语义信息和/或情感信息；然后，在步骤S3中，所述生成设备根据分析得到的语义信息和/或情感信息，为所述虚拟化身形象确定对应的表情信息。其中，所述情感信息包括但不限于高兴、反感、正常状态、无所谓等态度。

优选地，所述方法还包括步骤S5(未示出)，其中，在步骤S5中，所述生成设备获取所述用户的表情信息；在步骤S3中，所述生成设备对所述语音信息进行分析，并结合所述用户的表情信息，以确定与所述语音信息相对应的所述虚拟化身形象的表情信息。

具体地，在步骤S5中，所述生成设备获取所述用户通过表情输入设备(如摄像头或其他设备)所输入的表情信息，在此，所述表情输入设备可通过实时摄像、定时拍照等方式获取所述用户的表情信息。

然后，在步骤S3中，所述生成设备基于现有的语音分析技术，对所述语音信息中所包含的语义与情感信息进行分析，以获取所述语音信息中的语义信息和/或情感信息；然后，所述生成设备通过根据所述语义信息和/或情感信息，结合所述用户的表情信息，确定所述语音信息相对应的所述虚拟化身形象的表情信息。例如，若所述语义信息和/或情感信息、以及所述用户的表情信息均表示高兴，则确定所述虚拟化身形象的表情信息为高兴，并根据当前用户的表情信息对所述虚拟化身形象的表情信息进行调整；若所述语义信息以及情感信息表征用户的情绪为高兴，而所述用户的表情信息为正常，则可将所述虚拟化身形象的表情信息确定为高兴等。

在步骤S4中，所述生成设备根据所述表情信息，更新所述虚拟化身形象的展现状态。

具体地，在步骤S4中，所述生成设备根据所述表情信息，将所述表情信息展现在所述生成设备所确定的虚拟化身形象上，使得所述虚拟化身形象的表情信息进行更新。

优选地，在步骤S4中，所述生成设备根据所述表情信息，结合所述虚拟化身形象所在的场景信息，更新所述虚拟化身形象的展现状态。

具体地，在步骤S4中，所述生成设备根据所确定的表情信息，结合所述场景信息对所述表情信息进行调整或确认；例如，若所述表情信息为高兴，所述场景信息为会议，则所述表情信息所对应的唇部弧度更收敛；若所述表情信息为高兴，所述场景信息为聚会，则所述表情信息所对应的唇部弧度更大等。例如，若所述表情信息为正常，当所述场景信息为白天时，该表情信息所对应的眼部状态为普通状态；当所述场景信息为黑天时，则该表情信息所对应的眼部状态为困倦状态。

优选地，所述方法还包括步骤S6(未示出)，其中，在步骤S6中，所述生成设备获取用户对输入设备的一个或多个操作信息；在步骤S4 中，所述生成设备根据所述表情信息，结合所述操作信息，确定所述虚拟化身形象的动作信息并更新所述虚拟化身形象的展现状态。

具体地，在步骤S6中，所述生成设备获取所述用户通过任意输入设备(如摄像头、遥控器、触摸屏等)所输入的操作信息，其中，所述操作信息包括但不限于声音、表情、手势、按键、触摸等。

图6(a)与图6(b)示出根据本申请的一个实施例的用户对输入设备的一个或多个操作信息示意图。其中，图6(a)分别示出了指向、针对、拳头的手势，图6(b)分别示出了赞/踩、打招呼等手势。所述生成设备可以通过摄像头拍摄到上述手势，以作为操作信息；也可以通过对遥控器按键的控制，根据对特定按键或按键组合的操作来触发上述操作信息；也可以通过对触摸屏的触摸操作，来触发上述操作信息等。

然后，在步骤S4中，所述生成设备根据所述操作信息，确定所述虚拟化身形象所对应的动作信息，并根据所述表情信息，确定所述虚拟化身形象的表情信息，最终更新所述虚拟化身形象的展现状态；或者，在步骤S4中，所述生成设备根据所述操作信息与所述表情信息，同时来确定所述虚拟化身形象的动作信息，如根据所述操作信息对所述表情信息进行微调，或者根据所述表情信息来对所述操作信息进行微调，以使得所述虚拟化身形象的身体动作与表情信息相协调，从而确定所述虚拟化身形象的动作信息并更新所述虚拟化身形象的展现状态。其中，所述身体动作包括但不限于手势动作、肢体动作等任意动作行为。

图4示出根据本申请的另一个实施例的一种用于生成虚拟化身形象的方法流程图。

具体地，在步骤S1中，所述生成设备确定与用户相对应的虚拟化身形象；在步骤S2中，所述生成设备获取所述用户的语音信息；在步骤S31中，所述生成设备对所述语音信息进行语义识别和情感分析，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息；在步骤S32中，所述生成设备对所述语音信息进行音频分析，以确定与所述语音信息相对应的所述虚拟化身形象的口型动作；在步骤S4中，所述生成设备根据所述表情信息，更新所述虚拟化身形象的展现状态。

其中，所述步骤S1、所述步骤S2以及所述步骤S4与图3所示的对应步骤相同或相似，故在此不再赘述。

本领域技术人员应能理解，所述方法可以执行所述步骤S31和/或所述步骤S32中的至少任一项；在一种优选实施例中，所述方法同时执行所述步骤S31以及所述步骤S32，以实现更好的处理效果。

在步骤S31中，所述生成设备对所述语音信息进行语义识别和情感分析，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

具体地，在步骤S31中，所述生成设备通过对所述语音信息进行语义识别，以确定所述语音信息所对应的语义；在此，所述语义识别可以将所述语音信息完全识别，也可以提取所述语音信息中的关键词，例如， “高兴”、“烦”、“唉”(叹气)等表示情绪的词。

然后，在步骤S31中，所述生成设备还可以对所述语音信息进行情感分析，在此，所述情感分析可以通过对音频的语速、语调等进行数据分析，如根据高频、低频、持续时间等频谱信息来确定所述语音信息所对应的情绪信息，例如，若通过音频分析得知音调高亢且短促，则可认为所述情绪信息为恐惧。

然后，在步骤S31中，所述生成设备根据所述语义识别以及所述情感分析得到的信息，确定所述语音信息相对应的情绪信息，进而确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。例如，不同的情绪信息的数据对应于不同的唇部弧度、眉眼角度、头部偏移角度等，而上述唇部弧度、眉眼角度、头部偏移角度又将进一步影响肌肉纹理走向等面部表情信息。

优选地，在步骤S31中，所述生成设备对所述语音信息进行语义识别和/或情感分析，以确定与所述语音信息相对应的情感类型；根据所述情感类型，确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

具体地，在步骤S31中，所述生成设备通过对所述语音信息进行语义识别和/或情感分析后，根据所述语义识别中的语句、关键词，和/或所述情感分析中的情绪信息，根据预先设定的映射关系，将语义和/或情绪信息确定为与所述语音信息相对应的情感类型。在此，所述情感类型包括但不限于如高兴、愤怒、反感、正常、无所谓、伤心等。

不同的情感类型对应于不同的面部表情信息模型，当确定了所述情感类型后，在步骤S31中，所述生成设备直接调用相应的面部表情信息模型，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

更优选地，在步骤S31中，所述生成设备对所述语音信息进行语义识别，以提取所述语音信息中的关键词信息；对所述语音信息进行频谱分析，以确定所述语音信息所对应的情感信息；根据所述关键词信息和 /或情感信息，确定与所述语音信息相对应的情感类型；根据所述情感类型，确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

具体地，在步骤S31中，所述生成设备通过对所述语音信息进行语义识别，通过将所识别的语义与预先设置的关键词列表进行匹配，以确定所述语义识别中的关键词信息；然后基于所述关键词信息，如“高兴”、 “难过”、“伤心”等，确定所述语音信息相对应的情感类型。

在步骤S31中，所述生成设备还通过对所述语音信息进行频谱分析，根据所述频谱分析所得到的音频高低、时长信息等，确定所述语音信息所对应的情感信息，进一步地，确定所述情感类型。

最后，在步骤S31中，所述生成设备根据所述情感类型，直接调用相应的面部表情信息模型，以确定与所述语音信息相对应的所述虚拟化身形象的面部表情信息。

在步骤S32中，所述生成设备对所述语音信息进行音频分析，以确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

具体地，在步骤S32中，所述生成设备通过对所述语音信息进行音频分析，例如通过音频的高中低音频谱等信息，以确定与所述语音信息相对应的音频高低；然后根据不同的音频信息，确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

优选地，在步骤S32中，所述生成设备对所述语音信息进行音频分析，以确定与所述语音信息相对应的发音信息和/或音调信息；根据所述发音信息和/或音调信息，确定与所述语音信息相对应的所述虚拟化身形象的口型动作。

具体地，在步骤S32中，所述生成设备通过对所述语音信息进行音频分析后，根据频谱信息等数据，确定与所述语音信息相对应的发音信息和/或音调信息。其中，所述发音信息包括但不限于各类元音、辅音、浊音、清音等，根据不同的发音信息，所述生成设备可以确定不同的口型动作，如元音等需要开口口型；所述音调信息包括但不限于低音、中低音、中高音、高音等，不同的音调信息也对应于不同的口型，如图 5所示。

在步骤S32中，所述生成设备可以分别基于发音信息和/或音调信息来确定口型动作，也可以将两者进行结合，以确定口型动作。如元音+ 低音，则属于开口不大的开口口型；元音+高音，则属于开口相对较大的开口口型等。

在一些实施例中，系统700能够作为图1、图2、图3、图4、图 5、图6(a)以及图6(b)所示的实施例或其他所述实施例中的任意一个远程计算设备。在一些实施例中，系统700可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备720) 以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器705)。

对于一个实施例，系统控制模块710可包括任意适当的接口控制器，以向(一个或多个)处理器705中的至少一个和/或与系统控制模块710通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块710可包括存储器控制器模块730，以向系统存储器715提供接口。存储器控制器模块730可以是硬件模块、软件模块和/或固件模块。

系统存储器715可被用于例如为系统700加载和存储数据和/或指令。对于一个实施例，系统存储器715可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器715可包括双倍数据速率类型四同步动态随机存取存储器 (DDR4SDRAM)。

对于一个实施例，系统控制模块710可包括一个或多个输入/输出 (I/O)控制器，以向NVM/存储设备720及(一个或多个)通信接口725 提供接口。

例如，NVM/存储设备720可被用于存储数据和/或指令。NVM/ 存储设备720可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备720可包括在物理上作为系统700被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备720可通过网络经由(一个或多个)通信接口725进行访问。

(一个或多个)通信接口725可为系统700提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统700可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器705中的至少一个可与系统控制模块710的一个或多个控制器(例如，存储器控制器模块730) 的逻辑封装在一起。对于一个实施例，(一个或多个)处理器705中的至少一个可与系统控制模块710的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器705 中的至少一个可与系统控制模块710的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器705中的至少一个可与系统控制模块710的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统700可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统700可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统700包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM 存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM, DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

在权利要求书中规定了各个实施例的各个方面。在下列编号条款中规定了各个实施例的这些和其他方面：

1.一种用于生成虚拟化身形象的方法，其中，该方法包括以下步骤：

a确定与用户相对应的虚拟化身形象；

b获取所述用户的语音信息；

d根据所述表情信息，更新所述虚拟化身形象的展现状态。

2.根据条款1所述的方法，其中，所述步骤c包括以下至少任一项：

3.根据条款2所述的方法，其中，所述步骤c1包括：

4.根据条款3所述的方法，其中，确定与所述语音信息相对应的情感类型的步骤包括：

5.根据条款2至4中任一项所述的方法，其中，所述步骤c2包括：

6.根据条款1至5中任一项所述的方法，其中，所述步骤a包括：

7.根据条款1至6中任一项所述的方法，其中，该方法还包括：

获取所述用户的表情信息；

其中，所述步骤c包括：

8.根据条款1至7中任一项所述的方法，其中，该方法还包括：

获取用户对输入设备的一个或多个操作信息；

其中，所述步骤d包括：

9.根据条款1至8中任一项所述的方法，其中，所述步骤d包括：

10.一种用于生成虚拟化身形象的生成设备，其中，所述生成设备包括：

第一装置，用于确定与用户相对应的虚拟化身形象；

第二装置，用于获取所述用户的语音信息；

11.根据条款10所述的生成设备，其中，所述第三装置包括以下至少任一项：

12.根据条款11所述的生成设备，其中，所述三一单元用于：

13.根据条款12所述的生成设备，其中，所述三一单元用于：

14.根据条款11至13中任一项所述的生成设备，其中，所述三二单元用于：

15.根据条款10至14中任一项所述的生成设备，其中，所述第一装置用于：

16.根据条款10至15中任一项所述的生成设备，其中，所述生成设备还包括：

第五装置，用于获取所述用户的表情信息；

其中，所述第三装置用于：

17.根据条款10至16中任一项所述的生成设备，其中，所述生成设备还包括：

其中，所述第四装置用于：

18.根据条款10至17中任一项所述的生成设备，其中，所述第四装置用于：

19.一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如条款1至9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如条款1-9中任一项所述的方法。

Claims

a确定与用户相对应的虚拟化身形象；

b获取所述用户的语音信息；

d根据所述表情信息，更新所述虚拟化身形象的展现状态。

2.根据权利要求1所述的方法，其中，所述步骤c包括以下至少任一项：

3.根据权利要求2所述的方法，其中，所述步骤c1包括：

4.根据权利要求3所述的方法，其中，确定与所述语音信息相对应的情感类型的步骤包括：

5.根据权利要求2至4中任一项所述的方法，其中，所述步骤c2包括：

6.根据权利要求1至5中任一项所述的方法，其中，所述步骤a包括：

根据用户的个人信息和/或结合虚拟化身形象所在的场景信息，，确定与用户相对应的虚拟化身形象。

7.根据权利要求1至6中任一项所述的方法，其中，该方法还包括：

获取所述用户的表情信息；

其中，所述步骤c包括：

8.根据权利要求1至7中任一项所述的方法，其中，该方法还包括：

获取用户对输入设备的一个或多个操作信息；

其中，所述步骤d包括：

9.根据权利要求1至8中任一项所述的方法，其中，所述步骤d包括：

第一装置，用于确定与用户相对应的虚拟化身形象；

第二装置，用于获取所述用户的语音信息；

11.根据权利要求10所述的生成设备，其中，所述第三装置包括以下至少任一项：

12.根据权利要求11所述的生成设备，其中，所述三一单元用于：

13.根据权利要求12所述的生成设备，其中，所述三一单元用于：

14.根据权利要求11至13中任一项所述的生成设备，其中，所述三二单元用于：

15.根据权利要求10至14中任一项所述的生成设备，其中，所述第一装置用于：

16.根据权利要求10至15中任一项所述的生成设备，其中，所述生成设备还包括：

第五装置，用于获取所述用户的表情信息；

其中，所述第三装置用于：

17.根据权利要求10至16中任一项所述的生成设备，其中，所述生成设备还包括：

其中，所述第四装置用于：

18.根据权利要求10至17中任一项所述的生成设备，其中，所述第四装置用于：

19.一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如权利要求1-9中任一项所述的方法。