CN111145777A

CN111145777A - 一种虚拟形象展示方法、装置、电子设备及存储介质

Info

Publication number: CN111145777A
Application number: CN201911408310.6A
Authority: CN
Inventors: 欧阳烨; 黄海溪
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本申请公开了一种虚拟形象展示方法、装置、电子设备及存储介质，其中，所述方法包括：基于采集到的用户的语音信息分析得到所述用户的意图和/或情感；基于当前系统的状态、所述用户的意图和/或情感，分析得到虚拟形象对应的表情、动作、道具中至少之一；确定针对所述用户的语音信息的回复内容，基于所述回复内容确定口型信息；输出所述回复内容所对应的音频信息，控制同步播放所述虚拟形象对应的所述口型信息，并且控制同步展示所述虚拟形象对应的表情、动作、道具中至少之一。

Description

一种虚拟形象展示方法、装置、电子设备及存储介质

技术领域

本申请涉及信息处理领域，尤其涉及一种虚拟形象展示方法、装置、电子设备及存储介质。

背景技术

随着生活智能化水平的提高，电子设备，尤其是智能终端能够为用户提供的应用所适用的场景越来越多，除了基础的通信功能之外，更加注重人机交互的有效性以及可懂性，由此产生了语音助理形象。所述语音助理形象指由计算机生成的能够开口说话的虚拟形象，是智能语音助理的具象化表现。人们在进行交流的时候，除了语音语言信息，还伴随着非语言动作，例如口型、点头、眨眼、手势等。这些自然的动作具有重要的辅助言语的提示作用，也反映了说话人的情感状态。因此，要实现智能语音助理与用户之间的自然逼真的交流，需要借由虚拟形象的非言语动作来辅助。

发明内容

本申请提供一种虚拟形象展示方法、装置、电子设备及存储介质，以解决现有技术中存在的上述问题。

本发明一方面提供一种虚拟形象展示方法，所述方法包括：

基于采集到的用户的语音信息分析得到所述用户的意图和/或情感；基于当前系统的状态、所述用户的意图和/或情感，分析得到虚拟形象对应的表情、动作、道具中至少之一；

确定针对所述用户的语音信息的回复内容，基于所述回复内容确定口型信息；

输出所述回复内容所对应的音频信息，控制同步播放所述虚拟形象对应的所述口型信息，并且控制同步展示所述虚拟形象对应的表情、动作、道具中至少之一。

本发明一方面提供一种虚拟形象展示装置，所述装置包括：

处理单元，用于基于采集到的用户的语音信息分析得到所述用户的意图和/或情感；基于当前系统的状态、所述用户的意图和/或情感，分析得到虚拟形象对应的表情、动作、道具中至少之一；确定针对所述用户的语音信息的回复内容，基于所述回复内容确定口型信息；

输出单元，用于输出所述回复内容所对应的音频信息，控制同步播放所述虚拟形象对应的所述口型信息，并且控制同步展示所述虚拟形象对应的表情、动作、道具中至少之一。

本发明另一方面提供一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够前述方法。

本发明另一方面还提供一种存储介质，所述存储介质用于存储计算机指令，所述计算机指令用于使所述计算机执行前述方法。

通过采用上述方案，能够在分析用户的意图和/或情感、以及系统的状态的基础上，得到虚拟形象对应的表情、动作、道具中至少之一，进而在发出回复对应的音频信息及其对应的口型的同时，控制通过虚拟形象展示对应的动作、道具以及表情中至少之一。如此，丰富了虚拟形象的展示样式，使得虚拟形象表达的内容更加丰富，从而进一步提升了语音的可懂度。

附图说明

图1为相关技术中语音形象助理的一种样式示意图；

图2为本发明实施例提供的一种虚拟形象展示方法流程示意图一；

图3为本发明实施例提供的一种虚拟形象展示方法流程示意图二；

图4为本发明实施例提供的一种虚拟形象展示装置的组成结构示意图；

图5为本发明实施例提供的一种电子设备组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在智能交互系统中，传统型语音助手形象，常用麦克风图标或者语音波形图标表示，仅表示语音的启动、识别状态。与语义解析、语音内容、应用场景没有关联。

动画型语音助手形象：常用一个平面卡通形象表示，仅有少数几个表情和动作。与语义解析、语音内容、应用场景没有关联，比如图1所示，仅为一些平面图形作为动画语音助手形象。可以看出，相关技术中，语音助理虚拟形象与语义解析、语音内容、应用场景没有关联，表达信息不够丰富，人机交互不够智能。

基于前述问题，本实施例提供一种虚拟形象展示方法，如图2所示，所述方法包括：

S11：基于采集到的用户的语音信息分析得到所述用户的意图和/或情感；基于当前系统的状态、所述用户的意图和/或情感，分析得到虚拟形象对应的表情、动作、道具中至少之一；

S12：确定针对所述用户的语音信息的回复内容，基于所述回复内容确定口型信息；

S13：输出所述回复内容所对应的音频信息，控制同步播放所述虚拟形象对应的所述口型信息，并且控制同步展示所述虚拟形象对应的表情、动作、道具中至少之一。

本实施例提供的方案，根据用于输入的信息的不同，智能语音形象系统结合了基于文本、基于语音、基于场景的方法。

比如，其中，基于文本的方法，通过分析文本韵律结构、语义信息之间的相互关系，建立虚拟形象表情、动作和文本语义解析结果之间的对应规则或关联模型，进而实现用户输入不同的信息时，智能语音助理在回复语音内容的同时，展示对应的虚拟形象表情或动作，例如喜怒哀乐、握拳、作揖等。

基于语音的方法，通过获取语音合成过程中的音素信息，例如a、o、e等音素，建立虚拟形象口型与音素的对应规则或关联模型，进而实现虚拟形象的口型与语音回复内容的高度匹配和逼真。

基于场景的方法，通过获取当前软件的使用状态，例如导航、听音乐等，建立虚拟形象的动作、装饰以及道具与使用场景的对应规则，例如导航时握有指南针、听音乐时带上耳机等。

本发明实施例提供的方案，可以应用于电子设备，具体的可以为车载设备中的智能交互终端、平板电脑、笔记本电脑、手机或PC等。

下面结合图3，对本实施例提供的方案进行进一步说明：

步骤一、用户启动语音助理，并输入语音信息。

具体来说，可以为通过麦克采集到用户的语音信息。进一步地，可以理解为在用户在电子设备中开启“语音助理”的时候，控制通过麦克风进行语音信息的采集，得到用户的语音信息。

步骤二、语音助理获取当前使用状态，根据事先训练好的第一关联规则或者第一模型，得到第一输出结果，所述第一输出结果可以为虚拟形象的动作和/或道具。

具体的，获取当前使用状态，可以包括有：获取系统中开启的应用，比如，开启了音乐APP，或者开启看书APP等等。根据训练好的第一关联规则或第一模型，得到虚拟形象的动作和/或道具。

举例来说：系统的状态为开启一个音乐APP听音乐状态→道具：戴耳机，动作：晃头，或者动作为跳舞。

又或者，系统的应用状态为开启导航的状态，那么对应着虚拟形象的动作和道具开汽车。

还可以存在更多的系统的状态以及更多的动作以及道具的对应情况，只是这里不进行穷举。

步骤三、语音助理提取用户输入的文本语义信息，根据事先训练好的第二关联规则或者第二模型，得到第二输出结果，其中，第二输出结果可以为虚拟形象对应的表情、和/或动作、和/或道具。

本步骤的具体处理可以包括：将所述用户的语音信息转换为文本语义信息；

基于所述文本语义信息进行倾向性计算，得到所述文本语义信息所对应的用户的情感和/或意图。

进一步地，还包括：基于所述用户的情感和/或意图，确定所述虚拟形象对应的表情、和/或动作、和/或道具。

具体来说，

首先构建情感词典；比如，可以预先可将词语归为多种类别:通用情感词、程度副词、否定词、领域词等等。

然后，利用语义相似度计算方法，基于所述构建的情感词典，对所述用户的语音信息转换得到的文本语义信息进行相似度计算，得到相似度结果，基于相似度结果推断得到文本语义信息所对应的情感。其中，进行相似度计算的处理中，可以包括：计算文本语义信息与基准情感词集中包含的至少一个类别的词语(或者至少一个词汇)之间的语义相似度，得到与至少一类词语或与至少一个词语之间的多个相似度结果。

进一步地，基于语义的情感词典的倾向性计算，主要可以为利用情感词典及句式词库，分析文本语句的特殊结构及情感倾向词。

最后，根据确定阈值来判断文本的倾向性，例如喜、怒、哀、乐。也就是说，可以基于所述多个相似度结果进行计算(比如可以进行加权计算)，得到情感倾向，作为所述用户对应的情感。

基于前述得到的用户的情感，结合训练好的第二关联规则或第二模型，确定所述虚拟形象对应的表情、和/或动作、和/或道具。

举例来说，比如：这首歌很难听→虚拟形象对应的表情：哭脸。

又比如，分析出用户的意图为查天气、查美食，那么虚拟形象可以对应为相应的查天气的道具，或者查美食的道具等等。本实施例不再进行穷举。

步骤四，语音助理提取语音回复内容中的音素，根据事先训练好的第三关联规则或者第三模型，得到第三输出结果，其中，所述第三输出结果包含至少两帧口型图像，也就是一连串的口型结果。

也就是说，所述口型信息，包含有在至少一个时刻中不同时刻所对应的口型图像。

基于所述回复内容确定口型信息，包括：

在所述回复内容进行语音合成生成当前所要输出的音频信息的同时，确定所述当前所要输出的音频信息对应的至少一个音素；基于所述当前所要输出的音频信息对应的至少一个音素，结合当前的音节轨迹，计算得到当前所要输出的音频信息对应的当前的口型图像。

具体来说，可以包括：

1.将回复内容中包含的文本转换为汉语拼音；

2.将所述文本进行语音合成，得到对应的音频信息；提取所述语音合成过程中产生的音素，也就是得到合成语音的样本。

3.询问音频处理器，从语音播放处理器中决定当前音素。

4.从当前音节的轨迹中计算出目前口型。也就是说，当前音素之前的N个音素可以对应N个历史口型，基于此可以得到对应的音节的轨迹；在当前时刻可以获取到相对于当前时刻的多个历史时刻的音素对应的口型图像之后，可以得到当前音节的轨迹。基于当前的音素以及所述音节的轨迹可以计算得到当前的口型图像。其中，口型图像可以包含有张口的左右距离、上下距离、张口的形状等等，不对其进行穷举。

5.合成语音同步的口型并且同步图形展示。也就是在当前时刻播放所要输出的音频信息的同时，控制通过虚拟形象播放与其对应的当前的口型图像。

还需要指出的是，这里还可以增加基于输出音频信息的音量大小调整口型图像的处理。比如，当前输出音频信息的音量较小，那么可以在已经确定的将要输出的口型图像的初上，将口型进行缩小，反之可以将口型变大等等，这里不做赘述。

步骤五，语音助理根据以上处理结果，在回复语音内容的同时，播放虚拟形象的口型、表情、动作。

可以理解为，在第一时刻控制进行音频输出的同时输出对应的口型图像，并且同时控制播放虚拟形象对应的表情以及动作。

再进一步地，所述虚拟形象对应的表情，可以根据前述步骤用户的表情确定。比如，其中可以包含一个对应关系，根据该对应关系确定虚拟形象对应的表情。

所述虚拟形象的动作也可以根据用户的动作和/或道具来确定。比如，包含另一个动作对应关系，根据该动作对应关系，确定所述虚拟形象的动作。

由于用户在进行交流的时候，除了语音语言信息，还伴随着非语言动作，例如口型、点头、眨眼、手势等。这些自然的动作具有重要的辅助言语的提示作用，也反映了说话人的情感状态。因此，想要实现智能语音助理与用户之间的自然逼真的交流，需要借由虚拟形象的非言语动作来辅助。不仅需要同步一致的口型，还需要通过头部动作、面部表情来传递表达丰富的非言语信息。研究表明，非言语动作可以明显提高语音可懂度。

本实施例提供的上述方案，能够在分析用户的意图和/或情感、以及系统的状态的基础上，得到虚拟形象对应的表情、动作、道具中至少之一，进而在发出回复对应的音频信息及其对应的口型的同时，控制通过虚拟形象展示对应的动作、道具以及表情中至少之一。如此，丰富了虚拟形象的展示样式，使得虚拟形象表达的内容更加丰富，从而进一步提升了语音的可懂度。

本实施例提供一种虚拟形象展示装置，如图4所示，包括：

处理单元41，用于基于采集到的用户的语音信息分析得到所述用户的意图和/或情感；基于当前系统的状态、所述用户的意图和/或情感，分析得到虚拟形象对应的表情、动作、道具中至少之一；确定针对所述用户的语音信息的回复内容，基于所述回复内容确定口型信息；

输出单元42，用于输出所述回复内容所对应的音频信息，控制同步播放所述虚拟形象对应的所述口型信息，并且控制同步展示所述虚拟形象对应的表情、动作、道具中至少之一。

本发明实施例提供的装置，可以设置于电子设备中，具体的可以为车载设备中的智能交互终端、平板电脑、笔记本电脑、手机或PC等。

对本实施例提供的方案进行进一步说明：

用户启动语音助理，并输入语音信息。

处理单元41，用于获取当前系统使用状态，根据事先训练好的第一关联规则或者第一模型，得到第一输出结果，所述第一输出结果可以为虚拟形象的动作和/或道具。

处理单元41，用于提取用户输入的文本语义信息，根据事先训练好的第二关联规则或者第二模型，得到第二输出结果，其中，第二输出结果可以为虚拟形象对应的表情、和/或动作、和/或道具。

其中，所述动作可以理解为用于补充表情，当存在一些表情无法全面的表达某一情感的时候，增加虚拟形象的肢体动作来表达。举例来说，可能用户的情感是无奈，那么可以对应一个摊手的动作。

处理单元41，用于提取语音回复内容中的音素，根据事先训练好的第三关联规则或者第三模型，得到第三输出结果，其中，所述第三输出结果包含至少两帧口型图像，也就是一连串的口型结果。

处理单元41，用于在所述回复内容进行语音合成生成当前所要输出的音频信息的同时，确定所述当前所要输出的音频信息对应的至少一个音素；基于所述当前所要输出的音频信息对应的至少一个音素，结合当前的音节轨迹，计算得到当前所要输出的音频信息对应的当前的口型图像。

输出单元42，用于根据以上处理结果，在播放语音内容的音频信息及其对应的口型信息的同时，播放虚拟形象的表情、动作、道具中至少之一。

基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供了一种电子设备。图5为本发明实施例电子设备的硬件组成结构示意图，包括：

通信接口91，能够与其它设备比如网络设备等进行信息交互；

处理器92，与所述通信接口91连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述装置的一个或多个技术方案提供的方法。而所述计算机程序存储在存储器93上。

当然，实际应用时，信息处理装置中的各个组件通过总线系统94耦合在一起。

可理解，总线系统94用于实现这些组件之间的连接通信。总线系统94除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线系统94。

本发明实施例中的存储器93用于存储各种类型的数据以支持信息处理装置的操作。这些数据的示例包括：用于在信息处理装置上操作的任何计算机程序。

可以理解，存储器93可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

上述本发明实施例揭示的方法可以应用于处理器92中，或者由处理器92实现。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器93，上述计算机程序可由终端的处理器92执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种虚拟形象展示方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于采集到的用户的语音信息分析得到所述用户的意图和/或情感，包括：

将所述用户的语音信息转换为文本语义信息；

3.根据权利要求1所述的方法，其特征在于，所述基于所述回复内容确定口型信息时，所述方法还包括：

对回复内容进行语音合成，得到当前所要输出的音频信息。

4.根据权利要求3所述的方法，其特征在于，所述口型信息，包含有在至少一个时刻中不同时刻所对应的口型图像。

5.根据权利要求4所述的方法，其特征在于，基于所述回复内容确定口型信息，包括：

6.一种虚拟形象展示装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述处理单元，用于将所述用户的语音信息转换为文本语义信息；基于所述文本语义信息进行倾向性计算，得到所述文本语义信息所对应的用户的情感和/或意图。

8.根据权利要求6所述的装置，其特征在于，所述处理单元，用于对回复内容进行语音合成，得到当前所要输出的音频信息。

9.根据权利要求8所述的装置，其特征在于，所述口型信息，包含有在至少一个时刻中不同时刻所对应的口型图像。

10.根据权利要求9所述的装置，其特征在于，所述处理单元，用于在所述回复内容进行语音合成生成当前所要输出的音频信息的同时，确定所述当前所要输出的音频信息对应的至少一个音素；基于所述当前所要输出的音频信息对应的至少一个音素，结合当前的音节轨迹，计算得到当前所要输出的音频信息对应的当前的口型图像。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

12.一种存储介质，其特征在于，所述存储介质用于存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。