CN111221495A

CN111221495A - 可视化交互方法、装置及终端设备

Info

Publication number: CN111221495A
Application number: CN202010009404.2A
Authority: CN
Inventors: 李滨何
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-06-02

Abstract

本申请适用于信息处理技术领域，提供了可视化交互方法、装置及终端设备，该可视化交互方法包括：在第一智能音箱处于通话模式的情况下，采集目标用户的声音、面部表情和肢体动作；基于所述面部表情和肢体动作，建立与所述目标用户对应的虚拟形象模型；将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，以使得所述第二智能音箱基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，并同时播放所述目标用户的声音。本申请能够让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

Description

可视化交互方法、装置及终端设备

技术领域

本申请属于信息处理技术领域，尤其涉及可视化交互方法、装置及终端设备。

背景技术

目前人类的主要的即时通讯方式大都通过利用手机通话、视频、邮件等实现，无论哪种即时通讯方式都是以文本、音频、视频的方式支持使用者进行通讯交流。传统的视频通话过程中，由于通话工具屏幕是二维的，因此只能通过二维的屏幕显示通话人，无法达到面对面聊天交流的沉浸感。

发明内容

为克服相关技术中存在的问题，本申请实施例提供了可视化交互方法、装置及终端设备。

本申请是通过如下技术方案实现的：

第一方面，本申请实施例提供了一种可视化交互方法，包括：

在第一智能音箱处于通话模式的情况下，采集目标用户的声音、面部表情和肢体动作；

基于所述面部表情和肢体动作，建立与所述目标用户对应的虚拟形象模型；

将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，以使得所述第二智能音箱基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，并同时播放所述目标用户的声音。

第二方面，本申请实施例提供了一种可视化交互方法，包括：

接收第一智能音箱发送的目标用户的声音和虚拟形象模型；

获取所述第一智能音箱采集所述目标用户的声音的时间信息；

基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，同时根据所述时间信息依次播放所述目标用户的声音。

第三方面，本申请实施例提供了一种可视化交互装置，包括：

采集模块，用于在第一智能音箱处于通话模式的情况下，采集目标用户的声音、面部表情和肢体动作；

模型建立模块，用于基于所述面部表情和肢体动作，建立与所述目标用户对应的虚拟形象模型；

发送模块，用于将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，以使得所述第二智能音箱基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，并同时播放所述目标用户的声音。

第四方面，本申请实施例提供了一种可视化交互装置，包括：

接收模块，用于接收第一智能音箱发送的目标用户的声音和虚拟形象模型；

时间信息获取模块，用于获取所述第一智能音箱采集所述目标用户的声音的时间信息；

显示模块，用于基于所述虚拟形象模型显示所述目标用户的虚拟形象，且在基于所述虚拟形象模型开始显示所述目标用户的虚拟形象的同时，根据所述时间信息依次播放所述目标用户的声音。

第五方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的可视化交互方法，或如第二方面任一项所述的可视化交互方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的可视化交互方法，或如第二方面任一项所述的可视化交互方法。

第七方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的可视化交互方法，或如第二方面任一项所述的可视化交互方法。

可以理解的是，上述第二方面至第七方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例，在第一智能音箱处于通话模式的情况下采集目标用户的声音、面部表情和肢体动作，然后基于上述面部表情和肢体动作建立与目标用户对应的虚拟形象模型，将建立的虚拟形象模型和目标用户的声音发送给与第一智能音箱连接的第二智能音箱，以使得第二智能音箱基于虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象并同时播放目标用户的声音，从而能够通过第一智能音箱采集目标用户的声音、面部表情和肢体动作，并通过第二智能音箱虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象并同时播放目标用户的声音，使得第二智能音箱的用户能够看到目标用户的虚拟形像，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的可视化交互方法的应用场景示意图；

图2是本申请一实施例提供的可视化交互方法的流程示意图；

图3是本申请一实施例提供的可视化交互方法的流程示意图；

图4是本申请一实施例提供的可视化交互方法的流程示意图；

图5是本申请一实施例提供的可视化交互方法的流程示意图；

图6是本申请一实施例提供的可视化交互方法的流程示意图；

图7是本申请一实施例提供的可视化交互方法的流程示意图；

图8是本申请实施例提供的可视化交互装置的结构示意图；

图9是本申请实施例提供的可视化交互装置的结构示意图；

图10是本申请实施例提供的终端设备的结构示意图；

图11是本申请实施例提供的可视化交互方法所适用于的智能音箱的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

基于上述问题，本申请实施例中的可视化交互方法，在第一智能音箱处于通话模式的情况下采集目标用户的声音、面部表情和肢体动作，然后基于上述面部表情和肢体动作建立与目标用户对应的虚拟形象模型，将建立的虚拟形象模型和目标用户的声音发送给与第一智能音箱连接的第二智能音箱，以使得第二智能音箱基于虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象并同时播放目标用户的声音，从而能够通过第一智能音箱采集目标用户的声音、面部表情和肢体动作，并通过第二智能音箱虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象并同时播放目标用户的声音，使得第二智能音箱的用户能够看到目标用户的虚拟形像，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

举例说明，本申请实施例可以应用到如图1所示的示例性场景中。在该场景中，第一智能终端10可以放置在用户1的周围，在第一智能终端10处于通话模式的情况下，可以采集用户1的声音、面部表情和肢体动作等信息，然后基于用户1的面部表情和肢体动作建立与用户1对应的虚拟形象模型1，将建立的虚拟形象模型1和用户1的声音发送给与第一智能音箱10连接的第二智能音箱20，第二智能音箱20基于该虚拟形象模型1以全息投影的方式投射出用户1的虚拟形象并同时播放用户1的声音，从而使得第二智能音箱20的用户2能够看到用户1的虚拟形像，让用户1和用户2之间感受到面对面聊天交流的沉浸感。

另外，第二智能音箱20也可以采集用户2的声音、面部表情和肢体动作，基于用户2的面部表情和肢体动作建立与用户2对应的虚拟形象模型2，将建立的虚拟形象模型2和用户2的声音发送给与第一智能音箱10，第二智能音箱10基于该虚拟形象模型2以全息投影的方式投射出用户2的虚拟形象并同时播放用户2的声音。

以下结合图1对本申请的可视化交互方法进行详细说明。

图2是本申请一实施例提供的可视化交互方法的示意性流程图，该可视化交互方法可以应用于第一智能音箱，参照图2，对该可视化交互方法的详述如下：

在步骤101中，在第一智能音箱处于通话模式的情况下，采集目标用户的声音、面部表情和肢体动作。

其中，第一智能音箱可以为具有通话功能的智能音箱，该智能音箱具有通话模式和非通话模式。

示例性的，该第一智能音箱可以具有图像采集单元和声音采集单元，能够采集用户的声音、面部表情和肢体动作。例如，图像采集单元可以为摄像头，本实施例中对摄像头在智能音箱的上的位置不作限定，而且对摄像头的数量也不做限定，可以为单摄像头、双摄像头或三摄像头等。

例如，声音采集单元可以为音频电路，音频电路可提供用户与智能音箱之间的音频接口。具体地，音频电路可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，智能音箱的传声器将收集的声音信号转换为电信号，由音频电路接收后转换为音频数据，再将音频数据经过预设处理后发送给另一智能音箱。

一个示例性场景中，目标用户可以为讲课教师，通过智能音箱实现远程为受众学生讲课。具体地，目标用户可以打开第一智能音箱的通话功能，与受众学生的第二智能音箱连接进行通话，此时检测到第一智能音箱为通话模式的情况下，第一智能音箱可以采集目标用户在讲课时的声音、面部表情和肢体动作。

上述示例性场景仅为示例性说明，并不限定本申请的具体应用场景。

在其他实施例中，也可以通过外部设备采集目标用户的面部表情和肢体动作，然后发送给第一智能音箱，本申请实施例对此不予限定。

在步骤102中，基于所述面部表情和肢体动作，建立与所述目标用户对应的虚拟形象模型。

其中，在获取到目标用户的面部表情和肢体动作以后，可以根据该面部表情和肢体动作建立目标用户的虚拟形象模型，用于向其他用户展示该目标用户的虚拟形象。

示例性的，建立的虚拟形象模型可以包括人体的上半部分躯体，例如虚拟形象模型包括面部表情部分和上肢肢体动作部分。即，可以通过虚拟形象模型的面部表情部分模拟目标用户在通话过程中的面部表情，以及通过虚拟形象模型的上肢肢体动作部分模拟目标用户在通话过程中的上肢肢体动作，将面部表情部分和上肢肢体动作部分合在一起，即可模拟目标用户在通话过程中的面部表情和上肢肢体动作。

一些实施例中，第一智能音箱的第一数据库中可以预存有至少两个初始虚拟形象模型，其中一个初始虚拟形象模型与男性用户对应，其中一个初始虚拟形象模型与女性用户对应。

示例性的，第二智能音箱可以首先根据采集到的目标用户的图像确定目标用户的性别，为该目标用户选择对应的初始虚拟形象模型；然后根据实时采集到的目标用户的面部表情生成初始虚拟形象模型的面部表情，根据实时采集到的目标用户的上肢肢体动作生成初始虚拟形象模型的上肢肢体动作，从而生成该目标用户的虚拟形象模型。需要说明的是，该虚拟形象模型中的面部表情和上肢肢体动作是根据采集到的目标用户的面部表情和上肢肢体动作，实时变化的。

一个示例性场景中，在采集到的目标用户的面部表情为微笑、上肢肢体动作为抬起右臂的情况下，可以将初始虚拟形象模型中的面部表情调整为微笑、将初始虚拟形象模型中的上肢肢体动调整为抬起右臂；在采集到的目标用户的面部表情为大笑、上肢肢体动作为挥舞双臂的情况下，可以将初始虚拟形象模型中的面部表情调整为大笑、将初始虚拟形象模型中的上肢肢体动调整为挥舞双臂。

需要说明的是，虚拟形象模型对应的面部表情调整和上肢肢体动作调整，都可以通过预存的面部表情和上肢肢体动作来实现。具体地，第一智能音箱的第一数据库中还可以预存有多种面部表情(例如微笑、大笑、悲伤、哭泣等)和多种上肢肢体动作(例如抬起左臂、抬起右臂、挥舞双臂、交叉双臂等)，通过调用对应的数据来调整虚拟形象模型的面部表情和上肢肢体动作。

示例性的，步骤103具体可以包括以下步骤：

在步骤A1中，获取与目标用户对应的初始虚拟形象模型，该初始虚拟形象模型包括面部表情部分和上肢肢体动作部分；

在步骤A2中，确定所述目标用户的面部表情对应的面部表情种类，以及所述目标用户的肢体动作对应的上肢肢体动作种类；

在步骤A3中，基于面部表情种类在第一数据库中匹配出预设面部表情，以及基于上肢肢体动作种类在第一数据库中匹配出预设上肢肢体动作；其中，所述第一数据库中预存有多种预设面部表情和多种预设上肢肢体动作；

在步骤A4中，根据预设面部表情调整初始虚拟形象模型的面部表情，根据预设上肢肢体动作调整初始虚拟形象模型的面部表情；

在步骤A5中，返回执行步骤A2，以实现根据采集到的目标用户的面部表情和肢体动作，实时调整虚拟形象模型的面部表情和上肢肢体动作。

在其他实施例中，上述初始虚拟形象模型也可以为根据目标用户的外貌生成的，本申请实施例对此不予限定。

在步骤103中，将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，以使得所述第二智能音箱基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，并同时播放所述目标用户的声音。

其中，可以将虚拟形象模型和目标用户的声音发送给与第二智能音箱，由第二智能音箱以全息投影的方式投射出目标用户的虚拟形象，并同时播放所述目标用户的声音，使得第二智能音箱的用户能够形象地观察到目标用户的面部表情和肢体动作，以及听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感。

具体地，第二智能音箱可以接收第一智能音箱发送的目标用户的声音和虚拟形象模型，然后获取采集目标用户的声音的时间信息，并基于虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象，同时根据上述时间信息依次播放目标用户的声音，从而实现目标用户的虚拟形象与声音的结合。

示例性的，第一智能音箱可以以声音片段的形式发送目标用户的声音，例如每隔预设时间将采集的声音片段发送给第二智能音箱；第二智能音箱根据声音片段中包含的时间信息，在投射出目标用户的虚拟形象的同时，依次播放各个声音片段。其中，该时间信息可以为第一智能音箱采集到该声音片段的时间信息。

参见图3，一些实施例中，基于图2所示的实施例，上述可视化交互方法还可以包括：

在步骤104中，检测所述第一智能音箱与所述第二智能音箱之间的通话质量，并根据所述通话质量调整所述虚拟形象模型。

对应的，步骤103中所述的将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，具体可以为：

将调整后的所述虚拟形象模型和所述目标用户的声音，发送给所述第二智能音箱。

具体地，在第一智能音箱和第二智能音箱之间通话质量较低的情况下，为了能够保证交互信息传递的及时性，可以根据通话质量调整虚拟形象模型，降低传输虚拟形象模型所需的网络资源，提高虚拟形象模型传输的及时性，减少信息交互的延时。而在第一智能音箱和第二智能音箱之间通话质量较高的情况下，可以根据通话质量调整虚拟形象模型，在保证虚拟形象模型传输的及时性的情况下，适当提高虚拟形象模型的精度，以提高所投射出的目标用户的虚拟形像的清晰度。

在一种可能的实现方式中，步骤104可以包括：

步骤B1，每隔预设时长检测一次所述第一智能音箱与所述第二智能音箱之间的通话质量。

其中，为了能够实时确定第一智能音箱与第二智能音箱之间的通话质量，可以每隔预设时长检测一次第一智能音箱与第二智能音箱之间的通话质量。例如，该预设时长可以为20秒、1分钟或5分钟等，本申请实施例对此不予限定。一个示例性场景中，每隔1分钟的时间，检测一次第一智能音箱与第二智能音箱之间的通话质量，并根据检测出的通话质量执行步骤B2。

步骤B2，根据所述通话质量，调整所述虚拟形象模型的输出精度。

例如，该通话质量可以包括多个档次，每一档次可以对应一个输出精度，其中，不同的输出精度输出的虚拟形象模型所需的通话质量不同。例如，输出精度越高，输出该虚拟形象模型所需的通话质量越高；输出精度越低，输出该虚拟形象模型所需的通话质量可以越低。

示例性的，步骤B2具体可以为：

在所述通话质量满足预设通话质量范围的情况下，将所述虚拟形象模型的输出精度调整至与所述预设通话质量范围对应的输出精度；其中，每一预设通话质量范围对应一输出精度。

具体地，第一智能音箱的第一数据库中还可以存储有一一对应的多对通话质量档次和输出精度，每一通话质量档次对应一个预设通话质量范围。即，每个预设通话质量范围对应一个输出精度。上述根据所述预设通话质量范围，调整所述虚拟形象模型的输出精度，具体可以包括：将检测出的通话质量与第一数据库中的通话质量档次进行匹配；根据匹配出的通话质量档次确定对应的输出精度。

一个示例性场景中，通话质量可以包括三个档次，分别为通话质量档次一、通话质量档次二和通话质量档次三，其中，通话质量档次一对应的通话质量高于通话质量档次二对应的通话质量，通话质量档次二对应的通话质量高于通话质量档次三对应的通话质量；输出精度可以包括输出精度一、输出精度二和输出精度三，其中输出精度一大于输出精度二，输出精度二大于输出精度三。若检测出的通话质量与第一数据库中的通话质量档次二匹配成功，则将虚拟形象模型的输出精度调整为输出精度二。

在一种可能的实现方式中，基于不同的输出精度的虚拟形象模型投射出的目标用户的虚拟形象的分辨率不同，且输出精度与分辨率成正比关系。例如，基于高输出精度的虚拟形象模型投射出的目标用户的虚拟形象的分辨率为第一分辨率，基于低输出精度的虚拟形象模型投射出的目标用户的虚拟形象的分辨率为第二分辨率，且第一分辨率高于第二分辨率。

一些实施例中，上述通话质量可以为第一智能音箱和第二智能音箱之间通信信号的强度，可以根据检测到的通信信号的强度调整虚拟形象模型。例如，第一智能音箱和第二智能音箱之间通信信号的强度越高，对应的虚拟形象模型的输出精度越高；第一智能音箱和第二智能音箱之间通信信号的强度越低，对应的虚拟形象模型的输出精度越低。

上述可视化交互方法，在第一智能音箱处于通话模式的情况下采集目标用户的声音、面部表情和上肢肢体动作，然后基于上述面部表情和上肢肢体动作建立与目标用户对应的虚拟形象模型，将建立的虚拟形象模型和目标用户的声音发送给第二智能音箱，以使得第二智能音箱基于虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象并同时播放目标用户的声音，从而能够通过第一智能音箱采集目标用户的声音、面部表情和肢体动作，并通过第二智能音箱虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象并同时播放目标用户的声音，使得第二智能音箱的用户能够看到目标用户的虚拟形像，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

图4是本申请一实施例提供的可视化交互方法的示意性流程图，该可视化交互方法可以应用于第二智能音箱，参照图4，对该可视化交互方法的详述如下：

在步骤201中，接收第一智能音箱发送的目标用户的声音和虚拟形象模型。

示例性的，该第一智能音箱可以具有图像采集单元和声音采集单元，能够采集用户的声音、面部表情和肢体动作。

一个示例性场景中，目标用户可以为讲课教师，通过智能音箱实现远程为受众学生讲课。具体地，目标用户可以打开第一智能音箱的通话功能，与受众学生的第二智能音箱连接进行通话，此时检测到第一智能音箱为通话模式的情况下，第一智能音箱可以采集目标用户在讲课时的声音、面部表情和肢体动作，然后基于上述面部表情和肢体动作，建立与目标用户对应的虚拟形象模型，并将目标用户的声音和虚拟形象模型发送给第二智能音箱。

在步骤202中，获取采集所述目标用户的声音的时间信息。

示例性的，第一智能音箱可以以声音片段的形式发送目标用户的声音，例如每隔预设时间将采集的声音片段发送给第二智能音箱，第二智能音箱获取声音片段中包含的时间信息。其中，该时间信息可以为第一智能音箱采集到该声音片段的时间信息。

在步骤203中，基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，同时根据所述时间信息依次播放所述目标用户的声音。

本步骤中，第二智能音箱可以基于虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象，同时根据步骤202中得出的时间信息依次播放目标用户的声音，使得第二智能音箱的用户能够形象地观察到目标用户的面部表情和肢体动作，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户信息交流的体验。

参见图5，一些实施例中，基于图4所示的实施例，上述可视化交互方法还可以包括：

在步骤204中，检测所述第二智能音箱与所述第一智能音箱之间的通话质量，并根据所述通话质量调整所述虚拟形象模型。

对应的，步骤203中所述的基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，具体可以为：

基于调整后的所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象。

具体地，在第一智能音箱和第二智能音箱之间通话质量较低的情况下，为了能够保证目标用户虚拟形象显示的及时性，第二智能音箱可以根据通话质量调整虚拟形象模型，降低虚拟形象显示的清晰度，减少信息交互的延时。而在第一智能音箱和第二智能音箱之间通话质量较高的情况下，第二智能音箱可以根据通话质量调整虚拟形象模型，在保证虚拟形象显示的及时性的情况下，适当提高虚拟形象显示的清晰度。

在一种可能的实现方式中，步骤204可以包括：

步骤C1，每隔预设时长检测一次所述第一智能音箱与所述第二智能音箱之间的通话质量。

其中，为了能够实时确定第一智能音箱与第二智能音箱之间的通话质量，第二智能音箱可以每隔预设时长检测一次第一智能音箱与第二智能音箱之间的通话质量。例如，该预设时长可以为20秒、1分钟或5分钟等，本申请实施例对此不予限定。一个示例性场景中，每隔1分钟的时间，检测一次第一智能音箱与第二智能音箱之间的通话质量，并根据检测出的通话质量执行步骤C2。

步骤C2，根据所述通话质量，调整所述虚拟形象模型的输出精度。

示例性的，步骤C2具体可以为：

具体地，第二智能音箱的第二数据库中可以存储有一一对应的多对通话质量档次和输出精度，每一通话质量档次对应一个预设通话质量范围。即，每个预设通话质量范围对应一个输出精度。上述根据所述预设通话质量范围，调整所述虚拟形象模型的输出精度，具体可以包括：将检测出的通话质量与第二数据库中的通话质量档次进行匹配；根据匹配出的通话质量档次确定对应的输出精度。

一个示例性场景中，通话质量可以包括三个档次，分别为通话质量档次一、通话质量档次二和通话质量档次三，其中，通话质量档次一对应的通话质量高于通话质量档次二对应的通话质量，通话质量档次二对应的通话质量高于通话质量档次三对应的通话质量；输出精度可以包括输出精度一、输出精度二和输出精度三，其中输出精度一大于输出精度二，输出精度二大于输出精度三。若检测出的通话质量与数据库中的通话质量档次二匹配成功，则将虚拟形象模型的输出精度调整为输出精度二。

上述可视化交互方法，第一智能音箱采集目标用户的声音、面部表情和肢体动作，并根据面部表情和肢体动作建立目标用户的虚拟形象模型，并将目标用户的声音和虚拟形象模型发送给第二智能音箱，第二智能音箱获取第一智能音箱采集目标用户的声音的时间信息，基于虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象，同时根据时间信息依次播放目标用户的声音，使得第二智能音箱的用户能够看到目标用户的虚拟形像，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

图6是本申请一实施例提供的可视化交互方法的示意性流程图，该可视化交互方法可以应用于第一智能音箱和第二智能音箱，参照图6，该可视化交互方法可以包括如下步骤：

第一智能音箱检测自身是否处于通话模式；

在第一智能音箱处于通话模式的情况下，第一智能音箱采集目标用户的声音、面部表情和肢体动作；

第一智能音箱基于面部表情和肢体动作，建立与目标用户对应的虚拟形象模型；

第一智能音箱检测第一智能音箱与第二智能音箱之间的通话质量，并根据通话质量调整上述虚拟形象模型；

第一智能音箱发送调整后的虚拟形象模型和目标用户的声音到第二智能音箱；

第二智能音箱获取第一智能音箱采集目标用户的声音的时间信息；

第二智能音箱基于调整后的虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象，同时根据时间信息依此播放目标用户的声音。

上述可视化交互方法，在第一智能音箱处于通话模式的情况下采集目标用户的声音、面部表情和肢体动作，然后基于上述面部表情和肢体动作建立与目标用户对应的虚拟形象模型，并根据与第二智能音箱之间的通话质量调整上述虚拟形象模型，将调整后的虚拟形象模型和目标用户的声音发送给与第二智能音箱，第二智能音箱获取第一智能音箱采集目标用户的声音的时间信息，然后基于调整后的虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象，同时根据时间信息依此播放目标用户的声音，使得第二智能音箱的用户能够看到目标用户的虚拟形像，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

图7是本申请一实施例提供的可视化交互方法的示意性流程图，该可视化交互方法可以应用于第一智能音箱和第二智能音箱，参照图7，该可视化交互方法可以包括如下步骤：

第一智能音箱检测自身是否处于通话模式；

第一智能音箱发送虚拟形象模型和目标用户的声音到第二智能音箱；

第二智能音箱检测第一智能音箱与第二智能音箱之间的通话质量，并根据通话质量调整上述虚拟形象模型；

上述可视化交互方法，在第一智能音箱处于通话模式的情况下采集目标用户的声音、面部表情和肢体动作，然后基于上述面部表情和肢体动作建立与目标用户对应的虚拟形象模型，将建立的虚拟形象模型和目标用户的声音发送给与第一智能音箱连接的第二智能音箱，第二智能音箱根据与第一智能音箱之间的通话质量调整上述虚拟形象模型，并获取第一智能音箱采集目标用户的声音的时间信息，然后基于调整后的虚拟形象模型以全息投影的方式投射出目标用户的虚拟形象，同时根据时间信息依此播放目标用户的声音，使得第二智能音箱的用户能够看到目标用户的虚拟形像，同时听到目标用户的声音，让用户感受到面对面聊天交流的沉浸感，提高用户的信息交互体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的可视化交互方法，图8示出了本申请实施例提供的可视化交互装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图8，本申请实施例中的可视化交互装置可以包括采集模块301、模型建立模块302和发送模块303。

其中，采集模块301，用于在第一智能音箱处于通话模式的情况下，采集目标用户的声音、面部表情和肢体动作；

模型建立模块302，用于基于所述面部表情和肢体动作，建立与所述目标用户对应的虚拟形象模型；

发送模块303，用于将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，以使得所述第二智能音箱基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，并同时播放所述目标用户的声音。

可选的，上述装置还可以包括：

第一通话质量检测模块，用于检测所述第一智能音箱与所述第二智能音箱之间的通话质量，并根据所述通话质量调整所述虚拟形象模型；

其中，上述发送模块具体可以用于：将调整后的所述虚拟形象模型和所述目标用户的声音，发送给所述第二智能音箱。

可选的，上述第一通话质量检测模块可以包括检测单元和调整单元；

其中，检测单元，用于每隔预设时长检测一次所述第一智能音箱与所述第二智能音箱之间的通话质量；

调整单元，用于根据所述通话质量，调整所述虚拟形象模型的输出精度。

可选的，上述调整单元具体可以用于：

在所述通话质量满足预设通话质量范围的情况下，将所述虚拟形象模型的输出精度调整至与所述预设通话质量范围对应的输出精度；

其中，每一预设通话质量范围对应一输出精度。

对应于上文实施例所述的可视化交互方法，图9示出了本申请实施例提供的可视化交互装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图9，本申请实施例中的可视化交互装置可以包括接收模块401、时间信息获取模块402和显示模块403。

其中，接收模块401，用于接收第一智能音箱发送的目标用户的声音和虚拟形象模型；

时间信息获取模块402，用于获取采集所述目标用户的声音的时间信息；

显示模块403，用于基于所述虚拟形象模型显示所述目标用户的虚拟形象，且在基于所述虚拟形象模型开始显示所述目标用户的虚拟形象的同时，根据所述时间信息依次播放所述目标用户的声音。

可选的，上述装置还可以包括：

第二通话质量检测模块，用于检测所述第二智能音箱与所述第一智能音箱之间的通话质量，并根据所述通话质量调整所述虚拟形象模型；

其中，上述显示模块具体可以用于：基于调整后的所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图10，该终端设500可以包括：至少一个处理器510、存储器520以及存储在所述存储器520中并可在所述至少一个处理器510上运行的计算机程序，所述处理器510执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图2所示实施例中的步骤S101至步骤S103，或者如图4所示实施例中的步骤S201至步骤S203。或者，处理器510执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块301至303的功能，或者如图9所示模块401至403的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器520中，并由处理器510执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在终端设备500中的执行过程。

本领域技术人员可以理解，图10仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器510可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器520可以是终端设备的内部存储单元，也可以是终端设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。所述存储器520用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器520还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例提供的可视化交互方法可以应用于智能音箱、计算机、可穿戴设备、车载设备、平板电脑、笔记本电脑、上网本、个人数字助理(personal digitalassistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、手机等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

以所述终端设备为智能音箱为例。图11示出的是与本申请实施例提供的智能音箱的部分结构的框图。参考图11，智能音箱包括：通信电路610、存储器620、输入单元630、显示单元640、音频电路650、无线保真(wireless fidelity，WiFi)模块660、处理器670以及电源680等部件。本领域技术人员可以理解，图11中示出的智能音箱结构并不构成对智能音箱的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对智能音箱的各个构成部件进行具体的介绍：

通信电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将图像采集设备发送的图像样本接收后，给处理器670处理；另外，将图像采集指令发送给图像采集设备。通常，通信电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，通信电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long TermEvolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器670通过运行存储在存储器620的软件程序以及模块，从而执行智能音箱的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能音箱的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与智能音箱的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器670，并能接收处理器670发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及智能音箱的各种菜单，以及投射其他智能音箱发送来的目标用户的虚拟形象模型。显示单元640可包括显示面板641和投射装置，可选的，显示面板641可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器670以确定触摸事件的类型，随后处理器670根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图11中，触控面板631与显示面板641是作为两个独立的部件来实现智能音箱的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现智能音箱的输入和输出功能。

音频电路650可提供用户与智能音箱之间的音频接口。音频电路650可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路650接收后转换为音频数据，再将音频数据输出处理器670处理后，经通信电路610以发送给比如另一智能音箱，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，智能音箱通过WiFi模块660可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块660，但是可以理解的是，其并不属于智能音箱的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器670是智能音箱的控制中心，利用各种接口和线路连接整个智能音箱的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行智能音箱的各种功能和处理数据，从而对智能音箱进行整体监控。可选的，处理器670可包括一个或多个处理单元；可选的，处理器670可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器670中。

智能音箱还包括给各个部件供电的电源680(比如电池)，其中，电源680可以通过电源管理系统与处理器670逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，尽管未示出，智能音箱还可以包括蓝牙模块等，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述可视化交互方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述可视化交互方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种可视化交互方法，其特征在于，包括：

2.如权利要求1所述的可视化交互方法，其特征在于，所述方法还包括：

检测所述第一智能音箱与所述第二智能音箱之间的通话质量，并根据所述通话质量调整所述虚拟形象模型；

所述将所述虚拟形象模型和所述目标用户的声音发送给与所述第一智能音箱连接的第二智能音箱，包括：

3.如权利要求2所述的可视化交互方法，其特征在于，所述检测所述第一智能音箱与所述第二智能音箱之间的当前通话质量，并根据所述当前通话质量调整所述虚拟形象模型，包括：

每隔预设时长检测一次所述第一智能音箱与所述第二智能音箱之间的通话质量；

根据所述通话质量，调整所述虚拟形象模型的输出精度。

4.如权利要求3所述的可视化交互方法，其特征在于，所述根据所述当前通话质量，调整所述虚拟形象模型的输出精度，包括：

其中，每一预设通话质量范围对应一输出精度。

5.一种可视化交互方法，其特征在于，包括：

接收第一智能音箱发送的目标用户的声音和虚拟形象模型；

6.如权利要求5所述的可视化交互方法，其特征在于，所述方法还包括：

检测所述第二智能音箱与所述第一智能音箱之间的通话质量，并根据所述通话质量调整所述虚拟形象模型；

所述基于所述虚拟形象模型以全息投影的方式投射出所述目标用户的虚拟形象，包括：

7.一种可视化交互装置，其特征在于，包括：

8.一种可视化交互装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。