CN111290729A

CN111290729A - 人机交互方法、装置与系统

Info

Publication number: CN111290729A
Application number: CN201811494614.4A
Authority: CN
Inventors: 华润策
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-06-16

Abstract

本发明提供一种人机交互方法、装置与系统，其中，该方法包括：智能音频设备呈现虚拟生物角色；然后根据接收到的语音指令获得与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；再根据语音数据播放相应的语音，并根据动作指令数据控制虚拟生物角色执行相应的动作。本发明提供的技术方案，可以丰富智能音频设备的交互功能，进而可以更好的满足用户需求。

Description

人机交互方法、装置与系统

技术领域

本发明涉及智能终端技术领域，尤其涉及一种人机交互方法、装置与系统。

背景技术

随着科学技术的不断发展，电子技术也得到了飞速的发展，从而使人们也享受到了各种各样的电子产品所带来的诸多便利。在各种电子产品中，音箱和手机等音频设备，可以为人们播放诸如音乐和有声书等音频数据，其目前已成为人们日常生活中常用的电子产品。

传统的音频设备在播放音频数据时，根据用户的操作指令进行播放，这种音频设备需要用户手动操作，因而使用起来不够方便。随着人工智能的发展，智能音频设备应运而生，其不仅可以根据用户的操作指令播放音频数据，而且能够与用户进行语音交互，根据用户的语音指令播放音频数据，因而更加智能化，用户在使用时更加方便。

但是，目前的智能音频设备提供的交互功能较为单一，无法很好的满足用户需求。

发明内容

有鉴于此，本发明提供一种人机交互方法、装置与系统，用于丰富智能音频设备的交互功能，以更好的满足用户需求。

为了实现上述目的，第一方面，本发明实施例提供一种人机交互方法，应用于智能音频设备，包括：

呈现虚拟生物角色；

根据接收到的语音指令获得与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；

根据语音数据播放相应的语音，并根据动作指令数据控制虚拟生物角色执行相应的动作。

第二方面，本发明实施例提供一种人机交互方法，应用于智能终端设备，包括：

接收智能音频设备发送的呈现指令，其中，呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

呈现与呈现数据对应的虚拟生物角色；

接收智能音频设备发送的携带有动作指令数据的执行指令；

根据动作指令数据控制虚拟生物角色执行相应的动作。

第三方面，本发明实施例提供一种人机交互方法，应用于服务器，包括：

接收智能音频设备发送的语音指令；

根据语音指令生成与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；

将交互数据发送给智能音频设备，以指示智能音频设备根据语音数据播放相应的语音，并根据动作指令数据控制呈现的虚拟生物角色执行相应的动作。

第四方面，本发明实施例提供一种人机交互装置，应用于智能音频设备，包括：

显示模块，用于呈现虚拟生物角色；

获取模块，用于根据接收到的语音指令获得与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；

控制模块，用于根据语音数据播放相应的语音，并根据动作指令数据控制虚拟生物角色执行相应的动作。

第五方面，本发明实施例提供一种人机交互装置，应用于智能终端设备，包括：接收模块、显示模块和控制模块，其中：

接收模块，用于接收智能音频设备发送的呈现指令，其中，呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

显示模块，用于呈现与呈现数据对应的虚拟生物角色；

接收模块，还用于接收智能音频设备发送的携带有动作指令数据的执行指令；

控制模块，用于根据动作指令数据控制虚拟生物角色执行相应的动作。

第六方面，本发明实施例提供一种人机交互装置，应用于服务器，包括：

接收模块，用于接收智能音频设备发送的语音指令；

生成模块，根据语音指令生成与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；

发送模块，用于将交互数据发送给智能音频设备，以指示智能音频设备根据语音数据播放相应的语音，并根据动作指令数据控制呈现的虚拟生物角色执行相应的动作。

第七方面，本发明实施例提供一种智能音频设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行上述第一方面所述的方法。

第八方面，本发明实施例提供一种智能终端设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行上述第二方面所述的方法。

第九方面，本发明实施例提供一种服务器，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行上述第三方面所述的方法。

第十方面，本发明实施例提供一种人机交互系统，包括：上述第七方面所述的智能音频设备和上述第九方面所述的服务器。

第十一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面、第二方面或第三方面所述的方法。

本发明实施例提供的人机交互方法、装置与系统，智能音频设备通过呈现虚拟生物角色，然后根据接收到的语音指令获得与语音指令对应的交互数据，再根据交互数据中的语音数据播放相应的语音，并根据交互数据中的动作指令数据控制虚拟生物角色执行相应的动作，可以达到通过与智能音频设备的语音交互，实现与虚拟生物角色进行互动的效果，从而可以丰富智能音频设备的交互功能，进而可以更好的满足用户需求。

附图说明

图1为本发明实施例提供的一种人机交互方法的流程示意图；

图2为本发明实施例提供的另一种人机交互方法的流程示意图；

图3为本发明实施例提供的又一种人机交互方法的流程示意图；

图4为本发明实施例提供的一种人机交互装置的结构示意图；

图5为本发明实施例提供的另一种人机交互装置的结构示意图；

图6为本发明实施例提供的又一种人机交互装置的结构示意图；

图7为本发明实施例提供的智能音频设备的结构示意图；

图8为本发明实施例提供的智能终端设备的结构示意图；

图9为本发明实施例提供的服务器的结构示意图。

具体实施方式

针对目前的智能音频设备提供的功能单一，而无法很好的满足用户需求的技术问题，本发明实施例提供一种人机交互方法、装置与系统，主要通过由智能音频设备呈现虚拟生物角色，然后根据接收到的语音指令获得与语音指令对应的交互数据，再根据交互数据中的语音数据播放相应的语音，并根据交互数据中的动作指令数据控制虚拟生物角色执行相应的动作，以达到通过与智能音频设备的语音交互，实现与虚拟生物角色进行互动，进而达到丰富智能音频设备的交互功能，以更好的满足用户需求的目的。

本发明实施例所述的智能音频设备可以是诸如智能音箱、智能电视、智能机顶盒等的智能家居设备，也可以是诸如智能手机、平板电脑、智能手表、智能手环或智能眼镜等的便携设备，还可以是其他类型的音频设备；本发明实施例所述的智能终端设备可以是上述便携设备或其他具有显示功能的设备，对此，本发明实施例不做特别限定。

下面结合附图，对本发明的实施例进行描述。

图1为本发明实施例提供的一种人机交互方法的流程示意图，如图1所示，本实施例提供的方法可以包括如下步骤：

S101、呈现虚拟生物角色。

具体的，智能音频设备可以在开启时即呈现虚拟生物角色，也可以在用户的指令下呈现虚拟生物角色，其中，该指令可以是操作指令(即用户手动输入的指令)，也可以是语音指令，对于虚拟生物角色的具体呈现时机本实施例不做特别限定。

本实施例中，在呈现虚拟生物角色时，可以采用二维成像方式呈现；也可以采用三维成像方式呈现，以使呈现的虚拟生物角色更加形象和逼真，进而提高用户交互体验。

为了满足用户的不同需求，智能音频设备可以预存多种成像方式，在呈现虚拟生物角色时，可以从预设的多种成像方式中选择一种成像方式呈现虚拟生物角色。其中，多种成像方式包括二维成像方式和/或三维成像方式，三维成像方式可以包括以下成像方式中的至少一种：全息投影方式、增强现实(Augmented Reality，AR)方式、虚拟现实(VirtualReality，VR)方式和混合现实(Mixed Reality，MR)方式等。根据成像方式的种类，智能音频设备可以配备相应的辅助设备，例如：VR眼镜等。

在具体选择成像方式时，可以从预设的多种成像方式中随机选择一种成像方式，也可以选择默认的成像方式，还可以根据用户的成像方式选择指令选择对应的成像方式(称为第一成像方式)，以更好的满足用户的需求。其中，成像方式选择指令可以是操作指令；为了方便用户的使用，本实施例中，成像方式选择指令也可以是语音指令，即智能音频设备可以根据接收到的用户的语音选择指令(称为第一语音选择指令)，采用与第一语音选择指令对应的成像方式呈现虚拟生物角色。其中，每个成像方式可以对应至少一个第一语音选择指令，例如：语音选择指令“成像1”或“全息投影”对应全息投影方式、语音选择指令“成像2”或“AR”对应AR方式……语音选择指令“成像5”或“2D”对应二维成像方式；智能音频设备中的各种成像方式也可以按预设方式排序，第一语音选择指令可以用于指示选择下一种或上一种成像方式，智能音频设备则可以基于该排序，对应的采用当前成像方式的下一种或上一种成像方式呈现虚拟生物角色。上述只是一种示例性说明，成像方式与第一语音选择指令之间的对应关系也可以采用其他方式实现，本实施例对此不做特别限定。

另外，成像方式选择指令可以是用户直接向智能音频设备输入的，也可以是用户向智能终端设备输入的，然后由智能终端设备发送给智能音频设备的。

本实施例中，呈现的虚拟生物角色可以是虚拟人物角色或虚拟动物角色等。为了满足用户的不同需求，智能音频设备可以预存多个虚拟生物角色，在呈现虚拟生物角色时，可以从预设的多个虚拟生物角色中选择一个虚拟生物角色进行呈现。

与选择成像方式的方法类似，在具体选择虚拟生物角色时，可以从预设的多个虚拟生物角色中随机选择一个虚拟生物角色，也可以选择默认的虚拟生物角色，还可以根据用户的角色选择指令选择对应的虚拟生物角色(称为第一虚拟生物角色)，以更好的满足用户的需求。同样的，本实施例中，角色选择指令可以是操作指令；为了方便用户的使用，角色选择指令也可以是语音指令，即智能音频设备可以根据接收到的用户的语音选择指令(称为第二语音选择指令)，呈现与第二语音选择指令对应的虚拟生物角色。其中，每个虚拟生物角色可以对应至少一个第二语音选择指令，例如：语音选择指令“角色1”或“孙悟空”对应虚拟生物角色孙悟空、语音选择指令“角色2”或“哆啦A梦”对应虚拟生物角色哆啦A梦等；智能音频设备中的各种虚拟生物角色也可以按预设方式排序，第二语音选择指令可以用于指示选择下一个或上一个虚拟生物角色，智能音频设备则可以基于该排序，对应的呈现当前虚拟生物角色的下一个或上一个虚拟生物角色。上述只是一种示例性说明，虚拟生物角色与第二语音选择指令之间的对应关系也可以采用其他方式实现，本实施例对此不做特别限定。

同样的，角色选择指令可以是用户直接向智能音频设备输入的，也可以是用户向智能终端设备输入的，然后由与智能音频设备建立连接关系的智能终端设备发送给智能音频设备的。

另外，在呈现虚拟生物角色时，可以是智能音频设备直接呈现的，也可以是智能音频设备通过智能终端设备呈现的，具体的实现方式可以根据需要选择。对于通过智能终端设备呈现的方式，在具体实现时，也可以根据用户的设备选择指令实现，由智能音频设备根据用户的设备选择指令确定是由智能音频设备(包括其配备的辅助设备)呈现虚拟生物角色还是由智能音频设备通过智能终端设备呈现虚拟生物角色。

S102、根据接收到的语音指令获得与语音指令对应的交互数据。

当智能音频设备呈现虚拟生物角色后，用户可以与虚拟生物角色进行语音交互，例如可以指示虚拟生物角色唱歌、跳舞、聊天、回答问题或模仿声音等。

具体的，当智能音频设备接收用户发出的语音指令后，可以对语音指令进行处理，获得与语音指令对应的交互数据，然后根据交互数据执行相应的交互操作。其中，交互数据中可以包括语音数据和动作指令数据，动作指令数据可以包括：表情动作指令数据和/或肢体动作指令数据。

在获得交互数据时，可以是智能音频设备在本地完成对语音指令的各种处理，生成交互数据；也可以是智能音频设备将语音指令发送给服务器，由服务器根据语音指令生成交互数据，然后发送给智能音频设备，这样可以减少智能音频设备的系统复杂度和成本，而且，服务器中的模块和数据库可以不断的更新，因而通过服务器生成交互数据，可以提高生成的交互数据的准确性。

在通过服务器生成交互数据时，具体的，智能音频设备可以通过网络将接收到的语音指令发送给服务器，以指示服务器对语音指令进行语音识别和语义分析，并生成与语音指令对应的交互数据；然后再接收服务器发送的交互数据。

其中，服务器在接收到智能音频设备发送的语音指令后，可以先通过自动语音识别(Automatic Speech Recognition，ASR)模块将语音指令转换为文本数据，然后通过自然语言理解(Natural Language Understanding，NLU)模块对文本数据进行语义分类(例如：询问天气或查找音乐等)和领域分类(例如：闲聊领域、搜索领域或常见问题解答领域等)；接着再将分类结果传入智能决策引擎，由智能决策引擎在对应的领域模块对分类结果进行处理，生成对应的指令结果；最后再将指令结果传入网关及后台服务模块，由网关及后台服务模块通过文本转语音(Text To Speech，TTS)模块将指令结果中的文本数据转换为语音数据后，将语音数据和指令结果中的动作指令数据(即交互数据)发送给智能音频设备。

S103、根据语音数据播放相应的语音，并根据动作指令数据控制虚拟生物角色执行相应的动作。

具体的，智能音频设备获得交互数据后，可以根据交互数据中的语音数据播放语音数据对应的语音。为了实现更好的交互体验，本实施例中，不同的虚拟生物角色可以对应不同的语音属性信息，智能音频设备中可以预存虚拟生物角色与语音属性信息之间的对应关系，在具体播放语音时，智能音频设备可以根据语音数据和预存的与虚拟生物角色对应的语音属性信息播放相应的语音，使智能音频设备可以模拟虚拟生物角色发声。其中，语音属性信息可以包括：音色、音调和响度等信息。举例说明，当虚拟生物角色为“孙悟空”时，智能音频设备模拟孙悟空的声音播放语音；当虚拟生物角色为“哆啦A梦”时，智能音频设备模拟哆啦A梦的声音播放语音。

在播放语音的同时，智能音频设备可以根据交互数据中的动作指令数据控制虚拟生物角色执行相应的动作，例如：控制虚拟生物角色变换口型以播报上述语音、控制虚拟生物角色跳舞或控制虚拟生物角色变换表情等。

当智能音频设备通过智能终端设备呈现虚拟生物角色时，智能音频设备可以向智能终端设备发送携带有上述动作指令数据的执行指令，指示智能终端设备根据动作指令数据控制虚拟生物角色执行相应的动作。

为了提升用户体验，本实施例中，智能音频设备可以更新与虚拟生物角色相关的数据。

在具体实现时，可以是智能音频设备基于本地数据更新与虚拟生物角色相关的数据；也可以是服务器中存储与虚拟生物角色的更新相关的信息，向智能音频设备下发更新指令，智能音频设备接收到服务器发送的更新指令后，根据更新指令更新与虚拟生物角色相关的数据，这样可以使智能音频设备中的虚拟生物角色具备更广阔的更新空间，从而更好的提升用户体验。

本实施例中，与虚拟生物角色相关的数据可以包括：虚拟生物角色的角色属性数据(比如虚拟生物角色的成长属性、状态参数和装束等)，还可以包括新增角色数据等。

其中，通过更新虚拟生物角色的成长属性，可以实现模拟真实宠物养成过程，增强呈现的虚拟生物角色的趣味性，从而提升用户体验。

本实施例中，虚拟生物角色的成长属性是根据预设的规则确定的。在具体实现时，可以是智能音频设备在本地存储与虚拟生物角色成长属性的更新相关的信息(例如：成长属性更新规则和不同的成长阶段对应的成长属性等)，并根据预设的规则更新虚拟生物角色的成长属性；也可以是服务器中存储与虚拟生物角色成长属性的更新相关的信息，根据预设的规则更新虚拟生物角色的成长属性，然后下发成长属性更新指令，指示智能音频设备同步更新虚拟生物角色的成长属性。

其中，预设的规则例如可以是用户的在线时间达到预设时间阈值，或者用户与虚拟生物角色的交互行为数据达到预设条件等，具体的规则可以根据需要设置，本实施例对此不做特别限定。虚拟生物角色的成长属性可以包括：体态、身高、技能(例如移动、模仿声音和跳舞等)和/或皮肤等，具体实现时也可以根据实际需要设置，本实施例对此不做特别限定。

为了更好的提升用户的交互体验，本实施例中，在更新完数据后，智能音频设备可以根据更新后的数据确定呈现的虚拟生物角色是否需要更新，当确定呈现的虚拟生物角色需要更新时，根据更新后的数据动态更新呈现的虚拟生物角色。例如：虚拟生物角色达到新的成长阶段，其体形需要发生改变，则实时更新呈现的虚拟生物角色的体形，当然，此处只是作为一种举例，在具体实现时，可以根据呈现的虚拟生物角色信息确定，例如：更新虚拟生物角色的体形、装束或成长状态条等信息，具体的更新内容本实施例不做特别限定。

另外，当智能音频设备通过智能终端设备呈现虚拟生物角色时，智能音频设备可以向智能终端设备发送携带有更新后的数据的动态更新指令，指示所述智能终端设备根据更新后的数据动态更新所述虚拟生物角色。

本实施例提供的人机交互方法，智能音频设备通过呈现虚拟生物角色，然后根据接收到的语音指令获得与语音指令对应的交互数据，再根据交互数据中的语音数据播放相应的语音，并根据交互数据中的动作指令数据控制虚拟生物角色执行相应的动作，可以达到通过与智能音频设备的语音交互，实现与虚拟生物角色进行互动的效果，从而可以丰富智能音频设备的交互功能，进而可以更好的满足用户需求。

图2为本发明实施例提供的另一种人机交互方法的流程示意图，本实施例主要是对上述实施例中智能音频设备与智能终端设备之间的一种具体的交互过程进行描述，如图2所示，本实施例提供的方法可以包括如下步骤：

S201、智能终端设备向智能音频设备发送成像方式选择指令和角色选择指令。

具体实现时，智能终端设备可以根据用户输入的文本信息、选择操作或语音信息，向智能音频设备发送成像方式选择指令和角色选择指令。

其中，智能终端设备可以通过蓝牙或WiFi等方式预先与智能音频设备建立连接关系，智能终端设备上可以安装相关的应用程序(Application，APP)，通过该APP与智能音频设备建立连接关系，并通过APP接收用户的输入信息，以及将成像方式选择指令和角色选择指令发送给智能音频设备。

S202、智能音频设备接收智能终端设备发送的成像方式选择指令和角色选择指令。

S203、智能音频设备向智能终端设备发送呈现指令。

智能音频设备在呈现虚拟生物角色时，可以通过智能终端设备呈现。

在具体实现时，智能音频设备可以向智能终端设备发送呈现指令，以指示智能终端设备呈现虚拟生物色。其中，该呈现指令中可以携带待呈现的虚拟生物角色的呈现数据；智能终端设备接收到该呈现指令后，可以根据该呈现数据呈现对应的虚拟生物角色。

本实施例中，呈现数据中可以只包括待呈现的虚拟生物角色的角色标识和/或成像方式，智能终端设备预先从智能音频设备获取虚拟生物角色的模型数据，并予以存储，在接收到呈现指令后，根据角色标识和/或成像方式调用相关的模型数据呈现对应的虚拟生物角色，以减少数据传输量；该呈现数据中也可以包括待呈现的虚拟生物角色的模型数据，智能终端设备接收到呈现指令后，对该模型数据进行缓存，根据该模型数据呈现对应的虚拟生物角色，以节省智能终端设备的存储空间。

S204、智能终端设备接收智能音频设备发送的呈现指令，并呈现与呈现指令中的呈现数据对应的虚拟生物角色。

智能终端设备接收到呈现指令后，则根据呈现指令呈现与呈现指令中的呈现数据对应的虚拟生物角色。

S205、智能音频设备根据接收到的语音指令获得与语音指令对应的交互数据，并根据交互数据中的语音数据播放相应的语音。

具体的，当智能音频设备通过智能终端设备呈现虚拟生物角色后，用户可以与虚拟生物角色进行语音交互，智能音频设备可以在本地或通过服务器根据语音指令生成交互数据，其具体的实现过程可以参见上述实施例，此处不再赘述。

其中，智能音频设备获得的交互数据中可以包括语音数据和动作指令数据，智能音频设备获得交互数据后，可以根据交互数据中的语音数据播放相应的语音。

S206、智能音频设备向智能终端设备发送携带有动作指令数据的执行指令。

具体的，当通过智能终端设备呈现虚拟生物角色时，智能音频设备将交互数据中的动作指令数据通过执行指令再转发给智能终端设备，以指示智能终端设备根据动作指令数据控制虚拟生物角色执行相应的动作。

S207、智能终端设备根据动作指令数据控制虚拟生物角色执行相应的动作。

S208、智能音频设备更新与虚拟生物角色相关的数据。

具体的，智能音频设备可以基于本地数据或服务器的更新指令更新数据。

S209、当根据更新后的数据确定呈现的虚拟生物角色需要更新时，向智能终端设备发送携带有更新后的数据的动态更新指令。

具体的，智能音频设备在更新完数据后，可以根据更新后的数据确定呈现的虚拟生物角色是否需要更新，当确定呈现的虚拟生物角色需要更新时，可以向智能终端设备发送携带有更新后的数据的动态更新指令，指示所述智能终端设备根据更新后的数据动态更新呈现的虚拟生物角色。

S210、智能终端设备根据更新后的数据动态更新虚拟生物角色。

本实施例提供的人机交互方法，智能音频设备可以接收用户通过智能终端设备发送的指令呈现虚拟生物角色，而且在具体呈现虚拟生物角色时可以通过智能终端设备进行呈现，因而可以提高交互方式的灵活性；此外，智能音频设备还可以指示智能终端设备实时更新呈现的虚拟生物角色，因而可以提高用户的交互体验。

图3为本发明实施例提供的又一种人机交互方法的流程示意图，本实施例主要是对上述实施例中智能音频设备与服务器之间的一种具体的交互过程进行描述，如图3所示，本实施例提供的方法可以包括如下步骤：

S301、智能音频设备呈现虚拟生物角色。

具体的，智能音频设备呈现虚拟生物角色的具体实现方式可以参见上述图1和图2所示的实施例，此处不再赘述。

S302、智能音频设备将接收到的语音指令发送给服务器。

具体的，用户可以与智能音频设备呈现的虚拟生物角色进行语音交互，向智能音频设备输入语音指令，智能音频设备接收到语音指令后可以将其发送给服务器，由服务器对其进行处理。

S303、服务器接收智能音频设备发送的语音指令，并根据语音指令生成与语音指令对应的交互数据。

具体的，服务器在接收到智能音频设备发送的语音指令后，可以先通过ASR模块将语音指令转换为文本数据，然后通过NLU模块对文本数据进行语义分类(例如：询问天气或查找音乐等)和领域分类(例如：闲聊领域、搜索领域或常见问题解答领域等)；接着再将分类结果传入智能决策引擎，由智能决策引擎在对应的领域模块对分类结果进行处理，生成对应的指令结果；最后再将指令结果传入网关及后台服务模块，由网关及后台服务模块通过TTS模块将指令结果中的文本数据转换为语音数据后，将语音数据和指令结果中的动作指令数据(即交互数据)发送给智能音频设备。

S304、服务器将交互数据发送给智能音频设备。

S305、智能音频设备接收服务器发送的交互数据，根据交互数据中的语音数据播放相应的语音，并根据交互数据中的动作指令数据控制虚拟生物角色执行相应的动作。

具体的，智能音频设备获得交互数据后，可以根据交互数据中的语音数据播放语音数据对应的语音，根据交互数据中的动作指令数据控制虚拟生物角色执行相应的动作；当智能音频设备通过智能终端设备呈现虚拟生物角色时，智能音频设备可以向智能终端设备发送携带有上述动作指令数据的执行指令，指示智能终端设备根据动作指令数据控制虚拟生物角色执行相应的动作。

S306、服务器向智能音频设备发送更新指令。

具体的，服务器可以更新与虚拟生物角色相关的数据，当有新的更新数据时，可以向智能音频设备下发更新指令，指示智能音频设备更新与虚拟生物角色相关的数据。

S307、智能音频设备接收服务器发送的更新指令，并根据更新指令更新与虚拟生物角色相关的数据。

S308、智能音频设备当根据更新后的数据确定呈现的虚拟生物角色需要更新时，根据更新后的数据动态更新呈现的虚拟生物角色。

为了更好的提升用户的交互体验，本实施例中，在更新完数据后，智能音频设备可以根据更新后的数据确定呈现的虚拟生物角色是否需要更新，当确定呈现的虚拟生物角色需要更新时，根据更新后的数据动态更新呈现的虚拟生物角色。

当智能音频设备通过智能终端设备呈现虚拟生物角色时，智能音频设备可以向智能终端设备发送携带有更新后的数据的动态更新指令，指示所述智能终端设备根据更新后的数据动态更新所述虚拟生物角色。

本实施例提供的人机交互方法，智能音频设备可以通过服务器处理语音指令，得到交互数据，从而可以减少智能音频设备的系统复杂度和成本，而且，服务器中的模块和数据库可以不断的更新，因而通过服务器生成交互数据，可以提高生成的交互数据的准确性；另外，智能音频设备可以根据服务器的更新指令更新与虚拟生物角色相关的数据，以及根据更新后的数据更新呈现的虚拟生物角色，因而可以提升用户的交互体验。

基于同一发明构思，作为对上述方法的实现，本发明实施例提供了一种人机交互装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图4为本发明实施例提供的一种人机交互装置的结构示意图，该装置应用于智能音频设备，如图4所示，本实施例提供的装置110包括：

显示模块111，用于呈现虚拟生物角色；

获取模块112，用于根据接收到的语音指令获得与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；

控制模块113，用于根据语音数据播放相应的语音，并根据动作指令数据控制虚拟生物角色执行相应的动作。

动作指令数据可以包括：表情动作指令数据和/或肢体动作指令数据。

作为本发明实施例一种可选的实施方式，显示模块111具体用于：

从预设的多种成像方式中选择一种成像方式呈现虚拟生物角色。

其中，多种成像方式可以包括三维成像方式，三维成像方式包括：全息投影方式、增强现实方式、虚拟现实方式和混合现实方式中的至少一种。

进一步的，显示模块111具体可以用于：

根据接收到的用户的第一语音选择指令，采用与第一语音选择指令对应的成像方式呈现虚拟生物角色。

根据接收到的智能终端设备发送的成像方式选择指令，采用与成像方式选择指令对应的成像方式呈现虚拟生物角色。

从预设的多个虚拟生物角色中选择一个虚拟生物角色进行呈现。

进一步的，显示模块111具体可以用于：

根据接收到的用户的第二语音选择指令，呈现与第二语音选择指令对应的虚拟生物角色。

根据接收到的智能终端设备发送的角色选择指令，呈现与角色选择指令对应的虚拟生物角色。

作为本发明实施例另一种可选的实施方式，显示模块111具体用于：

向智能终端设备发送呈现指令，以指示智能终端设备呈现虚拟生物角色，其中，呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

控制模块113，具体用于：向智能终端设备发送携带有动作指令数据的执行指令，以指示智能终端设备根据动作指令数据控制虚拟生物角色执行相应的动作。

作为本发明实施例一种可选的实施方式，获取模块112具体用于：

将接收到的语音指令发送给服务器，以指示服务器对语音指令进行语音识别和语义分析，并生成与语音指令对应的交互数据；

接收服务器发送的交互数据。

作为本发明实施例一种可选的实施方式，控制模块113具体用于：

根据语音数据和预存的与虚拟生物角色对应的语音属性信息播放相应的语音。

作为本发明实施例一种可选的实施方式，该装置110还包括：

更新模块114，用于更新与虚拟生物角色相关的数据。

其中，与虚拟生物角色相关的数据可以包括：虚拟生物角色的成长属性，其中，虚拟生物角色的成长属性是根据预设的规则确定的。

作为本发明实施例一种具体的实施方式，更新模块114具体用于：

接收服务器发送的更新指令；

根据更新指令更新与虚拟生物角色相关的数据。

作为本发明实施例一种可选的实施方式，更新模块114还用于：

当根据更新后的数据确定呈现的虚拟生物角色需要更新时，根据更新后的数据动态更新呈现的虚拟生物角色。

当通过智能终端设备呈现虚拟生物角色时，向智能终端设备发送携带有更新后的数据的动态更新指令，以指示智能终端设备根据更新后的数据动态更新虚拟生物角色。

本实施例提供的装置可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

图5为本发明实施例提供的另一种人机交互装置的结构示意图，该装置应用于智能终端设备，如图5所示，本实施例提供的装置120包括：接收模块121、显示模块122和控制模块123，其中：

接收模块121，用于接收智能音频设备发送的呈现指令，其中，呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

显示模块122，用于呈现与呈现数据对应的虚拟生物角色；

接收模块121，还用于接收智能音频设备发送的携带有动作指令数据的执行指令；

控制模块123，用于根据动作指令数据控制虚拟生物角色执行相应的动作。

作为本发明实施例一种可选的实施方式，呈现数据为智能音频设备从预设的多种成像方式中选择的第一成像方式的呈现数据；显示模块122具体用于：采用第一成像方式呈现虚拟生物角色。

进一步的，该装置120还可以包括：

发送模块124，用于在接收模块121接收智能音频设备发送的携带有虚拟生物角色的呈现数据的呈现指令之前，向智能音频设备发送第一成像方式对应的成像方式选择指令。

作为本发明实施例一种可选的实施方式，虚拟生物角色为智能音频设备从预设的多个虚拟生物角色中选择的第一虚拟生物角色；显示模块122具体用于：呈现第一虚拟生物角色。

进一步的，发送模块124还用于：

在接收智能音频设备发送的携带有虚拟生物角色的呈现数据的呈现指令之前，向智能音频设备发送第一虚拟生物角色对应的角色选择指令。

作为本发明实施例一种可选的实施方式，接收模块121还用于：接收智能终端设备发送的携带有更新后的数据的动态更新指令；

该装置120还包括：更新模块125，用于根据更新后的数据动态更新虚拟生物角色。

图6为本发明实施例提供的又一种人机交互装置的结构示意图，该装置应用于服务器，如图6所示，本实施例提供的装置130包括：

接收模块131，用于接收智能音频设备发送的语音指令；

生成模块132，用于根据语音指令生成与语音指令对应的交互数据，其中，交互数据中包括语音数据和动作指令数据；

发送模块133，用于将交互数据发送给智能音频设备，以指示智能音频设备根据语音数据播放相应的语音，并根据动作指令数据控制呈现的虚拟生物角色执行相应的动作。

作为本发明实施例一种可选的实施方式，生成模块132具体用于：

对语音指令进行语音识别和语义分析，生成与语音指令对应的交互数据。

作为本发明实施例一种可选的实施方式，发送模块133，还用于向智能音频设备发送更新指令，以指示智能音频设备更新与虚拟生物角色相关的数据。

基于同一发明构思，本发明实施例还提供了一种智能音频设备。图7为本发明实施例提供的智能音频设备的结构示意图，如图7所示，本实施例提供的智能音频设备包括：存储器211和处理器212，存储器211用于存储计算机程序；处理器212用于在调用计算机程序时执行上述方法实施例所述的方法。

本实施例提供的智能音频设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

基于同一发明构思，本发明实施例还提供了一种智能终端设备。图8为本发明实施例提供的智能终端设备的结构示意图，如图8所示，本实施例提供的智能终端设备包括：存储器221和处理器222，存储器221用于存储计算机程序；处理器222用于在调用计算机程序时执行上述方法实施例所述的方法。

本实施例提供的智能终端设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

基于同一发明构思，本发明实施例还提供了一种服务器。图9为本发明实施例提供的服务器的结构示意图，如图9所示，本实施例提供的服务器包括：存储器231和处理器232，存储器231用于存储计算机程序；处理器232用于在调用计算机程序时执行上述方法实施例所述的方法。

本实施例提供的服务器可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

本发明实施例还提供一种人机交互系统，包括：上述实施例所述的服务器和智能音频设备。

其中，服务器和智能音频设备的相关描述可以参见上述方法实施例，此处不再赘述。

另外，该人机交互系统还可以包括上述实施例所述的智能终端设备，其具体的工作原理可以上述方法实施例，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所述的方法。

本领域技术人员应明白，处理器可以是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种人机交互方法，应用于智能音频设备，其特征在于，包括：

呈现虚拟生物角色；

根据接收到的语音指令获得与所述语音指令对应的交互数据，其中，所述交互数据中包括语音数据和动作指令数据；

根据所述语音数据播放相应的语音，并根据所述动作指令数据控制所述虚拟生物角色执行相应的动作。

2.根据权利要求1所述的方法，其特征在于，所述呈现虚拟生物角色，包括：

从预设的多种成像方式中选择一种成像方式呈现所述虚拟生物角色。

3.根据权利要求2所述的方法，其特征在于，所述从预设的多种成像方式中选择一种成像方式呈现所述虚拟生物角色，包括：

根据接收到的用户的第一语音选择指令，采用与所述第一语音选择指令对应的成像方式呈现所述虚拟生物角色。

4.根据权利要求2所述的方法，其特征在于，所述从预设的多种成像方式中选择一种成像方式呈现所述虚拟生物角色，包括：

根据接收到的智能终端设备发送的成像方式选择指令，采用与所述成像方式选择指令对应的成像方式呈现所述虚拟生物角色。

5.根据权利要求2所述的方法，其特征在于，所述多种成像方式包括三维成像方式，所述三维成像方式包括：全息投影方式、增强现实方式、虚拟现实方式和混合现实方式中的至少一种。

6.根据权利要求1所述的方法，其特征在于，所述呈现虚拟生物角色，包括：

7.根据权利要求6所述的方法，其特征在于，所述从预设的多个虚拟生物角色中选择一个虚拟生物角色进行呈现，包括：

根据接收到的用户的第二语音选择指令，呈现与所述第二语音选择指令对应的虚拟生物角色。

8.根据权利要求6所述的方法，其特征在于，所述从预设的多个虚拟生物角色中选择一个虚拟生物角色进行呈现，包括：

根据接收到的智能终端设备发送的角色选择指令，呈现与所述角色选择指令对应的虚拟生物角色。

9.根据权利要求1所述的方法，其特征在于，所述呈现虚拟生物角色，包括：

向智能终端设备发送呈现指令，以指示所述智能终端设备呈现所述虚拟生物角色，其中，所述呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

所述根据所述动作指令数据控制所述虚拟生物角色执行相应的动作，包括：

向智能终端设备发送携带有所述动作指令数据的执行指令，以指示所述智能终端设备根据所述动作指令数据控制所述虚拟生物角色执行相应的动作。

10.根据权利要求1所述的方法，其特征在于，所述根据接收到的语音指令获得与所述语音指令对应的交互数据，包括：

将接收到的语音指令发送给服务器，以指示所述服务器对所述语音指令进行语音识别和语义分析，并生成与所述语音指令对应的交互数据；

接收所述服务器发送的所述交互数据。

11.根据权利要求1所述的方法，其特征在于，所述根据所述语音数据播放相应的语音，包括：

根据所述语音数据和预存的与所述虚拟生物角色对应的语音属性信息播放相应的语音。

12.根据权利要求1所述的方法，其特征在于，所述动作指令数据包括：表情动作指令数据和/或肢体动作指令数据。

13.根据权利要求1-12任一项所述的方法，其特征在于，所述方法还包括：更新与虚拟生物角色相关的数据。

14.根据权利要求13所述的方法，其特征在于，所述更新与虚拟生物角色相关的数据，包括：

接收服务器发送的更新指令；

根据所述更新指令更新与所述虚拟生物角色相关的数据。

15.根据权利要求14所述的方法，其特征在于，所述与虚拟生物角色相关的数据包括：虚拟生物角色的成长属性，其中，所述虚拟生物角色的成长属性是根据预设的规则确定的。

16.根据权利要求13所述的方法，其特征在于，所述方法还包括：

当根据更新后的数据确定呈现的虚拟生物角色需要更新时，根据所述更新后的数据动态更新所述呈现的虚拟生物角色。

17.根据权利要求16所述的方法，其特征在于，所述根据所述更新后的数据动态更新所述呈现的虚拟生物角色，包括：

当通过智能终端设备呈现所述虚拟生物角色时，向所述智能终端设备发送携带有更新后的数据的动态更新指令，以指示所述智能终端设备根据所述更新后的数据动态更新所述虚拟生物角色。

18.一种人机交互方法，应用于智能终端设备，其特征在于，包括：

接收智能音频设备发送的呈现指令，其中，所述呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

呈现与所述呈现数据对应的虚拟生物角色；

接收所述智能音频设备发送的携带有动作指令数据的执行指令；

根据所述动作指令数据控制所述虚拟生物角色执行相应的动作。

19.根据权利要求18所述的方法，其特征在于，所述呈现数据为所述智能音频设备从预设的多种成像方式中选择的第一成像方式的呈现数据；所述呈现与所述呈现数据对应的虚拟生物角色，包括：

采用所述第一成像方式呈现所述虚拟生物角色。

20.根据权利要求19所述的方法，其特征在于，在所述接收智能音频设备发送的携带有虚拟生物角色的呈现数据的呈现指令之前，所述方法还包括：

向所述智能音频设备发送所述第一成像方式对应的成像方式选择指令。

21.根据权利要求18所述的方法，其特征在于，所述虚拟生物角色为所述智能音频设备从预设的多个虚拟生物角色中选择的第一虚拟生物角色；所述呈现与所述呈现数据对应的虚拟生物角色，包括：

呈现所述第一虚拟生物角色。

22.根据权利要求21所述的方法，其特征在于，在所述接收智能音频设备发送的携带有虚拟生物角色的呈现数据的呈现指令之前，所述方法还包括：

向所述智能音频设备发送所述第一虚拟生物角色对应的角色选择指令。

23.根据权利要求18-22任一项所述的方法，其特征在于，所述方法还包括：

接收所述智能终端设备发送的携带有更新后的数据的动态更新指令，并根据所述更新后的数据动态更新所述虚拟生物角色。

24.一种人机交互方法，应用于服务器，其特征在于，包括：

接收智能音频设备发送的语音指令；

根据所述语音指令生成与所述语音指令对应的交互数据，其中，所述交互数据中包括语音数据和动作指令数据；

将所述交互数据发送给所述智能音频设备，以指示所述智能音频设备根据所述语音数据播放相应的语音，并根据所述动作指令数据控制呈现的虚拟生物角色执行相应的动作。

25.根据权利要求24所述的方法，其特征在于，所述根据所述语音指令生成与所述语音指令对应的交互数据，包括：

对所述语音指令进行语音识别和语义分析，生成与所述语音指令对应的交互数据。

26.根据权利要求24或25所述的方法，其特征在于，所述方法还包括：

向所述智能音频设备发送更新指令，以指示所述智能音频设备更新与所述虚拟生物角色相关的数据。

27.一种人机交互装置，应用于智能音频设备，其特征在于，包括：

显示模块，用于呈现虚拟生物角色；

获取模块，用于根据接收到的语音指令获得与所述语音指令对应的交互数据，其中，所述交互数据中包括语音数据和动作指令数据；

控制模块，用于根据所述语音数据播放相应的语音，并根据所述动作指令数据控制所述虚拟生物角色执行相应的动作。

28.一种人机交互装置，应用于智能终端设备，其特征在于，包括：接收模块、显示模块和控制模块，其中：

所述接收模块，用于接收智能音频设备发送的呈现指令，其中，所述呈现指令中携带有待呈现的虚拟生物角色的呈现数据；

所述显示模块，用于呈现与所述呈现数据对应的虚拟生物角色；

所述接收模块，还用于接收所述智能音频设备发送的携带有动作指令数据的执行指令；

所述控制模块，用于根据所述动作指令数据控制所述虚拟生物角色执行相应的动作。

29.一种人机交互装置，应用于服务器，其特征在于，包括：

接收模块，用于接收智能音频设备发送的语音指令；

生成模块，根据所述语音指令生成与所述语音指令对应的交互数据，其中，所述交互数据中包括语音数据和动作指令数据；

发送模块，用于将所述交互数据发送给所述智能音频设备，以指示所述智能音频设备根据所述语音数据播放相应的语音，并根据所述动作指令数据控制呈现的虚拟生物角色执行相应的动作。

30.一种智能音频设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行如权利要求1-17任一项所述的方法。

31.一种智能终端设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行如权利要求18-23任一项所述的方法。

32.一种服务器，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行如权利要求24-26任一项所述的方法。

33.一种人机交互系统，其特征在于，包括：如权利要求30所述的智能音频设备和如权利要求32所述的服务器。

34.根据权利要求33所述的系统，其特征在于，所述系统还包括：如权利要求31所述的智能终端设备。

35.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-26任一项所述的方法。