CN107728780A

CN107728780A - 一种基于虚拟机器人的人机交互方法及装置

Info

Publication number: CN107728780A
Application number: CN201710841023.9A
Authority: CN
Inventors: 王恺
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-02-23
Anticipated expiration: 2037-09-18
Also published as: CN107728780B

Abstract

一种基于虚拟机器人的人机交互方法及装置，该方法包括：获取多模态输入信息；对多模态输入信息进行解析并根据解析结果判断当前用户是否为儿童用户，如果当前用户为儿童用户，则对多模态输入信息进行意图识别，得到用户意图，根据当前交互场景信息所对应的知识产权内容和用户意图生成并输出相应的多模态反馈信息，多模态反馈信息中的虚拟机器人版权形象与当前交互场景所对应的知识产权内容相关。本方法可以实现虚拟机器人在大IP场景中，通过多模态交互的方式，与用户进行互动，增强虚拟机器人与用户的情感联系，增加交互的趣味性，提升用户的交互兴趣，从而增多用户与虚拟机器人的交互次数，进而增强虚拟机器人的交互能力。

Description

一种基于虚拟机器人的人机交互方法及装置

技术领域

本发明涉及机器人技术领域，具体地说，涉及一种基于虚拟机器人的人机交互方法及装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

发明内容

为解决上述问题，本发明提供了一种基于虚拟机器人的人机交互方法，启用虚拟机器人，将所述虚拟机器人的形象显示在预设显示区域中，所述方法包括：

步骤一、获取多模态输入信息；

步骤二、对所述多模态输入信息进行图像处理和/或音频处理，根据图像处理结果和/或音频处理结果判断当前用户是否为儿童用户，其中，如果当前用户为儿童用户，则对所述多模态输入信息进行意图识别，得到用户意图，根据当前交互场景信息所对应的知识产权内容和所述用户意图生成并输出相应的多模态反馈信息，其中，所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景所对应的知识产权内容相关。

根据本发明一个实施例，在所述步骤二中，对获取到的用户语音信息进行音频处理，得到用户声纹数据，对获取到的用户图像信息进行人脸识别处理，得到用户人脸数据，对所述用户人脸数据和用户声纹数据进行特征匹配，判断所述当前用户是否为儿童用户。

根据本发明一个实施例，如果所述当前用户为儿童用户，则根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别，并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。

根据本发明一个实施例，在所述步骤二中，根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据，并根据提取出的内容数据生成所述多模态反馈信息。

根据本发明一个实施例，所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。

根据本发明一个实施例，在所述步骤二中，还获取虚拟机器人情感信息，并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。

本发明还提供了一种基于虚拟机器人的人机交互装置，所述装置配置为将虚拟机器人的形象显示在预设显示区域中，所述装置包括：

输入信息获取模块，其用于获取多模态输入信息；

数据处理模块，其与所述输入信息获取模块连接，用于对所述多模态输入信息进行图像处理和/或音频处理，根据图像处理结果和/或音频处理结果判断当前用户是否为儿童用户，其中，如果当前用户为儿童用户，则对所述多模态输入信息进行意图识别，得到用户意图，根据当前交互场景信息所对应的知识产权内容和所述用户意图生成并输出相应的多模态反馈信息，其中，所述多模态反馈信息中的虚拟机器人版权形象与所述当前交互场景所对应的知识产权内容相关。

根据本发明一个实施例，所述数据处理模块配置为对获取到的用户语音信息进行音频处理，得到用户声纹数据，对获取到的用户图像进行人脸识别处理，得到用户人脸数据，对所述用户人脸数据和用户声纹数据进行特征匹配，判断所述当前用户是否为儿童用户。

根据本发明一个实施例，如果所述当前用户为儿童用户，所述数据处理模块则配置为根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别，并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。

根据本发明一个实施例，所述数据处理模块配置为根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据，并根据提取出的内容数据生成所述多模态反馈信息。

根据本发明一个实施例，所述数据处理模块配置为还获取虚拟机器人情感信息，并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。

本发明还提供了一种存储介质，所述存储介质上存储有可执行如上任一项所述的基于虚拟机器人的人机交互方法步骤的程序代码。

本发明所提供的基于虚拟机器人的人机交互方法，可以实现虚拟机器人在大IP场景中，通过多模态交互的方式，与用户进行互动，增强虚拟机器人与用户的情感联系，增加交互的趣味性，提升用户的交互兴趣，从而增多用户与虚拟机器人的交互次数，进而增强虚拟机器人的交互能力。

同时，该人机交互方法通过将虚拟机器人的版权形象与当前交互场景的知识产权内容相关联，可以使得虚拟机器人能够在周边产品推广、知识产权关联业务推广以及执行过程中得到应用，从而提高产品以及服务推广的效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的基于虚拟机器人的人机交互场景示意图；

图2是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图；

图3是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图；

图4是根据本发明一个实施例的基于虚拟机器人的人机交互方法的实现流程示意图；

图5是根据本发明一个实施例的基于虚拟机器人的人机交互装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了一种新的基于虚拟机器人的人机交互方法，该人机交互方法能够通过显示相应的虚拟机器人版权形象来与用户进行人机交互。图1示出了本实施例中该方法的实现场景示意图。

如图1所示，本实施例中，该基于虚拟机器人的人机交互方法在实现过程中会使用到一用于显示虚拟机器人形象103的图像显示设备101。需要指出的是，在本发明的不同实施例中，上述图像显示设备101可以根据实际需要来采用不同的设备来实现，本发明不限于此。例如，在本发明的一个实施例中，上述图像显示设备101可以利用液晶显示器来显示虚拟机器人形象；而在本发明的另一个实施例中，上述图像显示设备101还可以利用全息投影仪来显示虚拟机器人形象103。

本实施例中，图像显示设备101所显示的虚拟机器人形象是与用户102以及当前交互场景所对应的知识产权内容相对应的。为了更加清楚地阐述本发明所提供的实现原理、实现过程以及有限，以下分别结合不同的实施例来对该基于虚拟机器人的人机交互方法作进一步地说明。

实施例一：

图2示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。

如图2所示，本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤S201中获取多模态输入信息。本实施例中，该方法在步骤S201中所获取到的多模态输入信息既可以包含关于用户的图像信息(即用户图像信息)，也可以包含用户所输入的语音信息(即用户语音信息)。当然，在本发明的其它实施例中，根据实际情况，该方法在步骤S201中所获取到的多模态交互信息中还可以包含其它合理信息，本发明不限于此。

在获取到多模态输入信息后，该方法会在步骤S202中对上述多模态交互信息中所包含的用户图像信息和用户语音信息分别进行图像处理和音频处理，从而对应得到图像处理结果和音频处理结果。

该方法会在步骤S203中根据上述步骤S202中所得到的图像处理结果和音频处理结果来判断当前用户是否为儿童用户。具体地，本实施例中，该方法可以通过对多模态交互信息中所包含的用户图像信息进行图像处理来得到用户的人脸数据和/或用户的身高数据。

而通过对多模态交互信息中所包含的用户音频数据进行音频处理，该方法则可以得到用户的音频特征数据(例如声纹特征数据、音调特征数据、声长特征数据等)。在步骤S203中，该方法可以根据上述用户的人脸数据、用户的身高数据和/或用户的音频特征数据来判断当前用户是否为儿童用户。具体地，该方法在步骤S203中可以利用预先训练完成的人工神经网络来根据上述用户的人脸数据、用户的身高数据和/或用户的音频特征数据判断出当前用户的年龄区间，随后根据当前用户的年龄区间来判断当前用户是否为儿童用户。

当然，在本发明的其它实施例中，该方法在步骤S203中还可以采用其它合理的方式来根据步骤S202中所得到的图像处理结果和音频处理结果来确定当前用户是否为儿童用户，本发明不限于此。

同时，需要指出的是，在本发明的其它实施例中，根据实际情况，该方法在步骤S202中还可以仅对多模态交互信息中的图像信息或音频信息进行处理，并在步骤S203中根据步骤S202中所得到的图像处理结果或音频处理结果来确定当前用户是否为儿童用户。

如果当前用户为儿童用户，如图2所示，本实施例中，该方法会在步骤S204中对上述多模态交互信息进行意图识别，从而得到用户意图。意图在本发明一个实施例中，在步骤S204中可以通过提取文本信息中的关键词的方式来确定交互话题。而当用户所输入的交互输入信息为语音对话信息时，该方法可以首先将语音对话信息转换为相应的文本信息，再通过对文本信息进行解析来确定出交互话题。

在确定出交互话题后，该方法会利用预设意图图谱，根据所确定出的交互话题来确定出用户的意图。意图可以视为机器人以自身视角来尝试理解人机交互过程中，用户在某种主题或者话题下期望达到某种目的的打算。由于交互话题所涉及的内容较为广泛，因此该方法也就需要以意图图谱来挖掘和确定在后续人机交互过程中用户需要从机器人获取的信息(即机器人需要向用户反馈的信息)。

具体地，本实施例中，在根据交互话题来确定用户的意图时，该方法首先会在预设意图图谱中确定出上述交互话题所对应的节点，随后在预设意图图谱中确定出以上述交互话题所对应的节点为初始节点的连线所对应的节点(即终端节点)，从而根据终端节点来确定出用户意图。

由于与初始节点所连接的节点可能存在多个，因此该方法所确定出的终端节点也就可能为多个。针对这种情况，本实施例中，该方法首先会根据与初始节点相连接的多个节点确定出多个候选意图，随后对这些候选意图进行置信度排序，并根据排序结果来确定出所需要的意图。

具体地，本实施例中，该方法根据预设意图图片中各个节点连线的权重来对这些候选意图进行排序，并选取权重最大的候选意图作为最终所需要的意图。

当然，在本发明的其它实施例中，该方法还可以采用其它合理方式来根据确定出用户意图，本发明不限于此。

在得到用户意图后，该方法将会在步骤S205中根据当前交互场景信息所对应的知识产权内容和用户意图来生成相应的多模态反馈信息并输出。本实施例中，该方法所生成的多模态反馈信息中包含有虚拟机器人版权形象，该虚拟机器人版权形象与当前交互场景所对应的知识产权内容相关。本实施例中，当前交互场景所对应的知识产权内容可以指交互场景中所设置的物体的版权形象，也可以指交互场景所处的场地的版权内容，抑或是其它与知识产权相关的内容，本发明不限于此。

例如，如果当前交互场景为关于乐迪的主体乐园，那么该方法在步骤S205中所生成的虚拟机器人的机器人版权形象将可以是乐迪的动画形象。同时，该方法在步骤S205中还可以在显示乐迪的动画形象的同时输出与乐迪相关的语音(例如关于乐迪的故事等)。

需要指出的是，本实施例中，根据实际需要，上述步骤S201至步骤S205既可以完全在设置于当前交互场景中的用于直接与用户进行交互的相关硬件设备来实现，也可以由上述用于直接与用户进行交互的相关硬件设备与云端服务器配合地实现，本发明不限于此。例如，当上述步骤需要由用于直接与用户进行交互的相关硬件设备与云端服务器配合地实现时，该方法可以将获取到的多模态输入信息传输至云端服务器，以由云端服务器通过执行上述步骤S202至步骤S205来生成多模态反馈信息，随后再将所生成的多模态反馈信息传输至用于直接与用户进行交互的相关硬件设备来进行输出。

同时，还需要指出的是，在本发明的不同实施例中，该方法在步骤S205中所生成并输出的多模态反馈信息既可以是包含虚拟机器人版权形象的动画，也可以是包含虚拟机器人版权形象的动画与相应语音信息(例如与该虚拟机器人版权形象相关的故事语音)的结合，抑或是包含虚拟机器人版权形象的动画与其它合理形式的信息的结合，本发明不限于此。

从上述描述中可以看出，本实施例所提供的基于虚拟机器人的人机交互方法使得所显示出的虚拟机器人的版权形象或者动作能够与当前交互场景的知识产权内容相对应，这样也就可以使得虚拟机器人能够更加地符合自身所处的交互场景，从而避免了因虚拟机器人的版权形象与当前交互场景冲突而影响人机交互体验。

实施例二：

图3示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。

如图3所示，本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤S301中获取多模态输入信息。需要指出的是，本实施例中，步骤S301的具体实现原理以及实现过程与上述步骤S201相同，故在此不再对步骤S301的相关内容进行赘述。

该方法会在步骤S302中对上述多模态输入信息中所包含的用户图像信息进行人脸识别处理，从而得到用户人脸数据。此外，该方法还会在步骤S303中对上述多模态输入信息中所包含的用户语音信息进行音频处理，从而得到用户声纹数据。

在步骤S304中，该方法会将上述用户人脸数据和用户声纹数据与预设儿童用户人脸数据和预设儿童用户声纹数据分别进行匹配，并根据匹配结果来判断当前用户是否为儿童用户。

其中，如果当前用户为儿童用户，该方法则会在步骤S305中对获取到的多模态输入信息进行意图识别，从而得到当前用户的用户意图。本实施例中，步骤S305的具体实现原理以及实现过程与上述实施例所公开的步骤S204的内容相同，故在此不再对步骤S305的相关内容进行赘述。

除了获取当前用户的用户意图外，该方法还会在步骤S306中根据用户人脸数据和/或用户声纹数据来确定当前用户的用户年龄和/或用户性别，随后再在步骤S307中根据当前交互场景所对应的知识产权内容和用户意图，来生成与用户年龄和/或用户性别相对应的多模态反馈信息。

具体地，本实施例中，在得到当前用户的用户年龄和用户性别后，该方法会在步骤S307中根据当前用户的用户年龄和用户性别来从预设内容库中提取出用户年龄和用户性别相对应的内容数据，并根据提取出的内容数据来结合当前交互场景所对应的知识产权内容和用户意图生成相应的多模态反馈信息。

本实施例所提供的基于虚拟机器人的人机交互方法在实施例一所提供的方法的基础上，通过结合当前用户的用户年龄和/或用户性别来生成多模态反馈信息，这不仅能够使得最终生成的多模态反馈信息更加精准地符合当前用户的交互预期，也能够有效吸引用户与虚拟机器人进行人机交互，从而提高了人机交互产品的用户吸引力以及用户使用粘度。

实施例三：

图4示出了本实施例所提供的基于虚拟机器人的人机交互方法的实现流程示意图。

如图4所示，本实施例所提供的基于虚拟机器人的人机交互方法首先在步骤S401中获取多模态输入信息，并在步骤S402中对上述多模态输入信息进行图像处理和/或音频处理，进而在步骤S403中根据上述图像处理结果和/或音频处理结果来判断当前用户是否为儿童用户。

其中，如果当前用户为儿童用户，该方法则会在步骤S404中进一步对步骤S401中所获取的多模态输入信息进行意图识别，从而得到当前用户的用户意图。

需要指出的是，本实施例中，步骤S401至步骤S404的具体实现原理以及实现过程与上述步骤S201至步骤S204相同，故在此不再对步骤S401至步骤S404的相关内容进行赘述。

在获取到当前用户的用户意图后，本实施例中，该方法还会在步骤S405中进一步获取虚拟机器人的情感信息，并在步骤S406中根据当前交互场景信息所对应的知识产权内容和用户意图，结合虚拟机器人情感信息以及虚拟机器人版权形象生成相应的多模态反馈信息。

具体地，本实施例中，该方法在步骤S405中优选地通过读取存储在相关存储器中的机器人情感信息数据来获取虚拟机器人的情感信息。当然，在本发明的其它实施例中，该方法还可以采用其它合理方式来获取虚拟机器人情感信息，本发明不限于此。

本发明还提供了一种存储介质，该存储介质上存储有可执行如上所述的基于虚拟机器人的人机交互方法步骤的程序代码。此外，本发明还提供了一种基于虚拟机器人的人机交互装置，图5示出了本实施例中该人机交互装置的结构示意图。

如图5所示，本实施例中，该基于虚拟机器人的人机交互装置优选地包括：输入信息获取模块501以及数据处理模块502。其中，根据实际需要，输入信息获取模块501可以采用不同的器件或设备来实现，以便能够获取不同类型的输入信息。

例如，如果需要获取图像信息，那么输入信息获取模块501则需要包括相应的图像采集设备(例如摄像头等)；而如果需要获取语音信息，那么输入信息获取模块501则需要包括相应的语音采集设备(例如麦克风等)；而如果需要获取文本信息，那么输入信息获取模块501则需要包括相应的文本采集设备(例如实体键盘或是虚拟键盘等)。

数据处理模块502与输入信息获取模501连接，其能对输入信息获取模块501所传输来的多模态输入信息进行解析，并根据解析结果来判断当前用户是否为儿童用户。具体地，本实施例中，数据处理模块502优选地包括云端服务器。输入信息获取模块501在获取到多模态输入信息后，会将上述多模态输入信息通过相关数据传输网络(例如以太网等)传输至云端服务器，以由云端服务器对上述多模态输入信息进行解析。

本实施例中，云端服务器优选地会对输入信息获取模块501传输来的多模态输入信息所包含的图像信息和音频信息对应地进行图像处理和音频处理，对应得到图像处理结果(例如用户人脸数据和/或用户身高数据等)和音频处理结果。例如，云端服务器通过对用户图像信息进行人脸识别处理可以得到当前用户的用户人脸数据，通过对用户音频信息进行处理可以得到当前用户的用户声纹数据。在得到当前用户的用户人脸数据和用户声纹数据后，云端服务器也就可以通过特征匹配的方式来将当前用户的用户人脸数据和用户声纹数据与预设儿童用户的用户人脸数据和用户声纹数据进行特征匹配，从而判断当前用户是否为儿童用户。

当判断出当前用户为儿童用户后，云端服务器还会对接收到的多模态输入信息进行意图识别，从而得到当前用户的用户意图。这样云端服务器也就可以根据当前交互场景信息所对应的知识产权内容和用户意图来生成相应的多模态反馈信息。其中，云端服务器所生成的多模态反馈信息中包含虚拟机器人版权形象，该虚拟机器人版权形象与当前交互场景所对应的知识产权内容相对应。

在生成上述多模态反馈信息后，云端服务器会将上述多模态反馈信息传输至设置在当前交互场景中的输出设备，以由该输出设备来将上述多模态反馈信息进行输出(例如显示虚拟机器人版权形象或输出与虚拟机器人版权形象相对应的语音等)。

需要指出的是，在本发明的不同实施例中，上述云端服务器实现其功能的具体原理以及过程既可以与上述实施例一中步骤S202至步骤S205所公开的内容相同，也可以与上述实施例二中步骤S302至步骤S307所公开的内容相同，还可以与上述实施例三中步骤S402至步骤S406所公开的内容相同，故在此不再对云端服务器的相关内容进行赘述。

当然，在本发明的其它实施例中，云端服务器的功能以及输出设备的功能还可以集成在一设置在当前交互场景中的某一设备中来实现，这样输入信息获取模块501也就无需将获取到的多模态输入信息上传至云端服务器，而可以改由在本地进行数据处理。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

Claims

1.一种基于虚拟机器人的人机交互方法，其特征在于，启用虚拟机器人，将所述虚拟机器人的形象显示在预设显示区域中，所述方法包括：

步骤一、获取多模态输入信息；

2.如权利要求1所述的方法，其特征在于，在所述步骤二中，对获取到的用户语音信息进行音频处理，得到用户声纹数据，对获取到的用户图像信息进行人脸识别处理，得到用户人脸数据，对所述用户人脸数据和用户声纹数据进行特征匹配，判断所述当前用户是否为儿童用户。

3.如权利要求2所述的方法，其特征在于，如果所述当前用户为儿童用户，则根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别，并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。

4.如权利要求3所述的方法，其特征在于，在所述步骤二中，根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据，并根据提取出的内容数据生成所述多模态反馈信息。

5.如权利要求1～4中任一项所述的方法，其特征在于，所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。

6.如权利要求1～5中任一项所述的方法，其特征在于，在所述步骤二中，还获取虚拟机器人情感信息，并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。

7.一种基于虚拟机器人的人机交互装置，其特征在于，所述装置配置为将虚拟机器人的形象显示在预设显示区域中，所述装置包括：

输入信息获取模块，其用于获取多模态输入信息；

8.如权利要求7所述的装置，其特征在于，所述数据处理模块配置为对获取到的用户语音信息进行音频处理，得到用户声纹数据，对获取到的用户图像进行进行人脸识别处理，得到用户人脸数据，对所述用户人脸数据和用户声纹数据进行特征匹配，判断所述当前用户是否为儿童用户。

9.如权利要求8所述的装置，其特征在于，如果所述当前用户为儿童用户，所述数据处理模块则配置为根据所述用户人脸数据和/或用户声纹数据确定所述当前用户的用户年龄和/或用户性别，并生成与所述用户年龄和/或用户性别相对应的多模态反馈信息。

10.如权利要求9所述的装置，其特征在于，所述数据处理模块配置为根据所述用户年龄和/或用户性别从预设内容库中提取与所述用户年龄和/或用户性别相对应的内容数据，并根据提取出的内容数据生成所述多模态反馈信息。

11.如权利要求7～10中任一项所述的装置，其特征在于，所述多模态反馈信息还包括与所述虚拟机器人版权形象相对应的语音反馈信息。

12.如权利要求7～11中任一项所述的装置，其特征在于，所述数据处理模块配置为还获取虚拟机器人情感信息，并结合所述虚拟机器人情感信息以及虚拟机器人版权形象生成所述多模态反馈信息。

13.一种存储介质，其特征在于，所述存储介质上存储有可执行如权利要求1-6中任一项所述的方法步骤的程序代码。