CN107577661A

CN107577661A - 一种针对虚拟机器人的交互输出方法以及系统

Info

Publication number: CN107577661A
Application number: CN201710665179.6A
Authority: CN
Inventors: 王凯; 赖昱竹; 赵杰
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2018-01-12
Anticipated expiration: 2037-08-07
Also published as: CN107577661B

Abstract

本发明公开了一种针对虚拟机器人的交互输出方法以及系统。方法包括：获取用户交互输入；对所述用户交互输入进行语义理解及情感计算，生成应答文本以及对应的情感参数，并匹配动作参数；根据所述应答文本确定对应的文本输出数据和/或语音合成数据；根据所述动作参数、情感参数确定所述虚拟机器人的动作回应数据、情感回应数据；对所述动作回应数据、情感回应数据进行输出参数配置；基于配置好的输出参数输出所述文本输出数据和/或语音合成数据、所述动作回应数据、所述情感回应数据。根据本发明的方法，可以使得虚拟机器人协调输出动作、表情以及语音/文本。

Description

一种针对虚拟机器人的交互输出方法以及系统

技术领域

本发明涉及计算机领域，具体涉及一种针对虚拟机器人的交互输出方法以及系统。

背景技术

随着智能机器人技术的不断发展，具备自主交互能力的虚拟机器人被越来越多的应用到人机交互场景中。

在现有技术中，虚拟机器人通常通过文本方式与用户实现交互。即，用户输入文本，虚拟机器人以文本形式进行回应。文本形式虽然可以在一定程度上实现虚拟机器人与用户之间的语义交流，但是受限于其表现方式，文本交互方式只能进行直白简单的语义交流。进一步的，由于人类日常最普遍的交流方式并不是文本交流，因此文本交流方式很容易让人感到抵触厌倦。这就大大降低了虚拟机器人的用户体验，影响了用户对虚拟机器人的使用欲望。

发明内容

本发明提供了一种针对虚拟机器人的交互输出方法，启用虚拟机器人，以将所述虚拟机器人的形象在预设显示区域中显示，所述方法包括：

获取用户交互输入；

对所述用户交互输入进行语义理解及情感计算，生成响应所述用户交互输入的应答文本以及对应的情感参数，

根据所述应答文本和/或所述情感参数匹配动作参数；

根据所述应答文本确定对应的文本输出数据和/或语音合成数据；

根据所述动作参数确定所述虚拟机器人的动作回应数据；

根据所述情感参数确定所述虚拟机器人的情感回应数据；

根据所述文本输出数据和/或语音合成数据的输出时间参数以及预置输出参量，对所述动作回应数据、所述情感回应数据进行输出参数配置并输出。

在一实施例中，根据所述文本输出数据和/或语音合成数据的输出时间参数以及预置输出参量，对所述动作回应数据、所述情感回应数据进行输出参数配置，包括：

在开始输出所述文本输出数据和/或语音合成数据的同时，开始所述动作回应数据、所述情感回应数据的输出；

和/或

在所述文本输出数据和/或语音合成数据的输出完成的同时结束所述动作回应数据、所述情感回应数据的输出。

在一实施例中，所述动作参数或所述情感参数基于其具体参数值对应预存的一组或多组动作回应数据或情感回应数据。

在一实施例中，在输出所述多模态回应数据时，在对应所述动作参数以及所述情感参数的多组动作回应数据以及情感回应数据中，选择一组动作回应数据和/或一组情感回应数据输出。

在一实施例中，所述动作回应数据和/或所述情感回应数据包括：

发生阶段数据，其配置为在输出所述动作回应数据和/或所述情感回应数据的最初被输出；

结束阶段数据，其配置为在结束输出所述动作回应数据和/或所述情感回应数据时被输出；

重复阶段数据，其配置为在输出所述发生阶段数据与所述结束阶段数据之间被输出，其中，所述重复阶段数据还配置为可被慢速/重复输出以控制所述动作回应数据和/或所述情感回应数据的输出持续时间。

在一实施例中，所述方法还包括：

当不存在所述用户交互输入时生成默认动作回应数据和/或默认情感回应数据。

在一实施例中，所述虚拟机器人形象为3D建模构成。

本发明还提出了一种存储介质，所述存储介质上存储有可实现本发明所提出的方法的程序代码。

本发明还提出了一种虚拟机器人交互系统，所述系统包括：

输入采集装置，其配置为获取用户交互输入；

输入分析单元，其配置为对所述用户交互输入进行语义理解及情感计算，生成响应所述用户交互输入的应答文本以及对应的情感参数，并匹配动作参数；

第一输出内容匹配单元，其配置为根据所述应答文本确定对应的文本输出数据和/或语音合成数据；

第二输出内容匹配单元，其配置为根据所述动作参数、情感参数确定所述虚拟机器人的动作回应数据、情感回应数据；

输出参数配置单元，其配置为根据所述文本输出数据和/或语音合成数据的输出时间参数以及预置输出参量，对所述动作回应数据、所述情感回应数据进行输出参数配置；

输出装置，其配置为基于配置好的输出参数输出所述文本输出数据和/或语音合成数据、所述动作回应数据以及所述情感回应数据。

根据本发明的方法，可以使得虚拟机器人协调输出动作、表情以及语音/文本，从而降低虚拟机器人交互输出的生涩感，提高虚拟机器人的拟人化程度，优化虚拟机器人的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1以及图5是根据本发明不同实施例的方法流程图；

图2～图4是根据本发明不同实施例的输出时序示意图；

图6是根据本发明一实施例的系统结构简图；

图7是根据本发明一实施例的交互场景示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

为了提高虚拟机器人的拟人化水平及交互体验，本发明提出了一种针对虚拟机器人的交互输出方法。在本发明的方法中，针对用户的交互输入，在进行语义理解同时还进行情感分析，并采用多模态进行回应数据的输出，这不仅大大提高了机器人交互回应的与当前用户交互输入的匹配度，而且避免了单文本输出带来的交互模式呆板生涩的问题，大大提高了用户的交流欲望。

进一步的，在机器人进行多模态回应数据的输出时，模仿人类的交互习惯对不同模态的回应数据进行输出模式的匹配，从而使得输出的多模态回应数据更加符合人类的交流习惯，从而提高机器人的拟人化水平，提高机器人的用户体验。

具体的，针对虚拟机器人自身的特性，在一实施例中，多模态回应数据包含语音输出以及表情动作输出两部分。其中，语音输出是向用户直接输出具有具体语义的文字/语音；表情动作输出则是利用虚拟机器人表情、肢体变化来向用户传达特定的含义。将语音输出以及表情动作输出对应到人类的交互输出场景，则可以近似的将语音输出对应为人类说话，将表情动作输出对应为人类表情以及动作。模拟人类交互输出可以近似的简化为令虚拟机器人的语音输出以及表情输出、动作输出的输出组合方式接近人类语音、表情动作的输出组合方式。因此，在一实施例中，虚拟机器人通过语音/文本(对应人类说话)、表情(对应人类表情)以及动作(对应人类动作)进行多模态输出。

例如，在一应用场景中，用户输入“我今天考试得了满分”，虚拟机器人不仅用文本以及语音的方式说出“恭喜！你太棒了！”而且表现出高兴的表情并作出撒花的动作。

进一步的，人类正常的交互输出过程中，说话和表情、动作是相辅相成的，其输出时机是相互配合的，不会出现三者分别独立输出的情况。因此，模拟人类交互输出还需要令虚拟机器人的语音输出以及表情输出、动作输出的输出时机(开始、结束时机)相匹配，接近人类语音和表情、动作的输出时机匹配方式。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，在一实施例中，首先启用虚拟机器人(S110)，以将虚拟机器人的形象在预设显示区域中显示，从而开始基于虚拟机器人的人机交互。

具体的，在一实施例中，虚拟机器人为多模态交互机器人，虚拟机器人的形象为多模态交互机器人的载体，对多模态交互机器人的多模态输出进行表现。

虚拟机器人(以虚拟形象为载体)为：多模态交互机器人与虚拟形象为载体的共同体，即：以确定的UI形象设计为载体，基于多模态人机交互，具有语义、视觉、情感、认知等AI能力，使用户享受流畅体验的个性化及智能化的服务机器人。

在一实施例中，虚拟机器人在硬件屏幕上进行展示，硬件可为安装有操作系统的展示器，PC机，投影等设备，与用户进行多模态交互，通过语音、视觉认知完成与用户问答、聊天及互动(识别用户，并模仿用户姿势等)。

另外，交互系统还配备云端服务器，其配置为提供多模态交互机器人(虚拟机器人)对用户的交互需求进行语义理解、视觉识别、认知计算、情感计算的处理能力的终端，实现决策输出。

进一步的，在一实施例中，具体的交互过程包括：

获取用户交互输入(S120)；

对用户交互输入进行语义理解及情感计算(S130)，生成响应用户交互输入的应答文本以及对应的情感参数；

根据应答文本和/或情感参数匹配动作参数(S131)；

根据应答文本确定对应的文本输出数据和/或语音合成数据(S141)；

根据动作参数确定虚拟机器人的动作回应数据(S142)；

根据情感参数确定虚拟机器人的情感回应数据(S143)；

根据文本输出数据和/或语音合成数据的播放时间参数以及预置播放参量，对动作回应数据以及情感回应数据进行播放参数配置(S150)；

基于配置好的播放参数输出文本输出数据和/或语音合成数据、动作回应数据以及情感回应数据(S160)。

具体的，模拟人类交互输出中利用动作表达情感的模式，在一实施例中，在步骤S131中，根据情感参数匹配动作参数。

具体的，模拟人类交互输出中利用动作表达语义的模式，在一实施例中，在步骤S131中，根据应答文本匹配动作参数。

进一步的，综合上述两种动作参数匹配模式，在一实施例中，在步骤S131中，综合应答文本以及情感参数匹配动作参数。

具体的，根据虚拟机器人的具体输出模式确定步骤S141的具体执行内容。在一实施例中，虚拟机器人不具备语音输出能力，在步骤S141中，仅根据应答文本确定文本输出内容。例如，基于语言习惯对应答文本输出，生成具备合理语义的文本输出内容。在另一实施例中，虚拟机器人不具备文本输出能力，在步骤S141中，仅根据应答文本确定语音合成数据。例如，对应答文本进行文本-语音装换，生成语音合成数据。进一步的，在一实施例中，虚拟机器人同时具备文本输出以及语音输出能力，在步骤S141中，根据应答文本同时确定文本输出内容以及语音合成数据。

进一步的，在一实施例中，虚拟机器人通过动画方式向用户展现其形象变化。动作回应数据以及情感回应数据即为展现虚拟机器人动作变化以及表情变化的动画片段(例如挥手、跳跃、微笑等)。输出动作回应数据以及情感回应数据即是在指定区域播放展现虚拟机器人动作变化以及表情变化的动画片段。

进一步的，在实际的交互场景中，虽然动作和表情都属于外在的交互表现形式，对应到虚拟机器人都属于虚拟机器人的形象变化。但是对于人类而言，动作表情是相互独立并可以互相随意组合的。因此，在一实施例中，动作回应数据以及情感回应数据是相互独立并且可以自由组合输出的。具体的，在一实施例中，表情动画与动作动画间可以相互组合播放。

进一步的，在一实施例中，动作回应数据以及情感回应数据是预先存储好的多组数据，动作回应数据/情感回应数据与动作参数/情感参数的具体参数值对应。

具体的，在一实施例中，动作参数/情感参数与动作回应数据/情感回应数据的对应关系可以是1对1。每组动作回应数据/情感回应数据对应动作参数/情感参数的一个具体参数值。例如，动作参数值a对应动作动画A、动作参数值b对应动作动画B、情感参数值c对应表情动画C、情感参数值d对应表情动画D。

在步骤S142中，基于动作参数/情感参数的具体参数值确定对应的预存的一组动作回应数据/情感回应数据。例如，当动作参数以及情感参数分别是a和d时，就可以确定动作动画A和表情动画D。

进一步的，在一实施例中，动作参数/情感参数与动作回应数据/情感回应数据的对应关系可以是1对多。动作参数/情感参数的一个具体参数值对应多组动作回应数据/情感回应数据。例如，动作参数值a对应动作动画A1以及A2、动作参数值b对应动作动画B1以及B2、情感参数值c对应表情动画C1以及C2、情感参数值d对应表情动画D1以及D2。

在步骤S142中，基于动作参数/情感参数的具体参数值确定对应的预存的多组动作回应数据/情感回应数据。例如，当动作参数以及情感参数分别是a和d时，就可以确定动作动画A1、A2以及表情动画D1和D2。

进一步的，对应1对多的情况，在步骤S160中，在输出多模态回应数据时，在对应动作参数以及情感参数的多组动作回应数据以及情感回应数据中，选择一组动作回应数据和/或一组情感回应数据输出。例如，当动作参数以及情感参数分别是a和d时，在步骤S142中确定动作动画A1、A2以及表情动画D1和D2，在步骤S160中选择播放动画A1以及表情动画D1(或是，动作动画A2以及表情动画D2、动作动画A1以及表情动画D2等其他组合)。

进一步的，在通常的交互场景中，人类往往是在开始说话的同时，辅助进行与当前说话含义对应的表情动作。因此，为了模仿人类的行为，在一实施例中，在步骤S150中，令动作回应数据、情感回应数据与文本输出数据和/或语音合成数据的播放时刻以及播放持续时长匹配。

具体的，在一实施例中，令动作回应数据、情感回应数据与文本输出数据和/或语音合成数据同时开始输出并同时结束输出。即，在开始输出文本输出数据和/或语音合成数据的同时，开始动作回应数据、情感回应数据的输出，在文本输出数据和/或语音合成数据的输出完成的同时结束动作回应数据、情感回应数据的输出。

进一步的，在实际交互场景中，人类的说话、表情动作的输出并不是严格匹配的，不会完全在说话的同时改变动作或是刚说完话立即同步停止动作。因此，在一实施例中，令动作回应数据、情感回应数据与文本输出数据和/或语音合成数据的播放时刻以及播放持续时长匹配，并不是严格的令动作回应数据、情感回应数据与文本输出数据和/或语音合成数据同时开始输出并同时结束输出，而是根据具体的交互场景需求确定动作回应数据、情感回应数据与文本输出数据和/或语音合成数据输出时机匹配关系。具体的，其可以同时开始但在一个时间段范围内先后结束；也可以在一个时间段范围内先后开始同时结束；或者是在一个时间段范围内先后开始并在一个时间段范围内先后结束。

如图2所示，在一具体应用场景中，虚拟机器人在t₀时刻改变其表情动作(播放表情动画以及动作动画)，迟滞以特定时间段后，在t₁时刻进行对应表情动作动画的语音输出，当t₃时刻时语音输出完毕，并不立即停止表情动作动画的播放，而是迟滞特定时间段后，在t₄时刻停止播放。

进一步的，为了实现对动作回应数据、情感回应数据输出时机的自由调节，在一实施例中，构造了特殊的数据结构。具体的，动作回应数据和/或情感回应数据包括：

发生阶段数据，其配置为在输出动作回应数据和/或情感回应数据的最初被输出；

结束阶段数据，其配置为在结束输出动作回应数据和/或情感回应数据时被输出；

重复阶段数据，其配置为在输出发生阶段数据与结束阶段数据之间被输出，其中，重复阶段数据还配置为可被慢速/重复输出以控制动作回应数据和/或情感回应数据的输出持续时间。

这样，通过配置输出参数来实现对动作回应数据、情感回应数据输出时机的调节就包括：

通过配置发生阶段数据的输出时间确定动作回应数据、情感回应数据输出开始时间；

通过配置发生阶段数据的输出时间确定动作回应数据、情感回应数据输出结束时间；

通过配置重复阶段数据的重复输出次数或慢速输出速度确定动作回应数据、情感回应数据输出持续时间。

如图3所示，在一具体应用场景中，动作动画A_动以及表情动画A_表在默认状态下(依次播放开始阶段动画、重复阶段动画以及结束阶段动画)的播放时长均为T₄＝T₁+T₂+T₃。语音内容B的播放时长为T₅。由于T₅>T₄，因此动作动画A_动、表情动画A_表与语音内容B不能同时开始播放并同时结束播放。在一实施例中，设置动作动画A_动以及表情动画A_表的输出参数，令动作动画A_动以及表情动画A_表分别按照A_动1、A_表1的格式进行播放(首先播放开始阶段动画、然后重复播放重复阶段动画3次、最后播放结束阶段动画)，由于重复阶段动画被重复3次播放，动作动画A_动以及表情动画A_表的播放时长就被延长到了T₅，能与语音内容B同时开始播放并同时结束播放。

进一步的，在某些应用场景中，动作回应数据和情感回应数据的输出时间是不相同的(开始阶段、重复阶段以及结束阶段互不相同)。因此，在一实施例中，动作回应数据以及情感回应数据需要分别进行输出参数配置。

如图4所示，在一具体应用场景中，动作动画C以及表情动画D在默认状态下(依次播放开始阶段动画、重复阶段动画以及结束阶段动画)的播放时长并不相同且都小于语音内容E的播放时长。因此动作动画C、表情动画D与语音内容E不能同时开始播放并同时结束播放。在一实施例中，设置动作动画C、表情动画D的输出参数，令动作动画C、表情动画D按照C₁(首先播放开始阶段动画、然后重复播放重复阶段动画3次、最后播放结束阶段动画)、D₁(首先播放开始阶段动画、然后慢速播放重复阶段动画、最后播放结束阶段动画)的格式进行播放。

进一步的，在一实施例中，动作回应数据、情感回应数据虽然被划分为三个阶段，但是针对某些特定的动作回应数据、情感回应数据，三个阶段的数据是完全相同的或者其中两个阶段的数据是完全相同的。例如，针对上下挥动手臂这一动作动画，其实际上并不存在三个阶段的区别，开始阶段以及结束阶段都可以算作重复阶段，延长其播放时间只需要不断重复上下挥动手臂。

进一步的，在实际的应用场景中，虚拟机器人常常会遇到用户并未和其交流的情况。针对人类，其在非交流状态下并不是出于面无表情一动不动的状态的，也会做出一定的动作表情。因此，在一实施例中，当不存在用户交互输入时生成默认动作回应数据、情感回应数据，基于虚拟机器人输出默认动作回应数据、情感回应数据。

如图5所示，在一实施例中，首先启用虚拟机器人(S510)，以将所述虚拟机器人的形象在预设显示区域中显示，从而开始基于虚拟机器人的人机交互。具体的交互过程包括：

判断是否存在用户交互输入(S511)；

当存在用户交互输入时获取用户交互输入(S520)；

对用户交互输入进行语义理解及情感计算(S530)，生成响应用户交互输入的应答文本以及对应的情感参数；

匹配动作参数(S531)；

根据应答文本确定对应的文本输出数据和/或语音合成数据(S541)；

根据动作参数、情感参数确定虚拟机器人的动作回应数据、情感回应数据(S542)；

根据文本输出数据和/或语音合成数据的播放时间参数以及预置播放参量，对动作回应数据、情感回应数据进行播放参数配置(S550)；

基于配置好的播放参数输出文本输出数据和/或语音合成数据、动作回应数据以及情感回应数据(S560)；

当不存在用户交互输入时生成默认动作回应数据、默认情感回应数据(S512)；

输出默认动作回应数据、默认情感回应数据(S560)。

进一步的，在一实施例中，默认动作回应数据、默认情感回应数据为一组预先存储好的动作回应数据、情感回应数据。在步骤S512中，直接调用预存的动作回应数据、情感回应数据。

进一步的，在一实施例中，默认动作回应数据、默认情感回应数据为多组预先存储好的动作回应数据、情感回应数据。在步骤S512中，从多组预存的动作回应数据、情感回应数据中调用一组动作回应数据、情感回应数据。

进一步的，在一实施例中，虚拟机器人形象为3D建模构成。

基于本发明的方法，本发明还提出了一种存储介质。具体的，该存储介质上存储有可实现本发明所提出的交互方法的程序代码。

基于本发明的方法，本发明还提出了一种虚拟机器人交互系统。如图6所示，在一实施例中，系统包括：

输入采集装置610，其配置为获取用户交互输入；

输入分析单元620，其配置为对用户交互输入进行语义理解及情感计算，生成响应用户交互输入的应答文本以及对应的情感参数，并匹配动作参数；

第一输出内容匹配单元631，其配置为根据应答文本确定对应的文本输出数据和/或语音合成数据；

第二输出内容匹配单元632，其配置为根据动作参数、情感参数确定虚拟机器人的动作回应数据、情感回应数据；

输出参数配置单元640，其配置为根据文本输出数据和/或语音合成数据的输出时间参数以及预置输出参量，对动作回应数据、情感回应数据进行输出参数配置；

输出装置650，其配置为基于配置好的输出参数输出文本输出数据和/或语音合成数据、动作回应数据以及情感回应数据。

图7显示了根据本发明一实施例的用户与虚拟机器人进行交互对话的场景图。

如图7所示，交互个体202为人(用户)；设备201可以是该用户的智能手机、平板电脑、可穿戴设备等等；服务器203向设备201提供数据处理支援服务(例如，云储存、云计算)。

设备201上安装有智能机器人操作系统并加载有虚拟机器人客户端APP。在人机交互过程中，启动设备201上的虚拟机器人客户端APP，在设备201上展示虚拟机器人形象。当用户向设备201输入用户交互输入时，设备201获取用户交互输入并将用户交互输入发送到服务器203，服务器203对用户交互输入进行语义理解及情感计算，生成响应用户交互输入的应答文本以及对应的情感参数，并匹配动作参数。

接下来，服务器203根据应答文本确定对应的文本输出数据和/或语音合成数据；根据动作参数、情感参数确定虚拟机器人的动作回应数据、情感回应数据；根据文本输出数据和/或语音合成数据的播放时间参数以及预置播放参量，对动作回应数据、情感回应数据进行播放参数配置。

最后，服务器203将文本输出数据和/或语音合成数据、动作回应数据、情感回应数据以及配置好的播放参数返回给设备201。设备201基于配置好的播放参数输出文本输出数据和/或语音合成数据、动作回应数据、情感回应数据。

这样，在虚拟机器人与用户之间的人机交互过程中，虚拟机器人的交互输出不仅包含了展示情绪的输出内容，而且确保了多个不同输出模态之间输出模式的匹配，使得虚拟机器人的拟人化程度大大提高，从而提升了用户的交流欲望。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种针对虚拟机器人的交互输出方法，其特征在于，启用虚拟机器人，以将所述虚拟机器人的形象在预设显示区域中显示，所述方法包括：

获取用户交互输入；

根据所述应答文本和/或所述情感参数匹配动作参数；

根据所述动作参数确定所述虚拟机器人的动作回应数据；

根据所述情感参数确定所述虚拟机器人的情感回应数据；

2.根据权利要求1所述的方法，其特征在于，根据所述文本输出数据和/或语音合成数据的输出时间参数以及预置输出参量，对所述动作回应数据、所述情感回应数据进行输出参数配置，包括：

和/或

3.根据权利要求1所述的方法，其特征在于，所述动作参数或所述情感参数基于其具体参数值对应预存的一组或多组动作回应数据或情感回应数据。

4.根据权利要求3所述的方法，其特征在于，在输出所述多模态回应数据时，在对应所述动作参数以及所述情感参数的多组动作回应数据以及情感回应数据中，选择一组动作回应数据和/或一组情感回应数据输出。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述动作回应数据和/或所述情感回应数据包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述虚拟机器人形象为3D建模构成。

8.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1-7中任一项所述方法的程序代码。

9.一种虚拟机器人交互系统，其特征在于，所述系统包括：

输入采集装置，其配置为获取用户交互输入；