CN109359177A

CN109359177A - 用于讲故事机器人的多模态交互方法及系统

Info

Publication number: CN109359177A
Application number: CN201811057250.3A
Authority: CN
Inventors: 贾志强
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2019-02-19
Anticipated expiration: 2038-09-11
Also published as: CN109359177B

Abstract

本发明公开了一种用于讲故事机器人的多模态交互方法及系统，该方法包括如下步骤：响应讲故事指令并输出与讲故事指令对应的故事内容，同时，实时监测是否有来自用户输入的多模态输入数据；解析所述多模态输入数据，并当用户发起提问时，决策向用户输出的多模态输出数据。本发明提供的用于讲故事机器人的多模态交互方法，在讲故事机器人讲述故事的过程中，实时监测是否有来自用户输入的多模态输入数据，在用户发起提问时，暂停故事内容的讲述并完成与用户的多模态交互。据此，能够改善用户的体验，提高用户与讲故事机器人之间的粘度。

Description

用于讲故事机器人的多模态交互方法及系统

技术领域

本发明涉及智能机器人领域，尤其涉及一种用于讲故事机器人的多模态交互方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够改善用户的体验，提高用户与讲故事机器人之间的粘度用于讲故事机器人的多模态交互方法。

为了解决上述技术问题，本申请的实施例首先提供了一种用于讲故事机器人的多模态交互方法，该方法包括如下步骤：响应讲故事指令并输出与讲故事指令对应的故事内容，同时，实时监测是否有来自用户输入的多模态输入数据；解析所述多模态输入数据，并当用户发起提问时，决策向用户输出的多模态输出数据。

优选地，该方法还包括：根据待讲故事中预设的故事节点，所述讲故事机器人向用户主动发起与该故事情节相关的提问；根据用户回复，决策向用户输出的多模态输出数据。

优选地，还包括：判断在该预设的故事节点是否存在其他的与该故事情节相关的问题，若存在，则以存在的其他问题向用户再次发起提问。

优选地，当用户发起提问时，包括：查询当前故事对应的问答知识数据库是否存在匹配的答案，若不存在，则进一步通过公用数据库查询并输出。

优选地，当用户发起提问时，包括：生成打断指令，控制停止输出当前故事内容。

根据本发明的另一方面，还提供了一种程序产品，其上存储有可执行如上所述的方法步骤的程序代码。

根据本发明的另一方面，还提供了一种用于讲故事机器人的多模态交互装置，该装置包括如下模块：多模态数据输出模块，其响应讲故事指令并输出与讲故事指令对应的故事内容；多模态数据输入模块，其实时监测是否有来自用户输入的多模态输入数据；多模态数据解析模块，其解析所述多模态输入数据，并当用户发起提问时，决策向用户输出的多模态输出数据。

优选地，所述多模态数据解析模块配置为：包括：提问模块，其根据待讲故事中预设的故事节点，向用户主动发起与该故事情节相关的提问；决策模块，其根据用户回复，决策向用户输出的多模态输出数据。

优选地，还包括：问题判断模块，其判断在该预设的故事节点是否存在其他的与该故事情节相关的问题，若存在，则以存在的其他问题向用户再次发起提问。

优选地，所述多模态数据解析模块配置为还包括检索模块，其当用户发起提问时，查询当前故事对应的问答知识数据库是否存在匹配的答案，若不存在，则进一步通过公用数据库查询并输出。

优选地，所述多模态数据解析模块配置为还包括打断模块，其当用户发起提问时，生成打断指令，控制停止输出当前故事内容。

根据本发明另一方面，还提供了一种儿童专用设备，运行如上所述的多模态交互方法。

根据本发明另一方面，还提供了一种多模态交互系统，该系统包括：如上所述的儿童专用设备；云服务器，其包括多模态数据解析模块。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明提供的用于讲故事机器人的多模态交互方法，在讲故事机器人讲述故事的过程中，实时监测是否有来自用户输入的多模态输入数据，在用户发起提问时，暂停故事内容的讲述并完成与用户的多模态交互。据此，能够改善用户的体验，提高用户与讲故事机器人之间的粘度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本申请一实施例的多模态交互系统的应用场景示意图。

图2为本申请一实施例的儿童专用设备10和云端服务器20的功能模块示意图。

图3为本申请一实施例的多模态数据解析模块103的功能模块示意图。

图4为本申请一实施例的用于讲故事机器人的多模态交互方法的流程示意图。

图5为本申请另一实施例的用于讲故事机器人的多模态交互方法的流程示意图。

图6为本申请一实施例的问答知识数据库的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着人工智能技术的发展，在各个领域中都有所应用。以生活领域为例，为儿童服务的讲故事机器人被研发出来，他们能够极大地减轻父母的负担，通过给儿童读故事来提高他们的阅读习惯。现有的讲故事机器人，一般是存储了设定量的故事语音，根据用户的选择来播放相应的故事，或者是将故事文本转换成故事语音向用户实时输出。这种现有的讲故事机器人只能给用户讲故事，向用户输出故事语音，无法与用户进行多模态交互，尤其是无法与用户实现问答，这样就降低了用户的体验感，长此以往就使用户对其产生了厌倦的心理。

为了解决上述问题，本发明实施例提出了一种儿童专用设备，该设备不仅能够给儿童用户讲故事，还能够在儿童听故事的过程中，回答儿童的问题或向儿童发起提问，以此来提高儿童用户对该设备的使用兴趣，以及更进一步使用户更深刻地了解故事内容。

为了更好地了解本发明，下面对本发明的多个实施例进行说明。

第一实施例

图1为本申请一实施例的多模态交互系统的应用场景示意图。该多模态交互系统包括儿童专用设备10和云服务器20。云服务器20，其包括多模态数据解析模块103(参见图2)，还提供问答知识数据库和/或公用数据库。儿童专用设备10为包括支持感知、控制等输入输出模块的智能设备，例如平板电脑、机器人、手机、故事机或绘本阅读机器人，能够给小朋友讲故事，实时解答小朋友提出的问题以及具备丰富的表现力。

在儿童专用设备10开启后，其上搭载的讲故事机器人显示在预设显示区域内并以设定的虚拟角色讲述小朋友选择的故事，该虚拟角色具备特定的角色属性，在某些示例中可配置社会属性、人格属性、人物技能等。该虚拟人支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力，在与用户交互的过程中，能够使用户享受智能化及个性化流畅体验。

在本例中，虚拟人为系统的应用程序或者可执行文件，在系统层面与用户进行交互。在与用户交互的过程中，该虚拟人基于搭载的智能设备的硬件获取用户多模态交互数据，对多模态交互数据进行解析。

在本例中，由于面向的用户为儿童，因此该虚拟人为形象上和蔼可亲的阿Q姐姐，其可以为卡通人物形象。该虚拟人可以通过文本转语音的方式给小朋友讲故事，而且在小朋友听故事的过程中，如果小朋友有什么疑问，可以直接向阿Q姐姐提问，阿Q姐姐通过云端大脑(云服务器)20检索出相关的问答，并使用小朋友能听得懂的语言给小朋友进行解答。下面具体说明该多模态交互系统中各模块的功能。

在一个实施例中，如图2所示，儿童专用设备10包括多模态数据输出模块101和多模态数据输入模块102，云服务器20包括多模态数据解析模块103、问答知识数据库和公用数据库。下面分别对各个设备的功能进行说明。

多模态数据输出模块101，其响应讲故事指令并输出与讲故事指令对应的故事内容。在开启儿童专用设备10后，用户通过语音输入或按键选择的方式输入故事指令，多模态数据输出模块101对该故事指令进行响应，识别用户想要听的故事名称，然后从预设的故事库中选择对应的故事。若在通过语音识别技术识别出的故事名称不存在于本地的故事库中，则通过网络连接将生成的包含该故事名称的查询请求发送给云服务器20，从而通过云服务器20得到有关该故事的文本数据或语音数据。若获取的为文本数据，则进一步需要该儿童专用设备10通过文本转语音的技术将文本转换成匹配的语音，利用语音输出设备向用户输出该语音内容。

具体来说，在接收到语音信息后，儿童专用设备10判断转换得到的语音文本信息中是否存在故事名称之类的名词词汇，如童话故事“白雪公主”、寓言故事“狐狸和乌鸦”等，通过将提取出来的名称与本地的故事库中的故事名称进行词形相似度和/或语义相似度计算，判断故事库中是否存在相应的故事。若存在，则调用对应的故事语音数据并输出，否则生成查询请求，通过云服务器端20来获得对应的故事内容。

多模态数据输入模块102，其在故事讲述的过程中，实时监测是否有来自用户输入的多模态输入数据。具体地，该多模态数据输入模块102在讲故事的过程中，可以通过视频采集单元、语音采集单元、人机交互单元等来接收多模态输入信息。其中，视频采集单元可以采用RGBD摄像头来构成，语音采集单元需要提供完整的语音录制和播放功能，人机交互单元可以为一个触摸输入显示屏，用户通过该显示屏输入多模态信息。其中的多模态输入数据主要包括语音数据、图像数据以及用于使机器人能够输出一定动作或执行软件或硬件的程序指令。在本例中，考虑到用户为儿童，该模块102监测到的多为语音数据。

多模态数据解析模块103，其解析所述多模态输入数据，并当用户发起提问时，决策向用户输出的多模态输出数据。多模态输入数据的组合比较复杂，通过对多模态输入数据进行分析能够得到可靠或是有意义的结果，确定多模态数据发出者的真实意图。

在本实施例中，该模块103至少具备自然语言理解能力和视觉感知能力。在接收到语音信息时，对接收到的数据进行语音识别获取用户的真实意图。在接收到图像信息时，对目标的特征进行提取，例如提取线段、区域或特征点等。最后根据预定的算法对图像进行识别，给出定量的检测结果。

在图3中，该多模态数据解析模块103包括决策模块1031、检索模块1032、打断模块1033、提问模块1034和问题判断模块1035。

多模态数据解析模块103对用户发出的语音信息进行解析时，首先判断是否用户发起提问。具体来说，利用自动语音识别(Automatic Speech Recognition，简称为ASR)技术来将用户的输入的语音信息转换为文本信息。得到文本信息后，利用关键词判断、以及对应的模糊判断等方法来判断文本信息中是否体现了用户发起提问。例如，若文本信息中出现了“吗”、“为什么”、“怎么了”等疑问句字眼，则认为用户发起了提问。另一方面，为了更加准确判断用户发起提问，还可以对用户的表情进行识别，如识别出用户思考的表情状态时，结合用户的语音信息也可以判断用户是否进行提问。

当用户发起提问时，检索模块1032查询当前故事对应的问答知识数据库是否存在匹配的答案，若不存在，则进一步通过公用数据库查询并输出。

需要说明的是，问答知识数据库一般为预先构建而成的，所构建的问答知识数据库中保存有多条匹配的问题和答案以及与同一主题相关联的主题标签(也可称为情节标签)。如图6所示，有关白雪公主的故事中包括主题标签为“中毒”，对应该主题包括多个有关中毒的问题和对应的答案。在确定目标语义后，检索模块1032从该问答知识数据库中查找与该目标语义相匹配的主题标签。如果查找到了该主题标签，则进一步查找与问题匹配的答案信息，以作为回答用户的多模态输出数据。如果查找主题标签失败，则进一步生成查询请求，通过云服务器20的公用数据库来查询正确的答案并输出给用户。

当查找问答知识数据库和公用数据库无果后，则检索模块1032还从串场词库中调用合适的串场词以语音的形式输出给用户，例如在没查到答案时回复“对不起，小朋友，我现在无法回答你的问题”的串场词B。在其他实施例中，也可以在回答用户答案后，从串场词库中选择合适的串场词输出给用户，例如“好了，回复完你的问题，我就继续给你讲故事了”的串场词A，提高了故事讲述的连续性。根据上述设置，使得在故事机等儿童专用设备与用户交互时，不会带给用户交互不畅，过于机械化的感受，提高用户的体验。

需要说明的是，当用户发起提问时，打断模块1033还生成打断指令，控制停止输出当前故事内容。具体地，该模块1033生成控制语音输出设备暂停工作的暂停指令来停止故事的播放。

上述实施例描述了一种用户发起提问与设备10进行交互的情景，在其他实施例中，儿童专用设备还可以主动向儿童用户发起提问。

在主动提问示例中，提问模块1034，其根据待讲故事中预设的故事节点，向用户主动发起与该故事情节相关的提问；问题判断模块1035，其判断在该预设的故事节点是否存在其他的与该故事情节相关的问题，若存在，则以存在的其他问题向用户再次发起提问。决策模块1031，其根据用户回复，决策向用户输出的多模态输出数据。

通过在故事中预计故事节点来发问与故事情节相关的问题，可检测用户对故事的理解程度并提高儿童用户听故事的兴趣。相比传统故事机只能单纯讲故事，本实施例可以实现有效的与儿童的交流和互动。

下面具体说明该多模态交互系统是如何运作的。

图4为本申请一实施例的用于讲故事机器人的多模态交互方法的流程示意图。下面参考图4来说明该系统的运行步骤。

首先，在步骤S410中，开启儿童专用设备10。

用户在开启儿童专用设备10后，可以通过指令输入模块选择想要听的故事，或者通过语音输入模块向该设备10发出语音指令。在步骤S420中，该儿童专用设备10响应讲故事指令并语音输出与讲故事指令对应的故事内容。从串场词库中选择合适的串场词(S430)，并语音输出故事内容对应的音频文件，如MP3格式的音频文件(S440)。

在阿Q姐姐讲故事的过程中，开启多模态数据输入模块102实时监测是否有来自用户输入的多模态输入数据，解析多模态输入数据后，判断是否用户发起提问(S450)。在用户发起提问时，生成打断指令，控制停止输出当前故事内容(S460)。

之后，判断是否可以回答用户发出的问题(S470)，即查询当前故事对应的问答知识数据库或公用数据库中是否存在匹配的答案。在查询到匹配答案时，则语音输出给用户答案内容，并从串场词库中选择匹配的串场词A发送给用户。在没有查询到匹配答案时，为了提高用户体验，也从串场词库中选择匹配的串场词B发送给用户。例如，在讲故事过程中，小朋友问道，“白雪公主是哪个王国的公主啊？”，机器人的讲故事程序被暂停，通过搜寻问答知识数据库和公用数据库，均未查询到答案，即无法回答该问题时，则回复“对不起，小朋友，我现在无法回答你这个问题”的串场词，随后，继续向用户朗读故事。若从问答知识数据库查到了匹配答案，则将该答案以语音播报的形式发送给儿童用户；若问答知识数据库中没有匹配的答案，从公共数据库中查到了答案，则先从串场词库中选择合适的串场词，语音输出给儿童用户，例如，输出“我从互联网上帮你找到了答案”，然后再将查到的答案输出给用户。若均没有从数据库中查找到匹配的答案，则输出串场词“对比起小朋友，你真的考到了我，我回答不了你的问题”。

一般情况下，针对故事内容的问答知识数据库中的答案较为丰富，大部分问题都可以从该知识数据库中找到较为准确对的答案。而对于与故事内容无关的问题，像“今天天气如何”或“费雪的玩具有什么好的”等问题，是无法从知识数据库中查到的，这就需要将该问题的关键词或该问题的文本内容结合指令生成查询请求，发送给云服务器端，通过公用数据库来查询。

上述实施例是用户向儿童专用设备10发起的问答流程。在本发明另一个实施例中，给出了儿童专用设备10主动发起提问的技术方案。具体流程如图5所示。

首先，在步骤S410中，开启儿童专用设备10。

之后，判断是否可以回答用户发出的问题(S470)，即查询当前故事对应的问答知识数据库/公用数据库中是否存在匹配的答案。在查询到匹配答案时，则语音输出给用户答案内容，并从串场词库中选择匹配的串场词A发送给用户。在没有查询到匹配答案时，为了提高用户体验，也从串场词库中选择匹配的串场词B发送给用户。

在步骤S450中，若判断用户未发起提问，则在步骤S510中，在阿Q姐姐讲故事的过程中，判断故事进程是否到达预设的故事节点，若到达，则讲故事机器人在此故事节点向用户主动发起与该故事情节相关的提问，或者，根据场景主动询问其他问题(S520)。否则，返回步骤S440，继续朗读该故事的音频文件。

“故事节点”是指在故事播放进程中，对应某一故事情节设置的提问标签，该标签触发儿童专用设备向用户主动发起提问。在到达预设的故事节点后，从问答知识数据库中查找与该故事情节匹配的主题，并从该主题标签对应的问题中选择一个来询问用户。例如，有关白雪公主“中毒”的主题，可以问“白雪公主是吃了什么而中毒的呢？”，或者，“是谁给白雪公主一个毒苹果呢？”。

在步骤S530中，根据用户的回复，决策向用户输出的多模态输出数据。

在一个例子中，用户会根据设备提出的问题进行回复，此时，该设备采集用户的回复内容(一般为语音信息)，对该内容进行解析，判断用户回复的答案是否正确。在问答知识数据库中，有时对于一个问题可以对应存储多个答案，例如预设答案A和预设答案B，若解析得到的内容为这多个答案中任意之一，则认为用户回答正确。该设备向用户发出确认语音，也可以结合串场词将确认信息同时发给儿童用户，以此鼓励儿童认真听故事。当用户回复的答案不正确或回复的内容是与答案无关的内容，该设备则会再次询问用户该问题，若还未得到准确答案，则告知用户该答案具体为何。因此，能够保证针对该情节展开多模态交互。

在其他例子中，通过分析得到儿童用户拒绝回答该问题，且表现为不高兴的状态，此时，该设备将会向用户询问是否继续进行故事讲述或向用户发出安慰的信息。

接着，在步骤S540中，判断在该预设的故事节点是否存在其他的与该故事情节相关的问题，若存在，则以存在的其他问题向用户再次发起提问(S550)，否则，返回步骤S440，继续朗读该故事的音频文件。

此步骤的设置，是为了让儿童用户能够更加深刻地了解故事情节。例如，还是白雪公主的故事，在用户回复了“白雪公主是吃什么而中毒的？”问题之后，通过查询，发现针对该“中毒”的故事情节，还包括另一个问题“是谁给白雪公主一个毒苹果的？”，则将该问题以语音播放或多模态的形式发送给用户。当然，在与该故事情节相关的问题较多时，可以设置随机抽取设定个问题，向用户发起提问。

另外，本发明实施例还提供一种程序产品，其上存储有可执行如上所述的方法步骤的程序代码。

综上所述，根据本发明实施例，在讲故事机器人讲述故事的过程中，实时监测是否有来自用户输入的多模态输入数据，在用户发起提问时，暂停故事内容的讲述并完成与用户的多模态交互。据此，能够改善用户的体验，提高用户与讲故事机器人之间的粘度。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于讲故事机器人的多模态交互方法，其特征在于，该方法包括如下步骤：

响应讲故事指令并输出与讲故事指令对应的故事内容，同时，实时监测是否有来自用户输入的多模态输入数据；

解析所述多模态输入数据，并当用户发起提问时，决策向用户输出的多模态输出数据。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

根据待讲故事中预设的故事节点，所述讲故事机器人向用户主动发起与该故事情节相关的提问；

根据用户回复，决策向用户输出的多模态输出数据。

3.根据权利要求2所述的方法，其特征在于，还包括：

判断在该预设的故事节点是否存在其他的与该故事情节相关的问题，若存在，则以存在的其他问题向用户再次发起提问。

4.根据权利要求1所述的方法，其特征在于，当用户发起提问时，包括：查询当前故事对应的问答知识数据库是否存在匹配的答案，若不存在，则进一步通过公用数据库查询并输出。

5.根据权利要求1所述的方法，其特征在于，还包括：

当用户发起提问时，包括：生成打断指令，控制停止输出当前故事内容。

6.一种程序产品，其上存储有可执行如权利要求1-5中任一项所述的方法步骤的程序代码。

7.一种用于讲故事机器人的多模态交互装置，其特征在于，该装置包括如下模块：

多模态数据输出模块，其响应讲故事指令并输出与讲故事指令对应的故事内容；

多模态数据输入模块，其实时监测是否有来自用户输入的多模态输入数据；

多模态数据解析模块，其解析所述多模态输入数据，并当用户发起提问时，决策向用户输出的多模态输出数据。

8.根据权利要求7所述的装置，其特征在于，多模态数据解析模块配置为：

包括：

提问模块，其根据待讲故事中预设的故事节点，向用户主动发起与该故事情节相关的提问；

决策模块，其根据用户回复，决策向用户输出的多模态输出数据；

问题判断模块，其判断在该预设的故事节点是否存在其他的与该故事情节相关的问题，若存在，则以存在的其他问题向用户再次发起提问；

以及，

打断模块，其当用户发起提问时，生成打断指令，控制停止输出当前故事内容；

检索模块，其当用户发起提问时，查询当前故事对应的问答知识数据库是否存在匹配的答案，若不存在，则进一步通过公用数据库查询并输出。

9.一种儿童专用设备，其特征在于，运行权利要求1-5任一项所述的多模态交互方法。

10.一种多模态交互系统，其特征在于，该系统包括：

如权利要求9所述的儿童专用设备；

云服务器，其包括多模态数据解析模块。