CN109522835A

CN109522835A - 基于智能机器人的儿童读物阅读与交互方法及系统

Info

Publication number: CN109522835A
Application number: CN201811346121.6A
Authority: CN
Inventors: 俞晓君
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-03-26

Abstract

本发明提供一种基于智能机器人的儿童读物阅读与交互方法，智能机器人处于开启状态，获取阅读指示，儿童读物置于智能机器人识别范围内，包含：在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势，确定手势具有阅读的意图，并指向的儿童读物中的待识别内容；识别待识别内容中的文字信息以及图像信息，对文字信息以及图像信息进行文字语义理解以及图像语义理解，获取待识别内容中包含的目标物信息；获取与目标物信息匹配的问答数据，生成多模态输出数据，并接收用户针对多模态输出数据的回应，与用户展开多轮交互。本发明能够识别用户的手势，阅读用户手势指向的儿童读物的内容，提升用户的使用体验，降低了儿童用户的阅读难度。

Description

基于智能机器人的儿童读物阅读与交互方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于智能机器人的儿童读物阅读与交互方法及系统。

背景技术

常规的儿童教育中，儿童读物都以纸质等印刷品的方式呈现，由幼儿自行或家长陪同进行阅读，儿童用户由于不具备完整的知识储备，在阅读以及学习儿童读物时存在一些难度，很难流畅的阅读或是理解儿童读物中的内容含义。

另外，机器人多模态交互系统的开发致力于模仿人类对话，以试图在上下文之间模仿人类之间的交互。但是，目前来说，对于智能机器人相关的机器人多模态交互系统的开发还不太完善，尚未出现基于儿童读物与用户进行多模态交互的智能产品。

因此，本发明提供了一种基于智能机器人的儿童读物阅读与交互方法及系统。

发明内容

为解决上述问题，本发明提供了一种基于智能机器人的儿童读物阅读与交互方法，所述智能机器人处于开启状态，获取阅读指示，所述儿童读物置于所述智能机器人识别范围内，所述方法包含以下步骤：

在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势指示阅读意图，并确定所述手势指向的儿童读物中的待识别内容；

识别所述待识别内容中的文字信息以及图像信息，对所述文字信息以及所述图像信息进行文字语义理解以及图像语义理解，获取所述待识别内容中包含的目标物信息；

获取与所述目标物信息匹配的问答数据，生成多模态输出数据，并接收用户针对所述多模态输出数据的回应，与用户展开多轮交互。

根据本发明的一个实施例，通过视觉识别能力识别用户的手势的步骤中，包含以下步骤：

通过视觉识别能力识别用户的静态手势以及动态手势，其中，所述静态手势包含手指指向型手势，所述动态手势包含手指滑动型手势。

根据本发明的一个实施例，获取所述待识别内容中包含的目标物信息的步骤中，包含以下步骤：

对所述待识别内容中的文字信息进行文字语义理解，确定所述文字信息中包含的文字内容拼写以及文字内容读音，以确定所述目标物信息；

对所述待识别内容中的图像信息进行图像语义理解，确定所述图像信息中包含的目标物种类信息、人物信息以及环境信息，以确定所述目标物信息。

根据本发明的一个实施例，获取与所述目标物信息匹配的问答数据，生成多模态输出数据的步骤中，包含以下步骤：

提取所述目标物信息中包含的映射关键词，并将所述映射关键词发送至知识库，在所述知识库中搜寻并调取所述目标物的问答数据。

根据本发明的一个实施例，所述方法还包括：

解析用户输出的多模态数据，确定用户的交互意图，根据所述交互意图生成所述多模态输出数据。

根据本发明的一个实施例，所述方法还包括：

获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。

根据本发明的另一个方面，还提供了一种基于智能机器人的儿童读物阅读与交互装置，所述智能机器人处于开启状态，获取阅读指示，所述儿童读物置于所述智能机器人识别范围内，所述装置包含：

待识别内容确定模块，其用于在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势指示阅读意图，并确定所述手势指向的儿童读物中的待识别内容；

目标物信息获取模块，其用于识别所述待识别内容中的文字信息以及图像信息，对所述文字信息以及所述图像信息进行文字语义理解以及图像语义理解，获取所述待识别内容中包含的目标物信息；

多模态输出数据生成模块，其用于获取与所述目标物信息匹配的多模态输出数据，生成针对所述多模态输出数据的多模态回应数据，与用户展开多轮交互。

根据本发明的另一个方面，还提供了一种智能机器人，用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于智能机器人的儿童读物阅读与交互系统，所述智能机器人处于开启状态，获取阅读指示，所述儿童读物置于所述智能机器人识别范围内，所述系统包含：

智能终端，其包含如上所述的智能机器人，用于在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势，并具备媒体文件识别功能以及媒体文件输出功能；

儿童读物，其置于识别范围内，具备可识别性，用于展示适用于儿童用户阅读的儿童相关内容；

云端大脑，其用于对来自用户或环境的多模态数据进行语义理解、视觉识别、认知计算以及情感计算，以决策所述智能终端输出回应用户的多模态数据。

本发明提供的基于智能机器人的儿童读物阅读与交互方法及系统提供了一种智能机器人，具备图像采集装置、视觉识别系统、媒体文件识别功能以及媒体文件输出功能，能够与用户进行多模态的交互。并且，本发明提供的基于智能机器人的儿童读物阅读与交互系统还能够识别用户的手势，阅读用户手势指向的儿童读物的内容，提升了用户的使用体验，降低了儿童用户的阅读难度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互方法流程图；

图2显示了根据本发明的另一个实施例的基于智能机器人的儿童读物阅读与交互方法流程图；

图3显示了根据本发明的一个实施例的用户手势分类图；

图4显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互系统的模块框图；

图5显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互系统的结构框图；

图6显示了根据本发明的另一个实施例的基于智能机器人的儿童读物阅读与交互系统的结构框图；以及

图7显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互方法的另一流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的智能机器人支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。

智能机器人获取用户多模态数据，在云端大脑的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。

所提到的云端大脑为提供所述智能机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述智能机器人输出多模态数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互方法流程图。

在用户与智能机器人交互开始之前，智能机器人处于开启状态，获取阅读指示，儿童读物置于智能机器人识别范围内。

如图1所示，在步骤S101中，在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势，确定手势具有阅读的意图，并指向的儿童读物中的待识别内容。在开始交互之后，智能机器人上的图像采集设备开启并追踪用户的手部动作。通过视觉识别能力实时鉴别用户的手部动作指示识别。在确定用户的手部指示识别后，进一步确定用户手势指向的儿童读物中的内容或指令，确定需要进一步识别的待识别内容。

在本步骤中，智能机器人上的图像采集设备可以是摄像头装置。智能机器人可以通过摄像头的集成视觉识别系统，在摄像头的识别范围内追踪用户的手部动作，以识别出用户的手势具有阅读的意图，确定手势指向的待识别内容。

在一个实施例中，用户的手势可以分为静态手势以及动态手势。静态手势包含手指指向型手势，动态手势包含手指滑动型手势。

在步骤S102中，识别待识别内容中的文字信息以及图像信息，对文字信息以及图像信息进行文字语义理解以及图像语义理解，获取待识别内容中包含的目标物信息。

根据本发明的一个实施例，对待识别内容中的文字信息进行文字语义理解，确定文字信息中包含的文字内容拼写以及文字内容读音，以确定目标物信息。对待识别内容中的图像信息进行图像语义理解，确定图像信息中包含的目标物种类信息、人物信息以及环境信息，以确定目标物信息。

在步骤S103中，获取与目标物信息匹配的问答数据，生成多模态输出数据，并接收用户针对多模态输出数据的回应，与用户展开多轮交互。

根据本发明的一个实施例，在获取问答数据时，提取目标物信息中包含的映射关键词，并将映射关键词发送至知识库，在知识库中搜寻并调取目标物的问答数据。

在一个实施例中，解析用户输出的多模态数据，确定用户的交互意图，根据交互意图生成多模态输出数据。云端大脑可以对来自用户或环境的多模态数据进行语义理解、视觉识别、认知计算以及情感计算，以决策智能终端输出回应用户的多模态数据。

根据本发明的一个实施例，获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。本发明面向的用户群主要是儿童用户，因此需要确定用户的身份属性。判断用户身份的方式是有很多种，一般来说，可以通过面部识别功能或者指纹识别方式来辨别用户的身份。其他能够判断用户身份的方式也可以运用到本发明中来，本发明不对此做出限制。

本发明提供的基于智能机器人的儿童读物阅读与交互方法及系统提供了一种智能机器人，具备图像采集装置、视觉识别系统、媒体文件识别功能以及媒体文件输出功能，能够与用户进行多模态的交互。并且，本发明还能够识别用户的手势，阅读用户手势指向的儿童读物的内容，提升了用户的使用体验，降低了儿童用户的阅读难度。

图2显示了根据本发明的另一个实施例的基于智能机器人的儿童读物阅读与交互方法流程图。

在步骤S201中，智能机器人处于开启状态，获取阅读指示，纸质印刷儿童读物置于智能及其家人识别范围内。在实际的运用中，在交互之前，需要智能机器人开启，获取阅读指示也开启，能够接收用户的多模态数据。为了识别用户对于儿童读物的指示操作，儿童读物需要置于智能机器人的识别范围内。在实施例中，儿童读物可以是纸质印刷品。

交互开始后，在步骤S202中，摄像头追踪用户手部动作，识别用户的手势。智能机器人利用视觉识别能力在识别范围内追踪用户的手部动作，实时判断用户的手部动作是否为具备指向含义的手势。

在本发明中，能够被智能机器人识别的用户手势可以有很多种，图3显示了根据本发明的一个实施例的用户手势分类图。如图3所示，用户的手势可以分为静态手势以及动态手势。静态手势包含手指指向型手势，手指指向型手势包含指示型手势以及范围型手势。一般来说，指示型手势包含用户单个手指的指向型手势，例如，用户右手食指指向儿童读物中的一幅画或者是几个字。范围型手势包含用户多个手指的指向型手势，例如，用户大拇指与食指配合框定儿童读物中的一段话或一部分内容。

如图3所示，动态手势包含手指滑动型手势。如直线手势表示，用户用手指在儿童读物上画直线，以指示出一段文字内容或是图画内容。

在识别到用户的手部动作属于具有阅读意图的的用户手势后，在步骤S203中，采集并识别用户手势指向的儿童读物内容。一般来说，儿童读物中包含文字内容以及图像内容，因此需要确定用户手势指向的是哪些文字以及图像。

接着，在步骤S204中，判断待识别内容中是否存在目标物。如果待识别内容中不存在目标物，则返回步骤S202，摄像头追踪用户手部动作，识别用户的手势。如果待识别内容中存在目标物，则进入步骤S205或是步骤S206。

需要智能机器人对于用户手势指向的待识别内容进行识别，对文字信息以及图像信息进行文字语义理解以及图像语义理解，寻找待识别内容中包含的目标物信息。在步骤S205中，对待识别内容中的文字信息进行文字语义理解，确定文字信息中包含的文字内容拼写以及文字内容读音，以确定目标物信息。在步骤S206中，对待识别内容中的图像信息进行图像语义理解，确定图像信息中包含的目标物种类信息、人物信息以及环境信息，以确定目标物信息。

经过文字语义理解以及图像语义理解进而确定目标物信息后，在步骤S207中，基于映射关键词触发知识库。根据本发明的一个实施例，在本步骤中，提取目标物信息中包含的映射关键词，并将映射关键词发送至知识库，在知识库中搜寻并调取目标物的问答数据。

最后，在步骤S208中，与用户展开多轮交互。根据本发明的一个实施例，在本步骤中，获取与目标物信息匹配的问答数据，生成多模态输出数据，并接收用户针对多模态输出数据的回应。另外，在一个实施例中，解析用户输出的多模态数据，确定用户的交互意图，根据交互意图生成多模态输出数据。

需要说明的是，为了更好地提升交互的体验，需要确定与智能机器人交互对象的身份信息。可以获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中当前用户的类别包含：儿童用户。

图4显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互系统的模块框图。

如图4所示，系统包含待识别内容确定模块401、目标信息获取模块402以及多模态输出数据生成模块403。其中，待识别内容确定模块401包含追踪及识别单元4011以及确定单元4012。目标信息获取模块402包含图像语义理解单元4021以及文字语义理解单元4022。多模态输出数据生成模块403包含匹配单元4031、生成单元4032以及输出单元4033。

待识别内容确定模块401用于在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势，确定手势具有阅读的意图，并指向的儿童读物中的待识别内容。其中，追踪及识别单元4011用于追踪用户的手部动作，并实时判断用户的手部动作是否属于具备指向性的用户手势。确定单元4012用于在追踪及识别单元4011识别到当前用户的手部动作为指向性手势后，确定用户手势指向的儿童读物内容，进而确定待识别内容。

目标信息获取模块402用于识别待识别内容中的文字信息以及图像信息，对文字信息以及图像信息进行文字语义理解以及图像语义理解，获取待识别内容中包含的目标物信息。

其中，图像语义理解单元4021用于对待识别内容中的图像信息进行图像语义理解，确定图像信息中包含的目标物种类信息、人物信息以及环境信息，以确定目标物信息。文字语义理解单元4022用于对待识别内容中的文字信息进行文字语义理解，确定文字信息中包含的文字内容拼写以及文字内容读音，以确定目标物信息。

多模态输出数据生成模块403用于获取与目标物信息匹配的问答数据，生成多模态输出数据，并接收用户针对多模态输出数据的回应，与用户展开多轮交互。

其中，匹配单元4031用于获取与目标物信息匹配的问答数据，提取目标物信息中包含的映射关键词，并将映射关键词发送至知识库，在知识库中搜寻并调取目标物的问答数据。生成单元4032用于生成多模态输出数据。可以解析用户输出的多模态数据，确定用户的交互意图，根据交互意图生成多模态输出数据。输出单元4033用于输出多模态数据，输出的形式不限于音频输出、视频输出表情输出以及机器人肢体输出。

图5显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互系统的结构示意图。如图5所示，完成多模态交互需要用户501、智能终端502以及云端大脑503。其中，智能终端502包含输入输出装置5021、数据处理单元5022以及接口单元5023。云端大脑503所具备的接口包含语义理解接口5031、视觉识别接口5032、认知计算接口5033以及情感计算接口5034。

本发明提供的基于智能机器人的儿童读物阅读与交互系统包含智能终端502以及云端大脑503。智能终端502包含智能机器人，用于在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势，并具备媒体文件识别功能以及媒体文件输出功能。云端大脑503用于对来自用户或环境的多模态数据进行语义理解、视觉识别、认知计算以及情感计算，以决策智能终端502输出回应用户的多模态数据。

输入输出装置5021用于获取多模态数据以及输出交互过程中的输出数据。输入输出装置5021的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态数据。多模态数据可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

数据处理单元5022用于处理进行多模态交互过程中产生的数据。所用的处理器可以为数据处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

智能终端502中包含存储器，存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能终端502的使用所创建的数据(比如音频数据、浏览记录等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。所述智能终端可以为：平板电脑、机器人，手机，故事机，绘本阅读机器人。

云端大脑503包含语义理解接口5031、视觉识别接口5032、认知计算接口5033以及情感计算接口5034。以上这些接口与智能终端502中的接口单元5023展开通信。并且，云端大脑503还包含与语义理解接口5031对应的语义理解逻辑、与视觉识别接口5032对应的视觉识别逻辑、与认知计算接口5033对应的认知计算逻辑以及与情感计算接口5034对应的情感计算逻辑。

如图5所示，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口，其接收从接口单元5023转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

其中，图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口，其接收从接口单元5023转发的多模态数据，认知计算接口1043用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

情感计算接口，其接收从接口单元5023转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。

情感计算接口是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

此外，本发明提供的基于基于智能机器人的儿童读物阅读与交互系统还可以配合一种程序产品，其包含用于执行完成基于智能机器人的儿童读物阅读与交互方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图6显示了根据本发明的另一个实施例的基于智能机器人的儿童读物阅读与交互系统的结构框图。完成交互需要用户501、智能终端501以及云端大脑503。其中，智能终端502包含声音信号采集器件601、摄像头602、声音信号输出器件603以及中央处理器604。

声音信号采集器件601用于采集用户或外界环境输出的声音信号。声音信号采集器件601可以是麦克风等能够采集声音信号的设备。摄像头602可以追踪用户的手部动作。在实施例中，摄像头602可以是单个，也可以是多个。声音信号输出器件603用于输出音频数据。声音信号输出器件603可以是功放和喇叭等能够输出音频数据的设备。

根据本发明的一个实施例，智能终端502可以是一种智能机器人，搭载摄像头装置、可以识别声音输入信号，输出声音信号。在实际应用中可以通过摄像头的集成视觉识别系统，在可识别范围内，追踪用户的手部动作，识别用户的手势，确定手势具有阅读的意图，并指向的儿童读物中的待识别内容。

确定待识别内容后，识别待识别内容，使得在摄像头能覆盖到的范围内当手指指尖落定在指定位置或者手指滑动产生的手势场景中目标物所构成的图像，输出图像语义理解。本发明中用到的图像的语义理解是以图像为对象，知识为核心，研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的方法与系统。图像语义理解的过程可以在中央处理器604中实现。

如上所述，输出的图像语义理解内容是指对当前手指指尖指定或者划过儿童绘本或教材纸质书对应图像目标物品类、人物、环境等特征描述、说明、解释以及所包含文字内容的拼写、读音等描述、说明、解释。图像语义理解的内容输出表现形式包含但不限于音频以及视频。

智能机器人根据目标物图像语义理解，获取目标物的分类所映射关键词，将关键词发送到知识库，抽取知识库中包含目标物的问答数据。智能机器人将问答数据发送到语音合成模块，调用语音合成模合成并播放对应的音频文件，与用户进行交互，通过机器人设备中麦克风拾音系统，识别用户应答的内容，基于用户的应答内容做多轮语音交互。

图7显示了根据本发明的一个实施例的基于智能机器人的儿童读物阅读与交互系统方法的另一流程图。

如图7所示，在步骤S701中，智能终端502向云端大脑503发出请求。之后，在步骤S702中，智能终端502一直处于等待云端大脑503回复的状态。在等待的过程中，智能终端502会对返回数据所花费的时间进行计时操作。

在步骤S703中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则智能终端502会选择进行本地回复，生成本地常用应答数据。然后，在步骤S704中，输出本地常用应答，并调用语音播放设备进行语音播放。

本发明提供的基于智能机器人的儿童读物阅读与交互方法及系统提供了一种智能机器人，具备具备图像采集装置、视觉识别系统、媒体文件识别功能以及媒体文件输出功能，能够与用户进行多模态的交互。并且，本发明提供的基于智能机器人的儿童读物阅读与交互系统还能够识别用户的手势，阅读用户手势指向的儿童读物的内容，提升了用户的使用体验，降低了儿童用户的阅读难度。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于智能机器人的儿童读物阅读与交互方法，其特征在于，所述智能机器人处于开启状态，获取阅读指示，所述儿童读物置于所述智能机器人识别范围内，所述方法包含以下步骤：

2.如权利要求1所述的方法，其特征在于，通过视觉识别能力识别用户的手势的步骤中，包含以下步骤：

3.如权利要求1所述的方法，其特征在于，获取所述待识别内容中包含的目标物信息的步骤中，包含以下步骤：

4.如权利要求1所述的方法，其特征在于，获取与所述目标物信息匹配的问答数据，生成多模态输出数据的步骤中，包含以下步骤：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种基于智能机器人的儿童读物阅读与交互装置，其特征在于，所述智能机器人处于开启状态，获取阅读指示，所述儿童读物置于所述智能机器人识别范围内，所述装置包含：

多模态输出数据生成模块，其用于获取与所述目标物信息匹配的问答数据，生成多模态输出数据，并接收用户针对所述多模态输出数据的回应，与用户展开多轮交互。

8.一种智能机器人，其特征在于，用于执行如权利要求1-6中任一项所述的方法步骤的一系列指令。

9.一种基于智能机器人的儿童读物阅读与交互系统，其特征在于，所述智能机器人处于开启状态，获取阅读指示，所述儿童读物置于所述智能机器人识别范围内，所述系统包含：

智能终端，其包含如权利要求8所述的智能机器人，用于在可识别范围内，追踪用户的手部动作，通过视觉识别能力识别用户的手势，并具备媒体文件识别功能以及媒体文件输出功能；