CN109871450B

CN109871450B - 基于绘本阅读的多模态交互方法及系统

Info

Publication number: CN109871450B
Application number: CN201910026411.0A
Authority: CN
Inventors: 贾志强; 俞晓君
Original assignee: Beijing Guangnian Infinite Technology Co ltd
Current assignee: Beijing Guangnian Infinite Technology Co ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2021-10-19
Anticipated expiration: 2039-01-11
Also published as: CN109871450A

Abstract

本发明提供基于绘本阅读的多模态交互方法，其包含：在绘本阅读模式下，获取多模态交互数据，确定多模态交互数据中包含的针对目标物内容的交互意图；结合目标物内容，在绘本对应的知识图谱中检索与交互意图匹配的多模态应答数据并输出，其中，知识图谱与用户画像以及用户身份所指向的内容关联。本发明提供了一种儿童专用智能设备，具备阅读绘本内容的能力，能够向用户输出绘本中的内容并能针对绘本内容与用户进行交互，降低了儿童用户阅读故事的难度。并且，本发明还能够根据与绘本关联的知识图谱，生成匹配用户交互意图的多模态应答数据，能够更精确的满足用户的意图，提升了用户的使用体验。

Description

基于绘本阅读的多模态交互方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于绘本阅读的多模态交互方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，对于智能设备的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于智能设备的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他智能设备进行交互的设备，人机交互也就成为决定智能设备发展的重要因素。因此，提升智能设备的交互能力，改善智能设备的类人性和智能性，是现在亟需解决的重要问题。

因此，本发明提供了一种基于绘本阅读的多模态交互方法及系统。

发明内容

为解决上述问题，本发明提供了一种基于绘本阅读的多模态交互方法，所述方法包含以下步骤：

在绘本阅读模式下，获取多模态交互数据，确定所述多模态交互数据中包含的针对目标物内容的交互意图；

结合所述目标物内容，在所述绘本对应的知识图谱中检索与所述交互意图匹配的多模态应答数据并输出，其中，所述知识图谱与用户画像以及用户身份所指向的内容关联。

根据本发明的一个实施例，通过以下步骤生成所述多模态应答数据：

针对所述交互意图以及所述目标物内容，采用自然语言处理中的句法分析、分词词性分析以及权重分析得到原始信息；

依据所述原始信息从所述知识图谱的图谱树查询分支上得到原始信息对应的信息节点；

将所述信息节点参与决策，生成所述多模态应答数据。

根据本发明的一个实施例，所述多模态交互数据包含用户、智能设备针对所述目标物内容所提出的提问数据、用户指向的目标物及用户目光注视的目标物，其中，所述智能设备为与用户进行交互的设备，所述目标物位于绘本上或与绘本内容相关。

根据本发明的一个实施例，在输出多模态应答数据时，同时输出知识图谱推荐内容，通过以下步骤生成所述知识图谱推荐内容：

获取本轮交互中的所述多模态应答数据以及本轮交互前用户输出的多模态内容；

通过自然语言处理对所述多模态应答数据以及所述多模态内容进行分析，得到分析结果；

依据所述分析结果，调用目标物内容关联的知识图谱，主动向用户推荐与目标物内容关联的内容。

根据本发明的一个实施例，通过以下方法构建所述绘本对应的知识图谱：

在绘本数据信息中进行信息抓取，对抓取到的信息进行信息处理以及信息分类，得到待关联信息；

将所述待关联信息与所述知识图谱的图谱树中的信息节点进行关联，生成关系式知识库，以完成所述知识图谱的构建。

根据本发明的一个实施例，所述方法还包括：

获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于绘本阅读的多模态交互装置，所述装置包含：

交互意图模块，其用于在绘本阅读模式下，获取多模态交互数据，确定所述多模态交互数据中包含的针对目标物内容的交互意图；

应答输出模块，其用于结合所述目标物内容，在所述绘本对应的知识图谱中检索与所述交互意图匹配的多模态应答数据并输出，其中，所述知识图谱与用户画像以及用户身份所指向的内容关联。

根据本发明的另一个方面，还提供了一种儿童专用智能设备，用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种基于绘本阅读的多模态交互系统，所述系统包含：

如上所述的儿童专用智能设备；

云端大脑，其具备语义理解、视觉识别、认知计算以及情感计算，以决策所述儿童专用智能设备输出多模态数据。

本发明提供的基于绘本阅读的多模态交互方法及系统提供了一种儿童专用智能设备，具备阅读绘本内容的能力，能够向用户输出绘本中的内容并能针对绘本内容与用户进行交互，降低了儿童用户阅读故事的难度。并且，本发明还能够根据与绘本关联的知识图谱，生成匹配用户交互意图的多模态应答数据，能够更精确的满足用户的意图，提升了用户的使用体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法流程图；

图2显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法中生成多模态应答数据的流程图；

图3显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法中生成知识图谱推荐内容的流程图；

图4显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法中生成知识图谱的流程图；

图5显示了根据本发明的一个实施例的基于绘本阅读的多模态交互装置的模块框图；

图6显示了根据本发明的一个实施例的基于绘本阅读的多模态交互系统的结构框图；

图7显示了根据本发明的另一个实施例的基于绘本阅读的多模态交互系统的结构框图；

图8显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法中运用的知识图谱示意图；以及

图9显示了根据本发明的另一个实施例的基于绘本阅读的多模态交互方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的儿童专用智能设备支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。在具体的实施例中，儿童专用智能设备可以是儿童故事机、台灯、闹钟、智能音箱、儿童平板、儿童手表以及儿童AI机器人等。

儿童专用智能设备获取用户的多模态数据，在云端大脑的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。

所提到的云端大脑为提供所述儿童专用智能设备对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述儿童专用智能设备输出多模态数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法流程图。

如图1所示，在步骤S101中，在绘本阅读模式下，获取多模态交互数据，确定多模态交互数据中包含的针对目标物内容的交互意图。

在本发明的一个实施例中，与用户进行交互的智能设备在启动后获取用户或周边环境输出的进入指令，在获取进入指令后，进入绘本阅读模式。

需要说明的是，进入指令的形式为多模态的，可以是语音指令、动作指令、感知指令以及表情指令等多模态的指令。为了获取多模态的进入指令，智能设备上也配备相应的输入输出装置。

在绘本阅读模式下，多模态交互数据包含用户、智能设备针对目标物内容所提出的提问数据、用户指向的的目标物及用户目光注视的目标物，其中，智能设备为与用户进行交互的设备，目标物位于绘本上或与绘本内容相关。

在确定交互意图时，需要借助云端大脑的支持，智能设备将多模态交互数据传输至云端大脑，云端大脑运用语言语义理解、动作语义理解、视觉识别、情感计算以及认知计算等能力解析多模态交互数据，确定用户针对目标物内容的交互意图。

接着，在步骤S102中，结合目标物内容，在绘本对应的知识图谱中检索与交互意图匹配的多模态应答数据并输出，其中，知识图谱与用户画像以及用户身份所指向的内容关联。

在一个实施例中，可以通过如图2所示的方法生成多模态应答数据。如图2所示，在步骤S201中，针对交互意图以及目标物内容，采用自然语言处理(Natural LanguageProcessing)中的句法分析、分词词性分析以及权重分析得到原始信息。例如：用户的交互意图经解析后确定为：《小黑鱼》的作者是谁？

然后，在步骤S201中，根据原始信息从知识图谱的图谱树查询分支上得到原始信息对应的信息节点。例如：原始信息为：《小黑鱼》作者。

最后，在步骤S203中，将信息节点参与决策，生成多模态交互数据。进一步地，通过NLP将原始信息进行加工，得到符合自然语言的知识语料。例如：经查询得到《小黑鱼》的作者为李欧.李奥尼，将以上查询到的结果参与决策，以生成多模态交互数据。

另外，在输出多模态应答数据时，同时输出知识图谱推荐内容，可以通过如图3所示的方法生成知识图谱推荐内容。如图3所示，在步骤S301中，获取本轮交互中的多模态应答数据以及本轮交互前用户输出的多模态内容。例如：获取本轮交互中的多模态应答数据，得到多模态应答数据。

然后，在步骤S302中，通过自然语言处理对多模态应答数据以及多模态内容进行分析，得到分析结果。例如：经过分析，得到多模态交互数据中包含以下内容：李欧.李奥尼与《小黑鱼》。

最后，在步骤S303中，依据分析结果，调用目标物内容关联的知识图谱，主动向用户推荐与目标物内容关联的内容。进一步地，可以通过比对权重大小与推荐库中标签进行推荐。例如：调用知识图谱进行推荐，推送“李欧.李奥尼的《一只奇特的蛋》绘本上线了，快来听听吧。”

在本发明中，绘本具有对应的知识图谱，知识图谱与用户画像以及用户身份所指向的内容关联。可以通过图4所示的方法构建绘本对应的知识图谱。

如图4所示，在步骤S401中，在绘本数据信息中进行信息抓取，对抓取到的信息进行信息处理以及信息分类，得到待关联信息。进一步地，当用户主动询问问题或进行知识图谱相关知识的问答时，启用知识图谱。

然后，在步骤S402中，将待关联信息与知识图谱的图谱树中的信息节点进行关联，生成关系式知识库，以完成知识图谱的构建。例如：将李欧.李奥尼与《小黑鱼》关联起来。

根据本发明的一个实施例，获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。本发明面向的用户群主要是儿童用户，因此需要确定用户的身份属性。判断用户身份的方式是有很多种，一般来说，可以通过面部识别功能或者指纹识别方式来辨别用户的身份。其他能够判断用户身份的方式也可以运用到本发明中来，本发明不对此做出限制。

图5显示了根据本发明的一个实施例的基于绘本阅读的多模态交互装置的模块框图。

如图5所示，多模态交互装置包含交互意图模块501以及应答输出模块502。其中，交互意图模块501包含获取单元5011以及确定单元5012。应答输出模块502包含检索匹配单元5021以及输出单元5022。

交互意图模块501用于在绘本阅读模式下，获取多模态交互数据，确定多模态交互数据中包含的针对目标物内容的交互意图。其中，获取单元5011在多模态交互装置启动后实时获取用户以及周边环境输出的进入指令，在接收到进入指令后进入绘本阅读模式。确定单元5012在获取单元5011获取到进入指令以及多模态交互数据后，确定多模态交互数据中包含的针对目标物内容的交互意图。

应答输出模块502用于结合目标物内容，在绘本对应的知识图谱中检索与交互意图匹配的多模态应答数据并输出，其中，知识图谱与用户画像以及用户身份所指向的内容关联。其中，检索匹配单元5021用于在知识图谱中检索与交互意图相关的数据，在相关数据中选择匹配交互意图的数据，生成多模态应答数据。输出单元5022用于输出多模态应答数据以及知识图谱推荐内容。

图6显示了根据本发明的一个实施例的基于绘本阅读的多模态交互系统的结构框图。如图6所示，完成多模态交互需要用户601、儿童专用智能设备602以及云端大脑603的共同参与。其中，儿童专用智能设备602包含输入输出装置6021、数据处理单元6022以及接口单元6023。云端大脑603所具备的接口包含语义理解接口6031、视觉识别接口6032、认知计算接口6033以及情感计算接口6034。

本发明提供的基于绘本阅读的多模态交互系统包含儿童专用智能设备602以及云端大脑603。儿童专用智能设备602包括支持感知、控制等输入输出模块的智能设备，例如儿童故事机、台灯、闹钟、智能音箱、儿童平板、儿童手表以及儿童AI机器人等，能够给小朋友阅读绘本内容，实时解答小朋友提出的问题以及具备丰富的表现力。云端大脑603具备语义理解、视觉识别、认知计算以及情感计算，以决策儿童专用智能设备输出多模态数据。

输入输出装置6021用于获取输入的多模态数据以及输出需要输出的多模态数据。输入的多模态数据可以是用户601输入的，也可以是周边环境输入的。输入输出装置6021的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态数据。多模态数据可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

数据处理单元6022用于处理进行多模态交互中产生的数据。所用的处理器可以为数据处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

儿童专用智能设备602中包含存储器，存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据儿童专用智能设备602的使用所创建的数据(比如音频数据、浏览记录等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

云端大脑603包含语义理解接口6031、视觉识别接口6032、认知计算接口6033以及情感计算接口6034。以上这些接口与儿童专用智能设备602中的接口单元6023展开通信。并且，云端大脑603还包含与语义理解接口6031对应的语义理解逻辑、与视觉识别接口6032对应的视觉识别逻辑、与认知计算接口6033对应的认知计算逻辑以及与情感计算接口6034对应的情感计算逻辑。

如图6所示，各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口，其接收从接口单元6023转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

其中，图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口，其接收从接口单元6023转发的多模态数据，认知计算接口6033用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

情感计算接口，其接收从接口单元6023转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。

情感计算接口是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

此外，本发明提供的基于绘本阅读的多模态交互系统还可以配合一种程序产品，其包含用于执行完成基于绘本阅读的多模态交互方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图7显示了根据本发明的另一个实施例的基于绘本阅读的多模态交互系统的结构框图。完成多模态交互需要用户601、儿童专用智能设备602以及云端大脑603。其中，儿童专用智能设备602包含音频信号采集器件701、显示屏702、音频信号输出器件703以及中央处理器704。

音频信号采集器件701用于采集用户或外界环境输出的音频信号。音频信号采集器件701可以是麦克风等能够采集声音信号的设备。显示屏702可以展示绘本内容。在一个实施例中，绘本可以是电子绘本，直接显示在显示屏702上，也可以是实体绘本。当绘本为实体绘本，可以配备摄像头采集绘本内容，将摄像头采集的内容显示在显示屏702上，也可以不将实体绘本的内容显示在显示屏702上，本发明不对此作出限制。音频信号输出器件703用于输出音频数据。音频信号输出器件703可以是功放和喇叭等能够输出音频数据的设备。中央处理器704可以对多模态交互过程中产生的数据进行处理。

根据本发明的一个实施例，儿童专用智能设备602支持感知、控制等输入输出模块的智能设备，例如儿童故事机、台灯、闹钟、智能音箱、儿童平板、儿童手表以及儿童AI机器人等，能够给小朋友阅读绘本内容，实时解答小朋友提出的问题以及具备丰富的表现力。

如图7所示，在一个实施例中，儿童专用智能设备602可以通过音频信号采集器件701采集用户的指令，当用户输出“输出《小黑鱼》的故事内容”的音频指令时，儿童专用智能设备602上的音频信号采集器件701获取到用户输出的音频，经云端大脑603进行分析处理后，通过儿童专用智能设备602的显示屏702和/和音频信号输出器件703进行输出。

根据本发明的一个实施例，儿童专用智能设备上可以配置有虚拟人物“阿Q姐姐”，阿Q姐姐是基于人工智能的虚拟角色，可以通过文本转语音的方式给小朋友阅读绘本，在小朋友听的过程中，如果小朋友有什么疑问，可以直接向阿Q姐姐提问，阿Q姐姐通过云端大脑检索出相关的问答，并使用小朋友能够听得懂的语言给小朋友进行解答。

图8显示了根据本发明的一个实施例的基于绘本阅读的多模态交互方法中运用的知识图谱示意图。如图8所示，知识图谱中包含多种知识类型。对应于李欧.李奥尼的节点包含成就、出生地、身份以及作品。其中，成就包含凯迪克奖。出生地包含阿姆斯特丹。身份包含画家以及儿童文学作家。作品包含《一寸虫》、《田鼠阿佛》、《一只奇特的蛋》、《小黑鱼》、《亚历山大和发条老鼠》、《小蓝和小黄》以及《鳄鱼哥尼流》。

其中，《小黑鱼》的节点包含时间、类别以及所含物种。时间为1963年，类别为绘本。所含物种包含鲔鱼、水母、龙虾、海藻、海葵以及棕榈树。

如图9所示，在步骤S901中，儿童专用智能设备602向云端大脑603发出请求。之后，在步骤S902中，儿童专用智能设备602一直处于等待云端大脑603回复的状态。在等待的过程中，儿童专用智能设备602会对返回数据所花费的时间进行计时操作。

在步骤S903中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则儿童专用智能设备602会选择进行本地回复，生成本地常用应答数据。然后，在步骤S904中，输出本地常用应答，并调用语音播放设备进行语音播放。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于绘本阅读的多模态交互方法，其特征在于，所述方法包含以下步骤：

结合所述目标物内容，在所述绘本对应的知识图谱中检索与所述交互意图匹配的多模态应答数据并输出，其中，所述知识图谱与用户画像以及用户身份所指向的内容关联；

所述多模态交互数据包含用户、智能设备针对所述目标物内容所提出的提问数据、用户指向的目标物及用户目光注视的目标物，其中，所述智能设备为与用户进行交互的设备，所述目标物位于绘本上或与绘本内容相关；

视觉识别接口针对人体、人脸、场景依据计算机视觉算法、深度学习算法进行视频内容检测、识别、跟踪，即根据预定的算法对图像进行识别，给出定量的检测结果，具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

特征提取功能提取出图像中目标的肤色、颜色、纹理、运动和坐标特征信息；

决策功能是对特征信息，按照决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，包含实现人脸检测、人物肢体识别、运动检测功能；

利用情感识别技术来计算用户当前的情绪状态，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别，通过以上内容可以判断用户的情绪状态，情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态；

情感计算接口是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理技术进行表情情绪分析，理解面部表情，需要对表情的微妙变化进行检测，包含脸颊肌肉、嘴部的变化以及挑眉。

2.如权利要求1所述的方法，其特征在于，通过以下步骤生成所述多模态应答数据：

将所述信息节点参与决策，生成所述多模态应答数据。

3.如权利要求1所述的方法，其特征在于，在输出多模态应答数据时，同时输出知识图谱推荐内容，通过以下步骤生成所述知识图谱推荐内容：

4.如权利要求1所述的方法，其特征在于，通过以下方法构建所述绘本对应的知识图谱：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

6.一种存储介质，其包含用于执行如权利要求1-5中任一项所述的方法步骤的一系列指令。

7.一种基于绘本阅读的多模态交互装置，其特征在于，所述装置包含：

应答输出模块，其用于结合所述目标物内容，在所述绘本对应的知识图谱中检索与所述交互意图匹配的多模态应答数据并输出，其中，所述知识图谱与用户画像以及用户身份所指向的内容关联；

8.一种儿童专用智能设备，其特征在于，用于执行如权利要求1-5中任一项所述的方法步骤的一系列指令。

9.一种基于绘本阅读的多模态交互系统，其特征在于，所述系统包含：

如权利要求8所述的儿童专用智能设备；