CN111931510A

CN111931510A - 一种基于神经网络的意图识别方法及装置、终端设备

Info

Publication number: CN111931510A
Application number: CN201910335859.0A
Authority: CN
Inventors: 李选洪
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-11-13

Abstract

本发明公开了基于神经网络的意图识别方法及装置、终端设备；其中意图识别方法包括：采集用户语音信息；将语音信息转换为第一文本信息；将第一文本信息输入语义残缺识别模型，判定出第一文本信息是否语义残缺；当识别出第一文本信息的语义残缺时，采集用户指示图像；将指示图像输入到图片理解模型中，输出指示图像对应的描述信息；根据描述信息填充第一文本信息，获得第二文本信息；将第二文本信息输入语义残缺识别模型，判定第二文本信息的语义是否残缺；当第二文本信息的语义不残缺时，根据第二文本信息获得用户真实意图。通过本发明，即使用户语音无法表达完整意图，也可以基于神经网络技术，获取意图相关方面的信息，从而获得用户真实意图。

Description

一种基于神经网络的意图识别方法及装置、终端设备

技术领域

本发明涉及意图识别领域，尤其涉及一种基于神经网络的意图识别方法及装置、终端设备。

背景技术

随着互联网的快速发展，各种智能产品在人们的生活中发挥着越来越重要的作用，人们也越来越习惯地使用智能终端完成各种需求。而且随着人工智能相关技术的日益成熟，各类终端的智能化程度也越来越高。语音交互作为智能终端中人机交互主流的交流应用之一，也是越来越受到用户的青睐。

目前，市场上很多适合中小学生学习使用的终端设备，比如学习机、家教机等，这些终端设备基于用户输入的语音进行识别，然后给予相应的回馈。因此用户通过智能语音设备所输入的语音的准确性严重影响着智能终端所作出的反馈。而对于低年级的小孩而言，低年级小学生的作业会涉及到很多图片形式的题目，例如：看图写字、看图说话等。低年级小学生可能无法用完整的语音来表述该图片信息，表达其真实意图，从而使终端设备的使用受到限制。

发明内容

本发明提供一种基于神经网络的意图识别方法及装置、终端设备，用以解决实际操作中单通过语音信息无法完整获知用户真实意图的技术问题。具体的，本发明的技术方案如下：

第一方面，本发明公开了一种基于神经网络的意图识别方法，包括：采集用户语音信息；将所述语音信息转换为第一文本信息；将所述第一文本信息输入语义残缺识别模型，判定出所述第一文本信息是否语义残缺；当识别出所述第一文本信息的语义残缺时，采集用户指示图像；将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；根据所述描述信息填充所述第一文本信息，获得第二文本信息；将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；当所述第二文本信息的语义不残缺时，根据所述第二文本信息获得所述用户真实意图。

优选的，所述基于神经网络的意图识别方法还包括：当判定所述第二文本信息的语义残缺时，采集所述指示图像的上下文信息；根据所述指示图像的上下文信息，结合所述第二文本信息，获得所述用户真实意图。

优选的，所述基于神经网络的意图识别方法还包括：当判定所述第二文本信息的语义残缺时，采集所述用户当前的学习情境信息；根据所述用户当前的学习情境信息，结合所述第二文本信息，获得所述用户真实意图。

优选地，在采集用户语音之前还包括：利用神经网络技术，通过标记过的语义残缺训练样本进行自学习，获得语义残缺识别模型；利用神经网络技术，通过标记过的图像描述训练样本进行自学习，获得图像理解模型。

优选地，将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息包括：通过深度卷积网络获得所述指示图像的高层语义信息；递归神经网络将所述指示图像的高层语义信息转换为所述指示图像自然语言描述。

第二方面，本发明还公开了一种基于神经网络的意图识别装置，包括：语音采集模块，用于采集用户语音信息；语音转换模块，用于将所述语音信息转换为第一文本信息；残缺识别模块，用于将所述第一文本信息输入语义残缺识别模型，识别出所述第一文本信息是否语义残缺；图像采集模块，用于当识别出所述第一文本信息的语义残缺时，采集用户指示图像；图像理解模块，用于将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；信息填充模块，用于根据所述描述信息填充所述第一文本信息，获得第二文本信息；所述残缺识别模块，还用于将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；意图理解模块，用于当所述第二文本信息的语义不残缺时，根据所述第二文本信息获得所述用户真实意图。

优选地，所述基于神经网络的意图识别装置还包括：信息采集模块，用于当判定所述第二文本信息的语义残缺时，采集所述指示图像的上下文信息和/或所述用户当前的学习情境信息；所述意图理解模块，还用于根据所述指示图像的上下文信息，结合所述第二文本信息和/或所述用户当前的学习情境信息，获得所述用户真实意图。

优选地，所述基于神经网络的意图识别装置还包括：残缺识别学习模块，用于利用神经网络技术，通过标记过的语义残缺训练样本进行自学习，获得语义残缺识别模型；图像理解学习模块，用于利用神经网络技术，通过标记过的图像描述训练样本进行自学习，获得图像理解模型。

优选地，所述基于神经网络的意图识别装置中的图像理解模块包括：高层语义获取子模块，用于通过深度卷积网络获得所述指示图像的高层语义信息；自然语言处理子模块，用于通过递归神经网络，将所述指示图像的高层语义信息转换为所述指示图像自然语言描述。

第三方面，本发明还公开了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如上任一项所述基于神经网络的意图识别方法的步骤。

本发明至少具备以下一项有益效果：

(1)本发明在语音信息无法获知用户真实意图的情况下，结合图像信息进行语义理解，获得用户真实意图。其中，采用了训练好的语义残缺识别模型和图片理解模型，从而能快速而准确的识别输出，人工智能化程度高，克服了语音设备使用受限的问题。

(2)本发明在根据用户语音信息、图像信息还是无法获得用户意图的情况下，还进一步采集指示图像的上下文信息、和/或用户当前学习情境信息(视情况而定)，从而确定用户真实意图，进而便于给出正确反馈。

(3)本发明的图像理解模型，不同于传统的图像识别模型只能简单的识别出图像中的物体，本发明中的图像理解模型除了可以识别出图像中的物体外，还可以识别出各物体之间、各物体与环境之间的关系，甚至各物体的行为等情况，基于此，再对其进行自然语言处理，输出符合人类表达方式的自然语言描述，具备“看图说话”功能，提高了用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于神经网络的意图识别方法的实施例的流程图；

图2为本发明基于神经网络的意图识别方法的另一实施例的流程图；

图3为本发明基于神经网络的意图识别装置的实施例的结构框图；

图4为本发明基于神经网络的意图识别装置的另一实施例的结构框图；

图5为本发明终端设备一个实施例的结构框图。

附图标记：

10--语音采集模块；20--语音转换模块；30--残缺识别模块；40--图像采集模块；50--图像理解模块；60--信息填充模块；70--意图理解模块；80--信息采集模块；90--残缺识别学习模块；100-图像理解学习模块；51--高层语义获取子模块；52--自然语言处理子模块；200--存储器；210--计算机程序；300--处理器。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘出了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是，在某些实施例中，所述终端设备并非便携式通信设备，而是具有触摸敏感表面(例如：触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端设备。然而，应当理解的是，终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。

终端设备支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

图1示出了本发明的一种基于神经网络的意图识别方法的实现流程图，该意图识别方法可以应用于终端设备(例如：学习机、家教机等，本实施例中为方便理解，都以学习机作为主语解释，但本领域的技术人员均明白该意图识别方法也可应用于其他终端设备，只要能实现相应功能即可)，所述意图识别方法包括以下步骤：

S101，采集用户语音信息；

具体的，用户在学习时，会把学习机摆放在面前，学习机上设置有麦克风，可以采集用户的语音信息。

S102，将所述语音信息转换为第一文本信息；

具体的，在获取到用户的语音信息后，再将该语音信息转换为对应的文字信息，即第一文本信息。

S103，将所述第一文本信息输入语义残缺识别模型，判定出所述第一文本信息是否语义残缺；

具体的，这里的语义残缺识别模型是经过训练后生成的，输入任何句子、短语等文本信息，即可识别出该输入的文本信息的语义是否完整。比如，输入的第一文本信息为：这幅图讲什么。语义残缺识别模型接收到该输入的文本信息后进行语义解析与判别，由于第一文本中的这幅图不知道实际是指哪幅图，仅根据语音信息无法获知用户真实意图，因此该第一文本的语义是残缺的。语义残缺识别模型判定出该第一文本信息的语义残缺。

S104，当识别出所述第一文本信息的语义残缺时，采集用户指示图像；

具体的，当识别出所述第一文本信息的语义残缺时，学习机可通过摄像头获取用户学习时用手指指向书上图画的图像，从而获取指示图像。采集用户指示图像的具体方式有多种，以下述两种进行举例：

(1)用户开始学习时，打开学习机，学习机的摄像头开机启动，全程拍摄用户的学习过程。而具体的指示图像则是从拍摄的学习视频中选取的。具体的，当识别出第一文本信息语义残缺时，将采集用户语音信息的时间点作为指示图像的时间点。由于语音信息的转换和识别处理速度非常快，因此，可以在采集到用户语音信息时，记录采集到用户语音信息的时间点；在识别出用户语音对应的第一文本信息被识别出语义残缺后，根据所述时间从拍摄的学习影像中获取该时间点用户的动作所对应的图像作为指示图像。

例如：小茗同学从09:30:00开始学习并进行拍摄其学习影像，小茗同学在09:35:05的时候说了“这是些什么动物”，采集到该语音信息后，将其进行语音处理，获得第一文本信息：这是些什么动物。然后语义残缺识别模型识别出该第一文本信息的语义残缺，于是，学习机从拍摄的学习影像中截取出09:35:05的图像A，从图像A中识别出用户的手指指向的位置，从图像A中截取用户的手指指向的位置区域作为图像a，将图像a作为指示图像。拍摄用户当前的学习图像；从学习图像中根据用户的动作提取出对应的图像作为指示图像。

(2)学习机的摄像头不会对用户的学习过程进行实时摄影，只有当采集到用户语音信息时才会触发摄像头进行拍摄。比如，用户说“这是什么”、“这幅图中有几种动物”等语义残缺的语音时，学习机才会调用摄像头去拍摄用户当前的学习图像，之后从拍摄的学习图像中根据用户的动作提取出对应的图像作为指示图像。用户的动作可以为用户手指点的位置、眼睛看的位置等。

例如：小亮同学从10:38:00开始学习，小亮同学在10:45:25的时候说了“这是啥”，学习机就用摄像头拍摄用户当前的学习图像，将用户当前的学习图像作为图像A，从图像A中识别出用户的眼睛看向的位置，从图像A中截取用户的眼睛看向的位置区域作为图像a，将图像2作为指示图像。

采用不同方式获取指示图像，灵活、多变，可满足不同使用场景的需求。

S105，将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；

具体的，该图像理解模型可以识别理解图像内容，并用自然语言能够描述出来。也就是说通过该图像理解模型可以实现“看图说话”。比如，某孩子在阅读某书本时，指着一幅图对学习机说：“这幅图讲什么”，然后学习机采集孩子指向的那副图，然后对其进行图像理解，获得该图像的描述信息。

现在，不管是书本还是习题等，图像信息都是非常多的，图像的展现形式更为直观，视觉冲击力更强，尤其对于识字有限的孩童，更喜欢图像比较多的书本。现在的图像识别技术主要可以识别出图像中的物体，而图像理解则在此基础上进行了更深层次的考量，不仅需要识别出图像中的物体，还要识别出各物体之间、物体与环境之间的关系等，然后用符合人类表达方式的自然语言描述出来。

S106，根据所述描述信息填充所述第一文本信息，获得第二文本信息；

具体的，获取到指示图像的描述信息后，根据该描述信息及第一文本信息，获得第二文本信息。比如，第一文本信息是“这幅图里有几个小朋友”，根据指示图像的描述信息了解到这幅画描述的是：两个小孩在看书。那么两者结合后可获得第二文本信息：这幅图里有几个小朋友，其中，这幅图讲的是两个小孩在看书。

S107，将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；

获取到第二文本信息后，再将该第二文本信息输入到语义残缺识别模型，进而判断该第二文本信息的语义是否残缺。

S108，当所述第二文本信息的语义不残缺时，根据所述第二文本信息获得所述用户真实意图。

具体的，如果语义残缺识别模型识别到该第二文本信息的语义不残缺，那么就可以根据该第二文本信息获得用户真实意图。比如，识别到“这幅图里有几个小朋友，其中，这幅图讲的是两个小孩在看书”的语义不残缺，那么就可以据此获得用户真实意图，用户想知道这幅讲两个小孩在看书的图像中有几个小朋友，那么学习机便可据此给出相应的反馈，比如语音反馈给用户：“这幅图中有两个小朋友”。

本发明方法的另一实施例，在上述任一实施例的基础上，对于第二文本信息语义仍然残缺的情况，进一步从其它方面进行信息收集，再根据收集到的信息及之前的第二文本信息，来获得用户真实意图。具体的，当判定第二文本信息语义残缺时，可以包括以下一种或多种组合的方式来进行信息收集：

(1)采集所述指示图像的上下文信息，然后根据所述指示图像的上下文信息，结合所述第二文本信息，获得所述用户真实意图。

具体的，如果根据用户语音信息和指示图像的描述信息还是无法获得用户真实意图，那么，就会采集指示图像的上下文信息，获取更多相关信息来帮助识别用户真实意图。一般的，指示图像的上下文信息会与指示图像较为相关，通过采集到的指示图像的上下文信息集合第二文本信息来获取用户真实意图，从而给予用户正确反馈。

(2)采集所述用户当前的学习情境信息；然后根据所述用户当前的学习情境信息，结合所述第二文本信息，获得所述用户真实意图。

具体的，学习情境信息主要包括用户当前学习的一些基本信息；比如用户属于小学二年级学生，当前在做语文作业；又比如，用户当前在做英语作业等。比如采集到用户语音信息为：“这幅图中的动物怎么读”，然后将该语音信息转换为第一文本信息后，经语义残缺识别模型判断出该第一文本信息的语义残缺，再进一步采集用户的指示图像，该指示图像经过图像理解模型的识别获得对应的描述信息：“一只老虎在树下睡觉”。根据该描述信息填充到第一文本后，获得第二文本信息：这幅图中的动物怎么读，其中，这幅图里有一只老虎在树下睡觉。然后将该第二文本信息输入到残缺识别模型中进行识别，虽然已经明确了用户指的图是一只老虎在树下睡觉的图，也就是说用户的意图是想了解：指示图像中的老虎怎么读？而怎么读可能是英文读音，也可能是中文读音，因此，存在真实意图不明确的情况，视为语义残缺，故还需进一步采集其它信息，比如采集用户当前的学习情境信息，了解到用户当前在看英文书，那么就可以据此获得用户想要了解这幅图中的动物用英文怎么读，且这幅图指的是一幅一只老虎在树下休息的图。那么据此学习机便可给出相应回应：tiger。

上述两个方案可以选择其一，也可以两种组合的形式来辅助确定用户真实意图，具体的，另一实施例的流程图如图2所示，包括：

S201，采集用户语音信息；

S202，将所述语音信息转换为第一文本信息；

S203，将所述第一文本信息输入语义残缺识别模型，判定出所述第一文本信息是否语义残缺；若是，进入步骤S204；

S204，采集用户指示图像；

S205，将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；

S206，根据所述描述信息填充所述第一文本信息，获得第二文本信息；

S207，将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；若是，进入步骤S209，否则，进入步骤S208；

S208，根据所述第二文本信息获得所述用户真实意图；

S209，采集所述指示图像的上下文信息；

S210，采集所述用户当前的学习情境信息；

S211，根据所述指示图像的上下文信息、所述用户当前的学习情境信息，结合所述第二文本信息，获得所述用户真实意图。

本实施例在获得第二文本信息的基础上，还采集了指示图像的上下文信息、学习情境信息，从而从多个方面结合辅助确定用户真实意图。提高了意图确定的准确性。

上述任一实施例中，语义残缺识别模型、图像理解模型均是需要通过监督学习训练来获得。具体的，利用神经网络技术，通过标记过的语义残缺训练样本进行自学习，获得语义残缺识别模型；比如，将标记过的语义残缺的训练样本输入初始模型进行训练，使其输出语义残缺的结果，通过大量的训练样本使其具备识别语义残缺的能力，从而可以识别出输入的文本的语义是否残缺。

而图像理解模型相对于语义残缺识别模型而言要更复杂一些，因为其输入的是图像信息，而输出的是对图像的理解描述信息，因此该模型则要基于神经网络进行深度学习来获得，在训练过程中，同样需要先收集大量标记过的图像描述训练样本，然后将这些训练样本输入初始模型，使其学习这些图像训练样本对应的自然语言的描述，经过大量样本的学习，从而获得图像理解识别模型。

人工神经网络(Artificial Neural Networks，简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

上述任一实施例中，将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；也就是说通过图像理解模型，获得指示图像的描述信息；主要包括以下两个阶段：

第一阶段：通过深度卷积网络获得所述指示图像的高层语义信息；

具体的，第一阶段中的高层语义信息主要包括对象语义和空间关系语义；较佳的，还包括场景语义和/或行为语义。其中：

(1)对象语义：指示图像中主要包含了哪些对象(物体)；

(2)空间关系语义：空间关系主要是反映图像中主要对象之间的位置、分布、组合等信息的关系。而用于语义提取的空间关系主要涉及图像中各主要对象的空间实体所在的位置以及空间实体在场景中的投影。

(3)场景语义：空间关系语义的形式描述虽然准确，但却不太符合人的习惯。因此，一般将一组特定对象的特定空间关系抽象为一种场景。

(4)行为语义：行为语义的提取是在场景语义提取的基础上完成的，由于行为语义涉及到的人物/动物、场景和行为状态是特定的，所以行为语义的一方面提取必须依赖一个较完备的知识库，并且需要知识库的支持系统具有一定的推理能力。

较佳的，所述通过深度卷积网络获得所述指示图像的高层语义信息具体包括：

1.1、接收所述指示图像，对所述指示图像进行预处理；

1.2、根据所述指示图像，识别所述指示图像中包含的主要对象，获得对象语义；

1.3、基于所述指示图像包含的主要对象，进一步识别出所述主要对象之间的空间关系，获得空间关系语义；

1.4、根据所述主要对象之间的空间关系，获得对应的场景，进而获得场景语义；

1.5、基于所述主要对象所在的场景，识别主要对象的行为状态，获得行为语义。

第二阶段：递归神经网络将所述指示图像的高层语义信息转换为所述指示图像自然语言描述。

具体的，上述两个阶段构成的图像理解描述涉及到两方面的技术：机器视觉和自然语言处理。通过机器视觉获得指示图像的高层语义信息；而通过自然语言处理技术则可以根据该高层语义信息获得对应的符合人类表达方式的描述信息。而引领机器视觉和自然语言处理两个领域取得突破的最重要的两个技术，分别是：DCNN(Deep ConvolutionalNeural Network，深度卷积网络)与LSTM(Long Short Term Memory，长短时记忆网络)，其中LSTM为一种带门的递归神经网络。

在自然语言处理领域，许多高难度的任务都可以归结进序列到序列(sequence tosequence)的框架中。比如说，机器翻译任务表面上是将一种语言转换为另一种语言，本质上就是从一段不定长的序列转换为另一段不定长的序列。如今实现seq2seq最有效的方法即为LSTM，一种带门的RNN(Recurrent Neural Network，递归神经网络)，它可以将源语言编码为一个固定长度含丰富语义的向量，然后作为解码网络的隐藏状态去生成目标语言。而Image Caption Generator(自动图像生成器)方法正是受到机器翻译中seq2seq进展的启发：何不将源语言信号替换成图像信号，这样就能够将机器翻译的任务转换也就是把图像转成自然语言，即图像自然语言描述。可是简单地将图像信号直接作为输入是无法达到很好的效果，原因是原始的图像信号并不是一个紧致的表示，含有太多的噪声。所以需要引入DL(Deep Learning，深度学习)在机器视觉中最核心的部件：CNN(Convolutional NeuralNetwork，卷积网络)。在DCNN的高层神经元输出可以表示图像的紧致的高层语义信息，如今众多成功的机器视觉应用都得益于此，所以此图像文字描述方法的基本思想就是利用了DCNN生成图像的高层抽象语义向量，将其作为语言生成模型LSTM的输入进行sequence tosequence的转换。

因此，将视觉和自然语言处理领域中最先进的两类网络连着在一起，各自负责其擅长的部分，同时进行端到端的训练学习，从而实现“看图说话”的能力。

基于相同技术构思，本发明还公开了一种基于神经网络的意图识别装置，该意图识别装置可采用本发明的基于神经网络的意图识别方法来识别用户的真实意图，具体的，如图3所示，该意图识别装置包括：

语音采集模块10，用于采集用户语音信息；具体的，语音采集模块10可以通过麦克风来实现语音采集功能。

语音转换模块20，用于将所述语音信息转换为第一文本信息；

残缺识别模块30，用于将所述第一文本信息输入语义残缺识别模型，识别出所述第一文本信息是否语义残缺；具体的，这里的语义残缺识别模型是经过训练后生成的，输入任何句子、短语等文本信息，即可识别出该输入的文本信息的语义是否完整。比如，输入的第一文本信息为：这幅图讲什么。语义残缺识别模型接收到该输入的文本信息后进行语义解析与判别，由于第一文本中的这幅图不知道实际是指哪幅图，仅根据语音信息无法获知用户真实意图，因此该第一文本的语义是残缺的。语义残缺识别模型判定出该第一文本信息的语义残缺。

图像采集模块40，用于当识别出所述第一文本信息的语义残缺时，采集用户指示图像；具体的，图像采集模块40可以通过摄像头来实现，当残缺识别模块识别出所述第一文本信息的语义残缺时，学习机可通过摄像头获取用户学习时用手指指向书上图画的图像，从而获取指示图像。采集用户指示图像的图像采集模块的实现方式有多种，以下述两种进行举例：

(2)用户开始学习时，打开学习机，学习机的摄像头开机启动，全程拍摄用户的学习过程。而具体的指示图像则是从拍摄的学习视频中选取的。具体的，当识别出第一文本信息语义残缺时，将采集用户语音信息的时间点作为指示图像的时间点。由于语音信息的转换和识别处理速度非常快，因此，可以在采集到用户语音信息时，记录采集到用户语音信息的时间点；在识别出用户语音对应的第一文本信息被识别出语义残缺后，根据所述时间从拍摄的学习影像中获取该时间点用户的动作所对应的图像作为指示图像。

图像理解模块50，用于将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；具体的，该图像理解模型可以识别理解图像内容，并用自然语言能够描述出来。也就是说通过该图像理解模型可以实现“看图说话”。比如，某孩子在阅读某书本时，指着一幅图对学习机说：“这幅图讲什么”，然后学习机采集孩子指向的那副图，然后对其进行图像理解，获得该图像的描述信息。

信息填充模块60，用于根据所述描述信息填充所述第一文本信息，获得第二文本信息；具体的，根据描述信息填充第一文本信息，使其比之前更为完整。比如，第一文本信息是“这幅图里有几只老虎”，根据指示图像的描述信息了解到这幅画描述的是：三只老虎在树下休息。那么两者结合后可获得第二文本信息：这幅图里有几只老虎，其中，这幅图讲的是三只老虎在树下休息。

所述残缺识别模块30，还用于将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；具体的，获取到第二文本信息后，则可再通过残缺识别模块来判断其语义是否残缺。一般的，只要根据第二文本信息可以明确获得用户问的具体问题，以及可以据此给出相应答案即可。比如，上述中第二文本信息为：这幅图里有几只老虎，其中，这幅图讲的是三只老虎在树下休息。根据该第二文本信息可以明确到用户想问的是哪一幅画(三只老虎在树下休息的画)，想要知道的是这幅画中有几只老虎。根据该第二文本信息可看出，用户意图明确，那么后续则可以根据该用户真实意图给予相应的回馈。

意图理解模块70，用于当所述第二文本信息的语义不残缺时，根据所述第二文本信息获得所述用户真实意图。

本发明装置的另一实施例，如图4所示，在上述装置实施例的基础上，所述基于神经网络的意图识别装置还包括：

信息采集模块80，用于当判定所述第二文本信息的语义残缺时，采集所述指示图像的上下文信息和/或所述用户当前的学习情境信息；

所述意图理解模块70，还用于根据所述指示图像的上下文信息，结合所述第二文本信息和/或所述用户当前的学习情境信息，获得所述用户真实意图。

具体的，如果根据用户语音信息和指示图像的描述信息还是无法获得用户真实意图，那么，信息采集模块80就会采集指示图像的上下文信息，获取更多相关信息来帮助识别用户真实意图。一般的，指示图像的上下文信息会与指示图像较为相关，通过采集到的指示图像的上下文信息集合第二文本信息来获取用户真实意图，从而给予用户正确反馈。

此外，信息采集模块80还可以采集用户当前的学习情境信息，学习情境信息主要包括用户当前学习的一些基本信息；比如用户属于小学二年级学生，当前在做语文作业；又比如，用户当前在做英语作业等。比如语音采集模块10采集到用户语音信息为：“这幅图中的动物怎么读”，语音转换模块20将该语音信息转换为第一文本信息后，经残缺识别模块30判断出该第一文本信息的语义残缺，因此图像采集模块40进一步采集用户的指示图像，该指示图像经过图像理解模块50的识别获得对应的描述信息：“一只老虎在树下睡觉”。根据该描述信息填充到第一文本后，获得第二文本信息：这幅图中的动物怎么读，其中，这幅图里有一只老虎在树下睡觉。然后残缺识别模块30将该第二文本信息输入到残缺识别模型中进行识别，虽然已经明确了用户指的图是一只老虎在树下睡觉的图，也就是说用户的意图是想了解：指示图像中的老虎怎么读？而怎么读可能是英文读音，也可能是中文读音，因此，存在真实意图不明确的情况，视为语义残缺，故信息采集模块80需要采集其它信息，比如采集用户当前的学习情境信息，了解到用户当前在看英文书，那么意图理解模块就可以据此获得用户想要了解这幅图中的动物用英文怎么读，且这幅图指的是一幅一只老虎在树下休息的图。那么据此学习机便可给出相应回应：tiger。

上述任一装置实施例中，所述基于神经网络的意图识别装置还包括：

残缺识别学习模块90，用于利用神经网络技术，通过标记过的语义残缺训练样本进行自学习，获得语义残缺识别模型；比如，将标记过的语义残缺的训练样本输入初始模型进行训练，使其输出语义残缺的结果，通过大量的训练样本使其具备识别语义残缺的能力，从而可以识别出输入的文本的语义是否残缺。

图像理解学习模块100，用于利用神经网络技术，通过标记过的图像描述训练样本进行自学习，获得图像理解模型。具体的，该图像里面学习模块要基于神经网络进行深度学习来获得图像理解模型，在训练过程中，同样需要先收集大量标记过的图像描述训练样本，然后将这些训练样本输入初始模型，使其学习这些图像训练样本对应的自然语言的描述，经过大量样本的学习，从而获得图像理解识别模型。

较佳的，上述任一实施例中，所述基于神经网络的意图识别装置中的图像理解模块50包括：

高层语义获取子模块51，用于通过深度卷积网络获得所述指示图像的高层语义信息；所述高层语义主要包括对象语义和空间关系语义；较佳的，还包括场景语义和/或行为语义。其中：

(1)对象语义：指示图像中主要包含了哪些对象(物体)；

自然语言处理子模块52，用于通过递归神经网络，将所述指示图像的高层语义信息转换为所述指示图像自然语言描述。

较佳的，所述高层语义获取子模块51具体包括：

图像预处理单元，用于接收所述指示图像，对所述指示图像进行预处理；比如对图像进行去噪处理。

对象语义获取单元，用于根据所述指示图像，识别所述指示图像中包含的主要对象，获得对象语义；

空间关系语义获取单元，用于基于所述指示图像包含的主要对象，进一步识别出所述主要对象之间的空间关系，获得空间关系语义；

场景语义获取单元，用于根据所述主要对象之间的空间关系，获得对应的场景，进而获得场景语义；

行为语义获取单元，用于基于所述主要对象所在的场景，识别主要对象的行为状态，获得行为语义。

具体的，上述图像理解模块50涉及到两方面的技术：机器视觉和自然语言处理。通过机器视觉获得指示图像的高层语义信息；而通过自然语言处理技术则可以根据该高层语义信息获得对应的符合人类表达方式的描述信息。具体的实现过程，可参照现有的技术，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将所述装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图5是本发明一个实施例中提供的终端设备的结构框图。如图5所示，本实施例的终端设备包括：处理器300、存储器200以及存储在所述存储器200中并可在所述处理器300上运行的计算机程序210，例如：基于神经网络的意图识别程序。所述处理器300执行所述计算机程序210时实现上述各个基于神经网络的意图识别方法实施例中的步骤，或者，所述处理器300执行所述计算机程序210时实现上述各基于神经网络的意图识别装置实施例中各模块的功能。

所述终端设备可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、手机、家教机、学习机等设备。所述终端设备可包括，但不仅限于，处理器300、存储器200。本领域技术人员可以理解，图5仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备还可以包括输入输出设备、显示设备、网络接入设备、总线等。

所述处理器300可以是中央处理单元(Central Processing Unit,CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器200可以是所述终端设备的内部存储单元，例如：终端设备的硬盘或内存。所述存储器也可以是所述终端设备的外部存储设备，例如：所述终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器200还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器200用于存储所述计算机程序210以及所述终端设备所需要的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序发送指令给相关的硬件完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括：计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于神经网络的意图识别方法，其特征在于，包括：

采集用户语音信息；

将所述语音信息转换为第一文本信息；

将所述第一文本信息输入语义残缺识别模型，判定出所述第一文本信息是否语义残缺；

当识别出所述第一文本信息的语义残缺时，采集用户指示图像；

将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；

根据所述描述信息填充所述第一文本信息，获得第二文本信息；

将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；

当所述第二文本信息的语义不残缺时，根据所述第二文本信息获得所述用户真实意图。

2.根据权利要求1所述的一种基于神经网络的意图识别方法，其特征在于，还包括：

当判定所述第二文本信息的语义残缺时，采集所述指示图像的上下文信息；

根据所述指示图像的上下文信息，结合所述第二文本信息，获得所述用户真实意图。

3.根据权利要求1所述的一种基于神经网络的意图识别方法，其特征在于，还包括：

当判定所述第二文本信息的语义残缺时，采集所述用户当前的学习情境信息；

根据所述用户当前的学习情境信息，结合所述第二文本信息，获得所述用户真实意图。

4.根据权利要求1所述的一种基于神经网络的意图识别方法，其特征在于，在采集用户语音之前还包括：

利用神经网络技术，通过标记过的语义残缺训练样本进行自学习，获得语义残缺识别模型；

利用神经网络技术，通过标记过的图像描述训练样本进行自学习，获得图像理解模型。

5.根据权利要求1-4任一项所述的一种基于神经网络的意图识别方法，其特征在于，将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息包括：

通过深度卷积网络获得所述指示图像的高层语义信息；

递归神经网络将所述指示图像的高层语义信息转换为所述指示图像自然语言描述。

6.一种基于神经网络的意图识别装置，其特征在于，包括：

语音采集模块，用于采集用户语音信息；

语音转换模块，用于将所述语音信息转换为第一文本信息；

残缺识别模块，用于将所述第一文本信息输入语义残缺识别模型，识别出所述第一文本信息是否语义残缺；

图像采集模块，用于当识别出所述第一文本信息的语义残缺时，采集用户指示图像；

图像理解模块，用于将所述指示图像输入到图片理解模型中，输出所述指示图像对应的描述信息；

信息填充模块，用于根据所述描述信息填充所述第一文本信息，获得第二文本信息；

所述残缺识别模块，还用于将所述第二文本信息输入所述语义残缺识别模型，判定所述第二文本信息的语义是否残缺；

意图理解模块，用于当所述第二文本信息的语义不残缺时，根据所述第二文本信息获得所述用户真实意图。

7.根据权利要求6所述的一种基于神经网络的意图识别装置，其特征在于，还包括：

信息采集模块，用于当判定所述第二文本信息的语义残缺时，采集所述指示图像的上下文信息和/或所述用户当前的学习情境信息；

所述意图理解模块，还用于根据所述指示图像的上下文信息，结合所述第二文本信息和/或所述用户当前的学习情境信息，获得所述用户真实意图。

8.根据权利要求6所述的一种基于神经网络的意图识别装置，其特征在于，还包括：

残缺识别学习模块，用于利用神经网络技术，通过标记过的语义残缺训练样本进行自学习，获得语义残缺识别模型；

图像理解学习模块，用于利用神经网络技术，通过标记过的图像描述训练样本进行自学习，获得图像理解模型。

9.根据权利要求6-8任一项所述的一种基于神经网络的意图识别装置，其特征在于，所述图像理解模块包括：

高层语义获取子模块，用于通过深度卷积网络获得所述指示图像的高层语义信息；

自然语言处理子模块，用于通过递归神经网络，将所述指示图像的高层语义信息转换为所述指示图像自然语言描述。

10.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如权利要求1-5中任一项所述基于神经网络的意图识别方法的步骤。