CN111914563A

CN111914563A - 一种结合语音的意图识别方法及装置

Info

Publication number: CN111914563A
Application number: CN201910328721.8A
Authority: CN
Inventors: 林亚男
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-11-10

Abstract

本发明属于意图识别领域，公开了一种结合语音的意图识别方法及装置，其方法包括：在触摸屏上显示文本信息；接收用户在所述触摸屏上的唤醒信号；当唤醒信号满足唤醒条件时，开启拾音功能和截图功能；接收用户输入的语音信息；截取用户在触摸屏上选取的文字的图片信息；根据语音信息和所述图片信息，识别用户的意图。本发明设置唤醒条件，可防止在不需要使用意图识别功能时，出现误触发意图识别功能的情况，提高用户的使用体验；本发明结合语音和图片来识别用户的意图，相比于现有技术中的单纯屏幕交互，能够更加精确的识别出用户的意图，减少用户的信息查找，并且不会因为过大信息量而分散用户的注意力。

Description

一种结合语音的意图识别方法及装置

技术领域

本发明属于意图识别技术领域，特别涉及一种结合语音的意图识别方法及装置。

背景技术

随着智能终端及网络技术的迅速发展，人们越来越习惯地使用智能终端完成各种需求，如在学习的过程中，碰到不理解的知识点、不会解的习题时，通过家教机等智能终端来完成学习辅导。

目前，在人机交互场景中，随着智能语音技术的成熟而慢慢不局限于已有的屏幕交互方式，但是屏幕交互和语音交互还是相对独立的去解决用户的某些问题，屏幕交互方式能够承载更大的信息量，而语音交互方式能够更精准的识别出用户的实际意图，以儿童类学习平板为例，儿童在使用学习平板学习过程中遇到难题或看不懂的字时，若使用纯屏幕交互解决方案则是点击屏幕后会有多种让用户选择的选项，而无法精准的识别出用户的实际意图，这种解决方案会影响用户的学习效率，并容易使用户被其他无关信息所打扰，不利于儿童的学习。

发明内容

本发明的目的是提供一种结合语音的意图识别方法及装置，能够精确的识别出用户的意图，减少用户的信息查找，避免因过大信息量而分散用户的注意力。

本发明提供的技术方案如下：

一方面，提供一种结合语音的意图识别方法，包括：

在触摸屏上显示文本信息；

接收用户在所述触摸屏上的唤醒信号；

当所述唤醒信号满足唤醒条件时，开启拾音功能和截图功能；

接收用户输入的语音信息；

截取用户在所述触摸屏上选取的文字的图片信息；

根据所述语音信息和所述图片信息，识别所述用户的意图。

进一步优选地，所述根据所述语音信息和所述图片信息，识别所述用户的意图具体包括：

将所述语音信息转换为第一文本；

识别所述图片信息中的文字，并转换为第二文本；

从预设的文本库中查找与所述第一文本匹配的目标文本；

根据所述目标文本预先标注的替换词，确定所述第一文本中的替换词；

将所述第一文本中的替换词替换为所述第二文本；

根据替换后的所述第一文本，识别所述用户的意图。

进一步优选地，还包括：

根据所述用户的意图在预设题库中搜索对应的答案并展示。

进一步优选地，所述截取用户在所述触摸屏上选取的文字的图片信息具体包括：

接收用户在所述触摸屏上的触摸信号；

当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点不在同一水平线上时，以所述触摸信号的起点和终点构成的直线为对角线构建矩形框；

截取所述矩形框内的文字的图片信息。

进一步优选地，还包括：

当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点在同一水平线上时，截取所述触摸信号移动时所经过的文字的图片信息。

另一方面，还提供一种结合语音的意图识别装置，包括：

显示模块，用于在触摸屏上显示文本信息；

唤醒信号接收模块，用于接收用户在所述触摸屏上的唤醒信号；

处理模块，用于当所述唤醒信号满足唤醒条件时，开启拾音功能和截图功能；

语音接收模块，用于接收用户输入的语音信息；

图片截取模块，用于截取用户在所述触摸屏上选取的文字的图片信息；

意图识别模块，用于根据所述语音信息和所述图片信息，识别所述用户的意图。

进一步优选地，所述意图识别模块包括：

文本转换单元，用于将所述语音信息转换为第一文本；

图片识别单元，用于识别所述图片信息中的文字，并转换为第二文本；

查找单元，用于从预设的文本库中查找与所述第一文本匹配的目标文本；

替换词确定单元，用于根据所述目标文本预先标注的替换词，确定所述第一文本中的替换词；

替换单元，用于将所述第一文本中的替换词替换为所述第二文本；

意图识别单元，用于根据替换后的所述第一文本，识别所述用户的意图。

进一步优选地，还包括：

搜索及展示模块，用于根据所述用户的意图在预设题库中搜索对应的答案并展示。

进一步优选地，所述图片截取模块包括：

触摸信号接收单元，用于接收用户在所述触摸屏上的触摸信号；

矩形框构建单元，用于当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点不在同一水平线上时，以所述触摸信号的起点和终点构成的直线为对角线构建矩形框；

截取单元，用于截取所述矩形框内的文字的图片信息。

进一步优选地，所述截取单元，还用于当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点在同一水平线上时，截取所述触摸信号移动时所经过的文字的图片信息。

与现有技术相比，本发明提供的一种结合语音的意图识别方法及装置带来的有益效果为：本发明设置唤醒条件，可防止在不需要使用意图识别功能时，出现误触发意图识别功能的情况，提高用户的使用体验；当意图识别功能被唤醒后，通过拾音功能(麦克风)接收用户的语音，并通过截图功能截取用户选择的文字图片，然后结合语音和图片来识别用户的意图，相比于现有技术中的单纯屏幕交互，能够更加精确的识别出用户的意图，减少用户的信息查找，并且不会因为过大信息量而分散用户的注意力。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种结合语音的意图识别方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种结合语音的意图识别方法的第一实施例的流程示意图；

图2是本发明一种结合语音的意图识别方法的第二实施例的流程示意图；

图3是本发明一种结合语音的意图识别方法的第三实施例的流程示意图；

图4是本发明一种结合语音的意图识别方法的第四实施例的流程示意图；

图5是本发明一种结合语音的意图识别装置的一个实施例的结构示意框图。

附图标号说明

100、显示模块； 200、唤醒信号接收模块；

300、处理模块； 400、语音接收模块；

500、图片截取模块； 510、触摸信号接收单元；

520、矩形框构建单元； 530、截取单元；

600、意图识别模块； 610、文本转换单元；

620、图片识别单元； 630、查找单元；

640、替换词确定单元； 650、替换单元；

660、意图识别单元； 700、搜索及展示模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

根据本发明提供的第一实施例，如图1所示，一种结合语音的意图识别方法，该意图识别方法可以应用于智能终端设备(例如：家教机，本实施例中为方便理解，都以家教机作为主语解释，但本领域技术人员均应明白该意图识别方法也可应用于其他智能终端设备，只要等实现相应功能即可)，该意图识别方法包括：

S100在触摸屏上显示文本信息；

具体地，触摸屏上显示的文本信息，可以是家教机上自带的文本内容，也可以是通过摄像头拍摄得到的文本图片。

当用户在使用家教机阅读课外读物，或使用家教机做习题时，家教机上显示的文本信息则为家教机上自带的课外读物文本信息或习题文本信息。

当用户在阅读书本上的课外读物，或在做书本上的习题时，如果遇到不会读的字或不会解的题，可通过家教机上的摄像头拍摄书本上的文本内容，然后显示在触摸屏上，即在触摸屏上显示的文本信息为拍摄得到的书本上的课外读物的文本信息或书本上的习题的文本信息。

S200接收用户在所述触摸屏上的唤醒信号；

具体地，触摸屏上显示文本信息后，当用户需要与家教机进行交互时，可在触摸屏上输入唤醒信号。唤醒信号的唤醒方式可为长按触摸屏，或在触摸屏上画圈，或在某一特定方向的触摸操作，如在触摸屏上的某一特定方向上两点触摸且两点触摸的滑动轨迹为相对滑动。

S300当所述唤醒信号满足唤醒条件时，开启拾音功能和截图功能；

具体地，当用户在触摸屏上输入的唤醒信号满足唤醒条件时，开启拾音功能和截图功能。唤醒条件为预先设置的，例如长按触摸屏的时间大于预设的时间阈值时，则认为满足唤醒条件。再如，若在某一特定方向上的两点触摸相对滑动的位移大于第一阈值，两点触摸结束时两点间的距离小于第二阈值时，则认为满足唤醒条件。在实际使用时，可同时设置多种唤醒方式，只要满足其中任意一种唤醒方式，则家教机等智能终端被唤醒，并开启拾音功能和截图功能。同时设置多种唤醒方式，可方便用户的使用。

S400接收用户输入的语音信息；

具体地，家教机开启拾音功能后，通过家教机上的麦克风来接收用户输入的语音信息。

S500截取用户在所述触摸屏上选取的文字的图片信息；

具体地，当触摸屏上显示的文本信息为家教机自带的内容时，通过截图功能直接截取用户选取的文字的图片信息。当触摸屏上显示的文本信息为拍摄书本得到的图片时，通过截图功能截取图片上用户选取的文字的图片信息。

选取文字的方式有多种，如可以采用画圈的方式，将需要选取的文字圈起来，或使用划线的方式选取文字，用户也可以自定义选取文字的方式，只要能获取到用户选取的文字即可。

S600根据所述语音信息和所述图片信息，识别所述用户的意图。

具体地，得到语音信息和图片信息后，即可结合语音信息和用户选择的文字来识别用户的意图。

例如，当儿童在使用家教机学习时，遇到不会解的题或不认识的字，可对触摸屏做某种特殊的操作(比如：双击、长按、两点相对滑动触摸等)，使家教机被唤醒，并开启拾音功能和截图功能。然后通过麦克风接收用户输入的语音信息，如“这个怎么造句”，并截取用户选取的文字的图片信息，如选取的文字为“漂亮”，则可结合语音信息“这个怎么造句”和图片信息“漂亮”，来识别用户的意图，识别出的意图为“漂亮怎么造句”。

再如，当儿童在书本上阅读课外读物或在书本上做习题时，碰到不会解的题或不认识的字，可通过家教机上的摄像头拍摄书本上的文本内容，然后显示在家教机的触摸屏上，再对触摸屏做某种特征的操作(比如：双击、长按、两点相对滑动触摸等)，使家教机被唤醒，并自动开启拾音功能和截图功能。再通过麦克风接收用户输入的语音信息，如“这个字怎么读”或“这个题怎么解”，并截取用户选取的文字的图片信息，如选取的文字为“漂亮”或“A题目”，则可结合语音信息和文字的图片信息来识别用户的意图，识别出的意图为“漂亮怎么读”或“A题目怎么解”。

本实施例中，设置唤醒条件，可防止在不需要使用意图识别功能时，出现误触发意图识别功能的情况，提高用户的使用体验；当意图识别功能被唤醒后，通过拾音功能(麦克风)接收用户的语音，并通过截图功能截取用户选择的文字图片，然后结合语音和图片来识别用户的意图，相比于现有技术中的单纯屏幕交互，能够更加精确的识别出用户的意图，减少用户的信息查找，并且不会因为过大信息量而分散用户的注意力。

根据本发明提供的第二实施例，如图2所示，一种结合语音的意图识别方法，包括：

S100在触摸屏上显示文本信息；

S200接收用户在所述触摸屏上的唤醒信号；

S400接收用户输入的语音信息；

S500截取用户在所述触摸屏上选取的文字的图片信息；

S610将所述语音信息转换为第一文本；

具体地，通过麦克风接收用户输入的语音信息后，可将该语音信息转换为文本信息，即第一文本。语音转换为文本可通过现有的语音识别程序来将口头语言转换成书面语言。

S620识别所述图片信息中的文字，并转换为第二文本；

具体地，通过图像识别技术，将图片信息中的文字识别为第二文本。

S630从预设的文本库中查找与所述第一文本匹配的目标文本；

具体地，预设的文本库需要通过收集大量的文本得到，收集的文本为常用的语句，如“这道题怎么解”、“这句话什么意思”、“这个字怎么读”、“这个我不懂”、“怎么解这道题”、“怎么读这个字”、“什么意思这句话”、“这个怎么造句”等。

文本的收集方式有多种：第一种，用户在使用家教机的过程中，通过语音输入的语音信息，然后将语音信息转换得到的文本。第二种，通过爬虫等技术去爬取大量的文本信息，以丰富文本库。

将转换得到的第一文本与预设的文本库中的文本进行匹配，查找到匹配的目标文本。

S640根据所述目标文本预先标注的替换词，确定所述第一文本中的替换词；

具体地，在建立文本库后，对文本库中的各个文本的替换词进行标注，例如，“这道题怎么解”标注的替换词为“这道题”，“这句话什么意思”标注的替换词为“这句话”，“这个字怎么读”标注的替换词为“这个字”，“这个我不懂”标注的替换词为“这个”，“怎么读这个字”标注的替换词为“这个字”，“什么意思这句话”标注的替换词为“这句话”。

当查找到目标文本后，根据目标文本标注的替换词，在第一文本中确定替换词。例如，“这个怎么造句”标注的替换词为“这个”，则第一文本中的替换词为“这个”。

S650将所述第一文本中的替换词替换为所述第二文本；

具体地，由第二文本的内容替换第一文本中的替换词。例如，“这个怎么造句”的替换词为“这个”，第二文本为“漂亮”，由“漂亮”替换“这个”，得到“漂亮怎么造句”。

S660根据替换后的所述第一文本，识别所述用户的意图。

具体地，将第一文本中的替换词替换为第二文本，得到替换后的第一文本“漂亮怎么造句”，即可准确地识别出用户的意图。

在进行意图识别时，还可将语音信息和图片信息发送给连接的智能语音系统，由智能语音信息进行语音识别、语义理解，并将最终识别出的意图返回给家教机。家教机包括麦克风、扬声器、WiFi模块、触摸屏等，通过麦克风拾取用户输入的语音信息，通过扬声器提供语音播报，WiFi模块使家教机与智能语音系统进行通信。

本实施例，通过文本匹配的方式来确定需要替换的替换词，可避免出现替换出错的情况，进而提高语义理解的准确率。

根据本发明提供的第三实施例，如图3所示，一种结合语音的意图识别方法，包括：

S100在触摸屏上显示文本信息；

S200接收用户在所述触摸屏上的唤醒信号；

S400接收用户输入的语音信息；

S500截取用户在所述触摸屏上选取的文字的图片信息；

S600根据所述语音信息和所述图片信息，识别所述用户的意图；

S700根据所述用户的意图在预设题库中搜索对应的答案并展示。

具体地，当家教机识别出用户的意图后，可根据用户的意图在预设题库中搜索对应的答案并展示出来，展示的方式有多种，例如，语音播放、文字显示等。答案展示的方式不作限制，只要方便用户了解答案即可。预设的题库可分为多个种类，如不同的科目分别对应一个或多个题库，在搜索答案时，可根据题目类型或意图类型来进行分类搜索，以提高答案搜索的效率。

根据本发明提供的第四实施例，如图4所示，一种结合语音的意图识别方法，包括：

S100在触摸屏上显示文本信息；

S200接收用户在所述触摸屏上的唤醒信号；

S400接收用户输入的语音信息；

S510接收用户在所述触摸屏上的触摸信号；

具体地，开启截图功能后，家教机实时接收用户在触摸屏上进行的触摸操作，以便通过用户的触摸操作在触摸屏上选取对应的文字。

S520当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点不在同一水平线上时，以所述触摸信号的起点和终点构成的直线为对角线构建矩形框；

具体地，家教机接收到触摸信号后，先判断该触摸信号是否为连续触摸信号，若是，则进一步判断触摸信号的起点和终点是否在同一水平线上，若否，则以触摸信号的起点和终点构成的直线为对角线构建矩形框。检测连续的触摸信号，可防止出现失误操作，减少错误率的发生；如用户因失误操作而在触摸屏上形成两个点触摸，然后以该两个点触摸构成的直线为对角线构建框选题目的矩形框。

触摸信号的起点和终点是指用户在触摸屏上连续滑动时，开始触摸时的点和终止触摸时的点，根据两点构成一条直线，然后以该直线为对角线构建矩形框。水平线是指与家教机的上边框平行的线。

当用户是通过家教机上的摄像头拍摄书本上的文本内容时，可能存在家教机倾斜的情况，当家教机倾斜时，拍摄出来的图像上的文字将也是倾斜的，而根据一条对角线构建的矩形框的上边框一般与家教机的上边框平行，即构建的矩形框的上边框与图像上的某一行文字存在夹角，通过该矩形框不能准确地获取题目的信息，因此需要对矩形框进行旋转矫正，以使矩形框的上边框与图像上的某一行文字平行。

其中，矩形框矫正的方法为：

S1在图像中获取处于同一行的多个文字形成第一直线；

具体地，书本上一般包含一行或多行文字，因此，在图像中也包含一行或多行文字。通过在图像中获取处于同一行的多个文字形成第一直线。

S2获取矩形框的上边框或下边框，并将所述上边框或下边框作为第二直线；

具体地，然后获取构建的矩形框的上边框或下边框，并将上边框或下边框作为第二直线。若在获取图像时，智能终端的上边框与题目中的任意一行文字平行(默认书本中的题目的每一行文字都是互相平行的)，则矩形框的上边框或下边框也与题目中的任意一行文字平行，此时第一直线与第二直线平行，即第一直线与第二直线之间的夹角为零，此时不需要对矩形框进行矫正。一般在构建矩形框时，默认构建的矩形框的上下边框与智能终端的上下边框平行，矩形框的左右边框与智能终端的左右边框平行。

若在获取图像时，智能终端的上边框与题目中的任意一行文字不平行，即家教机在拍摄书本时，家教机或书本倾斜放置，则矩形框的上边框或下边框也与题目中的任意一行文字不平行，此时第一直线与第二直线之间的夹角不为零。

S3计算所述第一直线与所述第二直线的夹角；

具体地，当第一直线与第二直线之间的夹角不为零时，即说明矩形框的上边框与题目中的任意一行文字都不平行，需要对矩形框进行矫正，因此，需要先计算第一直线与第二直线之间的夹角。

S4根据所述夹角，对所述矩形框进行旋转矫正，使所述第一直线与所述第二直线平行；

具体地，计算出第一直线与第二直线之间的夹角后，根据计算得到的夹角对矩形框进行旋转矫正，即对整个矩形框进行旋转，以使矩形框的上下边框与书本中任意一行文字平行，从而使待选取的文字全部位于矩形框内，且不会选取其他多余的文字。使用户在使用时无需反复矫正智能终端与书本的角度，简化操作条件。

S530截取所述矩形框内的文字的图片信息；

具体地，当矩形框需要矫正时，则先对矩形框进行矫正，然后截取矩形框内的文字的图片信息。当矩形框不需要矫正时，则直接截取矩形框内的文字的图片信息。

本实施例中，通过构建矩形框来选取文字的方式适用于需要选取的文本内容较多时的情况，当需要选取的文本内容较少时，可直接使用画圈的方式。在实际使用过程中，可同时设置多种选取方式，用户可根据实际的选取文字的多少来选用文字的选取方式。

本实施例中，通过用户的连续触摸操作来形成框选题目的矩形框，不仅操作方便，省去了不停调整框选区的操作，而且框选的精确度较高；此外通过对构建的矩形框进行自动校正，使用户在拍摄书本图像时可随意放置家教机或书本，而不需要保证家教机与书本保持平行，具有较强的易用性和实用性。

优选地，还包括：S540当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点在同一水平线上时，截取所述触摸信号移动时所经过的文字的图片信息。

具体地，在框选文字时，还会出现一种特殊的情况，即需要选取的文字仅包含一行文字，此时并不需要在题目上划对角线，只需要在该题目的文字上画一条直线就好，画完直线后，直线获取该直线所对应的文字的图片即可。所画的直线是通过触摸操作来实现的，即用户在触摸屏显示的某一行文字上连续滑动手指，然后家教机获取该滑动操作所经过的文字的图片，该图片即为需要选取的文字的图片。

根据本发明提供的第五实施例，如图5所示，一种结合语音的意图识别装置，包括：

显示模块100，用于在触摸屏上显示文本信息；

唤醒信号接收模块200，用于接收用户在所述触摸屏上的唤醒信号；

处理模块300，用于当所述唤醒信号满足唤醒条件时，开启拾音功能和截图功能；

语音接收模块400，用于接收用户输入的语音信息；

图片截取模块500，用于截取用户在所述触摸屏上选取的文字的图片信息；

意图识别模块600，用于根据所述语音信息和所述图片信息，识别所述用户的意图。

可选地，意图识别模块600包括：

文本转换单元610，用于将所述语音信息转换为第一文本；

图片识别单元620，用于识别所述图片信息中的文字，并转换为第二文本；

查找单元630，用于从预设的文本库中查找与所述第一文本匹配的目标文本；

替换词确定单元640，用于根据所述目标文本预先标注的替换词，确定所述第一文本中的替换词；

替换单元650，用于将所述第一文本中的替换词替换为所述第二文本；

意图识别单元660，用于根据替换后的所述第一文本，识别所述用户的意图。

本实施例中，通过文本匹配的方式来确定需要替换的替换词，可避免出现替换出错的情况，进而提高语义理解的准确率。

可选地，还包括：

搜索及展示模块700，用于根据所述用户的意图在预设题库中搜索对应的答案并展示。

可选地，图片截取模块500包括：

触摸信号接收单元510，用于接收用户在所述触摸屏上的触摸信号；

矩形框构建单元520，用于当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点不在同一水平线上时，以所述触摸信号的起点和终点构成的直线为对角线构建矩形框；

其中，矩形框矫正的方法为：

S1在图像中获取处于同一行的多个文字形成第一直线；

S3计算所述第一直线与所述第二直线的夹角；

截取单元530，用于截取所述矩形框内的文字的图片信息。

通过构建矩形框来选取文字的方式适用于需要选取的文本内容较多时的情况，当需要选取的文本内容较少时，可直接使用画圈的方式。在实际使用过程中，可同时设置多种选取方式，用户可根据实际的选取文字的多少来选用文字的选取方式。

通过用户的连续触摸操作来形成框选题目的矩形框，不仅操作方便，省去了不停调整框选区的操作，而且框选的精确度较高；此外通过对构建的矩形框进行自动校正，使用户在拍摄书本图像时可随意放置家教机或书本，而不需要保证家教机与书本保持平行，具有较强的易用性和实用性。

可选地，截取单元530，还用于当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点在同一水平线上时，截取所述触摸信号移动时所经过的文字的图片信息。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种结合语音的意图识别方法，其特征在于，包括：

在触摸屏上显示文本信息；

接收用户在所述触摸屏上的唤醒信号；

接收用户输入的语音信息；

截取用户在所述触摸屏上选取的文字的图片信息；

根据所述语音信息和所述图片信息，识别所述用户的意图。

2.根据权利要求1所述的一种结合语音的意图识别方法，其特征在于，所述根据所述语音信息和所述图片信息，识别所述用户的意图具体包括：

将所述语音信息转换为第一文本；

识别所述图片信息中的文字，并转换为第二文本；

从预设的文本库中查找与所述第一文本匹配的目标文本；

将所述第一文本中的替换词替换为所述第二文本；

根据替换后的所述第一文本，识别所述用户的意图。

3.根据权利要求1所述的一种结合语音的意图识别方法，其特征在于，还包括：

根据所述用户的意图在预设题库中搜索对应的答案并展示。

4.根据权利要求1所述的一种结合语音的意图识别方法，其特征在于，所述截取用户在所述触摸屏上选取的文字的图片信息具体包括：

接收用户在所述触摸屏上的触摸信号；

截取所述矩形框内的文字的图片信息。

5.根据权利要求4所述的一种结合语音的意图识别方法，其特征在于，还包括：

6.一种结合语音的意图识别装置，其特征在于，包括：

显示模块，用于在触摸屏上显示文本信息；

语音接收模块，用于接收用户输入的语音信息；

7.根据权利要求6所述的一种结合语音的意图识别装置，其特征在于，所述意图识别模块包括：

文本转换单元，用于将所述语音信息转换为第一文本；

8.根据权利要求6所述的一种结合语音的意图识别装置，其特征在于，还包括：

9.根据权利要求6所述的一种结合语音的意图识别装置，其特征在于，所述图片截取模块包括：

截取单元，用于截取所述矩形框内的文字的图片信息。

10.根据权利要求9所述的一种结合语音的意图识别装置，其特征在于，

所述截取单元，还用于当所述触摸信号为连续触摸信号，且所述触摸信号的起点和终点在同一水平线上时，截取所述触摸信号移动时所经过的文字的图片信息。