CN113031813A

CN113031813A - 指令信息获取方法及装置、可读存储介质、电子设备

Info

Publication number: CN113031813A
Application number: CN202110292701.7A
Authority: CN
Inventors: 金越; 郭彦东; 李亚乾; 侯志刚
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-25
Also published as: WO2022193911A1

Abstract

本公开涉及人工智能技术领域，提供了一种指令信息获取方法及装置、可读存储介质、电子设备，该方法包括：获取目标图像并对所述目标图像进行信息提取，以得到所述目标图像的特征信息；以及获取语音信息并识别所述语音信息对应的文本信息，其中，所述语音信息为与所述目标图像相关联的信息；根据所述文本信息以及所述目标图像的特征信息生成指令信息。本公开通过将目标图像的特征信息和与目标图像相关联的语音信息相融合以生成指令信息，提高了指令信息的准确率。

Description

指令信息获取方法及装置、可读存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种指令信息获取方法、指令信息获取装置、计算机可读存储介质及电子设备。

背景技术

随着人工智能的飞速发展，越来越多的移动终端安装有具备语音助手或视觉助手功能的应用程序，以更好的实现与用户的交互功能。

现有技术中，移动终端通过语音助手可以实现语音控制、信息查询等功能，以及通过视觉助手可以实现图像信息获取等功能。但是，现有的语音助手或视觉助手难以准确地生成用户指令信息，用户体验较差。

发明内容

本公开的目的在于提供一种指令信息获取方法、指令信息获取装置、计算机可读存储介质及电子设备，进而至少在一定程度上解决了现有技术中难以准确生成指令信息的问题。

根据本公开的第一方面，提供一种指令信息获取方法，所述方法包括：；获取目标图像并对所述目标图像进行信息提取，以得到所述目标图像的特征信息；以及获取语音信息并识别所述语音信息对应的文本信息，其中，所述语音信息为与所述目标图像相关联的信息；根据所述文本信息以及所述目标图像的特征信息生成指令信息。

根据本公开的第二方面，提供一种指令信息获取装置，所述指令信息获取装置包括：图像信息提取模块，用于获取目标图像并对所述目标图像进行信息提取，以得到所述目标图像的特征信息；文本信息获取模块，用于获取语音信息并识别所述语音信息对应的文本信息，其中，所述语音信息为与所述目标图像相关联的信息；指令信息生成模块，用于根据所述文本信息以及所述目标图像的特征信息生成指令信息。

根据本公开的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中所述的指令信息获取方法。

根据本公开的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的指令信息获取方法。

由上述技术方案可知，本公开示例性实施例中的指令信息获取方法及装置、系统、计算机可读存储介质、电子设备至少具备以下优点和积极效果：

本公开的指令信息获取方法，获取目标图像并对目标图像进行信息提取，以得到目标图像的特征信息；以及获取语音信息并识别语音信息对应的文本信息，其中，语音信息为与目标图像相关联的信息；根据文本信息以及目标图像的特征信息生成指令信息。本公开中的指令信息获取方法，能够将目标图像的特征信息和与目标图像相关联的语音信息相融合，以生成指令信息，提高了指令信息的准确率，进而提升了用户与移动终端的交互体验。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了本示例性实施方式的一种系统架构的示意图；

图2示意性示出了本示例性实施方式的电子设备的示意图；

图3示意性示出了根据本公开的一实施例的指令信息获取方法的流程示意图；

图4示意性示出了根据本公开的一实施例的获取对象信息的方法流程示意图；

图5示意性示出了根据本公开的一实施例的确定对象类别的方法流程示意图；

图6示意性示出了根据本公开的一实施例的生成指令信息的方法流程示意图；

图7示意性示出了根据本公开的一实施例的根据匹配结果确定目标对象的方法流程示意图；

图8示意性示出了根据本公开的一实施例的从候选对象中确定目标对象的方法流程示意图；

图9示意性示出了根据本公开的一实施例的确定目标对象的方法流程示意图；

图10示意性示出了根据本公开的一实施例的另一生成指令信息的方法流程示意图；

图11示意性示出了根据本公开的一实施例的又一生成指令信息方法的流程示意图；

图12示意性示出了根据本公开的一具体实施例的指令信息获取方法的流程示意图；

图13示意性示出了根据本公开的另一具体实施例的指令信息获取方法的流程示意图；

图14示意性示出了根据本公开的又一具体实施例的指令信息获取方法的流程示意图；

图15示意性示出了根据本公开的一具体应用场景中的目标图像的结构示意图；

图16示意性示出了根据本公开的一实施例的指令信息获取装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本领域的相关技术中，移动终端安装有具备视觉助手和语音助手功能的应用程序。视觉助手主要捕捉用户所在的环境视觉信息，对以图片或视频的方式进行呈现的视觉信息进行分析，理解用户所在环境、对象以及对象之间的关系，进一步理解用户意图，为用户提供合理的推荐。语音助手主要捕捉用户的语音信息，并将语音信息转换为文本，进一步分析用户意图，实现与用户之间的智能交互。

但在视觉助手中，在对以图片或视频的方式进行呈现的视觉信息进行分析时，存在对用户意图判断不准确，或在图片或视频中存在多个对象时，对用户最关注的物体判断不准确的问题。在语音助手中，存在因环境背景音嘈杂、设备老旧造成收音不清或用户语音含义表达不清的情况，导致语音助手难以准确分析用户意图的问题。

基于相关技术中存在的问题，本公开实施例首先提供了一种指令信息获取方法，该指令信息获取方法应用于本公开示例性实施方式的系统架构中。图1示出了本公开示例性实施方式的一种系统架构的示意图，如图1所示，该系统架构100可以包括：终端110、网络120和服务器130。终端110可以是具有图像拍摄功能和音频采集功能的各种电子设备，包括但不限于手机、平板电脑、数码相机、个人电脑等。网络120用以在终端110和服务器130之间提供通信链路的介质，可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器130可以是多个服务器组成的服务器集群等。

本公开实施方式所提供的指令信息获取方法可以由终端110执行，例如在终端110获取语音信息和目标图像之后，生成指令信息。

另外，本公开实施方式所提供的的指令信息获取方法也可以由服务器130执行，例如终端110获取语音信息和目标图像之后，将语音信息和目标图像上传到服务器130，使服务器130对生成指令信息，本公开对此不做限定。

本公开的示例性实施方式提供一种用于实现指令信息获取方法的电子设备，其可以是图1中的终端110或服务器130。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行指令信息获取方法。

电子设备可以以各种形式来实施，例如可以包括手机、平板电脑、笔记本电脑、个人数字助理(Personal Digital Assistant，PDA)、导航装置、可穿戴设备、无人机等移动设备，以及台式电脑、智能电视等固定设备。

下面以图2中的移动终端200为例，对电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端200的结构限定。在另一些实施方式中，移动终端200也可以采用与图2不同的接口连接方式，或多种接口连接方式的组合。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、USB接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber Identification Module，SIM)卡接口295等。传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等。

移动终端200通过图形处理器(Graphics Processing Unit，缩写：GPU)、显示屏290及应用处理器等实现显示功能。GPU用于执行数学和几何计算，以实现图形渲染，并连接显示屏290和应用处理器。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。移动终端200可以包括一个或多个显示屏290，用于显示图像，视频等。

移动终端200可以通过图像信号处理(Image Signal Processing，ISP)、摄像模组291、编码器、解码器、GPU、显示屏290及应用处理器等实现拍摄功能。摄像模组291用于捕获静态图像或视频，通过感光元件采集光信号，转换为电信号。ISP用于处理摄像模组291反馈的数据，将电信号转换成数字图像信号。

移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。扬声器271，用于将音频电信号转换为声音信号。受话器272，用于将音频电信号转换成声音信号。麦克风273，用于将声音信号转换为电信号。耳机接口274，用于连接有线耳机。

按键294包括开机键，音量键等。按键294可以是机械按键，也可以是触摸式按键。移动终端200可以接收按键输入，产生与移动终端400的用户设置以及功能控制有关的键信号输入。

下面对本公开示例性实施方式的指令信息获取方法和指令信息获取装置进行具体说明。图3示出了指令信息获取方法的流程示意图，如图3所示，该指令信息获取方法至少包括以下步骤：

步骤S310：获取目标图像并对目标图像进行信息提取，以得到目标图像的特征信息，

步骤S320：获取语音信息并识别语音信息对应的文本信息，其中，语音信息为与目标图像相关联的信息；

步骤S330：根据文本信息以及目标图像的特征信息生成指令信息。

本公开中的指令信息获取方法，能够将目标图像的特征信息和与目标图像相关联的语音信息相融合，以生成指令信息，提高了指令信息的准确率，进而提升了用户与移动终端的交互体验。

为了使本公开的技术方案更清晰，接下来对指令信息获取方法的各步骤进行说明。

在步骤S310中，获取目标图像并对目标图像进行信息提取，以得到目标图像的特征信息。

在本公开的示例性实施例中，目标图像可以是通过移动终端的摄像功能实时拍摄的图像，还可以是存储在移动终端中的本地图像。用户可以向移动终端发送图像获取请求，移动终端根据图像获取请求确定目标图像。

其中，图像获取请求可以是拍摄请求，移动终端响应拍摄请求并开启拍摄功能，实时采集目标图像。拍摄请求可以是用户触发移动终端上的拍摄按钮，比如，用户点击移动终端上的相机图标，该拍摄请求还可以是用户通过预设语音唤醒移动终端的拍摄功能。

图像获取请求还可以是图像选择请求，移动终端响应图像选择请求并显示本地图像，并响应用户针对本地图像的触发操作，根据触发操作在本地图像中确定目标图像。

另外，目标图像可以是一个或多个。比如，移动终端开启拍摄功能，通过摄像模组采集目标视频，在目标视频中每隔预设时间段获取一视频帧，将获取到的多个视频帧作为目标图像。其中，预设时间段可以根据实际情况进行设定，比如，可以在目标视频中每隔30ms获取一视频帧，本公开对此不作具体限定。

在本公开的示例性实施例中，目标图像的特征信息包括目标图像中各对象的对象信息和/或目标图像的图像参数信息。其中，对象信息包括对象类别和对象位置，图像参数信息可以包括图像亮度、色度、对比度、饱和度或清晰度等参数信息。

在本公开的示例性实施例中，对目标图像进行对象提取，获取目标图像中各对象的对象信息。其中，对象信息包括对象类别和对象位置。

具体地，通过目标检测模型或图像分割模型对目标图像进行对象提取，并获取目标图像中各对象的对象类别和对象位置。其中，目标检测模型可以是Faster R-CNN模型、RetinaNet模型或YOLO模型等，图像分割模型可以是DeepLab-V3模型、RefineNet模型或PSPNet模型等。

另外，还可以利用显著性检测模型对目标图像进行对象提取，获取目标图像中各对象的对象位置。其中，显著性检测模型可以是基于谱残差法的显著性检测模型，还可以是基于全局对比度的显著性检测模型，本公开对此不作具体限定。

在通过显著性检测模型得到目标图像中各对象的对象位置之后，根据各对象的对象位置确定各对象的对象类别。确定各对象的对象类别的详细过程如下：首先，根据各对象的对象位置对目标图像进行裁剪，以得到各对象对应的子目标图像；然后，对各对象对应的子目标图像进行特征提取，以得到各对象的特征向量；最后，根据第二预设映射关系确定各对象的特征向量对应的第二预测类别，将各对象的特征向量对应的第二预测类别配置为各对象的对象类别。其中，第二预测映射关系包括特征向量与第二预测类别的关联关系。

还有，预先获取多个目标图像样本，根据多个目标图像样本分别对二分类模型、目标检测模型、图像分割模型、以及显著性检测模型进行训练。其中，该目标图像样本可以是带有矩形框或mask标注的图像。

在本公开的示例性实施例中，在对目标图像进行对象提取，获取目标图像中各对象的对象信息之前，可以通过目标图像中各像素点的像素值来判断目标图像中是否存在对象。若目标图像中各像素点的像素值相同，则判定该目标图像中不存在对象，若目标图像中各像素点的像素值不同，则判定该目标图像中存在一个或多个对象。另外，还可以根据二分类模型来判断目标图像中是否存在对象。在目标图像中存在对象时，对目标图像进行对象提取，并获取各对象的对象信息。

另外，还可以预先判断摄像模组所采集的画面中是否存在对象，在画面中存在对象时，实时获取目标图像或目标视频。

在本公开的示例性实施例中，图4示出了获取对象信息的方法流程示意图，如图4所示，该流程至少步骤S410至步骤S430，详细介绍如下：

在步骤S410中，获取各对象的对象位置、各对象的第一预测类别，以及第一预测类别对应的第一置信度。

在本公开的示例性实施例中，将目标图像输入目标检测模型或图像分割模型中，以得到目标图像中各对象的对象位置，各对象的第一预测类别，以及第一预测类别对应的第一置信度。

其中，对象的对象位置可以包括该对象在目标图像中的位置坐标，具体地，对象位置可以为该对象所在的检测框的位置坐标集合，位置坐标集合包括水平方向上的起始坐标和终止坐标，以及竖直方向上的起始坐标和终止坐标；对象位置还可以为该对象所在的检测框的起始坐标点，以及该检测框的大小，起始坐标点包括水平方向上的起始坐标和竖直方向上的起始坐标，检测框的大小包括水平方向上的大小和竖直方向上的大小。第一置信度表示对象的第一预测类别为对象的真实对象类别的概率。

在步骤S420中，根据对象位置获取各对象的特征向量，并根据第二预设映射关系确定各对象的第二预测类别以及第二预测类别对应的第二置信度。

在本公开的示例性实施例中，根据对象位置对目标图像进行裁剪，以得到与各对象对应的子目标图像；对子目标图像进行特征提取，以得到各对象的特征向量。

具体地，将子目标图像输入特征提取模型中，以获取子目标图像对应的特征向量。其中，特征提取模型可以是颜色直方图模型，通过颜色直方图模型提取子目标图像的颜色特征，还可以是局部二值模式(Local Binary Pattern，LBP)模型或灰度共生矩阵模型，通过LBP模型或灰度共生矩阵模型用来提取子目标图像的图像局部纹理特征，或是Canny算子边缘检测或Sobel算子边缘检测模型，通过Canny算子边缘检测或Sobel算子边缘检测模型提取子目标图像的边缘特征等等。

另外，特征提取模型还可以是颜色直方图模型、LBP模型或灰度共生矩阵模型、Canny算子边缘检测或Sobel算子边缘检测模型中的两种或两种以上模型的组合。从而通过子目标图像的颜色特征、局部纹理特征、边缘特征中的一个或多个特征构建各对象的特征向量。

还有，预先获取子目标图像样本，通过子目标图像样本对特征提取模型进行训练。其中，子目标图像样本为只包括单个对象的图像。

在本公开的示例性实施例中，第二预设映射关系包括特征向量与第二预测类别的关联关系。将对象的特征向量分别与第二预设映射关系中的一个或多个特征向量进行匹配，获取对象的特征向量与第二预设映射关系中的特征向量的匹配度。将匹配度最大的第二预设映射关系中的特征向量对应的第二预测类别配置为对象的第二预测类别，并将匹配度配置为第二置信度。

在步骤S430中，根据第一预测类别和第二预测类别，以及第一预测类别对应的第一置信度和第二预测类别对应的第二置信度确定各对象的对象类别。

具体地，图5示出了确定对象类别的方法流程示意图，如图5所示，该流程至少包括步骤S510至步骤S530，详细介绍如下：

在步骤S510中，判断第一预测类别与第二预测类别是否相同。

在本公开的示例性实施例中，可以将第一预测类别与第二预测类别对应的类别标识进行比对；若第一预测类别对应的类别标识与第二预测类别对应的类别标识相同，则判定第一预测类别与第二预测类别相同；若第一预测类别对应的类别标识与第二预测类别对应的类别标识不同，则判定第一预测类别与第二预测类别不同。

在步骤S520中，在第一预测类别与第二预测类别相同时，将第一预测类别或第二预测类别配置为各对象的对象类别。

在本公开的示例性实施例中，由于第一预测类别与第二预测类别相同，则可以将第一预测类别或第二预测类别配置为各对象的对象类别。

在步骤S530中，在第一预测类别与第二预测类别不同时，判断第一置信度是否大于第二置信度，根据判断结果确定各对象的对象类别。

在本公开的示例性实施例中，在第一置信度大于第二置信度时，将第一预测类别配置为各对象的对象类别；在第一置信度小于等于第二置信度时，将第二预测类别配置为各对象的对象类别。

在本公开的示例性实施例中，还可以分别判断第一预测类别对应的第一置信度与第二预测类别对应的第二置信度是否大于等于置信度阈值；在第一置信度大于等于置信度阈值，以及第二置信度小于置信度阈值时，将第一预测类别作为对象的对象类别；若第二置信度大于等于置信度阈值，以及第一置信度小于置信度阈值时，则将第二预测类别作为对象的对象类别；若第一置信度和第二置信度均大于等于置信度阈值，则根据上述实施例确定各对象的对象类别；若第一置信度和第二置信度均小于置信度阈值，则可以舍弃该对象以及对象对应的对象信息。

在本公开的示例性实施例中，对目标图像进行信息提取，以得到目标图像的图像参数信息。其中，图像参数信息可以包括图像亮度、色度、对比度、饱和度或清晰度等参数信息。

具体地，可以通过获取摄像模组的拍摄参数，根据拍摄参数确定目标图像的图像参数信息，也可以通过获取目标图像的可交换图像文件信息(EXIF信息)，根据EXIF信息确定图像参数信息。

继续参照图3所示，在步骤S320中，获取语音信息并识别语音信息对应的文本信息，其中，语音信息为与目标图像相关联的信息。

在本公开的示例性实施例中，语音信息为与目标图像相关联的信息。也就是说，在移动终端获取目标图像的时间段内或移动终端显示目标图像的时间段内，开启录音功能，实时采集用户的语音信息。

比如，响应用户的视频拍摄请求，移动终端同时开启拍摄功能和录音功能，获取目标视频，在目标视频中获取多个目标图像和语音信息。其中，该视频拍摄请求可以是用户针对摄像头的触发操作所形成的，还可以是用户在智能助手中针对扫描功能的触发操作所形成的。终端移动终端可以预先获取智能助手的功能权限，以使在用户触发智能助手的扫描功能时，开启摄像功能和录音功能。

又比如，移动终端预先获取目标图像，并将目标图像存储在存储在内部存储器或外部存储器中。移动终端根据用户请求在内部存储器或外部存储器中获取目标图像并显示在显示屏幕上，在目标图像的显示过程中，通过用户的录音请求开启录音功能，并实时采集用户的语音信息。

其中，视频拍摄请求和录音请求可以是用户触发移动终端上的视频拍摄按钮或录音按钮所形成的，比如，用户触发移动终端上的相机图标或录音图标，移动终端便开启视频拍摄功能或录音功能。

另外，该视频拍摄请求和录音请求还可以是用户通过预设语音唤醒移动终端的视频拍摄功能或录音功能所形成的，该预设语音可以是用户自定义设置的语音信息，还可以是移动终端预先设定的语音信息，本公开对此不作具体限定。

在本公开的示例性实施例中，在获取用户的语音信息之后，识别语音信息对应的文本信息。识别语音信息对应的文本信息的过程如下：

首先，对语音信息进行预处理。

具体地，预处理可以包括分帧处理、加窗处理、预加重处理等。举例而言，对语音信息对应的语音序列进行预加重处理，以增加语音序列的高频分辨率；再对预加重处理后的语音序列进行分帧处理，以得到多个语音子序列；对各语音子序列进行加窗处理，加窗处理包括将各语音子序列与窗函数相乘，其中，窗函数可以选择矩形窗、汉明窗或汉宁窗等。

然后，对预处理之后的语音信息进行语音特征提取，以得到语音信息对应的语音特征。

具体地，语音信息的特征参数包括：梅尔频率倒谱系数(MFCC，Mel FrequencyCepstrum Coefficient)、线性预测倒谱系数(LPCC，Linear Prediction CepstrumCoefficient)、线谱频率(LSF，Linear Spectrum Frequence)、小波变换系数(WTC，WaveletTransform Coefficient)等等。语音特征提取可以通过提取语音信息的一个或多个特征参数，将一个或多个特征参数作为语音信息对应的语音特征。

最后，将语音特征与语音特征模板进行匹配，得到语音特征对应的文本信息。

具体地，将语音信息对应的语音特征分别与语音特征模板中的多个语音特征样本进行匹配；在语音信息对应的语音特征与语音特征模板的语音特征样本相匹配时，将语音特征模板的语音特征样本对应的文本信息样本配置为该语音信息对应的文本信息。

另外，若语音信息对应的语音特征与语音特征模板的语音特征样本不能完全匹配，则获取语音特征样本与语音特征之间的匹配度，并将匹配度最大的语音特征样本对应的文本信息样本配置为语音信息对应的文本信息。

其中，语音特征模板中包括多个语音特征样本，以及各语音特征样本对应的文本信息样本。另外，构建语音特征模板的过程包括：首先，获取多个文本信息样本，并获取文本信息样本对应的语音信息；然后，根据上述过程获取文本信息样本的语音信息对应的语音特征样本；最后，根据文本信息样本和文本信息样本对应的语音特征样本的映射关系构建语音特征模板。

在本公开的示例性实施例中，在获取或显示目标图像或目标视频时，开启录音功能，通过录音功能判断是否存在语音信息，或存在语音信息，在采集语音信息。

在本公开的示例性实施例中，在得到语音信息对应的文本信息之后，对文本信息进行分词处理，以得到一个或多个关键词。分词处理可以包括下述两种方法：

第一种，基于词典的分词。将文本信息按照词典切分成多个词，再将多个词组合。

其中，可以预先构建词典，并对词典中的词根据词性的不同进行标注。在将文本信息按照词典划分为一个或多个关键词之后，也会根据词典中各词的词性得到各关键词的词性。

另外，也可以利用不标注词性的词典对文本信息进行分词处理，在分词处理之后，再对各关键词进行词性识别。

文本信息对应的关键词根据词性的不同可以包括实体分词、描述分词、动词分词等。实体分词表示真实的物体或指代真实的物体的词，比如，名词分词、代词分词，具体可以是“花”、“衣服”、“你”等；描述分词表示物体之间的关系或用于形容物品的词，比如，形容词分词、副词分词，具体可以是“左边”、“漂亮”、“好暗”等。

第二种，基于字的分词。将文本信息分成多个字，再将多个字组合成词，可以根据词典对多个字进行组合。

当然，还可以利用基于统计的分词算法，对文本信息进行分词处理，本公开对分词处理的算法不作具体限定。

继续参照图3所示，在步骤S330中，根据文本信息以及目标图像的特征信息生成指令信息。

在本公开的示例性实施例中，目标图像的特征信息为目标图像中各对象的对象类别和对象位置。图6示出了生成指令信息的方法流程示意图，如图6所示，该流程至少包括步骤S610至步骤S620，详细介绍如下：

在步骤S610中，分别将各对象信息与文本信息进行匹配，根据匹配结果确定目标对象。

在本公开的示例性实施例中，分别将各对象的对象类别和对象位置与文本信息中的实体分词和描述分词进行匹配；在对象的对象类别和对象位置与文本信息中的实体分词和描述分词相匹配时，将该对象确定为目标对象。

具体地，图7示出了根据匹配结果确定目标对象的方法流程示意图，如图7所示，该流程至少包括步骤S710至步骤S740，详细介绍如下：

在步骤S710中，根据对象类别和对象位置确定对象拓扑关系。

在本公开的示例性实施例中，对象位置包括各对象在目标图像中的位置坐标，将任意两个对象的位置坐标相减，以得到两个对象之间的相对位置关系。将各对象的对象类别作为标签，并根据各对象之间的相对位置关系生成对象拓扑关系。

其中，对象拓扑关系中包括各对象的对象类别、各对象的对象位置，以及各对象之间的相对位置关系。该步骤也可以在获取各对象的对象信息之后进行，本公开对此不作具体限定。

在步骤S720中，将与实体分词匹配的对象类别确定为目标对象类别。

在本公开的示例性实施例中，将文本信息中的实体分词与各对象的对象类别进行匹配，在对象的对象类别与实体分词相匹配时，将对象的对象类别确定为目标对象类别。

本实施例是利用语音信息中的实体分词对多个对象类别进行筛选，若语音信息对应的文本信息中存在一个或多个对象类别，则将该一个或多个对象类别确定为目标对象类别。

在步骤S730中，根据目标对象类别在各对象中确定候选对象。

在本公开的示例性实施例中，在目标图像中，一个或多个对象可能对应相同的对象类别。根据上一实施例筛选出的目标对象类别可以进一步对目标图像中的多个对象进行筛选，在对象对应的对象类别为目标对象类别时，将该对象确定为候选对象。

在步骤S740中，根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定目标对象。

在本公开的示例性实施例中，在对象拓扑关系中确定候选对象对应的对象拓扑关系，将文本信息中的描述分词与候选对象对应的对象拓扑关系进行匹配，在描述分词与候选对象对应的对象拓扑关系相匹配时，将候选对象确定为目标对象。

本实施例是利用语音信息中的描述分词对一个或多个候选对象进行筛选，从而在候选对象中确定目标对象，提高了信息获取的准确率。

另外，还可以获取候选对象的数量，在候选对象的数量为单个时，直接将候选对象确定为目标对象，提高信息获取效率，减小系统消耗。

需要说明的是，步骤S710可以在步骤S720之前执行，还可以在步骤S730之后执行，还可以与步骤S720和步骤S730同时执行，本公开对此不作具体限定。

在本公开的示例性实施例中，还可以获取视线信息并确定视线信息对应的注视位置。该注视位置可以是一注视点，还可以是在二维平面上的注视区域。

其中，该视线信息是针对目标图像所生成的，在拍摄目标图像的过程中实时获取视线信息。由于目标图像可以包括多个，则视线信息也包括多个，根据目标图像的拍摄时间和视线信息的获取时间确定目标图像与视线信息之间的关联关系。可以通过移动终端的摄像模组或智慧屏获取用户针对目标图像的视线信息，比如，通过智能头盔或眼镜中的内置摄像模组实时获取用户针对目标图像的视线信息。

具体地，视线信息还可以包括左眼图像、右眼图像、人脸图像以及人脸位置，人脸图像可以提供头部姿态信息，人脸位置可以提供眼睛位置信息，视线信息作为输入，利用注视点估计算法确定该视线信息对应的注视点。另外，还可以将头部图片和头部位置作为输入，确定对应的注视区域等，本公开对注视位置的获取不作具体限定。

在本公开的示例性实施例中，利用视线信息对应的注视区域可以对上述实施例中确定的目标对象进行更为准确的筛选，从而确定出用户最关注的目标对象。图8示出了从候选对象中确定目标对象的方法流程示意图，如图8所示，该流程至少包括步骤S810至步骤S830，详细介绍如下：

在步骤S810中，根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定候选目标对象。

在本公开的示例性实施例中，在候选对象之间的拓扑关系中，与描述分词匹配的候选对象存在多个，则将多个候选对象作为候选目标对象。

在步骤S820中，将候选目标对象的对象位置与注视位置进行匹配。

在本公开的示例性实施例中，获取候选目标对象的对象位置，将候选目标对象的对象位置与注视位置进行匹配。若注视位置为一注视点，则判断注视点是否位于各候选目标对象的对象位置所确定的检测框之内；若注视位置为一注视区域，则计算注视区域与各候选目标对象的对象位置所确定的检测框之间的重合度。

在步骤S830中，在候选目标对象的对象位置与注视位置相匹配时，将候选目标对象确定为目标对象。

在本公开的示例性实施例中，若注视点位于候选目标对象对应的检测框之内，则判定该候选目标对象的对象位置与注视位置相匹配，将该候选目标对象确定为目标对象。另外，也可以通过获取与注视区域重合度最大的检测框所对应的候选目标对象，将该目标候选对象确定为目标对象。

在本公开的示例性实施例中，在获取到目标图像中各对象的对象信息、语音信息对应的文本信息、以及实现信息对应的注视位置之后。还可以先根据各对象的对象信息和注视位置在各对象中确定备选对象，再根据文本信息在备选对象中确定目标对象。

具体地，图9示出了确定目标对象的方法流程示意图，如图9所示，该流程至少包括步骤S910至步骤S930，详细介绍如下：

在步骤S910中，将与注视位置匹配的对象位置确定为目标对象位置。

在本公开的示例性实施例中，将目标图像中各对象的对象位置分别与注视位置进行匹配，在对象的对象位置与注视位置相匹配时，将该对象的对象位置确定为目标对象位置。由于各对象的对象位置存在重叠区域，因此，注视位置可能与多个对象位置相匹配，确定的目标对象位置可能存在多个。

在步骤S920中，根据目标对象位置在各对象中确定备选对象。

在本公开的示例性实施例中，根据目标对象位置，将目标对象位置对应的对象确定为备选对象。

在步骤S930中，将各备选对象的对象信息与文本信息进行匹配，根据匹配结果确定目标对象。

在本公开的示例性实施例中，上述实施例根据注视位置对多个对象进行了筛选，确定了备选对象。在确定备选对象之后，再将备选对象的对象信息与文本信息进行匹配，在备选对象中确定目标对象。

具体地，首先，将与文本信息中的实体分词匹配的各备选对象确定为目标对象类别；然后，根据目标对象类别在各备选对象中确定候选对象；最后，根据候选对象对应的对象拓扑关系以及文本信息中的描述分词，从候选对象中确定目标对象。

其中，可以根据各对象的对象类别和对象位置确定对象拓扑关系，在各对象的对象拓扑关系中确定候选对象对应的对象拓扑关系。还可以根据备选对象的对象类别和对象位置确定备选对象的对象拓扑关系，在备选对象的对象拓扑关系中确定候选对象对应的对象拓扑关系。

另外，根据备选对象的对象信息与文本信息在备选对象中确定目标对象的详细过程，如上述图7的方法实施例所述，在此不做赘述。

本公开的示例性实施方式中的指令信息获取方法，通过视线信息、语语音信息以及目标图像的特征信息三个模态的特征信息相融合，以确定指令信息，进一步提升了通过语音信息以及目标图像的特征信息确定的指令信息的准确率。

继续参照图6所示，在步骤S620中，根据目标对象的对象信息生成指令信息。

具体地，图10示出了另一生成指令信息的方法流程示意图，如图10所示，该流程至少包括步骤S1010至步骤S1020，详细介绍如下：

在步骤S1010中，根据文本信息确定用户意图信息。

在本公开的示例性实施例中，可以通过文本信息识别用户的用户意图信息。对文本信息进行分词处理，以获得一个或多个关键词；根据第一预设映射关系确定关键词对应的用户意图信息。

具体地，将文本信息对应的一个或多个关键词分别与第一预设映射关系中的关键词相匹配，获取与文本信息中的关键词相匹配的第一预设映射关系中的关键词所对应的用户意图信息。还可以将文本信息中的动词分词和/或形容词分词与第一预设映射关系进行匹配，提高用户意图信息的获取效率。

其中，第一预设映射关系包括关键词与用户意图信息的关联关系。一个关键词可以对应多个用户意图信息，一个用户意图信息也可以对应多个关键词。比如，关键词为“买、想要、好喜欢”，对应的用户意图信息可以为“获取购买链接”；关键词为“什么”，对应的用户意图信息可以为“查询详情信息、获取购买链接”；关键词为“好暗、看不清”，对应的用户意图信息可以为“调节图像的亮度、调节图像的对比度”等等。

在步骤S1020中，并根据目标对象的对象信息以及用户意图信息生成指令信息。

在本公开的示例性实施例中，根据目标对象的对象信息获取目标对象对应的子目标图像，根据目标对象的对象类别、目标对象的子目标图像以及用户意图信息生成指令信息。

在本公开的示例性实施例中，根据指令信息中的用户意图信息获取并显示与目标对象的对象信息相关的对象获取路径。

其中，可以根据目标对象的对象类别和/或目标对象的子目标图像查询目标对象的对象获取路径，并将对象获取路径显示在移动终端的显示屏幕上。比如，若用户意图信息为获取购买链接，则可以将目标对象的对象类别和/或子目标图像输入购买平台，并获取购买平台返回的购买链接。

另外，还可以根据指令信息中的用户意图信息获取并显示与目标对象的对象信息相关的对象详情信息。或根据指令信息中的用户意图信息获取并显示与目标对象的对象信息相关的对象获取路径对象详情信息。

本示例性实施方式中的指令信息获取方法，在用户无法仅仅通过语音信息或目标图像清楚表达需求的情况下，本方案融合了目标图像的特征信息以及语音信息对应的文本信息，得到指令信息，再根据指令信息为用户推荐用户感兴趣的信息。本示例性实施方式可以更准确地确定用户指令信息，从而为用户提供更精准的推荐信息，提升了用户与移动终端的交互体验。

在本公开的示例性实施例中，在目标图像的特征信息为目标图像的图像参数信息时，根据文本信息确定用户意图信息，并根据用户意图信息和图像参数信息生成参数调整信息。

其中，在目标图像的特征信息为目标图像的图像参数信息时，此时的指令信息可以是参数调整信息，移动终端可以根据参数调整信息对目标图像进行参数调整，并在显示屏幕上显示参数调整后的目标图像。

举例而言，目标图像对应的图像参数信息为“亮度值为65”，用户的语音信息对应的文本信息为“拍的好暗”，根据文本信息识别出的用户意图信息为“提高图像的亮度”。根据上述实施例中的指令信息获取方法生成的指令信息可以为“对目标图像进行亮度调节，将目标图像的亮度值提高至65+N”。其中，N为正整数，N的取值可以根据实际场景进行设定，本公开对此不作具体限定。

在本公开的示例性实施例中，在目标图像的特征信息包括目标图像中各对象的对象信息，以及目标图像的图像参数信息时。可以根据文本信息和目标图像的图像参数信息生成参数调整信息；以及根据目标图像中各对象的对象信息和文本信息确定目标对象；根据参数调整信息和目标对象的对象信息生成指令信息。

具体地，根据文本信息和目标图像的图像信息生成参数调整信息，以及根据目标图像中各对象的对象信息和文本信息确定目标对象的方法已在上述实施例中进行详细描述，在此不做赘述。

其中，可以根据目标对象的对象位置获取目标对象对应的子目标图像，再根据参数调整信息对目标对象的子目标图像进行参数调整，并显示参数调整后的目标图像或参数调整后的目标对象的子目标图像。

另外，还可以根据参数调整后的目标对象的子目标图像，获取目标对象的对象获取路径和对象详情信息，并显示目标对象的对象获取路径和对象详情信息。

在本公开的示例性实施例中，目标图像包括多个，则可以根据上述实施例中的方法确定各目标图像对应的备选指令信息，再根据各目标图像的指令信息确定指令信息。具体地，图11示出了又一生成指令信息的方法流程示意图，如图11所示，该流程至少包括步骤S1110至步骤S1130，详细介绍如下：

在步骤S1110中，分别根据各目标图像的特征信息与文本信息确定各目标图像对应的备选指令信息。

在本公开的示例性实施例中，多个目标图像来源于采集的目标视频，分别获取各目标图像的特征信息，并获取目标视频中的语音信息并识别语音信息中的文本信息。多个目标图像可以对应一个语音信息，也可以对应多个语音信息，分别根据各目标图像的特征信息与各目标图像对应的语音信息的文本信息确定多个备选指令信息。

在步骤S1120中，在各目标图像对应的备选指令信息相同时，将备选指令信息配置为指令信息。

在本公开的示例性实施例中，将各目标图像对应的备选指令信息进行匹配，若各目标图像对应的备选指令信息完全匹配，或各备选指令信息之间的匹配度均大于匹配度阈值，则可以将任一备选指令信息配置为指令信息。其中，匹配度阈值可以根据实际情况进行设定，比如，匹配度阈值可以设置为99％，或可以设置为99.5％等，本公开对此不作具体限定。

在步骤S1130中，在各目标图像对应的备选指令信息不同时，根据各备选指令信息对应的置信度确定指令信息。

在本公开的示例性实施例中，各备选指令信息对应的置信度可以是备选指令信息中的用户意图信息所对应的置信度，也可以是目标对象所对应的置信度，还可以是用户意图信息对应的置信度与目标对象对应的置信度的乘积等，本公开对此不作具体限定。

其中，用户意图信息所对应的置信度可以是文本信息中的关键词与第一预设映射关系中关键词的匹配度，目标对象所对应的置信度可以是目标对象的对象类别或对象位置对应的置信度等，还可以是目标对象的对象信息与文本信息之间的匹配度等。

此外，在本公开的示例性实施方式所提供的指令信息获取方法中，上述语音信息、目标图像或目标视频、视线信息也可以通过智能助手获取，该智能助手可以为在移动终端上运行的一应用程序。同时，出于操作便捷性的考虑，可以预先设置快速启动智能助手功能。比如，可以在移动终端处于息屏状态时，通过点击开机键三次，即可进入智能助手。另外，还可以通过其他快捷方式进入智能助手，本公开对此不作具体限定。

本实施例的指令信息获取方法可以通过快捷方式开启移动终端上的智能助手，简化了开启智能助手的繁琐步骤，使得智能助手的开启更加智能迅速、便捷和准确。

下面结合具体场景对本示例实施方式中的指令信息获取方法进行详细的说明，图12示出了本公开的一具体实施例的指令信息获取的方法流程示意图，如图12所示：在步骤S1201中，获取目标图像，对目标图像进行对象提取，并获取各对象的对象信息，其中，对象信息包括对象类别和对象位置；在步骤S1203中，根据各对象的对象类别和对象位置确定对象拓扑关系；在步骤S1205中，获取与目标图像相关联的语音信息，并确定语音信息对应的文本信息，其中，文本信息包括实体分词和描述分词；在步骤S1207中，对文本信息进行分词处理，以得到一个或多个关键词，其中，关键词包括实体分词和描述分词；在步骤S1209中，将与实体分词匹配的对象类别确定为目标对象类别；在步骤S1211中，根据目标对象类别在各对象中确定候选对象；在步骤S1213中，根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定目标对象；在步骤S1215中，根据文本信息确定用户意图信息；在步骤S1217中，根据目标对象的对象信息以及用户意图信息生成指令信息。

下面结合另一具体场景对本示例实施方式中的指令信息获取方法进行详细的说明，图13示出了本公开的一具体实施例的指令信息获取的方法流程示意图，如图13所示：在步骤S1301中，获取目标图像，对目标图像进行对象提取，并获取各对象的对象信息，其中，对象信息包括对象类别和对象位置；在步骤S1303中，获取与目标图像相关联的语音信息，并确定语音信息对应的文本信息，其中，文本信息包括实体分词和描述分词；在步骤S1305中，对文本信息进行分词处理，以得到一个或多个关键词，其中，关键词包括实体分词和描述分词；在步骤S1307中，获取与目标图像相关联的视线信息，并确定视线信息对应的注视位置；在步骤S1309中，将与注视位置匹配的对象位置确定为目标对象位置；在步骤S1311中，根据目标对象位置在各对象中确定备选对象；在步骤S1313中，根据各备选对象的对象类别和对象位置确定备选对象拓扑关系；在步骤S1315中，将与实体分词匹配的对象类别确定为目标对象类别；在步骤S1317中，根据目标对象类别在各备选对象中确定候选对象；在步骤S1319中，根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定目标对象；在步骤S1321中，根据文本信息确定用户意图信息；在步骤S1323中，根据目标对象的对象信息以及用户意图信息生成指令信息。

下面结合又一具体场景对本示例实施方式中的指令信息获取方法进行详细的说明，图14示出了本公开的一具体实施例的指令信息获取的方法流程示意图，如图14所示：在步骤S1401中，获取目标图像，对目标图像进行对象提取，并获取各对象的对象信息，其中，对象信息包括对象类别和对象位置；在步骤S1403中，根据各对象的对象类别和对象位置确定对象拓扑关系；在步骤S1405中，获取与目标图像相关联的语音信息，并确定语音信息对应的文本信息，其中，文本信息包括实体分词和描述分词；在步骤S1407中，对文本信息进行分词处理，以得到一个或多个关键词，其中，关键词包括实体分词和描述分词；在步骤S1409中，获取与目标图像相关联的视线信息，并确定视线信息对应的注视位置；在步骤S1411中，将与实体分词匹配的对象类别确定为目标对象类别；在步骤S1413中，根据目标对象类别在各对象中确定候选对象；在步骤S1415中，根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定候选目标对象；在步骤S1417中，将候选目标对象的对象位置与注视位置相匹配；在步骤S1419中，在候选目标对象的对象位置与注视位置相匹配时，将候选目标对象确定为目标对象；在步骤S1421中，根据文本信息确定用户意图信息；在步骤S1423中，根据目标对象的对象信息以及用户意图信息生成指令信息。

举例而言，目标图像如图15所示，根据目标检测算法识别目标图像1500，目标图像1500中包括4个对象，4个对象的对象类别分别是“花”、“花盆1”、“花盆2”、“饮水机”；用户的语音信息对应的文本信息为“我想买左边那个花盆”，通过文本信息识别出用户意图信息为“获取购买路径”。以及获取到用户针对目标图像1500的注视位置1501。

在获取到目标图像1500中对象的对象类别和对象位置之后，根据对象类别和对象位置确定对象拓扑关系为：“图像的最左边是盆花”“花的下面是花盆1”“图像的最右边是饮水机”“饮水机的左边是花盆2”。

首先，将文本信息进行分词处理后，得到名词分词“花盆”，得到副词分词“左边”“那个”；

然后，将名词分词与对象类别进行匹配，确定目标对象类别“花盆”，将确定候选对象为“花盆1”和“花盆2”，将候选对象对应的对象拓扑关系与副词分词进行匹配，候选目标对象为“花盆1”和“花盆2”；

接着，将候选目标对象“花盆1”和“花盆2”的对象位置与注视位置进行匹配，确定用户最关注的目标对象为“花盆1”。

最后，生成指令信息“搜索花盆1的同款”，则移动终端将“花盆1”对应的子目标图像发送至相应的购物网站，以得到与“花盆1”相关的同款购物链接。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

以下介绍本公开的装置实施例，可以用于执行本公开上述的指令信息获取方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的指令信息获取方法的实施例。

图16示意性示出了根据本公开的一个实施例的指令信息获取装置的框图。

参照图16所示，根据本公开的一个实施例的指令信息获取装置1600，指令信息获取装置1600包括：图像信息提取模块1601、文本信息获取模块1602、以及指令信息生成模块1603。具体地：

图像信息提取模块1601，用于获取目标图像并对目标图像进行信息提取，以得到目标图像的特征信息；

文本信息获取模块1602，用于获取语音信息并识别语音信息对应的文本信息，其中，语音信息为与目标图像相关联的信息；

指令信息生成模块1603，用于根据文本信息以及目标图像的特征信息生成指令信息。

在本公开的示例性实施例中，图像信息提取模块1601，还可以用于对目标图像进行对象提取，获取目标图像中各对象的对象信息。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于分别将各对象信息与文本信息进行匹配，根据匹配结果确定目标对象；根据目标对象的对象信息生成指令信息。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于根据对象类别和对象位置确定对象拓扑关系；将与实体分词匹配的对象类别确定为目标对象类别；根据目标对象类别在各对象中确定候选对象；根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定目标对象。其中，对象信息包括对象类别和对象位置，文本信息包括实体分词以及描述分词。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于获取视线信息并确定视线信息对应的注视位置；根据候选对象对应的对象拓扑关系以及描述分词，从候选对象中确定候选目标对象；将候选目标对象的对象位置与注视位置进行匹配；在候选目标对象的对象位置与注视位置相匹配时，将候选目标对象确定为目标对象。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于将与注视位置匹配的对象位置确定为目标对象位置；根据目标对象位置在各对象中确定备选对象；将各备选对象的对象信息与文本信息进行匹配，根据匹配结果确定目标对象。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于根据文本信息确定用户意图信息；并根据目标对象的对象信息以及用户意图信息生成指令信息。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于对文本信息进行分词处理，以获得一个或多个关键词；根据第一预设映射关系确定关键词对应的用户意图信息，第一预设映射关系包括关键词与用户意图信息的关联关系。

在本公开的示例性实施例中，图像信息提取模块1601，还可以用于获取各对象的对象位置、各对象的第一预测类别，以及第一预测类别对应的第一置信度；根据对象位置获取各对象的特征向量，并根据第二预设映射关系确定各对象的第二预测类别以及第二预测类别对应的第二置信度；根据第一预测类别和第二预测类别，以及第一预测类别对应的第一置信度和第二预测类别对应的第二置信度确定各对象的对象类别；其中，第二预设映射关系包括特征向量与第二预测类别的关联关系。

在本公开的示例性实施例中，图像信息提取模块1601，还可以用于根据对象位置对目标图像进行裁剪，以得到与各对象对应的子目标图像；对子目标图像进行特征提取，以得到各对象的特征向量。

在本公开的示例性实施例中，图像信息提取模块1601，还可以用于判断第一预测类别与第二预测类别是否相同；在第一预测类别与第二预测类别相同时，将第一预测类别配置为各对象的对象类别；在第一预测类别与第二预测类别不同时，判断第一置信度是否大于第二置信度，根据判断结果确定各对象的对象类别。

在本公开的示例性实施例中，图像信息提取模块1601，还可以用于在第一置信度大于第二置信度时，将第一预测类别配置为各对象的对象类别；在第一置信度小于等于第二置信度时，将第二预测类别配置为各对象的对象类别。

在本公开的示例性实施例中，图像信息提取模块1601，还可以用于对目标图像进行信息提取，以得到目标图像的图像参数信息。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于根据文本信息确定用户意图信息；并根据用户意图信息和图像参数信息生成参数调整信息。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于根据文本信息和目标图像的图像参数信息生成参数调整信息；以及根据目标图像中各对象的对象信息和文本信息确定目标对象；根据参数调整信息和目标对象的对象信息生成指令信息。。

在本公开的示例性实施例中，指令信息生成模块1603，还可以用于分别根据各目标图像的特征信息与文本信息确定各目标图像对应的备选指令信息；在各目标图像对应的备选指令信息相同时，将备选指令信息配置为指令信息；在各目标图像对应的备选指令信息不同时，根据各备选指令信息对应的置信度确定指令信息。其中，目标图像包括多个。

在本公开的示例性实施例中，指令信息获取装置还可以包括信息显示模块(图中未示出)，该信息显示模块用于根据指令信息中的用户意图信息获取并显示与目标对象的对象信息相关的对象获取路径；和/或根据指令信息中的用户意图信息获取并显示与目标对象的对象信息相关的对象详情信息。

在本公开的示例性实施例中，信息显示模块还可以用于根据参数调整信息对目标图像进行参数调整，并显示参数调整后的目标图像。

上述指令信息获取装置中各模块的具体细节在指令信息获取方法部分实施方式中已经详细说明，未披露的细节内容可以参见指令信息获取方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在移动终端上运行时，程序代码用于使移动终端执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3至图14中任意一个或多个步骤。

本公开的示例性实施方式还提供了一种用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在移动终端，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种指令信息获取方法，其特征在于，包括：

获取目标图像并对所述目标图像进行信息提取，以得到所述目标图像的特征信息；以及

获取语音信息并识别所述语音信息对应的文本信息，其中，所述语音信息为与所述目标图像相关联的信息；

根据所述文本信息以及所述目标图像的特征信息生成指令信息。

2.根据权利要求1所述的指令信息获取方法，其特征在于，对所述目标图像进行信息提取，以得到所述目标图像的特征信息，包括：

对所述目标图像进行对象提取，获取所述目标图像中各对象的对象信息。

3.根据权利要求2所述的指令信息获取方法，其特征在于，根据所述文本信息以及所述目标图像的特征信息生成指令信息，包括：

分别将各所述对象信息与所述文本信息进行匹配，根据匹配结果确定目标对象；

根据所述目标对象的对象信息生成所述指令信息。

4.根据权利要求3所述的指令信息获取方法，其特征在于，所述对象信息包括对象类别和对象位置，所述文本信息包括实体分词以及描述分词；

分别将各所述对象信息与所述文本信息进行匹配，根据匹配结果确定目标对象，包括：

根据所述对象类别和所述对象位置确定对象拓扑关系；

将与所述实体分词匹配的对象类别确定为目标对象类别；

根据所述目标对象类别在各所述对象中确定候选对象；

根据所述候选对象对应的对象拓扑关系以及所述描述分词，从所述候选对象中确定目标对象。

5.根据权利要求4所述的指令信息获取方法，其特征在于，根据所述候选对象对应的对象拓扑关系以及所述描述分词，从所述候选对象中确定目标对象，包括：

获取视线信息并确定所述视线信息对应的注视位置；

根据所述候选对象对应的对象拓扑关系以及所述描述分词，从所述候选对象中确定候选目标对象；

将所述候选目标对象的对象位置与所述注视位置进行匹配；

在所述候选目标对象的对象位置与所述注视位置相匹配时，将所述候选目标对象确定为所述目标对象。

6.根据权利要求3所述的指令信息获取方法，其特征在于，分别将各所述对象信息与所述文本信息进行匹配，根据匹配结果确定目标对象，包括：

将与注视位置匹配的对象位置确定为目标对象位置；

根据所述目标对象位置在各所述对象中确定备选对象；

将各所述备选对象的对象信息与所述文本信息进行匹配，根据匹配结果确定所述目标对象。

7.根据权利要求3所述的指令信息获取方法，其特征在于，根据所述目标对象的对象信息生成所述指令信息，包括：

根据所述文本信息确定用户意图信息；

并根据所述目标对象的对象信息以及用户意图信息生成所述指令信息。

8.根据权利要求7所述的指令信息获取方法，其特征在于，根据所述文本信息确定用户意图信息，包括：

对所述文本信息进行分词处理，以获得一个或多个关键词；

根据第一预设映射关系确定所述关键词对应的用户意图信息，所述第一预设映射关系包括所述关键词与所述用户意图信息的关联关系。

9.根据权利要求7所述的指令信息获取方法，其特征在于，所述方法还包括：

根据所述指令信息中的用户意图信息获取并显示与所述目标对象的对象信息相关的对象获取路径；和/或

根据所述指令信息中的用户意图信息获取并显示与所述目标对象的对象信息相关的对象详情信息。

10.根据权利要求2所述的指令信息获取方法，其特征在于，获取所述目标图像中各对象的对象信息，包括：

获取各所述对象的对象位置、各所述对象的第一预测类别，以及所述第一预测类别对应的第一置信度；

根据所述对象位置获取各所述对象的特征向量，并根据第二预设映射关系确定各所述对象的第二预测类别以及所述第二预测类别对应的第二置信度；

根据所述第一预测类别和所述第二预测类别，以及所述第一预测类别对应的第一置信度和所述第二预测类别对应的第二置信度确定各所述对象的对象类别；

其中，所述第二预设映射关系包括所述特征向量与所述第二预测类别的关联关系。

11.根据权利要求10所述的指令信息获取方法，其特征在于，根据所述对象位置获取各所述对象的特征向量，包括：

根据所述对象位置对所述目标图像进行裁剪，以得到与各所述对象对应的子目标图像；

对所述子目标图像进行特征提取，以得到各所述对象的特征向量。

12.根据权利要求11所述的指令信息获取方法，其特征在于，根据所述第一预测类别和所述第二预测类别，以及所述第一预测类别对应的第一置信度和所述第二预测类别对应的第二置信度确定各所述对象的对象类别，包括：

判断所述第一预测类别与所述第二预测类别是否相同；

在所述第一预测类别与所述第二预测类别相同时，将所述第一预测类别或所述第二预测类别配置为各所述对象的对象类别；

在所述第一预测类别与所述第二预测类别不同时，判断所述第一置信度是否大于所述第二置信度，根据判断结果确定各所述对象的对象类别。

13.根据权利要求12所述的指令信息获取方法，其特征在于，根据判断结果确定各所述对象的对象类别，包括：

在所述第一置信度大于所述第二置信度时，将所述第一预测类别配置为各所述对象的对象类别；

在所述第一置信度小于等于所述第二置信度时，将所述第二预测类别配置为各所述对象的对象类别。

14.根据权利要求1所述的指令信息获取方法，其特征在于，对所述目标图像进行特征信息提取，包括：

对所述目标图像进行信息提取，以得到所述目标图像的图像参数信息。

15.根据权利要求14所述的指令信息获取方法，其特征在于，根据所述文本信息以及所述目标图像的特征信息生成指令信息，包括：

根据所述文本信息确定用户意图信息；

并根据所述用户意图信息和所述图像参数信息生成参数调整信息。

16.根据权利要求15所述的指令信息获取方法，其特征在于，所述方法还包括：

根据所述参数调整信息对所述目标图像进行参数调整，并显示参数调整后的目标图像。

17.根据权利要求1所述的指令信息获取方法，其特征在于，根据所述文本信息以及所述目标图像的特征信息生成指令信息，包括：

根据所述文本信息和所述目标图像的图像参数信息生成参数调整信息；以及

根据所述目标图像中各对象的对象信息和所述文本信息确定目标对象；

根据所述参数调整信息和所述目标对象的对象信息生成所述指令信息。

18.根据权利要求1所述的指令信息获取方法，其特征在于，所述目标图像包括多个；

根据所述文本信息以及所述目标图像的特征信息生成指令信息，包括：

分别根据各所述目标图像的特征信息与所述文本信息确定各所述目标图像对应的备选指令信息；

在各所述目标图像对应的备选指令信息相同时，将所述备选指令信息配置为所述指令信息；

在各所述目标图像对应的备选指令信息不同时，根据各所述备选指令信息对应的置信度确定所述指令信息。

19.一种指令信息获取装置，其特征在于，包括：

图像信息提取模块，用于获取目标图像并对所述目标图像进行信息提取，以得到所述目标图像的特征信息；

文本信息获取模块，用于获取语音信息并识别所述语音信息对应的文本信息，其中，所述语音信息为与所述目标图像相关联的信息；

指令信息生成模块，用于根据所述文本信息以及所述目标图像的特征信息生成指令信息。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至18中任一项所述的指令信息获取方法。

21.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至18中任一项所述的指令信息获取方法。