CN110765294B

CN110765294B - 图像搜索方法、装置、终端设备及存储介质

Info

Publication number: CN110765294B
Application number: CN201911024920.6A
Authority: CN
Inventors: 潘晟锋; 袁小薇
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-03-12
Anticipated expiration: 2039-10-25
Also published as: CN110765294A

Abstract

本申请实施例提供了一种图像搜索方法、装置、终端设备及存储介质。本方法通过获取在人机交互界面输入的交互信息，继而识别多个子信息各自对应的图像搜索指令，得到多个图像搜索指令，再对多个图像搜索指令进行排序，其中，不同的图像搜索指令对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应，然后搜索与排序后的多个图像搜索指令逐级匹配的目标图像，在搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，最后输出目标图像。通过上述方式实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。

Description

图像搜索方法、装置、终端设备及存储介质

技术领域

本申请涉及图像搜索技术领域，更具体地，涉及一种图像搜索方法、装置、终端设备及存储介质。

背景技术

随着现代通信技术和多媒体技术的广泛应用和互联网广泛普及，数字图像的数量出现了巨量的增长。面对如此海量的图像数据，如何快速且准确在医学、交通、购物等领域进行图像检索，这是近20年来研究的热点。现有的图像搜索的方式不够智能，搜索方式单一，缺乏趣味性或是灵活性，需要人工操作多。

发明内容

鉴于上述问题，本申请提出了一种图像搜索方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种图像搜索方法，该方法包括：获取在人机交互界面输入的交互信息，所述交互信息包括多个子信息；识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令；对所述多个图像搜索指令进行排序，其中，不同的所述图像搜索指令对应不同的所述用户搜索意图，所述图像搜索指令的排列顺序与所述用户搜索意图的优先级对应；搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，在所述搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础；输出所述目标图像。

进一步的，所述对所述多个图像搜索指令进行排序，包括：通过所述交互信息获取用户的搜索意图；获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级；基于所述优先级对所述多个图像搜索指令进行排序。

进一步的，所述获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级，包括：获取与所述用户的搜索意图对应的场景模式；根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

进一步的，所述根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级，包括：若所述场景模式为第一场景模式，将预先设定的所述多个图像搜索指令对应的优先级作为与所述多个图像搜索指令分别对应的所述搜索意图的优先级，其中，第一场景模式中存储有多个图像搜索指令与优先级的对应关系；若所述场景模式为第二场景模式，分别获取所述多个图像搜索指令与所述用户的搜索意图之间的匹配度，所述匹配度越高的图像搜索指令与所述用户的搜索意图越接近，基于所述匹配度确定与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

进一步的，所述优先级包括第一优先级以及第二优先级，所述搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，包括：搜索与所述第一优先级对应的搜索意图匹配的图像，并将所述图像作为第一目标图像；搜索所述第一目标图像中，与所述第二优先级对应的搜索意图匹配的图像并将所述图像作为与排序后的所述多个图像搜索指令逐级匹配的目标图像。

进一步的，所述多个子信息包括表情信息、姿态信息以及语音信息，所述识别所述多个子信息各自对应的图像搜索指令，包括：通过预设的情感识别模型对所述表情信息所关联的情感特征进行识别，得到情感图像搜索指令；通过预设的动作识别模型对所述姿态信息所关联的动作特征进行识别，得到姿态图像搜索指令；以及通过预设的语音识别模型对所述语音信息所关联的语音特征进行识别，得到语音图像搜索指令。

进一步的，所述方法还包括：判断是否接收到所述多个子信息的更新指令；若是，所述搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，包括：搜索与更新后的所述多个图像搜索指令的排列顺序逐级匹配的目标图像。

第二方面，本申请实施例提供了一种图像搜索装置，该装置包括：获取模块，用于获取在人机交互界面输入的交互信息，所述交互信息包括多个子信息；识别模块，用于识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令；排序模块，用于对所述多个图像搜索指令进行排序，其中，不同的所述图像搜索指令对应不同的所述用户搜索意图，所述图像搜索指令的排列顺序与所述用户搜索意图的优先级对应；搜索模块，用于搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，在所述搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础；输出模块，用于输出所述目标图像。

进一步的，所述排序模块具体可以用于通过所述交互信息获取用户的搜索意图；获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级；基于所述优先级对所述多个图像搜索指令进行排序。其中，所述获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级，包括：获取与所述用户的搜索意图对应的场景模式；根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

进一步的，所述优先级包括第一优先级以及第二优先级，所述搜索模块具体可以用于搜索与所述第一优先级对应的搜索意图匹配的图像，并将所述图像作为第一目标图像；搜索所述第一目标图像中，与所述第二优先级对应的搜索意图匹配的图像并将所述图像作为与排序后的所述多个图像搜索指令逐级匹配的目标图像。

进一步的，所述多个子信息包括表情信息、姿态信息以及语音信息，所述识别模块具体可以用于通过预设的情感识别模型对所述表情信息所关联的情感特征进行识别，得到情感图像搜索指令；通过预设的动作识别模型对所述姿态信息所关联的动作特征进行识别，得到姿态图像搜索指令；以及通过预设的语音识别模型对所述语音信息所关联的语音特征进行识别，得到语音图像搜索指令。

进一步的，所述装置还可以包括更新判断单元，所述更新判断单元可以用于判断是否接收到所述多个子信息的更新指令。可选的，若是，那么在这种方式下，搜索模块具体可以用于搜索与更新后的所述多个图像搜索指令的排列顺序逐级匹配的目标图像。

第三方面，本申请实施例提供了一种终端设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种图像搜索方法、装置、终端设备及存储介质。本方法通过获取在人机交互界面输入的交互信息，交互信息包括多个子信息，继而识别多个子信息各自对应的图像搜索指令，得到多个图像搜索指令，再对多个图像搜索指令进行排序，其中，不同的图像搜索指令对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应，然后搜索与排序后的多个图像搜索指令逐级匹配的目标图像，在搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，最后输出目标图像。通过上述方式实现了在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，然后搜索并输出与排序后的多个图像搜索指令逐级匹配的目标图像，实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的图像搜索方法的方法流程图。

图3示出了本申请另一实施例提供的图像搜索方法的方法流程图。

图4示出了图3中的步骤S240的方法流程图。

图5示出了本申请又一实施例提供的图像搜索方法的方法流程图。

图6示出了本申请再一实施例提供的图像搜索方法的方法流程图。

图7示出了本申请实施例提供的图像搜索装置的结构框图。

图8示出了本申请实施例的用于执行根据本申请实施例的图像搜索方法的终端设备的结构框图。

图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图像搜索方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用，人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环以及AI(Artificial Intelligence，人工智能)应用最成熟的技术之一，在营销客服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如，智能图像搜索。

作为一种方式，可以通过对用户输入的搜索语音进行语音识别，以将搜索语音转换成文字，并分析出其中的关键字，然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果，并将搜索结果以图片、动画或视频等形式展现给用户。然而，在利用语音进行图像搜索时，通常会出现因语音内容识别度不高导致搜索变慢且搜索结果不准确。

发明人在研究中发现，可结合用户的说话习惯，通过获取在人机交互界面输入的交互信息，交互信息包括多个子信息(例如，用户说话时的语音信息、表情信息、姿态信息等)，继而识别多个子信息各自对应的图像搜索指令，得到多个图像搜索指令，再对多个图像搜索指令进行排序，其中，不同的图像搜索指令对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应，然后搜索与排序后的多个图像搜索指令逐级匹配的目标图像，在搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，最后输出目标图像，可以实现在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，然后搜索并输出与排序后的多个图像搜索指令逐级匹配的目标图像，实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。因此提出了本申请实施例中的图像搜索方法、装置、终端设备及存储介质。

为了便于更好的理解本申请实施例提供的图像搜索方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的图像搜索方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头，摄像头可设置于终端设备101配有显示屏的一面，可选的，终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是，通过摄像头可采集用户的图像数据，图像数据中包括用户的姿态信息以及表情信息，以辅助用于准确识别用户的搜索意图。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音数据或图像数据等等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的图像搜索方法、装置、终端设备及存储介质进行详细说明。

如图2所示，示出了本申请一实施例提供的图像搜索方法的方法流程图。本实施例提供的图像搜索方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，图像搜索方法可应用于如图7所示的搜索装置500以及图8所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的图像搜索方法具体地可以包括以下步骤：

步骤S110：获取在人机交互界面输入的交互信息。

随着社会科技的发展，通过语音进行智能搜索已不能完全满足用户的搜索需求，例如，用户在进行图像搜索时，遇到了自己没见过的事物时，可能用语音表达为“帮我搜索一下那个”，“那个”即为用户想要搜索的物体。而对于机器而言，并不能准确的获取用户的搜索意图，那么在这种方式下，为了提高搜索的准确度，可以将搜索模式配置为“多模态搜索”，即不仅可以用语音进行搜索，同时还可以用表情、动作姿态等辅助表达用户的搜索需求。可选的，可以设定多模态搜索功能选择控件，当用户触控多模态搜索功能选择控件时，电子设备可以响应用户的多模态搜索指令，在这种情况下，可以获取在人机交互界面输入的交互信息。

其中，本实施例中的交互信息可以包括多个子信息，多个子信息可以包括语音信息、表情信息、姿态信息以及唇语信息等。可选的，可以同时获取至少一种交互信息，以便于可以提高对用户的搜索意图判断的准确性。例如，可以获取用户的语音信息与表情信息，获取用户的语音信息与姿态信息，或者是获取用户的语音信息、表情信息以及姿态信息等，也可以是获取更多的交互信息，在此不作限定。

可选的，对于表情信息以及姿态信息，可以通过电子设备的图像识别功能获取，例如，可以通过电子设备的摄像头(包括前置摄像头或是后置摄像头等)获取用户的表情信息(即用户在搜索图像时的表情信息)或是姿态信息(即用户在搜索图像时的姿态信息)。可选的，本实施例中，可以在判定用户输入的语音信息不能清晰的表达用户的搜索意图的情况下，获取用户的表情信息或者是姿态信息。作为一种方式，可以通过检测用户的语音信息中是否存在指代不明的关键字，或者语音信息是否存在间隔时间较大的停顿(例如，语音信息的前后关键字之间停顿超过10秒、20秒或30秒等，具体数值可以不作限定)。可选的，若语音信息中存在类似于“这个”、“那个”、“这些”、“那些”、“旁边的”等指代不明确的搜索关键字(词)，或者是语音信息存在较大的时间间隔的情况下，可以获取用户的表情信息或者是姿态信息等。

可选的，本实施例中，语音信息具体可以包括语音所属的语言(例如，可以是普通话、四川话、河南话、山东话、上海话、粤语等)、语种(例如，可以是英语、德语、法语、俄语、韩国话、日本话等)、以及语音信息所表征的用户行为的具体内容(例如，用于搜索图像的语音信息)等。不同用户的语音信息可以不同。

作为一种方式，可以获取用户通过人机交互界面实时输入的语音信息。可选的，可以是用户在人机交互界面通过终端设备的语音输入功能输入的语音信息。例如，在一个具体的应用场景中，可以通过终端设备中安装的语音助手、语音SDK(Software DevelopmentKit，软件开发工具包)或是语音识别引擎应用程序等采集用户输入的语音信息。可选的，该种方式下的语音信息可以是当前通过终端设备的人机交互界面与终端设备进行交互的用户的语音信息，或者可以是用户在通过终端设备进行通话过程中获取到的用户的语音信息。

作为另一种方式，可以在终端设备的人机交互界面设置语音信息的选择控件，用户通过该控件可以选择导入预先存储的语音信息作为在人机交互界面输入的语音信息。其中，预先存储的语音信息可以是用户通过终端设备的语音录制功能预先录入的语音信息(例如，预先录入的一句话、一段话或音频等)，或者可以是用户历史搜索记录中缓存的语音信息，或者是用户从网络上下载的语音信息(例如，从抖音APP上下载保存的某段用户感兴趣的语音信息)，或者也可以是用户通过语音处理软件将自己的语音信息与用户感兴趣的某位艺人、网络用户的语音进行合成后的语音信息等，对于语音信息的格式、内容以及来源不作限定。

可选的，对于获取到的用户的语音信息，终端设备可以将这些语音信息进行存储，继而判断语音信息中是否包括用于图像搜索的关键字，其中，用于图像搜索的关键字可以预先定义，以便于终端设备可以通过识别语音信息中是否包括预先定义的图像搜索关键字，进而将对应的语音信息加入待搜索图像队列。

可选的，为了进一步的减少数据冗余，终端设备也可以在获取了用户的语音信息的情况下，判断语音信息是否用于图像搜索，若是用于图像搜索，那么可以获取对应的语音信息并将这些语音信息作为在人机交互界面输入的语音信息；而若该语音信息不是用于图像搜索，那么将舍弃这些语音信息，或者提示用户重新输入语音信息。可选的，可以通过判断语音信息中是否包括预先定义的图像搜索关键字来判断语音信息是否用于图像搜索。可以理解的是，若包括，那么可以判定语音信息是用于图像搜索；而若不包括，那么可以判定语音信息不是用于图像搜索。

作为一种实施方式，终端设备可以实时监测安装的搜索类应用程序的搜索指令是否被触发。可选的，若监测到搜索指令被触发，那么为了减少长时间获取语音信息带来的功耗问题，可以在监测到搜索类应用程序的搜索指令被触发时，开始获取用户在人机交互界面输入的语音信息。

步骤S120：识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令。

其中，可以设置与本申请实施例中的多个子信息各自对应的图像搜索指令，例如，若子信息为语音信息，那么对应的图像搜索指令可以为语音图像搜索指令；若子信息为表情信息，那么图像搜索指令可以为与表情信息关联的情感图像搜索指令；若子信息为姿态信息，那么图像搜索指令可以为与姿态信息关联的动作图像搜索指令。不同的子信息可以对应不同的图像搜索指令，通过对多个子信息进行识别，可以得到多个图像搜索指令。

作为一种方式，可以通过预设的情感识别模型对与表情信息所关联的情感特征进行识别，得到情感图像搜索指令；通过预设的动作识别模型对与姿态信息所关联的动作特征进行识别，得到姿态图像搜索指令；以及通过预设的语音识别模型对与语音信息所关联的语音特征进行识别，得到语音图像搜索指令。

步骤S130：对所述多个图像搜索指令进行排序。

需要说明的是，本实施例中，不同的图像搜索指令可以对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应。可以对多个图像搜索指令进行排序，使得更加匹配用户的搜索需求，得到更加满足用户的搜索需求的图像搜索结果。

可以理解的是，在不同的搜索场景下用户的搜索需求可以不同。可选的，对于同一用户，在不同的场景下的搜索需求可以不同；对于不同的用户，在同一场景下的搜索需求也可以不同。那么，为了更好的适应用户的搜索需求，作为一种方式，可以对用户进行搜索时在人机交互界面的多模态信息(包括表情信息、姿态信息以及语音信息等)进行判断，进而将与多模态信息分别对应的图像搜索指令进行排序。

例如，在一个具体的应用场景中，假设场景为视频播放场景，用户在看某一段视频时，看到婴儿用品的广告突然想起来自己也需要买婴儿用品。在这种情况下，该用户可以通过人机交互界面进行婴儿用品搜索，而用户对于当前所处位置周围环境不熟悉，那么在该种方式下，用户可能指着马路对面慌张的问“那边有没有婴儿用品卖”。假设对于“那边有没有婴儿用品卖”这句语音信息，用户的表情“慌张”对应的图像搜索指令为情绪图像搜索指令，与语音信息中的搜索关键词“婴儿用品”对应的图像搜索指令为语音图像搜索指令，与语音信息中的方位词(用户是用手指着那边的)“那边”对应的图像搜索指令为姿态图像搜索指令。

在这种情况下，用户的表情是慌张的，可以判定用户很着急，那么可以推断为用户的第一搜索意图(需要说明的是，此处的第一搜索意图指的是用户当前最在意的搜索意图，在不同的场景下，此处的第一搜索意图也可以是排序在后的搜索意图)是希望卖婴儿用品的位置越近越好，在这种方式下，可以将与用户的表情信息对应的情绪图像搜索指令判定为最高优先级；其次是婴儿用品这个品类，用户需要购买的是婴儿用品(即用户的第二搜索意图是婴儿用品)而不是其他物品，那么可以将婴儿用品对应的语音图像搜索指令判定为第二优先级(即仅次于情绪图像搜索指令的优先级)；然后再考虑方向，由于用户是在问路(即用户的第三搜索意图为卖婴儿用品的位置距离当前位置的路线)，可能不熟悉周围环境，那么他手所指的方向的相反方向可能也有婴儿用品卖，可以将与用户的手指方向“那边”对应的姿态图像搜索指令判定为最低优先级，那么可以得到多个图像搜索指令的优先级排列顺序为“情绪图像搜索指令>语音图像搜索指令>姿态图像搜索指令”。

通过对用户在人机交互界面的用于搜索的交互信息的分析，可以得到多个图像搜索指令的排列顺序(即多个图像搜索指令的优先级)，以便于可以快速搜索出符合用户的搜索需求的图像，提升用户体验。

步骤S140：搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像。

需要说明的是，在对多个图像搜索指令进行排序后，在搜索过程中，可以将搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，可以避免每次搜索时都要从大量的(数以万计的)搜索结果中进行筛选，可以实现减小搜索规模，从而加快搜索速度。

可选的，可以预先定义每类图像搜索指令各自对应的图像搜索结果，其中，关于图像搜索结果与图像搜索指令的对应方式可以根据实际情况进行设定。

作为一种方式，假设多个图像搜索指令分别包括：语音图像搜索指令、情感图像搜索指令以及姿态图像搜索指令，多个图像搜索指令之间的优先级为：“语音图像搜索指令>情感图像搜索指令>姿态图像搜索指令”，在通过多个图像搜索指令进行搜索的过程中，可以将在搜索过程中搜索到的与语音图像搜索指令对应的图像搜索结果作为与情感图像搜索指令对应的图像搜索基础，将搜索到的与情感图像搜索指令对应的图像搜索结果作为与姿态图像搜索指令对应的图像搜索基础。通过逐级匹配的方式，将最后搜索到的与姿态图像搜索指令对应的搜索结果作为目标图像，可选的，该目标图像为最能符合用户的搜索需求的图像搜索结果。

其中，对于多个图像搜索指令的优先级的排序方式不作限定，多个图像搜索指令可以包括更多或更少的图像搜索指令。

步骤S150：输出所述目标图像。

可选的，具体的目标图像的输出方式不作限定，例如，可以是以图像、视频、动画等形式输出。

本实施例提供的图像搜索方法，通过获取在人机交互界面输入的交互信息，交互信息包括多个子信息，继而识别多个子信息各自对应的图像搜索指令，得到多个图像搜索指令，再对多个图像搜索指令进行排序，其中，不同的图像搜索指令对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应，然后搜索与排序后的多个图像搜索指令逐级匹配的目标图像，在搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，最后输出目标图像。通过上述方式实现了在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，然后搜索并输出与排序后的多个图像搜索指令逐级匹配的目标图像，实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。

如图3所示，示出了本申请另一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S210：获取在人机交互界面输入的交互信息。

步骤S220：识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令。

步骤S230：通过所述交互信息获取用户的搜索意图。

其中，交互信息包括在人机交互界面接收到的各类用于图像搜索的信息，包括用户的语音信息、姿态信息、表情信息等。不同的交互信息表征用户不同的图像搜索意图，作为一种方式，可以通过交互信息获取用户的搜索意图，以便于可以根据得到的搜索意图实现准确的搜索。

作为一种方式，可以基于与各类交互信息对应的识别模型(具体可以参考前述实施例的步骤S120中的描述，在此不再赘述)通过交互信息获取用户的搜索意图。

步骤S240：获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

本实施例中，图像搜索指令的排列顺序与用户的搜索意图的优先级对应，因而作为一种方式，可以通过获取与多个图像搜索指令分别对应的搜索意图的优先级的方式获取多个图像搜索指令的优先级。可以理解的是，在不同的情况下同一图像搜索指令的排列顺可以不同，例如，对于语音图像搜索指令，在第一场景中，其对应的排列顺序可以为第一，而在第二场景中，其对应的排列顺序可以为第三。关于获取不同场景下与多个图像搜索指令分别对应的搜索意图的优先级的具体描述如下。

作为一种方式，如图4所示，步骤S240可以包括：

步骤S241：获取与所述用户的搜索意图对应的场景模式。

在通过人机交互界面的交互信息获取了用户的搜索意图的情况下，可以进一步的基于交互信息获取与用户的搜索意图对应的场景模式。具体的，可以根据交互信息的内容(例如，交互信息中包括的语音信息的内容，可选的，对于语音信息的内容，可以根据提取的语音信息的关键字，包括搜索目标、方位、数量等关键字)获取与用户的搜索意图对应的场景模式。

可选的，不同的场景模式下可以包括专有的场景关键字。例如，对于教学场景(包括实体教学场景以及网络教学场景)，出现频率较高的关键字(词)可以包括“题型、同学们、课后、解题、记忆力”等，运动场景可以包括关键字(词)“配速、操场、篮球、点位、力度”等，商务交谈场景“咖啡、笔记本、case、PPT、方案”等，旅游场景可以包括关键字(词)“爬山、玩、拍照、缆车、车票、天气”等。那么，可以理解的是，作为一种实施方式，可以根据语音信息中的关键字识别出与用户的搜索意图对应的场景模式。

需要说明的是，对于交互信息中的表情信息以及姿态信息，可以用户辅助判断用户当前所处的场景模式。

步骤S242：根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

作为一种方式，可以预先设定多种场景模式，可选的，多种场景模式中存储有多个图像搜索指令与优先级的对应关系。

作为一种实施方式，若当前所获取的场景模式为第一场景模式(这里可以理解为前述的预先设定的多种场景模式)，那么可以将预先设定的多个图像搜索指令对应的优先级作为与多个图像搜索指令分别对应的搜索意图的优先级，其中，第一场景模式中存储有多个图像搜索指令与优先级的对应关系。

需要说明的是，对于一些场景，可能并不属于预先设定的场景模式，例如，存在突发情况的场景，那么在这种情况下，作为一种实施方式，若当前所获取的场景模式为第二场景模式，那么可以分别获取多个图像搜索指令与用户的搜索意图之间的匹配度，其中，匹配度越高的图像搜索指令与用户的搜索意图越接近，可以基于匹配度确定与多个图像搜索指令分别对应的搜索意图的优先级。

下面以一个具体的示例对上述两种情况进行说明，假设设定的第一场景模式包括“演讲模式”，“演讲模式”可以包括关键字(词)：演讲、主题、题目、文章、听众、感谢等。在一种实现方式中，假设用户在人机交互界面说出的语音信息为“帮我搜一下现在演讲的文章的出处”，然后用户在说话时手指正指向台上演讲的人员，并且脸朝向演讲的位置看去，那么在这种情况下，可以通过对语音信息中的关键字(词)进行提取，通过关键词“演讲、文章”初步判定用户所在的场景为“演讲场景”，可选的，为了增强判断的准确性，可以进一步通过电子设备的图像识别功能采集到的用户的表情信息和/或姿态信息等判断当前的场景模式。可选的，根据前述的“用户在说话时手指正指向台上演讲的人员，并且脸朝向演讲的位置看去”，可以确定，用户的搜索意图为演讲台上演讲的人员演讲的文章，那么可以判定当前所处的模式为演讲模式。那么在这种情况下，可以根据预先设定的“演讲模式”下，多个图像搜索指令的排列顺序获取与多个图像搜索指令分别对应的所述搜索意图的优先级。

在另一种实现方式中，假设用户在人机交互界面说出的语音信息为“帮我搜一下和演讲的这个人长得像的那个明星”，并且用户说话的时候用手比划那个明星的长相特征，脸上露出满足的笑容，那么可以将用户的搜索意图“明星”确定为与用户的搜索意图匹配度最高的搜索意图，即将该用户的表情特征“满足的笑容”关联的情感图像搜索指令对应的优先级确定为最高的优先级。其次可以用户说话时用手比划那个明星的长相特征确定为与用户的搜索意图匹配度第二高的搜索意图，为了保证搜索的准确性，可以将与用户的动作特征“用手比划那个明星的长相特征”关联的姿态图像搜索指令对应的优先级确定为仅次于情感图像搜索指令对应的优先级。类似的，可以将语音信息中的关键词(句)“和演讲的这个人长得像”关联的语音图像搜索指令对应的优先级确定为仅次于姿态图像搜索指令对应的优先级。通过分别获取多个图像搜索指令与用户的搜索意图之间的匹配度，再基于匹配度确定与多个图像搜索指令分别对应的搜索意图的优先级，可以更为准确的搜索出符合用户当前的搜索意图的图像，提升搜索的准确性。

步骤S250：基于所述优先级对所述多个图像搜索指令进行排序。

在获取了多个图像搜索指令分别对应的搜索意图的优先级的情况下，作为一种方式，可以按照搜索意图的优先级对多个图像搜索指令进行排序，即建立搜索意图的优先级与多个图像搜索指令的排列顺序之间的对应关系。例如，若搜索意图的优先级为最高的优先级，那么与该搜索意图对应的图像搜索指令的排列顺序为最靠前。

步骤S260：搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像。

步骤S270：输出所述目标图像。

本实施例提供的图像搜索方法，实现了在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，然后搜索并输出与排序后的多个图像搜索指令逐级匹配的目标图像，实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。

如图5所示，示出了本申请另一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S310：获取在人机交互界面输入的交互信息。

步骤S320：识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令。

步骤S330：通过所述交互信息获取用户的搜索意图。

步骤S340：获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

步骤S350：基于所述优先级对所述多个图像搜索指令进行排序。

步骤S360：搜索与所述第一优先级对应的搜索意图匹配的图像，并将所述图像作为第一目标图像。

其中，搜索意图的优先级可以包括第一优先级以及第二优先级。

作为一种方式，可以搜索与第一优先级对应的搜索意图匹配的图像，并将该图像作为第一目标图像。可选的，第一目标图像可以理解为搜索得到的与第一优先级对应的搜索意图得到的图像搜索结果。

步骤S370：搜索所述第一目标图像中，与所述第二优先级对应的搜索意图匹配的图像并将所述图像作为与排序后的所述多个图像搜索指令逐级匹配的目标图像。

作为一种减小搜索规模的方式，可以搜索第一目标图像中，与第二优先级对应的搜索意图匹配的图像，并将该图像作为与排序后的多个图像搜索指令逐级匹配的目标图像，其中，逐级匹配可以理解为按照优先级的搜索结果逐层进行匹配，目标图像为最终的图像搜索结果。需要说明的是，第二优先级仅作为一种示例，实际实现时可以包括更多的优先级，例如，第三优先级、第四优先级以及第五优先级等，在此不作限定。

步骤S380：输出所述目标图像。

如图6所示，示出了本申请另一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S410：获取在人机交互界面输入的交互信息。

步骤S420：识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令。

步骤S430：对所述多个图像搜索指令进行排序。

步骤S440：判断是否接收到所述多个子信息的更新指令。

可以理解的是，在用户说话的过程中，录入语音信息的过程中，可能对于所想要搜索的目标不是很明确的情况下，可能会多次录入语音信息，即多次重复说话。那么，可以理解的是，对于用户的每一次说话，其说话时的多个子信息对应的图像搜索指令的优先级可能会有变化，那么为了实现更准确的搜索，可以在对多个图像搜索指令进行排序之后，可以判断是否接收到多个子信息的更新指令，以便于在判定接收到多个子信息的更新指令的情况下，再次对多个图像搜索指令进行排序。

步骤S450：搜索与更新后的所述多个图像搜索指令的排列顺序逐级匹配的目标图像。

作为一种方式，若判定接收到多个子信息的更新指令的情况下，可以搜索与更新后的多个图像搜索指令的排列顺序逐级匹配的目标图像，其中，关于具体的搜索方式以及搜索工程可以参考前述实施例中的描述，在此不再赘述。

步骤S460：搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像。

步骤S470：输出所述目标图像。

本实施例提供的图像搜索方法，实现了在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，再判断是否接收到多个子信息的更新指令，然后在判定为接收到多个子信息的更新指令的情况下，搜索并输出与更新后的多个图像搜索指令的排列顺序逐级匹配的目标图像，使得搜索方式更加智能、灵活与富有趣味性。

如图7所示，示出了本申请实施例提供的图像搜索装置500的结构框图，所述装置500运行于具有显示屏或其他音频或图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备，所述装置500包括：

获取模块510，用于获取在人机交互界面输入的交互信息，所述交互信息包括多个子信息。

识别模块520，用于识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令。

可选的，所述多个子信息包括表情信息、姿态信息以及语音信息，所述识别模块520具体可以用于通过预设的情感识别模型对所述表情信息所关联的情感特征进行识别，得到情感图像搜索指令；通过预设的动作识别模型对所述姿态信息所关联的动作特征进行识别，得到姿态图像搜索指令；以及通过预设的语音识别模型对所述语音信息所关联的语音特征进行识别，得到语音图像搜索指令。

排序模块530，用于对所述多个图像搜索指令进行排序，其中，不同的所述图像搜索指令对应不同的所述用户搜索意图，所述图像搜索指令的排列顺序与所述用户搜索意图的优先级对应。

作为一种方式，所述排序模块530具体可以用于通过所述交互信息获取用户的搜索意图；获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级；基于所述优先级对所述多个图像搜索指令进行排序。其中，所述获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级，包括：获取与所述用户的搜索意图对应的场景模式；根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

其中，所述根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级，包括：若所述场景模式为第一场景模式，将预先设定的所述多个图像搜索指令对应的优先级作为与所述多个图像搜索指令分别对应的所述搜索意图的优先级，其中，第一场景模式中存储有多个图像搜索指令与优先级的对应关系；若所述场景模式为第二场景模式，分别获取所述多个图像搜索指令与所述用户的搜索意图之间的匹配度，所述匹配度越高的图像搜索指令与所述用户的搜索意图越接近，基于所述匹配度确定与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

搜索模块540，用于搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，在所述搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础。

可选的，所述优先级可以包括第一优先级以及第二优先级，所述搜索模块540具体可以用于搜索与所述第一优先级对应的搜索意图匹配的图像，并将所述图像作为第一目标图像；搜索所述第一目标图像中，与所述第二优先级对应的搜索意图匹配的图像并将所述图像作为与排序后的所述多个图像搜索指令逐级匹配的目标图像。

可选的，所述装置还可以包括更新判断单元，所述更新判断单元可以用于判断是否接收到所述多个子信息的更新指令。可选的，若是，那么在这种方式下，搜索模块具体可以用于搜索与更新后的所述多个图像搜索指令的排列顺序逐级匹配的目标图像

输出模块550，用于输出所述目标图像。

本实施例提供的图像搜索装置，通过获取在人机交互界面输入的交互信息，交互信息包括多个子信息，继而识别多个子信息各自对应的图像搜索指令，得到多个图像搜索指令，再对多个图像搜索指令进行排序，其中，不同的图像搜索指令对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应，然后搜索与排序后的多个图像搜索指令逐级匹配的目标图像，在搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，最后输出目标图像。通过上述方式实现了在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，然后搜索并输出与排序后的多个图像搜索指令逐级匹配的目标图像，实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。

本申请实施例提供的图像搜索装置用于实现前述方法实施例中相应的图像搜索方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的图像搜索装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图8，其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件：处理器1012、存储器1014以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分，通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集，以及调用存储在存储器1014内的数据，执行终端设备101的各种功能和处理数据。可选地，处理器1012可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1012中，单独通过一块通信芯片进行实现。

存储器1014可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的图像搜索方法、装置、终端设备及存储介质，通过获取在人机交互界面输入的交互信息，交互信息包括多个子信息，继而识别多个子信息各自对应的图像搜索指令，得到多个图像搜索指令，再对多个图像搜索指令进行排序，其中，不同的图像搜索指令对应不同的用户搜索意图，图像搜索指令的排列顺序与用户搜索意图的优先级对应，然后搜索与排序后的多个图像搜索指令逐级匹配的目标图像，在搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础，最后输出目标图像。通过上述方式实现了在识别出了用户在人机交互界面输入的交互信息中的多个子信息，各自对应的多个图像搜索指令的情况下，对多个图像搜索指令进行排序，然后搜索并输出与排序后的多个图像搜索指令逐级匹配的目标图像，实现了精确搜索，加快了搜索速度，同时提升了图像搜索的趣味性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像搜索方法，其特征在于，所述方法包括：

响应用户的多模态搜索指令，获取在人机交互界面输入的交互信息，所述交互信息包括多个子信息，所述多个子信息包括语音信息、表情信息、姿态信息以及唇语信息，其中，在监测到搜索类应用程序的搜索指令被触发时，开始获取用户在人机交互界面输入的语音信息，若所述语音信息中的前后关键字之间存在较大的时间间隔，获取所述表情信息或姿态信息；

识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令；

通过所述交互信息获取用户的搜索意图；

获取与所述用户的搜索意图对应的场景模式，不同的场景模式包括专有的场景关键字，所述场景模式为根据所述语音信息中的关键字识别得到；

根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级；

基于所述优先级对所述多个图像搜索指令进行排序，其中，不同的所述图像搜索指令对应不同的所述用户搜索意图，所述图像搜索指令的排列顺序与所述用户搜索意图的优先级对应；

搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，在所述搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础；

输出所述目标图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级的步骤包括：

若所述场景模式为第一场景模式，将预先设定的所述多个图像搜索指令对应的优先级作为与所述多个图像搜索指令分别对应的所述搜索意图的优先级，其中，第一场景模式中存储有多个图像搜索指令与优先级的对应关系；

若所述场景模式为第二场景模式，分别获取所述多个图像搜索指令与所述用户的搜索意图之间的匹配度，所述匹配度越高的图像搜索指令与所述用户的搜索意图越接近，基于所述匹配度确定与所述多个图像搜索指令分别对应的所述搜索意图的优先级。

3.根据权利要求1所述的方法，其特征在于，所述优先级包括第一优先级以及第二优先级，所述搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像的步骤包括：

搜索与所述第一优先级对应的搜索意图匹配的图像，并将所述图像作为第一目标图像；

搜索所述第一目标图像中，与所述第二优先级对应的搜索意图匹配的图像并将所述图像作为与排序后的所述多个图像搜索指令逐级匹配的目标图像。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述多个子信息包括表情信息、姿态信息以及语音信息，所述识别所述多个子信息各自对应的图像搜索指令的步骤包括：

通过预设的情感识别模型对所述表情信息所关联的情感特征进行识别，得到情感图像搜索指令；

通过预设的动作识别模型对所述姿态信息所关联的动作特征进行识别，得到姿态图像搜索指令；以及

通过预设的语音识别模型对所述语音信息所关联的语音特征进行识别，得到语音图像搜索指令。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

判断是否接收到所述多个子信息的更新指令；

若是，所述搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像的步骤包括：

搜索与更新后的所述多个图像搜索指令的排列顺序逐级匹配的目标图像。

6.一种图像搜索装置，其特征在于，所述装置包括：

获取模块，用于响应用户的多模态搜索指令，获取在人机交互界面输入的交互信息，所述交互信息包括多个子信息，所述多个子信息包括语音信息、表情信息以及姿态信息，其中，在监测到搜索类应用程序的搜索指令被触发时，开始获取用户在人机交互界面输入的语音信息，若所述语音信息中的前后关键字之间存在较大的时间间隔，获取所述表情信息或姿态信息；

识别模块，用于识别所述多个子信息各自对应的图像搜索指令，得到多个图像搜索指令；

排序模块，用于通过所述交互信息获取用户的搜索意图，获取与所述用户的搜索意图对应的场景模式，不同的场景模式包括专有的场景关键字，所述场景模式为根据所述语音信息中的关键字识别得到，根据所述场景模式获取与所述多个图像搜索指令分别对应的所述搜索意图的优先级，基于所述优先级对所述多个图像搜索指令进行排序，其中，不同的所述图像搜索指令对应不同的所述用户搜索意图，所述图像搜索指令的排列顺序与所述用户搜索意图的优先级对应；

搜索模块，用于搜索与排序后的所述多个图像搜索指令逐级匹配的目标图像，在所述搜索过程中，搜索到的与排序在前的图像搜索指令匹配的图像，作为相邻排序在后的图像搜索指令的图像搜索基础；

输出模块，用于输出所述目标图像。

7.一种终端设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-5任一项所述的方法。

8.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-5任一项所述的方法。