CN110781329A

CN110781329A - 图像搜索方法、装置、终端设备及存储介质

Info

Publication number: CN110781329A
Application number: CN201911024922.5A
Authority: CN
Inventors: 袁丁
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-11

Abstract

本申请实施例提供了一种图像搜索方法、装置、终端设备及存储介质。本方法通过获取在人机交互界面输入的语音信息，继而提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，再获取与多个语音特征数据对应的优先级，然后按照优先级逐级搜索与语音信息匹配的图像，其中，在逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础，最后输出图像。通过上述方式实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照优先级逐级搜索与语音信息匹配的图像，从而实现减小搜索规模，加快搜索进程。

Description

图像搜索方法、装置、终端设备及存储介质

技术领域

本申请涉及图像搜索技术领域，更具体地，涉及一种图像搜索方法、装置、终端设备及存储介质。

背景技术

随着现代通信技术和多媒体技术的广泛应用和互联网广泛普及，数字图像的数量出现了巨量的增长。面对如此海量的图像数据，如何快速且准确在医学、交通、购物等领域进行图像检索，这是近20年来研究的热点。随着搜索引擎技术的不断发展，语音搜索已逐步应用于各种终端设备中。作为一种方式，可以通过对用户输入的搜索语音进行语音识别，以将搜索语音转换成文字，并分析出其中的关键字，然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果，并将搜索结果以图片、动画或视频等形式展现给用户。然而，在利用语音进行图像搜索时，通常会出现因语音内容识别度不高导致搜索变慢且搜索结果不准确。

发明内容

鉴于上述问题，本申请提出了一种图像搜索方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种图像搜索方法，该方法包括：获取在人机交互界面输入的语音信息；提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求；获取与所述多个语音特征数据对应的优先级；按照所述优先级逐级搜索与所述语音信息匹配的图像，其中，在所述逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础；输出所述图像。

进一步的，所述优先级包括第一优先级以及第二优先级，所述按照所述优先级逐级搜索与所述语音信息匹配的图像，包括：搜索满足所述第一优先级的图像并将所述图像作为第一目标图像；搜索所述第一目标图像中满足所述第二优先级的图像并将所述图像作为与所述语音信息匹配的图像。

进一步的，所述获取与所述多个语音特征数据对应的优先级，包括：获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级；若不是，获取所述多个语音特征数据各自对应的权值；基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

进一步的，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级之前，还包括：判断是否接收到所述语音信息的更新指令。

进一步的，若接收到所述语音信息的更新指令，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级，包括：获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

进一步的，所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

进一步的，所述按照所述优先级逐级搜索与所述语音信息匹配的图像之前，还包括：判断所述多个语音特征数据是否满足目标条件；若满足，按照所述优先级逐级搜索与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长匹配的图像。

第二方面，本申请实施例提供了一种图像搜索装置，该装置包括：获取模块，用于获取在人机交互界面输入的语音信息；数据提取模块，用于提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求；优先级获取模块，用于获取与所述多个语音特征数据对应的优先级；搜索模块，用于按照所述优先级逐级搜索与所述语音信息匹配的图像，其中，在所述逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础；输出模块，用于输出所述图像。

进一步的，所述优先级包括第一优先级以及第二优先级，所述搜索模块具体可以用于搜索满足所述第一优先级的图像并将所述图像作为第一目标图像；搜索所述第一目标图像中满足所述第二优先级的图像并将所述图像作为与所述语音信息匹配的图像。

进一步的，所述优先级获取模块具体可以用于获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级；若不是，获取所述多个语音特征数据各自对应的权值；基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

进一步的，所述装置还可以包括第一判断单元，所述第一判断单元可以用于在获取与所述场景模式关联的所述多个语音特征数据对应的优先级之前，判断是否接收到所述语音信息的更新指令。

进一步的，所述优先级获取模块具体可以用于若判定接收到所述语音信息的更新指令，获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

进一步的，所述装置还可以包括第二判断单元，所述第二判断单元可以用于在按照所述优先级逐级搜索与所述语音信息匹配的图像之前，判断所述多个语音特征数据是否满足目标条件；若满足，按照所述优先级逐级搜索与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长匹配的图像。

第三方面，本申请实施例提供了一种终端设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的图像搜索方法的方法流程图。

图3示出了本申请另一实施例提供的图像搜索方法的方法流程图。

图4示出了本申请又一实施例提供的图像搜索方法的方法流程图。

图5示出了本申请实施例提供的图像搜索装置的结构框图。

图6示出了本申请实施例的用于执行根据本申请实施例的图像搜索方法的终端设备的结构框图。

图7示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图像搜索方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用，人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环以及AI(Artificial Intelligence，人工智能)应用最成熟的技术之一，在营销客服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如，智能图像搜索。

作为一种方式，可以通过对用户输入的搜索语音进行语音识别，以将搜索语音转换成文字，并分析出其中的关键字，然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果，并将搜索结果以图片、动画或视频等形式展现给用户。然而，在利用语音进行图像搜索时，通常会出现因语音内容识别度不高导致搜索变慢且搜索结果不准确。

发明人在研究中发现，可结合用户的说话习惯，通过提取用户的语音信息中的多个语音特征数据，然后获取多个语音特征数据对应的优先级，再按照优先级逐级搜索与语音信息匹配的图像，然后输出图像，可以实现对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照优先级逐级搜索与语音信息匹配的图像，从而实现减小搜索规模，加快搜索进程。因此提出了本申请实施例中的图像搜索方法、装置、终端设备及存储介质。

为了便于更好的理解本申请实施例提供的图像搜索方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的搜索方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头，摄像头可设置于终端设备101配有显示屏的一面，可选的，终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是，通过摄像头可采集用户的图像数据，图像数据中包括用户的姿态信息，以辅助用于准确识别用户的搜索意图。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音数据或图像数据等等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的图像搜索方法、装置、终端设备及存储介质进行详细说明。

如图2所示，示出了本申请一实施例提供的图像搜索方法的方法流程图。本实施例提供的图像搜索方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，图像搜索方法可应用于如图5所示的搜索装置400以及图6所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的图像搜索方法具体地可以包括以下步骤：

步骤S110：获取在人机交互界面输入的语音信息。

需要说明的是，本实施例中，语音信息具体可以包括语音所属的语言(例如，可以是普通话、四川话、河南话、山东话、上海话、粤语等)、语种(例如，可以是英语、德语、法语、俄语、韩国话、日本话等)、以及语音信息所表征的用户行为的具体内容(例如，用于搜索图像的语音信息)等。不同用户的语音信息可以不同。

作为一种方式，可以获取用户通过人机交互界面实时输入的语音信息。可选的，可以是用户在人机交互界面通过终端设备的语音输入功能输入的语音信息。例如，在一个具体的应用场景中，可以通过终端设备中安装的语音助手、语音SDK(Software DevelopmentKit，软件开发工具包)或是语音识别引擎应用程序等采集用户输入的语音信息。可选的，该种方式下的语音信息可以是当前通过终端设备的人机交互界面与终端设备进行交互的用户的语音信息，或者可以是用户在通过终端设备进行通话过程中获取到的用户的语音信息。

作为另一种方式，可以在终端设备的人机交互界面设置语音信息的选择控件，用户通过该控件可以选择导入预先存储的语音信息作为在人机交互界面输入的语音信息。其中，预先存储的语音信息可以是用户通过终端设备的语音录制功能预先录入的语音信息(例如，预先录入的一句话、一段话或音频等)，或者可以是用户历史搜索记录中缓存的语音信息，或者是用户从网络上下载的语音信息(例如，从抖音APP上下载保存的某段用户感兴趣的语音信息)，或者也可以是用户通过语音处理软件将自己的语音信息与用户感兴趣的某位艺人、网络用户的语音进行合成后的语音信息等，对于语音信息的格式、内容以及来源不作限定。

可选的，对于获取到的用户的语音信息，终端设备可以将这些语音信息进行存储，继而判断语音信息中是否包括用于图像搜索的关键字，其中，用于图像搜索的关键字可以预先定义，以便于终端设备可以通过识别语音信息中是否包括预先定义的图像搜索关键字，进而将对应的语音信息加入待搜索图像队列。

可选的，为了进一步的减少数据冗余，终端设备也可以在获取了用户的语音信息的情况下，判断语音信息是否用于图像搜索，若是用于图像搜索，那么可以获取对应的语音信息并将这些语音信息作为在人机交互界面输入的语音信息；而若该语音信息不是用于图像搜索，那么将舍弃这些语音信息，或者提示用户重新输入语音信息。可选的，可以通过判断语音信息中是否包括预先定义的图像搜索关键字来判断语音信息是否用于图像搜索。可以理解的是，若包括，那么可以判定语音信息是用于图像搜索；而若不包括，那么可以判定语音信息不是用于图像搜索。

作为一种实施方式，终端设备可以实时监测安装的搜索类应用程序的搜索指令是否被触发。可选的，若监测到搜索指令被触发，那么为了减少长时间获取语音信息带来的功耗问题，可以在监测到搜索类应用程序的搜索指令被触发时，开始获取用户在人机交互界面输入的语音信息。

步骤S120：提取所述语音信息中的多个语音特征数据。

语音，即语言的物质外壳，是语言的外部形式，是最直接地记录人的思维活动的符号体系。它是人的发音器官发出的具有一定社会意义的声音。语音的物理基础主要有音高、音强、音长、音色，这也是构成语音的四要素。音高指声波频率，即每秒钟振动次数的多少；音强指声波振幅的大小；音长指声波振动持续时间的长短，也称为"时长"；音色指声音的特色和本质，也称作"音质"。人的发音器官及其活动情况是语音的生理基础。人的发音器官分3部分：(1)呼吸器官，包括肺、气管和支气管。肺是呼吸器官的中心，是产生语音动力的基础。(2)喉头和声带，它们是发音的振颤体。(3)口腔、咽腔、鼻腔，它们都是发音的共鸣器。

可以理解的是，语音是具有生理属性的，即它是由人的生理发音器官发出来的。那么不同的用户的生理属性存在差异，即不同用户所发出的语音不同。那么，作为一种方式，可以对用户的语音信息中的语音特征数据进行提取，进而基于语音特征数据搜索符合用户搜索意图的图像。其中，本申请实施例中的语音信息可以包括多个语音特征数据，多个语音特征数据对应用户不同的搜索需求。可选的，多个语音特征数据可以至少包括语音信息的音高、音强(等同于音量)、音长、音色、音调(即语音声音频率的高低)、音素(根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素)、发音速度(表征用户发音的快慢)、总的时长(表征用户的说话时长)中的一项。可选的，实际实现时可以包括更多或更少的语音特征数据，在此不一一例举，且不作为限定。

可以理解的是，不同用户的生理属性不同，那么不同用户的语音信息所包括的多个语音特征数据可以不同。

需要说明的是，对于同一用户，在不同情绪下说出的语音信息的多个语音特征数据可以不同。例如，一个人情绪激动时语音信息的音强高、发音速度快、说话时长较长，而情绪低落时语音信息的音强低、发音速度慢、说话时长较短等。可选的，若同一用户采用不同的语言或语种进行说话时，所对应的语音信息的多个语音特征数据也可以不同。例如，用户用英文表达“这周末如果不下雨，我们去爬山”，与用户用中文表达“这周末如果不下雨，我们去爬山”时，由于语言特性，以及发音速度等的调整，与用户的语音信息对应的多个语音特征数据可以不同。

作为一种方式，可以将获取到的语音信息送入特征提取模块进行特征提取，将提取的特征送入语音特征提取模型，可以得到语音信息的多个语音特征数据。其中，语音特征提取模型可以预先采用大量不同的语音信息训练得到。通过提取语音信息中的多个语音特征数据，可以实现基于语音特征数据搜索符合用户的搜索意图的图像数据，满足了用户的个性化搜索需求，从而提升个性化用户体验。

步骤S130：获取与所述多个语音特征数据对应的优先级。

其中，与多个语音特征数据对应的优先级即语音特征数据中的音高、音强、音长、音色、音调、音素、发音速度、总的时长之间的优先级(即多个语音特征数据的排列顺序)。例如，多个语音特征数据的优先级可以为“音高>音强>音长>音色>音调>音素>发音速度>总的时长”、或者可以为“音强>音色>音调>音高>音长>发音速度>音素>总的时长”等。其中，具体的排列顺序可以根据实际情况进行设定。

作为一种实施方式，不同的场景下多个语音特征数据之间的优先级排列顺序可以变化，例如，语音特征数据“音调”在第一场景的排列顺序可以为第一，而在第二场景的排列顺序可以为第三，其中，第一场景和第二场景为不同的场景。

作为一种方式，多个语音特征数据之间的优先级可以预先设定并存储至终端设备。在这种情况下，可以直接获取预先存储的与多个语音特征数据对应的优先级。作为另一种方式，由于用户在说话过程中的语音信息可以是变化的，例如因情绪的变化，所说出来的语音信息的多个语音特征数据之间的优先级会有变化；或者说是用户采用了不同的语言或语种进行表达时，语音信息的多个语音特征数据之间的优先级可能会存在变化。因而，在这种情况下，多个语音特征数据之间的优先级可以实时调整，那么可以获取与用户当前的语音信息实时匹配的多个语音特征数据对应的优先级。可选的，与用户当前的语音信息实时匹配的多个语音特征数据对应的优先级的获取方式将在后续实施例中进行详细描述。

步骤S140：按照所述优先级逐级搜索与所述语音信息匹配的图像。

可以理解的是，对于与用户的搜索意图对应的产品可能数量很多，与产品对应的产品图像的数量也很多。例如，当用户通过某购物APP用语音进行产品搜索时，会弹出来和用户的语音信息相关的各种品类的图像数据，对于用户而言，尤其是对于一些用户并不了解的产品，如果都将数以万计的结果以图像的方式展示给用户，会给用户带来一定的选择困扰，降低用户体验。

作为一种方式，为了提高搜索结果的精确性，同时降低搜索规模以实现加快搜索速度，本申请实施例提出按照多个语音特征数据对应的优先级逐级搜索与语音信息匹配的图像。其中，在逐级搜索的过程中，上一级优先级对应的搜索结果可以被作为下一级优先级对应的搜索基础。

其中，需要说明的是，对于本实施例中的多个语音特征数据，可以预先定义与每一类语音特征数据匹配的图像搜索规则。可选的，对于图像搜索规则的定义，可以按照搜索图像的种类进行区分。例如，假设用户A想要搜索图像a，用户B想要搜索图像b，若在两种搜索场景中，与用户A和用户B的搜索目标(即图像a和图像b)对应的语音特征数据均为“音色”，那么在用户A的搜索场景中，音色对应的图像a的搜索结果可以是满足第一目标条件的搜索结果，例如第一目标条件可以是“突出个人形象气质”的图像a；而在用户B的搜索场景中，音色对应的图像b的搜索结果可以是满足第二目标条件的搜索结果，例如，第二目标条件可以是“坚固耐用、外形美观度高”的图像b。需要说明的是，第一目标条件与第二目标条件的具体内容可以根据实际情况进行调整，且第一目标条件与第二目标条件是不同的条件。可选的，对于同一用户，若在两次搜索的过程中的搜索目标不同，同一语音特征数据对应于该用户的两种不同搜索场景也可以对应不同的图像搜索规则。

在预先定义了与每一类语音特征数据匹配的图像搜索规则的情况下，对于用户的同一搜索目标，分别按照多个语音特征数据各自对应的图像搜索规则搜索得到的图像搜索结果会存在重叠、相近或相似的部分，那么如果将这些搜索结果依次展示给用户，会造成不良的用户体验。因而作为一种改善上述问题的方式，可以在获取了多个语音特征数据各自对应的优先级的情况下，将优先级在前的语音特征数据对应的搜索结果作为优先级在后的语音特征数据对应的搜索基础，从而可以实现过滤掉重复、相近或相似的搜索结果，因而可以减小搜索规模，加快搜索速度。

需要说明的是，对于每一类语音特征数据对应的搜索结果可以容纳的数量可以根据搜索目标的品类、产品属性以及功能特性进行设定。例如，像一些市面上品种较少的物体，可能搜索得到的结果不是很多，那么对于这种情况可以调整语音特征数据对应的搜索结果的数量。可选的，假设语音信息包括语音特征“音色、音高、音调”，若她们之间的优先级为“音色>音高>音调”，那么可以设定“音色”对应的搜索结果的容纳数量为300，可以设定“音高”对应的搜索结果的容纳数量为200，可以设定“音调”对应的搜索结果的容纳数量为100。

步骤S150：输出所述图像。

作为一种方式，在获取了按照多个语音特征数据的优先级逐级搜索得到的与语音信息匹配的图像的情况下，可以依次输出这些图像。具体的图像的输出方式不作限定，例如，可以是以图像、视频、动画等形式输出。

通过输出按照多个语音特征数据的优先级逐级搜索得到的与语音信息匹配的图像给用户，减小了搜索规模，使搜索得到的图像更加符合用户的语言特征，满足了用户个性化的搜索需求，同时增强了图像搜索的趣味性。

本实施例提供的图像搜索方法，通过获取在人机交互界面输入的语音信息，继而提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，再获取与多个语音特征数据对应的优先级，然后按照优先级逐级搜索与语音信息匹配的图像，其中，在逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础，最后输出图像。通过上述方式实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照优先级逐级搜索与语音信息匹配的图像，从而实现减小搜索规模，加快搜索进程。

如图3所示，示出了本申请另一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S210：获取在人机交互界面输入的语音信息。

步骤S220：提取所述语音信息中的多个语音特征数据。

步骤S230：获取与所述语音信息匹配的场景模式。

作为一种方式，可以对语音信息所包含的内容进行关键字提取，进而从关键字判断获取与语音信息匹配的场景模式。可选的，不同的场景模式下可以包括专有的场景关键字。

例如，对于教学场景(包括实体教学场景以及网络教学场景)，出现频率较高的关键字(词)可以包括“题型、同学们、课后、解题、记忆力”等，运动场景可以包括关键字(词)“配速、操场、篮球、点位、力度”等，商务交谈场景“咖啡、笔记本、case、PPT、方案”等，旅游场景可以包括关键字(词)“爬山、玩、拍照、缆车、车票、天气”等。那么，可以理解的是，作为一种实施方式，可以根据语音信息中的关键字识别出与语音信息匹配的场景模式。

例如，在一个具体的应用场景中，假设用户说了句语音信息“国庆我们去哪里玩呢，爬山怎么样？”，可选的，可以从该句语音信息中提取出关键字(词)“玩、爬山”，根据前述的例举描述，可以将与用户的语音信息匹配的场景确定为旅游场景，那么可以进一步确定与语音信息匹配的场景模式为“旅游模式”。

需要说明的是，对于一些语音信息，如果从语音信息中提取出的关键字(词)不能判断出与用户的语音信息匹配的场景时，可以根据用户的语音信息确定当前可能的场景模式。例如，假设用户说了句“小王，我们什么时候可以开始吃饭呀”，从该句语音信息中可以提取出关键字(词)“吃饭”，因为“吃饭”可以是多种场景，如果仅凭关键词“吃饭”不能准确的判断出用户当前所处的场景模式，那么作为一种方式，可以结合用户的整体语音信息确定出较为准确的场景模式。例如，在该种情况下，可以根据语音信息“小王，我们什么时候可以开始吃饭呀”将当前的场景模式确定为聚会场景或者是居家场景等。可选的，对于不能根据语音信息较为准确的确定用户当前所处的场景模式的情况下，可以确定多个相关的场景作为当前与语音信息匹配的场景模式。

步骤S240：判断所述场景模式是否为预设的场景模式。

作为一种方式，在初步获取了与语音信息匹配的场景模式的情况下，可以判断所获取的场景模式是否为预设的场景模式。可选的，可以将所获取的与语音信息匹配的场景模式与预设的场景模式进行比较来判断所述场景模式是否为预设的场景模式。

其中，预设的场景模式可以是根据用户的说话习惯自定义的一些场景模式，例如，运动模式、娱乐模式、教学模式、聚餐模式、学习模式等。可选的，预设的场景模式也可以是根据用户所在环境的气氛所定义的场景模式，例如，团建模式、军事化作息模式等。不同的预设场景模式中，语音信息的多个语音特征数据的优先级不同。不同用户在同一场景模式中，各自对应的语音信息的语音特征数据的优先级也可以不同。

步骤S251：若是，获取与所述场景模式关联的所述多个特征语音数据对应的优先级。

作为一种方式，若获取到的与语音信息匹配的场景模式是预设的场景模式，那么可以直接获取与场景模式关联的多个语音特征数据对应的优先级。

例如，在一个具体的应用场景中，假设获取到的与语音信息匹配的场景模式为“教学模式”，预设场景模式中包括“教学模式”，且与“教学模式”对应的多个语音特征数据对应的优先级为“音调>音色>音强>音高>音素>音长”，那么可以将“音调>音色>音强>音高>音素>音长”作为与语音信息匹配的场景模式关联的多个语音特征数据对应的优先级。

需要说明的是，对于用户在录入语音信息的过程中，可能对于所想要搜索的目标不是很明确的情况下，可能会多次录入语音信息，即多次重复说话。那么，可以理解的是，对于用户的每一次说话，其说话时的语音信息的多个语音特征数据的优先级可能会存在变化，那么为了实现更准确的搜索，本实施例可以在获取与场景模式关联的多个语音特征数据对应的优先级的步骤之前，判断是否接收到语音信息的更新指令，即是否接收到变化的语音信息。可选的，若接收到变化的语音信息，那么将获取与更新后的语音信息的多个语音特征数据匹配的优先级，即获取与用户当前的语音信息实时匹配的优先级。其中，关于优先级的具体匹配方式以及变化规则可以参考前述实施例中的描述，在此不再赘述。

步骤S252：搜索满足所述第一优先级的图像并将所述图像作为第一目标图像。

作为一种方式，若用户的语音信息对应有两个语音特征数据，那么步骤S251中所描述的优先级可以包括第一优先级以及第二优先级，第一优先级为其中一个语音特征数据对应的优先级，第二优先级为其中另一个语音特征数据对应的优先级。需要说明的是，实际实现时语音信息可以对应有更多的语音特征数据，相应的，优先级也可以包括与更多的语音特征数据对应的优先级。为了便于说明，本实施例中以语音信息对应有两个语音特征数据进行说明。

可选的，假设语音信息对应的两个语音特征数据分别为“音调”和“音色”，与“音调”对应的优先级为第一优先级，与“音色”对应的优先级为第二优先级。那么，作为一种方式，可以搜索满足第一优先级的图像并将所述图像作为第一目标图像，第一目标图像即为按照与“音调”对应的图像搜索规则搜索得到的，并且满足“音调”对应的搜索结果可以容纳的数量的图像。例如，此处“音调”对应的搜索结果可以容纳的数量可以设定为100等，具体数值不作限定。

步骤S253：搜索所述第一目标图像中满足所述第二优先级的图像并将所述图像作为与所述语音信息匹配的图像。

作为一种方式，可以搜索上述第一目标图像中满足第二优先级的图像并将所述图像作为与所述语音信息匹配的图像。即在搜索满足第二优先级的图像时，将从与“音色”对应的图像搜索规则搜索得到的第一目标图像作为搜索范围，搜索第一目标图像中满足与“音调”对应的图像搜索规则的搜索结果。

需要说明的是，在搜索满足第二优先级的图像的过程中，若得到的图像搜索结果的数量少于预先设定的“音色”对应的搜索结果可以容纳的数量，那么将实际搜索得到的第一目标图像中满足与“音色”对应的图像搜索规则的数量的图像作为第二目标图像，即与语音信息匹配的图像。可选的，若得到的图像的搜索结果的数量不少于(大于等于)预先设定的“音色”对应的搜索结果可以容纳的数量，那么将搜索得到的第一目标图像中满足与“音色”对应的图像搜索规则的、且预先设定的“音色”对应的搜索结果可以容纳的数量的图像作为第二目标图像。

例如，若第一目标图像的数量为80，预先设定的第二目标图像的数量为50，假设实际搜索得到的第二目标图像的数量为65，那么将选取这65个图像结果中的前50作为最终与语音信息匹配的图像；而若实际搜索得到的第二目标图像的数量仅为30，那么将选取这30个图像结果作为最终与语音信息匹配的图像。

步骤S254：输出所述图像。

步骤S261：若否，获取所述多个语音特征数据各自对应的权值。

而作为另一种方式，若获取到的与语音信息匹配的场景模式不是预设的场景模式，那么可以获取语音信息的多个语音特征数据各自对应的权值。

其中，多个语音特征数据各自对应的权值可以理解为用户的语音信息中各个语音特征数据的突出程度。例如，假设用户说了句“我这件衣服是在十字路口那家最大的专卖店买的嘞，很贵的咯”，从用户的语音信息中的语境，可以分析出该句语音信息中的重要关键字(词)可以为“最大的、专卖店、贵”，而假设用户在说该句语音信息时，说道“很贵”两个字时音调很高，那么可以将关键词“很贵”与语音特征数据音调进行对应，类似的，可以将关键词“专卖店”与语音特征数据音色对应，将关键词“最大的”与语音特征数据音强对应，那么根据用户的说话情绪以及语境，将获取得到语音特征数据“音调、音色、音强”各自对应的权值可以分别确定为“60、25、15(假设各个语音特征数据的权值的总和为100)”。需要说明的是，关于多个语音特征数据各自对应的权值的具体确定方式可以结合用户的说话情绪进行确定，也可以结合用户的说话语境进行确定，或者是同时结合用户的说话情绪以及说话语境进行确定，也可以是其他的确定方式，在此不作限定。

步骤S262：基于所述权值获取当前与所述多个语音特征数据对应的优先级。

作为一种方式，在获取了多个语音特征数据各自对应的权值之后，可以基于所获取的权值获取当前与多个语音特征数据对应的优先级。其中，权值越大对应的优先级可以越高。

可选的，参照上述示例，可以得到与语音特征数据音色、音调以及音强对应的优先级为“音调>音色>音强”。通过基于获取到的与各个语音特征数据各自对应的权值确定多个语音特征数据对应的优先级可以获取与用户的语音信息实时匹配的语音特征数据的优先级，进而得到与用户的语音特征更加匹配的图像搜索结果。

步骤S263：按照所述优先级逐级搜索与所述语音信息匹配的图像。

步骤S274：输出所述图像。

本实施例提供的图像搜索方法，实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，获取与语音信息匹配的场景模式，并判断该场景模式是否是预设的场景模式，然后若是预设的场景模式，获取与场景模式关联的多个特征语音数据对应的优先级；若不是预设的场景模式，获取与多个语音特征数据各自对应的权值，再基于权值获取当前与多个语音特征数据对应的优先级，然后按照优先级逐级搜索与语音信息匹配的图像，减小了搜索规模，使搜索得到的图像结果更加符合用户的语音特征，提升个性化用户体验。

如图4所示，示出了本申请又一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S310：获取在人机交互界面输入的语音信息。

步骤S320：提取所述语音信息中的多个语音特征数据。

步骤S330：获取与所述多个语音特征数据对应的优先级。

步骤S340：判断所述多个语音特征数据是否满足目标条件。

可以理解的是，若用户声音过小或者是声音嘶哑等情况下，说出的语音信息可能难以识别，即语音内容特别不清晰，那么在这种情况下，如果按照前述实施例中的方法去搜索与该类语音信息匹配的图像，可能会因识别误差导致搜索结果不准确，降低用户体验。

因而，作为一种改善上述问题的方式，可以在进行搜索之前，判断语音信息的多个语音特征数据是否满足目标条件，若满足，再进行后续搜索过程。其中，目标条件可以理解为语音信息的整体清晰度(即终端设备所能识别出的语义内容的清晰度)达到设定阈值，或者是语音信息的语音特征数据可以准确的被区分出来，再或者是语音信息的语音特征数据的个数不小于两个。

作为一种方式，可以通过对语音信息进行语义识别以及对语音信息进行声学特征提取，从而判断语音信息的多个语音特征数据是否满足目标条件。

步骤S350：若满足，按照所述优先级逐级搜索与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长匹配的图像。

可选的，若语音信息的多个语音特征数据满足目标条件，那么可以按照多个语音特征数据之间的优先级逐级搜索与语音信息的音色、音调、音量、音素、发音速度和/或总的时长匹配的图像。

可选的，若语音信息的多个语音特征数据不满足目标条件，那么将会重新获取在人机交互界面的语音信息，以实现重新提取语音信息的满足目标条件的语音特征数据。

步骤S360：输出所述图像。

本实施例提供的图像搜索方法，通过实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，判断所得到的多个语音特征数据是否满足目标条件，在满足目标条件的情况下，按照多个语音特征数据的优先级逐级搜索与语音信息匹配的图像，提升了搜索的准确度，提升用户体验。

如图5所示，示出了本申请实施例提供的图像搜索装置400的结构框图，所述装置400运行于具有显示屏或其他音频或图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备，所述装置400包括：

获取模块410，用于获取在人机交互界面输入的语音信息。

数据提取模块420，用于提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求。

需要说明的是，本实施例中所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

优先级获取模块430，用于获取与所述多个语音特征数据对应的优先级。

可选的，所述装置还可以包括第一判断单元，所述第一判断单元可以用于在获取与所述场景模式关联的所述多个语音特征数据对应的优先级之前，判断是否接收到所述语音信息的更新指令。

作为一种方式，所述优先级获取模块430具体可以用于获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级；若不是，获取所述多个语音特征数据各自对应的权值；基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

作为又一种方式，所述优先级获取模块430具体可以用于若判定接收到所述语音信息的更新指令，获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

搜索模块440，用于按照所述优先级逐级搜索与所述语音信息匹配的图像，其中，在所述逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础。

作为一种方式，所述优先级包括第一优先级以及第二优先级，所述搜索模块440具体可以用于搜索满足所述第一优先级的图像并将所述图像作为第一目标图像；搜索所述第一目标图像中满足所述第二优先级的图像并将所述图像作为与所述语音信息匹配的图像。

可选的，所述装置还可以包括第二判断单元，所述第二判断单元可以用于在按照所述优先级逐级搜索与所述语音信息匹配的图像之前，判断所述多个语音特征数据是否满足目标条件；若满足，按照所述优先级逐级搜索与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长匹配的图像。

输出模块450，用于输出所述图像。

本实施例提供的图像搜索装置，通过获取在人机交互界面输入的语音信息，继而提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，再获取与多个语音特征数据对应的优先级，然后按照优先级逐级搜索与语音信息匹配的图像，其中，在逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础，最后输出图像。通过上述方式实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照优先级逐级搜索与语音信息匹配的图像，从而实现减小搜索规模，加快搜索进程。

本申请实施例提供的图像搜索装置用于实现前述方法实施例中相应的图像搜索方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的图像搜索装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图6，其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件：处理器1012、存储器1014以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分，通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集，以及调用存储在存储器1014内的数据，执行终端设备101的各种功能和处理数据。可选地，处理器1012可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1012中，单独通过一块通信芯片进行实现。

存储器1014可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图7，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的图像搜索方法、装置、终端设备及存储介质，通过获取在人机交互界面输入的语音信息，继而提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，再获取与多个语音特征数据对应的优先级，然后按照优先级逐级搜索与语音信息匹配的图像，其中，在逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础，最后输出图像。通过上述方式实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照优先级逐级搜索与语音信息匹配的图像，从而实现减小搜索规模，加快搜索进程。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像搜索方法，其特征在于，所述方法包括：

获取在人机交互界面输入的语音信息；

提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求；

获取与所述多个语音特征数据对应的优先级；

按照所述优先级逐级搜索与所述语音信息匹配的图像，其中，在所述逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础；

输出所述图像。

2.根据权利要求1所述的方法，其特征在于，所述优先级包括第一优先级以及第二优先级，所述按照所述优先级逐级搜索与所述语音信息匹配的图像的步骤包括：

搜索满足所述第一优先级的图像并将所述图像作为第一目标图像；

搜索所述第一目标图像中满足所述第二优先级的图像并将所述图像作为与所述语音信息匹配的图像。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述多个语音特征数据对应的优先级的步骤包括：

获取与所述语音信息匹配的场景模式；

判断所述场景模式是否为预设的场景模式；

若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级。

4.根据权利要求3所述的方法，其特征在于，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级的步骤之前还包括：

判断是否接收到所述语音信息的更新指令；

若是，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级的步骤：

获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若不是，获取所述多个语音特征数据各自对应的权值；

基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

7.根据权利要求6所述的方法，其特征在于，所述按照所述优先级逐级搜索与所述语音信息匹配的图像的步骤之前还包括：

判断所述多个语音特征数据是否满足目标条件；

若满足，按照所述优先级逐级搜索与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长匹配的图像。

8.一种图像搜索装置，其特征在于，所述装置包括：

获取模块，用于获取在人机交互界面输入的语音信息；

数据提取模块，用于提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求；

优先级获取模块，用于获取与所述多个语音特征数据对应的优先级；

搜索模块，用于按照所述优先级逐级搜索与所述语音信息匹配的图像，其中，在所述逐级搜索过程中，上一级优先级对应的搜索结果被作为下一级优先级对应的搜索基础；

输出模块，用于输出所述图像。

9.一种终端设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。