CN110781327B

CN110781327B - 图像搜索方法、装置、终端设备及存储介质

Info

Publication number: CN110781327B
Application number: CN201911025939.2A
Authority: CN
Inventors: 刘一帆; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-07-02
Anticipated expiration: 2039-10-25
Also published as: CN110781327A

Abstract

本申请实施例提供了一种图像搜索方法、装置、终端设备及存储介质。本方法通过获取在人机交互界面输入的语音信息，再提取语音信息中的多个语音特征数据，然后搜索与多个语音特征数据分别对应的图像，再获取与多个语音特征数据对应的优先级，然后按照优先级将与多个语音特征数据分别对应的图像进行排序，得到目标序列图像，目标序列图像中对应的优先级越高的图像的排列顺序越靠前，最后输出目标序列图像。实现了在获取了语音信息对应于用户不同的搜索需求的多个语音特征数据的情况下，按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，提升了图像搜索的准确率。

Description

图像搜索方法、装置、终端设备及存储介质

技术领域

本申请涉及图像搜索技术领域，更具体地，涉及一种图像搜索方法、装置、终端设备及存储介质。

背景技术

随着现代通信技术和多媒体技术的广泛应用和互联网广泛普及，数字图像的数量出现了巨量的增长。面对如此海量的图像数据，如何快速且准确在医学、交通、购物等领域进行图像检索，这是近20年来研究的热点。随着搜索引擎技术的不断发展，语音搜索已逐步应用于各种终端设备中。作为一种方式，可以通过对用户输入的搜索语音进行语音识别，以将搜索语音转换成文字，并分析出其中的关键字，然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果，并将搜索结果以图片、动画或视频等形式展现给用户。然而，在利用语音进行图像搜索时，通常会出现因语音内容识别度不高导致搜索变慢且搜索结果不准确。

发明内容

鉴于上述问题，本申请提出了一种图像搜索方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种图像搜索方法，该方法包括：获取在人机交互界面输入的语音信息；提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求；搜索与所述多个语音特征数据分别对应的图像；获取与所述多个语音特征数据对应的优先级；按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像，所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前；输出所述目标序列图像。

进一步的，所述获取与所述多个语音特征数据对应的优先级，包括：获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级。

进一步的，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级之前，包括：判断是否接收到所述语音信息的更新指令。进一步的，若是，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级，包括：获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

进一步的，所述获取与所述多个语音特征数据对应的优先级，还包括：若所述场景模式不是预设的场景模式，获取所述多个语音特征数据各自对应的权值；基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

进一步的，所述多个语音特征数据至少包括所述语音信息的音色、音调、音素、发音速度、总的时长中的一项。

进一步的，搜索与所述多个语音特征数据分别对应的图像，包括：分别搜索与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

进一步的，所述搜索与所述多个语音特征数据分别对应的图像，还包括：获取与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量；判断所述数量是否达到预设阈值；若达到，结束与所述子线程对应的搜索进程。

第二方面，本申请实施例提供了一种图像搜索装置，该装置包括：获取模块，用于获取在人机交互界面输入的语音信息；数据提取模块，用于提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求；搜索模块，用于搜索与所述多个语音特征数据分别对应的图像；优先级获取模块，用于获取与所述多个语音特征数据对应的优先级；处理模块，用于按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像，所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前；结果展示模块，用于输出所述目标序列图像。

进一步的，所述优先级获取模块具体可以用于获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级。

进一步的，所述装置还可以包括判断单元，所述判断单元可以用于在获取与所述场景模式关联的所述多个语音特征数据对应的优先级之前，判断是否接收到所述语音信息的更新指令。

进一步的，所述优先级获取模块具体可以用于若判定接收到所述语音信息的更新指令，获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

进一步的，所述优先级获取模块具体可以用于若所述场景模式不是预设的场景模式，获取所述多个语音特征数据各自对应的权值；基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

进一步的，所述搜索模块具体可以用于分别搜索与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

进一步的，所述搜索模块具体还可以用于获取与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量；判断所述数量是否达到预设阈值；若达到，结束与所述子线程对应的搜索进程。

第三方面，本申请实施例提供了一种终端设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种图像搜索方法、装置、终端设备及存储介质。本方法通过获取在人机交互界面输入的语音信息，再提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，然后搜索与多个语音特征数据分别对应的图像，再获取与多个语音特征数据对应的优先级，然后按照优先级将与多个语音特征数据分别对应的图像进行排序，得到目标序列图像，目标序列图像中对应的优先级越高的图像的排列顺序越靠前，最后输出目标序列图像。通过上述方式实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照与多个语音特征数据对应的优先级，将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，提升了图像搜索的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的图像搜索方法的方法流程图。

图3示出了本申请另一实施例提供的图像搜索方法的方法流程图。

图4示出了本申请又一实施例提供的图像搜索方法的方法流程图。

图5示出了本申请实施例提供的图像搜索装置的结构框图。

图6示出了本申请实施例的用于执行根据本申请实施例的图像搜索方法的终端设备的结构框图。

图7示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图像搜索方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用，人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环以及AI(Artificial Intelligence，人工智能)应用最成熟的技术之一，在营销客服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如，智能图像搜索。

作为一种方式，可以通过对用户输入的搜索语音进行语音识别，以将搜索语音转换成文字，并分析出其中的关键字，然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果，并将搜索结果以图片、动画或视频等形式展现给用户。然而，在利用语音进行图像搜索时，通常会出现因语音内容识别度不高导致搜索变慢且搜索结果不准确。

发明人在研究中发现，可结合用户的说话习惯，通过提取用户的语音信息中的多个语音特征数据，然后搜索与多个语音特征数据分别对应的图像，然后按照这些语音特征数据所对应的优先级将得到的图像进行排序，得到目标序列图像，最后输出目标序列图像，可以实现输出与用户的语音信息对应的语音特征数据匹配的图像，满足用户的个性化搜索需求，提升图像搜索的准确率。因此提出了本申请实施例中的图像搜索方法、装置、终端设备及存储介质。

为了便于更好的理解本申请实施例提供的图像搜索方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的图像搜索方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头，摄像头可设置于终端设备101配有显示屏的一面，可选的，终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是，通过摄像头可采集用户的图像数据，图像数据中包括用户的姿态信息，以辅助用于准确识别用户的搜索意图。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音数据或图像数据等等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的图像搜索方法、装置、终端设备及存储介质进行详细说明。

如图2所示，示出了本申请一实施例提供的图像搜索方法的方法流程图。本实施例提供的图像搜索方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，图像搜索方法可应用于如图5所示的搜索装置400以及图6所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的图像搜索方法具体地可以包括以下步骤：

步骤S110：获取在人机交互界面输入的语音信息。

需要说明的是，本实施例中，语音信息具体可以包括语音所属的语言(例如，可以是普通话、四川话、河南话、山东话、上海话、粤语等)、语种(例如，可以是英语、德语、法语、俄语、韩国话、日本话等)、以及语音信息所表征的用户行为的具体内容(例如，用于搜索图像的语音信息)等。不同用户的语音信息可以不同。

作为一种方式，可以获取用户通过人机交互界面实时输入的语音信息。可选的，可以是用户在人机交互界面通过终端设备的语音输入功能输入的语音信息。例如，在一个具体的应用场景中，可以通过终端设备中安装的语音助手、语音SDK(Software DevelopmentKit，软件开发工具包)或是语音识别引擎应用程序等采集用户输入的语音信息。可选的，该种方式下的语音信息可以是当前通过终端设备的人机交互界面与终端设备进行交互的用户的语音信息，或者可以是用户在通过终端设备进行通话过程中获取到的用户的语音信息。

作为另一种方式，可以在终端设备的人机交互界面设置语音信息的选择控件，用户通过该控件可以选择导入预先存储的语音信息作为在人机交互界面输入的语音信息。其中，预先存储的语音信息可以是用户通过终端设备的语音录制功能预先录入的语音信息(例如，预先录入的一句话、一段话或音频等)，或者可以是用户历史搜索记录中缓存的语音信息，或者是用户从网络上下载的语音信息(例如，从抖音APP上下载保存的某段用户感兴趣的语音信息)，或者也可以是用户通过语音处理软件将自己的语音信息与用户感兴趣的某位艺人、网络用户的语音进行合成后的语音信息等，对于语音信息的格式、内容以及来源不作限定。

可选的，对于获取到的用户的语音信息，终端设备可以将这些语音信息进行存储，继而判断语音信息中是否包括用于图像搜索的关键字，其中，用于图像搜索的关键字可以预先定义，以便于终端设备可以通过识别语音信息中是否包括预先定义的图像搜索关键字，进而将对应的语音信息加入待搜索图像队列。

可选的，为了进一步的减少数据冗余，终端设备也可以在获取了用户的语音信息的情况下，判断语音信息是否用于图像搜索，若是用于图像搜索，那么可以获取对应的语音信息并将这些语音信息作为在人机交互界面输入的语音信息；而若该语音信息不是用于图像搜索，那么将舍弃这些语音信息，或者提示用户重新输入语音信息。可选的，可以通过判断语音信息中是否包括预先定义的图像搜索关键字来判断语音信息是否用于图像搜索。可以理解的是，若包括，那么可以判定语音信息是用于图像搜索；而若不包括，那么可以判定语音信息不是用于图像搜索。

作为一种实施方式，终端设备可以实时监测安装的搜索类应用程序的搜索指令是否被触发。可选的，若监测到搜索指令被触发，那么为了减少长时间获取语音信息带来的功耗问题，可以在监测到搜索类应用程序的搜索指令被触发时，开始获取用户在人机交互界面输入的语音信息。

步骤S120：提取所述语音信息中的多个语音特征数据。

语音，即语言的物质外壳，是语言的外部形式，是最直接地记录人的思维活动的符号体系。它是人的发音器官发出的具有一定社会意义的声音。语音的物理基础主要有音高、音强、音长、音色，这也是构成语音的四要素。音高指声波频率，即每秒钟振动次数的多少；音强指声波振幅的大小；音长指声波振动持续时间的长短，也称为"时长"；音色指声音的特色和本质，也称作"音质"。人的发音器官及其活动情况是语音的生理基础。人的发音器官分3部分：(1)呼吸器官，包括肺、气管和支气管。肺是呼吸器官的中心，是产生语音动力的基础。(2)喉头和声带，它们是发音的振颤体。(3)口腔、咽腔、鼻腔，它们都是发音的共鸣器。

可以理解的是，语音是具有生理属性的，即它是由人的生理发音器官发出来的。那么不同的用户的生理属性存在差异，即不同用户所发出的语音不同。那么，作为一种方式，可以对用户的语音信息中的语音特征数据进行提取，进而基于语音特征数据搜索符合用户搜索意图的图像。其中，本申请实施例中的语音信息可以包括多个语音特征数据，多个语音特征数据对应用户不同的搜索需求。可选的，多个语音特征数据可以至少包括语音信息的音高、音强(等同于音量)、音长、音色、音调(即语音声音频率的高低)、音素(根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素)、发音速度(表征用户发音的快慢)、总的时长(表征用户的说话时长)中的一项。可选的，实际实现时可以包括更多或更少的语音特征数据，在此不一一例举，且不作为限定。

可以理解的是，不同用户的生理属性不同，那么不同用户的语音信息所包括的多个语音特征数据可以不同。

需要说明的是，对于同一用户，在不同情绪下说出的语音信息的多个语音特征数据可以不同。例如，一个人情绪激动时语音信息的音强高、发音速度快、说话时长较长，而情绪低落时语音信息的音强低、发音速度慢、说话时长较短等。可选的，若同一用户采用不同的语言或语种进行说话时，所对应的语音信息的多个语音特征数据也可以不同。例如，用户用英文表达“这周末如果不下雨，我们去爬山”，与用户用中文表达“这周末如果不下雨，我们去爬山”时，由于语言特性，以及发音速度的调整，与用户的语音信息对应的多个语音特征数据可以不同。

作为一种方式，可以将获取到的语音信息送入特征提取模块进行特征提取，再用预先训练得到的声学模型与语言模型对所提取得到的语音特征进行解码，可以得到语音信息的多个语音特征数据。通过提取语音信息中的多个语音特征数据，可以实现基于语音特征数据搜索符合用户的搜索意图的图像数据，满足了用户的个性化搜索需求，从而提升个性化用户体验。

步骤S130：搜索与所述多个语音特征数据分别对应的图像。

作为一种方式，在提取了语音信息中的多个语音特征数据的情况下，可以对每一类语音特征数据分别构建索引，此处索引可以理解为用于唯一确定单个语音特征数据的搜索标识，继而开启多线程并行搜索与多个语音特征数据分别对应的图像。

需要说明的是，多个语音特征数据的索引可以预先构建，且语音信息的不同的语音特征数据，与用户的搜索意图对应的图像搜索结果的对应关系以及对应规则等可以预先设定。例如，假设与用户的搜索意图对应的图像搜索结果为“餐巾纸”，那么如果只是将搜索结果进行简单排列展示给用户，会给用户带来选择困扰；另外，若将搜索结果按照销量、价格高低、搜索热度等惯有的排列方式将搜索结果展示给用户，会显得过于机械化，且有一定的商业广告效应(例如，有些排列靠前的搜索结果的销量可能是利用特定手段刷出来的)，不能真正贴合于用户的搜索意图，展示与用户的搜索意图相关度高的图像搜索结果。

作为一种方式，可以将多个语音特征数据中的“音高、音强、音长、音色、音调、音素、发音速度、总的时长”分别与“餐巾纸”中“搜索热度高的餐巾纸”、“品牌知名度高的餐巾纸”、“纸张厚度较厚的餐巾纸”、“外形包装美观、设计感强的餐巾纸”、“价格相对较高的餐巾纸”、“体积小、便携带的餐巾纸”、“材质最好的餐巾纸”、“婴幼儿适用的餐巾纸”进行对应，那么在搜索与多个语音特征数据分别对应的图像时，可以分别搜索出满足各类餐巾纸的定义规则的图像，从而帮助用户根据搜索结果选择符合用户搜索意图的餐巾纸。

需要说明的是，关于多个语音特征数据和与用户的搜索意图对应的各类图像搜索结果的对应关系以及对应规则可以按照实际需求进行设定。且在实际应用时，在必要的情况下也可以将不同的语音特征数据和与用户的搜索意图对应的相同的图像搜索结果进行对应，具体对应关系以及对应规则的设定方式可以不作限定。

需要说明的是，本申请实施例中搜索得到的图像可以包括但不限于图片、视频、动画、广告等内容或它们之间的任意组合，具体内容以及格式不作限定。

通过开启多线程并行搜索与多个语音特征数据分别对应的图像可以提升搜索速度，且可以提升搜索的趣味性。

步骤S140：获取与所述多个语音特征数据对应的优先级。

其中，与多个语音特征数据对应的优先级即语音特征数据中的音高、音强、音长、音色、音调、音素、发音速度、总的时长之间的优先级(即多个语音特征数据的排列顺序)，例如，多个语音特征数据的优先级可以为“音高>音强>音长>音色>音调>音素>发音速度>总的时长”、或者可以为“音强>音色>音调>音高>音长>发音速度>音素>总的时长”等。其中，具体的排列顺序可以根据需要进行设定。

作为一种实施方式，不同的场景下多个语音特征数据之间的优先级排列顺序可以变化，例如，语音特征数据“音调”的排列顺序在第一场景可以为第一，而在第二场景可以为第三，其中，第一场景和第二场景为不同的场景。

作为一种方式，多个语音特征数据之间的优先级可以预先设定并存储至终端设备。在这种情况下，可以直接获取预先存储的与多个语音特征数据对应的优先级。作为另一种方式，由于用户在说话过程中的语音信息可以是变化的，例如因情绪的变化，所说出来的语音信息的多个语音特征数据之间的优先级会有变化；或者说是用户采用了不同的语言或语种进行表达时，语音信息的多个语音特征数据之间的优先级可能会存在变化。因而，在这种情况下，多个语音特征数据之间的优先级可以实时调整，那么可以获取与用户当前的语音信息实时匹配的多个语音特征数据对应的优先级。可选的，与用户当前的语音信息实时匹配的多个语音特征数据对应的优先级的获取方式将在后续实施例中进行详细描述。

步骤S150：按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像。

作为一种方式，在搜索出了与多个语音特征数据分别对应的图像，并且获取了与多个语音特征数据对应的优先级的情况下，可以按照所得到的多个语音特征数据之间的优先级将与多个语音特征数据分别对应的图像进行排序，从而可以得到目标序列图像。其中，目标序列图像可以理解为符合用户搜索意图，且与用户的当前语音信息中的搜索关键字对应的，满足用户个性化搜索需求的图像搜索结果。可选的，目标序列图像中对应的优先级越高的图像的排列顺序越靠前。

在一个具体的应用场景中，假设获取到的语音信息的多个语音特征数据分别为：音高、音强、音长、音色、音调、音素，用户的搜索意图为餐巾纸，预先定义其中的音高对应的图像搜索结果为“搜索热度高的餐巾纸”，预先定义其中的音强对应的图像搜索结果为“品牌知名度高的餐巾纸”，预先定义其中的音长对应的图像搜索结果为“纸张厚度较厚的餐巾纸”，预先定义其中的音色对应的图像搜索结果为“外形包装美观、设计感强的餐巾纸”，预先定义其中的音调对应的图像搜索结果为“价格相对较高的餐巾纸”，预先定义其中的音素对应的图像搜索结果为“体积小、便携带的餐巾纸”。在这种情况下，若获取到这些语音特征数据对应的优先级为“音调>音色>音强>音高>音素>音长”，那么可以按照这些语音特征数据对应的优先级将对应的图像搜索结果的排列顺序调整为“价格相对较高的餐巾纸”、“外形包装美观、设计感强的餐巾纸”、“品牌知名度高的餐巾纸”、“搜索热度高的餐巾纸”、“体积小、便携带的餐巾纸”、“纸张厚度较厚的餐巾纸”。

步骤S160：输出所述目标序列图像。

作为一种方式，对于获取到的目标序列图像，可以以图像、视频、动画等形式输出，具体的目标序列图像的输出方式不作限定。

通过按照多个语音特征数据的优先级将与多个语音特征数据分别对应的图像进行排序再进行输出的方式，可以使最终得到的图像搜索结果更加符合用户的语音信息的语音特征，搜索出与用户的搜索意图更加匹配的结果，提升个性化用户体验。

本实施例提供的图像搜索方法，通过获取在人机交互界面输入的语音信息，再提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，然后搜索与多个语音特征数据分别对应的图像，再获取与多个语音特征数据对应的优先级，然后按照优先级将与多个语音特征数据分别对应的图像进行排序，得到目标序列图像，目标序列图像中对应的优先级越高的图像的排列顺序越靠前，最后输出目标序列图像。通过上述方式实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，提升了图像搜索的准确率。

如图3所示，示出了本申请另一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S210：获取在人机交互界面输入的语音信息。

步骤S220：提取所述语音信息中的多个语音特征数据。

步骤S230：搜索与所述多个语音特征数据分别对应的图像。

步骤S240：获取与所述语音信息匹配的场景模式。

作为一种方式，可以对语音信息所包含的内容进行关键字提取，进而从关键字判断获取与语音信息匹配的场景模式。可选的，不同的场景模式下可以包括专有的场景关键字。

例如，对于教学场景(包括实体教学场景以及网络教学场景)，出现频率较高的关键字(词)可以包括“题型、同学们、课后、解题、记忆力”等，运动场景可以包括关键字(词)“配速、操场、篮球、点位、力度”等，商务交谈场景“咖啡、笔记本、case、PPT、方案”等，旅游场景可以包括关键字(词)“爬山、玩、拍照、缆车、车票、天气”等。那么，可以理解的是，作为一种实施方式，可以根据语音信息中的关键字识别出与语音信息匹配的场景模式。

例如，在一个具体的应用场景中，假设用户说了句语音信息“国庆我们去哪里玩呢，爬山怎么样？”，可选的，可以从该句语音信息中提取出关键字(词)“玩、爬山”，根据前述的例举描述，可以将与用户的语音信息匹配的场景确定为旅游场景，那么可以进一步确定与语音信息匹配的场景模式为“旅游模式”。

需要说明的是，对于一些语音信息，如果从语音信息中提取出的关键字(词)不能判断出与用户的语音信息匹配的场景时，可以根据用户的语音信息确定当前可能的场景模式。例如，假设用户说了句“小王，我们什么时候可以开始吃饭呀”，从该句语音信息中可以提取出关键字(词)“吃饭”，因为“吃饭”可以是多种场景，如果仅凭关键词“吃饭”不能准确的判断出用户当前所处的场景模式，那么作为一种方式，可以结合用户的整体语音信息确定出较为准确的场景模式。例如，在该种情况下，可以根据语音信息“小王，我们什么时候可以开始吃饭呀”将当前的场景模式确定为聚会场景或者是居家场景等。可选的，对于不能根据语音信息较为准确的确定用户当前所处的场景模式的情况下，可以确定多个相关的场景作为当前与语音信息匹配的场景模式。

步骤S250：判断所述场景模式是否为预设的场景模式。

作为一种方式，在初步获取了与语音信息匹配的场景模式的情况下，可以判断所获取的场景模式是否为预设的场景模式。可选的，可以将所获取的与语音信息匹配的场景模式与预设的场景模式进行比较来判断所述场景模式是否为预设的场景模式。

其中，预设的场景模式可以是根据用户的说话习惯自定义的一些场景模式，例如，运动模式、娱乐模式、教学模式、聚餐模式、学习模式等。可选的，预设的场景模式也可以是根据用户所在环境的气氛所定义的场景模式，例如，团建模式、军事化作息模式等。不同的预设场景模式中，语音信息的多个语音特征数据的优先级不同。不同用户在同一场景模式中，各自对应的语音信息的语音特征数据的优先级也可以不同。

步骤S261：若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级。

作为一种方式，若获取到的与语音信息匹配的场景模式是预设的场景模式，那么可以直接获取与场景模式关联的多个语音特征数据对应的优先级。

例如，在一个具体的应用场景中，假设获取到的与语音信息匹配的场景模式为“教学模式”，预设场景模式中包括“教学模式”，且与“教学模式”对应的多个语音特征数据对应的优先级为“音调>音色>音强>音高>音素>音长”，那么可以将“音调>音色>音强>音高>音素>音长”作为与语音信息匹配的场景模式关联的多个语音特征数据对应的优先级。

需要说明的是，对于用户在录入语音信息的过程中，可能对于所想要搜索的目标不是很明确的情况下，可能会多次录入语音信息，即多次重复说话。那么，可以理解的是，对于用户的每一次说话，其说话时的语音信息的多个语音特征数据的优先级可能会存在变化，那么为了实现更准确的搜索，本实施例可以在获取与场景模式关联的多个语音特征数据对应的优先级的步骤之前，判断是否接收到语音信息的更新指令，即是否接收到变化的语音信息。可选的，若接收到变化的语音信息，那么将获取与更新后的语音信息的多个语音特征数据匹配的优先级，即获取与用户当前的语音信息实时匹配的优先级。其中，关于优先级的具体匹配方式以及变化规则可以参考前述实施例中的描述，在此不再赘述。

步骤S262：按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像。

步骤S263：输出所述目标序列图像。

步骤S271：获取所述多个语音特征数据各自对应的权值。

而作为另一种方式，若获取到的与语音信息匹配的场景模式不是预设的场景模式，那么可以获取语音信息的多个语音特征数据各自对应的权值。

其中，多个语音特征数据各自对应的权值可以理解为用户的语音信息中各个语音特征数据的突出程度。例如，假设用户说了句“我这件衣服是在十字路口那家最大的专卖店买的嘞，很贵的咯”，从用户的语音信息中的语境，可以分析出该句语音信息中的重要关键字(词)可以为“最大的、专卖店、贵”，而假设用户在说该句语音信息时，说道“很贵”两个字时音调很高，那么可以将关键词“很贵”与语音特征数据音调进行对应，类似的，可以将关键词“专卖店”与语音特征数据音色对应，将关键词“最大的”与语音特征数据音强对应，那么根据用户的说话情绪以及语境，将获取得到语音特征数据“音调、音色、音强”各自对应的权值可以分别确定为“60、25、15(假设各个语音特征数据的权值的总和为100)”。需要说明的是，关于多个语音特征数据各自对应的权值的具体确定方式可以结合用户的说话情绪进行确定，也可以结合用户的说话语境进行确定，或者是同时结合用户的说话情绪以及说话语境进行确定，也可以是其他的确定方式，在此不作限定。

步骤S272：基于所述权值获取当前与所述多个语音特征数据对应的优先级。

作为一种方式，在获取了多个语音特征数据各自对应的权值之后，可以基于所获取的权值获取当前与多个语音特征数据对应的优先级。其中，权值越大对应的优先级可以越高。

可选的，参照上述示例，可以得到与语音特征数据音色、音调以及音强对应的优先级为“音调>音色>音强”。通过基于获取到的与各个语音特征数据各自对应的权值确定多个语音特征数据对应的优先级可以获取与用户的语音信息实时匹配的语音特征数据的优先级，进而得到与用户的语音特征更加匹配的图像搜索结果。

步骤S273：按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像。

步骤S274：输出所述目标序列图像。

本实施例提供的图像搜索方法，实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，获取与语音信息匹配的场景模式关联的多个语音特征数据对应的优先级，或者是按照多个语音特征数据各自对应的权值获取当前与多个语音特征数据对应的优先级，按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，使得到的图像搜索结果更加符合用户的语音特征，提升了图像搜索的准确率。

如图4所示，示出了本申请又一实施例提供的图像搜索方法的方法流程图，所述方法包括：

步骤S310：获取在人机交互界面输入的语音信息。

步骤S320：提取所述语音信息中的多个语音特征数据。

步骤S330：分别搜索与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

可选的，本实施例中的语音特征数据可以包括如前述实施例中所描述的语音信息的音色、音调、音素、发音速度和/或总的时长，那么，作为一种方式，可以分别搜索与语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

作为一种实施方式，可以通过对语音信息的音色、音调、音素、发音速度和/或总的时长等语音特征数据分别建立索引，进而采取多线程并行搜索与语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。通过展开与语音信息的各个语音特征搜索与用户的搜索意图对应的图像的方式，可以减少整体搜索时长，加快搜索效率。

步骤S340：获取与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量。

需要说明的是，如果按照用户的语音信息中的多个语音特征数据进行图像搜索时，搜索数量过多，将会造成数据冗余，带来不好的用户体验；而如果搜索得到的数据过少，可能会降低搜索结果的可信度。那么为了避免上述问题，作为一种方式，可以获取与语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量，进而通过监测数量决定是否进行后续的搜索。

例如，假设获取到与“音色”对应的搜索结果为100，与“音调”对应的搜索结果为“80”，与“音强”对应的搜索结果为“50”。

步骤S350：判断所述数量是否达到预设阈值。

参照上述实施例，可以判断所获取到的通过各个语音特征数据搜索得到图像的数量是否满足预设阈值，其中，预设阈值可以预先设定，可选的，可以根据用户的历史搜索记录以及统计分析得到的多个用户的搜索习惯进行设定。可选的，假设设定的与“音色”对应的预设阈值为“100”，与“音调”对应的预设阈值为“50”，与“音强”对应的预设阈值为“20”。通过将所述数量与预设阈值进行比较可以判断出所述数量是否达到预设阈值。不同的语音特征数据搜索得到的图像数量的预设阈值可以不同。

步骤S360：若达到，结束与所述子线程对应的搜索进程。

作为一种方式，若达到预设阈值，那么可以结束达到预设阈值的子线程对应的搜索进程，限制搜索得到的图像数量的精度，实现提高搜索速度。

可以理解的是，若没有达到预设阈值，那么可以继续判断所述数量是否达到预设阈值，可选的，若没有达到，那么将循环判断。

步骤S370：获取与所述多个语音特征数据对应的优先级。

步骤S380：按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像。

步骤S390：输出所述目标序列图像。

本实施例提供的图像搜索方法，实现了对获取的语音信息进行提取后，得到对应于用户不同的搜索需求的多个语音特征数据的情况下，分别搜索与语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像，再获取与语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量，继而判断图像数量是否达到预设阈值，若达到，则结束与子线程对应的搜索进程，然后按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，加快了搜索速度。

如图5所示，示出了本申请实施例提供的图像搜索装置400的结构框图，所述装置400运行于具有显示屏或其他音频或图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备，所述装置400包括：

获取模块410，用于获取在人机交互界面输入的语音信息。

数据提取模块420，用于提取所述语音信息中的多个语音特征数据，所述多个语音特征数据对应用户不同的搜索需求。

可选的，所述多个语音特征数据至少包括所述语音信息的音色、音调、音素、发音速度、总的时长中的一项。

搜索模块430，用于搜索与所述多个语音特征数据分别对应的图像。

作为一种方式，所述搜索模块430具体可以用于分别搜索与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

可选的，所述搜索模块430具体还可以用于获取与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像的数量；判断所述数量是否达到预设阈值；若达到，结束与所述子线程对应的搜索进程。

优先级获取模块440，用于获取与所述多个语音特征数据对应的优先级。

作为一种方式，所述优先级获取模块440具体可以用于获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级。若所述场景模式不是预设的场景模式，获取所述多个语音特征数据各自对应的权值；基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

作为一种方式，所述装置还可以包括判断单元，所述判断单元可以用于在获取与所述场景模式关联的所述多个语音特征数据对应的优先级之前，判断是否接收到所述语音信息的更新指令。

作为一种方式，所述优先级获取模块440具体可以用于若判定接收到所述语音信息的更新指令，获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

处理模块450，用于按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像，所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前。

结果展示模块460，用于输出所述目标序列图像。

本实施例提供的图像搜索装置，通过获取在人机交互界面输入的语音信息，再提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，然后搜索与多个语音特征数据分别对应的图像，再获取与多个语音特征数据对应的优先级，然后按照优先级将与多个语音特征数据分别对应的图像进行排序，得到目标序列图像，目标序列图像中对应的优先级越高的图像的排列顺序越靠前，最后输出目标序列图像。通过上述方式实现了在获取了语音信息的对应于用户不同的搜索需求的多个语音特征数据的情况下，按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，提升了图像搜索的准确率。

本申请实施例提供的图像搜索装置用于实现前述方法实施例中相应的图像搜索方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的图像搜索装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图6，其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件：处理器1012、存储器1014以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分，通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集，以及调用存储在存储器1014内的数据，执行终端设备101的各种功能和处理数据。可选地，处理器1012可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1012中，单独通过一块通信芯片进行实现。

存储器1014可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图7，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的图像搜索方法、装置、终端设备及存储介质，通过获取在人机交互界面输入的语音信息，再提取语音信息中的多个语音特征数据，多个语音特征数据对应用户不同的搜索需求，然后搜索与多个语音特征数据分别对应的图像，再获取与多个语音特征数据对应的优先级，然后按照优先级将与多个语音特征数据分别对应的图像进行排序，得到目标序列图像，目标序列图像中对应的优先级越高的图像的排列顺序越靠前，最后输出目标序列图像。通过上述方式实现了在获取了语音信息的对应于用户不同的搜索需求的多个语音特征数据的情况下，按照与多个语音特征数据对应的优先级将搜索得到的与多个语音特征数据分别对应的图像进行排序，以得到与用户搜索需求对应的目标序列图像，提升了图像搜索的准确率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像搜索方法，其特征在于，所述方法包括：

获取在人机交互界面输入的语音信息；

提取所述语音信息中的多个语音特征数据，所述多个语音特征数据包括所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项，所述音高、音强、音长、音色、音调、音素、发音速度、总的时长分别对应用户定义的不同的搜索规则；

搜索与所述多个语音特征数据分别对应的图像，所述搜索与所述多个语音特征数据分别对应的图像的步骤包括：分别搜索与所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项对应的图像；

获取与所述语音信息匹配的场景模式；

判断所述场景模式是否为预设的场景模式，不同的预设的场景模式中，所述语音信息的多个语音特征数据的优先级不同；

若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级；

按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像，所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前；

输出所述目标序列图像。

2.根据权利要求1所述的方法，其特征在于，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级的步骤之前还包括：

判断是否接收到所述语音信息的更新指令；

若是，所述获取与所述场景模式关联的所述多个语音特征数据对应的优先级的步骤包括：

获取与更新后的所述语音信息的多个语音特征数据匹配的优先级。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若不是，获取所述多个语音特征数据各自对应的权值；

基于所述权值获取当前与所述多个语音特征数据对应的优先级，所述权值越大对应的优先级越高。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项对应的图像的数量；

判断所述数量是否达到预设阈值；

若达到，结束与达到所述预设阈值的子线程对应的搜索进程。

5.一种图像搜索装置，其特征在于，所述装置包括：

获取模块，用于获取在人机交互界面输入的语音信息；

数据提取模块，用于提取所述语音信息中的多个语音特征数据，所述多个语音特征数据包括所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项，所述音高、音强、音长、音色、音调、音素、发音速度、总的时长分别对应用户定义的不同的搜索规则；

搜索模块，用于搜索与所述多个语音特征数据分别对应的图像，所述搜索与所述多个语音特征数据分别对应的图像的步骤包括：分别搜索与所述语音信息的音高、音强、音长、音色、音调、音素、发音速度、总的时长中的至少两项对应的图像；

优先级获取模块，用于获取与所述语音信息匹配的场景模式；判断所述场景模式是否为预设的场景模式，不同的预设的场景模式中，所述语音信息的多个语音特征数据的优先级不同；若是，获取与所述场景模式关联的所述多个语音特征数据对应的优先级；

处理模块，用于按照所述优先级将所述与所述多个语音特征数据分别对应的图像进行排序，得到目标序列图像，所述目标序列图像中对应的优先级越高的图像的排列顺序越靠前；

结果展示模块，用于输出所述目标序列图像。

6.一种终端设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-4任一项所述的方法。

7.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-4任一项所述的方法。