CN109710796A

CN109710796A - 基于语音的图片搜索方法、装置、存储介质及终端

Info

Publication number: CN109710796A
Application number: CN201910032376.3A
Authority: CN
Inventors: 郭子亮
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-05-03

Abstract

本申请实施例公开了基于语音的图片搜索方法、装置、存储介质及终端。该方法包括：接收第一语音信息；从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户；接收第二语音信息；从所述第二语音信息中提取第二搜索词，并根据所述第二搜索词从所述第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。本申请实施例通过采用上述技术方案，可以在利用语音进行图片搜索时，实现针对前次搜索结果的二次搜索，提升搜索结果的精准度。

Description

基于语音的图片搜索方法、装置、存储介质及终端

技术领域

本申请实施例涉及终端技术领域，尤其涉及基于语音的图片搜索方法、装置、存储介质及终端。

背景技术

语音识别技术是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。近年来，随着语音识别技术的快速发展，其所应用的领域越来越广泛。目前，语音识别技术已成功应用于各种智能终端中，使智能终端的功能更加丰富。

语音识别技术一般以语音助手的形式存在于智能终端中，用户可以利用语音助手采用自然语言的方式向终端发出命令，而终端会对用户的自然语言进行识别和理解，进而执行相应的操作，为用户带来了极大的便利。相关技术中，用户可以利用语音进行图片搜索，然而，目前基于语音的图片搜索方案仍不够完善，需要改进。

发明内容

本申请实施例提供一种基于语音的图片搜索方法、装置、存储介质及终端，可以优化基于语音的图片搜索方案。

第一方面，本申请实施例提供了一种基于语音的图片搜索方法，包括：

接收第一语音信息；

从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户；

接收第二语音信息；

从所述第二语音信息中提取第二搜索词，并根据所述第二搜索词从所述第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。

第二方面，本申请实施例提供了一种基于语音的图片搜索装置，包括：

第一语音接收模块，用于接收第一语音信息；

第一搜索模块，用于从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户；

第二语音接收模块，用于接收第二语音信息；

第二搜索模块，用于从所述第二语音信息中提取第二搜索词，并根据所述第二搜索词从所述第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的基于语音的图片搜索方法。

第四方面，本申请实施例提供了一种终端，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的基于语音的图片搜索方法。

本申请实施例中提供的基于语音的图片搜索方案，接收第一语音信息，从第一语音信息中提取第一搜索词，并根据第一搜索词进行图片搜索，将第一搜索结果反馈给用户，接收第二语音信息，从第二语音信息中识别出第二搜索词，并根据第二搜索词从第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。通过采用上述技术方案，可以在利用语音进行图片搜索时，实现针对前次搜索结果的二次搜索，提升搜索结果的精准度。

附图说明

图1为本申请实施例提供的一种基于语音的图片搜索方法的流程示意图；

图2为本申请实施例提供的另一种基于语音的图片搜索方法的流程示意图；

图3为本申请实施例提供的又一种基于语音的图片搜索方法的流程示意图；

图4为本申请实施例提供的一种基于语音的图片搜索装置的结构框图；

图5为本申请实施例提供的一种终端的结构示意图；

图6为本申请实施例提供的又一种终端的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

目前，很多终端中都设置有麦克风等声音采集部件，声音采集部件除了实现录音功能外，还能够与语音识别技术相结合来实现语音助手等功能。当终端进入语音助手功能后，用户可以采用自然语言与终端进行交互，终端可以回答用户的问题或根据用户的语音指令执行相应的操作，丰富了终端的人机交互功能，也为用户的使用带来了极大的便利。相关技术中，将语音助手等功能应用于图片搜索，由于终端中可能存储了大量图片，包括如用户日常拍摄的照片、好友发送的图片、以及从网络上下载的图片等等，当用户需要查找自己需要的图片时，往往费时费力，而借助语音助手等功能，用户可以采用自然语言表达自己的搜索意愿，由终端帮助用户自动完成图片查找。然而，相关技术中，语音助手等向用户反馈的搜索结果中往往仍包含了较多图片，用户需要在搜索结果中继续进行筛选，仍然不够便利。本申请实施例中，对基于语音的图片搜索方案进行了优化，可以提升搜索结果的精准度。

图1为本申请实施例提供的一种基于语音的图片搜索方法的流程示意图，该方法可以由基于语音的图片搜索装置执行，其中该装置可由软件和/或硬件实现，一般可集成在终端中。如图1所示，该方法包括：

步骤101、接收第一语音信息。

示例性的，本申请实施例中的终端可包括手机、平板电脑以及计算机等设备。

示例性的，可在语音助手功能或其他语音交互功能下，接收第一语音信息。需要说明的是，语音助手还可以有其他称呼，如语音助理、语音管家及语音秘书等等，本申请实施例不作限定。为了便于理解，以下将以语音助手功能为例进行说明。用户可以采用按键唤醒、图标唤醒或语音唤醒等方式触发语音助手功能，本申请实施例不做限定。在触发语音助手功能后，终端进入听音状态，如打开麦克风等声音采集部件采集环境声音数据，然后从环境声音数据中提取语音信息，作为第一语音信息。

步骤102、从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户。

示例性的，在获取到第一语音信息后，可利用语音识别技术对第一语音信息进行语义识别，进而提取其中包含的第一搜索词。

在语音助手功能下，用户可能需要借助语音助手完成很多事情，图片搜索只是其中的一种，因此，可选的，从第一语音信息中提取第一搜索词，可具体包括：判断所述第一语音信息中是否包含图片搜索事件对应的触发词，若包含，则从第一语音信息中提取第一搜索词。触发词例如可包括“找”、“搜”、“图片”及“照片”等，当识别出第一语音信息中包括图片搜索事件对应的触发词时，可认为用户想要进行图片搜索，再从第一语音信息中提取第一搜索词。例如，用户说“帮我找一下深圳的照片”，其中包含了“找”和“照片”，可认为包含图片搜索事件对应的触发词。

示例性的，第一搜索词可对应于图片搜索条件的关键词，是用户表达自己搜索意愿的词汇。第一搜索词可包括图片来源、图片生成时间、图片生成地点、以及图片包含的内容等等。如上述举例，“深圳”指的是照片拍摄地点，可作为第一搜索词。

示例性的，在提取出第一搜索词后，可将待搜索范围内的图片与第一搜索词进行匹配，将匹配结果满足预设要求的图片筛选出来作为搜索结果。待搜索范围例如可以包括终端本地存储的图片，还可以包括终端中预设应用程序(如社交类应用程序)中的图片，还可以包括互联网上的图片等等，可根据实际需求进行设置。可选的，待搜索范围可包含多个，并对应不同的优先级。例如，包括终端本地存储的图片和互联网上的图片，可以优先搜索终端本地存储的图片，当未发现满足预设要求的图片时，再从互联网上搜索满足预设要求的图片。

本申请实施例中，搜索操作可以由终端自行完成，也可借助语音助手功能对应的服务器完成，对此不做限定。由终端自行完成的好处在于，可以减少数据传输，节省网络流量等。示例性的，借助服务器完成时，所述根据所述第一搜索词进行图片搜索，包括：将所述第一搜索词发送至对应的服务端，所述第一搜索词用于指示所述服务端根据所述第一搜索词进行相应的图片搜索；接收所述服务端返回的第一搜索结果。借助服务器完成的好处在于，可以利用服务器丰富的计算资源加快搜索速度，进而提高搜索结果反馈效率。可选的，搜索操作由服务端完成时，本申请实施例还可包括：在进入语音助手功能时，判断终端中的本地图集是否发生变化；若是，则将当前本地图集更新到所述服务端。这样设置的好处在于，及时做到图集的同步，保证搜索结果的准确性。

示例性的，在根据第一搜索词完成图片搜索后，可将搜索到的图片作为第一搜索结果反馈给用户。具体的反馈形式本申请不做限定，例如可以以缩略图的形式进行显示。可选的，在进行第一搜索结果反馈的同时，语音助手还可以进行语音反馈，如播放声音“为您找到如下图片”，提升人机交互体验。

步骤103、接收第二语音信息。

一般的，第一搜索结果中可能仍包含较多数量的图片，原因可能是用户采用自然语言描述的搜索条件可能不够精准，还可能是搜索条件过于宽松，导致符合条件的图片较多。相关技术中，在将搜索结果反馈给用户后，语音助手功能不会再接收用户的用于表达本次搜索意愿的语音信息，用户只能在第一搜索结果中手动查找自己真正想要查找的图片，或者放弃本次搜索，重新搜索，仍然存在费时费力的问题。

本申请实施例中，在将第一搜索结果反馈给用户后，终端可继续在语音助手功能下接收用户输入的语音信息，用于后续的二次搜索，减少用户的手动查找操作。例如，第二语音信息可以是“找出去年拍摄的照片”。

步骤104、从所述第二语音信息中提取第二搜索词，并根据所述第二搜索词从所述第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。

示例性的，第二搜索词可对应于图片搜索条件的关键词，是用户表达自己搜索意愿的词汇。第二搜索词也可包括图片来源、图片生成时间、图片生成地点、以及图片包含的内容等等。

如上述举例，第一搜索结果中包含了较多数量的“深圳”拍摄的照片，而用户可能需要近期拍摄的，所以说出了“找出去年拍摄的照片”，其中的“去年”指的是照片拍摄时间，可作为第二搜索词。随后，终端从第一搜索结果中包含的照片中进行再次搜索，筛选出去年在深圳拍摄的照片，作为第二搜索结果反馈给用户。具体的反馈形式本申请不做限定，例如可以以缩略图的形式进行显示。可选的，在进行第二搜索结果反馈的同时，语音助手还可以进行语音反馈，如播放声音“为您筛选出如下图片”，提升人机交互体验。

本申请实施例中提供的基于语音的图片搜索方法，接收第一语音信息，从第一语音信息中提取第一搜索词，并根据第一搜索词进行图片搜索，将第一搜索结果反馈给用户，接收第二语音信息，从第二语音信息中识别出第二搜索词，并根据第二搜索词从第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。通过采用上述技术方案，可以在利用语音进行图片搜索时，实现针对前次搜索结果的二次搜索，提升搜索结果的精准度。

在一些实施例中，所述接收第二语音信息，包括：在所述将第一搜索结果反馈给用户之后的第一预设时长内，接收用户输入的第二语音信息。这样设置的好处在于，可以在允许用户再次输入语音信息的同时，通过设置第一预设时长来控制语音助手处于听音状态的时间，节省功耗。一般的，用户在看到第一搜索结果后，一般在短时间内会决定是否需要进行再次搜索，通过设置第一预设时长，可以避免终端采集过多的环境声音，进而进行过多的语音识别等操作，从而节省功耗。其中，第一预设时长可根据实际情况设置，本申请实施例不做限定，例如可以是3秒或5秒。可选的，若在到达第一预设时长时，检测到第二语音信息并未接收完毕，也就是说用户的话说了一半，可在检测到第二语音信息接收完毕时，结束听音状态。

在一些实施例中，所述接收第二语音信息，包括：在所述将第一搜索结果反馈给用户之后的第二预设时长内，显示第一标识；当所述第一标识被触发时，进入语音信息获取状态，并接收第二语音信息。这样设置的好处在于，可以在将第一搜索结果反馈给用户之后，提供进入听音状态的触发标识，即第一标识，允许用户通过触发第一标识的方式启动二次搜索流程。设置第二预设时长的好处在于，可以在有限的时间内显示第一标识，避免第一标识长时间占用屏幕的显示区域。可选的，第一标识可以以悬浮球的形式进行显示，悬浮球可以为半透明状态，触发方式例如可以是点击。

在一些实施例中，在所述接收第二语音信息之前，还包括：获取所述第一搜索结果中的图片数量；判断所述图片数量是否大于预设数量阈值，若大于，则触发接收第二语音信息。这样设置的好处在于，可以根据第一搜索结果中的图片数量自动衡量是否需要进入二次搜索流程。其中，预设数量阈值可根据实际需求设置，例如可以是5。

在一些实施例中，所述第一搜索词和所述第二搜索词包括的搜索维度包含：图集名称、时间、节日、地点、人物、场景、图片文字和图片类型中的至少一个。这样设置的好处在于，可以丰富搜索词的搜索维度，提高搜索精度。

在一些实施例中，所述第一搜索词和所述第二搜索词包括至少两个搜索维度。这样设置的好处在于，可以允许用户一次性进行多个维度的搜索，提高搜索效率。如前文举例，第一语音信息可以是“帮我找一下去年在深圳拍的照片”，这样第一搜索词就可以包括“去年”和“深圳”，也即包括了时间和地点两个搜索维度。若第一搜索结果中的图片数量人比较多，用户还可输入第二语音信息，如“找到白天我的自拍照”，这样第二搜索词就可以包括“白天”、“我”和“自拍”，也即包括了时间、人物和图集名称三个搜索维度，从而准确找到用户所需图片。

在一些实施例中，所述从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户，包括：从所述第一语音信息中提取第一搜索词，并识别所述第一搜索词中包含的至少两个搜索维度对应的语气信息；将与所述第一搜索词中包含的至少两个搜索维度相匹配的图片作为候选图集；根据所述语气信息对所述候选图集中的图片进行排序，得到第一搜索结果；将所述第一搜索结果反馈给用户。这样设置的好处在于，可以根据语气信息来确定用户对不同搜索维度的侧重程度，进而根据侧重程度进行排序，便于将更加符合用户真实搜索意愿的图片排在靠前的位置。

图2为本申请实施例提供的另一种基于语音的图片搜索方法的流程示意图，该方法包括如下步骤：

步骤201、在语音助手功能下，接收用户输入的第一语音信息。

步骤202、从第一语音信息中提取第一搜索词，并根据第一搜索词进行图片搜索，将第一搜索结果反馈给用户。

其中，第一搜索词可包括至少两个搜索维度。所述搜索维度可包括：图集名称、时间、节日、地点、人物、场景、图片文字和图片类型中的至少一个。其中，图集名称例如可以是包括相机、自拍、人物、视频、截图、蓝牙等系统图集，还可包括用户自定义的图集和第三方图集(如第三方应用程序的图集)，图集名称可以与相册中的相册名称相同；时间可包括具体的时刻，也可包括时间段等；节日可包括如春节、情人节、圣诞节以及国庆节等节日；场景可包括图片的拍摄场景等，可在拍摄时进行标记，也可在搜索时进行图片场景的识别；图片文字可以是图片中包含的文字，例如可以是拍摄场景中包含的文字，如商店招牌，还可以是经过后期图像处理在图片上添加的文字等；图片类型例如可包括静态图片和动态图片等，也可包括图片的格式，如gif及jpg等。

示例性的，可以将第一搜索结果中包含的图片显示在终端的显示屏上。可选的，可优先在终端本地相册中进行搜索，若搜索结果唯一，可跳转至相册显示搜索结果详情；若搜索结果有多个，可跳转至搜索结果选择页面。若终端本地相册中无搜索结果，可进行网络搜索，然后跳转浏览器搜索图片结果页，同时进行语音反馈，如播放声音“为您找到如下图片”。

步骤203、获取第一搜索结果中的图片数量。

步骤204、判断图片数量是否大于预设数量阈值，若是，则执行步骤205；否则，结束流程。

示例性的，当第一搜索结果中的图片数量较多时，不便于用户手动查找，所以进入二次搜索流程的需求会比较强烈；而当第一搜索结果中的图片数量较少时，用户可能很快找到自己所需的图片，因此，可以不需要进入二次搜索流程。

步骤205、在将第一搜索结果反馈给用户之后的第一预设时长内，接收用户输入的第二语音信息。

示例性的，当第一搜索结果中的图片数量大于预设数量阈值时，用户看到第一搜索结果后，很可能会进行二次搜索，一般在短时间内会决定，则可直接输入第二语音信息，提高搜素效率。

步骤206、从第二语音信息中提取第二搜索词，并根据第二搜索词从第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。

示例性的，第二搜索词也包括至少两个搜索维度。所述搜索维度可包括：图集名称、时间、节日、地点、人物、场景、图片文字和图片类型中的至少一个。

本申请实施例提供的基于语音的图片搜索方法，在语音助手功能下，接收第一语音信息，从第一语音信息中提取包含多个搜索维度的第一搜索词，并根据第一搜索词进行图片搜索，将第一搜索结果反馈给用户，当搜索结果中图片数量较多时，在指定时长内接收用户输入的第二语音信息，并根据从中提取的第二搜索词从第一搜索结果中进行二次图片搜索，再将第二搜索结果反馈给用户，可以在提升搜索结果的精准度的同时，提升搜索效率。

在上述实施例的基础上，步骤202可具体包括：从所述第一语音信息中提取第一搜索词，并识别所述第一搜索词中包含的至少两个搜索维度对应的语气信息；将与所述第一搜索词中包含的至少两个搜索维度相匹配的图片作为候选图集；根据所述语气信息对所述候选图集中的图片进行排序，得到第一搜索结果；将所述第一搜索结果反馈给用户。用户在说话时，往往比较关注或重要的信息会加重语气，以表示强调，终端可以从第一语音信息中识别出每个搜索维度对应的语气信息，从而确定用户更加重视哪个搜索维度。示例性的，可根据语气信息对应的轻重程度来确定图片的排列顺序，如可以按照语气由重到轻的顺序对图片进行排序。具体的，在将与所述第一搜索词中包含的至少两个搜索维度相匹配的图片作为候选图集之后，还包括：记录候选图集中每个图片与所述至少两个搜索维度对应的匹配程度值。相应的，所述根据所述语气信息对所述候选图集中的图片进行排序，可包括：根据语气信息由重到轻的顺序对所述至少两个搜索维度进行维度排序；对于候选图集中的每个图片，对当前图片对应的至少两个匹配程度值进行匹配度排序，并确定匹配度排序与维度排序的一致程度；按照一致程度由高到低的顺序对候选图集中的图片进行排序，得到第一搜索结果。

例如，第一搜索词中包含了3个搜索维度A、B和C，用户在输入第一语音信息时，3个搜索维度对应的搜索词的语气信息从重到轻分别为B、C和A，那么在进行排序时，将与B、C和A的匹配程度依次降低的图片优先排到前面，这样在显示第一搜索结果时，可以让用户先看到自己比较关注的搜索维度的图片。

图3为本申请实施例提供的又一种基于语音的图片搜索方法的流程示意图，该方法包括：

步骤301、检测到语音助手功能被触发。

步骤302、进入语音助手功能，在确定终端中的本地图集发生变化时，将当前本地图集更新到语音助手对应的服务端。

示例性的，本申请中的首次图片搜索操作可以由服务端来完成，可提高搜索效率，为了保证搜索范围的准确性，可以在语音助手功能启动时进行本地图集的更新同步。

步骤303、接收用户输入的第一语音信息。

步骤304、当第一语音信息中包含图片搜索事件对应的触发词时，从第一语音信息中提取第一搜索词，并识别第一搜索词中包含的至少两个搜索维度对应的语气信息。

其中，所述搜索维度可包括：图集名称、时间、节日、地点、人物、场景、图片文字和图片类型中的至少一个。

步骤305、将第一搜索词发送至对应的服务端，指示服务端根据第一搜索词进行相应的图片搜索，将与第一搜索词中包含的至少两个搜索维度相匹配的图片作为候选图集，根据语气信息对候选图集中的图片进行排序，得到第一搜索结果，接收服务端返回的第一搜索结果。

步骤306、将第一搜索结果反馈给用户。

步骤307、判断第一搜索结果中的图片数量是否大于预设数量阈值，若是，则执行步骤308；否则，结束流程。

步骤308、在将第一搜索结果反馈给用户之后的第二预设时长内，显示悬浮球标识。

步骤309、当悬浮球标识被触发时，进入语音信息获取状态，并接收用户输入的第二语音信息。

步骤310、从第二语音信息中提取第二搜索词，并根据第二搜索词从第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。

本申请实施例中，二次搜索操作可以由终端自行完成，此时搜索范围已经在首次搜索基础上有所减少，可以减少与服务器之间的数据传输，节省流量。

可选的，本步骤可具体包括：从第二语音信息中提取第二搜索词，并识别第二搜索词中包含的至少两个搜索维度对应的语气信息；将第一搜索结果中与第二搜索词中包含的至少两个搜索维度相匹配的图片作为第二候选图集；根据语气信息对第二候选图集中的图片进行排序，得到第二搜索结果；将第二搜索结果反馈给用户。这样设置的好处在于，可以基于语气信息对第二搜索结果中的图片进行排序，便于将更加符合用户真实搜索意愿的图片排在靠前的位置。

本申请实施例提供的基于语音的图片搜索方法，在进入语音助手功能时，对将本地图集更新同步至对应的服务端，在进行首次搜索时，终端从第一语音信息中提取出第一搜索词，并发送给服务端，借助服务端快速完成首次图片搜索，终端根据不同搜索维度对应的语气信息对搜索结果进行排序显示，当首次搜索结果中包含图片数量较多时，显示悬浮球标识，允许用户输入第二语音信息，并由终端根据从第二语音信息中提取的第二搜索词从第一搜索结果中进行搜索，并向用户反馈第二搜索结果，可以提升搜索结果的精准度，并在兼顾减少数据交互的同时，进一步提升搜索效率。

图4为本申请实施例提供的一种基于语音的图片搜索装置的结构框图，该装置可由软件和/或硬件实现，一般集成在终端中，可通过执行基于语音的图片搜索方法来进行图片搜索。如图4所示，该装置包括：

第一语音接收模块401，用于接收第一语音信息；

第一搜索模块402，用于从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户；

第二语音接收模块403，用于接收第二语音信息；

第二搜索模块404，用于从所述第二语音信息中提取第二搜索词，并根据所述第二搜索词从所述第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。

本申请实施例中提供的基于语音的图片搜索装置，接收第一语音信息，从第一语音信息中提取第一搜索词，并根据第一搜索词进行图片搜索，将第一搜索结果反馈给用户，接收第二语音信息，从第二语音信息中识别出第二搜索词，并根据第二搜索词从第一搜索结果中进行图片搜索，将第二搜索结果反馈给用户。通过采用上述技术方案，可以在利用语音进行图片搜索时，实现针对前次搜索结果的二次搜索，提升搜索结果的精准度。

可选的，所述接收第二语音信息，包括：

在所述将第一搜索结果反馈给用户之后的第一预设时长内，接收第二语音信息。

可选的，所述接收第二语音信息，包括：

在所述将第一搜索结果反馈给用户之后的第二预设时长内，显示第一标识；

当所述第一标识被触发时，进入语音信息获取状态，并接收第二语音信息。

可选的，该装置还可包括：

数量获取模块，用于在所述接收第二语音信息之前，获取所述第一搜索结果中的图片数量；

数量判定模块，用于判断所述图片数量是否大于预设数量阈值，若大于，则触发接收第二语音信息。

可选的，所述第一搜索词和所述第二搜索词包括的搜索维度包含：图集名称、时间、节日、地点、人物、场景、图片文字和图片类型中的至少一个。

可选的，所述第一搜索词和所述第二搜索词包括至少两个搜索维度。

可选的，所述从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户，包括：

从所述第一语音信息中提取第一搜索词，并识别所述第一搜索词中包含的至少两个搜索维度对应的语气信息；

将与所述第一搜索词中包含的至少两个搜索维度相匹配的图片作为候选图集；

根据所述语气信息对所述候选图集中的图片进行排序，得到第一搜索结果；

将所述第一搜索结果反馈给用户。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行基于语音的图片搜索方法，该方法包括：

接收第一语音信息；

接收第二语音信息；

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDORAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的基于语音的图片搜索操作，还可以执行本申请任意实施例所提供的基于语音的图片搜索方法中的相关操作。

本申请实施例提供了一种终端，该终端中可集成本申请实施例提供的基于语音的图片搜索装置。图5为本申请实施例提供的一种终端的结构示意图。终端500可以包括：存储器501，处理器502及存储在存储器501上并可在处理器运行的计算机程序，所述处理器502执行所述计算机程序时实现如本申请实施例所述的基于语音的图片搜索方法。

本申请实施例提供的终端，可以在利用语音进行图片搜索时，实现针对前次搜索结果的二次搜索，提升搜索结果的精准度。

图6为本申请实施例提供的另一种终端的结构示意图，该终端可以包括：壳体(图中未示出)、存储器601、中央处理器(central processing unit，CPU)602(又称处理器，以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部；所述CPU602和所述存储器601设置在所述电路板上；所述电源电路，用于为所述终端的各个电路或器件供电；所述存储器601，用于存储可执行程序代码；所述CPU602通过读取所述存储器601中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序，以实现以下步骤：

接收第一语音信息；

接收第二语音信息；

所述终端还包括：外设接口603、RF(Radio Frequency，射频)电路605、音频电路606、扬声器611、电源管理芯片608、输入/输出(I/O)子系统609、其他输入/控制设备610、触摸屏612、其他输入/控制设备610以及外部端口604，这些部件通过一个或多个通信总线或信号线607来通信。

应该理解的是，图示终端600仅仅是终端的一个范例，并且终端600可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的用于图片搜索的终端进行详细的描述，该终端以手机为例。

存储器601，所述存储器601可以被CPU602、外设接口603等访问，所述存储器601可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口603，所述外设接口603可以将设备的输入和输出外设连接到CPU602和存储器601。

I/O子系统609，所述I/O子系统609可以将设备上的输入输出外设，例如触摸屏612和其他输入/控制设备610，连接到外设接口603。I/O子系统609可以包括显示控制器6091和用于控制其他输入/控制设备610的一个或多个输入控制器6092。其中，一个或多个输入控制器6092从其他输入/控制设备610接收电信号或者向其他输入/控制设备610发送电信号，其他输入/控制设备610可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器6092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏612，所述触摸屏612是用户终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统609中的显示控制器6091从触摸屏612接收电信号或者向触摸屏612发送电信号。触摸屏612检测触摸屏上的接触，显示控制器6091将检测到的接触转换为与显示在触摸屏612上的用户界面对象的交互，即实现人机交互，显示在触摸屏612上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路605，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路605接收并发送RF信号，RF信号也称为电磁信号，RF电路605将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路605可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

音频电路606，主要用于从外设接口603接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器611。

扬声器611，用于将手机通过RF电路605从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片608，用于为CPU602、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

上述实施例中提供的基于语音的图片搜索装置、存储介质及终端可执行本申请任意实施例所提供的基于语音的图片搜索方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的基于语音的图片搜索方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种基于语音的图片搜索方法，其特征在于，包括：

接收第一语音信息；

接收第二语音信息；

2.根据权利要求1所述的方法，其特征在于，所述接收第二语音信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述接收第二语音信息，包括：

4.根据权利要求1所述的方法，其特征在于，在所述接收第二语音信息之前，还包括：

获取所述第一搜索结果中的图片数量；

判断所述图片数量是否大于预设数量阈值，若大于，则触发接收第二语音信息。

5.根据权利要求1-4任一所述的方法，其特征在于，所述第一搜索词和所述第二搜索词包括的搜索维度包含：图集名称、时间、节日、地点、人物、场景、图片文字和图片类型中的至少一个。

6.根据权利要求1-4任一所述的方法，其特征在于，所述第一搜索词和所述第二搜索词包括至少两个搜索维度。

7.根据权利要求6所述的方法，其特征在于，所述从所述第一语音信息中提取第一搜索词，并根据所述第一搜索词进行图片搜索，将第一搜索结果反馈给用户，包括：

将所述第一搜索结果反馈给用户。

8.一种基于语音的图片搜索装置，其特征在于，包括：

第一语音接收模块，用于接收第一语音信息；

第二语音接收模块，用于接收第二语音信息；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于语音的图片搜索方法。

10.一种终端，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的基于语音的图片搜索方法。