CN109947971A

CN109947971A - 图像检索方法、装置、电子设备及存储介质

Info

Publication number: CN109947971A
Application number: CN201910205422.5A
Authority: CN
Inventors: 李亚乾; 陈岩; 刘耀勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-28
Anticipated expiration: 2039-03-18
Also published as: CN109947971B

Abstract

本公开提供了一种图像检索方法、装置、电子设备及计算机可读存储介质，涉及计算机技术领域，所述图像检索方法包括：对预设图像对应的语音信息进行特征提取得到预设特征向量，并将所述预设特征向量作为所述预设图像的语音特征标签存储至所述预设图像；获取检索信息并对所述检索信息进行特征提取，以得到所述检索信息的特征向量；将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果。本公开能够得到准确的检索结果，提高图像检索的精准度。

Description

图像检索方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种图像检索方法、图像检索装置、电子设备以及计算机可读存储介质。

背景技术

随着用户终端上图像储存量越来越大，需要使用户快速地回看或者搜索图像。

相关技术中，主要是基于图像识别技术，将图像内容分为常见的几大类别，然后根据用户通过语音方式或者是文字方式输入的搜索信息，匹配到相应的类别，从而呈现部分需要搜索的图像。上述方式中，搜索到的图像的准确率较低；另外由于分类的误差可能导致一些图像被漏掉，因此在检索时花费时间比较长，效率较低。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种图像检索方法、装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的无法精确检索图像的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供了一种图像检索方法，包括：对预设图像对应的语音信息进行特征提取得到预设特征向量，并将所述预设特征向量作为所述预设图像的语音特征标签存储至所述预设图像；获取检索信息并对所述检索信息进行特征提取，以得到所述检索信息的特征向量；将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果。

在本公开的一种示例性实施例中，对预设图像对应的语音信息进行特征提取得到预设特征向量包括：将所述预设图像对应的所述语音信息转化为语谱图，并采用训练好的机器学习模型对所述语谱图进行特征提取，得到所述预设特征向量；和/或通过训练好的机器学习模型对所述语音信息进行特征提取，得到所述预设特征向量。

在本公开的一种示例性实施例中，对所述检索信息进行特征提取，以得到所述检索信息的特征向量包括：将所述检索信息转化为检索语谱图，并采用所述训练好的机器学习模型对所述检索语谱图进行特征提取，以得到所述特征向量；和/或通过所述训练好的机器学习模型对所述检索信息进行特征提取，得到所述检索信息的所述特征向量。

在本公开的一种示例性实施例中，将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果包括：计算所述检索信息对应的所述特征向量与多个所述预设图像的所述预设特征向量之间的特征距离；若所述特征距离小于预设阈值，则将特征距离小于所述预设阈值的预设特征向量对应的预设图像作为所述检索结果。

在本公开的一种示例性实施例中，将特征距离小于所述预设阈值的预设特征向量对应的预设图像作为所述检索结果包括：根据所述预设图像的类型以及所述特征距离确定所述检索结果。

在本公开的一种示例性实施例中，所述特征向量以及所述预设特征向量均包括语音特征向量和/或声纹特征向量，根据所述预设图像的类型以及所述特征距离确定所述检索结果包括：若所述预设图像为第一类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离；确定所述预设特征向量中的声纹特征向量与所述特征向量中的声纹特征向量之间的第二特征距离；将所述第一特征距离和所述第二特征距离均小于所述预设阈值的预设图像中确定所述检索结果。

在本公开的一种示例性实施例中，所述特征向量以及所述预设特征向量均包括语音特征向量和/或声纹特征向量，根据所述预设图像的类型以及所述特征距离确定所述检索结果包括：若所述图像为第二类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离；从所述第一特征距离小于所述预设阈值的预设图像中确定所述检索结果。

在本公开的一种示例性实施例中，所述方法还包括：若所述特征距离小于预设阈值的预设图像有多个，则按照所述特征距离由小到大的顺序依次确定符合所述检索信息的所述检索结果。

在本公开的一种示例性实施例中，所述机器学习模型为卷积神经网络模型。

根据本公开的一个方面，提供一种图像检索装置，包括：预设特征向量提取模块，用于对预设图像对应的语音信息进行特征提取得到预设特征向量，并将所述预设特征向量作为所述预设图像的语音特征标签存储至所述预设图像；特征向量提取模块，用于获取检索信息并对所述检索信息进行特征提取，以得到所述检索信息的特征向量；结果确定模块，用于将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的图像检索方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的图像检索方法。

本示例性实施例提供的图像检索方法、装置、电子设备及计算机可读存储介质中，一方面，通过对预设图像对应的语音信息进行特征提取能够得到预设图像的语音信息的预设特征向量，并将预设特征向量作为语音特征标签存储至预设图像，进一步将检索信息的特征向量与存储的语音信息的语音特征标签进行对比，以根据对比结果确定检索信息对应的检索结果。由于将二者的特征向量进行了对比，避免了检索误差，能够确定准确的检索结果，提高图像检索精准度和检索效果。另一方面，通过对比特征向量，避免了将图像分为几个大类别进而匹配类别的步骤，也避免了分类误差而导致的部分图像无法被检索的问题，能够使得检索的范围更全面，且能快速根据对比结果确定准确的检索结果，节省检索时间，提高图像检索的效率以及用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中图像检索方法的示意图。

图2示意性示出本公开示例性实施例中提取预设特征向量的具体流程图。

图3示意性示出本公开示例性实施例中检索结果确定方法的示意图。

图4示意性示出本公开示例性实施例中第一种确定检索结果的具体流程图。

图5示意性示出本公开示例性实施例中第二种确定检索结果的具体流程图。

图6示意性示出本公开示例性实施例中图像检索装置的框图。

图7示意性示出本公开示例性实施例中的电子设备的示意图。

图8示意性示出本公开示例性实施例中的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例性实施例中，首先提供了一种图像检索方法，该图像检索方法可以应用于通过语音方式对终端中存储的图像进行搜索或者是检索的应用场景，例如搜索相册中的图像或者是搜索用户上传至某些社交平台中的图像。终端可以为智能手机、电脑、智能手表或者是其它能够采集图像并存储采集到的图像的终端。参考图1所示，对本示例性实施例中的图像检索方法进行详细说明。

在步骤S110中，对预设图像对应的语音信息进行特征提取得到预设特征向量，并将所述预设特征向量作为所述预设图像的语音特征标签存储至所述预设图像。

本示例性实施例中，预设图像指的是用户通过图像采集设备(手机、相机或者是其它图像采集设备)拍摄、采集的照片或者是视频等等，且预设图像可以存储在终端中的某个文件夹或者是其他存储位置。例如预设图像可以为用户通过智能手机拍摄的照片，且这些照片存储在智能手机的相册中。

语音信息指的是针对每一个采集的预设图像，通过音频采集设备(例如麦克风等)录入的用于描述该预设图像的语音，该语音信息包括但不限于从预设图像直接得到的信息或关键词，也可以包括从预设图像得不到的信息，具体由用户输入。具体而言，该语音信息可以用于描述预设图像是什么，可以用于描述预设图像的拍摄位置、拍摄时间或拍摄者，也可以用于描述预设图像中包含的内容(例如包括的人物对象、活动对象、人物动作、活动状态等等)，还可以用于描述拍摄预设图像时的想法或者是心情等等，但是本示例性实施例中语音信息的内容不限于此。需要说明的是，对于同样的预设图像，其对应的语音信息可以相同，也可以不同。类似地，对于不同的预设图像，其对应的语音信息可以不同，也可以相同。例如，在拍摄身份证的图像时，用户可以通过语音输入“身份证”，此时的语音信息即为“身份证”。在拍摄身份证的图像时，用户还可以通过语音输入“资料”，此时的语音信息即为“资料”。在拍摄户籍卡的图像时，用户也可以通过语音输入“资料”，此时的语音信息依旧为“资料”。

对于拍摄的预设图像，可自动保存该预设图像。与此同时，还可以存储该预设图像对应的语音信息。也就是说，在拍摄身份证的预设图像1时，若检测到用户通过语音输入的“身份证”，则将“身份证”作为预设图像1对应的语音信息进行存储。语音信息可以为采集完图像之后录入，也可以在采集图像个同时录入，此处不作特殊限定。

在存储预设图像对应的语音信息之后，可对语音信息进行分析，提取能够准确代表该语音信息的特征。其中，语音信息的特征可以用预设特征向量来表示，预设特征向量可以包括直接表示语音内容的语音特征向量、声纹特征向量或者是表示语音的其他特点(例如音色、音调等)的其他特征等等，本示例性实施例中对此不作特殊限定。

本示例性实施例中，提取预设特征向量的具体步骤包括：通过训练好的机器学习模型对预设图像的语音信息进行特征提取，以得到对应的预设特征向量。本示例性实施例中，机器学习模型包括但不限于CNN(Convolutional Neural Networks，卷积神经网络)，还可以为其他合适的机器学习模型等等。在进行特征提取之前，可先对机器学习模型进行训练，以保证得到准确的用于提取特征的机器学习模型。具体地，可将已知语音特征向量的多个历史语音信息作为样本数据，进一步地可将样本数据(即多个历史语音信息)分别输入机器学习模型，得到这些历史语音信息的实际语音特征向量。若事先已知的语音特征向量与经过机器学习模型得到的实际语音特征向量相似或者是二者之间的差距满足误差条件，则将该机器学习模型作为最终的用于特征提取的机器学习模型。若语音特征向量与实际语音特征向量不相似，则可以调整机器学习模型中的权重参数，直至事先已知的语音特征向量与实际语音特征向量相似为止，并将达到相似时的机器学习模型作为最终的用于提取特征的机器学习模型，以便对机器学习模型进行训练，得到性能较好、输出结果较稳定的机器学习模型。

在得到训练好的机器学习模型之后，可将存储的预设图像对应的语音信息输入至训练好的机器学习模型中，以提取预设图像的语音信息的特征。其中，语音信息的特征可以用预设特征向量来表示，因此，机器学习模型的输出结果即为语音信息的预设特征向量。例如，将预设图像1对应的语音信息“身份证”输入训练好的机器学习模型，即可得到“身份证”的预设特征向量为向量A。

图2中示出了对语音信息进行特征提取得到预设特征向量的方法流程图。参考图2中所示，主要包括步骤S210和步骤S220。其中：

在步骤S210中，将所述预设图像对应的语音信息转化为语谱图，并采用训练好的机器学习模型对所述语谱图进行特征提取，得到所述预设特征向量。

在本步骤中，由于音频采集设备在采集语音信息时可能带来信道噪声，从而导致提取到的语音特征准确度较低。本实施例中，可采用频域维纳滤波方法或者是其它合适的方法对获取的语音信息进行去噪处理，得到去噪后的语音信息，并基于去噪后的语音信息进行后续处理，以提高准确性。

语谱图不仅体现了语音信息的频域和时域特征，还同时展现出时域和频域两者的相互关系，从语谱图上可以观察到频域的一些特征随语音信息的发生而变化的情况；还可以观察到能量随声音过程的变化情况。所以语谱图所承载的声音信号的信息远大于单纯时域信号和单纯频域信号承载的信息。语谱图综合了频谱图和时域波形的特点，明显地显示出了声音频谱随时间的变化情况，或者说语谱图是一种动态的频谱。也可以理解为，语谱图指的是以图形的方式，通过二维角度显示一维的语音信息中与语句特性相关的信息，例如包括但不限于语音的具体内容以及语音对应的声纹等等。

具体而言，可通过将语音信息读入程序、语音信息的信号分帧加窗、能量密度谱计算、功率谱伪彩色显示等步骤，将语音信息转化为语谱图，本示例性实施例中对此不作详细描述。

本示例性实施例中，通过对语音信息进行频谱分析，得到语音信息的语谱图之后，可将语谱图输入至训练好的机器学习模型中，利用训练好的机器学习模型对语谱图进行特征提取，得到表示语音特征的预设特征向量。其中，机器学习模型包括但不限于CNN卷积神经网络、VGG神经网络等等。由于语谱图能够对语音信息以图像的方式进行描述，而卷积神经网络是一种对图像进行处理的有效方式，因此，采用卷积神经网络所提取出的语音特征能够对语音信息的特性进行准确描述。如此一来，能够提高语音识别的准确度。具体而言，机器学习模型可以包括多个卷积层和池化层，卷积层用于提取特征，池化层用于降低维度以提取主要特征，本示例性实施例中，可将卷积神经网络的倒数第一层和倒数第二层作为提取的语音信息的语音特征的预设特征向量。预设特征向量可以包括用于表示语音特征的语音特征向量以及用于表示声纹特征的声纹特征向量，例如MFCC(Mel-frequencycepstral coefficients，梅尔频率倒谱系数)特征等等。其中，通过预设特征向量中的语音特征向量，能够确定语音信息中包含的内容，即某一段语音信息说的是什么或者是某一段语音信息的具体内容；通过预设特征向量中的声纹特征向量能够确定提供语音信息的用户身份，例如采集的某一段语音信息是哪个用户的语音。

在步骤S220中，通过训练好的机器学习模型对所述语音信息进行特征提取，得到所述预设特征向量。

本步骤中，获取到语音信息后，可在对语音信息进行去噪处理后，直接将去噪后的语音信息输入至训练好的机器学习模型，以得到预设图像的语音信息对应的预设特征向量。预设特征向量的具体类型以及通过机器学习模型得到预设特征向量的过程与步骤S210中描述的类似，此处不作特殊限定。

需要说明的是，本示例性实施例中，可以只通过步骤S210中的方法提取特征，也可以只通过步骤S220中方法提取特征，还可以同时通过步骤S210和步骤S220中的方法提取预设图像的特征。除此之外，还可以通过其他合适的算法来提取预设图像对应的语音信息的预设特征向量，本示例性中对此不作特殊限定。

本示例性实施例中，通过将语音信息或者是语音信息对应的语谱图输入至训练好的机器学习模型，提取预设图像对应的语音信息的预设特征向量，能够得到比较准确的特征向量，从而提高语音识别精准度。

进一步地，在确定预设图像的语音信息的预设特征向量之后，可以将该预设特征向量存储至预设图像，以将该预设特征向量作为该预设图像的语音特征标签tag。也就是说，本示例性实施例中的语音特征标签tag是复杂的特征向量(语音信息的预设特征向量)，而不是能够直接从图像或者是语音得到的标签(例如“身份证”“学生证”等等)。其中，每一个预设图像均可以对应一个或多个语音特征标签tag，以描述预设图像的主要特征。可例如，预设图像1对应的语音信息“身份证”的预设特征向量为向量A，则预设图像的语音特征标签tag为向量A。通过将提取的预设图像对应的语音信息预设特征向量作为语音特征标签存储，相比于存储整个语音信息而言，减少了占用的存储空间，能够提高存储空间的利用率。

在步骤S120中，获取检索信息并对所述检索信息进行特征提取，以得到所述检索信息的特征向量。

本示例性实施例中，检索信息指的是用户搜索图像时，在检索界面上通过音频采集设备(例如麦克风、录音机等)输入的尚未确定与其对应的预设图像的语音信息。检索界面例如可以为用户终端中相册的检索界面或者是其它与图像相关的检索界面，此处不作特殊限定。检索信息可以为与存储的多个预设图像的语音信息相同或者是不同的语音信息，且检索信息的输入者可以与语音信息相同，也可以不同，例如，预设图像1的语音信息来源于用户A，检索信息可以来源于用户A，也可以来源于其他用户。

在步骤S210和步骤S220的基础上，提取检索信息的特征的具体过程也可以包括以下两种方法：第一种，将所述检索信息转化为检索语谱图，并采用所述训练好的机器学习模型对所述检索语谱图进行特征提取，以得到所述特征向量。其中，也可以对检索信息进行去噪处理，进而将去噪后的检索信息转化为检索语谱图，具体转化过程与步骤S210中描述的相同，此处不再赘述。此处采用的机器学习模型也可以与步骤S210中的机器学习模型相同，以保证提取的预设特征向量的准确性。整个过程可以为：将去噪后的检索信息转化成的检索语谱图，输入训练好的机器学习模型，得到检索信息对应的检索语谱图的特征向量，以作为检索信息的特征向量。例如，检索信息为“学生证”，其特征向量可以为向量B。

第二种，通过所述训练好的机器学习模型对所述检索信息进行特征提取，得到所述检索信息的所述特征向量。此处采用的机器学习模型也可以与步骤S220中的机器学习模型相同，以保证提取的预设特征向量的准确性。整个过程可以为：将去噪后的检索信息直接输入训练好的机器学习模型，得到检索信息的特征向量。例如，检索信息为“证件照”，其特征向量可以为向量C。

需要说明的是，预设图像的语音信息的预设特征向量中以及检索信息的特征向量中，均可以包括语音特征向量，也可以包括声纹特征向量，还可以包括其他特征，以便于通过多个维度来进行图像搜索，提高图像检索精准度和用户体验。本示例性实施例中，通过训练好的机器学习模型提取检索信息的特征向量，能够提高特征提取的准确性，得到能够准确描述检索信息的特征向量。

在步骤S130中，将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果。

本示例性实施例中，检索结果可以用于表示从多个预设图像中最终确定的符合检索信息的一个或者是多个预设图像。检索结果的数量具体可实际应用场景的不同而进行调整，实际应用场景例如可以包括但不限于检索信息的实际需求以及符合检索信息的预设图像的总数量等等。例如检索信息的实际需求为“身份证”，符合身份证的预设图像共有10张，则检索结果可以为10个或者是少于10个的数量。

在将特征向量与语音特征标签进行对比时，实际上指的是将特征向量与预设特征向量进行对比。具体可以计算二者之间的特征距离，并在特征距离小于预设阈值时，确定检索结果。将特征距离小于所述预设阈值的预设特征向量对应的预设图像作为所述检索结果具体包括：根据预设图像的类型以及特征距离来确定检索结果。其中，预设图像的类型主要用于确定采用哪种对比方式。预设图像的类型具体可以包括第一类型和第二类型，其中第一类型可以为加密类图像，第二类型可以为非加密类图像或者是公开类图像，但是第一类型和第二类型的具体情况并不局限于此。参考图3中所示，具体包括步骤S310至步骤S330，其中：

在步骤S310中，判断预设图像是否为第一类型图像。具体可根据数值是否符合加密条件来判断，例如加密时数据库中的数值为1，不加密时数据库中的数值为0等。

在步骤S320中，若是，则根据语音特征向量和声纹特征向量来确定检索结果。步骤S320的具体实施过程可以如图4中所示，图4中示意性示出了针对第一类型图像的确定检索结果的流程图，具体包括步骤S410至步骤S430，其中：

在步骤S410中，若所述预设图像为第一类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离。

本步骤中，如果预设图像为加密类图像等第一类型图像，则可将预设图像对应的语音信息转化为语谱图，并对语谱图进行特征提取得到的预设特征向量；或者是通过训练好的机器学习模型对所述语音信息进行特征提取，得到预设特征向量。类似地，可通过同样的方法得到检索信息的特征向量。由于预设特征向量和检索信息的特征向量中均包括表示语音内容的语音特征向量和表示语音由谁发出的声纹特征向量。进一步地，可计算预设特征向量和特征向量之间的特征距离。特征距离可以用于衡量预设特征向量与特征向量之间的差异和相似度等等，具体包括但不限于欧式距离、余弦距离、马氏距离、汉明距离等等。在本步骤中，首先可根据距离计算公式计算预设特征向量中的语音特征向量和特征向量中的语音特征向量之间的第一特征距离。

在步骤S420中，确定所述预设特征向量中的声纹特征向量与所述特征向量中的声纹特征向量之间的第二特征距离。

在本步骤中，可仍然根据上述距离计算公式确定预设特征向量中的声纹特征向量与特征向量中的声纹特征向量之间的第二特征距离。具体的计算过程与步骤S420中的步骤相同，此处不再详细赘述。

在步骤S430中，从所述第一特征距离和所述第二特征距离均小于所述预设阈值的预设图像中确定所述检索结果。

本步骤中，在步骤S410和步骤S420的基础上，可根据第一特征距离和第二特征距离来确定对比结果。对比结果用于描述检索信息的特征向量与预设图像的预设特征向量之间的差异大小。具体地，可将第一特征距离和第二特征距离分别与预设阈值进行对比。第一特征距离对应的预设阈值与第二特征距离对应的预设阈值可以相同，也可以不同，此处不做特殊限定。为了保证检索结果的准确性，预设阈值可以设置为较小的数值，例如0.1或者是0.05等等，此处以预设阈值为0.1为例进行说明。具体地，若检索信息“小A的身份证”的特征向量中语音特征向量A1和语音信息为“身份证”的预设图像1的预设特征向量中的语音特征向量A1’之间的第一特征距离小于预设阈值0.1，且声纹特征向量A2和语音信息为“身份证”的预设图像1的预设特征向量中的声纹特征向量A2’之间的第二特征距离也小于预设阈值0.1，则可认为对比结果为特征向量小于预设特征向量，此时可将“身份证”对应的预设图像1作为检索信息“小A的身份证”对应的检索结果。如果没有满足预设阈值的预设特征向量，则将特征距离最小的预设图像作为检索结果或者是将默认图像作为检索结果或者是将最新图像作为检索结果，此处不作特殊限定。

需要说明的是，本示例性实施例中对步骤S410和步骤S420的执行顺序不做特殊限定。通过图4中的步骤，基于语音信息的语音特征向量和声纹特征向量，同时对预设图像的语音信息和检索信息进行匹配，能够得到更准确的检索结果；进一步地，由于添加了声纹特征验证，提高了图像检索的私密性，保证了用户的个人隐私，提高用户体验。

除此之外，预设特征向量可以包括多个维度的特征，进而可以分别对比多个维度的特征向量的特征距离，从多个维度和角度来确定检索结果，以提高准确性，本示例性实施例对此不作详细描述。

在步骤S330中，若否，则根据语音特征向量来确定检索结果。步骤S330的具体实施过程可以如图5中所示，图5中示意性示出了针对第二类型图像的确定检索结果的流程图，具体包括步骤S510至步骤S520，其中：

在步骤S510中，若所述图像为第二类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离。

在本步骤中，如果预设图像为非加密类图像，则只要使得其语音特征匹配即可，也就是说，在检索信息中包含的语音内容与预设图像的语音信息中的语音内容匹配时，即可确定检索结果。具体地，可根据距离计算公式准确计算预设图像的语音信息的预设特征向量中的语音特征向量与检索信息的特征向量中的语音特征向量之间的第一特征距离。

在步骤S520中，从所述第一特征距离小于所述预设阈值的预设图像中确定所述检索结果。

在本步骤中，可根据第一特征距离来确定对比结果。对比结果依旧用于描述检索信息的特征向量与预设图像的预设特征向量之间的差异大小。具体地，可将第一特征距离与预设阈值进行对比。为了保证检索结果的准确性，预设阈值可以设置为较小的数值，例如0.1或者是0.05等等，此处以预设阈值为0.1为例进行说明。具体地，若预设图像为非加密类图像，检索信息“小B的身份证”的特征向量中语音特征向量B1和语音信息为“身份证”的预设图像2的预设特征向量中的语音特征向量B1’之间的第一特征距离小于预设阈值0.1，此时可将“身份证”对应的预设图像2作为检索信息“小B的身份证”对应的检索结果。类似地，如果没有满足预设阈值的预设特征向量，则将特征距离最小的预设图像作为检索结果或者是将默认图像作为检索结果或者是将最新图像作为检索结果，此处不作特殊限定。

需要补充的是，在预设图像为非加密型图像时，也可以采用语音特征和声纹特征双重验证的方式来确定检索结果，以实现个性化检索过程。

通过图5中的步骤，根据语音特征向量之间的特征距离，从多个预设图像中确定检索结果。能够提高确定检索结果的精准度和效率，为不同用户检索图像提供了便利，提高了可操作性。

需要说明的是，本示例性实施例中，也可以根据相似度是否大于设置的预设阈值或者是其他方式来计算对比结果，进而确定检索结果，此处不做特殊限定。

除此之外，如果满足条件的预设图像有多个，则可以按照特征距离由小到大的顺序，根据检索信息依次确定检索结果。检索信息中还可以包括检索结果的数量，举例而言，检索信息中需要的检索结果为3个，且与检索信息1对应的特征向量之间的特征距离的排列顺序为预设图像1、预设图像3、预设图像2，则确定的检索结果依次为预设图像1、预设图像3、预设图像2。如果满足条件的预设图像有多个，例如满足预设阈值的预设图像包括预设图像1、预设图像3、预设图像2，检索信息中需要的检索结果为1个，且与检索信息1对应的特征向量之间的特征距离的排列顺序为预设图像1、预设图像3、预设图像2，则可以将特征距离最小的一个确定为最终的检索结果，即将预设图像1作为检索信息1的检索结果。

综上所述，通过本示例性实施例中的方法，通过对预设图像的语谱图或者是语音信息，采用训练好的机器学习模型进行特征提取，能够快速得到较准确的预设图像的语音信息的预设特征向量，并进一步将检索信息的特征向量与存储的语音信息的预设特征向量进行对比，避免了图像识别导致的检索误差，能够确定准确的检索结果，提高图像检索精准度和检索效果。通过对比特征向量，避免了将图像分为几个大类别进而匹配类别的步骤，也避免了分类误差而导致的部分图像无法被检索的问题，能够增加检索范围，且能够快速根据对比结果确定准确的检索结果，节省检索时间，提高图像检索的效率以及用户体验。通过将提取的预设图像对应的语音信息的预设特征向量作为标签存储，减少了占用的存储空间，提高处理速度。根据预设图像的类型得到对应的对比方法，能够提高私密性和便利性。

本公开还提供了一种图像检索装置。参考图6所示，该图像检索装置600可以包括：

预设特征向量提取模块，用于对预设图像对应的语音信息进行特征提取得到预设特征向量，并将所述预设特征向量作为所述预设图像的语音特征标签存储至所述预设图像；

特征向量提取模块，用于获取检索信息并对所述检索信息进行特征提取，以得到所述检索信息的特征向量；

结果确定模块，用于将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果。

在本公开的一种示例性实施例中，预设特征向量提取模块包括：第一提取模块，用于将所述预设图像对应的所述语音信息转化为语谱图，并采用训练好的机器学习模型对所述语谱图进行特征提取，得到所述预设特征向量；和/或第二提取模块，用于通过训练好的机器学习模型对所述语音信息进行特征提取，得到所述预设特征向量。

在本公开的一种示例性实施例中，特征向量提取模块包括：第一提取控制模块，用于将所述检索信息转化为检索语谱图，并采用所述训练好的机器学习模型对所述检索语谱图进行特征提取，以得到所述特征向量；和/或第二提取控制模块，用于通过所述训练好的机器学习模型对所述检索信息进行特征提取，得到所述检索信息的所述特征向量。

在本公开的一种示例性实施例中，结果确定模块包括：特征距离计算模块，用于计算所述检索信息对应的所述特征向量与多个所述预设图像的所述预设特征向量之间的特征距离；对比控制模块，用于若所述特征距离小于预设阈值，则将特征距离小于所述预设阈值的预设特征向量对应的预设图像作为所述检索结果。

在本公开的一种示例性实施例中，对比控制模块包括：检索结果获取模块，用于根据所述预设图像的类型以及所述特征距离确定所述检索结果。

在本公开的一种示例性实施例中，所述特征向量以及所述预设特征向量均包括语音特征向量和/或声纹特征向量，检索结果获取模块包括：第一特征距离计算模块，用于若所述预设图像为第一类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离；第二特征距离计算模块，用于确定所述预设特征向量中的声纹特征向量与所述特征向量中的声纹特征向量之间的第二特征距离；第一检索结果确定模块，用于将所述第一特征距离和所述第二特征距离均小于所述预设阈值的预设图像中确定所述检索结果。

在本公开的一种示例性实施例中，所述特征向量以及所述预设特征向量均包括语音特征向量和/或声纹特征向量，检索结果获取模块包括：第一特征距离计算模块，用于若所述图像为第二类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离；第二检索结果确定模块，用于从所述第一特征距离小于所述预设阈值的预设图像中确定所述检索结果。

在本公开的一种示例性实施例中，所述装置还包括：结果展示模块，用于若所述特征距离小于预设阈值的预设图像有多个，则按照所述特征距离由小到大的顺序依次确定符合所述检索信息的所述检索结果。

需要说明的是，上述图像检索装置中各模块的具体细节已经在对应的图像检索方法中进行了详细描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

显示单元740可以为具有显示功能的显示器，以通过该显示器展示由处理单元710执行本示例性实施例中的方法而得到的处理结果。显示器包括但不限于液晶显示器或者是其它显示器。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像检索方法，其特征在于，包括：

对预设图像对应的语音信息进行特征提取得到预设特征向量，并将所述预设特征向量作为所述预设图像的语音特征标签存储至所述预设图像；

获取检索信息并对所述检索信息进行特征提取，以得到所述检索信息的特征向量；

将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果。

2.根据权利要求1所述的图像检索方法，其特征在于，对预设图像对应的语音信息进行特征提取得到预设特征向量包括：

将所述预设图像对应的所述语音信息转化为语谱图，并采用训练好的机器学习模型对所述语谱图进行特征提取，得到所述预设特征向量；和/或

通过训练好的机器学习模型对所述语音信息进行特征提取，得到所述预设特征向量。

3.根据权利要求2所述的图像检索方法，其特征在于，对所述检索信息进行特征提取，以得到所述检索信息的特征向量包括：

将所述检索信息转化为检索语谱图，并采用所述训练好的机器学习模型对所述检索语谱图进行特征提取，以得到所述特征向量；和/或

通过所述训练好的机器学习模型对所述检索信息进行特征提取，得到所述检索信息的所述特征向量。

4.根据权利要求1所述的图像检索方法，其特征在于，将所述特征向量与所述语音特征标签进行对比，并根据对比结果确定所述检索信息对应的检索结果包括：

计算所述检索信息对应的所述特征向量与多个所述预设图像的所述预设特征向量之间的特征距离；

若所述特征距离小于预设阈值，则将特征距离小于所述预设阈值的预设特征向量对应的预设图像作为所述检索结果。

5.根据权利要求4所述的图像检索方法，其特征在于，将特征距离小于所述预设阈值的预设特征向量对应的预设图像作为所述检索结果包括：

根据所述预设图像的类型以及所述特征距离确定所述检索结果。

6.根据权利要求5所述的图像检索方法，其特征在于，所述特征向量以及所述预设特征向量均包括语音特征向量和/或声纹特征向量，根据所述预设图像的类型以及所述特征距离确定所述检索结果包括：

若所述预设图像为第一类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离；

确定所述预设特征向量中的声纹特征向量与所述特征向量中的声纹特征向量之间的第二特征距离；

将所述第一特征距离和所述第二特征距离均小于所述预设阈值的预设图像中确定所述检索结果。

7.根据权利要求5所述的图像检索方法，其特征在于，所述特征向量以及所述预设特征向量均包括语音特征向量和/或声纹特征向量，根据所述预设图像的类型以及所述特征距离确定所述检索结果包括：

若所述图像为第二类型图像，则确定所述预设特征向量中的语音特征向量与所述特征向量中的语音特征向量之间的第一特征距离；

从所述第一特征距离小于所述预设阈值的预设图像中确定所述检索结果。

8.根据权利要求1所述的图像检索方法，其特征在于，所述方法还包括：

若所述特征距离小于预设阈值的预设图像有多个，则按照所述特征距离由小到大的顺序依次确定符合所述检索信息的所述检索结果。

9.根据权利要求2或3所述的图像检索方法，其特征在于，所述机器学习模型为卷积神经网络模型。

10.一种图像检索装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任意一项所述的图像检索方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9任意一项所述的图像检索方法。