CN112650868A

CN112650868A - 图像检索方法、装置及存储介质

Info

Publication number: CN112650868A
Application number: CN202011594908.1A
Authority: CN
Inventors: 沈文超; 邹文艺; 张鑫垒
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-13
Anticipated expiration: 2040-12-29
Also published as: CN112650868B

Abstract

本申请涉及一种图像检索方法、装置及存储介质，包括：接收查询文本；获取图像库的图像，将所述图像与所述查询文本对应组成若干文本‑图像对，所述文本‑图像对用于输入预先训练好的深度学习模型；通过预先训练好的深度学习模型对所述文本‑图像对进行文本语义信息与图像特征信息的匹配运算；根据匹配运算结果，将匹配的图像作为检索结果输出。本申请可以实现“以文搜图”，即通过输入查询文本，直接获得检索图像，检索速度快、工作效率高。

Description

图像检索方法、装置及存储介质

技术领域

本申请涉及图像检索方法、装置及存储介质，属于图像处理技术领域。

背景技术

图像检索，即给定一张查询图像，输入到检索系统，系统将其与图像库中的数十万或者数百万张图像进行比对，然后返回和查询图像最相像的前五张或者前二十张做为结果返回。该技术被广泛应用到视频监控行业中，通过图像检索，可以协助相关工作人员快速定位和分析待搜索的图像曾经出现的位置及时间点等一些关键信息。

现有的图像检索一般都是在单模态范围内实现的检索，通过输入查询图像，对查询图像提取特征信息，然后去和图像库里面其他图像的特征信息做比对，然后计算相似度。这里的模态指的是一种信息的来源或者形式，例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等，以上的每一种都可以称为一种模态。单模态检索是指检索时的输入信息和将要输出的检索结果信息的形式相同，例如，用图像去查询图像。

现有的图像检索过程，仅仅使用了图像这种单模态的特征去搜索，即“以图搜图”，这往往要求必须先给定一张查询图像，而一般情况下，相关工作人员只能收集到一些对待搜索图像进行描述的文本信息，难以收集到查询图像，而在只有文本信息的情况下，无法实现图像搜索，影响工作效率。而且，现有的“以图搜图”的图像检索，需要对输入的查询图像，额外提取图像特征信息，对图像库中的其他图像也要提取特征信息，然后再进行特征比对，算法相对复杂，检索时间较长。

发明内容

本申请提供了一种图像检索方法、装置及存储介质，以解决现有技术中“以图搜图”的图像检索方法由于必须给定用于输入检索系统的查询图片，在查询图片难以取得的情况下，图像检索无法继续进行，影响工作效率，以及“以图搜图”的方式需要额外提取查询图片的特征信息，检索速度慢的问题。

为解决上述技术问题，本申请提供如下技术方案：

第一方面，提供了一种图像检索方法，所述图像检索方法包括：

接收查询文本；

将所述查询文本与图像库中的图像一一对应组成若干文本-图像对；

通过预先训练的深度学习模型对每对文本-图像对进行匹配运算，得到匹配运算结果；其中，匹配运算包括所述文本的文本语义信息与所述图像的图像特征信息的匹配；

根据所述匹配运算结果确定与所述查询文本相匹配的图像。

本申请的技术方案通过输入查询文本，将所述查询文本与图像组成的文本-图像对，输入深度学习模型进行匹配运算，得到与查询文本匹配的图像，即为图像检索结果，本申请可以实现“以文搜图”，即：输入查询文本，直接获取图像检索结果，无需提供查询图片，提高了工作效率，节省了检索时间，检索速度快。

进一步地，根据本申请实施例第一方面所述的图像检索方法，所述通过预先训练的深度学习模型对所述文本-图像对进行匹配运算，包括：

对所述文本-图像中的图像提取序列特征，得到图像特征向量序列；

识别查询文本的语义信息，得到查询文本的语义特征向量序列；

对所述图像特征向量序列和所述语义特征向量序列进行特征融合，得到融合后的特征向量序列；

根据融合后的特征向量，输出概率分布及对应的标签序列，所述概率分布用于指示文本语义信息与图像特征信息匹配的概率。

本申请实施例的技术方案将文本与图像的特征向量经特征融合后，计算匹配的概率，得到检索结果，无需额外提取图像特征，算法简单。

进一步地，根据本申请实施例第一方面所述的图像检索方法，所述深度学习模型的网络结构包括：由CNN网络构造的图像特征提取层，RNN网络构造的语义特征提取层，concat函数构造的特征融合层，softmax函数构造的匹配运算层和LOSS层；

所述图像特征提取层的输出和语义特征提取层的输出作为特征融合层的输入，所述特征融合层的输出作为匹配运算层的输入，所述匹配运算层的输出作为LOSS层的输入。

本申请实施例的技术方案将文本与图像的特征向量经特征融合后，输入匹配运算层，由匹配运算层计算图像和文本的匹配概率，直接获得检索结果，采用该网络模型实现图像检索，可以减小跨模态检索的语义鸿沟。

进一步地，根据本申请实施例第一方面所述的图像检索方法，所述深度学习模型的训练过程，包括：

获取训练数据集，所述训练数据集包括文本-图像对样本；每个文本-图像对样本均包括文本数据、图像数据和标签；所述标签用于指示所述文本数据的文本语义信息是否与所述图像数据的图像特征信息匹配；

将文本-图像对样本对应的所述文本数据输入RNN网络，将文本-图像对样本对应的图像数据输入所述CNN网络，得到预测结果；

基于第一损失函数确定所述预测结果和对应的标签之间的第一差异；

基于所述第一差异对所述深度学习模型的参数进行迭代训练，直到所述第一差异达到预设差异范围或者迭代次数达到预设次数时停止，完成深度学习模型的训练。

进一步地，根据本申请实施例第一方面所述的图像检索方法，所述将文本-图像对样本对应的所述文本数据输入RNN网络，将文本-图像对样本对应的图像数据输入所述CNN网络，得到训练结果之前，还包括CNN网络预训练的步骤：

将训练数据集中的图像数据输入CNN网络，得到预测的图像特征向量；

基于第二损失函数确定所述预测的图像特征向量和真实的图像特征向量之间的第二差异；

基于所述第二差异对所述CNN网络特征提取网络的模型参数进行迭代训练，直至所述第一差异达到第一差异范围或迭代次数达到第一预设次数时停止，完成CNN网络预训练。

进一步地，根据本申请实施例第一方面所述的图像检索方法，所述根据所述匹配运算结果确定与所述查询文本相匹配的图像，包括：

将概率分布指示概率最大值、且标签用于指示文本的文本语义信息与图像的图像特征信息匹配的图像，确定为与所述查询文本相匹配的图像。

本申请实施例的第二方面，提供一种图像检索装置，所述装置包括：

数据接收模块，用于接收查询文本；

图像配对模块，用于将所述查询文本与图像库中的图像一一对应组成若干文本-图像对；

深度学习模块，用于通过预先训练的深度学习模型对每对文本-图像对进行匹配运算，得到匹配运算结果；其中，匹配运算包括所述文本的文本语义信息与所述图像的图像特征信息的匹配；

结果输出模块，用于根据匹配运算结果，确定与所述查询文本相匹配的图像。

本申请的技术方案通过输入查询文本，所述查询文本与图像组成的文本-图像对，输入深度学习模型进行匹配运算，得到与查询文本匹配的图像，即为图像检索结果，本申请可以实现“以文搜图”，即：输入查询文本，直接获取图像检索结果，无需提供查询图片，提高了工作效率，节省了检索时间，检索速度快。

进一步地，根据本申请实施例第二方面提供的图像肩锁装置，所述深度学习模块通过预先训练的深度学习模型对每对文本-图像对进行匹配运算，包括：

本申请实施例的第三方面，提供一种图像检索装置，所述装置包括以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序由所述处理器加载并执行，以实现本申请实施例第一方面所述图像检索方法的步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现本申请实施例第一方面所述图像检索方法的步骤

本申请的有益效果在于：本申请可以实现“以文搜图”的跨模态图像检索，即：输入查询文本，直接获取图像检索结果。本申请无需提供查询图片，提高了工作效率，节省了检索时间，检索速度快。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的图像检索系统的网络构架示意图；

图2是本申请一个实施例提供的基于图1的构架进行图像检索的流程图；

图3是本申请一个实施例提供的图像检索方法的流程图；

图4是本申请一个实施例提供的深度学习模型的网络结构示意图；

图5是本申请一个实施例提供的训练深度学习模型的流程图；

图6是本申请一个实施例提供的图像的检索结果示例图；

图7本申请另一个实施例提供的图像检索方法的流程图；

图8是本申请一个实施例提供的图像检索装置的框图；

图9是本申请一个实施例提供的图像检索装置的框图。

具体实施方式

下实施例用于说明本申请，但不用来限制本申请的范围。

图1是本申请一个实施例提供的图像检索系统的网络构架示意图，如图1所示，该系统至少包括：客户端计算机设备1和服务器设备2。

客户端计算机设备1和服务器设备2建立网络连接。可选地，客户端计算机设备1可以为用户的台式电脑、笔记本电脑或者移动终端等，客户端计算机设备1上可以安装图像检索应用程序。

基于图1的构架，图2给出了本申请实施例用户进行图像检索的流程图，如图2所示，用户进行图像检索的具体过程如下：

S101，用户通过客户端计算机设备1的图像检索应用程序输入查询文本。

所述查询文本用于描述待搜索目标图像的特征信息。

S102，服务器设备2接收所述查询文本，并将图像库中的所有图像一一与所述查询文本对应，组成若干文本-图像对。

S103，服务器设备2通过预先训练好的深度学习模型，将所述文本-图像对进行匹配运算，得到匹配运算结果。

所述匹配运算用于对查询文本的语义信息及图像特征信息进行匹配。

S104，服务器设备2根据匹配运算结果，确定与所述查询文本相匹配的图像，并发送至客户端计算机设备。

S105，客户端计算机设备接收服务器设备发送的图像，得到检索结果。

图3是本申请一个实施例提供的图像检索方法的流程图，本实施例以该方法应用于图1所示的图像检索系统中，且各个步骤的执行主体为该检索系统中的服务器设备2为例进行说明。该方法至少包括以下几个步骤：

S201:接收输入的查询文本。

具体地，查询文本用于描述待检索目标图像的特征信息。以车辆图像检索为例，查询文本信息是基于车辆图像的视觉描述，对于待检索车辆图像的特征信息描述可以包括两类：

一类是车辆本身固有的属性信息，包括：a.车辆的品牌，例如大众、福特、奔驰等；b.车身颜色，如黑色、白色、灰色等；c.车辆类型，如卡车、轿车、客车等，d.车辆视角，如正、侧、后等。

另一类是车辆所处环境的信息，包括：a.天气信息，如白天、夜晚、雨天等；b.地点信息，如地下停车场、公路、高速等。

因此，对车辆图像进行查询文本的描述，例如可以是：“一辆黄色的出租车”，或者“夜晚行驶在高速路上的白色大众轿车”或者“正视角的雪佛兰轿车”等。

S202:将所述查询文本与图像库中的图像一一对应组成若干文本-图像对。

所述文本-图像对用于输入预先训练好的深度学习模型。

具体地，图像库中存储有N张图像，在进行图像检索时，需要从图像库中检索到与查询文本内容描述一致的图像，例如接收到的查询文本的内容为“夜晚行驶在高速上的白色大众轿车”，那么就需要从图像库中查找出“夜晚在高速路上的白色大众轿车”的图像。

本实施例将图像库中的N张图像分别与查询文本“夜晚行驶在高速上的白色大众轿车”组成N个文本-图像对，将N个文本-图像对作为预先训练好的深度学习模型的输入。

S203:通过预先训练的深度学习模型对每对文本-图像对进行匹配运算，得到匹配运算结果；

其中，匹配运算包括所述文本的文本语义信息与所述图像的图像特征信息的匹配；

将步骤S202获得的N个文本-图像对一一输入深度学习模型，深度学习模型可以预测文本-图像对是否为匹配成功的对，即文本语义信息与图像特征信息是否匹配，也就是查询文本的描述内容与对应图像的特征信息是否一致。例如，输入的查询文本为“夜晚行驶在高速路上的白色大众轿车”，如果对应的图像特征信息也是白色大众轿车，且是夜晚行驶在高速上的，则判定为匹配的文本-图像对。

S204:根据匹配运算结果，得到与所述查询文本相匹配的图像作为检索结果。

根据深度学习模型的输出结果，得到相匹配的图像，该图像即为最终的检索结果。

图4为本申请实施例提供的深度学习模型的网络结构示意图，S203～S204中，深度学习模型的网络结构如图4所示，所述深度学习模型的网络结构包括：由卷积神经网络网络(Convolutional NeuralNetworks，CNN)构造的图像特征提取层、由循环神经网络(RecurrentNeuralNetwork,RNN)构造的语义特征提取层、由concat函数构造的特征融合层和由SoftMax构造的匹配运算层。

所述图像特征提取层的输入为所述图像，输出为所述图像特征向量序列；所述语义特征提取层的输入为查询文本，输出为语义特征向量序列；所述特征融合层的输入为语义特征向量序列和图像特征向量序列，输出为语义特征向量序列和图像特征向量序列融合后的特征向量序列；所述匹配运算层的输入为融合后的特征向量序列，输出为匹配运算结果。

基于图4所示的网络结构，通过该深度学习模型对文本-图像对进行匹配运算的过程如下：

S301:通过CNN网络对输入的图像提取序列特征，得到图像特征向量序列。

具体地，该卷积神经网络CNN网络的主干网络为残差网络ResNet18，本实施例为了增加图像特征的多样性，使用特征图金字塔网络(Feature Pyramid Networks，FPN)结构，即ResNet18-FPN，所述ResNet18-FPN的输出连接第一全连接层，该第一全连接层包括连接层fc1和fc2。

ResNet18包括第一残差块res1b、第二残差块res2b、第三残差块res3b、第四残差块res4b、第五残差块res5b，其中，res5b两倍上采样，并和res4b点位相加得到res4b_up，将res4b_up两倍上采样，并和res3b点位相加得到res3b_up，将res3b_up两倍上采样，并和res2b点位相加得到res2b_up，然后分别把res5b、res4b_up、res3b_up、res2b_up按照八倍、四倍、两倍、一倍(即保持不变)上采样，并将它们通过Concat融合后接fc1和fc2。

S302:通过RNN网络识别查询文本的语义信息，得到查询文本的语义特征向量序列。

具体地，RNN网络由LSTM组成，本实施例设置了两层LSTM，构成了LSTM双向循环神经网络，通过LSTM来学习词嵌入，以获得输入文本的语义信息。LSTM输出后添加了第二全连接fc3。

S303:对所述图像特征向量序列和所述语义特征向量序列进行特征融合，得到融合后的特征向量序列。

将CNN网络的fc2的输出和RNN网络的fc3的输出经过Concat融合后，接第三全连接层，本实施例的第三全连接层包括fc4和fc5两层全连接层。

S304:将所述融合后的特征向量序列输入归一化指数函数SoftMax，由SoftMax输出概率分布及对应的标签序列，所述概率分布用于指示文本语义信息与图像特征信息匹配的概率。

具体地，文本特征向量和图像特征向量经concat融合后，经fc4和fc5输出至SoftMax，SoftMax输出文本语义信息与图像特征信息匹配的概率，得到匹配的文本-特征对，从而得到最终的检索图像。

图5为本申请实施例训练深度学习模型的流程图，可选地，如图5所示，本实施例训练深度学习模型的步骤包括：

S401:获取训练数据集。

所述训练数据集为文本-图像对样本。其中，每个文本-图像对样本均包括文本数据、图像数据和标签；所述文本数据用于图像数据的特征描述，所述标签用于指示所述文本数据的文本语义信息是否与所述图像数据的图像特征信息匹配。

具体地，对获取的图像数据一一对应添加文本信息，例如对于车辆图像，添加的文本信息为车辆图像的视觉描述，本实施例对于车辆图像添加的文本信息包括车辆固有属性信息描述和车辆所处环境信息描述。对于车辆固有属性信息描述，例如，车辆品牌、车身颜色、车辆类型、车辆视角等，对于车辆所处环境信息描述，例如天气、地点等等。

其他实施方式中，可以根据实际检索图像需求，选择添加与图像对应的文本信息，本实施例在此不做限定。

每一对文本-图像对样本均标注有标签，本实施例中，如果文本-图像对样本中包含的图像特征信息与文本语义信息相匹配，则对应的标签标注为1，如果文本-图像对中包含的图像特征信息与文本描述信息不匹配，则对应的标签标注为0。例如，获取的图像数据显示的是一辆红色大众轿车，而将其对应的文本描述信息为“白色别克轿车”，则说明该文本-图像对样本的信息是不匹配的，对应的标签标注为0；如果该图像对应的文本描述信息为“红色大众轿车”，则该文本-图像对样本的信息就是匹配的，将该文本-图像对对应的标签标注为1。

为了避免数据的不均衡，保持正负样本的比例为1:3。

S402:将训练数据集中的图像数据作为CNN网络的输入，对所述CNN网络进行预训练。

本实施例对深度学习模型整体训练之前，首先将图像数据输入CNN网络，对CNN网络预训练，即对基于CNN网络的ResNet18-FPN多分类网络进行训练，CNN网络的第二损失函数采用Softmax Loss，CNN网络预训练目的是为了让CNN网络可以学习到较好的图像特征表示，便于深度学习模型的整体训练。具体包括：

将训练数据集中的图像数据输入CNN网络的ResNet18-FPN多分类网络，得到图像数据对应的特征图；特征图经过全连接层和Softmax得到预测的图像特征向量；基于第二损失函数确定所述预测的图像特征向量和真实的图像特征向量之间的第二差异；基于所述第二差异对所述CNN网络特征提取网络的模型参数进行迭代训练，直至所述第一差异达到第一差异范围或迭代次数达到第一预设次数时停止，完成CNN网络预训练。

其他实施方式中，也可以不对CNN网络进行预训练，本实施例在此不做限定。

S403:将所述训练数据集中的文本-图像对样本作为深度学习模型的输入，训练所述深度学习模型。

具体地，CNN网络预训练完成后，将文本-图像对样本作为深度学习模型的输入，保持CNN网络中ResNet18-FPN网络的所有参数层的参数不更新，全连接层fc1和fc2的参数进行迭代更新，去掉CNN网络的loss层，并结合RNN网络部分整体训练所述深度学习模型，具体包括：

将文本-图像对样本对应的所述文本数据输入RNN网络，将文本-图像对样本对应的图像数据输入所述CNN网络，得到预测结果；基于第一损失函数确定所述预测结果和对应的标签之间的第一差异；基于所述第一差异对所述深度学习模型的参数进行迭代训练，直到所述第一差异达到预设差异范围或者迭代次数达到预设次数时停止，完成深度学习模型的训练。

深度学习模型的第一损失函数使用交叉熵损失函数，公式如下：

其中N为样本数量；fi为第i个样本特征；yi为标签；LOSS为损失函数的输出。

示例性地，以“白色别克轿车的检索为例”，基于上述的深度学习模型的网络结构，识别输入的文本-图像对是否匹配的过程如下：

CNN网络从输入的车辆图像中提取序列特征，得到图像特征向量序列；

利用循环神经网络RNN网络中的长短期记忆网络(Long Short-Term Memory，LSTM)识别输入的查询文本(“白色别克轿车”)，得到语义特征向量序列；

CNN网络输出的图像特征向量序列和RNN网络输出的语义特征向量序列经concat特征融合，得到融合后的特征向量序列，融合后的特征向量序列经fc4、fc5输出，并进行SoftMax运算，根据SoftMax的运算结果，选取概率最大值对应的标签来确定相匹配的文本-图像对，并将相匹配的文本-图像对中的图像作为最终的检索结果。

具体地，对于每一对输入的文本-图像对，SoftMax函数的运算结果得到概率分布及对应的标签序列，其中概率分布用于指示文本语义信息与图像特征信息相匹配的概率。确定最大概率值，如果最大概率值对应的标签为1，则表示输入的文本-图像对是匹配的，保留对应的输入图像，作为检索结果；如果最大概率值对应的标签为0，则表示输入的文本-图像对是不匹配的，丢弃输入的图像。当所有的文本-图像对均处理完毕之后，就得到了与查询文本信息一致的目标检索图像。

图6展示了一个车辆图像的检索结果示例，以“正视角的雪佛兰轿车”为查询文本，得到的检索结果如图6所示，其中标“Matched”的，表示为与“正视角的雪佛兰轿车”相匹配的目标图像，其余为不匹配图像。

图7是本申请一个实施例提供的跨模态图像检索的流程图，本实施例以该方法应用于图1所示的跨模态图像检索系统中，且各个步骤的执行主体为该检索系统中的客户端计算机设备为例进行说明。该方法至少包括以下几个步骤：

S601:输入查询文本。

所述查询文本用于与图像库中的图像对应组成若干文本-图像对；所述文本-图像对用于输入预先训练好的深度学模型，以获得检索结果。

S602：获得检索结果。

所述检索结果为深度学习模型预测文本-图像对相匹配时，对应的输入图像。

本实施例检索方法的具体实施，请参阅上述方法实施例，在此不再赘述。

综上所述，本实施例提供的图像检索方法，基于文本特征和图像特征，建立文本和图像之间的关联，实现文本和图像的关联检索，为了能够充分习得文本特征，文本首先经过基于RNN网络的LSTM网络来学习词嵌入，以此表征文本信息；图像经过基于CNN网络的ResNet18-FPN后便可得到图像的特征信息，然后融合文本、图像特征，预测检索结果。在进行检索时“以文搜图”，即固定查询文本，依次将图像库中的每张图像和文本组合成文本-图像对，作为深度学习模型的输入，得到深度学习模型的输出，并将最大概率值对应标签为1的输入图像作为匹配的图像，从而得到检索的结果。

本申请可以只通过输入查询文本，获取待检索的目标图像，实现跨模态图像检索。避免在检索前提供查询图像，直接输入查询文本即可得到检索图像，方便快捷，检索处理速度快、效率高。可以解决现有“以图搜图”的方式，在没有查询图片的情况下，工作难以开展，且因为要额外提取图像的特征信息，数据处理速度慢的问题。

图8是本申请一个实施例提供的图像检索装置的框图，本实施例以该装置应用于图1所示的图像检索装置系统中的服务器设备2为例进行说明。该装置至少包括以下几个模块：

数据接收模块，用于接收查询文本；

本申请实施例提供的图像检索装置，可用于如上实施例中服务器设备执行的方法，相关细节参考上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

需要说明的是：上述实施例中提供的图像检索装置在进行图像检索装置时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将图像检索装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像检索装置与图像检索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请一个实施例提供的图像检索装置的框图，本实施例所述图像检索装置可以是桌上型计算机、笔记本电脑、掌上电脑以及云端服务器等计算设备，该装置可以包括，但不限于，处理器、存储器。本实施例所述图像检索装置至少包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序可在所述处理器上运行，所述处理器执行所述计算机程序时，实现上述图像检索方法实施例中的步骤，例如图3所示的图像检索方法的步骤。或者，所述处理器执行所述计算机程序时，实现上述图像检索装置实施例中各模块的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或多个模块被存储在所述存储器中，并由处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述图像检索装置中的执行过程。例如，所述计算机程序可以被分割成数据接收模块、图像配对模块、深度学习模块和结果输出模块，各模块的具体功能如下：

数据接收模块，用于接收查询文本；

处理器可以包括一个或多个处理核心，比如：4核心处理器、6核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable GateArray，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。所述处理器是所述图像检索装置的控制中心，利用各种接口和线路连接整个图像检索装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述图像检测装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、内存器件、或其他易失性固态存储器件。

本领域技术人员可以理解，本实施例所述的装置仅仅是图像检索装置的示例，并不构成对图像检索装置的限定，其他实施方式中，还可以包括更多或更少的部件，或者组合某些部件，或者不同部件，例如图像检索装置还可以包括输入输出设备、网络接入设备、总线等。处理器、存储器和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，图像检索装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现上述图像检索方法的步骤。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述图像检索方法实施例的步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像检索方法，其特征在于，所述方法包括：

接收查询文本；

根据所述匹配运算结果确定与所述查询文本相匹配的图像。

2.根据权利要求1所述的方法，其特征在于，所述通过预先训练的深度学习模型对所述文本-图像对进行匹配运算，包括：

3.根据权利要求2所述的方法，其特征在于，所述深度学习模型的网络结构包括：由CNN网络构造的图像特征提取层，RNN网络构造的语义特征提取层，concat函数构造的特征融合层，softmax函数构造的匹配运算层和Loss层；

4.根据权利要求3所述的方法，其特征在于，所述深度学习模型的训练过程，包括：

获取训练数据集，所述训练数据集包括若干个文本-图像对样本；每个文本-图像对样本均包括文本数据、图像数据和标签；所述标签用于指示所述文本数据的文本语义信息是否与所述图像数据的图像特征信息匹配；

5.根据权利要求4所述的方法，其特征在于，所述将文本-图像对样本对应的所述文本数据输入RNN网络，将文本-图像对样本对应的图像数据输入所述CNN网络，得到训练结果之前，还包括CNN网络预训练的步骤：

6.根据权利要求2所述的方法，其特征在于，所述根据所述匹配运算结果确定与所述查询文本相匹配的图像，包括：

7.一种图像检索装置，其特征在于，所述装置包括：

数据接收模块，用于接收查询文本；

8.根据权利要求7所述的装置，其特征在于，所述深度学习模块通过预先训练的深度学习模型对每对文本-图像对进行匹配运算，包括：

9.一种图像检索装置，所述装置包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序由所述处理器加载并执行，以实现如权利要求1至6任一项所述图像检索方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现如权利要求1至6任一项所述图像检索方法的步骤。