CN111444370A

CN111444370A - 图像检索方法、装置、设备及其存储介质

Info

Publication number: CN111444370A
Application number: CN202010158775.7A
Authority: CN
Inventors: 张恩伟; 蒋忻洋; 孙星; 余宗桥; 彭湃; 郭晓威; 黄小明; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-07-24

Abstract

本申请公开了一种图像检索方法、装置、设备及其存储介质。该方法包括：获取待查询的目标图像；将目标图像与待检索的图像库中至少部分图像配对成图像对；调用特征提取模型对图像对进行特征提取，得到至少两个特征向量，每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；根据特征向量从至少部分图像中获取与目标图像相关的图像序列。根据本申请实施例的技术方案，通过提取包含图像对的特征向量，利用特征向量从至少部分图像中获取与目标对象对应的相关图像序列，来提高检索图像的准确度。

Description

图像检索方法、装置、设备及其存储介质

技术领域

本申请一般涉及计算机视觉技术领域，尤其涉及图像检索方法、装置、设备及其存储介质。

背景技术

随着人工智能在视频监控场景的发展应用，对视频数据进行智能分析成为十分重要研究方向。例如在某个商场，需要在不同摄像头捕捉的图像中找到同一个人，现有的人脸识别是比较准确地视频识别技术，但是很多时候监控视频中无法捕捉到有效的人脸图像。行人重识别技术(ReID，Person re-identification)，基于行人对象的整体特征来进行识别，有效地弥补了人脸识别技术的不足。该技术在跨摄像头下针对特定行人对象的视频内容识别检索，以判断在某个摄像头下出现的特定行人对象是否出现在其他摄像头下。

但是ReID模型针对单帧图像进行特征提取，没有考虑检索过程两两图像之间的关联性，导致ReID模型检索结果准确度不高。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种图像检索方法、装置、设备及其存储介质，来提高特征的辨识能力，以便提高检索的准确性。

第一方面，本申请实施例提供了一种图像检索方法，该方法包括：

获取待查询的目标图像；

将目标图像与待检索的图像库中至少部分图像配对成图像对；

调用特征提取模型对图像对进行特征提取，得到至少两个特征向量，每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；

根据特征向量从至少部分图像中获取与目标图像相关的图像序列。

第二方面，本申请实施例提供了一种图像检索装置，该装置包括：

第一获取单元，用于获取待查询的目标图像；

配对单元，用于将目标图像与待检索的图像库中至少部分图像配对成图像对；

提取单元，用于调用特征提取模型对图像对进行特征提取，得到至少两个特征向量，所述每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；

第二获取单元，用于根据特征向量从至少部分图像中获取与目标图像相关的图像序列。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于：

该计算机程序被处理器执行时实现如本申请实施例描述的方法。

本申请实施例提供的图像检索方法、装置、设备及其存储介质，该方法通过获取待查询的目标图像；将目标图像与待检索的图像库中至少部分图像配对成图像对；调用特征提取模型对图像对进行特征提取，得到至少两个特征向量，每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；根据特征向量从至少部分图像中获取与目标图像相关的图像序列。本申请实施例将目标对象和图像库中至少部分图像配对成图像对，并通过特征提取模型对每个图像对提取与之对应的特征向量，可以获取图像对中的相关性信息，再利用特征向量从至少部分图像中获取与目标图像相关的图像序列，其可以有效地提高检索图像的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请实施例涉及的实施环境的结构示意图；

图2示出了本申请实施例提供的图像检索方法的流程示意图；

图3示出了本申请实施例提供的关于步骤203的流程示意图；

图4示出了本申请实施例提供的训练构建特征提取模型的流程示意图；

图5示出了本申请实施例提供的特征提取模型501的结构示意图；

图6示出了本申请实施例提供的训练特征提取模型的原理示意图；

图7示出了本申请实施例提供的图像检索结果的展示示意图；

图8示出了根据本申请实施例提供的图像检索装置800的示例性结构框图；

图9示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

技术术语

单图特征提取网络是指用于从单张图像中提取图像特征的模型。

图像对特征提取网络是指用于从经过图像合并处理后的图像中提取图像对特征的模型。

单图特征是指从一张图像中提取的图像特征。

图像对特征是指从两张或两张以上的图像中提取的图像特征。

请参考图1，图1示出了本申请实施例涉及的实施环境的结构示意图。

如图1所示，该实施环境包括：终端设备101，服务器102。终端设备101和服务器102之间通过通信网络相互连接，通信网络可以包括各种连接类型，例如有线通信链路、无线通信链路或者光纤光缆等。用户可以使用终端设备101经由通信网络与服务器102进行交互，例如输入待识别的行人图像，从服务器接收行人重识别结果。终端设备101上可以安装有行人重识别系统的用户客户端，用户客户端可以基于各种应用程序来实现。

终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、笔记本电脑、个人数字终端、台式计算机、智能音箱、智能手表等电子设备，但不局限于此。当终端设备101为软件时，可以安装在前述的各种电子设备中。其也可以实现为单个或多个软件或软件模块。本申请实施例对电子设备的具体类型不作任何限制。

服务器102可以提供各种服务的服务器，例如，响应于终端设备101提供的待识别的行人图像，对该行人图像进行智能分析处理，得到处理结果，并将该处理结果返回给终端设备。服务器可以是硬件，也可以是软件。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器可以单个或多个软件模块构成的，本申请实施例对服务器的具体类型不作任何限制。服务器和终端可以通过有线或者无线通信方式进行直接或者间接地连接，本申请在此不做限制。

智能分析处理的方法可以是基于人工智能算法来实现的。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在相关技术中，利用行人重识别技术解决跨摄像头跨场景下行人的识别与检索，可以对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪，其通过从摄像头的监控视频中获取原始图像，然后利用行人检测算法从原始图像中检测得到行人图像，然后基于行人图像利用ReID技术计算图像之间的距离。但是相关技术中针对行人图像提取特征的时候，是针对单帧图像进行特征提取，其提取的特征并不能很好地表征图像之间的关联关系，以致在利用提取的特征计算图像之间的距离值时，准确度不高，导致图像检测结果的准确度不高。本申请提出一种基于图像对的特征提取方法，有效地提高行人重识别方法对待识别图像的辨识能力，从而提高检索结果的准确率。

本申请实施例提供图像检索方法一般由服务器执行，相应地图像检索装置一般设置在服务器中。

请参考图2，图2示出了本申请实施例提供的图像检索方法的流程示意图。

如图2所示，该方法包括：

步骤201，获取待查询的目标图像。

在上述步骤中，待查询的目标图像是针对从监控视频中获取得到的原始图像进行行人检测得到的行人图像，或者是第三方提供的行人图像。

步骤202，将目标图像与待检索的图像库中至少部分图像配对成图像对。

在上述步骤中，图像库可以是人体图像库，这些人体图像是从不同的摄像头或不同的应用场景的监控视频中检测得到的人体图像，也可以称为行人图像。

可以通过将目标图像与图像库中至少部分图像配对成图像对。至少部分图像可以通过目标图像与其他图像之间的特征距离值来选择，例如可以分别计算目标图像与图像库中每一张图像之间的第一特征距离值；根据第一特征距离值从图像库中获取部分图像；将目标图像分别与部分图像中每一张图像配对成一个图像对。可选地，根据第一特征距离值从图像库中获取K张图像，还可以按照第一特征距离值将图像库中的图像进行相似度排序处理；然后，从相似度排序处理的结果中获取前K张图像，其中K为自然数。

假设待查询的目标图像为q，图像库为g。图像库g中至少部分图像可以是根据特征距离进行相似度排序处理后得到的。例如，将目标图像q和图像库g中每张图像分别输入到预先构建的单图特征网络中得到与目标图像q对应的单图特征，以及与每张图像对应的单图特征。然后，根据目标图像q对应的单图特征和图像库g中每张图像对应的单图特征计算第一特征距离值，按照第一特征距离值进行相似度排序处理，从相似度排序处理结果中取出排在前面的K个图像，K为自然数。K可以为任意取值，K的取值越大，检索结果的准确度越高，但是检索速度越慢。

然后，将目标图像q分别与K个图像{t₁，t₂，…，t_K}中每一张图像配对成一个图像对，则可以配对得到K个图像对。例如一个图像对为{q，t₁}。

本申请实施例通过从图像库中获取相似度较高的K张图像，然后再从K张图像中获取与目标图像相关的图像序列，有助于提升图像检索的速度。

步骤203，调用特征提取模型对图像对进行特征提取，得到至少两个特征向量。每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果。

在上述步骤，可以通过特征提取模型从图像对中提取与图像对相对应的特征向量，例如图像对A和B，输入到预先训得到特征提取网络，可以输出与图像A对应的第一特征向量，和与图像B对应的第二特征向量。其中，图像合并处理可以将图像对所包含的两张图像按照通道方向进行图像合并。

假设图像对为{q，t₁}，将图像对输入到预先构建的特征提取模型可以得到与目标图像q对应的第一特征向量，与图像t₁对应的第二特征向量。第一特征向量可以表征图像q与图像对{q，t₁}之间的关联关系。第二特征向量可以表征图像t₁与图像对{q，t₁}之间的关联关系。

在提取特征过程中，本申请提供的实施例可以提取用于表征两张图像之间关联关系的特征向量，利用这样的特征向量进行特征距离值计算，可以有效地提升检索结果的准确度。

步骤204，根据特征向量从至少部分图像中获取与目标图像相关的图像序列。

在上述步骤中，可以根据特征向量计算特征距离值，利用特征距离值对图像库中至少部分图像进行相似度排序处理，再从相似度排序处理后的结果中获取与目标图像相关的图像序列。例如，利用第一特征向量和第二特征向量计算第二特征距离值，然后根据第二特征距离值将图像库g中的至少部分图像进行相似度排序处理，将相似度排序后的结果中部分或者全部作为图像检索结果反馈给终端设备。

本申请实施例，通过从两张图像中提取特征向量，有效地提升图像特征的辨识能力。基于特征向量计算特征距离值，按照特征距离值对与目标图像相关的图像进行重排序，可以有效地提高检索结果的精准度。

为了进一步说明本申请提供实施例，请参考图3，图3示出了本申请实施例提供的图像检索方法的流程示意图。

如图3所示，步骤201、步骤202与图2描述的步骤相同。

在将目标图像与待检测的图像库中至少部分图像配对成对象对之后。

步骤2031，调用单图特征提取网络对每个图像对所包含的每张图像进行特征提取，得到与图像对所包含的每张图像一一对应的单图特征。

步骤2032，将图像对所包含的两张图像进行合并处理。

步骤2033，调用图像对特征提取网络对图像合并处理后的结果进行特征提取，得到与图像对所包含的所有图像相对应的图像对特征；

步骤2034，将每个单图特征分别与图像对特征进行特征拼接处理；

步骤2035，调用与每个单图特征对应的重编码器对特征拼接处理后的结果进行编码处理，输出至少两个特征向量。

步骤204，根据至少两个特征向量从至少部分图像中获取与目标图像相关的图像序列。

在上述步骤中，通过预先构建的特征提取模型从经合并处理后的图像中提取与图像对相对应的特征向量。其中预先构建的特征提取模型501可以参考图5，图5示出了本申请实施例提供的特征提取模型501的结构示意图。如图5所示，可以包括图像对特征提取网络5013，两个单图特征提取网络5011和5012和两个重编码器5014和5015。假设图像对为{目标图像A，配对的图像B}，将图像A输入到第一单图特征提取网络5011输出第一单图特征，将图像B输入到第二单图特征提取网络5012输出第二单图特征。

将图像A和图像B输入到合并处理模块5016进行图像合并处理，图像合并处理可以将两张图像按照色彩通道进行合并处理，例如，可以将两张图像合并处理成一张6*W*H的图像，6表示图像通道数，W表示图像宽度，H表示图像高度。

将6*W*H图像输入到图像对特征提取网络5013输出图像对特征。

将第一单图特征和图像对特征输入到第一拼接模块5017进行特征拼接。

将第二单图特征和图像对特征输入到第二拼接模块5018进行特征拼接。特征拼接，例如可以是在通道维度上进行拼接，在通道维度上拼接可以是在解卷积层(deconvolution layer)和卷积层(convolution layer)后面加上批量归一化层(BatchNormalization，简称BatchNorm或BN)，BN层是神经网络中一种特殊的层，然后再连接级联层。输入的特征图像，输出的也是特征图像。

将与第一单图特征对应的特征拼接处理后的图像输入到第一重编码器5014，输出第一特征向量；

将与第二单图特征对应的特征拼接处理后的图像输入到第二重编码器5015，输出第二特征向量。

其中第一重编码器5014和第二重编码器5015可以是多层感知机(Multi-LayerPerceptron)，也可以直接对拼接处理后的图像进行相加相乘处理。以多层感知机为例，其包括多层全连接层，将拼接处理后的图像输入到多个隐层，然后再输出到最后一层。

本申请实施例，通过从图像对中的单张图像和合并处理后的图像中提取特征信息，并对特征信息进行编码处理得到融合后的特征，可以很好地提升特征的辨识能力，有助于提升检索结果的准确度。

下面结合图4描述本申请训练构建特征提取模型的过程。请参考图4，图4示出了本申请实施例提供的训练构建特征提取模型的流程示意图。如图4所示，该方法包括：

步骤401，将训练图像集中任意两张图像进行配对，得到多个样本图像对；

在上述步骤中，训练图像集包括从监控视频中抽取的多张行人图像，行人图像是从不同摄像头或应用场景中获取的行人图像。将训练图像集中任意两张图像配对成图像对，得到多个样本图像对。

步骤402，将每个样本图像对所包含的每一张样本图像输入到待训练的单图特征提取网络进行特征提取，得到与每一张样本图像一一对应的单图特征；

在上述步骤中，待训练的单图特征提取网络包括不限于包括但不限于卷积神经网络主干网络(Convolutional Neural Network,CNN backbone)，例如，视觉几何组网络(Visual Geometry Group Network，VGGNet)、密集卷积网络(Densely ConnectedConvolutional Networks，DenseNet)，残差网络(Residual Network，ResNet)，基于部件的卷积基线网络(Part-based Convolutional Baseline，PCB)、神经架构搜索网络(NeuralArchitecture Search Network,NasNet)等，ResNet例如可以是ResNet50/101。

步骤403，将每个样本图像对所包含的两张图像进行图像合并处理；

在上述步骤中，将样本图像对所包含的两张图像进行图像合并处理，该图像合并处理可以按照色彩通道进行图像合并。也可以是其他图像合并处理方法。

步骤404，将图像合并处理后的结果输入到待训练的图像对特征提取网络进行特征提取，得到与图像合并处理后的结果相对应的图像对特征；

待训练的图像对特征提取网络包括不限于包括但不限于卷积神经网络主干网络(Convolutional Neural Network,CNN backbone)，例如，视觉几何组网络(VisualGeometry Group Network，VGGNet)、密集卷积网络(Densely Connected ConvolutionalNetworks，DenseNet)，残差网络(Residual Network，ResNet)，基于部件的卷积基线网络(Part-based Convolutional Baseline，PCB)、神经架构搜索网络(Neural ArchitectureSearch Network,NasNet)等，ResNet例如可以是ResNet50/101。

步骤405，将每个单图特征分别与图像对特征进行特征拼接处理，得到与每个单图特征一一对应的拼接特征；

在上述步骤中，将每个单图特征与图像对特征进行特征拼接处理，拼接处理可以是在通道维度上拼接。也可以是其他的特征拼接处理。

步骤406，将每个拼接特征输入到与之对应的待训练的重编码器进行编码处理，得到与每个拼接特征一一对应的特征向量；

在上述步骤中，将拼接特征进行编码处理，编码处理是将拼接特征输入到多层感知机，输出与拼接特征一一对应的特征向量，

步骤407，对图像对特征进行相似度预测处理，得到与图像对特征对应的相似度预测值。

在上述步骤中，通过将图像对特征输入到作为分类器的全连接层中，通过分类识别得到图像对特征对应的预测结果，即相似度预测处理。该预测结果为图像对的相似度预测值。

步骤408，基于预先定义的损失函数类型、特征向量以及相似度预测值，训练待训练的单图特征提取网络、待训练的图像对特征提取网络和待训练的重编码器。

可选地，步骤408还进一步包括：

根据第一损失函数计算与每个拼接特征一一对应的特征向量对应的第一函数损失值；

计算与每个样本图像对所对应的特征向量之间的欧式距离；利用欧式距离和每个样本图像对所对应的标签值以及预设阈值，计算每个样本图像对的匹配度；

根据第一损失函数计算每个与图像对特征相对应的第二损失函数值；

将第一损失函数值、匹配度和第二损失函数值按照权重求和；

再对该和求导，直到求导结果为最小值时完成训练过程。

在上述步骤中损失函数类型可以包括至少两种，针对单图特征和图像对特征的损失函数，和针对两个单图特征之间相关性的对比损失函数。其中，针对单图特征和图像对特征的损失函数，例如可以是交叉熵损失函数、三元组损失函数(triplet损失函数)、加性角度间隔损失函数(Additive Angular Margin Loss，arcface损失函数)等。

其中第一损失函数为交叉熵损失函数，则利用交叉熵损失函数和对比损失函数构建目标损失函数可以通过以下方式来实现：

根据第一损失函数计算与每个拼接特征一一对应的特征向量对应的第一函数损失值包括：

计算与每个拼接特征一一对应的特征向量与其对应的样本图像的标注特征向量之间的第一平均编码长度。

计算与每个样本图像对所对应的特征向量之间的欧式距离；利用欧式距离和每个样本图像对所对应的标签值以及预设阈值，计算每个样本图像对的匹配度。

根据第一损失函数计算每个与图像对特征相对应的第二损失函数值包括：

计算每个与图像对特征相对应的相似度预测值与其对应的样本图像对的真实值之间的第二平均编码长度。

将第一损失函数值、匹配度和第二损失函数值按照权重求和包括：

将第一平均编码长度、匹配度和第二平均编码长度按照权重求和；

再对该和求导，直到求导结果为最小值时完成训练过程。

其中，第一损失函数为triplet损失函数，利用triplet损失函数和对比损失函数构建目标损失函数可以通过以下方式来实现，计算与每个样本图像对所对应的特征向量之间的欧式距离；利用欧式距离和每个样本图像对所对应的标签值以及预设阈值，计算每个样本图像对的匹配度是相同。

根据第一损失函数计算与每个拼接特征一一对应的特征向量对应的第一函数损失值可以包括：

将每个拼接特征对应的特征向量生成第一类三元组特征；

计算第一类三元组特征中两两之间的距离值的第一差值；

根据第一损失函数计算每个与所述图像对特征相对应的第二损失函数值包括：

将每个与图像对特征相对应的相似度预测值生成第二类三元组特征；

计算第二类三元组特征中两两之间的距离值的第二差值；

将第一差值、匹配度和第二差值按照权重求和；

再对该和求导，直到求导结果为最小值时完成训练过程。

如果利用arcface函数和对比损失函数构建目标损失函数，可以通过以下方式来实现，计算与每个样本图像对所对应的特征向量之间的欧式距离；利用欧式距离和每个样本图像对所对应的标签值以及预设阈值，计算每个样本图像对的匹配度是相同。

计算每个拼接特征对应的特征向量与第一权重系数之间的第一夹角间隔值；

计算每个与图像对特征相对应的特征向量与第二权重系数之间第二夹角间隔值；

将第一夹角间隔值、匹配度和第二夹角间隔值按照权重求和；

再对该和求导，直到求导结果为最小值时完成训练过程。

下面结合图6详细描述本申请实施例提出的训练特征提取模型的方法。请参考图6，图6示出了本申请实施例提供的训练特征提取模型的原理示意图。

从训练图像集中获取样本图像对{图像A，图像B}；该训练图像集中包括多张样本图像，将样本图像进行组合得到样本图像图对。

将图像A输入到第一单图特征提取网络6011，输出与图像A对应的第一单图特征；

将图像B输入到第二单图特征提取网络6012，输出与图像B对应的第二单图特征；

在上述过程中，假设第一单图特征提取网络6011和第二单图特征提取网络6012采用基于部件的卷积基线网络PCB模型，当图像A输入到PCB模型，PCB模型中Res50的主干网络从图像A中提取H*W*C的特征图，其中H，W是图像的长和宽，C为特征维度。然后将特征图按照H方向划分成6份，并对每一份进行全局平均池化处理得到6个特征向量，将6个特征向量连接成与图像A对应的第一单图特征。同理，对图像B进行相同的处理得到与图像B对应的第二单图特征。

将图像A和图像B输入到合并处理模块6016进行图像合并处理得到合并处理后的图像；将合并处理后的图像输入到图像对特征提取网络6013，输出与合并处理后的图像对应的图像对特征；

在上述过程中，将图像A和图像B按照通道合并处理后，将合并处理后的图像输入到图像对特征提取网络6013，假设图像对特征提取网络为PCB模型，则经过合并处理后的图像也经过PCB模型中的Res50的主干网络从合并处理后的图像中提取H*W*C的特征图，其中H，W是图像的长和宽，C为特征维度。然后将该特征图按照H方向划分成6份，并对每一份进行全局平均池化处理得到6个特征向量，将6个特征向量连接成与合并处理后的图像对应的图像对特征。

将第一单图特征和图像对特征输入到第一拼接模块6017进行特征拼接处理之后得到第一拼接特征；

将第二单图特征和图像对特征输入到第二拼接模块6018进行特征拼接之后得到第二拼接特征。

将第一拼接特征输入到第一重编码器6014，输出第一特征向量；

将第二拼接特征输入到第二重编码器6015，输出第二特征向量。

在上述过程中，假设第一重编码器6014和第二重编码器6015采用多层感知器来实现。该多层感知器包含一个隐藏层，则将第一拼接特征输入到多层感知器输入层，输入层不进行任何计算，将输入层各节点的输出传入隐藏层，隐藏层根据节点间的连接权重和输入层输入的值，通过输入矩阵与权重值矩阵相乘，再根据激励函数将每个相乘结果进行判断后，输出结果至输出层，输出层输出的结果为第一特征向量或者第二特征向量。

将图像对特征输入到相似度预测模块6019，得到相似度预测值；

在上述过程中，假设相似度预测模型采用全连接层对图像对特征进行分类，得到相似度预测值。

在训练特征特征提取模型的过程中，以损失函数值的梯度最小化为目标，在损失函数值的梯度达到最小值时，使得待训练的单图特征提取网络、待训练的图像对特征网络和待训练的重编码器收敛。

构建目标损失函数部分602可以包括：

按照第一损失函数6021计算第一特征向量对应的第一损失函数值L₁₀；

按照第一损失函数6021计算第二特征向量对应的第一损失函数值L₁₁；

按照对比损失函数6022计算第一特征向量和第二特征向量的对比损失函数值L₁₂。

再按照简单平均求解L₁₀,L₁₁，L₁₂的第一损失值L₁，或者按照权重值求解L₁₀,L₁₁，L₁₂的第一损失值L₁。

按照第一损失函数6021计算图像对特征对应的相似度预测值的第二损失值L₂。

计算第一损失值L₁和第二损失值L₂的梯度，并对计算梯度的结果取平均值作为目标损失函数，通过样本图像对对待训练的单图特征提取网络、待训练的图像对特征网络和待训练的重编码器进行反向更新，重复训练直到第一损失值和第二损失值的梯度的均值最小化，则表示待训练网络收敛。此时得到特征提取模型。训练算法可以是梯度下降算法。

为了更清楚地理解本申请实施例构建目标损失函数，基于随机梯度下降算法来训练特征提取模型的过程。假设第一损失函数为交叉熵损失函数。在多个样本图像经过前述的待训练的特征提取模型进行处理之后，重编码器输出经过重编码的多个第一特征向量或者第二特征向量，分别按照交叉熵损失函数计算得到与之对应的损失值：

其中，i表示每个样本图像，i取自然数，N表示训练图像集所包含样本图像的个数。y_i表示每个样本图像对应的分类结果；

表示每个样本图像经过第一重编码器处理后，再进行分类处理的结果。同样计算L₁₁，

再将第一特征向量和第二特征向量输入到对比损失函数中，得到：

其中，y表示两张样本图像是否匹配的标签；d＝||a_n-b_n||₂表示两张样本图像对应特征向量之间的欧式距离，margin是预先设置的阈值。N为训练图像集的图像数量。

其中，按照简单平均求解L₁₀,L₁₁，L₁₂的第一损失值L₁

针对图像对特征向量按照全连接层分类得到结果，通过交叉熵损失函数可以计算得到融合处理后的图像对的损失，

其中，i表示第i个图像对。i取自然数。N表示根据训练图像集组合得到的图像对的个数。y_i表示每个融合处理后的图像对标注的分类结果；

表示每个融合处理后的图像对进行分类处理的分类结果。本申请实施例在训练特征提取模型阶段，构建新的目标损失函数如下：

L_obj＝W₁*L₁+W₂L₂

其中，W₁是与L₁对应的权重系数，W₂是与L₂对应的权重系数。按照随机梯度下降算法，不断地输入训练样本图像求解目标损失函数的最小值，在目标损失函数达到最小值时，得到训练完成的特征提取模型。本申请实施例中通过将图像对的相似度预测值引入损失函数进行模型训练，有效地提高了特征提取模型的特征提取能力。

本申请实施例中上述训练特征提取模型的过程是在离线部分完成的。上述预先构建的的单图特征提取网络可以按照梯度下降算法进行训练得到。

利用预先训练构建的特征提取网络进行人体图像检索时，是在线部分完成的。下面对在线部分的方法流程展开描述如下：

在线接收到待查询的图像，确定待查询的人体图像库；

使用预先构建的单图特征提取网络提取待查询的图像和人体图像库中每张图像的人体特征；

计算待查询的图像对应的人体特征与人体图像库中每张图像的人体特征之间的第一特征距离值；

按照第一特征距离值将图像对进行相似度排序；

从相似度排序结果中抽取前K张图像；

将待查询的图像与K张图像中的每一张图像配对成图像对，将图像对输入到离线部分构建的特征提取网络，输出与图像对所对应的第一特征向量和和第二特征向量。

根据第一特征向量和第二特征向量计算图像与K张图像中每张图像的第二特征距离值。

根据第二特征距离值图像对再次进行相似度排序，然后根据重排序结果得到图像序列。该图像序列可以是监控视频中对图像进行跟踪获取得到多张与图像相关的图像。图像序列可以作为人体轨迹描述行人的移动路径。

下面以商场监控图像检索为例，进一步说明本申请实施例提出的图像检索方法的操作过程。在商场监控系统中，通过输入待检测行人的特征参数，获取与待检测行人的特征参数符合的待检测行人图像。或者，直接输入用户提供的待检测行人图像。例如，输入检索范围为某月某日某时间段内，某个待检测行人图像等输入条件。

接收到待检测行人图像后，在商场监控图像数据库中进行图像检测。商场监控图像数据库中存储各个摄像头采集得到图像。

根据输入的检索时间范围和其他参数，这里其他参数可以是具体的某个门店。例如，行人A，在某年某月某日，在某个门店等条件。在获取输入的条件之后，可以初步地从商场监控图像数据库中提取出多张备选图像。多张备选图像，例如是与待检测行人图像具有相同或近似特征的图像。例如待检测行人图像为穿着白色T恤的女士。则备选图像的目标至少满足穿着白色T恤的女士两个条件，且这些备选图像满足输入的时间段，位置限制条件。

将输入的待检测行人图像与多张备选图像中的每一张图像计算得到图像特征之间的第一特征距离值，然后按照第一特征距离值进行相似度排序后，从多张备选图像中选出K张图像。这K张图像是与待检测行人图像相似度极高的图像，将作为与待检测行人图像相关的图像序列。再将输入的待检测行人图像与K张图像中的每一张图像进行配对组合，得到图像对。

然后，通过调用特征提取模型对图像对进行特征提取，得到与图像对相对应的特征向量。特征提取模型包括针对单图进行特征提取的单图特征提取网络，和针对图像对拼接结果进行特征提取的图像对特征提取网络。调用单图特征提取网络对图像对中待检测行人图像和与其配对的图像分别进行单图特征提取得到与待检测行人图像对应的单图特征，与其配对的图像对应的单图特征。调用图像对特征提取模型对图像对中两张图像进行特征提取时，需要先将图像对中两张图像进行图像拼接处理，然后调用图像对特征提取模型对图像拼接的结果进行特征提取，得到图片对特征。

将与待检测行人图像对应的单图特征和与其配对的图像对应的单图特征分别与图像对特征进行特征拼接处理后，输入到重编码器进行重编码，通过重编码器将图像对的特征融合分布在图像特征向量中，从而增强图像与图像之间的相关性。

通过计算两个分别经过重编码器处理后的单图特征之间的欧式距离值，利用欧式距离值与待检测行人图像配对的图像进行排序，得到从K张图像中得到与待检测行人图像相关的图像序列。

最后，将图像序列以可视化方式进行展示，例如将图像序列中多张图像按照时间序列进行展示，并将每张图像经过的位置进行标注，从而得到待检测行人在商场中的移动轨迹，便于后期数据分析。请参考图7，图7示出了本申请实施例提供的图像检索结果的展示示意图。如图7所示，利用本申请提出的行人重识别方法可以得到与图像关联的图像序列，这些图像序列可以体现图像的移动路径。在不同的应用场景图示意的移动路径可以有不同的表现形式。可以根据图像的相关性进行调整。例如，图7示出的行人A在09:25:00在X商店，其图像中行人A的行为含义是该行人A路过X商店。

本申请实施例通过按照引入图像对的相似度预测值的损失函数构建得到特征提取模型，可以获得更精准的检测结果，有利于对与目标图像配对的图像的行为进行分析，从而提升目标图像的行为人的精确的移动轨迹。

应当注意，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

请参考图8，图8示出了根据本申请实施例提供的图像检索装置800的示例性结构框图。

如图8所示，该装置800包括：

第一获取单元801，用于获取待查询的目标图像；

配对单元802，用于将目标图像与待检索的图像库中至少部分图像配对成图像对；

提取单元803，用于调用特征提取模型对图像对进行特征提取，得到至少两个特征向量，每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果。

第二获取单元804，用于根据特征向量从至少部分图像中获取与目标图像相关的图像序列。

可选地，配对单元802还包括：

第一计算子单元，用于分别计算目标图像与图像库中每一张图像之间的第一特征距离值；

图像获取子单元，用于根据第一特征距离值从图像库中获取部分图像；

配对子单元，用于将目标图像分别与部分图像中每一张图像配对成一个图像对。

其中，特征提取模型至少包括图像对特征提取网络、单图特征提取网络和重编码器，提取单元803还包括：

单图特征提取子单元用于调用单图特征提取网络对每个图像对所包含的每张图像进行特征提取，得到与图像对所包含的每张图像一一对应的单图特征；

图像合并子单元，用于将图像对所包含的两张图像进行图像合并处理；

图像对特征提取子单元，用于调用图像对特征提取网络对图像合并处理后的结果进行特征提取，得到与图像对所包含的所有图像相对应的图像对特征；

特征拼接子单元，用于将每个单图特征分别与图像对特征进行特征拼接处理；

重编码子单元，用于调用与每个单图特征对应的重编码器对特征拼接处理后的结果进行编码处理，输出至少两个特征向量。

可选地，第二获取单元804还用于：

利用第一特征向量和第二特征向量计算第二特征距离值；

按照第二特征距离值将至少部分图像进行排序处理；

从排序处理后的至少部分图像中获取与待查询的图像相关的图像序列。

可选地，该装置还包括：模型训练单元。

模型训练单元，包括：

训练配对子单元，用于将训练图像集中任意两张图像进行配对，得到多个样本图像对；

第一训练提取子单元，用于将每个样本图像对所包含的每一张样本图像输入到待训练的单图特征提取网络进行特征提取，得到与每一张样本图像一一对应的单图特征；

训练合并子单元，用于将每个样本图像对所包含的两张图像进行图像合并处理；

第二训练提取子单元，用于将图像合并处理后的结果输入到待训练的图像对特征提取网络进行特征提取，得到与图像合并处理后的结果相对应的图像对特征；

训练特征拼接子单元，用于将每个单图特征分别与图像对特征进行特征拼接处理，得到与每个单图特征一一对应的拼接特征；

训练重编子单元，用于将每个拼接特征输入到与之对应的待训练的重编码器进行编码处理，得到与每个拼接特征一一对应的特征向量；

训练相似度子单元，用于对图像对特征进行相似度预测处理，得到与图像对特征相对应的相似度预测值；

训练输出子单元，用于基于预先定义的损失函数类型、特征向量以及相似度预测值，训练待训练的单图特征提取网络、待训练的图像对特征提取网络和待训练的重编码器。

应当理解，装置800中记载的诸单元或模块与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置800及其中包含的单元，在此不再赘述。装置800可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置800中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

下面参考图9，图9示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统900的结构示意图。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本公开的实施例，上文参考流程图图2或3描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一获取单元、配对单元以及提取单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，第一获取单元还可以被描述为“用于获取待查询的目标图像单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的图像检索方法。

例如，电子设备可以实现如图2所示的：步骤201，获取待查询的目标图像；步骤202，将目标图像与待检索的图像库中至少部分图像配对成图像对；步骤203，调用特征提取模型对图像对进行特征提取，得到至少两个特征向量。每个特征向量是与图像对所包含的每一张图像相对应的特征向量分别与图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；步骤204，根据特征向量从至少部分图像中获取与目标图像相关的图像序列。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像检索方法，其特征在于，该方法包括：

获取待查询的目标图像；

将所述目标图像与待检索的图像库中至少部分图像配对成图像对；

调用特征提取模型对所述图像对进行特征提取，得到至少两个特征向量，每个所述特征向量是与所述图像对所包含的每一张图像相对应的特征向量分别与所述图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；

根据所述特征向量从所述至少部分图像中获取与所述目标图像相关的图像序列。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标图像与待检索的图像库中至少部分图像配对成图像对包括：

分别计算所述目标图像与所述图像库中每一张图像之间的第一特征距离值；

根据所述第一特征距离值从所述图像库中获取部分图像；

将所述目标图像分别与所述部分图像中每一张图像配对成一个图像对。

3.根据权利要求1所述的方法，其特征在于，所述根据第一特征距离值从所述图像库中获取部分图像，包括：

按照所述第一特征距离值将所述图像库中的图像进行相似度排序处理；

获取相似度排序处理的结果中的前K张图像作为所述部分图像，其中K为自然数。

4.根据权利要求1所述的方法，其特征在于，所述特征提取模型至少包括图像对特征提取网络、单图特征提取网络和重编码器，则所述调用预先构建的特征提取模型对所述图像对进行特征提取，得到至少两个特征向量，包括：

调用所述单图特征提取网络对每个所述图像对所包含的每张图像进行特征提取，得到与所述图像对所包含的每张图像一一对应的单图特征；

对所述图像对所包含的所有图像进行图像合并处理；

调用所述图像对特征提取网络对图像合并处理后的结果进行特征提取，得到与所述图像对所包含的所有图像相对应的图像对特征；

将每个所述单图特征分别与所述图像对特征进行特征拼接处理；

调用与每个所述单图特征对应的重编码器对特征拼接处理后的结果进行编码处理，输出所述至少两个特征向量。

5.根据权利要求4所述的方法，其特征在于，所述将所述图像对所包含的两张图像进行图像合并处理包括：

将所述图像对所包含的所有图像按照通道方向进行图像合并。

6.根据权利要求1所述的方法，其特征在于，所述特征向量包括第一特征向量和第二特征向量，则根据所述特征向量从所述至少部分图像中获取与所述目标图像相关的图像序列，包括：

计算所述第一特征向量和所述第二特征向量之间的第二特征距离值；

按照所述第二特征距离值将所述至少部分图像进行相似度排序处理；

获取相似度排序处理后的结果中的多张图像，得到与所述目标图像相关的图像序列。

7.根据权利要求1所述的方法，其特征在于，所述特征提取模型是通过以下步骤训练得到的：

将训练图像集中任意两张图像进行配对，得到多个样本图像对；

将每个所述样本图像对所包含的每一张样本图像输入到待训练的单图特征提取网络进行特征提取，得到与每一张样本图像一一对应的单图特征；

将每个所述样本图像对所包含的两张图像进行图像合并处理；

将图像合并处理后的结果输入到待训练的图像对特征提取网络进行特征提取，得到与所述图像合并处理后的结果相对应的图像对特征；

将每个所述单图特征分别与所述图像对特征进行特征拼接处理，得到与每个所述单图特征一一对应的拼接特征；

将每个所述拼接特征输入到与之对应的待训练的重编码器进行编码处理，得到与每个所述拼接特征一一对应的特征向量；

对所述图像对特征进行相似度预测处理，得到与所述图像对特征相对应的相似度预测值；

基于预先定义的损失函数类型、所述特征向量以及所述相似度预测值，训练所述待训练的单图特征提取网络、所述待训练的图像对特征提取网络和所述待训练的重编码器。

8.根据权利要求7所述的方法，其特征在于，所述预先定义的损失函数类型包括第一损失函数和对比损失函数，基于预先定义的损失函数类型、所述特征向量以及所述相似度预测值，训练所述待训练的单图特征提取网络、所述待训练的图像对特征提取网络和所述待训练的重编码器包括：

根据第一损失函数计算与每个所述拼接特征一一对应的特征向量对应的第一函数损失值；

计算与每个所述样本图像对所对应的特征向量之间的欧式距离；利用所述欧式距离和每个所述样本图像对所对应的标签值以及预设阈值，计算每个所述样本图像对的匹配度；

根据第一损失函数计算每个与所述图像对特征相对应的第二损失函数值；

将所述第一损失函数值、所述匹配度和所述第二损失函数值按照权重求和；

再对该和求导，直到求导结果为最小值时完成训练过程。

9.一种图像检索装置，其特征在于，该装置包括：

第一获取单元，用于获取待查询的目标图像；

配对单元，用于将所述目标图像与待检索的图像库中至少部分图像配对成图像对；

提取单元，用于调用特征提取模型对所述图像对进行特征提取，得到至少两个特征向量，所述每个所述特征向量是与所述图像对所包含的每一张图像相对应的特征向量分别与所述图像对所包含的所有图像所对应的特征向量进行特征拼接处理的结果；

第二获取单元，用于根据所述特征向量从所述至少部分图像中获取与所述目标图像相关的图像序列。

10.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。