CN111488475A

CN111488475A - 图像检索方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111488475A
Application number: CN201910088336.0A
Authority: CN
Inventors: 罗中华; 苑嘉辉; 文伟; 潘作舟; 薛远洋
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-08-04
Also published as: US20200242153A1; EP3908943A1; WO2020159232A1; US11507615B2; US20220327155A1; EP3908943A4

Abstract

本申请提供了一种图像检索方法、装置、电子设备及计算机可读存储介质。该方法包括：对待处理图像进行特征提取，得到第一特征信息；对第一特征信息进行特性信息处理，得到与待处理图像的目标区域对应的第二特征信息；根据第二特征信息，对待处理图像进行图像检索处理，本申请通过对第一特征信息的特性信息处理，得到与待处理图像的目标区域对应的第二特征信息，即能够从第一特征信息中提取出待处理图像的目标区域的特征信息，滤除掉杂乱的干扰区域，进而能够基于待处理图像的目标区域的特征进行图像检索，从而提高了检索结果的准确性。

Description

图像检索方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种图像检索方法、装置、电子设备及计算机可读存储介质。

背景技术

现有技术中，图像检索的应用场景越来越广泛。但由于通常用于检索的图像数据库中存储有大量的图像数据，可能会达到上百万或上千万张，为了能够在海量的图像数据中准确、快速的找到与待检索图像一致或相似的图像，就需要在对图像的特征提取过程中，能够提取出有区分性的、鲁棒的、能够准确表示图像特征的特征信息，因此特征提取是在图像检索过程非常关键的一个步骤。

图1为现有技术中的特征提取过程，如图1所示，特征提取网络的结果可以划分为主干网络和特征表示网络两部分。主干网络从待处理图像中提取出特征信息，输出特征图。其中，特征表示网络可以进一步包含两层结构，第一层将主干网络输出的特征图中每个通道的特征矩阵进行求平均的计算，从而针对每个通道得到一个特征值，多个通道组成一个特征向量，再通过第二层的全连接(FC，full connection)层，进行全连接处理。根据得到的最终的特征信息检索数据库，得到图像检索结果。

现有的特征表示网络中通过对特征矩阵求平均的计算方式，并不会区分图像中哪里是背景而哪里是物体，导致背景信息会被带入到最终的特征向量里来，使得提取的特征不能准确的描述出目标特征，对准确检索产生极大的干扰，从而导致检索结果不精确。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

第一方面，本申请提供了一种图像检索方法，该方法包括：

对待处理图像进行特征提取，得到第一特征信息；

对第一特征信息进行特性信息处理，得到与待处理图像的目标区域对应的第二特征信息；

根据第二特征信息，对待处理图像进行图像检索处理

第二方面，本申请提供了一种图像检索装置，该装置包括：

特征提取模块，用于对待处理图像进行特征提取，得到第一特征信息；

特征信息处理模块，用于对第一特征信息进行特性信息处理，得到与待处理图像的目标区域对应的第二特征信息；

图像检索模块，用于根据第二特征信息，对待处理图像进行图像检索处理。

第三方面，本申请提供了一种电子设备，该电子设备包括：

处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本申请的第一方面所示的方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行如本申请的第一方面所示的方法。

本申请提供的图像检索方法、装置、电子设备及计算机可读存储介质，通过对第一特征信息的特性信息处理，得到与待处理图像的目标区域对应的第二特征信息，即能够从第一特征信息中提取出待处理图像的目标区域的特征信息，滤除掉杂乱的干扰区域，进而能够基于待处理图像的目标区域的特征进行图像检索，从而提高了检索结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图做简单的介绍。

图1为现有技术中的特征提取过程的示意图；

图2为本申请实施例提供的图像检索方法的流程示意图；

图3为本申请实施例提供的一种ASAU结构的示意图；

图4a为本申请实施例提供的另一种ASAU结构的示意图一；

图4b为本申请实施例提供的另一种ASAU结构的示意图二；

图5为本申请实施例提供的不同尺度的卷积处理参数的示意图；

图6为本申请实施例提供的一个ASAU处理过程的示意图；

图7为本申请实施例提供的至少两个ASAU处理过程的示意图一；

图8为本申请实施例提供的至少两个ASAU处理过程的示意图二；

图9为本申请实施例提供的至少两组ASAU处理过程的示意图；

图10为本申请实施例提供的至少两个ASAU处理服装图像的示意图；

图11为本申请实施例提供的MGMN处理过程的示意图；

图12为本申请实施例提供的加入空间约束处理过程的示意图；

图13为本申请实施例提供的SCAN处理过程的示意图；

图14a为本申请实施例提供的MGMN加SCAN处理过程的示意图；

图14b为本申请实施例提供的特征表示网络的离线训练示意图；

图15为本申请实施例提供的MGMN加SCAN处理过程中复用ASAU的示意图；

图16a为本申请实施例提供的服装检索场景检索功能的示意图；

图16b为本申请实施例提供的服装检索过程的示意图；

图16c为本申请实施例提供的未考虑空间约束的服装检索结果的示意图；

图16d为本申请实施例提供的服装检索评价效果的示意图；

图17为本申请实施例提供的图像检索装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

针对现有技术存在的问题，本申请提出一种基于注意力机制的多粒度挖掘网络及其在图像检索中的应用，本申请方案可以应用在服装检索领域。本申请方案可以通过深度学习网络来实现，该网络对于输入的图像能够把图像中所关注的区域突出出来，提取出目标区域的特征，忽略背景区域，从不同粒度上来挖掘其中的有用信息，最终把这些信息进行合成，从而达到更准确的识别的目的。

本申请实施例提供了一种图像检索方法，如图2所示，该方法包括：

步骤S101：对待处理图像进行特征提取，得到第一特征信息；

步骤S102：对第一特征信息进行特性信息处理，得到与待处理图像的目标区域对应的第二特征信息；

步骤S103：根据第二特征信息，对待处理图像进行图像检索处理。

在本申请实施例中，特征信息处理也可以称为特征表示处理，同理，特征表示网络也可以成为特征处理网络。

具体地，在步骤S101中，可以通过主干网络对待处理图像进行特征提取。本申请实施例中，主干网络包含多层模块，底层模块用来提取诸如边界、交叉点等基本结构信息，中间模块用来提取更高层的形状信息，高层模块用来提取语义信息(语义信息包含更多的细节信息，例如位置特征信息等)。

主干网络输出第一特征信息，第一特征信息可以是多通道的特征图，例如512通道的特征图，每个通道对应一个特征矩阵，如7*7的特征矩阵，即主干网络可以输出一个512*7*7的特征图，第一特征信息也可以是其他特征信息。

在本申请实施例中，特征图、特征矩阵、特征向量都为特征信息。

在步骤S102中，对步骤S101得到第一特征信息进行特性信息处理，得到与待处理图像的目标区域对应的第二特征信息，该第二特征信息可以为一维的特征向量。如图1中的(0.4，1.2，…，3.2，0.1)，也可以为多维的特征向量，例如为512*7*7的特征图转换得到的512维或1024维的特征向量，还可以为其他特征信息。

步骤S103中，根据步骤S102得到的第二特征信息，对待处理图像进行图像检索处理。即利用与待处理图像的目标区域对应的特征信息，与数据库中各图像的特征信息进行匹配，确定出与待处理图像匹配的图像。

其中，在与数据库中各图像的特征信息的匹配过程中，可以先计算数据库中各图像的特征信息与待处理图像的特征信息之间的余弦距离或欧式距离，根据计算得到的距离进行排序，得到距离最小的数据库中的图像，即为与待处理图像匹配的图像。

本申请实施例提供的图像检索方法，通过对第一特征信息的特性信息处理，得到与待处理图像的目标区域对应的第二特征信息，即能够从第一特征信息中提取出待处理图像的目标区域的特征信息，滤除掉杂乱的干扰区域，进而能够基于待处理图像的目标区域的特征进行图像检索，从而提高了检索结果的准确性。

一种可能的实现方式中，本申请实施例的步骤S102具体包括步骤：

步骤S1021：针对至少一个目标区域，分别将第一特征信息进行相应的特性信息处理，得到与各个目标区域分别对应的第三特征信息；

步骤S1022：将各个第三特征信息进行融合处理，得到与待处理图像的目标区域对应的第二特征信息。

具体地，本申请实施例中，针对每个目标区域，可以通过该目标区域对应的区域处理单元将第一特征信息进行相应的特性信息处理，得到与该目标区域分别对应的第三特征信息。其中，区域处理单元也可以称为自适应空间注意力单元(ASAU，Adaptive SpatialAttention Unit)。ASAU可以提取多尺度的特征，此外，提取的特征具有空间和通道相关性。

任一目标区域对应的ASAU对第一特征信息进行进一步特性信息处理时，是基于该目标区域对应的第一卷积处理参数进行卷积运算，即对第一特征信息进行卷积处理，得到与该目标区域对应的第三特征信息，也是与该ASAU对应的第三特征信息，第三特征信息主要包含了从第一特征信息中提取出的待处理图像的目标区域对应的特征信息，滤除掉了杂乱的干扰区域，如背景区域等，进而能够基于待处理图像的目标区域的特征信息进行图像检索，从而提高了检索结果的准确性。

如图3所示，本申请实施例提供了一种可行的ASAU结构：

这种ASAU结构中，包含了一个空间尺度的处理方式，即一个卷积运算。利用学习得到的第一卷积处理参数对第一特征信息进行卷积处理，得到一个可以突出主要的目标区域的特征信息，其中，卷积处理参数包括但不限于卷积核、卷积核大小、扩展因子、卷积步长中的至少一项。实际应用中，该卷积处理后的特征信息可以为特征图。

进一步的，基于该目标区域对应的第一卷积处理参数，对第一特征信息进行卷积处理，得到与该目标区域对应的第三特征信息，具体包括：

基于该目标区域对应的第一卷积处理参数，对第一特征信息进行卷积处理，其中第一特征信息可以为大小为H*W*C的特征图，对第一特征信息进行卷积处理后得到的特征信息可以为大小为H*W*1的特征图；

对卷积处理后得到的特征信息进行归一化处理，例如通过sigmoid操作对卷积处理后的特征图做归一化，即把特征图的值归一化到[0，1]区间，可以得到大小为H*W*1的特征图；

对归一化处理后的特征信息执行堆叠操作，通过堆叠操作，拷贝出与第一特征信息的通道数相同数量的特征图，即可以得到大小为H*W*C的特征图，接上例，如拷贝得到512个同样大小的特征图，得到的各特征图组成一个与第一特征信息大小一致的特征图，例如512*7*7的特征图；

将堆叠操作后的特征信息与第一特征信息进行融合处理，例如点乘运算等，即可得到与该目标区域对应的第三特征信息，也是与该ASAU对应的第三特征信息，该第三特征信息可以为大小为H*W*C的特征图。

如图4a所示，本申请实施例还提供了另一种可行的ASAU结构：

这种ASAU结构中，一个ASAU可以包含针对至少两个尺度分别进行的特征提取过程。由于待检索的图像中可能包含各种尺度的细节信息，以服装检索场景为例，通常的服装图像中还包括口袋，领子，纽扣等细节，其中，口袋的尺度一般会大于领子的尺度，而领子的尺度又会大于纽扣的尺度，因此ASAU可以进一步基于不同尺度分别进行处理，得到针对多尺度的特征信息，再将多尺度的特征信息进行加权融合，使得最终的特征图能够突出待处理图片中不同尺度大小的，但是属于目标区域的物体(如服装图像中的口袋，领子，纽扣等)，从而得到目标区域对应的能够反映各种细节信息的特征信息，能够进一步提高检索结果的准确性。

具体地，不同尺度是通过不同形式的卷积处理参数来实现的。即通过步骤SA来实现ASAU基于不同的尺度对第一特征信息进行处理。

步骤SA：基于该目标区域对应的第一卷积处理参数，对第一特征信息进行至少两次卷积处理，分别得到与该目标区域对应的各个第四特征信息，其中，每次卷积处理所采用的第一卷积处理参数不同。

也就是说，每次卷积处理所采用的卷积处理参数不同，具体为每次卷积处理所采用的该目标区域对应的第一卷积处理参数不同，则对第一特征信息进行处理的尺度就会不同。本申请实施例中，表征不同尺度的卷积处理参数可以包括但不限于扩张因子(DF，Dilation Factor)，例如不同的扩张率，对应不同的尺度，即ASAU中对第一特征信息进行至少两次卷积处理时，所采用的扩张率不同。这种情况下，除扩张率之外的其他卷积处理参数可以相同，也可以不同，例如卷积核、卷积步长等可以相同，也可以不同。即本申请实施例中，每次卷积处理所采用的卷积处理参数包括以下至少一项：卷积核、卷积核大小、扩展因子、卷积步长。

图4a中的类型1、类型2和类型3表示三种类型的卷积处理参数，为三个不同的尺度，也为三组不同的卷积处理参数，即基于该目标区域对应的三组不同的第一卷积处理参数，分别对第一特征信息进行三次卷积处理。若第一特征信息为大小为H*W*C的特征图，则分别对第一特征信息进行三次卷积处理后可以得到三个大小为H*W*1的特征图。

作为示例地，图5展示了三种类型的卷积处理参数，这些卷积处理参数包括核大小(图5中的K)、扩展因子(图5中的DF)等参数。其中，扩展因子的大小反映了尺度的变化，如DF＝1时就是较小的尺度，它能够捕捉到图像中更丰富的细节信息，如DF＝2时就是中等程度的尺度，它可能会弱化细节信息的提取，但是能够提取到主要的轮廓信息，如DF＝4作用以此类推。总的来说，DF值越大越倾向于提取图片中物品的主要轮廓，而渐渐弱化细节信息的表达。那么，为了得到更完整和丰富的特征信息，需要通过步骤SB将不同尺度的信息共同表达出来，从而表达出更准确的特征信息。

步骤SB：根据各个第四特征信息，进行融合处理，得到与该目标区域对应的第三特征信息。

具体地，在步骤SA得到每一个尺度对应的第四特征信息之后，若考虑每个尺度的特征信息对最终处理结果的贡献度不会一样，所以可以在步骤SB引入权重的计算方式，即基于各个第四特征信息分别对应的权重，对各个第四特征信息进行融合处理。

在这之前，权重的计算方式需要用到该目标区域对应的第二卷积处理参数，即预先设计的一个卷积核，基于该目标区域对应的第二卷积处理参数，对第一特征信息执行卷积处理；根据卷积处理的结果，得到与各个第四特征信息分别对应的权重，即输出是与尺度数量一致的权重(例如ASAU中包含3个尺度，则会输出3个权重)。其中，第二卷积处理参数包括以下至少一项：卷积核、卷积核大小、扩展因子、卷积步长。实际应用中，可以利用广泛应用于神经网络训练的反向传播算法极小化损失函数来计算权重。

实际应用中，根据卷积处理的结果，得到与各个第四特征信息分别对应的权重，具体包括：对卷积处理的结果进行归一化处理，例如利用sigmoid操作把各个第四特征信息分别对应的权重归一化到【0，1】区间，得到与各个第四特征信息分别对应的权重。若第一特征信息为大小为H*W*C的特征图，如通道数C＝3，那么卷积处理的结果可以为大小为1*1*3的特征图，归一化后的特征图的大小可以为1*1*3，在该特征图中，每个特征值均代表对应尺度的权重，如图4a所示。

进一步地，在有了步骤SA得到的不同尺度的第四特征信息和对应的权重之后，在步骤SB中进行融合处理。

一种可行的方式就是把权重与对应尺度的第四特征信息相乘，然后再将各个乘积相加，得到深度融合的结果即与第一特征信息大小和数量一致的第三特征信息，如大小为H*W*C的特征图，即这种ASAU结构的处理结果。

如图4a中，以ASAU包含三个尺度为例，不应理解为对尺度数量的限定。其中，虚线部分所涉及到的操作旨在计算出权重，反映出不同尺度的特征信息对于最终处理结果的贡献程度。实线部分所涉及到的流程旨在对第一特征信息进行不同尺度的卷积处理，并基于此来获取待处理图像中主要的目标区域，并忽略无关区域。

本申请实施例中，结合图4a可以看到，步骤SA具体包括：

基于该目标区域对应的第一卷积处理参数，对第一特征信息进行至少两次卷积处理，其中，每次卷积处理所采用的第一卷积处理参数不同，若第一特征信息为大小为H*W*C的特征图，那么卷积处理后得到的特征信息可以为大小为H*W*1的特征图；

针对每次卷积处理后得到的特征信息，分别执行下述处理：

对卷积处理后得到的特征信息进行归一化处理，例如通过sigmoid操作对卷积处理后的特征图做归一化，即把特征图的值归一化到[0，1]区间，归一化后的特征信息可以为H*W*1的特征图；

对归一化处理后的特征信息执行堆叠操作，通过堆叠操作，拷贝出与第一特征信息的通道数相同数量的特征图，接上例，如拷贝得到512个同样大小的特征图，得到的各特征图组成一个与第一特征信息大小一致的特征图，如大小为H*W*C的特征图，例如512*7*7的特征图；

将堆叠操作后的特征信息与第一特征信息进行融合处理，例如点乘运算等，即可分别得到每次卷积处理后对应的第四特征信息，第四特征信息的大小和第一特征信息的大小一致，如大小为H*W*C的特征图。

也就是说，ASAU中采用每一个尺度进行处理均利用相同的方式，即对第一特征信息，即经过卷积、sigmoid、堆叠和融合，得到分别对应的第四特征信息，用于和对应的权重融合得到该ASAU对应的第三特征信息。

另一种可行的方式是把权重与对应尺度的第四特征信息相乘，然后再将各个乘积相加，得到深度融合的结果后，再经过堆叠和融合，得到与第一特征信息大小和数量一致的第三特征信息，即这种ASAU结构的处理结果。

如图4b中，以ASAU包含三个尺度为例，不应理解为对尺度数量的限定。其中，虚线部分所涉及到的操作旨在计算出权重，反映出不同尺度的特征信息对于最终处理结果的贡献程度。实线部分所涉及到的流程旨在对第一特征信息进行不同尺度的卷积处理，并基于此来获取待处理图像中主要的目标区域，并忽略无关区域。

本申请实施例中，结合图4b可以看到，步骤SA具体包括：

基于该目标区域对应的第一卷积处理参数，对第一特征信息(如大小为H*W*C的特征图)进行至少两次卷积处理，其中，每次卷积处理所采用的第一卷积处理参数不同，在图4b中，类型1、类型2和类型3表示三种类型的卷积处理参数，为三个不同的尺度，也为三组不同的卷积处理参数，即基于该目标区域对应的三组不同的第一卷积处理参数，分别对第一特征信息进行三次卷积处理，可以得到三个大小为H*W*1的特征图；

针对每次卷积处理后得到的特征信息，分别对卷积处理后得到的特征信息进行归一化处理，例如通过sigmoid操作对卷积处理后的特征图做归一化，即把特征图的值归一化到[0，1]区间，得到对应的第四特征信息，第四特征信息可以为大小为H*W*1的特征图；

进而，步骤SB具体包括：

根据各个第四特征信息，进行融合处理，具体地，基于各个第四特征信息分别对应的权重，对各个第四特征信息进行融合处理，融合后的特征信息可以为大小为H*W*1的特征图，该特征图也可以称为注意力图(attention map)。

对融合后得到的特征信息执行堆叠操作，通过堆叠操作，拷贝出与第一特征信息的通道数相同数量的特征图，接上例，如拷贝得到512个同样大小的特征图，得到的各特征图组成一个与第一特征信息大小一致的特征图，如大小为H*W*C的特征图，例如512*7*7的特征图；

将堆叠操作后的特征信息与第一特征信息进行融合处理，例如点乘运算等，即可得到该目标区域对应的第三特征信息，第三特征信息和第一特征信息的大小相同，例如均为H*W*C的特征图。

也就是说，ASAU中采用每一个尺度进行处理，会利用相同的方式对第一特征信息经过卷积、sigmoid后，得到分别对应的第四特征信息，用于和对应的权重融合，再经过堆叠和融合，得到该ASAU对应的第三特征信息。

实际应用中，本领域技术人员可以根据实际情况选择上述任一种ASAU结构进行应用，本申请实施例在此不作限定。进一步地，步骤S1022具体可以为根据各个第三特征信息，执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。下面将详细介绍ASAU在步骤S1021和步骤S1022中的实现方式。

一种可行的实现方式中，如图6所示，在步骤S1021中，针对待处理图像的目标区域，将第一特征信息通过一个ASAU进行特性信息处理，得到与该ASAU对应的第三特征信息，也就是待处理图像的目标区域对应的第三特征信息，进而在步骤S1022中，对该第三特征信息执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息，利用第二特征信息在数据库中进行图像检索，得到检索出的图像。图6中的特征表示网络也可以称为特征处理网络。

即在图像检索的特征提取过程中，可以通过一个ASAU对主干网络输出的第一特征信息进行特性信息处理，具体处理过程可参见上述对ASAU的介绍，在此不再赘述。然后通过全连接层(FC)对ASAU的结果进行连接，得到与待处理图像的目标区域对应的第二特征信息，例如为512维的特征向量。其中，一个ASAU和一个全连接层(FC)可以包含在一个特征表示网络中，即特征表示网络的输出就是与待处理图像的目标区域对应的第二特征信息。

另一种可行的实现方式中，如图7所示，在步骤S1021中，针对至少两个目标区域，分别将第一特征信息通过至少两个ASAU进行相应的特性信息处理，得到与各个ASAU对应的第三特征信息，其中，不同的第三特征信息能够表示出待处理图像的不同区域。进而在步骤S1022中，对各个第三特征信息执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。

即在图像检索的特征提取过程中，可以先通过至少两个ASAU对主干网络输出的第一特征信息进行特性信息处理，每个ASAU的具体处理过程可参见上述对ASAU的介绍，在此不再赘述。然后通过全连接层(FC)对多个ASAU的结果进行连接，得到与待处理图像的目标区域对应的第二特征信息。其中，每个ASAU关注待处理图像的不同区域，继续以上例中的服装检索场景为例，比如，ASAU1可以主要关注服装图像中领子所在的区域，ASAU2可以主要关注服装图像中口袋所在区域等。

本申请实施例中，如图8所示，至少两个ASAU和一个全连接层(FC)可以包含在一个特征表示网络中，即图7表示的为一个特征表示网络的处理过程，其中，特征表示网络的输出就是与待处理图像的目标区域对应的第二特征信息。

通过特征表示网络就可以从主干网络输出的第一特征信息中进一步提取出目标区域的特征信息，相对于现有技术中的特征表示网络先进行平均处理再进行全连接处理的结构，本申请实施例提供的技术方案可以得到待处理图像目标区域中各局部区域的特征信息，由于局部的特征相对比较稳定，受物体形状或角度变化的影响不大，因此能够得到更加鲁棒的特征，大大提高了图像检索结果的准确性。

又一种可行的实现方式中，待处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域，其中，每个目标区域组都能够表示出待处理图像的目标区域。如图9所示，在步骤S1021中，针对每个目标区域，分别将第一特征信息通过对应的ASAU进行相应的特性信息处理，得到与ASAU对应的第三特征信息(即目标区域对应的第三特征信息)，进而在步骤S1022中，对各个第三特征信息执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息，其中，步骤S1022中具体会对每个目标区域组内的各个目标区域对应的第三特征信息进行融合处理，得到各个目标区域组对应的第五特征信息，如上文所述，该各个第五特征信息都能够表示出待处理图像的目标区域；再将各个第五特征信息进行融合处理，得到待处理图像的目标区域对应的第二特征信息，具体地，可以根据各个第五特征信息，执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。本申请实施例提出，在对各第五特征信息进行融合之前，可以先对各第五特征信息进行全局平均池化(GAP,Global Average Pooling)操作，可以将池化后得到的各特征信息再进行全连接操作。

即在图像检索的特征提取过程中，可以先通过至少两组ASAU对主干网络输出的第一特征信息进行特性信息处理，每组包括至少一个ASAU，可选地，每组可以包含不同数量的ASAU，每个ASAU的具体处理过程可参见上述对ASAU的介绍，在此不再赘述。如图9所示，也可以理解为将主干网络输出的第一特征信息通过多分支结构进行处理，每个分支即为上述目标区域组，每个分支包含至少一个ASAU，每个分支表示不同尺度的局部区域，也可以认为是不同颗粒度的局部区域。

作为示例地，设置一个分支结构包含一个ASAU，该ASAU可以认为是主要关注全局信息，另外再设置两个分支结构，分别包含两个和三个ASAU，包含的ASAU越多，表示该分支的处理颗粒度越细。然后将每个分支的各ASAU的结果进行融合，也就是把ASAU中输出的信息进行融合，以获取更高层的语义信息，从而得到这个分支更简练的表达结果，再将各分支的融合结果进行融合，后续通过全连接层(FC)对多个分支总的融合结果进行连接，得到与待处理图像的目标区域对应的第二特征信息。

由于每个待处理图像的目标区域所包含的局部区域也可以认为是多尺度的，通过这种多分支的处理结果，能够关注不同尺度的局部区域，从而能够更加得到更加全面的特征信息，使得检索结果更准确。

例如图9中以三个分支为例，每个分支包含不同数量的ASAU单元，包含一个ASAU的分支用来提取待处理图像的目标区域，着重对目标区域的轮廓等更为整体的特征信息进行描述。除了整体的特征信息之外，目标区域还包含了更为丰富的细节信息，因此在包含1个ASAU的分支的基础上，还增加了两个分别包含2个ASAU和3个ASAU的分支，可以用来提取目标区域的细节信息，比如继续以上例中的服装检索场景为例，包括服装图像中领子、口袋纽扣等细小的区域。

作为示例地，如图10所示，展示出了在一张服装图像中进行特征提取的过程。首先通过虚线部分提取目标区域整体的特征信息，可以得到轮廓信息，即虚线部分为包含一个ASAU的分支。如前文所述，一个ASAU可以是基于多尺度的处理过程，本申请实施例中，把基于其中一个尺度进行卷积处理之后得到的特征图提取出来，通过确定出的一个阈值，把该特征图中大于该阈值的值改为1，否则为0，再将修改后的特征图按比例映射到待处理图像中，经过映射的待处理图像可以看出目标区域得到强化，而背景区域基本消失。

进一步地，通过实线部分提取目标区域中局部区域的特征信息，以实线部分包含三个ASAU的分支为例进行说明，局部区域的映射方式参见虚线部分的描述，在此不再赘述。经过该分支的处理过程可以得到三部分的结果，最上面的部分提取出了领子部分，图10中，最下面部分提炼出了衣袖和衣服下缘的黑白间隔这一特征信息。特别需要说明的是中间部分，中间部分除了把排扣这一服装中的局部物件(物件也可以称为物体、对象、部件等)提炼出来，还把商标这一细小的、容易被忽略的细节信息给提取出来了，体现了多尺度ASAU结构的优势。以实线部分包含两个ASAU的分支为例进行说明，局部区域的映射方式参见虚线部分的描述，在此不再赘述。经过该分支的处理过程可以得到两部分的结果，最上面的部分提取出了排扣等细节信息，最下面部分提炼出了衣袖和衣服下缘的黑白间隔这一特征信息。

在图10中，虚线部分可以认为提取出全局信息，实线部分可以认为提取出细小的、容易被忽略的局部信息。

本申请实施例中，如图11所示，多个分支的至少两个ASAU可以包含在一个多粒度的特征挖掘网络(MGMN，Multi-Granularity Mining Network)中。而一个MGMN和一个全连接层(FC)可以包含在一个特征表示网络中。其中，MGMN的输入为主干网络输出的第一特征信息，MGMN输出的结果(即各个分支融合后输出的结果)，经过全连接层连接后，得到与待处理图像的目标区域对应的第二特征信息，即特征表示网络输出的特征信息。

结合上文的内容，本申请实施例中的MGMN存在两大好处：

1)能够把不同粒度的信息融合在一起。例如对于一个服装图像来说，从不同大小的区域来看会获得不同层次的信息表达，比如关注全图，大概只能看到一个服装的整体轮廓，而忽略了更多的细节信息；而当集中关注某个区域，比如服装的上部分，就能够提取出领子的样式甚至更小的细节，比如纹理；如果再关注包含商标的区域，那么商标本身也会提取出来，从而更准确的去描述表达出来。

2)能够自动地计算不同尺度大小的图像区域。例如对于一个服装图像来说，并非图像中的所有区域对于最终的处理结果来说贡献度都是一样的，实际上是有的大，有的小，不是固定不变的。比如两件衣服，一件包含排扣，另一件不包含，而其他地方很相似，那么显然在进行图像检索时，排扣这一特征信息会起到更大的作用，因此应该被赋予更高的权重。本申请实施例的MGMN中ASAU包含了对不同尺度权重的学习过程，可以自动学习出哪个区域的作用更大，就赋予更大的权重，使得最终的特征表示更加鲁棒、准确。

由上文可知，在通过至少两个ASAU对主干网络输出的第一特征信息进行特征信息处理时，每个ASAU关注待处理图像的不同区域，考虑到各ASAU所关注的不同区域可能是存在相互联系的，本申请实施例提供了一种可行的实现方式，如图12所示，利用LSTM机制模拟各个区域之间的相对位置关系，对各个ASAU输出的特征信息进行联合增强处理，增强其相互之间的空间约束，使得处理后的各特征信息之间能够反映出各区域之间的空间关系，随后再通过全连接层(FC)对增强后的结果进行连接，得到与待处理图像的目标区域对应的第二特征信息。

具体地，在步骤S1021之后，也就是在将第一特征信息通过至少两个ASAU进行特性信息处理，得到与各个ASAU对应的第三特征信息之后，根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆(LSTM，Long Short-Term Memory)网络，输出关系增强后的第三特征信息。

具体而言，根据各个目标区域的位置关系和各个目标区域分别对应的第三特征信息的质心信息，确定各个第三特征信息的输入顺序，例如各个目标区域的位置关系可以为从上到下的顺序，从左到右的顺序，从里到外的顺序等等，本申请实施例在此不作限定。实际应用中，可以通过图12中的调整(Adjustment)模块确定各个第三特征信息的输入顺序。

进一步地，根据确定出的输入顺序，将各个第三特征信息依次输入到预设的LSTM，输出关系增强的特征信息。LSTM在自然语言处理(NLP，Natural Language Processing)中得到了广泛的应用，因为语言是有顺序的，并且词之间存在着天然的关系，这些关系可以被组织成一个有意义的句子。本申请实施例中，将LSTM应用在图像处理中，可以简单地将图像按空间顺序分割成不同的部分，然后样将多个部分的特征信息输入LSTM。

按照确定出的输入顺序，将各个第三特征信息依次输入到LSTM中，通过LSTM输出的特征信息中，后面的特征信息都会依赖于之前一个特征信息，从而模拟出特征信息之间的关系。即LSTM会对各个ASAU输出的特征信息进行联合增强处理，增强空间约束，使得处理后的各特征信息之间能够反映出各区域之间的空间关系。最终LSTM会输出相应数量的特征信息，并且这些特征信息是考虑相互之间关系后关系增强的特征信息，使得特征信息更具有区别性。

本申请实施例中，如图13所示，至少两个ASAU、一个调整模块及一个LSTM网络可以包含在一个空间约束注意力网络(SCAN，Spatial constrained attention network)中。而一个SCAN和一个全连接层(FC)可以包含在一个特征表示网络中。其中，SCAN的输入为主干网络输出的第一特征信息，SCAN输出的结果为关系增强的特征信息，并输入全连接层，通过全连接层对关系增强的特征信息执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。

作为示例地，以经过三个ASAU进行处理为例，假如输入的待处理图像为一个包含服装的图像，经过主干网络得到特征图，然后利用3个ASAU分别提取服装中的不同局部物件的特征信息，具体地，一个提取了领子的特征信息，另一个提取了排扣的特征信息，还有一个提取了袖子的特征信息，但他们之间的关系是不确定的，此时经过Adjustment模块可以确定各个特征信息的输入顺序，得到了一个按照目标区域从上到下有依赖关系的顺序，通常地，领子在扣子上面，扣子在衣服下缘上面。随后把这些特征信息依次输入到LSTM中，经过LSTM的处理会输出关系增强之后的、反映各个物件之间关系的特征信息，该特征信息具有唯一性，因此区别性更好，得到的检索结果的准确性也更高。

结合上文的内容，本申请实施例中引进行SCAN存在以下好处：

1)可以提取完整的物件信息，并模拟它们之间的关系。例如为了模拟图像中从上到下结构的各物件之间的关系，还存在一种划分方式是对待处理图像进行均匀划分，然后针对每个划分区域分别获取特征信息，再输入到LSTM中去处理。但这种硬性划分方式不考虑图像中各物件的区域大小，有可能会把一个完整的物件切割开来，导致最终得到的特征信息不能正确的对应图像的特征，使得增强之后的特征信息也不准确。而本申请实施例提供的SCAN网络关注了物件的区域位置，提取的是物件的完整区域，得到的特征信息才更有针对性，关系增强的特征信息也更准确。

2)引进了调整模块，能够自动排列图像中各物件的相对位置关系。通过各ASAU可以提取不同的物件的特征信息，在通过调整模块将这些物件按照其本来的位置关系进行排列，从而使得关系增强的特征信息是在正确的位置关系基础上来计算的。最终可以得到一个反映各物件相对位置关系并且是关系增强的特征信息，能够极大地提升检索效果。

本申请实施例提供了一种可行的实现方式，如图14a所示，还可以同时包含MGMN和SCAN。其中，MGMN和SCAN中可以分别部署独立的ASAU，也可以共享ASAU。

具体地，当MGMN和SCAN中分别部署独立的ASAU时，即在MGMN之外，还需要重新通过SCAN对第一特征信息处理。其中，由上文可知，MGMN中，处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域，此时可以选择MGMN的至少一个目标区域组，即多个分支中的至少一个分支通过分别对应的SCAN(一个目标区域组需要一个SCAN进行联合增强处理，即SCAN的数量与需要进行增强处理的目标区域组数量相对应)进行处理，也可以达到对MGMN中的全部分支进行关系增强相近的效果，并一定程度上节省计算资源。

因此，本申请实施例中，通过对应数量的SCAN重新获取至少一个目标区域组，具体获取方式可参见上文中对SCAN的介绍，在此不再赘述。接着继续通过对应数量的SCAN重新获取的至少一个目标区域组中，针对至少一个目标区域组，分别执行：根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，输出关系增强后的第三特征信息。

具体而言，根据各个目标区域的位置关系和各个目标区域分别对应的第三特征信息的质心信息，确定各个第三特征信息的输入顺序，例如目标区域的位置关系可以为从上到下的顺序，从左到右的顺序，从里到外的顺序等等，本申请实施例在此不作限定。实际应用中，可以通过Adjustment模块确定各个第三特征信息的输入顺序。

进一步地，将每组关系增强的特征信息进行融合处理，具体可以为对每组关系增强的特征信息执行全连接操作，即如图14a所示，通过一个全连接层(FC_SCAN)对至少一个SCAN(图14a中以只对一个目标区域组进行联合增强处理为例，此时仅需一个SCAN)的输出结果执行全连接操作，得到第一中间全连接结果。

另外，在MGMN中，需将各个分支特征信息进行融合处理，并通过一个全连接层(FC_MGMN)对融合处理结果进行全连接操作，得到第二中间全连接结果。

随后，将第一中间全连接结果及第二全连接结果输入一个全连接层(FC)，通过全连接层对第一中间全连接结果及第二全连接结果执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。

完整来说，主干网络对待处理图像进行特征提取，输出的第一特征信息由MGMN和SCAN分别进行处理，MGMN输出的各分支的结果可以经过一个全连接层(图14a中的FC-MGMN)进行连接，SCAN输出的各特征信息也可以经过一个全连接层(图14a中的FC-SCAN)进行连接，FC-MGMN和FC-SCAN得到的结果再经过全连接层(图14a中的FC)进行连接处理，得到与待处理图像的目标区域对应的第二特征信息。

具体地，当MGMN和SCAN中共享ASAU时，通过SCAN可以直接对MGMN分支中各ASAU输出的特征信息确定输入顺序，作为SCAN中LSTM的输入，提高处理时的效率。实际应用中，可以选择MGMN的多个分支中的至少一个分支通过分别对应的SCAN(一个目标区域组需要一个SCAN进行联合增强处理，即SCAN的数量与需要进行增强处理的目标区域组数量相对应)进行处理，也可以达到对MGMN中的全部分支进行关系增强相近的效果，并一定程度上节省计算资源。在选择可复用的ASAU时，可以选择一个分支中的所有ASAU。

由上文可知，MGMN中，处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域，具体地，针对MGMN中的至少一个目标区域组，分别执行：根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，输出关系增强后的第三特征信息。

进一步地，将每组关系增强的特征信息进行融合处理，具体可以为对每组关系增强的特征信息执行全连接操作，即如图14a所示，通过一个全连接层FC_SCAN对至少一个SCAN(图14a中以只对一个目标区域组进行联合增强处理为例，此时仅需一个SCAN)的输出结果执行全连接操作，得到第一中间全连接结果。

另外，在MGMN中，需将各个分支特征信息进行融合处理，并通过一个全连接层FC_MGMN对融合处理结果进行全连接操作，得到第二中间全连接结果。

随后，将第一中间全连接结果及第二全连接结果再输入一个全连接层(FC)，通过全连接层对第一中间全连接结果及第二全连接结果执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。

作为示例地，如图15所示，MGMN中包含了一个有3个ASAU的分支，选择该分支中的所有ASAU进行复用。这个分支通过ASAU的处理结果在调整模块确定了输入顺序之后可以直接作为SCAN中LSTM的输入，以提高处理时的效率。

本申请实施例中，一个MGMN、一个SCAN和一个全连接层(FC)可以包含在一个特征表示网络中。其中，MGMN和SCAN的输入均为主干网络输出的第一特征信息，或者，MGMN的输入为主干网络输出的第一特征信息，SCAN的输入为MGMN共享的信息(即MGMN中的ASAU共享的信息)，MGMN和SCAN的输出分别进行全连接处理后输入全连接层，输出得到与待处理图像的目标区域对应的第二特征信息。

需要说明的是，本申请实施例中的上述各融合过程，可以采用任何融合方式，也可以通过一个全连接层(FC)进行处理。

本申请实施例中，卷积处理时的卷积处理参数可以由预先学习或训练得到。

本申请实施例提供了一种特征表示网络的离线训练方式，如图14b所示，可以同时包含MGMN和SCAN。其中，MGMN和SCAN中可以分别部署独立的ASAU，也可以共享ASAU。

针对MGMN中每一个分支，将该分支中的各ASAU的输出结果进行融合(如拼接)，然后根据得到的特征信息以及各目标损失函数对网络进行优化，目标损失函数可以包括：SoftMax损失函数、提升结构特征嵌入LSFE(Lifted Structured Feature Embedding)损失函数和Euclidean损失函数。

对于SoftMax损失函数和LSFE损失函数，可以将融合后得到的特征信息进行全局平均池化(GAP,Global Average Pooling)操作，各分支池化后得到特征信息的大小分别为1*512，2*512，3*512。

得到的特征信息经过全连接层进行全连接操作，得到相应的特征信息，如图14b所示，各分支分别对应的特征信息可以分别为f₁ ^g，f₁ ^p2，f₁ ^p3，其大小分别为1*256，1*256，1*512。

对于上述f₁ ^g，f₁ ^p2，f₁ ^p3中的每个特征信息，可以先分别进行两次全连接操作，得到不同维数的特征信息，例如可以得到1*N大小的特征图，其中N可以为数据库中所包含的物体类别的数量，还可以为1*512大小的特征图。

根据得到的1*N大小的特征图和SoftMax损失函数对网络进行优化时，将1*N大小的特征图与对应的特征信息的真实值进行匹配，如果匹配一致，则目标损失函数达到最小，如果没有达到最小，则调整网络中的参数。

根据得到的1*512大小的特征图和LSFE损失函数对网络进行优化时，将1*512大小的特征图与对应的特征信息的真实值进行匹配，如果匹配一致，则目标损失函数达到最小，如果没有达到最小，则调整网络中的参数。

对于Euclidean损失函数，在融合各ASAU输出的结果进行融合时，可以将各ASAU得到的attention map进行融合，将融合得到的特征信息与对应的特征信息的真实值进行匹配，如果匹配一致，则目标损失函数达到最小，如果没有达到最小，则调整网络中的参数。

如果SCAN复用MGMN中包含三个ASAU的分支时，每个ASAU输出的结果分别进行GAP，得到的特征信息按照调整后的顺序依次输入到LSTM网络中，得到三个特征信息，如得到三个大小为1*1*U的特征图，再将得到的三个特征信息进行融合(如拼接)，得到串联后的特征信息，如得到大小为H*U的特征图，对于得到的特征信息，可以分别进行两次全连接操作，得到不同维数的特征信息，例如可以得到1*N大小的特征图，其中N可以为数据库中所包含的物体类别的数量，还可以为1*512大小的特征图。

图14b中，对于在线处理过程，上述f₁ ^g，f₁ ^p2，f₁ ^p3融合后的特征信息可以MGMN最终输出的特征信息，如果在线处理时并未设置SCAN，则MGMN最终输出的特征信息即为待处理图像所对应的特征信息，利用该特征信息进行图像检索。

在图14b中，上面的实线框部分表示MGMN，下面的虚线框部分表示SCAN。可以在离线训练阶段部署SCAN，用于对MGMN进行网络优化，但是在线处理阶段，可以不部署SCAN，只部署MGMN。

为了学习到更具区别性的特征，在离线训练时我们用了SoftMax损失函数用于分类，LSFE损失函数用于度量学习。另外，我们设计了一个部件分割损失(PPL，PartPartition Loss)函数用于抽取具有语义模式信息的区域。

之前已经有很多方法显示服装的语义描述有助于服装检索任务，比如纹理、类型等服装信息。在本申请中，我们使用了这些服装语义信息并对每个服装属性使用一个SoftMax损失函数来预测准确的属性。

除此之外，为了学习到同款服装外观的相似性，现有方法把训练数据组织成一对一对的形式，还有方法把训练数据组织成三元组的形式。但是这两种方式都不能够充分的利用训练数据中相互之间的关系而且也都很难优化。为此，我们使用LSFE损失函数来优化，它能够使相似的服装尽量靠近，不相似的服装互相远离。

在进行图像检索时，更多的局部信息有利于提高检索性能，现有方法设计了组聚类损失函数来把相似而且相近的特定部件组织在一起，另外有一些现有方法使用了均方差函数来约束预测的attention map和真实的attention map之间的欧式距离，从而达到预测每个标注点的位置分布的作用。

为了使得MGMN中的ASAU能够关注到每个包含特定语义的区域，我们也设计了一个均方差函数，又名PPL。这个损失函数中的真实的attention map可以通过现有的特征图计算出来。

更具体来说，这个损失函数设计为如下形式：

其中，L_ppl是PPL损失函数；N是每次迭代时候使用的训练数据的数目；u和v分别是attention map的行和列；预测图S^N(u,v)就是ASAU中的attention map，大小为7*7；真实图

可以这样计算：先在该attention map中找到最大值点，然后再用2D高斯滤波操作。需要注意的是在MGMN中包含两个ASAU的分支使用了PPL进行优化，这两个最大值点分别在[0-3]行和[4-6]寻找。对于包含三个ASAU的分支，那三个最大值点分别在[0-2]，[3-4]和[5，6]行寻找。

本申请实施例中，特征表示网络的离线训练过程包括：

可以先根据包含训练样本进行特征表示网络的训练，训练过程和上述在线过程一致，输出针对训练样本提取出的特征信息，根据目标损失函数(如SoftMax函数)，对提取出的特征信息与该训练样本进行匹配，如果匹配一致，则目标损失函数达到最小。

本申请实施例中，图像检索方法的各个步骤可以由服务器设备执行，也可以在终端设备本地执行，也可以某些步骤在服务器执行，某些步骤在终端设备执行。

总体来说，本申请实施例提供的图像检索方法具有如下优点：

1)不仅提取了待处理图像目标区域的全局信息，而且同时获取了不同粒度上丰富的细节信息。通常对一张图像从不同区域大小来看，会看到不一样的信息，从整体上来看，可能会获得物体的整体轮廓信息，但是深入到某个部分来看，可能获得更具体的细节信息。为了得到图像中更丰富的特征信息，需要综合不同粒度上的信息，最后进行融合就能够得到更准确的特征信息，从而提高检索准确率。

2)考虑并模拟了图像中不同物件的相对位置关系，使得图像中各物件成为一个紧密的整体，从而使增强之后的特征信息更具有区别性，使得检索的效果更好。

下面将结合服装检索的应用场景对本申请实施例提供的图像检索方法进行介绍。

当人们在现实场景看到一件感兴趣的服装时，可能会想要在线搜索出类似的服装进行购买或收藏，因此就需要终端设备提供便捷、准确的服装检索功能。例如，当人们在现实场景中看到某个很感兴趣的上衣，可以利用终端设备拍摄该上衣的图片，服装检索功能会基于用户拍摄的图片，在数据库或电子商务网站或搜索网站中，检索出和用户拍摄的图片中的服装一致/相似的服装的图片或商品信息。此外，终端设备还可以进一步为用户提供服装推荐的功能，例如用户拍摄了现实中的某个服装，终端设备利用服装检索功能检索到一致或相似的服装后，然后确定出预先针对该服装设置的或实时自动确定出的，与该服装搭配的其他服装，并提供给用户以供参考，例如如图16a所示，用户拍摄了一件上衣的图片，终端设备会给用户提供出与该上衣搭配的包和裙子的图片。

具体地，用户使用终端设备时，通过摄像头实时拍摄感兴趣服装的图片。终端设备在界面上提供检索功能的入口，用户如果点击该入口，则表示用户想要检索图片上的服装，终端设备将用户拍摄的图片上传到云端服务器。

进行服装检索的过程可以包括上述实施例中提及的特征提取、检索的步骤。可选地，如图16b所示，进行服装检索的过程可以具体包括：服装分类、物体检测、特征提取、检索四个步骤，下面详细介绍各个步骤的实现方式：

步骤1，将用户输入的图像进行服装分类，该步骤可以由云端服务器执行。

用户的输入图像可以是用户使用终端设备实时采集的图像(如图像采集装置实时采集现实场景下的服装图像)，或者用户也可以使用已采集的图像(如存储在终端设备中的图像，或者用户在线下载的图像等等)。

用户使用终端设备时，可以通过摄像头实时拍摄感兴趣服装的图片，终端设备在界面上提供检索功能的入口，用户如果点击该入口，则表示用户想要检索图片上的服装，终端设备将用户拍摄的图片上传到云端服务器。

先利用分类算法，对图像中的服装进行分类，得出图像中的服装所属的类别，服装类别包含上衣，包、裤子，裙子，鞋等等。其中，可以使用Googlenet、VGGnet等分类算法，对用户输入的图像进行服装分类。

根据上述分类算法，可以得到图像中的服装所属的类别，如裙子。当然，如果图像中有多个服装，该步骤也可以得到多个服装类别。

步骤2，基于得到的服装类别，进一步确定图像中服装对应的具体位置，即物体检测，该步骤可以由云端服务器执行。

其中，每个类别可以对应一个物体检测器，例如，物体检测器包含上衣检测器，包检测器、裤子检测器，裙子检测器，鞋检测器等等。

基于步骤1得到的图像中的服装所属的类别，利用该类别对应的检测器进行物体检测，得到图像中服装对应的具体位置。该具体位置能够表征图像中的服装区域在图像中的具体位置，如(x，y，w，h)，其中，x和y可以为服装区域(也可以称为服装检测框)的左上角在图像中的坐标，w为服装区域的宽度，h为服装区域的高度。

当然，如果图像中有多个服装，在此步也可以分别对多个服装进行物体检测，得到各个服装的具体位置。

其中，可以自动检测出服装的具体位置，供用户选择及确认，或者也可以由用户来对自动检测出的服装的具体位置进行校正，以得到更为准确的位置信息；如果检测出多个服装的位置，用户可以进一步在多个服装中，选择想要检索的服装，即待检索服装。

步骤3，针对步骤2输出的待检索服装的具体位置，利用特征提取网络，对待检索服装的区域图像进行特征提取，输出特征信息，该特征信息可以为一维的特征向量，即特征提取，该步骤可以由云端服务器执行。

其中，特征提取网络的整体结构可以上述任一实施例提供的特征表示网络与主干网络组成。主干网络接收物体检测输出的检测结果，根据待检索服装的具体位置可以得到待检索服装的区域图像。特征表示网络将经过主干网络输出的特征图映射成固定长度的特征向量，最终得到512维或1024维的特征向量。该特征向量一般具有更高层的语义信息，更能表示出待检索服装的特征。

步骤4，利用步骤3提取出的待检索服装的特征信息，与服装数据库中各服装图像的特征信息进行匹配，在服装数据库中，确定出与待检索服装匹配的服装图像，该步骤可以由云端服务器执行。

步骤5，将匹配出的服装图像以及相关信息提供给用户，上述相关信息可以为该服装的链接信息，或搭配的服装图像等等，该步骤可以由终端设备执行。

通过本申请实施例提供的图像检索方法在服装检索场景进行应用，相较于现有技术可以解决以下问题：

1)现有技术中，背景混乱对准确的检索产生极大的干扰。对于背景干扰这一问题，现有的特征表示网络并不会区分哪里是背景，哪里是物体，背景信息会被带入到最终的特征信息里面来，导致最终提取的特征不能准确的描述出服装的信息，存在加大的干扰信息，从而导致检索结果不精确。

本申请实施例中，通过至少一个ASAU进行处理，利用卷积处理就可以提取出主要目标区域的特征信息，滤除掉杂乱的干扰区域，如背景区域等，从而提高了检索结果准确性。

2)现有技术中，穿戴者的姿势或者视角造成服装的形状变化对检索结果的性能影响很大。

本申请的发明人发现，即使服装的形状发生较大改变，但是其局部的特征相对比较稳定，例如，即使服装的形状发生了改变，但是其纽扣的位置和样式的改变不大，或者领子的样式改变不大，如果能利用这些局部特征来表示服装，能够得到更精确的检索结果。

因此，本申请实施例中，特征表示网络可以通过至少两个ASAU进行处理，每个ASAU关注服装的不同区域(比如，ASAU1主要关注领子所在的区域，ASAU2主要关注口袋所在区域)，即进一步提取出服装区域各局部的特征信息，由于局部的特征相对比较稳定，受服装的形状变化的影响不大，因此能够得到更加鲁棒的特征，大大提高了检索结果的准确性。

进一步的，本申请实施例中，每个ASAU基于不同尺度分别进行处理，能够得到服装的局部区域能够反映各种细节信息的特征信息，例如服装中领子样式或者口袋样式等更具体的细节信息。

进一步的，本申请实施例中，特征表示网络可以为多分支结构，每个分支包含至少一个ASAU，每个分支表示不同尺度的局部区域，例如，包含一个区域处理单元的分支可以认为是关注服装的全局信息，包含两个或三个ASAU的分支关注服装的细节信息，从而能够获得更加全面的特征信息，得到的检索结果更准确。

3)本申请的发明人发现，现有技术的特征提取网络输出的特征信息缺乏空间约束，而服装图像数量巨大的数据库中进行检索，由于很多服装之间可能仅存在着细微的差别，如果不考虑服装中各个物件的相对关系，即空间约束，则检索结果的准确性会大大降低。

例如如图16c所示，图16c中位于上方的两张图是用户输入的图像，图像中包含了待检索的服装，因此上方两张图也可以称为待检索服装图片，图16c中位于下方的两张图是未考虑空间约束的情况下输出的检索结果，可以看到，由于未考虑空间约束，条纹样式的短裤的检索结果为多个丝袜组成的图像，该图像也存在类似条纹的区域，但是却是由多个服装组成。以及，存在上衣和裤子两种服装的图片的检索结果为一件具有颜色分界的上衣。因此，在提取的特征信息缺乏空间约束时，检索结果的准确度较低，可能会得到错误检索结果。

本申请实施例中，引进了调整模块和LSTM机制，考虑并模拟了服装不同物件的相对位置关系。因为对于服装来说，实际上包含了几个局部物件，比如领子、扣子、袖子及口袋等，而这些物件是有天然的位置关系的，比如领子会在口袋的上方，口袋会在扣子的旁边等。调整模块能够自动排列服装上各物件的相对位置关系。通过多个ASAU可以提取不同物件的特征信息，并设计调整模块来确定各特征信息的输入顺序，再利用LSTM机制模拟各个区域之间的相对位置关系，对各个ASAU输出的特征信息进行联合增强处理，增强空间约束，使得处理后的各特征信息之间能够反映出各区域之间的空间关系，能够极大提高服装的检索效果。

总的来说，将本申请实施例提供的图像检索方法应用于服装检索场景，能够提高服装检索的准确率,使用户获取更满意的服装信息。

下面给出该场景下性能改进的评测结果，本申请实施例基于现有的服装图像数据库对上述方案进行性能评测，该数据库包括三种服装类型，上衣、裙子、裤子，每一类的图像数量以及用户待检索图像数量的如表1所示。

	上衣	裙子	裤子
				用户待检索图像数量	563	366	289
数据库中图像数量	648153	396702	372250

表1

表2展示了三种方案在该数据集上的客观评价效果，可以用检索准确度来表示检索效果，这三种方案分别为：现有技术方案、本申请实施例提出MGMN方案和本申请实施例提出MGMN+SCAN方案。

从表2中可以看出，本申请实施例提出MGMN方案要比现有技术方案的检索效果提升2％左右。这是因为对于服装的特征信息，全局信息只能够粗略地描述服装的整体轮廓信息，会弱化甚至忽略局部信息的特征，而MGMN方案中包含的多个ASAU分支不仅能提取出全局信息，还能够提取出多粒度的局部信息，进而获得更完整的服装特征表示，提高服装检索的准确率。

进一步地，从表2中还可以看出，MGMN+SCAN方案要比MGMN方案的检索效果提升2％左右。这是由于服装中各局部物件的相对位置关系，即空间约束的必要性。如果不关注各物件之间的空间约束，那么各物件之间的关系是松散的，在进行服装检索时，两件相似但不完全匹配的衣服可能获得很高的匹配度，若加上各物件的相对位置关系，把几个物件作为一个整体，就能将相似但不完全匹配的服装筛除。

表2

如图16d所示，本申请实施例提出的图像检索方案和现有技术方案主观的评价效果，通过输入两个待检索服装图片，每个图片只返回两个检索结果。从第一个检索结果来看，本申请实施例提出的图像检索方案由于考虑了更多的细节信息，因此可以找到和待检索服装图片一样领型的服装，而现有技术方案只能检索到外型比较相似的服装。第二个检索结果中，虽然两种方案都能找到带有网格或者格子的服装，但由于本申请实施例提出的图像检索方案中考虑了服装各局部物件的依赖关系，能够找到与待检索服装图片中匹配度很高的服装图像，而现有技术方案只找到了部分相似的服装图片。

需要说明的是，上述服装检索场景仅为举例，不应理解为对本申请的限定，基于这些范例进行的适当变化也可适用于本申请，例如本领域技术人员能够可以轻松地将本申请实施例提供的检索方法迁移至视频监控等场景，也应包含在本申请保护的范围以内。例如，用本申请实施例提出的技术方案来提取视频中行人的特征，获得了行人的特征信息之后，这样使用者可以根据输入视频中行人的特征，去数据库中搜索所有视频，最后经过匹配计算，判断数据库中是否存在该行人的视频数据。

本申请实施例还提供了一种图像检索装置，如图17所示，该图像检索装置170可以包括：特征提取模块1701、特征信息处理模块1702和图像检索模块1703，其中，

特征提取模块1701用于对待处理图像进行特征提取，得到第一特征信息；

特征信息处理模块1702用于对第一特征信息进行特性信息处理，得到与待处理图像的目标区域对应的第二特征信息；

图像检索模块1703用于根据第二特征信息，对待处理图像进行图像检索处理。

在一种可选的实现方式中，特征信息处理模块1702具体用于针对至少一个目标区域，分别将第一特征信息进行相应的特性信息处理，得到与各个目标区域分别对应的第三特征信息；将各个第三特征信息进行融合处理，得到与待处理图像的目标区域对应的第二特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于基于该目标区域对应的第一卷积处理参数，对第一特征信息进行卷积处理，得到与该目标区域对应的第三特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于基于该目标区域对应的第一卷积处理参数，对第一特征信息进行卷积处理；对卷积处理后得到的特征信息进行归一化处理；对归一化处理后的特征信息执行堆叠操作；将堆叠操作后的特征信息与第一特征信息进行融合处理，得到与该目标区域对应的第三特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于基于该目标区域对应的第一卷积处理参数，对第一特征信息进行至少两次卷积处理，分别得到与该目标区域对应的各个第四特征信息，其中，每次卷积处理所采用的第一卷积处理参数不同；根据各个第四特征信息，进行融合处理，得到与该目标区域对应的第三特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于基于该目标区域对应的第一卷积处理参数，对第一特征信息进行至少两次卷积处理，其中，每次卷积处理所采用的第一卷积处理参数不同；针对每次卷积处理后得到的特征信息，分别执行下述处理：对卷积处理后得到的特征信息进行归一化处理，并对归一化处理后的特征信息执行堆叠操作，将堆叠操作后的特征信息与第一特征信息进行融合处理，得到对应的第四特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于基于该目标区域对应的第一卷积处理参数，对第一特征信息进行至少两次卷积处理，其中，每次卷积处理所采用的第一卷积处理参数不同；针对每次卷积处理后得到的特征信息，分别对卷积处理后得到的特征信息进行归一化处理，得到对应的第四特征信息；

以及，特征信息处理模块1702具体用于根据各个第四特征信息，进行融合处理；对融合后得到的特征信息执行堆叠操作；将堆叠操作后的特征信息与第一特征信息进行融合处理，得到该目标区域对应的第三特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于基于各个第四特征信息分别对应的权重，对各个第四特征信息进行融合处理。

在一种可选的实现方式中，特征信息处理模块1702还用于基于该目标区域对应的第二卷积处理参数，对第一特征信息执行卷积处理；根据卷积处理的结果，得到与各个第四特征信息分别对应的权重。

在一种可选的实现方式中，特征信息处理模块1702具体用于对卷积处理的结果进行归一化处理，得到与各个第四特征信息分别对应的权重。

在一种可选的实现方式中，卷积处理参数包括以下至少一项：卷积核、卷积核大小、扩展因子、卷积步长。

在一种可选的实现方式中，特征信息处理模块1702具体用于根据各个第三特征信息，执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。

在一种可选的实现方式中，待处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域；特征信息处理模块1702具体用于对每个目标区域组内的各个目标区域对应的第三特征信息进行融合处理，得到各个目标区域组对应的第五特征信息；将各个第五特征信息进行融合处理，得到待处理图像的目标区域对应的第二特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于根据各个第五特征信息，执行全连接操作，得到与待处理图像的目标区域对应的第二特征信息。

在一种可选的实现方式中，特征信息处理模块1702还用于根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，输出关系增强后的第三特征信息。

在一种可选的实现方式中，待处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域；特征信息处理模块1702还用于针对至少一个目标区域组，分别执行：根据各个目标区域的相对位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，输出关系增强后的第三特征信息。

在一种可选的实现方式中，特征信息处理模块1702具体用于根据各个目标区域的位置关系和各个目标区域分别对应的第三特征信息的质心信息，确定各个第三特征信息的输入顺序；根据确定出的输入顺序，将各个第三特征信息依次输入到预设的长短期记忆网络。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的图像检索装置，其实现原理及产生的技术效果和前述方法实施例相同，为描述的方便和简洁，装置实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本申请实施例还提供了一种电子设备(例如终端设备)，包括：处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述方法实施例中相应内容。

可选地，电子设备还可以包括收发器。处理器和收发器相连，如通过总线相连。需要说明的是，实际应用中收发器不限于一个，该电子设备的结构并不构成对本申请实施例的限定。

其中，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本申请实施例还提供了一种计算机可读存储介质，该计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像检索方法，其特征在于，包括：

对待处理图像进行特征提取，得到第一特征信息；

对所述第一特征信息进行特性信息处理，得到与所述待处理图像的目标区域对应的第二特征信息；

根据所述第二特征信息，对所述待处理图像进行图像检索处理。

2.根据权利要求1所述的图像检索方法，其特征在于，对所述第一特征信息进行特性信息处理，得到与所述待处理图像的目标区域对应的第二特征信息，包括：

针对至少一个目标区域，分别将所述第一特征信息进行相应的特性信息处理，得到与各个目标区域分别对应的第三特征信息；

将各个第三特征信息进行融合处理，得到与所述待处理图像的目标区域对应的第二特征信息。

3.根据权利要求2所述的图像检索方法，其特征在于，针对任一目标区域，将所述第一特征信息进行相应的特性信息处理，得到与该目标区域对应的第三特征信息，包括：

基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行卷积处理，得到与该目标区域对应的第三特征信息。

4.根据权利要求3所述的图像检索方法，其特征在于，基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行卷积处理，得到与该目标区域对应的第三特征信息，包括：

基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行卷积处理；

对卷积处理后得到的特征信息进行归一化处理；

对归一化处理后的特征信息执行堆叠操作；

将堆叠操作后的特征信息与所述第一特征信息进行融合处理，得到与该目标区域对应的第三特征信息。

5.根据权利要求3所述的图像检索方法，其特征在于，基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行卷积处理，得到与该目标区域对应的第三特征信息，包括：

基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行至少两次卷积处理，分别得到与该目标区域对应的各个第四特征信息，其中，每次卷积处理所采用的第一卷积处理参数不同；

根据各个第四特征信息，进行融合处理，得到与该目标区域对应的第三特征信息。

6.根据权利要求5所述的图像检索方法，其特征在于，基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行至少两次卷积处理，分别得到与该目标区域对应的各个第四特征信息，包括：

基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行至少两次卷积处理，其中，每次卷积处理所采用的第一卷积处理参数不同；

针对每次卷积处理后得到的特征信息，分别执行下述处理：对卷积处理后得到的特征信息进行归一化处理，并对归一化处理后的特征信息执行堆叠操作，将堆叠操作后的特征信息与所述第一特征信息进行融合处理，得到对应的第四特征信息。

7.根据权利要求5所述的图像检索方法，其特征在于，基于该目标区域对应的第一卷积处理参数，对所述第一特征信息进行至少两次卷积处理，分别得到与该目标区域对应的各个第四特征信息，包括：

针对每次卷积处理后得到的特征信息，分别对卷积处理后得到的特征信息进行归一化处理，得到对应的第四特征信息；

根据各个第四特征信息，进行融合处理，得到该目标区域对应的第三特征信息，包括：

根据各个第四特征信息，进行融合处理；

对融合后得到的特征信息执行堆叠操作；

将堆叠操作后的特征信息与所述第一特征信息进行融合处理，得到该目标区域对应的第三特征信息。

8.根据权利要求5-7任一项所述的图像检索方法，其特征在于，根据各个第四特征信息，进行融合处理，包括：

基于各个第四特征信息分别对应的权重，对各个第四特征信息进行融合处理。

9.根据权利要求8所述的图像检索方法，其特征在于，所述基于各个第四特征信息分别对应的权重，对各个第四特征信息进行融合处理之前，还包括：

基于该目标区域对应的第二卷积处理参数，对所述第一特征信息执行卷积处理；

根据卷积处理的结果，得到与各个第四特征信息分别对应的权重。

10.根据权利要求9所述的图像检索方法，其特征在于，根据卷积处理的结果，得到与各个第四特征信息分别对应的权重，包括：

对卷积处理的结果进行归一化处理，得到与各个第四特征信息分别对应的权重。

11.根据权利要求3-10任一项所述的图像检索方法，其特征在于，卷积处理参数包括以下至少一项：

卷积核、卷积核大小、扩展因子、卷积步长。

12.根据权利要求2-11任一项所述的图像检索方法，其特征在于，将各个第三特征信息进行融合处理，得到所述待处理图像的目标区域对应的第二特征信息，包括：

根据各个第三特征信息，执行全连接操作，得到与所述待处理图像的目标区域对应的第二特征信息。

13.根据权利要求2-11任一项所述的图像检索方法，其特征在于，所述待处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域；

将各个第三特征信息进行融合处理，得到所述待处理图像的目标区域对应的第二特征信息，包括：

对每个目标区域组内的各个目标区域对应的第三特征信息进行融合处理，得到各个目标区域组对应的第五特征信息；

将各个第五特征信息进行融合处理，得到所述待处理图像的目标区域对应的第二特征信息。

14.根据权利要求13所述的图像检索方法，其特征在于，将各个第五特征信息进行融合处理，得到所述待处理图像的目标区域对应的第二特征信息，包括：

根据各个第五特征信息，执行全连接操作，得到与所述待处理图像的目标区域对应的第二特征信息。

15.根据权利要求2-12所述的图像检索方法，其特征在于，针对至少一个目标区域，分别将所述第一特征信息进行相应的特性信息处理，得到与各个目标区域分别对应的第三特征信息之后，还包括：

根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，输出关系增强后的第三特征信息。

16.根据权利要求2-11、13-14中任一项所述的图像检索方法，其特征在于，所述待处理图像对应至少两个目标区域组，每个目标区域组包含至少一个目标区域；

针对至少一个目标区域，分别将所述第一特征信息进行相应的特性信息处理，得到与各个目标区域分别对应的第三特征信息之后，还包括：

针对至少一个目标区域组，分别执行：根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，输出关系增强后的第三特征信息。

17.根据权利要求15或16所述的图像检索方法，其特征在于，根据各个目标区域的位置关系，将各个目标区域分别对应的第三特征信息依次输入到预设的长短期记忆网络，包括：

根据各个目标区域的位置关系和各个目标区域分别对应的第三特征信息的质心信息，确定各个第三特征信息的输入顺序；

根据确定出的输入顺序，将各个第三特征信息依次输入到预设的长短期记忆网络。

18.一种图像检索装置，其特征在于，包括：

特征信息处理模块，用于对所述第一特征信息进行特性信息处理，得到与所述待处理图像的目标区域对应的第二特征信息；

图像检索模块，用于根据所述第二特征信息，对所述待处理图像进行图像检索处理。

19.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-17任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行如权利要求1-17任一项所述的方法。