CN113989593A

CN113989593A - 图像处理方法、检索方法、训练方法、装置、设备及介质

Info

Publication number: CN113989593A
Application number: CN202111279850.6A
Authority: CN
Inventors: 杨敏; 朱若琳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28

Abstract

本公开提供了图像处理方法、检索方法、特征提取模型的训练方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术领域。具体实现方案为：从待处理图像中提取特征，得到全局特征；从待处理图像中提取特征，得到局部特征；以及对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

Description

图像处理方法、检索方法、训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术领域，具体涉及图像处理方法、检索方法、特征提取模型的训练方法、装置、电子设备、存储介质以及程序产品。

背景技术

随着计算机视觉技术与深度学习技术的不断发展，利用图像信息进行网络检索的图像检索技术也成为一个新的研究领域。图像检索技术在科学实验、家庭娱乐、工作生活等多个方面均起到重要作用。利用图像检索技术可以省去文字编辑、语言组织等时间，为查询检索提供便利。

发明内容

本公开提供了一种图像处理方法、检索方法、特征提取模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种图像处理方法，包括：从待处理图像中提取特征，得到全局特征；从所述待处理图像中提取特征，得到局部特征；以及对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征。

根据本公开的另一方面，提供了一种图像检索方法，包括：利用如上所述的图像处理方法处理所述待检索图像，得到所述待检索图像的目标特征；以及基于所述待检索图像的目标特征，从多个模板特征中确定与所述目标特征相匹配的目标模板特征。

根据本公开的另一方面，提供了一种特征提取模型的训练方法，包括：利用训练样本集合训练特征提取模型，得到训练后的特征提取模型，其中，所述训练样本集合包括多个样本图像和所述多个样本图像各自的类别标签，其中，所述类别标签指示了所述多个样本图像各自之间的相似性；其中，所述特征提取模型用于从样本图像中提取特征，得到样本全局特征；从所述样本图像中提取特征，得到样本局部特征；以及对所述样本全局特征和所述样本局部特征进行交替交互增强处理，得到所述样本全局特征和所述样本局部特征融合的样本目标特征。

根据本公开的另一方面，提供了一种图像处理装置，包括：全局提取模块，用于从待处理图像中提取特征，得到全局特征；局部提取模块，用于从所述待处理图像中提取特征，得到局部特征；以及融合模块，用于对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征。

根据本公开的另一方面，提供了一种图像检索装置，包括：处理模块，用于利用如上所述的图像处理方法处理所述待检索图像，得到所述待检索图像的目标特征；以及匹配模块，用于基于所述待检索图像的目标特征，从多个模板特征中确定与所述目标特征相匹配的目标模板特征。

根据本公开的另一方面，提供了一种特征提取模型的训练装置，包括：训练模块，用于利用训练样本集合训练特征提取模型，得到训练后的特征提取模型，其中，所述训练样本集合包括多个样本图像和所述多个样本图像各自的类别标签，其中，所述类别标签指示了所述多个样本图像各自之间的相似性；其中，所述特征提取模型用于从样本图像中提取特征，得到样本全局特征；从所述样本图像中提取特征，得到样本局部特征；以及对所述样本全局特征和所述样本局部特征进行交替交互增强处理，得到所述样本全局特征和所述样本局部特征融合的样本目标特征。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用图像检索方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的图像处理方法的流程图；

图3示意性示出了根据本公开另一实施例的图像处理方法的流程图；

图4示意性示出了根据本公开实施例的级联的多个注意力机制模块的架构图；

图5示意性示出了根据本公开实施例的图像检索方法的流程图；

图6示意性示出了根据本公开实施例的特征提取模型的训练方法的流程图；

图7示意性示出了根据本公开实施例的图像处理装置的框图；

图8示意性示出了根据本公开实施例的图像检索装置的框图；

图9示意性示出了根据本公开实施例的特征提取模型的训练装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供了一种图像处理方法、检索方法、特征提取模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的实施例，图像处理方法可以包括：从待处理图像中提取特征，得到全局特征；从待处理图像中提取特征，得到局部特征；以及对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示意性示出了根据本公开实施例的可以应用图像检索方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用图像检索方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的图像检索方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，和服务器104。终端设备101、102、103和服务器104之间通过网络通信链接。网络可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络与服务器104交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通信客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览、网络图像检索的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

需要说明的是，本公开实施例所提供的图像检索方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的图像检索装置也可以设置于终端设备101、102、或103中。

例如，图像数据库106加载于终端设备101、102、103中，终端设备101、102、103可以获取用户采集或者上传的图片105，并利用图像处理方法对图片105进行图像处理，得到目标特征。将目标特征与图像数据库106中的多个模板特征进行比对，得到目标模板特征。可以将与目标模板特征相对应的检索结果例如商品介绍信息作为最终结果反馈给用户。

或者，本公开实施例所提供的图像检索方法一般也可以由服务器105执行。相应地，本公开实施例所提供的图像检索装置一般可以设置于服务器105中。本公开实施例所提供的图像检索方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的图像检索装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，终端设备101、102、103可以获取用户上传的图片105，然后将图片105发送给服务器104，由服务器104对图片105进行图像处理，得到目标特征；将目标特征与图像数据库106中的多个模板特征进行比对，得到目标模板特征。或者由能够与终端设备101、102、103和/或服务器104通信的服务器或服务器集群对图片105进行分析，并最终得到目标模板特征。

应该理解，图1中的终端设备和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的图像处理方法的流程图。

如图2所示，该方法包括操作S210～S230。

操作S210，从待处理图像中提取特征，得到全局特征。

操作S220，从待处理图像中提取特征，得到局部特征。

操作S230，对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

根据本公开的实施例，从特征种类来看，从待处理图像提取的特征可以分为全局特征和局部特征。

根据本公开的实施例，全局特征可以是指针对待处理图像的高维特征，具有待处理图像中的深层语义信息。

根据本公开的实施例，可以利用卷积神经网络(CNN)从待处理图像中提取特征，得到全局特征，但是并不局限于此，还可以利用编码解码器(Transformer)从待处理图像中提取特征，得到全局特征。只要是能够从待处理图像中提取得到具有深层次语义信息的全局特征的网络架构即可。

根据本公开的实施例，局部特征可以是指针对待处理图像的低维特征，更接近待处理图像中的浅层图像信息。

根据本公开的实施例，可以利用卷积神经网络从待处理图像中提取特征，得到局部特征，但是并不局限于此，还可以利用编码解码器从待处理图像中提取特征，得到局部特征。只要是能够从待处理图像中提取得到具有浅层图像信息的局部特征的网络架构即可。

根据本公开的实施例，可以利用自注意力机制网络来对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征，但是并不局限于此，还可以利用多头注意力机制网络来对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征，也可以利用其它融合网络来对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

根据本公开的实施例，目标特征兼顾全局特征和局部特征，弥补了单一特征作为特征提取处理的结果的局限性，进而保证目标特征更好的保留了待处理图像中的特征信息，使得利用目标特征来进行图像检索、图像比对更为精准。

下面结合具体实施例，并参考图3～图4对图2所示的方法做进一步说明。

根据本公开的实施例，针对操作S210，从待处理图像中提取特征，得到全局特征可以包括如下操作。

例如，利用全局特征提取模块，从待处理图像提取特征，得到初始全局特征；以及利用池化模块处理初始全局特征，得到全局特征。

根据本公开的示例性实施例，全局特征提取模块，可以是级联的多个移位窗编码解码器(Swin-Transformer)作为主网络架构。

根据本公开的实施例，利用级联的多个移位窗编码解码器来进行特征提取，可以更好的兼顾到待处理图像中各个局部区域之间的关系，使得针对待处理图像的感受野的范围更大。

根据本公开的实施例，多个移位窗编码解码器中的每个移位窗编码解码器的网络架构可以相同，但是并不局限于此，也可以不同。只要是能够实现逐层级深化待处理图像中的语义特征的提取即可。

根据本公开的实施例，针对操作S220，从待处理图像中提取特征，得到局部特征可以包括如下操作。

例如，利用局部特征提取模块，从待处理图像中提取特征，得到初始局部特征；利用降采样模块处理初始局部特征，得到局部特征。

根据本公开的示例性实施例，局部特征提取模块，可以是级联的多个移位窗编码解码器(Swin-Transformer)作为主网络架构。

根据本公开的实施例，利用级联的多个移位窗编码解码器来进行特征提取，可以通过调整移位窗编码解码器的级联数量来调整提取的特征层次，例如可以减小移位窗编码解码器的级联数量来保留更多待处理图像的底层信息，得到初始局部特征，该初始局部特征的分辨率更高。

根据本公开的实施例，可以利用降采样模块处理初始局部特征，得到局部特征，使得局部特征的分辨率大小与全局特征的分辨率大小相同。以便利用分辨率大小相同的局部特征和全局特征来简化后续的交替交互增强处理操作。

图3示意性示出了根据本公开另一实施例的图像处理方法的流程图。

如图3所示，可以利用全局特征提取模块310，从待处理图像320中提取特征，得到初始全局特征；以及利用池化模块330处理初始全局特征，得到全局特征340。利用局部特征提取模块350，从待处理图像320中提取特征，得到初始局部特征；利用降采样模块360处理初始局部特征，得到局部特征370。对全局特征340和局部特征370进行交替交互增强处理，得到全局特征和局部特征融合的目标特征380。

根据本公开的实施例，全局特征提取模块包括级联的N个移位窗编码解码器，N为大于或等于1的整数，例如N为2、3、4等的整数。

根据本公开的实施例，局部特征提取模块包括级联的M个移位窗编码解码器，M为大于或等于1的整数，例如M为1、2、3等的整数。

根据本公开的实施例，N大于M。即全局特征提取模块中级联的移位窗编码解码器的数量大于局部特征提取模块中级联的移位窗编码解码器的数量。

根据本公开的实施例，不同层级的移位窗编码解码器可以提取待处理图像中的不同类型的特征，可以通过调整级联的移位窗编码解码器的数量来调整从待处理图像中提取的特征类型。例如，另N大于M。利用数量为N的移位窗编码解码器来提取全局特征，利用数量为N的移位窗编码解码器来提取局部特征。

根据本公开的示例性实施例，全局特征提取模块可以包括级联的4个移位窗编码解码器，局部特征提取模块可以包括级联的2个移位窗编码解码器。利用本公开实施例提供的全局特征提取模块和局部特征提取模块，经验证，提取的目标特征保留待处理图像的信息完整，应用于图像检索领域，匹配更为精准。

根据本公开的实施例，移位窗编码解码器可以包括多个层级单元，例如，每个移位窗编码解码器可以包括Patch Merging单元(分片合并单元)和移位窗编码解码单元。

根据本公开的实施例，每个Patch Merging单元可以包括Patch Partition层(分区层)和Linear Embedding层(线性嵌入层)。

根据本公开的实施例，移位窗编码解码单元可以顺序包括第一子单元和第二子单元。第一子单元顺序包括第一归一化层(Layer Normalization，LN)、窗口多头自注意力层(Window Multi-head Self Attention，W-MSA)、第一残差层、第一多层感知机层(Multilayer Perceptron，MLP)、以及第二残差层，第二子单元顺序包括第二归一化层、移动窗口多头自注意力层(Shifted Window Multi-head Self Attention，SW-MSA)、第三残差层、第二多层感知机层、以及第四残差层。

根据本公开的实施例，利用移位窗编码解码器中的多个层级单元可以将待处理图像中的各个区域关联起来，最终得到结合全局特征和局部特征的“上下文关系”的特征，即学习了待处理图像中全局特征与局部特征关系而得到的结果。此外，利用移位窗编码解码器中的移位窗编码解码单元，可以关注到待处理图像中的不同区域，使得感受野的范围变大。

根据本公开的实施例，针对操作S230，对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征可以包括如下操作。

例如，利用级联的多个注意力机制模块，对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

根据本公开的实施例，多个注意力机制模块中的每个注意力机制模块可以采用自注意力机制网络，但是并不局限于此，还可以采用多头注意力机制网络。利用注意力机制模块可以将全局特征和局部特征关联起来，将全局特征和局部特征进行融合。

根据本公开的实施例，利用多头注意力机制网络，可以将全局特征和局部特征进行多方面、全方位关注，更有利于全局特征和局部特征的融合。

根据本公开的实施例，利用级联的多个注意力机制模块，可以经过多层交替交互增强处理，进一步优化融合效果。

根据本公开的实施例，融合全局特征和局部特征的目标特征，在保留了待处理图像中的局部特征的基础上，还更多的提取了待处理图像中的具有深层语义信息的全局特征，避免了仅提取单一特征而带来的局限性问题。

图4示意性示出了根据本公开实施例的级联的多个注意力机制模块的架构图。

如图4所示，可以利用级联的I个注意力机制模块中的第i注意力机制模块A410处理第i全局特征E410和第i局部特征E420，生成第i+1全局特征E430，其中，第i注意力机制模块A410的第i询问矩阵A411是基于第i全局特征E410生成的，第i注意力机制模块A410的第i键矩阵A412和第i价值矩阵A413是基于第i局部特征E420生成的，i大于或等于1，且i小于I，I为正整数；利用第i+1注意力机制模块A420处理第i+1全局特征E430和第i局部特征E420，生成第i+1局部特征E440，其中，第i+1注意力机制模块A420的第i+1询问矩阵A421是基于第i局部特征E420生成的，第i+1注意力机制模块E420的第i+1键矩阵A422和第i+1价值矩阵A423是基于第i+1全局特征A430生成的；以及经过多次交替交互增强处理，将第I注意力机制模块输出的结果作为目标特征A450。

根据本公开的实施例，级联的注意力机制模块数量不做限定，例如I可以为1个，也可以为2个、3个或者更多。只要是确定的级联的注意力机制模块数量既能够兼顾计算处理量小，又能够兼顾计算效果好即可。

根据本公开的实施例，目标特征可以是第I注意力机制模块输出的全局特征，但是并不局限于此，目标特征也可以是第I注意力机制模块输出的局部特征。例如，I为2时，目标特征可以为第2局部特征；例如I为3时，目标特征可以为第3全局特征。

根据本公开的实施例，不局限于各个注意力机制模块中的询问矩阵、键矩阵、以及价值矩阵的生成方式，只要是已知的生成方式即可。

根据本公开的实施例，利用对每层的注意力机制模块中的询问矩阵、键矩阵、以及价值矩阵的生成来源做变换来实现对全局特征和局部特征的交替交互增强处理，例如，第i注意力机制模块的第i询问矩阵是基于第i全局特征生成的，第i注意力机制模块的第i键矩阵和第i价值矩阵是基于第i局部特征生成的，第i+1注意力机制模块的第i+1询问矩阵是基于第i局部特征生成的，第i+1注意力机制模块的第i+1键矩阵和第i+1价值矩阵是基于第i+1全局特征生成的。进而使得全局特征和局部特征经过不断变换的注意力机制模块进行互相增强处理，最终实现目标特征为融合了全局特征和局部特征的特征。

图5示意性示出了根据本公开实施例的图像检索方法的流程图。

如图5所示，该方法包括操作S510～S520。

操作S510，利用图像处理方法处理待检索图像，得到待检索图像的目标特征。

操作S520，基于待检索图像的目标特征，从多个模板特征中确定与目标特征相匹配的目标模板特征。

根据本公开的实施例，利用图像处理方法处理待检索图像，得到待检索图像的目标特征，可以是指从待检索图像中提取特征，得到全局特征；并从待检索图像中提取特征，得到局部特征；对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的待检索图像的目标特征。

根据本公开的实施例，可以利用相似度计算方法来从多个模板特征中确定与待检索图像的目标特征相匹配的目标模板特征。

根据本公开的实施例，相似度计算方法可以是余弦相似度计算方法，但是并不局限于此，只要是已知的相似度计算方法即可。

根据本公开的实施例，与待检索图像的目标特征相匹配的目标模板特征，可以是多个，也可以是一个。目标模板特征与待检索图像的目标特征相匹配可以是指，目标模板特征与待检索图像的目标特征之间的相似度满足相似度预定阈值，但是并不局限于此，还可以是指基于多个模板特征各自与待检索图像的目标特征之间的相似度，对多个模板按照由高到低进行排序，基于排序结果选取首位的一个或多个模板特征作为目标模板特征。

根据本公开的实施例，待检索图像的目标特征兼顾待检索图像的全局特征和局部特征，基于兼顾待检索图像的全局特征和局部特征的待检索图像的目标特征来与多个模板特征进行匹配，目标模板特征的匹配更为精准。

根据本公开的示例性实施例，模板特征可以是通过提取图像数据库中的模板图像得到的结果，基于目标模板特征，可以从图像数据库中映射到与目标模板特征对应的目标模板图像。

根据本公开的示例性实施例，图像数据库中的模板图像可以是物品的介绍图像，也可以是用于地标检索的建筑物图像。

利用本公开实施例提供的图像检索方法，得到的待检索的目标特征更完整的保留了待检索图像的信息，可以应用于例如拼图检索、或者基于局部图像检索完整图像等的场景中。使得应用范围更广，进而提高用户体验。

图6示意性示出了根据本公开实施例的特征提取模型的训练方法的流程图。

如图6所示，该方法包括操作S610。

操作S610，利用训练样本集合训练特征提取模型，得到训练后的特征提取模型，其中，训练样本集合包括多个样本图像和多个样本图像各自的类别标签，其中，类别标签指示了多个样本图像各自之间的相似性；其中，特征提取模型用于从样本图像中提取特征，得到样本全局特征；从样本图像中提取特征，得到样本局部特征；以及对样本全局特征和样本局部特征进行交替交互增强处理，得到样本全局特征和样本局部特征融合的样本目标特征。

根据本公开的实施例，多个样本图像各自之间的相似性可以指与多个样本图像一一对应的多个目标特征各自之间的相似度。

根据本公开的实施例，训练样本集合中的多个样本图像可以为类别标签相同，例如，相似度数值相同或相近。

根据本公开的实施例，可以利用Arcface Loss(弧面损失函数)来训练特征提取模型，但是并不局限于此，还可以利用已知的其他损失函数例如中心损失函数来训练本公开实施例提供的特征提取模型。

利用本公开实施例提供的特征提取模型的训练方法训练特征提取模型，更快速、高效，利用训练后的特征提取模型提取得到的目标特征融合全局特征和局部特征，保留信息完整，弥补由仅提取单一特征而带来的信息损失的问题。

根据本公开的实施例，特征提取模型可以包括初始全局特征提取模块、初始池化模块。

根据本公开的实施例，利用初始全局特征提取模块，从样本图像提取特征，得到样本初始全局特征；以及利用初始池化模块处理样本初始全局特征，得到样本全局特征。

根据本公开的实施例，特征提取模型可以包括初始局部特征提取模块、初始降采样模块。

根据本公开的实施例，利用初始局部特征提取模块，从样本图像中提取特征，得到样本初始局部特征；以及利用初始降采样模块处理样本初始局部特征，得到样本局部特征。

根据本公开的实施例，其中，初始全局特征提取模块包括级联的N个初始移位窗编码解码器，N为大于或等于1的整数；其中，初始局部特征提取模块包括级联的M个初始移位窗编码解码器，M为大于或等于1的整数；其中，N大于M。

根据本公开的实施例，对样本全局特征和样本局部特征进行交替交互增强处理，得到样本全局特征和样本局部特征融合的样本目标特征包括：

利用级联的多个初始注意力机制模块，对样本全局特征和样本局部特征进行交替交互增强处理，得到样本全局特征和样本局部特征融合的样本目标特征。

根据本公开的实施例，利用级联的多个初始注意力机制模块，对样本全局特征和样本局部特征进行交替交互增强处理，得到样本全局特征和样本局部特征融合的样本目标特征可以包括如下操作。

例如，利用级联的I个初始注意力机制模块中的第i初始注意力机制模块处理第i样本全局特征和第i样本局部特征，生成第i+1样本全局特征，其中，第i初始注意力机制模块的第i初始询问矩阵是基于第i样本全局特征生成的，第i初始注意力机制模块的第i初始键矩阵和第i初始价值矩阵是基于第i样本局部特征生成的，i大于或等于1，且i小于I，I为正整数；

利用第i+1初始注意力机制模块处理第i+1样本全局特征和第i样本局部特征，生成第i+1样本局部特征，其中，第i+1初始注意力机制模块的第i+1初始询问矩阵是基于第i样本局部特征生成的，第i+1初始注意力机制模块的第i+1初始键矩阵和第i+1初始价值矩阵是基于第i+1样本全局特征生成的；以及

将第I初始注意力机制模块输出的结果作为样本目标特征。

图7示意性示出了根据本公开实施例的图像处理装置的框图。

如图7所示，图像处理装置可以包括全局提取模块710、局部提取模块720、融合模块730。

全局提取模块710，用于从待处理图像中提取特征，得到全局特征。

局部提取模块720，用于从待处理图像中提取特征，得到局部特征。

融合模块730，用于对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

根据本公开的实施例，全局提取模块可以包括全局提取单元、池化单元。

全局提取单元，用于利用全局特征提取模块，从待处理图像提取特征，得到初始全局特征。

池化单元，用于利用池化模块处理初始全局特征，得到全局特征。

根据本公开的实施例，局部提取模块可以包括局部提取单元、降采样单元。

局部提取单元，用于利用局部特征提取模块，从待处理图像中提取特征，得到初始局部特征。

降采样单元，用于利用降采样模块处理初始局部特征，得到局部特征。

根据本公开的实施例，全局特征提取模块包括级联的N个移位窗编码解码器，N为大于或等于1的整数。

根据本公开的实施例，局部特征提取模块包括级联的M个移位窗编码解码器，M为大于或等于1的整数。

根据本公开的实施例，N大于M。

根据本公开的实施例，融合模块可以包括融合单元。

融合单元，用于利用级联的多个注意力机制模块，对全局特征和局部特征进行交替交互增强处理，得到全局特征和局部特征融合的目标特征。

根据本公开的实施例，融合单元可以包括第一融合子单元、第二融合子单元、目标输出子单元。

第一融合子单元，用于利用级联的I个注意力机制模块中的第i注意力机制模块处理第i全局特征和第i局部特征，生成第i+1全局特征，其中，第i注意力机制模块的第i询问矩阵是基于第i全局特征生成的，第i注意力机制模块的第i键矩阵和第i价值矩阵是基于第i局部特征生成的，i大于或等于1，且i小于I，I为正整数。

第二融合子单元，用于利用第i+1注意力机制模块处理第i+1全局特征和第i局部特征，生成第i+1局部特征，其中，第i+1注意力机制模块的第i+1询问矩阵是基于第i局部特征生成的，第i+1注意力机制模块的第i+1键矩阵和第i+1价值矩阵是基于第i+1全局特征生成的。

目标输出子单元，用于将第I注意力机制模块输出的结果作为目标特征。

图8示意性示出了根据本公开实施例的图像检索装置的框图。

如图8所示，图像检索装置800可以包括处理模块810、匹配模块820。

处理模块810，用于利用根据图像处理方法处理待检索图像，得到待检索图像的目标特征。

匹配模块820，用于基于待检索图像的目标特征，从多个模板特征中确定与目标特征相匹配的目标模板特征。

图9示意性示出了根据本公开实施例的特征提取模型的训练装置的框图。

如图9所示，特征提取模型的训练装置900可以包括训练模块910。

训练模块910，用于利用训练样本集合训练特征提取模型，得到训练后的特征提取模型，其中，训练样本集合包括多个样本图像和多个样本图像各自的类别标签，其中，类别标签指示了多个样本图像各自之间的相似性；其中，特征提取模型用于从样本图像中提取特征，得到样本全局特征；从样本图像中提取特征，得到样本局部特征；以及对样本全局特征和样本局部特征进行交替交互增强处理，得到样本全局特征和样本局部特征融合的样本目标特征。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像处理方法、检索方法、或者特征提取模型的训练方法。例如，在一些实施例中，图像处理方法、检索方法、或者特征提取模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的图像处理方法、检索方法、或者特征提取模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法、检索方法、或者特征提取模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

从待处理图像中提取特征，得到全局特征；

从所述待处理图像中提取特征，得到局部特征；以及

对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征。

2.根据权利要求1所述的方法，其中，所述从待处理图像中提取特征，得到全局特征包括：

利用全局特征提取模块，从所述待处理图像提取特征，得到初始全局特征；以及

利用池化模块处理所述初始全局特征，得到所述全局特征。

3.根据权利要求2所述的方法，其中，所述从所述待处理图像中提取特征，得到局部特征包括：

利用局部特征提取模块，从所述待处理图像中提取特征，得到初始局部特征；以及

利用降采样模块处理所述初始局部特征，得到所述局部特征。

4.根据权利要求3所述的方法，

其中，所述全局特征提取模块包括级联的N个移位窗编码解码器，N为大于或等于1的整数；

其中，所述局部特征提取模块包括级联的M个移位窗编码解码器，M为大于或等于1的整数；

其中，N大于M。

5.根据权利要求1所述的方法，其中，所述对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征包括：

利用级联的多个注意力机制模块，对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征。

6.根据权利要求5所述的方法，其中，所述利用级联的多个注意力机制模块，对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征包括：

利用级联的I个注意力机制模块中的第i注意力机制模块处理所述第i全局特征和所述第i局部特征，生成第i+1全局特征，其中，所述第i注意力机制模块的第i询问矩阵是基于第i全局特征生成的，所述第i注意力机制模块的第i键矩阵和第i价值矩阵是基于第i局部特征生成的，i大于或等于1，且i小于I，I为正整数；

利用第i+1注意力机制模块处理所述第i+1全局特征和所述第i局部特征，生成第i+1局部特征，其中，第i+1注意力机制模块的第i+1询问矩阵是基于第i局部特征生成的，所述第i+1注意力机制模块的第i+1键矩阵和第i+1价值矩阵是基于所述第i+1全局特征生成的；以及

将第I注意力机制模块输出的结果作为所述目标特征。

7.一种图像检索方法，包括：

利用根据权利要求1至6任一项所述的图像处理方法处理所述待检索图像，得到所述待检索图像的目标特征；以及

基于所述待检索图像的目标特征，从多个模板特征中确定与所述目标特征相匹配的目标模板特征。

8.一种特征提取模型的训练方法，包括：

利用训练样本集合训练特征提取模型，得到训练后的特征提取模型，

其中，所述训练样本集合包括多个样本图像和所述多个样本图像各自的类别标签，其中，所述类别标签指示了所述多个样本图像各自之间的相似性；

其中，所述特征提取模型用于从样本图像中提取特征，得到样本全局特征；从所述样本图像中提取特征，得到样本局部特征；以及对所述样本全局特征和所述样本局部特征进行交替交互增强处理，得到所述样本全局特征和所述样本局部特征融合的样本目标特征。

9.一种图像处理装置，包括：

全局提取模块，用于从待处理图像中提取特征，得到全局特征；

局部提取模块，用于从所述待处理图像中提取特征，得到局部特征；以及

融合模块，用于对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征。

10.根据权利要求9所述的装置，其中，所述全局提取模块包括：

全局提取单元，用于利用全局特征提取模块，从所述待处理图像提取特征，得到初始全局特征；以及

池化单元，用于利用池化模块处理所述初始全局特征，得到所述全局特征。

11.根据权利要求10所述的装置，其中，所述局部提取模块包括：

局部提取单元，用于利用局部特征提取模块，从所述待处理图像中提取特征，得到初始局部特征；以及

降采样单元，用于利用降采样模块处理所述初始局部特征，得到所述局部特征。

12.根据权利要求11所述的装置，

其中，N大于M。

13.根据权利要求9所述的装置，其中，所述融合模块包括：

融合单元，用于利用级联的多个注意力机制模块，对所述全局特征和所述局部特征进行交替交互增强处理，得到所述全局特征和所述局部特征融合的目标特征。

14.根据权利要求13所述的装置，其中，所述融合单元包括：

第一融合子单元，用于利用级联的I个注意力机制模块中的第i注意力机制模块处理所述第i全局特征和所述第i局部特征，生成第i+1全局特征，其中，所述第i注意力机制模块的第i询问矩阵是基于第i全局特征生成的，所述第i注意力机制模块的第i键矩阵和第i价值矩阵是基于第i局部特征生成的，i大于或等于1，且i小于I，I为正整数；

第二融合子单元，用于利用第i+1注意力机制模块处理所述第i+1全局特征和所述第i局部特征，生成第i+1局部特征，其中，第i+1注意力机制模块的第i+1询问矩阵是基于第i局部特征生成的，所述第i+1注意力机制模块的第i+1键矩阵和第i+1价值矩阵是基于所述第i+1全局特征生成的；以及

目标输出子单元，用于将第I注意力机制模块输出的结果作为所述目标特征。

15.一种图像检索装置，包括：

处理模块，用于利用根据权利要求1至6任一项所述的图像处理方法处理所述待检索图像，得到所述待检索图像的目标特征；以及

匹配模块，用于基于所述待检索图像的目标特征，从多个模板特征中确定与所述目标特征相匹配的目标模板特征。

16.一种特征提取模型的训练装置，包括：

训练模块，用于利用训练样本集合训练特征提取模型，得到训练后的特征提取模型，

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的图像处理方法、权利要求7所述的图像检索方法、或者权利要求8所述的特征提取模型的训练方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的图像处理方法、权利要求7所述的图像检索方法、或者权利要求8所述的特征提取模型的训练方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的图像处理方法、权利要求7所述的图像检索方法、或者权利要求8所述的特征提取模型的训练方法。