CN116597267A

CN116597267A - 图像识别方法、装置、计算机设备和存储介质

Info

Publication number: CN116597267A
Application number: CN202310851943.4A
Authority: CN
Inventors: 王赟豪; 余亭浩; 陈少华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-08-15
Anticipated expiration: 2043-07-12
Also published as: CN116597267B

Abstract

本申请涉及一种图像识别方法、装置、计算机设备和存储介质。涉及人工智能领域，方法包括：对待识别的目标图像进行图像特征提取处理，得到原始特征图；通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图；对激活特征图进行自注意力机制处理，得到自注意力特征；基于自注意力特征与原始特征图进行交叉注意力处理，得到交叉融合特征；基于交叉融合特征进行图像识别处理，得到目标图像的图像识别结果。本申请在图像识别的过程中，通过深度特征局部激活提升模型对局部细节信息的关注，从而提升对局部特征的识别能力，并充分融合全局和局部的特征信息，进行图像识别，可以有效提高图像识别的准确性。

Description

图像识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术和人工智能的发展，出现了计算机视觉技术(Computer Vision,CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。而图像识别是计算机视觉技术的代表技术。图像识别，具体是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术。然而目前的图像识别技术，例如针对图像中地标的识别任务，通常的做法是使用深度模型直接进行景点多分类或者提取图像全局特征构建检索库，查询时使用查询图片的特征在检索库中进行比对，或者直接使用关键点匹配的方式判断两幅地标图片是否属于同一景点。

然而目前的图像识别技术，并不能很好地结合图像中的全局特征和局部特征，无法有效提取图像中目标物体的局部特征，或者精准捕捉到局部特征和全局特征间的关联关系从而影响图像识别的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高图像识别准确性的图像识别方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请提供了一种图像识别方法。所述方法包括：

对待识别的目标图像进行图像特征提取处理，得到原始特征图；

通过注意力机制对所述原始特征图进行局部特征激活处理，得到激活特征图；

对所述激活特征图进行自注意力机制处理，得到自注意力特征；

基于所述自注意力特征与所述原始特征图进行交叉注意力处理，得到交叉融合特征；

基于所述交叉融合特征进行图像识别处理，得到所述目标图像的图像识别结果。

第二方面，本申请还提供了一种图像识别装置。所述装置包括：

图像特征提取模块，用于对待识别的目标图像进行图像特征提取处理，得到原始特征图；

局部特征激活模块，用于通过注意力机制对所述原始特征图进行局部特征激活处理，得到激活特征图；

自注意力处理模块，用于对所述激活特征图进行自注意力机制处理，得到自注意力特征；

交叉注意力处理模块，用于基于所述自注意力特征与所述原始特征图进行交叉注意力处理，得到交叉融合特征；

图像识别模块，用于基于所述交叉融合特征进行图像识别处理，得到所述目标图像的图像识别结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述图像识别方法、装置、计算机设备和存储介质，通过先对待识别的目标图像进行图像特征提取处理，得到原始特征图，来提取出目标图像的原始特征信息。而后通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图，提升图像识别过程中对局部细节信息的关注，提升对局部特征的识别能力。接着对激活特征图进行自注意力机制处理，得到自注意力特征；并基于自注意力特征与原始特征图进行交叉注意力处理，得到交叉融合特征，从而充分融合全局和局部的特征信息，产生更好的特征表示。最终基于得到的交叉融合特征来进行图像识别处理，得到目标图像的图像识别结果，并保证图像识别的效果。本申请在图像识别的过程中，通过深度特征局部激活提升模型对局部细节信息的关注，从而提升对局部特征的识别能力，并对局部激活后的特征图进行自注意力和交叉注意力计算，从而充分融合全局和局部的特征信息，并基于全局和局部特征识别能力来进行图像识别，提高图像识别的准确性。

附图说明

图1为一个实施例中图像识别方法的应用环境图；

图2为一个实施例中图像识别方法的流程示意图；

图3为第一个实施例中相似地标的示意图；

图4为第二个实施例中相似地标的示意图；

图5为第三个实施例中相似地标的示意图；

图6为第一个实施例中进行显著性判别后主体显著性的示意图；

图7为第二个实施例中进行显著性判别后主体显著性的示意图；

图8为一个实施例中图像识别方法的整体框架示意图；

图9为一个实施例中图像识别过程精准提取结构信息的举例示意图；

图10为一个实施例中图像识别过程对风格、色调相似情况进行精准识别的举例示意图；

图11为一个实施例中图像识别过程对分类标签相似情况进行精准识别的举例示意图；

图12为另一个实施例中图像识别方法的流程示意图；

图13为一个实施例中图像识别装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能(Artificial Intelligence, AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及人工智能中的计算机视觉技术和机器学习技术(MachineLearning, ML)。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的图像识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。当终端102方的用户希望识别物体时，可以通过终端102将包含物体的目标图像提交至服务器104，而后由服务器104来实现对目标图像的图像识别处理。服务器104在识别物体时，首先对待识别的目标图像进行图像特征提取处理，得到原始特征图；通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图；对激活特征图进行自注意力机制处理，得到自注意力特征；基于自注意力特征与原始特征图进行交叉注意力处理，得到交叉融合特征；基于交叉融合特征进行图像识别处理，得到目标图像的图像识别结果。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像识别方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤201，对待识别的目标图像进行图像特征提取处理，得到原始特征图。

其中，待识别的目标图像是指本申请的图像识别所要识别的目标图像，目标图像内包含具体的动物、植物、地标或景观等，而图像识别的目的即为识别出目标图像中所包含物体的名称。图像特征提取处理是指从待识别的目标图像中提取出图像特征的处理过程，特征是某一类对象区别于其他类对象的相应（本质）特点或特性，或是这些特点和特性的集合。特征是通过测量或处理能够抽取的数据。对于图像而言，每一幅图像都具有能够区别于其他类图像的自身特征，有些是可以直观地感受到的自然特征，如亮度、边缘、纹理和色彩等；有些则是需要通过变换或处理才能得到的，如矩、直方图以及主成份等。而对于图像特征提取的过程，该过程主要从图像中提取有用的数据或信息，得到图像的“非图像” 的表示或描述，如数值、向量和符号等。这一过程就是特征提取，而提取出来的这些“非图像”的表示或描述就是特征。再通过对待识别的目标图像进行图像特征提取处理后，所得到的结果就是原始特征图，例如通过卷积神经网络模型来进行特征提取时，对于RGB图片，通常有RGB三个通道，通过卷积核进行卷积运算，便会产生一层层的特征图(feature map)。层与层之间会有若干个卷积核（kernel），上一层的每个特征图跟每个卷积核做卷积，就会产生下一层的一个特征图。也就是说当图像像素值经过卷积核后的到的东西就是特征图。此时，特征图的大小与卷积核的边长有关，最终输出的特征图为k*k*C，其中k为卷积核的边长，C为通道数。在另外的实施例中，还可以通过转换器模型来实现特征图的计算，此时对待识别的目标图像进行图像特征提取处理时，可以预先设置图像的尺寸和特征图的尺寸，并通过相应尺寸的图像来完成对转换器模型的训练，当实际图像识别时，若用户输入的图像尺寸不符合模型的要求时，可以先对用户输入的图像进行调整，而后对调整后的图像进行识别。转换器模型最终输出的特征图为k*k*C，其中k特征图的尺寸，C为通道数。

具体地，当用户在拍完照片后，希望对照片内的动植物或者地标等物体进行识别时，可以通过终端102将拍摄的照片作为待识别的目标图像提交至服务器104，通过图像识别请求来请求服务器104对用户拍摄的照片进行图像识别处理，确定其中所包含的物体的具体类型。服务器104通过解析终端102提交的图像识别请求，得到待识别的目标图像，而后先通过服务器104中搭载的特征提取模型来对待识别的目标图像进行图像特征提取处理，得到特征提取模型输出的原始特征图。其中特征提取模型可以是摆动转换器（SwinTransformer）、深度残差网络(Deep Residual Network，ResNet)或者T2T（Token toToken）模型。

在其中一个实施例中，待识别的目标图像具体为如图3所示的地标建筑，目前图片地标识别任务的一大难题就是存在大量形制相似的建筑、湖泊以及桥梁等极度考验人工智能模型的细粒度特征识别能力。而现有的方法仅仅通过分类预训练的形式，无法有效提取图像中如景点地标这样建筑的局部特征，或者精准捕捉到局部特征和全局特征间的关联关系。如图3列举了地标建筑全局特征相似，局部特征不同的情况。图3中第一幅图和第三幅图是山关，而第二幅图是钟鼓楼。又或者如图4所示，没有高效地利用深度模型网络中的全局和局部信息。现有的方法会孤立地考虑全局和局部信息，例如对于局部信息方面，现有方法通常都是使用直接进行关键点匹配的方式来进行局部信息提取，或者只是直接利用深度神经网络最后一层的视觉图块（patch）信息，通过聚类、池化或者主成分分析（PrincipalComponentAnalysis，PCA）等方法在神经网络末端生成全局和局部表示。这些方法虽然对全局和局部信息做了初步的融合，但是依然有很大改进空间，因为实际地标图片受拍摄角度、光照、虚化程度等诸多因素的影响，简单的局部信息识别匹配无法应对复杂的场景变换，比如图块采样在视角变换、形变之后无法很好捕捉语义信息，关键点匹配方法在光照、模糊度、风格变化后无法确定匹配点。虽然通过两阶段的全局特征召回-局部特征加权排序的模型可以解决一部分问题，但两阶段的方法不够灵活，往往需要进行两次特征检索，且两阶段得到的局部和全局特征用于分类会存在特征域不一致的问题，不易训练。而且比如图4和图5中的相似，有很多情况不能仅仅归结于局部特征，因此，本申请的图像识别通过在局部特征的基础上组合全局特征来实现图像识别，从而保证图像识别的效果。通过对待识别的目标图像进行图像特征提取处理，得到原始特征图，可以有效实现对待识别的目标图像的图块（patch）化和图块编码（token）化。

步骤203，通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图。

其中，注意力机制（Attention Mechanism）源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。在图像处理中，注意力机制主要用于使系统能够忽略无关信息而关注重点信息。本申请的方案中，注意力机制可以对原始特征图进行局部特征激活处理，从而提升模型对局部细节信息的关注，提升对局部特征的识别能力。激活特征图即为突出局部特征之后的特征图。

具体地，由于图像中可能存在的部分内容会影响到图像识别的效果，例如对于景点的地标图像，其存在大量带有地点含义但没有明显主体特征的情况，包括沙滩、山顶俯拍、树木山石花草等。这些会对图像识别过程使用的识别模型的训练及预测造成较大难度，因此需要通过局部特征的激活处理，提升模型对局部细节信息的关注，提升对局部特征的识别能力。本实施例中，具体可以通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图。在其中一个可以预先训练得到用于局部特征激活处理的弱监督信号，而后由弱监督信号来对原始特征图进行局部特征激活处理，提升对局部细节信息的关注，提升对局部特征的识别能力。通过对原始特征图进行局部特征激活处理，可以得到图块编码（token）序列形式的激活特征图。

步骤205，对激活特征图进行自注意力机制处理，得到自注意力特征。

其中，自注意力（Self-Attention）一般为QKV形式，其通过在注意力机制的基础上添加了限定，将输入映射到三个不同的空间，自己产生Q、K、V。而在本申请的方案中，主要是通过自注意力机制处理从激活的激活特征图中提取出Q、K、V三个注意力向量，进行注意力的计算。

具体地，当通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图，所得到的激活特征图能有效表征待识别的目标图像中的局部特征，而为了使得特征表征有丰富的多样性，可以在得到激活特征图后，直接对激活特征图进行自注意力机制处理，得到自注意力特征。通过对待识别的目标图像的图块化和图块编码化，可以将待识别的目标图像转化为图块编码（token）序列形式的激活特征图。而后以语义图块编码的形式来实现自注意力机制的计算，使得特征表征有丰富的多样性。

步骤207，基于自注意力特征与原始特征图进行交叉注意力处理，得到交叉融合特征。

其中，交叉注意力机制也是注意力机制的一种，对于交叉注意力而言，键向量与值向量相同，但与查询向量不同，从而引入了三者的依赖关系。

具体地，在基于交叉融合特征进行图像识别处理，得到目标图像的图像识别结果后，同时为了避免模型对原本图像信息的遗忘，同时增强图像特征和多样性语义特征的理解，可以通过对自注意力特征与原始特征图进行交叉注意力处理，实现全局特征和局部特征的融合，产生更好的特征表示，同时通过将全局和局部信息融合提前，使得神经网络更好的学习和收敛，具有较好的全局和局部特征识别能力。在其中一个实施例中，具体可以通过对原始特征图进行变换处理，得到交叉注意力处理中用到的键向量和值向量，同时将自注意力特征作为交叉注意力出中的查询向量，融合原始特征图和激活特征图来进行交叉注意力处理，实现局部特征和全局特征的融合。

步骤209，基于交叉融合特征进行图像识别处理，得到目标图像的图像识别结果。

其中，图像识别处理是指基于交叉融合特征来查询待识别的目标图像中事物的具体类型，例如对于目标图像中的地标类事物，可以通过图像识别处理来确定该地标类事物的具体名称。或者对于目标图像中的动物或者植物，则可以通过图像识别处理来确定该动物或者植物的具体品种。

具体地，在得到能包含待识别的目标图像局部特征和全局特征的交叉融合特征后，则可直接基于交叉融合特征进行图像识别处理，得到目标图像的图像识别结果。对于图像识别处理的具体过程，在具体实施例中，可以基于交叉融合特征对待识别的目标图像进行分类处理，而后基于分类处理的结果得到目标图像的图像识别结果。在另一个实施例中，还可以直接将交叉融合特征和数据库中的图像特征进行比对，通过特征查找的结果来得到目标图像的图像识别结果

上述图像识别方法，通过先对待识别的目标图像进行图像特征提取处理，得到原始特征图，来提取出目标图像的原始特征信息。而后通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图，提升图像识别过程中对局部细节信息的关注，提升对局部特征的识别能力。接着对激活特征图进行自注意力机制处理，得到自注意力特征；并基于自注意力特征与原始特征图进行交叉注意力处理，得到交叉融合特征，从而充分融合全局和局部的特征信息，产生更好的特征表示。最终基于得到的交叉融合特征来进行图像识别处理，得到目标图像的图像识别结果，并保证图像识别的效果。本申请在图像识别的过程中，通过深度特征局部激活提升模型对局部细节信息的关注，从而提升对局部特征的识别能力，并对局部激活后的特征图进行自注意力和交叉注意力计算，从而充分融合全局和局部的特征信息，并基于全局和局部特征识别能力来进行图像识别，提高图像识别的准确性。

在一个实施例中，步骤201包括：对待识别的目标图像进行图块分割处理，得到分割图块；对分割图块进行分层特征映射处理和移动窗口的注意力转换处理，得到原始特征图。

其中，图块（patch）分割是指将完整的待识别的目标图像进行分割的处理过程。而分层特征映射处理指的是在对图块特征映射在每一层之后逐步合并和下采样，从而创建具有层次结构的特征映射。而移动窗口的注意力转换处理则指的是通过移动窗口来计算自注意力，即只在每个窗口内计算注意力，这种转变会导致不属于任何窗口的“孤立”图块，以及图块不完整的窗口。对分割图块进行分层特征映射处理和移动窗口的注意力转换处理的过程并不存在先后顺序，而是同时作用于目标图像。也可以先进行分层特征映射处理，在进行移动窗口的注意力转换处理，或者先进行移动窗口的注意力转换处理，再进行分层特征映射处理。

具体地，本申请的方案可以通过摆动转换器（Swin Transformer）作为模型的骨干网络实现对待识别目标图像的图像特征提取处理。摆动转换器引入了两个关键概念来解决原始ViT（VisionTransformer，图像转换器）模型面临的问题，即层次化特征映射和窗口注意力转换。因此，在对待识别的目标图像进行图像特征提取处理时，可以对分割图块进行逐步图块合并的下采样处理，得到分层的图块结构。在分割时，可以按照固定的尺寸将待识别的目标图像分割成大小一定的分割图块，而后在分割图块的基础上进行分层特征映射处理和移动窗口的注意力转换处理，来进行特征提取的处理，得到原始特征图。其中，对于分层特征映射处理的过程，对分割图块进行逐步图块合并的下采样处理，得到分层的图块结构；对分层的图块结构进行特征映射处理，得到分层特征映射结果。摆动转换器中的分层特征映射是指特征映射在每一层之后逐步合并和下采样，从而创建具有层次结构的特征映射。同时，这些分层的特性映射还允许摆动转换器被应用于需要细粒度预测的领域，例如语义分割。摆动转换器中使用的无卷积下采样技术被称为图块合并（Patch Merging）。在这种情况下，“Patch ”是特征图中的最小单位。换句话说，在一个14x14的特征图中，有14x14=196个Patch。

而对于对分割图块进行移动窗口的注意力转换处理的过程，则可以直接基于分割图块进行移动窗口的注意力转换处理，得到注意力转换结果；基于分层特征映射结果和注意力转换结果得到原始特征图。对于注意力转移的过程，摆动转换器中通过使用的移位窗口MSA（multi-head self attention，多头自注意力），从而只在每个窗口内计算注意力。而这种转变会导致不属于任何窗口的“孤立”图块，以及图块不完整的窗口。通过移动窗口的注意力转移，可以将“孤立的”图块移动到带有不完整图块的窗口中。在这次移位之后，一个窗口可能会由特征图中不相邻的图块组成，因此在计算过程中应用了一个掩码，将自注意力限制在相邻的图块上，从而完成注意力转移的完整流程。同时，摆动转换器的这种移动窗口方法引入了重要的窗口之间的交叉连接，可以提高有效提高模型的性能。同时摆动转换器也使用了更大的预训练语料imagenet-22k。可以有效保证模型预训练的效果。本实施例中，通过分层特征映射处理和移动窗口的注意力转换处理来提取目标图像的图像特征，可以有效保证所提取图像特征的有效性，从而保证图像识别的效果。

在一个实施例中，步骤203包括：通过注意力机制对原始特征图进行局部特征的显著性判别处理，生成原始特征图的注意力热力图；将注意力热力图与原始特征图进行点乘处理，得到局部特征激活后的激活特征图。

其中，注意力热力图（heatmap）是指通过热力图的形式来展示原始特征图中的权重分布，热力图可以通过在原始特征图上施加预先训练得到的弱监督信号来得到。这个过程即为通过注意力机制对原始特征图进行局部特征的显著性判别处理。点乘处理则是将注意力热力图与原始特征图进行融合的一种方式，注意力热力图与原始特征图大小一致，因此可以将注意力热力图与原始特征图这两个矩阵的对应位置逐点相乘，实现对它们的融合处理。

具体地，为了能使模型更多的关注空间信息，可以在原始特征图上施加训练得到的弱监督信号，通过注意力机制对原始特征图进行局部特征的显著性判别处理，生成原始特征图的注意力热力图。施加后的显著性判别处理结果可以参照图6和图7所示，而为了提升模型对局部细节信息的关注，提升对局部特征的识别能力。最后可以将注意力热力图与原始特征图进行点乘处理，从而实现对原始特征图中的局部特征的激活处理，得到局部特征激活后的激活特征图。在其中一个实施例中，在通过特征提取后，基于特征提取过程中图块化的特点，最终可以得到k * k * C的原始特征图，而后通过注意力机制，对原始特征图施加弱监督信号，进行局部特征的显著性判别处理，生成原始特征图的注意力热力图，最后将注意力热力图点乘（point-wise）到k * k * C的原始特征图上，来对原始特征图中的局部特征进行激活处理，得到L(k * k) * C的图块编码（token）序列。在另外的实施例中，显著性区域的判别过程也有大量可替代模型，可以调整Transformer层数或多头注意力头数，或者使用q-former方法。本实施例中，通过计算深度神经网络最后一层的原始特征图来计算注意力热力图，使用点乘的方法产生激活后的特征图，从而提升图像识别过程中对局部细节信息的关注，提升对局部特征的识别能力，保证图像识别过程的准确性。

在一个实施例中，步骤205包括：对激活特征图进行矩阵变换处理，得到自注意力查询向量、自注意力键向量和自注意力值向量；基于自注意力查询向量、自注意力键向量和自注意力值向量进行自注意力机制处理，得到自注意力特征。

其中，自查询向量Q和键向量K是用于计算注意力权重的特征向量，而力值向量V表示输入特征的向量。在自注意力机制中，自注意力查询向量、自注意力键向量和自注意力值向量都是通过对激活特征图进行矩阵变换处理得到的，它们的特征维度相同。

具体地，自注意力机制是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，在本申请的方案中，主要通过对激活特征图进行自注意力处理，来使得局部特征表征有更丰富的多样性。而对于自注意力的处理过程，可以先对激活特征图进行矩阵变换处理，得到自注意力查询向量、自注意力键向量和自注意力值向量，而后在自注意力查询向量、自注意力键向量和自注意力值向量进行自注意力机制处理，得到自注意力特征。在具体的实施例中，由于通过激活特征图实现了对图像的图块化和图块编码化，使得可以将激活特征图中的特征转化为语义token来进行注意力计算，自注意力具体满足以下公式：

其中，softmax代表归一化指数函数，Q，K，V分别代表了自注意力查询向量、自注意力键向量和自注意力值向量，括号中的分母为缩放分子。而在该公式的基础上拓展还可以得到多头注意力（multi-head-attention），多头注意力的公式满足：

其中WO、WQ、WK、WV均表示线性变换层，上述公式表示可以通过将输入分成很多head，每个head单独计算注意力，最后通过连接（concat）处理得到结果。本实施例主要通过在图块编码序列基础上计算自注意力，从而使得针对特征的表征有丰富的多样性，公式中的自查询向量Q、键向量K和值向量V都是通过上一步激活特征图经过矩阵变换后的结果。本实施例中，通过引入自注意力机制来对激活特征图，可以有效提高激活特征图对于特征的表征效果，从而保证图像识别的准确性。

在一个实施例中，步骤207包括：将自注意力特征确定为交叉注意力查询向量；对原始特征图进行变换处理，得到交叉注意力键向量和交叉注意力值向量；基于交叉注意力查询向量、交叉注意力键向量和交叉注意力值向量进行交叉注意力处理，得到交叉融合特征。

具体地，为了避免模型对原本图像信息的遗忘，同时增强图像特征和多样性语义特征的同时理解，可以通过交叉注意力机制来融合自注意力特征与原始特征图，实现全局特征信息和局部特征信息的交叉融合。而在特征融合时，首先对于自注意力特征，可以将前面步骤所得到自注意力特征确定为交叉注意力查询向量，而对于交叉注意力键向量和交叉注意力值向量，则可以通过对原始特征图进行变换处理得到。在具体的实施例中，激活特征图为L(k *- k) * C的token序列，而原始特征图为k * k * C的特征图，因此有必要对原始特征图进行变换处理，得到交叉注意力键向量和交叉注意力值向量。对于变换的具体过程，对原始特征图进行压缩处理，得到压缩特征图；对压缩特征图进行矩阵变换处理，得到交叉注意力键向量和交叉注意力值向量。其中压缩（flatten）过程指的是对原始特征图进行维度压缩的处理，将k * k * C的原始特征图压缩为L*C的特征图，L=k*k，并经过矩阵变换得到K和V，同时上一步经过自注意力计算的token序列作为Q来代入attention公式进行交叉注意力的计算，这样就完成了全局和局部信息的交叉融合。本实施例中，通过交叉注意力机制来完成全局和局部信息的交叉融合，产生更好的特征表示，通过将全局和局部信息融合提前，使得图像识别过程的模型可以更好的学习和收敛，具有较好的全局和局部特征识别能力。

在一个实施例中，步骤209包括：对交叉融合特征进行池化处理，得到图像特征序列；基于图像特征序列在特征数据库进行特征检索，得到特征检索结果；基于特征检索结果确定目标图像的图像识别结果。

其中，池化处理也叫降采样处理，对交叉融合特征进行池化处理，可以得到相应的特征序列，例如对于L*C形式的交叉融合特征，通过池化处理可以得到长度为C的特征序列。而特征检索则是基于特征序列在预先建立的特征数据进行检索的处理过程。

具体地，可以基于图像识别的目的来建立特征数据库，对于地标，可以建立地标数据库，对于动物或者植物，也可以建立相应的动物特征数据和植物特征数据。当进行图像识别来得到图像识别结果时，即可先对交叉融合特征进行池化处理，得到图像特征序列，通过池化处理来降低特征的维度。而后基于图像特征序列在特征数据库进行特征检索，查找可与当前图像特征序列相匹配的特征检索结果，而后根据特征检索结果对应的具体名称，得到待识别的目标图像的图像识别结果。例如对于地标类的目标图像，在通过特征检索后，可以确定地标的具体名称，对于动植物类的目标图像，在通过特征检索后，确定动植物的具体品种。而在另一个实施例中，除了直接通过图像特征序列检索外，还可以添加分类头至图像特征序列，构建图像分类特征；而后对图像分类特征进行多标签分类处理，得到目标图像的图像识别结果。在实际的应用中，还可以将以上两种分类方式结合使用，提高图像识别的效率和准确性。本实施例中，基于图像特征序列在特征数据库进行特征检索，得到特征检索结果，从而实现对目标图像的图像识别处理，可以有效保证图像识别的准确性。

在一个实施例中，方法还包括：查找图像识别结果对应分类类别下目标图像的相似图像；查找相似图像的图像名称；基于相似图像、分类类别和图像名称生成搜图反馈信息；推送搜图反馈信息。

具体地，本申请的图像识别方法具体可以应用于以图搜图的领域，当用户输入待识别的目标图像后，通过图像识别方法确定目标图像中需要识别的对象的具体名称或者具体类型后，还可以查找图像识别结果对应分类类别下目标图像的相似图像，并确定这些相似图像的图像名称，从而可以基于相似图像、分类类别和图像名称生成搜图反馈信息，最后将生成的搜图反馈信息推送至用户端，用户可以根据生成的搜图反馈信息来确定与当前输入的目标图像相近的其他图像，从而可以对图像识别的结果进行验证。本实施例中，通过查找相似图像以及搜图反馈信息，可以有效地在图像识别的基础上为用户提供更多的图像信息，并为用户对图像识别结果的准确性验证提供数据基础。

在一个实施例中，目标图像包括地标图像。图像识别方法还包括：基于图像识别结果对地标图像中的地标进行定位处理，得到地标定位地点；查找地标定位地点的游览路径规划；推送游览路径规划。

具体地，本申请的图像识别方法还可应用于游览路线规划的过程中，当用户针对地标进行拍照以及图像识别后，搭载本申请图像识别方法的服务器可以为用户提供进一步地游览路径规划方案，具体可以在得到图像识别结果后，先基于图像识别结果对地标图像中的地标进行定位处理，得到地标定位地点。并通过查找数据库中地标定位地点的游览路径规划。并通过推送游览路径规划来帮助用户有效地进行景点浏览。此外，本申请的方案还可以应用于视频号搜索、个性化推荐和地域性判断等领域，在视频号搜索领域，主要是通过查询问句和相关文档加权，当用户搜索地标或者旅游倾向的问句时，可以召回和提权与之相对应的包含地标的文档内容。而在个性化推荐领域，如果图文和视频命中了图片地标机器识别，则可以在个性化推荐场景中会做加权应用。对于地域性判断：如果图文和视频命中了图片地标映射的省市区，则会对该条文档或视频做对应地域加权。本实施例中，通过对地标图像中的地标进行定位处理，而后对用户进行游览路径的相关规划，从而辅助用户进行景点与景观的游览。

本申请还提供一种应用场景，该应用场景应用上述的分类模型处理方法。具体地，该分类模型处理方法在该应用场景的应用如下：

当用户在景区游览时，希望对拍摄的景区地标建筑进行识别，此时用户可以将拍摄的地标图像作为待识别的目标图像提交至搭载本申请图像识别方法的服务器，通过本申请的图像识别方法来对地标的具体名称进行识别。

此时，图像识别的完整流程可以参照图8所示，首先可以用摆动转换器（SwinTransformer）作为骨干网络来对目标图像进行特征提取的处理。在提取时，先对待识别的目标图像进行图块分割处理，得到分割图块，对分割图块进行逐步图块合并的下采样处理，得到分层的图块结构；对分层的图块结构进行特征映射处理，得到分层特征映射结果；基于分割图块进行移动窗口的注意力转换处理，得到注意力转换结果；基于分层特征映射结果和注意力转换结果得到原始特征图。而后，通过注意力机制对原始特征图进行局部特征的显著性判别处理，生成原始特征图的注意力热力图；将注意力热力图与原始特征图进行点乘处理，得到局部特征激活后的激活特征图。实现对原始特征图的部分激活，接着便可以对激活特征图进行矩阵变换处理，得到自注意力查询向量、自注意力键向量和自注意力值向量；基于自注意力查询向量、自注意力键向量和自注意力值向量进行自注意力机制处理，得到自注意力特征。将自注意力特征确定为交叉注意力查询向量；对原始特征图进行压缩处理，得到压缩特征图；对压缩特征图进行矩阵变换处理，得到交叉注意力键向量和交叉注意力值向量；基于交叉注意力查询向量、交叉注意力键向量和交叉注意力值向量进行交叉注意力处理，得到交叉融合特征。最后对交叉融合特征进行池化处理，得到图像特征序列；基于图像特征序列在特征数据库进行特征检索，得到特征检索结果；基于特征检索结果确定目标图像的图像识别结果。而后即可向用户反馈最终针对地标图像的图像识别结果，同时，还可以基于图像识别结果对地标图像中的地标进行定位处理，得到地标定位地点；查找地标定位地点的游览路径规划；推送游览路径规划。

如图9所示，现有的图像识别即模型关注到了图像的结构信息。优化后模型成功将关注点转移到了局部信息上，即查询图片左下角的亭子。又如图10所示，对于地标风格、色调和构图相似造成的误识别情况，通过优化也可以很好地解决。或者如图11所示，A景点和景点地图片可能会包含C地标，同时该景点俯拍图像和景点俯拍图像树木的质感相似，这在进行模型训练时可能造成对模型的误导。在结合全局和局部信息后，这种情况也得到了有效解决。本申请所提出一种基于注意力机制和局部激活的图片地标识别方法，具体优化包括了：构建了全局、局部特征提取加融合的端到端模型结构，和深度特征局部激活方法，以及基于transformer视觉注意力的全局和局部特征融合方法。通过以上技术优化，算法进行图像识别效果的保证准确率由80%提高到85%，召回率由60%提升到70%。

在一个实施例中，本申请的图像识别方法的完整流程可以参照图12所示，包括：

步骤1201，对待识别的目标图像进行图块分割处理，得到分割图块。步骤1203，对分割图块进行分层特征映射处理和移动窗口的注意力转换处理，得到原始特征图。步骤1205，通过注意力机制对原始特征图进行局部特征的显著性判别处理，生成原始特征图的注意力热力图。步骤1207，将注意力热力图与原始特征图进行点乘处理，得到局部特征激活后的激活特征图。步骤1209，对激活特征图进行矩阵变换处理，得到自注意力查询向量、自注意力键向量和自注意力值向量。步骤1211，基于自注意力查询向量、自注意力键向量和自注意力值向量进行自注意力机制处理，得到自注意力特征。步骤1213，将自注意力特征确定为交叉注意力查询向量。步骤1215，对原始特征图进行变换处理，得到交叉注意力键向量和交叉注意力值向量。步骤1217，基于交叉注意力查询向量、交叉注意力键向量和交叉注意力值向量进行交叉注意力处理，得到交叉融合特征。步骤1219，对交叉融合特征进行池化处理，得到图像特征序列。步骤1221，基于图像特征序列在特征数据库进行特征检索，得到特征检索结果。步骤1223，基于特征检索结果确定目标图像的图像识别结果。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像识别方法的图像识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像识别装置实施例中的具体限定可以参见上文中对于图像识别方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种图像识别装置，包括：

图像特征提取模块1302，用于对待识别的目标图像进行图像特征提取处理，得到原始特征图。

局部特征激活模块1304，用于通过注意力机制对原始特征图进行局部特征激活处理，得到激活特征图。

自注意力处理模块1306，用于对激活特征图进行自注意力机制处理，得到自注意力特征。

交叉注意力处理模块1308，用于基于自注意力特征与原始特征图进行交叉注意力处理，得到交叉融合特征。

图像识别模块1310，用于基于交叉融合特征进行图像识别处理，得到目标图像的图像识别结果。

在一个实施例中，图像特征提取模块1302具体用于：对待识别的目标图像进行图块分割处理，得到分割图块；对分割图块进行分层特征映射处理和移动窗口的注意力转换处理，得到原始特征图。

在一个实施例中，图像特征提取模块1302具体用于：对分割图块进行逐步图块合并的下采样处理，得到分层的图块结构；对分层的图块结构进行特征映射处理，得到分层特征映射结果；基于分割图块进行移动窗口的注意力转换处理，得到注意力转换结果；基于分层特征映射结果和注意力转换结果得到原始特征图。

在一个实施例中，局部特征激活模块1304具体用于：通过注意力机制对原始特征图进行局部特征的显著性判别处理，生成原始特征图的注意力热力图；将注意力热力图与原始特征图进行点乘处理，得到局部特征激活后的激活特征图。

在一个实施例中，自注意力处理模块1306具体用于：对激活特征图进行矩阵变换处理，得到自注意力查询向量、自注意力键向量和自注意力值向量；基于自注意力查询向量、自注意力键向量和自注意力值向量进行自注意力机制处理，得到自注意力特征。

在一个实施例中，交叉注意力处理模块1308具体用于：将自注意力特征确定为交叉注意力查询向量；对原始特征图进行变换处理，得到交叉注意力键向量和交叉注意力值向量；基于交叉注意力查询向量、交叉注意力键向量和交叉注意力值向量进行交叉注意力处理，得到交叉融合特征。

在一个实施例中，交叉注意力处理模块1308还用于：对原始特征图进行压缩处理，得到压缩特征图；对压缩特征图进行矩阵变换处理，得到交叉注意力键向量和交叉注意力值向量。

在一个实施例中，图像识别模块1310还用于：对交叉融合特征进行池化处理，得到图像特征序列；基于图像特征序列在特征数据库进行特征检索，得到特征检索结果；基于特征检索结果确定目标图像的图像识别结果。

在一个实施例中，图像识别模块1310还用于：对交叉融合特征进行池化处理，得到图像特征序列；添加分类头至图像特征序列，构建图像分类特征；对图像分类特征进行多标签分类处理，得到目标图像的图像识别结果。

在一个实施例中，还包括搜图反馈模块，用于：查找图像识别结果对应分类类别下目标图像的相似图像；查找相似图像的图像名称；基于相似图像、分类类别和图像名称生成搜图反馈信息；推送搜图反馈信息。

在一个实施例中，目标图像包括地标图像。装置还包括路线查找模块，用于：基于图像识别结果对地标图像中的地标进行定位处理，得到地标定位地点；查找地标定位地点的游览路径规划；推送游览路径规划。

上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像识别处理过程相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待识别的目标图像进行图像特征提取处理，得到原始特征图包括：

对待识别的目标图像进行图块分割处理，得到分割图块；

对所述分割图块进行分层特征映射处理和移动窗口的注意力转换处理，得到原始特征图。

3.根据权利要求2所述的方法，其特征在于，对所述分割图块进行分层特征映射处理和移动窗口的注意力转换处理，得到原始特征图包括：

对所述分割图块进行逐步图块合并的下采样处理，得到分层的图块结构；

对所述分层的图块结构进行特征映射处理，得到分层特征映射结果；

基于所述分割图块进行移动窗口的注意力转换处理，得到注意力转换结果；

基于所述分层特征映射结果和所述注意力转换结果得到原始特征图。

4.根据权利要求1所述的方法，其特征在于，所述通过注意力机制对所述原始特征图进行局部特征激活处理，得到激活特征图包括：

通过注意力机制对所述原始特征图进行局部特征的显著性判别处理，生成所述原始特征图的注意力热力图；

将所述注意力热力图与所述原始特征图进行点乘处理，得到局部特征激活后的激活特征图。

5.根据权利要求1所述的方法，其特征在于，所述对所述激活特征图进行自注意力机制处理，得到自注意力特征包括：

对所述激活特征图进行矩阵变换处理，得到自注意力查询向量、自注意力键向量和自注意力值向量；

基于所述自注意力查询向量、所述自注意力键向量和所述自注意力值向量进行自注意力机制处理，得到自注意力特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述自注意力特征与所述原始特征图进行交叉注意力处理，得到交叉融合特征包括：

将所述自注意力特征确定为交叉注意力查询向量；

对所述原始特征图进行变换处理，得到交叉注意力键向量和交叉注意力值向量；

基于所述交叉注意力查询向量、所述交叉注意力键向量和交叉注意力值向量进行交叉注意力处理，得到交叉融合特征。

7.根据权利要求6所述的方法，其特征在于，所述对所述原始特征图进行变换处理，得到交叉注意力键向量和交叉注意力值向量包括：

对所述原始特征图进行压缩处理，得到压缩特征图；

对所述压缩特征图进行矩阵变换处理，得到交叉注意力键向量和交叉注意力值向量。

8.根据权利要求1所述的方法，其特征在于，所述基于所述交叉融合特征进行图像识别处理，得到所述目标图像的图像识别结果包括：

对所述交叉融合特征进行池化处理，得到图像特征序列；

基于所述图像特征序列在特征数据库进行特征检索，得到特征检索结果；

基于所述特征检索结果确定所述目标图像的图像识别结果。

9.根据权利要求1所述的方法，其特征在于，所述基于所述交叉融合特征进行图像识别处理，得到所述目标图像的图像识别结果包括：

对所述交叉融合特征进行池化处理，得到图像特征序列；

添加分类头至所述图像特征序列，构建图像分类特征；

对所述图像分类特征进行多标签分类处理，得到所述目标图像的图像识别结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

查找所述图像识别结果对应分类类别下所述目标图像的相似图像；

查找所述相似图像的图像名称；

基于所述相似图像、分类类别和图像名称生成搜图反馈信息；

推送所述搜图反馈信息。

11.根据权利要求1所述的方法，其特征在于，所述目标图像包括地标图像；

所述方法还包括：

基于所述图像识别结果对所述地标图像中的地标进行定位处理，得到地标定位地点；

查找所述地标定位地点的游览路径规划；

推送所述游览路径规划。

12.一种图像识别装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。