CN115424122A

CN115424122A - 图像识别方法、装置以及电子设备

Info

Publication number: CN115424122A
Application number: CN202210975639.6A
Authority: CN
Inventors: 张有才; 李亚乾; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-02

Abstract

本申请实施例公开了一种图像识别方法、装置以及电子设备。方法包括：获取待识别图像的特征信息；基于注意力机制模型获取与特征信息对应的分类向量，注意力机制模型用于根据特征信息得到对应的分类向量；基于分类向量，得到待识别图像所包括的物体对应的热度图；根据热度图获取热度图对应的物体在待识别图像中的位置信息，位置信息用于在待识别图像中对物体进行标注。从而通过上述方式使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本申请提供的方法中可以直接通过热度图来确定物体的位置，进而提升了识别效率。

Description

图像识别方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种图像识别方法、装置以及电子设备。

背景技术

随着技术的发展，可以通过神经网络模型来对图像中的内容进行分类识别。例如，可以通过神经网络模型识别出图像中的人物以及动物等物体，并且，还可以标注出所识别物体的位置。其中，能够用于进行分类识别的神经网络模型需要先通过训练数据进行训练。但是，相关的神经网络模型的训练成本和识别效率都有待优化。

发明内容

鉴于上述问题，本申请提出了一种图像识别方法、装置以及电子设备，以改善上述问题。

第一方面，本申请提供了一种图像识别方法，所述方法包括：获取待识别图像的特征信息；基于注意力机制模型获取与所述特征信息对应的分类向量，所述注意力机制模型用于根据特征信息得到对应的分类向量；基于所述分类向量，得到所述待识别图像所包括的物体对应的热度图；根据所述热度图获取所述热度图对应的物体在所述待识别图像中的位置信息，所述位置信息用于在所述待识别图像中对所述物体进行标注。

第二方面，本申请提供了一种图像识别装置，所述装置包括：特征获取单元，用于获取待识别图像的特征信息；分类单元，用于基于注意力机制模型获取与所述特征信息对应的分类向量，所述注意力机制模型用于根据特征信息得到对应的分类向量；热度图获取单元，用于基于所述分类向量，得到所述待识别图像所包括的物体对应的热度图；位置获取单元，用于根据所述热度图获取所述热度图对应的物体在所述待识别图像中的位置信息，所述位置信息用于在所述待识别图像中对所述物体进行标注。

第三方面，本申请提供了一种电子设备，所述电子设备至少包括处理器、以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述方法。

本申请提供的一种图像识别方法、装置以及电子设备，在获取待识别图像的特征信息后，可以基于注意力机制获取与特征信息对应的分类向量，进而，基于该分类向量，得到待识别图像所包括的物体对应的热度图。再根据热度图获取热度图对应的物体在待识别图像中的位置信息，以便基于位置信息在所述待识别图像中对物体进行标注。从而通过上述方式使得在得到待识别图像的特征信息后，可以直接基于注意力机制模型来得到对应的分类向量，以进一步通过该分类向量来得到待识别图像所包括的物体对应的热度图。并且，在该热度图可以表征物体在待识别图像中的位置的情况下，可以通过该热度图在待识别图像中对物体进行标注，从而使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本申请提供的方法中可以直接通过热度图来确定物体的位置，进而提升了识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的图像识别方法的一种应用场景的示意图；

图2示出了本申请实施例提出的图像识别方法的另一种应用场景的示意图；

图3示出了本申请一实施例提出的一种图像识别方法的流程图；

图4示出了本申请实施例中一种热度图的示意图；

图5示出了本申请另一实施例提出的一种图像识别方法的流程图；

图6示出了本申请再一实施例提出的一种图像识别方法的流程图；

图7示出了本申请实施例中物体的位置信息的示意图；

图8示出了本申请实施例中获取每个分类对应的预设阈值的流程图；

图9示出了本申请实施例中获取参考图像对应于多个参考阈值的热度区域的示意图；

图10示出了本申请实施例中获取第一像素均值和第二像素均值的示意图；

图11示出了本申请实施例提出的一种图像识别装置的结构框图；

图12示出了本申请实施例提出的另一种图像识别装置的结构框图；

图13示出了本申请的用于执行根据本申请实施例的图像识别方法的另一种电子设备的结构框图；

图14是本申请实施例的用于保存或者携带实现根据本申请实施例的图像识别方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着神经网络模型技术的发展，在更多的情况下可以通过神经网络模型来对图像中的内容进行分类识别。例如，可以通过神经网络模型识别出图像中的人物以及动物等物体，并且，还可以标注出所识别物体的位置。其中，能够用于对图像进行分类识别的神经网络模型，通常需要进行训练才能实现所需的识别功能。

但是，发明人在研究中发现，相关的神经网络模型的训练过程还存在训练成本有待优化的问题。例如，在相关的神经网络模型的训练过程中，需要用到对神经网络模型进行训练的训练图像，并且该训练图像需要先进行标注才可以起到对应的训练效果。在训练图像的标注过程中，不仅需要标注训练图像中所包括的物体的分类，还需要对训练图像中所包括的物体的位置进行标注(例如，在图像中用画框将物体标注出来)，进而使得训练图像的标注成本较高。并且，在训练图像中所包括的物体的分类较多的情况下，对物体位置的标注也较为不便。另外，发明人还发现，相关的神经网络模型为了实现对图像中的物体进行分类和定位，需要包括较多的功能模块，造成识别过程的效率有待提升。

因此，发明人在研究中发现上述问题后，提出了本申请中可以改善上述问题的图像识别方法、装置以及电子设备。在本申请实施例提供的图像识别方法中，在获取待识别图像的特征信息后，可以基于注意力机制获取与特征信息对应的分类向量，进而，基于该分类向量，得到待识别图像所包括的物体对应的热度图。再根据热度图获取热度图对应的物体在待识别图像中的位置信息，以便基于位置信息在所述待识别图像中对物体进行标注。

从而使得在得到待识别图像的特征信息后，可以直接基于注意力机制模型来得到对应的分类向量，以进一步通过该分类向量来得到待识别图像所包括的物体对应的热度图。并且，在该热度图可以表征物体在待识别图像中的位置的情况下，可以通过该热度图在待识别图像中对物体进行标注，从而使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本申请提供的方法中可以直接通过热度图来确定物体的位置，进而提升了识别效率。

在对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及一种应用环境进行介绍。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，所提供的图像识别方法可以由电子设备执行。在由电子设备执行的这种方式中，本申请实施例提供的图像识别方法中所有步骤可以均由电子设备执行。例如，如图1所示，本申请实施例提供的图像识别方法中所有步骤可以均由电子设备执行的情况下，所有步骤均可以通过电子设备100处理器执行。

再者，本申请实施例提供的图像识别方法也可以由服务器进行执行。对应的，在由服务器执行的这种方式中，服务器可以响应于触发指令而开始执行本申请实施例提供的图像识别方法中的步骤。其中，该触发指令可以由用户使用的电子设备所发送，也可以由服务器响应于一些自动化事件而在本地触发。

另外，本申请实施例提供的图像识别方法还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的图像识别方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。示例性的，如图2所示，电子设备100可以执行图像识别方法包括的：向服务器发送待识别的图像，然后由服务器200来执行获取待识别图像的特征信息；基于注意力机制模型获取与特征信息对应的分类向量；基于分类向量，得到待识别图像所包括的物体对应的热度图；根据热度图获取热度图对应的物体在待识别图像中的位置信息。之后，服务器200将位置信息再返回给电子设备100，以便电子设备100在待识别图像中对物体进行标注。

需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。

需要说明的是，其中的电子设备100除了为图1和图2中所示的智能手机外，还可以为平板电脑、智能手表、智能语音助手等设备。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云计算、云存储、网络服务、云通信、中间件服务、CDN(Content Delivery Network，内容分发网络)、以及人工智能平台等基础云计算服务的云服务器。其中，在本申请实施例提供的图像识别方法由多个物理服务器构成的服务器集群或者分布式系统执行的情况下，图像识别方法中的不同步骤可以分别由不同的物理服务器执行，或者可以由基于分布式系统构建的服务器基于分布式的方式执行。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请实施例提供的一种图像识别方法，方法包括：

S110：获取待识别图像的特征信息。

在本申请实施例中，待识别图像可以理解为待进行内容识别的图像。其中，所识别的内容可以为待识别图像中所包括的物体的类别以及物体在待识别图像中的位置。

在本申请实施例中，获取待识别图像的方式可以有多种。

作为一种方式，可以由用户进行输入。在这种方式中，可以由用户操作电子设备获取得到待识别图像。可选的，电子设备可以响应于用户触发的拍摄操作进行图像的采集，然后将所采集的图像作为待识别图像。可选的，电子设备可以响应于用户触发的选取操作从电子设备的相册中选取图像作为待识别图像。

作为另外一种方式，待评价图像可以由电子设备进行自行选取。例如，依然以图像采集场景为例。在图像采集场景中，可以将存储到电子设备中图像作为待识别图像。

其中，待识别图像的特征信息为用于表征待识别图像中所包括物体的特征的信息。可选的，可以通过预先训练的网络模型以获取待识别图像的特征信息。其中，所获取的特征信息可以包括待识别图像对应的特征图(feature map)和标签向量(labelembedding)。

S120：基于注意力机制模型获取与特征信息对应的分类向量，注意力机制模型用于根据特征信息得到对应的分类向量。

在本申请实施例中，可以将特征信息输入预先训练的注意力机制模型中，并获取注意力机制模型输出的分类向量。需要说明的是，在本申请实施例中，可以先获取得到初始的注意力机制模型，然后通过训练图像对该初始的注意力机制模型进行训练，进而得到可以用于根据特征信息输出对应的分类向量的注意力机制模型。其中，因为在本申请实施例中，是通过后续得到的热度图来得到待识别图像中的物体的位置信息，进而用于对初始的注意力机制模型进行训练的训练图像，可以仅进行物体分类的标注，而可以不用在该训练图像中标注出所包括的物体的位置。

在初始的注意力机制模型进行训练的过程中，若得到当前训练阶段的注意力机制模型所输出的分类向量后，可以基于该输出的分类向量以及损失函数对当前训练阶段的注意力机制模型进行调整，直到训练出所输出的分类向量满足分类需求的注意力机制模型。其中，在训练过程中所使用的损失函数可以为以sigmoid基础的多元二分类损失函数。例如，可以使用BCE(Binary Cross Entropy)多标签损失函数，BCE(Binary Cross Entropy)多标签损失函数可以定义为：

其中，P为模型预测的分类分数。在图像多标签分类任务中，由于图像(例如，训练图像)的特征图在不同通道中对物体(训练图像所包括的物体)的多个特征点产生不同响应，而这些响应经过加权组合后决定最终所训练出的模型的多标签分类性能，因此在多标签任务中对损失函数的约束也能对物体所在的热度区域产生弱监督作用。

其中，通过注意力机制模型获取的分类向量表征待识别图像中所包括的物体的分类以及对应的位置信息。并且，该注意力机制模型为基于多头(multi-head)注意力机制运行，从而使得所输出的分类向量可以为对应于多类的物体。进而使得注意力机制模型获取的分类向量可以直接表征待识别图像中所包括的多个物体的分类以及对应的位置信息。

S130：基于分类向量，得到待识别图像所包括的物体对应的热度图。

其中，注意力机制模型所输出的分类向量可以表征待识别图像中所包括物体的分类和位置信息，进而则可以通过该分类向量来得到待识别图像所包括的物体对应的热度图。其中，作为一种方式，基于分类向量，得到待识别图像所包括的物体对应的热度图，包括：根据分类向量得到对应的指定长宽比的热度图，对指定长宽比的热度图的尺寸进行调整，将调整后的图像作为物体对应的热度图，其中，调整后的图像的尺寸与待识别图像的尺寸相同。其中，可选的，可以通过对分类向量进行resize处理以得到分类向量对应的指定长宽比的热度图，然后对该指定长宽比的热度图进行双线性插值处理，以扩大该指定长宽比的热度图的尺寸与待识别图像的尺寸相同，以得到物体对应的热度图。例如，在输出的分类向量为bs*80*196的情况下，对该分类向量进行resize处理就得到了bs*80*14*14，该bs*80*14*14则可以理解为指定长宽比的热度图。

S140：根据热度图获取热度图对应的物体在待识别图像中的位置信息，位置信息用于在待识别图像中对物体进行标注。

需要说明的是，热度图可以通过其所包括像素的像素值来表征其所包括的内容，进而也就可以通过热度图所包括像素的像素值来确定对应物体所在的位置。示例性的，如图4所示，在热度图中，热度图所对应的物体(例如，图4中所示的人物)处的像素值与其他位置的像素值会有所不同。因此，在得到热度图之后，则可以根据热度图中所包括的像素的像素值来计算得到物体所在的位置的位置信息，进而基于该位置信息在待识别图像中将热度图所对应的物体进行标注。可选的，可以先通过热度图可以通过其所包括像素的像素值计算出对应物体的中心位置，然后再通过热度图的像素的像素值来计算出物体的宽度和高度，进而基于物体的中心位置、宽度和高度来确定物体的位置信息。

需要说明的是，在本申请实施例中所得到的热度图实际为彩色。在热度图中可以通过颜色来标识对应的物体出现的位置。例如，在热度图对应的物体所在的位置的像素可以为红色，热度图中对应的物体以外区域的像素的则可以为其他颜色。

本实施例提供的一种图像识别方法，在获取待识别图像的特征信息后，可以基于注意力机制获取与特征信息对应的分类向量，进而，基于该分类向量，得到待识别图像所包括的物体对应的热度图。再根据热度图获取热度图对应的物体在待识别图像中的位置信息，以便基于位置信息在待识别图像中对物体进行标注。从而通过上述方式使得在得到待识别图像的特征信息后，可以直接基于注意力机制模型来得到对应的分类向量，以进一步通过该分类向量来得到待识别图像所包括的物体对应的热度图。并且，在该热度图可以表征物体在待识别图像中的位置的情况下，可以通过该热度图在待识别图像中对物体进行标注，从而使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本申请提供的方法中可以直接通过热度图来确定物体的位置，进而提升了识别效率。再者，该分类向量还可以表征待识别图像中所包括的物体的类别，从而使得本申请实施例提供的方案可以同步的进行多标签推理(即确定图像中所包括的物体的类别)以及物体所在的位置，缩短了整体的识别时间。

请参阅图5，本申请实施例提供的一种图像识别方法，方法包括：

S210：获取待识别图像的特征信息。

S220：基于自注意力机制模块对标签向量进行处理，得到第一处理结果。

其中，自注意力机制模块可以对标签向量进行self-attention操作，进而得到第一处理结果。其中，在进行self-attention操作的过程中，query、key和value均可以为该标签向量。

例如，在用于根据待识别图像获取对应的特征信息的网络为swin的情况下。query可以为80类的label embedding(bs*80*2048)，key是带有位置信息的featuremap(对swin而言为bs*196*2048)，value为没有位置信息的feature_map。

S230：基于交叉注意力机制模块对第一处理结果和特征图进行处理，得到第二处理结果。

其中，交叉注意力机制模块可以对第一处理结果和特征图进行cross-attention操作，得到第二处理结果。其中，在进行cross-attention操作的过程中，key和value可以为输入的该特征图。

需要说明的是，在本申请实施例中注意力机制模型可以包括transformer模型。可选的，自注意力机制模块和交叉注意力机制模块可以在transformer模型的解码器中。在这种情况下，可以将标签向量输入到transformer模型的解码器的自注意力机制模块中，然后再将第一处理结果和特征图输入到transformer模型的解码器的交叉注意力机制模块中，以获取到该交叉注意力机制模块所输出的第二处理结果。

S240：通过全连接层对第二处理结果进行处理，得到分类向量。

S250：基于分类向量，得到待识别图像所包括的物体对应的热度图。

S260：根据热度图获取热度图对应的物体在待识别图像中的位置信息，位置信息用于在待识别图像中对物体进行标注。

本实施例提供的一种图像识别方法，通过上述方式使得在得到待识别图像的特征信息后，可以直接基于注意力机制模型来得到对应的分类向量，以进一步通过该分类向量来得到待识别图像所包括的物体对应的热度图。并且，在该热度图可以表征物体在待识别图像中的位置的情况下，可以通过该热度图在待识别图像中对物体进行标注，从而使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本申请提供的方法中可以直接通过热度图来确定物体的位置，进而提升了识别效率。并且，在本实施例中，所采用的注意力机制模型包括自注意力机制模块和交叉注意力机制模块，进而使得可以通过自注意力机制模块和交叉注意力机制模块先后进行运行，以使得最终所得到的分类向量可以更加准确的表征待识别物体中物体的类别和位置。

请参阅图6，本申请实施例提供的一种图像识别方法，方法包括：

S310：获取待识别图像的特征信息。

S320：基于注意力机制模型获取与特征信息对应的分类向量，注意力机制模型用于根据特征信息得到对应的分类向量。

S330：基于分类向量，得到待识别图像所包括的物体对应的热度图。

S340：获取热度图所包括的目标像素，目标像素包括对应的像素值大于预设阈值的像素。

需要说明的是，在一些情况下，并不是热度图中的所有像素都可以用于计算热度图对应物体的位置信息。在这种情况下，可以通过预设阈值对热度图中所包括的像素进行筛选。其中，基于热度图获取目标像素也可以理解为获取热度图所对应的掩码图，在这种情况下，掩码图中的像素则可以理解为热度图所对应的目标像素。

其中，在得到注意力机制模型所输出的分类向量后，可以在将该分类向量输入到一层全连接层进行多个类别的分类，进而可以得到待识别图像中所包括的物体的分类。并且，在待识别图像中所包括的物体有多个分类的物体的情况下，针对每个分类的物体会单独对应有热度图。

在这种方式下，获取热度图所包括的目标像素，目标像素包括对应的像素值大于预设阈值的像素包括：获取热度图对应物体的分类，获取分类对应的预设阈值，不同的分类所对应的预设阈值不同，从热度图所包括的像素中，获取对应的像素值大于分类对应的预设阈值的像素作为目标像素。

S350：基于目标像素的位置和像素值得到热度图对应物体的位置信息，位置信息用于在待识别图像中对物体进行标注。

在本申请实施例中，物体对应的位置信息用于表征物体在图像中所在的区域。进而，可以通过物体的位置信息来确定图像中的那些区域是热度图对应物体所在的区域。作为一种方式，目标像素的位置包括目标像素所在坐标区域的横坐标以及纵坐标，物体的位置信息包括物体的中心位置的横坐标、中心位置的纵坐标、宽度以及高度。对应的，在这种方式下，基于目标像素的位置和像素值得到热度图对应物体的位置信息，包括：基于目标像素的像素值以及横坐标得到热度图对应物体的中心位置的横坐标，基于目标像素的像素值以及纵坐标得到热度图对应物体的中心位置的纵坐标，基于目标像素的像素值、目标像素的横坐标以及中心位置的横坐标，得到热度图对应物体的宽度，基于目标像素的像素值、目标像素的纵坐标以及中心位置的纵坐标，得到热度图对应物体的高度。

在得到物体的中心位置的横坐标、中心位置的纵坐标、宽度以及高度后，则可以确定物体在待识别图像中所占据的区域，进而则可以在待识别图像中对物体进行标注。示例性的，若待识别图像为图7所示，且识别出的物体中包括有图7中所示的小狗，那么在基于小狗所对应的热度图确定小狗的中心位置的横坐标、中心位置的纵坐标、宽度(W)以及高度(H)后，则可以在待识别图像中将小狗所在位置进行标注。例如，在图7中在小狗周围标注对应的框。

作为一种方式，在通过热度图来获取对应物体的位置信息之前，可以先对热度图进行归一化。其中，归一化所采用的公式如下：

其中，等号左侧的CAM(x,y)表征归一化后的像素值，等号右侧的CAM(x,y)表征归一化之前的像素值。minCAM(x,y)表征归一化之前的热度图中最小的像素值，maxCAM(x,y)表征归一化之前的热度图中最大的像素值。在得到归一化之后的热度图之后，则可以通过预设阈值筛选出掩码图。

需要说明的是，对于进行过归一化或者未进行过归一化的热度图，所对应的预设阈值可以不同，进而使得对于同一个热度图，可以根据未进行归一化和进行了归一化而对应不同的预设阈值。例如，在通过未进行过归一化的热度图来确定目标像素的过程中，所使用的预设阈值的也是未经过归一化的预设阈值。在通过进行过归一化的热度图来确定目标像素的过程中，所使用的预设阈值的也是经过归一化的预设阈值。

在得到掩码图之后，则可以根据下列公式来计算出热度图对应的物体的中心位置的横坐标以及中心位置的纵坐标。该公式如下：

其中，M(x,y)表征热度图所对应的掩码图中的像素(即目标像素)的像素值，x则表征像素值对应的横坐标，y则表征像素值对应的纵坐标。x_c则表征所计算出的中心位置的横坐标，y_c则表征所计算出的中心位置的纵坐标。

作为一种方式，如图8所示，在每个分类的物体各自对应有单独的预设阈值的情况下，可以预先针对每个分类的物体获取对应的预设阈值。那么在获取热度图所包括的目标像素，目标像素包括对应的像素值大于预设阈值之前还包括：

S341：获取多个分类各自对应的多个参考图像。

其中，在存在多个分类的物体的情况下，每个分类所对应的参考图像则可以理解为包括有所对应分类的物体的图像。分类所对应的多个参考图像则可以理解为该多个参考图像中均包括有所对应分类的物体，且同一分类所对应的多个参考图像中，所包括的物体的样式以及物体在参考图像中的位置可以不同。示例性的，在多个分类包括有人物、动物、房屋以及车辆等分类的情况下，可以获取人物对应的多个参考图像，获取动物对应的多个参考图像，获取房屋对应的多个参考图像，以及获取车辆对应的多个参考图像。其中，人物所对应的多个参考图像中可以只包括有人物，动物对应的多个参考图像中可以只包括有动物，房屋对应的多个参考图像中可以只包括有房屋，车辆对应的多个参考图像中可以只包括有车辆。

S342：获取当前分类对应的多个参考图像各自对应于多个参考阈值的热度区域，热度区域表征对应的参考图像中物体的位置信息，当前分类为多个分类中当前进行预设阈值计算的分类。

在得到当前分类对应的多个参考图像后，可以基于本申请实施例所提供的方式得到多个参考图像各自对应于多个参考阈值的热度区域。其中，参考图像对应于参考阈值的热度区域，可以理解为在得到参考图像对应的热度图之后，基于参考图像所对应的参考阈值从对应的热度图中得到对应的目标像素，然后再基于该目标像素计算出参考图像中所包括物体的位置信息。该位置信息所标识的区域则为参考图像对应于参考阈值的热度区域。那么在单个参考图像对应有多个参考阈值的情况下，则会针对每个参考阈值都可以分别计算得到一个热度区域。

示例性的，若当前分类对应的多个参考图像包括参考图像A、参考图像B以及参考图像C。在多个参考阈值包括参考阈值T1、参考阈值T2、以及参考阈值T3的情况下。对于参考图像A，则会分别计算对于参考阈值T1、参考阈值T2、以及参考阈值T3的热度区域。对于参考图像B，则会分别计算对于参考阈值T1、参考阈值T2、以及参考阈值T3的热度区域。对于参考图像C，则会分别计算对于参考阈值T1、参考阈值T2、以及参考阈值T3的热度区域。如图9所示，以参考图像A为例，对于参考阈值T1所计算出的热度区域为热度区域Q1，对于参考阈值T2所计算出的热度区域为热度区域Q2，对于参考阈值T3所计算出的热度区域为热度区域Q3。

需要说明的是，该多个参考阈值的值可以依次递增，且相邻大小的参考阈值的差值可以相同。示例性的，在参考阈值也对应进行归一化的情况下，多个参考阈值中的最小的参考阈值可以为0.4，最大的参考阈值可以为0.75，其他的参考阈值可以为在0.4到0.75之间以0.05为间隔均匀分布。

S343：获取多个参考图像各自对应于多个参考阈值的热度区域的第一像素均值。

在得到多个参考图像各自对应于多个参考阈值的热度区域后，则可以再针对每个热度区域进行第一像素均值的计算。对于单个热度区域而言，可以将该热度区域中的所有像素的像素值求和后，将该和与所有像素的数量相除，以得到该热度区域对应的第一像素均值。

S344：将多个参考图像中满足指定条件的图像进行筛除，得到剩余的参考图像，其中，指定条件包括对应于第一参考阈值的热度区域的第一像素均值大于第一参考均值的参考图像，或者对应于第二参考阈值的热度区域的第一像素均值大小于第二参考均值的参考图像，第一参考阈值为多个参考阈值中最小的参考阈值，第二参考阈值为多个参考阈值中最大的参考阈值。

示例性的，在多个参考阈值中的最小的参考阈值为0.4，最大的参考阈值为0.75，其他的参考阈值可以为在0.4到0.75之间以0.05为间隔均匀分布的情况下，第一参考阈值可以为0.4，第二参考阈值可以为0.75。第一参考均值和第二参考均值可以相同，例如，第一参考均值和第二参考均值可以均为0.6。

S345：根据剩余的参考图像得到当前分类对应的预设阈值。

可选的，根据剩余的参考图像得到当前分类对应的预设阈值，包括：获取剩余的参考图像各自对应于多个参考阈值的热度区域，获取多个参考阈值对应的热度区域的第二像素均值，得到多个第二像素均值，将多个第二像素均值中与第三参考均值相同的第二像素均值所对应的参考阈值作为当前分类对应的预设阈值。

在得到剩余的参考图像后，则可以针对每个参考阈值计算第二像素均值。与第一像素均值不同的是，第一像素均值是针对每个热度区域中的像素所计算出的均值，而第二像素均值为多个图像针对同一个参考阈值所计算出的所有热度区域的像素的均值。示例性的，如图10所示，在得到的剩余的参考图像包括参考图像A和参考图像B的情况下，在计算得到每个热度区域各自对于的第一像素均值后，可以进一步的针对所对应的参考阈值相同的第一像素均值再进一步求均值，进而得到该参考阈值对应的第二像素均值。例如，其中的第一像素均值Z1和第一像素均值Z4所对应的参考阈值均为T1，那么将第一像素均值Z1和第一像素均值Z4求平均，则可以得到参考阈值T1所对应的热度区域的第二像素均值Z7。类似的，第一像素均值Z2和第一像素均值Z5所对应的参考阈值均为T2，那么将第一像素均值Z2和第一像素均值Z5求平均，则可以得到参考阈值T2所对应的热度区域的第二像素均值Z8。第一像素均值Z3和第一像素均值Z6所对应的参考阈值均为T3，那么将第一像素均值Z3和第一像素均值Z6求平均，则可以得到参考阈值T3所对应的热度区域的第二像素均值Z9。

在得到多个第二像素均值后，则可以将每个第二像素均值与第三参考均值进行比对，获取到与第三参考均值相同的第二像素均值，以将该第二像素均值对应的参考阈值作为当前分类对应的预设阈值。以图10所示的情况为例，若第三参考均值为Z8，那么则可以将第二像素均值Z8所对应的参考阈值T2作为当前分类的预设阈值。可选的，第三参考阈值可以为0.6。

其中，在根据剩余的参考图像来获取当前分类对应的预设阈值的过程中，除了可以直接基于剩余的参考图像来获取当前分类对应的预设阈值外，还可以从剩余的参考图像中选择部分的参考图像来获取当前分类对应的预设阈值。在这种情况下，则会基于该部分的参考图像，获取该部分的参考图各自对应于多个参考阈值的热度区域，然后再根据前述的方式计算第二像素均值。其中，从剩余的参考图像中所选择出的部分的参考图像的数量可以根据剩余的参考图像的数量来确定。例如，在剩余的参考图像的数量大于50的情况下，从声源的参考图像中所选择的部分的参考图像的数量为50。再例如，所选择的部分的参考图像可以为剩余的参考图像的一半。

需要说明的是，在一些情况下，对于一些小物体而言，可能会存在所计算出的位置信息不够准确的问题。在这种情况下，则可以针对小物体进行位置信息的调整。其中，小物体可以理解为在图像中所占区域的占比小于指定占比的物体，该指定占比可以为10％或者20％。

作为一种方式，基于目标像素的位置和像素值得到热度图对应物体的位置信息，包括：基于目标像素的位置和像素值得到热度图对应物体的初始位置信息，获取基于位置信息确定的热度区域的像素均值，若像素均值小于第四参考均值，则将初始位置信息作为热度图对应物体的位置信息。若像素均值不小于第四参考均值，基于预设比例降低预设阈值，得到降低后的阈值，基于降低后的阈值得到更新后的目标像素，基于更新后的目标像素的位置和像素值得到热度图对应物体的位置信息。

需要说明的是，在得到初始位置信息后，可以计算出该初始位置信息的对应的区域大小，若计算到初始位置信息对应的区域大小在待识别图像中的占比小于指定占比则会执行获取基于初始位置信息确定的热度区域的像素均值，否者，直接将初始位置信息作为热度图对应的物体的位置信息。

本实施例提供的一种图像识别方法，通过上述方式使得在得到待识别图像的特征信息后，可以直接基于注意力机制模型来得到对应的分类向量，以进一步通过该分类向量来得到待识别图像所包括的物体对应的热度图。并且，在该热度图可以表征物体在待识别图像中的位置的情况下，可以通过该热度图在待识别图像中对物体进行标注，从而使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本实施例中，对于每个分类的物体可以单独配置对应的用于确定目标像素的预设阈值，从而使得对物体的标注过程中可以具有更好的针对性，以提升物体位置标注的准确性。

请参阅图11，本申请实施例提供的一种图像识别装置400，装置400包括：

特征获取单元410，用于获取待识别图像的特征信息。

分类单元420，用于基于注意力机制模型获取与特征信息对应的分类向量，注意力机制模型用于根据特征信息得到对应的分类向量。

其中，分类单元420，具体用于将特征信息输入注意力机制模型，获取注意力机制模型输出的分类向量，其中，注意力机制模型在训练过程中所使用的损失函数为多标签损失函数。

热度图获取单元430，用于基于分类向量，得到待识别图像所包括的物体对应的热度图。

位置获取单元440，用于根据热度图获取热度图对应的物体在待识别图像中的位置信息，位置信息用于在待识别图像中对物体进行标注。

作为一种方式，注意力机制模型包括自注意力机制模块和交叉注意力机制模块，特征信息包括待识别图像对应的特征图和标签向量。对应的，热度图获取单元430，具体用于基于自注意力机制模块对标签向量进行处理，得到第一处理结果；基于交叉注意力机制模块对第一处理结果和特征图进行处理，得到第二处理结果；通过全连接层对第二处理结果进行处理，得到分类向量。

作为一种方式，热度图获取单元430，具体用于根据分类向量得到对应的指定长宽比的热度图；对指定长宽比的热度图的尺寸进行调整，将调整后的图像作为物体对应的热度图，其中，调整后的图像的尺寸与待识别图像的尺寸相同。

作为一种方式，位置获取单元440，具体用于获取热度图所包括的目标像素，目标像素包括对应的像素值大于预设阈值的像素；基于目标像素的位置和像素值得到热度图对应物体的位置信息。

可选的，目标像素的位置包括目标像素所在坐标区域的横坐标以及纵坐标，物体的位置信息包括物体的中心位置的横坐标、中心位置的纵坐标、宽度以及高度。对应的，位置获取单元440，具体用于基于目标像素的像素值以及横坐标得到热度图对应物体的中心位置的横坐标；基于目标像素的像素值以及纵坐标得到热度图对应物体的中心位置的纵坐标；基于目标像素的像素值、目标像素的横坐标以及中心位置的横坐标，得到热度图对应物体的宽度；基于目标像素的像素值、目标像素的纵坐标以及中心位置的纵坐标，得到热度图对应物体的高度。

可选的，位置获取单元440，具体用于获取热度图对应物体的分类；获取分类对应的预设阈值，不同的分类所对应的预设阈值不同；从热度图所包括的像素中，获取对应的像素值大于分类对应的预设阈值的像素作为目标像素。

作为一种方式，如图12所示，装置400还包括：

预设阈值确定单元450，用于获取多个分类各自对应的多个参考图像；获取当前分类对应的多个参考图像各自对应于多个参考阈值的热度区域，热度区域表征对应的参考图像中物体的位置信息，当前分类为多个分类中当前进行预设阈值计算的分类；获取多个参考图像各自对应于多个参考阈值的热度区域的第一像素均值；将多个参考图像中满足指定条件的图像进行筛除，得到剩余的参考图像，其中，指定条件包括对应于第一参考阈值的热度区域的第一像素均值大于第一参考均值的参考图像，或者对应于第二参考阈值的热度区域的第一像素均值大小于第二参考均值的参考图像，第一参考阈值为多个参考阈值中最小的参考阈值，第二参考阈值为多个参考阈值中最大的参考阈值；根据剩余的参考图像得到当前分类对应的预设阈值。

可选的，预设阈值确定单元450，具体用于获取剩余的参考图像各自对应于多个参考阈值的热度区域；获取多个参考阈值对应的热度区域的第二像素均值，得到多个第二像素均值；将多个第二像素均值中与第三参考均值相同的第二像素均值所对应的参考阈值作为当前分类对应的预设阈值。

可选的，预设阈值确定单元450，具体用于基于目标像素的位置和像素值得到热度图对应物体的初始位置信息，获取基于位置信息确定的热度区域的像素均值；若像素均值小于第四参考均值，则将初始位置信息作为热度图对应物体的位置信息。若像素均值不小于第四参考均值，基于预设比例降低预设阈值，得到降低后的阈值；基于降低后的阈值得到更新后的目标像素；基于更新后的目标像素的位置和像素值得到热度图对应物体的位置信息。

本实施例提供的一种图像识别装置，使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，提升了识别效率。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图13对本申请提供的一种电子设备进行说明。

请参阅图13，基于上述图像识别方法、装置，本申请实施例还提供的另一种可以执行前述图像识别方法的电子设备100。电子设备100包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104以及网络模块106。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块106可以与基站进行信息交互。

请参考图14，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

综上所述，本申请提供的一种图像识别方法、装置以及电子设备，在获取待识别图像的特征信息后，可以基于注意力机制获取与特征信息对应的分类向量，进而，基于该分类向量，得到待识别图像所包括的物体对应的热度图。再根据热度图获取热度图对应的物体在待识别图像中的位置信息，以便基于位置信息在所述待识别图像中对物体进行标注。从而通过上述方式使得在得到待识别图像的特征信息后，可以直接基于注意力机制模型来得到对应的分类向量，以进一步通过该分类向量来得到待识别图像所包括的物体对应的热度图。并且，在该热度图可以表征物体在待识别图像中的位置的情况下，可以通过该热度图在待识别图像中对物体进行标注，从而使得用于对图像进行识别的模型可以不再需要使用标注了物体位置的训练图像进行训练，以便可以省略训练图像对应的物体位置标注的过程，以降低模型的训练成本。并且，在本申请提供的方法中可以直接通过热度图来确定物体的位置，相比基于RNN(Recurrent Neural Network)等目标检测技术需要先估测出物体可能存在的区域后再进行分类和框回归，本方法无需进行可能存在区域的检测，进而提升了识别效率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像的特征信息；

基于注意力机制模型获取与所述特征信息对应的分类向量，所述注意力机制模型用于根据特征信息得到对应的分类向量；

基于所述分类向量，得到所述待识别图像所包括的物体对应的热度图；

根据所述热度图获取所述热度图对应的物体在所述待识别图像中的位置信息，所述位置信息用于在所述待识别图像中对所述物体进行标注。

2.根据权利要求1所述的方法，其特征在于，所述注意力机制模型包括自注意力机制模块和交叉注意力机制模块，所述特征信息包括所述待识别图像对应的特征图和标签向量，所述基于注意力机制模型获取与所述特征信息对应的分类向量，包括：

基于所述自注意力机制模块对所述标签向量进行处理，得到第一处理结果；

基于所述交叉注意力机制模块对第一处理结果和所述特征图进行处理，得到第二处理结果；

通过全连接层对所述第二处理结果进行处理，得到分类向量。

3.根据权利要求1所述的方法，其特征在于，所述基于所述分类向量，得到所述待识别图像所包括的物体对应的热度图，包括：

根据所述分类向量得到对应的指定长宽比的热度图；

对所述指定长宽比的热度图的尺寸进行调整，将调整后的图像作为物体对应的热度图，其中，调整后的图像的尺寸与所述待识别图像的尺寸相同。

4.根据权利要求1所述的方法，其特征在于，所述根据所述热度图获取所述热度图对应的物体在所述待识别图像中的位置信息，包括：

获取所述热度图所包括的目标像素，所述目标像素包括对应的像素值大于预设阈值的像素；

基于所述目标像素的位置和像素值得到热度图对应物体的位置信息。

5.根据权利要求4所述的方法，其特征在于，所述目标像素的位置包括目标像素所在坐标区域的横坐标以及纵坐标，所述物体的位置信息包括物体的中心位置的横坐标、中心位置的纵坐标、宽度以及高度，所述基于所述目标像素的位置和像素值得到热度图对应物体的位置信息，包括：

基于目标像素的像素值以及所述横坐标得到热度图对应物体的中心位置的横坐标；

基于目标像素的像素值以及所述纵坐标得到热度图对应物体的中心位置的纵坐标；

基于所述目标像素的像素值、目标像素的横坐标以及所述中心位置的横坐标，得到热度图对应物体的宽度；

基于所述目标像素的像素值、目标像素的纵坐标以及所述中心位置的纵坐标，得到热度图对应物体的高度。

6.根据权利要求4所述的方法，其特征在于，所述获取所述热度图所包括的目标像素，所述目标像素包括对应的像素值大于预设阈值的像素包括：

获取所述热度图对应物体的分类；

获取所述分类对应的预设阈值，不同的分类所对应的预设阈值不同；

从所述热度图所包括的像素中，获取对应的像素值大于所述分类对应的预设阈值的像素作为目标像素。

7.根据权利要求6所述的方法，其特征在于，所述获取所述热度图所包括的目标像素，所述目标像素包括对应的像素值大于预设阈值之前还包括：

获取多个分类各自对应的多个参考图像；

获取当前分类对应的所述多个参考图像各自对应于多个参考阈值的热度区域，所述热度区域表征对应的参考图像中物体的位置信息，所述当前分类为所述多个分类中当前进行预设阈值计算的分类；

获取所述多个参考图像各自对应于多个参考阈值的热度区域的第一像素均值；

将所述多个参考图像中满足指定条件的图像进行筛除，得到剩余的参考图像，其中，所述指定条件包括对应于所述第一参考阈值的热度区域的第一像素均值大于第一参考均值的参考图像，或者对应于所述第二参考阈值的热度区域的第一像素均值大小于第二参考均值的参考图像，所述第一参考阈值为所述多个参考阈值中最小的参考阈值，所述第二参考阈值为所述多个参考阈值中最大的参考阈值；

根据所述剩余的参考图像得到所述当前分类对应的预设阈值。

8.根据权利要求7所述的方法，其特征在于，所述根据所述剩余的参考图像得到所述当前分类对应的预设阈值，包括：

获取所述剩余的参考图像各自对应于所述多个参考阈值的热度区域；

获取多个参考阈值对应的热度区域的第二像素均值，得到多个第二像素均值；

将所述多个第二像素均值中与第三参考均值相同的第二像素均值所对应的参考阈值作为所述当前分类对应的预设阈值。

9.根据权利要求4所述的方法，其特征在于，所述基于所述目标像素的位置和像素值得到热度图对应物体的位置信息，包括：

基于所述目标像素的位置和像素值得到热度图对应物体的初始位置信息，

获取基于所述初始位置信息确定的热度区域的像素均值；

若所述像素均值小于第四参考均值，则将所述初始位置信息作为热度图对应物体的位置信息。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若所述像素均值不小于第四参考均值，基于预设比例降低所述预设阈值，得到降低后的阈值；

基于所述降低后的阈值得到更新后的目标像素；

基于所述更新后的目标像素的位置和像素值得到热度图对应物体的位置信息。

11.根据权利要求1所述的方法，其特征在于，所述基于注意力机制模型获取与所述特征信息对应的分类向量，包括：

将所述特征信息输入注意力机制模型，获取所述注意力机制模型输出的分类向量，其中，所述注意力机制模型在训练过程中所使用的损失函数为多标签损失函数。

12.一种图像识别装置，其特征在于，所述装置包括：

特征获取单元，用于获取待识别图像的特征信息；

分类单元，用于基于注意力机制模型获取与所述特征信息对应的分类向量，所述注意力机制模型用于根据特征信息得到对应的分类向量；

热度图获取单元，用于基于所述分类向量，得到所述待识别图像所包括的物体对应的热度图；

位置获取单元，用于根据所述热度图获取所述热度图对应的物体在所述待识别图像中的位置信息，所述位置信息用于在所述待识别图像中对所述物体进行标注。

13.一种电子设备，其特征在于，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-11任一所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-11任一所述的方法。