CN111539353A

CN111539353A - 一种图像场景识别方法及装置、计算机设备以及存储介质

Info

Publication number: CN111539353A
Application number: CN202010345670.2A
Authority: CN
Inventors: 李岩; 康斌
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-14

Abstract

本申请实施例公开了一种图像场景识别方法及装置、计算机设备以及存储介质，该方法先获取待识别图像中目标图像的图像特征，对目标图像的图像特征进行处理，得到目标图像的全局特征，并处理目标图像的图像特征以及全局特征，得到目标图像中各像素对应锚点的图像特征，根据目标图像中各像素的图像特征以及各像素对应锚点的图像特征，确定目标图像中各像素的全局信息参数，根据目标图像中各像素的图像特征以及全局信息参数进行场景类别预测；该方法通过计算机视觉技术基于锚点仅需要计算像素与对应锚点之间的相似度即可得到像素的全局信息，并综合考虑全局信息进行图像场景识别，提高了准确性，加快了识别速度。

Description

一种图像场景识别方法及装置、计算机设备以及存储介质

技术领域

本申请涉及图像场景识别领域，具体涉及一种图像场景识别方法及装置、计算机设备以及存储介质。

背景技术

随着人工智能技术的发展，基于计算机视觉技术的图像场景识别功能在图像识别领域所占的比重越来越大。

图像场景识别的目标是判断图片中场景的不同类型，与图片分类不同，图片分类是对图片内的物体进行分类，其目标是对图片中占据主要区域的局部物体进行分类。而图像场景识别需要全局考虑图片中多个物体类别，而不是简单地依据局部物体的类别进行判断。例如，为了判断一幅图片所属场景是否为“沙滩”，需要分析判断图片中是否同时存在“沙子”、“大海”、“蓝天”等多个类别的物体，反之，如果简单地根据图片中是否存在类别为“沙子”的局部物体，将无法正确地区分“沙滩”和“沙漠”两种不同的场景类别。因此，相较于图片分类，图像场景识别更加需要对于图片内容全局地处理与融合，才能准确地实现对于图片场景内容的理解。

当前图像场景识别模型使用与标准图像分类任务一样的卷积神经网络，把图像场景识别作为一种普通的图像分类任务进行处理。由于卷积神经网络中每个卷积核的大小往往是有限的，对应的感受野大小也是有限的。对于一个像素点来说，经过一次卷积操作，只能建模一个邻域内有限的信息，如果想要建模图片的全局信息，往往需要堆叠多层卷积，逐渐地增大感受野，但是这样方法使得信息传播的路程大大增加，大量的信息在信息传播的过程之中被削弱，进而导致图像场景识别技术存在准确率较低，耗时较长等技术问题。

申请内容

本申请实施例提供一种图像场景识别方法及装置、计算机设备以及存储介质，以提高图像场景识别技术的准确率。

为解决上述技术问题，本申请实施例提供以下技术方案：

本申请实施例提供一种图像场景识别方法，其包括：

获取待识别图像中目标图像的图像特征；

对所述目标图像的图像特征进行处理，得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，得到所述目标图像中各像素对应锚点的图像特征，各像素对应锚点的数量小于所述目标图像中像素的数量；

根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，得到所述目标图像中各像素的全局信息参数；

根据所述目标图像中各像素的图像特征以及全局信息参数，对所述待识别图像进行场景类别预测得到所述待识别图像的场景识别结果。

本申请实施例提供一种图像场景识别装置，其包括：

获取模块，用于获取待识别图像中目标图像的图像特征；

锚点模块，用于对所述目标图像的图像特征进行处理，得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，得到所述目标图像中各像素对应锚点的图像特征，各像素对应锚点的数量小于所述目标图像中像素的数量；

全局注意力模块，用于根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，得到所述目标图像中各像素的全局信息参数；

识别模块，用于根据所述目标图像中各像素的图像特征以及全局信息参数，对所述待识别图像进行场景类别预测得到所述待识别图像的场景识别结果。

本申请实施例提供一种计算机设备，其包括处理器和存储器，存储器存储有多条指令，指令适于处理器进行加载，以执行上述方法中的步骤。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行上述方法中的步骤。

本申请实施例提供了一种新的图像场景识别方法及装置、计算机设备以及存储介质，该方法先获取待识别图像中目标图像的图像特征，对所述目标图像的图像特征进行处理，得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，得到所述目标图像中各像素对应锚点的图像特征，各像素对应锚点的数量小于所述目标图像中像素的数量，根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，确定所述目标图像中各像素的全局信息参数，根据所述目标图像中各像素的图像特征以及全局信息参数，对所述待识别图像进行场景类别预测得到所述待识别图像的场景识别结果；由于该方法引入了锚点采样模型和快速全局注意力机制模型，首先针对每个像素确定各像素对应锚点的图像特征，并且锚点数量远小于像素总数量，这样基于锚点不需要计算各像素与图像内所有像素的相似度，仅需要计算像素与对应锚点之间的相似度即可得到各像素的全局信息参数，并综合考虑全局信息进行图像场景识别，这样在提高了图像场景识别的准确性的同时，也加快了识别速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的识别系统的组网示意图。

图2是本申请实施例提供的图像场景识别方法的第一种流程示意图。

图3是本申请实施例提供的图像场景识别方法的第二种流程示意图。

图4是本申请实施例提供的图像场景识别方法的第三种流程示意图。

图5是本申请实施例提供的图像场景识别装置的结构示意图。

图6是本申请实施例提供的计算机设备的结构示意图。

图7a至图7d是本申请实施例涉及的模型示意图。

图8a至图8b是本申请实施例涉及的像素及锚点示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，待识别图像是指需要识别场景类型的图像，包括但不局限于图片、视频内的视频帧等；视频包括但不局限于短视频、长视频等格式，短视频可以是长度小于10分钟的视频，长视频可以是长度大于10分钟的视频。

在本申请实施例中，目标图像是指待识别图像中进入识别模型的部分区域内的所有像素的合集，在进行图像场景识别时，并不是对图像的所有区域都输入模型，仅仅是图像的部分区域输入模型进行识别，下文将详细说明。

在本申请实施例中，某模型或者某模块表示相同的对象，模块是由模型对应的算法实现的。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。在本申请中，人工智能技术主要用于实现图像场景识别。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请中，针对待识别图像，CV主要实现图像语义理解(ImageSemantic Understanding，ISU)下图像分类(Image classification)的场景分类(sceneclassification)，对图像的场景进行分类预测并输出预测结果。

请参阅图1，图1为本申请实施例所提供的识别系统的场景示意图，该系统可以包括用户侧设备以及服务侧设备，用户侧设备与服务侧设备通过各种网关组成的互联网等方式连接，不再赘述，其中，用户侧设备包括多个终端11，服务侧设备包括多个服务器12；其中：

终端11包括但不局限于手机、平板等便携终端，以及电脑、查询机、广告机等固定终端，是用户可以使用并操作的服务端口，在本申请中，终端为用户提供图像场景类别的标注、锚点数量的设置、空间稀疏约束条件的设置、待识别图像的上传以及图像场景识别结果的展示等各种功能；为便于下文说明，将终端11定义为平台终端11a和用户终端11b，平台终端11a用于设置模型参数、图像标注等，而用户终端11b则用于上传待识别图像以及识别结果的展示等；

服务器12为用户提供各种业务服务，包括识别服务器12a、训练服务器12b等，其中，训练服务器12b用于模型训练等服务，识别服务器12a用于接收来自终端的识别请求，返回识别结果等。

需要说明的是，图1所示的系统场景示意图仅仅是一个示例，本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

图2是本申请实施例提供的图像场景识别方法的第一种流程示意图，请参阅图2，该图像场景识别方法包括以下步骤：

201：进行模型训练。

在一种实施例中，训练服务器先进行模型训练，以便识别服务器调用模型，本步骤包括：构建初始的图像场景识别模型，所述图像场景识别模型包括由残差网络组成的基础单元，所述基础单元包括快速全局注意力机制模型，所述快速全局注意力机制模型包括锚点采样模型；获取场景图像集，并将所述场景图像集划分为训练集和测试集；所述场景图像集包括多个已标注图像场景类型的场景图像；使用所述训练集对所述初始的图像场景识别模型进行初步训练，得到初步训练后的图像场景识别模型；使用所述测试集对初步训练后的图像场景识别模型进行测试调整，得到训练后的图像场景识别模型。

在一种实施例中，为了提高识别准确性，可以使得锚点尽可能的分布在全图中，那么在进行模型训练时，就需要对锚点施加一些空间稀疏约束，此时，本步骤在构建初始的图像场景识别模型的步骤之后，还包括：构建空间稀疏约束条件；使用所述空间稀疏约束条件对所述锚点采样模型的锚点定位层进行空间稀疏约束；在所述空间稀疏约束的基础上，使用所述场景图像集对所述初始的图像场景识别模型进行初步训练和测试调整。

202：获取待识别图像中目标图像的图像特征。

在一种实施例中，用户在需要根据某张图像获取相同场景下的其他图片等需求场景下，向识别服务器发送识别请求，识别请求携带需要识别的待识别图像。识别服务器在接收到识别请求之后，对待识别图像进行扩充处理，得到目标图像的图像特征，其中目标图像的图像特征包括多个维度对应的每个像素的亮度值，例如每个像素的RGB亮度值等。

203：对所述目标图像的图像特征进行处理，得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，得到所述目标图像中各像素对应锚点的图像特征。

在一种实施例中，各像素对应锚点的数量小于所述目标图像中像素的数量，例如目标图像中像素的数量为224×224＝50176，而锚点的数量k可以为3等。

在一种实施例中，本步骤包括：获取训练后的锚点采样模型，所述锚点采样模型包括锚点定位层和数据提取层；

使用所述训练后的锚点采样模型中的锚点定位层，对所述目标图像的图像特征进行处理得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，确定所述目标图像中各像素对应锚点的位置参数；

使用所述训练后的锚点采样模型中的数据提取层，根据所述各像素对应锚点的位置参数以及所述目标图像的图像特征，确定所述各像素对应锚点的图像特征。本步骤涉及的模型以及各层的功能将在下文中进行详细的描述，通过本步骤，可以得到各像素对应的锚点，例如在图8a所示的场景下，像素(0，0)对应3个锚点m1、m2以及m3，这3个锚点的坐标很大概率不是整数，因此需要数据提取层进行处理，若某个锚点的坐标是整数则可以直接将对应位置的像素的图像特征作为该锚点的图像特征。

在一种实施例中，所述使用所述训练后的锚点采样模型中的锚点定位层，对所述目标图像的图像特征进行处理得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，确定所述目标图像中各像素对应锚点的位置参数的步骤，包括：使用所述锚点定位层中的池化层，处理各像素的图像特征得到所述目标图像在第一空间内的全局特征；使用所述锚点定位层中的全连接层，对所述目标图像在第一空间内的全局特征进行变换，得到所述目标图像在第二空间内的全局特征，并确定为所述目标图像的全局特征；使用所述锚点定位层中的扩展层，处理所述目标图像的全局特征得到所述目标图像内各像素的全局特征；使用所述锚点定位层中的拼接层，拼接所述目标图像内各像素的全局特征以及图像特征，得到所述目标图像内各像素的综合特征；使用所述锚点定位层中的卷积层，基于设置的锚点数量处理各像素的综合特征，得到各像素对应锚点的位置参数。本实施例涉及的模型将在下文进行描述。

在一种实施例中，所述使用所述训练后的锚点采样模型中的数据提取层，根据所述各像素对应锚点的位置参数以及所述目标图像的图像特征，确定所述各像素对应锚点的图像特征的步骤，包括：使用所述数据提取层，基于所述各像素对应锚点的位置参数确定与所述各像素对应锚点在空间位置上满足预设关系的多个参考像素的图像特征，并处理各锚点对应的多个参考像素的图像特征得到所述各像素对应锚点的图像特征。其中，所述处理各锚点对应的多个参考像素的图像特征得到所述各像素对应锚点的图像特征的步骤，包括：通过双线性差值方式，对各锚点对应的多个参考像素的图像特征进行处理得到所述各像素对应锚点的图像特征。本步骤也将在下文进行描述。

204：根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，得到所述目标图像中各像素的全局信息参数。

在一种实施例中，本步骤包括：使用训练后的快速全局注意力机制模型，根据所述各像素的图像特征以及各像素对应锚点的图像特征，确定各像素与各像素对应锚点之间的相似度；根据各像素与各像素对应锚点之间的相似度、以及各像素的图像特征，确定所述各像素的全局信息参数数。本步骤实现了对各像素的全局信息参数的获取，在此基础上，图像场景的识别准确性更高。

205：根据所述目标图像中各像素的图像特征以及全局信息参数，对所述待识别图像进行场景类别预测得到所述待识别图像的场景识别结果。

在一种实施例中，识别服务器使用训练后的模型对待识别图像进行场景类别预测得到所述待识别图像的场景识别结果，可以直接向终端返回场景识别结果，还可以根据场景返回同一场景下的其他图像给终端。

本实施例提供了一种图像场景识别方法，该方法基于计算机视觉技术，并引入了锚点采样模型和快速全局注意力机制模型，基于锚点不需要计算各像素与图像内所有像素的相似度，仅需要计算像素与对应锚点之间的相似度即可得到像素的全局信息，并综合考虑全局信息进行图像场景识别，这样在提高了图像场景识别的准确性的同时，也加快了识别速度。

针对图像内的任意一个像素来说，图像中其余(H×W-1)个像素之中，与该像素之间的相似度较高的像素点的数目是很少的，即在全图计算相似度之时，很多像素点与目标像素点之间的相似度大小接近为0，这些相似度计算操作对最终的结果没有任何影响，是可以省略的操作。基于此，本申请提出了快速全局注意力机制模型算法，对于任意一个像素点，首先从其余(H×W-1)个像素点中挑选K个锚点，K远小于H×W，例如针对下文中的224×224的图像，这个图像总共包括50176个像素，K的取值可以是3/5/7等(K值越大，模型准确性越大，运算速度越慢)，例如K取值为3，那么若不采用快速全局注意力机制模型，每个像素需要计算50176次相似度，总共需要计算50176×50176次(大于25亿次)的相似度，若采用快速全局注意力机制模型，每个像素需要计算3次相似度，总共需要计算50176×3次(大约15万次)的相似度，大大减少了计算次数，即本申请只计算像素点与这个像素对应K个锚点的相似度，该快速策略大大减少了模型的计算时间，增大了模型效率。

图3是本申请实施例提供的图像场景识别方法的第二种流程示意图，请参阅图3，该图像场景识别方法包括以下步骤：

本实施例主要是针对模型训练进行描述。

301：平台用户上传标注了场景类型的图像。

在一种实施例中，平台用户通过平台终端11a上传万级别或者十万级别的训练图像，并对这些图像进行场景标注。

302：平台用户设置锚点数量以及空间稀疏约束条件。

在一种实施例中，平台用户通过平台终端11a设置锚点数量K为3，空间稀疏约束条件为锚点之间的距离大于2个像素间距等。

303：训练服务器12b构建初始的识别模型。

在一种实施例中，训练服务器12b构建初始的识别模型，图像场景识别模型包括由残差网络组成的基础单元，所述基础单元包括快速全局注意力机制模型，所述快速全局注意力机制模型包括锚点采样模型；识别模型如图7a所示，该模型的输入是任意大小的图像，输出为该图像的场景分类结果，其中模型的基础单元如图7b所示，将本申请提出的快速全局注意力机制模块加入到标准残差网络(ResNet)的每个基础单元(block)中，快速全局注意力机制模块如图7c所示，锚点采样模块如图7d所示，将在下文进行描述。

304：训练服务器12b构建训练集和测试集。

在一种实施例中，训练服务器12b按照预设比例，例如9∶1的比例，将场景图像集内平台用户上传的训练图像划分为训练集和测试集。

305：训练服务器12b使用训练集内的图像对所述初始的图像场景识别模型进行初步训练，得到初步训练后的图像场景识别模型。

在一种实施例中，训练服务器12b将空间稀疏约束条件作用于图7d所示的锚点采样模块的卷积层3×3卷积核上，使得该卷积层输出的锚点尽可能的分开。如图8a所示，在第一种卷积运算参数下，像素(0，0)对应的锚点m1至m3分散比较均匀，满足空间稀疏约束条件，如图8b所示，在第二种卷积运算参数下，像素(0，0)对应的锚点m1至m3分散比较集中，不满足空间稀疏约束条件，则将卷积层的运算参数优选为第一种卷积运算参数。

306：训练服务器12b使用所述测试集对初步训练后的图像场景识别模型进行测试调整，得到训练后的图像场景识别模型。

针对训练图像的处理，在初步训练和测试调整的过程中是相同，本步骤一并描述。

如图7a所示，本申请提供的识别模型的输入是一幅任意大小的图片，模型的训练需要固定大小的数据，因此首先将任意大小的图片改变尺寸为256×256，然后从中随机裁剪出一幅224×224像素大小的区域，得到目标图像的图像特征(H×W×C)，其中H为图像特征的高度值，W为图像特征的宽度值，C为图像特征的维度值，在没有进入识别模型时，维度C与像素内子像素的种类相同，维度C一般为3；以像素点的亮度值包括红色子像素的亮度值、绿色子像素的亮度值以及蓝色子像素的亮度值为例，在没有进入识别模型时，维度C为3，在第一维度，像素的特征值为红色子像素的亮度值，在第二维度，像素的特征值为绿色子像素的亮度值，在第三维度，像素的特征值为蓝色子像素的亮度值；即在识别模型外部，输入图片的图像特征大小一般为224×224×3，其中，224、224分别代表输入图片的高和宽，3代表图片的R、G、B三通道。

图7b展示了如何将快速全局注意力模块加入到残差网络基础模块中，在残差网络支路的卷积层之前加入这一模块，快速全局注意力模块的结构如图7c所示，图7c中的点代表逐元素点乘。

在识别模型内部，假设目标图像的图像特征X的维度为(H×W×C)，其中H、W分别代表特征的空间大小(注意H×W在识别模型内部一般比输入图像的尺寸224×224要小)，C代表特征的维度(C在识别模型内部一般比较大，C远大于3)。

在图7c中，卷积核θ、φ、g代表3个不同的卷积层，这三个卷积层的目的是把图像特征X的维度进行降维，以降低计算复杂度，降维的比率为r，r一般设置为16。经过降维后，特征的大小从H×W×C，变成：H×W×C/r，即：

θ(X)∈R^H×W×C/r

φ(X)∈R^H×W×c/r

g(X)∈R^H×W×c/r

之后对于空间位置中的每一个像素点(i，j)，(0≤i＜H，0≤j＜W)，其特征维度经过降维之后为C/r。

然后针对像素点(i，j)特征的每一个维度c(0≤c＜C/r)，使用锚点采样模块E产生K个锚点，代表与原始像素点(i，j)联系最为紧密的K个点(相似度最大)。由于特征总共C/r个维度，所以对于一个像素点(i，j)，共产生K×C/r个锚点。

锚点采样模块E分别作用于φ(X)、g(X)，产生两个输出Anchor_φ与Anchor_g。由于φ(X)、g(X)在空间上共H×W个像素点，每个像素点产生K×C/r个锚点，因此Anchor_φ与Anchor_g的维度大小为H×W×K×C/r，其中：

Anchor_φ＝E(φ(X))∈R^H×W×K×C/r

Anchor_g＝E(g(X))∈R^H×W×K×C/r

其中，E代表锚点采样模块，Anchor_φ与Anchor_g分别表示锚点采样模块作用于φ(X)、g(X)的输出特征。H、W代表特征空间大小，C/r代表降维后的特征大小，K代表锚点个数。

之后，计算每个像素点(i，j)与其对应的K个锚点之间的相似程度。相似度计算时，使用的像素点特征为θ(X)∈R^H×W×C/r，使用的锚点特征为Anchor_φ。

相似度计算的公式为：

其中，(i，j)代表空间中第(i，j)个像素点，k代表第k个锚点，c代表特征的第c个维度。

之后用softmax(归一化指数)函数，将对于同一个像素点(i，j)的k个锚点进行归一化，要求K个锚点与像素点(i，j)的相似度的和为1，这一过程的公式化表示为：

其中，exp代表指数函数。

得到像素点(i，j)与其K个锚点的相似度f(i，j，k)之后，将像素点的特征转化为K个锚点特征的加权求和特征。在加权求和的过程中，权重为相似度f(i，j，k)，使用的锚点特征为Anchor_g。这一过程的公式化表示为：

其中，(i，j)代表空间位置，k代表第k个锚点，c代表特征的第c个维度

得到加权特征之后，我们使用一个额外的1×1卷积，作用于特征

将其特征维度重新恢复为C，使加权特征的大小与原始输入特征X一致。最终，整个模块的输出由原始特征X和加权求和特征相加得到。

针对锚点采样模块，如图7d所示，对于φ、g特征的任意一个像素点(i，j)，网络自动学习到k个与点(i，j)联系紧密的锚点位置，并且使用双线性插值等方式，得到位于这些锚点位置的φ、g的特征值。

由于锚点采样模块同时需要图片的全局信息以及像素点(i，j)附近的局部信息。因此，首先使用池化层(Avg Pooling)的策略基于φ、g输出的特征得到的待识别图像的图像特征，然后经过全连接层(fully conn)对图像特征进行转换，得到全局信息，之后经过扩展层(expand)得到每个像素对应的全局信息，同时使用拼接层(concat)将这一信息(像素对应的全局信息)与原始的φ、g特征拼接之后，得到混合特征。然后这一混合特征经过一个3×3卷积核之后，得到一个维度为H×W×2k的向量，其中2k代表对于一个像素点(i，j)，产生K个锚点位置，每个锚点位置相对于原始像素点(i，j)位置的水平偏置和垂直偏置。根据这k个锚点的位置偏置，使用双线性差值，即可得到每个锚点在原始φ、g特征上的值。通过图7d的模型，针对每一个原始像素点(i，j)，锚点采样模块就可以得到新的位于k个锚点位置的特征值。后续使用这k个锚点的特征值计算相似度。

例如，在一种实施例中，特征φ(X)、g(X)的维度是H×W×C/r，池化层的操作是在空间层面，对φ(X)、g(X)的H×W个像素点的特征值求平均，得到维度为1×C/r的特征。全连接层本质上是一个矩阵变化，将1×M维的特征，投影到1×N维特征，从一个空间投影到另一个空间，在本申请中，由于原来的φ(X)、g(X)特征更多关注局部信息，虽然用平均操作汇总了起来，但这一平均值对于全局信息的建模并不是很好，因此使用一个全连接层进行特征空间变化，将它投影到另一个维度为C/r的特征空间，在这一空间中建模全局特征1×C/r。之后的expand操作就是直接将全局特征1×C/r在空间层面复制H×W次，得到H×W×C/r维度的全局特征，相当于空间中每一个像素点，公用同样的全局特征。之后，将这一全局特征和原始的φ(X)、g(X)特征进行拼接(concat)，得到了H×W×2C/r维特征。最后使用一个3×3卷积作用于这一拼接特征，得到K个锚点的位置，具体的，每个锚点在空间上有横、纵坐标，所以总共输出2K个值，代表每个像素(i，j)的K个锚点相对于空间像素点(i，j)在横纵坐标的偏置值，根据这个偏置值以及每个像素(i，j)的空间位置可以得到各像素对应锚点的位置。

在一种实施例，如图8a所示，针对锚点m1，其相关的像素点为(2，0)、(3，0)、(2，1)、(3，1)，基于这4个像素点的特征参数，可以使得双线性差值方式计算得到锚点m1的特征参数。

307：训练服务器12b发送训练后的图像场景识别模型到识别服务器。

在一种实施例中，训练服务器完成训练之后，将训练后的图像场景识别模型发送到识别服务器，识别服务器可以进行后续的图像场景识别。

在本实施例中，训练服务器12b基于计算机视觉技术完成了模型的训练。

图4是本申请实施例提供的图像场景识别方法的第三种流程示意图，请参阅图4，该图像场景识别方法包括以下步骤：

本实施例主要是针对图像识别进行描述。

401：用户上传需要识别的图像。

在一种实施例中，用户在需要根据某张图像获取相同场景下的其他图片等需求场景下，向识别服务器发送识别请求，识别请求携带需要识别的待识别图像。

402：识别服务器进行图像场景的识别。

本步骤的具体实现方式，参见图3所示实施例内对图7a至图7d的描述。

403：识别服务器12a向终端返回识别结果。

在一种实施例中，识别服务器将图像场景的识别结果返回给终端，供终端展示给用户。

在本实施例中，识别服务器12a先获取待识别图像中目标图像的图像特征，使用训练后的锚点采样模型根据所述目标图像中各像素的图像特征，确定所述目标图像中各像素对应锚点的图像特征，使用训练后的快速全局注意力机制模型，根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，确定所述目标图像中各像素的全局信息参数，根据所述目标图像中各像素的图像特征以及全局信息参数，对所述待识别图像进行场景类别预测得到所述待识别图像的场景识别结果，在提高了图像场景识别的准确性的同时，也加快了识别速度。

相应的，图5是本申请实施例提供的图像场景识别装置的结构示意图，请参阅图5，该图像场景识别装置包括以下模块：

训练模块501，用于进行模型训练，以得到训练后的模型；

获取模块502，用于获取待识别图像中目标图像的图像特征；

锚点模块503，用于对所述目标图像的图像特征进行处理，得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，得到所述目标图像中各像素对应锚点的图像特征，各像素对应锚点的数量小于所述目标图像中像素的数量；

全局注意力模块504，用于根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，得到所述目标图像中各像素的全局信息参数；

识别模块505，用于根据所述目标图像中各像素的图像特征以及全局信息参数，对所述待识别图像进行场景类别预测得到所述待识别图像的场景识别结果。

在一种实施例中，训练模块501用于：构建初始的图像场景识别模型，所述图像场景识别模型包括由残差网络组成的基础单元，所述基础单元包括快速全局注意力机制模型，所述快速全局注意力机制模型包括锚点采样模型；获取场景图像集，并将所述场景图像集划分为训练集和测试集；所述场景图像集包括多个已标注图像场景类型的场景图像；使用所述训练集对所述初始的图像场景识别模型进行初步训练，得到初步训练后的图像场景识别模型；使用所述测试集对初步训练后的图像场景识别模型进行测试调整，得到训练后的图像场景识别模型。

在一种实施例中，训练模块501用于：构建空间稀疏约束条件；使用所述空间稀疏约束条件对所述锚点采样模型的锚点定位层进行空间稀疏约束；在所述空间稀疏约束的基础上，使用所述场景图像集对所述初始的图像场景识别模型进行初步训练和测试调整。

在一种实施例中，锚点模块503用于：获取训练后的锚点采样模型，所述锚点采样模型包括锚点定位层和数据提取层；使用所述训练后的锚点采样模型中的锚点定位层，对所述目标图像的图像特征进行处理得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，确定所述目标图像中各像素对应锚点的位置参数；使用所述训练后的锚点采样模型中的数据提取层，根据所述各像素对应锚点的位置参数以及所述目标图像的图像特征，确定所述各像素对应锚点的图像特征。

在一种实施例中，锚点模块503用于：使用所述锚点定位层中的池化层，处理各像素的图像特征得到所述目标图像在第一空间内的全局特征；使用所述锚点定位层中的全连接层，对所述目标图像在第一空间内的全局特征进行变换，得到所述目标图像在第二空间内的全局特征，并确定为所述目标图像的全局特征；使用所述锚点定位层中的扩展层，处理所述目标图像的全局特征得到所述目标图像内各像素的全局特征；使用所述锚点定位层中的拼接层，拼接所述目标图像内各像素的全局特征以及图像特征，得到所述目标图像内各像素的综合特征；使用所述锚点定位层中的卷积层，基于设置的锚点数量处理各像素的综合特征，得到各像素对应锚点的位置参数。

在一种实施例中，锚点模块503用于：使用所述数据提取层，基于所述各像素对应锚点的位置参数确定与所述各像素对应锚点在空间位置上满足预设关系的多个参考像素的图像特征，并处理各锚点对应的多个参考像素的图像特征得到所述各像素对应锚点的图像特征。

在一种实施例中，锚点模块503用于：通过双线性差值方式，对各锚点对应的多个参考像素的图像特征进行处理得到所述各像素对应锚点的图像特征。

在一种实施例中，全局注意力模块504用于：使用训练后的快速全局注意力机制模型，根据所述各像素的图像特征以及各像素对应锚点的图像特征，确定各像素与各像素对应锚点之间的相似度；根据各像素与各像素对应锚点之间的相似度、以及各像素的图像特征，确定所述各像素的全局信息参数。

相应的，本申请实施例还提供一种计算机设备，该计算机设备包括服务器或者终端等。

如图6所示，该计算机设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

计算机设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。音频电路606包括扬声器，传声器可提供用户与计算机设备之间的音频接口。

WiFi属于短距离无线传输技术，计算机设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607，但是可以理解的是，其并不属于计算机设备的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器608是计算机设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行计算机设备的各种功能和处理数据，从而对手机进行整体监控。

计算机设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，计算机设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，计算机设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现以下功能：

获取待识别图像中目标图像的图像特征；

在一种实施例中，实现功能：

获取训练后的锚点采样模型，所述锚点采样模型包括锚点定位层和数据提取层；

使用所述训练后的锚点采样模型中的数据提取层，根据所述各像素对应锚点的位置参数以及所述目标图像的图像特征，确定所述各像素对应锚点的图像特征。

在一种实施例中，实现功能：

使用所述锚点定位层中的池化层，处理各像素的图像特征得到所述目标图像在第一空间内的全局特征；

使用所述锚点定位层中的全连接层，对所述目标图像在第一空间内的全局特征进行变换，得到所述目标图像在第二空间内的全局特征，并确定为所述目标图像的全局特征；

使用所述锚点定位层中的扩展层，处理所述目标图像的全局特征得到所述目标图像内各像素的全局特征；

使用所述锚点定位层中的拼接层，拼接所述目标图像内各像素的全局特征以及图像特征，得到所述目标图像内各像素的综合特征；

使用所述锚点定位层中的卷积层，基于设置的锚点数量处理各像素的综合特征，得到各像素对应锚点的位置参数。

在一种实施例中，实现功能：

使用所述数据提取层，基于所述各像素对应锚点的位置参数确定与所述各像素对应锚点在空间位置上满足预设关系的多个参考像素的图像特征，并处理各锚点对应的多个参考像素的图像特征得到所述各像素对应锚点的图像特征。

在一种实施例中，实现功能：

通过双线性差值方式，对各锚点对应的多个参考像素的图像特征进行处理得到所述各像素对应锚点的图像特征。

在一种实施例中，实现功能：

使用训练后的快速全局注意力机制模型，根据所述各像素的图像特征以及各像素对应锚点的图像特征，确定各像素与各像素对应锚点之间的相似度；根据各像素与各像素对应锚点之间的相似度、以及各像素的图像特征，确定所述各像素的全局信息参数。

在一种实施例中，实现功能：

构建初始的图像场景识别模型，所述图像场景识别模型包括由残差网络组成的基础单元，所述基础单元包括快速全局注意力机制模型，所述快速全局注意力机制模型包括锚点采样模型；

获取场景图像集，并将所述场景图像集划分为训练集和测试集；所述场景图像集包括多个已标注图像场景类型的场景图像；

使用所述训练集对所述初始的图像场景识别模型进行初步训练，得到初步训练后的图像场景识别模型；

使用所述测试集对初步训练后的图像场景识别模型进行测试调整，得到训练后的图像场景识别模型。

在一种实施例中，实现功能：

构建空间稀疏约束条件；

使用所述空间稀疏约束条件对所述锚点采样模型的锚点定位层进行空间稀疏约束；

在所述空间稀疏约束的基础上，使用所述场景图像集对所述初始的图像场景识别模型进行初步训练和测试调整。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以实现以下功能：

获取待识别图像中目标图像的图像特征；

在一种实施例中，实现功能：

构建空间稀疏约束条件；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像场景识别方法及装置、计算机设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像场景识别方法，其特征在于，包括：

获取待识别图像中目标图像的图像特征；

2.根据权利要求1所述的图像场景识别方法，其特征在于，所述对所述目标图像的图像特征进行处理，得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，得到所述目标图像中各像素对应锚点的图像特征的步骤，包括：

3.根据权利要求2所述的图像场景识别方法，其特征在于，所述使用所述训练后的锚点采样模型中的锚点定位层，对所述目标图像的图像特征进行处理得到所述目标图像的全局特征，并处理所述目标图像的图像特征以及所述全局特征，确定所述目标图像中各像素对应锚点的位置参数的步骤，包括：

4.根据权利要求2所述的图像场景识别方法，其特征在于，所述使用所述训练后的锚点采样模型中的数据提取层，根据所述各像素对应锚点的位置参数以及所述目标图像的图像特征，确定所述各像素对应锚点的图像特征的步骤，包括：

5.根据权利要求4所述的图像场景识别方法，其特征在于，所述处理各锚点对应的多个参考像素的图像特征得到所述各像素对应锚点的图像特征的步骤，包括：

6.根据权利要求1所述的图像场景识别方法，其特征在于，所述根据所述目标图像中各像素的图像特征以及各像素对应锚点的图像特征，得到所述目标图像中各像素的全局信息参数的步骤，包括：

7.根据权利要求1至6任一项所述的图像场景识别方法，其特征在于，还包括：

8.根据权利要求7所述的图像场景识别方法，其特征在于，在构建初始的图像场景识别模型的步骤之后，还包括：

构建空间稀疏约束条件；

9.一种图像场景识别装置，其特征在于，包括：

获取模块，用于获取待识别图像中目标图像的图像特征；

10.一种计算机设备，其包括存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行程序时实现如权利要求1至8任一项所述的图像场景识别方法中的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的图像场景识别方法中的步骤。