CN111144484A

CN111144484A - 一种图像识别方法及装置

Info

Publication number: CN111144484A
Application number: CN201911370722.5A
Authority: CN
Inventors: 黄泽元
Original assignee: Shenzhen Jizhi Digital Technology Co Ltd
Current assignee: Shenzhen Jizhi Digital Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12
Anticipated expiration: 2039-12-26
Also published as: CN111144484B

Abstract

本申请实施例提供了一种图像识别方法及装置，对待识别图像进行卷积处理，可以得到多个不同尺寸的第一特征图，对第一特征图进行上采样处理，并进行多个第一特征图之间的特征融合，可以得到多个不同尺寸的第二特征图，基于第二特征图可以得到待识别图像的分类结果。本申请实施例中，不同尺寸的第一特征图可以包括待识别图像中的不同特征，而通常来说大尺寸的特征图包括全局信息，而小尺寸的特征图体现局部信息，第二特征图融合了不同尺寸的特征图，兼具全局信息和局部信息，具有更全面的特征，因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面，因此，提高了图像识别的准确性。

Description

一种图像识别方法及装置

技术领域

本发明涉及计算机领域，特别是涉及一种图像识别方法及装置。

背景技术

目前，可以对图像进行识别，得到图像中的目标对象的特征，具体的，可以构建实现分类任务的神经网络，从而利用神经网络进行特征提取、类别分类以及物体框回归。现有技术中以残差网络(Residual Network，ResNet)作为神经网络的骨干网络进行特征提取，然而这种神经网络对图像的识别有时不够准确，尤其是在目标对象具有一定的遮挡或者特征较少的情况下，往往不能有效识别出目标对象。

发明内容

为解决上述技术问题，本申请实施例提供一种图像识别方法及装置，提高图像识别的准确性。

本申请实施例提供了一种图像识别方法，包括：

对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图；

对所述第一特征图进行上采样处理，并进行多个所述第一特征图之间的特征融合，得到多个不同尺寸的第二特征图；

基于所述第二特征图得到所述待识别图像的分类结果。

可选的，所述对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图，包括：

利用残差网络和/或特征金字塔对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图。

可选的，所述利用残差网络和/或特征金字塔对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图，包括：

利用残差网络和/或特征金字塔对待识别图像进行卷积处理，得到多个不同尺寸的初始特征图；

分别对各个所述初始特征图进行卷积处理和上采样处理，得到与各个所述初始特征图对应的第一特征图。

可选的，具有目标尺寸的第二特征图可以通过以下方式得到：

对小于所述目标尺寸的至少一个其他尺寸的第一特征图进行上采样，得到所述其他尺寸的第一特征图对应的上采样特征图，所述上采样特征图具有目标尺寸；

对具有所述目标尺寸的第一特征图以及所述上采样特征图进行融合，得到具有所述目标尺寸的第二特征图。

可选的，所述基于所述第二特征图得到所述待识别图像的分类结果，包括：

对所述第二特征图进行处理，得到所述待识别图像中的目标对象对应的多个物体框；

利用非极大值抑制的方法对所述多个物体框进行筛选，得到所述待识别图像的分类结果。

可选的，所述利用非极大值抑制的方法对所述多个物体框进行筛选，得到所述待识别图像的分类结果，包括：

利用非极大值抑制的方法对所述多个物体框进行筛选，得到所述待识别图像中的目标对象对应的目标框；

将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中，得到所述神经网络输出的多个目标框中的目标图像之间的相似度；

基于所述相似度对所述目标框进行筛选，得到所述待识别图像的分类结果。

本申请实施例提供了一种图像识别装置，包括：

第一特征图获取单元，用于对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图；

第二特征图获取单元，用于对所述第一特征图进行上采样处理，并进行多个所述第一特征图之间的特征融合，得到多个不同尺寸的第二特征图；

分类结果获取单元，用于基于所述第二特征图得到所述待识别图像的分类结果。

可选的，所述第一特征图获取单元，包括：

第一特征图获取子单元，用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图。

可选的，所述第一特征图获取子单元，包括：

初始特征图获取单元，用于利用残差网络和/或特征金字塔对待识别图像进行卷积处理，得到多个不同尺寸的初始特征图；

处理单元，用于分别对各个所述初始特征图进行卷积处理和上采样处理，得到与各个所述初始特征图对应的第一特征图。

可选的，所述分类结果获取单元，包括：

物体框获取单元，用于对所述第二特征图进行处理，得到所述待识别图像中的目标对象对应的多个物体框；

筛选单元，用于利用非极大值抑制的方法对所述多个物体框进行筛选，得到所述待识别图像的分类结果。

可选的，所述筛选单元，包括：

第一筛选子单元，用于利用非极大值抑制的方法对所述多个物体框进行筛选，得到所述待识别图像中的目标对象对应的目标框；

相似度获取单元，用于将所述待识别图像中的目标对象对应的目标框输入完成训练的神经网络中，得到所述神经网络输出的多个目标框中的目标图像之间的相似度；

第二筛选子单元，用于基于所述相似度对所述目标框进行筛选，得到所述待识别图像的分类结果。

本申请实施例提供了一种图像识别方法及装置，对待识别图像进行卷积处理，可以得到多个不同尺寸的第一特征图，对第一特征图进行上采样处理，并进行多个第一特征图之间的特征融合，可以得到多个不同尺寸的第二特征图，基于第二特征图可以得到待识别图像的分类结果。本申请实施例中，不同尺寸的第一特征图可以包括待识别图像中的不同特征，而通常来说大尺寸的特征图包括全局信息，而小尺寸的特征图体现局部信息，在将第一特征图进行上采样处理后，可以跨越第一特征图的尺寸不同的障碍，而对这些第一特征图进行特征融合，从而得到多个不同尺寸的第二特征图，第二特征图融合了不同尺寸的特征图，兼具全局信息和局部信息，具有更全面的特征，因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面，因此，提高了图像识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像识别方法的流程图；

图2为本申请实施例提供的一种图像识别装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，可以对图像进行识别，得到图像中的目标对象的特征，具体的，可以构建实现分类任务的神经网络，从而利用神经网络进行特征提取、类别分类以及物体框回归。现有技术中，可以以残差网络作为神经网络的骨干网络进行特征提取，然而这种神经网络对图像的识别往往更加注重图像的全局信息，导致在对图像识别的过程中有不准确的可能性，尤其是在目标对象具有一定的遮挡或者特征较少的情况下，往往不能有效识别出目标对象。

举例来说，在会议室中会有识别参会人员的需求，然而，会议室中存在桌子椅子的遮挡，在与摄像头距离较远的位置参会人员的特征较少，而在重度遮挡的位置，参会人员的特征也较少，此时若神经网络对图像的特征提取缺乏局部信息，会导致这些参会人员不能被识别出，因此不能满足该场景下的实际需求。

基于此，本申请实施例提供了一种图像识别方法及装置，对待识别图像进行卷积处理，可以得到多个不同尺寸的第一特征图，对第一特征图进行上采样处理，并进行多个第一特征图之间的特征融合，可以得到多个不同尺寸的第二特征图，基于第二特征图可以得到待识别图像的分类结果。本申请实施例中，不同尺寸的第一特征图可以包括待识别图像中的不同特征，而通常来说大尺寸的特征图包括全局信息，而小尺寸的特征图体现局部信息，在将第一特征图进行上采样处理后，可以跨越第一特征图的尺寸不同的障碍，而对这些第一特征图进行特征融合，从而得到多个不同尺寸的第二特征图，第二特征图融合了不同尺寸的特征图，兼具全局信息和局部信息，具有更全面的特征，因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面，因此，提高了图像识别的准确性。

下面结合附图，通过实施例来详细说明本申请实施例提供的一种图像识别方法及装置的具体实现方式。

参考图1所示为本申请实施例提供的一种图像识别方法的流程图，可以包括以下步骤。

S101，对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图。

待识别图像中可以包括目标对象，目标对象具有一定的特征，本申请实施例中，可以从待识别图像中识别出目标对象，识别出的目标对象可以通过物体框标识，物体框可以在形成于目标对象的外围，也可以只包围目标对象的关键特征。

为了对待识别图像进行识别，可以先对待识别图像进行特征提取，得到多个不同尺寸的第一特征图。具体的，对待识别图像进行特征提取，可以通过对待识别图像进行卷积处理生成特征图来实现，具体实施时，可以利用残差网络和/或特征金字塔对待识别图像进行卷积处理，从而得到多个而不同尺寸的第一特征图。其中，残差网络和特征金字塔预先经过训练。

具体实施时，为了使特征图获得更深层次的语义，还可以在利用残差网络和/或特征金字塔对待识别图像进行卷积处理得到初始特征图后，继续对各个初始特征图进行卷积处理和上采样处理，从而得到各个初始特征图对应的第一特征图。

举例来说，待识别图像p1的尺寸可以为(1024,1024)，利用残差网络和/或特征金字塔可以得到尺寸为(256,256)的初始特征图p2、尺寸为(128,128)的初始特征图p3、尺寸为(64,64)的初始特征图p4、尺寸为(32,32)的初始特征图p5以及尺寸为(16,16)的初始特征图p6。

以初始特征图p6为例，可以对初始特征图p6进行卷积处理以及上采样处理，得到尺寸与初始特征图p6的尺寸一致的第一特征图。具体的，可以对初始特征图p6进行4次3*3，步长(stride)为2的卷积处理，每次卷积处理后，初始特征图p6的尺寸缩小一倍，4次卷积处理后得到的初始特征图p6的尺寸为1*1，之后，可以再对初始特征图p6进行4次3*3，步长为1的上采样处理，每次上采样处理后，初始特征图p6的尺寸增大一倍，则4次上采样处理后得到的第一特征图p6’和初始特征图p6的尺寸一致。

分别对初始特征图p2、p3、p4、p5、p6进行卷积处理和上采样处理，可以得到第一特征图p2’、p3’、p4’、p5’、p6’。

当然，对于初始特征图进行的卷积处理和上采样处理的次数，本领域技术人员可以根据实际情况确定，可以理解的是，为了使第一特征图和初始特征图的尺寸一致，可以使卷积处理和上采样处理的次数一致，而在第一特征图和初始特征图的尺寸可以不一致的情况下，卷积处理和上采样处理的次数可以不一致。

通过对初始特征图进行卷积处理和上采样处理，可以使最终的第一特征图具有更加丰富的语义信息，更加有利于提取全面的图像特征。以上的卷积处理和上采样处理，可以通过程序实现，也可以通过功能模块实现，而程序和功能模块中的参数可以预先训练得到。

S102，对第一特征图进行上采样处理，并进行多个第一特征图之间的特征融合，得到多个不同尺寸的第二特征图。

在本申请实施例中，可以对不同尺寸的第一特征图之间进行特征融合，然而不同尺寸的第一特征图之间的特征融合存在尺寸不同的障碍，因此可以对小尺寸的第一特征图进行上采样处理，使上采样处理后的上采样特征图具有较大的尺寸，因此可以和较大尺寸的第一特征图进行特征融合。

具体的，对于具有目标尺寸的第二特征图，可以通过以下方式得到：对小于目标尺寸的至少一个其他尺寸的第一特征图进行上采样，得到第一特征图对应的上采样特征图，上采样特征图具有目标尺寸，对具有目标尺寸的第一特征图以及上采样特征图进行特征融合，得到具有目标尺寸的第二特征图。特征融合的方式可以是像素点对应加权相加等方式。

作为一种示例，可以将目标尺寸的第一特征图与小于目标尺寸且与目标尺寸相邻的第一特征图进行特征融合。以第一特征图p6’为例，其尺寸为(16,16)，因此，可以对第一特征图进行上采样得到p6”，p6”的尺寸为(32,32)，与p5’的尺寸一致，因此可以将p6”和p5’进行特征融合，得到与p5’的尺寸一致的第二特征图p5+；当然，对p5’也可以进行上采样得到p5”，p5”的尺寸为(64,64)，与p4’的尺寸一致，则可以将p5”和p4’进行特征融合，得到与p4’的尺寸一致的第二特征图p4+；依次类推，可以得到第二特征图p6’、p5+、p4+、p3+、p2+和p1+。

这样，第二特征图p5+是融合了第一特征图p6’和p5’得到的，第二特征图p4+是融合了第一特征图p5’和p4’得到的，第二特征图p3+融合了第一特征图p4’和p3’得到的，第二特征图p2+是融合了第一特征图p3’和p2’得到的，第二特征图p1+是融合了第一特征图p2’和p1’得到的，因此实现了不同尺寸的特征图的特征融合。

作为另一种示例，可以将目标尺寸的第一特征图与小于目标尺寸的多个第一特征图进行特征融合。例如，可以对第一特征图p6’进行两次上采样，对第一特征图p5’进行一个上采样，将p6’对应的上采样特征图像、p5’对应的上采样特征图像以及p4’进行特征融合，可以得到p4’对应的第二特征图，以此类推。

作为又一种示例，可以将目标尺寸的第一特征图与小于目标尺寸且与目标尺寸相邻的第一特征图进行特征融合，得到第一融合图像，目标尺寸的第一特征图与大于目标尺寸且与目标尺寸相邻的第一特征图进行融合，得到第二融合图像，实现了特征的一次堆叠；将第一融合图像和第二融合图像进行融合，实现了特征的第二次堆叠。以此类推，最终得到的融合图像可以作为第二特征图，而此时的第二特征图融合了较多个第一特征图。在实际处理中，3次堆叠可以满足精度需求，同时节省一定的时间。

例如，将第一特征图p6’进行上采样，并与p5’进行融合，得到p5+，而第一特征图p5’进行上采样，并与p4’进行融合，得到p4+，实现特征的第一次堆叠；之后，将p5+进行上采样并与p4+进行融合，得到p4++，实现了特征的第二次堆叠。

S103，基于第二特征图得到待识别图像的分类结果。

在本申请实施例中，第二特征图是融合了多个尺寸的第一特征图之后得到的，由于不同尺寸的特征图中的特征不同，因此第二特征图融合不同特征，事实上，大尺寸的特征图主要体现全局信息，而小尺寸的特征图主要体现局部信息，将不同尺寸的第一特征图进行融合，可以在体现全局信息的同时，不会忽略局部信息，因此第二特征图具有较全面的特征信息，基于第二特征图得到的待识别图像的分类结果也更准确。

具体的，可以前述获取第二特征图的模型结果引入双阶段检测的框架，这样可以基于第二特征图进行候选区域提取(region proposal network，RPN)，以及感兴趣区域池化(Region of interest pooling，Rol Pooling)和分类与回归，从而得到待识别图像的分类结果。

在对第二特征图进行处理后，可以得到待识别图像中的目标对象对应的多个物体框，作为待识别图像的初始分类结果，这些物体框中，可能有多个物体框表征同一目标对象，因此可以利用非极大值抑制(Non-Maximum Suppression，NMS)的方法对多个物体框进行筛选，从而去除多余的物体框，得到待识别图像的分类结果。非极大值抑制考虑了多个物体框之间的交并比(Intersection over Union，IoU)。

然而，在目标对象被物体隔断的场景下，采用非极大值抑制的方法并不能判断两个框中的目标对象是否为同一个目标对象。

因此，本申请实施例中，还可以在得到物体框后，将待识别图像中的目标对象对应的物体框输入完成训练的神经网络中，得到神经网络输出的各个物体框中的图像之间的相似度，进而根据物体框中的图像的相似度对物体框进行筛选，通常来说，相似度越高，二者表征同一目标对象的可能性越高，可以选择其中之一，从而去除重框。

本申请实施例中，还可以在利用非极大值抑制的方法对多个物体框进行筛选得到待识别图像中的目标对象对应的目标框后，将待识别图像中的目标对象对应的目标框输入完成训练的神经网络中，得到神经网络输出的各个目标框中的图像之间的相似度，进而根据目标框中的图像的相似度对目标框进行筛选。这样，可以结合非极大值一致与神经网络筛选，节省时间的同时可以有效去除重框。此时，非极大值抑制可以设置较大的阈值，以得到较多数量的目标框，避免非极大值抑制错误的去除了物体框。

以上的神经网络可以3*3卷积层和全连接层，通过预先训练得到。

本申请实施例提供了一种图像识别方法，对待识别图像进行卷积处理，可以得到多个不同尺寸的第一特征图，对第一特征图进行上采样处理，并进行多个第一特征图之间的特征融合，可以得到多个不同尺寸的第二特征图，基于第二特征图可以得到待识别图像的分类结果。本申请实施例中，不同尺寸的第一特征图可以包括待识别图像中的不同特征，而通常来说大尺寸的特征图包括全局信息，而小尺寸的特征图体现局部信息，在将第一特征图进行上采样处理后，可以跨越第一特征图的尺寸不同的障碍，而对这些第一特征图进行特征融合，从而得到多个不同尺寸的第二特征图，第二特征图融合了不同尺寸的特征图，兼具全局信息和局部信息，具有更全面的特征，因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面，因此，提高了图像识别的准确性。

基于以上一种图像识别方法，本申请实施例还提供了一种图像识别装置，参考图2所示，为本申请实施例提供的一种图像识别装置的结构框图，所述装置包括：

第一特征图获取单元110，用于对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图；

第二特征图获取单元120，用于对所述第一特征图进行上采样处理，并进行多个所述第一特征图之间的特征融合，得到多个不同尺寸的第二特征图；

分类结果获取单元130，用于基于所述第二特征图得到所述待识别图像的分类结果。

可选的，所述第一特征图获取单元，包括：

可选的，所述第一特征图获取子单元，包括：

可选的，所述分类结果获取单元，包括：

可选的，所述筛选单元，包括：

本申请实施例提供了一种图像识别装置，对待识别图像进行卷积处理，可以得到多个不同尺寸的第一特征图，对第一特征图进行上采样处理，并进行多个第一特征图之间的特征融合，可以得到多个不同尺寸的第二特征图，基于第二特征图可以得到待识别图像的分类结果。本申请实施例中，不同尺寸的第一特征图可以包括待识别图像中的不同特征，而通常来说大尺寸的特征图包括全局信息，而小尺寸的特征图体现局部信息，在将第一特征图进行上采样处理后，可以跨越第一特征图的尺寸不同的障碍，而对这些第一特征图进行特征融合，从而得到多个不同尺寸的第二特征图，第二特征图融合了不同尺寸的特征图，兼具全局信息和局部信息，具有更全面的特征，因此基于第二特征图得到的待识别图像的分类结果也更加准确和全面，因此，提高了图像识别的准确性。

本申请实施例中提到的“第一……”、“第一……”等名称中的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的优选实施方式，并非用于限定本申请的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

基于所述第二特征图得到所述待识别图像的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用残差网络和/或特征金字塔对待识别图像进行卷积处理，得到多个不同尺寸的第一特征图，包括：

4.根据权利要求1所述的方法，其特征在于，具有目标尺寸的第二特征图可以通过以下方式得到：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述基于所述第二特征图得到所述待识别图像的分类结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用非极大值抑制的方法对所述多个物体框进行筛选，得到所述待识别图像的分类结果，包括：

7.一种图像识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一特征图获取单元，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一特征图获取子单元，包括：

10.根据权利要求7所述的装置，其特征在于，具有目标尺寸的第二特征图可以通过以下方式得到：

11.根据权利要求7-10任意一项所述的装置，其特征在于，所述分类结果获取单元，包括：

12.根据权利要求11所述的装置，其特征在于，所述筛选单元，包括：