CN112668582A

CN112668582A - 图像识别方法、装置、设备和存储介质

Info

Publication number: CN112668582A
Application number: CN202011624446.3A
Authority: CN
Inventors: 熊鹏飞; 肖坤涛
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-16
Anticipated expiration: 2040-12-31
Also published as: CN112668582B

Abstract

本申请提供一种图像识别方法、装置、设备和存储介质，该方法包括：在原始图像中，定位目标对象的至少一个定位点；获取所述目标对象的每个像素点与所述定位点之间的偏移量；根据所述偏移量从所述原始图像中的各个像素点中获得对应于所述定位点的目标像素点集合；根据所述目标像素点集合识别所述原始图像中的所述目标对象。本申请实现了在很小的计算量下可以获得更加准确的识别结果。

Description

图像识别方法、装置、设备和存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种图像识别方法、装置、设备和存储介质。

背景技术

图像实例分割(image instance segmentation)是计算机视觉(computervision)的一项核心技术。随着深度学习的普及，实例分割在无人驾驶，机器人导航，手机图像编辑中都有着重要的作用。

实例分割指从图像中将每一个物体的像素点单独分割出来。不同于语义分割(Semantic Segmentation)，实例分割的难点在于要将同一类别的物体要和其他物体一一区分出来。依赖于深度学习，目前图像识别的主要做法是结合图像检测与物体分割。深度学习可以获得每个物体的候选框，候选框通常用一个矩形框的四个顶点表示。当把候选框特征扩展为一个特征图时，既可以表示为框内物体的分割结果。这类方法有两类明显的缺点。一方面需要非常复杂的网络。由于需要回归出所有候选框的分割结果，模型的计算量非常大。另一方面，分割的精度受到限制。同样受限于模型计算能力，回归的分割特征图分辨率不能太高，这使得实例分割的精度很差。

人像实例分割是图像实例分割的一个特例。在大部分的图像中，人像都是其中最重要的元素。尽管类别数有了减少，人像实例分割的精度并没有得到明显的提升。

发明内容

本申请实施例的目的在于提供一种图像识别方法、装置、设备和存储介质，实现了在识别结果的像素点与原始图像一样大的基础上，降低图像识别计算量，提高了图像识别的边缘精度。

本申请实施例第一方面提供了一种图像识别方法，包括：在原始图像中，定位目标对象的至少一个定位点；获取所述目标对象的每个像素点与所述定位点之间的偏移量；根据所述偏移量从所述原始图像中的各个像素点中获得对应于所述定位点的目标像素点集合；根据所述目标像素点集合识别所述原始图像中的所述目标对象。

于一实施例中，所述在原始图像中，定位目标对象的至少一个定位点，包括：通过定位分支模型获得所述原始图像的定位特征图；对所述定位特征图进行二值化处理，并对二值化处理后的所述定位特征图进行聚类处理，得到每个所述定位点在所述原始图像中的位置信息。

于一实施例中，所述定位特征图中对应于所述目标对象的指定部位的特征值为1-0，其中，远离所述定位点的位置的特征值趋近于0，靠近所述定位点的位置的特征值趋近于1。

于一实施例中，所述获取所述目标对象的每个像素点与所述定位点之间的偏移量，包括：基于偏移量分支模型，计算得到所述原始图像的偏移量特征图，所述偏移量特征图中包括：所述目标对象的每个像素点与所述定位点之间的相对位置偏移量。

于一实施例中，所述根据所述目标像素点集合识别所述原始图像中的所述目标对象，包括：从所述原始图像中分割出所述目标对象所在的前景图像；将所述前景图像中对应于所述定位点的所述目标像素点集合归为所述目标对象。

于一实施例中，所述从所述原始图像中分割出所述目标对象所在的前景图像，包括：采用语义和边缘分割网络从所述原始图像中分割出每个所述目标对象所在的前景图像。

于一实施例中，所述语义和边缘分割网络包括：主干网络，包括多个卷积层，用于对所述原始图像进行上采样、下采样、特征叠加中的一种或多种处理；分支网络，包括多个卷积层，用于对所述主干网络处理后的图像进行上采样、下采样、特征叠加中的一种或多种处理。

本申请实施例第二方面提供了一种图像识别装置，包括：定位模块，用于在原始图像中，定位目标对象的至少一个定位点；获取模块，用于获取所述目标对象的每个像素点与所述定位点之间的偏移量；获得模块，用于根据所述偏移量从所述原始图像中的各个像素点中获得对应于所述定位点的目标像素点集合；识别模块，用于根据所述目标像素点集合识别所述原始图像中的所述目标对象。

于一实施例中，所述定位模块用于：通过定位分支模型获得所述原始图像的定位特征图；对所述定位特征图进行二值化处理，并对二值化处理后的所述定位特征图进行聚类处理，得到每个所述定位点在所述原始图像中的位置信息。

于一实施例中，所述获取模块用于：基于偏移量分支模型，计算得到所述原始图像的偏移量特征图，所述偏移量特征图中包括：所述目标对象的每个像素点与所述定位点之间的相对位置偏移量。

于一实施例中，所述识别模块用于：从所述原始图像中分割出所述目标对象所在的前景图像；将所述前景图像中对应于所述定位点的所述目标像素点集合归为所述目标对象。

本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第一方面及其任一实施例的方法，以识别出原始图像中的目标对象。

本申请实施例第四方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。

本申请提供的图像识别方法、装置、设备和存储介质，通过对原始图像中的目标对象进行定位点定位，并计算目标对象的每个像素点与其对应的定位点之间的偏移量，然后基于该偏移量可以确定定位点在原始图像中属于哪一个定位点，进而得到原始图像中的对应于所述定位点的目标像素点集合，最后根据每个定位点的目标像素集合识别出原始图像中的所有目标对象。如此，相比于现有技术中分割技术，降低了计算量，在识别结果的像素点与原始图像一样大的基础上，提高了图像识别的边缘精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的神经网络的示意图；

图3为本申请一实施例的图像识别方法的流程示意图；

图4为本申请一实施例的图像识别方法的流程示意图；

图5A至图5F为本申请一实施例的图像识别过程的示意图；

图6为本申请一实施例的图像识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以识别出原始图像中的每个目标对象。

于一实施例中，电子设备1可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。

请参看图2，其为本申请一实施例的神经网络的示意图，可以基于神经网络结构，来实现对图像中的人像的识别，图2神经网络主要包含主干网络，主干网络可以实现语义分割分支、定位分支和偏移量分支等功能。通过借鉴语义分割网络的结构，主干网络类似于语义分割网络的特征抽取网络。可以是任意的特征网络，比如常见的ResNet(ResidualNetwork，残差网络，简称“ResNet”)，VGG模型(Visual Geometry Group Network)，GoogLeNet(谷歌(Google)研究出来的深度网络结构)等。为了实现更快的速度，可以采用一个标准的resnext网络(是ResNet和Inception的结合体)。比如该网络可以设置5层block，每一层包含若干个resnext模块。在每一层的第一个模块中，对输入的原始图像进行stride＝2的conv(卷积)操作，实现下采样。其它层stride＝1。每个resnext模块包含一个1x1的conv实现特征维度降维，一个3x3的conv抽取特征，一个1x1的conv实现特征维度升维。以及一个residual层，将原始的特征加到最终升维的特征上去。其中3x3的conv采用group操作，来减小计算量。在级联的resnext中，不同的block抽取不同细节程度的特征，为了获得图像更全局的语义关系，越深的block参数量越大。

于一实施例中，每层block的resnext数据可以分别为3，4，5，8，8。实验表明，该分布可以很好实现精度和速度的平衡。

于一实施例中，在进一步模型优化过程中，可以合并所有分支，只修改最后一层的特征，同时输出语义分割分支、定位分支和偏移量分支的结果。

上述主干网络，只需要一个标准的语义分割，不需要复杂的检测操作，而且回归得到的特征图像的像素点和原始图像一样大，因此在很小的计算量下就可以获得很准确的边缘精度。

请参看图3，其为本申请一实施例的图像识别方法，该方法可由图1所示的电子设备1来执行，并可以基于如图2所示的神经网络，识别出原始图像中的每个人像。该方法包括如下步骤：

步骤301：在原始图像中，定位目标对象的至少一个定位点。

在本步骤中，目标对象可以是人像，定位点可以是人像的指定部位的中心点，因此定位点包含但不限于：人头中心、人体重心、人脚、手等肢体部位中心、或者上述多个特征的组合。基于如图2所示的神经网络，分别对原始图像中的每个人像进行一个或多个定位点定位。目的是得到原始图像中每个人不同的标签，标签可以用来区分不的同人。

步骤302：获取目标对象的每个像素点与定位点之间的偏移量。

在本步骤中，偏移量的作用是回归出一个人像中每个像素点相对于其人头的偏移量。以单个人像的原始图像为例，定位点可以是人头中心，偏移量就是这个人像其他部位的像素点与人头中心的相对位置偏移量。。如果每个人像具有多个定位点，则分别依据上述方式计算出针对每个定位点对应的偏移量。

于一实施例中，偏移量的计算模型可以基于如图2所示的主干网络和偏移分支实现，二者构成偏移量分支模型。假设每个人像有n个定位点，则输出n维的偏移量特征图。

步骤303：根据偏移量从原始图像中的各个像素点中获得对应于定位点的目标像素点集合。

在本步骤中，为了确定原始图像中的像素点属于哪个人像，可以通过像素点与人头像之间的从属关系而定，比如定位点是人像的头部中心，则原始图像的各个像素点中，属于该人像的像素点构成的集合，就是该定位点——头部中心对应的目标像素点集合。

步骤304：根据目标像素点集合识别原始图像中的目标对象。

在本步骤中，目标像素点集合可以表征与定位点属于同一个人像的像素特征。基于目标像素点集合，以及每个定位点在原始图像上的位置信息，可以准确的把每个人像从原始图像中分割出来。

上述图像识别方法，通过对原始图像中的每个目标对象进行定位点定位，并计算原始图像中每个目标对象的其他像素点与其对应的定位点之间的偏移量，然后基于该偏移量可以确定定位点在原始图像中每个定位点的目标像素集合，最后根据每个定位点的目标像素集合识别出原始图像中的所有目标对象。

请参看图4，其为本申请一实施例的图像识别方法，该方法可由图1所示的电子设备1来执行，并可以基于如图2所示的神经网络，识别出原始图像中的每个人像。该方法包括如下步骤：

步骤401：通过定位分支模型获得原始图像的定位特征图。

在本步骤中，如图5A所示，以人头中心为定位点为例，首先在原始图像中标注人头A。如果原始图像中有多个人像，则可以分别把每个人像的定位点标注出来。然后基于标注后的定位点样本图像，训练如图2所示神经网络中的主干网络和定位分支，得到定位分支模型。将原始图像输入至定位分支模型，输出原始图像的定位特征图。

于一实施例中，定位特征图中对应于目标对象的指定部位的特征值为1-0，其中，远离定位点的位置的特征值趋近于0，靠近定位点的位置的特征值趋近于1。定位特征图当目标对象是人像时，指定部位可以是人的肢体的各个部位，因此定位特征图可以是人体重心特征图、人脚特征图、以及人头+重心的联合特征图。以回归人头位置为例。如图5B所示，人头A特征图为一张头中心位置为1往外衰减到0的特征图。当有多个人头时，每个人头中心为1往外衰减，重复的位置取两者衰减的较大值。

于一实施例中，基于主干网络，通过对特征信息上采样可以获得与原始图像相同分辨率的定位特征图。

于一实施例中，为了进一步提升人头A定位的精度，可以设置一个加权weight，比如人头A部分的loss乘以4，而其他地方保持1，这样可以实现更精确的人头A的定位，如图5C所示。

步骤402：对定位特征图进行二值化处理，并对二值化处理后的定位特征图进行聚类处理，得到每个定位点在原始图像中的位置信息。

在本步骤中，从定位得到的定位特征图中获取原始图像中的人头个数及其位置。比如先将定位特征图进行阈值二值化，然后进行邻域内的聚类操作，得到原始图像中每个人头的位置信息。

步骤403：基于偏移量分支模型，计算得到原始图像的偏移量特征图，偏移量特征图中包括：目标对象的每个像素点与定位点之间的相对位置偏移量。

在本步骤中，偏移量分支模型可以基于图2中的主干网络和偏移分支实现。以人头中心为定位点为例，偏移量分支模型可以回归出人像中每个像素点相对于人头的偏移。基于样本中标注的人像像素点，以及人头中心点位置，可以计算出每个人像所有像素点相对于其人头中心的偏移量。当每个人在定位分支模型中有多个定位点时，可以分别计算出每个像素点与每个定位点之间的位置的偏移量。

于一实施例中，当定位分支模型有n个定位点时，输出n维的定位特征图，偏移量分支模型输出n维的偏移量图。

步骤404：从原始图像中分割出目标对象所在的前景图像。

在本步骤中，可以采用语义和边缘分割网络从原始图像中分割出每个目标对象所在的前景图像。语义和边缘分割网络可以包括：主干网络和图2中的分割分支网络，主干网络包括多个卷积层，用于对原始图像进行上采样、下采样、特征叠加中的一种或多种处理。分支网络，包括多个卷积层，用于对主干网络处理后的图像进行上采样、下采样、特征叠加中的一种或多种处理。语义和边缘分割网络可以基于如图2所示的神经网络结构中的主干网络和分割分支实现，在获得了主干网络最高层的特征之后，先对特征上采样得到原始图像的语义分割结果，进而判断图像中哪些像素点是人，哪些是背景。

于一实施例中，如图5D所示，训练过程中，首先标注原始图像中的人像，生成人像的mask标签。

于一实施例中，针对图5D所示的人像，语义和边缘分割网络可以采用一个级联的上采样操作。主干网络最高层特征先进行上采样，经过一个resnext block之后，和原始主干网络上一级特征相加，得到一个组合特征，继而再经过一个resnext block，得到最终上采样之后的特征。依次重复5次，融合每一级主干网络特征，获得最终和输入图像分辨率一样大的输出特征。该输出特征经过1x1conv转化为通道数为1的单通道特征，如图5E所示，单通道特征可以经过sigmoid操作拉升到0～1之间，作为最终的分割结果，即得到了人像所在的前景图像。

于一实施例中，如图5F所示，为了进一步提升分割的精度，在分割分支中，可以增加一个额外的分支，来学习人像的边缘。其网结构也可以和分割分支的类似。在训练过程中人像的边缘标签直接通过将人像的mask标签图像经sobel变换得到。

于一实施例中，可以合并所有分支模型，只修改神经网络最后一层的特征，同时输出分割、定位和偏移量的结果。

步骤405：将前景图像中对应于定位点的目标像素点集合归为目标对象。

在本步骤中，以目标对象为人像，人头中心作为定位点为例，首先基于步骤404中的图像语义分割结果，滤除掉原始图像的背景像素点，然后将前景图像中的人像像素点进行非极大值抑制聚类，将前景图像中对应于人头中心的目标像素点集合归为人像，生成分类结果。

上述图像识别方法，分别在一个主干网络下回归出语义分割，人头特征图，相对于人头的偏移量三个部分，然后结合三部分的特征图进行聚类的后处理，一次性实现人像的实例分割。

该方法只需要一个标准的语义分割，不需要复杂的检测操作，而且回归得到的像素点和原始图像一样大，因此在很小的计算量下就可以获得很准确的边缘精度。在实际采集的一批数据集上，该方法实现了91％的MIoU(计算真实值和预测值两个集合的交集和并集之比)，以及85％的边缘MIoU，远远超过传统MaskRCNN(一个实例分割算法)的70％的MioU。而且可以在手机端实时完成，比如在一个处理器为高通855手机上，可以实现30ms的人像实例分割。

请参看图6，其为本申请一实施例的图像识别装置600，该装置应用于图1所示的电子设备1，并可以基于如图2所示的神经网络，识别出原始图像中的人像。该装置包括：定位模块601、获取模块602、获得模块603和识别模块604，定位模块601识别模块604各个模块的原理关系如下：

定位模块601，用于在原始图像中，定位目标对象的至少一个定位点。

获取模块602，用于获取目标对象的每个像素点与定位点之间的偏移量。

获得模块603，用于根据偏移量从原始图像中的各个像素点中获得对应于定位点的目标像素点集合。

识别模块604，用于根据目标像素点集合识别原始图像中的目标对象。

于一实施例中，定位模块601用于：通过定位分支模型获得原始图像的定位特征图。对定位特征图进行二值化处理，并对二值化处理后的定位特征图进行聚类处理，得到每个定位点在原始图像中的位置信息。

于一实施例中，定位特征图中对应于目标对象的指定部位的特征值为1-0，其中，远离定位点的位置的特征值趋近于0，靠近定位点的位置的特征值趋近于1。

于一实施例中，获取模块602用于：基于偏移量分支模型，计算得到原始图像的偏移量特征图，偏移量特征图中包括：目标对象的每个像素点与定位点之间的相对位置偏移量。

于一实施例中，识别模块604用于：从原始图像中分割出目标对象所在的前景图像。将前景图像中对应于定位点的目标像素点集合归为目标对象。

于一实施例中，从原始图像中分割出目标对象所在的前景图像，包括：采用语义和边缘分割网络从原始图像中分割出每个目标对象所在的前景图像。

于一实施例中，语义和边缘分割网络包括：主干网络，包括多个卷积层，用于对原始图像进行上采样、下采样、特征叠加中的一种或多种处理。分支网络，包括多个卷积层，用于对主干网络处理后的图像进行上采样、下采样、特征叠加中的一种或多种处理。

定位模块601识别模块604定位模块601定位模块601识别模块604上述图像识别装置600的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

在原始图像中，定位目标对象的至少一个定位点；

获取所述目标对象的每个像素点与所述定位点之间的偏移量；

根据所述偏移量从所述原始图像中的各个像素点中获得对应于所述定位点的目标像素点集合；

根据所述目标像素点集合识别所述原始图像中的所述目标对象。

2.根据权利要求1所述的方法，其特征在于，所述在原始图像中，定位目标对象的至少一个定位点，包括：

通过定位分支模型获得所述原始图像的定位特征图；

对所述定位特征图进行二值化处理，并对二值化处理后的所述定位特征图进行聚类处理，得到每个所述定位点在所述原始图像中的位置信息。

3.根据权利要求2所述的方法，其特征在于，所述定位特征图中对应于所述目标对象的指定部位的特征值为1-0，其中，远离所述定位点的位置的特征值趋近于0，靠近所述定位点的位置的特征值趋近于1。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述获取所述目标对象的每个像素点与所述定位点之间的偏移量，包括：

基于偏移量分支模型，计算得到所述原始图像的偏移量特征图，所述偏移量特征图中包括：所述目标对象的每个像素点与所述定位点之间的相对位置偏移量。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述目标像素点集合识别所述原始图像中的所述目标对象，包括：

从所述原始图像中分割出所述目标对象所在的前景图像；

将所述前景图像中对应于所述定位点的所述目标像素点集合归为所述目标对象。

6.根据权利要求5所述的方法，其特征在于，所述从所述原始图像中分割出所述目标对象所在的前景图像，包括：

采用语义和边缘分割网络从所述原始图像中分割出每个所述目标对象所在的前景图像。

7.根据权利要求6所述的方法，其特征在于，所述语义和边缘分割网络包括：

主干网络，包括多个卷积层，用于对所述原始图像进行上采样、下采样、特征叠加中的一种或多种处理；

分支网络，包括多个卷积层，用于对所述主干网络处理后的图像进行上采样、下采样、特征叠加中的一种或多种处理。

8.一种图像识别装置，其特征在于，包括：

定位模块，用于在原始图像中，定位目标对象的至少一个定位点；

获取模块，用于获取所述目标对象的每个像素点与所述定位点之间的偏移量；

获得模块，用于根据所述偏移量从所述原始图像中的各个像素点中获得对应于所述定位点的目标像素点集合；

识别模块，用于根据所述目标像素点集合识别所述原始图像中的所述目标对象。

9.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至7中任一项所述的方法，以识别出原始图像中的目标对象。

10.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至7中任一项所述的方法。