CN109492576B

CN109492576B - 图像识别方法、装置及电子设备

Info

Publication number: CN109492576B
Application number: CN201811321453.9A
Authority: CN
Inventors: 熊峰; 张弘楷; 李伯勋; 俞刚
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2021-06-22
Anticipated expiration: 2038-11-07
Also published as: CN109492576A

Abstract

本发明实施例提供一种图像识别方法、装置及电子设备。其中，所述图像识别方法包括：在待识别图像中生成多个初始候选框对；将所述多个初始候选框对中的内容进行分类识别，将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除；其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框，以通过第一标注框和第二标注框框选出所述待识别图像中的人像部分。

Description

图像识别方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种图像识别方法、装置及电子设备。

背景技术

行人检测在安防以及自动驾驶领域有着广泛的应用，其目的在于把行人从背景中检测出来。行人检测还是很多其他任务的基础，例如行人重识别，行人跟踪以及人体关键点检测等。但是在面临拥挤或者遮挡等复杂情况，目前行人检测系统往往效果较差。

发明内容

有鉴于此，本发明实施例的目的在于提供一种图像识别方法、装置及电子设备，能够通过将人像的指定部位与人像关联标注解决现有技术中存在的行人遮挡导致不能够检测出行人的问题。

第一方面，本发明实施例提供的一种图像识别方法，包括：

在待识别图像中生成多个初始候选框对；

将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除；

其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框，以通过第一标注框和第二标注框框选出所述待识别图像中的人像部分。

可选地，将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤，包括：

对所述多个初始候选框对中的内容进行分类识别，得到每个初始候选框对表征为人像的得分；

删除所述得分小于设定值的初始候选框对，得到一个或多个保留候选框对；

将所述保留候选框对进行修正，得到标注框对。

可选地，所述在待识别图像中生成多个初始候选框对的步骤，包括：

使用区域推荐网络模型在待识别图像中生成多对锚框对，所述锚框对作为初始候选框对；

所述将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤，包括：

使用所述区域推荐网络模型对所述多个初始候选框对中的内容进行识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除。

可选地，所述将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤，包括：

使用区域卷积神经网络模型对所述多个初始候选框对中的内容进行识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除。

使用区域推荐网络模型对所述多个初始候选框对中的内容进行识别，将识别表征为人像时，所对应的初始候选框对保存为第一部分第一标注框及第二标注框；

使用区域卷积神经网络模型对所述第一部分第一标注框及第二标注框中的内容进行识别，将识别结果表征为人像时，所述对应的第一部分第一标注框及第二标注框保存为第二部分第一标注框及第二标注框。

可选地，将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤之后，所述方法还包括：

对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理，以使所述待识别图像中的每个人像部分显示一对所述第一标注框及所述第二标注框。

可选地，所述对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理的步骤，包括：

对所述第二标注框中的人像的指定部位进行识别，以去除重复的第二标注框；

将所述重复的第二标注框对应的第一标注框去除。

可选地，所述对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理的步骤包括：

使用非极大值抑制算法对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理。

使用软化非极大值抑制算法对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理。

可选地，所述指定部位包括人头、人体中的至少一种。

第二方面，本发明实施例还提供一种图像识别装置，包括：

生成模块，用于在待识别图像中生成多个初始候选框对；

形成模块，用于将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除，其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框，以通过第一标注框和第二标注框框选出所述待识别图像中的人像部分。

第三方面，本发明实施例还提供一种电子设备，包括：存储器以及处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中读取并运行所述计算机程序，以执行上述方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

与现有技术相比，本发明实施例的图像识别方法、装置及电子设备。通过对图像进行识别，对人像和人像中的指定部位检测，可以框出人像及人像的指定部位，从而可以形成成对的标注框，从而可以更好地标识一个对象，从而实现有效地对多目标的检测，解决了行人遮挡时导致不能识别到部分被遮挡的行人问题，也提高了行人检测的精度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的方框示意图。

图2为本发明实施例提供的图像识别方法的流程图。

图3为本发明实施例提供的图像识别方法的步骤S202的详细流程图。

图4为本发明实施例提供的图像识别装置的功能模块示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

行人检测(Pedestrian Detection)是利用计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。该技术可与行人跟踪，行人重识别等技术结合，应用于人工智能系统、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通、安防等领域。而在安防、车辆辅助驾驶场景，需要更加精准的行人检测系统。基于着眼于解决行人拥挤以及遮挡情况，对于拥挤问题，主要是因为目前目标检测系统最后会通过后处理去重(后处理包括但不限于NMS，Soft NMS等)，导致会把拥挤的行人框滤掉，最终导致漏检。对于遮挡问题，主要是因为遮挡区域较大，行人特征不明显，导致最终的行人的检测分数很低，最终也会导致漏检。

本申请提出了联合行人检测方式，采用人和可见区域的联合检测解决这个问题，同时检测行人和可见区域，并提高可见区域特征的权重，进而可以提高行人的检测分数，也可以减少漏检的情况，从而可以提高了行人检测的精度。

下面通过几个实施例对本申请提供的联合行人检测方式进行详细描述。

实施例一

首先，参照图1来描述用于实现本发明实施例的图像识别方法的示例电子设备100。该示例电子设备100可以是计算机，也可以是智能手机、平板电脑等移动终端。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像识别方法、装置及系统的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理器102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集装置110分离设置。

实施例二

请参阅图2，是本发明实施例提供的图像识别方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤S201，在待识别图像中生成多个初始候选框对。

每对初始候选框对包括第一候选框及第二候选框，其中，第一候选框表示一对象主体的标注框，第二候选框表示对象主体的指定部位的标注框。例如，对象主体可以是在上述的待识别图像中显露出的人体的部分，对象主体的指定部位可以是人体的头部、五官部等。

步骤S202，将所述多个初始候选框对中的内容进行分别识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除。

具体地，当识别结果是人体、人体的指定部位时，则识别结果表征为人像。在一个实例中，一初始候选框对中的一候选框框中的内容识别为人脸，则该初始候选框对应的识别结果表征为人像。

其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框。

本实施例中，则可以通过第一标注框和第二标注框框选出所述待识别图像中的人像部分。

指定部位可以包括人头、人体中的至少一种。在一个可选的实施方式中，指定部位可以选择人头。在一个人群中，人头被挡住的概率相对腿、胳膊、身体等部位被挡住的概率更小，因此将行人检测与人头绑定检测可以避免漏检。

具体地，如图3所示，步骤S202可以包括步骤S2021至步骤S2023，具体描述如下。

步骤S2021，对所述多个初始候选框对中的内容进行分类识别，得到每个初始候选框对表征为人像的得分。

其中，得分越高是人像的可能性越大。在一个人像图像中，人像则表示人像部分，背景则表示除人像以外的其它部分。

在一实施方式中，若步骤S202使用区域推荐网络(Region Proposal Network，简称RPN)实现图像的识别，区域推荐网络可以实现对前景和背景的识别，通过对初始候选框对中的内容的识别，判断出初始候选框对中的内容是前景还是背景，针对每对初始候选框对输出一个得分。

在另一实施方式中，若步骤S202使用区域卷积神经网络(Regions with CNNfeatures，简称RCNN)实现图像的识别，区域卷积神经网络可以用于对人像的识别，区域卷积神经网络分别对每个候选框中的内容进行识别输出，得到每个框中的得分。初始候选框中任一候选框识别结果表征为人像时，该初始候选框对对应的内容表示人。

步骤S2022，删除所述得分小于设定值的初始候选框对，得到一个或多个保留候选框对。

步骤S2023，将所述保留候选框对进行修正，得到标注框对。

其中，所述标注框对包括第一标注框和第二标注框。

在一种可实施的方式中，可以通过以下方式实现对保留候选框进行修正：

首先使用RoI Pooling(兴趣池)得到上述的保留候选框中的图像特征。

再将得到的特征进行分类计算得到上述的图像特征所属类别。具体地，可以通过full connect全连接层与softmax分类器计算每个图像特征具体属于哪个类别。在一实施方式中，若步骤S202使用区域推荐网络(Region Proposal Network，简称RPN)实现图像的识别，上述的类别可以包括前景、背景等。在另一实施方式中，若步骤S202使用区域卷积神经网络(Regions with CNN features，简称RCNN)实现图像的识别，上述的类别可以包括人像、其它图像等，以实现对人像的识别。

进一步地，可以对上述的图像特征进行bounding box regression(框回归)，获得更高精度的rect box(矩形框)，即得到标注框。

本实施例中的图像识别方法可以通过的网络模型实现。具体地，可以通过区域推荐网络实现图像的识别，也可以通过区域卷积神经网络实现图像的识别；还可以通过区域推荐网络和区域卷积神经网络的结合实现图像的识别。

作为一种可选的实施方式，若通过区域推荐网络实现图像的识别，步骤S201可以被实施为：使用区域推荐网络模型在待识别图像中生成多对锚框对，所述锚框对作为初始候选框对。

步骤S202可以被实现为：使用所述区域推荐网络(RPN)模型对所述多个初始候选框对中的内容进行识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除。

RPN的实现方式可以具体描述为：在conv5-3的卷积feature map(特征图)上经过一个n*n的卷积，可以是3*3，得到一个channel(通道)为512或者256的特征。然后再对这些特征做1*1的卷积，得到cls和reg分支：

(1)、reg-layer，用于预测proposal(推荐区域)的中心锚点对应的proposal(推荐区域)的坐标x，y和宽高w，h；

(2)、cls-layer，用于判定该proposal(推荐区域)是人像还是背景。slidingwindow(滑动窗口)的处理方式保证reg-layer(回归层)和cls-layer(分类层)关联了conv5-3的全部特征空间。

可以使用全连接层实现方式实现RPN层，可以使用卷积层实现全连接层的功能。

其中，全连接层可以理解为特殊的卷积层，如果产生256或512维的fc特征，事实上可以用Num_out＝256或512,kernel_size＝3*3,stride＝1的卷积层实现conv5-3到第一个全连接特征的映射。然后再用两个Num_out分别为2*9＝18和4*9＝36，kernel_size＝1*1，stride＝1的卷积层实现上一层特征到两个分支cls层和reg层的特征映射。

其中，2*9中的2指cls层的分类结果包括前后背景两类，4*9的4表示一个Proposal(推荐区域)的中心点坐标x，y和宽高w，h四个参数。采用卷积的方式实现全连接处理并不会减少参数的数量，但是使得输入图像的尺寸可以更加灵活。

在RPN网络中包括Anchors(锚点)。其中，Anchors字面上可以理解为锚点，位于n*n的sliding window(滑动窗口)的中心处。对于一个sliding window(滑动窗口)，可以同时预测多个proposal(推荐区域)，假定有k个。k个proposal(推荐区域)即k个referenceboxes(候选框对)，每一个reference box(候选框)又可以用一个scale(规模)，一个aspect_ratio(比例)和sliding window(滑动窗口)中的锚点唯一确定。因此，一个anchor，可以理解成一个anchor box(锚框)或一个reference box(候选框)。

进一步地，可以预先做设置了anchors(锚点)的两个标定方法，分别用一个anchor(锚点)去回归人的标注框和人的指定部位的标注框，因此，每个anchors(锚点)可以有两个proposal(推荐区域)，也就对应两个reference boxes(候选框对)，分别是人像的候选框，和人像的指定部位的候选框。

进一步地，则需要在RPN网络中的预先设置两个smooth l1loss。因此，在将待识别图像输入RPN网络中时，每个anchors可以做两次回归识别，从而可以得到两个偏移量及识别得分。两个偏移量则对应标注框对，其中其一偏移量对应标注框对中的第一标注框，也是可以表示人像的框，其中另一偏移量对应标注框对中的第二标注框，也是可以表示人像的指定部位的框。

下面简单介绍一下，关于anchors(锚点)的标定方法，具体描述如下：

在计算Loss值之前，设置了anchors(锚点)的标定方法，正样本标定规则：

1)如果Anchor对应的reference box(候选框)与ground truth(真值)的IoU值最大，标记为正样本；其中，正样本表示前景。在一个行人图像的识别中，正样本则可以表示图中的行人。

2)如果Anchor对应的reference box(候选框)与ground truth(真值)的IoU>0.7，标记为正样本。事实上，采用第2个规则基本上可以找到足够的正样本，但是对于一些极端情况，例如所有的Anchor(锚点)对应的reference box(候选框)与groud truth(真值)的IoU不大于0.7，可以采用第一种规则生成；

3)负样本标定规则：如果Anchor对应的reference box(候选框)与ground truth(真值)的IoU<0.3，标记为负样本；

4)剩下的既不是正样本也不是负样本，可以不用于最终训练；

5)训练RPN的Loss损失是有classification loss(分类损失)(即softmax loss)和regression loss(回归损失)(即L1loss)按一定比重组成的。

计算softmax loss需要的是anchors对应的ground truth(真值)标定结果和预测结果，计算regression loss(回归损失)需要三组信息：

i.预测框，即RPN网络预测出的proposal(推荐区域)的中心位置坐标x,y和宽高w,h；

ii.锚点reference box(候选框):之前的9个锚点对应9个不同scale和aspect_ratio的reference boxes(候选框对)，每一个reference boxes(候选框对)都有一个中心点位置坐标x_a,y_a和宽高w_a,h_a；

iii.ground truth(真值):标定的框也对应一个中心点位置坐标x*，y*和宽高w*，h*。

本实施例中的RPN网络模型可以包括：

在RPN头部，生成anchor(也可以理解为一堆有编号有坐标的候选框)；

在RPN中部，分类分支(cls)和边框回归分支(bbox reg)分别对这堆anchor进行各种计算，具体地，本实施例中使用的RPN网络模型包括两个边框回归分支；

Note：two stage(两阶段)型的检测算法在RPN之后还会进行再一次的分类任务和边框回归任务，以进一步提升检测精度；

在RPN末端，通过对三个分支的结果进行汇总，来实现对anchor的初步筛除和两个初步偏移量(根据bbox reg结果)，此时输出的则可以表示为标注框，也就是Proposal(推荐区域)。

作为一种可选的实施方式，若通过区域卷积神经网络(Regions with CNNfeatures，简称RCNN)实现图像的识别，步骤S202被实施为：使用区域卷积神经网络(RCNN)模型对所述多个初始候选框对中的内容进行识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除，其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框。

本实施例中的区域卷积神经网络的实现过程可以描述为以下过程：

1)候选区域选择

Region Proposal(区域推荐)是一类传统的区域提取方法，可以看作不同宽高的滑动窗口，通过窗口滑动获得潜在的目标图像(也就是待识别图像中的人像)；根据Proposal(推荐区域)提取的目标图像进行归一化，作为CNN的标准输入。

2)CNN特征提取

标准CNN过程，根据输入进行卷积/池化等操作，得到固定维度的输出；

3)分类与边界回归

实际包含两个子步骤，一是对上一步的输出向量进行分类(需要根据特征训练分类器)；二是通过边界回归(bounding-box regression)得到精确的目标区域，由于实际目标会产生多个子区域，旨在对完成分类的人像目标进行精确的定位与合并，避免多个检出。

作为一种可选的实施方式，也可以先通过区域推荐网络(Region ProposalNetwork，简称RPN)实现图像的识别，然后通过区域卷积神经网络(Regions with CNNfeatures，简称RCNN)实现图像的识别。因此，步骤S202可被实施为：使用区域推荐网络模型对所述多个初始候选框对中的内容进行识别，将识别表征为人像时，所对应的初始候选框对保存为第一部分第一标注框及第二标注框；使用区域卷积神经网络模型对所述第一部分第一标注框及第二标注框中的内容进行识别，将识别结果表征为人像时，所述对应的第一部分第一标注框及第二标注框保存为第二部分第一标注框及第二标注框。进一步地，将其它的第一部分第一标注框及第二标注框删除。

关于这种实施方式可以进一步地参考前面两个实施方式中的描述，在此不再赘述。

通过网络对图像识别后，可以在待识别图像上添加多个用于标注人像的标注框，可能会导致一对象对应显示有多对标注框，因此，还需要对图像进行进一步地处理可以将多余重复的标注框删除。

在步骤S202之后，所述方法还包括：步骤S203，对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理，以使所述待识别图像中的每个人像位置显示一对所述第一标注框及所述第二标注框。

步骤S203用于去除人像位置重复的标注框，然而本实施例中的方法识别后，标注框均是成对呈现，因此，可以采用择一的方式进行后处理去重。

在一种可实施的方式中，可以使用第二标注框中的内容进行后处理去重。步骤S203可被实施为：对所述第二标注框中的人像的指定部位进行识别，以去除重复的第二标注框，将所述重复的第二标注框对应的第一标注框去除。

由于指定部位，例如人头被遮挡的概率比较小，因此使用用于标注指定部位的第二标注框进行去重处理，可以避免将标注人像对象的标注框作为重复的标注框给去除，提高行人的检测效果，也可以减少漏检。

在一种实施方式中，步骤S203包括：使用非极大值抑制(Non-MaximumSuppression，简称：NMS)算法对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理。

关于NMS的实现可以描述为以下过程：先将标注框中的数据分别存入x1，y1，x2，y2，s中。其中，x1，y1，x2，y2表示坐标，s表示置信度。通过x1，y1，x2，y2算出每个第二标注框的面积，存入area。基于置信度s，从小到达进行排序。做一个while循环，取出置信度最高的，即排序后的最后一个，然后将该框进行保留，存入pick中，然后和其他所有的框进行比对，大于规定阈值就将别的框去掉，并将该置信度最高的框和所有比对过程，大于阈值的框存入suppress，for循环后，将I中满足suppress条件的置为空。直到I为空退出while。

在另一种实施方式中，步骤S203包括：使用软化非极大值抑制(Soft Non-MaximumSuppression，简称：Soft NMS)对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理。

关于Soft NMS的实现可以描述为以下过程：首先，三个输入量B、S、Nt，其中，B表示标注框集；S表示置信度集；Nt表示置信度阈值。D集合用来放最终的box，在boxes集合B非空的前提下，搜索score集合S中数值最大的数，假设其下标为m，那么bm(也是M)就是对应的box。然后将M和D集合合并，并从B集合中去除M。再循环集合B中的每个box，这个时候就有差别了，如果是NMS操作，那么当B中的box bi和M的IOU值大于阈值Nt，那么就从B和S中去除该box；如果是Soft NMS，则对于B中的box bi也是先计算其和M的IOU，然后该IOU值作为函数f()的输入，最后和box bi的score si相乘作为最后该box bi的score。

通过上述的后处理，可以使用图像识别结果可以更好地对人像进行标注，提高人像识别准确率，也能够避免因为遮挡而导致的漏检的问题。

实施例三

请参阅图4，是本发明实施例提供的图像识别装置的功能模块示意图。本实施例中的图像识别装置中的各个模块用于执行实施例二中的各个步骤。所述图像识别装置包括：生成模块301及形成模块302，其中

生成模块301，用于在待识别图像中生成多个初始候选框对；

形成模块302，用于将所述多个初始候选框对中的内容进行分别识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除，其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框，以通过第一标注框和第二标注框框选出所述待识别图像中的人像部分。

一种可能的实施方式，形成模块302，还用于：

将所述保留候选框对进行修正，得到标注框对，其中，所述标注框对包括第一标注框和第二标注框。

一种可能的实施方式，生成模块301，还用于：

形成模块302，还用于：使用所述区域推荐网络模型对所述多个初始候选框对中的内容进行识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除，其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框。

一种可能的实施方式，形成模块302，还用于：

使用区域卷积神经网络模型对所述多个初始候选框对中的内容进行识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对，将识别结果表征为背景时，所对应的初始候选框对删除，其中，所述标注框对包括标注人像的第一标注框及标注所述人像的指定部位的第二标注框。

一种可能的实施方式，形成模块302，还用于：

一种可能的实施方式，所述图像识别装置还包括：后处理模块303，用于：对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理，以使所述待识别图像中的每个人像位置显示一对所述第一标注框及所述第二标注框。

一种可能的实施方式，后处理模块303，还用于：

将所述重复的第二标注框对应的第一标注框去除。

一种可能的实施方式，后处理模块303，还用于：

一种可能的实施方式，所述指定部位包括人头、人体中的至少一种。

关于本实施例的其它细节还可以参考实施例二中的描述，在此不再赘述。

本发明实施例的图像识别装置，通过对图像进行识别，对人像和人像中的指定部位检测，可以框出人像及人像的指定部位，从而可以形成成对的标注框，从而可以更好地标识一个对象，从而实现有效地对多目标的检测，解决了行人遮挡时导致不能识别到部分被遮挡的行人问题，也提高了行人检测的精度。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法实施例中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像识别方法，其特征在于，包括：

在待识别图像中生成多个初始候选框对，其中，通过一个锚点回归得到的一个初始候选框对；

2.如权利要求1所述的图像识别方法，其特征在于，将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤，包括：

将所述保留候选框对进行修正，得到标注框对。

3.如权利要求1所述的图像识别方法，其特征在于，所述在待识别图像中生成多个初始候选框对的步骤，包括：

4.如权利要求1所述的图像识别方法，其特征在于，所述将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤，包括：

5.如权利要求1所述的图像识别方法，其特征在于，所述将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对包括：

6.如权利要求1-5任意一项所述的图像识别方法，其特征在于，将所述多个初始候选框对中的内容进行分类识别，将识别结果表征为人像时，所对应的初始候选框对保存为标注框对；将识别结果表征为背景时，所对应的初始候选框对删除的步骤之后，所述方法还包括：

7.如权利要求6所述的图像识别方法，其特征在于，所述对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理的步骤，包括：

将所述重复的第二标注框对应的第一标注框去除。

8.如权利要求6所述的图像识别方法，其特征在于，所述对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理的步骤包括：

9.如权利要求6所述的图像识别方法，其特征在于，所述对所述待识别图像中的所述第一标注框及所述第二标注框进行去重处理的步骤包括：

10.如权利要求1所述的图像识别方法，其特征在于，所述指定部位包括人头、人体中的至少一种。

11.一种图像识别装置，其特征在于，包括：

生成模块，用于在待识别图像中生成多个初始候选框对，其中，通过一个锚点回归得到的一个初始候选框对；

12.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中读取并运行所述计算机程序，以执行权利要求1～10任一项所述方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述的权利要求1～10中任一项所述的方法的步骤。