CN109074472B

CN109074472B - 用于人物识别的方法和系统

Info

Publication number: CN109074472B
Application number: CN201680084297.1A
Authority: CN
Inventors: 王晓刚; 肖桐; 李爽
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-04-06
Filing date: 2016-04-06
Publication date: 2020-12-18
Anticipated expiration: 2036-04-06
Also published as: CN109074472A; WO2017173605A1

Abstract

一种用于人物识别的方法和系统，其中，所述方法包括：提供具有以下各项的卷积神经网络(CNN)：特征提取层(1200)、联接到所述特征提取层(1200)的关注区域(ROI)建议层(1300)和联接到所述ROI建议层(1300)的人物识别层(1400)，所述ROI建议层(1300)和所述人物识别层(1400)被同步训练；通过所述特征提取层(1200)从图像提取特征图；通过所述ROI建议层(1300)从已提取的特征图裁剪出含有候选人物的ROI；以及通过所述人物识别层(1400)根据预设目标人物图像识别所裁剪出的ROI中所含的所述候选人物。

Description

用于人物识别的方法和系统

技术领域

本公开涉及用于人物识别的方法和系统。

背景技术

人物识别的目的在于识别图像中的人物。这是个快速发展的技术领域，且在视频监控和多媒体方面具有许多实际应用，例如但不限于人物检索、交叉相机视觉跟踪以及活动分析(activity analysis)。人物识别因视角、位姿、光照条件、遮挡、分辨率、背景和相机设置等的复杂变化而尤其具有挑战性。

尽管近年来已提出人物识别框架，且这些框架的性能已改进，但所提出的框架与实际应用之间仍存在很大差距。在大多数现有框架中，通过比较候选人物组中手动裁剪出的人物与预设目标人物而非在整个图像中搜索目标人物来实施人物识别。通过使用实施这些框架的协议，已开发的人物识别方法假设能从背景中完美地挑出人物。举例来说，可通过手动预设限界框来选择候选人物。然而，进行限界框标注在现实世界情境中不可用。

现有人物识别方法可能很难消除一些误报、误检和错位，因而不利于总体人物识别结果。在这些情形下，这些人物识别方法的效率和准确性相对较低。因此，需要一种更有效的人物识别方法。

发明内容

下文呈现对本公开的简化概述，以便提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。此概述既不标识本公开的重要或关键要素，也不划定本公开的特定实施方式的任何范围或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念，以作为稍后呈现的更详细描述的序言。

为了至少部分地解决上述问题中的一个问题，在本申请的一个方面中提出一种用于识别图像中的人物的端到端深度学习方法。所述方法包括：通过卷积神经网络(CNN)的特征提取层从图像提取特征图；通过联接到特征提取层的ROI建议层(ROI proposal layer)从已提取的特征图裁剪出含有候选人物的ROI；以及通过联接到ROI建议层的人物识别层根据目标人物的预设图像识别所裁剪出的ROI中所含的候选人物，其中，ROI建议层和人物识别层被同步训练。通过同步训练ROI建议层和人物识别层，会带来若干益处。一方面，已学习的ROI建议层允许一些能够很容易地由人物识别层处理的误报。另一方面，ROI建议层和人物识别层彼此更好地配合以输出更准确的结果。

在本申请的一个实施方式中，裁剪包括将所裁剪出的ROI池化(pool)为具有固定长度的特征向量。

在本申请的一个实施方式中，人物识别层还包括限界框回归层，所裁剪出的ROI包含与候选人物重叠的限界框，且识别包括通过限界框回归层移动边界以增强与候选人物的重叠。

在本申请的一个实施方式中，识别还包括对所裁剪出的ROI进行降采样处理以加速识别。

在本申请的一个实施方式中，人物识别层包括随机采样softmax(RSS)损失层，且人物识别层的训练包括：根据目标人物的预设图像，对第一训练集中的多个训练人物图像和所述训练人物图像的背景进行评分；根据训练人物图像和背景的得分，从第一训练集中选择子集，其中，所述子集包括目标人物和背景；建立包括所述子集中的人物图像和背景的得分的第二训练集；通过RSS损失层基于第二训练集确定损失和梯度；以及反向传播所确定的损失和梯度以调整人物识别层的参数，直到损失和梯度收敛为止。

在另一方面中，提供了一种用于识别图像中的人物的系统。所述系统包括存储可执行组件的存储器以及电联接到存储器的处理器，所述处理器执行可执行组件以：通过CNN的特征提取层从图像提取特征图；通过联接到特征提取层的ROI建议层从已提取的特征图裁剪出含有候选人物的ROI；以及通过联接到ROI建议层的人物识别层根据目标人物的预设图像识别所裁剪出的ROI中所含的候选人物，其中，ROI建议层和人物识别层被同步训练。

在又一方面中，提供了一种用于识别图像中的人物的系统。所述系统包括：特征提取器，用于从图像提取特征图；ROI生成器，联接到特征提取器且用于从已提取的特征图中裁剪出含有候选人物的ROI；以及识别器，联接到ROI生成器且用于根据目标人物的预设图像识别所裁剪出的ROI中所含的候选人物；其中，特征提取器在CNN的特征提取层中实施，ROI生成器在CNN的ROI建议层中实施，且识别器在CNN的人物识别层中实施，并且ROI建议层和人物识别层被同步训练。

附图说明

下文参考附图描述本申请的示例性非限制性实施方式。附图是说明性的，且一般未按确切比例绘制。不同图上的相同或相似元件用相同附图标号进行标记。

图1示出根据本申请的一个实施方式的用于识别图像中的人物的示例性CNN；

图2是示出根据本申请的一个实施方式的用于识别图像中的人物的过程的流程图；

图3示出根据本申请的一个实施方式的ROI建议层的示例性结构；

图4示出根据本申请的一个实施方式的人物识别层的示例性结构；以及

图5示出根据本申请的一个实施方式的用于识别图像中的人物的示例性系统。

具体实施方式

现将详细参考发明人为实施本申请而提出的本申请的一些特定实施方式。附图中示出这些特定实施方式的示例。尽管结合这些特定实施方式描述了本申请，但本领域技术人员应了解，这并不意欲将本申请限于所描述的实施方式。在以下描述中，阐述众多具体细节以便提供对本申请的透彻理解。本申请可以在没有这些具体细节中的一些细节或全部细节的情况下实践。在其它情况下，并未详细描述众所周知的过程操作，以免不必要地混淆本申请。

本文中使用的术语仅用于描述具体实施方式的目的，而并不意欲限制本申请。如本文所使用，除非上下文另外清楚地指示，否则单数形式“一”和“所述”旨在还包含复数形式。还应理解，术语“包括(comprise/comprising)”在本说明书中使用时指代所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

将参考图1描述用于识别图像中的人物的示例性CNN 1000。包括候选人物和随机背景的图像1100输入到CNN 1000的特征提取层1200。特征提取层1200构成CNN 1000的最低级部分，且可以各种形式和多个层实施，例如但不限于VGG16模型的卷积层1到5。从图像1100提取含有语义上有意义的表示的特征图，并且将其发送到ROI建议层1300。ROI建议层1300分析已提取的特征图以从已提取的特征图裁剪出含有候选人物的ROI。随后将表示从ROI建议层1300生成的ROI的特征图或特征向量发送到人物识别层1400，人物识别层1400确定所裁剪出的ROI中所含的候选人物是否是手动预设的目标人物。因为ROI建议层1300与人物识别层1400集成在单个CNN中且可被同步训练，因此ROI建议层1300和人物识别层1400在高层级进行协作。因此，人物识别的效率和准确性显著增强。

通过图2示出上述人物识别过程。在步骤S2020处，从输入图像提取特征图。在步骤S2040处，通过人物检测器(例如，图1的ROI建议层1300)分析已提取的特征图，且因此从已提取的特征图中裁剪出含有候选人物的ROI。最后，在步骤S2060处，通过识别器(例如，图1的人物识别层1300)将所裁剪出的ROI中所含的候选人物与预设目标人物进行比较以实现人物识别。

图3示意性地示出ROI建议层结构。ROI建议层3000可包括卷积层3200、损失层3400和ROI池3500。卷积层3200可对被认为含有候选人物的第一特征图3100执行非线性变换以生成更适合将候选人物与背景区分开的第二特征图3300。第二特征图3300可分成指示第二特征图3300的多个区域的多个锚点。损失层3400可包括锚点分类层3410和锚点回归层3420。锚点分类层3410可根据第二特征图3300中所含的每个锚点与人物分类(humanclassification)的相似性来对每个锚点评分，而锚点回归层3420可根据锚点分类层3410所获得的得分计算限界框的位置和大小以使得计算出的限界框能够与候选人物重叠。利用计算出的限界框将特征图3100裁剪为ROI。在优选实施例中，通过ROI池化技术将所裁剪出的ROI的特征图在ROI池3500中进行池化，从而产生具有固定长度的特征向量。在此情况下，在训练阶段中执行的反向传播过程可绕过ROI池3500。

图4示意性地示出人物识别层结构。人物识别层4000可包括第一全连接层4200、第二全连接层4300和随机采样softmax(RSS)损失层4400。全连接层4200可包括由VGG16模型提供的FC6和FC7。特征向量4100可通过全连接层4200进行变换以增强特征表示。在优选实施例中，在维度更小的另一全连接层中实施的第二全连接层4300可对全连接层4200生成的特征向量执行另一非线性变换以进一步增强其特征表示。此外，由全连接层4200生成的特征向量还可通过第二全连接层4300进行降采样处理以便于后续处理。RSS损失层4400可对来自第二全连接层4300的被降采样处理后的特征向量执行非线性操作，且可在训练阶段中训练以优化其参数。在优选实施例中，人物识别层4000还可包括限界框回归层4500以微调由ROI建议层生成的限界框的位置，以便增强限界框与候选人物之间的重叠。如本领域技术人员应理解的那样，CNN在应用于人物识别之前需要被训练。在本申请提出的CNN中，特征提取层和ROI建议层这两个层中的所有损失层可被同步训练。

在优选实施例中，分类器(未示出)，例如但不限于softmax分类器，可插入在第二全连接层4300与RSS损失层4400之间。因此，在训练阶段中，第一训练集中包括的多个训练人物图像和背景可通过分类器根据预设目标人物图像进行评分。对于每个训练样本(即，目标人物)，可从第一训练集选择子集以减小计算负荷，以便加速训练的收敛。可根据第一训练集中包括的多个训练人物图像和背景的得分来选择子集以确保该子集涵盖目标人物和背景。随后，可建立包括子集中的每一项的得分的第二训练集以训练上文提到的随机采样softmax(RSS)损失层。举例来说，可基于第二训练集中的得分和目标人物来计算损失和梯度。损失和梯度可反向传播通过人物识别层以调整其参数，直到损失和梯度收敛为止。

图5示出根据本申请的一个实施方式的用于识别输入图像5100中的人物的示例性系统5000。系统5000可包括特征提取器5200以从输入图像5100提取特征图。ROI生成器5300可接收已提取的特征图，且从已提取的特征图裁剪出含有候选人物的ROI。所裁剪出的ROI可发送到识别器5400，识别器5400识别候选人物是否是预设目标人物。可在单个CNN中构造系统5000。举例来说，特征提取器5200可在CNN 1000的特征提取层1200中实施，ROI生成器5300可在CNN 1000的ROI建议层1300中实施，且识别器5400可在CNN 1000的人物识别层1400中实施。如已参考图1论述的那样，ROI建议层1300和人物识别层1400可被同步训练。

如本领域技术人员所能够理解的那样，本申请可实现为系统、方法或计算机程序产品。因此，本申请可采取完全为硬件的实施方式和方面，而在本文中，硬件通常被称为“单元”、“电路”、“模块”或“系统”。许多功能和许多原理在实施时最好由集成电路(IC)支持，例如数字信号处理器和其软件或者专用IC。可以预期的是，本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验而容易地生成IC，而不必考虑例如由可用时间、当前技术和经济考量等驱使的可能繁重的工作量和许多其它设计选项。因此，为了简化和最小化混淆根据本申请的原理和概念的任何风险，对此类软件和IC(如果存在的话)的进一步论述将受限于对于优选实施方式所使用的原理和概念而言必要的部分。另外，本申请可采取完全为软件的实施方式(包含固件、驻存软件、微码等)或可采取组合了软件的实施方式。例如，系统可包括存储可执行组件的存储器以及处理器，所述处理器电联接到存储器以执行可执行组件来执行系统的、如参照图1到5所论述的操作。另外，本申请可采用体现在任何有形表达介质中的计算机程序产品的形式，所述有形表达介质具有体现于介质中的计算机可用程序代码。

Claims

1.一种用于识别图像中的人物的方法，包括：

通过卷积神经网络中的特征提取层从所述图像提取特征图；

通过所述卷积神经网络中的关注区域建议层从所述特征图裁剪出含有候选人物的关注区域；以及

通过所述卷积神经网络中的人物识别层根据目标人物的预设图像识别所述关注区域中所含的所述候选人物，以获取所述候选人物的识别结果。

2.根据权利要求1所述的方法，其中，在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，还包括：

将所裁剪出的所述关注区域池化为具有固定长度的特征向量。

3.根据权利要求1所述的方法，其中，所述关注区域建议层和所述人物识别层被同步训练。

4.根据权利要求1所述的方法，其中，所述关注区域包含与所述候选人物重叠的限界框；

在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，还包括：对所述限界框的位置进行微调以增强所述限界框与所述候选人物的重叠。

5.根据权利要求1所述的方法，其中，在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，还包括：对所述关注区域进行降采样处理。

6.根据权利要求1所述的方法，其中，所述人物识别层包括随机采样softmax损失层，且所述人物识别层的训练包括：

根据所述目标人物的所述预设图像，对第一训练集中的多个训练人物图像和所述训练人物图像的背景进行评分；

根据所述训练人物图像和所述背景的得分，从所述第一训练集选择子集，其中，所述子集包括所述目标人物和所述背景；

建立包括所述子集中的所述人物图像和所述背景的得分的第二训练集；

通过所述随机采样softmax损失层基于所述第二训练集确定损失和梯度；以及

反向传播所确定的损失和梯度以调整所述人物识别层的参数，直到所述损失和所述梯度收敛为止。

7.一种用于识别图像中的人物的系统，包括：

存储器，存储可执行组件；以及

处理器，电联接到所述存储器以执行所述可执行组件，从而执行以下操作：

通过卷积神经网络中的特征提取层从所述图像提取特征图；

8.根据权利要求7所述的系统，其中，所述处理器还配置为：在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，将所裁剪出的所述关注区域池化为具有固定长度的特征向量。

9.根据权利要求7所述的系统，其中，所述关注区域建议层和所述人物识别层被同步训练。

10.根据权利要求7所述的系统，其中，所述关注区域包含与所述候选人物重叠的限界框；

所述处理器还配置为：在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，对所述限界框的位置进行微调以增强所述限界框与所述候选人物的重叠。

11.根据权利要求7所述的系统，所述处理器还配置为：在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，对所述关注区域进行降采样处理。

12.根据权利要求7所述的系统，其中，所述人物识别层包括随机采样softmax损失层，且所述人物识别层的训练包括：

13.一种用于识别图像中的人物的系统，包括：

特征提取器，用于从所述图像提取特征图；

关注区域生成器，联接到所述特征提取器且用于从已提取的特征图裁剪出含有候选人物的关注区域；以及

识别器，联接到所述关注区域生成器且用于根据目标人物的预设图像识别所裁剪出的关注区域中所含的所述候选人物，以获取所述候选人物的识别结果；

其中，所述特征提取器在卷积神经网络的特征提取层中实施，所述关注区域生成器在所述卷积神经网络的关注区域建议层中实施，且所述识别器在所述卷积神经网络的人物识别层中实施，且所述关注区域建议层和所述人物识别层被同步训练。

14.根据权利要求13所述的系统，其中，所述关注区域生成器包括关注区域池以将所裁剪出的关注区域池化为具有固定长度的特征向量。

15.根据权利要求13所述的系统，其中，所述人物识别层还包括限界框回归层，其中，所裁剪出的关注区域包含与所述候选人物重叠的限界框，以及其中，所述识别包括通过经由所述限界框回归层移动边界以增强限界框与所述候选人物的重叠。

16.根据权利要求13所述的系统，其中，所述识别器包括降采样器，所述降采样器对所裁剪出的关注区域进行降采样以加速所述识别。

17.根据权利要求13所述的系统，其中，所述识别器包括：

评分装置，根据所述目标人物的所述预设图像对第一训练集中的多个训练人物图像和所述训练人物图像的背景进行评分；

选择器，根据所述训练人物图像和所述背景的得分从所述第一训练集选择子集，其中，所述子集包括所述目标人物和所述背景；

训练集生成器，建立包括所述子集中的所述人物图像和所述背景的得分的第二训练集；以及

随机采样softmax损失计算器，基于所述第二训练集确定损失和梯度；

其中，所确定的损失和梯度被反向传播以调整所述人物识别层的参数，直到所述损失和所述梯度收敛为止。

18.一种计算机可读存储介质，所述计算机可读存储介质存储有可由处理器运行以执行以下操作的计算机可读指令，所述操作包括：

通过卷积神经网络中的特征提取层从所述图像提取特征图；

19.根据权利要求18所述的计算机可读存储介质，其中，在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，所述操作还包括：

20.根据权利要求18所述的计算机可读存储介质，其中，所述关注区域建议层和所述人物识别层被同步训练。

21.根据权利要求18所述的计算机可读存储介质，其中，所述关注区域包含与所述候选人物重叠的限界框；在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，所述操作还包括：对所述限界框的位置进行微调以增强所述限界框与所述候选人物的重叠。

22.根据权利要求18所述的计算机可读存储介质，其中，在所述根据目标人物的预设图像识别所述关注区域中所含的所述候选人物之前，所述操作还包括：对所述关注区域进行降采样处理。

23.根据权利要求18所述的计算机可读存储介质，其中，所述人物识别层包括随机采样softmax损失层，且所述人物识别层的训练包括：