CN105981051A

CN105981051A - 用于图像解析的分层互连多尺度卷积网络

Info

Publication number: CN105981051A
Application number: CN201480075091.3A
Authority: CN
Inventors: 印奇; 曹志敏; 周以苏
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2016-09-28
Anticipated expiration: 2034-10-10
Also published as: EP3161728A4; EP3161728A1; US9530071B2; US20160104053A1; CN105981051B; WO2016054802A1; EP3161728B1

Abstract

所公开的面部识别系统(及方法)包括面部解析。在一种方法中，面部解析基于分层互连多尺度卷积神经网络(HIM)来识别面部图像的组件的位置和/或印迹。HIM从面部图像的不同分辨率图像生成多个级别的图像块，其中不同级别的图像块具有不同的分辨率。而且，HIM合并不同级别的图像块以生成不同级别的互连图像块，其中不同级别的互连图像块具有不同的分辨率。而且，HIM组合互连图像块以识别组件的精确化的位置和/或印迹。

Description

用于图像解析的分层互连多尺度卷积网络

技术领域

本发明一般地涉及图像处理，更具体地，涉及将图像解析成组件。

背景技术

图像解析是将图像标注成组件(或部位)的列表的任务。图像解析是计算机视觉方面的基本问题。关于图像解析，通常采用关键点提取(或者加关键点)或分割。关键点提取被用于定位组件，而分割被用于获得组件的印迹(footprint)或形状。面部图像的图像解析具有挑战性，因为从关键点提取获得的关键点可能不是界限分明的，并且可能难以对关键点(例如鼻梁)中的不确定性进行编码。另外，因为面部部位是可变形的，所以图像解析是具有挑战性的。

关键点提取和分割的结果取决于信息的尺度。以较低(亦即，较精细)尺度的局部外观提供组件的精确轮廓，而以较高(亦即，较粗糙)尺度的全局特征提供组件的可能的外观或者所在位置。因此，多尺度信息的结合使得能够对图像进行准确的解析。

因此，需要良好的方法以利用以不同尺度存在的信息来有效地执行图像解析。

发明内容

本发明通过采用执行图像解析的框架来克服现有技术的限制。在一种方法中，该框架基于用于定位和/或分割图像的组件的分层互连多尺度卷积神经网络(HIM)的结构。HIM使得能够在任何方向上整合不同尺度(亦即，分辨率)的数据，以便更好地使用每个尺度的数据。

一个方面涉及对图像执行图像解析的系统。在一个示例中，该系统通过解析面部图像在面部识别中使用。该系统包括用于从图像中定位和/或生成组件的印迹的HIM。HIM有效地整合不同尺度(亦即，分辨率)的信息。

在一种架构中，HIM包括级别生成器、互连组合器和聚合器。级别生成器接收图像并且从图像生成N个级别的图像块。优选地，N>2，并且不同级别n的图像块具有不同的分辨率R(n)。级别n的图像块从被重新采样至分辨率R(n)的图像生成。在示例性实现方式中，级别生成器为具有较低分辨率R(n)的级别n生成更多的图像块。

互连组合器接收来自级别生成器的N个级别的图像块，并且从N个级别的图像块生成M个级别的互连图像块，其中优选地，2<M≤N。不同级别m的互连图像块具有不同的分辨率R(m)，并且级别m的互连图像块从图像块的输入分组m生成。图像块的输入分组m包括：(i)来自R(n)＝R(m)的级别n的图像块；以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)。

聚合器通过组合M个级别的互连图像块来定位组件。在示例性实现方式中，聚合器接收M个级别的互连图像块并且生成L个级别的输出图像块，其中L<M。不同级别l的输出图像块具有不同的分辨率R(l)，其中每个R(l)对应于R(m)中的一个。级别l的输出图像块从图像块的输入分组l生成，图像块的输入分组l包含：(i)来自R(m)＝R(l)的级别m的互连图像块；以及(ii)来自具有小于R(l)的分辨率的一个或多个级别的输出图像块，其中这样的输出图像块已经被重新采样至分辨率R(l)。

另一方面涉及被配置为接收由HIM产生的组件位置的分层互连多尺度卷积神经网络的第二级。第二级中的每个分层互连多尺度卷积神经网络被配置为获得所述组件中的一个的经精确化的位置和/或印迹。

其他方面包括与前述有关的组件、设备、系统、改进、方法、处理、应用和其他技术。

附图说明

本发明具有其他优点和特征，根据下面结合附图进行的对本发明的详细描述以及所附的权利要求书，这些其他优点和特征将更加显而易见，附图中：

图1是面部识别系统的简化图；

图2是面部解析模块的图；

图3是由面部解析模块解析输入图像的示例性处理的图；

图4是分层互连多尺度卷积神经网络(HIM)的示例性架构的图；

图5是解析面部图像的流程图；

图6是识别面部部位的位置或印迹的方法的流程图；

图7例示根据一个实施例的用于比较的原始图像和具有所识别的面部部位的经处理的图像；

图8例示具有通过各种方法获得的所识别的面部部位的图像；

图9例示具有通过使用常规加关键点的各种方法获得的所识别的面部部位的面部图像；

图10例示具有通过面部解析模块获得的所识别的面部部位的面部图像。

附图图示本发明的实施例，其仅用于例示的目的。本领域的技术人员从下面的讨论中将容易认识到，可以采用在本文中所例示的结构和方法的替代实施例，而不脱离在本文中所描述的本发明的原理。

具体实施方式

附图和下面的描述仅涉及作为例示的优选实施例。应当注意，根据下面的讨论，在本文中所公开的结构和方法的替代实施例将容易被认为是可以被采用而不背离所要求保护的原理的可行的替代。

所公开的面部识别系统(以及方法)包括面部解析。在一种方法中，面部解析基于分层互连多尺度卷积神经网络(HIM)以识别面部图像的组件的位置和/或印迹。HIM从面部图像的不同分辨率图像中生成多个级别的图像块，其中不同级别的图像块具有不同的分辨率。而且，HIM合并不同级别的图像块以从具有不同分辨率的不同级别中生成互连图像块。而且，HIM将互连图像块组合在一起以识别组件的位置和/或印迹。

面部识别概述

图1是根据一个实施例的面部识别系统100的简化图。面部识别系统100接收输入图像110并且尝试识别面部(亦即，将面部与特定个体相关联)。面部识别系统100从输入图像110中识别组件(例如，面部部位)，包括但不局限于眼睛、眉毛、鼻子和嘴。面部识别系统100基于所识别的组件来执行分析以生成度量150。度量150可以指示输入图像110中的所识别的组件或者个体的特征。

面部识别系统100包括面部解析模块120、分析模块130和处理器140。每个模块可以实施为硬件、软件、固件或者前者的组合。这些模块一起执行面部解析以分析输入图像110中的对象。

面部解析模块120接收输入图像110作为输入，并且识别输入图像110的组件的位置和/或印迹。在一种方法中，面部解析模块120实现分层互连多尺度卷积神经网络(HIM)。HIM从输入图像110获得不同分辨率(亦即，尺度)的图像块，并且通过使用HIM中的神经网络来合并图像块。另外，面部解析模块120生成所识别的组件的位置和/或印迹的指示。

分析模块130对来自面部识别模块120的所识别的组件执行分析。在一个方面中，分析模块130确定输入图像110中的对象与参考面部图像(未示出)中的对象是否匹配。分析模块130可以获得所识别的组件的特征，并且比较所识别的组件与参考面部图像中的对应的组件。面部识别系统100可以具有针对不同个体的参考面部图像的大型数据库，并且可以比较输入图像110与许多不同的参考面部图像，以识别关于输入图像110的个体。另外，分析模块130基于输入图像110的表示，来生成关于输入图像110是否属于同一对象(人)的度量150。

处理器140执行指令以在面部识别系统100上执行面部识别。处理器140从存储器(未示出)或者外部电路系统接收指令。指令也可以完全或者至少部分地驻留在处理器140内(例如在处理器的高速缓冲存储器内)。处理器140根据指令来变换或选择输入图像110的一部分，以提供给面部解析模块120。另外，处理器140根据指令来操作面部解析模块120和分析模块130以执行面部识别的功能。

面部解析

图2是示例性面部解析模块120的图。面部解析模块120包括一个或多个HIM。面部解析模块120训练每个HIM中的神经网络，以识别输入图像110中的组件的位置和/或印迹。每个HIM聚合不同分辨率的信息，以有效地利用组件的局部外观和全局特征。

如图2所示，在一种实现方式中，面部解析模块120包括第一图像提取器210、估计HIM 220、第二图像提取器230、精确化HIM 240和输出生成器250。在一个实施例中，面部解析模块120包括两级HIM：估计HIM 220和精确化HIM 240。估计HIM 220获得输入图像110中的组件的位置的估计，而精确化HIM 240进一步精确化组件的所识别的位置。在其他实施例中，面部解析模块120可以仅包括估计HIM 220和精确化HIM 240中的一个，或者可以包括串行或并行配置的多于两级的HIM。

第一图像提取器210接收输入图像110，并且生成面部图像215。优选地，第一图像提取器210从输入图像中提取64x64像素的面部图像215，但是可以提取其他大小(例如，80x80像素)的面部图像215。

估计HIM 220接收面部图像215并且识别面部部位的位置。在一种方法中，估计HIM220识别面部部位的位置，包括眉毛、眼睛、鼻子、上嘴唇、嘴内(inner mouth)、下嘴唇和背景，并且生成对应的二进制标签图(label map)225以指示对应的组件的位置。优选地，估计HIM接收64x64x3像素(其中，x3代表三个色彩通道)的面部图像215。在其他实施例中，估计HIM 220可以识别或多或少数量的组件。例如，估计HIM 220可以忽略背景，并且替代地生成八个二进制标签图。

第二图像提取器230接收面部部位的位置并且生成对应的部分面部图像。第二图像提取器230接收来自估计HIM 220的二进制标签图225中的面部部位的位置，以便提取部分面部图像235A-E和235M。在一种实现方式中，第二图像提取器230基于其对应的二进制标签图225来生成分别包括左眼、右眼、左眉、右眉和鼻子的部分面部图像235A-E中的每一个。另外，第二图像提取器230基于上嘴唇、嘴内和下嘴唇的二进制标签图225来生成包括嘴(包括上嘴唇、嘴内和下嘴唇)的部分面部图像235M。在一种方法中，第二图像提取器230生成64x64像素的部分面部图像235A-E以及80x80像素的部分面部图像235D。第二图像提取器230可以基于面部部位的位置来生成任何大小的、任何数量的部分面部图像235。在一种实现方式中，第一图像提取器210可以被用于执行第二图像提取器230的功能。

精确化HIM 240接收部分面部图像235A并且识别面部部位的精确化的位置。在一种方法中，精确化HIM 240识别包括眉毛、眼睛、鼻子、上嘴唇、嘴内、下嘴唇和背景的面部部位的经精确化的位置，并且生成对应的精确化的二进制标签图245A-E和245M以指示对应的组件的位置。每个精确化的二进制标签图245被用于指示面部部位的精确化的位置和/或印迹。面部部位的精确化的位置和/或印迹可以由分析模块130使用以便对面部部位进行分析。

在一种实现方式中，精确化HIM 240包括四个另外的HIM 242A-D作为用于精确化面部部位的位置的第二级。另外的HIM 242A接收包括眼睛(例如左眼)的部分面部图像235A，并且生成精确化的二进制标签图245A以指示眼睛的精确化的位置。因为眼睛基本上是对称的，所以另外的HIM 242A还接收包括另一只眼睛(例如右眼)的部分面部图像235B，并且生成精确化的二进制标签图245B以指示另一只眼睛的经精确化的位置。在一种方法中，另外的HIM 242A翻转部分面部图像235B以便定位另一只眼睛，并且翻转结果以生成精确化的二进制标签图245B。另外的HIM 242B基于部分面部图像235C和235D，类似地识别眉毛的精确化的位置，并且生成每个眉毛的精确化的二进制标签图245C和245D。另外，另外的HIM 242C接收包括鼻子的部分面部图像235E，并且生成精确化的二进制标签图245E以指示鼻子的精确化的位置。而且，另外的HIM 242D接收包括嘴的部分面部图像235M，并且生成精确化的二进制标签图245M以指示包括上嘴唇、嘴内和下嘴唇的嘴的精确化的位置。在其他实施例中，精确化HIM 240可以包括任何数量的另外的HIM。

输出生成器250接收面部部位的精确化的位置，并且生成经解析的输出图像255。在一个方面中，输出生成器250在输入图像110上重叠面部组件的位置。经解析的输出图像255可以被分析模块130用于对输入图像110进行分析或者被提供给用户以便显示。

图3是使用面部解析模块120解析面部图像215的示例性过程的图。在该示例中，估计HIM 220接收64x64像素的面部图像215，并且生成二进制标签图225A-I以识别分别包括左眼、右眼、左眉、右眉、鼻子、上嘴唇、嘴内、下嘴唇和背景的面部部位的位置。

基于面部部位的所识别的位置，第二图像提取器230提取面部部位的部分面部图像235。在该示例中，第二图像提取器230分别提取左眉、右眉、左眼、右眼和鼻子的64x64像素的部分面部图像235A-E。另外，第二图像提取器230提取包括上嘴唇、嘴内和下嘴唇的嘴的80x80像素的部分面部图像235M。

精确化HIM 240接收部分面部图像235，并且生成精确化的二进制标签图245以分别获得左眉、右眉、左眼、右眼、鼻子和嘴的精确化的位置和/或印迹。嘴的精确化的二进制标签图245M可以包括上嘴唇、嘴内和下嘴唇的二进制标签图。

输出生成器250接收精确化的二进制标签图245，并且生成指示面部图像215的所识别的面部部位的位置和/或印迹的经解析的输出图像255。

面部解析

图4是估计HIM 220的示例性架构的图。HIM 220接收图像作为输入，并且生成目标区域的一个或多个标签图。在一个实施例中，HIM 220包括级别生成器410、互连组合器450和聚合器480。在一种实现方式中，级别生成器410从面部图像215生成N个级别的图像块。互连组合器450整合不同级别的图像块，以生成M个级别的互连图像块。聚合器480组合互连图像块，以生成L个级别的输出图像块。优选地，M＝N并且L＝M-1。第二级中的另外的HIM 242可以具有与HIM 220相同或相似的架构。取决于被监督的信号，聚合器480可以生成不同数量的输出或标签图。

级别生成器410接收面部图像215，并且从面部图像215生成N个级别的图像块，其中优选地，N>2。每个神经网络执行向下采样、卷积和非线性变换(例如，双曲正切)。不同的CNN级别通常具有不同的深度和输入大小。在一种实现方式中，级别n＝1具有与面部图像215的分辨率相同的分辨率R(n＝1)，并且每个其他级别n具有相对于具有分辨率R(n-1)的前一个级别n-1按照2或更小的常量因子向下采样的分辨率R(n)。级别生成器410生成具有较低分辨率R(n)的级别n的更多的图像块。不同级别n的图像块具有不同的分辨率R(n)，并且级别n的图像块通过对被重新采样至分辨率R(n)的图像执行卷积和非线性变化来生成。

在图4中的示例中，N＝4，并且不同的CNN级别被标注为“级别1”至“级别4”。在该示例中，64x64或者80x80像素的面部图像215被向下采样成分别具有1/2、1/4和1/8大小的图像402、404和406。另外，对每个级别应用不同的卷积滤波器和双曲正切激活函数。级别1的卷积的输入可以是RGB的。级别生成器410对于级别1以原始尺度生成8个图像块412，对于级别2以1/2尺度生成16个图像块414，对于级别3以1/4尺度生成24个图像块416，而对于级别4以1/8尺度生成32个图像块418。

互连组合器450接收来自级别生成器410的N个级别的图像块，并且从N个级别的图像块生成M个级别的互连图像块，其中优选地，2<M≤N。不同级别m的互连图像块具有不同的分辨率R(m)，并且级别m的互连图像块从图像块的输入分组m生成，图像块的输入分组m包含：(i)来自R(n)＝R(m)的级别n的图像块；以及(ii)来自个R(n)≠R(m)的一个或多个级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)。优选地，级别m的互连图像块来自图像块的输入分组m，包括：(i)来自R(n)＝R(m)的级别n的图像块；(ii)来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块(如果存在的话)。互连组合器450通过对图像块的输入分组m执行卷积和非线性变换来生成级别m的互连图像块。

在N＝M的一种实现方式中，互连组合器450生成级别m的互连图像块，以具有R(n)＝R(m)情况下的级别n的相同数量的图像块。在该实施例中，可以级联地使用多个互连组合器450，或者可以递归地多次使用互连组合器450。

在图4中的示例中，N＝M＝4，并且互连组合器450基于图像块412、414、416和418来生成4个级别的互连图像块452、454、456和458。对于具有R(n)＝R(m)的级别m，互连组合器450通过整合来自级别n和级别n的相邻级别的图像块作为图像块的输入分组m以及对图像块的输入分组m执行卷积和非线性变换，来生成来自级别n的相同数量的图像块。为了整合具有不同分辨率的图像块，互连组合器450将来自级别R(n)≠R(m)的图像块重新采样至分辨率R(m)。

例如，为了生成级别1的互连图像块452，互连组合器450将来自级别1的8个图像块412和来自级别2的16个图像块414组合(或者堆叠)成图像块的输入分组1(451)，以具有24个图像块。为了匹配分辨率，互连组合器450将来自级别2的16个图像块414向上采样至分辨率R(m＝1)。另外，互连组合器450对图像块的输入分组1(451)执行卷积和非线性变换，以生成级别1的8个互连图像块452。

类似地，为了生成级别2的互连图像块454，互连组合器450将来自级别1的8个图像块412、来自级别2的16个图像块414以及来自级别3的24个图像块组合(或者堆叠)成图像块的输入分组2(453)，以具有48个图像块。为了匹配分辨率，互连组合器450将来自级别3的24个图像块416向上采样至分辨率R(m＝2)，并且将来自级别1的8个图像块412向下采样至分辨率R(m＝2)。另外，互连组合器450对图像块的输入分组2(453)执行卷积和非线性变换，以生成级别2的16个互连图像块454。

为了生成级别3的互连图像块456，互连组合器450将来自级别2的16个图像块414、来自级别3的24个图像块以及来自级别4的32个图像块418组合(或者堆叠)成图像块的输入分组3(455)，以具有72个图像块。为了匹配分辨率，互连组合器450将来自级别4的32个图像块418向上采样至分辨率R(m＝3)，并且将来自级别2的16个图像块414向下采样至分辨率R(m＝3)。另外，互连组合器450对图像块的输入分组3(455)执行卷积和非线性变换，以生成级别3的24个互连图像块456。

为了生成级别4的互连图像块458，互连组合器450将来自级别3的24个图像块416以及来自级别4的32个图像块418组合(或者堆叠)成图像块的输入分组4(457)，以具有56个图像块。为了匹配分辨率，互连组合器450将来自级别3的24个图像块416向下采样至分辨率R(m＝4)。另外，互连组合器450对图像块的输入分组4(457)执行卷积和非线性变换，以生成级别4的32个互连图像块458。

聚合器480接收来自互连组合器450的M个级别的互连图像块，并且生成L个级别的输出图像块，其中L<M。不同级别l的输出图像块具有不同的分辨率R(l)。每个R(l)对应于R(m)中的一个，并且级别l的输出图像块486通过对图像块的输入分组l执行卷积和非线性变换来生成，图像块的输入分组l包括：(i)来自R(m)＝R(l)的级别m的互连图像块；以及(ii)来自具有比R(l)次低的分辨率的级别m的输出图像块，其中，这样的输出图像块已经被重新采样至分辨率R(l)。另外，聚合器480基于最高分辨率的输出图像块486来生成一个或多个标签图488，以定位组件。

在图4中的示例中，N＝M＝4m L＝3，并且聚合器480顺序地组合(或者堆叠)来自不同级别的互连图像块。首先，聚合器480对来自级别4的32个互连图像块458进行向上采样，并且将它们与来自级别3的24个互连图像块456组合(或者堆叠)在一起，以形成56个图像块的输入分组3(481)。聚合器480对图像块的输入分组3(481)执行卷积和非线性变换。以生成级别3的24个输出图像块482。

另外，聚合器480对来自级别3的24个输出图像块482进行向上采样，并且将它们与来自级别2的16个互连图像块454组合(或者堆叠)在一起，以形成40个图像块的输入分组2(483)。聚合器480对图像块的输入分组2(483)执行卷积和非线性变换，以生成级别2的16个输出图像块484。

类似地，聚合器480对来自级别2的16个输出图像块484进行向上采样，并且将它们与来自级别1的8个互连图像块452组合(或者堆叠)在一起，以形成24个图像块的输入分组1(485)。聚合器480对图像块的输入分组1(485)执行卷积和非线性变换，以生成级别1的输出图像块486。在一个方面中，输出图像块486包括8个输出图像块以及另外的输出图像块，优选为标签图的数量的两倍(例如，2*标签图+8)。聚合器480还对来自级别1的输出图像块486执行另外的卷积，以生成二进制标签图488。

HIM 220的一个方面涉及执行卷积和非线性变换。执行卷积和非线性变换允许深度神经网络拟合来自输入的块的非线性函数与深度结构。将具有L_I个通道的2d输入数据标记为卷积滤波器为2d输出，关于每个输出层的偏置B^I，由HIM 220执行的卷积和非线性变换可以表征如下：

关于被用于获得二进制标签图488的线性卷积，可以省略双曲正切运算符。在一种实现方式中，优选相同大小的输入和输出，因此，输入的可见范围的外部用一圈零来填充(对于可见范围外部的x和y，)。填充位移pad可以被设置成(R_W-1)/2，使得输出的各个字段以输入的相同位置为中心。可以在卷积之后、在双曲正切之前应用偏置参数B^L。

HIM 220的另一个方面涉及执行向下采样，以使得神经元能够具有更大的相应字段。在一种方法中，最大池化(max pooling)技术用于向下采样。给定NxN输入最大池化取得来自每个MxM子补片的最大值作为其输出。能够设置步幅K，使得子补片可以具有重叠的空间局部性。

{Out}_{x, y}^{L} = \max_{i, j = 0}^{M} {In}_{x | K + i, y | K + j}^{L} - - - (2)

然而，HIM 220的另一个方面涉及执行向上采样。在一种方法中，向上采样通过添加冗余性来执行。向上采样以较粗糙的尺度来填充响应图(response map)，以使其适合较精细的尺度。例如，2x2向上采样可以如下定义：

{Out}_{2 x + 1, 2 y + 1}^{L} = {Out}_{2 x + 1, 2 y + 2}^{L} = {Out}_{2 x + 2, 2 y + 1}^{L} = {Out}_{2 x + 2, 2 y + 2}^{L} = {In}_{x, y}^{L} - - - (3 A)

另外，HIM 220的另一个方面涉及直接生成逐像素(pixel-wise)的标签图。在一种方法中，作为损失函数的softmax和最大对数似然可以被用于如下那样地生成标签图：

{Softmax}_{x, y}^{L} = \frac{e^{{In}_{x, y}^{L}}}{Σ_{i = 1}^{L_{i n}} e^{{In}_{x, y}^{i}}} - - - (4)

其中，是监督信号，其标注仅1…Lout中的L的正确类别具有值1而其他具有值0。这里，W和H分别表示输出标签的宽度和高度。优选地，聚合器480将应用softmax，并且使用对数似然来计算损失函数。

面部解析的运算

图5是根据一个实施例的解析面部图像的方法的流程图。面部解析模块120采用一个或多个HIM来生成面部图像的表示。面部解析模块120使用HIM来识别面部部位的位置的估计值(510)。面部解析模块120使用图像提取器230，基于部分面部图像的所估计的位置来提取部分面部图像(520)。面部解析模块120使用另外的HIM作为眼睛、眉毛、鼻子和嘴的第二级，基于所提取的部分面部图像，来精确化面部部位的位置(530)。面部解析模块120组合面部图像与所定位的面部部位(540)，以指示面部部位的位置和/或印迹。

图6是识别面部部位的位置和/或印迹的方法的流程图。HIM从面部图像生成图像块的级别(610)。HIM通过组合与不同级别相关联的图像块来生成互连图像块(620)。不同级别m的互连图像块具有不同的分辨率R(m)，并且级别m的互连图像块从图像块的输入分组m生成，图像块的输入分组m包含：(i)来自R(n)＝R(m)的级别n的图像块；以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)。优选地，级别m的互连图像块来自图像块的输入分组m，图像块的输入分组m包括：(i)来自R(n)＝R(m)的级别n的图像块；(ii)来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块(如果存在的话)。HIM通过组合互连图像块以及生成一个或多个二进制标签图，来识别面部部位的位置和/或印迹(630)。

模拟结果

为了验证面部识别系统100和面部解析模块120的性能，测试不同的图像解析方法，包括最大池化完全连接(MPFC)、纯卷积双曲正切(TANH)、不具有互连多尺度的分层CNN(HNOIM)以及包括HIM 220的面部解析模块120。

为了比较，应用来自Helen数据库的2330个面部图像。将2330个面部图像分到3个分组中，其中，2000个图像用于训练，230个用于验证/调谐，并且100个用于测试。因为Helen数据库中的注释是基于关键点的，所以，为了更好地比较，将Helen数据库中的图像重新调节大小并且修改为在像素级地面实况数据上粗略地对齐。为了比较，通过使用手动注释的轮廓作为分割边界，来自动地生成地面实况眼睛、眉毛、鼻子、嘴内、上嘴唇和下嘴唇片段。

图7例示原始图像和具有所识别的面部部位的地面实况的经处理的图像的示例，以便比较。来自Helen数据库的原始图像710在顶行中示出，而具有所识别的面部部位的地面实况图像720在底行中示出。顶行中的图像具有围绕每个组件轮廓的点标记。这些点以标记眼睛、眉毛等的预先定义的次序。处理底行中的地面实况图像，以将这些点柔和地链接，从而生成逐像素的标签区域。

对于训练集和调谐集中的每个图像，提取每个组件的块图像。优选地，块图像大小为64x64像素以在数据集中包括眉毛、眼睛和鼻子中的一个，以及80x80像素以包括嘴。

为了防止过度拟合并且增强面部解析模块120，应用数据论证(dataargumentation)。每当块图像被选择作为输入时，应用随机±15度旋转、随机0.9-1.1x缩放以及在每个方向上的随机±10像素位移。

图8例示包括由各种方法获得的所识别的面部部位中的一个的图像块，以便比较。第一列包括包含鼻子、眉毛、眼睛和上嘴唇的地面实况的图像块。第二列包括具有使用MPFC识别的组件的图像块。第三列包括具有使用TANH识别的组件的图像块。第四列包括具有使用HNOIM识别的组件的图像块。第五列包括如上所述地使用HIM识别的组件的图像块。MPFC、TANH和HNOIM是替代方法。

如图8中所示，尽管MPFC良好地捕获全局特征，但是MPFC在阴影、非刚性变换和看不见的大形变方面表现较差。相比之下，TANH和HNOIM更多地关注于局部外观，但是在全局特征的合并方面欠缺。与MPFC模型不同，TANH和HNOIM在响应中的随机位置处具有随机噪声。因此，TANH和HNOIM产生组件的较差识别。HIM(如上所述的方法)利用全局特征与局部外观之间的良好平衡，从而实现接近第一列中的地面实况的出色结果。

在表格1中列出MPFC、TANH、HNOIM和HIM在图像块上的F1得分。如表格1中所示，在识别眉毛、眼睛、鼻子和上嘴唇方面，HIM胜于MPFC、TANH和HNOIM。在识别嘴内和下嘴唇方面，HNOIM表现稍微好于HIM。然而，对于嘴内唇和下嘴唇，HIM仍然表现良好。

表格1.每个模型在每个组件上的F1得分比较

图9例示具有由使用常规加关键点的各种方法所获得的所识别的面部部位的面部图像。使用常规加关键点代替估计HIM 220来定位面部部位，以便比较MPFC、TANH、HNOIM和HIM的性能。图像910是由MPFC获得的结果，图像920是由TANH获得的结果，图像930是由HNOIM获得的结果，而图像940是由HIM获得的结果。

在表格2中列出使用常规加关键点的MPFC、TANH、HNOIM和HIM在面部图像上的F1得分。如图9中所示，HIM产生令人印象深刻的结果。

表格2.每个模型使用常规加关键点在每个组件上的F1得分比较

图10例示具有由面部解析模块120获得的所识别的面部部位的面部图像。来自Helen数据库的原始图像1010在顶行中示出，而具有所识别的面部部位的图像1020在底行中示出。

如图10中所示，使用HIM的面部解析模块120在捕捉眉毛、鼻梁以及高度可形变的嘴唇的复杂形状时表现良好。面部解析模块120不需要任何预处理，并且在估计HIM 220中自动地获得头部位置和粗略分割。

虽然详细描述包含许多细节，但是这些不应当被解释为限制本发明的范围，而是应当被解释为仅仅是例示本发明的不同示例和方面。应当领会到，本发明的范围包括未在上文详细讨论的其他实施例。例如，除了面部识别和表示之外，在HIM 220或者面部解析模块120中所公开的原理还可以应用于其他区域或对象，例如解析其他类型的图像。可以在本文所公开的本发明的方法和装置的布置、操作和细节方面做出对于本领域的那些技术人员将是显然的各种其他修改、改变和变化，而不背离如在所附的权利要求书中所限定的本发明的精神和范围。因此，本发明的范围应当由所附的权利要求书及其法律等同物来确定。

在替代的实施例中，本发明实现为计算机硬件、固件、软件和/或它们的组合。本发明的装置能够实现为有形地实施在机器可读的存储设备中以便由可编程处理器执行的计算机程序产品；并且本发明的方法步骤能够由通过操作输入数据并且生成输出来执行指令程序以执行本发明的功能的可编程处理器来执行。本发明能够有利地实现为可在可编程系统上执行的一个或多个计算机程序，可编程系统包括至少一个可编程处理器、至少一个输入设备以及至少一个输出设备，所述至少一个可编程处理器被耦合以从数据存储系统接收数据和指令以及向数据存储系统传送数据和指令。每个计算机程序能够以高级程序或者面向对象的编程语言来实现，或者如果期望的话，能够以汇编或机器语言来实现；并且在任何情况下，语言可以是编译或解释语言。作为示例，适当的处理器包括通用和专用微处理器。一般地，处理器将从只读存储器和/或随机存取存储器接收指令和数据。一般地，计算机将包括用于存储数据文件的一个或多个海量存储设备；这样的设备包括诸如内部硬盘和可移动盘这样的磁盘、磁光盘以及光盘。适合于有形地实施计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，例如包括诸如EPROM、EEPROM和闪存设备这样的半导体存储设备、诸如内部硬盘和可移动盘这样的磁盘、磁光盘以及CD-ROM盘。前述中的任何均可由ASIC(专用集成电路)和其他形成的硬件补充或者合并在ASIC以及其他形成的硬件中。

C16W9264.01CN附图翻译

图1

编号或英文	中文
		100	面部识别系统
110	输入图像
		120	面部解析模块
130	分析模块
		140	处理器
150	度量

图2

编号或英文	中文
		110	输入图像
120	面部解析模块
		210	第一图像提取器
215	面部图像
		220	估计HIM
230	第二图像提取器
		240	精确化HIM
250	输出生成器

图3

图4

编号或英文	中文
		220	估计HIM
410	级别生成器
		450	互连组合器
480	聚合器
		Level	级别
downsampling	向下采样
		layers	层
Label map	标签图

图5

图6

图8

编号或英文	中文
		Ground truth	地面实况

Claims

1.一种将图像解析成组件的系统，该系统包含

用于从图像定位组件的分层互连多尺度卷积神经网络(HIM)，该HIM包含：

级别生成器，被配置为接收图像以及从所述图像生成N个级别的图像块，其中N>2，其中，不同级别n的图像块具有不同的分辨率R(n)，并且级别n的图像块从被重新采样至分辨率R(n)的所述图像生成；

互连组合器，被配置为接收来自所述级别生成器的所述N个级别的图像块以及从所述N个级别的图像块生成M个级别的互连图像块，其中2<M≤N，其中，不同级别m的互连图像块具有不同的分辨率R(m)，并且级别m的互连图像块从图像块的输入分组m生成，所述图像块的输入分组m包含(i)来自R(n)＝R(m)的级别n的图像块，以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)；以及

聚合器，被配置为通过组合所述M个级别的互连图像块来定位组件。

2.根据权利要求1所述的系统，其中，所述级别生成器通过对被重新采样至分辨率R(n)的图像执行卷积和非线性变换来生成级别n的图像块。

3.根据权利要求1所述的系统，其中，所述互连组合器通过对图像块的输入分组m执行卷积和非线性变换来生成级别m的互连图像块。

4.根据权利要求1所述的系统，其中，所述聚合器被配置为接收所述M个级别的互连图像块以及生成L个级别的输出图像块，其中L<M，其中，不同级别l的输出图像块具有不同的分辨率R(l)，每个R(l)对应于R(m)中的一个，并且级别l的输出图像块从图像块的输入分组l生成，图像块的输入分组l包含(i)来自R(m)＝R(l)的级别m的互连图像块，以及(ii)来自具有小于R(l)的分辨率的一个或多个级别的输出图像块，其中这样的输出图像块已经被重新采样至分辨率R(l)。

5.根据权利要求4所述的系统，其中，所述聚合器通过对图像块的输入分组l执行卷积和非线性变换来生成级别l的输出图像块。

6.根据权利要求4所述的系统，其中，所述聚合器基于最高分辨率的输出图像块来定位组件。

7.根据权利要求1所述的系统，其中，M＝N并且L＝M-1。

8.根据权利要求7所述的系统，其中，级别n＝1具有与所述图像的分辨率相同的分辨率R(n＝1)，并且每个其他级别n具有相对于具有分辨率R(n-1)的前一个级别n-1按照常量因子被向下采样的分辨率R(n)。

9.根据权利要求8所述的系统，其中，常量因子是2倍或以下的向下采样。

10.根据权利要求8所述的系统，其中，所述级别生成器生成具有较低分辨率R(n)的级别n的更多的图像块。

11.根据权利要求7所述的系统，其中，所述互连组合器从图像块的输入分组m生成级别m的互连图像块，图像块的输入分组m包含(i)来自R(n)＝R(m)的级别n的图像块，(ii)存在的来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)。

12.根据权利要求7所述的系统，其中，所述聚合器从图像块的输入分组l生成级别l的输出图像块，图像块的输入分组l包含(i)来自R(m)＝R(l)的级别m的互连图像块，以及(ii)来自具有比R(l)次低的分辨率的级别m的输出图像块，其中这样的输出图像块已经被重新采样至分辨率R(l)。

13.根据权利要求1所述的系统，还包含：

分层互连多尺度卷积神经网络的第二级，被配置为接收由所述HIM产生的组件位置，所述第二级中的每个分层互连多尺度卷积神经网络被配置为进一步精确化所述组件中的一个的位置和/或印迹。

14.根据权利要求1所述的系统，其中，所述图像是面部图像，并且所述组件是包括眼睛、眉毛、鼻子和嘴的面部组件。

15.根据权利要求14所述的系统，其中，所述聚合器产生指示所述面部组件的位置的二进制标签图。

16.根据权利要求14所述的系统，还包含：

分层互连多尺度卷积神经网络的第二级，被配置为接收由所述HIM产生的面部组件位置，所述第二级中的分层互连多尺度卷积神经网络中的至少一个被配置为分别进一步精确化眼睛、鼻子和嘴的位置和/或印迹。

17.根据权利要求16所述的系统，还包含：

图像提取器，耦合在所述HIM与所述第二级之间，所述图像提取器用于基于所述面部图像和由所述HIM产生的所述面部组件的所述位置来提取面部组件图像，所提取的面部组件图像被提供给所述第二级。

18.根据权利要求14所述的系统，还包含：

输出生成器，被配置为在面部图像上重叠面部组件的位置。

19.根据权利要求1所述的系统，其中：

M＝N并且L＝M-1；

级别n＝1具有与图像的分辨率相同的分辨率R(n＝1)，并且每个其他级别n具有相对于具有分辨率R(n-1)的前一个级别n-1按照2或以下的常量因子被向下采样的分辨率R(n)；

所述级别生成器通过对被重新采样至分辨率R(n)的图像执行卷积和非线性变换来生成级别n的图像块，并且所述级别生成器生成具有较低分辨率R(n)的级别n的更多的图像块；

所述互连组合器通过对图像块的输入分组m执行卷积和非线性变换来生成级别m的互连图像块，图像块的输入分组m包含(i)来自R(n)＝R(m)的级别n的图像块，以及(ii)存在的来自具有比R(m)次高的分辨率的级别n以及具有比R(m)次低的分辨率的级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)；

所述聚合器被配置为接收所述M个级别的互连图像块以及生成L个级别的输出图像块，其中L<M，其中，不同级别l的输出图像块具有不同的分辨率R(l)，每个R(l)对应于R(m)中的一个，并且级别l的输出图像块通过对图像块的输入分组l执行卷积和非线性变换来生成，图像块的输入分组l包含(i)来自R(m)＝R(l)的级别m的互连图像块，以及(ii)来自具有比R(l)次低的分辨率的级别m的输出图像块，其中这样的输出图像块已经被重新采样至分辨率R(l)；以及

所述聚合器基于最高分辨率的输出图像块来定位所述组件。

20.一种将图像解析成组件的方法，该方法包含：

从图像生成N个级别的图像块，其中N>2，其中，不同级别n的图像块具有不同的分辨率R(n)，并且级别n的图像块从被重新采样至分辨率R(n)的所述图像生成；

从所述N个级别的图像块生成M个级别的互连图像块，其中2<M≤N，其中，不同级别m的互连图像块具有不同的分辨率R(m)，并且级别m的互连图像块从图像块的输入分组m生成，所述图像块的输入分组m包含(i)来自R(n)＝R(m)的级别n的图像块，以及(ii)来自R(n)≠R(m)的一个或多个级别n的图像块，其中这样的图像块已经被重新采样至分辨率R(m)；以及

通过组合所述M个级别的互连图像块来定位组件。

21.一种非临时性计算机可读介质，被配置为存储程序代码，该程序代码包含用于将图像解析成组件的指令，所述指令在被处理器执行时使处理器：

从图像生成N个级别的图像块，其中N>2，其中，不同级别n的图像块具有不同的分辨率R(n)，并且级别n的图像块从被重新采样至分辨率R(n)的图像生成；

通过组合所述M个级别的互连图像块来定位组件。