CN101171598A

CN101171598A - 采用神经网络定位对象图像中的感兴趣点的系统和方法

Info

Publication number: CN101171598A
Application number: CNA2006800149363A
Authority: CN
Inventors: 克里斯托弗·加西亚; 斯特凡·多弗内尔
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2005-03-31
Filing date: 2006-03-28
Publication date: 2008-04-30
Also published as: WO2006103241A3; EP1866834A2; WO2006103241A2; FR2884008A1; US20080201282A1; JP2008536211A

Abstract

本发明涉及一种用于定位对象图像中的至少两个感兴趣点的系统。根据本发明，一种这样的系统使用人工神经网络并具有分层的体系结构，包括：接收所述对象图像的输入层(E)；至少一个中间层(N₄)，被称为第一中间层，包括多个神经元(N₄₁)，这些神经元可被用于生成至少两个显著性图(R_5m)，每个显著性图与所述对象图像中一个不同的预定义的感兴趣点相关联；和至少一个包含上述显著性图(R_5m)的输出层(R₅)，所述图包括多个神经元，每个神经元与第一中间层的所有神经元相连。根据本发明，借助于在每个显著性图上的唯一全局最大值的位置(17₁，17₂，17₃，17₄)，在对象图像中定位所述感兴趣点。

Description

采用神经网络定位对象图像中的感兴趣点的系统和方法

技术领域

本发明涉及静止或运动图像的数字处理领域。更具体地，本发明涉及在用数字图像表示的对象中定位一个或多个感兴趣点的技术。

本发明特别适用于但不一定专用于以下领域：检测在数字或数字化图像中的面部的物理特征，例如瞳孔、眼角、鼻尖、嘴部、眉毛等。实际上，面部图像的感兴趣点的自动检测是面部分析的主要方面。

背景技术

在本领域中有几种已知的技术，它们大多包括利用专用的、专门化的过滤器独立地搜寻和检测每个特定的面部特征。

所使用的大多数检测器依赖于对面部的色度的分析：面部的像素根据它们的颜色被标记为属于皮肤或者面部元素。

其它检测器使用对比度变化。至此，依赖于对光梯度的分析，完成了轮廓检测。然后尝试根据检测出的不同轮廓来识别面部元素。

其它方法利用每个元素的统计模型实施相关性搜索。这些模型是使用所要搜寻的每个元素的图像(或者本征特征)由主要成份分析(PCA)构建的。

某些现有技术实施第二阶段，其中对在每个元素的独立检测的第一阶段中确定的所有候选位置应用几何面部模型。在初始阶段检测到的元素构成了候选位置的合成体，可变形的几何模型被用于选择最佳合成体。

近来一种方法可被用来超越传统的两步骤方案(包括对面部元素的独立搜索，接着是应用几何规则)。该方法依赖于活动表情模型(AAM)的使用，在D.Cristinacce和T.Cootes的文章“A comparisonof shape constrained facial feature detectors”(2004年韩国首尔的第六届面部和姿势自动识别国际会议的论文集，pp 375-380，2004)中有专门的描述。它由以下步骤组成：通过调整包含形状和纹理的线性模型的参数，尝试使一个活动面部模型对应于图像中的面部，借此来预测面部元素的位置。该面部模型是从利用对向量的主要成份分析(PCA)来标注感兴趣点的多个面部中学习得到的，所述向量编码感兴趣点的位置和相关面部的光纹理。

现有技术的缺点

这些现有技术的主要缺点是在含有影响面部图像，特别是对象图像的噪声的面部中鲁棒性较低。

事实上，专门设计用来检测面部元素的检测器不能抵抗图像照明的极端条件，例如过度照明、照明不足、侧光、从底部照明。它们对于图像质量的变化也几乎没有什么鲁棒性，特别是在从(例如利用网络摄像头采集的)视频流获得的低分辨率图像或者前面已受到压缩的低分辨率图像的情况下。

依赖于色度分析(其应用肤色过滤器)的方法对于照明条件也很敏感。此外，它们不能应用于灰度级图像。

这些依赖于对不同感兴趣点的独立检测的现有技术的另一个缺点是：当这些感兴趣点被隐藏时，这些技术完全没有办法，例如在戴墨镜时眼睛就被隐藏起来，当有胡子或者被手遮挡时嘴部就被隐藏起来，更常见的情形是图像出现局部严重退化时。

检测几个元素甚至只是一个元素的失败通常不会由于后面使用几何面部模型而被修正。该模型只是当不得不在几个原本应在前一阶段检测出的候选位置中做出选择时才被使用。

这些不同的缺点在依赖于活动面部的方法中得到部分补偿，这些方法通过形状和纹理信息的联合使用实现对元素的大致搜索。然而，这些方法有另一项缺点，即它们依赖于缓慢的、不稳定的最优化过程，该过程有赖于必须在搜索期间反复确定的成百上千的参数，这是一个特别漫长又痛苦的过程。

此外，由于所使用的统计模型是线性的，由PCA创建的，所以它们对于图像的整体变化，特别是照明变化表现出低的鲁棒性。它们对于面部的部分隐藏具有低的鲁棒性。

发明内容

本发明的目标

本发明的目的就是为了克服现有技术的这些缺点。

更具体地，本发明的目标是提供一种用于在表示一个对象的图像中定位几个感兴趣点的技术，它不需要专用于必须能被定位的每个感兴趣点以及专用于每一类对象的过滤器的漫长又痛苦的开发过程。

本发明的另一个目标是提出这样一种定位技术，它对于可能影响图像的所有噪声，例如照明条件、色度变化、部分隐藏等都有很强的鲁棒性。

本发明的另一个目标是提供这样一种技术，它考虑了部分影响图像的隐藏问题，并允许对隐藏点的位置进行推断。

本发明还有一个目标是提供这样一种技术，它应用简单，实施成本低。

本发明还有一个目标是提供这样一种技术，它特别适于面部图像中的面部元素的检测。

这些目标以及在下面将会表现出的其它目标是通过一种用于定位对象图像中的至少两个感兴趣点的系统实现的，该系统采用人工神经网络并呈现分层的体系结构，该系统包括：

-接收所述对象图像的输入层；

-至少一个中间层，被称为第一中间层，包括多个神经元，这些神经元使得能够生成至少两个显著性图，每个显著性图与所述对象图像的一个预定义的不同的感兴趣点相关联；

-至少一个包括所述显著性图的输出层，所述显著性图包括多个神经元，每个神经元与所述第一中间层的所有神经元相连，

借助于在每个所述显著性图上的唯一总体最大值的位置，在对象图像中定位所述感兴趣点。

可见，由于本发明提出了神经分层体系结构的使用，使得可在输出上生成几个显著性图，使得通过对最大值的简单搜索可以直接检测待定位的感兴趣点，因此本发明是基于完成新颖和创新的方法来检测在表示对象的图像中的几个感兴趣点。

本发明因此提出了一种借助于神经网络在整个对象图像中全面搜索不同的感兴趣点的技术，使得有可能特别考虑这些点的相对位置，还可以克服与这些点的全部或部分隐藏有关的问题。

输出层包括至少两个显著性图，每个显著性图与预定义的一个不同的感兴趣点有关。因而可以通过使每个显著性图专用于一个特定的感兴趣点：该点然后通过对每个图上的唯一最大值的搜索而被定位，借此对几个感兴趣点同时进行搜索。这与在一个总显著性图上与所有感兴趣点相关联地对几个局部最大值同时进行搜索相比，要容易一些。

此外，不再需要设计和开发专用于不同感兴趣点的检测的过滤器。在完成初步的学习阶段后利用神经网络自动找到这些过滤器。

此外，这种神经体系结构证明在对象图像照明等可能的问题方面要比现有技术更具鲁棒性。

必须指出，这里的术语“预定义的感兴趣点”被理解为代表对象的一个显著的元素，例如在面部图像的情况下，它会是眼睛、鼻子、嘴部等。

本发明因此不是对图像中的任何轮廓都进行搜索，而是对预定义的标识的元素进行搜索。

根据一个有利的特点，所述对象图像是面部图像。于是，所搜寻的感兴趣点是永久实体特征，例如眼睛、鼻子、眉毛等。

有利地，这种定位系统还包括至少一个包括多个神经元的第二中间卷积层。这样一层可以专用于检测对象图像中的低级元素，例如对比度线(contrast line)。

优选地，这种定位系统还包括至少一个包括多个神经元的第三亚抽样中间层。因此减小了在上面完成工作的图像的尺度。

在本发明的优选实施方式中，这样的定位系统在所述输入层和所述第一中间层之间包括：

-包括多个神经元的第二中间卷积层，该层使得能够在所述对象图像中检测至少一个基本线型形状，所述第二中间层送出卷积对象图像；

-包括多个神经元的第三中间亚抽样层，该层使得能够减小所述卷积对象图像的大小，所述第三中间层送出减小的卷积对象图像；

-包括多个神经元的第四中间卷积层，该层使得能够在所述减小的卷积对象图像中检测至少一个角型复杂形状。

本发明还涉及如上所述的用于定位对象图像中的至少两个感兴趣点的系统的神经网络的学习方法。每个所述神经元具有至少一个用突触权重(synaptic weight)加权的输入以及偏置(bias)。这种类型的学习方法包括以下步骤：

-构建一个学习库，该学习库包括多个被标注为所述待定位的感兴趣点的函数的对象图像；

-初始化所述突触权重和/或所述偏置；

-对于所述学习库的所述标注图像中的每一个：

-在输出上由在所述图像上所述至少两个标注的、预定义的感兴趣点中的每一个准备所述至少两个期望的显著性图；

-在所述系统的输入上呈现所述图像，用于定位和确定在所述输出上送出的所述至少两个显著性图；

-在所述学习库的所述标注图像的集合上，最小化在输出上送出的所述期望的显著性图之间的差，以便确定所述突触权重和/或所述最优偏置。

可见，根据由用户手工标注的例子，神经网络学习识别对象图像中的某些感兴趣点。然后它就能够在网络的输入上给出的任何图像中定位感兴趣点。

有利地，所述最小化是在输出上送出的所述期望的显著性图之间的均方差的最小化，并且应用迭代梯度反向传播算法。该算法被详细描述在本文件的附录2中，使得可以快速收敛到网络的不同偏置和突触权重的最优值。

本发明还涉及用于定位对象图像中的至少两个感兴趣点的方法，该方法包括以下步骤：

-在采用人工神经网络的分层体系结构的输入上呈现所述对象图像；

-连续地激活至少一个中间层和至少一个输出层，所述至少一个中间层被称为第一中间层，包括多个神经元，使得能够生成至少两个显著性图，每个显著性图与所述对象图像的一个预定义的不同感兴趣点相关联，所述至少一个输出层包括所述显著性图，所述显著性图包括多个神经元，这些神经元中的每一个都连接到所述第一中间层的所有神经元；

-通过在所述显著性图中搜索在每一个所述图上的唯一总体最大值的位置，定位所述对象图像中的所述感兴趣点。

根据本发明的有利特点，这种类型的定位方法包括以下预备步骤：

-在无论任何图像中检测围绕所述对象并且组成所述对象图像的区域；

-重定所述对象图像的大小。

该检测可以用本领域的技术人员公知的传统检测器完成，例如可用于在一个复杂图像中确定围绕面部的方框的面部检测器。重定大小可以由检测器自动完成，或者由专用装置独立完成：它使得在神经网络的输入上可以给出大小全都相同的图像。

本发明还涉及一种包括以下程序代码指令的计算机程序，所述程序在由处理器执行时执行用于上述神经网络的学习方法，本发明还涉及包括以下程序代码指令的计算机程序，所述程序在由处理器执行时执行上述用于定位对象图像中的至少两个感兴趣点的方法。

这样的程序可以从通信网络(例如国际互联网)下载和/或被存储在计算机可读数据载体上。

附图说明

参考附图，结合以下利用说明性的而非限制性的例子给出的对优选实施方式的描述将更加清楚本发明的其它特征和优点，在附图中：

图1是本发明的用于定位对象图像中的感兴趣点的系统的神经体系结构的框图；

图2提供了在图1的神经体系结构中的卷积图以及后面的亚抽样图的更精确的图示；

图3a和3b给出了学习库的面部图像一些例子；

图4描述了根据本发明用于在面部图像中定位面部元素的方法的主要步骤；

图5是本发明的定位系统的简化框图；

图6是多层感知器类型的人工神经网络的一个例子；

图7提供了人工神经元的结构的更精确图示；

图8给出了用作S形神经元的转移函数的双曲正切函数的特性。

具体实施方式

本发明的基本原理依赖于神经体系结构的使用，该神经体系结构使得可自动检测在对象图像(更具体地是半刚性对象)中，特别是在面部图像中的几个感兴趣点(检测永久特征，例如眼睛、鼻子或嘴部)。更具体地，本发明的原理包括构建一个神经网络，借助于该神经网络可以学习在一次操作中将对象图像转换成几个显著性图，对于这些显著性图而言，最大值的位置对应于在输入上给出的对象图像中由用户选择的感兴趣点的位置。

该神经体系结构由几个异质层组成，这些层使得能够自动开发鲁棒的低级检测器，同时允许学习用于支配所检测的元素的看似可行的相对布局的规则，并使任何可用的信息都被考虑进来用于定位可能存在的隐藏的元素。

在学习阶段，根据一组预先分割的对象图像并且根据在这些图像中的感兴趣点的位置来设置神经元的所有连接权重。

神经体系结构此后象级联的过滤器一样工作，使得在更大尺寸的图像中或者在视频序列中预先检测出的、包含对象的图像区域可被转换成一组具有输入图像大小的数字图，其元素在-1和1之间分布。每个图对应于一个特定的感兴趣点，通过对数值为最大值的元素的位置的简单搜索就可以确定该感兴趣点的位置。

在本申请文件的后续部分将试图在检测一个面部图像上的几个面部元素的上下文中更具体地描述本发明的典型实施方式。然而，本发明当然也可以适用于检测在表示对象的图像中的任意感兴趣点，例如检测汽车的车体的元素或者检测一组建筑物的结构特性。

在检测面部图像的物理特性的上下文中，本发明的方法使得能够对处于不同面部表情的不同姿态(方向、半正向视图)的面部中的面部元素进行鲁棒检测，这些不同姿态的面部可能含有隐藏的元素，出现在图像中时可能在分辨率、对比度和照明方面具有很高的可变性。

1.神经体系结构

参考图1，图中给出了本发明用于定位感兴趣点的系统的人工神经网络的体系结构。这样的人工神经元以及它们的结构的工作原理被记载在附录1中，附录1构成本说明书的整体的一部分。这种类型的神经网络例如是多层感知器类型网络，它也被描述在附录1中。

诸如此类的神经网络由六个互连的异质层组成，它们被标注为E、C₁、S₂、C₃、N₄和R₅，它们包含从一连串卷积和亚抽样操作而来的一系列图。借助它们连续的、联合的动作，这些不同的层提取出在输入上呈现的图像中的图元，导致输出图R_5m的产生，从输出图R_5m可以容易地确定感兴趣点的位置。

更具体地，所提出的体系结构包括：

-输入层E：这是一个视网膜，它是一个大小为H×L的图像矩阵，H是行数，L是列数。输入层E接收同样大小的图像区域H×L的元素。对于在神经网络的输入上呈现的图像中灰度级为P_i，j(P_i，j从0到255变化)的每个像素，矩阵E中的对应元素是E_ij＝(P_i，j-128)/128，其数值分布在-1和1之间。选择H＝56以及L＝46。H×L因此也是用于参数化神经网络的学习库的面部图像以及想要在其中检测一个或多个面部元素的面部图像的大小。该大小可以是在从更大尺寸的图像或者视频序列的面部图像执行提取的面部检测器的输出上直接获得的。它也可以是在面部检测器进行提取后面部图像被重定大小时的尺寸。优选地，这种类型的重定大小保持面部的原始比例。

-由被标为C_1i的NC₁个图组成的第一卷积层C₁。每个图C_1i通过10_j被连接到输入图E，并且包括多个线性神经元(如附录1中所述)。这些神经元的每一个通过突触连接到在图E中的一组M₁×M₁个相邻元素(接受域)，下面在图2中将更详细地描述。此外，这些神经元的每一个都接收偏置。这些M₁×M₁个突触加上偏置由C_1j的神经元集合共享。因此，每个图C_1i对应于在输入图E中按偏置递增的M₁×M₁核11的卷积结果。该卷积专用为在输入图中某些低级形状的检测器，例如图像的有向对比度线。每个图C_1i的大小因此被定为H₁×L₁，其中H₁＝(H-M₁+1)，L₁＝(L-M₁+1)，以避免卷积的边缘效应。例如层C₁包含NC₁＝4个大小为50×41的图，卷积核大小为NN₁×NN₁＝7×7；

-由NS2个图S_2j组成的亚抽样层S₂。每个图S_2j通过12_j连接到对应的图C_1i。图S_2j的每个神经元接收在图C_1i中的M₂×M₂个相邻元素13的平均值(接受域)，下面在图2中将更详细地描述。每个神经元将该平均值乘以突触权重再加上偏置。突触权重和偏置的最优值是在学习阶段确定的，它们由每个图S_2j的神经元集合共享。在通过S形函数后获得每个神经元的输出。每个图S_2j的大小被定为H₂×L₂，其中H₂＝H₁/M₂，L₂＝L₁/M₂。例如，层S₂包含NS₂＝4个大小为25×20的图，NN₂×NN₂＝2×2的亚抽样1；

-卷积层C₃，由NC₃个图C_3k组成。每个图C_3k通过14_k连接到亚抽样层S₂的图S_2j。图C_3k的神经元是线性的，并且每个神经元通过突触连接到在每个图S_2j中的一组M₃×M₃个相邻元素15。此外，它还接收偏置。每个图的M₃×M₃个突触加上偏置I是由图C_3k的神经元集合共享的。图C_3k对应于按偏置递增的、核为M₃×M₃ 15的NC₃次卷积的求和结果。在输入处的贡献图C_1i上加入提取，这些卷积使得能够提取最高级特征，例如角。每个图C_3k的大小被定为H₃×L₃，其中H₃＝(H₂-M₃+1)，L₃＝(L₂-M₃+1)。例如，层C₃包含NC₃＝4个大小为21×16的图，卷积核大小为NN₃×NN₃＝5×5；

-由NN₄个S形神经元N_4l组成的层N₄。层N₄的每个神经元通过16₁连接到层C₃的所有神经元，并接收偏置。这些神经元N_4l被用于学习生成输出图R_5m，考虑图C₃的总数，最大化在这些图的每一个上的感兴趣点的位置上的响应，从而可以检测一个特定的感兴趣点，同时考虑其它点的检测。所选择的数值例如是NN₄＝100个神经元，选择双曲正切函数(此后称为th或tanh)用于S形函数的转移函数。

-由NR₅个图R_5m组成的图层R₅，一个图R_5m对应于用户所选择的每个感兴趣点(右眼、左眼、鼻子、嘴部等)。每个图R_5m被连接到层N₄的所有神经元。图R_5m的神经元是S形的，每个神经元连接到层N₄的所有神经元。每个图R_5m的大小为H×L，这是输入层E的大小。所选择的数值例如是NR₅＝4个大小为56×46的图。在激活神经网络后，在每个图R_5m中具有最大输出的神经元17₁、17₂、17₃、17₄的位置对应于在网络的输入上呈现的图像中的相应面部元素的位置。应当注意，在本发明的实施方式的一个变型中，层R₅只有一个显著性图，其中在图像中待定位的所有感兴趣点都被给出。

图2图示了5×5卷积11的图C_1i，后面跟着2×2亚抽样13的图S_2j。可以注意到，所执行的卷积没有考虑位于图C_1i的边缘的像素，以避免边缘效应。

为了能够检测面部图像中的感兴趣点，需要在下面描述的学习阶段对图1的神经网络进行参数化。

2.从图像库学习

在构建上述分层的神经体系结构后，因此建立了由标注图像组成的学习库，以便通过学习调节该体系结构的所有神经元的突触的权重。

为此执行下述过程：

首先，从大尺寸的身体图像中手动提取面部图像的集合T。每个面部图像被重定大小为神经体系结构的输入层E的大小H×L，优选地保持面部的自然比例。可以看出，提取出的是表情变化的面部图像。

在一个集中检测面部中的四个感兴趣点(主要是右眼、左眼、鼻子和嘴部)的具体实施方式中，眼睛、鼻子和嘴部中心的位置被手动标识，如图3a所示：因此，获得了被标注为神经网络将要学习定位的感兴趣点的函数的一组图像。这些在图像中要定位的感兴趣点可以由用户自由选择。

为了自动生成更多变化的例子，对于这些图像以及所标注的位置施加一组变换，例如列方向和行方向上的平移(例如向左、向右、向上、向下平移多达6个像素)相对于图像中心旋转-25°到25°之间的角度，将面部大小缩放0.8到1.2倍。因而由给定的图像获得了多个转换后的图像，如图3b所示。应用于面部图像的变化可被用于在学习阶段不仅考虑面部的可能表情，而且考虑在面部的自动检测过程中可能的集中差错。

集合T被称为学习集合。

例如，可以使用由大约2500个面部图像组成的学习库，这些面部图像被手动标注为左眼、右眼、鼻子和嘴部的中心的位置的函数。在对这些标注的图像进行几何修改(平移、旋转、缩放等)后，获得所标注的面部的大约32000个例子，显示了很高的可变性。

然后，自动学习神经体系结构的突触权重和偏置的集合。为此，首先，神经元集合的所有偏置和突触权重被随机地初始化为小数值。然后，集合T的N_T个图像I以任意未指定的顺序被呈现在神经网络的输入层E中。对于所呈现的每个图像I，准备神经网络在其操作最优的情况下必须在层R₅送出的输出图D_5m：这些图D_5m被称为期望图。

在每一个图D_5m中，除了位置对应于图D_5m必须渲染的、可能定位的面部元素的点(其期望值为1)之外，点集合的数值被固定在-1。这些图D_5m被显示在图3a中，其中每个点对应于具有值+1的点，它的位置对应于所要定位的面部元素(右眼、左眼、鼻子或嘴部中心)的位置。

一旦已经准备好图D_5m，神经网络的输入层E和层C₁、S₂、C₃、N₄和R₅就一个接一个地被激活。

在层R₅中，我们于是获得了神经网络对于图像I的响应。目标是获得与期望图D_5m相同的图R_5m。因此我们定义一个目标函数，它应被最小化以实现这一目标：

O = \frac{1}{N_{T} \times {NR}_{5} \times H \times L} Σ_{k = 1}^{N_{T}} Σ_{m = 1}^{{NR}_{5}} \underset{(i, j) &Element; H \times L}{Σ} {(R_{5 m}^{(i, j)} - D_{5 m}^{(i, j)})}^{2},

其中(i，j)对应于每个图R_5m的第i行第j列。因此所做的就是在学习集合T的标注图集合上最小化在产生的图R_5m和期望图D_5m之间的均方差。

为了最小化目标函数O，使用迭代梯度反向传播算法。该算法的原理记载在附录2中，该附录2是本说明书的组成部分。这种类型的梯度反向传播算法因而可被用来确定网络的神经元集合的所有突触权重和最优偏置。

例如，以下参数可被用于梯度反向传播算法中：

-对于层C₁、S₂、C₃的神经元，0.005的学习步阶；

-对于层N₄的神经元，0.001的学习步阶；

-对于层R₅的神经元，0.0005的学习步阶；

-对于体系结构的神经元，动量为0.2。

如果梯度反向传播算法的一次迭代被视为对应于学习集合T的所有图像的呈现，那么该算法在25次迭代后收敛到一个稳定解。

一旦已经确定了偏置和突触权重的最优值，则图1的神经网络就准备好处理任何非指定的数字面部图像，以便从中提取在学习集合T的图像中标注的感兴趣点。

3.搜索图像中的感兴趣点

此后可以使用在学习阶段中设置的图1的神经网络来搜索面部图像中的面部元素。在图4中给出了用于实现这种定位的方法。

我们使用面部检测器检测40在图像46中呈现的面部44和45。该面部检测器定位围绕每个面部44、45内部的方框。包含在每个围绕方框中的图像区域被提取41并构成其中必须对面部元素进行搜索的面部图像47、48。

每个提取出的面部图像47、48被重定大小为H×L，并被放在图1的神经体系结构的输入E处。输入层E、中间层C₁、S₂、C₃、N₄和输出层R₅一个接一个地被激活，以使神经体系结构对图像47、48进行过滤42。

在层R₅中，以对于每个图像47、48四个显著性图R_5m的形式获得神经网络对图像47、48的响应。

然后，通过搜索每个显著性图R_5m中的最大值，在面部像47、48中定位感兴趣点。更具体地，在每个图R_5m中，搜索位置(i_mmax，j_mmax)，使得对于m∈NR₅，

(i_{m_{\max}}, j_{m_{\max}}) = \arg \max_{(i, j) &Element; H \times L} R_{5 m}^{(i, j)} .

该位置对应于与该图相对应的感兴趣点(例如右眼)的搜寻位置。

在本发明的优选实施方式中，利用面部检测器CFF在图像46中检测40面部，上述面部检测器CFF是由C.Garcia和M.Delakis在“Convolution Face Finder：a Neural Architecture for Fast and RobustFace Detection，”IEEE Transaction on Pattern Analysis and MachineIntelligence，26(11)：1408-1422，November 2004中给出的。

这种类型的面部寻找器实际上可被用于在复杂的背景下，在可变的照明条件下，对最小尺寸为20×20，倾斜多达±25度以及旋转多达±60度的面部进行鲁棒的检测。CFF寻找器确定40围绕所检测的面部47、48的方框，并且方框的内部被提取，然后被重定大小41为H＝56，L＝46。然后，每个图像被呈现在图1的神经网络的输入上。

图1的定位方法对于出现在图像中的面部的高度可变性具有特别高的鲁棒性。

参考图5，现在给出用于定位对象图像中的感兴趣点的系统或设备的简化框图。这样的系统包括存储器M51和配备有处理器μP的处理单元50，该处理单元受计算机程序Pg52的驱动。

在第一级的学习阶段，处理单元50在输入上接收学习用的面部图像集合T，这些学习用的面部图像根据系统应当能够在图像中定位的感兴趣点而被标注。从这个集合出发，微处理器μP根据程序Pg52的指令应用梯度反向传播算法以优化神经网络的偏置和突触权重的值。

然后，这些最优值54被存储在存储器M51中。

在搜索感兴趣点的第二阶段，从存储器M51中取出偏置和突触权重的最优值。处理单元50在输入上接收对象图像I。根据该图像，根据程序Pg52的指令工作的微处理器μP利用神经网络执行过滤并搜索在输出上获得的显著性图中的最大值。在处理单元50的输出上，获得在图像I中搜寻的每个感兴趣点的坐标值53。

基于通过本发明检测到的感兴趣点的位置，很多应用都是可能的，例如利用模型对面部进行编码，通过局部变形而固定的面部图像的合成动画，基于特征部分(眼睛、鼻子、嘴部)的外形识别和情感识别的方法，以及更一般地，使用人工视觉的人机交互(跟随用户正在观看、嘴唇阅读等的方向)。

附录1：人工神经元和多层感知器神经网络

1.概述

多层感知器是由分层组织的人工神经元组成的有向网络，其中信息仅在从输入层到输出层的一个方向上穿行。图6示出了包含输入层60、两个隐藏层61和62以及输出层63的网络例子。输入层C总是代表与系统的输入相关的虚拟层。它不包含神经元。下面的层61到63是神经层。作为一个规则，多层感知器可以具有任意多层并且每层具有任意多的神经元(或输入)。

在图6所示的例子中，神经网络具有3个输入、在第一隐藏层61上的4个神经元、在第二层62上的3个神经元以及在输出层63上的4个神经元。最后一层63的神经元的输出对应于系统的输出。

人工神经元是一个计算单元，它接收输入信号(X，实值向量)，穿过带有权重(实值w_j)的突触连接，并且送出实值y的输出。图7示出了这种类型的人工神经元的结构，在下面第2部分中将描述该神经元的工作。

图6的网络的神经元借助于加权的突触连接，在层与层之间彼此相连。正是这些连接的权重支配着网络的运转并且通过非线性转换对从输入空间到输出空间的应用进行“编程”。因此，为解决问题而创建多层感知器需要对可能的最佳应用的推断，这是通过由多对期望输入和输出向量组成的学习数据集合来定义的。

2.人工神经元

如上所述，人工神经元是一个计算单元，它接收由n个实值[x₁，...，x_i，...，x_n]组成的向量X以及等于x₀＝+1的一个固定值。

每个输入x_i激发用w_i加权的突触。求和函数70计算势能V，该势能V在送入一个激活函数Ф后给出实值y的输出。

势能V被表示为：

V = Σ_{i = 0}^{n} w_{i} x_{i}

数量w₀x₀被称为偏置，它对应于神经元的阈值。

输出y可以表示为以下形式：

y = Φ (V) = Φ (Σ_{i = 0}^{n} w_{i} x_{i})

函数Ф根据所面对的应用可以采取不同的形式。

在本发明的用于定位感兴趣点的上下文中，使用两种类型的激活函数：

-对于线性激活函数下的神经元，我们有Ф(x)＝x。这例如是图1的网络中的层C₁和C₃的神经元的情形；

-对于S形的非线性激活函数下的神经元，我们选择例如双曲正切函数，它的特性曲线显示在图8中：

Φ (x) = \tanh (x) = \frac{(e^{x} - e^{- x})}{(e^{x} + e^{- x})},

实值在-1和1之间。这例如是图1的网络中的层S₂、N₄和R₅的神经元的情形。

附录2：梯度反向传播算法

如本申请文件前面所述，神经网络学习过程包括确定突触条件的所有权重，以便获得期望输出D的向量，它是输入向量X的函数。至此，构成了一个学习库，它由一列K个对应的输入/输出对(X_k，D_k)组成。

令Y_k代表对于输入X_k在时刻t获得的网络输出，因此力图使输出层上的均方差最小化：

E = \frac{1}{K} Σ_{k = 1}^{K} E_{k},

其中E_k＝||D_k-Y_k||²(1)。

为了实现这一目标，利用迭代算法实现梯度下降：E^(t)＝E^(t-1)-ρE^(t-1)，其中

&dtri; E^{(t - 1)} = < \frac{&PartialD; E^{(t - 1)}}{&PartialD; w_{0}}, . . . . ., \frac{&PartialD; E^{(t - 1)}}{&PartialD; w_{j}}, . . . ., \frac{&PartialD; E^{(t - 1)}}{&PartialD; w_{P}} >

是均方差在时刻(t-1)相对于网络的P个突触连接权重的集合的梯度，并且其中ρ是学习步阶。

在神经网络中实施该梯度下降步骤需要梯度反向传播算法。

让我们假设一个神经网络，其中：

-c＝0是输入层的下标；

-c＝1...C-1是中间层的下标；

-c＝C是输出层的下标；

-i＝1到n_c是下标为c的层的神经元；

-S_i，c是下标为c-1的层中与下标为c的层的神经元i的输入相连的神经元的集合；

-W_j，i是从神经元j延伸到神经元i的突触连接的权重。

梯度反向传播算法采用两个连续的步骤，它们是前向传播和反向传播步骤。

-在前向传播步骤中，输入信号X_k穿过神经网络并激发输出响应Y_k；

-在反向传播中，误差信号E_k在网络中反向传播，使得突触权重可被修改，以最小化误差E_k。

更具体地，这样的算法包括以下步骤：

将学习步阶ρ固定在足够小的正值(0.001的量级)

将动量α固定在0和1之间的正值(0.2的量级)

将网络的突触权重随机地重设为小值

重复

选择偶数奇偶性例子(X_k，D_k)：

传播：按层的顺序计算神经元的输出：

将例子X_k载入输入层：Y₀＝X_k并且赋值

对于从1到C的层c

对于层c的每个神经元i(i从1到n_c)

-计算势能：

V_{i, c} = \underset{j &Element; S_{i, c}}{Σ} w_{j, i} y_{j, c - 1}

和输出，

其中，

反向传播：按层的逆序计算：

对于从C到1的层c

对于层c的每个神经元i(i从1到n_c)

-计算：

其中，Φ′(x)＝1-tanh²(x)

-更新到达神经元i的突触的权重：

Δ w_{j, i}^{new} = ρ δ_{i, c} y_{j, c - 1} + αΔ w_{j, i}^{old}

，j∈S_i，c

其中ρ是学习步阶，α是动量

(

Δ w_{j, i}^{old} = 0

，在第一次迭代期间)

w_{j, i}^{new} = w_{j, i} + Δ w_{j, i}^{new}

j∈S_i,c

Δ w_{j, i}^{old} = Δ w_{j, i}^{new}

j∈S_i,c

w_{j, i} = w_{j, i}^{new}

j∈S_i,c

-计算均方差E(cf.方程1)

一直到E＜ε或者如果已经达到迭代的最大次数。

Claims

1.一种用于定位对象图像中的至少两个感兴趣点的系统，其特征在于该系统应用人工神经网络并呈现分层的体系结构，该系统包括：

接收所述对象图像的输入层(E)；

至少一个中间层(N₄)，被称为第一中间层，包括多个神经元(N₄₁)，这些神经元使得能够生成至少两个显著性图(R_5m)，每个显著性图与所述对象图像的一个预定义的不同的感兴趣点相关联；

至少一个包括所述显著性图(R_5m)的输出层(R₅)，

所述显著性图包括多个神经元，每个神经元与所述第一中间层的所有神经元相连，

借助于在每个所述显著性图上的唯一总体最大值的位置(17₁，17₂，17₃，17₄)，在对象图像中定位所述感兴趣点。

2.根据权利要求1的定位系统，其特征在于所述对象图像是面部图像。

3.根据权利要求1和2之一的定位系统，其特征在于还包括至少一个包括多个神经元(C_1i，C_3k)的第二中间卷积层(C₁，C₃)。

4.根据权利要求1到3之一的定位系统，其特征在于还包括至少一个包括多个神经元(S_2j)的第三亚抽样中间层(S₂)。

5.根据权利要求1和2之一的定位系统，其特征在于该定位系统在所述输入层(E)和所述第一中间层(N₄)之间包括：

第二中间卷积层(C₁)，该层包括多个神经元(C_1i)，并使得能够在所述对象图像中检测至少一个基本线型形状，所述第二中间层送出卷积对象图像；

第三中间亚抽样层(S₂)，该层包括多个神经元(S_2j)，并使得能够减小所述卷积对象图像的大小，所述第三中间层送出减小的卷积对象图像；

第四中间卷积层(C₃)，该层包括多个神经元(C_3k)，并使得能够在所述减小的卷积对象图像中检测至少一个角型复杂形状。

6.一种用于根据权利要求1所述的用于定位对象图像中的至少两个感兴趣点的系统的神经网络的学习方法，每个所述神经元具有至少一个用突触权重(w₁-w_n)加权的输入以及偏置(x₀，w₀)，

其特征在于该学习方法包括以下步骤：

构建学习库，该学习库包括多个被标注为待定位的所述感兴趣点的函数的对象图像；

初始化所述突触权重和/或所述偏置；

对于所述学习库的所述标注图像中的每一个：

-由在所述图像上所述至少两个标注的、预定义的感兴趣点中的每一个在输出上准备所述至少两个期望的显著性图(D_5m)；

-在所述系统的输入上呈现所述图像，用于定位和确定在输出上送出的所述至少两个显著性图(R_5m)；

在所述学习库的所述标注图像的集合上，最小化在输出上送出的(R_5m)所述期望的显著性图(D_5m)之间的差，以便确定所述突触权重(w₁-w_n)和/或所述最优偏置(w₀)。

7.根据权利要求6的学习方法，其特征在于：所述最小化是在输出上送出的(R_5m)所述期望的显著性图(D_5m)之间的均方差的最小化，并且应用迭代梯度反向传播算法。

8.一种用于定位对象图像中的至少两个感兴趣点的方法，该方法包括以下步骤：

在采用人工神经网络的分层体系结构的输入上呈现所述对象图像；

连续地激活至少一个中间层(N₄)和至少一个输出层(R₅)，所述至少一个中间层(N₄)被称为第一中间层，包括多个神经元(N_4l)，使得能够生成至少两个显著性图(R_5m)，每个显著性图与所述对象图像的一个预定义的不同的感兴趣点相关联，所述至少一个输出层(R₅)包括所述显著性图(R_5m)，所述显著性图包括每一个都连接到所述第一中间层(N₄)的所有神经元的多个神经元；

通过在所述显著性图(R_5m)中搜索在每一个所述图上的唯一总体最大值的位置(17₁-17₄)，定位所述对象图像中的所述感兴趣点。

9.根据权利要求8的方法，其特征在于该方法包括以下预备步骤：

在无论任何图像(46)中检测(40)围绕所述对象并且构成所述对象图像(44，45)的区域；

重定(41)所述对象图像的大小。

10.一种包括程序代码指令的计算机程序，当所述程序被处理器执行时，该程序用于执行根据权利要求6和7之一所述的用于神经网络的学习方法。

11.一种包括程序代码指令的计算机程序，当所述程序被处理器执行时，该程序用于执行根据权利要求8和9之一所述的用于定位对象图像中的至少两个感兴趣点的方法。