CN103310190A

CN103310190A - 基于异构主动视觉网络的人脸图像样本采集优化方法

Info

Publication number: CN103310190A
Application number: CN2013101790722A
Authority: CN
Inventors: 张涛; 李潇涵; 陈宋; 成宇; 陈学东; 孙昊; 李何羿
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-05-16
Filing date: 2013-05-15
Publication date: 2013-09-18
Anticipated expiration: 2033-05-15
Also published as: CN102693417A; CN103310190B

Abstract

一种基于异构主动视觉网络的人脸图像样本采集优化方法，视觉网络包含目标检测跟踪定位摄像头、目标人脸图像样本采集摄像头，其中采集摄像头可由云台可变焦摄像头(即PTZ摄像头)和移动摄像头组成，采集过程中，针对每个采集时刻，所有摄像头进行目标分配和参数调整，采集某个目标的人脸图像样本，优化人脸图像样本评价，图像评价根据人脸识别研究的背景知识，通过图像处理和数学分析得到，本发明针对单目标/多目标，目标路径可预知/未知，有无移动摄像头，对采集方法进行了具体的设计，本发明采集到的分辨率较高、姿态角丰富的人脸图像样本，可以用于人脸注册和识别。

Description

基于异构主动视觉网络的人脸图像样本采集优化方法

技术领域

本发明属于人脸识别技术领域，特别涉及一种基于异构主动视觉网络的人脸图像样本采集优化方法。

背景技术

人脸识别技术有着丰富的应用价值，例如在身份验证、法务与监视、娱乐等应用场景。人脸识别技术主要包括人脸图像样本采集、样本图像预处理、分类器训练(亦称人脸注册)和样本识别(亦称人脸识别)这几个技术环节，目前对样本采集环节的研究较少。

在人机交互应用场景(如身份验证、娱乐)中，已具备一些对样本采集环节的研究。这些技术与研究通常通过安装在机器人上摄像头的转动和变焦，以及机器人本身的移动，来采集分辨率、姿态角合适的人脸图像样本，以注册和识别人脸。Marc Hanheide等在文献 Who am I talking with？ A FaceMemory for Social Robots. 2008 IEEE International Conference onRobotics and Automation Pasadena, CA, USA, May 19-23, 2008中提出了一种人与机器人的交互框架，采用了一个配备有云台摄像头的移动机器人，可以记住看过的人，并与之交谈。Do Joon Jung等在文献Detection andTracking of Face by a Walking Robot. J.S. Marques et al. (Eds.): IbPRIA2005, LNCS 3522, pp. 500–507, 2005中设计的机器人能够在动态变化的环境中，检测和跟踪人脸，并通过对机器人简单的运动控制，使人脸保持在镜头中央。Chi-Yi Tsai等在文献ROBUST FACE TRACKING CONTROL OF A MOBILEROBOT USING SELF-TUNING KALMAN FILTER AND ECHO STATE NETWORK. AsianJournal of Control,Vol.12,No.4,pp.488509,July2010中采用对偶雅可比模型来描述机器人和目标的在世界坐标系和图像平面中的空间位置关系和运动学关系，并利用卡曼滤波算法对目标位置进行估计与跟踪。T.Wilhelm等在文献A multi-modal system for tracking and analyzingfaceson a mobile robot.Robotics and Autonomous Systems48(2004)31–40.中利用一个多形态系统，由全景摄像头、激光传感器和移动机器人组成，来跟踪和分析目标及其人脸。

不同于人机交互，在法务或监视应用场景中，目标往往不会以期望的理想姿态，出现在距摄像头合适的距离及角度范围内。单摄像头由于视野的局限性，不足以完成对目标的人脸图像样本采集，而且，依靠如文献ROBUST FACETRACKING CONTROL OF A MOBILE ROBOT USING SELF-TUNING KALMAN FILTER ANDECHO STATE NETWORK.Asian Journal of Control,Vol.12,No.4,pp.488509,July2010中所述的滤波算法，难以处理因长时间遮挡等原因目标位置突变等情况，会导致目标丢失。因此，可以考虑采用摄像头网络，扩大视野范围，利用多摄像头的视觉冗余，增强鲁棒性。由于选用的摄像头同时应具备镜头运动和镜头参数调节能力，因而称其为主动视觉网络。摄像头同时还可以是不同类型的，称其为异构（摄像头可以是固定安置的，也可以是搭载于移动载体等）。摄像头的不同功能特点可以形成互补。此外，对摄像头的简单控制不足以保证采集到的人脸图像样本具有足够好的效果，使其能真正用于人脸注册或人脸识别，需要根据人脸注册或识别对人脸图像样本的要求，设计评价函数，定量地对摄像头进行精细的控制。James N.K.Liu等在文献iBotGuard:An Internet-Based IntelligentRobot Security SystemUsing Invariant FaceRecognition Against Intruder.IEEE TRANSACTIONSON SYSTEMS,MAN,AND CYBERNETICS—PART C:APPLICATIONS AND REVIEWS,VOL.35,NO.1,FEBRUARY2005中设计了基于互联网的智能机器人安防系统，利用人脸识别对入侵者进行监测，但由于其设计的系统架构相对简单，对技术模块间的衔接与集成缺乏考虑，且只片面的研究了架构下的人脸识别技术，不足以在真实环境下进行应用。系统的、细致的架构设计，关键技术及其整合技术的研究显得十分重要。

在法务或监视应用场景中，目标通常是非合作的，不会以期望的姿态，出现在离摄像头合适的距离及视角范围内。此时，采集到的人脸图像样本的分辨率往往会不够高；姿态角会不够正，或者不同的姿态角不丰富。这样的人脸图像样本，在人脸注册和识别中，效果不佳。

发明内容

为了克服上述现有技术的不足，本发明的目的在于提供一种基于异构主动视觉网络的人脸图像样本采集优化方法，采用异构主动视觉网络，预测目标的位置和人脸朝向，从而预测各个摄像头采集到的人脸图像的分辨率和姿态角；根据预测结果，基于人脸图像样本评价，设计视觉网络的采集策略，对样本采集环节进行优化，以获得分辨率较高、姿态角丰富的人脸图像样本，用于人脸注册和识别。

为了实现上述目的，本发明采用的技术方案是：

一种基于异构主动视觉网络的人脸图像样本采集优化方法，通过异构主动视觉网络，在采集人脸图像样本过程中，优化图像评价，包括以下内容：

寻优目标：最大化所有目标人脸图像样本评价的总体经验评价函数Sum_t(f_t)，其中第t个目标的评价函数f_t如下所示

f_{t} (p_{n_{t}}, r_{n_{t}}, . . ., p_{1}, r_{1}) = f_{t} (p_{n_{t} - 1}, r_{n_{t} - 1}, . . ., p_{1}, r_{1}) + (f_{p} (p_{1}, . . ., p_{n_{t}}) - f_{p} (p_{1}, . . ., p_{n_{t} - 1})) \cdot f_{r} (r_{n_{t}})

n_t＝2,3,...

f_t(p₁,r₁)＝f_p(p₁)·f_r(r₁)

为第t个目标的n_t个人脸图像样本的联合评价函数，通过迭代方法计算；f_p为对姿态角的评价函数，根据所有姿态角在(-90°，90°)区间分布的均匀和密集程度来计算，

表示第n_t个人脸图像样本的姿态角度；f_r表示对分辨率的评价函数，根据分辨率的高低来计算，

表示第n_t个人脸图像样本的分辨率；

寻优变量：人脸图像分辨率r，姿态角p；

异构视觉网络可调参数：某一时刻，摄像头与目标的分配关系I(c,t)、摄像头在世界坐标系中的位置与朝向角L_c、以及摄像头的焦距f_c；其中，I(c,t)是一个示性函数，c表示摄像头的标号，c∈{1,2,...,N_c}，t表示目标的标号，t∈{1,2,...,N_t}；I(c,t)＝1表示将第t个目标分配给第c个摄像头，I(c,t)＝0表示未分配；

表示第c个摄像头在世界坐标系中的位置、水平转角及俯仰转角；

寻优方法：根据单目标和多目标、目标路径可预知和未知、有无移动摄像头几种情况，基于市场竞拍进行任务分配，基于贪心算法和阈值法进行图像筛选，从而确定异构视觉网络可调参数和寻优变量。

所述异构视觉网络中的采集摄像头由云台可变焦摄像头和/或移动摄像头组成。

在采集单目标、目标路径可预知的情况下，分配关系I(c,t)中，t==1为常值，整个采集过程中，确定采样间隔，各摄像头能采集到的所有人脸图像I及其分辨率r和姿态角p均是可预知的，即候选集，对候选集进行选择性采集，在保证人脸注册和识别效果的同时，避免样本的过度冗余，选择性采集根据人脸图像样本评价的增益，采用贪心算法完成。

在采集单目标、目标路径未知的情况下，分配关系I(c,t)中，t==1为常值，根据对目标的检测跟踪定位，在t时刻预测t+Δt时刻的目标位置与人脸朝向，从而预测某个摄像头中人脸图像I的分辨率r和姿态角p，采用阈值法，根据采集图像I后人脸图像样本评价的增益，决定是否采集图像I。

在采集多目标的情况下，采用ST-MC-IA模型对采集中的任务分配问题进行建模，基于市场竞拍进行任务分配。

仅用PTZ摄像头作为采集摄像头时，某一时刻，某摄像头对某一目标的最优竞价根据摄像头的焦距变化范围计算得到—摄像头朝向角变化不改变姿态角，默认为朝向目标；当采用移动摄像头时，摄像头可自由调整位置，从而在采集过程中优化人脸图像指标，最优竞价根据摄像头的移动范围和焦距变化范围计算得到。

与现有技术相比，本发明参考了现有的人脸识别技术和系统的研究，了解到不同人脸图像样本对人脸注册和人脸识别产生影响的指标中，较为主要两个为人脸在图像中的分辨率和姿态角。通过图像处理和数学分析，本发明建立了人脸图像样本的经验评价函数(主要与分辨率和姿态角相关)。以优化人脸图像样本评价为目标，利用异构主动视觉网络进行采集，获得分辨率较高、姿态角丰富的人脸图像样本，以用于人脸注册和识别。异构主动视觉网络是较新颖、较先进的主动视觉技术，它具备主动采集、任务协同、功能互补等特性，可以比单个摄像头采集、静态摄像头、扫描摄像头等传统设备和技术更有效地获取非合作目标的人脸图像样本。本发明的应用场景主要定位为在监控或军事场景中，对非合作目标的人脸图像样本进行采集，目标可进一步泛化为非人的目标。

附图说明

图1为不同原始分辨率的样本缩放到同一参考分辨率示意图，从左到右依次为原始分辨率4×6、8×12、20×30、40×60缩放为参考分辨率40×60。

图2为不同原始分辨率的图像在频域的幅度组分上的可分性图像，从左到右依次为原始分辨率4×6、8×12、20×30、40×60缩放为参考分辨率40×60，越明亮代表该原始分辨率的样本可分性越强。

图3为分辨率r与评价函数值f_r关系示意图，横坐标为r，纵坐标为f_r值，折线段表征了若干指定分辨率的人脸样本图像的分辨率评价函数值；光滑曲线为以二次曲线拟合折线段的结果。

图4为对不同姿态角样本在图像空间中近似一维分布的刻画示意图，折线段表征了若干指定姿态角在图像空间中近似一维分布，直线为参考线(图像空间-姿态角均匀分布)，比较表明了不同姿态角样本在图像空间中的近似一维分布不是均匀分布。

图5为不同姿态角样本在图像空间中的近似一维分布，及拟合得到的解析曲线。虚线为图4中的折线段，实线为用二次曲线拟合虚线的结果。

图6为姿态角的感知示意图，图(A)描述了四个摄像头对两个目标的图像样本采集，图(B)阐释了目标与摄像头的相对位置及人脸朝向决定了人脸在图像中的姿态角。

图7为移动摄像头采集某个目标的示意图。以rt为半径的圆为为使采集到的人脸分辨率大于等于参考分辨率，移动摄像头可选位置范围。以rc为半径的圆为移动摄像头在采集时间间隔中的移动范围。两圆交集为最终的移动摄像头可选位置范围，对目标的最优竞标在此范围中产生。

图8为本发明仿真实验中的模拟场景。1、3示意目标路径可预知，作直线运动；2、4示意目标路径未知，作布朗随机运动。

图9为单目标、目标路径可预知时，对候选集完全采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图10为单目标、目标路径未知时，对候选集选择性采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图11为多目标、目标路径未知时的采集结果。从左到右三张子图分别为三个目标的采集结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图12为比较实验中，方法1(静态视觉网络)采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图13为比较实验中，方法2(随机扫描视觉网络)采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图14为比较实验中，方法3(一种主动视觉网络)采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图15为比较实验中，方法4(单摄像头主动采集)采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图16为比较实验中，方法5(本发明的方法，包含四个PTZ摄像头的主动视觉网络)采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

图17为比较实验中，方法6(本发明方法，包含四个PTZ摄像头和一个移动摄像头的主动视觉网络)采集的结果。每个点代表一个采集到的图像样本，横轴为姿态角，纵轴为分辨率。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

分三个部分详述本实施方式。

(一)人脸图像样本评价准则

人脸图像样本对人脸注册和人脸识别产生影响的指标，有图像压缩率、目标距离、目标表情等。参考人脸识别领域的研究，以及主动视觉技术能够改变的指标，本技术选取了分辨率和姿态角两项指标，即人脸区域的分辨率和人脸在图像中的姿态角。人脸区域通常为矩形，如40×60大小(单位是宽像素×长像素)，可以以宽度像素值r=40来描述。人脸的姿态角p从左到右以角度以从-90°到+90°来描述。

人脸图像样本的经验评价函数对分辨率和姿态角分别进行评价，进而建立对该两个指标的联合评价函数。根据现有的方法，注册一个目标，通常需要多张不同姿态角的人脸图像样本，以提高注册后系统对目标在不同姿态角下的识别能力；在识别目标时，采集的目标在不同姿态角的人脸图像样本越多，用于识别的信息则越多，识别正确率亦越高。根据对人脸识别系统评价实验的结果可知，人脸区域分辨率越高，人脸识别的效果越好；注册和识别时人脸图像样本的姿态角偏差越大，识别正确率越低。因而，本发明总结得到：人脸图像样本中，人脸区域的分辨率越高，人脸在图像中朝向的角度--姿态角越丰富、分布越均匀，则人脸注册和人脸识别的效果越好,所以评价函数值应越大。此外，人脸注册和人脸识别的效果会随着分辨率的增大、姿态角的增加而逐渐饱和，而不再显著增长，因此评价函数亦需具有相应的特性。

实际应用中，采集到的人脸图像样本通常是各种分辨率的，需要放缩到同一个参考分辨率，然后进行人脸注册或人脸识别。如果原始分辨率低于参考分辨率，那放大到参考分辨率之后，图像质量会变差。因而，我们关注的是采集时的原始分辨率大小，即决定了图像在分辨率指标上的质量。

采用FERET人脸样本库(ba～bj系列样本集)进行实验。样本集包含194个目标(人)在不同角度的人脸图像。实验中，194个目标(人)的人脸图像样本被分别缩小到4×6、8×12、20×30、40×60原始分辨率，再统一放大到40×60的参考分辨率(如图1)，进而进行图像处理和数学分析。然后采用二维傅立叶变换（参见文献Wonjun Hwang.Multiple Face Model of HybridFourier Feature for Large Face Image Set.Computer Vision and PatternRecognition,2006IEEE Computer Society Conference），经傅立叶变换后，在实部、虚部、幅度和相角四个组分中选取幅度，因为样本在幅度组分的可分性最好。不同原始分辨率的样本经过傅立叶变换(W×L维的图像空间变换到W×L维的频域空间)后，计算所有样本在频域上每个点的可分性数值（参见文献张学工.模式识别.清华大学出版社,2010年,第三版），将每一点的数值换算为(取log10对数后再乘以50，以保证灰度值在0～255之间，且不同分辨率的结果对比明显)一个灰度值，即可得图2。越明亮，代表该原始分辨率下，样本可分性越好。

每个图像样本得到一个40×60维即2400维的，在频域的幅度组分的样本。将每一个目标的所有人脸图像样本看成一类，不同的目标为不同的类。计算不同原始分辨率的样本在频域幅度组分的样本所有维度上的可分性(类似方差的概念)之和，取以log10对数再乘以50(这样处理以与上文所述的同样处理保持一致)，作为该分辨率的可分性描述，其结果如表1所示。可分性可以决定样本在人脸注册和人脸识别中的效果，可分性越大，效果越好。

表1样本评价结果

原始分辨率	0×0	4×6	8×12	20×30	40×60
						可分性描述	0	726	1090	1519	1790

得到关于分辨率的可分性曲线(归一化后)如图3中曲线段所示，横坐标表示样本的分辨率r(这里以人脸区域宽度的像素数来表示)，纵坐标为可分性描述。可分性分析从内在机理上阐释了分辨率对人脸注册和识别效果的影响。图3中较平滑的曲线为本发明设计的分辨率评价函数：

f_r＝-a^b·r+1(公式-2)

a=10,b=0.1151

在分辨率为0时，评价为0；分辨率为参考分辨率(本发明中采用r=40)时，评价约为1。评价随着分辨率的增加而增大，且增长渐趋平缓。当分辨率大于参考分辨率后，评价不再随分辨率增大而增长。该评价符合人脸注册与人脸识别效果随图像样本分辨率变化的经验规律。

当前的人脸注册和人脸识别通常采用多姿态角的图像样本，人脸在镜头前的横侧向转动，造成的姿态角变化，是原始几何空间下的一维变化；它造成了图像(长宽为L和W)所有像素的灰度值的变化，是W×L维的图像空间的变化。图像空间的变化，是一种近似流形上的一维变化，参见文献Joshua B.Tenenbaum等.A Global Geometric Framework for NonlinearDimensionality Reduction.SCIENCE VOL29022DECEMBER2000。

常见的一种人脸识别方法，是在图像空间，对进行分类的测试样本和数据库中的训练样本进行比对，进而匹配识别。其中，训练样本来自于人脸注册过程，而测试样本来自于人脸识别过程。目标采集的不同姿态角的训练样本越多，姿态角分布越均匀，则在图像空间，与目标某个姿态角的测试样本相邻的、同属一个目标的训练样本会越多，则测试样本越不容易被错分。

由上文两段所述，我们试图以相邻姿态角的人脸图像样本的像素向量的欧拉距离刻画样本在图像空间中随姿态角的近似一维变化，根据样本在近似一维变化中分布的密集和均匀程度，评价样本质量优劣，设计评价函数。

选择分辨率为40×60，从左到右9个姿态角，包括0°，±15°，25°，40°，60°，共194个人的人脸图像样本，进行图像处理和数学分析。从-60°度到+60°，两两角度之间的样本，在图像空间像素灰度向量(除以100以减小数值大小)的距离平方均值如表2所示，其中由于FERET数据库的样本集缺少合适的样本，未从-90°到+90°进行分析。

表2相邻角度样本向量的欧拉距离

根据表2的结果，得以设计曲线p-y，p表征样本姿态角，y轴表征不同姿态角样本在图像空间中的近似一维分布。y轴上差值正比于实验样本的图像空间像素灰度向量的距离平方均值(距离总和归一化后的结果)。将样本分布在y轴上归一化之后，得到如图4所示曲线p-y。图中直线为一条参考直线,曲线p-y和参考直线的差别说明，样本在图像空间的变化随其姿态角的变化并非均匀线性关系：曲线切线斜率较大处(0度姿态角附近)，在图像空间的变化随其姿态角的变化较剧烈--在此区域，不同姿态角样本的采集宜多一些。

图5中虚线即为图4中折线段，对图5中虚线用分段抛物线拟合，可得：

y = g (p) = \{\begin{matrix} \sqrt{p} / k_{p}, p &GreaterEqual; 0 \\ - \sqrt{p} / k_{p}, p < 0 \end{matrix}

(公式-3)

k_p≈286,err＝0.0063

对目标t的n_t个人脸图像样本的角度评价函数如下所示：

f_{p} (p_{1}, . . ., p_{n_{t}}) = f_{p 0} - {dz}_{i}^{2}, f_{p 0} = 1

(公式-4)

{dz}_{i} = \{\begin{matrix} y_{i} - y_{i - 1}, 2 \leq i \leq n \\ y_{1} = 0, i = 1 \end{matrix}

其数学意义为n_t个样本将其所在一维分布—图5中实线—分割成n_t+1个曲线段。不同姿态角的样本越多，姿态角越均匀，所有曲线段端点高度差的平方和越小，则评价函数f_p越大。f_p0为一常值，保证f_p非负。该评价函数的物理意义为，样本姿态角的偏差大小反映在在曲线上对应点的高度差上，高度差越小，姿态角偏差越小；所有高度差平方和越小，代表姿态角越多，分布越均匀。

由于缺少充足的-90°到+90°的实验样本，本发明将-90°到+90°不同姿态角的人脸图像样本的一维图像空间分布，近似为线性分布。(公式-3)将改写为

y＝g(p)＝p/k_p(公式-5)

k_p＝180

评价函数(公式-4)不变。

对某个目标的n_t个样本的联合评价函数如(公式-6)(同(公式-1))，通过迭代方法计算

f_{t} (p_{n_{t}}, r_{n_{t}}, . . ., p_{1}, r_{1}) = f_{t} (p_{n_{t} - 1}, r_{n_{t} - 1}, . . ., p_{1}, r_{1}) + Δ f_{{p, n}_{t}} \cdot f_{r} (r_{n_{t}})

(公式-6)

Δ f_{{p, n}_{t}} = f_{p} (p_{1}, . . ., p_{n_{t}}) - f_{p} (p_{1}, . . ., p_{n_{t} - 1})

n_t＝2,3,...

f_t(p₁,r₁)＝f_p(p₁)·f_r(r₁)

为第t个目标的n_t个人脸图像样本的联合评价函数，通过迭代方法计算；f_p为对姿态角的评价函数，根据所有姿态角在(-90°,90°)区间分布的均匀和密集程度来计算，

表示第n_t个人脸图像样本的分辨率。

与“(一)人脸图像样本评价准则”的第二段落所述吻合，该函数符合了如下几个特性

●姿态角越密集、均匀，f_t越大

●分辨率越高，f_t越大

●随着姿态角的增多和分辨率的增大，评价函数增长渐趋平缓，如(公式-3)、(公式-4)、(公式-5)刻画

(二)人脸图像样本状态估计与预测

计算机程序能够根据图像信息，估计和预测人脸图像样本的姿态角与分辨率，摄像头网络从而得以进行决策，决定采集策略。

姿态角通过计算目标的人脸朝向和摄像头的朝向，进而计算人脸对摄像头的相对朝向得到。假设目标人脸朝向与目标运动方向一致，根据目标的图像信息，可以计算出目标在世界坐标系中的位置和运动方向(即人脸朝向)。图像信息和目标的位置与运动方向的换算方法参见文献Chi-Yi Tsai,Kai-Tai Song.Image and Vision Computing.Image and Vision Computing27(2009)1007–1022。如图6所示，图(A)描述了四个摄像头对两个目标的图像样本采集，图(B)阐释了目标与摄像头的相对位置及人脸朝向决定了人脸在图像中的姿态角。分辨率可以通过人脸检测得到，亦可根据目标的实际人脸宽度(可用圆柱模型表达头部，实际宽度可根据经验设置或通过双目视觉计算)和位置进行计算(参见文献Chi-Yi Tsai,Kai-Tai Song.Image andVision Computing.Image and Vision Computing27(2009)1007–1022)。

(三)多异构视觉网络采集策略与人脸图像样本评价寻优

在异构视觉网络中，从任务上分，摄像头分为全局协调摄像头和采集摄像头，前者负责目标的检测跟踪定位，后者负责目标人脸图像的采集。从设备种类上分，摄像头分为静态摄像头，云台可变焦摄像头(PTZ摄像头)，移动摄像头。云台可变焦摄像头(PTZ摄像头)和移动摄像头被用以采集目标人脸图像，亦可在另一个进程中协助静态摄像头，进行目标的检测跟踪定位。本技术重点阐述采集摄像头(云台可变焦摄像头(PTZ摄像头)和移动摄像头)的工作原理。全局协调摄像头的工作原理可参见行人检测、人脸检测、目标跟踪和目标定位的相关文献。

基于(一)和(二)，通过设计摄像头采集策略对人脸图像样本评价寻优。人脸图像样本分辨率和姿态角的联合评价函数，即F_p,r，参见(一)部分。寻优变量为人脸图像样本的分辨率r和姿态角p，可调节参数包括摄像头与目标的分配关系I(c,t)，摄像头的位置、朝向角L_c和焦距f_c。其中，I(c,t)是一个示性函数，c表示摄像头的标号，c∈{1,2,...,N_c}，t表示目标的标号，t∈{1,2,...,N_t}，I(c,t)＝1表示将第t个目标分配给第c个摄像头，I(c,t)＝0表示未分配；表示第c个摄像头在世界坐标系中的位置、水平转角及俯仰转角。

寻优目标为最大化所有目标的总人脸图像样本评价Sum_t(f_t)，其中第t个目标的评价函数f_t即如(公式-6)所示。

先考虑没有移动摄像头，只有PTZ摄像头的场景，采集策略根据单目标和多目标，目标路径已预知和未知，分几种情况设计。当针对某个兴趣目标，在空间中捕捉其人脸图像时，为单目标情况；当意图捕捉空间中多个或所有人物的人脸图像时，为多目标情况。当人物在空间中相对固定的路径上(如较窄的人行道)运动，可认为目标路径已预知；当运动路径自由(如广场)，可认为目标路径未知。

在采集单目标、目标路径已知的情况下，摄像头与目标的分配关系I(c,t)等于1或0，t==1为常数。令采样间隔为目标每位移△d=1m,节可以预期所有摄像头能够采集到得人脸图像样本的候选集，以及其中每个图像样本拍摄于哪个摄像头，每个图像的分辨率和姿态角。对候选集进行完全采集，能够保证最大的人脸图像样本评价；而选择性的采集一部分图像，能够在保证人脸注册和识别效果的同时，避免样本的过度冗余，节约资源消耗。在选择性采集中，根据图像评价的增益，采用贪心算法，从候选集选择一部分图像。图像被选择，即确定了摄像头与目标的分配关系I(c,t)。在目标运动到这些预期图像相应的位置之前，相应摄像头调整到合适的朝向(正对目标)、焦距(根据候选集图像期望的分辨率调节)。

在采集单目标、目标路径未知的情况下，摄像头与目标的分配关系I(c,t)等于1或0，t==1。根据目标的检测跟踪，可以在t时刻预测t+Δt时刻的目标位置与人脸朝向，从而预测某个摄像头中人脸图像I的分辨率r和姿态角p。根据人脸图像样本评价的增益(参见(公式-6))，基于阈值法，决定是否采集图像I。

在多目标情况下，需要进行多目标分配。在目标路径已知时，由于只知道目标会在某个位置出现，而无法预知出现时刻，因而预先分配给一个摄像头多目标的预期图像采集任务，可能会在时间上发生冲突。所以，只能采用目标路径未知的假设去考虑分配问题。本技术选用ST-MC-IA模型对采集中的任务分配问题进行建模，参见文献Gerkey,B.P.and M.J.Matari,A formalanalysis and taxonomy of task allocation in multi-robot systems.TheInternational Journal of Robotics Research,2004.23(9):p.939。

多目标分配模型

ST/MT选择ST(single-task)，一个摄像头在一个时刻只采集一个目标的图像，以方便优化一个目标图像的分辨率和姿态角。

SC/MC选择MC(multi-camera)，一个时刻可以有多个摄像头采集同一个目标。

IA/TA选择IA(instant-assignment)，由于目标路径未知，因而在线设计采集策略，每一个时刻即时分配，不对未来时刻作进一步的规划。

原始任务：在一段时间内，采集多个目标的人脸图像集合，每个目标的集合包含多张图像，每张图像拥有姿态角和分辨率两个属性，且包含该时刻目标与摄像头的对应关系I(c,t)。

分解后的子任务：在某个采集时刻，一个或多个摄像头对某个目标进行图像采集。在建立采集问题的任务分配模型之后，本技术选取基于市场的任务分配方法。基于市场机制的任务分配，核心思想是拍卖，流程包括计算效用和代价、投标、竞拍。

效用计算：某时刻某摄像头采集某目标(即某摄像头参与某任务)的人脸图像后，图像评价的增益,(参见第(一)部分)

代价计算：计算为完成当前时刻任务，某摄像头所需转角。

每一时刻，所有出现的目标产生任务。每个摄像头计算竞价，对初步筛选后的每个任务进行投标。基于贪心算法，根据竞标优劣，每个摄像头将参与其竞标最优的一个任务。对摄像头的先后分配顺序随机指定。

●初步筛选：分辨率在某阈值区间内；图像评价增益大于某阈值；摄像头转角代价小于某阈值。(阈值根据经验设置)

●竞价：图像评价增益即为竞价(本发明中竞价即效用，竞价亦可调整为效用减去代价)。

以上阐述了视觉网络中PTZ摄像头在多种情况下的采集工作原理，其中多目标、目标路径未知是最普适的情况(可以表达其他几种情况)。移动摄像头可以自由调整位置，能在采集过程中更好地优化人脸图像样本指标。在多目标、目标路径未知的情况下，考虑在PTZ摄像头之外，加入移动摄像头。同上采用ST-MC-IA任务分配模型，优化采集过程。每一时刻，计算移动摄像头对下一时刻每个任务(即每个目标)的最优竞标。拍卖成功的任务，将确定移动摄像头在相应时刻的位置和朝向角以及相应的焦距(PTZ摄像头只考虑朝向角和焦距)。

移动摄像头对某个任务(即某个目标)最优竞标的计算方式为：在每一时刻，下一时刻移动摄像头到达的位置范围，是以当前时刻位置为圆心，时间间隔乘以最大运动速度的积为半径(rc)的一个圆内(如图7)。为使目标分辨率大于等于参考分辨率(移动摄像头容易采集到分辨率较高的图像)，移动摄像头的可接受出现位置，须在以目标为圆心，以临界距离为半径(rt)的一个圆内(如图7)。两圆的交集区域即下一时刻移动摄像头能到达且采集到分辨率大于等于参考分辨率的区域(如图7)。移动摄像头在该区域中产生对某个目标的竞标，其中在某个位置产生对该目标的最优竞标。在具备移动能力的条件下，可令采集分辨率大于等于参考分辨率，所以人脸图像评价将只受姿态角影响。交集区域可以得到可能采集到的姿态角范围，从而计算出评价增益最高的姿态角(根据对评价增益最值的解析求解，参见(公式-6))，进而确定摄像头的位置。摄像头位置确定后，朝向角为摄像头朝向目标的角度，焦距取使得分辨率大于等于参考分辨率的值。

仿真实验

为了验证本发明的有效性，并为部署实际系统和物理实验提供准备和参考，进行了如摘要附图所示的人脸图像样本采集的仿真实验，以验证根据评价进行异构主动采集的可行性。

该实验模拟了一个40m×40m的二维空间，在该空间中的四个角落部署有PTZ云台可变焦摄像头，空间中还有一个移动摄像头，可自由运动到任意位置。目标路径可预知的情况如图8(1)、(3)所示，目标作直线运动，目标路径未知的情况如图8(2)、(4)所示，目标在空间中进行布朗随机运动。

这里给出如下假设：

1)目标的人脸朝向与其运动方向保持一致。

2)目标的检测、定位和跟踪由全局协调摄像头完成，不在本仿真着重考虑和实现范围内。

在单目标、路径已预知的实验中，相比对候选集进行完全采集(如图9)，通过选择性采集(如图10)，系统在保障人脸图像样本评价的前提下，减少了样本冗余和资源消耗。在多目标、路径未知的实验中(如摘要附图)，采集的结果如图11所示(从左到右依次为三个目标的采集结果)。在仿真中，系统能够捕获分辨率较高，姿态角较丰富的人脸图像样本。

针对多目标、路径未知的情况，实验将本发明提出的方法(5)和(6)与其他采集方法进行了比较，包括：静态视觉网络(1)，摄像头静态，视角范围有限，焦距没有动态控制，采集到的人脸图像分辨率较低；随机扫描视觉网络(2)，采集过程开环，不根据人脸图像状态调整采集过程；一种主动视觉网络(3)，—包含四个PTZ摄像头，优先采集正面和侧面的人脸图像，未考虑图像冗余(即多姿态角图像的图像空间分布冗余),参见文献Ardevan Bakhtariand Beno Benhabib.Active-Vision System for Multi-Target Surveillance.Proceedings of the IEEE International Conference on Mechatronics&Automation Niagara Falls,Canada·July2005；单摄像头主动采集(4)，参考文献Thang Ba Dinh,etc.High Resolution Face Sequences from A PTZNetwork Camera.Automatic Face&Gesture Recognition and Workshops(FG2011),2011IEEE International Conference；(5)本发明的方法，包含四个PTZ摄像头的主动视觉网络；(6)本发明方法，包含四个PTZ摄像头和一个移动摄像头的主动视觉网络。

表3本发明与其他采集方法的仿真结果

方法编号	采集到的图像数	人脸图像评价	摄像头旋转角(rad)
				1	10	2.44	0
2	18	2.41	28.6
				3	58	2.52	12.4
4	16	0.82	0.9
				5	31	2.71	16.2
6	46	3.37	16.0

仿真结果如表3及图12～图17所示，本发明(5)采集到的人脸图像样本评价比方法(1)-(4)更高，但产生了一定的转角代价。添加一个移动摄像头后(6)，图像评价较(5)有显著的提高。本发明采集到的图像分辨率较高，姿态角较丰富(如图12～图17)。采集过程中，移动摄像头的运动轨迹如摘要附图所示。

Claims

1.一种基于异构主动视觉网络的人脸图像样本采集优化方法，通过异构主动视觉网络，在采集人脸图像样本过程中，优化图像评价，其特征在于，包括以下内容：

f_{t} (p_{n_{t}}, r_{n_{t}}, . . ., p_{1}, r_{1}) = f_{t} (p_{n_{t} - 1}, r_{n_{t} - 1}, . . ., p_{1}, r_{1}) + (f_{p} (p_{1}, . . ., p_{n_{t}}) - f_{p} (p_{1}, . . ., p_{n_{t} - 1})) \cdot f_{r} (r_{n_{t}})

n_t＝2,3,...

f_t(p₁,r₁)＝f_p(p₁)·f_r(r₁)

表示第n_t个人脸图像样本的分辨率；

寻优变量：人脸图像分辨率r，姿态角p；

2.根据权利要求1所述采集优化方法，其特征在于，所述异构视觉网络中的采集摄像头由云台可变焦摄像头和/或移动摄像头组成。

3.根据权利要求1所述采集优化方法，其特征在于，在采集单目标、目标路径可预知的情况下，分配关系I(c,t)中，t==1为常值，整个采集过程中，确定采样间隔，各摄像头能采集到的所有人脸图像I及其分辨率r和姿态角p均是可预知的，即候选集，对候选集进行选择性采集，在保证人脸注册和识别效果的同时，避免样本的过度冗余，选择性采集根据人脸图像样本评价的增益，采用贪心算法完成。

4.根据权利要求1所述采集优化方法，其特征在于，在采集单目标、目标路径未知的情况下，分配关系I(c,t)中，t==1为常值，根据对目标的检测跟踪定位，在t时刻预测t+Δt时刻的目标位置与人脸朝向，从而预测某个摄像头中人脸图像I的分辨率r和姿态角p，采用阈值法，根据采集图像I后人脸图像样本评价的增益，决定是否采集图像I。

5.根据权利要求1所述采集优化方法，其特征在于，在采集多目标的情况下，采用ST-MC-IA模型对采集中的任务分配问题进行建模，基于市场竞拍进行任务分配。

6.根据权利要求1所述采集优化方法，其特征在于，仅用PTZ摄像头作为采集摄像头时，某一时刻，某摄像头对某一目标的最优竞价根据摄像头的焦距变化范围计算得到—摄像头朝向角变化不改变姿态角，默认为朝向目标；当采用移动摄像头时，摄像头可自由调整位置，从而在采集过程中优化人脸图像指标，最优竞价根据摄像头的移动范围和焦距变化范围计算得到。