CN103902990B

CN103902990B - 一种基于Haar‑like特征的司机面部特征快速检测方法

Info

Publication number: CN103902990B
Application number: CN201410163867.9A
Authority: CN
Inventors: 凌强; 李佳桐; 李峰
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2014-04-22
Filing date: 2014-04-22
Publication date: 2017-03-29
Anticipated expiration: 2034-04-22
Also published as: CN103902990A

Abstract

一种基于Haar‑like特征的司机面部特征快速检测方法，第一个阶段是利用分类器对当前图像小块进行检测，并根据检测的结果估计图像小块内容与目标的相似程度。第二个阶段是根据本次的检测结果，结合算法来对下一次检测的结果进行相似度估计，并根据估计结果，调节搜索的步长和分类器的检测精度。第三个阶段是结合司机驾驶的场景，根据已检测到的包含目标的区域的位置信息，估计目标所在的准确位置。本发明采用动态调整分类器检测精度的方式，在不降低准确度的情况下，减少了分类器的重复调用次数，缩短了检测时间，提高了检测效率。

Description

一种基于Haar-like特征的司机面部特征快速检测方法

技术领域

本发明涉及一种基于Haar-like特征的司机面部特征快速检测方法，属于智能交通，模式识别领域、嵌入式系统。

背景技术

随着我国经济的增长，我国居民机车保有量迅速增长。在极大方便了人民出行的同时，道路交通事故的发生率也在节节攀升，给人民的生命财产和国民经济造成了巨大的损失。从道路交通事故的成因来看，驾驶员是导致交通事故的主要因素，而行人是在交通事故中主要的受害群体。据统计，2013我国因交通意外而死亡的行人人数约为27906人，占全部交通事故死亡人数的29.81％；行人因交通事故而受伤的人数约为80239人，占全部交通事故受伤人数的21.32％。所以对司机驾驶状态进行实时检测，在司机驾驶状态不佳时进行及时的提示，对预防事故和事故后处理都将产生积极的意义。

对司机进行检测主要采用司机面部特征提取方法，该方法主要是通过提取司机面部在视频图像中的像素灰度、梯度、纹理、颜色等信息中的一种或几种，以区别于其他非行人物体。司机面部提取质量的好坏将直接影响后续的检测工作。目前，常用的方法有矢量特征、标量特征和纹理边缘特征等。

矢量特征：目前比较经典的矢量特征主要有HOG(Histogram of OrientedGradient)特征、SIFT(Scale Invariant Feature Transform)特征、Shapelet特征等。HOG特征由Dalal等学者于2005年首次提出，参见Dalal Navneet,Triggs Bill.Histograms oforiented gradients for human detection[C].Proceedings of IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition,San Diego,CA,United states,2005,886-893。Dalal通过有效提取检测目标的边缘梯度信息，将各边缘梯度信息梯度方向直方图的方式予以反映，并对各梯度方向的直方图进行综合归纳与描述来提取目标的边缘共性特征，由于该特征将图像分割成很小的单元格，并在其中进行提取边缘梯度、计算梯度直方图等操作，使该特征具有较好的光照不变性、尺度不变性和抗扰动能力，但由于算法特征维数较高影响了算法的实时性。SIFT特征是由Lowe于2004年首次提出的一种矢量特征提取算法，参见Lowe D M..Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110。该特征具有比HOG特征性能更为优越的鲁棒性，对视频图像因外界光照、尺度、位移等产生的变化都具有良好的容忍性。然而该特征计算量复杂，维度较高，如何降低其维度，实现实时性较好的特征有效提取还是一个悬而未决的难题。Shapelet特征也是一种矢量梯度特征，该特征最早由Refregier提出，参见Refregier A.Shapelets:I.A method forimage analysis[J].Monthly Notice of the Royal Astronomical Society,2003,338(1):35-47。该特征也具有较强的排他性和判别能力，缺点同样也是计算较为复杂，实时性有待提高。

除了矢量特征，还有学者尝试使用纹理特征和边缘梯度特征来进行检测，参见Yang Hee-Deok,Lee Seong-Whan.Multiple pedestrian detection and tracking basedon weighted temporal texture features[C].Proceedings of InternationalConference on Pattern Recognition,British Machine Vis Assoc,Cambridge,ENGLAND,2004,248-251。

本发明选择Haar-like系列特征，这是一种比较典型的标量特征。Haar-like特征是由Papageorgiou、Viola等提出的，参见Viola P.,Jones M.Robust real-time facedetection[J].International Journal of Computer Vision,2004,52(2):137-154；Viola P,Jones MJ,Snow D.Detecting pedestrians using patterns of motion andappearance[J].International Journal of Computer Vision,2005,63(2):153-161Papageorgiou C,Poggio T.A trainable system for object detection [J].International Journal of Computer Vision,2000,38(1):15-33。该特征由其外观类似图像处理中的Haar小波变换示意图而得名。比起前面提到HOG特征、SIFT特征、Shapelet特征等矢量特征以及纹理特征，它具有计算速度快，实时性好，鲁棒性较好的特点。

提取Haar-like特征后，传统方法是结合AdaBoost进行分类器学习并将强分类器进行级联，获得一个性能较为理想的复杂分类器，然后利用复杂分类器对图像进行检测，进而获得目标位置。这种方法在检测过程中，采用的是静态分类器精度进行检测。其不足之处在于：不能根据图像内容调整分类器检测精度，即分类器始终从第一层开始调用。因而在检测过程中进行了大量的重复计算，效率较低。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于Haar-like特征的司机面部特征快速检测方法，采用根据图像与目标的相似度，动态调整分类器检测精度的方式，在不降低准确度的情况下，减少了分类器的重复调用次数，缩短了检测时间，提高了检测效率。

本发明的技术方案分三个阶段，第一个阶段是利用分类器对当前图像小块进行检测，并根据检测的结果估计图像小块内容与目标的相似程度。第二个阶段是根据本次的检测结果，结合算法来对下一次检测的结果进行相似度估计，并根据估计结果，调节搜索的步长和分类器的检测精度。第三个阶段是结合司机驾驶的场景，根据已检测到的包含目标的区域的位置信息，估计目标所在的准确位置。

(1)图像块与目标的相似度估计

检测采用滑动窗口的方式。即在感兴趣区域内设置一滑动窗口，检测时，滑动窗口在感兴趣区域内从左向右，从上到下进行搜索。窗口位置每调整一次，将其中的图像输入分类器进行判断，若能通过分类器判断，则认为是候选目标。根据分类器对窗口内图像块的判定结果，估计图像块与目标的相似度。

(2)调整滑动窗口的检测位置和分类器精度

根据上一阶段的估计结果，计算下一次检测的滑动窗口位置和分类器的精度。根据计算结果，滑动窗口移动到指定位置，同时调整分类器的检测精度，对窗口内的图像块进行检测。检测完成后，再进行上一阶段的相似度估计，如此反复，直到满足结束条件，则检测结束。检测结束后，需要根据检测的结果，进行目标准确位置的估计

(3)估计目标准确位置

在上一阶段检测结束后，进行目标准确位置的估计。在检测过程中，分类器对滑动窗口中的图像块进行检测，若图像块能够通过分类器的检测，则将此图像块作为候选目标，并记录位置。在检测结束后，根据记录的所有候选目标的位置，估计出目标的准确位置，作为整个检测算法的输出。

如图1所示，本发明具体实现如下：

(1)从摄像头读取一帧视频流图像；

(2)将读取的视频流图像中的MJPEG格式图像解码为灰度图；

(3)根据上一帧的检测结果，确定当前帧检测的感兴趣区域；

(4)计算检测的感兴趣区域的积分图；

(5)根据积分图计算感兴趣区域的Haar-like特征；

(6)设定检测的起始点，检测采用滑动窗口的方式，即在感兴趣区域内设置滑动窗口，检测时，滑动窗口在感兴趣区域从左上角开始，从左向右，从上到下地滑动；

(7)利用分类器对滑动窗口内的图像块进行检测，在滑动窗口检测的过程中，滑动窗口每移动一次，就利用分类器对滑动窗口内的图像块进行检测；

(8)根据分类器检测结果，估计滑动窗口内的图像与目标图像的相似度；

(9)根据上一步估计的相似度，计算下一次检测滑动窗口的移动步长和分类器的检测精度；

(10)估计目标的准确位置，采用分类器，对滑动窗口内的图像块进行检测，若滑动窗口内的图像块通过分类器的检测，则认为是候选目标，记录图像块的位置；根据所有通过分类器的图像块的位置，融合得到目标的位置；最后根据得到的目标位置，估计出目标的准确位置；

(11)输出目标位置，并进行下一帧的检测。

所述步骤(6)具体实现如下：

(61)设第k帧时，在图像中设置感兴趣区域D_k，感兴趣区域为矩形，左上角的坐标为(x_k，y_k)宽度和高度分别为W、H；再设置一个滑动窗口Win_k，滑动窗口为矩形，矩形左上角坐标为其中n为在同一帧内滑动窗口的滑动次数，宽度和高度分别为W_w、H_w，且0＜W_w＜W、0＜H_w＜H；

(62)在开始检测时，滑动窗口从矩形的左上角开始滑动，即：

滑动窗口滑动的方式为从左到右、从上到下，在感兴趣区域的第一行，即RD_k＝1，窗口从左向右移动，步长为当移动到本行行末时，即当时，本行搜索结束；窗口移动到第二行，即第RD_k＝2行，竖直方向移动步长为窗口左上角坐标变为滑动窗口在第二行仍然从左向右移动，直到到达行末，即当窗口左上角坐标变为时，滑动窗口再移动到第三行右侧进行检测；如此反复，直到满足截止条件，则检测结束。

所述步骤(7)分类器的组织形式为多层弱分类器串联的形式，其组织形式如下：设整个分类器由N个弱分类器串联而成；每一层均对滑动窗口内的图像块进行判定，滑动窗口内的图像块只有通过前一级分类器，才能接受下一级的判定，有一级分类器做出否定判决，则判定图像块不是目标，不进行下一级的判定；只有通过分类器所有层的判定，图像块才能成为候选目标，图像块位置记为

所述步骤(8)根据分类器检测结果，估计窗口内的图像与目标图像的相似度的具体过程如下：

(1)在步骤(7)中，用分类器对图像块进行检测；根据图像块通过的分类器层数，估计出图像块与目标的相似度，即，与目标越相似度越大，则通过的分类器层数越多；与目标相似度越小，则通过分类器的层数越少；因此图像块通过的分类器最大层数能够反映出图像块与目标T的相似度；越大，表示与T越相似度越大；越小，表示与T相似度越小，采用表示图像块与目标T的相似度；

(2)根据步骤(7)中定义的分类器形式，利用步骤(1)中提出的相似度估计，对图像块与目标T的相似度进行估计；估计的结果为图像块通过的分类器最大层数表示了图像块与目标T的相似度。

所述步骤(9)中的滑动窗口步长的计算，包括滑动窗口水平移动步长和滑动窗口垂直移动步长，

其中滑动窗口水平移动步长xsn_k计算过程如下：

N为分类器的最大层数，为图像块通过的分类器最大层数；

即若图像块通过分类器所有层的判断，即则步长为2，滑动窗口向右移动2个像素；移动后，滑动窗口左上角坐标为滑动窗口的宽度和高度仍然分别为W_w、H_w；

若图像块没有通过分类器所有层的判断，即则步长为4，滑动窗口向右移动4个像素；移动后，滑动窗口左上角的坐标为滑动窗口的高度和宽度仍然分别为W_w、H_w；

所述滑动窗口竖直方向移动步长确定如下：

在检测时，滑动窗口在区域内滑动，首先进行第一行检测，即RD_k＝1，从区域左侧开始，向右滑动检测；在滑动到行末后，滑动窗口下移一定的像素数，进行第二行检测，即开始进行第RD_k＝2行的检测；如此反复，到检测满足终止条件，其中RD_k表示滑动窗口已检测完的和正在检测的行数之和；

根据每一行的检测结果，调整滑动窗口竖直方向移动步长ysn_k，步长的调整策略为：

若在第RD_k行的检测中，没有出现即没有任何一图像块通过分类器检测，则本行检测结束时，设定竖直移动步长为4，即第RD_k+1行的检测中，第RD_k+1行滑动窗口的起始坐标为

若在第RD_k行的检测中，出现了至少一次也就是至少有一个图像块通过了分类器的所有层，则本行检测结束时，设定竖直步长为2，即在第RD_k+1行的检测中，第RD_k+1行滑动窗口的起始坐标为

所述步骤(9)中的分类器检测精度计算公式如下：

为图像块通过的分类器最大层数；

上式表明，若第k帧中，滑动窗口第n次检测的图像块通过分类器判定，即则下次也就是第n+1次检测时，分类器的起始层数即分类器从倒数第4层开始检测；

若在第n次检测中，图像块通过了分类器前五层的检测，但又没有最终通过所有层的检测，即则在第n+1次检测中，分类器的起始检测层数，为上一次终止层数的前两层，即

若在第n检测中，图像块没有通过分类器前五层的检测，即在前五层的某一层被否定则在第n+1测检测中，从分类器的起始层开始检测，即

所述步骤(10)估计目标准确位置过程为：

(1)确定检测的截止条件

若图像块dn_k能够通过分类器所有层的判定，则该图像块定义为候选目标，此时滑动窗口的位置记录为其中m表示第m个候选目标；

每获得m个候选目标，即在m＝M、2M、3M……时，就对检测结果进行一次融合，融合采用重叠面积加权的方式，融合规则如下：

(11)记录已检测到的候选目标的位置为候选目标的区域为矩形，其宽度和高度分别为W_w、H_w；

(12)计算各候选目标两两间的重叠面积，记为S_l|i，表示候选目标区域l和i的重叠面积，计算方法如下：

A

S_l|i＝W_l|i×H_l|i

其中W_l|i、H_l|i分别为重叠区域的宽度和高度；重叠面积为S_l|i，i和l分别表示第i个和第l个候选目标，且i,l∈{x|1≤x≤m,x∈N}，i≠l。

(13)进行结果融合，获得目标的位置，计算公式如下：

其中SumS_k为各候选目标区域的重叠面积之和。tx_k和ty_k分别为融合结果的横坐标和纵坐标。

(14)对结果进行判断，若tx_k和ty_k有一个为0，则融合无效，需继续用滑动窗口进行检测，当再检测到M个候选目标时，即一共2M个候选目标时，返回步骤(12)继续进行融合；

若tx_k和ty_k都不为0，则融合有效，将融合后的目标结果记录下来，再进行检测终止条件判断；

(15)检测终止条件，当检测到两个目标时，即成功融合了两次；或滑动窗口已搜索过全部感兴趣区域，则检测终止条件为真，检测结束，开始进行目标准确位置估计；结束后，获得的目标个数为TN；若检测终止条件为假，则继续用滑动窗口在感兴趣区域内进行检测；

(2)目标准确位置估计

根据检测结果对获得的TN个目标位进行估计，估计的结果用矩形表示，左上角坐标为(Tx_k,Ty_k)，宽度和高度分别为W_w、H_w；若TN＝0，则没有检测目标，需进行第k+1帧的检测；若TN＝1，即只检测到一个目标，则不需要融合，直接将检测到的一个目标输出，即若TN＝2，即检测到两个目标坐标，分别为T1：和T2：应用于检测司机的鼻子和嘴相关显著特征时，先验地知道感兴趣区域内只有一个或没有目标，需要对检测结果进行融合，所述融合方法如下：

输出为，左上角坐标(Tx_k,Ty_k)，宽度和高度分别为W_w、H_w的矩形。

本发明与现有技术相比优点在于：

(1)本发明在获得复杂分类器后，对分类器调用方式又进行了优化，采用动态调整分类器检测精度的方式，在不降低准确度的情况下，减少了分类器的重复调用次数，缩短了检测时间，提高了检测效率。

(2)本发明由于采用了Haar-like特征进行检测，在视频质量不高、目标有一定形变时，仍能准确检测出目标位置，具有较好的检测效果。

(3)本发明采用滑动窗口检测的方法，对窗口中的图像进行相似度估计，并根据结果对窗口的滑动步长和分类器的检测精度进行调节，节省了计算时间，提高了处理速度。

(4)本发明在检测结束后，对所有的检测结果进行综合估计，获得目标的准确位置，有效抑制了噪声及其他随机因素的影响。

(5)本发明在嵌入式平台上,提取灰度的图像的Haar-like特征，不借助额外设备，能够快速在感兴趣区域内检测到司机鼻子位置，因此检测速度快。

附图说明

图1为本发明的实现流程图；

图2为级联分类器结构；

图3为候选目标位置融合流程图。

具体实施方式

本发明通过用分类器对感兴趣区域提取的Haar-like特征进行检测，获得目标的准确位置。

1.图像块与目标的相似度估计

本发明用Haar-like特征来表示待测目标。图像中不同区域和不同物体的Haar-like特征不同，待检测目标具有自己的Haar-like特征。因此，利用根据目标Haar-like特征构造的分类器，来检测图像中这些特征，可以辨别出目标，从而获得目标在图像中的位置。

Haar-like特征能够准确反映图像中物体的灰度和形状特征。不同物体的Haar-like特征虽然不同，但外形和灰度有一定相似性的物体，其Haar-like特征也具有一定相似性。并且，图像中的同一个物体，其各部分之间，以及各部分和整体之间，存在一定相似性。在检测过程中，利用这种相似性，可以提高检测效率，从而减少检测时间。

1.1滑动窗口检测

在检测过程中，采用滑动窗口检测的方式。利用滑动窗口在感兴趣区域内滑动，来搜索目标。设第k帧时，在图像中设置感兴趣区域D_k，区域为矩形，左上角的坐标为(x_k,y_k)，宽度和高度分别为W、H。再设置一个滑动窗口Win_k，滑动窗口为矩形，其左上角坐标为其中n为在同一帧内滑动窗口的滑动次数，宽度和高度分别为W_w、H_w且0＜W_w＜W、0＜H_w＜H。

在开始检测时，滑动窗口从R_w的左上角开始滑动，即：

滑动窗口滑动的方式为从做到右、从上到下。在感兴趣区域的第一行，即RD_k，窗口从左向右移动，步长为当移动到本行行末时，即当时，本行搜索结束。滑动窗口移动到第二行，即第RD_k+1行，移动步长为滑动窗口左上角坐标变为滑动窗口在第二行仍然从左向右移动，直到到达行末，即当滑动窗口左上角坐标变为时，滑动窗口再移动到第三行右侧进行检测。如此反复，直到满足截止条件，则检测结束。

1.2图像块与目标相似度估计

在滑动窗口检测的过程中，滑动窗口每移动一次，就利用分类器对滑动窗口内的图像进行检测。分类器的组织形式为多层弱分类器串联的形式。其组织形式如图2所示。

设整个分类器由N个弱分类器串联而成，每一层都会对滑动窗口内的图像块进行判定。滑动窗口内的图像块只有通过前一级分类器，才能接受下一级的判定，有一级分类器做出否定判决，则判定不是目标，不进行下一级的判定。只有通过分类器所有层的判定，图像块才能成为候选目标，其位置记为

根据图像块通过分类器的层数，可以估计出图像块与目标的相似度。即，与目标越相似度越大，则通过的分类器层数越多；与目标相似度越小，则通过分类器的层数越少。因此图像块通过的分类器最大层数可以反映出图像块与目标T的相似度。越大，表示与T越相似度越大；越小，表示与T相似度越小。

2.调整滑动窗口的检测位置和分类器精度

由上一阶段知，感兴趣区域D_k内，滑动窗口Win_k从左向右，从上到下，在区域内滑动。同时对于滑动窗口内的图像块，其通过分类器的层数反映了与目标T的相似度。根据对水平方向步长竖直方向步长和分类器检测的起始层进行调整，以减少计算时间。

2.1滑动窗口水平移动步长计算

根据，调整窗口水平方向移动的步长步长计算公式如下：

即若图像块通过分类器所有层的判断，即则步长为2，滑动窗口向右移动2个像素。移动后，滑动窗口左上角坐标为滑动窗口的宽度和高度仍然分别为W_w、H_w。

若图像块没有通过分类器所有层的判断，即则步长为4，滑动窗口向右移动4个像素。移动后，滑动窗口左上角的坐标为滑动窗口的高度和宽度仍然分别为W_w、H_w。

2.2滑动窗口竖直方向移动步长确定

根据每一行的检测结果，算法调整窗口竖直方向移动的步长步长的调整策略为：

若在第RD_k行的检测中，没有出现即没有任何一图像块通过分类器检测，则本行检测结束时，设定竖直移动步长为4。即第RD_k+1行的检测中，其滑动窗口的起始坐标为

若在第RD_k行的检测中，出现了至少一次也就是至少有一个图像块通过了分类器的所有层，则本行检测结束时，设定竖直步长为2。即在第RD_k+1行的检测中，其滑动窗口的起始坐标为

2.3分类器检测精度确定

在检测过程中，分类器的组织形式为多级级联。级数越多，检测的精度也就越高，计算时间也就越长。通过调整分类器检测的起始层数可以调节分类器的有效检测级数，进而调整检测精度，达到提高计算效率，减少计算时间的目的。

本发明中，分类器的起始层根据滑动窗口上一次的检测结果来确定。计算公式如下：

上式表明，若第k帧中，滑动窗口第n次检测的图像块通过分类器判定，即则下次也就是第n+1次检测时，分类器的起始层数即分类器从倒数第4层开始检测。

若在第n次检测中，图像块通过了分类器前5层的检测，但又没有最终通过所有层的检测，即则在第n+1次检测中，分类器的起始检测层数，为上一次终止层数的前两层，即

3.估计目标准确位置

3.1检测的截止条件

检测中，算法采用滑动窗口的方式，调用级联分类器进行检测。在满足检测截止条件后，检测结束。其流程如图3所示，即：

第一步为滑动窗口在检测区域内进行检测。窗口的滑动方式、滑动步长设置和分类器精度调节的方式按照上面确定的规则进行。

第二步为记录候选目标的位置。在第一步的检测过程中，若图像块能够通过分类器所有层的判定，则该图像块定义为候选目标，此时窗口的位置记录为其中m表示第m个候选目标。

以3个候选目标为例，每获得3个候选目标，即在m＝3、6、9……时，就对检测结果进行一次融合。融合采用重叠面积加权的方式。

记录已检测到的候选目标的位置为候选目标的区域为矩形，其宽度和高度分别为W_w、H_w。

第三步为计算候选面积的重叠面积。根据第二步的记录的候选目标的位置，计算其相互之间的重叠面积。计算方法如下(以3个候选目标为例)：

计算各候选目标两两间的重叠面积，记为S_l|i，表示候选目标区域l和i的重叠面积。计算方法如下：

S_l|i＝W_l|i×H_l|i

其中W_l|i、H_l|i分别为重叠区域的宽度和高度。S_l|i为候选区域重叠的面积。所有的重叠面积为(以3个候选区域为例)：S_1|2、S_1|3、S_2|1、S_2|3、S_3|1和S_3|2。

第四步为进行结果融合。根据第三步计算所得的候选目标之间的重叠面积，进行结果融合，获得目标的位置。计算过程为，先计算所有候选目标区域之间重叠的面积之和，再进行结果融合。计算公式如下(以3个候选目标为例)：

SumS_k＝S_1|2+S_1|3+S_2|1+S_2|3+S_3|1+S_3|2

第五步为对融合的结果进行有效性判定。根据第四步的融合结果，对其进行有效性判断。判断规则如下：

若tx_k和ty_k有一个为0，则融合无效。需继续用滑动窗口进行检测，当再检测到三个候选目标时，即一共6个候选目标时，返回第四步继续进行融合。

若tx_k和ty_k都不为0，则融合有效。将融合后的目标结果记录下来，再进行检测终止条件判断。

第六步为检测终止条件判定。根据第五步的判断结果，进行检测的终止条件判断。判断规则如下：

当检测到两个目标时，即成功融合了两次；或滑动窗口已搜索过全部感兴趣区域，则检测终止条件为真，检测结束，开始进行目标准确位置估计。结束后，获得的目标个数为TN。若检测终止条件为假，则继续用滑动窗口在感兴趣区域内进行检测。

若第六步的检测终止条件判断为真，则检测结束，进行下一步，即目标准确位置的估计。若第六步的检测中条件判断为假，则跳转到第一步，即滑动窗口继续在区域内进行检测。

3.2目标准确位置估计

根据上一环节可知，搜索结束时，可以获得TN个目标位置。需要根据检测结果对目标位置进行估计，估计的结果用矩形表示，左上角坐标为(Tx_k,Ty_k)，宽度和高度分别为W_w、H_w。若TN＝0，则没有检测目标，需进行第k+1帧的检测。若TN＝1，即只检测到一个目标，则不需要融合，直接将检测到的一个目标输出，即若TN＝2，即检测到两个目标坐标，分别为T1：和T2：由于算法应用于检测司机的鼻子、嘴等显著特征，先验地知道感兴趣区域内只有一个或没有目标。因此，需要对检测结果进行融合。融合方法如下：

本发明未详细阐述部分属于本领域公知技术。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于Haar-like特征的司机面部特征快速检测方法，其特征在于实现步骤如下：

(1)从摄像头读取一帧视频流图像；

(2)将读取的视频流图像中的MJPEG格式图像解码为灰度图；

(3)根据上一帧的检测结果，确定当前帧检测的感兴趣区域；

(4)计算检测的感兴趣区域的积分图；

(5)根据积分图计算感兴趣区域的Haar-like特征；

(11)输出目标位置，并进行下一帧的检测；

其中滑动窗口水平移动步长计算过程如下：

{xs}_{n_{k}} = \{\begin{matrix} 2, & i f & c_{n_{k}} = N \\ 4, & i f & 0 \leq c_{n_{k}} < N \end{matrix}

N为分类器的最大层数，为图像块通过的分类器最大层数；

所述滑动窗口竖直方向移动步长确定如下：

根据每一行的检测结果，调整滑动窗口竖直方向移动步长步长的调整策略为：

所述步骤(9)中的分类器检测精度计算公式如下：

{cs}_{n + 1_{k}} = \{\begin{matrix} N - 4, & i f & c_{n_{k}} = N \\ c_{n_{k}} - 2, & i f & 5 \leq c_{n_{k}} < N \\ 0, & i f & 0 \leq c_{n_{k}} < 5 \end{matrix}

为图像块通过的分类器最大层数；

所述步骤(10)估计目标准确位置过程为：

(11)确定检测的截止条件

若图像块能够通过分类器所有层的判定，则该图像块定义为候选目标，此时滑动窗口的位置记录为其中m表示第m个候选目标；

(111)记录已检测到的候选目标的位置为候选目标的区域为矩形，其宽度和高度分别为W_w、H_w；

(112)计算各候选目标两两间的重叠面积，记为S_l|i，表示候选目标区域l和i的重叠面积，计算方法如下：

W_{l | i} = m i n ({cx}_{l_{k}}, {cx}_{i_{k}}) + W_{w} - m a x ({cx}_{l_{k}}, {cx}_{i_{k}})

H_{l | i} = m i n ({cy}_{l_{k}}, {cy}_{i_{k}}) + H_{w} - m a x ({cy}_{l_{k}}, {cy}_{i_{k}})

S_l|i＝W_l|i×H_l|i

其中W_l|i、H_l|i分别为重叠区域的宽度和高度；重叠面积为S_l|i，i和l分别表示第i个和第l个候选目标，且i,l∈{x|1≤x≤m,x∈N}，i≠l；

(113)进行结果融合，获得目标的位置，计算公式如下：

{SumS}_{k} = Σ_{l = 1}^{l = m} Σ_{i = 1, l &NotEqual; i}^{i = m} S_{l | i}

{tx}_{k} = Σ_{l = 1}^{l = m} \frac{Σ_{i = 1, i &NotEqual; l}^{i = m} S_{l | i}}{{SumS}_{k}} {cx}_{l_{k}}

{ty}_{k} = Σ_{l = 1}^{l = m} \frac{Σ_{i = 1, i &NotEqual; l}^{i = m} S_{l | i}}{{SumS}_{k}} {cy}_{l_{k}}

其中SumS_k为各候选目标区域的重叠面积之和，tx_k和ty_k分别为融合结果的横坐标和纵坐标；

(114)对结果进行判断，若tx_k和ty_k有一个为0，则融合无效，需继续用滑动窗口进行检测，当再检测到M个候选目标时，即一共2M个候选目标时，返回步骤(112)继续进行融合；

(115)检测终止条件，当检测到两个目标时，即成功融合了两次；或滑动窗口已搜索过全部感兴趣区域，则检测终止条件为真，检测结束，开始进行目标准确位置估计；结束后，获得的目标个数为TN；若检测终止条件为假，则继续用滑动窗口在感兴趣区域内进行检测；

(12)目标准确位置估计

根据检测结果对获得的TN个目标位进行估计，估计的结果用矩形表示，左上角坐标为(Tx_k,Ty_k)，宽度和高度分别为W_w、H_w；若TN＝0，则没有检测目标，需进行第k+1帧的检测；若TN＝1，即只检测到一个目标，则不需要融合，直接将检测到的一个目标输出，即若TN＝2，即检测到两个目标坐标，分别为T1：和T2：应用于检测司机的鼻子和嘴相关显著特征时，需要对检测结果进行融合，所述融合方法如下：

{Tx}_{k} = \frac{{tx}_{1_{k}} + {tx}_{2_{k}}}{2}, {Ty}_{k} = \frac{{ty}_{1_{k}} + {ty}_{2_{k}}}{2}

2.根据权利要求1所述的基于Haar-like特征的司机面部特征快速检测方法，其特征在于：所述步骤(6)具体实现如下：

(61)设第k帧时，在图像中设置感兴趣区域D_k，感兴趣区域为矩形，左上角的坐标为(x_k,y_k)，宽度和高度分别为W、H；再设置一个滑动窗口Win_k，滑动窗口为矩形，矩形左上角坐标为其中n为在同一帧内滑动窗口的滑动次数，宽度和高度分别为W_w、H_w，且0＜W_w＜W、0＜H_w＜H；

(62)在开始检测时，滑动窗口从矩形的左上角开始滑动，即：

{wx}_{n_{k}} = x_{k}, {wy}_{n_{k}} = y_{k}

3.根据权利要求1所述的基于Haar-like特征的司机面部特征快速检测方法，其特征在于：所述步骤(8)根据分类器检测结果，估计窗口内的图像与目标图像的相似度的具体过程如下：