CN104778457A

CN104778457A - 基于多示例学习的视频人脸识别算法

Info

Publication number: CN104778457A
Application number: CN201510183977.6A
Authority: CN
Inventors: 陈海鹏; 申铉京; 王玉; 吕颖达; 王子瑜; 徐浩然
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2015-04-18
Filing date: 2015-04-18
Publication date: 2015-07-15
Anticipated expiration: 2035-04-18
Also published as: CN104778457B

Abstract

本发明提出一种基于多示例学习的视频人脸识别算法，该算法将每个人脸视频视为一个包，将视频中正规化后的人脸帧图像作为包中的示例，采用基于加权的分块局部二值模式级联直方图作为示例特征，在训练集合的多示例特征空间中，采用多示例学习算法得到分类器，进而实现对测试样本的分类及预测。通过在人脸视频库中的相关实验，该算法得到了比较高的识别精度，同时，该方法对光照变化、表情变化等具有良好的鲁棒性，验证了算法的有效性。

Description

基于多示例学习的视频人脸识别算法

技术领域

本发明涉及数字图像处理与计算机视觉领域，特别涉及一种视频人脸识别算法。

背景技术

视频人脸识别近年来成为计算机视觉领域的研究热点和难点问题，伴随着物联网、网络安全等的发展，具有广阔的应用前景。相对于静态图像，动态视频中可选用的特征信息更加丰富多样，例如，视频的时间动态信息有助于识别率的提升；从视频序列中可以选取分辨率相对较高的图像以能够提高识别性能；还可以通过视频学习重构目标三维模型，利用这些模型可以高效的实现目标识别。总之，时间和运动信息在基于视频的目标识别中起到了至关重要的作用。

视频人脸识别方法主要分为两类：一类方法是设法提取出视频序列中最具代表性的单独人脸帧图像，采用传统的基于静态图像的人脸识别方法，包括基于几何特征的方法、基于统计的方法等等。该类方法存在的主要问题是对关键帧的定义较为模糊，且没有有效利用视频中的上下文信息。另外一类方法就是将视频看成是一个视频帧集合，从帧集合的角度进行分析，利用3D建模、时空连续信息的概率模型方法、设计视频纹理描述等提高识别率，在这类方法中如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低、光照、表情、姿态变化剧烈等困难是研究的重点。因此，需要一种方法解决上述问题。

发明内容

本发明所要解决的技术问题是为解决视频人脸识别问题中关键帧难以准确定位以及高信噪比导致的识别率偏低等问题，提出一种基于多示例学习的视频人脸识别方法。所述方法在提高视频人脸识别准确率和识别性能方面有显著地提高。

为了解决上述技术问题，本发明所采用的技术方案是：

一种基于多示例学习的视频人脸识别方法，包括如下步骤：

步骤A，对从视频中提取的正面人脸视频序列以双眼坐标为基准进行人脸归一化处理；

步骤B，在预处理阶段，对提取出的人脸视频序列中的每个视频帧进行两个尺度、四个方向的Gabor变换，得到频域幅值图像，利用这些频域幅值图像可以获得增强的频域幅值特征；

步骤C，将上一步骤得到的频域幅值图像集合划分分块，并对每个分块通过LBP算子获得分块的纹理特征，每个分块的纹理特征通过统计直方图的形式表示，将各分块直方图级联以得到该人脸视频的全局纹理信息；

步骤D，通过上述步骤得到训练视频的特征分布空间，通过EMDD算法得到特征空间中多样性密度最大点t，对于每一个测试包，计算t与测试包之间的距离。如果测试包与t之间的距离小于分类阈值，那么就将其作为正包，否则，将其归为反包，实现对测试包的二分类。

步骤E，对于给定的K个分类的训练视频集合，通过上述步骤将得到K(K-1)/2个子分类器，通过采用One-Against-One方法可以建立多分类模型，对于任一测试人脸视频，可以通过步骤A、B、C的操作后获得全局纹理信息，输入到该多分类模型就可以得到测试包的最终分类结果。

所述的分类阈值的确定可以通在候选阈值进行选择，当某一候选阈值可以最大程度上将训练集合中的包进行正确分类时，将该候选阈值最为最终的分类阈值。

有益效果：本发明提出了一种基于多示例学习的视频人脸识别算法，所述算法提出了一种基于多示例学习的视频人脸识别方法，该方法将人脸视频视为一个包，而将视频中的人脸图像作为包中的示例，对包中的示例提取加权的LBP特征直方图来以获取示例特征，通过多示例学习算法训练得到分类器以实现对测试人脸视频的分类预测。本文算法在得到较高的识别精度的同时，有效解决了人脸视频中关键帧难以选择的问题，并且具有较强的抗干扰能力，对光照变化、表情等问题也具有较好的鲁棒性。

附图说明

图1是本发明基于多示例学习的视频人脸识别算法的流程图。

具体实施方式

下面结合附图，对本发明提出的一种基于直方图的彩色图像分割方法进行详细说明：

如图1所示，本发明的视频人脸识别方法，其步骤如下：

下面结合图1详细说明本发明的基于多示例学习的视频人脸识别算法。

首先，进行人脸图像的预处理。Gabor小波变换能够提取图像的多尺度、多方向局部频率信息，可以增强一些关键特征，在提取目标的局部空间频率域信息方面具有良好的特性。在人脸识别领域中，Gabor变换得到了广泛的应用。

二维Gabor小波函数定义为：

ψ_{μ, v} (z) = \frac{{| | k_{μ, v} | |}^{2}}{σ^{2}} \exp (- \frac{{| | k_{μ, v} | |}^{2} {| | z | |}^{2}}{2 σ^{2}}) \cdot [\exp ({ik}_{μ, v} z) - \exp (- \frac{σ^{2}}{2})] - - - (1)

其中，μ和v分别表示Gabor核的方向与尺度，z＝(x,y)代表图像中的一个像素点。k_μ,v控制高斯窗口的宽度、震荡部分的波长及方向，v的取值决定了Gabor滤波的波长，μ的取值表示Gabor核的方向。

Gabor人脸可以通过二维Gabor小波函数和人脸图像进行卷积运算得到：

G_ψ,f(x,y)＝f(x,y)*ψ(z) (2)

Gabor小波函数与图像的卷积结果是由实部和虚部两个分量构成的复数响应(滤波系数)。幅值比较稳定，不会随位置产生旋转，幅值信息反映了图像的能量谱，因此常被用来进行人脸的特征表示。其幅值表示为：

M (x, y) = \sqrt{{(Re (G (x, y)))}^{2} + {(Im (G (x, y)))}^{2}} - - - (3)

其中，Re(G(x,y))、Im(G(x,y))分别为G(x,y)的实部与虚部。这里我们取m∈{0,1}，两个尺度，n∈{0,1,2,3}四个方向的幅值图谱，并通过如下方法获得增强的Gabor幅值图谱表示：

E (x, y) = {(Σ_{m = 0}^{1} Σ_{n = 0}^{3} M_{mn}^{2} (x, y))}^{1 / 2} - - - (4)

其次，对人脸图像提取LBP算子以获得特征直方图。本发明采用了一种加权的局部二值模式人脸描述算子。局部二值模式具有计算简单、对均匀光照变化鲁棒等特点，而人脸的不同分块、LBP直方图中的不同特征值对人脸识别的贡献是不同的，在训练过程中可以得到特征空间中每个属性的权值，加权的LBP算子具有较强的分类能力，可以进一步提高识别精度和效率类。实验结果表明该方法对人脸表情变化及光照变化是鲁棒的，而且具有很好的判别能力。该算子是一种从纹理局部近邻定义中衍生出来，灰度范围内的纹理度量算子，具有很强的分类能力、较高的计算效率、灰度不变性和旋转不变性的特点。对于给定图像中的任一像素点，其LBP编码值可通过如下公式计算得到：

\begin{matrix} {LBP}_{P, R} (x_{c}, y_{c}) = Σ_{p = 0}^{P - 1} 2^{p} s (g_{p} - g_{c}) & s (x) = \{\begin{matrix} 1 & if (x &GreaterEqual; 0) \\ 0 & else \end{matrix} \end{matrix} - - - (5)

在LBP的各种模式中，有一部分模式出现的概率相当高，而且它们占据了绝大多数的纹理信息，这样的模式称为等价模式，等价模式的特点是在LBP的二进制编码中，最多有两个0到1(或者1到0)的变化。表示一种等价模式的LBP算子，采用了等价模式后，二进制模式大大减少，模式的数量从最开始的2^p减少到了P(P-1)+2种(降维)，等价模式具体定义为：其中U(LBP)表示0到1或1到0跳变的次数，等价模式的计算方法如下式所示。

{LBP}_{P, R}^{u 2} (x_{c}, y_{c}) = \{\begin{matrix} Σ_{p = 0}^{p - 1} s (g_{p} - g_{c}) 2^{p} & if U (LBP) \leq 2 \\ P + 1 & else \end{matrix} - - - (6)

U (LBP) = | s (g_{P - 1} - g_{c}) - s (g_{0} - g_{c}) | + | (g_{p} - g_{c}) - s (g_{p - 1} - g_{c}) | - - - (7)

接下来，通过训练样本得到多示例分类器。多示例学习模型被认为非常适合低信噪比或者数据缺失严重的环境下的概念学习，受到机器学习界广泛的重视并成为当前研究的热点之一。在众多示例学习算法中，DD算法及其基于EM策略的变体EM-DD算法应用最为普遍。

对于二分类问题，假设训练集合中共有n个正包和m个负包D＝{B1+；…；Bn+；B1-；…；Bm-}，则对于任一目标点t的多样性密度定义如下式所示：

DD (t) = \Pr (t | B_{1}^{+}, . . ., B_{n}^{+}, B_{1}^{-}, . . ., B_{m}^{-}) = \underset{1 \leq i \leq n}{Π} \Pr (B_{i}^{+} | t) \underset{1 \leq i \leq n}{Π} \Pr (B_{i}^{-} | t) - - - (8)

在实现过程中，示例特征是通过LBP直方图表示的，而直方图相似度匹配的公式包括直方图相交、Chi平方概率统计及Log概率统计等，本文选择了直方图相交的匹配方式，同时，在训练得到多示例分类器的过程中还可以获得各示例特征值对应的不同权值，如公式(9)所示，即可以得到一个加权的LBP特征直方图，可以进一步增强人脸的纹理表示性能。

\Pr (B_{ij} &Element; c_{t}) = \exp [1 - Σ_{d = 1}^{n} s_{d}^{2} \min {(B_{ijd}, c_{td})}^{2}] - - - (9)

式中，s代表相关属性的权值，s是一个非负的值，如果等于零，则说明这个属性很不相关，若越大，则说明这个属性越重要。

最后，执行对测试包的预测分类。DD算法及EM-DD算法学习到的概念是空间中多样性密度最大点t，对于每一个测试包，计算t与测试包之间的距离。对于给定的阈值threshold，如果包与t之间的距离小于threshold，那么就将其作为正包，否则，将其归为反包。

通过上述实施方式，可见本发明具有如下优点：

本发明在得到较高的识别精度的同时，有效解决了人脸视频中关键帧难以选择的问题，并且具有较强的抗干扰能力。

另外，本发明利用LBP算子获取纹理特征，该算子对光照变化、人脸的表情等具有较好的鲁棒性。

Claims

1.一种基于多示例学习的视频人脸识别算法，其特征在于：包括如下步骤：

步骤D，通过上述步骤得到训练视频的特征分布空间，通过EMDD算法得到特征空间中多样性密度最大点t，对于每一个测试包，计算t与测试包之间的距离，如果测试包与t之间的距离小于分类阈值，那么就将其作为正包，否则，将其归为反包，实现对测试包的二分类；

2.根据权利要求1所述的一种基于多示例学习的视频人脸识别算法，其特征在于：步骤D所述的分类阈值的确定可以通在候选阈值进行选择，当某一候选阈值可以最大程度上将训练集合中的包进行正确分类时，将该候选阈值做为最终的分类阈值。