CN107169446A

CN107169446A - 一种基于注意定势度量学习的视频面部识别方法

Info

Publication number: CN107169446A
Application number: CN201710334543.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-15

Abstract

本发明中提出的一种基于注意定势度量学习的视频面部识别方法，其主要内容包括：注意定势的度量学习(ASML)、记忆注意权重、将ASML自然融入到卷积神经网络(CNN)中，其过程为，先定义图像集上的有效距离度量，显著地最小化集合内距离，并同时最大化集中距离，再把权重作为神经图灵机，其中人脸特征集作为记忆，权重作为地址读写内存，最后将ASML自然融入到卷积神经网络中，从而形成端到端的学习方案。本发明缩小了相同集合的概率分布之间的差距，同时扩大了不同集合之间的差距；减少了视频或图像集中的样本偏差和噪声，有效地利用视频或图像集中的信息，从而提高了识别的性能。

Description

一种基于注意定势度量学习的视频面部识别方法

技术领域

本发明涉及面部识别领域，尤其是涉及了一种基于注意定势度量学习的视频面部识别方法。

背景技术

由于视频监控正在快速普及，众多的视频监控应用迫切需要一种远距离、用户非配合状态下的快速身份识别技术，以求远距离快速确认人员身份，实现智能预警。人脸识别技术可以从监控视频图像中实时查找人脸，并与人脸数据库进行实时比对，从而实现快速身份识别。因此，视频人脸识别广泛应用在协助公安刑侦破案、门禁系统、摄像监视系统、身份辨识和支付系统等。然而，由于照明变化、分辨率低、姿态变化和运动产生的模糊等，给视频脸部识别技术的研究带来了一定的难度。

本发明提出了一种基于注意定势度量学习的视频面部识别方法，先定义图像集上的有效距离度量，显著地最小化集合内距离，并同时最大化集中距离，再把权重作为神经图灵机，其中人脸特征集作为记忆，权重作为地址读写内存，最后将注意定势的度量学习(ASML)自然融入到卷积神经网络中，从而形成端到端的学习方案。本发明缩小了相同集合的概率分布之间的差距，同时扩大了不同集合之间的差距；减少了视频或图像集中的样本偏差和噪声，有效地利用视频或图像集中的信息，从而提高了识别的性能。

发明内容

针对由于照明变化、分辨率低、姿态变化和运动产生的模糊等问题，本发明的目的在于提供一种基于注意定势度量学习的视频面部识别方法，先定义图像集上的有效距离度量，显著地最小化集合内距离，并同时最大化集中距离，再把权重作为神经图灵机，其中人脸特征集作为记忆，权重作为地址读写内存，最后将ASML自然融入到卷积神经网络中，从而形成端到端的学习方案。

为解决上述问题，本发明提供一种基于注意定势度量学习的视频面部识别方法，其主要内容包括：

(一)注意定势的度量学习(ASML)；

(二)记忆注意权重；

(三)将ASML自然融入到卷积神经网络(CNN)中。

其中，所述的注意定势的度量学习(ASML)，它纠正了样本偏差，并测量面部图像组之间的相关性，缩小了相同集合的概率分布之间的差距，同时扩大了不同集合之间的差距；与ASML组合的端对端可训练的深卷积神经网络(CNN)，可以学习更多的歧视性深层次表示，获得可靠的人脸识别；ASML是最大平均偏差与记忆注意权重的广义扩展。

进一步地，所述的最大平均偏差(MMD)，设是一类函数f：同上定义p,q,X,Y；MMD及其经验估计为：

当是紧凑度量空间上定义的一个单位球，方程成立，当且仅当p＝q；直观地说，MMD越小，X和Y之间的分布越相关；因此，MMD越大，分布之间的差异越大，特征完全不同的。

进一步地，所述的基于集合的度量学习(MSML)，根据最大平均偏差，基于集合的度量学习(MSML)表示为：

MSML(X,Y,Z)＝‖E_x～p[f(x)]-E_y～q[f(y)]‖₂+[α-‖E_x～p[f(x)]-E_z～q[f(z)]‖₂]₊ (3)

其中，[·]₊表示最大值，(·,0)和α是一个恒定的余量；X,Y,Z表示图像集；其中，X和Y来自同一类，但又不同于Z；减小MSML的数量，可以增加相同与不同组之间的相关性和差异分别。

进一步地，所述的不考虑样本偏差和异常值的集合，最大平均偏差不考虑样本偏差和异常值的集合：

其中，是一个分布，其对应于p；ω(x)可以纠正样本偏差和消除异常值(或减少噪音)。

进一步地，所述的整流平均差异(RMD)，ω(x)作为样本偏差为MMD修正项，整流平均差异(RMD)如下：

RMD(X,Y)＝‖E_ω(x)[f(x)]-E_ω(x)[f(y)]‖₂

结合公式(3)和公式(5)，我们联结基于整流项的度量学习的平均集，并获得高级的度量学习方法，命名为注意定势度量学习的视频人脸识别：

ASML(X,Y,Z)＝‖E_ω(x)[f(x)]-E_ω(x)[f(y)]‖₂+[α-‖E_ω(x)[f(x)]-E_ω(x)[f(z)]‖₂]₊

s.t.∑ω(x)＝1,∑ω(y)＝1,∑ω(z)＝1 (6)

如上式所示。

其中，所述的记忆注意权重，权重应满足以下三点：

(1)加权方法容易集成在CNN的框架，其参数是端到端可训练的监督方式；

(2)权重基于全球内容和设置感知，因为构建了一个训练实例作为特殊的图像，能更好地利用信息；

(3)学习权重图像顺序必须不变，每个图像的权重和图像在训练实例中是无序。

进一步地，所述的权重，把权重作为神经图灵机(NTM)，其中人脸特征集作为记忆，权重视为地址读写内存；NTM涉及三个基本组件：读取向量，擦除向量和添加向量；令{f_i}成为一个面部特征集，在s_i上应用softmax操作以形成归一化权重ω_i；公式(6)中操作和重新配置的E_ω[f(x)]如下：

权重{ω_i}是无序的，{s_i}是可微的。

进一步地，所述的将ASML自然融入到卷积神经网络(CNN)中，CNN包含29层残块卷积和最大特征映射操作；基于网络，ASML和记忆注意权重耦合，实现视频人脸识别；Softmax是重要的监督信号方法，得到以下目标函数：

L＝λ₁Softmax+λ₂ASML (9)

其中，λ₁和λ₂是这两个项之间的权重；Softmax功能用于标准的人脸识别任务，ASML惩罚项增加了相关性、类似的分布和不同脸部集合之间的差异。

进一步地，所述的卷积神经网络(CNN)，网络中的所有参数是可微的，梯度可以计算：

其中，θ代表网络参数。

附图说明

图1是本发明一种基于注意定势度量学习的视频面部识别方法的系统流程图。

图2是本发明一种基于注意定势度量学习的视频面部识别方法的基本框架图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于注意定势度量学习的视频面部识别方法的系统流程图。主要包括注意定势的度量学习(ASML)，记忆注意权重，将ASML自然融入到卷积神经网络(CNN)中。

注意定势的度量学习(ASML)，它纠正了样本偏差，并测量面部图像组之间的相关性，缩小了相同集合的概率分布之间的差距，同时扩大了不同集合之间的差距；与ASML组合的端对端可训练的深卷积神经网络(CNN)，可以学习更多的歧视性深层次表示，获得可靠的人脸识别；ASML是最大平均偏差与记忆注意权重的广义扩展。

最大平均偏差(MMD)，设是一类函数f：同上定义p,q,X,Y；MMD及其经验估计为：

基于集合的度量学习(MSML)，根据最大平均偏差，基于集合的度量学习(MSML)表示为：

不考虑样本偏差和异常值的集合，最大平均偏差不考虑样本偏差和异常值的集合：

整流平均差异(RMD)，ω(x)作为样本偏差为MMD修正项，整流平均差异(RMD)如下：

RMD(X,Y)＝‖E_ω(x)[f(x)]-E_ω(x)[f(y)]‖₂

s.t.∑ω(x)＝1,∑ω(y)＝1,∑ω(z)＝1 (6)

如上式所示。

记忆注意权重，权重应满足以下三点：

把权重作为神经图灵机(NTM)，其中人脸特征集作为记忆，权重视为地址读写内存；NTM涉及三个基本组件：读取向量，擦除向量和添加向量；令{f_i}成为一个面部特征集，在s_i上应用softmax操作以形成归一化权重ω_i；公式(6)中操作和重新配置的E_ω[f(x)]如下：

权重{ω_i}是无序的，{s_i}是可微的。

将ASML自然融入到卷积神经网络(CNN)中，CNN包含29层残块卷积和最大特征映射操作；基于网络，ASML和记忆注意权重耦合，实现视频人脸识别；Softmax是重要的监督信号方法，得到以下目标函数：

L＝λ₁Softmax+λ₂ASML (9)

网络中的所有参数是可微的，梯度可以计算：

其中，θ代表网络参数。

图2是本发明一种基于注意定势度量学习的视频面部识别方法的基本框架图。该框架的每个训练实例由三个不同脸部视频的子集组成。与ASML组合的端对端可训练的深卷积神经网络(CNN)，可以学习更多的歧视性深层次表示，获得可靠的人脸识别。过程为：先定义图像集上的有效距离度量，显著地最小化集合内距离，并同时最大化集中距离，再把权重作为神经图灵机，其中人脸特征集作为记忆，权重作为地址读写内存，最后将ASML自然融入到卷积神经网络中，从而形成端到端的学习方案。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于注意定势度量学习的视频面部识别方法，其特征在于，主要包括注意定势的度量学习(ASML)(一)；记忆注意权重(二)；将ASML自然融入到卷积神经网络(CNN)中(三)。

2.基于权利要求书1所述的注意定势的度量学习(ASML)(一)，其特征在于，它纠正了样本偏差，并测量面部图像组之间的相关性，缩小了相同集合的概率分布之间的差距，同时扩大了不同集合之间的差距；与ASML组合的端对端可训练的深卷积神经网络(CNN)，可以学习更多的歧视性深层次表示，获得可靠的人脸识别；ASML是最大平均偏差与记忆注意权重的广义扩展。

3.基于权利要求书1所述的最大平均偏差(MMD)，其特征在于，设是一类函数f：x→R，同上定义p,q,X,Y；MMD及其经验估计为：

当是紧凑度量空间x上定义的一个单位球，方程成立，当且仅当p＝q；直观地说，MMD越小，X和Y之间的分布越相关；因此，MMD越大，分布之间的差异越大，特征完全不同的。

4.基于权利要求书3所述的基于集合的度量学习(MSML)，其特征在于，根据最大平均偏差，基于集合的度量学习(MSML)表示为：

5.基于权利要求书3所述的不考虑样本偏差和异常值的集合，其特征在于，最大平均偏差不考虑样本偏差和异常值的集合：

<mrow> <mi>&omega;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>/</mo> <mo>(</mo> <mover> <mi>p</mi> <mo>^</mo> </mover> <mo>(</mo> <mi>x</mi> <mo>)</mo> <mo>:</mo> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> <mrow> <mi>&omega;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>E</mi> <mi>p</mi> </msub> <mo>&lsqb;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>E</mi> <mover> <mi>p</mi> <mo>^</mo> </mover> </msub> <mo>&lsqb;</mo> <mi>&omega;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>E</mi> <mover> <mi>p</mi> <mo>^</mo> </mover> </msub> <mo>&lsqb;</mo> <mi>&omega;</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

6.基于权利要求书5所述的整流平均差异(RMD)，其特征在于，ω(x)作为样本偏差为MMD修正项，整流平均差异(RMD)如下：

RMD(X,Y)＝‖E_ω(x)[f(x)]-E_ω(x)[f(y)]‖₂

<mrow> <mtable> <mtr> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>&omega;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>&omega;</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>&omega;</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>&omega;</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

s.t.∑ω(x)＝1,∑ω(y)＝1,∑ω(z)＝1 (6)

如上式所示。

7.基于权利要求书1所述的记忆注意权重(二)，其特征在于，权重应满足以下三点：

8.基于权利要求书7所述的权重，其特征在于，把权重作为神经图灵机(NTM)，其中人脸特征集作为记忆，权重视为地址读写内存；NTM涉及三个基本组件：读取向量，擦除向量和添加向量；令{f_i}成为一个面部特征集，在s_i上应用softmax操作以形成归一化权重ω_i；公式(6)中操作和重新配置的E_ω[f(x)]如下：

<mrow> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>E</mi> <mi>&omega;</mi> </msub> <mo>&lsqb;</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&CenterDot;</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

权重{ω_i}是无序的，{s_i}是可微的。

9.基于权利要求书1所述的将ASML自然融入到卷积神经网络(CNN)中(三)，其特征在于，CNN包含29层残块卷积和最大特征映射操作；基于网络，ASML和记忆注意权重耦合，实现视频人脸识别；Softmax是重要的监督信号方法，得到以下目标函数：

L＝λ₁Softmax+λ₂ASML (9)

10.基于权利要求书9所述的卷积神经网络(CNN)，其特征在于，网络中的所有参数是可微的，梯度可以计算：

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <mi>&theta;</mi> </mrow> </mfrac> <mo>=</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <mfrac> <mrow> <mo>&part;</mo> <mi>S</mi> <mi>o</mi> <mi>f</mi> <mi>t</mi> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mo>&part;</mo> <mi>&theta;</mi> </mrow> </mfrac> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mo>&part;</mo> <mi>A</mi> <mi>S</mi> <mi>M</mi> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <mi>&theta;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <mi>s</mi> </mrow> </mfrac> <mo>=</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mo>&part;</mo> <mi>A</mi> <mi>S</mi> <mi>M</mi> <mi>L</mi> </mrow> <mrow> <mo>&part;</mo> <mi>&omega;</mi> </mrow> </mfrac> <mo>.</mo> <mfrac> <mrow> <mo>&part;</mo> <mi>&omega;</mi> </mrow> <mrow> <mo>&part;</mo> <mi>s</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中，θ代表网络参数。