CN107506800A

CN107506800A - 一种基于无监督域适应的无标签视频人脸识别方法

Info

Publication number: CN107506800A
Application number: CN201710861667.4A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2017-12-22

Abstract

本发明中提出的一种基于无监督域适应的无标签视频人脸识别方法，其主要内容包括：通过特征匹配来提取信息、通过合成数据增强进行适应、通过域对抗学习适应和鉴别引导的特征融合，其过程为，先通过从面部数据集中提取辨别性信息来训练视频域适配网络，称为参考网络，通过特征匹配提取信息，然后通过合成数据增强进行适应，定义损失函数，接着通过域对抗学习适应，通过正则化生成器缩小两个域之间的差距，最后引导的特征级域适应，通过置信加权的用于面部识别的帧的适应度融合。本发明利用大规模未标记的视频数据来减少视频和图像域之间的差距，同时保留大规模标记静止图像的辨别力，大大提高了视频帧的质量，也提高了视频脸部识别性能。

Description

一种基于无监督域适应的无标签视频人脸识别方法

技术领域

本发明涉及人脸识别领域，尤其是涉及了一种基于无监督域适应的无标签视频人脸识别方法。

背景技术

人体最重要的生物特征之一就是人脸，它能反映很多重要的生物信息，如身份、性别、种族、年龄、表情等，因此，人脸识别是现今计算机视觉领域热门的领域之一。人脸识别具有广阔的实际应用，在人脸识别系统、医学、电影广告、计算机动画、游戏、视频会议以及可视电话、人机交互等领域都具有广阔的应用前景。特别是在公共安全领域，人脸识别对公安刑侦、预防犯罪、公共安全防范、逃犯追捕等方面有着越来越大且难以忽视的作用。近年来，恐怖活动、暴力事件、暴力犯罪等严重威胁公共安全的时间频繁出现，人脸识别能够方便地对重点区域的进出人员进行控制，能够对机场、火车站、小区等各个场合进行隐蔽监控等，这些都能有效保护公共安全。然而，人脸识别一般容易受到姿势、照明或遮挡的影响，从而降低了识别的准确性。

本发明提出了一种基于无监督域适应的无标签视频人脸识别方法，先通过从面部数据集中提取辨别性信息来训练视频域适配网络，称为参考网络，通过特征匹配提取信息，然后通过合成数据增强进行适应，定义损失函数，接着通过域对抗学习适应，通过正则化生成器缩小两个域之间的差距，最后引导的特征级域适应，通过置信加权的用于面部识别的帧的适应度融合。本发明利用大规模未标记的视频数据来减少视频和图像域之间的差距，同时保留大规模标记静止图像的辨别力，大大提高了视频帧的质量，也提高了视频脸部识别性能。

发明内容

针对识别的准确性低的问题，本发明的目的在于提供一种基于无监督域适应的无标签视频人脸识别方法，先通过从面部数据集中提取辨别性信息来训练视频域适配网络，称为参考网络，通过特征匹配提取信息，然后通过合成数据增强进行适应，定义损失函数，接着通过域对抗学习适应，通过正则化生成器缩小两个域之间的差距，最后引导的特征级域适应，通过置信加权的用于面部识别的帧的适应度融合。

为解决上述问题，本发明提供一种基于无监督域适应的无标签视频人脸识别方法，其主要内容包括：

(一)通过特征匹配来提取信息；

(二)通过合成数据增强进行适应；

(三)通过域对抗学习适应；

(四)鉴别引导的特征融合。

其中，所述的域适应，引入一系列域适应目标，这些目标允许视频域适配网络(VDNet)在中对大规模未标记的视频进行训练，同时利用中标记的网络图像监督。

其中，所述的通过特征匹配来提取信息，为了利用标签的Web图像，通过从标记的Web面部数据集预先训练的面部识别引擎中提取辨别性信息来训练VDNet，称之为参考网络(RFNet)；通过匹配两个网络之间的特征表示实现提取；令φ(·):为VDNet的特征生成算子，ψ(·):为RFNet的特征生成算子；在图像上定义特征匹配(FM)损失为：

FM损失函数允许VDNet保持一定程度的面部识别信息；实际上VDNet和RFNet之间使用了相同的网络架构；使用RFNet初始化VDNet的网络参数，并保持较高层的网络参数不变，进一步保持从标记的Web面部图像学习的辨别性信息。

其中，所述的通过合成数据增强进行适应，通过应用如线性运动模糊、图像分辨率(比例)变化或视频压缩噪声等变换来扩充数据，这是视频质量下降的最典型的原因；通过特征恢复(FR)损失函数训练VDNet，无需扩充数据就能“恢复”图像的原始RFNet表示：

其中，B(·):是图像变换的核心，是对B(·)分布的期望值；

利用来自图像域的标记训练样本，也可以使用标准度量学习目标来学习将上述模糊内核定义的低质量图像概括为辨别度量；采用N对损失函数，给定来自不同类别的N对实例和个体合成数据扩充B_i(·)，N对损失函数定义如下：

N对损失函数可以作为具有综合度量学习目标函数的一个例子，也可以用其它标准度量学习目标替代，例如对比损失或三元损失。

进一步地，所述的图像变换，具有以下参数：

(1)线性运动模糊：在(5,15)中随机选择核心长度，并在(10,30)中选择核心角度；

(2)缩放变化：重新缩放原始图像大小的1/6的图像；

(3)JPEG压缩：质量参数随机设置在(30,75)间；

对于每个噪声过程，依次增加参数并应用于概率为0.5的图像。

其中，所述的通过域对抗学习适应，通过正则化生成器(即VDNet)来缩小两个域之间的差距，其中，域被鉴别器捕获；将两个域和的对抗性损失函数定义为所有训练样本的期望值：

是在特征表示之间的生成图像和实际图像，它是可取的。

进一步地，所述的鉴别器，可以利用合成数据扩充来指导鉴别器，实现域之间的区分或者区分与已知合成变换相关的其他域的差异；这导致了两种不同的鉴别器类型，一种是在图像和合成图像和视频之间的双向分类器之间，一种是在图像与合成图像之间具有的三向分类器视频。

进一步地，所述的双向分类器，双向softmax分类器作为来区分图像域(y＝1)和合成图像和视频(y＝2)的域；虽然原始图像来自图像域，但合成退化图像以及随机视频帧都被训练为属于相同的域，如下所示：

通过包含用于第二类的合成图像，两类之间的对比变得明显，所以可以容易地恢复与合成图像变换相似的视频域中的变换。

进一步地，所述的三向分类器，与双向网络不同，三向网络旨在将视频帧与图像区域区分开，而且还可以综合降质的图像；

因此，它可能不会像双向鉴别器那样学习具有合成变换的强大的恢复能力的VDNet，而是旨在找到图像或合成图像和视频域之间的其他变异因素；因此，

为目标函数。

其中，所述的鉴别引导的特征融合，对于图像，模糊图像和视频之间的域对比进行训练，鉴别器在测试时提供置信度分数，每个帧均为“高质量Web图像”具体地，利用来自鉴别器的置信分数，具有帧v的视频V的聚合特征向量被表示为如下的特征向量的加权平均值：

Web图像的这个目标域带有大量标注的训练示例，用于训练辨别性的面部识别；因此，鉴别器起着双重作用：引导的特征级域适应和通过置信加权的用于面部识别的帧的适应度融合。

附图说明

图1是本发明一种基于无监督域适应的无标签视频人脸识别方法的系统框架图。

图2是本发明一种基于无监督域适应的无标签视频人脸识别方法的系统流程图。

图3是本发明一种基于无监督域适应的无标签视频人脸识别方法的视频域适配网络和参考网络。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于无监督域适应的无标签视频人脸识别方法的系统框架图。主要包括通过特征匹配来提取信息，通过合成数据增强进行适应，通过域对抗学习适应和鉴别引导的特征融合。

通过特征匹配来提取信息，为了利用标签的Web图像，通过从标记的Web面部数据集预先训练的面部识别引擎中提取辨别性信息来训练VDNet，称之为参考网络(RFNet)；通过匹配两个网络之间的特征表示实现提取；令φ(·):为VDNet的特征生成算子，ψ(·): 为RFNet的特征生成算子；在图像上定义特征匹配(FM)损失为：

通过合成数据增强进行适应，通过应用如线性运动模糊、图像分辨率(比例)变化或视频压缩噪声等变换来扩充数据，这是视频质量下降的最典型的原因；通过特征恢复(FR)损失函数训练VDNet，无需扩充数据就能“恢复”图像的原始RFNet表示：

其中，B(·):是图像变换的核心，是对B(·)分布的期望值；

图像变换具有以下参数：

(2)缩放变化：重新缩放原始图像大小的1/6的图像；

(3)JPEG压缩：质量参数随机设置在(30,75)间；

通过域对抗学习适应，通过正则化生成器(即VDNet)来缩小两个域之间的差距，其中，域被鉴别器捕获；将两个域和的对抗性损失函数定义为所有训练样本的期望值：

是在特征表示之间的生成图像和实际图像，它是可取的。

可以利用合成数据扩充来指导鉴别器，实现域之间的区分或者区分与已知合成变换相关的其他域的差异；这导致了两种不同的鉴别器类型，一种是在图像和合成图像和视频之间的双向分类器之间，一种是在图像与合成图像之间具有的三向分类器视频。

双向softmax分类器作为来区分图像域(y＝1)和合成图像和视频(y＝2)的域；虽然原始图像来自图像域，但合成退化图像以及随机视频帧都被训练为属于相同的域，如下所示：

与双向网络不同，三向网络旨在将视频帧与图像区域区分开，而且还可以综合降质的图像；

为目标函数。

鉴别引导的特征融合，对于图像，模糊图像和视频之间的域对比进行训练，鉴别器在测试时提供置信度分数，每个帧均为“高质量Web图像”具体地，利用来自鉴别器的置信分数，具有帧v的视频V的聚合特征向量被表示为如下的特征向量的加权平均值：

图2是本发明一种基于无监督域适应的无标签视频人脸识别方法的系统流程图。先通过从面部数据集中提取辨别性信息来训练视频域适配网络，称为参考网络，通过特征匹配提取信息，然后通过合成数据增强进行适应，定义损失函数，接着通过域对抗学习适应，通过正则化生成器缩小两个域之间的差距，最后引导的特征级域适应，通过置信加权的用于面部识别的帧的适应度融合。

图3是本发明一种基于无监督域适应的无标签视频人脸识别方法的视频域适配网络和参考网络。为了利用标签的Web图像，通过从标记的Web面部数据集预先训练的面部识别引擎中提取辨别性信息来训练VDNet，称之为参考网络(RFNet)；通过匹配两个网络之间的特征表示实现提取。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于无监督域适应的无标签视频人脸识别方法，其特征在于，主要包括通过特征匹配来提取信息(一)；通过合成数据增强进行适应(二)；通过域对抗学习适应(三)；鉴别引导的特征融合(四)。

2.基于权利要求书1所述的域适应，其特征在于，引入一系列域适应目标，这些目标允许视频域适配网络(VDNet)在中对大规模未标记的视频进行训练，同时利用中标记的网络图像监督。

3.基于权利要求书1所述的通过特征匹配来提取信息(一)，其特征在于，为了利用标签的Web图像，通过从标记的Web面部数据集预先训练的面部识别引擎中提取辨别性信息来训练VDNet，称之为参考网络(RFNet)；通过匹配两个网络之间的特征表示实现提取；令φ(·):为VDNet的特征生成算子，ψ(·):为RFNet的特征生成算子；在图像上定义特征匹配(FM)损失为：

FM损失函数允许VDNet保持一定程度的面部识别信息；实际上VDNet和RFNe_t之间使用了相同的网络架构；使用RFNet初始化VDNet的网络参数，并保持较高层的网络参数不变，进一步保持从标记的Web面部图像学习的辨别性信息。

4.基于权利要求书1所述的通过合成数据增强进行适应(二)，其特征在于，通过应用如线性运动模糊、图像分辨率(比例)变化或视频压缩噪声等变换来扩充数据，这是视频质量下降的最典型的原因；通过特征恢复(FR)损失函数训练VDNet，无需扩充数据就能“恢复”图像的原始RFNet表示：

其中，B(·):是图像变换的核心，是对B(·)分布的期望值；

5.基于权利要求书4所述的图像变换，其特征在于，具有以下参数：

(2)缩放变化：重新缩放原始图像大小的1/6的图像；

(3)JPEG压缩：质量参数随机设置在(30,75)间；

6.基于权利要求书1所述的通过域对抗学习适应(三)，其特征在于，通过正则化生成器(即VDNet)来缩小两个域之间的差距，其中，域被鉴别器捕获；将两个域和的对抗性损失函数定义为所有训练样本的期望值：

是在特征表示之间的生成图像和实际图像，它是可取的。

7.基于权利要求书6所述的鉴别器，其特征在于，可以利用合成数据扩充来指导鉴别器，实现域之间的区分或者区分与已知合成变换相关的其他域的差异；这导致了两种不同的鉴别器类型，一种是在图像和合成图像和视频之间的双向分类器之间，一种是在图像与合成图像之间具有的三向分类器视频。

8.基于权利要求书7所述的双向分类器，其特征在于，双向softmax分类器作为来区分图像域(y＝1)和合成图像和视频(y＝2)的域；虽然原始图像来自图像域，但合成退化图像以及随机视频帧都被训练为属于相同的域，如下所示：

9.基于权利要求书7所述的三向分类器，其特征在于，与双向网络不同，三向网络旨在将视频帧与图像区域区分开，而且还可以综合降质的图像；

为目标函数。

10.基于权利要求书1所述的鉴别引导的特征融合(四)，其特征在于，对于图像，模糊图像和视频之间的域对比进行训练，鉴别器在测试时提供置信度分数，每个帧均为“高质量Web图像”具体地，利用来自鉴别器的置信分数，具有帧v的视频V的聚合特征向量被表示为如下的特征向量的加权平均值：