CN114299279A

CN114299279A - 基于脸部检测和识别的无标记群体恒河猴运动量估计方法

Info

Publication number: CN114299279A
Application number: CN202111461209.4A
Authority: CN
Inventors: 张素才; 张琦; 孙峥; 左从林; 高大鹏; 彭霞; 马金玲
Original assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Current assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-08

Abstract

本发明提出一种基于脸部检测和识别的无标记群体恒河猴运动量估计方法，包括以下步骤：步骤1：建立多角度、多设备拍摄恒河猴的面部数据采集场景，并记录对应恒河猴个体信息，建立信息和图像对应的数据；步骤2：对建立信息和图像对应的数据预处理以及对面部位置进行标注，构建用于面部检测的数据集；步骤3：基于面部检测模型建立恒河猴面部检测器；步骤4：通过面部检测器构建面部识别数据集；步骤5：使用面部识别数据集和面部识别器的损失函数训练恒河猴面部识别器的模型；步骤6：使用面部检测器和面部识别器计算实际场景中的恒河猴进行运动量的。本发明能够使用深度学习算法进行猴脸识别；同时，提出基于脸部检测实现恒河猴运动量计算法。

Description

基于脸部检测和识别的无标记群体恒河猴运动量估计方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于脸部检测和识别的无标记群体恒河猴运动量估计方法。

背景技术

非人灵长类动物的面部检测是一个新的研究方向。建立多种灵长类动物的面部数据集，在人脸检测和识别的研究和发展基础上，使用深度学习的方法进行训练，得到的模型结果可以准确的检测恒河猴面部的位置及面部的特征点，是恒河猴面部相关任务如：表情、健康状态等研究任务的基础。通过检测到的恒河猴的面部位置，可以有效的判断其当前的位置和活动距离，能够获得该动物在一段时间内的活跃程度，在新型药物评估领域有很高的应用价值；通过检测的结果获取动物面部的特征图用于识别任务，通过识别模型可以较准确地获得动物的身份，在群体任务中实现完全的自动化，提高药物评估的准确性和效率。

恒河猴的面部检测是计算机视觉领域的热点研究方向，是实现其他任务的先决条件，其目的是为了检测到脸部的关键点(常用68点、5点)和面部区域的边界框。近年来，受基于深度学习方法的优秀目标检测算法(Faster-RCNN，MASK-RCNN，YOLO)的影响，该任务同样发展迅速,涌现了一大批高性能的面部检测算法(MT-CNN，Finding tiny faces，FD-Net，RetinaFace)。MT-CNN模型是一个多任务多阶段的卷积神经网络，模型采用了三个级联的网络，选用候选框加分类器的思想，首先对图像进行不同尺度的变换，构建图像金字塔，以适应不同大小的人脸进行检测。FD-Net针对小目标的识别进行了改进，基于是三个关键要素：多尺度特征、上下文信息、图像分辨率，得到了对较小脸部检测更鲁棒的边界框检测器。

相较于前面的方法，RetinaFace是单阶段的方法更加快捷高效，采用了FPN特征金字塔提取多尺度特征，它利用额外监督(extra-supervised)和自监督(self-supervised)结合的多任务学习(multi-task learning)，对不同尺寸的人脸进行像素级定位，是该领域目前性能和效率较为领先的方法。

在恒河猴的面部识别研究方面，人脸的识别同样是计算机视觉领域的一大热点问题，从2014年期，跟随深度学习的发展，大量的学者和研究人员提出了一系列优秀的算法(DeepFace，FaceNet，CosFace，ArcFace)，并且算法性能已经超过了人类水平。DeepFace首次使用深度学习解决人脸识别问题，利用了softmax损失函数训练得到人脸的表征。FaceNet在此基础上提出了三元组损失，但是该函数难以训练，收敛过程慢。相比FaceNet，CosFace、ArcFace准确率更高并且更容易收敛。

目前恒河猴的面部研究数量较少，暂无可用的公开数据。本发明耗费相当的人力获得了大量数据用户面部的检测和识别任务，并基于已有人脸检测和识别的先验知识，进一步探究无标记恒河猴面部检测和识别以及运动量估计的可行性。

发明内容

本发明要解决的技术问题是探究利用深度学习方法进行非人灵长类动物面部检测的可行性。利用建立的灵长类动物的面部检测数据集，进行深度学习模型的训练，通过脸部识别分类个体给出身份，同时基于面部检测的位置进行各只恒河猴运动量的计算。

一种基于脸部检测和识别的无标记群体恒河猴运动量估计方法，其特征在于，所述无标记群体恒河猴运动量估计方法包括以下步骤：

步骤1：建立多角度、多设备拍摄恒河猴的面部数据采集场景，并记录对应恒河猴个体信息，建立信息和图像对应的数据；

步骤2：对建立信息和图像对应的数据预处理以及对面部位置进行标注，构建用于面部检测的数据集；

步骤3：基于面部检测模型建立恒河猴面部检测器；

步骤4：通过面部检测器构建面部识别数据集；

步骤5：使用面部识别数据集和面部识别器的损失函数训练恒河猴面部识别器的模型；

步骤6：使用面部检测器和面部识别器计算实际场景中的恒河猴进行运动量的。

更进一步地，在步骤S2中，还包括以下步骤：

步骤21，建立用于恒河猴面部标注的数据集；

步骤22，利用人工的方式对用于恒河猴面部标注的数据集进行进一步的质量筛选，去除特征不明显、图像模糊的图像；

步骤23，进行面部边界框和面部关键点的标注，标注格式和公开数据集widerface保持一致。

更进一步地，在步骤S21中，建立所述面部检测数据集的方法包括：

对恒河猴的面部视频前后两帧图像进行灰度化，并通过高斯滤波并计算绝对值差分，进行二值化并将矩阵内的所有数值加起来作为差分值，去除相似度较高的前后帧生成用于恒河猴面部标注的数据集。

更进一步地，在步骤S3中，所述面部检测器的损失函数为：

用于面部分类分支p_i是第i个锚点框的概率，

为1是正确分类的锚点，为0是错误分类的锚点，L_cls为softmax损失函数；λ₁,λ₂分别为0.25，0.1；

为面部检测框的回归损失函数，t_i＝{t_x,t_y,t_w,t_h}_i为当前图像中的第i个预测框坐标，

为当前图像中的第i个真实框坐标，下标x,y表示box的左顶点坐标，w,表示box的宽和高；φ(n)表示敏感性函数，L_pts为脸部关键点回归函数，l_i表示预测关键点坐标；

表示ground-truth中关键点坐标。

更进一步地，在步骤S3中，所述面部检测框的回归损失函数

为：

其中，t_ij表示第i个预测框第j个值，

表示第i个真实框坐标第j个值，

更进一步地，在步骤S3中，所述脸部关键点回归函数L_pts为脸部关键点回归函数为：

分别表示第i个预测面部的第z个关键点的坐标，

分别表示第i个预测面部的第z个关键点的坐标。

更进一步地，在步骤S3中，所述敏感性函数φ(n)为：

其中，n当前样本的groud-truth中关键点数量。

更进一步地，在步骤S5中，所述面部识别器的损失函数为：

其中，e^s表示以e为底的softmax函数；W_b是由识别目标数据集中图像的特征向量组成的矩阵，表示第b个类别组合的权重参数，‖W_b‖表示W_b的L2范式；g表示模型的类别总数；x_a表示网络经过全连接输出的特征向量；cosθ_b表示x_a与W_b的点乘；cosθ_ya表示x_a与W_ya的点乘；y_a表示真实类别；m是超参数，本发明中选取0.5作为m的值；s为当前输入x_a在本task中的L2范数‖x_a‖；NK为该当前task的support set中N-way，K-shot，NK为该task中的所有参与训练的样本数。

更进一步地，在步骤S6中，还包括以下步骤：

步骤61，利用正视图，侧视图和俯视图中任意两个视角的脸部检测和识别结果即可得到每只个体的三维移动距离；

步骤62，以第一帧为起始点，在每一帧的正视图或侧视图中，检测不同个体的面部位置和对应个体，通过面部识别器计算出该动物的id，并在最后将运动量和动物的id对应。

本发明的有益效果包括：

本发明设计了一种无标记恒河猴猴脸识别的数据采集方案，建立了猴脸识别数据集，可使用深度学习算法进行猴脸识别；同时，提出基于脸部检测和识别的无标记恒河猴运动量计算法。

本发明中恒河猴由于相较于人动物的毛发要旺盛，皮肤裸露更少，同时动物往往不会正对镜头，所以面部的检测尤其是侧脸更加困难也更加重要，通过对整体模型进行更新，使模型更贴合本发明的应用、侧脸更加敏感。

附图说明

图1是本发明实施例提供的一种基于脸部检测和识别的无标记群体恒河猴运动量估计方法的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行更详细的说明，本发明包括但不仅限于下述实施例。

如附图1所示，本发明提供了一种基于脸部检测和识别的无标记群体恒河猴运动量估计方法，该无标记群体恒河猴运动量估计方法包括以下步骤：

步骤3：基于面部检测模型RetinaFace来建立恒河猴面部检测器；

步骤4：通过面部检测器构建面部识别数据集；

步骤5：使用面部识别数据集和面部识别器ArcFace的损失函数训练恒河猴面部识别器的模型；

步骤6：使用面部检测器和面部识别计算实际场景中的恒河猴进行运动量的。

步骤1，设计、布置数据采集场景，在内有恒河猴的笼子外侧设置多个摄像机实现多角度、多设备拍摄恒河猴的面部视频及图像，同时记录对应动物个体信息，建立信息和图像对应的数据。

新型药物的临床前评估需要对恒河猴进行药物实验，在实验过程中需要将动物放置在特制的猴椅上，本发明的数据在用药的过程中采集。首先记录动物的身份id、年龄、性别、品种等个体信息，同时记录该个体的2min的1080P分辨率的面部视频数据和5张个体面部id图像数据。

步骤2，视频数据预处理以及对面部位置的标注，构建面部检测数据集；

在得到恒河猴面部的原始视频数据之后，还包括以下步骤：

步骤21，首先建立用于恒河猴面部标注的数据集，本发明采用不依赖神经网络的简单帧间差分的方法进行抽帧，具体实施方法为：对前后两帧图像进行灰度化，并通过高斯滤波并计算绝对值差分，进行二值化并将矩阵内的所有数值加起来作为差分值，这样我们将整个图像矩阵压缩为了一维，我们利用帧间的差分值来判断帧间相似度以此为依据进行抽帧，去除相似度较高的前后帧，最后我们得到约4000张图像作为用于面部标注的数据集。

步骤22，利用人工的方式对选出的4000张面图像进行进一步的质量筛选，去除特征不明显、图像模糊的图像，最后得到2677张图像用于标注。

步骤23，使用labelme软件进行面部边界框和32个面部关键点的标注，标注格式和公开数据集wider face保持一致，生成面部检测数据集。

步骤3，基于面部检测模型RetinaFace来建立恒河猴面部检测器；

因为在检测的时候RetinaFace受一般目标检测方法的启发，在单阶段的基础上，采用多任务的学习策略，同时预测面部的评分、面部边界框以及五个关键点。同时在计算速度方面，本发明采用较轻量的基础网络如Mobilenet作为RetinaFace模型的首个结构用作对输入图像特征提取和维度压缩，其中Mobilenet的每层之间不同尺寸的特征图用于后续Retinaface中的特征金字塔，使其可以在640*480的分辨率上达到实时检测，因为本数据集采集的图片为1920*1080为了加速计算，所以在输入网络之前我们利用双线性插值发对其修改尺寸为640*480。由于相较于人动物的毛发要旺盛，皮肤裸露更少，同时动物往往不会正对镜头，所以面部的检测尤其是侧脸更加困难也更加重要，为了使模型对更贴合本发明的应用、侧脸更加敏感，我们对整体模型做了如下的更新。本发明设计恒河猴面部检测模型的损失函数为：

用于面部分类分支p_i是第i个锚点框的概率，

为1是正确分类的锚点，为0是错误分类的锚点，L_cls为softmax损失函数。λ₁,λ₂分别为0.25，0.1。

为当前图像中的第i个真实框坐标，下标x,y表示box的左顶点坐标，w,h表示box的宽和高；φ(n)表示敏感性函数，L_pts为脸部关键点回归函数，l_i表示预测关键点坐标；

表示ground-truth中关键点坐标。

表示为：

其中，t_ij表示第i个预测框第j个值，

表示第i个真实框坐标第j个值，

L_pts为脸部关键点回归函数为：

其中，

分别表示第i个预测面部的第z个关键点的坐标，

分别表示第i个预测面部的第z个关键点的坐标。

为了对侧脸的样本增加敏感性，本发明设计了敏感性函数

n当前样本的groud-truth中关键点数量，以此增加loss对侧脸的敏感性并尽可能减少毛发影响。

利用面部检测数据集的标注数据，进行RetinaFace模型的训练。在一种实施例中，将2677张以标注的数据分为两部分，一部分为2200张用于参与训练，剩余作为验证集。本发明利用了在wider face人脸公开数据的预训练模型进行迁移学习，训练600轮后的模型用于验证集，选取最优模型参数用于后续面部位置的检测。

步骤4，使用步骤3中得到的面部检测器构建面部识别数据集；

为了实现运动量估计的整个流程自动化，需识别群体动物中每只动物的id对其分别计算运动量。利用步骤3中得到的面部检测器对采集到预定数量的动物面部视频进行关键帧抽取并根据脸部边界框进行剪裁，最后得到预定数量的类，每类大约300至500张图像。数据组格式，参照公开数据集LFW。

步骤5，使用面部识别数据集和面部识别ArcFace的损失函数训练恒河猴面部识别器的模型。

本发明的该步骤目的是为了最终获取获得一个恒河猴面部识别的模型能够更准确地计算动物面部的特征向量用于面部的识别分类。由于本发明中的数据类别相对较少，为了使模型训练达到更好的准确率所以采用小样本学习策略来获得更好的初始化模型，即利用预训练和精调的训练方法。首先从步骤4得到的恒河猴面部数据集随机选取10类，每类30个样本组成。首先在训练预训练模型的阶段，预训练数据的设置为5-way、5-shot，即从预训练数据的10个类别中随机选取5个类别，每个类别再分随机抽取20个样本，其中5个样本作为support set，另外15个样本作为query set，这样一个support set和一个query set就组成了一个task。本发明在预训练中采用了4个task组成一个batch，预训练过程包括以下几个步骤：

首先本发明以上述方法在预训练数据集中随机抽取task，最终获得1000个task组成的，预训练数据池。

设置学习率α,β分别为第一次参数更新学习率和第二次参数更新学习率；本发明采用ResNet50作为模型的第一部分用于对输入图片进行特征提取，输出的维度为512维的面部特征向量，并利用基于LFW(Labeled Faces in the Wild)人脸数据集预训练模型

进行模型参数的初始化。

随机采样4个task组成一个batch用于模型的训练。

利用每个task更新模型参数。在当前task中，从

复制一个模型参数

进行该阶段的更新。利用当前task的support set中的样本，本发明使用ArcFace中的loss函数为：

其中，e^s表示以e为底的softmax函数；W_b是由识别目标数据集中图像的特征向量组成的矩阵，表示第b个类别组合的权重参数，‖W_b‖表示W_b的L2范式；g表示模型的类别总数；x_a表示网络经过全连接输出的特征向量；cosθ_b表示x_a与W_b的点乘(数量积)；cosθ_ya表示x_a与W_ya的点乘(数量积)；y_a表示真实类别；m是超参数，本发明中选取0.5作为m的值；s为当前输入x_a在本task中的L2范数‖x_a‖。NK为该当前task的support set中N-way，K-shot，NK为该task中的所有参与训练的样本数。使用SGD随机梯度更新算法计算并更新模型参数

利用在算法过程中获得的当前batch的

同样使用对应的loss，但是这里用于更新梯度的是一个batch所有query set中样本的总和，然后对

梯度进行更新。

在迭代6000个epoch后得到预训练模型用于后续的精调训练，在精调部分，同样在恒河猴面部数据集中随机选取5类，每类20个样本，同样组成每类5个样本的support set和每类15个样本的query set。本发明使用的精调训练过程如下：

使用预训练得到的参数模型

进行模型初始化。

每次模型参数的更新从task池中抽取一个使用其support set中的样本进行模型参数更新，这里loss函数与梯度更新法与预训练相同。在迭代6000，即得到最终模型

得到模型

后，用于面部识别任务。在一种实施例中，本发明将数据集中的105类动物面部随机抽取每类5个样本，通过训练后的模型计算出其512维特征向量，每类中随机5个样本的特征向量求均值得到该类别的最终特征向量，并用于softmax函数中的权重矩阵W。

W是上述105类动物面部的特征向量组成的矩阵，这样可以使模型在本发明的105分类任务中精确度更高。

步骤6，使用面部检测器和面部识别器计算实际场景中的恒河猴进行运动量的。

步骤61，恒河猴运动量是一个三维信息量，在计算时利用正视图，侧视图和俯视图中任意两个视角的脸部检测和识别结果即可得到每只个体的三维移动距离。假设在正视图中通过目标检测器得到box中心从(y1,z1)移动到(y2,z2)，在侧视图中通过目标检测器得到box中心从(x1,z1)移动到(x2,z2)，则空间绝对距离

步骤62，以第一帧为起始点，在每一帧的正视图或侧视图中，检测不同个体的面部位置和对应个体。随后计算得到目标时间段中，不同个体恒河猴各自的运动量。对于面部检测器得到的box，本发明中另外用于身份的识别，通过面部识别器计算出该动物的id，并在最后将运动量和动物的id对应。

通过本发明中训练好的面部模型对一张640*480图片进行检测，仅用时0.024秒，充分满足了运动量估计中对于实时性的要求，并在准确率上明显优于现有技术中未优化的RetinaFace模型，实验结果见表1。

	RetinaFace	本发明
			AP@.85	0.832	0.916

表1中AP表示恒河猴面部检测准确率，AP.85表示阈值设置为0.85时的面部box检测准确率。通过实验对比，通过本发明中设计的恒河猴面部检测模型的损失函数的模型准确率高出现有技术准确率的10.1％，具有明显的提高。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据实施例和附图公开内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变换或更改的设计，都落入本发明保护的范围。