CN110414299B

CN110414299B - 一种基于计算机视觉的猴脸亲缘关系分析方法

Info

Publication number: CN110414299B
Application number: CN201810400929.1A
Authority: CN
Inventors: 张嫚宁; 谢晓华; 龚文勇
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2024-02-06
Anticipated expiration: 2038-04-28
Also published as: CN110414299A

Abstract

本发明公开一种基于计算机视觉的猴脸亲缘关系分析方法，包括基于手工标记的猴脸图像，运用Faster R‑CNN模型训练猴脸检测器；基于猴脸检测器获取猴脸坐标并保存猴脸图像，结合已有的猴子身份，种群信息，建立一个猴脸图像数据库；设计猴脸亲缘关系验证算法，通过对深度卷积神经网络的训练对猴脸分析目标特征进行猴脸亲缘关系分析。本发明方法应用卷积神经网络挖掘利用更多猴脸信息来达到更准确的亲缘关系分析，对测试样本和训练样本之间的相关性无要求，当猴脸姿势、尺度发生较大变化时，仍然能准确判断。

Description

一种基于计算机视觉的猴脸亲缘关系分析方法

技术领域

本发明涉及电网调度通信领域，特别涉及一种基于计算机视觉的猴脸亲缘关系分析方法。

背景技术

基于计算机视觉的猴脸亲缘关系分析就是对输入的两张猴脸图像，使用卷积神经网络提取猴脸特征，计算其面部相似度并判断是否存在亲子关系。该技术在智慧动物园管理、野生猕猴保护、猕猴饲养和社会学研究等方面有着重要的应用价值。譬如，在动物园或野生猕猴保护基地，通过猴脸图像来了解亲缘关系，有利于避免种群内近交且保护遗传多样性。在野外的山头，通过摄像头获取图像实现对未知个体的亲缘关系分析，其突出的优势在于其可与监控安防兼容，这种无创且非接触的分析方法能为动物学家跟踪记录猕猴家族信息提供技术指导。

发明内容

本发明的主要目的是提出一种基于计算机视觉的猴脸亲缘关系分析方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于计算机视觉的猴脸亲缘关系分析方法，包括如下步骤：

S10基于手工标记的猴脸图像，运用Faster R-CNN模型训练猴脸检测器；

S20基于猴脸检测器获取猴脸坐标并保存猴脸图像，结合已有的猴子身份，种群信息，建立一个猴脸图像数据库；；

S30设计猴脸亲缘关系验证算法，通过对深度卷积神经网络的训练对猴脸分析目标特征进行猴脸亲缘关系分析。

优选地，所述S10包括：

S101在Faster R-CNN框架下，通过VGG16的13个可共享的卷积层网络来提取待分析猴脸图像的卷积特征图；

S102使用猴脸图像深度学习模型的RPN在该卷积特征图上滑动扫描出数个滑动窗口，所述每个滑动窗口映射为一个低维特征输入至分类层和回归层，其中每个所述滑动窗口对应数个锚矩形框；

S103将待分析猴脸图像分类为猴脸目标和背景，回归层输出每个锚矩形框对应的缩放参数，分类层输出每个锚矩形框所属猴脸目标或背景的概率，且将其中概率最高的锚矩形框确定为猴脸分析目标特征；

优选地，所述S20包括：

S201调用训练过的caffe猴脸检测模型，以获得检测图像中的猴脸目标及其坐标位置；

S202基于S201获取的猴脸坐标，扣取坐标中的猴脸图像并保存；

S203结合已知的猴子身份信息和种群信息，就得到猴脸数据库(即包括猴脸图像、标记的身份、种群信息)；

优选地，所述S30包括：

S301通过深度卷积网络来对猴脸图像提取猴脸分析目标特征；

S302构造一个具有三元组(a,p,n)属性的训练样本，其中三元组中包含一个锚点图像a和一个相对于a而言的亲子对图像作为正样本p，相对于a而言的非亲子对图像作为负样本n；

S303设置三元组约束条件：若单个亲子对的图像和该亲子对的其他图像/>距离小于α，则认为它们相似度较高，若与其他非亲子对的图像距离大于α，则认为它们相似度不高，由上得到三元组约束条件式(1)，

其中，α是施加在正样本对和负样本对之间的距离(margin)，Γ是训练集中的所有可能的三元组，×_i是VGG16网络的输出分数向量；

S304将VGG16网络的输出分数向量x_t＝Wφ+b∈R^N进行l₂归一化处理；

S305使用仿射投影将×_i投影到一个L＜＜D的低维空间中，得到最后投影后的结果为：x_t＝W'φ/||φ/>||₂,W'∈R^L×D，其中，W'即待求解的投影矩阵；

S306通过最小化下式(2)三元损失函数来训练W'，

优选地，所述302中训练样本的构造是参考FaceNet中三元组的选择，基于一个mini-batch中所有可能的参考样本-正样本对(anchor-positive对)，来找难分类的负样本，即semi-hard-negative图像，假设给定一个anchor样本挑选一个满足式子的负样本，采取生成mini-batch的方法，每个mini-batch中每个亲子对平均有数张图片，然后随机加入一些反例来生成具有三元组(a,p,n)属性的训练样本，其中f(x_i)泛指×_i从输入到映射结束的过程。

优选地，所述S30之后还包括：

S50使用Python接口来调用训练好的caffe猴脸亲子验证模型，并由数张猴脸亲子对图像生成正匹配对图像和负匹配对图像，由此生成猴脸亲子对性能测试数据库，以进行猴脸亲缘关系分析的验证。

本发明提出的基于计算机视觉的猴脸亲缘关系分析方法允许我们基于图像来分析猴子亲缘关系，是一种无接触且无创的技术。无需猴子配合，不会干扰猴群正常生活。本发明方法应用卷积神经网络挖掘利用更多猴脸信息来达到更准确的亲缘关系分析，对测试样本和训练样本之间的相关性无要求，当猴脸姿势、尺度发生较大变化时，仍然能准确判断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为猴脸检测数据库部分样本，每个猴脸都被标记了猴脸位置；

图2为猴脸亲子对验证成功的样例，其中，子图(a)、(b)表示亲子对图像验证成功，面部相似度都高于0.7,子图(c)、(d)表示非亲子对图像验证成功，相似度都低于0.4；

图3为猴脸亲子对验证性能评价的ROC曲线；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1-3所示，本发明提出的一种基于计算机视觉的猴脸亲缘关系分析方法，包括如下步骤：

S20基于猴脸检测器获取猴脸坐标并保存猴脸图像，结合已有的猴子身份，种群信息，建立一个猴脸图像数据库；

S30设计猴脸亲缘关系验证算法，通过对深度卷积神经网络的训练对猴脸分析目标特征进行猴脸亲缘关系分析；

优选地，所述S10包括：

优选地，所述S20包括：

优选地，所述S30包括：

S301通过深度卷积网络来对猴脸图像提取猴脸分析目标特征；

S306通过最小化下式(2)三元损失函数来训练W'，

优选地，所述302中训练样本的构造是参考FaceNet^[4]中三元组的选择，基于一个mini-batch中所有可能的参考样本-正样本对(anchor-positive对)，来找难分类的负样本，即semi-hard-negative图像，假设给定一个anchor样本挑选一个满足式子的负样本，采取生成mini-batch的方法，每个mini-batch中每个亲子对平均有数张图片，然后随机加入一些反例来生成具有三元组(a,p,n)属性的训练样本，其中f(x_i)泛指×_i从输入到映射结束的过程。

优选地，所述S30之后还包括：

在本发明实施例中，具体实操作：

1、手工标记的猴子数据库

我们收集了一个包含2,1580张猴脸照片的数据库，这些数据来源于483只野生猕猴，通过处理原始视频和高清照片得到。原始照片的分辨率为1080x1920。图1展示了部分数据库的样本，每个猴脸都被标记了猴脸位置。

2、基于Faster R-CNN的猴脸检测

我们将Faster R-CNN应用于猴脸检测，用人脸图像预先训练模型，然后使用猴脸图像对其进行微调。

2.1 Faster R-CNN猴脸检测实现

在Faster R-CNN框架下，我们用VGG16^[1]的13个可共享的卷积层网络来提取特征。对于一副任意大小的图像，本实验中为1080×1920的原图，传入Faster R-CNN网络之前先固定大小为[M×N]＝[562x1000]。将该M×N大小的图像输入到卷积层中，经过13个卷积层，13个激活层，4个池化层。其中4次池化将图片变成[(M/16)×(N/16)]＝[36×63]大小，我们将该网络训练成一个二分类网络作为猴脸检测的分类器。

1、Faster R-CNN猴脸检测的步骤：

提取输入图像的卷积特征图，然后使用RPN在特征图上滑动扫描，将特征图上的每个滑动窗口映射为一个低维特征输入分类层和回归层来得到(分数)概率和(坐标)缩放参数，每个滑动窗口可对应9个锚矩形框。最后的分类层输出该滑动窗口中9个矩形框属于目标和背景的概率，而回归层输出9个矩形框对应的缩放参数。其中概率最高的那个矩形框即目标。

对于Faster R-CNN，目标类被修改为两类：猴脸和背景。猴脸检测网络的训练参数如下表所示：

表1猴脸检测网络训练参数

注：base_lr--基本学习率，lr_policy--学习率下降策略，gamma--学习率变化的比率，stepsize--学习率变化所需的迭代次数，每stepsize的迭代base_lrxgamma，momentum--学习冲量单元iter_size：batchsize乘的倍数，这个参数乘上train.prototxt中的batchsize是实际使用的batchsize，max_iter--训练最大迭代次数，weight_decay--权值衰减项，average_loss--取多次foward的loss作平均，进行显示输出。

参数的初始化由预训练的人脸模型完成。基于ImageNet^[2]预训练过的VGG-16，我们使用WIDER人脸数据集^[3]进一步训练得到一个人脸检测器。其中，WIDERFACE人脸数据集包括12,880张照片，共159,424张人脸。我们随机抽取每个批中的一个图片来进行训练，使用随机梯度下降(SGD)算法迭代5万次，初始学习率为0.001。然后我们使用猴脸小样本数据微调模型迭代5万次得到猴脸检测器。实际操作中，我们只调整了最后网络的最后两层，将基础学习率倍数增为20，新层的权重是由标准差为0.01的零均值高斯分布初始化获得的，其他层的权重由预训练模型来初始化。

人脸检测器是属于预训练的，因为猴脸样本数据很少，而现在有的人脸样本数据较多。人脸和猴脸有相似的地方，所以我们用人脸数据来训练一个人脸检测器，基于这个人脸检测器，使用猴脸数据去调优，从而得到一个猴脸检测器。人脸检测器是为了解决目前猴脸样本不足，从而在猴脸样本不足的情况下，增强猴脸检测性能。网络的最后两层是回归层和分类层。

2.2 Faster R-CNN猴脸检测运用

我们设置检测置信度阈值和NMS(非极大值抑制)阈值分别为0.85和0.15，使用Python接口来调用训练好的caffe模型。我们制作了一个类似于FDDB^[20]基准数据库的猴脸性能验证数据库，总共包含10组数据，每组数据有500张照片。基于该数据库来测试猴脸检测性能，实验结果表明，我们的猴脸检测器能够准确高效地实现猴脸检测。

这两个阈值属于猴脸检测的测试阶段的。在已经完成了训练过程的情况下，输入一张猴脸图像，需要调节这个两个阈值才能正确得识别猴脸。其中检测置信度的作用是：小于该值就认为不是猴脸，大于该值则判断是猴脸。NMS值的作用是为了消除多余的检测框,找到最佳的猴脸检测的位置。

3、基于深度学习的猴脸亲缘关系分析

3.1亲缘关系验证算法设计

直接将猴脸验证的模型用于处理亲缘关系将无法解决亲缘关系中年龄和性别对识别性能的影响。我们采用“Triplet loss”、LMNN度量学习方法来进一步精修训练猴脸特征，使用亲子对照片作为三元组的来源。

(1)使用“Triplet loss”进行特征再学习

我们将卷积神经网络视为一个黑匣子来训练，提取完特征后将之归一化并映射到低维空间，在欧式空间中使用“triplet loss”方式进一步精炼，并且直接基于特征来计算损失函数。这里受到了参考faceNet^[4]中“triplet loss”概念的启发，使“triplet loss”方式来对特征再学习。这种方法可以作为在小样本数据上的微调(fine-tuning)，旨在基于新的样本数据微调模型学习一个新的分数向量，从而来适应新的亲子对实验数据和亲子验证应用场景。

同时，我们采用大间隔最近邻(LMNN)的思想来解决猴脸亲缘验证关系中存在的类间差异小但类内差异大的问题。通过构造一个三元组(a,p,n)概念，其中三元组包含一个锚点图像a(Anchor image)和一个相对于a而言的亲子对图像作为正样本p(positiveimage)，相对于a而言的非亲子对图像作为负样本n(Negative image)。我们希望保证单个亲子对的图像和该亲子对的其他图像/>距离近，认为它们相似度较高，与其他非亲子对的图像/>距离远，认为它们相似度不高。验结果表明，LMNN算法能够改善数据的分布，即缩小类内距离，扩大类间距离，较好地完成亲子验证任务。我们通过损失函数来对不满足条件的三元组进行优化；而满足条件的三元组，就先通过不管。由上述分析得到下式(1)：

其中，α是施加在正样本对和负样本对之间的距离(margin)，Γ是训练集中的所有可能的三元组。具体操作是将VGG16网络的输出分数向量x_t＝Wφ+b∈R^N进行l₂归一化处理。再使用仿射投影将之投影到一个L＜＜D的低维空间中，得到最后投影后的结果为：x_t＝W'φ/>/||φ/>||₂,W'∈R^L×D，其中，W'即待求解的投影矩阵。通过最小化下式(2)三元损失函数来训练W'，从而针对特殊的数据集和任务来学习新的分数向量。

参考FaceNet^[4]中三元组的选择，不去找最难分类的正样本，而是基于一个mini-batch中所有可能的参考样本-正样本对(anchor-positive对)，来找难分类的负样本，即semi-hard-negative图像。假设给定一个anchor样本挑选一个满足式子的负样本。采取生成mini-batch的方法，每个mini-batch中每个亲子对平均有40张图片，然后随机加入一些反例来生成三元组。

(2)亲缘关系验证算法实现

我们用深度卷积网络来对猴脸图像提取特征，去掉softmax层后直接获取特征进行“Triplet loss”训练。采取了(end-to-end)端对端的训练方法，由于存在156对亲子对图像，目标类被修改为N＝156。由于采用了Fine-tuning思想，网络最后两层被重命名，且基础学习率倍数增加为20。最大迭代次数为8万次，基础学习率是0.001。新层的权重是由标准差为0.01的零均值高斯分布初始化获得的，其他层的权重由基于VGG16预训练的猴脸识别模型来初始化。猴脸亲子验证网络的训练参数设置如下表2所示：

表2亲子验证模型训练参数说明

注：各参数的含义为：base_lr--基本学习率，lr_policy--学习率下降策略，gamma--学习率变化的比率，stepsize--学习率变化所需的迭代次数，每stepsize的迭代base_lrxgamma,momentum--学习冲量单元，weight_decay--权值衰减项，solver_mode--训练运行模式，test_iter--测试样本输入迭代数，test_iterval--测试的迭代数，max_iter--训练最大迭代次数，average_loss--取多次foward的loss作平均，进行显示输出，Test_initialization--表示是否可以用上次保存的snapshot来继续训练.。(其余参数参考表1)

3.2亲缘关系验证算法运用

我们使用Python接口来调用训练好的caffe猴脸亲子验证模型，并选择了60个亲子对来生成正匹配对和负匹配对图像，从而制作了一个猴脸亲子对性能测试数据库。基于该数据库，我们画出了亲子验证模型的ROC性能曲线。同时，部分亲子对验证的实验结果如下图3所示，实验结果表明我们的发明能够较好的实现猴脸亲缘验证。

图2猴脸亲子对验证成功的样例，其中，子图(a)、(b)表示亲子对图像验证成功，面部相似度都高于0.7,子图(c)、(d)表示非亲子对图像验证成功，相似度都低于0.4.由此，我们可以看出，具有母系亲缘关系的单元内个体间面部相似度较高，而母系单元间个体的面部相似度相对较低。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于计算机视觉的猴脸亲缘关系分析方法，其特征在于，包括如下步骤：

S10基于手工标记的猴脸图像，运用Faster R-CNN模型训练猴脸检测器；包括：

S102使用猴脸图像深度学习模型的RPN在该卷积特征图上滑动扫描出数个滑动窗口，每个滑动窗口映射为一个低维特征输入至分类层和回归层，其中每个所述滑动窗口对应数个锚矩形框；

S103将待分析猴脸图像分类为猴脸目标和背景，回归层输出每个锚矩形框对应的缩放参数，分类层输出每个锚矩形框所属猴脸目标或背景的概率，且将其中概率最高的锚矩形框确定为猴脸坐标；

S30设计猴脸亲缘关系验证算法，通过对深度卷积神经网络的训练对猴脸分析目标特征进行猴脸亲缘关系分析；包括：

S301通过深度卷积网络来对猴脸图像提取猴脸分析目标特征；

S303设置三元组约束条件：若单个亲子对的图像(Anchor)和该亲子对的其他图像/>(Positive)距离小于α，则认为它们相似度较高，若与其他非亲子对的图像/>(Negative)距离大于α，则认为它们相似度不高，由上得到三元组约束条件式(1)，

其中，α是施加在正样本对和负样本对之间的距离(margin)，Γ是训练集中的所有可能的三元组，x_i是VGG16网络的输出分数向量；

S304将VGG16网络的输出分数向量进行l₂归一化处理；

S305使用仿射投影将x_i投影到一个L＜＜D的低维空间中，得到最后投影后的结果为：W′∈R^L×D，其中，W'即待求解的投影矩阵；

S306通过最小化下式(2)三元损失函数来训练W'，

2.如权利要求1所述的基于计算机视觉的猴脸亲缘关系分析方法，其特征在于，所述S20包括：

S203结合已知的猴子身份信息和种群信息，就得到猴脸数据库。

3.如权利要求1所述的基于计算机视觉的猴脸亲缘关系分析方法，其特征在于，所述302中训练样本的构造是参考FaceNet中三元组的选择，基于一个mini-batch中所有可能的参考样本-正样本对，即anchor-positive对，来找难分类的负样本，即semi-hard-negative图像，假设给定一个anchor样本挑选一个满足/>式子的负样本，采取生成mini-batch的方法，每个mini-batch中每个亲子对平均有数张图片，然后随机加入一些反例来生成具有三元组(a,p,n)属性的训练样本，其中f(x_i)泛指x_i从输入到映射结束的过程。

4.如权利要求1所述的基于计算机视觉的猴脸亲缘关系分析方法，其特征在于，所述S30之后还包括：

S40使用Python接口来调用训练好的caffe猴脸亲子验证模型，并由数张猴脸亲子对图像生成正匹配对图像和负匹配对图像，由此生成猴脸亲子对性能测试数据库，以进行猴脸亲缘关系分析的验证。