CN110298291B

CN110298291B - 基于Mask-RCNN的牛脸及牛脸关键点检测方法

Info

Publication number: CN110298291B
Application number: CN201910551729.0A
Authority: CN
Inventors: 于海业; 武占东; 张蕾; 隋媛媛; 孙志朋; 任子圣
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-09-23
Anticipated expiration: 2039-06-25
Also published as: CN110298291A

Abstract

本发明公开了基于Mask‑RCNN的牛脸及牛脸关键点检测方法，为填补牛脸及牛脸关键点同步检测的空白，基于Mask‑RCNN的牛脸及牛脸关键点检测方法的步骤:1)采集带有牛脸的图片,标记每张图片中牛脸及牛脸关键点数据：(1)从国内网络中收集牛的图片，从收集的图片中选取有牛脸的图片：a.从国内的农业节目中选取关于养牛的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片；b.使用摄像机实地采集牛只的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片；(2)标注图片中的每个牛脸的位置；2)设计牛脸及牛脸关键点检测网络结构；3)利用标记完成的数据训练牛脸及牛脸关键点检测网络，最终生成牛脸及牛脸关键点检测器。

Description

基于Mask-RCNN的牛脸及牛脸关键点检测方法

技术领域

本发明涉及属于数字图像处理技术领域的一种检测方法，更确切地说，本发明涉及一种基于Mask-RCNN的牛脸及牛脸关键点检测方法。

背景技术

动物身份识别可以方便生产管理、控制疾病爆发以及确立所属权，并且也满足当今消费者追踪溯源的需求以及进出口贸易的要求。

现代动物身份识别技术包括机械式的(如烙印、纹身等)、电子式的(如耳标、RFID瘤胃陶瓷标签、可植入式ID芯片等)、生物特征式的(如鼻纹印、DNA图谱、虹膜识别等)。机械式的、电子式的动物身份识别方法都具有操作难、动物福利低、造价高、丢失率高、重复利用率低等缺点。

牛脸识别技术是基于图像中牛脸部特征的差异进行区分的牛只身份识别方法。整个过程包括牛脸检测、牛脸特征点检测以及牛脸识别三个主要步骤。其中牛脸检测是目标检测的一种特例，是框出图像中的所有牛脸。牛脸特征点检测是定位出牛脸的关键区域位置点，利用这些关键点使用仿射变换将牛脸统一“摆正”，尽量去消除牛脸识别中姿势不同带来的误差。因此牛脸检测和牛脸关键点检测是牛脸识别的基础。

从2011年深度学习在语音识别中大放异彩，到2012年AlexNet(一种图片识别框架)在ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)中脱颖而出。2015年FaceNet(一种人脸识别框架)在LFW数据集上的识别率达到99.63％，已经超越人类识别人脸的水平。目前基于深度学习方法的动物身份识别研究较少，虽然有一些研究机构已经进行相关探索，但仍没有得到推广与应用。首先主要是基础工作没有做到位；任何生物特征识别的前提都是具有规定的数据库，而大部分的研究人员都是自己拥有自己的数据库，可以说相互独立。其次动物的品种很多，研究人员都是选出某一个品种来进行训练，导致每一个品种都要建数据库，操作繁琐。再次大部分研究人员应用的数据都是自己获取的，环境相同，噪声相似，导致模型的泛化性不强。

在牛脸检测方面，中国专利公告(布)号为CN108549860A，公告(布)日为2018年4月9日，发明名称为《一种基于深度神经网络的牛脸识别方法》的案子中只是提到使用通用的方法训练牛脸检测器；并且该方法稍微有些画蛇添足，是利用耳标和牛脸结合的方法识别牛脸。中国专利公告(布)号为CN107292298A，公告(布)日为2017年8月9日，发明名称为《基于卷积神经网络和分类器模型的牛脸识别方法》的案子中没有提及牛脸检测的问题，只是通过调整摄像头的视角，手动选取图像中只有一个牛脸的图片形成训练集和测试集，可想而知，该方法的通用性不强。并且以上两种方法都没有提及牛脸关键点检测问题，导致牛脸识别的准确率大幅度降低。

在牛脸关键点检测方面，中国专利公告(布)号为CN109002769A，公告(布)日为2018年6月22日，发明名称为《一种基于深度神经网络的牛脸对齐方法及系统》的案子并且没有给出关键点的数目；使用全局网络由整张图像定位所有关键点，利用欧氏距离损失函数进行回归，没有挖掘多尺度信息进行关键点的校正和调整，可以说是一个单级的牛脸关键点检测。

综上所述，现有的牛脸识别技术存在的主要问题有：

1.没有牛脸检测方法，只是利用目标检测的通用方法，这样导致牛脸检测的准确率不高，专业性不强。

2.牛脸关键点的数量没有分析，以及缺少较为准确的牛脸关键点的检测方法。

3.数据不统一，图像的噪声面不广，导致训练模型的泛化性不强。

4.多任务性不强，牛脸检测与牛脸关键点检测自立门户，都是分步进行，没有将两个任务统一完成。

发明内容

本发明所要解决的技术问题填补牛脸及牛脸关键点同步检测的空白，提供了一种基于Mask-RCNN(是一种在有效检测目标的同时输出高质量的实例分割掩码)的牛脸及牛脸关键点检测方法。

为解决上述技术问题，本发明是采用如下技术方案实现的：所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法的步骤如下：

1)采集带有牛脸的图片,标记每张图片中牛脸及牛脸关键点数据；

2)设计牛脸及牛脸关键点检测网络结构；

3)利用标记完成的数据训练牛脸及牛脸关键点检测网络，最终生成牛脸及牛脸关键点检测器。

技术方案中所述的采集带有牛脸的图片,标记每张图片中牛脸及牛脸关键点数据是指：

1)从国内网络中收集牛的图片，从收集的图片中选取有牛脸的图片

(1)从国内的农业节目中选取关于养牛的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片；

(2)使用摄像机实地采集牛只的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片；

其中牛只的品种有中国黑白花牛、荷斯坦奶牛、娟珊牛、西门塔尔牛、西门塔尔杂交牛、红牛、黑牛、黄牛、和牛多个品种；

2)标注图片中的每个牛脸的位置

标记牛正脸时的牛脸的6个关键点，分别为左眼、右眼、左鼻孔上缘、左鼻孔下缘、右鼻孔上缘、右鼻孔下缘。

技术方案中所述的设计牛脸及牛脸关键点检测网络结构是指：

1)牛脸及牛脸关键点检测网络输入层接收用于训练检测网络的图片，即标记牛脸位置及牛脸6个关键点的彩色RGB图片，预处理将尺寸调整为1024*1024，经过改进的深度可分离卷积的VGGNet与FPN网络耦合的网络进行不同尺度的特征提取；

2)提取到的特征图对每个点设定预定的ROI即感兴趣区域,将获得的多个ROI输送到RPN网络进行候选区域筛选，将筛选出的候选区域映射回原图尺度；

3)利用RoIAlign层对每个候选出的ROI提取固定尺寸的特征图；

4)最后对固定尺寸的特征图进行牛脸边框回归、牛脸关键点回归、目标分类以及牛脸掩膜输出。

技术方案中所述的深度可分离卷积的VGGNet与FPN网络耦合的网络由两大部分组成：

(1)一部分为深度可分离卷积的VGGNet网络进行特征提取下采样，其结构采用原有的VGGNet16网络卷积基结构；

改进的VGGNet网络中使用深度可分离卷积提取特征，共计进行13次深度可分离卷积，卷积核的尺寸为3*3，通道数逐渐从64增加到512；池化都选用最大池化操做；进行5次下采样，下采样的频率2；

(2)另一部分为FPN网络进行特征提取上采样

FPN网络采用的最邻近上采样，采样频率为2。

技术方案中所述的利用标记完成的数据训练牛脸及牛脸关键点检测网络，最终生成牛脸及牛脸关键点检测器是指：

利用采集的数据训练牛脸及牛脸关键点检测网络，以牛脸及牛脸关键点检测网络的预测输出与真实输出的误差收敛为目标，即通过最小化RPN网络中的损失L_R与牛脸及牛脸关键点检测网络的总损失L，训练该网络；

将数据分为两类，其中一类为只标记牛脸的数据集，另一类为即标记牛脸也标记牛脸关键点数据集；

1)先利用只标记牛脸的数据集训练网络；

2)然后再利用即标记牛脸也标记牛脸关键点数据集训练网络，如果只用正脸训练网络，会导致网络的泛化性不强；

所述的牛脸及牛脸关键点检测网络的预测输出与真实输出的误差分为四部分：

牛脸边框回归损失L_box：Smooth L1损失；

目标分类损失L_class：Softmax交叉熵损失；

牛脸关键点回归损失L_kpoint：均方误差损失；

牛脸掩膜输出损失L_mask：平均二值交叉熵损失；

总损失L＝L_box+L_class+L_kpoint+L_mask。

与现有技术相比本发明的有益效果是：

1.本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法采集的图片样本包括牛的种类较全，涵盖了常见牛的品种，这样训练出来的网络能更好的适应不同牛品种的牛脸及牛脸关键点检测，普适性较强；样本的来源较广，通过网络爬取、网络视频截取以及实地采样，丰富样本的属性，不同拍摄环境的图片可以使牛脸及牛脸关键点检测器的泛化性较强。

2.本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法首次提出针对牛脸的6个关键点进行提取，分别为左眼、右眼、左鼻孔上缘、左鼻孔下缘、右鼻孔上缘、右鼻孔下缘，这6个关键点最具有代表性，通过仿射变换，更容易进行牛脸对齐，解决不同拍摄角度的牛脸姿态多样性问题，从而提高牛脸识别的准确率。

3、本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法提出深度可分离卷积VGGNet模型(2014年由牛津大学计算机视觉组合和GoogleDeepMind公司研究员一起研发的深度卷积神经网络)与FPN(特征金字塔网络)的耦合特征提取网络，原有的Mask-RCNN中的特征提取网络为Resnet50(2015年由微软研究院提出的残差网络)或Resnet101与FPN结合，仅仅ResNet50当去掉最后的全连接层时训练的参数有2千万左右，而改进型深度可分离卷积VGGNet的训练参数大概只有2百万左右，二者相比减小了一个数量级，改进后的网络更加轻量、训练速度更快。

4、本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法利用一个端到端的网络完成牛脸检测与牛脸关键点检测两个任务，仅仅通过两个步骤就可以完成牛脸识别，减少牛脸识别的基础工作，并且使牛脸识别的准确率大大提高。

5、本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法在牛脸关键点检测时，同时进行多个任务的学习，这些任务包括：牛脸边框回归、牛脸掩膜输出、目标分类，使用这些辅助输出帮助更好的定位关键点。

6、本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法中牛脸关键点检测同样使用多尺度特征进行预测，低层特征语义信息较少，但目标位置准确，高层特征语义信息丰富，但目标位置比较粗略，因此采用低层特征高分辨率和高层特征的高语义信息，通过融合不同层的特征优化预测牛脸关键点的准确率。

附图说明

下面结合附图对本发明作进一步的说明：

图1为本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法的流程框图；

图2为本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法中的检测网络设计方法框图；

图3为本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法中深度可分离卷积VGGNet与FPN耦合的特征提取网络的结构框图；

图4为本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法中的网络输出层的结构框图；

图5为本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法中的牛脸及牛脸关键点的标记示意图。

具体实施方式

下面结合附图对本发明作详细的描述：

本发明所述的一种基于Mask-RCNN的牛脸及牛脸关键点检测方法包括步骤如下：

1.采集带有牛脸的图片,标记每张图片中牛脸及牛脸关键点数据

其中牛只的品种有中国黑白花牛、荷斯坦奶牛、娟珊牛、西门塔尔牛、西门塔尔杂交牛、红牛、黑牛、黄牛、和牛等多个品种。

2)标注图片中的每个牛脸的位置

标记牛正脸时的牛脸的6个关键点，分别为左眼、右眼、左鼻孔上缘、左鼻孔下缘、右鼻孔上缘、右鼻孔下缘；

2.设计牛脸及牛脸关键点检测网络结构

所述的深度可分离卷积的VGGNet与FPN网络耦合的网络由两大部分组成：

(2)另一部分为FPN网络进行特征提取上采样

FPN网络采用的最邻近上采样，采样频率为2；

2)提取到的特征图对每个点设定预定的ROI(感兴趣区域),将获得的多个ROI输送到RPN(区域生成)网络进行候选区域筛选，将筛选出的候选区域映射回原图尺度；

3)利用RoIAlign层对每个候选出的ROI提取固定尺寸的特征图；

4)最后对固定尺寸的特征图进行牛脸边框回归、牛脸关键点回归、目标分类以及牛脸掩膜输出；

3.利用标记完成的数据训练牛脸及牛脸关键点检测网络，最终生成牛脸及牛脸关键点检测器

1)先利用只标记牛脸的数据集训练网络；

牛脸边框回归损失L_box：Smooth L1损失；

目标分类损失L_class：Softmax交叉熵损失；

牛脸关键点回归损失L_kpoint：均方误差损失；

牛脸掩膜输出损失L_mask：平均二值交叉熵损失；

总损失L＝L_box+L_class+L_kpoint+L_mask。

实施例：

为使本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法的目的、技术方案和优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实例仅用以解释本发明，并不用于限定本发明。

参阅图1，本发明所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法的步骤如下：

1.采集带有牛脸的图片，标记每张图片中牛脸及牛脸关键点数据

1)利用Python编写代码，从国内网络中爬取牛的图片，其中符合要求的大概有1000张；

(1)从国内的农业节目中选取关于养牛的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片大概12000张；

(2)使用摄像机实地采集牛只的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片大概40000张；

其中牛只的品种有中国黑白花牛、荷斯坦奶牛、娟珊牛、西门塔尔牛、西门塔尔杂交牛、红牛、黑牛、黄牛、和牛等多个品种；

参阅图5，图片的总量越多越好，并且每张图片的拍摄环境最好不同。利用VGGImage Annotator软件标注图片中的每个牛脸的位置；标记牛正脸时的面部6个关键点，分别为左眼、右眼、左鼻孔上缘、左鼻孔下缘、右鼻孔上缘、右鼻孔下缘，如图中所示。

2.设计牛脸及牛脸关键点检测网络

参阅图2，该网络依次连接输入层、深度可分离卷积VGGNet与FPN网络耦合的多尺度特征提取网络、RPN网络、RoIAlign层、输出层；其中输出层包括四个目标分别为牛脸边框回归、目标分类、牛脸关键点回归、牛脸掩膜输出；

1)输入层

接收训练样本，即标记牛脸位置及牛脸6个关键点的彩色图片，预处理将尺寸调整为1024*1024；

2)深度可分离卷积VGGNet与FPN网络耦合的多尺度特征提取网络

提取低层特征高分辨率和高层特征的高语义信息，具体结构如图3所示，深度可分离卷积的VGGNet与FPN网络耦合的网络由两大部分组成，一部分为深度可分离卷积的VGGNet的网络进行特征提取下采样，其结构采用原有的VGGNet16网络卷积基结构，共分为5个特征提取下采样模块，分别为特征提取模块1、特征提取模块2、特征提取模块3、特征提取模块4、特征提取模块5，每个特征提取下采样模块的结构如下：

特征提取模块1：2个深度可分离卷积，卷积核的尺寸为3*3*64，padding＝1，下采样采用采样频率为2的最大池化操作，输出的特征图的尺寸为512*512*64；

特征提取模块2：2个深度可分离卷积，卷积核的尺寸为3*3*128，padding＝1，下采样采用采样频率为2的最大池化操作，输出的特征图的尺寸为256*256*128；

特征提取模块3：3个深度可分离卷积，卷积核的尺寸为3*3*256，padding＝1，下采样采用采样频率为2的最大池化操作，输出的特征图的尺寸为128*128*256；

特征提取模块4：3个深度可分离卷积，卷积核的尺寸为3*3*512，padding＝1，下采样采用采样频率为2的最大池化操作，输出的特征图的尺寸为64*64*512；

特征提取模块5：3个深度可分离卷积，卷积核的尺寸为3*3*512，padding＝1，下采样采用采样频率为2的最大池化操作，输出的特征图的尺寸为32*32*512。

利用FPN网络对输出的特征图进行上采样操作，具体网络结构如下：

特征提取模块5输出的特征图经过卷积核为1*1*256的卷积操作4，输出特征图4的尺寸为32*32*256；

特征提取模块4输出的特征图经过卷积核为1*1*256的卷积操作3，输出的特征图与特征图4进行频率为2的上采样操作3输出的特征图进行融合，产生特征图3，且尺寸为64*64*256；

特征提取模块3输出的特征图经过卷积核为1*1*256的卷积操作2，输出的特征图与特征图3进行频率为2的上采样操作2输出的特征图进行融合，产生特征图2，且尺寸为128*128*256；

特征提取模块2输出的特征图经过卷积核为1*1*256的卷积操作1，输出的特征图与特征图2进行频率为2的上采样操作1输出的特征图进行融合，输出特征图1，且尺寸为256*256*256。

将特征图1、特征图2、特征图3、特征图4分别进行卷积核为3*3*256的卷积操作5、卷积操作6、卷积操作7、卷积操作8，消除混叠现象，分别输出为特征图5、特征图6、特征图7、特征图8，再将特征图8进行采样频率为2的最大池化操作，输出特征图9，再将特征图5、特征图6、特征图7、特征图8、特征图输入到RPN网络。

3)RPN网络

原有Mask-RCNN网络中的RPN网络，提取到的特征图对每个点设定预定的ROI,将获得的多个ROI输送到RPN网络进行候选区域筛选，将筛选出的候选区域映射回原图尺度；

4)RoIAlign层

原有Mask-RCNN网络中的RoIAlign层。利用RoIAlign层对每个候选出的ROI提取固定尺寸的特征图；

5)输出层

对固定尺寸的特征图进行牛脸边框回归、牛脸关键点回归以及牛脸掩膜输出。输出层的特征图结构如图4所示。RoIAlign层将ROI分别固定为7*7*256和14*14*256，左侧的分支负责牛脸关键点回归与牛脸边框回归，右侧的分支负责生成对应的mask。左侧分支将7*7*256的特征图通过卷积操作将其升维到1*1*1024，在通过卷积操作输出1*1*1024，然后有两个分支，牛脸关键点回归输出为12(6个牛脸关键点的二维坐标)，目标分类输出为2，牛脸边框回归输出为4；右侧分支将14*14*256特征图通过5次相同卷积操作，输出都为14*14*256特征图，然后进行转置卷积操作，输出28*28*256特征图，最后输出28*28*1的mask。

1)利用采集的数据训练牛脸及牛脸关键点检测网络，以牛脸及牛脸关键点检测网络的预测输出与真实输出的误差收敛为目标，即通过最小化RPN网络中的损失L_R与牛脸及牛脸关键点检测网络的总损失L，训练该网络。将数据分为两类，其中一类为只标记牛脸的数据集，大概4万多张；另一类为即标记牛脸也标记牛脸关键点数据集，大概1万张；先利用只标记牛脸的数据集训练网络，然后再利用即标记牛脸也标记牛脸关键点数据集训练网络，因为牛脸正脸的图片较少，如果只用正脸训练网络，会导致网络的泛化性不强。

2)所述的步骤3中的牛脸及牛脸关键点检测网络的预测输出与真实输出的误差分为四部分，分别为：

牛脸边框回归损失L_box：Smooth L1损失；

目标分类损失L_class：softmax交叉熵损失；

牛脸关键点回归损失L_kpoint：均方误差损失；

牛脸掩膜输出损失L_mask：平均二值交叉熵损失；

总损失L＝L_box+L_class+L_kpoint+L_mask。

通过上述步骤后，得到最终的牛脸及牛脸关键点检测网络中的最佳参数。

以上所述，仅是本发明的较佳实施例，并非用以限制本发明的权利范围。任何以本申请专利范围所涵盖的权利范围实施的技术方案，或者任何熟悉本领域的技术人员，利用上述揭示的方法做出许多可能的变动和修饰方案，均属于本发明的保护范围。

Claims

1.一种基于Mask-RCNN的牛脸及牛脸关键点检测方法，其特征在于，所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法的步骤如下：

1)采集带有牛脸的图片,标记每张图片中牛脸及牛脸关键点数据:

(1)从国内网络中收集牛的图片，从收集的图片中选取有牛脸的图片

a.从国内的农业节目中选取关于养牛的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片；

b.使用摄像机实地采集牛只的视频，每隔5帧截取一幅图片，从中选取有牛脸的图片；

其中牛只的品种有中国黑白花牛、荷斯坦奶牛、娟珊牛、西门塔尔牛、西门塔尔杂交牛、红牛、黑牛、黄牛与和牛多个品种；

(2)标注图片中的每个牛脸的位置

2)设计牛脸及牛脸关键点检测网络结构:

(1)牛脸及牛脸关键点检测网络输入层接收用于训练检测网络的图片，即标记牛脸位置及牛脸6个关键点的彩色RGB图片，预处理将尺寸调整为1024*1024，经过改进的深度可分离卷积的VGGNet与FPN网络耦合的网络进行不同尺度的特征提取；

(2)提取到的特征图对每个点设定预定的ROI即感兴趣区域,将获得的多个ROI输送到RPN网络进行候选区域筛选，将筛选出的候选区域映射回原图尺度；

(3)利用RoIAlign层对每个候选出的ROI提取固定尺寸的特征图；

(4)最后对固定尺寸的特征图进行牛脸边框回归、牛脸关键点回归、目标分类以及牛脸掩膜输出；

2.按照权利要求1所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法，其特征在于，所述的深度可分离卷积的VGGNet与FPN网络耦合的网络由两大部分组成：

(2)另一部分为FPN网络进行特征提取上采样

FPN网络采用的最邻近上采样，采样频率为2。

3.按照权利要求1所述的基于Mask-RCNN的牛脸及牛脸关键点检测方法，其特征在于，所述的利用标记完成的数据训练牛脸及牛脸关键点检测网络，最终生成牛脸及牛脸关键点检测器是指：

1)先利用只标记牛脸的数据集训练网络；

牛脸边框回归损失L_box：Smooth L1损失；

目标分类损失L_class：Softmax交叉熵损失；

牛脸关键点回归损失L_kpoint：均方误差损失；

牛脸掩膜输出损失L_mask：平均二值交叉熵损失；

总损失L＝L_box+L_class+L_kpoint+L_mask。