CN115546828A - 一种复杂牛场环境牛脸识别方法 - Google Patents

一种复杂牛场环境牛脸识别方法 Download PDF

Info

Publication number
CN115546828A
CN115546828A CN202211155354.4A CN202211155354A CN115546828A CN 115546828 A CN115546828 A CN 115546828A CN 202211155354 A CN202211155354 A CN 202211155354A CN 115546828 A CN115546828 A CN 115546828A
Authority
CN
China
Prior art keywords
face
cattle
features
layer
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211155354.4A
Other languages
English (en)
Inventor
沈雷
方一昊
郑鹏
蓝雷斌
黄安祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211155354.4A priority Critical patent/CN115546828A/zh
Publication of CN115546828A publication Critical patent/CN115546828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/435Computation of moments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

针对在复杂牛场环境下存在牛群遮挡、牛脸脏污以及牛的活动状态和姿态多样性等问题引起的牛身份识别困难的难题。本发明公开了一种基于Vision‑Transformer的复杂牛场环境牛脸识别算法。本发明在VIT模型的基础上对复杂牛场环境设计了全新的特征融合方式。在VIT模型中加入本发明提出的patch‑shift网络层,patch‑shift网络层中的shift模块融合特征之间信息,不仅利用了局部特征还融合了局部特征之间的信息,缓解了在牛场环境中脏污对识别的影响。加入可学习的Mask矩阵使模型抑制不含牛脸信息的图像块,抑制图像背景干扰,使模型更加关注图像中的牛脸特征,学习到更加鲁棒的牛脸特征。

Description

一种复杂牛场环境牛脸识别方法
技术领域
本发明涉及生物识别领域,具体涉及一种复杂牛场环境牛脸识别算方法。
背景技术
在规模化养牛场,要实现个体化、自动化、信息化的日常精细化管理,实现每头牛健康状况的跟踪和奶、肉制品的可追溯性,关键在于对个体牛的识别。
传统的牛个体识别可以通过物理方法或嵌入微芯片的方式对身体某一部位进行标记,通过射频ID的方式对牛个体加以区分。但这种方式不能防止欺诈行为,包括复制标记和盗窃设备,还会对牛本身造成伤害,因此利用牛脸进行个体识别的方法开始兴起。
由于近几年人工智能技术的高速发展,在牛脸识别方面也涌现了许多基于深度学习的新方法,在模型设计上基于卷积神经网络(Convolutional Neural Networks,CNN)的牛脸识别技术日趋成熟,如基于增量识别的牛脸识别算法,运用CNN提取的特征构造稀疏表示分类模型,计算各类别的残差,依据残差最小原则进行牛个体识别的方法,或是去除VGG(Visual Geometry Group)网络的冗余参数,在不影响识别率的前提下减少了网络参数,为奶牛的识别技术提供了一种新的思路。还有一种基于VGG建立了牛脸特征提取模型的方法,采用欧氏距离计算牛脸特征间的相似度,采用softmax loss和中心损失作为模型训练的损失函数,增大了模型提取特征的类间距离,减小了类内距离,提高了识别性能。卷积神经网络因其强大的特征表达能力在牛脸识别领域取得了一些成果,但由于其局部感受野的局限性,提取牛脸特征时,往往忽略了牛脸图像的全局上下文信息,并不能很好地表征牛脸,也没有考虑牛脸脏污对识别的影响。
在感受野方面,研究员们也开始在识别前着重解决感受野的局限性。如视觉Transformer(Vision-Transformer,VIT)模型,利用Transformer全局感受野的特性得到了比CNN更好的性能。经过我们测试,VIT只使用全局特征,忽视了局部特征。将VIT的全局特征直接加到每一块局部特征中,融合了局部特征和全局特征之间的信息,但却忽略了局部特征之间的相关性。
发明内容
针对在复杂牛场环境下由于牛群遮挡、牛脸脏污以及牛的活动状态和姿态多样性等问题引起的牛身份识别困难的难题。
本发明提出一种基于Vision-Transformer的复杂牛场环境牛脸识别算法。本发明在VIT模型的基础上对复杂牛场环境设计了全新的特征融合方式。在VIT模型中加入本发明提出的patch-shift网络层充分学习牛脸图像全局特征和局部特征以及局部特征之间的相关性,有效缓解了复杂牛场环境下牛脸脏污对识别的影响,并在算法中加入可学习的Mask矩阵使模型抑制不含牛脸信息的图像块,学习到更加鲁棒的牛脸特征。为解决在复杂牛场环境下的牛身份识别困难的问题,
本发明所采用的技术方案为:
1.一种复杂牛场环境牛脸识别方法,包括以下步骤:
S1、采集牛脸数据:
在不同的光照条件下和同一拍摄高度下,同时采集正脸、左侧脸、右侧脸三种不同的牛脸姿态的牛脸视频数据,从视频流中截取每头牛的正脸、左侧脸、右侧脸图片数据,并将牛脸图片数据划分为训练集和测试集;
S2、基于Vision-Transformer对复杂牛场环境牛脸进行数据处理
S2-1首先将输入的牛脸图片分为N个大小相同的图像块
Figure BDA0003858293640000021
,并使用Vision-Transformer的图像块编码器E将每个图像块编码为维度为D的特征向量
Figure BDA0003858293640000022
S2-2之后在N个特征向量
Figure BDA0003858293640000023
组成的矩阵中,加入可学习的分类向量xcls,所述分类向量xcls用于表示牛脸图像经过编码后的全局特征,
S2-3最后加入包含空间信息的位置编码
Figure BDA0003858293640000031
即可得到编码器的输入序列:
Figure BDA0003858293640000032
S2-4在z0前向传播到第l-1层编码器时将提取的牛脸特征
Figure BDA0003858293640000033
分别输入全局分支和局部信息融合分支,其中,输入全局分支的牛脸特征作为全局分支输入特征,输入局部信息融合分支的牛脸特征作为局部分支输入特征;
S2-5在全局分支将全局分支输入特征输入第l层编码器中提取全局分支特征;
S2-6在局部信息融合分支中,利用patch-shift网络层让牛脸的全局特征和局部分支输入特征进行融合,得到patch-shift网络层信息融合后的特征;
S2-7将patch-shift网络层信息融合后的特征输入第l层编码器得到最终包含特征之间相关性的输出特征S=TransformerLayer(GM);
S2-8最后将全局分支提取的全局分支特征和局部信息融合分支提取的包含特征之间相关性的输出特征输入MLP中进行分类;
S3、使用所述步骤S1中所述的训练集,构建损失函数,对所述步骤S2中基于Vision-Transformer对复杂牛场环境牛脸进行数据处理的方法进行训练,当总损失下降到不大于0.01时结束训练,得到训练好的牛脸数据处理方法;
S4、将步骤S1中所述的测试集中的数据输入训练好的牛脸数据处理方法中,提取牛脸图像特征并进行识别比对。
作为优选,所述S3中的损失函数包括:三元组损失Ltriplet和交叉熵损失Lsoftmax
作为优选,所述S2-6中,所述局部信息融合分支的结构从下到上包括:自适应平均池化层、拼接层、patch-shift网络层、第l层编码器,MLP分类器;
在所述自适应平均池化层、拼接层进行池化和拼接的过程具体包括以下步骤:
首先将第l-1层的编码器输出zl-1使用平均池化将N+1个局部分支输入特征平均分为K份,再将K个均分后的局部分支输入特征和全局特征
Figure BDA0003858293640000041
拼接得到局部信息融合分支的输入特征
Figure BDA0003858293640000042
即:
Figure BDA0003858293640000043
式中,γ为自适应平均池化层,ψ表示拼接池化后的局部分支输入特征和全局特征;
所述patch-shift网络层的结构从下到上包括:shift模块、卷积核大小为1的卷积层Conv;可学习矩阵Mask;激活函数ReLU;所述patch-shift网络层的运行过程包括以下步骤:
将G0输入到M层patch-shift网络层中进行信息融合,第m层patch-shift网络层的输出为
Figure BDA0003858293640000044
Gm=ReLU(Conv(shift(Gm-1))⊙Mask+Gm-1)m=1,…,M
式中,Gm-1为第m-1层patch-shift网络层的输出,第一层patch-shift的输入为G0;shift为本文提出融合特征信息的shift模块;Conv为卷积核大小为1的卷积层;Mask为自适应学习特征相关性的可学习矩阵;ReLU为激活函数。
作为优选,所述shift模块用于对局部分支输入特征和全局特征进行通道间的信息融合;所述shift模块在融合特征信息时,特征Gm-1第i块特征的第j个通道信息值Gm-1(i,j)等于特征Gm-1第(i+j)%(K+1)块特征的第j个通道的信息值Gm-1((i+j)%(K+1),j)即:
Gm-1(i,j)=Gm-1((i+j)%(K+1),j)i=0,…,K;j=0,…,D-1
其中,Gm-1为第m层patch-shift中shift模块的输入特征为
Figure BDA0003858293640000045
Figure BDA0003858293640000046
为全局特征,fi m-1|i=1,2,…,K为局部分支输入特征。
作为优选,所述S4中,基于余弦距离进行所述识别比对;
余弦距离计算公式如下:
Figure BDA0003858293640000051
余弦距离越大说明两个牛脸表面特征的相似度越高,反之,则两个由模型提取到的牛脸表面特征的相似度越低;
基于余弦距离进行识别比对的过程包括以下步骤:
将测试集牛脸图像提取到的经过6、4、2等分后组合归一化后的特征进行1:1不同类比对,获得模型比对阈值T;
再将测试集中的图像进行同类比对,当同类提取到的组合特征的比对值大于T时即视为比对成功;反之,则认为比对失败。
本发明有益效果如下:
本发明提出一种基于Vision-Transformer的复杂牛场环境牛脸识别算法。使用卷积神经网络(Convolutional Neural Networks,CNN)提取牛脸特征时,往往忽略了全局上下文信息,只能提取到牛脸图像的局部特征信息。视觉Transformer(Vision-Transformer,VIT)模型的全局感受野特性能有效改善CNN局部感受野的问题,但以往的VIT识别模型没有考虑到各局部特征之间的相关性,这样简单暴力的划分局部特征,当出现大范围遮挡、脏污以及多姿态情况,在和模板匹配时,对应部分的比对值就会较大,整体的比对值就会大于阈值造成识别失败。因此,这样简单的划分在复杂场景下识别牛时带来的性能提升是很有限的。相较于原始的VIT模型,我们在局部信息融合分支中加入的patch-shift网络层让牛脸的全局特征和局部特征进行充分的信息交互,使模型充分学习全局特征和局部特征以及局部特征之间的相关性,弥补了基于VIT的模型忽视局部特征之间相关性的缺陷。
以往的VIT识别模型仅仅只是简单地对图像中背景噪声进行消噪处理,没有考虑到背景与牛脸信息特征的相关性,当出现光照强烈变换,和模板匹配时,背景的强暗光照会使得边缘的比对值较大,整体的比对值会大于阈值造成识别失败。加入可学习的Mask矩阵使模型抑制不含牛脸信息的图像块,学习到更加鲁棒的牛脸特征,之后再输入第l层编码器得到信息融合后的特征;最后将全局分支和局部信息融合分支提取的特征输入MLP中进行分类,精准得出正确的预测结果。
本发明提出了一种基于Vision-Transformer的复杂牛场环境牛脸识别算法,能有效解决在复杂牛场环境下的牛身份识别问题,在复杂场景下的1:1比对识别能获得优异的识别性能。
附图说明
图1为Vision-Transformer牛脸识别算法结构
图2为模型训练流程图
图3为COWYCTC-903数据集部分牛脸图像
图4为特征可视化热力图
图5为shift模块图
图6为MLP模块图
图7为patch-shift网络层结构图
图8为4种测试算法在4种数据集上的ROC曲线
具体实施例
下面结合附图对本发明的具体实施例作进一步的说明。
本实施例基于Vision-Transformer的复杂牛场环境牛脸识别算法,包括以下步骤:
S1、构造数据集
S1-1:在拍摄视频时,首先为了提高牛脸识别模型在牛场光照场景的泛化能力,在采集牛脸视频时选择在不同的光照条件下拍摄视频;其次为了牛脸识别模型实现牛脸的多角度识别,在采集牛脸视频时保证同一拍摄高度的同时对于正脸、左侧脸、右侧脸三种不同的牛脸姿态每个时间段拍摄30秒牛脸视频。根据目标检测算法,从视频流截取每头牛的图片并进行分类、编号和筛选。数据集一共包含了不同角度、不同光线条件的903类牛脸图像数据集COWYCTC-903。其中包含868类正常图像,每头牛有左脸、正脸、右脸这3种不同的姿态每种姿态含有15张牛脸图像,每头牛共计45张图像;35类包含遮挡或者脏污的特殊图像,每头牛10张图像,将数据集的前800类作为训练集。
S1-2:对上述步骤中得到的训练集经过旋转、平移、缩放、亮度变换等数据扩充方式后扩充至20倍,最后训练集图片数量为800×45×20=720000张。正常图像库验证集图片数量为68×15×3=3060张,正脸、左侧脸和右侧脸各1020张图像;特殊图像库验证集图片数量为10×35=350张,将扩充的图像归一化到192*192得到训练数据集。COWYCTC-903部分牛脸图像如图3所示。
S2、设计基于Vision-Transformer的复杂牛场环境牛脸识别算法
本发明提出的基于Vision-Transformer的牛脸识别算法基本框架如图1所示。
图1中,输入图像为
Figure BDA0003858293640000071
H,W,C分别表示输入图像的高宽和通道数。本发明和VIT的图片预处理方式相同。
首先将输入图片分为N个大小相同的图像块
Figure BDA0003858293640000072
并使用VIT的图像块编码器E将每个图像块编码为维度为D的特征向量
Figure BDA0003858293640000073
之后在N个特征向量中加入可学习的分类向量xcls,分类向量xcls用于表示牛脸图像经过编码后的全局特征。
最后加入包含空间信息的位置编码
Figure BDA0003858293640000074
即可得到编码器的输入序列:
Figure BDA0003858293640000075
不同于VIT直接将输入序列z0输入到包含l层的Transformer编码器中得到N+1个特征向量。本发明在z0前向传播到第l-1层编码器时将提取的牛脸特征
Figure BDA0003858293640000076
分别输入全局分支和局部信息融合分支。其中,输入全局分支的牛脸特征作为全局分支输入特征,输入局部信息融合分支的牛脸特征作为局部分支输入特征。
首先,在全局分支将全局分支输入特征输入第l层编码器中提取全局分支特征;
其次,在局部信息融合分支中,利用patch-shift网络层让牛脸的全局特征和局部分支输入特征进行充分的信息交互,得到patch-shift网络层信息融合后的特征;
之后将经过patch-shift网络层信息融合后的特征输入第l层编码器得到最终包含特征之间相关性的输出特征;
最后将全局分支提取的全局分支特征和局部信息融合分支提取的包含特征之间相关性的输出特征输入MLP中进行分类。
我们使用本发明提出的Vision-Transformer牛脸识别算法、VGG牛脸识别算法、ResNet-50和基于VIT提出的LA-Transformer算法生成的模型分别对同一头牛的正脸、左脸、右脸这3种姿态的正常图像测试集和有脏污的特殊图像库中可视化模型提取的特征画出可视化热力图如图4所示,从图中可以看出,相较于其他三种算法,本发明提出的牛脸识别算法在正常测试集的正脸、左侧脸和右侧脸中都能正确关注图像中的牛脸部分,抑制背景的干扰;同时对于脏污的特殊图像也能利用局部特征之间的相关性正确关注到牛脸区域。
全局分支
对于全局分支直接将zl-1输入到第l层编码器中得到
Figure BDA0003858293640000081
并取包含牛脸全局信息的分类向量gcls作为牛脸图像经过本发明提取的全局分支特征。
局部信息融合分支
局部信息融合分支主要使用patch-shift网络层融合全局特征和局部分支输入特征的信息,其中patch-shift网络层的结构如图7所示。根据图1,首先将第l-1层的编码器输出zl-1使用平均池化将N+1个局部特征平均分为K份,再将K个均分后的局部分支输入特征和全局特征
Figure BDA0003858293640000082
拼接得到局部信息融合分支的输入特征
Figure BDA0003858293640000083
即:
Figure BDA0003858293640000084
式中,γ为自适应平均池化层,ψ表示拼接池化后的局部分支输入特征和全局特征。
后将G0输入到M层patch-shift网络层中进行信息融合,第m层patch-shift网络层的输出为
Figure BDA0003858293640000091
Gm=ReLU(Conv(shift(Gm-1))⊙Mask+Gm-1)m=1,...,M (3)
式中,Gm-1为第m-1层patch-shift网络层的输出,特别的,第一层patch-shift的输入为G0;shift为本文提出融合特征信息的shift模块;Conv为卷积核大小为1的卷积层;Mask为自适应学习特征相关性的可学习矩阵;ReLU为激活函数。
最后,将经过M层patch-shift网络层信息融合后的特征GM输入到第l层编码器得到最终包含特征之间相关性的输出特征:
S=TransformerLayer(GM) (4)
shfit模块
为了避免基于VIT的模型只关注了全局特征和局部分支输入特征之间的关系忽略了局部分支输入特征之间的相关性的问题,利用patch-shift网络层中的shift模块融合特征之间信息,不仅利用了局部分支输入特征还融合了局部分支输入特征之间的信息,缓解了在牛场环境中脏污对识别的影响。
第m层patch-shift中shift模块的输入特征为
Figure BDA0003858293640000092
Figure BDA0003858293640000093
为全局特征,fi m-1|i=1,2,…,K为局部分支输入特征。shift模块为了充分利用局部分支输入特征和全局特征,对局部分支输入特征和全局特征进行通道间的信息融合。shift模块在融合特征信息时,特征Gm-1第i块特征的第j个通道信息值Gm-1(i,j)等于特征Gm-1第(i+j)%(K+1)块特征的第j个通道的信息值Gm-1((i+j)%(K+1),j)即:Gm-1(i,j)=Gm-1((i+j)%(K+1),j)i=0,…,K;j=0,…,D-1 (5)
经过shift模块后,Gm-1中的K+1块特征都包含了其他K块特征和自身的信息,充分融合了局部分支输入特征和全局特征之间的信息,解决了基于VIT的模型忽略了局部分支输入特征之间的相关性的问题。图5中描述了K=4,D=20时shift模块的计算过程。
图5中垂直方向的箭头表示将箭头尾部的信息赋值给箭头的头部。从图中经过shift后的特征图可以看出局部分支输入特征和全局特征在通道上充分融合了相互之间的信息。
虽然经过shift模块后牛脸的全局特征和局部分支输入特征得到了充分的融合,但是全局特征和局部分支输入特征以及局部分支输入特征之间的相关性是不同的所以本文在shift模块后添加一个可学习的Mask矩阵让网络自适应的学习各特征之间的相关性。并且通过观察牛脸图像的分块过程可以发现,每一个图像块对网络学习的重要性不同。例如,一些图像块中没有牛脸图像只有背景信息,这一类图像块甚至可能会影响网络的学习。添加Mask矩阵后也能让网络自适应的关注有牛脸部分的图像块,抑制图像背景的干扰。
最后将全局分支的gcls和局部信息融合分支的输出特征S分别输入MLP模块中计算模型的预测结果。MLP结构如图6所示。
S3、训练整个模型,如图2所示。首先构造损失函数,因为牛场中的牛脸图像存在异类图像相似度较大的图像,所以在训练时为了让不同类别牛脸图像的特征之间的距离尽可能大,同类牛脸图像之间的特征之间的距离尽可能小,让网络学习到相似牛脸的细节区分,得到更好的牛脸表征特征。本发明使用三元组损失(hard triplet loss)Ltriplet和交叉熵损失Lsoftmax联合训练网络。三元组损失如下:
Figure BDA0003858293640000101
式中,N为训练时一个批次的牛脸图像数量,
Figure BDA0003858293640000102
为在一个训练批次中随机选择的牛脸图像样本,
Figure BDA0003858293640000103
为同一个训练批次中和
Figure BDA0003858293640000104
属于同一类的牛脸图像样本,
Figure BDA0003858293640000105
为同一个训练批次中和
Figure BDA0003858293640000106
属于不同类的牛脸图像样本,
Figure BDA0003858293640000107
Figure BDA0003858293640000108
Figure BDA0003858293640000109
通过网络模型提取的特征之间的欧氏距离,
Figure BDA00038582936400001010
Figure BDA00038582936400001011
Figure BDA00038582936400001012
通过网络模型提取的特征之间的欧氏距离,a为超参数表示
Figure BDA0003858293640000111
Figure BDA0003858293640000112
之间的最小间隔,本文设置为0.3。在训练时,三元组损失拉近
Figure BDA0003858293640000113
Figure BDA0003858293640000114
的距离拉远
Figure BDA0003858293640000115
Figure BDA0003858293640000116
的距离,达到同类牛脸图像之间的距离近,不同类牛脸图像之间距离远的目的,使网络模型最终提取到细腻度更高的牛脸特征。
在计算损失时,拼接Vision-Transformer牛脸识别算法中全局分支和局部信息融合分支的输出特征作为最后的识别特征:
fall=[gcls;s0;s1;s2;…;sK] (7)
计算损失时使用fall计算最后的三元组损失和交叉熵损失:
Figure BDA0003858293640000117
Figure BDA0003858293640000118
模型总损失:
E=Etriplet+Esoftmax (10)
迭代整个训练集若干次,直至模型总损失下降到0.01左右。
S4、将测试集图像输入训练好的模型中提取牛脸图像表面特征并进行识别比对。
本发明采用余弦距离作为衡量牛脸表面特征相似度的标准。余弦距离计算公式如下:
Figure BDA0003858293640000119
余弦距离越大说明两个牛脸表面特征的相似度越高,反之,则两个由模型提取到的牛表面特征的相似度越低。将测试集牛图像提取到的经过6、4、2等分后组合归一化后的特征进行1:1不同类比对,获得模型比对阈值T。再将测试集中的图像进行同类比对,当同类提取到的组合特征的比对值大于T时即视为比对成功。反之,则认为比对失败。
其中不同类具体为测试集数据根据训练模型提取到牛脸表面特征,每头牛的牛脸图片特征和其他牛的牛脸图片特征求差值平方值,最终得到的所有差值平方值中最小的值我们认定为模型比对阈值T。
同类具体为测试集数据根据训练模型提取到牛脸表面特征,每头牛的牛脸图片特征和自身的其他牛脸图片特征求差值平方值,差值平方值小于模型比对阈值T认定为比对成功。反之,则认为比对失败。
本发明所使用的实验服务器GPU为NVIDIA TITAN RTX 3090,使用的深度学习框架为Pytorch。输入图像分辨率为224×224的3通道牛脸图像,Transformer编码器的图像块个数N为196,图像块编码后的特征维度D为768。在训练时使用了随机裁剪、随机水平翻转、随机擦除等数据增强方式。训练批次大小为64其中包含16头牛的4张牛脸图片。通过自适应矩估计(Adaptive momentum estimation,ADAM)优化器对损失函数进行优化,设置优化器的学习率为3e-4,权重衰减系数为5e-4。在shift模块中特征块个数K为4,patch-shift网络层的数量M为2。
以下是基于划分的测试集数据库对本发明所提算法的实验数据分析,本发明与VGG牛脸识别算法、ResNet-50和LA-Transformer算法分别在COWYCTC-903正常图像测试集的正脸、左脸、右脸和有污染的特殊图像测试集中比较模型性能。
为了验证我们模型的优越性,我们使用ROC和Top1排序比较模型性能,别率通过ROC曲线比较性能,横坐标为误识率(False Acceptance Rate,FAR),纵坐标为拒识率(False Rejection Rate,FRR)。误识率为不同类别的牛脸图像,在1:1匹配时被判定为同类牛脸所占的比例;拒识率为同类牛脸图像,在1:1匹配时被判定为不同类别的牛脸所占的比例。零误识拒识率为误识率等于0时的拒识率。
Top1排序性能通过统计Top1排序成功率比较:选取同类第1张牛脸图像作为模板,类内其余图像作为验证图像。将验证图像与模板和类外图像进行比对,统计模板排序为第一的比例。
我们对测试集3410张数据进行对比。画出四种种模型在COWYCTC-903测试集中的正常图像库和有污染的特殊图像库仿真得到的ROC特性曲线,如图8所示。对于正常图像库的正脸、左侧脸和右侧脸三种姿态的测试集和有污染的特殊图像库中,当FAR为0时,本文提出的牛脸识别算法的FRR最低。和VGG牛脸识别算法相比分别降低7.87%,11.26%,15.21%,18.96%;相较于LA-Transformer分别降低了0.53%,0.7%,0.78%,4.1%。有效提升了牛场环境导致牛脸污染的识别性能。
四种算法在不同姿态数据集上的Top1性能如表1所示。
表1不同算法在不同姿态牛脸数据集上的Top1性能对比单位:%
Figure BDA0003858293640000131
从表1可以看出,对于正脸、左侧脸、右侧脸三种不同姿态的数据集以及有污染的特殊图像库,本发明提出的Vision-Transformer牛脸识别算法有效提高了Top1排序成功率。和VGG牛脸识别算法相比分别提高9.19%,10.77%,13.5%,31.86%;相较于LA-Transformer算法分别提高2.21%,1.15%,1.36%,4.52%。
本发明在复杂牛场环境下由于牛群遮挡、牛脸脏污以及牛的活动状态和姿态多样性等问题引起的牛身份识别困难的难题,提出一种基于Vision-Transformer的牛脸识别算法,充分融合了牛脸图像的局部特征和全局特征之间的信息,相较于目前主流的识别模型有效提高了牛脸在遮挡和脏污场景下的识别率和Top1排序性能。也说明了本发明提出方法的有效性。
上面结合附图对本发明的实例作了详细说明,但是本发明并不限于上述实例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,也应视为本发明的保护范围。

Claims (5)

1.一种复杂牛场环境牛脸识别方法,其特征在于,包括以下步骤:
S1、采集牛脸数据:
在不同的光照条件下和同一拍摄高度下,同时采集正脸、左侧脸、右侧脸三种不同的牛脸姿态的牛脸视频数据,从视频流中截取每头牛的正脸、左侧脸、右侧脸图片数据,并将牛脸图片数据划分为训练集和测试集;
S2、基于Vision-Transformer对复杂牛场环境牛脸进行数据处理
S2-1首先将输入的牛脸图片分为N个大小相同的图像块
Figure FDA0003858293630000011
并使用Vision-Transformer的图像块编码器E将每个图像块编码为维度为D的特征向量
Figure FDA0003858293630000012
S2-2之后在N个特征向量
Figure FDA0003858293630000013
组成的矩阵中,加入可学习的分类向量xcls,所述分类向量xcls用于表示牛脸图像经过编码后的全局特征,
S2-3最后加入包含空间信息的位置编码
Figure FDA0003858293630000014
即可得到编码器的输入序列:
Figure FDA0003858293630000015
S2-4在z0前向传播到第l-1层编码器时将提取的牛脸特征
Figure FDA0003858293630000016
分别输入全局分支和局部信息融合分支,其中,输入全局分支的牛脸特征作为全局分支输入特征,输入局部信息融合分支的牛脸特征作为局部分支输入特征;
S2-5在全局分支将全局分支输入特征输入第l层编码器中提取全局分支特征;
S2-6在局部信息融合分支中,利用patch-shift网络层让牛脸的全局特征和局部分支输入特征进行融合,得到patch-shift网络层信息融合后的特征;
S2-7将patch-shift网络层信息融合后的特征输入第l层编码器得到最终包含特征之间相关性的输出特征S=TransformerLayer(GM);
S2-8最后将全局分支提取的全局分支特征和局部信息融合分支提取的包含特征之间相关性的输出特征输入MLP中进行分类;
S3、使用所述步骤S1中所述的训练集,构建损失函数,对所述步骤S2中基于Vision-Transformer对复杂牛场环境牛脸进行数据处理的方法进行训练,当总损失下降到不大于0.01时结束训练,得到训练好的牛脸数据处理方法;
S4、将步骤S1中所述的测试集中的数据输入训练好的牛脸数据处理方法中,提取牛脸图像特征并进行识别比对。
2.如权利要求1所述的一种复杂牛场环境牛脸识别方法,其特征在于,所述S3中的损失函数包括:三元组损失Ltriplet和交叉熵损失Lsoftmax
3.如权利要求2所述的一种复杂牛场环境牛脸识别方法,其特征在于,所述S2-6中,
所述局部信息融合分支的结构从下到上包括:自适应平均池化层、拼接层、patch-shift网络层、第l层编码器,MLP分类器;
在所述自适应平均池化层、拼接层进行池化和拼接的过程具体包括以下步骤:
首先将第l-1层的编码器输出zl-1使用平均池化将N+1个局部分支输入特征平均分为K份,再将K个均分后的局部分支输入特征和全局特征
Figure FDA0003858293630000021
拼接得到局部信息融合分支的输入特征
Figure FDA0003858293630000022
即:
Figure FDA0003858293630000023
式中,γ为自适应平均池化层,ψ表示拼接池化后的局部分支输入特征和全局特征;
所述patch-shift网络层的结构从下到上包括:shift模块、卷积核大小为1的卷积层Conv;可学习矩阵Mask;激活函数ReLU;所述patch-shift网络层的运行过程包括以下步骤:
将G0输入到M层patch-shift网络层中进行信息融合,第m层patch-shift网络层的输出为
Figure FDA0003858293630000024
Gm=ReLU(Conv(shift(Gm-1))⊙Mask+Gm-1)m=1,…,M
式中,Gm-1为第m-1层patch-shift网络层的输出,第一层patch-shift的输入为G0;shift为本文提出融合特征信息的shift模块;Conv为卷积核大小为1的卷积层;Mask为自适应学习特征相关性的可学习矩阵;ReLU为激活函数。
4.如权利要求3所述的一种复杂牛场环境牛脸识别方法,其特征在于,所述shift模块用于对局部分支输入特征和全局特征进行通道间的信息融合;所述shift模块在融合特征信息时,特征Gm-1第i块特征的第j个通道信息值Gm-1(i,j)等于特征Gm-1第(i+j)%(K+1)块特征的第j个通道的信息值Gm-1((i+j)%(K+1),j)即:
Gm-1(i,j)=Gm-1((i+j)%(K+1),j)i=0,…,K;j=0,…,D-1
其中,Gm-1为第m层patch-shift中shift模块的输入特征为
Figure FDA0003858293630000025
Figure FDA0003858293630000026
为全局特征,
Figure FDA0003858293630000027
为局部分支输入特征。
5.如权利要求1所述的一种复杂牛场环境牛脸识别方法,其特征在于,所述S4中,基于余弦距离进行所述识别比对;
余弦距离计算公式如下:
Figure FDA0003858293630000031
余弦距离越大说明两个牛脸表面特征的相似度越高,反之,则两个由模型提取到的牛脸表面特征的相似度越低;
基于余弦距离进行识别比对的过程包括以下步骤:
将测试集牛脸图像提取到的经过6、4、2等分后组合归一化后的特征进行1:1不同类比对,获得模型比对阈值T;
再将测试集中的图像进行同类比对,当同类提取到的组合特征的比对值大于T时即视为比对成功;反之,则认为比对失败。
CN202211155354.4A 2022-09-22 2022-09-22 一种复杂牛场环境牛脸识别方法 Pending CN115546828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211155354.4A CN115546828A (zh) 2022-09-22 2022-09-22 一种复杂牛场环境牛脸识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211155354.4A CN115546828A (zh) 2022-09-22 2022-09-22 一种复杂牛场环境牛脸识别方法

Publications (1)

Publication Number Publication Date
CN115546828A true CN115546828A (zh) 2022-12-30

Family

ID=84730456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211155354.4A Pending CN115546828A (zh) 2022-09-22 2022-09-22 一种复杂牛场环境牛脸识别方法

Country Status (1)

Country Link
CN (1) CN115546828A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758589A (zh) * 2023-08-17 2023-09-15 吉林大学 一种处理姿态和视角矫正的牛脸识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758589A (zh) * 2023-08-17 2023-09-15 吉林大学 一种处理姿态和视角矫正的牛脸识别方法
CN116758589B (zh) * 2023-08-17 2023-11-03 吉林大学 一种处理姿态和视角矫正的牛脸识别方法

Similar Documents

Publication Publication Date Title
Sabir et al. Recurrent convolutional strategies for face manipulation detection in videos
Li et al. In ictu oculi: Exposing ai generated fake face videos by detecting eye blinking
CN110991281B (zh) 一种动态人脸识别方法
CN112418095B (zh) 一种结合注意力机制的面部表情识别方法及系统
CN110728209B (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN104008370B (zh) 一种视频人脸识别方法
CN111611874B (zh) 基于ResNet和Canny的人脸口罩佩戴检测方法
CN111652827A (zh) 一种基于生成对抗网络的正面人脸合成方法及系统
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN113449660B (zh) 基于自注意增强的时空变分自编码网络的异常事件检测方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
Rehman et al. Deep learning for face anti-spoofing: An end-to-end approach
CN112990052A (zh) 基于人脸修复的部分遮挡人脸识别方法及装置
CN113112416A (zh) 一种语义引导的人脸图像修复方法
CN113158905A (zh) 一种基于注意力机制的行人重识别方法
CN113808031A (zh) 一种基于LSK-FNet模型的图像修复方法
CN115546828A (zh) 一种复杂牛场环境牛脸识别方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN117079354A (zh) 一种基于噪声不一致性的深度伪造检测分类和定位方法
Dastbaravardeh et al. Channel Attention-Based Approach with Autoencoder Network for Human Action Recognition in Low-Resolution Frames
Séguier et al. Multiobjectives genetic snakes: application on audio-visual speech recognition
CN113570564B (zh) 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination