CN112926694A - 基于改进的神经网络对图像中的猪只进行自动识别的方法 - Google Patents

基于改进的神经网络对图像中的猪只进行自动识别的方法 Download PDF

Info

Publication number
CN112926694A
CN112926694A CN202110392693.3A CN202110392693A CN112926694A CN 112926694 A CN112926694 A CN 112926694A CN 202110392693 A CN202110392693 A CN 202110392693A CN 112926694 A CN112926694 A CN 112926694A
Authority
CN
China
Prior art keywords
frame
layer
pig
image
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110392693.3A
Other languages
English (en)
Inventor
郭杰
钟淑琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Original Assignee
YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by YUNFU INTERNET OF THINGS RESEARCH INSTITUTE filed Critical YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Priority to CN202110392693.3A priority Critical patent/CN112926694A/zh
Publication of CN112926694A publication Critical patent/CN112926694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进的神经网络对图像中的猪只进行自动识别的方法,包括:S1、获取猪只图像数据;获取的猪只图像数据包括猪只的初始图像,并对初始图像中的猪只进行标注,得到猪只的标注框;S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练;S3、参数训练完成后,得到一个能够对图像中的猪只进行自动识别的神经网络模型,最终通过该神经网络模型即可对任意输入的图像中的猪只进行自动识别,得到图像中猪只的位置。本发明突破原有技术在精细程度高的任务中不够精准的问题,基于Faster R‑CNN算法提出一种猪只图像识别方法,在增添标注后的已有猪只图像数据集上进行训练和检测识别,并把源Faster R‑CNN的RoIPooling改为MaskR‑CNN的RoIAlign,以提高算法精度。

Description

基于改进的神经网络对图像中的猪只进行自动识别的方法
技术领域
本发明涉及图像的目标检测与识别的技术领域,尤其是指一种基于改进的神经网络对图像中的猪只进行自动识别的方法。
背景技术
图像中的猪只自动识别是智慧畜牧业中一个非常重要的研究方向,畜牧业机械化是现代化畜牧业建设的重要基础,是实现现代化的标志。一个准确有效的猪只图像检测识别方法对高级畜牧业任务起着至关重要的作用。同一养殖场中的猪只与猪只之间的差异比较不明显,且同一猪只的猪与猪之间行为有差异,在不同的时间段表现出的行为不一样,因此图像中的猪只识别可以看作是较高精度图像识别问题,对于图像目标识别,使用的方法正在从传统的机器视觉算法变换到更为准确和鲁棒的神经网络模型,以往的机器视觉算法的设计和训练通常对识别对象的颜色过度依赖,所以对于复杂背景中的目标对象识别的效果不佳,猪只识别方法要求所采用的特征具有较强的表达能力,所采用的分类器具有较好的判别能力,对猪只进行识别有利于养殖场工作人员更好地对猪只进行管理。
目前在目标检测分割和深度学习技术方面,残差网络在保持网络深度所保证的特征提取效果的同时,解决了深度网络由于反向传播的梯度消失导致难以优化训练的难题。YOLO v3单阶段网络在多尺度特征提取的基础上进行的目标对象检测,并且在分类上使用Logistic函数。建立在区域建议网络上设计出的Faster R-CNN模型有特征抽取网络,建议区域提取网络,区域边框回归网络和全连接分类层,Faster R-CNN模型通过双阶段网络架构把这些全都整合在了一起,但是,Faster R-CNN模型的ROIPooling层的每一次量化操作都会对应着轻微的区域特征错位,这些量化操作在图像的感兴趣区域和提取到的特征之间引入了偏差,这些量化可能不会影响对分类任务,但它对预测像素精度掩模有很大的负面影响,这负面影响在猪只识别方面将会被放大。而且传统的基于手工特征的算法及其特征表述能力有限且依赖大量人工标注信息,很难达到很好的效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于改进的神经网络对图像中的猪只进行自动识别的方法,突破原有技术在精细程度高的任务中不够精准的问题,在Faster R-CNN的算法基础上提出一种自适应的猪只图像检测识别方法,在增添标注后的已有猪只图像数据集上进行训练和检测识别。迭代训练的算法主框架使用层数较深的五十层残差网络特征网络,并把Faster R-CNN模型的RoIPooling层改进为Mask R-CNN模型中优化的RoIAlign,以提高算法精度。
为实现上述目的,本发明所提供的技术方案为:基于改进的神经网络对图像中的猪只进行自动识别的方法,包括以下步骤:
S1、获取猪只图像数据;其中,获取的猪只图像数据包括猪只的初始图像,并对初始图像中的猪只进行标注,得到猪只的标注框;
S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练;其中,改进的神经网络包含卷积层、区域建议网络层、池化层和分类层;
S3、参数训练完成后,得到一个能够对图像中的猪只进行自动识别的神经网络模型,最终通过该神经网络模型即可对任意输入的图像中的猪只进行自动识别,即将一张待测图像输入到该神经网络模型中,就会准确识别出图像中猪只的位置。
所述步骤S1包括以下步骤:
S101、获取猪只图像数据的初始图像由人工拍照收集;
S102、使用labelImg这一个数据集格式制作软件对数据集中初始图像的猪只对象进行标注,并将标注以PASCAL VOC的图像标注格式保存;
S103、对数据集进行分割生成供训练使用的训练集部分、供训练期间验证的验证集部分和供训练后测试的测试集部分,用以后续将图像数据输入改进的神经网络进行参数的训练。
在步骤S2中,所述卷积层为五十层的残差网络ResNet50,将初始图像输入ResNet50中,ResNet50作为提取图像特征的主框架将输出初始图像的高维特征图;
所述区域建议网络层为Faster R-CNN模型的区域建议网络RPN,RPN使用一个3*3大小的滑动窗口对ResNet50输出的高维特征图进行从上到下、从左到右的扫描,每一次扫描都会根据高维特征图计算出该次扫描的点在原图中的位置,并在原图中生成9个不同形状的矩形框anchor;RPN将使用两个卷积层作为分支分别用于anchor的分类判断及边框修正,具体如下:
其中一个卷积层作为边框分类层,对每一个anchor生成两个分数,两个分数代表anchor是前景和是背景的概率,将每一个anchor分类为前景和背景;
另外一个卷积层作为区域边框回归层(bounding box regression),对被分类为前景的anchor进行边框修正,对前景anchor产生tx、ty、th、tw这四个偏移量,具体计算如下:
tx=(x-xa)/wa ty=(y-ya)/ha tw=log(w/wa) th=log(h/ha),
Figure BDA0003017364900000031
式中,x为预测框的x坐标、xa为anchor的x坐标、x*为标注框的x坐标,y为预测框的y坐标、ya为anchor的y坐标、y*为标注框的y坐标,w为预测框的宽度、wa为anchor的宽度、w*为标注框的宽度,h为预测框的高度、ha为anchor的高度、h*为标注框的高度,以决定调整后的anchor位置;
调整后的anchor即为RPN生成的候选框(proposal);在RPN上,候选框的正标签有两种不一样的选取流程:①当候选框与标注框有最高交并比的时候,为正标签;②当候选框与标注框的交并比高于0.7的时候,为正标签;根据以上流程,每个标注框很多时候都会使得多个候选框是正样本;在大多数情况下,正样本由第二个流程能够选取出来,当第二个流程无法得到正样本的候选框的时候,为了保证每个标注框都至少有对应的一个候选框正样本,这时采用第一个流程产生正样本矩形框;当正样本选取完毕后,在剩下的候选框中选取与全部标注框的交并比都低于0.3的那些候选框为负样本;上述工作完成后,剩下的是没有正负样本标签的候选框;
所以,当初始图像的高维特征图输入进RPN时,RPN将在初始图像上生成候选框;
所述池化层为Mask R-CNN模型提出的池化层RoIAlign;由于在对图像的大小尺度处理上Faster R-CNN模型的RoIPooling层首先要将精确矩形框坐标的浮点数量化为整数,然后将量化后的精确矩形框分为量化的空间单元;量化操作通过不断计算[x/s]来调整坐标x,其中[]代表取整,s为特征图的步长,空间单元的量化也相似;因此,RoIPooling层对精确矩形框的两次量化使得原精确矩形框与提取出来的特征存在大的误差;为了避免RoIPooling层对分割精确性的影响,将原来Faster R-CNN模型的RoIPooling层改进为MaskR-CNN模型的池化层RoIAlign,该RoIAlign将去除RoIPooling层的硬量化,更加注重输入与提取出的特征间的像素对齐;为了避免精确矩形框边界因为单元的量化导致的误差,RoIAlign在精确矩形框的浮点数坐标在量化操作上并不需要转换为整数,每个精确矩形框单元中所占有的特征的准确位置使用双线性插值来进行计算,最后计算均值和最大值以得到最终结果;
RoIAlign的输入是初始图像的高维特征图和包含候选框的初始图像,RoIAlign将调整固定初始图像上候选框的大小,并将其映射到初始图像的高维特征图,形成候选框特征图并输出;
所述分类层为Faster R-CNN模型的分类层(classifier),分类层包含全连接层和区域边框回归层;将候选框特征图输入该分类层,分类层中的全连接层将使用softmax计算并判断候选框是否为猪只,分类层中的区域边框回归层对候选框进行边框修正操作,最终输出更加精确的目标检测框;
将分类层输出的目标检测框与初始图像的标注框进行结合计算误差函数,然后通过优化算法反向梯度传播修改各层参数训练神经网络,其中区域建议网络的损失函数及分类层的全连接层和区域边框回归层的损失函数分别为:
区域建议网络的损失函数:
Figure BDA0003017364900000051
其中,L({pi},{ti})表示区域建议网络的损失函数,Ncls表示初始图像上被用于训练矩形框的数量,i是在初始图像上矩形框的索引,pi则是该矩形框为前景的预测几率,
Figure BDA0003017364900000052
是标注的猪只边界框的概率,如果矩形框是正样本,
Figure BDA0003017364900000053
是1,否则是0,Nreg表示矩形框位置的个数,ti是一个修正矩形框的四维向量,而
Figure BDA0003017364900000054
是将正样本矩形框修正为标注的猪只边界框的真值,分类的误差函数Lcls是包括前景和背景两个类别的对数误差,且
Figure BDA0003017364900000055
而回归误差函数是
Figure BDA0003017364900000056
R定义为
Figure BDA0003017364900000057
Figure BDA0003017364900000058
表明回归误差只有当矩形框为正样本时才有效,否则为0,而λ为两种误差的平衡权重,用以优化训练;
分类层的全连接层和区域边框回归层的损失函数:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
式中,L(p,u,tu,v)表示分类层的全连接层和区域边框回归层的损失函数,p为感兴趣区域预测为猪只的概率,u为猪只类别标签,tu为预测的回归修正值,v为真实的回归修正值;
Figure BDA0003017364900000061
即负样本不参与训练;Lcls为对数误差函数,即LCLS(p,u)=-logpu,Lloc仍然是smoothL1函数,smoothL1函数定义为
Figure BDA0003017364900000062
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明对拍摄的猪只图片进行增添标注和数据增强工作,提升了识别方法鲁棒性。
2、本发明用于提取特征的卷积层除了颜色特征外,还可以学习大量目标轮廓、纹理的具体特征,提升了识别的正确率。
3、本发明使用区域建议网络对猪只图片进行识别并生成精确的候选框,提高了识别的效率。
4、本发明在Faster R-CNN模型的基础上将RoIPooling层替换成Mask R-CNN模型的池化层(RoIAlign),避免了RoI Pooling层对分割精确性的影响。
附图说明
图1为本发明使用的神经网络架构图。
图2为神经网络的逻辑流程示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例公开了一种基于改进的神经网络对图像中的猪只进行自动识别的方法,可以训练出一个对输入图像中的猪只进行自动识别的神经网络模型,见图1和图2所示,训练完成的神经网络模型可对图像中的猪只进行自动识别,其包括以下步骤:
S1、获取猪只图像数据;其中,获取的猪只图像数据包括猪只的初始图像,并对初始图像中的猪只进行标注,得到猪只的标注框;具体步骤如下:
S101、获取猪只图像数据的初始图像由人工拍照收集。
S102、使用labelImg这一个数据集格式制作软件对数据集中初始图像的猪只对象进行标注,并将标注以PASCAL VOC的图像标注格式保存。
S103、对数据集进行分割生成供训练使用的训练集部分、供训练期间验证的验证集部分、供训练后测试的测试集部分,用以后续将图像数据输入改进的神经网络进行参数的训练。
S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练;其中,改进的神经网络包含卷积层、区域建议网络层、池化层和分类层,具有情况如下:
所述卷积层为五十层的残差网络(ResNet50),将初始图像输入ResNet50中,ResNet50作为提取图像特征的主框架将输出初始图像的高维特征图。
所述区域建议网络层为Faster R-CNN模型的区域建议网络(Region ProposalNetwork,RPN),RPN使用一个3*3大小的滑动窗口对ResNet50输出的高维特征图进行从上到下,从左到右的扫描,每一次扫描都会根据高维特征图计算出该次扫描的点在原图中的位置,并在原图中生成9个不同形状的矩形框(anchor);RPN将使用两个卷积层作为分支分别用于anchor的分类判断及边框修正,具体如下:
其中一个卷积层作为边框分类层,对每一个anchor生成两个分数,两个分数代表anchor是前景和是背景的概率。将每一个anchor分类为前景和背景。
另外一个卷积层作为区域边框回归层(bounding box regression),对被分类为前景的anchor进行边框修正,对前景anchor产生tx、ty、th、tw这四个偏移量,具体计算如下:
tx=(x-xa)/wa ty=(y-ya)/ha tw=log(w/wa) th=log(h/ha),
Figure BDA0003017364900000081
式中,x为预测框的x坐标、xa为anchor的x坐标、x*为标注框的x坐标,y为预测框的y坐标、ya为anchor的y坐标、y*为标注框的y坐标,w为预测框的宽度、wa为anchor的宽度、w*为标注框的宽度,h为预测框的高度、ha为anchor的高度、h*为标注框的高度,以决定调整后的anchor位置。
调整后的anchor即为RPN生成的候选框(proposal)。在RPN上,候选框的正标签有两种不一样的选取流程:①当该候选框与标注框有最高交并比的时候,为正标签;②当候选框与标注框的交并比高于0.7的时候,为正标签。根据以上流程,每个标注框多数时候都会使得多个候选框是正样本。在大多数情况下,正样本由第二个流程可以选取出来,当第二个流程无法得到正样本的候选框的时候,为了保证每个标注框都至少有对应的一个候选框正样本,这时采用第一个流程产生正样本矩形框。当正样本选取完毕后,在剩下的候选框中选取与全部标注框的交并比都低于0.3的那些候选框为负样本。上述工作完成后,剩下的是没有正负样本标签的候选框。
所以,当初始图像的高维特征图输入进RPN时,RPN将在初始图像上生成候选框。
所述池化层为Mask R-CNN模型提出的池化层(RoIAlign)。由于在对图像的大小尺度处理上Faster R-CNN模型的RoIPooling层首先要将精确矩形框坐标的浮点数量化为整数,然后将量化后的精确矩形框分为量化的空间单元。量化操作通过不断计算[x/s]来调整坐标x,其中[]代表取整,s为特征图的步长,空间单元的量化也相似。因此RoIPooling层对精确矩形框的两次量化使得原精确矩形框与提取出来的特征存在较大的误差。为了避免RoIPooling层对分割精确性的影响,将原来Faster R-CNN模型的RoIPooling层改进为MaskR-CNN模型的池化层(RoIAlign)。RoIAlign将去除RoIPooling层的硬量化,更加注重输入与提取出的特征间的像素对齐。为了避免精确矩形框边界因为单元的量化导致的误差,RoIAlign在精确矩形框的浮点数坐标在量化操作上并不需要转换为整数,每个精确矩形框单元中所占有的特征的准确位置使用双线性插值来进行计算,最后计算均值和最大值以得到最终结果。
RoIAlign的输入是初始图像的高维特征图和包含候选框的初始图像,RoIAlign将调整固定初始图像上候选框的大小并将其映射到初始图像的高维特征图,形成候选框特征图并输出。
所述分类层为Faster R-CNN模型的分类层(classifier),分类层包含全连接层和区域边框回归层。将候选框特征图输入该改进的神经网络的分类层,分类层中的全连接层将使用softmax计算并判断候选框是否为猪只,分类层中的区域边框回归层对候选框进行边框修正操作,最终输出更加精确的目标检测框。
将该改进的神经网络的分类层输出的目标检测框与初始图像的标注框进行结合计算误差函数,然后通过优化算法反向梯度传播修改各层参数训练神经网络,其中区域建议网络的损失函数及分类层的全连接层和区域边框回归层的损失函数分别为:
区域建议网络损失函数:
Figure BDA0003017364900000101
其中,L({pi},{ti})表示区域建议网络的损失函数,Ncls表示初始图像上被用于训练矩形框的数量,i是在初始图像上矩形框的索引,pi则是该矩形框为前景的预测几率。
Figure BDA0003017364900000102
是标注的猪只边界框的概率,如果矩形框是正样本,
Figure BDA0003017364900000103
是1,否则是0。Nreg表示矩形框位置的个数,ti是一个修正矩形框的四维向量,而
Figure BDA0003017364900000104
是将正样本矩形框修正为标注的猪只边界框的真值。分类的误差函数Lcls是包括前景和背景两个类别的对数误差,且
Figure BDA0003017364900000105
而回归误差函数是
Figure BDA0003017364900000106
R定义为
Figure BDA0003017364900000107
Figure BDA0003017364900000108
表明回归误差只有当矩形框为正样本时才有效,否则为0,而λ为两种误差的平衡权重,用以优化训练。
分类层的全连接层和区域边框回归层的损失函数:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
式中,L(p,u,tu,v)表示分类层的全连接层和区域边框回归层的损失函数,p为感兴趣区域预测为猪只的概率,u为猪只类别标签,tu为预测的回归修正值,v为真实的回归修正值。
Figure BDA0003017364900000109
即负样本不参与训练。Lcls为对数误差函数,即LCLS(p,u)=-logpu,Lloc仍然是smoothL1函数,smoothL1函数定义为
Figure BDA00030173649000001010
S3、参数训练完成后,得到一个能够对图像中的猪只进行自动识别的神经网络模型,最终通过该神经网络模型即可对任意输入的图像中的猪只进行自动识别,即将一张待测图像输入到该神经网络模型中,就会准确识别出图像中猪只的位置。
该改进的神经网络经过卷积层、区域建议网络层、池化层、分类层以及各层之间连接的精密设计并且使用海量的图像数据集进行训练,比传统的机器视觉的智能算法有更高的鲁棒性和正确率。
综上所述,本发明突破原有技术在精细程度高的任务中不够精准的问题,基于Faster R-CNN算法提出一种猪只图像识别方法,在增添标注后的已有猪只图像数据集上进行训练和检测识别,并把源Faster R-CNN的RoIPooling方法改为Mask R-CNN中提出的RoIAlign,以提高算法精度,实现对图像中的猪只更为准确的识别,具有实际应用价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.基于改进的神经网络对图像中的猪只进行自动识别的方法,其特征在于,包括以下步骤:
S1、获取猪只图像数据;其中,获取的猪只图像数据包括猪只的初始图像,并对初始图像中的猪只进行标注,得到猪只的标注框;
S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练;其中,改进的神经网络包含卷积层、区域建议网络层、池化层和分类层;
S3、参数训练完成后,得到一个能够对图像中的猪只进行自动识别的神经网络模型,最终通过该神经网络模型即可对任意输入的图像中的猪只进行自动识别,即将一张待测图像输入到该神经网络模型中,就会准确识别出图像中猪只的位置。
2.根据权利要求1所述的基于改进的神经网络对图像中的猪只进行自动识别的方法,其特征在于,所述步骤S1包括以下步骤:
S101、获取猪只图像数据的初始图像由人工拍照收集;
S102、使用labelImg这一个数据集格式制作软件对数据集中初始图像的猪只对象进行标注,并将标注以PASCAL VOC的图像标注格式保存;
S103、对数据集进行分割生成供训练使用的训练集部分、供训练期间验证的验证集部分和供训练后测试的测试集部分,用以后续将图像数据输入改进的神经网络进行参数的训练。
3.根据权利要求1所述的基于改进的神经网络对图像中的猪只进行自动识别的方法,其特征在于,在步骤S2中,所述卷积层为五十层的残差网络ResNet50,将初始图像输入ResNet50中,ResNet50作为提取图像特征的主框架将输出初始图像的高维特征图;
所述区域建议网络层为Faster R-CNN模型的区域建议网络RPN,RPN使用一个3*3大小的滑动窗口对ResNet50输出的高维特征图进行从上到下、从左到右的扫描,每一次扫描都会根据高维特征图计算出该次扫描的点在原图中的位置,并在原图中生成9个不同形状的矩形框anchor;RPN将使用两个卷积层作为分支分别用于anchor的分类判断及边框修正,具体如下:
其中一个卷积层作为边框分类层,对每一个anchor生成两个分数,两个分数代表anchor是前景和是背景的概率,将每一个anchor分类为前景和背景;
另外一个卷积层作为区域边框回归层,对被分类为前景的anchor进行边框修正,对前景anchor产生tx、ty、th、tw这四个偏移量,具体计算如下:
tx=(x-xa)/wa ty=(y-ya)/ha tw=log(w/wa) th=log(h/ha),
Figure FDA0003017364890000021
式中,x为预测框的x坐标、xa为anchor的x坐标、x*为标注框的x坐标,y为预测框的y坐标、ya为anchor的y坐标、y*为标注框的y坐标,w为预测框的宽度、wa为anchor的宽度、w*为标注框的宽度,h为预测框的高度、ha为anchor的高度、h*为标注框的高度,以决定调整后的anchor位置;
调整后的anchor即为RPN生成的候选框proposal;在RPN上,候选框的正标签有两种不一样的选取流程:①当候选框与标注框有最高交并比的时候,为正标签;②当候选框与标注框的交并比高于0.7的时候,为正标签;根据以上流程,每个标注框很多时候都会使得多个候选框是正样本;在大多数情况下,正样本由第二个流程能够选取出来,当第二个流程无法得到正样本的候选框的时候,为了保证每个标注框都至少有对应的一个候选框正样本,这时采用第一个流程产生正样本矩形框;当正样本选取完毕后,在剩下的候选框中选取与全部标注框的交并比都低于0.3的那些候选框为负样本;上述工作完成后,剩下的是没有正负样本标签的候选框;
所以,当初始图像的高维特征图输入进RPN时,RPN将在初始图像上生成候选框;
所述池化层为Mask R-CNN模型提出的池化层RoIAlign;由于在对图像的大小尺度处理上Faster R-CNN模型的RoIPooling层首先要将精确矩形框坐标的浮点数量化为整数,然后将量化后的精确矩形框分为量化的空间单元;量化操作通过不断计算[x/s]来调整坐标x,其中[]代表取整,s为特征图的步长,空间单元的量化也相似;因此,RoIPooling层对精确矩形框的两次量化使得原精确矩形框与提取出来的特征存在大的误差;为了避免RoIPooling层对分割精确性的影响,将原来Faster R-CNN模型的RoIPooling层改进为MaskR-CNN模型的池化层RoIAlign,该RoIAlign将去除RoIPooling层的硬量化,更加注重输入与提取出的特征间的像素对齐;为了避免精确矩形框边界因为单元的量化导致的误差,RoIAlign在精确矩形框的浮点数坐标在量化操作上并不需要转换为整数,每个精确矩形框单元中所占有的特征的准确位置使用双线性插值来进行计算,最后计算均值和最大值以得到最终结果;
RoIAlign的输入是初始图像的高维特征图和包含候选框的初始图像,RoIAlign将调整固定初始图像上候选框的大小,并将其映射到初始图像的高维特征图,形成候选框特征图并输出;
所述分类层为Faster R-CNN模型的分类层classifier,分类层包含全连接层和区域边框回归层;将候选框特征图输入该分类层,分类层中的全连接层将使用softmax计算并判断候选框是否为猪只,分类层中的区域边框回归层对候选框进行边框修正操作,最终输出更加精确的目标检测框;
将分类层输出的目标检测框与初始图像的标注框进行结合计算误差函数,然后通过优化算法反向梯度传播修改各层参数训练神经网络,其中区域建议网络的损失函数及分类层的全连接层和区域边框回归层的损失函数分别为:
区域建议网络的损失函数:
Figure FDA0003017364890000041
其中,L({pi},{ti})表示区域建议网络的损失函数,Ncls表示初始图像上被用于训练矩形框的数量,i是在初始图像上矩形框的索引,pi则是该矩形框为前景的预测几率,
Figure FDA0003017364890000042
是标注的猪只边界框的概率,如果矩形框是正样本,
Figure FDA0003017364890000043
是1,否则是0,Nreg表示矩形框位置的个数,ti是一个修正矩形框的四维向量,而
Figure FDA0003017364890000044
是将正样本矩形框修正为标注的猪只边界框的真值,分类的误差函数Lcls是包括前景和背景两个类别的对数误差,且
Figure FDA0003017364890000045
而回归误差函数是
Figure FDA0003017364890000046
R定义为
Figure FDA0003017364890000047
Figure FDA0003017364890000048
表明回归误差只有当矩形框为正样本时才有效,否则为0,而λ为两种误差的平衡权重,用以优化训练;
分类层的全连接层和区域边框回归层的损失函数:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)
式中,L(p,u,tu,v)表示分类层的全连接层和区域边框回归层的损失函数,p为感兴趣区域预测为猪只的概率,u为猪只类别标签,tu为预测的回归修正值,v为真实的回归修正值;
Figure FDA0003017364890000049
即负样本不参与训练;Lcls为对数误差函数,即LCLS(p,u)=-logpu,Lloc仍然是smoothL1函数,smoothL1函数定义为
Figure FDA00030173648900000410
CN202110392693.3A 2021-04-13 2021-04-13 基于改进的神经网络对图像中的猪只进行自动识别的方法 Pending CN112926694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110392693.3A CN112926694A (zh) 2021-04-13 2021-04-13 基于改进的神经网络对图像中的猪只进行自动识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110392693.3A CN112926694A (zh) 2021-04-13 2021-04-13 基于改进的神经网络对图像中的猪只进行自动识别的方法

Publications (1)

Publication Number Publication Date
CN112926694A true CN112926694A (zh) 2021-06-08

Family

ID=76174196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110392693.3A Pending CN112926694A (zh) 2021-04-13 2021-04-13 基于改进的神经网络对图像中的猪只进行自动识别的方法

Country Status (1)

Country Link
CN (1) CN112926694A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516201A (zh) * 2021-08-09 2021-10-19 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN114742822A (zh) * 2022-05-20 2022-07-12 青岛农业大学 一种草莓识别计数模型的搭建方法及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509085A (zh) * 2011-11-19 2012-06-20 江苏大学 基于轮廓不变矩特征的猪行走姿态识别系统和方法
CN111178197A (zh) * 2019-12-19 2020-05-19 华南农业大学 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509085A (zh) * 2011-11-19 2012-06-20 江苏大学 基于轮廓不变矩特征的猪行走姿态识别系统和方法
CN111178197A (zh) * 2019-12-19 2020-05-19 华南农业大学 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAIBUBBLE: "《深度学习目标检测(object detection)系列(四) Faster R-CNN》", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1434826》 *
刘虹: "《基于深度学习的Mask-RCNN应用于猪只识别的研究》", 《中国优秀博硕士学位论文全文数据库(硕士)农业科技辑(月刊)2021年第03期》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516201A (zh) * 2021-08-09 2021-10-19 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN113516201B (zh) * 2021-08-09 2023-10-31 中国农业大学 一种基于深度神经网络的肉兔料盒中余料量的估算方法
CN114742822A (zh) * 2022-05-20 2022-07-12 青岛农业大学 一种草莓识别计数模型的搭建方法及应用

Similar Documents

Publication Publication Date Title
CN111223088B (zh) 一种基于深层卷积神经网络的铸件表面缺陷识别方法
CN108960245B (zh) 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN113160192B (zh) 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置
CN108918536B (zh) 轮胎模具表面字符缺陷检测方法、装置、设备及存储介质
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111862119A (zh) 基于Mask-RCNN的语义信息提取方法
CN109840483B (zh) 一种滑坡裂缝检测与识别的方法及装置
CN108921120B (zh) 一种适应广泛零售场景下的香烟识别方法
CN112085024A (zh) 一种罐表面字符识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110929795B (zh) 高速焊线机焊点快速识别与定位方法
CN110032952B (zh) 一种基于深度学习的道路边界点检测方法
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN110781882A (zh) 一种基于yolo模型的车牌定位和识别方法
CN112365497A (zh) 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN112926694A (zh) 基于改进的神经网络对图像中的猪只进行自动识别的方法
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
CN112508857A (zh) 基于改进型Cascade R-CNN的铝材表面缺陷检测方法
CN116740758A (zh) 一种防止误判的鸟类图像识别方法及系统
CN112686872B (zh) 基于深度学习的木材计数方法
CN110889418A (zh) 一种气体轮廓识别方法
CN114723601B (zh) 一种虚拟场景下的模型结构化建模及快速渲染方法
CN115410184A (zh) 一种基于深度神经网络的目标检测车牌识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608

RJ01 Rejection of invention patent application after publication