CN112926694A

CN112926694A - 基于改进的神经网络对图像中的猪只进行自动识别的方法

Info

Publication number: CN112926694A
Application number: CN202110392693.3A
Authority: CN
Inventors: 郭杰; 钟淑琴
Original assignee: YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Current assignee: YUNFU INTERNET OF THINGS RESEARCH INSTITUTE
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-06-08

Abstract

本发明公开了一种基于改进的神经网络对图像中的猪只进行自动识别的方法，包括：S1、获取猪只图像数据；获取的猪只图像数据包括猪只的初始图像，并对初始图像中的猪只进行标注，得到猪只的标注框；S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练；S3、参数训练完成后，得到一个能够对图像中的猪只进行自动识别的神经网络模型，最终通过该神经网络模型即可对任意输入的图像中的猪只进行自动识别，得到图像中猪只的位置。本发明突破原有技术在精细程度高的任务中不够精准的问题，基于Faster R‑CNN算法提出一种猪只图像识别方法，在增添标注后的已有猪只图像数据集上进行训练和检测识别，并把源Faster R‑CNN的RoIPooling改为MaskR‑CNN的RoIAlign，以提高算法精度。

Description

基于改进的神经网络对图像中的猪只进行自动识别的方法

技术领域

本发明涉及图像的目标检测与识别的技术领域，尤其是指一种基于改进的神经网络对图像中的猪只进行自动识别的方法。

背景技术

图像中的猪只自动识别是智慧畜牧业中一个非常重要的研究方向，畜牧业机械化是现代化畜牧业建设的重要基础，是实现现代化的标志。一个准确有效的猪只图像检测识别方法对高级畜牧业任务起着至关重要的作用。同一养殖场中的猪只与猪只之间的差异比较不明显，且同一猪只的猪与猪之间行为有差异，在不同的时间段表现出的行为不一样，因此图像中的猪只识别可以看作是较高精度图像识别问题，对于图像目标识别，使用的方法正在从传统的机器视觉算法变换到更为准确和鲁棒的神经网络模型，以往的机器视觉算法的设计和训练通常对识别对象的颜色过度依赖，所以对于复杂背景中的目标对象识别的效果不佳，猪只识别方法要求所采用的特征具有较强的表达能力，所采用的分类器具有较好的判别能力，对猪只进行识别有利于养殖场工作人员更好地对猪只进行管理。

目前在目标检测分割和深度学习技术方面，残差网络在保持网络深度所保证的特征提取效果的同时,解决了深度网络由于反向传播的梯度消失导致难以优化训练的难题。YOLO v3单阶段网络在多尺度特征提取的基础上进行的目标对象检测，并且在分类上使用Logistic函数。建立在区域建议网络上设计出的Faster R-CNN模型有特征抽取网络，建议区域提取网络，区域边框回归网络和全连接分类层，Faster R-CNN模型通过双阶段网络架构把这些全都整合在了一起，但是，Faster R-CNN模型的ROIPooling层的每一次量化操作都会对应着轻微的区域特征错位，这些量化操作在图像的感兴趣区域和提取到的特征之间引入了偏差，这些量化可能不会影响对分类任务，但它对预测像素精度掩模有很大的负面影响，这负面影响在猪只识别方面将会被放大。而且传统的基于手工特征的算法及其特征表述能力有限且依赖大量人工标注信息，很难达到很好的效果。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于改进的神经网络对图像中的猪只进行自动识别的方法，突破原有技术在精细程度高的任务中不够精准的问题，在Faster R-CNN的算法基础上提出一种自适应的猪只图像检测识别方法，在增添标注后的已有猪只图像数据集上进行训练和检测识别。迭代训练的算法主框架使用层数较深的五十层残差网络特征网络，并把Faster R-CNN模型的RoIPooling层改进为Mask R-CNN模型中优化的RoIAlign，以提高算法精度。

为实现上述目的，本发明所提供的技术方案为：基于改进的神经网络对图像中的猪只进行自动识别的方法，包括以下步骤：

S1、获取猪只图像数据；其中，获取的猪只图像数据包括猪只的初始图像，并对初始图像中的猪只进行标注，得到猪只的标注框；

S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练；其中，改进的神经网络包含卷积层、区域建议网络层、池化层和分类层；

S3、参数训练完成后，得到一个能够对图像中的猪只进行自动识别的神经网络模型，最终通过该神经网络模型即可对任意输入的图像中的猪只进行自动识别，即将一张待测图像输入到该神经网络模型中，就会准确识别出图像中猪只的位置。

所述步骤S1包括以下步骤：

S101、获取猪只图像数据的初始图像由人工拍照收集；

S102、使用labelImg这一个数据集格式制作软件对数据集中初始图像的猪只对象进行标注，并将标注以PASCAL VOC的图像标注格式保存；

S103、对数据集进行分割生成供训练使用的训练集部分、供训练期间验证的验证集部分和供训练后测试的测试集部分，用以后续将图像数据输入改进的神经网络进行参数的训练。

在步骤S2中，所述卷积层为五十层的残差网络ResNet50，将初始图像输入ResNet50中，ResNet50作为提取图像特征的主框架将输出初始图像的高维特征图；

所述区域建议网络层为Faster R-CNN模型的区域建议网络RPN，RPN使用一个3*3大小的滑动窗口对ResNet50输出的高维特征图进行从上到下、从左到右的扫描，每一次扫描都会根据高维特征图计算出该次扫描的点在原图中的位置，并在原图中生成9个不同形状的矩形框anchor；RPN将使用两个卷积层作为分支分别用于anchor的分类判断及边框修正，具体如下：

其中一个卷积层作为边框分类层，对每一个anchor生成两个分数，两个分数代表anchor是前景和是背景的概率，将每一个anchor分类为前景和背景；

另外一个卷积层作为区域边框回归层(bounding box regression)，对被分类为前景的anchor进行边框修正，对前景anchor产生t_x、t_y、t_h、t_w这四个偏移量，具体计算如下：

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a t_w＝log(w/w_a) t_h＝log(h/h_a),

式中，x为预测框的x坐标、x_a为anchor的x坐标、x^*为标注框的x坐标，y为预测框的y坐标、y_a为anchor的y坐标、y^*为标注框的y坐标，w为预测框的宽度、w_a为anchor的宽度、w^*为标注框的宽度，h为预测框的高度、h_a为anchor的高度、h^*为标注框的高度，以决定调整后的anchor位置；

调整后的anchor即为RPN生成的候选框(proposal)；在RPN上，候选框的正标签有两种不一样的选取流程：①当候选框与标注框有最高交并比的时候，为正标签；②当候选框与标注框的交并比高于0.7的时候，为正标签；根据以上流程，每个标注框很多时候都会使得多个候选框是正样本；在大多数情况下，正样本由第二个流程能够选取出来，当第二个流程无法得到正样本的候选框的时候，为了保证每个标注框都至少有对应的一个候选框正样本，这时采用第一个流程产生正样本矩形框；当正样本选取完毕后，在剩下的候选框中选取与全部标注框的交并比都低于0.3的那些候选框为负样本；上述工作完成后，剩下的是没有正负样本标签的候选框；

所以，当初始图像的高维特征图输入进RPN时，RPN将在初始图像上生成候选框；

所述池化层为Mask R-CNN模型提出的池化层RoIAlign；由于在对图像的大小尺度处理上Faster R-CNN模型的RoIPooling层首先要将精确矩形框坐标的浮点数量化为整数，然后将量化后的精确矩形框分为量化的空间单元；量化操作通过不断计算[x/s]来调整坐标x，其中[]代表取整，s为特征图的步长，空间单元的量化也相似；因此，RoIPooling层对精确矩形框的两次量化使得原精确矩形框与提取出来的特征存在大的误差；为了避免RoIPooling层对分割精确性的影响，将原来Faster R-CNN模型的RoIPooling层改进为MaskR-CNN模型的池化层RoIAlign，该RoIAlign将去除RoIPooling层的硬量化，更加注重输入与提取出的特征间的像素对齐；为了避免精确矩形框边界因为单元的量化导致的误差，RoIAlign在精确矩形框的浮点数坐标在量化操作上并不需要转换为整数，每个精确矩形框单元中所占有的特征的准确位置使用双线性插值来进行计算，最后计算均值和最大值以得到最终结果；

RoIAlign的输入是初始图像的高维特征图和包含候选框的初始图像，RoIAlign将调整固定初始图像上候选框的大小，并将其映射到初始图像的高维特征图，形成候选框特征图并输出；

所述分类层为Faster R-CNN模型的分类层(classifier)，分类层包含全连接层和区域边框回归层；将候选框特征图输入该分类层，分类层中的全连接层将使用softmax计算并判断候选框是否为猪只，分类层中的区域边框回归层对候选框进行边框修正操作，最终输出更加精确的目标检测框；

将分类层输出的目标检测框与初始图像的标注框进行结合计算误差函数，然后通过优化算法反向梯度传播修改各层参数训练神经网络，其中区域建议网络的损失函数及分类层的全连接层和区域边框回归层的损失函数分别为：

区域建议网络的损失函数：

其中，L({p_i},{t_i})表示区域建议网络的损失函数，N_cls表示初始图像上被用于训练矩形框的数量，i是在初始图像上矩形框的索引，p_i则是该矩形框为前景的预测几率，

是标注的猪只边界框的概率，如果矩形框是正样本，

是1，否则是0，N_reg表示矩形框位置的个数，t_i是一个修正矩形框的四维向量，而

是将正样本矩形框修正为标注的猪只边界框的真值，分类的误差函数L_cls是包括前景和背景两个类别的对数误差，且

而回归误差函数是

R定义为

表明回归误差只有当矩形框为正样本时才有效，否则为0，而λ为两种误差的平衡权重，用以优化训练；

分类层的全连接层和区域边框回归层的损失函数：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)

式中，L(p,u,t^u,v)表示分类层的全连接层和区域边框回归层的损失函数，p为感兴趣区域预测为猪只的概率，u为猪只类别标签，t^u为预测的回归修正值，v为真实的回归修正值；

即负样本不参与训练；L_cls为对数误差函数，即L_CLS(p,u)＝-logp_u，L_loc仍然是smooth_L1函数，smooth_L1函数定义为

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明对拍摄的猪只图片进行增添标注和数据增强工作，提升了识别方法鲁棒性。

2、本发明用于提取特征的卷积层除了颜色特征外，还可以学习大量目标轮廓、纹理的具体特征，提升了识别的正确率。

3、本发明使用区域建议网络对猪只图片进行识别并生成精确的候选框，提高了识别的效率。

4、本发明在Faster R-CNN模型的基础上将RoIPooling层替换成Mask R-CNN模型的池化层(RoIAlign)，避免了RoI Pooling层对分割精确性的影响。

附图说明

图1为本发明使用的神经网络架构图。

图2为神经网络的逻辑流程示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例公开了一种基于改进的神经网络对图像中的猪只进行自动识别的方法，可以训练出一个对输入图像中的猪只进行自动识别的神经网络模型，见图1和图2所示，训练完成的神经网络模型可对图像中的猪只进行自动识别，其包括以下步骤：

S1、获取猪只图像数据；其中，获取的猪只图像数据包括猪只的初始图像，并对初始图像中的猪只进行标注，得到猪只的标注框；具体步骤如下：

S101、获取猪只图像数据的初始图像由人工拍照收集。

S102、使用labelImg这一个数据集格式制作软件对数据集中初始图像的猪只对象进行标注，并将标注以PASCAL VOC的图像标注格式保存。

S103、对数据集进行分割生成供训练使用的训练集部分、供训练期间验证的验证集部分、供训练后测试的测试集部分，用以后续将图像数据输入改进的神经网络进行参数的训练。

S2、将进行标注后的猪只图像输入到改进的神经网络中进行神经网络的参数训练；其中，改进的神经网络包含卷积层、区域建议网络层、池化层和分类层，具有情况如下：

所述卷积层为五十层的残差网络(ResNet50)，将初始图像输入ResNet50中，ResNet50作为提取图像特征的主框架将输出初始图像的高维特征图。

所述区域建议网络层为Faster R-CNN模型的区域建议网络(Region ProposalNetwork,RPN)，RPN使用一个3*3大小的滑动窗口对ResNet50输出的高维特征图进行从上到下，从左到右的扫描，每一次扫描都会根据高维特征图计算出该次扫描的点在原图中的位置，并在原图中生成9个不同形状的矩形框(anchor)；RPN将使用两个卷积层作为分支分别用于anchor的分类判断及边框修正，具体如下：

其中一个卷积层作为边框分类层，对每一个anchor生成两个分数，两个分数代表anchor是前景和是背景的概率。将每一个anchor分类为前景和背景。

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a t_w＝log(w/w_a) t_h＝log(h/h_a),

式中，x为预测框的x坐标、x_a为anchor的x坐标、x^*为标注框的x坐标，y为预测框的y坐标、y_a为anchor的y坐标、y^*为标注框的y坐标，w为预测框的宽度、w_a为anchor的宽度、w^*为标注框的宽度，h为预测框的高度、h_a为anchor的高度、h^*为标注框的高度，以决定调整后的anchor位置。

调整后的anchor即为RPN生成的候选框(proposal)。在RPN上，候选框的正标签有两种不一样的选取流程：①当该候选框与标注框有最高交并比的时候，为正标签；②当候选框与标注框的交并比高于0.7的时候，为正标签。根据以上流程，每个标注框多数时候都会使得多个候选框是正样本。在大多数情况下，正样本由第二个流程可以选取出来，当第二个流程无法得到正样本的候选框的时候，为了保证每个标注框都至少有对应的一个候选框正样本，这时采用第一个流程产生正样本矩形框。当正样本选取完毕后，在剩下的候选框中选取与全部标注框的交并比都低于0.3的那些候选框为负样本。上述工作完成后，剩下的是没有正负样本标签的候选框。

所以，当初始图像的高维特征图输入进RPN时，RPN将在初始图像上生成候选框。

所述池化层为Mask R-CNN模型提出的池化层(RoIAlign)。由于在对图像的大小尺度处理上Faster R-CNN模型的RoIPooling层首先要将精确矩形框坐标的浮点数量化为整数，然后将量化后的精确矩形框分为量化的空间单元。量化操作通过不断计算[x/s]来调整坐标x，其中[]代表取整，s为特征图的步长，空间单元的量化也相似。因此RoIPooling层对精确矩形框的两次量化使得原精确矩形框与提取出来的特征存在较大的误差。为了避免RoIPooling层对分割精确性的影响，将原来Faster R-CNN模型的RoIPooling层改进为MaskR-CNN模型的池化层(RoIAlign)。RoIAlign将去除RoIPooling层的硬量化，更加注重输入与提取出的特征间的像素对齐。为了避免精确矩形框边界因为单元的量化导致的误差，RoIAlign在精确矩形框的浮点数坐标在量化操作上并不需要转换为整数，每个精确矩形框单元中所占有的特征的准确位置使用双线性插值来进行计算，最后计算均值和最大值以得到最终结果。

RoIAlign的输入是初始图像的高维特征图和包含候选框的初始图像，RoIAlign将调整固定初始图像上候选框的大小并将其映射到初始图像的高维特征图，形成候选框特征图并输出。

所述分类层为Faster R-CNN模型的分类层(classifier)，分类层包含全连接层和区域边框回归层。将候选框特征图输入该改进的神经网络的分类层，分类层中的全连接层将使用softmax计算并判断候选框是否为猪只，分类层中的区域边框回归层对候选框进行边框修正操作，最终输出更加精确的目标检测框。

将该改进的神经网络的分类层输出的目标检测框与初始图像的标注框进行结合计算误差函数，然后通过优化算法反向梯度传播修改各层参数训练神经网络，其中区域建议网络的损失函数及分类层的全连接层和区域边框回归层的损失函数分别为：

区域建议网络损失函数：

其中，L({p_i},{t_i})表示区域建议网络的损失函数，N_cls表示初始图像上被用于训练矩形框的数量，i是在初始图像上矩形框的索引，p_i则是该矩形框为前景的预测几率。

是标注的猪只边界框的概率，如果矩形框是正样本，

是1，否则是0。N_reg表示矩形框位置的个数，t_i是一个修正矩形框的四维向量，而

是将正样本矩形框修正为标注的猪只边界框的真值。分类的误差函数L_cls是包括前景和背景两个类别的对数误差，且

而回归误差函数是

R定义为

表明回归误差只有当矩形框为正样本时才有效，否则为0，而λ为两种误差的平衡权重，用以优化训练。

分类层的全连接层和区域边框回归层的损失函数：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)

式中，L(p,u,t^u,v)表示分类层的全连接层和区域边框回归层的损失函数，p为感兴趣区域预测为猪只的概率，u为猪只类别标签，t^u为预测的回归修正值，v为真实的回归修正值。

即负样本不参与训练。L_cls为对数误差函数，即L_CLS(p,u)＝-logp_u，L_loc仍然是smooth_L1函数，smooth_L1函数定义为

该改进的神经网络经过卷积层、区域建议网络层、池化层、分类层以及各层之间连接的精密设计并且使用海量的图像数据集进行训练，比传统的机器视觉的智能算法有更高的鲁棒性和正确率。

综上所述，本发明突破原有技术在精细程度高的任务中不够精准的问题，基于Faster R-CNN算法提出一种猪只图像识别方法，在增添标注后的已有猪只图像数据集上进行训练和检测识别，并把源Faster R-CNN的RoIPooling方法改为Mask R-CNN中提出的RoIAlign，以提高算法精度，实现对图像中的猪只更为准确的识别，具有实际应用价值，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于改进的神经网络对图像中的猪只进行自动识别的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进的神经网络对图像中的猪只进行自动识别的方法，其特征在于，所述步骤S1包括以下步骤：

S101、获取猪只图像数据的初始图像由人工拍照收集；

3.根据权利要求1所述的基于改进的神经网络对图像中的猪只进行自动识别的方法，其特征在于，在步骤S2中，所述卷积层为五十层的残差网络ResNet50，将初始图像输入ResNet50中，ResNet50作为提取图像特征的主框架将输出初始图像的高维特征图；

另外一个卷积层作为区域边框回归层，对被分类为前景的anchor进行边框修正，对前景anchor产生t_x、t_y、t_h、t_w这四个偏移量，具体计算如下：

t_x＝(x-x_a)/w_a t_y＝(y-y_a)/h_a t_w＝log(w/w_a) t_h＝log(h/h_a),

调整后的anchor即为RPN生成的候选框proposal；在RPN上，候选框的正标签有两种不一样的选取流程：①当候选框与标注框有最高交并比的时候，为正标签；②当候选框与标注框的交并比高于0.7的时候，为正标签；根据以上流程，每个标注框很多时候都会使得多个候选框是正样本；在大多数情况下，正样本由第二个流程能够选取出来，当第二个流程无法得到正样本的候选框的时候，为了保证每个标注框都至少有对应的一个候选框正样本，这时采用第一个流程产生正样本矩形框；当正样本选取完毕后，在剩下的候选框中选取与全部标注框的交并比都低于0.3的那些候选框为负样本；上述工作完成后，剩下的是没有正负样本标签的候选框；

所述分类层为Faster R-CNN模型的分类层classifier，分类层包含全连接层和区域边框回归层；将候选框特征图输入该分类层，分类层中的全连接层将使用softmax计算并判断候选框是否为猪只，分类层中的区域边框回归层对候选框进行边框修正操作，最终输出更加精确的目标检测框；

区域建议网络的损失函数：

是标注的猪只边界框的概率，如果矩形框是正样本，

而回归误差函数是

R定义为

分类层的全连接层和区域边框回归层的损失函数：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)