CN115273131A

CN115273131A - 基于双通路特征融合的动物识别方法

Info

Publication number: CN115273131A
Application number: CN202210346833.8A
Authority: CN
Inventors: 蒋玉杰; 李娟�
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-11-01

Abstract

本发明公开了基于双通路特征融合的动物识别方法，通过构建CNN‑LBP双通路网络模型，对图像进行插值和锐化处理，解决监测图像质量低的问题。融合CNN提取特征和纹理特征等浅层信息，保留了浅层语义信息的提取。在卷积神经网络中增加了边框预测回归模块，考虑到了两框的重叠部分、中心点距离和长宽比，增加了宽高比的惩罚项目，解决了原损失函数作在训练过程中梯度不能自适应改变的问题；优化LBP特征提取算法，考虑了中心像素值与邻域像素值的影响最后，降低噪声点的影响；最后在特征融合中增加了通道注意力机制，有利于通道降维和跨通道信息交互。本发明相较于YOLOV5和LBP识别方法在召回率和准确率均有提升。

Description

基于双通路特征融合的动物识别方法

技术领域

本发明属于图像识别技术领域，具体地，涉及一种融合CNN和LBP的动物图像识别分类方法。

背景技术

随着社会科技的不变进步，计算机视觉已然成为当今一大火热的研究领域。计算机视觉通过计算机代替人类的视觉处理系统，能够模拟人类视觉系统对图像中的内容进行理解和处理。目标检测识别作为其中的热门领域之一，其功能就是从图像中提取感兴趣目标的特征以及识别出其类别。

野生动物资源对维系自然生态平衡具有举足轻重的作用，为了保证对野生动物的有效保护，收集大量丰富的野生动物监测信息，国内外围绕信息化的野生动物监测技术开展了大量的研究。野生动物大数据是野生动物保护策略制定的基础，而如何利用人工智能等新兴技术赋能动物信息处理是目前研究的热点与难点。

目前，在众多保护区中已经广泛应用了红外感应相机和无线图像传感器用来监测野生动物。相对于于传统的人工监测方式，这一方式极大提高了监测的效率。然而以上方式采集到的监测图像数据量佳较多，目前主要依赖人工筛选分类，这一方法又大大降低了数据处理的效率。近十年，人工智能技术的巨大发展和突破，如监控视频检测、行人检测、舰船识别、人脸识别等，为人们的生活带来了诸多便利，提高了城市的智能化水平。深度学习的快速发展同时也为动物图像的快速、准确的自动识别提供了较优的解决方案，因此基于卷积神经网络的野生动物自动识别研究具有很高的现实意义。

基于局部二值模式(LBP)的特征提取能够较好地保留图像的纹理特征。通过引入卷积神经网络，一种深度监督学习下的机器学习模型，目标识别的准确率得到很大幅度的提高，并且已经成为图像研究领域的主流技术。现有技术存在以下缺点：(1)传统目标检测识别方法中进行人为特征提取，在实际应用中对图像目标存在着较高的漏检和误检以及效率低的情况；而且对于存在类间相似度高，人眼不容易辨别的难题，传统机器学习方法往往不能有效提取到相似物体之间的细微差异。(2)基于卷积神经网络的目标检测识别算法能够自动地提取图像中的目标特征，同时也能够得到某种程度上的平移、旋转、倾斜和尺度不变形，多个卷积层可以理解并学习到输出的多层次信息，随着网络层的增加可以更好的提取抽象特征，是一种高效的目标检测识别的算法，但是存在随着网络深度的加深，许多低频信息例如纹理特征会丢失，影响模型的收敛性能。

发明内容

本发明的目的是针对现有技术方案的不足，利用卷积神经网络获得的特征，设计CNN-LBP双路融合特征提取模式。相对于手动提取而言能够更好的表现目标的特征，理解并学习目标的抽象特征。并且一定程度上解决了随着卷积层的加深浅层信息如纹理特征不断变浅的问题，在获取全局抽象特征的同时也能够捕捉细节信息；增加低质量图像的预处理，对监测图像质量进行增强；增加预测边框回归模块，改善了真实框和预测框不相交情况下无法预测两者距离的问题。同时优化了LBP特征提取算法，解决了中心像素值过大或过小时细节丢失的问题，降低噪声点的影响。最后通过基于通道注意力机制的特征融合，不仅能够使神经网络自动学习特征通道间的重要性，还有助于通道降维和跨通道信息交互，得到最终的检测结果。

本发明为解决其技术问题所采用的技术方案包括以下步骤：

(1)数据预处理：数据增强是减少过拟合、提高机器学习模型泛化能力的一种常用方法，可以解决数据受限的问题。本方法同时采用图像翻转、转换、拼接、融合的图像增强方法。每次处理均得到一个变换矩阵，再将所有变换矩阵连乘得到最终的变换矩阵。同时针对采集图像质量低的问题，采用三次插值和锐化来提高图像的质量。

(2)定义CNN-LBP双通路模型结构：网络模型主要由主干卷积神经网络、LBP特征提取通路、特征融合模块、边框预测回归网络构成。分析基于卷积神经网络在进行特征提取时采取模块逐层抽取的方式，每个模块输出尺寸不同，通常会抽取网络最高层的输出特征作为识别依据，并且实际应用层面来讲，还需要考虑到环境光源等诸多因素的影响，因此卷积神经网络中的高层特征语义信息表征能力强，但缺乏纹理细节特征；低层特征几何信息丰富，但语义信息表征能力弱。定义CNN-LBP双通路模型，通过卷积神经网络和LBP特征提取通路分别提取图像信息，再通过多尺度特征融合的方式将不同网络层的特征进行融合，提高网络的特征表达能力。

(3)基于LBP特征提取：在传统的LBP算法的基础上，考虑了中心像素值与邻域像素值的影响，通过计算计算邻域各像素值与中心像素值之差的平方和C与限定值W进行比较，若C在限定范围内，选取中心像素值为阈值计算LBP值，充分考虑中心像素值与邻域像素值的作用，更准确描述局部图像特征；若C不在限定范围内，则选择邻域像素和中心像素的中值作为阈值进行计算，降低噪声点的影响。

(4)YOLOV5模型设置：主干网络设计为深度为152层残差网络，划分为5部分，其中每部分的卷积分组卷积，通过主干网络4次下采样操作提取到的特征输出特征图。引入感兴趣区域特征(ROI)提取，以来减少复杂背景对目标识别的影响。

(5)基于改进的通道注意力机制的特征融合：针对原concat融合方式在特征融合过程中，会导致图像本身通道数增加的缺点，对于处理后的上下分支特征通道，本方法采用提出的通道注意力特征融合模块(CAFF)进行信息集成。不仅可以聚合来自各个通道的特征信息，实现权重分配，而且有助于通道降维和跨通道信息交互，再将深浅层特征融合，避免了高分辨率特征经过多次卷积后导致的信息丢失问题。

(6)边框预测损失模块：在边框预测模块中使用了EIOU_Loss损失函数，增加了宽高比的惩罚项目，解决了通用损失函数中在训练过程中梯度不能自适应改变的问题。

(7)模型预测：完成模型训练后，输入任意尺寸的测试数据，可以获得动物的种类和位置。实验使用评价指标为召回率和平均准确率(map)来检测模型。相较于目前常用的单阶段和双阶段常用的算法，具有较高的召回率和准确率。

与已有技术相比，本发明的有益效果：

本发明提供了一种融合CNN和LBP的图像识别分类方法，相比于常规的使用卷积神经网络的方法，该方法能保留、提取到更多的纹理特征。该模型将图像进行归一化预处理后，在第一条通道上，使用可训练的卷积核提取隐式特征；在第二通道上，使用改进的LBP特征算子提取出图像的LBP特征，输出的特征向量。

本发明为了在大量输入信息中聚焦于对当前任务更为关键的信息，也就是选出与图像识别最相关的通道，提出了添加通道注意力机制的方式对上述CNN-LBP模型进行改进。注意力机制已被证明是增强深层CNN网络的一种方式，使得最终的模型具有较好的分类效果。同时在边框预测模块中增加了宽高比的惩罚项目，改善了真实框和预测框不相交情况下无法预测两者距离的问题，提高了边框预测的准确率。

附图说明

图1为本发明提出的方法的整体网络结构示意图。

图2为本发明提出的LBP识别流程图。C为邻域像素值与中心像素值之差的平方和；W为C的限定值。

具体实施方式

本发明实施的具体流程如附图1所示，下面对具体的实施方式做详细描述。

(1)图像预处理：采用公式

其中src为左边图片,dst为右边透视变换后的图片，xy为横纵坐标，M为变换矩阵，M[2,0]、M[2,1]为变换参数。根据以上公式分别进行图像翻转、转换、拼接和融合。图像融合中会计算该目标边框与填补图片中的所有目标边框，保证损失值<0.3。

采用三次插值和锐化来提高图像的质量：利用待采样点周围16个点的灰度值作三次插值，可以得到更接近高分辨率图像的放大效果，选取插值基函数来拟合数据。插值基函数如下所示：

在完成低质量像素扩充后，可能仍然存在图像模糊的问题。因此采用图像锐化方式进行再处理：首先采用中值滤波对图像去噪处理，该方法可以消除孤立噪声点，同时也能保留图像的边缘。再将去噪后的图像使用基于sobel算子的边缘检测方法进行锐化，检测并输出图像的边缘信息。将检测的边缘图像与原图合成，完成图像锐化，输出的图像的细节信息明显增强。

(2)CNN-LBP模型设置与训练：网络模型主要由主干卷积神经网络、LBP特征提取通路、特征融合模块、边框预测回归网络构成。图片经过数据预处理后输入到主干卷积神经网络中和LBP特征提取通路中提取特征，然后输出的特征图经过3×3的卷积增加网络的感受野，然后再通过1×1卷积降维。主干网络共进行4次下采样，直至采样至原图的1/32；基于该下采样的结果进行卷积和上采样，将输出结果与之前的下采样结果进行concat操作，再经过C3卷积和上采样，将输出结果与之前的1/8下采样结果再次进行concat操作，将该输出结果做卷积操作，输出特征图1；同时再进行下采样操作，并与之前输出的1/16的上采样结果进行concat操作，通过卷积操作输出特征图2；同理可以得到特征图3。为了减少卷积参数量及降低计算量，以上卷积均采用分组卷积。

(3)基于LBP特征提取：传统的LBP算法直接以中心像素值作为阈值进行计算，若只考虑中心像素的影响，受噪声影响较大，当中心像素值过大或过小时容易湮没细节。因此提出改进的LBP算法，该算法同时考虑中心像素值与邻域像素值的影响。该方法计算邻域各像素值与中心像素值之差的平方和C，通过C的取值来判断阈值：若C在限定范围内，选取中心像素值为阈值，计算LBP值，可以充分考虑中心像素值与邻域像素值的作用，并且能更准确地描述局部图像特征，有效去除中心像素值过大或者过小对图像特征提取的影响；反之，则选择邻域像素和中心像素的中值作为阈值进行比较，以来降低噪声点的影响。具体流程如下：构建3×3像素窗口，计算窗口中邻域像素值与中心像值之差的平方和C，公式为：

其中g_p为邻域像素值，g_i,j为中心像素值。设C的限定值为W，判断C与W的大小，若C≤W，则选择中心像素值作为阈值，计算LBP值，即用上式计算LBP值；当C＞W，则选择9个像素值的中值为阈值计算LBP值，公式为：

其中，p为邻域像素点，g_p为邻域点像素值，g_m为9个像素值的中值，s(x)为二值函数。从而可以计算LBP值得到LBP特征图像。再通过统计LBP值出现的次数，得到LBP直方图。再进行归一化处理，将得到的每个cell的统计直方图连接成为一个特征向量。

(4)YOLOV5模型设置：首先将图像输入网络进行预测，网络输出为S×S×(B×5+C)的张量，其中，S为划分网格数，B为网络预测边框数，C为类别个数。然后将整幅图像划分为S×S个网格，每个网格预测B个检测边界框，每个框置信度(confidence)的计算公式如下：

Confidence＝Pr(Object)*IOU

其中，Pr(Object)为边界框包含目标物体的概率；在算法中每个检测边界框除了置信度还包括x、y、w、h这四个参数。其中x、y就代表了这个检测边界框的具体位置，w、h则是这个检测边界框的宽度和高度。此处采用误差平方和(Sum-Squarederror)作为损失函数，仅用于做识别对象区域回归，不做具体的类别预测，

(5)基于改进的通道注意力机制的特征融合：在特征融合模块中引入通道注意力机制构建通道注意力特征融合模块。SENet作为轻量级模块，为特征的通道相关性提供了权值参数，实现了通道间的注意力机制，但也忽视了网络间的可降维性。本方法对SENet进行改进，使用CAFF模块。

首先将不同尺度的特征图采用上采样或下采样统一尺寸，进行concat操作后得到特征图，再通过squeeze操作通过全局池化将每个通道的二维特征压缩为一个一维向量，然后通过一个全连接层将特征维度，再通过一个激活层学习特征通道间的非线性关系，并通过全连接层升维到原来的维度，然后excitation操作通过sigmoid函数转化为0～1的归一化权重，接着rescale操作将归一化权重加权到输入特征图每个特征通道上，最后进行卷积操作，将得到的特征图进行降维作为后续操作的输入。该模块不仅能够使神经网络自动学习特征通道间的重要性，并且有助于通道降维和跨通道信息交互。

(6)边框预测损失模块：引入了预测框与真实框的最小外接矩形，改善了真实框和预测框不相交情况下无法预测两者距离的问题。GIOU_Loss作为物体边界框的损失函数，值越小表示预测框与真实框的差距就越小，预测效果就越能够达到期望效果。公式如下：

其中，A为目标边框，B为预测边框，C是A和B的最小包围框。

GIOU_Loss作为预测框的损失函数，虽然改善了真实框与预测框不相交情况下存在的问题，具有一定偏离趋势的度量能力。但当预测框在目标的真实框内即A∩B＝B或者A、B边框处于垂直或水平位置时，其损失值不会发生改变，所以无法很好地衡量预测框的位置状态。因此引入EIOU_Loss，将两框的重叠部分、中心点距离和长宽比都融合到损失函数的计算中。

由于A∩B＝B,令A与B的最小外接矩形C的对角线距离为c，预测框B与真实框A的中心点之间的距离为r，可以得出目标框与预测框的长宽差为h和w，覆盖预测框和目标框的最小外接矩形的长和宽分别是C_h和C_w，则EIOU_Loss的定义如下：

h＝|h₁-h₂|

w＝|w₁-w₂|

EIOU_loss＝1-EIOU

当EIOU值越大时，说明预测框越接近真实框的位置，其损失函数值就越小，但是该损失函数在训练过程中梯度不能自适应改变，从而影响训练效果。为了解决这个问题，对EIOU_Loss进一步优化，设计一种新的边框回归函数，即IEIOU_Loss，定义为：

EIOU_loss＝2×ln2-2×ln(1+EIOU)

该方法可实现IEIOU_Loss和EIOU_Loss都随着EIOU的增大而减小，并且IEIOU_Loss的梯度绝对值随着EIOU的增大而减小。当预测框和真实目标框之间的距离较远时，EIOU值更小，即具有更大的梯度绝对值。

(5)模型预测与评估：本方法实验使用ANIMALS公开数据集预估该网络效果，使用评价指标为召回率和平均准确率(map)来检测模型。

召回率定义为：

平均准确率定义为：

其中TP(truepositives)为正确的检测对象数目，FN(falsenegatives)为漏检的对象数目，FP(falsepositives)为虚警的对象数目。其中，P为精度，R为召回率，P(R)为精度和召回率曲线。在本实验中，设置的检测阈值为0.5，当检测框与真实框的重叠区域超过50％时则认为该检测框是正确的。

表1本发明提出的方法预测结果分析

如表1所示，在ANIMALS数据集上，本发明方法较于yolov5召回率提升了0.9％，准确率提升了4.9％；相较于LBP识别召回率提升了，准确率提升了24.3％，准确率提升了22.9％，获得了较好的结果。实验结果证明本发明算法是有效的，可以更精确地识别图像中的物体。可以看出，改进的注意力机制模块对ANIMALS数据集上的目标检测有较为显著的影响，分析为主要是因为卷积神经网络对纹理特征的提取不太明确，添加LBP通路后增强了浅层语义信息的提取；EIOU使检测结果更加准确，因为在预测边框回归时，考虑到了两框的重叠部分、中心点距离和长宽比，考虑的因素更加综合全面，而且在特征融合模块中增加了通道注意力机制，有利于通道降维和跨通道信息交互，使得最终的效果更好。

相比于传统的LBP、HOG等为主的人工特征提取方法和基于深度卷积神经网络的目标检测算法，具有更高的识别准确率。该方法融合了卷积神经网络较强的学习能力以及LBP有效描述图像纹理特征的优点，同时重点解决了图像质量低、背景复杂以及预测框精度不高等问题，在ANIMALS公开数据集上取得了良好的识别效果。

以上实施方式仅用于说明本发明，而并非对本发明的限制。本领域的技术人员应当理解，对本发明的技术方案进行的各种组合、修改或者等同替换，都不脱离本发明技术方案的范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于双通路特征融合的动物识别方法，其特征在于：该方法包括如下步骤，

数据预处理：时采用图像翻转、转换、拼接、融合的图像增强。每次处理均得到一个变换矩阵，再将所有变换矩阵连乘得到最终的变换矩阵。采用三次插值和锐化来提高图像的质量。

定义CNN-LBP双通路模型结构：由主干卷积神经网络、LBP特征提取通路、特征融合模块、边框预测回归网络构成。分析基于卷积神经网络在进行特征提取时采取模块逐层抽取的方式，每个模块输出尺寸不同会抽取网络最高层的输出特征作为识别依据。定义CNN-LBP双通路模型，通过卷积神经网络和LBP特征提取通路分别提取图像信息，再通过多尺度特征融合的方式将不同网络层的特征进行融合，提高特征表达能力。

基于LBP特征提取：考虑中心像素值与邻域像素值的影响，通过计算计算邻域各像素值与中心像素值之差的平方和C与限定值W进行比较，若C在限定范围内，选取中心像素值为阈值计算LBP值，充分考虑中心像素值与邻域像素值的作用，准确描述局部图像特征；若C不在限定范围内，则选择邻域像素和中心像素的中值作为阈值进行计算，降低噪声点的影响。

YOLOV5模型设置：主干网络设计为深度为152层残差网络，划分为5部分，其中每部分的卷积分组卷积，通过主干网络4次下采样操作提取到的特征输出特征图。引入感兴趣区域特征ROI提取，减少复杂背景对目标识别的影响。

基于改进的通道注意力机制的特征融合：针对原concat融合方式在特征融合过程中，会导致图像本身通道数增加的缺点，对于处理后的上下分支特征通道，采用提出的通道注意力特征融合模块CAFF进行信息集成。

边框预测损失模块：在边框预测模块中使用EIOU_Loss损失函数，增加了宽高比的惩罚项目。

模型预测：完成模型训练后，输入任意尺寸的测试数据，获得动物的种类和位置。