CN116052206A

CN116052206A - 融合视觉显著性的鸟类识别方法和系统

Info

Publication number: CN116052206A
Application number: CN202211550489.0A
Authority: CN
Inventors: 祝礼佳
Original assignee: Guangzhou Chenchuang Technology Development Co ltd
Current assignee: Guangzhou Chenchuang Technology Development Co ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-05-02

Abstract

本申请公开了一种融合视觉显著性的鸟类识别方法和系统，本方法包括获取待检测的图像；利用残差谱对待检测的图像进行处理，得到频域显著图；利用全局对比度对待检测图像的Lab颜色域处理获得时域全局性特征显著图；利用局部对比度对待检测图像的RGB颜色域进行处理获得时域局部特征显著图；将待检测图像、频域显著图、时域全局性特征以及时域局部特征显著图融合为多通道图像，得到输入图像；利用图像识别模型对输入图像进行预测，确定输入图像中鸟类的位置和分类。

Description

融合视觉显著性的鸟类识别方法和系统

技术领域

本申请涉及图像识别技术，特别是一种融合视觉显著性的鸟类识别方法和系统。

背景技术

“鸟撞”指的是天空中的飞鸟与飞行的飞机发生碰撞事件。飞鸟虽然体积小，质量轻，由于飞鸟与飞行的飞机相对速度特别大，因此“鸟撞”事件容易导致飞机损坏，直接影响航班飞行，严重情况甚至可能导致机毁人亡。因此，防止“鸟撞”事件对航空安全十分重要且有意义。

基于人工识别与驱赶的方式十分耗时耗力，且难以做到实时监控。深度学习相较于人工特征能够实现自主特征提取，具有更强的泛化能力。

针对机场鸟类识别应用场景存在背景环境复杂、天气情况多变、鸟类目标姿态多样性的情况，深度学习虽然具有自主提取特征的优势，但也会捕捉一些不重要的特征，容易减弱模型的辨别能力，降低模型性能。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种融合视觉显著性的鸟类识别方法和系统，以在复杂环境中准确识别出鸟类。

一方面，本申请实施例提供了一种融合视觉显著性的鸟类识别方法，包括：

获取待检测的图像；

利用残差谱对待检测的图像进行处理，得到频域显著图；

利用全局对比度对待检测图像的Lab颜色域处理获得时域全局性特征显著图；

利用局部对比度对待检测图像的RGB颜色域进行处理获得时域局部特征显著图；

将待检测图像、频域显著图、时域全局性特征以及时域局部特征显著图融合为多通道图像，得到输入图像；

利用图像识别模型对输入图像进行预测，确定输入图像中鸟类的位置和分类。

在一些实施例中，所述利用残差谱对待检测的图像进行处理，得到频域显著图，具体是：

对待检测的图像进行灰度化处理，获得灰度图像；

基于对数谱与对数谱的均值之差获得频域显著图像。

在一些实施例中，所述频域显著图像以S1表示，其中，

S1＝g(x)*F^-1[exp(R(f)+P(f))]²；

g(x)表示对残差普获得的显著特征进行高斯滤波操作，F^-1表示快速傅里叶逆变换，P(f)表示相位谱，其中R(f)表示残差谱；

P(f)＝S(F[I_gray(x)])；

R(f)＝L(f)-h_n(f)*L(f)；

h_n(f)表示均值滤波操作，n表示滤波器窗口大小，L(f)表示对数谱，即对傅里叶变换获得的幅度谱取对数运算；

R(f)＝log(R(F[I_gray(x)]))；

其中，F表示快速傅里叶变换。

在一些实施例中，所述利用全局对比度对待检测图像的Lab颜色域处理获得时域全局性特征显著图，具体是：

将待检测图像的颜色空间域转换成Lab颜色空间域；

按照以下公式进行处理得到时域全局性特征显著图S2；

其中c表示遍历Lab三个通道层，a_c表示三个通道分别计算的视觉显著图进行加权的权重值，经验值为1/c，n表示颜色值覆盖范围，f_j表示颜色值j出现的频率，D(V_cx,V_cj)表示颜色值x与颜色值j之间的颜色距离。

在一些实施例中，所述利用局部对比度对待检测图像的RGB颜色域进行处理获得时域局部特征显著图，具体是：

将待检测图像的颜色空间域转换成RGB颜色空间；

按照以下公式处理得到时域局部特征显著图S3；

其中，

设像素点x为R1和R2的中心点，R1边长小于R2，局部对比度体现在第一窗口R1区域的颜色值均值与第二窗口R2区域的颜色值均值的距离，距离度量D采用欧式距离，时域局部特征显著图S3由分别处理RGB三通道获得显著图加权融合获得。

在一些实施例中，所述多通道图像是六通道图像；

所述图像识别模型是输入层为通道数为6的yolov5模型。

在一些实施例中，所述yolov5模型包括：

特征挖掘层，用于对原始图像的视觉显著性特征进行挖掘；

特征提取网络，用于对输入图像进行特征提取；

SPP模块与PANet网络，用于对卷积层提取的特征进行进一步提取；

检测头部分，用于对目标位置提取和类别的划分。

在一些实施例中，所述特征提取网络包括多个卷积模型，其中，在最后一个卷积模型中设置有注意力机制模块。

在一些实施例中，还包括以下步骤：

在识别出鸟类位置和类型后执行相应的驱赶程序。

另一方面，本申请实施例提供了一种融合视觉显著性的鸟类识别系统，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行所述的方法。

本申请实施例通过对原始图像进行更多特征的挖掘，抽取频域显著图、时域全局性特征以及时域局部特征显著图，并将这些挖掘的特征图与原始图像进行融合处理成多通道图像，并交给识别网络进行位置识别和分类，相对于现有技术，可以提高模型有效信息的学习，提高鸟类识别模型的识别率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种鸟类识别方法的步骤流程图；

图2是本申请实施例提供的一种鸟类识别模型的结构示意图；

图3是本申请实施例提供的一种ConvBlock融合注意力机制示意图；

图4是本申请实施例提供的一种R1和R2的关系示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下将参照本申请实施例中的附图，通过实施方式清楚、完整地描述本申请的技术方案，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

参照图1，本申请实施例提供了一种融合视觉显著性的鸟类识别方法，包括：

步骤1、获取待检测的图像I(即原始图像)。该图像可以是由摄像机拍摄得到的。

步骤2、利用残差谱对待检测的图像进行处理，得到频域显著图。

具体地，本步骤包括:

对待检测的图像进行灰度化处理，获得灰度图像；

基于对数谱与对数谱的均值之差获得频域显著图像。

进一步以实际例子进行说明，本步骤利用残差谱对待检测图像I处理获得频域显著图S1。首先对待检测图像I进行灰度化处理，获得灰度图像I＿gray。其次，基于对数谱与对数谱的均值之差获得显著性图像，具体公式公式(1)所示：

S1＝g(x)*F^-1[exp(R(f)+P(f))]² (1)

g(x)表示对残差普获得的显著特征进行高斯滤波操作，F^-1表示快速傅里叶逆变换，P(f)表示相位谱，如公式(2)，其中R(f)表示残差谱，具体如公式(3)所示。

P(f)＝S(F[I_gray(x)]) (2)

R(f)＝L(f)-h_n(f)*L(f) (3)

公式(3)中h_n(f)表示均值滤波操作，n表示滤波器窗口大小，L(f)表示对数谱，即对傅里叶变换获得的幅度谱取对数运算，具体如公式(4)所示。

R(f)＝log(R(F[I_gray(x)])) (4)

公式(4)中F表示快速傅里叶变换。残差谱进行视觉显著性提取具有简单快速的优势。

步骤3、利用全局对比度对待检测图像的Lab颜色域处理获得时域全局性特征显著图。

利用全局对比度在对待检测图像I的Lab颜色域处理获得时域全局特征显著图S2。首先将颜色空间域转换为Lab颜色空间域，其次具体操作的如公式(5)所示，其中c表示遍历Lab三个通道层，a_c表示三个通道分别计算的视觉显著图进行加权的权重值，经验值为1/c，n表示颜色值覆盖范围，常见值为256，f_j表示颜色值j出现的频率，D(V_cx,V_cj)表示颜色值x与颜色值j之间的颜色距离，常见距离为欧式距离。

通过获得像素级别的显著特征图，捕捉了图像中的颜色差异信息。

步骤4、利用局部对比度对待检测图像的RGB颜色域进行处理获得时域局部特征显著图。

利用局部对比度对对待检测图像I的RGB颜色域进行处理获得时域局部特征显著图S3。首先将颜色空间域转换为RGB颜色空间域，其次具体操作的如公式(6)所示，设像素点以x为R1和R2的中心点，R1边长小于R2，局部对比度即体现在小窗口R1区域的颜色值均值(mean)与大窗口R2区域的颜色值均值( ean)的距离，距离度量D常用欧式距离。S3显著图分别处理RGB三通道获得显著图，再加权融合获得最后的显著图。

mean操作是计算以x为中心点的R1窗口或R2窗口在每个通道的颜色均值，c表示不同的RGB颜色通道。

步骤5、将待检测图像、频域显著图、时域全局性特征以及时域局部特征显著图融合为多通道图像，得到输入图像。

融合待检测图像I、频域显著图S1、时域特征显著图S2以及时域特征显著图S3，获得输入图像I＿input。常见的图像融合操作包括，空间上逐像素点相加以及通道上逐通道拼接。本文为了尽可能保留原始信息，采用通道拼接的方式，即假设原始图像尺寸为(H，W，3)，那么融合后的输入图像尺寸为(H，W，6)。

步骤6，对yolov5模型进行修改。需要理解的是，在模型实际运行时，并不涉及本步骤，本步骤对模型设计的方式进行说明。

修改yolov5输入层通道为6，并在特征提取网络最后一个卷积模块增加注意力机制模块，同时在检测头用Mish激活函数替换SiLU激活函数，获得改进后的yolov5模型，具体如图2所示，主要由4部分构成，第一部分对原始图像进行视觉显著性特征挖掘，并融合原图像，相当于一个特征挖掘层；第二部分利用卷积特征网络对融合后图像进行特征提取，相当于一个特征提取网络；第三部分则是对提取特征进一步处理，包括SPP模块扩展高层语义特征感受野与交互性，以及PANet网络提高浅层特征与深层特征融合，提高特征丰富性；第四部分即为检测头部分，实现目标位置提取与类别划分。从图2可知，具体地本模型包含输入融合视觉显著性特征模块、卷积特征提取模块、特征融合模块以及检测头模块。视觉显著性可以有效过滤背景干扰，提取出显著性特征信息，加速网络训练过程；卷积特征提取模块不仅能获得边缘等低级特征还可以获得高级语义信息；特征融合模块融合不同层次的信息特征，提高整个模型的特征表达力；检测头则是事项鸟的定位与识别。

为了适配输入图像尺寸，将yolov5的输入层通道修改为6，即第一层卷积层卷积核尺寸也对应修改为6＊k＊k＊Co，k为卷积核尺寸，Co为该卷积层特征输出通道数。

其次在卷积特征提取网络部分(backbone)最后一个卷积模型增加注意力机制模块，作为有效特征的筛选，具体如图3所示。卷积网络具有如下特点：随着卷积层数增加通道数量递增且特征空间尺寸下降，最后一个特征卷积模块输出特征通道数高达1024，1024个通道层的特征对鸟类识别具有不同的贡献。因此，在最后一个特征通道增加一个通道注意力机制模型。图3虚线部分的上分支计算每个通道的权重值，最后同一通道的所有特征值都乘上该通道对应的权重值。注意力机制模块对特征的筛选通过PANet模块可以作用到其它特征层。

激活函数实现模型的非线性映射，且随着网络层数加深，模型非线性表达能力越强，语义信息越多。yolov5模型的激活函数为SiLU，其数学表达式如公式(7)所示，而Mish激活函数数学表达式如公式(8)所示，其在深层卷积层性能表现比SiLU激活函数好，但是训练周期会加长。因此，本文只在深层的卷积层(检测头部)利用Mish激活函数替换SiLU激活函数。

SiLU(x)＝x*sigmoid(x) (7)

Mish(x)＝x*tanh(ln(1+e^x)) (8)

步骤7、利用鸟类数据集训练改进的yolov5网络，获得鸟类识别模型。；所述的鸟类数据集即是不同背景、不同姿态、不同背景所捕获的原始图像，经过清洗、裁剪、标注以及样本扩充所完成。可以理解的是，本步骤作为训练步骤，在模型使用前进行，在模型实际应用时，并不是必要的步骤。

步骤8、利用图像识别模型对输入图像进行预测，确定输入图像中鸟类的位置和分类。

利用训练好的改进版的yolov5模型对输入图像I＿input进行鸟类识别，获得待检测图像中的鸟类图像区域与类别信息，依据所述信息进行后续驱赶行动。

可以理解的是，本申请实施例为了提高鸟类识别模型的识别率，本文首先融合了视觉显著性提高模型有效信息的学习，其次利用注意力模块对提取特征进行筛选，过滤无效信息，同时，在检测头部利用复杂度更高的记过函数Mish，提高非线性表达能力。

存储器，用于存储程序；

处理器，用于加载所述程序以执行所述的方法。

在本申请中所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种融合视觉显著性的鸟类识别方法，其特征在于，包括：

获取待检测的图像；

利用残差谱对待检测的图像进行处理，得到频域显著图；

2.根据权利要求1所述的融合视觉显著性的鸟类识别方法，其特征在于，所述利用残差谱对待检测的图像进行处理，得到频域显著图，具体是：

对待检测的图像进行灰度化处理，获得灰度图像；

基于对数谱与对数谱的均值之差获得频域显著图像。

3.根据权利要求2所述的融合视觉显著性的鸟类识别方法，其特征在于，所述频域显著图像以S1表示，其中，

S1＝g(x)*F^-1[exp(R(f)+P(f))]²；

P(f)＝S(F[I_gray(x)])；

R(f)＝L(f)-h_n(f)*L(f)；

R(f)＝log(R(F[I_gray(x)]))；

其中，F表示快速傅里叶变换。

4.根据权利要求1所述的融合视觉显著性的鸟类识别方法，其特征在于，所述利用全局对比度对待检测图像的Lab颜色域处理获得时域全局性特征显著图，具体是：

将待检测图像的颜色空间域转换成Lab颜色空间域；

按照以下公式进行处理得到时域全局性特征显著图S2；

5.根据权利要求1所述的融合视觉显著性的鸟类识别方法，其特征在于，所述利用局部对比度对待检测图像的RGB颜色域进行处理获得时域局部特征显著图，具体是：

将待检测图像的颜色空间域转换成RGB颜色空间；

按照以下公式处理得到时域局部特征显著图S3；

其中，

6.根据权利要求1所述的融合视觉显著性的鸟类识别方法，其特征在于，所述多通道图像是六通道图像；

所述图像识别模型是输入层为通道数为6的yolov5模型。

7.根据权利要求6所述的融合视觉显著性的鸟类识别方法，其特征在于，所述yolov5模型包括：

特征挖掘层，用于对原始图像的视觉显著性特征进行挖掘；

特征提取网络，用于对输入图像进行特征提取；

检测头部分，用于对目标位置提取和类别的划分。

8.根据权利要求7所述的融合视觉显著性的鸟类识别方法，其特征在于，所述特征提取网络包括多个卷积模型，其中，在最后一个卷积模型中设置有注意力机制模块。

9.根据权利要求1所述的融合视觉显著性的鸟类识别方法，其特征在于，还包括以下步骤：

在识别出鸟类位置和类型后执行相应的驱赶程序。

10.一种融合视觉显著性的鸟类识别系统，其特征在于，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如权利要求1-9任一项所述的方法。