CN117475481A

CN117475481A - 一种基于域迁移的夜间红外图像动物识别方法及系统

Info

Publication number: CN117475481A
Application number: CN202311810982.6A
Authority: CN
Inventors: 廖志武; 陈鹏; 苏枚芳; 侯蓉; 胡绍湘; 何梦楠; 吴鹏程; 闵清悦
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan Normal University
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan Normal University
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-01-30
Anticipated expiration: 2043-12-27
Also published as: CN117475481B

Abstract

本发明公开了一种基于域迁移的夜间红外图像动物识别方法及系统，识别方法包括以下步骤：获取可见光图像数据和红外图像数据，并划分为训练集和测试集；建立用于域迁移的循环生成对抗网络模型；基于训练集对循环生成对抗网络模型进行训练，并得到域迁移网络；基于训练集对目标检测模型进行训练，并得到图像识别网络；将测试集中的红外图像数据输入到域迁移网络，并得到迁移可见光图像数据，再将迁移可见光图像数据输入图像识别网络，最终获得识别结果。识别系统包括采集模块、迁移模块、识别模块。本发明通过以上方案解决了深度学习模型中容易出现负迁移、稳定性较差等问题。

Description

一种基于域迁移的夜间红外图像动物识别方法及系统

技术领域

本发明涉及图像处理技术、深度学习技术等领域，具体涉及一种基于域迁移的夜间红外图像动物识别方法及系统。

背景技术

红外相机被广泛应用于野生动物的监测与保护，通过热触发来记录其前方出现的动物图像，基于这些图像可识别特定时间和地点出现的物种。相机技术的发展使得图像获取的成本降低，随着时间的发展，野外部署的红外相机增多，积累了海量的野生动物图像数据，需要耗费大量的时间进行数据筛选与挖掘。随着信息技术的发展，深度学习模型被用于红外相机图像的野生动物自动识别，提升了海量动物图像数据挖掘的速度。

红外相机夜间捕获照片时由补光灯产生特定频率的红外光，所拍摄图片为灰度图，相较于白天拍摄的彩色可见光图像，其对比度差，视觉效果模糊，使得研究人员难以辨认并标注；语义信息少，使得深度学习模型提取有用特征的难度较高。例如一种基于远域迁移学习的图像识别方法（公开号：CN114783072A），也采用了一种域迁移的方式，其为远域迁移学习（DDTL），可以提高差别较大的源域和目标域的迁移准确性，但是只适合在相关性较差的环境中使用，其本身稳定性较差，容易出现负迁移现象。

由于包含的语义信息较少，使得深度学习模型在提取有用特征方面面临一定的挑战。为了解决这一问题，本发明提出了使用循环生成对抗网络将红外图像迁移到可见光图像的方法，通过优化域迁移模型的性能，能够丰富图像特征，增强图像的轮廓表现力，从而显著提高红外场景下动物识别的准确率和稳定性。

发明内容

针对现有技术中存在未充分利用特征、检测与定位方法复杂耗时、精度不高等缺陷，本发明提出一种基于声音事件的动物识别与定位方法及系统，结合深度可分离卷积和残差注意力网络，对动物的声音事件进行检测，并进行分类识别与个体定位。

本发明技术方案及说明如下：

一种基于域迁移的夜间红外图像动物识别方法，包括以下步骤：获取可见光图像数据和红外图像数据，并划分为训练集和测试集；建立用于域迁移的循环生成对抗网络模型；基于所述训练集对所述循环生成对抗网络模型进行训练，并得到域迁移网络；基于所述训练集对目标检测模型进行训练，并得到图像识别网络；将所述测试集中的红外图像数据输入所述域迁移网络，并得到迁移可见光图像数据，再将所述迁移可见光图像数据输入图像识别网络，最终获得识别结果。

进一步的，所述目标检测模型采用YOLOv5架构的目标检测模型，YOLOv5在模型部署等方面非常有优势。

进一步的，所述的一种基于域迁移的夜间红外图像动物识别方法，还包括：

所述可见光图像数据和红外图像数据的内容为同种动物的图像数据；

所述训练集和测试集中包括有图像对，所述图像对为相对应的一组或多组可见光图像数据和红外图像数据；

所述循环生成对抗网络模型根据所述图像对进行训练，所述目标检测模型根据所述训练集中的可见光图像数据进行训练。

进一步的，所述循环生成对抗网络模型包括：生成器、判别器，其中，

所述生成器用于转换和生成图像；

所述判别器用于对所述图像进行判断，并反馈；

所述图像包括可见光图像数据和红外图像数据。

进一步的，所述循环生成对抗网络模型至少包括两个生成器和两个判别器，共四部分构成，形成两次前向传递并形成循环结构。将动物红外灰度图像作为域A，可见光图像作为域B，通过生成器和判别器的博弈训练使得域A和域B互相学习各自的分布特征，从而实现域A和域B的特征迁移。

再进一步地，所述生成器由编码模块、转换模块和解码模块三部分构成；编码模块通过各层卷积实现特征提取与压缩，转换模块将一个域的特征向量转换为另一个域的特征向量，解码模块将特征向量恢复为域迁移后的图像；

所述编码模块中，采用了跨精度卷积块来提取被输入图像的多尺度特征，跨精度卷积可动态处理输入数据在不同尺度或精度上的信息。在跨精度卷积中，卷积核的大小和步幅会自适应地根据输入图像的精度级别而变化，以便更好地捕捉不同尺度或精度下的特征。所述跨精度卷积块由4个不同尺度的卷积核并联、自适应注意力模块串联构成，实现多尺度特征动态提取；

进一步地，自适应注意力模块输出如式(1)所示：

(1)

式(1)中为输入图像，/>为全局平均池化，/> 为尺度为1的卷积核，代表激活函数。

进一步地，跨精度卷积块动态输出融合后的多尺度特征如式(2)所示：

(2)

式（2）中为输入图像； />为多尺度卷积核，m为并联多尺度卷积核的数量，n为每个尺度卷积核的数量；/>为/>对应的自适应注意力权重系数。

所述转换模块中，由堆叠的瓶颈残差块进行深层特征提取，以及将源域图像域特征转换为目的域图像特征。

所述解码模块由两个反卷积块和一个卷积块构成。

进一步的，所述循环生成对抗网络模型的训练过程中根据损失函数更新模型参数，所述损失函数包括公式（3）、（4）、（5）、（6）：

（3）

（4）

（5）

（6）

其中，公式（3）中代表判别器/>的对抗损失，公式（4）中/>代表判别器/>的对抗损失，/>代表图像B域中生成样本b的损失，/>代表图像A域中生成样本a的损失，D _A是判别生成图像是否属于A域的判别器；D _B是判别生成图像是否属于B域的判别器；P _data(a)和P _data(b)分别表示图像域A样本a的概率分布和图像域B样本b的概率分布；表示A域迁移到B域的生成器；/>表示B域迁移到A域的生成器；公式（5）表示原图像和经过两个生成器后得到的重构图像的平均误差损失；公式（6）为A域红外图像和A域重构图像在颜色和纹理结构上保持一致的约束损失，其中，a为样本图像。

总的损失函数如式（7）所示：

（7）

公式（7）中，表示原图像和经过两个生成器后得到的重构图像的平均误差损失；α和β为可调节的参数，表示平均误差损失和约束损失在总体损失中的权重。

进一步的，所述循环生成对抗网络模型中包括所述域迁移网络，该域迁移网络中包括迁移可见光图像数据的生成器，用于将所述红外图像数据转换为迁移可见光图像数据。

一种基于域迁移的夜间红外图像动物识别系统，该系统包括采集模块、迁移模块、识别模块，其中：

所述采集模块用于采集可见光图像数据和红外图像数据；

所述迁移模块用于对所述可见光图像数据和红外图像数据进行域迁移，并得到迁移后的图像数据；

所述识别模块用于对所述迁移后的图像数据进行识别，并获得识别结果。

本发明的有益效果包括有：

本发明通过采用跨精度卷积块和瓶颈结构，构建了一个循环生成对抗网络。在此网络中，通过引入约束损失，将原始红外图像与重构红外图像进行约束，通过在同一动物种类的夜间红外图像和白天可见光图像数据集的条件下进行训练，成功地实现了一种红外图像域迁移网络。该网络能够有效地生成高质量的可见光图像，从而显著提升动物夜间图像的视觉效果，并丰富图像的特征。这种改进不仅有助于研究人员更容易地进行图像辨认和标注，还能够显著提升在红外场景下的深度学习模型的动物识别率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明的流程原理示意图；

图2为本发明的循环生成对抗网络结构示意图；

图3为本发明生成器网络结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，本发明提供一种基于域迁移的夜间红外图像动物识别方法，包括以下步骤：

步骤一：收集同种动物的夜间红外图像以及白天彩色图像，构建红外域图像迁移和动物识别数据集，划分训练集和测试集；

步骤二：搭建基于跨精度卷积块和瓶颈结构的生成器网络、判别器网络；

步骤三：使用域迁移数据集对生成器和判别器进行训练。具体而言，将夜间红外图像输入到生成器中，从中获得生成的伪可见光图像；同时，将可见光图像输入到生成器中，得到生成的伪红外图像。通过损失函数计算误差，将误差通过反向传播反馈到网络，分别更新生成器和判别器网络的参数。这个过程不断迭代，直至生成的图像风格与输入图像相近；

步骤四：使用训练集中的可见光图像训练目标检测模型YOLOv5动物识别网络；

步骤五：将测试集中的红外图像输入到已经训练好的生成器中，得到经过域迁移后生成的可见光图像。随后，使用动物识别网络对这些图像进行动物夜间识别，得出识别结果。

在本实施例中，所述数据集经过裁剪缩放等处理，大小为256×256像素。

在本实施例中，如图2所示，所述生成器网络由编码模块、特征转换模块和解码模块组成。具体而言，在编码模块中，采用了跨精度卷积块的设计。这些跨精度卷积块由并行四个不同尺度的并联卷积核，及4个自适应注意力模块串联构成。

并联卷积核大小分别为1×1、3×3、5×5、7×7，每个尺度卷积核的数量n=7，即，/>。

通过自适应注意力模块输出不同尺度卷积核的权重系数如式(1)所示。其中，GAP (global average pooling)为全局平均池化模块，/>代表尺度为1的卷积核；

(1)

式中为输入图像，/>为全局平均池化，/>代表激活函数。

进而，在并联多尺度卷积核及自适应注意力模块输出的不同尺度卷积核的权重系数/>作用下，得到输入图像的跨精度卷积块的输出特征/>，如式(2)所示，实现自适应多尺度特征动态融合。

(2)

式中为输入图像，/>为多尺度卷积核，m为并联多尺度卷积核的数量，n为每个尺度卷积核的数量；/>为/>对应的自适应注意力权重系数。

在获得融合的多尺度特征后，通过步长为2、大小为3×3的卷积层‐实例归一化层‐ReLU层构成的卷积块对特征进行下采样，压缩特征并过滤特征中的冗余信息；特征转换模块由多个1×1卷积‐3×3卷积‐1×1卷积的瓶颈结构构成，学习输入图像的深层特征，并转换为目的域图像的特征；解码模块由两个反卷积块和一个卷积块构成，通过上采样将特征恢复为目的域图像尺寸；

在本实施例中，如图3所示，所述训练过程具体为：

首先将动物夜间红外灰度图像和可见光图像分别作为源域A、图像样本a和目标域B、图像样本b。用其对构建的多尺度循环生成对抗网络模型进行训练，获得红外域图像迁移网络，用于生成识别所用的伪可见光图像。多尺度循环生成对抗网络模型包括生成器和生成器/>，分别对应数据A到数据B和数据B到数据A的映射，二者结构相同，生成器/>为本发明所述的红外图像域迁移网络；两种判别器D _B和D _A分别对两个方向的生成数据进行判别。通过计算损失函数更新模型参数，迭代训练获得高质量的红外域图像迁移网络。

进一步地，所述总体损失函数如式(7)所示：

(7)

式（7）中，α和β为可调节的参数，表示平均误差损失和约束损失在总体损失中的权重。对抗损失L _DB核L _DA分别如式(3)和式(4)所示：

(3)

(4)

式(3)中，P _data(a)和P _data(b)分别表示图像域A样本a的概率分布和图像域B样本b的概率分布；G _A->B分别表示A域迁移到B域的生成器，D _B是判别图像是否属于B域的判别器。式(4)中含义相似。原图像和经过两个生成器后得到的重构图像的平均误差损失L _cycle如式(5)所示：

(5)

原始红外图像与红外域重构图像的约束损失如式(6)所示：

(6)。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换等，均应包含在本申请的保护范围之内。

Claims

1.一种基于域迁移的夜间红外图像动物识别方法，其特征在于，包括以下步骤：

获取可见光图像数据和红外图像数据，并划分为训练集和测试集；

建立用于域迁移的循环生成对抗网络模型；

基于所述训练集对所述循环生成对抗网络模型进行训练，并得到域迁移网络；

基于所述训练集对目标检测模型进行训练，并得到图像识别网络；

将所述测试集中的红外图像数据输入所述域迁移网络，并得到迁移可见光图像数据，再将所述迁移可见光图像数据输入图像识别网络，最终获得识别结果。

2.根据权利要求1所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，

3.根据权利要求1所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述循环生成对抗网络模型包括：生成器、判别器，其中，

所述生成器用于转换和生成图像；

所述判别器用于对所述图像进行判断，并反馈；

所述图像包括可见光图像数据和红外图像数据。

4.根据权利要求3所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述循环生成对抗网络模型至少包括两个生成器和两个判别器，通过所述两个生成器和两个判别器构成两次前向传递并形成循环结构，所述两个生成器分别用于可见光图像数据和红外图像数据的相互转换，并获得可见光转换图像数据和红外转换图像数据，所述两个判别器分别用于对转换后的所述可见光转换图像数据和红外转换图像数据进行判断，获得判断结果并反馈。

5.根据权利要求3或权利要求4所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述生成器包括：

编码模块，用于提取被输入图像的多尺度特征，所述编码模块包括并行四个不同尺度的并联卷积核构成的跨精度卷积块、四个串联的自适应注意力模块；

通过瓶颈结构堆叠进行特征转换，将压缩后的特征转换为目的图像域的特征；

通过上采样和反卷积对目的图像域的特征进行解码。

6.根据权利要求5所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述自适应注意力模块的输出为，其公式（1）如下：

（1）

所述公式（1）中为输入图像，/>为全局平均池化，/>为尺度为1的卷积核，代表激活函数。

7.根据权利要求5所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述跨精度卷积块的动态输出融合后的多尺度特征公式（2）如下：

(2)

公式(2）中为输入图像；/>为多尺度卷积核，m为并联多尺度卷积核的数量，n为每个尺度卷积核的数量；/>为/>对应的自适应注意力权重系数。

8.根据权利要求5所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述循环生成对抗网络模型的训练过程中根据损失函数更新模型参数，所述损失函数包括：

A域红外图像和A域重构图像在颜色和纹理结构上保持一致的约束损失为，其公式（6）如下：

（6）

所述公式（6）中，a为样本图像，表示红外图像数据转换为可见光图像数据的生成器；/>表示可见光图像数据转换为红外图像数据的生成器；

所述网络的总损失函数L，其公式（7）如下：

（7）

所述公式（7）中，代表判别器/>的对抗损失，/>代表判别器/>的对抗损失，D _A是判别生成图像是否属于A域的判别器；D _B是判别生成图像是否属于B域的判别器；/>表示原图像和经过两个生成器后得到的重构图像的平均误差损失；α和β为可调节的参数，表示平均误差损失和约束损失在总体损失中的权重。

9.根据权利要求1所述的一种基于域迁移的夜间红外图像动物识别方法，其特征在于，所述循环生成对抗网络模型中包括所述域迁移网络，该域迁移网络中包括迁移可见光图像数据的生成器，用于将所述红外图像数据转换为迁移可见光图像数据。

10.一种基于域迁移的夜间红外图像动物识别系统，其特征在于，基于权利要求1-9任意一项所述的识别方法，该系统包括采集模块、迁移模块、识别模块，其中：

所述采集模块用于采集可见光图像数据和红外图像数据；