CN117274899B

CN117274899B - 基于可见光和红外光图像特征融合的仓储隐患检测方法

Info

Publication number: CN117274899B
Application number: CN202311214519.5A
Authority: CN
Inventors: 王丽婷; 杨林; 路翠华; 李福强; 邓力; 宋超; 郑晓梅
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2024-05-28
Anticipated expiration: 2043-09-20
Also published as: CN117274899A

Abstract

本发明公开了基于可见光和红外光图像特征融合的仓储隐患检测方法，属于图像处理技术领域。包括：首先对可见光和红外光图像进行采集与预处理，包括图像配准、去噪、增强等操作，使两种图像具有相同的尺寸和视角；基于双流卷积神经网络的可见光图像和红外图像特征提取，充分提取和利用两种图像的特征，获得具有丰富语义信息的特征图；多模态特征融合，使用Transformer架构，将可见光图像和红外图像特征进行多次融合；多层对抗检测，使用异常特征生成的方法扩充训练样本，并对于不同大小的特征图使用不同的检测器，最后进行安全隐患的检测与定位。本发明旨在利用可见光和红外图像的特征融合，提升仓库安全隐患检测的速度和效果。

Description

基于可见光和红外光图像特征融合的仓储隐患检测方法

技术领域

本发明涉及图像处理技术领域，特别涉及基于可见光和红外光图像特征融合的仓储隐患检测方法。

背景技术

仓储行业是物流行业的重要组成部分，负责存储和管理货物，为生产、销售和消费等环节提供支持。随着全球贸易的增长和电子商务的发展，仓储行业也迅速发展壮大。然而，现有的人工检测方法由于仓储环境复杂、物品不断移动变化、对安全检测技能有一定的知识门槛等原因，仓储安全隐患检测仍然面临困难。因此，如何即使、准确发现仓储安全问题，提高仓储安全性，降低危险灾害发生可能性，成为了智能仓储亟待解决的问题。

发明内容

本发明提供了基于可见光和红外光图像特征融合的仓储隐患检测方法，旨在利用可见光和红外图像特征融合提升安全隐患检测的速度和效果。

本发明提出的基于可见光和红外光图像特征融合的仓储隐患检测方法。主要包括以下步骤：

步骤101：可见光图像和红外图像的采集与预处理。从搭载可见光摄像和红外摄像的监控设备和巡检设备采集可见光图像与红外热成像，然后分别进行数据处理。将数据进行备份处理，提供给用户保存和查看。

步骤102：使用骨干网络进行可见光图像和红外图像的特征提取，同时在多模态特征融合模块中进行特征融合。双流卷积网络可见光图像和红外图像特征提取：多次使用卷积神经网络进行特征提取，并通过多模态特征融合模块将其特征进行融合后，分次输出三种不同大小的特征图，分别对应小、中、大目标检测。

步骤103：将不同大小的特征图像分别输入鉴别器，产生对不同大小的安全隐患目标检测结果：首先，使用特征卷积集处理双卷积网络输出的特征图，并逐级进行上采样处理，输入上一级的特征处理单元，参与卷积集处理；将三个卷积集输出分别接入三个异常特征生成器中，在正常特征中添加高斯噪声生成缺陷样本，扩充训练样本的丰富程度；将正常样本和缺陷样本一同输入鉴别器，最后进行安全隐患的检测与定位。

与现有的技术相比，本发明的有益效果是：

本发明提出了基于可见光和红外光图像特征融合的仓储隐患检测方法，可以及时、准确地发现和诊断仓储安全隐患，提高仓储安全性，降低仓储维护成本，保证其长期稳定运行。本发明的创新性主要体现在两个方面：使用Transformer架构的多模态特征融合模块，对可见光图像和红外图像特征进行融合；可见光图像和红外图像特征提取。其优点如下：

(1)多模态特征融合模块被密集地插入到骨干网络中以整合特征，因此不同模态之间的固有互补性可以得到充分利用；

(2)通过输出不同维度的特征图，可以实现对不同大小的目标检测，适应能力更强；

(3)使用自监督方法生成缺陷样本，与正常样本一同输入鉴别器训练，解决训练样本较少的问题，从而提高安全隐患检测的性能。

本发明将使用Transformer架构的多模态特征融合模块嵌入到特征提取骨干网络中，以便从不同模态整合全局上下文信息，检测和定位安全隐患位置。得益于Transformer的自注意力机制的优势，该方法可以获取全局的感受野，可以有效提高检测效率和准确率。通过本发明提出的方法，对红外和可见光采集设备图像进行分析处理，应用红外和可见光双光源目标检测技术，可以实现自动化检测仓储中的各种安全隐患，如火源、化学品泄漏、货物掉落、未知人员等，并快速、准确地对隐患进行定位，确定安全隐患的数量、类型、等级。同时，该技术方法还可以自动统计安全隐患的发生频率、时间段，导出统计表并进行分析，为智能仓储提供有力支持和保障。

附图说明

图1是本发明提供的基于可见光和红外光图像特征融合的仓储隐患检测方法具体流程示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于可见光和红外光图像特征融合的仓储隐患检测方法。

图1为本发明实施例所提供的基于可见光和红外光图像特征融合的仓储隐患检测方法的流程示意图。该方法包括以下步骤：

步骤101：可见光图像和红外图像的采集与预处理。

通过控制监控设备或巡检设备，采集并记录可见光图像、红外图像、其他信息等数据。将获取的可见光图像和红外图像进行数据预处理，包括图像拼接、图像去噪、图像增强、滤波、重复图像清洗等。结合时间、地点等其他信息，生成对应的巡检数据，并将其转化为可视化图形资料，通过可视化软件提供给用户查看和分析。

步骤102：双流卷积网络特征提取与多模态特征融合

(1)骨干网络

对于给定的一对大小均为640×640×3的可见光图像和红外图像/>各使用一种卷积特征提取器E_F提取其中的特征。

其中，E_F由可见光和红外光两条路径、每个路径各4次卷积特征提取步骤组成，因此，E_F共有8个相似的卷积特征提取步骤。每个卷积特征提取步骤由1-2个卷积残差单元C^k组成；C^k分别记为C¹、C²、C³、C⁴和C⁵；其中，C¹、C²构成可见光和红外光两条路径上的第一次卷积特征提取，C³、C⁴和C⁵分别构成可见光和红外光两条路径上的第二至第四次卷积特征提取。

卷积残差单元包含的每个卷积层组包含三个串联组件，分别是卷积层(Con2dLayer)、批正则化层(BNLayer)和斜率为0.1的激活函数层(LeakyReLULayer)。首先，图像输入一个卷积核32，大小3×3，步长1的卷积层组。第一个卷积残差单元C¹由一个卷积核64，大小3×3，步长2的卷积层组和一个卷积块组成。该卷积块包含一个卷积核32，大小1×1，步长1的卷积层组和一个卷积核64，大小3×3，步长1以及残差连接串行组成。C¹输出特征图大小为320×320×64。

类似地，C²由一个卷积核128，大小3×3，步长2的卷积层组与重复两次的卷积块构成。该卷积块包括一个卷积核64，大小1×1，步长1的卷积层组和一个卷积核128，大小3×3，步长1的卷积层组串联组成。C²输出特征图大小为160×160×128。将C²得到的可见光特征图F_R2和红外特征图F_T2输入多模态特征融合模块，同时将得到的融合后的可见光特征图F'_R2和红外特征图F'_T2重新输入骨干网络。

C³由一个卷积核256，大小3×3，步长2的卷积层组与重复8次的卷积块构成。该卷积块包括一个卷积核128，大小1×1，步长1的卷积层组和一个卷积核256，大小3×3，步长1的卷积层组串联组成。对C³得到的可见光特征图F_R3和红外特征图F_T3进行拼接，输入特征图处理模块进行下一步检测。同时将C³得到的可见光特征图F_R3和红外特征图F_T3输入多模态特征融合模块，同时将得到的融合后的可见光特征图F'_R3和红外特征图F'_T3重新输入骨干网络。

C⁴由一个卷积核512，大小3×3，步长2，的卷积层组与重复8次的卷积块构成。该卷积块包括一个卷积核256，大小1×1，步长1的卷积层组和一个卷积核512，大小3×3，步长1的卷积层组串联组成。对C⁴得到的可见光特征图F_R4和红外特征图F_T4进行拼接，输入特征图处理模块行下一步检测。同时将C⁴得到的可见光特征图F_R4和红外特征图F_T4输入多模态特征融合模块，同时将得到的融合后的可见光特征图F'_R4和红外特征图F'_T4重新输入骨干网络。

C⁵由一个卷积核1024，大小3×3，步长2的卷积层组与重复4次的卷积块构成。该卷积块包括一个卷积核512，大小1×1，步长1的卷积层组和一个卷积核1024，大小3×3，步长1的卷积层组串联组成。对C⁵得到的可见光特征图F_R5和红外特征图F_T5进行拼接，输入特征图处理模块进行下一步检测。

(2)多模态特征融合模块

对于给定的可见光特征图F_R∈R^C×H×W和红外特征图F_T∈R^C×H×W，将其展开为向量I_R∈R^HW×C和I_T∈R^HW×C。将两个向量连接，并加一个维度为2HW×C的位置嵌入，得到Transformer的输入I∈R^2HW×C。然后计算一组查询、键和值(Q、K和V)：

W＝IW^Q

K＝IW^K

V＝IW^V

其中，W^Q∈R^C×C、W^K∈R^C×C和W^V∈R^C×C为权重矩阵。使用Q和K之间的缩放点积计算注意力权重，并乘V推断出Z，

其中是一个缩放因子，用于防止当点积幅度变大时softmax函数落入梯度极小的区域。为了封装不同表示子空间不同位置之间的多种复杂关系，采用多头注意力机制，

Z'＝MultiHead(Q,K,V)＝Concat(Z₁,...,Z_h)W^o

其中下标h为头数，W^O∈R^h·C×C表示Concat(Z₁,...,Z_h)的投影矩阵。随后使用一个激活函数为GELU的两层全连接前馈网络计算与输入I维度相同的输出序列O，

O＝NLP(Z″)+Z″

＝FC₂(GELU(FC₁(Z″)))+Z″

其中Z″＝Z'+I。最后，使用特征图展开为I_R和I_T的逆运算将输出O重新构成可见光特征图F'_R和红外特征图F'_T，并输入到骨干网络中。

步骤103：根据特征进行安全隐患检测与定位

(1)特征卷积集和上采样处理

对于C³、C⁴和C⁵输出的特征图，分别使用一个卷积集进行处理。每个卷积集均为大小1×1、3×3、1×1、3×3、1×1的五个卷积层组串联的结构。对于C⁵输出的特征图，使用一个上述卷积集处理，然后将卷积集输出经过一个1×1的卷积层组和一次2倍上采样，与C⁴输出特征图进行拼接。将拼接后的特征输入对应的卷积集，将卷积集输出经过一个1×1的卷积层组和一次2倍上采样，与C³输出的特征图进行拼接；将拼接后的特征输入最后一个对应卷积集。

(2)异常特征生成器

由于出现安全隐患的样本少，故在正常特征F_n中添加噪声生成负例样本，每个样本加入一个负样本特征。具体方法为，对噪声向量ε进行采样，使其满足高斯分布N(μ,σ²)，生成虚假的安全隐患目标，并将其放入空白的、大小与训练样本一致的图像中，这样就得到生成的负例样本，并且其中包含了负例样本标注用于后续的损失函数计算。所得负例样本分别进入可见光与红外卷积通道，得到负例样本的特征。每使用一次这种方法，就得到具有随机位置和随机噪声的负例样本特征，通过反复使用就增大了负例样本数量。在训练时随机选择其中一个负例样本特征，将其加入提取出的特征中，并输入鉴别器。生成的负例样本特征可表示为：F^i-＝Fⁱ+ε。

(3)鉴别器

将三个处理结束的融合特征样本和加入异常噪声的负例样本输入对应的三个鉴别器，由图1所示的从上至下三个鉴别器分别进行小目标、中目标和大目标的识别。其训练损失Loss为：

其中，D⁺与D^-分别为正例与负例损失，th⁺与th^-分别为防止过拟合的截断阈值，分别将其设置为0.5和-0.5，X_train为训练集，Xⁿ为其中第n个可见光-红外光样本。对于每个样本，其损失为：

D(O,o,C,c,t,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(t,g)

其中，D为单个样本损失函数，O为样本的真实类别，o为预测目标边界框中是否真实存在目标，C为预测目标边界框内存在某类目标的概率，c为预测目标矩形框内是否存在目标的概率，t为预测框的位置参数，g为标注框的位置，λ₁、λ₂、λ₃为权重参数，L_conf(o,c)为目标置信度损失，L_cla(O,C)为目标类别损失，L_loc(t,g)为目标定位损失。目标置信度损失L_conf(o,c)与目标类别损失L_cla(O,C)均采用二值交叉熵损失，目标定位损失L_loc(t,g)采用均方损失。

(4)后处理

根据样本的o值(预测目标边界框中是否真实存在目标)的大小进行边界框过滤。当分数低于阈值时，边界框会被忽略，不进行任何输出；反之，当分数高于阈值时，输出此边界框和安全隐患类别，并发出示警，记录入数据库。使用非极大值抑制(NMS)解决对同一个图像的多次检测的问题，只保留得分最高的边界框。

Claims

1.基于可见光和红外光图像特征融合的仓储隐患检测方法，其特征在于包括以下步骤：

步骤101：可见光图像和红外图像的采集与预处理，通过控制监控设备或巡检设备，采集并记录可见光图像、红外图像数据；将获取的可见光图像和红外图像进行数据预处理，包括图像拼接、图像去噪、图像增强、滤波、重复图像清洗；结合时间、地点信息，生成对应的巡检数据，并将其转化为可视化图形资料，通过可视化软件提供给用户查看和分析；

步骤102：使用双卷积网络进行可见光图像和红外图像的特征提取，同时在多模态特征融合模块中进行特征融合；双卷积网络可见光图像和红外图像特征提取是指使用卷积神经网络进行特征提取，并通过多模态特征融合模块将其特征进行融合后，分次输出三种不同大小的特征图，分别对应小、中、大目标检测；

步骤103：将不同大小的特征图像分别输入鉴别器，产生对不同大小的安全隐患目标检测结果：首先，使用特征卷积集处理双卷积网络输出的特征图，并逐级进行上采样处理，输入上一级的特征处理单元，参与卷积集处理；将三个卷积集输出分别接入三个异常特征生成器中，在正常特征中添加高斯噪声生成缺陷样本，扩充训练样本的丰富程度；将正常样本和缺陷样本一同输入鉴别器，最后进行安全隐患的检测与定位；

所述步骤102中使用双卷积网络进行可见光图像和红外图像的特征提取是指：对给定的一对大小均为640×640×3的可见光图像和红外图像/>各使用一种卷积特征提取器E_F提取其中的特征；

其中，E_F由可见光和红外光两条路径、每个路径各4次卷积特征提取步骤组成，因此，E_F共有8个相似的卷积特征提取步骤；每个卷积特征提取步骤由1-2个卷积残差单元C^k组成；C^k分别记为C¹、C²、C³、C⁴和C⁵；其中，C¹、C²构成可见光和红外光两条路径上的第一次卷积特征提取，C³、C⁴和C⁵分别构成可见光和红外光两条路径上的第二至第四次卷积特征提取；将C²、C³、C⁴得到的可见光特征图F_R和红外特征图F_T输入多模态特征融合模块，同时将得到的融合后的可见光特征图F'_R和红外特征图F'_T重新输入骨干网络；对C³、C⁴、C⁵得到的可见光特征图F_R和红外特征图F_T进行拼接，输入特征图处理模块进行下一步检测；

所述步骤102中多模态特征融合方法是指：

(1)对于给定的可见光特征图F_R∈R^C×H×W和红外特征图F_T∈R^C×H×W，将其展开为向量I_R∈R^HW×C和I_T∈R^HW×C；

(2)将两个向量连接，并加一个维度为2HW×C的位置嵌入，得到Transformer的输入I∈R^2HW×C；

(3)计算一组查询Q、键K和值V；

(4)使用Q和K之间的缩放点积计算注意力权重，并乘V推断出Z，其中使用缩放因子用于防止当点积幅度变大时softmax函数落入梯度极小的区域；

(5)为了封装不同表示子空间不同位置之间的多种复杂关系，采用多头注意力机制，随后使用一个激活函数为GELU的两层全连接前馈网络计算与输入I相同的输出序列O；

(6)使用第一步的逆运算将输出O重新构成可见光特征图F'_R和红外特征图F'_T，并输入到骨干网络中。

2.如权利要求1所述的基于可见光和红外光图像特征融合的仓储隐患检测方法，其特征在于所述步骤103中特征卷积集和上采样处理是指：对于C³、C⁴和C⁵输出的特征图，分别使用一个卷积集进行处理；每个卷积集均为大小1×1、3×3、1×1、3×3、1×1的五个卷积层组串联的结构；对于C⁵输出的特征图，使用一个上述卷积集处理，然后将卷积集输出经过一个1×1的卷积层组和一次2倍上采样，与C⁴输出特征图进行拼接；将拼接后的特征输入对应的卷积集，将卷积集输出经过一个1×1的卷积层组和一次2倍上采样，与C³输出的特征图进行拼接；将拼接后的特征输入最后一个对应卷积集。

3.如权利要求1所述的基于可见光和红外光图像特征融合的仓储隐患检测方法，其特征在于所述步骤103中的异常特征生成器是指：由于出现安全隐患的样本少，故在正常特征F_n中添加噪声生成负例样本，每个样本加入一个负样本特征；具体方法为，对噪声向量ε进行采样，使其满足高斯分布N(μ,σ²)，生成虚假的安全隐患目标，并将其放入空白的、大小与训练样本一致的图像中，这样就可以得到生成的负例样本，并且其中包含了负例样本标注用于后续的损失函数计算，所得负例样本分别进入可见光与红外卷积通道，得到负例样本的特征，每使用一次这种方法，就得到具有随机位置和随机噪声的负例样本特征，通过反复使用增大了负例样本数量，在训练时随机选择其中一个负例样本特征，将其加入提取出的特征中，并输入鉴别器，生成的负例样本特征可表示为：F^i-＝Fⁱ+ε。

4.如权利要求1所述的基于可见光和红外光图像特征融合的仓储隐患检测方法，其特征在于所述步骤103中的鉴别器是指：

将正常样本和缺陷样本一同输入鉴别器，从上至下三个鉴别器分别进行小目标、中目标和大目标的识别；对于每个样本，其损失Loss为：

其中，D⁺与D^-分别为正例与负例损失，th⁺与th^-分别为防止过拟合的截断阈值，分别将其设置为0.5和-0.5，X_train为训练集，Xⁿ为其中第n个可见光-红外光样本对；对于每个样本，其损失为：

D(O,o,C,c,t,g)＝λ₁L_conf(o,c)+λ₂L_cla(O,C)+λ₃L_loc(t,g)

其中，D为单个样本损失函数，O为样本的真实类别，o为预测目标边界框中是否真实存在目标，C为预测目标边界框内存在某类目标的概率，c为预测目标矩形框内是否存在目标的概率，t为预测框的位置参数，g为标注框的位置，λ₁、λ₂、λ₃为权重参数，L_conf(o,c)为目标置信度损失，L_cla(O,C)为目标类别损失，L_loc(t,g)为目标定位损失；

目标置信度损失L_conf(o,c)与目标类别损失L_cla(O,C)均采用二值交叉熵损失，目标定位损失L_loc(t,g)采用均方损失；

最后，根据样本的o值的大小进行边界框过滤，当分数低于阈值时，边界框会被忽略，不进行任何输出；反之，当分数高于阈值时，输出此边界框和安全隐患类别，并发出示警，记录入数据库，使用非极大值抑制解决对同一个图像的多次检测的问题，只保留得分最高的边界框。