CN116310713B

CN116310713B - 红外图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN116310713B
Application number: CN202310149395.0A
Authority: CN
Inventors: 吴新涛
Original assignee: Jiayang Smart Security Technology Beijing Co ltd
Current assignee: Jiayang Smart Security Technology Beijing Co ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2024-03-19
Anticipated expiration: 2043-02-16
Also published as: CN116310713A

Abstract

本申请实施例提供的一种红外图像识别方法、装置、电子设备及存储介质，涉及图像处理技术领域，该方法包括：首先，获取第一红外图像，确定模型处理的对象，而后将该第一红外图像输入至目标检测模型，通过所述目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像，能够避免红外图像与RGB图像间所存在的域隔离问题，采用本申请所提供的方法对红外图像进行目标对象的识别，能够提高红外图像识别的效率。

Description

红外图像识别方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，具体涉及一种红外图像识别方法、装置、电子设备及存储介质。

背景技术

在实际作业场景中，在利用红外温场来监测电子设备是否正常使用时，目标对象的遮挡会导致监测异常或监测的准确性降低，现有技术以红外图像和RGB图像共同确定目标对象的所处位置，而由于红外图像与RGB图像存在域隔离问题，在处理红外图像与RGB图像，以确定目标对象之前，需解决红外图像与RGB图像间的域隔离问题，因此，会导致图像识别的效率较低。

发明内容

本申请实施例提供了一种红外图像识别方法、装置、电子设备及计算机可读存储介质，可解决图像识别效率较低的问题。

第一方面，本申请实施例提供了一种红外图像识别方法，方法包括：

获取第一红外图像，所述第一红外图像为监控设备采集到的机器的作业现场图像；

通过训练好的目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像；

其中，在所述目标检测模型识别到所述第一红外图像包括所述目标对象的情况下，所述第二红外图像包括所述第一红外图像，以及所述目标对象对应的第一搜索框；在所述目标检测模型未识别到所述第一红外图像包括所述目标对象的情况下，所述第二红外图像为所述第一红外图像；所述目标对象为干扰所述机器的作业现场的对象；

所述训练好的目标检测模型为YOLOV5模型，所述YOLOV5模型的骨干网络为微卷积神经网络；所述YOLOV5模型的特征金字塔网络包括P6特征图；所述YOLOV5模型的解耦网络头包括置信度分支和分类分支。

在一个可能实现的实施例中，在通过目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像之后，红外图像识别方法还包括：

通过目标分类模型识别所述第二红外图像，得到第三红外图像；

其中，在所述第二红外图像包括所述第一红外图像和所述第一搜索框，且所述目标分类模型识别到所述第一搜索框的目标信息与所述目标对象的目标信息不匹配的情况下，所述第三红外图像包括所述第一红外图像和第二搜索框，所述第二搜索框的目标信息与所述目标对象的目标信息匹配，所述目标信息包括位置和尺寸中的至少一项；

在所述第二红外图像包括所述第一红外图像和所述第一搜索框，且所述目标分类模型识别到所述第二红外图像未包括所述目标对象的情况下，所述第三红外图像为所述第一红外图像。

在一个可能实现的实施例中，所述目标检测模型用于：

通过所述YOLOV5模型的微卷积神经网络提取所述第一红外图像中的第一特征F₁、第二特征F₂、第三特征F₃以及第四特征F₄；

通过所述YOLOV5模型的特征金字塔网络采用下采样方式融合所述第一特征F₁、第二特征F₂、第三特征F₃以及第四特征F₄，得到第六特征图P6；

通过所述YOLOV5模型的解耦网络头对所述第六特征图P6进行图像处理，得到第二红外图像。

在一个可能实现的实施例中，在获取第一红外图像之前，红外图像识别方法还包括：

构建所述目标检测模型；所述目标检测模型包括骨干网络、特征金字塔网络以及解耦网络头；

获取红外图像训练集，所述红外图像训练集中的红外图像标记有所述的目标对象所处的位置；

利用所述红外图像训练集训练所述目标检测模型，得到训练好的目标检测模型。

在一个可能实现的实施例中，所述利用所述红外图像训练集训练所述目标检测模型，得到训练好的目标检测模型，红外图像识别方法包括：

根据周期性学习率迭代策略，训练所述目标检测模型L次，得到L次训练对应的L个权重值；

采用随机权重平均方法确定目标权重值，所述目标权重值基于所述L个权重值确定；

根据所述目标权重值，确定所述训练好的目标检测模型的模型权重值。

在一个可能实现的实施例中，所述YOLOV5模型还包括马赛克数据增强、混合数据增强以及自动数据增强，红外图像识别方法还包括：

根据所述马赛克数据增强，调整第一图像训练集的图像尺寸，得到第二图像训练集；所述目标图像训练集包括所述第一图像训练集；

通过所述马赛克数据增强，调整第一红外图像的图像尺寸，得到调整后的第一红外图像；

通过所述混合数据增强，对所述调整后的第一红外图像与第四红外图像进行混合重叠，得到第五红外图像；所述第四红外图像为除所述第二红外图像之外的图像采样集中的图像；

通过所述自动数据增强，确定所述第五红外图像的图像变换策略；

根据所述图像变换策略，对所述第五红外图像进行图像变换，得到目标图像训练集。

第二方面，本申请实施例提供了一种红外图像识别装置，红外图像识别装置包括：

获取模块，用于获取第一红外图像，所述第一红外图像为监控设备采集到的机器的作业现场图像；

识别模块，用于通过训练好的目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像；

第三方面，本申请实施例提供了一种电子设备，该电子设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时执行实现上述红外图像识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述红外图像识别实施例的各个过程。

第五方面，本申请实施例提供了一种计算机程序产品，计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备执行实现上述红外图像识别的各个过程。

本申请实施例提供的一种红外图像识别方法、装置、电子设备及计算机可读存储介质和计算机程序产品，该方法包括：首先，获取第一红外图像，确定模型处理的对象，而后将该第一红外图像输入至目标检测模型，通过所述目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像，能够避免红外图像与RGB图像间所存在的域隔离问题，即采用本申请所提供的只需对红外图像进行目标对象的识别，能够提高红外图像识别的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本申请实施例提供的一种红外图像识别方法的流程图；

图2为本申请实施例提供的目标检测模型中的卷积神经网络架构图；

图3为本申请实施例提供的解耦网络头的置信度分支和类别分支示意图；

图4(a)为本申请实施例提供的原残差结构示意图；

图4(b)为本申请实施例提供的倒残差结构示意图；

图5为本申请实施例提供的目标检测模型识别的流程图；

图6为本申请实施例提供的目标分类模型分类的流程图；

图7为本申请实施例提供的随机权重平均方法的示意图；

图8为本申请实施例提供的一种红外图像识别装置的结构框图；

图9为本申请实施例提供的一种红外图像识别电子设备的结构图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

在本文中，诸如第一第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本实施例提供了一种红外图像识别方法，如图1所示，步骤如下：

S101：获取第一红外图像，所述第一红外图像为监控设备采集到的机器的作业现场图像。

第一红外图像为监控设备采集到的机器的一帧作业现场图像，具体而言，监控设备可采集一个时间段内的作业现场视频，作业现场视频包括两帧或两帧以上的作业现场图像，可在该作业现场视频中进行采样，得到N帧作业现场图像，其中，第一红外图像为N帧作业现场图像中的一帧图像。

在一个具体的实施例中，在该作业现场视频中进行采样的方式包括但不限于：若作业现场视频包括N帧作业现场图像，每隔F帧作业现场图像，采样F帧作业现场图像，直至该N帧作业现场图像采样完毕。

监控设备的安装可满足用户所需的监控范围，以保证样本的准确性。

获取第一红外图像，以确定训练好的目标检测模型所检测的对象，为本申请实施例提供数据基础。

S102：通过训练好的目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像。

由于目标对象可以包括干扰机器的作业现场的对象，而导致监控设备无法确定机器是否正常运行，因而本申请实施例采用深度学习的检测模型识别目标对象，能够根据在监控设备所采集的第一红外图像，识别出目标对象。

训练好的目标检测模型为YOLOV5模型，以该YOLOV5模型为主体，该模型还包括：骨干网络、特征金字塔网络以及解耦网络头。

具体地，首先，尽管当前Transformer网络架构在目标检测模型中逐渐趋于主导地位，但由于Transformer网络架构存在训练困难以及推理速度慢等问题，因此，为避免训练困难以及推理速度慢的情况，本申请实施例将传统的骨干网络CSP-DarkNet网络转换为微卷积神经网络，即，将微卷积神经网络ConvNeXt-Tiny作为本申请训练好的目标检测模型对应的骨干网络，采用类似Swin Transformer的训练方式，可在模型输出结果上不逊于Transformer网络架构所输出的识别结果，故，本申请实施例采用微卷积神经网络ConvNeXt-Tiny作为训练好的目标检测模型对应的骨干网络。

其次、考虑到由于目标对象在第一红外图像上的尺寸大小的多样化，与此同时，提高目标检测模型的检测性能，本申请在特征金字塔网络原有的采样倍数为8、16以及32的三个特征图的基础上，引入采样倍数为64的P₆特征图。

最后，参考YOLOX的检测头同样对YOLOV5的检测头进行解耦，将置信度分支和类别分支分离开。由于本方案在检测部分只存在单一类别，因此，将置信度分支和类别分支分离开的作用是，可提升置信度分支的准确性。

将S101所获取的第一红外图像输入至训练好的目标检测模型中，目标检测模型对第一红外图像中的目标对象进行识别，可包括两种情况中的至少一种情况：

第一种情况为：若目标检测模型识别到第一红外图像包括目标对象的情况，会将训练好的目标检测模型所识别得到的目标对象用第一搜索框确定该目标对象所处的位置，将目标对象用该第一搜索框圈住，或对第一红外图像中的其他对象识别为目标对象，同样地，采用第一搜索框将识别为目标对象的其他对象框住，即为目标检测模型的错误识别，因此，目标检测模型的输出均为第二红外图像，且该第二红外图像包括第一红外图像以及识别目标对象所处位置的第一搜索框。

第二种情况为：若目标检测模型未识别到第一红外图像包括目标对象的情况下，即存在以下识别类型中的至少一种类型，若第一红外图像包括目标对象，但该目标检测模型无法识别出第一红外图像中的目标对象，或，若第一红外图像不包括目标对象，则该目标检测模型无法识别出第一红外图像中的目标对象，因此，对于上述所呈现的第二种情况中的两种类型，目标检测模型的输出均为第二红外图像，而该第二红外图像为第一红外图像。

其中，第一搜索框为标识目标对象在第一红外图像所处的位置而准备的无规则的闭合的线条。

采用本申请提供的红外图像识别方法，首先，获取第一红外图像，确定模型处理的对象，而后将该第一红外图像输入至目标检测模型，通过所述目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像，能够避免红外图像与RGB图像间所存在的域隔离问题，即采用本申请所提供的只需对红外图像进行目标对象的识别，能够提高红外图像识别的效率。

在一些实施例中，在通过目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像之后，红外图像识别方法还包括：

在一个具体的实施例中，目标分类模型可以选择MobileNetV2网络，该MobileNetV2网络是一种轻量的目标分类模型，如图4(a)和图4(b)所示，MobileNetV2网络最大的亮点便是其使用了倒残差(Inverted Residuals)结构，在ResNet提出的残差结构中，先使用1×1卷积实现降维，然后通过3×3卷积，最后通过1×1卷积实现升维，即两头大中间小。在MobileNetV2中，将降维和升维的顺序进行了调换，并且将3×3卷积换为3×3深度可分离卷积卷积，即两头小中间大。

在通过目标分类模型世界第二红外图像之前，需对该目标分类模型进行训练，以进一步提高红外图像识别的准确性。

在目标检测模型输出第二红外图像时，进而将第二红外图像输入至目标分类模型进行进一步的模型识别第二红外图像，输出第三红外图像。

目标分类模型用于校验目标检测模型的识别结果是否准确，并用于在识别结果不准确的情况下对识别结果进行调整，因此，第三红外图像为目标分类模型基于目标检测模型输出的第二红外图像进一步识别，在目标分类模型的输出端输出的。

具体地，在第二红外图像输入到目标分类模型后，在第二红外图像满足第一预设条件时，第一预设条件为：第二红外图像包括第一红外图像和第一搜索框，且第一搜索框内的目标信息与目标对象的目标信息不匹配，则确定目标检测模型的识别结果不准确。

第一搜索框内的目标信息与目标对象的目标信息不匹配包括以下两种情况中的至少一种情况，具体表示为：第一种情况为第一搜索框尺寸过大或过小，无法准确确定目标对象所在的位置，第二种情况为第一搜索框的目标信息与目标对象的目标信息无法完全匹配，对于第一种情况，目标分类模型将第一搜索框的尺寸进行调整，对于第二种情况，目标分类模型将再次识别第一搜索框内的目标信息，确定第一搜索框内的目标信息与目标对象的目标信息是否匹配，再次识别后确认无法完全匹配，则目标分类模型删除该搜索框。总而言之，目标信息不匹配表示识别结果有偏差，准确性较低，因此，本申请实施例提供目标分类模型以进一步调整目标检测模型的识别结果，提高识别的准确性。

其中，目标信息不匹配包括目标对象的位置有所偏差，以及该第一搜索框的尺寸偏大或偏小，无法将第二红外图像中的目标对象全部框住，或框住的部分过大。

而在第二红外图像满足第二预设条件时，第二预设条件为：在第二红外图像包括第一红外图像和第一搜索框时，且目标分类模型识别到第二红外图像未包括目标对象的情况下，目标分类模型输出第三红外图像，该目标红外图像可以为第一红外图像。

通过目标分类模型进一步识别第二红外图像，输出第三红外图像，可以提高红外图像识别的准确性。

在一些实施例中，所述目标检测模型用于：

在将第一红外图像输入目标检测模型之后，如图2所示，通过YOLOV5模型的微卷积神经网络ConvNeXt-Tiny，骨干段网络ConvNeXt-T依次由1个单独的4×4卷积层、规范层(LayerNorm)、ConvNeXt_1模块、ConvNeXt_2模块、ConvNeXt_3模块、下采样模块Ⅰ、ConvNeXt_4模块、ConvNeXt_5模块、ConvNeXt_6模块、下采样模块Ⅱ、ConvNeXt_7模块、ConvNeXt_8模块、ConvNeXt_9模块、ConvNeXt_10模块、ConvNeXt_11模块、ConvNeXt_12模块、ConvNeXt_13模块、ConvNeXt_14模块、ConvNeXt_15模块、下采样模块Ⅲ、ConvNeXt_16模块、ConvNeXt_17模块、ConvNeXt_18模块、全局平均池化层、规范层(LayerNorm)和线性化层(Linear)组成(为避免图片过大导致不清楚，全局平均池化层、规范层(LayerNorm)和线性化层(Linear)。ConvNeXt_1模块依次由1个7×7逐层卷积层、规范层(LayerNorm)、1个1×1的卷积层、1个GELU激活函数、1个1×1的卷积层、比例缩放(Layer Scale)和正则化层(DropPath)组成，并由一个残差连接将输入和输出进行相加；下采样模块(下采样模块Ⅰ、下采样模块Ⅱ、下采样模块Ⅲ)由规范层(LayerNorm)和1个2×2的卷积层组成。ConvNeXt_2模块,ConvNeXt_3模块,…ConvNeXt_18模块的结构与ConvNeXt_1模块相同；通过骨干段网络ConvNeXt-T中ConvNeXt_3模块、ConvNeXt_6模块、ConvNeXt_15模块、ConvNeXt_18模块分别提取出第一特征F1、80×80×192的第二特征F2、40×40×384的第三特征F3和20×20×768的第四特征F4，实现对第一红外图像由浅至深的卷积特征提取。

ConvNeXt是纯卷积神经网络，其对标的是Swin Transformer，通过使用类似SwinTransformer的训练方式，在相同的FLOPs下，相比于Swin Transformer，采用ConvNeXt可提高模型推理速度和准确率。

ConvNeXt将不同阶段之间块的比例由(3,4,6,3)调整成(3,3,9,3),将最初的下采样模块即包括一个卷积核大小为7x7步距为2的卷积层以及一个步距为2的最大池化(最大池化的目的在于保留原特征的同时减少神经网络训练的参数，使得训练时间减少。相当于1080p的视频变为了720p)下采样替换为一个卷积核大小为4x4步距为4的卷积层。此外，使用深度可分离卷积来替换自注意力机制，使用翻转卷积块来替代MLP层，所谓翻转卷积块其实就是两边细，中间粗的网络结构。并且增大深度可分离卷积的卷积核大小，将深度可分离卷积的位置在翻转卷积块中的位置上移，来应对自注意机制在MLP层的前面。最后，使用GELU激活函数来替代RELU激活函数，使用层归一化来替代批量归一化。

通过所述YOLOV5模型的特征金字塔网络通过下采样方式对提取的第一特征F1、第二特征F2、第三特征F3、第四特征F4进行由深到浅与由浅到深的特征融合，具体为：第四特征F4经过CSPN2模块、CBL卷积块得到第一特征图P1，第一特征图P1经过上采样后和第二特征F2进行融合得到第二特征图P2；第二特征图P2经过CSPN2模块、CBL卷积块得到第三特征图P3，第三特征图P3经过上采样后和第一特征F1进行融合并经CSPN2模块得到第四特征图P4；第四特征图P4经过CBL卷积块得到第五特征图P5，第五特征图P5与第三特征图P3进行融合并经CSPN2模块得到第六特征图P6。

其中，CSPN2模块有2个分支，1个分支为2个CBL卷积块、1个卷积层，另1个分支为1个卷积层，两个分支的输出进行特征融合后，依次经过批归一化层(BN)、Leaky RuLU激活函数和CBL卷积块获得最终输出，其中CBL卷积块由普通卷积、批归一化层(BN)和Leaky RuLU激活函数组成。

通过特征金字塔网络缩短了底层特征与顶层特征之间的信息路径，使得底层信息更容易传播。

如图3所示，本申请YOLOV5模型的解耦网络头将置信度分支和分类分支，将通过所述YOLOV5模型的解耦网络头对特征金字塔网络中P6特征图进行分析，在置信度分支和分类分支分别计算置信度损失(Loss_conf)和分类损失(Loss_cls)，损失函数通过反向传播对模型权重和偏差进行更新，获得最准确的置信度分值和分类结果，进而对P6特征图进行图像处理，得到第二红外图像。

将第一红外图像输入到训练好的目标检测模型中，通过训练好的目标检测模型对第一红外图像进行特征提取和特征融合等步骤，最后得到第二红外图像，能够避免红外图像和RGB图像中的与隔离问题，提高识别的准确性。

在一些实施例中，在获取第一红外图像之前，红外图像识别方法还包括：

构建目标检测模型，目标检测模型可以为YOLOV5模型，该目标检测模型包括微卷积神经网络、特征金字塔网络以及解耦网络头。

如图5所示，获取红外图像训练集，利用该红外图像训练集训练目标检测模型，而后，采用红外图像验证集对训练后的目标检测模型进行验证，可以得到训练好的目标检测模型，同理，如图6所示，可以得到训练好的目标分类模型，以提高模型识别的准确性和效率。

在一个具体的实施例中，模型获取监控设备在一个时间段内所采集的N帧作业现场图像，将该N帧作业现场图像划分为用于目标检测模型的检测数据集，以及用于目标分类模型的辅助数据集，对于检测数据集和辅助数据集均可随机划分为90％的训练样本和10％验证样本，以得到训练好的目标检测模型和目标分类模型。

其中，用于目标检测模型的检测数据集中的90％的训练样本可以表述为红外图像训练集，对于目标检测模型的检测数据集中的10％验证样本可以表述为红外图像验证集。

在一个具体的实施例中，如表一所示：在Inter Core i7 CPU,4G内存和NVIDIAGeForce 2080Ti独立显卡条件下，采用监控设备采集的红外场景数据进行模型训练，目标分类模型MobileNetV2预先加载在ImageNet数据库中的权重文件，该权重文件为预训练之后的权重文件，采用识别算法类型对目标对象进行识别，目标对象可以包括行人，对测试场景数目、训练集中的帧数、正确识别以及错误识别进行统计，确定模型识别的准确率。

表一：识别结果统计表

算法类型	测试场景数	视频帧数	正确识别	错误识别	正确率
						存在行人	2	5642	5331	311	94.5％

在一些实施例中，所述利用所述红外图像训练集训练所述目标检测模型，得到训练好的目标检测模型，红外图像识别方法可以包括：

在利用红外图像训练集训练目标检测模型后，根据周期性学习率迭代策略，训练目标检测模型L次，得到L次训练对应的L个权重值，W_i为第i次训练得到的权重值，其中，i为小于或等于L的正整数，对所获取得到的L个权重值，采用随机权重平均方法(StochasticWeight Average，SWA)得到目标权重值该随机权重平均方法可以表示为：

其中，n为训练目标检测模型得到权重值数目，m为L次训练对应的第m次训练。

由于每训练一次目标检测模型可以得到一个权重值，因此，训练目标检测模型得到权重值数目n还可以表述为L。

如图7所示，相比于传统的SGD优化轨迹，将最后一次训练的权重值或在验证集上表现最好的权重作为模型权重，SWA是沿着SGD优化轨迹的多个检查点的平均值，可以通过SGD优化方法探索与深度神经网络对应的权重空间边界附近的多个检查点，通过这些检查点，可以确定更接近最优解的目标权重值S_swa，目标权重值还可以表述为SWA具有较高的恒定学习率或周期学习率，泛化能力更强。

将目标权重值确定为训练好的目标检测模型的模型权重值后，加载该目标权重值，能够应用于红外图像识别，提高模型的识别能力。

在一些实施例中，所述YOLOV5模型还包括马赛克数据增强、混合(Mixup)数据增强以及自动数据增强，红外图像识别还可以包括：

根据所述图像变换策略，对所述第五红外图像进行图像变换，得到目标图像训练集中的第六红外图像。

YOLOV5模型还包括马赛克数据增强、混合数据增强以及自动(Autoaugment)数据增强，改变图像特征，以提升模型检测性能。

马赛克数据增强主要对第一红外图像的图像尺寸进行调整，满足模型图像输入的尺寸条件，保证图像的正常识别。

混合数据增强主要对图像训练集中的部分图像进行混合重叠，以扩大训练样本数量，有助于训练目标检测模型，提高模型的识别性能。

Autoaugment数据增强可提供多种类型和多种模式的数据增强手段，仿真出不同场景的图像，以提升模型的检测性能。

此外，参见图8，本申请实施例还提供了一种红外图像识别装置800，该装置800包括第一获取模块801和第一识别模块802，各模块之间共同完成红外图像识别的过程，具体为：

第一获取模块，用于获取第一红外图像，所述第一红外图像为监控设备采集到的机器的作业现场图像；

第一识别模块，用于通过训练好的目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像。

在一些实施例中，在第一识别模块，用于通过目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像之后，该装置还可以包括第二识别模块。

第二识别模块，用于通过目标分类模型识别所述第二红外图像，得到第三红外图像；

在一些实施例中，装置还可以包括：

提取模块，用于通过所述YOLOV5模型的微卷积神经网络提取所述第一红外图像中的第一特征F₁、第二特征F₂、第三特征F₃以及第四特征F₄；

融合模块，用于通过所述YOLOV5模型的特征金字塔网络采用下采样方式融合所述第一特征F₁、第二特征F₂、第三特征F₃以及第四特征F₄，得到第六特征图P6；

第一图像处理模块，用于通过所述YOLOV5模型的解耦网络头对所述第六特征图P6进行图像处理，得到第二红外图像。

在一些实施例中，在获取模块，用于获取第一红外图像之前，装置还包括：

构建模块，用于构建所述目标检测模型；所述目标检测模型包括骨干网络、特征金字塔网络以及解耦网络头；

第二获取模块，用于获取红外图像训练集，所述红外图像训练集中的红外图像标记有所述的目标对象所处的位置；

第一训练模块，用于利用所述红外图像训练集训练所述目标检测模型，得到训练好的目标检测模型。

在一些实施例中，所述第一训练模块，用于利用所述红外图像训练集训练所述目标检测模型，得到训练好的目标检测模型，装置还可以包括：

第二训练模块，用于根据周期性学习率迭代策略，训练所述目标检测模型L次，得到L次训练对应的L个权重值；

第一确定模块，用于采用随机权重平均方法确定目标权重值，所述目标权重值基于所述L个权重值确定；

第二确定模块，用于根据所述目标权重值，确定所述训练好的目标检测模型的模型权重值。

在一些实施例中，装置还可以包括：

调整模块，用于通过所述马赛克数据增强，调整第一红外图像的图像尺寸，得到调整后的第一红外图像；

混合重叠模块，用于通过所述混合数据增强，对所述调整后的第一红外图像与第四红外图像进行混合重叠，得到第五红外图像；所述第四红外图像为除所述第二红外图像之外的图像采样集中的图像；

第三确定模块，用于通过所述自动数据增强，确定所述第五红外图像的图像变换策略；

图像变换模块，用于根据所述图像变换策略，对所述第五红外图像进行图像变换，得到目标图像训练集。

本申请实施例提供的红外图像识别装置的各个模块，可以实现图1提供的红外图像识别方法的各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

本申请实施例还提供一种电子设备，如图9所示，电子设备900可以包括：处理器901、存储器902、通信接口903以及总线904。

具体地，上述处理器901可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)或者可以配置成本申请实施例的一个或多个集成电路。

存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器902可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实施例中，存储器902可以包括可移除或不可移除(或固定)的介质，或者存储器902是非易失性固态存储器。存储器902可在综合网关容载设备的内部或外部。

在一个实施例中，存储器902可以是只读存储器(Read Only Memory，ROM)，在一个实施例中，该ROM可以是掩膜编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

存储902可以包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器901通过读取并执行存储器902中存储的计算机程序指令，以实现图1所示实施例中的方法S101至S102，并达到图1所示实施例执行其方法/步骤达到相应技术效果，为简洁描述在此不再赘述。

在一个示例中，电子设备900还可包括通信接口903和总线904。其中，如图9所示，处理器901、存储器902、通信接口903通过总线904连接并完成相互间的通信。

通信接口903，主要用于实现本发明实施例中各模块、装置、单元和设备之间的通信。

总线904包括硬件、软件或两者，将数据对象生命周期管理的电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其它图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industry Standard Architecture，ISA)总线、无线带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适单总线或者两个或者更多个以上这些的组合。在合适的情况下，总线904可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的红外图像识别方法，从而实现结合图1描述的红外图像识别方法。

另外，结合上述实施例中的红外图像识别方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行上述实施例中的任意一种红外图像识别方法。

本申请还提供了一种计算机程序产品，计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备执行实现上述任意一项红外图像识别方法实施例的各个过程。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory，EROM)、软盘、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例方法、装置(系统)、电子设备和存储介质的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种红外图像识别方法，其特征在于，所述方法包括：

所述训练好的目标检测模型为YOLOV5 模型，所述YOLOV5 模型的骨干网络为微卷积神经网络；所述YOLOV5 模型的特征金字塔网络包括P6特征图；所述YOLOV5 模型的解耦网络头包括置信度分支和分类分支；

所述目标检测模型用于：

通过所述YOLOV5模型的微卷积神经网络提取所述第一红外图像中的第一特征、第二特征、第三特征以及第四特征；

通过所述YOLOV5模型的特征金字塔网络采用下采样方式融合所述第一特征、第二特征、第三特征以及第四特征，得到第六特征图；

通过所述YOLOV5模型的解耦网络头对所述第六特征图进行图像处理，得到第二红外图像；

所述通过所述YOLOV5模型的微卷积神经网络提取所述第一红外图像中的第一特征、第二特征、第三特征以及第四特征，包括：

通过YOLOV5模型的微卷积神经网络的骨干段网络ConvNeXt-T中ConvNeXt_3模块、ConvNeXt_6模块、ConvNeXt_15模块、ConvNeXt_18模块，分别提取所述第一红外图像中的第一特征、第二特征、第三特征以及第四特征

所述通过所述YOLOV5模型的特征金字塔网络采用下采样方式融合所述第一特征、第二特征、第三特征以及第四特征，得到第六特征图，包括：

所述第四特征经过CSPN2模块、CBL卷积块得到第一特征图，所述第一特征图经过上采样后和所述第二特征进行融合得到第二特征图；所述第二特征图经过CSPN2模块、CBL卷积块得到第三特征图，所述第三特征图经过上采样后和所述第一特征进行融合并经过CSPN2模块得到第四特征图；所述第四特征图经过CBL卷积块得到第五特征图，所述第五特征图与所述第三特征图进行融合并经过CSPN2模块得到第六特征图。

2.根据权利要求1所述的红外图像识别方法，其特征在于，在通过目标检测模型识别所述第一红外图像是否包括目标对象，得到第二红外图像之后，所述方法还包括：

3.根据权利要求1所述的红外图像识别方法，其特征在于，在获取第一红外图像之前，所述方法还包括：

4.根据权利要求3所述的红外图像识别方法，其特征在于，所述利用所述红外图像训练集训练所述目标检测模型，得到训练好的目标检测模型，包括：

5.根据权利要求1所述的红外图像识别方法，其特征在于，所述YOLOV5 模型还包括马赛克数据增强、混合数据增强以及自动数据增强，所述方法还包括：

6.一种红外图像识别装置，其特征在于，所述装置包括：

所述目标检测模型用于：

7.一种电子设备，所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时执行如权利要求1至5任意一项所述红外图像识别方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述的红外图像识别方法。