CN112200840B

CN112200840B - 一种可见光和红外图像组合中的运动物体检测系统

Info

Publication number: CN112200840B
Application number: CN202011161761.7A
Authority: CN
Inventors: 刘波; 刘小青; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-05-11
Anticipated expiration: 2040-10-27
Also published as: CN112200840A

Abstract

本发明提供了一种可见光和红外图像组合中的运动物体检测系统，包括：数据采集模块，用于采集成对的可见光图像和红外图像；数据标注模块，用于将物体标注在可见光图像和/或红外图像上，得到待处理数据；图像处理模块，用于利用检测模型对待处理数据进行处理，得到图像中的物体及位置和每个物体编码，连续的图像通过计算物体的编码的距离判断两个物体是否属于同一物体，通过同一物体位置的变化信息来判定该物体是否属于运动物体。

Description

一种可见光和红外图像组合中的运动物体检测系统

技术领域

本发明涉及计算机领域，尤其涉及一种可见光和红外图像组合中的运动物体检测系统。

背景技术

近年来，深度学习在图像处理上取得了巨大的进展，在图像分类、物体检测、物体分割和运动追踪等领域都取得了不菲的成绩。此外，随着红外成像等相关技术的发展，暗光、雾霾等恶劣场景也可以得到相当优秀的成像。基于此，利用可见光图像和红外等非可见光成像可以实现全天候的图像获取。通过图像处理技术实现对运动物体的检测广泛应用于视频监控、无人驾驶和辅助视觉等方向。对于可见光和红外图像的处理，目前主要是两阶段算法，第一阶段是将可见光图像和红外图像融合成一个高清图像。第二阶段是对这个高清图像进行处理，以实现对其中目标的检测。这样的流程主要存在着实时性较差，并且第二阶段的图像处理十分依赖第一阶段的融合图像质量。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的可见光和红外图像组合中的运动物体检测系统。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种可见光和红外图像组合中的运动物体检测系统，包括：数据采集模块，用于采集成对的可见光图像和红外图像；数据标注模块，用于将物体标注在可见光图像和/或红外图像上，得到待处理数据；图像处理模块，用于利用检测模型对待处理数据进行处理，得到图像中的物体及位置和每个物体编码，连续的图像通过计算物体的编码的距离判断两个物体是否属于同一物体，通过同一物体位置的变化信息来判定该物体是否属于运动物体；其中，图像处理模块包括：图片特征提取模块、特征融合模块和目标检测与编码模块；图片特征提取模块包括可见光特征提取模块和红外特征提取模块，可见光特征提取模块用于提取可见光图像的特征，红外特征提取模块用于提取红外图像的特征，可见光特征特征提取模块包括依次连接的第一可见光输出特征层至第五可见光输出特征层，以及第六可见光卷积网络输出特征层和第七可见光卷积网络输出特征层，红外特征提取模块包括依次连接的第一红外输出特征层至第五红外输出特征层，以及第六红外卷积网络输出特征层和第七红外卷积网络输出特征层；特征融合模块用于将可见光特征提取模块提取的可见光图像的特征以及红外特征提取模块提取的红外图像的特征进行特征融合，生成融合图像；包括依次连接的第零注意力融合模块和第一注意力融合模块至第五注意力融合模块，第零注意力融合模块连接第七可见光卷积网络输出特征层和第七红外卷积网络输出特征层，第一注意力融合模块连接第零注意力融合模块、第六可见光卷积网络输出特征层和第六红外卷积网络输出特征层，第二注意力融合模块连接第一注意力融合模块、第五可见光输出特征层和第五红外输出特征层，第三注意力融合模块连接第二注意力融合模块、第四可见光输出特征层和第四红外输出特征层，第四注意力融合模块连接第三注意力融合模块、第三可见光输出特征层和第三红外输出特征层，第五注意力融合模块连接第四注意力融合模块、第二可见光输出特征层和第二红外输出特征层；目标检测与编码模块用于对融合图像中的感兴趣物体进行检测，并编码为一组定长的向量，包括第一物体检测和编码模块至第五物体检测和编码模块，其中，第一物体检测和编码模块连接第零注意力融合模块，第二物体检测和编码模块连接第一注意力融合模块，第三物体检测和编码模块连接第二注意力融合模块，第四物体检测和编码模块连接第三注意力融合模块，第五物体检测和编码模块连接第四注意力融合模块。

其中，第二可见光输出特征层分辨率与第一可见光输出特征层分辨率相同，第二可见光输出特征层至第五可见光输出特征层的分辨率依次下降；第六可见光卷积网络输出特征层的分辨率是第五可见光输出特征层分辨率的1/2，第七可见光卷积网络输出特征层的分辨率是第五可见光输出特征层分辨率的1/4，第六红外卷积网络输出特征层的分辨率是第五红外输出特征层分辨率的1/2，第七红外卷积网络输出特征层的分辨率是第五红外输出特征层分辨率的1/4；可见光特征提取模块与红外特征提取模块不共享参数。

其中，第零注意力融合模块包括可见光多尺度特征获取网络、红外多尺度特征获取网络，特征加权网络、卷积网络、特征权值计算模块以及特征输出模块；第一注意力融合模块至第五注意力融合模块分别包括：可见光多尺度特征获取网络、红外多尺度特征获取网络、特征加权网络、特征权值计算模块、卷积网络、特征拼接模块以及特征输出模块；其中，可见光多尺度特征获取网络用于获取可见光特征特征提取模块输出的可见光特征，红外多尺度特征获取网络用于获取红外特征提取模块输出的红外特征，特征加权网络用于将可见光多尺度特征获取网络输出的可见光特征和红外多尺度特征获取网络输出的红外特征进行拼接，拼接后的特征经过卷积网络输出后经过特征权值计算模块进行计算得到特征权值，将特征权值和1-特征权值分别与特征加权网络用于将可见光多尺度特征获取网络输出的可见光特征和红外多尺度特征获取网络输出的红外特征相乘，并相加在一起，在第零注意力融合模块中，将相加在一起的特征最后作为输出特征通过特征输出模块输出，在第一注意力融合模块中，将相加在一起的特征与第零注意力融合模块输出的特征拼接通过特征输出模块输出，在第二注意力融合模块中，将相加在一起的特征与第一注意力融合模块输出的特征拼接通过特征输出模块输出，在第三注意力融合模块中，将相加在一起的特征与第二注意力融合模块输出的特征拼接通过特征输出模块输出，在第四注意力融合模块中，将相加在一起的特征与第三注意力融合模块输出的特征拼接通过特征输出模块输出，在第五注意力融合模块中，将相加在一起的特征与第四注意力融合模块输出的特征拼接通过特征输出模块输出。

其中，第一物体检测和编码模块至第五物体检测和编码模块分别包括：第零卷积单元、第一卷积单元、第二卷积单元、筛选单元、非极大值抑制单元、缩放单元、第三卷积单元、第四卷积单元和第五卷积单元；其中，第零卷积单元，用于获取特征融合模块输出的特征，进行运算后得到新特征；第一卷积单元，用于将新特征进行运算后输出物体分类得分；第二卷积单元，用于将新特征进行运算后输出物体定位坐标；筛选单元，用于利用先验阈值去筛除物体分类得分低于先验阈值的点，得到有限的疑似物体的坐标及其对应的类别；非极大值抑制单元，用于将物体定位坐标和物体分类得分拼接在一起，筛去重复的物体框；缩放单元，用于根据留下的物体框去输入特征上扣取该物体框所对应的区域并将该区域放缩到一个固定大小的特征；第三卷积单元，用于将放缩之后的特征进行运算得到物体检测框；第四卷积单元，用于将缩放之后的特征进行运算，辨识该区域所属类别；第五卷积单元，用于将缩放之后的特征进行运算，得到该区域的编码向量。

其中，训练检测模型时，位置预测分支采用回归或者交并比等损失函数来监督训练；分类分支采用交叉熵或者focalloss等损失函数来监督训练；编码分支采用三元组等损失函数来监督训练；图像融合部分采用结构相似性和总体变化损失函数实现无监督训练。

由此可见，通过本发明提供的可见光和红外图像组合中的运动物体检测系统，基于一个网络实现了图像融合、物体检测与编码的功能，能够充分利用红外图像和可见光图像的特点，实现对运动物体的全天候、全时段的运动物体检测。相对于两阶段检测算法，本发明具有更高的时效性和鲁棒性。同时，本发明采用注意力模块来自适应地选择可见光图像和红外图像的特征，从而提升特征选取的能力。此外，本发明采用多任务的学习策略，可以有效提升彼此任务的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的可见光和红外图像组合中的运动物体检测系统的结构示意图；

图2为本发明实施例提供的检测模型整体框图；

图3为本发明实施例提供的注意力融合模块_0的框图；

图4为本发明实施例提供的注意力融合模块_1的框图；

图5为本发明实施例提供的物体检测和编码模块的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的可见光和红外图像组合中的运动物体检测系统的结构示意图，参见图1，本发明实施例提供的可见光和红外图像组合中的运动物体检测系统，包括：

数据采集模块，用于采集成对的可见光图像和红外图像；

数据标注模块，用于将物体标注在可见光图像和/或红外图像上，得到待处理数据；

图像处理模块，用于利用检测模型对待处理数据进行处理，得到图像中的物体及位置和每个物体编码，连续的图像通过计算物体的编码的距离判断两个物体是否属于同一物体，通过同一物体位置的变化信息来判定该物体是否属于运动物体。

具体地，图像首先由数据采集模块获取，数据采集模块主要负责采集实时的场景并转换为数字图像。数据采集模块主要包括可见光图像和红外图像采集模块，并且要求两个模块所采集区域接近相同，生成的图像没有明显的位置或时间差别，以尽量保证两个图像是对齐的。同时，连续两次采集的图像的时间差不能太大，需要根据不同的应用场景设定最长时间差。收集训练图像时，需要获得不同天气、不同时间和场景的图像，尽量保证训练图像的多样性，以保证模型的可靠行。

获取到可见光和红外图像之后，数据标注模块主要给图像处理模块提供训练数据的标签。需要事先约定将物体标注在可见光图像上或者红外图像上，或者两者都完全标注。标注时，需要结合可见光图像、红外图像和前后帧序列，在可见光或者红外图像上标注所有的物体。

将获取到的数字图像送入训练好的图像处理模块，其将自动输出运动物体的外接框坐标。应用时，将成对的可见光图像和红外图像送入检测模型之后，会输出在该图像中检测到的物体及位置和每个物体编码。此后，首先通过计算连续帧图像中的物体编码距离来判定是否属于同一物体；然后通过对比同一物体的位置信息来判断该物体是否属于运动；最后将判断为运动物体的物体外接框输出。

具体地，模型整体框图如图2所示，其中，图像处理模块包括：图片特征提取模块、特征融合模块和目标检测与编码模块；

图片特征提取模块包括可见光特征提取模块和红外特征提取模块，可见光特征提取模块用于提取可见光图像的特征，红外特征提取模块用于提取红外图像的特征，可见光特征特征提取模块包括依次连接的第一可见光输出特征层至第五可见光输出特征层，以及第六可见光卷积网络输出特征层和第七可见光卷积网络输出特征层，红外特征提取模块包括依次连接的第一红外输出特征层至第五红外输出特征层，以及第六红外卷积网络输出特征层和第七红外卷积网络输出特征层；

特征融合模块用于将可见光特征提取模块提取的可见光图像的特征以及红外特征提取模块提取的红外图像的特征进行特征融合，生成融合图像；包括依次连接的第零注意力融合模块和第一注意力融合模块至第五注意力融合模块，第零注意力融合模块连接第七可见光卷积网络输出特征层和第七红外卷积网络输出特征层，第一注意力融合模块连接第零注意力融合模块、第六可见光卷积网络输出特征层和第六红外卷积网络输出特征层，第二注意力融合模块连接第一注意力融合模块、第五可见光输出特征层和第五红外输出特征层，第三注意力融合模块连接第二注意力融合模块、第四可见光输出特征层和第四红外输出特征层，第四注意力融合模块连接第三注意力融合模块、第三可见光输出特征层和第三红外输出特征层，第五注意力融合模块连接第四注意力融合模块、第二可见光输出特征层和第二红外输出特征层；

目标检测与编码模块用于对融合图像中的感兴趣物体进行检测，并编码为一组定长的向量，包括第一物体检测和编码模块至第五物体检测和编码模块，其中，第一物体检测和编码模块连接第零注意力融合模块，第二物体检测和编码模块连接第一注意力融合模块，第三物体检测和编码模块连接第二注意力融合模块，第四物体检测和编码模块连接第三注意力融合模块，第五物体检测和编码模块连接第四注意力融合模块。

作为本发明实施例的一个可选实施方式，第二可见光输出特征层分辨率与第一可见光输出特征层分辨率相同，第二可见光输出特征层至第五可见光输出特征层的分辨率依次下降；第六可见光卷积网络输出特征层的分辨率是第五可见光输出特征层分辨率的1/2，第七可见光卷积网络输出特征层的分辨率是第五可见光输出特征层分辨率的1/4，第六红外卷积网络输出特征层的分辨率是第五红外输出特征层分辨率的1/2，第七红外卷积网络输出特征层的分辨率是第五红外输出特征层分辨率的1/4；可见光特征提取模块与红外特征提取模块不共享参数。

具体地，特征提取模块可以采用ResNet-50等基准网络模型(conv_2到conv_5输出特征层的分辨率依次下降，conv_2输出的特征层分辨率与conv_1的输出特征层相同)，后续的conv_6和conv_7是在基准网络模型后增加的两级卷积网络，这两级卷积网络输出特征层的分辨率分别是conv_5的1/2和1/4。红外图像和可见光图像采用相同的网络结构，但是不共享参数。此外，可见光图像的输入通道数为3，红外图像的输入通道数为1。

作为本发明实施例的一个可选实施方式，第零注意力融合模块包括可见光多尺度特征获取网络、红外多尺度特征获取网络，特征加权网络、卷积网络、特征权值计算模块以及特征输出模块；第一注意力融合模块至第五注意力融合模块分别包括：可见光多尺度特征获取网络、红外多尺度特征获取网络、特征加权网络、特征权值计算模块、卷积网络、特征拼接模块以及特征输出模块；其中，可见光多尺度特征获取网络用于获取可见光特征特征提取模块输出的可见光特征，红外多尺度特征获取网络用于获取红外特征提取模块输出的红外特征，特征加权网络用于将可见光多尺度特征获取网络输出的可见光特征和红外多尺度特征获取网络输出的红外特征进行拼接，拼接后的特征经过卷积网络输出后经过特征权值计算模块进行计算得到特征权值，将特征权值和1-特征权值分别与特征加权网络用于将可见光多尺度特征获取网络输出的可见光特征和红外多尺度特征获取网络输出的红外特征相乘，并相加在一起，在第零注意力融合模块中，将相加在一起的特征最后作为输出特征通过特征输出模块输出，在第一注意力融合模块中，将相加在一起的特征与第零注意力融合模块输出的特征拼接通过特征输出模块输出，在第二注意力融合模块中，将相加在一起的特征与第一注意力融合模块输出的特征拼接通过特征输出模块输出，在第三注意力融合模块中，将相加在一起的特征与第二注意力融合模块输出的特征拼接通过特征输出模块输出，在第四注意力融合模块中，将相加在一起的特征与第三注意力融合模块输出的特征拼接通过特征输出模块输出，在第五注意力融合模块中，将相加在一起的特征与第四注意力融合模块输出的特征拼接通过特征输出模块输出。

具体地，注意力融合模块中采用多尺度特征获取网络主要是为了缓解由于红外图像和可见光图像特征没有完全对齐带来的问题。此外多尺度特征的提取还有助于网络模型学习到更加有用的特征，提高特征的辨识度。特征加权网络主要起的是一种特征选择的作用，每个点都可以选择可见光图像侧的特征或者红外图像侧的特征。以图3所示框图为例，“特征0”(“特征1”)是来自可见光图像部分的特征，“特征1”(“特征0”)是来自红外光图像部分的特征。这两个特征分别经过多尺度特征获取网络之后输出的特征记为“特征2”和“特征3”，“特征2”和“特征3”具有相同的大小。特征加权网络首先将输入的“特征2”和“特征3”拼接在一起成为“特征4”。然后“特征4”会经过一个卷积网络输出一个与“特征2”和“特征3”相同大小的“特征5”，“特征5”经过sigmoid函数成为图2中的特征权值。这个特征权值和1-特征权值分别与“特征3”和“特征2”相乘，最后相加在一起作为输出特征。如果该特征层还有高阶特征的输入，则如图4所示，将高阶输入的特征与融合特征相拼接来作为该模块最后的输出。

作为本发明实施例的一个可选实施方式，第一物体检测和编码模块至第五物体检测和编码模块分别包括：第零卷积单元、第一卷积单元、第二卷积单元、筛选单元、非极大值抑制单元、缩放单元、第三卷积单元、第四卷积单元和第五卷积单元；其中，第零卷积单元，用于获取特征融合模块输出的特征，进行运算后得到新特征；第一卷积单元，用于将新特征进行运算后输出物体分类得分；第二卷积单元，用于将新特征进行运算后输出物体定位坐标；筛选单元，用于利用先验阈值去筛除物体分类得分低于先验阈值的点，得到有限的疑似物体的坐标及其对应的类别；非极大值抑制单元，用于将物体定位坐标和物体分类得分拼接在一起，筛去重复的物体框；缩放单元，用于根据留下的物体框去输入特征上扣取该物体框所对应的区域并将该区域放缩到一个固定大小的特征；第三卷积单元，用于将放缩之后的特征进行运算得到物体检测框；第四卷积单元，用于将缩放之后的特征进行运算，辨识该区域所属类别；第五卷积单元，用于将缩放之后的特征进行运算，得到该区域的编码向量。

具体地，图5所示物体检测和编码模块主要是将图像中的感兴趣物体检测出来并编码为一组定长的向量。输入该模块的特征首先经过“conv_0”这组卷积单元得到新的特征，记为f_0。f_0经过“conv_1”这组卷积单元之后的输出特征，也就是物体分类得分，记为cls_0。此外，f_0还经过“conv_2”这组卷积单元所输出的特征，即物体定位坐标，记为reg_0。然后利用一个先验阈值去筛除物体分类得分低于该阈值的点，得到有限的疑似物体的坐标及其对应的类别。之后，将定位坐标和物体分类得分拼接在一起过非极大值抑制单元，筛去重复的物体框。然后根据留下的物体框去输入特征上扣取该物体框所对应的区域并将该区域放缩到一个固定大小的特征。放缩之后的特征经过“conv_3”这个卷积网络得到一个更加准确的物体检测框。此外，该特征还经过“conv_4”这个卷积网络来进一步辨识该区域所属类别，提升物体的分类准确度。最后，这个特征还会经过“conv_5”来获取这个区域的编码向量。

作为本发明实施例的一个可选实施方式，训练检测模型时，位置预测分支采用回归或者交并比等损失函数来监督训练；分类分支采用交叉熵或者focalloss等损失函数来监督训练；编码分支采用三元组等损失函数来监督训练；图像融合部分采用结构相似性和总体变化损失函数实现无监督训练。

具体地，训练时，位置预测分支可以采用回归或者交并比等损失函数来监督训练；分类分支可以采用交叉熵或者focalloss等损失函数来监督训练；编码分支可以采用三元组等损失函数来监督训练；图像融合部分则可以采用结构相似性和总体变化等损失函数来实现无监督训练。

综上，本发明的可见光和红外图像组合中的运动物体检测步骤如下：

A、利用基准网络模型分别形成一对可见光图和红外图下采样的顺序图像特征图层；

B、在可见光图和红外图的图像特征图层中提取对应的图像特征进行加权融合过程，形成融合特征图层；

C、根据图像特征图层的逆序将融合特征图层作为上一级加权融合过程的输入直至形成融合图像；

D、通过融合特征图层形成不同采样率图像中物体的检测和编码。

由此可见，本发明主要是利用深度学习算法实现对可见光和红外图像组合中的运动物体检测。本发明首先采用多任务的深度学习算法同时实现图像融合、物体检测和物体编码。物体编码是指将检测出的物体用一组定长的向量表示，此后通过计算两帧之间每个物体编码之间的距离来判定是否属于同一物体，最后根据每个物体位置的变化来判断是否属于运动物体。此外，在特征融合层利用注意力网络来给可见光图像和红外图像的特征给予不同的权重。

通过本发明提供的可见光和红外图像组合中的运动物体检测系统，基于一个网络实现了图像融合、物体检测与编码的功能，能够充分利用红外图像和可见光图像的特点，实现对运动物体的全天候、全时段的运动物体检测。相对于两阶段检测算法，本发明具有更高的时效性和鲁棒性。同时，本发明采用注意力模块来自适应地选择可见光图像和红外图像的特征，从而提升特征选取的能力。此外，本发明采用多任务的学习策略，可以有效提升彼此任务的性能。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种可见光和红外图像组合中的运动物体检测系统，其特征在于，包括：

数据采集模块，用于采集成对的可见光图像和红外图像；

数据标注模块，用于将物体标注在所述可见光图像和/或所述红外图像上，得到待处理数据；

图像处理模块，用于利用检测模型对所述待处理数据进行处理，得到图像中的物体及位置和每个物体编码，连续的图像通过计算物体的编码的距离判断两个物体是否属于同一物体，通过同一物体位置的变化信息来判定该物体是否属于运动物体；

其中，所述图像处理模块包括：图片特征提取模块、特征融合模块和目标检测与编码模块；

所述图片特征提取模块包括可见光特征提取模块和红外特征提取模块，所述可见光特征提取模块用于提取所述可见光图像的特征，所述红外特征提取模块用于提取所述红外图像的特征，所述可见光特征提取模块包括依次连接的第一可见光输出特征层至第五可见光输出特征层，以及第六可见光卷积网络输出特征层和第七可见光卷积网络输出特征层，所述红外特征提取模块包括依次连接的第一红外输出特征层至第五红外输出特征层，以及第六红外卷积网络输出特征层和第七红外卷积网络输出特征层；

所述特征融合模块用于将所述可见光特征提取模块提取的所述可见光图像的特征以及所述红外特征提取模块提取的所述红外图像的特征进行特征融合，生成融合图像；包括依次连接的第零注意力融合模块和第一注意力融合模块至第五注意力融合模块，所述第零注意力融合模块连接所述第七可见光卷积网络输出特征层和所述第七红外卷积网络输出特征层，所述第一注意力融合模块连接所述第零注意力融合模块、所述第六可见光卷积网络输出特征层和所述第六红外卷积网络输出特征层，第二注意力融合模块连接所述第一注意力融合模块、所述第五可见光输出特征层和所述第五红外输出特征层，第三注意力融合模块连接所述第二注意力融合模块、第四可见光输出特征层和所述第四红外输出特征层，所述第四注意力融合模块连接所述第三注意力融合模块、所述第三可见光输出特征层和所述第三红外输出特征层，所述第五注意力融合模块连接所述第四注意力融合模块、所述第二可见光输出特征层和所述第二红外输出特征层；

所述目标检测与编码模块用于对所述融合图像中的感兴趣物体进行检测，并编码为一组定长的向量，包括第一物体检测和编码模块至第五物体检测和编码模块，其中，所述第一物体检测和编码模块连接所述第零注意力融合模块，第二物体检测和编码模块连接所述第一注意力融合模块，第三物体检测和编码模块连接所述第二注意力融合模块，第四物体检测和编码模块连接所述第三注意力融合模块，所述第五物体检测和编码模块连接所述第四注意力融合模块。

2.根据权利要求1所述的系统，其特征在于，

所述第二可见光输出特征层分辨率与所述第一可见光输出特征层分辨率相同，所述第二可见光输出特征层至所述第五可见光输出特征层的分辨率依次下降；所述第六可见光卷积网络输出特征层的分辨率是所述第五可见光输出特征层分辨率的1/2，所述第七可见光卷积网络输出特征层的分辨率是所述第五可见光输出特征层分辨率的1/4，所述第六红外卷积网络输出特征层的分辨率是所述第五红外输出特征层分辨率的1/2，所述第七红外卷积网络输出特征层的分辨率是所述第五红外输出特征层分辨率的1/4；所述可见光特征提取模块与所述红外特征提取模块不共享参数。

3.根据权利要求2所述的系统，其特征在于，

所述第零注意力融合模块包括可见光多尺度特征获取网络、红外多尺度特征获取网络，特征加权网络、卷积网络、特征权值计算模块以及特征输出模块；

所述第一注意力融合模块至所述第五注意力融合模块分别包括：可见光多尺度特征获取网络、红外多尺度特征获取网络、特征加权网络、卷积网络、特征权值计算模块、特征拼接模块以及特征输出模块；

其中，

所述可见光多尺度特征获取网络用于获取所述可见光特征提取模块输出的可见光特征，所述红外多尺度特征获取网络用于获取所述红外特征提取模块输出的红外特征，所述特征加权网络用于将所述可见光多尺度特征获取网络输出的可见光特征和所述红外多尺度特征获取网络输出的红外特征进行拼接，拼接后的特征经过所述卷积网络输出后经过特征权值计算模块进行计算得到特征权值，将所述特征权值和1-特征权值分别与所述可见光多尺度特征获取网络输出的可见光特征和所述红外多尺度特征获取网络输出的红外特征相乘，并相加在一起，在所述第零注意力融合模块中，将相加在一起的特征最后作为输出特征通过所述特征输出模块输出，在所述第一注意力融合模块中，将相加在一起的特征与所述第零注意力融合模块输出的特征拼接通过所述特征输出模块输出，在所述第二注意力融合模块中，将相加在一起的特征与所述第一注意力融合模块输出的特征拼接通过所述特征输出模块输出，在所述第三注意力融合模块中，将相加在一起的特征与所述第二注意力融合模块输出的特征拼接通过所述特征输出模块输出，在所述第四注意力融合模块中，将相加在一起的特征与所述第三注意力融合模块输出的特征拼接通过所述特征输出模块输出，在所述第五注意力融合模块中，将相加在一起的特征与所述第四注意力融合模块输出的特征拼接通过所述特征输出模块输出。

4.根据权利要求3所述的系统，其特征在于，

所述第一物体检测和编码模块至所述第五物体检测和编码模块分别包括：第零卷积单元、第一卷积单元、第二卷积单元、筛选单元、非极大值抑制单元、缩放单元、第三卷积单元、第四卷积单元和第五卷积单元；

其中，

所述第零卷积单元，用于获取所述特征融合模块输出的特征，进行卷积运算后得到新特征；

所述第一卷积单元，用于将所述新特征进行卷积运算后输出物体分类得分；

所述第二卷积单元，用于将所述新特征进行卷积运算后输出物体定位坐标；

所述筛选单元，用于利用先验阈值去筛除所述物体分类得分低于所述先验阈值的点，得到有限的疑似物体的坐标及其对应的类别；

所述非极大值抑制单元，用于将所述物体定位坐标和所述物体分类得分拼接在一起，筛去重复的物体框；

所述缩放单元，用于根据留下的物体框在输入特征上扣取该物体框所对应的区域并将该区域放缩到一个固定大小的特征；

所述第三卷积单元，用于将放缩之后的特征进行卷积运算得到物体检测框；

所述第四卷积单元，用于将缩放之后的特征进行卷积运算，辨识该区域所属类别；

所述第五卷积单元，用于将缩放之后的特征进行卷积运算，得到该区域的编码向量。

5.根据权利要求4所述的系统，其特征在于，

训练检测模型时，位置预测分支采用回归或者交并比损失函数来监督训练；分类分支采用交叉熵或者focalloss损失函数来监督训练；编码分支采用三元组损失函数来监督训练；图像融合部分采用结构相似性和总体变化损失函数实现无监督训练。