CN114241511B

CN114241511B - 一种弱监督行人检测方法、系统、介质、设备及处理终端

Info

Publication number: CN114241511B
Application number: CN202111268935.4A
Authority: CN
Inventors: 郝帅; 安倍逸; 马旭; 何田; 张旭; 杨磊
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2024-05-03
Anticipated expiration: 2041-10-21
Also published as: CN114241511A

Abstract

本发明属于行人检测技术领域，公开了一种弱监督行人检测方法、系统、介质、设备及处理终端，构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像；采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层；构建基于图像特征相似性和图像边缘保留的目标函数，引入海洋捕食者优化算法生成融合图像；引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移；在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力实现弱监督行人的检测。本发明能够提高行人目标的重要性并抑制背景干扰，实现对多尺度目标的准确检测，减少人工标注工作量。

Description

一种弱监督行人检测方法、系统、介质、设备及处理终端

技术领域

本发明属于行人检测技术领域，尤其涉及一种弱监督行人检测方法、系统、介质、设备及处理终端。

背景技术

目前，行人检测是计算机视觉领域的热点和难点研究，广泛应用于交通智能监控、自动驾驶、行人行为分析等方面。借助计算机视觉技术，可以准确判断图像或视频中是否包含行人，并标记行人的准确位置。行人目标的准确检测和识别在图像处理任务中起着非常重要的作用。可见光视觉传感器可以采集纹理信息丰富、特征清晰的道路场景图像，广泛应用于车载行人检测系统。然而，可见光图像行人检测系统易受光照环境变化的影响，尤其是在夜间、大雨或大雾条件下。在上述复杂环境中，行人目标容易丢失，易造成严重的安全事故。红外传感器不受光线影响，能在低能见度条件下清晰显示行人信息。但与可见光图像相比，红外图像分辨率较低，纹理信息较少。通过图像融合技术，融合两个传感器捕捉到的互补信息，可实现全天候恶劣天气环境下行人目标的精准检测。目前，大多数行人监控系统虽然结合了可见光传感器和热红外传感器，但不同的传感器监控系统仍然独立完成行人检测任务。同时，最终的检测结果是通过使用决策级融合策略整合的，没有利用两个传感器之间的互补信息。因此，最终的检测精度通常是有限的，并且很大程度上取决于各自的成像系统。

此外，目标标注是行人检测中的另一个挑战。最常用的方法是基于监督学习，必须有完整的数据标注。然而，它有以下两个难以解决的弱点：人工标注的工作量大和受复杂背景影响的标注不准确。此外，由于缺乏标注数据的引导，基于无监督学习的行人检测方法也具有不令人满意的检测精度。因此，在数据集较少、标注不完善的基础上，近年来出现了基于弱监督学习的标注方法。基于弱监督学习的标注方法兼有监督学习和无监督学习的优点，可以用少量的数据集获得更高的检测精度。由于它只需要图像级标注，因此此类方法受到越来越多的关注。然而，如何在不消耗标注成本的情况下实现基于弱监督学习的有效检测仍然是一个研究热点。

随着公众安全意识的提高，许多学者对行人检测方法进行了深入研究。传统的行人检测方法使用人工设计的特征提取算子或模块来表征行人特征，然后进行分类和检测。然而，现有方法的性能依赖于人工设计特征的鲁棒性和完整性，无法自动获取目标类别属性信息，并且随着检测精度要求的提高，人工提取特征的复杂度越来越高。

近年来，随着卷积神经网络在计算机视觉领域的应用，行人检测的准确率得到显著提高。在大多数行人检测方法中，数据集通常使用单一的可见光图像或红外图像进行实验，实际上并未考虑检测网络的准确性和安全性。因此，本发明在网络结构中加入融合模块，将红外图像和可见光图像进行融合，实现更加鲁棒、准确的全天候行人检测性能。而YOLO网络虽然满足实时检测的要求，但对小规模目标的检测精度较低，无法保证检测精度。因此，本发明通过增加自适应显著性模块来改进YOLO网络，以提高检测网络对具有更高显著性的行人目标的检测能力。然而，如何在样本数据不足的情况下进行实验，以及如何在样本标注不准确的缺点下提高检测精度，仍然是需要考虑的问题。

深度学习方法虽然对行人检测有一定的效果，但需要大量的样本和对数据的有效标注，而实际中对样本进行人工标注费时费力。因此，标注数据的数量和质量对检测结果有重要影响。最近，弱监督学习方法被引入许多领域，例如目标检测、目标定位等。弱监督学习涵盖了各种试图通过较弱的监督来建立预测模型的研究。第三种弱监督学习是不准确监督，即给定的标注信息并不总是真实准确的。原因可能是标注者水平有限，标注过程粗心，或者标注难度大。在使用有限标注信息的情况下，使用弱监督学习方法可以显著提高检测的准确性。因此，亟需一种新的弱监督行人检测方法、系统。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有的可见光图像行人检测系统易受光照环境变化的影响，尤其是在夜间、大雨或大雾条件下行人目标容易丢失，易造成严重的安全事故。

(2)现有不同的传感器行人监控系统仍然独立完成行人检测任务，最终的检测结果没有利用两个传感器之间的互补信息，会导致最终的检测精度通常是有限的，并且很大程度上取决于各自的成像系统。

(3)现有基于监督学习的人工标注的工作量大和受复杂背景影响的标注不准确；此外，由于缺乏标注数据的引导，基于无监督学习的行人检测方法也具有不令人满意的检测精度。

(4)现有方法的性能依赖于人工设计特征的鲁棒性和完整性，无法自动获取目标类别属性信息，并且随着检测精度要求的提高，人工提取特征的复杂度越来越高。

(5)在大多数行人检测方法中，数据集通常使用单一的可见光图像或红外图像进行实验，实际上并未考虑检测网络的准确性和安全性。

(6)深度学习方法需要大量的样本和对数据的有效标注，而实际中对样本进行人工标注费时费力。

(7)第三种弱监督学习是不准确监督，即给定的标注信息并不总是真实准确的，原因可能是标注者水平有限，标注过程粗心，或者标注难度大。

解决以上问题及缺陷的难度为：如何利用可见光传感器和红外传感器之间的互补信息；如何在样本数据不足的情况下进行实验，以及如何在样本标注不准确的缺点下提高检测精度；如何在复杂环境下针对检测目标易受环境干扰的问题提高检测网络精度，都是需要考虑的问题。

解决以上问题及缺陷的意义为：行人检测是计算机视觉领域的热点和难点研究，广泛应用于交通智能监控、自动驾驶、行人行为分析等方面。借助计算机视觉技术，可以准确判断图像或视频中是否包含行人，并标记行人的准确位置。然而，在复杂环境下行人目标容易丢失，易造成严重的安全事故。同时，人工标注的工作量大和受复杂背景影响的易导致标注不准确。因此，在数据集较少、标注不完善、在不消耗标注成本的情况下实现行人检测，可以用少量的数据集获得更高的检测精度，因此准确、可靠的检测出行人目标对实现自动驾驶、交通智能监控具有重要的意义。同时也为复杂环境下行人检测领域提供了一种新思路。

发明内容

针对现有技术存在的问题，本发明提供了一种弱监督行人检测方法、系统、介质、设备及处理终端，尤其涉及一种DOSDNet：基于动态优化融合和显著性检测的弱监督行人检测方法、系统、介质、设备及处理终端。

本发明是这样实现的，一种弱监督行人检测方法，所述弱监督行人检测方法包括以下步骤：

步骤一，构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像，为行人目标的检测奠定了基础；

步骤二，采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层，以保留更多图像细节信息；

步骤三，构建基于图像特征相似性和图像边缘保留的目标函数，并引入海洋捕食者优化算法进行优化，经过多次迭代，生成信息量最高和图像边缘强度最大的融合图像；

步骤四，引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移，减小了数据标注的工作量和复杂度，提高了图像标注信息的利用率；

步骤五，在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力，实现弱监督行人的检测。

进一步，步骤一中，所述构造增益算子对红外图像进行基于高频增益的显著性对比度增强，包括：

(1)通过计算窗口均值确定图像的背景信息；

(2)通过计算局部平均值，估计出红外背景后，从原始红外图像中减去红外背景就可以得到图像高频层；

(3)对得到的图像高频层计算对比度增益，通过分配合理的增益获得最终的红外图像。

进一步，步骤二中，所述采用引导滤波对图像进行多尺度分解，包括：

对原始可见光图像和增强后的红外图像进行引导滤波，通过以下公式获得相应的子基础层I_B ⁿ和子细节层I_D ⁿ：

I_Dj ⁿ＝I_Bj ^n-1-I_Bj ⁿ；

式中，GF(·)代表对图像进行引导滤波；r＝9，ε＝10³。

采用加权平均法融合第4级子基础层，同时制定显著性权重模块，通过直接从细节层构建权重图来识别突出的边缘结构；细节层的融合图像通过线性组合进行整合，并通过以下公式获得相应的融合基础层I_B和融合细节层I_D：

式中，W_i ⁿ表示不同层级的细节层所对应的权重图。

进一步，步骤三中，构建基于图像特征相似性和图像边缘保留的目标函数 min{-Q_FSIM-Q^AB/F}，并引入海洋捕食者优化算法对其进行优化，获得最终的融合图像F＝I_B+μI_D。

进一步，步骤四中，所述引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移，包括：

通过亮度感知分类器计算白天和夜间图像的预测概率，实现标注迁移任务：

式中，白天和夜晚预测概率分别定义为w_d和w_n，LAB_FUSE表示对融合图像实现的标注迁移。

本发明的另一目的在于提供一种应用所述的弱监督行人检测方法的弱监督行人检测系统，所述弱监督行人检测系统包括：

红外图像获取模块，用于通过构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像；

图像多尺度分解模块，用于采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层；

融合图像获取模块，用于构建基于图像特征相似性和图像边缘保留的目标函数，引入海洋捕食者优化算法进行优化，经过多次迭代生成最终的融合图像；

数据集标注迁移模块，用于通过引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移；

弱监督行人检测模块，用于在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力，实现弱监督行人的检测。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像；采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层；

构建基于图像特征相似性和图像边缘保留的目标函数，并引入海洋捕食者优化算法进行优化，经过多次迭代，生成最终的融合图像；引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移；在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力，实现弱监督行人的检测。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的弱监督行人检测系统。

本发明的另一目的在于提供一种所述的弱监督行人检测系统在行人目标检测中的应用。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的弱监督行人检测方法，通过对行人检测网络模型进行重新构建，同时结合了红外传感器和可见光传感器信息，采用标注迁移的方法实现跨相机标注，提出一种适用于检测车辆行驶中道路行人的全新网络，并命名为DOSDNet，该网络能够提高行人目标的显著性并抑制背景干扰，在减少人工标注的工作量和成本的同时，实现对各种复杂环境中多尺度行人目标的准确检测。

本发明提供的基于动态优化融合和显著性检测的弱监督行人检测网络，包括三个关键组件：基于海洋捕食者优化的红外和可见光图像融合模块、基于弱监督学习的图像标注迁移模块和基于卷积块注意力模型的行人检测模块。在融合模块中，制定了一种基于高频增益的显著性对比度自适应增强方法，以解决图像融合中红外行人特征模糊的问题。此外，为了进一步控制融合子层之间的权衡，设计了基于海洋捕食者优化算法的图像动态重建模型来生成最终的融合图像。在标注迁移模块中，提出了亮度感知分类器来计算白天和夜间图像的预测概率。受弱监督学习思想的启发，它可以减轻图像标注的成本，实现跨相机的图像标注迁移。同时，在行人检测模块中，在YOLOv5检测网络的框架中引入了卷积块注意力模型，以提高行人目标的重要性并抑制背景干扰。实验结果表明，该算法能够实现对各种复杂环境中多尺度目标的准确检测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的弱监督行人检测方法流程图。

图2是本发明实施例提供的弱监督行人检测方法原理图。

图3是本发明实施例提供的红外图像自适应增强过程示意图。

图3(a)～图3(g)为是本发明实施例提供的原始红外图像。

图3(h)～图3(n)是本发明实施例提供的增强后的红外图像，黄色框为显著性较高的行人目标。

图4是本发明实施例提供的多尺度引导滤波图像分解过程示意图。

图5是本发明实施例提供的中间过程图像。

图5(a)～图5(h)是本发明实施例提供的子细节层计算的权重图。

图5(i)～图5(p)是本发明实施例提供的显著图。

图6是本发明实施例提供的中间过程的图像。

图6(a)～图6(h)是本发明实施例提供的原始图像的子基础层示意图。

图6(i)～图6(p)是本发明实施例提供的原始图像的子细节层示意图。

图6(q)是本发明实施例提供的最终融合细节层示意图。

图6(r)是本发明实施例提供的最后的融合基础层示意图。

图7是本发明实施例提供的基于亮度感知模块的标注迁移过程结构图。

图8是本发明实施例提供的CBAM模块的结构示意图。

图9是本发明实施例提供的红外、可见光、融合图像视觉质量比较示意图。

图10是本发明实施例提供的几种比较方法的精度曲线示意图。

图11是本发明实施例提供的几种比较方法的mAP曲线示意图。

图12是本发明实施例提供的使用可见光、红外和融合图像显示行人检测结果示意图。

图13是本发明实施例提供的本发明算法与其他算法的检测结果对比图。

图14是本发明实施例提供的弱监督行人检测系统结构框图；

图中：1、红外图像获取模块；2、图像多尺度分解模块；3、融合图像获取模块；4、数据集标注迁移模块；5、弱监督行人检测模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种弱监督行人检测方法、系统、介质、设备及处理终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的弱监督行人检测方法包括以下步骤：

S101，构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像；

S102，采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层；

S103，构建基于图像特征相似性和图像边缘保留的目标函数，并引入海洋捕食者优化算法进行优化，经过多次迭代，生成最终的融合图像；

S104，引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移；

S105，在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力，实现弱监督行人的检测。

本发明实施例提供的弱监督行人检测方法原理图如图2所示。

如图14所示，本发明实施例提供的弱监督行人检测系统包括：

红外图像获取模块1，用于通过构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像，为行人目标的检测奠定了基础；

图像多尺度分解模块2，用于采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层，以保留更多图像细节信息；

融合图像获取模块3，用于构建基于图像特征相似性和图像边缘保留的目标函数，引入海洋捕食者优化算法进行优化，经过多次迭代，生成信息量最高和图像边缘强度最大的融合图像；

数据集标注迁移模块4，用于通过引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移，减小了数据标注的工作量和复杂度，提高了图像标注信息的利用率；

弱监督行人检测模块5，用于在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力，实现弱监督行人的检测。

下面结合具体实施例对本发明的技术方案作进一步描述。

本发明实施例提供的基于动态优化融合和显著性检测的弱监督行人检测方法包括以下步骤：

(1)构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的红外图像；

(2)采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层；

(3)为了控制获得的融合基础层和细节层之间的权衡，构建基于图像特征相似性和图像边缘保留的目标函数，并引入海洋捕食者优化算法对其进行优化。经过多次迭代，可以生成最终的融合图像；

(4)引入亮度感知分类器，实现基于弱监督学习框架的数据集标注迁移，从而提高标注信息的可靠性；

(5)在YOLOv5网络中引入了卷积块注意力模型，结合了通道注意力和空间注意力，提高了行人目标的显著性。

下面结合工作原理对本发明的技术方案作进一步描述。

1、基于动态优化融合和显著性检测的弱监督行人检测原理

1.1基于信息差异的显著性对比度增强方法

由于原始红外图像普遍具有较低的对比度，对行人检测精度产生影响。针对这个问题，本发明引入了显著性对比度增强算法。设计过程可描述如下。

首先，原始红外图像定义为IR(i，j)。在每个像素的(2n+1)×(2n+1)窗口大小内，局部平均值可以表示如下：

其中窗口大小被视为半径n的平方。n的值越大，丢失的图像细节就越多。因此，在本发明中，n设置为20。

通过计算局部平均值，对红外背景进行估算。随后，从原始红外图像中减去红外背景就可以得到图像高频层。为了增强高频层中包含的细节，本发明构造了一个新的增益算子G(i，j)，如(2)所示。

其中M代表整个图像的平均值；S(i，j)表示窗口中的局部标准偏差，该值可以表示为(3)。α是一个常数，用于控制全局均值和局部标准差之间的权衡，在本发明中，α＝1.5。注意图像平滑区域的局部标准偏差很小，那么增益值会变得比较大，可能会放大噪声信号。因此，阈值G(i，j)设置为5。

最后，通过合理分配增益，可以通过式(4)生成最终的增强红外图像E_ir(i，j)。

E_ir(i，j)＝m_x(i，j)+G(i，j)[IR(i，j)-m_x(i，j)] (4)

1.2基于多尺度引导滤波图像分解的红外与可见光图像融合策略

虽然增强后的红外图像具有更强的表达人物信息的能力，但红外传感器仍然忽略了道路环境特征。在本节中，提出了一种基于多尺度引导滤波图像分解的红外与可见光图像融合策略，可以获得具有突出行人目标和足够环境特征的融合图像。

1.2.1多尺度引导滤波图像分解

引导滤波通过考虑像素邻域的统计特性来执行平滑。它可以在分解过程中保留边缘信息，从而避免振铃伪影。因此，为了从大尺度边缘特征中提取精细尺度的纹理细节，设计了一种多尺度引导图像分解方法。

首先，假设引导图像为G，输出滤波后的图像表示O。然后，建立它们之间的局部线性模型，可以表示如下。

其中w_k是以像素k为中心的正方形窗口，其半径定义为r。此外，a_k和b_k表示可以通过以下最小化成本函数来解决的两个线性系数。

其中P表示输入图像，ε是正则化系数。为了便于描述，引导滤波过程定义为GF(P，G，r，ε)。

然后，对原始可见光图像VIS和增强后的红外图像E_ir(i，j)进行引导滤波。随后，可以通过以下公式获得相应的基础层和细节层。

I_Dj ⁿ＝I_Bj ^n-1-I_Bj ⁿ (8)

其中j表示源图像的类型，并且j∈[1，2]；n表示分解级别，在这里j∈[1，2，3，4]；I_Bj ⁿ和I_Dj ⁿ分别是获得的基础层和细节层。请注意，在本发明中，I_B1 ⁰＝E_ir， I_B2 ⁰＝VIS；r＝9，ε＝10³。

1.2.2基础层和细节层的融合策略

(1)基础层融合

由于基础层包含足够的强度信息，本发明采用加权平均法融合第4级子基础层，如(9)所示。

(2)细节层融合

细节层融合策略旨在有效表达两个细节层的纹理信息。因此，制定了一种新颖的显著性权重模块，通过直接从细节层构建权重图来识别突出的边缘结构。

首先，为了实现显著性信息的最大提取，可以通过取细节层的大小来计算视觉显著性图，如(10)所示。

然后，通过对显著图进行归一化，构建的权重图可以表示如下。

最后，细节层的融合图像可以通过线性组合进行整合，如(12)所示。

为了进一步控制最终融合图像中基础层和细节层之间的比例，制定以下等式。

F＝I_B+μI_D (13)

式中，μ是动态优化系数。优化系数的计算将在1.3节进行描述。

1.3基于海洋捕食者优化算法的融合图像重建

为了进一步平衡基础融合图像和细节融合图像中包含的有意义的信息，本发明构思了一种基于海洋捕食者的图像重建算法。经过多次迭代，可以通过自适应优化计算动态优化系数μ，生成最佳融合图像。动态优化系数μ的确定分为以下两个步骤：

1.3.1目标函数的构建

本发明构建的目标函数定义如下：

min{-Q_FSIM-Q^AB/F} (14)

其中Q_FSIM计算源图像和融合图像的特征相似度，Q^AB/F表示从源图像转移到融合图像的边缘信息量。定义如下：

S_L(x)＝[S_PC(x)]^α·[S_G(x)]^β (15)

S_PC(x)表示两幅图像的相位一致性特征提取，而S_G(x)定义为分别计算水平和垂直方向的梯度得到的最终梯度。S_L(x)表示S_PC(x)和S_G(x)融合的相似度。Q_FSIM的定义如(18)所示：

FSIM₁＝FSIM(IR，F)；FSIM₂＝FSIM(VIS，F) (17)

其中FSIM(·)表示对两幅图像计算Q_FSIM。Q^AB/F定义如下：

和/>分别表示位置(i，j)处的边缘强度和方向值。w^A和w^B计算表示不同源图像的权重。

1.3.2基于海洋捕食者的自适应优化(MPOA)

MPOA通过模拟海洋捕食者的觅食策略，可以有效解决复杂的全局优化问题，因此本发明将其引入到优化模型中。

首先，MPOA随机初始化搜索空间内的猎物位置以开始优化过程。其数学描述如下：

X₀＝X_min+rand(X_max-X_min) (21)

X_min和X_max定义搜索空间范围；rand是[0，1]中的随机数。在迭代开始时，基于探索策略的MPOA优化过程的数学描述如下：

其中s_i是步长；R_B是包含基于代表布朗运动的正态分布的随机数的向量； Elite_i是由顶级捕食者构建的精英矩阵；Prey_i是与精英矩阵同维的猎物矩阵；是逐项乘法算子；P是常数，在本发明中/>R是[0，1]内的均匀随机向量；n是搜索代理的数量，本发明设置n＝20；It和It_max分别是当前和最大迭代。在保证稳定迭代的同时，本发明设置It_max最大为150，并根据MPOA运行时间减少。

在迭代的中间，当捕食者和猎物以相同的速度向前移动时。在时：

其中R_L是Lévy分布的随机向量；CF是控制捕食者运动步长的自适应参数，其定义如下：

在迭代结束时，当捕食者的速度低于猎物的速度时，捕食者采用基于Lévy 游荡的开发策略。表达如下：

同时，在捕食过程中，鱼类聚集装置(FAD)或涡流的形成通常会影响海洋捕食者的觅食行为。考虑这种策略可以使MPOA在优化过程中摆脱局部极值问题的影响。其数学描述如下：

FADs＝0.2是效应概率；U是一个二元向量；r是[0，1]中的随机数；r1和r2下标表示猎物矩阵的随机索引。

使用海洋记忆更新Elite_i后，计算出整个精英矩阵中最优个体的适应度。如果满足目标函数min{-Q_FSIM-Q^AB/F}的要求，则算法结束，否则继续迭代。迭代后通过求解目标函数得到最优迭代系数μ_B，从而得到最终的融合图像。

1.4图像标注迁移

针对数据集有限、人工标注工作量大的问题，提出一种基于亮度感知分类器的标注迁移方法，自适应选择标注信息。受弱监督学习思想的启发，所提出的方法可以在不增加工作量的情况下减轻图像标注的成本，实现跨相机的精确标注。值得注意的是，建立的标注信息分类器将有效提高行人标注的可靠性。

首先，对同一场景的原始红外图像和可见光图像进行图像匹配。随后，构建亮度感知模块以计算输入图像的平均亮度L_ave，如(28)所示。这里，亮度感知归一化层可以对白天和夜晚的图像进行分类预测计算。并且输出的白天和夜晚预测概率分别定义为ω_d和ω_n。它们的值可以用(29)和(30)表示。

其中L(x，y)是像素(x，y)的亮度，N是输入图像中的像素总数，δ是颜色转换系数。p_d和p_n分别代表白天和夜晚的分类预测。

然后形成标注分类器，分析得到的预测概率，实现标注迁移任务。需要注意的是，如果w_n＜w_d，则将可见光图像的标注信息视为整体标注信息。否则，在红外图像中提取整体标注信息。标注信息迁移的过程表达如下：

因此，该方法通过完成不同类型图像之间的标注迁移，可以有效利用红外和可见光图像中包含的标注信息，大大减少人工标注的工作量。

1.5包含卷积块注意力模型的检测网络

为了提高行人目标的重要性并抑制背景干扰，在YOLOv5检测网络中引入了通道注意力和空间注意力相结合的CBAM模型。

将给定的特征图F定义为F∈R^C×H×W，其中C是特征图中的通道数，H×W是特征图的大小。CBAM模块首先发送F到通道注意力模块，通过平均池化和最大池化得到每个通道的信息，然后利用得到的参数通过多层感知器(两个全连接层)在特征维度上实现通道注意力机理，计算公式如式(33)所示。

其中M_C(F)是通道注意力模块；σ(·)表示sigmoid函数；MLP是多层感知器，AvgPool(·)和MaxPool(·)分别表示模块对特征图空间信息进行的平均池化和最大池化操作；和/>分别表示通道注意力机制的全局平均池化和最大平均池化操作。

将给定的特征图F_X发送到空间注意力模块后，通过平均池化和最大池化沿通道维度收集空间信息，生成空间特征图F_avg∈R^1×H×W和F_max∈R^1×H×W。经过1×1卷积和Sigmoid函数激活后，得到空间注意力特征，然后逐个元素乘以F_X得到空间注意力特征图。具体计算过程如式(34)所示。

式中，Cat表示连接操作；f^7×7表示大小为7×7的卷积运算；和/>表示空间注意力机制的全局平均池化和最大平均池化操作。

2、模型训练及结果分析

2.1实验环境及参数设置

图像处理配置如下：Intel Core i7-8565U@1.8GH CPUs；操作系统：64位Windows。测试环境配置如下：Intel Core i5-9400F@2.90GHz×6 CPUs，NVIDIA GeForceGTX 1660 Ti；操作系统：ubuntu 16.04LTS；深度学习框架：pytorch。

本实验的样本取自KAIST行人数据集，数据集中包含白天和夜间捕获的各种交通场景，包括校园、街道和乡村。本次实验共选取红外图像和可见光图像 548幅。将检测到的数据集随机分为训练集和测试集，大小为640×512。

2.2融合实验结果分析

为了说明所提出的预处理融合模块的优越性，从检测到的数据集中随机选择了八组源图像，并在定性和定量方面进行了分析。注意，为了便于观察和后续分析，文字信息和交通特征(道路标志、交通灯等)分别用黄色框和红色框突出显示。定性比较的结果如图9所示。

在图9中，组(a)、(b)、(c)、(g)和(h)是在白天捕获的。如图9(a，b，c)所示，红外图像不能突出红色框中的重要道路特征。同时，在树木和建筑物的遮挡下，可见光图像中会有更多行人目标信息的丢失。虽然在图9(g，h)红外和可见光图像的质量相对较好，它们仍然难以满足行人检测任务对丰富图像信息的需求。此外，组(d)、(e)和(f)是在夜间捕获的。值得注意的是，与红外图像相比，可见光图像普遍曝光过度，难以突出人体特征，如图9(e)中的黄色框。同时，在红外图像中，道路标志和交通灯的丰富特征被丢弃。综上所述，单个传感器获得的图像不利于行人检测。通过融合红外和可见光图像之间的互补信息，得到的融合图像不仅保留了足够的道路环境信息，而且行人的亮度也更加突出，具有更好的融合效果，为后续的检测任务奠定了良好的基础。

为了客观评价融合图像的质量，本发明选取了四个图像评价指标：EN(熵)、 SF(空间频率)、EI(边缘强度)和FD(图像清晰度)。EN表示图像中的平均信息量。SF从水平和垂直方向计算图像梯度。EI通过图像梯度测量边缘强度。 FD反映图像的清晰度。而且，上述四个指标的值越大，图像质量越高。在样本中，每隔20幅选取30组图像，对融合图像、红外图像和可见光图像进行客观判断。结果示于中，最佳值以粗体表示。

表1融合图像评价指标

在表1中，所提出的预处理融合算法的SF、EI和FD值远优于红外和可见光图像。这表明得到的融合图像具有最高的图像清晰度和最强的纹理信息表达能力。同时，EN的平均值保持次佳值，与最优值仅存在较近的差距，说明融合图像所包含的信息量是相对充足的。

综上所述，所提出的预处理融合算法的图像质量在定性和定量实验中均优于两种源图像。为了进一步证明所提出的检测方法的有效性，下面两节对检测结果进行了分析和论证。

2.3网络模型训练

在模型训练过程中，将输入图像大小统一调整为640×640，为避免模型陷入局部最优解或跳过最优解，本发明将动量项设置为0.937。每批训练的batch中包含32张图片，分8次发送到训练网络。在前200轮中将训练中的学习率设置为0.01。随着迭代次数的增加，训练中的学习率在接下来的100轮中降低到 0.001。为了防止模型过拟合，权重衰减正则项设置为0.0005，经过300轮模型迭代训练，得到最优模型权重。

2.4行人检测实验结果分析

网络模型的精度变化曲线如图10所示，蓝线代表YOLOv5曲线，红线是本发明改进方法的结果曲线，横坐标代表网络模型的迭代次数，纵坐标表示训练过程中的准确率值。从图10可以看出，本发明算法和YOLOv5的精度值在前80轮迭代中增加到0.5，而YOLOv5的精度值最终在0.76左右，而本发明算法的精度值最终稳定在0.8左右。实现了可靠的检测精度。因此，与原YOLOv5 算法相比，本发明提出的算法模型在检测精度上有显著提升。比较算法的平均精度(mAP)曲线如图11所示。

从图11可以看出，随着迭代次数的增加，改进算法的map值略高于YOLOv5 网络，并最终趋于稳定，达到更高的检测精度。

表2检测结果对比

表3不同检测算法的比较结果

Methods	Map	Precision	Recall	F1
					Faster RCNN	0.632	0.44	0.73	0.55
YOLOv5	0.683	0.841	0.702	0.67
					Proposed	0.663	0.875	0.732	0.66

表2是基于YOLOv5算法加入不同图像和策略的检测结果对比。由表2可知，使用网络融合模块得到的图像进行检测，比可见光和红外图像具有更高的检测精度和召回率。同时，本发明改进算法的检测效果也优于YOLOv5，证明了该网络的有效性。表3显示了使用不同检测网络的融合图像的比较结果。从表3可以看出，与其他算法相比，本发明提出的改进网络在检测精度和检测效果上有更好的提升。

图12为融合图像、可见光图像和红外图像，以及本发明算法得到的检测结果。我们可以看到融合图像能够更好地突出被检测人的轮廓信息，因此基于融合图像的检测结果具有更高的准确率。图13显示了使用本发明改进的检测模块和其他比较方法检测融合图像的结果。结果证明，本发明的检测模块不仅具有较高的行人检测精度，而且可以有效改善漏检现象。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种弱监督行人检测方法，其特征在于，所述弱监督行人检测方法包括以下步骤：

步骤一，构造增益算子对红外图像进行基于高频增益的显著性对比度增强，获得具有突出行人信息的高对比度红外图像；

步骤二，采用引导滤波对图像进行多尺度分解，获得增强后红外图像和可见光图像的子基础层和子细节层；

步骤三，构建基于图像特征相似性和图像边缘保留的目标函数，并引入海洋捕食者优化算法进行优化，经过多次迭代，生成最终的融合图像；

步骤四，引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移；

步骤五，在YOLOv5网络中引入卷积块注意力模型，结合通道注意力和空间注意力，实现弱监督行人的检测；

步骤二中，所述采用引导滤波对图像进行多尺度分解，包括：

I_Dj ⁿ＝I_Bj ^n-1-I_Bj ⁿ；

式中，GF(·)代表对图像进行引导滤波；r＝9，ε＝10³；其中j表示源图像的类型，并且j∈[1,2]；n表示分解级别，在这里j∈[1,2,3,4]；I_Bj ⁿ和I_Dj ⁿ分别是获得的基础层和细节层；

式中，W_i ⁿ表示不同层级的细节层所对应的权重图；

步骤三中，构建基于图像特征相似性和图像边缘保留的目标函数min{-Q_FSIM-Q^AB/F}，其中Q_FSIM计算源图像和融合图像的特征相似度，Q^AB/F表示从源图像转移到融合图像的边缘信息量；并引入海洋捕食者优化算法对其进行优化，获得最终的融合图像F＝I_B+μI_D，式中，μ是动态优化系数。

2.如权利要求1所述弱监督行人检测方法，其特征在于，步骤一中，所述构造增益算子对红外图像进行基于高频增益的显著性对比度增强，包括：

(1)通过计算窗口均值确定图像的背景信息；

3.如权利要求1所述弱监督行人检测方法，其特征在于，步骤四中，所述引入亮度感知分类器实现基于弱监督学习框架的数据集标注迁移，包括：

4.一种实施权利要求1～3任意一项所述弱监督行人检测方法的弱监督行人检测系统，其特征在于，所述弱监督行人检测系统包括：

5.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～3任意一项所述的弱监督行人检测方法的步骤。

6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～3任意一项所述的弱监督行人检测方法的步骤。

7.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求4所述弱监督行人检测系统。

8.一种如权利要求4所述弱监督行人检测系统在行人目标检测中的应用方法。