CN113343807A

CN113343807A - 一种重构引导下的复杂场景的目标检测方法及装置

Info

Publication number: CN113343807A
Application number: CN202110582140.4A
Authority: CN
Inventors: 何福金; 吴子丰; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-03

Abstract

本申请公开了一种重构引导下的复杂场景的目标检测方法及装置，该方法中对输入图像进行加噪处理得到加噪后图像，对加噪后图像进行编码，提取加噪后图像的第一多尺度图像特征，对输入图像进行编码，提取输入图像的第二多尺度图像特征，将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，提取重构图像的图像特征，对所提取的图像特征和第一多尺度图像特征进行融合得到融合特征，根据融合特征和预设目标检测模型进行目标检测得到目标对象。本申请中，以输入图像作为输入以减少重构图像的误差为目的来从复杂场景的图像中提取图像的本质特征并进行目标检测，提高识别出的物体的准确性为导盲提供依据。

Description

一种重构引导下的复杂场景的目标检测方法及装置

技术领域

本申请涉及目标检测技术领域，尤其涉及一种重构引导下的复杂场景的目标检测方法及装置。

背景技术

近年来，随着计算机视觉研究的快速发展，越来越多的人尝试使用计算机视觉手段来帮助盲人理解这个世界，例如导盲眼镜，通过导盲眼镜以计算机视觉的方式来帮助盲人了解周围的人或者物。

导盲的主要作用就是识别周围的环境，其中包括检测周围的人、障碍物、红绿灯、车辆等相关信息，并将这些信息以声音或者其它的方式呈现给盲人。因此识别室外场景中盲人周围环境中的物体是导盲的第一步。而室外场景通常是复杂的，其中一个很重要的因素就是天气，不同的天气会使得摄像头采集到不一样的信息，例如摄像头采集到的图像带有雨、雾、光照等的影响，这些因素将限制检测器的性能，使得从图像中识别出的物体不够准确，导致后续无法准确的为导盲提供依据。

针对上述雨、雾、低光照的复杂场景下的物体检测不够准确的问题目前有如下几种解决方式：

(1)需要额外的预处理操作。例如：利用一个预处理的网络对图像进行去雨、去雾、图像增强等操作，这通常需要额外的计算时间和资源来完成。并且经过这种预处理操作可能会改变图像的分布，导致并不能很好的直接应用到后续的目标检测中，而两者连调又存在比较大的不稳定性，且过程比较繁琐。

(2)利用红外信息来补充复杂场景下的信息。红外图像可以不受雨雾等一些因素的干扰，但是红外图像通常是不准确，缺少一些纹理相关的信息，并且红外图像和自然图像之间并不是完全的一一对应关系，所以如何融合两者之间的信息是一个需要考量的问题，并且红外图像需要额外的摄像头来获取，这也一定程度的增加了成本。

(3)利用深度图来辅助提高检测模型的性能。深度图的引入有利于检测模型对于空间的结构信息进行理解，但这两个模态的东西本质上是不一样的，自然图像提供了纹理，亮度等信息，而深度图更多的是体提供了一种空间结构信息，将两者结合可以有效的将二维图像向三位转换，但需要研究它们之间的融合策略，并且深度图在一些复杂场景中是比较难获取的。因此训练比较麻烦。

可见，上述几种方式在目标检测时均无法较好的对抗天气的影响，使得从具有复杂场景的图像中识别出的物体不够准确，导致后续无法准确的为导盲提供依据。

发明内容

本申请提供一种重构引导下的复杂场景的目标检测方法及装置，可以对抗天气的影响，提高从具有复杂场景的图像中识别出的物体的准确性，进一步准确的为导盲提供依据。

第一方面，本申请提供了一种重构引导下的复杂场景的目标检测方法，包括：

对输入图像进行加噪处理得到加噪后图像，其中，所述输入图像为无噪声图像；

对所述加噪后图像进行编码，提取所述加噪后图像的第一多尺度图像特征；

对所述输入图像进行编码，提取所述输入图像的第二多尺度图像特征；

将所述第二多尺度图像特征作为所述第一多尺度图像特征的监督信息，对所述第一多尺度图像特征进行解码得到重构图像，其中，所述重构图像与所述输入图像之间的相似度大于预设阈值；

提取所述重构图像的图像特征，对所提取的图像特征和所述第一多尺度图像特征进行融合，得到融合特征；

根据所述融合特征和预设目标检测模型进行目标检测，得到目标对象。

可选的，所述对输入图像进行加噪处理得到加噪后图像的步骤，包括：

将输入图像的天气修改为雨天或者雾天得到加噪后图像；

或者，

对输入图像进行对比度调整得到加噪后图像。

可选的，所述对所述加噪后图像进行编码，提取所述加噪后图像的第一多尺度图像特征的步骤，包括：

采用第一网络模型对所述加噪后图像进行编码，提取所述加噪后图像的第一多尺度图像特征，其中，所述第一网络模型为经过ImageNet预训练的ResNet-50、ResNet-101或者ResNext-101。

可选的，所述对所述输入图像进行编码，提取所述输入图像的第二多尺度图像特征的步骤，包括：

采用第二网络模型对所述输入图像进行编码，提取所述输入图像的第二多尺度图像特征，其中，所述第二网络模型为经过ImageNet预训练的ResNet-50、ResNet-101或者ResNext-101，所述第二网络模型与所述第一网络模型的网络结构相同且参数共享。

可选的，所述将所述第二多尺度图像特征作为所述第一多尺度图像特征的监督信息，对所述第一多尺度图像特征进行解码得到重构图像的步骤，包括：

采用第三网络模型将所述第二多尺度图像特征作为所述第一多尺度图像特征的监督信息，对所述第一多尺度图像特征进行解码得到重构图像，其中，所述第三网络模型的网络结构为上采样up-sampling或者反卷积deconvolution。

可选的，通过以下公式确定总体损失：

L_sum＝L1+αL2+βL3

其中，L_sum为总体损失函数，L1为第一损失函数，L2为第二损失函数，L3为所述预设目标检测模型的输出损失函数，α为第二损失函数的权重系数，β为输出损失函数权重系数，L1的输入为所述第一多尺度图像特征和所述第二多尺度图像特征，L2的输入为所述重构图像和所述输入图像。

可选的，在所述得到目标对象的步骤之后，上述重构引导下的复杂场景的目标检测方法还包括：

对所述目标对象进行后处理，得到处理后的目标对象，其中，所述后处理至少包括非极大值抑制处理。

第二方面，本申请提供了一种重构引导下的复杂场景的目标检测装置，包括：

加噪模块，用于对输入图像进行加噪处理得到加噪后图像，其中，所述输入图像为无噪声图像；

第一编码模块，用于对所述加噪后图像进行编码，提取所述加噪后图像的第一多尺度图像特征；

第二编码模块，用于对所述输入图像进行编码，提取所述输入图像的第二多尺度图像特征；

重构模块，用于将所述第二多尺度图像特征作为所述第一多尺度图像特征的监督信息，对所述第一多尺度图像特征进行解码得到重构图像，其中，所述重构图像与所述输入图像之间的相似度大于预设阈值；

融合模块，用于提取所述重构图像的图像特征，对所提取的图像特征和所述第一多尺度图像特征进行融合，得到融合特征；

目标检测模块，用于根据所述融合特征和预设目标检测模型进行目标检测，得到目标对象。

可选的，所述加噪模块，具体用于：

将输入图像的天气修改为雨天或者雾天得到加噪后图像；

或者，

对输入图像进行对比度调整得到加噪后图像。

可选的，所述第一编码模块，包括：

可选的，所述第二编码模块，包括：

可选的，所述重构模块，包括：

可选的，通过以下公式确定总体损失：

L_sum＝L1+αL2+βL3

可选的，所述装置还包括处理模块，所述处理模块具体用于：

在所述得到目标对象之后，对所述目标对象进行后处理，得到处理后的目标对象，其中，所述后处理至少包括非极大值抑制处理。

第三方面，本申请提供了一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如第一方面中任一所述的方法。

第四方面，本申请提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

由上述技术方案可以看出，本申请提供了一种重构引导下的复杂场景的目标检测方法，在本方法中，对输入图像进行加噪处理得到加噪后图像，其中，输入图像为无噪声图像，对加噪后图像进行编码，提取加噪后图像的第一多尺度图像特征，对输入图像进行编码，提取输入图像的第二多尺度图像特征，将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，其中，重构图像与输入图像之间的相似度大于预设阈值，提取重构图像的图像特征，对所提取的图像特征和第一多尺度图像特征进行融合，得到融合特征，根据融合特征和预设目标检测模型进行目标检测，得到目标对象。在本申请的技术方案中，将无噪声图像的第二多尺度图像特征作为加噪后图像的第一多尺度图像特征的监督信息以对第一多尺度图像特征进行重构得到重构图像，由此将重构图像引入到目标检测中，从一个新的角度来进行复杂场景下的目标检测，并且本发明不需要深度图或者红外图像来提供额外的信息，直接以常见的可见光图像即输入图像作为输入，以减少重构图像的误差为目的来从复杂场景的图像中提取图像的本质特征即重构图像的图像特征，由于重构图像的图像特征是图像的本质特征，因此，该图像特征更准确，通过该图像特征进行后续的目标检测可以提高从具有复杂场景的图像中识别出的物体的准确性，进一步准确的为导盲提供依据。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本申请实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的重构引导下的复杂场景的目标检测方法的一种流程示意图；

图2为本发明实施例提供的重构引导下的复杂场景的目标检测系统的结构示意图；

图3为本发明实施例提供的重构引导下的复杂场景的目标检测装置的一种结构示意图；

图4为电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中，在目标检测时均无法较好的对抗天气的影响，使得从具有复杂场景的图像中识别出的物体不够准确，导致后续无法准确的为导盲提供依据的问题。

本申请提供了一种重构引导下的复杂场景的目标检测方法，在本方法中，对输入图像进行加噪处理得到加噪后图像，其中，输入图像为无噪声图像，对加噪后图像进行编码，提取加噪后图像的第一多尺度图像特征，对输入图像进行编码，提取输入图像的第二多尺度图像特征，将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，其中，重构图像与输入图像之间的相似度大于预设阈值，提取重构图像的图像特征，对所提取的图像特征和第一多尺度图像特征进行融合，得到融合特征，根据融合特征和预设目标检测模型进行目标检测，得到目标对象。在本申请的技术方案中，将无噪声图像的第二多尺度图像特征作为加噪后图像的第一多尺度图像特征的监督信息以对第一多尺度图像特征进行重构得到重构图像，由此将重构图像引入到目标检测中，从一个新的角度来进行复杂场景下的目标检测，并且本发明不需要深度图或者红外图像来提供额外的信息，直接以常见的可见光图像即输入图像作为输入，以减少重构图像的误差为目的来从复杂场景的图像中提取图像的本质特征即重构图像的图像特征，由于重构图像的图像特征是图像的本质特征，因此，该图像特征更准确，通过该图像特征进行后续的目标检测可以提高从具有复杂场景的图像中识别出的物体的准确性，进一步准确的为导盲提供依据。

下面结合附图，详细说明本申请的各种非限制性实施方式。

参见图1，示出了本申请实施例中的一种重构引导下的复杂场景的目标检测方法。在本实施例中，方法应用于电子设备，方法例如可以包括以下步骤：

S101：对输入图像进行加噪处理得到加噪后图像，其中，输入图像为无噪声图像。

从本发明的背景技术中可以看出目前现有的方式存在各自的局限性，本发明的发明人从现有需要额外的预处理操作这个角度出发，考虑直接从可见光图像来重新建模以进行目标检测。本发明的发明人想到为什么不使用含有雨、雾、低光照等干扰的图像直接来学习噪声图像下的目标检测？噪声图像提取的编码信息是否会带有一定噪声信息？这些噪声信息是否会影响目标检测网络后续进行目标检测？

针对上面提出的问题，本发明的发明人从以下两个角度来回答：

1)噪声图像是比较难获得的，目前为止并没有公开的比较大的带噪图像目标检测数据集。并且真实环境是具有多样性的，单纯的通过人工来模拟噪声并不能很好的代表实际环境。

2)从现有的数据例如论文中可以看到噪声对于图像进行目标检测来说是有干扰的，会影响最终目标检测的结果。也就是说直接用噪声图像来学习目标检测网络得到的并不是最优的结果，原因可以归结为缺少有效的中间监督信息来指导目标检测网络去忽略这些会干扰目标检测网络的噪声信息。

本发明的发明人基于上面的思考提出了一个可行的方案，具体地，本发明提出了重构引导下的复杂场景的目标检测系统，通过该系统一方面使用了一个编解码模型来学习图像的编码信息，并且希望解码后的模型与干净图像的重构误差尽可能小，这迫使模型在编解码的过程要学会如何去识别什么是物体，什么是噪声，然后将噪声尽可能的压制，并且在编码的过程中需要学会抽取图像的信息，比如图像中存在哪些物体以及所存在的物体所在位置，其中，干净图像为无噪声图像。

另一方面，本发明将干净图像和噪声图像同时输入到该系统中，以干净图像的编码结果作为标准来引导该系统从噪声图像中抽取同样的特征，这也是在帮助系统理解什么是噪声，同时也作为编解码模型的中间监督信息来监督系统实现更好的特征抽取。通过这种以重构为基础的引导，系统可以从图像中抽取最本质特征，包括纹理或位置等，而这些本质的特征是后续导盲的下游分类或者识别任务的关键，最终有利于后续进行目标检测的性能的提升。

下面对本发明实施例提供的重构引导下的复杂场景的目标检测系统进行详细介绍，图2为本发明实施例提供的重构引导下的复杂场景的目标检测系统的结构示意图，参见图2，本发明实施例提供的重构引导下的复杂场景的目标检测系统包括：数据预处理模块、M1噪声图像编码模块、M2图像解码模块、M3干净图像编码模块、M4多尺度特征融合模块和M5检测输出模块，图2中，IMG1为输入图像，IMG2为加噪后图像，L1为第一损失函数，L2为第二损失函数，output为输出。

由于目前没有大规模噪声图像下的目标检测数据集，同时还需要与噪声图像对应的干净图像，直接收集噪声图像与干净图像也是比较困难的。因此，本发明实施例提出使用数据预处理模块来得到噪声图像以及与噪声图像对应的干净图像。

具体方式为：继续参见图2，对任意一张输入图像IMG1进行加噪处理得到加噪后图像，其中，输入图像为无噪声图像。由此，通过对输入图像进行加噪处理的方式来模拟实际场景产生的噪声图像，在本发明实施例中将加噪后图像记为IMG2，从而IMG1和IMG2构成了一对输入的样本对。

其中，步骤S101可以包括：

将输入图像的天气修改为雨天或者雾天得到加噪后图像；

或者，

对输入图像进行对比度调整得到加噪后图像。

通过将输入图像的天气修改为雨天或者雾天得到加噪后图像，模拟了雨天或者雾天情况下拍摄得到的噪声图像，通过对输入图像进行对比度调整得到加噪后图像，模拟了不同光照度情况下拍摄得到的噪声图像。具体的对输入图像进行对比度调整可以为调高对比度或者调低对比度，这都是可以的，本发明实施例对此并不做任何限定，具体根据实际情况来确定。

S102：对加噪后图像进行编码，提取加噪后图像的第一多尺度图像特征。

继续参见图2，在得到加噪后图像IMG2后，将加噪后图像I MG2输入至M1噪声图像编码模块进行编码，提取加噪后图像IMG2的第一多尺度图像特征F1。

M1噪声图像编码模块的具体网络结构模型为第一网络模型，第一网络模型可以为现有的任一可进行编码的成熟网络，即采用第一网络模型对加噪后图像IMG2进行编码，提取加噪后图像IMG2的第一多尺度图像特征F1，其中，第一网络模型可以为经过ImageNet预训练的ResNet-50、ResNet-101或者ResNext-101，ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库，ResNet-50、ResNet-101和ResNext-101均为残差网络。

S103：对输入图像进行编码，提取输入图像的第二多尺度图像特征。

继续参见图2，为了得到重构图像，将输入图像IMG1输入至M3干净图像编码模块进行编码，提取输入图像IMG1的第二多尺度图像特征F3。M3干净图像编码模块的具体网络结构模型为第二网络模型，第二网络模型可以为现有的任一可进行编码的成熟网络，即在上述步骤S102包括采用第一网络模型对加噪后图像IMG2进行编码，提取加噪后图像IMG2的第一多尺度图像特征F1，其中，第一网络为经过ImageNet预训练的ResNet-50、ResNet-101或者ResNext-101的情况下，步骤S103可以包括：

采用第二网络模型对输入图像IMG1进行编码，提取输入图像IMG1的第二多尺度图像特征F3，其中，第二网络模型可以为经过ImageNet预训练的ResNet-50、ResNet-101或者ResNext-101，第二网络模型与第一网络模型的网络结构相同且参数共享。

在本发明实施例中，可以将M1和M3看成是一对孪生网络，M1和M3的结构是完全一致的，并且两者的参数是共享的，但是两者的输入信息与输出信息是不一样的，M1的输入信息是加噪后图像IMG2，输出为F1，而M3的输入信息是无噪的输入图像IMG1，输出为F3。其中，F3的作用就是用来作为F1的监督信息，示例性的，可以使用余弦相似度来度量F1与F3之间的损失。

但是，需要注意的是M1的梯度是不向M3进行更新的，这是因为M1和M3是孪生网络，更新M1等价于更新M3。并且由于设置M1和M3为孪生网络的目的就是希望F1向F3去靠近。这使得M1可以学会如何关注图像中那些不变的共性特征信息，例如图像的本质特征：图像中的人或者车在什么位置，而将一些与图像无关的信息排除掉，例如噪声信息。M3模块的作用是作为一个可变化的监督模块，用来监督M1模块的学习，让M1抽取到和M3特征的共性，从而有利于后续的网络。所以在本发明实施例中，限制了梯度不向M3传递。

S104：将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，其中，重构图像与输入图像之间的相似度大于预设阈值。

继续参见图2，将第一多尺度图像特征F1输入至M2图像解码模块，将第二多尺度图像特征F3作为第一多尺度图像特征F1的监督信息，对第一多尺度图像特征F1进行解码得到重构图像，并希望重构图像与输入图像IMG1尽可能一致，即重构图像与输入图像之间的相似度大于预设阈值。这就迫使由M1和M2构成的编解码网络可以有效的提取图像中的本质特征。

M2图像解码模块的具体网络结构模型为第三网络模型，第三网络模型可以为现有的任一可进行编码的成熟网络，即步骤S104可以包括：

采用第三网络模型将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，其中，第三网络模型的网络结构可以为上采样up-sampling或者反卷积deconvolution。

为了保留更多的细节，M1和M2的对应尺度之间存在信息的传递。具体为通过将M1的多个尺度的信息引入到对应的解码模块M2，从而使得M2解码的结果更加精确。

对于在得到重构图像时的网络监督过程中，可以使用MSE Loss均方损失函数来度量重构图像和输入图像IMG1之间的欧式距离，使得两者之间的欧式距离小于预设距离阈值，达到监督的目的。

M1和M2组成的网络一方面可以看成是一个进行去噪的网络，学会如何辨别图像中什么是物体以及什么噪声。另一方面，也可以看成是一个进行重构的网络，通过高层的语义信息来重构图像中的细节，恢复图像本来的面貌从而得到与输入图像相似的带有噪音的重构图像。

从整体来看，M1和M2组成的网络可以看成是一个可逆的网络，通过M1来学习一个输入量x到中间变量z的映射，而M2则是从中间变量z映射到一个与x相对应的映射量x’上。这个过程保证了M1和M2可以从图像中学习那些最本质特征。从而可以更好的为后续的目标检测提供更具有意义的特征，以便提升目标检测的性能。

可见，通过M1、M2和M3三个模块的结合，可以有效的提取不同图像中的特征，比如图像中存在哪些物体以及所存在的物体所在的位置等，而这些特征是后续目标检测的关键，在本发明实施例中，通过两个监督损失提升了系统对于噪声图像的特征提取，以重构无噪的图像本身为目的，提高了系统对于各种环境下图像特征的提取和识别，最终有利于目标检测的使用。

S105：提取重构图像的图像特征，对所提取的图像特征和第二多尺度图像特征进行融合，得到融合特征。

继续参见图2，在得到重构图像后，提取重构图像的图像特征，将所提取的图像特征和第二尺度图像特征F3均输入到M4多尺度特征融合模块中进行融合，得到融合特征。其中，具体的融合方式可以为现有任一种多尺度特征融合方式，本发明实施例对此并不做任何限定。

S106：根据融合特征和预设目标检测模型进行目标检测，得到目标对象。

继续参见图2，在得到融合特征后，将融合特征输入至M5检测输出模块中的检测模块进行目标检测得到目标图像。M5检测输出模块中的检测模块的具体网络结构模型可以为预设目标检测模型，预设目标检测模型可以为一阶段网络模型，例如YOLO或SSD，其中，YOLO为You Only Look Once，SSD为Single Shot MultiBox Detector，也可以为RPN+RCNN二阶段的网络模型，本发明实施例对此并不做任何限定，其中，RPN为Region ProposalNetwork，RCNN为Region CNN，CNN为卷积神经网络Convolutional Neural Networks。

在本发明实施例中，重构引导下的复杂场景的目标检测系统包括3个损失函数，分别为第一损失函数L1、第二损失函数L2和预设目标检测模型的输出损失函数L3。

L1的输入为第一多尺度图像特征和第二多尺度图像特征，通过特征限制来度量加噪后图像和输入图像编码之后特征的一致性，强迫加噪后图像经过M1之后可以提取和输入图像IMG1一致的共性特征，例如人或者物的位置等，这也是在让系统学习了进行去噪。

L2的输入为重构图像和输入图像IMG1，用来度量以加噪后图像为输入得到的第一多尺度图像特征F1进行重构得到的重构图像和输入图像IMG1之间的差距，目的是保证编码的第一多尺度图像特征F1提取到了图像的本质特征，因为只有编码的特征足够准确才能保证最终的重构误差越小，同时这个过程也隐式的学习了如何去噪。

L1和L2是本发明重要的一个组成，通过约束重构图像以及对加噪后图像进行编码得到的第一多尺度图像特征F1之间的一致性，来保证后续的目标检测的结果尽可能准确。

L3为预设目标检测模型的输出损失函数，包括分类损失函数和定位损失函数。

具体的，通过以下公式确定总体损失：

L_sum＝L1+αL2+βL3

其中，L_sum为总体损失函数，L1为第一损失函数，L2为第二损失函数，L3为预设目标检测模型的输出损失函数，α为第二损失函数的权重系数，β为输出损失函数权重系数，L1的输入为第一多尺度图像特征和第二多尺度图像特征，L2的输入为重构图像和输入图像。

其中，α和β是用来平衡L1、L2和L3三者之间的权重。

对于整个系统的优化，本发明实施例采用统一训练的方式，总体损失函数如L_sum所示，对于M1和M2通常使用ImageNet预训练的参数作为初始化，对于M3、M4和M5以随机参数初始化。

M3模块的作用是作为一个可变化的监督模块，用来监督M1模块的学习，让M1抽取到和M3特征的共性，当训练完成之后，M3模块的监督作用就不存在了，所以可以直接丢掉，这样就能有效的减少网络的推理时间，此时本发明实施例提供的重构引导下的复杂场景的目标检测系统相对于传统的检测模型仅多了M2模块，而M2模块的大部分操作是上采样，所以只是会略微的带来一些时间上的增加。并且本发明实施例只以一张输入图像作为输入就可以输出对应的目标检测结果。

综上可见，本申请提供的一种重构引导下的复杂场景的目标检测方法，在本方法中，对输入图像进行加噪处理得到加噪后图像，其中，输入图像为无噪声图像，对加噪后图像进行编码，提取加噪后图像的第一多尺度图像特征，对输入图像进行编码，提取输入图像的第二多尺度图像特征，将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，其中，重构图像与输入图像之间的相似度大于预设阈值，提取重构图像的图像特征，对所提取的图像特征和第一多尺度图像特征进行融合，得到融合特征，根据融合特征和预设目标检测模型进行目标检测，得到目标对象。在本申请的技术方案中，将无噪声图像的第二多尺度图像特征作为加噪后图像的第一多尺度图像特征的监督信息以对第一多尺度图像特征进行重构得到重构图像，由此将重构图像引入到目标检测中，从一个新的角度来进行复杂场景下的目标检测，并且本发明不需要深度图或者红外图像来提供额外的信息，直接以常见的可见光图像即输入图像作为输入，以减少重构图像的误差为目的来从复杂场景的图像中提取图像的本质特征即重构图像的图像特征，由于重构图像的图像特征是图像的本质特征，因此，该图像特征更准确，通过该图像特征进行后续的目标检测可以提高从具有复杂场景的图像中识别出的物体的准确性，进一步准确的为导盲提供依据。

并且，引入重构图像来提升目标检测的性能，基于这种思路可以保证前面的编码网络更好的理解图像的本质，从而更好的从图像中抽取所需要的本质特征，提升下游目标检测的性能。以加噪后图像为输入，干净图像即输入图像为监督信号，隐式的让系统学习了如何去噪也是本发明的发明点之一。其中，隐式的让系统学习如何去噪的方式为：M1的输入是加噪后图像IMG2，加噪后图像IMG2重构后的图像，也就是M2的输出的重构图像的监督信息是输入图像IMG1，也就是M1和M2组成的网络本身也可以看成是一个去噪过程。

以及，构建加噪后图像IMG2和输入图像IMG1构成了一对输入的样本对，并且以输入图像IMG1的编码结果即第二多尺度图像特征作为加噪后图像IMG2的监督信息，进一步监督抽取的中间特征，这个过程一方面让系统学会了区分噪声和有用信息，另外一方面也是让中间特征更加准确，中间特征的准确使得提取的重构图像的图像特征更准确，进一步提高了从具有复杂场景的图像中识别出的物体的准确性，这也是本发明的发明点之一。

在步骤S106之后，上述方法还可以包括：

对目标对象进行后处理，得到处理后的目标对象，其中，后处理至少包括非极大值抑制处理。

继续参见图2，在得到了目标对象后，为了进行导盲，通过M5检测输出模块中的后处理模块对目标对象进行后处理，得到处理后的目标对象，处理后的目标对象可以传递给导盲后续的模块以便进行导盲，其中，后处理至少包括非极大值抑制处理，

由此，通过对目标对象进行后处理的方式，准确的为导盲提供依据。

在上述重构引导下的复杂场景的目标检测方法的基础上，参见图3，图3为本发明实施例提供的重构引导下的复杂场景的目标检测装置的一种结构示意图，本申请还提供了一种重构引导下的复杂场景的目标检测装置，所述装置包括：

加噪模块301，用于对输入图像进行加噪处理得到加噪后图像，其中，所述输入图像为无噪声图像；

第一编码模块302，用于对所述加噪后图像进行编码，提取所述加噪后图像的第一多尺度图像特征；

第二编码模块303，用于对所述输入图像进行编码，提取所述输入图像的第二多尺度图像特征；

重构模块304，用于将所述第二多尺度图像特征作为所述第一多尺度图像特征的监督信息，对所述第一多尺度图像特征进行解码得到重构图像，其中，所述重构图像与所述输入图像之间的相似度大于预设阈值；

融合模块305，用于提取所述重构图像的图像特征，对所提取的图像特征和所述第一多尺度图像特征进行融合，得到融合特征；

目标检测模块306，用于根据所述融合特征和预设目标检测模型进行目标检测，得到目标对象。

可见，本装置可以对输入图像进行加噪处理得到加噪后图像，其中，输入图像为无噪声图像，对加噪后图像进行编码，提取加噪后图像的第一多尺度图像特征，对输入图像进行编码，提取输入图像的第二多尺度图像特征，将第二多尺度图像特征作为第一多尺度图像特征的监督信息，对第一多尺度图像特征进行解码得到重构图像，其中，重构图像与输入图像之间的相似度大于预设阈值，提取重构图像的图像特征，对所提取的图像特征和第一多尺度图像特征进行融合，得到融合特征，根据融合特征和预设目标检测模型进行目标检测，得到目标对象。在本申请的技术方案中，将无噪声图像的第二多尺度图像特征作为加噪后图像的第一多尺度图像特征的监督信息以对第一多尺度图像特征进行重构得到重构图像，由此将重构图像引入到目标检测中，从一个新的角度来进行复杂场景下的目标检测，并且本发明不需要深度图或者红外图像来提供额外的信息，直接以常见的可见光图像即输入图像作为输入，以减少重构图像的误差为目的来从复杂场景的图像中提取图像的本质特征即重构图像的图像特征，由于重构图像的图像特征是图像的本质特征，因此，该图像特征更准确，通过该图像特征进行后续的目标检测可以提高从具有复杂场景的图像中识别出的物体的准确性，进一步准确的为导盲提供依据。

在一种实现方式中，所述加噪模块301，可以具体用于：

将输入图像的天气修改为雨天或者雾天得到加噪后图像；

或者，

对输入图像进行对比度调整得到加噪后图像。

在一种实现方式中，所述第一编码模块302，可以包括：

在一种实现方式中，所述第二编码模块303，可以包括：

在一种实现方式中，所述重构模块304，可以包括：

在一种实现方式中，通过以下公式确定总体损失：

L_sum＝L1+αL2+βL3

在一种实现方式中，所述装置还包括处理模块，所述处理模块具体用于：

图4是本申请实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成实现重构引导下的复杂场景的目标检测装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本申请任一实施例中提供的重构引导下的复杂场景的目标检测方法。

上述如本申请图1所示实施例提供的重构引导下的复杂场景的目标检测方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本申请任一实施例中提供的重构引导下的复杂场景的目标检测方法。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种重构引导下的复杂场景的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对输入图像进行加噪处理得到加噪后图像的步骤，包括：

将输入图像的天气修改为雨天或者雾天得到加噪后图像；

或者，

对输入图像进行对比度调整得到加噪后图像。

3.根据权利要求1所述的方法，其特征在于，所述对所述加噪后图像进行编码，提取所述加噪后图像的第一多尺度图像特征的步骤，包括：

4.根据权利要求3述的方法，其特征在于，所述对所述输入图像进行编码，提取所述输入图像的第二多尺度图像特征的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第二多尺度图像特征作为所述第一多尺度图像特征的监督信息，对所述第一多尺度图像特征进行解码得到重构图像的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，通过以下公式确定总体损失：

L_sum＝L1+αL2+βL3

7.根据权利要求1所述的方法，其特征在于，在所述得到目标对象的步骤之后，所述方法还包括：

8.一种重构引导下的复杂场景的目标检测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述加噪模块，具体用于：

将输入图像的天气修改为雨天或者雾天得到加噪后图像；

或者，

对输入图像进行对比度调整得到加噪后图像。

10.一种电子设备，其特征在于，包括：处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行权利要求1-7任一项所述的方法。