CN113936138A

CN113936138A - 基于多源图像融合的目标检测方法、系统、设备、介质

Info

Publication number: CN113936138A
Application number: CN202111078219.XA
Authority: CN
Inventors: 王鹏; 董博; 郭宇飞; 马喆; 毛磊
Original assignee: Second Research Institute Of Casic
Current assignee: Second Research Institute Of Casic
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-14

Abstract

本发明公开一种基于多源图像融合的目标检测方法、系统、设备、介质，涉及目标检测技术领域，以解决目标检测结果精度差的问题。所述目标检测方法包括：先获取对同一目标进行拍摄所得到的第一源图像和第二源图像，然后利用模态转换模型对第一源图像进行模态转换，得到仿真第二源图像，最后以第二源图像和仿真第二源图像作为输入，利用分割模型得到分割结果，完成目标检测。本发明提供的基于多源图像融合的目标检测方法、系统、设备、介质用于进行目标检测。

Description

基于多源图像融合的目标检测方法、系统、设备、介质

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于多源图像融合的目标检测方法、系统、设备、介质。

背景技术

现有的目标检测分割算法按照输入信息的不同，可分为单源分割和多源分割两种。单源分割主要是根据目标的灰度、形状与背景环境的差异等先验信息来设计区分目标和背景的分割算法，如阈值法、模糊聚类、活动轮廓以及基于卷积神经网络CNN的语义分割。多源分割主要是将不同源的图像信息先进行融合，从而将目标在不同传感器下的信息进行优势互补，进而在融合图像上用单源分割方法实现目标识别分割。但现有的多源分割方法在图像分割之前先进行图像融合，这通常需要进行图像配准，而不同源的图像进行空间配准非常困难，会导致部分信息在图像融合过程中丢失，进而影响多源信息的利用效率，目标检测结果的精度低。

发明内容

本发明的目的在于提供一种基于多源图像融合的目标检测方法、系统、设备、介质，用于提高目标检测结果的精度。

为了实现上述目的，本发明提供如下技术方案：

一种基于多源图像融合的目标检测方法，包括：

获取对同一目标进行拍摄所得到的第一源图像和第二源图像；所述第一源图像和所述第二源图像是利用不同的传感器对所述目标进行拍摄而得到的；

利用模态转换模型对所述第一源图像进行模态转换，得到仿真第二源图像；

以所述第二源图像和所述仿真第二源图像作为输入，利用分割模型得到分割结果，完成目标检测。

与现有技术相比，本发明提供的目标检测方法中，先获取第一源图像和第二源图像，然后利用模态转换模型对第一源图像进行模态转换，得到仿真第二源图像，最后以第二源图像和仿真第二源图像作为输入，利用分割模型得到分割结果，完成目标检测。本发明的目标检测方法是将第一源图像转换为仿真第二源图像，再将仿真第二源图像与第二源图像进行融合，并不涉及将不同源的图像进行空间配准来实现不同源图像的融合这一手段，进而不会导致部分信息在图像融合过程中丢失，影响多源信息的利用效率的问题，通过进行不同源图像之间的模态转换后，再将同一源图像进行融合，能够提高多源信息的利用效率，且还能实现多源信息互补，提高目标检测结果的精度。

本发明还提供一种基于多源图像融合的目标检测系统，包括：

获取模块，用于获取对同一目标进行拍摄所得到的第一源图像和第二源图像；所述第一源图像和所述第二源图像是利用不同的传感器对所述目标进行拍摄而得到的；

转换模块，用于利用模态转换模型对所述第一源图像进行模态转换，得到仿真第二源图像；

分割模块，用于以所述第二源图像和所述仿真第二源图像作为输入，利用分割模型得到分割结果，完成目标检测。

与现有技术相比，本发明提供的目标检测系统的有益效果与上述技术方案所述目标检测方法的有益效果相同，此处不做赘述。

本发明还提供一种基于多源图像融合的目标检测设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行上述的目标检测方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述目标检测方法的步骤。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例1所提供的目标检测方法的方法流程图；

图2为本发明实施例1所提供的模态转换网络的结构示意图；

图3为本发明实施例1所提供的双通道分割网络的结构示意图；

图4为本发明实施例2所提供的目标检测系统的系统框图。

具体实施方式

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一阈值和第二阈值仅仅是为了区分不同的阈值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本发明中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

实施例1：

本实施例用于提供一种基于多源图像融合的目标检测方法，如图1所示，该目标检测方法包括：

S1：获取对同一目标进行拍摄所得到的第一源图像和第二源图像；所述第一源图像和所述第二源图像是利用不同的传感器对所述目标进行拍摄而得到的；

具体的，通过第一源传感器以第一角度对目标进行拍摄，得到第一源图像。通过第二源传感器以第二角度对目标进行拍摄，得到第二源图像。需要说明的是，本实施例仅需保证第一源传感器和第二源传感器所拍摄目标是同一目标即可，对于其他拍摄条件不做任何限制。例如，第一角度和第二角度可以相同，也可以不同，且第一源传感器和第二源传感器任意布置。

本实施例的第一源传感器和第二源传感器可为但不限于同构异源传感器，如可见光传感器和热红外传感器，以进行双源图像下的目标检测；异构异源传感器，如图像传感器和雷达信号传感器，以通过图像和雷达信号的组合进行场景下的目标检测。更为具体的，第一源图像为可见光图像，第二源图像为热红外图像；或者，第一源图像为热红外图像，第二源图像为可见光图像。

S2：利用模态转换模型对所述第一源图像进行模态转换，得到仿真第二源图像；

本实施例的模态转换模型是对模态转换网络进行训练所得到的，模态转换网络整体为循环生成对抗网络CycleGAN。如图2所示，该模态转换网络包括第一生成器G1、第二生成器G2、第一判别器D1和第二判别器D2。第一生成器G1分别与第一判别器D1和第二生成器G2相连接，第二生成器G2还与第二判别器D2相连接。

在S2之前，本实施例的目标检测方法还包括对模态转换网络进行训练，得到模态转换模型的步骤，该步骤可以包括：

获取第一训练样本集；所述第一训练样本集包括若干张训练用第一源图像和若干张训练用第二源图像；

对于每一训练用第一源图像，利用第一生成器G1对训练用第一源图像进行模态转换，得到训练用仿真第二源图像；

利用第二生成器G2对训练用仿真第二源图像进行模态转换，得到训练用重建第一源图像，并计算训练用重建第一源图像和训练用第一源图像之间的第一像素级损失；

根据训练用仿真第二源图像和任一训练用第二源图像，利用第一判别器D1得到第一GAN损失；

对于每一训练用第二源图像，利用第二生成器G2对训练用第二源图像进行模态转换，得到训练用仿真第一源图像；

利用第一生成器G1对训练用仿真第一源图像进行模态转换，得到训练用重建第二源图像，并计算训练用重建第二源图像和训练用第二源图像之间的第二像素级损失；

根据训练用仿真第一源图像和任一训练用第一源图像，利用第二判别器D2得到第二GAN损失；

计算在由训练用第一源图像转换得到训练用仿真第二源图像时，第一生成器G1的中间特征与在由训练用仿真第一源图像转换得到训练用重建第二源图像时，第一生成器G1的中间特征之间的第一孪生语义损失，并计算在由训练用第二源图像转换得到训练用仿真第一源图像时，第二生成器G2的中间特征与在由训练用仿真第二源图像转换得到训练用重建第一源图像时，第二生成器G2的中间特征之间的第二孪生语义损失；

根据第一像素级损失、第一GAN损失、第二像素级损失、第二GAN损失、第一孪生语义损失和第二孪生语义损失计算损失值，并根据损失值判断是否达到第一迭代结束条件；

若是，则结束迭代，以当前迭代所用的第一生成器G1作为模态转换模型；即模态转换模型仅包括训练好的第一生成器G1，以将第一源图像转换为仿真第二源图像；

若否，则继续迭代，根据损失值对第一生成器G1、第二生成器G2、第一判别器D1和第二判别器D2的参数进行调整，返回“对于每一训练用第一源图像，利用第一生成器G1对训练用第一源图像进行模态转换”的步骤。

本实施例通过在模态转换网络的训练过程中引入第一生成器G1的第一孪生语义损失和第二生成器G2的第二孪生语义损失，以加强模态转换过程的信息关联度，利用这一训练过程所训练得到的模态转换模型，在将第一源图像转换为仿真第二源图像后，还能使仿真第二源图像具有第一源图像高分辨率和高清晰度的优点和特性，模态转换效果好，不仅能够将第一源图像转换为仿真第二源图像，以有利于后续的图像融合和分割过程，同时还能保留第一源图像的优点和特性。将仿真第二源图像和第二源图像进行融合，相当于真实的第一源图像和第二源图像的融合，并且还是同种源的图像融合过程，不会损失任何信息，不会影响多源信息的利用效率。

以第一源图像为可见光图像，第二源图像为热红外图像为例，对上述训练过程进行进一步的描述：在模态转换网络中包括两条线路：输入可见光-仿真热红外-重建可见光的线路以及输入热红外-仿真可见光-重建热红外的线路。以第一条线路为例，首先将原始可见光图像输入到第一生成器G1中生成仿真热红外图像，并将仿真热红外图像和真实热红外图像作为第一判别器D1的真伪判别输入并计算GAN损失，然后将仿真热红外图像输入到第二生成器G2中生成重建可见光图像，并将重建可见光图像与原始可见光图像进行像素级损失计算。同理，第二条线路中，首先将原始热红外图像输入到第二生成器G2中生成仿真可见光图像，并将仿真可见光图像与真实可见光图像作为第二判别器D2的真伪判别输入并计算GAN损失，然后将仿真可见光图像输入到第一生成器G1中生成重建热红外图像，并将重建热红外图像与原始热红外图像进行像素级损失计算。同时，将计算过程中第一生成器G1两次调用的中间特征以孪生网络的形式进行损失约束，第二生成器G2两次调用的中间特征以孪生网络的形式进行损失约束。

S3：以所述第二源图像和所述仿真第二源图像作为输入，利用分割模型得到分割结果，完成目标检测。

本实施例的分割模型是对双通道分割网络进行训练所得到的，双通道分割网络整体为条件生成对抗网络cGAN。如图3所示，双通道分割网络包括输入层、卷积层、第三生成器G3和第三判别器D3。输入层分别与卷积层和第三判别器D3相连接，卷积层与第三生成器G3相连接，第三生成器G3与第三判别器D3相连接。

在S3之前，本实施例的目标检测方法还包括对双通道分割网络进行训练，得到分割模型的步骤，该步骤可以包括：

获取第二训练样本集；所述第二训练样本集包括若干组由训练用仿真第二源图像和训练用第二源图像组成的训练组合；

将训练组合通过输入层输入至卷积层；

利用卷积层分别对训练用仿真第二源图像和训练用第二源图像进行特征提取，得到第一特征谱和第二特征谱；并对第一特征谱和第二特征谱进行合并，得到合并特征谱；

以合并特征谱作为输入，利用第三生成器G3得到分割结果；

将分割结果、训练用仿真第二源图像和训练用第二源图像作为False判别，将参考结果、训练用仿真第二源图像和训练用第二源图像作为True判别，利用第三判别器D3对第三生成器G3的参数进行调整，得到训练后第三生成器G-seg；参考结果为参考分割真值，其为预设值。

判断是否达到第二迭代终止条件；第二迭代终止条件可为预设的迭代次数。

若是，则以输入层、卷积层和训练后第三生成器G-seg作为分割模型；

若否，则以训练后第三生成器G-seg作为下一迭代中的第三生成器G3，返回“将训练组合通过输入层输入至卷积层”的步骤。

本实施例在分割模型的训练过程中，不再采用将分割结果作为False判别，将参考结果作为True判别的方法，而是采用将分割结果、训练用仿真第二源图像和训练用第二源图像作为False判别，将参考结果、训练用仿真第二源图像和训练用第二源图像作为True判别的方法，采用这一方法训练得到的分割模型，分割准确度得到进一步提高。

以第二源图像为热红外图像为例，对上述训练过程予以进一步说明：在双通道分割网络中将仿真热红外图像和真实热红外图像分别经由若干次卷积后的特征谱进行合并，再经由第三生成器G3得到分割结果，然后将分割结果连同仿真热红外图像和真实热红外图像作为条件输入到cGAN的第三判别器D3中作为False判别，而参考结果连同仿真热红外图像和真实热红外图像则作为第三判别器D3的True判别。

具体的，在得到分割模型后，S3可以包括：

将第二源图像和仿真第二源图像通过输入层输入至卷积层；

利用卷积层对第二源图像进行特征提取，得到第二源图像的特征谱，并对仿真第二源图像进行特征提取，得到仿真第二源图像的特征谱，对第二源图像的特征谱和仿真第二源图像的特征谱进行合并，得到合并后特征谱；从而实现第二源图像和仿真第二源图像的融合，相当于以同一源图像融合方式完成第一源图像和第二源图像的图像融合过程，能够避免信息缺失情况，提高多源信息的利用效率。

以合并后特征谱作为输入，利用训练后第三生成器G-seg得到分割结果。分割结果可为二值图像，目标所在像素用1来表示，背景所在像素用0来表示。

本实施例适用于各种需要多源传感器融合进行场景识别分析的工业领域，其可以广泛推广于多源信息下的目标检测、识别、跟踪等模式应用领域，更为具体的可以进行行人分割应用。

本实施例包含两个模块，基于循环生成对抗网络的模态转换网络以及基于条件生成对抗网络的双通道分割网络。在训练完成后实际应用部署阶段，只需要保留模态转换网络的第一生成器G1和双通道分割网络的输入层、卷积层和训练后第三生成器G_seg，将第一源图像输入第一生成器G1生成仿真第二源图像，仿真第二源图像与第二源图像组成输入层、卷积层和第三生成器G_seg的双输入，因此整个实际运行阶段只需要运行一次第一生成器G1和输入层、卷积层和第三生成器G_seg的前向传播计算，即可得到分割结果。

本实施例提出了一种基于模态转换的多源图像目标检测方法，将第一源图像转换为仿真第二源图像并保留第一源图像的频域特性，由第二源图像和仿真第二源图像同时作为条件GAN分割模型的输入从而实现多源信息互补，进而实现精确的目标检测，为类似原理的多源信息目标识别分割应用领域提供有力支持。以第一源图像转换成的仿真第二源图像和传感器采集到的第二源图像作为分割模型的双输入，以实现双源图像在用于目标检测应用时的信息互补，提高检测精度。

实施例2：

本发明实施例可以根据上述方法示例进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图4示出了本发明实施例提供的一种基于多源图像融合的目标检测系统的结构示意图。如图4所示，该目标检测系统包括：

获取模块M1，用于获取对同一目标进行拍摄所得到的第一源图像和第二源图像；所述第一源图像和所述第二源图像是利用不同的传感器对所述目标进行拍摄而得到的；

转换模块M2，用于利用模态转换模型对所述第一源图像进行模态转换，得到仿真第二源图像；

分割模块M3，用于以所述第二源图像和所述仿真第二源图像作为输入，利用分割模型得到分割结果，完成目标检测。

上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

实施例3：

本实施例用于提供一种基于多源图像融合的目标检测设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

实施例4：

本实施例用于提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述目标检测方法的步骤。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本发明进行了描述，显而易见的，在不脱离本发明的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明，且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于多源图像融合的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的目标检测方法，其特征在于，所述第一源图像为可见光图像，所述第二源图像为热红外图像；

或者，所述第一源图像为热红外图像，所述第二源图像为可见光图像。

3.根据权利要求1所述的目标检测方法，其特征在于，所述获取对同一目标进行拍摄所得到的第一源图像和第二源图像，包括：

通过第一源传感器以第一角度对所述目标进行拍摄，得到所述第一源图像；通过第二源传感器以第二角度对所述目标进行拍摄，得到所述第二源图像。

4.根据权利要求1所述的目标检测方法，其特征在于，所述模态转换模型是对模态转换网络进行训练所得到的；所述模态转换网络为循环生成对抗网络。

5.根据权利要求4所述的目标检测方法，其特征在于，所述模态转换网络包括第一生成器、第二生成器、第一判别器和第二判别器；所述第一生成器分别与所述第一判别器和所述第二生成器相连接；所述第二生成器还与所述第二判别器相连接；

在利用模态转换模型对所述第一源图像进行模态转换，得到仿真第二源图像之前，所述目标检测方法还包括对所述模态转换网络进行训练，得到模态转换模型的步骤，具体包括：

对于每一所述训练用第一源图像，利用所述第一生成器对所述训练用第一源图像进行模态转换，得到训练用仿真第二源图像；

利用所述第二生成器对所述训练用仿真第二源图像进行模态转换，得到训练用重建第一源图像，并计算所述训练用重建第一源图像和所述训练用第一源图像之间的第一像素级损失；

根据所述训练用仿真第二源图像和任一所述训练用第二源图像，利用所述第一判别器得到第一GAN损失；

对于每一所述训练用第二源图像，利用所述第二生成器对所述训练用第二源图像进行模态转换，得到训练用仿真第一源图像；

利用所述第一生成器对所述训练用仿真第一源图像进行模态转换，得到训练用重建第二源图像，并计算所述训练用重建第二源图像和所述训练用第二源图像之间的第二像素级损失；

根据所述训练用仿真第一源图像和任一所述训练用第一源图像，利用所述第二判别器得到第二GAN损失；

计算在由所述训练用第一源图像转换得到所述训练用仿真第二源图像时所述第一生成器的中间特征与在由所述训练用仿真第一源图像转换得到所述训练用重建第二源图像时所述第一生成器的中间特征之间的第一孪生语义损失，并计算在由所述训练用第二源图像转换得到所述训练用仿真第一源图像时所述第二生成器的中间特征与在由所述训练用仿真第二源图像转换得到所述训练用重建第一源图像时所述第二生成器的中间特征之间的第二孪生语义损失；

根据所述第一像素级损失、所述第一GAN损失、所述第二像素级损失、所述第二GAN损失、所述第一孪生语义损失和所述第二孪生语义损失计算损失值，根据所述损失值判断是否达到第一迭代结束条件；

若是，则结束迭代，以当前迭代所用的第一生成器作为模态转换模型；

若否，则继续迭代，根据所述损失值对所述第一生成器、所述第二生成器、所述第一判别器和所述第二判别器的参数进行调整，返回“对于每一所述训练用第一源图像，利用所述第一生成器对所述训练用第一源图像进行模态转换”的步骤。

6.根据权利要求1所述的目标检测方法，其特征在于，所述分割模型是对双通道分割网络进行训练所得到的；所述双通道分割网络为条件生成对抗网络。

7.根据权利要求6所述的目标检测方法，其特征在于，所述双通道分割网络包括输入层、卷积层、第三生成器和第三判别器；所述输入层分别与所述卷积层和所述第三判别器相连接；所述卷积层与所述第三生成器相连接；所述第三生成器与所述第三判别器相连接；

在以所述第二源图像和所述仿真第二源图像作为输入，利用分割模型得到分割结果之前，所述目标检测方法还包括对所述双通道分割网络进行训练，得到分割模型的步骤，具体包括：

将所述训练组合通过所述输入层输入至所述卷积层；

利用所述卷积层分别对所述训练用仿真第二源图像和所述训练用第二源图像进行特征提取，得到第一特征谱和第二特征谱；并对所述第一特征谱和所述第二特征谱进行合并，得到合并特征谱；

以所述合并特征谱作为输入，利用所述第三生成器得到分割结果；

将所述分割结果、所述训练用仿真第二源图像和所述训练用第二源图像作为False判别，将参考结果、所述训练用仿真第二源图像和所述训练用第二源图像作为True判别，利用所述第三判别器对所述第三生成器的参数进行调整，得到训练后第三生成器；

判断是否达到第二迭代终止条件；

若是，则以所述输入层、所述卷积层和所述训练后第三生成器作为分割模型；

若否，则以所述训练后第三生成器作为下一迭代中的第三生成器，返回“将所述训练组合通过所述输入层输入至所述卷积层”的步骤。

8.一种基于多源图像融合的目标检测系统，其特征在于，包括：

9.一种基于多源图像融合的目标检测设备，其特征在于，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-7任一项所述的目标检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述目标检测方法的步骤。