CN113691747A

CN113691747A - 无人驾驶中红外视频转换为可见光视频的方法

Info

Publication number: CN113691747A
Application number: CN202110814218.0A
Authority: CN
Inventors: 李爽; 刘驰; 韩秉峰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-23
Anticipated expiration: 2041-07-19
Also published as: CN113691747B

Abstract

本发明公开一种无人驾驶中红外视频转换为可见光视频的方法，包括：步骤1，输入红外源域视频和可见光目标域视频；输出视频帧图像；步骤2，初始化参数；步骤3，随机读入数据；步骤4，生成对应的预测生成视频帧；步骤5，生成对应生成视频帧；步骤6，生成可见光预测帧；步骤7，计算损失函数；步骤8，优化生成器、特征提取器MLP、预测器及判别器的参数；步骤9，重复步骤3至8，直到达到最大迭代次数N或模型参数收敛。本发明所述方法从内容和风格的角度优化模型生成，重视频帧的细节生成，能够得到更好的模型输出结果，并使得模型的输出在时间和空间上都能保证良好的一致性，有效的缓解了连续帧间的风格漂移、模糊、闪烁等常见的问题。

Description

无人驾驶中红外视频转换为可见光视频的方法

技术领域

本发明涉及视频转化技术领域，具体涉及一种无人驾驶中红外视频转换为可见光视频的方法。

背景技术

随着科学技术的发展，无人驾驶已逐步走进了人们的生活。通过不同的车载传感器，无人驾驶汽车能够感知外部世界，自动规划行车路线及执行智能驾驶操控，无人驾驶的最终目标是完全排除人为操控，因此优化汽车对外部世界的感知是最基础且最重要的步骤之一。在现实场景中，人的视觉和可见光传感器成像往往受到光照和极端天气条件(如雨、雾等)的影响。在这种情况下，一些车辆导航和监控系统会使用红外传感器来辅助视觉信号的采集，其热成像原理使得红外传感器在以上极端条件下仍能获得很好的视觉信号。但是，单通道的红外热成像在语义信息的描述能力上没有可见光成像一样易于被人理解，不利于研究人员对无人驾驶系统做出的决策进行深层次的分析和改进。此外，车载可见光视频的采集由于以上极端条件的影响，往往失去了它们的数据价值，无法应用到实际的研究工作中。而可见光数据在提升无人驾驶技术的研究中又是十分重要的一种数据源，许多目标检测、目标跟踪等无人驾驶所关心的研究，都需要高质量的可见光数据。因此，将车载红外传感器采集的红外视频转换为对应场景下的可见光视频，对无人驾驶技术的进一步研究具有重要价值。同时，现有的专利和技术中缺少相关的研究。

许多现有的图像、视频上色研究工作均基于对色彩通道的不同描述方式，旨在寻找某种线性或非线性映射关系，将灰度图转换为彩色图像，而红外成像的热成像原理无法直接套用可见光间的色彩描述关系，因而无法通过传统的数学方式进行红外与可见光成像间的转换。另外，随着数据的大规模增长，深度神经网络(Deep Neural Network，DNN)在计算机视觉任务上取得了极大的进展，许多基于DNN的图片风格迁移工作成为了研究热点。其中，基于风格、内容损失的最小化域间距离的方法是近年来无监督风格迁移领域最具前景的方法之一，通过最小化参照风格输入和目标输出之间的风格损失减小两种不同分布之间的域间距，使得模型的输出在风格上与参照风格相一致，而在内容上通过最小化内容损失，仍保留原有的内容和结构。但是，这种基于域间距离最小化的算法完全依赖于距离的度量方式，即损失函数的设计，由于无法精确地刻画风格信息之间的距离，使得算法性能受到影响。

此外，无人驾驶要求系统能够实时地作出操控响应。相比于某一时刻获取的图像而言，视频数据具有上下文信息，能够很好的表达当前场景信息，这使得视频数据天然适配于无人驾驶。而视频对于图片而言，增加了时间的维度，这使得以往针对图片的风格迁移模型不适用于视频的风格迁移，通过现有的图像风格迁移模型直接逐帧生成视频的结果会出现时空不一致，如前后风格漂移、视频帧间模糊、闪烁等问题。

例如，中国专利申请号CN202110278464.9公开了一种基于改进图像增强算法与生成对抗网络的夜景复原方法，包括以下步骤：S1：采集夜间图像，并利用MSRCP算法对夜间图像进行增强处理；S2：判断增强处理后的夜间图像是否需要进行风格迁移，若是则进入步骤S3，否则进入步骤S4；S3：进行风格迁移，并进入步骤S4；S4：对增强处理后的夜间图像依次进行暗通道先验去雾和清晰度处理，完成夜景复原。适用于安防监控和有区域夜间取景需要的领域，对模型的泛化性要求不高。

又如，中国专利申请号CN200310108933.4通过一种图像融合的方式，在对红外图像和可见光图像分别进行多分辨率分解的基础上，利用红外图像和可见光图像不同的成像特性，从原图像中获得相对的“目标”信息和“背景”信息，以此将图像划分为背景区域，目标区域以及它们之间的边缘部分，对这三部分分别采用三种不同的融合规则来确定融合图像的多分辨率表示，最后经过多分辨率反变换得到融合图像。

再如，网络上公开的可用于无人驾驶任务中的红外与可见光数据集大部分针对于图像，它们并没有连续且对应的红外与可见光视频数据，VOT2019、FLIR以及KAIST数据集中虽然提供了对应场景的红外与可见光数据，但是它们的数据量较少，且数据集的采集场景较为单一，其中，VOT2019虽然提供了60个视频片段，但它们为监控场景下的红外和可见光数据，无法有效的应用于无人驾驶视频任务中；FLIR只有一个单一的视频片段，无法提供多样性的数据；KAIST虽然有大量的数据，但是采集场景单一，红外数据质量不佳，缺乏数据的多样性。

如上述发明专利申请中，一类局限于对现有效果不佳的可见光图像进行可视效果处理，没有利用红外图像的优势信息；另一类以图像融合的方式，呈现的可视化效果依旧保留红外图像的风格，无法像可见光图像直观地表达语义信息。

综上，由于域间间距过大，无法通过传统的数学方式进行色彩转换来解决无人驾驶中红外和可见光视频之间的转换；且由于视频的时空一致特性，现有针对图像的风格迁移方法不能满足视频的风格迁移工作。

有鉴于此，本发明提供一种无人驾驶中红外视频转换为可见光视频的方法。

发明内容

为了解决现有技术存在的上述技术问题，本发明提出了一种无人驾驶中红外视频转换为可见光视频的方法。

本发明采用以下技术方案：

步骤1，构建神经网络，其中包括：2个生成器G_X和G_Y、2个2层的MLP作为生成器中计算互信息时的特征提取器F_X和F_Y、2个预测器P_X和P_Y、2个判别器D_X和D_Y；

步骤2，以连续三帧为一个样本的方式将红外数据x₀、x₁、x₂和可见光数据y₀、y₁、y₂加载到网络，其中，每次读入批大小B(Batch size，B)组样本；

步骤3，预测器P_X根据红外数据输入的前2帧x₀、x₁预测生成红外视频第3帧

计算生成的第3帧

与真实第3帧x₂间的L1损失和感知损失，记作预测一致性损失；

步骤4，将红外视频数据的前2帧x₀、x₁输入至生成器G_Y中获得可见光生成帧结果

步骤5，根据可见光生成帧结果

和预测器P_Y对可见光第3帧进行预测生成，获得第3帧预测结果

步骤6，将可见光生成帧结果

和第3帧预测结果

输入到判别器D_Y中，判断生成的帧是否真实并获得对抗损失，其中，计算出的对抗损失用来更新生成器和判别器；

步骤7，将可见光生成帧结果

通过生成器G_X重新生成属于红外输入域的红外图像

计算重新生成的视频帧与对应原始视频帧x₀、x₁的L1损失与感知损失，记作循环一致性损失；

步骤8，将第3帧预测结果

通过生成器G_X重新生成属于源输入域的红外图像

计算重新生成的视频帧

与原始视频帧x₂的L1损失与感知损失，记作循环预测损失；

步骤9，计算目标可见光视频帧

和对应的红外输入视频帧x₀、x₁、x₂之间的InfoNCE(Noise Contrastive Estimation)互信息损失，获得跨域对比损失；

步骤10，将红外视频数据的前两帧和后两帧视作两个组合，按照<x₀，x₁>，<x₁，x₂>的方式计算相邻视频帧之间的互信息差异，互信息差异用于表示相邻两帧的运动变化量，将上述两个组合的互信息差异比值作为标准相邻视频帧间的内容变化程度衡量指标，即标准比值；将可见光生成帧结果

和第3帧预测结果

亦按前两帧和后两帧进行组合，计算相邻视频帧之间的互信息差异，并求出变化程度差异比值，将该差异比值和标准比值的余弦相似度损失记作同域对比损失；

步骤11，根据预测一致性损失、对抗损失、循环一致性损失、循环预测损失、跨域对比损失和同域对比损失更新生成器和判别器；

步骤12，重复步骤2至步骤11，直至迭代次数(epoch)达到最大。

进一步地，步骤6中对抗损失函数如下：

L_ADV＝∑_slogD_Y(y_s)+∑_tlog(1-D_Y(G_Y(x_t)))……(1)，

上式(1)中：y_s表示目标域视频输入序列

中的第s帧，x_t表示源域视频输入序列

中的第t帧。

进一步地，步骤3中用于网络更新预测器的目标损失函数如下：

L_PCP＝L_CON+L_STY……(2)，

(P_X)＝∑_t(||x₂-P_X(x₀,x₁)||₁+λ₁L_PCP)……(5)，

上式(2)中，L_PCP为感知损失，其中包括内容损失L_CON和风格损失L_STY；

上式(3)表示损失网络在l层计算内容损失的方式，C_l，H_l，W_l为网络l层对应的特征图大小，φ_l(·)表示当前网络层l的特征提取；

上式(4)表示损失网络在l层计算风格损失的方式，

表示计算当前网络层l所提取特征的Gram矩阵；

上式(5)中，L_RCUR(P_X)为步骤3所述预测一致性损失函数，其中λ₁为感知损失的超参数。

进一步地，步骤7中用于更新生成器的循环一致性损失函数如下：

L_CYC＝∑_t||x_t-G_X(G_Y(x_t))||₁+λ₂L_PCP……(6)，

上式(6)中，L_PCP计算x_t与G_X(G_Y(x_t))之间的感知损失，其中，G_X(G_Y(x_t))表示网络将可见光生成帧结果通过生成器G_X重新生成属于红外输入域的红外图像，λ₂为感知损失的超参数。

进一步地，步骤8中用于网络优化预测器的循环预测损失函数如下：

L_RCYC(G_X,G_Y，P_X)＝∑_t(||x_t+2-G_X(G_Y(x_t,x_t+1))||₁+λ₃L_PCP)……(7)，

上式(7)中，G_X(G_Y(x_t,x_t+1))表示神经网络将第3帧预测结果通过生成器G_X重新生成属于源输入域的红外图像，λ₃为感知损失的超参数。

进一步地，步骤9中跨域对比损失函数如下：

上式(8)中，v,v⁺,v^-分别表示InfoNCE损失中的对比样本、正样本以及负样本，计算该损失的过程可以视为一个二分类问题，即让对比样本和正样本归为同一类，将对比样本和其它所有负样本分为不同的类，因此可使用Softmax Cross-entropy的形式计算损失；

上式(9)中，L_EXS为步骤9中最终用于优化生成器的跨域对比损失函数，其中

表示生成视频帧在MLP的第l层的位置s提取的特征，

表示对应输入视频帧在MLP的第l层的位置s提取的对应特征，

表示对应输入视频帧在MLP的第l层的除s外位置提取的相同大小的特征。

进一步地，步骤10中同域对比损失函数如下：

上式(10)中v_<·,·>为衡量相邻视频帧之间的互信息差异，D_SIM表示以两差异的比值作为标准相邻视频帧间的内容变化程度；

上式(11)中

表示输入视频帧x对应的生成视频帧，其中，通过计算两者的余弦相似度损失来提高连续帧间变化程度的一致性。

与现有技术相比，本发明的优越效果在于：

1、本发明所述的无人驾驶中红外视频转换为可见光视频的方法，在优化生成器时使用L1损失并加入了感知损失，从内容和风格的角度进一步地优化模型生成，并更加注重视频帧的细节生成，能够得到更好的模型输出结果；

2、本发明所述无人驾驶中红外视频转换为可见光视频的方法，通过原始输入视频帧和对应的生成视频帧间进行对比学习，对生成视频帧与原输入视频帧同一位置的互信息进行最大化，同时增大生成视频帧与原视频帧不同位置的互信息距离，优化细节生成；

3、本发明所述无人驾驶中红外视频转换为可见光视频的方法，通过在对应连续视频帧间学习相应的变化规律，使得模型的输出在时间和空间上都能保证良好的一致性，有效的缓解了连续帧间的风格漂移、模糊、闪烁等常见的视频生成问题。

附图说明

图1为本发明实施例中红外视频转换为可见光视频方法的生成器、预测器的流程图；

图2为本发明实施例中红外视频转换为可见光视频方法的生成器、判别器的流程图；

图3为本发明实施例中神经网络的结构图；

图4为本发明实施例中计算跨域对比损失的算法说明示意图；

图5为本发明实施例中计算相邻视频帧运动变化量及同域对比损失的算法说明示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

实施例

为了便于理解，在本实施例中，包含两个视频域：源域X＝{x}，目标域Y＝{y}，源域中的一个视频序列x计作连续的视频帧序列{x₀,x₁,...,x_t}，简记为

类似的，把目标域的一个视频序列y计作连续的视频帧序列{y₀,y₁,...,y_s}，简记为

需要说明的是，序列x中的第t帧计作x_t，序列y中的第s帧计作y_s，本实施例所述方法的目标是在源域和目标域间学习两个不同的映射，使得给定其中任意一个视频，能够生成对应的属于不同域的视频，比如给定红外视频，模型能够通过映射生成对应场景的可见光视频。

本实施例所述方法首先基于生成对抗网络构建了视频风格迁移的模型，如图3所示：对于两个给定的生成器G_X和G_Y，给定任意的视频帧输入，生成器能够生成属于对应域空间下的视频帧，如G_Y负责生成属于可见光域的视频帧；使用2个U-net结构的模型作为模型预测器P_X和P_Y，预测器能够根据前面的视频帧信息预测出下一帧的视频，如P_X负责生成属于红外域的预测帧；使用2个PatchGAN结构的判别器D_X和D_Y，用于区分当前生成视频帧是否属于该域，如D_X负责判别当前给入的视频帧是否为红外图像。

所述方法在优化网络结构过程中使用的目标损失函数的计算流程如图3所示，其中：循环一致性损失为L_CYC，预测一致性损失为L_RCYC，循环预测损失为L_RCUR，跨域对比损失为L_EXS，同域对比损失为L_INS。

L_RCUR(P_X)＝∑_t(||x_t+2-P_X(x_t,x_t+1)||₁+λ₁L_PCP)，

L_CYC＝∑_t||x_t-G_X(G_Y(x_t))||₁+λ₂L_PCP，

L_RCYC(G_X,G_Y,P_X)＝∑_t(||x_t+2-G_X(G_Y(x_t,x_t+1))||₁+λ₃L_PCP)，

其中，L_PCP为感知损失，分别包括内容损失和风格损失两部分：

L_PCP＝L_CON+L_STY，

此外，跨域对比损失是通过对比学习的方式计算对比噪声估计(ContrastiveNoisy Estimation，NCE)来使对应区域互信息最大化，同时增大非相关区域的互信息距离。如图4所示，在模型生成的视频帧中，选定某一个区域作为查询样本区块(通常称为query)，该帧对应输入视频帧中同位置区块为正样本区块(通常称为positive)，对应输入视频帧中其它不同位置为负样本区块(通常称为negatives)。对比学习的思想是通过最大化相关区域的互信息，同时增大不同区域间的互信息差距，能够使模型产生更优秀的输出。以上拉近query和positive，同时拉远query和negatives的过程可以看作是一个二分类问题，因此可以通过Softmax Cross-entropy的方式进行损失函数的计算，方式如下：

相应的，对于不同域之间的相似度损失定义为：

上式中首先通过生成器G_X的编码器进行编码，再通过特征提取器F_X提取特征，然后以区块为单位进行互信息损失的计算，优化域间对应位置有效内容信息的保留。

在相同的域内，本实施例使用类似的方式优化相邻视频帧间的时空连续性，在分类任务中，同一个物体出现部分的多少影响着网络分类的自信度，鉴于此分析，本实施例通过比较相邻视频帧对应位置的互信息，来表示相邻两帧间的变化信息，由于单一的变化信息量无法直接用于跨域间的模型生成指导，因此，在连续的三帧中，得到两个描述变化信息的量，将这两个量的比值作为该相邻三帧在当前时间段内的时空运动变化程度，如图5所示。通过这个变化程度，能够使生成的视频帧与原始输入视频帧保持相对一致的时空一致性。

本实施例优化的同域对比损失函数如下：

其中，v_<·,·>表示衡量相邻视频帧之间的互信息差异，D_SIM表示以两差异的比值作为相邻视频帧间的内容变化程度，L_INS为优化的同域对比损失函数。

在本实施例中，所述方法的整体训练过程如图1和图2所示，具体步骤如下：

步骤1，输入：给定红外源域视频

和可见光目标域视频

损失函数平衡参数λ₁，λ₂，λ₃，最大迭代次数N，批大小B；

输出：目标风格视频帧图像，如红外源域输入对应可见光输出；

步骤2，随机初始化生成器、特征提取器MLP、预测器及判别器的参数

步骤3，随机读入一批数据(例如，最优批大小为1)；

步骤4，通过预测器生成对应的预测生成视频帧；

步骤5，根据红外输入视频帧由生成器生成对应生成视频帧；

步骤6，由步骤5生成的视频帧预测生成可见光预测帧；

步骤7，通过步骤5、步骤6中生成的视频帧，计算对抗损失函数L_ADV，预测一致性损失函数L_RCUR，循环一致性损失函数L_CYC，循环预测损失函数L_RCYC，跨域对比损失函数L_EXS及同域对比损失函数L_INS；

步骤8，通过步骤7计算得到的损失函数值，优化生成器、特征提取器MLP、预测器及判别器的参数

步骤9，重复步骤3至8，直到达到最大迭代次数N或模型参数收敛。

针对现有技术中的数据集存在的问题，本实施例采用了具有大量道路场景(Traffic)和监控场景(Monitoring)的红外与可见光视频数据集IRVI。

同时，在本实施例中选取了多种最新的现有方法进行对比，其中包括：基于对比学习的未匹配图像翻译方法(CUT)、基于感知循环合成的对抗生成网络(PCSGAN)、基于循环一致性的生成对抗网络(CycleGAN)、基于光流的循环一致生成对抗网络(MocycleGAN)和基于再循环一致性的生成对抗网络(RecycleGAN)。通过如上对比，结果表明本实施例所述方法优于现有方法，如表1a，表1b所示：

表1a

表1b

衡量模型的指标使用了Frechet Inception距离(Frechet Inception Distance，FID)和峰值信噪比(Peak Signal-to-Noise Ratio，PSNR)，结果如表1a和表1b所示。FID计算特征空间中真实视频帧和生成视频帧之间的距离，值越低表示生成的帧的分布越接近真实分布：

其中，x表示真实图片，y表示生成的图片，Tr表示矩阵的对角线元素和，μ表示均值，Σ表示协方差。

PSNR则通常被视为图片或视频上色方法的指标，PSNR的值越高表示图像的失真越小：

其中，H和W表示输入的宽和高，X和Y分别表示真是图片和生成图片。

综上，本实施例所述方法能够将红外视频转换为对应场景的可见光视频，并具有高度的真实性和视频流畅性，另外，本实施例提出的方法在其它视频转换的应用中，同样能够取得很好的效果，且连续视频帧具有高度的时空一致性。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种无人驾驶中红外视频转换为可见光视频的方法，其特征在于，包括：

步骤2，以连续三帧为一个样本的方式将红外数据x₀、x₁、x₂和可见光数据y₀、y₁、y₂加载到网络；

计算生成的第3帧

步骤5，根据可见光生成帧结果

步骤6，将可见光生成帧结果

和第3帧预测结果

输入到判别器D_Y中，判断生成的帧是否真实并获得对抗损失；

步骤7，将可见光生成帧结果

通过生成器G_X重新生成属于红外输入域的红外图像

步骤8，将第3帧预测结果

通过生成器G_X重新生成属于源输入域的红外图像

计算重新生成的视频帧

与原始视频帧x₂的L1损失与感知损失，记作循环预测损失；

步骤9，计算目标可见光视频帧

和对应的红外输入视频帧x₀、x₁、x₂之间的InfoNCE互信息损失，获得跨域对比损失；

步骤10，根据相邻视频帧之间的互信息差异，获得同域对比损失；

步骤12，重复步骤2至步骤11，直至迭代次数达到最大。

2.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，步骤6中对抗损失函数如下：

L_ADV＝∑_slogD_Y(y_s)+∑_tlog(1-D_Y(G_Y(x_t)))……(1)，

上式(1)中：y_s表示目标域视频输入序列

中的第s帧，x_t表示源域视频输入序列

中的第t帧。

3.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，

步骤3中用于网络更新预测器的目标损失函数如下：

L_PCP＝L_CON+L_STY……(2)，

L_RCUR(P_X)＝∑_t(||x₂-P_X(x₀，x₁)||₁+λ₁L_PCP)……(5)，

上式(4)表示损失网络在l层计算风格损失的方式，

表示计算当前网络层l所提取特征的Gram矩阵；

4.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，步骤7中用于更新生成器的循环一致性损失函数如下：

L_CYC＝∑_t||x_t-G_X(G_Y(x_t))||₁+λ₂L_PCP……(6)，

5.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，步骤8中用于网络优化预测器的循环预测损失函数如下：

L_RCYC(G_X,G_Y,P_X)＝∑_t(||x_t+2-G_X(G_Y(x_t,x_t+1))||₁+λ₃L_PCP)……(7)，

6.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，步骤9中跨域对比损失函数如下：

上式(8)中，v,v⁺,v^-分别表示InfoNCE损失中的对比样本、正样本以及负样本；

表示生成视频帧在MLP的第l层的位置s提取的特征，

表示对应输入视频帧在MLP的第l层的位置s提取的对应特征，

7.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，步骤10中，将红外视频数据的前两帧和后两帧视作两个组合，按照<x₀，x₁>，<x₁，x₂>的方式计算相邻视频帧之间的互信息差异，互信息差异用于表示相邻两帧的运动变化量，将上述两个组合的互信息差异比值作为标准相邻视频帧间的内容变化程度衡量指标，即标准比值；将可见光生成帧结果

和第3帧预测结果

亦按前两帧和后两帧进行组合，计算相邻视频帧之间的互信息差异，并求出变化程度差异比值，将该差异比值和标准比值的余弦相似度损失记作同域对比损失。

8.根据权利要求7所述的无人驾驶中红外视频转换为可见光视频的方法，其特征在于，步骤10中，同域对比损失函数如下：

上式(10)中，v_<·,·>为衡量相邻视频帧之间的互信息差异，D_SIM表示以两差异的比值作为标准相邻视频帧间的内容变化程度；

上式(11)中

表示输入视频帧x对应的生成视频帧。