CN113691747A - 无人驾驶中红外视频转换为可见光视频的方法 - Google Patents

无人驾驶中红外视频转换为可见光视频的方法 Download PDF

Info

Publication number
CN113691747A
CN113691747A CN202110814218.0A CN202110814218A CN113691747A CN 113691747 A CN113691747 A CN 113691747A CN 202110814218 A CN202110814218 A CN 202110814218A CN 113691747 A CN113691747 A CN 113691747A
Authority
CN
China
Prior art keywords
loss
video
frame
visible light
infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110814218.0A
Other languages
English (en)
Other versions
CN113691747B (zh
Inventor
李爽
刘驰
韩秉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110814218.0A priority Critical patent/CN113691747B/zh
Publication of CN113691747A publication Critical patent/CN113691747A/zh
Application granted granted Critical
Publication of CN113691747B publication Critical patent/CN113691747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/30Transforming light or analogous information into electric information
    • H04N5/33Transforming infrared radiation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种无人驾驶中红外视频转换为可见光视频的方法,包括:步骤1,输入红外源域视频和可见光目标域视频;输出视频帧图像;步骤2,初始化参数;步骤3,随机读入数据;步骤4,生成对应的预测生成视频帧;步骤5,生成对应生成视频帧;步骤6,生成可见光预测帧;步骤7,计算损失函数;步骤8,优化生成器、特征提取器MLP、预测器及判别器的参数;步骤9,重复步骤3至8,直到达到最大迭代次数N或模型参数收敛。本发明所述方法从内容和风格的角度优化模型生成,重视频帧的细节生成,能够得到更好的模型输出结果,并使得模型的输出在时间和空间上都能保证良好的一致性,有效的缓解了连续帧间的风格漂移、模糊、闪烁等常见的问题。

Description

无人驾驶中红外视频转换为可见光视频的方法
技术领域
本发明涉及视频转化技术领域,具体涉及一种无人驾驶中红外视频转换为可见光视频的方法。
背景技术
随着科学技术的发展,无人驾驶已逐步走进了人们的生活。通过不同的车载传感器,无人驾驶汽车能够感知外部世界,自动规划行车路线及执行智能驾驶操控,无人驾驶的最终目标是完全排除人为操控,因此优化汽车对外部世界的感知是最基础且最重要的步骤之一。在现实场景中,人的视觉和可见光传感器成像往往受到光照和极端天气条件(如雨、雾等)的影响。在这种情况下,一些车辆导航和监控系统会使用红外传感器来辅助视觉信号的采集,其热成像原理使得红外传感器在以上极端条件下仍能获得很好的视觉信号。但是,单通道的红外热成像在语义信息的描述能力上没有可见光成像一样易于被人理解,不利于研究人员对无人驾驶系统做出的决策进行深层次的分析和改进。此外,车载可见光视频的采集由于以上极端条件的影响,往往失去了它们的数据价值,无法应用到实际的研究工作中。而可见光数据在提升无人驾驶技术的研究中又是十分重要的一种数据源,许多目标检测、目标跟踪等无人驾驶所关心的研究,都需要高质量的可见光数据。因此,将车载红外传感器采集的红外视频转换为对应场景下的可见光视频,对无人驾驶技术的进一步研究具有重要价值。同时,现有的专利和技术中缺少相关的研究。
许多现有的图像、视频上色研究工作均基于对色彩通道的不同描述方式,旨在寻找某种线性或非线性映射关系,将灰度图转换为彩色图像,而红外成像的热成像原理无法直接套用可见光间的色彩描述关系,因而无法通过传统的数学方式进行红外与可见光成像间的转换。另外,随着数据的大规模增长,深度神经网络(Deep Neural Network,DNN)在计算机视觉任务上取得了极大的进展,许多基于DNN的图片风格迁移工作成为了研究热点。其中,基于风格、内容损失的最小化域间距离的方法是近年来无监督风格迁移领域最具前景的方法之一,通过最小化参照风格输入和目标输出之间的风格损失减小两种不同分布之间的域间距,使得模型的输出在风格上与参照风格相一致,而在内容上通过最小化内容损失,仍保留原有的内容和结构。但是,这种基于域间距离最小化的算法完全依赖于距离的度量方式,即损失函数的设计,由于无法精确地刻画风格信息之间的距离,使得算法性能受到影响。
此外,无人驾驶要求系统能够实时地作出操控响应。相比于某一时刻获取的图像而言,视频数据具有上下文信息,能够很好的表达当前场景信息,这使得视频数据天然适配于无人驾驶。而视频对于图片而言,增加了时间的维度,这使得以往针对图片的风格迁移模型不适用于视频的风格迁移,通过现有的图像风格迁移模型直接逐帧生成视频的结果会出现时空不一致,如前后风格漂移、视频帧间模糊、闪烁等问题。
例如,中国专利申请号CN202110278464.9公开了一种基于改进图像增强算法与生成对抗网络的夜景复原方法,包括以下步骤:S1:采集夜间图像,并利用MSRCP算法对夜间图像进行增强处理;S2:判断增强处理后的夜间图像是否需要进行风格迁移,若是则进入步骤S3,否则进入步骤S4;S3:进行风格迁移,并进入步骤S4;S4:对增强处理后的夜间图像依次进行暗通道先验去雾和清晰度处理,完成夜景复原。适用于安防监控和有区域夜间取景需要的领域,对模型的泛化性要求不高。
又如,中国专利申请号CN200310108933.4通过一种图像融合的方式,在对红外图像和可见光图像分别进行多分辨率分解的基础上,利用红外图像和可见光图像不同的成像特性,从原图像中获得相对的“目标”信息和“背景”信息,以此将图像划分为背景区域,目标区域以及它们之间的边缘部分,对这三部分分别采用三种不同的融合规则来确定融合图像的多分辨率表示,最后经过多分辨率反变换得到融合图像。
再如,网络上公开的可用于无人驾驶任务中的红外与可见光数据集大部分针对于图像,它们并没有连续且对应的红外与可见光视频数据,VOT2019、FLIR以及KAIST数据集中虽然提供了对应场景的红外与可见光数据,但是它们的数据量较少,且数据集的采集场景较为单一,其中,VOT2019虽然提供了60个视频片段,但它们为监控场景下的红外和可见光数据,无法有效的应用于无人驾驶视频任务中;FLIR只有一个单一的视频片段,无法提供多样性的数据;KAIST虽然有大量的数据,但是采集场景单一,红外数据质量不佳,缺乏数据的多样性。
如上述发明专利申请中,一类局限于对现有效果不佳的可见光图像进行可视效果处理,没有利用红外图像的优势信息;另一类以图像融合的方式,呈现的可视化效果依旧保留红外图像的风格,无法像可见光图像直观地表达语义信息。
综上,由于域间间距过大,无法通过传统的数学方式进行色彩转换来解决无人驾驶中红外和可见光视频之间的转换;且由于视频的时空一致特性,现有针对图像的风格迁移方法不能满足视频的风格迁移工作。
有鉴于此,本发明提供一种无人驾驶中红外视频转换为可见光视频的方法。
发明内容
为了解决现有技术存在的上述技术问题,本发明提出了一种无人驾驶中红外视频转换为可见光视频的方法。
本发明采用以下技术方案:
步骤1,构建神经网络,其中包括:2个生成器GX和GY、2个2层的MLP作为生成器中计算互信息时的特征提取器FX和FY、2个预测器PX和PY、2个判别器DX和DY
步骤2,以连续三帧为一个样本的方式将红外数据x0、x1、x2和可见光数据y0、y1、y2加载到网络,其中,每次读入批大小B(Batch size,B)组样本;
步骤3,预测器PX根据红外数据输入的前2帧x0、x1预测生成红外视频第3帧
Figure BDA0003169604610000041
计算生成的第3帧
Figure BDA0003169604610000042
与真实第3帧x2间的L1损失和感知损失,记作预测一致性损失;
步骤4,将红外视频数据的前2帧x0、x1输入至生成器GY中获得可见光生成帧结果
Figure BDA0003169604610000043
Figure BDA0003169604610000044
步骤5,根据可见光生成帧结果
Figure BDA0003169604610000045
和预测器PY对可见光第3帧进行预测生成,获得第3帧预测结果
Figure BDA0003169604610000046
步骤6,将可见光生成帧结果
Figure BDA0003169604610000047
和第3帧预测结果
Figure BDA0003169604610000048
输入到判别器DY中,判断生成的帧是否真实并获得对抗损失,其中,计算出的对抗损失用来更新生成器和判别器;
步骤7,将可见光生成帧结果
Figure BDA0003169604610000049
通过生成器GX重新生成属于红外输入域的红外图像
Figure BDA00031696046100000410
计算重新生成的视频帧与对应原始视频帧x0、x1的L1损失与感知损失,记作循环一致性损失;
步骤8,将第3帧预测结果
Figure BDA00031696046100000411
通过生成器GX重新生成属于源输入域的红外图像
Figure BDA00031696046100000412
计算重新生成的视频帧
Figure BDA00031696046100000413
与原始视频帧x2的L1损失与感知损失,记作循环预测损失;
步骤9,计算目标可见光视频帧
Figure BDA00031696046100000414
和对应的红外输入视频帧x0、x1、x2之间的InfoNCE(Noise Contrastive Estimation)互信息损失,获得跨域对比损失;
步骤10,将红外视频数据的前两帧和后两帧视作两个组合,按照<x0,x1>,<x1,x2>的方式计算相邻视频帧之间的互信息差异,互信息差异用于表示相邻两帧的运动变化量,将上述两个组合的互信息差异比值作为标准相邻视频帧间的内容变化程度衡量指标,即标准比值;将可见光生成帧结果
Figure BDA0003169604610000051
和第3帧预测结果
Figure BDA0003169604610000052
亦按前两帧和后两帧进行组合,计算相邻视频帧之间的互信息差异,并求出变化程度差异比值,将该差异比值和标准比值的余弦相似度损失记作同域对比损失;
步骤11,根据预测一致性损失、对抗损失、循环一致性损失、循环预测损失、跨域对比损失和同域对比损失更新生成器和判别器;
步骤12,重复步骤2至步骤11,直至迭代次数(epoch)达到最大。
进一步地,步骤6中对抗损失函数如下:
LADV=∑slogDY(ys)+∑tlog(1-DY(GY(xt)))……(1),
上式(1)中:ys表示目标域视频输入序列
Figure BDA0003169604610000053
中的第s帧,xt表示源域视频输入序列
Figure BDA0003169604610000054
中的第t帧。
进一步地,步骤3中用于网络更新预测器的目标损失函数如下:
LPCP=LCON+LSTY……(2),
Figure BDA0003169604610000055
Figure BDA0003169604610000056
(PX)=∑t(||x2-PX(x0,x1)||11LPCP)……(5),
上式(2)中,LPCP为感知损失,其中包括内容损失LCON和风格损失LSTY
上式(3)表示损失网络在l层计算内容损失的方式,Cl,Hl,Wl为网络l层对应的特征图大小,φl(·)表示当前网络层l的特征提取;
上式(4)表示损失网络在l层计算风格损失的方式,
Figure BDA0003169604610000057
表示计算当前网络层l所提取特征的Gram矩阵;
上式(5)中,LRCUR(PX)为步骤3所述预测一致性损失函数,其中λ1为感知损失的超参数。
进一步地,步骤7中用于更新生成器的循环一致性损失函数如下:
LCYC=∑t||xt-GX(GY(xt))||12LPCP……(6),
上式(6)中,LPCP计算xt与GX(GY(xt))之间的感知损失,其中,GX(GY(xt))表示网络将可见光生成帧结果通过生成器GX重新生成属于红外输入域的红外图像,λ2为感知损失的超参数。
进一步地,步骤8中用于网络优化预测器的循环预测损失函数如下:
LRCYC(GX,GY,PX)=∑t(||xt+2-GX(GY(xt,xt+1))||13LPCP)……(7),
上式(7)中,GX(GY(xt,xt+1))表示神经网络将第3帧预测结果通过生成器GX重新生成属于源输入域的红外图像,λ3为感知损失的超参数。
进一步地,步骤9中跨域对比损失函数如下:
Figure BDA0003169604610000061
Figure BDA0003169604610000062
上式(8)中,v,v+,v-分别表示InfoNCE损失中的对比样本、正样本以及负样本,计算该损失的过程可以视为一个二分类问题,即让对比样本和正样本归为同一类,将对比样本和其它所有负样本分为不同的类,因此可使用Softmax Cross-entropy的形式计算损失;
上式(9)中,LEXS为步骤9中最终用于优化生成器的跨域对比损失函数,其中
Figure BDA0003169604610000063
表示生成视频帧在MLP的第l层的位置s提取的特征,
Figure BDA0003169604610000064
表示对应输入视频帧在MLP的第l层的位置s提取的对应特征,
Figure BDA0003169604610000065
表示对应输入视频帧在MLP的第l层的除s外位置提取的相同大小的特征。
进一步地,步骤10中同域对比损失函数如下:
Figure BDA0003169604610000066
Figure BDA0003169604610000071
上式(10)中v<·,·>为衡量相邻视频帧之间的互信息差异,DSIM表示以两差异的比值作为标准相邻视频帧间的内容变化程度;
上式(11)中
Figure BDA0003169604610000072
表示输入视频帧x对应的生成视频帧,其中,通过计算两者的余弦相似度损失来提高连续帧间变化程度的一致性。
与现有技术相比,本发明的优越效果在于:
1、本发明所述的无人驾驶中红外视频转换为可见光视频的方法,在优化生成器时使用L1损失并加入了感知损失,从内容和风格的角度进一步地优化模型生成,并更加注重视频帧的细节生成,能够得到更好的模型输出结果;
2、本发明所述无人驾驶中红外视频转换为可见光视频的方法,通过原始输入视频帧和对应的生成视频帧间进行对比学习,对生成视频帧与原输入视频帧同一位置的互信息进行最大化,同时增大生成视频帧与原视频帧不同位置的互信息距离,优化细节生成;
3、本发明所述无人驾驶中红外视频转换为可见光视频的方法,通过在对应连续视频帧间学习相应的变化规律,使得模型的输出在时间和空间上都能保证良好的一致性,有效的缓解了连续帧间的风格漂移、模糊、闪烁等常见的视频生成问题。
附图说明
图1为本发明实施例中红外视频转换为可见光视频方法的生成器、预测器的流程图;
图2为本发明实施例中红外视频转换为可见光视频方法的生成器、判别器的流程图;
图3为本发明实施例中神经网络的结构图;
图4为本发明实施例中计算跨域对比损失的算法说明示意图;
图5为本发明实施例中计算相邻视频帧运动变化量及同域对比损失的算法说明示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
实施例
为了便于理解,在本实施例中,包含两个视频域:源域X={x},目标域Y={y},源域中的一个视频序列x计作连续的视频帧序列{x0,x1,...,xt},简记为
Figure BDA0003169604610000081
类似的,把目标域的一个视频序列y计作连续的视频帧序列{y0,y1,...,ys},简记为
Figure BDA0003169604610000082
需要说明的是,序列x中的第t帧计作xt,序列y中的第s帧计作ys,本实施例所述方法的目标是在源域和目标域间学习两个不同的映射,使得给定其中任意一个视频,能够生成对应的属于不同域的视频,比如给定红外视频,模型能够通过映射生成对应场景的可见光视频。
本实施例所述方法首先基于生成对抗网络构建了视频风格迁移的模型,如图3所示:对于两个给定的生成器GX和GY,给定任意的视频帧输入,生成器能够生成属于对应域空间下的视频帧,如GY负责生成属于可见光域的视频帧;使用2个U-net结构的模型作为模型预测器PX和PY,预测器能够根据前面的视频帧信息预测出下一帧的视频,如PX负责生成属于红外域的预测帧;使用2个PatchGAN结构的判别器DX和DY,用于区分当前生成视频帧是否属于该域,如DX负责判别当前给入的视频帧是否为红外图像。
所述方法在优化网络结构过程中使用的目标损失函数的计算流程如图3所示,其中:循环一致性损失为LCYC,预测一致性损失为LRCYC,循环预测损失为LRCUR,跨域对比损失为LEXS,同域对比损失为LINS
LRCUR(PX)=∑t(||xt+2-PX(xt,xt+1)||11LPCP),
LCYC=∑t||xt-GX(GY(xt))||12LPCP
LRCYC(GX,GY,PX)=∑t(||xt+2-GX(GY(xt,xt+1))||13LPCP),
其中,LPCP为感知损失,分别包括内容损失和风格损失两部分:
LPCP=LCON+LSTY
Figure BDA0003169604610000091
Figure BDA0003169604610000092
此外,跨域对比损失是通过对比学习的方式计算对比噪声估计(ContrastiveNoisy Estimation,NCE)来使对应区域互信息最大化,同时增大非相关区域的互信息距离。如图4所示,在模型生成的视频帧中,选定某一个区域作为查询样本区块(通常称为query),该帧对应输入视频帧中同位置区块为正样本区块(通常称为positive),对应输入视频帧中其它不同位置为负样本区块(通常称为negatives)。对比学习的思想是通过最大化相关区域的互信息,同时增大不同区域间的互信息差距,能够使模型产生更优秀的输出。以上拉近query和positive,同时拉远query和negatives的过程可以看作是一个二分类问题,因此可以通过Softmax Cross-entropy的方式进行损失函数的计算,方式如下:
Figure BDA0003169604610000093
相应的,对于不同域之间的相似度损失定义为:
Figure BDA0003169604610000094
上式中首先通过生成器GX的编码器进行编码,再通过特征提取器FX提取特征,然后以区块为单位进行互信息损失的计算,优化域间对应位置有效内容信息的保留。
在相同的域内,本实施例使用类似的方式优化相邻视频帧间的时空连续性,在分类任务中,同一个物体出现部分的多少影响着网络分类的自信度,鉴于此分析,本实施例通过比较相邻视频帧对应位置的互信息,来表示相邻两帧间的变化信息,由于单一的变化信息量无法直接用于跨域间的模型生成指导,因此,在连续的三帧中,得到两个描述变化信息的量,将这两个量的比值作为该相邻三帧在当前时间段内的时空运动变化程度,如图5所示。通过这个变化程度,能够使生成的视频帧与原始输入视频帧保持相对一致的时空一致性。
本实施例优化的同域对比损失函数如下:
Figure BDA0003169604610000101
Figure BDA0003169604610000102
其中,v<·,·>表示衡量相邻视频帧之间的互信息差异,DSIM表示以两差异的比值作为相邻视频帧间的内容变化程度,LINS为优化的同域对比损失函数。
在本实施例中,所述方法的整体训练过程如图1和图2所示,具体步骤如下:
步骤1,输入:给定红外源域视频
Figure BDA0003169604610000103
和可见光目标域视频
Figure BDA0003169604610000104
损失函数平衡参数λ1,λ2,λ3,最大迭代次数N,批大小B;
输出:目标风格视频帧图像,如红外源域输入对应可见光输出;
步骤2,随机初始化生成器、特征提取器MLP、预测器及判别器的参数
Figure BDA0003169604610000105
Figure BDA0003169604610000106
步骤3,随机读入一批数据(例如,最优批大小为1);
步骤4,通过预测器生成对应的预测生成视频帧;
步骤5,根据红外输入视频帧由生成器生成对应生成视频帧;
步骤6,由步骤5生成的视频帧预测生成可见光预测帧;
步骤7,通过步骤5、步骤6中生成的视频帧,计算对抗损失函数LADV,预测一致性损失函数LRCUR,循环一致性损失函数LCYC,循环预测损失函数LRCYC,跨域对比损失函数LEXS及同域对比损失函数LINS
步骤8,通过步骤7计算得到的损失函数值,优化生成器、特征提取器MLP、预测器及判别器的参数
Figure BDA0003169604610000111
步骤9,重复步骤3至8,直到达到最大迭代次数N或模型参数收敛。
针对现有技术中的数据集存在的问题,本实施例采用了具有大量道路场景(Traffic)和监控场景(Monitoring)的红外与可见光视频数据集IRVI。
同时,在本实施例中选取了多种最新的现有方法进行对比,其中包括:基于对比学习的未匹配图像翻译方法(CUT)、基于感知循环合成的对抗生成网络(PCSGAN)、基于循环一致性的生成对抗网络(CycleGAN)、基于光流的循环一致生成对抗网络(MocycleGAN)和基于再循环一致性的生成对抗网络(RecycleGAN)。通过如上对比,结果表明本实施例所述方法优于现有方法,如表1a,表1b所示:
表1a
Figure BDA0003169604610000112
表1b
Figure BDA0003169604610000113
衡量模型的指标使用了Frechet Inception距离(Frechet Inception Distance,FID)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR),结果如表1a和表1b所示。FID计算特征空间中真实视频帧和生成视频帧之间的距离,值越低表示生成的帧的分布越接近真实分布:
Figure BDA0003169604610000121
其中,x表示真实图片,y表示生成的图片,Tr表示矩阵的对角线元素和,μ表示均值,Σ表示协方差。
PSNR则通常被视为图片或视频上色方法的指标,PSNR的值越高表示图像的失真越小:
Figure BDA0003169604610000122
Figure BDA0003169604610000123
其中,H和W表示输入的宽和高,X和Y分别表示真是图片和生成图片。
综上,本实施例所述方法能够将红外视频转换为对应场景的可见光视频,并具有高度的真实性和视频流畅性,另外,本实施例提出的方法在其它视频转换的应用中,同样能够取得很好的效果,且连续视频帧具有高度的时空一致性。
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims (8)

1.一种无人驾驶中红外视频转换为可见光视频的方法,其特征在于,包括:
步骤1,构建神经网络,其中包括:2个生成器GX和GY、2个2层的MLP作为生成器中计算互信息时的特征提取器FX和FY、2个预测器PX和PY、2个判别器DX和DY
步骤2,以连续三帧为一个样本的方式将红外数据x0、x1、x2和可见光数据y0、y1、y2加载到网络;
步骤3,预测器PX根据红外数据输入的前2帧x0、x1预测生成红外视频第3帧
Figure FDA0003169604600000011
计算生成的第3帧
Figure FDA0003169604600000012
与真实第3帧x2间的L1损失和感知损失,记作预测一致性损失;
步骤4,将红外视频数据的前2帧x0、x1输入至生成器GY中获得可见光生成帧结果
Figure FDA0003169604600000013
Figure FDA0003169604600000014
步骤5,根据可见光生成帧结果
Figure FDA0003169604600000015
和预测器PY对可见光第3帧进行预测生成,获得第3帧预测结果
Figure FDA0003169604600000016
步骤6,将可见光生成帧结果
Figure FDA0003169604600000017
和第3帧预测结果
Figure FDA0003169604600000018
输入到判别器DY中,判断生成的帧是否真实并获得对抗损失;
步骤7,将可见光生成帧结果
Figure FDA0003169604600000019
通过生成器GX重新生成属于红外输入域的红外图像
Figure FDA00031696046000000110
计算重新生成的视频帧与对应原始视频帧x0、x1的L1损失与感知损失,记作循环一致性损失;
步骤8,将第3帧预测结果
Figure FDA00031696046000000111
通过生成器GX重新生成属于源输入域的红外图像
Figure FDA00031696046000000112
计算重新生成的视频帧
Figure FDA00031696046000000113
与原始视频帧x2的L1损失与感知损失,记作循环预测损失;
步骤9,计算目标可见光视频帧
Figure FDA00031696046000000114
和对应的红外输入视频帧x0、x1、x2之间的InfoNCE互信息损失,获得跨域对比损失;
步骤10,根据相邻视频帧之间的互信息差异,获得同域对比损失;
步骤11,根据预测一致性损失、对抗损失、循环一致性损失、循环预测损失、跨域对比损失和同域对比损失更新生成器和判别器;
步骤12,重复步骤2至步骤11,直至迭代次数达到最大。
2.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤6中对抗损失函数如下:
LADV=∑slogDY(ys)+∑tlog(1-DY(GY(xt)))……(1),
上式(1)中:ys表示目标域视频输入序列
Figure FDA0003169604600000021
中的第s帧,xt表示源域视频输入序列
Figure FDA0003169604600000022
中的第t帧。
3.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,
步骤3中用于网络更新预测器的目标损失函数如下:
LPCP=LCON+LSTY……(2),
Figure FDA0003169604600000023
Figure FDA0003169604600000024
LRCUR(PX)=∑t(||x2-PX(x0,x1)||11LPCP)……(5),
上式(2)中,LPCP为感知损失,其中包括内容损失LCON和风格损失LSTY
上式(3)表示损失网络在l层计算内容损失的方式,Cl,Hl,Wl为网络l层对应的特征图大小,φl(·)表示当前网络层l的特征提取;
上式(4)表示损失网络在l层计算风格损失的方式,
Figure FDA0003169604600000025
表示计算当前网络层l所提取特征的Gram矩阵;
上式(5)中,LRCUR(PX)为步骤3所述预测一致性损失函数,其中λ1为感知损失的超参数。
4.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤7中用于更新生成器的循环一致性损失函数如下:
LCYC=∑t||xt-GX(GY(xt))||12LPCP……(6),
上式(6)中,LPCP计算xt与GX(GY(xt))之间的感知损失,其中,GX(GY(xt))表示网络将可见光生成帧结果通过生成器GX重新生成属于红外输入域的红外图像,λ2为感知损失的超参数。
5.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤8中用于网络优化预测器的循环预测损失函数如下:
LRCYC(GX,GY,PX)=∑t(||xt+2-GX(GY(xt,xt+1))||13LPCP)……(7),
上式(7)中,GX(GY(xt,xt+1))表示神经网络将第3帧预测结果通过生成器GX重新生成属于源输入域的红外图像,λ3为感知损失的超参数。
6.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤9中跨域对比损失函数如下:
Figure FDA0003169604600000031
Figure FDA0003169604600000032
上式(8)中,v,v+,v-分别表示InfoNCE损失中的对比样本、正样本以及负样本;
上式(9)中,LEXS为步骤9中最终用于优化生成器的跨域对比损失函数,其中
Figure FDA0003169604600000033
表示生成视频帧在MLP的第l层的位置s提取的特征,
Figure FDA0003169604600000034
表示对应输入视频帧在MLP的第l层的位置s提取的对应特征,
Figure FDA0003169604600000035
表示对应输入视频帧在MLP的第l层的除s外位置提取的相同大小的特征。
7.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤10中,将红外视频数据的前两帧和后两帧视作两个组合,按照<x0,x1>,<x1,x2>的方式计算相邻视频帧之间的互信息差异,互信息差异用于表示相邻两帧的运动变化量,将上述两个组合的互信息差异比值作为标准相邻视频帧间的内容变化程度衡量指标,即标准比值;将可见光生成帧结果
Figure FDA0003169604600000036
和第3帧预测结果
Figure FDA0003169604600000037
亦按前两帧和后两帧进行组合,计算相邻视频帧之间的互信息差异,并求出变化程度差异比值,将该差异比值和标准比值的余弦相似度损失记作同域对比损失。
8.根据权利要求7所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤10中,同域对比损失函数如下:
Figure FDA0003169604600000041
Figure FDA0003169604600000042
上式(10)中,v<·,·>为衡量相邻视频帧之间的互信息差异,DSIM表示以两差异的比值作为标准相邻视频帧间的内容变化程度;
上式(11)中
Figure FDA0003169604600000043
表示输入视频帧x对应的生成视频帧。
CN202110814218.0A 2021-07-19 2021-07-19 无人驾驶中红外视频转换为可见光视频的方法 Active CN113691747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110814218.0A CN113691747B (zh) 2021-07-19 2021-07-19 无人驾驶中红外视频转换为可见光视频的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110814218.0A CN113691747B (zh) 2021-07-19 2021-07-19 无人驾驶中红外视频转换为可见光视频的方法

Publications (2)

Publication Number Publication Date
CN113691747A true CN113691747A (zh) 2021-11-23
CN113691747B CN113691747B (zh) 2022-05-17

Family

ID=78577535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110814218.0A Active CN113691747B (zh) 2021-07-19 2021-07-19 无人驾驶中红外视频转换为可见光视频的方法

Country Status (1)

Country Link
CN (1) CN113691747B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663802A (zh) * 2022-02-28 2022-06-24 北京理工大学 基于特征时空约束的监控视频跨模态视频迁移方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090127648A (ko) * 2008-06-09 2009-12-14 주식회사 넥스캄 외부환경 조건을 이용한 감시카메라의 작동장치 및작동방법
US9775512B1 (en) * 2014-03-19 2017-10-03 Christopher W. Tyler Binocular eye tracking from video frame sequences
CN110428008A (zh) * 2019-08-02 2019-11-08 深圳市唯特视科技有限公司 一种基于多融合传感器的目标探测与识别装置和方法
CN111833282A (zh) * 2020-06-11 2020-10-27 毛雅淇 一种基于改进的DDcGAN模型的图像融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090127648A (ko) * 2008-06-09 2009-12-14 주식회사 넥스캄 외부환경 조건을 이용한 감시카메라의 작동장치 및작동방법
US9775512B1 (en) * 2014-03-19 2017-10-03 Christopher W. Tyler Binocular eye tracking from video frame sequences
CN110428008A (zh) * 2019-08-02 2019-11-08 深圳市唯特视科技有限公司 一种基于多融合传感器的目标探测与识别装置和方法
CN111833282A (zh) * 2020-06-11 2020-10-27 毛雅淇 一种基于改进的DDcGAN模型的图像融合方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VLADIMIR V. FEDOROV: "Gallium PhosphideNanowires in a Free-Standing,Flexible,and Semitransparent Membrane for Large-Scale Infrared-to-Visible Light Conversion", 《ACSNANO》 *
韩子硕: "基于空间分离表征GAN的遥感图像模式互转", 《光学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663802A (zh) * 2022-02-28 2022-06-24 北京理工大学 基于特征时空约束的监控视频跨模态视频迁移方法
CN114663802B (zh) * 2022-02-28 2024-05-31 北京理工大学 基于特征时空约束的监控视频跨模态视频迁移方法

Also Published As

Publication number Publication date
CN113691747B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN111797716B (zh) 一种基于Siamese网络的单目标跟踪方法
Zheng et al. A novel background subtraction algorithm based on parallel vision and Bayesian GANs
CN108090919B (zh) 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法
CN106128121B (zh) 基于局部特征分析的车辆排队长度快速检测算法
CN112489081B (zh) 一种视觉目标跟踪方法及装置
CN113409361B (zh) 一种多目标跟踪方法、装置、计算机及存储介质
CN114266977B (zh) 基于超分辨可选择网络的多auv的水下目标识别方法
CN116704273A (zh) 一种自适应红外可见光双模融合检测方法
CN113158905A (zh) 一种基于注意力机制的行人重识别方法
CN116665095B (zh) 一种运动舰船检测方法、系统、存储介质和电子设备
CN112418149A (zh) 一种基于深卷积神经网络的异常行为检测方法
CN115170605A (zh) 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法
Pini et al. Video synthesis from intensity and event frames
CN113691747B (zh) 无人驾驶中红外视频转换为可见光视频的方法
CN116453012A (zh) 一种面向高速公路交通监控场景的车辆检测与跟踪方法
CN115359407A (zh) 一种视频中的多车辆跟踪方法
CN114519899A (zh) 一种基于多生物特征自适应融合的身份识别方法及系统
Zhang et al. Spatiotemporal Gaussian mixture model to detect moving objects in dynamic scenes
Li et al. Video prediction for driving scenes with a memory differential motion network model
CN111161323B (zh) 一种基于相关滤波的复杂场景目标跟踪方法及系统
Liu et al. FSFM: A feature square tower fusion module for multimodal object detection
CN114663802B (zh) 基于特征时空约束的监控视频跨模态视频迁移方法
CN113642499B (zh) 基于计算机视觉的人体行为识别方法
Sankaranarayanan et al. Virtual mono-layered continuous containers for vehicle detection applications in intelligent transportation systems
CN115359442A (zh) 基于部件表征学习和个性化属性结构的车辆重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant