CN114663802B - 基于特征时空约束的监控视频跨模态视频迁移方法 - Google Patents
基于特征时空约束的监控视频跨模态视频迁移方法 Download PDFInfo
- Publication number
- CN114663802B CN114663802B CN202210188948.9A CN202210188948A CN114663802B CN 114663802 B CN114663802 B CN 114663802B CN 202210188948 A CN202210188948 A CN 202210188948A CN 114663802 B CN114663802 B CN 114663802B
- Authority
- CN
- China
- Prior art keywords
- video
- generator
- feature
- standard deviation
- migration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013508 migration Methods 0.000 title claims abstract description 63
- 230000005012 migration Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003287 optical effect Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000002708 enhancing effect Effects 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 229920006395 saturated elastomer Polymers 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012806 monitoring device Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于特征时空约束的监控视频跨模态视频迁移方法,包括:步骤1,构建训练数据和神经网络;步骤2,读取连续的模态数据,将模态数据分别输入生成器;步骤3,利用预训练光流模型FlowNet增强模型特征;步骤4,从生成器中提取特征层,优化网络结构并增强特征结构;步骤5,重复步骤2至步骤4,直至迭代模型迭代饱和,网络参数收敛。本发明所述基于特征时空约束的监控视频跨模态视频迁移方法能够提供更优的空间结构信息,还能够给予时序一致性约束;能够增强视频模态迁移结果的稳定性。
Description
技术领域
本发明涉及迁移学习技术领域,具体涉及一种基于特征时空约束的监控视频跨模态视频迁移方法。
背景技术
在不同类型的监控设备中,可见光成像监控的录制效果最贴合肉眼感知效果,因此在对监控设备进行选择时,通常会优先选择可见光监控设备。然而,可见光成像设备往往无法在复杂环境条件下获取稳定的成像效果,如:夜晚、雾天、雨天等。因此,为了完善防控能力,通常会采取可见光监控为主、红外监控为辅的策略来对工厂等高度重视安全的工作环境进行安全防护,红外成像优势在于能够在不同复杂多变的环境下始终保持稳定的成像效果,然而其黑白的成像结果无法如同可见光成像那样清晰的表达语义信息,不利于及时发现安全隐患。为了提升红外成像结果的表达能力,更是为了增强安全防线的可靠性,将红外监控成像结果转化为对应场景下的可见光结果具有重大意义。同时,现有的专利和技术缺少相关方面的研究。
红外监控视频和可见光监控视频作为视频类数据媒体,是计算机视觉领域中常见的处理媒介。而这两者之间跨领域的视频模态迁移具有广泛的应用前景。视频模态迁移领域,通常根据训练情况分为有配对视频迁移和无配对视频迁移。由于有配对视频迁移方法中数据集是由两个领域成对的数据样本组成的,在实际生活中获取成本较高,或者一些数据样本根本不存在与之配对的另一领域图片,因此在实际应用中具有较大阻力。而有效的无配对视频模态迁移则可以免去在训练过程中模型对于标签的依赖,更多的去学习不同模态之间的差异以及原始模态的内容,优化最终的迁移结果。在红外到可见光的模态迁移过程中,难以获取一一对应的成对数据集,因此考虑无监督视频模态迁移方法。目前通常采用生成对抗网络(Generative Adversarial Networks,缩写为GAN)进行视频模态转换。在生成器(Generative Model)和鉴别器(Discriminative Model)的互相博弈之下,模型能够生成极具混淆性的迁移结果。每一段红外视频可视为由连续的红外视频帧组成,而这些帧都可以视作单张图片,因此起初的视频模态迁移方式是直接采用成熟的图片模态迁移算法进行迁移。以这种方式生成的视频迁移结果就单帧而言,具有一定的混淆性。然而一旦将生成帧合成视频连续播放,便会观察到结果中存在不和谐的风格漂移、帧间模糊、闪烁等现象。这种现象产生的原因是因为使用图片模态迁移方法迁移视频时,没有考虑到视频相邻帧之间存在着的时序关系。所以图片模态迁移应用在视频膜模态迁移领域是对这种要求的忽视,生成的迁移视频效果较差,无法应用在实际生活中。
综上所述,由于视频和图像这两种媒体之间存在着有无时序关系的差异,无法直接应用以往成熟的图像模态迁移方法。因此,想要生成良好的视频迁移结果,需要在算法中考虑到视频相邻帧之间的时序关系。常见的视频模态迁移方法将输入的连续帧与生成的连续帧之间直接加以一定的时序一致性约束,从而降低迁移结果相邻帧之间存在的偏差。如Recycle-GAN方法中通过额外训练一个预测器(Predict Model),预测器的训练是根据真实的连续帧进行的有监督训练,而后使其约束在输入连续两帧迁移结果的情况下能够良好的预测出下一帧,由此限制了迁移结果的相邻帧不会存在太大的差异。这种方式存在一定问题:第一迁移效果受预测器训练好坏的影响;第二是这种时序一致性约束较为模糊,无法准确约束相邻帧之间的变化程度。另一种方法Mocycle-GAN,其优势在于通过光流对生成结果进行更准确的时序一致性约束。然而这种方法额外需求两个生成器和两个鉴别器,对于训练设备有更高的要求;该方法通过EM两步Step进行优化迭代优化,整体耗时更长,调优复杂,需要实验人员具备较高实践能力。有鉴于此,在保证视频模态迁移结果有效的情况下,亟需提出一种更加有效且易于实现的视频模态迁移方法。
中国专利申请号为CN201910409352.5的专利文献公开了一种基于时域一致性约束的视频模态迁移方法,包括以下步骤:S1:采集视频数据,并利用预先训练好的光流提取模型对视频数据之间的光流信息进行提取;S2:构建视频风格转换网络,通过VGGNet 进行特征提取;S3:利用视频数据集、目标域图像以及光流信息,训练构建好的视频风格转换网络;S4:将测试视频输入训练完毕的视频模态转换网络即可实现模态迁移。适用于对目标域精度要求不高的场景,如将视频变为水墨画模态等。
又如,中国专利申请号为CN201910680259.8的专利文献提出了一种基于自编码结构和梯度保序的视频模态转换方法,首先构建视频训练数据集,通过对每个视频进行拆分,得到视频的帧集合以及相邻帧之间的光流信息;而后构建视频风格化网络模型,分为:编码层网络,解码层网络以及损失网络;完成数据构建以及模型搭建之后,对网络模型进行训练,在训练的过程中,计算损失函数相邻帧的梯度保序损失和/>其中xt代表输入帧的第t帧,而/>代表生成目标视频的第t帧。将输入帧、生成帧以及目标域模态图片s输入到网络模型中,得到t时刻输入三者xt,/>s的高阶特征并计算计算空间结构损失函数/>而后计算时间一致性损失/>其中/>代表重构得到的源域视频帧,该损失要求/>通过光流仿射得到的/>和/>具有一致性;最后要求重构图像与原图像应该具有一致性/>通过三种损失约束整体时序以及空间上的一致性,得到较好的视频迁移结果。
上述现有技术中,皆局限于试图利用源域得到的光流对模型生成结果做出一定的约束,其中第一种光流对于模型的指导是一种模糊意义的指导,无法真正有效的对连续性进行限制;第二种利用光流约束重构视频之间的连续性与输入视频之间连续性相同,然而该方法与重构损失存在一定的重叠,并难以有效的在生成的目标域视频上作出指导。
基于现有技术存在的如上述问题,本发明提供一种基于特征时空约束的监控视频跨模态视频迁移方法。
发明内容
本发明提出一种基于特征时空约束的监控视频跨模态视频迁移方法。
本发明采用以下技术方案:
一种基于特征时空约束的监控视频跨模态视频迁移方法,包括:
步骤1,构建训练数据和神经网络;
步骤2,从源域中读取连续的两帧源域模态数据x0,x1;从目标域各读取连续的两帧目标域模态数据y0,y1,将x0,x1,y0,y1分别输入生成器GX和GY;其中:源域模态数据 x0,x1通过生成器GY迁移至目标域模态,迁移结果记作而目标域模态数据y0,y1通过生成器GX迁移至源域模态,迁移结果记作/>判别器DX区分真实的源域模态数据x0,x1和迁移结果/>判别器DY区分真实的目标域模态数据y0,y1和迁移结果/>以此生成器和判别器进行生成对抗,网络更新;重构源域视频帧,将迁移结果/> 重构回原本各自模态,得到重构结果/>迁移重构前后保持内容一致,对于源域模态数据x而言,这一转化过程中始终保持有正确的内容,对于/> 同理,将各自进行L1 loss计算,约束内容一致,优化生成器GX和GY;
步骤3,增强模型特征,利用预训练光流模型FlowNet提取输入数据<x0,x1>, <y0,y1>之间的光流信息flox和floy;
步骤4,从生成器中提取特征层,优化网络结构并增强特征结构,其中,生成器包括输入块input blocks,下卷积块downconv blocks,卷积块resnet blocks,上卷积块upconvblocks,输出块output blocks,从生成器的下卷积块downconv blocks中提取第一层的输出特征,按照通道均值和通道标准差的方式,计算得到特征的第一均值和第一标准差;再从生成器的卷积块resnet blocks中提取最后一层的输出特征,按照通道均值和通道标准差的方式,计算得到第二均值和第二标准差;将第一均值、第一标准差、第二均值和第二标准差进行拼接,再输入生成器中额外增加的两层卷积层,重新生成第三均值和第三标准差,最终替换上卷积中第一层的输出特征的均值和标准差;
步骤5,重复步骤2至步骤4,直至迭代模型迭代饱和,网络参数收敛。
进一步地,步骤4中,从生成器的下卷积块downconv blocks中提取第一层的输出特征的特征尺度为128×64×64。
进一步地,步骤4中,从生成器的卷积块resnet blocks中提取最后一层的输出特征的特征尺度为128×64×64。
进一步地,步骤1中,构建训练数据是将视频数据按照采样比率划分为连续视频帧数据集,划分2/3用于训练数据,1/3视频数据用以测试结果。
进一步地,步骤1中,神经网络通过使用两个由9层Res-Block组成的ResNet模型作为生成器GX和GY,在生成器G中添加两层卷积层,用以重新生成合适的均值和标准差,并传递给解码层;使用两个的MLP网络作为对编码特征计算互信息时的特征提取器FX和FY,使用两个PatchGAN模型的判别器DX和DY。
进一步地,步骤2中,优化生成器和判别器的目标损失函数如下:
LADV=∑ilogDY(yi)+∑jlog(1-DY(GY(xj)))……(1),
上式(1)中:yi表示目标领域的视频输入帧,xj表示源域的视频输入帧。
进一步地,步骤2中,用于网络更新的损失函数如下:
LCYC=∑i||xi-GX(GY(xi))||1……(2)。
进一步地,以从<x0,x1>中提取得到的光流flox为例,步骤3中,利用预训练光流模型FlowNet提取输入数据<x0,x1>光流信息flox包括:
提取下卷积块downconv blocks得到的输出特征其中,/>分别代表输入两帧视频帧x0,x1对应的特征;将光流flox下卷积到与/>相同尺寸,再通过双线性插值方法将/>变换成/>得到经由光流指导的变换特征;采用对比损失的方式,在和/>相同位置取同样的补丁patches,得到N个补丁后,计算对比损失,增强同一位置特征点的一致性,相邻帧特征之间通过光流进行联系,增强相邻帧下卷积模块和卷积模块输出特征的时间一致性;在卷积模块resnet block中提取输出特征/>利用光流flox进行相同的增强操作;其中,不同块阶段提取得到的特征包含有不同的语义信息,通过对不同阶段语义信息进行增强能够更为全面的优化模型的迁移能力。
进一步地,步骤4中优化网络结构并增强特征结构包括:
步骤4.1,从编码层下卷积模块downconvblocks中获取尺寸为64×64大小的特征层,提取均值和标准差:
上式(3)、(4)中:Xb,c,h,w代表特征图,b代表batch size,c代表通道维度,w和h 代表宽高,∈为常数;
步骤4.2,提取解码层上卷积模块upconv blocks中尺寸为64×64大小的特征层,采用公式(3)和(4)提取均值和标准差,由于特征不是同一层,c、h、w与步骤4.1中不同;
步骤4.3,将步骤4.1和步骤4.2分别提取的均值和标准差拼接连接,送入G生成器中额外的两层卷积层,生成重新计算后的均值和标准差β、γ,重新将生成得到的均值和标准差β、γ替换步骤4.2中提取的特征层的均值标准差,公式如下:
fup=γfdown+β……(5),
上式(5)中,fup代表步骤4.2中选择的特征层,fdown代表步骤4.1中选择的特征层。
进一步地,步骤3中,光流进行时间一致性包括:
步骤3.1,通过输入的连续两帧视频帧,计算得到连续两帧视频帧之间的光流flo;
步骤3.2,获取编码层下卷积模块downconv block最终输出特征
步骤3.3,获取卷积模块resnet block最终输出特征
步骤3.4,将步骤3.1中获得的光流flo下卷积至与步骤3.2中特征 同样宽高尺寸,通过warp函数根据下卷积得到的光流flodown_scale进行双线性插值变换,使得/>在时间逻辑上与/>一致,通过对比损失contrastiveloss进行一致性约束,公式如下:
上式(6)中,vi表示特征上的一个patch,/>表示特征/>上与vi对应位置相同的patch,/>表示/>上与vi位置不同的patch,τ为常数,设置为0.05;
步骤3.5,对步骤3.3中的最终输出特征做与步骤3.4中同样的操作处理,得到对比损失/>二者共同结合组成时间一致性约束损失/>
上式(7)中,vi表示特征上的一个patch,/>表示特征/>上与vi对应位置相同的patch,/>表示/>上与vi位置不同的patch,τ为常数,设置为0.05。
与现有技术相比,本发明的优越效果在于:
1、本发明所述的基于特征时空约束的监控视频跨模态视频迁移方法,能够提供更优的空间结构信息,还能够给予时序一致性约束;
2、本发明所述的基于特征时空约束的监控视频跨模态视频迁移方法,从输入连续帧之间提取到的光流来作为视序一致性的约束工具,将提取到的光流应用于生成器编码部分的特征层中,通过变换函数warp指导相邻帧特征之间位置的映射关系,进而可以约束相邻帧特征之间保持时序一致,并有效的优化了视频生成结果的连续性;
3、本发明所述的基于特征时空约束的监控视频跨模态视频迁移方法,通过对生成模型中间层特征进行有效的时序一致性约束以及结构信息保留,直接优化模型整体,因此增强了视频模态迁移结果的稳定性;
4、本发明所述的基于特征时空约束的监控视频跨模态视频迁移方法,得到相邻帧之间确切的时序一致性信息,再将其应用于输入视频帧的特征层上进行确切指导,流畅性的优化效果更为明显。
附图说明
图1为本发明实施例中基于特征时空约束的监控视频跨模态视频迁移方法的流程示意图;
图2为本发明实施例中算法结构和网络结构的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
实施例
为了便于理解,本实施例说明所涉及的数据表示:输入包含两个视频域:源域X={x},目标域Y={y},源域拆分为连续的视频帧序列{x0,x1,...,xs},简记为视频序列中第s个帧记录为xs;类似,将目标域拆分为连续的视频帧序列{y0,y1,...,yt},简记为视频序列中第t个帧记录为yt,基于GAN的深度神经网络架构,其本质在于引导生成器学习一种映射,能够将给定的源域视频转化为目标域视频,在本实施例中旨在于能够将红外模态视频有效的转化为更富语义信息的可见光模态视频。
本实施例以生成对抗模型(GAN)为基础,如图2所示,给定两个生成器GX和GY,其中GY负责将源域视频转化为目标域视频,而GX则与之相反,需要将目标域视频转化为源域视频;使用两个PatchGAN作为生成对抗过程中的鉴别器DX和DY,其中DX用以鉴别该视频帧是否为真实的源域视频帧,而DY则用以鉴别是否为真实的目标域视频帧,在生成器和鉴别器的相互对抗下,总体模态迁移效果将在收敛前持续优化。
本实施例中额外引入了已经完成预训练的光流模型FlowNet,在生成器中添加两层卷积层以用于重新生成均值和标准差,以及增加两个MLP层FX和FY,作为计算生成器编码层特征互信息的提取器。
本实施例中,整体算法结构以及网络结构如图2所示,首先通过光流网络FlowNet提取输入相邻帧之间的光流flo,MMC模块负责从生成器中提取特定编码层特征并利用对比学习的计算方式计算对比噪声估计(Contrastive Noisy Estimation,NCE),使得对应区域的互信息最大化,同时推远非对应区域的相关性距离,如图2右半部分所示,整个生成器的网络结构分为:仿射块,下卷积块,卷积块,上卷积块以及最后输出块,而MMC 模块选取的特定特征则为下卷积块中最后一层的输出特征以及卷积块中最后一层的输出特征,因此对于一次输入(相邻的连续两帧)可以得到两组特征,分别为xs组和xs+1组,而其中每组又有两个特征对于两组中/>之间的差别在于相邻帧之间的运动变化,这种变化便是光流所存储的信息,可以通过得到的光流flo进行变换w通过双实现特征前后对应,因此将第一组变换为/>计算对比噪声估计时,/>与/>进行对比学习,而/>与/>进行对比学习,以第一组为例:从/>选取一块区域patch(通常称之为query),而/>中与query对应区域的patch则称之为正样本块(通常称为positive),而其他与query不对应区域称之为负样本块(通常称为 negative),此时通过计算对比噪声估计使得互信息最大,即不断拉近query与positive的距离,增大query与negative的距离,计算方式如下:
其中,v代表query,v+代表positive,v-代表negative,因此整体MMC损失定义为:
上式中首先提取生成器GX的编码特征,而后通过MLP网络进行再编码,然后以patch 为单位进行互信息损失计算;L代表每组中的特征层数;N代表对于每一组对比学习的特征而言选取的query个数。
本实施例中,在通过光流flo结合对比学习方式增强特征间时序一致性的同时,还通过MSC模块增强了生成视频帧的结构一致性,如图2所示,选取下卷积块最后一层的特征输出和卷积块最后一层的特征输出,从中按照通道均值和通道标准差计算得到两组均值和标准差,公式如下:
其中Xb,c,h,w代表特征图;μb,h,w代表特征的均值;∈为一极小常数,通常设置为0.05,将计算得到的两组均值和标准差拼接,而后输入生成器中额外加入的两层卷积网络,之所以提取生成器前部分的结构信息,是由于网络在卷积的过程中,虽然会增加深层次的语义信息,也会丢失掉部分原本图片的结构信息,这些结构信息便包含在均值和标准差之中,通过对下卷积块最终输出特征(更多结构信息)和卷积块最终输出特征(更多深层语义信息)进行重新学习,能够有效的结合二者的语义信息,再将之赋予上卷积块的特征上,使得模型在解码的同时保留有足够的结构信息,优化最终模态迁移的效果。
具体的,如图1所示,本实施例所述基于特征时空约束的监控视频跨模态视频迁移方法包括:
S1,输入:给定的源域视频以及目标域视频/>损失平衡超参数λ1,λ2,最大迭代次数N,输出:生成的目标域视频/>
S2,定义模型:GX、GY、FX、FY、DX和DY,并随机初始化其各自参数:和/>
S3,随机读入一组连续视频帧(2帧),包括源域和目标域;
S4,计算两帧之间的光流flox,floy;
S5,目标域生成器对输入的源域视频帧进行模态迁移,生成目标域视频帧;
S6,从目标域生成器中提取特定的编码层特征,进行LMMC损失计算;
S7,从目标域生成器中提取特定的编码层特征,计算均值和标准差,重学习之后赋予解码器中特定特征,增强结构一致性;
S8,使用鉴别器DY鉴别生成的目标域视频帧和真实的目标域视频帧,计算对抗损失LADV;
S9,使用源域生成器将生成的目标域视频帧重新重构成源域视频帧/>计算重构损失LCYC;
S10,通过上述损失优化神经网络模型参数;
S11,重复步骤3-9直至最大迭代次数N或者模型收敛。
在衡量算法性能上,本实施例采取了目前网上最大的开源红外数据集:IRVI,IRVI是由红外低辨识度视频和可见光视频组成的非完全对应数据集。
对于IRVI数据集,由于数据集为不完全配对数据集,因此衡量采用弗雷歇距离(Frechet Inception Distance,FID),峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和相似指数测量(Similarity Index Measure,SSIM),结果如表1a,1b所示。
表1a
表1b
FID指标能够衡量真实视频帧与目标域视频帧的距离,值越低则代表分布越相似;PSNR从像素层面衡量生成视频与真实视频之间的相似度,值越大则代表失真越低;SSIM 则从结构层面衡量二者之间的相似度,值越大则代表生成结果越好。实验结果表明,本发明提出的方法在IRVI数据集上具有极大优势,能够有效的完成从红外模态到可见光模态的转换任务。
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。
Claims (4)
1.一种基于特征时空约束的监控视频跨模态视频迁移方法,其特征在于,包括:
步骤1,构建训练数据和神经网络,其中,神经网络通过使用两个由9层Res-Block组成的ResNet模型作为生成器GX和GY,在生成器G中添加两层卷积层,用以重新生成合适的均值和标准差,并传递给解码层;使用两个的MLP网络作为对编码特征计算互信息时的特征提取器FX和FY,使用两个PatchGAN模型的判别器DX和DY;
步骤2,从源域中读取连续的两帧源域模态数据x0,x1;从目标域各读取连续的两帧目标域模态数据y0,y1,将x0,x1,y0,y1分别输入生成器GX和GY;其中:源域模态数据x0,x1通过生成器GY迁移至目标域模态,迁移结果记作目标域模态数据y0,y1通过生成器GX迁移至源域模态,迁移结果记作/>判别器DX区分真实的源域模态数据x0,x1和迁移结果/>判别器DY区分真实的目标域模态数据y0,y1和迁移结果/>以此生成器和判别器进行生成对抗,网络更新;重构源域视频帧,将迁移结果/>重构回原本各自模态,得到重构结果/>迁移重构前后保持内容一致,将/> 各自进行L1 loss计算,约束内容一致,优化生成器GX和GY;优化生成器和判别器的目标损失函数如下:
LADV=∑ilogDY(yi)+∑jlog(1-DY(GY(xj)))......(1),
上式(1)中:yi表示目标领域的视频输入帧,xj表示源域的视频输入帧;
用于网络更新的损失函数如下:
LCYC=∑i||xi-GX(GY(xi))||1......(2);
步骤3,增强模型特征,利用预训练光流模型FlowNet提取输入数据<x0,x1>,<y0,y1>之间的光流信息flox和floy;提取下卷积块downconv blocks得到的输出特征其中,分别代表输入两帧视频帧x0,x1对应的特征;将光流flox下卷积到与/>相同尺寸,再通过双线性插值方法将/>变换成/>得到经由光流指导的变换特征;采用对比损失的方式,在/>和/>相同位置取同样的补丁patches,得到N个补丁后,计算对比损失,增强同一位置特征点的一致性,相邻帧特征之间通过光流进行联系,增强相邻帧下卷积模块和卷积模块输出特征的时间一致性;在卷积模块resnet block中提取输出特征利用光流flox进行增强操作;其中,光流进行时间一致性包括:
步骤3.1,通过输入的连续两帧视频帧,计算得到连续两帧视频帧之间的光流flo;
步骤3.2,获取编码层下卷积模块downconv block最终输出特征
步骤3.3,获取卷积模块resnet block最终输出特征
步骤3.4,将步骤3.1中获得的光流flo下卷积至与步骤3.2中特征同样宽高尺寸,通过warp函数根据下卷积得到的光流flodown_scale进行双线性插值变换,使得/>在时间逻辑上与/>一致,通过对比损失contrastive loss进行一致性约束,公式如下:
上式(3)中,vi表示特征上的一个patch,/>表示特征/>上与vi对应位置相同的patch,/>表示/>上与vi位置不同的patch,τ为常数,设置为0.05;
步骤3.5,对步骤3.3中的最终输出特征做与步骤3.4中同样的操作处理,得到对比损失/>二者共同结合组成时间一致性约束损失/>
上式(4)中,vi表示特征上的一个patch,/>表示特征/>上与vi对应位置相同的patch,/>表示/>上与vi位置不同的patch,τ为常数,设置为0.05;
步骤4,从生成器中提取特征层,优化网络结构并增强特征结构,其中,生成器包括输入块input blocks,下卷积块downconv blocks,卷积块resnet blocks,上卷积块upconvblocks,输出块output blocks,从生成器的下卷积块downconv blocks中提取第一层的输出特征,按照通道均值和通道标准差的方式,计算得到特征的第一均值和第一标准差;再从生成器的卷积块resnet blocks中提取最后一层的输出特征,按照通道均值和通道标准差的方式,计算得到第二均值和第二标准差;将第一均值、第一标准差、第二均值和第二标准差进行拼接,再输入生成器中额外增加的两层卷积层,重新生成第三均值和第三标准差,最终替换上卷积中第一层的输出特征的均值和标准差;
步骤4.1,从编码层下卷积模块downconv blocks中获取尺寸为64×64大小的特征层,提取均值和标准差:
上式(6)、(7)中:Xb,c,h,w代表特征图,b代表batch size,c代表通道维度,w和h代表宽高,∈为常数;
步骤4.2,提取解码层上卷积模块upconv blocks中尺寸为64×64大小的特征层,采用公式(6)和(7)提取均值和标准差;
步骤4.3,将步骤4.1和步骤4.2分别提取的均值和标准差拼接连接,送入G生成器中额外的两层卷积层,生成重新计算后的均值和标准差β、γ,重新将生成得到的均值和标准差β、γ替换步骤4.2中提取的特征层的均值标准差,公式如下:
fup=γfdown+β……(8),
上式(8)中,fup代表步骤4.2中选择的特征层,fdown代表步骤4.1中选择的特征层;
步骤5,重复步骤2至步骤4,直至迭代模型迭代饱和,网络参数收敛。
2.根据权利要求1所述的基于特征时空约束的监控视频跨模态视频迁移方法,其特征在于,步骤4中,从生成器的下卷积块downconv blocks中提取第一层的输出特征的特征尺度为128×64×64。
3.根据权利要求1所述的基于特征时空约束的监控视频跨模态视频迁移方法,其特征在于,步骤4中,从生成器的卷积块resnet blocks中提取最后一层的输出特征的特征尺度为128×64×64。
4.根据权利要求1所述的基于特征时空约束的监控视频跨模态视频迁移方法,其特征在于,步骤1中,构建训练数据是将视频数据按照采样比率划分为连续视频帧数据集,划分2/3用于训练数据,1/3视频数据用以测试结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210188948.9A CN114663802B (zh) | 2022-02-28 | 2022-02-28 | 基于特征时空约束的监控视频跨模态视频迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210188948.9A CN114663802B (zh) | 2022-02-28 | 2022-02-28 | 基于特征时空约束的监控视频跨模态视频迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114663802A CN114663802A (zh) | 2022-06-24 |
CN114663802B true CN114663802B (zh) | 2024-05-31 |
Family
ID=82026911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210188948.9A Active CN114663802B (zh) | 2022-02-28 | 2022-02-28 | 基于特征时空约束的监控视频跨模态视频迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663802B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237901B (zh) * | 2023-11-15 | 2024-06-18 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种跨域自适应的自动驾驶场景数据生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948561A (zh) * | 2019-03-25 | 2019-06-28 | 广东石油化工学院 | 基于迁移网络的无监督图像视频行人重识别的方法及系统 |
CN110175951A (zh) * | 2019-05-16 | 2019-08-27 | 西安电子科技大学 | 基于时域一致性约束的视频风格迁移方法 |
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
CN113642604A (zh) * | 2021-07-09 | 2021-11-12 | 南京邮电大学 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
CN113691747A (zh) * | 2021-07-19 | 2021-11-23 | 北京理工大学 | 无人驾驶中红外视频转换为可见光视频的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723780B (zh) * | 2020-07-22 | 2023-04-18 | 浙江大学 | 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统 |
-
2022
- 2022-02-28 CN CN202210188948.9A patent/CN114663802B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948561A (zh) * | 2019-03-25 | 2019-06-28 | 广东石油化工学院 | 基于迁移网络的无监督图像视频行人重识别的方法及系统 |
CN110175951A (zh) * | 2019-05-16 | 2019-08-27 | 西安电子科技大学 | 基于时域一致性约束的视频风格迁移方法 |
AU2020103905A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning |
CN113642604A (zh) * | 2021-07-09 | 2021-11-12 | 南京邮电大学 | 一种基于云边协同的音视频辅助触觉信号重建方法 |
CN113691747A (zh) * | 2021-07-19 | 2021-11-23 | 北京理工大学 | 无人驾驶中红外视频转换为可见光视频的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114663802A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Image processing using multi-code gan prior | |
AU2019213369B2 (en) | Non-local memory network for semi-supervised video object segmentation | |
US10593021B1 (en) | Motion deblurring using neural network architectures | |
Zhao et al. | Learning to forecast and refine residual motion for image-to-video generation | |
Chen et al. | Unpaired deep image dehazing using contrastive disentanglement learning | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN114332466B (zh) | 图像语义分割网络持续学习方法、系统、设备及存储介质 | |
CN111242068B (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN111986105A (zh) | 基于时域去噪掩码的视频时序一致性增强方法 | |
Zhou et al. | Transformer-based multi-scale feature integration network for video saliency prediction | |
CN114663802B (zh) | 基于特征时空约束的监控视频跨模态视频迁移方法 | |
CN115082300A (zh) | 图像生成模型的训练方法、图像生成方法及装置 | |
CN115359550A (zh) | 基于Transformer的步态情绪识别方法、装置、电子设备及存储介质 | |
CN113888399B (zh) | 一种基于风格融合与域选结构的人脸年龄合成方法 | |
Zhou et al. | A superior image inpainting scheme using Transformer-based self-supervised attention GAN model | |
Li et al. | Two‐stage single image dehazing network using swin‐transformer | |
CN112990340B (zh) | 一种基于特征共享的自学习迁移方法 | |
CN117291850A (zh) | 一种基于可学习低秩表示的红外偏振图像融合增强方法 | |
CN116523985A (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN114841887B (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 | |
Li et al. | Unsupervised neural rendering for image hazing | |
CN115797646A (zh) | 多尺度特征融合的视频去噪方法、系统、设备及存储介质 | |
CN114331821A (zh) | 一种图像转换方法及系统 | |
Khan | Towards continual, online, self-supervised depth |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |