CN114022809A - 基于改进自编码网络的视频运动放大方法 - Google Patents
基于改进自编码网络的视频运动放大方法 Download PDFInfo
- Publication number
- CN114022809A CN114022809A CN202111265525.4A CN202111265525A CN114022809A CN 114022809 A CN114022809 A CN 114022809A CN 202111265525 A CN202111265525 A CN 202111265525A CN 114022809 A CN114022809 A CN 114022809A
- Authority
- CN
- China
- Prior art keywords
- shape
- image
- texture
- amplified
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及基于改进自编码网络的视频运动放大方法,利用改进自编码网络对视频中的细微变化进行放大,所述方法包括:对视频数据进行分解处理,采用分解的前后连续两帧图像作为编码器的输入;利用编码器提取连续两帧图像的形状特征,作为放大器的输入;利用放大器对两帧图像形状特征的像素位移差值进行放大,得到放大的形状特征;利用解码器对前帧图像的纹理特征进行上采样,并将纹理特征与放大的形状特征结合,得到放大帧并输出。本发明的方法实现了视频运动放大图像中形状、纹理特征的完美融合,减少了视频运动放大的亮度、色彩、纹理损失,使浅层特征信息得以保留。
Description
技术领域
本发明属于图像处理领域,具体涉及一种基于改进自编码网络的视频运动放大方法。
背景技术
大部分研究往往都是针对人们肉眼很容易观察到的信息,而视频中一些重要的变化信息我们无法使用计算机进行处理。针对这一研究现状,麻省理工团队提出的一种被称为“运动显微镜”的视频运动放大技术,可以辅助获取这些重要信息。视频运动放大技术能够将视频中的细微变化放大到肉眼能够观察的幅度,如检测血液循环流动、微表情识别等。但随着视频放大倍数的不断增加,视频图像信息会存在过度模糊以及大量的噪声伪影,可能会导致运动物体轮廓消失,改变运动的真实性。
最早提出针对视频运动放大的研究技术是基于流体力学的方法,该方法对特征点的聚类跟踪来实现动作放大,存在的缺点是全程需要人为操作且计算复杂度较高。而后出现针对图像处理的欧拉放大方法,开创性的使用像素点的变化,对感兴趣的区域进行增强放大,为后视频图像放大上提供了方法和依据。
随着深度学习方法的研究逐渐深入,提出一种基于深度学习方法,该方法解决了传统手工设计滤波器的问题,但对于高放大倍数的视频仍然存在图像失真、伪影和轮廓变形等现象。尽管图像纹理特征在自编码网络中没有被放大,但依然存在局部色彩变化,图像亮度、对比度减弱等问题。同时,图像纹理特征与形状特征融合存在色彩缺失现象,严重时很可能造成棋盘效应。
发明内容
本发明的针对的技术问题是现有的基于深度学习的视频运动放大方法有图像失真、伪影和轮廓变形,图像纹理特征与形状特征融合存在色彩缺失甚至棋盘效应的现象。
本发明的目的是解决上述存在问题,提供一种基于改进自编码网络的视频运动放大方法,对自编码网络进行改进,增加可变形卷积和通道注意力机制,利用通道注意力机制的特性,对色彩、纹理变化不一致区域分配不同的权重信息,更好地将浅层的图像纹理特征与深层次的结构信息融合;采用可变形卷积提取图像中变化的形状特征,拓宽卷积视野,自适应调整卷积核的形状,融合更多的空间结构信息,提高网络的去噪能力,确保网络提取图像中更精确的动态变化特征信息;利用改进自编码网络对视频中的细微变化进行放大,尽可能减少亮度、色彩、纹理损失。
本发明的技术方案是基于改进自编码网络的视频运动放大方法,利用改进自编码网络对视频中的细微变化进行放大,所述改进自编码网络包括编码器、放大器和解码器,编码器采用通道注意力机制、可变形卷积提高自编码网络对图像纹理、形状特征的提取能力。改进自编码网络的编码器包括纹理特征提取单元和形状特征提取单元,纹理特征提取单元采用通道注意力机制,形状特征提取单元包括卷积层、可变形卷积和残差块。
所述视频运动放大方法包括以下步骤:
步骤1:对视频数据进行分解处理,采用分解的前后连续两帧图像作为编码器的输入;
步骤2:利用编码器提取连续两帧图像的形状特征,作为放大器的输入;
步骤3:利用放大器对两帧图像形状特征的像素位移差值进行放大,得到放大的形状特征;
步骤4:利用解码器对前帧图像的纹理特征进行上采样,并将纹理特征与放大的形状特征结合,得到放大帧并输出;
步骤4.1:利用解码器对编码器输出的前帧图像的纹理特征进行上采样,确保纹理特征和放大的形状特征尺寸相同;
步骤4.2:将上采样得到的纹理特征与放大的形状特征融合,得到放大帧。
优选地,改进自编码网络的解码器包括特征融合层、多个残差块、上采样层和通道注意力机制。
进一步地,步骤3包括以下子步骤:
步骤3.1:计算编码器提取的两帧图像IA、IB的形状特征FSA、FSB的差值,其中IA表示连续两帧图像的第一帧图像,IB表示第二帧图像,FSA表示第一帧图像的形状特征,FSB表示第二帧图像的形状特征;
步骤3.2:对形状特征的像素位移差值乘以放大因子α进行运动放大,得到放大的形状特征;
式中Gm()表示整个视频运动放大的操作过程,该式表示的是非线性计算过程,目的是可以减少噪声的干扰,h()表示残差核函数,g()表示形状特征差异的卷积运算函数。
优选地,步骤4中,解码器对上采样得到的纹理特征与放大的形状特征融合后对其进行卷积操作,并将卷积后的特征图通过上采样到原始输入尺寸,并引入残差块减少上采样中的损失。
优选地,改进自编码网络的训练过程中,引入损失函数Loss确保改进自编码网络在训练过程中能准确地学习运动放大的具体细节,并在损失函数计算中添加干扰进行正则化,损失函数Loss的计算式如下
Loss=L1(IM,IM′)+λ(L1(IA,IC)+L1(IB,IM)+L1(IB,IM′))
式中IM表示改进自编码网络输出的放大帧图像,IM′表示真实放大拍摄的图像,IC表示在训练过程中加入了干扰噪声的图像,用来提高网络的抗干扰能力,优化网络性能。λ参数表示用于规范网络训练的权重信息,使网络训练效果更有利于表现形状变化的规律。L1()表示L1范数损失函数,L1(IM,IM′)表示改进自编码网络输出的放大图像IM与真实放大图像IM′之间的损失,L1(IA,IC)表示第一帧图像IA与图像IC的纹理损失,L1(IB,IM)表示第二帧图像IB与放大帧图像IM的纹理损失,L1(IB,IM′)表示第二帧图像IB与真实放大拍摄的图像IM′的运动损失。
相比现有技术,本发明的有益效果包括:
1)本发明的方法实现了视频运动放大图像中形状、纹理特征的完美融合,减少了视频运动放大的亮度、色彩、纹理损失,使浅层特征信息得以保留。
2)本发明的改进自编码网络模型扩展了神经网络的表征能力。改进自编码网络的通道注意力机制将不同层次特征融合,并自适应地从注意力模块中学习到不同的权重信息,同时会根据输出图像中变化的的特征信息动态调整权重。
3)本发明的改进自编码网络模型的可变形卷积自适应调整机制使浅层特征信息自适应地从上采样部分流向更高层次特征,更好地保持图像特征的有效性。传统的空间不变卷积核会导致图像纹理被破坏和过度噪声伪影,本发明改进自编码网络模型利用可变形卷积替代传统卷积方式,动态扩展了感受野,能够融合更多的空间结构信息,进一步提高去噪网络的性能。
4)本发明的改进自编码网络对训练数据的需求量更低,少量样本数据的数据集即可达到训练效果,进一步验证改进自编码网络的可行性。
5)本发明的改进自编码网络模型的泛化能力强,相比传统模型,该模型针对不同的测试视频序列均表现出较好的视频运动放大效果。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为本发明实施例的改进自编码网络的结构示意图。
图2为本发明实施例的编码器的结构示意图。
图3为本发明实施例的解码器的结构示意图。
具体实施方式
如图1所示,实例的改进自编码网络包括编码器、放大器和解码器。编码器包括纹理特征提取单元和形状特征提取单元,纹理特征提取单元采用通道注意力机制,形状特征提取单元包括卷积层、可变形卷积和残差块,如图2所示。
如图3所示,改进自编码网络的解码器包括依次连接的特征融合层、9个残差块、上采样层、通道注意力单元和卷积层。
基于改进自编码网络的视频运动放大方法包括以下步骤:
步骤1:对视频数据进行分解处理,采用分解的前后连续两帧图像IA、IB作为编码器的输入,IA表示连续两帧图像的第一帧图像,IB表示第二帧图像。
步骤2:为确保编码器能够提取更准确的图像特征信息,在编码器内部将不同维度的特征信息分别用来表示图像的纹理特征FT和形状特征FS。并增加通道注意力模块提取纹理特征,利用通道注意力机制的特性针对色彩、纹理变化不一致区域,分配不同的权重信息,更好地将浅层的图像纹理特征FT与深层次的结构信息融合。采用可变形卷积提取图像中变化的形状特征FS,拓宽卷积视野,自适应调整卷积核的形状,融合更多的空间结构信息,提高网络的去噪能力,确保网络提取图像中更精确的动态变化特征信息。
可变形卷积在原始卷积的基础上为每个点增加一个偏移量Δbn。为确保生成像素点与特征图中实际点对应,同时采用双线性插值方法,保证获取像素的准确性,双线性插值方法是对两个变量的插值的扩展,核心思想是分别水平方向和垂直方向分别进行一次线性插值。
其中Ftr表示对特征图卷积操作,UA表示输出特征集合。
为确保网络能够增加有利信息的提取,对通道之间的依赖关系进行精确建模,首先考虑将输出特征UA的全局空间信息压缩成一个通道描述器,即将特征图的形状从C×H×W变成C×1×1,并通过一个全局平均池化层来实现通道统计,用gC表示,再通过两个卷积层和Sigmoid函数、Rule函数激活,计算式如下:
CAc=σ(Conv(δ(Conv(gc))))
CAC表示图像每个通道的权重信息,σ()表示Sigmoid函数,δ()表示Rule激活函数,最后将逐个元素输入FA与通道CAC的权重进行逐像素相乘,得到通过注意力机制提取后纹理特征信息FTA。
步骤3:将像素的变化关系应用在放大器中,通过计算编码器提取出图像IA、IB的形状特征FSA、FSB的差值,通过对像素位移差值乘以放大因子α达到运动放大的效果,最后将放大后的差值叠加回FSA,得到放大后的形状特征
式中Gm()为非线性函数,表示整个视频运动放大的操作过程,目的是可以减少噪声的干扰,h()表示残差核函数,g()表示对形状特征差异进行卷积运算的卷积函数。
步骤4:特征融合部分包括编码器输出的纹理特征部分和放大器输出的形状特征部分。在编码过程中对输入图像IA、IB分别提取形状特征FSA、FSB,在经过放大器操作后输出放大后叠加回原形状的输入图像IA在通过通道注意力操作后输出为提取的纹理特征信息FTA,为确保融合时特征图尺寸一致,将FTA进行上采样为最后,在解码器内部将采样后的纹理特征与放大后的形状特征融合为将融合后的特征图通过残差和上采样操作将图像恢复至原始尺寸输出放大图像IM。
本发明的改进自编码网络在迭代训练时,引入损失函数以确保网络在训练过程中能准确地学习运动放大的具体操作细节,并在损失函数计算中添加干扰进行正则化。训练数据集的数据包括原始两帧图像IA和IB、加入干扰噪声的训练集图像IC以及真实放大拍摄的图像Im′。本发明的损失函数以L1范数损失函数为基础,计算生成图像IM与真实的放大图像Im′之间损失,记为L1(IM,IM′),用L1(IA,IC)表示图像IC相对IA的纹理损失,L1(IB,IM)表示第二帧图像IB与放大帧图像IM的纹理损失,L1(IB,IM′)表示第二帧图像IB与真实放大拍摄的图像IM′的运动损失。总的Loss函数如公式所示:
Loss=L1(IM,IM′)+λ(L1(IA,IC)+L1(IB,IM)+L1(IB,IM′))
其中L1()表示L1范数损失函数,λ为权重参数,用于表示训练中干扰项的权重信息,使网络训练效果更有利于表现形状变化的规律,实施例中λ设为0.1。
Claims (6)
1.基于改进自编码网络的视频运动放大方法,其特征在于,利用改进自编码网络对视频中的细微变化进行放大,所述改进自编码网络包括编码器、放大器和解码器,编码器采用通道注意力机制、可变形卷积提高自编码网络对图像纹理、形状特征的提取能力,所述方法包括以下步骤:
步骤1:对视频数据进行分解处理,采用分解的前后连续两帧图像作为编码器的输入;
步骤2:利用编码器提取连续两帧图像的形状特征,作为放大器的输入;
步骤3:利用放大器对两帧图像形状特征的像素位移差值进行放大,得到放大的形状特征;
步骤4:利用解码器对前帧图像的纹理特征进行上采样,并将纹理特征与放大的形状特征结合,得到放大帧并输出;
步骤4.1:利用解码器对编码器输出的前帧图像的纹理特征进行上采样,确保纹理特征和放大的形状特征尺寸相同;
步骤4.2:将上采样得到的纹理特征与放大的形状特征结合得到放大帧。
2.根据权利要求1所述的视频运动放大方法,其特征在于,改进自编码网络的编码器包括纹理特征提取单元和形状特征提取单元,纹理特征提取单元采用通道注意力机制,利用通道注意力机制的特性针对色彩、纹理变化不一致区域,分配不同的权重信息;形状特征提取单元包括卷积层、可变形卷积和残差块,形状特征提取单元采用可变形卷积提取图像中变化的形状特征,拓宽卷积视野,自适应调整卷积核的形状,提取图像中的动态变化特征信息。
3.根据权利要求2所述的视频运动放大方法,其特征在于,改进自编码网络的解码器包括特征融合层、多个残差块、上采样层和通道注意力机制。
5.根据权利要求1所述的视频运动放大方法,其特征在于,步骤4中,解码器对上采样得到的纹理特征与放大的形状特征融合后对其进行卷积操作,并将卷积后的特征图通过上采样到原始输入尺寸,并引入残差块减少上采样中的损失。
6.根据权利要求1-5任意一项所述的视频运动放大方法,其特征在于,改进自编码网络的训练过程中,引入损失函数Loss确保改进自编码网络在训练过程中能准确地学习运动放大的具体细节,并在损失函数计算中添加干扰进行正则化,损失函数Loss的计算式如下
Loss=L1(IM,IM′)+λ(L1(IA,IC)+L1(IB,IM)+L1(IB,IM′))
式中IM表示改进自编码网络输出的放大帧图像,IM′表示真实放大拍摄的图像,IC表示加入了干扰噪声的训练图像,λ为权重参数;L1()表示L1范数损失函数,L1(IM,IM′)表示改进自编码网络输出的放大图像IM与真实放大图像IM′之间的损失,L1(IA,IC)表示第一帧图像IA与图像IC的纹理损失,L1(IB,IM)表示第二帧图像IB与放大帧图像IM的纹理损失,L1(IB,IM′)表示第二帧图像IB与真实放大拍摄的图像IM′的运动损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111265525.4A CN114022809A (zh) | 2021-10-28 | 2021-10-28 | 基于改进自编码网络的视频运动放大方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111265525.4A CN114022809A (zh) | 2021-10-28 | 2021-10-28 | 基于改进自编码网络的视频运动放大方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022809A true CN114022809A (zh) | 2022-02-08 |
Family
ID=80058832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111265525.4A Pending CN114022809A (zh) | 2021-10-28 | 2021-10-28 | 基于改进自编码网络的视频运动放大方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022809A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002482A (zh) * | 2022-04-27 | 2022-09-02 | 电子科技大学 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
CN115147526A (zh) * | 2022-06-30 | 2022-10-04 | 北京百度网讯科技有限公司 | 服饰生成模型的训练、生成服饰图像的方法和装置 |
-
2021
- 2021-10-28 CN CN202111265525.4A patent/CN114022809A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002482A (zh) * | 2022-04-27 | 2022-09-02 | 电子科技大学 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
CN115002482B (zh) * | 2022-04-27 | 2024-04-16 | 电子科技大学 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
CN115147526A (zh) * | 2022-06-30 | 2022-10-04 | 北京百度网讯科技有限公司 | 服饰生成模型的训练、生成服饰图像的方法和装置 |
CN115147526B (zh) * | 2022-06-30 | 2023-09-26 | 北京百度网讯科技有限公司 | 服饰生成模型的训练、生成服饰图像的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | An experiment-based review of low-light image enhancement methods | |
CN109389552B (zh) | 一种基于上下文相关多任务深度学习的图像超分辨算法 | |
CN109741256A (zh) | 基于稀疏表示和深度学习的图像超分辨率重建方法 | |
CN106127688B (zh) | 一种超分辨率图像重建方法及其系统 | |
KR101028628B1 (ko) | 영상 텍스쳐 필터링 방법, 이를 수행하는 프로그램을 기록한 기록매체 및 이를 수행하는 장치 | |
CN114022809A (zh) | 基于改进自编码网络的视频运动放大方法 | |
CN110634147A (zh) | 基于双边引导上采样的图像抠图方法 | |
Li et al. | Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN | |
CN112164011A (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN116664397B (zh) | TransSR-Net结构化图像超分辨重建方法 | |
CN113066025A (zh) | 一种基于增量学习与特征、注意力传递的图像去雾方法 | |
CN112365505A (zh) | 一种基于编码解码结构的轻量级舌体分割方法 | |
CN108122262B (zh) | 基于主结构分离的稀疏表示单帧图像超分辨率重建算法 | |
CN115100301A (zh) | 基于快速傅里叶卷积与卷积滤波流的图像压缩感知方法及系统 | |
CN113610912B (zh) | 三维场景重建中低分辨率图像单目深度估计系统及方法 | |
Lei et al. | Low-light image enhancement using the cell vibration model | |
CN112070669B (zh) | 一种针对任意模糊核的超分辨率图像重建方法 | |
Yu et al. | Learning to super-resolve blurry images with events | |
CN113096032A (zh) | 一种基于图像区域划分的非均匀一致模糊去除方法 | |
CN116128768B (zh) | 一种带有去噪模块的无监督图像低照度增强方法 | |
CN117274059A (zh) | 基于图像编码-解码的低分辨率图像重构方法及其系统 | |
CN113674154B (zh) | 一种基于生成对抗网络的单幅图像超分辨率重建方法及系统 | |
CN112348745B (zh) | 一种基于残差卷积网络的视频超分辨率重构方法 | |
CN116596809A (zh) | 一种基于Residual-Unet网络的低照度图像增强方法 | |
CN115018726A (zh) | 一种基于U-Net的图像非均匀模糊核的估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |