CN113538505A - 一种基于深度学习的单张图片的运动估计系统及方法 - Google Patents
一种基于深度学习的单张图片的运动估计系统及方法 Download PDFInfo
- Publication number
- CN113538505A CN113538505A CN202110672305.7A CN202110672305A CN113538505A CN 113538505 A CN113538505 A CN 113538505A CN 202110672305 A CN202110672305 A CN 202110672305A CN 113538505 A CN113538505 A CN 113538505A
- Authority
- CN
- China
- Prior art keywords
- motion
- picture
- information
- network
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 57
- 230000000694 effects Effects 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 45
- 230000004913 activation Effects 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims 2
- 238000013480 data collection Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的单张图片的运动估计系统及方法,首先拍摄具有运动状态的物体的视频集,制作相同时间戳的前后两帧的运动图片对,构建数据集。然后构建场景信息提取网络,用于提取输入图片场景信息SE;构建运动信息估计网络,用于提取并估计输入图片运动信息ME。构建信息融合网络,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片。本发明方法基于图片级和像素级对指定的输入图片进行重建,并在重建过程中对图片中部分物体的轮廓进行合理偏移,从而实现对单张图片的运动估计,将深度学习技术引入到运动估计领域中。
Description
技术领域
本发明属于图像处理技术领域,涉及基于深度学习的图像重建方法,尤其涉及基于深度学习的单张图像的运动估计算法。
背景技术
随着深度学习技术的快速发展,越来越多的领域采用深度学习的方法实现指定任务。传统的图像重建技术受限于重建精度与计算成本,也开始采用深度学习的方法来实现图像重建。基于深度学习的图像重建算法,重建精度更高,计算人工成本也随之降低,尤其在医学图像领域颇受欢迎。另外,随着深度学习的进一步发展,复杂的模型与强大的算力让一系列图像重建算法的应用场景更加广泛,尤其是在图像去模糊,图像超分辨率以及图像增强领域,均取得了巨大的进展。
此外,本发明涉及的另一领域是运动估计,传统的运动估计的基本思想是将图像序列的每一帧分成许多互不重叠的块,并认为块内所有象素的位移量都相同,然后对每个块,在参考帧的某一给定搜索范围内,根据一定的匹配准则找出与当前块最相似的块,即匹配块,匹配块与当前块的相对位移即为运动矢量(motion vector,MV)。但是,这种运动估计的算法通常用于视频压缩领域,是为了减少数据冗余,是从视频序列抽取运动信息的一整套技术中的部分技术。因而,使用基于深度学习的图像重建技术实现图像运动估计的方法则是更少。
发明内容
针对现有技术中存在的不足,本发明提供一种基于深度学习的单张图片的运动估计系统及方法;
现有的基于深度学习方法的图像重建技术,多数用于超分辨率领域,去模糊领域,或者图像增强领域。这类基于端到端的图像重建方法,更偏向于像素点位置处的像素值修正,是一种像素级间的处理方法。本发明提供了一种基于深度学习的单张图片的运动估计系统及方法,该方法基于图片级和像素级对指定的输入图片进行重建,并在重建过程中对图片中部分物体的轮廓进行合理偏移,从而实现对单张图片的运动估计,将深度学习技术引入到运动估计领域中。
一种基于深度学习的单张图像的运动估计方法,其步骤包括:
步骤(1)、构建数据集;
拍摄具有运动状态的物体的视频集,制作相同时间戳的前后两帧的运动图片对,构建数据集。
步骤(2)、构建场景信息提取网络,并通过数据集进行训练,用于提取输入图片场景信息SE;
步骤(3)、构建运动信息估计网络,并通过数据集进行训练,用于提取并估计输入图片运动信息ME。
步骤(4)、构建信息融合网络,并通过数据集进行训练,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片。
步骤(5)、将需要进行运动估计的真实图片分别输入训练好的场景信息提取网络和运动信息估计网络,得到输入图片的场景信息SE和运动信息估计结果ME,然后通过训练好的信息融合网络对场景信息SE和运动信息估计结果ME进行融合,得到具有运动估计效果的输出图片。
步骤(1)具体方法如下;
1-1:数据收集,拍摄具有运动状态的物体的视频集。拍摄视频数据时将相机位置固定,确保相机位置和相机参数在拍摄同一段视频时不发生改变,即连续拍摄的一段视频只有画面中运动物体的运动状态改变,无其他变量;
1-2:数据集制作,制作相同时间戳的前后两帧的运动图片对。将拍摄的视频按帧分离,在每段视频中挑选具有明显运动状态改变的物体的连续两帧图片作为一组图片,即每组图片的第一帧图片(IT)作为初始图片,第二帧图片(IT+1)作为基于第一帧图片产生相对运动的图片。其中数据集中的第一帧图片(IT)作为模型训练过程的输入数据,数据集中的具有相对运动的第二帧图片(IT+1)作为模型训练过程中的用于与模型输出图片进行对比的对比图片。
步骤(2)具体方法如下;
2-1:建立场景信息提取任务的理论模型。场景信息指同一对图片中不发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(T+1)具有相同像素分布的内容信息。场景信息提取任务的理论模型用公式表示为:
SE=Ψ(IT)
其中Ψ表示场景信息提取函数,IT表示数据集中每组图片的第一帧图片。
2-2:构建场景信息提取网络,用于提取输入图片场景信息。场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。将数据集中的第一帧图片(IT)和第二帧图片(IT+1)分别作为输入图片送到场景信息提取网络中,并采用L1损失函数进行监督,实现L1(Ψ(IT)-Ψ(IT+1))→0,即使得输入的第一帧图片(IT)和第二帧图片(IT+1)经过场景信息提取网络,得到近似相同的输出结果,即场景信息SE。场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变。
步骤(3)具体方法如下;
3-1:建立运动信息估计任务的理论模型。运动信息指同一对图片中发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(IT+1)具有不同像素分布的运动目标信息。运动信息估计任务是根据给定的第一帧图片(IT),能够对图片的运动目标信息进行检测并重新估计目标的像素分布,产生运动目标状态改变的效果。运动信息估计任务的理论模型用公式表示为:
ME=γ(IT)
其中γ表示运动信息估计函数,IT表示数据集中每组图片的第一帧图片。
3-2:构建运动信息估计网络,用于提取并估计输入图片运动信息。运动信息估计网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。将数据集中的第一帧图片(IT)作为输入图片送到运动信息估计网络中,得到输入图片(IT)的运动信息估计结果ME。
步骤(4)具体方法如下;
4-1:建立信息融合网络的理论模型。信息融合网络用于融合场景信息提取网络的输出场景信息SE和运动信息估计网络的输出运动信息估计结果ME,信息融合的理论模型用公式表示为:
out=Θ(SE,ME)
其中SE为场景信息提取网络的输出场景信息,ME为运动信息估计网络的输出运动信息估计结果,Θ为信息融合函数。
4-2:构建信息融合网络,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片。信息融合网络由卷积层,正则化层和ReLU非线性激活函数构成。将场景信息提取网络的输出场景信息SE和运动信息估计网络的输出运动信息估计结果ME在通道维度上进行拼接,作为信息融合网络的输入,数据集中的具有相对运动的第二帧图片(IT+1)作为信息融合网络训练过程中的用于与输出图片进行对比的真实图片。信息融合网络采用L1损失函数进行监督,实现L1(out-(IT+1))→0,即使得信息融合网络输出图片(Iout)和第二帧图片(IT+1)具有近似相同的输出结果。
一种基于深度学习的单张图像的运动估计系统,包括场景信息提取模块、运动信息估计模块和信息融合模块:
所述的场景信息提取模块采用场景信息提取网络提取输入图片场景信息,所述的场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变。
所述的运动信息估计模块采用运动信息估计网络提取并估计输入图片运动信息,所述的运动信息估计网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。
所述的信息融合模块采用信息融合网络融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片。所述的信息融合网络由卷积层,正则化层和ReLU非线性激活函数构成。
本发明有益效果如下:
优点1:创新的提出了基于深度学习的单张图像的运动估计算法,该算法实现了对图像内容的运动估计及图像重建。
优点2:创新的提出了基于深度学习的单张图像的运动估计系统,包括场景信息提取模块,运动信息提取模块,图像生成模块。
优点3:创新的将基于深度学习的图像重建技术应用到了图片运动估计的新领域,运动估计的输出不再作为视频压缩技术的中间输出。
附图说明
图1为本发明实施例图像运动估计流程图;
图2为本发明实施例图像运动估计算法;
图3为本发明实施例运动估计系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明首先进行以下定义及说明:
符号IT:同一对图片中的第一帧的图片。
符号IT+1:同一对图片中的第二帧的图片。
符号SE:输入数据经过场景信息提取网络得到的输出特征图。
符号ME:输入数据经过运动信息估计网络得到的输出特征图。
符号Iout:输入数据经过信息融合网络得到的输出图片。
一种基于深度学习的单张图像的运动估计方法,其步骤如图1所示,包括:
步骤(1)、数据预处理;
1-1:数据收集,拍摄具有运动状态的物体的视频集。拍摄视频数据时将相机位置固定,确保相机位置和相机参数在拍摄同一段视频时不发生改变,即连续拍摄的一段视频只有画面中运动物体的运动状态改变,无其他变量;
1-2:数据集制作,制作相同时间戳的前后两帧的运动图片对。将拍摄的视频按帧分离,在每段视频中挑选具有明显运动状态改变的物体的连续两帧图片作为一组图片,即每组图片的第一帧图片(IT)作为初始图片,第二帧图片(IT+1)作为基于第一帧图片产生相对运动的图片。其中数据集中的第一帧图片(IT)作为模型训练过程的输入数据,数据集中的具有相对运动的第二帧图片(IT+1)作为模型训练过程中的用于与模型输出图片进行对比的对比图片。
步骤(2)、场景信息提取网络构建;
2-1:建立场景信息提取任务的理论模型。场景信息指同一对图片中不发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(T+1)具有相同像素分布的内容信息。场景信息提取任务的理论模型用公式表示为:
SE=Ψ(IT)
其中Ψ表示场景信息提取函数,IT表示数据集中每组图片的第一帧图片。
2-2:构建场景信息提取网络,用于提取输入图片场景信息。场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。将数据集中的第一帧图片(IT)和第二帧图片(IT+1)分别作为输入图片送到场景信息提取网络中,并采用L1损失函数进行监督,实现L1(Ψ(IT)-Ψ(IT+1))→0,即使得输入的第一帧图片(IT)和第二帧图片(IT+1)经过场景信息提取网络,得到近似相同的输出结果,即场景信息SE。场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变。
步骤(3)、运动信息估计网络构建;
3-1:建立运动信息估计任务的理论模型。运动信息指同一对图片中发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(IT+1)具有不同像素分布的运动目标信息。运动信息估计任务是根据给定的第一帧图片(IT),能够对图片的运动目标信息进行检测并重新估计目标的像素分布,产生运动目标状态改变的效果。运动信息估计任务的理论模型用公式表示为:
ME=γ(IT)
其中γ表示运动信息估计函数,IT表示数据集中每组图片的第一帧图片。
3-2:构建运动信息估计网络,用于提取并估计输入图片运动信息。运动信息估计网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。将数据集中的第一帧图片(IT)作为输入图片送到运动信息估计网络中,得到输入图片(IT)的运动信息估计结果ME。
步骤(4)、信息融合网络构建;
4-1:建立信息融合网络的理论模型。信息融合网络用于融合场景信息提取网络的输出场景信息SE和运动信息估计网络的输出运动信息估计结果ME,信息融合的理论模型用公式表示为:
out=Θ(SE,ME)
其中SE为场景信息提取网络的输出场景信息,ME为运动信息估计网络的输出运动信息估计结果,Θ为信息融合函数。
4-2:构建信息融合网络,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片。信息融合网络由卷积层,正则化层和ReLU非线性激活函数构成。将场景信息提取网络(经过步骤2-2,场景信息提取网络的权重固定不变)的输出场景信息SE和运动信息估计网络的输出运动信息估计结果ME在通道维度上进行拼接,作为信息融合网络的输入,数据集中的具有相对运动的第二帧图片(IT+1)作为信息融合网络训练过程中的用于与输出图片进行对比的真实图片。信息融合网络采用L1损失函数进行监督,实现L1(out-(IT+1))→0,即使得信息融合网络输出图片(Iout)和第二帧图片(IT+1)具有近似相同的输出结果。
步骤(5)、将需要进行运动估计的真实图片分别输入训练好的场景信息提取网络和运动信息估计网络,得到输入图片的场景信息SE和运动信息估计结果ME,然后通过训练好的信息融合网络对场景信息SE和运动信息估计结果ME进行融合,得到具有运动估计效果的输出图片。
图2为本发明实施例图像运动估计算法;
如图3所示,一种基于深度学习的单张图像的运动估计系统,包括场景信息提取模块、运动信息估计模块和信息融合模块:
所述的场景信息提取模块采用场景信息提取网络提取输入图片场景信息,所述的场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变。
场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成,一共分成3个部分:第一部分包含1个卷积核数量为64的步幅为2*2的7*7的卷积层核一个正则化层;第二部分包含1个步幅为2*2的最大池化层;第三部分包含3个结构参数相同的自定义模块,每个自定义模块内包含一个卷积核数量为64的1*1的卷积层,一个卷积核数量为64的3*3的卷积层,一个卷积核数量为256的1*1的卷积层。每个卷积层后面都接了一个ReLU非线性激活函数和正则化层;经过场景信息提取网路,图像尺寸H*W变成了(H/4)*(W/4)。
所述的运动信息估计模块采用运动信息估计网络提取并估计输入图片运动信息,所述的运动信息估计网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成。
运动信息估计网络由卷积层,最大池化层,正则化层,转置卷积层和ReLU非线性激活函数构成,一共分成2部分:第一部分包含四个双卷积模块,每个双卷积模块包含两个参数相同的卷积层和两个正则化层,四个双卷积模块的参数分别为滤波核尺寸均为3*3,滤波核数量为64,128,256,512,每个双卷积模块后都连接一个步幅为2*2的最大池化层;第二部分包含两个双卷积模块,参数分别为滤波核尺寸均为3*3,滤波核数量为512,256,每个双卷积模块后面都连接一个与双卷积模块具有相同参数的转置卷积层和正则化层。运动信息估计网络采用的卷积层后面都接了一个ReLU非线性激活函数。经过场景信息提取网路,图像尺寸H*W变成了(H/4)*(W/4)。
所述的信息融合模块采用信息融合网络融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片。所述的信息融合网络由卷积层,正则化层和ReLU非线性激活函数构成。
信息融合网络由卷积层,最大池化层,正则化层,转置卷积层和ReLU非线性激活函数构成,一共分成2部分:第一部分包含两个双卷积模块,参数分别为滤波核尺寸均为3*3,滤波核数量为256,128,每个双卷积模块后面都连接一个与双卷积模块具有相同参数的转置卷积层和正则化层。第二部分包含两个双卷积模块,参数分别为滤波核尺寸均为3*3,滤波核数量为64,3。运动信息估计网络采用的卷积层后面都接了一个ReLU非线性激活函数。经过信息融合网路,图像尺寸(H/4)*(W/4)变成了H*W。
Claims (9)
1.一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤如下:
步骤(1)、构建数据集;
拍摄具有运动状态的物体的视频集,制作相同时间戳的前后两帧的运动图片对,构建数据集;
步骤(2)、构建场景信息提取网络,并通过数据集进行训练,用于提取输入图片场景信息SE;
步骤(3)、构建运动信息估计网络,并通过数据集进行训练,用于提取并估计输入图片运动信息ME;
步骤(4)、构建信息融合网络,并通过数据集进行训练,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片;
步骤(5)、将需要进行运动估计的真实图片分别输入训练好的场景信息提取网络和运动信息估计网络,得到输入图片的场景信息SE和运动信息估计结果ME,然后通过训练好的信息融合网络对场景信息SE和运动信息估计结果ME进行融合,得到具有运动估计效果的输出图片。
2.根据权利要求1所述的一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤(1)具体方法如下;
1-1:数据收集,拍摄具有运动状态的物体的视频集;拍摄视频数据时将相机位置固定,确保相机位置和相机参数在拍摄同一段视频时不发生改变,即连续拍摄的一段视频只有画面中运动物体的运动状态改变,无其他变量;
1-2:数据集制作,制作相同时间戳的前后两帧的运动图片对;将拍摄的视频按帧分离,在每段视频中挑选具有明显运动状态改变的物体的连续两帧图片作为一组图片,即每组图片的第一帧图片(IT)作为初始图片,第二帧图片(IT+1)作为基于第一帧图片产生相对运动的图片;其中数据集中的第一帧图片(IT)作为模型训练过程的输入数据,数据集中的具有相对运动的第二帧图片(IT+1)作为模型训练过程中的用于与模型输出图片进行对比的对比图片。
3.根据权利要求2所述的一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤(2)具体方法如下;
2-1:建立场景信息提取任务的理论模型;场景信息指同一对图片中不发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(T+1)具有相同像素分布的内容信息;场景信息提取任务的理论模型用公式表示为:
SE=Ψ(IT)
其中Ψ表示场景信息提取函数,IT表示数据集中每组图片的第一帧图片;
2-2:构建场景信息提取网络,用于提取输入图片场景信息;场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成;将数据集中的第一帧图片(IT)和第二帧图片(IT+1)分别作为输入图片送到场景信息提取网络中,并采用L1损失函数进行监督,实现L1(Ψ(IT)-Ψ(IT+1))→0,即使得输入的第一帧图片(IT)和第二帧图片(IT+1)经过场景信息提取网络,得到近似相同的输出结果,即场景信息SE,场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变。
4.根据权利要求3所述的一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤(3)具体方法如下;
3-1:建立运动信息估计任务的理论模型;运动信息指同一对图片中发生运动状态改变的内容信息,即第一帧图片(IT)和第二帧图片(IT+1)具有不同像素分布的运动目标信息;运动信息估计任务是根据给定的第一帧图片(IT),能够对图片的运动目标信息进行检测并重新估计目标的像素分布,产生运动目标状态改变的效果;运动信息估计任务的理论模型用公式表示为:
ME=Υ(IT)
其中Υ表示运动信息估计函数,IT表示数据集中每组图片的第一帧图片;
3-2:构建运动信息估计网络,用于提取并估计输入图片运动信息;运动信息估计网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成;将数据集中的第一帧图片(IT)作为输入图片送到运动信息估计网络中,得到输入图片(IT)的运动信息估计结果ME。
5.根据权利要求4所述的一种基于深度学习的单张图像的运动估计方法,其特征在于,步骤(4)具体方法如下;
4-1:建立信息融合网络的理论模型;信息融合网络用于融合场景信息提取网络的输出场景信息SE和运动信息估计网络的输出运动信息估计结果ME,信息融合的理论模型用公式表示为:
out=Θ(SE,ME)
其中SE为场景信息提取网络的输出场景信息,ME为运动信息估计网络的输出运动信息估计结果,Θ为信息融合函数;
4-2:构建信息融合网络,用于融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片;信息融合网络由卷积层,正则化层和ReLU非线性激活函数构成;将场景信息提取网络的输出场景信息SE和运动信息估计网络的输出运动信息估计结果ME在通道维度上进行拼接,作为信息融合网络的输入,数据集中的具有相对运动的第二帧图片(IT+1)作为信息融合网络训练过程中的用于与输出图片进行对比的真实图片;信息融合网络采用L1损失函数进行监督,实现L1(out-(IT+1))→0,即使得信息融合网络输出图片(Iout)和第二帧图片(IT+1)具有近似相同的输出结果。
6.一种基于深度学习的单张图像的运动估计系统,其特征在于,包括场景信息提取模块、运动信息估计模块和信息融合模块:
所述的场景信息提取模块采用场景信息提取网络提取输入图片场景信息,所述的场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成;场景信息提取网络经过训练具有提取输入图片场景信息的效果后,保持场景信息提取网络的权重不再发生任何改变;
所述的运动信息估计模块采用运动信息估计网络提取并估计输入图片运动信息,所述的运动信息估计网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成;
所述的信息融合模块采用信息融合网络融合场景信息和运动信息估计结果,得到具有运动估计效果的输出图片;所述的信息融合网络由卷积层,正则化层和ReLU非线性激活函数构成。
7.根据权利要求6所述的一种基于深度学习的单张图像的运动估计系统,其特征在于,场景信息提取网络由卷积层,最大池化层,正则化层和ReLU非线性激活函数构成,一共分成3个部分:第一部分包含1个卷积核数量为64的步幅为2*2的7*7的卷积层核一个正则化层;第二部分包含1个步幅为2*2的最大池化层;第三部分包含3个结构参数相同的自定义模块,每个自定义模块内包含一个卷积核数量为64的1*1的卷积层,一个卷积核数量为64的3*3的卷积层,一个卷积核数量为256的1*1的卷积层;每个卷积层后面都接了一个ReLU非线性激活函数和正则化层;经过场景信息提取网路,图像尺寸H*W变成了(H/4)*(W/4)。
8.根据权利要求7所述的一种基于深度学习的单张图像的运动估计系统,其特征在于,运动信息估计网络由卷积层,最大池化层,正则化层,转置卷积层和ReLU非线性激活函数构成,一共分成2部分:第一部分包含四个双卷积模块,每个双卷积模块包含两个参数相同的卷积层和两个正则化层,四个双卷积模块的参数分别为滤波核尺寸均为3*3,滤波核数量为64,128,256,512,每个双卷积模块后都连接一个步幅为2*2的最大池化层;第二部分包含两个双卷积模块,参数分别为滤波核尺寸均为3*3,滤波核数量为512,256,每个双卷积模块后面都连接一个与双卷积模块具有相同参数的转置卷积层和正则化层;运动信息估计网络采用的卷积层后面都接了一个ReLU非线性激活函数;经过场景信息提取网路,图像尺寸H*W变成了(H/4)*(W/4)。
9.根据权利要求8所述的一种基于深度学习的单张图像的运动估计系统,其特征在于,信息融合网络由卷积层,最大池化层,正则化层,转置卷积层和ReLU非线性激活函数构成,一共分成2部分:第一部分包含两个双卷积模块,参数分别为滤波核尺寸均为3*3,滤波核数量为256,128,每个双卷积模块后面都连接一个与双卷积模块具有相同参数的转置卷积层和正则化层;第二部分包含两个双卷积模块,参数分别为滤波核尺寸均为3*3,滤波核数量为64,3;运动信息估计网络采用的卷积层后面都接了一个ReLU非线性激活函数;经过信息融合网路,图像尺寸(H/4)*(W/4)变成了H*W。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110672305.7A CN113538505A (zh) | 2021-06-17 | 2021-06-17 | 一种基于深度学习的单张图片的运动估计系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110672305.7A CN113538505A (zh) | 2021-06-17 | 2021-06-17 | 一种基于深度学习的单张图片的运动估计系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113538505A true CN113538505A (zh) | 2021-10-22 |
Family
ID=78125064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110672305.7A Withdrawn CN113538505A (zh) | 2021-06-17 | 2021-06-17 | 一种基于深度学习的单张图片的运动估计系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538505A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511644A (zh) * | 2022-01-21 | 2022-05-17 | 电子科技大学 | 一种基于深度学习的自适应数字伪装方法 |
-
2021
- 2021-06-17 CN CN202110672305.7A patent/CN113538505A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511644A (zh) * | 2022-01-21 | 2022-05-17 | 电子科技大学 | 一种基于深度学习的自适应数字伪装方法 |
CN114511644B (zh) * | 2022-01-21 | 2023-06-09 | 电子科技大学 | 一种基于深度学习的自适应数字伪装方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yue et al. | Supervised raw video denoising with a benchmark dataset on dynamic scenes | |
CN108765296B (zh) | 一种基于递归残差注意力网络的图像超分辨率重建方法 | |
WO2020015167A1 (zh) | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN111275643B (zh) | 基于通道和空间注意力的真实噪声盲去噪网络系统及方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN112465727A (zh) | 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法 | |
CN108989731B (zh) | 一种提高视频空间分辨率的方法 | |
CN112598587B (zh) | 一种联合人脸去口罩和超分辨率的图像处理系统和方法 | |
CN112509144B (zh) | 人脸图像处理方法、装置、电子设备及存储介质 | |
CN114494050A (zh) | 一种基于事件相机的自监督视频去模糊和图像插帧方法 | |
CN112200724A (zh) | 一种基于反馈机制的单图像超分辨率重建系统及方法 | |
CN107767339A (zh) | 一种双目立体图像拼接方法 | |
Niu et al. | Blind motion deblurring super-resolution: When dynamic spatio-temporal learning meets static image understanding | |
CN114049251A (zh) | 一种用于ai视频分析的模糊图像超分辨率重建方法及装置 | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
Wang et al. | Towards high-quality thermal infrared image colorization via attention-based hierarchical network | |
Wang et al. | Image super-resolution via lightweight attention-directed feature aggregation network | |
CN109087247B (zh) | 一种对立体图像进行超分的方法 | |
Shen et al. | Spatial temporal video enhancement using alternating exposures | |
CN113538505A (zh) | 一种基于深度学习的单张图片的运动估计系统及方法 | |
CN112330572B (zh) | 一种基于密集型网络的生成式对抗神经网络及失真图像复原方法 | |
CN112435165B (zh) | 基于生成对抗网络的两阶段视频超分辨率重建方法 | |
CN113627368B (zh) | 基于深度学习的视频行为识别方法 | |
Paliwal et al. | Multi-stage raw video denoising with adversarial loss and gradient mask |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211022 |
|
WW01 | Invention patent application withdrawn after publication |