CN112767247A - 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 - Google Patents
图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112767247A CN112767247A CN202110039733.6A CN202110039733A CN112767247A CN 112767247 A CN112767247 A CN 112767247A CN 202110039733 A CN202110039733 A CN 202110039733A CN 112767247 A CN112767247 A CN 112767247A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- convolution
- volume block
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000004821 distillation Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000013135 deep learning Methods 0.000 claims abstract description 27
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000007499 fusion processing Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 49
- 230000004913 activation Effects 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 101100341026 Caenorhabditis elegans inx-2 gene Proteins 0.000 description 1
- 101100341024 Drosophila melanogaster ogre gene Proteins 0.000 description 1
- 101100341025 Schistocerca americana inx1 gene Proteins 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/38—Registration of image sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开实施例提供一种图像超分辨率重建方法、模型蒸馏方法、装置及计算机可读存储介质,所述图像超分辨率重建方法包括对输入的时间上连续的至少三帧原始图像进行特征提取,得到至少三个待处理图像,每一个待处理图像对应一帧原始图像;以所述至少三个待处理图像中的一个图像作为参考图像,采用基于深度学习的对齐处理网络将所述待处理图像与所述参考图像进行数据对齐,输出多个对齐帧;采用基于深度学习的融合处理网络对所述多个对齐帧进行数据融合;采用基于深度学习的重建处理网络对数据融合后的图像进行向上采样以实现图像超分辨率重建。采用本公开实施例方法可以最大程度上利用帧间信息得到较好的输出效果。
Description
技术领域
本公开实施例涉及图像处理技术领域,具体涉及一种图像超分辨率重建方法、模型蒸馏方法、装置及计算机可读存储介质。
背景技术
图像超分辨率(Super-Resolution)是通过硬件或软件的方法提高原有图像的分辨率,通过一系列低分辨率的图像来得到一幅高分辨率的图像过程。
发明内容
本公开实施例提供一种超分辨率重建方法、模型蒸馏方法、装置及计算机可读存储介质,重建效果好。
一方面,本公开实施例提供了一种图像超分辨率重建方法,包括:
对输入的时间上连续的至少三帧原始图像进行特征提取,得到至少三个待处理图像,每一个待处理图像对应一帧原始图像;
以所述至少三个待处理图像中的一个图像作为参考图像,采用基于深度学习的对齐处理网络将所述待处理图像与所述参考图像进行数据对齐,输出多个对齐帧;
采用基于深度学习的融合处理网络对所述多个对齐帧进行数据融合;
采用基于深度学习的重建处理网络对数据融合后的图像进行向上采样以实现图像超分辨率重建。
另一方面,本公开实施例提供了一种模型蒸馏方法,包括,采用前述图像超分辨率重建方法获得超分辨率重建后的重建图像,采用教师模型得到预测图像,计算所述重建图像与预测图像的损失函数,当损失函数符合预设损失函数要求时,模型蒸馏完成。
另一方面,本公开实施例还提供了一种图像处理装置,包括处理器以及存储有可在处理器上运行的计算机程序的存储器,其中,所述处理器执行所述程序时实现上述图像超分辨率重建方法或模型蒸馏方法的步骤。
再一方面,本公开实施例还提供了一种计算机可读存储介质,存储有可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时用于实现上述图像超分辨率重建方法或模型蒸馏方法。
本公开提出的基于多帧信息对齐的超分辨率重建方法,对输入的连续三帧信息,分别进行数据对齐,将对齐后的信息进行数据融合,最后通过重建处理网络实现超分辨率重建,采用本公开实施例方法可以最大程度上利用帧间信息得到较好的输出效果,网络参数少,结构简单,运行效率高,网络设计能够同时满足超分辨率重建效果与运行效率。
当然,实施本公开的任一产品或方法并不一定需要同时达到以上所述的所有优点。本公开的其它特征和优点将在随后的说明书实施例中阐述,并且,部分地从说明书实施例中变得显而易见,或者通过实施本公开而了解。本公开实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。附图中各部件的形状和大小不反映真实比例,目的只是示意说明本公开内容。
图1为本公开实施例图像超分辨率重建方法流程图;
图2为本公开实施例预处理网络结构示意图;
图3为本公开实施例对齐处理网络结构示意图;
图4为本公开实施例融合处理网络结构示意图;
图5为本公开实施例重建处理网络结构示意图;
图6为一种卷积神经网络结构示意图;
图7为本公开实施例模型蒸馏处理示意图;
图8为本公开实施例图像处理装置的结构示意图。
具体实施方式
本公开描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本公开所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本公开包括并设想了与本领域普通技术人员已知的特征和元件的组合。本公开已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本公开中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本公开实施例的精神和范围内。
除非另外定义,本公开使用的技术术语或科学术语为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。本公开中,“多个”可以表示两个或两个以上的数目。“包括”或者“包含”等类似的词语意指出现该词前面的元件或物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
为了保持本公开实施例的以下说明清楚且简明,本公开省略了部分已知功能和已知部件的详细说明。本公开实施例附图只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
本公开实施例提供了一种超分辨率重建方法,如图1所示,包括以下步骤:
步骤11,预处理步骤:对输入的时间上连续的至少三帧原始图像进行特征提取,得到至少三个待处理图像,每一个待处理图像对应一帧原始图像。
提取特征的目的是便于后续对齐处理;
在一示例性实施例中,所述输入的多帧图像可以为视频流中连续的三帧图像,通过将时间上连续的三帧图像作为原始图像,可便于利用帧间信息得到较好的输出效果。
在本公开实施例中,可采用基于深度学习的预处理网络对输入的多帧图像进行预处理。
步骤12,对齐步骤:以所述至少三个待处理图像中的一个图像作为参考图像,采用基于深度学习的对齐处理网络将所述待处理图像与所述参考图像进行数据对齐,输出多个对齐帧;
在一示例性实施例中,当原始图像个数为三帧,即预处理后的图像为3个时,可将中间待处理图像即中间帧原始图像预处理后得到的图像作为参考图像,使中间帧前后两帧图像分别向中间图像对齐,至少得到第一图像与第二图像的对齐帧,第二图像与第三图像的对齐帧。可选地,还可以将第二图像输入对齐处理网络,得到增强的第二图像信息。
步骤13,融合步骤:采用基于深度学习的融合处理网络对所述多个对齐帧进行数据融合;
在本公开实施例中,可采用基于深度学习的融合处理网络进行数据融合,融合后的输出包含对齐后多个输入的原始帧的信息。
步骤14,重建步骤:采用基于深度学习的重建处理网络对数据融合后的图像进行向上采样以实现图像超分辨率重建。
将数据融合后的图像进行向上采样,得到超分辨率重建结果。超分的倍数可以是2倍、3倍、4倍、8倍、16倍等。
本公开实施例提出了一种基于多帧信息对齐的超分辨率重建方法,对输入的连续三帧信息,分别进行数据对齐,将对齐后的信息进行数据融合,最后通过重建处理网络实现超分辨率重建,采用本公开实施例方法可以最大程度上利用帧间信息得到较好的输出效果,网络参数少,结构简单,运行效率高,网络设计能够同时满足超分辨率重建效果与运行效率。
在一示例性实施例中,基于深度学习的预处理网络如图2所示,包括预处理拼接层,预处理卷积层和预处理激活层,其中:
预处理拼接层,用于将输入的原始图像在一个维度上进行拼接,例如采用concat函数,所述预处理拼接层如图2中所示concat1;
预处理卷积层,用于提取拼接后图像的局部特征,例如采用conv2d函数,所述预处理拼接层如图2中所示conv2d1。
预处理激活层,用于对预处理卷积层卷积后得到的特征图进行非线性映射,本实施例中采用线性整流(Rectified Linear Unit,ReLu)函数实现,预处理激活层如图2中所示relu1。
以输入图像为连续的三帧图像为例,对上述预处理网络进行说明。
所述预处理网络的输入图像包括第一帧图像(P1)、第二帧图像(P2)和第三帧图像(P3),每一帧图像的尺寸有四个维度,包括批次(batch)、通道(channel)、宽度(width)和高度(high)。在本实施例中每一帧图像的大小表示为(1,3,W,H)。其中batch为1;channel为3,表示R(红)G(绿)B(蓝)三色。通过预处理拼接层对输入的三帧图像在batch维度上拼接后,组成大小为(3,3,W,H)的输出图像;
在本实施例中,预处理卷积层采用conv2d函数实现,卷积核大小为3×3,通道数为64,即有64个卷积核,相应地,卷积层的输出为64幅特征图。在其他实施例中,通道数还可以是96或128,通道数越小处理速度越快,通道数越大,处理效果越好。
预处理激活层对特征图进行非线性映射后,输出的图像尺寸为(3,64,W,H)。输出的图像将被从batch维度拆分为3组输出图像,分别为预处理后的第一帧图像(以下简称第一图像)F1,预处理后的第二帧图像(以下简称第二图像)F2和预处理后的第三帧图像(以下简称第三图像)F3,其中第一图像F1的大小为(1,64,W,H),第二图像F2的大小为(1,64,W,H),第三图像F3的大小为(1,64,W,H)。
在一示例性实施例中,基于深度学习的对齐处理网络如图3所示,包括多个卷积块,第一卷积块包括第一拼接层,第一卷积层和第一激活层,第一卷积块的输入包括第一输入图像(inx1)和第二输入图像(inx2);第二卷积块包括第二拼接层,第二卷积层和第二激活层,第二卷积块的输入包括第一卷积块的输出和第一输入图像;第三卷积块包括第三拼接层,第三卷积层和第三激活层,第三卷积块的输入包括第二卷积块的输出和第一输入图像;第四卷积块包括第四拼接层,第四卷积层和第四激活层,第四卷积块的输入包括第三卷积块的输出和第二输入图像;第五卷积块包括第五拼接层,第五卷积层和第五激活层,第五卷积块的输入包括第四卷积块的输出和第二输入图像;第五卷积块的输出为对齐处理网络的输出(Align out)。
在示例性实施例中,所述对齐网络模型中在第五卷积块后,还可以包括第六卷积块,第六卷积块包括第六拼接层,第六卷积层和第六激活层,第六卷积块的输入包括第五卷积块的输出和第二输入图像;第六卷积块的输出为对齐处理网络的输出。
可选地,所述第一拼接层、第二拼接层、第三拼接层、第四拼接层、第五拼接层和第六拼接层(如果有的话)采用concat函数实现。
可选地,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层和第六卷积层(如果有的话)采用conv2d函数实现,卷积核大小为3×3,通道数为64。
可选地,第一激活层、第二激活层、第三激活层、第四激活层、第五激活层和第六激活层(如果有的话)采用relu函数实现。
预处理得到的第一图像、第二图像和第三图像,分组输入对齐处理网络,通过多次对齐处理,得到多个对齐帧。分组输入对齐处理网络,通过多次对齐处理例如包括:
第一次对齐:将第一图像和第二图像作为一组输入对齐处理网络,其中第一图像作为第一输入图像,第二图像作为第二输入图像,对齐处理网络输出图像为第一校准图像(或称第一对齐图像,第一对齐帧)A1,可以理解为获取第一图像和第二图像之间运动的误差信息,获取该误差信息在后续重建步骤中可以对输出的图像进行运动补偿。
第二次对齐:将第二图像和第二图像作为一组输入对齐处理网络,其中第二图像分别作为第一输入图像和第二输入图像,对齐处理网络输出第二校准图像(或称第二对齐图像,第二对齐帧)A2,用于提取第二图像信息,通过提取第二图信息可以理解为增强参考帧(即参考图像)的信息;
第三次对齐:将第二图像和第三图像作为一组输入对齐处理网络,其中第二图像作为第一输入图像,第三图像作为第二输入图像,对齐处理网络输出第三校准图像(或称第三对齐图像,第三对齐帧)A3,可以理解为获取第二图像和第三图像之间运动的误差信息,获取该误差信息在后续重建步骤中可以对输出的图像进行运动补偿。
在本实施例中,三次对齐的执行顺序不限。
在本实施例中将时间上连续的三帧原始图像中的中间帧预处理后的第二帧图像作为参考帧,可以更好地实现对齐。对齐处理的目的是为了将输入的图像进行数据对齐,由于帧间存在运动,数据对齐更有利于学习到运动的信息以及参考帧的信息。
在一示例性实施例中,基于深度学习的融合处理网络如图4所示,包括第七卷积块、第八卷积块,第九卷积块,第十卷积块和第十一卷积块,其中,第七卷积块和第八卷积块为并列的两个分支。第七卷积块的输入包括第一校准图像A1和第二校准图像A2,第七卷积块的输出图像作为第九卷积块的第一输入。第八卷积块的输入包括第二校准图像A2和第三校准图像A3,第八卷积块的输出图像作为第九卷积块的第二输入,第九卷积块的输出为第十卷积块的输入,第十卷积块的输出为第十一卷积块的输入,第十一卷积块的输出为所述融合处理网络模型的输出(out)。
在本实施例中,第七卷积块、第八卷积块和第九卷积块中每个卷积块的结构均包含拼接层、卷积层和激活层。第十卷积块和第十一卷积块中每个卷积块的结构均包括卷积层和激活层。其中,第七卷积块-第九卷积块中每个卷积块的拼接层采用concat函数实现。第七卷积块-第十一卷积块中每个卷积块的卷积层采用conv2d函数实现,卷积核为3×3,通道数为64。第七卷积块-第十一卷积块中每个卷积块的激活层采用relu函数。
通过第七卷积块将第一校准图像A1与第二校准图像A2进行融合,得到第一融合图像A12。通过第八卷积块将第二校准图像A2与第三校准图像A3进行融合,得到第二融合图像A23。通过第九卷积块将第一融合图像A12与第二融合图像A23进行融合得到第三融合图像A123。第三融合图像经过第十卷积块和第十一卷积块的学习,得到融合后的输出O1。
在一示例性实施例中,所述第十卷积块和第十一卷积块为可选卷积块,即可以将第三融合图像A123作为融合后的输出O1。或者,在一示例性实施例中,所述融合处理网络包括第十卷积块,即第三融合图像A123经过第十卷积块的一次学习,得到的输出即为融合后的输出O1。或者,在一示例性实施例中,所述融合处理网络还可包括第十二卷积块,该第十二卷积块的结构与第十卷积块、第十一卷积块的结构均相同,通过第十二卷积块再进行一次学习。
在一示例性实施例中,基于深度学习的重建处理网络如图5所示,包括第十三卷积块、第十四卷积块、第十五卷积块、第十六卷积块和第十七卷积块。所述融合处理网络的输出O1为第十三卷积块的输入,第十三卷积块的输出为第十四卷积块的输入,第十四卷积块的输出与第十三卷积块的输出之和作为第十五卷积块的输入,第十五卷积块的输出与第十三卷积块的输出以及与第十四卷积块的输出之和作为第十六卷积块的输入,第十六卷积块的输出为第十七卷积块的输入,第十七卷积块的输出为所述重建处理网络的输出O2。
其中,第十三卷积块、第十四卷积块和第十五卷积块中每个卷积块的结构均包括卷积层和激活层。其中,卷积层采用conv2d函数实现,卷积核为3×3,通道数为64,激活层采用relu函数实现。第十六卷积块包括第十六卷积层和第十六激活层,其中,第十六卷积层采用反卷积(convTranspose2d)函数,通过向上采样实现超分。第十七卷积块包括第十七卷积层和第十七激活层,第十七卷积层采用conv2d函数实现,卷积核为3×3,通道数为64,第十七激活层采用relu函数实现。
在本实施例中,以向上采样2倍为例,在其他实施例中,还可以是4倍、8倍或16倍,只需要多进行几次上采样即可。在一些示例性实施例中,可以是3倍超分,可以先按4倍超分处理,再用传统方法进行缩小,或者先对原图先进行一个1.5倍传统算法超分,再通过本公开实施例方法实现2倍超分。
在其他实施例中,所述重建处理网络中,在第十六卷积块之前可以包括两个第十三卷积块,一个第十四卷积块,即不包括第十五卷积块。或者所述重建处理网络中,在第十六卷积块之前可以包括两个第十三卷积块、一个第十四卷积块和一个第十五卷积块。或者所述重建处理网络中,在第十六卷积块之前,在第十六卷积块之前包括一个第十三卷积块、一个第十四卷积块和两个第十五卷积块。
本实施例中提到的卷积块可以认为是一个卷积神经网络。卷积神经网络是神经网络的一种特殊结构,将图像作为系统的输入和输出,并用卷积核替代标量的权值。一个三层结构的卷积神经网络如图6所示。图6所示网络具有4个输入,隐藏层中具有3个输出,输出层含有2个输出,最终系统输出两幅图像。图中每个模块表示一个卷积核。k表示输入层编号,i和j表示输入和输出的单位编号。偏置是一组叠加在卷积层输出上的标量。叠加了偏置的卷积层输出会进入到激活层(例如relu或者sigmoid函数)。经过训练后,系统的卷积核和偏置是固定的。训练是通过一组匹配的输入输出以及优化算法对卷积核和偏置进行参数调优。通常情况下每个卷积层可包含数十个或数百个卷积核,本实施例中以卷积核个数为64为例。
本公开实施例还提供一种模型蒸馏方法,所述模型蒸馏是指将一个大模型或者多个模型学到的知识迁移到一个轻量级单模型上,以方便部署。即用用新的小模型去学习大模型的预测结果。如图7所示,所述模型蒸馏方法包括以下步骤:
步骤21,采用前述超分辨率重建方法得到超分辨率重建后的重建图像;
如前所述,该超分辨率重建方法的输入为时间上连续的三帧,以三帧中的中间帧作为参考帧得到超分辨率重建后的图像。实现上述超分辨率重建方法的神经网络即为学生(student)模型。
步骤22,使用teacher模型得到预测图像;
teacher模型为原生的复杂网络模型,可以是任意的用于实现超分辨率重建的原生模型,根据不同的原生模型输入可以是1帧或者多帧。
上述步骤21和步骤22的执行顺序不限。
步骤23,计算重建图像与预测图像的损失函数,当损失函数符合预设损失函数要求时,模型蒸馏完成,即所述学生模型训练完成。
使用Student模型的输出和Teacher模型的输出计算损失函数(loss),进行学生模型参数更新,以实现所述学生模型的训练。所述损失函数可采用L2损失函数。损失函数符合预设损失函数要求例如是损失函数结果小于预设的损失函数阈值时,所述学生模型训练完毕。
在一种示例性实施例中,本公开还提供了一种图像处理装置,可以包括处理器和存储器,所述存储器存储有可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现本公开上述任一实施例中的图像超分辨率重建方法或模型蒸馏方法的步骤。
在一种示例性实施例中,图8为本公开实施例中的图像处理装置的结构示意图。如图8所示,该装置60包括:至少一个处理器601;以及与处理器601连接的至少一个存储器602、总线603;其中,处理器601、存储器602通过总线603完成相互间的通信;处理器601用于调用存储器602中的程序指令,以执行上述任一实施例中方法的步骤。
处理器可以是中央处理单元(Central Processing Unit,CPU)、微处理器(MicroProcessor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)、晶体管逻辑器件等,本公开对此不做限定。
存储器可以包括只读存储器(Read Only Memory,ROM)和随机存取存储器(RandomAccess Memory,RAM),并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
总线除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图8中将各种总线都标为总线。
在实现过程中,处理设备所执行的处理可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例的方法步骤可以体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
在一示例性实施例中,本公开实施例还提供了一种非易失性计算机可读存储介质,其上存储有可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现前述图像超分辨率重建方法或模型蒸馏方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本公开所揭露的实施方式如上,但所述的内容仅为便于理解本公开而采用的实施方式,并非用以限定本公开。任何本公开所属领域内的技术人员,在不脱离本公开所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本公开的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (13)
1.一种图像超分辨率重建方法,其特征在于,包括:
对输入的时间上连续的至少三帧原始图像进行特征提取,得到至少三个待处理图像,每一个待处理图像对应一帧原始图像;
以所述至少三个待处理图像中的一个图像作为参考图像,采用基于深度学习的对齐处理网络将所述待处理图像与所述参考图像进行数据对齐,输出多个对齐帧;
采用基于深度学习的融合处理网络对所述多个对齐帧进行数据融合;
采用基于深度学习的重建处理网络对数据融合后的图像进行向上采样以实现图像超分辨率重建。
2.根据权利要求1所述的方法,其特征在于,所述以所述至少三个待处理图像中的一个图像作为参考图像,采用基于深度学习的对齐处理网络将所述待处理图像与所述参考图像进行数据对齐,输出多个对齐帧,包括:
将所述至少三个待处理图像中的中间待处理图像作为参考图像,所述中间待处理图像对应所述时间上连续的至少三帧原始图像中的中间帧,采用基于深度学习的对齐处理网络将第一待处理图像与第二待处理图像进行数据对齐,得到第一对齐帧,采用基于深度学习的对齐处理网络对第二待处理图像进行处理,得到第二对齐帧,采用基于深度学习的对齐处理网络将第二待处理图像与第三待处理图像进行数据对齐,得到第三对齐帧。
3.根据权利要求1或2所述的方法,其特征在于,所述基于深度学习的对齐处理网络包括:第一卷积块、第二卷积块、第三卷积块、第四卷积块和第五卷积块,其中:
第一卷积块包括第一拼接层,第一卷积层和第一激活层,第一卷积块的输入包括第一输入图像和第二输入图像;
第二卷积块包括第二拼接层,第二卷积层和第二激活层,第二卷积块的输入包括第一卷积块的输出和第一输入图像;
第三卷积块包括第三拼接层,第三卷积层和第三激活层,第三卷积块的输入包括第二卷积块的输出和第一输入图像;
第四卷积块包括第四拼接层,第四卷积层和第四激活层,第四卷积块的输入包括第三卷积块的输出和第二输入图像;
第五卷积块包括第五拼接层,第五卷积层和第五激活层,第五卷积块的输入包括第四卷积块的输出和第二输入图像;第五卷积块的输出为所述对齐处理网络的输出。
4.根据权利要求3所述的方法,其特征在于,其中,
所述第一拼接层、第二拼接层、第三拼接层、第四拼接层和第五拼接层采用concat函数实现;
所述第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层采用conv2d函数实现,卷积核大小为3×3,通道数为64;
所述第一激活层、第二激活层、第三激活层、第四激活层和第五激活层采用relu函数实现。
5.根据权利要求1或2所述的方法,其特征在于,其中,所述基于深度学习的融合处理网络包括第七卷积块、第八卷积块,第九卷积块,第十卷积块和第十一卷积块,其中:
所述第七卷积块的输入包括第一对齐帧和第二对齐帧,第七卷积块的输出作为第九卷积块的第一输入;
所述第八卷积块的输入包括第二对齐帧和第三对齐帧,第八卷积块的输出作为第九卷积块的第二输入;
所述第九卷积块的输出为第十卷积块的输入,第十卷积块的输出为第十一卷积块的输入,第十一卷积块的输出为所述融合处理网络的输出。
6.根据权利要求5所述的方法,其特征在于,其中,
第七卷积块、第八卷积块和第九卷积块中每个卷积块的结构包括拼接层、卷积层和激活层;第十卷积块和第十一卷积块中每个卷积块的结构包括卷积层和激活层;其中,第七卷积块、第八卷积块和第九卷积块中每个卷积块的拼接层采用concat函数实现,第七卷积块、第八卷积快、第九卷积块、第十卷积块和第十一卷积块中每个卷积块的卷积层采用conv2d函数实现,卷积核为3×3,通道数为64;第七卷积块、第八卷积块、第九卷积块、第十卷积块和第十一卷积块中每个卷积块的激活层采用relu函数。
7.根据权利要求1或2所述的方法,其特征在于,其中,所述基于深度学习的融合处理网络包括第十三卷积块、第十四卷积块、第十五卷积块、第十六卷积块和第十七卷积块,其中:
所述融合处理网络的输出为所述第十三卷积块的输入,第十三卷积块的输出为第十四卷积块的输入,第十四卷积块的输出与第十三卷积块的输出之和作为第十五卷积块的输入,第十五卷积块的输出与第十三卷积块的输出以及与第十四卷积块的输出之和作为第十六卷积块的输入,第十六卷积块的输出为第十七卷积块的输入,第十七卷积块的输出为所述重建处理网络的输出。
8.根据权利要求7所述的方法,其特征在于,其中,
所述第十三卷积块、第十四卷积块和第十五卷积块中每个卷积块的结构包括卷积层和激活层,其中,所述卷积层采用conv2d函数实现,卷积核为3×3,通道数为64;所述激活层采用relu函数实现;
所述第十六卷积块包括第十六卷积层和第十六激活层,其中,第十六卷积层采用反卷积函数实现超分;
第十七卷积块包括第十七卷积层和第十七激活层,第十七卷积层采用conv2d函数实现,卷积核为3×3,通道数为64,第十七激活层采用relu函数实现。
9.根据权利要求1所述的方法,其特征在于,其中,对输入的时间上连续的至少三帧原始图像进行特征提取,包括,采用基于深度学习的预处理网络对时间上连续的至少三帧原始图像进行特征提取,所述基于深度学习的预处理网络包括预处理拼接层,预处理卷积层和预处理激活层,其中:
预处理拼接层,用于将输入的原始图像在一个维度上进行拼接;
预处理卷积层,用于提取拼接后图像的局部特征;
预处理激活层,用于对所述预处理卷积层卷积后得到的特征图进行非线性映射。
10.根据权利要求9所述的方法,其特征在于,其中,
所述预处理拼接层采用concat函数实现;所述预处理拼接层采用conv2d函数实现;所述预处理激活层采用relu函数实现。
11.一种模型蒸馏方法,包括,采用如权利要求1-10中任一项所述方法获得超分辨率重建后的重建图像,采用教师模型得到预测图像,计算所述重建图像与预测图像的损失函数,当损失函数符合预设损失函数要求时,模型蒸馏完成。
12.一种图像处理装置,包括处理器以及存储有可在处理器上运行的计算机程序的存储器,其中,所述处理器执行所述程序时实现如权利要求1至10或11中任一项所述方法的步骤。
13.一种计算机可读存储介质,其特征在于,其上存储有可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至10或11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039733.6A CN112767247A (zh) | 2021-01-13 | 2021-01-13 | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039733.6A CN112767247A (zh) | 2021-01-13 | 2021-01-13 | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112767247A true CN112767247A (zh) | 2021-05-07 |
Family
ID=75699947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039733.6A Pending CN112767247A (zh) | 2021-01-13 | 2021-01-13 | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767247A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642654A (zh) * | 2021-08-16 | 2021-11-12 | 北京百度网讯科技有限公司 | 图像特征的融合方法、装置、电子设备和存储介质 |
CN113938575A (zh) * | 2021-07-23 | 2022-01-14 | 东莞理工学院 | 一种视频超分辨率重构方法、装置、终端设备及存储介质 |
CN114972768A (zh) * | 2022-05-27 | 2022-08-30 | 吉林大学 | 图像处理方法及装置、介质及终端 |
WO2023202200A1 (zh) * | 2022-04-19 | 2023-10-26 | 京东方科技集团股份有限公司 | 一种重建hdr图像的方法、终端及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570353A (zh) * | 2019-08-27 | 2019-12-13 | 天津大学 | 密集连接生成对抗网络单幅图像超分辨率重建方法 |
CN110942424A (zh) * | 2019-11-07 | 2020-03-31 | 昆明理工大学 | 一种基于深度学习的复合网络单图像超分辨率重建方法 |
CN111161150A (zh) * | 2019-12-30 | 2020-05-15 | 北京工业大学 | 一种基于多尺度注意级联网络的图像超分辨率重建方法 |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN111476719A (zh) * | 2020-05-06 | 2020-07-31 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
CN111681233A (zh) * | 2020-06-11 | 2020-09-18 | 北京小白世纪网络科技有限公司 | 基于深度神经网络的us-ct图像分割方法、系统及设备 |
CN111915484A (zh) * | 2020-07-06 | 2020-11-10 | 天津大学 | 基于密集匹配与自适应融合的参考图引导超分辨率方法 |
CN112102163A (zh) * | 2020-08-07 | 2020-12-18 | 南京航空航天大学 | 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法 |
US20210042488A1 (en) * | 2018-11-14 | 2021-02-11 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for processing encoded pattern, storage medium, and electronic apparatus |
-
2021
- 2021-01-13 CN CN202110039733.6A patent/CN112767247A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210042488A1 (en) * | 2018-11-14 | 2021-02-11 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for processing encoded pattern, storage medium, and electronic apparatus |
CN110570353A (zh) * | 2019-08-27 | 2019-12-13 | 天津大学 | 密集连接生成对抗网络单幅图像超分辨率重建方法 |
CN110942424A (zh) * | 2019-11-07 | 2020-03-31 | 昆明理工大学 | 一种基于深度学习的复合网络单图像超分辨率重建方法 |
CN111161150A (zh) * | 2019-12-30 | 2020-05-15 | 北京工业大学 | 一种基于多尺度注意级联网络的图像超分辨率重建方法 |
CN111325751A (zh) * | 2020-03-18 | 2020-06-23 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
CN111476719A (zh) * | 2020-05-06 | 2020-07-31 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN111681233A (zh) * | 2020-06-11 | 2020-09-18 | 北京小白世纪网络科技有限公司 | 基于深度神经网络的us-ct图像分割方法、系统及设备 |
CN111915484A (zh) * | 2020-07-06 | 2020-11-10 | 天津大学 | 基于密集匹配与自适应融合的参考图引导超分辨率方法 |
CN112102163A (zh) * | 2020-08-07 | 2020-12-18 | 南京航空航天大学 | 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113938575A (zh) * | 2021-07-23 | 2022-01-14 | 东莞理工学院 | 一种视频超分辨率重构方法、装置、终端设备及存储介质 |
CN113938575B (zh) * | 2021-07-23 | 2023-06-13 | 东莞理工学院 | 一种视频超分辨率重构方法、装置、终端设备及存储介质 |
CN113642654A (zh) * | 2021-08-16 | 2021-11-12 | 北京百度网讯科技有限公司 | 图像特征的融合方法、装置、电子设备和存储介质 |
CN113642654B (zh) * | 2021-08-16 | 2022-08-30 | 北京百度网讯科技有限公司 | 图像特征的融合方法、装置、电子设备和存储介质 |
WO2023202200A1 (zh) * | 2022-04-19 | 2023-10-26 | 京东方科技集团股份有限公司 | 一种重建hdr图像的方法、终端及电子设备 |
CN114972768A (zh) * | 2022-05-27 | 2022-08-30 | 吉林大学 | 图像处理方法及装置、介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767247A (zh) | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
US10861133B1 (en) | Super-resolution video reconstruction method, device, apparatus and computer-readable storage medium | |
Jiang et al. | Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation | |
CN110059710B (zh) | 用于利用卷积神经网络进行图像分类的装置和方法 | |
EP3839875B1 (en) | Method and apparatus for correcting distorted document image | |
US11189013B2 (en) | Image processing apparatus, image processing method thereof, image processing system, and training method thereof | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
US20180315165A1 (en) | Apparatus for upscaling an image, method for training the same, and method for upscaling an image | |
CN108492249B (zh) | 基于小卷积递归神经网络的单帧超分辨重建方法 | |
CN109034198B (zh) | 基于特征图恢复的场景分割方法和系统 | |
CN113658189B (zh) | 一种跨尺度特征融合的实时语义分割方法和系统 | |
KR102092205B1 (ko) | 초해상화, 역톤매핑 및 동시 초해상화-역톤매핑 처리된 다중 출력 이미지를 생성하는 이미지 처리 방법 및 장치 | |
CN115082306A (zh) | 一种基于蓝图可分离残差网络的图像超分辨率方法 | |
Wang et al. | Residual deep attention mechanism and adaptive reconstruction network for single image super-resolution | |
CN115018059B (zh) | 数据处理方法及装置、神经网络模型、设备、介质 | |
CN109064435B (zh) | 一种基于多光谱影像的Gram-Schmdit融合快速处理方法 | |
Esmaeilzehi et al. | EFFRBNet: A deep super resolution network using edge-assisted feature fusion residual blocks | |
CN116029905A (zh) | 一种基于渐进差值互补的人脸超分辨率重构方法及系统 | |
Tang et al. | Context module based multi-patch hierarchical network for motion deblurring | |
CN113077389A (zh) | 一种基于信息蒸馏结构的红外热成像方法 | |
CN115735224A (zh) | 非抽取的图像处理方法及装置 | |
KR102153786B1 (ko) | 선택 유닛을 이용한 이미지 처리 방법 및 장치 | |
CN113255675A (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
WO2023061465A1 (en) | Methods, systems, and media for computer vision using 2d convolution of 4d video data tensors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |