CN116797462A - 基于深度学习的实时视频超分辨率重建方法 - Google Patents

基于深度学习的实时视频超分辨率重建方法 Download PDF

Info

Publication number
CN116797462A
CN116797462A CN202311046250.4A CN202311046250A CN116797462A CN 116797462 A CN116797462 A CN 116797462A CN 202311046250 A CN202311046250 A CN 202311046250A CN 116797462 A CN116797462 A CN 116797462A
Authority
CN
China
Prior art keywords
image
resolution
video image
low
resolution video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311046250.4A
Other languages
English (en)
Other versions
CN116797462B (zh
Inventor
刘崇硕
雷鸣
林树洽
左海福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yousen Beauty Technology Development Co ltd
Original Assignee
Shenzhen Yousen Beauty Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yousen Beauty Technology Development Co ltd filed Critical Shenzhen Yousen Beauty Technology Development Co ltd
Priority to CN202311046250.4A priority Critical patent/CN116797462B/zh
Publication of CN116797462A publication Critical patent/CN116797462A/zh
Application granted granted Critical
Publication of CN116797462B publication Critical patent/CN116797462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明的目的是提供基于深度学习的实时视频超分辨率重建方法,涉及图像处理技术领域,所述方法执行以下步骤:步骤1:循环执行次低分辨率图像重构;步骤2:实时获取目标低分辨率视频图像;计算目标低分辨率视频图像的每一图像帧的模糊度,以及计算目标低分辨率视频图像的全部图像帧的归一化模糊度;步骤3:针对目标低分辨率视频图像的每一图像帧的模糊度;步骤4:针对目标低分辨率视频图像的全部图像帧的归一化模糊度,遍历个低分辨率视频图像;步骤5:分别计算第一高分辨率视频图像和第二高分辨率视频图像的所有图像帧的总和失真程度;本发明通过循环执行低分辨率图像重构和模板匹配,实现高质量的图像和视频重建。

Description

基于深度学习的实时视频超分辨率重建方法
技术领域
本发明涉及图像处理技术领域,尤其涉及基于深度学习的实时视频超分辨率重建方法。
背景技术
随着数字图像和视频应用的普及和发展,对高质量图像和视频的需求日益增加。然而,由于设备限制和传输带宽的限制,很多情况下我们只能获得低分辨率的图像或视频。因此,提高低分辨率图像和视频的质量,实现高分辨率重建,成为了一个热门的研究领域。
在现有技术中,一种常见的方法是使用插值算法进行图像或视频的放大。这些插值算法包括最邻近插值、双线性插值和双三次插值等。最邻近插值算法简单快速,但放大结果会出现锯齿状的边缘;双线性插值算法可以平滑图像,但仍然存在一定程度的模糊;而双三次插值算法能够更好地保持图像的细节,但计算复杂度较高。这些插值算法虽然在一定程度上提高了图像的观感质量,但对于重建高分辨率图像仍然存在一定的局限性。
另一种常见的方法是使用超分辨率技术。超分辨率技术通过利用图像或视频中的空间和时间上的冗余信息,试图从低分辨率输入重建出高分辨率图像或视频。其中,基于插值的超分辨率方法通过先对低分辨率图像进行插值处理,再使用一些降噪或增强方法进行后处理,以提高图像的清晰度和细节。基于深度学习的超分辨率方法通过训练神经网络模型,学习低分辨率图像和对应的高分辨率图像之间的映射关系,从而实现高质量的重建结果。
然而,现有技术中存在一些问题。首先,基于插值的方法虽然简单,但无法充分利用图像或视频中的细节信息,重建结果往往缺乏真实感。其次,基于深度学习的超分辨率方法需要大量的训练样本和计算资源,模型的训练和推理时间较长,对硬件设备和计算能力要求较高。此外,一些超分辨率方法在重建过程中可能会引入一定的伪影或失真,降低了重建图像的质量。
发明内容
有鉴于此,本发明的主要目的在于提供基于深度学习的实时视频超分辨率重建方法,本发明通过循环执行低分辨率图像重构和模板匹配,实现高质量的图像和视频重建。
为达到上述目的,本发明的技术方案是这样实现的:
基于深度学习的实时视频超分辨率重建方法,所述方法执行以下步骤:
步骤1:循环执行次低分辨率图像重构,具体包括:获取用于训练的高分辨率视频图像;将高分辨率视频图像中的每一高分辨率视频图像帧输入到低分辨率重构模型中,得到其对应的低分辨率视频图像帧,进而得到高分辨率视频图像对应的第一低分辨率视频图像,并计算第一低分辨率视频图像的每一图像帧的模糊度和全部图像帧的归一化模糊度;然后将第一分辨率视频图像输入到低分辨率重构模型中,得到其对应的第二低分辨率视频图像,并计算第二低分辨率视频图像的每一图像帧的模糊度和全部图像帧的归一化模糊度;循环执行/>次后,得到/>个低分辨率视频图像和其每一图像帧的模糊度和全部图像帧的归一化模糊度;所述/>个低分辨率视频图像分别为:第一低分辨率视频图像、第二低分辨率视频图像,…,第/>低分辨率视频图像;
步骤2:实时获取目标低分辨率视频图像;计算目标低分辨率视频图像的每一图像帧的模糊度,以及计算目标低分辨率视频图像的全部图像帧的归一化模糊度;
步骤3:针对目标低分辨率视频图像的每一图像帧的模糊度,在个低分辨率视频图像中遍历所有图像帧的模糊度,找到图像帧的模糊度与其差异值最小的图像帧所对应的低分辨率视频图像,若该低分辨率视频图像为第/>低分辨率视频图像,则将目标低分辨率视频图像中对应的图像帧循环/>次输入到高分辨率重构模型中,得到目标高分辨率图像帧;最后,基于得到的所有的目标高分辨率图像帧,得到目标低分辨率视频图像的第一高分辨率视频图像;
步骤4:针对目标低分辨率视频图像的全部图像帧的归一化模糊度,遍历个低分辨率视频图像,找到全部图像帧的归一化模糊度与其差异值最小时所对应的低分辨率视频图像,若该低分辨率视频图像为第/>低分辨率视频图像,则将该目标低分辨率视频图像的所有图像帧循环/>次输入到高分辨率重构模型中,得到目标低分辨率视频图像的第二高分辨率视频图像;
步骤5:分别计算第一高分辨率视频图像和第二高分辨率视频图像的所有图像帧的总和失真程度;若第一高分辨率视频图像的总和失真程度高于第二高分辨率视频图像的总和失真程度,则将第二高分辨率视频图像作为最终的重建图像;否则,则将第一高分辨率视频图像作为最终的重建图像。
进一步的,所述低分辨率重构模型基于深度学习的卷积神经网络建立得到,所述低分辨率重构模型的执行过程包括:采样、压缩编码、解压缩编码和双三次差值运算;所述低分辨率重构模型的构建过程具体包括:获取训练用视频图像;将训练用视频图像中的图像帧首先进行采样,得到采样视频图像;将采样视频图像进行压缩编码,得到压缩图像;然后将压缩图像进行解压缩编码,得到解压缩图像;将解压缩图像进行双三次差值运算,得到训练低分辨率视频图像帧;设定目标函数,所述目标函数用于计算训练低分辨率视频图像帧的边缘模糊度与预设的边缘模糊度的差值,若差值超过设定的阈值,则重新调整采样、压缩编码、解压缩编码和双三次差值运算的参数值,直到差值在设定的阈值范围内。
进一步的,所述低分辨率重构模型执行采样的过程,具体包括:使用如下公式,计算输入的视频图像的图像帧的采样点:
其中,代表采样点,/>是输入的视频图像的图像帧的原始像素,/>是sinc函数,/>是采样周期,/>是采样时刻,/>是样本点索引;/>是图像的亮度值;
基于计算出的采样点,对输入的视频图像的图像帧进行采样。
进一步的,所述低分辨率重构模型执行压缩编码时,所使用的压缩编码函数使用如下公式进行表示:
其中,是进行采样后的视频图像的图像帧,/>是网络权重,通过训练过程中的反向传播和梯度下降的优化算法学习得到;/>是偏置项,通过训练过程中的反向传播和梯度下降的优化算法学习得到的,为决策边界的偏移量;/>是激活函数,/>为压缩编码输出。
进一步的,所述低分辨率重构模型执行解压缩编码时,所使用的解压缩编码函数使用如下公式进行表示:
其中,是网络权重,通过训练过程中的反向传播和梯度下降的优化算法学习得到;/>是偏置项,通过训练过程中的反向传播和梯度下降的优化算法学习得到,为决策边界的偏移量;/>是激活函数,/>为解压缩编码输出。
进一步的,所述低分辨率重构模型执行解压缩编码时,首先将解压缩编码输出通过基于邻近像素的插值方法处理,得到解压缩编码输出中的每个像素值;每个像素值由周围4x4的像素块组成的16个像素的像素值的加权平均值得到;再使用双三次差值运算得到低分辨率视频图像帧;所述双三次差值运算使用如下公式进行表示:
其中,是低分辨率视频图像帧在坐标/>的像素值,/>和/>是坐标/>的整数部分;/>是通过16个临近像素点计算得出的系数,其计算公式为:
其中,是邻域内的像素值,/>和/>是其对应的坐标。
进一步的,所述高分辨率重构模型执行低分辨率重构模型的逆过程,具体包括:双三次差值运算的逆运算、解压缩编码的逆运算、压缩编码的逆运算和逆采样。
进一步的,所述图像帧的模糊度的计算执行以下步骤:将图像帧转换为灰度图像,然后对灰度图像进行二维傅里叶变换,得到频域图像;然后计算频域图像的能量谱密度;基于能量谱密度,计算总能量,作为模糊度。
进一步的,第一高分辨率视频图像或第二高分辨率视频图像的所有图像帧的总和失真程度的计算方法包括:计算第一高分辨率视频图像或第二高分辨率视频图像的每一帧的图像帧的失真程度,然后将所有帧的图像帧的失真程度进行加和运算,得到总和失真程度;所述每一帧的图像帧的失真程度的计算执行以下步骤:将每一帧的图像帧使用滑动窗口法划分为大小相等的局部快;对于每个局部块,计算它与周围邻居块之间的结构相似性指数;通过计算每个局部块与邻居块的结构相似性指数之差的平均得到失真程度。
采用上述技术方案,本发明具备以下有益效果:
提供更高质量的图像和视频重建:传统的插值方法在重建低分辨率图像和视频时常常导致模糊、锯齿和失真等问题。相比之下,本发明的方法通过基于深度学习的实时视频超分辨率重建,能够利用大量的训练数据和强大的学习能力,提供更高质量、更真实、更清晰的高分辨率重建结果。通过循环执行多次低分辨率图像重构和模板匹配,能够更好地还原图像和视频的细节和纹理,提升视觉感受和用户体验。
实现实时处理和低延迟:本发明的方法结合了深度学习和实时处理技术,通过循环执行和模板匹配的策略,能够实现实时视频超分辨率重建。这意味着在视频播放和实时图像处理的场景中,用户可以立即获得高分辨率的图像和视频,无需等待长时间的处理过程。同时,本发明的方法能够保持低延迟,确保图像和视频的快速响应和流畅播放。
适用于各种应用场景:本发明的方法具有广泛的应用潜力,可以应用于多个领域和场景。在监控系统中,能够提高监控图像的清晰度和细节,增强对目标的识别和分析能力。在视频通信和视频会议中,能够提供更高质量的图像传输和展示,提升远程交流的真实感和沟通效果。在医学图像和卫星图像处理中,能够增强图像的分辨率和细节,有助于医学诊断和地理信息分析等领域。
减少传输带宽和存储空间需求:低分辨率图像和视频通常占用较少的传输带宽和存储空间,而高分辨率图像和视频则需要更多的带宽和存储资源。本发明的方法能够将低分辨率图像和视频通过实时超分辨率重建转换为高分辨率图像和视频,从而在不增加传输带宽和存储空间的情况下,提供更高质量的内容呈现和展示。
提升图像和视频分析的准确性:在图像和视频分析领域,高分辨率图像和视频能够提供更多的细节和信息,有助于图像分割、目标检测、行为识别等任务的准确性和可靠性。本发明的方法能够将低分辨率的输入转换为高分辨率的图像和视频,提供更丰富、更准确的数据来源,从而提升图像和视频分析算法的性能和结果的可靠性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的基于深度学习的实时视频超分辨率重建方法的方法流程示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1:参考图1,基于深度学习的实时视频超分辨率重建方法,所述方法执行以下步骤:
步骤1:循环执行次低分辨率图像重构,具体包括:获取用于训练的高分辨率视频图像;将高分辨率视频图像中的每一高分辨率视频图像帧输入到低分辨率重构模型中,得到其对应的低分辨率视频图像帧,进而得到高分辨率视频图像对应的第一低分辨率视频图像,并计算第一低分辨率视频图像的每一图像帧的模糊度和全部图像帧的归一化模糊度;然后将第一分辨率视频图像输入到低分辨率重构模型中,得到其对应的第二低分辨率视频图像,并计算第二低分辨率视频图像的每一图像帧的模糊度和全部图像帧的归一化模糊度;循环执行/>次后,得到/>个低分辨率视频图像和其每一图像帧的模糊度和全部图像帧的归一化模糊度;所述/>个低分辨率视频图像分别为:第一低分辨率视频图像、第二低分辨率视频图像,…,第/>低分辨率视频图像;
步骤2:实时获取目标低分辨率视频图像;计算目标低分辨率视频图像的每一图像帧的模糊度,以及计算目标低分辨率视频图像的全部图像帧的归一化模糊度;
步骤3:针对目标低分辨率视频图像的每一图像帧的模糊度,在个低分辨率视频图像中遍历所有图像帧的模糊度,找到图像帧的模糊度与其差异值最小的图像帧所对应的低分辨率视频图像,若该低分辨率视频图像为第/>低分辨率视频图像,则将目标低分辨率视频图像中对应的图像帧循环/>次输入到高分辨率重构模型中,得到目标高分辨率图像帧;最后,基于得到的所有的目标高分辨率图像帧,得到目标低分辨率视频图像的第一高分辨率视频图像;
步骤4:针对目标低分辨率视频图像的全部图像帧的归一化模糊度,遍历个低分辨率视频图像,找到全部图像帧的归一化模糊度与其差异值最小时所对应的低分辨率视频图像,若该低分辨率视频图像为第/>低分辨率视频图像,则将该目标低分辨率视频图像的所有图像帧循环/>次输入到高分辨率重构模型中,得到目标低分辨率视频图像的第二高分辨率视频图像;
步骤5:分别计算第一高分辨率视频图像和第二高分辨率视频图像的所有图像帧的总和失真程度;若第一高分辨率视频图像的总和失真程度高于第二高分辨率视频图像的总和失真程度,则将第二高分辨率视频图像作为最终的重建图像;否则,则将第一高分辨率视频图像作为最终的重建图像。
具体的,通过循环执行次后,得到/>个低分辨率视频图像,这些低分辨率的视频图像的分辨率均是不同的,执行次数越靠后,其图像的分辨率越低,模糊度越高。因此,通过这种方法,实际上是建立了/>个不同的低分辨率的视频图像模板。从而在对目标低分辨率视频图像进行高分辨率重建时,可以根据模糊度来确定目标低分辨率视频图像对应于哪个层级的低分辨率的视频图像模板。如果目标低分辨率视频图像的模糊度越高,说明其与分辨率低的视频图像模板匹配,从而根据该视频图像匹配模板所处的层级,相对应的执行逆过程。例如,当目标低分辨率视频图像的归一化模糊度与第/>低分辨率视频图像的归一化模糊度最接近时,就可以执行/>次高分辨率重构模型,从而完成高分辨率视频图像的重建。有人,当目标低分辨率视频图像的某一个图像帧的模糊度与第/>低分辨率视频图像的某个图像帧的模糊度最接近时,就可以执行/>次高分辨率重构模型,从而完成该图像帧的高分辨率视频图像帧的重建。
而在最后,通过比较失真程度,第一高分辨率视频图像和第二高分辨率视频图像中进行选择,进一步可以提升最终结果的准确性。
实施例2:所述低分辨率重构模型基于深度学习的卷积神经网络建立得到,所述低分辨率重构模型的执行过程包括:采样、压缩编码、解压缩编码和双三次差值运算;所述低分辨率重构模型的构建过程具体包括:获取训练用视频图像;将训练用视频图像中的图像帧首先进行采样,得到采样视频图像;将采样视频图像进行压缩编码,得到压缩图像;然后将压缩图像进行解压缩编码,得到解压缩图像;将解压缩图像进行双三次差值运算,得到训练低分辨率视频图像帧;设定目标函数,所述目标函数用于计算训练低分辨率视频图像帧的边缘模糊度与预设的边缘模糊度的差值,若差值超过设定的阈值,则重新调整采样、压缩编码、解压缩编码和双三次差值运算的参数值,直到差值在设定的阈值范围内。
具体的,训练过程:模型的训练过程中,首先对训练用的视频图像进行采样,得到采样视频图像。然后对采样视频图像进行压缩编码,得到压缩图像。接着对压缩图像进行解压缩编码,得到解压缩图像。最后对解压缩图像进行双三次差值运算,得到训练低分辨率视频图像帧。这一系列的操作主要是为了将原始的高分辨率图像降维到低分辨率。
优化过程:在模型的优化过程中,设定一个目标函数。这个目标函数的作用是用来计算训练低分辨率视频图像帧的边缘模糊度与预设的边缘模糊度的差值。如果这个差值超过设定的阈值,那么就重新调整四个步骤的参数值,直到差值在设定的阈值范围内。这是一个典型的优化过程,使用目标函数来指导模型的训练和参数的调整。
在低分辨率重构模型的构建过程中,设定了目标函数。该目标函数用于计算训练低分辨率视频图像帧的边缘模糊度与预设的边缘模糊度之间的差值。如果差值超过设定的阈值,则重新调整采样、压缩编码、解压缩编码和双三次差值运算的参数值,直到差值在设定的阈值范围内。这个过程可以看作是对模型参数的优化,以使得生成的低分辨率视频图像帧更接近于预期的边缘模糊度。
通过上述步骤,低分辨率重构模型可以生成训练低分辨率视频图像帧,用于训练过程中的学习和调整参数。通过反复迭代优化,模型可以逐渐提高对低分辨率图像的重建能力,从而实现更好的超分辨率重建效果。
综上所述,该发明描述了基于深度学习的低分辨率重构模型的构建过程,通过采样、压缩编码、解压缩编码和双三次差值运算等步骤,实现对低分辨率图像的重建。通过设定目标函数和参数优化过程,模型能够自适应地调整参数值,以生成更符合预期的低分辨率视频图像帧。这种方法的创造性在于利用深度学习模型实现了对低分辨率图像的高质量重建,并通过参数调整进一步提升重建效果。
目标函数的表达式为:
假设目标低分辨率视频图像的某个图像帧为,其边缘模糊度为/>,结构相似性指数为/>。对于第/>个低分辨率视频图像的某个图像帧/>,其预设的边缘模糊度为/>,预设的结构相似性指数为/>
其中,和/>是权重系数,用于平衡边缘模糊度和结构相似性指数的重要性。
这个目标函数综合考虑了目标低分辨率视频图像与每个低分辨率视频图像模板在边缘模糊度和结构相似性上的差异。通过调整权重系数和/>的值,可以根据具体需求调整边缘模糊度和结构相似性在目标函数中的权重。
实施例3:所述低分辨率重构模型执行采样的过程,具体包括:使用如下公式,计算输入的视频图像的图像帧的采样点:
其中,代表采样点,/>是输入的视频图像的图像帧的原始像素,/>是sinc函数,/>是采样周期,/>是采样时刻,/>是样本点索引;/>是图像的亮度值;
基于计算出的采样点,对输入的视频图像的图像帧进行采样。
公式中的第一部分是一种理想低通滤波器的操作。s是采样时刻,T是采样周期。这部分可以理解为在时域对原始像素序列进行滤波,使用sinc函数作为滤波器的频率响应,保留频率范围为[0,T]内的信号成分,而滤除高频信号。
第二部分是增益调整项,其中/>是图像的亮度值。这一项可以用来调整采样点的幅值范围。
通过将这两部分相乘,就得到了采样点。这个采样点可以被视为降采样后的图像帧的像素值。
在低分辨率重构模型中,根据所计算出的采样点,对输入的视频图像的图像帧进行采样操作,从而降低图像的分辨率。
实施例4:所述低分辨率重构模型执行压缩编码时,所使用的压缩编码函数使用如下公式进行表示:
其中,是进行采样后的视频图像的图像帧,/>是网络权重,通过训练过程中的反向传播和梯度下降的优化算法学习得到;/>是偏置项,通过训练过程中的反向传播和梯度下降的优化算法学习得到的,为决策边界的偏移量;/>是激活函数,/>为压缩编码输出。
具体的,这个公式表示了通过两个全连接层的神经网络对输入的图像帧进行特征提取和编码的过程。首先,输入的图像帧经过第一个全连接层(线性变换加偏置项),然后通过激活函数/>进行非线性映射,得到第一个全连接层的输出。接着,该输出再经过第二个全连接层(线性变换加偏置项),然后再通过激活函数/>进行非线性映射,最终得到压缩编码的输出y。
通过神经网络的学习过程,通过训练数据集进行反向传播和梯度下降的优化算法,可以调整和优化网络的权重参数和偏置项/>,使得压缩编码的输出/>能够更好地表示输入图像帧的特征信息,并实现有效的压缩编码。
实施例5:所述低分辨率重构模型执行解压缩编码时,所使用的解压缩编码函数使用如下公式进行表示:
其中,是网络权重,通过训练过程中的反向传播和梯度下降的优化算法学习得到;/>是偏置项,通过训练过程中的反向传播和梯度下降的优化算法学习得到,为决策边界的偏移量;/>是激活函数,/>为解压缩编码输出。
具体的,这个公式表示了通过两个全连接层的神经网络对输入的编码结果进行解压缩编码的过程。首先,输入的编码结果/>经过第三个全连接层(线性变换加偏置项),然后通过激活函数/>进行非线性映射,得到第三个全连接层的输出。接着,该输出再经过第四个全连接层(线性变换加偏置项),然后再通过激活函数/>进行非线性映射,最终得到解压缩编码的输出/>
通过神经网络的学习过程,通过训练数据集进行反向传播和梯度下降的优化算法,可以调整和优化网络的权重参数和偏置项/>,使得解压缩编码的输出/>能够更好地还原和恢复输入的编码结果/>,实现有效的解压缩编码。
实施例6:所述低分辨率重构模型执行解压缩编码时,首先将解压缩编码输出通过基于邻近像素的插值方法处理,得到解压缩编码输出中的每个像素值;每个像素值由周围4x4的像素块组成的16个像素的像素值的加权平均值得到;再使用双三次差值运算得到低分辨率视频图像帧;所述双三次差值运算使用如下公式进行表示:
其中,是低分辨率视频图像帧在坐标/>的像素值,/>和/>是坐标/>的整数部分;/>是通过16个临近像素点计算得出的系数,其计算公式为:
其中,是邻域内的像素值,/>和/>是其对应的坐标。
实施例7:所述高分辨率重构模型执行低分辨率重构模型的逆过程,具体包括:双三次差值运算的逆运算、解压缩编码的逆运算、压缩编码的逆运算和逆采样。
具体的,双三次差值运算的逆运算:首先对低分辨率视频图像帧进行双三次差值运算的逆运算。这可以通过使用反插值算法来实现,将低分辨率视频图像帧的像素值映射到更高分辨率的位置,从而得到初始的插值后的像素值。
解压缩编码的逆运算:将经过解压缩编码得到的输出进行逆运算,恢复到编码之前的状态。这个逆运算步骤可以通过使用解码器来实现,将解压缩编码的输出反向映射回原始的编码结果。
压缩编码的逆运算:将解压缩编码的逆运算得到的编码结果进行逆运算,恢复到压缩编码之前的状态。这个逆运算步骤可以通过使用解码器来实现,将编码结果反向映射回原始的解压缩编码输出。
逆采样:最后一步是对经过逆运算得到的结果进行逆采样,将图像的分辨率恢复到更高的分辨率。逆采样的过程中,可以使用插值算法,如双线性插值或双三次插值等方法,来根据已有的像素值推算出更多的像素值,以提高图像的分辨率。
实施例8:所述图像帧的模糊度的计算执行以下步骤:将图像帧转换为灰度图像,然后对灰度图像进行二维傅里叶变换,得到频域图像;然后计算频域图像的能量谱密度;基于能量谱密度,计算总能量,作为模糊度。
具体的,转换为灰度图像:将彩色图像转换为灰度图像,可以通过将RGB图像的红色、绿色和蓝色通道进行平均或加权平均来实现。进行傅里叶变换:对灰度图像进行二维离散傅里叶变换(Discrete Fourier Transform,DFT),将图像从空域转换到频域。傅里叶变换的公式如下所示:
其中,是频域中的复数表示,/>是是空域中的像素强度值,/>和/>分别是图像的宽度和高度。
计算频谱能量谱密度:计算频域图像的能量谱密度(Energy Spectral Density,ESD),用于表示不同频率分量的能量分布。ESD的计算公式如下:
其中,表示频域图像的幅度。
计算模糊度指标:使用频谱能量谱密度来计算模糊度指标。一种常见的指标是总能量(Total Energy),可以通过对频谱能量谱密度进行求和得到:
实施例9:第一高分辨率视频图像或第二高分辨率视频图像的所有图像帧的总和失真程度的计算方法包括:计算第一高分辨率视频图像或第二高分辨率视频图像的每一帧的图像帧的失真程度,然后将所有帧的图像帧的失真程度进行加和运算,得到总和失真程度;所述每一帧的图像帧的失真程度的计算执行以下步骤:将每一帧的图像帧使用滑动窗口法划分为大小相等的局部快;对于每个局部块,计算它与周围邻居块之间的结构相似性指数;通过计算每个局部块与邻居块的结构相似性指数之差的平均得到失真程度。
具体的,划分图像为局部块:将图像划分为大小相等的局部块,可以使用滑动窗口或其他方法。假设每个局部块的大小为
计算块之间的相似性:对于每个局部块,计算它与周围邻居块之间的相似性。这里使用结构相似性指数(Structural Similarity Index,SSIM)作为相似性度量。SSIM 的计算公式如下所示:
其中,和/>分别表示两个局部块,/>和/>是它们的均值,/>和/>是它们的方差,是它们的协方差,/>和/>是常数,用于稳定计算。
计算失真程度指标:通过比较每个局部块与其邻居块之间的相似性,可以计算图像的失真程度指标。一种常见的指标是均方误差(Mean Squared Error,MSE),可以通过计算每个局部块与邻居块的SSIM值之差的平均来得到:
其中,是局部块的总数,/>和/>分别表示局部块和其邻居块。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (9)

1.基于深度学习的实时视频超分辨率重建方法,其特征在于,所述方法执行以下步骤:
步骤1:循环执行次低分辨率图像重构,具体包括:获取用于训练的高分辨率视频图像;将高分辨率视频图像中的每一高分辨率视频图像帧输入到低分辨率重构模型中,得到其对应的低分辨率视频图像帧,进而得到高分辨率视频图像对应的第一低分辨率视频图像,并计算第一低分辨率视频图像的每一图像帧的模糊度和全部图像帧的归一化模糊度;然后将第一分辨率视频图像输入到低分辨率重构模型中,得到其对应的第二低分辨率视频图像,并计算第二低分辨率视频图像的每一图像帧的模糊度和全部图像帧的归一化模糊度;循环执行/>次后,得到/>个低分辨率视频图像和其每一图像帧的模糊度和全部图像帧的归一化模糊度;所述/>个低分辨率视频图像分别为:第一低分辨率视频图像、第二低分辨率视频图像,…,第/>低分辨率视频图像;
步骤2:实时获取目标低分辨率视频图像;计算目标低分辨率视频图像的每一图像帧的模糊度,以及计算目标低分辨率视频图像的全部图像帧的归一化模糊度;
步骤3:针对目标低分辨率视频图像的每一图像帧的模糊度,在个低分辨率视频图像中遍历所有图像帧的模糊度,找到图像帧的模糊度与其差异值最小的图像帧所对应的低分辨率视频图像,若该低分辨率视频图像为第/>低分辨率视频图像,则将目标低分辨率视频图像中对应的图像帧循环/>次输入到高分辨率重构模型中,得到目标高分辨率图像帧;最后,基于得到的所有的目标高分辨率图像帧,得到目标低分辨率视频图像的第一高分辨率视频图像;
步骤4:针对目标低分辨率视频图像的全部图像帧的归一化模糊度,遍历个低分辨率视频图像,找到全部图像帧的归一化模糊度与其差异值最小时所对应的低分辨率视频图像,若该低分辨率视频图像为第/>低分辨率视频图像,则将该目标低分辨率视频图像的所有图像帧循环/>次输入到高分辨率重构模型中,得到目标低分辨率视频图像的第二高分辨率视频图像;
步骤5:分别计算第一高分辨率视频图像和第二高分辨率视频图像的所有图像帧的总和失真程度;若第一高分辨率视频图像的总和失真程度高于第二高分辨率视频图像的总和失真程度,则将第二高分辨率视频图像作为最终的重建图像;否则,则将第一高分辨率视频图像作为最终的重建图像。
2.如权利要求1所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述低分辨率重构模型基于深度学习的卷积神经网络建立得到,所述低分辨率重构模型的执行过程包括:采样、压缩编码、解压缩编码和双三次差值运算;所述低分辨率重构模型的构建过程具体包括:获取训练用视频图像;将训练用视频图像中的图像帧首先进行采样,得到采样视频图像;将采样视频图像进行压缩编码,得到压缩图像;然后将压缩图像进行解压缩编码,得到解压缩图像;将解压缩图像进行双三次差值运算,得到训练低分辨率视频图像帧;设定目标函数,所述目标函数用于计算训练低分辨率视频图像帧的边缘模糊度与预设的边缘模糊度的差值,若差值超过设定的阈值,则重新调整采样、压缩编码、解压缩编码和双三次差值运算的参数值,直到差值在设定的阈值范围内。
3.如权利要求2所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述低分辨率重构模型执行采样的过程,具体包括:使用如下公式,计算输入的视频图像的图像帧的采样点:
其中,代表采样点,/>是输入的视频图像的图像帧的原始像素,/>是sinc函数,是采样周期,/>是采样时刻,/>是样本点索引;/>是图像的亮度值;
基于计算出的采样点,对输入的视频图像的图像帧进行采样。
4.如权利要求3所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述低分辨率重构模型执行压缩编码时,所使用的压缩编码函数使用如下公式进行表示:
其中,是进行采样后的视频图像的图像帧,/>是网络权重,通过训练过程中的反向传播和梯度下降的优化算法学习得到;/>是偏置项,通过训练过程中的反向传播和梯度下降的优化算法学习得到的,为决策边界的偏移量;/>是激活函数,/>为压缩编码输出。
5.如权利要求4所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述低分辨率重构模型执行解压缩编码时,所使用的解压缩编码函数使用如下公式进行表示:
其中,是网络权重,通过训练过程中的反向传播和梯度下降的优化算法学习得到;/>是偏置项,通过训练过程中的反向传播和梯度下降的优化算法学习得到,为决策边界的偏移量;/>是激活函数,/>为解压缩编码输出。
6.如权利要求5所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述低分辨率重构模型执行解压缩编码时,首先将解压缩编码输出通过基于邻近像素的插值方法处理,得到解压缩编码输出中的每个像素值;每个像素值由周围4x4的像素块组成的16个像素的像素值的加权平均值得到;再使用双三次差值运算得到低分辨率视频图像帧;所述双三次差值运算使用如下公式进行表示:
其中,是低分辨率视频图像帧在坐标/>的像素值,/>和/>是坐标的整数部分;/>是通过16个临近像素点计算得出的系数,其计算公式为:
其中,是邻域内的像素值,/>和/>是其对应的坐标。
7.如权利要求6所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述高分辨率重构模型执行低分辨率重构模型的逆过程,具体包括:双三次差值运算的逆运算、解压缩编码的逆运算、压缩编码的逆运算和逆采样。
8.如权利要求7所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,所述图像帧的模糊度的计算执行以下步骤:将图像帧转换为灰度图像,然后对灰度图像进行二维傅里叶变换,得到频域图像;然后计算频域图像的能量谱密度;基于能量谱密度,计算总能量,作为模糊度。
9.如权利要求8所述的基于深度学习的实时视频超分辨率重建方法,其特征在于,第一高分辨率视频图像或第二高分辨率视频图像的所有图像帧的总和失真程度的计算方法包括:计算第一高分辨率视频图像或第二高分辨率视频图像的每一帧的图像帧的失真程度,然后将所有帧的图像帧的失真程度进行加和运算,得到总和失真程度;所述每一帧的图像帧的失真程度的计算执行以下步骤:将每一帧的图像帧使用滑动窗口法划分为大小相等的局部快;对于每个局部块,计算它与周围邻居块之间的结构相似性指数;通过计算每个局部块与邻居块的结构相似性指数之差的平均得到失真程度。
CN202311046250.4A 2023-08-18 2023-08-18 基于深度学习的实时视频超分辨率重建方法 Active CN116797462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311046250.4A CN116797462B (zh) 2023-08-18 2023-08-18 基于深度学习的实时视频超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311046250.4A CN116797462B (zh) 2023-08-18 2023-08-18 基于深度学习的实时视频超分辨率重建方法

Publications (2)

Publication Number Publication Date
CN116797462A true CN116797462A (zh) 2023-09-22
CN116797462B CN116797462B (zh) 2023-10-24

Family

ID=88048298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311046250.4A Active CN116797462B (zh) 2023-08-18 2023-08-18 基于深度学习的实时视频超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN116797462B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117479019A (zh) * 2023-12-28 2024-01-30 深圳市安佳威视信息技术有限公司 一种网络摄像机视频质量提升方法及系统
CN118228932A (zh) * 2024-05-22 2024-06-21 北京烽火万家科技有限公司 一种基于物联网技术的导学个性化辅助系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254722A (zh) * 2016-07-15 2016-12-21 北京邮电大学 一种视频超分辨率重建方法和装置
CN107274347A (zh) * 2017-07-11 2017-10-20 福建帝视信息科技有限公司 一种基于深度残差网络的视频超分辨率重建方法
CN109102462A (zh) * 2018-08-01 2018-12-28 中国计量大学 一种基于深度学习的视频超分辨率重建方法
CN109671023A (zh) * 2019-01-24 2019-04-23 江苏大学 一种人脸图像超分辨率二次重建方法
CN109727195A (zh) * 2018-12-25 2019-05-07 成都元点智库科技有限公司 一种图像超分辨率重构方法
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN111583112A (zh) * 2020-04-29 2020-08-25 华南理工大学 视频超分辨率的方法、系统、装置和存储介质
CN111937401A (zh) * 2018-04-13 2020-11-13 皇家Kpn公司 基于块级超分辨率的视频编码
CN113920010A (zh) * 2020-07-10 2022-01-11 华为技术有限公司 图像帧的超分辨率实现方法和装置
US20220261960A1 (en) * 2020-05-21 2022-08-18 Tencent Technology (Shenzhen) Company Limited Super-resolution reconstruction method and related apparatus
CN116597033A (zh) * 2023-05-15 2023-08-15 中国工商银行股份有限公司 图像重建方法、装置、设备和介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254722A (zh) * 2016-07-15 2016-12-21 北京邮电大学 一种视频超分辨率重建方法和装置
US10701394B1 (en) * 2016-11-10 2020-06-30 Twitter, Inc. Real-time video super-resolution with spatio-temporal networks and motion compensation
CN107274347A (zh) * 2017-07-11 2017-10-20 福建帝视信息科技有限公司 一种基于深度残差网络的视频超分辨率重建方法
CN111937401A (zh) * 2018-04-13 2020-11-13 皇家Kpn公司 基于块级超分辨率的视频编码
CN109102462A (zh) * 2018-08-01 2018-12-28 中国计量大学 一种基于深度学习的视频超分辨率重建方法
CN109727195A (zh) * 2018-12-25 2019-05-07 成都元点智库科技有限公司 一种图像超分辨率重构方法
CN109671023A (zh) * 2019-01-24 2019-04-23 江苏大学 一种人脸图像超分辨率二次重建方法
CN111583112A (zh) * 2020-04-29 2020-08-25 华南理工大学 视频超分辨率的方法、系统、装置和存储介质
US20220261960A1 (en) * 2020-05-21 2022-08-18 Tencent Technology (Shenzhen) Company Limited Super-resolution reconstruction method and related apparatus
CN113920010A (zh) * 2020-07-10 2022-01-11 华为技术有限公司 图像帧的超分辨率实现方法和装置
CN116597033A (zh) * 2023-05-15 2023-08-15 中国工商银行股份有限公司 图像重建方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARMIN KAPPELER ET AL.: "Video super-resolution with convolutional neural networks", 《IEEE》, pages 109 - 122 *
黄扬鈚: "基于卷积神经网络的实时视频超分辨率重建系统设计", 《中国优先硕士学位论文全文数据库信息科技辑》, pages 1 - 60 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117479019A (zh) * 2023-12-28 2024-01-30 深圳市安佳威视信息技术有限公司 一种网络摄像机视频质量提升方法及系统
CN117479019B (zh) * 2023-12-28 2024-03-22 深圳市安佳威视信息技术有限公司 一种网络摄像机视频质量提升方法及系统
CN118228932A (zh) * 2024-05-22 2024-06-21 北京烽火万家科技有限公司 一种基于物联网技术的导学个性化辅助系统

Also Published As

Publication number Publication date
CN116797462B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN106952228B (zh) 基于图像非局部自相似性的单幅图像的超分辨率重建方法
CN109064396B (zh) 一种基于深度成分学习网络的单幅图像超分辨率重建方法
CN116797462B (zh) 基于深度学习的实时视频超分辨率重建方法
CN106709875B (zh) 一种基于联合深度网络的压缩低分辨率图像复原方法
CN110490832B (zh) 一种基于正则化深度图像先验方法的磁共振图像重建方法
Zhang et al. CCR: Clustering and collaborative representation for fast single image super-resolution
CN103871041B (zh) 基于认知正则化参数构建的图像超分辨率重构方法
CN106127688B (zh) 一种超分辨率图像重建方法及其系统
CN112419151A (zh) 图像退化处理方法、装置、存储介质及电子设备
Liu et al. IPAD: Intensity potential for adaptive de-quantization
WO2014070273A1 (en) Recursive conditional means image denoising
CN115578255B (zh) 一种基于帧间亚像素块匹配的超分辨率重建方法
Jakhetiya et al. Maximum a posterior and perceptually motivated reconstruction algorithm: A generic framework
Makwana et al. Single image super-resolution via iterative back projection based Canny edge detection and a Gabor filter prior
CN115984117A (zh) 基于通道注意力的变分自编码图像超分辨率方法及系统
CN103903239B (zh) 一种视频超分辨率重建方法及其系统
CN108492264B (zh) 一种基于sigmoid变换的单帧图像快速超分辨方法
Cao et al. Oodhdr-codec: Out-of-distribution generalization for hdr image compression
CN116095291B (zh) 一种用于媒体流图像传输的图像预处理方法
US8897378B2 (en) Selective perceptual masking via scale separation in the spatial and temporal domains using intrinsic images for use in data compression
CN115456912A (zh) 一种基于多尺度wls滤波融合的色调映射方法
CN113935928B (zh) 基于Raw格式岩心图像超分辨率重建
CN110648291B (zh) 一种基于深度学习的无人机运动模糊图像的复原方法
Zhang et al. Bilateral upsampling network for single image super-resolution with arbitrary scaling factors
Kumar et al. A novel method for image compression using spectrum

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant