CN113506219A - 视频超分辨模型的训练方法和装置 - Google Patents

视频超分辨模型的训练方法和装置 Download PDF

Info

Publication number
CN113506219A
CN113506219A CN202110790165.3A CN202110790165A CN113506219A CN 113506219 A CN113506219 A CN 113506219A CN 202110790165 A CN202110790165 A CN 202110790165A CN 113506219 A CN113506219 A CN 113506219A
Authority
CN
China
Prior art keywords
video
loss function
output image
quality
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110790165.3A
Other languages
English (en)
Inventor
丁予康
蔡晓霞
黄晓政
闻兴
戴宇荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110790165.3A priority Critical patent/CN113506219A/zh
Publication of CN113506219A publication Critical patent/CN113506219A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Television Systems (AREA)

Abstract

本公开提供一种视频超分辨模型的训练方法和装置。视频超分辨模型包括重构器、生成器和判别器,训练方法包括:获取包括多个第一质量的视频帧的视频帧训练样本;由重构器对第二质量的视频帧进行去噪处理来获得第一输出图像,其中,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的;计算第一损失函数;由生成器对第一输出图像进行超分辨处理来获得第二输出图像;计算第二损失函数;计算第三损失函数;根据第一损失函数、第二损失函数和第三损失函数分别调整重构器、生成器和判别器的模型参数来对视频超分辨模型进行训练。

Description

视频超分辨模型的训练方法和装置
技术领域
本公开涉及视频处理领域,尤其涉及一种视频超分辨模型的训练方法和装置。
背景技术
在相关技术中,视频超分辨(Super Resolution,SR)算法在视频领域有着重要作用,能够将低质量、低分辨率的视频处理得到高质量、高分辨率的视频,提升视频分辨率同时,增强视频纹理细节,提升视频主观质量。目前基于深度学习的超分辨算法已经成为主流的超分辨算法,相比于传统的基于滤波和字典学习的超分辨算法,深度学习超分辨算法可以利用大规模的数据进行驱动,依赖大量卷积层的特征计算,提高算法的超分辨能力。
虽然现有的一些视频超分辨方案能够实现超分辨能力,但是现有的方案针对低分辨率视频实现超分辨时存在超分辨处理后产生的视频过度平滑、具有增强的噪声和错误纹理等的问题,导致超分辨后的视频质量下降。
发明内容
本公开提供一种视频超分辨模型的训练方法和装置以及视频超分辨方法和装置,以至少解决上述相关技术中的超分辨结果过度平滑、具有增强的噪声和错误纹理的问题,也可不解决任何上述问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种视频超分辨模型的训练方法,所述视频超分辨模型包括重构器、生成器和判别器,其中,所述训练方法包括:获取用于对所述视频超分辨模型进行训练的视频帧训练样本,其中,所述视频帧训练样本包括多个第一质量的视频帧;由重构器对第二质量的视频帧进行去噪处理来获得第一输出图像,其中,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的;根据第一质量的视频帧和第一输出图像计算第一损失函数;由生成器对第一输出图像进行超分辨处理来获得第二输出图像;根据第一质量的视频帧、第二输出图像、以及判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第二损失函数;根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第三损失函数;根据第一损失函数、第二损失函数和第三损失函数分别调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行训练。
可选地,所述训练方法还可包括:由所述视频超分辨模型对第二质量的视频帧进行处理来获得第三输出图像;根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果计算第四损失函数;根据第四损失函数进一步调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行微调训练。
可选地,计算第二损失函数的步骤可包括:根据第二输出图像和第一质量的视频帧来计算L1损失函数;根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果来计算对抗损失函数;根据第二输出图像和第一质量的视频帧来计算感知损失函数;并且计算所述L1损失函数、所述对抗损失函数和所述感知损失函数的加权和作为第二损失函数。
可选地,计算第四损失函数的步骤可包括:根据第三输出图像和第一质量的视频帧来计算L1损失函数;根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果来计算对抗损失函数;根据第三输出图像和第一质量的视频帧来计算感知损失函数;并且计算所述L1损失函数、所述对抗损失函数和所述感知损失函数的加权和作为第四损失函数。
可选地,获得第一输出图像的步骤可包括:由重构器从第二质量的视频帧提取深度特征;由重构器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由重构器将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第一输出图像。
可选地,获得第二输出图像的步骤可包括:由生成器从第一输出图像提取深度特征;由生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
可选地,获得第三输出图像的步骤可包括:由所述视频超分辨模型从第二质量的视频帧提取深度特征;由所述视频超分辨模型中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由所述视频超分辨模型将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间并进行上采样处理来获得第三输出图像。
可选地,所述视频超分辨模型中包括的多个卷积模块可以以串联形式彼此连接,其中,由所述多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。
可选地,由所述多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由所述多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
可选地,第一损失函数可以是L1损失函数。
可选地,第三损失函数可以是对抗损失函数。
可选地,所述去噪处理可包括:去噪声和去压缩伪影,并且所述超分辨处理可包括:补充纹理细节。
根据本公开实施例的第二方面,提供一种视频超分辨方法,所述视频超分辨方法包括:由利用如上所述的训练方法训练得到的视频超分辨模型中的重构器对重建的视频帧进行去噪处理,来获得第一输出图像;由所述视频超分辨模型中的生成器对第一输出图像进行超分辨处理来获得第二输出图像。
可选地,获得第一输出图像的步骤可包括:由重构器从所述视频帧提取深度特征;由重构器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由重构器将处理后的深度特征转换到与所述视频帧相同的彩色空间来获得第一输出图像。
可选地,获得第二输出图像的步骤可包括:由生成器从第一输出图像提取深度特征;由生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
可选地,所述视频超分辨模型中包括的多个卷积模块可以以串联形式彼此连接,其中,由所述多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。
可选地,由所述多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由所述多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
可选地,所述去噪处理可包括:去噪声和去压缩伪影,并且所述超分辨处理可包括:补充纹理细节。
根据本公开实施例的第三方面,提供一种视频超分辨模型的训练装置,所述视频超分辨模型包括重构器、生成器和判别器,其中,所述训练装置包括:第一获取模块,被配置为:通过重构器对第二质量的视频帧进行去噪处理来获得第一输出图像,其中,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的,并且用于所述训练装置的视频帧训练样本包括多个第一质量的视频帧;第二获取模块,被配置为:通过生成器对第一输出图像进行超分辨处理来获得第二输出图像;计算模块,被配置为:根据第一质量的视频帧和第一输出图像计算第一损失函数,根据第一质量的视频帧、第二输出图像、以及判别器对第二输出图像和第一质量的视频帧判别的结果计算第二损失函数,并且,根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第三损失函数;以及调参模块,被配置为:根据第一损失函数、第二损失函数和第三损失函数分别调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行训练。
可选地,所述训练装置还可包括:第三获取模块,被配置为:通过所述视频超分辨模型对第二质量的视频帧进行处理来获得第三输出图像;其中,计算模块还被配置为:根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果计算第四损失函数;调参模块还被配置为:根据第四损失函数进一步调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行微调训练。
可选地,计算模块可被配置为通过以下操作来计算第二损失函数:根据第二输出图像和第一质量的视频帧来计算L1损失函数;根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果来计算对抗损失函数;根据第二输出图像和第一质量的视频帧来计算感知损失函数;并且计算所述L1损失函数、所述对抗损失函数和所述感知损失函数的加权和作为第二损失函数。
可选地,计算模块可被配置为通过以下操作来计算第四损失函数:根据第三输出图像和第一质量的视频帧来计算L1损失函数;根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果来计算对抗损失函数;根据第三输出图像和第一质量的视频帧来计算感知损失函数;并且计算所述L1损失函数、所述对抗损失函数和所述感知损失函数的加权和作为第四损失函数。
可选地,第一获取模块可被配置为通过以下操作来获得第一输出图像:通过重构器从第二质量的视频帧提取深度特征;通过重构器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过重构器将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第一输出图像。
可选地,第二获取模块可被配置为通过以下操作来获得第二输出图像:通过生成器从第一输出图像提取深度特征;通过生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
可选地,第三获取模块可被配置为通过以下操作来获得第三输出图像:通过所述视频超分辨模型从第二质量的视频帧提取深度特征;通过所述视频超分辨模型中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过所述视频超分辨模型将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间并进行上采样处理来获得第三输出图像。
可选地,所述视频超分辨模型中包括的多个卷积模块可以以串联形式彼此连接,其中,可通过所述多个卷积模块执行以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。
可选地,还可通过所述多个卷积模块执行以下操作来获得处理后的深度特征:通过所述多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
可选地,第一损失函数可以是L1损失函数。
可选地,所述去噪处理可包括:去噪声和去压缩伪影,并且所述超分辨处理可包括:补充纹理细节。
根据本公开实施例的第四方面,提供一种视频超分辨装置,所述视频超分辨装置包括:第一获取模块,被配置为:通过利用如上所述的训练方法训练得到的视频超分辨模型中的重构器对重建的视频帧进行去噪处理,来获得第一输出图像;第二获取模块,被配置为:通过所述视频超分辨模型中的生成器对第一输出图像进行超分辨处理来获得第二输出图像。
可选地,第一获取模块可被配置为通过以下操作来获得第一输出图像:通过重构器从所述视频帧提取深度特征;通过重构器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过重构器将处理后的深度特征转换到与所述视频帧相同的彩色空间来获得第一输出图像。
可选地,第二获取模块可被配置为通过以下操作来获得第二输出图像:通过生成器从第一输出图像提取深度特征;通过生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过生成器将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
可选地,所述视频超分辨模型中包括的多个卷积模块可以以串联形式彼此连接,其中,可通过所述多个卷积模块执行以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与所述输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是所述提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是所述处理后的深度特征。
可选地,还可通过所述多个卷积模块执行以下操作来获得处理后的深度特征:通过所述多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
可选地,所述去噪处理可包括:去噪声和去压缩伪影,并且所述超分辨处理可包括:补充纹理细节。
根据本公开实施例的第五方面,提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器,其中,所述处理器被配置为执行所述指令,以实现如上所述的视频超分辨模型的训练方法或如上所述的视频超分辨方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备/服务器的处理器执行时,使得电子设备/服务器能够执行如上所述的视频超分辨模型的训练方法或如上所述的视频超分辨方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上所述的视频超分辨模型的训练方法或如上所述的视频超分辨方法。
本公开的实施例提供的技术方案至少带来以下有益效果:通过如上所述的视频超分辨模型,减少了超分辨结果的过度平滑,避免了增强的噪声和错误纹理,并且超分辨结果的稳定性增加且视觉效果更好。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是本公开的示例性实施例可以应用于其中的示例性系统架构图;
图2是示出根据本公开的示例性实施例的视频超分辨模型的训练方法的流程图;
图3是示出根据本公开的示例性实施例的视频超分辨模型的训练示意图;
图4是示出根据本公开的示例性实施例的重构器的结构示意图;
图5是示出根据本公开的示例性实施例的生成器的结构示意图;
图6是示出根据本公开的示例性实施例的判别器的结构示意图;
图7是示出根据本公开的示例性实施例的视频超分辨方法的流程图;
图8是示出根据本公开的示例性实施例的视频超分辨模型的训练装置的框图。
图9是示出根据本公开的示例性实施例的视频超分辨装置的框图。
图10是示出根据本公开的示例性实施例的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
如本公开背景技术中所提及的,在相关技术中,基于深度学习的SR算法已经成为主流的超分辨算法。一种SR模型是基于L1或者MSE作为损失函数训练的模型,这种类型的模型存在输出图像过度平滑问题。另一种SR模型是基于GAN(Generative AdversarialNetwork,生成式对抗网络)的SR型。
具体地,GAN模型是由一个生成网络模型和一个判别网络模型组成,生成网络用于生成样本,判别网络是对于生成的样本和构建的数据样本以及GT(Ground Truth,基准真值)样本判别真伪。为了使得生成的样本更贴近GT样本,生成器需要不断提高自己的“造假”能力,让生成的样本更逼近GT样本,从而迷惑判别器;为了不被生成器欺骗,判别器就不断提升自己的鉴别能力,从而能够甄别真伪样本。不断重复以上过程,两个网络模型之间不断进行对抗,从而两个网络模型都进行提升性能,直到判别网络模型不能再判别真伪,则生成网络模型就形成收敛。
尽管上述基于GAN的SR模型能够提升主观清晰度,但是这种SR模型在实际应用中(尤其是在UGC(即,用户生产内容)场景下的视频超分辨任务中),由于低分辨率视频的来源广泛,视频退化方式不统一,存在大量的噪声、压缩伪影等干扰内容,单纯的基于GAN的SR模型,会将这些干扰内容认为是视频中本身存在的纹理和细节,对这些干扰进行增强和纹理填充,造成超分辨后的视频存在更为严重的噪声和错误纹理,导致生成的视频质量下降。
为了解决现有技术中存在的过度平滑问题、增强的噪声和错误纹理的问题,本公开提出了一种具有两阶段SR策略的GAN算法,这种SR策略采用两阶段的训练模型,并且两阶段的网络模型通过级联(例如,串联)的形式组成。具体地讲,一阶段网络模型具有去噪声、去压缩伪影的功能,将输入图像的干扰内容(例如,噪声和压缩伪影)去除,保证不会有额外干扰内容(例如,噪声)干扰超分辨后的生成图像的效果;二阶段网络模型具有基于GAN的网络结构,能够补充纹理和细节信息,从而保证生成稳定的纹理细节,并且避免了生成图像的过度平滑问题。
以下,将参照图1至图10具体描述根据本公开的示例性实施例的视频超分辨模型的训练方法和训练装置以及视频超分辨方法和装置。
图1是本公开的示例性实施例可以应用于其中的示例性系统架构图100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息(例如视频数据上传请求、视频数据获取请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频录制类应用、视频压缩类应用、视频和音频编辑类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且能够进行视频的播放、录制和编辑的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、个人数字助理(personaldigital assistant,PDA)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、可穿戴设备以及任何其他可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
终端设备101、102、103可以安装有图像采集装置(例如,摄像头)以采集视频数据,此外,终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如,扬声器)以播放声音,并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如,麦克风)以采集声音。
终端设备101、102、103可以利用安装于其上的图像采集装置进行视频数据的采集,利用安装于其上的音频采集装置进行音频数据的采集,并且终端设备101、102、103可以对采集的视频数据和音频数据进行编码、存储和传输,并且可对从另一个终端设备或者从服务器105接收到的经编码的视频和音频进行解码和播放。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上所安装的视频录制类应用、视频压缩类应用、视频编辑类应用等提供支持的后台服务器,也可以是存储终端设备101、102、103上传的经编码的视频和音频,并且可响应于终端设备101、102、103的请求而将存储的经编码的视频和音频发送给终端设备101、102、103的存储服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如,用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的视频超分辨模型的训练方法和视频超分辨方法一般由终端设备101、102、103执行,相应地,视频超分辨模型的训练装置和视频超分辨装置一般设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本公开对此并无限制。
图2是示出根据本公开的示例性实施例的视频超分辨模型的训练方法200的流程图。图3是示出根据本公开的示例性实施例的视频超分辨模型300的训练示意图。如图3中所示,视频超分辨模型300包括重构器310、生成器320和判别器330。
如图2中所示,根据本公开的示例性实施例,在步骤S201,获取用于对视频超分辨模型进行训练的视频帧训练样本。可选地,视频帧训练样本包括多个第一质量的视频帧。根据本公开的示例性实施例的第一质量的视频帧是GT视频的视频帧,将GT视频的多个视频帧作为本公开的GT样本数据,以用于后续的一系列操作(稍后将具体描述)。
可选地,对于视频帧训练样本的获取处理,可在将数据输入模型之前获取,也可以在模型的最开始处添加具有上述获取功能的模块对视频进行处理以得到视频帧训练样本。
根据本公开的示例性实施例,在步骤S202,由重构器310对第二质量的视频帧进行去噪处理来获得第一输出图像。根据本公开的示例性实施例,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的。具体地讲,第二质量的视频帧是在根据某种视频编解码器对第一质量的视频帧进行编码后再经过解码而得到的视频帧,该视频帧相对于第一质量的视频帧是一种低质量和/或低分辨率的视频帧,而第二质量的视频帧可以是从未经过任何编码和解码处理的视频帧,或者也可以是经过了某种视频编解码器进行编码和解码处理的视频帧。换言之,第一质量的视频帧和第二质量的视频帧是具有不同视频质量和/或不同分辨率的同一视频帧。
根据本公开的示例性实施例,通过第一质量的视频帧生成第二质量的视频帧的方式主要是考虑到实际应用场景(例如,短视频应用)中需要将低质量和/或低分辨率视频(以下简称LR视频)的处理为高质量和/或高分辨率视频(以下简称HR视频)。为了更加接近实际应用场景中的LR视频,提出了对于GT视频进行退化处理的方法以得到LR视频。具体地讲,得到LR视频的过程包括:采用A)多次下采样和多次视频编码、B)单次下采样和至少一次视频编码、C)多次下采样和多次视频编码中的至少一种组合方式对GT视频执行退化处理,处理后得到LR视频。可选地,尽管采用单次下采样退化方法也适用于本公开的训练方法,但是采用如上所述的组合方式实现本公开的训练方法的效果更好,例如,通过采用组合方式的退化处理,能够拓宽LR视频的退化范围,构建LR视频的多样性,从而通过对这样的数据进行训练使得整个视频超分辨模型的鲁棒性得到提升。
下面将结合图4对此步骤进行详细描述。图4是示出根据本公开的示例性实施例的重构器310的结构示意图。
根据本公开的示例性实施例,由重构器310对第二质量的视频帧进行去噪处理来获得第一输出图像的步骤可包括:由重构器310从第二质量的视频帧提取深度特征;由重构器310中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由重构器310将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第一输出图像。
可选地,本公开中涉及的彩色空间可以是在相关技术中的RGB空间、YUV空间等中的任意一个,以下将不再赘述。可选地,本公开中涉及的去噪处理可包括:去噪声和去压缩伪影等去除干扰内容的处理,以下将不再赘述。
具体参照图4进行举例说明,由第一卷积模块410从第二质量的视频帧提取深度特征,并将深度特征输入到第二卷积模块420,其中,第二卷积模块420包括多个卷积模块420-1至420-n。由第二卷积模块420对提取的深度特征进行处理来获得处理后的深度特征;由第三卷积模块430将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第一输出图像。
根据本公开的示例性实施例,多个卷积模块420-1至420-n(n是大于等于1的整数)可以以串联形式彼此连接,其中,由多个卷积模块420-1至420-n对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块420-1的输入的深度特征是由第一卷积模块410提取的深度特征,并且第一个卷积模块420-1的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块420-n的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块420-1的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,由多个卷积模块420-1至420-n对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由多个卷积模块420-1至420-n中除了第一个卷积模块420-1之外的至少一个卷积模块(例如,如图4中所示的420-i、420-j、420-n(i和j分别是大于等于1且小于等于n的整数))还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
具体地,作为示例,参照图4,当i大于1,j大于i且小于n时,第i个卷积模块420-i的输出的深度特征的获取方式如下:对第i个卷积模块420-i的输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得更新前的输出的深度特征,将位于第i个卷积模块之前的第一个卷积模块420-1的输入的深度特征与第i个卷积模块420-i的更新前的输出的深度特征相加来获得更新后的输出的深度特征,将更新后的输出的深度特征作为第i个卷积模块420-i的输出的深度特征,也即,第i+1个卷积模块的输入的深度特征。
作为示例,参照图4,当i大于1,j大于i且小于n时,第n个卷积模块420-n的输出的深度特征的获取方式如下:对第n个卷积模块420-n的输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得更新前的输出的深度特征,将位于第n个卷积模块之前的第一个卷积模块420-1的输入的深度特征和第j个卷积模块420-j的输入的深度特征均与第n个卷积模块420-n的更新前的输出的深度特征相加来获得更新后的输出的深度特征,将更新后的输出的深度特征作为第n个卷积模块420-n的输出的深度特征,也即,第三卷积模块430的输入的深度特征。
如图4中所述,每个卷积模块内的短跳转连接(例如,图4中第i个卷积模块420-i对应的短箭头)将当前卷积模块的输入的深度特征与输出的深度特征相加,而重构器的长跳转连接(例如,图4中第一个卷积模块420-1与第i个卷积模块420-i和第n个卷积模块420-n之间的箭头、第j个卷积模块420-j与第n个卷积模块420-n之间的箭头)将多个其他卷积模块的输入的深度特征与输出的深度特征相加作为更新后的输出的深度特征,这样可更好地使重构器进行梯度反向传播,加速该模型的收敛。
此外,作为另一示例,由第三卷积模块430将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第一输出图像的步骤也可以以下面的方式实现:由第三卷积模块430将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间以获得第一残差图像,由第三卷积模块430将第一残差图像与第二质量的视频帧相加来获得第一输出图像。
根据本公开的示例性实施例,重构器310除了能够实现去噪功能之外,还可以实现数据归一化的功能。具体地讲,将复杂应用场景的视频作为输入数据,经过重构器310的处理之后,可以得到分布较一致的中间结果,使用这种分布较一致的中间结果作为生成器320的输入,可以缓解输入数据多样性造成的模型鲁棒性较差的问题。
参照回图2,根据本公开的示例性实施例,在步骤S203,根据第一质量的视频帧和第一输出图像计算第一损失函数。
根据本公开的示例性实施例,计算第一损失函数的步骤可包括:根据第一质量的视频帧和第一输出图像来计算第二L1损失函数作为第一损失函数。这里,L1损失函数的计算方法可以采用相关技术中涉及的任何对应计算方法,本公开不做具体限制,并且以下将不再赘述。
根据本公开的示例性实施例,在步骤S204,由生成器320对第一输出图像进行超分辨处理来获得第二输出图像。下面将结合图4对此步骤进行详细描述。图5是示出根据本公开的示例性实施例的生成器320的结构示意图。
根据本公开的示例性实施例,由生成器320对第一输出图像进行超分辨处理来获得第二输出图像的步骤可包括:由生成器320从第一输出图像提取深度特征;由生成器320中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由生成器320将处理后的深度特征转换到与第一输出图像相同的彩色空间来获得第二输出图像。
可选地,超分辨处理可包括:补充纹理细节的处理,以下将不再赘述。
具体参照图5进行举例说明,由第一卷积模块510从第一输出图像提取深度特征,并将深度特征输入到第二卷积模块520,其中,第二卷积模块520包括多个卷积模块520-1至520-n。由第二卷积模块520对提取的深度特征进行处理来获得处理后的深度特征;由第三卷积模块530将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间并由上采样模块540进行上采样处理来获得第二输出图像。
可选地,本公开中涉及的上采样模块和上采样处理可以利用在相关技术中的任何已知的上采样方式(例如,基于转置卷积的上采样等)来实现,本公开不做具体限制,并且以下将不再赘述。
根据本公开的示例性实施例,多个卷积模块520-1至520-n(n是大于等于1的整数)可以以串联形式彼此连接,其中,由多个卷积模块420-1至420-n对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块520-1的输入的深度特征是由第一卷积模块510提取的深度特征,并且第一个卷积模块520-1的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块520-n的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块520-n的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,由多个卷积模块520-1至520-n对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由多个卷积模块520-1至520-n中除了第一个卷积模块520-1之外的至少一个卷积模块(例如,如图4中所示的520-i、520-j、520-n(i和j分别是大于等于1且小于等于n的整数))还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
具体地,作为示例,参照图5,当i大于1,j大于i且小于n时,第i个卷积模块520-i的输出的深度特征的获取方式如下:对第i个卷积模块520-i的输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得更新前的输出的深度特征,将位于第i个卷积模块之前的第一个卷积模块520-1的输入的深度特征与第i个卷积模块520-i的更新前的输出的深度特征相加来获得更新后的输出的深度特征,将更新后的输出的深度特征作为第i个卷积模块520-i的输出的深度特征,也即,第i+1个卷积模块的输入的深度特征。
作为示例,参照图5,当i大于1,j大于i且小于n时,第n个卷积模块520-n的输出的深度特征的获取方式如下:对第n个卷积模块520-n的输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得更新前的输出的深度特征,将位于第n个卷积模块之前的第一个卷积模块520-1的输入的深度特征和第j个卷积模块520-j的输入的深度特征均与第n个卷积模块520-n的更新前的输出的深度特征相加来获得更新后的输出的深度特征,将更新后的输出的深度特征作为第n个卷积模块520-n的输出的深度特征,也即,第三卷积模块530的输入的深度特征。
如图5中所述,每个卷积模块内的短跳转连接(例如,图5中第i个卷积模块520-i对应的短箭头)将当前卷积模块的输入的深度特征与输出的深度特征相加,而重构器的长跳转连接(例如,图5中第一个卷积模块520-1与第i个卷积模块520-i和第n个卷积模块520-n之间的箭头、第j个卷积模块520-j与第n个卷积模块520-n之间的箭头)将多个其他卷积模块的输入的深度特征与输出的深度特征相加作为更新后的输出的深度特征,这样可更好地使重构器进行梯度反向传播,加速该模型的收敛。
此外,作为另一示例,由第三卷积模块530将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间并由上采样模块540进行上采样处理来获得第二输出图像的步骤也可以以下面的方式实现:由第三卷积模块530将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间以获得第二残差图像,由第三卷积模块530将第二残差图像与第一输出图像相加来得到相加后的图像,由上采样模块540对相加后的图像进行上采样处理来获得第二输出图像。
参照回图2,根据本公开的示例性实施例,在步骤S205,根据第一质量的视频帧、第二输出图像、以及判别器330对第二输出图像和第一质量的视频帧的真伪判别的结果计算第二损失函数。
根据本公开的示例性实施例,计算第二损失函数的步骤可包括:根据第二输出图像和第一质量的视频帧来计算第一L1损失函数;根据判别器330对第二输出图像和第一质量的视频帧的真伪判别的结果来计算第一对抗损失函数;根据第二输出图像和第一质量的视频帧来计算第一感知损失函数;并且计算第一L1损失函数、第一对抗损失函数和第一感知损失函数的加权和作为第二损失函数。这里,对抗损失函数和感知损失函数的计算方法可以采用相关技术中涉及的任何对应计算方法,本公开不做具体限制,并且以下将不再赘述。
下面将结合图6对判别器330的相关操作进行详细描述。图6是示出根据本公开的示例性实施例的判别器330的结构示意图。
根据本公开的示例性实施例,判别器330的判别过程具体可如下:将判别器的输入图像输入到至少一个卷积层610以进行多次卷积处理来得到中间输出结果,将卷积层610的中间输出结果输入到线性层(即,图6中的Linear层)620以进行线性变换来得到判别结果,该判别结果可用于确定判别器的输入图像的真伪。例如,该判别结果可用于确定判别器的输入图像相对于对应的作为比较基准的真实图像的真伪。可选地,该判别结果可以用如图6中的Label来表示,该Label可以是浮点数。
根据本公开的示例性实施例,将上述判别过程应用到判别第二输出图像的真伪的过程如下:将第二输出图像输入到卷积层610以进行多次卷积处理来得到中间输出结果,将卷积层610的中间输出结果输入到线性层620以进行线性变换来得到判别结果。该判别结果可用于确定第二输出图像相对于第一质量的视频帧的真伪。此外,可将该判别结果反映到对抗损失函数中。
参照回图2,根据本公开的示例性实施例,在步骤S206,根据判别器330对第二输出图像和第一质量的视频帧的真伪判别的结果计算第三损失函数。
根据本公开的示例性实施例,计算第三损失函数的步骤可包括:根据判别器330对第二输出图像和第一质量的视频帧进行判别的结果来计算第一对抗损失函数作为第三损失函数。
应该理解,上面已经参照图6描述了判别器330的结构和判别过程,因此,关于在此计算第三损失函数的过程将不再赘述。
根据本公开的示例性实施例,在步骤S207,根据第一损失函数、第二损失函数和第三损失函数分别调整重构器310、生成器320和判别器330的模型参数来对视频超分辨模型进行训练。
可选地,根据本公开的示例性实施例视频超分辨模型的训练方法100还可包括:由视频超分辨模型300对第二质量的视频帧进行微调处理来获得第三输出图像;根据判别器330对第三输出图像和第一质量的视频帧的真伪判别的结果计算第四损失函数;根据第四损失函数进一步调整重构器310、生成器320和判别器330的模型参数来对视频超分辨模型300进行微调训练。
可选地,根据本公开的示例性实施例,由视频超分辨模型300对第二质量的视频帧进行微调处理来获得第三输出图像的步骤可包括:由视频超分辨模型300从第二质量的视频帧提取深度特征;由视频超分辨模型300中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由视频超分辨模型将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第三输出图像。
可选地,根据本公开的示例性实施例,视频超分辨模型中的中的多个卷积模块可以以串联形式彼此连接。由视频超分辨模型中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
可选地,根据本公开的示例性实施例,由视频超分辨模型中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由,。多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
可选地,根据本公开的示例性实施例,根据判别器330对第三输出图像和第一质量的视频帧的真伪判别的结果计算第四损失函数的步骤可包括:根据第三输出图像和第一质量的视频帧来计算第二L1损失函数;根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果来计算第二对抗损失函数;根据第三输出图像和第一质量的视频帧来计算第二感知损失函数;并且计算第二L1损失函数、第二对抗损失函数和第二感知损失函数的加权和作为第四损失函数。
可选地,根据本公开的示例性实施例,作为示例,由视频超分辨模型300将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第三输出图像的步骤也可以以下面的方式实现:由视频超分辨模型300将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间以获得第三残差图像,由视频超分辨模型300将第三残差图像与第二质量的视频帧相加来得到相加后的图像,由视频超分辨模型300对相加后的图像进行上采样处理来获得第三输出图像。
可选地,根据本公开的示例性实施例,作为另一示例,由视频超分辨模型300将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第三输出图像的步骤也可以以下面的方式实现:由视频超分辨模型300将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间以获得第三残差图像,由视频超分辨模型300将第三残差图像与第二质量的视频帧相加来获得第三输出图像。
应该理解,上述示例可以单独地或者组合地作为实现本公开的视频超分辨模型的训练方法的示例。
图7是示出根据本公开的示例性实施例的视频超分辨方法700的流程图。
如图7中所示,在步骤S701,由利用如上所述的训练方法100训练得到的视频超分辨模型300中的重构器310对重建的视频帧进行去噪处理,来获得第一输出图像。在步骤S702,由视频超分辨模型300中的生成器320对第一输出图像进行超分辨处理来获得第二输出图像。
根据本公开的示例性实施例,获得第一输出图像的步骤可包括:由重构器310从视频帧提取深度特征;由重构器310中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由重构器310将处理后的深度特征转换到与视频帧相同的彩色空间来获得第一输出图像。
根据本公开的示例性实施例,获得第二输出图像的步骤可包括:由生成器320从第一输出图像提取深度特征;由生成器320中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;由生成器320将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
根据本公开的示例性实施例,重构器310中的多个卷积模块可以以串联形式彼此连接,其中,由重构器310中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,由重构器310中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
根据本公开的示例性实施例,生成器320中的多个卷积模块可以以串联形式彼此连接,其中,由生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤可包括:由每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,由生成器中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征的步骤还可包括:由多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
至此,可通过以上过程获得最终的输出图像,该输出图像减少了过度平滑,避免了增强的噪声和错误纹理,并且该输出图像的稳定性增加且视觉效果更好。
图8是示出根据本公开的示例性实施例的视频超分辨模型的训练装置800的框图。
如图8中所示,根据本公开的示例性实施例的视频超分辨模型的训练装置800包括第一获取模块810、第二获取模块820、计算模块830和调参模块840。
第一获取模块810被配置为通过重构器310对第二质量的视频帧进行去噪处理来获得第一输出图像,其中,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的,并且用于训练装置的视频帧训练样本包括多个第一质量的视频帧。
第二获取模块820被配置为通过生成器320对第一输出图像进行超分辨处理来获得第二输出图像。
计算模块830被配置为:根据第一质量的视频帧和第一输出图像计算第一损失函数,根据第一质量的视频帧、第二输出图像、以及判别器330对第二输出图像和第一质量的视频帧判别的结果计算第二损失函数,并且,根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第三损失函数。
调参模块840被配置为:根据第一损失函数、第二损失函数和第三损失函数分别调整重构器310、生成器320和判别器330的模型参数来对视频超分辨模型300进行训练。
可选地,根据本公开的示例性实施例的视频超分辨模型的训练装置800还可包括第三获取模块。第三获取模块被配置为:通过视频超分辨模型对第二质量的视频帧进行微调处理来获得第三输出图像。计算模块830还被配置为:根据判别器330对第三输出图像和第一质量的视频帧的真伪判别的结果计算第四损失函数。调参模块840还被配置为根据第四损失函数进一步调整重构器、生成器和判别器的模型参数来对视频超分辨模型进行微调训练。
根据本公开的示例性实施例,计算模块830可被配置为通过以下操作来计算第二损失函数:根据第二输出图像和第一质量的视频帧来计算第一L1损失函数;根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果来计算第一对抗损失函数;根据第二输出图像和第一质量的视频帧来计算第一感知损失函数;并且计算第一L1损失函数、第一对抗损失函数和第一感知损失函数的加权和作为第二损失函数。
根据本公开的示例性实施例,计算模块830可被配置为通过以下操作来计算第四损失函数:根据第三输出图像和第一质量的视频帧来计算第二L1损失函数;根据判别器330对第三输出图像和第一质量的视频帧的真伪判别的结果来计算第二对抗损失函数;根据第三输出图像和第一质量的视频帧来计算第二感知损失函数;并且计算第二L1损失函数、第二对抗损失函数和第二感知损失函数的加权和作为第四损失函数。
根据本公开的示例性实施例,第一获取模块810可被配置为通过以下操作来获得第一输出图像:通过重构器310从第二质量的视频帧提取深度特征;通过重构器310中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过重构器310将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间来获得第一输出图像。
根据本公开的示例性实施例,第二获取模块820可被配置为通过以下操作来获得第二输出图像:通过生成器320从第一输出图像提取深度特征;通过生成器320中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过生成器320将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
根据本公开的示例性实施例,第三获取模块可被配置为通过以下操作来获得第三输出图像:通过视频超分辨模型300从第二质量的视频帧提取深度特征;通过视频超分辨模型300中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过视频超分辨模型300将处理后的深度特征转换到与第二质量的视频帧相同的彩色空间并进行上采样处理来获得第三输出图像。
根据本公开的示例性实施例,视频超分辨模型300中的多个卷积模块可以以串联形式彼此连接,其中,第三获取模块可被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,第三获取模块还可被配置为通过以下操作来获得处理后的深度特征:通过多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
根据本公开的示例性实施例,重构器310中的多个卷积模块可以以串联形式彼此连接,其中,第一获取模块810可被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,第一获取模块810还可被配置为通过以下操作来获得处理后的深度特征:通过多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
根据本公开的示例性实施例,生成器320中的多个卷积模块可以以串联形式彼此连接,其中,第二获取模块820可被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,第二获取模块820还可被配置为通过以下操作来获得处理后的深度特征:通过多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
根据本公开的示例性实施例,计算模块830可被配置为通过以下操作来计算第一损失函数:根据第一质量的视频帧和第一输出图像来计算第二L1损失函数作为第一损失函数。
作为示例,根据本公开的示例性实施例,重构器310可作为一阶段去噪网络模型,生成器320和判别器330可作为二阶段超分辨网络模型,两个阶段的网络模型可以分别进行若干次的训练过程,将训练好的两个阶段的网络模型进行串联得到视频超分辨模型300,随后对包括两阶段的网络模型的视频超分辨模型300进行整体的微调训练,从而得到训练好的最终的视频超分辨模块300。在本公开中,进行微调训练的处理可以使得两个阶段的网络模型之间的关联性更加紧密,即,可以对整个模型的模型参数进行优化。
由于图2所示的训练方法可由图8所示的训练装置800来执行,因此,关于图8中的模块所执行的操作中涉及的任何相关细节均可参见关于图2的相应描述,这里都不再赘述。
图9是示出根据本公开的示例性实施例的视频超分辨装置900的框图。
如图8中所示,根据本公开的示例性实施例的视频超分辨装置900包括第一获取模块910和第二获取模块920。
第一获取模块910被配置为通过利用如上所述的训练方法训练得到的视频超分辨模型中的重构器对重建的视频帧进行去噪处理,来获得第一输出图像。
第二获取模块920被配置为通过视频超分辨模型中的生成器对第一输出图像进行超分辨处理来获得第二输出图像。
根据本公开的示例性实施例,第一获取模块910可被配置为通过以下操作来获得第一输出图像:通过重构器310从视频帧提取深度特征;通过重构器310中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过重构器310将处理后的深度特征转换到与视频帧相同的彩色空间来获得第一输出图像。
根据本公开的示例性实施例,第二获取模块920可被配置为通过以下操作来获得第二输出图像:通过生成器320从第一输出图像提取深度特征;通过生成器320中的多个卷积模块对提取的深度特征进行处理来获得处理后的深度特征;通过生成器320将处理后的深度特征转换到与第一输出图像相同的彩色空间并进行上采样处理来获得第二输出图像。
根据本公开的示例性实施例,重构器310中的多个卷积模块可以以串联形式彼此连接,其中,第一获取模块910可被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,第一获取模块910还可被配置为通过以下操作来获得处理后的深度特征:通过多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
根据本公开的示例性实施例,生成器320中的多个卷积模块可以以串联形式彼此连接,其中,第二获取模块920可被配置为通过以下操作来获得处理后的深度特征:通过每一个卷积模块进行以下处理:对输入的深度特征进行变换,并将变换的结果与输入的深度特征相加来获得输出的深度特征,其中,第一个卷积模块的输入的深度特征是提取的深度特征,并且第一个卷积模块的输出的深度特征是下一个卷积模块的输入的深度特征,并且最后一个卷积模块的输入的深度特征是上一个卷积模块的输出的深度特征,并且最后一个卷积模块的输出的深度特征是处理后的深度特征。
根据本公开的示例性实施例,第二获取模块920还可被配置为通过以下操作来获得处理后的深度特征:通过多个卷积模块中除了第一个卷积模块之外的至少一个卷积模块还执行以下处理:将位于当前卷积模块之前的至少一个卷积模块的输入的深度特征与当前卷积模块的输出的深度特征相加来获得更新后的输出的深度特征。
由于图3所示的视频超分辨方法可由图9所示的视频超分辨装置900来执行,因此,关于图9中的模块所执行的操作中涉及的任何相关细节均可参见关于图3的相应描述,这里都不再赘述。
图10是示出根据本公开实施例的一种电子设备1000的框图,该电子设备1000可包括存储器1010和处理器1020,存储器1010中存储有计算机可执行指令集合,当计算机可执行指令集合被处理器执行时,执行根据本公开实施例的视频超分辨模型的训练方法或视频超分辨方法。
作为示例,电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器可运行存储在存储器中的指令或代码,其中,存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。
此外,电子设备还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种计算机可读存储介质,例如,包括指令的存储器1020,上述指令可由电子设备1000的处理器1010执行以完成上述的视频超分辨模型的训练方法或视频超分辨方法。可选地,计算机可读存储介质可以是:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
在本公开的示例性实施例中,还可提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现根据本公开示例性实施例的视频超分辨模型的训练方法或视频超分辨方法。
根据本公开的实施例的视频超分辨模型的训练方法和装置以及视频超分辨方法和装置通过采用分别具有去噪功能和超分辨功能的两阶段的超分辨模型,减少了超分辨结果的过度平滑,避免了增强的噪声和错误纹理,并且超分辨结果的稳定性增加且视觉效果更好。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种视频超分辨模型的训练方法,其特征在于,所述视频超分辨模型包括重构器、生成器和判别器,其中,所述训练方法包括:
获取用于对所述视频超分辨模型进行训练的视频帧训练样本,其中,所述视频帧训练样本包括多个第一质量的视频帧;
由重构器对第二质量的视频帧进行去噪处理来获得第一输出图像,其中,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的;
根据第一质量的视频帧和第一输出图像计算第一损失函数;
由生成器对第一输出图像进行超分辨处理来获得第二输出图像;
根据第一质量的视频帧、第二输出图像、以及判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第二损失函数;
根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第三损失函数;
根据第一损失函数、第二损失函数和第三损失函数分别调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述训练方法还包括:
由所述视频超分辨模型对第二质量的视频帧进行处理来获得第三输出图像;
根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果计算第四损失函数;
根据第四损失函数进一步调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行微调训练。
3.如权利要求1所述的训练方法,其特征在于,计算第二损失函数的步骤包括:
根据第二输出图像和第一质量的视频帧来计算L1损失函数;
根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果来计算对抗损失函数;
根据第二输出图像和第一质量的视频帧来计算感知损失函数;并且
计算所述L1损失函数、所述对抗损失函数和所述感知损失函数的加权和作为第二损失函数。
4.如权利要求2所述的训练方法,其特征在于,计算第四损失函数的步骤包括:
根据第三输出图像和第一质量的视频帧来计算L1损失函数;
根据判别器对第三输出图像和第一质量的视频帧的真伪判别的结果来计算对抗损失函数;
根据第三输出图像和第一质量的视频帧来计算感知损失函数;并且
计算所述L1损失函数、所述对抗损失函数和所述感知损失函数的加权和作为第四损失函数。
5.一种视频超分辨方法,其特征在于,包括:
由利用如权利要求1至4中任意一项权利要求所述的训练方法训练得到的视频超分辨模型中的重构器对重建的视频帧进行去噪处理,来获得第一输出图像;
由所述视频超分辨模型中的生成器对第一输出图像进行超分辨处理来获得第二输出图像。
6.一种视频超分辨模型的训练装置,其特征在于,所述视频超分辨模型包括重构器、生成器和判别器,其中,所述训练装置包括:
第一获取模块,被配置为:通过重构器对第二质量的视频帧进行去噪处理来获得第一输出图像,其中,第二质量的视频帧是通过对第一质量的视频帧进行编码和解码后得到的,并且用于所述训练装置的视频帧训练样本包括多个第一质量的视频帧;
第二获取模块,被配置为:通过生成器对第一输出图像进行超分辨处理来获得第二输出图像;
计算模块,被配置为:根据第一质量的视频帧和第一输出图像计算第一损失函数,根据第一质量的视频帧、第二输出图像、以及判别器对第二输出图像和第一质量的视频帧判别的结果计算第二损失函数,并且,根据判别器对第二输出图像和第一质量的视频帧的真伪判别的结果计算第三损失函数;以及
调参模块,被配置为:根据第一损失函数、第二损失函数和第三损失函数分别调整重构器、生成器和判别器的模型参数来对所述视频超分辨模型进行训练。
7.一种视频超分辨装置,其特征在于,包括:
第一获取模块,被配置为:通过利用如权利要求1至4中任意一项权利要求所述的训练方法训练得到的视频超分辨模型中的重构器对重建的视频帧进行去噪处理,来获得第一输出图像;
第二获取模块,被配置为:通过所述视频超分辨模型中的生成器对第一输出图像进行超分辨处理来获得第二输出图像。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器,
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中的任一权利要求所述的视频超分辨模型的训练方法或如权利要求5所述的视频超分辨方法。
9.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备/服务器的处理器执行时,使得电子设备/服务器能够执行如权利要求1至4中的任一权利要求所述的视频超分辨模型的训练方法或如权利要求5所述的视频超分辨方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1至4中的任一权利要求所述的视频超分辨模型的训练方法或如权利要求5所述的视频超分辨方法。
CN202110790165.3A 2021-07-13 2021-07-13 视频超分辨模型的训练方法和装置 Pending CN113506219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110790165.3A CN113506219A (zh) 2021-07-13 2021-07-13 视频超分辨模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110790165.3A CN113506219A (zh) 2021-07-13 2021-07-13 视频超分辨模型的训练方法和装置

Publications (1)

Publication Number Publication Date
CN113506219A true CN113506219A (zh) 2021-10-15

Family

ID=78012601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110790165.3A Pending CN113506219A (zh) 2021-07-13 2021-07-13 视频超分辨模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN113506219A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN111626932A (zh) * 2020-05-07 2020-09-04 Tcl华星光电技术有限公司 图像的超分辨率重建方法及装置
CN113012073A (zh) * 2021-04-01 2021-06-22 清华大学 视频质量提升模型的训练方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136063A (zh) * 2019-05-13 2019-08-16 南京信息工程大学 一种基于条件生成对抗网络的单幅图像超分辨率重建方法
CN111626932A (zh) * 2020-05-07 2020-09-04 Tcl华星光电技术有限公司 图像的超分辨率重建方法及装置
CN113012073A (zh) * 2021-04-01 2021-06-22 清华大学 视频质量提升模型的训练方法和装置

Similar Documents

Publication Publication Date Title
JP6928041B2 (ja) 動画を処理するための方法および装置
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
EP4030341A1 (en) Image recognition method, video playback method, related device, and medium
CN113194320B (zh) 参数预测模型的训练方法及装置和参数预测方法及装置
CN113365110B (zh) 模型训练、视频插帧方法,装置,设备以及存储介质
CN113012073A (zh) 视频质量提升模型的训练方法和装置
JP7405989B2 (ja) マシン向け映像符号化における方法及び装置
JP2023517486A (ja) 画像再スケーリング
CN114268792A (zh) 视频转码方案的确定方法及装置和视频转码方法及装置
CN114155852A (zh) 语音处理方法、装置、电子设备及存储介质
US11887277B2 (en) Removing compression artifacts from digital images and videos utilizing generative machine-learning models
CN114157895A (zh) 视频处理方法、装置、电子设备及存储介质
CN113506219A (zh) 视频超分辨模型的训练方法和装置
US20110090956A1 (en) Compression method using adaptive field data selection
US20230186608A1 (en) Method, device, and computer program product for video processing
CN113610031A (zh) 视频处理方法和视频处理装置
CN114418882A (zh) 处理方法、训练方法、装置、电子设备及介质
CN113194270A (zh) 视频处理方法、装置、电子设备及存储介质
CN113411521B (zh) 视频处理方法、装置、电子设备及存储介质
US20230237613A1 (en) Method for generating metadata, image processing method, electronic device, and program product
CN113724716B (zh) 语音处理方法和语音处理装置
US20240112384A1 (en) Information processing apparatus, information processing method, and program
CN118283297A (zh) 视频数据处理方法、装置、电子设备及可读存储介质
CN113076828B (zh) 视频编辑方法和装置以及模型训练方法和装置
CN116664731B (zh) 人脸动画生成方法及装置、计算机可读存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination