CN114418882A - 处理方法、训练方法、装置、电子设备及介质 - Google Patents

处理方法、训练方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114418882A
CN114418882A CN202210051080.8A CN202210051080A CN114418882A CN 114418882 A CN114418882 A CN 114418882A CN 202210051080 A CN202210051080 A CN 202210051080A CN 114418882 A CN114418882 A CN 114418882A
Authority
CN
China
Prior art keywords
video frame
training
image
frame image
algorithm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210051080.8A
Other languages
English (en)
Inventor
段然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202210051080.8A priority Critical patent/CN114418882A/zh
Publication of CN114418882A publication Critical patent/CN114418882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本申请公开了一种视频帧图像的处理方法、处理装置、电子设备以及存储介质。处理方法包括:获取待处理视频帧图像和待处理视频帧图像的相邻视频帧图像,通过图像处理算法模型对待处理视频帧图像和相邻视频帧图像进行处理得到目标视频帧图像,其中,图像处理算法模型包括光流网络和增强网络,图像处理算法模型通过在多个训练阶段分别利用多个损失函数依次训练得到。本申请的处理方法中,通过由光流网络和增强网络组成的图像处理算法模型对待处理视频帧以及与其相邻的视频帧图像进行处理,从而可以利用相邻帧信息对当前帧的压缩画面进行修复,有效地改善了视频帧图像模糊、伪影、色块、噪声等问题,提高了显示效果。

Description

处理方法、训练方法、装置、电子设备及介质
技术领域
本申请涉及图像处理领域,特别涉及一种视频帧图像的处理方法、处理装置、图像处理算法模型的训练方法、训练装置、电子设备及存储介质。
背景技术
为了提高视频文件的传输效率以及减小视频文件的占用空间,通常,会将视频文件进行压缩处理。然而,压缩过程中容易造成视频文件产生模糊、伪影、色块以及造成等问题,而影响视频文件的显示效果。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提供了一种视频帧图像的处理方法、图像处理算法模型的训练方法、视频帧图像的处理装置、图像处理算法模型的训练装置、电子设备及存储介质。
本申请实施方式的视频帧图像的处理方法包括:
获取待处理视频帧图像和所述待处理视频帧图像的相邻视频帧图像;
通过图像处理算法模型对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到目标视频帧图像;
其中,所述图像处理算法模型包括光流网络和增强网络,所述图像处理算法模型通过在多个训练阶段分别利用多个损失函数依次训练得到。
在某些实施方式中,所述通过图像处理算法模型对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到目标视频帧图像,包括:
通过所述光流网络对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到光流信息;
利用所述光流信息对所述相邻视频帧图像进行处理得到预测视频帧图像;
联结所述光流信息、所述预测视频帧图像和所述待处理视频帧图像得到增强输入视频帧图像;
通过所述增强网络对所述增强输入视频帧图像进行处理得到所述目标视频帧图像。
在某些实施方式中,所述通过所述光流网络对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到光流信息包括:
根据所述待处理视频帧图像和所述相邻视频帧图像得到多级联结数据,第一级所述连接数据由所述待处理视频帧图像和所述相邻视频帧图像连接得到;
对多级所述联结数据分别进行数据处理得到多级子光流信息,每级数据处理包括下采样处理、第一卷积处理和上采样处理,每级上采样处理的倍数是下采样处理倍数的2倍,前一级的下采样处理倍数是后一级下采样处理倍数的2倍,前一级上采样处理倍数是后一级下采样处理倍数的2倍;
将所述待处理视频帧图像和多级所述子光流信息分别估计得到多级子预测图像,第一级后的每级联结数据由前一级所述子预测图像和所述相邻视频图像联结得到;
将多级所述子光流信息相加得到所述光流信息。
在某些实施方式中,所述通过所述增强网络对所述增强输入视频帧图像进行处理得到所述目标视频帧图像,包括:
将预测视频帧图像和所述待处理视频帧图像联结并通过第二卷积处理以得到第一特征图谱;
所述相邻视频帧图像通过第三卷积处理后与所述光流信息做图像仿射变换处理得到第二特征图谱和第三特征图谱;
将所述第一特征图谱、所述第二特征图谱和第三特征图谱联结并通过第四卷积处理得到第四特征图谱;
对所述第四特征图谱自适应注意力处理并通过第五卷积处理得到所述目标视频帧图像。
在某些实施方式中,所述获取待处理视频帧图像和所述待处理视频帧图像的相邻视频帧图像,包括:
对所述待处理视频进行分割处理得到至少一个子视频,所述子视频包括多个场景相同的连续视频帧图像;
通过帧复制对所述子视频的第一帧和最后一帧进行复制补齐;
在所述子视频中获取所述待处理视频帧图像和与所述待处理视频帧图像相邻的两个所述相邻视频帧图像。
在某些实施方式中,对所述待处理视频进行分割处理得到至少一个子视频,包括:
将所述待处理视频的相邻两帧转换到预设颜色空间;
获取所述待处理视频的相邻两帧在所述预设颜色空间下,预设颜色通道的直方图;
在所述待处理视频的相邻两帧对应所述预设颜色通道的直方图满足预设条件的情况下,确定所述待处理视频的相邻两帧为同一所述子视频的连续视频帧图像。
在某些实施方式中,所述待处理视频包括压缩重制后得到的视频。
本申请实施方式的图像处理算法模型的训练方法中,所述图像处理算法模型包括光流网络和增强网络,所述训练方法包括:
获取训练视频帧图像和所述训练视频帧图像的相邻训练视频帧图像;
通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像;
在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值;
根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正。
在某些实施方式中,所述通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像,包括:
所述在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值,包括:
在所述第一训练阶段,基于所述第一训练输出视频帧图像,通过第一损失函数计算所述图像处理算法模型的损失值;
所述根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正,包括:
根据所述第一损失函数计算的所述图像处理算法模型的损失值对所述第一训练阶段的所述图像处理算法模型的参数进行修正,得到所述第一训练阶段训练好的所述图像处理算法模型。
在某些实施方式中,所述第一损失函数表示为:
Figure BDA0003474372740000031
其中,
Figure BDA0003474372740000032
为真值图像,W、H、C分别为所述第一训练输出视频帧图像的高、宽和通道数。
在某些实施方式中,所述通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像,包括:
通过所述第一训练阶段训练好的所述图像处理算法模型,在所述第二训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到第二训练输出视频帧图像;
通过所述鉴别网络对所述第二训练输出视频帧图像进行处理,得到鉴别输出值;
所述在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值,包括:
在所述第二训练阶段,基于所述鉴别输出值,通过第二损失函数计算所述图像处理算法模型的损失值;
所述根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正,包括:
根据所述第二损失函数计算的所述图像处理算法模型的损失值对所述第二训练阶段的所述图像处理算法模型的参数进行修正,得到所述第二训练阶段训练好的所述图像处理算法模型。
在某些实施方式中,所述第二损失函数表示为:
Figure BDA0003474372740000041
其中,
Figure BDA0003474372740000042
为真值图像,
Figure BDA0003474372740000043
为真值图像的鉴别输出值,D(Y)为第二训练输出视频帧图像的鉴别输出值。
在某些实施方式中,所述通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像,包括:
通过所述第二阶段训练好的所述图像处理算法模型,在第三训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到第三训练输出视频帧图像。
所述在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值,包括:
在所述第三训练阶段,基于所述第三训练输出视频帧图像,通过第三损失函数计算所述图像处理算法模型的损失值;
所述根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正,包括:
根据所述第三损失函数计算的所述图像处理算法模型的损失值对所述第三训练阶段的所述图像处理算法模型的参数进行修正,得到训练好的所述图像处理算法模型。
在某些实施方式中,所述第三损失函数包括快速傅里叶变换损失函数,所述第三损失函数表示为:
Figure BDA0003474372740000044
Figure BDA0003474372740000051
Figure BDA0003474372740000052
其中,Xf为X通过快速傅里叶变换得到的频谱图,Im(Xf)为Xf的虚数部分,Re(Xf)为Xf的实数部分。
在某些实施方式中,所述第一训练阶段中,所述图像处理算法模型的学习率为第一预设值。所述第二训练阶段中,所述图像处理算法模型的学习率为第二预设值,所述鉴别器网络的学习率为第三预设值,所述第二预设值小于所述第一预设值,所述第二预设值小于所述第三预设值。
在某些实施方式中,所述获取训练视频帧图像和所述训练视频帧图像的相邻训练视频帧图像,包括:
将原始视频经过一次或多次压缩重制得到训练视频;
对所述训练视频的进行分割处理得到至少一个训练子视频,所述训练子视频包括多个场景相同的连续视频帧图像;
通过帧复制对所述训练子视频的第一帧和最后一帧进行复制补齐;
在所述训练子视频中获取所述训练视频帧图像与所述训练视频帧图像相邻的两个所述相邻训练视频帧图像。
本申请实施方式的视频帧图像的处理装置,包括:
第一获取模块,用于获取待处理视频帧图像和所述待处理视频帧图像的相邻视频帧图像;
处理模块,用于通过图像处理算法模型对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到目标视频帧图像;
其中,所述图像处理算法模型包括光流网络和增强网络,所述图像处理算法模型通过在多个训练阶段分别利用多个损失函数依次训练得到。
本申请实施方式的图像处理算法模型的训练装置,包括:
第二获取模块,用于获取训练视频帧图像和所述训练视频帧图像的相邻训练视频帧图像;
构建模块,用于通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像;
计算模块,用于在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值;
修正模块,用于根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正。
本申请实施方式的电子设备,包括处理器、存储器和计算机程序,其中,所述计算机程序被存储在所述存储器中,当所述计算机程序被处理器执行时,使得所述处理器执行上述视频帧图像的处理方法以及上述图像处理算法模型的训练方法。
本申请实施方式的非易失性计算机可读存储介质,包括计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行上述视频帧图像的处理方法以及上述图像处理算法模型的训练方法。
本申请实施方式的视频帧图像的处理方法、处理装置、电子设备及计算机存储介质中,通过由光流网络和增强网络组成的图像处理算法模型对待处理视频帧以及与其相邻的视频帧图像进行处理,一方面,可以利用相邻视频帧图像与当前视频帧图像特征相似的关系,通过轻量级的光流网络快速计算相邻帧间的运动估计,从相邻视频帧图像中为当前视频帧图像修复提取更多参考信息,如此,可以有效地改善视频帧图像模糊、伪影、色块、噪声等问题,保证视频帧图像内容的准确性,提升视频帧图像的显示效果。另一方面,例用生成对抗网络构建对抗损失函数,结合其它多种损失函数,阶段训练图像处理算法模型,保证图像处理算法模型的准确性,从而可以进一步地提升画面清晰度。
本申请实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请实施方式的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的视频帧图像的处理方法的流程示意图;
图2是本申请某些实施方式的视频帧图像的处理装置的模块示意图;
图3是本申请某些实施方式的视频帧图像的处理方法的场景示意图;
图4是本申请某些实施方式的视频帧图像的处理方法的流程示意图;
图5是本申请某些实施方式的视频帧图像的处理方法的场景示意图;
图6是本申请某些实施方式的视频帧图像的处理方法的流程示意图;
图7是本申请某些实施方式的视频帧图像的处理方法的场景示意图;
图8是本申请某些实施方式的视频帧图像的处理方法的流程示意图;
图9是本申请某些实施方式的视频帧图像的处理方法的场景示意图;
图10是本申请某些实施方式的视频帧图像的处理方法的流程示意图;
图11是本申请某些实施方式的视频帧图像的处理方法的场景示意图;
图12是本申请某些实施方式的视频帧图像的处理方法的流程示意图;
图13是本申请某些实施方式的图像处理算法模型的训练方法的流程示意图;
图14是本申请某些实施方式的图像处理算法模型的训练装置的模块示意图;
图15-17是本申请某些实施方式的图像处理算法模型的训练方法的流程示意图;
图18是本申请某些实施方式的图像处理算法模型的训练方法的场景示意图;
图19是本申请某些实施方式的图像处理算法模型的训练方法的流程示意图。
具体实施方式
下面详细描述本申请实施方式的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请实施方式的限制。
请参阅图1,本申请提供一种视频帧图像的处理方法,处理方法包括步骤:
01,获取待处理视频帧图像和待处理视频帧图像的相邻视频帧图像;
02,通过图像处理算法模型对待处理视频帧图像和相邻视频帧图像进行处理得到目标视频帧图像,其中,图像处理算法模型包括光流网络和增强网络,图像处理算法模型通过在多个训练阶段分别利用多个损失函数依次训练得到。
请参阅图2,本申请实施方式提供了一种视频帧图像的处理装置10,处理装置10包括第一获取模块11和处理模块12。
步骤01可以由第一获取模块11实现,步骤02可以由处理模块12实现。或者说,第一获取模块11可以用于获取待处理视频帧图像和待处理视频帧图像的相邻视频帧图像;处理模块12可以用于通过图像处理算法模型对待处理视频帧图像和相邻视频帧图像进行处理得到目标视频帧图像。
本申请实施方式的电子设备,电子设备包括处理器、存储器和计算机程序,当计算机程序被处理器执行时,使得处理器用于获取待处理视频帧图像和待处理视频帧图像的相邻视频帧图像,以及通过图像处理算法模型对待处理视频帧图像和相邻视频帧图像进行处理得到目标视频帧图像。
本申请实施方式的处理方法、处理装置10和电子设备中,通过由光流网络和增强网络组成的图像处理算法模型对待处理视频帧以及与其相邻的视频帧图像进行处理,一方面,可以利用相邻视频帧图像与当前视频帧图像特征相似的关系,通过轻量级的光流网络快速计算相邻帧间的运动估计,从相邻视频帧图像中为当前视频帧图像修复提取更多参考信息,如此,可以有效地改善视频帧图像模糊、伪影、色块、噪声等问题,保证视频帧图像内容的准确性,提升视频帧图像的显示效果。另一方面,利用增强网络生成对抗网络构建对抗损失函数,结合其它多种损失函数,阶段性训练图像处理算法模型,进一步地提升画面清晰度。
在一些实施方式中,电子设备可以是手机、平板、个人电脑等终端设备,例如,在本申请中,电子设备可以以手机为例进行说明,也即是,本申请实施方式可以通过手机实现上述视频帧图像的处理方法。如此,电子设备能够实现本申请实施方式的处理方法。
在一些实施方式中,处理装置10可以是电子设备的一部分。或者说,电子设备包括处理装置10。
在一些实施方式中,处理装置10可以是一定方式组装以具有前述功能的分立元件、或者是以集成电路形式存在具有前述功能的芯片、又或者是在计算机上运行时使得计算机具有前述功能的计算机软件代码段。
视频帧图像可以为压缩视频解码后得到的视频帧图像。可以理解地,当电子设备下载视频时,视频文件通常很大,使得电子设备下载的时间过长,且占据电子设备的空间,因此,视频文件往往进行多次压缩重置处理,从而得到压缩视频,再传输至电子设备中。
图像处理算法模型是用于对视频帧图像进行处理修复的一个数学模型,算法处理可根据预设逻辑和数学算法建立而成。预设逻辑为业务逻辑,业务逻辑是指一个实体单元为了向另一个实体单元提供服务,应该具备的规则与流程。其中,数学算法可以是基于光流网络(FlowNet)和增强网络(EnhanceNet)的一种深度学习网络算法。
需要说明的是,光流网络是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种神经网络。
增强网络采用全卷积的方式,使得输入图像可以是任意尺寸,卷积核全部采用3*3的尺寸,网络的输入是低分辨率图像,在网络末端采用最近邻的方法上采样达到高分辨率图像的尺寸。
损失函数(loss function)是用来估量图像处理算法模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y,f(x))来表示,损失函数越小,模型的鲁棒性就越好。在本申请中,损失函数包括多个,图像处理算法模型过程中,采用分阶段训练的方式,并且,每个训练阶段采用一个损失函数对训图像处理算法模型训练。
请结合图3,待处理视频帧图像的相邻视频帧图像是指待处理视频图像的前后两帧视频帧图像。也即是,图像处理算法模型对待处理视频帧图像和与其前后相邻两帧的视频帧图像共三帧视频帧图像处理得到目标帧图像。可以理解地,当待处理视频帧图像可以为首或尾视频帧图像时,待处理视频帧图像只有一帧相邻帧图像,因此,可通过复制待处理视频帧图像来填充空缺位,例如,当待处理视频帧图像为第一帧视频帧图像时,则将第一帧视频帧图像进行复制,以将复制后的图像以及第二帧视频帧图像作为相邻帧图像。
请参阅图4,在某些实施方式中,步骤01包括子步骤:
011,对待处理视频的进行分割处理得到至少一个子视频,子视频包括多个场景相同的连续视频帧图像;
012,通过帧复制对子视频的第一帧和最后一帧进行复制补齐;
013,在子视频中获取待处理视频帧图像和与待处理视频帧图像相邻的两个视频帧图像。
在某些实施方式中,子步骤011-013可以由第一获取模块11实现,或者说,第一获取模块11还用于对待处理视频的进行分割处理得到至少一个子视频,子视频包括多个场景相同的连续视频帧图像,并通过帧复制对子视频的第一帧和最后一帧进行复制补齐,以及在子视频中获取待处理视频帧图像和与待处理视频帧图像相邻的两个视频帧图像。
在某些实施方式中,处理器可以用于对待处理视频的进行分割处理得到至少一个子视频,子视频包括多个场景相同的连续视频帧图像,并通过帧复制对子视频的第一帧和最后一帧进行复制补齐,以及在子视频中获取待处理视频帧图像和待处理视频帧图像相邻的两个视频帧图像。
可以理解地,一段视频中包含多个场景,而由于图像处理算法模型中使用了光流网络计算相邻帧的运动估计,若前后非同一场景下的画面,则会引入无效的光流信息,甚至对输出结果造成干扰,因此,需要对视频中的场景进行分割和处理,将场景相同的视频帧图像归为同一个子视频。如此,可以保证子视频中相邻帧图像之间的内容相似。
具体地,请结合图5,将待处理视频解密处理,得到帧序列图像,再根据相邻视频帧图像之间的相似度从而确定是否进行分割处理,当相邻帧图像之间的相似度满足预设条件,则在此相邻视频帧图像之间进行分割处理,如此,可以得到多个场景的子视频。
进一步地,由于每个子视频中,第一帧视频帧图像只包括在后一帧的相邻帧图像,而最后一帧视频帧图像只包括在前一帧的相邻帧图像。因此,在子步骤012中,需要通过帧复制对子视频的第一帧和最后一帧进行复制,补齐第一帧视频帧图像在前一帧的相邻帧图像,以及最后一帧视频帧图像的在后一帧的相邻帧图像。使得第一帧视频帧图像和最后一帧视频帧图像都包括对应的前后两帧相邻视频帧图像。如此,每一帧待处理视频帧图像都包括有两个相邻视频帧图像。
请参阅图6,在某些实施方式中,子步骤011包括:
0111,将待处理视频的相邻两帧转换到预设颜色空间;
0112,获取待处理视频的相邻两帧在预设颜色空间下,预设颜色通道的直方图;
0113,在待处理视频的相邻两帧对应预设颜色通道的直方图满足预设条件的情况下,确定待处理视频的相邻两帧为同一子视频的连续视频帧图像。
在某些实施方式中,子步骤0111-0113可以由第一获取模块11实现,或者说,第一获取模块11还用于将待处理视频的相邻两帧转换到预设颜色空间,并获取待处理视频的相邻两帧在预设颜色空间下,预设颜色通道的直方图,以及在待处理视频的相邻两帧对应预设颜色通道的直方图满足预设条件的情况下,确定待处理视频的相邻两帧为同一子视频的连续视频帧图像。
在某些实施方式中,处理器可以用于将待处理视频的相邻两帧转换到预设颜色空间,并获取待处理视频的相邻两帧在预设颜色空间下,预设颜色通道的直方图,以及在待处理视频的相邻两帧对应预设颜色通道的直方图满足预设条件的情况下,确定待处理视频的相邻两帧为同一子视频的连续视频帧图像。
例如,请结合图7,在一些示例中,在对视频中的场景进行分割处理过程中,先将待处理视频的视频帧图像进行颜色转换,从而将视频帧图像从RGB颜色空间转换到YUM颜色空间内,进而,每次获取转换到YUM颜色空间内的相邻两帧视频帧图像进行处理,得到两张在Y通道的直方图,从而根据直方图来判断相邻两帧视频帧图像的相关度,若两张直方图的相关度大于或等于某一阈值(例如百分之八十),则确定两帧相邻视频帧图像为同一场景图像,若两张直方图的相关度小于某一阈值(例如百分之八十),则确定两帧相邻视频帧图像为非同一场景图像,则进行场景分割。
请参阅图8,在某些实施方式中,步骤02包括子步骤:
021,通过光流网络对待处理视频帧图像和相邻视频帧图像进行处理得到光流信息;
022,利用光流信息对相邻视频帧图像进行处理得到预测视频帧图像;
023,联结光流信息、预测视频帧图像和待处理视频帧图像得到增强输入视频帧图像;
024,通过增强网络对增强输入视频帧图像进行处理得到目标视频帧图像。
请进一步结合图2,在某些实施方式中,子步骤021-024可以由处理模块12实现。也即是,处理模块12可以用于通过光流网络对待处理视频帧图像和相邻视频帧图像进行处理得到光流信息,并利用光流信息对相邻视频帧图像进行处理得到预测视频帧图像;处理模块12还可以用于联结光流信息、预测视频帧图像和待处理视频帧图像得到增强输入视频帧图像,以及通过增强网络对增强输入视频帧图像进行处理得到目标视频帧图像。
在某些实施方式中,处理器可以用于通过光流网络对待处理视频帧图像和相邻视频帧图像进行处理得到光流信息,并利用光流信息对相邻视频帧图像进行处理得到预测视频帧图像;处理器还可以用于联结光流信息、预测视频帧图像和待处理视频帧图像得到增强输入视频帧图像,以及通过增强网络对增强输入视频帧图像进行处理得到目标视频帧图像。
处理器可通过光流网络计算每一帧相邻视频帧图像到待处理视频帧图像的光流信息,再将相邻视频帧图像参照光流信息进行图像仿射(Warp)变换处理,得到预测视频帧图像。本领域技术人员可以理解地,仿射变换是指是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。另外,可以理解地,由于相邻视频帧图像包括前后两帧,因此,得到的预测视频帧图像也包括两帧。
进一步地,在得到光流信息以及得到预测视频帧图像后,依次将前一相邻帧图像、由前一帧相邻帧图像处理得到的预测视频帧图像、待处理视频帧图像、后一帧相邻帧图像处理得到的预测视频帧图像、后一相邻视频帧图像以及光流信息进行联结,得到增强输入视频帧图像。进而,将得到的增强输入视频帧图像作为增强网络的输入,通过增强网络进行处理,得到目标视频帧图像,
例如,请结合图9,在一些示例中,图像Xn-1、Xn、Xn+1为同场景中的时间节点为n-1、n和n+1的三帧视频帧图像,其中,Xn为当前视频帧图像,Xn-1和Xn+1为当前视频帧图像的相邻帧图像。将三帧视频帧图像输入图像处理算法模型后,先由光流网络分别计算Xn-1到Xn和Xn+1到Xn的光流信息F0→1、F2→1。图像Xn-1参照光流F0→1进行图像仿射(warp)变换,得到时间节点n处的预测视频帧图像W(Xn-1),同理,图像Xn+1依照光流F2→1得到时间节点n处的预测视频帧图像W(Xn+1),依次将Xn-1、W(Xn-1)、Xn、W(Xn+1)、Xn+1、F0→1、F2→1做联结(concat)操作,得到增强输入视频帧图像,进而将拼接后的数据作为增强网络(EnhanceNet)的输入进行运算,得到修复后的目标视频帧图像Yn
请参阅图10,在某些实施方式中,步骤021包括子步骤:
0211,根据待处理视频帧图像和相邻视频帧图像得到多级联结数据,第一级连接数据由待处理视频帧图像和相邻视频帧图像连接得到;
0212,对多级联结数据分别进行数据处理得到多级子光流信息,每级数据处理包括下采样处理、第一卷积处理和上采样处理,每级上采样处理的倍数是下采样处理倍数的2倍,前一级的下采样处理倍数是后一级下采样处理倍数的2倍,前一级上采样处理倍数是后一级下采样处理倍数的2倍;
0213,将待处理视频帧图像和多级子光流信息分别估计得到多级子预测图像,第一级后的每级联结数据由前一级子预测图像和相邻视频图像联结得到;
0214,将多级子光流信息相加得到光流信息。
请进一步结合图2,在某些实施方式中,子步骤0211-0214可以由处理模块12实现。也即是,处理模块12可以用于根据待处理视频帧图像和相邻视频帧图像得到多级联结数据,第一级连接数据由待处理视频帧图像和相邻视频帧图像连接得到,并对多级联结数据分别进行数据处理得到多级子光流信息,每级数据处理包括下采样处理、第一卷积处理和上采样处理,每级上采样处理的倍数是下采样处理倍数的2倍,前一级的下采样处理倍数是后一级下采样处理倍数的2倍,前一级上采样处理倍数是后一级下采样处理倍数的2倍;处理模块12还可以用于将待处理视频帧图像和多级子光流信息分别估计得到多级子预测图像,第一级后的每级联结数据由前一级子预测图像和相邻视频图像联结得到,以及将多级子光流信息相加得到光流信息。
在某些实施方式中,处理器可以用于根据待处理视频帧图像和相邻视频帧图像得到多级联结数据,第一级连接数据由待处理视频帧图像和相邻视频帧图像连接得到,并对多级联结数据分别进行数据处理得到多级子光流信息,每级数据处理包括下采样处理、第一卷积处理和上采样处理,每级上采样处理的倍数是下采样处理倍数的2倍,前一级的下采样处理倍数是后一级下采样处理倍数的2倍,前一级上采样处理倍数是后一级下采样处理倍数的2倍;处理器还可以用于将待处理视频帧图像和多级子光流信息分别估计得到多级子预测图像,第一级后的每级联结数据由前一级子预测图像和相邻视频图像联结得到,以及将多级子光流信息相加得到光流信息。
例如,请结合图11,将两帧为H×W×C的图像X0和X1,其中,H为图像的高,W为图像的宽,C为图像的通道数,彩色RGB图像的C为3。先将输入的两帧图像做联结(concat)处理,即得到H×W×2C的级联数据,将此数据下采样8倍后输入到卷积块结构ConvBlock中做卷积处理,输出8倍下采样的两幅图像之间的第一光流数据F8↓。将第一光流数据F8↓进行上采样16倍处理,并与X0做仿射变换(warp)运算,X0根据第一光流数据F8↓估计出
Figure BDA0003474372740000121
进一步地,将第一步估计得到的
Figure BDA0003474372740000122
与X1依次做联结处理、4倍下采样处理以及输入卷积块结构ConvBlock中做卷积处理,输出两幅图像之间的第二光流数据F4↓;再将第二光流数据F4↓上采样8倍,与上一步得到的上采样后的第一光流数据F8↓相加,并继续与X0做仿射变换(warp)运算,从X0估计出
Figure BDA0003474372740000131
更进一步地,将上一步得到的
Figure BDA0003474372740000132
与X1依次做concat处理和2倍下采样后输入到卷积块结构ConvBlock中做卷积处理,输出两幅图像之间的第三光流数据F2↓,,并将第三光流数据F2↓上采样4倍处理,并与上一步得到的上采样后的第二光流数据F4↓相加,继续与X0做warp运算,从X0估计出
Figure BDA0003474372740000133
最后,将上一步得到的
Figure BDA0003474372740000134
与X1做联结处理,并输入到卷积块结构ConvBlock中做卷积处理,输出两幅图像之间的第四光流数据F,将第四光流数据F上采样2倍,与上一步得到的上采样后的第三光流数据F2↓相加,即为光流网络最终输出的光流信息F0→1
请参阅图12,在某些实施方式中,步骤024包括子步骤:
0241,将预测视频帧图像和待处理视频帧图像联结并通过第二卷积处理以得到第一特征图谱;
0242,相邻视频帧图像通过第三卷积处理后与光流信息做图像仿射变换处理得到第二特征图谱和第三特征图谱;
0243,将第一特征图谱、第二特征图谱和第三特征图谱联结并通过第四卷积处理得到第四特征图谱;
0244,对第四特征图谱自适应注意力处理并通过第五卷积处理得到目标视频帧图像。
请进一步结合图2,在某些实施方式中,子步骤0241-0244可以由处理模块12实现。也即是,处理模块12可以用于将预测视频帧图像和待处理视频帧图像联结并通过第二卷积处理以得到第一特征图谱,并相邻视频帧图像通过第三卷积处理后与光流信息做图像仿射变换处理得到第二特征图谱和第三特征图谱;处理模块12还可以用于将第一特征图谱、第二特征图谱和第三特征图谱联结并通过第四卷积处理得到第四特征图谱,以及对第四特征图谱自适应注意力处理并通过第五卷积处理得到目标视频帧图像。
在某些实施方式中,处理器可以用于将预测视频帧图像和待处理视频帧图像联结并通过第二卷积处理以得到第一特征图谱,并相邻视频帧图像通过第三卷积处理后与光流信息做图像仿射变换处理得到第二特征图谱和第三特征图谱;处理器还可以用于将第一特征图谱、第二特征图谱和第三特征图谱联结并通过第四卷积处理得到第四特征图谱,以及对第四特征图谱自适应注意力处理并通过第五卷积处理得到目标视频帧图像。
例如,增强网络的输入包括F0→1、Xn-1,W(Xn-1)、Xn、W(Xn+1)、Xn+1、F2→1,各符号代表的含义如下:
F0→1:光流估计网络以Xn-1和Xn为输入计算得到的光流信息;
F2→1:光流估计网络以Xn和Xn+1为输入计算得到的光流信息;
Xn-1:与当前帧相邻的前一帧图像;
Xn:当前要处理的帧;
Xn+1:与当前帧相邻的后一帧图像;
W(Xn-1):Xn-1根据F0→1做warp运算得到的估计图像;
W(Xn+1):Xn+1根据F2→1做warp运算得到的估计图像;
将W(Xn-1)、Xn、W(Xn+1)三幅图像做concat处理后输入到第一个卷积层ConvLayer中,得到图像的第一特征图谱
Figure BDA0003474372740000141
将Xn-1输入到第二个卷积层ConvLayer中,得到图像的特征图谱后与F0→1做warp运算得到估计的第二特征图谱
Figure BDA0003474372740000142
将Xn+1输入到第三个卷积层ConvLayer中,得到图像的特征图谱后与F2→1做warp运算得到估计的第三特征图谱
Figure BDA0003474372740000143
将第一特征图谱
Figure BDA0003474372740000144
第二特征图谱
Figure BDA0003474372740000145
第三特征图谱
Figure BDA0003474372740000146
做concat处理后输入到第四个卷积层ConvLayer中得到深层的第四特征图谱
Figure BDA0003474372740000147
将第四特征图谱
Figure BDA0003474372740000148
输入到四个串联的自适应注意力模块中进行处理,其中每个自适应注意力模块的处理流程如下:
输入第四特征图谱
Figure BDA0003474372740000149
依次经过两个卷积层ConvLayer处理,得到更深层的第五特征图谱
Figure BDA00034743727400001410
第五特征图谱
Figure BDA00034743727400001411
经过通道注意力模块计算得到
Figure BDA00034743727400001412
自适应注意力模块的输出即为
Figure BDA00034743727400001413
第四个自适应注意力模块的输出经过第四个卷积层ConvLayer卷积处理,即得到增强网络的目标视频帧图像。
请结合图13,本申请实施方式提供了一种图像处理算法模型的训练方法,其中,图像处理算法模型包括光流网络和增强网络,图像处理算法模型的训练方法:
001,获取训练视频帧图像和训练视频帧图像的相邻训练视频帧图像;
002,通过构建的图像处理算法模型,在多个训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到训练输出视频帧图像;
003,在多个训练阶段,基于训练输出视频帧图像,分别通过多个损失函数计算图像处理算法模型的损失值;
004,根据图像处理算法模型的损失值对相应训练阶段的图像处理算法模型的参数进行修正。
请结合图14,本申请实施方式提供了一种图像处理算法模型的训练装置20,训练装置20包括第二获取模块21、构建模块22、计算模块23和修正模块24。
步骤001可以由第二获取模块21实现,步骤002可以由构建模块22实现,步骤003可以由计算模块23实现,步骤004可以由修正模块24实现。或者说,第二获取模块21可以用于获取训练视频帧图像和训练视频帧图像的相邻训练视频帧图像,构建模块22可以用于通过构建的图像处理算法模型,在多个训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到训练输出视频帧图像,计算模块23可以用于在多个训练阶段,基于训练输出视频帧图像,分别通过多个损失函数计算图像处理算法模型的损失值,修正模块24可以用于根据图像处理算法模型的损失值对相应训练阶段的图像处理算法模型的参数进行修正。
本申请还提供了一种电子设备,电子设备包括处理器、存储器和计算机程序,当计算机程序被处理器执行时,使得处理器用于:获取训练视频帧图像和训练视频帧图像的相邻训练视频帧图像,并通过构建的图像处理算法模型,再在多个训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到训练输出视频帧图像,在多个训练阶段,基于训练输出视频帧图像,分别通过多个损失函数计算图像处理算法模型的损失值,根据图像处理算法模型的损失值对相应训练阶段的图像处理算法模型的参数进行修正。
本申请实施方式的图像处理算法模型的训练方法、训练装置20和电子设备中,通过在多个训练阶段,将构建的图像处理算法模型在对训练视频帧图像以及相邻帧训练视频帧图像进行处理,得到训练输出视频帧图像,以及通过在多个训练阶段,由分别由对应的损失函数根据训练输出视频帧图像计算出图像处理算法模型的损失值,并根据图像处理算法模型的损失值对相应训练阶段的图像处理算法模型的参数进行修正,从而,可以保证训练后的算法处理模型的准确性。如此,当采用训练后的算法处理模型对视频帧图像进行修复时,可以有效地改善视频帧图像模糊、伪影、色块、噪声等问题,保证视频帧图像内容的准确性,提升视频帧图像的显示效果。
请参阅图15,在某些实施方式中,步骤001包括子步骤:
0011,将原始视频经过一次或多次压缩重制得到训练视频;
0012,对训练视频的进行分割处理得到至少一个训练子视频,训练子视频包括多个场景相同的连续视频帧图像;
0013,通过帧复制对训练子视频的第一帧和最后一帧进行复制补齐;
0014,在训练子视频中获取训练视频帧图像和与训练视频帧图像相邻的两个训练视频帧图像。
在某些实施方式中,子步骤0011-0014可以由第二获取模块21实现,或者说,第二获取模块21用于将原始视频经过一次或多次压缩重制得到训练视频,并在训练子视频中获取训练视频帧图像和与训练视频帧图像相邻的两个训练视频帧图像。第二获取模块21还可用于通过帧复制对训练子视频的第一帧和最后一帧进行复制补齐,以及通过第二阶段训练好的图像处理算法模型,在训练子视频中获取训练视频帧图像和与训练视频帧图像相邻的两个训练视频帧图像。
在某些实施方式中,处理器还可以用于将原始视频经过一次或多次压缩重制得到训练视频,并在训练子视频中获取训练视频帧图像和与训练视频帧图像相邻的两个训练视频帧图像,处理器还可用于通过帧复制对训练子视频的第一帧和最后一帧进行复制补齐,以及通过第二阶段训练好的图像处理算法模型,在训练子视频中获取训练视频帧图像和与训练视频帧图像相邻的两个训练视频帧图像。
如此,可以理解地,一段视频中包含多个场景,而由于图像处理算法模型中使用了光流网络计算相邻帧的运动估计,若前后非同一场景下的画面,则会引入无效的光流信息,甚至对输出结果造成干扰,因此,需要对训练视频中的场景进行分割和处理,得到多个训练子视频。如此,可以保证训练子视频中相邻训练帧图像之间的内容相似。
进一步地,由于在训练子视频中,第一帧训练视频帧图像只包括在后一帧的相邻训练视频帧图像,而最后一帧训练视频帧图像只包括在前一帧的相邻训练视频帧图像。因此,在子步骤0013中,需要通过帧复制对训练子视频的第一帧和最后一帧训练视频帧图像进行复制,补齐第一帧训练视频帧图像在前一帧的相邻训练视频帧图像,以及最后一帧训练视频帧图像的在后一帧的相邻训练视频帧图像。使得第一帧训练视频帧图像和最后一帧训练视频帧图像都包括对应的前后两帧相邻训练视频帧图像。如此,每一帧训练视频帧图像都包括有两个相邻训练视频帧图像。
请参阅图16,在某些实施方式中,步骤002包括子步骤:
0021,通过构建的图像处理算法模型,在第一训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第一训练输出视频帧图像;
步骤003包括子步骤:
0031,在第一训练阶段,基于第一训练输出视频帧图像,通过第一损失函数计算图像处理算法模型的损失值;
步骤004包括子步骤:
0041:根据第一损失函数计算的图像处理算法模型的损失值对第一训练阶段的图像处理算法模型的参数进行修正,得到第一训练阶段训练好的图像处理算法模型。
在某些实施方式中,子步骤0021可以由构建模块22实现,子步骤0031可以由计算模块23实现,子步骤0041可以由修正模块24实现。或者说,构建模块22还用于通过构建的图像处理算法模型,在第一训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第一训练输出视频帧图像。计算模块23还可用于在第一训练阶段,基于第一训练输出视频帧图像,通过第一损失函数计算图像处理算法模型的损失值;修正模块24还用于根据第一损失函数计算的图像处理算法模型的损失值对第一训练阶段的图像处理算法模型的参数进行修正,得到第一训练阶段训练好的图像处理算法模型。
在某些实施方式中,处理器可用于通过构建的图像处理算法模型,在第一训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第一训练输出视频帧图像。以及在第一训练阶段,基于第一训练输出视频帧图像,通过第一损失函数计算图像处理算法模型的损失值;处理器还用于根据第一损失函数计算的图像处理算法模型的损失值对第一训练阶段的图像处理算法模型的参数进行修正,得到第一训练阶段训练好的图像处理算法模型。
需要说明的是,第一损失函数表示为:
Figure BDA0003474372740000171
其中,
Figure BDA0003474372740000172
为真值图像,W、H、C分别为第一训练输出视频帧图像的高、宽和通道数。
具体地,在第一训练阶段,先通过构建的图像处理算法模型对训练视频帧图像和与其相邻的视频帧图像进行处理,得到第一训练输出视频帧图像,再将第一训练输出视频帧图像输入至第一损失函数,由第一损失函数对第一训练输出视频帧图像和真值图像进行计算,得到图像处理算法模型的损失值。进而,再根据损失值对构建的图像处理算法模型的参数进行修正,得到第一训练阶段训练好的图像处理算法模型。
其中,在第一训练阶段中,图像处理算法模型的学习率可以为第一预设值。第一预设值可以设置的较大,例如,第一预设值可以设置为1×10-3,可以理解地,使用较大学习率可以令图像处理算法模型的损失值快速收敛,此时,图像处理算法模型受第一损失函数的影响,更注重重建图像中包含较少细节的低频内容。
请参阅图17,在某些实施方式中,步骤002包括子步骤:
0022,通过第一训练阶段训练好的图像处理算法模型,在第二训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第二训练输出视频帧图像;
0023,通过鉴别网络对第二训练输出视频帧图像进行处理,得到鉴别输出值;
步骤003包括子步骤:
0032,在第二训练阶段,基于鉴别输出值,通过第二损失函数计算图像处理算法模型的损失值;
步骤004包括子步骤:
0042:根据第二损失函数计算的图像处理算法模型的损失值对第二训练阶段的图像处理算法模型的参数进行修正,得到第二训练阶段训练好的图像处理算法模型。
在某些实施方式中,子步骤0022-0023可以由构建模块22实现,子步骤0032可以由计算模块23实现,子步骤0042可以由修正模块24实现。或者说,构建模块22还用于通过第一训练阶段训练好的图像处理算法模型,在第二训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第二训练输出视频帧图像,以及通过鉴别网络对第二训练输出视频帧图像进行处理,得到鉴别输出值;计算模块23还可用于在第二训练阶段,基于鉴别输出值,通过第二损失函数计算图像处理算法模型的损失值;修正模块24还用于根据第二损失函数计算的图像处理算法模型的损失值对第二训练阶段的图像处理算法模型的参数进行修正,得到第二训练阶段训练好的图像处理算法模型。
在某些实施方式中,处理器可用于通过第一训练阶段训练好的图像处理算法模型,在第二训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第二训练输出视频帧图像,以及通过鉴别网络对第二训练输出视频帧图像进行处理,得到鉴别输出值;处理器还可用于在第二训练阶段,基于鉴别输出值,通过第二损失函数计算图像处理算法模型的损失值;以及根据第二损失函数计算的图像处理算法模型的损失值对第二训练阶段的图像处理算法模型的参数进行修正,得到第二训练阶段训练好的图像处理算法模型。
需要说明的是,第二损失函数表示为:
Figure BDA0003474372740000181
其中,
Figure BDA0003474372740000182
为真值图像,
Figure BDA0003474372740000183
为真值图像的鉴别输出值,D(Y)为第二训练输出视频帧图像的鉴别输出值。
具体地,在第二训练阶段中,通过第一训练阶段训练好的图像处理算法模型作为生成器网络,再设置鉴别器网络,从而形成生成对抗网络。由生成器网络对训练视频帧图像和相邻训练视频帧图像进行处理,得到第二训练输出视频帧图像。再由鉴别网络对由生成器网络生成的第二训练输出视频帧图像进行处理,得到鉴别输出值。进而,再通过第二损失函数根据鉴别输出值和真值图像进行计算,得到图像处理算法模型的损失值,以及根据损失值对第二训练阶段的图像处理算法模型的参数进行修正,得到第二训练阶段训练好的图像处理算法模型。
进一步地,在第二训练阶段中,图像处理算法模型的学习率为第二预设值,鉴别器网络的学习率为第三预设值,第二预设值小于第一预设值,第二预设值小于第三预设值。例如,在一些示例中,第二预设值可以设置为1×10-4,第三预设值可以设置为1×10-3。可以理解地,在第二训练阶段,通过设置较小的学习率,使得图像处理算法模型可以转为重建图像中的高频细节信息,提升图像的清晰度,增强视觉感官效果。而将鉴别器网络的学习率设置较大,可以提高对抗训练的效率。
如此,在第二阶段,通过生成对抗网络的设置,可以使得图像处理算法模型增加修复画面中的细节和纹理,从而,在后续通过图像处理算法模型对待处理视频帧和与其相邻视频帧图像处理而得到目标视频帧图像时,可以进一步地提升目标视频帧图像的画质。
例如,请结合图18,在一些场景中,图17为对比图像,其中,(a)为压缩图像,(b)为真值图像(原始图像),(c)为图像处理算法模型经过第二训练阶段后,由图像处理算法模型生成的图像。可以看到,当图像处理算法模型通过对抗训练后,生成的图像具有高频细节信息,如此,提升了图像的清晰度,增强视觉感官效果。
请参阅图19,在某些实施方式中,步骤002包括子步骤:
0024,通过第二阶段训练好的图像处理算法模型,在第三训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第三训练输出视频帧图像。
步骤003包括子步骤:
0033,在第三训练阶段,基于第三训练输出视频帧图像,通过第三损失函数计算图像处理算法模型的损失值;
步骤004包括子步骤:
0043:根据第三损失函数计算的图像处理算法模型的损失值对第三训练阶段的图像处理算法模型的参数进行修正,得到训练好的图像处理算法模型。
在某些实施方式中,子步骤0024可以由构建模块22实现,子步骤0033可以由计算模块23实现,子步骤0043可以由修正模块24实现。或者说,构建模块22还用于通过第二阶段训练好的图像处理算法模型,在第三训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第三训练输出视频帧图像;计算模块23还可用于在第三训练阶段,基于第三训练输出视频帧图像,通过第三损失函数计算图像处理算法模型的损失值;修正模块24还用于根据第三损失函数计算的图像处理算法模型的损失值对第三训练阶段的图像处理算法模型的参数进行修正,得到训练好的图像处理算法模型。
在某些实施方式中,处理器可用于通过第二阶段训练好的图像处理算法模型,在第三训练阶段对训练视频帧图像和相邻训练视频帧图像进行处理得到第三训练输出视频帧图像;处理器还可用于在第三训练阶段,基于第三训练输出视频帧图像,通过第三损失函数计算图像处理算法模型的损失值,以及根据第三损失函数计算的图像处理算法模型的损失值对第三训练阶段的图像处理算法模型的参数进行修正,得到训练好的图像处理算法模型。
需要说明的是,第三损失函数表示为:
Figure BDA0003474372740000201
Figure BDA0003474372740000202
Figure BDA0003474372740000203
其中,A(X)为图像与真值图像在频率域上的振幅,P(X)为相位的欧氏距离,LFFT为第三损失函数,Xf为X通过快速傅里叶变换得到的频谱图,Im(Xf)为Xf的虚数部分,Re(Xf)为Xf的实数部分。
具体地,在第三训练阶段中,通过第二阶段训练修正后的图像处理算法模型,对训练视频帧图像和相邻训练视频帧图像进行处理,得到第三训练输出视频帧图像。进而,将第三训练输出视频帧图像输入至第三损失函数。由第三损失函数对第三训练输出视频帧图像和真值图像进行计算,生成第三训练输出视频帧图像与真值图像在频率域上的振幅和相位的欧氏距离,进而,再根据频率域上的振幅和相位的欧氏距离对第二训练阶段修正后的图像处理算法模型进行第三次修正,得到第三训练阶段训练好的图像处理算法模型。
需要说明的是,在第三训练阶段,可通过调整图像处理算法模型的训练时间和参数学习率,从而得到不同纠正程度的图像处理模型,最后,再从中筛选效果最优的模型参数。如此,通过多种不同损失函数的交叉训练可以控制修复画面在低频内容的保真度与高频细节之间的平衡。
本申请实施方式还提供一种包含计算机程序的非易失性计算机可读存储介质,当计算机程序被处理器执行时,使得处理器执行上述视频帧图像的处理方法以及上述图像处理算法模型的训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施方式的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请实施方式的具体实施方式,但本申请实施方式的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施方式的保护范围之内。因此,本申请实施方式的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种视频帧图像的处理方法,其特征在于,所述处理方法包括:
获取待处理视频帧图像和所述待处理视频帧图像的相邻视频帧图像;
通过图像处理算法模型对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到目标视频帧图像;
其中,所述图像处理算法模型包括光流网络和增强网络,所述图像处理算法模型通过在多个训练阶段分别利用多个损失函数依次训练得到。
2.根据权利要求1所述的处理方法,其特征在于,所述通过图像处理算法模型对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到目标视频帧图像,包括:
通过所述光流网络对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到光流信息;
利用所述光流信息对所述相邻视频帧图像进行处理得到预测视频帧图像;
联结所述光流信息、所述预测视频帧图像和所述待处理视频帧图像得到增强输入视频帧图像;
通过所述增强网络对所述增强输入视频帧图像进行处理得到所述目标视频帧图像。
3.根据权利要求2所述的处理方法,其特征在于,所述通过所述光流网络对所述待处理视频帧图像和所述相邻视频帧图像进行处理得到光流信息包括:
根据所述待处理视频帧图像和所述相邻视频帧图像得到多级联结数据,第一级所述连接数据由所述待处理视频帧图像和所述相邻视频帧图像连接得到;
对多级所述联结数据分别进行数据处理得到多级子光流信息,每级数据处理包括下采样处理、第一卷积处理和上采样处理,每级上采样处理的倍数是下采样处理倍数的2倍,前一级的下采样处理倍数是后一级下采样处理倍数的2倍,前一级上采样处理倍数是后一级下采样处理倍数的2倍;
将所述待处理视频帧图像和多级所述子光流信息分别估计得到多级子预测图像,第一级后的每级联结数据由前一级所述子预测图像和所述相邻视频图像联结得到;
将多级所述子光流信息相加得到所述光流信息。
4.根据权利要求2所述的处理方法,其特征在于,所述通过所述增强网络对所述增强输入视频帧图像进行处理得到所述目标视频帧图像,包括:
将预测视频帧图像和所述待处理视频帧图像联结并通过第二卷积处理以得到第一特征图谱;
所述相邻视频帧图像通过第三卷积处理后与所述光流信息做图像仿射变换处理得到第二特征图谱和第三特征图谱;
将所述第一特征图谱、所述第二特征图谱和第三特征图谱联结并通过第四卷积处理得到第四特征图谱;
对所述第四特征图谱自适应注意力处理并通过第五卷积处理得到所述目标视频帧图像。
5.根据权利要求1所述的处理方法,其特征在于,所述获取待处理视频帧图像和所述待处理视频帧图像的相邻视频帧图像,包括:
对所述待处理视频进行分割处理得到至少一个子视频,所述子视频包括多个场景相同的连续视频帧图像;
通过帧复制对所述子视频的第一帧和最后一帧进行复制补齐;
在所述子视频中获取所述待处理视频帧图像和与所述待处理视频帧图像相邻的两个所述相邻视频帧图像。
6.根据权利要求5所述的处理方法,其特征在于,对所述待处理视频进行分割处理得到至少一个子视频,包括:
将所述待处理视频的相邻两帧转换到预设颜色空间;
获取所述待处理视频的相邻两帧在所述预设颜色空间下,预设颜色通道的直方图;
在所述待处理视频的相邻两帧对应所述预设颜色通道的直方图满足预设条件的情况下,确定所述待处理视频的相邻两帧为同一所述子视频的连续视频帧图像。
7.根据权利要求6所述的处理方法,其特征在于,所述待处理视频包括压缩重制后得到的视频。
8.一种图像处理算法模型的训练方法,其特征在于,所述图像处理算法模型包括光流网络和增强网络,所述训练方法包括:
获取训练视频帧图像和所述训练视频帧图像的相邻训练视频帧图像;
通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像;
在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值;
根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正。
9.根据权利要求8所述的训练方法,其特征在于,所述通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像,包括:
通过构建的所述图像处理算法模型,在第一训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到第一训练输出视频帧图像;
所述在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值,包括:
在所述第一训练阶段,基于所述第一训练输出视频帧图像,通过第一损失函数计算所述图像处理算法模型的损失值;
所述根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正,包括:
根据所述第一损失函数计算的所述图像处理算法模型的损失值对所述第一训练阶段的所述图像处理算法模型的参数进行修正,得到所述第一训练阶段训练好的所述图像处理算法模型。
10.根据权利要求9所述的训练方法,其特征在于,所述第一损失函数表示为:
Figure FDA0003474372730000031
其中,
Figure FDA0003474372730000032
为真值图像,W、H、C分别为所述第一训练输出视频帧图像的高、宽和通道数。
11.根据权利要求9所述的训练方法,其特征在于,所述通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像,包括:
通过所述第一训练阶段训练好的所述图像处理算法模型,在所述第二训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到第二训练输出视频帧图像;
通过所述鉴别网络对所述第二训练输出视频帧图像进行处理,得到鉴别输出值;
所述在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值,包括:
在所述第二训练阶段,基于所述鉴别输出值,通过第二损失函数计算所述图像处理算法模型的损失值;
所述根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正,包括:
根据所述第二损失函数计算的所述图像处理算法模型的损失值对所述第二训练阶段的所述图像处理算法模型的参数进行修正,得到所述第二训练阶段训练好的所述图像处理算法模型。
12.根据权利要求11所述的训练方法,其特征在于,所述第二损失函数表示为:
Figure FDA0003474372730000041
其中,
Figure FDA0003474372730000042
为真值图像,
Figure FDA0003474372730000043
为真值图像的鉴别输出值,D(Y)为第二训练输出视频帧图像的鉴别输出值。
13.根据权利要求11所述的训练方法,其特征在于,所述通过构建的所述图像处理算法模型,在多个训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到训练输出视频帧图像,包括:
通过所述第二阶段训练好的所述图像处理算法模型,在第三训练阶段对所述训练视频帧图像和所述相邻训练视频帧图像进行处理得到第三训练输出视频帧图像;
所述在多个所述训练阶段,基于所述训练输出视频帧图像,分别通过多个损失函数计算所述图像处理算法模型的损失值,包括:
在所述第三训练阶段,基于所述第三训练输出视频帧图像,通过第三损失函数计算所述图像处理算法模型的损失值;
所述根据所述图像处理算法模型的损失值对相应训练阶段的所述图像处理算法模型的参数进行修正,包括:
根据所述第三损失函数计算的所述图像处理算法模型的损失值对所述第三训练阶段的所述图像处理算法模型的参数进行修正,得到训练好的所述图像处理算法模型。
14.根据权利要求13所述的训练方法,其特征在于,所述第三损失函数包括快速傅里叶变换损失函数,所述第三损失函数表示为:
Figure FDA0003474372730000044
Figure FDA0003474372730000051
Figure FDA0003474372730000052
其中,Xf为X通过快速傅里叶变换得到的频谱图,Im(Xf)为Xf的虚数部分,Re(Xf)为Xf的实数部分。
15.根据权利要求11-14任一项所述的训练方法,其特征在于,所述第一训练阶段中,所述图像处理算法模型的学习率为第一预设值,所述第二训练阶段中,所述图像处理算法模型的学习率为第二预设值,所述鉴别器网络的学习率为第三预设值,所述第二预设值小于所述第一预设值,所述第二预设值小于所述第三预设值。
16.根据权利要求8所述的训练方法,其特征在于,所述获取训练视频帧图像和所述训练视频帧图像的相邻训练视频帧图像,包括:
将原始视频经过一次或多次压缩重制得到训练视频;
对所述训练视频进行分割处理得到至少一个训练子视频,所述训练子视频包括多个场景相同的连续视频帧图像;
通过帧复制对所述训练子视频的第一帧和最后一帧进行复制补齐;
在所述训练子视频中获取所述训练视频帧图像和与所述训练视频帧图像相邻的两个所述相邻训练视频帧图像。
17.一种电子设备,其特征在于,包括处理器、存储器和计算机程序,其中,所述计算机程序被存储在所述存储器中,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-7中任一项所述的视频帧图像的处理方法或权利要求8-16中任一项所述的图像处理算法模型的训练方法。
18.一种包含计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-7中任一项所述的视频帧图像的处理方法或权利要求8-16中任一项所述的图像处理算法模型的训练方法。
CN202210051080.8A 2022-01-17 2022-01-17 处理方法、训练方法、装置、电子设备及介质 Pending CN114418882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210051080.8A CN114418882A (zh) 2022-01-17 2022-01-17 处理方法、训练方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210051080.8A CN114418882A (zh) 2022-01-17 2022-01-17 处理方法、训练方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN114418882A true CN114418882A (zh) 2022-04-29

Family

ID=81274327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210051080.8A Pending CN114418882A (zh) 2022-01-17 2022-01-17 处理方法、训练方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114418882A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116866665A (zh) * 2023-09-05 2023-10-10 中信建投证券股份有限公司 一种视频播放方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116866665A (zh) * 2023-09-05 2023-10-10 中信建投证券股份有限公司 一种视频播放方法、装置、电子设备及存储介质
CN116866665B (zh) * 2023-09-05 2023-11-14 中信建投证券股份有限公司 一种视频播放方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108022212B (zh) 高分辨率图片生成方法、生成装置及存储介质
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
US10032261B2 (en) Methods, systems and apparatus for over-exposure correction
US20210150769A1 (en) High efficiency image and video compression and decompression
CN112598579A (zh) 面向监控场景的图像超分辨率方法、装置及存储介质
CN111491170A (zh) 嵌入水印的方法及水印嵌入装置
CN113727141B (zh) 视频帧的插值装置以及方法
Liang et al. Improved non-local iterative back-projection method for image super-resolution
CN116205820A (zh) 图像增强方法、目标识别方法、设备及介质
US11948278B2 (en) Image quality improvement method and image processing apparatus using the same
CN114418882A (zh) 处理方法、训练方法、装置、电子设备及介质
US11960996B2 (en) Video quality assessment method and apparatus
US20220335560A1 (en) Watermark-Based Image Reconstruction
Liu et al. Facial image inpainting using multi-level generative network
US20230050950A1 (en) Noise synthesis for digital images
Athar et al. Degraded reference image quality assessment
JP2009224901A (ja) 画像のダイナミックレンジ圧縮方法、画像処理回路、撮像装置およびプログラム
CN111861940A (zh) 一种基于条件连续调节的图像调色增强方法
CN112669240B (zh) 高清图像修复方法、装置、电子设备和存储介质
CN115049558A (zh) 模型训练、人脸图像处理方法及装置、电子设备及可读存储介质
CN112995433B (zh) 一种时序视频生成方法、装置、计算设备及存储介质
CN115049559A (zh) 模型训练、人脸图像处理、人脸模型处理方法及装置、电子设备及可读存储介质
JP2017073135A (ja) ビデオエピトメを用いて画像からノイズを除去する方法及び装置
JP2019165434A (ja) 減少したクリップ領域を有するhdrイメージを生成する方法及び装置
US20230267706A1 (en) Video remastering via deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination