CN115511756A - 视频增强处理方法、装置、电子设备和存储介质 - Google Patents

视频增强处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN115511756A
CN115511756A CN202110697703.4A CN202110697703A CN115511756A CN 115511756 A CN115511756 A CN 115511756A CN 202110697703 A CN202110697703 A CN 202110697703A CN 115511756 A CN115511756 A CN 115511756A
Authority
CN
China
Prior art keywords
image
enhanced
enhancement
video
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110697703.4A
Other languages
English (en)
Inventor
王学嘉
崔文学
刘天鸿
姜峰
刘绍辉
赵德斌
吴钊
吴平
高莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
ZTE Corp
Original Assignee
Harbin Institute of Technology
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, ZTE Corp filed Critical Harbin Institute of Technology
Priority to CN202110697703.4A priority Critical patent/CN115511756A/zh
Priority to PCT/CN2022/100898 priority patent/WO2022268181A1/zh
Publication of CN115511756A publication Critical patent/CN115511756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种视频增强处理方法、装置、电子设备和存储介质,其中,该方法包括:确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;根据预设特征增强网络处理所述时空特征图以生成叠加图像;根据所述叠加图像处理所述待增强图像以生成视频增强图像。本申请实施例通过包括时空特征的图像对待增强图像进行处理以生成视频增强图像,基于视频重建图像的时空特征提高图像的显示质量,提高视频的显示效果,可增强用户的观看体验。

Description

视频增强处理方法、装置、电子设备和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种视频增强处理方法、装置、电子设备和存储介质。
背景技术
随着视频应用的与日俱增,视频应用场景变得更加灵活多样,视频分辨率范围逐渐增加,这意味着对视频的压缩质量具有更高的要求。经过压缩的视频存在失真和压缩噪声的问题,经过压缩复原后的视频存在不同程度的质量损失,如何降低这些质量损失,提高视频质量,成为视频处理的重要领域。
目前,视频压缩编码标准H.256/HEVC和H.266/VCC对于压缩图像的后处理主要采用的是环路滤波技术,其包括去方块滤波(Deblocking Filter,DF)、像素自适应补偿(Sample Adaptive Offset,SAO)和自适应环路滤波(Adaptive Loop Filter,ALF)。其中,方块滤波包括两个环节:滤波决策和滤波操作;SAO通过选择一个合适的分类器将重建像素划分类别,然后对不同类别像素使用不同的补偿值;ALF,根据具备梯度的方向性和活动性来选择合适的滤波系数。这些传统方法能够在一定程度上消除压缩噪声并提高压缩视频质量,但是由于滤波算法使用的参数固定,不能完全还原有损压缩图像与原始图像之间的映射关系。
而近年来,随着深度学习的兴起,视频领域尝试应用深度学习来降低视频压缩损失。相比传统的视频增强处理方法,深度学习技术基于大数据而具有自行学习的能力,可摒弃传统人工设置学习特征,提高有损压缩图像与原始图像之间的映射关系,从而提高视频质量。同时,由于深度学习的学习效果依赖于训练数据的数据量,深度学习的效果、鲁棒性以及泛化能力会随着数据量的增大而增强。鉴于视频图像在压缩后存在模糊和细节信息弱化的问题,针对这些问题,深度学习中多采用基于单帧质量增强视频,但是由于压缩视频中图像本身的真值并不存在,存在不适定性问题,基于深度学习的图像增强处理主要依赖于外部训练集的习得的先验知识,视频质量的增强存在进步空间。
发明内容
本申请实施例的主要目的在于提出一种视频增强处理方法、装置、电子设备和存储介质,其旨在提高视频压缩重建图像的显示质量,增强用户的观看效果。
本申请实施例提供了一种视频增强处理方法,该方法包括以下步骤:
确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
根据预设特征增强网络处理所述时空特征图以生成叠加图像;
根据所述叠加图像处理所述待增强图像以生成视频增强图像。
本申请实施例还提供了另一种视频增强处理方法,该方法包括以下步骤:
确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
传输所述时空特征图和所述预设特征增强网络。
本申请实施例还提供了另一种视频增强处理方法,该方法包括以下步骤:
接收时空特征图和预设特征增强网络;
根据预设特征增强网络处理所述时空特征图以生成叠加图像;
根据所述叠加图像处理所述待增强图像以生成视频增强图像。
本申请实施例提供了一种视频增强处理装置,该装置包括:
图像提取模块,用于确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
特征图模块,用于基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
特征增强模块,用于根据预设特征增强网络处理所述时空特征图以生成叠加图像;
增强图像模块,用于根据所述叠加图像处理所述待增强图像以生成视频增强图像。
本申请实施例还提供了另一种视频增强处理装置,该装置包括:
图像提取模块,用于确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
特征图模块,用于基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
编码发送模块,用于传输所述时空特征图和所述预设特征增强网络。
本申请实施例还提供了另一种视频增强处理装置,该装置包括:
解码接收模块,用于接收时空特征图和预设特征增强网络;
特征增强模块,用于根据预设特征增强网络处理所述时空特征图以生成叠加图像;
增强图像模块,用于根据所述叠加图像处理所述待增强图像以生成视频增强图像。
本申请实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请实施例中任一所述的视频增强处理方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本申请实施例中任一所述的视频增强处理方法。
本申请实施例,通过确定出待增强图像的增强辅助图像,使用预设特征提取网络对带增强图像和增强辅助图像进行处理以获取到时空特征图,基于预设增强网络处理时空特征图生成叠加图像,按照该叠加图像对待增强图像进行处理以生成视频增强图像,基于视频重建图像的时空特征提高图像的显示质量,提高视频的显示效果,可增强用户的观看体验。
附图说明
图1是本申请实施例提供的一种视频增强处理方法的流程图;
图2a是本申请实施例提供的一种增强辅助图像的选择示例图;
图2b是本申请实施例提供的一种增强辅助图像的选择示例图;
图2c是本申请实施例提供的一种增强辅助图像的选择示例图;
图3是本申请实施例提供的一种三维可变形卷积残差块的结构示意图;
图4是本申请实施例提供的一种卷积残差块结构示意图;
图5是本申请实施例提供的一种网络模型的传输示例图;
图6是本申请实施例提供的一种部分区域图像处理示意图;
图7是本申请实施例提供的一种视频增强处理框图;
图8是本申请实施例提供的一种视频增强处理方法的流程图;
图9是本申请实施例提供的一种特征提取过程的示例图;
图10是本申请实施例提供的一种三维可变形卷积网络的示例图;
图11是本申请实施例提供的一种特征增强过程的示例图;
图12是本申请实施例提供的一种视频增强处理方法的流程图;
图13是本申请实施例提供的一种视频增强处理方法的流程图;
图14是本申请实施例提供的一种视频增强处理的示例图;
图15是本申请实施例提供的另一种视频增强处理的示例图;
图16是本申请实施例提供的一种视频增强处理装置的结构示意图;
图17是本申请实施例提供的一种视频增强处理装置的结构示意图;
图18是本申请实施例提供的一种视频增强处理装置的结构示意图;
图19是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
图1是本申请实施例提供的一种视频增强处理方法的流程图,本申请实施例可以适用于增强解码视频的图像显示质量的情况,该方法可以由视频增强处理装置来执行,该装置可以通过软件和/或硬件方式实现,并一般基础在视频解码端,参见图1,本申请实施例提供的方法具体包括如下步骤:
步骤110、确定待增强图像的增强辅助图像,其中,增强辅助图像和待增强图像为压缩视频数据解码生成的重建图像。
其中,待增强图像可以是需要进行画面显示效果增强的图像,该图像可以是在视频解码后生成的图像,该图像相比压缩前的视频图像存在损失,增强辅助图像可以辅助待增强图像进行显示增强的图像,增强辅助图像在时空上可以与待增强图像存在关联关系,例如,增强辅助图像可以是待增强图像在视频时间线上的前一帧或后一帧,增强辅助图像可以与待增强图像具有关联的图像,图像内可以包括相同对象,或者图像尺寸均有比例关系。重建图像可以是指视频原始图像经过压缩变换后生成的视频数据,且经过解码生成的图像,重建图像具有压缩失真的特性,重建图像可以作为参考图像用于帧间编码,也可以是视频解码生成。
在本申请实施例中,可以以待增强图像为准在压缩视频数据解码生成的各重建图像中选择一帧或多帧重建图像作为增强辅助图像,可以理解的是,待增强图像与增强辅助图像在时空上具有关联关系。示例性的,在视频解码生成多帧重建图像中,可以时间线上当前时刻t前后的几帧重建图像作为增强辅助图像,参见图2a,待增强图像为t时刻的重建图像,可以选取值该图像前面t-2和t-1时刻的两帧重建图像以及该图像后面t+1和t+2时刻两帧重建图像作为增强辅助图像;参见图2b,待增强图像为t时刻的重建图像,间隔一帧获取它前面t-4和t-2时刻的两帧重建图像以及它后面的t+2和t+4两帧重建图像作为增强辅助图像;或者,如图2c,当前帧为待增强图像,可以选取当前帧前后各两帧I帧重建图像作为增强辅助图像,其中,I帧可以为帧内编码帧。
步骤120、基于待增强图像、增强辅助图像和预设特征提取网络确定时空特征图。
其中,预设特征提取网络可以是预先训练的神经网络,可以用于提取待增强图像与增强辅助图像间的时空特征,预设特征提取网络可以具体为可变形卷积神经网络,可以为三维输入,预设特征提取网络可以使用大量的重建图像训练生成。
具体的,可以将待增强图像和增强辅助图形输入到预设特征提取网络,经过预设特征提取网络的处理确定出待增强图形和增强辅助图形的时空特征图,其中,时空特征图可以是预设特征提取网络输出的结果,该结果可以以图的形式反映出待增强图像与增强辅助图像之间的时空特征关联关系,该时空特征关联关系可以包括图像中特征的数据表示或者像素点改变程度等。
步骤130、根据预设特征增强网络处理时空特征图以生成叠加图像。
其中,预设特征增强网络可以是对时空特征图进行处理的神经网络模型,预设特征增强网络可以为卷积神经网络,预设特征增强网络可以通过海量的包括时空特征的特征图训练生成,预设特征增强网络输出的结果可以为二维图像,该二维图像可以用于增强待增强图像的显示效果,二维图像中可以包括时空特征和/或帧内特征对应的信息,预设特征增强网络经过海量的特征图训练后可以通过时空特征图中包括的一个或者多个时空特征数据生成叠加图像,叠加图像中可以包括待增强图像中各位置上需要补充的信息,该信息可以包括亮度值、色度值、颜色值等。
在本申请实施例中,可以将时空特征图输入到预设特征增强网络,可以由预设特征增强网络处理该时空特征图,将时空特征图转换为补充待增强图像的叠加图像,该叠加图像中包括的信息可以用于补充待增强图像,以便增强重建图像的显示效果。
步骤140、根据叠加图像处理待增强图像以生成视频增强图像。
具体的,可以使用叠加图像对待增强图像进行显示效果的增强。例如,可以提取叠加图像中像素值,如亮度或色度等信息,可以按照像素值的平均值对待增强图像中对应的区域进行显示增强,例如,可以增加或减少对应平均值的像素值,或者,可以将叠加图像直接与待增强图像进行叠加,在待增强图像中各位置增加或减少对应叠加图像中包括的像素值,可以将叠加生成的图像作为视频增强图像。
本申请实施例,通过确定出待增强图像的增强辅助图像,使用预设特征提取网络对带增强图像和增强辅助图像进行处理以获取到时空特征图,基于预设增强网络处理时空特征图生成叠加图像,按照该叠加图像对待增强图像进行处理以生成视频增强图像,基于视频重建图像的时空特征提高图像的显示质量,提高视频的显示效果,可增强用户的观看体验。
进一步的,在上述申请实施例的基础上,所述确定待增强图像的增强辅助图像,包括:按照时间顺序在视频解码生成的重建图像集中分别在所述待增强图像之前和/或之后分别获取阈值数量的重建图像作为增强辅助图像,其中,所述重建图像集包括至少两帧重建图像。
其中,时间顺序可以是重建图像对应的视频的播放时间顺序,阈值数量可以是提取重建图像的帧数,在待增强图像之前和之后的阈值数量可以相同也可以不同。例如,可以在待增强图像之前提取2帧重建图像作为增强辅助图像,在待增强图像之后提取3帧重建图像作为增强辅助图像。
在本申请实施例中,可以在识别解码生成的重建图像集中,按照视频播放的时间顺序,在待增强图像之前的重建图像中提取阈值数量的重建图像作为增强辅助图像,以及在待增强图像之后的重建图像中提取阈值数量的重建图像作为增强辅助图像。
进一步的,在上述申请实施例的基础上,所述根据所述叠加图像处理所述待增强图像以生成视频增强图像,包括:
将所述叠加图像与所述待增强图像进行叠加,并将叠加后生成的图像作为视频增强图像。
本申请实施例,可以将叠加图像与待增强图像进行叠加,在待增强图像中各位置点加上或减去叠加图像对应位置的像素值,实现待增强图像的处理,可以将处理后的待增强图像作为视频增强图像。
进一步的,在上述申请实施例的基础上,所述预设特征提取网络包括至少一个三维可变形卷积残差块,所述三维可变形卷积残差块至少包括三维可变形卷积层和激活函数。
在本申请实施例中,预设特征提取网络可以为三维卷积神经网络,该三维卷积神经网络可以由一个或者多个卷积残差块组成,每个卷积残差块中可以至少包括三维可变形卷积层和激活函数。
在一个示例性的实施方式中,预设特征提取网络可以由多个三维可变形卷积残差块组成,图3是本申请实施例提供的一种三维可变形卷积残差块的结构示意图,每个三维可变形卷积残差块可以如图3所示,待增强图像和增强辅助图像可以经过三维可变形卷积层、激活函数、三维可变形卷积层后与自身进行叠加后输出,输出的结果可以作为预设特征提取网络中下一个三维可变形卷积残差块的输入数据。激活函数可以包括LReLU激活函数、sigmoid函数、tanh函数等,预设特征提取网络中三维可变形卷积残差块的数量可以为N个,N的取值越大,视频图像的增强效果越佳,但整个网络的参数复杂度也会明显增加,网络训练和计算时间也将增长。
进一步的,在上述申请实施例的基础上,所述预设特征增强网络包括至少一个卷积残差块,所述卷积残差块至少包括卷积层和激活函数。
在本申请实施例中,预设特征增强网络可以为预先训练的卷积神经网络,该卷积神经网络可以包括卷积层和激活函数层,时空特征图可以经过二维卷积层、激活函数、再经过二维卷积层后与自己叠加形成残差,以增强时空特征图中的时空特征的显著性。
在一个示例性的实施方式中,图4是本申请实施例提供的一种卷积残差块结构示意图,时空特征图可以经过二维卷积层、激活函数、再经过二维卷积层后与自己叠加形成残差,其中,二维卷积可以是二维可变形卷积网络(Deformable Convolutional Networks,DCN),也可以是二维卷积神经网络(Convolutional Neural Networks,CNN)。
进一步的,预设特征增强网络以及预设特征提取网络的网络模型和网络参数在码流和/传输层中传输。
其中,网络模型(network model)可以是预设特征增强网络和预设特征提取网络的组织结构,可以被称为网络结构(network structure)、网络表示(modelrepresentation)或网络拓扑(network topology)等,可以包括卷积层的个数、池化层的个数、卷积层与池化层的连接关系等,网络参数可以包括网络中卷积层、池化层以及激活函数中具体的权重系数和偏置等。
在本申请实施例中,预设特征增强网络和预设特征提取网络可以在码流和/或传输层中传输,例如,编码端可以将预设特征增强网络和预设特征提取网络的网络模型和网络参数编码为码流,并将该码流发送到解码端;编码端还可以通过传输层将预设特征增强网络和预设特征提取网络的网络模型和网络参数发送到服务器,然后编码端通过码流将预设特征增强网络或预设特征提取网络的标识号发送到解码端,解码端根据标识号向服务器请求预设特征增强网络和预设特征提取网络的网络模型和网络参数。
进一步的,在上述申请实施例的基础上,所述网络模型和所述网络参数位于以下至少之一:视频码流、视频码流的补充增强信息、视频应用信息、系统层媒体属性描述单元、媒体轨道。
在本申请实施例中,预设特征提取网络以及预设特征增强网络可以由网络模型和网络参数组成,网络模型和网络参数可以通过视频码流、视频码流的补充增强信息、视频应用信息、系统层媒体属性描述单元、媒体轨道中的一种或者多种信息中传输。
在一个示例性的实施方式中,预设特征提取网络和预设特征增强网络所使用的网络模型可以用于描述网络的组织结构,是训练前设计好的,也可以称作网络结构(networkstructure),或网络表示(model representation),或网络拓扑(network topology)。网络参数是网络模型训练中获得,包括但不限于权重和偏置。,参见图5,网络模型和网络参数可以在编码端写入视频码流中,与视频码流一起发送到解码端,也可以单独进行带外传输。网络模型的一种组织关系可以是PyTorch采用的形式,如下所示:
Figure BDA0003129186970000061
Figure BDA0003129186970000071
其中,网络参数可以采用PyTorch的.pth格式传输或存储。进一步的,网络模型和网络参数也可以采用其它的格式,比如NNEF(Neural Network Exchange Format),ONNX(Open Neural Network Exchange),TensorFlow格式,Caffe格式等。
如果将网络模型和网络参数写入到视频码流中,可以写入视频码流中的补充增强信息(Supplemental Enhancement Information,SEI)中,具体示例如表1所示的结构。
表1
Figure BDA0003129186970000072
Figure BDA0003129186970000081
同理,网络模型和网络参数也可以写入到视频码流中的视频应用信息(VideoUsability Information,VUI)中。
如果网络模型和网络参数写入到传输层,可以写入到系统层媒体属性描述单元,例如在传输流的描述子、文件格式的数据单元(例如Box中)、传输流的媒体描述信息,例如媒体呈现描述(Media Presentation Description,MPD)等信息单元。
比如,采用ISO/IEC 14496-12ISO BMFF对网络模型和网络参数进行封装。
特征提取的网络模型和网络参数,与特征增强的网络模型和网络参数分别存放在不同的媒体轨道中,通过定义不同类型(如采用四字代码标识)的样本入口(sample entry)识别轨道中存放的数据类型,如网络模型、网络参数。并且,在样本入口中给出指示信息用于特征提取和特征增强。具体的网络模型和网络参数存放在该媒体轨道的样本中。媒体轨道中的指示信息实现方式如下:
Figure BDA0003129186970000082
feature_extraction_flag指示是否含有特征提取网络信息,1是含有,0是不含有。
feature_enhancement_flag指示是否含有特征增强网络信息,1是含有,0是不含有。
fext_nn_model_flag指示是否含特征提取网络模型,1是含有,0是不含有。
fext_nn_parameter_flag指示是否含特征提取网络参数,1是含有,0是不含有。
fenh_nn_model_flag指示是否含特征增强网络模型,1是含有,0是不含有。
fenh_nn_parameter_flag指示是否含特征增强网络参数,1是含有,0是不含有。
该指示信息可以在文件层级中指示,如在媒体信息数据盒(MediaInformationBox)下相关的媒体头数据盒(MediaHeaderBox)中指示,或者文件层级的其他数据盒(Box)中指示。
该指示信息也可以在媒体轨道层级中指示,如在相应的样本入口(sample entry)中指示。
可选的,无论以何种形式存储或传输特征提取的网络模型和网络参数,特征增强的网络模型和网络参数,它们均可以单独各自存储或传输。
进一步的,在上述申请实施例的基础上,所述预设特征提取网络中的所述三维可变形卷积残差块的个数N根据所述重建图像对应的视频属性和/或设备处理性能确定。
具体的,预设特征提取网络为三维可变形卷积神经网络,该神经网络的网络模型可以包括多个三维可变形卷积残差块,包括的个数可以由重建图像对应压缩视频的视频属性以及设备处理性能决定,其中,视频属性可以是反映视频类型的信息,例如,会议视频或者电影视频等,设备处理性能可以是处理图像增强的设备的性能,例如,高性能的设备可以使用的三维可变形卷积残差块的数量较多,低性能的设备可以使用的三维可变形卷积残差块的数量较少等。
进一步的,在上述申请实施例的基础上,所述视频属性可以包括以下至少之一:视频类型、应用场景。
在本申请实施例中,预设特征提取网络中可以根据重建图像对应的视频类型和/或应用场景配置不同数量的三维可变形卷积残差块,以适应不同视频类型或者应用场景下的图像显示效果,例如,重建图像为视频会议时,可以选择较少数量的三维可变形卷积残差块的预设特征提取网络提取重建图像中的时空特征,以满足视频的实时性,或者,重建图像对应视频在电影网站播放时,可以选择较多数量的三维可变形卷积残差块提取时空特征,以满足视频的高质量要求。
在一个示例性的实施方式中,预设特征提取网络中的三维可变形卷积残差块个数N可以根据视频类型或者应用场景来设定,也可以根据实际的计算能力和资源来设定。比如,编码端的计算能力较强,那么,可以采用较多三维可变形卷积残差块,以便更好的提取特征。可选的,编码端可以训练含有不同三维可变形卷积残差块个数的网络模型,根据解码端需要采用不同的网络模型。
同样的,预设特征增强网络中的卷积残差块个数M也可以根据视频类型或者应用场景来设定,或者根据实际的计算能力和资源设定。比如解码端的计算能力较弱,那么,可以采用较少的二维卷积残差块,虽然特征增强的效果略差,但是保证了解码端的实时性。
其中,网络模型可以由编码端发送给解码端,也可以存储在服务器上,如果网络模型存储在服务器上,那么,解码端从服务器上获取网络模型。
进一步的,在上述申请实施例的基础上,还包括:针对视频类型和/或应用场景分别训练至少一个所述预设特征提取网络和至少一个所述预设特征增强网络。
具体的,可以按照不同的视频类型和/或应用场景预先训练分别训练预设特征提取网络以及预设特征增强网络,不同的视频类型以及应用场景下对待增强图像进行处理时使用的预设特征提取网络以及预设特征增强网络可以不通。
在一个示例性的实施方式中,预设特征提取网络和预设特征增强网络可以为固定网络模型的神经网络,可以根据视频类型或应用乘积训练出多组网络参数。比如,针对剧烈运动场景,视频会议场景,监控场景等各有一组网络参数。比如,编码端根据当前视频类型选取对应的网络参数进行特征提取生成时空特征图,再将时空特征图和对应的特征增强网络参数发送给解码端。
编码端和解码端使用多组网络模型的方式可以不进行限定,可以由编码端将当前使用的一组网络参数发送给解码端,在选择使用另一组网络参数时再重新传输新的一组网络参数。也可以由编码端和解码端建立通信链路后发送全部的网络参数,在通信过程中编码端仅发送当前使用的网络参数索引供解码端选取对应的网络参数,解码端只需要根据索引选择对应的网络参数即可。也可以是编码端和解码端默认网络参数,无需编码端发送给解码端,解码端使用默认网络参数,或者只需要根据索引选择对应的网络参数即可。
也可以将网络参数存储在服务器上,编码端仅需要发送网络参数索引,解码端根据索引信息向服务器申请获得对应的网络参数。
进一步的,在上述申请实施例的基础上,还包括:
使用权重参数对所述待增强图像和所述增强辅助图像的信息进行加权。
其中,权重参数可以是反映重建图像中不同区域的显示优先级的参数,比如画面中心需要突出显示,可以为画面中心设置一个加大数值的权重参数,而画面四角不被观看用户在意,可以为画面四角设置一个较小数值的权重参数。也可以使用权重参数来反映不同帧图像间的显示优先级,例如,重建图像中关键帧可以使用较大数值的权重参数。
在本申请实施例中,可以使用权重参数对待增强图像和增强辅助图像的信息进行加权,该权重参数可以预先设置,例如,可以为图像中的不同区域设置不同权重参数,也可以为不同帧的图像设置不同的权重参数,还可以为图像中显示的不同内容设置不同的权重参数。又比如图像的亮度分量在输入特征提取网络前先乘以权重参数值。
进一步的,在上述申请实施例的基础上,所述待增强图像和所述增强辅助图像的不同区域设置的权重参数不同。
具体的,可以将待增强图像和增强辅助图像分别划分为多个区域,每个区域可以设置不同的权重参数,例如,待增强图像以及增强辅助图形可以划分为图像中心和图像四角,或者,图像内容和图像背景等区域,可以为不同的区域设置的权重参数的取值可以不同。
进一步的,在上述申请实施例的基础上,所述不同增强参与图像设置的权重参数不同,其中,所述增强参与图像包括所述待增强图像和所述增强辅助图像。
在本申请实施例中,可以将待增强图像和增强辅助图像记为增强参与图像,可以为单帧增强参与图像分别设置不同的权重参数。
在一个示例性的实施方式中,可以为待增强图像以及增强辅助图像中每一帧图像设置不同的权重参数,在各帧图像进行加权后再进行特征提取,例如,权重参数可以由视频时间线上距离当前帧的时间远近决定取值的大小,当前帧图像为t时刻,那么t-1时刻的重建图像的权重参数比t-2时刻的权重参数的取值大,权重参数可以根据重建图像再图像解码过程中的重要性来决定,例如,I帧为关键帧,P帧和B帧为非关键帧,待增强图像以及增强辅助图像中I帧的权重参数的取值可以大于P帧和B帧的权重参数的取值。
在另一个示例性的实施方式中,可以为待增强图像和增强辅助图形等重建图像中单帧图像的信息使用不同的权重进行加权,例如,针对不同量化参数区域采用不同的权重加权后再进行特征提取。
在另一个示例性的实施方式中,待增强图像和增强辅助图形等重建图像中单帧图像可以分区域,每个区域设置不同的权重参数,单帧图像经过加权后进行特征提取和特征增强等操作,例如,可以针对有人物的取值采用高权重参数,背景区域采用低权重参数。
进一步的,在上述申请实施例的基础上,所述待增强图像和所述增强辅助图像为所述重建图像的至少一个分量。
具体的,分量可以是图像信息的分量,可以包括亮度色度分量或者颜色分量等,在进行增强时,待增强图像和增强辅助图像可以使用重建图像中的一个或多个分量进行图像增强。例如,重建图像为红绿蓝(Red Green Blue,RGB)图像,待增强图像可以为R分量形成的图像或者G分量形成的图像作为待增强图像或者增强辅助图像。
在一个示例性的实施方式中,待增强图像和增强辅助图形可以为重建图像可以仅是图像的一个分量,也可以是多个分量,比如,重建图像由亮度和色度(YUV)分量组成,那么,可以针对亮度分量进行特征提取和特征增强等操作来进行图像增强,也可以针对色度分量进行特征提取和特征增强等操作来进行图像增强,也可以针对图像亮度和色度一起进行特征提取和特征增强等操作来进行图像增强。重建图像由RGB(Red,Green,Blue)分量组成,三个分量可以各自进行特征提取和特征增强等操作来进行图像增强,也可以三个分量整体进行特征提取和特征增强等操作来进行图像增强。
进一步的,在上述申请实施例的基础上,所述待增强图像和所述增强辅助图像为所述重建图像的部分区域。
本申请实施例中,进行待增强图像可以为重建图像中的部分区域,例如,重建图像中的画面中心或者画面四角,在进行图像增强前,可以在重建图像中截取部分区域进行图像增强。
在一个示例性的实施方式中,参见图6,可以仅截取重建图像的部分区域进行特征提取和特征增强,增强后的视频图像仅为当前重建图像中的部分区域叠加生成的与截取部分区域大小一样的增强后图像A,也可以将增强图叠加在当前重建图像的对应截取区域上,生成与重建图像大小一样的增强后图像B。
进一步的,在上述申请实施例的基础上,所述预设特征提取网络和预设特征增强网络中的网络参数可以在图像增强过程中进行更新,例如,可以基于每次使用后的图像增强效果调整各网络参数,可以对所有的网络参数进行调整,也可以仅对部分网络参数进行调整。编码端还可以仅将调整后的网络参数发送给解码端。
在一个示例性的实施方式中,先对当前视频重建图像及其相邻多帧重建图像进行特征提取并生成时空特征图,再对时空特征图进行特征增强生成增强图,最后将当前视频重建图像与增强图相加得到增强后图像,处理框图如图7所示。图8是本申请实施例提供的一种视频增强处理方法的流程图,参见图8,该实施例的方法具体包括如下步骤:
步骤S101:输入多帧重建图像
所述的重建图像是指视频原始图像经过压缩编码后生成视频数据,视频数据再经过解码生成的重建图像,即具有压缩失真特征的重建图像。而多帧重建图像是由当前重建图像和它在时间线上前后多帧重建图像共同组成。
其中,重建图像可以在视频编码过程中生成的重建图像,这些重建图像作为参考图像用于帧间编码,也可以是在视频解码生成的重建图像。多帧重建图像是指在时间线上当前时刻重建图像前后的几帧重建图像,这些重建图像可以是时间线上相邻的图像,当前重建图像是t时刻重建图像,选取它前面t-2和t-1两帧重建图像,它后面t+1和t+2两帧重建图像,一共五帧重建图像作为输入。也可以是按照一定间隔选取的重建图像,当前图像是t时刻重建图像,间隔一帧选取它前面t-4和t-2两帧重建图像,它后面t+2和t+4两帧重建图像,一共五帧重建图像作为输入。也可以是按照一定规则选取的重建图像,选取当前重建图像帧前后各两帧I帧重建图像(帧内编码帧)。多帧图像也可以是非时间线上前后关系,而是有关联的图像,比如,都包含某一对象,或者图像尺寸有一定比例关系。
步骤S102:特征提取生成时空特征图
对输入的多帧重建图像进行特征提取,如图9所示。多帧图像经过多层三维可变形卷积残差块(Residual Block)生成特征信息,再对特征信息进行卷积融合生成时空特征图(Feature Map)。其中,每一个三维可变形卷积残差块可以包括三维可变形卷积层和激活函数。多帧数据输入经过三维可变形卷积(DCN3D),激活函数(Activation Function),三维可变形卷积(DCN3D)后与自身进行叠加后输出,输出的结果作为下一个模块的输入。所述多帧数据可以是多帧重建图像,也可以前一模块的输出数据。所述激活函数可以是LReLU(LeakyRectified Linear Activation),也可以是其它激活函数。三维可变形卷积残差块可以有N个,三维可变形卷积残差块的数量增多会使得视频增强后的质量效果提高,但随着三维可变形卷积残差块增多,整个网络的参数复杂度会明显增加,网络训练和计算也会需要大量时间。
经过N个三维可变形卷积残差块后生成的特征信息,再经过一个卷积模块(Bottleneck)融合生成时空特征图,时空特征图的大小与图像尺寸和特征数有关。
在三维可变形卷积残差块前增加一个卷积模块,以便将低阶特征映射到高阶特征,增加特征数量。
其中,三维可变形卷积是在二维可变形卷积(DCN)的基础上扩展到三维,如图10所示,先经过一个卷积生成三维偏移,再利用三维偏移对输入特征进行卷积操作获得输出特征,所述输入特征可以是多帧重建图像,也可以是前一模块的输出特征。
步骤S103:对时空特征图进行特征增强
特征增强过程如图11所示,时空特征图经过多个三维可变形卷积残差块后,再经过一个卷积,如1x1conv,恢复出一帧跟当前重建图大小一致的增强图,即叠加图。其中,卷积残差块的个数M和特征提取过程中的三维可变形卷积残差块的个数不一定相等。卷积残差块包括二维卷积层和激活函数,输入数据经过二维卷积,激活函数,再经过二维卷积后与自己叠加生成残差。其中,二维卷积可以是二维可变形卷积(DCN),也可以是二维卷积神经网络(CNN)。
步骤S104:生成增强后图像
将步骤S103生成的增强图像(叠加图)与当前重建图像叠加生成增强后图像。
图12是本申请实施例提供的一种视频增强处理方法的流程图,本申请实施例可以适用于增强解码视频的图像显示质量的情况,该方法可以由视频增强处理装置来执行,该装置可以通过软件和/或硬件方式实现,并一般基础在视频编码端,参见图12,本申请实施例提供的方法具体包括如下步骤:
步骤210、确定待增强图像的增强辅助图像,其中,增强辅助图像和待增强图像为压缩视频数据解码生成的重建图像。
步骤220、基于待增强图像、增强辅助图像和预设特征提取网络确定时空特征图。
步骤230、传输时空特征图和预设特征增强网络。
在本申请实施例中,可以将时空特征图和特征增强网络发送给解码端,由解码端根据时空特征图和预设特征增强网络对待增强图像进行处理,提高待增强图像的显示效果。时空特征图和预设特征增强网络可以直接传送给解码端,也可以先上传时空特征图和特征增强网络到服务器,再由解码端向服务器发送获取请求的方式获取。
进一步的,在上述申请实施例的基础上,在所述传输所述时空特征图和所述预设特征增强网络之前,还包括:
对所述时空特征图和所述预设特征增强网络进行压缩编码。
在本申请实施例中,可以对时空特征图和预设特征增强网络进行压缩编码,以便减少传输数据量,提高传送效率。
在一个示例性的实施方式中,预设特征提取网络和预设特征增强网络以及时空特征图在传输时,可以进行压缩,以降低数据量,便于传输或存储。时空特征图的预设特征提取网络和预设特征增强网络的网络模型以及网络参数可以采用采用无损压缩的方式,比如霍夫曼编码,算术编码等。网络模型可以通过,参数修剪和共享(parameter pruning andsharing)、低秩因子分解(low-rank factorization)、转移/紧凑卷积滤波器(transferred/compact convolutional filters)、知识蒸馏(knowledge distillation)等方法进行压缩。网络参数,也可以采用有损压缩编码,比如可以采用量化的方式降低所需的数据量。
图13是本申请实施例提供的一种视频增强处理方法的流程图,本申请实施例可以适用于增强解码视频的图像显示质量的情况,该方法可以由视频增强处理装置来执行,该装置可以通过软件和/或硬件方式实现,并一般基础在视频解码端,参见图13,本申请实施例提供的方法具体包括如下步骤:
步骤310、接收时空特征图和预设特征增强网络。
在本申请实施例中,时空特征图和预设特征增强网络可以由编码端直接发送到解码端或者由服务器下载到解码端,而服务器中的时空特征图和预设特征增强网络可以由编码端上传。
步骤320、根据预设特征增强网络处理时空特征图以生成叠加图像。
步骤330、根据叠加图像处理待增强图像以生成视频增强图像。
其中,待增强图像可以通过解码码流的方式生成,该码流可以由编码端发送并由解码端接收。
具体的,在时空特征图经过处理后,可以提取叠加图像中各位置上的信息,例如,色度、亮度、颜色值等,按照该信息对待增强图像中对应的区域进行显示增强,还可以将叠加图像与待增强图像直接进行叠加,并将叠加生成的图像作为视频增强图像。
在一个示例性的实施方式中,图14是本申请实施例提供的一种视频增强处理的示例图,参见图14,本申请实施例通过在编码端利用编码过程中生成的多帧编码重建图进行特征提取并生成时空特征图,将时空特征图和特征增强网络模型和网络参数传输给解码端,解码端根据时空特征图和特征增强网络模型和网络参数对解码重建图像进行增强,时空特征图和特征增强网络模型和网络参数可以在增强过程中传输,时空特征图和特征增强网络的网络模型和网络参数可以单独分开传输,也可以组合传输,可以写入视频码流中,也可以独立于视频码流带外传输。
在一个另示例性的实施方式中,图15是本申请实施例提供的另一种视频增强处理的示例图,参见图15,特征提取和特征增强的网络模型和网络参数可以是仅使用在解码端,即解码端对视频码流解码,再使用特征提取和特征增强的网络模型和网络参数对解码后的重建图像进行增强。如果仅在解码端使用,那么,可以直接将特征提取输出的时空特征图当作特征增强的输入,而不必单独存储时空特征图。
解码端可以通过读取本地文件来获取特征提取和特征增强的网络模型和网络参数,也可以从服务器端获取特征提取和特征增强的网络模型和网络参数,还可以由编码端发送给解码端。
图16是本申请实施例提供的一种视频增强处理装置的结构示意图,可执行本申请任意实施例提供的视频增强处理方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件实现,一般集成在编码端,具体包括:图像提取模块401、特征图模块402、特征增强模块403和增强图像模块404。
图像提取模块401,用于确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像。
特征图模块402,用于基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图。
特征增强模块403,用于根据预设特征增强网络处理所述时空特征图以生成叠加图像。
增强图像模块404,用于根据所述叠加图像处理所述待增强图像以生成视频增强图像。
图17是本申请实施例提供的一种视频增强处理装置的结构示意图,可执行本申请任意实施例提供的视频增强处理方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件实现,一般集成在编码端,具体包括:图像提取模块501、特征图模块502和编码发送模块503。
图像提取模块501,用于确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像。
特征图模块502,用于基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图。
编码发送模块503,用于传输所述时空特征图和所述预设特征增强网络。
图18是本申请实施例提供的一种视频增强处理装置的结构示意图,可执行本申请任意实施例提供的视频增强处理方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件实现,一般集成在解码端,具体包括:编码接收模块601、特征增强模块602和增强图像模块603。
解码接收模块601,用于接收时空特征图和预设特征增强网络。
特征增强模块602,用于根据预设特征增强网络处理所述时空特征图以生成叠加图像。
增强图像模块603,用于根据所述叠加图像处理所述待增强图像以生成视频增强图像。
进一步的,在上述实施例的基础上,所述编码端和/或解码端中的预设特征提取网络包括至少一个三维可变形卷积残差块,所述三维可变形卷积残差块至少包括三维可变形卷积层和激活函数。
进一步的,在上述实施例的基础上,所述编码端和/或解码端的装置中预设特征增强网络包括至少一个卷积残差块,所述卷积残差块至少包括卷积层和激活函数。
进一步的,在上述实施例的基础上,所述编码端和/或解码端的装置中所述预设特征增强网络以及所述预设特征提取网络的网络模型和网络参数在码流和/传输层中传输。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中所述网络模型和所述网络参数位于以下至少之一:视频码流、视频码流的补充增强信息、视频应用信息、系统层媒体属性描述单元、媒体轨道。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中所述预设特征提取网络中的所述三维可变形卷积残差块的个数N根据所述重建图像对应的视频属性和/或设备处理性能确定。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中所述视频属性包括以下至少之一:视频类型、应用场景。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中还包括:
网络训练模块,用于针对视频类型和/或应用场景分别训练至少一个所述预设特征提取网络和至少一个所述预设特征增强网络。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中还包括:
加权模块,用于使用权重参数对所述待增强图像和所述增强辅助图像的信息进行加权。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中所述待增强图像和所述增强辅助图像的不同区域设置的权重参数不同。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中不同增强参与图像设置的权重参数不同,其中,所述增强参与图像包括所述待增强图像和所述增强辅助图像。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中所述待增强图像和所述增强辅助图像为所述重建图像的至少一个分量。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中所述待增强图像和所述增强辅助图像为所述重建图像的部分区域。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中图像提取模块具体用于:按照时间顺序在视频解码生成的重建图像集中分别在所述待增强图像之前和/或之后分别获取阈值数量的重建图像作为增强辅助图像,其中,所述重建图像集包括至少两帧重建图像。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中增强图像模块具体用于:将经过图像时空特征增强的所述时空特征图与所述待增强图像叠加,并将叠加后生成的图像作为视频增强图像。
进一步的,在上述申请实施例的基础上,所述编码端和/或解码端的装置中还包括:
编码压缩模块,用于对所述时空特征图和所述预设特征增强网络进行压缩编码。
在一个示例性的实施方式中,本申请实施例提供的实例增强处理装置可以包括如下模块:特征提取模块A01,用于提取多帧重建图像特征;
视频编码模块A02,用于编码网络参数和时空特征图,输出编码重建图像输入特征提取模块A01。
传输模块A03,用于传输视频编码后数据,也可以对网络参数和时空特征图进行编码传输。
特征增强模块A04,用于进行特征增强生成增强图。
视频解码模块A05,用于从视频数据中解码出网络参数和时空特征图,重建图像。
传输模块A06,用于传输视频压缩数据,也可以对网络参数和时空特征图进行解码。
上述传输模块A01、视频编码模块A02、传输模块A03、特征增强模块A04、视频解码模块A05、传输模块A06可以通过使用专用硬件、或者能够与适当的软件相结合来执行处理的硬件来实现。这样的硬件或专用硬件可以包括专用集成电路(ASIC)、各种其它电路、各种处理器等。当由处理器实现时,该功能可以由单个专用处理器、单个共享处理器、或者多个独立的处理器(其中某些可能被共享)来提供。另外,处理器不应该被理解为专指能够执行软件的硬件,而是可以隐含地包括、而不限于数字信号处理器(DSP)硬件、用来存储软件的只读存储器(ROM)、随机存取存储器(RAM)、以及非易失存储设备。
本实施例的装置可以是视频应用中设备,例如,手机、计算机、服务器、机顶盒、便携式移动终端、数字摄像机,电视广播系统设备等。
图19是本申请实施例提供的一种电子设备的结构示意图,该电子设备包括处理器60、存储器71、输入装置72和输出装置73;电子设备中处理器70的数量可以是一个或多个,图19中以一个处理器70为例;电子设备中处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图19中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的视频增强处理装置对应的模块(图像提取模块401、特征图模块402、特征增强模块403和增强图像模块404,或者,图像提取模块501、特征图模块502和编码发送模块503,又或者,解码接收模块601、特征增强模块602和增强图像模块603)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的视频增强处理方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种视频增强处理方法,该方法包括:
确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
根据预设特征增强网络处理所述时空特征图以生成叠加图像;
根据所述叠加图像处理所述待增强图像以生成视频增强图像。
或者,
确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
传输所述时空特征图和所述预设特征增强网络。
或者,
接收时空特征图和预设特征增强网络;
根据预设特征增强网络处理所述时空特征图以生成叠加图像;
根据所述叠加图像处理所述待增强图像以生成视频增强图像。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (23)

1.一种视频增强处理方法,其特征在于,所述方法包括:
确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
根据预设特征增强网络处理所述时空特征图以生成叠加图像;
根据所述叠加图像处理所述待增强图像以生成视频增强图像。
2.根据权利要求1所述的方法,其特征在于,所述预设特征提取网络包括至少一个三维可变形卷积残差块,所述三维可变形卷积残差块至少包括三维可变形卷积层和激活函数。
3.根据权利要求1所述的方法,其特征在于,所述预设特征增强网络包括至少一个卷积残差块,所述卷积残差块至少包括卷积层和激活函数。
4.根据权利要求1所述的方法,其特征在于,所述预设特征增强网络以及所述预设特征提取网络的网络模型和网络参数在码流和/传输层中传输。
5.根据权利要求4所述的方法,其特征在于,所述网络模型和所述网络参数位于以下至少之一:视频码流、视频码流的补充增强信息、视频应用信息、系统层媒体属性描述单元、媒体轨道。
6.根据权利要求2所述的方法,其特征在于,所述预设特征提取网络中的所述三维可变形卷积残差块的个数N根据所述重建图像对应的视频属性和/或设备处理性能确定。
7.根据权利要求6所述的方法,其特征在于,所述视频属性包括以下至少之一:视频类型、应用场景。
8.根据权利要求1所述的方法,其特征在于,还包括:
针对视频类型和/或应用场景分别训练至少一个所述预设特征提取网络和至少一个所述预设特征增强网络。
9.根据权利要求1所述的方法,其特征在于,还包括:
使用权重参数对所述待增强图像和所述增强辅助图像的信息进行加权。
10.根据权利要求9所述的方法,其特征在于,所述待增强图像和所述增强辅助图像的不同区域设置的权重参数不同。
11.根据权利要求9所述的方法,其特征在于,不同增强参与图像设置的权重参数不同,其中,所述增强参与图像包括所述待增强图像和所述增强辅助图像。
12.根据权利要求1所述的方法,其特征在于,所述待增强图像和所述增强辅助图像为所述重建图像的至少一个分量。
13.根据权利要求1所述的方法,其特征在于,所述待增强图像和所述增强辅助图像为所述重建图像的部分区域。
14.根据权利要求1所述的方法,其特征在于,所述确定待增强图像的增强辅助图像,包括:
按照时间顺序在视频解码生成的重建图像集中分别在所述待增强图像之前和/或之后分别获取阈值数量的重建图像作为增强辅助图像,其中,所述重建图像集包括至少两帧重建图像。
15.根据权利要求1所述的方法,其特征在于,所述根据所述叠加图像处理所述待增强图像以生成视频增强图像,包括:
将所述叠加图像与所述待增强图像进行叠加,并将叠加后生成的图像作为视频增强图像。
16.一种视频增强处理方法,其特征在于,所述方法包括:
确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
传输所述时空特征图和所述预设特征增强网络。
17.根据权利要求16所述的方法,其特征在于,在所述传输所述时空特征图和所述预设特征增强网络之前,还包括:
对所述时空特征图和所述预设特征增强网络进行压缩编码。
18.一种视频增强处理方法,其特征在于,所述方法包括:
接收时空特征图和预设特征增强网络;
根据预设特征增强网络处理所述时空特征图以生成叠加图像;
根据所述叠加图像处理所述待增强图像以生成视频增强图像。
19.一种视频增强处理装置,其特征在于,所述装置包括:
图像提取模块,用于确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
特征图模块,用于基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
特征增强模块,用于根据预设特征增强网络处理所述时空特征图以生成叠加图像;
增强图像模块,用于根据所述叠加图像处理所述待增强图像以生成视频增强图像。
20.一种视频增强处理装置,其特征在于,所述装置包括:
图像提取模块,用于确定待增强图像的增强辅助图像,其中,所述增强辅助图像和所述待增强图像为压缩视频数据解码生成的重建图像;
特征图模块,用于基于所述待增强图像、所述增强辅助图像和预设特征提取网络确定时空特征图;
编码发送模块,用于传输所述时空特征图和所述预设特征增强网络。
21.一种视频增强处理装置,其特征在于,所述装置包括:
解码接收模块,用于接收时空特征图和预设特征增强网络;
特征增强模块,用于根据预设特征增强网络处理所述时空特征图以生成叠加图像;
增强图像模块,用于根据所述叠加图像处理所述待增强图像以生成视频增强图像。
22.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-15、16-17以及18中任一所述的视频增强处理方法。
23.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-15、16-17或18中任一所述的视频增强处理方法。
CN202110697703.4A 2021-06-23 2021-06-23 视频增强处理方法、装置、电子设备和存储介质 Pending CN115511756A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110697703.4A CN115511756A (zh) 2021-06-23 2021-06-23 视频增强处理方法、装置、电子设备和存储介质
PCT/CN2022/100898 WO2022268181A1 (zh) 2021-06-23 2022-06-23 视频增强处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110697703.4A CN115511756A (zh) 2021-06-23 2021-06-23 视频增强处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115511756A true CN115511756A (zh) 2022-12-23

Family

ID=84500144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110697703.4A Pending CN115511756A (zh) 2021-06-23 2021-06-23 视频增强处理方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN115511756A (zh)
WO (1) WO2022268181A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385302A (zh) * 2023-04-07 2023-07-04 北京拙河科技有限公司 一种光组相机的动态模糊消除方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10841514B2 (en) * 2018-03-20 2020-11-17 Endovigilant Inc Endoscopy video feature enhancement platform
CN112381716B (zh) * 2020-11-18 2023-08-18 爱像素(深圳)智能科技有限公司 一种基于生成式对抗网络的图像增强方法
CN112862675A (zh) * 2020-12-29 2021-05-28 成都东方天呈智能科技有限公司 时空超分辨率的视频增强方法和系统
CN112801900B (zh) * 2021-01-21 2023-05-12 北京航空航天大学 一种基于双向循环卷积生成对抗网络的视频模糊去除方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385302A (zh) * 2023-04-07 2023-07-04 北京拙河科技有限公司 一种光组相机的动态模糊消除方法及装置

Also Published As

Publication number Publication date
WO2022268181A1 (zh) 2022-12-29

Similar Documents

Publication Publication Date Title
AU2012394396B2 (en) Processing high dynamic range images
TWI705702B (zh) 圖像處理裝置及方法
US10182235B2 (en) Hardware efficient sparse FIR filtering in layered video coding
WO2019134557A1 (zh) 视频图像的处理方法及装置
US10542265B2 (en) Self-adaptive prediction method for multi-layer codec
CN113766249B (zh) 视频编解码中的环路滤波方法、装置、设备及存储介质
US11936911B2 (en) Image coding method based on secondary transform, and device therefor
CN112235606A (zh) 一种多层视频处理方法、系统和可读存储介质
WO2022268181A1 (zh) 视频增强处理方法、装置、电子设备和存储介质
US20240080487A1 (en) Method, apparatus for processing media data, computer device and storage medium
WO2024078066A1 (zh) 视频解码方法、视频编码方法、装置、存储介质及设备
CN113287301A (zh) 用于帧内预测的分量间线性建模方法和装置
CN111212288B (zh) 视频数据的编解码方法、装置、计算机设备和存储介质
JP2024503712A (ja) スケーラブルな符号化及び復号方法及び装置
US20220353506A1 (en) Image or video coding based on transform skip- and palette coding-related advanced syntax element
CN115699775A (zh) 视频或图像编码系统中基于单色颜色格式的色度去块参数信息的图像编码方法
CN114747215B (zh) 调色板编码或变换单元的基于量化参数信息的图像或视频编码
CN116760976B (zh) 仿射预测决策方法、装置、设备及存储介质
US20220321887A1 (en) Image or video coding on basis of transform skip - and palette coding-related data
US12010344B2 (en) Image or video coding based on quantization-related information
US20220368907A1 (en) Image or video coding based on signaling of quantization parameter-related information
US20220394302A1 (en) Image or video coding based on quantization-related information
US20220394261A1 (en) Image or video coding based on signaling of quantization parameter offset-related information
WO2020181540A1 (zh) 一种视频处理方法、装置、编码设备及解码设备
WO2024061660A1 (en) Dynamic structures for volumetric data coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination