CN112950471A - 视频超分处理方法、装置、超分辨率重建模型、介质 - Google Patents

视频超分处理方法、装置、超分辨率重建模型、介质 Download PDF

Info

Publication number
CN112950471A
CN112950471A CN202110220231.3A CN202110220231A CN112950471A CN 112950471 A CN112950471 A CN 112950471A CN 202110220231 A CN202110220231 A CN 202110220231A CN 112950471 A CN112950471 A CN 112950471A
Authority
CN
China
Prior art keywords
initial
resolution
processed
channel
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110220231.3A
Other languages
English (en)
Inventor
袁振
阮良
陈功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Langhe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langhe Technology Co Ltd filed Critical Hangzhou Langhe Technology Co Ltd
Priority to CN202110220231.3A priority Critical patent/CN112950471A/zh
Publication of CN112950471A publication Critical patent/CN112950471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本公开的实施方式提供了一种视频超分处理方法、装置、超分辨率重建模型、介质及电子设备,涉及图像处理技术领域。该方法包括:获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧;对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征;对通道特征和边缘结构特征进行融合处理,以得到中间特征图;对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;根据多个重建视频帧生成重建视频帧序列。本公开采用视频超分处理方式对经过下采样压缩的待处理视频帧进行重建,不仅具有良好的实时性,还可以达到减小码率,节省带宽资源的目的。

Description

视频超分处理方法、装置、超分辨率重建模型、介质
技术领域
本公开的实施方式涉及图像处理技术领域,更具体地,本公开的实施方式涉及视频超分处理方法、视频超分处理装置、超分辨率重建模型、计算机可读存储介质及电子设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
实时通信(Real Time Communication,RTC)是指利用有效硬件,如电脑、视频、可视电话、手机等,通过网络平台,在这些终端进行实时信息收发。实时信息包含文字、语音、图片、视频等多种类型,涵盖娱乐社交等诸多领域,比如音视频通话、视频直播等形式。
超分辨率(Super Resolution,SR)技术是指采用某种算法或模型,从低分辨率图像重建出对应高分辨率图像,并且尽可能地恢复更多的细节信息,是计算机视觉领域的重要研究方向。
近年来,随着深度学习技术的快速发展,超分辨技术在图像恢复和图像增强等领域展现出广阔的应用前景,成为计算机视觉领域的研究热点,受到学术界和工业界的关注和重视。在RTC视频领域中,诞生了很多基于深度学习的SR算法。
发明内容
本公开的目的在于提供一种视频超分处理方法、超分辨率重建模型、视频超分处理装置、计算机可读存储介质及电子设备,进而在一定程度上克服现有的技术方案无法应对复杂场景下RTC通信传输带来的视频压缩损失,且无法取得良好的复原效果的问题。
在本公开实施方式的第一方面中,提供了一种视频超分处理方法,包括:获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧;对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征;对通道特征和边缘结构特征进行融合处理,以得到中间特征图;对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;根据多个重建视频帧生成重建视频帧序列。
在本公开的一个实施例中,上述方法还包括:获取预先构建的超分辨率重建模型,以通过超分辨率重建模型对待处理视频帧进行重建处理;超分辨率重建模型通过下述步骤训练得到:获取初始多场景图像集,对初始多场景图像集进行数据预处理,以得到多场景图像集;获取初始模型,并构建对应的感知损失函数;采用多场景图像集并通过感知损失函数对初始模型进行训练,以得到初始超分辨率重建模型;对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型。
在本公开的一个实施例中,对初始多场景图像集进行数据预处理,以得到多场景图像集,包括:对初始场景图像进行下采样处理,得到下采样场景图像;对下采样场景图像进行数据增强处理,以得到中间场景图像;对中间场景图像进行编解码处理,以对中间场景图像进行压缩处理,得到多场景图像。
在本公开的一个实施例中,对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型,包括:确定初始超分辨率重建模型的神经网络的基神经元;基神经元用于重建神经网络中的神经元;根据基神经元确定神经网络的冗余神经元,冗余神经元根据基神经元的组合表示得到;对冗余神经元进行剪枝处理,以得到超分辨率重建模型。
在本公开的一个实施例中,对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征,包括:对待处理视频帧进行第一特征提取,得到初始特征图;对初始特征图进行通道特征提取,以得到通道特征;对初始特征图进行空间特征提取,以得到边缘结构特征。
在本公开的一个实施例中,对初始特征图进行通道特征提取,以得到通道特征,包括:对初始特征图进行第一卷积处理,以得到第一卷积特征;对第一卷积特征进行第二卷积处理,以得到第一卷积特征在多个通道上对应的初始通道特征;对多个初始通道特征进行池化处理,以得到各初始通道特征分别对应的通道权重;根据各通道权重将第一卷积特征与多个初始通道特征进行融合处理,以得到通道特征。
在本公开的一个实施例中,对初始特征图进行空间特征提取,以得到边缘结构特征,包括:对初始特征图进行预设次数的下采样操作,以得到下采样特征图;对下采样特征图进行与下采样操作对应次数的上采样操作,以得到初始边缘特征图;对初始边缘特征图进行全连接输出处理,以得到边缘结构特征。
在本公开实施方式的第二方面中,提供了一种超分辨率重建模型,包括:第一特征提取模块,用于获取第一分辨率的待处理视频帧,对待处理视频帧进行第一特征提取,以得到初始特征图;通道特征提取模块,用于对初始特征图进行通道特征提取,以得到通道特征;空间特征提取模块,用于对初始特征图进行空间特征提取,以得到边缘结构特征;特征融合模块,用于对通道特征和边缘结构特征进行融合处理,以得到中间特征图;上采样重建模块,用于对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧。
在本公开的一个实施例中,通道特征提取模块包括:第一卷积层,用于对初始特征图进行第一卷积处理,以得到第一卷积特征;第二卷积层,用于对第一卷积特征进行第二卷积处理,以得到第一卷积特征在多个通道上对应的初始通道特征;第一池化层,用于对多个初始通道特征进行池化处理,以得到各初始通道特征分别对应的通道权重;特征融合层,用于根据各通道权重将第一卷积特征与多个初始通道特征进行融合处理,以得到通道特征。
在本公开的一个实施例中,空间特征提取模块包括:下采样处理层,用于对初始特征图进行预设次数的下采样操作,以得到下采样特征图;上采样重建层,用于对下采样特征图进行与下采样操作对应次数的上采样操作,以得到初始边缘特征图;空间特征提取层,用于对初始边缘特征图进行全连接输出处理,以得到边缘结构特征。
在本公开实施方式的第三方面中,提供了一种视频超分处理装置,包括:待处理视频获取模块,用于获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧;特征提取模块,用于对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征;特征融合模块,用于对通道特征和边缘结构特征进行融合处理,以得到中间特征图;上采样重建模块,用于对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;帧序列生成模块,用于根据多个重建视频帧生成重建视频帧序列。
在本公开的一个实施例中,视频超分处理装置还包括:模型获取模块,用于获取预先构建的超分辨率重建模型,以通过超分辨率重建模型对待处理视频帧进行重建处理;模型训练模块,用于获取初始多场景图像集,对初始多场景图像集进行数据预处理,以得到多场景图像集;获取初始模型,并构建对应的感知损失函数;采用多场景图像集并通过感知损失函数对初始模型进行训练,以得到初始超分辨率重建模型;对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型。
在本公开的一个实施例中,模型训练模块包括训练集确定单元,训练集确定单元被配置为:对初始场景图像进行下采样处理,得到下采样场景图像;对下采样场景图像进行数据增强处理,以得到中间场景图像;对中间场景图像进行编解码处理,以对中间场景图像进行压缩处理,得到多场景图像。
在本公开的一个实施例中,模型训练模块包括模型压缩单元,模型压缩单元被配置为:确定初始超分辨率重建模型的神经网络的基神经元;基神经元用于重建神经网络中的神经元;根据基神经元确定神经网络的冗余神经元,冗余神经元根据基神经元的组合表示得到;对冗余神经元进行剪枝处理,以得到超分辨率重建模型。
在本公开的一个实施例中,特征提取模块包括:初始图确定单元,用于对待处理视频帧进行第一特征提取,得到初始特征图;通道特征提取单元,用于对初始特征图进行通道特征提取,以得到通道特征;边缘特征提取单元,用于对初始特征图进行空间特征提取,以得到边缘结构特征。
在本公开的一个实施例中,通道特征提取单元被配置为:对初始特征图进行第一卷积处理,以得到第一卷积特征;对第一卷积特征进行第二卷积处理,以得到第一卷积特征在多个通道上对应的初始通道特征;对多个初始通道特征进行池化处理,以得到各初始通道特征分别对应的通道权重;根据各通道权重将第一卷积特征与多个初始通道特征进行融合处理,以得到通道特征。
在本公开的一个实施例中,边缘特征提取单元被配置为:对初始特征图进行预设次数的下采样操作,以得到下采样特征图;对下采样特征图进行与下采样操作对应次数的上采样操作,以得到初始边缘特征图;对初始边缘特征图进行全连接输出处理,以得到边缘结构特征。
在本公开实施方式的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的视频超分处理方法。
在本公开实施方式的第五方面中,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述所述的视频超分处理方法。
根据本公开实施方式的技术方案,对待处理视频帧进行通道特征提取和空间特征提取,得到对应的通道特征和边缘结构特征,将得到的通道特征和所述边缘结构特征进行融合处理,以得到中间特征图,对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧,以根据重建视频帧生成重建视频帧序列。一方面,对待处理视频帧进行超分重建处理,可以有效针对RTC通信传输带来的视频压缩损失,实现较好的复原效果。另一方面,分别对待处理视频帧进行通道特征提取和空间特征提取处理,可以更加关注待处理视频帧中的重点特征,使得到的重建视频帧包含更好的细节和边缘信息。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开的一些实施例的示例性应用场景的系统架构的示意框图;
图2示意性地示出了根据本公开的一些实施例的视频超分处理方法的流程示意图;
图3示意性地示出了根据本公开的一些实施例的视频超分辨率重建方案的整体框架图;
图4示意性地示出了根据本公开的一些实施例的超分辨率重建模型的流程示意图;
图5示意性地示出了根据本公开的一些实施例的采用超分辨率重建模型对待处理视频帧进行重建的流程示意图;
图6示意性地示出了根据本公开的一些实施例的通道特征注意力模块的网络结构图;
图7示意性地示出了根据本公开的一些实施例的空间特征注意力模块的网络结构图;
图8示意性地示出了根据本公开的一些实施例的超分辨率重建模型的示意框图;
图9示意性地示出了根据本公开的一些实施例的视频超分处理装置的示意框图;
图10示意性地示出了根据本公开的示例实施例的存储介质的示意图;以及
图11示意性地示出了根据公开的示例实施例的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种视频超分处理方法、视频超分处理装置、介质和电子设备。
在本文中,需要理解的是,所涉及的术语,比如卷积神经网络(ConvolutionalNeural Networks,CNN)可以是一类包含卷积计算且具有深度结构的神经网络,是深度学习的代表算法之一。注意力机制(Attention Mechanism)是机器学习中的一种数据处理方法,广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。其作用是促使神经网络关注一些我们更感兴趣的区域,对特征有所区分和取舍,从而使得神经网络在特定任务上具有更好的表现。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在RTC视频领域中,由于RTC视频任务具有实时性高、应用场景复杂等特点,对基于深度学习的SR算法提出了严峻的挑战。
在一种技术方案中,对输入视频通过下采样操作后得到低分辨率的视频,再对低分辨率视频进行视频编解码,得到解码后的低分辨率视频,将解码后的低分辨率视频输入到训练好的深度卷积网络进行超分处理,然后得到与输入视频相同分辨率的高分辨率视频。
然而,上述技术方案存在下述问题:(1)模型实时性较差。上述方法所采用的深度卷积网络,网络规模比较庞大,计算量较大,在大多数场景下无法对视频进行实时处理,在实时视频场景下的超分效率不够理想。(2)数据集数量少,且场景不够聚焦,在RTC视频场景超分辨效果不理想。在实际视频中,不太符合大部分应用场景的特点,尤其是具有人像场景较多、自拍视频较多等特点的RTC场景视频。(3)网络缺乏对重点特征信息的关注。该方法中采用了多尺度型的结构,在一定程度上可以更好地恢复图像细节信息,但是网络设计缺乏对于其他重点特征地关注,没有充分利用图像中的其他重点信息。
由此,在现有技术中,缺乏一种具有良好的实时性且能够应对复杂场景下RTC通信传输带来的视频压缩损失问题,以取得良好的复原效果的技术方案。为此,非常需要一种改进的视频超分处理方法,以使在RTC视频场景下进行视频超分处理,不仅具有良好的实时性,而且针对视频传输带来的视频压缩损失,可以达到较好的视频复原效果的目的。
基于上述内容,本公开的基本思想在于,对待处理视频帧进行通道特征提取和空间特征提取,并对分别提取到的通道特征和边缘结构特征进行融合处理,以得到中间特征图;对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧。本公开可以提取出待处理视频帧中的通道特征和边缘结构特征,基于提取出的特征对待处理视频帧进行重建处理,得到重建视频帧,可以有效针对通信传输过程中带来的视频压缩损失,实现较好的复原效果。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示出了可以应用本公开实施例的一种视频超分处理方法及装置的示例性应用场景的系统架构的示意框图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的视频超分处理方法一般由服务器105执行,相应地,视频超分处理装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的视频超分处理方法也可以由终端设备101、102、103执行,相应的,视频超分处理装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是工作人员通过终端设备101、102、103将预构建的知识图谱和用户输入的用户问题上传至服务器105,服务器通过本公开实施例所提供的视频超分处理方法对获取到的编码压缩后的待处理视频帧进行通道特征提取和空间特征提取,对提取得到的通道特征和边缘结构特征进行融合处理,得到中间特征图,对中间特征图进行上采样重建处理,得到重建视频帧,并将重建视频帧传输给终端设备101、102、103等以使终端设备101、102、103根据重建视频帧显示重建后的视频。
应该理解的是,图1所示的应用场景仅是本公开的实施例可以在其中得以实现的一个示例。本公开实施例的适用范围不受到该应用场景任何方面的限制。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本公开示例性实施方式的视频超分处理方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
本公开首先提供了一种视频超分处理方法,该方法执行主体可以是终端设备,也可以是服务器,本公开对此不做特殊限定,本示例实施例中以服务器执行该方法为例进行说明。
参照图2所示,该视频超分处理方法可以包括以下步骤S210至步骤S250:
步骤S210,获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧。
步骤S220,对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征。
步骤S230,对通道特征和边缘结构特征进行融合处理,以得到中间特征图。
步骤S240,对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧。
步骤S250,根据多个重建视频帧生成重建视频帧序列。
在本示例实施方式所提供的页面生成方法中,对待处理视频帧进行通道特征提取和空间特征提取,得到对应的通道特征和边缘结构特征,将得到的通道特征和所述边缘结构特征进行融合处理,以得到中间特征图,对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧,以根据重建视频帧生成重建视频帧序列。一方面,对待处理视频帧进行超分重建处理,可以有效针对RTC通信传输带来的视频压缩损失,实现较好的复原效果。另一方面,分别对待处理视频帧进行通道特征提取和空间特征提取处理,可以更加关注待处理视频帧中的重点特征,使得到的重建视频帧包含更好的细节和边缘信息。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S210中,获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧。
在一些示例实施例中,待处理视频帧可以是待进行复原重建的视频帧。待处理视频帧序列可以是由多个待处理视频帧按先后次序组成的序列。分辨率可以是单位英寸中所包含的像素点数。第一分辨率可以是待处理视频帧对应的分辨率。
由于在RTC应用场景中,为了保障实时性并减少带宽,视频发送端可以将视频帧进行压缩处理后发送至视频接收端。视频接收端接收到这些视频帧(即待处理视频帧)后,可以对多个第一分辨率的待处理视频帧进行复原重建处理。在RTC领域中,在同等带宽的情况下,将传输解码后的视频进行超分辨重建,可以使重建后的视频清晰度更高;另外,视频传输端在发送待处理视频帧之前,可以对待处理视频帧进行进一步的下采样压缩,以较小码率进行传输,等到视频接收端接收到待处理视频帧时,采用超分处理方案进行复原,可以产生减少码率,节省带宽资源的效果。
在本公开的一个实施例中,获取预先构建的超分辨率重建模型,以通过超分辨率重建模型对待处理视频帧进行重建处理;超分辨率重建模型通过下述步骤训练得到:获取初始多场景图像集,对初始多场景图像集进行数据预处理,以得到多场景图像集;获取初始模型,并构建对应的感知损失函数;采用多场景图像集并通过感知损失函数对初始模型进行训练,以得到初始超分辨率重建模型;对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型。
其中,超分辨率重建模型可以是对待处理视频帧进行复原重建处理所采用的模型。初始多场景图像集可以是直接获取到的各种不同场景对应的图像组成的集合。例如,初始多场景图像集可以包括带有人像的人像场景图像集;初始多场景图像集还可以包括自然场景图像或室内陈设场景的图像集;初始多场景图像集也可以包括其他场景下的图像集。数据预处理可以是对初始多场景图像集中的场景图像进行裁剪、旋转以及添加噪声等处理以对初始多场景图像集进行数据增强的过程。多场景图像集可以是对初始多场景图像集进行数据预处理后得到的图像集。初始模型可以是还未进行模型训练的模型。感知损失函数可以是用于衡量输出的重建视频帧与待处理视频帧之间的差距所采用的函数,感知损失函数通常可以从预训练好的卷积神经网络中提取高层次的图像特征以计算差值。初始超分辨率重建模型可以是采用多场景图像集对初始模型进行训练后得到的模型。模型压缩处理可以是对初始超分辨率重建模型进行模型剪枝等处理操作的过程。超分辨率重建模型可以是对初始超分辨率重建模型进行模型压缩处理后得到的图像重建模型。
在获取到待处理视频帧序列后,可以获取预先构建的超分辨率重建模型,参考图3,图3示意性地示出了根据本公开的一些实施例的视频超分辨率重建方案的整体框架图。本公开中的视频超分辨率重建方案可以由数据驱动方案310、双重注意力网络320以及模型压缩优化330三个部分组成。采用超分辨率重建模型对待处理视频帧进行复原重建处理,可以得到重建视频帧。下面将具体说明超分辨率重建模型的构建过程,举例而言,超分辨率重建模型可以通过下述步骤训练得到,参考图4,图4示意性地示出了根据本公开的一些实施例的超分辨率重建模型的流程示意图。
在步骤S410中,获取初始多场景图像集,对初始多场景图像集进行数据预处理,以得到多场景图像集。在数据驱动方案310中,首先,在数据采集上,考虑到训练集对网络模型泛化能力的影响,为了使网络在RTC通信场景下具有更真实的效果,可以采用包含人像、自然场景、室内场景等多场景数据作为卷积神经网络的训练集,多场景图像数据中不仅包含众多人像信息,而且场景多样,可以更好地模拟通信场景图像数据的分布特点,提高网络在视频通信和直播场景下的泛化能力。其次,为了解决视频编码压缩等带来的视频传输失真问题,本公开可以对初始多场景图像集进行数据预处理,得到多场景图像集。通过对初始多场景图像集进行数据预处理,使得深度学习网络不仅可以学习到从下采样图像到上采样图像之间的映射关系,而且可以学习到从压缩损失到清晰图像之间的映射关系,因此深度学习网络在实际RTC视频场景下具有更好的真实效果。
例如,对初始多场景图像集中每个初始场景图像进行数据预处理的过程可以通过下述步骤进行:
在本公开的一个实施例中,对初始场景图像进行下采样处理,得到下采样场景图像;对下采样场景图像进行数据增强处理,以得到中间场景图像;对中间场景图像进行编解码处理,以对中间场景图像进行压缩处理,得到多场景图像。
其中,下采样处理可以是图像的缩小过程,通过下采样处理可以使图像符合显示区域的大小,或者是生成对应图像的缩略图。下采样场景图像可以是对初始场景图像进行下采样处理后得到的图像。数据增强处理可以是当训练数据有限时,通过一些变换根据已有的训练数据集生成一些新的数据,以扩大训练数据的过程。举例而言,数据增强处理可以包括图像裁剪、图像旋转和添加噪声等方式。中间场景图像可以是对下采样场景图像进行数据增强处理后得到的图像。编解码处理可以是对图像进行压缩处理的过程。多场景图像可以是对中间场景图像进行压缩处理后得到的图像。
首先,由于在视频帧传输过程中,是对压缩后的视频帧进行传输,在进行模型训练时,为了使模型学习到视频编码压缩等带来的传输失真问题,可以对初始多场景图像集中的初始场景图像进行下采样处理,生成下采样场景图像。其次,由于增加训练数据可以提高算法的准确率,避免出现过拟合现象,因此,当训练数据集中的数据有限时,可以采用数据增强处理的方式对下采样场景图像进行图像旋转、图像裁剪、增加高斯噪声、模糊处理等数据增强处理,得到中间场景图像。再次,可以采用x264编码器对中间场景图像进行编码;其中,x264编码器是一种用于编码符合高效率视频编码标准的视频的开源自由软件及函数库;并使用多媒体视频处理工具(Fast Forward Mpeg,ffmpeg)对其进行解码,以实现对中间场景图像的压缩处理,得到多场景图像。
本公开中利用数据采集和数据预处理的数据驱动方案,使得构建得到的超分辨率重建模型在RTC真实视频场景下具有更好的实际效果
在步骤S420中,获取初始模型,并构建对应的感知损失函数。获取根据图像重建特征构建的初始模型,并根据初始模型构建对应的感知损失函数。在超分辨任务中,目前通常采用L1范数损失函数、L2范数损失函数作为损失函数以训练超分辨率模型,由于在超分辨任务中,L1范数损失函数、L2范数损失函数忽略了图像内容本身的影响,而实际上人眼视觉系统对图像中的无纹理区域的亮度和颜色变化更敏感。因此,采用感知损失函数(Perceptual loss)作为损失函数,可以在得到感知域内容的过程中,对图像的内容进行提炼,在感知域空间中计算的损失相当于结合图像内容的损失,可以使得复原后的图像视觉效果上更好。
在步骤S430中,采用多场景图像集并通过感知损失函数对初始模型进行训练,以得到初始超分辨率重建模型。在获取到初始模型后,可以将多场景图像集作为训练集,并根据感知损失函数对初始模型进行训练,直至感知损失函数收敛,得到初始超分辨率重建模型。
在步骤S440中,对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型。由于在RTC场景中,对实时性的要求较高,因此,可以对得到的初始超分辨率重建模型进行模型裁剪和压缩等处理,对其进行优化和改进,得到超分辨率重建模型,以采用超分辨率重建模型对待处理视频帧进行复原重建处理。
例如,可以采用下述步骤对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型。
在本公开的一个实施例中,确定初始超分辨率重建模型的神经网络的基神经元;基神经元用于重建神经网络中的神经元;根据基神经元确定神经网络的冗余神经元,冗余神经元根据基神经元的组合表示得到;对冗余神经元进行剪枝处理,以得到超分辨率重建模型。
其中,基神经元可以用于重建神经网络中的神经元,即,已训练完成的神经网络中各个神经元可以通过基神经元的组合来表示。冗余神经元可以是能够根据基神经元的组合表示得到的神经元。例如,冗余神经元可以包括完全等于基神经元组合的神经元,以及近似等于基神经元组合的神经元(如与基神经元组合之间的误差小于误差阈值)。剪枝处理可以是剪除冗余神经元的过程。
具体的,在训练完成后,获取得到的初始超分辨率重建模型,初始超分辨率重建模型可以是至完成训练和学习过程的深度神经网络。由于完成训练和学习过程的深度神经网络可能参数较多、结构较为复杂等,需要占用计算机设备较多的计算资源和存储资源,因而需要精简网络结构和网络参数,因此,可以获取这些深度神经网络并对其进行一系列的处理。在模型压缩优化330的方案中,已训练完成的神经网络中包括至少一个神经元,基神经元可以用于重建该至少一个神经元。举例而言,如果已训练完成的神经网络为多层的网络结构,每一层网络中均包括至少一个神经元,则针对已训练完成的神经网络中的每一层网络,均可以确定出对应的基神经元,进而某一层网络中各个神经元可以使用该层网络对应的基神经元的组合来表示。
由于通过基神经元可以重构已训练完成的神经网络中的神经元,也即,通过组合基神经元来可以表示已训练完成的神经网络中的神经元。对于已训练完成的神经网络中的某些神经元可以通过基神经元的组合较好地重构,这部分神经元可以通过基神经元组合表示;而某些神经元不可以通过基神经元的组合较好地重构,这部分神经元与基神经元组合之间并不近似,进而不可以通过基神经元组合来表示。因此,可以将已训练完成的神经网络中能够通过基神经元组合表示的神经元称为冗余神经元。在确定出冗余神经元后,可以对冗余神经元进行剪枝处理,得到超分辨率重建模型。
由于在模型训练中,采用感知损失作为损失函数,可以使网络的输出更加符合人眼的主观感受,进而使得超分辨重建后的视频具有较好的主观视觉效果;通过轻量型模型压缩策略,对训练得到初始超分辨率重建模型进行剪枝,得到最终的超分辨率重建模型,提升了超分辨率重建模型实时视频处理的效率。
在步骤S220中,对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征。
在一些示例实施例中,通道特征提取可以是对待处理视频帧的不同通道的特征进行提取的过程。空间特征提取可以是对待处理视频帧中的图像边缘信息进行提取的过程。通道特征可以是对待处理视频帧在不同通道中进行通道特征提取后得到的特征,通道特征可以包括待处理视频帧中的重点通道信息。边缘结构特征可以是待处理视频帧中包含的边缘结构特征。
参考图3,本公开采用双重注意力网络320的处理方案,在获取到待处理视频帧后,可以分别对待处理视频帧进行通道特征提取和空间特征提取,得到待处理视频帧的通道特征和边缘结构特征。
在本公开的一个实施例中,对待处理视频帧进行第一特征提取,得到初始特征图;对初始特征图进行通道特征提取,以得到通道特征;对初始特征图进行空间特征提取,以得到边缘结构特征。
其中,第一特征提取可以是提取待处理视频帧中的浅层特征的过程。初始特征图可以是对待处理视频帧进行第一特征提取后得到的特征图。初始特征图的尺寸和待处理视频帧的原始图像尺寸相同。
具体的,参考图5,图5示意性地示出了根据本公开的一些实施例的采用超分辨率重建模型对待处理视频帧进行重建的流程示意图。获取待处理视频帧501,由浅层特征提取模块510对待处理视频帧501进行第一特征提取处理,并得到初始特征图。将得到的初始特征图分别输入至通道特征注意力模块520和空间特征注意力模块530中,由通道特征注意力模块520对初始特征图进行通道特征提取,得到对应的通道特征;并由空间特征注意力模块530对初始特征图进行空间特征提取,得到对应的边缘结构特征。由于本公开在进行特征提取时,采用双重注意力机制,使得模型对视频帧中的重点特征更加关注,可以使超分处理后的视频帧具有更好的细节和边缘。
在本公开的一个实施例中,对初始特征图进行第一卷积处理,以得到第一卷积特征;对第一卷积特征进行第二卷积处理,以得到第一卷积特征在多个通道上对应的初始通道特征;对多个初始通道特征进行池化处理,以得到各初始通道特征分别对应的通道权重;根据各通道权重将第一卷积特征与多个初始通道特征进行融合处理,以得到通道特征。
其中,第一卷积处理可以是对初始特征图进行卷积处理的过程。第一卷积特征可以是对初始特征图进行第一卷积处理后得到的特征。第二卷积处理可以是对第一卷积特征进行卷积处理,以提取第一卷积特征在多个不同通道中对应的通道特征的过程。初始通道特征可以是对第一卷积特征进行通道特征提取后得到的特征。池化处理可以是确定不同通道特征对应的权重值的过程。通道权重可以是各个不同的通道特征在进行特征融合处理时所采用的权重。融合处理可以是将多个初始通道特征进行融合处理的过程。通道特征可以是对多个初始通道特征进行融合处理后得到的特征。
具体的,在获取到初始特征图后,可以将初始特征图输入至通道特征注意力模块,由通道特征注意力模块对初始特征图进行通道特征提取。通道特征注意力模块由若干个带有通道注意力的残差模块组成,每个残差模块可以由“卷积——池化——卷积——卷积——激活函数(Sigmoid)”等结构构成。参考图6,图6示意性地示出了根据本公开的一些实施例的通道特征注意力模块的部分网络结构图。通道特征注意力模块520的每个残差模块可以包括第一卷积层610、池化层620、第二卷积层630、可选卷积层640和激活函数650等。举例而言,第一卷积层610可以是一个64通道的3x3卷积层;第二卷积层630可以是一个通道数为4的3x3卷积层;可选卷积层640可以是一个通道数为64的3x3卷积层。
在获取到初始特征图后,可以将初始特征图作为输入601,先采用第一卷积层610,即一个64通道的3x3卷积层对初始特征图进一步进行特征提取;再采用池化层620,例如可以采用最大池化(MaxPooling)方式,通过经过MaxPooling池化层将64通道的二维特征转化成一维特征,即第一卷积特征;然后分别经过两个3x3、通道数分别为4和64的第二卷积层630和可选卷积层640对一维特征进行第二卷积处理,即压缩再恢复;将恢复后的64通道的特征通过Sigmoid激活函数650计算得到64个权重值,即多个不同通道对应的通道权重,再和第一个卷积层的输出特征通过元素相乘的方式进行合并;最后与得到的初始特征图的输出特征相加得到输出602,以传输至下一个模块进行处理。
在通道注意力模块中,第一卷积层610的作用是提取初始特征图中的第一卷积特征,后面池化层和卷积层的作用则是为了提取第一卷积特征在不同通道的权重,通过Sigmoid激活函数将不同通道的通道权重值计算出来,不同通道的通道权重与前面卷积层的输出相乘进行合并,因为不同通道特征经过池化后的权重值不同,所以融合后不同通道在输出特征中所占比重也有所不同,从而使得权重占比更大的通道对于网络的输出具有更大的影响,即本公开中采用的通道注意力机制,可以使模型更加关注网络中的重点通道信息。
在本公开的一个实施例中,对初始特征图进行预设次数的下采样操作,以得到下采样特征图;对下采样特征图进行与下采样操作对应次数的上采样操作,以得到初始边缘特征图;对初始边缘特征图进行全连接输出处理,以得到边缘结构特征。
其中,下采样操作可以是对初始特征图进行缩小的过程。下采样特征图可以对初始特征图进行下采样操作后得到的特征图。上采样操作可以是放大下采样特征图的处理过程。初始边缘特征图可以是对下采样特征图进行预设次数的上采样操作后得到的特征图。
在获取到初始特征图后,可以将初始特征图输入至空间特征注意力模块,由空间特征注意力模块对初始特征图进行空间特征提取,以得到边缘结构特征。空间特征注意力模块可以由“卷积——反卷积”等结构组成。参考图7,图7示意性地示出了根据本公开的一些实施例的空间特征注意力模块的网络结构图。空间特征注意力模块530可以包括卷积层710、卷积层720、卷积层730以及反卷积层740、反卷积层750和激活函数760等。
举例而言,采用空间特征注意力模块530对初始特征图进行空间特征提取的过程如下:将初始特征图作为空间特征注意力模块530的输入701,采用一个64通道的3x3卷积层701对上个模块的输出特征(即初始特征图701)进一步特征提取;先后采用卷积层720和卷积层730对初始特征图分别进行两倍的下采样,将初始特征图的图像尺寸缩减为原来的1/4;然后依次经过两个反卷积层,即反卷积层740和反卷积层750进行上采样,将特征图恢复到原始尺寸;其中,上采样操作与下采样操作的次数相同。再由Sigmoid激活函数760计算得到一个二维的权重值;最后和第一个卷积层710的输出特征通过元素相乘的方式进行合并,得到初始边缘结构特征。将得到的初始边缘结构特征进行全连接输出处理,可以得到输出结果702,即边缘结构特征。
通过上述先对初始特征图进行下采样,再上采样的操作,得到边缘结构特征的处理过程。对于数字图像来说,经过缩放之后,虽然图像中的细节信息可能有所丢失,但是图像基本的结构特征是不会发生变化的,这些结构特征最直观的表现就是图像中边缘信息。因此,空间特征注意力模块530的主要作用就是将输入图像经过下采样——上采样操作,提取得到初始边缘结构特征,然后通过全局连接的方式传递到网络的输出层,输出待处理视频帧的边缘结构特征,可以使得超分辨后的图像具有更清晰的边缘和轮廓结构。
在步骤S230中,对通道特征和边缘结构特征进行融合处理,以得到中间特征图。
在一些示例实施例中,融合处理可以是对提取出的通道特征和边缘结构特征进行融合的过程。中间特征图可以是将通道特征和边缘结构特征进行融合后得到的特征图。
参考图5,在分别采用通道特征注意力模块520和空间特征注意力模块530对初始特征图进行特征提取,得到对应的通道特征和边缘结构特征后,可以将通道特征和边缘结构特征进行特征融合处理,得到中间特征图,即上采样重建模块540的输入。
在步骤S240中,对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧。
在一些示例实施例中,上采样重建操作可以是对中间特征图进行图像放大的处理过程。重建视频帧可以是经过特征提取处理以及上采样重建处理得到的视频帧。第二分辨率可以是重建视频帧对应的分辨率,由于本公开是对待处理视频帧进行超分重建处理,因此第二分辨率必定大于第一分辨率。
参考图5,在得到中间特征图后,可以将中间特征图输入至上采样重建模块540中,由上采样重建模块540对中间特征图进行上采样重建处理,可以得到重建视频帧502。
在步骤S250中,根据多个重建视频帧生成重建视频帧序列。
在一些示例实施例中,重建视频帧序列可以是由多个重建视频帧按先后次序组成的序列。
在逐个对待处理视频帧序列中的待处理视频帧进行上述处理过程后,可以得到对应的重建视频帧,并确定多个重建视频帧在视频播放中的先后顺序,以根据先后顺序生成对应的重建视频帧序列,以便视频接收端可以根据重建视频帧序列播放对应的视频。
示例性模型
在介绍了本公开示例性实施方式的方法之后,接下来,参考图8对本公开示例性实施例的超分辨率重建模型进行说明。
在图8中,超分辨率重建模型800可以包括第一特征提取模块810、通道特征提取模块820、空间特征提取模块830、特征融合模块840以及上采样重建模块850。
第一特征提取模块810,用于获取第一分辨率的待处理视频帧,对待处理视频帧进行第一特征提取,以得到初始特征图;
通道特征提取模块820,用于对初始特征图进行通道特征提取,以得到通道特征;
空间特征提取模块830,用于对初始特征图进行空间特征提取,以得到边缘结构特征;
特征融合模块840,用于对通道特征和边缘结构特征进行融合处理,以得到中间特征图;
上采样重建模块850,用于对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧。
在本公开的一个实施例中,通道特征提取模块包括:第一卷积层,用于对初始特征图进行第一卷积处理,以得到第一卷积特征;第二卷积层,用于对第一卷积特征进行第二卷积处理,以得到第一卷积特征在多个通道上对应的初始通道特征;第一池化层,用于对多个初始通道特征进行池化处理,以得到各初始通道特征分别对应的通道权重;特征融合层,用于根据各通道权重将第一卷积特征与多个初始通道特征进行融合处理,以得到通道特征。
在本公开的一个实施例中,空间特征提取模块包括:下采样处理层,用于对初始特征图进行预设次数的下采样操作,以得到下采样特征图;上采样重建层,用于对下采样特征图进行与下采样操作对应次数的上采样操作,以得到初始边缘特征图;空间特征提取层,用于对初始边缘特征图进行全连接输出处理,以得到边缘结构特征。
示例性装置
在介绍了本公开示例性实施方式的方法之后,接下来,参考图9对本公开示例性实施例的视频超分处理装置进行说明。
在图9中,视频超分处理装置900可以包括待处理视频获取模块910、特征提取模块920、特征融合模块930、上采样重建模块940以及帧序列生成模块950。其中:
待处理视频获取模块910,用于获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧;
特征提取模块920,用于对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征;
特征融合模块930,用于对通道特征和边缘结构特征进行融合处理,以得到中间特征图;
上采样重建模块940,用于对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;
帧序列生成模块950,用于根据多个重建视频帧生成重建视频帧序列。
在本公开的一个实施例中,视频超分处理装置还包括:模型获取模块,用于获取预先构建的超分辨率重建模型,以通过超分辨率重建模型对待处理视频帧进行重建处理;模型训练模块,用于获取初始多场景图像集,对初始多场景图像集进行数据预处理,以得到多场景图像集;获取初始模型,并构建对应的感知损失函数;采用多场景图像集并通过感知损失函数对初始模型进行训练,以得到初始超分辨率重建模型;对初始超分辨率重建模型进行模型压缩处理,以得到超分辨率重建模型。
在本公开的一个实施例中,模型训练模块包括训练集确定单元,训练集确定单元被配置为:对初始场景图像进行下采样处理,得到下采样场景图像;对下采样场景图像进行数据增强处理,以得到中间场景图像;对中间场景图像进行编解码处理,以对中间场景图像进行压缩处理,得到多场景图像。
在本公开的一个实施例中,模型训练模块包括模型压缩单元,模型压缩单元被配置为:确定初始超分辨率重建模型的神经网络的基神经元;基神经元用于重建神经网络中的神经元;根据基神经元确定神经网络的冗余神经元,冗余神经元根据基神经元的组合表示得到;对冗余神经元进行剪枝处理,以得到超分辨率重建模型。
在本公开的一个实施例中,特征提取模块包括:初始图确定单元,用于对待处理视频帧进行第一特征提取,得到初始特征图;通道特征提取单元,用于对初始特征图进行通道特征提取,以得到通道特征;边缘特征提取单元,用于对初始特征图进行空间特征提取,以得到边缘结构特征。
在本公开的一个实施例中,通道特征提取单元被配置为:对初始特征图进行第一卷积处理,以得到第一卷积特征;对第一卷积特征进行第二卷积处理,以得到第一卷积特征在多个通道上对应的初始通道特征;对多个初始通道特征进行池化处理,以得到各初始通道特征分别对应的通道权重;根据各通道权重将第一卷积特征与多个初始通道特征进行融合处理,以得到通道特征。
在本公开的一个实施例中,边缘特征提取单元被配置为:对初始特征图进行预设次数的下采样操作,以得到下采样特征图;对下采样特征图进行与下采样操作对应次数的上采样操作,以得到初始边缘特征图;对初始边缘特征图进行全连接输出处理,以得到边缘结构特征。
由于本公开的示例实施例的视频超分处理装置的各个功能模块与上述视频超分处理方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的视频超分处理方法的实施例,此处不再赘述。
应当注意,尽管在上文详细描述中提及了视频超分处理装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开实施例的一个方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的视频超分处理方法。
示例性介质
在介绍了本公开示例性实施方式的装置之后,接下来,参考图10对本公开示例性实施例的存储介质进行说明。
在一些实施例中,本公开的各个方面还可以实现为一种介质,其上存储有程序代码,当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的视频超分处理方法中的步骤。
例如,所述设备的处理器执行所述程序代码时可以实现如图2中所述的步骤S210,获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧;步骤S220,对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征;步骤S230,对通道特征和边缘结构特征进行融合处理,以得到中间特征图;步骤S240,对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;步骤S250,根据多个重建视频帧生成重建视频帧序列。
参考图10所示,描述了根据本公开的实施例的用于实现上述视频超分处理方法或者实现上述视频超分处理方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性计算设备
在介绍了本公开示例性实施方式的视频超分处理方法、超分辨率重建模型、视频超分处理装置以及存储介质之后,接下来,参考图11对本公开示例性实施方式的电子设备进行说明。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施例中,根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的视频超分处理方法中的步骤。例如,所述处理单元可以执行如图2中所示的步骤S210,获取待处理视频帧序列;待处理视频帧序列包括多个第一分辨率的待处理视频帧;步骤S220,对待处理视频帧进行通道特征提取和空间特征提取,以得到待处理视频帧对应的通道特征和边缘结构特征;步骤S230,对通道特征和边缘结构特征进行融合处理,以得到中间特征图;步骤S240,对中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;步骤S250,根据多个重建视频帧生成重建视频帧序列。
下面参照图11来描述根据本公开的示例实施例的电子设备1100。图11所示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1101、上述至少一个存储单元1102、连接不同系统组件(包括存储单元1102和处理单元1101)的总线1103、显示单元1107。
总线1103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1121和/或高速缓存存储器1122,还可以进一步包括只读存储器(ROM)1123。
存储单元1102还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备1100也可以与一个或多个外部设备1104(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与电子设备1100交互的设备通信,和/或与使得电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且,电子设备1100还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1106通过总线1103与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了视频超分处理装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种视频超分处理方法,其特征在于,包括:
获取待处理视频帧序列;所述待处理视频帧序列包括多个第一分辨率的待处理视频帧;
对所述待处理视频帧进行通道特征提取和空间特征提取,以得到所述待处理视频帧对应的通道特征和边缘结构特征;
对所述通道特征和所述边缘结构特征进行融合处理,以得到中间特征图;
对所述中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;
根据多个所述重建视频帧生成重建视频帧序列。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预先构建的超分辨率重建模型,以通过所述超分辨率重建模型对所述待处理视频帧进行重建处理;
所述超分辨率重建模型通过下述步骤训练得到:
获取初始多场景图像集,对所述初始多场景图像集进行数据预处理,以得到所述多场景图像集;
获取初始模型,并构建对应的感知损失函数;
采用所述多场景图像集并通过所述感知损失函数对所述初始模型进行训练,以得到初始超分辨率重建模型;
对所述初始超分辨率重建模型进行模型压缩处理,以得到所述超分辨率重建模型。
3.根据权利要求2所述的方法,其特征在于,所述初始多场景图像集包括初始场景图像,所述对所述初始多场景图像集进行数据预处理,以得到所述多场景图像集,包括:
对所述初始场景图像进行下采样处理,得到下采样场景图像;
对所述下采样场景图像进行数据增强处理,以得到中间场景图像;
对所述中间场景图像进行编解码处理,以对所述中间场景图像进行压缩处理,得到所述多场景图像。
4.根据权利要求1所述的方法,其特征在于,所述对所述待处理视频帧进行通道特征提取和空间特征提取,以得到所述待处理视频帧对应的通道特征和边缘结构特征,包括:
对所述待处理视频帧进行第一特征提取,得到初始特征图;
对所述初始特征图进行所述通道特征提取,以得到所述通道特征;
对所述初始特征图进行所述空间特征提取,以得到所述边缘结构特征。
5.根据权利要求4所述的方法,其特征在于,所述对所述初始特征图进行所述通道特征提取,以得到所述通道特征,包括:
对所述初始特征图进行第一卷积处理,以得到第一卷积特征;
对所述第一卷积特征进行第二卷积处理,以得到所述第一卷积特征在多个通道上对应的初始通道特征;
对多个所述初始通道特征进行池化处理,以得到各所述初始通道特征分别对应的通道权重;
根据各所述通道权重将所述第一卷积特征与多个所述初始通道特征进行融合处理,以得到所述通道特征。
6.根据权利要求4所述的方法,其特征在于,所述对所述初始特征图进行所述空间特征提取,以得到所述边缘结构特征,包括:
对所述初始特征图进行预设次数的下采样操作,以得到下采样特征图;
对所述下采样特征图进行与所述下采样操作对应次数的上采样操作,以得到初始边缘特征图;
对所述初始边缘特征图进行全连接输出处理,以得到所述边缘结构特征。
7.一种超分辨率重建模型,其特征在于,包括:
第一特征提取模块,用于获取第一分辨率的待处理视频帧,对所述待处理视频帧进行第一特征提取,以得到初始特征图;
通道特征提取模块,用于对所述初始特征图进行通道特征提取,以得到通道特征;
空间特征提取模块,用于对所述初始特征图进行空间特征提取,以得到边缘结构特征;
特征融合模块,用于对所述通道特征和所述边缘结构特征进行融合处理,以得到中间特征图;
上采样重建模块,用于对所述中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧。
8.一种视频超分处理装置,其特征在于,包括:
待处理视频获取模块,用于获取待处理视频帧序列;所述待处理视频帧序列包括多个第一分辨率的待处理视频帧;
特征提取模块,用于对所述待处理视频帧进行通道特征提取和空间特征提取,以得到所述待处理视频帧对应的通道特征和边缘结构特征;
特征融合模块,用于对所述通道特征和所述边缘结构特征进行融合处理,以得到中间特征图;
上采样重建模块,用于对所述中间特征图进行上采样重建处理,得到第二分辨率的重建视频帧;
帧序列生成模块,用于根据多个所述重建视频帧生成重建视频帧序列。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至6中任意一项所述的视频超分处理方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的视频超分处理方法。
CN202110220231.3A 2021-02-26 2021-02-26 视频超分处理方法、装置、超分辨率重建模型、介质 Pending CN112950471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110220231.3A CN112950471A (zh) 2021-02-26 2021-02-26 视频超分处理方法、装置、超分辨率重建模型、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110220231.3A CN112950471A (zh) 2021-02-26 2021-02-26 视频超分处理方法、装置、超分辨率重建模型、介质

Publications (1)

Publication Number Publication Date
CN112950471A true CN112950471A (zh) 2021-06-11

Family

ID=76246575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220231.3A Pending CN112950471A (zh) 2021-02-26 2021-02-26 视频超分处理方法、装置、超分辨率重建模型、介质

Country Status (1)

Country Link
CN (1) CN112950471A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344794A (zh) * 2021-08-04 2021-09-03 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113706385A (zh) * 2021-09-02 2021-11-26 北京字节跳动网络技术有限公司 一种视频超分辨率方法、装置、电子设备及存储介质
CN114240750A (zh) * 2021-12-14 2022-03-25 北京欧珀通信有限公司 视频分辨率提升方法及装置、存储介质及电子设备
CN114529456A (zh) * 2022-02-21 2022-05-24 深圳大学 一种视频的超分辨率处理方法、装置、设备及介质
CN115187446A (zh) * 2022-05-26 2022-10-14 北京健康之家科技有限公司 换脸视频的生成方法、装置、计算机设备及可读存储介质
CN115205117A (zh) * 2022-07-04 2022-10-18 中国电信股份有限公司 图像重建方法及装置、计算机存储介质、电子设备
CN115358916A (zh) * 2022-07-06 2022-11-18 北京健康之家科技有限公司 换脸图像的生成方法、装置、计算机设备及可读存储介质
CN115409716A (zh) * 2022-11-01 2022-11-29 杭州网易智企科技有限公司 视频处理方法、装置、存储介质及设备
WO2023000179A1 (zh) * 2021-07-20 2023-01-26 Oppo广东移动通信有限公司 视频超分辨网络及视频超分辨、编解码处理方法、装置
WO2023174416A1 (zh) * 2022-03-17 2023-09-21 北京字节跳动网络技术有限公司 视频的超分辨率方法及装置
CN118134766A (zh) * 2024-05-07 2024-06-04 西安兵器工业科技产业开发有限公司 红外视频超分辨率重建方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019197661A1 (en) * 2018-04-13 2019-10-17 Koninklijke Kpn N.V. Frame-level super-resolution-based video coding
CN110889895A (zh) * 2019-11-11 2020-03-17 南昌大学 一种融合单帧重建网络的人脸视频超分辨率重建方法
CN111062872A (zh) * 2019-12-17 2020-04-24 暨南大学 一种基于边缘检测的图像超分辨率重建方法及系统
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN111340711A (zh) * 2020-05-21 2020-06-26 腾讯科技(深圳)有限公司 一种超分辨率重建方法、装置、设备和存储介质
CN112330539A (zh) * 2020-10-10 2021-02-05 北京嘀嘀无限科技发展有限公司 超分辨率图像重建方法、装置、存储介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019197661A1 (en) * 2018-04-13 2019-10-17 Koninklijke Kpn N.V. Frame-level super-resolution-based video coding
CN110889895A (zh) * 2019-11-11 2020-03-17 南昌大学 一种融合单帧重建网络的人脸视频超分辨率重建方法
CN111062872A (zh) * 2019-12-17 2020-04-24 暨南大学 一种基于边缘检测的图像超分辨率重建方法及系统
CN111192200A (zh) * 2020-01-02 2020-05-22 南京邮电大学 基于融合注意力机制残差网络的图像超分辨率重建方法
CN111340711A (zh) * 2020-05-21 2020-06-26 腾讯科技(深圳)有限公司 一种超分辨率重建方法、装置、设备和存储介质
CN112330539A (zh) * 2020-10-10 2021-02-05 北京嘀嘀无限科技发展有限公司 超分辨率图像重建方法、装置、存储介质和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OLIVIER A. MARTIN: "Point spread function reconstruction", 《ASTRONOMICAL TELESCOPES》 *
刘村;李元祥;周拥军;骆建华;: "基于卷积神经网络的视频图像超分辨率重建方法" *
康士伟等: "单帧图像超分辨率重建的深度神经网络综述", 《信息通信》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023000179A1 (zh) * 2021-07-20 2023-01-26 Oppo广东移动通信有限公司 视频超分辨网络及视频超分辨、编解码处理方法、装置
CN113344794A (zh) * 2021-08-04 2021-09-03 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备及存储介质
CN113706385A (zh) * 2021-09-02 2021-11-26 北京字节跳动网络技术有限公司 一种视频超分辨率方法、装置、电子设备及存储介质
CN114240750A (zh) * 2021-12-14 2022-03-25 北京欧珀通信有限公司 视频分辨率提升方法及装置、存储介质及电子设备
CN114529456A (zh) * 2022-02-21 2022-05-24 深圳大学 一种视频的超分辨率处理方法、装置、设备及介质
CN114529456B (zh) * 2022-02-21 2022-10-21 深圳大学 一种视频的超分辨率处理方法、装置、设备及介质
WO2023174416A1 (zh) * 2022-03-17 2023-09-21 北京字节跳动网络技术有限公司 视频的超分辨率方法及装置
CN115187446A (zh) * 2022-05-26 2022-10-14 北京健康之家科技有限公司 换脸视频的生成方法、装置、计算机设备及可读存储介质
CN115205117A (zh) * 2022-07-04 2022-10-18 中国电信股份有限公司 图像重建方法及装置、计算机存储介质、电子设备
CN115205117B (zh) * 2022-07-04 2024-03-08 中国电信股份有限公司 图像重建方法及装置、计算机存储介质、电子设备
CN115358916A (zh) * 2022-07-06 2022-11-18 北京健康之家科技有限公司 换脸图像的生成方法、装置、计算机设备及可读存储介质
CN115409716A (zh) * 2022-11-01 2022-11-29 杭州网易智企科技有限公司 视频处理方法、装置、存储介质及设备
CN118134766A (zh) * 2024-05-07 2024-06-04 西安兵器工业科技产业开发有限公司 红外视频超分辨率重建方法、装置及设备

Similar Documents

Publication Publication Date Title
CN112950471A (zh) 视频超分处理方法、装置、超分辨率重建模型、介质
CN112598579B (zh) 面向监控场景的图像超分辨率方法、装置及存储介质
Zhao et al. Invertible image decolorization
CN111105352A (zh) 超分辨率图像重构方法、系统、计算机设备及存储介质
CN112801901A (zh) 基于分块多尺度卷积神经网络的图像去模糊算法
CN113870104A (zh) 超分辨率图像重建
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN113066034B (zh) 人脸图像的修复方法与装置、修复模型、介质和设备
CN114723760B (zh) 人像分割模型的训练方法、装置及人像分割方法、装置
CN115082306A (zh) 一种基于蓝图可分离残差网络的图像超分辨率方法
KR20210040873A (ko) 이미지 충진 방법, 장치, 기기, 저장매체 및 프로그램
CN115375910A (zh) 一种基于注意力机制的点云特征提取方法及装置
CN113902631A (zh) 图像处理方法、电子设备和存储介质
CN117671254A (zh) 一种图像分割方法及装置
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
US11928855B2 (en) Method, device, and computer program product for video processing
CN111861877A (zh) 视频超分变率的方法和装置
CN115578261A (zh) 图像处理方法、深度学习模型的训练方法、装置
CN114663937A (zh) 模型训练及图像处理方法、介质、装置和计算设备
CN115205117A (zh) 图像重建方法及装置、计算机存储介质、电子设备
CN114596203A (zh) 用于生成图像和用于训练图像生成模型的方法和装置
CN115311152A (zh) 图像处理方法、装置、电子设备以及存储介质
CN116137017A (zh) 超分辨率视频的确定方法和电子设备
CN115222606A (zh) 图像处理方法、装置、计算机可读介质及电子设备
CN111062886A (zh) 酒店图片的超分辨方法、系统、电子产品和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211008

Address after: 310000 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd.

Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU LANGHE TECHNOLOGY Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611