CN111861877A - 视频超分变率的方法和装置 - Google Patents

视频超分变率的方法和装置 Download PDF

Info

Publication number
CN111861877A
CN111861877A CN201910336702.XA CN201910336702A CN111861877A CN 111861877 A CN111861877 A CN 111861877A CN 201910336702 A CN201910336702 A CN 201910336702A CN 111861877 A CN111861877 A CN 111861877A
Authority
CN
China
Prior art keywords
video
data
model
resolution
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910336702.XA
Other languages
English (en)
Inventor
周川
金慕淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Huawei Technologies Co Ltd
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Korea Advanced Institute of Science and Technology KAIST filed Critical Huawei Technologies Co Ltd
Priority to CN201910336702.XA priority Critical patent/CN111861877A/zh
Publication of CN111861877A publication Critical patent/CN111861877A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Processing (AREA)

Abstract

本申请提供了提供一种视频超分变率的方法和装置,涉及人工智能领域,具体涉及计算机视觉领域,该方法包括:获取神经网络CNN模型;根据CNN模型对低分辨率的第一视频的数据进行超分变率处理,以生成第一待处理数据;根据非神经网络模型对所述第一视频的数据进行超分辨率处理,以生成第二待处理数据;根据所述第一待处理数据和所述第二待处理数据,生成高分辨率的第二视频的数据,能够在实现视频超分辨率的前提下,减小神经网络模型的层数,降低神经网络模型的复杂度和参数数量。

Description

视频超分变率的方法和装置
技术领域
本申请涉及计算机视觉领域,并且更具体的涉及一种视频超分变率的方法和装置,以及训练卷积神经网络模型的方法和装置。
背景技术
超分辨率是视频播放过程的一个重要环节,例如,在支持4K分辨率的电视上,播放1080p的视频内容时,需要在视频解码之后,对视频帧进行超分辨率,提高像素点数量,以适应屏幕的分辨率。
深度卷积神经网络(convolutional neural networks,CNN)是一种深度学习模型,能够用于图像超分辨率提升。
但是,现有的CNN模型包括的卷积层的数量较多,对处理器和内存的要求较高,严重制约了超分辨率技术的发展和应用。
因此,希望提供一种技术,能够减少用于视频超分辨率的CNN模型的卷积层数。
发明内容
本申请提供一种视频超分变率的方法和设备,能够降低用于视频超分辨率的神经网络模型的层数,降低神经网络模型的复杂度和参数数量。
第一方面,提供一种视频超分变率的方法,包括:获取与第一分辨率对应的第一模型,所述第一模型包括神经网络模型;根据所述第一模型对第二分辨率的第一视频的数据进行超分变率处理,以生成第一待处理数据,所述第一分辨率高于所述第二分辨率;根据与所述第一分辨率对应的第二模型对所述第一视频的数据进行超分辨率处理,以生成第二待处理数据,其中,所述第二模型包括非神经网络模型;根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据。
根据本申请提供的方案,通过基于神经网络模型和非神经网络模型分别对第二分辨率的第一视频进行超分辨率处理,并根据处理得到的两个待处理数据生成第一分辨率的视频的数据,从而,神经网络模型仅需要处理第一视频的数据与第二待处理数据的残差部分,能够在实现视频超分辨率的前提下,减小神经网络模型的层数,降低神经网络模型的复杂度和参数数量。
可选地,该神经网络模型包括卷积神经网络模型CNN。
可选地,该神经网络模型的卷积层的结构包括深度可分离卷积(depthwiseseparable convolution)结构。
可选地,所述获取与第一分辨率对应的第一模型包括:获取第一分辨率的第二原始训练视频;对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据;将经过所述调节后的原始模型确定为所述第一模型。
根据本申请提供的方案,通过对第一分辨率的第二原始训练视频进行降分辨率处理,再对所得到的第二分辨率的第二原始训练视频进行超分辨率处理,获得第一分辨率的第一原始训练视频,并基于该第一原始训练视频训练第一模型,能够在第一模型的训练中引入超分辨率处理中出现的噪声,从而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,在调节原始模型的参数之前,所述方法还包括:对所述第一原始训练视频进行高斯模糊处理。
可选地,在所述第二原始训练视频进行降分辨率处理之前,所述方法还包括:对所述第二原始训练视频进行高斯模糊处理。
根据本申请提供的方案,通过对第一原始训练视频或第二原始训练视频进行高斯模糊处理,能够模拟出低质量的视频,从而,能够提高基于经过高斯模糊处理的第一原始训练视频训练得到的第一模型的性能,进而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,在调节原始模型的参数之前,所述方法还包括:根据第一编码方式,对所述第一原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,在所述第二原始训练视频进行降分辨率处理之前,所述方法还包括:根据第一编码方式,对所述第二原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第二原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式
根据本申请提供的方案,通过对第一原始训练视频或第二原始训练视频进行编码和解码处理,能够模拟出编码损失,从而,能够提高基于编解码处理的第一原始训练视频训练得到的第一模型的性能,进而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,所述第二模型包括朗克休斯重采样(Lanczos resampling)算法模型。
或者,所述第二模型包括双三次插值(Bicubic interpolation)算法模型。
可选地,所述第一模型包括k个卷积层,其中,k≥3。
可选地,k的值为4。
可选地,经过所述k个卷积层中的前n个卷积层处理的数据被分为至少两路数据,所述至少两路数据中的第一路数据被输入至所述多个卷积层中的第n+1个卷积层,并经过所述第n+1个卷积层至第n+m个卷积层处理,处理后的第一路数据以及所述至少两路数据中的第二路数据合路后被输入至所述多个卷积层中的第n+m+1个卷积层,并经过所述第n+1个卷积层至第k个卷积层处理,n≥1,m≥1。
可选地,k=4,n=1,m=2。
可选地,所述方法还包括:获取多个模型,以及所述多个模型与多个视频类型之间的映射关系,其中,每个模型是由所对应的视频类型的视频训练后获得的;以及所述获取与第一分辨率对应的第一模型包括:根据所述映射关系,将与所述多个模型中与所述第一视频的视频类型对应的模型,确定为所述第一模型。
根据本申请的方案,通过使用不同类型的视频训练不同类型的模型,较使用多种类型训练同一模型相比,能够提高模型的针对性,改善经过模型处理后的视频的画质,进一步提高本申请的方案的实用性。
可选地,所述方法由移动终端的处理器执行。
可选地,所述获取与第一分辨率对应的第一模型包括:接收第三方设备发送的第一模型,所述第一模型是所述第三方设备根据对原始模型的参数进行调节后生成的,其中,目标训练视频与第一分辨率的第二原始训练视频之间的相似度满足预设条件,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据,所述第一原始训练视频是所述第二原始训练视频经过降频处理后获得的。
可选地,所述第一原始训练视频或第二原始训练视频是经过高斯模糊处理的视频。
可选地,所述第一原始训练视频或第二原始训练视频是进行编码处理和解码处理后的视频。
可选地,所述第一待处理数据包括第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第一Y矩阵,所述第二待处理数据包括所述第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第二Y矩阵。
可选地,所述根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据,包括:对第一视频的第i帧的第一Y矩阵和所述第i帧的第二Y矩阵求和,作为第二视频的第i帧的Y矩阵,其中,i∈[1,Z],Z为所述第一视频包括的帧的数量。
第二方面,提供一种视频超分变率的装置,包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述处理器执行所述存储器存储的程序时,所述处理器用于:获取与第一分辨率对应的第一模型,所述第一模型包括神经网络模型;根据所述第一模型对第二分辨率的第一视频的数据进行超分变率处理,以生成第一待处理数据,所述第一分辨率高于所述第二分辨率;根据与所述第一分辨率对应的第二模型对所述第一视频的数据进行超分辨率处理,以生成第二待处理数据,其中,所述第二模型包括非神经网络模型;根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据。
可选地,所述处理器还用于:获取第一分辨率的第二原始训练视频;对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据;将经过所述调节后的原始模型确定为所述第一模型。
可选地,所述处理器还用于:对所述第一原始训练视频进行高斯模糊处理。
可选地,所述处理器还用于:对所述第二原始训练视频进行高斯模糊处理。
可选地,所述处理器还用于:根据第一编码方式,对所述第一原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,所述处理器还用于:根据第一编码方式,对所述第二原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第二原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,所述处理器还用于获取多个模型,以及所述多个模型与多个视频类型之间的映射关系,其中,每个模型是由所对应的视频类型的视频训练后获得的,并用于将与所述多个模型中与所述第一视频的视频类型对应的模型,确定为所述第一模型。
可选地,所述设备配置在或本身即为移动终端。
可选地,所述处理器为一个或多个,所述存储器为一个或多个。
可选地,所述存储器可以与所述处理器集成在一起,或者所述存储器与处理器分离设置。
可选地,所述设备还包括收发器,用于接收第三方设备发送的第一模型,所述第一模型是所述第三方设备根据对原始模型的参数进行调节后生成的,其中,目标训练视频与第一分辨率的第二原始训练视频之间的相似度满足预设条件,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据,所述第一原始训练视频是所述第二原始训练视频经过降频处理后获得的。
可选地,所述第一原始训练视频或第二原始训练视频是经过高斯模糊处理的视频。
可选地,所述第一原始训练视频或第二原始训练视频是进行编码处理和解码处理后的视频。
可选地,所述第一待处理数据包括第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第一Y矩阵,所述第二待处理数据包括所述第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第二Y矩阵。
可选地,所述处理器用于对第一视频的第i帧的第一Y矩阵和所述第i帧的第二Y矩阵求和,作为第二视频的第i帧的Y矩阵,其中,i∈[1,Z],Z为所述第一视频包括的帧的数量。
第三方面,提供一种视频解码器,包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述处理器执行所述存储器存储的程序时,所述处理器用于:解码编码流,获取第二分辨率的第一视频,并根据与第一分辨率对应的第一模型对所述第二分辨率的第一视频的数据进行超分变率处理,以生成第一待处理数据,所述第一分辨率高于所述第二分辨率,所述第一模型包括神经网络模型,并用于根据与所述第一分辨率对应的第二模型对所述第一视频的数据进行超分辨率处理,以生成第二待处理数据,所述第二模型包括非神经网络模型,并用于根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据。
可选地,所述处理器还用于:获取第一分辨率的第二原始训练视频;对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据;将经过所述调节后的原始模型确定为所述第一模型。
可选地,所述处理器还用于:对所述第一原始训练视频进行高斯模糊处理。
可选地,所述处理器还用于:对所述第二原始训练视频进行高斯模糊处理。
可选地,所述处理器还用于:根据第一编码方式,对所述第一原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,所述处理器还用于:根据第一编码方式,对所述第二原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第二原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,所述处理器还用于获取多个模型,以及所述多个模型与多个视频类型之间的映射关系,其中,每个模型是由所对应的视频类型的视频训练后获得的,并用于将与所述多个模型中与所述第一视频的视频类型对应的模型,确定为所述第一模型。
可选地,所述设备配置在或本身即为移动终端。
可选地,所述处理器为一个或多个,所述存储器为一个或多个。
可选地,所述存储器可以与所述处理器集成在一起,或者所述存储器与处理器分离设置。
可选地,所述视频解码器还包括收发器,用于接收第三方设备发送的第一模型,所述第一模型是所述第三方设备根据对原始模型的参数进行调节后生成的,其中,目标训练视频与第一分辨率的第二原始训练视频之间的相似度满足预设条件,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据,所述第一原始训练视频是所述第二原始训练视频经过降频处理后获得的。
可选地,所述第一原始训练视频或第二原始训练视频是经过高斯模糊处理的视频。
可选地,所述第一原始训练视频或第二原始训练视频是进行编码处理和解码处理后的视频。
可选地,所述第一待处理数据包括第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第一Y矩阵,所述第二待处理数据包括所述第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第二Y矩阵。
可选地,所述视频解码器还用于对第一视频的第i帧的第一Y矩阵和所述第i帧的第二Y矩阵求和,作为第二视频的第i帧的Y矩阵,其中,i∈[1,Z],Z为所述第一视频包括的帧的数量。
第四方面,提供一种训练神经网络模型的方法,包括:获取第一分辨率的第二原始训练视频;对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据。
根据本申请提供的方案,通过基于非神经网络模型训练神经网络模型能够减小神经网络模型的层数,降低神经网络模型的复杂度和参数数量,并且,通过对第一分辨率的第二原始训练视频进行降分辨率处理,再对所得到的第二分辨率的第二原始训练视频进行超分辨率处理,获得第一分辨率的第一原始训练视频,并基于该第一原始训练视频训练第一模型,能够在第一模型的训练中引入超分辨率处理中出现的噪声,从而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,在调节原始模型的参数之前,所述方法还包括:对所述第一原始训练视频进行高斯模糊处理。
可选地,在所述第二原始训练视频进行降分辨率处理之前,所述方法还包括:对所述第二原始训练视频进行高斯模糊处理。
根据本申请提供的方案,通过对第一原始训练视频或第二原始训练视频进行高斯模糊处理,能够模拟出低质量的视频,从而,能够提高基于经过高斯模糊处理的第一原始训练视频训练得到的第一模型的性能,进而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,在调节原始模型的参数之前,所述方法还包括:根据第一编码方式,对所述第一原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,在所述第二原始训练视频进行降分辨率处理之前,所述方法还包括:根据第一编码方式,对所述第二原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第二原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式
根据本申请提供的方案,通过对第一原始训练视频或第二原始训练视频进行编码和解码处理,能够模拟出编码损失,从而,能够提高基于编解码处理的第一原始训练视频训练得到的第一模型的性能,进而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,所述第二模型包括朗克休斯重采样(Lanczos resampling)算法模型。
或者,所述第二模型包括双三次插值(Bicubic interpolation)算法模型。
可选地,所述第一模型包括k个卷积层,其中,k≥3。
可选地,k的值为4。
可选地,经过所述k个卷积层中的前n个卷积层处理的数据被分为至少两路数据,所述至少两路数据中的第一路数据被输入至所述多个卷积层中的第n+1个卷积层,并经过所述第n+1个卷积层至第n+m个卷积层处理,处理后的第一路数据以及所述至少两路数据中的第二路数据合路后被输入至所述多个卷积层中的第n+m+1个卷积层,并经过所述第n+1个卷积层至第k个卷积层处理,n≥1,m≥1。
可选地,k=4,n=1,m=2。
可选地,所述方法还包括:记录所述神经网络模型与第一类型之间的映射关系,所述第一类型是所述第二原始训练视频的类型。
可选地,所述方法由移动终端的处理器执行。
第五方面,提供一种训练神经网络模型的装置,包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述处理器执行所述存储器存储的程序时,所述处理器用于:获取第一分辨率的第二原始训练视频;对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据。
根据本申请提供的方案,通过基于非神经网络模型训练神经网络模型能够减小神经网络模型的层数,降低神经网络模型的复杂度和参数数量,并且,通过对第一分辨率的第二原始训练视频进行降分辨率处理,再对所得到的第二分辨率的第二原始训练视频进行超分辨率处理,获得第一分辨率的第一原始训练视频,并基于该第一原始训练视频训练第一模型,能够在第一模型的训练中引入超分辨率处理中出现的噪声,从而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,所述处理器还用于对所述第一原始训练视频进行高斯模糊处理。
可选地,所述处理器还用于对所述第二原始训练视频进行高斯模糊处理。
根据本申请提供的方案,通过对第一原始训练视频或第二原始训练视频进行高斯模糊处理,能够模拟出低质量的视频,从而,能够提高基于经过高斯模糊处理的第一原始训练视频训练得到的第一模型的性能,进而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,所述处理器还用于根据第一编码方式,对所述第一原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
可选地,所述处理器还用于根据第一编码方式,对所述第二原始训练视频进行编码处理;根据与所述第一编码方式对应的第一解码方式,对编码处理后的第二原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式
根据本申请提供的方案,通过对第一原始训练视频或第二原始训练视频进行编码和解码处理,能够模拟出编码损失,从而,能够提高基于编解码处理的第一原始训练视频训练得到的第一模型的性能,进而,能够提高经过基于该第一模型的超分辨率处理的视频的画质,进一步提高本申请的方案的实用性。
可选地,所述第二模型包括朗克休斯重采样(Lanczos resampling)算法模型。
或者,所述第二模型包括双三次插值(Bicubic interpolation)算法模型。
可选地,所述第一模型包括k个卷积层,其中,k≥3。
可选地,k的值为4。
可选地,经过所述k个卷积层中的前n个卷积层处理的数据被分为至少两路数据,所述至少两路数据中的第一路数据被输入至所述多个卷积层中的第n+1个卷积层,并经过所述第n+1个卷积层至第n+m个卷积层处理,处理后的第一路数据以及所述至少两路数据中的第二路数据合路后被输入至所述多个卷积层中的第n+m+1个卷积层,并经过所述第n+1个卷积层至第k个卷积层处理,n≥1,m≥1。
可选地,k=4,n=1,m=2。
可选地,所述方法由移动终端的处理器执行。
可选地,所述处理器还用于记录所述神经网络模型与第一类型之间的映射关系,所述第一类型是所述第二原始训练视频的类型。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序(也可以称为代码,或指令),当所述计算机程序被运行时,使得计算机执行上述第一方面或第四方面中任一种可能实现方式中的方法。
第七方面,提供了一种计算机可读介质,所述计算机可读介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面或第四方面中任一种可能实现方式中的方法。
第八方面,提供了一种芯片系统,包括存储器和处理器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得安装有该芯片系统的通信设备执行上述第一方面或第四方面中任一种可能实现方式中的方法。
其中,该芯片系统可以包括用于发送信息或数据的输入电路或者接口,以及用于接收信息或数据的输出电路或者接口。
附图说明
图1是本申请实施例提供的系统架构的结构示意图。
图2是卷积神经网络的结构的一例的示意图。
图3是本申请实施例提供的一种芯片硬件结构示意图。
图4是本申请实施例的CNN模型训练方法的一例的示意性流程图。
图5是本申请实施例的CNN模型的结构的一例示意图。
图6是本申请实施例的CNN模型的结构的另一例的示意图。
图7是本申请实施例的CNN模型训练方法的另一例的示意性流程图。
图8是本申请实施例的CNN模型训练方法的再一例的示意性流程图。
图9是本申请实施例的CNN模型训练方法的再一例的示意性流程图。
图10是本申请实施例的视频超分辨率的方法的一例的示意性流程图。
图11是本申请实施例的视频超分辨率的方法的另一例的示意性流程图。
图12是本申请实施例的视频超分辨率的装置的另一例的示意性结构图。
图13是本申请实施例的视频超分辨率的装置的另一例的示意性结构图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请实施例的技术方案可以应用于视频播放等需要对视频进行超分辨率的场景。
具体地说,当视频播放设备的显示器的分辨率大于输入视频的分辨率时,如果需要在该显示器上播放该视频,则需要对视频(具体地说,是视频中的每一帧)进行超分辨率,提高像素点数量,以适应显示器的分辨率。本申请的方法可以用于上述超分辨率的处理过程,并且较现有的视频超分辨率的方法相比,本申请的方法能够降低用于视频超分辨率的神经网络模型的层数,降低神经网络模型的复杂度和参数数量,进而降低对处理器和存储器的性能要求,能够良好的适用于例如移动终端(例如,手机)等的视频播放设备。
本申请的视频超分辨率的方法和装置使用两种或两种以上模型,其中,该两种或两种以上模型包括神经网络模型(即,第一模型的一例,以下,为了便于理解和说明,记做,CNN模型)和非神经网络模型(即,第二模型的一例)。其中,非神经网络模型可以包括例如朗克休斯重采样(Lanczos resampling)算法模型或者双三次插值(Bicubic interpolation)算法模型等现有的用于视频超分辨率的波形。CNN模型可以通过训练获得。
下面从CNN模型训练侧和CNN模型应用侧对本申请提供的方法进行描述:
本申请实施例提供的CNN模型的训练方法,涉及计算机视觉的处理,具体可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据(如本申请中的原始训练视频)进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的CNN模型(或者,也可以称为CNN网络);并且,本申请实施例提供的视频超分辨率的方法可以运用上述训练好的CNN模型,将输入数据(如本申请中的第二分辨率的第一视频)输入到所述训练好的CNN模型中,得到输出数据(如本申请中的第一分辨率的第二视频)。需要说明的是,本申请实施例提供的CNN模型的训练方法和视频超分辨率的方法是基于同一个构思产生的发明,也可以理解为一个系统中的两个部分,或一个整体流程的两个阶段:如模型训练阶段和模型应用阶段。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
1.神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
Figure BDA0002039381300000091
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
2.卷积神经网络
卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
3.反向传播算法
卷积神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
4.视频
视频超分辨率通常是指处理形成视频或视频序列的图片序列。在视频领域,术语“图片(picture)”、“帧(frame)”或“图像(image)”可以用作同义词。视频序列包括一系列图像(picture),图像可以被进一步划分为切片(slice),切片还可以再被划分为块(block)。视频编码时,一般以块为单位进行编码处理,在一些新的视频编码标准中,块的概念被进一步扩展。比如,在H.264标准中有宏块(macroblock,MB),宏块可进一步划分成多个可用于预测编码的预测块(partition)。在高性能视频编码(high efficiency video coding,HEVC)标准中,编码时采用的是编码单元(coding unit,CU),预测单元(prediction unit,PU)和变换单元(transform unit,TU)等基本概念,这些基本单元还可以基于树结构划分方式进行进一步的划分。例如,CU可以按照四叉树划分为更小的CU,而更小的CU还可以继续划分,从而形成一种四叉树结构,CU是对编码图像进行划分和编码的基本单元。对于PU和TU也有类似的树结构,PU可以对应预测块,是预测编码的基本单元。对CU按照划分模式进一步划分成多个PU。TU可以对应变换块,是对预测残差进行变换的基本单元。然而,无论CU,PU还是TU,本质上都属于块(或称图像块)的概念。
5.视频数据
在本申请中,视频的图像可以用采用YUV格式来表示,其中,Y表示明亮度(Luminance或Luma),也就是灰度值;U表示色度(Chrominance);V表示浓度(Chroma)。
在本申请中,视频数据可以包括视频(具体地说,是视频帧)的Y矩阵。
下面,对该CNN模型的训练过程进行说明。
首先,介绍本申请实施例提供的CNN模型训练的系统架构。参见附图1,本申请实施例提供了一种系统架构100。如所述系统架构100所示,数据采集设备160用于采集训练数据,本申请实施例中训练数据包括:具有规定的第一分辨率的视频(即,第二原始训练视频的一例,以下,为了便于理解和说明,记做视频#A)的数据。
并且,数据采集设备160将训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据训练得到用于视频超分辨率处理的CNN模型101(即,第一模型的一例)。随后将以实施例一更详细地描述训练设备120如何基于训练数据得到CNN模型101。
另外,该CNN模型101能够用于实现本申请实施例提供的视频超分辨率的方法,即,将低分辨率的视频(即,第一视频的一例)通过相关预处理后输入该CNN模型101和上述非神经网络模型(例如,Lanczos resampling算法模型或者Bicubic interpolation算法模型),即可得到高分辨率的视频。
在本申请提供的实施例中,该CNN模型101是通过训练原始模型得到的。需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行CNN模型101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备120训练得到的CNN模型101可以应用于不同的系统或设备中,如应用于图1所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,虚拟现实(virtual reality,VR)和增强现实(augmented reality,AR),车载终端等,还可以是服务器或者云端等。
在附图1中,执行设备110配置有I/O接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:待超分辨率的视频(即,第一视频的一例)。
预处理模块113用于根据I/O接口112接收到的输入数据进行预处理,其中,该预处理的过程和方法可以与现有技术相似,这里,为了避免赘述,省略其详细说明。需要说明的是,在本申请中,也可以不对输入数据进行预处理,此情况下,系统架构100也可以不包括预处理模块113。
计算模块111用于根据上述CNN模型101和非神经网络模型对来自预处理模块113或者I/O接口112的输入数据执行计算等相关的处理。
需要说明的是,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果,如上述得到的高分辨率的视频返回给客户设备140,从而提供给用户。例如,将处理后的得到的高分辨率视频返回给客户设备的播放器进行播放。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的CNN模型101,该相应的CNN模型101即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在附图1中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,附图1仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图1中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。
如前文的基础概念介绍所述,卷积神经网络是一种带有卷积结构的深度神经网络,是一种深度学习(deep learning)架构,深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。
如图2所示,卷积神经网络(CNN)200可以包括输入层210,卷积层/池化层220(其中池化层为可选的),以及神经网络层230。
卷积层/池化层220:
卷积层:
如图2所示卷积层/池化层220可以包括如示例221-226层,举例来说:在一种实现中,221层为卷积层,222层为池化层,223层为卷积层,224层为池化层,225为卷积层,226为池化层;在另一种实现方式中,221、222为卷积层,223为池化层,224、225为卷积层,226为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
下面将以卷积层221为例,介绍一层卷积层的内部工作原理。
卷积层221可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同,再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得卷积神经网络200进行正确的预测。
当卷积神经网络200有多个卷积层的时候,初始的卷积层(例如221)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络200深度的加深,越往后的卷积层(例如226)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,在如图2中220所示例的221-226各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络层230:
在经过卷积层/池化层220的处理后,卷积神经网络200还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层220只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息),卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等。
在神经网络层230中的多层隐含层之后,也就是整个卷积神经网络200的最后层为输出层240,该输出层240具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成,反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络200的损失,及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在。
下面介绍本申请实施例提供的一种芯片硬件结构。
图3为本申请实施例提供的一种芯片硬件结构,该芯片包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则101。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。
神经网络处理器NPU30作为协处理器挂载到CPU上,由CPU分配任务。NPU的核心部分为运算电路30,控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路303内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路303是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器302中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)308中。
向量计算单元307可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(local response normalization)等。
在一些实现种,向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如,向量计算单元307可以将非线性函数应用到运算电路303的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元307生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路303的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器306用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器305(direct memory accesscontroller,DMAC)将外部存储器中的输入数据搬运到输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302,以及将统一存储器306中的数据存入外部存储器。
总线接口单元(Bus Interface Unit,BIU)310,用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。
与控制器304连接的取指存储器(instruction fetch buffer)309,用于存储控制器304使用的指令;
控制器304,用于调用指存储器309中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器306,输入存储器301,权重存储器302以及取指存储器309均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory,简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory,HBM)或其他可读可写的存储器。
其中,图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。
应理解,图3所示的芯片硬件结构仅为示例性说明,本申请并未限定于此。
例如,在本申请中,芯片可以包括CPU和NPU,其中,NPU的结构与图3所示的NPU的结构相似,这里为了避免赘述,省略其详细说明。其中,CPU可以用于基于非神经网络模型对待处理视频进行超分辨率处理,NPU可以基于神经网络模型对待处理视频进行超分辨率处理,并且,CPU可以对经过上述两种超分辨率处理后获得的数据进行合成,以获得目标分辨率的视频,随后对上述超分辨率处理和合成的过程进行详细说明。
再例如,在本申请中,芯片可以包括CPU、GPU和NPU,其中,NPU的结构与图3所示的NPU的结构相似,这里为了避免赘述,省略其详细说明。其中,在图5所示结构中,CPU可以用于分配任务,GPU可以用于基于非神经网络模型对待处理视频进行超分辨率处理,NPU可以基于神经网络模型对待处理视频进行超分辨率处理,并且,CPU或GPU可以对经过上述两种超分辨率处理后获得的数据进行合成,以获得目标分辨率的视频,随后对上述超分辨率处理和合成的过程进行详细说明。
再例如,在本申请中,芯片可以包括CPU,其中CPU可以用于基于非神经网络模型对待处理视频进行超分辨率处理,并基于神经网络模型对待处理视频进行超分辨率处理,并且,可以对经过上述两种超分辨率处理后获得的数据进行合成,以获得目标分辨率的视频,随后对上述超分辨率处理和合成的过程进行详细说明。
再例如,在本申请中,芯片可以包括GPU,其中GPU可以用于基于非神经网络模型对待处理视频进行超分辨率处理,并基于神经网络模型对待处理视频进行超分辨率处理,并且,可以对经过上述两种超分辨率处理后获得的数据进行合成,以获得目标分辨率的视频,随后对上述超分辨率处理和合成的过程进行详细说明。
实施例一:
图4示出了本申请提供的一种用于视频超分辨率的CNN模型的训练方法400。需要说明的是,该方法400可以由CPU执行,也可以由NPU执行也可以由GPU执行,本申请并未特别限定。
如图4所示,在S410,获取第一分辨率的训练视频(即,第二原始训练视频的一例,以下,为了便于理解和说明,称为视频#A)。
其中,该第一分辨率可以是后述超分辨率处理的目标分辨率,即经过基于方法400训练得到的CNN模型的超分辨率处理之后的视频的分辨率。
在S420,可以对该视频#A(具体地说,是视频#A中的视频帧)进行降分辨率(或者说,下采样)处理,以获取第二分辨率的训练视频(即,第一原始训练视频的一例,以下,为了便于理解和说明,称为视频#B)。
其中,该第二分辨率可以是后述超分辨率处理的原始分辨率,即基于方法400训练得到的CNN模型所能够处理的视频的分辨率。
在S430,可以获取视频#B的数据,例如,视频#B的各图像帧的Y矩阵。
在本申请中,为了便于神经网络进行处理,可以先将视频#B的像素点亮度分量值的取值范围由[0,255]线性化为[0,1],然后再减去0.5,使得视频#B的图像的像素点亮度分量值的取值范围变为[-0.5,0.5]。
在S440,可以将视频#B的数据输入至待训练的CNN模型(即,原始模型的一例,记做,模型#A),从而得到经过该模型#A处理后的数据(即,第一训练数据的一例,记做,数据#A)。随后对该模型#A的结构进行详细说明。
并且,可以将视频#B的数据输入至预设的非神经网络模型(即,第二模型的一例,记做,模型#B),从而得到经过该模型#B处理后的数据(即,第二训练数据的一例,记做,数据#B)。其中,该模型#B可以是例如,Lanczos resampling算法模型或者Bicubicinterpolation算法模型等,并且,该模型#B的结构可以与现有的用于视频超分辨率的非神经网络模型相似,这里,为了避免赘述,省略其详细说明。
在S450,可以根据数据#A和数据#B合成视频(记做,视频#C),例如,数据#A可以包括与视频#B的每一帧对应的Y矩阵,并且,数据#B可以包括与视频#B的每一帧对应的Y矩阵,从而,可以将对应视频#B的同一视频帧的数据#A的Y矩阵与数据#B的Y矩阵求和,作为视频#C的对应该同一视频帧的Y矩阵。
在S460,可以确定该视频#C与视频#A的相似度,并根据该相似度调节模型#A的参数。并且,根据参数调节后的模型#A重复上述在S440至S460,以使视频#B与视频#A的相似度最大化,并将使视频#C与视频#A的相似度最大化时的模型#A确定为完成训练的CNN模型。
需要说的是,上述S460中,确定该视频#C与视频#A的相似度的方法可以包括:确定以视频#C和视频#A中彼此对应的视频帧的均方差作为优化对象的目标函数,并使用例如梯度下降方法或Adam算法等对该目标函数进行优化。
可选地,还可以确定视频#A的类型,作为示例而限定,视频的类型可以包括但不限于动画、运动、风景等。
并且,还可以记录该CNN模型与视频#A的类型之间的映射关系。
例如,可以为CNN模型设置标签,该标签可以是该视频#A的类型。
图5是本申请的卷积神经网络的结构的一例的示意图。应理解,图4中的CNN模型的具体结构可以如图5所示。如图5所示,本申请的CNN模型积神经网络中包括多个卷积层、多个激活函数层以及像素重组层,卷积神经网络中间层的部分结果会跳跃地向后传输。
卷积层是卷积神经网络的基本构造单元,能够对图像的特征进行提取,输出特征矩阵。如图5所示,每个卷积层可以包括规定数量的通道,并且,不同卷积层包括的通道的数量可以不同,每个通道对应一个卷积核,用于输出一个特征矩阵。对于最后一个卷积层来说,输出的是Q个特征矩阵,接下来,像素重组层可以将这Q个特征矩阵叠加成一个高分辨率的特征矩阵,像素点的个数变为原来的Q倍。
另外,图5中的激活函数层的系数可以是0.1。
图6是本申请的卷积神经网络的结构的另一例的示意图。应理解,图4中的CNN模型的具体结构可以如图6所示。如图6所示,本申请的CNN模型积神经网络中包括多个卷积层、多个激活函数层以及像素重组层,卷积神经网络中间层的部分结果会跳跃地向后传输。并且,每个卷积层可以为深度可分离卷积(depthwise separable convolution)结构,即,每个卷积层可以包括深度卷积层(Depth-wise convolutio,DW-Conv)和卷积核卷积层(Point-wise convolutio,PW-Conv)两部。
在本申请中,从CNN模型的多个(例如,k个)卷积层中的前n个卷积层输出的数据可以包括两路(其中,该两路数据的每路数据均与从前n个卷积层输出的数据相同),其中,一路数据被依次输入至第n+1个至第n+m个卷积层,另一路数据跳过第n+1个至第n+m个卷积层,即,经由该第n+1个至第n+m个卷积层处理的数据与另一路数据被输入至第n+m+个至第k个卷积层。
其中,k为大于或等于3的整数,n为大于或等于1的整数,m为大于或等于1的整数。
作为示例而非限定,本申请的CNN模型可以包括4个卷积层,即k=4。以下,为了便于理解和说明,以CNN模型包括4个卷积层的结构为例,进行说明。
如图6所示,从第一个卷积层输出的数据可以包括两路(其中,该两路数据的每路数据均与从第一个卷积层输出的数据相同),其中,一路数据被依次输入至第二个卷积层和第三个卷积层,另一路数据跳过第二个卷积层和第三个卷积层,即,经由该第二个卷积层和第三个卷积层处理的数据与另一路数据被输入至第四个卷积层。即,在图6所示CNN结构中,k=4,n=1,m=2。
作为示例而非限定,如图6所示,在本申请中,第一个卷积层的DW-Conv可以包括1个通道,第一个卷积层的PW-Conv可以包括64个通道;第二个卷积层的DW-Conv可以包括64个通道,第一个卷积层的PW-Conv可以包括16个通道;第三个卷积层的DW-Conv可以包括16个通道,第一个卷积层的PW-Conv可以包括64个通道;第三个卷积层的DW-Conv可以包括64个通道,第一个卷积层的PW-Conv可以包括9个通道。
根据本申请的方案,通过设置像素重组层的参数,能够实现1.5倍率的超分辨率处理。
另外,图6中的激活函数层的系数可以是0.1。
应理解,图5和图6中卷积神经网络的结构以及卷积神经网络中的卷积层的通道数以及激活函数层的系数仅为示例,本申请中的卷积神经网络的还可以是其它结构,本申请中的卷积神经网络中的卷积层的通道数以及激活函数层的系数还可以是其它数值。
需要说明的是,所述方法400具体可以由如图1所示的训练设备120执行,所述方法400中的原始训练视频(例如,第二原始训练视频)可以是如图1所示的数据库130中维护的训练数据。
可选地,所述方法400可以由CPU处理,也可以由CPU和GPU共同处理,也可以不用GPU,而使用其他适合用于神经网络计算的处理器,本申请不做限制。
实施例二:
图7示出了本申请提供的一种用于视频超分辨率的CNN模型的训练方法500。类似地,该方法500可以由CPU执行,也可以由NPU执行也可以由GPU执行,本申请并未特别限定。与上述图4所示训练方法400不同的是,在方法500中,在对该视频#A进行降分辨率之前,还可以对视频#A进行高斯模糊处理。
通过对视频#A行高斯模糊处理,能够模拟出低质量的视频,从而,能够提高CNN模型的性能,进而,能够提高经过基于该CNN模型的超分辨率处理的视频的画质。
实施例三:
图8为本申请提供的一种用于视频超分辨率的CNN模型的训练方法600。类似地,该方法600可以由CPU执行,也可以由NPU执行也可以由GPU执行,本申请并未特别限定。与上述图4所示训练方法400不同的是,在方法600中,在对该视频#A进行降分辨率之前,还可以与视频#A进行编码处理和解码处理,其中,该编码处理和解码处理的编解码方式可以与执行设备需要基于如上所述获得CNN模型进行超分辨率处理的待处理视频所使用的编解码方式相同。
通过对视频#A行编解码处理,能够模拟出编码损失,从而,能够提高CNN模型的性能,进而,能够提高经过基于该CNN模型的超分辨率处理的视频的画质。
实施例四:
图9为本申请提供的一种用于视频超分辨率的CNN模型的训练方法700。类似地,该方法700可以由CPU执行,也可以由NPU执行也可以由GPU执行,本申请并未特别限定。与上述图4所示训练方法400不同的是,在方法600中,在对该视频#A进行降分辨率之前,可以对视频#A进行高斯模糊处理,并且,可以对视频#A进行编解码处理。
实施例五:
图10示出了本申请提供的一种视频超分辨率的方法800。
如图10所示,在S810,对视频码流进行解码,得到第二分辨率的视频(即,第一视频的一例,记做,视频#D)。
在S820,可以获取视频#D的数据,例如,视频#D的各图像帧的Y矩阵。
在本申请中,为了便于神经网络进行处理,可以先将视频#D的像素点亮度分量值的取值范围由[0,255]线性化为[0,1],然后再减去0.5,使得视频#D的图像的像素点亮度分量值的取值范围变为[-0.5,0.5]。
在S830,可以将视频#D的数据输入至如上述方法400至700中任一项所述的CNN模型,从而得到经过该CNN模型处理后的数据(即,第一待处理数据的一例,记做,数据#C)。
并且,在S835,可以将视频#D的数据输入至预设的非神经网络模型(即,上述模型#B),从而得到经过该模型#B处理后的数据(即,第二待处理练数据的一例,记做,数据#D)。
在S840,可以根据数据#C和数据#D合成视频(记做,视频#E),例如,数据#C可以包括与视频#D的每一帧对应的Y矩阵,并且,数据#D可以包括与视频#D的每一帧对应的Y矩阵,从而,可以将对应视频#D的同一视频帧的数据#C的Y矩阵与数据#D的Y矩阵求和,作为视频#E的对应该同一视频帧的Y矩阵。
从而,该视频#E即为超分辨率处理后得到的第一分辨率的视频。
需要说明的是,在本申请中,该训练设备120和执行设备110也可以是同一设备,即,在本申请中,该CNN模型的训练过程可以由视频播放设备(例如,视频播放设备中的解码装置或视频超分辨率装置)执行。
或者,该训练设备120和执行设备110也可以是不同设备,即,在本申请中,该CNN模型的训练过程也可以由第三方设备(例如,视频服务器等)执行,本申请并未特别限定。
例如,上述S810、S820、S835和S840可以由GPU执行,该S830可以由NPU执行。
或者,上述S810、S820和S840可以由CPU执行,该S830可以由NPU执行,S835可以由GPU执行。
或者,例如,上述S810、S820、S835和S840可以由CPU执行,该S830可以由NPU执行。
或者,上述方法800可以由CPU执行。
或者,上述方法800可以由GPU执行。
或者,上述方法800可以由NPU执行。
图11为本申请提供的一种视频超分辨率的方法900。与上述图10所示方法800不同的是,在方法900中,可以获取多个CNN模型,以及该多个CNN模型与多个视频类型的一一映射关系,其中,每个CNN模型是根据所对应的视频类型的训练视频训练而成,其中,该训练过程可以与上述方法400至700中任一方法所描述的过程相似,这里,为了避免赘述,省略其详细说明。
并且,可以确定上述视频#C的类型,并根据上述映射关系,将与视频#C的类型对应的CNN模型,确定为用于对该视频#C进行超分辨率处理的目标CNN模型。
作为示例而非限定,视频的类型可以列举:动画类型、运动类型、风景类型等。
另外,基于该目标CNN模型对视频#C进行超分辨率处理的具体过程可以与上述方法800描述的过程相似,这里,为了避免赘述,省略其详细说明。
根据本申请的方案,通过使用不同类型的视频训练不同类型的模型,较使用多种类型训练同一模型相比,能够提高模型的针对性,改善经过模型处理后的视频的画质,进一步提高本申请的方案的实用性。
图12是本申请实施例提供的一种CCN模型的训练装置的硬件结构示意图。图12所示的CCN模型的训练装置1000(该装置1000具体可以是一种计算机设备)包括存储器1001、处理器1002、通信接口1003以及总线1004。其中,存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。
存储器1001可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1001可以存储程序,当存储器1001中存储的程序被处理器1002执行时,处理器1002和通信接口1003用于执行本申请实施例的CNN模型的训练方法(例如,上述方法400至700中的任一方法)的各个步骤。
处理器1002可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的CNN模型的训练装置中的单元所需执行的功能,或者执行本申请方法实施例的CNN模型的训练方法。
处理器1002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的CNN模型的训练方法的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1002还可以是通用处理器、数字信号处理器(DigitalSignal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001,处理器1002读取存储器1001中的信息,结合其硬件完成本申请实施例的CNN模型的训练装置中包括的单元所需执行的功能,或者执行本申请方法实施例的XX网络的训练方法。
通信接口1003使用例如但不限于收发器一类的收发装置,来实现装置1000与其他设备或通信网络之间的通信。例如,可以通过通信接口1003获取训练数据(如本申请实施例一所述的视频#A)。
总线1004可包括在装置1000各个部件(例如,存储器1001、处理器1002、通信接口1003)之间传送信息的通路。
图13是本申请实施例提供的视频超分辨率的装置的硬件结构示意图。图13所示的视频超分辨率的装置1100(该装置1100具体可以是一种计算机设备)包括存储器1101、处理器1102、通信接口1103以及总线1104。其中,存储器1101、处理器1102、通信接口1103通过总线1104实现彼此之间的通信连接。
存储器1101可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1101可以存储程序,当存储器1101中存储的程序被处理器1102执行时,处理器1102和通信接口1103用于执行本申请实施例的XX图像的生成方法的各个步骤。
处理器1102可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例视频超分辨率的装置中的单元所需执行的功能,或者执行本申请方法实施例的视频超分辨率的方法。
处理器1102还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的视频超分辨率的方法的各个步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1102还可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1101,处理器1102读取存储器1101中的信息,结合其硬件完成本申请实施例的视频超分辨率的装置中包括的单元所需执行的功能,或者执行本申请方法实施例的视频超分辨率的方法。
通信接口1103使用例如但不限于收发器一类的收发装置,来实现装置1100与其他设备或通信网络之间的通信。例如,可以通过通信接口1103获取CNN模型或待处理视频。
总线1104可包括在装置1100各个部件(例如,存储器1101、处理器1102、通信接口1103)之间传送信息的通路。
应注意,尽管图12和图13所示的装置1000和1100仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置000和1100还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置000和1100还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置000和1100也可仅仅包括实现本申请实施例所必须的器件,而不必包括图12或图13中所示的全部器件。
可以理解,所述装置1000相当于图1中的所述训练设备120,所述装置1100相当于图1中的所述执行设备110。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种视频超分变率的方法,其特征在于,包括:
获取与第一分辨率对应的第一模型,所述第一模型包括神经网络模型;
根据所述第一模型对第二分辨率的第一视频的数据进行超分变率处理,以生成第一待处理数据,所述第一分辨率高于所述第二分辨率;
根据与所述第一分辨率对应的第二模型对所述第一视频的数据进行超分辨率处理,以生成第二待处理数据,其中,所述第二模型包括非神经网络模型;
根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据。
2.根据权利要求1所述的方法,其特征在于,所述获取与第一分辨率对应的第一模型包括:
获取第一分辨率的第二原始训练视频;
对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;
调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据,所述调节后的原始模型为所述第一模型。
3.根据权利要求2所述的方法,其特征在于,在调节原始模型的参数之前,所述方法还包括:
对所述第一原始训练视频进行高斯模糊处理。
4.根据权利要求2或3所述的方法,其特征在于,在调节原始模型的参数之前,所述方法还包括:
根据第一编码方式,对所述第一原始训练视频进行编码处理;
根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第二模型包括朗克休斯重采样算法模型或双三次插值算法模型。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一模型包括k个卷积层,其中,经过所述k个卷积层中的前n个卷积层处理的数据被分为至少两路数据,所述至少两路数据中的第一路数据被输入至所述k个卷积层中的第n+1个卷积层,并经过所述第n+1个卷积层至第n+m个卷积层处理,处理后的第一路数据以及所述至少两路数据中的第二路数据合路后被输入至所述k个卷积层中的第n+m+1个卷积层,并经过所述第n+1个卷积层至第k个卷积层处理,其中,k≥3,n≥1,m≥1。
7.根据权利要求6所述的方法,其特征在于,k=4,n=1,m=2。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
获取多个模型,以及所述多个模型与多个视频类型之间的映射关系,其中,每个模型是由所对应的视频类型的视频训练后获得的;以及
所述获取与第一分辨率对应的第一模型包括:
根据所述映射关系,将与所述多个模型中与所述第一视频的视频类型对应的模型,确定为所述第一模型。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述第一待处理数据包括第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第一Y矩阵,所述第二待处理数据包括所述第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第二Y矩阵,以及
所述根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据,包括:
对第一视频的第i帧的第一Y矩阵和所述第i帧的第二Y矩阵求和,作为第二视频的第i帧的Y矩阵,其中,i∈[1,Z],Z为所述第一视频包括的帧的数量。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法由移动终端执行。
11.一种视频超分变率的设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的程序,当所述处理器执行所述存储器存储的程序时,所述处理器用于:
获取与第一分辨率对应的第一模型,所述第一模型包括神经网络模型;
根据所述第一模型对第二分辨率的第一视频的数据进行超分变率处理,以生成第一待处理数据,所述第一分辨率高于所述第二分辨率;
根据与所述第一分辨率对应的第二模型对所述第一视频的数据进行超分辨率处理,以生成第二待处理数据,其中,所述第二模型包括非神经网络模型;
根据所述第一待处理数据和所述第二待处理数据,生成所述第一分辨率的第二视频的数据。
12.根据权利要求11所述的设备,其特征在于,所述处理器还用于:
获取第一分辨率的第二原始训练视频;
对所述第二原始训练视频进行降分辨率处理,以获取第一原始训练视频;
调节原始模型的参数,以使目标训练视频与所述第二原始训练视频之间的相似度满足预设条件,其中,所述目标训练视频是基于第一训练数据和第二训练数据生成的第一分辨率的视频,所述第一训练数据是所述第一原始训练视频的数据经过基于所述原始模型的超分辨率处理后生成的数据,所述第二训练数据时所述第一原始训练视频的数据经过基于所述第二模型的超分辨率处理后生成的数据,经过所述调节后的原始模型,为所述第一模型。
13.根据权利要求12所述的设备,其特征在于,所述处理器还用于:
对所述第一原始训练视频进行高斯模糊处理。
14.根据权利要求12或13所述的设备,其特征在于,所述处理器还用于:
根据第一编码方式,对所述第一原始训练视频进行编码处理;
根据与所述第一编码方式对应的第一解码方式,对编码处理后的第一原始训练视频进行解码处理,其中,所述第一解码方式是解码所述第一视频时使用的解码方式。
15.根据权利要求11至14中任一项所述的设备,其特征在于,所述第二模型包括朗克休斯重采样算法模型或双三次插值算法模型。
16.根据权利要求11至15中任一项所述的设备,其特征在于,所述第一模型包括k个卷积层,其中,经过所述k个卷积层中的前n个卷积层处理的数据被分为至少两路数据,所述至少两路数据中的第一路数据被输入至所述k个卷积层中的第n+1个卷积层,并经过所述第n+1个卷积层至第n+m个卷积层处理,处理后的第一路数据以及所述至少两路数据中的第二路数据合路后被输入至所述k个卷积层中的第n+m+1个卷积层,并经过所述第n+1个卷积层至第k个卷积层处理,其中,k≥3,n≥1,m≥1。
17.根据权利要求11至16中任一项所述的设备,其特征在于,所述第一待处理数据包括第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第一Y矩阵,所述第二待处理数据包括所述第一视频的经过基于所述第一模型的超分变率处理后的每一帧的第二Y矩阵,以及
所述处理器还用于对第一视频的第i帧的第一Y矩阵和所述第i帧的第二Y矩阵求和,作为第二视频的第i帧的Y矩阵,其中,i∈[1,Z],Z为所述第一视频包括的帧的数量。
CN201910336702.XA 2019-04-25 2019-04-25 视频超分变率的方法和装置 Pending CN111861877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910336702.XA CN111861877A (zh) 2019-04-25 2019-04-25 视频超分变率的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910336702.XA CN111861877A (zh) 2019-04-25 2019-04-25 视频超分变率的方法和装置

Publications (1)

Publication Number Publication Date
CN111861877A true CN111861877A (zh) 2020-10-30

Family

ID=72951513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910336702.XA Pending CN111861877A (zh) 2019-04-25 2019-04-25 视频超分变率的方法和装置

Country Status (1)

Country Link
CN (1) CN111861877A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038267A (zh) * 2021-03-09 2021-06-25 Oppo广东移动通信有限公司 视频处理方法及装置、计算机可读存储介质和电子设备
WO2022098460A1 (en) * 2020-11-04 2022-05-12 Microsoft Technology Licensing, Llc Dynamic user-device upscaling of media streams

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017219263A1 (zh) * 2016-06-22 2017-12-28 中国科学院自动化研究所 基于双向递归卷积神经网络的图像超分辨率增强方法
CN108537733A (zh) * 2018-04-11 2018-09-14 南京邮电大学 基于多路径深度卷积神经网络的超分辨率重建方法
CN108805808A (zh) * 2018-04-04 2018-11-13 东南大学 一种利用卷积神经网络提高视频分辨率的方法
CN109360151A (zh) * 2018-09-30 2019-02-19 京东方科技集团股份有限公司 图像处理方法及系统、分辨率提升方法、可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017219263A1 (zh) * 2016-06-22 2017-12-28 中国科学院自动化研究所 基于双向递归卷积神经网络的图像超分辨率增强方法
CN108805808A (zh) * 2018-04-04 2018-11-13 东南大学 一种利用卷积神经网络提高视频分辨率的方法
CN108537733A (zh) * 2018-04-11 2018-09-14 南京邮电大学 基于多路径深度卷积神经网络的超分辨率重建方法
CN109360151A (zh) * 2018-09-30 2019-02-19 京东方科技集团股份有限公司 图像处理方法及系统、分辨率提升方法、可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚琴娟等: "《基于双通道CNN 的单幅图像超分辨率重建》", 《华东理工大学学报(自 然 科 学 版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022098460A1 (en) * 2020-11-04 2022-05-12 Microsoft Technology Licensing, Llc Dynamic user-device upscaling of media streams
US11683358B2 (en) 2020-11-04 2023-06-20 Microsoft Technology Licensing, Llc Dynamic user-device upscaling of media streams
CN113038267A (zh) * 2021-03-09 2021-06-25 Oppo广东移动通信有限公司 视频处理方法及装置、计算机可读存储介质和电子设备

Similar Documents

Publication Publication Date Title
Liu et al. Robust video super-resolution with learned temporal dynamics
Liu et al. Learning temporal dynamics for video super-resolution: A deep learning approach
US20230214976A1 (en) Image fusion method and apparatus and training method and apparatus for image fusion model
WO2021018163A1 (zh) 神经网络的搜索方法及装置
WO2021164731A1 (zh) 图像增强方法以及图像增强装置
CN112070664B (zh) 一种图像处理方法以及装置
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN111835983B (zh) 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统
CN112541877B (zh) 基于条件生成对抗网络的去模糊方法、系统、设备及介质
WO2021042774A1 (zh) 图像恢复方法、图像恢复网络训练方法、装置和存储介质
WO2021114184A1 (zh) 神经网络模型的训练方法、图像处理方法及其装置
CN111914997A (zh) 训练神经网络的方法、图像处理方法及装置
CN111951195A (zh) 图像增强方法及装置
CN113673545A (zh) 光流估计方法、相关装置、设备及计算机可读存储介质
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
CN114627034A (zh) 一种图像增强方法、图像增强模型的训练方法及相关设备
Yu et al. Luminance attentive networks for HDR image and panorama reconstruction
CN110428382A (zh) 一种用于移动终端的高效视频增强方法、装置和存储介质
CN117651965A (zh) 使用神经网络的高清图像操作方法和系统
Yang et al. Learning event guided high dynamic range video reconstruction
CN113066018A (zh) 一种图像增强方法及相关装置
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
Xu et al. Deep video inverse tone mapping
CN111861877A (zh) 视频超分变率的方法和装置
CN115409697A (zh) 一种图像处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030

RJ01 Rejection of invention patent application after publication