CN113810763A - 一种视频处理方法、设备及存储介质 - Google Patents

一种视频处理方法、设备及存储介质 Download PDF

Info

Publication number
CN113810763A
CN113810763A CN202010544611.8A CN202010544611A CN113810763A CN 113810763 A CN113810763 A CN 113810763A CN 202010544611 A CN202010544611 A CN 202010544611A CN 113810763 A CN113810763 A CN 113810763A
Authority
CN
China
Prior art keywords
frame
resolution
key frame
video
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010544611.8A
Other languages
English (en)
Inventor
杨维
徐科
孔德辉
宋剑军
朱方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanechips Technology Co Ltd
Original Assignee
Sanechips Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanechips Technology Co Ltd filed Critical Sanechips Technology Co Ltd
Priority to CN202010544611.8A priority Critical patent/CN113810763A/zh
Priority to PCT/CN2021/097686 priority patent/WO2021254139A1/zh
Priority to US18/010,356 priority patent/US20230269395A1/en
Priority to EP21826930.6A priority patent/EP4167570A4/en
Publication of CN113810763A publication Critical patent/CN113810763A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供一种视频处理方法、设备及存储介质。该方法通过对原始视频进行编解码,得到混合分辨率视频,混合分辨率视频包括关键帧对应的第一分辨率帧和第二分辨率帧,还包括非关键帧对应的第三分辨率帧,第一分辨率帧的分辨率高于第二分辨率帧的分辨率和第三分辨率帧的分辨率;根据第一分辨率帧和第二分辨率帧,对非关键帧对应的第三分辨率帧进行放大并输出放大后的视频,放大后的视频包括关键帧对应的第一分辨率帧以及非关键帧对应的放大后的目标帧。上述方案对于非关键帧只需编解码得到低分辨率帧,然后根据关键帧的信息对低分辨率帧进行放大,以较少的码流得到放大的高分辨率视频,降低了视频传输的带宽压力。

Description

一种视频处理方法、设备及存储介质
技术领域
本申请涉及视频处理技术,例如涉及一种视频处理方法、设备及存储介质。
背景技术
在如今的信息时代,视频信息占有比例越来越高,视频数据量越来越大,视频的传输与压缩尤为重要。虽然编解码技术不断发展,但在条件较差的地区,比如山区或者其他环境恶劣的区域,由于搭建的基站不够多、宽带资源不足,可能会导致视频信息丢失、传输时延大等,而如果对整个视频进行大幅度的压缩,解码后的视频分辨率低,主客观的质量和放大效果差,严重影响观看感受。目前缺乏有效的视频处理方法,能够在恶劣环境、资源不足或者限制流量等场景下,既减少视频数据传输占用的资源,又可以解码得到高质量的视频。
发明内容
本申请提供一种视频处理方法、设备及存储介质,对于非关键帧只需编解码得到低分辨率帧,以较少的码流得到放大的高分辨率视频,降低了视频传输的带宽压力。
本申请实施例提供一种视频处理方法,包括:
通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;
根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
本申请实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的视频处理方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的视频处理方法。
本申请实施例提供了一种视频处理方法、设备及存储介质。该方法通过对原始视频进行编解码,得到混合分辨率视频,混合分辨率视频包括关键帧对应的第一分辨率帧和第二分辨率帧,还包括非关键帧对应的第三分辨率帧,第一分辨率帧的分辨率高于第二分辨率帧的分辨率和第三分辨率帧的分辨率;根据第一分辨率帧和第二分辨率帧,对非关键帧对应的第三分辨率帧进行放大并输出放大后的视频,放大后的视频包括关键帧对应的第一分辨率帧以及非关键帧对应的放大后的目标帧。上述方案对于非关键帧只需编解码得到低分辨率帧,然后根据关键帧的信息对低分辨率帧进行放大,以较少的码流得到放大的高分辨率视频,降低了视频传输的带宽压力。
附图说明
图1为一实施例提供的一种视频处理方法的流程图;
图2为一实施例提供的一种混合分辨率视频的示意图;
图3为另一实施例提供的一种视频处理方法的流程图;
图4为一实施例提供的一种视频放大网络的原理示意图;
图5为一实施例提供的一种运动估计子网络的示意图;
图6为一实施例提供的一种运动补偿子网络的示意图;
图7为一实施例提供的一种放大子网络的示意图;
图8为一实施例提供的一种视频处理装置的结构示意图;
图9为一实施例提供的一种视频处理系统的结构示意图;
图10为一实施例提供的一种设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在本申请实施例中,提供一种视频处理方法,该方法对于非关键帧只需编解码得到低分辨率帧,然后参考关键帧的信息对低分辨率帧进行放大,从而以较少的码流得到放大的高分辨率视频,降低了视频传输的带宽压力,提高了视频放大的主客观质量。
图1为一实施例提供的一种视频处理方法的流程图,如图1所示,本实施例提供的方法包括步骤110和步骤120。
在步骤110中,通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率。
本实施例中,原始视频是指待处理或待传输的高分辨率视频,原始视频首先经过编解码处理得到混合分辨率视频,相比于原始视频,部分帧的分辨率已经降低,实现了视频数据的压缩,在此过程中也以较少的资源完成了传输。原始视频中包括关键帧和非关键帧,关键帧例如为场景转换帧、从相似帧中选取出的某个帧、图像组(Group of Pictures,GOP)的内部编码帧(I帧)等,关键帧携带了视频帧的关键信息,可用于概括视频的场景事件,除关键帧以外的所有帧即为非关键帧。
通过视频编解码器可基于分层视频编解码(Scaled Video Coding,SVC)技术,对原始视频中的关键帧和非关键帧分别进行不同的处理,将视频分割为多种分辨率,从而得到混合分辨率视频。SVC是一种混合编解码框架,通过将视频帧帧内的空间冗余和帧间的时间冗余相结合,构建不同的编码块形成整个编解码协议。具体的,对于关键帧,通过视频编解码器得到第一分辨率帧(高分辨率帧)和第二分辨率帧(低分辨率帧);对于非关键帧,通过下采样得到第三分辨率帧(低分辨率帧),其中,第二分辨率与第三分辨率相同,从而得到了混合分辨率视频。
图2为一实施例提供的一种混合分辨率视频的示意图。如图2所示,较大的方框代表的是关键帧,较小的方框代表非关键帧。经过编解码处理得到的混合分辨率视频中,携带了关键帧的高分辨率帧,以及非关键帧的低分辨率帧。关键帧的高分辨率帧可为非关键帧的低分辨率帧放大提供依据。
在步骤120中,根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
本实施例中,通过编解码可以基于空间分级策略(使用不同的空间分辨率进行压缩)得到混合分辨率视频,能够减少视频传输的比特数,降低带宽压力,节约资源;混合分辨率视频再经过视频放大处理,可以将被降低分辨率的非关键帧放大,重新得到高分辨率帧,从而得到完整的高分辨率视频,获取完整的高质量的视频信息。本实施例中,基于混合编解码框架的双向参考的帧内参考模式对非关键帧的第三分辨率帧进行放大,即,参考非关键前后的关键帧的信息,对中间的每个非关键帧进行放大,第三分辨率帧经过放大后的高分辨率帧即为目标帧。
本实施例的视频处理方法,基于SVC得到混合分辨率视频,其中,对于非关键帧只需编解码得到低分辨率帧,然后参考关键帧的信息对低分辨率帧进行放大,从而以较少的码流得到放大的高分辨率视频,降低了视频传输的带宽压力,提高了视频放大的主客观质量。
图3为另一实施例提供的一种视频处理方法的流程图。在本实施例中,对原始视频的编解码过程和视频放大过程进行具体描述,其中,视频编解码过程利用残差图实现对原始视频的SVC,视频放大过程了利用了经过训练的神经网络,两者结合起来,保证了视频传输的效率和放大的质量。如图3所示,本实施例提供的方法包括步骤210-250。
在步骤210中,检测所述原始视频中的关键帧。
在对高分辨率的原始视频进行编解码器之前,首先检测关键帧,本实施例中,将H265协议中GOP中的第一帧(I帧)作为关键帧,关键帧经过编解码得到第一分辨率帧,具有较高分辨率,编解码损失很小,从而可以在视频放大过程中作为参考帧,为视频放大提供依据。
在步骤220中,生成所述关键帧的残差图和第二分辨率帧,并对所述非关键帧进行下采样得到第三分辨率帧。
对于关键帧,需要在编解码之后得到第一分辨率帧和第二分辨率帧,对于第一分辨率帧,可以对关键帧进行下采样到第二分辨率帧,然后再进行上采样并将上采样后的帧与原始视频帧相减,得到残差图,残差图可清晰反映出下采样再上采样后的(或者是对关键帧经过拆分和拼接后的)图像与原始视频关键帧之间的变化区域与非变化区域,从而像素值变化范围比原来小,可以用更小的变化范围做量化,从而降低传输的比特位数;对于第二分辨率帧,可以通过下采样、图像拆分等方法得到关键帧对应的较低分辨率的第二分辨率帧;而对于非关键帧直接进行压缩下采样,得到较低分辨率的第三分辨率帧。
在步骤230中,对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码,得到混合分辨率视频。
通过对残差图、第二分辨率帧以及第三分辨率帧进行编码,得到可传输的码流,然后再对码流进行解码,得到混合分辨率视频。
在步骤240中,对于每个非关键帧,分别将该非关键帧的第三分辨率帧(表示为(It LR)、该非关键帧的前一非关键帧放大前的第三分辨率帧(表示为It-1 LR)和放大后的高分辨率帧(表示为It-1 SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(分别表示为Ik1 SR、Ik2 SR)和对应的第二分辨率帧(分别表示为(Ik1 LR、Ik2 LR)输入所述视频放大网络。
本实施例中,可以通过视频放大网络(例如为经过训练的循环神经网络)基于混合编解码框架中的双向参考的帧内参考模式,参考每个非关键帧前后的关键帧的高分辨率帧和低分辨率帧(第一分辨率帧和第二分辨率帧)之间的关系和变化,结合前一非关键帧的放大结果,对该非关键帧进行放大。这种情况下,在对一个非关键帧进行放大时,视频放大网络的输入共有七个:
该非关键帧的第三分辨率帧(It LR);
与该非关键帧相邻的前一关键帧对应的第一分辨率帧(Ik1 SR)和对应的第二分辨率帧(Ik1 LR);
与该非关键帧相邻的后一关键帧对应的第一分辨率帧(Ik2 SR)和第二分辨率帧(Ik2 LR);
该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)和放大后的高分辨率帧(It-1 SR)。
在步骤250中,通过所述视频放大网络,根据该非关键帧的前一非关键帧放大前的第三分辨率帧(即It-1 LR)和放大后的高分辨率帧(即It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(即Ik1 SR、Ik2 SR)和对应的第二分辨率帧(即Ik1 LR、Ik2 LR),对该非关键帧的第三分辨率帧(即It LR)进行放大,得到非关键帧对应的放大后的目标帧。
本实施例视频放大网络可以为一个经过训练的循环神经网络,其工作原理是:通过输入相邻两个关键帧对应的第一分辨率帧(高分辨率帧)和第二分辨率帧(低分辨率帧)作为整个中间非关键帧的第三分辨率帧(低分辨率帧)的参考帧,同时还输入前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧,通过循环神经网络,根据各参考帧与当前帧时空之间的关系,可以对当前的非关键帧的第三分辨率帧进行放大。其中,当前的非关键帧参考了两个方向的参考帧,在场景发生变化的情况下,能够充分利用前向和后向的低分辨率帧与高分辨率帧的信息,保证对当前非关键帧的放大效果。
在一实施例中,步骤220中,生成所述关键帧的残差图和第二分辨率帧,包括:
步骤221:对所述关键帧进行下采样,得到关键帧的第二分辨率帧。
本实施例中,对关键帧进行下采样以得到关键帧的第二分辨率帧(低分辨率帧),下采样可以采用双线性或者双三次的方法,且解码过程对关键帧采用相同的方法上采样。
步骤222:对所述关键帧的第二分辨率帧进行上采样,得到关键帧的第一分辨率帧的临时帧,将第一分辨率帧的临时帧与关键帧相减,得到关键帧的残差图。
本实施例中,对关键帧的第二分辨率帧进行上采样以得到关键帧的第一分辨率帧的临时帧(高分辨率帧),第一分辨率帧的临时帧和原始视频中真实的关键帧(GroundTruth Frame)相减得到残差图。残差图可清晰反映出第一分辨率帧与原始视频关键帧之间的变化区域与非变化区域,降低编解码的处理量,节约编解码和传输资源。通过对残差图进行编码可以得到残差码流。在解码过程中,首先通过解码得到关键帧的第二分辨率帧(低分辨率帧),然后通过上采样方法得到放大后的图(记为第四分辨率帧),通过解码残差码流得到残差图,然后将该放大后的图与残差图相加即可得到关键帧的第一分辨率帧。本实施例中,对于残差图的编解码需要在高分辨率下进行,在设计芯片时,解码高分辨率帧和解码低分辨率帧的时钟需要分别设置。
在一实施例中,步骤230,具体包括:
步骤231:通过编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码,得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流;
步骤232:通过解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码,分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧;
步骤233:对所述第二分辨率帧进行上采样,得到放大后的第四分辨率帧,将所述第四分辨率帧与所述残差图相加,得到所述关键帧的第一分辨率帧。
本实施例中,视频编解码的过程中,首先需要对残差图进行编码得到残差码流,同时也对第二分辨率帧以及第三分辨率帧进行编码(压缩)和传输;而在解码过程中,首先通过解码得到关键帧的第二分辨率帧(低分辨率帧),然后通过上采样方法得到放大后的图(记为第四分辨率帧),通过解码残差码流得到残差图,然后将该放大后的图与残差图相加即可得到关键帧的第一分辨率帧。本实施例中,对于残差图的编解码需要在高分辨率下进行,在设计芯片时,解码高分辨率帧和解码低分辨率帧的时钟需要分别设置。
在一实施例中,步骤110,具体包括:
步骤111:检测所述原始视频中的关键帧;
步骤112:将所述关键帧等分为多个子图,各所述子图的分辨率与所述第二分辨率帧的分辨率相同,并对所述非关键帧进行下采样得到第三分辨率帧;
步骤113:将各所述子图与所述非关键帧的第三分辨率帧输入视频编解码器,所述视频编解码器包括编码器和解码器;
步骤114:通过所述编码器对各所述子图与所述非关键帧的第三分辨率帧进行编码,得到各所述子图以及所述非关键帧对应的码流;
步骤115:通过所述解码器根据各所述子图的码流对各所述子图进行拼接,得到所述关键帧的第一分辨率帧,并对所述第三分辨率帧的码流进行解码,得到所述第三分辨率帧。
本实施例中,对于非关键帧采用下采样和编解码得到第三分辨率帧,而对于关键帧,采用下采样的方法得到第二分辨率帧,此外,通过将关键帧拆分为多个子图,然后再对多个子图进行拼接得到第一分辨率帧,即,将高分辨率的原始视频中的关键帧拆分为若干个相同大小的子图,通过编解码器再将各子图拼接成一个高分辨率图,得到的图即为该关键帧的第一分辨率帧,其分辨率高于原始视频中关键帧的分辨率。采用拆分方法与上采样方法均可得到关键帧的第一分辨率帧,本实施例中,拆分方法主要适用于时效性要求不高的视频处理场景,而在超分辨率方法需要放大倍数比较大的情况下,如果采用拆分方法,需要拆分的子图较多,导致解码过程较长,延迟相对较大。
在一实施例中,视频放大网络包括运动估计(Motion Estimation,ME)子网络、运动补偿(Motion Compansation,MC)子网络和放大子网络。
本实施例中,视频放大网络包括三种子网络:运动估计子网络、运动补偿子网络和放大子网络,在放大过程中,也考虑了低分辨帧的运动矢量的估计和高分辨帧的运动补偿,能够获取参考帧更充分的信息,提高视频放大的质量。
本实施例中,步骤250具体包括:
步骤251:基于该非关键帧的第三分辨率帧(It LR),通过所述运动估计子网络,分别对该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(Ik1 LR、Ik2 LR)进行运动估计。
在帧间预测过程中,由于邻近帧中的场景存在着一定的相关性,可以将该非关键帧分成若干块或宏块,并设法搜索出每个块或宏块在邻近帧中的位置,并得出两者之间的空间位置的相对偏移量,即运动矢量,通过矢量运动估计可以去除帧间冗余度,使得视频传输的比特数大为减少。
本实施例中,对于每个非关键帧,分别估计该非关键帧的低分辨率帧It LR与另外三种低分辨率帧之间的运动矢量,即,估计It LR与It-1 LR、It LR与Ik1 LR、It LR与Ik2 LR之间的运动矢量。
步骤252:分别根据前一非关键帧放大后的高分辨率帧(It-1 SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR),对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图。
本实施例中,对于每个非关键帧,对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,然后将通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图。通过运动估计可粗略估计得到运动矢量,通过运动补偿可以将估计结果细化,更加明确帧间之间的偏移,使放大子网络得到更加有效的输入。
步骤253:通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大,得到非关键帧对应的放大后的目标帧。
本实施例的视频处理方法,利用帧间的时空关系对第三分辨率帧进行放大,使得放大后的视频不会抖动,视觉效果更为连贯。
图4为一实施例提供的一种视频放大网络的原理示意图。本实施例中,视频放大网络采用卷积循环神经网络实现对混合分辨率视频中低分辨率帧的放大。视频放大网络的网络结构如图4所示,包括三个部分:运动估计子网络、运动补偿子网络和放大子网络,放大子网络可以为一个超分辨率网络(Super Resolution Network,SRNet)。其中,运动估计子网络共有三个,分别用于估计It LR与It-1 LR、It LR与Ik1 LR、It LR与Ik2 LR之间的运动矢量,三个运动估计子网络的参数共享。ILR表示经过编解码后的混合分辨率视频中的低分辨率帧,ISR表示混合分辨率视频中的高分辨率帧,例如,Ik1 LR和Ik2 LR分别为前一关键帧和后一关键帧对应的低分辨率帧(第二分辨率帧),Ik1 SR和Ik2 SR为前一关键帧和后一关键帧对应的高分辨率帧(第一分辨率帧),It LR表示需要放大的当前的非关键帧的低分辨率帧(第三分辨率帧),It-1 LR和It-1 SR分别为前一非关键帧的低分辨率帧和经过放大后的高分辨率帧。
在一实施例中,视频放大过程还可以包括以下操作:
“↑”,表示上采样操作;
像素偏移(Warp)操作,表示将高分辨率的像素移动到当前像素位置加上运动矢量后的位置;
重组(Shuffle)操作,表示空间向通道(Channel)特征图的重组操作。
图5为一实施例提供的一种运动估计子网络的示意图。如图5所示,运动估计子网络可以包括级联层(Concat),用于将两个及以上的特征图在channel上进行拼接;激活层,如带泄露修正线性单元(Leaky Rectified Linear Unit)激励层、双曲Tanh)激励层;最大池化层(Max Pool)以及双线性(Bbilinear)变换层。
图6为一实施例提供的一种运动补偿子网络的示意图。如图6所示,运动估计子网络包括级联层(Concat),用于将两个及以上的特征图在channel上进行拼接;卷积层(Conv),卷积核的通道数可以为64、128、256等;残差块(Residual Block);下采样层(表示为“↓”)和上采样层(表示为“↑”)。
图7为一实施例提供的一种放大子网络的示意图。如图7所示,运动估计子网络包括卷积层(Conv)、激励层(ReLU)、反卷积(Conv Transpose)层。
在一实施例中,步骤252具体包括:
步骤2521:分别对经过运动估计的各帧对应的运动矢量MVt-1 LR、MVk1 LR和MVk2 LR进行上采样得到MVt-1 SR、MVk1 SR和MVk2 SR;其中,MVt-1 LR、MVk1 LR和MVk2 LR分别为前一非关键帧放大前的第三分辨率帧(It-1 LR)、该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(Ik1 LR、Ik2 LR)分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量;
步骤2522:基于MVt-1 SR、MVk1 SR和MVk2 SR,通过像素偏移操作,分别对前一非关键帧放大后的高分辨率帧(It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)进行像素偏移,分别得到像素偏移后的It-1->t SR、Ik1->t SR和Ik2->t SR
步骤2523:将It-1->t SR、Ik1->t SR、Ik2->t SR、MVt-1 SR、MVk1 SR和MVk2 SR输入所述补偿子网络,经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。
如图4所示,通过运动估计子网络,基于It LR,分别对除当前非关键帧的低分辨率帧以外的三种低分辨率帧(Ik1 LR、Ik2 LR、It-1 LR)分别进行运动估计,得到对应的运动矢量MVt-1 LR、MVk1 LR和MVk2 LR;对经过运动估计的各运动矢量MVt-1 LR、MVk1 LR和MVk2 LR分别进行上采样,得到放大的MVt-1 SR、MVk1 SR和MVk2 SR;然后使用MVt-1 SR、MVk1 SR和MVk2 SR,通过像素偏移操作,分别对It-1 SR、Ik1 SR、Ik2 SR进行像素偏移,得到像素偏移后的It-1->t SR、Ik1->t SR和Ik2->t SR;将It-1->t SR、Ik1->t SR、Ik2->t SR、MVt-1 SR、MVk1 SR和MVk2 SR输入所述补偿子网络,经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。在此基础上,通过放大子网络,根据中间高分辨率特征图对非关键帧的第三分辨率帧进行放大,得到非关键帧对应的放大后的目标帧。对于相邻的两个关键帧之间的每个非关键帧,都按此过程执行得到放大后的目标帧,最终实现所有非关键帧的第三分辨率帧的放大,得到高质量的超分辨率视频。
在一实施例中,若该非关键帧为相邻的前一关键帧后的第一个非关键帧,则将所述前一关键帧的第二分辨率帧作为该非关键帧的前一非关键帧放大前的第三分辨率帧,并将所述前一关键帧的第一分辨率帧作为该非关键帧的前一非关键帧放大后的高分辨率帧。
本实施例中,如果当前需要放大的非关键帧为其相邻的前一关键帧后的第一个非关键帧,即,该非关键帧与相邻的前一关键帧之间没有其他非关键帧,这种情况下,在该非关键帧所处的两个关键帧的区间内,不存在可用于作为参考帧的前一非关键帧的低分辨率帧(It-1 LR),也不存在对应的放大后的高分辨率帧(It-1 SR),则可以将前一非关键帧的低分辨率帧(It-1 LR)替换为前一关键帧的低分辨率帧(第二分辨率帧,Ik1 LR),并将前一非关键帧的高分辨率帧(It-1 SR)替换为前一关键帧的高分辨率帧(第一分辨率帧,Ik1 SR),从而在不存在前一非关键帧的情况下,利用前关键帧作为参考帧,为放大算法提供完整依据,确保算法的可行性。
在一实施例中,在根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的第三分辨率帧进行放大之前,还包括:
步骤100:基于样本视频,根据第一损失函数和第二损失函数训练所述视频放大网络;其中,第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧的均方误差确定;第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的It-1->t SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik1->t SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik2->t SR的均方误差确定。
视频放大网络预先经过训练,具有较好的放大能力。本实施例中,可以从数据库中获取不同分辨率的高分辨率视频,将各高分辨率视频经过编解码处理后的混合分辨率视频分别作为样本视频用于视频放大网络的训练,样本视频中包含的内容和特征应足够丰富。
本实施例中,根据第一损失函数和第二损失函数训练视频放大网络,其中,第二损失函数主要用于训练视频放大网络中的一个子网络(运动估计子网络),对于运动估计子网络可进行单独训练,并有针对性地构建第二损失函数。
第一损失函数例如为:
Figure BDA0002540138320000081
其中,G表示相邻的两个关键帧和中间的非关键帧的总和,可以看出,第一损失函数与两帧关键帧无关。
第二损失函数例如为:
LossME=MSE(It HR,Wb(Ik1 SR,ft→k1))+MSE(It HR,Wb(Ik1 SR,ft→k2))+MSE(It HR,Wb(It-1 SR,ft→t-1)),其中,It HR表示当前待放大的非关键帧的原始高分辨率帧,It-1 SR表示前一非关键帧放大后的高分辨率帧,ft→t-1表示该非关键帧到前一非关键帧之间的运动矢量,ft→k1表示该非关键帧到前一关键帧之间的运动矢量,ft→k2表示该非关键帧到后一关键帧之间的运动矢量,Wb(Backward Warp)表示反向像素偏移(Warp)操作。视频放大网络对于混合分辨率视频进行放大的原理可参见上述实施例。当第一损失函数以及第二损失函数分别稳定在一个值附近时,视频放大网络训练完成,此时的视频放大网络具有可靠的放大能力,可应用于对其他视频对应的混合分辨率视频中的低分辨率帧进行放大。
本实施例中,选取的样本视频是真实有效的且具有多样性,样本视频输入到视频编解码器中得到放大网络的训练数据也是真实可靠的,而不是人为生成的。将视频编解码器作为一个整体,视频放大网络的训练数据从解码端获得,真实有效,训练得到的视频放大网络也更具针对性,从而保证训练效果、提高视频放大网络的放大能力和放大后的视频质量。
在一实施例中,所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络;步骤100包括:根据所述第一损失函数训练所述视频放大网络,并根据第二损失函数对所述运动估计子网络进行训练,直至第一损失函数和第二损失函数满足设定条件。其中,设定条件是指,第一损失函数和第二损失函数分别稳定在一个值附近,例如,第一损失函数和第二损失函数的值的波动范围小于一定阈值。
在一实施例中,在根据第一损失函数和第二损失函数训练所述视频放大网络之前,还包括:步骤101:对样本视频进行预处理,得到预设分辨率的样本视频。
在一些实施例中,可以将获取到的高分辨率视频截取部分内容,使其符合预设分辨率(例如为256*256),然后输入至视频编解码器,经过编码得到混合分辨率的码流,经过解码得到混合分辨率帧。
本实施例的视频处理方法,利用残差图进行编解码,只需处理关键帧的变化区域,能够降低关键帧编解码的码率;在视频放大过程中,采用双向关键帧作为参考帧,在场景发生变化的情况下,能够充分利用前向和后向的低分辨率帧与高分辨率帧的信息,保证对当前非关键帧的放大效果;对关键帧采用下采样的方法得到第二分辨率帧,减少延迟,提高时效性;在放大过程中,也考虑了低分辨帧的运动矢量的估计和运动补偿,能够获取参考帧更充分的信息,提高视频放大的质量;通过矢量运动估计可以去除帧间冗余度,使得视频传输的比特数大为减少;此外,视频放大网络的训练数据从解码端获得,真实有效,训练得到的视频放大网络也更具针对性,从而保证训练效果、提高视频放大网络的放大能力和放大后的视频质量。
本申请实施例还提供一种视频处理装置。图8为一实施例提供的一种视频处理装置的结构示意图。如图8所示,所述视频处理装置包括:编解码模块310和放大模块320。
编解码模块310,设置为通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;
放大模块320,设置为根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
本实施例的视频处理装置,通过对原始视频进行编解码,得到混合分辨率视频;根据关键帧对应的第一分辨率帧和第二分辨率帧,对混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,对于非关键帧只需编解码得到低分辨率帧,然后根据关键帧对低分辨率帧进行放大,以较少的码流得到放大的高分辨率视频,降低了视频传输的带宽压力,提高了视频放大的主客观质量。
在一实施例中,编解码模块310,包括:
检测单元,设置为检测所述原始视频中的关键帧;
帧处理单元,设置为生成所述关键帧的残差图和第二分辨率帧,并对所述非关键帧进行下采样得到第三分辨率帧;
编解码单元,设置为对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后,得到混合分辨率视频。
在一实施例中,生成所述关键帧的残差图和第二分辨率帧,包括:
对所述关键帧进行下采样,得到所述关键帧的第二分辨率帧;
对所述关键帧进行上采样,得到所述关键帧的第一分辨率帧的临时帧,将所述第一分辨率帧的临时帧与所述关键帧相减,得到所述关键帧的残差图。
在一实施例中,编解码单元,具体设置为:
通过得到编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码,得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流;
通过所述解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码,分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧;
对所述第二分辨率帧进行上采样,得到放大后的第四分辨率帧,将所述第四分辨率帧与所述残差图相加,得到所述关键帧的第一分辨率帧。
在一实施例中,编解码模块310,包括:
检测单元,设置为检测所述原始视频中的关键帧;
帧处理单元,设置为将所述关键帧等分为多个子图,各所述子图的分辨率与所述第二分辨率帧的分辨率相同,并对所述非关键帧进行下采样得到第三分辨率帧;
编码单元,设置为将各所述子图与所述非关键帧的第三分辨率帧输入视频编解码器,所述视频编解码器包括编码器和解码器;通过所述编码器对各所述子图与所述非关键帧的第三分辨率帧进行编码,得到各所述子图以及所述非关键帧对应的码流;
解码单元,设置为通过所述解码器根据各所述子图的码流对各所述子图进行拼接,得到所述关键帧的第一分辨率帧,并对所述第三分辨率帧的码流进行解码,得到所述第三分辨率帧。
在一实施例中,放大模块320,包括:
输入单元,设置为对于每个非关键帧,分别将该非关键帧的第三分辨率帧(It LR)、该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)和放大后的高分辨率帧(It-1 SR)、以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)和对应的第二分辨率帧(Ik1 LR、Ik2 LR)输入视频放大网络;
放大单元,设置为通过所述视频放大网络,根据该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)和放大后的高分辨率帧(It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)和对应的第二分辨率帧(Ik1 LR、Ik2 LR),对该非关键帧的第三分辨率帧(It LR)进行放大,得到该非关键帧对应的放大后的目标帧。
在一实施例中,所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络;
放大单元,具体设置为:
基于该非关键帧的第三分辨率帧(It LR),通过所述运动估计子网络,分别对该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(Ik1 LR、Ik2 LR)进行运动估计;
分别根据前一非关键帧放大后的高分辨率帧(It-1 SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR),对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图;
通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大,得到非关键帧对应的放大后的目标帧。
在一实施例中,分别根据前一非关键帧放大后的高分辨率帧(It-1 SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR),对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,包括:
分别对经过运动估计的各帧对应的运动矢量MVt-1 LR、MVk1 LR和MVk2 LR进行上采样得到MVt-1 SR、MVk1 SR和MVk2 SR;其中,MVt-1 LR、MVk1 LR和MVk2 LR分别为前一非关键帧放大前的第三分辨率帧(It-1 LR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(Ik1 LR、Ik2 LR)分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量;
基于MVt-1 SR、MVk1 SR和MVk2 SR,通过像素偏移操作,分别对前一非关键帧放大后的高分辨率帧(It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)进行像素偏移,分别得到像素偏移后的It-1->t SR、Ik1->t SR和Ik2->t SR
将It-1->t SR、Ik1->t SR、Ik2->t SR、MVt-1 SR、MVk1 SR和MVk2 SR输入所述补偿子网络,经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。
在一实施例中,若该非关键帧为相邻的前一关键帧后的第一个非关键帧,则将所述前一关键帧的第二分辨率帧作为该非关键帧的前一非关键帧放大前的第三分辨率帧,并将所述前一关键帧的第一分辨率帧作为该非关键帧的前一非关键帧放大后的高分辨率帧。
在一实施例中,还包括:
训练模块,设置为在根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的第三分辨率帧进行放大之前,基于样本视频,根据第一损失函数和第二损失函数训练所述视频放大网络;
其中,所述第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧均方误差确定;
第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的It-1->t SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik1->t SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik2->t SR的均方误差确定。
在一实施例中,所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络;
所述根据第一损失函数和第二损失函数训练所述视频放大网络,包括:
根据所述第一损失函数训练所述视频放大网络,并根据第二损失函数对所述运动估计子网络进行训练,直至所述第一损失函数和所述第二损失函数满足设定条件。
在一实施例中,还包括:
预处理模块,设置为在根据第一损失函数和第二损失函数训练所述视频放大网络之前,对样本视频进行预处理,得到预设分辨率的样本视频。
本实施例提出的视频处理装置与上述实施例提出的视频处理方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述任意实施例,并且本实施例具备与执行视频处理方法相同的有益效果。
本申请实施例还提供一种视频处理系统。图9为一实施例提供的一种视频处理系统的结构示意图。如图9所示,该系统包括:视频编解码器410,用于处理原始视频,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;
视频放大网络420,用于根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
在一实施例中,视频编解码器410,具体用于:
检测所述原始视频中的关键帧;
生成所述关键帧的残差图和第二分辨率帧,并对所述非关键帧进行下采样得到第三分辨率帧;
对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后,得到混合分辨率视频。
在一实施例中,生成所述关键帧的残差图和第二分辨率帧,包括:
对所述关键帧进行下采样,得到所述关键帧的第二分辨率帧;
对所述关键帧进行上采样,得到所述关键帧的第一分辨率帧的临时帧,将所述第一分辨率帧的临时帧与所述关键帧相减,得到所述关键帧的残差图。
在一实施例中,对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后,得到混合分辨率视频,包括:
通过所述编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码,得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流;
通过所述解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码,分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧;
对所述第二分辨率帧进行上采样,得到放大后的第四分辨率帧,将所述第四分辨率帧与所述残差图相加,得到所述关键帧的第一分辨率帧。
在一实施例中,视频放大网络420,具体用于:
对于每个非关键帧,分别将该非关键帧的第三分辨率帧(It LR)、该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)和放大后的高分辨率帧(It-1 SR)、以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)和对应的第二分辨率帧(Ik1 LR、Ik2 LR)输入视频放大网络;
放大单元,设置为通过所述视频放大网络,根据该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)和放大后的高分辨率帧(It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)和对应的第二分辨率帧(Ik1 LR、Ik2 LR),对该非关键帧的第三分辨率帧(It LR)进行放大,得到该非关键帧对应的放大后的目标帧。
在一实施例中,所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络;
根据该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)和放大后的高分辨率帧(It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)和对应的第二分辨率帧(Ik1 LR、Ik2 LR),对该非关键帧的第三分辨率帧(It LR)进行放大,得到该非关键帧对应的放大后的目标帧,包括基于该非关键帧的第三分辨率帧(It LR),通过所述运动估计子网络,分别对该非关键帧的前一非关键帧放大前的第三分辨率帧(It-1 LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(Ik1 LR、Ik2 LR)进行运动估计;
分别根据前一非关键帧放大后的高分辨率帧(It-1 SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR),对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图;
通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大,得到非关键帧对应的放大后的目标帧。
在一实施例中,分别根据前一非关键帧放大后的高分辨率帧(It-1 SR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR),对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,包括:
分别对经过运动估计的各帧对应的运动矢量MVt-1 LR、MVk1 LR和MVk2 LR进行上采样得到MVt-1 SR、MVk1 SR和MVk2 SR;其中,MVt-1 LR、MVk1 LR和MVk2 LR分别为前一非关键帧放大前的第三分辨率帧(It-1 LR)以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧(Ik1 LR、Ik2 LR)分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量;
基于MVt-1 SR、MVk1 SR和MVk2 SR,通过像素偏移Warp操作,分别对前一非关键帧放大后的高分辨率帧(It-1 SR)、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧(Ik1 SR、Ik2 SR)进行像素偏移,分别得到像素偏移后的It-1->t SR、Ik1->t SR和Ik2->t SR
将It-1->t SR、Ik1->t SR、Ik2->t SR、MVt-1 SR、MVk1 SR和MVk2 SR输入所述补偿子网络,经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。
在一实施例中,若该非关键帧为相邻的前一关键帧后的第一个非关键帧,则将所述前一关键帧的第二分辨率帧作为该非关键帧的前一非关键帧放大前的第三分辨率帧,并将所述前一关键帧的第一分辨率帧作为该非关键帧的前一非关键帧放大后的高分辨率帧。
在一实施例中,在根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的第三分辨率帧进行放大之前,基于样本视频,根据第一损失函数和第二损失函数训练所述视频放大网络;
其中,所述第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧均方误差确定;
第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的It-1->t SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik1->t SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik2->t SR的均方误差确定。
在一实施例中,视频放大网络420包括运动估计子网络、运动补偿子网络和放大子网络;
所述根据第一损失函数和第二损失函数训练所述视频放大网络,包括:
根据所述第一损失函数训练所述视频放大网络,并根据第二损失函数对所述运动估计子网络进行训练,直至所述第一损失函数和所述第二损失函数满足设定条件。
在一实施例中,在根据第一损失函数和第二损失函数训练所述视频放大网络之前,对样本视频进行预处理,得到预设分辨率的样本视频。
本实施例中的视频处理系统与上述实施例提出的视频处理方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述任意实施例,并且本实施例具备与执行视频处理方法相同的有益效果。
本申请实施例还提供一种设备。所述视频处理方法可以由视频处理装置执行,该视频处理装置可以通过软件和/或硬件的方式实现,并集成在所述设备中。
图10为一实施例提供的一种设备的硬件结构示意图。如图10所示,本实施例提供的一种设备,包括:处理器510和存储装置520。该设备中的处理器可以是一个或多个,图10中以一个处理器510为例,所述设备中的处理器510和存储装置520可以通过总线或其他方式连接,图10中以通过总线连接为例。
所述一个或多个程序被所述一个或多个处理器510执行,使得所述一个或多个处理器实现上述任一实施例所述的视频处理方法。该方法包括:通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
该设备中的存储装置520作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中视频处理方法对应的程序指令/模块(例如,附图8所示的视频处理装置中的模块,包括:编解码模块310和放大模块320)。处理器510通过运行存储在存储装置520中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例中的视频处理方法。
存储装置520主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等(如上述实施例中的混合分辨率视频、第三分辨率帧等)。此外,存储装置520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
并且,当上述设备中所包括一个或者多个程序被所述一个或者多个处理器510执行时,实现如下操作:通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
本实施例提出的设备与上述实施例提出的视频处理方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述任意实施例,并且本实施例具备与执行视频处理方法相同的有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种视频处理方法。该方法包括:通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
通过以上关于实施方式的描述,所属领域的技术人员可以了解到,本申请可借助软件及通用硬件来实现,也可以通过硬件实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、闪存(FLASH)、硬盘或光盘等,包括多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请任意实施例所述的方法。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本发明的范围。因此,本发明的恰当范围将根据权利要求确定。

Claims (14)

1.一种视频处理方法,其特征在于,包括:
通过对原始视频进行编解码,得到混合分辨率视频,所述混合分辨率视频包括所述原始视频中的关键帧对应的第一分辨率帧和第二分辨率帧,还包括所述原始视频中的非关键帧对应的第三分辨率帧,其中,所述第一分辨率帧的分辨率高于所述第二分辨率帧的分辨率和所述第三分辨率帧的分辨率;
根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的非关键帧对应的第三分辨率帧进行放大,并输出放大后的视频,其中,所述放大后的视频包括所述关键帧对应的第一分辨率帧以及所述非关键帧对应的放大后的目标帧。
2.根据权利要求1所述的方法,其特征在于,所述通过对原始视频进行编解码,得到混合分辨率视频,包括:
检测所述原始视频中的关键帧;
生成所述关键帧的残差图和第二分辨率帧,并对所述非关键帧进行下采样得到第三分辨率帧;
对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码后,得到混合分辨率视频。
3.根据权利要求2所述的方法,其特征在于,生成所述关键帧的残差图和第二分辨率帧,包括:
对所述关键帧进行下采样,得到所述关键帧的第二分辨率帧;
对所述关键帧进行上采样,得到所述关键帧的第一分辨率帧的临时帧,将所述第一分辨率帧的临时帧与所述关键帧相减,得到所述关键帧的残差图。
4.根据权利要求2所述的方法,其特征在于,对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行视频编解码,得到混合分辨率视频,包括:
通过编码器对所述残差图、所述第二分辨率帧以及所述第三分辨率帧进行编码,得到残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流;
通过解码器对所述残差码流、所述第二分辨率帧的码流以及所述第三分辨率帧的码流进行解码,分别得到所述残差图、所述第二分辨率帧以及所述第三分辨率帧;
对所述第二分辨率帧进行上采样,得到放大后的第四分辨率帧,将所述第四分辨率帧与所述残差图相加,得到所述关键帧的第一分辨率帧。
5.根据权利要求1所述的方法,其特征在于,所述通过对原始视频进行编解码,得到混合分辨率视频,包括:
检测所述原始视频中的关键帧;
将所述关键帧等分为多个子图,各所述子图的分辨率与所述第二分辨率帧的分辨率相同,并对所述非关键帧进行下采样得到第三分辨率帧;
将各所述子图与所述非关键帧的第三分辨率帧输入视频编解码器,所述视频编解码器包括编码器和解码器;
通过所述编码器对各所述子图与所述非关键帧的第三分辨率帧进行编码,得到各所述子图以及所述非关键帧对应的码流;
通过所述解码器根据各所述子图的码流对各所述子图进行拼接,得到所述关键帧的第一分辨率帧,并对所述第三分辨率帧的码流进行解码,得到所述第三分辨率帧。
6.根据权利要求1所述的方法,其特征在于,根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的第三分辨率帧进行放大,包括:
对于每个非关键帧,分别将该非关键帧的第三分辨率帧、该非关键帧的前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧、以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧和对应的第二分辨率帧输入视频放大网络;
通过所述视频放大网络,根据该非关键帧的前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧和对应的第二分辨率帧,对该非关键帧的第三分辨率帧进行放大,得到该非关键帧对应的放大后的目标帧。
7.根据权利要求6所述的方法,其特征在于,所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络;
通过所述视频放大网络,根据该非关键帧的前一非关键帧放大前的第三分辨率帧和放大后的高分辨率帧、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧和对应的第二分辨率帧,对该非关键帧的第三分辨率帧进行放大,得到该非关键帧对应的放大后的目标帧,包括:
基于该非关键帧的第三分辨率帧,通过所述运动估计子网络,分别对该非关键帧的前一非关键帧放大前的第三分辨率帧以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧进行运动估计;
分别根据前一非关键帧放大后的高分辨率帧以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧,对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,并通过重组操作将所述中间高分辨率特征图转化为低分辨率特征图;
通过所述放大子网络根据所述低分辨率特征图对所述第三分辨率帧进行放大,得到非关键帧对应的放大后的目标帧。
8.根据权利要求7所述的方法,其特征在于,分别根据前一非关键帧放大后的高分辨率帧以及与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧,对经过运动估计的各帧以及上采样后的运动矢量进行运动补偿,得到中间高分辨率特征图,包括:
分别对经过运动估计的各帧对应的运动矢量MVt-1 LR、MVk1 LR和MVk2 LR进行上采样得到MVt-1 SR、MVk1 SR和MVk2 SR,其中,MVt-1 LR、MVk1 LR和MVk2 LR分别为前一非关键帧放大前的第三分辨率帧、该非关键帧相邻的前一关键帧和后一关键帧对应的第二分辨率帧分别与该非关键帧的第三分辨率帧经过运动估计后对应的放大后的运动矢量;
基于MVt-1 SR、MVk1 SR和MVk2 SR,通过像素偏移操作,分别对前一非关键帧放大后的高分辨率帧、与该非关键帧相邻的前一关键帧和后一关键帧对应的第一分辨率帧进行像素偏移,分别得到像素偏移后的It-1->t SR、Ik1->t SR和Ik2->t SR
将It-1->t SR、Ik1->t SR、Ik2->t SR、MVt-1 SR、MVk1 SR和MVk2 SR输入所述补偿子网络,经过所述补偿子网络的运动补偿后得到所述中间高分辨率特征图。
9.根据权利要求6所述的方法,其特征在于,若该非关键帧为相邻的前一关键帧后的第一个非关键帧,则将所述前一关键帧的第二分辨率帧作为该非关键帧的前一非关键帧放大前的第三分辨率帧,并将所述前一关键帧的第一分辨率帧作为该非关键帧的前一非关键帧放大后的高分辨率帧。
10.根据权利要求8所述的方法,其特征在于,在根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的第三分辨率帧进行放大之前,还包括:
基于样本视频,根据第一损失函数和第二损失函数训练视频放大网络,所述视频放大网络用于根据所述关键帧对应的第一分辨率帧和第二分辨率帧,对所述混合分辨率视频中的第三分辨率帧进行放大;
其中,所述第一损失函数根据所述原始视频中两个相邻关键帧之间的非关键帧的原始高分辨率帧与原始高分辨率经过下采样然后通过视频放大网络放大后的帧的均方误差确定;
所述第二损失函数根据所述非关键帧的原始高分辨率帧、所述非关键帧的第三分辨率帧与前一非关键帧的第三分辨率帧经过运动估计、运动矢量上采样、像素偏移后的It-1->t SR、所述非关键帧的第三分辨率帧与相邻的前一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik1->t SR、所述非关键帧的第三分辨率帧与相邻的后一关键帧的第二分辨率帧经过运动估计、运动矢量上采样、像素偏移后的Ik2->t SR的均方误差确定。
11.根据权利要求10所述的方法,其特征在于,所述视频放大网络包括运动估计子网络、运动补偿子网络和放大子网络;
所述根据第一损失函数和第二损失函数训练所述视频放大网络,包括:
根据所述第一损失函数训练所述视频放大网络,并根据所述第二损失函数对所述运动估计子网络进行训练,直至所述第一损失函数和所述第二损失函数满足设定条件。
12.根据权利要求10所述的方法,其特征在于,在根据第一损失函数和第二损失函数训练所述视频放大网络之前,还包括:
对样本视频进行预处理,得到预设分辨率的样本视频。
13.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的视频处理方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的视频处理方法。
CN202010544611.8A 2020-06-15 2020-06-15 一种视频处理方法、设备及存储介质 Pending CN113810763A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010544611.8A CN113810763A (zh) 2020-06-15 2020-06-15 一种视频处理方法、设备及存储介质
PCT/CN2021/097686 WO2021254139A1 (zh) 2020-06-15 2021-06-01 视频处理方法、设备及存储介质
US18/010,356 US20230269395A1 (en) 2020-06-15 2021-06-01 Video processing method, device and storage medium
EP21826930.6A EP4167570A4 (en) 2020-06-15 2021-06-01 VIDEO PROCESSING METHOD AND DEVICE AND RECORDING MEDIUM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010544611.8A CN113810763A (zh) 2020-06-15 2020-06-15 一种视频处理方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113810763A true CN113810763A (zh) 2021-12-17

Family

ID=78944414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010544611.8A Pending CN113810763A (zh) 2020-06-15 2020-06-15 一种视频处理方法、设备及存储介质

Country Status (4)

Country Link
US (1) US20230269395A1 (zh)
EP (1) EP4167570A4 (zh)
CN (1) CN113810763A (zh)
WO (1) WO2021254139A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827669A (zh) * 2022-03-31 2022-07-29 杭州网易智企科技有限公司 一种视频数据的传输方法、装置、介质及设备
CN115208959A (zh) * 2022-05-30 2022-10-18 武汉市水务集团有限公司 一种物联网安全通信系统
CN115361582A (zh) * 2022-07-19 2022-11-18 鹏城实验室 一种视频实时超分辨率处理方法、装置、终端及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115943422A (zh) * 2020-07-14 2023-04-07 Oppo广东移动通信有限公司 视频处理方法、装置、设备、解码器、系统及存储介质
CN113347421B (zh) * 2021-06-02 2023-07-14 黑芝麻智能科技(上海)有限公司 视频编码和解码方法、装置和计算机设备
CN116523758B (zh) * 2023-07-03 2023-09-19 清华大学 基于关键帧的端云联合超分辨率视频重建方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060132962A (ko) * 2004-03-31 2006-12-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 데이터를 위한 동작 판단 및 분할
WO2006078109A1 (en) * 2005-01-21 2006-07-27 Samsung Electronics Co., Ltd. Method of multi-layer based scalable video encoding and decoding and apparatus for the same
WO2011087963A1 (en) * 2010-01-15 2011-07-21 Dolby Laboratories Licensing Corporation Edge enhancement for temporal scaling with metadata
CN102196256B (zh) * 2010-03-11 2013-03-27 中国科学院微电子研究所 一种视频编码方法及装置
CN103813174B (zh) * 2012-11-12 2016-04-27 腾讯科技(深圳)有限公司 一种混合分辨率编解码方法和装置
CN103607591B (zh) * 2013-10-28 2017-02-01 四川大学 结合超分辨率重建的视频图像压缩方法
CN111937401B (zh) * 2018-04-13 2022-08-16 皇家Kpn公司 基于块级超分辨率的视频编码的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114827669A (zh) * 2022-03-31 2022-07-29 杭州网易智企科技有限公司 一种视频数据的传输方法、装置、介质及设备
CN114827669B (zh) * 2022-03-31 2023-08-18 杭州网易智企科技有限公司 一种视频数据的传输方法、装置、介质及设备
CN115208959A (zh) * 2022-05-30 2022-10-18 武汉市水务集团有限公司 一种物联网安全通信系统
CN115208959B (zh) * 2022-05-30 2023-12-12 武汉市水务集团有限公司 一种物联网安全通信系统
CN115361582A (zh) * 2022-07-19 2022-11-18 鹏城实验室 一种视频实时超分辨率处理方法、装置、终端及存储介质
CN115361582B (zh) * 2022-07-19 2023-04-25 鹏城实验室 一种视频实时超分辨率处理方法、装置、终端及存储介质

Also Published As

Publication number Publication date
EP4167570A4 (en) 2024-04-24
EP4167570A1 (en) 2023-04-19
WO2021254139A1 (zh) 2021-12-23
US20230269395A1 (en) 2023-08-24

Similar Documents

Publication Publication Date Title
CN113810763A (zh) 一种视频处理方法、设备及存储介质
Hu et al. FVC: A new framework towards deep video compression in feature space
TWI624804B (zh) 利用超解析重建法生成高解析度影像的方法與系統
TWI647946B (zh) 一種圖像編解碼方法及裝置
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
KR100664929B1 (ko) 다 계층 기반의 비디오 코더에서 모션 벡터를 효율적으로압축하는 방법 및 장치
KR100763194B1 (ko) 단일 루프 디코딩 조건을 만족하는 인트라 베이스 예측방법, 상기 방법을 이용한 비디오 코딩 방법 및 장치
CN101511017B (zh) 基于网格的立体视频空间可分级编码器及其编码方法
CN110049336B (zh) 视频编码方法和视频解码方法
CN112449140B (zh) 视频超分辨率处理方法及装置
EP2926561B1 (en) Bandwidth saving architecture for scalable video coding spatial mode
JP2008541653A (ja) スムージング予測を用いた多階層基盤のビデオエンコーディング方法、デコーディング方法、ビデオエンコーダ及びビデオデコーダ
KR20200114436A (ko) 스케일러블 영상 부호화를 수행하는 장치 및 방법
Chen et al. Compressed domain deep video super-resolution
WO2023000179A1 (zh) 视频超分辨网络及视频超分辨、编解码处理方法、装置
Ascenso et al. The jpeg ai standard: Providing efficient human and machine visual data consumption
WO2022011571A1 (zh) 视频处理方法、装置、设备、解码器、系统及存储介质
CN115052187A (zh) 一种基于在线训练的超分辨率直播系统
CN114363617A (zh) 一种网络轻量级视频流传输方法、系统及设备
Luo et al. Masked360: Enabling Robust 360-degree Video Streaming with Ultra Low Bandwidth Consumption
Huang et al. A cloud computing based deep compression framework for UHD video delivery
CN111860363A (zh) 一种视频图像的处理方法及装置、电子设备、存储介质
KR100996364B1 (ko) 동영상 압축을 위한 서브샘플링기반 화면내 예측 부호화/복호화 장치 및 방법
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
KR20160024975A (ko) 비디오의 멀티-레벨 공간적-시간적 레졸루션 증가

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination