CN115052187B - 一种基于在线训练的超分辨率直播系统 - Google Patents

一种基于在线训练的超分辨率直播系统 Download PDF

Info

Publication number
CN115052187B
CN115052187B CN202210450602.1A CN202210450602A CN115052187B CN 115052187 B CN115052187 B CN 115052187B CN 202210450602 A CN202210450602 A CN 202210450602A CN 115052187 B CN115052187 B CN 115052187B
Authority
CN
China
Prior art keywords
super
resolution
module
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210450602.1A
Other languages
English (en)
Other versions
CN115052187A (zh
Inventor
徐跃东
刘旭东
戴连贵
邢万勇
张云霞
徐广宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Litong Technology Investment Co ltd
Fudan University
Original Assignee
Guangdong Litong Technology Investment Co ltd
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Litong Technology Investment Co ltd, Fudan University filed Critical Guangdong Litong Technology Investment Co ltd
Priority to CN202210450602.1A priority Critical patent/CN115052187B/zh
Publication of CN115052187A publication Critical patent/CN115052187A/zh
Application granted granted Critical
Publication of CN115052187B publication Critical patent/CN115052187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/437Interfacing the upstream path of the transmission network, e.g. for transmitting client requests to a VOD server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明属于直播流媒体技术领域,具体为一种基于在线训练的超分辨率直播系统,适用于配备GPU计算能力的PC、移动终端和智能汽车的视频直播应用。本发明系统包括:在推流端上行带宽不足的情况下,直播者在推流端以RTMP协议向服务器上传低分辨率视频流,同时利用原始高清视频自适应训练空域超分辨率网络F‑EDSR并上传到远端服务器;服务器端接收低分辨率视频流和F‑EDSR网络,并用空域超分辨网络F‑EDSR和时域超分辨率网络TCSR级联实时处理视频流,合成高清超分辨率视频。结果表明,本发明可以在推流端上传带宽不足的情况下,实时对视频流做超分辨率重构,用较少的计算资源获得高质量的视频画面。

Description

一种基于在线训练的超分辨率直播系统
技术领域
本发明属于直播流媒体技术领域,具体涉及一种基于在线训练的超分辨率直播系统。
背景技术
直播流媒体正在成为人们生活中越来越重要的部分。截止2020年,中国的在线直播行业用户量已经达到了将近6亿。据估计到2022年,互联网中将有13%的流量来自直播流媒体[3]。直播流媒体,就是推流端将音视频流在较短的延时内分发到用户播放端的系统。近年来虽然流媒体直播技术不断更新迭代,新的协议和分发架构层出不穷,但是仍然遵循着一定的基本框架。直播流媒体主要有六个基础环节,即:捕捉,编码,封装,转码,分发,播放。一般对应三个终端:推流端、服务器端、用户端。每个终端之间会有相应的数据传输。推流端首先完成视频的捕捉、编码和封装,之后通过低延时传输协议将视频流推送到服务器。服务器端完成视频的转码,最后经由CDN分发到用户手中。用户则通过播放器实现直播观看。重要的直播场景非常多,在目前配备GPU硬件计算能力的PC端、移动终端和智能汽车等场景,视频直播系统的应用有了进一步拓展。
由于直播流媒体有低延时的特性,传输网络协议就成了系统中重要的技术基础。如今市面上主流的直播协议有WebRTC、RTMP、HLS等。WebRTC是由Google团队收购并维护的一项视频传输协议,被视为直播流媒体的未来标准。与其他协议相比,WebRTC有着极低的延迟,通常用于需要即时互动的场景。但由于推出时间较短,在国内市场目前还没有被大规模使用。RTMP是Adobe公司为了实现播放器和服务器之间的高性能传输而研发的应用层协议,主要基于TCP长连接。由于延时低、连接可靠、使用方便等特点,该协议已经被广泛应用,成为国内主流的直播流媒体协议。HLS是由Apple公司基于HTTP实现的媒体传输协议。HLS与DASH类似,会将视频流切割成一个个连续的视频切片,用户可以在播放端通过访问列表文件,顺序下载视频流片段,以此达到观看直播的效果。HLS虽然延迟较高,但兼容性较好。适用于互动性要求不高的场景。
超分辨率(Super-Resolution)是指将低分辨率的图像或视频,恢复为高分辨率的图像或视频的一项技术。超分辨率领域可以细分为图像超分辨率(SR)和视频超分辨率(VSR)(以下或简称图像超分和视频超分)
图像超分是从指定的单幅低分辨率图像中还原出高分辨率图像的技术。传统算法中有基于插值和重建的图像超分。最近的图像超分算法大多是基于深度学习,主要学习低分辨图像和高分辨率图像之间的映射关系。Dong等人[4]提出了超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN)。该网络有三层卷积结构,先将图像映射为小分辨率图像,再将图像放大为高分辨率图像,最后完成特征非线性映射的重建。Kim等人[6]提出了SRGAN网络,首次将GAN用在了超分辨重建上。对于高放大倍数图片,GAN可以较好展现图像细节纹理,增加真实感。在生成网络部分,文章提出的SRResNet利用多个残差块挖掘图像特征。每个残差块包含两个卷积层,两个批量归一化层,以及一个激活层。多层残差模块的应用使得网络可以进一步学习图像的深层信息。Lim等人[7]受到SRResNet的启发,通过去其残差网络中不必要的模块提出了EDSR。作者Lim认为SRResNet中的批量归一化层使得网络对图像特征的感受范围减少,将其删除能让网络更好地学习图像细节。同时,批量归一化层消耗的内存量与前面的卷积层相同,因此去掉之后会使GPU内存使用量大大减少,训练时间也能进一步缩短。
视频超分辨率与图像超分辨率的区别在于,视频超分辨率在还原过程中使用了相邻帧信息,从而更好地补充图像细节,解决画面模糊的问题。如何将低分辨目标帧与相邻帧临时对齐是视频超分辨率的一个关键问题。大多数视频超分辨率网络主要由四个模块构成:对齐模块、融合模块、重构模块和上采样模块。前两个模块主要利用相邻帧之间的时域信息,可以被称作时域超分。后两个模块主要挖掘图像上的细节,可以被称作空域超分。视频超分网络SOFVSR[1]可以通过计算目标帧和相邻帧之间的光流图,估计目标图像在帧间的移动信息。光流图可以将相邻帧信息还原到目标帧,多帧融合的结果可以显著提高视频帧PSNR。此外,作者创新性地将超分辨运用到光流图的估计中,极大提高了光流图估计的准确性。Wang等人[2]提出基于可变形卷积网络的视频超分辨率网络。网络结构分为预处理模块,PCD对齐模块,TSA融合模块,重构模块。在PCD对齐模块,作者提出三级金字塔结构,基于可变形卷积,提取相邻帧之间的信息。结果表明,可变形卷积极大提高了相邻帧信息的利用率,极大程度地改善了运动模糊的问题。Chu等人[9]将生成对抗网络应用到视频超分辨率里,提出TecoGAN网络结构。在生成器中,TecoGAN将目标帧,前一帧和前一帧的SR帧作为输入,通过低分辨率的相邻帧估计光流图。之后网络将放大后的光流图与前一帧的SR进行运算对齐,最后将运算结果与低分辨帧一起进入后续的卷积重构。文章提出的Ping-Pong损失函数,减少了较长时间内的画面细节漂移,使超分辨率结果更自然。
发明内容
本发明旨在提出一种基于超分辨率的在线训练直播系统。该系统主要利用PC、移动终端、智能汽车等带GPU的硬件计算性能。与传统的直播流媒体系统相比,该系统能在推流端上传带宽有限的条件下,在服务器端通过超分辨率技术重构出质量更好的视频画面。
本发明提出的超分辨率直播系统,主要有推流端和服务器端两个部分。系统结构如图1所示。用户在直播推流时,系统先捕捉高分辨率视频流并转码为合适码率的低分辨率视频流,然后通过RTMP协议将低分辨率视频流上传到服务器。同时,推流端系统实时抓取高、低分辨率视频关键帧,并以此作为输入数据根据当前画面自适应训练空域超分辨率网络F-EDSR。之后系统根据训练数据预测网络提升阈值,在达到相应效果时终止训练,节约计算资源。训练好网络之后,推流端在不影响视频上传比特率的情况下,向服务器传输当前阶段训练好的超分辨率网络。
在服务器端,服务器实时接收推流端传输的低分辨率视频流和F-EDSR。视频通过两层级联的超分辨率网络F-EDSR和TCSR进行超分辨率还原。F-EDSR负责提取画面细节,TCSR负责利用帧间信息消除画面模糊。由于两级神经网络的处理速度存在差异,F-EDSR能够实现实时处理,TCSR需要对F-EDSR输出的视频帧进行挑帧还原。最后服务器端通过HLS将超分辨率还原后的视频进行分发。
本发明提供的基于在线训练的超分辨率直播系统,包括推流端和服务器端两个部分;其中:
(1)服务器端结构
有帧间对齐的视频超分算法主要分为时域超分和空域超分两个阶段。时域超分需要多帧计算,占用内存大,处理速度慢,因此成为视频超分算法处理性能的瓶颈。本发明的服务器端架构中,系统将视频超分辨率网络的两个模块拆分为空域超分F-EDSR和TCSR两个网络,并进行级联。前者可以对视频实时处理,后者对F-EDSR的输出进行帧挑选处理。与传统有帧间对齐的视频超分辨率算法对比,该方法能实现对视频流的实时处理(25帧/秒)。
(1.1)F-EDSR
系统提出的空域超分F-EDSR(Fast Enhanced Deep Super-Resolution)作为一级网络,该网络基于图像超分网络EDSR。网络结构如图2所示。网络头部使用的二维卷积层,有更大的5*5卷积核,以及更少的通道。这使得网络在较浅的网络结构下,训练速度有更好的表现。网络主体由深度残差模块构成,并以二维卷积层结束。每个残差模块由两个卷积层和一个激活层构成。残差模块去掉批量归一化层使得网络主体参数更少,感受动态更大。网络尾部则是上采样模块和卷积模块,这使得图像能以设定尺寸输出。
(1.2)TCSR
系统提出的TCSR(Temporal Compensation Super-Resolution)网络作为二级网络,网络结构如图3所示。网络以多个连续的帧为作为输入,中间帧作为融合输出的目标。多个连续帧表示为It-k,…It-1,It,It+1,…,It+k,中间帧为It,其中k表示中间帧和相邻帧的最大间隔数。使用的视频帧输入后,每对相邻帧It+i和目标帧It经过OFRnet的运算,都能得到It+i关于It的光流图,记为Ot+i。利用Ot+i对It+i进行仿射变换可以得到经过运动补偿的帧It+i,t,该帧是与It高度相似的对齐帧。此时多个对齐帧{It+i,t}和目标帧It进入一个融合模块,该模块运用注意力机制将多帧融合,输出多通道特征图最后经由一个重构模块加上图像残差,输出超分辨率目标帧/>其中:
TCSR中的OFRnet模块用于进行光流图计算。根据[1]的研究,本发明采用超分辨率估计相邻帧光流图。网络结构如图4所示。网络的输入是一对目标帧It和相邻帧It+i,输出是相邻帧的超分光流图Ot+i
在OFRnet第一层,视频帧先降采样为原来的1/2得到与/>这样能在减少计算量的同时更好地获取图像的整体信息。之后设置一个元素值全0的光流图/>作为初始变量。/>与/>经过仿射运算后,与/>进行卷积和多层残差网络处理,得到降采样大小的光流图。该光流图经过2倍升采样变为和参考帧同样大小的Ot+i。Ot+i和原始相邻帧It+i进行仿射变换,再加入It进行卷积层和残差块处理,最后得到超分辨率光流图Ot+i
Ot+i和It+i尺寸相同,可以直接将两者进行仿射变换,得到对齐后的相邻帧It+i,t
然后,把It+i,t与It输入融合模块进行融合。融合模块的结构如图5所示。该模块采用注意力机制,主要通过计算两帧之间的相似性,决定融和时该帧所占的权重。在相关研究中,系统参考了[2]对图像距离的计算方式。融合模块的输入为It+i,t和It。两者分别经过3*3卷积层运算之后,再将结果进行矩阵点乘运算。这一步使得图像中相似的像素点进一步增强。之后经过sigmoid函数运算,得到两帧之间的距离图Dt+i,t,该距离图反映了It+i,t像素点在融合时所占有的权重。Dt+i,t和It+i,t再次进行点乘,得到对齐帧的特征图Ft+i,t。最后多个相邻的对齐特征图经过卷积运算得到多通道特征图
多通道特征图最后经由重构模块,输出超分辨率目标帧。重构模块结构如图6所示,为2层卷积层,1层残差层组成。多通道特征图/>经过卷积和残差块,最终和原目标帧相加得到超分辨率帧/>
由于TCSR需要对光流图进行估计,所以损失函数里面包含了中间光流图的计算精度。真实高清视频帧和超分辨率还原结果/>之间的损失函数表示为:
光流图的精度是根据仿射变换结果It+i,t与目标帧It的误差来判断,输入时一共有2k+1帧加入计算,所以估计一层光流图的损失函数为:
估计二层光流图Ot+i的损失函数为:
最终的损失函数则由三者加权相加:
其中,α<β<1。
两级超分辨网络在处理能力上存在差异。F-EDSR可以做到对视频流的实时处理,TCSR需要对视频流进行挑帧处理。输出后的视频通过HLS协议分发给播放端用户。
(2)推流端结构
超分辨率网络的还原效果和训练数据集密切相关。同一个超分辨率网络,在处理和训练集类型相似度低的视频时通常效果欠佳。由于直播流内容变化复杂,单一的预训练网络难以适应多种直播流内容。因此本系统选择在推流端实时训练超分辨率网络F-EDSR,以提高F-EDSR的网络泛化能力。与单次训练的超分辨算法相比,该策略可以保证在每个直播流上F-EDSR都有较好的还原效果。
除此之外,超分辨率网络的训练会耗费大量的计算资源。高频次的网络训练会使得硬件设备过载,设备寿命减少。因此我们通过检测超分辨率网络对当前视频的还原效果,自适应开启和停止超分辨率的训练过程。与传统的训练模式相比,该训练策略可以极大降低推流设备的运算负载。
推流端主要工作流程为:系统捕捉高清视频流后,会在本地进行转码压缩。低码率视频流通过RTMP协议发送到服务器端。同时,推流端将当前的高分辨率视频流和低分辨率视频流的实时关键帧作为输入数据,在线训练超分辨率网络F-EDSR,并将训练好的F-EDSR上传到服务器端。
推流端中有训练和监测两个模块。训练模块将当前的实时最佳模型传送给监测模块,监测模块则负责记录当前模型随视频流变化的PSNR。一旦通过PSNR监测到场景转变,监测模块则会向训练模块发出训练请求。如果训练模块处于停止状态,则开始模型训练。
(2.1)监测模块
检测算法上,选择使用局部加权回归算法。该算法是利用某时刻的邻近值进行平滑处理。不过考虑到了与时刻xi距离不同的点有不同的权重。算法公式如下所示:
其中,使用Epanechnikov二次kernel:
式中,λ是kernel的参数,称为窗口宽度。局部加权中只考虑附近k个值的影响,也就是:
λ=|xi-x[k]|, (8)
其中,x[k]是距离xi为k的时刻点。
(2.2)训练模块
训练模块根据监测模块的结果进行训练。训练过程有一个设定提升PSNR阈值THs以及一个预测提升PSNR阈值THp。前者依据经验作为固定参数,后者通过冷启动的训练数据实时预测最大提升值。系统通过浅层神经网络预测数据结果。网络输入层和输出层的数据个数都为1。中间的隐藏层有3层,每个隐藏层有20个神经元,每层使用sigmoid作为激活函数。这样的网络结构能够较好地拟合在闭区间上连续的大部分函数。同时训练损失函数为MSE,使用了L2正则化防止数据过拟合。
最后选择提升阈值为:
其中,α为小于1的比例系数。训练模型PSNR达到该阈值TH后即停止训练,以节省计算资源。
附图说明
图1为整体系统架构。
图2为F-EDSR结构图。
图3为TCSR结构图。
图4为OFRnet结构图。
图5为融合模块结构图。
图6为重构模块结构图。
图7为自适应训练策略的测试结果。
图8为二级级联网络的测试结果。
具体实施方式
实施例:
设实施例的环境
推流端:ubuntu18.04操作系统;OSB推流工具;ffmpeg转码工具;python环境下基于pytorch的系统架构,GPU为GTX 1080ti。
服务器端:ubuntu18.04操作系统;nginx架构;上传端协议RTMP;视频分发HLS;视频封装ffmpeg;python环境下基于pytorch的系统架构,GPU为GTX 1080ti。
步骤1:推流端通过OBS工具向系统推送高清视频流进行直播;
步骤2:推流端将视频流转码压缩为低分辨率视频流通过RTMP推送到服务器;
步骤3:服务器端接收到视频流之后,将视频输入一级超分网络实时输出高清帧,再将高清帧输入二级超分网络挑帧处理,最后得到超分辨率视频输出;
步骤4:推流端实时监测F-EDSR对当前视频流的处理效果。发生PSNR跳动时证明有场景转换,会让训练模块开始在线训练F-EDSR;
步骤5:训练模块根据当前视频流开始训练F-EDSR。提升到一定阈值之后停止训练;
步骤6:一旦上一个F-EDSR传输完毕,推流端就开始传输当前最佳F-EDSR;
步骤7:服务器端接收到最新F-EDSR,将其替换到系统。并用该模型处理视频流。
实验结果:
如图7所示,在直播场景有变化时,本发明系统的自适应训练与单次训练对比,服务器端视频流质量有着显著提升;与持续训练对比,视频流质量相近。
如图8所示,实验用7类真实的直播数据进行测试,TCSR的输入为F-EDSR的输出。可见二级级联网络中,TCSR网络的输出相比于F-EDSR在不同类别的直播视频上都会有相应提升。
参考文献
[1].Wang L,Guo Y,Liu L,et al.Deep video super-resolution using HRoptical flow estimation[J].IEEE Transactions on Image Processing,2020,29:4323-4336.
[2].Wang X,Chan KC K,Yu K,et al.Edvr:Video restoration with enhanceddeformable convolutional networks[C].Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition Workshops.2019.
[3].The Complete Guide to Live Streaming[EB/OL].https://www.wowza.com/wp-content/uploads/The-Complete-Guide-to-Live-Streaming.pdf
[4].Dong C,Loy C C,He K,et al.Learning a deep convolutional networkfor image super-resolution[C].European Conference on Computer Vision.2014:184-199.
[5].Kim J,Lee J K,Lee KM.Accurate image super-resolution using verydeep convolutional networks[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016:1646-1654.
[6].Ledig C,Theis L,Huszár F,et al.Photo-realistic single imagesuper-resolution using a generative adversarial network[C].Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2017:4681-4690.
[7].Lim B,Son S,Kim H,et al.Enhanced deep residual networks forsingle image super-resolution[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Workshops.2017:136-144.
[8].Liu H,Ruan Z,Zhao P,et al.Video super resolution based on deeplearning:A comprehensive survey[J].arXiv preprint arXiv:2007.12928,2020.
[9].Chu M,Xie Y,Mayer J,et al.Learning temporal coherence via self-supervision for GAN-based video generation[J].ACM Transactions on Graphics,2020,39(4):75:1-75:13.。

Claims (6)

1.一种基于在线训练的超分辨率直播系统,其特征在于,包括推流端和服务器端两个部分;其中:
(1)服务器端
包括空域超分F-EDSR和TCSR两个网络,并进行级联;前者用于对视频实时处理,后者用于对F-EDSR的输出进行帧挑选处理;
(1.1)F-EDSR
空域超分F-EDSR作为一级网络,是基于图像超分网络EDSR;网络头部使用一个二维卷积层,具有更大的5*5卷积核,以及更少的通道;网络主体由深度残差模块构成,并以二维卷积层结束;每个残差模块由两个卷积层和一个激活层构成;残差模块去掉批量归一化层使得网络主体参数更少,感受动态更大;网络尾部是上采样模块和卷积模块,使得图像能以设定尺寸输出;
(1.2)TCSR
TCSR网络作为二级网络,以多个连续的帧作为输入,中间帧作为融合输出的目标;包括一个OFRnet运算模块、仿射变换、融合模块、重构模块;
多个连续帧表示为It-k,…It-1,It,It+1,…,It+k,中间帧为It,其中k表示中间帧和相邻帧的最大间隔数;使用的视频帧输入后,每对相邻帧It+i和目标帧It经过OFRnet的运算,都能得到It+i关于It的光流图,记为Ot+i;利用Ot+i对It+i进行仿射变换得到经过运动补偿的帧It+i,t,该帧是与It高度相似的对齐帧;此时多个对齐帧{It+i,t}和目标帧It进入一个融合模块,该融合模块运用注意力机制将多帧融合,输出多通道特征图最后经由一个重构模块加上图像残差,输出超分辨率目标帧/>
(2)推流端
推流端主要包括训练和监测两个模块;训练模块将当前的实时最佳模型传送给监测模块,监测模块负责记录当前模型随视频流变化的PSNR;一旦通过PSNR监测到场景转变,监测模块向训练模块发出训练请求;如果训练模块处于停止状态,则开始模型训练;
(2.1)监测模块
监测算法选择使用局部加权回归算法,该算法利用某时刻的邻近值进行平滑处理;由于与时刻xi距离不同的点有不同的权重,算法公式如下所示:
其中,使用Epanechnikov二次kernel:
式中,λ是kernel的参数,称为窗口宽度;局部加权中只考虑附近k个值的影响,也就是:
λ=|xi-x[k]|,
其中,x[k]是距离xi为k的时刻点;
(2.2)训练模块
训练模块根据监测模块的结果进行训练;训练过程中,设定一个提升PSNR阈值THs以及一个预测提升PSNR阈值THp;前者依据经验作为固定参数,后者通过冷启动的训练数据实时预测最大提升值;训练模块中,通过一浅层神经网络预测数据结果;网络的输入层和输出层的数据个数都为1,其中间为隐藏层,共有3层,每个隐藏层有20个神经元,每层使用sigmoid作为激活函数;这样的网络结构能够较好地拟合在闭区间上连续的大部分函数;同时训练损失函数为MSE,使用L2正则化防止数据过拟合;
最后选择提升阈值为:
其中,α为小于1的比例系数;训练模型PSNR达到该阈值TH后即停止训练,以节省计算资源。
2.根据权利要求1所述的基于在线训练的超分辨率直播系统,其特征在于,所述TCSR中的OFRnet模块用于进行光流图计算,是采用超分辨率估计相邻帧光流图;OFRnet模块的输入是一对目标帧It和相邻帧It+i,输出是相邻帧的超分光流图Ot+i
在OFRnet第一层,视频帧先降采样为原来的1/2得到与/>然后设置一个元素值全0的光流图/>作为初始变量;/>与/>经过仿射运算后,与/>进行卷积和多层残差网络处理,得到降采样大小的光流图;该光流图经过2倍升采样变为和参考帧同样大小的Ot+i;Ot+i和原始相邻帧It+i进行仿射变换,再加入It进行卷积层和残差块处理,最后得到超分辨率光流图Ot+i
Ot+i和It+i尺寸相同,直接将两者进行仿射变换,得到对齐后的相邻帧It+i,t
3.根据权利要求2所述的基于在线训练的超分辨率直播系统,其特征在于,所述融合模块采用注意力机制,通过计算两帧之间的相似性,决定融合时该帧所占的权重;融合模块的输入为It+i,t和It,两者分别经过3*3卷积层运算,然后将结果进行矩阵点乘运算;再经过sigmoid函数运算,得到两帧之间的距离图Dt+i,t,该距离图反映了It+i,t像素点在融合时所占有的权重;Dt+i,t和It+i,t再次进行点乘,得到对齐帧的特征图Ft+i,t;最后多个相邻的对齐特征图经过卷积运算得到多通道特征图
4.根据权利要求3所述的基于在线训练的超分辨率直播系统,其特征在于,所述重构模块由2层卷积层、1层残差层组成;多通道特征图经过卷积和残差块,最终和原目标帧相加得到超分辨率帧/>
5.根据权利要求4所述的基于在线训练的超分辨率直播系统,其特征在于,所述TCSR中,由于对光流图进行估计,其损失函数里面包含了中间光流图的计算精度;真实高清视频帧和超分辨率还原结果/>之间的损失函数表示为:
光流图的精度是根据仿射变换结果It+i,t与目标帧It的误差来判断,输入时一共有2k+1帧加入计算,所以估计一层光流图的损失函数为:
估计二层光流图Ot+i的损失函数为:
最终的损失函数则由三者加权相加:
其中,α<β<1。
6.根据权利要求5所述的基于在线训练的超分辨率直播系统,其特征在于,由于服务器端的两级超分辨网络在处理能力上存在差异,F-EDSR对视频流进行实时处理,TCSR对视频流进行挑帧处理;输出后的视频通过HLS协议分发给播放端用户。
CN202210450602.1A 2022-04-26 2022-04-26 一种基于在线训练的超分辨率直播系统 Active CN115052187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210450602.1A CN115052187B (zh) 2022-04-26 2022-04-26 一种基于在线训练的超分辨率直播系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210450602.1A CN115052187B (zh) 2022-04-26 2022-04-26 一种基于在线训练的超分辨率直播系统

Publications (2)

Publication Number Publication Date
CN115052187A CN115052187A (zh) 2022-09-13
CN115052187B true CN115052187B (zh) 2024-05-03

Family

ID=83158228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210450602.1A Active CN115052187B (zh) 2022-04-26 2022-04-26 一种基于在线训练的超分辨率直播系统

Country Status (1)

Country Link
CN (1) CN115052187B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546030B (zh) * 2022-11-30 2023-04-07 武汉大学 基于孪生超分辨率网络的压缩视频超分辨率方法及系统
CN116634194B (zh) * 2023-05-10 2024-05-24 北京国际云转播科技有限公司 视频直播方法、视频直播装置、存储介质及电子设备
CN116527833B (zh) * 2023-07-03 2023-09-05 清华大学 一种基于超分模型的高清视频生成方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819321A (zh) * 2019-03-13 2019-05-28 中国科学技术大学 一种视频超分辨率增强方法
CN111260560A (zh) * 2020-02-18 2020-06-09 中山大学 一种融合注意力机制的多帧视频超分辨率方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN112070667A (zh) * 2020-08-14 2020-12-11 西安理工大学 一种多尺度特征融合的视频超分辨率重建的方法
CN112837224A (zh) * 2021-03-30 2021-05-25 哈尔滨理工大学 一种基于卷积神经网络的超分辨率图像重建方法
CN112991183A (zh) * 2021-04-09 2021-06-18 华南理工大学 一种基于多帧注意力机制渐进式融合的视频超分辨率方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819321A (zh) * 2019-03-13 2019-05-28 中国科学技术大学 一种视频超分辨率增强方法
CN111311490A (zh) * 2020-01-20 2020-06-19 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111260560A (zh) * 2020-02-18 2020-06-09 中山大学 一种融合注意力机制的多帧视频超分辨率方法
CN112070667A (zh) * 2020-08-14 2020-12-11 西安理工大学 一种多尺度特征融合的视频超分辨率重建的方法
CN112837224A (zh) * 2021-03-30 2021-05-25 哈尔滨理工大学 一种基于卷积神经网络的超分辨率图像重建方法
CN112991183A (zh) * 2021-04-09 2021-06-18 华南理工大学 一种基于多帧注意力机制渐进式融合的视频超分辨率方法

Also Published As

Publication number Publication date
CN115052187A (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN115052187B (zh) 一种基于在线训练的超分辨率直播系统
Tu et al. RAPIQUE: Rapid and accurate video quality prediction of user generated content
US10924755B2 (en) Real time end-to-end learning system for a high frame rate video compressive sensing network
US20190261016A1 (en) Video compression through motion warping using learning-based motion segmentation
CN112004085A (zh) 一种场景语义分割结果指导下的视频编码方法
CN103167284B (zh) 一种基于画面超分辨率的视频流传输方法及系统
EP4181052A1 (en) Image processing method and apparatus
CN111901532B (zh) 基于循环神经网络迭代策略的视频稳定方法
Liu et al. Video quality assessment using space–time slice mappings
JP2023543520A (ja) 機械学習を基にしたピクチャコーディングにおけるクロマサブサンプリングフォーマット取り扱いのための方法
Löhdefink et al. GAN-vs. JPEG2000 image compression for distributed automotive perception: Higher peak SNR does not mean better semantic segmentation
Chen et al. Learning to compress videos without computing motion
KR20230154022A (ko) P-프레임 코딩 시스템을 이용한 학습된 b-프레임 코딩
US20240037802A1 (en) Configurable positions for auxiliary information input into a picture data processing neural network
US20240007637A1 (en) Video picture encoding and decoding method and related device
US20240161488A1 (en) Independent positioning of auxiliary information in neural network based picture processing
TWI826160B (zh) 圖像編解碼方法和裝置
TW202337211A (zh) 條件圖像壓縮
WO2022100173A1 (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
CN115294429A (zh) 一种基于特征域网络训练方法和装置
CN114979711A (zh) 音视频或图像分层压缩方法和装置
He et al. A comparative study of super-resolution algorithms for video streaming application
Li et al. You Can Mask More For Extremely Low-Bitrate Image Compression
WO2024078403A1 (zh) 图像处理方法、装置及设备
WO2024007820A1 (zh) 数据编解码方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant