CN115052187A - 一种基于在线训练的超分辨率直播系统 - Google Patents
一种基于在线训练的超分辨率直播系统 Download PDFInfo
- Publication number
- CN115052187A CN115052187A CN202210450602.1A CN202210450602A CN115052187A CN 115052187 A CN115052187 A CN 115052187A CN 202210450602 A CN202210450602 A CN 202210450602A CN 115052187 A CN115052187 A CN 115052187A
- Authority
- CN
- China
- Prior art keywords
- resolution
- super
- module
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000003287 optical effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012544 monitoring process Methods 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000011144 upstream manufacturing Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/437—Interfacing the upstream path of the transmission network, e.g. for transmitting client requests to a VOD server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4621—Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明属于直播流媒体技术领域,具体为一种基于在线训练的超分辨率直播系统,适用于配备GPU计算能力的PC、移动终端和智能汽车的视频直播应用。本发明系统包括:在推流端上行带宽不足的情况下,直播者在推流端以RTMP协议向服务器上传低分辨率视频流,同时利用原始高清视频自适应训练空域超分辨率网络F‑EDSR并上传到远端服务器;服务器端接收低分辨率视频流和F‑EDSR网络,并用空域超分辨网络F‑EDSR和时域超分辨率网络TCSR级联实时处理视频流,合成高清超分辨率视频。结果表明,本发明可以在推流端上传带宽不足的情况下,实时对视频流做超分辨率重构,用较少的计算资源获得高质量的视频画面。
Description
技术领域
本发明属于直播流媒体技术领域,具体涉及一种基于在线训练的超分辨率直播系统。
背景技术
直播流媒体正在成为人们生活中越来越重要的部分。截止2020年,中国的在线直播行业用户量已经达到了将近6亿。据估计到2022年,互联网中将有13%的流量来自直播流媒体[3]。直播流媒体,就是推流端将音视频流在较短的延时内分发到用户播放端的系统。近年来虽然流媒体直播技术不断更新迭代,新的协议和分发架构层出不穷,但是仍然遵循着一定的基本框架。直播流媒体主要有六个基础环节,即:捕捉,编码,封装,转码,分发,播放。一般对应三个终端:推流端、服务器端、用户端。每个终端之间会有相应的数据传输。推流端首先完成视频的捕捉、编码和封装,之后通过低延时传输协议将视频流推送到服务器。服务器端完成视频的转码,最后经由CDN分发到用户手中。用户则通过播放器实现直播观看。重要的直播场景非常多,在目前配备GPU硬件计算能力的PC端、移动终端和智能汽车等场景,视频直播系统的应用有了进一步拓展。
由于直播流媒体有低延时的特性,传输网络协议就成了系统中重要的技术基础。如今市面上主流的直播协议有WebRTC、RTMP、HLS等。WebRTC是由Google团队收购并维护的一项视频传输协议,被视为直播流媒体的未来标准。与其他协议相比,WebRTC有着极低的延迟,通常用于需要即时互动的场景。但由于推出时间较短,在国内市场目前还没有被大规模使用。RTMP是Adobe公司为了实现播放器和服务器之间的高性能传输而研发的应用层协议,主要基于TCP长连接。由于延时低、连接可靠、使用方便等特点,该协议已经被广泛应用,成为国内主流的直播流媒体协议。HLS是由Apple公司基于HTTP实现的媒体传输协议。HLS与DASH类似,会将视频流切割成一个个连续的视频切片,用户可以在播放端通过访问列表文件,顺序下载视频流片段,以此达到观看直播的效果。HLS虽然延迟较高,但兼容性较好。适用于互动性要求不高的场景。
超分辨率(Super-Resolution)是指将低分辨率的图像或视频,恢复为高分辨率的图像或视频的一项技术。超分辨率领域可以细分为图像超分辨率(SR)和视频超分辨率(VSR)(以下或简称图像超分和视频超分)
图像超分是从指定的单幅低分辨率图像中还原出高分辨率图像的技术。传统算法中有基于插值和重建的图像超分。最近的图像超分算法大多是基于深度学习,主要学习低分辨图像和高分辨率图像之间的映射关系。Dong等人[4]提出了超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN)。该网络有三层卷积结构,先将图像映射为小分辨率图像,再将图像放大为高分辨率图像,最后完成特征非线性映射的重建。Kim等人[6]提出了SRGAN网络,首次将GAN用在了超分辨重建上。对于高放大倍数图片,GAN可以较好展现图像细节纹理,增加真实感。在生成网络部分,文章提出的SRResNet利用多个残差块挖掘图像特征。每个残差块包含两个卷积层,两个批量归一化层,以及一个激活层。多层残差模块的应用使得网络可以进一步学习图像的深层信息。Lim等人[7]受到SRResNet的启发,通过去其残差网络中不必要的模块提出了EDSR。作者Lim认为SRResNet中的批量归一化层使得网络对图像特征的感受范围减少,将其删除能让网络更好地学习图像细节。同时,批量归一化层消耗的内存量与前面的卷积层相同,因此去掉之后会使GPU内存使用量大大减少,训练时间也能进一步缩短。
视频超分辨率与图像超分辨率的区别在于,视频超分辨率在还原过程中使用了相邻帧信息,从而更好地补充图像细节,解决画面模糊的问题。如何将低分辨目标帧与相邻帧临时对齐是视频超分辨率的一个关键问题。大多数视频超分辨率网络主要由四个模块构成:对齐模块、融合模块、重构模块和上采样模块。前两个模块主要利用相邻帧之间的时域信息,可以被称作时域超分。后两个模块主要挖掘图像上的细节,可以被称作空域超分。视频超分网络SOFVSR[1]可以通过计算目标帧和相邻帧之间的光流图,估计目标图像在帧间的移动信息。光流图可以将相邻帧信息还原到目标帧,多帧融合的结果可以显著提高视频帧PSNR。此外,作者创新性地将超分辨运用到光流图的估计中,极大提高了光流图估计的准确性。Wang等人[2]提出基于可变形卷积网络的视频超分辨率网络。网络结构分为预处理模块,PCD对齐模块,TSA融合模块,重构模块。在PCD对齐模块,作者提出三级金字塔结构,基于可变形卷积,提取相邻帧之间的信息。结果表明,可变形卷积极大提高了相邻帧信息的利用率,极大程度地改善了运动模糊的问题。Chu等人[9]将生成对抗网络应用到视频超分辨率里,提出TecoGAN网络结构。在生成器中,TecoGAN将目标帧,前一帧和前一帧的SR帧作为输入,通过低分辨率的相邻帧估计光流图。之后网络将放大后的光流图与前一帧的SR进行运算对齐,最后将运算结果与低分辨帧一起进入后续的卷积重构。文章提出的Ping-Pong损失函数,减少了较长时间内的画面细节漂移,使超分辨率结果更自然。
发明内容
本发明旨在提出一种基于超分辨率的在线训练直播系统。该系统主要利用PC、移动终端、智能汽车等带GPU的硬件计算性能。与传统的直播流媒体系统相比,该系统能在推流端上传带宽有限的条件下,在服务器端通过超分辨率技术重构出质量更好的视频画面。
本发明提出的超分辨率直播系统,主要有推流端和服务器端两个部分。系统结构如图1所示。用户在直播推流时,系统先捕捉高分辨率视频流并转码为合适码率的低分辨率视频流,然后通过RTMP协议将低分辨率视频流上传到服务器。同时,推流端系统实时抓取高、低分辨率视频关键帧,并以此作为输入数据根据当前画面自适应训练空域超分辨率网络F-EDSR。之后系统根据训练数据预测网络提升阈值,在达到相应效果时终止训练,节约计算资源。训练好网络之后,推流端在不影响视频上传比特率的情况下,向服务器传输当前阶段训练好的超分辨率网络。
在服务器端,服务器实时接收推流端传输的低分辨率视频流和F-EDSR。视频通过两层级联的超分辨率网络F-EDSR和TCSR进行超分辨率还原。F-EDSR负责提取画面细节,TCSR负责利用帧间信息消除画面模糊。由于两级神经网络的处理速度存在差异,F-EDSR能够实现实时处理,TCSR需要对F-EDSR输出的视频帧进行挑帧还原。最后服务器端通过HLS将超分辨率还原后的视频进行分发。
本发明提供的基于在线训练的超分辨率直播系统,包括推流端和服务器端两个部分;其中:
(1)服务器端结构
有帧间对齐的视频超分算法主要分为时域超分和空域超分两个阶段。时域超分需要多帧计算,占用内存大,处理速度慢,因此成为视频超分算法处理性能的瓶颈。本发明的服务器端架构中,系统将视频超分辨率网络的两个模块拆分为空域超分F-EDSR和TCSR两个网络,并进行级联。前者可以对视频实时处理,后者对F-EDSR的输出进行帧挑选处理。与传统有帧间对齐的视频超分辨率算法对比,该方法能实现对视频流的实时处理(25帧/秒)。
(1.1)F-EDSR
系统提出的空域超分F-EDSR(Fast Enhanced Deep Super-Resolution)作为一级网络,该网络基于图像超分网络EDSR。网络结构如图2所示。网络头部使用的二维卷积层,有更大的5*5卷积核,以及更少的通道。这使得网络在较浅的网络结构下,训练速度有更好的表现。网络主体由深度残差模块构成,并以二维卷积层结束。每个残差模块由两个卷积层和一个激活层构成。残差模块去掉批量归一化层使得网络主体参数更少,感受动态更大。网络尾部则是上采样模块和卷积模块,这使得图像能以设定尺寸输出。
(1.2)TCSR
系统提出的TCSR(Temporal Compensation Super-Resolution)网络作为二级网络,网络结构如图3所示。网络以多个连续的帧为作为输入,中间帧作为融合输出的目标。多个连续帧表示为It-k,…It-1,It,It+1,…,It+k,中间帧为It,其中k表示中间帧和相邻帧的最大间隔数。使用的视频帧输入后,每对相邻帧It+i和目标帧It经过OFRnet的运算,都能得到It+i关于It的光流图,记为Ot+i。利用Ot+i对It+i进行仿射变换可以得到经过运动补偿的帧It+i,t,该帧是与It高度相似的对齐帧。此时多个对齐帧{It+i,t}和目标帧It进入一个融合模块,该模块运用注意力机制将多帧融合,输出多通道特征图最后经由一个重构模块加上图像残差,输出超分辨率目标帧其中:
TCSR中的OFRnet模块用于进行光流图计算。根据[1]的研究,本发明采用超分辨率估计相邻帧光流图。网络结构如图4所示。网络的输入是一对目标帧It和相邻帧It+i,输出是相邻帧的超分光流图Ot+i。
在OFRnet第一层,视频帧先降采样为原来的1/2得到与这样能在减少计算量的同时更好地获取图像的整体信息。之后设置一个元素值全0的光流图作为初始变量。与经过仿射运算后,与进行卷积和多层残差网络处理,得到降采样大小的光流图。该光流图经过2倍升采样变为和参考帧同样大小的Ot+i。Ot+i和原始相邻帧It+i进行仿射变换,再加入It进行卷积层和残差块处理,最后得到超分辨率光流图Ot+i。
Ot+i和It+i尺寸相同,可以直接将两者进行仿射变换,得到对齐后的相邻帧It+i,t。
然后,把It+i,t与It输入融合模块进行融合。融合模块的结构如图5所示。该模块采用注意力机制,主要通过计算两帧之间的相似性,决定融和时该帧所占的权重。在相关研究中,系统参考了[2]对图像距离的计算方式。融合模块的输入为It+i,t和It。两者分别经过3*3卷积层运算之后,再将结果进行矩阵点乘运算。这一步使得图像中相似的像素点进一步增强。之后经过sigmoid函数运算,得到两帧之间的距离图Dt+i,t,该距离图反映了It+i,t像素点在融合时所占有的权重。Dt+i,t和It+i,t再次进行点乘,得到对齐帧的特征图Ft+i,t。最后多个相邻的对齐特征图经过卷积运算得到多通道特征图
估计二层光流图Ot+i的损失函数为:
最终的损失函数则由三者加权相加:
其中,α<β<1。
两级超分辨网络在处理能力上存在差异。F-EDSR可以做到对视频流的实时处理,TCSR需要对视频流进行挑帧处理。输出后的视频通过HLS协议分发给播放端用户。
(2)推流端结构
超分辨率网络的还原效果和训练数据集密切相关。同一个超分辨率网络,在处理和训练集类型相似度低的视频时通常效果欠佳。由于直播流内容变化复杂,单一的预训练网络难以适应多种直播流内容。因此本系统选择在推流端实时训练超分辨率网络F-EDSR,以提高F-EDSR的网络泛化能力。与单次训练的超分辨算法相比,该策略可以保证在每个直播流上F-EDSR都有较好的还原效果。
除此之外,超分辨率网络的训练会耗费大量的计算资源。高频次的网络训练会使得硬件设备过载,设备寿命减少。因此我们通过检测超分辨率网络对当前视频的还原效果,自适应开启和停止超分辨率的训练过程。与传统的训练模式相比,该训练策略可以极大降低推流设备的运算负载。
推流端主要工作流程为:系统捕捉高清视频流后,会在本地进行转码压缩。低码率视频流通过RTMP协议发送到服务器端。同时,推流端将当前的高分辨率视频流和低分辨率视频流的实时关键帧作为输入数据,在线训练超分辨率网络F-EDSR,并将训练好的F-EDSR上传到服务器端。
推流端中有训练和监测两个模块。训练模块将当前的实时最佳模型传送给监测模块,监测模块则负责记录当前模型随视频流变化的PSNR。一旦通过PSNR监测到场景转变,监测模块则会向训练模块发出训练请求。如果训练模块处于停止状态,则开始模型训练。
(2.1)监测模块
检测算法上,选择使用局部加权回归算法。该算法是利用某时刻的邻近值进行平滑处理。不过考虑到了与时刻xi距离不同的点有不同的权重。算法公式如下所示:
其中,使用Epanechnikov二次kernel:
式中,λ是kernel的参数,称为窗口宽度。局部加权中只考虑附近k个值的影响,也就是:
λ=|xi-x[k]|, (8)
其中,x[k]是距离xi为k的时刻点。
(2.2)训练模块
训练模块根据监测模块的结果进行训练。训练过程有一个设定提升PSNR阈值THs以及一个预测提升PSNR阈值THp。前者依据经验作为固定参数,后者通过冷启动的训练数据实时预测最大提升值。系统通过浅层神经网络预测数据结果。网络输入层和输出层的数据个数都为1。中间的隐藏层有3层,每个隐藏层有20个神经元,每层使用sigmoid作为激活函数。这样的网络结构能够较好地拟合在闭区间上连续的大部分函数。同时训练损失函数为MSE,使用了L2正则化防止数据过拟合。
最后选择提升阈值为:
其中,α为小于1的比例系数。训练模型PSNR达到该阈值TH后即停止训练,以节省计算资源。
附图说明
图1为整体系统架构。
图2为F-EDSR结构图。
图3为TCSR结构图。
图4为OFRnet结构图。
图5为融合模块结构图。
图6为重构模块结构图。
图7为自适应训练策略的测试结果。
图8为二级级联网络的测试结果。
具体实施方式
实施例:
设实施例的环境
推流端:ubuntu18.04操作系统;OSB推流工具;ffmpeg转码工具;python环境下基于pytorch的系统架构,GPU为GTX 1080ti。
服务器端:ubuntu18.04操作系统;nginx架构;上传端协议RTMP;视频分发HLS;视频封装ffmpeg;python环境下基于pytorch的系统架构,GPU为GTX 1080ti。
步骤1:推流端通过OBS工具向系统推送高清视频流进行直播;
步骤2:推流端将视频流转码压缩为低分辨率视频流通过RTMP推送到服务器;
步骤3:服务器端接收到视频流之后,将视频输入一级超分网络实时输出高清帧,再将高清帧输入二级超分网络挑帧处理,最后得到超分辨率视频输出;
步骤4:推流端实时监测F-EDSR对当前视频流的处理效果。发生PSNR跳动时证明有场景转换,会让训练模块开始在线训练F-EDSR;
步骤5:训练模块根据当前视频流开始训练F-EDSR。提升到一定阈值之后停止训练;
步骤6:一旦上一个F-EDSR传输完毕,推流端就开始传输当前最佳F-EDSR;
步骤7:服务器端接收到最新F-EDSR,将其替换到系统。并用该模型处理视频流。
实验结果:
如图7所示,在直播场景有变化时,本发明系统的自适应训练与单次训练对比,服务器端视频流质量有着显著提升;与持续训练对比,视频流质量相近。
如图8所示,实验用7类真实的直播数据进行测试,TCSR的输入为F-EDSR的输出。可见二级级联网络中,TCSR网络的输出相比于F-EDSR在不同类别的直播视频上都会有相应提升。
参考文献
[1].Wang L,Guo Y,Liu L,et al.Deep video super-resolution using HRoptical flow estimation[J].IEEE Transactions on Image Processing,2020,29:4323-4336.
[2].Wang X,Chan KC K,Yu K,et al.Edvr:Video restoration with enhanceddeformable convolutional networks[C].Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition Workshops.2019.
[3].The Complete Guide to Live Streaming[EB/OL].https://www.wowza.com/wp-content/uploads/The-Complete-Guide-to-Live-Streaming.pdf
[4].Dong C,Loy C C,He K,et al.Learning a deep convolutional networkfor image super-resolution[C].European Conference on Computer Vision.2014:184-199.
[5].Kim J,Lee J K,Lee KM.Accurate image super-resolution using verydeep convolutional networks[C].Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2016:1646-1654.
[6].Ledig C,Theis L,Huszár F,et al.Photo-realistic single imagesuper-resolution using a generative adversarial network[C].Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2017:4681-4690.
[7].Lim B,Son S,Kim H,et al.Enhanced deep residual networks forsingle image super-resolution[C].Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Workshops.2017:136-144.
[8].Liu H,Ruan Z,Zhao P,et al.Video super resolution based on deeplearning:A comprehensive survey[J].arXiv preprint arXiv:2007.12928,2020.
[9].Chu M,Xie Y,Mayer J,et al.Learning temporal coherence via self-supervision for GAN-based video generation[J].ACM Transactions on Graphics,2020,39(4):75:1-75:13.。
Claims (6)
1.一种基于在线训练的超分辨率直播系统,其特征在于,包括推流端和服务器端两个部分;其中:
(1)服务器端
包括空域超分F-EDSR和TCSR两个网络,并进行级联;前者用于对视频实时处理,后者用于对F-EDSR的输出进行帧挑选处理;
(1.1)F-EDSR
空域超分F-EDSR作为一级网络,是基于图像超分网络EDSR;网络头部使用一个二维卷积层,具有更大的5*5卷积核,以及更少的通道;网络主体由深度残差模块构成,并以二维卷积层结束;每个残差模块由两个卷积层和一个激活层构成;残差模块去掉批量归一化层使得网络主体参数更少,感受动态更大;网络尾部是上采样模块和卷积模块,使得图像能以设定尺寸输出;
(1.2)TCSR
TCSR网络作为二级网络,以多个连续的帧为作为输入,中间帧作为融合输出的目标;包括一个OFRnet运算模块、仿射变换、融合模块、重构模块;
多个连续帧表示为It-k,…It-1,It,It+1,…,It+k,中间帧为It,其中k表示中间帧和相邻帧的最大间隔数;使用的视频帧输入后,每对相邻帧It+i和目标帧It经过OFRnet的运算,都能得到It+i关于It的光流图,记为Ot+i;利用Ot+i对It+i进行仿射变换得到经过运动补偿的帧It+i,t,该帧是与It高度相似的对齐帧;此时多个对齐帧{It+i,t}和目标帧It进入一个融合模块,该融合模块运用注意力机制将多帧融合,输出多通道特征图 最后经由一个重构模块加上图像残差,输出超分辨率目标帧
(2)推流端
推流端主要包括训练和监测两个模块;训练模块将当前的实时最佳模型传送给监测模块,监测模块负责记录当前模型随视频流变化的PSNR;一旦通过PSNR监测到场景转变,监测模块向训练模块发出训练请求;如果训练模块处于停止状态,则开始模型训练;
(2.1)监测模块
监测算法选择使用局部加权回归算法,该算法利用某时刻的邻近值进行平滑处理;由于与时刻xi距离不同的点有不同的权重,算法公式如下所示:
其中,使用Epanechnikov二次kernel:
式中,λ是kernel的参数,称为窗口宽度;局部加权中只考虑附近k个值的影响,也就是:
λ=|xi-x[k]|,
其中,x[k]是距离xi为k的时刻点;
(2.2)训练模块
训练模块根据监测模块的结果进行训练;训练过程中,设定一个提升PSNR阈值THs以及一个预测提升PSNR阈值THp;前者依据经验作为固定参数,后者通过冷启动的训练数据实时预测最大提升值;训练模块中,通过一浅层神经网络预测数据结果;网络的输入层和输出层的数据个数都为1,其中间为隐藏层,共有3层,每个隐藏层有20个神经元,每层使用sigmoid作为激活函数;这样的网络结构能够较好地拟合在闭区间上连续的大部分函数;同时训练损失函数为MSE,使用L2正则化防止数据过拟合;
最后选择提升阈值为:
其中,α为小于1的比例系数;训练模型PSNR达到该阈值TH后即停止训练,以节省计算资源。
2.根据权利要求1所述的基于在线训练的超分辨率直播系统,其特征在于,所述TCSR中的OFRnet模块用于进行光流图计算,是采用超分辨率估计相邻帧光流图;OFRnet模块的输入是一对目标帧It和相邻帧It+i,输出是相邻帧的超分光流图Ot+i;
在OFRnet第一层,视频帧先降采样为原来的1/2得到与然后设置一个元素值全0的光流图作为初始变量;与经过仿射运算后,与进行卷积和多层残差网络处理,得到降采样大小的光流图;该光流图经过2倍升采样变为和参考帧同样大小的Ot+i;Ot+i和原始相邻帧It+i进行仿射变换,再加入It进行卷积层和残差块处理,最后得到超分辨率光流图Ot+i;
Ot+i和It+i尺寸相同,直接将两者进行仿射变换,得到对齐后的相邻帧It+i,t。
6.根据权利要求5所述的基于在线训练的超分辨率直播系统,其特征在于,由于服务器端的两级超分辨网络在处理能力上存在差异,F-EDSR对视频流进行实时处理,TCSR对视频流进行挑帧处理;输出后的视频通过HLS协议分发给播放端用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450602.1A CN115052187B (zh) | 2022-04-26 | 2022-04-26 | 一种基于在线训练的超分辨率直播系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450602.1A CN115052187B (zh) | 2022-04-26 | 2022-04-26 | 一种基于在线训练的超分辨率直播系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115052187A true CN115052187A (zh) | 2022-09-13 |
CN115052187B CN115052187B (zh) | 2024-05-03 |
Family
ID=83158228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210450602.1A Active CN115052187B (zh) | 2022-04-26 | 2022-04-26 | 一种基于在线训练的超分辨率直播系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115052187B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546030A (zh) * | 2022-11-30 | 2022-12-30 | 武汉大学 | 基于孪生超分辨率网络的压缩视频超分辨率方法及系统 |
CN116527833A (zh) * | 2023-07-03 | 2023-08-01 | 清华大学 | 一种基于超分模型的高清视频生成方法及系统 |
CN116634194A (zh) * | 2023-05-10 | 2023-08-22 | 北京国际云转播科技有限公司 | 视频直播方法、视频直播装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109819321A (zh) * | 2019-03-13 | 2019-05-28 | 中国科学技术大学 | 一种视频超分辨率增强方法 |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN111311490A (zh) * | 2020-01-20 | 2020-06-19 | 陕西师范大学 | 基于多帧融合光流的视频超分辨率重建方法 |
CN112070667A (zh) * | 2020-08-14 | 2020-12-11 | 西安理工大学 | 一种多尺度特征融合的视频超分辨率重建的方法 |
CN112837224A (zh) * | 2021-03-30 | 2021-05-25 | 哈尔滨理工大学 | 一种基于卷积神经网络的超分辨率图像重建方法 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
-
2022
- 2022-04-26 CN CN202210450602.1A patent/CN115052187B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109819321A (zh) * | 2019-03-13 | 2019-05-28 | 中国科学技术大学 | 一种视频超分辨率增强方法 |
CN111311490A (zh) * | 2020-01-20 | 2020-06-19 | 陕西师范大学 | 基于多帧融合光流的视频超分辨率重建方法 |
CN111260560A (zh) * | 2020-02-18 | 2020-06-09 | 中山大学 | 一种融合注意力机制的多帧视频超分辨率方法 |
CN112070667A (zh) * | 2020-08-14 | 2020-12-11 | 西安理工大学 | 一种多尺度特征融合的视频超分辨率重建的方法 |
CN112837224A (zh) * | 2021-03-30 | 2021-05-25 | 哈尔滨理工大学 | 一种基于卷积神经网络的超分辨率图像重建方法 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546030A (zh) * | 2022-11-30 | 2022-12-30 | 武汉大学 | 基于孪生超分辨率网络的压缩视频超分辨率方法及系统 |
CN116634194A (zh) * | 2023-05-10 | 2023-08-22 | 北京国际云转播科技有限公司 | 视频直播方法、视频直播装置、存储介质及电子设备 |
CN116634194B (zh) * | 2023-05-10 | 2024-05-24 | 北京国际云转播科技有限公司 | 视频直播方法、视频直播装置、存储介质及电子设备 |
CN116527833A (zh) * | 2023-07-03 | 2023-08-01 | 清华大学 | 一种基于超分模型的高清视频生成方法及系统 |
CN116527833B (zh) * | 2023-07-03 | 2023-09-05 | 清华大学 | 一种基于超分模型的高清视频生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115052187B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10924755B2 (en) | Real time end-to-end learning system for a high frame rate video compressive sensing network | |
CN115052187B (zh) | 一种基于在线训练的超分辨率直播系统 | |
US10805629B2 (en) | Video compression through motion warping using learning-based motion segmentation | |
Xu et al. | CSVideoNet: A real-time end-to-end learning framework for high-frame-rate video compressive sensing | |
CN103167284B (zh) | 一种基于画面超分辨率的视频流传输方法及系统 | |
CN112004085A (zh) | 一种场景语义分割结果指导下的视频编码方法 | |
CN111901532B (zh) | 基于循环神经网络迭代策略的视频稳定方法 | |
CN113810763A (zh) | 一种视频处理方法、设备及存储介质 | |
WO2024002211A1 (zh) | 一种图像处理方法及相关装置 | |
WO2022194137A1 (zh) | 视频图像的编解码方法及相关设备 | |
TW202337211A (zh) | 條件圖像壓縮 | |
Chen et al. | Learning to compress videos without computing motion | |
Liu et al. | End‐to‐end learning interpolation for object tracking in low frame‐rate video | |
Luo et al. | Masked360: Enabling robust 360-degree video streaming with ultra low bandwidth consumption | |
WO2022100173A1 (zh) | 一种视频帧的压缩和视频帧的解压缩方法及装置 | |
Yuan et al. | AccDecoder: Accelerated decoding for neural-enhanced video analytics | |
TWI826160B (zh) | 圖像編解碼方法和裝置 | |
WO2023133888A1 (zh) | 图像处理方法、装置、遥控设备、系统及存储介质 | |
Yang et al. | Graph-convolution network for image compression | |
JP2024511587A (ja) | ニューラルネットワークベースのピクチャ処理における補助情報の独立した配置 | |
CN114979711A (zh) | 音视频或图像分层压缩方法和装置 | |
WO2024078403A1 (zh) | 图像处理方法、装置及设备 | |
US20230254592A1 (en) | System and method for reducing transmission bandwidth in edge cloud systems | |
Li et al. | You Can Mask More For Extremely Low-Bitrate Image Compression | |
US20240323441A1 (en) | Image encoding and decoding method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |