CN117528147A - 基于云边协同架构的视频增强传输方法、系统及存储介质 - Google Patents
基于云边协同架构的视频增强传输方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117528147A CN117528147A CN202410004789.1A CN202410004789A CN117528147A CN 117528147 A CN117528147 A CN 117528147A CN 202410004789 A CN202410004789 A CN 202410004789A CN 117528147 A CN117528147 A CN 117528147A
- Authority
- CN
- China
- Prior art keywords
- roi
- region
- video
- super
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 86
- 230000015654 memory Effects 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 17
- 210000004027 cell Anatomy 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234363—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2181—Source of audio or video content, e.g. local disk arrays comprising remotely distributed storage units, e.g. when movies are replicated over a plurality of video servers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234345—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供的基于云边协同架构的视频增强传输方法、系统及存储介质,其中的方法包括通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域;通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;对传输至所述边缘端服务器的实时视频流进行解码处理;通过多ROI并行超分辨率模型对解码后的所述ROI区域进行超分辨率处理,以及,通过非ROI区域超分辨率模型对解码后的非ROI区域进行超分辨率处理,将经过超分辨处理后的视频流传输至用户端。本发明能够减少视频传输的带宽成本,并能够增强点播视频清晰度,提高用户观看体验。
Description
技术领域
本发明涉及视频增强与传输技术领域,更为具体地,涉及一种基于云边协同架构的视频增强传输方法、系统、电子装置及存储介质。
背景技术
随着5G和深度学习的发展与普及,视频增强与传输技术在过去几年有了发展迅速。视频增强算法在提高视频质量、去噪、降低失真方面有了显著的改进。通过深度学习技术,特别是卷积神经网络(CNN),研究人员开发了一些高效且有效的算法,可以对视频进行超分辨率重建、去噪处理、运动补偿等增强操作,从而提供更清晰、更细节丰富的视频内容。视频传输领域的自适应传输技术也得到了加强。通过智能的自适应比特率控制算法,视频传输可以根据网络状况动态调整视频质量,保证在不同网络条件下都能获得较好的观看体验。
总的来说,视频增强与传输技术可以提升视频内容的质量和可观性,优化网络传输效率,适应不同网络环境以及推动教育和娱乐产业的发展。随着互联网和数字化技术的不断发展,视频增强与传输技术的创新将继续对我们的日常生活和社会产生积极的影响。但是现在仍然存在一些局限性和挑战。
某些视频增强算法需要大量计算资源,尤其是针对高分辨率、高帧率的视频。这可能导致在低端设备或网络环境下处理速度缓慢,或者需要高性能的硬件加速,使得技术在某些情况下难以实现或应用。例如在大型云游戏体验中单个用户建议的下行带宽为每秒3Mb/s,对于1080P分辨率、30帧/秒的游戏体验,未压缩情况下需要18.66MB/s带宽。受4G网络100MB带宽限制,最多只能支持5个用户端同时正常使用。同时,使用公共云(如AWS)传输未压缩的云游戏视讯流数据需要每小时消耗1.26美元。大量云游戏流量可能导致骨干网拥塞,影响其他在线业务的性能。因此,压缩云游戏的传输带宽是提高游戏体验和节约成本的关键所在。
由上述背景可知,目前广泛使用的码流传输方法与系统仍有不足亟需提供一种新的视频增强传输方法与系统。
发明内容
鉴于上述问题,本发明的目的是提供一种基于云边协同架构的视频增强传输方法、系统及存储介质,以解决目前的视频增强算法与传输技术需要大量技术资源导致用户体验不好以及成本高等问题。
本发明提供一种基于云边协同架构的视频增强传输方法,其特征在于,包括:
通过ROI预测模型对云端服务器的待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理,以及,
通过非ROI区域超分辨率模型对所述解码后的非ROI区域进行超分辨率处理;
将经过超分辨处理后的视频流传输至用户端。
此外,优选的方案是,所述通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域包括:
通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息;
通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度。
此外,优选的方案是,所述通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息包括:
对所述待传输的原始视频进行标注,获取包含有感兴趣区域信息的多帧视频;
将包含有感兴趣区域信息的多帧视频输入到二维网络中,获取所述感兴趣区域信息位置信息;
其中,所述感兴趣区域信息位置信息包括所述感兴趣区域信息所在图片的x轴信息和y轴信息。
此外,优选的方案是,所述通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度,包括:
将包含有所述感兴趣区域信息和位置信息的视频帧输入到所述LSTM模型中;
采用ReLU全连接层对包含有所述感兴趣区域信息和位置信息的视频帧进行处理,获取所述视频帧的ROI区域和所述ROI区域相应的置度。
此外,优选的方案是,通过H.265编码器对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流。
此外,优选的方案是,所述通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理,包括:
所述多ROI并行超分辨率模型采用三区域质量分布,其中,以所述ROI区域为中心,
将所述解码后的ROI区域的数据拼接成特征图, 经过预处理后获取子特征图;
将所述子特征图输入ResBlocks并进行增强处理,形成中等质量特征图;
根据所述中等质量特征图,获取所述ROI区域的小特征图;
将所述小特征图经过若干ResBlocks,获取高质量的所述ROI区域的中心的特征图;
重复上述步骤,获取所述ROI区域的边缘区域的特征图,以及,所述ROI区域的混合区域的特征图;
将所述ROI区域的中心的特征图、所述ROI区域的边缘区域的特征图、所述ROI区域的混合区域的特征图相互叠加,形成预测ROI区域。
本发明还提供一种基于云边协同架构的视频增强传输系统,包括:
ROI区域获取模块,用于通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
下采样处理模块,用于通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
编码处理模块,用于对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
解码处理模块,用于对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
ROI区域超分辨率处理模块,用于通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理;
非ROI区域超分辨率处理模块,用于通过非ROI区域超分辨率模型对所述解码后的非ROI区域进行超分辨率处理;
视频流程传输用户端模块,用于将经过超分辨处理后的视频流传输至用户端。
此外,优选的方案是,所述ROI区域获取模块包括:
YOLO模型处理模块,用于通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息;
LSTM模型处理模块,用于通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度。
本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于云边协同架构的视频增强传输方法的步骤。
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时上述基于云边协同架构的视频增强传输方法。
从上面的技术方案可知,本发明提供的种基于云边协同架构的视频增强传输方法、系统、电子装置及存储介质,相对于现有技术,具有以下有益效果:
1)边缘计算中的数据只在边缘服务器和用户端设备之间交换,不再完全上传到云服务器,避免了数据泄露的风险,具有更高的安全性;
2)边缘计算更接近用户端,可以快速处理数据,实时做出判断;
3)本发明使用的边缘服务器预先将视频增强信息保存到更靠近用户端的位置,从而允许云服务器发送相对低质量的数据,并节省大量带宽处理降低了带宽成本,用户端更多的计算资源用于实时增强,在这种模式中,计算出的结果可以尽可能地达到用户最终需求的效果。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于云边协同架构的视频增强传输方法流程示意图;
图2为根据本发明实施例的基于云边协同架构的视频增强传输系统逻辑结构示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
本发明实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦用户机、厚用户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器等电子设备可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
以下将结合附图对本发明的具体实施例进行详细描述。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
实施例1
为了说明本发明提供的基于云边协同架构的视频增强传输方法,图1示出了根据本发明实施例的基于云边协同架构的视频增强传输方法流程。
如图1所示,本发明提供的基于云边协同架构的视频增强传输方法,包括:
S110:通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
S120:通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
S130:对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
S140:对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
S150:通过多ROI并行超分辨率模型对解码后的所述ROI区域进行超分辨率处理,以及,
S160:通过非ROI区域超分辨率模型对解码后的非ROI区域进行超分辨率处理;
S170:将经过超分辨处理后的视频流传输至用户。
在本发明的实施例中,云端服务器压缩码流和识别ROI区域(region ofinterest,简称ROI,感兴趣区域),然后在边缘端采用不同模型超分辨率ROI区域和非ROI区域的视频增强与传输方法。即:云服务器将码流拆帧,在帧画面进行识别ROI区域,并将原始码流进行 下采样压缩,将压缩后的视频和ROI区域坐标传输给边缘服务器。边缘服务器对来自云服务器的视频流进行解码拆帧,并使用特定于此类视频内容的超分辨率模型对帧内容的ROI区域进行超分辨率,非ROI区域超分辨率模型对于余下区域进行超分辨率然后成帧,最后将进行增强后的帧内容打包成码流视频传输给用户端。用户端解码渲染视频流,实现用户交互。
在步骤S110中,所述通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域包括:
通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息;
通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度。
其中,所述通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息包括:
对所述待传输的原始视频进行标注,获取包含有感兴趣区域信息的多帧视频;
将包含有感兴趣区域信息的多帧视频输入到二维网络中,获取所述感兴趣区域信息位置信息;
其中,所述感兴趣区域信息位置信息包括所述感兴趣区域信息所在图片的x轴信息和y轴信息。
具体地,利用YOLO模型在空间中进行目标检测和识别,通过标注获得感兴趣区域信息和位置信息,然后将包含感兴趣区域信息的多帧内容输入到二维网络中。这个二维网络有两个分支,一个输入为x轴信息,另一个输入为y轴信息。这些信息分别用于预测ROI区域的水平方向和垂直方向上的时间相关性。
YOLO模型是一种先进的单阶段目标检测框架,经历了v1~v4的演变,到目前为止已发展到结合传统压缩感知的YOLOR(You Only Learn One Representation)和不依赖锚框的YOLOX,YOLO将检测问题当做边界框以及分类概率回归的问题进行解决,大多检测算法都是靠重新运用分类器进行检测。YOLO将产生候选区的支路去掉,对图像直接进行候选区分类和边界框回归,减少对同一目标做多次检测。所有模块放在无分支的卷积神经网络中完成,实现端到端的框架。因此网络由于无分支而变得简单,相对于基于候选区域的检测速度明显变快。
YOLO的基本框架,首先调整输入图片大小到448×448,送入CNN提取特征,然后处理网络预测结果,实现端到端的目标检测。
YOLO的CNN将输入图片划分成S S网格,然后图像被送入卷积网络提取特征,由全连接层输出目标分类和边界框。其中每个单元格负责去检测那些中心点落在该网格内的目标,每个单元格会预测B个边界框及边界框的置信度。置信度包含该边界框含有目标的可能性大小和该边界框的准确度。每个边界框预测5个元素(x; y; w; h; c) ,(B 5 + C) 分别表示边界框的位置、大小与置信度。每个单元格预测个值,其中C为类别数。之后利用非极大值抑制(Non-Maximum Suppression, NMS)算法进行网络预测。
在本发明中,在Yolo的基础上提出了一个轻量级的目标检测模型,模型对CG产生足够的精度,并实时运行。该模型由13个卷积层组成,具有最大池化和跳跃连接。网络的主干是暗网,使用COCO数据集进行训练,并进行微调,以识别最重要的游戏对象。场景分析模型的输入是单帧图像。该模型输出帧中的每个识别对象,以及它的坐标,宽度和高度,以及该对象的类别/类型。
在本发明的实施例中,所述通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度,包括:
将包含有所述感兴趣区域信息和位置信息的视频帧输入到所述LSTM模型中;
采用ReLU全连接层对包含有所述感兴趣区域信息和位置信息的视频帧进行处理,获取所述视频帧的ROI区域和所述ROI区域相应的置度。
其中,ROI预测模型网络的第二部分使用简单的长短期记忆(LSTM)结构。该网络结构有128个隐藏单位,输入大小为M或N,以及游戏中的对象数量。本发明使用具有ReLU激活功能的全连接层,尺寸分别为64和32。输出是用户最可能关注的区域和相应的置度。通过以上步骤,可以在一帧视频中获得多个ROI区域。
其中,LSTM(长短期记忆网络)是一种特殊的RNN,可以捕捉长期依赖性。RNN由于梯度消失的原因只能有短期记忆,LSTM网络通过门控制将短期记忆与长期记忆结合起来,在一定程度上缓解了梯度下降的问题。
在标准的RNN网络中,重复模块链只有简单的一个双极性(tanh)层。LSTM也有这种重复模块链,但是LSTM的重复模块链和RNN的结构不同,不再只有简单的一个tanh层,而是通过特殊的形式组合在一起的四个网络层。
LSTM有三个“门”,这三个“门”都是用来保护和控制神经元的状态的。每一个“门”都是由Sigmoid神经网络层和逐点相乘器做成的。Sigmoid神经网络层通常都是由0或者1表示,主要是表示一个神经元有多少信息通过,其中,0表示所有信息全部不通过,1表示所有信息全部通过。另外,这三个“门”分别表示遗忘门、输入门和输出门。
遗忘门:这是LSTM三个“门”结构的第一个“门”,它决定了从细胞结构中应该留下一些什么信息,丢掉一些什么信息。这个“门”结构会读取上一个时刻输出的ht-1和当前时刻输入的xt,再通过一个Sigmoid神经网络层输出一个在0和1之间的数值给细胞状态,其中,0表示所有信息全部不通过,1表示所有信息全部通过。这个“门”结构的处理可以更好地帮助用户选择信息。
输入门:这个“门”结构是用来控制细胞状态的输入。同样地,这个“门”结构会读取上一个时刻输出的ht-1和当前时刻输入的xt,再通过一个Sigmoid神经网络层输出一个在0和1之间的数值给细胞状态,这个步骤决定了哪些输入的信息是否需要改变细胞状态的值。
输出门:这个“门”结构决定最终输出的是什么。同样地,这个“门”结构会通过一个Sigmoid神经网络层来决定细胞状态中哪些信息可以输出,再将细胞状态通过tanh层乘以Sigmoid神经网络层的输出信息,得到的结果就是最后输出的部分。
LSTM的一个关键思想是它可以自动识别输入中的重要模式,在本发明中,即为用户更有可能关注的区域,并学习在何时忽略不相关的信息,即可能关注区域的置信度。
在本发明中我们将每一帧划分为一个二进制的M块,其中每个块可以进一步划分为视频编码器的最小编码单元,通常设置为8 × 8像素。将LSTM网络分为两个分支;一个用于水平方向,另一个用于垂直方向。水平(垂直)分支考虑沿水平(垂直)方向的块中对象的存在,并且它预测在二进制操作(M)块中的ROI。然后将两个方向上的正项组合在一起,以一个二进制块数组的形式生成最终输出。这种划分允许灵活和快速的训练,因为将每个分支的输出空间限制为二进制元素的二进制或二进制。可以注意到,在连续的帧内,ROI块是连续和相邻的,因为用户的视觉注意力不能在短时间内在不相交的区域之间移动。
为了准确地预测ROI块,在网络结构中,帧内容和由玩家注视决定的ROI之间建立了对应关系。需要定义一个合适的损失函数,当网络覆盖正确的ROI块时给予奖励,当网络不必要地包含额外的块并增加预测面积时增加惩罚。
在本发明的实施例中,通过H.265编码器对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流。
在本发明的实施例中,所述通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理,包括:
所述多ROI并行超分辨率模型采用三区域质量分布,其中,以所述ROI区域为中心,
将所述解码后的ROI区域的数据拼接成特征图, 经过预处理后获取子特征图;
将所述子特征图输入ResBlocks并进行增强处理,形成中等质量特征图;
根据所述中等质量特征图,获取所述ROI区域的小特征图;
将所述小特征图经过若干ResBlocks,获取高质量的所述ROI区域的中心的特征图;
重复上述步骤,获取所述ROI区域的边缘区域的特征图,以及,所述ROI区域的混合区域的特征图;
将所述ROI区域的中心的特征图、所述ROI区域的边缘区域的特征图、所述ROI区域的混合区域的特征图相互叠加,形成预测ROI区域。
在本发明的实施例中,所有head将共享相同的模型深度(特征深度)和区域大小。在推断阶段,特征输入首先经过SR模型的低级卷积,确保每个分支学习到标准的底层视觉特征。在第一个区域模型的深度处,根据云端传递的ROI数据,在feature map的不同空间位置裁剪不同的子特征,每个head branch将得到代表最高质量的feature map。最后,将所有分支的特征取平均,通过Pixel Unshuffle层将特征转化为预测图像。由于不同部分共享参数,不涉及特征维度的调整,因此预测模型可以根据云端预测ROI的数量动态调整分支数量,实现不同网络环境下SR效果的调整。
其中,多ROI并行超分辨率模型采用三区域质量分布,假设ROI区域为中心,首先将输入数据拼接成特征图,并通过Conv层进行处理, 然后,将特征图经过若干ResBlock处理为低质量特征,可解释为低质量图像, 从低质量特征中裁剪出ROI周围的子特征。由于卷积操作的局部性,特征图与输出图像具有空间对应关系。因此,该子特征可视为最终输出结果中的融合区域。只有这个子特征被发送到连续的ResBlocks并增强以达到中等质量,而其余部分不再计算。最后,从中等质量的特征中裁剪出ROI区域的小特征图,再经过若干个额外的ResBlock,得到最高质量的特征图。
经过上述步骤后,得到一个较大的边缘区域的特征图,混合区域有一个中等大小的的特征图, ROI区域有一个小的高质量特征图。然后以ROI区域为中心将这三个特征叠加在一起。最后,将这个混合质量的特征图发送到最后的Conv层,得到从ROI区域到边缘质量递减的输出图像和特征。
此外, 通过只允许ROI区域通过一个深层网络来生成高分辨率的上采样,而让大多数非ROI区域通过一个薄网络来生成相对低分辨率的输出。
在本发明的实施例中,边缘服务器预先将视频增强信息保存到更靠近用户端的位置,从而允许边缘服务器发送相对低质量的数据,并节省大量带宽处理降低了带宽成本,用户端更多的计算资源用于实时增强,在这种模式中,计算出的结果可以尽可能地达到用户最终需求的效果;对于视频传输等延迟要求较高的场景,边缘计算更接近数据源,可以快速处理数据,实时做出判断。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例2
与上述方法相对应,本发明还提供一种基于云边协同架构的视频增强传输系统,图2示出了根据本发明实施例的基于云边协同架构的视频增强传输系统逻辑结构。
如图2所示,本发明提供一种基于云边协同架构的视频增强传输系统,包括:ROI区域获取模块210,用于通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
下采样处理模块220,用于通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
编码处理模块230,用于对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
解码处理模块240,用于对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
ROI区域超分辨率处理模块250,用于通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理;
非ROI区域超分辨率处理模块260,用于通过非ROI区域超分辨率模型对所述解码后的非ROI区域进行超分辨率处理;
视频流程传输用户端模块270,用于将经过超分辨处理后的视频流传输至用户端。
其中,所述ROI区域获取模块210包括:
YOLO模型处理模块,用于通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息;
LSTM模型处理模块,用于通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度。
从上面的技术方案可知,通过边缘服务器预先将视频增强信息保存到更靠近用户端的位置,从而允许边缘服务器发送相对低质量的数据,并节省大量带宽处理降低了带宽成本,用户端更多的计算资源用于实时增强,在这种模式中,计算出的结果可以尽可能地达到用户最终需求的效果;对于视频传输等延迟要求较高的场景,边缘计算更接近数据源,可以快速处理数据,实时做出判断。
实施例3
本发明实现基于云边协同架构的视频增强传输方法的电子设备的结构可以包括处理器、存储器和总线,还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序,如基于云边协同架构的视频增强传输程序。
其中,所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器不仅可以用于存储安装于电子设备的应用软件及各类数据,例如数据稽核程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。存储器可以存储内容,该内容可由电子设备显示或被发送到其他设备(例如,耳机)以由其他设备来显示或播放。存储器还可以存储从其他设备接收的内容。该来自其他设备的内容可由电子设备显示、播放、或使用,以执行任何必要的可由电子设备和/或无线接入点中的计算机处理器或其他组件实现的任务或操作。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如数据稽核程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。电子还可包括芯片组(未示出),其用于控制一个或多个处理器与用户设备的其他组件中的一个或多个之间的通信。在特定的实施例中,电子设备可基于Intel®架构或ARM®架构,并且处理器和芯片集可来自Intel®处理器和芯片集家族。该一个或多个处理器104还可包括一个或多个专用集成电路(ASIC)或专用标准产品(ASSP),其用于处理特定的数据处理功能或任务。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
此外,网络和I/O接口可包括一个或多个通信接口或网络接口设备,以提供经由网络(未示出)在电子设备和其他设备(例如,网络服务器)之间的数据传输。通信接口可包括但不限于:人体区域网络(BAN)、个人区域网络(PAN)、有线局域网(LAN)、无线局域网(WLAN)、无线广域网(WWAN)、等等。用户设备可以经由有线连接耦合到网络。然而,无线系统接口可包括硬件或软件以广播和接收消息,其使用Wi-Fi直连标准和/或IEEE 802.11无线标准、蓝牙标准、蓝牙低耗能标准、Wi-Gig标准、和/或任何其他无线标准和/或它们的组合。
无线系统可包括发射器和接收器或能够在由IEEE 802.11无线标准所支配的操作频率的广泛范围内操作的收发器。通信接口可以利用声波、射频、光学、或其他信号来在电子设备与其他设备(诸如接入点、主机、服务器、路由器、读取设备、和类似物)之间交换数据。网络可包括但不限于:因特网、专用网络、虚拟专用网络、无线广域网、局域网、城域网、电话网络、等等。
显示器可包括但不限于液晶显示器、发光二极管显示器、或由在美国马萨诸塞州剑桥城的E Ink公司(E Ink Corp. of Cambridge, Massachusetts)所制造的E-InkTM显示器。该显示器可用于将内容以文本、图像、或视频的形式显示给用户。在特定的实例中,该显示器还可以作为触控屏显示器操作,其可以使得用户能够藉由使用某些手指或手势来触摸屏幕以启动命令或操作。
所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器存储的基于云边协同架构的视频增强传输程序是多个指令的组合,在所述处理器中运行时,可以实现:
通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
通过多ROI并行超分辨率模型对解码后的所述ROI区域进行超分辨率处理,以及,
通过非ROI区域超分辨率模型对解码后的非ROI区域进行超分辨率处理,将经过超分辨处理后的视频流传输至用户端。
具体地,所述处理器对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明的实施例中,计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于云边协同架构的视频增强传输方法的步骤,具体方法如下:
通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
通过多ROI并行超分辨率模型对解码后的所述ROI区域进行超分辨率处理,以及,
通过非ROI区域超分辨率模型对解码后的非ROI区域进行超分辨率处理,将经过超分辨处理后的视频流传输至用户端。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其他可编程数据处理装置上以产生特定机器,使得在计算机、处理器、或其他可编程数据处理装置上执行的指令创建用于实现在流程图方框或多个方框中所指定的一个或多个功能的构件。这些计算机程序产品还可以存储在计算机可读存储器中,其可以指导计算机或其他可编程数据处理装置以特定的方式运行,使得存储在计算机可读存储器中的指令产生制品,该制品包括实现在流程图的方框或多个方框中指定的一个或多个功能的指令构件。例如,本发明的实施例可提供计算机程序产品,其包括其中包含有计算机可读程序代码或程序指令的计算机可用介质,所述计算机可读程序代码适于被执行以实现在流程图方框或多个方框中指定的一个或多个功能。计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上,以致使一系列操作元素或步骤在计算机或其他可编程装置上执行易产生计算机实现的程序,使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图方框或多个方框中指定的功能的元素或步骤。
相应地,框图或流程图中的方框支持用以执行指定功能的构件的组合、用于执行指定功能的元素或步骤与用于执行指定功能的程序指令构件的组合。还应当理解的是,框图和流程图中的每个方框以及框图和流程图中的方框的组合可由执行指定功能、元素或步骤的专用的基于硬件的计算机系统实现,或由专用硬件或计算机指令的组合实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
Claims (10)
1.一种基于云边协同架构的视频增强传输方法,其特征在于,包括:
通过ROI预测模型对云端服务器的待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理,以及,
通过非ROI区域超分辨率模型对所述解码后的非ROI区域进行超分辨率处理;
将经过超分辨处理后的视频流传输至用户端。
2.根据权利要求1所述的基于云边协同架构的视频增强传输方法,其特征在于,所述通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域包括:
通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息;
通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度。
3.根据权利要求2所述的基于云边协同架构的视频增强传输方法,其特征在于,所述通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息包括:
对所述待传输的原始视频进行标注,获取包含有感兴趣区域信息的多帧视频;
将包含有感兴趣区域信息的多帧视频输入到二维网络中,获取所述感兴趣区域信息位置信息;
其中,所述感兴趣区域信息位置信息包括所述感兴趣区域信息所在图片的x轴信息和y轴信息。
4.根据权利要求3所述基于云边协同架构的视频增强传输方法,其特征在于,所述通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度,包括:
将包含有所述感兴趣区域信息和位置信息的视频帧输入到所述LSTM模型中;
采用ReLU全连接层对包含有所述感兴趣区域信息和位置信息的视频帧进行处理,获取所述视频帧的ROI区域和所述ROI区域相应的置度。
5.根据权利要求1所述基于云边协同架构的视频增强传输方法,其特征在于,通过H.265编码器对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流。
6.根据权利要求1所述基于云边协同架构的视频增强传输方法,其特征在于,所述通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理,包括:
所述多ROI并行超分辨率模型采用三区域质量分布,其中,以所述ROI区域为中心,
将所述解码后的ROI区域的数据拼接成特征图, 经过预处理后获取子特征图;
将所述子特征图输入ResBlocks并进行增强处理,形成中等质量特征图;
根据所述中等质量特征图,获取所述ROI区域的小特征图;
将所述小特征图经过若干ResBlocks,获取高质量的所述ROI区域的中心的特征图;
重复上述步骤,获取所述ROI区域的边缘区域的特征图,以及,所述ROI区域的混合区域的特征图;
将所述ROI区域的中心的特征图、所述ROI区域的边缘区域的特征图、所述ROI区域的混合区域的特征图相互叠加,形成预测ROI区域。
7.一种基于云边协同架构的视频增强传输系统,其特征在于,包括:
ROI区域获取模块,用于通过ROI预测模型对云端服务器待传输的原始视频进行ROI区域的识别,获取ROI区域,其中,所述待传输的原始视频包括所述ROI区域和非ROI区域;
下采样处理模块,用于通过下采样器对所述待传输的原始视频进行下采样处理,生成压缩帧;
编码处理模块,用于对所述压缩帧、所述ROI区域进行编码处理,生成实时视频流,并传输至边缘端服务器;
解码处理模块,用于对传输至所述边缘端服务器的实时视频流进行解码处理,获取解码后的ROI区域和解码后的非ROI区域;
ROI区域超分辨率处理模块,用于通过多ROI并行超分辨率模型对所述解码后的ROI区域进行超分辨率处理;
非ROI区域超分辨率处理模块,用于通过非ROI区域超分辨率模型对所述解码后的非ROI区域进行超分辨率处理;
视频流程传输用户端模块,用于将经过超分辨处理后的视频流传输至用户端。
8.根据权利要求7所述基于云边协同架构的视频增强传输系统,其特征在于,所述ROI区域获取模块包括:
YOLO模型处理模块,用于通过YOLO模型对所述待传输的原始视频进行目标检测和识别,获取感兴趣区域信息和位置信息;
LSTM模型处理模块,用于通过LSTM模型对所述感兴趣区域信息和位置信息处理,获取ROI区域和所述ROI区域相应的置度。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的基于云边协同架构的视频增强传输方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的基于云边协同架构的视频增强传输方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004789.1A CN117528147A (zh) | 2024-01-03 | 2024-01-03 | 基于云边协同架构的视频增强传输方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004789.1A CN117528147A (zh) | 2024-01-03 | 2024-01-03 | 基于云边协同架构的视频增强传输方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117528147A true CN117528147A (zh) | 2024-02-06 |
Family
ID=89766746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410004789.1A Pending CN117528147A (zh) | 2024-01-03 | 2024-01-03 | 基于云边协同架构的视频增强传输方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117528147A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405296A (zh) * | 2020-03-11 | 2020-07-10 | 北京邮电大学 | 视频数据传输方法、视频数据处理方法、装置及电子设备 |
US20220318950A1 (en) * | 2020-04-30 | 2022-10-06 | Boe Technology Group Co., Ltd. | Video enhancement method and apparatus, and electronic device and storage medium |
US20220374714A1 (en) * | 2021-05-19 | 2022-11-24 | Nvidia Corporation | Real time enhancement for streaming content |
CN115633189A (zh) * | 2022-10-10 | 2023-01-20 | 南开大学 | 基于svc和边缘计算的在线教学文本视频超分方法 |
CN115633143A (zh) * | 2022-10-21 | 2023-01-20 | 天津大学 | 一种边端协同超分的自适应视频流传输系统 |
CN116033189A (zh) * | 2023-03-31 | 2023-04-28 | 卓望数码技术(深圳)有限公司 | 基于云边协同的直播互动视频分区智能控制方法和系统 |
-
2024
- 2024-01-03 CN CN202410004789.1A patent/CN117528147A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111405296A (zh) * | 2020-03-11 | 2020-07-10 | 北京邮电大学 | 视频数据传输方法、视频数据处理方法、装置及电子设备 |
US20220318950A1 (en) * | 2020-04-30 | 2022-10-06 | Boe Technology Group Co., Ltd. | Video enhancement method and apparatus, and electronic device and storage medium |
US20220374714A1 (en) * | 2021-05-19 | 2022-11-24 | Nvidia Corporation | Real time enhancement for streaming content |
CN115633189A (zh) * | 2022-10-10 | 2023-01-20 | 南开大学 | 基于svc和边缘计算的在线教学文本视频超分方法 |
CN115633143A (zh) * | 2022-10-21 | 2023-01-20 | 天津大学 | 一种边端协同超分的自适应视频流传输系统 |
CN116033189A (zh) * | 2023-03-31 | 2023-04-28 | 卓望数码技术(深圳)有限公司 | 基于云边协同的直播互动视频分区智能控制方法和系统 |
Non-Patent Citations (1)
Title |
---|
TANG XINKUN 等: "A Cloud-Edge Collaborative Gaming Framework Using AI-Powered Foveated Rendering and Super Resolution", 《INTERNATIONAL JOURNAL ON SEMANTIC WEB AND INFORMATION SYSTEMS 》, vol. 19, no. 1, 31 December 2023 (2023-12-31), pages 5 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112104879B (zh) | 一种视频编码方法、装置、电子设备及存储介质 | |
US10242462B2 (en) | Rate control bit allocation for video streaming based on an attention area of a gamer | |
US8392596B2 (en) | Methods for detecting and handling video and video-like content in remote display system | |
US20220046261A1 (en) | Encoding method and apparatus for screen sharing, storage medium, and electronic device | |
US20100111410A1 (en) | Remote computing platforms providing high-fidelity display and interactivity for clients | |
EP3836555A1 (en) | Video processing method and apparatus, electronic device, and computer-readable medium | |
CN102668495A (zh) | 低延时传输协议的方法和系统 | |
CN110166796B (zh) | 视频帧的处理方法、装置、计算机可读介质及电子设备 | |
CN112069977A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN111643901B (zh) | 用于云游戏界面智能渲染的方法和装置 | |
US11704813B2 (en) | Visual search method, visual search device and electrical device | |
CN116033189B (zh) | 基于云边协同的直播互动视频分区智能控制方法和系统 | |
CN113191945A (zh) | 一种面向异构平台的高能效图像超分辨率系统及其方法 | |
CN117528147A (zh) | 基于云边协同架构的视频增强传输方法、系统及存储介质 | |
Tang et al. | A cloud-edge collaborative gaming framework using AI-Powered foveated rendering and super resolution | |
Chen et al. | Lightweight Neural Network‐Based Viewport Prediction for Live VR Streaming in Wireless Video Sensor Network | |
CN109120979A (zh) | 视频增强控制方法、装置以及电子设备 | |
CN113409199A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
US20230336799A1 (en) | Video streaming scaling using virtual resolution adjustment | |
CN118055151B (zh) | 一种云桌面gpu直通虚拟化重定向管理系统及方法 | |
US20230254500A1 (en) | Smart packet pacing for video frame streaming | |
CN118101862B (zh) | 图像处理方法、装置、设备及存储介质 | |
Fu | Embedded Image and Video Coding Algorithm Based on Adaptive Filtering Equation | |
US20230085156A1 (en) | Entropy-based pre-filtering using neural networks for streaming applications | |
US20230115371A1 (en) | Efficient vision perception |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |