CN113874915A - 视频生成设备及其方法 - Google Patents
视频生成设备及其方法 Download PDFInfo
- Publication number
- CN113874915A CN113874915A CN201980093280.6A CN201980093280A CN113874915A CN 113874915 A CN113874915 A CN 113874915A CN 201980093280 A CN201980093280 A CN 201980093280A CN 113874915 A CN113874915 A CN 113874915A
- Authority
- CN
- China
- Prior art keywords
- video
- pyramid
- level
- video frame
- laplacian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2402—Monitoring of the downstream path of the transmission network, e.g. bandwidth available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/40—Tree coding, e.g. quadtree, octree
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
视频生成设备获取360°视频帧的拉普拉斯金字塔层级;提升获取到的每个拉普拉斯金字塔层级,以便针对每个360°视频帧恢复一组相应的高斯金字塔层级;针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从所述恢复后的一组高斯金字塔层级中确定一个恢复后的高斯金字塔层级;通过汇总针对每个360°视频帧中的每个像素所确定的所述恢复后的高斯金字塔层级,合成具有异构空间质量的360°视频。因此,在用户观看360°视频时可以降低码率,同时为用户提供高视频质量。此外,本发明还涉及一种包括这种视频生成设备的下载代理、相应的方法以及计算机程序。
Description
技术领域
本发明涉及一种视频生成设备和包括这种视频生成设备的下载代理。此外,本发明还涉及一种相应的方法以及计算机程序。
背景技术
360°(或360度)视频,也称为全向视频,是包含场景全向视图的、超高清(ultrahigh definition,UHD)分辨率的球面视频,以允许用户可以自由地在视频中定位位置。由于360°视频的大分辨率和大帧率,视频流传输是一项具有挑战性的任务。这些视频以4k、8k、12k或高达24k的分辨率进行编码,需要高帧率来匹配HMD刷新率,以便防止晕动症。然而,基于用户头部移动和头戴式显示器(head-mounted display,HMD)的平均视场角(fieldof view,FoV)为120°,通过HMD观看360°视频的用户在任何时刻都只能看到整个360°视频画面的一部分(平均为1/3)。因此导致浪费约66%的带宽。另外,为了显示整个视频中的4k(3840x2160)的FoV视频,该视频流至少应为12k(11520x6480)视频。例如,对于采用高效视频编码(high efficiency video coding,HEVC)编解码器进行编码的60帧每秒(framesper second,fps)的8k视频,码率为100Mbps。但是对于60fps的12k 360°视频,需要418Mbps或以上的带宽才能带来高级的虚拟现实(virtual reality,VR)体验以及提供完整的高质量360°视频画面,尽管其中的大多数像素画面用户从未观看过。
为了降低360°视频传送时的带宽需求并减少相关带宽浪费,引入了视口自适应流媒体技术,以便传统的速率自适应流媒体技术(DASH)能够自适应用户的头部朝向,从而在视口区域,提供最高质量的HMD异构视频,而在其他区域,例如,在不太可能被看到的区域,提供较低质量的HMD异构视频。现有异构视频表示的缺点在于,它们只适用于视频点播。因此,现有异构视频无法支持360°视频直播,例如,无法满足通过5G网络进行视频会议的需求,比如,不能在低带宽下为用户提供高质量的视频,也不能在生成和录制360°直播视频时实现低时延的实时视频制作和传送。
发明内容
本发明实施例的目的是提供一种方案,以缓和或解决传统方案的缺点和问题。
本发明实施例的另一个目的是提供一种方案,以实现比传统方案更高的带宽利用率。
前述和其他目的通过独立权利要求的主题来实现。本发明的其它有利实施例可以参考从属权利要求。
根据本发明的第一方面,前述以及其它目的通过视频生成设备来实现,所述视频生成设备用于:
获取360°视频帧的拉普拉斯金字塔层级;
提升获取到的每个拉普拉斯金字塔层级,以便针对每个360°视频帧恢复一组相应的高斯金字塔层级;
针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从所述恢复后的一组高斯金字塔层级中确定一个恢复后的高斯金字塔层级;
通过汇总针对每个360°视频帧中的每个像素所确定的所述恢复后的高斯金字塔层级,合成具有异构空间质量的360°视频。
视频可以理解为视频帧序列。
可以理解的是,所述视频生成设备可以包括用于执行根据本发明实施例的步骤的处理电路。所述处理电路可以集成在单个设备中,也可以分布在两个或两个以上单独的设备中。
此外,本公开中的视口可以理解为客户端用户的当前视口,用于接收根据本发明实施例生成的具有异构空间质量的360°视频。
第一方面所述的视频生成设备的优点在于降低了360°视频所需的码率(或者相当于提高了带宽利用率),同时在观看360°视频时为用户提供高视频质量。此外,可以减少每时每刻观看平均仅3/1的360°视频画面时却仍要提供高质量的整个视频画面而造成的带宽浪费。此外,通过第一方面所述的视频生成设备,可以降低传送高质量360°视频的传输时延。在制作异构360°视频时,视口区域采用可用带宽允许的高码率,而在其他区域通过拉普拉斯金字塔层级采用较低码率,从而减少带宽浪费,提高编码速度,降低处理时延。通过在制作异构360°视频时,视口采用可用带宽允许的高码率,也有利于在相同码率预算下为异构360°视频实现比现有最先进方案更高的视口画面质量。第一方面所述的视频生成设备生成视频的质量甚至会随着码率预算的增加而提高。
在第一方面所述的视频生成设备的一种实施形式中,所述视频生成设备还用于:
根据所述码率预算和所述视口区域,为直播制作所述具有异构空间质量的360°合成视频。
所述实施形式的优点在于,可以根据可用码率和当前视口区域调整异构360°视频的合成。例如,如果网络带宽较低,可以通过在视口区域以外的区域生成非常低质量的360°视频内容来降低360°视频的码率。或者,如果带宽较大,则可以通过给视口区域以外的区域分配更高质量来合成360°视频,即,使视频总码率适合所述码率预算。通过优先保证视口质量来优化网络带宽利用率。另外,每当视口变化时,异构视频都会进行重构。计算得到的高斯金字塔层级可以复用,为一组客户端合成具有不同码率预算和视口区域的异构视频。
在第一方面所述的视频生成设备的一种实施形式中,所述提升获取到的每个拉普拉斯金字塔层级包括:
从层级开始,将获取到的每个拉普拉斯金字塔层级提升至下一层级的分辨率,并在所述提升后的层级上加上层级,以便针对每个360°视频帧恢复相应的高斯金字塔层级,其中,i表示当前层级,N表示高斯金字塔层级的总数。
所述实施形式的优点在于,对拉普拉斯金字塔层级而非高斯金字塔层级进行编码,并从接收到的拉普拉斯金字塔中恢复高斯金字塔,从而提高了编码速度,降低了金字塔层级传输所需的带宽,整体上降低了端到端时延。只能针对每个视频分片计算一次提升后的金字塔,并发送到下载代理,这样可以复用以根据客户端的视口位置和码率预算合成各种360°视频表示。
在第一方面所述的视频生成设备的一种实施形式中,所述视频生成设备还用于:
根据所述提升后的拉普拉斯层级的码率之和,计算每个提升后的高斯金字塔层级的码率。
所述计算出的码率可以是每个提升后的高斯金字塔层级的码率的近似值。
所述实施形式的优点在于,可以避免对拉普拉斯金字塔层级进行编码,进一步缩短了视频处理时间。金字塔层级分配算法需要使用所述提升后的编码拉普拉斯金字塔层级的码率,以便将金字塔层级映射到360°视频中的感兴趣区域。
在第一方面所述的视频生成设备的一种实施形式中,所述金字塔层级分配流程包括:
(a)根据所述提升后的高斯金字塔层级的码率,计算每个提升后的高斯金字塔层级的表面码率;
(b)测量360°视频帧的视口区域的球面面积;
(c)将所述提升后的高斯金字塔层级的表面码率乘以所述球面面积,得到为所述视口区域分配最优金字塔层级所需的码率;
(d)将所述视口区域映射到不超过所述码率预算的最高质量金字塔层级。
所述实施形式的优点在于,每次视口位置改变时都可以执行该过程,以便针对新视口位置和码率预算,使用同一提升后的金字塔层级重建视频表示。所述实施形式优先保证了视口区域的画面质量。
在第一方面所述的视频生成设备的一种实施形式中,所述金字塔层级分配流程还包括:
根据所述360°视频帧中每个感兴趣区域的优先级,针对所述感兴趣区域重复步骤(a)至(d)。
所述实施形式的优点在于,优先保证视口区域的质量,并且将可能的最高金字塔层级分配给视口区域,以便整个合成视频的码率低于所述码率预算。降低了视口以外区域的质量的优先级,因为客户端不太可能请求视口以外的视频内容,至少在很短的时间内不会。所述实施形式通过将视口以外区域映射到恢复后的高斯金字塔的较低层级来降低这些区域的优先级。较低高斯金字塔层级对应的视频信息足以应对如下所述的突然的头部移动。如果客户端用户突然快速移动头部,在网络响应客户端的视口变更请求前,用户看到的是为视口以外请求区域分配的高斯金字塔层级对应的视频内容。
在第一方面所述的视频生成设备的一种实施形式中,所述合成具有异构空间质量的360°视频包括:
根据下述公式汇总针对每个360°视频帧中的每个像素所确定的最优恢复后的高斯金字塔层级:
其中,OG为对应于质量分布q(·)的具有异构空间质量的输出视频,为提升后的拉普拉斯金字塔层级i,B为码率预算,为针对每个360°视频帧中的每个像素,将质量分布q(·)映射到给定码率预算B的拉普拉斯金字塔的最优层级的映射函数,(x,y)为360°视频帧中像素的坐标。
所述实施形式的优点在于,可以控制360°视频的像素级质量合成,即在给定视口位置和整体码率预算的情况下,为每个视频帧中的每个像素确定最优的拉普拉斯金字塔层级。因此,与现有最先进的方案(相同码率)相比,提高了给定码率预算的视口内的视频质量,并且代理之间传输360°视频所需的带宽也低于传输原始视频所需的带宽。
根据本发明的第二方面,前述以及其它目的通过通信系统的下载代理来实现,所述下载代理包括本发明实施例所述的视频生成设备。
所述下载代理可以充当为通信系统中一个或多个客户端提供服务的服务器。
根据本发明的第三方面,前述以及其它目的通过用于视频生成设备的方法来实现,所述方法包括:
获取360°视频帧的拉普拉斯金字塔层级;
提升获取到的每个拉普拉斯金字塔层级,以便针对每个360°视频帧恢复一组相应的高斯金字塔层级;
针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从相应的一组高斯金字塔层级中确定一个恢复后的高斯金字塔层级;
通过汇总针对每个360°视频帧中的每个像素的所述恢复后的高斯金字塔层级,合成具有异构空间质量的360°视频。
第三方面所述的方法可以扩展为实施形式,对应于第一方面所述的视频生成设备的实施形式。因此,所述方法的实施形式包括所述视频生成设备的相应实施形式的特征。
第三方面所述的方法的优点与第一方面所述的视频生成设备的相应实施形式的优点相同。
本发明还涉及一种计算机程序,其特征在于,包括程序代码。当所述程序代码由至少一个处理器运行时,使得所述至少一个处理器执行本发明实施例所述的任意方法。此处,本发明还涉及一种计算机程序产品,包括计算机可读介质和所述计算机程序,其中所述计算机程序包括在所述计算机可读介质中,所述计算机可读介质包括以下一种或多种:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、闪存、电可擦可编程只读存储器(ElectricallyEPROM,EEPROM)和硬盘驱动器。
通过以下详细描述,本发明实施例的进一步应用和优点是显而易见的。
附图说明
附图意在阐明和阐释本发明的不同实施例,其中:
图1示出了根据本发明实施例的视频生成设备。
图2示出了根据本发明实施例的方法。
图3示出了根据本发明实施例的下载代理。
图4示出了根据本发明实施例的上传代理和下载代理。
图5示出了根据本发明实施例生成拉普拉斯金字塔。
图6示出了根据本发明实施例的基于拉普拉斯的递推视频分解。
图7示出了根据本发明实施例的金字塔层级分配流程的流程图。
图8示出了本发明实施例的性能结果。
图9示出了本发明实施例的进一步的性能结果。
具体实施方式
现有异构视频质量生成方案是指分块(tiling)和偏移投影。分块的思路是在空间上将视频帧切割成不重叠的像素块,称为“块”(tiles),并对它们进行独立编码。然后,客户端可以根据块的位置和当前的质量-区域输入规范分别请求每个编码块的质量。然而,尽管分块技术得到了广泛应用并且很灵活,但会导致码率开销和压缩效率损失。在偏移投影中,通过原始球面采样的失真来生成异构视频,从而在焦点方向的附近映射较多像素(即提高360°视频的质量),在远离焦点方向的区域映射较少像素(即降低质量)。失真量受偏移幅度控制,意味着离焦点越远,质量失真越大。此处,偏移幅度越大,反方向的质量失真越大。偏移投影还通过降低视频分辨率来降低视频带宽,这可能导致在感兴趣区域之外生成低质量的视频内容。然而,在需要降低网络带宽的情况下,通过偏移投影来降低视频分辨率可能导致在感兴趣区域之外生成非常低质量的视频内容。这意味着在这种情况下,偏移投影可能无法很好地应对突然的头部移动。发明人已经认识到,无论分块还是偏移投影,都不能既满足优质用户体验的要求,又满足降低VR 360°视频传送带宽的要求。为此,本文提出了一种能够满足上述要求的视频生成设备及相应的方法。
图1示出了根据本发明实施例的视频生成设备100。在图1所示的实施例中,视频生成设备100包括至少一个处理器内核或处理电路102,处理器内核或处理电路102可以通过本领域已知的耦合/通信装置106耦合到内部或外部存储器104。视频生成设备100还可以包括多个处理器内核或处理电路102。存储器104可以存储程序代码,所述程序代码被执行时,使得视频生成设备100的处理器内核或处理电路102执行本文描述的功能和动作。视频生成设备100还包括输入装置108和输出装置110,均通过本领域已知的耦合/通信装置106耦合到处理器内核或处理电路102。本发明中,视频生成设备100用于执行某些功能或动作可以理解为,视频生成设备100包括用于执行所述功能或动作的合适的装置,例如,处理器内核或处理电路102。处理器内核或处理电路102可以专用于执行根据本发明的方法或流程。然而,在实施例中,视频生成设备100的处理器内核或处理电路102可以与另一设备共享。视频生成设备100可以是独立设备,也可以是另一设备的一部分,如图3所示的下载代理。此外,处理电路可以包括硬件和软件。硬件可以包括模拟或数字电路,或同时包括模拟和数字电路。在一个实施例中,处理电路包括一个或多个处理器以及连接到所述一个或多个处理器的非瞬时性存储器。非瞬时性存储器可以携带可执行程序代码,所述可执行程序代码被一个或多个处理器执行时,使得视频处理设备100执行本文描述的操作或方法。
图1中的视频生成设备100用于获取360°视频帧的拉普拉斯金字塔层级。视频生成设备100还用于提升获取到的每个拉普拉斯金字塔层级,以便针对每个360°视频帧恢复一组相应的高斯金字塔层级。视频生成设备100还用于针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从恢复后的一组高斯金字塔层级中确定一个恢复后的高斯金字塔层级。视频生成设备100还用于通过汇总针对每个360°视频帧中的每个像素所确定的恢复后的高斯金字塔层级,合成具有异构空间质量的360°视频。
图2示出了可在图1所示的视频生成设备100中执行的相应方法200的流程图。方法200包括获取(202)360°视频帧的拉普拉斯金字塔层级。方法200还包括提升获取到的每个拉普拉斯金字塔层级(204),以便针对每个360°视频帧恢复一组相应的高斯金字塔层级。方法200还包括:针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从相应的一组高斯金字塔层级中确定(206)一个恢复后的高斯金字塔层级。方法200还包括通过汇总针对每个360°视频帧中的每个像素的所述恢复后的高斯金字塔层级,合成(208)具有异构空间质量的360°视频。
高斯金字塔是图像序列,即原始图像的多尺度表示,其中,图像在分辨率上按照因子2进行模糊和缩小,以获得下一层(即更高的高斯金字塔层级)的输入图像。高斯金字塔的层数代表了视频质量在N+1多尺度层级上的降低。另一方面,利用每两个连续的高斯金字塔层级之间的差值计算出拉普拉斯金字塔,先提升较低的金字塔层级gN-i+1,再从较高的层级gN-i中减去较低的层级。拉普拉斯金字塔层级只包含边缘和细纹理信息,因此每个拉普拉斯层级都比相应的高斯层级得到了更好的压缩。同时,高斯金字塔和拉普拉斯金字塔的每一层级都比前一层级得到了更好的压缩。关于高斯金字塔和拉普拉斯金字塔的分解,生成拉普拉斯金字塔的时间比生成具体相同层数的高斯金字塔的时间要长,因为它包括一个额外的操作,即连续的高斯金字塔层级之间进行相减。但是,相较于高斯金字塔,拉普拉斯金字塔可以更好地进行压缩和节省更多带宽,这对360°视频的传送非常重要。
根据本发明实施例,视频生成设备100用于:
根据码率预算和视口区域,为直播制作具有异构空间质量的360°合成视频。本文中的码率预算可以定义为360°合成视频适应可用网络带宽的最大码率,即360°合成视频可以不中断地通过网络传送到客户端。视口区域可以定义为整个360°视频画面的一小部分,这部分在HMD设备上实际显示出来,对应客户端当前的FoV。
在实施例中,视频生成设备100可以包含在下载代理300中,例如,图3所示的下载代理300。因此,视频生成设备100可以是功能模块,即下载代理300的视频处理设备。如进一步所示,下载代理300可以包括输入装置302和输出装置304。下载代理300还包括其他通信能力(图3中未示出),以便下载代理300可以在通信系统中进行通信。在实施例中,下载代理300可以充当服务器,为一个或多个客户端处理根据本发明实施例生成的360°视频。
图4示出了通信系统500中的上传代理400和下载代理300之间的通信,该通信系统可以为第三代合作伙伴计划(3GPP)系统,例如,长期演进(long term evolution,LTE)系统或5G新空口(new radio,NR)系统或任何其它合适的通信系统。图4还示出了下载代理300中进行的视频处理以及将编码后的合成视频传输给客户端600。在实施例中,所提出的方案可以包括以下步骤:在上传代理400中生成金字塔;在下载代理300中进行金字塔提升;在下载代理300中执行金字塔层级分配流程;在下载代理300中合成具有异构空间质量的视频表示。
因此,结合图4,在用户设备(user equipment,UE)处捕获360°视频,并在编码后通过5G移动网络发送到上传代理400,上传代理400可以位于靠近UE的移动边缘计算(mobileedge computing,MEC)服务器中。在上传代理400中,对编码视频进行解码,以拉普拉斯金字塔分解的方式分解成多尺度视频,并重新编码。值得注意的是,生成的多尺度视频比原始视频尺寸更小,并且可以通过5G移动网络并行发送,从而降低了传输时延。因此,在步骤I中,是将编码后的360°视频输入到上传代理400,即先对其进行解码,再将其作为生成金字塔的输入。在上传代理400生成金字塔的步骤中,首先创建高斯金字塔,然后根据高斯金字塔后续层级之间的差值创建拉普拉斯金字塔层级。在所述生成金字塔的步骤之后,将拉普拉斯金字塔层级传输到下载代理300,下载代理300可以位于靠近客户端600的MEC服务器中。因此,上传代理400的输出和下载代理300的输入是编码后的拉普拉斯金字塔层级。
图4中的下载代理300包括三个功能块,即金字塔提升块320、金字塔层级分配流程块322和视频合成块324。在下载代理300中,首先对接收到的编码后的拉普拉斯金字塔层级进行解码,然后将解码后的拉普拉斯金字塔层级作为在金字塔提升块320中进行金字塔提升的输入。金字塔提升块320的输出和金字塔层级分配流程块322的输入是提升后的高斯金字塔,其包括所有恢复后的高斯金字塔层级。金字塔层级分配流程块322的输出和视频合成块324的输入是从360°视频中提取的图像中的每个像素在给定可用码率预算和当前视口下的最优拉普拉斯金字塔层级。视频合成块324的输出是由金字塔层级分配流程确定的像素合成的异构性360°视频。然后,在步骤III中,对合成的异构性360°视频进行编码,并将该视频从下载代理300发送到客户端600。在下载代理300中,根据可用的码率预算以及客户端600发送的客户端600的用户头部位置信息来生成/创建具有异构性的视频。因此,在步骤IV中,通过反馈信令,定期从客户端600向下载代理反馈更新后的当前视口。当用户移动头部时,客户端600例如通过反馈信令将更新的视口位置发送到视频传送反方向上的下载代理300。上述反馈信令可以根据传统方案实现。
一旦异构视频在下载代理300中合成,该视频即被编码并通过网络发送到客户端600及其HMD,该HMD提取视口并将视频显示给客户端600的用户。应注意,客户端600定期向下载代理300发送其更新的视口位置。本文中的客户端600可以是,例如终端用户或是终端用户的移动设备。
在以下内容中,将更详细地描述金字塔提升、金字塔层级分配流程以及360°视频合成的步骤,以便对本发明实施例有更深入的理解。
金字塔生成
拉普拉斯金字塔的每一层级都是根据图5所示的高斯金字塔的后续层级之间的差值所创建的。为了构造拉普拉斯层级li,先提升较低的高斯层级gN-i+1,再从较高的高斯层级gN-i中减去较低的高斯层级。实际上,计算出后续高斯层级之间的绝对差,即li=|G(N-i+1)-g(N-i)|,其中,i=N:l(0)=G(N)。
拉普拉斯层级包含非零值和边缘的细纹理,因此,拉普拉斯金字塔的压缩效率比高斯金字塔更高。这也意味着,每个拉普拉斯层级比相应的高斯层级进行了更好地编码,每个拉普拉斯层级比它的前一层级得到了更好的压缩。
金字塔提升
一旦计算得到拉普拉斯金字塔,即是从li层级开始将每个拉普拉斯层级li的分辨率提升到下一拉普拉斯层级li+1的分辨率一次,并在提升的层级上加上li+1层级,如图6所示。重复该过程,直到期望的最优层级,该层级在下一步的金字塔层级分配流程中确定。这样,可以通过拉普拉斯分解重构具有小细节损失的图像,即高斯金字塔层级。换句话说,提升包括从层级开始,将获取到的每个拉普拉斯金字塔层级提升至下一层级的分辨率,并在所述提升后的层级上加上层级,以便针对每个360°视频帧恢复相应的高斯金字塔层级,其中,i表示当前层级,N表示高斯金字塔层级的总数。
只计算一次提升后的金字塔,然后可以根据视口位置和码率预算复用该提升后的金字塔来合成各种视频表示。
金字塔层级分配流程
为了通过拉普拉斯分解来创建质量可变的视频,首先需要确定拉普拉斯层级和质量分布函数q(·)所描述的质量(视频)之间的映射。此映射由映射函数定义,该映射函数针对每个360°视频帧中的每个像素,将质量分布q(·)映射到给定码率预算B的拉普拉斯金字塔的最优层级。金字塔层级分配流程包括本发明实施例中的几个步骤,如图7所示。
步骤212:提取每层级的表面码率。在步骤212中获取恢复后的高斯金字塔层级。此后,根据提升后的高斯金字塔层级和每个视频感兴趣区域的球面表面积的大小,即每个球面的码率,计算编码后的每个提升后的高斯金字塔层级的表面码率。通过计算得到的表面码率,可以估计所需的码率,以将给定的金字塔层级分配到球面面积为s的视频区域。
为了避免对每一个提升后的高斯金字塔层级进行编码而浪费时间和处理功率,可以通过编码后的提升后的拉普拉斯金字塔层级来估计高斯金字塔层级的大小。此外,如果想避免对提升后的拉普拉斯金字塔层级进行编码,也可以通过从上传代理400接收到的编码后的拉普拉斯金字塔来估计其大小。
步骤214:进行线性优化。测量视口区域的球面面积,并通过线性优化确定将哪个金字塔层级映射到这个区域,以在不超过码率预算的情况下分配最高质量。将视口区域的球面面积sv乘以一个提升后的高斯金字塔层级的表面码率,以获得该金字塔层级所需的码率,从而为视口区域分配特定的金字塔层级。然而,最终的分配取决于可用的码率预算。该流程优先保证视口区域,将可能的最高金字塔层级分配给视口区域,使得整个合成视频的码率低于码率预算。降低了视口区域外质量的优先级,因为客户端不太可能请求视口区域以外的视频内容,至少在很短的时间内不会。
步骤216:将视口区域映射到不超过码率预算的最高质量的金字塔层级,即最优高斯层级,之后,针对下一优先级区域重复步骤214和216,直到所有优先级区域都处理完成。
步骤218:通过金字塔层级分配流程,根据码率预算和当前视口区域,最后将360°视频帧中每个感兴趣区域映射到确定出的恢复后最优高斯层级。
视频合成
根据本发明实施例,通过将提升后的拉普拉斯层级加到基于可用码率预算B通过金字塔级分配流程确定的最优层级,可以计算出每个质量可变的视频版本。更具体地说,合成具有异构空间质量的360°视频包括根据下述公式汇总针对每个360°视频帧中的每个像素所确定的最优恢复后的高斯金字塔层级:
其中,OG为对应于质量分布q(·)的具有异构空间质量的输出视频,为提升后的拉普拉斯金字塔层级i,B为码率预算,为针对每个360°视频帧中的每个像素,将质量分布q(·)映射到给定码率预算B的拉普拉斯金字塔的最优层级的映射函数,(x,y)为360°视频帧中像素的坐标。
在视口更改请求发生变化的情况下,针对新视口区域重构视频表示。可以针对每个视频片段计算拉普拉斯金字塔,并发送到下载代理300。根据客户端的视口位置和码率预算,下载代理300可以复用该拉普拉斯金字塔来合成各种视频表示。
通过对比传统方案来评估本发明实施例的效果。在给定码率的情况下,相较于使用相同码率的现有最先进方案,本发明实施例为客户端提供了更高的视频质量。如图8所示,采用上述建议方案进行编码的360°视频的质量甚至会随着码率预算的增加而提高。此外,上述建议方案中传输拉普拉斯金字塔(在上传代理和下载代理之间)所需的带宽比传输原始360°视频所需的带宽低10-15%,如图9所示。拉普拉斯金字塔的带宽比H.264高斯金字塔低15-30%,比高效视频编码(high efficiency video coding,HEVC)高斯金字塔低达40%。值得注意的是,性能评估的是基于H.264和HEVC编解码的4K(30fps)、6K(60fps)和8K(30fps)视频。拉普拉斯金字塔的编码速度比高斯金字塔快5%左右。
另外,根据本发明实施例的任意方法可以在具有编码方式的计算机程序中实现,当通过处理措施运行时,可使所述处理措施执行方法步骤。计算机程序包括在计算机程序产品的计算机可读介质之中。计算机可读介质基本可以包括任意存储器,如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除可编程只读存储器)、闪存、EEPROM(电可擦可编程只读存储器)以及硬盘驱动器。
此外,技术人员认识到,视频生成设备100和下载代理300的实施例包括用于执行方案的功能、装置、单元、元件等形式的必要通信能力。其他此类装置、单元、元件和功能的示例包括:处理器、存储器、缓冲器、控制逻辑、编码器、解码器、速率匹配器、解速率匹配器、映射单元、乘法器、决策单元、选择单元、开关、交织器、解交织器、调制器、解调器、输入装置、输出装置、天线、放大器、接收器单元、发射器单元、DSP、MSD、TCM编码器、TCM解码器、电源单元、电源馈线、通信接口、通信协议等,将这些适当地设置在一起以执行所述方案。
特别地,视频生成设备100和下载代理300的处理器可包括,例如,中央处理器(Central Processing Unit,CPU)、处理单元、处理电路、处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、微处理器或其它可解释和执行指令的处理逻辑中的一个或多个。术语“处理器”因此可表示包括多个处理电路的处理线路,所述多个处理电路实例为以上列举项中的任何、一些或所有项。所述处理线路可进一步执行数据处理功能,输入、输出以及处理数据,所述功能包括数据缓冲和装置控制功能,例如,呼叫处理控制、用户界面控制等。
最后,应了解,本发明并不局限于上述实施例,而是同时涉及且并入所附独立权利要求书的范围内的所有实施例。
Claims (10)
1.一种用于生成360°视频的视频生成设备(100),其特征在于,所述视频生成设备(100)用于:
获取360°视频帧的拉普拉斯金字塔层级;
提升获取到的每个拉普拉斯金字塔层级,以便针对每个360°视频帧恢复一组相应的高斯金字塔层级;
针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从所述恢复后的一组高斯金字塔层级中确定一个恢复后的高斯金字塔层级;
通过汇总针对每个360°视频帧中的每个像素所确定的所述恢复后的高斯金字塔层级,合成具有异构空间质量的360°视频。
2.根据权利要求1所述的方法,其特征在于,所述合成具有异构空间质量的360°视频,包括:
为直播制作所述具有异构空间质量的360°合成视频。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述提升后的拉普拉斯层级的码率之和,计算每个提升后的高斯金字塔层级的码率。
5.根据权利要求4所述的方法,其特征在于,所述金字塔层级分配流程包括:
(a)根据所述每个提升后的高斯金字塔层级的码率,计算每个提升后的高斯金字塔层级的表面码率;
(b)测量360°视频帧的视口区域的球面面积;
(c)分别将所述每个提升后的高斯金字塔层级的表面码率乘以所述球面面积,得到为所述视口区域分配所述每个提升后的金字塔层级时所需的码率;
(d)将所述视口区域映射到所述每个提升后的金字塔层级中不超过所述码率预算的最高质量金字塔层级。
6.根据权利要求5所述的方法,其特征在于,所述金字塔层级分配流程还包括:
根据所述360°视频帧中每个感兴趣区域的优先级,针对所述感兴趣区域重复步骤(a)至(d)。
8.一种用于通信系统(500)的下载代理(300),其特征在于,所述下载代理(300)包括上述权利要求中任一项所述的视频生成设备(100)。
9.一种视频生成方法(200),其特征在于,所述方法(200)包括:
获取(202)360°视频帧的拉普拉斯金字塔层级;
提升获取到的每个拉普拉斯金字塔层级(204),以便针对每个360°视频帧恢复一组相应的高斯金字塔层级;
针对每个360°视频帧中的每个像素,根据直播的码率预算和视口区域,通过执行金字塔层级分配流程从相应的一组高斯金字塔层级中确定(206)一个恢复后的高斯金字塔层级;
通过汇总针对每个360°视频帧中的每个像素的所述恢复后的高斯金字塔层级,合成(208)具有异构空间性的360°视频。
10.一种非瞬时性计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序使得所述计算机执行权利要求9所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2019/055311 WO2020177855A1 (en) | 2019-03-04 | 2019-03-04 | Video generating device and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113874915A true CN113874915A (zh) | 2021-12-31 |
Family
ID=65657481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980093280.6A Pending CN113874915A (zh) | 2019-03-04 | 2019-03-04 | 视频生成设备及其方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11871055B2 (zh) |
EP (1) | EP3915090B1 (zh) |
CN (1) | CN113874915A (zh) |
WO (1) | WO2020177855A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098205A (zh) * | 2022-06-17 | 2022-09-23 | 来也科技(北京)有限公司 | 基于rpa和ai实现ia的流程编辑界面的控制方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8160391B1 (en) * | 2008-06-04 | 2012-04-17 | Google Inc. | Panoramic image fill |
EP3224800B1 (en) * | 2014-11-24 | 2020-04-15 | Koninklijke Philips N.V. | Simulating dose increase by noise model based multi scale noise reduction |
US10595069B2 (en) * | 2016-12-05 | 2020-03-17 | Adobe Inc. | Prioritizing tile-based virtual reality video streaming using adaptive rate allocation |
US10783392B1 (en) * | 2017-05-16 | 2020-09-22 | SIF Codec, LLC | Motion compensation in system and method for processing digital signals based on compression of hierarchical pyramid |
-
2019
- 2019-03-04 WO PCT/EP2019/055311 patent/WO2020177855A1/en unknown
- 2019-03-04 CN CN201980093280.6A patent/CN113874915A/zh active Pending
- 2019-03-04 EP EP19708850.3A patent/EP3915090B1/en active Active
-
2021
- 2021-09-06 US US17/467,442 patent/US11871055B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098205A (zh) * | 2022-06-17 | 2022-09-23 | 来也科技(北京)有限公司 | 基于rpa和ai实现ia的流程编辑界面的控制方法 |
Also Published As
Publication number | Publication date |
---|---|
US11871055B2 (en) | 2024-01-09 |
WO2020177855A1 (en) | 2020-09-10 |
EP3915090B1 (en) | 2024-05-22 |
US20210400322A1 (en) | 2021-12-23 |
EP3915090A1 (en) | 2021-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113845B2 (en) | Point cloud compression using non-cubic projections and masks | |
US20210150765A1 (en) | Point Cloud Compression | |
KR102474626B1 (ko) | 영역 적응적 평활화를 이용하는 360도 비디오 코딩 | |
US8872895B2 (en) | Real-time video coding using graphics rendering contexts | |
JP7205038B2 (ja) | 任意のctuサイズのためのibc検索範囲最適化を用いるエンコーダ、デコーダおよび対応する方法 | |
CN111295884A (zh) | 图像处理装置及图像处理方法 | |
US6597736B1 (en) | Throughput enhanced video communication | |
EP2809073A1 (en) | Bit-Rate control for video coding using object-of-interest data | |
EP2870751A1 (en) | Panorama based 3d video coding | |
US20140160239A1 (en) | System and method for depth-guided filtering in a video conference environment | |
US11265528B2 (en) | Methods and systems for color smoothing for point cloud compression | |
US11593967B2 (en) | Attribute transfer in V-PCC | |
US11089343B2 (en) | Capability advertisement, configuration and control for video coding and decoding | |
US11991376B2 (en) | Switchable scalable and multiple description immersive video codec | |
WO2021199205A1 (ja) | 画像データ転送装置、画像表示システム、および画像データ転送方法 | |
WO2020146571A1 (en) | Method and apparatus for dynamic point cloud partition packing | |
Le et al. | An efficient viewport-dependent 360 VR system based on adaptive tiled streaming | |
EP2415023A1 (en) | System and format for encoding data and three-dimensional rendering | |
Merkle et al. | Efficient compression of multi-view depth data based on MVC | |
US11871055B2 (en) | Video generating device and method thereof | |
WO2023093768A1 (zh) | 图像处理方法和装置 | |
EP4013053A1 (en) | Adaptive quality boosting for low latency video coding | |
Florencio et al. | Multiview video compression and streaming based on predicted viewer position | |
KR20210130148A (ko) | 몰입형 비디오 코딩을 위한 고 수준 구문 | |
Velisavljević et al. | View and rate scalable multiview image coding with depth-image-based rendering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |