CN113966600A - 沉浸式媒体内容呈现和交互式360°视频通信 - Google Patents

沉浸式媒体内容呈现和交互式360°视频通信 Download PDF

Info

Publication number
CN113966600A
CN113966600A CN202080043973.7A CN202080043973A CN113966600A CN 113966600 A CN113966600 A CN 113966600A CN 202080043973 A CN202080043973 A CN 202080043973A CN 113966600 A CN113966600 A CN 113966600A
Authority
CN
China
Prior art keywords
video data
receiver
video
prediction
viewport
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080043973.7A
Other languages
English (en)
Inventor
塞尔汉·古尔
亚戈·桑切斯德拉富恩特
科尼利厄斯·黑尔格
托马斯·斯切尔
罗伯特·斯库宾
托马斯·威甘德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN113966600A publication Critical patent/CN113966600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/613Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for the control of the source by the destination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes
    • H04N13/359Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44209Monitoring of downstream path of the transmission network originating from a server, e.g. bandwidth variations of a wireless network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6125Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6156Network physical structure; Signal processing specially adapted to the upstream path of the transmission network
    • H04N21/6175Network physical structure; Signal processing specially adapted to the upstream path of the transmission network involving transmission via Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6373Control signals issued by the client directed to the server or network components for rate control, e.g. request to the server to modify its transmission rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

描述了一种用于呈现沉浸式媒体内容的装置。该装置从发送器获得表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据,并且显示表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据。

Description

沉浸式媒体内容呈现和交互式360°视频通信
说明书
本发明涉及沉浸式媒体和360°视频的领域。本发明方法的实施例涉及对沉浸式媒体通信或沉浸式媒体内容呈现的改进,所述沉浸式媒体通信或沉浸式媒体内容呈现包括例如视频点播(VoD)流、实况流、视频会议、或诸如在线游戏应用之类的虚拟现实(VR)应用。本发明方法的实施例涉及对360°视频通信的改进,所述360°视频通信包括例如视频会议、或诸如在线游戏应用之类的虚拟现实(VR)应用。
近年来,沉浸式媒体已经获得了大量关注。用于呈现或表示沉浸式媒体内容的关键技术可以被分类为:
(i)3DoF(three Degrees of Freedom,三自由度)内容,例如360°视频,
(ii)6DoF(six Degrees of Freedom,六自由度)内容,例如,捕获的体积对象,如真实对象,或例如真实对象的体积视频,
(iii)例如使用计算机图形生成的并由例如3D网格和2D纹理组成的3D对象,如计算机生成的影像(CGI)。
这些技术的组合也是可能的。例如,可以向用户呈现多个体积对象,其覆盖在背景中播放的360°视频上。所呈现的体积对象可以是动态序列或计算机生成的3D对象。
360°视频在过去几年获得了许多关注,并且用于360°应用的一些产品出现在市场上。标准化活动规定了对360°视频数据的流传输和编码。该领域的工作主要集中在使用超文本传输协议(HTTP)、或广播/宽带传输的360°视频的流传输。
最近成为各种沉浸式应用的关注中心的使能技术是体积视频。体积视频以逼真的方式捕获三维空间,并且与360°视频相比可以提供更好的沉浸感。体积视频也适合于表示六自由度(6DoF)的内容,允许观看者在内容内自由移动并且从不同的视点和距离观察体积对象。
最近,已经出现了用于捕获、处理、压缩和流式传输体积内容的各种技术。压缩域中的一个突出示例是基于视频的点云压缩(V-PCC)标准。V-PCC将点云编码成不同的视频比特流,如纹理、几何形状、占位映射和额外的元数据。将现有视频压缩算法应用于点云压缩带来非常高的压缩效率,并且使得能够重新使用可用硬件视频解码器,尤其是在移动设备上。
与360°视频不同,体积视频通常以3D格式表示,例如点云、网格等,其可能需要不同的处理和传输技术以用于高效递送。当多个被捕捉或计算机生成的体积对象存在于场景中时,可以使用场景图来描述对象彼此的位置和关系,场景图的节点表示存在于场景中的实体。场景描述语言,例如X3D,可以用于构造描述对象的场景图。递送多个3D对象可能增加带宽要求,并且需要体积对象的回放的紧密同步。
视频通信通常在RTP/RTCP(实时/实时控制协议)上运行。在RTP中,将存取单元AU分成RTP分组,该RTP分组包含标头和视频的内容。在视频的实际传输之前,通常发生协商阶段,在该协商阶段期间,两个端点(服务器和接收器)交换能力,并且对视频的特性和用于视频通信的模式达成一致。为了描述所发送的比特流的特性以及所使用的传输模式,可以使用会话描述协议(SDP)。SDP可以用于能力协商。例如,当考虑高效视频编码HEVC比特流时,服务器可发送相应参数集,例如sprop参数集,其中传输可以在频带外,即,可以不在视频数据的实际传输内。客户端可以按原样接受参数。下面给出SDP协商的一个示例,参数集#0可以由服务器的编码器和客户端的解码器存储和使用,而参数集#1可以由客户端的编码器和发送器的解码器使用。
发送器:
Figure BDA0003412453470000021
Figure BDA0003412453470000031
客户端:
Figure BDA0003412453470000032
下面给出SDP协商的另外的示例,它类似于上面的示例,但是具有级别降级。参数集#0被忽略并且可以在频带内,即,在实际视频数据的传输期间。
发送器:
Figure BDA0003412453470000033
客户端:
Figure BDA0003412453470000034
Figure BDA0003412453470000041
除了如以上示例中所示的媒体描述之外,SDP也可以用于能力协商和不同配置的选择。例如,RFC 5939通过限定SDP能力协商(SDPCapNeg)解决方案来扩展SDP,该解决方案不仅支持用于实际配置的SDP,而且还支持一个或多个备选的SDP会话描述(也称为潜在配置)。根据选择了实际配置还是潜在配置中的一个,服务器执行进一步的处理以实现所选择的配置可能是必要的。潜在配置被提供在被包括在SDP消息的m线中的配置之上。例如,如果服务器想要建立安全RTP(SRTP)媒体流,但是也可以接受普通RTP,则服务器将普通RTP置于实际配置中,而将SRTP作为潜在配置。在客户端不支持SRTP或不理解SDPCapNeg的情况下,客户端可以使用普通RTP。
SDPCapNeg限定了额外的SDP属性以表达能力并协商配置。更具体地,可以使用以下额外的属性:
·“a=acap”限定如何将属性名称及其值作为能力列出。
·“a=tcap”限定如何将传输协议,例如RTP音频/视频简档(RTP/AVP),作为能力列出。
·“a=pcfg”列出所支持的潜在配置,其中潜在配置可以包括属性能力、传输能力或其组合。这些能力可以用于生成可以由传统SDP过程或协商过程使用的备选SDP会话描述。
·“a=acfg”是可以由客户端用来识别由服务器提供的潜在配置的属性。
下面,给出了使用SDPCapNeg的SDP协商的示例。
Figure BDA0003412453470000042
Figure BDA0003412453470000051
在以上示例中,两个潜在配置由属性a=pcfg:1以及a=pcfg:2指示。第一潜在配置指示t=1且a=1,意味着由属性a=tcap指示的第一传输能力,即,实时传输协议/安全音频视频简档(RTP/SAVP),被提供用于第一潜在配置,其中在a=acap中指示的属性能力是crypto:1:..。以类似的方式,第二可能配置指示t=2且a=1,意味着使用在a=tcap中指示的第二传输能力,即,RTP/SAVPF(RTP/SAVPF=...),其中在a=acap中指示的属性能力是crypto:1:..。
除了可以在实际视频传输开始之前用于配置的SDP协商之外,通常与RTP一起使用的实时控制协议(RTCP)可以用作反馈机制以在会话期间控制编码模式。RTCP可以典型地用于RTP流同步、分组丢失报告、延迟估计等。它也可以用作反馈信道以控制视频编码参数。例如,在HEVC有效载荷格式中,可以存在要控制的以下参数:
·图片丢失指示(PLI):对属于一个或多个图片的未限定数量的编码视频数据的丢失的指示。
·切片丢失指示(SLI):对CTB(CTB=编码树块)光栅扫描中的一些CTB的丢失的指示。
·参考图片选择指示(RPSI):对参考图片的选择以避免错误传播。
·完整帧内请求(FIR):用于强制编码器发送IDR(IDR=瞬时解码器刷新)的消息。
RTCP控制分组可以在视频通信的端点之间周期性地交换。在点对点的场景下,RTP发送器和RTP接收器可以相互发送对等的发送器报告(SR)和接收器报告(RR)。RTCP接收器报告(RR)可以指示接收质量,并且可以包括以下服务质量(QoS)度量中的一个或多个:
·丢失的分组的累积数量,
·损失分数,
·到达间隔抖动,
·定时信息。
定时信息可以包括:
·接收的最后的SR(LSR)的时间戳,以及
·自最后接收的SR以来的延迟(DLSR)。
发送器可以使用LSR和DLSR字段来计算发送器和接收器之间的往返时间(RTT)。
图1示出使用在发送器和接收器之间交换的相应RTCP报告来计算RTT的示例。最初,如100所示,发送器向接收器发送包括102所示的定时信息的发送器报告SR。在接收到SR之后,接收器发送其接收器报告(RR),如104所示,并且接收器报告包括LSR和DLSR字段。当在发送器处接收到RR时,如106所示,确定实际时间,如108所示,并计算RTT,如110所示。更具体地,发送器确定到达时间110a,也称为实际时间,并从实际时间110a中减去DLSR 110b和LSR 110c,以获得RTT。所计算的时间是网络RTT,并且排除了端点处的任何处理,例如接收器处的缓冲延迟以平滑抖动等。发送器可以使用已知的RTT以优化视频编码。
诸如网络特性的多播推断(MINC)、或IP语音(VoIP)监控之类的一些应用需要其它和更详细的统计。例如,RFC 3611(RTCP扩展报告)提供了一些扩展。例如,接收器参考时间报告块以非发送器也可以发送时间戳的方式来扩展RTCP的时间戳。换句话说,当与其他参与者比较时,接收器还可以通过发送报告并接收如RFC 3611中限定的DLRR报告来估计RTT(DLRR=自最后接收的RR以来的延迟)。
通常,RTCP分组不是单独发送的,而是被分组成复合分组以进行传输,并且以相对较大的时间间隔发送,使得RTCP分组引起的开销不会急剧增加,优选地,它保持在通信量的5%左右。此外,可以推荐RTCP报告之间的最小间隔,例如大约5秒。然而,一些应用可能需要快速报告,并且为了实现及时的反馈,RFC 4585中限定的基于RTCP反馈的扩展RTP简档(RTP/AVPF)引入了早期RTCP消息的概念以及允许小多播组中的低延迟反馈并防止大组中的反馈内爆的算法。RTP/AVPF中有三种操作模式,即:
·即时反馈,
·早期RTCP模式,
·常规RTCP模式。
接收器可以通过使用即时反馈模式,在下一个规则的RTCP报告间隔之前发送反馈消息。这些技术可以用于限定允许控制或操纵或影响编码技术或延迟临界情形的决定的应用专用消息。在3GPP TS 26.114(IMS媒体处理和交互)中可以找到使用RTCP反馈消息的示例。3GPP TS 26.114在SDP中指定不同的“rtcp-fb”属性值以便传送,
(i)由接收器任意选择的视频感兴趣区域ROI,以及
(ii)如3GPP TS 26.114第7.3.7节所述,由发送器预定义并由接收器选择的视频ROI。
可以将指示较大图像内的特定位置(即,ROI)的RTCP反馈消息的示例指定如下:
Figure BDA0003412453470000071
需要改进沉浸式媒体通信或沉浸式媒体内容呈现。需要进一步改进360°视频通信。
这种需要可以通过本申请中所限定的主题以及所附权利要求中所限定的主题来实现。
现在参考附图更详细地描述本发明的实施例,其中:
图1示出使用在发送器和接收器之间交换的相应RTCP报告来计算RTT的示例;
图2是用于在发送器和接收器之间进行360°视频通信的系统的示意性表示;
图3示出类似于图2的环境的示例,其中可以应用和有利地使用本发明的实施例;
图4示出360°视频通信期间的视口传输延迟,其中发送器提供包括与接收器处的观看方向匹配的视频数据的比特流;
图5示出360°视频通信期间的视口传输延迟,其中当应用视口预测技术时,发送器提供包括与接收器处的观看方向匹配的视频数据的比特流;
图6示出具有接收器所注视的中心区域的视口,并且该视口具有比围绕中心区域的外部区域更高的分辨率;以及
图7示出可以在其上执行根据本发明方法描述的单元或模块以及方法步骤的计算机系统的示例。
现在参考附图更详细地描述本发明的实施例,其中相同或相似的元件具有指定的相同附图标记。
在流应用中,用于整个360°视频的360°视频数据由服务器例如通过广播/宽带传输经空中或通过网络(如因特网)使用HTTP向客户端提供,并且客户端呈现接收到的视频数据用于显示。因此,整个视频内容被提供给接收器。在视频通信应用中,例如视频会议、或诸如在线游戏应用之类的虚拟现实(VR)应用,通常在接收器处仅向用户呈现360°视频的场景的一部分,例如,取决于用户的观看方向。客户端基于观看方向处理整个视频数据,以向用户显示360°视频的场景的与用户的观看方向对应的部分。然而,向接收器提供360°视频的整个视频数据需要发送器与接收器之间的链路的高传输能力。此外,接收器需要具有足够的处理能力来处理整个视频数据,以向用户呈现场景的期望部分。由于一些360°视频通信应用可以是实时应用,所以与整个数据的传输和/或处理相关联的长持续时间或时间可能是不利的。
上述协议,如RTP、RTCP和SDP提供用于视频数据传输的机制和信令,现有机制和信令不是专用于360°视频通信的,使得使用已知机制和信令可能是不利的。
本发明的实施例提供了用于改进沉浸式媒体通信或沉浸式媒体内容呈现的不同方面。本发明的实施例提供了用于改进360°视频通信的不同方面。
图2是用于在也称为服务器的发送器200与也称为客户端的接收器202之间的沉浸式媒体通信或360°视频通信的系统的示意性表示。服务器200和客户端202可以经由有线通信链路或经由无线通信链路通信,以发送包括视频或图片和/或音频信息的媒体流204。更具体地,媒体流204包括由服务器200例如在相应RTP分组中提供的360°视频数据。此外,如上所述,媒体流中包括相应的RTCP分组。根据本发明的实施例,RTP、RTCP和SDP被扩展,以提供用于改进的和更有效的沉浸式媒体通信或沉浸式媒体内容呈现或用于改进的和更有效的360°视频通信的机制和信令。服务器200包括信号处理器206,并且客户端202包括信号处理器208。客户端202以及服务器200可以根据下面更详细描述的本发明的教导来操作。
用于沉浸式媒体呈现的接收器/客户端
本发明提供了(例如参见权利要求1)一种用于呈现沉浸式媒体内容的装置,其中,该装置用于:
从发送器获得表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据,以及
显示表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据。
根据实施例(例如参见权利要求2),为了从发送器获得视频数据,该装置用于:
-向发送器发信号通知特定观看方向和/或特定视点,以及
-从发送器接收针对特定观看方向和/或特定视点的视频数据。
根据实施例(例如参见权利要求3),该装置包括:
显示设备,例如HMD,用于向用户显示针对特定观看方向和/或特定视点的视频数据,
传感器,用于检测用户的观看方向和/或视点,以及
处理器,用于向发送器发信号通知检测到的观看方向和/或特定视点,并且处理接收到的视频数据以用于在显示设备上显示。
根据实施例(例如参见权利要求4),其中该装置用于从发送器接收针对表示沉浸式内容的视频数据的特定观看方向和/或特定视点的:
(i)第一视频数据,该第一视频数据由发送器渲染并且表示视频数据的2D视口版本,视频数据表示针对特定观看方向和/或针对特定视点的沉浸式内容,或
(ii)第二视频数据,该第二视频数据未由发送器渲染并且表示要由发送器发送的沉浸式内容的至少一部分。
根据实施例(例如参见权利要求5),在沉浸式媒体会话期间,该装置用于根据接收器与发送器之间的延迟从发送器接收第一视频数据或第二视频数据。
根据实施例(例如参见权利要求6),延迟包括以下项中的一个或多个:
-端到端延迟,该端到端延迟包括网络延迟、渲染延迟和编码延迟中的一个或多个,
-运动到光子(MTP)延迟,该MTP延迟是从在接收器处检测到特定观察方向和/或特定视点的改变直到显示针对新的观察方向和/或新的视点的经渲染的视频数据为止的时间,其中MTP延迟可以减少预测先行时间。
根据实施例(例如参见权利要求7),
该装置用于在延迟低于或处于特定阈值(例如,15ms至20ms)的情况下从发送器接收第一视频数据,以及
该装置用于在延迟高于特定阈值的情况下从发送器接收第二视频数据。
根据实施例(例如参见权利要求8),
在发送器以第一格式提供表示2D视口版本的第一视频数据并且以第二格式提供表示未渲染的沉浸式内容的第二视频数据的情况下,该装置用于向发送器发送消息,例如RTCP消息,从而请求立即在第一格式和第二格式之间切换或在该消息之后的特定时间切换,或
在发送器使用相同的格式提供第一视频数据和第二视频数据并且提供从用于提供2D视口版本的第一处理模式到用于提供表示沉浸式内容的视频数据的未渲染部分的第二处理模式的动态切换的情况下,该装置用于向发送器发送消息,例如RTCP消息,从而请求立即在第一模式和第二模式之间切换或在该消息之后的特定时间切换。
根据实施例(例如参见权利要求9),特定阈值是以下项中的一个或多个:
-网络延迟,
-端到端延迟,
-最大或可接受的运动到光子(MTP)延迟,
-对应于预定义的体验质量(QoE)的MTP延迟,
-减少预测先行时间的MTP延迟,该预测先行时间指示预测器向未来查看的时间能力。
根据实施例(例如参见权利要求10),在沉浸式媒体会话开始时,当延迟仍然未知时,该装置用于仅接受第二视频数据,直到延迟已知或可以被可靠地估计为止。
根据实施例(例如参见权利要求11),
在沉浸式媒体会话开始时,该装置用于与发送器协商,以及
当与发送器协商时,该装置用于使用例如会话描述协议(SDP)从发送器接收表示沉浸式内容的视频数据的一个或多个参数,例如补充增强信息(SEI)消息。
根据实施例(例如参见权利要求12),
当与发送器协商时,该装置用于还从发送器接收视频数据或格式可在(i)第一视频数据与(ii)第二视频数据之间动态切换的指示,以及
在沉浸式媒体会话期间,该装置用于接收相应的视频数据分组,如实时传输协议(RTP)分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示第一视频数据与第二视频数据之间的切换,所标记的视频数据分组指示
-第一视频数据和第二视频数据之间的即时切换,或
-直到在第一视频数据和第二视频数据之间切换为止的特定时间。
根据实施例(例如参见权利要求13),该装置包括提供视口预测和/或视点预测的预测器,或者该装置用于从发送器接收视口预测和/或视点预测,视口预测指示在先行时间之后发生的从用户的当前观看方向到用户的新观看方向的改变,以及视点预测指示在先行时间之后发生的从用户的当前视点到用户的新视点的改变。
根据实施例(例如参见权利要求14),视点改变是
-受限制的,例如,限于用户可以防问的多个离散视点,或
-不受限制的,例如,允许用户在虚拟场景中完全导航。
根据实施例(例如参见权利要求15),响应于视口预测和/或视点预测,该装置用于例如基于预测准确度、先行时间和往返时间(RTT)来确定要发信号通知的特定视口和/或视点,并且使用反馈消息,例如RTCP反馈消息,向发送器发信号通知特定视口和/或视点。
根据实施例(例如参见权利要求16),在沉浸式媒体会话开始时,该装置用于基于在该装置和/或发送器处的预测能力与发送器协商特定阈值的值。
根据实施例(例如参见权利要求17),预测能力包括每视点预测准确性,其中每视点预测准确性可以取决于视点的内容特性,例如用户最可能观看的显著区域的数量,将一视点归类为比另一视点更难预测。
根据实施例(例如参见权利要求18),
该装置用于例如经由SDP向发送器发信号通知例如以随时间漂移或预测和现实的重叠的形式的准确度,以及该装置执行视口预测和/或视点预测所用的先行时间,以允许发送器决定发送器是否接受来自装置的视口预测和/或视点预测和/或发送器是否执行视口预测和/或视点预测,以及
该装置用于例如经由SDP从发送器接收指示视口预测和/或视点预测是否将由装置和/或由发送器执行的信令。
根据实施例(例如参见权利要求19),
该装置用于决定发送器或装置是否执行视口预测和/或视点预测,以及
该装置例如经由SDP发信号通知发送器关于视口预测和/或视点预测是否将由该装置和/或由发送器执行的指示。
根据实施例(例如参见权利要求20),在沉浸式媒体会话期间,
在视口预测和/或视点预测将由发送器执行的情况下,该装置用于从发送器接收对在发送器处用于执行视口预测和/或视点预测所需的特定参数的请求,特定参数例如观看方向、视点、报告间隔、速度或加速度,以及
在视口预测和/或视点预测将由该装置执行的情况下,该装置用于从发送器接收将由该装置使用的关于特定观看方向和/或特定视点的特定预测信息,例如基于发送器关于内容特性的知识,例如,图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
根据实施例(例如参见权利要求21),在场景包括多个视点并且该装置要执行预测的情况下,该装置用于分析先前的传感器数据并确定切换更可能在当前视点内发生还是视点将改变。
根据实施例(例如参见权利要求22),该装置用于例如在RTCP报告中向发送器发送误差或漂移指示,误差或漂移指示发信号通知接收到的针对特定观看方向和/或特定视点的视频数据与实际观看方位和/或实际视点不匹配。
根据实施例(例如参见权利要求23),该装置用于发信号通知最坏情况漂移或平均漂移,其中平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
根据实施例(例如参见权利要求24),在漂移处于特定方向的情况下,例如,预测的视口和/或预测的视点对应于预测方向上的较小移动,该装置用于发信号通知漂移的方向。
根据实施例(例如参见权利要求25),在该装置处理第一视频数据并且平均漂移超过特定阈值达特定时间段或最坏情况漂移超过特定阈值的情况下,该装置用于决定从第一视频数据切换到第二视频数据。
根据实施例(例如参见权利要求26),该装置使用中心凹形渲染,并且向发送器发信号通知在中心凹形渲染算法中使用的相应参数,以允许发送器提供与中心凹形渲染的操作模式匹配的内容。
根据实施例(例如参见权利要求27),在中心凹形渲染算法中使用的参数包括:
-基于到观看方向的中心的距离的降级函数,用作参数化质量函数,或
-导致针对内容的质量的下降的区域或距离阈值,或
-在时间段上平均的眼睛运动区域的时间分布,例如观看方向注视在覆盖视口的80%的区域的时间的95%,以允许发送器调整传输,例如,以较低的像素密度对用户通常未注视的外部部分进行编码。
用于沉浸式媒体呈现的发送器/服务器
本发明提供了(例如参见权利要求28)一种用于向接收器提供沉浸式媒体内容的装置,其中
该装置用于:
从接收器接收用于在接收器处显示沉浸式内容的特定观看方向和/或特定视点的指示,以及
向接收器发送表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据。
根据实施例(例如参见权利要求29),该装置用于提供:
(i)第一视频数据,表示对沉浸式内容加以表示的视频数据的特定观看方向和/或特定视点的2D视口版本,或
(ii)第二视频数据,表示要被发送的沉浸式内容的至少一部分,
其中,在要提供第一视频数据的情况下,渲染视频数据,对经渲染的视频数据进行编码并将经编码的视频数据发送到接收器,以及
其中,在要提供第二视频数据的情况下,对视频数据进行编码而不进行渲染,对描述沉浸式内容的参数的一个或多个消息(例如补充增强信息(SEI)消息)进行编码,并且将经编码的视频数据和经编码的一个或多个消息发送到接收器。
根据实施例(例如参见权利要求30),该装置根据接收器和发送器之间的延迟向接收器提供第一视频数据或第二视频数据。
根据实施例(例如参见权利要求31),
在该装置使用相同的格式提供第一视频数据和第二视频数据并且提供从用于提供2D视口版本的第一处理模式到用于提供表示沉浸式内容的视频数据的未渲染部分的第二处理模式的动态切换的情况下,该装置用于:
从接收器接收请求消息,例如RTCP消息,用于立即在第一模式和第二模式之间切换或在该消息之后的特定时间切换,以及
响应于请求,切换针对视频的处理模式,并且向接收器提供根据新模式处理的视频,以及
在该装置以第一格式提供表示2D视口版本的第一视频数据并以第二格式提供表示沉浸式内容的未渲染部分的第二视频数据的情况下,该装置用于:
从接收器接收请求消息,例如RTCP消息,用于立即在第一格式和第二格式之间切换或在该消息之后的特定时间切换,以及
响应于请求,使用第一格式或第二格式向接收器发送视频。
根据实施例(例如参见权利要求32),延迟包括以下项中的一个或多个:
-端到端延迟,该端到端延迟包括网络延迟、渲染延迟和编码延迟中的一个或多个,
-运动到光子(MTP)延迟,该MTP延迟是从在接收器处检测到特定观察方向和/或特定视点的改变直到显示针对新的观察方向和/或新的视点的经渲染的视频数据为止的时间,其中MTP延迟可以减少预测先行时间。
根据实施例(例如参见权利要求33),
该装置用于在延迟低于或处于特定阈值(例如,15ms到20ms)的情况下向接收器提供第一视频数据,以及
该装置用于在延迟高于特定阈值的情况下向接收器提供第二视频数据。
根据实施例(例如参见权利要求34),特定阈值是以下项中的一个或多个:
-网络延迟,
-端到端延迟,
-最大或可接受的运动到光子(MTP)延迟,
-对应于预定义的体验质量(QoE)的MTP延迟,
-减少预测先行时间的MTP延迟,该预测先行时间指示预测器向未来查看的时间能力。
根据实施例(例如参见权利要求35),在沉浸式媒体会话开始时,当延迟仍然未知时,该装置用于仅提供第二视频数据,直到延迟已知或可以被可靠地估计为止。
根据实施例(例如参见权利要求36),
在沉浸式媒体会话开始时,该装置用于与接收器协商,以及
当与接收器协商时,该装置用于使用例如会话描述协议(SDP)向接收器发送沉浸式内容的一个或多个参数,例如补充增强信息(SEI)消息。
根据实施例(例如参见权利要求37),
发送器的一个或多个SDP消息还包括视频数据或格式可在(i)第一视频数据与(ii)第二视频数据之间动态切换的指示,以及
在沉浸式媒体会话期间,该装置用于发送相应的视频数据分组,如实时传输协议(RTP)分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示第一视频数据与第二视频数据之间的切换,所标记的视频数据分组指示
-第一视频数据和第二视频数据之间的即时切换,或
-直到在第一视频数据和第二视频数据之间切换为止的特定时间。
根据实施例(例如参见权利要求38),该装置包括提供视口预测和/或视点预测的预测器,或者该装置用于从接收器接收视口预测和/或视点预测,视口预测和/或视点预测指示在先行时间之后发生的从用户的当前观看方向和/或当前视点到用户的新观看方向和/或新视点的改变。
根据实施例(例如参见权利要求39),视点改变是
-受限制的,例如,限于用户可以访问的多个离散视点,或
-不受限制的,例如,允许用户在虚拟场景中完全导航。
根据实施例(例如参见权利要求40),响应于视口预测和/或视点预测,该装置例如基于预测准确度、先行时间和往返时间(RTT)来确定要提供的特定视口和/或视点。
根据实施例(例如参见权利要求41),在沉浸式媒体会话开始时,该装置用于基于在该装置和/或发送器处的预测能力来与接收器协商特定阈值的值。
根据实施例(例如参见权利要求42),预测能力包括每视点预测准确性,其中每视点预测准确性可以取决于视点的内容特性,例如用户最可能观看的显著区域的数量,将一视点归类为比另一视点更难预测。
根据实施例(例如参见权利要求43),该装置用于:
例如经由SDP从接收器接收例如以随时间漂移或预测和现实的叠加的形式的准确度,以及接收器执行视口预测和/或视点预测所用的先行时间,
决定该装置是否接受来自接收器的视口预测和/或视点预测,或该装置是否执行视口预测和/或视点预测,以及
例如经由SDP向接收器发信号通知视口预测和/或视点预测是否将由该装置和/或接收器执行。
根据实施例(例如参见权利要求44),
在视口预测和/或视点预测将由所述装置执行的情况下,该装置用于从接收器接收在发送器处用于执行视口预测和/或视点预测所需的特定参数,例如观看方向、视点、报告间隔、速度或加速度,以及
在视口预测和/或视点预测将由接收器执行的情况下,该装置用于向接收器发送将由该装置使用的关于特定观看方向和/或视点的特定预测信息,例如基于发送器的关于内容特性的知识,例如,图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
根据实施例(例如参见权利要求45),在场景包括多个视点并且发送器要执行预测的情况下,该装置用于从接收器接收关于场景内的当前观看方向和位置的反馈,并且将反馈与其他用户的统计或内容信息(例如,用户更可能在特定视口的哪个空间区域处改变其视点)组合,用于确定切换更可能发生在当前视点内还是视点将改变。
根据实施例(例如参见权利要求46),
该装置用于例如在RTCP报告中从接收器接收误差或漂移指示,误差或漂移指示发信号通知接收到的针对特定观看方向和/或特定视点的视频数据与该装置处的实际观看方向和/或实际视点不匹配,以及
响应于误差或漂移,该装置用于适配例如所使用的边缘或预取。
根据实施例(例如参见权利要求47),该装置用于接收最坏情况漂移或平均漂移,其中平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
根据实施例(例如参见权利要求48),在漂移处于特定方向的情况下,例如,预测的视口和/或预测的视点对应于预测的方向上的较小移动,该装置用于接收漂移的方向并且例如通过在失配的预测的方向上添加预取来适配其预测。
根据实施例(例如参见权利要求49),接收器使用中心凹形渲染,并且该装置用于从接收器接收在中心凹形渲染算法中使用的相应参数,并且提供与中心凹形渲染的操作模式匹配的内容。
用于沉浸式媒体呈现的接收器/客户端和发送器/服务器
根据实施例(例如参见权利要求50),沉浸式内容包括以下项中的一个或多个:
-3DoF(three Degrees of Freedom,三自由度)内容,例如一个或多个360°视频,
-6DoF(six Degrees of Freedom,六自由度)内容,例如,捕获的体积对象,如真实对象,或例如真实对象的体积视频,
-例如使用计算机图形生成的3D对象,如计算机生成的影像(CGI)。
根据实施例(例如参见权利要求51),要由发送器发送或由接收器接收的沉浸式内容包括以下项中的一个或多个:
-在360°视频或360°图形的情况下,经投影的视频传输,例如,使用特定投影发送的全360°视频的一部分,
-在体积对象或体积视频的情况下,以特定3D格式(例如作为点云或作为网格)的针对整个体积对象或体积对象的一部分的3D数据传输,
-在3D计算机图形的情况下(例如游戏),以诸如多个点云或网格之类的特定3D格式的完整场景,例如多个体积对象。
根据实施例(例如参见权利要求52),沉浸式内容将通过以下项被识别:
-特定补充增强信息(SEI)参数,例如sprop-SEI参数,
-特定视频编解码器或简档的指示,或
-通过会话描述协议(SDP)中的额外的属性,例如“videoformat 3DoF”或“videoformat 6DoF”或“videoformat Volumetric”。
根据实施例(例如参见权利要求53),在沉浸式内容表示包括一个或多个体积对象的体积场景的情况下,沉浸式内容包括用于描述体积对象的相应属性的多个比特流,例如,至少纹理比特流和几何结构比特流,或压缩的网格比特流和纹理比特流。
根据实施例(例如参见权利要求54),使用例如SDP来发信号通知对不同的比特流的使用,其中SDP可以包含关于不同种类的比特流及比特流的可能变体的信息。
根据实施例(例如参见权利要求55),使用例如SDP的分组机制使描述体积对象的相应属性的多个比特流彼此关联。
用于沉浸式媒体呈现的系统
本发明提供了一种系统(例如参见权利要求56),该系统包括发送器和接收器,该发送器包括根据本发明的实施例中的任一个的装置,该接收器包括根据本发明的实施例中的任一个的装置。
用于沉浸式媒体呈现的方法
本发明提供了(例如参见权利要求57)一种用于呈现沉浸式媒体内容的方法,该方法包括:
由接收器从发送器获得表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据,以及
在接收器处显示表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据。
本发明提供了(例如参见权利要求58)一种用于提供沉浸式媒体内容的方法,该方法包括:
在发送器处接收用于在接收器处显示沉浸式内容的特定观看方向和/或特定视点的指示,以及
由发送器向接收器发送表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据。
根据实施例(例如参见权利要求59),接收器包括根据本发明的实施例中的任一个的装置,和/或发送器包括根据本发明的实施例中的任一个的装置。
用于360°视频通信的接收器/客户端
本发明提供了一种用于与发送器进行360°视频通信的装置(例如参见权利要求61),其中
该装置用于从发送器获得取决于360°视频的特定观看方向的视频数据,以及显示表示360°视频的特定观看方向的视频数据。
根据实施例(例如参见权利要求62),为了从发送器获得视频数据,该装置用于向发送器发信号通知360°视频的特定观看方向,以及从发送器接收针对360°视频的特定观看方向的视频数据。
根据实施例(例如参见权利要求63),该装置包括:显示设备,例如HMD,用于向用户显示360°视频的特定观看方向的视频数据;传感器,用于检测用户的观看方向;以及处理器,用于向发送器发信号通知检测到的观看方向,并处理接收到的视频数据以用于在显示设备上显示。
根据实施例(例如参见权利要求64),该装置用于从发送器请求360°视频的特定观看方向(i)由发送器渲染并表示360°视频的特定观看方向的2D视口版本的第一视频数据,或(ii)未由发送器渲染并表示将由发送器使用特定投影发送的360°视频的至少一部分的第二视频数据。
根据实施例(例如参见权利要求65),在360°视频通信的会话期间,该装置用于根据接收器和发送器之间的端到端延迟来从发送器请求第一视频数据或第二视频数据。
根据实施例(例如参见权利要求66),端到端延迟是从在接收器处检测到特定观看方向的改变直到显示针对新观看方向的经渲染的视频数据为止的时间。
根据实施例(例如参见权利要求77),该装置用于在端到端延迟低于或处于特定阈值(例如15ms到20ms)的情况下从发送器请求第一视频数据,以及该装置用于在端到端延迟高于特定阈值的情况下从发送器请求第二视频数据。
根据实施例(例如参见权利要求88),在发送器以第一格式提供表示2D视口版本的第一视频数据并且以第二格式提供表示360°视频的未渲染部分的第二视频数据的情况下,该装置用于向发送器发送消息,例如,RTCP消息,从而请求立即在第一格式和第二格式之间切换或在该消息之后的特定时间切换,或,在发送器使用相同的格式提供第一视频数据和第二视频数据并且提供从用于提供2D视口版本的第一处理模式到用于提供360°视频的未渲染部分的第二处理模式的动态切换的情况下,该装置用于向发送器发送消息,例如RTCP消息,从而请求立即在第一模式和第二模式之间切换或在该消息之后的特定时间切换。
根据实施例(例如参见权利要求69),该特定阈值是产生例如预定义的体验质量(QoE)的最大或可接受的运动到光子(MTP)延迟,或MTP延迟加上对预测器向未来查看的时间能力加以指示的预测先行时间。
根据实施例(例如参见权利要求70),在360°视频通信的会话开始时,当端到端延迟仍然未知时,该装置用于仅接受第二视频数据,直到端到端延迟已知或可以被可靠地估计为止。
根据实施例(例如参见权利要求71),在360°视频通信的会话开始时,该装置用于与发送器协商,并且当与发送器协商时,该装置用于使用例如会话描述协议(SDP)从发送器接收360°视频的一个或多个参数,例如补充增强信息(SEI)消息,SEI消息指示投影类型、旋转和按区域分组(RWP)约束中的一个或多个。
根据实施例(例如参见权利要求72),当使用例如SDP与发送器协商时,该装置用于根据该装置的能力包括360°视频的一个或多个额外的参数,和/或根据该装置的能力,修改或移除360°视频的参数中的一个或多个,
向发送器发送360°视频的参数,以允许发送器根据所发送的参数对投影视频进行编码。
根据实施例(例如参见权利要求73),360°视频的参数中的一个或多个包括按区域分组(RWP)参数,并且该装置用于将一个或多个新元素包括到SDP消息中,以将RWP格式约束到该装置的能力,其中,RWP格式可指示例如以下约束中的一个或多个:
·rwp-max-num-packed-regions指示分组区域的最大数量,
·rwp-min-proj-region-width/height指示投影区域的最小宽度/高度,
·rwp-min-packed-region-width/height指示分组区域的最小宽度/高度,
·rwp-allowed-transform-types指示允许的变换类型,
·rwp-guard-band-flag-constraint指示围绕分组区域的保护频带,
·rwp-max-scaling-factor指示分组区域的最大比例因数。
根据实施例(例如参见权利要求74),当与发送器协商时,该装置用于还从发送器接收视频数据或格式可在(i)第一视频数据与(ii)第二视频数据之间动态切换的指示,并且在360°视频通信的会话期间,该装置用于接收相应的视频数据分组,如实时传输协议(RTP)分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示第一视频数据与第二视频数据之间的切换,被标记的视频数据分组指示第一视频数据和第二视频数据之间的即时切换,或直到在第一视频数据和第二视频数据之间切换为止的特定时间。
根据实施例(例如参见权利要求75),该装置包括提供视口预测的视口预测器,或该装置用于从发送器接收视口预测,视口预测指示在先行时间之后发生的从用户的当前观看方向到用户的新观看方向的改变。
根据实施例(例如参见权利要求76),响应于视口预测,该装置用于例如基于预测准确性、先行时间和往返时间(RTT)来确定要请求的特定视口,并且使用例如RTCP反馈消息的反馈消息向发送器发信号通知特定视口。
根据实施例(例如参见权利要求77),在360°视频通信的会话开始时,该装置用于基于在该装置和/或发送器处的预测能力与发送器协商特定阈值的值。
根据实施例(例如参见权利要求78),该装置用于例如经由SDP向发送器发信号通知例如以随时间漂移或预测和现实的重叠的形式的准确度,以及该装置执行视口预测所用的先行时间,以允许发送器决定发送器是否接受来自该装置的视口预测或发送器是否执行视口预测,以及该装置用于例如经由SDP从发送器接收指示视口预测是否将由该装置或者由发送器执行的信令。
根据实施例(例如参见权利要求79),该装置用于决定发送器或该装置是否执行视口预测,以及该装置例如经由SDP向发送器发信号通知视口预测是将由该装置还是由发送器执行的指示。
根据实施例(例如参见权利要求80),在360°视频通信的会话期间,在视口预测将由发送器执行的情况下,该装置用于从发送器接收对在发送器处用于执行视口预测所需的特定参数(例如,观看方向、报告间隔、速度或加速度)的请求,以及在视口预测将由该装置执行的情况下,该装置用于从发送器接收将由该装置使用的关于特定观看方向或特定区域的特定预测信息,例如基于发送器的关于内容特性的知识,例如,图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
根据实施例(例如参见权利要求81),视频数据与视口大小精确匹配,从而与显示设备的视野(FoV)匹配,或视频数据包括视口周围的边缘区域,边缘区域是视口的特定百分比。
根据实施例(例如参见权利要求82),在360°视频通信的会话期间,如果视口大小包括边缘,则该装置用于接收对用于渲染以辅助该装置裁剪/翘曲视口的镜头/失真参数的指示。
根据实施例(例如参见权利要求83),在360°视频通信的会话开始时,该装置与发送器协商视频数据的维度和/或边缘区域。
根据实施例(例如参见权利要求84),该装置用于例如在RTCP报告中向发送器发送误差或漂移指示,误差或漂移指示发信号通知接收到的针对特定观看方向的视频数据与该装置处的实际观看方位不匹配。
根据实施例(例如参见权利要求85),该装置用于发信号通知最坏情况漂移或平均漂移,其中平均漂移被发信号通知为在特定时间段内预测的视口与实际观看方位的比率,并且最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
根据实施例(例如参见权利要求86),在漂移处于特定方向的情况下,例如,预测的视口对应于预测方向上的较小移动,该装置用于发信号通知漂移的方向。
根据实施例(例如参见权利要求87),在该装置处理第一视频数据并且平均漂移超过特定阈值达特定时间段或最坏情况漂移超过特定阈值的情况下,该装置用于决定从第一视频数据切换到第二视频数据。
根据实施例(例如参见权利要求88),该装置用于使用中心凹形渲染,并且向发送器发信号通知在中心凹形渲染算法中使用的相应参数,以允许发送器提供与中心凹形渲染的操作模式匹配的内容。
根据实施例(例如参见权利要求89),在中心凹形渲染算法中使用的参数包括:基于到观看方向中心的距离的降级函数,用作参数化质量函数;或导致针对内容质量的下降的区域或距离阈值;或在时间段上平均的眼睛运动区域的时间分布,例如观看方向注视在覆盖视口的80%的区域的时间的95%,以允许发送器调整传输,例如,以较低的像素密度对用户通常未注视的外部部分进行编码。
用于360°视频通信的发送/服务器
本发明提供了一种用于与接收器进行360°视频通信的装置(例如参见权利要求90),其中该装置用于从接收器接收在接收器处的360°视频的特定观看方向的指示,以及向接收器发送针对360°视频的特定观看方向的视频数据。
根据实施例(例如参见权利要求91),该装置用于提供(i)表示360°视频的特定观看方向的2D视口版本的第一视频数据或(ii)表示将使用特定投影发送的360°视频的至少一部分的第二视频数据,在要提供第一视频数据的情况下,渲染视频数据,对经渲染的视频数据进行编码并将经编码的视频数据发送到接收器,以及在要提供第二视频数据的情况下,使用特定投影对视频数据进行编码而不进行渲染,对描述360°视频的参数的一个或多个消息进行编码,一个或多个消息例如指示投影类型、旋转和按区域分组(RWP)约束的补充增强信息(SEI)消息,并且将经编码的视频数据和经编码的一个或多个消息发送到接收器。
根据实施例(例如参见权利要求92),该装置用于根据接收器与发送器之间的端到端延迟来向接收器提供第一视频数据或第二视频数据。
根据实施例(例如参见权利要求93),在该装置使用相同的格式提供第一视频数据和第二视频数据并且提供从用于提供2D视口版本的第一处理模式到用于提供360°视频的未渲染部分的第二处理模式的动态切换的情况下,该装置用于从接收器接收请求消息,例如RTCP消息,用于立即在第一模式和第二模式之间切换或在该消息之后的特定时间切换,以及响应于该请求,切换针对视频的处理模式,并且向接收器提供根据新模式处理的视频,以及
在该装置以第一格式提供表示2D视口版本的第一视频数据并且以第二格式提供表示360°视频的未渲染部分的第二视频数据的情况下,该装置用于:
从接收器接收请求消息,例如RTCP消息,用于立即在第一格式和第二格式之间切换或在该消息之后的特定时间切换,以及
响应于该请求,使用第一格式或第二格式向接收器发送视频。
根据实施例(例如参见权利要求94),端到端延迟是从在接收器处检测到特定观看方向的改变直到显示针对新观看方向的经渲染的视频数据为止的时间。
根据实施例(例如参见权利要求95),该装置用于在端到端延迟低于或处于特定阈值(例如15ms到20ms)情况下向接收器提供第一视频数据,以及该装置用于在端到端延迟高于特定阈值的情况下向接收器提供第二视频数据。
根据实施例(例如参见权利要求96),该特定阈值是产生例如预定义的体验质量(QoE)的最大或可接受的运动到光子(MTP)延迟,或MTP延迟加上对预测器向未来查看的时间能力加以指示的预测先行时间。
根据实施例(例如参见权利要求97),在360°视频通信的会话开始时,当端到端延迟仍然未知时,该装置用于仅提供第二视频数据,直到端到端延迟已知或可以被可靠地估计为止。
根据实施例(例如参见权利要求98),在360°视频通信的会话开始时,该装置用于与接收器协商,并且当与接收器协商时,该装置用于使用例如会话描述协议(SDP)向接收器发送360°视频的一个或多个参数,例如补充增强信息(SEI)消息,SEI消息指示投影类型、旋转和按区域分组(RWP)约束中的一个或多个。
根据实施例(例如参见权利要求99),当使用例如SDP与接收器协商时,该装置用于根据接收器的能力从接收器接收360°视频的一个或多个额外的参数,和/或根据接收器的能力在数量上修改或减少的360°视频的一个或多个参数,以及根据接收到的参数来调度对经投影的视频的编码。
根据实施例(例如参见权利要求100),360°视频的参数中的一个或多个包括按区域分组(RWP)参数,并且该装置用于将一个或多个新元素包括到SDP消息中,以将RWP格式约束到该装置的能力,其中,RWP格式可指示例如以下约束中的一个或多个:
·rwp-max-num-packed-regions指示分组区域的最大数量,
·rwp-min-proj-region-width/height指示投影区域的最小宽度/高度,
·rwp-min-packed-region-width/height指示分组区域的最小宽度/高度,
·rwp-allowed-transform-types指示允许的变换类型,
·rwp-guard-band-flag-constraint指示围绕分组区域的保护频带,
·rwp-max-scaling-factor指示分组区域的最大比例因数。
根据实施例(例如参见权利要求101),发送器的一个或多个SDP消息还包括视频数据或格式可在(i)第一视频数据与(ii)第二视频数据之间动态切换的指示,以及在360°视频通信的会话期间,该装置用于发送相应的视频数据分组,如实时传输协议(RTP)分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示第一视频数据与第二视频数据之间的切换,被标记的视频数据分组指示第一视频数据和第二视频数据之间的即时切换,或直到在第一视频数据和第二视频数据之间切换为止的特定时间。
根据实施例(例如参见权利要求102),该装置包括提供视口预测的视口预测器,或该装置将从接收器接收视口预测,视口预测指示在先行时间之后发生的从接收器的用户的当前观看方向到用户的新观看方向的改变。
根据实施例(例如参见权利要求103),响应于视口预测,该装置用于例如基于预测准确度、先行时间和往返时间(RTT)来确定要提供的特定视口。
根据实施例(例如参见权利要求104),在360°视频通信的会话开始时,该装置用于基于该装置和/或发送器处的预测能力与接收器协商特定阈值的值。
根据实施例(例如参见权利要求105),该装置用于例如经由SDP从接收器接收例如以随时间漂移或预测和现实的叠加的形式的准确度,以及接收器执行视口预测所用的先行时间,决定该装置是否接受来自接收器的视口预测或该装置是否执行视口预测,以及例如经由SDP向接收器发信号通知视口预测是将由该装置还是由接收器执行。
根据实施例(例如参见权利要求106),在视口预测将由该装置执行的情况下,该装置用于从接收器接收在发送器处用于执行视口预测所需的特定参数(例如,观看方向、报告间隔、速度或加速度),以及在视口预测将由接收器执行的情况下,该装置用于向接收器发送将由该装置使用的关于特定观看方向或特定区域的特定预测信息,例如基于发送器的关于内容特性的知识,例如,图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
根据实施例(例如参见权利要求107),第一视频数据与视口大小精确匹配,从而与显示设备的视野(FoV)匹配,或第一视频数据包括视口周围的边缘区域,边缘区域是视口的特定百分比。
根据实施例(例如参见权利要求108),在360°视频通信的会话期间,如果视口大小包括边缘,则该装置用于向接收器发送对用于渲染以辅助接收器裁剪/翘曲视口的镜头/失真参数的指示。
根据实施例(例如参见权利要求109),该装置用于与接收器协商第一视频数据的尺寸和/或边缘区域。
根据实施例(例如参见权利要求110),该装置用于例如在RTCP报告中从接收器接收误差或漂移指示,误差或漂移指示发信号通知接收到的针对特定观看方向的视频数据与该装置处的实际观看方位不匹配,以及响应于误差或漂移,该装置用于适配,例如,所使用的边缘或预取,或改变观看定向特定投影,例如,以具有较大或较小的高质量内容覆盖。
根据实施例(例如参见权利要求111),该装置用于接收最坏情况漂移或平均漂移,其中平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
根据实施例(例如参见权利要求112),在漂移处于特定方向的情况下,例如,预测的视点对应于预测方向上的较小移动,该装置用于接收漂移的方向并且例如通过在失配的预测的方向上添加预取来适配其预测。
根据实施例(例如参见权利要求113),接收器使用中心凹形渲染,并且该装置用于从接收器接收在中心凹形渲染算法中使用的相应参数,并且提供与中心凹形渲染的操作模式匹配的内容。
360°视频通信系统
本发明提供(例如参见权利要求114)一种360°视频通信系统,包括发送器和接收器,发送器包括根据本发明的实施例中的任一个的装置,接收器包括根据本发明的实施例中的任一个的装置。
360°视频通信方法
本发明提供了(例如参见权利要求115)一种用于360°视频通信的方法,该方法包括由接收器从发送器获得根据在接收器处的360°视频的特定观看方向的视频数据,以及在接收器处显示表示360°视频的特定观看方向的视频数据。
本发明提供了(例如参见权利要求116)一种用于360°视频通信的方法,该方法包括在发送器处接收来自接收器的在接收器处的360°视频的特定观看方向的指示,以及由发送器将针对360°视频的特定观看方向的视频数据发送到接收器。
根据实施例(例如参见权利要求117),接收器包括根据本发明的实施例中的任一个的装置,和/或发送器包括根据本发明的实施例中的任一个的装置。
计算机程序产品
本发明提供了一种包括指令的计算机程序产品,当计算机执行该程序时,该指令使得计算机执行根据本发明的一个或多个方法。
现在将描述本发明方法的更详细的实施例。图3示出类似于图2的环境的示例,其中可以应用和有利地使用本发明的实施例。图3示出包括服务器200和客户端202的系统,被设置用于高效沉浸式媒体通信或沉浸式媒体内容呈现,或用于虚拟现实应用的360°视频通信。系统例如使用平视显示器204的内部显示器212向佩戴平视显示器210的用户呈现与特定观看方向对应的360°视频的暂时变化的空间场景216的视图选择214。视图选择或查看方向214可以对应于可以由内部取向传感器218测量的平视显示器210的取向。因此,呈现给用户的选择214是对空间场景216的选择,并且空间场景216的空间位置对应于平视显示器210的方位。暂时变化的空间场景216包括沉浸式媒体内容或是360°视频,也称为全向视频或球形视频。本发明不限于平视显示器,而是根据其他实施例,选择214可以在例如常规监视器等的另一显示设备上显示给用户。传感器218和显示器210可以是分离的或不同的设备,诸如遥控器和对应的电视机。根据其它实施例,传感器218和显示器212可以是手持设备的一部分,如移动设备,例如平板电脑或移动电话。
服务器200可以包括例如使用图2的信号处理器206实现的控制器206,以及存储装置220。控制器206可以是适当编程的计算机、专用集成电路等。存储装置202可以存储表示空间场景216的媒体片段。响应于来自客户端202的请求,控制器206可以向客户端202发送媒体片段(例如所请求的视频/音频数据)以及相应的控制信息。控制器206可以从存储装置220获取所请求的媒体段,并且根据实施例,可以向客户端202提供视频数据作为视图区段214的渲染版本(也称为经渲染的视口),或者可以向客户端202提供视频数据作为投影数据,即,没有任何渲染。
客户端202可以包括例如使用图2的信号处理器208实现的客户端设备或控制器208,并且可以是适当编程的计算机、微处理器、编程的硬件设备等。客户端设备208可以选择要从服务器200检索的媒体片段以及相应的控制信息。根据下面更详细描述的实施例,根据转发到客户端202的视频数据是经渲染的视频数据还是投影的视频数据,客户端202在接收到经渲染的视频数据的情况下使用经渲染的视频数据本身以用于在设备210上显示。在接收到的数据是投影视频的情况下,提供控制器208以基于接收到的投影视频数据执行视口的渲染以显示在设备210上。
媒体流204内的数据的传输以编码的形式执行,使得服务器200和客户端202中的相应实体,例如控制器206和208,包括相应的编码器/解码器。
下面,将参考如参考图2和图3所描述的环境来更详细地描述本发明的实施例。
本发明的实施例涉及沉浸式媒体内容的呈现,在呈现期间,服务器和客户端(也称为发送器和接收器或接收方)进行交互,并且发送器基于接收器提供的反馈来提供视频数据,例如,包括与接收器端点的观看方向和/或视点相匹配的视频数据的比特流。当考虑例如图2或图3的系统时,接收器或客户端202能够从服务器或发送器200获得表示在客户端的观看方向和/或视点上的沉浸式媒体内容的视频数据。换句话说,为了呈现沉浸式媒体内容,客户端202从服务器获得取决于特定观看方向和/或特定视点的视频数据,并且显示表示特定观看方向的沉浸式媒体内容的视频数据。
根据实施例,为了从服务器200获得视频数据,客户端202可以向服务器200发信号通知-参见图2中的双头箭头或者图3中从客户端202的客户端设备208到服务器200的控制器206的连接-特定观看方向和/或特定视点,并且从服务器200接收针对特定观看方向和/或特定视点的视频数据。
根据另外的实施例,如图3中所描绘的,客户端包括例如HMD的显示设备210,以向用户显示针对媒体的特定观看方向214和/或特定视点的视频数据。客户端还包括一个或多个传感器218以检测用户的观看方向和/或视点,并且客户端设备或处理器208向服务器发信号通知检测到的观看方向和/或检测到的视点,并且处理与发信号通知的观看方向和/或视点相关联的接收到的视频数据以用于在显示设备210上显示。
为了由客户端202呈现沉浸式媒体内容,服务器200从客户端202接收在客户端202处的特定观看方向和/或特定视点的指示,并且将针对特定观看方向214和/或特定视点的视频数据发送到客户端202。
上述实施例的优点在于,响应于客户端处的实际观看方向和/或实际视点,发送场景的特定观看方向和/或特定视点的视频数据,从而与传统方法相比,需要发送和/或处理的视频数据更少。因此,可以减少或避免引起用户的实时体验(或更一般地,体验质量(QoE))的降低的延迟。
本发明的另外的实施例限定通过扩展上述协议(例如RTP、RTCP和SDP协议)来允许沉浸式媒体内容的改进的和更有效的呈现的机制和信令。根据实施例,限定RTP和RTCP分组的扩展机制以及SDP的新属性,以实现提供用于呈现沉浸式媒体内容的改进的和更有效的机制和信令的本发明方法。
本发明的实施例为沉浸式媒体会话提供了针对视频数据的不同媒体格式或处理模式,即,表示沉浸式媒体内容的经渲染的视频数据和未经渲染的视频数据,并且用于根据延迟在经渲染的视频数据和未经渲染的数据之间切换。
根据实施例,可以考虑用于点对点通信的方法,根据该方法,由例如发送器或服务器的另一端点生成适合于例如接收器或客户端的一个端点的单个比特流。取决于延迟,如端到端延迟或在系统中观察到的网络,可以应用以下方法中的一个:
·视口传输:在服务器侧生成如2D视口之类的的经渲染的视口并将其直接呈现给客户端。换句话说,经渲染的2D视口被直接呈现给接收器。视口可以表示沉浸式媒体内容,如用于360°视频、用于体积视频或3D计算机图形的视口。如果延迟低于某一阈值,则可以这样做。
·沉浸式内容传输
ο360°视频/图形:
投影视频传输:使用特定投影,例如ERP、CMP、金字塔、截棱锥,来发送整个360°视频的一部分。根据实施例,例如对于使用区域性分组的不等分辨率CMP,可以对一些部分重新采样。
ο体积对象/视频:
3D数据传输:以诸如点云或网格之类的3D格式将完整体积对象或体积对象的一部分发送到客户端。例如,可以将压缩的网格流发送到客户端,使得具有相应网格解码器的客户端可以解码和重构体积对象,并基于用户交互来渲染对象的视图。
ο3D计算机图形,例如游戏:
可以以诸如多个点云或网格的3D格式发送完整场景,例如多个体积对象。
上述延迟可以包括以下延迟中的一个或多个:
·网络延迟,
·端到端延迟,
·最大或可接受的运动到光子(MTP)延迟,
·对应于预定义的体验质量(QoE)的MTP延迟,
·减少预测先行时间的MTP延迟,该预测先行时间指示预测器向未来查看的时间能力。
本发明的实施例涉及360°视频通信,在此期间,服务器和客户端(也称为发送器和接收器或接收方)交互,并且发送器基于接收器提供的反馈提供视频数据,例如包括与接收器端点的观看方向匹配的视频数据的比特流。
当考虑例如图2或图3的系统时,接收器或客户端202能够从服务器或发送器200获得360°视频的取决于客户端的观看方向的视频数据,。换句话说,对于与服务器200的360°视频通信,客户端202从服务器获得取决于360°视频的特定观看方向的视频数据,并且显示表示360°视频的特定观看方向的视频数据。
根据实施例,用于从服务器200获得视频数据的客户端202可以向服务器200发信号通知360°视频的特定观看方向(参见图2中的双头箭头或者图3中从客户端202的客户端设备208到服务器200的控制器206的连接),并且从服务器200接收360°视频的特定观看方向的视频数据。
根据另外的实施例,如图3中所描绘的,客户端包括例如HMD的显示设备210,以向用户显示360°视频的特定观看方向214的视频数据,传感器218,以检测用户的观看方向,以及客户端设备或处理器208,以向服务器发信号通知检测到的观看方向,并且处理与发信号通知的观看方向相关联的接收到的视频数据,以用于在显示设备210上显示。
对于与客户端202的360°视频通信,服务器200从客户端202接收360°视频在客户端202处的特定观看方向的指示,并且将360°视频的特定观看方向214的视频数据发送到客户端202。
上述实施例的优点在于,响应于客户端处的实际观看方向,发送360°视频的场景的特定观看方向的视频数据,使得与传统方法相比,需要发送和/或处理的视频数据更少。因此,可以减少或避免引起用户的实时体验(或更一般地,体验质量(QoE))的降低的延迟。
本发明的其它实施例限定通过扩展上述协议(例如RTP、RTCP和SDP协议)来允许改进的和更有效的360°视频通信的机制和信令。根据实施例,限定RTP和RTCP分组的扩展机制以及SDP的新属性,以实现提供用于360°视频通信的改进的和更有效的机制和信令的本发明方法。
本发明的实施例涉及为360°视频通信会话提供针对视频数据的不同媒体格式或处理模式的实施例,即,经渲染的视频数据和经投影的视频数据,以及用于根据延迟在经渲染的视频数据和经投影的视频数据之间切换的实施例。
两种方法可以考虑用于点对点通信,根据点对点通信,适合于例如接收器或客户端的一个端点的单个比特流由例如发送器或服务器的另一端点生成。根据在系统中看到的端到端延迟,可以应用以下方法中的一个:
·视口传输:经渲染的2D视口在服务器端生成并被直接呈现给客户端,
·投影视频传输:使用特定投影,例如ERP、CMP、金字塔、截棱锥,来发送整个360°视频的一部分。根据实施例,例如对于使用区域性分组的不等分辨率CMP,可以对一些部分重新采样。
现在更详细地描述视口传输和沉浸式内容或投影视频传输之间的依赖于延迟的切换。例如当考虑虚拟现实服务时,要考虑的关键方面中的一个是运动到光子的MTP延迟。MTP延迟可以被认为是在显示屏上完全反映用户移动所需的时间。换句话说,当用户做出相应的移动(例如开始向左看)时,在虚拟现实头戴机的屏幕上反映移动所需的时间是MTP延迟。为了提供良好或可接受的体验质量(QoE),需要例如小于15-20ms的低MTP延迟。当考虑整个360°视频、整个体积对象或整个3D对象(计算机生成的)在客户端处可用且其中客户端负责渲染适当的视口以呈现给用户的场景时,网络延迟不是关键的。换句话说,在此类情形中,为了提供良好或可接受的QoE,内部延迟(例如,当对用户的观看定向的改变作出反应时与客户端处的处理相关联的延迟)将低于MTP延迟。现在参考360°视频或360°视频通信的呈现作为沉浸式媒体通信或沉浸式媒体内容呈现的示例来更详细地描述这一点。
然而,当考虑360°视频通信时,其中发送器端点基于由接收器端点提供的反馈提供比特流以匹配接收器端点的观看方向,还将考虑网络的延迟,使得内部延迟和网络延迟的和低于MTP延迟以实现良好或可接受的QoE。
图4示出360°视频通信期间的视口传输延迟,其中发送器200在接收器202处提供包括与观看方向匹配的视频数据的比特流。在图4的示例中,在时间t0,接收器202基于来自传感器218的信号例如通过HMD 210的移动来检测观察方向的改变。在处理观看方向的改变的检测之后,在时间t1,接收器202经由网络204向发送器200报告新的观看方向ViewDIRa,并且在时间t2在发送器200处接收相应的接收器报告。接收器例如通过控制器206处理其已经存储在其存储装置220中的360°视频数据,以提供表示新观看方向ViewDIRa的图片Picn的视频数据。图片Picn由服务器200编码,并且在编码之后,在时间t3,视频数据通过网络204被发送到在t4接收经编码的视频数据Picn的接收器。接收器202例如通过控制器或客户端设备208对接收到的表示Picn的视频数据进行解码,并且在解码延迟之后,在时间t5在显示器212上输出新的观看方向ViewDira。图4示出在时间t0检测到观察方向的改变直到在时间t5将新的观察方向呈现在显示器212上之间的端到端延迟(E2E)230。
在图4中,箭头232和234表示网络延迟。如图4的示例中所示,相应的箭头232和234表示不同的延迟,因为在不同传输部分上发送的数据可以具有不同的大小。例如,传输232(例如接收器报告RR)可以包括几个比特,因为它包括关于观察方向的改变的反馈。另一方面,传输234包括更多的位,这是因为实际传送的数据包括表示新的观看方向ViewDira的编码画面。然而,根据其它实施例,可以假设传输232和234的相同传播延迟。
如上文所提及,图4示出其中服务器200生成用于传输到客户端的经渲染的视口使得客户端202可以在解码之后按原样显示接收到的视频的示例,即,客户端不需要执行接收到的视频数据的任何渲染。如上参考图4所述的视口传输是可接受的,只要E2E延迟230小于15-20ms或MTP延迟,或小于产生例如预定义的体验质量(QoE)的最大或可接受的MTP延迟。否则,如上所述,体验质量低于良好或可接受的水平。下表总结了一些示例性延迟,以ms指示了传输232的FeedbackLatency的持续时间和传输234的PictureTransLatency的持续时间。Rest列指示在图4中指示的内部延迟或其余延迟的持续时间,即,在检测观看方向的改变和将其报告给发送器之间的延迟、在发送器处用于生成新视频数据的处理时间和在接收器处用于处理接收的新图像数据的处理时间,即,在t0和t1之间、在t2和t3之间以及在t4和t5之间的时间。
Feedback<sub>Latency</sub> PictureTrans<sub>Latency</sub> Rest E2E 可接受?
2 10 3 15
4 12 3 19
7 15 3 25
9 17 3 29
2 10 8 20
4 12 8 24
7 15 8 29
9 17 8 33
E2E列指示与消息232、234相关联的组合延迟和其余处理持续时间。最后一列指示如果E2E低于或等于MTP延迟则E2E延迟是可接受的:“是”,或如果E2E高于MTP延迟则是不可接受的:“否”。因此,取决于相应的延迟,视口传输可能不是在每个情形中合适。
根据实施例,可以应用视口预测技术以改进以上参考图4所解释的视口传输方法,并允许满足MTP要求,而不管延迟在10-20ms阈值之上。根据其他实施例,例如,在6DoF内容的情况下,代替或除了视口预测之外,可以应用视点预测技术。该方法可以应用于能够以高精确度预测视口的情况。图5示出例如如图3中所示的使用视口预测技术的系统中的视口传输的示例。图5类似于图4,除了在时间t0,传感器218没有检测到观看方向的实际变化,相反,例如由客户端202的控制器208执行预测,指示被预测为在预测时段Δpred 236之后的时间t6发生的新观看方向ViewDir’a。以与上面参考图4所述相同的方式,在时间t1,将预测的观看方向ViewDir’a报告给发送器,发送器生成用于新图片Picn的视频数据,该视频数据被编码并在时间t3被发送到接收器202。在时间t4,观看方向的改变已经发生,并且在输出延迟之后,在时间t5在显示器212上显示新的图像。Apred 236是预测器查看未来的时间能力,也称为先行时间。先行时间可以被限定为以特定精度预测视口的未来时间实例与当前时间实例之间的时间差。可以从E2E延迟230中减去预测持续时间Δpred 236。考虑到参考图4描述的上表中的那些情况,当应用预测技术时,这些情况不易于满足MTP要求,下表示出对于这些情况中的一些,通过采用预测时间,可以实现可接受的总延迟。
Feedback<sub>Latencv</sub> PictureTrans<sub>Latencv</sub> Rest E2E ΔPred E2E-ΔPred 可接受?
7 15 3 25 5 20
9 17 3 29 5 24
4 12 8 24 10 14
7 15 8 29 10 19
9 17 8 33 10 23
关于图3,注意,假设接收器202执行视口预测,然而,根据其他实施例,可以在发送器侧执行预测。在发送器和接收器允许执行预测的情况下,发送器200和接收器202可以协商哪一侧执行预测,例如在360°视频通信会话的开始。
在视口传输方法的上述实施例中,假设HMD 210跟踪用户的姿势,并且接收器202例如使用RTCP消息向发送器200发信号通知视口信息。作为回报,发送器200自适应地渲染接收器的视口,对与视口对应的经渲染的2D视频进行编码,并发送经渲染的2D视频以在接收器202处显示。根据涉及360°视频的另外的实施例,取决于由接收器202向发送器200提供的延迟信息,由服务器200提供并转发到接收器202的经渲染的视频可以是客户端202处的用户的视口的过度配置版本。换句话说,在延迟较高的情况下,使得MTP延迟可能不允许良好的体验质量,如上表中最后一列中标记为“否”所指示的,可以在实际视口周围添加另外的边缘或回退区域,使得在MTP延迟要求内仍然可以发送视口的经渲染的2D版本。然而,只要所添加的边缘不是非常大,则视口的经渲染的2D版本的过度配置可能会起作用,即,在接收器处实际渲染的视频对应于与在发送器侧使用的观看方向稍微不同的观看方向,使得在接收器侧需要较小的校正因子,如在接收器处对解码的图像或画面的图像处理。如从用于从服务器向接收器提供更新的视频数据的视口传输方法的以上讨论中可以看出的,实际使用的2D视口传输是否足够取决于E2E延迟,其中可以由发送器和接收器通过RTCP报告消息的交换来测量E2E延迟。
为了解决由于E2E延迟比MTP延迟要求长而无法由服务器向客户端进行经渲染的2D视口传输的情况,根据实施例,发送器还例如在建立沉浸式媒体会话或360°视频通信会话时提供沉浸式媒体内容的未渲染部分,如完整的360°视频数据,代替提供经渲染的2D视口传输之外。例如,除了提供视口传输的实际配置之外,可以提供潜在的配置,根据该潜在的配置,如完整的360°视频数据的沉浸式媒体内容的一部分在没有被服务器渲染的情况下被发送,以在客户端进行渲染,用于例如经由HMD 210或用于显示视频数据的另一设备将其呈现给用户。
根据另外的实施例,可以存在使用例如会话描述协议SDP在服务器200和客户端202之间的协商,并且服务器200可以描述沉浸式媒体内容(例如体积视频的情况下或计算机生成图形的情况下的360°视频或3D内容)的一个或多个参数,例如补充增强信息SEI消息,其在360°视频的情况下指示投影类型、旋转和按区域分组RWP约束中的一个或多个。例如,在360°视频通信的会话开始时,服务器200和客户端202可以协商由客户端202使用的沉浸式媒体内容(如360°视频)的实际参数或参数值。在协商期间,客户端202可以根据装置的能力使用例如SDP来提供沉浸式媒体内容(如360°视频)的一个或多个额外的参数,和/或可以根据装置的能力修改或移除沉浸式媒体内容(如360°视频)的一个或多个参数。换句话说,可以执行关于是否基于端点能力和遭受的延迟来发送视口的2D版本或投影的360°视频或3D内容(在体积视频或计算机生成的图形的情况下)的协商。这意味着发送器可以提供360°视频/3D内容的2D视口版本和投影版本,并且取决于测量的延迟和例如预测能力,接收器可以确定是接受2D视口版本还是接受360°投影版本/3D内容。在沉浸式媒体会话开始时,可以进行SDP协商以决定是传送(可选地,经裁剪的)投影360°视频/3D内容还是仅传送与视口匹配的2D视频。
根据涉及360°视频的实施例,客户端可以通过包括一个或多个新元素或修改sprop-sei行来在SDP协商期间协商按区域分组(RWP)参数。这允许客户端根据其能力限制RWP格式。例如,客户端
·可以仅能够处理多达一定数量的区域,和/或
·可以仅允许高度或宽度受限的分组或投影区域,和/或
·可以仅理解例如在缩放、旋转或镜像中的特定变换类型,和/或
·可以不允许分组区域或只允许分组区域中的一些或所有分组区域具有围绕它们的保护带区域。
客户端可以包括例如以下一个或多个新的RWP参数相关元素,以约束可能的RWP格式:
·rwp-max-num-packed-regions,
·rwp-min-proj-region-width/height,
·rwp-min-packed-region-width/height,
·rwp-allowed-transform-types,
·rwp-guard-band-flag-constraint,
·rwp-max-scaling-factor。
根据其它实施例,代替RWP参数或除了RWP参数之外,有助于成功翘曲的镜头或失真参数可能是SDP能力协商的一部分。
客户端202的能力可以包括用于处理接收到的投影视频数据的能力,如渲染视频数据、移除过度配置等。
在会话期间并且基于SDP协商,服务器200可以根据客户端指定的参数或约束来编码投影视频。
注意,上述协商不限于提供沉浸式媒体内容(如完整的360°视频、数据)的经渲染的2D视口传输和未渲染的部分的实施例,相反,上述协商还可以结合这里描述的其他实施例来使用。
根据实施例,发送器可以提供2D视口版本以及沉浸式媒体内容,例如360°视频的投影版本,并且在会话开始时,可以执行涉及360°视频和/或参数集的上述参数的SDP协商,例如RFC 7798所限定的视频参数集、序列参数集和图片参数集。根据实施例,服务器200可以使用例如SDP来发送如下所表示的两个媒体版本(以下的SDP描述了投影的360°视频与2D渲染的视频之间的提供,但是同样适用于任何种类的沉浸式媒体内容)。
Figure BDA0003412453470000401
Figure BDA0003412453470000411
如m行中所指示的,所提供的视频数据具有针对两种不同格式的SDP有效载荷类型97和98:分别是投影的360°视频和2D经渲染的视频。对于有效载荷类型97中的投影的360°视频,除了如例如由RFC 7798限定的表示视频参数集、序列参数集和图片参数集的数据之外,还使用例如补充增强信息SEI消息来指示投影的视频的特性,该消息根据实施例指示投影类型、旋转和/或区域方式RWP分组约束。这些特性可以包括在如HEVC的RTP有效载荷格式RFC 7798中限定的sprop-sei参数中。另一方面,2D渲染的视频的有效载荷类型98包括上述各参数集vps、sps和pps。
更一般地说,根据实施例,SDP协商可以包括用于不同有效载荷类型的至少以下属性:
Figure BDA0003412453470000412
Figure BDA0003412453470000421
在360°视频通信的会话期间,客户端可以从服务器接收相应的视频数据分组,如实时传输协议RTP分组。在客户端在协商期间接受了服务器提供的不同视频格式的情况下,客户端可以立即或在RTCP分组之后的特定时间向服务器发送请求另一格式的消息,例如RTCP分组。服务器响应于该请求,以所请求的格式提供视频数据。
根据涉及体积视频/计算机生成图形的另外的实施例,可以通过SEI(如sprop-sei参数)的存在、通过特定视频编解码器或简档的指示、或通过SDP中的额外属性(例如,“VideoFormat6DoF”或“VideoFormat Volume”)来完成体积视频相对2D渲染视频的识别。
根据实施例,SDP可以包含关联信息,该关联信息指示2D渲染的视频表示与特定位置和观看方向相对应的场景,使得如果更适当的话,客户端可以选择通过2D渲染的视频来表示沉浸式媒体内容。在这种情况下,可以在发送器和接收器之间交换一些信息,例如位置和观看方向(具有一些频率)或观看方向的预测,如下面更详细地讨论的。
在体积场景的情况下,可以存在多个体积对象,每个体积对象可能包括若干比特流。例如,如果使用V-PCC,则对象可至少具有纹理比特流和几何结构比特流。如果采用基于网格的内容表示,则可以存在压缩的网格和纹理比特流。在此类情况下,SDP可以包含关于不同种类的比特流的信息,例如纹理、几何形状、以及根据其它实施例的比特流的变体。例如,可以有多个纹理比特流来以更详细的方式表示对象,例如,V-PCC中的不同纹理“层”。对于每个对象,相关比特流可以使用如下所述的SDP的现有分组机制彼此关联。
根据另外的实施例,不是如上所述指示两种媒体格式,而是根据另外的实施例,可以用信号发送能够从一种模式动态地切换到另一种模式的单个有效载荷数据。换句话说,在会话期间,由服务器提供的数据保持不变,然而,处理模式在用于传输2D视频数据的服务器处的渲染和提供沉浸式媒体内容之间改变,例如投影的视频数据。下面指示360°视频的相应SDP协商情况的示例。
Figure BDA0003412453470000431
在上述实施例中,如从与先前实施例的比较可以看出的,在m行中指示了单个视频格式,即,格式97,指示经投影的360°视频格式。另外,在acap属性中,指示视频格式可以动态地从2D切换到投影。
更一般地说,根据该实施例,SDP协商可以至少包括以下属性:
Figure BDA0003412453470000432
Figure BDA0003412453470000441
根据涉及3D内容(如体积视频或计算机生成图形)的实施例,单个有效载荷数据可以通过SDP协商来发信号通知,如下所示。
Figure BDA0003412453470000442
6DoF SEI可以从构造体积视频/计算机生成内容的底层视频比特流的SEI导出。例如,在V-PCC的情况下,可能存在包含纹理和几何信息的不同HEVC比特流。根据其它实施例,6DoF SEI可以作为单独的元数据来发送,例如使用V-PCC SEI消息。根据另外的实施例,针对每个底层比特流可以在SDP中单独发信号通知6DoF SEI或其它元数据。
根据其它实施例,在V-PCC的情况下,可以在SDP描述中使用不同的媒体行(m行),以发信号通知例如纹理、几何结构比特流。SDP具有允许将若干m行分组在一起的组属性,并且流可以使用”组:LS”语义(RFC 3388)。每个分量的识别可以通过编解码器参数或简档或通过限定的特定视频格式,诸如“视频格式几何结构”、“视频格式纹理”等来完成。下面指出了相应SDP协商的示例。
Figure BDA0003412453470000451
根据又一实施例,场景中可以存在多个体积/计算机生成对象。每个这样的对象可以由不同的分量组成,例如纹理、几何形状,并且对应于每个对象的不同分量的比特流可以被分组在一起并且在SDP描述中描述。换句话说,SDP描述可以包括多个组,每个组描述构造一个体积/计算机生成的对象的比特流的集合,例如,纹理、几何形状。在SDP协商期间,可以提供多个这样的对象,并且接收器可以例如通过在其应答中指示相应的组ID来请求特定对象。
在沉浸式媒体内容会话期间,类似于360°视频通信的会话,客户端可以从服务器接收相应的视频数据分组,例如实时传输协议RTP分组。在协商期间,如果客户端接受从一种模式到另一种模式的动态切换,则客户端可以立即或在RTCP分组之后的特定时间向服务器发送请求模式切换的消息,例如RTCP分组。响应于该请求,服务器可以例如使用RTP报头扩展来提供标记的或以其他方式修改的视频数据分组,以指示2D视频数据与投影的视频数据之间的切换。例如,为了使客户端知道沉浸式媒体内容(如360°视频)的表示方式(例如,2D相对于投影)的变化,切换发生的RTP分组可以被标记为切换分组,使得相关渲染信息可以被客户端足够早地考虑。这可以例如利用RTP报头扩展来完成。
根据实施例,服务器可以提前指示在特定时间段(例如,以时间、图片或分组的数量表示)之后发生模式切换,即,直到例如在特定时刻或在发送切换分组之后的特定时间段在2D视频数据和沉浸式媒体内容(如投影的视频数据)之间进行切换为止存在特定时间,使得接收器可以相应地调度切换操作模式。
根据其它实施例,接收器可以在会话期间通过发送要求服务器调度格式改变(例如从沉浸式媒体内容(例如投影的)到预渲染的2D视频)的适当的RTCP反馈消息,来触发从沉浸式媒体内容(例如,投影的视频)到预渲染的2D视频的动态切换(且反之亦然),即,同时保持使用上述单个有效载荷类型。在这样的实施例中,切换视频数据分组可以指示2D视频数据和沉浸式媒体内容(如经投影的视频数据)之间的立即切换。
根据又一另外的实施例,响应于由服务器200提供不同的视频格式或可动态切换的视频格式,基于系统中的延迟,接收器或客户端202可以选择所提供的格式中的一个,以请求从一个格式到另一格式的改变,使得在网络延迟低于特定阈值的情况下使用提供与视口匹配的经渲染的2D视频视口的视口传输,否则执行沉浸式媒体内容传输,如360°视频数据的投影视频传输。阈值可以是上述MTP延迟,或MTP延迟加上指示预测器查看未来的时间能力的预测先行时间,并且可以具有15ms和20ms之间的值。因此,根据该实施例,是发送视口的2D版本还是沉浸式媒体内容(如视口的经投影的360°版本)取决于系统中经历的延迟。发送器提供2D视口版本和沉浸式媒体内容,如360°视频的投影版本,并且取决于测量的延时或延迟,如上文描述的E2E延迟,确定2D视口版本或沉浸式媒体内容(如360°投影版本)是否由服务器200提供。根据另外的实施例,还可以考虑在接收器或发送器处的预测能力。根据另外的实施例,特定阈值是以下项中的一个或多个:
-网络延迟,
-端到端延迟,
-预定义的体验质量(QoE)的MTP延迟,
-减少预测先行时间的MTP延迟,该预测先行时间指示预测器向未来查看的时间能力。
在会话开始时,由于在服务器和客户端之间没有RTP或RTCP消息的交换,因此延迟是未知的。在这种场景中,可以不使用由服务器200和客户端202交换的相应RTCP报告来计算E2E延迟,从而根据另外的实施例,会话以沉浸式内容开始,例如在360°视频的情况下为投影视频,或在体积视频/计算机生成图形的情况下为3D内容,因为这可以在延迟要求内由服务器向客户端202提供,并且仍然允许在接收器处的时间用于渲染数据以将其呈现在显示器上。向接收器提供沉浸式内容(如投影视频数据)直到RTCP报告可用为止,基于RTCP报告可以可靠地建立延迟或RTT,并且从那时起,根据实施例,取决于当前E2E延迟,由发送器执行视口传输或者沉浸式内容或投影视频传输。
刚刚描述的在视口传输和投影的视频传输之间切换的实施例是有利的,因为其允许以延迟低于阈值(例如低于MTP延迟)的方式将视频数据从服务器发送到客户端,从而确保视口被呈现给的用户的良好体验质量。根据实施例,视口传输是优选传输模式,因为它不需要客户端执行任何处理密集型渲染步骤以用于呈现图像,而是,该处理发生在可以具有足够功率以用于执行渲染过程的服务器处,而在接收器处,可以存在功率约束,例如在设备是电池驱动的情况下。在MTP延迟长于期望阈值的情况下,无论有无预测,都执行所投影的视频传输,使得客户端接收视频数据并在客户端侧执行渲染。
2D视口模式的好处在于,在实际显示之前,可以在接收器侧仅利用轻量级处理步骤来显示内容。在解码2D渲染视频之后,在将过度配置的视频发送到接收器的情况下,接收器可以在解码视频之后应用裁剪以将视频匹配到客户端FoV并且在将其发送到显示器之前适应潜在的预测漂移。在一些情况下,接收器可应用一些计算上不昂贵的翘曲来补偿透镜特性,例如,当不对称地裁剪时在解码图像中的桶形/枕形失真。
另一方面,在投影视频的情况下,解码画面必须经历全面的渲染步骤,该步骤涉及典型的360°投影或处理按区域分组的视频数据,即,从任意变换的子画面的马赛克重构原始图像。该过程可能难以实时实现,尤其是如果渲染参数(例如,RWP)频繁改变(例如,在每一帧)。
根据另外的实施例,用于投影模式的所需的SEI或其他元数据可以与2D模式数据一起发送,或在切换点之前发送,使得GPU渲染器在切换之前初始化,以及在投影模式之前的特定时间,例如,在实际投影帧之前的一帧或两帧。类似于投影视频的情况,3D内容(如体积视频或6DoF中的计算机生成图形)也必须经历密集的渲染阶段。因此,在另一实施例中,可以在切换到3D内容传输之前的特定时间(例如在切换点之前)发送6DoF相关的元数据或在发生模式切换之前与2D模式数据一起。
根据另外的实施例,可以在发送器侧或在接收器侧应用上述视口预测机制和/或视点预测机制,从而影响是否发送沉浸式内容(如投影视频数据)或者2D视频数据的决定。视口预测是指基于例如先前传感器数据、内容特性和/或用户行为的分析来预测用户在未来时刻的观看方向。在3DoF情况下,用户可以通过例如在他佩戴HMD的情况下移动他的头部来改变他的视口。然而,用户具有对应于球心的静态视点,其中用户自球心观察球形内容。在6DoF环境中,其中用户可以执行空间中的平移移动,例如,除了偏航、俯仰和滚转移动之外的向前/向后、上/下、左/右,用户的每个平移移动改变用户的视点。视点具有空间中的位置,也称为视点位置,并且在该视点内部,用户可以具有不同的观看方向,即用户可以转动他的头并且环顾四周。视点改变可以被约束到例如用户可以访问的多个离散视点,例如通过使用控制器,或视点改变可以是无约束/自由视点,例如类似于真实世界体验。然后,用户可以在虚拟场景内完全导航。类似于3DoF场景中的视口预测,也可以预测用户的未来视点。
按照与以上参考图5所述的类似方式,当应用视口预测和/或视点预测时,可以从E2E延迟中减去相应的预测周期,从而在可靠的视口预测和/或视点预测的情况下,提供了在处理和传输要使用客户端202的显示器212呈现给用户的视频数据中处理较长延迟的可能性。根据实施例,如果在接收器侧执行预测,则接收器可以例如基于预测准确度、预测前瞻时间和/或RTT来确定要请求的特定视口和/或视点,并且例如使用特定RTCP反馈消息将其发信号通知给发送器。可以基于接收器的预测能力来协商导致从一种有效载荷类型切换到另一种有效载荷类型或在相同有效载荷类型内从一种模式切换到另一种模式的实际延迟。
注意,上述视口预测和/或视点预测不限于提供沉浸式内容(如完整的360°视频数据)的经渲染的2D视口传输和未渲染部分的实施例,相反,上述视口预测和/或视点预测也可以结合本文所述的其他实施例来使用。
根据各实施例,2D渲染的视口可与客户端202的视野FoV精确匹配,而根据其它实施例,2D渲染的视口可以包括可在客户端处显示的实际视口周围的边缘,该边缘可以是精确视口的特定百分比。实际的边缘或回退以及2D渲染视口的尺寸可以在服务器200和客户端202之间协商,例如在会话开始时。例如,如果视口大小被扩展,则用于渲染的透镜/失真参数可被指示给接收器以帮助裁剪/翘曲视口。注意,包括边缘的视口的使用不限于提供经渲染的2D视口传输和完整360°视频数据的未渲染部分的实施例,相反,包括边缘的视口的上述使用也可与本文所述的其他实施例结合采用。
本发明的实施例涉及视口预测能力和/或视点预测能力的交换,即,在发送器侧的预测能力相对在接收器侧的预测能力的交换。
当考虑两个端点,即例如图3中所示的发送器200和接收器202,可以执行预测的情况时,端点中的一个的预测机制可能比端点中的另一个的预测机制更有效。因此,根据实施例,可以交换服务器200和客户端202的预测能力,更具体地,两个端点可以描述它们可以执行预测的准确性和先行时间。根据实施例,这是经由RTCP完成的,并且在接收到包括接收器的预测能力的反馈FB消息之后,发送器可以使用该信息来决定它是否接受来自接收器的预测或发送器是否执行预测。根据实施例,上面提到的FB消息可以包括具有以下格式的RTCPFB消息的反馈控制信息FCI:
Figure BDA0003412453470000501
(i)先行时间(Lookahead time,LAT)代表预测器查看未来的时间能力。
(ii)准确度(Accuracy)代表针对给定的先行时间的预测准确度。
(iii)m是表示哪一侧执行预测的标志。
根据其它实施例,FCI可以包括LAT-准确度对的列表,例如{(LAT=100ms,Acc=95%),(LAT=200ms,Acc=80%)},而不是单个LAT-准确度对。根据实施例,当接收器首先执行预测并发送FB消息时,m被设置为1。然后发送器可以通过将m设置为0(这指示发送器具有更好的预测能力并执行预测)或将m保持为1(这指示发送器接受接收器执行预测)来向接收器发送FB消息。换句话说,发送器决定哪一侧执行预测。然后,发送器可以适当地调整媒体编码。
根据另一实施例,接收器可以决定哪一侧执行预测。在这种情况下,接收器设置标志m=1以指示其将执行预测。否则,如果接收器期望发送器执行预测,则它设置m=0。
预测信息可以通过将具有pred类型的a=rtcp-fb属性包括在相关媒体行中来设置,并且通配符属性(*)可以用于指示用于预测信令的RTCP反馈属性应用于所有有效载荷类型。用于基于RTCP FB消息作为SDP描述中的属性来发信号通知预测信息的属性可以如下:
a=rtcp-fb:*pred
或,更一般地:
a=rtcp-fb:*<att-name>
根据另一实施例,预测能力交换可以使用SDP协商来执行,在此期间,发送器和接收器这两个端点可指示它们将来可进行预测的距离以及准确性。根据实施例,可以列出多于一个的操作点,例如,具有90%准确度的100ms预测、具有70%准确度的200ms预测等。在协商之后,在选择接收器来执行预测的情况下,接收器返回指示未来时间和预测视口和/或视点预测的一个或多个反馈消息。
根据实施例,在6DoF通信场景中,预测能力交换可以另外包括每视点预测准确度。取决于视点上变化的内容特性,对于发送器或接收器两者来说,可能更容易或更难进行准确预测。例如,发送器可以预先分析内容,并确定特定视点包括用户最可能想要查看的许多显著区域或热点。因此,与仅包括用户可能更喜欢观看的几个热点的另一个视点相比,这样的视点可以被分类为更难预测。为了发信号通知这一点,预测能力信息还可以包括每视点预测能力。关于发送器还是接收器执行预测的最终决定可以通过考虑发送器或接收器执行更准确预测的视点的数量来获得。
根据其他实施例,可以基于先行时间以及每秒样本中的平均或最大漂移来执行预测能力交换。除了预测能力交换之外,例如在协商阶段期间,可以就在发送器和接收器之间交换的用于支持预测的参数达成一致。
在发送器要执行预测的情况下,接收器可以发送关于观看方向、报告间隔、速度、加速度等的反馈。
根据实施例,接收器可以在包括多个视点的6DoF场景中移动。如果选择接收器来执行预测,则接收器可以分析先前的传感器数据,并且确定切换是否更可能发生在接收器当前正在观看的视点内,即,视口切换是否更可能,或视点是否更可能改变。例如,接收器可分析用户行为并观察到特定行为更可能导致视点切换,例如,视点内部减少的探索/环视,这可指示用户已完全探索特定视点并可能已增加移动到新视点的期望。
根据另一实施例,如果选择发送器来执行预测,则接收器发送关于其在6DoF场景内的实际观看方向和位置的反馈,并且发送器可以将接收器的实际传感器数据与其他用户的统计数据或内容信息组合,例如,在特定视口的哪个空间区域处,用户更可能改变他们的视点。
一旦选择了进行预测的端点,则在服务器和客户端之间的SDP中交换所需反馈的格式。例如,对于发送器预测,发送器可能只需要实际的观看方向并以给定的间隔报告,或发送器可能需要实际的观看方向、加速度等。例如,对于接收器侧预测,接收器可请求关于最可能内容的显著性信息或统计等。换句话说,在协商期间,发送器和接收器可以确定要交换的反馈消息和反馈内容。
在接收器将执行预测的情况下,发送器基于其关于内容特性的知识(例如,图像域显著性分析、用户行为的统计分析、脚本场景的先验知识等)可向接收器提供关于观看方向或区域的信息。接收器可以将该信息包括在其接收器侧预测过程中。例如,发送器可以向接收器指示与特定区域相对应的感兴趣区域的像素坐标或例如是偏航、俯仰、翻滚的方位。接收器可以将来自发送器的该信息与其从HMD传感器218接收的高分辨率运动或取向信息融合,并且提供与仅基于来自传感器218的数据的预测相比改进的预测。
当与在发送器侧预测的情况下要传送到发送器的传感器数据相比时,接收器侧或客户端侧预测可能是有利的,因为传感器数据可立即(或基本上没有延迟)可用并且具有更高的时间分辨率,例如1000Hz相比于90Hz。因此,接收器可以提供比发送器更好的预测准确度。
注意,涉及视口预测能力和/或视点预测能力的交换的实施例不限于提供完整360°视频数据的经渲染的2D视口传输和未渲染部分的实施例,而是,涉及视口预测能力和/或视点预测能力的交换的上述实施例也可以与本文中描述的其他实施例组合地采用。
本发明的实施例涉及关于预测视频观看方位对比于实际视频观看方位的误差或漂移报告。
根据实施例,接收器可以例如在RTCP报告内向发送器发送误差或漂移指示,从而发信号通知指示由发送器提供的特定观看方向或视点的2D经渲染的视口或沉浸式内容(如360°投影的视频数据)不匹配接收器处的实际观看方向。发送器可以使用误差或漂移来调整所使用的边缘或预取,或误差或漂移可以引起观看方位特定投影的改变,以具有更大或更小的高质量内容覆盖。
平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。可以使用如下所述的RTCP扩展来发信号通知漂移drift,如平均漂移或最大或最坏情况漂移:
Figure BDA0003412453470000531
根据另外的实施例,在漂移处于特定方向的情况下,例如在用户移动的方向上,即,预测的视口和/或预测的视点对应于相同方向上的较小移动,可以发信号通知漂移的方向,并且发送器可以通过在失配预测的方向上添加预取来调整其预测,从而导致非对称预取,即,在一个方向上的预取可以多于在另一方向上的预取。
根据其他实施例,如果在以经渲染的视口模式操作时发生接收器向发送器报告错误或漂移,并且如果漂移例如平均漂移在特定持续时间或时间段内高于特定阈值,或如果最差漂移超过特定阈值,则接收器可以决定从视口传输切换到投影视频传输。
注意,涉及错误或漂移报告的实施例不限于提供沉浸式内容(如完整的360°视频数据)的经渲染的2D视口传输和未渲染部分的实施例,相反,还可以结合这里描述的其他实施例来采用上述涉及错误或漂移报告的实施例。
同样的情况适用于视点或位置,其中以当前位置相比于发送内容的位置的差异的形式来指示误差/漂移。
本发明的实施例涉及在发送器和接收器之间交换中心凹形渲染信息。
根据实施例,接收器,如图3中的接收器202,可以采用中心凹形渲染染。接收器可以与发送器共享用于中心凹形渲染的算法的参数,使得发送器可以产生与中心凹形渲染的操作模式匹配的内容。
例如,降级函数可以用作基于观看方向的中心的距离的参数化质量函数,而另一个示例是提供导致内容的质量降级的区域或距离阈值。
又一实施例是在时间段上平均的眼睛运动区域的时间分布。例如,当考虑到接收器在95%的时间内注视覆盖视口的80%的区域的情况时,发送器可以决定调整传输,即,当与用户在95%的时间内注视的内部部分相比时,以较低的像素密度对视口的通常未被用户注视的外部部分进行编码。质量可映射到量化参数QP或其Δ或映射到另一度量。图6示出具有接收器所注视的中心区域202的视口200,并且该视口具有比围绕中心区域202的外部区域204更高的分辨率。
注意,关于中心凹形渲染信息的交换的实施例不限于提供渲染的2D视口传输和完整360°视频数据的未渲染部分的实施例,相反,上文描述的关于中心凹形渲染信息的交换的实施例也可以结合本文所述的其他实施例来采用。
虽然所述概念的一些方面已经在装置的上下文中进行了描述,但是明显的是,这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应块或项或特征的描述。
本发明的各种元件和特征可以使用模拟和/或数字电路以硬件实现,以软件实现,通过由一个或多个通用或专用处理器执行指令来实现,或实现为硬件和软件的组合。例如,本发明的实施例可以在计算机系统或另一处理系统的环境中实现。图7示出计算机系统500的示例。单元或模块以及由这些单元执行的方法的步骤可以在一个或多个计算机系统500上执行。计算机系统500包括一个或多个处理器502,例如专用或通用数字信号处理器。处理器502连接到通信基础设施504,例如总线或网络。计算机系统500包括主存储器506,例如随机存取存储器(RAM),以及辅助存储器508,例如硬盘驱动器和/或可移动存储驱动器。辅助存储器508可以允许将计算机程序或其他指令加载到计算机系统500中。计算机系统500还可以包括通信接口510,以允许软件和数据在计算机系统500和外部设备之间传输。通信可以是来自电子、电磁、光或能够由通信接口处理的其它信号。通信可以使用电线或电缆、光纤、电话线、蜂窝电话链路、RF链路和其它通信信道512。
术语“计算机程序介质”和“计算机可读介质”用于一般地指代有形存储介质,例如可移动存储单元或安装在硬盘驱动器中的硬盘。这些计算机程序产品是用于向计算机系统500提供软件的装置。计算机程序也称为计算机控制逻辑,其存储在主存储器506和/或辅助存储器508中。计算机程序也可以经由通信接口510接收。当执行该计算机程序时,该计算机程序使计算机系统500能够实现本发明。特别地,当执行计算机程序时,其使得处理器502能够实现本发明的过程,例如本文所述的任何方法。因此,这样的计算机程序可以表示计算机系统500的控制器。在使用软件实现本公开的情况下,软件可以存储在计算机程序产品中,并且使用可移动存储驱动器、接口(如通信接口510)加载到计算机系统500中。
可以使用其上存储有电可读控制信号的数字存储介质(例如,云存储、软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行以硬件或以软件的方式的实现,数字存储介质与可编程计算机系统协作(或能够协作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,以便执行这里描述的方法中的一个。
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行方法中的一个。程序代码例如可以存储在机器可读载体上。
其它实施例包括存储在机器可读载体上的用于执行本文所述的方法中的一个的计算机程序。因此,换句话说,本发明方法的实施例是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述的方法中的一个。
因此,本发明方法的另一实施例是一种数据载体(或数字存储介质,或计算机可读介质),包括记录在其上的用于执行本文所述方法中的一个的计算机程序。因此,本发明方法的进一步实施例是表示用于执行本文所述方法中的一个的计算机程序的数据流或信号序列。例如,数据流或信号序列可被配置为通过数据通信连接(例如通过因特网)被传递。另外的实施例包括处理构件,例如计算机或可编程逻辑设备,被配置为或适于执行本文所述的方法中的一个。另外的实施例实施例包括具有安装在其上的用于执行本文所述方法中的一个的计算机程序的计算机。
在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可用于执行本文所述方法的部分或全部功能。在一些实施例中,现场可编程门阵列可与微处理协作以执行本文所述的方法中的一个。通常,这些方法优选地由任何硬件装置执行。
上述实施例仅是本发明的原理的说明。需要理解的是,对于本领域其他技术人员来说,本文描述的布置以及细节的修改和变化将是显而易见的。因此,其意图仅通过随后的专利权利要求的范围来限制,而不通过以实施例的描述和解释所呈现的特定细节来限制。
参考文献
RFC 3550 RTP:A Transport Protocol for Real-Time Applications
RFC 7798 RTP Payload Format for High Efficiency Video Coding(HEVC)
RFC 8285 A General Mechanism for RTP Header Extensions
RFC 4585 Extended RTP Profile for Real-time Transport ControlProtocol(RTCP)-Based Feedback(RTP/AVPF)
RFC 3611 RTCP extended reports(XRs)
RFC 5968 Guidelines for Extending the RTP Control Protocol(RTCP)
3GPP TS 26.114 v16.0.0-IP Multimedia Subsystem(IMS);Multimediatelephony;Media handling and interaction。

Claims (118)

1.一种用于呈现沉浸式媒体内容的装置,其中,
所述装置用于:
从发送器获得表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据,以及
显示表示针对所述特定观看方向和/或针对所述特定视点的沉浸式内容的视频数据。
2.根据权利要求1所述的装置,其中,为了从所述发送器获得视频数据,所述装置用于:
-向所述发送器发信号通知所述特定观看方向和/或所述特定视点,以及
-从所述发送器接收针对所述特定观看方向和/或所述特定视点的视频数据。
3.根据权利要求1或2所述的装置,其中所述装置包括:
显示设备,例如HMD,用于向用户显示针对所述特定观看方向和/或所述特定视点的视频数据,
传感器,用于检测所述用户的观看方向和/或视点,以及
处理器,用于向所述发送器发信号通知检测到的观看方向和/或特定视点,并且处理接收到的视频数据以用于在所述显示设备上显示。
4.根据前述权利要求中的任一项所述的装置,其中针对表示所述沉浸式内容的视频数据的特定观看方向和/或特定视点,所述装置用于从所述发送器接收:
(i)第一视频数据,所述第一视频数据由所述发送器渲染并且表示视频数据的2D视口版本,所述视频数据表示针对所述特定观看方向和/或针对所述特定视点的沉浸式内容,或
(ii)第二视频数据,所述第二视频数据未由所述发送器渲染并且表示要由所述发送器发送的沉浸式内容的至少一部分。
5.根据权利要求4所述的装置,其中,在沉浸式媒体会话期间,所述装置用于根据所述接收器和所述发送器之间的延迟从所述发送器接收所述第一视频数据或所述第二视频数据。
6.根据权利要求5所述的装置,其中,延迟包括以下项中的一个或多个:
-端到端延迟,所述端到端延迟包括网络延迟、渲染延迟和编码延迟中的一个或多个,
-运动到光子MTP延迟,所述MTP延迟是从在所述接收器处检测到所述特定观察方向和/或所述特定视点的改变直到显示针对新的观察方向和/或新的视点的经渲染的视频数据为止的时间,其中所述MTP延迟可以减少预测先行时间。
7.根据权利要求5或6所述的装置,其中,
所述装置用于在所述延迟低于或处于例如15ms至20ms的特定阈值的情况下从所述发送器接收所述第一视频数据,以及
所述装置用于在延迟高于所述特定阈值的情况下从所述发送器接收所述第二视频数据。
8.根据权利要求7所述的装置,其中,
在所述发送器以第一格式提供表示2D视口版本的第一视频数据并且以第二格式提供表示未渲染的沉浸式内容的第二视频数据的情况下,所述装置用于向所述发送器发送消息,例如RTCP消息,从而请求立即在第一格式和第二格式之间切换或在所述消息之后的特定时间切换,或
在所述发送器使用相同的格式提供所述第一视频数据和所述第二视频数据并且提供从用于提供2D视口版本的第一处理模式到用于提供表示沉浸式内容的视频数据的未渲染部分的第二处理模式的动态切换的情况下,所述装置用于向所述发送器发送消息,例如RTCP消息,从而请求立即在第一模式和第二模式之间切换或在所述消息之后的特定时间切换。
9.根据权利要求7或8所述的装置,其中所述特定阈值是以下项中的一个或多个:
-网络延迟,
-端到端延迟,
-最大或可接受的运动到光子MTP延迟,
-对应于预定义的体验质量(QoE)的MTP延迟,
-减少预测先行时间的MTP延迟,所述预测先行时间指示预测器向未来查看的时间能力。
10.根据权利要求5至9中的任一项所述的装置,其中在沉浸式媒体会话开始时,当所述延迟仍然未知时,所述装置用于仅接受所述第二视频数据,直到所述延迟已知或可以被可靠地估计为止。
11.根据前述权利要求中任一项所述的装置,其中,
在沉浸式媒体会话开始时,所述装置用于与所述发送器协商,以及
当与所述发送器协商时,所述装置用于使用例如会话描述协议SDP从所述发送器接收表示沉浸式内容的视频数据的一个或多个参数,例如补充增强信息SEI消息。
12.根据权利要求11所述的装置,其中,
当与所述发送器协商时,所述装置用于还从所述发送器接收所述视频数据或格式能够在(i)所述第一视频数据与(ii)所述第二视频数据之间动态地切换的指示,以及
在所述沉浸式媒体会话期间,所述装置用于接收相应的视频数据分组,如实时传输协议RTP分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示所述第一视频数据与所述第二视频数据之间的切换,所标记的视频数据分组指示:
-所述第一视频数据和所述第二视频数据之间的立即切换,或
-在所述第一视频数据和所述第二视频数据之间切换之前的特定时间。
13.根据前述权利要求中任一项所述的装置,其中,所述装置包括提供视口预测和/或视点预测的预测器,或者所述装置用于从所述发送器接收所述视口预测和/或所述视点预测,所述视口预测指示在先行时间之后发生的从所述用户的当前观看方向到所述用户的新观看方向的改变,以及所述视点预测指示在所述先行时间之后发生的从所述用户的当前视点到所述用户的新视点的改变。
14.根据权利要求13所述的装置,其中视点改变是
-受限制的,例如,限于用户可以访问的多个离散视点,或
-不受限制的,例如,允许用户在虚拟场景中完全导航。
15.根据权利要求12或13所述的装置,其中,响应于所述视口预测和/或所述视点预测,所述装置用于例如基于预测准确度、所述先行时间和往返时间RTT来确定要发信号通知的特定视口和/或视点,并且使用反馈消息,例如RTCP反馈消息,向所述发送器发信号通知所述特定视口和/或视点。
16.根据权利要求13至15中任一项所述的装置,其中,在沉浸式媒体会话开始时,所述装置用于基于在所述装置和/或所述发送器处的预测能力与所述发送器协商所述特定阈值的值。
17.根据权利要求16所述的装置,其中所述预测能力包括每视点预测准确性,其中所述每视点预测准确性可以取决于所述视点的内容特性,例如所述用户最可能观看的显著区域的数量,将一视点归类为比另一视点更难预测。
18.根据权利要求16或17所述的装置,其中,
所述装置用于例如经由SDP向所述发送器发信号通知例如以随时间漂移或预测和现实的重叠的形式的准确度,以及所述装置执行所述视口预测和/或所述视点预测所用的先行时间,以允许所述发送器决定所述发送器接受来自所述装置的所述视口预测和/或所述视点预测或所述发送器执行所述视口预测和/或所述视点预测,以及
所述装置用于例如经由SDP从所述发送器接收指示所述视口预测和/或所述视点预测将由所述装置或所述发送器执行的信令。
19.根据权利要求16至18中任一项所述的装置,其中,
所述装置用于决定所述发送器或所述装置执行所述视口预测和/或所述视点预测,以及
所述装置例如经由SDP发信号通知所述发送器关于所述视口预测和/或所述视点预测将由所述装置或所述发送器执行的指示。
20.根据权利要求16至19中的任一项所述的装置,其中,在所述沉浸式媒体会话期间,
在所述视口预测和/或所述视点预测将由所述发送器执行的情况下,所述装置用于从所述发送器接收对在所述发送器处用于执行所述视口预测和/或所述视点预测所需的特定参数的请求,所述特定参数是例如观看方向、视点、报告间隔、速度或加速度,以及
在所述视口预测和/或所述视点预测将由所述装置执行的情况下,所述装置用于例如基于所述发送器的关于内容特性的知识,从所述发送器接收将由所述装置使用的关于特定观看方向和/或特定视点的特定预测信息,关于内容特性的知识是例如图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
21.根据权利要求13至20中任一项所述的装置,其中,在场景包括多个视点并且所述装置要执行预测的情况下,所述装置用于分析先前的传感器数据并且确定更可能在当前视点内发生切换还是所述视点将改变。
22.根据前述权利要求中任一项所述的装置,其中所述装置用于例如在RTCP报告中向所述发送器发送误差或漂移指示,所述误差或漂移指示发信号通知接收到的针对所述特定观看方向和/或所述特定视点的视频数据与实际观看方位和/或实际视点不匹配。
23.根据权利要求22所述的装置,其中所述装置用于发信号通知最坏情况漂移或平均漂移,其中所述平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且所述最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
24.根据权利要求22或23所述的装置,其中,在漂移处于特定方向的情况下,例如,预测的视口和/或预测的视点对应于预测的方向上的较小移动,所述装置用于发信号通知所述漂移的方向。
25.根据权利要求22至24中任一项所述的装置,其中,在所述装置处理第一视频数据并且平均漂移超过特定阈值达特定时间段或最坏情况漂移超过特定阈值的情况下,所述装置决定从所述第一视频数据切换到所述第二视频数据。
26.根据前述权利要求中任一项所述的装置,其中所述装置使用中心凹形渲染,并且向所述发送器发信号通知在所述中心凹形渲染算法中使用的相应参数,以允许所述发送器提供与所述中心凹形渲染的操作模式匹配的内容。
27.根据权利要求26所述的装置,其中在所述中心凹形渲染算法中使用的所述参数包括:
-基于到所述观看方向的中心的距离的降级函数,用作参数化质量函数,或
-导致针对内容的质量的下降的区域或距离阈值,或
-在时间段上平均的眼睛运动区域的时间分布,例如观看方向注视在覆盖视口的80%的区域的时间的95%,以允许所述发送器调整传输,例如,以较低的像素密度对用户通常未注视的外部部分进行编码。
28.一种用于向接收器提供沉浸式媒体内容的装置,其中,
所述装置用于:
从所述接收器接收用于在所述接收器处显示所述沉浸式内容的特定观看方向和/或特定视点的指示,以及
向所述接收器发送表示针对所述特定观看方向和/或针对所述特定视点的沉浸式内容的视频数据。
29.根据权利要求28所述的装置,其中所述装置用于提供:
(i)第一视频数据,表示对所述沉浸式内容加以表示的视频数据的特定观看方向和/或特定视点的2D视口版本,或
(ii)第二视频数据,表示要被发送的沉浸式内容的至少一部分,
其中,在要提供第一视频数据的情况下,渲染视频数据,对经渲染的视频数据进行编码并将经编码的视频数据发送到所述接收器,以及
其中,在要提供第二视频数据的情况下,对视频数据进行编码而不进行渲染,对描述所述沉浸式内容的参数的一个或多个消息进行编码,所述一个或多个消息是例如补充增强信息SEI消息,并且将经编码的视频数据和经编码的一个或多个消息发送到所述接收器。
30.根据权利要求29所述的装置,其中所述装置根据所述接收器与所述发送器之间的延迟向所述接收器提供所述第一视频数据或所述第二视频数据。
31.根据权利要求30所述的装置,其中,
在所述装置使用相同的格式提供所述第一视频数据和所述第二视频数据并且提供从用于提供所述2D视口版本的第一处理模式到用于提供表示所述沉浸式内容的视频数据的未渲染部分的第二处理模式的动态切换的情况下,所述装置用于:
从所述接收器接收请求消息,例如RTCP消息,用于立即在所述第一模式和第二模式之间切换或在所述消息之后的特定时间切换,以及
响应于请求,切换针对视频的处理模式,并且向所述接收器提供根据新模式处理的视频,以及
在所述装置以第一格式提供表示所述2D视口版本的第一视频数据并且以第二格式提供表示所述沉浸式内容的未渲染部分的第二视频数据的情况下,所述装置用于:
从所述接收器接收请求消息,例如RTCP消息,用于立即在所述第一格式和所述第二格式之间切换或在消息之后的特定时间切换,以及
响应于请求,使用所述第一格式或所述第二格式向所述接收器发送视频。
32.根据权利要求5所述的装置,其中所述延迟包括以下项中的一个或多个:
-端到端延迟,所述端到端延迟包括网络延迟、渲染延迟和编码延迟中的一个或多个,
-运动到光子MTP延迟,所述MTP延迟是从在所述接收器处检测到所述特定观察方向和/或所述特定视点的改变直到显示针对新的观察方向和/或新的视点的经渲染的视频数据为止的时间,其中所述MTP延迟可以减少预测先行时间。
33.根据权利要求30至32中任一项所述的装置,其中,
所述装置用于在延迟低于或处于例如15ms到20ms的特定阈值的情况下向所述接收器提供所述第一视频数据,以及
所述装置用于在延迟高于所述特定阈值的情况下向所述接收器提供所述第二视频数据。
34.根据权利要求33所述的装置,其中所述特定阈值是以下项中的一个或多个:
-网络延迟,
-端到端延迟,
-最大或可接受的运动到光子MTP延迟,
-对应于预定义的体验质量QoE的MTP延迟,
-减少预测先行时间的MTP延迟,所述预测先行时间指示预测器向未来查看的时间能力。
35.根据权利要求31至34中的任一项所述的装置,其中在沉浸式媒体会话开始时,当所述延迟仍然未知时,所述装置用于仅提供所述第二视频数据,直到所述延迟已知或可以被可靠地估计为止。
36.根据权利要求28至35中任一项所述的装置,其中,
在沉浸式媒体会话开始时,所述装置用于与所述接收器协商,以及
当与所述接收器协商时,所述装置用于使用例如会话描述协议SDP向所述接收器发送所述沉浸式内容的一个或多个参数,例如补充增强信息SEI消息。
37.根据权利要求36所述的装置,其中,
所述发送器的一个或多个SDP消息还包括所述视频数据或格式能够在(i)所述第一视频数据与(ii)所述第二视频数据之间动态切换的指示,以及
在所述沉浸式媒体会话期间,所述装置用于发送相应的视频数据分组,如实时传输协议RTP分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示所述第一视频数据与所述第二视频数据之间的切换,所标记的视频数据分组指示
-所述第一视频数据和所述第二视频数据之间的立即切换,或
-在所述第一视频数据和所述第二视频数据之间切换之前的特定时间。
38.根据权利要求28至37中任一项所述的装置,其中,所述装置包括提供视口预测和/或视点预测的预测器,或者所述装置用于从所述接收器接收所述视口预测和/或所述视点预测,所述视口预测和/或所述视点预测指示在先行时间之后发生的从接收器的用户的当前观看方向和/或当前视点到用户的新观看方向和/或新视点的改变。
39.根据权利要求38所述的装置,其中视点改变是
-受限制的,例如,限于用户可以访问的多个离散视点,或
-不受限制的,例如,允许用户在虚拟场景中完全导航。
40.根据权利要求38或39所述的装置,其中,响应于所述视口预测和/或所述视点预测,所述装置例如基于预测准确度、所述先行时间和往返时间RTT来确定要提供的特定视口和/或视点。
41.根据权利要求38至40中任一项所述的装置,其中,在沉浸式媒体会话开始时,所述装置用于基于在所述装置和/或所述发送器处的预测能力来与所述接收器协商所述特定阈值的值。
42.根据权利要求41所述的装置,其中所述预测能力包括每视点预测准确性,其中所述每视点预测准确性可以取决于所述视点的内容特性,例如所述用户最可能观看的显著区域的数量,将一视点归类为比另一视点更难预测。
43.根据权利要求41或42所述的装置,其中所述装置用于:
例如经由SDP从所述接收器接收例如以随时间漂移或预测和现实的叠加的形式的准确度,以及所述接收器执行所述视口预测和/或所述视点预测所用的先行时间,
决定所述装置接受来自所述接收器的所述视口预测和/或所述视点预测,或所述装置执行所述视口预测和/或所述视点预测,以及
例如经由SDP向所述接收器发信号通知所述视口预测和/或所述视点预测将由所述装置或所述接收器执行。
44.根据权利要求41至43中任一项所述的装置,其中,
在所述视口预测和/或所述视点预测将由所述装置执行的情况下,所述装置用于从所述接收器接收在所述发送器处用于执行所述视口预测和/或所述视点预测所需的特定参数,例如观看方向、视点、报告间隔、速度或加速度,以及
在所述视口预测和/或所述视点预测将由所述接收器执行的情况下,所述装置例如基于所述发送器的关于内容特性的知识,用于向所述接收器发送将由所述装置使用的关于特定观看方向和/或视点的特定预测信息,关于内容特性的知识是例如图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
45.根据权利要求38至44中任一项所述的装置,其中,在场景包括多个视点并且所述发送器要执行预测的情况下,所述装置用于从所述接收器接收关于所述场景内的当前观看方向和位置的反馈,并且将所述反馈与其他用户的统计或内容信息组合,用于确定更可能在当前视点内发生切换还是所述视点将改变,所述其他用户的统计或内容信息是例如所述用户更可能在特定视口的哪个空间区域处改变其视点。
46.根据权利要求28至45中任一项所述的装置,其中,
所述装置用于例如在RTCP报告中从所述接收器接收误差或漂移指示,所述误差或漂移指示发信号通知接收到的针对所述特定观看方向和/或所述特定视点的视频数据与所述装置处的实际观看方向和/或实际视点不匹配,以及
响应于所述误差或漂移,所述装置用于适配例如所使用的边缘或预取。
47.根据权利要求46所述的装置,其中所述装置用于接收最坏情况漂移或平均漂移,其中所述平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且所述最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
48.根据权利要求46或47所述的装置,其中,在所述漂移处于特定方向的情况下,例如,预测的视口和/或预测的视点对应于预测的方向上的较小移动,所述装置用于接收所述漂移的方向并且例如通过在失配的预测的方向上添加预取来适配其预测。
49.根据权利要求28至48中任一项所述的装置,其中所述接收器使用中心凹形渲染,并且所述装置用于从所述接收器接收在所述中心凹形渲染算法中使用的相应参数,并且提供与所述中心凹形渲染的操作模式匹配的内容。
50.根据前述权利要求中的任一项所述的装置,其中,所述沉浸式内容包括以下项中的一个或多个:
-三自由度3DoF内容,例如,一个或多个360°视频,
-六自由度6DoF内容,例如,捕获的体积对象,如真实对象,或例如真实对象的体积视频,
-3D对象,例如使用计算机图形生成,如计算机生成的影像(CGI)。
51.根据前述权利要求中的任一项所述的装置,其中要由所述发送器发送或由所述接收器接收的所述沉浸式内容包括以下项中的一个或多个:
-在360°视频或360°图形的情况下,经投影的视频传输,例如,使用特定投影发送的全部360°视频的一部分,
-在体积对象或体积视频的情况下,例如作为多个点云或作为网格的特定3D格式的针对整个体积对象或体积对象的一部分的3D数据传输,
-在3D计算机图形的情况下,例如游戏,以诸如多个点云或网格之类的特定3D格式的完整场景,例如多个体积对象。
52.根据前述权利要求中的任一项所述的装置,其中,所述沉浸式内容将通过以下被识别:
-特定补充增强信息SEI参数,例如sprop-SEI参数,
-特定视频编解码器或简档的指示,或
-通过会话描述协议SDP中的额外的属性,例如视频格式3DoF“videoformat 3DoF”或视频格式6DoF“videoformat 6DoF”或视频格式体积“videoformat Volumetric”。
53.根据前述权利要求中的任意一项所述的装置,其中,在所述沉浸式内容表示包括一个或多个体积对象的体积场景的情况下,所述沉浸式内容包括用于描述所述体积对象的相应属性的多个比特流,例如,至少纹理比特流和几何结构比特流,或压缩的网格比特流和纹理比特流。
54.根据权利要求53所述的装置,其中使用例如所述SDP来发信号通知不同的比特流的使用,其中所述SDP可包含关于不同种类的比特流及所述比特流的可能变体的信息。
55.根据权利要求53或54所述的装置,其中使用例如SDP的分组机制使描述体积对象的相应属性的多个比特流彼此关联。
56.一种系统,包括:
发送器,所述发送器包括根据权利要求28至55中任一项所述的装置,以及
接收器,所述接收器包括根据权利要求1至27或权利要求50至55中任一项所述的装置。
57.一种用于呈现沉浸式媒体内容的方法,所述方法包括:
由接收器从发送器获得表示针对特定观看方向和/或针对特定视点的沉浸式内容的视频数据,以及
在所述接收器处显示表示针对所述特定观看方向和/或针对所述特定视点的沉浸式内容的视频数据。
58.一种用于提供沉浸式媒体内容的方法,所述方法包括:
在发送器处接收用于在接收器处显示所述沉浸式内容的特定观看方向和/或特定视点的指示,以及
由所述发送器向所述接收器发送表示针对所述特定观看方向和/或针对所述特定视点的沉浸式内容的视频数据。
59.根据权利要求57或58所述的方法,其中所述接收器包括根据权利要求1至27或权利要求50至55中任一项所述的装置,和/或其中所述发送器包括根据权利要求28至55中任一项所述的装置。
60.一种包括指令的计算机程序产品,当程序由计算机执行时,所述指令使所述计算机执行权利要求57至59中任一项所述的方法。
61.一种用于与发送器进行360°视频通信的装置,其中,
所述装置用于:
从所述发送器获得取决于360°视频的特定观看方向的视频数据,以及
显示表示所述360°视频的特定观看方向的视频数据。
62.根据权利要求61所述的装置,其中,为了从所述发送器获得所述视频数据,所述装置用于:
向所述发送器发信号通知所述360°视频的特定观看方向,以及
从所述发送器接收针对所述360°视频的特定观看方向的视频数据。
63.根据权利要求61或62所述的装置,其中所述装置包括:
显示设备,例如HMD,用于向用户显示所述360°视频的特定观看方向的视频数据,
传感器,用于检测所述用户的观看方向,以及
处理器,用于向所述发送器发信号通知检测到的观看方向,并且用于处理接收到的视频数据以用于在所述显示设备上显示。
64.根据权利要求61到63中任一项所述的装置,其中针对所述360°视频的特定观看方向,所述装置用于向所述发送器请求(i)由所述发送器渲染并且表示所述360°视频的特定观看方向的2D视口版本的第一视频数据,或(ii)未由所述发送器渲染并且表示将由所述发送器使用特定投影发送的所述360°视频的至少一部分的第二视频数据。
65.根据权利要求64所述的装置,其中,在所述360°视频通信的会话期间,所述装置用于根据所述接收器和所述发送器之间的端到端延迟来向所述发送器请求所述第一视频数据或所述第二视频数据。
66.根据权利要求65所述的装置,其中所述端到端延迟是从在所述接收器处检测到所述特定观看方向的改变直到显示针对所述新观看方向的经渲染的视频数据为止的时间。
67.根据权利要求65或66所述的装置,其中,
所述装置用于在所述端到端延迟低于或处于例如15ms到20ms的特定阈值的情况下向所述发送器请求所述第一视频数据,以及
所述装置用于在所述端到端延迟高于所述特定阈值的情况下向发送器请求所述第二视频数据。
68.根据权利要求67所述的装置,其中:
在所述发送器以第一格式提供表示2D视口版本的第一视频数据并且以第二格式提供表示360°视频的未渲染部分的第二视频数据的情况下,所述装置用于向所述发送器发送消息,例如,RTCP消息,请求立即在第一格式和第二格式之间切换或在所述消息之后的特定时间切换,或
在所述发送器使用相同的格式提供所述第一视频数据和所述第二视频数据并且提供从用于提供2D视口版本的第一处理模式到用于提供360°视频的未渲染部分的第二处理模式的动态切换的情况下,所述装置用于向所述发送器发送消息,例如,RTCP消息,请求立即在第一模式和第二模式之间切换或在所述消息之后的特定时间切换。
69.根据权利要求67或68所述的装置,其中所述特定阈值是产生例如预定义的体验质量QoE的最大或可接受的运动到光子MTP延迟,或MTP延迟加上对预测器向未来查看的时间能力加以指示的预测先行时间。
70.根据权利要求65至69中任一项所述的装置,其中,在所述360°视频通信的会话开始时,当所述端到端延迟仍然未知时,所述装置用于仅接受所述第二视频数据,直到所述端到端延迟已知或可以被可靠地估计为止。
71.根据权利要求61至70中任一项所述的装置,其中,
在360°视频通信的会话开始时,所述装置用于与所述发送器协商,以及
当与所述发送器协商时,所述装置用于使用例如会话描述协议SDP从所述发送器接收所述360°视频的一个或多个参数,例如补充增强信息SEI消息,所述SEI消息指示投影类型、旋转和按区域分组RWP约束中的一个或多个。
72.根据权利要求71所述的装置,其中,当使用例如所述SDP与所述发送器协商时,所述装置用于:
根据所述装置的能力包括360°视频的一个或多个额外的参数,和/或
根据所述装置的能力,修改或移除所述360°视频的参数中的一个或多个,
向所述发送器发送360°视频的参数,以允许所述发送器根据所发送的参数对经投影的视频进行编码。
73.根据权利要求72所述的装置,其中,
所述360°视频的参数中的一个或多个包括按区域分组RWP参数,并且所述装置用于将一个或多个新元素包括到SDP消息中,以将RWP格式约束到所述装置的能力,
其中,所述RWP格式可指示例如以下约束中的一个或多个:
·rwp-max-num-packed-regions,指示分组区域的最大数量,
·rwp-min-proj-region-width/height,指示投影区域的最小宽度/高度,
·rwp-min-packed-region-width/height,指示分组区域的最小宽度/高度,
·rwp-allowed-transform-types,指示允许的变换类型,
·rwp-guard-band-flag-constraint,指示围绕分组区域的保护频带,
·rwp-max-scaling-factor,指示分组区域的最大比例因数。
74.根据权利要求71至73中任一项所述的装置,其中,
当与所述发送器协商时,所述装置用于还从所述发送器接收所述视频数据或格式能够在(i)所述第一视频数据与(ii)所述第二视频数据之间动态切换的指示,并且
在360°视频通信的会话期间,所述装置用于接收相应的视频数据分组,如实时传输协议RTP分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示所述第一视频数据与所述第二视频数据之间的切换,所标记的视频数据分组指示以下项:
所述第一视频数据和所述第二视频数据之间的立即切换,或
在所述第一视频数据和所述第二视频数据之间切换之前的特定时间。
75.根据权利要求61至74中任一项所述的装置,其中,所述装置包括提供视口预测的视口预测器,或所述装置用于从所述发送器接收所述视口预测,所述视口预测指示在所述先行时间之后发生的从所述用户的当前观看方向到所述用户的新观看方向的改变。
76.根据权利要求75所述的装置,其中,响应于所述视口预测,所述装置用于例如基于预测准确性、所述先行时间和往返时间RTT来确定要请求的特定视口,并且使用例如RTCP反馈消息的反馈消息来向所述发送器发信号通知所述特定视口。
77.根据权利要求75或76所述的装置,其中,在所述360°视频通信的会话开始时,所述装置用于基于在所述装置和/或所述发送器处的预测能力与所述发送器协商所述特定阈值的值。
78.根据权利要求77所述的装置,其中,
所述装置用于例如经由SDP向所述发送器发信号通知例如以随时间漂移或预测和现实的重叠的形式的准确度,以及所述装置执行所述视口预测所用的先行时间,以允许所述发送器决定所述发送器接受来自所述装置的视口预测或所述发送器执行所述视口预测,以及
所述装置用于例如经由SDP从所述发送器接收指示所述视口预测将由所述装置或者由所述发送器执行的信令。
79.根据权利要求77所述的装置,其中,
所述装置用于决定所述发送器或所述装置执行所述视口预测,以及
所述装置用于例如经由SDP向所述发送器发信号通知关于所述视口预测将由所述装置或者由所述发送器执行的指示。
80.根据权利要求77至79中任一项所述的装置,其中,在所述360°视频通信的会话期间,
在所述视口预测将由所述发送器执行的情况下,所述装置用于从所述发送器接收对在所述发送器处用于执行所述视口预测所需的特定参数的请求,所述特定参数是例如观看方向、报告间隔、速度或加速度,以及
在所述视口预测将由所述装置执行的情况下,所述装置用于例如基于所述发送器的关于内容特性的知识,从所述发送器接收将由所述装置使用的关于特定观看方向或特定区域的特定预测信息,关于内容特性的知识是例如图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
81.根据权利要求61至80中任一项所述的装置,其中,
所述视频数据与视口大小精确匹配,从而与所述显示设备的视野FoV匹配,或
所述视频数据包括视口周围的边缘区域,边缘区域是所述视口的特定百分比。
82.根据权利要求81所述的装置,其中,在所述360°视频通信的会话期间,如果所述视口大小包括边缘,则所述装置用于接收对用于渲染以辅助所述装置裁剪所述视口/使所述视口翘曲的透镜/失真参数的指示。
83.根据权利要求81或82所述的装置,其中,在所述360°视频通信的会话开始时,所述装置与所述发送器协商所述视频数据的维度和/或边缘区域。
84.根据权利要求61至83中任一项所述的装置,其中,所述装置用于例如在RTCP报告中向所述发送器发送误差或漂移指示,所述误差或漂移指示发信号通知接收到的针对所述特定观看方向的视频数据与所述装置处的实际观看方位不匹配。
85.根据权利要求84所述的装置,其中,所述装置用于发信号通知最坏情况漂移或平均漂移,其中所述平均漂移被发信号通知为在特定时间段内预测的视口与实际观看方位的比率,并且所述最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
86.根据权利要求84或85所述的装置,其中,在漂移处于特定方向的情况下,例如,预测的视口对应于预测的方向上的较小移动,所述装置用于发信号通知所述漂移的方向。
87.根据权利要求84至86中任一项所述的装置,其中,在所述装置处理所述第一视频数据并且所述平均漂移超过特定阈值达特定时间段或最坏情况漂移超过特定阈值的情况下,所述装置用于决定从所述第一视频数据切换到所述第二视频数据。
88.根据权利要求61至87中任一项所述的装置,其中所述装置用于使用中心凹形渲染,并且向所述发送器发信号通知在所述中心凹形渲染算法中使用的相应参数,以允许所述发送器提供与所述中心凹形渲染的操作模式匹配的内容。
89.根据权利要求88所述的装置,其中在所述中心凹形渲染算法中使用的所述参数包括:
基于到观看方向中心的距离的降级函数,用作参数化质量函数,或
导致针对内容质量的下降的区域或距离阈值,或
在时间段上平均的眼睛运动区域的时间分布,例如所述观看方向注视在覆盖视口的80%的区域的时间的95%,以允许所述发送器调整传输,例如,以较低的像素密度对用户通常未注视的外部部分进行编码。
90.一种用于与接收器进行360°视频通信的装置,其中,
所述装置用于:
从所述接收器接收在所述接收器处的360°视频的特定观看方向的指示,以及
向所述接收器发送针对360°视频的特定观看方向的视频数据。
91.根据权利要求90所述的装置,其中所述装置用于:
提供(i)表示所述360°视频的特定观看方向的2D视口版本的第一视频数据或(ii)表示将使用特定投影发送的所述360°视频的至少一部分的第二视频数据,
在提供第一视频数据的情况下,渲染视频数据,对经渲染的视频数据进行编码并将经编码的视频数据发送到所述接收器,以及
在提供所述第二视频数据的情况下,使用特定投影对所述视频数据进行编码而不进行渲染,对描述所述360°视频的参数的一个或多个消息进行编码,所述一个或多个消息是例如指示投影类型的消息、旋转和按区域分组RWP约束的补充增强信息SEI消息,并且将经编码的视频数据和经编码的一个或多个消息发送到所述接收器。
92.根据权利要求91所述的装置,其中,所述装置用于根据所述接收器与所述发送器之间的端到端延迟来向所述接收器提供所述第一视频数据或所述第二视频数据。
93.根据权利要求92所述的装置,其中,
在所述装置使用相同的格式提供所述第一视频数据和所述第二视频数据并且提供从用于提供所述2D视口版本的第一处理模式到用于提供所述360°视频的未渲染部分的第二处理模式的动态切换的情况下,所述装置:
从所述接收器接收请求消息,例如RTCP消息,用于立即在所述第一模式和所述第二模式之间切换或在消息之后的特定时间切换,以及
响应于请求,切换针对视频的处理模式,并且向所述接收器提供根据新模式处理的视频,以及
在所述装置以第一格式提供表示所述2D视口版本的第一视频数据并且以第二格式提供表示360°视频的未渲染部分的第二视频数据的情况下,所述装置用于:
从所述接收器接收请求消息,例如RTCP消息,用于立即在所述第一格式和所述第二格式之间切换或在消息之后的特定时间切换,以及
响应于所述请求,使用所述第一格式或所述第二格式向所述接收器发送视频。
94.根据权利要求92或94所述的装置,其中所述端到端延迟是从在所述接收器处检测到所述特定观看方向的改变直到显示针对新观看方向的经渲染的视频数据为止的时间。
95.根据权利要求92至94中任一项所述的装置,其中,
所述装置用于在所述端到端延迟低于或处于例如15ms到20ms的特定阈值的情况下向所述接收器提供第一视频数据,以及
所述装置用于在所述端到端延迟高于特定阈值的情况下向所述接收器提供第二视频数据。
96.根据权利要求95所述的装置,其中所述特定阈值是产生例如预定义的体验质量QoE的最大或可接受的运动到光子MTP)延迟,或MTP延迟加上对预测器向未来查看的时间能力加以指示的预测先行时间。
97.根据权利要求93至96中任一项所述的装置,其中在所述360°视频通信的会话开始时,当所述端到端延迟仍然未知时,所述装置用于仅提供所述第二视频数据,直到所述端到端延迟已知或可以被可靠地估计为止。
98.根据权利要求90至97中任一项所述的装置,其中,
在360°视频通信的会话开始时,所述装置与所述接收器协商,以及
当与所述接收器协商时,所述装置用于使用例如会话描述协议SDP向所述接收器发送360°视频的一个或多个参数,例如,补充增强信息SEI消息,所述SEI消息指示投影类型、旋转和按区域分组RWP约束中的一个或多个。
99.根据权利要求98所述的装置,其中,当使用例如所述SDP与所述接收器协商时,所述装置用于:
根据所述接收器的能力从所述接收器接收360°视频的一个或多个额外的参数,和/或根据所述接收器的能力从所述接收器接收在数量上修改或减少的360°视频的一个或多个参数,以及
根据接收到的参数来调度对经投影的视频的编码。
100.根据权利要求99所述的装置,其中,
所述360°视频的参数中的一个或多个包括按区域分组RWP参数,并且所述装置用于将一个或多个新元素包括到SDP消息中,以将RWP格式约束到所述装置的能力,
其中,所述RWP格式可指示例如以下约束中的一个或多个:
·rwp-max-num-packed-regions,指示分组区域的最大数量,
·rwp-min-proj-region-width/height,指示投影区域的最小宽度/高度,
·rwp-min-packed-region-width/height,指示分组区域的最小宽度/高度,
·rwp-allowed-transform-types,指示允许的变换类型,
·rwp-guard-band-flag-constraint,指示围绕分组区域的保护频带。
101.根据权利要求99或100所述的装置,其中,
所述发送器的一个或多个SDP消息还包括所述视频数据或格式能够在(i)所述第一视频数据与(ii)所述第二视频数据之间动态切换的指示,以及
在所述360°视频通信的会话期间,所述装置用于发送相应的视频数据分组,如实时传输协议RTP,分组,其中可以例如使用RTP报头扩展来标记视频数据分组,以指示所述第一视频数据与所述第二视频数据之间的切换,所标记的视频数据分组指示以下项:
所述第一视频数据和所述第二视频数据之间的立即切换,或
在所述第一视频数据和所述第二视频数据之间切换之前的特定时间。
102.根据权利要求90至101中任一项所述的装置,其中,所述装置包括提供视口预测的视口预测器,或所述装置将从所述接收器接收所述视口预测,所述视口预测指示在所述先行时间之后发生的从所述接收器的用户的当前观看方向到用户的新观看方向的改变。
103.根据权利要求102所述的装置,其中,响应于所述视口预测,所述装置例如基于预测准确度、所述先行时间和往返时间(RTT)来确定要提供的特定视口。
104.根据权利要求102或103所述的装置,其中,在所述360°视频通信的会话开始时,所述装置基于所述装置和/或所述发送器处的预测能力与所述接收器协商所述特定阈值的值。
105.根据权利要求104所述的装置,其中所述装置用于:
例如经由SDP从所述接收器接收例如以随时间漂移或预测和现实的叠加的形式的准确度,以及所述接收器执行所述视口预测所用的先行时间,
决定所述装置接受来自所述接收器的视口预测或所述装置执行所述视口预测,以及
例如经由SDP向所述接收器发信号通知所述视口预测将由所述装置或者由所述接收器执行。
106.根据权利要求104或105所述的装置,其中,
在所述视口预测将由所述装置执行的情况下,所述装置用于从所述接收器接收在所述发送器处用于执行所述视口预测所需的特定参数,例如,观看方向、报告间隔、速度或加速度,以及
在所述视口预测将由所述接收器执行的情况下,所述装置用于例如基于所述发送器的关于内容特性的知识,向所述接收器发送将由所述装置使用的关于特定观看方向或特定区域的特定预测信息,关于内容特性的知识是例如图片域显著性分析、用户行为的统计分析、脚本场景的先验知识。
107.根据权利要求90至106中任一项所述的装置,其中,
所述第一视频数据与视口大小精确匹配,从而与显示设备的视野FoV匹配,或
所述第一视频数据包括视口周围的边缘区域,边缘区域是所述视口的特定百分比。
108.根据权利要求107所述的装置,其中,在所述360°视频通信的会话期间,如果所述视口大小包括边缘,则所述装置用于向所述接收器发送用于渲染以辅助所述接收器裁剪/翘曲所述视口的透镜/失真参数的指示。
109.根据权利要求107或108所述的装置,其中,所述装置用于与所述接收器协商所述第一视频数据的尺寸和/或边缘区域。
110.根据权利要求90至109中任一项所述的装置,其中,
所述装置用于例如在RTCP报告中从所述接收器接收误差或漂移指示,所述误差或漂移指示发信号通知接收到的针对特定观看方向的视频数据与所述装置处的实际观看方位不匹配,以及
响应于所述误差或漂移,所述装置用于适配例如所使用的边缘或预取,或用于改变观看定向特定投影,以例如具有较大或较小的高质量内容覆盖。
111.根据权利要求110所述的装置,其中,所述装置用于接收最坏情况漂移或平均漂移,其中所述平均漂移被发信号通知为在特定时间段内预测的视口或视点与实际观看方位或视点位置的比率,并且所述最坏情况漂移被发信号通知为在特定时间段内获得的最大漂移值。
112.根据权利要求110或111所述的装置,其中,在所述漂移处于特定方向的情况下,例如,预测的视点对应于所预测的方向上的较小移动,所述装置用于接收所述漂移的方向并且例如通过在失配的预测的方向上添加预取来适配其预测。
113.根据权利要求90至102中任一项所述的装置,其中所述接收器使用中心凹形渲染,并且所述装置用于从所述接收器接收在所述中心凹形渲染算法中使用的相应参数,并且提供与所述中心凹形渲染的操作模式匹配的内容。
114.一种360°视频通信系统,包括:
发送器,所述发送器包括根据权利要求90至113中任一项所述的装置,以及
接收器,所述接收器包括根据权利要求61至89中任一项所述的装置。
115.一种用于360°视频通信的方法,所述方法包括:
由接收器根据在所述接收器处的360°视频的特定观看方向从发送器获得视频数据,以及
在所述接收器处显示表示所述360°视频的特定观看方向的视频数据。
116.一种用于360°视频通信的方法,所述方法包括:
在发送器处接收来自接收器的在所述接收器处的360°视频的特定观看方向的指示,以及
由所述发送器将针对360°视频的特定观看方向的视频数据发送到所述接收器。
117.根据权利要求115或116所述的方法,其中所述接收器包括根据权利要求61至89中任一项所述的装置,和/或其中所述发送器包括根据权利要求90至113中任一项所述的装置。
118.一种包括指令的计算机程序产品,当程序由计算机执行时,所述指令使得所述计算机执行根据权利要求115至117中任一项所述的方法。
CN202080043973.7A 2019-05-20 2020-05-20 沉浸式媒体内容呈现和交互式360°视频通信 Pending CN113966600A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP19175477.9 2019-05-20
EP19175477 2019-05-20
EP19194172.3 2019-08-28
EP19194172 2019-08-28
PCT/EP2020/064111 WO2020234373A1 (en) 2019-05-20 2020-05-20 Immersive media content presentation and interactive 360° video communication

Publications (1)

Publication Number Publication Date
CN113966600A true CN113966600A (zh) 2022-01-21

Family

ID=70738586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080043973.7A Pending CN113966600A (zh) 2019-05-20 2020-05-20 沉浸式媒体内容呈现和交互式360°视频通信

Country Status (6)

Country Link
US (1) US20220078396A1 (zh)
EP (1) EP3973684A1 (zh)
JP (1) JP7486527B2 (zh)
KR (1) KR20220011688A (zh)
CN (1) CN113966600A (zh)
WO (1) WO2020234373A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737050A (zh) * 2022-10-21 2023-09-12 荣耀终端有限公司 显示控制方法及装置
WO2023206332A1 (en) * 2022-04-29 2023-11-02 Intel Corporation Enhanced latency-adaptive viewport prediction for viewport-dependent content streaming

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220109433A (ko) * 2019-12-11 2022-08-04 인터디지털 브이씨 홀딩스 인코포레이티드 다중 뷰포인트 3DoF+ 콘텐츠의 인코딩 및 디코딩을 위한 방법 및 장치
KR20220127258A (ko) * 2019-12-20 2022-09-19 인터디지털 브이씨 홀딩스 프랑스 뷰-유도 스펙큘러리티를 갖는 볼류메트릭 비디오를 코딩 및 디코딩하기 위한 방법 및 장치
WO2022013326A1 (en) * 2020-07-16 2022-01-20 Nokia Technologies Oy Viewport dependent delivery methods for omnidirectional conversational video
US11785069B2 (en) * 2020-10-11 2023-10-10 The Research Foundation For The State University Of New York System and method for content-adaptive real-time video communication
EP4264919A1 (en) * 2020-12-15 2023-10-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Client-server communication for streaming of visual content
EP4250720A4 (en) * 2021-01-13 2024-05-22 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND IMAGE TRANSMISSION/RECEPTION METHODS
WO2022211476A1 (en) * 2021-03-30 2022-10-06 Samsung Electronics Co., Ltd. Method and apparatus for supporting teleconferencing and telepresence containing multiple 360 degree videos
KR20220135483A (ko) 2021-03-30 2022-10-07 삼성전자주식회사 이동 통신 시스템에서 영상 대화 서비스를 제공하기 위한 방법 및 장치
US20220337800A1 (en) * 2021-04-19 2022-10-20 Mediatek Singapore Pte. Ltd. Systems and methods of server-side dynamic adaptation for viewport-dependent media processing
US20240129562A1 (en) * 2022-10-14 2024-04-18 Rovi Guides, Inc. Systems personalized spatial video/light field content delivery

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063277A (zh) * 2014-03-03 2016-10-26 奈克斯特Vr股份有限公司 用于对内容进行流传输的方法和装置
CN106576158A (zh) * 2014-08-13 2017-04-19 瑞典爱立信有限公司 沉浸式视频
WO2018069412A1 (en) * 2016-10-12 2018-04-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Spatially unequal streaming
WO2018093851A1 (en) * 2016-11-17 2018-05-24 Intel Corporation Suggested viewport indication for panoramic video
WO2018106548A1 (en) * 2016-12-07 2018-06-14 Qualcomm Incorporated Systems and methods of signaling of regions of interest
CN108701369A (zh) * 2015-10-09 2018-10-23 华纳兄弟娱乐公司 针对虚拟现实的娱乐数据的制作与封装
CN109155873A (zh) * 2016-05-23 2019-01-04 佳能株式会社 改进虚拟现实媒体内容的流传输的方法、装置和计算机程序

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9686520B2 (en) * 2015-01-22 2017-06-20 Microsoft Technology Licensing, Llc Reconstructing viewport upon user viewpoint misprediction
CN106612426B (zh) * 2015-10-26 2018-03-16 华为技术有限公司 一种多视点视频传输方法及装置
US10432988B2 (en) * 2016-04-15 2019-10-01 Ati Technologies Ulc Low latency wireless virtual reality systems and methods
JP2017215875A (ja) * 2016-06-01 2017-12-07 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置、画像生成システム、および画像生成方法
KR102412955B1 (ko) * 2016-12-28 2022-06-24 소니그룹주식회사 생성 장치, 식별 정보 생성 방법, 재생 장치 및 화상 생성 방법
US20190104326A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Content source description for immersive media data
US10559126B2 (en) * 2017-10-13 2020-02-11 Samsung Electronics Co., Ltd. 6DoF media consumption architecture using 2D video decoder
US20190379877A1 (en) * 2017-10-24 2019-12-12 Lg Electronics Inc. Method for transmitting/receiving 360-degree video including fisheye video information, and device therefor
WO2019120575A1 (en) * 2017-12-22 2019-06-27 Huawei Technologies Co., Ltd. Vr 360 video for remote end users

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063277A (zh) * 2014-03-03 2016-10-26 奈克斯特Vr股份有限公司 用于对内容进行流传输的方法和装置
CN106576158A (zh) * 2014-08-13 2017-04-19 瑞典爱立信有限公司 沉浸式视频
CN108701369A (zh) * 2015-10-09 2018-10-23 华纳兄弟娱乐公司 针对虚拟现实的娱乐数据的制作与封装
CN109155873A (zh) * 2016-05-23 2019-01-04 佳能株式会社 改进虚拟现实媒体内容的流传输的方法、装置和计算机程序
WO2018069412A1 (en) * 2016-10-12 2018-04-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Spatially unequal streaming
WO2018093851A1 (en) * 2016-11-17 2018-05-24 Intel Corporation Suggested viewport indication for panoramic video
WO2018106548A1 (en) * 2016-12-07 2018-06-14 Qualcomm Incorporated Systems and methods of signaling of regions of interest

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023206332A1 (en) * 2022-04-29 2023-11-02 Intel Corporation Enhanced latency-adaptive viewport prediction for viewport-dependent content streaming
CN116737050A (zh) * 2022-10-21 2023-09-12 荣耀终端有限公司 显示控制方法及装置
CN116737050B (zh) * 2022-10-21 2024-05-10 荣耀终端有限公司 显示控制方法及装置

Also Published As

Publication number Publication date
WO2020234373A1 (en) 2020-11-26
JP7486527B2 (ja) 2024-05-17
EP3973684A1 (en) 2022-03-30
KR20220011688A (ko) 2022-01-28
JP2022533734A (ja) 2022-07-25
US20220078396A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
JP7486527B2 (ja) イマーシブメディアコンテンツの提示および双方向性の360°ビデオ通信
CN109891850B (zh) 用于减少360度视区自适应流媒体延迟的方法和装置
US20220239719A1 (en) Immersive viewport dependent multiparty video communication
US10582201B2 (en) Most-interested region in an image
US11159823B2 (en) Multi-viewport transcoding for volumetric video streaming
US11317124B2 (en) Apparatus and method for generating an image data stream
US20200404241A1 (en) Processing system for streaming volumetric video to a client device
US20220329883A1 (en) Combining Video Streams in Composite Video Stream with Metadata
Gül et al. IMMERSIVE MEDIA CONTENT PRESENTATION AND INTERACTIVE 360 VIDEO COMMUNICATION
CN112470481B (zh) 用于对基于图块的沉浸式视频进行编码的编码器和方法
JP7408798B2 (ja) 遠隔端末用の没入型テレビ会議およびテレプレゼンスのためのrtcpビューポートのシグナリングにおけるイベントベースのトリガ間隔
US20230319324A1 (en) Client-Server Communication for Streaming of Visual Content
US20240195966A1 (en) A method, an apparatus and a computer program product for high quality regions change in omnidirectional conversational video
US20240187673A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
EP4391550A1 (en) Processing content for extended reality applications
US20230217022A1 (en) Real-Time Wide-Angle Video Communication System
WO2021198554A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination