CN110832849B - 360度视频流式传输的预测性位率选择 - Google Patents
360度视频流式传输的预测性位率选择 Download PDFInfo
- Publication number
- CN110832849B CN110832849B CN201880016424.3A CN201880016424A CN110832849B CN 110832849 B CN110832849 B CN 110832849B CN 201880016424 A CN201880016424 A CN 201880016424A CN 110832849 B CN110832849 B CN 110832849B
- Authority
- CN
- China
- Prior art keywords
- view orientation
- user view
- metadata
- windows
- orientation metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 20
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000003139 buffering effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920002239 polyacrylonitrile Polymers 0.000 description 1
- 201000006292 polyarteritis nodosa Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/752—Media network packet handling adapting media to network capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
- H04L67/5681—Pre-fetching or pre-delivering data based on network characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/23439—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/637—Control signals issued by the client directed to the server or network components
- H04N21/6373—Control signals issued by the client directed to the server or network components for rate control, e.g. request to the server to modify its transmission rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/322—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
- H04L69/329—Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Transforming Electric Information Into Light Information (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
描述了360度视频流的预测性预先提取。获得360度视频流的用户视图取向元数据,所述360度视频流包括多个视窗的数据。基于所述用户视图取向元数据预先提取与所述视窗中的一个特定视窗的一个或多个高分辨率帧相对应的数据,并且显示这些帧。所述高分辨率帧的特征在于比剩余视窗具有更高的分辨率。
Description
优先权要求
本申请要求于2017年4月6日提交的申请号为15/481,324的美国专利申请的优先权,其全部内容通过引用并入本文。
技术领域
本公开的各方面涉及视频流式传输。具体来说,本公开涉及360度视频的流式传输。
背景技术
通过从围绕单个点布置的多个摄像机拍摄视频流并将视频流拼接在一起以创建单个连续视频图像来创建360度视频。现代编码器将连续视频图像分成多帧视频流。为了通过网络观看360度视频,服务器会向客户端发送这些多帧流。客户端对这些流进行解码并重新组合成在显示器上呈现的连续图像。
系统可以针对帧发送单个请求,下载所请求的帧,然后对它们进行组合以供显示。有时将这种动作组合称为提取动作。通常,为了可靠地流式传输视频而不出现中断,客户端还必须预先提取视频,这表示系统必须下载帧并在显示先前下载的帧之前对它们进行处理。这样,系统在正显示的已处理帧和需下载和处理的后续帧之间建立已处理帧的缓冲区。
对系统资源而言缓冲的代价可能非常高,在处理和存储高分辨率视频时尤为如此。为了节省带宽和减少所需的缓冲量,客户端可以只请求客户端视场内,即视窗内的高分辨率视频流帧。在这种情况下,客户端对除客户端当前视图之外的所有视图接收低分辨率视频流。该系统的一个问题在于客户端通常能够比请求、传送和缓冲高质量流更快地移动视场。因此,本领域需要一种允许客户端预测360度视频流中视场可能指向的位置并在视场移动之前提取相应的高分辨率视频流的系统。
附图说明
通过结合附图考虑以下详细描述,可以容易地理解本公开的教导,其中:
图1是根据本公开的一个方面的360度视频中的虚拟摄像机视场的示图。
图2是根据本公开的一个方面的等量矩形投影中的预测视频提取的示图。
图3是根据本公开的一个方面的立方体映射投影中的预测视频提取的示图。
图4是根据本公开的一个方面的用于显示360度视频的系统的框图。
图5是根据本发明的一个方面的用于决定何时改变帧的马尔可夫链的简化圆图。
图6是示出根据本公开的各方面的显示360视频的方法的流程图。
发明内容
通过本公开所涉及的预先提取360度视频的方法的各方面克服了与现有技术相关的缺点,该方法包括:获得360度视频流的用户视图取向元数据;预先提取由用户视图取向元数据确定的帧;以及根据用户视图取向元数据显示360度视频流的较高分辨率的帧。
具体实施方式
尽管为了说明的目的,下面的详细描述包括许多具体细节,但本领域普通技术人员将理解,对下面细节的许多变化和改变都处于本发明的范围内。因此,下面描述的本发明的示例性实施方案是在不丧失对所要求保护的发明的一般性且不对其施加限制的情况下阐述的。
引言
通常,在网络上流式传输360度视频涉及接收一组全部一种质量的视频流。较新的流式传输技术通过仅在查看器关注的区域加载高质量的流来减少带宽使用。这种技术具有额外的效果,即允许查看器加载更高分辨率的视频流,而不需要太多的时间或缓冲资源。
虽然所公开的技术允许查看器观看更高质量的视频流,但如果用户突然将视窗从高质量的视频流移开,可能会经历分辨率的不和谐下降。已经开发了本公开的各方面来消除这种不和谐的体验。
在其它情况下,360度视频的作者可能对查看器在360度视频的特定场景中应该看到什么有一些艺术家的视觉。根据现有技术方法,向查看器显示的场景中的这种细节可能由于显示低分辨率视频或者在查看器向另一方向查看时出现丢失。因此,已经开发了本公开的这些方面来提高所感知的360度视频流质量,并且允许作者针对查看器来定义视窗和视频质量。
作者启动的预先提取
如图1所示,在360度视频中,摄像机可以在许多方向上查看图像。摄像机101固定在点108处,场景100围绕在摄像机101的周围,以创建360度可视区域。摄像机可以围绕固定点108旋转以查看场景中的图像103。可以将场景分成称为视窗102的不同区域。每个视窗102可以是由客户端加载的不同视频流。如图2所示,可以将视频的每个部分划分到这些视窗中。摄像机101可以在任何方向上来改变取向,例如向上104、向下106、向左105或向右107,以从一个视窗102移动到另一视窗。
图2描绘了根据当前公开的各方面的等量矩形投影。360度场景200由一系列大小相等的矩形201至208组成。每个矩形可以是客户端装置加载并拼接在一起以供显示的单独视频流。每个矩形可以足够大以包括摄像机的视图,在这种情况下,矩形就是视窗201。可选地,几个矩形可以一起表示单个视窗(未示出)。
视频和图像的作者通常对他们希望内容的查看器看到什么有所了解。360度视频的创作者也不例外。如上所述,现有技术中显示的360度视频只有一种分辨率。在较低的分辨率下,查看器可能会丢失视频图像的重要方面。
根据本公开的各方面,作者可以针对客户端定义将加载的高分辨率帧的位置202。作者还可以在视频流中定义元数据209,客户端可以使用元数据209来预测性地加载与用户可能查看的360度视频的部分相对应的流的高分辨率视频内容。作为示例而非限制,元数据209可以是向量的形式,具有表示重要性的幅度及方向。在一些实现方式中,可以将时间编码在元数据209的旁边,或者可以将向量设置在固定时间步长间隔的流中。也将所定义的称为用户视图取向元数据。
在一些实现方式中,元数据可以在后端或服务器端生成,而无需客户端明确发送视图取向信息。作为示例而非限制,服务器可以基于客户端请求哪些流以及何时请求、然后映射哪个流属于哪个视窗来构建概率场。这假设客户端将针对当前客户端视窗选择最高质量的流。
元数据209可以与用户在视频流内移动视窗201的可能性相关联。可选地,根据作者的艺术视觉,作者定义的预先提取向量形式的元数据209可以是查看器的理想化移动向量。客户端装置可以跟踪视窗的实际移动210和元数据209。客户端装置可以预先提取实际视窗201中的帧和沿作者定义的预先提取向量202、203的帧。可选地,客户端可以仅沿作者定义的向量提取高分辨率帧202、203,以促使查看器将视窗移动到360度流中的不同位置。
作者定义的预先提取元数据不必是向量。作者可以简单地定义他们希望在显示202的某些时间内具有高分辨率的帧。因此,客户端可以在作者定义的某些时间提取作者定义的高分辨率帧。
作者还可以针对缩放功能将帧的某个区域定义为高分辨率。作者可以为帧的子部分提供详细水平的信息,使得帧的某个子部分被编码为高分辨率。可以将通知客户端该高分辨率子部分的位置的元数据发送到客户端,从而可以预先提取该流。
元数据209也可以用于在视频显示期间控制视窗201。作者可以选择让视窗201沿元数据209移动,而无需查看器的输入。这样,可以实现虚拟摄像师功能,并且作者可以在360度显示器上更好地显示艺术视觉。
制作定义的预先提取
在将效果添加到视频流的帧(也称为制作)期间,客户端可能希望预先提取高分辨率帧以匹配制作效果。作为示例而非限制,客户端可能希望在明显的响亮声响方向预先提取高分辨率帧。可选地,在制作过程中,客户端可能希望在存在许多特殊效果或特殊摄像机移动的位置预先提取帧。
根据本公开的各方面,客户端可以接收元数据,该元数据使客户端预先提取在制作期间定义的某些帧。如上所述,这些定义的帧可能更多地对应于特殊效果和声音提示,而非艺术视觉。也可以将制作定义的预先提取元数据称为用户取向元数据。
预测性预先提取
根据本公开的可选方面,如图2和图3所示,客户端可以使用预测性元数据来预先提取被确定处于潜在未来视窗中的流。预测性元数据可以在制作过程中生成,以确保终端查看器在其视场中接收到比采用单分辨率流的系统中更高的分辨率帧。
工作室可以使用从360度视频的查看器收集的筛选数据来生成查看器可能在任何时间观看视频中的何处的概率模型。该概率模型可以基于诸如360度视频中的当前视图取向、视频中的时间码、视频的过去视图等变量来定义用户从当前帧201移动到另一帧202或停留在当前帧201中的可能性。改变帧的概率可以由与当前显示的360度视频中的每个帧相关联的概率来表示,这通过图2所示的每帧201至208中的百分比来表示。可以将预测性预先提取数据称为用户取向元数据。
可选地,预测性预先提取元数据可以是否定的或相反/对立的数据。换言之,预先提取元数据可以相反表示查看器不太可能看哪里的一个或多个概率,而非用户可能看哪里的概率。
视频帧的预先提取不限于高分辨率流和低分辨率流。如图2所示,系统可以选择预先提取具有特定概率阈值水平的帧的中间分辨率205、206。同样,具有成为视窗204、207、208的低概率的帧将仅利用显示低分辨率图像来预先提取。作为另外的方面,作为示例而非限制,低视窗概率帧204、207、208可以比高概率帧得到更少的更新,可以例如每更新2次高概率流而仅更新一次低概率帧。更一般地,根据低概率流是否在视场中,最佳/高概率流的任何因素都可以用于更新该低概率流。在一些实现方式中,仍处于视图中的低概率流可以全高概率更新速率来进行更新,以避免拼接帧之间明显失调。
为了确定是否使用该概率元数据来预先提取流,客户端可以具有定义的阈值概率水平。当概率元数据确定查看器将视窗移动到某个帧的概率超过阈值概率水平时,客户端将预先提取该帧。在可选实施方案中,客户端可以基于概率元数据的保真度来预先提取帧。
预测性保真度检查
图3描绘了根据本公开的各方面的立方体映射投影。以每帧中的百分比进行表示的预测数据与视窗301的实际移动305不匹配。在该示例中,作者预测的预先提取向量303也与视窗301的实际移动向量305不匹配。在图3所示的情况下,实际视窗将在302结束,而系统将基于预测数据来预先提取帧301或基于作者定义的预先提取向量来预先提取帧304。因此,在图3的情况下,系统可以确定是继续遵循查看器取向元数据还是默认为单一质量水平。
客户端可以对概率的和作者定义的元数据的保真度进行连续或间歇的检查。客户端最初可以基于概率元数据和视窗301的实际取向来预先提取高分辨率帧。客户端然后可以根据视窗的取向和元数据来显示高分辨率帧。客户端可以根据概率的或作者定义的元数据进行检查以确定查看器是否已经将视窗移动到高分辨率帧。
在根据概率元数据或作者定义的预先提取向量确定视窗不在预先提取的帧内时,客户端可以停止使用元数据进行预先提取,并且仅提取视窗的当前视场中的高分辨率帧。在可选实施方案中,客户端可以连续地利用元数据来检查视窗移动的相关性。客户端可对不遵循概率元数据的视窗移动具有容差水平。该容差水平可以是,作为示例而非限制,丢失的预测帧与观察到的预测帧的比率,在这种情况下,随着比率增加到1,客户端可以转移到仅提取实际视窗内的帧。更一般地,可以通过统计量化一组值中的变化量来确定该容差水平。任何适当的可变性测量,例如标准偏差,可以应用于用户和元数据的固定或变化的窗口组。
后期制作预先提取生成
本公开的另一方面是基于终端查看器数据来生成预测性元数据。客户端装置可以从查看器收集关于视窗取向的数据。客户端装置可以使用该查看器数据来生成预测性数据,并且根据该预测性数据预先提取视频流。客户端装置还可以与其它客户端或服务器共享预测性数据,以生成或改善视频流的概率元数据。
客户端装置可以使用视窗取向数据来生成预测性数据。作为示例而非限制,客户端装置可以使用视窗的移动向量305来预测性地提取位于向量上并虑及移动速度的高分辨率视频流。可以将用户生成的预测性预先提取数据称为用户取向元数据。
客户端可以将视窗取向数据发送到数据收集中心,以生成更好的概率元数据供将来查看。除了作者定义的预先提取数据之外,数据收集中心可以使用视窗取向数据来生成视频流的元数据。所生成的元数据可以对作者定义的预先提取数据进行加权,使得除非客户端密切遵循过去用户定义的查看向量,否则优选预先提取作者定义的流。
服务器端预先提取
在本公开的可选实施方案中,服务器使用元数据来选择高分辨率流以发送给客户端装置。根据本实施方案的各方面,服务器所使用的元数据可以是作者定义的、从查看器生成的概率数据或其它预测性数据。服务器可以从客户端装置接收对360度视频流的请求。服务器可以检查所请求的流的查看器取向元数据。在找到这样的元数据时,服务器可以根据该元数据向客户端发送高分辨率流。服务器还可以接收实际的查看器取向数据,并且发送实际视窗视图中的高分辨率流。此外,服务器可以如上所述执行预测性保真度检查,以基于元数据确定是否应该继续发送高分辨率视频流。
实现方式
图4描绘了根据本公开的各方面的系统。该系统可以包括联接到显示器401和用户输入装置402的计算装置400。显示装置401可以是阴极射线管(CRT)、平板屏幕、触摸屏或显示文本、数字、图形符号或其它可视对象的其它装置的形式。用户输入装置402可以是控制器、触摸屏或允许用户与用户视图取向进行交互并选择360度视频流的其它装置。在一些实现方式中,显示器401可以是360度显示器,其被配置成针对沉浸式360度视频体验同时显示360度视频的多个视窗。在其它实现方式中,显示器401可以是传统的二维显示器。在这样的实现方式中,用户能够通过与计算装置进行交互来确定视窗。
计算装置400可以包括一个或多个处理器单元403,该处理器单元403可以根据诸如单核、双核、四核、多核、处理器-协同处理器、单元处理器等公知架构来进行配置。计算装置还可以包括一个或多个存储器单元404(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。
处理器单元403可以执行一个或多个程序,这些程序的一部分可以存储在存储器404中,并且处理器403可以例如通过经由数据总线405访问存储器来可操作地联接到存储器。可以将程序配置成基于接收到的视频流的元数据410来请求该视频流的帧。当由处理器执行时,程序可以使系统对高分辨率帧408进行解码,并且将可能处于查看器的视窗中的帧存储在缓冲器409中。
计算装置400还可以包括公知的支持电路,例如输入/输出(I/O)407、电路、电源(P/S)411、时钟(CLK)412和高速缓存413,它们可以例如经由总线405与系统的其它部件通信。。计算装置可以包括网络接口414。可以将处理器单元403和网络接口414配置成经由用于个人区域网(PAN)的例如蓝牙的适当网络协议来实施局域网(LAN)或PAN。计算装置可以可选地包括诸如磁盘驱动器、光盘驱动器、磁带驱动器、闪速存储器等大容量存储装置415,并且该大容量存储装置可以存储程序和/或数据。计算装置还可以包括用户接口416,以便于系统和用户之间进行交互。用户接口可以包括键盘、鼠标、光笔、游戏控制板、触控接口或其它装置。在一些实现方式中,用户可以使用接口416例如通过利用鼠标滚动或操纵操纵杆来改变视窗。在一些实现方式中,显示器401可以是如智能电话、平板电脑或便携式游戏装置中的手持显示器。在这样的实现方式中,用户接口416可以包括作为显示器401一部分的加速度计。在这样的实现方式中,可以例如通过适当的编程来对处理器403进行配置,以检测显示器取向的变化,并且使用该信息来确定视窗。因此,用户可以通过移动显示器来简单地改变视窗。
在一些实现方式中,可以将预测性元数据配置成实施马尔可夫链。图5示出了根据本公开的各方面的马尔可夫链的图形表示。每个圆圈代表状态501至506,例如360度视频中的视窗取向。在这个马尔可夫链中有六种状态代表一个立方体映射的视频流。每个箭头表示视窗将变为视频流的另一视窗的概率。这些转移概率可以由导演或制片人手工设定,由焦点组数据或实际查看器数据来确定。在视频流中的每个时间点,每个帧可以具有自身的马尔可夫概率。根据本公开的一个实施方案,系统可以仅接收表示从当前视窗取向转移到不同取向的马尔可夫概率的元数据,例如,显示501处的当前视窗的客户端将仅接收从当前视窗501移动到多个视窗502至506中的不同视窗或停留在当前视窗501中的概率。这样,系统可以通过在接收流的同时仅接收从当前状态转移的概率来减少初始加载时间和带宽使用。可选地,系统可以在视频流开始的每个时间点接收视频流的总体马尔可夫概率模型。该实施方案增加了流的初始加载时间,但减少了流式传输期间需要处理的总体信息。在另一实施方案中,系统可以在流式传输360度视频的同时在每个时间点接收马尔可夫概率模型。该实施方案以流处理为代价减少了前期的加载时间,但在客户端和服务器之间不同步的情况下,还包括额外的马尔可夫概率数据。
为了利用马尔可夫链模型实施如上所述的作者定义的预先提取元数据,系统可以对转移到沿作者定义的预先提取向量的状态的概率进行加权。因此,如果移动概率加上权重超过阈值,则客户端将启动该状态的预先提取。
根据本公开的各方面,客户端可以独立于视频流来接收所请求的视频流的查看器取向元数据。如果元数据是独立于视频流接收的,则该元数据必须与视频流在时间上同步。在当前公开的可选方面,作为示例而非限制,在360度视频流的数据头中,元数据可以作为视频流自身的一部分而被接收。
图6描绘了根据本公开的各方面的预测性位率选择的流程图。系统可以从网络请求视频流601。根据视频流的请求,系统可以从网络或在大容量存储存储器415中本地存储的或者从诸如光盘的存储介质或者从本领域已知的任何适当类型的数据存储装置中获得用户视图取向元数据602。应当注意,如上所述,也可以在流式传输期间获得该用户视图取向元数据。如上所述,查看器取向元数据可以通知系统在显示之前将提取的帧,包括用户尚未输入的可能视窗。因此,如上所述,系统将以较高分辨率预先提取可能视窗或期望视窗的帧以及初始起始视窗的帧,并且以较低分辨率预先提取360度视频流中的其余帧603。然后,如上所述,系统将通过例如显示装置401来显示预先提取的帧604。当显示预先提取的帧604时,系统可以继续605预先提取帧603,以产生在用户视场中具有更高分辨率帧的不间断360度视频流式传输体验。可选地,系统可以使用606预测性保真度检查607来确定是根据视图取向元数据608继续预先提取帧还是进入当前加载状态,在当前加载状态中,仅以较高的分辨率预先提取当前视窗中的帧。在当前加载状态下,如上所述,系统可以继续检查预测的保真度609,直到预测变得准确为止。此时,系统可以基于用户视图取向元数据603恢复预先提取608。
虽然以上是对本发明的优选实施方案的完整描述,但可以使用各种替换、修改和等同方案。因此,本发明的范围不应参照上述描述来确定,而是应参照所附权利要求及其等同方案的全部范围来确定。任何无论是否优选的特征都可以与任何其它无论是否优选的特征相结合。在所附权利要求中,除非另有明确说明,不定冠词“一”或“一个”指代该冠词后面的一个或多个物项的数量。所附权利要求不应被解释为包括装置加功能限制,除非在使用短语“用于......的装置”的给定权利要求中明确地叙述了这种限制。权利要求中未明确声明“用于”执行指定功能的任何元素,不应被解释为美国法典第35篇第112条第6款中规定的“装置”或“步骤”条款。
Claims (19)
1.一种方法,其包括:
a)获得包括多个视窗的数据的360度视频流的用户视图取向元数据;
b)预先提取与由所述用户视图取向元数据确定的所述多个视窗中的特定视窗的一个或多个高分辨率帧相对应的数据;
c)显示所述一个或多个高分辨率帧,其中所述一个或多个高分辨率帧的特征在于比所述多个视窗中的剩余视窗的分辨率更高;
d)对照实际用户视图取向来检查所述用户视图取向元数据,以及当在显示期间所述用户视图取向元数据与所述实际用户视图取向不一致时,禁用预先提取。
2.根据权利要求1所述的方法,其中所述用户视图取向元数据是作者定义的预先提取向量。
3.根据权利要求1所述的方法,其中所述用户视图取向元数据是被创建来匹配所述360度视频流的场景中的制作效果的预先提取向量。
4.根据权利要求1所述的方法,其中所述视图取向元数据是视窗帧变化的预测性概率。
5.根据权利要求4所述的方法,其中所述预测性概率通过焦点组生成。
6.根据权利要求4所述的方法,其中所述预测性概率是使用用户生成的帧位置数据来生成的。
7.根据权利要求4所述的方法,其中所述预测性概率还包括作者定义的预先提取向量。
8.根据权利要求7所述的方法,其中所述作者定义的预先提取向量是应用于视窗帧变化的所述概率的权重。
9.根据权利要求4所述的方法,其中所述预先提取帧包括将第一阈值应用于所述用户视图取向元数据,以确定所述多个视窗中的所述特定视窗。
10.根据权利要求4所述的方法,其中视窗帧变化的所述预测性概率是马尔可夫模型的概率。
11.根据权利要求1所述的方法,其中所述用户视图取向元数据是移动向量。
12.根据权利要求9所述的方法,其中b)包括当所述预测性概率超过第二阈值时预先提取中间分辨率帧。
13.根据权利要求1所述的方法,其中所述用户视图取向元数据表示用户可能看向哪里的概率。
14.根据权利要求1所述的方法,其中所述用户视图取向元数据表示用户不太可能看向哪里的概率。
15.根据权利要求1所述的方法,其中当在显示期间所述用户视图取向元数据与所述实际用户视图取向不一致时禁用预先提取包括:应用丢失帧阈值来确定是否禁用预先提取。
16.根据权利要求1所述的方法,其中预先提取与由所述用户视图取向元数据确定的一个或多个高分辨率帧相对应的数据包括:预先提取具有比帧的其余部分更高分辨率部分的所述帧。
17.一种非暂时性计算机可读介质,其包括用于使计算机执行以下方法的程序指令:
a)获得包括多个视窗的数据的360度视频流的用户视图取向元数据;
b)预先提取与由所述用户视图取向元数据确定的所述多个视窗中的特定视窗的一个或多个高分辨率帧相对应的数据;
c)显示所述一个或多个高分辨率帧,其中所述一个或多个高分辨率帧的特征在于比所述多个视窗中的剩余视窗的分辨率更高;
d)对照实际用户视图取向来检查所述用户视图取向元数据,以及当在显示期间所述用户视图取向元数据与所述实际用户视图取向不一致时,禁用预先提取。
18.一种系统,其包括:
处理器;
显示器,所述显示器联接到所述处理器;
存储器,所述存储器联接到所述处理器,所述存储器中具有处理器可执行指令,所述指令被配置成在被所述处理器执行时实施方法,所述方法包括:
a)获得包括多个视窗的数据的360度视频流的用户视图取向元数据;
b)预先提取与由所述用户视图取向元数据确定的所述多个视窗中的特定视窗的一个或多个高分辨率帧相对应的数据;
c)利用所述显示器显示所述一个或多个高分辨率帧,其中所述一个或多个高分辨率帧的特征在于比所述多个视窗中的剩余视窗的分辨率更高;
d)对照实际用户视图取向来检查所述用户视图取向元数据,以及当在显示期间所述用户视图取向元数据与所述实际用户视图取向不一致时,禁用预先提取。
19.根据权利要求18所述的系统,其中所述显示器是被配置成同时显示所述多个视窗的360度显示器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/481,324 US10547704B2 (en) | 2017-04-06 | 2017-04-06 | Predictive bitrate selection for 360 video streaming |
US15/481,324 | 2017-04-06 | ||
PCT/US2018/022259 WO2018187003A1 (en) | 2017-04-06 | 2018-03-13 | Predictive bitrate selection for 360 video streaming |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110832849A CN110832849A (zh) | 2020-02-21 |
CN110832849B true CN110832849B (zh) | 2022-01-11 |
Family
ID=63711412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880016424.3A Active CN110832849B (zh) | 2017-04-06 | 2018-03-13 | 360度视频流式传输的预测性位率选择 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10547704B2 (zh) |
EP (1) | EP3607739B1 (zh) |
JP (2) | JP6867501B2 (zh) |
CN (1) | CN110832849B (zh) |
WO (1) | WO2018187003A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10547704B2 (en) | 2017-04-06 | 2020-01-28 | Sony Interactive Entertainment Inc. | Predictive bitrate selection for 360 video streaming |
US20220150464A1 (en) * | 2019-03-08 | 2022-05-12 | Sony Group Corporation | Image processing apparatus, image processing method, and image processing program |
CN110166850B (zh) * | 2019-05-30 | 2020-11-06 | 上海交通大学 | 多重cnn网络预测全景视频观看位置的方法和系统 |
US10972789B2 (en) | 2019-06-03 | 2021-04-06 | At&T Intellectual Property I, L.P. | Methods, systems, and devices for providing service differentiation for different types of frames for video content |
CN110248178B (zh) * | 2019-06-18 | 2021-11-23 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
US10972753B1 (en) * | 2019-09-13 | 2021-04-06 | Apple Inc. | Versatile tile coding for multi-view video streaming |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323552A (zh) * | 2015-10-26 | 2016-02-10 | 北京时代拓灵科技有限公司 | 一种全景视频播放方法及系统 |
CN105939482A (zh) * | 2015-03-05 | 2016-09-14 | 诺基亚技术有限公司 | 视频流式传输方法 |
CN106060570A (zh) * | 2016-06-30 | 2016-10-26 | 北京奇艺世纪科技有限公司 | 一种全景视频图像播放、编码方法及装置 |
CN106537894A (zh) * | 2014-07-14 | 2017-03-22 | 索尼互动娱乐股份有限公司 | 用于回放全景视频内容的系统和方法 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010056574A1 (en) * | 2000-06-26 | 2001-12-27 | Richards Angus Duncan | VTV system |
WO2004004320A1 (en) * | 2002-07-01 | 2004-01-08 | The Regents Of The University Of California | Digital processing of video images |
US7719563B2 (en) * | 2003-12-11 | 2010-05-18 | Angus Richards | VTV system |
JP4326406B2 (ja) * | 2004-06-15 | 2009-09-09 | シャープ株式会社 | コンテンツ視聴装置、テレビジョン装置、コンテンツ視聴方法、プログラム、及び記録媒体 |
US8101067B2 (en) * | 2004-10-13 | 2012-01-24 | Marathon Oil Canada Corporation | Methods for obtaining bitumen from bituminous materials |
JP2008145809A (ja) * | 2006-12-12 | 2008-06-26 | Sony Corp | 全周画像入出力装置 |
US8554784B2 (en) * | 2007-08-31 | 2013-10-08 | Nokia Corporation | Discovering peer-to-peer content using metadata streams |
EP2138323A1 (fr) * | 2008-06-23 | 2009-12-30 | The Swatch Group Research and Development Ltd. | Pièce décorative réalisée par incrustation |
JP5428509B2 (ja) * | 2009-05-11 | 2014-02-26 | ソニー株式会社 | 2次元固体撮像装置、及び、2次元固体撮像装置における偏光光データ処理方法 |
JP5511361B2 (ja) | 2009-12-22 | 2014-06-04 | キヤノン株式会社 | 画像表示装置およびその制御方法、プログラム |
US8874538B2 (en) | 2010-09-08 | 2014-10-28 | Nokia Corporation | Method and apparatus for video synthesis |
US8953022B2 (en) * | 2011-01-10 | 2015-02-10 | Aria Glassworks, Inc. | System and method for sharing virtual and augmented reality scenes between users and viewers |
US10585472B2 (en) | 2011-08-12 | 2020-03-10 | Sony Interactive Entertainment Inc. | Wireless head mounted display with differential rendering and sound localization |
IN2013CH03069A (zh) * | 2013-07-09 | 2015-08-28 | Samsung India Software Operations Pvt Ltd | |
US20150124171A1 (en) * | 2013-11-05 | 2015-05-07 | LiveStage°, Inc. | Multiple vantage point viewing platform and user interface |
JP6178705B2 (ja) | 2013-11-15 | 2017-08-09 | 日本電信電話株式会社 | 映像配信システム、映像配信装置及び映像配信プログラム |
GB2525170A (en) * | 2014-04-07 | 2015-10-21 | Nokia Technologies Oy | Stereo viewing |
US10356022B2 (en) * | 2014-07-06 | 2019-07-16 | Movy Co. | Systems and methods for manipulating and/or concatenating videos |
US10547825B2 (en) * | 2014-09-22 | 2020-01-28 | Samsung Electronics Company, Ltd. | Transmission of three-dimensional video |
US9686520B2 (en) * | 2015-01-22 | 2017-06-20 | Microsoft Technology Licensing, Llc | Reconstructing viewport upon user viewpoint misprediction |
JP6359993B2 (ja) | 2015-03-09 | 2018-07-18 | 日本電信電話株式会社 | 映像配信方法、映像配信装置及び映像配信プログラム |
US9906590B2 (en) | 2015-08-20 | 2018-02-27 | Verizon Digital Media Services Inc. | Intelligent predictive stream caching |
EP3347810A1 (en) * | 2015-09-10 | 2018-07-18 | Google LLC | Playing spherical video on a limited bandwidth connection |
US10096130B2 (en) | 2015-09-22 | 2018-10-09 | Facebook, Inc. | Systems and methods for content streaming |
US9858706B2 (en) * | 2015-09-22 | 2018-01-02 | Facebook, Inc. | Systems and methods for content streaming |
US20170103577A1 (en) * | 2015-10-12 | 2017-04-13 | Cinova Media | Method and apparatus for optimizing video streaming for virtual reality |
US10476922B2 (en) * | 2015-12-16 | 2019-11-12 | Disney Enterprises, Inc. | Multi-deterministic dynamic linear content streaming |
US10484621B2 (en) * | 2016-02-29 | 2019-11-19 | Gopro, Inc. | Systems and methods for compressing video content |
US10645362B2 (en) * | 2016-04-11 | 2020-05-05 | Gopro, Inc. | Systems, methods and apparatus for compressing video content |
US10602191B2 (en) * | 2016-05-13 | 2020-03-24 | Gopro, Inc. | Apparatus and methods for video compression |
US10462466B2 (en) * | 2016-06-20 | 2019-10-29 | Gopro, Inc. | Systems and methods for spatially selective video coding |
US10388075B2 (en) * | 2016-11-08 | 2019-08-20 | Rockwell Automation Technologies, Inc. | Virtual reality and augmented reality for industrial automation |
US10547704B2 (en) * | 2017-04-06 | 2020-01-28 | Sony Interactive Entertainment Inc. | Predictive bitrate selection for 360 video streaming |
MX2019014416A (es) * | 2017-06-02 | 2020-02-05 | Vid Scale Inc | Suministro de video en 360 grados a través de la red de próxima generación. |
JP6599966B2 (ja) * | 2017-12-25 | 2019-10-30 | ファナック株式会社 | 電子装置 |
US10873614B2 (en) * | 2018-01-17 | 2020-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for configuration and deployment of media processing in the network |
-
2017
- 2017-04-06 US US15/481,324 patent/US10547704B2/en active Active
-
2018
- 2018-03-13 JP JP2019541128A patent/JP6867501B2/ja active Active
- 2018-03-13 EP EP18781769.7A patent/EP3607739B1/en active Active
- 2018-03-13 WO PCT/US2018/022259 patent/WO2018187003A1/en unknown
- 2018-03-13 CN CN201880016424.3A patent/CN110832849B/zh active Active
-
2020
- 2020-01-22 US US16/749,225 patent/US11128730B2/en active Active
-
2021
- 2021-04-08 JP JP2021065818A patent/JP7129517B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537894A (zh) * | 2014-07-14 | 2017-03-22 | 索尼互动娱乐股份有限公司 | 用于回放全景视频内容的系统和方法 |
CN105939482A (zh) * | 2015-03-05 | 2016-09-14 | 诺基亚技术有限公司 | 视频流式传输方法 |
CN105323552A (zh) * | 2015-10-26 | 2016-02-10 | 北京时代拓灵科技有限公司 | 一种全景视频播放方法及系统 |
CN106060570A (zh) * | 2016-06-30 | 2016-10-26 | 北京奇艺世纪科技有限公司 | 一种全景视频图像播放、编码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US10547704B2 (en) | 2020-01-28 |
JP2021108481A (ja) | 2021-07-29 |
EP3607739A1 (en) | 2020-02-12 |
JP7129517B2 (ja) | 2022-09-01 |
JP2020506614A (ja) | 2020-02-27 |
US11128730B2 (en) | 2021-09-21 |
WO2018187003A1 (en) | 2018-10-11 |
EP3607739A4 (en) | 2020-12-23 |
JP6867501B2 (ja) | 2021-04-28 |
CN110832849A (zh) | 2020-02-21 |
US20200162757A1 (en) | 2020-05-21 |
EP3607739B1 (en) | 2023-10-11 |
US20180295205A1 (en) | 2018-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110832849B (zh) | 360度视频流式传输的预测性位率选择 | |
US10306180B2 (en) | Predictive virtual reality content streaming techniques | |
US10204395B2 (en) | Stereoscopic virtual reality through caching and image based rendering | |
CA2942377C (en) | Object tracking in zoomed video | |
KR20180018045A (ko) | 동영상 녹화 방법 및 시스템 | |
EP3777208B1 (en) | Digital media system | |
US10499066B2 (en) | Method and apparatus for improving efficiency of content delivery based on consumption data relative to spatial data | |
KR20150006771A (ko) | 비디오의 선택된 부분들을 고해상도로 렌더링하는 방법 및 장치 | |
US20210398249A1 (en) | Image distribution device, image distribution system, image distribution method, and image distribution program | |
US10701333B2 (en) | System, algorithms, and designs of view-optimized zoom for 360 degree video | |
US11245887B2 (en) | Electronic device and operation method therefor | |
CN114531553B (zh) | 生成特效视频的方法、装置、电子设备及存储介质 | |
US20210266578A1 (en) | Image compression method and image decompression method | |
CN115002359B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN116934577A (zh) | 一种风格图像生成方法、装置、设备及介质 | |
US10204598B2 (en) | Predictive pre-decoding of encoded media item | |
CN114445600A (zh) | 一种特效道具的展示方法、装置、设备及存储介质 | |
CN111833459B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
WO2021124328A1 (en) | System and method of determining a region of interest in media | |
EP3654644A1 (en) | Electronic device and operation method therefor | |
CN111200759B (zh) | 一种全景视频的播放控制方法、装置、终端及存储介质 | |
WO2018185769A1 (en) | Smooth start playback of media | |
CN111200754B (zh) | 一种全景视频的播放方法、装置、终端及存储介质 | |
WO2020036099A1 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |