CN108271044A - 一种信息的处理方法及装置 - Google Patents
一种信息的处理方法及装置 Download PDFInfo
- Publication number
- CN108271044A CN108271044A CN201710214606.9A CN201710214606A CN108271044A CN 108271044 A CN108271044 A CN 108271044A CN 201710214606 A CN201710214606 A CN 201710214606A CN 108271044 A CN108271044 A CN 108271044A
- Authority
- CN
- China
- Prior art keywords
- information
- spatial
- target
- space
- spatial information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 45
- 238000003672 processing method Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims description 87
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 230000000007 visual effect Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 210000001508 eye Anatomy 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 101100238610 Mus musculus Msh3 gene Proteins 0.000 description 6
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000035807 sensation Effects 0.000 description 4
- 235000019615 sensations Nutrition 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 101100301559 Bacillus anthracis repS gene Proteins 0.000 description 1
- 101100468275 Caenorhabditis elegans rep-1 gene Proteins 0.000 description 1
- 101100247969 Clostridium saccharobutylicum regA gene Proteins 0.000 description 1
- 101100412434 Escherichia coli (strain K12) repB gene Proteins 0.000 description 1
- 101100184605 Escherichia coli mobA gene Proteins 0.000 description 1
- 101710084218 Master replication protein Proteins 0.000 description 1
- 101000708578 Milk vetch dwarf virus (isolate N) Para-Rep C3 Proteins 0.000 description 1
- 101710112083 Para-Rep C1 Proteins 0.000 description 1
- 101710112078 Para-Rep C2 Proteins 0.000 description 1
- 101100391699 Pseudomonas viridiflava gacA gene Proteins 0.000 description 1
- 101100114425 Streptococcus agalactiae copG gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- -1 rep2 Proteins 0.000 description 1
- 101150044854 repA gene Proteins 0.000 description 1
- 101150055347 repA2 gene Proteins 0.000 description 1
- 101150107738 repB gene Proteins 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 235000019613 sensory perceptions of taste Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000035923 taste sensation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/003—Navigation within 3D models or images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/55—Motion estimation with spatial constraints, e.g. at image or region borders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/239—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
- H04N21/2393—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4825—End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
- H04N21/64322—IP
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
- Image Processing (AREA)
Abstract
一种流媒体的信息的处理方法以及装置,其中流媒体的信息的处理方法包括:获取目标空间对象的目标空间信息,目标空间对象为目标视频数据中的两个图像的数据所关联的两个空间对象中的空间对象,两个图像的数据为两个图像的数据,目标空间信息包括同属性空间信息,同属性空间信息包括所述两个空间对象各自的空间信息之间相同的信息,两个空间对象中除目标空间对象外的其他空间对象的空间信息包括同属性空间信息;根据目标空间信息,确定要播放的视频数据。通过将一组同属性空间信息替代两个空间对象各自的空间信息中重复的部分,实现了减少空间信息的冗余,从而减少空间信息的数据量。
Description
技术领域
本发明涉及流媒体处理领域,尤其涉及一种信息的处理方法及装置。
背景技术
一、MPEG-DASH技术介绍
2011年11月,MPEG组织批准了DASH标准,DASH标准是基于HTTP协议传输媒体流的技术规范(以下称DASH技术规范);DASH技术规范主要由两大部分组成:媒体呈现描述(英文:Media Presentation Description,MPD)和媒体文件格式(英文:file format)。
1、媒体文件格式
媒体文件格式属于一种文件格式,在DASH中服务器会为同一个视频内容准备多种版本的码流,每个版本的码流在DASH标准中称为表示(英文:representation)。表示是在传输格式中的一个或者多个码流的集合和封装,一个表示中包含一个或者多个分段。不同版本的码流的码率、分辨率等编码参数可以不同,每个码流分割成多个小的文件,每个小文件被称为分段(或称分段,英文:segment)。在客户端请求媒体分段数据的过程中可以在不同的媒体表示之间切换。segment可以按照标准ISO/IEC 14496-12中的格式封装(ISO BMFF(Base Media File Format)),也可以是按照ISO/IEC 13818-1中的格式封装(MPEG-2 TS)。
2、媒体呈现描述
在DASH标准中,媒体呈现描述被称为MPD,MPD可以是一个xml的文件,文件中的信息是采用分级方式描述,如图1所示,上一级的信息被下一级完全继承。在该文件中描述了一些媒体元数据,这些元数据可以使得客户端了解服务器中的媒体内容信息,并且可以使用这些信息构造请求segment的http-URL。
在DASH标准中,媒体呈现(英文:media presentation),是呈现媒体内容的结构化数据的集合;媒体呈现描述(英文:media presentation description),一个规范化描述媒体呈现的文件,用于提供流媒体服务;时期(英文:period),一组连续的时期组成整个媒体呈现,时期具有连续和不重叠的特性;在MPD中,表示(英文:representation)是传输格式中一个或者多个码流的描述信息的集合和封装,一个表示中包含一个或者多个分段;自适应集(英文:AdaptationSet),表示同一媒体内容成分的多个可互替换的编码版本的集合,一个自适应集包含一个或者多个表示;子集(英文:subset),一组自适应集合的组合,当播放器播放其中所有自适应集合时,可以获得相应的媒体内容;分段信息,是媒体呈现描述中的HTTP统一资源定位符引用的媒体单元,分段信息描述媒体数据的分段,媒体数据的分段可以存储在一个文件中,也可以单独存储,在一种可能的方式中,MPD中会存储媒体数据的分段。
本发明有关MPEG-DASH技术的相关技术概念可以参考ISO/IEC 23009-1Information technology--Dynamic adaptive streaming over HTTP(DASH)--Part 1:Media presentation description and segment formats,中的有关规定,也可以参考历史标准版本中的相关规定,如ISO/IEC 23009-1:2013或ISO/IEC 23009-1:2012等。
二、虚拟现实(virtual reality,VR)技术介绍
虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真,可以使用户沉浸到该环境中。VR主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等,也称为多感知。自然技能是指人的头部转动,眼睛、手势、或其他人体行为动作,由计算机来处理与参与者的动作相适应的数据,并对用户的输入作出实时响应,并分别反馈到用户的五官。传感设备是指三维交互设备。当VR视频(或者360度视频,或者全方位视频(英文:Omnidirectional video))在头戴设备和手持设备上呈现时,只有对应于用户头部的方位部分的视频图像呈现和相关联的音频呈现。
VR视频和通常的视频(英文:normalvideo)的差别在于通常的视频是整个视频内容都会被呈现给用户;VR视频是只有整个视频的一个子集被呈现给用户(英文:in VRtypically only a subset of the entire video region represented by the videopictures)。
三、空间信息介绍
现有标准中,对空间信息的描述原文是“The SRD scheme allows MediaPresentation authors to express spatial relationships between SpatialObjects.A Spatial Object is defined as a spatial part of a content component(e.g.a region of interest,or a tile)and represented by either an AdaptationSet or a Sub-Representation.”
【中文】:空间信息是空间对象(即Spatial Objects)之间的空间关系(即spatialrelationships)。空间对象被定义为一个内容成分的一部分空间,比如现有的感兴趣区域(英文:region of interest,ROI)和tile;空间关系可以在Adaptation Set和Sub-Representation中描述。现有标准中,MPD中可以描述空间对象的空间信息。
在ISO/IEC 14496-12(2012)标准文档中,文件是由许多个盒(box)和完整盒(FullBox)构成的。每个Box由头部(Header)和数据(Data)组成。FullBox是Box的扩展。Header包含了整个Box的长度size和类型type。当size==0时,代表这是文件中最后一个Box;当size==1时,意味着Box长度需要更多bits来描述。Data是Box的实际数据,可以是纯数据也可以是更多的子Boxes。
在ISO/IEC 14496-12(2012)的标准文档中,使用“tref box”描述轨道(track)之间关系。比如:一个MP4文件中有三条视频(video)track,ID分别是2、3、4,以及三条audiotrack,ID分别是6、7、8。可以在track 2与track 6的tref box中指定一下,将2与6两条track绑定起来播放。
在目前的标准的规定中,例如ISO/IEC 23000-20,媒体内容的track和元数据的track之间的联系采用的联系类型(reference_type)是‘cdsc’,比如在视频的track中解析到关联的track,且关联的类型是‘cdsc’,说明关联的track是用来描述视频的track的元数据track。但是在实际应用中,描述媒体内容的元数据有很多种类,不同的种类能够提供给用户的使用方法不同。采用现有的方法客户端需要将文件中包含的所有track都解析完之后,再根据媒体内容的track和元数据的track之间的联系采用的联系类型来确定和媒体内容相关联的track的属性,从而确定视频track都具有那些属性,不同的属性能够够给用户提供哪些体验。也就是说,现有的方法中如果要确定某媒体track在呈现时客户端能够有哪些操作,需要依赖于文件中所有的track解析完成才能确定,增加了客户端实现流程中的复杂度。
随着虚拟现实(英文:virtual reality,VR)技术的日益发展完善,360度视角等VR视频的观看应用越来越多地呈现在用户面前。在VR视频观看过程中,用户随时可能变换视角(英文:field of view,FOV),每个视角对应一个空间对象(可以理解为VR视频中的一个区域)的视频数据,视角切换时呈现在用户视角内的VR视频图像也应当随着切换。
现有技术在VR视频呈现时会呈现能够覆盖人眼视角的空间对象的视频数据,用户观看的空间对象可以是多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域,该区域会随着时间的变化而不断变化。为了标识图像数据所关联的空间对象在在VR视频中的位置,需要将用于描述空间对象在VR视频中位置的空间信息封装在相应的文件中。由于视频数据中的图像数据对应大量图像,因此大量图像的大量的空间信息会造成数据量过大。
发明内容
本发明实施例提供了一种流媒体的信息的处理方法及装置,可节省空间信息的数据量。
上述目标和其它目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。
第一方面,提供一种流媒体的信息的处理方法,该方法包括:
获取目标空间对象的目标空间信息,该目标空间对象为两个空间对象中的空间对象,该两个空间对象与目标视频数据中包括的两个图像的数据关联,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息;
根据该目标空间信息,确定要播放的视频数据。
其中,目标视频数据可以是码流,也就是目标视频码流,也可以是没有经过编码的原始数据或者经过重建的重建数据,也就是目标视频序列。在目标视频数据为目标视频码流时,两个图像的数据可以为两个图像的编码数据,在目标视频数据为目标视频序列时,两个图像的数据为两个图像的原始数据或者重建数据。
其中,该两个图像与该两个空间对象可以一一对应。
其中,该同属性空间信息为一组信息,该两个空间对象各自的空间信息共享该组信息。
其中,获取目标空间对象的目标空间信息可以包括接收来自服务器的目标空间对象的目标空间信息。
其中,两个图像可以是视频序列中的两个帧,即是说两个图像对应不同的时刻,两个图像也可以是视频序列中同一个帧的子图像,即是说两个图像对应相同的时刻,两个图像也可以是视频序列中不同帧的子图像。
通过将一组同属性空间信息表示两个空间对象各自的空间信息中重复的部分,实现了减少空间信息的冗余,从而减少空间信息的数据量。
其中,该根据该目标空间信息,确定要播放的视频数据可以包括:根据该目标空间信息,判断该目标空间对象是否包括要播放的画面对应的空间对象的全部或部分,在该目标空间对象包括要播放的画面对应的空间对象的全部或部分时,则该目标视频数据为要播放的视频数据。
其中,该根据该目标空间信息,确定要播放的视频数据也可以包括:根据该目标空间信息,以及要播放的画面对应的空间对象相对于该目标空间对象的空间关系(或者说,视角切换的轨迹),确定要播放的画面对应的空间对象(或者说,视角切换后的空间对象)的空间信息,从而进一步确定要播放的视频数据。具体的,要播放的视频数据可以是要播放的视频码流,获取目标空间对象的目标空间信息之后则可确定目标空间对象在全景空间(或者称为全景空间对象)中的相对位置,进而可在视频播放过程中根据目标空间对象的目标空间信息和视角切换的轨迹,确定视角切换后的空间对象的位置。并进一步向服务器请求要播放的画面对应的空间对象对应的要播放的视频码流。具体实现中,可根据MPD中描述的各个空间对象的码流的URL等信息,向服务器发送获取要播放的视频码流的请求,从而获取得到要播放的视频码流,解码并播放要播放的视频码流。
根据第一方面,在第一方面的第一种可能的实现方式中,该目标空间信息还包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
其中,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同可以指两个异属性空间信息的值不同。
根据第一方面或者第一方面第一种实现方式,在第一方面的第二种可能的实现方式中,该目标空间信息包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还包括该目标空间对象的宽和该目标空间对象的高。
其中,该目标空间信息也可以包括该目标空间对象中的其他位置点(左下点、右上点、右下点或者预设的点)的位置信息来代替该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息。
其中,该左上点为该目标空间对象中横坐标的值和纵坐标的值均为最小的点。
其中,在该目标空间信息对应的坐标系为角度坐标系时,中心点的位置信息或者左上点的位置信息可以是俯仰角θ(pitch)和偏航角ψ(yaw),也可以是俯仰角θ(pitch)、偏航角ψ(yaw)和滚转角Φ(roll),在该目标空间信息对应的坐标系为像素坐标系时,中心点的位置信息或者左上点的位置信息可以是以像素为单位的横坐标和以像素为单位的纵坐标。
根据第一方面或者第一方面第一种实现方式,在第一方面的第三种可能的实现方式中,该目标空间信息包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
其中,该目标空间信息也可以包括该目标空间对象的右上点的位置信息,和该目标空间对象的左下点的位置信息。
根据第一方面或者第一方面第一种实现方式至第一方面第三种实现方式中任意一种实现方式,在第一方面的第四种可能的实现方式中,该目标空间信息包括该目标空间对象的空间旋转信息。
其中,该目标空间对象的空间旋转信息可以用于指示该目标空间对象相对于全景空间对象的横向坐标轴或纵向坐标轴旋转的程度,该目标空间对象位于该全景空间对象中。
其中,在该目标空间信息对应的坐标系为角度坐标系时,该空间旋转信息可以是滚转角Φ(roll),在该目标空间信息对应的坐标系为像素坐标系时,空间旋转信息可以用由滚转角换算得到的该目标空间对象中的位置点的运动矢量来表示,运动矢量以像素为单位。
根据第一方面或者第一方面第一种实现方式至第一方面第四种实现方式中任意一种实现方式,在第一方面的第五种可能的实现方式中,该目标空间信息封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹为独立于该目标视频数据的轨迹。
其中,独立于该目标视频数据的文件可以是用于描述空间信息的空间信息文件。独立于该目标视频数据的轨迹可以是用于描述空间信息的空间信息轨迹。
其中,在目标空间信息封装在该目标视频数据的码流中时,目标空间信息可以封装在该目标视频数据的码流中的辅助增强信息单元或者参数集单元中,目标空间信息也可以封装在该目标视频数据所在的表示的分段中。具体的,可以封装在分段中指定box(例如,trun box或者tfhd box)中。
其中,该同属性空间信息和该目标空间对象的异属性空间信息可以封装在同一个box中,也可以封装在不同的box中。具体的,同属性空间信息可以封装在3dsc box中,该目标空间对象的异属性空间信息可以封装在于mdat box中。
根据第一方面第五种实现方式,在第一方面的第六种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
从定义可知,该同属性空间信息和该目标空间对象的异属性空间信息是互补的,因此,在该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息时,该空间信息类型标识同样可以用于指示该目标空间信息中属于该目标空间对象的异属性空间信息的信息。
其中,空间信息类型标识也可以用于指示同属性空间信息或者该目标空间对象的异属性空间信息的空间信息类型,可选的空间信息类型可以包括但不限于:包括空间对象的位置信息但不包括空间对象的宽高信息的空间信息、包括空间对象的宽高信息但不包括空间对象的位置信息的空间信息、包括空间对象的宽高信息和空间对象的位置信息的空间信息。
其中,空间信息类型标识也可以用于指示两个空间对象的空间对象类型,可选的空间对象类型可以包括但不限于:位置和宽高不变的空间对象、位置变化和宽高不变的空间对象、位置不变和宽高变化的空间对象、以及位置和宽高均变化的空间对象。
其中,对于第一方面第二种实现方式,在空间信息类型标识为第一预设值时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。在空间信息类型标识为第二预设值时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的宽和该目标空间对象的高。在空间信息类型标识为第三预设值时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。
相应的,对于第一方面第二种实现方式,在空间信息类型标识为第一预设值时,空间信息类型标识还指示不存在异属性空间信息。在空间信息类型标识为第二预设值时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息。在空间信息类型标识为第三预设值时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。
其中,对于第一方面第三种实现方式,在空间信息类型标识为第四预设值时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。在空间信息类型标识为第五预设值时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的右下点的位置信息。在空间信息类型标识为第六预设值时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。需要说明的是,该目标空间对象的左上点的位置信息或者该目标空间对象的右下点的位置信息,可以用该目标空间对象的宽和该目标空间对象的高来替代。
相应的,对于第一方面第三种实现方式,在空间信息类型标识为第四预设值时,空间信息类型标识还指示不存在异属性空间信息。在空间信息类型标识为第五预设值时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息。在空间信息类型标识为第六预设值时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。需要说明的是,该目标空间对象的左上点的位置信息或者该目标空间对象的右下点的位置信息,可以用该目标空间对象的宽和该目标空间对象的高来替代。
根据第一方面第六种实现方式,在第一方面的第七种可能的实现方式中,在该空间信息类型标识指示该目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
根据第一方面第六种实现方式或第一方面第七种实现方式,在第一方面的第八种可能的实现方式中,该空间信息类型标识与该同属性空间信息封装在同一个box中。
根据第一方面第五种实现方式至第一方面第八种实现方式种任意一种实现方式,在第一方面的第九种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
其中,在该坐标系为像素坐标系时,位置信息用以像素为单位的坐标来表示,宽和高同样以像素为单位来表示。在该坐标系为角度坐标系时,位置信息用角度来表示,例如,可以是俯仰角θ(pitch)和偏航角ψ(yaw),也可以是俯仰角θ(pitch)、偏航角ψ(yaw)和滚转角Φ(roll),宽和高用角度来表示角度范围。
根据第一方面第九种实现方式,在第一方面的第十种可能的实现方式中,该坐标系标识与该同属性空间信息封装在同一个box中。
根据第一方面第五种实现方式至第一方面第十种实现方式种任意一种实现方式,在第一方面的第十一种可能的实现方式中,该空间信息数据或者该空间信息轨迹还包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
其中,空间旋转信息标识可以与该同属性空间信息封装在同一个box中,空间旋转信息标识也可以与该目标空间对象的异属性空间信息封装在同一个box中。具体的,对于空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box的情况,在该空间旋转信息标识指示该目标空间信息包括该目标空间对象的空间旋转信息时,则该目标空间对象的异属性空间信息包括空间旋转信息。
其中,在该空间旋转信息标识指示该目标空间信息包括该目标空间对象的空间旋转信息时,表明目标空间对象有旋转。在该空间旋转信息标识指示该目标空间信息不包括该目标空间对象的空间旋转信息时,表明目标空间对象没有旋转。
第二方面,提供一种流媒体的信息的处理方法,其特征在于,该方法包括:
获取目标视频数据中的两个图像的数据所关联的两个空间对象各自的空间信息;
根据两个空间对象各自的空间信息,确定目标空间对象的目标空间信息,该目标空间对象为该两个空间对象中的空间对象,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
其中,该方法还可以包括:向客户端发送该目标空间信息。
根据第二方面,在第二方面的第一种可能的实现方式中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
根据第二方面或者第二方面第一种实现方式,在第二方面的第二种可能的实现方式中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的中心点的位置信息或者该两个空间对象各自的左上点的位置信息,该两个空间对象各自的空间信息还可以包括该两个空间对象各自的宽和该两个空间对象各自的高。
根据第二方面或者第二方面第一种实现方式,在第二方面的第三种可能的实现方式中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的左上点的位置信息和该两个空间对象各自的右下点的位置信息。
根据第二方面或者第二方面第一种实现方式至第二方面第三种实现方式中任意一种实现方式,在第二方面的第四种可能的实现方式中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的空间旋转信息。
根据第二方面或者第二方面第一种实现方式至第二方面第四种实现方式中任意一种实现方式,在第二方面的第五种可能的实现方式中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
根据第二方面第五种实现方式,在第二方面的第六种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
根据第二方面第六种实现方式,在第二方面的第七种可能的实现方式中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
根据第二方面第六种实现方式或第二方面第七种实现方式,在第二方面的第八种可能的实现方式中,该空间信息类型标识可以与该同属性空间信息封装在同一个box中。
根据第二方面第五种实现方式至第二方面第八种实现方式种任意一种实现方式,在第二方面的第九种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
根据第二方面第九种实现方式,在第二方面的第十种可能的实现方式中,该坐标系标识可以与该同属性空间信息封装在同一个box中。
根据第二方面第五种实现方式至第二方面第十种实现方式种任意一种实现方式,在第二方面的第十一种可能的实现方式中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
第三方面,提供一种流媒体的信息的处理装置,该装置包括:
获取模块,用于获取目标空间对象的目标空间信息,该目标空间对象为两个空间对象中的空间对象,该两个空间对象与目标视频数据中包括的两个图像的数据关联,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息;
确定模块,用于根据该获取模块获取的该目标空间信息,确定要播放的视频数据。
其中,该获取模块可以用于接收来自服务器的该目标空间信息。
根据第三方面,在第三方面的第一种可能的实现方式中,该目标空间信息还包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
根据第三方面或者第三方面第一种实现方式,该目标空间信息包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还包括该目标空间对象的宽和该目标空间对象的高。
根据第三方面或者第三方面第一种实现方式,在第三方面的第三种可能的实现方式中,该目标空间信息包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
根据第三方面或者第三方面第一种实现方式至第三方面第三种实现方式中任意一种实现方式,在第三方面的第四种可能的实现方式中,该目标空间信息包括该目标空间对象的空间旋转信息。
根据第三方面或者第三方面第一种实现方式至第三方面第四种实现方式中任意一种实现方式,在第三方面的第五种可能的实现方式中,该目标空间信息封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹为独立于该目标视频数据的轨迹。
根据第三方面第五种实现方式,在第三方面的第六种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
根据第三方面第六种实现方式,在第三方面的第七种可能的实现方式中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
根据第三方面第六种实现方式或第三方面第七种实现方式,在第三方面的第八种可能的实现方式中,该空间信息类型标识与该同属性空间信息封装在同一个box中。
根据第三方面第五种实现方式至第三方面第八种实现方式种任意一种实现方式,在第三方面的第九种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
根据第三方面第九种实现方式,在第三方面的第十种可能的实现方式中,该坐标系标识与该同属性空间信息封装在同一个box中。
根据第三方面第五种实现方式至第三方面第十种实现方式种任意一种实现方式,在第三方面的第十一种可能的实现方式中,该空间信息数据或者该空间信息轨迹还包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
第四方面,提供一种流媒体的信息的处理装置,该装置包括:
获取模块,用于获取目标视频数据中的两个图像的数据所关联的两个空间对象各自的空间信息;
确定模块,用于根据该获取模块获取的该两个空间对象各自的空间信息,确定目标空间对象的目标空间信息,该目标空间对象为该两个空间对象中的空间对象,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
其中,该装置还可以包括发送模块,用于向客户端发送该确定模块确定的该目标空间信息。
根据第四方面,在第四方面的第一种可能的实现方式中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
根据第四方面或者第四方面第一种实现方式,在第四方面的第二种可能的实现方式中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的中心点的位置信息或者该两个空间对象各自的左上点的位置信息,该两个空间对象各自的空间信息还可以包括该两个空间对象各自的宽和该两个空间对象各自的高。
根据第四方面或者第四方面第一种实现方式,在第四方面的第三种可能的实现方式中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的左上点的位置信息和该两个空间对象各自的右下点的位置信息。
根据第四方面或者第四方面第一种实现方式至第四方面第三种实现方式中任意一种实现方式,在第四方面的第四种可能的实现方式中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的空间旋转信息。
根据第四方面或者第四方面第一种实现方式至第四方面第四种实现方式中任意一种实现方式,在第四方面的第五种可能的实现方式中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
根据第四方面第五种实现方式,在第四方面的第六种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
根据第四方面第六种实现方式,在第四方面的第七种可能的实现方式中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
根据第四方面第六种实现方式或第四方面第七种实现方式,在第四方面的第八种可能的实现方式中,该空间信息类型标识可以与该同属性空间信息封装在同一个box中。
根据第四方面第五种实现方式至第四方面第八种实现方式种任意一种实现方式,在第四方面的第九种可能的实现方式中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
根据第四方面第九种实现方式,在第四方面的第十种可能的实现方式中,该坐标系标识可以与该同属性空间信息封装在同一个box中。
根据第四方面第五种实现方式至第四方面第十种实现方式种任意一种实现方式,在第四方面的第十一种可能的实现方式中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
第五方面,提供一种流媒体的信息的处理装置,该装置包括处理器和存储器;该存储器用于存储代码;该处理器通过读取该存储器中存储的该代码,以用于执行第一方面提供的方法。
第六方面,提供一种计算机存储介质,用于储存用于第五方面的处理器执行的计算机软件指令,以用于执行第一方面提供的方法。
第七方面,提供一种流媒体的信息的处理装置,该装置包括处理器和存储器;该存储器用于存储代码;该处理器通过读取该存储器中存储的该代码,以用于执行第二方面提供的方法。
第八方面,提供一种计算机存储介质,用于储存用于第七方面的处理器执行的计算机软件指令,以用于执行第二方面提供的方法。
在本发明实施例的一种可能的实现方式中,公开了一种媒体数据和元数据之间的联系类型(reference type)的描述方式。在现有标准草案中规定的联系类型的基础上,针对元数据的不同的使用方法,定义了不同的联系类型,可以方便客户端根据联系类型进行相应的处理。
在本发明实施例的一种可能的实现方式中,媒体数据和元数据之间的联系类型存储在媒体数据的轨道(track)或元数据的track中;在一种可能的实现方式中,通过盒(box)的形式传输媒体数据和元数据之间的联系类型。Track和box的有关定义可以参考现有的MPEG-DASH标准和ISO/IEC 14496-12中的有关规定,在此不再赘述。在一个示例中,可以在“tref”box里存储联系类型的信息。
在本发明实施例的一种可能的实现方式中,媒体数据是视频数据,媒体数据和元数据之间的联系类型存储在视频track中,例如,tref box存储在描述视频track的元数据中。
在一个示例中,包括了tref box的track为被关联视频轨道(the referencedvideo track),通过tref box中的媒体数据和元数据之间的联系类型与元数据track关联。可以用track id的方式确定关联的元数据track。
在本发明实施例的一种可能的实现方式中,联系类型可以用来描述下列信息中的一种或多种:
媒体数据中的感兴趣区域(region of interest,ROI),媒体数据所覆盖的空间区域,媒体数据中的ROI关联的质量信息,以及媒体数据所覆盖的空间区域关联的质量信息。
在本发明实施例的一个示例中,联系类型可以用来描述下列信息中的一种或多种:
媒体数据对应空间对象中的ROI在球面,或者2D平面,或者映射后图像中的空间位置信息;
或者媒体数据所覆盖的区域在球面,或者2D平面,或者映射后图像中的空间位置信息;
或者是上述ROI或者覆盖区域的空间的质量信息。
上述的ROI信息包含在ROI的有时间属性的元数据track中,质量信息包含在质量的有时间属性的元数据track中
在本发明实施例的一个示例中,媒体数据的track的‘tref’box中包括有表示媒体数据和元数据之间的联系类型。该联系类型可以用来描述如下信息中的一种或多种:
媒体数据对应空间对象中的感兴趣区域(region of interest,ROI)的2D空间位置信息,或者媒体数据对应空间对象中的ROI在球面中的空间位置信息,或者媒体数据对应空间对象中的ROI在映射后的图像中的空间位置信息,或者媒体数据对应空间对象的2D空间位置信息,或者媒体数据对应空间对象在球面中的空间位置信息,或者媒体数据对应空间对象在映射后的图像中的空间位置信息,或者媒体数据对应空间对象中的ROI的2D空间位置的质量信息,或者媒体数据对应空间对象中的ROI在球面中的空间位置的质量信息,或者媒体数据对应空间对象中的ROI在映射后的图像中的空间位置的质量信息,或者媒体数据对应空间对象的2D空间位置的质量信息,或者媒体数据对应空间对象在球面中的空间位置的质量信息,或者媒体数据对应空间对象在映射后的图像中的空间位置的质量信息。
在本发明实施例的一个示例中,reference type的值为rois,表示关联的track中包括了球面上的ROI的区域信息(this track contain the region information of theROI on the sphere),这个ROI的区域信息是描述被关联的视频track中的样本对应的图像的空间区域。客户端可以通过解析ROI的有时间属性的元数据track中的样本,获得ROI区域信息,并使用ROI信息呈现被关联视频track中的sample对应的图像的ROI(The client canuse the sample in this track to render the ROI on the sphere)。
在本发明实施例的一个示例中,reference type的值为roiq,表示关联的track中包括了被关联视频track中样本对应的图像在球面上的ROI的质量信息(this trackcontain the quality information of the ROI on the sphere for the referencedvideo track)。客户端可以通过解析质量的有时间属性的元数据track中的样本,获得被关联视频数据的ROI的质量(the client can use the sample in this track to know thequality of the ROI object on the sphere)。
在本发明实施例的一个示例中,reference type的值为conc,表示关联的track中包括了视频track中样本对应的图像在球面上的覆盖信息(this track providesinformation on the area on the spherical surface for the referenced videotrack)。关联的元数据track可以是一个推荐视点的有时间属性的元数据track(thistrack maybe a recommended viewport timed metadata track),被关联的视频track可以是一个导演视角的视频track(the referenced video track maybe a director's cutvideo track)。
在本发明实施例的一个示例中,联系类型(reference_type)的取值和描述的信息的对应关系如下:表1
在本发明的实施例中,在服务器侧,媒体数据封装‘tref’box的语法时,封装了描述和媒体数据有关联关系的元数据的联系类型。客户端解析媒体track的数据之后,通过媒体数据和元数据的联系类型描述的信息,客户端可以了解对该视频数据能够执行哪些处理,该方法使得各个track之间的解析解耦,降低客户端实现流程中的复杂度。客户端可以根据不同的处理需要请求对应的track数据。
在本发明实施例中的ROI可以是视角,也可以是推荐视角,例如作者视角等。
在本发明的一个实施例中,视角或推荐视角也可以是指覆盖区域,覆盖区域是指媒体数据对应的空间对象的空间范围。
在本发明实施例的一种实现方式中,媒体数据的track中包括有描述和媒体数据有关联关系的元数据的联系类型,联系类型可以描述媒体数据对应空间对象中的ROI的2D空间位置,或者是媒体数据对应空间对象中的ROI在球面中的空间位置,或者是媒体数据对应空间对象中的ROI在映射后的图像中的空间位置。
在一个具体的示例中,媒体数据的track中包括‘tref’box,其中,
‘tref’box中的reference_type取值为ri2d,该值表示媒体数据和一个ROI的timed metadata track关联,该ROI的track中的样本(sample)是媒体数据对应空间对象中的ROI的2D空间位置信息;该2D位置信息可以是现有标准ISO/IEC 23001-10中定义的位置;
或者reference_type取值为rois,该ROI的track中的样本(sample)是媒体数据对应空间对象中的ROI在球面中的空间位置信息;该在球面中的空间位置信息可以是现有标准ISO/IEC 23000-20中定义的在球面上的timed metadata track中的sample;
或者reference_type取值为ri2p,该值表示媒体数据和一个ROI的timedmetadata track关联,该ROI的track中的样本(sample)是媒体数据对应空间对象中的ROI在映射后的图像中的空间位置信息。
对应的示例中,客户端的处理方式可以如下:
1、客户端解析媒体数据的track,媒体数据的track的track id为1(可以是任意非0整数),得到track中的‘tref’box;从‘tref’box中得到reference_type值为‘ri2d’或者‘rois’或者‘ri2p’的关联track,该关联track的track id取值是2(可以是任意非0整数);
2、客户端根据‘ri2d’,判断出track id是2的track描述的是媒体数据对应空间对象中的ROI的2D空间位置信息,
或者根据‘rois’,判断出track id是2的track描述的是媒体数据对应空间对象中的ROI在球面中的空间位置信息,
或者根据‘ri2p’,判断出track id是2的track描述的是媒体数据对应空间对象中的ROI在映射后的图像中的空间位置信息;
3、客户端可以在用户界面上提供ROI选项,由用户选择是否观看ROI区域的内容,如果用户选择观看ROI区域的内容,客户端呈现ROI区域内容;或者客户端直接呈现ROI内容;
4、在客户端要呈现ROI内容之前,客户端解析track id=2的timed metadatatrack,从该track中获取ROI的空间位置信息,根据空间位置信息从视频内容中截取ROI内容呈现;
在track的的tref元数据中,将该track参考的元数据的类型进行清晰描述,使得客户端的track之间的解析解耦,降低客户端实现流程中的复杂度。
在本发明实施例的一种可能的实现方式中,如图17所示,覆盖信息描述的是当前track的媒体内容在整个源视频内容中截取到的区域,该区域可以是VR球面中的区域,也可以是2D图像中的区域,也可以是球面映射为2D图像后截取的区域;如图17描述,在图17中右边的小图的空间位置信息就是小图在左边大图中的覆盖信息,在球面图17中,灰色区域在球体上截取出来的区域就是灰色区域的覆盖区域,覆盖区域的媒体track中的关联类型会在‘tref’box中增加描述,描述信息指示出该元数据是媒体数据对应空间对象2D空间位置信息,或者是媒体数据对应空间对象在球面中的空间位置信息,或者是媒体数据对应空间对象在映射后的图像中的空间位置信息。
在本发明实施例的一种可能的方式中,采用box的方式描述覆盖信息。一个具体的示例如下:
在一个示例中,该box提供由与容器ProjctedOmnidirectionalVideoBox相关联的投影帧表示的球形表面上的区域的信息。(This box provides information on the areaon the spherical surface that is represented by the projected frameassociated with the container ProjctedOmnidirectionalVideoBox)。如果数据中没有表示覆盖信息的box,则说明投影帧是对应完整球面的一个表示(The absence of thisbox indicates that the projected frame is a representation of the fullsphere)。
当投影格式是等角投影时,由投影帧表示的球面区域是由两个偏航圆圈和两个俯仰圆圈所指定的区域,如图10所示(When the projection format is theequirectangular projection,the spherical region represented by the projectedframe is the region specified by two yaw circles and two pitch circles,asillustrated fig 10)。
在本发明实施例的一个示例中,根据如下方式描述覆盖信息:
其中,hor_range元素和ver_range元素指定了视频track的中的样本(sample)对应的图像在球面上的水平和垂直的范围,单位可以是0.01度。
在一个示例中,hor_range和ver_range指定区域中心点的范围。hor_range的范围应在1到36000之间。ver_range的范围应在1到36000之间。center_pitch+ver_range÷2不大于18000.center_pitch-ver_range÷2不小于-18000(hor_range and ver_rangespecify the range through the center point of the region.hor_range shall bein the range of 1 to 36000,inclusive.ver_range shall be in the range of 1to36000,inclusive.center_pitch+ver_range÷2 shall not be greater than18000.center_pitch-ver_range÷2shall not be less than-18000)。
在本发明实施例的一个示例中,dynamic_range_flag的值等于0表示sampleentry 所涉及的全部的sample所对应的水平和垂直的范围不改变(dynamic_range_flagequal to 0specifies that the horizontal and vertical ranges of the regionremain unchanged in all samples referring to this sample entry)。此时可以在sample entry的数据中描述这些sample所对应的图像在球面上的水平和垂直的范围。
在本发明实施例的一个示例中,dynamic_range_flag的值等于1表示在样本格式中描述该样本所对应的水平和垂直的范围(dynamic_range_flag equal to 1 specifiesthat the hor izonal and vertical ranges of the region is indicated in thesample format)。
在本发明实施例的一个示例中,通过覆盖信息track描述视频track中的样本对应的图像在球面上的覆盖区域。
在一个示例中通过coverage timed metadata track指示视频内容在球面上的覆盖区域。
在一个示例中,coverage timed metadata track中的sample的entry type是‘covg’。
在一个示例中,可以使用RegionOnSphereSample元素描述coverage timedmetadata track中的sample语法。RegionOnSphereSample元素的具体示例可以参照现有标准中的有关规定,例如参照ISO/IEC 23000-20的有关示例。
在一个示例中,sample entry中的RegionOnSphereConfigBox里的shape_type的值为0。
在一个示例中,static_hor_range元素和static_ver_range元素,或者hor_range元素和ver_range元素,用于分别指示对应的水平视点的覆盖范围和垂直视点的覆盖范围,center_yaw元素和center_pitch元素用于指示覆盖范围的中心点。
在一个示例中,‘tref’box中的reference_type取值为cv2d,该语义表示媒体数据和一个覆盖区域的timed metadata track关联,该覆盖区域的track中的样本(sample)是媒体数据对应空间对象中2D空间位置信息;该2D位置信息可以是现有标准ISO/IEC 23001-10中定义的位置信息;
或者reference_type取值为cvsp,该语义表示媒体数据和一个覆盖区域的timedmetadata track关联,该覆盖区域的track中的样本(sample)是媒体数据对应空间对象在球面中的空间位置信息;该在球面中的信息可以是现有标准ISO/IEC 23000-20中定义的在球面上的timed metadata track中的sample;
或者reference_type取值为cv2p,该语义表示媒体数据和一个覆盖区域的timedmetadata track关联,该覆盖区域的track中的样本(sample)是媒体数据对应空间对象在映射后的图像中的空间位置信息。
对应的示例中,客户端的处理方式可以如下:
1、客户端解析媒体数据的track,媒体数据的track的track id为1(可以是任意非0整数),得到媒体track的‘tref’box,从‘tref’box中得到reference_type值为‘cv2d’或者‘cvsp’或者‘cv2p’的关联track,该track的track id取值是2(可以是任意非0整数);
2、客户端根据‘cv2d’,判断出track id是2的track描述的是媒体数据对应空间对象的2D空间位置信息,或者根据‘cvsp’,判断出track id是2的track描述的是媒体数据对应空间对象在球面中的空间位置信息,或者根据‘cv2p’,判断出track id是2的track描述的是媒体数据对应空间对象在映射后的图像中的空间位置信息;
3、客户端可以根据覆盖信息以及设备的呈现能力来判断,是否是将媒体的全部内容都进行呈现还是截取部分内容呈现,或者当用户的视角发生改变时,用户如果获取视角之外的数据。
在一个示例中,track id是2的track是一个覆盖区域的空间信息描述track,该track的sample entry type表示当前timed metadata track是一个覆盖区域的空间信息描述track,sample entry type可以取值为‘cvvp’(coverage viewport)。
在一个示例中,媒体的覆盖信息可以采用独立的track描述,比如采用sampleentry type取值为‘cvvp’的timed metadata track描述,但是如果媒体的覆盖信息是一个静态的情况(视频中每一帧的覆盖信息都是相同的),那么媒体中就不需要关联覆盖区域的metadata track,在这种情况下媒体的覆盖信息就可以在媒体的track(track id=1)的元数据中描述,具体描述信息在ISO/IEC 23000-20中‘covi’中(覆盖信息box),在该box中描述覆盖区域在球面或者2D平面的形状。
在本发明实施例的一种可能的实现方式中,联系类型的值描述的是质量信息的元数据track和媒体数据track的关联关系描述方式。
在一个示例中,具体的对应关系如下表:
表2
在对应的示例中,客户端解析媒体数据的track,track id=1,得到‘tref’box中reference_type值为‘r2dq’或者‘risq’或者‘ri2p’或者‘c2dq’或者‘cspq’或者‘c2pq’,客户端就可以了解到存在ROI空间区域的质量信息的metadata track或者是存在对媒体内容覆盖区域的视频的质量描述的metadata track;如果客户端需要获取当前视频的质量信息,就可以去解析质量信息对应的track。
在track的元数据中,将该track参考的元数据的类型进行清晰描述,使得客户端的track之间的解析解耦,降低客户端实现流程中的复杂度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是系统层视频流媒体传输采用的DASH标准传输的MPD的结构示意图;
图2是系统层视频流媒体传输采用的DASH标准传输的框架实例示意图;
图3是本发明实施例提供的码流分段的切换的一示意图;
图4是码流数据中的分段存储方式的一示意图;
图5是码流数据中的分段存储方式的另一示意图;
图6是视角变化对应的视角示意图;
图7是空间对象的空间关系的另一示意图;
图8是本发明实施例提供的一种流媒体的信息的处理方法的流程示意图;
图9是目标空间对象在全景空间中的相对位置的示意图;
图10是本发明实施例的一种坐标系的示意图;
图11是本发明实施例的另一种坐标系的示意图;
图12是本发明实施例的另一种坐标系的示意图;
图13是本发明实施例提供的一种流媒体的信息的处理方法的流程示意图;
图14是发明实施例提供一种流媒体的信息的处理装置的逻辑结构示意图;
图15是发明实施例提供一种流媒体的信息的处理装置的逻辑结构示意图;
图16是本发明实施例提供的一种计算机设备的硬件结构示意图;
图17是本发明实施例的一种覆盖区域的示意图;
图18是本发明实施例的一种区域示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
当前以客户端为主导的系统层视频流媒体传输方案可采用DASH标准框架,如图2,图2是系统层视频流媒体传输采用的DASH标准传输的框架实例示意图。系统层视频流媒体传输方案的数据传输过程包括两个过程:服务器端(如HTTP服务器,媒体内容准备服务器,以下简称服务器)为视频内容生成媒体数据,响应客户端请求的过程;和客户端(如HTTP流媒体客户端)向服务器请求并获取媒体数据的过程。其中,上述媒体数据包括媒体呈现描述(英文:Media Presentation Description,MPD)和媒体码流((例如要播放的视频码流))。服务器上的MPD中包括多个表示(也称呈现,英文:representation),每个表示描述多个分段。客户端的HTTP流媒体请求控制模块获取服务器发送的MPD,并对MPD进行分析,确定MPD中描述的视频码流的各个分段的信息,进而可确定要请求的分段,向服务器发送相应的分段的HTTP请求,并通过媒体播放器进行解码播放。
1)在上述服务器为视频内容生成媒体数据的过程中,服务器为视频内容生成的媒体数据包括对应同一视频内容的不同版本的视频码流,以及码流的MPD。例如,服务器为同一集电视剧的视频内容生成低分辨率低码率低帧率(如360p分辨率、300kbps码率、15fps帧率)的码流,中分辨率中码率高帧率(如720p分辨率、1200kbps码率、25fps帧率)的码流,高分辨率高码率高帧率(如1080p分辨率、3000kbps码率、25fps帧率)的码流等。
此外,服务器还可为该集电视剧的视频内容生成MPD。其中,如图1,图1是系统传输方案DASH标准的MPD的结构示意图。上述码流的MPD包含多个时期(Period),例如,图1的MPD)中的period start=100s部分可包含多个自适应集(英文:adaptation set),每个adaptation set可包含Representation1、Representation2,…等多个表示。每个表示描述码流的一个或者多个分段。
在本发明的一个实施例中,每个表示按照时序描述若干个分段(英文:Segment)的信息,例如初始化分段(英文:Initialization segment)、媒体分段(Media Segment)1、Media Segment2,…,Media Segment20等。表示中可以包括播放起始时刻、播放持续时长、网络存储地址(例如以统一资源定位符(英文:Universal Resource Locator,URL)的形式表示的网络存储地址)等分段信息。
2)在客户端向服务器请求并获取媒体数据的过程中,用户选择播放视频时,客户端根据用户点播的视频内容向服务器获取相应的MPD。客户端根据MPD中描述的码流分段的网络存储地址,向服务器发送下载网络存储地址对应的码流分段的请求,服务器根据接收到的请求向客户端发送码流分段。客户端获取得到服务器发送的码流分段之后,则可通过媒体播放器进行解码、播放等操作。
参见图3,是本发明实施例提供的码流分段的切换的一示意图。服务器可为同一个视频内容(比如一部电影)准备三个不同版本的码流数据,并在MPD中使用三个Representation对上述三个不同版本的码流数据进行描述。其中,上述三个Representation(以下简称rep)可假设为rep1、rep2和rep3等。其中,rep1是码率为4mbps(每秒兆比特)的高清视频,rep2是码率为2mbps的标清视频,rep3是码率为1mbps的普通视频。每个rep的segment包含一个时间段内的视频码流,同一个时间段内,不同的rep包含的segment相互对齐。即,每个rep按照时序描述每个时间段的segment,并且相同时段的segment长度相同,进而可实现不同rep上的segment的内容切换。如图,图中标记为阴影的分段是客户端请求播放的分段数据,其中,客户端请求的前3个分段是rep3的分段,客户端请求第4个分段时可请求rep2中的第4个分段,进而可在rep3的第3个segment播放结束之后切换到rep2的第4个分段上播放。Rep3的第3个segment的播放终止点(对应到时间上可为播放结束时刻)即为第4个segment的播放起始点(对应到时间上可为播放起始时刻),同时也是rep2或者rep1的第4个segment的播放起始点,实现不同rep上的segment的对齐。客户端请求rep2的第4个分段之后切换到rep1,请求rep1的第5个分段和第6个分段等。随后可切换至rep3上,请求rep3的第7个分段,再切换到rep1上,请求rep1的第8个分段。每个rep的segment可以首尾相接的存在一个文件中,也可以独立存储为一个个的小文件。segment可以按照标准ISO/IEC 14496-12中的格式封装(ISO BMFF(Base Media File Format)),也可以是按照ISO/IEC 13818-1中的格式封装(MPEG-2TS)。具体可根据实际应用场景需求确定,在此不做限制。
在DASH媒体文件格式中提到,上述segment有两种存储方式:一种是每个segment分开独立存储,如图4,图4是码流数据中的分段存储方式的一示意图;另一种是同一个rep上的所有segment均存储在一个文件中,如图5,图5是码流数据中的分段存储方式的另一示意图。如图4,repA的segment中每个segment单独存储为一个文件,repB的segment中每个segment也单独存储为一个文件。对应的,图4所示的存储方式,服务器可在码流的MPD中可采用模板的形式或者列表的形式描述每个segment的URL等信息。如图5,rep1的segment中所有segment存储为一个文件,rep2的segment中所有segment存储为一个文件。对应的,图5所示的存储方法,服务器可在码流的MPD中采用一个索引分段(英文:index segment,也就是图5中的sidx)来描述每个segment的相关信息。索引分段描述了每个segment在其所存储的文件中的字节偏移,每个segment大小以及每个segment持续时间(duration,也称每个segment的时长)等信息。
当前随着360度视频等VR视频的观看应用的日益普及,越来越多的用户加入到大视角的VR视频观看的体验队伍中。这种新的视频观看应用给用户带来了新的视频观看模式和视觉体验的同时,也带来了新的技术挑战。由于360度(本发明实施例将以360度为例进行说明)等大视角的视频观看过程中,VR视频的空间区域(空间区域也可以叫做空间对象)为360度的全景空间(或称全方位空间,或称全景空间对象),超过了人眼正常的视觉范围,因此,用户在观看视频的过程中随时都会变换观看的角度(即视角,FOV)。用户观看的视角不同,看到的视频图像也将不同,故此视频呈现的内容需要随着用户的视角变化而变化。如图6,图6是视角变化对应的视角示意图。框1和框2分别为用户的两个不同的视角。用户在观看视频的过程中,可通过眼部或者头部转动,或者视频观看设备的画面切换等操作,将视频观看的视角由框1切换到框2。其中,用户的视角为框1时所观看的视频图像为该视角对应的一个或者多个空间对象在该时刻所呈现的视频图像。下一个时刻用户的视角切换为框2,此时用户观看到的视频图像也应该切换为框2对应的空间对象在该时刻所呈现视频图像。
在一些可行的实施方式中,对于360度大视角的视频图像的输出,服务器可将360度的视角范围内的全景空间(或者称为全景空间对象)进行划分以得到多个空间对象,每个空间对象对应用户的一个子视角,多个子视角的拼接形成一个完整的人眼观察视角。即人眼视角(下面简称视角)可对应一个或者多个划分得到的空间对象,视角对应的空间对象是人眼视角范围内的内容对象所对应的所有的空间对象。其中,人眼观察视角可以动态变化的,但是通常视角范围可为120度*120度,120度*120度的人眼视角范围内的内容对象对应的空间对象可包括一个或者多个划分得到的空间对象,例如上述图6该的框1对应的视角1,框2对应的视角2。进一步的,客户端可通过MPD获取服务器为每个空间对象准备的视频码流的空间信息,进而可根据视角的需求向服务器请求某一时间段某个或者多个空间对象对应的视频码流分段并按照视角需求输出对应的空间对象。客户端在同一个时间段内输出360度的视角范围内的所有空间对象对应的视频码流分段,则可在整个360度的全景空间内输出显示该时间段内的完整视频图像。
具体实现中,在360度的空间对象的划分中,服务器可首先将球面映射为平面,在平面上对空间对象进行划分。具体的,服务器可采用经纬度的映射方式将球面映射为经纬平面图。如图7,图7是本发明实施例提供的空间对象的示意图。服务器可将球面映射为经纬平面图,并将经纬平面图划分为A~I等多个空间对象。进一步的,服务器可也将球面映射为立方体,再将立方体的多个面进行展开得到平面图,或者将球面映射为其他多面体,在将多面体的多个面进行展开得到平面图等。服务器还可采用更多的映射方式将球面映射为平面,具体可根据实际应用场景需求确定,在此不做限制。下面将以经纬度的映射方式,结合图7进行说明。如图7,服务器可将球面的全景空间划分为A~I等多个空间对象之后,则可为每个空间对象准备一组DASH视频码流。其中,每个空间对象对应的一组DASH视频码流。客户端用户切换视频观看的视角时,客户端则可根据用户选择的新视角获取新空间对象对应的码流,进而可将新空间对象码流的视频内容呈现在新视角内。下面将结合图8至图10对本发明实施例提供的信息的处理方法及装置进行描述。
系统层视频流媒体传输方案采用DASH标准,通过客户端分析MPD、按需向服务器请求视频数据并接收服务器发送的数据的方式实现视频数据的传输。
在一些实施例中,视频的制作者(以下简称作者)制作视频时,可根据视频的故事情节需求为视频播放设计一条主要情节路线。视频播放过程中,用户只需要观看该主要情节路线对应的视频图像则可了解到该故事情节,其他视频图像可看可不看。由此可知,视频播放过程中,客户端可选择性的播放该故事情节对应的视频图像,其他的视频图像可以不呈现,可节省视频数据的传输资源和存储空间资源,提高视频数据的处理效率。作者设计故事的主要情节之后,可根据上述主要情节路线设定视频播放时每个播放时刻所要呈现给用户的视频图像,将每个播放时刻的视频图像按照时序串起来则可得到上述主要情节路线的故事情节。其中,上述每个播放时刻所要呈现给用户的视频图像为在每个播放时刻对应的空间对象上呈现的视频图像,即该空间对象在该时间段所要呈现的视频图像。具体实现中,上述每个播放时刻所要呈现的视频图像对应的视角可设为作者视角,呈现作者视角上的视频图像的空间对象可设为作者空间对象。作者视角对象对应的码流可设为作者视角码流。作者视角码流中包含多个视频帧的视频帧数据(多个视频帧的编码数据),每个视频帧呈现时可为一个图像,即作者视角码流中对应多个图像。在视频播放过程中,在每个播放时刻,作者视角上呈现的图像仅是整个视频所要呈现的全景图像(或称VR图像或者全方位图像)中的一部分。在不同的播放时刻,作者视频码流对应的图像所关联的空间对象的空间信息可以不同,也可以相同,即作者视角码流的视频数据所关联的空间对象的空间信息不同。
在一些可行的实施方式中,作者设计了每个播放时刻的作者视角之后,则可通过服务器对每个播放时刻的作者视角准备相应的码流。其中,作者视角对应的码流可设为作者视角码流。服务器可对作者视角码流进行编码并传输给客户端,客户端对作者视角码流进行解码之后,则可呈现作者视角码流对应的故事情节画面给用户。服务器无需传输作者视角以外其他视角(设为非作者视角,即静态视角码流)的码流给客户端,可节省视频数据的传输带宽等资源。
在一些可行的实施方式中,由于作者视角是作者根据视频故事情节设定的呈现预设空间对象的图像,不同的播放时刻上的作者空间对象可不同也可相同,由此可知作者视角是一个随着播放时刻不断变化的视角,作者空间对象是个不断变化位置的动态空间对象,即每个播放时刻对应的作者空间对象在全景空间中的位置不尽相同。上述图7所示的各个空间对象是按照预设规则划分的空间对象,是在全景空间中的相对位置固定的空间对象,任一播放时刻对应的作者空间对象不一定是图7所示的固定空间对象中的某一个,而且在全局空间中相对位置不断变化的空间对象。客户端从服务器获取的视频所呈现的内容是由各个作者视角串起来的,不包含非作者视角对应的空间对象,作者视角码流仅包含作者空间对象的内容,并且从服务器获取的MPD中不包含作者视角的作者空间对象的空间信息,则客户端只能解码并呈现作者视角的码流。若用户在观看视频的过程中,观看的视角切换到非作者视角上,客户端则无法呈现相应的视频内容给用户。
在一些实施例中,服务器生成媒体呈现描述时,可在媒体呈现描述中添加标识信息,用于标识视频的作者视角码流,即作者视角码流。具体实现中,上述标识信息可携带在媒体呈现描述中携带的作者视角码流所在码流集合的属性信息中,即上述标识信息可携带在媒体呈现描述中的自适应集的信息中,上述标识信息也可携带在媒体呈现描述中包含的表示的信息中。进一步的,上述标识信息还可携带在媒体呈现描述中的描述子的信息中。客户端可通过解析MPD得到MPD中增加的语法元素快速识别作者视角码流和非作者视角的码流。如果作者视角流相关的空间信息封装在独立的元数据文件中,那么客户端可以通过解析MPD,根据codec标识获取空间信息的元数据,从而解析出空间信息。
在一些实施例中,服务器还可在作者视角码流中添加一个或者多个作者空间对象的空间信息。其中,每个作者空间对象对应一个或者多个图像,即一个或者多个图像可关联同一个空间对象,也可每个图像关联一个空间对象。服务器可在作者视角码流中添加每个作者空间对象的空间信息,也就可以将空间信息作为样本,独立的封装在一个轨迹或者文件中。其中,一个作者空间对象的空间信息为该作者空间对象与其关联的内容成分的空间关系,即作者空间对象与全景空间的空间关系。即上述作者空间对象的空间信息所描述的空间具体可为全景空间中的部分空间,如上述图7中任意一个空间对象。具体实现中,针对于DASH码流,服务器可在现有文件格式中的作者视角码流的分段中包含的trun box或者tfhd box中增加上述空间信息,用于描述作者视角码流的视频帧数据对应的每一帧图像所关联的空间对象的空间信息。
进一步的,由于每一帧图像所关联的空间对象的空间信息之间可能会有相同的信息,这就导致了多个作者空间对象的空间信息存在重复和冗余,从而影响数据传输的效率。
本发明实施例通过对DASH标准中提供的视频文件格式(英文:file format)进行修改,可以实现减少多个作者空间对象的空间信息存在重复和冗余。
本发明提供的对文件格式的修改,也可应用在ISOBMFF或者MPEG2-TS的文件格式中,具体可根据实际应用场景需求确定,在此不做限制。
图8本发明实施例提供的一种流媒体的信息的处理方法的流程示意图。本发明实施例提供的流媒体的信息处理方法,可以应用DASH领域,也可以应用于其他流媒体领域,例如基于RTP协议的流媒体传输。该方法的执行主体可以是客户端,具体可以为终端、用户设备或者计算机设备,也可以是网络设备,比如网关,代理服务器等。如图8所示,该方法可以包括如下步骤:
S801,获取目标空间对象的目标空间信息,该目标空间对象为两个空间对象中的空间对象,该两个空间对象与目标视频数据中包括的两个图像的数据关联,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
其中,目标视频数据可以是目标视频码流,也可以是未经过编码的视频数据,在目标视频数据为目标视频码流时,两个图像的数据可以是两个图像的编码数据。进一步的,目标视频码流可以是作者视角码流,也可以是非作者视角码流。
其中,获取目标空间对象的目标空间信息可以是接收来自服务器的该目标空间信息。
其中,该两个图像可以与该两个空间对象一一对应,也可以一个空间对象对应两个图像。
其中,一个目标空间对象的空间信息为该目标空间对象与其关联的内容成分的空间关系,即目标空间对象与全景空间的空间关系。即上述目标空间对象的目标空间信息所描述的空间具体可为全景空间中的部分空间。该目标视频数据可以是上述作者视角码流,也可以是非作者视角码流。该目标空间对象可以是上述作者空间对象,也可以不是。
S802,根据该目标空间信息,确定要播放的视频数据。
进一步的,在确定要播放的视频数据后,还可以显示要播放的视频数据。
在一些实施例中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
在目标空间信息一种可能的实现方式中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
其中,在目标空间信息对应的坐标系为角度坐标系时,该目标空间信息可以采用偏航角来描述,在目标空间信息对应的坐标系为像素坐标系时,该目标空间信息可以采用经纬图的空间位置描述,或者采用其他几何立体图形来描述,在此不做限制。采用偏航角方式描述,如俯仰角θ(pitch)、偏航角ψ(yaw)、滚转角Φ(roll),用于表示角度范围的宽和用于表示角度范围的高。如图9,图9是目标空间对象的中心点在全景空间中的相对位置的示意图。在图9中,O点为360度VR全景视频球面图像对应的球心,可认为是观看VR全景图像时人眼的位置。A点为目标空间对象的中心点,C、F为目标空间对象中过A点的沿该目标空间对象横向坐标轴的边界点,E、D为目标空间对象中过A点的沿该目标空间对象纵向坐标轴的边界点,B为A点沿球面经线在赤道线的投影点,I为赤道线上水平方向的起始坐标点。各个元素的含义解释如下:
俯仰角:目标空间对象的图像的中心位置映射到全景球面(即全局空间)图像上的点的竖直方向的偏转角,如图9中的∠AOB;
偏航角:目标空间对象的图像的中心位置映射到全景球面图像上的点的水平方向的偏转角,如图9中的∠IOB;
滚转角:偏航角空间对象的图像的中心位置映射到全景球面图像上的点与球心连线方向的旋转角,如图9中的∠DOB;
用于表示角度范围的高(在角度坐标系中的目标空间对象的高):目标空间对象的图像在全景球面图像的视场高度,以视场纵向最大角度表示,如图9中∠DOE;用于表示角度范围的宽(在角度坐标系中的目标空间对象的宽):目标空间对象的图像在全景球面图像的视场宽度,以视场横向最大角度表示,如图9中∠COF。
在目标空间信息另一种可能的实现方式中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
在目标空间信息另一种可能的实现方式中,在目标空间对象不是矩形时,该目标空间信息可以包括该目标空间对象的形状类型、半径、周长中至少一种。
在一些实施例中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
在一些实施例中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
其中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
其中,该空间信息类型标识与该同属性空间信息可以封装在同一个box中。
具体实现中,在目标空间信息封装在独立于该目标视频数据的文件(空间信息文件)或者独立于该目标视频数据的轨迹(空间信息轨迹)中时,服务器可以在现有文件格式中的3dsc box中添加同属性空间信息,在现有文件格式中的mdat box中添加该目标空间对象的异属性空间信息。
添加空间信息的样例(样例一):
在该样例中,同属性空间信息可以是yaw、pitch、roll、reference_width和reference_height中的部分,而并非全部,例如没有roll。roll可以属于该目标空间对象的异属性空间信息,也可以不包括在目标空间信息内。3dsc box中还添加了空间信息类型标识regionType,该样例为角度坐标系下的样例。其中,在空间信息类型标识为0时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。在样例中,位置信息用俯仰角θ(pitch)、偏航角ψ(yaw)和滚转角Φ(roll)来表示,宽和高同样可以用角度来表示。换一种方式来理解就是,在空间信息类型标识为0时,该两个空间对象的位置和大小(例如但不限于宽高)都是相同的。
在空间信息类型标识为1时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的宽和该目标空间对象的高。换一种方式来理解就是,在空间信息类型标识为1时,该两个空间对象的大小(例如但不限于宽高)相同,位置不同。
在空间信息类型标识为2时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。换一种方式来理解就是,在空间信息类型标识为2时,该两个空间对象的大小和位置均不同。
相应的,在空间信息类型标识为0时,则可以指示不存在异属性空间信息。在空间信息类型标识为1时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息。在空间信息类型标识为2时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。
添加空间信息的样例(样例二):
该样例为像素坐标系下的样例,在空间信息类型标识为0时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。在样例中,位置信息用以像素为单位的横坐标和以像素为单位的纵坐标来表示,宽和高同样可以以像素为单位来表示。其中,横坐标和纵坐标可以是位置点在图7中的经纬平面图中的坐标,也可以是在全景空间(或者,全景空间对象)中的坐标。换一种方式来理解就是,在空间信息类型标识为0时,该两个空间对象的位置和大小都是相同的。需要说明的是,可以用该目标空间对象的中心点的位置信息替代该目标空间对象的左上点的位置信息。
在空间信息类型标识为1时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的宽和该目标空间对象的高。换一种方式来理解就是,在空间信息类型标识为1时,该两个空间对象的大小相同,位置不同。
在空间信息类型标识为2时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。换一种方式来理解就是,在空间信息类型标识为2时,该两个空间对象的大小和位置均不同。
相应的,在空间信息类型标识为0时,则可以指示不存在异属性空间信息。在空间信息类型标识为1时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息。在空间信息类型标识为2时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。需要说明的是,可以用该目标空间对象的中心点的位置信息替代该目标空间对象的左上点的位置信息。
添加空间信息的样例(样例三):
该样例为像素坐标系下的样例,在空间信息类型标识为0时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。在该样例中,位置信息用以像素为单位的横坐标和以像素为单位的纵坐标来表示。其中,横坐标和纵坐标可以是位置点在图7中的经纬平面图中的坐标,也可以是在全景空间(或者,全景空间对象)中的坐标。换一种方式来理解就是,在空间信息类型标识为0时,该两个空间对象的位置和大小都是相同的。需要说明的是,可以用该目标空间对象的宽和高替代该目标空间对象的右下点的位置信息。
在空间信息类型标识为1时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的右下点的位置信息。换一种方式来理解就是,在空间信息类型标识为1时,该两个空间对象的大小相同,位置不同。需要说明的是,可以用该目标空间对象的宽和高替代该目标空间对象的右下点的位置信息。
在空间信息类型标识为2时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。换一种方式来理解就是,在空间信息类型标识为2时,该两个空间对象的大小和位置均不同。
相应的,在空间信息类型标识为0时,则可以指示不存在异属性空间信息。在空间信息类型标识为1时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息。在空间信息类型标识为2时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。需要说明的是,可以用该目标空间对象的宽和高替代该目标空间对象的右下点的位置信息。
在一些实施例中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
其中,该坐标系标识与该同属性空间信息可以封装在同一个box中。
具体实现中,在目标空间信息封装在独立于该目标视频数据的文件(空间信息文件)或者独立于该目标视频数据的轨迹(空间信息轨迹)中时,服务器可以在现有文件格式中的3dsc box中添加坐标系标识。
添加坐标系标识的样例(样例一):
在该样例中,在坐标系标识Coordinate_system为0时,坐标系为角度坐标系,在坐标系标识为1时,坐标系为像素坐标系。
在一些实施例中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
其中,空间旋转信息标识可以与该同属性空间信息封装在同一个box(例如,3dscbox)中,空间旋转信息标识也可以与该目标空间对象的异属性空间信息封装在同一个box(例如,mdat box)中。具体的,对于空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box的情况,在该空间旋转信息标识指示该目标空间信息包括该目标空间对象的空间旋转信息时,则该目标空间对象的异属性空间信息包括空间旋转信息。
具体实现中,服务器可以将空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box(例如,mdat box)中。进一步的,服务器可以将空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box的同一个样本中。其中一个样本可以封装以一个空间对象对应的异属性信息。
添加空间旋转信息标识的样例(样例一):
在一些实施例中,该同属性空间信息和该目标空间对象的异属性空间信息也可以封装在视频的空间信息元数据中(track matedata),比如封装在同一个box中,例如,trunbox或者tfhd box或者是新的box中。
添加空间信息的样例(样例四):
其中一个空间对象的一个空间信息为一个样本,上述样本数量用于指示空间对象的数量,每个空间对象对应各自的一组异属性空间信息。作为本发明实施例提供的一种流媒体的信息的处理方法一种实现方式,步骤如下:
1、获得空间信息文件或者空间信息轨迹(空间信息可以称之为timed metadata)或者视频的空间信息元数据(或称为目标视频数据的元数据);
2、解析空间信息文件或者空间信息track;
3、解析到tag为3dsc的box(空间信息描述box),解析空间信息类型标识,该空间信息类型标识可以用于指示两个空间对象的空间对象类型,可选的空间对象类型可以包括但不限于:位置和大小不变的空间对象、位置变化和大小不变的空间对象、位置不变和大小变化的空间对象、以及位置和大小均变化的空间对象;
4、如果解析到的空间对象类型是位置和大小不变的空间对象,位置和大小不变的空间对象是指空间对象的空间位置和空间对象的空间的大小不变,那么在3dsc box中解析到的同属性空间信息可以作为目标空间信息,该空间对象类型表示所有的两个空间对象的空间信息都是相同的,取值都和解析到的同属性空间信息一致;如果是该类型的同属性空间信息,在后续的解析中,不需要解析该目标空间对象的异属性空间信息所在的box;
5、如果解析到的空间对象类型是位置变化和大小不变的空间对象,那么在该3dscbox中的同属性空间信息会携带空间对象的大小信息,比如空间对象的宽的高;那么在后续解析得到的该目标空间对象的异属性空间信息中所携带的信息就是每个空间对象的位置信息。
6、如果解析到的空间对象类型是位置和大小均变化的空间对象,那么在后续解析得到的该目标空间对象的异属性空间信息中所携带的信息就是每个空间对象的位置信息(例如,中心点的位置信息)和空间对象的大小信息,例如空间对象的宽的高;
7、解析到目标空间信息后,根据目标空间信息描述的空间对象(目标空间对象),在得到的VR视频中选择呈现的内容对象;或者请求目标空间信息描述的空间对象对应的视频数据进行解码呈现,或者根据该目标空间信息确定当前所观看的视频内容在在VR视频空间(或者称,全景空间)中的位置。
本一些实施例中,可以通过在MPD中的增加携带方式标识(carryType)来描述空间信息的携带方式:携带在空间信息文件或者空间信息轨迹或者目标视频数据的元数据中。
以MPD的基本属性描述子(EssentialProperty)或者补充属性描述子(SupplementalProperty)为例:
语法表:EssentialProperty@value and/or SupplementalProperty@valueattributes for the scheme
或者,
语法表:EssentialProperty@value and/or SupplementalProperty@valueattributes for the scheme
具体的MPD样例如下:
样例一:空间信息携带在目标视频数据的元数据中
在该样例中,value="1,0",1是源的标识,0表示空间信息携带在目标视频数据的轨迹的元数据(或称为目标视频数据的元数据)中
样例二:空间信息携带在空间信息轨迹中
在该样例中,value="1,1",1是源的标识,1表示空间信息携带在独立的空间信息轨迹中。
样例三:空间信息携带在独立的空间信息文件中
在该样例中,value="1,2",1是源的标识,2表示空间信息携带在独立的空间信息文件中,空间信息文件所关联的目标视频表示(或称为目标视频码流)由associationId="zoomed"表示,空间信息文件和representation id为zoomed的目标视频表示关联;
客户端通过解析MPD可以获得空间信息的携带方式,从而根据携带方式获得空间信息。
在一些实施例中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间对象的宽高类型标识,该宽高类型标识可以用于指示用于描述所述目标空间对象的宽高的坐标系,或者,该宽高类型标识可以用于指示用于描述所述目标空间对象的边界的坐标系。该宽高类型标识可以是一个标识,也可以包括宽类型标识和高类型标识。
其中,该宽高类型标识与该同属性空间信息可以封装在同一个box(例如,3dscbox)中,该宽高类型标识也可以与该目标空间对象的异属性空间信息封装在同一个box(例如,mdat box)中。
具体实现中,服务器可以将宽高类型标识与该同属性空间信息封装在同一个box(例如,3dsc box)中。进一步的,在目标空间信息封装在独立于该目标视频数据的文件(空间信息文件)或者独立于该目标视频数据的轨迹(空间信息轨迹)中时,服务器可以在3dscbox中添加宽高类型标识。
添加宽高类型标识的样例(样例一):
在一些实施例中,该同属性空间信息和该目标空间对象的异属性空间信息也可以封装在视频的空间信息元数据中(track matedata),比如封装在同一个box中,例如,trunbox或者tfhd box或者tfhd box或者是新的box中。
添加空间信息的样例(样例二):
在该样例中,在宽高类型标识为0时,用于描述目标空间对象的宽高的坐标系如图10所示,球面的阴影部分是目标空间对象,目标空间对象的四个角的顶点分别是B,E,G,I;在图10中,O为360度VR全景视频球面图像对应的球心,顶点BEGI分别为过球心的圆(该圆以球心O为圆心,并且该圆的半径为360度VR全景视频球面图像对应的球体的半径,该圆过z轴,该圆的数量为两个,一个经过点BAIO,一个经过点EFGO),和平行于坐标轴x轴和y轴的圆(该圆不以球心O为圆心,该圆的数量为两个,且两个圆互相平行,一个经过点BDE,一个经过点IHG)在球面上的交点,C为目标空间对象的中心点,DH边对应的角度表示为目标空间对象的高度,AF边对应的角度表示为目标空间对象的宽度,DH边和AF边过C点,其中BI边、EG边和DH边对应的角度相同;BE边、IG边和AF边对应的角度相同;BE边对应的角的顶点是J,J是上述圆中BDE所在圆和z轴的交点,相应的,IG边对应的角的顶点为上述圆中IHG所在的圆和z轴的交点,AF边对应的角的顶点为O点,BI边、EG边和DH边对应的角的顶点也为O点。
需要说明的是,以上只是一种示例,目标空间对象也可以是过x轴的两个圆和平行于y轴和z轴的且不过球心两个圆相交获得,目标空间对象也可以是过y轴的两个圆和平行于x轴和z轴的且不过球心两个圆相交获得。
在宽高类型标识为1时,用于描述目标空间对象的宽高的坐标系如图11所示,球面的阴影部分是目标空间对象,目标空间对象的四个角的顶点分别是B,E,G,I;在图11中,O为360度VR全景视频球面图像对应的球心,顶点BEGI分别为过z轴的圆(该圆以球心O为圆心,并且该圆的半径为360度VR全景视频球面图像对应的球体的半径,该圆的数量为两个,一个经过点BAI,一个经过点EFG),和过y轴的圆(该圆以球心O为圆心,并且该圆的半径为360度VR全景视频球面图像对应的球体的半径,该圆的数量为两个,一个经过点BDE,一个经过点IHG)在球面上的交点,C为目标空间对象的中心点,DH边对应的角度表示为目标空间对象的高度,AF边对应的角度表示为目标空间对象的宽度,DH边和AF边过C点,其中BI边、EG边和DH边对应的角度相同;BE边、IG边和AF边对应的角度相同;BE边对应的角的顶点为J点,J点为过BE两点并与x轴和y轴平行的圆与z轴的交点,IG边对应的角的顶点为过IG两点并与x轴和y轴平行的圆与z轴的交点,AF边对应的角的顶点为O点,BI边对应的角的顶点为L点,L点为过BI两点并与z轴和x轴平行的圆与y轴的交点,EG边对应的角的顶点为过EG两点并与z轴和x轴平行的圆与y轴的交点,DH边对应的角的顶点也为O点。
需要说明的是,以上只是一种示例,目标空间对象也可以是过x轴的两个圆和过z轴的两个圆相交获得,目标空间对象也可以是过x轴的两个圆和过y轴的两个圆相交获得。
在宽高类型标识为2时,用于描述目标空间对象的宽高的坐标系如图12所示,球面的阴影部分是目标空间对象,目标空间对象的四个角的顶点分别是B,E,G,I;在图12中,O为360度VR全景视频球面图像对应的球心,顶点BEGI分别为平行于坐标轴x轴和z轴的圆(该圆不以球心O为圆心,该圆的数量为两个,且两个圆互相平行,,该圆的数量为两个,一个经过点BAI,一个经过点EFG),和平行于坐标轴x轴和y轴的圆(该圆不以球心O为圆心,该圆的数量为两个,且两个圆互相平行,一个经过点BDE,一个经过点IHG)在球面上的交点,C为目标空间对象的中心点,DH边对应的角度表示为目标空间对象的高度,AF边对应的角度表示为目标空间对象的宽度,DH边和AF边过C点,其中BI边、EG边和DH边对应的角度相同;BE边、IG边和AF边对应的角度相同;BE边、IG边和AF边对应的角的顶点为O点,BI边、EG边和DH边对应的角的顶点也为O点。
需要说明的是,以上只是一种示例,目标空间对象也可以是平行于y轴和z轴的且不过球心两个圆和平行于y轴和x轴的且不过球心两个圆相交获得,目标空间对象也可以是平行于y轴和z轴的且不过球心两个圆和平行于z轴和x轴的且不过球心两个圆相交获得。
在图11中的J点和L点和图10中的J点获取方式相同,BE边对应的角的顶点是J点,BI边对应的角的顶点是L点;在图12中,BE边和BI边对应的顶点都是O点。
在一些实施例中,该同属性空间信息和该目标空间对象的异属性空间信息也可以包含目标空间对象的描述信息,比如该描述信息用于将目标空间对象描述为视角区域(举例来说,可以是视角码流对应的空间对象),或者感兴趣区域,或者该描述信息用于描述目标空间对象的质量信息。可以通过在上述实施例中的3dsc box或者trun box或者tfhd box或者是新的box的语法(syntax)添加该描述信息,或者在SphericalCoordinatesSample中添加该描述信息(content_type),以用于实现以下作用的一种或多种:将目标空间对象描述为视角区域,将目标空间对象描述为感兴趣区域,以及用于描述目标空间对象的质量信息。
在本发明实施例中的一种实现方式中,本实施例中的质量信息可以用qualitybox描述,该box可以是一个sample entry box,也可以是sample box,具体的语法和语义描述如下:
方式一:
其中,ROI周边可以是指图像的背景,quality_ranking_ROI表示ROI的质量等级,quality_ranking_back表示ROI周边的质量等级。
方式二:
aligned(8)class{
unsigned int(1)quality_ranking_dif;
}
quality_ranking_dif表示ROI的质量和ROI周边(后者背景)的质量等级差,或者quality_ranking_dif表示ROI的质量相对给定的值的差,可以在MPD中描述该给定值,也可以在其他位置描述该给定值,比如在box中增加defaultrank(默认质量)用于包括该给定值。quality_ranking_dif>0表示ROI质量高于周边质量,quality_ranking_dif<0表示低于周边质量;quality_ranking_dif=0表示ROI质量和周边质量相同。
方式三:
quality_type表示质量类型,quality_type的值为0可以表示ROI质量,quality_type的值为1可以表示背景质量,当然quality_type的值也可以用其他类似的方式表示。quality_ranking表示质量等级。
比如:下图18,ROiregionstruct描述的是区域1801的区域信息(region),该区域信息可以是具体的区域信息,如现在已有标准中已经描述的,也可以是ROI的timedmetadata track的track ID;quality_ranking_ROI可以表示区域1801的质量等级;num_regions表示周边环形区域的个数,region_dif描述的是环形区域(指区域1802减去区域1801的差)的宽度,或者描述区域1802与区域1801高度差或者水平差,该差值可以是球面坐标系下的差,也可以是2D坐标系下的差;quality_ranking_dif表示环形区域的质量等级,或者与相邻环的质量等级差,相邻环的质量等级差可以比如是区域1802相对区域1801的质量等级差,也可以区域1802相对区域1803的质量等级差。区域1801、1802以及1803可以为矩形区域。或者区域1801,1802,1803可以是如图10,或者图11,或者图12中的阴影区域。
方式五:
此方式中可以不包含region的个数,只描述region的间隔region_dif和region之间的质量变化quality_ranking_dif。如果quality_ranking_dif的值为0可以表示region之间的质量不变。
如果quality_ranking_dif的值小于0可以表示region之间对应的图像质量变低,如果quality_ranking_dif的值大于0可以表示region之间对应的图像质量变高。或者,也可以如果quality_ranking_dif的值大于0可以表示region之间对应的图像质量变低,如果quality_ranking_dif的值小于0可以表示region之间对应的图像质量变高。
在一些可能的方式中,quality_ranking_dif的值可以具体表示质量变高或者变低的幅度。
应理解,可以将质量差和质量可以是质量等级,也可以是具体的质量,比如PSNR,MOS。
在本发明实施例中,ROiregionstruct描述的是区域1801的区域信息(region),该信息可以是具体的区域信息,如现在已有标准中描述的区域,也可以是ROI的timedmetadata track的trackID,这个信息也就可以放在方式一,方式二,方式三中,用来描述ROI的位置。
方式六
方式三中的quality_type也可以是,质量描述的ROI是在2D坐标系中的,或者质量描述的ROI是在球面坐标系下的,或者是扩边区域的ROI的。
方式七,在方式四和方式五中,region_dif可以替换成region_dif_h,region_dif_v。region_dif_h表示区域1802与区域1801宽度差,region_dif_v表示区域1802与区域1801高度差。
在上述方式一至七任一种方式中,qualitybox还可以包括其他信息,例如宽高类型标识。
图13本发明实施例提供的一种流媒体的信息的处理方法的流程示意图。该方法的执行主体可以是服务器,具体可以为计算机设备。如图13所示,该方法可以包括如下步骤:
S1001,获取目标视频数据中的两个图像的数据所关联的两个空间对象各自的空间信息;
S1002,根据两个空间对象各自的空间信息,确定目标空间对象的目标空间信息,该目标空间对象为该两个空间对象中的空间对象,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
在一些实施例中,该方法还可以包括:向客户端发送该目标空间信息。
在一些实施例中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
在一些实施例中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的中心点的位置信息或者该两个空间对象各自的左上点的位置信息,该两个空间对象各自的空间信息还可以包括该两个空间对象各自的宽和该两个空间对象各自的高。
在一些实施例中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的左上点的位置信息和该两个空间对象各自的右下点的位置信息。
在一些实施例中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的空间旋转信息。
在一些实施例中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
其中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
其中,该空间信息类型标识可以与该同属性空间信息封装在同一个box中。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
其中,该坐标系标识可以与该同属性空间信息封装在同一个box中。
其中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
可以理解的是,本实施例的流媒体的信息的处理方法的具体实现过程或者实现方案可以参照上述图8对应的方法实施例的相关描述,此处不再赘述。
图14是发明实施例提供一种流媒体的信息的处理装置1100,信息的处理装置1100可以为服务器,具体可以为计算机设备。该装置1100包括获取模块1101、确定模块1102,其中,
获取模块1101,用于获取目标空间对象的目标空间信息,该目标空间对象为两个空间对象中的空间对象,该两个空间对象与目标视频数据中包括的两个图像的数据关联,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
确定模块1102,用于根据该获取模块获取的该目标空间信息,确定要播放的视频数据。
在一些实施例中,信息的处理装置1100还可以包括显示模块(或者称为显示器),用于显示该要播放的视频数据。
在一些实施例中,获取模块1101用于接收来自服务器的该目标空间信息。在获取模块1101用于接收来自服务器的该目标空间信息时,获取模块可以为接收模块(或者称为接收器,或者收发器)。
在一些实施例中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
在一些实施例中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的中心点的位置信息或者该两个空间对象各自的左上点的位置信息,该两个空间对象各自的空间信息还可以包括该两个空间对象各自的宽和该两个空间对象各自的高。
在一些实施例中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的左上点的位置信息和该两个空间对象各自的右下点的位置信息。
在一些实施例中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的空间旋转信息。
在一些实施例中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
其中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
其中,该空间信息类型标识可以与该同属性空间信息封装在同一个box中。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
其中,该坐标系标识可以与该同属性空间信息封装在同一个box中。
其中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
可以理解的是,获取模块1101、确定模块1102的功能可以通过软件编程的方式实现,也可以通过硬件编程实现,也可以通过电路实现,在此不做限定。
可以理解的是,本实施例的流媒体的信息的处理装置1100的各个模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
图15是发明实施例提供一种流媒体的信息的处理装置1200,该装置包括获取模块1201、确定模块1202,其中,
获取模块1201,用于获取目标视频数据中的两个图像的数据所关联的两个空间对象各自的空间信息。
确定模块1202,用于根据该获取模块获取的该两个空间对象各自的空间信息,确定目标空间对象的目标空间信息,该目标空间对象为该两个空间对象中的空间对象,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
在一些实施例中,该装置1200还可以包括发送模块(或称为发送器,或者收发器),用于向客户端发送该确定模块确定的该目标空间信息。
在一些实施例中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
在一些实施例中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的中心点的位置信息或者该两个空间对象各自的左上点的位置信息,该两个空间对象各自的空间信息还可以包括该两个空间对象各自的宽和该两个空间对象各自的高。
在一些实施例中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的左上点的位置信息和该两个空间对象各自的右下点的位置信息。
在一些实施例中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
相应的,该两个空间对象各自的空间信息可以包括该两个空间对象各自的空间旋转信息。
在一些实施例中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
其中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
其中,该空间信息类型标识可以与该同属性空间信息封装在同一个box中。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
其中,该坐标系标识可以与该同属性空间信息封装在同一个box中。
其中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
可以理解的是,获取模块1201、确定模块1202的功能可以通过软件编程的方式实现,也可以通过硬件编程实现,也可以通过电路实现,在此不做限定。
可以理解的是,本实施例的流媒体的信息的处理装置1200的各个模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
图16是本发明实施例提供的计算机设备1300的硬件结构示意图。如图16所示,计算机设备1300可以作为流媒体的信息的处理装置1100的一种实现方式,也可以作为流媒体的信息的处理装置1200的一种实现方式,计算机设备1300包括处理器1302、存储器1304、输入/输出接口1306、通信接口1308和总线1310。其中,处理器1302、存储器1304、输入/输出接口1306和通信接口1308通过总线1310实现彼此之间的通信连接。
处理器1302可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本发明实施例所提供的流媒体的信息的处理装置1100或者流媒体的信息的处理装置1200中包括的模块所需执行的功能,或者执行本发明方法实施例提供的图8或者图13对应的流媒体的信息的处理方法。处理器1302可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1304,处理器1302读取存储器1304中的信息,结合其硬件完成本发明实施例所提供的流媒体的信息的处理装置1100或者流媒体的信息的处理装置1200中包括的模块所需执行的功能,或者执行本发明方法实施例提供的图8或者图13对应的流媒体的信息的处理方法。
存储器1304可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1304可以存储操作系统以及其他应用程序。在通过软件或者固件来实现本发明实施例提供的流媒体的信息的处理装置1100或者流媒体的信息的处理装置1200中包括的模块所需执行的功能,或者执行本发明方法实施例提供的图8或者图13对应的流媒体的信息的处理方法时,用于实现本发明实施例提供的技术方案的程序代码保存在存储器1304中,并由处理器1302来执行流媒体的信息的处理装置1100或者流媒体的信息的处理装置1200中包括的模块所需执行的操作,或者执行本发明方法实施例提供的用于预测关键性能指标的回归模型的生成方法。
输入/输出接口1306用于接收输入的数据和信息,输出操作结果等数据。可以作为装置1100中的获取模块1101,或者装置1200中的获取模块1201或者发送模块。
通信接口1308使用例如但不限于收发器一类的收发装置,来实现计算机设备1300与其他设备或通信网络之间的通信。可以作为装置1100中的获取模块1101,或者装置1200中的获取模块1201或者发送模块。
总线1310可包括在计算机设备1300各个部件(例如处理器1302、存储器1304、输入/输出接口1306和通信接口1308)之间传送信息的通路。
应注意,尽管图16所示的计算机设备1300仅仅示出了处理器1302、存储器1304、输入/输出接口1306、通信接口1308以及总线1310,但是在具体实现过程中,本领域的技术人员应当明白,计算机设备1300还包含实现正常运行所必须的其他器件,例如在作为流媒体的信息的处理装置1100实现方式时,流媒体的信息的处理装置1100还可以包括显示器,用于显示要播放的视频数据。同时,根据具体需要,本领域的技术人员应当明白,计算机设备1300还可包含实现其他附加功能的硬件器件。此外,本领域的技术人员应当明白,计算机设备1300也可仅仅包含实现本发明实施例所必须的器件,而不必包含图16中所示的全部器件。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一种计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM:Read-Only Memory)或随机存储记忆体(RAM:RandomAccess Memory)等。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要保护的本发明的过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其它组成部分或步骤,“一”或“一个”不排除多个的可能性。单个处理器或其它单元可以实现权利要求中列举的若干项功能。互相不同的从属权利要求中记载了某些措施,但这并不代表这些措施不能组合起来产生良好的效果。计算机程序可以存储/分布在合适的介质中,例如:光存储介质或固态介质,与其它硬件一起提供或作为硬件的一部分,也可以采用其它分布形式,如通过Internet或其它有线或无线电信系统。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种流媒体的信息的处理方法,其特征在于,所述方法包括:
获取目标空间对象的目标空间信息,所述目标空间对象为两个空间对象中的空间对象,所述两个空间对象与目标视频数据中包括的两个图像的数据关联,所述目标空间信息包括同属性空间信息,所述同属性空间信息包括所述两个空间对象各自的空间信息之间相同的信息,所述两个空间对象中除所述目标空间对象外的其他空间对象的空间信息包括所述同属性空间信息;
根据所述目标空间信息,确定要播放的视频数据。
2.根据权利要求1所述的方法,其特征在于,所述目标空间信息还包括所述目标空间对象的异属性空间信息,所述其他空间对象的空间信息还包括所述其他空间对象的异属性空间信息,所述目标空间对象的异属性空间信息与所述其他空间对象的异属性信息不同。
3.根据权利要求1或2所述的方法,其特征在于,所述目标空间信息包括所述目标空间对象的中心点的位置信息或者所述目标空间对象的左上点的位置信息,所述目标空间信息还包括所述目标空间对象的宽和所述目标空间对象的高。
4.根据权利要求1或2所述的方法,其特征在于,所述目标空间信息包括所述目标空间对象的左上点的位置信息,和所述目标空间对象的右下点的位置信息。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述目标空间信息包括所述目标空间对象的空间旋转信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述目标空间信息封装在空间信息数据或者空间信息轨迹(track)中,所述空间信息数据为所述目标视频数据的码流、所述目标视频数据的元数据或者独立于所述目标视频数据的文件,所述空间信息轨迹为独立于所述目标视频数据的轨迹。
7.根据权利要求6所述的方法,其特征在于,所述空间信息数据或者所述空间信息轨迹中还包括用于指示所述同属性空间信息的类型的空间信息类型标识,所述空间信息类型标识用于指示所述目标空间信息中属于所述同属性空间信息的信息。
8.根据权利要求7所述的方法,其特征在于,在所述空间信息类型标识指示目标空间信息中没有属于所述同属性空间信息的信息时,所述同属性空间信息包括所述目标空间对象的宽的最小值、所述目标空间对象的高的最小值、所述目标空间对象的宽的最大值和所述目标空间对象的高的最大值。
9.根据权利要求7或8所述的方法,其特征在于,所述空间信息类型标识与所述同属性空间信息封装在同一个box中。
10.根据权利要求6至9任一项所述的方法,其特征在于,所述空间信息数据或者所述空间信息轨迹中还包括用于指示所述目标空间信息对应的坐标系的坐标系标识,所述坐标系为像素坐标系或者角度坐标系。
11.根据权利要求10所述的方法,其特征在于,所述坐标系标识与所述同属性空间信息封装在同一个box中。
12.根据权利要求6至11任一项所述的方法,其特征在于,所述空间信息数据或者所述空间信息轨迹还包括空间旋转信息标识,所述空间旋转信息标识用于指示所述目标空间信息是否包括所述目标空间对象的空间旋转信息。
13.一种流媒体的信息的处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标空间对象的目标空间信息,所述目标空间对象为两个空间对象中的空间对象,所述两个空间对象与目标视频数据中包括的两个图像的数据关联,所述目标空间信息包括同属性空间信息,所述同属性空间信息包括所述两个空间对象各自的空间信息之间相同的信息,所述两个空间对象中除所述目标空间对象外的其他空间对象的空间信息包括所述同属性空间信息;
确定模块,用于根据所述获取模块获取的所述目标空间信息,确定要播放的视频数据。
14.根据权利要求13所述的装置,其特征在于,所述目标空间信息还包括所述目标空间对象的异属性空间信息,所述其他空间对象的空间信息还包括所述其他空间对象的异属性空间信息,所述目标空间对象的异属性空间信息与所述其他空间对象的异属性信息不同。
15.根据权利要求13或14所述的装置,其特征在于,所述目标空间信息包括所述目标空间对象的中心点的位置信息或者所述目标空间对象的左上点的位置信息,所述目标空间信息还包括所述目标空间对象的宽和所述目标空间对象的高。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2016112528154 | 2016-12-30 | ||
CN201611252815 | 2016-12-30 | ||
CNPCT/CN2017/070863 | 2017-01-11 | ||
PCT/CN2017/070863 WO2018120294A1 (zh) | 2016-12-30 | 2017-01-11 | 一种信息的处理方法及装置 |
CNPCT/CN2017/078585 | 2017-03-29 | ||
PCT/CN2017/078585 WO2018120474A1 (zh) | 2016-12-30 | 2017-03-29 | 一种信息的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108271044A true CN108271044A (zh) | 2018-07-10 |
CN108271044B CN108271044B (zh) | 2020-11-17 |
Family
ID=62706774
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780000430.5A Active CN109074678B (zh) | 2016-12-30 | 2017-01-11 | 一种信息的处理方法及装置 |
CN201780081717.5A Active CN110121734B (zh) | 2016-12-30 | 2017-03-29 | 一种信息的处理方法及装置 |
CN201710214606.9A Active CN108271044B (zh) | 2016-12-30 | 2017-04-01 | 一种信息的处理方法及装置 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780000430.5A Active CN109074678B (zh) | 2016-12-30 | 2017-01-11 | 一种信息的处理方法及装置 |
CN201780081717.5A Active CN110121734B (zh) | 2016-12-30 | 2017-03-29 | 一种信息的处理方法及装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20190325652A1 (zh) |
EP (2) | EP4287637A1 (zh) |
JP (1) | JP7058273B2 (zh) |
KR (1) | KR102261559B1 (zh) |
CN (3) | CN109074678B (zh) |
BR (1) | BR112019013609A8 (zh) |
MX (1) | MX2019007926A (zh) |
WO (1) | WO2018120294A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886234A (zh) * | 2019-02-28 | 2019-06-14 | 苏州科达科技股份有限公司 | 目标检测方法、装置、系统、电子设备、存储介质 |
WO2020063850A1 (zh) * | 2018-09-27 | 2020-04-02 | 华为技术有限公司 | 一种处理媒体数据的方法、终端及服务器 |
WO2020062700A1 (zh) * | 2018-09-27 | 2020-04-02 | 华为技术有限公司 | 处理媒体数据的方法、客户端和服务器 |
CN115225975A (zh) * | 2020-03-24 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 多自由度场景下的沉浸式媒体获取方法、设备及存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102598082B1 (ko) * | 2016-10-28 | 2023-11-03 | 삼성전자주식회사 | 영상 표시 장치, 모바일 장치 및 그 동작방법 |
US11532128B2 (en) | 2017-03-23 | 2022-12-20 | Qualcomm Incorporated | Advanced signaling of regions of interest in omnidirectional visual media |
GB2560921B (en) * | 2017-03-27 | 2020-04-08 | Canon Kk | Method and apparatus for encoding media data comprising generated content |
US10467783B2 (en) | 2018-02-23 | 2019-11-05 | ExoAnalytic Solutions, Inc. | Visualization interfaces for real-time identification, tracking, and prediction of space objects |
GB2601678B (en) | 2019-07-25 | 2024-03-06 | Exoanalytic Solutions Inc | Systems and Visualization interfaces for orbital paths and path parameters of space objects |
JPWO2021251185A1 (zh) * | 2020-06-11 | 2021-12-16 | ||
US12069321B2 (en) * | 2020-06-12 | 2024-08-20 | Tencent America LLC | Data model for representation and streaming of heterogeneous immersive media |
US11687386B2 (en) * | 2020-10-07 | 2023-06-27 | Tencent America LLC | MPD validity expiration processing model |
CN116248642A (zh) | 2020-10-14 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 媒体文件的封装方法、媒体文件的解封装方法及相关设备 |
US20230018718A1 (en) | 2021-06-30 | 2023-01-19 | Lemon Inc. | Signaling Replacement of Video Data Units in a Picture-in-Picture Region |
WO2024050163A2 (en) | 2022-07-29 | 2024-03-07 | ExoAnalytic Solutions, Inc. | Space object alert management and user interfaces |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101291415A (zh) * | 2008-05-30 | 2008-10-22 | 深圳华为通信技术有限公司 | 一种三维视频通信的方法、装置及系统 |
CN101692229A (zh) * | 2009-07-28 | 2010-04-07 | 武汉大学 | 基于数据内容的三维空间数据自适应多级缓存系统 |
US20110149042A1 (en) * | 2009-12-18 | 2011-06-23 | Electronics And Telecommunications Research Institute | Method and apparatus for generating a stereoscopic image |
US20140100814A1 (en) * | 2012-07-02 | 2014-04-10 | Kabushiki Kaisha Toshiba | Measuring device, measuring method, and computer readable medium |
CN104010225A (zh) * | 2014-06-20 | 2014-08-27 | 合一网络技术(北京)有限公司 | 显示全景视频的方法和系统 |
CN104615735A (zh) * | 2015-02-11 | 2015-05-13 | 中科九度(北京)空间信息技术有限责任公司 | 一种基于地理信息空间系统的时空信息可视化方法 |
CN104735464A (zh) * | 2015-03-31 | 2015-06-24 | 华为技术有限公司 | 一种全景视频交互传输方法、服务器和客户端 |
WO2015144735A1 (en) * | 2014-03-25 | 2015-10-01 | Canon Kabushiki Kaisha | Methods, devices, and computer programs for improving streaming of partitioned timed media data |
WO2015197815A1 (en) * | 2014-06-27 | 2015-12-30 | Koninklijke Kpn N.V. | Determining a region of interest on the basis of a hevc-tiled video stream |
CN105408916A (zh) * | 2013-07-26 | 2016-03-16 | 华为技术有限公司 | 用于自适应流媒体中的空间自适应的系统和方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4304108B2 (ja) * | 2004-03-31 | 2009-07-29 | 株式会社東芝 | メタデータ配信装置、動画再生装置および動画再生システム |
JP4671873B2 (ja) * | 2006-01-23 | 2011-04-20 | シャープ株式会社 | 合成映像生成システム |
US20110298795A1 (en) * | 2009-02-18 | 2011-12-08 | Koninklijke Philips Electronics N.V. | Transferring of 3d viewer metadata |
CN102081671A (zh) * | 2011-01-25 | 2011-06-01 | 北京中星微电子有限公司 | 一种视频可伸缩文件的生成方法及装置 |
CN102184082B (zh) * | 2011-05-20 | 2013-04-03 | 广州市数字视频编解码技术国家工程实验室研究开发与产业化中心 | 一种基于双目视差原理的3d浏览器实现方法 |
CN103164440B (zh) * | 2011-12-14 | 2016-05-11 | 中国海洋大学 | 面向虚拟现实的空间数据引擎方法 |
EP2791909A4 (en) * | 2011-12-16 | 2015-06-24 | Thomson Licensing | METHOD AND DEVICE FOR PRODUCING 3D CONTENTS WITH FREE VIEWPOINT |
CN103729358A (zh) * | 2012-10-11 | 2014-04-16 | 中国航天科工集团第二研究院二〇七所 | 基于数据库的视频摘要生成方法 |
US9648299B2 (en) * | 2013-01-04 | 2017-05-09 | Qualcomm Incorporated | Indication of presence of texture and depth views in tracks for multiview coding plus depth |
RU2616185C2 (ru) * | 2013-01-18 | 2017-04-13 | Кэнон Кабусики Кайся | Способ, устройство и компьютерная программа для инкапсуляции сегментированных синхронизированных мультимедийных данных |
CN103391447B (zh) * | 2013-07-11 | 2015-05-20 | 上海交通大学 | 3d节目镜头切换中安全深度保证与调整方法 |
US10721530B2 (en) * | 2013-07-29 | 2020-07-21 | Koninklijke Kpn N.V. | Providing tile video streams to a client |
CN104657376B (zh) * | 2013-11-20 | 2018-09-18 | 航天信息股份有限公司 | 基于节目关系的视频节目的搜索方法和装置 |
CN103826123B (zh) * | 2014-03-04 | 2017-01-18 | 无锡海之量软件科技有限公司 | 面向对象的视频控制流的编码及传输方法 |
JP2015187797A (ja) * | 2014-03-27 | 2015-10-29 | シャープ株式会社 | 画像データ生成装置および画像データ再生装置 |
EP4293972A3 (en) * | 2014-06-27 | 2024-03-27 | Samsung Electronics Co., Ltd. | Method and device for transmitting data |
CN104463957B (zh) * | 2014-11-24 | 2017-06-20 | 北京航空航天大学 | 一种基于素材的三维场景生成工具集成方法 |
GB2538997A (en) * | 2015-06-03 | 2016-12-07 | Nokia Technologies Oy | A method, an apparatus, a computer program for video coding |
CN106101684A (zh) * | 2016-06-30 | 2016-11-09 | 深圳市虚拟现实科技有限公司 | 远程全景图像实时传输和流畅显示的方法 |
-
2017
- 2017-01-11 WO PCT/CN2017/070863 patent/WO2018120294A1/zh active Application Filing
- 2017-01-11 CN CN201780000430.5A patent/CN109074678B/zh active Active
- 2017-03-29 MX MX2019007926A patent/MX2019007926A/es unknown
- 2017-03-29 KR KR1020197022156A patent/KR102261559B1/ko active IP Right Grant
- 2017-03-29 BR BR112019013609A patent/BR112019013609A8/pt unknown
- 2017-03-29 JP JP2019535932A patent/JP7058273B2/ja active Active
- 2017-03-29 CN CN201780081717.5A patent/CN110121734B/zh active Active
- 2017-03-29 EP EP23172704.1A patent/EP4287637A1/en active Pending
- 2017-03-29 EP EP17888252.8A patent/EP3557534A4/en not_active Ceased
- 2017-04-01 CN CN201710214606.9A patent/CN108271044B/zh active Active
-
2019
- 2019-07-01 US US16/458,734 patent/US20190325652A1/en not_active Abandoned
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101291415A (zh) * | 2008-05-30 | 2008-10-22 | 深圳华为通信技术有限公司 | 一种三维视频通信的方法、装置及系统 |
CN101692229A (zh) * | 2009-07-28 | 2010-04-07 | 武汉大学 | 基于数据内容的三维空间数据自适应多级缓存系统 |
US20110149042A1 (en) * | 2009-12-18 | 2011-06-23 | Electronics And Telecommunications Research Institute | Method and apparatus for generating a stereoscopic image |
US20140100814A1 (en) * | 2012-07-02 | 2014-04-10 | Kabushiki Kaisha Toshiba | Measuring device, measuring method, and computer readable medium |
CN105408916A (zh) * | 2013-07-26 | 2016-03-16 | 华为技术有限公司 | 用于自适应流媒体中的空间自适应的系统和方法 |
WO2015144735A1 (en) * | 2014-03-25 | 2015-10-01 | Canon Kabushiki Kaisha | Methods, devices, and computer programs for improving streaming of partitioned timed media data |
CN104010225A (zh) * | 2014-06-20 | 2014-08-27 | 合一网络技术(北京)有限公司 | 显示全景视频的方法和系统 |
WO2015197815A1 (en) * | 2014-06-27 | 2015-12-30 | Koninklijke Kpn N.V. | Determining a region of interest on the basis of a hevc-tiled video stream |
CN104615735A (zh) * | 2015-02-11 | 2015-05-13 | 中科九度(北京)空间信息技术有限责任公司 | 一种基于地理信息空间系统的时空信息可视化方法 |
CN104735464A (zh) * | 2015-03-31 | 2015-06-24 | 华为技术有限公司 | 一种全景视频交互传输方法、服务器和客户端 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020063850A1 (zh) * | 2018-09-27 | 2020-04-02 | 华为技术有限公司 | 一种处理媒体数据的方法、终端及服务器 |
WO2020062700A1 (zh) * | 2018-09-27 | 2020-04-02 | 华为技术有限公司 | 处理媒体数据的方法、客户端和服务器 |
CN109886234A (zh) * | 2019-02-28 | 2019-06-14 | 苏州科达科技股份有限公司 | 目标检测方法、装置、系统、电子设备、存储介质 |
CN109886234B (zh) * | 2019-02-28 | 2021-06-22 | 苏州科达科技股份有限公司 | 目标检测方法、装置、系统、电子设备、存储介质 |
CN115225975A (zh) * | 2020-03-24 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 多自由度场景下的沉浸式媒体获取方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3557534A1 (en) | 2019-10-23 |
BR112019013609A2 (pt) | 2020-01-07 |
KR20190101422A (ko) | 2019-08-30 |
BR112019013609A8 (pt) | 2023-04-04 |
CN109074678B (zh) | 2021-02-05 |
JP7058273B2 (ja) | 2022-04-21 |
WO2018120294A1 (zh) | 2018-07-05 |
CN108271044B (zh) | 2020-11-17 |
US20190325652A1 (en) | 2019-10-24 |
EP4287637A1 (en) | 2023-12-06 |
EP3557534A4 (en) | 2020-01-01 |
JP2020503792A (ja) | 2020-01-30 |
CN110121734B (zh) | 2021-06-01 |
CN110121734A (zh) | 2019-08-13 |
KR102261559B1 (ko) | 2021-06-04 |
CN109074678A (zh) | 2018-12-21 |
MX2019007926A (es) | 2019-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108271044B (zh) | 一种信息的处理方法及装置 | |
CN108965929B (zh) | 一种视频信息的呈现方法、呈现视频信息的客户端和装置 | |
KR102241082B1 (ko) | 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치 | |
RU2711591C1 (ru) | Способ, устройство и компьютерная программа для адаптивной потоковой передачи мультимедийного контента виртуальной реальности | |
CN109362242B (zh) | 一种视频数据的处理方法及装置 | |
CN109218755B (zh) | 一种媒体数据的处理方法和装置 | |
TWI670973B (zh) | 在iso基本媒體檔案格式推導虛擬實境投影、填充、感興趣區域及視埠相關軌跡並支援視埠滾動訊號之方法及裝置 | |
US20210105313A1 (en) | Methods and apparatus for signaling a region in spatially grouped immersive media data tracks | |
US20200389640A1 (en) | Method and device for transmitting 360-degree video by using metadata related to hotspot and roi | |
WO2018058773A1 (zh) | 一种视频数据的处理方法及装置 | |
CN107888993B (zh) | 一种视频数据的处理方法及装置 | |
WO2018126702A1 (zh) | 一种应用于虚拟现实技术的流媒体的传输方法和客户端 | |
US20210176446A1 (en) | Method and device for transmitting and receiving metadata about plurality of viewpoints | |
US20200145716A1 (en) | Media information processing method and apparatus | |
CN110351492B (zh) | 一种视频数据处理方法、装置及介质 | |
CN107959861B (zh) | 一种数据处理方法、相关设备及系统 | |
WO2018120474A1 (zh) | 一种信息的处理方法及装置 | |
CN108271084B (zh) | 一种信息的处理方法及装置 | |
US20230396808A1 (en) | Method and apparatus for decoding point cloud media, and method and apparatus for encoding point cloud media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |