CN112148115A - 媒体处理方法、装置、系统和可读存储介质 - Google Patents
媒体处理方法、装置、系统和可读存储介质 Download PDFInfo
- Publication number
- CN112148115A CN112148115A CN201910580663.8A CN201910580663A CN112148115A CN 112148115 A CN112148115 A CN 112148115A CN 201910580663 A CN201910580663 A CN 201910580663A CN 112148115 A CN112148115 A CN 112148115A
- Authority
- CN
- China
- Prior art keywords
- user
- media
- gesture
- information
- posture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 11
- 238000009877 rendering Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 14
- 238000005538 encapsulation Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例提供的媒体处理方法、装置、系统和可读存储介质,在媒体文件中,描述用户的姿势信息和/或姿势变化信息;对所述媒体文件进行处理,确定待播放的影像。从而通过在媒体文件中,描述用户的姿势信息和/或姿势变化信息,可以根据用户的姿势,来实时的调整影像画面,提升了用户观看的质量,保证了用户体验。
Description
技术领域
本发明实施例涉及但不限于多媒体技术领域,具体而言,涉及但不限于一种媒体处理方法、装置、系统和可读存储介质。
背景技术
虚拟现实VR(Virtual Reality)是指利用计算机技术模拟产生三维虚拟世界,让使用者在视觉、听觉、触觉等方面体验高度逼真的虚拟空间环境。随着虚拟现实技术的快速发展,用户移动获取深度的沉浸式体验。
目前,主要是支持平面的全景视频体验,用户佩戴头显设备通过头部的旋转可以观看360度的视频,如果对于增强的三自由度(3DOF+)和部分六自由度的视频,用户的头部还可以在有限的范围内进行移动,以便观看更多的细节。
然而,用户在观看全景视频中,如果发生位移变换,会引起用户观看画面的质量变化、用户观看画面的细节变化,比如说观看到遮挡或阴影内容,会影响用户的观看体验;针对上述问题,目前尚未发现相关的解决方案有效解决用户在变化位置过程中的影像观看。
发明内容
本发明实施例提供的媒体处理方法、装置、系统和可读存储介质,主要解决的技术问题是用户观看视频时发生位移变换用户所看到的画面质量变差,影响用户体验的问题。
为解决上述技术问题,本发明实施例提供一种媒体处理方法,包括:
在媒体文件中,描述用户的姿势信息和/或姿势变化信息;
对所述媒体文件进行处理,确定待播放的影像。
本发明实施例还提供一种媒体处理装置,包括:
姿势描述模块,用于在媒体文件中,描述所述姿势信息和/或姿势变化信息;
影像处理模块,用于对所述媒体文件进行处理,确定待播放的影像。
本发明实施例还提供一种媒体处理系统,所述媒体处理系统包括媒体处理器、传感器、显示器以及通信总线;
所述通信总线用于实现各个器件之间的连接通信;
所述媒体处理器用于执行一个或者多个计算机程序,控制所述传感器、显示器以实现上述的媒体处理方法的步骤。
本发明实施例还提供一种计算机存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述的媒体处理方法的步骤。
本发明的有益效果是:
根据本发明实施例提供的媒体处理方法、装置、系统和可读存储介质,在媒体文件中,描述用户的姿势信息和/或姿势变化信息;对所述媒体文件进行处理,确定待播放的影像。从而通过在媒体文件中,描述用户的姿势信息和/或姿势变化信息,可以根据用户的姿势,来实时的调整影像画面,提升了用户观看的质量,保证了用户体验。
本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明,且应当理解,至少部分有益效果从本发明说明书中的记载变的显而易见。
附图说明
图1为本发明实施例一提供的媒体处理方法流程图;
图2为本发明实施例二提供的媒体处理装置组成示意图;
图3为本发明实施例三提供的媒体处理系统组成示意图;
图4为本发明实施例三提供的一种用户姿势跟踪定时元数据的示意图;
图5是本发明实施例三提供的一种用户姿势跟踪数据盒的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
本实施例提供了一种媒体处理方法,请参考图1,该方法包括:
S101、获取用户在观看视频过程中的姿势变化信息;
S102、在媒体文件中,描述用户的姿势信息和/或姿势变化信息;
S103、对媒体文件进行处理,确定待播放的影像;
S104、对待播放的影像进行显示。
对于待播放的影像而言,其处理方式是,根据媒体文件,对媒体文件进行加解码处理,得到能供用户肉眼直接观看的影像;而在加解码处理过程中,媒体文件可以根据播放设备的不同、环境条件的不同等参数,调整出不同的显示效果。
在本实施例中,在描述用户的姿势信息和/或姿势变化信息之前,还包括:周期性的获取用户的姿势信息。获取用户的姿势信息,可以通过inside-out和outside–in的方式,如inside-out,就是在虚拟现实的头戴设备中,里面有用于定位的传感器,检测用户的运动,如outside-in,则是通过摄像头采集用户的影像,来确定用户的姿势信息。其中,用户的姿势变化,主要的重点在于用户的视线变化,也就是用户的目光在媒体影像上的位置。用户的视线是有一定的范围的,而且这个范围随着偏离视线中心而逐渐模糊直至完全看不到,因此,确定用户视线中心的显示内容则显得尤为重要。确定用户在观看视频中的姿势信息,和/或姿势变化信息,就是为了进一步确定用户的视线相关的信息。
在一些实施例中,姿势信息可以包括用户的观看位置和观看方向中的至少一种,姿势变化信息则相应的可以包括用户的观看位置的变化信息和观看方向的变化信息中的至少一种;其中,观看位置包括用户在全局坐标系中的坐标点位置,和/或用户所在的由定位系统所确定的位置。观看位置的变化信息,也就是用户在空间上的位移,根据参考系的不同,可以包括两种情况:其一,是以当前VR场景下的全局坐标系中,用户的位置变化,所得出的应当是坐标点,如(x,y,z);其二,就是以已有的全球定位系统所划分的位置信息,包括经纬度、海拔等信息,可以通过GPS、北斗等定位系统确定。
另外,观看方向则可以包括用户的视点在全局坐标系中的位置。用户的视点可以进一步确定用户的视线,而用户的视线方向,相对于用户的眼睛而言应当是一个锥面,也就是自用户的眼部向外扩大延伸出一个锥形的范围,该锥形的范围在坐标系中有相应的图样,或者说是函数图形。随着用户空间位置的变化、头部的转动、瞳孔的转动等条件的触发,用户的视线方向则会发生相应的变化。
在媒体文件中,描述姿势信息和/或姿势变化信息,表示的是,媒体文件中有关于用户的姿势的内容,也就是直接将姿势信息和/或姿势变化信息的相关信息写入媒体文件中,这样可以更加直接的对影像的播放进行控制,提升控制的效率和准确度。
在一些实施例中,在描述用户的姿势信息和/或姿势变化信息之前,还可以包括:
周期性的获取用户的姿势信息。为了获得用户的姿势信息,采用周期性采样的方式,实时获取用户的姿势;这样可以保证影像调节的实时性,提升用户观看质量。
在一些实施例中,媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势信息和/或姿势变化信息;姿势变化信息则可以根据媒体采样中的用户的姿势信息确定。媒体采样中,能反映出用户的姿势信息,而姿势信息就可以进一步确定用户的姿势变化信息,从而能确定当前的画面,与用户姿势改变之前的画面应当作出何种变化。
在一些实施例中,媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势信息可以包括:
根据用户姿势跟踪的定时元数据描述的在任一期间内的用户的姿势信息,即表示期间内媒体采样对应的用户姿势信息。
在一些实施例中,媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势变化信息可以包括:
根据用户姿势变化的定时元数据描述的用户当前的姿势与用户之前的姿势的差别,即表示所述期间内媒体采样对应的用户姿势变化信息。
在一些实施例中,可以根据采样表数据盒中的姿势跟踪数据盒,表示每一个媒体采样所对应的用户的姿势信息。
在一些实施例中,可以根据采样表数据盒中的姿势变化数据盒,表示每一个媒体采样所对应的用户的姿势变化信息。
在一些实施例中,对媒体文件进行处理,确定待播放的影像可以包括:
根据用户的姿势信息和/或姿势变化信息,确定用户当前的姿势;
根据用户当前的姿势,重构/渲染待播放的影像。重构就是对画面进行构图上的改变,或者说是重绘;而渲染,就是对画面进行一些滤镜色调上的调整,不改变画面的结构,可以对因用户姿势变化而可能出现的阴影进行修改等等。
在一些实施例中,在根据用户姿势,重构/渲染待播放的影像之后,还可以包括:
根据媒体文件格式,对重构/渲染后的待播放的影像进行描述。此处的描述是用于下一次的调整,也就是,在对影像进行描述之后,后续的继续播放就可以据此来进行,而用户若再度发生姿势的变化,则以当前的媒体文件进行调整。相应的,在重构/渲染待播放的影像之后,除了对重构/渲染后的待播放影像进行描述之外,还可以对已经调整过的用户姿势进行描述,记录用户的动作,以备后续的学习以及再调整。
本实施例提供了一种媒体处理方法,在媒体文件中,描述用户的姿势信息和/或姿势变化信息;对所述媒体文件进行处理,确定待播放的影像。从而通过在媒体文件中,描述用户的姿势信息和/或姿势变化信息,可以根据用户的姿势,来实时的调整影像画面,提升了用户观看的质量,保证了用户体验。
实施例二
本实施例提供了一种媒体处理装置,请参考图2,该装置包括:
姿势获取模块21,用于获取用户在观看视频过程中的姿势变化信息;
姿势描述模块22,用于在媒体文件中,描述姿势变化信息;
影像处理模块23,用于对媒体文件进行处理,确定待播放的影像;
显示模块24,用于对待播放的影像进行显示。
在本实施例中,在描述用户的姿势信息和/或姿势变化信息之前,还包括:周期性的获取用户的姿势信息。获取用户的姿势信息,可以通过inside-out和outside–in的方式,如inside-out,就是在虚拟现实的头戴设备中,里面有用于定位的传感器,检测用户的运动,如outside-in,则是通过摄像头采集用户的影像,来确定用户的姿势信息。其中,用户的姿势变化,主要的重点在于用户的视线变化,也就是用户的目光在媒体影像上的位置。用户的视线是有一定的范围的,而且这个范围随着偏离视线中心而逐渐模糊直至完全看不到,因此,确定用户视线中心的显示内容则显得尤为重要。确定用户在观看视频中的姿势信息,和/或姿势变化信息,就是为了进一步确定用户的视线相关的信息。
在一些实施例中,姿势信息可以包括用户的观看位置和观看方向中的至少一种,姿势变化信息则相应的可以包括用户的观看位置的变化信息和观看方向的变化信息中的至少一种;其中,观看位置包括用户在全局坐标系中的坐标点位置,和/或用户所在的由定位系统所确定的位置。观看位置的变化信息,也就是用户在空间上的位移,根据参考系的不同,可以包括两种情况:其一,是以当前VR场景下的全局坐标系中,用户的位置变化,所得出的应当是坐标点,如(x,y,z);其二,就是以已有的全球定位系统所划分的位置信息,包括经纬度、海拔等信息,可以通过GPS、北斗等定位系统确定。
另外,观看方向则可以包括用户的视点在全局坐标系中的位置。用户的视点可以进一步确定用户的视线,而用户的视线方向,相对于用户的眼睛而言应当是一个锥面,也就是自用户的眼部向外扩大延伸出一个锥形的范围,该锥形的范围在坐标系中有相应的图样,或者说是函数图形。随着用户空间位置的变化、头部的转动、瞳孔的转动等条件的触发,用户的视线方向则会发生相应的变化。
在媒体文件中,描述姿势信息和/或姿势变化信息,表示的是,媒体文件中有关于用户的姿势的内容,也就是直接将姿势信息和/或姿势变化信息的相关信息写入媒体文件中,这样可以更加直接的对影像的播放进行控制,提升控制的效率和准确度。
在一些实施例中,在描述用户的姿势信息和/或姿势变化信息之前,还可以包括:
周期性的获取用户的姿势信息。为了获得用户的姿势信息,采用周期性采样的方式,实时获取用户的姿势;这样可以保证影像调节的实时性,提升用户观看质量。
在一些实施例中,媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势信息和/或姿势变化信息;姿势变化信息则可以根据媒体采样中的用户的姿势信息确定。媒体采样中,能反映出用户的姿势信息,而姿势信息就可以进一步确定用户的姿势变化信息,从而能确定当前的画面,与用户姿势改变之前的画面应当作出何种变化。
在一些实施例中,媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势信息可以包括:
根据用户姿势跟踪的定时元数据描述的在任一期间内的用户的姿势信息,即表示期间内媒体采样对应的用户姿势信息。
在一些实施例中,媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势变化信息可以包括:
根据用户姿势变化的定时元数据描述的用户当前的姿势与用户之前的姿势的差别,即表示所述期间内媒体采样对应的用户姿势变化信息。
在一些实施例中,可以根据采样表数据盒中的姿势跟踪数据盒,表示每一个媒体采样所对应的用户的姿势信息。
在一些实施例中,可以根据采样表数据盒中的姿势变化数据盒,表示每一个媒体采样所对应的用户的姿势变化信息。
在一些实施例中,对媒体文件进行处理,确定待播放的影像可以包括:
根据用户的姿势信息和/或姿势变化信息,确定用户当前的姿势;
根据用户当前的姿势,重构/渲染待播放的影像。重构就是对画面进行构图上的改变,或者说是重绘;而渲染,就是对画面进行一些滤镜色调上的调整,不改变画面的结构,可以对因用户姿势变化而可能出现的阴影进行修改等等。
在一些实施例中,在根据用户姿势,重构/渲染待播放的影像之后,还可以包括:
根据媒体文件格式,对重构/渲染后的待播放的影像进行描述。此处的描述是用于下一次的调整,也就是,在对影像进行描述之后,后续的继续播放就可以据此来进行,而用户若再度发生姿势的变化,则以当前的媒体文件进行调整。相应的,在重构/渲染待播放的影像之后,除了对重构/渲染后的待播放影像进行描述之外,还可以对已经调整过的用户姿势进行描述,记录用户的动作,以备后续的学习以及再调整。
本实施例提供了一种媒体处理装置,在媒体文件中,描述用户的姿势信息和/或姿势变化信息;对所述媒体文件进行处理,确定待播放的影像。从而通过在媒体文件中,描述用户的姿势信息和/或姿势变化信息,可以根据用户的姿势,来实时的调整影像画面,提升了用户观看的质量,保证了用户体验。
实施例三
本实施例提供了一种媒体处理系统,请参考图3-5。如图3所示,该系统包括媒体处理器10,传感器20,显示器30以及通信总线40,通信总线40用于实现各个器件之间的连接通信,媒体处理器用于执行一个或者多个计算机程序,控制传感器、显示器以实现上述各实施例中的的媒体处理方法的步骤。
其中,媒体处理器包括传输模块101、视频处理模块102、视频封装/解封装模块103、视频编码/解码模块104。图3所示的结构仅为示意,其并不对系统的结构造成限定。例如,传感器20和显示器30可以组合为一个设备,媒体处理器可以包括比图3所示更多或者更少的组件。
传输模块101,用于接收或发送视频文件,以及接收传感器采集数据。上述的接收或发送可以通过通信供应商提供的无线网络、本地组建的无线局域网络、或者有线方式来实现;
视频处理模块102,用于根据传输模块101接收到的传感器采集的用户数据,选取一定区域(即用户的视窗区域)内的视频文件,并对解码视频进行渲染处理;
视频封装/解封装模块103,用于将视频处理模块102待处理的视频文件解封装,或者对视频处理模块102处理好的视频进行文件封装;
视频编码/解码模块104,用于对视频封装/解封装模块103解封装后的视频进行解码,或者对视频封装/解封装模块103将文件封装的视频进行编码压缩;
显示器30至少包含接收模块301和显示模块302,接收模块301用于接收媒体处理器发送的媒体文件,显示模块302用于显示接收的媒体文件。
需要说明的是,在本实施例中,一种实现方式是基于ISO(InternationalOrganization for Standardization,国际标准化组织)基本媒体文件格式将全方向视频数据存储在文件中。
ISO基本文件格式中所有数据都装在盒子(Box)中,即以MP4文件为代表的ISO基本文件格式由若干个盒子组成,每个盒子都有类型和长度,可以视为一个数据对象。一个盒子中可以包含另一个盒子,称为容器盒子。一个MP4文件首先会有且只有一个“ftyp”类型的盒子,作为文件格式的标志并包含关于文件的一些信息。之后会有且只有一个“MOOV”类型的盒子(Movie Box),它是一种容器盒子,它的子盒子包含了媒体的元数据信息。MP4文件的媒体数据包含在“mdat”类型的盒子(Media Data Box)中,也是容器盒子,可以有多个,也可以没有(当媒体数据全部引用其他文件时),媒体数据的结构由元数据进行描述。
再而,定时元数据轨道是ISO基本媒体文件格式(ISOBMFF)中的一种建立与特定样本关联的定时元数据的机制。
在一些实施例中,用户实时的反馈其姿势的变化,根据用户姿势跟踪的定时元数据轨道确定每一个样本对应的用户的观看位置和观看方向。
在一些实施例中,根据样本入口类型识别所述用户姿势跟踪定时元数据轨道,所述用户姿势跟踪定时元数据轨道用于指示观看其对应的视频轨道时的姿势信息。
具体地,用户姿势跟踪元数据指示变化的用户姿势的信息。用户姿势跟踪元数据轨道的用途由轨道样本入口类型指示。具体而言,该样本入口类型为‘upot’,定义如下:
UserPoseTraceSampleEntry extends MetaDataSampleEntry('upot'){
string position_provider;
UserPositonBox()
}
class UserPositonBox extends Fullbox(‘upst’,0,0){
unsigned int(1)dynamic_position_flag;
if(dynamic_position_flag==0){
viewpointPosStruct();
viewpointRotationStruct();
}
position_provider指示用户位置提供者,可以是用户自己反馈,也可以是导演指定。
dynamic_position_flag取值为0指示该样本入口中所有样本的用户位置是固定的;取值为1指示该样本入口各样本对应的用户位置信息在样本格式中表述。
ViewpointPosStruct()参见示例中的用户位置结构语法定义,指示用户初始的位置。
viewpointsRotationStruct()参见示例中的视点旋转结构,指示用户视点沿着X,Y,Z轴的全局坐标系统的旋转角度。
下面结合可选实施例对用户姿势跟踪定时元数据轨道样本格式进行说明,指示每一个样本对应的用户姿势信息。
aligned(8)UserPoseTraceSample(){
viewpointPosStruct();
unsigned int(1)rotation_flag;
if(rotation_flag){
viewpointRotationStruct();
}
}
rotation_flag等于1表示存在视点的全局坐标系的X,Y和Z坐标轴相对于本地坐标系坐标轴的旋转角度;等于0表示不存在。
用户姿势跟踪定时元数据轨道可以通过引用类型为'cdsc'的轨道引用数据盒(Track Reference Box)引用一个或者多个视频轨道的轨道标识。
所述用户姿势追踪通过用户的观看位置和观看方向来描述,而用户的观看位置和观看方向通过用户在全景视频中的视点信息来表示。视点信息包括以下至少之一:
视点的3D空间位置,包括:视点的X轴坐标、Y轴坐标和Z轴坐标。
视点的GPS位置,包括:视点的经度坐标,维度坐标和高度坐标。
视点的全局坐标系旋转方向,包括:视点的全局坐标系的X,Y,Z轴相对于本地坐标系的偏转角、俯仰角和滚动角。
所述用户的视点信息包括用户视点的位置结构和方向结构。视点位置结构的定义如下:
视点的方向结构定义如下:
具体语义如下:
pos_x,pos_y和pos_z指定在以(0,0,0)为中心的全局参考坐标系中视点的3D空间位置的笛卡尔坐标值。
gpspos_present_flag指示是否存在视点GPS位置的标志位。等于1表示存在视点GPS位置,等于0表示不存在视点GPS位置。
gpspos_longitude,gpspos_latitude和gpspos_altitude分别指示视点GPS位置的经度坐标,纬度坐标和高度坐标。
rotation_yaw,rotation_pitch和rotation_roll分别指定视点沿着X轴、Y轴和Z轴旋转的偏航(yaw)角度,俯仰(pitch)角度和翻滚(roll)角度,即用户视点的本地坐标轴到全局坐标轴的转换。
在一些实施例中,可以根据用户第一姿势和第二姿势的变化量,来表示样本之间用户姿势的变化。
在一些实施例中,根据用户的某一期间(如两个样本期间)内姿势的变化量,表示用户的姿势变化,根据用户姿势变化的定时元数据轨道确定每一个样本对应的用户的观看位置和观看方向的变化信息。
在一些实施例中,根据样本入口类型识别所述用户姿势变化定时元数据轨道,所述用户姿势变化定时元数据轨道用于指示观看其对应的视频轨道时的姿势变化。
具体地,用户姿势变化元数据指示用户姿势变化的信息。用户姿势变化元数据轨道的用途由轨道样本入口类型指示。具体而言,该样本入口类型为‘upot’,定义如下:
UserPoseDifferenceSampleEntry extends MetaDataSampleEntry('upot'){
string pose_provider;
PoseDifferenceBox();
}
class PoseDifferenceBox extends Fullbox(‘upst’,0,0){
unsigned int(1)dynamic_position_flag;
if(dynamic_position_flag==0){
viewpointPosStruct();
viewpointRotationStruct();
}
pose_provider指示用户观看姿势的提供者,可以是用户自己反馈,也可以是导演指定。
dynamic_position_flag取值为0指示该样本入口中所有样本的用户位置没有变化;取值为1指示该样本入口各样本对应的用户位置信息在样本格式中表述。
ViewpointPosStruct()参见示例中的用户位置结构语法定义,指示用户初始的位置。
viewpointRotationStruct()参见示例中的视点全局坐标系统旋转结构,指示用户视点沿着X,Y,Z轴的全局坐标系统的旋转角度。
下面结合可选实施例对用户姿势变化定时元数据轨道样本格式进行说明,指示每一个样本对应的姿势变化信息。
具体语义如下:
pose_flag为0指示两个样本期间内用户姿势没有引起观看位置的变化;为1指示两个样本期间内用户姿势的变化引起观看位置的变化。
pos_difference_x,pos_difference_y和pos_difference_z指定在以(0,0,0)为中心的公共参考坐标系中用户姿势变化引起的视点在3D空间中位置变化的差值。
rotation_flag等于1表示存在视点的全局坐标系的X,Y和Z坐标轴相对于公共参考坐标系坐标轴的旋转角度;等于0表示不存在。
可选地,通过用户的姿势追踪数据盒对每一个媒体采样进行列表描述;下面结合可选实施对姿势追踪数据盒(PoseTraceBox)进行说明。
Box Type:‘post’
Container:SampleTableBox
Mandatory:No
Quantity:Zero or one
语法
sample_count指示在一定时间期间内连续的样本的数量。
可选的,通过表示用户姿势变化的数据盒对每一个媒体采样进行列表描述;下面结合可选实施对姿势变化数据盒(PoseChangeBox)进行说明。
Box Type:‘posc’
Container:SampleTableBox
Mandatory:No
Quantity:Zero or one
语法
sample_count指示在一定时间期间内连续的样本的数量。
本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储系统、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序,其存储的一个或者多个计算机程序可被处理器执行,以实现上述各实施例中的媒体处理方法的至少一个步骤。
本实施例还提供了一种计算机程序(或称计算机软件),该计算机程序可以分布在计算机可读介质上,由可计算系统来执行,以实现上述各实施例中的媒体处理方法的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读系统,该计算机可读系统上存储有如上所示的计算机程序。本实施例中该计算机可读系统可包括如上所示的计算机可读存储介质。
可见,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、系统中的功能模块/单元可以被实施为软件(可以用计算系统可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (14)
1.一种媒体处理方法,包括:
在媒体文件中,描述用户的姿势信息和/或姿势变化信息;
对所述媒体文件进行处理,确定待播放的影像。
2.如权利要求1所述的媒体处理方法,其特征在于,在所述描述用户的姿势信息和/或姿势变化信息之前,还包括:
周期性的获取用户的姿势信息。
3.如权利要求1所述的媒体处理方法,其特征在于,所述媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势信息和/或用户姿势变化信息。
4.如权利要求3所述的媒体处理方法,其特征在于,所述媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势信息包括:
根据用户姿势跟踪的定时元数据描述的在任一期间内的用户的姿势信息,即表示所述期间内媒体采样对应的用户姿势信息。
5.如权利要求3所述的媒体处理方法,其特征在于,所述媒体文件中媒体轨道包括的媒体采样,对应于用户的姿势变化信息包括:
根据用户姿势变化的定时元数据描述的用户当前的姿势与用户之前的姿势的差别,即表示所述期间内媒体采样对应的用户姿势变化信息。
6.如权利要求3所述的媒体处理方法,其特征在于,根据姿势跟踪数据盒,表示每一个媒体采样所对应的用户的姿势信息。
7.如权利要求3所述的媒体处理方法,其特征在于,根据姿势变化数据盒,表示每一个媒体采样所对应的用户的姿势变化信息。
8.如权利要求1-7任一项所述的媒体处理方法,其特征在于,所述姿势信息包括用户的观看位置和观看方向中的至少一种,所述姿势变化信息相应包括用户的观看位置的变化信息和观看方向的变化信息中的至少一种;其中,所述观看位置包括用户在全局坐标系中的坐标点位置,和/或用户所在的由定位系统所确定的位置。
9.如权利要求8所述的媒体处理方法,其特征在于,所述观看方向包括用户的视点在所述全局坐标系中的位置。
10.如权利要求1-7任一项所述的媒体处理方法,其特征在于,所述对所述媒体文件进行处理,确定待播放的影像包括:
根据用户的姿势信息和/或姿势变化信息,确定用户当前的姿势;
根据用户当前的姿势,重构/渲染所述待播放的影像。
11.如权利要求10所述的媒体处理方法,其特征在于,在根据用户姿势,重构/渲染所述待播放的影像之后,还包括:
根据媒体文件格式,对重构/渲染后的所述待播放的影像进行描述。
12.一种媒体处理装置,包括:
姿势描述模块,用于在媒体文件中,描述所述姿势信息和/或姿势变化信息;
影像处理模块,用于对所述媒体文件进行处理,确定待播放的影像。
13.一种媒体处理系统,所述媒体处理系统包括媒体处理器、传感器、显示器以及通信总线;
所述通信总线用于实现各个器件之间的连接通信;
所述媒体处理器用于执行一个或者多个计算机程序,控制所述传感器、显示器以实现如权利要求1-11中任一项所述的媒体处理方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现如权利要求1-11中任一项所述的媒体处理方法的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910580663.8A CN112148115A (zh) | 2019-06-28 | 2019-06-28 | 媒体处理方法、装置、系统和可读存储介质 |
US17/623,190 US11974015B2 (en) | 2019-06-28 | 2020-06-23 | Media processing method, device and system, and readable storage medium |
EP20830754.6A EP3982235A4 (en) | 2019-06-28 | 2020-06-23 | Media processing method, apparatus and system, and readable storage medium |
KR1020227000739A KR20220018046A (ko) | 2019-06-28 | 2020-06-23 | 미디어 처리 방법, 장치, 시스템 및 판독가능 저장매체 |
PCT/CN2020/097736 WO2020259498A1 (zh) | 2019-06-28 | 2020-06-23 | 媒体处理方法、装置、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910580663.8A CN112148115A (zh) | 2019-06-28 | 2019-06-28 | 媒体处理方法、装置、系统和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148115A true CN112148115A (zh) | 2020-12-29 |
Family
ID=73891275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910580663.8A Pending CN112148115A (zh) | 2019-06-28 | 2019-06-28 | 媒体处理方法、装置、系统和可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11974015B2 (zh) |
EP (1) | EP3982235A4 (zh) |
KR (1) | KR20220018046A (zh) |
CN (1) | CN112148115A (zh) |
WO (1) | WO2020259498A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112423108B (zh) * | 2019-08-20 | 2023-06-30 | 中兴通讯股份有限公司 | 码流的处理方法、装置、第一终端、第二终端及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188283A (ja) * | 2006-01-13 | 2007-07-26 | Seiko Epson Corp | 画像評価装置、画像評価方法、画像評価プログラム、記録媒体、及び画像サーバシステム |
GB201305402D0 (en) | 2013-03-25 | 2013-05-08 | Sony Comp Entertainment Europe | Head mountable display |
US9897450B2 (en) * | 2015-05-20 | 2018-02-20 | Nokia Technologies Oy | Method and apparatus to obtain differential location information |
WO2018038520A1 (ko) | 2016-08-25 | 2018-03-01 | 엘지전자 주식회사 | 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치 |
JP6657475B2 (ja) * | 2016-08-25 | 2020-03-04 | エルジー エレクトロニクス インコーポレイティド | 全方位ビデオを伝送する方法、全方位ビデオを受信する方法、全方位ビデオの伝送装置及び全方位ビデオの受信装置 |
US10742999B2 (en) * | 2017-01-06 | 2020-08-11 | Mediatek Inc. | Methods and apparatus for signaling viewports and regions of interest |
GB2560921B (en) * | 2017-03-27 | 2020-04-08 | Canon Kk | Method and apparatus for encoding media data comprising generated content |
JP7085816B2 (ja) * | 2017-09-26 | 2022-06-17 | キヤノン株式会社 | 情報処理装置、情報提供装置、制御方法、及びプログラム |
CN110545469B (zh) * | 2018-05-29 | 2021-07-06 | 北京字节跳动网络技术有限公司 | 非流媒体文件的网页播放方法、装置及存储介质 |
CN110876051B (zh) * | 2018-08-29 | 2023-04-11 | 中兴通讯股份有限公司 | 视频数据的处理,传输方法及装置,视频数据的处理系统 |
-
2019
- 2019-06-28 CN CN201910580663.8A patent/CN112148115A/zh active Pending
-
2020
- 2020-06-23 US US17/623,190 patent/US11974015B2/en active Active
- 2020-06-23 EP EP20830754.6A patent/EP3982235A4/en active Pending
- 2020-06-23 WO PCT/CN2020/097736 patent/WO2020259498A1/zh unknown
- 2020-06-23 KR KR1020227000739A patent/KR20220018046A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
WO2020259498A1 (zh) | 2020-12-30 |
US11974015B2 (en) | 2024-04-30 |
EP3982235A1 (en) | 2022-04-13 |
EP3982235A4 (en) | 2023-06-28 |
KR20220018046A (ko) | 2022-02-14 |
US20220360848A1 (en) | 2022-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854149B2 (en) | Techniques for capturing and displaying partial motion in virtual or augmented reality scenes | |
US20170302714A1 (en) | Methods and systems for conversion, playback and tagging and streaming of spherical images and video | |
CN110876051B (zh) | 视频数据的处理,传输方法及装置,视频数据的处理系统 | |
KR20190008325A (ko) | 가상 현실 미디어 콘텐트의 적응적 스트리밍을 위한 방법, 디바이스, 및 컴퓨터 프로그램 | |
US11539983B2 (en) | Virtual reality video transmission method, client device and server | |
CN110663068B (zh) | 用于渲染全景场景的坐标映射 | |
CA2977074A1 (en) | Methods, devices and systems for automatic zoom when playing an augmented reality scene | |
CN111031293B (zh) | 全景监控的展示方法、装置和系统及计算机可读存储介质 | |
US10313763B2 (en) | Method and apparatus for requesting and receiving selected segment streams based on projection information | |
US20240048676A1 (en) | Method, apparatus and device for processing immersive media data, storage medium | |
CN110663067B (zh) | 用于生成现实世界场景的定制视图的虚拟化投影以包括在虚拟现实媒体内容中的方法和系统 | |
US20230018560A1 (en) | Virtual Reality Systems and Methods | |
US11974015B2 (en) | Media processing method, device and system, and readable storage medium | |
US20230206575A1 (en) | Rendering a virtual object in spatial alignment with a pose of an electronic device | |
CN107948759B (zh) | 一种业务对象的交互方法和装置 | |
KR101915578B1 (ko) | 시점 기반 오브젝트 피킹 시스템 및 그 방법 | |
KR101773929B1 (ko) | 광 시야각 영상 처리 시스템, 광 시야각 영상의 전송 및 재생 방법, 및 이를 위한 컴퓨터 프로그램 | |
CN112423108A (zh) | 码流的处理方法、装置、第一终端、第二终端及存储介质 | |
KR102085136B1 (ko) | 손상 오브젝트의 복원 방법 및 이를 위한 서버 장치 | |
CN111448544A (zh) | 沉浸式虚拟环境中的动画化视角的选择 | |
CN112511866B (zh) | 媒体资源播放方法、装置、设备和存储介质 | |
WO2022037423A1 (zh) | 点云媒体的数据处理方法、装置、设备及介质 | |
CN115883871A (zh) | 媒体文件封装与解封装方法、装置、设备及存储介质 | |
CN116643644A (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 | |
CN116643643A (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |