CN112148115A

CN112148115A - 媒体处理方法、装置、系统和可读存储介质

Info

Publication number: CN112148115A
Application number: CN201910580663.8A
Authority: CN
Inventors: 李秋婷; 吴平; 叶小阳
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-29
Also published as: WO2020259498A1; US11974015B2; EP3982235A1; EP3982235A4; KR20220018046A; US20220360848A1

Abstract

本发明实施例提供的媒体处理方法、装置、系统和可读存储介质，在媒体文件中，描述用户的姿势信息和/或姿势变化信息；对所述媒体文件进行处理，确定待播放的影像。从而通过在媒体文件中，描述用户的姿势信息和/或姿势变化信息，可以根据用户的姿势，来实时的调整影像画面，提升了用户观看的质量，保证了用户体验。

Description

媒体处理方法、装置、系统和可读存储介质

技术领域

本发明实施例涉及但不限于多媒体技术领域，具体而言，涉及但不限于一种媒体处理方法、装置、系统和可读存储介质。

背景技术

虚拟现实VR(Virtual Reality)是指利用计算机技术模拟产生三维虚拟世界，让使用者在视觉、听觉、触觉等方面体验高度逼真的虚拟空间环境。随着虚拟现实技术的快速发展，用户移动获取深度的沉浸式体验。

目前，主要是支持平面的全景视频体验，用户佩戴头显设备通过头部的旋转可以观看360度的视频，如果对于增强的三自由度(3DOF+)和部分六自由度的视频，用户的头部还可以在有限的范围内进行移动，以便观看更多的细节。

然而，用户在观看全景视频中，如果发生位移变换，会引起用户观看画面的质量变化、用户观看画面的细节变化，比如说观看到遮挡或阴影内容，会影响用户的观看体验；针对上述问题，目前尚未发现相关的解决方案有效解决用户在变化位置过程中的影像观看。

发明内容

本发明实施例提供的媒体处理方法、装置、系统和可读存储介质，主要解决的技术问题是用户观看视频时发生位移变换用户所看到的画面质量变差，影响用户体验的问题。

为解决上述技术问题，本发明实施例提供一种媒体处理方法，包括：

在媒体文件中，描述用户的姿势信息和/或姿势变化信息；

对所述媒体文件进行处理，确定待播放的影像。

本发明实施例还提供一种媒体处理装置，包括：

姿势描述模块，用于在媒体文件中，描述所述姿势信息和/或姿势变化信息；

影像处理模块，用于对所述媒体文件进行处理，确定待播放的影像。

本发明实施例还提供一种媒体处理系统，所述媒体处理系统包括媒体处理器、传感器、显示器以及通信总线；

所述通信总线用于实现各个器件之间的连接通信；

所述媒体处理器用于执行一个或者多个计算机程序，控制所述传感器、显示器以实现上述的媒体处理方法的步骤。

本发明实施例还提供一种计算机存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述的媒体处理方法的步骤。

本发明的有益效果是：

根据本发明实施例提供的媒体处理方法、装置、系统和可读存储介质，在媒体文件中，描述用户的姿势信息和/或姿势变化信息；对所述媒体文件进行处理，确定待播放的影像。从而通过在媒体文件中，描述用户的姿势信息和/或姿势变化信息，可以根据用户的姿势，来实时的调整影像画面，提升了用户观看的质量，保证了用户体验。

本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。

附图说明

图1为本发明实施例一提供的媒体处理方法流程图；

图2为本发明实施例二提供的媒体处理装置组成示意图；

图3为本发明实施例三提供的媒体处理系统组成示意图；

图4为本发明实施例三提供的一种用户姿势跟踪定时元数据的示意图；

图5是本发明实施例三提供的一种用户姿势跟踪数据盒的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

本实施例提供了一种媒体处理方法，请参考图1，该方法包括：

S101、获取用户在观看视频过程中的姿势变化信息；

S102、在媒体文件中，描述用户的姿势信息和/或姿势变化信息；

S103、对媒体文件进行处理，确定待播放的影像；

S104、对待播放的影像进行显示。

对于待播放的影像而言，其处理方式是，根据媒体文件，对媒体文件进行加解码处理，得到能供用户肉眼直接观看的影像；而在加解码处理过程中，媒体文件可以根据播放设备的不同、环境条件的不同等参数，调整出不同的显示效果。

在本实施例中，在描述用户的姿势信息和/或姿势变化信息之前，还包括：周期性的获取用户的姿势信息。获取用户的姿势信息，可以通过inside-out和outside–in的方式，如inside-out，就是在虚拟现实的头戴设备中，里面有用于定位的传感器，检测用户的运动，如outside-in，则是通过摄像头采集用户的影像，来确定用户的姿势信息。其中，用户的姿势变化，主要的重点在于用户的视线变化，也就是用户的目光在媒体影像上的位置。用户的视线是有一定的范围的，而且这个范围随着偏离视线中心而逐渐模糊直至完全看不到，因此，确定用户视线中心的显示内容则显得尤为重要。确定用户在观看视频中的姿势信息，和/或姿势变化信息，就是为了进一步确定用户的视线相关的信息。

在一些实施例中，姿势信息可以包括用户的观看位置和观看方向中的至少一种，姿势变化信息则相应的可以包括用户的观看位置的变化信息和观看方向的变化信息中的至少一种；其中，观看位置包括用户在全局坐标系中的坐标点位置，和/或用户所在的由定位系统所确定的位置。观看位置的变化信息，也就是用户在空间上的位移，根据参考系的不同，可以包括两种情况：其一，是以当前VR场景下的全局坐标系中，用户的位置变化，所得出的应当是坐标点，如(x，y，z)；其二，就是以已有的全球定位系统所划分的位置信息，包括经纬度、海拔等信息，可以通过GPS、北斗等定位系统确定。

另外，观看方向则可以包括用户的视点在全局坐标系中的位置。用户的视点可以进一步确定用户的视线，而用户的视线方向，相对于用户的眼睛而言应当是一个锥面，也就是自用户的眼部向外扩大延伸出一个锥形的范围，该锥形的范围在坐标系中有相应的图样，或者说是函数图形。随着用户空间位置的变化、头部的转动、瞳孔的转动等条件的触发，用户的视线方向则会发生相应的变化。

在媒体文件中，描述姿势信息和/或姿势变化信息，表示的是，媒体文件中有关于用户的姿势的内容，也就是直接将姿势信息和/或姿势变化信息的相关信息写入媒体文件中，这样可以更加直接的对影像的播放进行控制，提升控制的效率和准确度。

在一些实施例中，在描述用户的姿势信息和/或姿势变化信息之前，还可以包括：

周期性的获取用户的姿势信息。为了获得用户的姿势信息，采用周期性采样的方式，实时获取用户的姿势；这样可以保证影像调节的实时性，提升用户观看质量。

在一些实施例中，媒体文件中媒体轨道包括的媒体采样，对应于用户的姿势信息和/或姿势变化信息；姿势变化信息则可以根据媒体采样中的用户的姿势信息确定。媒体采样中，能反映出用户的姿势信息，而姿势信息就可以进一步确定用户的姿势变化信息，从而能确定当前的画面，与用户姿势改变之前的画面应当作出何种变化。

在一些实施例中，媒体文件中媒体轨道包括的媒体采样，对应于用户的姿势信息可以包括：

根据用户姿势跟踪的定时元数据描述的在任一期间内的用户的姿势信息，即表示期间内媒体采样对应的用户姿势信息。

在一些实施例中，媒体文件中媒体轨道包括的媒体采样，对应于用户的姿势变化信息可以包括：

根据用户姿势变化的定时元数据描述的用户当前的姿势与用户之前的姿势的差别，即表示所述期间内媒体采样对应的用户姿势变化信息。

在一些实施例中，可以根据采样表数据盒中的姿势跟踪数据盒，表示每一个媒体采样所对应的用户的姿势信息。

在一些实施例中，可以根据采样表数据盒中的姿势变化数据盒，表示每一个媒体采样所对应的用户的姿势变化信息。

在一些实施例中，对媒体文件进行处理，确定待播放的影像可以包括：

根据用户的姿势信息和/或姿势变化信息，确定用户当前的姿势；

根据用户当前的姿势，重构/渲染待播放的影像。重构就是对画面进行构图上的改变，或者说是重绘；而渲染，就是对画面进行一些滤镜色调上的调整，不改变画面的结构，可以对因用户姿势变化而可能出现的阴影进行修改等等。

在一些实施例中，在根据用户姿势，重构/渲染待播放的影像之后，还可以包括：

根据媒体文件格式，对重构/渲染后的待播放的影像进行描述。此处的描述是用于下一次的调整，也就是，在对影像进行描述之后，后续的继续播放就可以据此来进行，而用户若再度发生姿势的变化，则以当前的媒体文件进行调整。相应的，在重构/渲染待播放的影像之后，除了对重构/渲染后的待播放影像进行描述之外，还可以对已经调整过的用户姿势进行描述，记录用户的动作，以备后续的学习以及再调整。

本实施例提供了一种媒体处理方法，在媒体文件中，描述用户的姿势信息和/或姿势变化信息；对所述媒体文件进行处理，确定待播放的影像。从而通过在媒体文件中，描述用户的姿势信息和/或姿势变化信息，可以根据用户的姿势，来实时的调整影像画面，提升了用户观看的质量，保证了用户体验。

实施例二

本实施例提供了一种媒体处理装置，请参考图2，该装置包括：

姿势获取模块21，用于获取用户在观看视频过程中的姿势变化信息；

姿势描述模块22，用于在媒体文件中，描述姿势变化信息；

影像处理模块23，用于对媒体文件进行处理，确定待播放的影像；

显示模块24，用于对待播放的影像进行显示。

本实施例提供了一种媒体处理装置，在媒体文件中，描述用户的姿势信息和/或姿势变化信息；对所述媒体文件进行处理，确定待播放的影像。从而通过在媒体文件中，描述用户的姿势信息和/或姿势变化信息，可以根据用户的姿势，来实时的调整影像画面，提升了用户观看的质量，保证了用户体验。

实施例三

本实施例提供了一种媒体处理系统，请参考图3-5。如图3所示，该系统包括媒体处理器10，传感器20，显示器30以及通信总线40，通信总线40用于实现各个器件之间的连接通信，媒体处理器用于执行一个或者多个计算机程序，控制传感器、显示器以实现上述各实施例中的的媒体处理方法的步骤。

其中，媒体处理器包括传输模块101、视频处理模块102、视频封装/解封装模块103、视频编码/解码模块104。图3所示的结构仅为示意，其并不对系统的结构造成限定。例如，传感器20和显示器30可以组合为一个设备，媒体处理器可以包括比图3所示更多或者更少的组件。

传输模块101，用于接收或发送视频文件，以及接收传感器采集数据。上述的接收或发送可以通过通信供应商提供的无线网络、本地组建的无线局域网络、或者有线方式来实现；

视频处理模块102，用于根据传输模块101接收到的传感器采集的用户数据，选取一定区域(即用户的视窗区域)内的视频文件，并对解码视频进行渲染处理；

视频封装/解封装模块103，用于将视频处理模块102待处理的视频文件解封装，或者对视频处理模块102处理好的视频进行文件封装；

视频编码/解码模块104，用于对视频封装/解封装模块103解封装后的视频进行解码，或者对视频封装/解封装模块103将文件封装的视频进行编码压缩；

显示器30至少包含接收模块301和显示模块302，接收模块301用于接收媒体处理器发送的媒体文件，显示模块302用于显示接收的媒体文件。

需要说明的是，在本实施例中，一种实现方式是基于ISO(InternationalOrganization for Standardization，国际标准化组织)基本媒体文件格式将全方向视频数据存储在文件中。

ISO基本文件格式中所有数据都装在盒子(Box)中，即以MP4文件为代表的ISO基本文件格式由若干个盒子组成，每个盒子都有类型和长度，可以视为一个数据对象。一个盒子中可以包含另一个盒子，称为容器盒子。一个MP4文件首先会有且只有一个“ftyp”类型的盒子，作为文件格式的标志并包含关于文件的一些信息。之后会有且只有一个“MOOV”类型的盒子(Movie Box)，它是一种容器盒子，它的子盒子包含了媒体的元数据信息。MP4文件的媒体数据包含在“mdat”类型的盒子(Media Data Box)中，也是容器盒子，可以有多个，也可以没有(当媒体数据全部引用其他文件时)，媒体数据的结构由元数据进行描述。

再而，定时元数据轨道是ISO基本媒体文件格式(ISOBMFF)中的一种建立与特定样本关联的定时元数据的机制。

在一些实施例中，用户实时的反馈其姿势的变化，根据用户姿势跟踪的定时元数据轨道确定每一个样本对应的用户的观看位置和观看方向。

在一些实施例中，根据样本入口类型识别所述用户姿势跟踪定时元数据轨道，所述用户姿势跟踪定时元数据轨道用于指示观看其对应的视频轨道时的姿势信息。

具体地，用户姿势跟踪元数据指示变化的用户姿势的信息。用户姿势跟踪元数据轨道的用途由轨道样本入口类型指示。具体而言，该样本入口类型为‘upot’，定义如下：

UserPoseTraceSampleEntry extends MetaDataSampleEntry('upot'){

string position_provider；

UserPositonBox()

}

class UserPositonBox extends Fullbox(‘upst’,0,0){

unsigned int(1)dynamic_position_flag；

if(dynamic_position_flag＝＝0){

viewpointPosStruct()；

viewpointRotationStruct()；

}

position_provider指示用户位置提供者，可以是用户自己反馈，也可以是导演指定。

dynamic_position_flag取值为0指示该样本入口中所有样本的用户位置是固定的；取值为1指示该样本入口各样本对应的用户位置信息在样本格式中表述。

ViewpointPosStruct()参见示例中的用户位置结构语法定义，指示用户初始的位置。

viewpointsRotationStruct()参见示例中的视点旋转结构，指示用户视点沿着X,Y,Z轴的全局坐标系统的旋转角度。

下面结合可选实施例对用户姿势跟踪定时元数据轨道样本格式进行说明，指示每一个样本对应的用户姿势信息。

aligned(8)UserPoseTraceSample(){

viewpointPosStruct()；

unsigned int(1)rotation_flag；

if(rotation_flag){

viewpointRotationStruct()；

}

rotation_flag等于1表示存在视点的全局坐标系的X，Y和Z坐标轴相对于本地坐标系坐标轴的旋转角度；等于0表示不存在。

用户姿势跟踪定时元数据轨道可以通过引用类型为'cdsc'的轨道引用数据盒(Track Reference Box)引用一个或者多个视频轨道的轨道标识。

所述用户姿势追踪通过用户的观看位置和观看方向来描述，而用户的观看位置和观看方向通过用户在全景视频中的视点信息来表示。视点信息包括以下至少之一：

视点的3D空间位置，包括：视点的X轴坐标、Y轴坐标和Z轴坐标。

视点的GPS位置，包括：视点的经度坐标，维度坐标和高度坐标。

视点的全局坐标系旋转方向，包括：视点的全局坐标系的X,Y,Z轴相对于本地坐标系的偏转角、俯仰角和滚动角。

所述用户的视点信息包括用户视点的位置结构和方向结构。视点位置结构的定义如下：

视点的方向结构定义如下：

具体语义如下：

pos_x，pos_y和pos_z指定在以(0,0,0)为中心的全局参考坐标系中视点的3D空间位置的笛卡尔坐标值。

gpspos_present_flag指示是否存在视点GPS位置的标志位。等于1表示存在视点GPS位置，等于0表示不存在视点GPS位置。

gpspos_longitude，gpspos_latitude和gpspos_altitude分别指示视点GPS位置的经度坐标，纬度坐标和高度坐标。

rotation_yaw，rotation_pitch和rotation_roll分别指定视点沿着X轴、Y轴和Z轴旋转的偏航(yaw)角度，俯仰(pitch)角度和翻滚(roll)角度，即用户视点的本地坐标轴到全局坐标轴的转换。

在一些实施例中，可以根据用户第一姿势和第二姿势的变化量，来表示样本之间用户姿势的变化。

在一些实施例中，根据用户的某一期间(如两个样本期间)内姿势的变化量，表示用户的姿势变化，根据用户姿势变化的定时元数据轨道确定每一个样本对应的用户的观看位置和观看方向的变化信息。

在一些实施例中，根据样本入口类型识别所述用户姿势变化定时元数据轨道，所述用户姿势变化定时元数据轨道用于指示观看其对应的视频轨道时的姿势变化。

具体地，用户姿势变化元数据指示用户姿势变化的信息。用户姿势变化元数据轨道的用途由轨道样本入口类型指示。具体而言，该样本入口类型为‘upot’，定义如下：

UserPoseDifferenceSampleEntry extends MetaDataSampleEntry('upot'){

string pose_provider；

PoseDifferenceBox()；

}

class PoseDifferenceBox extends Fullbox(‘upst’,0,0){

unsigned int(1)dynamic_position_flag；

if(dynamic_position_flag＝＝0){

viewpointPosStruct()；

viewpointRotationStruct()；

}

pose_provider指示用户观看姿势的提供者，可以是用户自己反馈，也可以是导演指定。

dynamic_position_flag取值为0指示该样本入口中所有样本的用户位置没有变化；取值为1指示该样本入口各样本对应的用户位置信息在样本格式中表述。

viewpointRotationStruct()参见示例中的视点全局坐标系统旋转结构，指示用户视点沿着X，Y，Z轴的全局坐标系统的旋转角度。

下面结合可选实施例对用户姿势变化定时元数据轨道样本格式进行说明，指示每一个样本对应的姿势变化信息。

具体语义如下：

pose_flag为0指示两个样本期间内用户姿势没有引起观看位置的变化；为1指示两个样本期间内用户姿势的变化引起观看位置的变化。

pos_difference_x，pos_difference_y和pos_difference_z指定在以(0,0,0)为中心的公共参考坐标系中用户姿势变化引起的视点在3D空间中位置变化的差值。

rotation_flag等于1表示存在视点的全局坐标系的X，Y和Z坐标轴相对于公共参考坐标系坐标轴的旋转角度；等于0表示不存在。

可选地，通过用户的姿势追踪数据盒对每一个媒体采样进行列表描述；下面结合可选实施对姿势追踪数据盒(PoseTraceBox)进行说明。

Box Type：‘post’

Container：SampleTableBox

Mandatory:No

Quantity:Zero or one

语法

sample_count指示在一定时间期间内连续的样本的数量。

可选的，通过表示用户姿势变化的数据盒对每一个媒体采样进行列表描述；下面结合可选实施对姿势变化数据盒(PoseChangeBox)进行说明。

Box Type：‘posc’

Container：SampleTableBox

Mandatory:No

Quantity:Zero or one

语法

sample_count指示在一定时间期间内连续的样本的数量。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储系统、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述各实施例中的媒体处理方法的至少一个步骤。

本实施例还提供了一种计算机程序(或称计算机软件)，该计算机程序可以分布在计算机可读介质上，由可计算系统来执行，以实现上述各实施例中的媒体处理方法的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读系统，该计算机可读系统上存储有如上所示的计算机程序。本实施例中该计算机可读系统可包括如上所示的计算机可读存储介质。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、系统中的功能模块/单元可以被实施为软件(可以用计算系统可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种媒体处理方法，包括：

在媒体文件中，描述用户的姿势信息和/或姿势变化信息；

对所述媒体文件进行处理，确定待播放的影像。

2.如权利要求1所述的媒体处理方法，其特征在于，在所述描述用户的姿势信息和/或姿势变化信息之前，还包括：

周期性的获取用户的姿势信息。

3.如权利要求1所述的媒体处理方法，其特征在于，所述媒体文件中媒体轨道包括的媒体采样，对应于用户的姿势信息和/或用户姿势变化信息。

4.如权利要求3所述的媒体处理方法，其特征在于，所述媒体文件中媒体轨道包括的媒体采样，对应于用户的姿势信息包括：

根据用户姿势跟踪的定时元数据描述的在任一期间内的用户的姿势信息，即表示所述期间内媒体采样对应的用户姿势信息。

5.如权利要求3所述的媒体处理方法，其特征在于，所述媒体文件中媒体轨道包括的媒体采样，对应于用户的姿势变化信息包括：

6.如权利要求3所述的媒体处理方法，其特征在于，根据姿势跟踪数据盒，表示每一个媒体采样所对应的用户的姿势信息。

7.如权利要求3所述的媒体处理方法，其特征在于，根据姿势变化数据盒，表示每一个媒体采样所对应的用户的姿势变化信息。

8.如权利要求1-7任一项所述的媒体处理方法，其特征在于，所述姿势信息包括用户的观看位置和观看方向中的至少一种，所述姿势变化信息相应包括用户的观看位置的变化信息和观看方向的变化信息中的至少一种；其中，所述观看位置包括用户在全局坐标系中的坐标点位置，和/或用户所在的由定位系统所确定的位置。

9.如权利要求8所述的媒体处理方法，其特征在于，所述观看方向包括用户的视点在所述全局坐标系中的位置。

10.如权利要求1-7任一项所述的媒体处理方法，其特征在于，所述对所述媒体文件进行处理，确定待播放的影像包括：

根据用户当前的姿势，重构/渲染所述待播放的影像。

11.如权利要求10所述的媒体处理方法，其特征在于，在根据用户姿势，重构/渲染所述待播放的影像之后，还包括：

根据媒体文件格式，对重构/渲染后的所述待播放的影像进行描述。

12.一种媒体处理装置，包括：

13.一种媒体处理系统，所述媒体处理系统包括媒体处理器、传感器、显示器以及通信总线；

所述通信总线用于实现各个器件之间的连接通信；

所述媒体处理器用于执行一个或者多个计算机程序，控制所述传感器、显示器以实现如权利要求1-11中任一项所述的媒体处理方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如权利要求1-11中任一项所述的媒体处理方法的步骤。