CN115244940A - 媒体数据的表示 - Google Patents

媒体数据的表示 Download PDF

Info

Publication number
CN115244940A
CN115244940A CN202080092805.7A CN202080092805A CN115244940A CN 115244940 A CN115244940 A CN 115244940A CN 202080092805 A CN202080092805 A CN 202080092805A CN 115244940 A CN115244940 A CN 115244940A
Authority
CN
China
Prior art keywords
media data
video
representation
metadata
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080092805.7A
Other languages
English (en)
Inventor
马科·埃罗马基
埃罗·萨尔梅林
周红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN115244940A publication Critical patent/CN115244940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/368Image reproducers using viewer tracking for two or more viewers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Computer Graphics (AREA)

Abstract

各种示例性实施例涉及媒体数据的处理。一些实现方式涉及视频数据的表示、与视频表示的交互或对虚拟现实空间中的视频数据的访问。公开了一种设备、方法和计算机程序。

Description

媒体数据的表示
技术领域
本发明大体涉及分别处理和准备媒体数据的领域。
背景技术
在各种计算机系统中,可以向用户提供用户界面来控制媒体数据的播放,从而播放媒体数据的所需部分。例如,可以使得用户能够及时快进或倒回视频剪辑。虚拟现实(virtual reality,VR)技术能够提供沉浸式视频体验(例如,通过虚拟现实耳机),使得用户可以在虚拟现实空间中观察周围的虚拟内容。
发明内容
提供本发明内容是为了以简化的形式介绍在以下具体实施方式中进一步描述的一些概念。发明内容并非旨在确定请求保护的主题的关键或必要特征,也并非旨在用于限制请求保护的主题的范围。
本发明的目的在于确定虚拟现实空间中的媒体数据的表示。上述和其它目的通过独立权利要求的特征来实现。其它实现方式在从属权利要求、说明书和附图中显而易见。
根据第一方面,提供了一种设备,例如用于接收媒体数据的媒体数据准备设备。所述设备可以包括存储指令的存储器,所述指令可由处理器执行,以使所述设备接收基于至少一个空间坐标的元数据集合。所述元数据集合可以与所述媒体数据相关联。所述设备还可以用于:基于所述元数据集合,确定所述虚拟现实空间中的所述媒体数据的表示。该方案能够提供虚拟现实空间中的媒体数据的信息性表示,用户可能会认为所述信息性表示将以特别真实的方式呈现。
在所述第一方面的一种实现方式中,确定所述媒体数据的所述表示可以包括:将所述元数据集合映射到所述虚拟现实空间中的至少一个位置。该方案能够提供媒体表示,所述媒体表示反映用户或捕获设备在捕获所述媒体数据期间的位置。因此,所述用户可以观察与所述虚拟现实空间中的所述媒体数据相关联的位置。
在所述第一方面的另一种实现方式中,所述媒体数据可以包括多个视频帧。所述元数据集合的子集可以对应于所述多个视频帧中的每一个。该方案能够提供视频表示,所述视频表示反映用户或捕获设备在捕获每个视频帧期间的位置。
在所述第一方面的另一种实现方式中,所述元数据集合可以包括与所述媒体数据相关联的位置信息、运动信息和时间信息中的至少一种。该方案能够提供所述虚拟现实空间中的位置、运动和/或时间相关媒体表示。
在所述第一方面的另一种实现方式中,所述位置信息可以包括与所述媒体数据的捕获相关联的多个位置。该方案能够将对应于不同捕获位置的所述媒体数据的部分映射到所述虚拟现实空间中的对应位置。替代地或附加地,所述运动信息可以包括与所述媒体数据的所述捕获相关联的多个速度。该方案能够基于速度确定所述捕获位置,并提供所述虚拟现实空间中的所述位置相关媒体表示。
在所述第一方面的另一种实现方式中,所述运动信息可以包括陀螺仪数据和/或磁力计数据。该方案能够将所述运动信息本地记录在所述捕获设备中。
在所述第一方面的另一种实现方式中,所述媒体数据的所述表示可以包括第一媒体数据的第一表示和第二媒体数据的第二表示。所述第一表示和所述第二表示可以在所述虚拟现实空间中相交。该方案使得所述用户能够轻松观察所述虚拟现实空间中的媒体数据的空间和时间一致性。此外,该方案还能够确定不同媒体数据和/或与其相关联的用户之间的关系。
在所述第一方面的另一种实现方式中,所述设备还可以用于:检测所述虚拟现实空间中的所述媒体数据的所述表示的第一位置处的用户输入。所述设备还可以用于:基于所述第一位置执行与所述媒体数据相关联的操作。该方案能够实现用户与所述媒体数据的直观交互。
在所述第一方面的另一种实现方式中,检测所述用户输入可以包括:检测用户的身体部位或虚拟现实控制器,以与所述第一位置处的所述虚拟现实空间中的所述媒体数据的所述表示相一致。该方案能够检测与所述媒体表示的用户交互。
在所述第一方面的另一种实现方式中,检测所述用户输入可以包括:检测所述用户的头部,以与所述第一位置处的所述虚拟现实空间中的所述媒体数据的所述表示相一致。例如,可以基于与虚拟现实耳机相关联的至少一个传感器跟踪所述用户的头部的位置。该方案使得所述用户能够通过直观的潜水手势等与所述媒体表示交互。
在所述第一方面的另一种实现方式中,所述操作可以包括:从与所述第一位置相关联的所述媒体数据的一部分发起所述媒体数据播放。该方案使得所述用户能够基于所述直观的潜水手势等,选择用于在所述虚拟现实空间中发起媒体播放的位置。替代地或附加地,所述操作可以包括:提供与所述第一位置相关联的所述媒体数据的一部分的预览。该方案使得用户能够选择所述媒体数据的所需部分。替代地或附加地,所述操作可以包括:编辑所述媒体数据的所述表示。该方案能够实现直观的用户界面,用于修改所述虚拟现实空间中的所述媒体数据的内容和/或播放顺序。
在所述第一方面的另一种实现方式中,所述设备还可以用于:基于所述媒体数据的所述表示和/或所述元数据集合,确定社交网络信息。该方案能够基于媒体表示的相交等,确定与不同媒体数据相关联的用户之间的关系。替代地或附加地,所述设备可以用于:接收与所述媒体数据相关联的社交网络信息。所述设备还可以用于:基于所述社交网络信息和所述元数据集合,确定所述媒体数据的所述表示。该方案能够为所述用户提供媒体表示,所述媒体表示考虑与不同媒体数据相关联的用户之间的关系。
在所述第一方面的另一种实现方式中,所述设备还可以用于:接收与所述媒体数据相关联的上下文元数据集合。所述设备还可以用于:基于所述上下文元数据集合和/或所述元数据集合,确定至少一个事件的预测。该方案能够通知所述用户未来事件或未来事件的性质,例如与其它用户相遇。
根据第二方面,提供了一种用于准备媒体数据的方法。所述方法可以包括:接收基于至少一个空间坐标的元数据集合。所述元数据集合可以与所述媒体数据相关联。所述方法还可以包括:基于所述元数据集合,确定所述虚拟现实空间中的所述媒体数据的表示。该方案能够提供虚拟现实(virtual reality,VR)空间中的所述媒体数据的信息性表示。
在所述第二方面的一种实现方式中,所述方法可以在根据所述第一方面的任意一种实现方式所述的设备中执行。
根据第三方面,计算机程序可以包括计算机程序代码,当所述计算机程序在计算机上执行时,所述计算机程序代码用于执行根据所述第二方面的所述方法的任意一种实现方式。
根据第四方面,计算机程序产品可以包括存储有程序代码的计算机可读存储介质,所述程序代码包括用于执行根据所述第二方面的任意一种实现方式所述的方法的指令。
根据第五方面,设备可以包括用于执行所述第二方面的所述方法的任意一种实现方式的装置。
因此,本发明的实现方式可以提供一种用于确定虚拟现实空间中的媒体数据的表示的设备、方法、计算机程序和计算机程序产品。根据下面描述的实施例,本发明的这些方面和其它方面将变得显而易见。
附图说明
为了进一步理解本发明实施例并构成本说明书的一部分而包括在内的附图示出了本发明实施例,并与说明书一起有助于理解本发明实施例,其中:
图1示出了本发明实施例提供的视频系统的示例;
图2示出了用于实现本发明的一个或多个实施例的设备的示例;
图3示出了本发明实施例提供的虚拟现实空间中的视频表示的示例;
图4示出了本发明实施例提供的虚拟现实空间中的视频表示的另一示例;
图5示出了本发明实施例提供的确定和提供视频表示的示例;
图6示出了本发明实施例提供的编辑视频表示的示例;
图7示出了本发明实施例提供的所编辑的视频表示的示例;
图8示出了本发明实施例提供的分析视频表示或元数据的示例;
图9示出了本发明实施例提供的分析与不同用户相关联的视频表示的示例;
图10示出了本发明实施例提供的基于社交网络信息确定的视频表示的示例;
图11示出了本发明实施例提供的基于视频表示预测未来事件的示例;
图12示出了本发明实施例提供的基于至少一个未来事件的预测的扩展视频表示的示例;
图13示出了本发明实施例提供的叠加在地理内容上的视频表示的示例;
图14示出了本发明实施例提供的叠加在地理内容上的视频表示的另一示例;
图15示出了本发明实施例提供的用于准备媒体数据的方法的示例。
在附图中,相同的附图标记用于表示相同的部件。
具体实施方式
现在将详细参考示例性实施例,所述示例性实施例的示例在附图中示出。下面结合附图提供的详细说明旨在作为本发明示例的说明,并非旨在表示可以构造或利用本发明示例的唯一方式。具体实施方式阐述了本发明示例的功能以及构建和操作本发明示例的步骤的顺序。然而,相同或等效功能以及顺序可以通过不同的示例实现。
传统上,应当理解的是,有三个空间维度(长度、宽度、深度)用于定位对象在空间中的坐标。附加地,可以将时间视为非空间的第四维度。相反,所述时间维度可以用于定位对象在时间上的位置。由于物理世界是三维的,因此无法直接看到时间,因为这超越了一次可观察的物理世界。人们只能通过观察所述物理世界随着时间的推移而发生的变化来感知时间的前进方向。然而,根据另一种观点,测量的时间被视为纯粹的数学值,所述数学值本身在物理上不存在。相应地,所述时间被视为“永恒”宇宙中的第四空间维度。
因此,本文中所公开的示例性实施例能够基于与媒体数据(例如,一个或多个视频文件)相关联的时间、运动和/或位置信息来表示和分析所述媒体数据。例如,可以在虚拟现实空间中提供一种用于访问或编辑所述媒体数据的直观用户界面,由此以允许通过信息性方式表示媒体数据的形式实现时间和空间因子。
在一种场景中,媒体捕获设备可以实现为日常可穿戴设备,甚至是人体植入物。通过这种方式,可以捕获整个人生过程或其部分,并将其可视化为所述虚拟现实空间中的媒体表示。这使得用户能够在眨眼之间跳到特定事件或亮点。此外,还可以存储生活方式数据等上下文元数据,并将其与所述媒体数据关联。例如,所述上下文元数据可以包括从健康传感器和/或光谱摄像头接收的数据。然后,可以分析所述生活方式数据以估计其对寿命的影响。所述寿命估计的结果可以反映在所述媒体表示的长度中。
根据一个示例性实施例,用于接收媒体数据的装置可以接收元数据集合,例如,与媒体数据相关联的至少一个空间坐标。所述元数据集合可以用于确定所述虚拟现实空间中的所述媒体数据(例如,管)的表示,使得与所述媒体数据相关联的捕获位置和/或时间信息反映在所述媒体表示的形状和/或长度中。
图1示出了本发明实施例提供的视频系统100的示例。所述视频系统100可以包括视频设备,所述视频设备由虚拟现实(virtual reality,VR)耳机102表示。然而,所述视频设备通常可以包括适合向用户提供或协助提供虚拟现实内容的任何设备。例如,所述视频设备可以包括独立的VR耳机或其它设备(例如,用于耦合到所述VR耳机的手机),使得可以在所述其它设备的显示器上体验所述虚拟现实内容。
虚拟现实空间可以是指用户使用虚拟现实设备(例如,所述VR耳机102)消费所述虚拟现实内容时可观察的空间。例如,所述虚拟现实内容可以包括全方位的视频内容,使得根据所述用户的当前视向向所述用户显示所述内容的一部分。所述虚拟现实内容可以是三维的(例如,立体的),使得所述虚拟现实内容中包含的对象显示在所述虚拟现实空间中的特定位置。例如,特定对象可以显示在所述虚拟现实空间中的某一深度的某一方向。虚拟现实空间还可以混合真实内容和虚拟内容,使得虚拟内容可以通过透明眼镜等在真实世界视图之上进行增强。因此,应当理解的是,增强现实(augmented reality,AR)或混合现实(mixed reality,MR)可以被视为不同形式的虚拟现实。虚拟现实空间还可以称为虚拟空间、三维(three-dimensional,3D)空间或3D虚拟空间。
所述VR系统100还可以包括视频控制器104,用于执行各种控制任务,例如检索、解码和/或处理视频内容,以使其可以显示在所述VR耳机102上。所述视频控制器104可以包括视频播放器。所述视频控制器104可以实现为单独的设备,也可以集成在所述VR耳机102中,例如作为软件和/或硬件组件。因此,所述视频控制器104可以通过一个或多个内部或外部通信接口(例如,数据总线、有线连接或无线连接)与所述VR耳机102进行通信。
所述视频系统100还可以包括视频服务器108,所述视频服务器108可以用于存储与不同用户相关联的视频数据和/或元数据,并在请求时向所述视频控制器104提供所述数据。所述视频服务器108可以是本地服务器,或者所述视频服务器108可以通过网络106(例如,互联网)访问。然而,视频数据和/或相关联的元数据可以本地存储在所述VR耳机102或所述视频控制器104中。因此,还可以在不接入网络的情况下实现示例性实施例。
所述视频内容可以由移动录制设备捕获,所述移动录制设备可以包括手机或可穿戴式设备等。例如,所述移动录制设备可以围绕所述用户的手腕或颈部设置,例如作为手表或手镯。所述移动录制设备还可以与所述用户的头部耦合,例如作为VR耳机或智能眼镜。所述移动录制设备可以用于录制短事件和/或长事件。所述移动录制设备可以将所述视频内容提供给所述视频服务器108,或者所述视频内容可以由所述移动录制设备在本地捕获,使得所述视频内容在本地可供所述视频控制器104和/或所述VR耳机102使用。根据一个实施例,所述VR耳机102可以捕获所述视频内容。例如,所述录制的视频内容可以本地或远程存储在可通过网络访问的云中。
图2示出了设备200(例如,VR耳机102、视频控制器104或视频服务器108等视频设备)的实施例,所述设备200用于实现一个或多个示例性实施例。根据一些实施例,所述设备200可以配置为媒体数据准备设备200。所述设备200可以包括至少一个处理器202。例如,所述至少一个处理器202可以包括各种处理设备(例如,协处理器、微处理器、控制器、数字信号处理器(digital signal processor,DSP)、带或不带伴随DSP的处理电路)或包括集成电路的各种其它处理设备(例如,专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)、微控制器单元(microcontroller unit,MCU)、硬件加速器、专用计算机芯片等)中的一个或多个。
所述设备200还可以包括至少一个存储器204。所述至少一个存储器204可以用于存储计算机程序代码等,例如操作系统软件和应用软件。所述至少一个存储器204可以包括一个或多个易失性存储器设备、一个或多个非易失性存储器设备和/或其组合。例如,所述至少一个存储器204可以实现为磁存储设备(例如,硬盘驱动器、软盘、磁带等)、光磁存储设备或半导体存储器(例如,掩模ROM、可编程ROM(programmable ROM,PROM)、可擦除PROM(erasable PROM,EPROM)、闪存ROM、随机存取存储器(random access memory,RAM)等)。
所述设备200还可以包括通信接口208,用于使所述设备200发送和/或接收信息。所述通信接口208可以用于提供至少一个无线连接,例如3GPP移动宽带连接(例如,3G、4G、5G)。替代地或附加地,所述通信接口208可以用于提供一种或多种其它类型的连接,例如无线局域网(wireless local area network,WLAN)连接,例如由IEEE 802.11系列或Wi-Fi联盟标准化的连接;短距离无线网络连接,例如蓝牙、近场通信(near-field communication,NFC)或RFID连接;有线连接,例如局域网(local area network,LAN)连接、通用串行总线(universal serial bus,USB)连接、高清多媒体接口(high-definition multimediainterface,HDMI)或光网络连接;或有线互联网连接。所述通信接口208可以包括或用于耦合到至少一根天线,以发送和/或接收射频信号。所述各种类型的连接中的一个或多个还可以实现为单独的通信接口,所述通信接口可以耦合到或用于耦合到多根天线。
所述设备200还可以包括用户界面210,所述用户界面210包括或用于耦合到输入设备和/或输出设备。所述输入设备可以采用各种形式,例如键盘、触摸屏和/或一个或多个嵌入式控制按钮。所述输入设备还可以包括无线控制设备,例如虚拟现实手动控制器。例如,所述输出设备可以包括至少一个显示器、扬声器、振动电机、嗅觉设备等。
当所述设备200用于实现某个功能时,所述设备200的某个和/或某些组件(例如,所述至少一个处理器和/或所述存储器)可以用于实现该功能。此外,当所述至少一个处理器用于实现一些功能时,该功能可以使用诸如包括在所述至少一个存储器204中的程序代码206来实现。
本文所述的功能可以至少部分地由一个或多个计算机程序产品组件(例如,软件组件)来执行。根据一个实施例,所述设备200包括处理器或处理器电路(例如,微控制器),在执行所述程序代码时由所述程序代码配置为执行本文所述的操作和功能的实施例。替代地或附加地,本文所述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于,可以使用的示例性类型的硬件逻辑组件包括现场可编程门阵列(Field-programmable Gate Array,FPGA)、专用集成电路(application-specific IntegratedCircuit,ASIC)、专用标准产品(application-specific Standard Product,ASSP)、片上系统(System-on-a-chip system,SOC)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、图形处理单元(Graphics Processing Unit,GPU)。
所述设备200包括用于执行本文所述的至少一种方法的装置。在一个示例中,所述装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机代码用于通过所述至少一个处理器使所述设备至少执行所述方法。
尽管所述设备200示为单个设备,但应当理解的是,在适用的情况下,所述设备200的功能可以分发到多个设备,例如,以将示例性实施例实现为云计算服务。
图3示出了本发明实施例提供的虚拟现实(virtual reality,VR)空间中的视频表示302的示例。所述VR空间可以与坐标系相关联,使得可以诸如相对于三个正交轴306(x、y、z)来标识所述VR空间内的位置。替代地,可以使用其它坐标系。所述VR空间可以提供6自由度(six degree-of-freedom,6DOF)能力,使得用户308可以相对于所述视频表示302在所述VR空间中移动。替代地,所述表示可以以其它虚拟现实格式提供,例如3DOF(其中,所述用户308能够从一个位置观察所述VR空间)或者3DOF+(其中,所述用户还能够移动其头部)。
所述视频表示302可以基于视频内容(例如,多个视频帧304)生成。视频帧可以包括所述视频数据在特定时刻的快照。根据时间分辨率,所述视频数据可以包括不同的每秒视频帧数,例如每秒50帧(frames per second,fps)。所述视频数据的各部分可以与元数据集合相关联。所述元数据集合可以基于至少一个空间坐标。例如,所述元数据集合可以包括与所述视频数据的捕获相关联的至少一个坐标。例如,所述元数据集合可以在捕获所述视频数据时存储。根据一个示例实施例,元数据的子集可以与每个视频帧相关联。例如,所述元数据集合可以包括每个视频帧的捕获位置。尽管以视频数据为例描述了实施例,但应当理解的是,各实施例可以应用于其它类型的媒体数据,例如具有或不具有相关联的视频数据或图像数据的音频数据和/或嗅觉数据。
所述元数据集合可以包括位置信息(例如,坐标),其可以与捕获所述视频数据的至少一部分相关联。所述位置信息可以包括定位系统坐标。所述位置信息可以基于任何合适的定位系统来确定,例如全球定位系统(global positioning system,GPS)、Wi-Fi定位等。通常,所述位置信息可以包括与所述媒体数据的捕获相关联的多个位置。
替代地或附加地,所述元数据集合可以包括运动信息,例如与所述媒体数据(例如,所述视频数据)的所述捕获相关联的多个速度。所述多个速度可以与所述视频数据的不同部分(例如,不同的视频帧)相关联。所述多个速度可以包括多个运动方向和对应的多个运动速度。所述运动信息可以基于传感器数据确定,所述传感器数据由嵌入所述捕获设备或与所述捕获设备相关联的一个或多个加速计、陀螺仪和/或磁力计等提供。因此,所述运动信息可以包括陀螺仪数据和/或磁力计数据。所述运动信息还可以基于所述捕获设备的跟踪位置确定。
替代地或附加地,所述元数据集合可以包括与所述媒体数据相关联的时间信息,例如,每个视频帧的时间戳或视频帧的子集。所述时间信息可以包括绝对时间(例如,采用协调通用时间(coordinated universal time,UTC)格式的日期和时间)或相对时间(例如,相对于所述视频数据的起始位置)。
与所述视频数据相关联的所述元数据集合可以用于向所述用户308提供反映与所述视频数据相关联的位置信息的视频表示302。例如,所述视频表示302可以包括根据所述视频数据的捕获位置在所述VR空间中传播的管。所述管的长度可以反映时间维度。例如,所述管在所述VR空间中的起始位置可以对应于所述视频数据的起始位置,所述管的结束位置可以对应于所述视频数据的结束位置。因此,“永恒”宇宙的四个维度可以有利地呈现给所述VR空间中的所述用户308。
根据一个实施例,所述视频数据可以包括多个视频帧304。所述元数据集合可以包括多个元数据子集。每个视频帧或视频帧的子集可以与元数据的子集相关联。例如,视频捕获设备可以用于不时地(例如以某些时间间隔定期)存储元数据的子集(例如,空间位置),使得一些视频帧与元数据的子集关联,而一些视频帧与元数据的子集不关联。例如,所述元数据集合可以作为元数据轨迹存储在视频文件中;或者,所述元数据集合可以单独存储。
与所述视频帧相关联的所述元数据集合可以映射到所述虚拟空间的坐标系,从而可以确定所述VR空间中的所述视频表示302的形状和/或位置。例如,视频帧310可以与真实世界中的特定坐标相关联。所述真实世界坐标可以映射到所述VR空间的坐标(x0、y0、z0)。因此,可以确定所述表示302通过所述VR空间中的点(x0、y0、z0)。
图4示出了本发明实施例提供的虚拟现实空间中的视频表示402的另一示例。所述视频表示402可以表示过山车的视频数据(例如,多个视频帧404),使得所述过山车的多轮在所述VR空间中形成封闭管。因此,基于位置信息的视频表示402向所述用户308提供所述视频数据的信息性表示。
结合图3和图4,应当注意的是,所述用户308可以访问所述视频数据(例如,多个视频帧304、404),或者利用潜水手势312或指示手势410等各种用户输入与所述VR空间中的所述视频表示302、402进行交互,如下面将进一步描述的。
图5示出了本发明实施例提供的确定和提供视频表示的示例。该图示出了由所述VR耳机102、所述视频控制器104和所述视频服务器108执行的不同操作。然而,应当理解的是,所述操作可以由视频系统的任何合适的设备或功能执行。此外,还可以为其它类型的媒体(例如,音频或图像数据)或多媒体内容提供类似的表示。
在501中,所述视频控制器104可以检索视频数据和/或元数据集合,用于提供VR空间中的视频数据的表示。所述视频数据和/或元数据可以从本地存储器(例如,所述视频控制器104的内部存储器)或外部本地存储器设备(例如,外部硬盘驱动器)接收。所述视频数据可以包括多个视频帧。所述元数据可以与所述视频数据相关联。所述元数据可以包括空间元数据,例如,与所述视频数据的至少一部分相关联的位置和/或运动等空间信息。所述元数据还可以包括时间元数据,例如与所述视频数据的至少一部分相关联的时间信息,例如时间戳。所述视频数据的所述部分可以包括一个或多个视频帧。
替代地,所述视频数据和/或元数据可以从所述视频服务器108接收,例如通过所述网络106。例如,在502中,所述视频控制器104可以向所述视频服务器108发送数据请求。所述请求可以包括所述数据的一个或多个标识符和/或用于提供所述数据的一个或多个条件。例如,所述数据请求可以指示一个或多个用户、一个或多个地理区域、一个或多个时段等,例如作为提供所述数据的条件。所述数据请求可以指示所述视频控制器104是否请求视频数据、元数据或视频数据和元数据两者。
所述数据请求可以指示出于提供视频表示目的而请求所述视频数据。这使得能够减少所述视频控制器104与所述视频服务器108之间的数据传输量。例如,响应于接收此类指示,所述视频服务器108可以提供生成视频表示所需的信息。例如,所述视频服务器108可以提供不含视频数据的元数据或具有视频数据子集的元数据。根据一个实施例,所述视频控制器104可以明确请求所述元数据和/或所述视频数据的子集。在适用的情况下,从本地存储器检索所述视频数据时,也可以应用类似的条件或请求。
在503中,所述视频控制器104可以从所述视频服务器108接收所述视频数据。
在504中,所述视频控制器104可以从所述视频服务器108接收所述元数据集合。所述视频数据和所述元数据可以以单独的文件或流接收。替代地,所述元数据可以与所述视频数据或其子集一起提供,例如作为元数据轨迹。通常,所述视频控制器104可以接收基于至少一个空间坐标的元数据集合,其中,所述元数据集合与所述媒体数据相关联。所述媒体数据可以包括多个视频帧,其中,所述元数据集合的子集可以对应于所述多个视频帧中的每一个。
在505中,所述视频控制器104可以基于所述元数据集合确定所述VR空间中的所述视频数据的至少一个表示。可以确定所述视频表示,使得所述VR空间中的所述视频表示的所述形状和/或位置反映与所述视频数据相关联的位置信息。通常,所述视频控制器104可以基于所述元数据集合确定虚拟现实空间中的所述媒体数据的表示。确定所述媒体数据的所述表示可以包括:将所述元数据集合映射到所述虚拟现实空间中的至少一个位置。所述元数据集合可以包括与所述媒体数据相关联的位置信息、运动信息和时间信息中的至少一种。
所述位置信息(例如,至少一个真实世界坐标)可以直接映射到所述VR空间;或者,所述VR空间中的所述视频表示的所述位置可以基于所述位置信息的转换确定。例如,所述VR空间中的所述视频表示的位置可以缩放,从而放大或衰减视频捕获期间的移动等。所述视频表示还可以基于与所述媒体数据的捕获相关联的时间信息确定。例如,所述时间信息可以用于修改所述视频表示,从而在所述VR空间中的不同位置表示与不同时刻或时段相关联的事件。根据一个实施例,所述VR空间中的所述视频表示的所述长度可以基于所述视频数据的时长确定。所述视频表示可以包括各种几何形状,例如几何线、样条或管和/或所述几何线、样条或管的分支。所述视频控制器104还可以以适合在所述VR耳机102上显示的格式生成所述视频表示数据。
在506中,所述视频控制器104可以向所述VR耳机102发送所述视频表示数据。
在507中,所述VR耳机102可以显示所述视频表示。所述用户可以体验所述VR空间中的所述视频表示。例如,所述用户可以观察所述视频内容如何随时间的推移在所述VR空间中传播。
在508中,所述VR耳机102可以向所述视频控制器104发送传感器数据。所述VR耳机102可以内嵌能够跟踪所述用户的当前视口的传感器。视口可以包括一次通过所述VR耳机102对所述用户可见的所述VR空间的一部分。所述当前视口可以基于所述VR耳机102的位置和/或方向跟踪,使得可以呈现对应于所述用户的当前视向的所述VR空间的所述部分。此外,还可以使得所述用户能够相对于所述视频表示移动,从而从不同的视点观察所述视频表示。
所述视频控制器104可以从所述VR耳机102接收所述传感器数据。基于所述接收的传感器数据,所述视频控制器104可以向所述VR耳机102发送对应于所述当前视口的视频、图像和/或音频数据。所述传感器数据还可以包括用户输入相关数据,例如所述VR空间中的所述用户的身体部位(例如,手)的位置、VR控制器的位置、所述VR耳机102或相关联的VR控制器中嵌入的按钮的激活等。
在509中,所述视频控制器104可以检测所述VR空间中的所述视频表示的特定位置处的用户输入。通常,检测所述视频表示处的用户输入可以包括检测身体部位或虚拟现实(virtual reality,VR)控制器,以与所述VR空间中的所述视频表示相一致。所述视频控制器104可以用于基于附接到所述用户的不同身体部位的传感器、基于所述用户携带的VR控制器和/或基于所述VR耳机102的位置跟踪所述用户的位置。例如,所述视频控制器104可以用于跟踪所述用户的头部、手或手指的位置,以检测所述视频表示的特定位置处的手势。所述视频控制器104可以用于基于检测所述特定位置处的用户输入,对所述视频表示或所述视频数据执行至少一个操作。VR控制器可以包括用于由所述用户携带的控制设备。例如,所述VR控制器可以包括手动控制器。例如,所述VR控制器可以与所述VR耳机102和/或所述视频控制器104通信耦合,以发送与所述VR控制器相关联的传感器数据。
通常,所述视频控制器104可以用于:检测所述虚拟现实空间中的所述媒体数据的所述表示的第一位置处的用户输入;基于所述第一位置执行与所述媒体数据相关联的操作。检测所述用户输入可以包括:检测所述用户的身体部位或虚拟现实控制器,以与所述第一位置处的所述虚拟现实空间中的所述媒体数据的所述表示相一致。检测所述用户输入可以包括:检测所述用户的头部,以与所述第一位置处的所述虚拟现实空间中的所述媒体数据的所述表示相一致,其中,可以基于与虚拟现实耳机相关联的至少一个传感器跟踪所述用户的头部的位置。所述操作包括以下各项中的至少一项:从与所述第一位置相关联的所述媒体数据的一部分发起所述媒体数据播放;提供与所述第一位置相关联的所述媒体数据的一部分的预览;编辑所述媒体数据的所述表示。
参考图3,例如,可以检测所述用户对所述第一位置(x1、y1、z1)处的所述视频表示302执行潜水手势312。检测所述潜水手势可以包括:检测所述用户的头部或所述VR耳机102,以与所述VR空间中的所述第一位置(x1、y1、z1)处的所述视频表示302相一致。例如,可以基于与所述VR耳机102相关联的至少一个传感器跟踪所述用户的头部的位置。所述视频控制器104可以用于响应于检测所述第一位置(x1、y1、z1)处的所述潜水手势而执行操作。所述操作可以包括:从对应于所述第一位置(x1、y1、z1)的所述视频数据的一部分发起视频播放。例如,所述视频控制器104可以用于确定所述多个视频帧304中的哪一个视频帧对应于所述第一位置(x1、y1、z1)。响应于检测所述潜水手势或另一预定手势,所述视频控制器104可以确定从该帧发起视频播放。
在510中,例如,响应于所述VR空间中的所述第一位置(x1、y1、z1)处的所述检测的用户输入,所述视频控制器104可以检索所述视频数据。所述视频控制器104可以从其内部存储器检索所述视频数据,例如从对应于所述第一位置(x1、y1、z1)的所述视频帧开始的视频帧。所述视频控制器104可能已在操作503中检索或接收用于发起所述视频播放的必要视频内容。替代地或附加地,所述视频控制器104可以从所述视频服务器108检索所述视频数据。例如,在511中,所述视频控制器104可以向所述视频服务器108发送视频数据请求。所述视频数据请求可以包括对应于所述VR空间中的所述第一位置(x1、y1、z1)的所述视频帧的指示。在512中,所述视频控制器104可以从所述视频服务器108接收所述请求的视频数据。
在513中,所述视频控制器104可以向所述VR耳机102发送所述视频数据。在514中,所述VR耳机102可以显示所述视频数据。在515中,所述VR耳机102可以向所述视频控制器104发送传感器数据。应当注意的是,即使图5中示出了检索所述视频数据510、发送所述视频数据513、显示所述视频数据514以及发送所述传感器数据515的单个操作,向所述用户提供所述视频数据还可以包括从所述视频控制器104和/或所述视频服务器108到所述VR耳机102的连续数据流,其中所述视频数据的各部分基于所述VR耳机102报告的传感器数据(例如,视向和/或位置)提供。
所述视频数据可以包括三维视频数据或二维视频数据。无论视频的类型如何,都可以使用所述VR耳机102将所述视频数据呈现给所述用户。例如,参考图3,如果所述视频数据是三维(three-dimensional,3D)视频数据,所述视频控制器104可以使用所述3D视频数据来替换所述3D视频表示302。如果所述视频数据是二维(two-dimensional,2D)视频数据,所述视频控制器104可以使用所述2D视频在所述VR空间中的投影来替换所述3D视频表示302,或者使用所述2D视频数据在所述VR空间中的投影来补充所述3D视频表示302。例如,所述2D视频可以显示在所述VR空间中的2D表面上。
如上所述,在514中显示所述视频数据时,所述VR耳机102可以向所述视频控制器104报告所述传感器数据。除指示所述用户的视向和/或位置的所述传感器数据外,所述传感器数据还可以包括指示终止视频播放的请求的用户输入数据。例如,响应于接收此类请求或到达所述视频数据的末尾时,所述视频控制器104可以用于终止视频播放。
在516中,所述视频控制器104可以用于更新所述视频表示。例如,当终止视频播放时,所述视频控制器104可以用于确定所述VR空间中对应于最后播放的视频帧的第二位置。然后,可以基于对应于所述VR空间中的所述最后播放的视频帧的位置呈现所述视频表示。
在517中,所述视频控制器104可以向所述VR耳机102发送所述更新的视频表示数据。
在518中,所述VR耳机102可以显示所述更新的视频表示。
例如,参考图3,可以在对应于所述VR空间中的所述第二位置(x2、y2、z2)的视频帧处接收与指示终止视频播放的请求的用户输入相关联的传感器数据。响应于所述用户输入,所述视频控制器104可以基于所述第二位置(x2、y2、z2)呈现所述视频表示302,例如使得所述用户位于所述VR空间中的所述第二位置(x2、y2、z2)或其附近。如果所述用户没有终止视频播放,则可以确定所述最后播放的视频帧对应于所述视频数据的最后一个视频帧,并且可以基于所述视频表示的结束位置呈现所述视频表示。因此,本实施例提供了一种直观的用户界面,用于访问VR空间中的媒体数据。例如,可以使得所述用户能够进入VR空间中的视频管。在视频播放结束时,所述用户在所述管的末端或在终止视频播放时从所述管中离开。
参考图4,可以使得所述用户能够通过身体部位(例如,手406)或VR控制器执行手势410。所述手势可以包括与所述视频表示402相关联的任何合适的手势,例如指示手势、划线手势、抓取手势、拖拽手势、擦拭手势等。不同的手势410可以与不同的操作相关联。例如,指示手势可以与提供所述VR空间中的所述视频数据的预览408相关联。
根据一个实施例,所述视频控制器104可以用于:在508中,接收传感器数据;在509中,检测位置(x3、y3、z3)处的指示手势;和/或在516中,使用所述预览408更新所述视频表示。例如,所述视频控制器104可以确定所述多个视频帧404中的哪一个视频帧对应于所述检测的指示位置(x3、y3、z3)。所述视频控制器104可以基于该视频帧提供所述预览408。所述预览408可以包括预览帧或预览视频。例如,所述预览408可以在所述VR空间中的二维表面上提供。可选地,在510中,可以检索与所述更新(例如,所述预览)相关的视频数据。所述视频控制器104可以确定自动或基于后续用户输入发起视频播放。例如,所述指示手势410之后可以是潜水手势312,以基于所述指示位置或后续潜水位置发起视频播放。
图6示出了本发明实施例提供的编辑视频表示600的示例。所述视频表示600可以包括视频表示601(包括部分601-1和601-2)、602、603(603-1和603-2)和604(604-1和604-2)。然而,应当理解的是,通常,所述视频表示600可以包括一个或多个视频剪辑、文件或视频数据的各部分的表示。如图6所示,所述视频表示601和602可以在所述VR空间中相交。通常,媒体数据的表示可以包括第一媒体数据的第一表示和第二媒体数据的第二表示。所述第一表示和所述第二表示可以在所述VR空间中相交。
如结合图5所讨论的,可以在所述操作509中检测用户输入。响应于检测所述用户输入,可以执行与所述用户输入相关联的操作。例如,所述操作可以包括在516中更新所述视频表示。例如,可以使得用户能够编辑所述视频表示。
在图6的示例中,所述视频控制器104可以从所述VR耳机102、与所述VR耳机102或所述用户相关联的至少一个传感器或VR控制器接收传感器数据。基于所述接收的传感器数据,所述视频控制器104可以检测位置611处的用户输入,例如,所述用户输入可以位于所述视频表示601和602的相交处。所述用户输入可以与剪切所述位置611处的所述视频表示的操作相关联。根据一个实施例,所述用户输入可以包括预定手势,例如划线手势。响应于检测所述手势,所述视频控制器104可以将所述视频表示601划分为第一部分601-1和第二部分601-2。随后,所述视频控制器104可以检测位置621处的用户输入,所述用户输入可以位于所述第二部分601-2。所述用户输入可以与删除所述视频表示的关联部分的操作相关联。根据一个实施例,所述用户输入可以包括预定手势,例如擦拭手势。
所述视频控制器104还可以检测与对应于所述视频表示603和604的位置613和614处的剪切操作相关联的用户输入。相应地,所述视频表示603和604可以划分为第一部分(603-1、604-1)和第二部分(603-2、604-2)。所述视频控制器104还可以检测与删除视频表示的所述第一部分(603-1、604-1)相关联的一个或多个用户输入,例如擦拭手势。
所述视频控制器104还可以检测与重新定位所述第二部分603-2的操作相关联的一个或多个用户输入。根据一个实施例,所述用户输入可以包括预定手势,例如沿着轨迹605的拖拽手势。例如,可以基于低于阈值的移动速度、手指位置和/或手指移动来区分所述拖拽手势与所述擦拭手势。根据一个实施例,所述用户输入还可以包括预定手势,例如位置632处的放下手势。例如,可以基于拖拽手势期间的手指移动来检测所述放下手势。因此,所述第二部分603-2可以重新定位在所述位置632处。可以对所述视频表示604的所述第二部分604-2执行类似的重新定位操作,所述第二部分604-2可以重新定位在位置642处。
图7示出了本发明实施例提供的所编辑的视频表示700的示例。所述视频表示700可以基于所述用户输入和与所述视频表示600相关联的操作获得。在516中,响应于检测所述用户输入,所述视频控制器104可以相应地更新所述视频表示。所述编辑的视频表示700可以包括所述视频表示601的所述第一部分601-1、所述第二视频表示602以及所述视频表示603和604的所述重新定位的第二部分603-2、604-2。
图6和图7示出了使得用户能够与视频表示交互的示例。例如,所述用户可以组合不同的视频剪辑,使得在视频播放期间向所述用户显示所需的视频内容。各实施例还使得能够创建不同的故事讲述选项。例如,当播放与所述视频表示602相关联的视频剪辑并到达对应于所述位置642的所述视频帧时,可以向所述用户提供继续所述视频表示602或进入所述视频表示604的所述第二部分604-2的选项。
图8示出了本发明实施例提供的分析视频表示或元数据的示例。该图示出了由所述VR耳机102、所述视频控制器104和所述视频服务器108执行的不同操作。然而,应当理解的是,所述操作可以由视频系统的任何合适的设备或功能执行。此外,还可以为其它类型的媒体(例如,音频或图像数据)或多媒体内容提供类似的表示。
在801中,与所述操作501类似,所述视频控制器104可以用于检索视频数据和/或元数据集合。例如,检索所述视频数据和/或元数据可以包括从本地存储器接收所述数据,或从所述视频服务器108请求所述视频数据和/或元数据。所述视频控制器104可以用于:在802中,生成视频表示;在803中,分析所述视频表示。替代地或附加地,所述视频控制器104可以用于:在803中,分析所述元数据;在806中,生成所述视频表示。因此,803中的所述分析可以基于所述元数据和/或所述视频表示。
在807中,与所述操作506类似,所述视频控制器104可以向所述VR耳机102发送所述视频表示数据。
在808中,与所述操作507类似,所述VR耳机102可以显示所述视频表示。
图9示出了本发明实施例提供的分析与不同用户相关联的视频表示的示例。所述视频表示900可以包括分别与用户911、912和913相关联的视频表示901、902和903。例如,所述视频表示901可能已由所述用户911捕获,或者所述用户911可以以其它方式与视频表示相关联,例如通过存在于由所述视频表示901表示的所述视频数据中。所述视频数据的起始位置可以对应于时间点,例如1990年。类似地,所述用户912和913可以分别与所述视频表示902和903相关联,所述视频表示的起始位置对应于1993年和1994年。
在803中,所述视频控制器104可以分析所述视频表示900。例如,所述视频控制器104可以确定所述视频表示901和902在所述VR空间中的位置921处相交。在804中,所述视频控制器104可以基于所述视频表示确定社交网络信息,例如基于所述视频表示901和902的所述检测的相交。所述视频控制器104可以使用与底层视频数据相关联的元数据来提供社交网络连接数据。例如,所述社交网络连接数据可以包括所述用户911和912之间的关联性和/或与相遇相关联的上下文元数据。例如,所述上下文元数据可以包括所述相遇的时间(例如,1995年)、所述相遇的位置或与所述相遇相关的其它信息。
替代地或附加地,在804中,所述视频控制器104可以基于与所述视频数据相关联的位置信息来确定社交网络信息。在804中,可以在不生成所述视频表示的情况下实现这一点。例如,所述视频控制器104可以比较与由所述视频表示901和903表示的所述视频数据相关联的位置信息和/或时间信息,并确定这些视频表示将在所述VR空间中的位置922处相交。所述视频控制器104还可以确定所述相遇发生在1998年。基于所述检测的相交,所述视频控制器104可以如上所述确定社交网络信息。随后,在806中,可以生成示出该相遇的视频表示。
通常,所述视频控制器104可以用于:基于所述媒体数据的所述表示和/或所述元数据集合,确定社交网络信息;或接收与所述媒体数据相关联的社交网络信息,并基于所述社交网络信息和所述元数据集合确定所述媒体数据的所述表示。
图10示出了本发明实施例提供的基于社交网络信息确定的视频表示1000的示例。所述视频表示1000可以包括与用户1001相关联的视频表示1002和1003、与用户1011相关联的视频表示1012和1013和/或与用户1021相关联的视频表示1022。
如上所述,在操作801中,所述视频控制器104可以检索视频数据和/或与所述视频数据相关联的元数据集合,例如位置信息。所述视频控制器104还可以接收与所述视频数据或所述视频数据的至少一部分相关联的社交网络信息。例如,所述社交网络信息可以从所述视频服务器108或其它服务器请求。替代地,所述社交网络信息可以从本地存储器检索。所述社交网络信息可以包括用户之间的关联性和/或用户之间的关系类型。
根据一个实施例,所述视频控制器104可以基于所述社交网络信息和所述元数据集合确定所述视频数据的所述表示。例如,所述视频控制器104可以接收指示所述用户1001与所述用户1011有一个儿子1021的社交网络信息。基于该社交网络信息,所述视频控制器104可以确定所述用户1001、1011和1021的生活在所述VR空间中直观地示出的视频表示。例如,所述用户可能在1995年相遇,并且他们的儿子1021可能在同一年出生。相应地,所述用户1001和1011的所述视频表示可以在对应于1005年的时间点相交,并且所述儿子1021的所述视频表示可以从该时间点开始。应当注意的是,即使可以基于包括在所述元数据集合中的位置信息生成视频表示,也可以应用各种方法来避免视频表示过度重叠。例如,可以使用所述元数据集合中指示的位置之间的空间偏移或空间差异放大来向所述用户提供所述VR空间中的更清晰的整体视频表示。
图11示出了本发明实施例提供的基于视频表示预测未来事件的示例。在801中,所述视频控制器104可以接收与视频数据的至少一部分相关联的上下文元数据集合。例如,上下文元数据可以包括个人信息,例如用户的吸烟习惯、饮食习惯、驾驶习惯、嗜好或其它活动,和/或与所述视频数据相关联的速度、位置或天气。所述上下文元数据可以包括与所述视频数据相关联的对象的信息,例如汽车的规格。因此,所述上下文元数据可以包括关于已捕获或正在捕获所述视频数据的所述至少一部分的环境的信息。在801中,所述视频控制器104还可以接收位置信息,如上所述。
在操作802中,所述视频控制器104可以生成视频表示1101、1111。例如,这些视频表示可以分别与卡车1102和汽车1112相关联。在805中,所述视频控制器104可以基于所述上下文元数据集合和/或所述元数据集合,确定至少一个事件1120的预测。在该示例中,所述上下文元数据可以包括所述用户正在驾驶汽车的指示、天气状况或交通状况的指示等。所述元数据集合可以包括空间信息,例如车辆的速度、方向和/或位置。在该示例中,所述预测事件可以包括所述卡车1102与所述汽车1112之间的碰撞。响应于确定所述事件的所述预测,所述视频控制器104可以向用户1103和/或1113发送所述预测事件的通知,例如为了防止碰撞等不利事件。
可以基于检测所述视频表示(1101、1111)的估计扩展(1104、1114)的相交来确定所述事件1120的所述预测。例如,可以外推与每个视频数据相关联的空间信息,以确定所述扩展1104、1114的位置,从而确定它们的相交。
在另一示例中,所述预测事件1120可以包括所述用户1103和1113之间不愉快的相遇或关系(不涉及车辆1102、1112)。所述上下文元数据可以包括关于所述用户1103和1113的信息,例如所述用户1103和1113的生活习惯、价值观或人口统计信息(例如,所述用户1103和1113的年龄)。基于所述上下文元数据,所述视频控制器104可以确定所述用户1103和1113之间的相遇或关系可能是负面的还是正面的。所述视频控制器104可以相应地向所述用户1103和/或1113提供通知。
通常,所述视频控制器104可以用于:接收与所述媒体数据相关联的上下文元数据集合;基于所述上下文元数据集合和/或所述元数据集合,确定至少一个事件的预测。
所述视频控制器104或其它设备或功能可以包括用于确定所述事件1120的所述预测的人工智能(artificial intelligence,AI)。例如,所述AI可以实现为神经网络等机器学习模型。在训练期间,可以向所述神经网络提供一个或多个视频表示以及相关联的空间信息和上下文元数据。所述上下文元数据可以在视频捕获期间自动存储;或者,可以使得所述用户能够手动存储任何相关信息。此外,还可以请求所述用户将某些事件(例如,与特定的人相遇)标记为有利或不利事件。
基于所标记的训练数据,可以训练所述神经网络来预测有利或不利事件。在推理阶段,可以向所述网络提供一个或多个视频表示,并且所述网络可以基于可用视频数据、上下文元数据和/或空间信息输出有关预期有利或不利事件的估计。所述视频控制器104可以用于:使用所述预测事件的通知来更新所述视频表示;向所述VR耳机102发送所述更新的视频表示以向所述用户显示。
基于所述神经网络等人工智能的分析,数百万用户收集的数据可以用于预测未来事件,并且在健康、金融和/或社交等方面为特定用户提供生活指导。如上所述,所述预测可以基于类似用户的统计数据。例如,可以向所述用户提供以下指导:“食用该食物并保证该睡眠时间会对您的寿命产生如此大的影响”或“跟这种女人(具有某种终生行为)结婚是/不是明智的选择”。
图12示出了本发明实施例提供的基于至少一个未来事件的预测提供扩展视频表示的示例。所述视频表示可以包括基于可用视频数据、元数据集合和/或上下文元数据集合确定的第一部分1201。第二部分1202可以基于至少一个预测事件生成。所述第二部分1202的形状可以基于未来位置数据的估计确定。所述第二部分的长度可以基于最后一个预测事件的估计时间确定。替代地,例如,所述视频表示的形状可以在不估计未来位置数据的情况下随机地确定,而所述视频表示的长度可以基于所述最后一个预测事件的估计时间确定。
根据一个实施例,所述第二部分1202的所述长度可以基于与所述第一部分1201相关联的用户的剩余寿命的估计值确定。如上所述,所述剩余寿命可以由神经网络等人工智能基于各种上下文元数据来估计。所述上下文元数据可以包括生活方式数据。例如,所述生活方式数据可以包括营养、压力、血液分析、锻炼、疾病、吸烟、饮酒和/或医疗相关数据。通过将所述上下文元数据用作输入,所述神经网络可以执行预期寿命估计。因此,寿命估计以及由此所述第二部分1202的所述长度可能取决于所分析的有益或有害的生活方式因素。
图13示出了本发明实施例提供的叠加在地理内容上的视频表示1301的示例。所述地理内容可以包括地理位置的地图、图像和/或视频。所述地理内容可以是二维或三维地理内容。例如,所述地理内容可以包括透视图,所述透视图包括二维和/或三维对象。例如,所述地理内容可以包括三维地图视图。
在图13的示例中,所述地理内容包括横向视图1302。例如,所述视频表示1301可以叠加在所述横向视图1202上或在其上进行增强,使得用户可相对于VR空间中的所述横向视图1302观察视频内容的捕获位置。
根据一个示例性实施例,视频表示可以通过增强现实耳机等叠加在真实世界视图上。例如,所述视频控制器104可以使用所述元数据集合(例如,真实世界坐标)来确定所述视频表示在增强现实空间中的位置和形状。例如,可以确定在所述增强现实耳机处呈现所述视频表示的位置,使得所述视频表示能够在真实世界捕获位置之上进行增强。
图14示出了本发明实施例提供的叠加在地理内容上的视频表示的另一示例。在该示例中,所述地理内容包括地球仪1401的三维图示。基于位置信息和视频数据,视频表示1402和1403可以叠加在所述地球仪1401上。例如,所述元数据集合中包括的所述位置信息可以映射到VR空间中的对应坐标,使得所述视频表示反映视频捕获的位置。例如,所述视频表示1402和1403可以与两个洲际航班相关联。
图15示出了用于准备媒体数据的方法1500的示例。
在1500中,所述方法可以包括:接收基于至少一个空间坐标的元数据集合,其中,所述元数据集合与所述媒体数据相关联。
在1501中,所述方法可以包括:基于所述元数据集合,确定所述虚拟现实空间中的所述媒体数据的表示。
所述方法的其它特征直接来源于所述视频控制器104、所述VR耳机102或(通常情况下)所述媒体数据准备设备200的功能和参数,如所附权利要求书以及整个说明书中所述,因此在此不再赘述。
各种示例性实施例公开了用于在虚拟现实空间中生成视频表示并与所述虚拟现实空间中的所述视频表示交互的方法、计算机程序和设备。示例性实施例改善了诸如在访问或编辑视频时的用户体验。考虑位置信息和/或上下文元数据还使得能够以信息性方式可视化对未来事件的预测。
设备(例如,手机、虚拟现实耳机、视频播放器或其它支持虚拟现实的设备)可以用于执行或使得执行本文所述的一种或多种方法的任何方面。进一步地,计算机程序可以包括指令,用于在执行时使得设备执行本文所述的一种或多种方法的任何方面。进一步地,设备可以包括用于执行本文所述的一种或多种方法的任何方面的装置。根据一个示例性实施例,所述装置包括至少一个处理器和包括程序代码的存储器,所述至少一个处理器和所述程序代码在通过所述至少一个处理器执行时,用于使得执行所述一种或多种方法的任何方面。
本文中给出的任何范围或设备值都可以扩展或改变,而不会损失所寻求的效果。此外,除非明确禁止,否则任何实施例都可以与其它实施例组合。
虽然已经以结构特征和/或方法动作特定的语言描述了本发明主题,但是应理解,权利要求书中定义的主题不必局限于上文描述的具体特征或动作。相反,上面描述的具体特征和动作是作为实现权利要求书的示例公开的,并且其它等同特征和动作旨在包含在权利要求书的范围内。
应当理解的是,上述优点和优势可以涉及一个实施例,也可以涉及几个实施例。所述实施例不限于解决任何或全部所述问题的实施例,也不限于具有任何或全部所述优点和优势的实施例。此外,还应当理解的是,对“一个”项目的引用可以是指这些项目中的一个或多个。
本文所述方法的步骤或操作可以以任何适当的顺序执行,也可以在适当的情况下同时执行。附加地,在不脱离本文所述主题的范围的情况下,可以从所述方法中的任一种方法中删除各个块。上述任何实施例的各个方面可以与所描述的任何其它实施例的各个方面相结合,以形成进一步的实施例而不会损失所寻求的效果。
术语“包括”在本文中用于表示包括所识别的方法、块或元素,但此类块或元素不包括排他性列表,并且方法或设备可以包含附加的块或元素。
尽管主题可以称为“第一”或“第二”主题,但这并不一定表示主题的顺序或重要性。相反,此类属性可以仅用于区分主题。
应当理解的是,以上描述仅以示例的方式提供,并且本领域技术人员可以进行各种修改。上述说明书、示例和数据提供了示例性实施例的结构和应用的完整描述。尽管上文已经通过一定程度的特殊性或结合一个或多个单独的实施例来描述各种实施例,但是本领域技术人员可以在不脱离本说明书的范围的情况下对所公开的实施例进行多种修改。

Claims (17)

1.一种用于接收媒体数据的媒体数据准备设备(102、104、200),其特征在于,包括:
至少一个处理器(202);
至少一个存储器(204),其包括计算机程序代码(206);
所述至少一个存储器(204)和所述计算机代码(206)用于通过所述至少一个处理器(202)使所述媒体数据准备设备(102、104、200)至少执行以下操作:
接收基于至少一个空间坐标的元数据集合,其中,所述元数据集合与所述媒体数据相关联;
基于所述元数据集合,确定虚拟现实空间中的所述媒体数据(302、402、600、700、900、1000、1101、1111、1201、1301、1402、1403)的表示。
2.根据权利要求1所述的媒体数据准备设备(102、104、200),其特征在于,确定所述媒体数据(302、402、600、700、900、1000、1101、1111、1201、1301、1402、1403)的所述表示包括:将所述元数据集合映射到所述虚拟现实空间中的至少一个位置。
3.根据权利要求1或2所述的媒体数据准备设备(102、104、200),其特征在于,所述媒体数据包括多个视频帧(304、404),所述元数据集合的子集对应于所述多个视频帧(304、404)中的每一个。
4.根据权利要求1至3中任一项所述的媒体数据准备设备(102、104、200),其特征在于,所述元数据集合包括与所述媒体数据相关联的位置信息、运动信息和时间信息中的至少一种。
5.根据权利要求4所述的媒体数据准备设备(102、104、200),其特征在于,所述位置信息包括与所述媒体数据的捕获相关联的多个位置,和/或所述运动信息包括与所述媒体数据的所述捕获相关联的多个速度。
6.根据权利要求4或5所述的媒体数据准备设备(102、104、200),其特征在于,所述运动信息包括陀螺仪数据和/或磁力计数据。
7.根据上述权利要求中任一项所述的媒体数据准备设备(102、104、200),其特征在于,所述媒体数据(600、900)的所述表示包括第一媒体数据的第一表示(601、901)和第二媒体数据的第二表示(602、902、903),所述第一表示(601、901)和所述第二表示(602、902、903)在所述虚拟现实空间中相交。
8.根据上述权利要求中任一项所述的媒体数据准备设备(102、104、200),其特征在于,所述媒体数据准备设备(102、104、200)还用于:
检测所述虚拟现实空间中的所述媒体数据(302、402)的所述表示的第一位置处的用户输入(312、410);
基于所述第一位置执行与所述媒体数据相关联的操作。
9.根据权利要求8所述的媒体数据准备设备(102、104、200),其特征在于,检测所述用户输入(312、410)包括:检测用户(308)的身体部位或虚拟现实控制器,以与所述第一位置处的所述虚拟现实空间中的所述媒体数据(302、402)的所述表示相一致。
10.根据权利要求8或9所述的媒体数据准备设备(102、104、200),其特征在于,检测所述用户输入包括:检测所述用户(308)的头部,以与所述第一位置处的所述虚拟现实空间中的所述媒体数据(302)的所述表示相一致,其中,基于与虚拟现实耳机相关联的至少一个传感器跟踪所述用户(308)的头部的位置。
11.根据权利要求8至10中任一项所述的媒体数据准备设备(102、104、200),其特征在于,所述操作包括以下各项中的至少一项:
从与所述第一位置相关联的所述媒体数据的一部分发起所述媒体数据播放;
提供与所述第一位置相关联的所述媒体数据的一部分的预览(408);
编辑所述媒体数据(600)的所述表示。
12.根据权利要求1至11中任一项所述的媒体数据准备设备(102、104、200),其特征在于,所述媒体数据准备设备(102、104、200)还用于:
基于所述媒体数据(900)的所述表示和/或所述元数据集合,确定社交网络信息;或
接收与所述媒体数据相关联的社交网络信息,并基于所述社交网络信息和所述元数据集合确定所述媒体数据(1000)的所述表示。
13.根据权利要求1至12中任一项所述的媒体数据准备设备(102、104、200),其特征在于,所述媒体数据准备设备(102、104、200)还用于:
接收与所述媒体数据相关联的上下文元数据集合;
基于所述上下文元数据集合和/或所述元数据集合,确定至少一个事件(1120)的预测。
14.一种用于准备媒体数据的方法,其特征在于,包括:
接收基于至少一个空间坐标的元数据集合,其中,所述元数据集合与所述媒体数据相关联;
基于所述元数据集合,确定虚拟现实空间中的所述媒体数据(302、402、600、700、900、1000、1101、1111、1201、1301、1402、1403)的表示。
15.根据权利要求14所述的方法,其特征在于,所述方法在根据权利要求1至13中任一项所述的媒体数据准备设备(102、104、200)中执行。
16.一种计算机程序,其特征在于,包括程序代码(206),当所述计算机程序在计算机上执行时,所述程序代码用于执行根据权利要求14和15中任一项所述的方法。
17.一种计算机程序产品,其特征在于,包括存储有程序代码(206)的计算机可读存储介质,所述程序代码包括用于执行根据权利要求14和15中任一项所述的方法的指令。
CN202080092805.7A 2020-01-16 2020-01-16 媒体数据的表示 Pending CN115244940A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/050993 WO2021144025A1 (en) 2020-01-16 2020-01-16 Representation of media data

Publications (1)

Publication Number Publication Date
CN115244940A true CN115244940A (zh) 2022-10-25

Family

ID=69177157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080092805.7A Pending CN115244940A (zh) 2020-01-16 2020-01-16 媒体数据的表示

Country Status (4)

Country Link
US (1) US20230075650A1 (zh)
EP (1) EP4066511A1 (zh)
CN (1) CN115244940A (zh)
WO (1) WO2021144025A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388949A1 (en) * 2002-06-04 2003-12-04 Denis Mercier Method of generating images
US10403043B2 (en) * 2016-04-14 2019-09-03 The Research Foundation For The State University Of New York System and method for generating a progressive representation associated with surjectively mapped virtual and physical reality image data
US11025919B2 (en) * 2017-10-03 2021-06-01 Koninklijke Kpn N.V. Client-based adaptive streaming of nonlinear media
CN109996055B (zh) * 2017-12-06 2022-08-12 杜比实验室特许公司 位置零时延
GB2570298A (en) * 2018-01-17 2019-07-24 Nokia Technologies Oy Providing virtual content based on user context
EP3785449A1 (en) * 2018-04-27 2021-03-03 PCMS Holdings, Inc. 360 degree multi-viewport system
US11127282B2 (en) * 2018-11-29 2021-09-21 Titan Health & Security Technologies, Inc. Contextualized augmented reality display system
US20210019953A1 (en) * 2019-07-16 2021-01-21 Microsoft Technology Licensing, Llc Real-time feedback for surface reconstruction as a service
US11276257B2 (en) * 2019-08-15 2022-03-15 The Toronto-Dominion Bank System and method for analyzing vehicle data

Also Published As

Publication number Publication date
US20230075650A1 (en) 2023-03-09
EP4066511A1 (en) 2022-10-05
WO2021144025A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
JP5942456B2 (ja) 画像処理装置、画像処理方法及びプログラム
US20190171463A1 (en) Context-Based Discovery of Applications
KR102212250B1 (ko) 증강 현실 오브젝트의 신체 고정식 배치
US8954853B2 (en) Method and system for visualization enhancement for situational awareness
US20170201709A1 (en) Information processing apparatus, information processing method, and program
JP5807686B2 (ja) 画像処理装置、画像処理方法及びプログラム
US20210303591A1 (en) Visual data mining using virtual reality and augmented reality
US20150187138A1 (en) Visualization of physical characteristics in augmented reality
KR20220035380A (ko) 증강 현실 장면들을 위한 시스템 및 방법
WO2021189068A1 (en) 3d cutout image modification
CN102668556A (zh) 医疗支援装置,医疗支援方法以及医疗支援系统
JP2013164697A (ja) 画像処理装置、画像処理方法、プログラム及び画像処理システム
JP6495538B2 (ja) イメージコンテンツ検索
WO2022179344A1 (en) Methods and systems for rendering virtual objects in user-defined spatial boundary in extended reality environment
CN109582134B (zh) 信息显示的方法、装置及显示设备
US10964112B2 (en) Candidate geometry displays for augmented reality
US20230075650A1 (en) Representation of Media Data
US8797315B1 (en) Segmented editor for tours of a geographic information system, and applications thereof
US20200126300A1 (en) Visualization transitions for augmented reality
KR20170120299A (ko) 립모션을 이용한 실감형 콘텐츠 서비스 시스템
US20220189128A1 (en) Temporal segmentation
JP7196856B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230305790A1 (en) Methods and systems for sharing an experience between users
JP2016177834A (ja) 画像処理装置、画像処理方法及びプログラム
Wang et al. Scene Walk: a non-photorealistic viewing tool for first-person video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination