CN118266218A - 具有触觉效果的样本锚定的isobmff触觉轨道 - Google Patents

具有触觉效果的样本锚定的isobmff触觉轨道 Download PDF

Info

Publication number
CN118266218A
CN118266218A CN202380014580.7A CN202380014580A CN118266218A CN 118266218 A CN118266218 A CN 118266218A CN 202380014580 A CN202380014580 A CN 202380014580A CN 118266218 A CN118266218 A CN 118266218A
Authority
CN
China
Prior art keywords
haptic
mihs
start time
effect
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380014580.7A
Other languages
English (en)
Inventor
伊拉吉·索达加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN118266218A publication Critical patent/CN118266218A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了用于触觉信号处理的方法、设备和系统。该处理可以包括接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流。该处理可以包括:从媒体流中获得一个或更多个运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元;以及从媒体流中获得与一个或更多个触觉效果相关联的定时信息,该定时信息包括一个或更多个触觉效果的至少一个时间位置。然后,该处理可以包括基于所获得的定时信息对媒体流进行渲染。

Description

具有触觉效果的样本锚定的ISOBMFF触觉轨道
相关申请的交叉引用
本申请要求于2022年10月17日提交的美国临时申请第63/416,780号和于2023年10月16日提交的美国申请第18/487,688号的优先权,上述两件申请的公开内容通过引用整体并入本文中。
技术领域
本公开内容涉及一组高级视频译码技术。更具体地,本公开内容涉及对用于多媒体呈现的触觉体验进行编码和解码。
背景技术
触觉体验已经成为多媒体呈现的一部分。在多媒体呈现包括触觉体验的方面的应用中,触觉信号可以被传送至装置或可穿戴装置,并且用户可以在使用应用期间感受到与视觉和/或音频媒体体验相协调的触觉感觉。
认识到触觉体验在多媒体呈现中越来越受欢迎,运动图像专家组(MotionPicture Experts Group,MPEG)已经开始研究针对触觉的压缩标准(对于MPEG-DASH和MPEG-I二者)以及对基于ISO(International Organization for Standardization,ISO)的媒体文件格式(ISO Based Media File Format,ISOBMFF)下的经压缩的触觉信令的传输。
在多媒体呈现内涉及触觉体验的方面的待解决问题中的一个问题是触觉轨道的传输的定时模型不清楚,即不清楚ISOBMFF轨道的定时如何与触觉基本信号的定时有关。需要解决该问题的解决方案。
发明内容
根据实施方式,可以提供一种用于对触觉数据进行编码或解码的方法。该方法可以由至少一个处理器执行,并且可以包括:接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流;从媒体流中获得一个或更多个运动图像专家组(MPEG)沉浸式触觉流(MPEGImmersive Haptics Stream,MIHS)单元,其中,MIHS单元包括一个或更多个触觉效果,并且其中,MIHS单元包括开始时间;从媒体流中获得与一个或更多个触觉效果相关联的定时信息,该定时信息包括一个或更多个触觉效果的至少一个时间位置;以及基于所获得的定时信息对媒体流进行渲染。
根据实施方式,可以提供一种用于触觉处理的设备。该设备可以包括:至少一个存储器,所述至少一个存储器被配置成存储程序代码;以及至少一个处理器,所述至少一个处理器被配置成读取程序代码并且按照程序代码的指示进行操作。该程序代码可以包括:第一接收代码,所述第一接收代码被配置成使至少一个处理器接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流;第一获得代码,所述第一获得代码被配置成使至少一个处理器从媒体流中获得一个或更多个运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元,其中,MIHS单元包括一个或更多个触觉效果,并且其中,MIHS单元包括开始时间;第二获得代码,所述第二获得代码被配置成使至少一个处理器从媒体流中获得与一个或更多个触觉效果相关联的定时信息,该定时信息包括一个或更多个触觉效果的至少一个时间位置;以及渲染代码,所述渲染代码被配置成使至少一个处理器基于所获得的定时信息对媒体流进行渲染。
根据实施方式,可以提供一种存储计算机指令的非暂态计算机可读介质。所述指令可以包括一个或更多个指令,所述一个或更多个指令在由用于触觉处理的装置的一个或更多个处理器执行时,使一个或更多个处理器进行以下操作:接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流;从媒体流中获得一个或更多个运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元,其中,MIHS单元包括一个或更多个触觉效果,并且其中,MIHS单元包括开始时间;从媒体流中获得与一个或更多个触觉效果相关联的定时信息,该定时信息包括一个或更多个触觉效果的至少一个时间位置;以及基于所获得的定时信息对媒体流进行渲染。
附图说明
根据以下详细描述和附图,所公开的主题的另外的特征、性质和各种优点将更加明显,在附图中:
图1是根据本公开内容的实施方式的通信系统的简化框图的示意性图示。
图2是根据本公开内容的实施方式的流式传输系统的简化框图的示意性图示。
图3A是根据本公开内容的实施方式的触觉编码器的简化框图的示意性图示。
图3B是根据本公开内容的实施方式的触觉解码器和触觉渲染器的简化框图的示意性图示。
图4是根据本公开内容的实施方式的确定MIHS(MPEG immersive haptic stream,MIHS)单元的相对定时的处理的示例性图示。
图5是根据本公开内容的实施方式的确定MIHS单元的相对定时的处理的示例性图示。
图6是示出根据本公开内容的实施方式的用于处理触觉媒体的处理的示例性流程图。
图7是适于实现实施方式的计算机系统的图。
具体实施方式
根据本公开内容的一方面,提供了用于并行处理动态网格压缩的方法、系统和非暂态存储介质。本公开内容的实施方式也可以应用于静态网格。
参照图1至图2,描述了用于实现本公开内容的编码结构和解码结构的本公开内容的实施方式。
图1示出了根据本公开内容的实施方式的通信系统100的简化框图。系统100可以包括经由网络150互连的至少两个终端110、120。对于数据的单向传输,第一终端110可以在本地位置处对可以包括网格数据的视频数据进行译码以经由网络150传输至另一终端120。第二终端120可以从网络150接收另一终端的译码视频数据、对译码数据进行解码并且显示经恢复的视频数据。单向数据传输在媒体服务应用等中可能是常见的。
图1示出了第二对终端130、140,所述第二对终端130、140被提供以支持例如在视频会议期间可能发生的译码视频的双向传输。对于数据的双向传输,每个终端130、140可以对在本地位置处捕获的视频数据进行译码,以经由网络150传输至另一终端。每个终端130、140还可以接收由另一终端传输的译码视频数据、可以对译码数据进行解码并且可以在本地显示装置处显示经恢复的视频数据。
在图1中,终端110至140可以是例如服务器、个人计算机和智能电话以及/或者任何其他类型的终端。例如,终端(110至140)可以是膝上型计算机、平板计算机、媒体播放器和/或专用视频会议装备。网络150表示在终端110至140之中传送译码视频数据的任何数目的网络,包括例如有线通信网络和/或无线通信网络。通信网络150可以在电路交换信道和/或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本讨论的目的,除非在下文中有所说明,否则网络150的架构和拓扑对于本公开内容的操作而言可以是无关紧要的。
作为所公开的主题的应用的示例,图2示出了视频编码器和解码器在流式传输环境中的放置。所公开的主题可以与其他支持视频的应用一起使用,所述其他支持视频的应用包括例如视频会议、数字TV、在包括CD(Compact Disc,CD)、DVD(Digital Video Disk,DVD)、存储棒等的数字介质上存储经压缩的视频等。
如图2所示,流式传输系统200可以包括捕获子系统213,该捕获子系统213包括视频源201和编码器203。流式传输系统200还可以包括至少一个流式传输服务器205和/或至少一个流式传输客户端206。
视频源201可以创建例如包括3D(Three Dimensional,3D)网格以及与3D网格相关联的元数据的流202。视频源201可以包括例如3D传感器(例如深度传感器)或3D成像技术(例如数字摄像装置)、以及被配置成利用从3D传感器或3D成像技术接收的数据来生成3D网格的计算装置。与编码视频比特流相比时可以具有高的数据量的样本流202可以由耦接至视频源201的编码器203处理。编码器203可以包括硬件、软件或其组合,以实现或实施如下面更详细地描述的所公开主题的各方面。编码器203还可以生成编码视频比特流204。与未经压缩的流202相比时可以具有较低数据量的编码视频比特流204可以被存储在流式传输服务器205上以供将来使用。一个或更多个流式传输客户端206可以访问流式传输服务器205以检索可以作为编码视频比特流204的副本的视频比特流209。
流式传输客户端206可以包括视频解码器210和显示器212。视频解码器210可以例如对作为编码视频比特流204的传入副本的视频比特流209进行解码,并且创建可以在显示器212或另一渲染装置(未描绘)上渲染的传出视频样本流211。在一些流式传输系统中,可以根据某些视频译码/压缩标准对视频比特流204、209进行编码。
参照图3A至图3B,描述了用于实现触觉编码器300和触觉解码器350的本公开内容的实施方式。
如图3A所示,触觉编码器300可以接收描述性触觉数据和波形触觉数据二者。因此,触觉编码器300可以能够处理三种类型的输入文件:.ohm元数据文件(对象触觉元数据——用于触觉元数据的文本文件格式)、描述性触觉文件(.ivs、.ahap和.hjif)或波形PCM(Pulse Code Modulation,PCM)文件(.wav)。描述性数据的示例可以包括:来自苹果公司(Apple)的.ahap(苹果触觉和音频模式——指定触觉模式的类似JSON(JavaScriptObject Notation,JSON)的文件格式)(通过参数化的一组经调制的连续信号和一组经调制的瞬态来表示预期的触觉输出);来自浸入科技公司(Immersion)的.ivs(通过由一组参数参数化的一组基本效果来表示预期的触觉输出);或所提出的MPEG格式.hjif(触觉JSON交换格式)。波形脉冲编码调制(PCM)信号的示例可以包括:包括元数据信息的.ohm输入文件。
根据实施方式,触觉编码器300可以不同地处理两种类型的输入文件。对于描述性内容,触觉编码器300可以在语义上分析输入,以将数据转码(如果需要)成所提出的译码表示。
根据实施方式,.ohm元数据输入文件可以包括对触觉系统和设置的描述。特别地,该.ohm元数据输入文件可以包括每个相关联的触觉文件(描述性或PCM)的名称以及对信号的描述。它还提供了信号的每个信道与用户身体上的目标身体部位之间的映射。对于.ohm元数据输入文件,触觉编码器通过以下方式执行元数据提取:从URI(Uniform ResourceIdentifier,URI)中检索相关联的触觉文件,并且基于该触觉文件的类型对其进行编码;以及从.ohm文件中提取元数据,并且将该元数据映射至数据模型的元数据信息。
根据实施方式,描述性触觉文件(例如,.ivs、.ahap和.hjif)可以通过简单的处理进行编码。触觉编码器300首先具体地识别输入格式。如果输入格式是.hjif文件,则不需要进行转码,该文件可以被进一步编辑、压缩成二进制格式,并且最终分组成MIHS流。如果使用.ahap或者.ivs输入文件,则需要进行转码。触觉编码器300首先在语义上分析输入文件信息,并且将其转码以格式化为所选择的数据模型。在转码之后,数据可以被导出为.hjif文件、.hmpg二进制文件或MIHS流。
根据实施方式,触觉编码器300可以执行信号分析以说明.wav文件的信号结构,并且将该信号结构转换成所提出的编码表示。对于波形PCM内容,可以由触觉编码器300将信号分析处理分成两个子处理。在对信号执行频带分解之后,在第一子处理处,可以使用关键帧提取处理对低频率进行编码。然后可以重建低频带,并且可以计算该信号与原始低频信号之间的误差。然后,可以将该残差信号添加至原始高频带,随后使用小波变换进行编码,使用小波变换进行编码是第二子处理。根据实施方式,当使用若干低频带时,在进行编码之前将来自所有低频带的残差添加至高频带。在实施方式中,当使用若干高频带时,在进行编码之前将来自低频带的残差添加至第一高频带。
根据实施方式,关键帧提取包括从频带分解获取较低频带并且在时域中分析该较低频带的内容。根据实施方式,小波处理可以包括从频带分解和低频残差获取高频带,并且将该高频带分成相等大小的块。然后在心理触觉模型中分析这些相等大小的信号块。可以通过在心理触觉模型的协助下对块进行小波变换并对其进行量化来应用有损压缩。最后,每个块然后被保存成单个带中的单独效果,这是在格式化中完成的。二进制压缩可以使用适当的译码技术例如分层树的集合分割(Set Partitioning In Hierarchical Trees,SPIHT)算法和算术编码(Arithmetic Coding,AC)来应用无损压缩。
如图3A所示,触觉编码器300可以被配置成对描述性触觉数据和经量化的触觉数据进行编码,并且可以输出三种类型的格式——交换格式(.hjif)、二进制压缩格式(.hmpg)和流格式(例如,MPEG沉浸式触觉流(MIHS))。.hjif格式是基于JSON的人类可读格式,并且可以被容易地解析和手动编辑,这使其成为理想的交换格式,特别是在设计/创建内容时的理想的交换格式。出于分发目的,.hjif数据可以被压缩为内存效率更高的二进制.hmpg比特流。这种压缩可能是有损的,其中不同的参数影响构成比特流的振幅和频率的编码深度。出于流式传输的目的,数据可以被压缩并分组成MPEG-I触觉流(MIHS)。上面所提及的三种格式具有互补的目的,并且可以在它们之间操作有损的一对一转换。
如图3B所示,触觉解码器350可以采用.hmpg压缩的二进制文件格式或MIHS比特流作为输入。触觉解码器350可以输出可以直接用于渲染的.hjif交换格式。两种输入格式可以经过二进制解压缩以从文件中提取元数据和数据本身二者,并且将所述数据映射至所选择的数据结构。然后,可以将数据以.hjif格式导出至触觉渲染器380。
如图3B所示,渲染器380包括合成器。合成器可以将来自.hjif输入文件的触觉数据渲染到PCM输出文件中。渲染和/或合成是信息性的。根据实施方式,合成器对输入文件进行解析,并且在矢量、小波等之间执行高级合成分布。然后,合成处理延续至其中调用合成处理的编解码器的带部件。然后,通过简单的加法运算器混合给定信道的所有带,以重新创建期望的触觉信号。
根据实施方式,触觉体验限定分层数据模型的基部。其提供关于文件日期和格式版本的信息,描述触觉体验,列出贯穿体验所使用的不同形象化表示(即,身体表示),以及限定所有触觉感知。
根据实施方式,用于传输MPEG-I触觉数据的自包含流格式可以使用分组方法,并且可以包括两个级别的分组:覆盖持续时间并且包括零个或更多个MIHS分组的MPEG-I触觉流(MIHS)单元;以及包括元数据或触觉效果数据的MIHS分组。每个MIHS单元可以覆盖触觉呈现时间的非交叠持续时间,即,每个MIHS单元可以在前一MIHS单元的结束处开始并且可以覆盖由其持续时间字段所限定的持续时间。MIHS单元之后可以有下一MIHS单元,除非该MIHS单元是触觉体验的最后一个MIHS单元。MIHS单元的所有MIHS分组可以具有载有MIHS单元的开始时间以及持续时间。
在实施方式中,MIHS单元可以被称为与触觉数据相关联的网络抽象层单元。在实施方式中,MIHS单元可以被称为与触觉数据相关联的MIHS样本。
根据实施方式,MIHS单元可以是同步单元或非同步单元。同步单元对先前的效果进行重置,并且因此提供与先前的MIHS单元独立的触觉体验。非同步单元是先前的MIHS单元的延续,并且在不对先前的MIHS单元进行解码的情况下不能独立地解码和渲染。
根据实施方式,可以在多个信道上对触觉信号进行编码。在一些实施方式中,触觉信道可以限定要利用专用致动器/装置在特定身体位置处渲染的信号。存储在信道级别处的元数据可以包括以下信息,例如与信道相关联的增益、混合权重、触觉反馈的期望身体位置以及可选地参考装置和/或方向。还可以提供附加信息例如期望的采样频率或样本计数。最后,信道的触觉数据包含在一组触觉带中,该组触觉带由触觉带的频率范围限定。触觉带描述了在给定频率范围内的信道的触觉信号。带由触觉效果的类型和顺序列表限定,每个触觉效果包含一组关键帧。对于每种类型的触觉带,触觉效果可以用至少位置和类型来限定。位置可以指示效果的时间位置或空间位置。在一些实施方式中,值0是体验的相对起始位置,其取决于所配置的感知模态的因变量。时间触觉反馈的默认单位可以是毫秒,而空间触觉反馈的默认单位可以是毫米。本实施方式公开了“体验的起始位置”,这是因为二进制分发格式不具有有限时间间隔即帧或样本的任何构思。
根据带的类型和效果的类型,可以指定附加特性,包括相位、基本信号、描述效果的连续触觉关键帧的组成和数目。
根据实施方式,在本公开内容中限定了触觉数据层次结构。
●触觉信道
○触觉带
■触觉效果
本公开内容的实施方式描述了与ISOBMFF轨道相关的触觉效果的位置的两个锚。
图4中示出了第一实施方式。如图4所示,每个MIHS单元(在实施方式中也被称为MIHS样本、ISOBMFF触觉样本或样本)包括一个或更多个触觉信道信息以及一个或更多个触觉带信息。如上所述,每个MIHS单元包括一个或更多个信道,并且每个信道包括一个或更多个带。然后,每个带可以具有一个或更多个效果。
在第一实施方式中,效果的时间位置可以被限定为针对携带该效果的样本的开始定时(例如,MIHS单位开始时间)的偏移。在第二或相同实施方式中,偏移基于媒体或触觉轨道的开始时间和/或呈现时间。
根据实施方式,第一实施方式能够在对触觉效果的位置没有影响的情况下操纵轨道,这是因为ISOBMFF样本定时的任何变化将不会影响效果的相对位置。根据实施方式,在基本触觉流(例如,高级语法流)的情况下,当在没有ISOBMFF的情况下使用基本流时,可以使用第二实施方式。
根据实施方式,可以使用若干类型的触觉轨道。在实施方式中,可以在触觉轨道中使用具有效果的时间位置的样本或MIHS单元,所述效果的时间位置被限定为针对样本的开始定时的偏移。根据另一实施方式,在触觉轨道中使用使其效果的时间位置与轨道的开始时间相关的样本或MIHS单元。在另一实施方式中,可以使用混合的MIHS单元或样本。
本公开内容提供了限定与携带触觉效果的ISOBMFF文件格式轨道相关的触觉效果的定时模型的方法、设备和系统。提供了两个定时选项,其中一个定时选项中的锚是媒体轨道呈现开始时间,并且所有的触觉效果位置被限定至该点。另一定时选项包括每个触觉效果利用携带该效果的样本开始时间锚定,并且因此该效果以样本时间表示。实施方式可以包括具有选项1的轨道或具有选项2的轨道或混合的轨道。
本公开内容的实施方式提供了定时模型,所述定时模型可以用于将触觉效果与同一或相关ISOBMFF文件中的其他媒体轨道进行同步。由于触觉轨道的定时模型与相关的ISOBMFF文件的定时模型有关,因此媒体轨道的操纵和处理变得更加有效。
如图6所示,处理600示出用于对触觉数据进行解码的示例性处理。
在操作605处,可以接收包括一个或更多个触觉轨道以及一个或更多个视频轨道的媒体流。
在操作610处,可以从媒体流中获得一个或更多个运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元。在一些实施方式中,MIHS单元可以包括一个或更多个触觉效果。MIHS单元还可以包括MIHS单元的开始时间。
在实施方式中,MIHS单元与至少一个触觉信道相关联,所述至少一个触觉信道包括一个或更多个触觉带,并且所述一个或更多个触觉带中的每一个具有至少一个触觉效果。
在操作615处,可以获得与一个或更多个触觉效果相关联的定时信息。在实施方式中,定时信息可以包括一个或更多个触觉效果的至少一个时间位置。
在实施方式中,触觉效果的时间位置指示针对触觉效果的效果开始时间,其中针对触觉效果的效果开始时间是基于相应MIHS单元的开始时间的偏移。效果开始时间可以指示与相应MIHS单元的开始时间相关的触觉效果的开始时间。
在实施方式中,针对触觉效果的效果开始时间是基于至少一个触觉轨道或至少一个视频轨道的开始时间的绝对时间。
在操作620处,基于所获得的定时信息对媒体流进行渲染。
根据实施方式,对一个或更多个MIHS单元的顺序的操纵不影响一个或更多个触觉效果的至少一个时间位置,这是因为一个或更多个MIHS单元对应于与至少一个视频轨道相关联的一个或更多个基于ISO的媒体文件格式(ISOBMFF)样本。
在一些实施方式中,可以从媒体流中获得同步MIHS单元。在实施方式中,同步MIHS单元是被配置成在比特流中提供重置点的特殊类型的MIHS单元。在实施方式中,同步MIHS单元被映射至与一个或更多个触觉信道对应的视频比特流中的同步样本。
本领域技术人员理解,本文描述的技术可以在编码器侧和解码器侧二者上实现。上述技术可以使用计算机可读指令被实现为计算机软件,并且被物理地存储在一个或更多个计算机可读介质中。例如,图7示出了适合于实现本公开内容的某些实施方式的计算机系统700。
计算机软件可以使用任何合适的机器代码或计算机语言来译码,所述机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码,所述指令可以由计算机中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics ProcessingUnit,GPU)等直接执行或者通过解释、微代码执行等来执行。
该指令可以在各种类型的计算机或者其部件(包括例如个人计算机、平板计算机、服务器、智能电话、游戏装置、物联网装置等)上执行。
图7中示出的用于计算机系统700的部件是示例,并不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能提出任何限制。部件的配置也不应当被解释为具有与计算机系统700的非限制性实施方式中所示的部件中的任何一个部件或组合有关的任何依赖性或要求。
计算机系统700可以包括某些人机接口输入装置。这样的人机接口输入装置可以响应于由一个或更多个人类用户通过例如触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、拍打)、视觉输入(例如:姿势)、嗅觉输入(未描绘)而进行的输入。人机接口装置还可以用来捕获不一定与由人类进行的有意识输入直接相关的某些媒体,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静止图像摄像装置获得的摄影图像)、视频(例如:二维视频、包括立体视频的三维视频)。
输入人机接口装置可以包括以下中的一个或更多个(描绘的每种中的仅一个):键盘701、鼠标702、触控板703、触摸屏710、数据手套、操纵杆705、麦克风706、扫描仪707、摄像装置708。
计算机系统700还可以包括某些人机接口输出装置。这样的人机接口输出装置可以通过例如触觉输出、声音、光和气味/味道来刺激一个或更多个人类用户的感官。这样的人机接口输出装置可以包括触觉输出装置(例如,通过触摸屏710、数据手套或操纵杆705进行的触觉反馈,但是也可以存在不用作输入装置的触觉反馈装置)。例如,这样的装置可以是:音频输出装置(例如:扬声器709、头戴式耳机(未描绘));视觉输出装置(例如,屏幕710,包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,每个具有或不具有触摸屏输入能力,每个具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体输出的方式输出二维视觉输出或多于三维输出;虚拟现实眼镜(未描绘);全息显示器和烟罐(未描绘));以及打印机(未描绘)。
计算机系统700还可以包括人类可访问存储装置及其相关联的介质,例如包括具有CD/DVD等介质721的CD/DVD ROM/RW 720的光学介质、拇指驱动器722、可移除硬盘驱动器或固态驱动器723、传统磁性介质例如磁带和软盘(未描绘)、基于专用ROM/ASIC/PLD的装置例如安全加密狗(未描绘)等。
本领域技术人员还应当理解,结合当前所公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。
计算机系统700还可以包括到一个或更多个通信网络的接口。网络可以例如是无线的、有线的、光学的。网络还可以是局域的、广域的、城域的、车载的和工业的、实时的、延迟容忍的等。网络的示例包括:局域网,例如以太网;无线LAN(Local Area Network,LAN);蜂窝网络,包括GSM(Global System for Mobile Communications,GSM)、3G(the ThirdGeneration,3G)、4G(the Fourth Generation,4G)、5G(the Fifth Generation,5G)、LTE(Long Term Evolution,LTE)等;TV有线或无线广域数字网络,包括线缆TV、卫星TV和地面广播TV;车载的和工业的,包括CANBus等。某些网络通常需要附接至某些通用数据端口或外围总线749(例如,诸如计算机系统700的USB端口)的外部网络接口适配器;其他网络通常通过如下所述(例如,至PC(Personal Computer,PC)计算机系统中的以太网接口、或至智能电话计算机系统中的蜂窝网络接口)附接至系统总线而集成至计算机系统700的核中。使用这些网络中的任何网络,计算机系统700可以与其他实体进行通信。这样的通信可以是单向仅接收的(例如,广播TV)、单向仅发送的(例如,CANbus到某些CANbus装置)、或者双向的例如到使用局域数字网络或广域数字网络的其他计算机系统。这样的通信可以包括到云计算环境755的通信。可以在如以上所述的这些网络和网络接口中的每一个上使用某些协议和协议栈。
以上提及的人机接口装置、人类可访问存储装置和网络接口754可以附接至计算机系统700的核740。
核740可以包括一个或更多个中央处理单元(CPU)741、图形处理单元(GPU)742、呈现场可编程门区域(Field Programmable Gate Area,FPGA)743形式的专用可编程处理单元、用于某些任务的硬件加速器744等。这些装置连同只读存储器(Read-Only memory,ROM)745、随机存取存储器746、内部大容量存储装置例如内部非用户可访问的硬盘驱动器、SSD等747可以通过系统总线748连接。在一些计算机系统中,系统总线748可以以一个或更多个物理插头的形式访问,以能够通过附加CPU、GPU等进行扩展。外围装置可以直接地或通过外围总线749附接至核的系统总线748。外围总线的架构包括PCI(Peripheral ComponentInterconnect/Interface,PCI)、USB(Universal Serial Bus,USB)等。图形适配器750可以包括在核740中。
CPU 741、GPU 742、FPGA 743和加速器744可以执行某些指令,所述指令组合起来可以构成以上提及的计算机代码。该计算机代码可以存储在ROM 745或RAM(Random AccessMemory,RAM)746中。暂态数据也可以存储在RAM 746中,而永久性数据可以存储在例如内部大容量存储装置747中。可以通过使用高速缓冲存储器来实现对存储器装置中的任何存储器装置的快速存储和检索,该高速缓冲存储器可以与一个或更多个CPU 741、GPU 742、大容量存储装置747、ROM 745、RAM 746等紧密相关联。
计算机可读介质可以在其上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开内容的目的而专门设计和构造的介质和计算机代码,或者介质和计算机代码可以具有对于计算机软件领域的技术人员公知且可用的类型。
作为示例而非限制,具有计算机系统700的架构的计算机系统,并且特别是核740可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行体现在一个或更多个有形计算机可读介质中的软件而提供功能。这样的计算机可读介质可以是与如以上介绍的用户可访问的大容量存储装置、以及核740的具有非暂态性质的某些存储装置(例如核内部大容量存储装置747或ROM 745)相关联的介质。实现本公开内容的各种实施方式的软件可以存储在这样的装置中并且由核740执行。根据特定需要,计算机可读介质可以包括一个或更多个存储器装置或者芯片。软件可以使核740并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定处理或特定处理的特定部分,包括限定存储在RAM 746中的数据结构,以及根据由软件所限定的处理修改这样的数据结构。另外地或作为替选,计算机系统可以由于逻辑硬连线或以其他方式体现在电路(例如:加速器744)中而提供功能,该电路可以代替软件或者与软件一起操作以执行本文描述的特定处理或特定处理的特定部分。在适当的情况下,对软件的提及可以包含逻辑,并且对逻辑的提及可以包含软件。在适当的情况下,对计算机可读介质的提及可以包含存储用于执行的软件的电路(例如,集成电路(IntegratedCircuit,IC))、实施用于执行的逻辑的电路或者以上二者。本公开内容包含硬件和软件的任何合适组合。
尽管本公开内容已经描述了若干非限制性实施方式,但是存在落入本公开内容的范围内的改变、置换和各种替换等效物。因此将理解,本领域技术人员将能够设计出多种系统和方法,所述多种系统和方法虽然在本文中没有明确示出或描述,但是体现了本公开内容的原理并且因此在本公开内容的精神和范围内。

Claims (20)

1.一种用于对触觉数据的定时信息进行解码的方法,所述方法由至少一个处理器执行,所述方法包括:
接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流;
从所述媒体流中获得运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元,所述MIHS单元包括一个或更多个触觉效果和开始时间;
从所述媒体流中获得与所述一个或更多个触觉效果相关联的定时信息,所述定时信息包括所述一个或更多个触觉效果的至少一个时间位置;以及
基于所获得的定时信息对所述媒体流进行渲染。
2.根据权利要求1所述的方法,其中,触觉效果的时间位置指示针对所述触觉效果的效果开始时间。
3.根据权利要求2所述的方法,其中,针对所述触觉效果的效果开始时间是基于相应MIHS单元的开始时间的偏移,以及
其中,所述效果开始时间指示与所述相应MIHS单元的开始时间相关的所述触觉效果的开始时间。
4.根据权利要求1所述的方法,其中,对所述MIHS单元的顺序的操纵不影响所述一个或更多个触觉效果的所述至少一个时间位置。
5.根据权利要求1所述的方法,其中,所述MIHS单元与至少一个触觉信道相关联,
其中,所述至少一个触觉信道包括一个或更多个触觉带,以及
其中,所述一个或更多个触觉带中的每一个具有至少一个触觉效果。
6.根据权利要求1所述的方法,其中,所述MIHS单元对应于与所述至少一个视频轨道相关联的基于ISO的媒体文件格式(ISOBMFF)样本。
7.根据权利要求2所述的方法,其中,针对所述触觉效果的效果开始时间是基于所述至少一个触觉轨道或所述至少一个视频轨道的开始时间的绝对时间。
8.一种用于对触觉数据进行解码的设备,所述设备包括:
至少一个存储器,所述至少一个存储器被配置成存储程序代码;以及
至少一个处理器,所述至少一个处理器被配置成读取所述程序代码并且按照所述程序代码的指示进行操作,所述程序代码包括:
第一接收代码,所述第一接收代码被配置成使所述至少一个处理器接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流;
第一获得代码,所述第一获得代码被配置成使所述至少一个处理器从所述媒体流中获得运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元,所述MIHS单元包括一个或更多个触觉效果和开始时间;
第二获得代码,所述第二获得代码被配置成使所述至少一个处理器从所述媒体流中获得与所述一个或更多个触觉效果相关联的定时信息,所述定时信息包括所述一个或更多个触觉效果的至少一个时间位置;以及
渲染代码,所述渲染代码被配置成使所述至少一个处理器基于所获得的定时信息对所述媒体流进行渲染。
9.根据权利要求8所述的设备,其中,触觉效果的时间位置指示针对所述触觉效果的效果开始时间。
10.根据权利要求9所述的设备,其中,针对所述触觉效果的效果开始时间是基于相应MIHS单元的开始时间的偏移,以及
其中,所述效果开始时间指示与所述相应MIHS单元的开始时间相关的所述触觉效果的开始时间。
11.根据权利要求8所述的设备,其中,对所述MIHS单元的顺序的操纵不影响所述一个或更多个触觉效果的所述至少一个时间位置。
12.根据权利要求8所述的设备,其中,所述MIHS单元与至少一个触觉信道相关联,
其中,所述至少一个触觉信道包括一个或更多个触觉带,以及
其中,所述一个或更多个触觉带中的每一个具有至少一个触觉效果。
13.根据权利要求8所述的设备,其中,所述MIHS单元对应于与所述至少一个视频轨道相关联的基于ISO的媒体文件格式(ISOBMFF)样本。
14.根据权利要求9所述的设备,其中,针对所述触觉效果的效果开始时间是基于所述至少一个触觉轨道或所述至少一个视频轨道的开始时间的绝对时间。
15.一种存储指令的非暂态计算机可读介质,所述指令包括一个或更多个指令,所述一个或更多个指令在由用于对触觉数据进行解码的装置的一个或更多个处理器执行时,使所述一个或更多个处理器:
接收包括至少一个触觉轨道以及至少一个视频轨道的媒体流;
从所述媒体流中获得运动图像专家组(MPEG)沉浸式触觉流(MIHS)单元,所述MIHS单元包括一个或更多个触觉效果和开始时间;
从所述媒体流中获得与所述一个或更多个触觉效果相关联的定时信息,所述定时信息包括所述一个或更多个触觉效果的至少一个时间位置;以及
基于所获得的定时信息对所述媒体流进行渲染。
16.根据权利要求15所述的非暂态计算机可读介质,其中,触觉效果的时间位置指示针对所述触觉效果的效果开始时间。
17.根据权利要求16所述的非暂态计算机可读介质,其中,针对所述触觉效果的效果开始时间是基于相应MIHS单元的开始时间的偏移,以及
其中,所述效果开始时间指示与所述相应MIHS单元的开始时间相关的所述触觉效果的开始时间。
18.根据权利要求15所述的非暂态计算机可读介质,其中,对所述MIHS单元的顺序的操纵不影响所述一个或更多个触觉效果的所述至少一个时间位置。
19.根据权利要求15所述的非暂态计算机可读介质,其中,所述MIHS单元与至少一个触觉信道相关联,
其中,所述至少一个触觉信道包括一个或更多个触觉带,以及
其中,所述一个或更多个触觉带中的每一个具有至少一个触觉效果。
20.根据权利要求15所述的非暂态计算机可读介质,其中,所述MIHS单元对应于与所述至少一个视频轨道相关联的基于ISO的媒体文件格式(ISOBMFF)样本。
CN202380014580.7A 2022-10-17 2023-10-17 具有触觉效果的样本锚定的isobmff触觉轨道 Pending CN118266218A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202263416780P 2022-10-17 2022-10-17
US63/416,780 2022-10-17
US18/487,688 2023-10-16
US18/487,688 US20240129579A1 (en) 2022-10-17 2023-10-16 Isobmff haptic tracks with sample anchoring of haptic effects
PCT/US2023/035295 WO2024086148A1 (en) 2022-10-17 2023-10-17 Isobmff haptic tracks with sample anchoring of haptic effects

Publications (1)

Publication Number Publication Date
CN118266218A true CN118266218A (zh) 2024-06-28

Family

ID=90625944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380014580.7A Pending CN118266218A (zh) 2022-10-17 2023-10-17 具有触觉效果的样本锚定的isobmff触觉轨道

Country Status (4)

Country Link
US (1) US20240129579A1 (zh)
KR (1) KR20240125626A (zh)
CN (1) CN118266218A (zh)
WO (1) WO2024086148A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9437087B2 (en) * 2013-05-24 2016-09-06 Immersion Corporation Method and system for haptic data encoding and streaming using a multiplexed data stream
EP3332310B1 (en) * 2015-08-05 2019-05-29 Dolby Laboratories Licensing Corporation Low bit rate parametric encoding and transport of haptic-tactile signals

Also Published As

Publication number Publication date
WO2024086148A1 (en) 2024-04-25
KR20240125626A (ko) 2024-08-19
US20240129579A1 (en) 2024-04-18

Similar Documents

Publication Publication Date Title
CN112188209B (zh) 视频流解码方法、装置、计算机设备和存储介质
CN113508598B (zh) 对使用视频点云编解码编码的视频流进行解码的方法和装置
CN114641976A (zh) 用于数据操纵的可打补丁的远程元素
JP2024517370A (ja) Mpd連鎖を使用して2つ以上の非線形メディアソースから線形メディアソース拡張(mse)バッファを構築するための方法、装置及びプログラム
US20240129579A1 (en) Isobmff haptic tracks with sample anchoring of haptic effects
US20240129578A1 (en) Method and apparatus for defining frames and timed referenced network abstraction layer (nals) structure in haptics signals
US20240127680A1 (en) Method and apparatus for timed referenced access unit packetization of haptics elementary streams
US20240201784A1 (en) Methods for signaling random access in haptics interchange file format
US20240129047A1 (en) Method for creating sparse isobmff haptics tracks
CN115867906A (zh) 使用基于会话的dash操作的基于会话的描述url定制
KR101700821B1 (ko) 스케일러블 원격화면 전송방법 및 그 장치
CN114616801A (zh) 在媒体流式传输中使用组合索引段轨道用信号通知带宽上限
CN114667738B (zh) 视频流传输方法和用于视频流传输的装置
US20240129537A1 (en) Method and apparatus for signaling cmaf switching sets in isobmff
US20230308669A1 (en) Predictive coding of boundary uv information for mesh compression
Chiariglione Moving picture experts group (mpeg)
WO2023136907A1 (en) Auxiliary mpds for mpeg dash to support prerolls, midrolls and endrolls with stacking properties
CN116762343A (zh) 用于注释dash中vvc子画面的方法
KR20230101907A (ko) 미디어 플레이백 동안 프리롤 및 미드롤 콘텐츠를 지원하기 위한 mpeg dash를 위한 방법 및 장치
KR20230010258A (ko) 비디오 기반의 포인트 클라우드 코딩을 위한 비2진 점유 맵
JP2024515208A (ja) メッシュ圧縮のための境界uv2xyzインデックスの予測コーディング
CN118614064A (zh) 用于帧精确触觉交换文件格式的方法和装置
EP4101178A1 (en) Extended w3c media extensions for processing dash and cmaf inband events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication