CN115841818A - 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备 - Google Patents

用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备 Download PDF

Info

Publication number
CN115841818A
CN115841818A CN202211393135.XA CN202211393135A CN115841818A CN 115841818 A CN115841818 A CN 115841818A CN 202211393135 A CN202211393135 A CN 202211393135A CN 115841818 A CN115841818 A CN 115841818A
Authority
CN
China
Prior art keywords
stream
data
mpeg
audio
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211393135.XA
Other languages
English (en)
Inventor
斯特凡·施赖纳
克里斯托弗·费尔施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN115841818A publication Critical patent/CN115841818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42607Internal components of the client ; Characteristics thereof for processing the incoming bitstream
    • H04N21/42615Internal components of the client ; Characteristics thereof for processing the incoming bitstream involving specific demultiplexing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video or multiplex stream to a specific local network, e.g. a IEEE 1394 or Bluetooth® network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Abstract

本发明涉及用于处理嵌入在MPEG‑H 3D音频流中的辅媒体流的方法及设备。本发明还涉及用于打包媒体流的旁路载荷处理的方法、设备及系统。在实施例中,所述设备包括:接收器,其用于接收位流;及分离器,其用于识别所述位流中的数据包类型且基于所述位流中的所述数据包类型的值的所述识别来分离成主流及辅流。

Description

用于处理嵌入在MPEG-H 3D音频流中的辅媒体流的方法及 设备
分案申请的相关信息
本申请是申请号为201980012902.8、申请日为2019年2月22日、发明名称为“用于处理嵌入在MPEG-H 3D音频流中的辅媒体流的方法及设备”的中国发明专利申请的分案申请。
相关申请案的交叉参考
本申请案主张以下优先权申请案的优先权:2018年2月22日申请的美国临时申请案62/634,136(参考文献:D18027USP1)、2018年3月9日申请的美国临时申请案62/641,098(参考文献:D18027USP2)、2018年4月9日申请的欧洲专利申请案18166319.6(参考文献:D18027EP)及2018年7月13日申请的美国临时申请案62/697,536(参考文献:D18027USP3),所述申请案由此以引用方式并入本文中。
技术领域
本发明涉及提供一种用于打包媒体处理的设备、系统及方法。
背景技术
对于家用消费电子(CE)装置,功能可扩展到若干装置(例如,机顶盒、电视机、AVR接收器),其中此类装置经由标准化接口(例如HDMI)连接。
第一装置可从广播及/或宽带连接接收媒体流。所述第一装置可另外具有复杂智能(例如“智能扬声器”功能)。第二装置可专用于媒体解码、渲染及呈现给用户。
发明内容
本发明涉及一种用于处理合并的打包媒体位流的方法,所述方法包括:从所述合并的打包媒体位流提取主流,所述主流包含以MHAS格式封装的MPEG-H 3D音频数据;从所述合并的打包媒体位流提取辅流,所述辅流包括封装为呈所述MHAS格式的数据包的额外音频数据,其中所述数据包具有新MHAS数据包类型,其中所述数据包的数据包有效载荷的格式与所述MPEG-H 3D音频数据的MPEG-H 3D格式不同,且其中所述新MHAS数据包类型指示内部原始格式;识别指示所述辅流相对于所述主流的时间偏移存在时间偏移信令,其中所述时间偏移信令指示辅流信号应偏移以到达与所述主流对准的混合器;以及基于所述时间偏移信令将所述额外音频数据与所述MPEG-H 3D音频数据进行时间对准。
附图说明
图1说明实例性装置#1及实例性装置#2。
图2说明根据本发明的实例性MPEG-H 3D音频数据包流。
图3说明实例性装置#1及实例性装置#3。
图4(包括图4A和4B)示意性地说明根据本发明的初级解码器/渲染器的另一实例。
图5(包括图5A和5B)示意性地说明根据本发明的初级解码器/渲染器的又一实例。
图6说明用于基于MHAS来实现本发明的手段的实例性数据包类型。
具体实施方式
通常,媒体节目是由装置#1接收且发送到装置#2以供再现。这个媒体节目可被称为“主节目”。有时或另外,应将从不同传输信道接收的不同媒体节目(如广告)或由装置#1中的“智能装置”能力生成的媒体(两者通常以不同媒体格式表示)插入或覆盖到主媒体节目中。
这可通过将主节目及辅节目两者解码成广义、通常未经压缩的表示,切换所述流或将主节目及辅节目两者混合/渲染成组合表示且将经生成的媒体流重新编码成经编码的传输格式来实现。这种方法可在任何装置中执行,例如均在装置#1中。然而,在渲染阶段时可能需要高计算能力且中间表示可能无法提供装置#2中的实际再现系统的最优匹配。
图1说明实例性装置#1及实例性装置#2。装置#1可包含初级接收器101、次级接收器/本地引擎103及打包流合并器102。打包流合并器102可合并从初级接收器101接收的数据流(例如,主流)及从次级接收器/本地引擎103接收的数据流(例如,辅数据流)。装置#2可包含流分离器201、初级解码器/渲染器202及次级解码器/渲染器203。流分离器201可分离例如主流的流(其接着可被提供到初级解码器/渲染器202)及例如辅流的流(其接着可被提供到次级解码器/渲染器203)。两个解码器输出信号可同时呈现给收听者。
为了克服上文所描述的限制,装置#1可将传入的主媒体流直接发送到装置#2。装置#1的这种模式可被称为“直通”模式。然而,这种方法的缺点是仅指定标准化接口来针对视频及音频传送一个单数据流,且因此第二媒体流无法通过所述接口本地发送到装置#2以供再现。
本发明可提供用于用来接收打包媒体数据的第一接收器、用来接收额外媒体流的第二接收器及用来发送打包媒体数据的传输器接口的方法及设备。
本发明提出通过以下手段将第二辅媒体流合并到打包主媒体流中。
表示为打包流的媒体流通常使用数据包类型标识符来区分多个子流与总媒体流。为了传送与主媒体流无关的额外(媒体)数据,第一装置#1可将额外数据封装在根据主媒体流格式化但由数据包报头中的专用标签标记的数据包中。这个专用标签将触发接收装置#2剔除携载额外媒体流的数据包。任选地,装置#2接着可将额外媒体流提供到次级解码器/渲染器203实例,同时由初级解码器/渲染器202接收主流。
在一个实例中,已预期未辨识数据包报头中针对额外的封装媒体流的这个新标签的传统接收装置忽视那些数据包。
所述标签可在任何经编码的音频数据流环境中提供,例如MPEG-H、AC-4、杜比数字+等。
如果与原始媒体流相比,额外插入的数据流超过基本数据速率,那么接收器装置应过滤传入的打包流且任选地剔除额外数据数据包以维护下游连接(传统)媒体解码器的接收器缓冲模型。
此外,图3说明实例性装置#1及实例性装置#3。装置#1可包含初级接收器101、次级接收器/本地引擎103及打包流合并器102。打包流合并器102可合并从初级接收器101接收的数据流(例如,主流)及从次级接收器/本地引擎103接收的数据流(例如,辅数据流)。装置#3可仅包含初级解码器/渲染器301,但不包含流分离器。在一个实例中,可能不将辅流提供到次级解码器/渲染器。在这个实例中,经修改初级解码器可在内部对辅流与主流进行解码/转换/混合。
MPEG-H生态系统
根据ISO/IEC 23008-3的MPEG-H 3d音频以MHAS格式封装。这个格式利用打包格式,其中每一数据包由数据包报头及数据包有效载荷组成。虽然所述有效载荷可为任何二进制数据,但所述报头指定所述有效载荷的类型及长度。(额外可用的标签可用于区分多个实例,但此处未被利用。)
通过为次级媒体流指派新MHAS数据包类型(实例性地命名为PACTYP_MEDIA),可将表示为未经压缩的PCM数据的额外音频数据(任选地使用RIFF/WAV格式进一步指定)、或经压缩的音频数据(例如根据ISO/IEC 14496-3的MPEG-4音频)或任何其它经编码的表示(例如,根据ATSC A/52或ETSI TS 103 190)封装到MHAS数据包中且因此可合并到主MPEG-H 3d音频流中。可通过不同数据包类型(例如PACTYP_PCM、PACTYP_MPEG4AUDIO…)或如下述实例中所展示通过形成MHAS数据包的子报头的额外指定符来区分待封装的不同格式。
由于(媒体)数据可能需要配置数据但可能不被表示为独立流,因此这个数据可经封装在容器MHAS数据包的报头中或可指派额外MHAS数据包(例如PACTYP_MEDIA_CONFIG或指示配置的另一类型的MHAS数据包名称,例如PACTYP_PCMCONFIG),另外所述额外MHAS数据包还可携载有关额外数据的类型的信息。MHAS数据包类型可携载用于将配置信息馈送到解码器的PCM有效载荷数据的配置信息。例如,如果在位流中(例如,在PACTYP_MEDIA_CONFIG之后)存在配置信息的MHAS数据包类型(例如,PACTYP_MEDIA_CONFIG或PACTYP_PCMCONFIG),那么可将呈数据结构(例如,pcmDataConfig())形式的PCT数据配置信息馈送到解码器。
通常,MHAS数据包类型(例如,PACTYP_PCMDATA)可用于嵌入对应于配置结构中所定义的PCM信号的PCM有效载荷数据且将呈PCM数据有效载荷结构形式的PCM数据馈送到解码器。如果在位流中存在MHAS数据包类型(例如,PACTYP_PCMDATA),那么可在解码期间使用PCM数据有效载荷结构(例如pcmDataPayload())。
图2说明根据本发明的实例性MPEG-H 3D音频数据包流。
在一个实例中,本发明可基于根据以下语法修正的识别信息:
1)修正表220-MHASPacketPayload()的语法,其中:
Figure BDA0003932121880000041
Figure BDA0003932121880000051
2)在表223中为PACTYP_MEDIA指派适当MHASPacketType。替代地,MHASPacketType的值可变动或可取决于预设值,例如,由标准组织在最终标准文件中发布的值。
3)应使用mhasMediaDataType列举指定以下媒体类型:
Figure BDA0003932121880000052
图2实例性地展示包含根据具有3D音频数据(实例性地包含例如作为元数据的配置数据(例如PACTYP_MPEGH3DACFG)及经编码的音频数据(例如PACTYP_MPEGH3DAFRAME))的MPEG-H 3D音频的实例性数据包的打包主流。
此外,图2实例性地展示根据本发明的包含实例性数据包的打包次级流(辅流),如由涉及包含实例性地呈压缩格式(例如MPEG4音频)的额外音频数据(辅音频数据/次级音频数据)的上述实例性额外数据包类型PACTYP_MEDIA的报头信息所指示。
替代地或另外,可根据打包主流的格式将额外音频数据打包成具有报头的数据包,在此实例性地是MPEG-H 3D音频,包含指示如上文所论述般封装的不同格式的子报头。
根据本发明的实例性方面,主流及辅(次级)流可通过流合并器来合并,例如举例来说通过打包流合并器102。
传出流(合并流)包含与相同格式(例如实例性地图2中的MPEG-H 3D音频)的单个打包位流内的主流的经编码音频数据相关的数据包及与辅流的音频数据相关的数据包。
应注意,未修改(传统)MPEG-H 3D音频解码器可能无法理解新添加的数据包类型(例如PACTYP_MEDIA)且此类未修改(传统)MPEG-H 3D音频解码器可忽略或转储具有其报头中指示的新添加数据包类型(例如PACTYP_MEDIA)的数据包。此类未修改(传统)MPEG-H 3D音频解码器仍可对与主流相关的音频数据进行解码但将不处理额外辅/次级音频数据。
为了对具有主流及辅流的合并流进行解码及处理,可将解码器装置修改为包含能够对与辅音频数据相关的数据包进行过滤及解码/处理的经修改解码器。
图4示意性地说明根据本发明的初级解码器/渲染器的另一实例。
图4说明这在MPEG-H 3D音频解码器中如何实现,其中媒体格式是PCM数据。实例性地,初级解码器/渲染器301被实现为包含MPEG-H 3D音频核心解码器M1及例如对象渲染器M2的相关渲染单元,举例来说例如根据MPEG-H 3D音频(ISO/IEC 23008-3)标准所定义。
经修改解码器301可另外过滤且剔除具有指示新的额外数据包类型(例如PACTYP_MEDIA)的报头的MHAS数据包,且将具有辅音频数据的数据包输入到格式转换单元301c1及接着输入到采样率转换器(例如实例性地在如根据MPEG-H 3D音频(ISO/IEC 23008-3)标准所定义的MPEG-H 3D音频核心解码器M1下游的解码器架构中存在的采样率转换器M3)。
因此,经修改解码器301可对输入媒体数据(MHASPacketType==PACTYP_MEDIA)执行采样率转换(例如,通过采样率转换器M3)及格式转换(例如,通过格式转换单元301c1)以便匹配媒体采样率及信道布局与解码器的输出采样率及信道配置。此外,经修改解码器可在混合器(例如实例性地在如根据MPEG-H 3D音频(ISO/IEC 23008-3)标准所定义的MPEG-H 3D音频核心解码器M1下游的解码器架构中存在的混合器单元M4)中混合输入媒体数据或经采样率转换的输入媒体数据与已由MPEG-H 3D音频核心解码器M1创建的音频媒体数据。
图4的上述实例实例性地与包含未经压缩的媒体数据(例如PCM数据等)的辅媒体数据相关。应注意,如果未经压缩的媒体数据(例如PCM数据等)进一步包含位置信息或与对应位置元数据有关(例如,对于3D音频器具),那么可由位置数据处理对象渲染器进一步处理辅数据,例如,在如根据MPEG-H 3D音频(ISO/IEC 23008-3)标准所定义的MPEG-H 3D音频核心解码器M1下游的解码器架构中存在的对象渲染器M2。
图5示意性地说明根据本发明的初级解码器/渲染器的又一实例。实例性地,初级解码器/渲染器301被实现为包含MPEG-H 3D音频核心解码器M1及例如对象渲染器M2的相关渲染单元,举例来说例如根据MPEG-H 3D音频(ISO/IEC 23008-3)标准所定义。
图5实例性地说明上述情况如何在MPEG-H 3D音频解码器中实现,其中媒体格式是经编码的数据(例如MPEG-4音频)。经修改解码器301可使用未必在ISO/IEC 23008-3中指定的额外解码器301c2(经配置以对辅媒体数据进行转换及/或解码的转换器及/或解码器)对输入媒体数据(MHASPacketType==PACTYP_MEDIA)进行解码。此外,经修改解码器可混合那些经解码的媒体数据与已由如根据MPEG-H 3D音频(ISO/IEC 23008-3)标准所定义的MPEG-H 3D音频核心解码器M1创建的音频媒体数据。
源自不同源的多个MHAS子流的时间对准
在根据本发明的实例性方面中,可提供额外时间对准单元以用于辅流的数据包的时间对准,例如以提供源自不同源的多个MHAS子流的时间对准。
根据ISO/IEC 23008-3第14.6章节,MHAS“子流是由同一编码器生成[且因此]假定各种传入流[…]完全对准且没有相位偏移”。在这种情况下,可使用MHASPacketLabel编号实现帧对准。利用本发明中所提出的方法,上述约束可不再是理所当然的。使用针对不同编解码器或采样率的不同帧持续时间,与MHAS主流合并的次级流的连续MHAS数据包的时间偏移随时间而变动。在每一特定时隙中,需要用信号传递次级流相对于主流的时间偏移。例如,在辅流的相关联数据包中指示与元数据相关的数据包类型,所述元数据与如图6中所展示的辅流的数据包的有效载荷中所含的媒体数据相关联。
图6说明用于基于MHAS来实现本发明的手段的实例性数据包类型,例如其中另一MHAS数据包类型被定义为携载适当时间偏移信令。为了将这个信令关联到对应流,时间偏移数据包需要具有指派为其所涉及的类型PACTYP_MEDIA的MHASPacket的相同MHASPacketLabel编号。从图6可明显看出,未保证对应于每一流的一个特定时隙的流数据的直接一对一关系,但来自一个流的两个或更多个时隙可以及时方式对应于来自另一流的一个时隙。
信令时间偏移的另一选项是将这个时间偏移添加到类型PACTYP_MEDIA的MHAS数据包本身。
鉴于以上内容,在根据本发明的一些实例性方面中,图4及/或5的实例的经修改初级解码器/渲染器301的转换及/或解码单元可包含用于辅流数据与主流数据的时间对准的时间对准单元,举例来说在例如图4及5的实例的混合器单元M4的混合器上游,或也在图4及5的实例的采样器(例如采样率转换器M3)上游,或也作为图1的实例的次级解码器/渲染器203的部分。
主音频流及次级音频流的混合的控制
可能需要额外数据来控制次级(辅)音频流与主音频流的混合。在其它选项中,这个数据可包含静态增益或动态增益序列,实例性地形成为ISO/IEC 23003-4DynamicRangeControl数据,以当再现次级音频流时处理主流。那些数据通常由装置#1生成且可通过单独MHAS数据包(例如具有标识符PACTYP_MPEGH_MEDIA_CFG),进一步添加到次级流报头或通过任何其它种类的流封装而并入到流中。
鉴于以上内容,在根据本发明的一些实例性方面中,图4及/或5的实例的经修改解码器301的转换及/或解码单元可包含用于应用静态及/或动态增益(例如,用于响度调整)的增益调整单元,举例来说在例如图4及5的实例的混合器单元M4的混合器上游,或也在图4及5的实例的采样器(例如采样率转换器M3)上游,或也作为图1的实例的次级解码器/渲染器203的部分。
杜比生态系统
此外,杜比AC-4(ETSI TS 103 190)以及杜比数字及杜比数字+(ETSI TS 102366)提供在EMDF有效载荷中携载任何二进制数据的可能性,所述EMDF有效载荷可用于携载如在以上章节(MPEG-H生态系统)中所定义的相同或类似数据。
出于此类目的,可使用如在ETSI TS 103 190中所定义的语法元素emdf_info()或如在ETSI TS 102 366中所定义的语法元素emdf_container()、Annex H及其基本元素。为了做到这一点,一人可简单地定义一或多个emdf_payload_id定义,可使用所述定义以便识别具有与如上文在PACTYP_MEDIA及/或PACTYP_MPEGH_MEDIA_CFG下所描述相同或类似的格式的二进制数据。
可在如图4及5中所展示的杜比AC-4或杜比数字/杜比数字+中类似地实现含有未经压缩/未经编码的数据的媒体流的系统混音,其中区别在于使用哪个信号路径将非基于MHASPacketType而是基于emdf_payload_id值来进行的不同。
通过本发明解决的媒体流,主流及旁路数据流两者可为以下类型:
·音频流,经压缩及未经压缩两者
·视频流
·字幕
本发明还可应用于视频呈现装置(监视器),其中通过标准化接口连接除发送主流(通常经压缩的视频流)之外还应发送覆盖图片、视频或文本。
参考文献:
·US20170223429A1、EP3149955A1
·ISO/IEC 23008-3:(MPEG-H 3d音频,第二版)
本发明的列举实例性实施例涉及:
EEE1.一种用于音频信号处理的方法,其包括:
接收合并的打包媒体位流,其包含与指示主音频信息的主流相关联的数据包及与指示辅音频信息的旁路数据流相关联的数据包;识别所述合并的打包媒体位流的数据包的报头信息中的数据包类型的值;及基于所述合并的打包媒体位流的数据包的报头信息中的所述数据包类型的所述值的所述识别来将所述合并的打包媒体位流分离成指示主音频信息的所述主流及指示辅音频流信息的所述旁路数据流。
EEE2.根据EEE1所述的方法,其进一步包括:
基于从所述主流的所述主音频信息获得的输出信号及从所述旁路数据流的所述辅音频信息获得的输出信号来混合音频输出信号。
EEE3.根据EEE 2所述的方法,其中将来自所述主音频信息及所述辅音频信息的输出信号同时输出到收听者。
EEE4.根据EEE1所述的方法,其进一步包括:
通过初级解码器对所述主流进行解码。
EEE5.根据EEE1所述的方法,其进一步包括:
当所述旁路数据流与经压缩的辅音频信息相关时,通过次级解码器对所述旁路数据流进行解码。
EEE6.根据EEE1所述的方法,其进一步包括:
当所述旁路数据流与经压缩的辅音频信息相关时,通过转换器转换包含在所述旁路数据流的数据包中的媒体数据。
EEE7.根据EEE5或EEE6所述的方法,其中
所述经压缩的辅音频信息包含MPEG-4音频数据。
EEE8.根据EEE1所述的方法,其中
所述旁路数据流与未经压缩的辅音频信息相关。
EEE9.根据EEE8所述的方法,其中
所述未经压缩的辅音频信息包含PCM数据。
EEE10.根据EEE1所述的方法,其中
所述数据包类型指示内部原始格式,特别是解码器内部原始格式。
EEE11.根据EEE1所述的方法,其进一步包括:
对所述旁路数据流执行信号处理。
EEE12.根据EEE11所述的方法,其中
在基于从所述主流的所述主音频信息获得的输出信号及从所述旁路数据流的所述辅音频信息获得的所述输出信号来混合音频输出信号之前,对所述旁路数据流执行信号处理。
EEE13.根据EEE11所述的方法,其中
对所述旁路数据流执行信号处理包含执行增益调整。
EEE14.根据EEE13所述的方法,其中
基于静态增益或动态增益来执行增益调整。
EEE15.根据EEE13所述的方法,其进一步包括:
接收与(若干)静态增益或(若干)动态增益中的至少一者相关的混合信息。
EEE16.根据EEE13所述的方法,其中
执行增益调整以供响度调整。
EEE17.根据EEE11所述的方法,其中
对所述旁路数据流执行信号处理包含执行时间对准。
EEE18.根据EEE17所述的方法,其中
执行时间对准以对所述旁路数据位流的所述辅音频信息与所述主位流的所述主音频信息进行时间对准。
EEE19.根据EEE17或EEE18所述的方法,其进一步包括:
接收关于所述旁路数据位流的所述辅音频信息与所述主位流的所述主音频信息的时间对准的时间对准信息。
EEE20.根据EEE1所述的方法,其中
定义所述数据包类型来携载时间偏移信令,特别是用于时间对准。
EEE21.根据EEE1所述的方法,其进一步包括:
接收所述旁路数据流相对于所述主流的定时偏移的指示。
EEE22.根据EEE11所述的方法,其中
对所述旁路数据流执行信号处理包含当所述辅音频信息与位置信息相关联时进行对象渲染。
EEE23.根据EEE 22所述的方法,其中
通过对象渲染器对所述主数据流及所述旁路数据流执行对象渲染而执行对象渲染。
EEE24.根据EEE11所述的方法,其中
对所述旁路数据流执行信号处理包含格式转换。
EEE25.根据EEE1所述的方法,其进一步包括:
通过标准化MPEG-H 3D音频解码器对所述主流进行解码。
EEE26.根据EEE25所述的方法,其进一步包括:
混合所述旁路数据流的数据包中所含的媒体数据与通过所述标准化MPEG-H 3D音频解码器生成的媒体数据。
EEE27.根据EEE26所述的方法,其中
所述旁路数据流的数据包中所含的所述媒体数据是未经压缩的数据,特别是PCM数据,或经压缩的数据,特别是MPEG-4音频数据。
EEE28.根据EEE26所述的方法,其中
所述旁路数据流的数据包中所含的媒体数据是通过未在MPEG-H 3D音频上标准化的解码器进行解码。
EEE29.根据EEE1所述的方法,其中
所述合并的打包媒体位流包含MHAS数据包。
EEE30.一种用于音频信号处理的方法,其包括:
-接收指示主音频信息的主流;
-基于辅音频信息来生成或接收指示所述辅音频信息的旁路数据流;及
-合并所述主流及所述旁路数据流以生成合并的打包媒体位流,所述合并的打包媒体位流包含与指示主音频信息的主流相关联的数据包及与指示辅音频信息的旁路数据流相关联的数据包。
EEE31.根据EEE30所述的方法,其进一步包括
将指示所述辅音频信息的媒体数据打包成所述合并的打包媒体位流的格式的数据包。
EEE32.根据EEE30所述的方法,其中
所述旁路数据流与经压缩的辅音频信息相关。
EEE33.根据EEE32所述的方法,其中
所述经压缩的辅音频信息包含MPEG-4音频数据。
EEE34.根据EEE30所述的方法,其中
所述旁路数据流与未经压缩的辅音频信息相关。
EEE35.根据EEE34所述的方法,其中
所述未经压缩的辅音频信息包含PCM数据。
EEE36.根据EEE30所述的方法,其中
所述合并的打包媒体位流的数据包的报头信息指示数据包类型。
EEE37.根据EEE36所述的方法,其中
与指示辅音频信息的所述旁路数据流相关联的数据包的所述数据包类型的值指示与所述辅音频信息相关联的媒体数据。
EEE38.根据EEE30所述的方法,其中
所述合并的打包媒体位流包含MHAS数据包。
EEE39.一种用于音频信号处理的设备,其包括:
接收器,其经配置以接收合并的打包媒体位流,所述合并的打包媒体位流包含与指示主音频信息的主流相关联的数据包及与指示辅音频信息的旁路数据流相关联的数据包,及
分离器,其经配置以基于所述合并的打包媒体位流的数据包的报头信息中的数据包类型的值的识别来将所述合并的打包媒体位流分离成指示主音频信息的所述主流及指示辅音频信息的所述旁路数据流。
EEE40.根据EEE39所述的设备,其进一步包括:
混合器,其经配置以基于从所述主流的所述主音频信息获得的输出信号及从所述旁路数据流的所述辅音频信息获得的输出信号来混合音频输出信号。
EEE41.根据EEE39所述的设备,其进一步包括:
初级解码器,其经配置以对所述主流进行解码。
EEE42.根据EEE39所述的设备,其进一步包括:
次级解码器,其经配置以当所述旁路数据流与经压缩的辅音频信息相关时,对所述旁路数据流进行解码。
EEE43.根据EEE39所述的设备,其进一步包括:
转换器,其经配置以当所述旁路数据流与经压缩的辅音频信息相关时,转换包含在所述旁路数据流的数据包中的媒体数据。
EEE44.根据EEE42或EEE43所述的设备,其中
所述经压缩的辅音频信息包含MPEG-4音频数据。
EEE45.根据EEE39所述的设备,其中
所述旁路数据流与未经压缩的辅音频信息相关。
EEE46.根据EEE45所述的设备,其中
所述未经压缩的辅音频信息包含PCM数据。
EEE47.根据EEE39所述的设备,其中
所述数据包类型指示内部原始格式,特别是解码器内部原始格式。
EEE48.根据EEE39所述的设备,其进一步包括:
增益调整单元,其经配置以执行应用于所述旁路数据流的增益调整。
EEE49.根据EEE39所述的设备,其进一步包括:
时间对准单元,其经配置以执行应用于所述旁路数据流的时间对准。
EEE50.根据EEE39所述的设备,其进一步包括:
对象渲染器,其经配置以执行应用于所述旁路数据流的对象渲染。
EEE51.根据EEE50所述的设备,其中
所述对象渲染器包含在初级解码器中。
EEE52.根据EEE39所述的设备,其进一步包括:
格式转换单元,其经配置以执行应用于所述旁路数据流的格式转换。
EEE53.根据EEE39所述的设备,其进一步包括:
标准化MPEG-H 3D音频解码器,其用于对所述主流进行解码。
EEE54.根据EEE39所述的设备,其中
所述合并的打包媒体位流包含MHAS数据包。
EEE55.一种用于音频信号处理的设备,其包括:
接收器,其经配置以接收指示主音频信息的主流;
本地引擎,其经配置以基于辅音频信息来生成指示所述辅音频信息的旁路数据流,及/或接收器,其经配置以接收所述旁路数据流,及
合并器,其经配置以合并所述主流及所述旁路数据流以生成合并的打包媒体位流,所述合并的打包媒体位流包含与指示主音频信息的主流相关联的数据包及与指示辅音频信息的旁路数据流相关联的数据包。
EEE56.根据EEE55所述的设备,其进一步包括:
打包器,其经配置以将指示所述辅音频信息的媒体数据打包成所述合并的打包媒体位流的格式的数据包。
EEE57.一种系统,其包含根据EEE55所述的设备及根据EEE39所述的设备。

Claims (6)

1.一种用于处理合并的打包媒体位流的方法,所述方法包括:
从所述合并的打包媒体位流提取主流,所述主流包含以MHAS格式封装的MPEG-H 3D音频数据;
从所述合并的打包媒体位流提取辅流,所述辅流包括封装为呈所述MHAS格式的数据包的额外音频数据,
其中所述数据包具有新MHAS数据包类型,其中所述数据包的数据包有效载荷的格式与所述MPEG-H 3D音频数据的MPEG-H 3D格式不同,且其中所述新MHAS数据包类型指示内部原始格式;
识别指示所述辅流相对于所述主流存在时间偏移的时间偏移信令,其中所述时间偏移信令指示辅流信号应偏移以到达与所述主流对准的混合器;以及
基于所述时间偏移信令将所述额外音频数据与所述MPEG-H 3D音频数据进行时间对准。
2.根据权利要求1所述的方法,其进一步包括基于所述MPEG-H 3D格式对所述主流进行解码。
3.根据权利要求1所述的方法,其中所述数据包包括识别所述数据包有效载荷的所述格式的子报头。
4.根据权利要求1所述的方法,其进一步包括基于所述数据包的所述数据包有效载荷的所述格式对所述辅流进行解码。
5.根据权利要求1所述的方法,其进一步包括至少输出从所述主流和所述辅流获得的输出信号。
6.根据权利要求1所述的方法,其中所述MHAS格式与ISO/IEC 23008-3标准兼容。
CN202211393135.XA 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备 Pending CN115841818A (zh)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US201862634136P 2018-02-22 2018-02-22
US62/634,136 2018-02-22
US201862641098P 2018-03-09 2018-03-09
US62/641,098 2018-03-09
EP18166319.6 2018-04-09
EP18166319 2018-04-09
US201862697536P 2018-07-13 2018-07-13
US62/697,536 2018-07-13
CN201980012902.8A CN111713116B (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
PCT/EP2019/054432 WO2019162434A1 (en) 2018-02-22 2019-02-22 Method and apparatus for processing of auxiliary media streams embedded in a mpeg-h 3d audio stream

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201980012902.8A Division CN111713116B (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备

Publications (1)

Publication Number Publication Date
CN115841818A true CN115841818A (zh) 2023-03-24

Family

ID=65628745

Family Applications (5)

Application Number Title Priority Date Filing Date
CN202211394879.3A Pending CN115691519A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN202211393480.3A Pending CN115691518A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN202211392725.0A Pending CN115691517A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN202211393135.XA Pending CN115841818A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN201980012902.8A Active CN111713116B (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备

Family Applications Before (3)

Application Number Title Priority Date Filing Date
CN202211394879.3A Pending CN115691519A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN202211393480.3A Pending CN115691518A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
CN202211392725.0A Pending CN115691517A (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201980012902.8A Active CN111713116B (zh) 2018-02-22 2019-02-22 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备

Country Status (8)

Country Link
US (2) US11232805B2 (zh)
EP (1) EP3756355A1 (zh)
JP (2) JP7274492B2 (zh)
KR (1) KR20200123786A (zh)
CN (5) CN115691519A (zh)
BR (1) BR112020015531A2 (zh)
RU (1) RU2762400C1 (zh)
WO (1) WO2019162434A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242712B (zh) * 2022-09-26 2023-01-24 中央广播电视总台 一种4k8kip制播调度控制方法、装置和系统

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9930788D0 (en) * 1999-12-30 2000-02-16 Koninkl Philips Electronics Nv Method and apparatus for converting data streams
JP3735863B2 (ja) * 2002-06-06 2006-01-18 ソニー株式会社 ビデオテープレコーダ及び記録方法
EP1408505A1 (en) * 2002-10-11 2004-04-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for synchronizing data streams containing audio, video and/or other data
US7609939B2 (en) * 2004-08-17 2009-10-27 Lg Electronics Inc. Method and apparatus of reproducing data recorded on recording medium and local storage
US8363161B2 (en) * 2006-05-26 2013-01-29 Broadcom Corporation Systems, methods, and apparatus for synchronization of audio and video signals
KR101591085B1 (ko) * 2008-05-19 2016-02-02 삼성전자주식회사 영상 파일 생성 및 재생 장치 및 방법
EP2362653A1 (en) * 2010-02-26 2011-08-31 Panasonic Corporation Transport stream packet header compression
CN103181164A (zh) * 2010-07-20 2013-06-26 汤姆森许可公司 用于技巧模式操作中内容呈现的方法
JP6015085B2 (ja) 2012-04-13 2016-10-26 船井電機株式会社 音声信号出力機器
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP3833032A1 (en) * 2012-09-04 2021-06-09 TiVo Solutions Inc. Wireless media streaming system
US10158927B1 (en) * 2012-09-05 2018-12-18 Google Llc Systems and methods for detecting audio-video synchronization using timestamps
KR102251763B1 (ko) 2013-01-21 2021-05-14 돌비 레버러토리즈 라이쎈싱 코오포레이션 예약된 데이터 공간에 위치된 메타데이터 컨테이너를 갖는 인코딩된 오디오 비트스트림의 디코딩
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2863386A1 (en) * 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
US10027963B2 (en) 2013-11-12 2018-07-17 Dolby Laboratories Licensing Corporation Pre-dithering in high dynamic range video coding
US9729903B2 (en) * 2013-12-31 2017-08-08 Samsung Electronics Co., Ltd. Data transmitting device and method
US9621963B2 (en) * 2014-01-28 2017-04-11 Dolby Laboratories Licensing Corporation Enabling delivery and synchronization of auxiliary content associated with multimedia data using essence-and-version identifier
CN112019882B (zh) * 2014-03-18 2022-11-04 皇家飞利浦有限公司 为视听内容项生成音频信号的方法和设备
PL3522554T3 (pl) * 2014-05-28 2021-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Procesor danych i transport danych kontrolnych użytkownika do dekoderów audio i modułów renderowania
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
US10547701B2 (en) * 2014-09-12 2020-01-28 Sony Corporation Transmission device, transmission method, reception device, and a reception method
RU2700405C2 (ru) * 2014-10-16 2019-09-16 Сони Корпорейшн Устройство передачи данных, способ передачи данных, приёмное устройство и способ приёма
CN107430860B (zh) * 2015-02-14 2021-04-30 三星电子株式会社 用于对包括系统数据的音频比特流进行解码的方法和设备
CN107431834B (zh) * 2015-04-07 2020-10-09 索尼公司 传输设备、传输方法、接收设备、以及接收方法
JP6891806B2 (ja) * 2015-05-28 2021-06-18 ソニーグループ株式会社 送信装置、送信方法、受信装置および受信方法
CN113242448B (zh) * 2015-06-02 2023-07-14 索尼公司 发送装置和方法、媒体处理装置和方法以及接收装置
KR20220155399A (ko) * 2015-06-17 2022-11-22 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
US10171849B1 (en) * 2015-07-08 2019-01-01 Lg Electronics Inc. Broadcast signal transmission device, broadcast signal reception device, broadcast signal transmission method, and broadcast signal reception method
JP2017028463A (ja) * 2015-07-21 2017-02-02 ソニー株式会社 送信装置、および送信方法、受信装置、および受信方法、並びにプログラム
US10693936B2 (en) * 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
US9854375B2 (en) 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
KR20180120169A (ko) * 2016-03-09 2018-11-05 소니 주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
CA3018476C (en) * 2016-03-25 2021-08-31 Sharp Kabushiki Kaisha Systems and methods for signaling of information associated with audio content
US9674453B1 (en) * 2016-10-26 2017-06-06 Cisco Technology, Inc. Using local talker position to pan sound relative to video frames at a remote location
EP3470976A1 (en) 2017-10-12 2019-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for efficient delivery and usage of audio messages for high quality of experience
US20190104326A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Content source description for immersive media data
SG10202106080XA (en) * 2017-10-12 2021-07-29 Fraunhofer Ges Forschung Optimizing audio delivery for virtual reality applications

Also Published As

Publication number Publication date
CN111713116B (zh) 2022-10-14
JP2023086987A (ja) 2023-06-22
US11830508B2 (en) 2023-11-28
KR20200123786A (ko) 2020-10-30
EP3756355A1 (en) 2020-12-30
WO2019162434A1 (en) 2019-08-29
CN115691518A (zh) 2023-02-03
CN115691519A (zh) 2023-02-03
US20220165284A1 (en) 2022-05-26
CN111713116A (zh) 2020-09-25
RU2021134283A (ru) 2021-12-10
BR112020015531A2 (pt) 2021-02-02
JP7274492B2 (ja) 2023-05-16
JP2021515448A (ja) 2021-06-17
US11232805B2 (en) 2022-01-25
US20200395027A1 (en) 2020-12-17
CN115691517A (zh) 2023-02-03
RU2762400C1 (ru) 2021-12-21

Similar Documents

Publication Publication Date Title
US10142757B2 (en) Transmission device, transmission method, reception device, and reception method
EP3046304A1 (en) Method and device for transmitting/receiving broadcast signal
CN102171750A (zh) 用于输送对齐的多通道音频的方法和设备
US11871078B2 (en) Transmission method, reception apparatus and reception method for transmitting a plurality of types of audio data items
US20230260523A1 (en) Transmission device, transmission method, reception device and reception method
JP2023086987A (ja) パケット化メディアストリームのサイドロード処理のための方法、機器、およびシステム
EP3913625A1 (en) Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
US20050036757A1 (en) Method for converting a video and/or an audio data flow
RU2780733C2 (ru) Способ и устройство обработки вспомогательных потоков медиаданных, встроенных в поток mpeg-h 3d audio
JP2021515448A5 (zh)
KR20100060449A (ko) 수신 시스템 및 오디오 데이터 처리 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40083860

Country of ref document: HK