CN103649706A - 三维音频音轨的编码及再现 - Google Patents
三维音频音轨的编码及再现 Download PDFInfo
- Publication number
- CN103649706A CN103649706A CN201280021295.XA CN201280021295A CN103649706A CN 103649706 A CN103649706 A CN 103649706A CN 201280021295 A CN201280021295 A CN 201280021295A CN 103649706 A CN103649706 A CN 103649706A
- Authority
- CN
- China
- Prior art keywords
- audio
- signal
- clue
- downmix signal
- downmix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims description 123
- 238000000034 method Methods 0.000 claims description 64
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 32
- 230000005540 biological transmission Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 230000000153 supplemental effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000009877 rendering Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 230000004304 visual acuity Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种用于产生、编码、传输、解码和再现空间音频音轨的新型的端对端方案。所提供的音轨编码格式与传统的环绕立体声编码格式兼容,这样以新格式编码的音轨可以在传统的回放设备上解码和再现,与传统的格式相比没有质量损失。
Description
相关申请的交叉引用
本发明主张2011年3月16日提交的序列号为61/453,461,发明人为Jot等,标题为“三维音频音轨的编码及再现”的美国临时专利申请的优先权。
关于联邦资助研究/开发的声明
不适用
背景技术
1.技术领域
本发明涉及音频信号的处理,更特别地,涉及三维音频音轨的编码和再现。
2.现有技术
空间音频再现已经引起音频工程师和消费者电子产业的兴趣长达数十年。空间声音再现需要必须根据应用环境(例如,音乐会演出、电影院、家用高保真设施,计算机显示器,单独的头戴式显示器)进行配置的双声道或者多声道电声系统(扬声器或者耳机),在Jot,Jean-Marc所著的“Real-time SpatialProcessing of Sounds for Music,Multimedia and Interactive Human-ComputerInterfaces”,(IRCAM,1place Igor-Stravinsky1997)【下文中称为(Jot,1997)】一文中进行了进一步说明,通过引用的方式将其内容合并在此。与该音频回放系统配置相关联,必须定义适当的技术或者格式来将方向定位线索(cue)编码在多声道音频信号中以进行传输或者存储。
可通过两种互补的方法来产生空间编码的音轨:
(a)使用一致的或紧密相间的麦克风系统(放置在基本上位于或者临近听众在场景内的虚拟位置处)记录现有声音场景。这可以是,例如立体声麦克风对,仿真头或者声场麦克风。这样的拾音技术可以采用不同的保真度对与所记录的场景中出现的每个声源相关的空间听觉线索(auditory cue)同时进行编码,其中从给定位置上捕获每个声源。
(b)合成虚拟声音场景。在该方法中,通过使用信号处理系统人为地重建每个声源的定位以及室内效果,该信号处理系统接收单独的源信号并且提供用于描述虚拟声音场景的参数接口。这种系统的示例为专业的演播室调音台或者数字音频工作站(DAW)。控制参数可包括每个源的位置,取向以及方向性,以及虚拟房间或空间的声学特性。该方法的一个示例是使用调音台和诸如人工混响器的信号处理模块对多轨录音的后处理,如图1A所示。
用于电影和家庭视频娱乐产业的音频记录和再现技术的发展已经引起多声道“环绕立体声”记录格式的标准化(最著名的是5.1和7.1格式)。环绕立体声格式预先假定音频声道信号应当分别馈送给按照规定的几何布局在围绕听众的水平面内布置的扬声器,诸如图1B中所示的“5.1”标准布局(其中LF、CF、RF、RS、LS和SW分别表示左前方、中前方、右前方、右环绕、左环绕和重低音扬声器)。这种假设本质上限制了可靠并精确地编码和再现天然声场中的三维音频线索的能力,包括声源的接近度及其在水平面上方的高度,以及声场的空间扩散分量中的沉浸感,诸如室内混响。
已经开发出用于在记录中编码三维音频线索的各种音频记录格式。这些3D音频格式包括高保真度立体声响复制(Ambisonics)以及离散(discrete)多声道音频格式(其包括提升的扬声器声道),诸如图1C中所示的NHK22.2格式。然而,这些空间音频格式与传统的消费者环绕立体声回放设备是不兼容的:它们要求不同的扬声器布局几何形状以及不同的音频解码技术。与传统设备及设施的不兼容性对于现有3D音频格式的成功部署是一个关键性的障碍。
多声道音频编码格式
诸如位于加州Calabasas的DTS公司的DTS-ES和DTS-HD等的各种多声道数字音频格式通过在音轨数据流中包括反相兼容降混(downmix)和被传统的解码器忽略的数据流扩展来解决这些问题,其中反相兼容降混能够被传统的解码器解码并且再现在现有的回放设备上,并且数据流扩展承载附加的音频声道。DTS-HD解码器可以恢复这些附加声道,减去它们在反相兼容降混中的贡献,并且将它们以不同于反相兼容格式的目标空间音频格式进行渲染,目标空间音频格式可包括提升的扬声器位置。在DTS-HD中,附加声道在反相兼容混合中和目标空间音频格式中的贡献由一组混合系数(每个扬声器声道一个)描述。音轨所期望的目标空间音频格式必须在编码阶段指定。
该方法使得能够以与传统的环绕立体声解码器相兼容的数据流的形式对多声道音频音轨进行编码,并且在编码/产生阶段过程中还选择一个或若干个可替换的目标空间音频格式。这些可替换的目标格式可包括适合改进的三维音频线索的再现的格式。然而,该方案的一个局限性在于:为另一目标空间音频格式编码同样的音轨要求返回制造工厂以记录和编码为新格式混合后的音轨的新版本。
基于对象的音频场景编码
基于对象的音频场景编码提供了一种独立于目标空间音频格式的音轨编码的一般性解决方案。基于对象的音频场景编码系统的一个示例是MPEG-4高级音频二进制格式场景(AABIFS)。在该方法中,单独地传送每个源信号以及渲染线索数据流。该数据流承载诸如图1A中所示的空间音频场景渲染系统的各参数的时变值。这组参数可以采用独立于格式的音频场景描述的形式来提供,以便可以通过根据任何目标空间音频格式设计渲染系统来以该格式渲染音轨。每个源信号结合其相关的渲染线索一起定义“音频对象”。该方法的显著优势在于,渲染器能够实现可用于以在再现端处选取的任何目标空间音频格式渲染每个音频对象的最精确的空间音频合成技术。基于对象的音频场景编码系统的另一优势在于,其允许在解码阶段对所渲染的音频场景进行交互式修改,包括再混合,音乐的重新诠释(例如,卡拉OK),或者场景中的虚拟导航(例如,游戏)。
尽管基于对象的音频场景编码能够实现独立于格式的音轨编码和再现,但该方法表现出两个主要的局限性:(1)其与传统的消费者环绕立体声系统不兼容;(2)其通常需要在计算方面昂贵的解码和渲染系统;以及(3)其需要高传输或存储数据率以用于分别承载多个源信号。
多声道空间音频编码
对多声道音频信号的低比特率传输或存储的需求促进了新的频域空间音频编码(SAC)技术的发展,包括双耳线索编码(BCC)和MPEG-环绕。在示例性SAC技术中,如图1D中所示,以伴随有空间线索数据流的降混音频信号的形式编码M-声道音频信号,所述空间线索数据流在时频域中描述原始M个声道信号中出现的声道间关系(声道间相关性和级别差异)。由于降混信号包括少于M个音频声道并且空间线索数据率相比音频信号数据率来说更小,因此该编码方法产生总体数据率的显著降低。另外,可选择降混格式以方便与传统设备的反相兼容。
在美国专利申请No.2007/0269063中描述的被称为空间音频场景编码(SASC)的该方法的变形中,传输到解码器的时频空间线索数据是独立于格式的。这使得能够以任何目标空间音频格式进行空间再现,同时保持了在编码的音轨数据流中承载反相兼容降混信号的能力。然而,在该方法中,编码的音轨数据不定义可分离的音频对象。在大多数记录中,位于声音场景中的不同位置处的多个声源在时频域中是同时存在的。这种情况下,空间音频解码器不能将它们在降混音频信号中的贡献分开。结果,该音频再现的空间保真度可能会受空间定位误差所累。
空间音频对象编码
MPEG空间音频对象编码(SAOC)与MPEG环绕的类似之处在于编码的音轨数据流包括反相兼容降混音频信号以及时频线索数据流。SAOC为多对象编码技术,设计为以单声道或双声道降混音频信号传输M个音频对象。与SAOC降混信号一起传输的SAOC线索数据流包括时频对象混合线索,其在每个子频带中描述应用到单声道或双声道降混信号中的每一个声道中的每个对象输入信号的混合系数。另外,SAOC线索数据流包括频域对象分离线索,其允许在解码器侧对音频对象单独进行后处理。SAOC解码器中提供的对象后处理功能模拟(mimic)基于对象的空间音频场景渲染系统的功能并且支持多种目标空间音频格式。
SAOC提供了一种对个多音频对象信号进行低比特率传输和高计算效率的空间音频渲染方法,以及基于对象并独立于格式的三维音频场景描述。然而,SAOC编码流的传统兼容性受限于SAOC音频降混信号的双声道立体声再现,因此并不适于扩展现有的多声道环绕立体声编码格式。另外,应当注意的是,如果在SAOC解码器中应用的对音频对象信号的渲染操作包括特定类型的后处理效果,诸如人工混响,则SAOC降混信号在感觉上并不代表所渲染的音频场景(因为这些效果在渲染场景中是可以听到的,但是并没有同时并入包含未处理的对象信号的降混信号中)。
另外,SAOC也具有与SAC和SASC技术相同的局限性:SAOC解码器不能在降混信号中完全分开在时频域中同时存在的音频对象信号。例如,SAOC解码器对对象的过度放大或衰减通常导致渲染场景的音频质量产生不可接受的降低。
考虑到娱乐和通信业中对空间音频再现不断增长的兴趣和使用,现有技术中存在对改进的三维音频音轨编码方法以及相关的空间音频场景再现技术的需求。
发明内容
本发明提供了一种用于产生、编码、传输、解码以及再现空间音频音轨的新型的端对端解决方案。所提供的音轨编码格式与传统的环绕立体声编码格式兼容,这样以新的格式编码的音轨可以在传统的回放设备上解码和再现,与传统的格式相比没有质量损失。本发明中,音轨数据流包括反相兼容混合以及附加音频声道,解码器可从反相兼容混合中移除该附加音频声道。本发明使得能够以任何目标空间音频格式再现音轨。不必在编码阶段指定目标空间音频格式,并且该目标空间音频格式独立于反相兼容混合的传统空间音频格式。每个附加音频声道被解码器解释为对象音频数据并且与对象渲染线索相关,该对象渲染线索在音轨数据流中传输,并在感觉上描述音频对象在音轨中的贡献而不考虑目标空间音频格式。
本发明允许音轨的制作者定义一个或多个所选音频对象,该所选音频对象将用最大可能的保真度以任何目标空间音频格式(目前存在的或者未来将开发的)进行渲染,仅受到音轨传递和再现条件(存储或者传输数据率、回放设备的性能和回放系统配置)的限制。除了灵活的基于对象的三维音频再现,所提供的音轨编码格式能够对以高分辨率多声道音频格式(诸如NHK22.2格式等)产生的音轨实现严格的反向和前向兼容编码。
在本发明的一个实施例中,提供一种对音频音轨进行编码的方法。该方法从接收以下信号开始:表示物理声音的基混信号;至少一个对象音频信号,每个对象音频信号具有所述音频音轨的至少一个音频对象分量;至少一个对象混合线索流,所述对象混合线索流定义对象音频信号的混合参数;至少一个对象渲染线索流,所述对象渲染线索流定义对象音频信号的渲染参数。所述方法继续利用对象音频信号和对象混合线索流来组合音频对象分量与基混信号,从而获得降混信号。该方法继续多路复用降混信号、对象音频信号、渲染线索流以及对象线索流从而形成音轨数据流。在输出降混信号之前,可由第一音频编码处理器对对象音频信号进行编码。可由第一音频解码处理器对对象音频信号进行解码。降混信号在被多路复用之前可由第二音频编码处理器进行编码。第二音频编码处理器可以是有损耗数字编码处理器。
在本发明的替选实施例中,提供一种对表示物理声音的音频音轨进行编码的方法。该方法从接收以下信号开始:音轨数据流,具有表示音频场景的降混信号;至少一个对象音频信号,所述对象音频信号具有音频音轨的至少一个音频对象分量;至少一个对象混合线索流,所述对象混合线索流定义对象音频信号的混合参数;以及至少一个对象渲染线索流,所述对象渲染线索流定义对象音频信号的渲染参数。该方法继续利用对象音频信号和对象混合线索流从降混信号中部分地移除至少一个音频对象分量,从而获得残余降混信号。该方法继续对残余降混信号应用空间格式转换,从而输出具有定义空间音频格式的空间参数的转换后残余降混信号。该方法继续利用对象音频信号以及对象渲染线索流来导出至少一个对象渲染信号。该方法以组合转换后残余降混信号与对象渲染信号从而获得音轨渲染信号来结束。可以从降混信号中减去音频对象分量。可以从降混信号中部分地移除音频对象分量,使得音频对象分量在降混信号中不明显。降混信号可以是编码的音频信号。降混信号可以通过音频解码器进行解码。对象音频信号可以是单声道音频信号。对象音频信号可以是具有至少2个声道的多声道音频信号。对象音频信号可以是离散扬声器馈送音频声道。音频对象分量可以是语音、乐器、音效或者音频场景的任何其他特性。空间音频格式可以表示收听环境。
在本发明的替选实施例中,提供了一种音频编码处理器,包括:接收机处理器,用于接收表示物理声音的基混信号;至少一个对象音频信号,每个对象音频信号具有所述音频音轨的至少一个音频对象分量;至少一个对象混合线索流,所述对象混合线索流定义对象音频信号的混合参数;以及至少一个对象渲染线索流,所述对象渲染线索流定义对象音频信号的渲染参数。编码处理器进一步包括组合处理器,用于基于对象音频信号和对象混合线索流组合音频对象分量与基混信号,所述组合处理器输出降混信号。编码处理器进一步包括多路复用器处理器,用于多路复用降混信号、对象音频信号、渲染线索流以及对象线索流以形成音轨数据流。本发明的替选实施例中,提供了一种音频解码处理器,包括接收处理器,用于接收:表示音频场景的降混信号;至少一个对象音频信号,所述对象音频信号具有音频场景的至少一个音频对象分量;至少一个对象混合线索流,所述对象混合线索流定义对象音频信号的混合参数;以及至少一个对象渲染线索流,所述对象渲染线索流定义对象音频信号的渲染参数。
音频解码处理器进一步包括对象音频处理器,用于基于对象音频信号和对象混合线索流从降混信号中部分地移除至少一个音频对象分量,并且输出残余降混信号。音频解码处理器进一步包括空间格式转换器,用于对残余降混信号应用空间格式转换,从而输出具有定义空间音频格式的空间参数的转换后残余降混信号。音频解码处理器进一步包括渲染处理器,用于处理对象音频信号和对象渲染线索流以导出至少一个对象渲染信号。音频解码处理器进一步包括组合处理器,用于组合转换后残余降混信号与对象渲染信号以获得音轨渲染信号。
在本发明的替选实施例中,提供一种对表示物理声音的音频音轨进行解码的替选方法。该方法包括以下步骤:接收如下信号:具有表示音轨场景的降混信号的音轨数据流;至少一个对象音频信号,所述对象音频信号具有所述音频音轨的至少一个音频对象分量;以及至少一个对象渲染线索流,所述对象渲染线索流定义对象音频信号的渲染参数;利用对象音频信号和对象渲染线索流从降混信号中部分地移除至少一个音频对象分量,从而获得残余降混信号;对残余降混信号应用空间格式转换,从而输出具有定义空间音频格式的空间参数的转换后残余降混信号;利用对象音频信号和对象渲染线索流来导出至少一个对象渲染信号;并且组合转换后残余降混信号与对象渲染信号以获得音轨渲染信号。
附图说明
参考下面的描述和附图可以更好地理解本文中公开的各种实施例的这些以及其他特征和优点,其中相似的编号自始至终指代相似的部件,并且其中:
图1A为示出现有技术中用于空间录音的记录或者再现的音频处理系统的框图;
图1B为示出现有技术中标准“5.1”环绕立体声多声道扬声器布局配置的俯视示意图;
图1C为描绘现有技术中“NHK22.2”三维多声道扬声器布局配置的示意图;
图1D为示出现有技术中空间音频编码、空间音频场景编码以及空间音频对象编码系统的操作的框图;
图1为根据本发明一个方面的编码器的框图;
图2为根据编码器的一个方面,执行音频对象并入的处理块的框图;
图3为根据编码器的一个方面的音频对象渲染器的框图;
图4为根据本发明的一个方面的解码器的框图;
图5为根据解码器的一个方面,执行音频对象移除的处理块的框图;
图6为根据解码器的一个方面的音频对象渲染器的框图;
图7为根据解码器的一个实施例对格式转换方法的示意性说明;
图8为示出根据解码器的一个实施例的格式转换方法的框图。
具体实施方式
下面组合附图阐述的详细描述意在作为对本发明的当前优选实施例进行说明,并不意在代表本发明可被构建或使用的仅有形式。该描述阐述了用于开发和操作与所示出的实施例相关的本发明的功能及步骤顺序。然而也应当理解,相同或者等同的功能和顺序可以通过同样落入本发明的精神和范围内的不同的实施例来完成。进一步应当理解的是,诸如第一和第二等的相关术语的使用仅用于对实体进行彼此区分,而不必要求或者暗示这些实体之间任何实际的这种关系或次序。
一般定义
本发明涉及处理音频信号,即表示物理声音的信号。这些信号由数字电子信号表示。在下面的讨论中,可示出或讨论模拟波形来说明观点;然而应当理解的是本发明的典型实施例将在数字字节或者字的时间序列的上下文中操作,所述字节或字构成对模拟信号或(最终)物理声音的离散逼近。该离散的数字信号对应于周期性采样的音频波形的数字表示。如本领域中已知的,为了获得均匀采样,对于感兴趣的频率必须以至少足以满足Nyquist采样定理的速率对波形进行采样。例如,在典型实施例中,可以使用约44.1K采样/秒的均匀采样率。可以替选地使用诸如96khz的更高采样率。根据已知的原理,应选择量化方案和比特分辨率来满足特定应用的要求。本发明的技术和装置通常可以相互依赖地应用于多条声道内。例如,其可以用于“环绕”音频系统(具有多于两条声道)的环境中。
如这里所使用的,“数字音频信号”或“音频信号”不仅仅描述数学抽象,而是表示能够通过机器或装置检测的物理介质实现或承载的信息。该术语包括记录的或者传输的信号,并且应当被理解为包括以任何形式的编码(包括脉冲编码调制(PCM),但不仅限于PCM)来传送。输出或输入,或实际上中间音频信号可以通过各种已知方法中的任何一种来编码或压缩,各种已知方法包括MPEG、ATRAC、AC3,或DTS公司专有的方法,如美国专利5,974,380;5,978,762;以及6,487,535中所描述的方法。如对本领域技术人员显而易见的,可能需要对计算进行某种修改,以适应该特定压缩或编码方法。
本发明描述为音频编解码器。在软件方面,音频编解码器是根据给定的音频文件格式或者流音频格式对数字音频数据进行格式化的计算机程序。大部分的编解码器实现为与一个或多个多媒体播放器接口连接的库,多媒体播放器诸如QuickTime Player、XMMS、Winamp、Windows Media Player、Pro Logic等。在硬件方面,音频编解码器指的是将模拟音频编码为数字信号并且将数字信号解码回模拟音频的单个或多个设备。换句话说,其包括以同样的时钟运行的ADC和DAC。
音频编解码器可以实现在消费者电子设备中,诸如DVD或者BD播放器,电视调谐器,CD播放器,手持播放器,因特网音频/视频设备,游戏控制台,移动电话等。消费者电子设备包括中央处理单元(CPU),其可表示一个或多个传统类型的这种处理器,诸如IBM PowerPC、Intel Pentium(x86)处理器等等。随机存取存储器(RAM)临时存储由CPU执行的数据处理操作的结果,并且通常经由专用存储通道互联。消费者电子设备还可以包括在I/O总线上与CPU通信的诸如硬盘驱动器的永久性存储设备。也可连接其他类型的存储设备,诸如磁带驱动器,光盘驱动器。显卡也经由视频总线与CPU连接,并且向显示监视器传输代表显示数据的信号。诸如键盘或鼠标的外围数据输入设备可以在USB端口上与音频再现系统连接。USB控制器为连接到USB端口的外围设备翻译送往和来自CPU的数据和指令。诸如打印机、麦克风、扬声器等的附加设备可与消费者电子设备连接。
消费者电子设备可利用具有图形用户界面(GUI)的操作系统,诸如来自Redmond,Washington的微软公司的WINDOWS、来自Cupertino,CA的苹果公司的MAC OS、为诸如Android的移动操作系统设计的各种移动GUI版本等。消费者电子设备可以执行一个或多个计算机程序。通常,操作系统和计算机程序以有形的方式体现于计算机可读介质中,例如包括硬盘驱动器的固定和/或可拆卸的数据存储设备中的一个或多个。操作系统和计算机程序均可从上述的数据存储设备被加载到RAN中以供CPU执行。计算机程序可包括指令,这些指令当被CPU读取和执行时导致其执行步骤以执行本发明的步骤或特征。
音频编解码器可具有许多不同的配置和结构。可以在不背离本发明的范围的情况下很容易地替代任何这种配置或结构。本领域技术人员将认识到,上述的序列是最常用于计算机可读介质中的,但是,可在不背离本发明范围的情况下,存在能够被替代的其它现有序列。
可通过硬件、固件、软件或它们的任意组合实现音频编解码器的一个实施例的要素。当实现为硬件时,音频编解码器可在一个音频信号处理器上使用,或者分布于各种处理组件之中。当实现为软件时,本发明的实施例的要素基本上是用于执行必要任务的代码段。软件优选地包括用于实施在本发明的一个实施例中描述的操作的实际代码,或者仿真或模拟该操作的代码。程序或代码段可被存储于处理器或机器可存取介质中,或者在传送介质上,通过在载波中体现的计算机数据信号或通过载波调制的信号被传输。“处理器可读或可存取介质”或“机器可读或可存取介质”可包含可存储、传输或传送信息的任何介质。
处理器可读介质的示例包括电子电路、半导体存储设备、只读存储器(ROM)、闪速存储器、可擦ROM(EROM)、软盘、紧致盘(CD)ROM、光盘、硬盘、光纤介质、射频(RF)链路等。计算机数据信号可包括于在诸如电子网络信道、光纤、空气、电磁波、RF链路等的传输介质上传播的任何信号。代码段可通过诸如因特网、内联网等的计算机网络被下载。可在制品中体现机器可存取介质。机器可存取介质可包括当被机器访问时导致机器执行下面描述的操作的数据。术语“数据”这里指的是出于机器可读目的编码的任何类型的信息。因此,它可包括程序、代码、数据、文件等。
可通过软件实现本发明的实施例的全部或一部分。软件可具有相互耦合的几个模块。软件模块与另一模块耦合以接收变量、参数、自变量、指针等,并且/或者生成或传递结果、更新的变量、指针等。软件模决也可以是与在平台上运行的操作系统相互作用的软件驱动器或接口。软件模块也可以是配置、建立、初始化、发送和接收送往和来自硬件设备的数据的硬件驱动器。
本发明的一个实施例可被描述为通常示为程序框图、流程图、结构图或框图的处理。虽然方块图可将操作描述为依次的处理,但是可以并行或同时地执行多个操作。另外,操作的次序可被重新安排。处理在其操作完成时终止。处理可与方法、程序、过程等对应。
编码器概述
现在参考图1,提供描述编码器的实现的示意图。图1描述了用于根据本发明对音轨进行编码的编码器。编码器产生音轨数据流40,其包括以降混信号30的形式且以选定的空间音频格式记录的音轨。在下面的描述中,该空间音频格式被称为降混格式。在编码器的优选实施例中,降混格式为与传统的消费者解码器兼容的环绕立体声格式,并且通过数字音频编码器32对降混信号30进行编码,从而产生编码的降混信号34。编码器32的优选实施例为反相兼容多声道数字音频编码器,诸如来自DTS公司的DTS数字环绕或DTS-HD。
另外,音轨数据流40包括至少一个音频对象(在本说明书及附图中称为“对象1”)。在下面的描述中,通常将音频对象定义为音轨的音频分量。音频对象可表示音轨中可听见的可分辨的声源(语音,乐器,音效等)。每个音频对象由音频信号(12a,12b)表征,下文中称为对象音频信号并且在音轨数据中具有唯一标识符。除了对象音频信号,编码器可选地接收以降混格式提供的多声道基混信号10。该基混例如可以代表背景音乐,记录的气氛,或者记录的或合成的声音场景。
所有音频对象在降混信号30中的贡献由对象混合线索16定义,并且由音频对象并入处理块24(下面将进一步详述)将它们与基混信号10组合。除了对象混合线索16,编码器还接收对象渲染线索18,并且经由线索编码器36将它们连同对象混合线索16一起包括在音轨数据流40中。渲染线索18允许补充解码器(下面将描述)以不同于降混格式的目标空间音频格式渲染音频对象。在本发明的优选实施例中,渲染线索18是独立于格式的,这样解码器可以以任何目标空间音频格式渲染音轨。在本发明的一个实施例中,对象音频信号(12a,12b)、对象混合线索16、对象渲染线索18以及基混10由操作者在音轨的产生过程期间提供。
每个对象音频信号(12a,12b)可以呈现为单声道或者多声道信号。在优选实施例中,在被并入音轨数据流40之前,一些或者全部对象音频信号(12a,12b)以及降混信号30由低比特率音频编码器(20a-20b,32)进行编码,从而降低传输或存储编码的音轨40所需的数据率。在优选实施例中,经由有损耗低比特率数字音频编码器(20a)传输的对象音频信号(12a-12b)随后在被音频对象并入处理块24处理之前由补充解码器(22a)进行解码。这使得可以在解码器侧从降混中精确地消除对象的贡献(如下所述)。
接下来,编码的音频信号(22a-22b,34)以及编码的线索38由块42进行多路复用从而形成音轨数据流40。复用器42将数字数据流(22a-22b,34,38)组合到单个数据流40中以在共享介质上传输或者存储。通过通信信道来传输复用后的数据流40,该通信信道可以是物理传输介质。该复用将低层通信信道的容量分成若干较高层的逻辑信道,待传送的每个数据流一个逻辑信道。称为多路分解的逆向过程能够在解码器侧提取原始数据流。
音频对象并入
图2描述根据本发明的优选实施例的音频对象并入处理块。音频对象并入处理块24接收对象音频信号26a-26b以及对象混合线索16,并且将它们传输到音频对象渲染器44,该渲染器44将音频对象组合到音频对象降混信号46中。音频对象降混信号46以降混格式提供并且与基混信号10组合从而生成音轨降混信号30。每个对象音频信号26a-26b可以以单声道或者多声道信号呈现。在本发明的一个实施例中,多声道对象信号作为多个单声道对象信号处理。
图3描述根据本发明的实施例的音频对象渲染器模块。该音频对象渲染器模块44接收对象音频信号26a-26b以及对象混合线索16,并导出对象降混信号46。音频对象渲染器44根据业界已知的原理运行(例如在(Jot,1997)中所描述的),从而将对象音频信号26a-26b中的每一个混合到音频对象降混信号46中。根据混合线索16所提供的指令执行混合操作。每个对象音频信号(26a,26b)由空间摆动(panning)模块(分别为48a,48b)进行处理,该空间摆动模块为音频对象指派方向定位,如收听对象降混信号46时感觉到的。通过添加性(additively)组合对象信号摆动模块48a-48b的输出信号形成降混信号46。在渲染器的优选实施例中,每个对象音频信号26a-26b在降混信号46中的直接贡献还被直接发送系数(附图3中标示为d1-dn)所放大(scale),从而控制每个音频对象在音轨中的相对响度。
在渲染器的一个实施例中,配置对象摆动模块(48a)以使得能够将对象渲染为空间上扩展的声源,具有可控的形心方向以及可控的空间范围,如收听摆动模块输出信号时感觉到的。再现空间扩展源的方法业界已知并且例如描述在Jot,Jean-Marc等所著的“Binaural Simulation of Complex Acousitc Scenes forInteractive Audio”(发表于第121届AES大会,2006年10月5日-8日)【(下文中称为(Jot,2006)】中,通过引用将其内容并入。可以设置与音频对象相关的空间范围以再现空间漫射声源(即,环绕听众的声源)的感觉。
可选地,配置音频对象渲染器44以产生对一个或者多个音频对象的间接音频对象贡献。在该配置中,降混信号46还包括空间混响模块的输出信号。在音频对象渲染器44的优选实施例中,通过向人工混响器50的输出信号52应用空间摆动模块54来形成空间混响模块。摆动模块54将信号52转换为降混格式,同时可选地向音频混响输出信号52提供方向性强调,如收听降混信号30时感觉到的。设计人工混响器50以及混响摆动模块54的常规方法是现有技术中已知的,并且可以被本发明采用。可选择地,处理模块(50)可以是常用在音频记录的产生过程中的另一类型的数字音频处理效应算法(例如,回声效应,镶边效应,或者环形调制器效应)。模块50接收对象音频信号26a-26b的组合,其中每个对象音频信号通过间接发送系数(图3中表示为rl-rn)放大。
另外,本领域中已知将直接发送系数d1-dn和间接发送系数r1-rn实现为数字滤波器,从而模拟由每个音频对象表示的虚拟声源在指向性和方向性上的听觉效应,以及声学障碍和隔断在模拟音频场景中的效应。这进一步在(Jot,2006)中进行了说明。在本发明的一个实施例中(图3中未示出),对象音频渲染器44包括并行相关且由对象音频信号的不同组合提供输入的若干空间混响模块,以模拟复杂的声学环境。
声学对象渲染器44中的信号处理操作根据混合线索16所提供的指令来执行。混合线索16的示例可以包括在摆动模块48a-48b中应用的混合系数,其描述每个对象音频信号26a-26b对降混信号30的每个声道的贡献。更一般地,对象混合线索数据流16承载一组控制参数的时变值,该时变值唯一地确定音频对象渲染器44执行的所有信号处理操作。
解码器概述
现在参考附图4,示出了根据本发明的实施例的解码器处理。解码器接收编码的音轨数据流40作为输入。多路分解器56分离编码输入40以恢复编码的降混信号34、编码的对象音频信号14a-14c以及编码的线索流38d。每个编码信号和/或流由解码器(分别为58、62a-62c以及64)解码,该解码器与用于对(结合图1描述的用于产生音轨数据流40的)音轨编码器中的相应信号和/或流进行编码的编码器互补。
解码的降混信号60、对象音频信号26a-26c以及对象混合线索流16d被提供给音频对象移除模块66。信号60以及26a-26c以允许混合和滤波操作的任何形式表示。例如,适合使用线性PCM,对于特定应用具有足够的位深。音频对象移除模块66产生残余降混信号68,其中音频对象的贡献被正确地,部分地或者基本上移除。残余降混信号68被提供给格式转换器78,其产生适于以目标空间音频格式再现的转换的残余降混信号80。
另外,解码的对象音频信号26a-26c以及对象渲染线索流18d被提供给音频对象渲染器70,音频对象渲染器70产生适合以目标空间音频格式再现音频对象贡献的对象渲染信号76。对象渲染信号76和转换的残余降混信号80组合从而产生目标空间音频格式的音轨渲染信号84。在本发明的一个实施例中,输出后处理模块86对音轨渲染信号84应用可选的后处理。在本发明的一个实施例中,模块86包括通常适用于音频再现系统中的后处理,诸如频率响应修正,响度或动态范围修正,附加空间音频格式转换等。
本领域技术人员将易于理解,可以通过将解码的降混信号60直接传输给格式转换器78来实现与目标空间音频格式兼容的音轨再现,省略音频对象移除66和音频对象渲染器70。在替选实施例中,格式转换器78被省略或者包括在后处理模块80中。如果将降混格式和目标空间音频格式考虑为等同的,并且仅为了在解码器侧的用户交互目的而采用音频对象渲染器70,那么这种变化的实施例是合适的。
在降混格式和目标空间音频格式不等同的本发明的应用中,音频对象渲染器70通过在渲染器70中采用与音频回放系统的特定配置匹配的对象渲染方法直接以目标空间格式渲染音频对象贡献是特别有利的,这样可以以最佳的保真度和空间精确度再现音频对象贡献。这种情况下,由于已经以目标空间音频格式提供了对象渲染,因此在组合降混信号与对象渲染信号76之前对残余降混信号68应用格式转换78。
如果音轨中的所有可听事件都以对象音频信号14a-14c的形式提供给解码器,并伴随有渲染线索18d,与常规的基于对象的场景编码一样,则对于以目标空间音频格式渲染音轨来说,不必提供降混信号34以及音频对象移除66。在音轨数据流中包括编码的降混信号34的特别优势在于,其能够使用丢弃或者忽略音轨数据流中提供的对象信号和线索的传统的音轨解码器实现反相兼容再现。
另外,在解码器中并入音轨对象移除功能的特别优势在于,音频对象移除步骤66使得再现构成音轨的所有可听事件,同时仅传输、移除和渲染可听事件的所选子集作为音频对象成为可能,从而大大降低了传输数据率和解码器复杂度要求。在本发明的替选实施例中(图4中未示出),传输给音频对象渲染器70的对象音频信号之一(26a)在一段时间内等于降混信号60的音频声道信号。这种情况下,在同一段时间内,对于该对象的音频对象移除操作66仅包括静音降混信号60中的音频声道信号,并且不必接收和解码对象音频信号14a。这进一步降低了传输数据率和解码器复杂度。
在优选实施例中,当传输数据率或者音轨回放设备计算能力受限时,在解码器侧(图4)解码和渲染的一组对象音频信号14a-14c是在编码器侧(图1)编码的一组对象音频信号14a-14b的不完整子集。可在多路复用器42(从而降低传输数据率)和/或多路分解器56(从而降低解码器计算需求)中舍弃一个或多个对象。可选地,可以由优先排序方案自动确定对用于传输和/或渲染的对象的选择,每个对象被指派包括在线索数据流38/38d中的优先权线索。
音频对象移除
现在参考图4和5,示出了根据本发明的实施例的音频对象移除处理模块。音频对象移除处理模块66对所选的待渲染的一组对象执行在编码器中提供的音频对象并入模块的反向操作。该模块接收对象音频信号26a-26c以及相关的对象混合线索16d,并将它们传输给音频对象渲染器44d。对于所选的待渲染的一组对象,音频对象渲染器44d重复(之前结合附图3描述的)在编码器侧提供的音频对象渲染器44中执行的信号处理操作。音频对象渲染器44d将所选的音频对象组合到以降混格式提供的音频对象降混信号46d中,并且从降混信号60中减去该音频对象降混信号46d以产生残余降混信号68。可选地,音频对象移除还输出由音频对象渲染器44d提供的混响输出信号52d。
音频对象移除无需为精确的减法。音频对象移除66的目的在于在收听残余降混信号68时使得所选的一组对象基本上或者感觉上不明显。因此,降混信号60无需以无损耗数字音频格式进行编码。如果使用有损耗数字音频格式对其进行编码和解码,从解码的降混信号60对音频对象降混信号46d的算术减法不会从残余降混信号68中刚好消除音频对象贡献。然而,在收听音轨渲染信号84时这一误差基本上不明显,因为其基本上被掩饰为随后将对象渲染信号76组合到音轨渲染信号84中的结果。
因此,根据本发明对解码器的实现不排除使用有损耗音频解码器技术对降混信号34的解码。有利的是,通过在降混音频编码器32中采用有损耗数字音频编解码器技术以对降混信号30进行编码(图1),大大降低了用于传输音轨数据必需的数据率。进一步有利的是,即使降混信号34是以无损耗格式传输的(例如,对以高清晰度或者无损耗DTS-HD格式传输的降混信号数据流的DTS Core解码),通过对该信号执行有损耗解码,降低了降混音频解码器58的复杂度。
音频对象渲染
图6描述了音频对象渲染器模块70的优选实施例。音频对象渲染器模块70接收对象音频信号26a-26c以及对象渲染线索18d,并导出对象渲染信号76。音频对象渲染器70根据现有技术中已知的原理操作(回顾之前结合图3描述的音频对象渲染器44),从而将每个对象音频信号26a-26c混合到音频对象渲染信号76中。每个对象音频信号(26a,26c)由空间摆动模块(90a,90c)处理,空间摆动模块(90a,90c)为音频对象指派方向定位,如收听对象渲染信号76时感觉到的。通过添加性组合摆动模块90a-90c的输出信号形成对象渲染信号76。每个对象音频信号(26a,26c)在对象渲染信号76中的直接贡献由直接发送系数(d1,dm)放大。另外,对象渲染信号76包括混响摆动模块92的输出信号,混响摆动模块92接收由包括在音频对象移除模块66中的音频对象渲染器44d提供的混响输出信号52d。
在本发明的一个实施例中,由(图5所示的音频对象移除模块66中的)音频对象渲染器44d产生的音频对象降混信号46d不包括由(图2所示的音频对象并入模块24中的)音频对象渲染器44产生的音频对象降混信号46中所包括的间接音频对象贡献。这种情况下,该间接音频对象贡献保留在残余降混信号68中,并且不提供混响输出信号52d。本发明的音轨解码器对象的这个实施例提供了对直接对象贡献的改进的位置音频渲染,而不要求在音频对象渲染器44d中进行混响处理。
根据渲染线索18d所提供的指令执行音频对象渲染器模块70中的信号处理操作。根据目标空间音频格式定义74配置摆动模块(90a-90c,92)。在本发明的优选实施例中,以独立于格式的音频场景描述的形式提供渲染线索18d,并且音频对象渲染器模块70(包括摆动模块(90a-90c,92)和发送系数(d1,dm))中的所有信号处理操作被配置为,使得对象渲染信号76再现相同感觉的空间音频场景,而不考虑选定的目标空间音频格式。在本发明的优选实施例中,该音频场景与由对象降混信号46d再现的音频场景相同。在这些实施例中,渲染线索18d可用于导出或者代替提供给音频对象渲染器44d的混合线索16d;类似地,渲染线索18可用于导出或者代替提供给音频对象渲染器44的混合线索16;因此,无需提供对象混合线索(16,16d)。
在本发明的优选实施例中,独立于格式的对象渲染线索(18,18d)包括每个音频对象的感知空间位置,该感知空间位置以绝对或者相对于听众在音频场景中的虚拟位置和取向的笛卡儿坐标或者极坐标表示。独立于格式的渲染线索的替选实施例以诸如OpenAL或MPEG-4高级音频BIFS的各种音频场景描述标准提供。特别地,这些场景描述标准包括足以唯一地确定发送系数的值(图3和图5中的d1-dn和rl-rn)以及人工混响器50和混响摆动模块(54,92)的处理参数的混响和距离线索。
本发明的数字音频音轨编码器和解码器对象可以有利地应用在对最初以不同于降混格式的多声道音频源格式提供的音频记录的反相兼容和前向兼容编码中。源格式例如可以为高分辨率离散多声道音频格式,诸如NHK22.2格式,其中每个声道信号都意欲作为扬声器馈送信号。这可以通过将原始记录中的每个声道信号提供给音轨编码器(图1)作为分离的对象音频信号,并伴随有指示相应的扬声器在源格式中的适当位置的对象渲染线索来实现。如果多声道音频源格式是降混格式的扩展集(包括附加音频声道),则每个源格式的附加音频声道都可以被编码以作为根据本发明的附加音频对象。
根据本发明的编码和解码方法的另一优势在于,其允许对再现音频场景进行基于可选对象的修改。这是通过根据如图6所示的用户交互线索72控制在音频对象渲染器70中执行的信号处理来实现的,用户交互线索72可以修改或者覆盖(override)某些对象渲染线索18d。这种用户交互的示例包括音乐的再混合,虚拟源重定位和音频场景中的虚拟导航。在本发明的一个实施例中,线索数据流38包括唯一地指派给每个对象的对象属性,包括识别与对象相关的声源的属性(例如,人名或者乐器名)、指示声源的性质(例如,“对话”或者“音效”)、或者将一组音频对象定义为群组(可以作为整体来操控的复合对象)。在线索流中并入这些对象属性可实现附加应用,诸如,对话可理解性增强(向音频对象渲染器70中的对话对象音频信号施加特定处理)。
在本发明的另一实施例中(图4中未示出),从降混信号68中移除所选对象,并且用被单独接收并提供给音频对象渲染器70的不同音频信号代替相应的对象音频信号(26a)。该实施例在诸如使用多种语言的电影音轨再现或者卡拉OK以及其他形式的音乐重新诠释的应用中是有利的。此外,未包括在音轨数据流40中的附加音频对象可以以与对象渲染线索相关的附加音频对象信号的形式单独地提供给音频对象渲染器70。本发明的该实施例例如在交互式游戏应用中是有利的。在这样的实施例中,音频对象渲染器70中并入如之前在对音频对象渲染器44的描述中所述的一个或者多个空间混响模块是有利的。
降混格式转换
如之前结合图4所述,通过将对象渲染信号76与由格式转换78从残余降混信号68获得的转换的残余降混信号80进行组合获得音轨渲染信号84。空间音频格式转换78根据目标空间音频格式定义74进行配置,并且由适合以目标空间音频格式再现由残余降混信号68表示的音频场景的技术来实施。本领域已知的格式转换技术包括多声道上混、降混、重新映射或者虚拟化。
在本发明的一个实施例中,如图7所示,目标空间音频格式为在扬声器或者耳机上的双声道回放,并且降混格式为5.1环绕立体声格式。通过虚拟音频处理装置执行格式转换,如美国专利中请No.2010/0303246所述,这里通过引用并入其内容。图7中所示的结构进一步包括虚拟音频扬声器的使用,其创建音频从虚拟扬声器发出的错觉。如本领域中已知的,这些错觉可以通过考虑到对扬声器至耳朵的声学传递函数(或称为头部相关传递函数(HRTF))的测量或近似,对音频输入信号进行转换来实现。这些错觉可以被根据本发明的格式转换采用。
可选地,在目标空间音频格式为在扬声器或者耳机上的双声道回放的图7所示的实施例中,格式转换器可由图8所示的频域信号处理来实现。如Jot等人所著的“Binaural3-D audio rendering based on spatial audio scene coding”(发表于2007年10月5-8日第123届AES会议,这里通过引用的方式将其内容并入)中所述,根据SASC框架的虚拟音频处理允许格式转换器执行环绕到3D的格式转换,其中转换的残余降混信号80在通过耳机或扬声器收听时产生空间音频场景的三维扩展:在残余降混信号68中内部摆动的可听事件再现为目标空间音频格式的被提升的可听事件。
更一般地,在目标空间音频格式包括多于两个音频声道的格式转换器78的实施例中,可应用频域格式转换处理,如Jot等人所著的“Multichannel surroundformat conversion and generalized upmix”(发表于2007年3月15日-17日AES第30届国际会议)中所述,这里通过引用的方式并入其内容。图8描述了在时域中提供的残余降混信号68通过短时傅立叶变换块转换为频域表示的优选实施例。然后该STFT域信号被提供给频域格式转换决,该频域格式转换块基于空间分析和合成实现格式转换,提供STFT域多声道输出信号,并通过短时傅立叶逆变换以及重叠相加过程生成转换的残余降混信号80。降混格式定义和目标空间音频格式定义74被提供给频域格式转换决以用于该块内部的无源上混、空间分析以及空间合成过程,如图8中所示。尽管所述格式转换被示为完全在频域内操作,但本领域技术人员应当认识到,在某些实施例中,某些组件(尤其是无源上混)可以可替换地在时域中实现。本发明覆盖了这些变化而没有限制。
这里所示的细节是作为示例的并且仅仅是为了本发明的实施例的说明性讨论的目的,并且是为了提供哪些被认为是最有用的并且最容易理解对本发明的原理和概念性方面的描述而呈现。关于这一点,未尝试以比基本理解本发明所需的细节更详细地示出本发明的细节,但结合描述连同附图,实践中本发明的若干形式如何实施对于本领域技术人员来说是显而易见的。
Claims (23)
1.一种对音频音轨进行编码的方法,包括如下步骤:
接收表示物理声音的基混信号;
接收至少一个对象音频信号,每个对象音频信号具有所述音频音轨的至少一个音频对象分量;
接收至少一个对象混合线索流,所述对象混合线索流定义所述对象音频信号的混合参数;
接收至少一个对象渲染线索流,所述对象渲染线索流定义所述对象音频信号的渲染参数;
利用所述对象音频信号和对象混合线索流来组合所述音频对象分量与所述基混信号,从而获得降混信号;并且
多路复用所述降混信号、所述对象音频信号、所述渲染线索流以及所述对象线索流以形成音轨数据流。
2.根据权利要求1所述的方法,其中所述对象音频信号在所述利用步骤之前通过第一音频编码处理器进行编码。
3.根据权利要求2所述的方法,其中所述对象音频信号通过第一音频解码处理器进行解码。
4.根据权利要求1所述的方法,其中所述降混信号在被多路复用之前通过第二音频编码处理器进行编码。
5.根据权利要求4所述的方法,其中所述第二音频编码处理器为有损耗数字编码处理器。
6.一种对表示物理声音的音频音轨进行解码的方法,包括如下步骤:
接收音轨数据流,所述音轨数据流具有:
表示音频场景的降混信号;
至少一个对象音频信号,所述对象音频信号具有所述音频音轨的至少一个音频对象分量;
至少一个对象混合线索流,所述对象混合线索流定义所述对象音频信号的混合参数;以及
至少一个对象渲染线索流,所述对象渲染线索流定义所述对象音频
信号的渲染参数;
利用所述对象音频信号和所述对象混合线索流从所述降混信号中部分地移除至少一个音频对象分量,从而获得残余降混信号;
对残余降混信号应用空间格式转换,从而输出具有定义空间音频格式的空间参数的转换后残余降混信号;
利用所述对象音频信号和所述对象渲染线索流来导出至少一个对象渲染信号;以及
组合所述转换后残余降混信号与所述对象渲染信号以获得音轨渲染信号。
7.根据权利要求6所述的方法,其中从所述降混信号中减去所述音频对象分量。
8.根据权利要求6所述的方法,其中从所述降混信号中部分地移除所述音频对象分量,使得所述音频对象分量在所述降混信号中不明显。
9.根据权利要求6所述的方法,其中所述降混信号为编码的音频信号。
10.根据权利要求9所述的方法,其中所述降混信号通过音频解码器进行解码。
11.根据权利要求6所述的方法,其中所述对象音频信号为单声道音频信号。
12.根据权利要求6所述的方法,其中所述对象音频信号为具有至少两个声道的多声道音频信号。
13.根据权利要求6所述的方法,其中所述对象音频信号为离散扬声器馈送音频声道。
14.根据权利要求6所述的方法,其中所述音频对象分量为语音、乐器或者所述音频场景的音效。
15.根据权利要求6所述的方法,其中所述空间音频格式表示收听环境。
16.一种音频编码处理器,包括:
接收机处理器,用于接收:
表示物理声音的基混信号;
至少一个对象音频信号,每个对象音频信号具有所述音频音轨的至少一个音频对象分量;
至少一个对象混合线索流,所述对象混合线索流定义所述对象音频信号的混合参数;以及
至少一个对象渲染线索流,所述对象渲染线索流定义所述对象音频信号的渲染参数;
组合处理器,用于基于所述对象音频信号和所述对象混合线索流组合所述音频对象分量与所述基混信号,所述组合处理器输出降混信号;以及
多路复用器处理器,用于多路复用所述降混信号、所述对象音频信号、所述渲染线索流以及所述对象线索流以形成音轨数据流。
17.根据权利要求16所述的音频编码处理器,其中所述对象音频信号在所述利用步骤之前通过第一音频编码处理器进行编码。
18.根据权利要求17所述的音频编码处理器,其中所述对象音频信号通过第一音频解码处理器进行解码。
19.根据权利要求16所述的音频编码处理器,其中所述降混信号在被多路复用之前通过第二音频编码处理器进行编码。
20.音频解码处理器,包括:
接收处理器,用于接收:
表示音频场景的降混信号;
至少一个对象音频信号,所述对象音频信号具有所述音频场景的至少一个音频对象分量;
至少一个对象混合线索流,所述对象混合线索流定义所述对象音频信号的混合参数;以及
至少一个对象渲染线索流,所述对象渲染线索流定义所述对象音频信号的渲染参数;
对象音频处理器,用于基于所述对象音频信号和所述对象混合线索流从所述降混信号中部分地移除至少一个音频对象分量,并且输出残余降混信号;
空间格式转换器,用于对残余降混信号应用空间格式转换,从而输出具有定义空间音频格式的空间参数的转换后残余降混信号;
渲染处理器,用于处理所述对象音频信号和所述对象渲染线索流以导出至少一个对象渲染信号;以及
组合处理器,用于组合所述转换后残余降混信号与所述对象渲染信号以获得音轨渲染信号。
21.根据权利要求20所述的音频解码处理器,其中从所述降混信号中减去所述音频对象分量。
22.根据权利要求20所述的音频解码处理器,其中从所述降混信号中部分地移除所述音频对象分量,使得所述音频对象分量在所述降混信号中不明显。
23.一种对表示物理声音的音频音轨进行解码的方法,包括如下步骤:
接收音轨数据流,所述音轨数据流具有:
表示音频场景的降混信号;
至少一个对象音频信号,所述对象音频信号具有所述音频音轨的至少一个音频对象分量;以及
至少一个对象渲染线索流,所述对象渲染线索流定义所述对象音频信号的渲染参数;
利用所述对象音频信号和所述对象渲染线索流从所述降混信号中部分地移除至少一个音频对象分量,从而获得残余降混信号;
对残余降混信号应用空间格式转换,从而输出具有定义空间音频格式的空间参数的转换后残余降混信号;
利用所述对象音频信号和所述对象渲染线索流来导出至少一个对象渲染信号;以及
组合所述转换后残余降混信号与所述对象渲染信号以获得音轨渲染信号。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161453461P | 2011-03-16 | 2011-03-16 | |
US61/453,461 | 2011-03-16 | ||
US201213421661A | 2012-03-15 | 2012-03-15 | |
PCT/US2012/029277 WO2012125855A1 (en) | 2011-03-16 | 2012-03-15 | Encoding and reproduction of three dimensional audio soundtracks |
US13/421,661 | 2012-03-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103649706A true CN103649706A (zh) | 2014-03-19 |
CN103649706B CN103649706B (zh) | 2015-11-25 |
Family
ID=46831101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280021295.XA Active CN103649706B (zh) | 2011-03-16 | 2012-03-15 | 三维音频音轨的编码及再现 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9530421B2 (zh) |
EP (1) | EP2686654A4 (zh) |
JP (1) | JP6088444B2 (zh) |
KR (2) | KR102374897B1 (zh) |
CN (1) | CN103649706B (zh) |
HK (1) | HK1195612A1 (zh) |
TW (1) | TWI573131B (zh) |
WO (1) | WO2012125855A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106104681A (zh) * | 2014-03-21 | 2016-11-09 | 杜比国际公司 | 用于压缩高阶高保真立体声(hoa)信号的方法、用于解压缩压缩的hoa信号的方法、用于压缩hoa信号的装置以及用于解压缩压缩的hoa信号的装置 |
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
CN106463126A (zh) * | 2014-03-20 | 2017-02-22 | Dts(英属维尔京群岛)有限公司 | 基于对象的音频系统中的残差编码 |
CN106463123A (zh) * | 2014-03-21 | 2017-02-22 | 杜比国际公司 | 用于压缩高阶高保真立体声(hoa)信号的方法、用于解压缩压缩的hoa信号的方法、用于压缩hoa信号的装置以及用于解压缩压缩的hoa信号的装置 |
CN106664503A (zh) * | 2015-06-17 | 2017-05-10 | 索尼公司 | 发送装置、发送方法、接收装置及接收方法 |
CN110099351A (zh) * | 2019-04-01 | 2019-08-06 | 中车青岛四方机车车辆股份有限公司 | 一种声场回放方法、装置和系统 |
CN111556426A (zh) * | 2015-02-06 | 2020-08-18 | 杜比实验室特许公司 | 用于自适应音频的混合型基于优先度的渲染系统和方法 |
WO2021203753A1 (zh) * | 2020-04-10 | 2021-10-14 | 全景声科技南京有限公司 | 音频信号的增量编码方法及装置 |
CN113596704A (zh) * | 2020-04-30 | 2021-11-02 | 上海风语筑文化科技股份有限公司 | 一种实时空间指向性立体声解码方法 |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9584912B2 (en) * | 2012-01-19 | 2017-02-28 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
CN104428835B (zh) * | 2012-07-09 | 2017-10-31 | 皇家飞利浦有限公司 | 音频信号的编码和解码 |
EP2875511B1 (en) | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
US9489954B2 (en) * | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
KR20140047509A (ko) * | 2012-10-12 | 2014-04-22 | 한국전자통신연구원 | 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치 |
TR201808415T4 (tr) | 2013-01-15 | 2018-07-23 | Koninklijke Philips Nv | Binoral ses işleme. |
EP2757559A1 (en) * | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
CN104019885A (zh) | 2013-02-28 | 2014-09-03 | 杜比实验室特许公司 | 声场分析系统 |
US9344826B2 (en) | 2013-03-04 | 2016-05-17 | Nokia Technologies Oy | Method and apparatus for communicating with audio signals having corresponding spatial characteristics |
EP2974253B1 (en) | 2013-03-15 | 2019-05-08 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
US9900720B2 (en) | 2013-03-28 | 2018-02-20 | Dolby Laboratories Licensing Corporation | Using single bitstream to produce tailored audio device mixes |
TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
WO2014171791A1 (ko) | 2013-04-19 | 2014-10-23 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
KR102150955B1 (ko) | 2013-04-19 | 2020-09-02 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
CN105393304B (zh) | 2013-05-24 | 2019-05-28 | 杜比国际公司 | 音频编码和解码方法、介质以及音频编码器和解码器 |
WO2014187986A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
CN105229731B (zh) | 2013-05-24 | 2017-03-15 | 杜比国际公司 | 根据下混的音频场景的重构 |
CN104240711B (zh) | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
EP2830326A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio prcessor for object-dependent processing |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
EP3028476B1 (en) | 2013-07-30 | 2019-03-13 | Dolby International AB | Panning of audio objects to arbitrary speaker layouts |
ES2641538T3 (es) | 2013-09-12 | 2017-11-10 | Dolby International Ab | Codificación de contenido de audio multicanal |
JP6288100B2 (ja) | 2013-10-17 | 2018-03-07 | 株式会社ソシオネクスト | オーディオエンコード装置及びオーディオデコード装置 |
EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
CN117376809A (zh) | 2013-10-31 | 2024-01-09 | 杜比实验室特许公司 | 使用元数据处理的耳机的双耳呈现 |
PL3444815T3 (pl) * | 2013-11-27 | 2020-11-30 | Dts, Inc. | Matrycowe miksowanie oparte na multiplecie dla wielokanałowego audio o dużej liczbie kanałów |
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
JP6299202B2 (ja) * | 2013-12-16 | 2018-03-28 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置 |
CN104882145B (zh) | 2014-02-28 | 2019-10-29 | 杜比实验室特许公司 | 使用音频对象的时间变化的音频对象聚类 |
CN109410961B (zh) | 2014-03-21 | 2023-08-25 | 杜比国际公司 | 用于对压缩的hoa信号进行解码的方法、装置和存储介质 |
JP6863359B2 (ja) * | 2014-03-24 | 2021-04-21 | ソニーグループ株式会社 | 復号装置および方法、並びにプログラム |
US10674299B2 (en) | 2014-04-11 | 2020-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
EP3219115A1 (en) * | 2014-11-11 | 2017-09-20 | Google, Inc. | 3d immersive spatial audio systems and methods |
JP6564068B2 (ja) | 2015-02-02 | 2019-08-21 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 符号化されたオーディオ信号を処理するための装置および方法 |
CN106162500B (zh) | 2015-04-08 | 2020-06-16 | 杜比实验室特许公司 | 音频内容的呈现 |
US9591427B1 (en) * | 2016-02-20 | 2017-03-07 | Philip Scott Lyren | Capturing audio impulse responses of a person with a smartphone |
US10325610B2 (en) | 2016-03-30 | 2019-06-18 | Microsoft Technology Licensing, Llc | Adaptive audio rendering |
US10031718B2 (en) | 2016-06-14 | 2018-07-24 | Microsoft Technology Licensing, Llc | Location based audio filtering |
US9980077B2 (en) | 2016-08-11 | 2018-05-22 | Lg Electronics Inc. | Method of interpolating HRTF and audio output apparatus using same |
US10659904B2 (en) | 2016-09-23 | 2020-05-19 | Gaudio Lab, Inc. | Method and device for processing binaural audio signal |
WO2018056780A1 (ko) * | 2016-09-23 | 2018-03-29 | 지오디오랩 인코포레이티드 | 바이노럴 오디오 신호 처리 방법 및 장치 |
US9980078B2 (en) * | 2016-10-14 | 2018-05-22 | Nokia Technologies Oy | Audio object modification in free-viewpoint rendering |
US11096004B2 (en) | 2017-01-23 | 2021-08-17 | Nokia Technologies Oy | Spatial audio rendering point extension |
US10123150B2 (en) | 2017-01-31 | 2018-11-06 | Microsoft Technology Licensing, Llc | Game streaming with spatial audio |
US10531219B2 (en) | 2017-03-20 | 2020-01-07 | Nokia Technologies Oy | Smooth rendering of overlapping audio-object interactions |
US11074036B2 (en) | 2017-05-05 | 2021-07-27 | Nokia Technologies Oy | Metadata-free audio-object interactions |
US11595774B2 (en) * | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
US10165386B2 (en) | 2017-05-16 | 2018-12-25 | Nokia Technologies Oy | VR audio superzoom |
US11395087B2 (en) | 2017-09-29 | 2022-07-19 | Nokia Technologies Oy | Level-based audio-object interactions |
WO2019079523A1 (en) | 2017-10-17 | 2019-04-25 | Magic Leap, Inc. | SPACE AUDIO WITH MIXED REALITY |
US10504529B2 (en) | 2017-11-09 | 2019-12-10 | Cisco Technology, Inc. | Binaural audio encoding/decoding and rendering for a headset |
ES2930374T3 (es) | 2017-11-17 | 2022-12-09 | Fraunhofer Ges Forschung | Aparato y método para codificar o decodificar parámetros de codificación de audio direccional utilizando diferentes resoluciones de tiempo/frecuencia |
EP3503558B1 (en) * | 2017-12-19 | 2021-06-02 | Spotify AB | Audio content format selection |
EP3740950B8 (en) * | 2018-01-18 | 2022-05-18 | Dolby Laboratories Licensing Corporation | Methods and devices for coding soundfield representation signals |
CN111713091A (zh) | 2018-02-15 | 2020-09-25 | 奇跃公司 | 混合现实虚拟混响 |
US10542368B2 (en) | 2018-03-27 | 2020-01-21 | Nokia Technologies Oy | Audio content modification for playback audio |
GB2572420A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
EP3804132A1 (en) | 2018-05-30 | 2021-04-14 | Magic Leap, Inc. | Index scheming for filter parameters |
WO2020037282A1 (en) | 2018-08-17 | 2020-02-20 | Dts, Inc. | Spatial audio signal encoder |
WO2020037280A1 (en) | 2018-08-17 | 2020-02-20 | Dts, Inc. | Spatial audio signal decoder |
BR112020017360A2 (pt) | 2018-10-08 | 2021-03-02 | Dolby Laboratories Licensing Corporation | transformação de sinais de áudio capturados em diferentes formatos em um número reduzido de formatos para simplificar as operações de codificação e decodificação |
US10966046B2 (en) * | 2018-12-07 | 2021-03-30 | Creative Technology Ltd | Spatial repositioning of multiple audio streams |
US11418903B2 (en) | 2018-12-07 | 2022-08-16 | Creative Technology Ltd | Spatial repositioning of multiple audio streams |
CN113366865B (zh) | 2019-02-13 | 2023-03-21 | 杜比实验室特许公司 | 用于音频对象聚类的自适应响度规范化 |
WO2020176893A1 (en) * | 2019-02-28 | 2020-09-03 | Sonos, Inc. | Playback transitions between audio devices |
WO2020247033A1 (en) * | 2019-06-06 | 2020-12-10 | Dts, Inc. | Hybrid spatial audio decoder |
JP7279549B2 (ja) * | 2019-07-08 | 2023-05-23 | 株式会社ソシオネクスト | 放送受信装置 |
KR102656969B1 (ko) | 2019-07-08 | 2024-04-11 | 디티에스, 인코포레이티드 | 불일치 오디오 비주얼 캡쳐 시스템 |
US11430451B2 (en) * | 2019-09-26 | 2022-08-30 | Apple Inc. | Layered coding of audio with discrete objects |
US11304017B2 (en) | 2019-10-25 | 2022-04-12 | Magic Leap, Inc. | Reverberation fingerprint estimation |
CN115398936A (zh) * | 2020-02-14 | 2022-11-25 | 奇跃公司 | 多应用音频渲染 |
CN111199743B (zh) * | 2020-02-28 | 2023-08-18 | Oppo广东移动通信有限公司 | 音频编码格式确定方法、装置、存储介质及电子设备 |
GB2613628A (en) * | 2021-12-10 | 2023-06-14 | Nokia Technologies Oy | Spatial audio object positional distribution within spatial audio communication systems |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1684371A (zh) * | 2004-02-27 | 2005-10-19 | 三星电子株式会社 | 无损音频解码/编码方法和装置 |
CN101411214A (zh) * | 2006-03-28 | 2009-04-15 | 艾利森电话股份有限公司 | 用于多信道环绕声音的解码器的方法和装置 |
US20100014692A1 (en) * | 2008-07-17 | 2010-01-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
CN101636917A (zh) * | 2007-03-16 | 2010-01-27 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
US20100142731A1 (en) * | 2008-12-05 | 2010-06-10 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
CN101911180A (zh) * | 2007-10-22 | 2010-12-08 | 韩国电子通信研究院 | 多对象音频编码和解码方法以及其设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
RU2407226C2 (ru) * | 2006-03-24 | 2010-12-20 | Долби Свидн Аб | Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов |
TWI443647B (zh) | 2007-02-14 | 2014-07-01 | Lg Electronics Inc | 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
EP2111060B1 (en) * | 2008-04-16 | 2014-12-03 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
KR101283783B1 (ko) * | 2009-06-23 | 2013-07-08 | 한국전자통신연구원 | 고품질 다채널 오디오 부호화 및 복호화 장치 |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
-
2012
- 2012-03-15 WO PCT/US2012/029277 patent/WO2012125855A1/en active Application Filing
- 2012-03-15 US US14/026,984 patent/US9530421B2/en active Active
- 2012-03-15 CN CN201280021295.XA patent/CN103649706B/zh active Active
- 2012-03-15 TW TW101108869A patent/TWI573131B/zh active
- 2012-03-15 EP EP12757223.8A patent/EP2686654A4/en not_active Withdrawn
- 2012-03-15 JP JP2013558183A patent/JP6088444B2/ja active Active
- 2012-03-15 KR KR1020207001900A patent/KR102374897B1/ko active IP Right Grant
- 2012-03-15 KR KR1020137027239A patent/KR20140027954A/ko active Search and Examination
-
2014
- 2014-09-02 HK HK14108899.9A patent/HK1195612A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1684371A (zh) * | 2004-02-27 | 2005-10-19 | 三星电子株式会社 | 无损音频解码/编码方法和装置 |
CN101411214A (zh) * | 2006-03-28 | 2009-04-15 | 艾利森电话股份有限公司 | 用于多信道环绕声音的解码器的方法和装置 |
CN101636917A (zh) * | 2007-03-16 | 2010-01-27 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN101911180A (zh) * | 2007-10-22 | 2010-12-08 | 韩国电子通信研究院 | 多对象音频编码和解码方法以及其设备 |
US20100014692A1 (en) * | 2008-07-17 | 2010-01-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US20100142731A1 (en) * | 2008-12-05 | 2010-06-10 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106463126A (zh) * | 2014-03-20 | 2017-02-22 | Dts(英属维尔京群岛)有限公司 | 基于对象的音频系统中的残差编码 |
CN106463126B (zh) * | 2014-03-20 | 2020-04-14 | Dts(英属维尔京群岛)有限公司 | 基于对象的音频系统中的残差编码 |
US10679634B2 (en) | 2014-03-21 | 2020-06-09 | Dolby Laboratories Licensing Corporation | Methods and apparatus for decoding a compressed HOA signal |
US11395084B2 (en) | 2014-03-21 | 2022-07-19 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for decompressing a higher order ambisonics (HOA) signal |
US11830504B2 (en) | 2014-03-21 | 2023-11-28 | Dolby Laboratories Licensing Corporation | Methods and apparatus for decoding a compressed HOA signal |
US11722830B2 (en) | 2014-03-21 | 2023-08-08 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for decompressing a Higher Order Ambisonics (HOA) signal |
US10779104B2 (en) | 2014-03-21 | 2020-09-15 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for decompressing a higher order ambisonics (HOA) signal |
US11462222B2 (en) | 2014-03-21 | 2022-10-04 | Dolby Laboratories Licensing Corporation | Methods and apparatus for decoding a compressed HOA signal |
US10542364B2 (en) | 2014-03-21 | 2020-01-21 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for decompressing a higher order ambisonics (HOA) signal |
CN106463123A (zh) * | 2014-03-21 | 2017-02-22 | 杜比国际公司 | 用于压缩高阶高保真立体声(hoa)信号的方法、用于解压缩压缩的hoa信号的方法、用于压缩hoa信号的装置以及用于解压缩压缩的hoa信号的装置 |
CN111179949B (zh) * | 2014-03-21 | 2022-03-25 | 杜比国际公司 | 对压缩的高阶高保真立体声(hoa)表示进行解码的方法和装置以及介质 |
CN111179950A (zh) * | 2014-03-21 | 2020-05-19 | 杜比国际公司 | 对压缩的高阶高保真立体声(hoa)表示进行解码的方法和装置以及介质 |
CN106104681A (zh) * | 2014-03-21 | 2016-11-09 | 杜比国际公司 | 用于压缩高阶高保真立体声(hoa)信号的方法、用于解压缩压缩的hoa信号的方法、用于压缩hoa信号的装置以及用于解压缩压缩的hoa信号的装置 |
CN111179950B (zh) * | 2014-03-21 | 2022-02-15 | 杜比国际公司 | 对压缩的高阶高保真立体声(hoa)表示进行解码的方法和装置以及介质 |
CN106104681B (zh) * | 2014-03-21 | 2020-02-11 | 杜比国际公司 | 对压缩的高阶高保真立体声(hoa)表示进行解码的方法及装置 |
US10334382B2 (en) | 2014-03-21 | 2019-06-25 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for decompressing a higher order ambisonics (HOA) signal |
CN111489758A (zh) * | 2014-03-24 | 2020-08-04 | 索尼公司 | 解码装置、解码方法及存储介质 |
CN106133828A (zh) * | 2014-03-24 | 2016-11-16 | 索尼公司 | 编码装置和编码方法、解码装置和解码方法及程序 |
CN111489758B (zh) * | 2014-03-24 | 2023-12-01 | 索尼公司 | 解码装置、解码方法及存储介质 |
US11765535B2 (en) | 2015-02-06 | 2023-09-19 | Dolby Laboratories Licensing Corporation | Methods and systems for rendering audio based on priority |
CN111556426A (zh) * | 2015-02-06 | 2020-08-18 | 杜比实验室特许公司 | 用于自适应音频的混合型基于优先度的渲染系统和方法 |
CN106664503A (zh) * | 2015-06-17 | 2017-05-10 | 索尼公司 | 发送装置、发送方法、接收装置及接收方法 |
CN106664503B (zh) * | 2015-06-17 | 2018-10-12 | 索尼公司 | 发送装置、发送方法、接收装置及接收方法 |
CN110099351B (zh) * | 2019-04-01 | 2020-11-03 | 中车青岛四方机车车辆股份有限公司 | 一种声场回放方法、装置和系统 |
CN110099351A (zh) * | 2019-04-01 | 2019-08-06 | 中车青岛四方机车车辆股份有限公司 | 一种声场回放方法、装置和系统 |
WO2021203753A1 (zh) * | 2020-04-10 | 2021-10-14 | 全景声科技南京有限公司 | 音频信号的增量编码方法及装置 |
CN113596704A (zh) * | 2020-04-30 | 2021-11-02 | 上海风语筑文化科技股份有限公司 | 一种实时空间指向性立体声解码方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102374897B1 (ko) | 2022-03-17 |
WO2012125855A1 (en) | 2012-09-20 |
TWI573131B (zh) | 2017-03-01 |
JP2014525048A (ja) | 2014-09-25 |
HK1195612A1 (zh) | 2014-11-14 |
EP2686654A1 (en) | 2014-01-22 |
JP6088444B2 (ja) | 2017-03-01 |
EP2686654A4 (en) | 2015-03-11 |
US20140350944A1 (en) | 2014-11-27 |
US9530421B2 (en) | 2016-12-27 |
CN103649706B (zh) | 2015-11-25 |
KR20140027954A (ko) | 2014-03-07 |
KR20200014428A (ko) | 2020-02-10 |
TW201303851A (zh) | 2013-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103649706B (zh) | 三维音频音轨的编码及再现 | |
TWI744341B (zh) | 使用近場/遠場渲染之距離聲相偏移 | |
CN102100088B (zh) | 用于使用基于对象的元数据产生音频输出信号的装置和方法 | |
CN105981411B (zh) | 用于高声道计数的多声道音频的基于多元组的矩阵混合 | |
EP1416769A1 (en) | Object-based three-dimensional audio system and method of controlling the same | |
US20170098452A1 (en) | Method and system for audio processing of dialog, music, effect and height objects | |
KR20140028094A (ko) | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 | |
CN104428835A (zh) | 音频信号的编码和解码 | |
US11924627B2 (en) | Ambience audio representation and associated rendering | |
Jot et al. | Beyond surround sound-creation, coding and reproduction of 3-D audio soundtracks | |
US20070297624A1 (en) | Digital audio encoding | |
CN106463126B (zh) | 基于对象的音频系统中的残差编码 | |
WO2021190039A1 (zh) | 可拆解和再编辑音频信号的处理方法及装置 | |
AU2013200578B2 (en) | Apparatus and method for generating audio output signals using object based metadata | |
KR20100125118A (ko) | 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1195612 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1195612 Country of ref document: HK |