CN102883257A - 用于编码多对象音频信号的设备和方法 - Google Patents
用于编码多对象音频信号的设备和方法 Download PDFInfo
- Publication number
- CN102883257A CN102883257A CN2012103813762A CN201210381376A CN102883257A CN 102883257 A CN102883257 A CN 102883257A CN 2012103813762 A CN2012103813762 A CN 2012103813762A CN 201210381376 A CN201210381376 A CN 201210381376A CN 102883257 A CN102883257 A CN 102883257A
- Authority
- CN
- China
- Prior art keywords
- information
- signal
- audio
- bit stream
- playing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 title description 18
- 238000009877 rendering Methods 0.000 abstract description 23
- 108091006146 Channels Proteins 0.000 description 66
- 239000011159 matrix material Substances 0.000 description 62
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Theoretical Computer Science (AREA)
- Stereo-Broadcasting Methods (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Transmitters (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
本发明提供了一种用于编码和解码具有各种声道的多对象音频信号的设备和方法,所述设备和方法提供了与传统的空间音频编码(SAC)比特流的后向兼容性。所述设备包括:音频对象编码单元,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息提供了包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息的编码设备,并且所述编码设备使用在音频信号的编码和解码中。
Description
本申请是申请日为2007年12月27日、申请号为200780051758.6、发明名称为“包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法”的发明专利申请的分案申请。
技术领域
本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法;且更具体地,涉及一种包括边信息(side information)比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法,所述边信息比特流转换用于变换边信息比特流、并基于变换后的边信息比特流来恢复具有所期望的输出信号(即,各种声道)的多对象音频信号。
具有各种声道的多对象音频信号表示用于针对每个音频对象具有不同声道(例如,单声道、立体声和5.1声道)的多对象的音频信号。
这项工作受MIC/IITA的IT R&D规划[2005-S-403-02,“Development ofSuper-intelligent Multimedia Anytime-anywhere Realistic TV SmarTVTechnology(超智能多媒体任何时间任何地点逼真TV智能TV技术的开发)”]支持。
背景技术
根据传统的音频编码/解码技术,用户应该被动地(inactively)聆听音频内容。这样,需要开发一种用于对在用于多个音频对象的多声道中的音频信号进行编码和解码的设备和方法,使得可以通过根据用户的需要而控制其每一个具有不同声道的音频对象并以各种方法而组合一个音频内容,来消费各种音频对象。
传统的空间音频编码(SAC)是一种用于将多声道音频信号代表、传送、和恢复为缩混后的单声道或立体声信号的技术,并且它可以以低比特率来传送高质量的多声道音频信号。
然而,由于传统的SAC能够对在仅用于一个音频对象的多声道中的信号进行编码和解码,所以它不能编码/解码多声道和多对象音频信号,例如,用于多声道(例如,单声道、立体声和5.1声道)中的各种对象的音频信号。
此外,传统的心理声学编码(BCC:Binaural Cue Coding)技术可以编码/解码用于多对象的音频信号。然而,由于音频对象的声道限于单声道,所以不能对具有包括单声道的各种声道的多对象音频信号进行编码/解码。
总之,由于传统的技术仅可以编码/解码具有单个声道的多对象音频信号、或者具有多声道的单对象音频信号,所以不能对具有各种声道的多对象音频信号进行编码/解码。因此,根据传统的音频编码/解码技术,用户应该被动地聆听音频内容。
相应地,需要开发一种用于对在用于每个多音频对象的各种声道中的音频信号进行编码和解码的设备和方法,以通过控制根据用户的需要而不同的多声道中的每个音频对象、并根据各种方法而组合一个音频内容来消费各种音频对象。
此外,需要一种用于将多对象音频比特流转换为传统的SAC比特流并且反之亦然的设备和方法,以提供在多对象音频编码器中创建的边信息比特流与传统的SAC编码器/解码器的边信息比特流之间的后向兼容性。
如上所述,作为用于通过单独控制具有不同声道的多个音频对象并根据各种方法而组合一个音频内容来对各种声道的多对象音频信号进行编码和解码的设备和方法,需要开发一种可执行比特流转换的多声道和多对象音频编码和解码设备及方法,以提供与传统SAC比特流的后向兼容性,并控制具有多声道的每个多音频对象,从而以多样的方法来组合一个音频对象。
发明内容
技术问题
本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码、以提供与传统的空间音频编码(SAC)比特流的后向兼容性的设备和方法。
技术解决方案
根据本发明的一方面,提供了一种用于编码多对象音频信号的设备,包括:音频对象编码单元,用于基于空间线索(spatial cue)来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的代码转换设备,包括:第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和渲染单元,用于基于第一矩阵单元所创建的渲染信息和用于从编码设备输入的已编码音频对象信号的渲染信息,来创建用于要从解码设备输出的音频信号的空间线索信息。
根据本发明的又一方面,提供了一种用于创建多声道音频信号和用于解码多声道音频信号的渲染信息的代码转换设备,包括:解析单元,用于从用于由编码设备输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;第二矩阵单元,用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和渲染单元,用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单元单独获取的用于已编码音频对象信号的渲染信息,来创建用于从解码设备输出的音频信号的空间线索信息。
根据本发明的又一方面,提供了一种用于编码多对象音频信号的方法,包括如下步骤:基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的代码转换方法,包括如下步骤:基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后输入的已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空间线索信息。
根据本发明的又一方面,提供了一种用于创建渲染信息以解码多声道音频信号和多对象音频信号的代码转换方法,包括如下步骤:从用于在编码之后输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;基于在所述分出渲染信息的步骤中单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和基于在所述创建包括功率增益信息和输出位置信息的渲染信息的步骤中创建的渲染信息、在所述创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息的步骤中单独获取的用于已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空间线索信息。
有利效果
通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种声道的多对象音频信号的设备和方法,本发明可通过有效地编码和解码各种声道中的多对象音频内容而根据用户的需要来主动地消费音频内容。此外,本发明可通过提供与传统上使用的比特流的后向兼容性,来提供与传统编码和解码设备的兼容性。
附图说明
图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
图3是图示了根据本发明实施例的图2的代码转换器(transcoder)103的框图。
图4图示了根据本发明实施例的由图2的比特流格式器(formatter)205创建的代表性空间音频对象编码(SAOC)比特流。
图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。
图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。
图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。
图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。
具体实施方式
根据下文中陈述的参考附图的以下实施例描述,本发明的优点、特征和方面将变明显。下文中将参考附图来详细描述本发明的特定实施例。
图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
参考图1,本发明包括:空间音频对象编码器(SAOC)101、代码转换器103、和空间音频编码(SAC)105。
根据SAOC方法,输入到编码器的信号被编码为音频对象。每个音频对象不由解码器恢复并独立地播放。然而,用于音频对象的信息被渲染(render)以形成所期望的音频场景,并输出具有各种声道的多对象音频信号。因此,SAC解码器需要用于渲染被输入以获取所期望的音频场景的用于音频对象的信息的设备。
SAOC编码器101是基于空间线索的编码器,并将输入音频信号编码为音频对象。所述音频对象是向SAOC编码器101输入的单声道或立体声信号。
SAOC编码器101输出来自多于一个输入音频对象的缩混信号,并通过提取空间线索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或立体声信号。SAOC编码器101基于“异类布局SAOC”或者“Faller”技术来分析所输入的音频对象信号。
所提取的SAOC比特流包括空间线索和边信息,并且所述边信息包括输入音频对象的空间信息。一般基于频率区域子带单位来分析并提取所述空间线索。
所述空间线索是在编码和解码音频信号中使用的信息。它提取自频率区域,并包括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。例如,空间线索包括:用于示出音频信号的功率增益信息的、音频信号之间的声道电平差(CLD);音频信号之间的声道间电平差(ICLD);音频信号之间的声道间时间差(ICTD);用于示出音频信号之间的相关信息的、音频信号之间的相关声道间相关(ICC);和音频信号之间的虚拟源位置信息,但是不限于这些示例。
此外,所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的多对象音频信号的信息,并且可通过定义用于音频对象的声道信息和音频对象的标识(ID)来提供用于具有单声道、立体声或多声道的音频对象的解码信息。例如,定义用于每个对象的ID和信息,以标识已编码的特定音频对象是单声道音频信号还是立体声音频信号。作为实施例,所述标首信息可包括:空间音频编码(SAC)标首信息、音频对象信息和预设信息。
代码转换器103渲染被输入到SAOC编码器101的音频对象,并基于从外部输入的控制信号(即,每个对象的声音信息和播放环境信息)来将从SAOC编码器101提取的SAOC比特流变换为SAC比特流。
也就是说,代码转换器103基于所提取的SAOC比特流执行渲染,以将输入到SAOC编码器101的音频对象恢复为具有各种声道的多对象音频信号。可以在参数区域执行基于边信息的渲染。
此外,代码转换器103将SAOC比特流变换为SAC比特流。所述代码转换器103从SAOC比特流获得输入音频对象的信息,并与所期望的音频场景对应地渲染输入音频对象的信息。在渲染过程中,代码转换器103预测与所期望的音频场景对应的空间信息,变换并输出已预测的空间信息作为SAC边信息比特流。
将参考图3来详细描述代码转换器103。
SAC解码器105是基于空间线索的多声道音频解码器,基于从代码转换器103输出的SAC比特流而将从SAOC编码器101输出的缩混信号恢复为每个对象的音频信号,并将每个对象的音频信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用运动图象专家组(MPEG)环绕解码器和心理声学编码(BCC)解码器来替换。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图,并示出了输入信号是具有各种声道的多对象音频信号的情况。
参考图2和图1,本发明包括:SAOC编码器101、代码转换器103、SAC解码器105、SAC编码器201、预设音频场景信息(ASI)203和比特流格式器205。
当SAOC编码器101仅支持单声道或立体声音频对象时,SAC编码器201从所输入的多声道音频信号输出一个音频对象。所输出的音频对象是缩混后的单声道或立体声信号。此外,SAC编码器201提取空间线索和边信息,并创建SAC比特流。
SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多于一个音频对象输出代表性缩混信号,提取空间线索和边信息,并创建SAOC比特流。
预设ASI 203将从外部输入的控制信号(即,每个对象的声音信息和播放环境信息)形成为预设ASI,并创建包括预设ASI的预设ASI比特流。将参考图4来详细描述预设ASI。
比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由SAC编码器201创建的SAC比特流、和由预设ASI 203创建的预设ASI比特流,来创建代表性SAOC比特流。
代码转换器103渲染向SAOC编码器101输入的音频对象,并基于从外部输入的每个对象的声音信息和播放环境信息来将比特流格式器205所创建的代表性SAOC比特流变换为代表性SAC比特流。代码转换器103被包括在SAC解码器105中并如上所述地起作用。
SAC解码器105基于从代码转换器103输出的SAC比特流,来将从SAOC编码器101输出的缩混信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用MPEG环绕解码器和BCC解码器来替换。
图3是图示了根据本发明实施例的图2的代码转换器103的框图。
参考图3,代码转换器103包括:解析单元301、渲染单元303、第二矩阵单元311、和第一矩阵单元313,并将代表性SAOC比特流变换为代表性SAC比特流。
在图1中,代码转换器103将SAOC比特流变换为SAC比特流。
解析单元301解析由比特流格式器205创建的代表性SAOC比特流或者由图1的SAOC编码器101创建的SAOC比特流,并划分在所述代表性SAOC比特流中包括的SAOC比特流和SAC比特流。此外,解析单元301从已划分SAOC比特流中提取用于输入到SAOC编码器101的音频对象数目的信息。由于当解析由图1的SAOC编码器101创建的SAOC比特流时没有SAC比特流,所以不必划分SAC比特流。
第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩阵。第二矩阵是关于输入到SAC编码器201的多声道音频信号的行列式。当在代表性SAOC比特流中不包括SAC比特流时,即当解析由图1的SAOC编码器101创建的SAOC比特流时,不需要第二矩阵单元311。
第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益值,并示出在等式1中。
通常,在将一个帧划分为子带之后的分析是SAC的基本分析过程。
是从SAC编码器201输出的缩混信号;k是频率系数索引;并且b是子带索引。是从SAC比特流获得的多声道信号的空间线索信息,并用于恢复第i声道信号的频率信息,1≤i≤M。因此,可以表达为频率系数的大小信息或相位信息。因此,在等式1的右边项中,是等式1的结果,并示出了从SAC解码器105输出的多声道音频信号。
如上所述,是包括在SAC比特流中的空间线索信息。当指示每个声道的子带中的功率增益时,可以从声道电平差空间线索中预测当被用作用于补偿频率系数的相位差的系数时,可以从声道时间差空间线索或声道间相干空间线索中预测。
当第二矩阵单元311创建满足等式1和2的第二矩阵时,渲染单元303组合所创建的第二矩阵和第一矩阵单元313的输出。
第一矩阵单元313基于控制信号(例如,对象控制信息和播放系统信息),来创建期望多于一个的、输入到SAOC编码器101的音频对象的输出,即要被映射到具有各种声道的多对象音频信号的第一矩阵。
当输入到SAOC编码器101的音频对象的数目是N时,从SAC编码器201输出的缩混信号被认为是一个音频对象并包括在所输入的N个音频对象中。相应地,除了从SAC编码器201输出的缩混信号之外的每个音频对象可以基于第一矩阵而被映射到从SAC解码器105输出的声道。
当从SAC解码器105输出的声道的数目是M时,第一矩阵可满足接下来的条件。
其中是用于示出音频对象i的子带信号的信息的向量,1≤i≤N-1,并且是可以从SAOC比特流获得的空间线索信息。当音频对象i是立体声时,是2×1矩阵向量。是示出用于将第j音频对象映射到第i输出声道的功率增益信息或相位信息的第一矩阵的元素向量,并且可以从由外部输入或者被设置为初始值的控制信息(例如,对象控制信息和播放系统信息)中获得。
满足等式3的条件的第一矩阵被传送到渲染单元303,并且在渲染单元303中运算等式3。
将在等式4和5中详细描述等式3的运算符和运算过程☉。
当所输入的音频对象是单声道和立体声时,m是2。
例如,当所输入的音频对象的数目是Y、m=2、并且所输出的声道的数目是M时,第一矩阵的维数是M×Y,且Y数目个被形成为2×1矩阵。当包括从SAC编码器201输出的音频对象时,考虑Y=Y-1。作为等式3的运算结果,应该能够表达包括所输出的声道的功率增益向量的矩阵。所表达的向量的维数是M×2,并反映作为所输出的声道的数目的M和作为所输入的音频对象的布局的2。
再次参考图3,渲染单元303从第一矩阵313和第二矩阵311接收第一矩阵和第二矩阵。渲染单元303获得从由解析单元301划分的SAOC比特流获得的每个音频对象的空间线索信息通过组合基于第一矩阵和第二矩阵计算的输出向量来获得所期望的空间线索信息,并创建包括所期望的空间线索信息的代表性SAC比特流。所期望的空间线索指的是与输出多声道音频信号有关的空间线索,期望由用户从SAC解码器105输出所述输出多声道音频信号。
如等式6地示出了用于基于第一矩阵和第二矩阵来获得所期望的空间线索信息的运算。
当创建第一矩阵时没有考虑PN,并且PN示出了从SAC编码器201输出的音频对象的功率之和与直接输入到SAOC编码器101的音频对象的功率的比率。
PN可表达为等式7。
当所传送的缩混信号是单声道信号时,CLD参数如等式9所示。
所输出的声道的功率比被表达为作为空间线索参数的CLD,相邻声道之间的空间线索参数被表达为来自给定信息的各种组合的格式。渲染单元303基于霍夫曼编码方法来创建包括从提取的空间线索(例如,CLD参数)的SAC比特流。
在由渲染单元303创建的SAC比特流中包括的空间线索具有根据解码器的特性而不同的分析和提取方法。
例如,BCC解码器可基于一个声道使用等式8来提取N-1个CLD参数。此外,MPEG环绕解码器可根据MPEG环绕的每个声道的比较顺序来提取CLD参数。
也就是说,解析单元301划分SAC比特流和SAOC比特流,并且第二矩阵单元311基于解析单元301所划分的SAC比特流和从SAC解码器105输出的多声道音频信号来创建第二矩阵,如等式1所示。第一矩阵单元313创建与控制信号对应的第一矩阵。解析单元301所划分的SAOC比特流被传送到渲染单元303,并且渲染单元303从所传送的SAOC比特流中获得对象的信息,利用第一矩阵执行运算,组合运算结果和第二矩阵,创建从所创建的中提取空间线索,并创建代表性SAC比特流。
图4图示了根据本发明实施例的由图2的比特流格式器205创建的代表性空间音频对象编码(SAOC)比特流。
参考图4,由比特流格式器205创建的代表性SAOC比特流是通过组合SAOC编码器101所创建的SAOC比特流和SAC编码器201所创建的SAC比特流来创建的,并且所述代表性SAOC比特流包括由预设ASI 203所创建的预设ASI比特流。将参考图5来详细描述所述预设ASI比特流。
用于组合SAOC比特流和SAC比特流的第一方法是一种用于通过直接多路复用每个比特流来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和SAC比特流(参见401)。
第二方法是一种用于当存在SAOC附属(ancillary)数据区时、通过在SAOC附属数据区中包括SAC比特流信息来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和附属数据区域,并且附属数据区包括SAC比特流(参见403)。
第三方法是一种用于表达如下区域的方法,所述区域将在SAOC比特流和SAC比特流中的类似空间线索编码为相同比特流。例如,代表性SAOC比特流的标首信息区域包括SAOC比特流标首信息和SAC比特流标首信息,并且代表性SAOC比特流的每个特定区域包括与特定CLD有关的SAOC比特流和SAC比特流(参见405)。
图5示出了根据本发明另一实施例的图2的代表性SAOC比特流,并示出了代表性SAOC比特流包括多个预设ASI的情况。
参考图5,代表性SAOC比特流包括预设ASI区域。所述预设ASI区域包括多个预设ASI,并且预设ASI包括音频对象的控制信息和布局信息。
当基于代码转换器103渲染音频对象时,应该输入每个音频对象的位置信息、控制信息和所输出的播放扬声器布局信息。
当没有输入控制信息和播放扬声器布局信息时,在代码转换器103中将每个音频对象的控制信息和布局信息设置为默认值。
代表性SAOC比特流或代表性SAC比特流的边信息或标首信息包括被设置为默认值的控制信息和布局信息、或者所输入的音频对象控制信息和布局信息。控制信息可以用两种方式来表达。第一,直接表达每个音频对象的控制信息(例如,位置和电平)和扬声器的布局信息。第二,以第一矩阵格式来表达控制信息和扬声器的布局信息,并且可以使用所述信息来替代第一矩阵单元313中的第一矩阵。
预设ASI示出了音频对象控制信息和扬声器的布局信息。也就是说,预设ASI包括扬声器的布局信息以及每个音频对象的位置和电平信息,以形成适合于扬声器的布局信息的音频场景。
如上所述,直接表达预设ASI或者以第一矩阵格式来表达预设ASI,以便将解析单元301所提取的预设ASI传送到代表性SAC比特流。
当直接表达预设ASI时,预设ASI可包括播放系统的布局(例如,单声道/立体声/多声道)、音频对象ID、音频对象布局(例如,单声道或立体声)、音频对象位置、范围为从0度到360度的方位角、范围为-50度到90度的立体声播放仰角、和音频对象电平信息-50dB至50dB。
当以第一矩阵格式表达预设ASI时,形成用于反映预设ASI的等式3的P矩阵,并且将P矩阵传送到渲染单元303。P矩阵包括作为元素向量的用于将每个音频对象映射到所输出的声道的功率增益信息或相位信息。
预设ASI可定义关于所输入的同一音频对象的与所期望的播放情景对应的不同音频场景。例如,可根据内容产生器的对象和播放服务来另外传送在立体声或多声道(5.1、7.1)播放系统中需要的预设ASI。
图6是示出了根据本发明另一实施例的图2的代码转换器103的框图,并示出了没有从外部输入控制信号的情况。
参考图6,代码转换器103包括解析单元301和渲染单元303。代码转换器103可接收第二矩阵单元311、第一矩阵单元313、预设ASI提取单元601和矩阵确定单元603的帮助。
如上所述,当在代码转换器103中没有从外部输入的控制信号时,应用预设ASI。
解析单元301分开在代表性SAOC比特流中包括的SAOC比特流和SAC比特流,解析在代表性SAOC比特流中包括的预设ASI比特流,并将所述预设ASI比特流传送到预设ASI提取单元601。
预设ASI提取单元601从所解析的预设ASI比特流中输出默认的预设ASI。然而,当存在对于选择预设ASI的请求时,输出所请求的预设ASI。
当预设ASI提取单元601所输出的预设ASI是所选择的预设ASI时,矩阵确定单元603确定所选择的预设ASI是否是第一矩阵格式。当所选择的预设ASI直接表达该信息时,将预设ASI传送到第一矩阵单元313,并且第一矩阵单元313基于预设ASI来创建第一矩阵。当所选择的预设ASI是第一矩阵时,使用预设ASI作为直接输入到渲染单元303的信号。
图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。
参考图7,音频对象去除器701用于从SAOC编码器101所创建的代表性缩混信号中去除特定的音频对象。音频对象去除器701接收SAOC编码器101所创建的代表性缩混信号和来自代码转换器103的代表性SAOC比特流信息,并去除特定的音频对象。例如,可通过渲染单元303提供被传送到音频对象去除器701的代表性SAOC比特流信息。
例如,将描述其中仅将作为SAC编码器201的缩混信号的音频对象(对象#N)用作SAC解码器105的输入信号的情况。
SAOC编码器101根据每个子带来提取所输入的音频对象的每个功率大小作为CLD值,并创建包括CLD值的SAOC比特流。可如下获得用于特定子带m的功率信息。
当Umodified(f)是音频对象去除器701的输出信号(即,SAC解码器105的输入信号)时,Umodified(f)对应于SAC编码器201的缩混信号的音频对象(对象#N),并表达为等式10。
其中A(m)表示第m子带的频率区域中的边界;δ是用于控制电平大小的特定常数值;并且U(f)是单声道或立体声。
下文中将描述U(f)是单声道的情况。除了将U(f)划分为左声道和右声道并进行处理之外,U(f)是立体声的情况与U(f)是单声道的情况相同。
Umodified(f)被认为与作为SAC编码器201的缩混信号的音频对象(对象#N)相同。因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAOC比特流之后的比特流,并且可同等地用于从SAC编码器201输出的SAC比特流。也就是说,SAC解码器105接收对象#N,并将对象#N恢复为M个多声道信号。然而,整个信号的电平是通过代码转换器103的渲染单元303、或者通过利用将等式10乘以特定常数值而调制对象#N的信号电平来控制的。
作为实施例,将描述其中仅要从SAC解码器105的输入信号去除作为SAC编码器201的缩混信号的对象#N的情况。
等式10与等式11相同。
因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAC编码器201的SAC比特流之后的比特流,并被认为在渲染单元303的第二矩阵中没有输出。也就是说,代码转换器103通过解析代表性SAOC比特流块并仅渲染排除用于对象#N的音频对象信息之外的剩余信息,来创建代表性SAC比特流。
因此,在代表性SAC比特流中不包括用于对象#N的功率增益信息和相关信息。在等式11中,δ是用于控制电平大小的特定常数值,正如等式10一样,并且可控制整个输出信号电平。
音频对象去除器701从代表性缩混信号中去除音频对象,并且通过输入到代码转换器103的控制信号来确定去除命令。音频对象去除器701可以应用时间区域信号和频率区域信号二者。此外,可使用离散傅立叶变换(DFT)或正交镜像过滤带(QMF:Quadrature Mirror Filterbank)来将代表性缩混信号划分为子带。
代码转换器103的渲染单元303去除SAOC比特流或SAC比特流,并将其传送到SAC解码器105,并且音频对象去除器701去除与传送到SAC解码器105的比特流对应的音频对象。
当代码转换器103被包括在SAC解码器105中时,从代码转换器103输出的代表性SAC比特流可传送到SAC解码器105,而没有附加的变换过程。附加的变换过程意指诸如量化或霍夫曼编码方法之类的一般编码过程。
考虑了以下情况,即SAOC编码器101没有连接到SAC编码器201,并且仅控制和恢复除了SAC编码器201的输出音频对象之外的输入到SAOC编码器101的音频对象,即对象#1至对象#N-1。
图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。
参考图8,SAC编码器201用MPEG环绕编码器(即,MPS编码器801)来替换,并且SAC解码器105用MPEG环绕解码器(即,MPS解码器805)来替换。此外,当从SAOC编码器101输出的代表性缩混信号是立体声时,另外需要信号处理单元803。
MPS编码器801执行与图2的SAC编码器201相同的功能。也就是说,MPS编码器801输出来自所输入的多声道音频信号的一个音频对象,提取空间线索和边信息,并创建MPS比特流。所输出的音频对象是缩混后的单声道或立体声信号。
此外,MPS解码器805执行与图2的SAC解码器105相同的功能。也就是说,MPS解码器805基于从代码转换器103输出的SAC比特流,来恢复从SAOC编码器101输出的缩混信号或者从信号处理单元803输出的代表性重新缩混信号,作为具有各种声道的多对象音频信号。
其间,当从SAOC编码器101输出的缩混信号是立体声时(即,当MPS解码器805处理立体声信号时),由于立体声信号的左/右处理中的限制,所以信号处理单元803需要MPS解码器805。
等式2示出了缩混信号被概括为普通SAC解码器中的m个数目的情况,当缩混信号是立体声时,关于已恢复的输出声道1的等式2与等式12相同。
输出声道的向量应该能够应用到所有缩混信号,但是这在当前MPS解码器805中是不可能的。如等式13所示,这是因为在MPS解码器805中矩阵值被限制为0。
也就是说,由于元素没有反映在恢复输出声道1中,所以不能应用在等式3、4和5中创建的因此,不可能进行关于具有立体声以上的布局的信号的灵活定位。也就是说,不可能进行立体声信号的左信号和右信号之间的自由渲染。
然而,基于信号处理单元803来对从SAOC编码器101输出的代表性缩混信号再次进行缩混,并输出为代表性重新缩混信号。信号处理单元803的处理如等式14所示。
当从SAOC编码器101输出的代表性缩混信号是立体声时,信号处理单元803的输出信号如等式15所示。
其中和是信号处理单元803所输出的信号,并被输入到MPS解码器805。由于如等式15所示和是用于反映左信号和右信号的渲染的信号,所以尽管如等式13所示限制了MPS解码器805,但是MPS解码器805也可输出其中左信号和右信号被自由渲染的信号。
(例如, )
如上所述,当MPS解码器805由于MPEG环绕的限制而难以处理立体声信号时,信号处理单元803通过基于从代码转换器103传送的对象位置信息而再次执行缩混,来输出代表性的重新缩混信号。例如,可以由渲染单元303来提供传送到信号处理单元803的对象位置信息。根据如上所述的类似方法,渲染单元303可基于代表性SAOC比特流来创建代表性MPS比特流,其包括相对于输入到SAOC编码器101和MPS编码器801的音频信号的、用于要由MPS解码器805输出的音频信号的左信号和右信号中的每个的空间线索信息。
MPS解码器805可通过利用信号处理单元803而进行操作,来执行与图2的SAC解码器105相同的功能。
MPS解码器805将从信号处理单元803输出的代表性重新缩混信号恢复为所期望的输出,即具有各种声道的多对象信号。
利用图2的SAC解码器105或信号处理单元803进行操作的MPS解码器805的解码方法包括如下步骤:接收多声道和多对象缩混信号以及多声道多对象边信息信号;将多声道多对象缩混信号变换为多声道缩混信号;将多声道和多对象信息信号变换为多声道信息信号;基于变换后的多声道缩混信号和多声道信息信号来合成音频信号。
变换多声道缩混信号的步骤包括:基于从多声道和多对象信息信号获得的对象相关信息来从多声道多对象缩混信号去除对象信息的步骤。变换多声道缩混信号的步骤包括:基于从多声道多对象信息信号获得的对象相关信息来控制来自多声道多对象缩混信号的对象信息的步骤。
在包括变换多声道缩混信号的步骤的解码方法中,可通过对象控制信息来控制对象相关信息。这里,可通过解码系统信息来控制对象相关信息。
尽管上面结合设备描述了根据本发明的编码和解码过程,但是在设备中包括的每个组成元件也可以用在处理角度中所需要的每个构成元件来替换。在这个情况下,显然的是,根据本发明的编码和解码过程可结合方法来理解。
上面描述的本发明的技术可实现为程序并存储在计算机可读记录介质(诸如,CD-ROM、RAM、ROM、软盘、硬盘和磁光盘)中。由于本发明技术领域中的技术人员可容易地实现所述处理,所以这里将不再提供进一步的描述。
尽管已经结合特定的优选实施例来描述了本发明,但对于本领域的技术人员显然的是,可以做出各种改变和修改,而不脱离接下来的权利要求所限定的本发明的范围。
工业实用性
本发明可通过有效地编码和解码具有各种声道的多对象音频内容,而根据用户需求来主动地消费音频内容,并通过提供与传统上使用的比特流的后向兼容性来提供与传统的编码和解码设备的兼容性。
Claims (6)
1.一种用于编码多对象音频信号的设备,包括:
音频对象编码装置,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,
其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
2.根据权利要求1的编码设备,还包括:
音频声道编码装置,用于将输入到编码设备的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息;
预设声音场景创建装置,用于基于输入到编码设备的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息;和
代表性比特流创建装置,用于创建代表性比特流,该代表性比特流包括从音频对象编码装置输出的渲染信息、从音频声道编码装置输出的渲染信息、和预设信息,
其中从音频声道编码装置输出的渲染信息包括用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
3.根据权利要求2的编码设备,其中所述音频声道编码装置是运动图象专家组(MPEG)环绕编码器。
4.一种用于编码多对象音频信号的方法,包括如下步骤:
基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,
其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
5.根据权利要求4的编码方法,还包括如下步骤:
将所输入的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息;
基于所输入的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息;和
创建代表性比特流,该代表性比特流包括从所述对所输入的音频对象信号进行编码的步骤输出的渲染信息、从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息、和预设信息,
其中从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息包括:用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
6.根据权利要求5的编码方法,其中所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤是在运动图象专家组(MPEG)环绕编码器中执行的。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2006-0135400 | 2006-12-27 | ||
KR20060135400 | 2006-12-27 | ||
KR10-2007-0003897 | 2007-01-12 | ||
KR20070003897 | 2007-01-12 | ||
KR20070007724 | 2007-01-25 | ||
KR10-2007-0007724 | 2007-01-25 | ||
CN2007800517586A CN101632118B (zh) | 2006-12-27 | 2007-12-27 | 用于对多对象音频信号进行编码和解码的设备和方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800517586A Division CN101632118B (zh) | 2006-12-27 | 2007-12-27 | 用于对多对象音频信号进行编码和解码的设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102883257A true CN102883257A (zh) | 2013-01-16 |
CN102883257B CN102883257B (zh) | 2015-11-04 |
Family
ID=39562714
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100537093A Pending CN103137131A (zh) | 2006-12-27 | 2007-12-27 | 用于运动图象专家组环绕解码的代码转换设备 |
CN201210381376.2A Active CN102883257B (zh) | 2006-12-27 | 2007-12-27 | 用于编码多对象音频信号的设备和方法 |
CN2007800517586A Active CN101632118B (zh) | 2006-12-27 | 2007-12-27 | 用于对多对象音频信号进行编码和解码的设备和方法 |
CN201310053705.5A Active CN103137130B (zh) | 2006-12-27 | 2007-12-27 | 用于创建空间线索信息的代码转换设备 |
CN201210033862.5A Active CN102595303B (zh) | 2006-12-27 | 2007-12-27 | 代码转换设备和方法以及用于解码多对象音频信号的方法 |
CN201310056244.7A Active CN103137132B (zh) | 2006-12-27 | 2007-12-27 | 用于编码多对象音频信号的设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100537093A Pending CN103137131A (zh) | 2006-12-27 | 2007-12-27 | 用于运动图象专家组环绕解码的代码转换设备 |
Family Applications After (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800517586A Active CN101632118B (zh) | 2006-12-27 | 2007-12-27 | 用于对多对象音频信号进行编码和解码的设备和方法 |
CN201310053705.5A Active CN103137130B (zh) | 2006-12-27 | 2007-12-27 | 用于创建空间线索信息的代码转换设备 |
CN201210033862.5A Active CN102595303B (zh) | 2006-12-27 | 2007-12-27 | 代码转换设备和方法以及用于解码多对象音频信号的方法 |
CN201310056244.7A Active CN103137132B (zh) | 2006-12-27 | 2007-12-27 | 用于编码多对象音频信号的设备 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8370164B2 (zh) |
EP (6) | EP2595152A3 (zh) |
JP (8) | JP5941610B2 (zh) |
KR (6) | KR101086347B1 (zh) |
CN (6) | CN103137131A (zh) |
WO (1) | WO2008078973A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105593929A (zh) * | 2013-07-22 | 2016-05-18 | 弗朗霍夫应用科学研究促进协会 | 实现3d音频内容的saoc降混合的装置及方法 |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2595152A3 (en) * | 2006-12-27 | 2013-11-13 | Electronics and Telecommunications Research Institute | Transkoding apparatus |
EP3712888B1 (en) | 2007-03-30 | 2024-05-08 | Electronics and Telecommunications Research Institute | Apparatus and method for coding and decoding multi object audio signal with multi channel |
KR101461685B1 (ko) * | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
KR101596504B1 (ko) * | 2008-04-23 | 2016-02-23 | 한국전자통신연구원 | 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체 |
WO2010008200A2 (en) * | 2008-07-15 | 2010-01-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
JP5258967B2 (ja) * | 2008-07-15 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
KR101614160B1 (ko) | 2008-07-16 | 2016-04-20 | 한국전자통신연구원 | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 |
BRPI0905069A2 (pt) * | 2008-07-29 | 2015-06-30 | Panasonic Corp | Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
KR101600352B1 (ko) * | 2008-10-30 | 2016-03-07 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 장치 및 방법 |
KR101129974B1 (ko) * | 2008-12-22 | 2012-03-28 | (주)오디즌 | 객체 기반 오디오 컨텐츠 생성/재생 방법 및 그 장치 |
US8255821B2 (en) * | 2009-01-28 | 2012-08-28 | Lg Electronics Inc. | Method and an apparatus for decoding an audio signal |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
US20110054917A1 (en) * | 2009-08-28 | 2011-03-03 | Electronics And Telecommunications Research Institute | Apparatus and method for structuring bitstream for object-based audio service, and apparatus for encoding the bitstream |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
GB2485979A (en) * | 2010-11-26 | 2012-06-06 | Univ Surrey | Spatial audio coding |
CN103460285B (zh) * | 2010-12-03 | 2018-01-12 | 弗劳恩霍夫应用研究促进协会 | 用于以几何为基础的空间音频编码的装置及方法 |
KR20120071072A (ko) * | 2010-12-22 | 2012-07-02 | 한국전자통신연구원 | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 |
IN2014CN03413A (zh) | 2011-11-01 | 2015-07-03 | Koninkl Philips Nv | |
EP2862370B1 (en) | 2012-06-19 | 2017-08-30 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
US9489954B2 (en) | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
KR20140046980A (ko) * | 2012-10-11 | 2014-04-21 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
CA2893729C (en) | 2012-12-04 | 2019-03-12 | Samsung Electronics Co., Ltd. | Audio providing apparatus and audio providing method |
TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
CA3211308A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
TWI615834B (zh) * | 2013-05-31 | 2018-02-21 | Sony Corp | 編碼裝置及方法、解碼裝置及方法、以及程式 |
WO2015006112A1 (en) * | 2013-07-08 | 2015-01-15 | Dolby Laboratories Licensing Corporation | Processing of time-varying metadata for lossless resampling |
US9373320B1 (en) | 2013-08-21 | 2016-06-21 | Google Inc. | Systems and methods facilitating selective removal of content from a mixed audio recording |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
KR101805630B1 (ko) * | 2013-09-27 | 2017-12-07 | 삼성전자주식회사 | 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더 |
US10023586B2 (en) * | 2013-12-19 | 2018-07-17 | Archer Daniels Midland Company | Enhanced regio-selectivity in glycol acylation |
CN108600935B (zh) * | 2014-03-19 | 2020-11-03 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和设备 |
JP6374980B2 (ja) * | 2014-03-26 | 2018-08-15 | パナソニック株式会社 | サラウンドオーディオ信号処理のための装置及び方法 |
KR102302672B1 (ko) | 2014-04-11 | 2021-09-15 | 삼성전자주식회사 | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
EP3134897B1 (en) | 2014-04-25 | 2020-05-20 | Dolby Laboratories Licensing Corporation | Matrix decomposition for rendering adaptive audio using high definition audio codecs |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
WO2016204580A1 (ko) * | 2015-06-17 | 2016-12-22 | 삼성전자 주식회사 | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 |
KR101754528B1 (ko) * | 2016-03-23 | 2017-07-06 | 한국광기술원 | 건식 접착구조를 갖는 led 구조체 어레이의 전사체와 이를 이용한 led 구조체 어레이의 이송방법 및 led 구조체 |
US10535355B2 (en) | 2016-11-18 | 2020-01-14 | Microsoft Technology Licensing, Llc | Frame coding for spatial audio data |
CN108206021B (zh) * | 2016-12-16 | 2020-12-18 | 南京青衿信息科技有限公司 | 一种后向兼容式三维声编码器、解码器及其编解码方法 |
CN110800048B (zh) * | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
US11595774B2 (en) * | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
JP6772215B2 (ja) | 2018-05-28 | 2020-10-21 | 三井金属アクト株式会社 | ドアロック装置対 |
JP6652990B2 (ja) * | 2018-07-20 | 2020-02-26 | パナソニック株式会社 | サラウンドオーディオ信号処理のための装置及び方法 |
GB201909133D0 (en) * | 2019-06-25 | 2019-08-07 | Nokia Technologies Oy | Spatial audio representation and rendering |
US12094476B2 (en) | 2019-12-02 | 2024-09-17 | Dolby Laboratories Licensing Corporation | Systems, methods and apparatus for conversion from channel-based audio to object-based audio |
KR102243889B1 (ko) | 2019-12-13 | 2021-04-23 | 국방과학연구소 | 데이터 복호화 장치 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583962A (en) * | 1991-01-08 | 1996-12-10 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
CN1783728A (zh) * | 2004-12-01 | 2006-06-07 | 三星电子株式会社 | 通过使用空间信息来处理多声道音频信号的设备和方法 |
WO2006060279A1 (en) * | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
WO2006103581A1 (en) * | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Scalable multi-channel audio coding |
WO2006108573A1 (en) * | 2005-04-15 | 2006-10-19 | Coding Technologies Ab | Adaptive residual audio coding |
WO2006126856A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method of encoding and decoding an audio signal |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5815689A (en) * | 1997-04-04 | 1998-09-29 | Microsoft Corporation | Method and computer program product for synchronizing the processing of multiple data streams and matching disparate processing rates using a standardized clock mechanism |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US20050004791A1 (en) | 2001-11-23 | 2005-01-06 | Van De Kerkhof Leon Maria | Perceptual noise substitution |
US7797631B2 (en) * | 2002-09-18 | 2010-09-14 | Canon Kabushiki Kaisha | Document printing control apparatus and method |
ATE527654T1 (de) * | 2004-03-01 | 2011-10-15 | Dolby Lab Licensing Corp | Mehrkanal-audiodecodierung |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
EP1859439B1 (en) * | 2005-03-14 | 2013-10-30 | Electronics and Telecommunications Research Institute | Multichannel audio compression and decompression method using virtual source location information |
US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
WO2007091870A1 (en) | 2006-02-09 | 2007-08-16 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US20080004729A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
WO2008039038A1 (en) * | 2006-09-29 | 2008-04-03 | Electronics And Telecommunications Research Institute | Apparatus and method for coding and decoding multi-object audio signal with various channel |
WO2008039041A1 (en) | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
WO2008046530A2 (en) * | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
DE602007013415D1 (de) | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
DE102006050068B4 (de) * | 2006-10-24 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm |
AU2007322488B2 (en) | 2006-11-24 | 2010-04-29 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
EP2595152A3 (en) * | 2006-12-27 | 2013-11-13 | Electronics and Telecommunications Research Institute | Transkoding apparatus |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
US8073125B2 (en) * | 2007-09-25 | 2011-12-06 | Microsoft Corporation | Spatial audio conferencing |
KR101461685B1 (ko) * | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
BRPI0905069A2 (pt) * | 2008-07-29 | 2015-06-30 | Panasonic Corp | Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência |
-
2007
- 2007-12-27 EP EP20130152926 patent/EP2595152A3/en not_active Withdrawn
- 2007-12-27 CN CN2013100537093A patent/CN103137131A/zh active Pending
- 2007-12-27 CN CN201210381376.2A patent/CN102883257B/zh active Active
- 2007-12-27 EP EP20070860705 patent/EP2097895A4/en not_active Withdrawn
- 2007-12-27 CN CN2007800517586A patent/CN101632118B/zh active Active
- 2007-12-27 EP EP20130152827 patent/EP2595148A3/en not_active Withdrawn
- 2007-12-27 EP EP20130152922 patent/EP2595150A3/en not_active Withdrawn
- 2007-12-27 CN CN201310053705.5A patent/CN103137130B/zh active Active
- 2007-12-27 EP EP20130152829 patent/EP2595149A3/en not_active Ceased
- 2007-12-27 KR KR1020070138847A patent/KR101086347B1/ko active IP Right Grant
- 2007-12-27 CN CN201210033862.5A patent/CN102595303B/zh active Active
- 2007-12-27 US US12/521,433 patent/US8370164B2/en active Active
- 2007-12-27 CN CN201310056244.7A patent/CN103137132B/zh active Active
- 2007-12-27 JP JP2009543949A patent/JP5941610B2/ja active Active
- 2007-12-27 EP EP20130152923 patent/EP2595151A3/en not_active Withdrawn
- 2007-12-27 WO PCT/KR2007/006910 patent/WO2008078973A1/en active Application Filing
-
2010
- 2010-03-24 KR KR1020100026330A patent/KR101531239B1/ko active IP Right Grant
-
2011
- 2011-02-18 KR KR1020110014763A patent/KR101546744B1/ko active IP Right Grant
-
2012
- 2012-11-22 JP JP2012256586A patent/JP5694279B2/ja active Active
- 2012-12-26 KR KR1020120153640A patent/KR101309673B1/ko active IP Right Grant
- 2012-12-26 KR KR1020120153690A patent/KR101309672B1/ko active IP Right Grant
- 2012-12-26 KR KR1020120153474A patent/KR101395254B1/ko active IP Right Grant
-
2013
- 2013-01-02 US US13/732,682 patent/US9257127B2/en active Active
- 2013-01-24 JP JP2013011324A patent/JP5752722B2/ja active Active
- 2013-01-24 JP JP2013011336A patent/JP5674833B2/ja not_active Expired - Fee Related
- 2013-01-24 JP JP2013011344A patent/JP2013101384A/ja active Pending
- 2013-01-24 JP JP2013011340A patent/JP6027901B2/ja active Active
-
2016
- 2016-06-28 JP JP2016127783A patent/JP6446407B2/ja active Active
-
2018
- 2018-12-03 JP JP2018226651A patent/JP2019074743A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583962A (en) * | 1991-01-08 | 1996-12-10 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
WO2006060279A1 (en) * | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
CN1783728A (zh) * | 2004-12-01 | 2006-06-07 | 三星电子株式会社 | 通过使用空间信息来处理多声道音频信号的设备和方法 |
WO2006103581A1 (en) * | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Scalable multi-channel audio coding |
WO2006108573A1 (en) * | 2005-04-15 | 2006-10-19 | Coding Technologies Ab | Adaptive residual audio coding |
WO2006126856A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method of encoding and decoding an audio signal |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105593929A (zh) * | 2013-07-22 | 2016-05-18 | 弗朗霍夫应用科学研究促进协会 | 实现3d音频内容的saoc降混合的装置及方法 |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US10659900B2 (en) | 2013-07-22 | 2020-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US10715943B2 (en) | 2013-07-22 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11227616B2 (en) | 2013-07-22 | 2022-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US11330386B2 (en) | 2013-07-22 | 2022-05-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US11337019B2 (en) | 2013-07-22 | 2022-05-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11463831B2 (en) | 2013-07-22 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11910176B2 (en) | 2013-07-22 | 2024-02-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11984131B2 (en) | 2013-07-22 | 2024-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101632118B (zh) | 用于对多对象音频信号进行编码和解码的设备和方法 | |
CN101689368B (zh) | 对具有多声道的多对象音频信号进行编码和解码的设备和方法 | |
CN101044550B (zh) | 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法 | |
CN101930741B (zh) | 对多声道音频信号进行编码/解码的系统和方法 | |
CN101479785B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
US8560303B2 (en) | Apparatus and method for visualization of multichannel audio signals | |
CN101401151B (zh) | 根据主分量分析的可分级多通道音频编码的设备和方法 | |
MX2008012918A (es) | Metodo de codificacion y decodificacion de señal de audio y aparato para los mismo. | |
CN103400583A (zh) | 多声道下混对象编码的增强编码和参数表示 | |
CN102768836A (zh) | 用于编码和解码具有各种声道的多对象音频信号的设备和方法 | |
CA2566366A1 (en) | Audio signal encoder and audio signal decoder | |
CN102682773A (zh) | 多对象音频解码设备 | |
CN101490745B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
Marchand et al. | DReaM: a novel system for joint source separation and multi-track coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |