CN102883257A - 用于编码多对象音频信号的设备和方法 - Google Patents

用于编码多对象音频信号的设备和方法 Download PDF

Info

Publication number
CN102883257A
CN102883257A CN2012103813762A CN201210381376A CN102883257A CN 102883257 A CN102883257 A CN 102883257A CN 2012103813762 A CN2012103813762 A CN 2012103813762A CN 201210381376 A CN201210381376 A CN 201210381376A CN 102883257 A CN102883257 A CN 102883257A
Authority
CN
China
Prior art keywords
information
signal
audio
bit stream
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103813762A
Other languages
English (en)
Other versions
CN102883257B (zh
Inventor
白承权
徐廷一
李泰辰
李用主
张大永
洪镇佑
金镇雄
姜京玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of CN102883257A publication Critical patent/CN102883257A/zh
Application granted granted Critical
Publication of CN102883257B publication Critical patent/CN102883257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Theoretical Computer Science (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Transmitters (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

本发明提供了一种用于编码和解码具有各种声道的多对象音频信号的设备和方法,所述设备和方法提供了与传统的空间音频编码(SAC)比特流的后向兼容性。所述设备包括:音频对象编码单元,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息提供了包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息的编码设备,并且所述编码设备使用在音频信号的编码和解码中。

Description

用于编码多对象音频信号的设备和方法
本申请是申请日为2007年12月27日、申请号为200780051758.6、发明名称为“包括信息比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法”的发明专利申请的分案申请。
技术领域
本发明涉及一种用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法;且更具体地,涉及一种包括边信息(side information)比特流转换的用于对具有各种声道的多对象音频信号进行编码和解码的设备和方法,所述边信息比特流转换用于变换边信息比特流、并基于变换后的边信息比特流来恢复具有所期望的输出信号(即,各种声道)的多对象音频信号。
具有各种声道的多对象音频信号表示用于针对每个音频对象具有不同声道(例如,单声道、立体声和5.1声道)的多对象的音频信号。
这项工作受MIC/IITA的IT R&D规划[2005-S-403-02,“Development ofSuper-intelligent Multimedia Anytime-anywhere Realistic TV SmarTVTechnology(超智能多媒体任何时间任何地点逼真TV智能TV技术的开发)”]支持。
背景技术
根据传统的音频编码/解码技术,用户应该被动地(inactively)聆听音频内容。这样,需要开发一种用于对在用于多个音频对象的多声道中的音频信号进行编码和解码的设备和方法,使得可以通过根据用户的需要而控制其每一个具有不同声道的音频对象并以各种方法而组合一个音频内容,来消费各种音频对象。
传统的空间音频编码(SAC)是一种用于将多声道音频信号代表、传送、和恢复为缩混后的单声道或立体声信号的技术,并且它可以以低比特率来传送高质量的多声道音频信号。
然而,由于传统的SAC能够对在仅用于一个音频对象的多声道中的信号进行编码和解码,所以它不能编码/解码多声道和多对象音频信号,例如,用于多声道(例如,单声道、立体声和5.1声道)中的各种对象的音频信号。
此外,传统的心理声学编码(BCC:Binaural Cue Coding)技术可以编码/解码用于多对象的音频信号。然而,由于音频对象的声道限于单声道,所以不能对具有包括单声道的各种声道的多对象音频信号进行编码/解码。
总之,由于传统的技术仅可以编码/解码具有单个声道的多对象音频信号、或者具有多声道的单对象音频信号,所以不能对具有各种声道的多对象音频信号进行编码/解码。因此,根据传统的音频编码/解码技术,用户应该被动地聆听音频内容。
相应地,需要开发一种用于对在用于每个多音频对象的各种声道中的音频信号进行编码和解码的设备和方法,以通过控制根据用户的需要而不同的多声道中的每个音频对象、并根据各种方法而组合一个音频内容来消费各种音频对象。
此外,需要一种用于将多对象音频比特流转换为传统的SAC比特流并且反之亦然的设备和方法,以提供在多对象音频编码器中创建的边信息比特流与传统的SAC编码器/解码器的边信息比特流之间的后向兼容性。
如上所述,作为用于通过单独控制具有不同声道的多个音频对象并根据各种方法而组合一个音频内容来对各种声道的多对象音频信号进行编码和解码的设备和方法,需要开发一种可执行比特流转换的多声道和多对象音频编码和解码设备及方法,以提供与传统SAC比特流的后向兼容性,并控制具有多声道的每个多音频对象,从而以多样的方法来组合一个音频对象。
发明内容
技术问题
本发明的实施例旨在提供一种用于对具有各种声道的多对象音频信号进行编码和解码、以提供与传统的空间音频编码(SAC)比特流的后向兼容性的设备和方法。
技术解决方案
根据本发明的一方面,提供了一种用于编码多对象音频信号的设备,包括:音频对象编码单元,用于基于空间线索(spatial cue)来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的代码转换设备,包括:第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和渲染单元,用于基于第一矩阵单元所创建的渲染信息和用于从编码设备输入的已编码音频对象信号的渲染信息,来创建用于要从解码设备输出的音频信号的空间线索信息。
根据本发明的又一方面,提供了一种用于创建多声道音频信号和用于解码多声道音频信号的渲染信息的代码转换设备,包括:解析单元,用于从用于由编码设备输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;第一矩阵单元,用于基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;第二矩阵单元,用于基于由解析单元单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和渲染单元,用于基于第一矩阵单元所创建的渲染信息、第二矩阵单元所创建的渲染信息、和由解析单元单独获取的用于已编码音频对象信号的渲染信息,来创建用于从解码设备输出的音频信号的空间线索信息。
根据本发明的又一方面,提供了一种用于编码多对象音频信号的方法,包括如下步骤:基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
根据本发明的又一方面,提供了一种用于创建渲染信息来解码多对象音频信号的代码转换方法,包括如下步骤:基于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;和基于在所述创建渲染信息的步骤中创建的渲染信息和用于在编码之后输入的已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空间线索信息。
根据本发明的又一方面,提供了一种用于创建渲染信息以解码多声道音频信号和多对象音频信号的代码转换方法,包括如下步骤:从用于在编码之后输入的已编码音频信号的渲染信息中分出用于已编码音频对象信号的渲染信息和用于多声道音频信号的渲染信息;基于用于已编码音频对象信号的对象控制信息和播放信息来创建渲染信息,该渲染信息包括用于已编码音频对象信号的功率增益信息和输出位置信息;基于在所述分出渲染信息的步骤中单独获取的用于已编码多声道音频信号的渲染信息,来创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息,和基于在所述创建包括功率增益信息和输出位置信息的渲染信息的步骤中创建的渲染信息、在所述创建包括用于多声道音频信号的每个声道的功率增益信息的渲染信息的步骤中创建的渲染信息、和在所述分出渲染信息的步骤中单独获取的用于已编码音频对象信号的渲染信息,来创建用于要在解码之后输出的音频信号的空间线索信息。
有利效果
通过提供一种能够执行边信息比特流转换的用于编码和解码具有各种声道的多对象音频信号的设备和方法,本发明可通过有效地编码和解码各种声道中的多对象音频内容而根据用户的需要来主动地消费音频内容。此外,本发明可通过提供与传统上使用的比特流的后向兼容性,来提供与传统编码和解码设备的兼容性。
附图说明
图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
图3是图示了根据本发明实施例的图2的代码转换器(transcoder)103的框图。
图4图示了根据本发明实施例的由图2的比特流格式器(formatter)205创建的代表性空间音频对象编码(SAOC)比特流。
图5示出了根据本发明另一实施例的图2的代表性SAOC比特流。
图6是示出了根据本发明另一实施例的图2的代码转换器103的框图。
图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。
图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。
具体实施方式
根据下文中陈述的参考附图的以下实施例描述,本发明的优点、特征和方面将变明显。下文中将参考附图来详细描述本发明的特定实施例。
图1是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图。
参考图1,本发明包括:空间音频对象编码器(SAOC)101、代码转换器103、和空间音频编码(SAC)105。
根据SAOC方法,输入到编码器的信号被编码为音频对象。每个音频对象不由解码器恢复并独立地播放。然而,用于音频对象的信息被渲染(render)以形成所期望的音频场景,并输出具有各种声道的多对象音频信号。因此,SAC解码器需要用于渲染被输入以获取所期望的音频场景的用于音频对象的信息的设备。
SAOC编码器101是基于空间线索的编码器,并将输入音频信号编码为音频对象。所述音频对象是向SAOC编码器101输入的单声道或立体声信号。
SAOC编码器101输出来自多于一个输入音频对象的缩混信号,并通过提取空间线索和边信息来创建SAOC比特流。所输出的缩混信号是单声道或立体声信号。SAOC编码器101基于“异类布局SAOC”或者“Faller”技术来分析所输入的音频对象信号。
所提取的SAOC比特流包括空间线索和边信息,并且所述边信息包括输入音频对象的空间信息。一般基于频率区域子带单位来分析并提取所述空间线索。
所述空间线索是在编码和解码音频信号中使用的信息。它提取自频率区域,并包括用于所输入的两个信号之间的大小差、延迟差和相关性的信息。例如,空间线索包括:用于示出音频信号的功率增益信息的、音频信号之间的声道电平差(CLD);音频信号之间的声道间电平差(ICLD);音频信号之间的声道间时间差(ICTD);用于示出音频信号之间的相关信息的、音频信号之间的相关声道间相关(ICC);和音频信号之间的虚拟源位置信息,但是不限于这些示例。
此外,所述边信息包括用于恢复并控制空间线索和音频信号的信息。所述边信息包括标首信息。所述标首信息包括用于恢复并播放具有各种声道的多对象音频信号的信息,并且可通过定义用于音频对象的声道信息和音频对象的标识(ID)来提供用于具有单声道、立体声或多声道的音频对象的解码信息。例如,定义用于每个对象的ID和信息,以标识已编码的特定音频对象是单声道音频信号还是立体声音频信号。作为实施例,所述标首信息可包括:空间音频编码(SAC)标首信息、音频对象信息和预设信息。
代码转换器103渲染被输入到SAOC编码器101的音频对象,并基于从外部输入的控制信号(即,每个对象的声音信息和播放环境信息)来将从SAOC编码器101提取的SAOC比特流变换为SAC比特流。
也就是说,代码转换器103基于所提取的SAOC比特流执行渲染,以将输入到SAOC编码器101的音频对象恢复为具有各种声道的多对象音频信号。可以在参数区域执行基于边信息的渲染。
此外,代码转换器103将SAOC比特流变换为SAC比特流。所述代码转换器103从SAOC比特流获得输入音频对象的信息,并与所期望的音频场景对应地渲染输入音频对象的信息。在渲染过程中,代码转换器103预测与所期望的音频场景对应的空间信息,变换并输出已预测的空间信息作为SAC边信息比特流。
将参考图3来详细描述代码转换器103。
SAC解码器105是基于空间线索的多声道音频解码器,基于从代码转换器103输出的SAC比特流而将从SAOC编码器101输出的缩混信号恢复为每个对象的音频信号,并将每个对象的音频信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用运动图象专家组(MPEG)环绕解码器和心理声学编码(BCC)解码器来替换。
图2是示出了根据本发明实施例的多对象音频编码器和多对象解码器的框图,并示出了输入信号是具有各种声道的多对象音频信号的情况。
参考图2和图1,本发明包括:SAOC编码器101、代码转换器103、SAC解码器105、SAC编码器201、预设音频场景信息(ASI)203和比特流格式器205。
当SAOC编码器101仅支持单声道或立体声音频对象时,SAC编码器201从所输入的多声道音频信号输出一个音频对象。所输出的音频对象是缩混后的单声道或立体声信号。此外,SAC编码器201提取空间线索和边信息,并创建SAC比特流。
SAOC编码器101从包括由SAC编码器201输出的一个音频对象的多于一个音频对象输出代表性缩混信号,提取空间线索和边信息,并创建SAOC比特流。
预设ASI 203将从外部输入的控制信号(即,每个对象的声音信息和播放环境信息)形成为预设ASI,并创建包括预设ASI的预设ASI比特流。将参考图4来详细描述预设ASI。
比特流格式器205基于由SAOC编码器101创建的SAOC比特流、由SAC编码器201创建的SAC比特流、和由预设ASI 203创建的预设ASI比特流,来创建代表性SAOC比特流。
代码转换器103渲染向SAOC编码器101输入的音频对象,并基于从外部输入的每个对象的声音信息和播放环境信息来将比特流格式器205所创建的代表性SAOC比特流变换为代表性SAC比特流。代码转换器103被包括在SAC解码器105中并如上所述地起作用。
SAC解码器105基于从代码转换器103输出的SAC比特流,来将从SAOC编码器101输出的缩混信号恢复为具有各种声道的多对象音频信号。SAC解码器105可以用MPEG环绕解码器和BCC解码器来替换。
图3是图示了根据本发明实施例的图2的代码转换器103的框图。
参考图3,代码转换器103包括:解析单元301、渲染单元303、第二矩阵单元311、和第一矩阵单元313,并将代表性SAOC比特流变换为代表性SAC比特流。
在图1中,代码转换器103将SAOC比特流变换为SAC比特流。
解析单元301解析由比特流格式器205创建的代表性SAOC比特流或者由图1的SAOC编码器101创建的SAOC比特流,并划分在所述代表性SAOC比特流中包括的SAOC比特流和SAC比特流。此外,解析单元301从已划分SAOC比特流中提取用于输入到SAOC编码器101的音频对象数目的信息。由于当解析由图1的SAOC编码器101创建的SAOC比特流时没有SAC比特流,所以不必划分SAC比特流。
第二矩阵单元311基于由解析单元301划分的SAC比特流创建第二矩阵。第二矩阵是关于输入到SAC编码器201的多声道音频信号的行列式。当在代表性SAOC比特流中不包括SAC比特流时,即当解析由图1的SAOC编码器101创建的SAOC比特流时,不需要第二矩阵单元311。
第二矩阵示出了输入到SAC编码器201的多声道音频信号的功率增益值,并示出在等式1中。
Figure BDA00002236449000081
等式1
通常,在将一个帧划分为子带之后的分析是SAC的基本分析过程。
Figure BDA00002236449000082
是从SAC编码器201输出的缩混信号;k是频率系数索引;并且b是子带索引。
Figure BDA00002236449000083
是从SAC比特流获得的多声道信号的空间线索信息,并用于恢复第i声道信号的频率信息,1≤i≤M。因此,
Figure BDA00002236449000084
可以表达为频率系数的大小信息或相位信息。因此,在等式1的右边项中,
Figure BDA00002236449000085
是等式1的结果,并示出了从SAC解码器105输出的多声道音频信号。
Figure BDA00002236449000086
是向量,并且
Figure BDA00002236449000088
的转置矩阵的维数是
Figure BDA00002236449000089
的维数。例如,这将被描述为等式2。由于从SAC编码器201输出的缩混信号是单声道或立体声,所以m是1或2。
w ch _ 1 b × u SAC b ( k ) = w 1 b w 2 b · · · w m b u 1 b ( k ) u 2 b ( k ) · · · u m b ( k ) 等式2
如上所述,
Figure BDA000022364490000811
是包括在SAC比特流中的空间线索信息。当
Figure BDA000022364490000812
指示每个声道的子带中的功率增益时,可以从声道电平差空间线索中预测
Figure BDA000022364490000813
Figure BDA000022364490000814
被用作用于补偿频率系数的相位差的系数时,
Figure BDA000022364490000815
可以从声道时间差空间线索或声道间相干空间线索中预测。
作为示例,将描述
Figure BDA000022364490000816
被用作用于补偿频率系数之间的相位差的系数的情况。
等式1的第二矩阵应表达每个声道的功率增益值,并且是缩混信号的向量的维数的逆,使得可以利用从SAC编码器201输出的缩混信号通过矩阵运算来创建输出信号
Figure BDA00002236449000091
当第二矩阵单元311创建满足等式1和2的第二矩阵时,渲染单元303组合所创建的第二矩阵和第一矩阵单元313的输出。
第一矩阵单元313基于控制信号(例如,对象控制信息和播放系统信息),来创建期望多于一个的、输入到SAOC编码器101的音频对象的输出,即要被映射到具有各种声道的多对象音频信号的第一矩阵。
当输入到SAOC编码器101的音频对象的数目是N时,从SAC编码器201输出的缩混信号被认为是一个音频对象并包括在所输入的N个音频对象中。相应地,除了从SAC编码器201输出的缩混信号之外的每个音频对象可以基于第一矩阵而被映射到从SAC解码器105输出的声道。
当从SAC解码器105输出的声道的数目是M时,第一矩阵可满足接下来的条件。
Figure BDA00002236449000092
等式3
其中
Figure BDA00002236449000093
是用于示出音频对象i的子带信号的信息的向量,1≤i≤N-1,并且是可以从SAOC比特流获得的空间线索信息。当音频对象i是立体声时,
Figure BDA00002236449000094
是2×1矩阵向量。
Figure BDA00002236449000095
是示出用于将第j音频对象映射到第i输出声道的功率增益信息或相位信息的第一矩阵的元素向量,并且可以从由外部输入或者被设置为初始值的控制信息(例如,对象控制信息和播放系统信息)中获得。
满足等式3的条件的第一矩阵被传送到渲染单元303,并且在渲染单元303中运算等式3。
将在等式4和5中详细描述等式3的运算符和运算过程☉。
Figure BDA00002236449000101
等式4
= p 1 , i , j b × w 1 , oj _ i b p 2 , i , j b × w 2 , oj _ i b · · · p m , i , j b × w m , oj _ i b 等式5
当所输入的音频对象是单声道和立体声时,m是2。
例如,当所输入的音频对象的数目是Y、m=2、并且所输出的声道的数目是M时,第一矩阵的维数是M×Y,且Y数目个
Figure BDA00002236449000104
被形成为2×1矩阵。当包括从SAC编码器201输出的音频对象时,考虑Y=Y-1。作为等式3的运算结果,应该能够表达包括所输出的声道的功率增益向量
Figure BDA00002236449000105
的矩阵。所表达的向量的维数是M×2,并反映作为所输出的声道的数目的M和作为所输入的音频对象的布局的2。
再次参考图3,渲染单元303从第一矩阵313和第二矩阵311接收第一矩阵和第二矩阵。渲染单元303获得从由解析单元301划分的SAOC比特流获得的每个音频对象的空间线索信息
Figure BDA00002236449000106
通过组合基于第一矩阵和第二矩阵计算的输出向量来获得所期望的空间线索信息,并创建包括所期望的空间线索信息的代表性SAC比特流。所期望的空间线索指的是与输出多声道音频信号有关的空间线索,期望由用户从SAC解码器105输出所述输出多声道音频信号。
如等式6地示出了用于基于第一矩阵和第二矩阵来获得所期望的空间线索信息的运算。
pow ( p N ) w ch _ 1 b w ch _ 2 b · · · w ch _ M b SAC + ( 1 - pow ( p N ) ) w ch _ 1 b w ch _ 2 b · · · w ch _ M b SAOC = w ch _ 1 b w ch _ 2 b · · · w ch _ M b = W mod ified b 等式6
当创建第一矩阵时没有考虑PN,并且PN示出了从SAC编码器201输出的音频对象的功率之和与直接输入到SAOC编码器101的音频对象的功率的比率。
PN可表达为等式7。
p N = Σ k = N - 1 power ( object # k ) power ( object # N ) 等式7
因此,当
Figure BDA00002236449000112
是所输出的声道的功率时,在音频对象的渲染之后的每个声道的功率比被示出为
Figure BDA00002236449000113
可以从
Figure BDA00002236449000114
中重新提取所期望的空间线索参数。例如,提取ch_2和ch_1之间的声道电平差(CLD)参数如等式8所示。
CLD ch 1 / ch 2 b = 20 log 10 w ch 1 b w ch 2 b = [ 20 log 10 w ch 1,1 b w ch 2 , 1 b , 20 log 10 w ch 1,2 b w ch 2 , 2 b ] m = 2 等式8
当所传送的缩混信号是单声道信号时,CLD参数如等式9所示。
CLD ch 1 / ch 2 b = 10 log 10 ( w ch 1 , 1 b ) 2 + ( w ch 1,2 b ) 2 ( w ch 2,1 b ) 2 + ( w ch 2,2 b ) 2 等式9
所输出的声道的功率比被表达为作为空间线索参数的CLD,相邻声道之间的空间线索参数被表达为来自给定
Figure BDA00002236449000117
信息的各种组合的格式。渲染单元303基于霍夫曼编码方法来创建包括从
Figure BDA00002236449000118
提取的空间线索(例如,CLD参数)的SAC比特流。
在由渲染单元303创建的SAC比特流中包括的空间线索具有根据解码器的特性而不同的分析和提取方法。
例如,BCC解码器可基于一个声道使用等式8来提取N-1个CLD参数。此外,MPEG环绕解码器可根据MPEG环绕的每个声道的比较顺序来提取CLD参数。
也就是说,解析单元301划分SAC比特流和SAOC比特流,并且第二矩阵单元311基于解析单元301所划分的SAC比特流和从SAC解码器105输出的多声道音频信号来创建第二矩阵,如等式1所示。第一矩阵单元313创建与控制信号对应的第一矩阵。解析单元301所划分的SAOC比特流被传送到渲染单元303,并且渲染单元303从所传送的SAOC比特流中获得对象的信息,利用第一矩阵执行运算,组合运算结果和第二矩阵,创建
Figure BDA00002236449000121
从所创建的中提取空间线索,并创建代表性SAC比特流。
也就是说,从所创建的
Figure BDA00002236449000123
中提取的空间线索变成所期望的空间线索。代表性SAC比特流是根据MPEG环绕解码器或BCC解码器的特性而适当变换的比特流,并且可恢复为具有各种声道的多对象信号。
图4图示了根据本发明实施例的由图2的比特流格式器205创建的代表性空间音频对象编码(SAOC)比特流。
参考图4,由比特流格式器205创建的代表性SAOC比特流是通过组合SAOC编码器101所创建的SAOC比特流和SAC编码器201所创建的SAC比特流来创建的,并且所述代表性SAOC比特流包括由预设ASI 203所创建的预设ASI比特流。将参考图5来详细描述所述预设ASI比特流。
用于组合SAOC比特流和SAC比特流的第一方法是一种用于通过直接多路复用每个比特流来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和SAC比特流(参见401)。
第二方法是一种用于当存在SAOC附属(ancillary)数据区时、通过在SAOC附属数据区中包括SAC比特流信息来创建一个比特流的方法。在代表性SAOC比特流中串联连接SAOC比特流和附属数据区域,并且附属数据区包括SAC比特流(参见403)。
第三方法是一种用于表达如下区域的方法,所述区域将在SAOC比特流和SAC比特流中的类似空间线索编码为相同比特流。例如,代表性SAOC比特流的标首信息区域包括SAOC比特流标首信息和SAC比特流标首信息,并且代表性SAOC比特流的每个特定区域包括与特定CLD有关的SAOC比特流和SAC比特流(参见405)。
图5示出了根据本发明另一实施例的图2的代表性SAOC比特流,并示出了代表性SAOC比特流包括多个预设ASI的情况。
参考图5,代表性SAOC比特流包括预设ASI区域。所述预设ASI区域包括多个预设ASI,并且预设ASI包括音频对象的控制信息和布局信息。
当基于代码转换器103渲染音频对象时,应该输入每个音频对象的位置信息、控制信息和所输出的播放扬声器布局信息。
当没有输入控制信息和播放扬声器布局信息时,在代码转换器103中将每个音频对象的控制信息和布局信息设置为默认值。
代表性SAOC比特流或代表性SAC比特流的边信息或标首信息包括被设置为默认值的控制信息和布局信息、或者所输入的音频对象控制信息和布局信息。控制信息可以用两种方式来表达。第一,直接表达每个音频对象的控制信息(例如,位置和电平)和扬声器的布局信息。第二,以第一矩阵格式来表达控制信息和扬声器的布局信息,并且可以使用所述信息来替代第一矩阵单元313中的第一矩阵。
预设ASI示出了音频对象控制信息和扬声器的布局信息。也就是说,预设ASI包括扬声器的布局信息以及每个音频对象的位置和电平信息,以形成适合于扬声器的布局信息的音频场景。
如上所述,直接表达预设ASI或者以第一矩阵格式来表达预设ASI,以便将解析单元301所提取的预设ASI传送到代表性SAC比特流。
当直接表达预设ASI时,预设ASI可包括播放系统的布局(例如,单声道/立体声/多声道)、音频对象ID、音频对象布局(例如,单声道或立体声)、音频对象位置、范围为从0度到360度的方位角、范围为-50度到90度的立体声播放仰角、和音频对象电平信息-50dB至50dB。
当以第一矩阵格式表达预设ASI时,形成用于反映预设ASI的等式3的P矩阵,并且将P矩阵传送到渲染单元303。P矩阵包括作为元素向量的用于将每个音频对象映射到所输出的声道的功率增益信息或相位信息。
预设ASI可定义关于所输入的同一音频对象的与所期望的播放情景对应的不同音频场景。例如,可根据内容产生器的对象和播放服务来另外传送在立体声或多声道(5.1、7.1)播放系统中需要的预设ASI。
图6是示出了根据本发明另一实施例的图2的代码转换器103的框图,并示出了没有从外部输入控制信号的情况。
参考图6,代码转换器103包括解析单元301和渲染单元303。代码转换器103可接收第二矩阵单元311、第一矩阵单元313、预设ASI提取单元601和矩阵确定单元603的帮助。
如上所述,当在代码转换器103中没有从外部输入的控制信号时,应用预设ASI。
解析单元301分开在代表性SAOC比特流中包括的SAOC比特流和SAC比特流,解析在代表性SAOC比特流中包括的预设ASI比特流,并将所述预设ASI比特流传送到预设ASI提取单元601。
预设ASI提取单元601从所解析的预设ASI比特流中输出默认的预设ASI。然而,当存在对于选择预设ASI的请求时,输出所请求的预设ASI。
当预设ASI提取单元601所输出的预设ASI是所选择的预设ASI时,矩阵确定单元603确定所选择的预设ASI是否是第一矩阵格式。当所选择的预设ASI直接表达该信息时,将预设ASI传送到第一矩阵单元313,并且第一矩阵单元313基于预设ASI来创建第一矩阵。当所选择的预设ASI是第一矩阵时,使用预设ASI作为直接输入到渲染单元303的信号。
图7是示出了在图2的多对象音频编码器和解码器中另外包括音频对象去除器701的情况的框图。
参考图7,音频对象去除器701用于从SAOC编码器101所创建的代表性缩混信号中去除特定的音频对象。音频对象去除器701接收SAOC编码器101所创建的代表性缩混信号和来自代码转换器103的代表性SAOC比特流信息,并去除特定的音频对象。例如,可通过渲染单元303提供被传送到音频对象去除器701的代表性SAOC比特流信息。
例如,将描述其中仅将作为SAC编码器201的缩混信号的音频对象(对象#N)用作SAC解码器105的输入信号的情况。
SAOC编码器101根据每个子带来提取所输入的音频对象的每个功率大小作为CLD值,并创建包括CLD值的SAOC比特流。可如下获得用于特定子带m的功率信息。
P m object # 1 , P m object # 2 , · · · , P m object # N
其中
Figure BDA00002236449000142
是由SAOC编码器101输出的代表性缩混信号的第m频带的功率大小。因此,u(n)是输入到音频对象去除器701的代表性缩混信号,并且U(f)正将代表性缩混信号变换到频率区域。
当Umodified(f)是音频对象去除器701的输出信号(即,SAC解码器105的输入信号)时,Umodified(f)对应于SAC编码器201的缩混信号的音频对象(对象#N),并表达为等式10。
U mod ified ( f ) = U ( f ) × P m object # N Σ i = 1 N P m object # _ i × δ , A ( m + 1 ) ≤ f ≤ A ( m + 1 ) - 1 等式10
其中A(m)表示第m子带的频率区域中的边界;δ是用于控制电平大小的特定常数值;并且U(f)是单声道或立体声。
下文中将描述U(f)是单声道的情况。除了将U(f)划分为左声道和右声道并进行处理之外,U(f)是立体声的情况与U(f)是单声道的情况相同。
Umodified(f)被认为与作为SAC编码器201的缩混信号的音频对象(对象#N)相同。因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAOC比特流之后的比特流,并且可同等地用于从SAC编码器201输出的SAC比特流。也就是说,SAC解码器105接收对象#N,并将对象#N恢复为M个多声道信号。然而,整个信号的电平是通过代码转换器103的渲染单元303、或者通过利用将等式10乘以特定常数值而调制对象#N的信号电平来控制的。
作为实施例,将描述其中仅要从SAC解码器105的输入信号去除作为SAC编码器201的缩混信号的对象#N的情况。
等式10与等式11相同。
U mod ified ( f ) = U ( f ) × Σ i = 1 N - 1 P m object # _ i Σ i = 1 N P m object # _ i × δ , A ( m + 1 ) ≤ f ≤ A ( m + 1 ) - 1 等式11
因此,输入到SAC解码器105的代表性SAC比特流是从代表性SAOC比特流中排除SAC编码器201的SAC比特流之后的比特流,并被认为在渲染单元303的第二矩阵中没有输出。也就是说,代码转换器103通过解析代表性SAOC比特流块并仅渲染排除用于对象#N的音频对象信息之外的剩余信息,来创建代表性SAC比特流。
因此,在代表性SAC比特流中不包括用于对象#N的功率增益信息和相关信息。在等式11中,δ是用于控制电平大小的特定常数值,正如等式10一样,并且可控制整个输出信号电平。
音频对象去除器701从代表性缩混信号中去除音频对象,并且通过输入到代码转换器103的控制信号来确定去除命令。音频对象去除器701可以应用时间区域信号和频率区域信号二者。此外,可使用离散傅立叶变换(DFT)或正交镜像过滤带(QMF:Quadrature Mirror Filterbank)来将代表性缩混信号划分为子带。
代码转换器103的渲染单元303去除SAOC比特流或SAC比特流,并将其传送到SAC解码器105,并且音频对象去除器701去除与传送到SAC解码器105的比特流对应的音频对象。
当代码转换器103被包括在SAC解码器105中时,从代码转换器103输出的代表性SAC比特流可传送到SAC解码器105,而没有附加的变换过程。附加的变换过程意指诸如量化或霍夫曼编码方法之类的一般编码过程。
考虑了以下情况,即SAOC编码器101没有连接到SAC编码器201,并且仅控制和恢复除了SAC编码器201的输出音频对象之外的输入到SAOC编码器101的音频对象,即对象#1至对象#N-1。
图8是示出了用MPEG环绕编码器和解码器来替换图2的SAC编码器201和SAC解码器105的情况的框图。
参考图8,SAC编码器201用MPEG环绕编码器(即,MPS编码器801)来替换,并且SAC解码器105用MPEG环绕解码器(即,MPS解码器805)来替换。此外,当从SAOC编码器101输出的代表性缩混信号是立体声时,另外需要信号处理单元803。
MPS编码器801执行与图2的SAC编码器201相同的功能。也就是说,MPS编码器801输出来自所输入的多声道音频信号的一个音频对象,提取空间线索和边信息,并创建MPS比特流。所输出的音频对象是缩混后的单声道或立体声信号。
此外,MPS解码器805执行与图2的SAC解码器105相同的功能。也就是说,MPS解码器805基于从代码转换器103输出的SAC比特流,来恢复从SAOC编码器101输出的缩混信号或者从信号处理单元803输出的代表性重新缩混信号,作为具有各种声道的多对象音频信号。
其间,当从SAOC编码器101输出的缩混信号是立体声时(即,当MPS解码器805处理立体声信号时),由于立体声信号的左/右处理中的限制,所以信号处理单元803需要MPS解码器805。
等式2示出了缩混信号被概括为普通SAC解码器中的m个数目的情况,当缩混信号是立体声时,关于已恢复的输出声道1的等式2与等式12相同。
w ch _ 1 b × u SAC b ( k ) = w L , ch _ 1 b w R , ch _ 2 b u L b ( k ) u R b ( k ) 等式12
输出声道的向量应该能够应用到所有缩混信号,但是这在当前MPS解码器805中是不可能的。如等式13所示,这是因为在MPS解码器805中矩阵值被限制为0。
w ch _ 1 b × u SAC b ( k ) = w L , ch _ 1 b 0 u L b ( k ) u R b ( k ) 等式13
也就是说,由于
Figure BDA00002236449000173
元素没有反映在恢复输出声道1中,所以不能应用在等式3、4和5中创建的
Figure BDA00002236449000174
因此,不可能进行关于具有立体声以上的布局的信号的灵活定位。也就是说,不可能进行立体声信号的左信号和右信号之间的自由渲染。
然而,基于信号处理单元803来对从SAOC编码器101输出的代表性缩混信号再次进行缩混,并输出为代表性重新缩混信号。信号处理单元803的处理如等式14所示。
w ch _ 1 b w ch _ 2 b M w ch _ M b mod ified × [ u stereo b ( k ) ] = y ch _ 1 b ( k ) y ch _ 2 b ( k ) M y ch _ M b ( k ) 等式14
当从SAOC编码器101输出的代表性缩混信号是立体声时,信号处理单元803的输出信号如等式15所示。
w L b w R b mod ified × [ u stereo b ( k ) ] = y ch _ L b ( k ) y ch _ R b ( k ) 等式15
其中
Figure BDA00002236449000177
Figure BDA00002236449000178
是信号处理单元803所输出的信号,并被输入到MPS解码器805。由于如等式15所示
Figure BDA00002236449000179
Figure BDA000022364490001710
是用于反映左信号和右信号的渲染的信号,所以尽管如等式13所示限制了MPS解码器805,但是MPS解码器805也可输出其中左信号和右信号被自由渲染的信号。
例如,当MPS解码器805将恢复为5个声道时,如下在等式14中表达
Figure BDA00002236449000181
(例如, w L b = w ch _ Lf b + w ch _ Ls b + w ch _ C b / 2 , w R b = w ch _ Rf b + w ch _ Rs b + w ch _ C b / 2
如上所述,当MPS解码器805由于MPEG环绕的限制而难以处理立体声信号时,信号处理单元803通过基于从代码转换器103传送的对象位置信息而再次执行缩混,来输出代表性的重新缩混信号。例如,可以由渲染单元303来提供传送到信号处理单元803的对象位置信息。根据如上所述的类似方法,渲染单元303可基于代表性SAOC比特流来创建代表性MPS比特流,其包括相对于输入到SAOC编码器101和MPS编码器801的音频信号的、用于要由MPS解码器805输出的音频信号的左信号和右信号中的每个的空间线索信息。
MPS解码器805可通过利用信号处理单元803而进行操作,来执行与图2的SAC解码器105相同的功能。
MPS解码器805将从信号处理单元803输出的代表性重新缩混信号恢复为所期望的输出,即具有各种声道的多对象信号。
利用图2的SAC解码器105或信号处理单元803进行操作的MPS解码器805的解码方法包括如下步骤:接收多声道和多对象缩混信号以及多声道多对象边信息信号;将多声道多对象缩混信号变换为多声道缩混信号;将多声道和多对象信息信号变换为多声道信息信号;基于变换后的多声道缩混信号和多声道信息信号来合成音频信号。
变换多声道缩混信号的步骤包括:基于从多声道和多对象信息信号获得的对象相关信息来从多声道多对象缩混信号去除对象信息的步骤。变换多声道缩混信号的步骤包括:基于从多声道多对象信息信号获得的对象相关信息来控制来自多声道多对象缩混信号的对象信息的步骤。
在包括变换多声道缩混信号的步骤的解码方法中,可通过对象控制信息来控制对象相关信息。这里,可通过解码系统信息来控制对象相关信息。
尽管上面结合设备描述了根据本发明的编码和解码过程,但是在设备中包括的每个组成元件也可以用在处理角度中所需要的每个构成元件来替换。在这个情况下,显然的是,根据本发明的编码和解码过程可结合方法来理解。
上面描述的本发明的技术可实现为程序并存储在计算机可读记录介质(诸如,CD-ROM、RAM、ROM、软盘、硬盘和磁光盘)中。由于本发明技术领域中的技术人员可容易地实现所述处理,所以这里将不再提供进一步的描述。
尽管已经结合特定的优选实施例来描述了本发明,但对于本领域的技术人员显然的是,可以做出各种改变和修改,而不脱离接下来的权利要求所限定的本发明的范围。
工业实用性
本发明可通过有效地编码和解码具有各种声道的多对象音频内容,而根据用户需求来主动地消费音频内容,并通过提供与传统上使用的比特流的后向兼容性来提供与传统的编码和解码设备的兼容性。

Claims (6)

1.一种用于编码多对象音频信号的设备,包括:
音频对象编码装置,用于基于空间线索来编码输入到编码设备的音频对象信号,并创建用于编码后的音频对象信号的渲染信息,
其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
2.根据权利要求1的编码设备,还包括:
音频声道编码装置,用于将输入到编码设备的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息;
预设声音场景创建装置,用于基于输入到编码设备的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息;和
代表性比特流创建装置,用于创建代表性比特流,该代表性比特流包括从音频对象编码装置输出的渲染信息、从音频声道编码装置输出的渲染信息、和预设信息,
其中从音频声道编码装置输出的渲染信息包括用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
3.根据权利要求2的编码设备,其中所述音频声道编码装置是运动图象专家组(MPEG)环绕编码器。
4.一种用于编码多对象音频信号的方法,包括如下步骤:
基于空间线索来对所输入的音频对象信号进行编码,并创建用于编码后的音频对象信号的渲染信息,
其中所述渲染信息包括用于音频对象信号的空间线索信息、音频对象信号的声道信息和音频对象信号的标识信息。
5.根据权利要求4的编码方法,还包括如下步骤:
将所输入的多声道音频信号变换为音频对象信号,并创建用于多声道音频信号的渲染信息;
基于所输入的控制信号来创建包括音频对象信号的声音信息和播放信息的预设信息;和
创建代表性比特流,该代表性比特流包括从所述对所输入的音频对象信号进行编码的步骤输出的渲染信息、从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息、和预设信息,
其中从所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤输出的渲染信息包括:用于多声道音频信号的空间线索信息、多声道音频信号的声道信息、和多声道音频信号的标识信息。
6.根据权利要求5的编码方法,其中所述将所输入的多声道音频信号变换为音频对象信号并创建用于多声道音频信号的渲染信息的步骤是在运动图象专家组(MPEG)环绕编码器中执行的。
CN201210381376.2A 2006-12-27 2007-12-27 用于编码多对象音频信号的设备和方法 Active CN102883257B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2006-0135400 2006-12-27
KR20060135400 2006-12-27
KR10-2007-0003897 2007-01-12
KR20070003897 2007-01-12
KR20070007724 2007-01-25
KR10-2007-0007724 2007-01-25
CN2007800517586A CN101632118B (zh) 2006-12-27 2007-12-27 用于对多对象音频信号进行编码和解码的设备和方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2007800517586A Division CN101632118B (zh) 2006-12-27 2007-12-27 用于对多对象音频信号进行编码和解码的设备和方法

Publications (2)

Publication Number Publication Date
CN102883257A true CN102883257A (zh) 2013-01-16
CN102883257B CN102883257B (zh) 2015-11-04

Family

ID=39562714

Family Applications (6)

Application Number Title Priority Date Filing Date
CN2013100537093A Pending CN103137131A (zh) 2006-12-27 2007-12-27 用于运动图象专家组环绕解码的代码转换设备
CN201210381376.2A Active CN102883257B (zh) 2006-12-27 2007-12-27 用于编码多对象音频信号的设备和方法
CN2007800517586A Active CN101632118B (zh) 2006-12-27 2007-12-27 用于对多对象音频信号进行编码和解码的设备和方法
CN201310053705.5A Active CN103137130B (zh) 2006-12-27 2007-12-27 用于创建空间线索信息的代码转换设备
CN201210033862.5A Active CN102595303B (zh) 2006-12-27 2007-12-27 代码转换设备和方法以及用于解码多对象音频信号的方法
CN201310056244.7A Active CN103137132B (zh) 2006-12-27 2007-12-27 用于编码多对象音频信号的设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2013100537093A Pending CN103137131A (zh) 2006-12-27 2007-12-27 用于运动图象专家组环绕解码的代码转换设备

Family Applications After (4)

Application Number Title Priority Date Filing Date
CN2007800517586A Active CN101632118B (zh) 2006-12-27 2007-12-27 用于对多对象音频信号进行编码和解码的设备和方法
CN201310053705.5A Active CN103137130B (zh) 2006-12-27 2007-12-27 用于创建空间线索信息的代码转换设备
CN201210033862.5A Active CN102595303B (zh) 2006-12-27 2007-12-27 代码转换设备和方法以及用于解码多对象音频信号的方法
CN201310056244.7A Active CN103137132B (zh) 2006-12-27 2007-12-27 用于编码多对象音频信号的设备

Country Status (6)

Country Link
US (2) US8370164B2 (zh)
EP (6) EP2595152A3 (zh)
JP (8) JP5941610B2 (zh)
KR (6) KR101086347B1 (zh)
CN (6) CN103137131A (zh)
WO (1) WO2008078973A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105593929A (zh) * 2013-07-22 2016-05-18 弗朗霍夫应用科学研究促进协会 实现3d音频内容的saoc降混合的装置及方法
US10249311B2 (en) 2013-07-22 2019-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
US10277998B2 (en) 2013-07-22 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
EP3712888B1 (en) 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
WO2010008200A2 (en) * 2008-07-15 2010-01-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5258967B2 (ja) * 2008-07-15 2013-08-07 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
BRPI0905069A2 (pt) * 2008-07-29 2015-06-30 Panasonic Corp Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
KR101600352B1 (ko) * 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
KR101129974B1 (ko) * 2008-12-22 2012-03-28 (주)오디즌 객체 기반 오디오 컨텐츠 생성/재생 방법 및 그 장치
US8255821B2 (en) * 2009-01-28 2012-08-28 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US20110054917A1 (en) * 2009-08-28 2011-03-03 Electronics And Telecommunications Research Institute Apparatus and method for structuring bitstream for object-based audio service, and apparatus for encoding the bitstream
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
GB2485979A (en) * 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
CN103460285B (zh) * 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
IN2014CN03413A (zh) 2011-11-01 2015-07-03 Koninkl Philips Nv
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
CA2893729C (en) 2012-12-04 2019-03-12 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
WO2015006112A1 (en) * 2013-07-08 2015-01-15 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
US9373320B1 (en) 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
US10023586B2 (en) * 2013-12-19 2018-07-17 Archer Daniels Midland Company Enhanced regio-selectivity in glycol acylation
CN108600935B (zh) * 2014-03-19 2020-11-03 韦勒斯标准与技术协会公司 音频信号处理方法和设备
JP6374980B2 (ja) * 2014-03-26 2018-08-15 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
KR102302672B1 (ko) 2014-04-11 2021-09-15 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
EP3134897B1 (en) 2014-04-25 2020-05-20 Dolby Laboratories Licensing Corporation Matrix decomposition for rendering adaptive audio using high definition audio codecs
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
WO2016204580A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
KR101754528B1 (ko) * 2016-03-23 2017-07-06 한국광기술원 건식 접착구조를 갖는 led 구조체 어레이의 전사체와 이를 이용한 led 구조체 어레이의 이송방법 및 led 구조체
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
CN108206021B (zh) * 2016-12-16 2020-12-18 南京青衿信息科技有限公司 一种后向兼容式三维声编码器、解码器及其编解码方法
CN110800048B (zh) * 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
JP6772215B2 (ja) 2018-05-28 2020-10-21 三井金属アクト株式会社 ドアロック装置対
JP6652990B2 (ja) * 2018-07-20 2020-02-26 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
GB201909133D0 (en) * 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
US12094476B2 (en) 2019-12-02 2024-09-17 Dolby Laboratories Licensing Corporation Systems, methods and apparatus for conversion from channel-based audio to object-based audio
KR102243889B1 (ko) 2019-12-13 2021-04-23 국방과학연구소 데이터 복호화 장치 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583962A (en) * 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
CN1783728A (zh) * 2004-12-01 2006-06-07 三星电子株式会社 通过使用空间信息来处理多声道音频信号的设备和方法
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
WO2006103581A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
WO2006108573A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Adaptive residual audio coding
WO2006126856A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method of encoding and decoding an audio signal

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815689A (en) * 1997-04-04 1998-09-29 Microsoft Corporation Method and computer program product for synchronizing the processing of multiple data streams and matching disparate processing rates using a standardized clock mechanism
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US20050004791A1 (en) 2001-11-23 2005-01-06 Van De Kerkhof Leon Maria Perceptual noise substitution
US7797631B2 (en) * 2002-09-18 2010-09-14 Canon Kabushiki Kaisha Document printing control apparatus and method
ATE527654T1 (de) * 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1859439B1 (en) * 2005-03-14 2013-10-30 Electronics and Telecommunications Research Institute Multichannel audio compression and decompression method using virtual source location information
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
WO2007091870A1 (en) 2006-02-09 2007-08-16 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
WO2008039038A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
WO2008039041A1 (en) 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
AU2007322488B2 (en) 2006-11-24 2010-04-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8073125B2 (en) * 2007-09-25 2011-12-06 Microsoft Corporation Spatial audio conferencing
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
BRPI0905069A2 (pt) * 2008-07-29 2015-06-30 Panasonic Corp Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583962A (en) * 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
CN1783728A (zh) * 2004-12-01 2006-06-07 三星电子株式会社 通过使用空间信息来处理多声道音频信号的设备和方法
WO2006103581A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
WO2006108573A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Adaptive residual audio coding
WO2006126856A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method of encoding and decoding an audio signal

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105593929A (zh) * 2013-07-22 2016-05-18 弗朗霍夫应用科学研究促进协会 实现3d音频内容的saoc降混合的装置及方法
US10249311B2 (en) 2013-07-22 2019-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
US10277998B2 (en) 2013-07-22 2019-04-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US10659900B2 (en) 2013-07-22 2020-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US10701504B2 (en) 2013-07-22 2020-06-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US10715943B2 (en) 2013-07-22 2020-07-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient object metadata coding
US11227616B2 (en) 2013-07-22 2022-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects
US11330386B2 (en) 2013-07-22 2022-05-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US11337019B2 (en) 2013-07-22 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US11463831B2 (en) 2013-07-22 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient object metadata coding
US11910176B2 (en) 2013-07-22 2024-02-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for low delay object metadata coding
US11984131B2 (en) 2013-07-22 2024-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for audio encoding and decoding for audio channels and audio objects

Also Published As

Publication number Publication date
US20130132098A1 (en) 2013-05-23
CN102883257B (zh) 2015-11-04
US9257127B2 (en) 2016-02-09
JP2010515099A (ja) 2010-05-06
EP2595151A3 (en) 2013-11-13
KR20130007526A (ko) 2013-01-18
JP2019074743A (ja) 2019-05-16
JP2013127635A (ja) 2013-06-27
CN103137132A (zh) 2013-06-05
KR101086347B1 (ko) 2011-11-23
CN103137130A (zh) 2013-06-05
EP2595148A3 (en) 2013-11-13
JP5941610B2 (ja) 2016-06-29
KR101309673B1 (ko) 2013-09-23
EP2595149A3 (en) 2013-11-13
KR20080063155A (ko) 2008-07-03
CN103137130B (zh) 2016-08-17
CN101632118B (zh) 2013-06-05
CN103137132B (zh) 2016-09-07
CN103137131A (zh) 2013-06-05
KR101395254B1 (ko) 2014-05-15
KR20100045960A (ko) 2010-05-04
KR20130007527A (ko) 2013-01-18
JP5752722B2 (ja) 2015-07-22
EP2595151A2 (en) 2013-05-22
KR101309672B1 (ko) 2013-09-23
KR101546744B1 (ko) 2015-08-24
JP6446407B2 (ja) 2018-12-26
US20100114582A1 (en) 2010-05-06
CN101632118A (zh) 2010-01-20
US8370164B2 (en) 2013-02-05
JP2013137550A (ja) 2013-07-11
EP2595149A2 (en) 2013-05-22
EP2595148A2 (en) 2013-05-22
EP2097895A4 (en) 2013-11-13
EP2097895A1 (en) 2009-09-09
EP2595152A2 (en) 2013-05-22
KR20130007525A (ko) 2013-01-18
CN102595303B (zh) 2015-12-16
EP2595152A3 (en) 2013-11-13
JP2013127634A (ja) 2013-06-27
WO2008078973A1 (en) 2008-07-03
EP2595150A2 (en) 2013-05-22
JP5674833B2 (ja) 2015-02-25
CN102595303A (zh) 2012-07-18
JP2016200824A (ja) 2016-12-01
KR101531239B1 (ko) 2015-07-06
EP2595150A3 (en) 2013-11-13
JP2013083986A (ja) 2013-05-09
KR20110036023A (ko) 2011-04-06
JP2013101384A (ja) 2013-05-23
JP5694279B2 (ja) 2015-04-01
JP6027901B2 (ja) 2016-11-16

Similar Documents

Publication Publication Date Title
CN101632118B (zh) 用于对多对象音频信号进行编码和解码的设备和方法
CN101689368B (zh) 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN101044550B (zh) 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法
CN101930741B (zh) 对多声道音频信号进行编码/解码的系统和方法
CN101479785B (zh) 用于编码和解码基于对象的音频信号的方法和装置
US8560303B2 (en) Apparatus and method for visualization of multichannel audio signals
CN101401151B (zh) 根据主分量分析的可分级多通道音频编码的设备和方法
MX2008012918A (es) Metodo de codificacion y decodificacion de señal de audio y aparato para los mismo.
CN103400583A (zh) 多声道下混对象编码的增强编码和参数表示
CN102768836A (zh) 用于编码和解码具有各种声道的多对象音频信号的设备和方法
CA2566366A1 (en) Audio signal encoder and audio signal decoder
CN102682773A (zh) 多对象音频解码设备
CN101490745B (zh) 用于编码和解码基于对象的音频信号的方法和装置
Marchand et al. DReaM: a novel system for joint source separation and multi-track coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant