CN103366747B - 用于控制音频信号的渲染的设备和方法 - Google Patents
用于控制音频信号的渲染的设备和方法 Download PDFInfo
- Publication number
- CN103366747B CN103366747B CN201310188735.7A CN201310188735A CN103366747B CN 103366747 B CN103366747 B CN 103366747B CN 201310188735 A CN201310188735 A CN 201310188735A CN 103366747 B CN103366747 B CN 103366747B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- signal
- information
- rendering
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 304
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000009877 rendering Methods 0.000 claims abstract description 119
- 238000013519 translation Methods 0.000 claims description 34
- 230000009471 action Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 13
- 108091006146 Channels Proteins 0.000 description 42
- 238000006243 chemical reaction Methods 0.000 description 39
- 239000013598 vector Substances 0.000 description 32
- 230000006870 function Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- NGGRGTWYSXYVDK-RRKCRQDMSA-N 4-amino-5-chloro-1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]pyrimidin-2-one Chemical compound C1=C(Cl)C(N)=NC(=O)N1[C@@H]1O[C@H](CO)[C@@H](O)C1 NGGRGTWYSXYVDK-RRKCRQDMSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于控制音频信号的渲染的设备。所述设备包括:空间线索渲染部件,用于接收空间线索信息、和有关作为按照空间音频编码(SAC)方法编码的缩混信号的输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息,并且为了由解码部件通过使用SAC解码方法执行解码该输入音频信号,基于该空间线索渲染部件所控制的受控空间线索信息,对该输入音频信号进行渲染。
Description
本专利申请是下列发明专利申请的分案申请:
申请号:200780011306.5
申请日:2007年2月5日
发明名称:使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
技术领域
本发明涉及控制多目标或多声道音频信号的渲染(rendering);并更具体地涉及一种当解码多目标或多声道音频信号时基于空间线索(spatial cue)控制多目标或多声道音频信号的渲染的方法和装置。
背景技术
图1图解说明了用于编码多目标或多声道音频信号的传统编码器的示例。参考该附图,空间音频编码(Spatial Audio Coding,SAC)编码器101被展示为传统的多目标或多声道音频信号编码器的示例,并且它从输入信号(即多目标或多声道音频信号)中提取空间线索(将在后面描述),并且传送该空间线索,同时对该音频信号进行缩混(down-mixing),并且以单声道(mono)信号或者立体声(stereo)信号的形式来传送该音频信号。
SAC技术涉及一种将多目标或多声道音频信号表示为缩混的单声道或立体声信号和空间线索信息、并且传送和恢复它们的方法。SAC技术甚至能够以低位速率传送高质量多声道信号。SAC技术集中于根据每个子带分析多目标或多声道音频信号,并且根据每个子带的空间线索信息从缩混的信号中恢复原始信号。因此,空间线索信息包括用于在解码处理中恢复原始信号所需的重要信息,并且该信息变成确定在SAC解码设备中恢复的音频信号的声音质量的主要因素。基于SAC技术的运动图像专家组(MPEG)正在经受MPEG环绕名义的标准化,并且声道电平差(Channel Level Difference,CLD)被用作空间线索。
本发明致力于一种用于在多目标或多声道音频信号被缩混并且从编码器传送并被解码的同时、基于从编码器传送的空间线索来控制多目标或多声道音频信号的渲染的装置和方法。
按照惯例,配备有频率分析器的图形均衡器通常被用来恢复单声道或立体声音频信号。多目标或多声道音频信号可以在空间内不同地定位。然而,从多目标或多声道音频信号生成的音频信号的位置对当前技术中的解码设备来说被唯一地识别和恢复。
发明内容
技术问题
本发明的一个实施例致力于提供一种当解码多目标或多声道音频信号时基于空间线索控制多目标或多声道音频信号的渲染的装置和方法。
本发明的其他方面和优点可以通过下列描述来理解,并且参考本发明的实施例而变得明显。而且,对于本发明领域的相关技术人员来说明显的是,本发明的方面和优点可以通过要求保护的部件及其组合来实现。
技术方案
根据本发明的一方面,提供了一种用于控制音频信号的渲染的装置,包括:解码器,用于使用空间音频编码(SAC)解码方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和空间线索渲染器,用于接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,该解码器基于由空间线索渲染器控制的受控空间线索信息对输入音频信号进行渲染。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的装置,包括:解码器,用于使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和空间线索渲染器,用于接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,该解码器基于由空间线索渲染器控制的空间线索信息进行输入音频信号的渲染,和所述空间线索信息是表示输入音频信号之间的电平差并表达为的声道电平差(CLD)值。该空间线索渲染器包括:CLD分析单元,用于从编码部件传送的CLD中提取CLD参数;增益因子转换单元,用于从自CLD分析单元中提取的CLD参数中提取每个音频信号的功率增益;和增益因子控制单元,用于通过基于有关输入音频信号的渲染的控制信息控制在增益因子转换单元中提取的每个音频信号的功率增益,来计算受控功率增益,m表示子带的索引,l表示中的参数组的索引。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的装置,包括:解码器,用于使用空间音频编码(SAC)方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和空间线索渲染器,用于接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,该解码器基于由空间线索渲染器控制的空间线索信息来进行输入音频信号的渲染,和从缩混的信号L0和R0中提取中央信号(C)、左半平面信号(Lf+Ls)和右半平面信号(Rf+Rs),和所述空间线索信息是表示输入音频信号之间的电平差并表达为CLDLR/Clfe,CLDL/R,CLDC/lfe,CLDLf/Ls和CLDRf/Rs的CLD值。该空间线索渲染器包括:CLD分析单元,用于从编码器传送的CLD中提取CLD参数;增益因子转换单元,用于从自CLD分析单元中提取的CLD参数中提取每个音频信号的功率增益;和增益因子控制单元,用于通过基于有关输入音频信号的渲染的控制信息控制在增益因子转换单元中提取的每个音频信号的功率增益,来计算受控功率增益。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的装置,包括:解码器,用于使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和空间线索渲染器,用于接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,该解码器基于由空间线索渲染器控制的空间线索信息进行输入音频信号的渲染,和所述空间线索信息是表示输入音频信号的缩混率的声道预测系数(CPC)和表示输入音频信号之间的电平差的声道电平差(CLD)值。该空间线索渲染器包括:CPC/CLD分析单元,用于从编码器传送的CPC和CLD中提取CPC参数和CLD参数;增益因子转换单元,用于通过从在CPC/CLD分析单元中提取的CPC参数中提取中央信号、左半平面信号和右半平面信号并且从CLD参数中提取左信号分量和右信号分量的功率增益,而提取每个信号的功率增益;和增益因子控制单元,用于通过基于有关输入音频信号的渲染的控制信息控制在增益因子转换单元中提取的每个音频信号的功率增益,而计算受控功率增益。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的装置,包括:解码器,用于使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和空间线索渲染器,用于接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,该解码器基于由空间线索渲染器控制的空间线索信息进行输入音频信号的渲染,和该空间线索信息是表示输入音频信号之间的相关性的声道间相关性(ICC)值,和该空间线索渲染器通过线性内插处理来控制ICC参数。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的方法,包括步骤:a)使用SAC解码方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和b)接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,基于在空间线索渲染步骤b)中控制的受控空间线索信息,在解码步骤a)中对输入音频信号进行渲染。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的方法,包括步骤:a)使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和b)接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,在解码步骤a)中,基于在空间线索渲染步骤b)中控制的空间线索信息进行输入音频信号的渲染,和所述空间线索信息是表示输入音频信号之间的电平差并表达为的CLD值。这里,该空间线索渲染步骤b)包括步骤:b1)从编码器传送的CLD中提取CLD参数;b2)从自CLD分析步骤b1)中提取的CLD参数中提取每个音频信号的功率增益;和b3)通过基于有关输入音频信号的渲染的控制信息控制在增益因子转换步骤b2)中提取的每个音频信号的功率增益,来计算受控功率增益,m表示子带的索引,而l表示中的参数组的索引。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的方法,包括步骤:a)使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和b)接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,在解码步骤a)中,基于在空间线索渲染步骤b)中控制的空间线索信息进行输入音频信号的渲染,和从缩混的信号L0和R0中提取中央信号(C)、左半平面信号(Lf+Ls)和右半平面信号(Rf+Rs),和所述空间线索信息是表示输入音频信号之间的电平差并表达为CLDLR/Clfe,CLDL/R,CLDC/lfe,CLDLf/Ls和CLDRf/Rs的CLD值。该空间线索渲染步骤b)包括步骤:b1)从编码器传送的CLD中提取CLD参数;b2)从在CLD分析步骤b1)中提取的CLD参数中提取每个音频信号的功率增益;和b3)通过基于有关输入音频信号的渲染的控制信息控制在增益因子转换步骤b2)中提取的每个音频信号的功率增益,来计算受控功率增益,
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的方法,包括步骤:a)使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和b)接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,在解码步骤a)中,基于在空间线索渲染步骤b)中控制的空间线索信息,进行输入音频信号的渲染,和所述空间线索信息是表示输入音频信号的缩混率的CPC和表示输入音频信号之间的电平差的CLD。这里,该空间线索渲染步骤b)包括:b1)从编码器传送的CPC和CLD中提取CPC参数和CLD参数;b2)通过从在CPC/CLD分析步骤b1)中提取的CPC参数中提取中央信号、左半平面信号和右半平面信号并且从CLD参数中提取左信号分量和右信号分量的功率增益,而提取每个信号的功率增益;和b3)通过基于有关输入音频信号的渲染的控制信息控制在增益因子转换步骤b2)中提取的每个音频信号的功率增益,来计算受控功率增益。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的方法,包括步骤:a)使用SAC方法来解码输入音频信号,所述输入音频信号是按照SAC方法编码的缩混信号;和b)接收空间线索信息和有关该输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息。这里,在解码步骤a)中,基于在空间线索渲染步骤b)中控制的空间线索信息,进行输入音频信号的渲染,并且该空间线索信息是表示输入音频信号之间的相关性的声道间相关性(ICC)值,和在空间线索渲染步骤b)中,通过线性内插处理来控制ICC参数。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的设备,包括:空间线索渲染部件,用于接收空间线索信息、和有关作为按照空间音频编码(SAC)方法编码的缩混信号的输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息,并且为了由解码部件通过使用SAC解码方法执行解码该输入音频信号,基于该空间线索渲染部件所控制的受控空间线索信息,对该输入音频信号进行渲染。
根据本发明的另一方面,提供了一种用于控制音频信号的渲染的方法,包括以下步骤:接收空间线索信息、和有关作为按照空间音频编码(SAC)方法编码的缩混信号的输入音频信号的渲染的控制信息,并且基于该控制信息来控制空间线索域中的空间线索信息,并且为了由解码步骤通过使用SAC解码方法执行解码该输入音频信号,基于在控制该空间线索信息的处理中所控制的受控空间线索信息,对该输入音频信号进行渲染。
根据本发明,一旦接收到来自用户或者通信的外部系统的请求,通过直接控制空间线索,可能灵活地控制多目标或多声道音频信号的位置。
有利效果
本发明提供了一种当解码多目标或多声道音频信号时、基于空间线索控制多目标或多声道音频信号的渲染的装置和方法。
附图说明
图1是示出传统的多目标或多声道音频信号编码器的示例图。
图2示出了根据本发明实施例的音频信号渲染控制器。
图3是图解说明恢复的平移(panning)多声道信号的示例图。
图4是描绘根据本发明实施例的当声道电平差(CLD)被用作空间线索时图2中示出的空间线索渲染器的方框图。
图5图解说明了利用恒定功率平移(Constant Power Panning,CPP)将音频信号映射到期望位置的方法。
图6示意性示出了包括信号之间的角度关系的布局。
图7是描绘当SAC解码器处于MPEG环绕立体声模式时根据本发明实施例的空间线索渲染器的详细方框图。
图8图解说明了用于解码多目标或多声道音频信号的空间解码器。
图9图解说明了作为空间解码器的三维(3D)立体声音频信号解码器。
图10是示出应用到图8和图9的空间线索渲染器的实施例的视图。
图11是图解说明采用双声道(binaural)立体声解码的运动图像专家组(MPEG)环绕解码器的视图。
图12是描绘根据本发明另一个实施例的音频信号渲染控制器的视图。
图13是图解说明图12的声场定位器(spatializer)的详细方框图。
图14是描绘本发明实施例所应用到的多声道音频解码器的视图。
具体实施方式
下面的描述仅例示了本发明的原理。即使它们在本说明书中未被清楚地描述或者图解说明,本领域的普通技术人员也可以在本发明的概念和范畴之内实施本发明的原理并且发明各种装置。本说明书中展示的条件性术语和实施例的使用仅旨在使得本发明的概念容易理解,并且它们不限于说明书中提到的实施例和条件。
另外,有关本发明的原理、观点和实施例以及特定实施例的所有详细描述应当被理解为包括结构性和功能性的等效物。所述等效物不仅包括当前已知的等效物,还包括将来要研发的那些等效物,即,被发明来执行相同功能的所有设备,而不管它们的结构如何。
例如,本发明的方框图应当被理解为示出了体现本发明的原理的示例性电路的概念性观点。类似地,所有流程图、状态转换图、伪代码等能够基本上在计算机可读介质中表达,并且无论是否区别地描述了计算机或处理器,它们都应当被理解为表达由计算机或者处理器操作的各种处理。
附图中图示的包括表达为处理器或者类似概念的功能块的各种设备的功能不仅可以使用专用于所述功能的硬件来提供,还可以使用能够运行所述功能的合适软件的硬件来提供。当通过处理器提供功能时,所述功能可以通过单个专用处理器、单个共享处理器、或者多个独立处理器来提供,它们中的一部分可被共享。
术语“处理器”、“控制”或者类似概念的明显的使用不应当被理解为排他地表示能够运行软件的一块硬件,而是应当被理解为含蓄地包括数字信号处理器(DSP)、硬件以及用于存储软件的ROM、RAM和非易失性存储器。这里也可以包括其他已知和公用的硬件。
类似地,可以仅在概念上展示附图中描述的切换。所述切换的功能应当被理解为手动执行,或者通过控制程序逻辑或者专用逻辑来执行,或者通过专用逻辑的交互作用来执行。设计者可以选择特定技术,用以更深入地理解本说明书。
在本说明书的权利要求中,被表达为用于执行在详细描述中所描述的功能的部件的元件意欲包括用于执行包括所有格式的软件的功能的所有方法,例如,用于执行预期功能的电路、固件/微码等的组合。
为了执行预期功能,所述元件与用于执行软件的合适电路协作。由权利要求限定的本发明包括用于执行特定功能的不同的部件,并且所述部件以权利要求中请求的方法相互连接。因此,能够提供所述功能的任何部件应当被理解为等效于从本说明书中概括的部件。
参考附图,从下文所阐述的实施例的下列描述中,本发明的优点、特征和方面将变得明显。如果对相关现有技术的进一步详细描述被确定为模糊了本发明的发明点,则省略所述描述。下文中,将参考附图来详细描述本发明的优选实施例。
图2示出了根据本发明的实施例的音频信号渲染控制器。参考该附图,音频信号渲染控制器采用空间音频编码(SAC)解码器203,该SAC解码器203是对应于图1的SAC编码器101的组成元件,并且音频信号渲染控制器另外包括空间线索渲染器201。
输入到SAC解码器203的信号是从编码器(例如,图1的SAC编码器)传送的缩混的单声道或立体声信号。输入到空间线索渲染器201的信号是从编码器(例如,图1的SAC编码器)传送的空间线索。
空间线索渲染器201控制空间线索域中的渲染。具体地,空间线索渲染器201不通过直接控制SAC解码器203的输出信号来进行渲染,而是通过从空间线索中提取音频信号信息来进行渲染。
这里,空间线索域是其中从编码器传送的空间线索作为参数被识别并且被控制的参数域。渲染是一种通过确定输入音频信号的位置和电平而生成输出音频信号的处理。
SAC解码器203可以采用诸如MPEG环绕、双声道线索编码(BCC)和声源位置线索编码(Sound Source Location Cue Coding,SSLCC)之类的方法,但是本发明不限于此。
根据本发明的实施例,可应用的空间线索被定义为:
声道电平差(CLD):输入音频信号之间的电平差
声道间相关性(ICC):输入音频信号之间的相关性
声道预测系数(CPC):输入音频信号的缩混率
换句话说,CDC是音频信号的功率增益信息,而ICC是音频信号之间的相关性信息。CTD是音频信号之间的时间差信息,而CPC是音频信号的缩混增益信息。
空间线索的主要作用是维持空间图像(即声音场景(scene))。根据本发明,声音场景可以通过控制空间线索参数而不是直接操纵音频输出信号来控制。
当考虑音频信号的再现环境时,最常使用的空间线索是CLD,该CLD单独一个就可以生成基本输出信号。下文中,将基于CLD来描述用于控制空间线索域中的信号的技术作为本发明的实施例。然而,本发明不限于该CLD,并且这对于本发明所属领域的普通技术人员是显而易见的。因此,应当理解,本发明不限于CLD的使用。
根据使用CLD的实施例,可以通过将声音平移定律直接应用于功率增益系数,来平移多目标和多声道音频信号。
根据该实施例,通过控制空间线索,基于整个波段中的平移位置,可以恢复多目标和多声道音频信号。CLD被操纵来估计对应于期望平移位置的每个音频信号的功率增益。该平移位置可以通过从外部输入的交互作用控制信号自由地输入。图3是图解说明所恢复的平移多声道信号的示意图。每个信号以给定角度θpan旋转。然后,用户可以识别旋转的声音场景。在附图3中,Lf表示左前声道信号;Ls表示左后声道信号;Rf表示右前声道信号;Rs表示右后声道信号;C表示中央声道信号。因此[Lf+Ls]表示左半平面信号,以及[Rf+Rs]表示右半平面信号。尽管图3中未示出,但是Lfe表示低音扬声器(woofer)信号。
图4是描绘根据本发明实施例的当CLD被用作空间线索时图2中示出的空间线索渲染器的方框图。
参考该附图,使用CLD作为空间线索的空间线索渲染器201包括CLD分析单元401、增益因子转换单元403、增益因子控制单元405、和CLD转换单元407。
CLD分析单元401从接收到的空间线索(即CLD)中提取CLD参数。CLD包括音频信号的电平差信息,并且它被表达为:
公式1
其中表示第m子带中的第k输入音频信号的子带功率。
增益因子转换单元403从在CLD分析单元401中获得的CLD参数中提取每个音频信号的功率增益。
参考公式1,当在第m子带中输入M个音频时,第m子带中可提取的CLD的数目是M-1(1≤i≤M-1)。因此,基于如下表达的公式2,从CLD中获取每个音频信号的功率增益:
公式2
因此,从第m子带中的M-1CLD中可以获取M输入音频信号的功率增益。
同时,由于基于输入音频信号的子带而提取空间线索,因此也基于子带来提取功率增益。当提取第m子带中的所有输入音频信号的功率增益时,它们可被表达为如公式3中所示的矢量矩阵:
公式3
其中m表示子带索引;
表示第m子带中第k输入音频信号(1≤k≤M)的子带功率增益;和
Gm表示指明第m子带中所有输入音频信号的功率增益的矢量。
在增益因子转换单元中提取的每个音频信号的功率增益(Gm)被输入到增益因子控制单元405并且被调节。所述调节控制输入音频信号的渲染,并且最终形成期望的音频场景。
输入到增益因子控制单元405的渲染信息包括输入音频信号的数目(N)、包括突发(burst)和抑制(suppression)的每个输入音频信号的虚拟位置和电平、输出音频信号的数目(M)、以及虚拟位置信息。增益因子控制单元405接收有关输入音频信号的渲染的控制信息,该控制信息是包括输入音频信号的输出位置和输出电平的音频场景信息。该音频场景信息是由外面的用户输入的交互作用控制信号。然后,增益因子控制单元405调节从增益因子转换单元403输出的每个输入音频信号的功率增益(Gm),并且获取如公式4所示的受控功率增益(outGm)。
公式4
例如,当指示(directing)第m子带中的第一输出音频信号的电平的抑制被输入为渲染控制信息时,增益因子控制单元405基于从增益因子转换单元403输出的每个音频信号的功率增益(Gm)而计算受控功率增益(outGm),如公式5所示。
公式5
当对公式5进行更具体地表达时,它等于下列公式6。
公式6
换句话说,通过将矩阵的第m子带中的第一输入音频信号的因子调节为0,可以消除第m子带中的第一输出音频信号的电平。这被称作为抑制。
同样地,可能突发特定输出音频信号的电平。毕竟,根据本发明的实施例,通过改变基于空间线索获得的功率增益值,可以控制输出音频信号的输出电平。
作为本发明的另一实施例,当指示第m子带的第一输入音频信号应当位于第m子带的第一输出音频信号和第二输出音频信号之间的渲染信息(例如,有关平面的角度信息,θ=45°)被输入到增益因子控制单元405时,增益因子控制单元405基于从增益因子转换单元403输出的每个音频信号的功率增益(Gm)来计算受控功率增益(outGm),如公式7所示。
公式7
该公式7可被具体表达为下列公式8。
公式8
在输出音频信号之间映射输入音频信号的方法的一般实施例是采用平移定律的映射方法。平移定律包括正弦平移定律、正切平移定律和恒定功率平移定律(CPP定律)。不管平移定律的种类如何,通过平移定律实现的效果都是相同的。
下文中,描述根据本发明实施例的基于CPP在期望位置处映射音频信号的方法。然而,本发明不只限于CPP的使用,并且本发明不限于CPP的使用对于本发明所属领域的普通技术人员是显而易见的
根据本发明的实施例,对于给定平移角度,基于CPP来平移所有多目标或多声道音频信号。而且,CPP未被应用到输出音频信号,而是被应用到从CLD值提取的功率增益,以便利用空间线索。在应用CPP之后,音频信号的受控功率增益被转换为CLD,该CLD被传送到SAC解码器203,从而产生平移的多目标或多声道音频信号。
图5图解说明了根据本发明实施例的利用CPP将音频信号映射到期望位置的方法。如附图所图示,输出信号1和2和的位置分别是0°和90°。因此,在图5中,张角为90°。
当第一输入音频信号位于输出信号1和2和之间的θ处时,α,β值被分别定义为α=cos(θ),β=sin(θ)。根据CPP定律,输入音频信号的位置被投影到输出音频信号的轴,并且使用正弦和余弦函数来计算α,β值。然后,获得受控功率增益,并且控制音频信号的渲染。基于α,β值获取的受控功率增益(outGm)被表达为公式9。
公式9
其中α=cos(θ),β=sin(θ)。
公式9可被具体表达为下列公式10。
公式10
其中,α,β值根据其应用的平移定律可以不同。
通过将输入音频信号的功率增益映射到输出音频信号的虚拟位置从而它们符合预定的张角,可以获取α,β值。
根据本发明的实施例,通过控制空间线索域中诸如输入音频信号的功率增益信息之类的空间线索,可以将渲染控制成将输入音频信号映射到期望位置。
上面,已经描述了输入音频信号的功率增益的数目与输出音频信号的功率增益的数目相同的情况。当输入音频信号的功率增益的数目不同于输出音频信号的功率增益的数目时(这是普遍情况),公式6、8和1的矩阵的维数不被表达为M×M而是M×N。
例如,当输出音频信号的数目是4(M=4)和输入音频信号的数目是5(N=5)时并且当渲染控制信息(例如,输入音频信号的位置和输出音频信号的数目)被输入到增益因子控制器405时,增益因子控制器405根据从增益因子转换单元403输出的每个音频信号的功率增益(Gm)计算受控功率增益(outGm)。
公式11
根据公式11,N(N=5)个输入音频信号被如下映射成M(M=4)个输出音频信号。第一输入音频信号基于α1,β1值被映射在输出音频信号1和2和之间。第二输入音频信号基于α2,β2值被映射在输出音频信号2和4和之间。第三输入音频信号基于α3,β3值被映射在输出音频信号3和4和之间。第四输入音频信号基于α4,β4值被映射在输出音频信号2和4和之间。第五输入音频信号基于α5,β5值被映射在输出音频信号1和3和之间。
简言之,当用于映射在预定的输出音频信号之间的值(其中k是输入音频信号的索引,k=1,2,3,4,5)的α,β值被定义为αk,βk时,可以将N(N=5)个输入音频信号映射到M(M=4)个输出音频信号。因此,不管输出音频信号的数目如何,输入音频信号都可被映射到期望位置。
为了使得第k输入音频信号的输出电平为0值,将αk,βk值单独地设定为0,这是抑制。
从增益因子控制器405输出的受控功率增益(outGm)在CLD转换单元407中被转换为CLD值。通过常用对数的计算,CLD转换单元407将如下列公式12中所示的受控功率增益(outGm)转换为转换后的CLD值,其为由于受控功率增益(outGm)是功率增益,所以乘以20。
转换后的 公式12
其中CLD转换单元407中获取的值是从受控功率增益(outGm)的因子的组合中获取的,并且比较信号或并非必须对应于用于计算输入CLD值的信号或从M-1个组合中获取转换后的CLD值以表达受控功率增益(outGm)可能是足够的。
在CLD转换单元407中获取的转换后的信号被输入到SAC解码器203中。
在下文中,将根据本发明的另一实施例来描述上述增益因子转换单元403、增益因子控制单元405和CLD转换单元407的操作。
增益因子转换单元403从在CLD分析单元401中提取的CLD参数中提取输入音频信号的功率增益。对于每个子带,CLD参数被转换为两个输入信号的增益系数。例如,在称作5152模式的单声道信号传送模式的情况下,基于下列公式13,增益因子转换单元403从CLD参数中提取功率增益和这里,5152模式在由ISO/IEC JTC(国际标准化组织/国际电工委员会联合技术委员会)于2005年2月公布的国际标准MPEG环绕(WDN7136,23003-1:2006/FDIS)中得以详细公开。由于5152模式只是用于描述本发明的单纯实施例,因此这里将不提供对5152模式的详细描述。上述国际标准在其有助于描述本发明的范围内占用了本说明书的一部分。
公式13
其中m表示子带的索引;
l表示参数组的索引;和
Clfe和LR分别表示中央信号与低音扬声器(lfe)信号的总和以及左平面信号(Ls+Lf)与右平面信号(Rs+Rf)的总和。
根据本发明的实施例,所有输入音频信号的功率增益可以基于公式13来计算。
随后,每个子带的功率增益(pG)可以基于下列公式14从输入音频信号的功率增益的乘积来计算。
公式14
随后,从增益因子转换单元403中提取的每个音频信号的声道增益(pG)被输入到增益因子控制单元405,以被调节。由于输入音频信号的渲染是通过所述调节来控制的,因此最终可以形成期望的音频信号。
根据实施例,将CPP定律应用于一对相邻的声道增益。首先,θm值是用于渲染输入音频信号的控制信息,并且它是基于下列公式15从给定的θpan值计算出的。
公式15
这里,张角是两个输出信号之间的角度,并且θ1值(θ1=0)是基准输出信号的位置的角度。例如,图6示意性示出了包括角度之间的关系的立体声布局。
因此,基于控制信息(θpan)的用于渲染输入音频信号的平移增益如下列公式16所定义。
pGc1=cos(θm)
pGc2=sin(θm) 公式16
当然,张角角度根据输出信号之间的角度而变化。当输出信号是前面一对(C和Lf或者C和Rf)时,张角角度是30°;当输出信号是侧面一对(Lf和Ls或者Rf和Rs)时,张角角度是80°;以及当输出信号是后面一对(Ls和Rs)时,张角角度是140°。对于每个子带中的所有输入音频信号,根据平移角度来获取基于CPP定律控制的受控功率增益(例如,公式4的outGm)。
从增益因子控制单元405输出的受控功率增益在CLD转换单元407中被转换为CLD值。通过下列公式17中表达的对受控功率增益的常用对数的计算,CLD转换单元407被转换为与作为转换后的CLD值的值对应的作为CLD值的值。CLD值被输入到SAC解码器203。
公式17
下文中,描述当SAC解码器203是作为所谓525模式的MPEG环绕立体声模式时将CLD、CPC和ICC用作空间线索的结构。在MPEG环绕立体声模式中,左信号L0和右信号R0被接收为输入音频信号,多声道信号被输出为输出信号。MPEG环绕立体声模式在由ISO/IEC JTC于2005年2月发布的国际标准MPEG环绕(WD N7136,23003-1:2006/FDIS)中得以详细地描述。在本发明中,MPEG环绕立体声模式只是用于描述本发明的实施例。因此,将不提供对其的详细描述,并且国际标准在有助于理解本发明的范围之内形成本说明书的一部分。
当SAC解码器203是MPEG环绕立体声模式时,SAC解码器203用于从输入音频信号L0和R0生成多声道信号所需的矢量的对角矩阵元素被固定为0,如公式18所示。这意味着在MPEG环绕立体声模式中,R0信号对Lf和Ls信号的生成没有帮助,以及L0信号对Rf和Rs信号的生成没有帮助。因此,基于用于渲染输入音频信号的控制信息,不可能对音频信号执行渲染。
公式18
其中是从自CLD获取的功率增益中生成的系数(i和j是矢量矩阵索引;
m是子带索引;以及l是参数组索引)。
用于MPEG环绕立体声模式的CLD包括CLDLR/Clfe,CLDL/R,CLDC/lfe,CLDLf/Ls和CLDRf/Rs。CLDLf/Ls是左后声道信号(Ls)和左前声道信号(Lf)之间的子带功率比(dB),而CLDRf/Rs是右后声道信号(Rs)和右前声道信号(Rf)之间的子带功率比(dB)。其他CLD值是如其下标标注的声道的功率比。
MPEG环绕立体声模式的SAC解码器203从基于公式18输入的右和左信号(L0,R0)中提取中央信号(C)、左半平面信号(Ls+Lf)和右半平面信号(Rf+Rs)。左半平面信号(Ls+Lf)中的每一个。右半平面信号(Rf+Rs)和左半平面信号(Ls+Lf)被分别用来生成右信号分量(Rf,Rs)和左信号分量(Ls,Lf)。
从公式18中可以看出左半平面信号(Ls+Lf)是从输入的左信号(L0)中生成的。简言之,右半平面信号(Rf+Rs)和中央信号(C)对左信号分量(Ls,Lf)的生成没有帮助。相反,情况是相同的。(也就是,R0信号对Lf和Ls信号的生成没有帮助,并且类似地,L0信号对Rf和Rs信号的生成没有帮助)。这意味着平移角度局限为大约±30°用以渲染音频信号。
根据本发明的实施例,上面的公式18被修改为公式19,以便灵活地控制多目标或多声道音频信号的渲染。
公式19
其中mtttLowProc表示子带的数目。
与公式18不同,公式19表明右半平面信号(Rf+Rs)和中央信号(C)对左信号分量(Ls,Lf)的生成有帮助,反之亦然(这表明R0信号对Lf和Ls信号的生成有帮助,并且类似地,L0信号对Rf和Rs信号的生成有帮助)。这意味着平移角度不局限用以渲染音频信号。
图2和图4中示出的空间线索渲染器201基于输入音频信号的功率增益和用于渲染输入音频信号的控制信息(例如,从外部输入的交互作用控制信号),而输出受控功率增益(outGm)或者转换后的CLD值所述受控功率增益(outGm)或者转换后的CLD值被用来计算系数该系数形成公式19的矢量。元素和如下列公式20所定义。
公式20
和的功能不是提取中央信号分量(C)而是以平移角度将半平面信号投影到相反的半平面。和如下列公式21所定义。
公式21
其中功率增益(PC,PLf,PLs,PRf,PRs)是基于根据公式2从CLD分析单元401输入的CLD值(CLDLR/Clfe,CLDL/R,CLDC/lfe,CLDLf/Ls和CLDRf/Rs)来计算的。
是基于平移定律的投影功率,与PC,PLf,PLs的组合成比例。类似地,与PC,PRf,PRs的组合成比例。和分别是对于左半平面的中央声道和右半平面的中央声道的平移功率增益。
公式19到21旨在根据作为交互作用控制信号的控制信息灵活地控制输入音频信号的左信号(L0)和右信号(R0)的渲染。增益因子控制单元405接收控制信息,该控制信息是用于渲染输入音频信号的交互作用控制信号,例如,角度信息θpan=40°。然后,它调节从增益因子转换单元403输出的每个输入音频信号的功率增益(PC,PLf,PLs,PRf,PRs),并且如下列公式22所示计算附加的功率增益和
公式22
其中α=cos(θpan),β=sin(θpan);并且θm如公式15中所定义。
所获取的功率增益(PC,PLf,PLs,PRf,PRs、和)被输出为受控功率增益,它们在下列公式23中展示。
公式23
这里,对于CL和CR,单独地计算中央信号(C),因为应该从L0和R0两者中计算出中央信号。在MPEG环绕立体声模式中,增益因子控制单元405输出公式23的受控功率增益,并且通过将受控功率增益应用于基于公式19的矢量输入的输入音频信号L0和R0,SAC解码器203基于有关输入音频信号的渲染的控制信息(即交互作用控制信号)来对输入音频信号执行渲染。
这里,L0和R0应当被预混音或预处理,以便基于如公式20表达的矩阵元素来获得公式19的矢量,从而在SAC解码器203中基于公式19的矢量来控制输入音频信号L0和R0的渲染。预混音或预处理使得可能控制受控功率增益(outGm)或者转换后的CLD值的渲染。
图7是描绘当SAC解码器203处于MPEG环绕立体声模式时、根据本发明实施例的空间线索渲染器201的详细方框图。如所示,使用CLD或CPC作为空间线索的空间线索渲染器201包括CPC/CLD分析单元701、增益因子转换单元703、增益因子控制单元705、和CLD转换单元707。
当SAC解码器203在MPEG环绕立体声模式中使用CPC和CLD作为空间线索时,CPC基于编码器中的一些合适的标准进行预测,以便确保用于播放的缩混信号和输出信号的质量。结果,CPC表示压缩的增益比,并且在本发明的实施例中,它被传递到音频信号渲染装置。
毕竟,在空间线索渲染器201中,有关标准的信息的缺乏阻碍了对CPC参数的精确分析。换句话说,即使空间线索渲染器201可以控制音频信号的功率增益,但是一旦音频信号的功率增益根据有关音频信号的渲染的控制信息(例如,交互作用控制信号)而改变(其意思是指“受控”),则从音频信号的受控功率增益中没有计算出CPC值。
根据本发明的实施例,通过CPC从输入音频信号L0和R0中提取中央信号(C)、左半平面信号(Ls+Lf)和右半平面信号(Rs+Rf)。从CLD中提取其他音频信号,包括左信号分量(Ls,Lf)和右信号分量(Rf,Rs)。计算所提取的音频信号的功率增益。不通过直接操纵音频输出信号,而是通过控制空间线索参数,来控制声音场景,从而根据有关音频信号的渲染的控制信息来改变(即控制)获取的功率增益。
首先,CPC/CLD分析单元701从接收到的空间线索(它们是CPC和CLD)中提取CPC参数和CLD参数。增益因子转换单元703基于下列公式24从在CPC/CLD分析单元701中提取的CPC参数中提取中央信号(C)、左半平面信号(Ls+Lf)和右半平面信号(Rf+Rs)。
公式24
其中l0,r0,l,r,c分别表示输入的音频信号L0和R0、左半平面信号(Ls+Lf)、右半平面信号(Rf+Rs)和中央信号(C);和MPDC表示CPC系数矢量。
增益因子转换单元703计算中央信号(C)、左半平面信号(Ls+Lf)、和右半平面信号(Rf+Rs)的功率增益,并且它也计算其他音频信号的功率增益,包括分别来自在CPC/CLD分析单元701中提取的CLD参数(CLDLf/Ls,CLDRf/Rs)的左信号分量(Ls,Lf)和右信号分量(Rf,Rs),例如公式2。因此,子带的功率增益被全部获取。
随后,增益因子控制单元705接收有关输入音频信号的渲染的控制信息(即交互作用控制信号),控制在增益因子转换单元703中获取的子带的功率增益,并且计算公式4中示出的受控功率增益。
受控功率增益在SAC解码器203中通过公式19的矢量被应用到输入音频信号L0和R0,从而根据有关输入音频信号的渲染的控制信息(即交互作用控制信号)执行渲染。
同时,当SAC解码器203处于MPEG环绕立体声模式并且它使用ICC作为空间线索时,空间线索渲染器201通过如下列公式25所示的线性内插处理来校正ICC参数。
ICCLs,Lf=(1-η)ICCLs,Lf+ηICCRs,Rf
ICCRs,Rf=(1-η)ICCRs,Rf+ηICCLs,Lf
公式25
其中θpan表示作为有关输入音频信号的渲染的控制信息(即交互作用控制信号)输入的角度信息。
简言之,根据旋转角度(θpan)来线性地内插左ICC值和右ICC值。
同时,传统SAC解码器接收空间线索,例如CLD,将其转换为功率增益,并且基于该功率增益来解码输入音频信号。
这里,在本发明的实施例中,输入到传统的SAC解码器的CLD对应于CLD转换单元407的转换后的信号值在本发明的实施例中,由传统的SAC解码器控制的功率增益对应于增益因子控制单元405的功率增益(outGm)。
根据本发明的另一个实施例,SAC解码器203可以使用在增益因子控制单元405中获取的功率增益(outGm)作为空间线索,而不是使用在CLD转换单元407中获取的转换后的信号值由此,可以省略在SAC解码器203中将空间线索(即)转换为功率增益(outGm)的处理。在这种情况下,由于SAC解码器203不需要在CLD转换单元407中获取的转换后的信号值因此空间线索渲染器201可能被设计为不包括CLD转换单元407。
同时,本发明的附图中图解说明的块的功能可被集成到一个单元中。例如,空间线索渲染器201可被形成为包含在SAC解码器203中。构成部件间的这种集成属于本发明的范畴和范围之内。尽管所述块在附图中被单独地图解说明,但是这意味着每个块应被形成为单独的单元。
图8和图9展示了可应用图2的音频信号渲染控制器的本发明的实施例。图8图解说明了用于解码多目标或多声道音频信号的空间解码器。图9图解说明了作为空间解码器的三维(3D)立体声音频信号解码器。
图8和图9的SAC解码器803和903可以采用使用空间线索的音频解码方法,例如MPEG环绕、双声道线索编码(BCC)、和声源位置线索编码(SSLCC)。图8和图9的平移工具801和901对应于图2的空间线索渲染器201。
图10是示出可应用到图8和图9的空间线索渲染器201的示例的视图。
图10对应于图4的空间线索渲染器。图10中所示的空间线索渲染器被设计来处理其他空间线索,例如CPC和ICC,并且图4的空间线索渲染器仅处理CLD。这里,为了简洁而省略分析单元和CLD转换单元,并且有关输入音频信号的渲染的控制信息(即交互作用控制信号)以及增益因子控制单元被分别展示为控制参数和增益平移单元。增益因子控制单元的输出表明受控功率增益,并且它可被输入到空间线索渲染器201。如上所述,本发明可以基于输入到解码器的空间线索(即CLD)来控制输入音频信号的渲染。图10中示出了本发明的实施例。
根据图10中图解说明的空间线索渲染器的实施例,可以消除多目标或多声道音频信号的电平(被称作抑制)。例如,当CLD是有关第m子带中的第j输入音频信号和第k输入音频信号的功率电平比的信息时,基于公式2来计算第j输入音频信号的功率增益和第k输入音频信号的功率增益
这里,当第k输入音频信号的功率电平将被消除时,仅第k输入音频信号的功率增益元素被调节为0。
返回到图8和图9,根据本发明的实施例,基于输入到平移渲染工具805和905并且由平移工具801和901在空间线索域中控制的受控输入音频信号的渲染信息,根据平移方法来渲染多目标或多声道音频信号。这里,由于输入到平移渲染工具805和905的输入音频信号在频域(复数域)中被处理,因此也可以基于子带来执行渲染。
在HRTF渲染工具807和907中,可以按HRTF方法来渲染从平移渲染工具805和905输出的信号。HRTF渲染是一种将HRTF滤波器应用于每个目标或每个声道的方法。
使用平移渲染工具805和905的平移方法以及HRTF渲染工具807和907的HRTF方法,可以可选地执行渲染处理。也就是,平移渲染工具805和905以及HRTF渲染工具807和907是选项。然而,当选择了所有的平移渲染工具805和905以及HRTF渲染工具807和907时,在HRTF渲染工具807和907之前进行平移渲染工具805和905。
如上所述,平移渲染工具805和905以及HRTF渲染工具807和907可以不使用在平移工具801和901的CLD转换单元407中获取的转换后的信号而是使用在增益因子控制单元405中获取的功率增益(outGm)。在这种情况下,HRTF渲染工具807和907可以通过使用每个目标或每个声道的输入音频信号的功率电平来调节HRTF系数。这里,平移工具801和901可被设计成不包含CLD转换单元407。
缩混器809执行缩混,从而输出音频信号的数目小于解码的多目标或多声道音频信号的数目。
反向T/F811通过执行反向T/F变换,将频域的所渲染的多目标或多声道音频信号变换为时域的所渲染的多目标或多声道音频信号。
图9中所示的基于空间线索的解码器(例如3D立体声音频信号解码器)也包括平移渲染工具905和HRTF渲染工具907。HRTF渲染工具907遵循MPEG环绕的双声道解码方法,以便输出立体声信号。简言之,应用了基于参数的HRTF滤波。
由于平移渲染工具805和905以及HRTF渲染工具807和907众所周知,因此这里将不提供对其的详细描述。
双声道解码方法是一种接收输入音频信号并且输出作为3D立体声信号的双声道立体声信号的方法。通常,使用HRTF滤波。
本发明可应用于其中通过SAC多声道解码器播放作为3D立体声信号的双声道立体声信号的情况。通常,对应于5.1声道的双声道立体声信号基于下列公式26来创建。
xBinaural_L(t)=xLf(t)*h-30,L(t)+xRf_L(t)*h30,L(t)+xLs_L(t)*h-110,L(t)+xRs_L(t)*h110,L(t)+xC_L(t)*h0,L(t)
xBinaural_R(t)=xLf(t)*h-30,R(t)+xRf_L(t)*h30,R(t)+xLs_L(t)*h-110,R(t)+xRs_L(t)*h110,R(t)+xC_L(t)*h0,R(t)
公式26
其中x表示输入音频信号;h表示HRTF函数;以及xBinaural表示输出音频信号,其是双声道立体声信号(3D立体声信号)。
综上所述,HRTF函数对于每个输入音频信号进行复积分,从而输入音频信号被缩混,并且产生双声道立体声信号。
根据传统的方法,应用于每个输入音频信号的HRTF函数应被转换为控制位置的函数,并且随后被用来根据有关输入音频信号的渲染的控制信息(即交互作用控制信号)对双声道立体声信号执行渲染。例如,当对于Lf的虚拟位置的有关输入音频信号的渲染的控制信息(例如交互作用控制信号)是40°时,公式26变换为下列公式27。
xBinaural_L(t)=xLf(t)*h40,L(t)+xRf_L(t)*h30,L(t)+xLs_L(t)*h-110,L(t)+xRs_L(t)*h110,L(t)+xC_L(t)*h0,L(t)
xBinaural_R(t)=xLf(t)*h40,R(t)+xRf_L(t)*h30,R(t)+xLs_L(t)*h-110,R(t)+xRs_L(t)*h110,R(t)+xC_L(t)*h0,R(t)
公式27
然而,根据本发明的实施例,通过基于有关输入音频信号的渲染的控制信息(例如交互作用控制信号)调节空间线索参数,对于输出音频信号来控制声音场景,而不是在控制双声道立体声信号的渲染的过程中控制不同于公式27的HRTF函数。然后,通过仅应用公式26的预定HRTF函数来渲染双声道信号。
当空间线索渲染器201基于空间线索域中的受控空间线索来控制双声道信号的渲染时,总是应用公式26,而不控制诸如公式27的HRTF函数。
毕竟,输出音频信号的渲染是在空间线索渲染器201中根据有关输入音频信号的渲染的控制信息(例如,交互作用控制信号)在空间线索域中控制的。可以不加变化地应用HRTF函数。
根据本发明的实施例,用有限数目的HRTF函数来控制双声道立体声信号的渲染。根据传统的双声道解码方法,需要尽可能多的HRTF函数,以便控制双声道立体声信号的渲染。
图11是图解说明采用双声道立体声解码的运动图像专家组(MPEG)环绕解码器的视图。它示出了概念上与图9相同的结构。这里,空间线索渲染块是空间线索渲染器201,并且它输出受控功率增益。其它组成部件概念上也与图9的那些组成部件相同,并且它们示出了采用双声道立体声解码的MPEG环绕解码器的结构。空间线索渲染块的输出被用来控制MPEG环绕解码器的参数转换块中的HRTF函数的频率响应特性。
图12到14展示了本发明的另一个实施例。图12是描绘根据本发明另一个实施例的音频信号渲染控制器的视图。根据本发明的实施例,通过调节空间线索来有效地控制多声道音频信号,并且这可被有用地应用于交互式的3D音频/视频服务。
如附图所示,本发明的该实施例中建议的音频信号渲染控制器包括SAC解码器1205,其对应于图1的SAC编码器102,并且它还包括侧信息(SI)解码器1201和声场定位器1203。
侧信息解码器1201和声场定位器1203对应于图2的空间线索渲染器201。具体地,侧信息解码器1201对应于图4的CLD分析单元401。
侧信息解码器1201接收空间线索(例如CLD),并且基于公式1提取CLD参数。所提取的CLD参数被输入到声场定位器1203。
图13是图解说明图12的声场定位器的详细方框图。如图所示,声场定位器1203包括虚拟位置估计单元1301和CLD转换单元1303。
虚拟位置估计单元1301和CLD转换单元1303功能上对应于图4的增益因子转换单元403、增益因子控制单元405、和CLD转换单元407。
虚拟位置估计单元1301基于输入的CLD参数来计算每个音频信号的功率增益。功率增益能够以根据CLD计算方法的不同方法来计算。例如,当基于基准音频信号计算输入音频信号的所有CLD时,每个输入音频信号的功率增益可以如下列公式28计算。
公式28
其中C表示整个音频信号的数目;
i表示音频信号索引(1≤i≤C-1);
b表示子带索引;和
Gi,b表示输入音频信号的功率增益(包括左前声道信号Lf、左后声道信号Ls、右前声道信号Rf、右后声道信号Rs和中央信号C)。
通常,每帧子带的数目在20和40之间。当对于每个子带计算每个音频信号的功率增益时,虚拟位置估计单元1301根据功率增益估计虚拟声源的位置。
例如,当输入音频信号是5个声道的信号时,空间矢量(其是虚拟声源的位置)可以如下列公式29计算。
Gvb=A1×G1,b+A2×G2,b+A3×G3,b+A4×G4,b+A5×G5,b
LHvb=A1×G1,b+A2×G2,b+A4×G4,b
RHvb=A1×G1,b+A3×G3,b+A5×G5,b
Lsvb=A1×G1,b+A2×G2,b
Rsvb=A1×G1,b+A3×G3,b 公式29
其中i表示音频信号索引;b表示子带索引;
Ai表示输出音频信号的位置,其是复平面中表示的坐标;
Gvb表示考虑5个输入音频信号Lf、Ls、Rf、Rs和C的全方向矢量;
LHvb表示考虑左半平面上的音频信号Lf、Ls和C的左半平面矢量;
RHvb表示考虑右半平面上的音频信号Rf、Rs和C的右半平面矢量;
Lsvb表示仅考虑两个输入音频信号Lf和C的左前矢量;和
Rsvb表示仅考虑两个输入音频信号Rf和C的右前矢量。
这里,Gvb被控制来控制虚拟声源的位置。当要使用两个矢量来控制虚拟声源的位置时,采用LHvb和RHvb。虚拟声源的位置将要使用用于两对输入音频信号的矢量(即,左前矢量和右前矢量)来控制,例如可以使用矢量Lsvb和Rsvb。当对于两对输入音频信号获取并采用矢量时,可存在与输入音频信号的数目一样多的音频信号对。
基于下列公式30来计算有关每个矢量的角度(即,虚拟声源的平移角度)的信息。
公式30
类似地,可以与公式20类似地获取剩余矢量的角度信息(LHab,RHab,Lsab和Rsab)。
可以在期望的音频信号中自由地估计虚拟声源的平移角度,并且公式29和30只是不同的计算方法的一部分。因此,本发明不限于公式29和30的使用。
基于下列公式31计算缩混信号的第b子带的功率增益(Mdownmix,b)。
公式31
其中b表示子带的索引;
Bb表示子带的边界;
S表示缩混信号;和
N表示频率系数的索引。
声场定位器1203是能够灵活地控制多声道中生成的虚拟声源的位置的组成部件。如上所述,虚拟位置估计单元1301基于CLD参数估计虚拟声源的位置矢量。CLD转换单元1303接收在虚拟位置估计单元1301中估计的虚拟声源的位置矢量和虚拟声源的增量(delta amount:Δδ)作为渲染信息,并且基于下列公式32计算受控虚拟声源的位置矢量。
公式32
CLD转换单元1303通过向基于公式32计算出的受控虚拟声源的位置矢量和相反地应用公式29和31,来计算音频信号的受控功率增益。例如,公式32中的的公式被应用来以仅一个角度进行控制,并且公式32中的和的公式被应用来以两个左半平面矢量和右半平面矢量的角度进行控制。公式32中的和的公式被应用来以两对输入音频信号(包括左前音频信号和右前音频信号)的矢量角度进行控制。公式29中的Lsvb和Rsvb的公式以及公式32中的和的公式被类似地应用来以诸如Ls和Lf或者Rs和Rf的其他输入音频信号对的矢量角度进行控制。
而且,CLD转换单元1303将受控功率增益转换为CLD值。
获取的CLD值被输入到SAC解码器1205。本发明的实施例可应用于普通多声道音频信号。图14是描绘应用于本发明的实施例的多声道音频解码器的视图。参考该附图,它进一步包括侧信息解码器1201和声场定位器1203。
在变换器1403(例如离散傅立叶变换(DFT)单元或者正交镜滤波器组变换(QMFT))中,时域的多声道信号被转换为频域的信号。
侧信息解码器1201从在变换器1403中获取的转换信号中提取空间线索(例如CLD),并且将该空间线索传送到声场定位器1203。声场定位器1203向功率增益控制器1405传送表示基于受控虚拟声源的位置矢量计算的受控功率增益的CLD,该CLD是基于公式32获取的CLD。功率增益控制器1405基于接收到的CLD控制频域中每个子带的每个音频声道的功率。所述控制如下列公式33所示。
其中Sch,n表示第ch声道的第n频率系数;
S'ch,n表示功率增益控制单元1105中变形的频率系数;
Bn表示第b子带的边界信息;和
表示从CLD值计算的增益系数,其是声场定位器1203的输出信号,即反映公式32的CLD值。
根据本发明的实施例,通过向多声道信号的生成反映空间线索的增量,可以控制音频信号的虚拟声源的位置。
尽管在装置方面已进行了上面的描述,但是对于本发明所属领域的普通技术人员明显的是,也可以在方法方面实现本发明。
上述的本发明的方法可被实现为程序并被存储在计算机可读记录介质中,例如CD-ROM、RAM、ROM、软盘、硬盘和磁光盘。
尽管已经参考某些优选实施例描述了本发明,但是对于本领域的普通技术人员来说明显的是,可以进行各种变化和修改,而不背离由所附权利要求限定的本发明的范畴。
工业实用性
本发明应用于多目标或多声道音频信号的解码。
Claims (2)
1.一种用于控制音频信号的渲染的设备,包括:
空间线索渲染部件,用于接收空间线索信息、和有关作为按照空间音频编码(SAC)方法编码的缩混信号的输入音频信号的渲染的控制信息,并且基于该控制信息来转换空间线索域中的空间线索信息,
为了由SAC解码部件通过使用SAC解码方法解码该输入音频信号,基于该空间线索渲染部件所转换的空间线索信息,对该输入音频信号执行渲染,
其中有关输入音频信号的渲染的控制信息是从外部输入的交互作用控制信号,
其中该空间线索渲染部件从空间线索信息提取音频信号信息,基于该控制信息来调整所提取的音频信号信息,并通过调整的音频信号信息来变换该空间线索信息,
其中该空间线索渲染部件通过应用包括正弦平移定律、正切平移定律、或恒定功率平移定律的至少一个的平移定律,来变换该空间线索信息,
其中该控制信息包括含有该输入音频信号的输出位置和输出电平中的一个或多个的音频场景信息,并且从外部输入。
2.一种用于控制音频信号的渲染的方法,包括以下步骤:
空间线索渲染步骤,用于接收空间线索信息、和有关作为按照空间音频编码(SAC)方法编码的缩混信号的输入音频信号的渲染的控制信息,并且基于该控制信息来转换空间线索域中的空间线索信息,
为了通过使用SAC解码方法解码该输入音频信号,基于在该空间线索渲染步骤中所转换的空间线索信息,对该输入音频信号执行渲染,
其中有关输入音频信号的渲染的控制信息是从外部输入的交互作用控制信号,
其中该空间线索渲染步骤从空间线索信息提取音频信号信息,基于该控制信息来调整所提取的音频信号信息,并通过调整的音频信号信息来变换该空间线索信息,
其中该空间线索渲染步骤通过应用包括正弦平移定律、正切平移定律、或恒定功率平移定律的至少一个的平移定律,来变换该空间线索信息,
其中该控制信息包括含有该输入音频信号的输出位置和输出电平中的一个或多个的音频场景信息,并且从外部输入。
Applications Claiming Priority (15)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2006-0010559 | 2006-02-03 | ||
KR20060010559 | 2006-02-03 | ||
US78699906P | 2006-03-29 | 2006-03-29 | |
US60/786,999 | 2006-03-29 | ||
US83005206P | 2006-07-11 | 2006-07-11 | |
US81990706P | 2006-07-11 | 2006-07-11 | |
US60/819,907 | 2006-07-11 | ||
US60/830,052 | 2006-07-11 | ||
KR20060066488 | 2006-07-14 | ||
KR10-2006-0066488 | 2006-07-14 | ||
KR10-2006-0069961 | 2006-07-25 | ||
KR20060069961 | 2006-07-25 | ||
KR20070001996 | 2007-01-08 | ||
KR10-2007-0001996 | 2007-01-08 | ||
CNA2007800113065A CN101410891A (zh) | 2006-02-03 | 2007-02-05 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800113065A Division CN101410891A (zh) | 2006-02-03 | 2007-02-05 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103366747A CN103366747A (zh) | 2013-10-23 |
CN103366747B true CN103366747B (zh) | 2017-05-17 |
Family
ID=46859111
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210139738.7A Active CN102693727B (zh) | 2006-02-03 | 2007-02-05 | 用于控制音频信号的渲染的方法 |
CN201310188735.7A Active CN103366747B (zh) | 2006-02-03 | 2007-02-05 | 用于控制音频信号的渲染的设备和方法 |
CNA2007800113065A Pending CN101410891A (zh) | 2006-02-03 | 2007-02-05 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210139738.7A Active CN102693727B (zh) | 2006-02-03 | 2007-02-05 | 用于控制音频信号的渲染的方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800113065A Pending CN101410891A (zh) | 2006-02-03 | 2007-02-05 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (4) | US9426596B2 (zh) |
EP (4) | EP2528058B1 (zh) |
JP (1) | JP4966981B2 (zh) |
KR (2) | KR101294022B1 (zh) |
CN (3) | CN102693727B (zh) |
WO (1) | WO2007089131A1 (zh) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007032648A1 (en) * | 2005-09-14 | 2007-03-22 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
AU2007207861B2 (en) * | 2006-01-19 | 2011-06-09 | Blackmagic Design Pty Ltd | Three-dimensional acoustic panning device |
JP4966981B2 (ja) | 2006-02-03 | 2012-07-04 | 韓國電子通信研究院 | 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置 |
KR100829870B1 (ko) * | 2006-02-03 | 2008-05-19 | 한국전자통신연구원 | 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 |
WO2007091870A1 (en) | 2006-02-09 | 2007-08-16 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
US8036767B2 (en) | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
WO2008039041A1 (en) | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
CN101652810B (zh) * | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
EP2084901B1 (en) * | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
WO2008046530A2 (en) * | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
CA2645915C (en) | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
US20080298610A1 (en) * | 2007-05-30 | 2008-12-04 | Nokia Corporation | Parameter Space Re-Panning for Spatial Audio |
US8295494B2 (en) | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
WO2009048239A2 (en) * | 2007-10-12 | 2009-04-16 | Electronics And Telecommunications Research Institute | Encoding and decoding method using variable subband analysis and apparatus thereof |
MX2010004220A (es) | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
US20100228554A1 (en) * | 2007-10-22 | 2010-09-09 | Electronics And Telecommunications Research Institute | Multi-object audio encoding and decoding method and apparatus thereof |
US20090123523A1 (en) * | 2007-11-13 | 2009-05-14 | G. Coopersmith Llc | Pharmaceutical delivery system |
KR100943215B1 (ko) * | 2007-11-27 | 2010-02-18 | 한국전자통신연구원 | 음장 합성을 이용한 입체 음장 재생 장치 및 그 방법 |
WO2009109217A1 (en) * | 2008-03-03 | 2009-09-11 | Nokia Corporation | Apparatus for capturing and rendering a plurality of audio channels |
KR101461685B1 (ko) | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
US8620009B2 (en) | 2008-06-17 | 2013-12-31 | Microsoft Corporation | Virtual sound source positioning |
ATE538469T1 (de) | 2008-07-01 | 2012-01-15 | Nokia Corp | Vorrichtung und verfahren zum justieren von räumlichen hinweisinformationen eines mehrkanaligen audiosignals |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
WO2011000409A1 (en) * | 2009-06-30 | 2011-01-06 | Nokia Corporation | Positional disambiguation in spatial audio |
KR101600354B1 (ko) * | 2009-08-18 | 2016-03-07 | 삼성전자주식회사 | 사운드에서 오브젝트 분리 방법 및 장치 |
KR101387195B1 (ko) * | 2009-10-05 | 2014-04-21 | 하만인터내셔날인더스트리스인코포레이티드 | 오디오 신호의 공간 추출 시스템 |
US9311925B2 (en) * | 2009-10-12 | 2016-04-12 | Nokia Technologies Oy | Method, apparatus and computer program for processing multi-channel signals |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
KR101450414B1 (ko) * | 2009-12-16 | 2014-10-14 | 노키아 코포레이션 | 멀티-채널 오디오 프로세싱 |
US8767970B2 (en) * | 2011-02-16 | 2014-07-01 | Apple Inc. | Audio panning with multi-channel surround sound decoding |
US8887074B2 (en) | 2011-02-16 | 2014-11-11 | Apple Inc. | Rigging parameters to create effects and animation |
EP2509337B1 (en) * | 2011-04-06 | 2014-09-24 | Sony Ericsson Mobile Communications AB | Accelerometer vector controlled noise cancelling method |
EP2817802B1 (en) * | 2012-02-24 | 2016-12-07 | Dolby International AB | Audio processing |
CA2893729C (en) * | 2012-12-04 | 2019-03-12 | Samsung Electronics Co., Ltd. | Audio providing apparatus and audio providing method |
US9767819B2 (en) * | 2013-04-11 | 2017-09-19 | Nuance Communications, Inc. | System for automatic speech recognition and audio entertainment |
CN104982042B (zh) | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
WO2014171791A1 (ko) | 2013-04-19 | 2014-10-23 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
CN103237240A (zh) * | 2013-05-08 | 2013-08-07 | 无锡北斗星通信息科技有限公司 | 地面信道传输超高清数字电视信号的数字机顶盒 |
CN104240711B (zh) | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
US10149086B2 (en) * | 2014-03-28 | 2018-12-04 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering acoustic signal, and computer-readable recording medium |
US9462406B2 (en) | 2014-07-17 | 2016-10-04 | Nokia Technologies Oy | Method and apparatus for facilitating spatial audio capture with multiple devices |
CN105336335B (zh) | 2014-07-25 | 2020-12-08 | 杜比实验室特许公司 | 利用子带对象概率估计的音频对象提取 |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
WO2016066743A1 (en) * | 2014-10-31 | 2016-05-06 | Dolby International Ab | Parametric encoding and decoding of multichannel audio signals |
TWI607655B (zh) * | 2015-06-19 | 2017-12-01 | Sony Corp | Coding apparatus and method, decoding apparatus and method, and program |
EP3260977B1 (en) * | 2016-06-21 | 2019-02-20 | Stichting IMEC Nederland | A circuit and a method for processing data |
US10791153B2 (en) * | 2017-02-02 | 2020-09-29 | Bose Corporation | Conference room audio setup |
GB201808897D0 (en) * | 2018-05-31 | 2018-07-18 | Nokia Technologies Oy | Spatial audio parameters |
CN110881157B (zh) * | 2018-09-06 | 2021-08-10 | 宏碁股份有限公司 | 正交基底修正的音效控制方法及音效输出装置 |
KR20220151953A (ko) | 2021-05-07 | 2022-11-15 | 한국전자통신연구원 | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
CN1669358A (zh) * | 2002-07-16 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69428939T2 (de) * | 1993-06-22 | 2002-04-04 | Deutsche Thomson-Brandt Gmbh | Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix |
US6009179A (en) * | 1997-01-24 | 1999-12-28 | Sony Corporation | Method and apparatus for electronically embedding directional cues in two channels of sound |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
US6230130B1 (en) | 1998-05-18 | 2001-05-08 | U.S. Philips Corporation | Scalable mixing for speech streaming |
US6694027B1 (en) * | 1999-03-09 | 2004-02-17 | Smart Devices, Inc. | Discrete multi-channel/5-2-5 matrix system |
US6898411B2 (en) * | 2000-02-10 | 2005-05-24 | Educational Testing Service | Method and system for online teaching using web pages |
US7660424B2 (en) * | 2001-02-07 | 2010-02-09 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
KR100414196B1 (ko) | 2001-04-24 | 2004-01-07 | 금호타이어 주식회사 | 타이어의 배수성 측정장치 |
US20030007648A1 (en) | 2001-04-27 | 2003-01-09 | Christopher Currell | Virtual audio system and techniques |
US7583805B2 (en) | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
WO2004036955A1 (en) * | 2002-10-15 | 2004-04-29 | Electronics And Telecommunications Research Institute | Method for generating and consuming 3d audio scene with extended spatiality of sound source |
WO2004036954A1 (en) * | 2002-10-15 | 2004-04-29 | Electronics And Telecommunications Research Institute | Apparatus and method for adapting audio signal according to user's preference |
KR100542129B1 (ko) * | 2002-10-28 | 2006-01-11 | 한국전자통신연구원 | 객체기반 3차원 오디오 시스템 및 그 제어 방법 |
FI118247B (fi) * | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US8135136B2 (en) | 2004-09-06 | 2012-03-13 | Koninklijke Philips Electronics N.V. | Audio signal enhancement |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
SE0402649D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
EP1817767B1 (en) * | 2004-11-30 | 2015-11-11 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
KR101271069B1 (ko) * | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
CN101151659B (zh) * | 2005-03-30 | 2014-02-05 | 皇家飞利浦电子股份有限公司 | 多通道音频编码器、设备、方法及其解码器、设备和方法 |
KR101251426B1 (ko) * | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
WO2007037613A1 (en) * | 2005-09-27 | 2007-04-05 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
WO2007078254A2 (en) * | 2006-01-05 | 2007-07-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Personalized decoding of multi-channel surround sound |
WO2007080212A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Controlling the decoding of binaural audio signals |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
EP1974344A4 (en) * | 2006-01-19 | 2011-06-08 | Lg Electronics Inc | METHOD AND APPARATUS FOR DECODING A SIGNAL |
JP4966981B2 (ja) | 2006-02-03 | 2012-07-04 | 韓國電子通信研究院 | 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置 |
AU2007271532B2 (en) * | 2006-07-07 | 2011-03-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for combining multiple parametrically coded audio sources |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
WO2008046530A2 (en) * | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
CA2645915C (en) | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
EP3712888B1 (en) * | 2007-03-30 | 2024-05-08 | Electronics and Telecommunications Research Institute | Apparatus and method for coding and decoding multi object audio signal with multi channel |
-
2007
- 2007-02-05 JP JP2008553176A patent/JP4966981B2/ja active Active
- 2007-02-05 WO PCT/KR2007/000611 patent/WO2007089131A1/en active Application Filing
- 2007-02-05 CN CN201210139738.7A patent/CN102693727B/zh active Active
- 2007-02-05 EP EP12180406.6A patent/EP2528058B1/en active Active
- 2007-02-05 US US12/278,012 patent/US9426596B2/en active Active
- 2007-02-05 CN CN201310188735.7A patent/CN103366747B/zh active Active
- 2007-02-05 EP EP13167525.8A patent/EP2629292B1/en active Active
- 2007-02-05 EP EP17164665.6A patent/EP3267439A1/en not_active Ceased
- 2007-02-05 EP EP20070708761 patent/EP1989704B1/en active Active
- 2007-02-05 KR KR20070011643A patent/KR101294022B1/ko active IP Right Grant
- 2007-02-05 CN CNA2007800113065A patent/CN101410891A/zh active Pending
-
2012
- 2012-07-31 KR KR1020120083964A patent/KR101395253B1/ko active IP Right Grant
- 2012-08-07 US US13/568,584 patent/US10277999B2/en active Active
-
2019
- 2019-03-18 US US16/356,410 patent/US10652685B2/en active Active
-
2020
- 2020-05-08 US US16/869,902 patent/US11375331B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
CN1669358A (zh) * | 2002-07-16 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
Non-Patent Citations (2)
Title |
---|
PARAMETRIC CODING OF SPATIAL AUDIO;Christof Faller;《Proc. of the 7th Int. Conference on Digital Audio Effects》;20041008;第DAFX-1页右栏第2-4段,第DAFX-5页左栏第2-4段,图1 * |
The Reference Model Architecture for MPEG Spatial Audio Coding;J.Herre等;《Aduio Engineering Society Convention Paper 6447》;20050531;第2页左栏第4段-右栏第2段,图1 * |
Also Published As
Publication number | Publication date |
---|---|
EP2629292A3 (en) | 2014-04-02 |
US20190215633A1 (en) | 2019-07-11 |
CN101410891A (zh) | 2009-04-15 |
EP1989704A4 (en) | 2012-02-22 |
JP2009525671A (ja) | 2009-07-09 |
WO2007089131A1 (en) | 2007-08-09 |
EP2629292A2 (en) | 2013-08-21 |
US9426596B2 (en) | 2016-08-23 |
KR20070079945A (ko) | 2007-08-08 |
US20200267488A1 (en) | 2020-08-20 |
US20120294449A1 (en) | 2012-11-22 |
EP2629292B1 (en) | 2016-06-29 |
EP3267439A1 (en) | 2018-01-10 |
EP2528058B1 (en) | 2017-05-17 |
KR101395253B1 (ko) | 2014-05-15 |
EP1989704A1 (en) | 2008-11-12 |
US10652685B2 (en) | 2020-05-12 |
US20090144063A1 (en) | 2009-06-04 |
CN103366747A (zh) | 2013-10-23 |
EP2528058A2 (en) | 2012-11-28 |
EP2528058A3 (en) | 2012-12-12 |
US10277999B2 (en) | 2019-04-30 |
EP1989704B1 (en) | 2013-10-16 |
CN102693727A (zh) | 2012-09-26 |
JP4966981B2 (ja) | 2012-07-04 |
KR101294022B1 (ko) | 2013-08-08 |
CN102693727B (zh) | 2015-06-10 |
KR20120099192A (ko) | 2012-09-07 |
US11375331B2 (en) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103366747B (zh) | 用于控制音频信号的渲染的设备和方法 | |
US9865270B2 (en) | Audio encoding and decoding | |
JP5133401B2 (ja) | 出力信号の合成装置及び合成方法 | |
TWI338281B (en) | Methods and devices for improved performance of prediction based multi-channel reconstruction | |
CN108476366B (zh) | 用于参数化双耳输出系统和方法的头部跟踪 | |
AU2008309951B8 (en) | Method and apparatus for generating a binaural audio signal | |
US8160888B2 (en) | Generation of multi-channel audio signals | |
AU2007328614A1 (en) | A method and an apparatus for processing an audio signal | |
JP6964703B2 (ja) | パラメトリック・バイノーラル出力システムおよび方法のための頭部追跡 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |