CN101002261B - 使用虚拟源位置信息编码和解码多声道音频信号的方法和装置 - Google Patents

使用虚拟源位置信息编码和解码多声道音频信号的方法和装置 Download PDF

Info

Publication number
CN101002261B
CN101002261B CN2005800232313A CN200580023231A CN101002261B CN 101002261 B CN101002261 B CN 101002261B CN 2005800232313 A CN2005800232313 A CN 2005800232313A CN 200580023231 A CN200580023231 A CN 200580023231A CN 101002261 B CN101002261 B CN 101002261B
Authority
CN
China
Prior art keywords
vector
signal
channel
source location
location information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800232313A
Other languages
English (en)
Other versions
CN101002261A (zh
Inventor
徐廷一
文瀚吉
白承权
姜京玉
张仁瑄
成宏模
韩敏洙
洪镇佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Seoul National University Industry Foundation
Original Assignee
OBSTETRICS UNIT EFFORTS CONSORTIUM OF SOER UNIV
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OBSTETRICS UNIT EFFORTS CONSORTIUM OF SOER UNIV, Electronics and Telecommunications Research Institute ETRI filed Critical OBSTETRICS UNIT EFFORTS CONSORTIUM OF SOER UNIV
Priority claimed from PCT/KR2005/002213 external-priority patent/WO2006006809A1/en
Publication of CN101002261A publication Critical patent/CN101002261A/zh
Application granted granted Critical
Publication of CN101002261B publication Critical patent/CN101002261B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种用于编码/解码多声道音频信号的方法和装置。该解码多声道音频信号的装置包括:帧转换器,用于将多声道音频信号转换成成帧的音频信号;用于降混该成帧的音频信号的部件;用于编码该降混的音频信号的部件;源位置信息估计器,用于根据成帧的多声道音频信号估计源位置信息;用于量化所估计的源位置信息的部件;和用于复用经编码的音频信号和经量化的源位置信息以便生成经编码的多声道音频信号的部件。

Description

使用虚拟源位置信息编码和解码多声道音频信号的方法和装置
技术领域
本发明涉及一种编码/解码多声道音频信号的方法和装置,更具体涉及一种使用虚拟声音位置信息(VLSI)有效地编码/解码多声道音频信号的方法和装置。
背景技术
贯穿20世纪90年代后半期,运动画面专家组(MPEG)已经对压缩多声道音频信号进行了研究。由于多声道内容的显著增加、对多声道内容的增长的需求以及在广播通信环境中对多声道音频服务的增长的需要,已经增加了对多声道音频压缩技术的研究。
作为结果,在MEPG中已经标准化了多声道音频压缩技术,例如MPEG-2向后兼容性(BC)、MPEG-2高级音频编码(AAC)和MPEG-4 AAC。诸如AC-3和数字影院系统(DTS)之类的多声道音频压缩技术也已经被商业化。
近年来,已经积极地研究了诸如典型的双耳线索编码(BCC:Binaural CueCoding)之类的新颖的多声道音频信号压缩方法(C.Faller,2002&2003;F.Baumgarte,2001&2002)。这种研究的目标是传输更逼真的音频数据。
BCC是一种在人们能够由于双耳效果而在听觉上感觉空间的事实的基础上开发的高效地压缩多声道音频信号的技术。BCC基于这样的事实,即一对耳朵利用耳间声级差(interaural level difference)和/或耳间时间差来感觉特定声源的位置。
因此,在BCC中,多声道音频信号被降混成单声道或立体声信号并且由诸如声道间声级差(ICLD)和声道间时间差(ICTD)之类的双耳线索参数来表示声道信息。
然而,存在这样的缺点,即需要大量比特来量化诸如ICLD和ICTD之类的声道信息,因此,在传送声道信息时需要较宽的带宽。
发明内容
本发明目的在于通过只使用降混的音频信号和小量的附加信息来编码/解码多声道音频信号来再现逼真的音频信号。
本发明目的还在于通过分析多声道音频信号的每个声道的声源、提取少量的虚拟源位置信息并且将所提取的虚拟源位置信息连同降混的音频信号一起发送来使传输效率最大化。
本发明的一个方面提供一种编码多声道音频信号的装置,该装置包括:帧转换器,用于将多声道音频信号转换成成帧的音频信号;用于降混该成帧的音频信号的部件;用于编码该降混的音频信号的部件;源位置信息估计器,用于根据成帧的音频信号估计源位置信息;用于量化所估计的源位置信息的部件;和用于复用经编码的音频信号和经量化的源位置信息以便生成经编码的多声道音频信号。所述源位置信息估计器包括:时间-频率转换器,用于将成帧的音频信号转换成谱;分离器,用于分离每个带的谱;能量矢量检测器,用于根据相应的每个带的谱来检测每个声道的能量矢量;VSLI估计器,用于使用能量矢量检测器所检测到的经检测的每个声道的能量矢量来估计虚拟源位置信息(VSLI)的部件。
本发明的另一方面提供一种解码多声道音频信号的装置,该装置包括:用于接收多声道音频信号的部件;信号分配器,用于将所接收的多声道音频信号分离成经编码的降混音频信号和经量化的虚拟源位置矢量信号;用于解码经编码的降混的音频信号的部件;用于将经解码的降混的音频信号转换成频率轴信号的部件;VSLI提取器,用于从经量化的虚拟源位置矢量信号中提取每个带的VSLI;声道增益计算器,用于利用所提取的每个带的VSLI来计算每个带的声道增益;利用经转换的频率轴信号和所计算的每个带的声道增益来合成多声道音频信号谱的部件;和用于根据所合成的多声道谱来生成多声道音频信号的部件。
本发明的另一方面提供一种编码多声道音频信号的方法,该方法包括步骤:将多声道音频信号转换成成帧的音频信号;降混该成帧的音频信号;编码该降混的音频信号;根据成帧的音频信号估计源位置信息;量化所估计的源位置信息;以及复用经编码的降混的音频信号和经量化的源位置信息以便生成经编码的多声道音频信号。
本发明的另一方面提供一种解码多声道音频信号的方法,该方法包括步骤:接收多声道音频信号;将所接收的多声道音频信号分离成经编码的降混的音频信号和经量化的虚拟源位置矢量信号;解码经编码的降混的音频信号;将经解码的降混的音频信号转换成频率轴信号;分析经量化的虚拟源位置矢量信号并且从中提取每个带的VSLI;根据所提取的每个带的VSLI来计算每个带的声道增益;利用经转换的频率轴信号和所计算的每个带的声道增益来合成多声道音频信号谱;以及根据所合成的多声道谱来生成多声道音频信号。
附图说明
通过结合附图以本发明的详细示例实施例进行描述,对于本领域的普通技术人员来说,本发明的以上和其它特征和优点将变得更加清楚明白,其中:
图1是根据本发明的示例实施例的用于编码多声道音频信号的框图;
图2是使用相等矩形带宽(ERB)滤波器组的时间-频率网格的概念图;
图3是在降混的多声道音频信号是单声道信号的情况下、根据本发明估计的源位置矢量的概念图;
图4是在降混的多声道音频信号是立体声信号的情况下、根据本发明估计的源位置矢量的概念图;
图5是图示根据本发明的示例实施例的估计虚拟源位置信息的概念图;
图6示出当使用5.1声道扬声器时每个声道能量矢量的示例;
图7是图示根据本发明的估计左半平面矢量(LHV)和右半平面矢量(RHV)的过程的概念图;
图8是图示根据本发明的估计左后矢量(LSV)和右后矢量(RSV)的过程的概念图;
图9是图示根据本发明的估计全局矢量(GV)的过程的概念图;
图10图示方位角,每个方位角表示根据本发明的相应虚拟源位置信息;
图11是根据本发明的示例实施例的用于解码经编码的多声道音频信号的装置的框图;
图12是图示根据本发明的示例实施例的使用虚拟源位置信息(VSLI)来计算降混的音频信号的每个信道的增益的过程的框图。
具体实施方式
现在将参照附图更加充分地描述本发明,在附图中示出了本发明的示例实施例。然而,可以以不同的形式实施本发明,并且不应被理解为受限于在此陈述的示例实施例,提供这些示例实施例以便本公开将会彻底和完整,并且将充分地将本发明的范围传达给本领域的技术人员。
图1是根据本发明的示例实施例的编码多声道音频信号的装置的框图。如图1所示,多声道音频信号编码装置包括帧转换器100、降混器(downmixer)110、高级音频编码(AAC)编码器120、复用器130、量化器140和虚拟源位置信息(VSLI)分析器150。
帧转换器100使用诸如正旋(sine)窗口的窗口函数使多声道音频信号成帧,以便处理每个块中的多声道音频信号。降混器110从帧转换器100接收成帧的多声道音频信号并且将其降混成单声道信号或立体声信号。AAC编码器120压缩从降混器110接收的降混的音频信号,以便生成AAC编码的信号。然后其将AAC编码的信号发送至复用器130。
VSLI分析器150从成帧的音频信号中提取虚拟源位置信息(VSLI)。具体来说,VSLI分析器150可以包括时间-频率转换器151、相等矩形带宽(ERB)滤波器组152、能量矢量检测器153和位置估计器154。
时间-频率转换器151进行多个快速傅立叶变换(FFT)以便将成帧的音频信号转换成频域信号。ERB滤波器组152将经转换的频域信号(谱)划分成每个带的谱(例如,20个带)。图2是使用ERB滤波器组152的时间-频率网格的概念图。
能量矢量提取器153根据相应的每个带的谱估计每个声道的能量矢量。
位置估计器154利用能量矢量提取器153估计的每个声道的能量矢量来估计虚拟源位置信息(VSLI)。在一个示例实施例中,可以使用源位置矢量和中央声道之间的方位角来表示VSLI。如后面所描述的,位置估计器154所估计的VSLI可以取决于降混的音频信号是单声道的还是立体声的而变化。
图3是图示根据本发明估计的源位置矢量的概念图,在该情况下,降混的音频信号是单声道的。如图3所示,根据降混的单声道信号所估计的源位置矢量包括左半平面矢量(LHV)、右半平面矢量(RHV)、左后矢量(LSV)、右后矢量(RSV)和全局矢量(GV)。在降混的多声道音频信号是单声道信号的情况下,由于不知道声道增益是左边高还是右边高,所以需要GV。
图4是图示根据本发明估计的源位置矢量的概念图。在该情况下,降混的多声道音频信号是立体声的。如图4所示,根据降混的单声道信号所估计的源位置矢量包括LHV、RHV、LSV和RSV而不包括GV。
再次参照图1,量化器140量化从VSLI分析器150接收的VSLI(方位角)并且将经量化的VSLI信号发送至复用器130。复用器130接收来自AAC编码器120的AAC编码的信号和来自量化器140的经量化的VSLI信号,并且将它们复用以便生成经编码的多声道音频信号(即,AAC编码的信号+VSLI信号)。
图5是图示根据本发明的示例实施例的估计VSLI的过程的概念图。如图5所示,在输入多声道音频信号包括五个声道、即包括中央(C)、前左(L)、前右(R)、左后(LS)和右后(RS)的情况下,通过多个FFT将输入信号转换成频率轴信号并且在ERB滤波器组152中将其划分成数目为N的频带(带1、带2、……、和带N)。
接下来,对于每个带,可以根据五个声道的每个的功率来检测每个声道的能量矢量(例如,C1 PWR、L1 PWR、R1 PWR、LS1 PWR和RS1 PWR)。利用其中为了声音定位而调整相邻声道的信号的幅度的恒定功率规划(CPP),可以根据检测到的每个声道的能量矢量来估计源位置矢量并且可以估计表示VSLI的源位置矢量和中央声道之间的方位角。
图6至9图示根据本发明的估计VSLI的详细过程。详细来讲,如图6所示,假设使用能量矢量估计器估计的每个声道的能量矢量为中央声道能量矢量(C)、前左声道能量矢量(L)、左后声道能量矢量(LS)、前右声道能量矢量(R)和右后声道能量矢量(RS)。利用前左声道能量矢量(L)和左后声道能量矢量(LS)来估计LHV,并且利用前右声道能量矢量(R)和右后声道能量矢量(RS)来估计RHV(参照图7)。
可以利用LHV、RHV和中央声道能量矢量(C)来估计LSV和RSV(参照图8)。
在降混的音频信号是立体声信号的情况下,可以只利用LHV、RHV、LSV和RSV来计算每个声道的增益。然而,在降混的音频信号是单声道信号的情况下,由于不知道声道增益是左边高还是右边高,因此需要GV。可以利用LSV和RSV来计算GV(参照图9)。将GV的幅度设置成降混的音频信号的幅度。
使用以上方法提取的源位置矢量可以利用它们自身和中央声道之间的方位角来表示。图10图示由图6到9中示出的过程所提取的源位置矢量的方位角。如所示,可以用五个万位角来表示VSLI,这五个方位角包括左半平面矢量角(LHa)、右半平面矢量角(RHa)、左后矢量角(LSa)和右后矢量角(RHa),并且在降混的音频信号是单声道信号的情况下还包括全局矢量角(Ga)。由于每个值具有有限的动态范围,因此可以使用比声道内声级差(ICLD)更少的比特来进行量化。
为了量化VSLI信息,可以使用以均匀的间隔进行量化的线性量化方法或以非均匀间隔进行量化的非线性量化方法。
在一个示例实施例中,线性量化方法是基于下面的等式1的:
[等式1]
I i , b = [ Δθ i , b ( Q - 1 ) 2 Δ θ i , max + 1 2 ] + Q - 1 2 , i = 1 , K , 5 ,
其中“θ”表示要量化的角的幅度并且可以根据量化等级Q来获得相应的量化索引(index)。“i”表示角索引(Ga:i=1、RHa:i=2、LHa:i=3、LSa:i=4、RSa:i=5),“b”表示子带索引。“Δθi,max”表示每个角的最大变化程度。例如,Δθ1,max等于180°,Δθ2,max和Δθ3,max等于15°,Δθ4,max和Δθ5,max等于55°。如上所述,每个角的幅度的最大变化间隔是受限的,因此可以提供更高效和更高精度(resolution)的量化。
通常,对于RHa、LHa、LSa和RSa来说,关于生成频率的统计信息是不确定的。然而,Ga具有以中央扬声器为中心大致成对称分布的生成频率。换言之,由于Ga相对于中央扬声器均匀变化,因此可以假设生成分布具有0°的平均期望值。因此,对于Ga来说,当使用非线性量化方法来进行量化时,可以获得更高效的量化等级。
一般来说,以通常的m-定律(m-law)方案来进行非线性量化,并且可以取决于量化等级的精度来确定m值。例如,当精度低时,可以使用相对大的m值(15<μ≤255),而当精度高时,可以使用较小的m值(5<μ≤5)来执行该非线性量化。
图11是图示根据本发明的示例实施例的用于解码经编码的多声道音频信号的装置的方框图。如所示,多声道音频信号解码装置包括信号分配器1110、AAC解码器1120、时间-频率转换器1130、逆量化器1140、每个带的声道增益分配器1150、多声道谱合成器1160和频率-时间转换器1170。
信号分配器1110将编码的多声道音频信号分别分离回AAC编码的信号和VLSI编码的信号。AAC解码器1120将AAC编码的信号转换回降混的音频信号(单声道或立体声信号)。经转换的降混的音频信号可以被用来产生单声道或立体声声音。时间-频率转换器1130将降混的音频信号转换成频率轴信号并且将其发送至多声道谱合成器1160。
逆量化器1140从信号分配器1110接收分离后的VSLI编码的信号并且根据所接收的VSLI编码信号产生每个带的源位置矢量信息。在编码过程中,如上所述,VSLI包括方位角信息(例如,LHa、RHa、LSa、RSa和在降混的音频信号是单声道信号的情况下的Ga),它们中的每个表示相应的每个带的源位置矢量。根据VSLI产生源位置矢量。
每个带的声道增益分配器1150利用逆量化器1140所转换的每个带的VSLI信号来计算每个声道的增益,并且将所计算的增益发送至多声道谱合成器1160。
多声道谱合成器1160从时间-频率转换器1130接收降混的音频信号的谱,使用ERB滤波器组将所接收的谱分离成每个带的谱,并且利用从每个带的声道增益分配器1150输出的每个带的声道增益恢复多声道信号的谱。频率-时间转换器1170(例如,IFFF)将所恢复的多声道信号的谱转换成时间轴信号以便生成多声道音频信号。
图12是图示根据本发明的示例实施例的利用VSLI来计算降混的音频信号的每个声道的增益的过程的方框图。这里,图示了降混的音频信号是单声道信号的情况。在降混的音频信号是立体声信号的情况下,省略块1210。
在块1210中,利用降混的单声道信号的幅度(其是GV的幅度)和GV的角度(Ga)来计算LSV和RSV的幅度。接下来,利用LSV的幅度和角度(LSa)来计算LHV的幅度和中央声道(C)的第一增益(块1220)。通过将在以上过程中计算的第一增益和第二增益求和来获得中央声道(C)的增益(块1240)。
最后,利用LHV的幅度和相应的角度(LHa)来计算前左声道(L)和左后声道(LS)的增益(块1250),利用RHV的幅度和相应的角度(RHa)来计算前右声道(R)和右后声道(RS)的增益(块1260)。根据以上过程,可以计算所有声道的增益。
根据本发明,利用虚拟源位置信息可以更有效地编码/解码多声道音频信号,并且可以实现多声道环境中的更逼真的音频信号再现。
尽管已经参照本发明的示例实施例示出和描述了本发明,但是本领域的技术人员将理解:在不背离所附权利要求和它们的等同所限定的本发明的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

Claims (25)

1.一种编码多声道音频信号的装置,该装置包括:
帧转换器,用于将多声道音频信号转换成成帧的音频信号;
用于降混该成帧的音频信号的部件;
用于编码该降混的音频信号的部件;
源位置信息估计器,用于根据成帧的音频信号估计源位置信息;
用于量化所估计的源位置信息的部件;和
用于复用经编码的音频信号和经量化的源位置信息以便生成经编码的多声道音频信号的部件,
其中,所述源位置信息估计器包括:
时间-频率转换器,用于将成帧的音频信号转换成谱;
分离器,用于分离每个带的谱;
能量矢量检测器,用于根据相应的每个带的谱来检测每个声道的能量矢量;
虚拟源位置信息估计器,用于使用能量矢量检测器所检测到的经检测的每个声道的能量矢量来估计虚拟源位置信息。
2.根据权利要求1所述的装置,其中,所述降混部件将成帧的音频信号降混为单声道信号或立体声信号之一。
3.根据权利要求1所述的装置,其中,当经降混的音频信号是单声道信号时,源位置信息估计器估计左半平面矢量、右半平面矢量、左后矢量、右后矢量和全局矢量。
4.根据权利要求1所述的装置,其中,当经降混的音频信号是立体声信号时,源位置信息估计器估计左半平面矢量、右半平面矢量、左后矢量、右后矢量。
5.根据权利要求1所述的装置,其中,所述时间-频率转换器利用多个快速傅立叶变换将成帧的音频信号转换成谱。
6.根据权利要求1所述的装置,其中,分离器使用相等矩形带宽滤波器组来分离所述谱。
7.根据权利要求1所述的装置,其中,检测到的每个声道的能量矢量包括中央声道能量矢量(C)、前左声道能量矢量(L)、左后声道能量矢量(LS)、前右声道能量矢量(R)和右后声道能量矢量(RS)。
8.根据权利要求1所述的装置,其中,基于中央声道将虚拟源位置信息表示为方位角信息,并且方位角信息包括左半平面矢量角、右半平面矢量角、左后矢量角、右后矢量角。
9.根据权利要求8所述的装置,其中,当降混的音频信号是单声道信号时,方位角信息还包括全局矢量角。
10.一种解码多声道音频信号的装置,该装置包括:
用于接收多声道音频信号的部件;
信号分配器,用于将所接收的多声道音频信号分离成经编码的降混音频信号和经量化的虚拟源位置矢量信号;
用于解码经编码的降混的音频信号的部件;
用于将经解码的降混的音频信号转换成频率轴信号的部件;
虚拟源位置信息提取器,用于从经量化的虚拟源位置矢量信号中提取每个带的虚拟源位置信息;
声道增益计算器,用于利用所提取的每个带的虚拟源位置信息来计算每个带的声道增益;
利用经转换的频率轴信号和所计算的每个带的声道增益来合成多声道音频信号谱的部件;和
用于根据所合成的多声道谱来生成多声道音频信号的部件,
其中,虚拟源位置信息提取器从经量化的虚拟源位置矢量信号中提取每个带的虚拟源方位角信息并且根据所提取的方位角信息生成虚拟源位置信息。
11.根据权利要求10所述的装置,其中,对于每个带,虚拟源方位角信息包括左半平面矢量角、右半平面矢量角、左后矢量角、右后矢量角,并且所生成的虚拟源位置信息矢量包括左半平面矢量、右半平面矢量、左后矢量、右后矢量。
12.根据权利要求11所述的装置,其中,当经编码的降混的音频信号是单声道信号时,虚拟源方位角信息还包括全局矢量角,并且全局矢量是根据全局矢量角产生的。
13.一种编码多声道音频信号的方法,该方法包括步骤:
将多声道音频信号转换成成帧的音频信号;
降混该成帧的音频信号;
编码该降混的音频信号;
根据成帧的音频信号估计源位置信息;
量化所估计的源位置信息;以及
复用经编码的降混的音频信号和经量化的源位置信息,以便生成经编码的多声道音频信号,
其中,所述估计源位置信息的步骤包括如下步骤:
将成帧的音频信号转换成谱;
将所述谱分离成每个带的谱;
根据每个带的谱来检测每个声道的能量矢量;以及
使用检测到的每个声道的能量矢量来估计虚拟源位置信息。
14.根据权利要求13所述的装置,其中,成帧的音频信号被降混为单声道信号和立体声信号之一。
15.根据权利要求13所述的方法,其中,当经降混的音频信号是单声道信号时,所估计的源位置信息包括左半平面矢量、右半平面矢量、左后矢量、右后矢量和全局矢量。
16.根据权利要求13所述的方法,其中,当经降混的音频信号是立体声信号时,所估计的源位置信息包括左半平面矢量、右半平面矢量、左后矢量、右后矢量。
17.根据权利要求13所述的方法,其中,检测到的每个声道的能量矢量包括中央声道能量矢量(C)、前左声道能量矢量(L)、左后声道能量矢量(LS)、前右声道能量矢量(R)和右后声道能量矢量(RS)。
18.根据权利要求13所述的方法,其中,估计虚拟源位置信息的步骤包括如下步骤:
利用前左声道能量矢量(L)和左后声道能量矢量(LS)来估计左半平面矢量;
利用前右声道能量矢量(R)和右后声道能量矢量(RS)来估计右半平面矢量;
利用所估计的左半平面矢量和中央声道能量矢量(C)来估计左后矢量;
利用所估计的右半平面矢量和中央声道能量矢量(C)来估计右后矢量。
19.根据权利要求18所述的方法,其中,当降混的音频信号是单声道信号时,所估计的虚拟源位置信息还包括全局矢量,并且虚拟源位置信息的估计还包括利用所估计的左后矢量和右后矢量来估计全局矢量的步骤。
20.根据权利要求13所述的方法,其中,当降混的音频信号是立体声信号时,利用基于中央声道的左半平面矢量角、右半平面矢量角、左后矢量角和右后矢量角来表示虚拟源位置信息。
21.根据权利要求13所述的方法,其中,当降混的音频信号是单声道信号时,利用全局矢量角、左半平面矢量角、右半平面矢量角、左后矢量角和右后矢量角来表示虚拟源位置信息。
22.一种解码多声道音频信号的方法,该方法包括步骤:
接收多声道音频信号;
将所接收的多声道音频信号分离成经编码的降混的音频信号和经量化的虚拟源位置矢量信号;
解码经编码的降混的音频信号;
将经解码的降混的音频信号转换成频率轴信号;
分析经量化的虚拟源位置矢量信号并且从中提取每个带的虚拟源位置信息;
根据所提取的每个带的虚拟源位置信息来计算每个带的声道增益;
利用经转换的频率轴信号和所计算的每个带的声道增益来合成多声道音频信号谱;以及
根据所合成的多声道谱来生成多声道音频信号,
其中,所述提取每个带的虚拟源位置信息的步骤从经量化的虚拟源位置矢量信号中提取每个带的虚拟源方位角信息并且根据所提取的方位角信息生成虚拟源位置信息。
23.根据权利要求22所述的方法,其中,对于每个带,虚拟源方位角信息包括左半平面矢量角、右半平面矢量角、左后矢量角、右后矢量角,并且所生成的虚拟源位置信息包括左半平面矢量、右半平面矢量、左后矢量、右后矢量。
24.根据权利要求23所述的方法,其中,当经编码的降混的音频信号是单声道信号时,虚拟源方位角信息还包括全局矢量角,并且全局矢量是根据全局矢量角产生的。
25.根据权利要求23所述的方法,其中,对于每个带,所述计算声道增益的步骤包括如下步骤:
利用降混的音频信号的幅度计算左后矢量和右后矢量的幅度;
利用左后矢量角和左后矢量的幅度计算中央声道(C)的第一增益和左半平面矢量的幅度;
利用右后矢量角和右后矢量的幅度计算中央声道(C)的第二增益和右半平面矢量的幅度;
将中央声道(C)的第一和第二增益求和以便生成中央声道(C)的增益;
利用左半平面矢量角和左半平面矢量的幅度计算前左声道(L)和左后声道的增益;以及
利用右半平面矢量角和右半平面矢量的幅度计算前右声道(R)和右后声道的增益。
CN2005800232313A 2004-07-09 2005-07-08 使用虚拟源位置信息编码和解码多声道音频信号的方法和装置 Expired - Fee Related CN101002261B (zh)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
KR20040053665 2004-07-09
KR10-2004-0053665 2004-07-09
KR1020040053665 2004-07-09
KR20040081303 2004-10-12
KR10-2004-0081303 2004-10-12
KR1020040081303 2004-10-12
KR1020050061425A KR100663729B1 (ko) 2004-07-09 2005-07-07 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
KR10-2005-0061425 2005-07-07
KR1020050061425 2005-07-07
PCT/KR2005/002213 WO2006006809A1 (en) 2004-07-09 2005-07-08 Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information

Publications (2)

Publication Number Publication Date
CN101002261A CN101002261A (zh) 2007-07-18
CN101002261B true CN101002261B (zh) 2012-05-23

Family

ID=37149973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800232313A Expired - Fee Related CN101002261B (zh) 2004-07-09 2005-07-08 使用虚拟源位置信息编码和解码多声道音频信号的方法和装置

Country Status (5)

Country Link
US (1) US7783495B2 (zh)
KR (1) KR100663729B1 (zh)
CN (1) CN101002261B (zh)
AT (1) ATE482451T1 (zh)
DE (1) DE602005023738D1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
EP1922721A4 (en) * 2005-08-30 2011-04-13 Lg Electronics Inc AUDIO SIGNAL DECODING METHOD
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
KR100803212B1 (ko) 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
KR100763920B1 (ko) 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
KR100829560B1 (ko) 2006-08-09 2008-05-14 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 방법 및 장치,멀티채널이 다운믹스된 신호를 2 채널로 출력하는 복호화방법 및 장치
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US9418667B2 (en) 2006-10-12 2016-08-16 Lg Electronics Inc. Apparatus for processing a mix signal and method thereof
JP4838361B2 (ja) 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
KR100891671B1 (ko) * 2006-12-01 2009-04-03 엘지전자 주식회사 믹스신호 제어 방법 및 장치
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2118886A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
KR101062351B1 (ko) 2008-04-16 2011-09-05 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
CN102007532B (zh) 2008-04-16 2013-06-19 Lg电子株式会社 用于处理音频信号的方法和装置
EP2111062B1 (en) 2008-04-16 2014-11-12 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
EP3040986B1 (en) * 2008-10-06 2018-12-12 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for delivery of aligned multi-channel audio
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
CN102157151B (zh) 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
KR101963440B1 (ko) 2012-06-08 2019-03-29 삼성전자주식회사 복수의 뉴런 회로들을 이용하여 음원의 방향을 추정하는 뉴로모픽 신호 처리 장치 및 그 장치를 이용한 방법
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
KR102319766B1 (ko) * 2013-04-26 2021-11-01 소니그룹주식회사 음성 처리 장치 및 방법, 및 기록 매체
KR101509649B1 (ko) * 2014-02-27 2015-04-07 전자부품연구원 대역별 정확도에 따른 가중 평균을 이용한 음원 위치 검출 방법 및 장치
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
CN108886649B (zh) 2016-03-15 2020-11-10 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
KR101695432B1 (ko) * 2016-08-10 2017-01-23 (주)넥스챌 무대 공연을 위한 방위각 생성 및 방위각 음상 정보 전달 장치 및 그 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128597A (en) 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US7660424B2 (en) * 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030014243A1 (en) 2001-07-09 2003-01-16 Lapicque Olivier D. System and method for virtual localization of audio signals
US8340302B2 (en) 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
US20030223602A1 (en) * 2002-06-04 2003-12-04 Elbit Systems Ltd. Method and system for audio imaging
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio

Also Published As

Publication number Publication date
KR20060049941A (ko) 2006-05-19
KR100663729B1 (ko) 2007-01-02
CN101002261A (zh) 2007-07-18
ATE482451T1 (de) 2010-10-15
DE602005023738D1 (de) 2010-11-04
US7783495B2 (en) 2010-08-24
US20080167880A1 (en) 2008-07-10

Similar Documents

Publication Publication Date Title
CN101002261B (zh) 使用虚拟源位置信息编码和解码多声道音频信号的方法和装置
EP2612322B1 (en) Method and device for decoding a multichannel audio signal
EP1779385B1 (en) Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information
EP1865497B1 (en) Acoustic signal decoding
US20100169102A1 (en) Low complexity mpeg encoding for surround sound recordings
CN101010725A (zh) 多信道信号编码装置以及多信道信号解码装置
EP0663741A2 (en) Adaptive digital audio encoding system
US20230197086A1 (en) The merging of spatial audio parameters
JP2009510514A (ja) マルチチャネルオーディオ信号の符号化/復号化方法及び装置
US20230402053A1 (en) Combining of spatial audio parameters
US20240185869A1 (en) Combining spatial audio streams
CN112997248A (zh) 确定空间音频参数的编码和相关联解码
CN101506875B (zh) 用于组合多个参数编码的音频源的设备和方法
CN101138021B (zh) 使用虚拟源位置信息的多声道音频压缩和解压缩方法
Cheng et al. A spatial squeezing approach to ambisonic audio compression
US20240046939A1 (en) Quantizing spatial audio parameters
US20240079014A1 (en) Transforming spatial audio parameters
US20230410823A1 (en) Spatial audio parameter encoding and associated decoding
JP7223872B2 (ja) 空間音声パラメータの重要度の決定および関連符号化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SEOUL NATIONAL UNIVERSITY INDUSTRY-UNIVERSITY COOP

Free format text: FORMER OWNER: SEOUL NATIONAL UNIVERSITY INDUSTRY FOUNDATION

Effective date: 20130731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130731

Address after: South Korea

Patentee after: Korea Electronic Communication Institute

Patentee after: Seoul Nat Univ Ind Foundation

Address before: South Korea

Patentee before: Korea Electronic Communication Institute

Patentee before: Obstetrics Unit Efforts Consortium of Soer Univ.

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20070718

Assignee: Neo Lab Convergence Inc.

Assignor: Korea Institute of electronic communications|Seoul University production and research cooperation group

Contract record no.: 2016990000256

Denomination of invention: Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information

Granted publication date: 20120523

License type: Exclusive License

Record date: 20160630

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523

Termination date: 20170708

CF01 Termination of patent right due to non-payment of annual fee