CN102292767A - 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 - Google Patents

立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 Download PDF

Info

Publication number
CN102292767A
CN102292767A CN2010800049037A CN201080004903A CN102292767A CN 102292767 A CN102292767 A CN 102292767A CN 2010800049037 A CN2010800049037 A CN 2010800049037A CN 201080004903 A CN201080004903 A CN 201080004903A CN 102292767 A CN102292767 A CN 102292767A
Authority
CN
China
Prior art keywords
channel signals
time
peak value
unit
time delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800049037A
Other languages
English (en)
Other versions
CN102292767B (zh
Inventor
刘宗宪
张国成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN102292767A publication Critical patent/CN102292767A/zh
Application granted granted Critical
Publication of CN102292767B publication Critical patent/CN102292767B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开了即使在存在多个声源的情况下也能够防止信号的质量劣化的立体声音响信号编码装置。该装置中,峰值追踪单元(401)通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的子帧的波形的峰值,并且比较检测到的峰值的位置,从而估计右声道信号和左声道信号的各帧的帧时间延迟D。时间调整单元(402)基于帧时间延迟D进行右声道信号的时间调整。使用时间调整后的右声道信号和左声道信号进行下混频处理,生成单声道信号和副信号。单声道编码单元(403)将单声道信号进行编码。副信号编码单元(404)将副信号进行编码。时间延迟编码单元(405)将帧时间延迟D进行编码。

Description

立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
技术领域
本发明涉及立体声音响信号编码装置、立体声音响信号解码装置及它们的方法。
背景技术
随着全球性的宽带化进程,用户对通信系统的期待也由单纯的明了性提高到立体声感或自然性,提供立体声音响信号已成为趋势。其结果,期望用于存储和发送立体声音响信号的有效的编码方式。
作为立体声编码方式,例如存在多种如AMR-WB+(Extended adaptivemulti-rate-Wideband:扩散自适应多速率宽带编码)那样,采用“中-侧(Mid-Side)(和差)”(以下记为“M/S”),利用立体声信号所包含的立体声的冗余性的立体声编码(例如,非专利文献1)。
在M/S立体声编码中,多数情况下,由于两个声道的相关性相当高,因此计算两个信号(左声道信号与右声道信号)的和与差。其结果,两个信号的冗余性被去除,随后对和(单声道或中)信号及差(副或侧)信号进行编码。由此,对于信号能量大的单声道信号,能够比信号能量小的副信号分配(相对)更多的比特,能够实现高质量的立体声音响信号。
利用立体声音响信号的冗余性的M/S方法中的问题在于,在两个分量的相位错开(一者对于另一者时间性地延迟)的情况下,M/S编码的优点消失。在实际的音频信号中,由于频繁地发生时间延迟,因此这是根本性的问题。另外,听到立体声信号时感觉到的立体感大多是基于(尤其是在低频率的)左声道信号与右声道信号之间的时间差。
为了解决该问题,在非专利文献2中提出基于使相位匹配(time-aligned)的信号分量的自适应M/S立体声编码方法。
图1是表示用于立体声信号的基于自适应M/S立体声编码方法的原理的编码装置的结构的方框图。
在图1所示的编码装置的编码处理中,时间延迟估计单元101如式(1)那样使用时域互相关方法(time domain cross correlation technique)估计与立体声信号的左声道L(n)和右声道R(n)之间的时间延迟对应的时间延迟D。
C LR ( τ ) = ( Σ n = 0 N - 1 - τ L ( n ) R ( n + τ ) ) 2 ( Σ n = 0 N - 1 - τ L 2 ( n ) ) * ( Σ n = 0 N - 1 - τ R 2 ( n + τ ) ) and D = C LR τ arg max ( τ ) - - - ( 1 )
在式(1)中,[a,b]为规定的范围,N为帧大小。
时间延迟编码单元105将时间延迟D进行编码,复用单元106将编码参数复用而形成比特流(bit stream)。
接下来,时间调整单元102根据时间延迟D调整(aligned)右声道信号R(n)。将调整了的右声道信号表示为Ra(n)。
对于调整了的信号分量,如式(2)那样进行下混频,求单声道信号M(n)与副信号S(n)。
M ( n ) = L ( n ) + R a ( n ) S ( n ) = L ( n ) - R a - - - ( 2 )
基于式(2),能够根据式(3)生成时间性地调整了的信号。
R a ( n ) = 0.5 * ( M ( n ) - S ( n ) ) L ( n ) = 0.5 * ( M ( n ) + S ( n ) ) - - - ( 3 )
单声道编码单元103将单声道信号M(n)进行编码,副信号编码单元104将副信号S(n)进行编码。复用单元106将从单声道编码单元103和副信号编码单元104的两者输入的编码参数复用而形成比特流。
图2是表示用于立体声信号的基于自适应M/S立体声编码方法的原理的解码装置的结构的方框图。
在图2所示的解码处理中,分离单元201将所有编码参数和量化参数从比特流中分离。具体而言,单声道解码单元202将单声道信号的编码参数进行解码而获得解码单声道信号。另外,副信号解码单元203将副信号的编码参数进行解码而获得解码副信号。另外,时间延迟解码单元204将编码了的时间延迟进行解码而获得解码时间延迟D。
接下来,使用解码了的单声道信号和副信号,根据式(4)生成立体声信号
R ~ a ( n ) = 0.5 * ( M ~ ( n ) - S ~ ( n ) ) L ~ ( n ) = 0.5 * ( M ~ ( n ) + S ~ ( n ) ) - - - ( 4 )
其中,
Figure BDA0000076996680000032
为解码单声道信号
为解码副信号
为时间复原单元205的输入信号
时间复原单元205使用解码了的时间延迟D,对时间复原单元205的输入信号的相位反向地进行调整(de-aligning),从而获得时间复原单元205的输出信号。
现有技术文献
非专利文献
非专利文献1:Extended AMR Wideband Speech Codec(AMR-WB+):Transcoding functions,3GPP TS 26.290.
非专利文献2:Jonas Lindblom,Jan H.Plasberg and Renat Vafin“FlexibleSum-difference Stereo Coding Based on Time-aligned Signal Components,”IEEE Workshop on Application of Signal Processing to Audio and Acoustics.2005.
非专利文献3:C.Faller and F.Baumgarte,“Binaural cue coding-part II:Schemes and applications,”IEEE Trans.Speech Audio Processing,vol.11,no.6,pp.520-531,2003
发明内容
发明要解决的问题
非专利文献2的方法中,如果设想输入信号为单一声源(sound source),则能良好地发挥功能,但在存在多个声源的情况下(例如,多个谈话人的声音、多个不同乐器的音乐、或者有背景噪声的声音或音乐等)无法良好地发挥功能。
在存在多个声源的情况下,由于无法准确地求通过互相关方法计算的时间延迟,因此可能产生信号的质量劣化。最坏的情况下,立体声感不稳定。根据非专利文献2,也有报告在若干测试中立体声感不稳定。
这里,在单一声源的情况下,设该声源的信号为s1(n)。此时,立体声信号能够如式(5)那样表示。
L ( n ) = A L * s i ( n - D L ) + N L ( n ) R ( n ) = A R * s i ( n - D R ) + N R ( n ) - - - ( 5 )
在上式中,
AL:s1(n)到达左声道录音装置之前的衰减系数
AR:s1(n)到达右声道录音装置之前的衰减系数
DL:s1(n)到达左声道录音装置为止的到达时间
DR:s1(n)到达右声道录音装置为止的到达时间
NL:左声道录音装置中的背景噪声
NR:右声道录音装置中的背景噪声
根据式(5),如果假设在左声道录音装置和右声道录音装置两者中能够忽略背景噪声,则立体声信号能够如式(6)那样表示。
L ( n ) = A L * s i ( n - D L ) R ( n ) = A R * s i ( n - D R ) - - - ( 6 )
此时,R(n)能够使用L(n)如式(7)那样表示。
R ( n ) = ( A R A L ) * L ( n - ( D R - D L ) ) - - - ( 7 )
根据式(7),在单一声源的情况下,如果能够忽略背景噪声,则可以认为立体声信号的一个声道(例如,R(n))是使另一个声道(L(n))延迟和衰减所得的,因此可以说自适应M/S编码方法能够有效地发挥功能。
另一方面,在存在多个声源的情况下,假设存在M个声源,各声源的信号表示为s1(n)~sM(n)。此时,立体声信号能够如式(8)那样表示。
L ( n ) = Σ i = 1 M A Li * s i ( n - D Li ) + N L ( n ) R ( n ) = Σ i = 1 M A Ri * s i ( n - D Ri ) + N R ( n ) - - - ( 8 )
在上式中,
ALi:si(n)到达左声道录音装置之前的衰减系数
ARi:si(n)到达右声道录音装置之前的衰减系数
DLi:si(n)到达左声道录音装置为止的到达时间
DRi:si(n)到达右声道录音装置为止的到达时间
NL(n):左声道录音装置中的背景噪声
NR(n):右声道录音装置中的背景噪声
根据式(8),如果假设在左声道录音装置和右声道录音装置两者中能够忽略背景噪声,则立体声信号能够如式(9)那样表示。
L ( n ) = Σ i = 1 M A Li * s i ( n - D Li ) R ( n ) = Σ i = 1 M A Ri * s i ( n - D Ri ) - - - ( 9 )
根据数式(9),在存在多个声源的情况下,与单一声源的情况不同,即使在能够忽略背景噪声的情况下,也不能认为立体声信号的一个声道(例如,右声道R(n))是使另一个声道(左声道L(n))延迟和衰减所得的。因此,可以说自适应M/S编码方法对于存在多个声源的情况并不有效。
本发明的目的在于提供立体声音响信号编码装置、立体声音响信号解码装置及它们的方法,其仅利用峰值信息,因此与利用互相关的以往的时间估计方法或者利用从时间向频率的变换的以往的时间估计方法相比,能够使处理运算量极少。
解决问题的方案
本发明的立体声音响信号编码装置所采用的结构包括:峰值追踪单元,通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟;时间调整单元,基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整;以及编码单元,将所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行编码。
本发明的立体声音响信号解码装置所采用的结构包括:分离单元,通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟,并基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整,并且将对所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行了编码和复用所得的比特流,分离为所述右声道信号、所述左声道信号和所述帧时间延迟;解码单元,将分离出的所述右声道信号、所述左声道信号和所述帧时间延迟进行解码;以及时间复原单元,基于分离出的所述帧时间延迟,将所述右声道信号复原为进行所述时间调整之前的时间。
本发明的立体声音响信号编码方法包括以下步骤:通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟;基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整;以及将所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行编码。
本发明的立体声音响信号解码方法包括以下步骤:通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟,并基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整,并且将对所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行了编码和复用所得的比特流,分离为所述右声道信号、所述左声道信号和所述帧时间延迟;将分离出的所述右声道信号、所述左声道信号和所述帧时间延迟进行解码;以及基于分离出的所述帧时间延迟,将所述右声道信号复原为进行所述时间调整之前的时间。
发明的效果
根据本发明,仅利用峰值信息,因此与利用互相关的以往的时间估计方法或者利用从时间向频率的变换的以往的时间估计方法相比,能够使处理运算量极少。
附图说明
图1是表示以往的编码装置的结构的方框图。
图2是表示以往的解码装置的结构的方框图。
图3的(a)至图3的(f)是说明excL(n)的图案(pattern)与excR(n)的图案不同的一例的图。
图4是表示本发明的实施方式1的编码装置的结构的方框图。
图5是表示本发明的实施方式1的解码装置的结构的方框图。
图6是表示本发明的实施方式1的峰值追踪单元的结构的方框图。
图7是表示本发明的实施方式1的峰值追踪单元的结构的方框图。
图8是说明本发明的实施方式1的峰值追踪单元的处理的细节的图。
图9是表示本发明的实施方式1的无效峰值丢弃单元的结构的方框图。
图10是用于说明本发明的实施方式1的无效峰值丢弃单元的动作的图。
图11是表示本发明的实施方式1的编码装置的变形例的方框图。
图12是表示本发明的实施方式1的解码装置的结构的变形例的方框图。
图13是表示本发明的实施方式1的编码装置的结构的变形例的方框图。
图14是表示本发明的实施方式1的编码装置的结构的变形例的方框图。
图15是表示本发明的实施方式1的峰值追踪单元的结构的变形例的方框图。
图16是表示本发明的实施方式1的峰值追踪单元的结构的变形例的方框图。
图17是表示本发明的实施方式2的编码装置的结构的方框图。
图18是表示本发明的实施方式2的峰值追踪单元的结构的方框图。
图19是表示本发明的实施方式2的峰值追踪单元的结构的变形例的方框图。
图20是表示本发明的实施方式3的编码装置的结构的方框图。
图21是表示本发明的实施方式3的开关的结构的方框图。
图22是表示本发明的实施方式4的编码装置的结构的方框图。
图23是表示本发明的实施方式4的开关的结构的方框图。
图24是表示本发明的实施方式4的开关的结构的另一例的方框图。
图25是表示本发明的实施方式5的编码装置的结构的方框图。
图26是表示本发明的实施方式5的开关的结构的方框图。
图27是表示本发明的实施方式5的时间延迟选择单元的结构的方框图。
具体实施方式
本发明涉及峰值追踪(Peak Tracking)方法。峰值追踪是利用立体声输入信号的波形特性来估计左声道信号与右声道信号之间的时间延迟的方法。而且,峰值追踪也能够用于确认基于互相关方法或其他时间延迟估计方法导出的时间延迟的有效性的目的。
发话声音能够作为通过时变激励信号对时变性的发声机构(time-varyingvocal tract system)进行激励的结果输出的信号进行模型化。一般而言,激励发声机构的重要形态为声带的振动(称作声门振动(glottal vibration))。通过声门振动生成的激励信号能够由脉冲序列(sequence of impulses)进行近似。
在单一声源的情况下,如在“发明要解决的问题”中所示的,如果能够忽略背景噪声,则立体声信号的一方声道(例如,右声道信号R(n))可以视为使另一方声道(左声道信号L(n))延迟和衰减的信号。
因此,能够认为右声道信号R(n)的时变激励信号(设为第一脉冲序列)是左声道信号L(n)的时变激励信号(设为第二脉冲序列)发生了延迟和衰减的信号。
基于上述原理,在峰值追踪方法中,通过比较第一脉冲序列与第二脉冲序列中的对应的脉冲的位置来估计时间延迟。
但是,在多个声源的大多数情况下,如在“发明要解决的问题”中所示的,无法将立体声信号的一方声道(例如,R(n))视为使另一方声道(L(n))延迟和衰减所得的信号。使用图3进行详细说明。
这里,考虑存在同时说话的两个谈话人的情况。将两个信号表示为s1(n)和s2(n),并将它们的激励信号表示为exc1(n)和exc2(n)。此时,立体声信号能够如式(10)那样表示。
L ( n ) = A L 1 * s 1 ( n - D L 1 ) + A L 2 * s 2 ( n - D L 2 ) + N L ( n ) R ( n ) = A R 1 * s 1 ( n - D R 1 ) + A R 2 * s 2 ( n - D R 2 ) + N R ( n ) - - - ( 10 )
在上式中,
ALi:si(n)到达左声道录音装置之前的衰减系数
ARi:si(n)到达右声道录音装置之前的衰减系数
DLi:si(n)到达左声道录音装置为止的到达时间
DRi:si(n)到达右声道录音装置为止的到达时间
NL(n):左声道录音装置中的背景噪声
NR(n):右声道录音装置中的背景噪声
左声道激励信号excL(n)和右声道激励信号excR(n)能够使用第1说话人的激励信号exc1(n)和第2说话人的激励信号exc2(n),如数式(11)那样表示。
exc L ( n ) = exc 1 ( n - D L 1 ) + exc 2 ( n - D L 2 ) exc R ( n ) = exc 1 ( n - D R 1 ) + exc 2 ( n - D R 2 ) - - - ( 11 )
一般而言,在式(11)中,excL(n)的图案与excR(n)的图案不同。如果将激励信号视为脉冲序列,并忽略脉冲的大小,则能够使用图3作如下说明。
图3的(a)至图3的(f)表示excL(n)的图案与excR(n)的图案不同的一例。各图的内容如下。
图3的(a)表示exc1(n)的图案。
图3的(b)表示exc2(n)的图案。
图3的(c)表示混合了exc1(n-DL1)和exc2(n-DL2)的信号的情况(为了便于说明,这里设exc1(n-DL1)的脉冲上升的脉冲位置与exc2(n-DL2)的脉冲上升的脉冲位置相同)。
图3的(d)表示混合了exc1(n-DR1)与exc2(n-DR2)的信号的情况。
图3的(e)表示最终获得的左声道激振信号excL(n)的情况(由于exc1(n-DL1)的脉冲上升的脉冲位置与exc2(n-DL2)的脉冲上升的脉冲位置相同,因此这里只描述了exc2(n-DL2)的脉冲)。
图3的(f)表示最终获得的右声道激振信号excR(n)的情况。
由这些图可知,在多个声源的情况下,excL(n)的图案(图3的(e))可能与excR(n)的图案(图3的(f))完全不同。即使对于在这样的多声源环境下输入的两个声道的信号适用非专利文献2所示的以往技术,求得的时间延迟也是无效的,成为解码信号的音质劣化的原因。这样的情况下,本发明中公开的峰值追踪方法,通过将时间延迟设定为零或由前一帧导出的时间延迟,丢弃无效的时间延迟。通过使用峰值追踪方法丢弃无效的时间延迟,能够避免音质劣化。这里,能够根据输入信号的特性决定对于无效的时间延迟是设定零还是设定由前一帧导出的时间延迟。例如,在输入信号的立体声感未发生极大变化的情况下,将时间延迟设定为由前一帧导出的时间延迟。另一方面,在输入信号的立体声感发生极大变化的情况下,将时间延迟设定为零。
即使为多个声源,也有时能视为单一声源。例如,可列举尽管为不同的信号源而左声道信号与右声道信号之间的时间延迟相同的情况、或者多个声源中仅有1个声源占优势的情况等。在这样的情况下,峰值追踪使用与单一声源情景的情况相同的原理,估计时间延迟。
以下,说明本发明中的各实施方式。本领域技术人员能够在不脱离本发明的范围的情况下对本发明进行修正和优化。
(实施方式1)
图4是表示适用峰值追踪方式估计时间延迟的编码装置的结构的方框图。另外,图5是表示适用峰值追踪方式估计时间延迟的解码装置的结构的方框图
在图4所示的编码处理中,峰值追踪单元401将与立体声信号的左声道信号L(n)和右声道信号R(n)之间的时间延迟对应的时间延迟D使用峰值追踪方式进行估计。
时间延迟编码单元405对时间延迟D进行编码,复用单元406将编码参数复用而形成比特流。
时间调整单元402根据时间延迟D调整右声道信号R(n)。将时间性调整了的右声道信号表示为Ra(n)。
对于时间性调整了的信号,根据式(12)进行下混频。
M ( n ) = L ( n ) + R a ( n ) S ( n ) = L ( n ) - R a ( n ) - - - ( 12 )
基于式(12),能够根据下式(13)生成时间性调整了的信号。
R a ( n ) = 0.5 * ( M ( n ) - S ( n ) ) L ( n ) = 0.5 * ( M ( n ) + s ( n ) ) - - - ( 13 )
也可以将时间性调整了的信号根据式(14)进行下混频。
M ( n ) = 0.5 * ( L ( n ) + R a ( n ) ) S ( n ) = 0.5 * ( L ( n ) - R a ( n ) ) - - - ( 14 )
基于式(14),能够根据式(15)生成时间性调整了的信号。
R a ( n ) = M ( n ) - S ( n ) L ( n ) = M ( n ) + S ( n ) - - - ( 15 )
单声道编码单元403对单声道信号M(n)进行编码,副信号编码单元404对副信号S(n)进行编码。复用单元406将从单声道编码单元403和副信号编码单元404两者输入的编码参数复用而形成比特流。
在图5所示的解码处理中,分离单元501将所有编码参数和量化参数从比特流中分离。单声道解码单元502对单声道信号的编码参数进行解码,获得解码单声道信号。副信号解码单元503对副信号的编码参数进行解码,获得解码副信号。时间延迟解码单元504对编码了的时间延迟进行解码,获得解码时间延迟D。
使用解码了的单声道信号和副信号,根据式(16),生成立体声信号。
R ~ a ( n ) = 0.5 * ( M ~ ( n ) - S ~ ( n ) ) L ~ ( n ) = 0.5 * ( M ~ ( n ) + S ~ ( n ) ) - - - ( 16 )
其中,
Figure BDA0000076996680000112
为解码单声道信号
Figure BDA0000076996680000113
为解码副信号
为时间复原单元505的输入信号
另外,在根据下式(17)进行下混频的情况下,根据数式(18)进行上混频。
M ( n ) = 0.5 * ( L ( n ) + R a ( n ) ) S ( n ) = 0.5 * ( L ( n ) - R a ( n ) ) - - - ( 17 )
R ~ a ( n ) = M ~ ( n ) - S ~ ( n ) L ~ ( n ) = M ~ ( n ) + S ~ ( n ) - - - ( 18 )
时间复原单元505通过根据解码了的时间延迟D,对时间复原单元505的输入信号的相位反方向地调整,生成时间复原单元505的输出信号。
图6是表示峰值追踪单元401的结构的方框图,其表示峰值追踪方法的原理。帧分割单元601将输入到每一帧的左声道信号L(n)和右声道信号R(n)的输入帧分割为多个子帧。这里,将子帧的数设为N。
峰值追踪单元602、603、604对于各子帧适用峰值追踪,获得子帧时间延迟(D0~DN-1)。帧延迟估计单元605使用这些子帧时间延迟(D0~DN-1),估计帧时间延迟D。
估计帧时间延迟的一种方法是如下所述计算子帧中的时间延迟的平均。
D = Σ i = 0 N - 1 D i N - - - ( 19 )
作为其他方法,可举出使帧时间延迟等于出现次数最大的子帧时间延迟的方法。例如,在子帧时间延迟(D0~DN-1)中,只有1个时间延迟为2,而剩余的时间延迟全部为0的情况下,选择0作为帧时间延迟(D=0)。此外,也可如下式所示,将D设为Di的中央值。
D=median{Di}(20)
此外,帧时间延迟估计方法并不限于上述的两个例子。
接着,时间延迟有效性确认单元606确认帧时间延迟D的有效性。
时间延迟有效性确认单元606比较时间延迟D与各子帧时间延迟,对其差超过规定的范围的子帧数进行计数。在超过规定的范围的子帧数超过阈值M时的情况下,时间延迟有效性确认单元606将时间延迟D视为无效。这里,阈值M被定义为规定的值或者根据信号特性而自适应地计算出的值。在时间延迟有效的情况下,时间延迟有效性确认单元606输出在当前帧中计算出的时间延迟。另一方面,在时间延迟非有效的情况下(无效的情况下),时间延迟有效性确认单元606输出前帧的时间延迟。此外,在时间延迟无效的情况下,也可以使用零值(此时,被视为左声道信号L(n)与右声道信号R(n)的相位差不存在)或者过去数帧的时间延迟的平均值等来代替在当前帧中计算出的时间延迟。另外,也可对每一帧切换并输出这些值。
图7是表示峰值追踪单元602、603、604的结构的方框图,其表示适用于各子帧的峰值追踪的详细步骤。作为例子,说明子帧i的情况。
子帧i的输入信号Li(n)是L(n)的第i子帧的输入信号,子帧i的输入信号Ri(n)是R(n)的第i子帧的输入信号。另外,输出信号Di是第i子帧的子帧时间延迟。
峰值分析单元701求子帧的输入Li(n)和Ri(n)的峰值的位置。无效峰值丢弃单元702输出表示该峰值是否有效的指示符Fi。在峰值有效的情况下,峰值位置比较单元703比较两个声道的峰值的位置,并输出子帧时间延迟Di
图8是说明峰值分析单元701的处理的细节的图。
首先,峰值追踪单元602、603、604在进行处理之前,计算L(n)和R(n)的绝对值。
另外,峰值追踪单元602、603、604将绝对值|L(n)|及|R(n)|分割为N个子帧。图8中,作为例子,表示了3个子帧。峰值追踪单元602、603、604在各子帧中寻找最大值的位置(PL(0)~PL(N-1)、PR(0)~PR(N-1))。然后,峰值追踪单元602、603、604根据峰值的位置之差估计子帧时间延迟(D0~DN-1)。如果以子帧i为例,则如下估计时间延迟Di
Di=PR(i)-PL(i)(21)
图9是表示无效峰值丢弃单元702的结构的方框图。
有时在若干子帧中不存在激励脉冲,此时,该子帧中确定的峰值不对应于激励脉冲。此时,由子帧导出的时间延迟并非适当的时间延迟。
无效峰值丢弃单元702使这样的时间延迟不被用于帧时间延迟的估计。
确认子帧中的峰值是否对应于激励脉冲的一种方法是,将峰值的值与规定的阈值进行比较。该阈值能够根据来自前帧的峰值或相同帧内的其他子帧的峰值来决定。
在图9中,峰值提取单元901使用子帧的输入Li(n)和Ri(n)以及峰值位置PL(i)和PR(i),获得峰值|L(PL(i))|和|R(PR(i))|。接下来,阈值比较单元902将这两个峰值与规定的阈值进行比较。在峰值大于阈值的情况下,从阈值比较单元902输出的输出标记Fi为Fi=1(表示峰值有效)。在峰值小于阈值的情况下,从阈值比较单元902输出的输出标记Fi为Fi=0(表示峰值无效),此时,不将子帧时间延迟Di用于帧时间延迟估计。
图10是用于说明无效峰值丢弃单元702的动作的图。
在该图中,由于在第2子帧中不存在激励脉冲,因此第2子帧(子帧索引为1)中的峰值与其他子帧中的峰值相比非常小。因此,由无效峰值丢弃单元702丢弃第2子帧的子帧时间延迟。
根据本实施方式,将立体声输入信号帧分割为多个子帧,并在各子帧中求峰值的位置。另外,比较峰值的位置,求被估计的子帧时间延迟。进而,使用多个子帧时间延迟,求最终的估计时间延迟。这样的峰值追踪是利用输入信号的波形特性的信号依存的方法,是有效且准确的时间延迟估计方法。因而,根据本实施方式,由于峰值追踪仅利用峰值信息,因此与利用互相关的以往的时间估计方法或者利用由时间向频率的变换的以往的时间估计方法相比,能够极大地减少处理运算量。
另外,根据本实施方式,增加了丢弃无效峰值的处理。通过将峰值的值与规定的阈值进行比较以使在子帧中求得的峰值必须对应于激励脉冲,从而进行无效峰值的丢弃。当峰值的值小于规定的阈值时,该峰值将被丢弃。因而,通过丢弃无效的峰值,在帧时间延迟估计中仅使用与激励脉冲对应的峰值。由此,能够求更准确的时间延迟。
此外,在本实施方式中,对右声道信号进行了时间调整,但本实施方式并不限于此,也可以对左声道信号进行时间调整。另外,作为本实施方式中的变形例,可以考虑以下变形方式1~变形方式6。
(变形方式1)
根据时间延迟的符号,能够对于左声道信号和右声道信号中的任一方调整时间延迟。
图11是表示本实施方式的编码装置的结构的变形例1的方框图,图12是表示本实施方式的解码装置的结构的变形例1的方框图。该编解码器具有与在本实施方式中提出的编码装置(图4)和解码装置(图5)不同的结构。
在图11所示的编码装置中,在由峰值追踪单元1101计算出的时间延迟为正,即右声道信号R(n)迟于左声道信号L(n)的情况下,时间调整单元1103调整右声道信号R(n)的相位。在由峰值追踪单元1101计算出的时间延迟为负,即左声道信号L(n)迟于右声道信号R(n)的情况下,时间调整单元1102调整L(n)的相位。此外,时间调整单元1103进行与时间调整单元402同样的处理,因此省略其说明。另外,单声道编码单元1104进行与单声道编码单元403同样的处理,因此省略其说明。另外,副信号编码单元1105进行与副信号编码单元404同样的处理,因此省略其说明。另外,时间延迟编码单元1106进行与时间延迟编码单元405同样的处理,因此省略其说明。另外,复用单元1107进行与复用单元406同样的处理,因此省略其说明。
在图12所示的解码装置中,在解码了的时间延迟为正的情况下,时间复原单元1206将右声道信号R(n)的相位反方向地调整。在解码了的时间延迟为负的情况下,时间复原单元1205将左声道信号L(n)的相位反方向地调整。此外,分离单元1201进行与分离单元501同样的处理,因此省略其说明。另外,单声道解码单元1202进行与单声道解码单元502同样的处理,因此省略其说明。另外,副信号解码单元1203进行与副信号解码单元503同样的处理,因此省略其说明。另外,时间延迟解码单元1204进行与时间延迟解码单元504同样的处理,因此省略其说明。
本变形方式的效果如下。首先,立体声信号能够如下那样表示。
L ( n ) = A L * s i ( n - D L ) + N L ( n ) R ( n ) = A R * s i ( n - D R ) + N R ( n ) - - - ( 22 )
在上式中,
AL:s1(n)到达左声道录音装置之前的衰减系数
AR:s1(n)到达右声道录音装置之前的衰减系数
DL:s1(n)到达左声道录音装置为止的到达时间
DR:s1(n)到达右声道录音装置为止的到达时间
NL:左声道录音装置中的背景噪声
NR:右声道录音装置中的背景噪声
这里,DL与DR的关系有“DL>DR”、“DL=DR”和“DL<DR”的三种情况
在DL=DR的情况下,两个声道信号之间的时间延迟为0。
在DL>DR的情况下,左声道信号L(n)迟于右声道信号R(n),因此调整左声道信号L(n)。
在DL<DR的情况下,右声道信号R(n)迟于左声道信号L(n),因此调整右声道信号R(n)。
因此,通过适用本变形方式,能够根据输入信号的时间延迟,灵活地调整右声道信号和左声道信号的时间延迟。
(变形方式2)
在由峰值追踪单元计算时间延迟D之前,对于左声道信号L(n)和右声道信号R(n)进行线性预测处理。
图13是表示本实施方式的编码装置的结构的变形例2的方框图。
在图13所示的编码装置中,线性预测(LP)分析单元1301、1304对于左声道信号L(n)和右声道信号R(n)分别进行线性预测处理。峰值追踪单元1305使用由线性预测(LP)逆滤波器单元1302、1303求得的残差信号resL(n)和resR(n),估计时间延迟。
此外,峰值追踪单元1305进行与峰值追踪单元401同样的处理,因此省略其说明。另外,时间调整单元1306进行与时间调整单元402同样的处理,因此省略其说明。另外,单声道编码单元1307进行与单声道编码单元403同样的处理,因此省略其说明。另外,副信号编码单元1308进行与副信号编码单元404同样的处理,因此省略其说明。另外,时间延迟编码单元1309进行与时间延迟编码单元405同样的处理,因此省略其说明。另外,复用单元1310进行与复用单元406同样的处理,因此省略其说明。另外,对于解码装置,由于与图5中记载的解码装置相同,因此省略其说明。
通过该结构,使用线性预测系数(LP系数),由输入信号导出线性预测残差,通过线性预测,去除信号的样本间的相关,从而能够获得较大激励的瞬间附近的较大振幅变动。因此,能够利用线性预测残差良好地检测峰值的位置。
(变形方式3)
在由峰值追踪单元估计时间延迟之前,将左声道信号L(n)和右声道信号R(n)通过低通滤波器进行处理。
图14是表示本实施方式的编码装置的结构的变形例3的方框图。
在图14所示的编码装置中,使左声道信号L(n)和右声道信号R(n)通过低通滤波器1401、1402而进行处理。峰值追踪单元1403使用左声道信号的低通滤波器1401的输出信号LLF(n)和右声道信号的低通滤波器1402的输出信号RLF(n),估计时间延迟。
此外,峰值追踪单元1403进行与峰值追踪单元401同样的处理,因此省略其说明。另外,时间调整单元1404进行与时间调整单元402同样的处理,因此省略其说明。另外,单声道编码单元1405进行与单声道编码单元403同样的处理,因此省略其说明。另外,副信号编码单元1406进行与副信号编码单元404同样的处理,因此省略其说明。另外,时间延迟编码单元1407进行与时间延迟编码单元405同样的处理,因此省略其说明。另外,复用单元1408进行与复用单元406同样的处理,因此省略其说明。另外,对于解码装置,由于与图5中记载的解码装置相同,因此省略其说明。
通过该结构,能够在低频信号中良好地检测峰值的位置。
(变形方式4)
可对每帧改变子帧的数。根据由单声道编码单元获得的基音周期,决定子帧的数。
图15是表示本实施方式的峰值追踪单元的结构的变形例1的方框图。
在图15所示的编码装置中,自适应帧分割单元1501将左声道信号L(n)和右声道信号R(n)分割为可变数的子帧。根据来自单声道编码单元的前帧的基音周期,决定子帧的数。此外,峰值追踪单元1502、1503进行与峰值追踪单元602、603、604同样的处理,因此省略其说明。另外,帧延迟估计单元1504进行与帧延迟估计单元605同样的处理,因此省略其说明。另外,时间延迟有效性确认单元1505进行与时间延迟有效性确认单元606同样的处理,因此省略其说明。
因此,通过利用由单声道编码器获得的基音周期,能够从与基音周期同步了的子帧中更准确地检测基音的位置,从而能够良好地估计时间延迟。
(变形方式5)
可对每帧改变子帧的边界。根据由单声道编码单元获得的基音周期,定义子帧的数。
图16是表示本实施方式的峰值追踪单元的结构的变形例2的方框图。
在图16所示的编码装置中,自适应帧分割单元1601将左声道信号L(n)和右声道信号R(n)分割为可变数的子帧。根据来自单声道编码单元的前帧的基音周期,决定子帧的数。此外,峰值追踪单元1602、1603,1604进行与峰值追踪单元602、603、604同样的处理,因此省略其说明。另外,帧延迟估计单元1605进行与帧延迟估计单元605同样的处理,因此省略其说明。另外,时间延迟有效性确认单元1606进行与时间延迟有效性确认单元606同样的处理,因此省略其说明。
由此,通过利用由单声道编码单元获得的基音周期,能够从与基音周期同步了的子帧中更准确地检测基音的位置,从而能够良好地估计时间延迟。
(变形方式6)
定义多个子帧长度,分别在子帧长度的设定中并行地执行峰值追踪。根据在各子帧长度中由峰值追踪获得的所有时间延迟D,决定时间延迟D。
由此,通过利用多个子帧长度,能够更好地估计时间延迟。
(实施方式2)
峰值追踪方法也能够用于确认基于其他时间延迟估计方法(例如,互相关方法)导出的时间延迟的有效性的目的。
图17是表示本发明的实施方式2的编码装置的结构的方框图,该编码装置大部分与图4所示的实施方式1的编码装置相同。在图17中,时间延迟估计单元1701通过除适用峰值追踪方式估计时间延迟的编码方式以外的编码方式,估计时间延迟。另外,峰值追踪单元1702确认在时间延迟估计单元1701中计算出的时间延迟的有效性。
图18是表示在由时间延迟估计单元1701计算出的时间延迟的有效性的确认中适用了峰值追踪单元1702时的峰值追踪单元1702的结构的方框图。
首先,帧分割单元1801将左声道信号L(n)和右声道信号R(n)的输入帧分割为多个子帧。子帧的数表示为N。
接下来,峰值追踪单元1802、1803、1804获得N个子帧的子帧时间延迟(D0~DN-1)。时间延迟有效性确认单元1805使用这些子帧时间延迟(D0~DN-1),确认由时间延迟估计单元1701计算出的帧时间延迟D的有效性。此外,时间调整单元1703进行与时间调整单元402同样的处理,因此省略其说明。另外,单声道编码单元1704进行与单声道编码单元403同样的处理,因此省略其说明。另外,副信号编码单元1705进行与副信号编码单元404同样的处理,因此省略其说明。另外,时间延迟编码单元1706进行与时间延迟编码单元405同样的处理,因此省略其说明。另外,复用单元1707进行与复用单元406同样的处理,因此省略其说明。
时间延迟有效性确认单元1805比较由时间延迟估计单元1701计算出的时间延迟D与各子帧时间延迟(D0~DN-1),对其差超过规定的范围的子帧数进行计数。在超过规定的范围的子帧数超过阈值M的情况下,时间延迟有效性确认单元1805将时间延迟估计单元1701计算出的时间延迟D视为无效。这里,阈值M被定义为规定的值或者根据信号特性而自适应地计算出的值。
在时间延迟D被判断为无效的情况下,时间延迟有效性确认单元1805输出前帧的时间延迟。另一方面,在判断为时间延迟D有效的情况下,时间延迟有效性确认单元1805输出由时间延迟估计单元1701计算出的时间延迟D。此外,在时间延迟被判断为无效的情况下,也可使用零值(此时,被视为左声道信号L(n)与右声道信号R(n)的相位差不存在)或者过去数帧的时间延迟的平均值等来代替在当前帧中计算出的时间延迟。另外,也可对每一帧切换并输出这些值。
<实施方式2的变形例>
本实施方式的变形例中,在分割为多个子帧之前,根据导出的时间延迟D调整L(n)和R(n)。
图19是表示本实施方式的峰值追踪单元的结构的变形例的方框图。
在图19中,调整单元1901根据导出的时间延迟D调整输入信号L(n)和R(n)(在图19中,作为一例,调整R(n))。帧分割单元1902将经调整的信号L(n)和Ra(n)分割为多个子帧。这里,子帧的数表示为N。
峰值追踪单元1903、1904、1905适用峰值追踪获得子帧时间延迟(D0~DN-1)。时间延迟有效性确认单元1906使用这些子帧时间延迟(D0~DN-1),确认帧时间延迟D的有效性。时间延迟有效性确认单元1906在超过规定的值的子帧时间延迟的数大于M(M为规定的值或者能够依照信号特性而自适应地导出)的情况下,判定为D无效,此时输出前帧的时间延迟。另外,时间延迟有效性确认单元1906在超过规定的值的子帧时间延迟的数为M以下的情况下,将D视为有效,并输出来自当前帧的D。
根据本实施方式,将立体声输入信号帧分割为多个子帧,并在各子帧中求峰值的位置。比较峰值的位置,求被估计的子帧时间延迟。使用多个子帧时间延迟确认通过其他时间延迟估计方法计算出的时间延迟的有效性。如果确认为有效,则直接使用,在判断为无效的情况下,丢弃该时间延迟。因此,根据本实施方式,除了上述实施方式1的效果以外,还能够在多声源环境下,维持单一声源环境用的其他时间延迟估计方法的有效性而不使输入信号的立体声感失真。另外,根据本实施方式,通过将峰值追踪方法与其他时间延迟估计方法相组合,能够更准确地导出立体声输入间的时间延迟。另外,此时,不会因峰值追踪而大幅度地增加原来的方法的处理运算量。另外,在根据导出的时间延迟D调整输入信号L(n)和R(n)的情况下,能够避免对应的峰值(例如,L(n)中的PL(1)、R(n)中的PR(1))被分割为两个不同的子帧。另外,在根据导出的时间延迟D调整输入信号L(n)和R(n)的情况下,无须考虑时间延迟,因此帧分割单元的安装极为容易。
(实施方式3)
本实施方式中,导出两个不同的时间延迟。一方时间延迟是通过瞬间追踪时间延迟的峰值追踪方法而导出。另一个时间延迟是通过更稳定地追踪时间延迟的其他时间延迟估计方法(例如,非专利文献3中介绍的低通互相关方法(low-passed cross correlation method))而导出。在峰值追踪方法与除此以外的方法之间,选择最终的时间延迟。
图20是表示本实施方式的编码装置的结构的方框图。图20所示的编码装置大部分与图4所示的实施方式1的编码装置相同。此外,在图20中,对于与图4相同结构的部分附加相同的标号,并省略其说明。峰值追踪单元2002通过峰值追踪方法估计时间延迟D′,其他时间延迟估计单元2001通过其他时间延迟估计方法导出时间延迟D″。开关2003选择输出D′与D″中较好的一方的时间延迟。
图21是表示开关2003的结构的方框图。延迟有效性确认单元2101通过与在图6的时间延迟有效性确认单元606中适用了的时间延迟有效性确认方法同样的方法,确认时间延迟D′。并且,延迟有效性确认单元2101在时间延迟D′有效的情况下,输出时间延迟D′作为最终时间延迟D。另外,延迟有效性确认单元2101在时间延迟D′无效的情况下,输出D″作为最终时间延迟D。
根据本实施方式,通过在瞬间追踪输入时间延迟的峰值追踪方法与稳定地追踪输入时间延迟的其他时间延迟估计方法之间选择时间延迟,能够达成高速且稳定的时间延迟估计。
(实施方式4)
本实施方式中,使用非峰值追踪方法的两种时间延迟估计方法,导出两个不同的时间延迟。一种方法能够瞬间追踪输入时间延迟,与此相对地,另一种方法能够稳定地追踪输入时间延迟。另外,使用峰值追踪作为开关模块的有效性确认方法。
图22是表示本实施方式的编码装置的方框图。本实施方式的编码装置大部分与图20的编码装置相同。此外,在图22中,对于与图4和图20相同结构的部分附加相同的标号,并省略其说明。时间延迟估计单元2202不通过峰值追踪方法而通过其他时间延迟估计方法,估计时间延迟D′。
在该编码装置中,时间延迟估计单元2202采用能够瞬间追踪时间延迟的方法。一个例子是单一帧互相关方法。仅在当前帧中导出互相关系数。寻找最大的互相关系数,获得对应的时间延迟。
时间延迟估计单元2201采用虽然有些迟缓却能够稳定地更新时间延迟的方法。一个例子是非专利文献3中介绍的低通互相关方法,基于当前帧和过去的帧计算互相关系数。低通互相关方法中,寻找最大的互相关系数,获得对应的时间延迟。因此,对于导出的时间延迟而言,极为稳定地追踪输入时间延迟。开关2203选择输出D′与D″中较好的一方的时间延迟。
图23是表示开关2203的结构的方框图。峰值追踪单元2301通过峰值追踪方法(与实施方式2中的图18或图19的情况相同)确认时间延迟D′。延迟有效性确认单元2301在时间延迟D′有效的情况下,输出D′作为最终时间延迟D。另外,延迟有效性确认单元2301在时间延迟D′无效的情况下,输出D″作为最终时间延迟D。
图24是表示本实施方式的开关的结构的另一例的方框图。峰值追踪单元2401通过峰值追踪方法(与实施方式2中的图18或图19的情况相同)确认时间延迟D′和时间延迟D″两者。峰值追踪单元2401在两个时间延迟中的一方有效的情况下,输出该有效的时间延迟作为最终时间延迟D。另外,峰值追踪单元2401在两个时间延迟的双方都有效的情况下,输出更适合于峰值追踪方法的时间延迟作为最终时间延迟。峰值追踪单元2401在两个时间延迟都不有效情况下,输出前帧的时间延迟作为最终时间延迟。
根据本实施方式,通过在瞬间追踪输入时间延迟的一种时间延迟估计方法和稳定地追踪输入时间延迟的其他时间延迟估计方法之间选择时间延迟,能够达成高速且稳定的时间延迟估计。
(实施方式5)
本实施方式中,通过多种不同的方法导出多个时间延迟。另外,本实施方式中,作为开关模块的有效性确认方法使用峰值追踪,选择时间延迟候补中最佳的时间延迟。
图25是表示本实施方式的编码装置的结构的方框图。该编码装置大部分与图22所示的实施方式4的编码装置相同。此外,在图25中,对于与图4、图20和图22相同结构的部分附加相同的标号,并省略其说明。各时间延迟估计单元2501、2502、2503基于多种不同的方法导出K(K≥2)个时间延迟。导出的时间延迟能够根据其符号用于左信号或右信号的调整。
在该编码装置中,推荐使时间延迟估计单元2501、2502、2503的估计特性不同。
时间延迟估计单元2501通过最能够在瞬间追踪时间延迟的方法,获得时间延迟。最能够在瞬间追踪时间延迟的方法的一个例子是单一帧互相关方法。单一帧互相关方法仅在当前帧中导出互相关系数。并且,单一帧互相关方法是寻找最大的互相关系数,获得对应的时间延迟。
时间延迟估计单元2503通过虽然有些迟缓却能够稳定地更新时间延迟的方法,获得时间延迟。虽然有些迟缓却能够稳定地更新时间延迟的方法的一个例子是非专利文献3中介绍的低通互相关方法。低通互相关方法基于当前帧及过去的帧,计算互相关系数。并且,低通互相关方法寻找最大的互相关系数,获得对应的时间延迟。因此,对于导出的时间延迟而言,极为稳定地追踪输入时间延迟。开关2504选择并输出时间延迟候补D1~DK中最佳的时间延迟。调整单元2505使用由开关2504选择出的时间延迟,根据其符号进行左信号或右信号的调整。例如,调整单元2505在时间延迟为正的情况下调整左信号,而在时间延迟为负的情况下调整右信号。
图26是表示开关2504的结构的方框图。使用时间延迟Dk作为例子。调整单元2601根据导出了的时间延迟Dk调整输入信号L(n)和R(n)。帧分割单元2602将经调整的信号Lka(n)及Rka(n)分割为多个子帧。子帧的数表示为N。
对于各子帧,适用峰值追踪(使用峰值分析单元2603、2606、2609、无效峰值丢弃单元2604、2608、2611以及峰值位置比较单元2605、2607、2610),获得子帧峰值差|PLk(0)-PRk(0)|~|PLk(N-1)-PRk(N-1)|。加法单元2612合计这些子帧峰值差。
图27是表示时间延迟选择单元2701的结构的方框图。
时间延迟选择单元2701能够输入时间延迟D1~时间延迟DK的子帧峰值差的合计值,并根据式(23)选择时间延迟。
D = arg D k min &Sigma; i = 0 N - 1 | P Lk ( i ) - P Rk ( i ) | - - - ( 23 )
此外,并不仅限于上述基准,也可使用其他基准。
根据本实施方式,通过在多个时间延迟估计方法之间选择最佳的时间延迟候补,能够良好地估计时间延迟。
上述的说明为本发明的优选实施方式的例证,本发明的范围并不限于此。只要是具有立体声音响信号编码装置或立体声音响信号解码装置的系统,本发明可适用于任何情况。
另外,本发明的立体声音响信号编码装置和立体声音响信号解码装置可安装于移动通信系统中的通信终端装置和基站装置中。由此,能够提供具有与上述同样的作用效果的通信终端装置、基站装置及移动通信系统。
另外,虽然这里以由硬件构成本发明的情形为例进行了说明,但是本发明还可以由软件实现。例如,通过编程语言对本发明的算法进行记述,并在内存中保存该程序并通过信息处理装置来执行,从而能够实现与本发明的立体声音响信号编码装置等相同的功能。
另外,在上述实施方式的说明中所使用的各功能块典型地通过集成电路的LSI(大规模集成电路)来实现。这些块既可以被单独地集成为一个芯片,也可以包含一部分或全部地被集成为一个芯片。
另外,在此虽然称做LSI,但根据集成程度的不同,也可以称为IC(集成电路)、系统LSI、超大LSI(Super LSI)、极大LSI(Ultra LSI)等。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。也可以利用可在LSI制造后编程的FPGA(Field ProgrammableGate Array,现场可编程门阵列),或者可重构LSI内部的电路单元的连接或设定的可重构处理器(Reconfigurable Processor)。
再有,随着半导体技术的进步或者随其派生的他技术的出现,如果出现能够代替LSI集成电路化的技术,当然也可以利用该技术进行功能块的集成化。还存在着适用生物技术等的可能性。
2009年1月22日提交的日本专利申请第2009-12407号和2009年2月20日提交的日本专利申请第2009-38646号所包含的说明书、说明书附图以及说明书摘要的公开内容,全部引用于本申请。
工业实用性
本发明的立体声音响信号编码装置、立体声音响信号解码装置及它们的方法尤其适合于存储和发送立体声音响信号。

Claims (8)

1.立体声音响信号编码装置,包括:
峰值追踪单元,通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟;
时间调整单元,基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整;以及
编码单元,将所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方、以及所述帧时间延迟进行编码。
2.如权利要求1所述的立体声音响信号编码装置,所述峰值追踪单元求所述子帧的子帧时间延迟,并且在各帧中,在所述帧时间延迟与所述子帧时间延迟之差为规定的值以上的所述子帧的数为阈值以上的情况下,使估计出的所述帧时间延迟无效。
3.如权利要求1所述的立体声音响信号编码装置,所述峰值追踪单元去除所述峰值的值小于阈值的所述子帧的所述峰值,估计所述帧时间延迟。
4.如权利要求1所述的立体声音响信号编码装置,还包括:
时间延迟估计单元,通过与在所述峰值追踪单元中估计出的所述帧时间延迟不同的方法,估计所述帧的时间延迟,
所述峰值追踪单元求所述子帧的子帧时间延迟,并且在各帧中,在所述时间延迟估计单元中估计出的时间延迟与所述子帧时间延迟之差为规定的值以上的所述子帧的数低于阈值的情况下,输出在所述时间延迟估计单元中估计出的时间延迟以取代所述帧时间延迟。
5.如权利要求1所述的立体声音响信号编码装置,所述时间调整单元基于所述帧时间延迟进行所述右声道信号和所述左声道信号双方的时间调整,
所述编码单元将时间调整了的所述左声道信号和所述右声道信号以及所述帧时间延迟进行编码。
6.立体声音响信号解码装置,包括:
分离单元,通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟,并基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整,并且将对所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行了编码和复用所得的比特流,分离为所述右声道信号、所述左声道信号和所述帧时间延迟;
解码单元,将分离出的所述右声道信号、所述左声道信号和所述帧时间延迟进行解码;以及
时间复原单元,基于分离出的所述帧时间延迟,将所述右声道信号复原为进行所述时间调整之前的时间。
7.立体声音响信号编码方法,包括以下步骤:
通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟;
基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整;以及
将所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行编码。
8.立体声音响信号解码方法,包括以下步骤:
通过将右声道信号和左声道信号的帧分割为多个子帧,检测分割出的所述子帧的波形的峰值,并且比较检测到的所述峰值的位置,从而估计所述右声道信号和所述左声道信号的各帧的帧时间延迟,并基于所述帧时间延迟,进行所述右声道信号和所述左声道信号中的任何一方的时间调整,并且将对所述右声道信号和所述左声道信号中的任何另一方、时间调整了的所述右声道信号和所述左声道信号中的任何一方以及所述帧时间延迟进行了编码和复用所得的比特流,分离为所述右声道信号、所述左声道信号和所述帧时间延迟;
将分离出的所述右声道信号、所述左声道信号和所述帧时间延迟进行解码;以及
基于分离出的所述帧时间延迟,将所述右声道信号复原为进行所述时间调整之前的时间。
CN2010800049037A 2009-01-22 2010-01-21 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 Expired - Fee Related CN102292767B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2009012407 2009-01-22
JP2009-012407 2009-01-22
JP2009-038646 2009-02-20
JP2009038646 2009-02-20
PCT/JP2010/000331 WO2010084756A1 (ja) 2009-01-22 2010-01-21 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法

Publications (2)

Publication Number Publication Date
CN102292767A true CN102292767A (zh) 2011-12-21
CN102292767B CN102292767B (zh) 2013-05-08

Family

ID=42355812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800049037A Expired - Fee Related CN102292767B (zh) 2009-01-22 2010-01-21 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法

Country Status (5)

Country Link
US (1) US8504378B2 (zh)
EP (1) EP2381439B1 (zh)
JP (1) JP5269914B2 (zh)
CN (1) CN102292767B (zh)
WO (1) WO2010084756A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104614573A (zh) * 2013-11-04 2015-05-13 德州仪器公司 数字无线电接收器中的agc环路的最优峰值检测器
CN108701464A (zh) * 2016-02-12 2018-10-23 高通股份有限公司 多个音频信号的编码
CN108780648A (zh) * 2016-03-18 2018-11-09 高通股份有限公司 用于在时间上失配的信号的音频处理
WO2019020045A1 (zh) * 2017-07-25 2019-01-31 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN109844858A (zh) * 2016-10-31 2019-06-04 高通股份有限公司 多个音频信号的解码
CN111095403A (zh) * 2017-09-12 2020-05-01 高通股份有限公司 选择用于帧间时间偏移变异的通道调整方法
CN111133509A (zh) * 2017-05-16 2020-05-08 华为技术有限公司 一种立体声信号处理方法及装置
CN113724728A (zh) * 2021-08-05 2021-11-30 北京信息职业技术学院 一种基于gmm模型的音频信号的处理方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
US8942989B2 (en) * 2009-12-28 2015-01-27 Panasonic Intellectual Property Corporation Of America Speech coding of principal-component channels for deleting redundant inter-channel parameters
EP3779975B1 (en) * 2010-04-13 2023-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction
CN106409304B (zh) * 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN104796370B (zh) * 2015-03-20 2018-03-30 中国电子科技集团公司第三研究所 一种水声通信的信号同步方法、系统及水声通信系统
RU2765565C2 (ru) 2015-09-25 2022-02-01 Войсэйдж Корпорейшн Способ и система для кодирования стереофонического звукового сигнала с использованием параметров кодирования первичного канала для кодирования вторичного канала
US10074373B2 (en) * 2015-12-21 2018-09-11 Qualcomm Incorporated Channel adjustment for inter-frame temporal shift variations
WO2017125558A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
EP3582219B1 (en) 2016-03-09 2021-05-05 Telefonaktiebolaget LM Ericsson (publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
US10217468B2 (en) * 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0255431A (ja) * 1988-08-19 1990-02-23 Matsushita Electric Ind Co Ltd 情報伝送装置
JPH07240722A (ja) * 1994-02-28 1995-09-12 Toshiba Corp 音声符号復号化装置、音声符号化装置及び音声復号化装置
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4581758A (en) * 1983-11-04 1986-04-08 At&T Bell Laboratories Acoustic direction identification system
JP2735413B2 (ja) * 1991-08-30 1998-04-02 三菱電機エンジニアリング株式会社 ピーク信号検出装置
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
DE69737012T2 (de) * 1996-08-02 2007-06-06 Matsushita Electric Industrial Co., Ltd., Kadoma Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US6980948B2 (en) * 2000-09-15 2005-12-27 Mindspeed Technologies, Inc. System of dynamic pulse position tracks for pulse-like excitation in speech coding
JP4108317B2 (ja) * 2001-11-13 2008-06-25 日本電気株式会社 符号変換方法及び装置とプログラム並びに記憶媒体
BR0305555A (pt) * 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
EP1595247B1 (en) * 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
US8019087B2 (en) * 2004-08-31 2011-09-13 Panasonic Corporation Stereo signal generating apparatus and stereo signal generating method
JP2006304125A (ja) * 2005-04-25 2006-11-02 V-Cube Inc 音声信号補正装置および音声信号補正方法
KR101215937B1 (ko) * 2006-02-07 2012-12-27 엘지전자 주식회사 IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치
JP4811046B2 (ja) * 2006-02-17 2011-11-09 ソニー株式会社 コンテンツの再生装置、オーディオ再生機およびコンテンツの再生方法
WO2007116809A1 (ja) 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
TWI329435B (en) * 2006-09-13 2010-08-21 Sunplus Technology Co Ltd Channel estimation apparatus with an optimal search and method thereof
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
JP2009012407A (ja) 2007-07-06 2009-01-22 Tooa:Kk 木材用認証タグの取付構造
JP4926877B2 (ja) 2007-08-02 2012-05-09 キヤノン株式会社 画像処理装置及び方法、並びにプログラム
US8514972B2 (en) * 2009-12-15 2013-08-20 Electronics And Telecommunications Research Institute Apparatus and method for compensating for delay mismatch between amplitude component signal and phase component signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0255431A (ja) * 1988-08-19 1990-02-23 Matsushita Electric Ind Co Ltd 情報伝送装置
JPH07240722A (ja) * 1994-02-28 1995-09-12 Toshiba Corp 音声符号復号化装置、音声符号化装置及び音声復号化装置
WO2007052612A1 (ja) * 2005-10-31 2007-05-10 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置およびステレオ信号予測方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104614573A (zh) * 2013-11-04 2015-05-13 德州仪器公司 数字无线电接收器中的agc环路的最优峰值检测器
CN108701464A (zh) * 2016-02-12 2018-10-23 高通股份有限公司 多个音频信号的编码
CN108780648A (zh) * 2016-03-18 2018-11-09 高通股份有限公司 用于在时间上失配的信号的音频处理
CN108780648B (zh) * 2016-03-18 2023-07-14 高通股份有限公司 用于在时间上失配的信号的音频处理
CN109844858A (zh) * 2016-10-31 2019-06-04 高通股份有限公司 多个音频信号的解码
CN109844858B (zh) * 2016-10-31 2023-06-02 高通股份有限公司 多个音频信号的解码
CN111133509B (zh) * 2017-05-16 2022-11-08 华为技术有限公司 一种立体声信号处理方法及装置
US11763825B2 (en) 2017-05-16 2023-09-19 Huawei Technologies Co., Ltd. Stereo signal processing method and apparatus
CN111133509A (zh) * 2017-05-16 2020-05-08 华为技术有限公司 一种立体声信号处理方法及装置
CN109300480A (zh) * 2017-07-25 2019-02-01 华为技术有限公司 立体声信号的编解码方法和编解码装置
US11238875B2 (en) 2017-07-25 2022-02-01 Huawei Technologies Co., Ltd. Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
CN109300480B (zh) * 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
US11741974B2 (en) 2017-07-25 2023-08-29 Huawei Technologies Co., Ltd. Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
WO2019020045A1 (zh) * 2017-07-25 2019-01-31 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN111095403A (zh) * 2017-09-12 2020-05-01 高通股份有限公司 选择用于帧间时间偏移变异的通道调整方法
CN111095403B (zh) * 2017-09-12 2023-11-03 高通股份有限公司 选择用于帧间时间偏移变异的通道调整方法
CN113724728A (zh) * 2021-08-05 2021-11-30 北京信息职业技术学院 一种基于gmm模型的音频信号的处理方法
CN113724728B (zh) * 2021-08-05 2024-01-26 北京信息职业技术学院 一种基于gmm模型的音频信号的处理方法

Also Published As

Publication number Publication date
US20110288872A1 (en) 2011-11-24
EP2381439A1 (en) 2011-10-26
CN102292767B (zh) 2013-05-08
JP5269914B2 (ja) 2013-08-21
JPWO2010084756A1 (ja) 2012-07-19
EP2381439A4 (en) 2016-06-29
EP2381439B1 (en) 2017-11-08
WO2010084756A1 (ja) 2010-07-29
US8504378B2 (en) 2013-08-06

Similar Documents

Publication Publication Date Title
CN102292767B (zh) 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
US7573912B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
CN103119647B (zh) 基于改进型离散余弦变换的复数预测立体声编码
JP5442995B2 (ja) マルチチャンネルオーディオ信号のエンコーディング/デコーディングシステム、記録媒体及び方法
EP2476113B1 (en) Method, apparatus and computer program product for audio coding
CN103354090B (zh) 用于可伸缩声道解码的方法和设备
RU2495503C2 (ru) Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
KR20100105496A (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
JPWO2007029412A1 (ja) マルチチャンネル音響信号処理装置
CN101027718A (zh) 可扩展性编码装置以及可扩展性编码方法
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
CN110648674B (zh) 多声道音频内容的编码
CN102272830B (zh) 音响信号解码装置及平衡调整方法
Lindblom et al. Flexible sum-difference stereo coding based on time-aligned signal components
CN101981616A (zh) 立体声信号变换装置、立体声信号逆变换装置及其方法
JP2007178684A (ja) マルチチャンネルオーディオ復号装置
US8781134B2 (en) Method and apparatus for encoding and decoding stereo audio
RU2803142C1 (ru) Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания
Cantzos et al. Perceptually-Driven Scalable MDCT Enhancement of Compressed Audio Based on Statistical Conversion
Aggrawal et al. New Enhancements for Improved Image Quality and Channel Separation in the Immersive Sound Field Rendition (ISR) Parametric Multichannel Audio Coding System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140717

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140717

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170524

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130508

CF01 Termination of patent right due to non-payment of annual fee