CN102792369A - 语音处理装置、语音处理方法和程序 - Google Patents
语音处理装置、语音处理方法和程序 Download PDFInfo
- Publication number
- CN102792369A CN102792369A CN2011800133012A CN201180013301A CN102792369A CN 102792369 A CN102792369 A CN 102792369A CN 2011800133012 A CN2011800133012 A CN 2011800133012A CN 201180013301 A CN201180013301 A CN 201180013301A CN 102792369 A CN102792369 A CN 102792369A
- Authority
- CN
- China
- Prior art keywords
- unit
- signal
- frequency
- time
- domain signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 116
- 238000003672 processing method Methods 0.000 title claims abstract 3
- 230000005236 sound signal Effects 0.000 claims abstract description 129
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims description 167
- 230000015572 biosynthetic process Effects 0.000 claims description 51
- 238000003786 synthesis reaction Methods 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 19
- 239000000758 substrate Substances 0.000 claims description 14
- 238000005192 partition Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 abstract description 25
- 230000002596 correlated effect Effects 0.000 abstract description 11
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 45
- 238000013139 quantization Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 41
- 230000008859 change Effects 0.000 description 39
- 238000004364 calculation method Methods 0.000 description 36
- 239000002131 composite material Substances 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 16
- 238000011002 quantification Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 241001269238 Data Species 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种当多声道音频信号被下混合和编码时在音频信号解码时防止延迟和计算量增加的语音处理装置、语音处理方法和程序。逆复用单元(101)获取在其上复用BC参数的编码数据。不相关频率-时间变换单元(102)执行根据这一编码数据获得的单耳信号(XM)的频域系数的IMDCT变换和IMDST变换,以生成单耳信号(XM)(该信号是时域信号)和与这一单耳信号(XM)基本上不相关的信号(XD’)。立体声合成单元(103)通过使用BC参数合成单耳信号(XM)和信号(XD’)来生成立体声信号。本发明例如适用于一种对下混合和编码的立体声信号进行解码的语音处理装置。
Description
技术领域
本发明涉及一种语音处理装置、语音处理方法和程序,且更具体地涉及一种当多声道音频信号被下混合(downmix)和编码时在音频信号解码时防止延迟和计算量增加的语音处理装置、语音处理方法和程序。
背景技术
对多声道音频信号编码的编码装置可以通过利用声道之间的关系执行高度有效的编码。这一编码例如包括强度编码、M/S立体声编码和空间编码。执行空间编码的编码装置将n声道音频信号下混合成m(m<n)声道音频信号并且对信号编码,找出在下混合时表示声道间关系的空间参数并将空间参数与编码数据一起发送。接收空间参数和编码数据的解码装置对编码数据解码并且使用空间参数从作为解码的结果而获得的m声道音频信号恢复原始的n声道音频信号。
这一空间编码被称为“双耳线索编码”。对于空间参数(下文称为“BC参数”),例如使用ILD(Inter-channel Level Difference,声道间电平差值)、IPD(Inter-channel Phase Difference,声道间相位差值)和ICC(Inter-channel Correlation,声道间相关性)。ILD指代如下参数,该参数指示声道间信号的量的比值。IPD指代如下参数,该参数指示声道间相位差值,而ICC指代如下参数,该参数指示声道间相关性。
图1是图示了执行空间编码的编码装置的配置例子的框图。
此外,为了易于描述,n=2并且m=1。也就是说,编码对象音频信号是立体声音频信号(下文称为“立体声信号”),并且作为编码的结果而获得的编码数据是单耳音频信号(下文称为“单耳信号”)的编码数据。
图1中的编码装置10包括声道下混合单元11、空间参数检测单元12、音频信号编码单元13和复用单元14。编码装置10接收包括左音频信号XL和右音频信号XR的立体声信号的输入作为编码对象,并且输出单耳信号的编码数据。
更具体而言,编码装置10的声道下混合单元11将作为编码对象而输入的立体声信号下混合成单耳信号XM。另外,声道下混合单元11向空间参数检测单元12和音频信号编码单元13提供单耳信号。
空间参数检测单元12基于从声道下混合单元11提供的单耳信号XM和作为编码对象而输入的立体声信号检测BC参数,并且将BC参数提供给复用单元14。
音频信号编码单元13对从声道下混合单元11提供的单耳信号编码,并将结果得到的编码数据提供给复用单元14。
复用单元14复用和输出从音频信号编码单元13提供的编码数据和从空间参数检测单元12提供的BC参数。
图2是图示了图1中的音频信号编码单元13的配置例子的框图。
此外,图2中的音频信号编码单元13采用如下配置,其中音频信号编码单元13根据例如MPEG-2AAC LC(Moving Picture Experts Groupphase 2 Advanced Audio Coding Low Complexity,运动图片专家组第2阶段高级音频编码低复杂度)简档执行编码。同时,在图2中简化和图示了该配置以便于描述。
图2中的音频信号编码单元13包括MDCT(Modified Discrete CosineTransform,改进型离散余弦变换)单元21、频谱量化单元22、熵编码单元23和复用单元24。
MDCT单元21执行从声道下混合单元11提供的单耳信号的MDCT,并将单耳信号(该信号是时域信号)变换成MDCT系数(该系数是频域系数)。MDCT单元21向频谱量化单元22提供作为变换的结果而获得的MDCT系数作为频率频谱系数。
频谱量化单元22量化从MDCT单元21提供的频率频谱系数,并向熵编码单元23提供该频率频谱系数。另外,频谱量化单元22向复用单元24提供量化信息(该信息是与上述量化有关的信息)。量化信息例如包括比例因子和量化位信息。
熵编码单元23执行从频谱量化单元22提供的量化频率频谱系数的熵编码(比如霍夫曼编码或者算术编码),并无损压缩该频率频谱系数。熵编码单元23向复用单元24提供作为熵编码的结果而获得的数据。
复用单元24复用从熵编码单元23提供的数据和从频谱量化单元22提供的量化信息,并向复用单元14(图1)提供所得数据作为编码数据。
图3是图示了图1中的音频信号编码单元13的另一配置例子的框图。
此外,图3中的音频信号编码单元13采用如下配置,该配置例如根据MPEG-2AAC SSR(Scalable Sample Rate,可伸缩采样速率)简档或者MP3(MPEG音频层3)执行编码。同时,在图3中简化和图示了该配置以便于描述。
图3中的音频信号编码单元13包括分析滤波器组31、MDCT单元32-1至32-N(N是任意整数)、频谱量化单元33、熵编码单元34和复用单元35。
分析滤波器组31例如包括QMF(Quadrature Mirror Filterbank,正交镜滤波器组)组或者PQF(Poly-phase Quadrature Filter,多相正交滤波器)组。分析滤波器组31根据频率将从声道下混合单元11提供的单耳信号划分成N组。分析滤波器组31向MDCT单元32-1至32-N提供作为划分的结果而获得的N个子频带信号。
MDCT单元32-1至32-N各自执行从分析滤波器组31提供的子频带信号的MDCT,并且将子频带信号(该信号是时域信号)变换成MDCT系数(该系数是频域系数)。另外,MDCT单元32-1至32-N各自向频谱量化单元33提供每个子频带信号的MDCT系数作为频率频谱系数。
频谱量化单元33量化从MDCT单元32-1至32-N提供的N个频率频谱系数中的每个频率频谱系数,并且将该N个频率频谱系数提供给熵编码单元34。另外,频谱量化单元33向复用单元35提供关于该量化的量化信息。
熵编码单元34执行从频谱量化单元33提供的量化的N个频率频谱系数中的每个频率频谱系数的熵编码(比如霍夫曼编码或者算术编码),并且无损压缩N个频率频谱系数。熵编码单元34向复用单元35提供作为熵编码的结果而获得的N个数据项。
复用单元35复用从熵编码单元34提供的N个数据项和从频谱量化单元33提供的量化信息,并且向复用单元14(图1)提供所得数据作为编码数据。
图4是图示了解码装置的配置例子的框图,该解码装置对由图1中的编码装置10空间编码的编码数据进行解码。
图4中的解码装置40包括逆复用单元41、音频信号解码单元42、生成参数计算单元43和立体声信号生成单元44。解码装置40对从图1中的编码装置提供的编码数据进行解码并生成立体声信号。
更具体而言,解码装置40的逆复用单元41逆复用从图1中的编码装置10提供的复用编码数据,并获得编码数据和BC参数。逆复用单元41将编码数据提供给音频信号解码单元42,并将BC参数提供给生成参数计算单元43。
音频信号解码单元42对从逆复用单元41提供的编码数据进行解码,并且将所得单耳信号XM(该信号是时域信号)提供给立体声信号生成单元44。
生成参数计算单元43使用从逆复用单元41提供的BC参数来计算生成参数(该参数是用于根据单耳信号(该信号是复用编码数据的解码结果)生成立体声信号的参数)。生成参数计算单元43向立体声信号生成单元44提供这些生成参数。
立体声信号生成单元44使用从生成参数计算单元43提供的生成参数根据从音频信号解码单元42提供的单耳信号XM生成左音频信号XL和右音频信号XR。立体声信号生成单元44输出左音频信号XL和右音频信号XR作为立体声信号。
图5是图示了图4中的音频信号解码单元42的配置例子的框图。
此外,图5中的音频信号解码单元42采用如下配置,其中向解码装置40输入根据例如MPEG-2 AAC LC简档编码的编码数据。也就是说,图5中的音频信号解码单元42对图2中的音频信号编码单元13编码的编码数据进行解码。
图5中的音频信号解码单元42包括逆复用单元51、熵解码单元52、频谱逆量化单元53和IMDCT单元54。
逆复用单元51逆复用从图4中的逆复用单元41提供的编码数据,并且获得量化和熵编码的频率频谱系数和量化信息。逆复用单元51将量化和熵编码的频率频谱系数提供给熵解码单元52,并且将量化信息提供给频谱逆量化单元53。
熵解码单元52执行从逆复用单元51提供的频率频谱系数的熵解码(比如霍夫曼解码或者算术解码),并且恢复量化频率频谱系数。熵解码单元52将该频率频谱系数提供给频谱逆量化单元53。
频谱逆量化单元53基于从逆复用单元51提供的量化信息逆量化从熵解码单元52提供的量化的频率频谱系数,并且恢复频率频谱系数。另外,频谱逆量化单元53将频率频谱系数提供给IMDCT(逆MDCT)(InverseModified Discrete Cosine Transform,逆改进型离散余弦变换)单元54。
IMDCT单元54执行从频谱逆量化单元53提供的频率频谱系数的IMDCT,并且将频率频谱系数变换成单耳信号XM(该信号是时域信号)。IMDCT单元54将该单耳信号XM提供给立体声信号生成单元44(图4)。
图6是图示了图4中的音频信号解码单元42的另一配置例子的框图。
此外,图6中的音频信号解码单元42采用如下配置,其中向解码装置40输入例如根据MPEG-2 AAC SSR简档或者比如MP3这样的方法编码的编码数据。也就是说,图6中的音频信号解码单元42对图3中的音频信号编码单元13编码的编码数据进行解码。
图6中的音频信号解码单元42包括逆复用单元61、熵解码单元62、频谱逆量化单元63、IMDCT单元64-1至64-N和合成滤波器组65。
逆复用单元61逆复用从图4中的逆复用单元41提供的编码数据,并且获得N个子频带信号的量化和熵编码的频率频谱系数以及量化信息。逆复用单元61将N个子频带信号的量化和熵编码的频率频谱系数提供给熵解码单元62,并将量化信息提供给频谱逆量化单元63。
熵解码单元62执行从逆复用单元61提供的N个子频带信号的频率频谱系数的熵解码(比如霍夫曼解码或者算术解码),并将频率频谱系数提供给频谱逆量化单元63。
频谱逆量化单元63基于从逆复用单元61提供的量化信息逆量化从熵解码单元62提供的并且作为熵解码的结果而获得的N个子频带信号的频率频谱系数中的每个。通过这一方式,恢复了N个子频带信号的频率频谱系数。频谱逆量化单元63将N个子频带信号的恢复的频率频谱系数逐个地提供给IMDCT单元64-1至64-N。
IMDCT单元64-1至64-N各自执行从频谱逆量化单元63提供的频率频谱系数的IMDCT,并且将频率频谱系数变换成子频带信号(该信号是时域信号)。IMDCT单元64-1至64-N各自将作为变换的结果而获得的子频带信号提供给合成滤波器组65。
合成滤波器组65包括例如逆PQF和逆QMF。合成滤波器组65合成从IMDCT单元64-1至64-N提供的N个子频带信号,并且向立体声信号生成单元44(图4)提供所得信号作为单耳信号XM。
图7是图示了图4中的立体声信号生成单元44的配置例子的框图。
图7中的立体声信号生成单元44包括混响信号生成单元71和立体声合成单元72。
混响信号生成单元71使用从图4中的音频信号解码单元42提供的单耳信号XM来生成与单耳信号XM不相关的信号XD。对于混响信号生成单元71,一般使用梳状滤波器或全通滤波器。在这一情况下,混响信号生成单元71生成单耳信号XM的混响信号作为信号XD。
此外,对于混响信号生成单元71,在一些情况下使用反馈延迟网络(feedback delay network,FDN)(例如见专利文献1)。
混响信号生成单元71将生成的信号XD提供给立体声合成单元72。
立体声合成单元72使用从图4中的生成参数计算单元43提供的生成参数来合成从图4中的音频信号解码单元42提供的单耳信号XM和从混响信号生成单元71提供的信号XD。另外,立体声合成单元72输出作为合成的结果而获得的左音频信号XL和右音频信号XR作为立体声信号。
图8是图示了图4中的立体声信号生成单元44的另一配置例子的框图。
图8中的立体声信号生成单元44包括分析滤波器组81、子频带立体声信号生成单元82-1至82-P(P是任意数)和合成滤波器组83。
此外,当图4中的立体声信号生成单元44采用图8中所示的配置时,图1中的编码装置10的空间参数检测单元12检测每子频带信号的BC参数。
更具体而言,例如,空间参数检测单元12具有两个分析滤波器组。另外,在空间参数检测单元12中,一个分析滤波器组根据频率划分立体声信号,而另一分析滤波器组根据频率划分来自声道下混合单元11的单耳信号。空间参数检测单元12基于作为划分的结果而获得的立体声信号的子频带信号和单耳信号的子频带信号检测每子频带信号的BC参数。另外,图4中的生成参数计算单元43从逆复用单元41接收每个子频带信号的BC参数的提供,并且生成每子频带信号的生成参数。
分析滤波器组81例如包括QMF(Quadrature Mirror Filter,正交镜像滤波器)组。分析滤波器组81根据频率将从图4中的音频信号解码单元42提供的单耳信号XM划分成P组。分析滤波器组81将作为划分的结果而获得的P个子频带信号提供给子频带立体声信号生成单元82-1至82-P。
子频带立体声信号生成单元82-1至82-P各自包括混响信号生成单元和立体声合成单元。子频带立体声信号生成单元82-1至82-P中的每个的配置相同,因此将仅描述子频带立体声信号生成单元82-B。
子频带立体声信号生成单元82-B包括混响信号生成单元91和立体声合成单元92。混响信号生成单元91使用从分析滤波器组81提供的单耳信号的子频带信号Xm B来生成与这一子频带信号Xm B不相关的信号XD B并且将该信号XD B提供给立体声合成单元92。
立体声合成单元92使用从图4中的生成参数计算单元43提供的子频带信号Xm B的生成参数来合成从分析滤波器组81提供的子频带信号Xm B和从混响信号生成单元91提供的信号XD B。另外,立体声合成单元92将作为合成的结果而获得的左音频信号XL B和右音频信号XR B作为立体声信号的子频带信号提供给合成滤波器组83。
合成滤波器组83一次合成从子频带立体声信号生成单元82-1至82-P提供的每个子频带信号的左和右立体声信号。合成滤波器组83输出所得左音频信号XL和右音频信号XR作为立体声信号。
此外,例如在专利文献2中公开了图8中的立体声信号生成单元44的配置。
另外,执行强度编码的编码装置混合在与输入立体声信号的预定频率频带相等或者比预定频率频带更大的频率的每个声道的频率频谱系数,并且生成单耳信号的频率频谱系数。另外,编码装置输出这一单耳信号的频率频谱系数与声道间频率频谱系数的水平比值作为编码结果。
更具体而言,执行强度编码的编码装置关于立体声信号执行MDCT,并且在声道的所得频率频谱系数之间混合和共享在与预定频率频带相等或者比预定频率频带更大的频率的每个声道的频率频谱系数。另外,执行强度编码的编码装置量化和熵编码共享的频率频谱系数,并且复用所得数据和量化信息作为编码数据。另外,执行强度编码的编码装置求得声道间频率频谱系数的水平比值,并且复用和输出水平比值和编码数据。
另外,执行强度解码的解码装置逆复用声道间频率频谱系数的水平比值在其上被复用的编码数据、熵解码所得编码数据并且基于量化信息逆量化编码数据。另外,执行强度解码的解码装置基于作为逆量化的结果而获得的频率频谱系数的水平比值和在编码数据上复用的声道间频率频谱系数恢复每个声道的频率频谱系数。另外,执行强度解码的解码装置执行每个声道的恢复的频率频谱系数的IMDCT,并且获得在与预定频率频带相等或者比预定频率频带更大的频率的立体声信号。
虽然通常使用这样的强度编码比值来提高编码效率,但是立体声信号的高频带频率频谱系数被单耳编码并且仅由声道间水平差值表示,因此略微损失了原有的立体声效果。
引用列表
专利文献
专利文献1:公开号为2006-325162的日本专利申请
专利文献2:公开号为2006-524832的日本专利申请
发明内容
本发明要解决的问题
如上文描述的那样,对常规空间编码的数据进行解码的解码装置40使用单耳信号XM(该信号是时域信号)生成与在生成立体声信号时使用的单耳信号XM不相关的信号XD和信号XD 1至XD P。
因此,生成信号XD的混响信号生成单元71以及生成信号XD 1至XD P的子频带立体声信号生成单元82-1至82-P的分析滤波器组81和混响信号生成单元91引起延迟,并且增加解码装置40的算法延迟。这例如在请求解码装置40提供即时响应性能或者在实时通信中使用解码装置40时(也就是说,在低延迟性质重要时)引起问题。
另外,在混响信号生成单元71以及子频带立体声信号生成单元82-1至82-P的分析滤波器组81和混响信号生成单元91中的滤波器计算增加了计算量并且也增加了所需缓冲容量。
鉴于这样的情形,本发明可以在多声道音频信号被下混合和编码的情况下在音频信号解码时防止延迟和计算量增加。
问题的解决方案
根据本发明一个方面的一种语音处理装置包括:获取单元,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数;第一变换单元,将所述获取单元获取的所述频域系数变换成第一时域信号;第二变换单元,将所述获取单元获取的所述频域系数变换成第二时域信号;以及合成单元,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号,其中所述第一变换单元执行的变换的基底与所述第二变换单元执行的变换的基底正交。
根据本发明一个方面的一种语音处理方法和程序支持根据本发明一个方面的一种语音处理装置。
根据本发明的一个方面,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数,将获取的频域系数变换成第一时域信号,将获取的频域系数变换成第二时域信号,并且通过使用参数合成第一时域信号和第二时域信号来生成多个声道的语音信号。此外,向第一时域信号的变换的基底和向第二时域信号的变换的基底正交。
根据本发明一个方面的语音处理装置可以是独立装置或者可以是形成一个装置的内部块。
发明效果
根据本发明的一个方面,有可能当多声道音频信号被下混合和编码时在音频信号解码时防止延迟和计算量增加。
附图说明
图1是图示了执行空间编码的编码装置的配置例子的框图。
图2是图示了图1中的音频信号编码单元的配置例子的框图。
图3是图示了图1中的音频信号编码单元的另一配置例子的框图。
图4是图示了对空间编码数据进行解码的解码装置的配置例子的框图。
图5是图示了图4中的音频信号解码单元的配置例子的框图。
图6是图示了图4中的音频信号解码单元的另一配置例子的框图。
图7是图示了图4中的立体声信号生成单元的配置例子的框图。
图8是图示了图4中的立体声信号生成单元的另一配置例子的框图。
图9是图示了根据第一实施例应用本发明的语音处理装置的配置例子的框图。
图10是图示了图9中的不相关频率-时间变换单元的具体配置例子的框图。
图11是图示了图9中的不相关频率-时间变换单元的另一具体配置例子的框图。
图12是图示了图9中的立体声合成单元的具体配置例子的框图。
图13是图示了每个信号的矢量的视图。
图14是用于描述图9中的语音处理装置的解码处理的流程图。
图15是图示了根据第二实施例应用本发明的语音处理装置的配置例子的框图。
图16是用于描述图15中的语音处理装置的解码处理的流程图。
图17是图示了根据第三实施例应用本发明的语音处理装置的配置例子的框图。
图18是用于描述图17中的语音处理装置的解码处理的流程图。
图19是图示了根据第四实施例应用本发明的语音处理装置的配置例子的框图。
图20是用于描述图19中的语音处理装置的解码处理的流程图。
图21是图示了根据一个实施例的计算机的配置例子的视图。
具体实施方式
<第一实施例>
[根据第一实施例的语音处理装置的配置例子]
图9是图示了根据第一实施例应用本发明的语音处理装置的配置例子的框图。
对与图4和图5中所示配置相同的图9中所示配置分配相同标号。将适当省略重复描述。
图9中的语音处理装置100的配置与图4中所示解码装置40(该解码装置具有图5中的音频信号解码单元42和图7中的立体声信号生成单元44)的配置不同主要在于设置了逆复用单元101而不是逆复用单元41和逆复用单元51,设置了不相关频率-时间变换单元102而不是IMDCT单元54和混响信号生成单元71,并且设置了立体声合成单元103和生成参数计算单元104而不是立体声合成单元72和生成参数计算单元43。
语音处理装置100例如对图1中的编码装置10(该编码装置具有图2中的音频信号编码单元13)空间编码的编码数据进行解码。在这一情况下,语音处理装置100使用单耳信号XM的频率频谱系数来生成与在生成立体声信号时使用的单耳信号XM不相关的信号XD’。
更具体而言,语音处理装置100的逆复用单元101(获取单元)对应于图4中的逆复用单元41和图5中的逆复用单元51。也就是说,逆复用单元101逆复用从图1中的编码装置10提供的复用编码数据,并且获取编码数据和BC参数。此外,虽然在编码数据上复用的BC参数可以是所有帧的BC参数或者可以是预定帧的BC参数,但是BC参数这里指代预定帧的BC参数。
另外,逆复用单元101逆复用编码数据并且获得量化和熵编码的频率频谱系数和量化信息。另外,逆复用单元101将量化和熵编码的频率频谱系数提供给熵解码单元52,并将量化信息提供给频谱逆量化单元53。另外,逆复用单元101将BC参数提供给生成参数计算单元104。
不相关频率-时间变换单元102根据作为频谱逆量化单元53的逆量化的结果而获得的单耳信号XM的频率频谱系数生成单耳信号XM和信号XD’(这些信号是两个不相关的时域信号)。另外,不相关频率-时间变换单元102将单耳信号XM和信号XD’提供给立体声合成单元103。将参照下文将描述的图10和图11具体描述该不相关频率-时间变换单元102。
立体声合成单元103(合成单元)使用从生成参数计算单元104提供的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号XM和信号XD’。另外,立体声合成单元103输出作为合成的结果而获得的左音频信号XL和右音频信号XR作为立体声信号。将参照下文描述的图12具体描述该立体声合成单元103。
生成参数计算单元104插值从逆复用单元101提供的预定帧的BC参数并且计算每帧的BC参数。生成参数计算单元104使用当前处理目标帧的BC参数生成所述的生成参数,并且将生成参数提供给立体声合成单元103。
[不相关频率-时间变换单元的具体配置例子]
图10是图示了图9中的不相关频率-时间变换单元102的具体配置例子的框图。
图10中的不相关频率-时间变换单元102包括IMDCT单元54和IMDST单元111。
图10中的IMDCT单元54(第一变换单元)与图5中的IMDCT单元54相同,并且执行从频谱逆量化单元53提供的单耳信号XM的频率频谱系数的IMDCT。另外,IMDCT单元54将所得单耳信号XM(该信号是时域信号(第一时域信号))提供给立体声合成单元103(图9)。
IMDST(Inverse Modified Discrete Sine Transform,逆改进型离散正弦变换)单元111(第二变换单元)执行从矢量逆量化单元53提供的单耳信号XM的频率频谱系数的IMDST。另外,IMDST单元111将所得信号XD’(该信号是时域信号(第二时域信号))提供给立体声合成单元103(图9)。
如上文描述的那样,IMDCT单元54执行的变换是逆余弦变换,而IMDST单元111执行的变换是逆正弦变换,并且IMDCT单元54执行的变换的基底与IMDST单元111执行的变换的基底正交。因而有可能认为单耳信号XM和信号XD’基本上相互不相关。
此外,根据下式(1)至(3)限定MDCT、IMDCT和IMDST。
[式1]
[式2]
[式3]
在式(1)至(3)中,x(n)是时域信号,w(n)是变换窗,w’(n)是逆变换窗,而y(n)是逆变换信号。另外,Xc(k)是MDCT系数,并且Xs(k)是MDST系数。
[不相关频率-时间变换单元的具体配置例子]
图11是图示了图9中的不相关频率-时间变换单元102的另一具体配置例子的框图。
对与图10中的配置相同的图11中所示配置分配相同标号。将适当省略重复描述。
图11中的不相关频率-时间变换单元102的配置与图10中的配置不同主要在于设置了频谱反转单元121、IMDCT单元122和符号反转单元123而不是IMDST单元111。
图11中的不相关频率-时间变换单元102的频谱反转单元121反转从频谱逆量化单元53提供的频率频谱系数使得频率按照逆序,并且向IMDCT单元122提供频率频谱系数。
IMDCT单元122执行从频谱反转单元121提供的频率频谱系数的IMDCT,并且获得时域信号。IMDCT单元122将该时域信号提供给符号反转单元123。
符号反转单元123反转从IMDCT单元122提供的时域信号的奇数采样的符号,并且获得信号XD’。
同时,当Xs(k)在限定IMDST的上式3中替换为Xs(N-k-1)时,如果N是4的公倍数,则式3可以修改成下式4。
[式4]
因此,作为执行来自频谱逆量化单元53的频率频谱系数的IMDST的结果而获得的信号与作为反转频率频谱系数并且执行频率频谱系数的IMDST使得频率按照逆序并且反转奇数采样的符号的结果而获得的信号是相同信号XD’。也就是说,图10中的IMDST单元111与图11中的频谱反转单元121、IMDCT单元122和符号反转单元123是等同的。
符号反转单元123向图9中的立体声合成单元103提供获得的信号XD’。
如上文描述的那样,图11中的不相关频率-时间变换单元102仅需设置有IMDCT单元,以便将时域信号变换成频率频谱系数,从而与其中需要设置图9中的IMDCT单元和IMDST单元的情况相比有可能减少制造成本。
[立体声合成单元的具体配置例子]
图12是图示了图9中的立体声合成单元103的具体配置例子的框图。
图12中的立体声合成单元103包括乘法器141至144以及加法器145和加法器146。
乘法器141将从不相关频率-时间变换单元102提供的单耳信号XM与系数h11(该系数是从生成参数计算单元104提供的生成系数之一)相乘。乘法器141将所得相乘值h11×XM提供给加法器145。
乘法器142将从不相关频率-时间变换单元102提供的单耳信号XM与系数h21(该系数是从生成参数计算单元104提供的生成系数之一)相乘。乘法器141将所得相乘值h21×XM提供给加法器146。
乘法器143将从不相关频率-时间变换单元102提供的信号XD’与系数h12(该系数是从生成参数计算单元104提供的生成系数之一)相乘。乘法器141将所得相乘值h12×XD’提供给加法器145。
乘法器144将从不相关频率-时间变换单元102提供的信号XD’与系数h22(该系数是从生成参数计算单元104提供的生成系数之一)相乘。乘法器141将所得相乘值h22×XD’提供给加法器146。
加法器145将从乘法器141提供的相乘值h11×XM与从乘法器143提供的相乘值h12×XD’相加,并且输出所得相加值作为左音频信号XL。
加法器146将从乘法器142提供的相乘值h21×XM与从乘法器143提供的相乘值h22×XD’相加,并且输出作为右音频信号XR而获得的所得相加值。
如上文描述的那样,立体声合成单元103如图13中所示通过使用单耳信号XM、信号XD’、左音频信号XL和右音频信号XR作为矢量来执行如下式5中所示使用生成参数的加权加法。
[式5]
XL=h11·XM+h12·XD′
XR=h21·XM+h22·XD′…(5)
此外,系数h11、h12、h21和h22由以下等式(6)表示。
[式6]
h11=gL·cos(θL)
h12=gL·sin(θL)
h21=gR·cos(θR)
h22=gR·sin(θR)…(6)
其中:
[式7]
在式6中,角度θL是在左音频信号XL的矢量与单耳信号XM的矢量之间形成的角度,并且角度θR是在右音频信号XR的矢量与单耳信号XM的矢量之间形成的角度。
同时,生成参数计算单元104计算系数h11、h12、h21和h22作为生成参数。更具体而言,生成参数计算单元104根据BC参数计算gL、gR、θL和θR,并且根据gL、gR、θL和θR计算系数h11、h12、h21和h22作为生成参数。此外,例如在公开号为2006-325162的日本专利申请中公开了根据BC参数计算gL、gR、θL和θR的方法的细节。
此外,对于BC参数,也可以使用gL、gR、θL和θR,并且也可以使用压缩编码的gL、gR、θL和θR。另外,对于BC参数,也可以直接使用或者也可以压缩和编码并且使用系数h11、h12、h21和h22。
[语音处理装置的处理的描述]
图14是用于描述图9中的语音处理装置100的解码处理的流程图。当向语音处理装置100输入从图1中的编码装置10提供的复用编码数据时开始这一解码处理。
在图14中的步骤S11中,逆复用单元101逆复用从图1中的编码装置10提供的复用编码数据,并且获得编码数据和BC参数。另外,逆复用单元101还逆复用该编码数据,以及量化和熵编码的频率频谱系数和量化信息。另外,逆复用单元101向熵解码单元52提供量化和熵编码的频率频谱系数并且向频谱逆量化单元53提供量化信息。另外,逆复用单元101向生成参数计算单元104提供BC参数。
在步骤S12中,熵解码单元52执行从逆复用单元101提供的频率频谱系数的熵解码(比如霍夫曼解码或者算术解码),并且恢复量化频率频谱系数。熵解码单元52向频谱逆量化单元53提供频率频谱系数。
在步骤S13中,频谱逆量化单元53基于从逆复用单元101提供的量化信息逆量化从熵解码单元52提供的量化的频率频谱系数,并且恢复频率频谱系数。另外,频谱逆量化单元53将频率频谱系数提供给不相关频率-时间变换单元102。
在步骤S14中,不相关频率-时间变换单元102根据作为频谱逆量化单元53的逆量化的结果而获得的单耳信号XM的频率频谱系数生成单耳信号XM和信号XD’(这些信号是两个不相关时域信号)。另外,不相关频率-时间变换单元102将单耳信号XM和信号XD’提供给立体声合成单元103。
在步骤S15中,立体声合成单元103使用从生成参数计算单元104提供的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号XM和信号XD’。
在步骤S16中,生成参数计算单元104插值从逆复用单元101提供的预定帧的BC参数并且计算每帧的BC参数。
在步骤S17中,生成参数计算单元104使用当前处理目标帧的BC参数来生成系数h11、h12、h21和h22作为生成参数,并且向立体声合成单元103提供生成参数。
在步骤S18中,立体声合成单元103使用从生成参数计算单元104提供的生成参数来合成从不相关频率-时间变换单元102提供的单耳信号XM和信号XD’,并且生成立体声信号。另外,立体声合成单元103输出立体声信号,并且处理结束,
如上文描述的那样,语音处理装置100通过执行两个类型的变换使得基底与单耳信号XM的频率频谱系数正交来生成单耳信号XM和信号XD’。也就是说,语音处理装置100可以使用单耳信号XM的频率频谱系数来生成信号XD’。因而,与图4中的常规解码装置40相比(该装置具有图5中的音频信号解码单元42和图7中的立体声信号生成单元44),语音处理装置100可以防止图7中的混响信号生成单元71引起的延迟以及计算量和缓冲资源的增加。
另外,可以作为不相关频率-时间变换单元102的一部分再利用常规解码装置40的IMDCT单元54,从而有可能使新功能的添加最少并且防止电路规模和所需资源的增加。
<第二实施例>
[根据第二实施例的语音处理装置的配置例子]
图15是图示了根据第二实施例应用本发明的语音处理装置的配置例子的框图。
对与图9中的配置相同的图15中所示配置分配相同标号。将适当省略重复描述。
图15中的语音处理装置200的配置与图9中的配置不同主要在于还设置了频带划分单元201、IMDCT单元202、加法器203和加法器204。
语音处理装置200例如解码如下编码数据,针对该编码数据执行与图1中的编码装置10(该编码装置具有图2中的音频信号编码单元13)中相同的空间编码,并且在该编码数据上复用高频带的BC参数,并且仅对高频带中的单耳信号XM进行立体声编码。
更具体而言,语音处理装置200的频带划分单元201(划分单元)根据频率将频谱逆量化单元53获得的频率频谱系数划分成两组高频带频率频谱系数和低频带频率频谱系数。另外,频带划分单元201将低频带频率频谱系数提供给IMDCT单元202,并将高频带频率频谱系数提供给不相关频率-时间变换单元102。
IMDCT单元202(第三变换单元)执行从频带划分单元201提供的低频带频率频谱系数的IMDCT,并且获得单耳信号XM low(第三时域信号),该信号是低频带时域信号。IMDCT单元202向加法器203提供低频带单耳信号XM low作为低频带左音频信号,并且向加法器204提供低频带单耳信号XM low作为低频带右音频信号。
加法器203接收作为在不相关频率-时间变换单元102和立体声合成单元103中处理从频带划分单元201输出的高频带频率频谱系数的结果而获得的高频带左音频信号XL High的输入。加法器203将高频带左音频信号XL High与作为低频带左音频信号从IMDCT单元202提供的低频带单耳信号XM low相加,并且生成整个频率频带左音频信号XL。
加法器204接收作为在不相关频率-时间变换单元102和立体声合成单元103中处理从频带划分单元201输出的高频带频率频谱系数的结果而获得的高频带右音频信号XR High的输入。加法器204将高频带右音频信号XR High与作为低频带右音频信号从IMDCT单元202提供的低频带单耳信号XM low相加,并且生成整个频率频带右音频信号XR。
[语音处理装置的处理的描述]
图16是用于描述图15中的语音处理装置200的解码处理的流程图。当向语音处理装置200输入如下编码数据时,开始这一解码处理,针对上述编码数据执行与图1中的编码装置10(该编码装置具有图2中的音频信号编码单元13)中相同的空间编码,并且在该编码数据上复用高频带的BC参数。
图16中的步骤S31至S33与图14中的步骤S11至S13中的处理相同,不再重复说明。
在步骤S34中,频带划分单元201根据频率将频谱逆量化单元53获得的频率频谱系数划分成两组高频带频率频谱系数和低频带频率频谱系数。另外,频带划分单元201向IMDCT单元202提供低频带频率频谱系数,并且向不相关频率-时间变换单元102提供高频带频率频谱系数。
在步骤S35中,IMDCT单元202执行从频带划分单元201提供的低频带频率频谱系数的IMDCT,并且获得单耳信号XM low(该信号是低频带时域信号)。IMDCT单元202向加法器203提供低频带单耳信号XM low作为低频带左音频信号,并且向加法器204提供低频带单耳信号XM low作为低频带右音频信号。
在步骤S36中,通过不相关频率-时间变换单元102、立体声合成单元103和生成参数计算单元104针对从频带划分单元201提供的高频带频率频谱系数执行立体声信号生成处理。更具体而言,不相关频率-时间变换单元102、立体声合成单元103和生成参数计算单元104执行图14中的步骤S14至S18中的处理。分别向加法器203和加法器204输入所得高频带左音频信号XL High和高频带右音频信号XR High。
在步骤S37中,加法器203将作为低频带左音频信号从IMDCT单元202提供的低频带单耳信号XM low与从不相关频率-时间变换单元102提供的高频带左音频信号XL High相加,并且生成整个频率频带左音频信号XL。另外,加法器203输出整个频率频带左音频信号XL。
在步骤S38中,加法器204将作为低频带右音频信号从IMDCT单元202提供的低频带单耳信号XM low与从不相关频率-时间变换单元102提供的高频带右音频信号XR High相加,并且生成整个频率频带右音频信号XR。另外,加法器204输出这一整个频率频带右音频信号XR。
如上文描述的那样,语音处理装置200对整个频率频带单耳信号XM的编码数据进行解码,并且仅对高频带进行立体声编码。因而,有可能防止声音由于低频带单耳信号XM的立体声编码而不自然。
此外,虽然对语音处理装置200而言频带划分单元201将频率频谱系数划分成高频带频率频谱系数和低频带频率频谱系数,但是频带划分单元201可以将频率频谱系数划分成预定频率频带的频率频谱系数和其它频率频带的频率频谱系数。也就是说,可以根据频率频带是预定频率频带还是其它频率频带、而不是频率频带是低频带还是高频带来选择是否执行立体声编码。
<第三实施例>
[根据第三实施例的语音处理装置的配置例子]
图17是图示了根据第三实施例应用本发明的语音处理装置的配置例子的框图。
对与图4、图6和图9中的配置相同的图17中所示配置分配相同标号。将适当省略重复描述。
图17中的语音处理装置300的配置与图4中的解码装置40(该解码装置具有图6中的音频信号解码单元42和图7中的立体声信号生成单元44)的配置不同主要在于设置了逆复用单元301而不是逆复用单元41和逆复用单元61,设置了IMDCT单元304-1至304-(N-1)而不是IMDCT单元64-1至IMDCT单元64-(N-1),设置了立体声编码单元305而不是IMDCT单元64-N和立体声信号生成单元44,并且设置了生成参数计算单元104和合成滤波器组306而不是生成参数计算单元43和合成滤波器组65。
图17中的语音处理装置300例如对如下编码数据进行解码,针对该编码数据执行与图1中的编码装置10(该编码装置具有图3中的音频信号编码单元13)中相同的空间编码,并且在该编码数据上复用预定子频带信号的BC参数。
更具体而言,语音处理装置300的逆复用单元301对应于图4中的逆复用单元41和图6中的逆复用单元61。也就是说,逆复用单元301接收编码数据(针对该编码数据执行与图1中的编码装置10(该编码装置具有图3中的音频信号编码单元13)中相同的空间编码,并且在该编码数据中复用预定子频带信号的BC参数)的输入。逆复用单元301逆复用输入的编码数据,并且获得编码数据和预定子频带信号的BC参数。另外,逆复用单元301向生成参数计算单元104提供预定子频带信号的BC参数。
另外,逆复用单元301逆复用编码数据,并且获得N个子频带信号的量化和熵编码的频率频谱系数以及量化信息。逆复用单元301向熵解码单元62提供N个子频带信号的量化和熵编码的频率频谱系数,并且向频谱逆量化单元63提供量化信息。
IMDCT单元304-1至304-(N-1)(第三变换单元)和立体声编码单元305逐个接收频谱逆量化单元63恢复的N个子频带信号的频率频谱系数的输入。
IMDCT单元304-1至304-(N-1)各自执行输入频率频谱系数的IMDCT,并且将频率频谱系数变换成单耳信号XM(该信号是时域信号)的子频带信号XM i(i=1,2,...和N-1)。IMDCT单元304-1至304-(N-1)各自向合成滤波器组306提供子频带信号XM i作为左音频信号XL i和右音频信号XR i。
立体声编码单元305包括图9中的不相关频率-时间变换单元102和立体声合成单元103。立体声编码单元305使用生成参数计算单元104生成的生成参数根据从频谱逆量化单元63输入的预定子频带信号的频率频谱系数生成左音频信号的子频带信号XL A和右音频信号的子频带信号XR A(这些信号是时域信号)。另外,立体声编码单元305向合成滤波器组306提供左子频带信号XL A和右子频带信号XR A。
合成滤波器组306(加法单元)包括用于合成左音频信号的子频带信号的左合成滤波器组,和用于合成右音频信号的子频带信号的右合成滤波器组。合成滤波器组306的左合成滤波器组合成来自IMDCT单元304-1至304-(N-1)的左子频带信号XL 1至XL N-1以及来自立体声编码单元305的左子频带信号XL A。另外,左合成滤波器组输出作为合成的结果而获得的整个频率频带左音频信号XL。
另外,合成滤波器组306的右合成滤波器组合成来自IMDCT单元304-1至304-(N-1)的右子频带信号XR 1至XR N-1以及来自立体声编码单元305的右子频带信号XR A。另外,右合成滤波器组输出作为合成的结果而获得的整个频率频带右音频信号XR。
此外,虽然图17中的语音处理装置300仅对一个子频带信号进行立体声编码,但是语音处理装置300可以对多个子频带信号进行立体声编码。另外,可以在编码侧上动态设置而不是预先设置被立体声编码的子频带信号。在这一情况下,例如在BC参数中包括用于指定子频带信号(该信号是立体声编码对象)的信息。
[语音处理装置的处理的描述]
图18是用于描述图17中的语音处理装置300的解码处理的流程图。例如当向语音处理装置300输入编码数据(针对该编码数据执行与图1中的编码装置10(该编码装置具有图3中的音频信号编码单元13)中相同的空间编码,并且在该编码数据上复用预定子频带信号的BC参数)时开始这一解码处理。
在图18中的步骤S51中,逆复用单元301逆复用输入的复用编码数据并且获得编码数据和预定子频带信号的BC参数。另外,逆复用单元301向生成参数计算单元104提供预定子频带信号的BC参数。另外,逆复用单元301逆复用编码数据,并且获得N个子频带信号的量化和熵编码的频率频谱系数以及量化信息。逆复用单元301向熵解码单元62提供N个子频带信号的量化和熵编码的频率频谱系数,并且向频谱逆量化单元63提供量化信息。
在步骤S52中,熵解码单元62对从逆复用单元101提供的N个子频带信号的频率频谱系数进行熵解码,并且向频谱逆量化单元63提供频率频谱系数。
在步骤S53中,频谱逆量化单元63基于从逆复用单元301提供的量化信息逆量化从熵解码单元62提供的并且作为熵解码的结果而获得的N个子频带信号的频率频谱系数。另外,频谱逆量化单元63向IMDCT单元304-1至304-(N-1)和立体声编码单元305逐个提供N个子频带信号的所得到的恢复的频率频谱系数。
在步骤S54中,IMDCT单元304-1至304-(N-1)各自执行从频谱逆量化单元63提供的频率频谱系数的IMDCT。另外,IMDCT单元304-1至304-(N-1)各自向合成滤波器组306提供单耳信号的所得子频带信号XM i(i=1,2,…和N-1)作为左音频信号的子频带信号XL i和右音频信号的子频带信号XL i。
在步骤S55中,立体声编码单元305使用从生成参数计算单元104提供的生成参数来执行从频谱逆量化单元63提供的预定子频带信号的频率频谱系数的立体声信号生成处理。另外,立体声编码单元305向合成滤波器组306提供所得到的左音频信号的子频带信号XL A和右音频信号的子频带信号XR A(这些信号是时域信号)。
在步骤S56中,合成滤波器组306的左合成滤波器组合成从IMDCT单元304-1至304-(N-1)和立体声编码单元305提供的左音频信号的所有子频带信号,并且生成整个频率频带左音频信号XL。另外,左合成滤波器组输出该整个频率频带左音频信号XL。
在步骤S57中,合成滤波器组306的右合成滤波器组合成从IMDCT单元304-1至304-(N-1)和立体声编码单元305提供的右音频信号的所有子频带信号,并且生成整个频率频带右音频信号XR。另外,右合成滤波器组输出该整个频率频带右音频信号XR。
<第四实施例>
[根据第四实施例的语音处理装置的配置例子]
图19是图示了根据第四实施例应用本发明的语音处理装置的配置例子的框图。
对与图15中所示配置相同的图19中所示配置分配相同标号。将适当省略重复描述。
图19中的语音处理装置400的配置与图15中的配置主要不同在于设置了频谱分离单元401而不是频带划分单元201,设置了IMDCT 402和403而不是IMDCT单元202,并且设置了加法器404和加法器405而不是加法器203和加法器204。
语音处理装置400对如下编码数据进行解码,针对该编码数据执行强度编码,并且在该编码数据上代替常规的声道间频率频谱系数的水平比值、复用在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率的BC参数。
也就是说,语音处理装置400解码的编码数据由如下编码装置生成,该编码装置例如通过将编码对象立体声信号下混合成单耳信号XM并且例如借助带通滤波器提取所得单耳信号XM和在与编码对象立体声信号的强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的分量来检测BC参数。
语音处理装置400的频谱分离单元401(分离单元)获得频谱逆量化单元53恢复的频率频谱系数。频谱分离单元401将该频率频谱系数分离成在比强度开始频率Fis更低的频率的立体声信号的频率频谱系数和在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率的单耳信号XM high的频率频谱系数。频谱分离单元401向IMDCT单元402提供在比强度开始频率Fis更低的频率处的立体声信号的左音频信号XL low的频率频谱系数,并且向IMDCT单元403提供右音频信号XR low的频率频谱系数。另外,频谱分离单元401向不相关频率-时间变换单元102提供单耳信号XM high的频率频谱系数。
IMDCT单元402(第三变换单元)执行从频谱分离单元401提供的左音频信号XL low的频率频谱系数的IMDCT,并且向加法器404提供所得左音频信号XL low。
IMDCT单元403(第三变换单元)执行从频谱分离单元401提供的的右音频信号XR low的频率频谱系数的IMDCT,并且向加法器405提供所得右音频信号XR low。
加法器404(加法单元)将左音频信号XL high(该信号由立体声合成单元103生成并且是在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的时域信号)与从IMDCT单元402提供的左音频信号XL low相加。加法器404输出所得音频信号作为整个频率频带左音频信号XL。
加法器405(加法单元)将右音频信号XR high(该信号由立体声合成单元103生成并且是在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的时域信号)与从IMDCT单元402提供的右音频信号XR low相加。加法器405输出所得音频信号作为整个频率频带右音频信号XR。
如上文描述的那样,语音处理装置400使用在强度编码数据上复用的BC参数、对通过强度编码来单耳编码的与强度开始频率Fis相等或者比强度开始频率Fis更大的频率的分量进行立体声编码。因此,与使用常规的声道间频率频谱系数水平比值来执行立体声编码的强度解码装置相比有可能恢复与强度开始频率Fis相等或者比强度开始频率Fis更大的频率的分量的立体声效果。
[语音处理装置的处理描述]
图20是用于描述图19中的语音处理装置400的解码处理的流程图。例如当输入编码数据(对该编码数据进行强度编码并且在该编码数据上复用与强度开始频率Fis相等或者比强度开始频率Fis更大的频率的BC参数)时开始这一解码处理。
图20中的步骤S71至S73中的处理与图16中的步骤S31至S33中的处理相同,因此不再描述。
在步骤S74,频谱分离单元401将频谱逆量化单元53恢复的频率频谱系数分离成在比强度开始频率Fis更低的频率处的立体声信号的频率频谱系数和在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的单耳信号XM high的频率频谱系数。频谱分离单元401向IMDCT单元402提供在比强度开始频率Fis更低的频率处的立体声信号的左音频信号XL low的频率频谱系数,并且向IMDCT单元403提供右音频信号XR low的频率频谱系数。另外,频谱分离单元401向不相关频率-时间变换单元102提供单耳信号XM high的频率频谱系数。
在步骤S75中,IMDCT单元402执行从频谱分离单元401提供的左音频信号XL low的频率频谱系数的IMDCT。另外,IMDCT单元402向加法器404提供所得左音频信号XL low。
在步骤S76中,IMDCT单元402执行从频谱分离单元401提供的右音频信号XR low的频率频谱系数的IMDCT。另外,IMDCT单元403向加法器405提供所得右音频信号XR low。
在步骤S77中,不相关频率-时间变换单元102、立体声合成单元103和生成参数计算单元104执行来自频率分离单元401的单耳信号XM high的频率频谱系数的立体声信号生成处理。向加法器404提供所得左音频信号XL high(该信号是时域信号),并且向加法器405提供右音频信号XR high。
在步骤S78中,加法器404将来自IMDCT单元402的在比强度开始频率Fis更低的频率处的左音频信号XL low与来自立体声合成单元103的在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的左音频信号XL high相加,并且生成整个频率频带左音频信号XL。进一步地,加法器404输出该左音频信号XL。
在步骤S79中,加法器405将来自IMDCT单元403的在比强度开始频率Fis更低的频率处的右音频信号XR low与来自立体声合成单元103的在与强度开始频率Fis相等或者比强度开始频率Fis更大的频率处的右音频信号XR high相加,并且生成整个频率频带右音频信号XR。进一步地,加法器405输出该右音频信号XR。
此外,虽然就上文描述而言语音处理装置100(200、300和400)对由MDCT进行时间-频率变换的编码数据进行解码,且因此在频率-时间变换时执行IMDCT,但是当对由MDST进行时间-频率变换的编码数据进行解码时在频率-时间变换时执行IMDST。
另外,虽然就上文描述而言不相关时间-频率变换单元102使用基底相互正交的IMDCT变换和IMDST变换,但是可以使用其它重叠正交变换(比如正弦变换或者余弦变换)。
[应用本发明的计算机的描述]
接着,可通过硬件或软件执行系列上述处理。当系列处理由软件执行时,例如向通用计算机安装配置该软件的程序。
图21图示了根据实施例安装有用于执行系列上述处理的程序的计算机的配置例子。
程序可以预先记录于存储器单元508或者ROM(只读存储器)502中(该存储器单元或者ROM是内置于计算机中的记录介质)。
取而代之,程序可以存储(记录)于可移除介质511中。可以作为所谓的包软件来提供该可移除介质511。同时,可移除介质511例如包括软盘、CD-ROM(光盘只读存储器)、MO(光磁)盘、DVD(数字万用盘)、磁盘和半导体存储器。
此外,可以通过驱动510从上述可移除介质511向计算机安装程序,并且此外还可以通过通信网络或者广播网络向计算机下载或者在内置存储器单元508中安装程序。也就是说,例如可以通过数字卫星广播卫星从下载站点向计算机无线传送程序,或者可以通过网络(比如LAN(局域网)或者因特网)借助线缆向计算机传送程序。
计算机具有内置CPU(中央处理单元)501,并且CPU 501通过总线504来与输入/输出接口505连接。
CPU 501例如根据用户通过输入/输出接口505对输入单元506的操作在接收命令的输入时根据命令执行ROM 502中存储的程序。取而代之,CPU 501向RAM(随机存取存储器)503加载存储器单元508中存储的程序并且执行该程序。
因此,CPU 501执行根据上述流程图的处理或者通过上述框图中的配置执行的处理。另外,CPU 501通过输入/输出接口505从输出单元507输出该处理结果、从通信单元509发送处理结果或将该处理结果记录在存储器单元508中。
此外,输入单元506包括键盘、鼠标或者麦克风。另外,输出单元507包括LCD(液晶显示器)或者扬声器。
同时,在本说明书中,不一定需要按照流程图中公开的时间顺序执行计算机根据程序执行的处理。也就是说,计算机根据程序执行的处理包括并行或者单独地执行的处理(比如并行处理或者根据对象的处理)。
另外,程序可以由一个计算机(处理器)处理或者以分布方式由多个计算机处理。另外,可以将程序传送到远程计算机并执行该程序。
本发明可应用于一种用于音频信号的伪立体声编码技术。
本发明的实施例决不限于上述实施例,并且可以在不脱离本发明的精神的范围内进行各种修改。
标号列表
54 IMDCT单元
100 语音处理装置
101 逆复用单元
103 立体声合成单元
111 IMDST单元
121 频谱反转单元
122 IMDCT单元
123 符号反转单元
200 语音处理装置
201 频带划分单元
202 IMDCT单元
203,204 加法器
300 语音处理装置
301 逆复用单元
304-1至304-N IMDCT单元
305 立体声编码单元
306 合成滤波器组
400 语音处理装置
401 频谱分离单元
402,403 IMDCT单元
404,405 加法器
Claims (9)
1.一种语音处理装置,包括:
获取单元,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数;
第一变换单元,将所述获取单元获取的所述频域系数变换成第一时域信号;
第二变换单元,将所述获取单元获取的所述频域系数变换成第二时域信号;以及
合成单元,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号,
其中所述第一变换单元执行的变换的基底与所述第二变换单元执行的变换的基底正交。
2.根据权利要求1所述的语音处理装置,还包括:
划分单元,根据频率将所述获取单元获取的所述频域系数划分成多个组;
第三变换单元,将划分成所述多个组中的第一组的所述频域系数变换成第三时域信号;以及
加法单元,按照每个声道将所述第三时域信号与所述合成单元生成的所述多个声道的所述语音信号相加,并且生成整个频率频带中的所述多个声道的所述语音信号,所述第三时域信号是所述第一组的频率频带中的相应声道的语音信号,其中:
所述获取单元获取第二组的频率频带中的所述参数和所述频域系数,所述第二组是除了所述第一组之外的组,
所述第一变换单元将划分成所述第二组的所述频域系数变换成所述第一时域信号,
所述第二变换单元将划分成所述第二组的所述频域系数变换成所述第二时域信号,并且
所述合成单元通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述第二组的频率频带中的所述多个声道的所述语音信号。
3.根据权利要求1所述的语音处理装置,还包括:
第三变换单元,将所述获取单元获取的并且根据频率划分成多个组的所述频域系数之中的第一组的频域系数变换成第三时域信号;以及
加法单元,按照每个声道将所述第三时域信号与所述合成单元生成的所述多个声道的所述语音信号相加,并且生成整个频率频带中的所述多个声道的所述语音信号,所述第三时域信号是所述第一组的频率频带中的相应声道的语音信号,其中:
所述获取单元获取每组的所述频域系数和第二组的频率频带的参数,所述第二组是所述多个组之中除了所述第一组之外的组,
所述第一变换单元将划分成所述第二组的所述频域系数变换成所述第一时域信号,
所述第二变换单元将划分成所述第二组的所述频域系数变换成所述第二时域信号,并且
所述合成单元通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述第二组的频率频带中的所述多个声道的所述语音信号。
4.根据权利要求1所述的语音处理装置,其中根据所述多个声道的所述语音信号的频域系数生成所述频域系数。
5.根据权利要求4所述的语音处理装置,还包括:
分离单元,分离所述获取单元获取的预定频率频带中的所述频域系数,以及除了所述预定频率频带之外的频率频带中的多个声道的所述语音信号的所述频域系数;
第三变换单元,将所述分离单元分离的所述多个声道的所述语音信号的所述频域系数变换成所述多个声道的第三时域信号;以及
加法单元,按照每个声道将所述多个声道的所述第三时域信号与所述合成单元生成的所述多个声道的所述语音信号相加,并且生成整个频率频带中的所述多个声道的所述语音信号,所述多个声道的第三时域信号是除了所述预定频率频带之外的所述频率频带中的所述多个声道的所述语音信号,其中:
所述获取单元获取所述预定频率频带中的所述频域系数、除了所述预定频率频带之外的所述频率频带中的所述多个声道的所述语音信号的所述频域系数和所述预定频率频带中的所述参数,
所述第一变换单元将所述分离单元分离的所述预定频率频带中的所述频域系数变换成所述第一时域信号;
所述第二变换单元将所述分离单元分离的所述预定频率频带中的所述频域系数变换成所述第二时域信号,并且
所述合成单元通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述预定频率频带中的所述多个声道的所述语音信号。
6.根据权利要求1至5中的任一权利要求所述的语音处理装置,其中:
所述频域系数是改进型离散余弦变换MDCT系数,
所述第一变换单元执行的变换是逆改进型离散余弦变换IMDCT,并且
所述第二变换单元执行的变换是逆改进型离散正弦变换IMDST。
7.根据权利要求1至5中的任一权利要求所述的语音处理装置,其中:
所述第二变换单元包括:
频谱反转单元,反转所述频域系数使得频率按照逆序;
IMDCT单元,通过执行作为所述频谱反转单元的反转的结果而获得的所述频域系数的逆改进型离散余弦变换IMDCT来获得时域信号;以及
符号反转单元,每隔一个符号反转所述IMDCT单元获得的所述时域信号的每个采样的符号,并且
所述频域系数是改进型离散余弦变换MDCT系数,并且所述第一变换单元执行的变换是逆改进型离散余弦变换。
8.一种由语音处理装置执行的语音信号处理方法,所述方法包括:
获取步骤,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数;
第一变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第一时域信号;
第二变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第二时域信号;以及
合成步骤,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号,
其中所述第一变换步骤的处理中的变换的基底与所述第二变换步骤的处理中的变换的基底正交。
9.一种程序,用于使计算机执行:
获取步骤,获取从作为多个声道的语音时域信号的语音信号生成、数目比多个声道少的声道的语音信号的频域系数,和表示多个声道之间的关系的参数;
第一变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第一时域信号;
第二变换步骤,将通过所述获取步骤中的处理而获取的所述频域系数变换成第二时域信号;以及
合成步骤,通过使用所述参数合成所述第一时域信号和所述第二时域信号来生成所述多个声道的所述语音信号,
其中所述第一变换步骤的处理中的变换的基底与所述第二变换步骤的处理中的变换的基底正交。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010061170A JP5299327B2 (ja) | 2010-03-17 | 2010-03-17 | 音声処理装置、音声処理方法、およびプログラム |
JP2010-061170 | 2010-03-17 | ||
PCT/JP2011/055293 WO2011114932A1 (ja) | 2010-03-17 | 2011-03-08 | 音声処理装置、音声処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102792369A true CN102792369A (zh) | 2012-11-21 |
CN102792369B CN102792369B (zh) | 2014-04-23 |
Family
ID=44649030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180013301.2A Expired - Fee Related CN102792369B (zh) | 2010-03-17 | 2011-03-08 | 语音处理装置、语音处理方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8977541B2 (zh) |
EP (1) | EP2525352B1 (zh) |
JP (1) | JP5299327B2 (zh) |
CN (1) | CN102792369B (zh) |
BR (1) | BR112012022784A2 (zh) |
WO (1) | WO2011114932A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105324812A (zh) * | 2013-06-17 | 2016-02-10 | 杜比实验室特许公司 | 不同信号维度的参数矢量的多级量化 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG10202101745XA (en) * | 2010-04-09 | 2021-04-29 | Dolby Int Ab | Audio Upmixer Operable in Prediction or Non-Prediction Mode |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
JP6094322B2 (ja) * | 2013-03-28 | 2017-03-15 | 富士通株式会社 | 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置 |
WO2018058379A1 (zh) | 2016-09-28 | 2018-04-05 | 华为技术有限公司 | 一种处理多声道音频信号的方法、装置和系统 |
CN108665902B (zh) | 2017-03-31 | 2020-12-01 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
CN108694955B (zh) | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006325162A (ja) * | 2005-05-20 | 2006-11-30 | Matsushita Electric Ind Co Ltd | バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 |
WO2007010785A1 (ja) * | 2005-07-15 | 2007-01-25 | Matsushita Electric Industrial Co., Ltd. | オーディオデコーダ |
WO2007029412A1 (ja) * | 2005-09-01 | 2007-03-15 | Matsushita Electric Industrial Co., Ltd. | マルチチャンネル音響信号処理装置 |
CN101325059A (zh) * | 2007-06-15 | 2008-12-17 | 华为技术有限公司 | 语音编解码收发方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3147807B2 (ja) * | 1997-03-21 | 2001-03-19 | 日本電気株式会社 | 信号符号化装置 |
SE0301273D0 (sv) | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
CN1914669A (zh) * | 2004-01-28 | 2007-02-14 | 皇家飞利浦电子股份有限公司 | 使用复数值数据的音频信号解码 |
KR101450940B1 (ko) * | 2007-09-19 | 2014-10-15 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 멀티채널 오디오의 조인트 인핸스먼트 |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
-
2010
- 2010-03-17 JP JP2010061170A patent/JP5299327B2/ja not_active Expired - Fee Related
-
2011
- 2011-03-08 CN CN201180013301.2A patent/CN102792369B/zh not_active Expired - Fee Related
- 2011-03-08 EP EP11756121.7A patent/EP2525352B1/en not_active Not-in-force
- 2011-03-08 BR BR112012022784A patent/BR112012022784A2/pt not_active IP Right Cessation
- 2011-03-08 US US13/583,839 patent/US8977541B2/en not_active Expired - Fee Related
- 2011-03-08 WO PCT/JP2011/055293 patent/WO2011114932A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006325162A (ja) * | 2005-05-20 | 2006-11-30 | Matsushita Electric Ind Co Ltd | バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 |
WO2007010785A1 (ja) * | 2005-07-15 | 2007-01-25 | Matsushita Electric Industrial Co., Ltd. | オーディオデコーダ |
WO2007029412A1 (ja) * | 2005-09-01 | 2007-03-15 | Matsushita Electric Industrial Co., Ltd. | マルチチャンネル音響信号処理装置 |
CN101325059A (zh) * | 2007-06-15 | 2008-12-17 | 华为技术有限公司 | 语音编解码收发方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105324812A (zh) * | 2013-06-17 | 2016-02-10 | 杜比实验室特许公司 | 不同信号维度的参数矢量的多级量化 |
Also Published As
Publication number | Publication date |
---|---|
WO2011114932A1 (ja) | 2011-09-22 |
EP2525352A4 (en) | 2013-08-28 |
JP2011197105A (ja) | 2011-10-06 |
JP5299327B2 (ja) | 2013-09-25 |
CN102792369B (zh) | 2014-04-23 |
EP2525352A1 (en) | 2012-11-21 |
US8977541B2 (en) | 2015-03-10 |
US20130006618A1 (en) | 2013-01-03 |
BR112012022784A2 (pt) | 2018-05-22 |
EP2525352B1 (en) | 2014-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102792369B (zh) | 语音处理装置、语音处理方法 | |
CN101484936B (zh) | 音频解码 | |
US7275036B2 (en) | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data | |
CN103098126B (zh) | 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法 | |
CN103052983B (zh) | 音频或视频编码器、音频或视频解码器及编码和解码方法 | |
CA2482427C (en) | Apparatus and method for coding a time-discrete audio signal and apparatus and method for decoding coded audio data | |
CN1910655B (zh) | 构造多通道输出信号或生成下混信号的设备和方法 | |
CN103765509B (zh) | 编码装置及方法、解码装置及方法 | |
CN102084418B (zh) | 用于调整多通道音频信号的空间线索信息的设备和方法 | |
TW200931397A (en) | An encoder | |
EP2777042B1 (en) | Upsampling using oversampled sbr | |
WO2010140350A1 (ja) | ダウンミックス装置、符号化装置、及びこれらの方法 | |
CN101540171A (zh) | 音频信号编码或解码 | |
CN103460282A (zh) | 用于利用传送的相位信息产生去相关信号的装置 | |
US6629078B1 (en) | Apparatus and method of coding a mono signal and stereo information | |
CN102483921A (zh) | 用于对多声道音频信号进行编码的方法和设备以及用于对多声道音频信号进行解码的方法和设备 | |
WO2008035949A1 (en) | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding | |
KR20120095920A (ko) | 최적의 저-스루풋 파라메트릭 코딩/디코딩 | |
TWI812658B (zh) | 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統 | |
Britanak et al. | Cosine-/Sine-Modulated Filter Banks | |
CN105474308A (zh) | 音频信号编码器 | |
EP3729298A1 (en) | Methods and apparatus systems for unified speech and audio decoding improvements | |
WO2019121982A1 (en) | Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements | |
CN113544774B (zh) | 降混器及降混方法 | |
Huang | Lossless audio coding for MPEG-4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140423 |