CN101176147B - 语音编码装置以及频谱变形方法 - Google Patents

语音编码装置以及频谱变形方法 Download PDF

Info

Publication number
CN101176147B
CN101176147B CN2006800164325A CN200680016432A CN101176147B CN 101176147 B CN101176147 B CN 101176147B CN 2006800164325 A CN2006800164325 A CN 2006800164325A CN 200680016432 A CN200680016432 A CN 200680016432A CN 101176147 B CN101176147 B CN 101176147B
Authority
CN
China
Prior art keywords
signal
frequency
spectrum
unit
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800164325A
Other languages
English (en)
Other versions
CN101176147A (zh
Inventor
张峻伟
梁世丰
吉田幸司
后藤道代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101176147A publication Critical patent/CN101176147A/zh
Application granted granted Critical
Publication of CN101176147B publication Critical patent/CN101176147B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开了能够提高信号估计和预测的效率,并且更高效率地对频谱进行编码的频谱变形方法等。在该方法中,基于作为参考信号的原信号计算音调周期,计算基本音调频率f0。然后,将作为频谱变形的对象的目标信号的频谱分割为多个分区。这里,假设各个分区的宽度为基本音调频率。然后,对各个频带的频谱进行交织,以使振幅上类似的多个峰值汇总为一个组。作为交织间隔使用基本音调频率。

Description

语音编码装置以及频谱变形方法
技术领域
本发明涉及语音编码装置以及频谱变形方法。
背景技术
对单声道语音信号进行编码的语音编码技术现在已经成为标准。在信号来自例如人的话音等的单一音源的移动电话和电话会议机器等通信机器中,通常使用像这样的单声道编码。
以往由于发送信号的带宽和DSP的处理速度等原因,局限于这样的单声道信号。然而,随着技术的进步及带宽的改善,该限制的重要性逐渐消失。另一方面,语音的质量变成更应考虑的重要因素。单声道语音的缺点之一为不提供诸如立体的音感或说话人的位置等的空间信息。因此,今后为了实现更好的话音,应考虑以尽可能低的比特速率达成音质良好的立体声语音。
对立体声语音信号进行编码的一种方法为利用信号的预测或其估计技术。也就是说,对一方的声道,使用众所周知的音频编码技术进行编码,而对另一方的声道,使用通过对该声道进行分析或者从该声道提取而得到的一些辅助信息(side information),基于已经编码过的声道进行预测或估计。
这样的方法作为双耳标系统(binaural cue coding system,例如,参见非专利文献1)的一部分,在专利文献1中记述了有关该方法的记载。在该记载中,该方法适用于声道间电平差(ILD:interchannel level difference)的计算,计算所述声道间电平差的目的是以参考声道为基准对一方的声道的电平进行调整。
与原音相比,所预测或所估计的信号往往不忠实。因此,需要对所预测或所估计的信号进行增强(enhancement),以便尽可能地使其类似于原来的信号。
一般而言,在频域对音频信号和语音信号进行处理。一般将该频域数据称为“变换后的区域中的谱系数”。因此,能够在频域进行如上的预测及估计方法。例如,对于L声道和R声道的谱数据,能通过提取其辅助信息中的某些信息而将该信息适用于单声道的声道,来进行估计(参照专利文献1)。其它变形例子中还包括正如能基于R声道估计L声道那样,基于一方的声道估计另一方的声道的技术等。
作为适用音频处理和语音处理中的增强的一个区域,有频谱能量估计。频谱能量估计也被称为“频谱能量预测”或“定标(scaling)”。在典型的频谱能量估计运算中,将时域信号变换为频域信号。通常,对该频域信号与临界频带匹配地区分(partition)为多个频带。对参考声道和所估计的声道的双方进行该处理。对双方的声道的各个频带计算能量,并使用两个声道的能量比例,计算定标因子(scale factor)。将该定标因子发送到接收装置,并且在该接收装置中,使用该定标因子对参考信号进行定标,从而得到对各个频带的变换后的区域中的估计信号。然后,进行频率逆变换处理,得到相当于估计变换区域谱数据的时域信号。
专利文献1:国际公开第03/090208号小册子(pamphlet)
非专利文献1:C.Faller and F.Baumgarte,“Binaural cue coding:A novel and efficient representation of spatial audio”,Proc.ICASSP,Orlando,Florida,Oct.2002.
发明内容
发明要解决的问题
图1表示激励信号的频谱(激励谱)的一例。该频率谱为表示周期性的峰值的、具有周期性和恒定性的频谱。另外,图2是表示基于临界频带的分区化的例子的图。
在以往的方法中,将图2所示的频域的谱系数分割为多个临界频带,并计算能量和定标因子。在对非激励信号的处理中通常使用该方法,但是由于激励谱中出现重复图案(repetitive pattern),所以该方法并不适合于激励信号。这里,非激励信号意味着在用于生成激励信号的LPC(Linear Predictive Coding,线性预测编码)分析等的信号处理中的信号。
如上所述,在图2所示的基于临界频带的分区化中,由于各个频带的带宽不均等,所以通过将激励谱单纯地分割为临界频带无法计算高精度地表示激励谱的各个峰值的上升和下降的定标因子。
因此,本发明的目的为,提供语音编码装置和频谱变形方法,能够提高信号估计和预测的效率而有高效率地表现频谱。
解决问题的方案
为了解决上述问题,本发明对语音信号中的具有周期性的部分求音调周期(pitch period)。该音调周期被用于求语音信号的基本音调频率或重复图案(谐波结构:harmonic structure)。通过利用频谱的规则性的间隔或周期性的图案进行交织,并将振幅上类似的多个峰值(谱系数)汇总为一个组来生成多个组之后,计算定标因子。使用基本音调频率作为交织间隔而对频谱进行交织,由此改变激励谱的顺序。
由此,由于将振幅上类似的多个谱系数汇总为一个组,因此能够提高定标因子的量化效率,所述定标因子用于将目标信号的频谱调整到正确的振幅电平。
另外,为了解决上述问题,本发明选择是否需要进行交织。该判断基准取决于所处理的信号的类型。语音信号中的具有周期性的部分在频谱中表示重复图案。在这样的情况下,使用基本音调频率作为交织单位(交织间隔),对频谱进行交织。另一方面,语音信号中的不具有周期性的部分在频谱波形中不具有重复图案。因此,此时实行不使用交织的频谱变形。
由此,在信号的类型不同的情况下,能够构建选择对应于该差异的适当的频谱变形方法的灵活的系统,从而提高整体的编码效率。
发明效果
根据本发明,能够提高信号估计和预测的效率而更高效率地表现频谱。
附图说明
图1是表示激励谱的一例的图;
图2是表示基于临界频带的分区化的例子的图;
图3是表示进行本发明的等间隔的频带区分后的频谱的一例的图;
图4是表示本发明的交织处理的概要的图;
图5是表示实施方式1的语音编码装置和语音解码装置的基本结构的方框图;
图6是表示实施方式1的频率变换单元和频谱差运算单元的内部的主要结构的方框图;
图7是表示频带分割的例子的图;
图8是表示实施方式1的频谱变形单元的内部的图;
图9是表示实施方式2的语音编码系统(编码端)的图;
图10是表示实施方式2的语音编码系统(解码端)的图;以及
图11是表示实施方式2的立体声方式的语音编码系统的图。
具体实施方式
本发明的语音编码装置对所输入的频谱进行变形处理,并对变形后的频谱进行编码。首先,在编码装置中,将作为变形对象的目标信号变换为频域的频谱分量。该目标信号通常为与原信号不相似的信号。另外,目标信号也可以是对原信号进行预测或估计而得到的信号。
在频谱变形处理中,使用原信号作为参考信号。判断参考信号是否包含周期性。在判断了参考信号具有周期性时,计算音调周期T。基于该音调周期T,计算参考信号的基本音调频率f0
对被判断为具有周期性的帧进行频谱交织处理。为了表示作为频谱交织处理的对象,采用标识(以下称为“交织标识(interleave flag)”)。首先,将目标信号的频谱和参考信号的频谱分割为多个分区。各个分区的宽度相当于基本音调频率f0的间隔的宽度。图3是表示进行本发明的等间隔的频带区分后的频谱的一个例子的图。然后,以基本音调频率f0为交织间隔,对各个频带的频谱进行交织。图4是表示上述的交织处理的概要的图。
将交织后的频谱进一步分割为几个频带。然后,计算各个频带的能量。而且,对于各个频带,对目标声道的能量和参考声道的能量进行比较。计算这两个声道之间的能量的差或比,并采用定标因子的表现形式对其进行量化。为了频谱变形处理,将该定标因子与音调周期和交织标识发送到解码装置。
另一方面,在解码装置中,使用从编码装置发送的编码参数,对由主解码器合成的目标信号进行变形。首先,将目标信号变换为频域。然后,在交织标识被设定为有效(active)的情况下,使用基本音调频率作为交织间隔,对谱系数进行交织。基于从编码装置发送的音调周期计算该基本音调频率。将进行交织后的谱系数分割为与编码装置中的频带相同数目的频带,并且使用定标因子对各个频带调整上述的谱系数的振幅,以使各个频带的频谱接近参考信号的频谱。然后,对调整后的谱系数进行解交织,从而将处于交织后的状态的谱系数重新排列为原来的排序。对上述的调整和解交织后的频谱进行频率逆变换,从而得到时域的激励信号。在上述的处理中,在判断了信号不具有周期性时,省略交织处理而继续进行其它处理。
以下,参照附图详细说明本发明的实施方式。另外,对具有相同的功能的结构基本上赋予相同的标号,在存在多个时,为了区别而在标号的后边附加a和b。
(实施方式1)
图5是表示本实施方式的编码装置100和解码装置150的基本结构的方框图。
在编码装置100中,频率变换单元101将参考信号er和目标信号et变换为频域信号。目标信号et是进行变形以与参考信号er相似的对象。另外,通过使用LPC系数对输入信号s进行逆滤波处理而得到参考信号er,而且作为激励编码处理的结果而得到目标信号et
频谱差运算单元102对频率变换后所得的谱系数,进行计算在频域中的参考信号与目标信号之间的频谱差的处理。该计算中包括对谱系数的交织处理、将该系数区分到多个频带的处理、对各个频带计算参考声道和目标声道之间的差的处理、以及将这些差量化为发送到解码装置的G’b的处理等的一系列的处理。虽然交织处理为该频谱差运算的重要的部分,但是并不需要对所有的信号帧都进行交织。由交织标识I_flag表示是否需要进行交织,而且标识的有效与否取决于在当前帧所处理的信号的类型。在需要对某个特定的帧进行交织时,使用从当前的语音帧的音调周期T计算的交织间隔。在语音编解码器(codec)的编码装置进行这些处理。
在解码装置150中,频谱变形单元103得到目标信号et之后,得到量化信息G’b以及交织标识I_flag和音调周期T等的其它信息。然后,频谱变形单元103将目标信号的频谱变形,以使通过这些参数得到的频谱接近参考信号的频谱。
图6是表示上述的频率变换单元101和频谱差运算单元102的内部的主要结构的方框图。
FFT单元201使用FFT等的变换方法,将作为变形对象的目标信号et和参考信号er变换为频域的信号。FFT单元201作为标识使用I_flag,判断信号的特定帧是否适合于进行交织。在进行交织单元202中的交织处理之前进行音调检测,所述音调检测用于判定当前的语音帧是否为具有周期性和恒定性的信号。在所处理的帧为具有周期性和恒定性的信号的情况下,交织标识被设定为有效。在为具有周期性和恒定性的信号的情况下,通过激励处理,通常在频谱波形中产生周期性图案,所述周期性图案具有在某一间隔的特征性的峰值(参见图1)。基于信号的音调周期T或在频域的基本音调频率f0来确定该间隔。
在交织标识被设定为有效的情况下,交织单元202对参考信号和目标信号的双方进行变换后的谱系数的采样交织处理(sample interleaving)。在该采样交织中,预先选择整个频带中的某个特定的区域。通常,在频谱波形中,在到3kHz或4kHz为止的低频区域产生较明显的峰值。因此,作为交织区域选择低频区域的情况较多。例如,再次参照图4,选择N个样本的频谱作为进行交织的低频区域。然后,使用当前帧的基本音调频率f0作为交织间隔,以便在交织之后大小近似的能量系数能汇总为组。然后,将N个样本分割为K个分区,并进行交织。通过基于以下的等式(1)计算各个频带的谱系数,来进行该交织处理。这里,J表示各个频带的样本数,即各个分区的大小。
interleaved_coeff(k+j×K)=coefficien(k×J+j) fork = 0,1 , . . . , K - 1 forj = 0,1 , . . . , J - 1 . . . ( 1 )
本实施方式的交织处理并不对所有的输入语音帧都使用固定的交织间隔值。也就是说,通过计算参考信号的基本音调频率f0,自适应地调整交织间隔。从参考信号的音调周期T直接计算该基本音调频率f0
分区单元203在对谱系数进行交织之后,如图7所示地将N个样本的区域的频谱分割为B个频带(band),以使各个频带具有相同数目的谱系数。该频带的数目可以设定为8、10和12等的任意的数目。优选的是,将频带的数目设定为使从各个音调高谐波的相同位置提取的各个频带的谱系数对振幅而言为类似的数目。也就是说,频带的数目被设定为与在交织处理中的分区的数目相同的数目或者为其倍数,即被设定为B=K的频带或者B=LK(L为整数)的频带。在各个音调周期中的j=0的样本相当于交织后的各个频带的最初的样本,而在各个音调周期中的j=J-1的样本相当于交织后的各个频带的最后的样本。
在频带的数目不是K的倍数时,谱系数的个数有可能分配得不均等。在这样的情况下,分区单元203基于以下的等式(2a)分配可均等分配的样本,而基于以下的等式(2b)将剩余的样本分配到最后的频带(b=B-1)。
numCoefb=integer(N/B) for b=0,1,...,B-2      ...(2a)
numCoefb=N-{integer(N/B)×(B-1)}for b=B-1      ...(2b)
在不对特定的某个帧进行交织时,通过与上述的对剩余的样本的频带分配相同的方法,对未经交织的系数分配频带,并进行分区化。
能量计算单元204基于以下的等式(3),计算频带b的能量。
energy b = 1 cumCoe f b Σ i = 0 numCoef b - 1 interleaved _ coe ff i 2 for b=0,1,...,B-1      ...(3)
对参考信号和目标信号双方的各个频带进行上述的能量运算,从而生成参考信号能量energy_refb和目标信号能量energy_tgtb
对不包含在N个样本中的区域,不进行交织处理。对不进行交织的区域的样本也使用等式(2a)和(2b),从而分为从2到8为止等的由多个频带构成的分区,并且,还使用等式(3),计算这些未经交织的频带的能量。
增益计算单元205使用进行交织后的区域和未经交织的区域的双方的参考信号和目标信号的能量数据,计算频带b的增益Gb。该增益Gb为在解码装置中用于对目标信号的频谱进行定标和变形的增益。基于以下的等式(4)计算增益Gb
G b = energy _ re f b energy _ tgt b for b=0,1,...,BT-1    ...(4)
这里,BT是在交织后的区域和未经交织的区域的双方的区域中的频带的总数。
增益量化单元206使用在量化的区域众所周知的标量量化(scalar quantization)或矢量量化对增益Gb进行量化,得到量化增益G’b。量化增益G’b与音调周期T和交织标识I_flag一并被发送到解码装置150,以便在解码装置中对信号的频谱进行变形。
在解码装置150中的处理为与编码装置中的处理相反的处理,所述编码装置中的处理为计算与参考信号比较后的目标信号的差。也就是说,在解码装置中,将该差适用于目标信号,以使通过频谱变形的结果尽可能地接近参考信号。
图8是表示上述的解码装置150所具有的频谱变形单元103的内部的图。
假设在解码装置150中,需要进行变形的、与编码装置100的目标信号相同的目标信号et在该阶段已经进行了合成,而且处于可进行频谱变形的状态。另外,也从比特流中解码出量化增益G’b、音调周期T以及交织标识I_flag,以便能够执行频谱变形单元103中的处理。
FFT单元301使用与编码装置100中所使用的处理相同的变换处理,将目标信号et变换为频域。
在交织标识I_flag被设定为有效的情况下,交织单元302使用从音调周期T计算的基本音调频率f0作为交织间隔,基于等式(1)对谱系数进行交织。
该交织标识I_flag为表示是否需要对当前帧进行交织处理的标识。
分区单元303将这些系数分割为与编码装置100中所使用的频带相同数目的频带。在进行交织时将交织后的系数分割为分区,否则,将未经交织的系数分割为分区。
定标单元304使用量化增益G’b且基于以下的等式(5),计算定标后的各个频带的谱系数。
scaled_coeffb,i=coeffb,i×G′b forb = 0,1 , . . . , B T - 1 froi = 0,1 , . . . , band ( b ) - 1 . . . ( 5 )
这里,band(b)为由b表示的频带内的谱系数的数目。上述的等式(5)表示通过调整谱系数值来使各个频带的能量类似于参考信号,基于该等式(5)将信号的频谱变形。
在由交织单元302对谱系数进行交织的情况下,解交织单元305对谱系数进行解交织,以将这些交织后的系数重新排列为原来的进行交织前的顺序。另一方面,在未由交织单元302进行交织的情况下,解交织单元305不进行解交织处理。然后,调整后的谱系数通过IFFT单元306中的逆FFT(IFFT)等的频率逆变换处理,从而被恢复为时域信号。该时域信号为预测或估计出的激励信号e’t,其频谱被变形为类似于参考信号er的频谱。
如上所述,根据本实施方式,利用频率谱中的周期性图案(重复图案),使用交织处理对信号频谱进行变形,并对在谱系数中的类似的系数进行分组,从而能够提高语音编码装置的编码效率。
另外,本实施方式有助于提高定标因子的量化效率,所述定标因子用于将目标信号的频谱调整到正确的振幅电平。另外,通过交织标识提供较为智能型的系统,所述系统只对适当的语音帧适用频谱变形方法。
(实施方式2)
图9是表示将实施方式1的编码装置100适用于典型的语音编码系统(编码端)1000的例子的图。
LPC分析单元401用于对输入语音信号s进行滤波以得到LPC系数和激励信号。在LPC量化单元402中对该LPC系数进行量化和编码,另一方面,在激励编码单元403对激励信号进行编码,从而得到激励参数。这些结构部件构成典型的语音编码器的主编码器400。
为了提高编码质量,对该主编码器400追加配置编码装置100。由激励编码单元403,从编码后的激励信号得到目标信号et。通过在LP C逆滤波器404使用LPC系数对输入语音信号s进行逆滤波处理而得到参考信号er。在音调周期提取及有声/无声判定单元405使用输入语音信号s计算音调周期T和交织标识I_flag。编码装置100接收到这些输入,进行如上所述的处理,得到在解码装置中用于频谱变形处理的定标因子G’b
图10是表示将实施方式1的解码装置150适用于典型的语音编码系统(解码端)1500的例子的图。
在语音编码系统1500中,由激励生成单元501、LPC解码单元502以及LPC合成滤波器503构成典型的语音解码器的主解码器500。在激励生成单元501生成激励信号,在LPC解码单元502使用所发送的激励参数对量化后的LPC系数进行解码。该激励信号和解码后的LPC系数不直接使用于输出语音的合成。在此之前,基于上述的处理,在解码装置150中使用音调周期T、交织标识I_flag以及定标因子G’b等所发送的参数将频谱变形,从而对所生成的激励信号进行增强。由激励生成单元501生成的激励信号发挥作为要变形的目标信号et的作用。从解码装置150的频谱变形单元103的输出为激励信号e’t,该激励信号e’t的频谱被变形,以使其接近参考信号er的频谱。在LPC合成滤波器503中,为了合成输出语音s’使用变形后的激励信号e’t和解码后的LPC系数。
另外,根据以上的记载可知,实施方式1的编码装置100和解码装置150也可以适用于如图11所示的立体声方式的语音编码系统。在该立体声语音编码系统中,目标声道可以是单声道的声道。对该单声道信号M而言,通过取立体声声道的L声道和R声道的平均而合成单声道信号。参考声道可以是L声道和R声道中的任一声道。另外,在图11中,使用L声道信号L作为参考声道。
在编码装置中,在分析单元400a和400b分别对L声道信号L和单声道信号M进行处理。该处理的目的为对各个声道得到LPC参数、激励参数以及激励信号。L声道的激励信号作为参考信号er,另一方面,单声道的激励信号作为目标信号et发挥作用。在编码装置中的剩余的处理如上所述。在该适用例子中的唯一的差异为,用于合成参考声道语音信号的参考声道本身的LPC系数的集被发送到解码装置。
在解码装置中,在激励生成单元501生成单声道的激励信号,在LPC解码单元502b对LPC系数进行解码。在LPC合成滤波器503b,使用单声道的激励信号和单声道的声道的LPC系数合成输出单声道语音M’。另外,单声道的激励信号eM也作为目标信号et发挥作用。在解码装置150中对目标信号et进行变形,从而得到估计或预测出的L声道的激励信号e’L。在LPC合成滤波器503a,使用变形后的激励信号e’L和在LPC解码单元502a解码后的L声道的LPC系数,合成L声道信号L’。生成L信号L’和单声道信号M’之后,就能在R声道计算单元601使用以下的等式(6)计算R声道信号R’。
R’=2M’-L’    ...(6)
另外,在为单声道信号的情况下,在编码端通过M=(L+R)/2计算M。
如上所述,根据本实施方式,通过将实施方式1的编码装置100和解码装置150适用于立体声语音编码系统,从而提高激励信号的精确度。因此,虽然通过引入定标因子,比特速率会稍微地提高,但是由于能够对预测或估计出的信号进行增强以使其尽可能地类似于原信号,因此从“比特速率”对“语音质量”的观点而言能够提高编码效率。
以上说明了本发明的各个实施方式。
本发明的语音编码装置以及频谱变形方法并不限于上述各个实施方式,而可以进行各种各样的改变来实施。例如,各个实施方式可以适当地组合而实施。
本发明的语音编码装置可以配备在移动通信系统中的通信终端装置和基站装置上,由此能够提供具有与上述同样的作用效果的通信终端装置、基站装置以及移动通信系统。
另外,虽然这里以通过硬件来构成本发明的情形为例进行了说明,但是本发明还可以通过软件来实现。例如,通过编程语言对本发明的频谱变形方法的算法进行记述,并且在内存中保存该程序并通过信息处理单元来实行,从而能够实现与本发明的语音编码装置相同的功能。
另外,在上述各实施方式的说明中所使用的各功能块典型地通过集成电路的LSI来实现。这些既可以单独地实行单芯片化,也可以包含其中一部分或者是全部而实行单芯片化。
另外,每个功能块在此虽然称作LSI,但是根据集成度的不同,有时也称为IC、系统LSI、超级LSI(Super LSI)、或超大LSI(Ultra LSI)等。
另外,集成电路化的方法不只限于LSI,也可以使用专用电路或通用处理器来实现。也可以利用能够在LSI制造后编程的FPGA(Field Programmable Gate Array),或可以利用可对LSI内部的电路单元的连接或设定进行重新配置的可重配置处理器(Reconfigurable Processor)。
再者,如果由半导体技术的进步或者派生的其他技术,出现取代LSI的集成电路化的技术,当然也可以利用该技术来实现功能块的集成化。也有适用生物技术等的可能性。
本说明书基于2005年5月13日提交的日本专利申请特愿2005-141343号。
其内容全部包含于此。
工业实用性
本发明的语音编码装置和频谱变形方法可以适用于移动通信系统中的通信终端装置和基站装置等的用途。

Claims (6)

1.一种语音编码装置,包括:
取得单元,取得语音信号的频率谱的音调频率;
频域变换单元,将对所述语音信号的激励信号进行激励编码处理而得到的目标信号、以及使用线性预测编码系数对所述语音信号进行逆滤波处理而得到的参考信号,变换成频域的信号;
交织单元,基于所述音调频率,对变换成频域的所述目标信号和所述参考信号的多个谱系数分别进行交织,以使所述多个谱系数中的相似的谱系数彼此集中在一起;以及
编码单元,对交织后的所述谱系数进行编码。
2.如权利要求1所述的语音编码装置,其中,还包括:
分割单元,将交织后的所述谱系数分割为多个频带;
计算单元,计算所述目标信号的各个频带的能量与所述参考信号的对应的频带的能量的比;以及
增益编码单元,对所述能量的比进行编码。
3.如权利要求1所述的语音编码装置,其中,还包括:
检测单元,检测在所述语音信号中存在所述音调频率区间,
其中,所述交织单元对所检测出的所述区间进行交织处理。
4.一种通信终端装置,具有权利要求1所述的语音编码装置。
5.一种基站装置,具有权利要求1所述的语音编码装置。
6.一种频谱变形方法,包括以下步骤:
取得语音信号的频率谱的音调频率;
将对所述语音信号的激励信号进行激励编码处理而得到的目标信号、以及使用线性预测编码系数对所述语音信号进行逆滤波处理而得到的参考信号,变换成频域的信号;
基于所述音调频率,对变换成频域的所述目标信号和所述参考信号的多个谱系数进行交织;以及
对交织后的所述谱系数进行编码。
CN2006800164325A 2005-05-13 2006-05-11 语音编码装置以及频谱变形方法 Expired - Fee Related CN101176147B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP141343/2005 2005-05-13
JP2005141343 2005-05-13
PCT/JP2006/309453 WO2006121101A1 (ja) 2005-05-13 2006-05-11 音声符号化装置およびスペクトル変形方法

Publications (2)

Publication Number Publication Date
CN101176147A CN101176147A (zh) 2008-05-07
CN101176147B true CN101176147B (zh) 2011-05-18

Family

ID=37396609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800164325A Expired - Fee Related CN101176147B (zh) 2005-05-13 2006-05-11 语音编码装置以及频谱变形方法

Country Status (6)

Country Link
US (1) US8296134B2 (zh)
EP (1) EP1881487B1 (zh)
JP (1) JP4982374B2 (zh)
CN (1) CN101176147B (zh)
DE (1) DE602006010687D1 (zh)
WO (1) WO2006121101A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1852689A1 (en) * 2005-01-26 2007-11-07 Matsushita Electric Industrial Co., Ltd. Voice encoding device, and voice encoding method
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
US20090276210A1 (en) * 2006-03-31 2009-11-05 Panasonic Corporation Stereo audio encoding apparatus, stereo audio decoding apparatus, and method thereof
JP4999846B2 (ja) * 2006-08-04 2012-08-15 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP4960791B2 (ja) * 2007-07-26 2012-06-27 日本電信電話株式会社 ベクトル量子化符号化装置、ベクトル量子化復号化装置、それらの方法、それらのプログラム、及びそれらの記録媒体
EP2214163A4 (en) * 2007-11-01 2011-10-05 Panasonic Corp CODING DEVICE, DECODING DEVICE AND METHOD THEREFOR
EP2144228A1 (en) * 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
CN102131081A (zh) * 2010-01-13 2011-07-20 华为技术有限公司 混合维度编解码方法和装置
US8633370B1 (en) * 2011-06-04 2014-01-21 PRA Audio Systems, LLC Circuits to process music digitally with high fidelity
US9711158B2 (en) * 2011-01-25 2017-07-18 Nippon Telegraph And Telephone Corporation Encoding method, encoder, periodic feature amount determination method, periodic feature amount determination apparatus, program and recording medium
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
CN107317657A (zh) * 2017-07-28 2017-11-03 中国电子科技集团公司第五十四研究所 一种无线通信频谱交织共用传输装置
CN112420060A (zh) * 2020-11-20 2021-02-26 上海复旦通讯股份有限公司 一种基于频域交织的独立于通信网络的端到端语音加密方法
DE102022114404A1 (de) 2021-06-10 2022-12-15 Harald Fischer Reinigungsmittel

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1047047A2 (en) * 1999-03-23 2000-10-25 Nippon Telegraph and Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
CN1360716A (zh) * 1999-07-02 2002-07-24 科恩格森特系统股份有限公司 语音编码系统中的双向音调增强
CN1494055A (zh) * 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4351216A (en) * 1979-08-22 1982-09-28 Hamm Russell O Electronic pitch detection for musical instruments
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
TW224191B (zh) * 1992-01-28 1994-05-21 Qualcomm Inc
JPH07104793A (ja) * 1993-09-30 1995-04-21 Sony Corp 音声信号の符号化装置及び復号化装置
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5663517A (en) * 1995-09-01 1997-09-02 International Business Machines Corporation Interactive system for compositional morphing of music in real-time
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6353807B1 (en) * 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
JP2002312000A (ja) * 2001-04-16 2002-10-25 Sakai Yasue 圧縮方法及び装置、伸長方法及び装置、圧縮伸長システム、ピーク検出方法、プログラム、記録媒体
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
EP1470550B1 (en) * 2002-01-30 2008-09-03 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
GB2388502A (en) * 2002-05-10 2003-11-12 Chris Dunn Compression of frequency domain audio signals
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
JP3944188B2 (ja) * 2004-05-21 2007-07-11 株式会社東芝 立体画像表示方法、立体画像撮像方法及び立体画像表示装置
ATE442644T1 (de) * 2004-08-26 2009-09-15 Panasonic Corp Mehrkanalige signal-dekodierung
JP2006126592A (ja) * 2004-10-29 2006-05-18 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494055A (zh) * 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
EP1047047A2 (en) * 1999-03-23 2000-10-25 Nippon Telegraph and Telephone Corporation Audio signal coding and decoding methods and apparatus and recording media with programs therefor
CN1360716A (zh) * 1999-07-02 2002-07-24 科恩格森特系统股份有限公司 语音编码系统中的双向音调增强

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Christof Faller and Frank Baumgarte.Binaural Cue Coding—Part II:Schemes and Applications.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2003,第11卷(第6期),520-531. *
JP特开平7-104793A 1995.04.21

Also Published As

Publication number Publication date
EP1881487A1 (en) 2008-01-23
US8296134B2 (en) 2012-10-23
JPWO2006121101A1 (ja) 2008-12-18
US20080177533A1 (en) 2008-07-24
CN101176147A (zh) 2008-05-07
JP4982374B2 (ja) 2012-07-25
DE602006010687D1 (de) 2010-01-07
WO2006121101A1 (ja) 2006-11-16
EP1881487A4 (en) 2008-11-12
EP1881487B1 (en) 2009-11-25

Similar Documents

Publication Publication Date Title
CN101176147B (zh) 语音编码装置以及频谱变形方法
CN101501763B (zh) 音频编解码器后置滤波器
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
CN103493129B (zh) 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
CN101842832B (zh) 编码装置和解码装置
US20090018824A1 (en) Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
JP4879748B2 (ja) 最適化された複合的符号化方法
KR20070001276A (ko) 신호 인코딩
KR101414341B1 (ko) 부호화 장치 및 부호화 방법
US20030154074A1 (en) Decoding apparatus, encoding apparatus, decoding method and encoding method
US10622000B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
KR970050107A (ko) 음성 주파수 신호의 선형예측 분석 코딩 및 디코딩방법과 그 응용
TW200532646A (en) Classification of audio signals
CN104123946A (zh) 用于在与语音信号相关联的包中包含识别符的系统及方法
JP2002526798A (ja) 複数チャネル信号の符号化及び復号化
CN105679327A (zh) 用于对音频信号进行编码和解码的方法及设备
CN100405460C (zh) 音频信号编码
US20110004466A1 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
RU2463674C2 (ru) Кодирующее устройство и способ кодирования
US20100332223A1 (en) Audio decoding device and power adjusting method
CN110047500A (zh) 音频编码器、音频译码器及其方法
US20020156619A1 (en) Audio coding
US20110035214A1 (en) Encoding device and encoding method
CN101350199A (zh) 音频编码器及音频编码方法
US20120278067A1 (en) Vector quantization device, voice coding device, vector quantization method, and voice coding method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140717

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140717

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170519

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110518

CF01 Termination of patent right due to non-payment of annual fee