CN101010728B - 语音编码装置、语音解码装置及它们的方法 - Google Patents

语音编码装置、语音解码装置及它们的方法 Download PDF

Info

Publication number
CN101010728B
CN101010728B CN2005800294004A CN200580029400A CN101010728B CN 101010728 B CN101010728 B CN 101010728B CN 2005800294004 A CN2005800294004 A CN 2005800294004A CN 200580029400 A CN200580029400 A CN 200580029400A CN 101010728 B CN101010728 B CN 101010728B
Authority
CN
China
Prior art keywords
decoding
code
layering
coding
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005800294004A
Other languages
English (en)
Other versions
CN101010728A (zh
Inventor
森井利幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101010728A publication Critical patent/CN101010728A/zh
Application granted granted Critical
Publication of CN101010728B publication Critical patent/CN101010728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

能够实现高性能的可扩展编解码的编码装置。在这种编码装置中,LPC分析单元(551)对输入语音(301)使用从核心解码器(305)获得的合成LPC参数进行高效率的量化,获得解码LPC系数。在自适应代码本(552)中,存储了从核心解码器(305)获得的自适应代码本的音源代码。自适应代码本(552)和概率代码本(553)将音源样本传送到增益调整单元(554)。增益调整单元(554)对各个音源样本乘以了基于从核心解码器(305)获得的增益参数的放大率后相加而获得音源矢量,然后将该音源矢量传送到LPC合成单元(555)。LPC合成单元(555)对由增益调整单元(554)获得的音源矢量进行使用了LPC参数的滤波,获得合成音。

Description

语音编码装置、语音解码装置及它们的方法
技术领域
本发明涉及在将语音和音乐信号编码并传输的通信系统中所使用的语音编码装置、语音解码装置及它们的方法。 
背景技术
近年来,个人语音通信随着第三代携带电话的普及而进入了新的时代。此外,传送语音的服务通过IP电话等的分组通信而扩大,而预定在2010年进行服务引入的第四代携带电话也大致决定以allIP的分组通信方式进行通信。该服务是即使不同网络间的通信也可以无缝地进行的服务,要求与各种各样的传输容量对应的语音编解码。如ETSI的标准方式AMR那样准备多种压缩率的编解码,但在要削减传输中的传输容量的情况频繁出现的不同网络间通信中,需要不受到编解码变换造成的音质恶化的语音通信。因此,近年来,在世界上的制造商、运营商等的研究机构中研究开发了分层型编码(可扩展编解码),即使是ITU-T标准化,也成为课题(ITU-T SG16、WP3、Q.9的‘EV’和Q.10的‘G.729EV’)。 
分层型编码是,首先用核心编码器进行编码,接着用扩展编码器求如果加入了由核心编码器求出的代码则音质更好的扩展代码,将它分段地重叠而提高比特率的编码。例如,如果有三个编码器(核心编码器为4kbps、第1扩展编码器为3kbps、第2扩展编码器为2.5kbps),则能够输出4kbps、7kbps、9.5kbps三种比特率的语音。 
在分层型编码中,能够在传输的中途改变比特率,能够在通过上述三个编码器传输9.5kbps的中途只对核心编码器的4kbps的代码进行解码而输出语音,也能够只对核心编码器和第1扩展编码器的7kbps的代码进行解码而输出语音。因此,通过分层型编码,能够不经由编解码变换而进行不同网络间通信。 
在分层型编码的基本结构中有多级型和组合型,而能够用各个编码器确定编码失真的多级型还具有比组合型更有效的可能性,因而有可能在将来成为主流。 
在非专利文献1中,公开了有关使ITU-T标准的G.729成为核心编码器的两个分层的可扩展编解码的其算法。在非专利文献1中,展示了有关组合型扩展编码器中的核心编码器的代码的利用方法。特别展示了对于音调(pitch)补充的其有效性。 
非专利文献1:片岡章俊、林伸二「G.729を構成要素として用いるスケ一ラブル広带域音声符号化」電子情報通信学会論文誌D-II Vol.J86-D-II NO.3 pp.3 79-387(2003年3月) 
发明内容
发明要解决的课题 
但是,在以往的多级型的分层型编码中,由于未确立通过对低层(核心编码器、下层的扩展编码器)的代码进行解码所获得的信息的利用方法,所以有音质得不到充分提高的问题。 
本发明的目的在于,提供能够实现高性能的可扩展编解码的语音编码装置、语音解码装置及它们的方法。 
用于解决课题的手段 
本发明的语音编码装置,将输入语音信号用分成多个分层的编码单元进行编码,该语音编码装置包括:至少一个对所述输入语音信号进行编码的核心编码单元;对所述核心编码单元编码所得的编码信息或者对本层的编码信息进行解码而生成解码信号的多个解码单元;计算所述输入语音信号和所述解码信号之间的差分的差分信号或者下层的编码信息和所述解码信号之间的差分的差分信号的多个加法单元;以及对所述差分信号进行编码而生成本层的编码信息的多个扩展层编码单元,所述扩展层编码单元的各个扩展层编码单元利用在低层的解码单元的解码过程中获得的解码参数,对于下层的所述差分信号进行编码处理。 
本发明的语音解码装置对分成多个分层的编码信息进行解码,该语音解码装置包括:至少一个对核心层的所述编码信息进行解码而生成解码信号的核心解码单元;对分成多个扩展层的编码信息按每个所述扩展层进行解码而生成解码信号的多个扩展层解码单元;以及将所述核心层和所述多个扩展层的各个解码信号相加的多个加法单元,所述扩展层解码单元的各个解码单元 利用在低层的解码单元的解码过程中获得的解码参数,进行本层的解码处理。 
本发明的语音编码方法对输入语音信号用n分层的编码信息进行编码,其中,n为2以上的整数,该方法包括:核心层编码步骤,将输入语音信号编码而生成核心层的编码信息;核心层解码步骤,利用在所述核心层编码步骤中获得的编码信息进行解码而获得所述核心层的编码信息;第i分层的解码步骤,利用在核心层解码步骤中获得所述核心层的编码信息,将第i分层的编码信息解码而生成第i分层的解码信号,其中,i为1以上n-1以下的整数;加法步骤,求第1分层的差分信号或第i分层的差分信号,第1分层的差分信号是所述输入信号和第1分层的解码信号的差分,第i分层的差分信号是第(i-1)分层的解码信号和第i分层的解码信号的差分;以及第(i+1)分层的扩展分层编码步骤,将第i分层的差分信号编码而生成第(i+1)分层的编码信息,所述第(i+1)分层的扩展层编码步骤利用所述第i分层的解码步骤的解码过程中获得的解码参数,对于所述第i分层的差分信号进行编码处理。 
本发明的语音解码方法,将n层的语音编码信息解码,其中,n为2以上的整数,该方法包括:核心层解码步骤,将输入的核心层的编码信息解码;第i分层的解码步骤,利用在核心层解码步骤中获得的核心层的编码信息,将第(i+1)分层的编码信息解码而生成第(i+1)分层的解码信号,其中,i为1以上n-1以下的整数;以及加法步骤,将各个分层的解码信号相加,所述第(i+1)分层的解码步骤利用所述第i分层的解码步骤的过程中获得的解码参数,对于所述第(i+1)分层进行解码处理。 
发明的效果 
根据本发明,能够由高层的扩展编码器有效地利用对低层的代码进行解码所获得的信息,无论是以往不具备该性能的多级型的分层型编码,还是组合型的分层型编码,都能够获得高性能。 
附图说明
图1表示CELP(CELP:Code Excited Linear Prediction;码激励线性预测)的编码装置的方框图。 
图2表示CELP的解码装置的方框图。 
图3表示本发明的一实施方式的可扩展编解码的编码装置的结构的方框 图。 
图4表示上述实施方式的可扩展编解码的解码装置的结构的方框图。 
图5表示上述实施方式的可扩展编解码的编码装置的核心解码器和扩展编码器的内部结构的方框图。 
图6表示上述实施方式的可扩展编解码的解码装置的核心解码器和扩展解码器的内部结构的方框图。 
具体实施方式
本发明的核心是,在分层型编码中,在高层的扩展层的编码/解码中利用对低层(核心编码器、低层的扩展编码器)的代码进行解码所获得的信息。 
这里,在以下的说明中,作为核心层或扩展层中使用的各编码器、解码器的编码方式的一例,使用CELP。 
以下,对于作为编码/解码的基本算法的CELP,用图1、图2说明。 
首先,对于CELP的编码装置的算法,用图1说明。图1是CELP方式的编码装置的方框图。 
首先,在LPC(LPC:Linear Predictive Coding;线性预测编码)分析单元102中,对于输入语音101进行自相关分析、LPC分析而获得LPC系数,进行LPC系数的编码而获得LPC代码,对LPC代码进行解码而获得解码LPC系数。该编码在多数情况下,变换为PARCOR系数或LSP或ISP这样的容易量化的参数后,通过使用了以前的解码参数的预测或矢量量化而完成。 
接着,取出在自适应代码本103和概率代码本104中存储的音源样本(分别称为‘自适应代码矢量’或‘自适应音源’、‘概率代码矢量’或‘概率音源’)之中被指定的音源样本,并在增益调整单元105中乘以由各音源样本所指定的放大率后,通过相加而获得音源矢量。 
接着,在LPC合成单元106中,将由增益调整单元105获得的音源矢量通过使用了LPC参数的全极型滤波器进行合成,获得合成音。但是,在实际的编码中,对于增益调整前的两个音源矢量(自适应音源、概率音源),通过由LPC分析单元102求出的解码LPC系数进行滤波,获得两个合成音。这是为了更有效地进行音源的编码。 
接着,在比较单元107中,通过计算由LPC合成单元106求出的合成音和输入语音的距离,并通过控制来自两个代码本的输出矢量和由增益调整单元105相乘的放大率,从而寻找使距离最小的两个音源的代码的组合。 
但是,在实际的编码中,一般是对由LPC合成单元106获得的两个合成音和输入语音的关系进行分析,并求两个合成音的最佳值(最佳增益)的组合,根据该最佳增益而将由增益调整单元105增益调整过的各个合成音相加,从而求总合成音,进行该总合成音和输入语音的距离计算。然后,对于自适应代码本103和概率代码本104的所有的音源样本,通过使增益调整单元105、LPC合成单元106发挥功能而得的多个合成音和输入语音进行距离计算,求距离最小的音源样本的索引。由此,能够高效率地检索两个代码本的音源的代码。 
此外,在这种音源检索中,要将自适应代码本和概率代码本同时地最佳化本身,因为所需的计算量庞大事实上是不可能的,所以一般是进行每次决定一个代码这样的开环检索。即,通过将只有自适应音源的合成音和输入语音进行比较而求得自适应代码本的代码,接着固定来自该自适应代码本的音源,从而控制来自概率代码本的音源样本,并通过最佳增益的组合而求多个总合成音,通过将它和输入语音比较而决定概率代码本的代码。通过以上的步骤,能够实现现存的小型处理器(DSP等)下的检索。 
然后,比较单元107将两个代码本的索引(index)(代码)和与该索引对应的两个合成音和输入语音传送到参数编码单元108。 
参数编码单元108使用两个合成音和输入语音的相关进行增益的编码而获得增益代码。然后,将LPC代码、两个代码本的音源样本的索引(音源的代码)汇集在一起并传送到传输路径109。此外,从与增益代码和音源的代码对应的两个音源样本对音源信号进行解码,并将它存储在自适应代码本103中。此时,丢弃旧的音源样本。即,将自适应代码本103的解码音源数据从新到旧进行存储移位(memory shift),并丢弃从存储器出来的旧数据,在新的空余的部分中存储由解码生成的音源信号。这种处理称为自适应代码本的状态更新(update)。 
再有,在LPC合成单元106中的音源检索时的LPC合成中,一般是使用线性预测系数或高频增强滤波器或采用了长期预测系数(通过进行输入语音的长期预测分析而获得的系数)的听觉加权滤波器。此外,自适应代码本103和概率代码本104的音源检索大多在将分析区间(称为帧)更细地划分的区间(称为子帧)中进行。 
这里,如上述说明中所述那样,在比较单元107,对于从增益调整单元105获得的自适应代码本103、概率代码本104的全部音源,为了以可实现的计算量进行检索,将两个音源(自适应代码本103和概率代码本104)以开环(open loop)方式进行检索。这种情况下,各块(部分)的作用就变得比上述说明更复杂。因此,对于处理步骤,更详细地论述。(1)首先,增益调整单元105只从自适应代码本103将音源样本(自适应音源)一个接一个地传送,使LPC合成单元106发挥作用而求得合成音,将它传送到比较单元107,与输入语音进行比较,选择最佳的自适应代码本103的代码。再有,此时的增益假定是编码失真为最少的值(最佳增益)而进行检索。(2)然后,将自适应代码本103的代码固定,从自适应代码本103中一个一个地选择相同的音源样本,从概率代码本104中一个接一个地选择与比较单元107的代码对应的音源样本(概率音源),并传输到LPC合成单元106。LPC合成单元106求两个合成音,由比较单元107进行两合成音之和与输入语音的比较,决定概率代码本104的代码。再有,与上述同样,此时的增益假定是编码失真为最少的值(最佳增益)而进行选择。 
再有,在上述开环检索中,不使用增益调整单元105的调整增益的功能和相加的功能。 
这种算法与检索各个代码本的全部音源的组合的方法比较,编码性能有所不及,但计算量可以大幅度地得到削减,成为可实现的范围。 
这样,CELP是利用人的语音的发声过程(声带波=音源、声道=LPC合成滤波器)的模型的编码,作为基本算法,通过使用CELP,在比较少的计算量下可获得良好音质的语音。 
下面,对于CELP的解码装置的算法,用图2说明。图2是CELP方式的解码装置的方框图。 
参数解码单元202对通过传输路径201传送的LPC代码进行解码而获得用于合成的LPC参数并将其传送到LPC合成单元206。此外,参数解码单元202将通过传输路径201传送的两个音源代码传送到自适应代码本203和概率代码本204,并指定输出的音源样本。此外,参数解码单元202对通过传输路径201传送的增益代码进行解码而获得增益参数,并将其传送到增益调整单元205。 
接着,自适应代码本203和概率代码本204输出由两个音源代码所指定的音源样本,并传送到增益调整单元205。增益调整单元205通过将从参数解码单元202获得的增益参数与从两个音源代码本获得的音源样本相乘并相加而求得音源矢量,并传送到LPC合成单元206。 
LPC合成单元206对音源矢量进行使用了用于合成LPC参数的滤波并求得合成音,将其作为输出语音207。再有,在该合成后,大多使用进行使用了合成参数的极限增强、高频增强等后置滤波器。 
以上是基本算法CELP的说明。 
下面,对于本发明的实施方式的可扩展编解码的编码装置/解码装置的结构,用附图详细地说明。 
再有,在本实施方式,以多级型可扩展编解码作为例子进行说明。此外,作为分层数,对于核心和扩展的两层的情况进行说明。 
另外,作为决定可扩展编解码的音质的编码方式,在加入核心层和扩展层的情况下,举例说明语音的音响频带不同的频率扩展。这种方式是,仅在核心编解码中只获得音响频带窄的语音,而如果加入扩展部分的代码,则能够获得更宽频带的高质量的语音。再有,为了实现‘频率扩展’,使用对输入 语音或合成音的采样频率进行变换的频率调整单元。 
以下,对于本发明的实施方式的可扩展编解码的编码装置的结构,用图3详细地说明。 
频率调整单元302对输入语音301进行下采样,将获得的窄频带语音信号传送到核心编码器303。下采样的方法有很多种,作为一例,可列举施加低通(Low-pass)滤波器进行稀疏的方法。例如,在将16kHz采样的输入语音变换为8kHz采样的情况下,施加使4kHz(8kHz采样的乃奎斯特(Nyquist)频率)以上的频率分量变得极小的低通滤波器,然后通过对信号每隔一个进行拾取(即两个中稀疏掉一个)并存储在存储器中,从而获得8kHz采样的信号。 
接着,核心编码器303将窄频带语音信号编码,并将获得的代码传送到传输路径304和核心解码器305。 
核心解码器305使用由核心编码器303获得的代码进行解码,将获得的合成音传送到频率调整单元306。此外,核心解码器305将解码过程中获得的参数根据需要传送到扩展编码器307。 
频率调整单元306对核心解码器305获得的合成音进行上采样,直至输入语音301的采样率为止,并将其传送到加法单元309。上采样的方法有很多种,作为一例,可列举在样本之间插入0而增加样本数,并通过低通(Low-pass)滤波器调整频率分量后,调整功率的方法。例如,在对8kHz采样进行上采样到16kHz采样的情况下,如以下的算式(1)那样,首先,每隔一个插入0而获得信号Yj,并且求得每一个样本的振幅p。 
[算式1] 
Xi(i=1~I):核心解码器A15的输出序列(合成音) 
Figure S05829400420071206D000071
p = Σ I = 1 I Xi × Xi / I
对Yi乘以低通滤波器,使8kHz以上的频率分量极小。对于获得的16kHz采样的信号Zi,如以下的算式(2)那样,求Zi的每一个样本的振幅q,平滑地调整增益,以接近于由算式(1)求出的值,并获得合成音Wi。 
[算式2] 
Σ I = 1 2 I Zi × Zi / 2 I
对i=1~2I进行以下处理。 
g = ( g × 0.99 ) + ( q / p × 0.01 ) Wi = Zi × g
再有,作为上述中g的初始值,预先确定合适的常数(例如0)。 
此外,作为在频率调整单元302、核心编码器303、核心解码器305、频率调整单元306中使用的滤波器而使用了相位分量偏移的滤波器的情况下,在频率调整单元306中需要进行调整,以使相位分量也与输入语音301匹配。关于这种方法,通过预先计算至此为止的滤波器的相位分量的偏移,通过将其逆特性乘以Wi而使相位匹配。通过使相位匹配,能够求得与输入语音301的单差分信号,能够由扩展编码器307进行高效率的编码。 
加法单元309反转由频率调整单元306获得的合成音的代码并与输入语音301相加,即,从输入语音301中减去合成音。加法单元309将作为由该处理获得的语音信号的差分信号308传送到扩展编码器307。 
扩展编码器307将输入语音301和差分信号308输入,利用由核心解码器305获得的参数,进行差分信号308的高效率的编码,将获得的代码传送到传输路径304。 
以上是有关本实施方式的可扩展编解码的编码装置的说明。 
下面,关于本发明的实施方式的可扩展编解码的解码装置的结构,用图4详细地说明。 
核心解码器402从传输路径401取得解码处理所需的代码,进行解码获得合成音。核心解码器402具有与图3的编码装置的核心解码器305同样的解码功能。此外,核心解码器402根据需要而输出合成音406。再有,为了听觉上容易听到而对该合成音406进行调整是有效的。作为例子,可列举使用了由核心解码器402解码的参数的后置滤波器(post filter)。此外,核心解码器402根据需要将合成音传送到频率调整单元403。另外,根据需要将解码过程中获得的参数传送到扩展解码器404。 
频率调整单元403对从核心解码器402获得的合成音进行上采样,将上采样后的合成音传送到加法单元405。再有,频率调整单元403的功能与图3的频率调整单元306相同,所以省略其说明。 
扩展解码器404对从传输路径401获得的代码进行解码而获得合成音。然后,扩展解码器404将获得的合成音传送到加法单元405。在该解码时,通过进行利用了从核心解码器402在解码的过程中获得的参数的解码,能够获得良好质量的合成音。 
加法单元405将从频率调整单元403获得的合成音和从扩展解码器404获得的合成音相加并输出合成音407。再有,为了听觉上容易听到对该合成音407进行调整是有效的。作为例子,可列举使用了由扩展解码器404解码的参数的后置滤波器。 
如以上那样,图4的解码装置能够输出合成音406和合成音407的两个合成音。合成音406是仅从核心层获得的代码,而合成音407则是从核心层和扩展层的代码获得的质量更好的合成语音。至于利用哪一个,由可用该可扩展编解码的系统决定。再有,如果系统中仅利用核心层的合成音406,则可以省略编码装置的核心解码器305、频率调整单元306、加法单元309、扩展编码器307、解码装置的频率调整单元403、扩展解码器404、加法单元405等。 
以上是可扩展编解码的解码装置的说明。 
下面,详细地说明有关在本实施方式的编码装置/解码装置中,扩展编码器及扩展解码器利用从核心解码器获得的参数的方法。 
首先,使用图5,详细地说明有关本实施方式的编码装置的扩展编码器利用从核心解码器获得的参数的方法。图5是表示图3的可扩展编解码编码装置的核心解码器305和扩展编码器307的结构的方框图。 
首先,说明有关核心解码器305的功能。参数解码单元501从核心编码器303输入LPC代码、两个代码本的音源代码、增益代码。然后,参数解码单元501对LPC代码进行解码获得合成用LPC参数,将其传送到LPC合成单元505及扩展编码器307内的LPC分析单元551。此外,参数解码单元501将两个音源代码传送到自适应代码本502、概率代码本503及扩展编码器307内的自适应代码本552,指定输出的音源样本。此外,参数解码单元501对增益代码进行解码获得增益参数,并将其传送到增益调整单元504及扩展编码器307内的增益调整单元554。 
自适应代码本502和概率代码本503将由两个音源代码指定的音源样本传送到增益调整单元504。增益调整单元504将从参数解码单元501获得的 增益参数与从两个音源代码本获得的音源样本相乘后相加,并将通过该处理获得的音源矢量传送到LPC合成单元505。LPC合成单元505对音源矢量进行使用了合成用LPC参数的滤波而获得合成音,并将其传送到频率调整单元306。再有,在这种合成时,不使用用得比较多的后置滤波器。 
通过以上的核心解码器305的功能,合成用LPC参数、自适应代码本的音源代码、增益参数的这三种参数传送到扩展编码器307。 
下面,说明接受了这三种参数的扩展编码器307的功能。 
LPC分析单元551通过对输入语音301进行自相关分析和LPC分析获得LPC系数,并且进行所获得的LPC系数的编码而获得LPC代码,另外对所获得的LPC代码进行解码获得解码LPC系数。再有,LPC分析单元551使用从核心解码器305获得的合成LPC参数进行高效率的量化。 
自适应代码本552和概率代码本553将由两个音源代码指定的音源样本传送到增益调整单元554。 
增益调整单元554对各个音源样本乘以了利用从核心解码器305获得的增益参数所获得的放大率后,进行相加而获得音源矢量,然后将它们传送到LPC合成单元555。 
LPC合成单元555通过对由增益调整单元554获得的音源矢量进行使用了LPC参数的滤波,获得合成音。但是,在实际的编码中,一般是对于增益调整前的两个音源矢量(自适应音源、概率性音源),通过由LPC分析单元551获得的解码LPC系数进行滤波,从而获得两个合成音,并将其传送到比较单元556。这是为了高效率地进行音源的编码。 
比较单元556通过计算由LPC合成单元555获得的合成音和差分信号308的距离,控制来自两个代码本的音源样本和由增益调整单元554相乘的放大率,寻找使距离最近的两个音源的代码的组合。但是,在实际的编码中,一般是对由LPC合成单元555获得的两个合成音和差分信号308的关系进行分析,求得两个合成音的最佳值(最佳增益)的组合,根据该最佳增益将在增益调整单元554进行了增益的调整的各个合成音相加,从而获得总合成音,进行该总合成音和差分信号308的距离计算。然后,对于自适应代码本552和概率代码本553的全部的音源样本,进行通过使增益调整单元554、LPC合成单元555发挥功能所获得的多个合成音和差分信号308的距离计算,比较获得的距离,求得使该距离最小的两个音源样本的索引。由此,能够高效 率地求得两个代码本的音源的代码。 
此外,在该音源检索中,将自适应代码本和概率代码本同时地最佳化,通常在计算量上是不可能的,因此更一般的是,进行一个一个地决定代码这样的开环检索。即,通过将只有自适应音源的合成音和差分信号308进行比较而获得自适应代码本的代码,接着,将来自该自适应代码本的音源固定,从而控制来自概率代码本的音源样本,并通过最佳增益的组合而获得多个总合成音,通过将它和差分信号308进行比较而决定概率代码本的代码。通过以上那样的步骤,能够用现实的计算量实现检索。 
然后,将两个代码本的索引(代码)、以及与该索引对应的两个合成音和差分信号308传送到参数编码单元557。 
参数编码单元557通过使用两个合成音和差分信号308的相关进行最佳增益的编码获得增益代码。然后,将LPC代码、两个代码本的音源样本的索引(音源的代码)汇集在一起并传送到传输路径304。此外,由与增益代码和与音源的代码对应的两个音源样本而对音源信号进行解码,将它存储在自适应代码本552中。此时,丢弃旧的音源样本。即,将自适应代码本552的解码音源数据从新向旧进行存储移位,丢弃旧的数据,在新的空余的部分中存储由解码生成的音源信号。这种处理称为自适应代码本的状态更新。 
下面,分别说明有关从扩展编码器307中的核心层获得的三个参数(合成LPC参数、自适应代码本的音源代码、增益参数)的利用。 
首先,关于使用了合成LPC参数的量化方法,以下详细地说明。 
LPC分析单元551首先考虑频率的不同而将核心层的合成LPC参数进行变换。如图3的编码装置的说明中所述那样,核心层和扩展层的频率分量作为不同的例子而使核心层为8kHz采样、扩展层为16kHz采样时,需要将从8kHz采样的语音信号中获得的合成LPC参数变换到16kHz采样。以下表示该方法的一例。 
设合成LPC参数为线性预测分析中的α参数。α参数通常通过利用自相关分析,利用Levinson-Durbin法而求得,但利用此渐近式的处理是可逆的,α参数可通过逆变换而变换为自相关系数。因此,在该自相关系数上实现上采样即可。 
当求出自相关函数的源信号为Xi时,自相关函数Vj可按以下的算式(3)来求得。 
[算式3] 
Vj = Σ i Xi · Xi - j
设上述Xi是偶数号的样本时,可写为以下的算式(4)。 
[算式4] 
Vj = Σ i X 2 i · X 2 i - 2 j
其中,设扩大了一倍的采样的情况下的自相关函数为Wj时,偶数和奇数的次数有所不同,如以下的算式(5)那样。 
[算式5] 
W 2 j = Σ i X 2 i · X 2 i - 2 j + Σ i X 2 i + 1 · X 2 i + 1 - 2 j
W 2 j + 1 = Σ i X 2 i · X 2 i - 2 j - 1 + Σ i X 2 i + 1 · X 2 i + 1 - 2 j - 1
其中,为了插补奇数号的X而使用多层滤波Pm时,上述两个算式(4)、(5)能够变形为以下的算式(6)那样,多层滤波通过偶数号的X的线性和而插补其间的奇数号的值。 
[算式6] 
W 2 j = Σ I X 2 i · X 2 i - 2 j + Σ I ( Σ m Pm · X 2 ( i + m ) ) · ( Σ n Pn · X 2 ( i + n ) - 2 )
= Vj + Σ m Σ n Vj + m - n
W 2 j + 1 = Σ I X2i· Σ m Pm · X 2 ( i + m ) - 2 ( j + 1 ) + Σ i Σ m Pn · X 2 ( i + m ) · X 2 i - 2 j
= Σ m Pm ( Vj + 1 - m + Vj + m )
因此,如果原来的自相关函数Vj是必要的次数部分,则通过插补能够变换为一倍采样的自相关函数Wj。因而,通过对于获得的Wj再次采用Levinson-Durbin法的算法,可获得受到了能够在扩展层使用的采样率调整的α参数。 
LPC分析单元551使用按上述变换求出的核心层的参数(以下,称为‘核心系数’),进行从输入语音301求出的LPC系数的量化。LPC系数变换为PARCOR或LSP、ISP等容易量化的参数,从而通过矢量量化(VQ)等进行量化。这里,作为例子,说明有关以下两个量化方式。(1)将与核心系数的 差进行编码的情况,(2)包含核心系数以预测VQ进行编码的情况。 
首先,说明有关(1)的量化方式。 
首先,将作为量化对象的LPC系数变换为容易量化的参数(以下,称为‘目标系数’)。接着,从目标系数中减去核心系数。再有,由于两者都是矢量,所以是作为矢量的减法运算。然后,将获得的差分矢量通过VQ(预测VQ、分裂(split)VQ、多段VQ)进行量化。此时,只求差分的方法也是有效的,但如果不只是求差分,而是在矢量的各元素中进行与其相关对应的减法运算,则可以进行更高精度的量化。将一例表示在以下的算式(7)中。 
[算式7] 
Di=Xi-βi·Yi 
Di:差分矢量、Xi:目标系数、Yi:核心系数、βi:相关性 
在上述算式(7)中,事先存储预先统计性求出的βi,并使用它。再有,也有固定为βi=1.0的方法,但这种情况下就成为单纯的差分。相关性的决定通过预先对于多个语音数据使用可扩展编解码的编码装置,对输入到扩展编码器307的LPC分析单元551的多个目标(target)系数和核心系数的相关分析而完成。这能够通过求使以下算式(8)的误差功率E最小的βi而实现。 
[算式8] 
E = Σ t Σ i Dt , i 2 = Σ t Σ i ( Xt , i - βi · Yt , i ) 2 t:样本号 
然后,使上述最小化的βi根据对E以βi进行偏微分的算式对全部的i为0的性质,通过以下的算式(9)获得。 
[算式9] 
βi=∑Xt,i·Yt,i/∑Yt,i·Yt,i 
因此,如果使用上述的βi而取得差分,则能够实现精度更高的量化。 
下面,说明有关(2)的量化方式。 
预测VQ与上述差分后的VQ同样,使用以前的多个解码参数,将以固定的预测系数取得积和所得的差分作为VQ。将该差分矢量用以下的算式(10)表示。 
[算式10] 
Di = Xi - Σ m δm,i·Ym,i
Di:差分矢量、Xi:目标系数、Ym,i:以前的解码参数、δm,i:预测 系数(固定) 
作为上述‘以前的解码参数’,有使用经解码处理的矢量本身的方法和使用VQ中的形心(centroid)的方法两种。前者预测能力虽强,但由于差错的传播遍及较长期间,所以后者在比特差错上效果更好。 
因此,如果在该Ym,i中必须包含核心系数,则核心系数在该时间参数中相关性也高,所以能够获得良好的预测能力,能够以比上述(1)的量化方式更高的精度进行量化。例如,使用形心的情况下,在预测次数4的情况下,变成以下的算式(11)那样。 
[算式11] 
Y0,i:核心系数 
Y1,i:前一个的形心(或归一化后的形心) 
Y2,i:前两个的形心(或归一化后的形心) 
Y3,i:前三个的形心(或归一化后的形心) 
归一化:为了使动态范围一致,乘以 
此外,预测系数δm,i与(1)的量化形式的βi相同,根据使有关多个数据的误差功率以各预测系数偏微分的算式的值为0而求得。这种情况下,通过解有关m的联立一次方程式而求得。 
如以上那样,通过使用由核心层获得的核心系数,能够进行高效率的LPC参数的编码。 
再有,作为预测VQ的方式,还有在预测的积和中包含形心的情况。由于其方法在算式(11)中以括号书写方式表示,所以省略说明。 
而且,LPC分析单元551将编码获得的代码传送到参数编码单元557。此外,求出对代码解码而获得的扩展编码器用的合成用LPC参数,并将其传送到LPC合成单元555。 
再有,在上述LPC分析单元551的说明中,将分析对象作为输入语音301,但即使使用差分信号308,通过同样的方法,也可以实现参数提取、编码。由于算法与使用了输入语音301的情况相同,所以省略说明。 
在以往的多级型可扩展编解码中,将该差分信号308作为分析对象。但是,分析对象是差分信号,作为频率分量存在变得模糊的缺点。上述说明中论述的输入语音301是对它的编解码的最初的输入信号,如果对它进行分析, 可获得更清晰的频率分量。因此,通过对它进行编码,能够传送质量更高的语音信息。 
下面,说明有关从核心层获得的自适应代码本的音源代码的利用。 
自适应代码本是存储了以前的音源代码的代码本,是以子帧单位更新的动态的代码本。该音源代码与作为编码对象的语音信号的基本周期(量纲为时间。以样本数表示)大致对应,通过对输入语音信号(输入语音信号301或差分信号308等)和合成音的长期相关进行分析进行编码。此外,在扩展层对差分信号308进行编码,但核心层的长期相关具有在差分信号中也残留的性质,通过利用核心层的自适应代码本的音源代码,可进行更高效率的编码。作为使用方法,可列举对差分进行编码的方式。下面详细地说明。 
设核心层的自适应代码本的音源代码以8比特编码(设以‘0~255’表示实际的时滞(lag)(延迟量)‘20.0~147.5’,以‘0.5’刻度表示样本)。首先,为了取得差分,先使采样率一致。具体地说,核心层以8kHz,扩展层以16kHz采样时,如果是2倍,则成为与扩展层一致的数值。因此,在扩展层中转换为‘40~295’样本的数值后使用。然后,扩展层的自适应代码本的检索在上述数值附近进行检索。例如,如果仅检索上述数值的前后16个候选(‘-7~+8’为止)的区间,则能够以4比特高效率地进行编码,而也只用很少计算量。此外,如果使扩展层的长期相关与核心层的长期相关是相同的,则可获得充分的性能。 
再有,具体地列举并论述例子时,如果核心层的自适应代码本的音源代码为‘20’,作为数值为‘40’,其在扩展层中相当于‘80’。因此,则为以4比特对‘73~88’进行检索。它相当于‘0~15’的代码,如果检索结果为‘85’,则‘12’成为扩展层的自适应代码本的音源代码。 
这样,通过将核心层的自适应代码本的音源代码的差分进行编码,可进行更高效率的编码。 
再有,作为核心层的自适应代码本的音源代码的利用方法,如果想进一步节省扩展层的比特数时,还可列举将该代码原样使用的方法。这种情况下,在扩展层中不需要自适应代码本的音源代码(比特数为‘0’)。 
下面,详细地说明有关从核心层获得的增益参数的利用方法。 
再有,在核心层,作为表示功率的信息,将与音源样本相乘的参数编码。该参数根据由上述参数编码单元557得到的最终两个音源样本(来自自适应 代码本552的音源样本和来自概率代码本553的音源样本)的合成音和差分信号308的关系进行编码。在本说明中,作为一例,说明对于将两个音源的增益通过VQ(矢量量化)进行量化的情况。 
首先,说明基本算法。 
当增益决定时,编码失真E可按以下的算式(12)表示。 
[算式12] 
E = Σ i ( Xi - ga · SAi - gs · SSi ) 2
Xi:输入语音B18、ga:自适应代码本的音源样本的合成音的增益、 
SAi:自适应代码本的音源样本的合成音、gs:自适应代码本的音源样本的合成音的增益、 
SSi:自适应代码本的音源样本的合成音 
因此,将ga和gs的矢量设为(gaj、gsj)(j是矢量的索引(代码))时,从索引j的编码失真中减去差分信号308(Xi)的功率所得的Ej能变形为以下的算式(13)。因此,通过预先计算算式(13)的XA、XS、AA、SS、AS,代入(gaj、gsj)而求Ej,求的使其为最小的j,能够对增益进行VQ。 
[算式13] 
Ej=-2·gaj·XA-2·gsj·XS+gaj2·AA+gsj2·SS+2·gsj·gas·AS 
XA = Σ i Xi · Ai
XS = Σ i Xi · Si
AA = Σ i Ai · Ai
SS = Σ i Si · Si
AS = Σ i Ai · Si
以上是对两个音源的增益进行VQ的方法。 
而且,为了将音源的增益更高效率地编码,一般是采用利用相关高的参数而削减冗余性的方法。作为其参数,以往一直使用的是以前解码过的增益参数。语音信号的功率在极短时间稳定地变化,所以时间上靠近的解码增益参数的相关强。因此,能够利用差分或预测高效率地进行量化。VQ的情况下,使用解码参数或形心本身,进行差分或预测。前者量化精度高,而后者在传 输差错上效果较好。再有,‘差分’是求对前一个进行解码所得的参数的差分并将它量化,‘预测’是根据对前几个进行解码所得的参数求出预测值,并求该预测值的差分,将它量化。 
差分在算式(12)的ga、gs的部分中代入以下的算式(14)。然后,进行最佳的j的检索。 
[算式14] 
ga:gaj+α·Dga 
gs:gsj+β·Dgs 
(gaj、gsj):索引(代码)j的形心 
α、β:加权系数 
Dga、Dgs:前一个的解码增益参数(解码值、或形心) 
上述加权系数α、β可由统计性地求得,或固定为1。关于求取的方法,可列举基于VQ代码本和加权系数的依次最佳化的学习。即,为以下的步骤。(1)使加权系数两者都为0,汇集多个最佳增益(使计算出的误差成为最小的增益。通过求解设算式(12)以ga、gs进行偏微分得到的算式为0所获得的二元一次联立方程式而求得)并形成数据库。(2)按LBG算法等求得用于VQ的增益的代码本。(3)使用上述代码本进行编码,求出加权系数。加权系数通过求解将算式(14)代入算式(12),通过设以α、β进行偏微分得到的算式为0所获得的联立一次方程式而求得。(4)用(3)的加权系数,通过反复求取VQ和汇集的数据中的加权系数,从而使加权系数收敛。(5)将(4)的加权系数固定对多个语音数据进行VQ,汇集来自最佳增益的差分值形成数据库。(6)返回到(2)。(7)将到(6)为止的处理进行数次时,代码本和加权系数都会收敛,所以一收敛就结束一连串的学习处理。 
以上是利用了与解码增益参数的差分的VQ的编码算法的说明。 
然后,如果利用在上述方法中从核心层获得的增益参数,代入的算式则为以下的算式(15)。 
[算式15] 
ga:gaj+α·Dga+γ·Cga 
gs:gsj+β·Dgs+δ·Cgs 
(gaj、gsj):索引(代码)j的形心 
α、β、γ、δ:加权系数 
Dga、Dgs:前一个的解码增益参数(解码值、或形心) 
Cga、Cgs:从核心层获得的增益参数 
这里,作为预先求加权系数的方法的一例,列举仿效上述说明的增益的代码本和加权α、β的求取方法求的方法。以下表示其步骤。(1)使四个加权系数都为0,汇集多个最佳增益(使计算出的误差成为最小的增益。通过求解将算式(12)以ga、gs进行偏微分得到的算式为0所获得的二元一次联立方程式而求出)并形成数据库。(2)按LBG算法等求得用于VQ的增益的代码本。(3)使用上述代码本进行编码,求出加权系数。加权系数通过求解将算式(15)代入算式(12),并使对其以α、β、γ、δ进行偏微分得到的算式为0所获得的联立一次方程式而求出。(4)用(3)的加权系数,通过反复求取VQ和汇集的数据中的加权系数,从而使加权系数收敛。(5)将(4)的加权系数固定对多个语音数据进行VQ,汇集来自最佳增益的差分值形成数据库。(6)返回到(2)。(7)将到(6)为止的处理进行数次,代码本和加权系数都会收敛,所以一收敛就结束一连串的学习处理。 
以上是利用了解码增益参数和从核心层获得的增益参数的差分的VQ的编码算法。通过这种算法,有效地利用了时间上作为同一时间的参数的核心层的参数的相关性的程度,从而能够将增益信息更高精度地量化。例如,在语音的前缀(first part)的上升部分,仅靠以前的参数是不能预测的。但是,在从核心层获得的增益参数中,该上升的功率的上升已经得到反映,该参数的使用在量化上是有效的。 
再有,在利用了‘预测(线性预测)’的情况也是同样的。这种情况下,α、β的算式只是与以前的数个解码增益参数的算式有所不同(以下的算式(16)),所以省略其详细的说明。 
[算式16] 
ga : gaj + αk · Σ k Dgak + γ · Cga
gs : gsj + βk · Σ k Dgsk + δ · Cgs
(gaj、gsj):索引(代码)j的形心 
α、β、γ、δ:加权系数 
Dgak、Dgsk:前k个的解码增益参数(解码值、或形心) 
Cga、Cgs:从核心层获得的增益参数 
这样,即使在参数编码单元557(增益调整单元554),也与自适应代码 本552、LPC分析单元551同样,由增益调整单元554同样地利用从核心层获得的增益参数,从而能够进行高效率的量化。 
再有,在上述说明中,以增益的VQ(矢量量化)为例进行了说明,但显而易见,即使是标量量化,也可获得同样的效果。这是因为标量量化的情况是,在算式(13)~算式(16)中,自适应代码本的音源样本的增益和概率代码本的音源样本的增益的索引(代码)为独立的情况,所谓VQ只是系数的索引有所不同而已,所以从上述方法容易导出。 
在形成增益的代码本时,考虑到自适应代码本的音源样本的增益和概率代码本的音源样本的增益的动态范围或量纲有所不同,大多对增益的值进行变换后进行编码。作为例子,可列举将概率代码本的增益对数变换后进行统计性处理(LBG算法等)的方法。此外,如果通过求平均和方差并利用它们,同时采用考虑了两个参数的偏差而编码技巧,则能够进行更高精度的编码。 
再有,在LPC合成单元555中的音源检索时的LPC合成中,一般是使用线性预测系数或高频增强滤波器或使用了长期预测系数(通过进行输入信号的长期预测分析而得到)的听觉加权滤波器。 
此外,上述比较单元556对于从增益调整单元554得到的自适应代码本552、概率代码本553的全部音源进行比较,但为了以现实的计算量进行检索,通常是两个音源(自适应代码本552和概率代码本553)以计算量更少的方法进行检索。这种情况下,与图5的功能方框图有若干不同。关于它的步骤,由于在使用了图1的CELP的基本算法(编码装置)中进行了说明,所以省略它。 
下面,用图6,详细地说明有关本实施方式的解码装置的扩展解码器利用从核心解码器获得的参数的方法。图6是表示图4的可扩展编解码解码装置的核心解码器402和扩展解码器404的结构的方框图。 
首先,说明核心解码器402的功能。参数解码单元601从传输路径401取得LPC代码、两个代码本的音源代码、增益代码。然后,参数解码单元601对LPC代码进行解码而取得合成用LPC参数,并将它传送到LPC合成单元605及扩展解码器404内的参数解码单元651。此外,参数解码单元601将两个音源代码传送到自适应代码本602、概率代码本603,指定输出的音源样本。另外,参数解码单元601对增益代码进行解码而取得增益参数,将它传送到增益调整单元604。 
自适应代码本602和概率代码本603将由两个音源代码指定的音源样本传送到增益调整单元604。增益调整单元604将从参数解码单元601获得的增益参数乘以从两个音源代码本获得的音源样本后相加而取得总音源,将它传送到LPC合成单元605。此外,增益调整单元604将总音源存储在自适应代码本602中。此时,丢弃旧的音源样本。即,将自适应代码本602的解码音源数据从新到旧进行存储移位,并丢弃未进入存储器的旧数据,在新的空余的部分中存储由解码生成的音源信号。这种处理称为自适应代码本的状态更新。LPC合成单元605从参数解码单元601取得合成用LPC参数,对总音源进行使用了合成用LPC参数的滤波而取得合成音。合成音传送到频率调整单元403。 
再有,为了使语音容易听到,对合成音中,并用使用了合成用LPC参数、自适应代码本的音源样本的增益等的后置滤波器是有效的。这种情况下,将获得的后置滤波器的输出作为合成音406输出。 
通过以上的核心解码器402的功能,对扩展解码器404传送合成LPC参数、自适应代码本的音源代码、增益参数的三种参数。 
下面,说明接受了这三种参数的扩展解码器404的功能。 
参数解码单元651从传输路径401取得合成LPC参数、两个代码本的音源代码、增益代码。然后,参数解码单元651对LPC代码进行解码取得合成用LPC参数,将它传送到LPC合成单元655。此外,参数解码单元651将两个音源代码传送到自适应代码本652及概率代码本653,指定输出的音源样本。另外,参数解码单元651根据增益代码和从核心层得到的增益参数对最终的增益参数进行解码,并将它传送到增益调整单元654。 
自适应代码本652和概率代码本653输出由两个音源索引指定的音源样本,将它传送到增益调整单元654。增益调整单元654将从参数解码单元651得到的参数乘以从两个音源代码本得到的音源样本后相加,取得总音源,并将它传送到LPC合成单元655。另外,将总音源存储在自适应代码本652中。此时,丢弃旧的音源样本。即,将自适应代码本652的解码音源数据从新到旧进行存储移位,并丢弃未进入存储器的旧数据,在新的空余的部分中存储由解码生成的总音源。这种处理称为自适应代码本的状态更新。 
LPC合成单元655从参数解码单元651取得最终解码的LPC参数,对总音源进行使用了LPC参数的滤波,取得合成音。获得的合成音传送到加法单 元405。再有,在该合成之后,为了使语音容易听,一般是使用后置滤波器,该滤波器使用了该LPC参数。 
下面,分别说明有关从扩展解码器404中的核心层获得的三个参数(合成LPC参数、自适应代码本的音源代码、增益参数)的利用。 
首先,以下详细地说明有关使用了合成LPC参数的参数解码单元651的解码方法。 
参数解码单元651通常用使用了以前的解码参数的预测等,首先在PARCOR系数或LSP或ISP这样的容易量化的参数中对LPC代码进行解码,然后转换为用于合成滤波的系数。此外,在该解码中,也使用核心层的LPC代码。 
在本实施方式,以频率可扩展编解码为例,首先,考虑到频率的不同而转换核心层的合成用LPC参数。如在使用图4的解码器端的说明所述,作为核心层和扩展层的频率分量不同的例子,设核心层进行8kHz采样,扩展层进行16kHz采样时,需要将从8kHz采样的语音信号获得的合成LPC参数变更到16kHz采样。关于这种方法,在编码装置的说明中,在LPC分析单元551的使用了算式(3)至算式(6)的详细说明中论述过,所以省略它。 
然后,参数解码单元651使用由上述转换求出的核心层的参数(以下,称为‘核心系数’),进行LPC系数的解码。LPC系数在PARCOR或LSP等容易量化的参数的方式下,通过矢量量化(VQ)等进行编码,并进行与该编码对应的解码。这里,作为例子,与编码装置同样,说明以下两个量化方式。(1)对与核心系数的差进行编码的情况,(2)包含核心系数并以预测VQ进行编码的情况。 
首先,在(1)的量化方式中,通过在核心系数上相加由LPC代码的解码(VQ、预测VQ、分裂VQ、多段VQ编码的代码的解码)得到的差分矢量进行解码。此时,仅用相加的方法也有效,但在矢量的各元素中使用了根据其相关的减法运算的量化的情况下,进行根据该量化的加法运算。在以下的算式(17)中表示一例。 
[算式17] 
Oi=Di+βi·Yi 
Oi:解码矢量、Di:解码后的差分矢量、Yi:核心系数 
βi:相关性 
在上述算式(17)中,事先存储预先统计性求出的βi,并使用它。该相关性是与编码装置相同的值。因此,其求取的方法也与LPC分析单元551中说明的方法完全相同,所以省略其说明。 
此外,在(2)的量化方式中,是使用以前的多个解码参数,将以固定的预测系数取得积和的参数和解码后的差分矢量相加的方式。在算式(18)中表示这种相加。 
[算式18] 
Oi = Di + Σ m δm , i · Ym , i
Oi:解码矢量、Di:解码后的差分矢量、 
Ym,i:以前的解码参数、δm,i:预测系数(固定) 
作为上述‘以前的解码参数’,有使用以前解码的解码矢量本身的方法、以及使用VQ中的形心(这种情况下,是以前解码过的差分矢量)的方法的两种方法。因此,与编码器同样,如果在该Ym,i中必须包含核心系数,则核心系数在该时间的参数中相关性也强,所以可获得良好的预测能力,能够解码比(1)的量化方式更高精度的矢量。例如在使用形心的情况下,在预测次数4的情况下,则为在编码装置(LPC分析单元551)的说明中使用的算式(11)的形态。 
这样,通过由核心层得到的核心系数,能够进行高效率的LPC参数的解码。 
下面,说明有关从核心层得到的自适应代码本的音源代码的利用方法。作为使用方法,与编码装置同样,以对差分进行编码的例子进行说明。 
对自适应代码本的音源代码进行解码,取得差分的部分。此外,从核心层取得音源代码。然后,通过将它们两个相加而求自适应音源的索引。 
下面列举例子来说明。设核心层的自适应代码本的音源代码以8比特编码(设由‘0~255’将‘20.0~147.5以‘0.5’刻度表示)。首先,使采样率一致。具体地说,在核心层以8kHz,扩展层以16kHz采样时,如果是2倍,则成为与扩展层一致的数值‘40~295’。然后,将扩展层的自适应代码本的音源代码例如设为4比特(16列值‘-7~+8’)。如果核心层的自适应代码本的音源代码为‘20’,则作为数值是‘40’,它在扩展层中相当于‘80’。因此,如果‘12’是扩展层的自适应代码本的音源代码,则‘80+5=85’成为最终解码 后的自适应代码本的索引。 
这样,通过利用核心层的自适应代码本的音源代码而进行解码。 
再有,作为核心层的自适应代码本的音源代码的利用方法,在对扩展层的比特数有较强限制的情况下,还可列举将该代码原样使用的方法。这种情况下,在扩展层中不需要自适应代码本的音源代码。 
下面,详细地说明有关使用了增益参数的参数解码单元651的增益求取方法。 
在编码装置的说明中,作为利用相关强的参数而削减冗余性的方法的例子,列举‘差分’和‘预测’进行了说明。因此,在解码装置的说明中也论述与这两种情况对应的解码方法。 
进行基于‘差分’的编码的情况下的两个增益ga、gs按以下的算式(19)求出。 
[算式19] 
ga=gaj+α·Dga+γ·Cga 
gs=gsj+β·Dgs+δ·Cgs 
j:扩展解码器44获得的增益代码(其VQ的情况相当于索引) 
(gaj、gsj):索引(代码)j的形心 
α、β、γ、δ:加权系数 
Dga、Dgs:前一个的解码增益参数(解码值、或形心) 
Cga、Cgs:从核心层获得的增益参数 
上述加权系数与编码器相同,使用预先固定为合适的值或通过学习求出的值。关于通过学习而求的方法,在编码装置的说明中详细地进行了说明,所以省略它。 
此外,进行了基于‘预测(线性预测)’的编码的情况也是同样的。这种情况下,α、β的算式只与使用了以前的数个解码增益参数的算式有所不同(在以下的算式(20)中表示),该解码方法从上述说明中能够容易地类推,所以省略详细的说明。 
[算式20] 
ga = gaj + αk · Σ k Dgak + γ · Cga
gs = gsj + βk · Σ k Dgsk + δ · Cgs
j:扩展解码器44获得的增益代码(其VQ的情况相当于索引) 
(gaj、gsj):索引(代码)j的形心 
α、β、γ、δ:加权系数 
Dgak、Dgsk:前k个的解码增益参数(解码值、或形心) 
Cga、Cgs:从核心层获得的增益参数 
再有,在上述说明中以增益的VQ为例进行了说明,但即使是增益的标量量化,也可以用同样的处理解码。这是因为相当于两个增益代码独立的情况,仅上述说明的系数的索引有所不同而已,解码方法能够从上述说明中容易地类推。 
如以上那样,根据本实施方式,能够由高层的扩展编码器有效地利用将低层的代码解码所得到的信息,无论是以往不具备该性能的多级型的分层型编码,还是组合型的分层型编码,都能够获得高性能。 
再有,本发明不限于多级型,即使是组合型,也可以利用低层的信息。这是因为本发明不受输入的种类的差异的影响。 
此外,本发明即使在不是频率扩展的情况(频率上无变化的情况)也有效。如果是相同频率,则仅不需要频率调整单元或LPC的采样变换,从上述说明中除去该说明部分即可。 
此外,本发明还能够应用于CELP以外的方式。例如,在ACC、Twin-VQ、MP3等的音频编解码的分层化、MPLPC等的语音编解码的分层化的情况下,在后者中作为参数是同样的参数,所以与说明同样,即使是前者,在频带功率的编码上与本发明的增益参数的编码/解码的说明是同样的。 
此外,作为分层数,只要是两层以上的可扩展编解码,都能够适用于本发明。再有,即使是从核心层取得LPC、自适应代码本的信息、增益的信息以外的信息的情况,也能够适用于本发明。例如,显然在从核心层取得了SC的音源矢量的信息的情况下,与算式(14)或算式(17)同样,将核心层的音源乘以固定系数而相加在候选音源上,并将获得的音源作为候选进行合成并进行检索、编码即可。 
再有,在本实施方式,作为输入信号,说明了有关将语音信号为对象的情况,但本发明能够应对语音信号以外的所有信号(音乐或噪声、环境音等)。 
本说明书基于2004年9月2日申请的特愿2004-256037。其全部内容包含于此。 
产业上的可利用性 
本发明适用于分组通信系统和移动通信系统的通信装置。 

Claims (10)

1.一种语音编码装置,将输入语音信号用分成多个分层的编码单元进行编码,
该语音编码装置包括:至少一个对所述输入语音信号进行编码的核心编码单元;对所述核心编码单元编码所得的编码信息或者对本层的编码信息进行解码而生成解码信号的多个解码单元;计算所述输入语音信号和所述解码信号之间的差分的差分信号或者下层的编码信息和所述解码信号之间的差分的差分信号的多个加法单元;以及对所述差分信号进行编码而生成本层的编码信息的多个扩展层编码单元,
所述扩展层编码单元的各个扩展层编码单元利用在低层的解码单元的解码过程中获得的解码参数,对于下层的所述差分信号进行编码处理。
2.如权利要求1所述的语音编码装置,其中,至少一个编码单元为码激励线性预测型,其利用由所述解码单元解码所获得的线性预测编码参数信息。
3.如权利要求1所述的语音编码装置,其中,至少一个编码单元为码激励线性预测型,其利用由所述解码单元解码所获得的自适应代码本的信息。
4.如权利要求1所述的语音编码装置,其中,至少一个编码单元为码激励线性预测型,其利用由所述解码单元解码所获得的增益的信息。
5.一种语音解码装置,对分成多个分层的编码信息进行解码,
该语音解码装置包括:至少一个对核心层的所述编码信息进行解码而生成解码信号的核心解码单元;对分成多个扩展层的编码信息按每个所述扩展层进行解码而生成解码信号的多个扩展层解码单元;以及将所述核心层和所述多个扩展层的各个解码信号相加的多个加法单元,
所述扩展层解码单元的各个解码单元利用在低层的解码单元的解码过程中获得的解码参数,进行本层的解码处理。
6.如权利要求5所述的语音解码装置,其中,至少一个解码单元为码激励线性预测型,其利用由所述低层的解码单元解码所获得的线性预测编码参数信息。
7.如权利要求5所述的语音解码装置,其中,至少一个解码单元为码激励线性预测型,其利用由所述低层的解码单元解码所获得的自适应代码本的信息。
8.如权利要求5所述的语音解码装置,其中,至少一个解码单元为码激励线性预测型,其利用由所述低层的解码单元解码所获得的增益的信息。
9.一种语音编码方法,对输入语音信号用n分层的编码信息进行编码,其中,n为2以上的整数,该方法包括:
核心层编码步骤,将输入语音信号编码而生成核心层的编码信息;
核心层解码步骤,利用在所述核心层编码步骤中获得的编码信息进行解码而获得所述核心层的编码信息;
第i分层的解码步骤,利用在核心层解码步骤中获得所述核心层的编码信息,将第i分层的编码信息解码而生成第i分层的解码信号,其中,i为1以上n-1以下的整数;
加法步骤,求第1分层的差分信号或第i分层的差分信号,第1分层的差分信号是所述输入信号和第1分层的解码信号的差分,第i分层的差分信号是第(i-1)分层的解码信号和第i分层的解码信号的差分;以及
第(i+1)分层的扩展分层编码步骤,将第i分层的差分信号编码而生成第(i+1)分层的编码信息,
所述第(i+1)分层的扩展层编码步骤利用所述第i分层的解码步骤的解码过程中获得的解码参数,对于所述第i分层的差分信号进行编码处理。
10.一种语音解码方法,将n层的语音编码信息解码,其中,n为2以上的整数,该方法包括:
核心层解码步骤,将输入的核心层的编码信息解码;
第i分层的解码步骤,利用在核心层解码步骤中获得的核心层的编码信息,将第(i+1)分层的编码信息解码而生成第(i+1)分层的解码信号,其中,i为1以上n-1以下的整数;以及
加法步骤,将各个分层的解码信号相加,
所述第(i+1)分层的解码步骤利用所述第i分层的解码步骤的过程中获得的解码参数,对于所述第(i+1)分层进行解码处理。
CN2005800294004A 2004-09-02 2005-09-01 语音编码装置、语音解码装置及它们的方法 Active CN101010728B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004256037A JP4771674B2 (ja) 2004-09-02 2004-09-02 音声符号化装置、音声復号化装置及びこれらの方法
JP256037/2004 2004-09-02
PCT/JP2005/016033 WO2006025502A1 (ja) 2004-09-02 2005-09-01 音声符号化装置、音声復号化装置及びこれらの方法

Publications (2)

Publication Number Publication Date
CN101010728A CN101010728A (zh) 2007-08-01
CN101010728B true CN101010728B (zh) 2013-01-23

Family

ID=36000151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800294004A Active CN101010728B (zh) 2004-09-02 2005-09-01 语音编码装置、语音解码装置及它们的方法

Country Status (7)

Country Link
US (1) US8364495B2 (zh)
EP (1) EP1788555B1 (zh)
JP (1) JP4771674B2 (zh)
KR (1) KR20070051872A (zh)
CN (1) CN101010728B (zh)
CA (1) CA2578610A1 (zh)
WO (1) WO2006025502A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007102782A2 (en) * 2006-03-07 2007-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for audio coding and decoding
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
JP5294713B2 (ja) * 2007-03-02 2013-09-18 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN101622667B (zh) * 2007-03-02 2012-08-15 艾利森电话股份有限公司 用于分层编解码器的后置滤波器
WO2009001874A1 (ja) * 2007-06-27 2008-12-31 Nec Corporation オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2009081568A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation 符号化装置、復号装置および符号化方法
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US20110320193A1 (en) 2009-03-13 2011-12-29 Panasonic Corporation Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
JP5746974B2 (ja) * 2009-11-13 2015-07-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8711013B2 (en) * 2012-01-17 2014-04-29 Lsi Corporation Coding circuitry for difference-based data transformation
CN104412512B (zh) * 2012-06-21 2017-05-24 三菱电机株式会社 编码装置、解码装置、编码方法以及解码方法
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
RU2625945C2 (ru) 2013-01-29 2017-07-19 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
UA123055C2 (uk) * 2015-10-08 2021-02-10 Долбі Інтернешнл Аб Багаторівневе кодування стиснених представлень звуку або звукового поля
CN114422802B (zh) * 2022-03-28 2022-08-09 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JP3134817B2 (ja) 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
KR100391527B1 (ko) * 1999-08-23 2003-07-12 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
KR100711989B1 (ko) * 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
JP2003280694A (ja) 2002-03-26 2003-10-02 Nec Corp 階層ロスレス符号化復号方法、階層ロスレス符号化方法、階層ロスレス復号方法及びその装置並びにプログラム
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
US7752052B2 (en) 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
CA2524243C (en) * 2003-04-30 2013-02-19 Matsushita Electric Industrial Co. Ltd. Speech coding apparatus including enhancement layer performing long term prediction
EP1496500B1 (en) * 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
WO2006046547A1 (ja) * 2004-10-27 2006-05-04 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US8265929B2 (en) * 2004-12-08 2012-09-11 Electronics And Telecommunications Research Institute Embedded code-excited linear prediction speech coding and decoding apparatus and method
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
BRPI0611430A2 (pt) * 2005-05-11 2010-11-23 Matsushita Electric Ind Co Ltd codificador, decodificador e seus métodos
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jürgen Herre, Bernhard Grill.OVERVIEW OF MPEG-4 AUDIO AND ITS APPLICATIONS IN MOBILE COMMUNICATIONS.《INTERNATIONAL CONFERENCE ON COMMUNICATION TECHNOLOGY PROCEEDING(WCC-ICCT),BEIJING CHINA》.2000,第1卷604-613. *
JürgenHerre Bernhard Grill.OVERVIEW OF MPEG-4 AUDIO AND ITS APPLICATIONS IN MOBILE COMMUNICATIONS.《INTERNATIONAL CONFERENCE ON COMMUNICATION TECHNOLOGY PROCEEDING(WCC-ICCT)

Also Published As

Publication number Publication date
EP1788555B1 (en) 2013-11-06
US8364495B2 (en) 2013-01-29
CN101010728A (zh) 2007-08-01
KR20070051872A (ko) 2007-05-18
EP1788555A4 (en) 2008-05-21
US20070271102A1 (en) 2007-11-22
WO2006025502A1 (ja) 2006-03-09
CA2578610A1 (en) 2006-03-09
JP2006072026A (ja) 2006-03-16
EP1788555A1 (en) 2007-05-23
JP4771674B2 (ja) 2011-09-14

Similar Documents

Publication Publication Date Title
CN101010728B (zh) 语音编码装置、语音解码装置及它们的方法
CN101057275B (zh) 矢量变换装置以及矢量变换方法
US6829579B2 (en) Transcoding method and system between CELP-based speech codes
US6751587B2 (en) Efficient excitation quantization in noise feedback coding with general noise shaping
KR101175651B1 (ko) 다중 압축 부호화 방법 및 장치
US4868867A (en) Vector excitation speech or audio coder for transmission or storage
CN101996636B (zh) 带多级码本和冗余编码的子带话音编解码器
CN101925950B (zh) 音频编码器和解码器
CN101268351B (zh) 健壮解码器
CN104025189B (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
JP2002526798A (ja) 複数チャネル信号の符号化及び復号化
KR20100085994A (ko) Mdct 스펙트럼의 결합 인코딩을 이용하는 스케일링 가능한 스피치 및 오디오 인코딩
JPH1130997A (ja) 音声符号化復号装置
WO2006082790A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
EP1464047A2 (en) A transcoding scheme between celp-based speech codes
US6768978B2 (en) Speech coding/decoding method and apparatus
EP1326237A2 (en) Excitation quantisation in noise feedback coding
JP3878254B2 (ja) 音声圧縮符号化方法および音声圧縮符号化装置
Li et al. Basic audio compression techniques
Bouzid et al. Multi-coder vector quantizer for transparent coding of wideband speech ISF parameters
JP2003058196A (ja) オーディオ信号符号化方法、及びオーディオ信号復号化方法
JP2013055417A (ja) 量子化装置及び量子化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140716

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140716

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170602

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right