CN1977311B - 语音编码装置、语音解码装置及其方法 - Google Patents

语音编码装置、语音解码装置及其方法 Download PDF

Info

Publication number
CN1977311B
CN1977311B CN2005800212432A CN200580021243A CN1977311B CN 1977311 B CN1977311 B CN 1977311B CN 2005800212432 A CN2005800212432 A CN 2005800212432A CN 200580021243 A CN200580021243 A CN 200580021243A CN 1977311 B CN1977311 B CN 1977311B
Authority
CN
China
Prior art keywords
sound source
self
coded message
stationary
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800212432A
Other languages
English (en)
Other versions
CN1977311A (zh
Inventor
佐藤薰
森井利幸
山梨智史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1977311A publication Critical patent/CN1977311A/zh
Application granted granted Critical
Publication of CN1977311B publication Critical patent/CN1977311B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开了一种在对语音信号分层地编码时,在增强层中使用CELP方式的语音编码,并且能实现高效率的编码的语音编码装置。在该装置中,第1编码单元(115)对输入信号(S11)实施CELP方式的语音编码处理,将得到的第1编码信息(S12)输出到参数解码单元(120)。参数解码单元(120)根据第1编码信息(S12)而求第1量化LSP码(L1)、第1自适应声源延迟码(A1)等,并根据这些码求第1参数组(S13),并输出到第2编码单元(130)。第2编码单元(130)使用第1参数组(S13)对输入信号(S11)实施第2编码处理,获得第2编码信息(S14)。复用单元(154)将第1编码信息(S12)以及第2编码信息(S14)进行复用,经由传输路径N输出到解码装置(150)。

Description

语音编码装置、语音解码装置及其方法
技术领域
本发明涉及对语音信号分层地编码的语音编码装置、对通过该语音编码装置生成的编码信息进行解码的语音解码装置、及其方法。
背景技术
在像移动体通信、网络通信等这样被数字化的语音/乐音信号的通信系统中,为了有效利用作为有限的资源(resource)的通信线路,语音/乐音信号的编码/解码技术不可缺少,迄今为止开发了很多的编码/解码方式。
其中,特别是将语音信号作为对象的CELP方式的编码/解码方式,作为主流的语音编码/解码方式已在被实际应用(例如,参照非专利文献1)。CELP方式的语音编码装置基于语音的生成模式对输入语音进行编码。具体地说,将被数字化的语音信号划分为20ms左右的帧,对每个帧进行语音信号的线性预测分析,并对得到的线性预测系数以及线性预测残差向量分别单独地编码。
另外,在像因特网通信等这样传输分组的通信系统中,因根据网络的状态而产生分组损失,所以期望即使在编码信息的一部分缺损的情况下,仍能根据剩余的编码信息的一部分对语音/乐音进行解码的功能。同样地,在根据线路容量而改变比特率的可变速率通信息系统中,在线路容量下降的情况下,期望通过仅传输一部分编码信息来减轻通信系统的负担。这样,作为使用编码信息的全部或者仅使用编码信息的一部分能对原来的数据进行解码的技术,目前可伸缩(scalable)编码技术引人注目。以往也展示了几种可伸缩编码方式(例如参照专利文献1)。
可伸缩编码技术一般地由基本层(layer)和多个增强层构成,各层将基本层作为最低的层而形成分层构造。并且,各层的编码将低层的输入信号和解码信号之间的差的信号、即残差信号作为编码对象,并利用低层的编码信息来进行。通过该结构,使用全层的编码信息或者仅使用低层的解码信息,能够对原来的数据进行解码。
专利文献1:日本专利特开平10-97295号公报
非专利文献1:M.R.Schroeder,B.S.Atal,“Code Excited LinearPrediction:High Quality Speech at Low Bit Rate”,IEEE proc.,ICASSP’85pp.937-940
发明内容
但是,考虑对语音信号进行可伸缩编码的情况下,在以往的方法中,增强层中的编码对象成为残差信号。该残差信号因为是语音编码装置的输入信号(或者,是在低一层得到的残差信号)和低一层的解码信号之间的差信号,所以是失去较多语音分量而包含较多噪声分量的信号。因此,在以往的可伸缩编码的增强层中,应用对基于语音的生成模式进行编码的CELP方式的专门进行语音的编码的编码方式时,需要基于语音的生成模式对失去较多语音分量的残差信号进行编码,所以不能高效率地对这种信号进行编码。另外,使用CELP以外的其它编码方式对残差信号进行编码,舍弃了能以少的比特来获得质量好的解码信号的CELP方式的优点,效果不佳。
所以,本发明的目的在于提供一种在对语音信号分层地编码时,虽然在增强层中使用CELP方式的语音编码,但仍实现高效率的编码,并能获得质量好的解码信号的语音编码装置、对由该语音编码装置生成的编码信息进行解码的解码装置及其方法。
本发明的语音编码装置采用的结构具有:第一编码部件,由语音信号通过码激励线性预测(CELP:Code Excited Linear Prediction)方式的语音编码而生成第一编码信息;生成部件,由所述第一编码信息生成作为用于表示语音信号的生成模式的特征的参数的量化线谱对(LSP:Line Spectral Pairs)、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;以及第二编码部件,通过使用所述码激励线性预测方式的语音编码,对输入所述语音编码装置的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成部件所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息,其中,所述第二编码部件在由固定声源码本生成的固定声源向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码。
本发明的语音解码装置,与语音编码装置进行通信,该语音编码装置,通过第一编码部件,由语音信号通过码激励线性预测方式的语音编码而生成 第一编码信息;通过生成部件,由所述第一编码信息生成作为用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;通过第二编码部件,通过使用所述码激励线性预测方式的语音编码,对输入所述语音编码装置的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成部件所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息;并且在由固定声源码本生成的固定声源向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码,该语音解码装置具有:第一解码部件,将所述第一编码信息解码;以及第二解码部件,使用在所述第一解码部件的解码处理中对所述第一编码信息生成的参数,将所述第二编码信息解码。
本发明的语音编码方法具有:第一编码步骤,通过码激励线性预测方式的语音编码,由语音信号生成第一编码信息;生成步骤,由所述第一编码信息生成用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;以及第二编码步骤,通过使用所述码激励线性预测方式的语音编码,对输入的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成步骤所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息,在所述第二编码步骤中,在由固定声源码本生成的固定声源向量上,加上在所述生成步骤的生成处理中生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码。
本发明的语音解码方法,用于与语音编码装置进行通信的语音解码装置,该语音编码装置,通过第一编码部件,由语音信号通过码激励线性预测方式的语音编码而生成第一编码信息;通过生成部件,由所述第一编码信息生成作为用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;通过第二编码部件,通过使用所述码激励线性预测方式的语音编码,对输入所述语音编码装置的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成部件所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息;并且在由固定声源码本生成的固定声源向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码。该语音 解码方法具有:第一解码步骤,将所述第一编码信息解码;以及第二解码步骤,使用在所述第一解码步骤的解码处理中对所述第一编码信息生成的参数,将所述第二编码信息解码。
这里,上述参数意味着在CELP方式的语音编码中所使用的CELP方式特有的参数,即量化LSP(Line Spectral Pairs)、自适应声源延迟(lag)、固定声源向量、量化自适应声源增益、以及量化固定声源增益。
例如,在上述结构中,第2编码部件采用的结构为,通过CELP方式的语音编码,对通过对作为语音编码装置的输入的语音信号的线性预测分析所得到的LSP和通过所述生成部件所生成的量化LSP之间的差进行编码。即,第2编码部件在LSP参数的阶段取差,并对该差进行CELP方式的语音编码,由此实现不输入残差信号的CELP方式的语音编码。
另外,在上述的结构中,第1编码部件、第2编码部件不是仅仅分别意味着基本第1层(基本层)编码单元、第2层编码单元,例如可以分别意味着第2层编码单元、第3层编码单元。而且,也未必是仅意味着相邻层的编码单元,例如,有时第1编码部件意味着第1层编码单元、第2编码部件意味着第3层编码部件。
根据本发明,在对语音信号分层地编码时,虽然在增强层中使用CELP方式的语音编码,但也能实现高效率的编码,并能得到高质量的解码信号。
附图说明
图1是表示实施方式1中的语音编码装置以及语音解码装置的主要结构的方框图。
图2是表示实施方式1中的语音编码装置中的各参数的流的图。
图3是表示实施方式1中的第1编码单元的内部结构的方框图。
图4是表示实施实施方式1中的参数解码单元的内部结构的方框图。
图5是表示实施方式1中的第2编码单元的内部结构的方框图。
图6是用于说明决定第2自适应声源延迟的处理的图。
图7是用于说明决定第2固定声源向量的处理的图。
图8是用于说明决定第1自适应声源延迟的处理的图。
图9是用于说明决定第1固定声源向量的处理的图。
图10是表示实施方式1中的第1解码单元的内部结构的方框图。
图11是表示实施方式1中的第2解码单元的内部结构的方框图。
图12A是表示实施方式2中的语音/乐音发送装置的结构的方框图。
图12B是表示实施方式2中的语音/乐音接收装置的结构的方框图。
图13是表示实施方式3中的语音编码装置以及语音解码装置的主要结构的方框图。
具体实施方式
以下,参照附图来详细说明本发明的实施方式。
(实施方式1)
图1是表示本发明的实施方式1中的语音编码装置100以及语音解码装置150的主要结构的方框图。
在该图中,语音编码装置100根据本实施方式中的编码方法对输入信号S11分层地编码,将得到的分层的编码信息S12以及S14进行复用,并经由传输路径N将复用的编码信息(复用信息)传输到语音解码装置150。另一方面,语音解码装置150将来自语音编码装置100的复用信息分离成编码信息S12以及S14,并根据本实施方式中的解码方法对分离后的编码信息进行解码,并将输出信号S54输出。
首先,详细地说明语音编码装置100。
语音编码装置100主要由第1编码单元115、参数解码单元120、第2编码单元130、复用单元154构成,各单元进行以下的动作。另外,图2是表示语音编码装置100中的各参数的流的图。
第1编码单元115对输入到语音编码装置100的语音信号S11实施CELP方式的语音编码(第1编码),并将表示基于语音信号的生成模式获得的各参数的编码信息(第1编码信息)S12输出到复用单元154。另外,第1编码单元115为了进行分层的编码,还将第1编码信息S12输出到参数解码单元120。并且,以下将通过第1编码处理所获得的各参数称为第1参数组。具体地说,第1参数组由第1量化LSP(Line Spectral Pairs)、第1自适应声源延迟、第1固定声源向量、第1量化自适应声源增益、以及第1量化固定声源增益构成。
参数解码单元120对从第1编码单元115输出的第1编码信息S12实施参数解码,生成用于表示语音信号的生成模式的特征的参数。该参数解码不是将编码信息完全地解码,而是通过进行部分的解码,由此得到上述第1参数组。即,以往的解码处理的目的在于通过对编码信息进行解码来得到编码前的原来的信号,但是参数解码处理的目的在于得到第1参数组。具体地说,参数解码单元120将第1编码信息S12进行复用分离,从而求第1量化LSP码(L1)、第1自适应声源延迟码(A1)、第1量化声源增益码(G1)、以及第1固定声源向量码(F1),并从得到的各码中求第1参数组S13。该第1参数组S13被输出到第2编码单元130。
第2编码单元130通过使用语音编码装置100的输入信号S11和从参数解码单元120输出的第1参数组S13实施后面论述的第2编码处理,从而求第2参数组,并将表示该第2参数组的编码信息(第2编码信息)S14输出到复用单元154。另外,第2参数组分别与第1参数组对应,由第2量化LSP、 第2自适应声源延迟、第2固定声源向量、第2量化自适应声源增益、以及第2量化固定声源增益构成。
复用单元154从第1编码单元115输入第1编码信息S12,并且从第2编码单元130输入第2编码信息S14。复用单元154根据被输入到语音编码装置100的语音信号的模式信息,选择需要的编码信息,并将所选择的编码信息和模式信息进行复用,生成进行复用后的编码信息(复用信息)。这里,模式信息是指用于指示进行复用传输的编码信息的信息。例如,在模式信息为‘0’的情况下,复用单元154将第1编码信息S12和模式信息进行复用,而在模式信息为‘1’的情况下,复用单元154将第1编码信息S12、第2编码信息S14和模式信息进行复用。这样,通过改变模式信息的值,能改变传输到语音解码装置150的编码信息的组合。接着,复用单元154经由传输路径N将复用后的复用信息输出到语音解码装置150。
这样,本实施方式的特征在于参数解码单元120以及第2编码单元130的动作。另外,为说明方便,以下按照第1编码单元115、参数解码单元120、第2编码单元130的顺序详细地说明各单元的动作。
图3是表示第1编码单元115的内部结构的方框图。
前处理单元101对输入到语音编码装置100的语音信号S11进行去除DC分量的高通滤波处理、或牵涉到后续的编码处理的性能改善的波形整形处理或预增强(pre-emphasis)处理,将这些处理后的信号(Xin)输出到LSP分析单元102以及加法器105。
LSP分析单元102使用该Xin进行线性预测分析,将作为分析结果的LPC(线性预测系数)变换成LSP,并将变换结果作为第1LSP输出到LSP量化单元103。
LSP量化单元103使用后面论述的量化处理对从LSP分析单元102输出的第1LSP进行量化,并将量化后的第1LSP(第1量化LSP)输出到合成滤波器104。另外,LSP量化单元103将表示第1量化LSP的第1量化LSP码(L1)输出到复用单元114。
合成滤波器104使用基于第1量化LSP的滤波系数,对从加法器111输出的驱动声源进行滤波合成,并生成合成信号。该合成信号被输出到加法器105。
加法器105将合成信号的极性反相后相加到Xin中,由此计算误差信号, 将该计算出的误差信号输出到听觉加权单元112。
自适应声源码本106将过去从加法器111输出的驱动声源保存在缓冲器中。另外,自适应声源码本106基于从通过参数决定单元113输出的信号所确定的截取位置,由缓冲器截取从该截取位置1帧分量的样本(sample),作为第1自适应声源向量输出到乘法器109。另外,自适应声源码本106在每次从加法器111输入驱动声源时进行上述缓冲器的更新(update)。
量化增益生成单元107基于来自参数决定单元113的指示,决定第1量化自适应声源增益以及第1量化固定声源增益,并将第1量化自适应声源增益输出到乘法器109、将第1量化固定声源增益输出到乘法器110。
固定声源码本108作为第1固定声源向量将具有根据来自参数决定单元113的指示所确定的形状的向量输出到乘法器110。
乘法器109将从量化增益生成单元107输出的第1量化自适应声源增益乘以从自适应声源码本106输出的第1自适应声源向量,输出到加法器111。乘法器110将从量化增益生成单元107输出的第1量化固定声源增益乘以从固定声源码本108输出的第1固定声源向量,输出到加法器111。加法器111将由乘法器109乘以增益后的第1自适应声源向量和由乘法器110乘以增益后的第1固定声源向量相加,并将作为相加结果的驱动声源输出到合成滤波器104以及自适应声源码本106。进而,输入到自适应声源码本106的驱动声源保存在缓冲器。
听觉加权单元112对从加法器105输出的误差信号进行听觉上的加权,并作为编码失真输出到参数决定单元113。
参数决定单元113选择使从听觉加权单元112输出的编码失真最小的第1自适应声源延迟,并将表示选择结果的第1自适应声源延迟码(A1)输出到复用单元114。另外,参数决定单元113选择使从听觉加权单元112输出的编码失真最小的第1固定声源向量,并将表示选择结果的第1固定声源向量码(F1)输出到复用单元114。此外,参数决定单元113选择使从听觉加权单元112输出的编码失真最小的第1量化自适应声源增益以及第1量化固定声源增益,并将表示选择结果的第1量化声源增益码(G1)输出到复用单元114。
复用单元114将从LSP量化单元103输出的第1量化LSP码(L1)、从参数决定单元113输出的第1自适应声源延迟码(A1)、第1固定声源向量码 (F1)以及第1量化声源增益码(G1)复用,作为第1编码信息S12输出。
图4是表示参数解码单元120的内部结构的方框图。
复用分离单元121从由第1编码单元115输出的第1编码信息S12分离各自的码(L1、A1、G1、F1),输出到各单元。具体地说,被分离的第1量化LSP码(L1)被输出到LSP解码单元122,分离出的第1自适应声源延迟码(A1)被输出到自适应声源码本123,分离出的第1量化声源增益码(G1)被输出到量化增益生成单元124,分离出的第1固定声源向量码(F1)被输出到固定声源码本125。
LSP解码单元122对从复用分离单元121输出的第1量化LSP码(L1)进行解码得到第1量化LSP,并将解码后的第1量化LSP输出到第2编码单元130。
自适应声源码本123将由第1自适应声源延迟码(A1)所指定的截取位置作为第1自适应声源延迟,进行解码。并且,自适应声源码本123将得到的第1自适应声源延迟输出到第2编码单元130。
量化增益生成单元124对由从复用分离单元121输出的第1量化声源增益码(G1)所指定的第1量化自适应声源增益以及第1量化固定声源增益进行解码。并且,量化增益生成单元124将得到的第1量化自适应声源增益输出到第2编码单元130,并且将第1量化固定声源增益输出到第2编码单元130。
固定声源码本125生成由从复用分离单元121输出的第1固定声源向量码(F1)所指定的第1固定声源向量,并输出到第2编码单元130。
另外,前述的第1量化LSP、第1自适应声源延迟、第1固定声源向量、第1量化自适应声源增益以及第1量化固定声源增益作为第1参数组S13输出到第2编码单元130。
图5是表示第2编码单元130的内部结构的方框图。
前处理单元131对被输入到语音编码装置100的语音信号S11进行去除DC分量的高通滤波处理、或牵涉到后续的编码处理的性能改善的波形整形处理或预增强处理,并将这些处理后的信号(Xin)输出到LSP分析单元132以及加法器135。
LSP分析单元132通过使用该Xin进行线性预测分析,将作为分析结果的LPC(线性预测系数)变换成LSP(Line Spectral Pairs),并将变换结果作 为第2LSP输出到LSP量化单元133。
LSP量化单元133将从参数解码单元120输出的第1量化LSP的极性反相,并对从LSP分析单元132输出的第2LSP相加极性反相后的第1量化LSP,由此计算残差LSP。接着,LSP量化单元133使用后面论述的量化处理将计算出的残差LSP进行量化,通过将量化后的残差LSP(量化残差LSP)和从参数解码单元120输出的第1量化LSP相加,由此计算第2量化LSP。该第2量化LSP被输出到合成滤波器134,另一方面,表示量化残差LSP的第2量化LSP码(L2)被输出到复用单元144。
合成滤波器134使用基于第2量化LSP的滤波系数,对从加法器141输出的驱动声源进行滤波合成,生成合成信号。该合成信号被输出到加法器135。
加法器135将合成信号的极性反相后相加到Xin中,由此计算误差信号,并将该计算出的误差信号输出到听觉加权单元142。
自适应声源码本136将过去从加法器141输出的驱动声源保存在缓冲器中。另外,自适应声源码本136基于第1自适应声源延迟和从通过参数决定单元143输出的信号所确定的截取位置,由缓冲器截取从该截取位置1帧分量的样本,作为第2自适应声源向量输出到乘法器139。另外,自适应声源码本136每次从加法器141输入驱动声源时进行上述缓冲器的更新。
量化增益生成单元137基于来自参数决定单元143的指示,使用从参数解码单元120输出的第1量化自适应声源增益以及第1量化固定声源增益,求第2量化自适应声源增益以及第2量化固定声源增益。该第2量化自适应声源增益被输出到乘法器139,第2量化固定声源增益被输出到乘法器140。
固定声源码本138将具有由来自参数决定单元143的指示特定的形状的向量和从参数解码单元120输出的第1固定声源向量相加,求第2固定声源向量,并将其输出到乘法器140。
乘法器139对从自适应声源码本136输出的第2自适应声源向量乘以从量化增益生成单元137输出的第2量化自适应声源增益,并输出到加法器141。乘法器140对从固定声源码本138输出的第2固定声源向量乘以从量化增益生成单元137输出的第2量化固定声源增益,并输出到加法器141。加法器141将由乘法器139乘以增益后的第2自适应声源向量和由乘法器140乘以增益后的第2固定声源向量相加,并将作为相加结果的驱动声源输出到合成滤波器134以及自适应声源码本136。进而,被反馈到自适应声源码本136 的驱动声源保存在缓冲器中。
听觉加权单元142对从加法器135输出的误差信号进行听觉上的加权,并作为编码失真输出到参数决定单元143。
参数决定单元143选择使从听觉加权单元142输出的编码失真最小的第2自适应声源延迟,并将表示选择结果的第2自适应声源延迟码(A2)输出到复用单元144。另外,参数决定单元143通过使用从参数解码单元120输出的第1自适应声源延迟来选择使从听觉加权单元142输出的编码失真最小的第2固定声源向量,并将表示选择结果的第2固定声源向量码(F2)输出到复用单元144。此外,参数决定单元143选择使从听觉加权单元142输出的编码失真最小的第2量化自适应声源增益以及第2量化固定声源增益,并将表示选择结果的第2量化声源增益码(G2)输出到复用单元144。
复用单元144将从LSP量化单元133输出的第2量化LSP码(L2)、从参数决定单元143输出的第2自适应声源延迟码(A2)、第2固定声源向量码(F2)以及第2量化声源增益码(G2)进行复用,作为第2编码信息S14输出。
接着,说明图5所示的LSP量化单元133决定第2量化LSP的处理。另外,在这里,以分配给第2量化LSP码(L2)的比特数设为8,对残差LSP进行向量量化的情况为例进行说明。
LSP量化单元133具备保存了预先生成的256种的第2LSP代码向量[lspres (L2’)(i)]的第2LSP码本。这里,L2’是附加到各第2LSP代码向量的索引,取0~255的值。另外,lspres (L2’)(i)是N维向量,i取O~N-1的值。
LSP量化单元133被从LSP分析单元132输入第2LSP[α2(i)]。这里,α2(i)是N维向量,i取0~N-1的值。另外,LSP量化单元133也被从参数解码单元120输入第1量化LSP[lsp1 (L1’min)(i)]。这里,lsp1 (L1’min)(i)是N维向量,i取0~N-1的值。
LSP量化单元133通过以下的(式1)求残差LSP[res(i)]。
[数1]
Res(i)=α2(i)-lsp1 (L1’min)(i)  (i=0,...,N-1)...(式1)
接着,LSP量化单元133根据以下的(式2)来求残差LSP[res(i)]和第2LSP代码向量[lspres (L2’)(i)]之间的平方误差er2
[数2]
er 2 = Σ i = 0 N - 1 ( res ( i ) - lsp res ( L 2 ′ ) ( i ) ) 2 ...(式2)
并且,LSP量化单元133对所有的L2’求平方误差er2,并决定平方误差er2为最小的L2’的值(L2’min)。该被决定的L2’min作为第2量化LSP码(L2)被输出到复用单元144。
接着,LSP量化单元133根据以下的(式3)求第2量化LSP[lsp2(i)]。
[数3]
lsp2(i)=lsp1 (L1’min)(i)+lspres (L2’min)(i)  (i=0,...N-1)...(式3)
LSP量化单元133将该第2量化LSP[lsp2(i)]输出到合成滤波器134。
这样,通过LSP量化单元133所求的lsp2(i)是第2量化LSP,使平方误差er2最小的lspres (L2’min)是量化残差LSP。
图6是用于说明图5所示的参数决定单元143决定第2自适应声源延迟的处理的图。
在该图中,缓冲器B2是自适应声源码本136具有的缓冲器,位置P2是第2自适应声源向量的截取位置,向量V2是被截取的第2自适应声源向量。另外,t是第1自适应声源延迟,数值41、296表示参数决定单元143进行第1自适应声源延迟的搜索的范围的下限及上限。另外,t-16、t+15表示使第2自适应声源向量的截取位置移动的范围的下限以及上限。
假设分配到表示第2自适应声源延迟的码(A2)的比特数为5的情况下,使截取位置P2移动的范围设定在32(=25)的长度的范围(例如t-16~t+15)。但是,使截取位置P2移动的范围能任意地设定。
参数决定单元143以从参数解码单元120输入的第1自适应声源延迟t为基准,将使截取位置P2移动的范围设定在t-16~t+15。接着,参数决定单元143使截取位置P2在上述的范围内移动,依次地将该截取位置P2指示给自适应声源码本136。
自适应声源码本136从由参数决定单元143所指示的截取位置P2将第2自适应声源向量V2截取相应帧的长度,并将截取的第2自适应声源向量V2输出到乘法器139。
参数决定单元143对从所有的截取位置P2所截取的所有的第2自适应声 源向量V2,求从听觉加权单元142输出的编码失真,并决定该编码失真最小的截取位置P2。由该参数决定单元143所求的缓冲器的截取位置P2是第2自适应声源延迟。参数决定单元143对第1自适应声源延迟和第2自适应声源延迟之间的差分(在图6的例子中为-16~+15)进行编码,并将通过进行编码得到的编码作为第2自适应声源延迟码(A2)输出到复用单元144。
这样,通过在第2编码单元130中对第1自适应声源延迟和第2自适应声源延迟之间的差分进行编码,在第2解码单元180中,通过将从第1自适应声源延迟码所得到的第1自适应声源延迟(t)和从第2自适应声源延迟码所得到的差分(-16~+25)相加,从而能够对第2自适应声源延迟(t-16~t+15)进行解码。
这样,参数决定单元143从参数解码单元120接受第1自适应声源延迟t,在第2自适应声源延迟的搜索时,重点地搜索该t周边的范围,所以能迅速地发现最合适的第2自适应声源延迟。
图7是用于说明上述的参数决定单元143决定第2固定声源向量的处理的图。该图是表示从代数式固定声源码本138生成第2固定声源向量的过程。
在轨迹(track)1、轨迹2、以及轨迹3中,分别生成1条振幅值1的单位脉冲(701、702、703)(图中的实线)。各轨迹能生成的单位脉冲的位置不同,在该图的例子中,其构成为,轨迹1能在{0,3,6,9,12,15,18,21}的8处当中的任意一个建立一条单位脉冲,轨迹2能在{1,4,7,10,13,16,19,22}的8处当中的任意一个建立一条单位脉冲,轨迹3能在{2,5,8,11,14,17,20,23}的8处当中的任意一个建立一条单位脉冲。
乘法器704对由轨迹1所生成的单位脉冲附加极性。乘法器705对在轨迹2所生成的单位脉冲附加极性。乘法器706对在轨迹3生成的单位脉冲附加极性。加法器707将所生成的3条单位脉冲相加。乘法器708对相加后的3条单位脉冲乘以预先决定的常数β。常数β是用于变更脉冲的大小的常数,试验上判定将常数β设定为0~1左右的值时能够得到良好的性能。另外,也可以将常数β设定为得到与语音编码装置对应的适当的性能的值。加法器711将由3条脉冲构成的残差固定声源向量709和第1固定声源向量710相加,得到第2固定声源向量712。这里,残差固定声源向量709在乘以了0~1范围的常数β后,被相加到第1固定声源向量710,所以,结果对第1固定声源向量710进行了乘以比重的加权加法运算。
在该例中,对各脉冲,位置有8种,极性有正负2种,所以位置信息3比特和极性信息1比特用于表现各单位脉冲。因此,变成合计为12比特的固定声源码本。
参数决定单元143为了使3条单位脉冲的生成位置和极性移动,依次地将生成位置和极性指示给固定声源码本138。
固定声源码本138使用由参数决定单元143指示的生成位置和极性构成残差固定声源向量709,并将所构成的残差固定声源向量709和从参数解码单元120输出的第1固定声源向量710相加,将作为相加结果的第2固定声源向量712输出到乘法器140。
参数决定单元143关于对所有的生成位置和极性的组合的第2固定声源向量求从听觉加权单元142输出的编码失真,并决定编码失真最小的生成位置和极性的组合。接着,参数决定单元143将表示所决定的生成位置和极性的组合的第2固定声源向量码(F2)输出到复用单元144。
接着,说明上述参数决定单元143对量化增益生成单元137进行指示,决定第2量化自适应声源增益以及第2量化固定声源增益的处理。另外,这里,以假设分配到第2量化声源增益码(G2)的比特数为8的情况为例进行说明。
量化增益生成单元137具有保存预先作成的256种残差声源增益代码向量[gain2 (K2’)(i)]的残差声源增益码本。这里,K2’是附加到残差声源增益代码向量中的索引,取0~255的值。另外,gain2 (K2’)(i)是二维向量,i取0~1的值。
参数决定单元143从0到255为止依次地将K2’的值指示给量化增益生成单元137。量化增益生成单元137使用由参数决定单元143指示的K2’,从残差声源增益码本中选择残差声源增益代码向量gain2 (K2’)(i),并通过以下的(式4)求第2量化自适应声源增益[gianq(0)],将求出的gianq(0)输出到乘法器139。
[数4]
gianq(0)=gian1 (K1’min)(0)+gian2 (K2’)(0)...(式4)
另外,量化增益生成单元137根据以下的(式5)求第2量化固定声源增益[gianq(1)],并将求出的gianq(1)输出到乘法器140。
[数5]
gianq(1)=gian1 (K1’min)(1)+gian2 (K2’)(1)...(式5)
其中,gian1 (K1’min)(0)是第1量化自适应声源增益,而gian1 (K1’min)(1)是第1量化固定声源增益,分别从参数解码单元120输出。
这样,通过量化增益生成单元137求出的gianq(0)是第2量化自适应声源增益,gianq(1)是第2量化固定声源增益。
参数决定单元143对所有的K2’求从听觉加权单元142输出的编码失真,决定编码失真为最小的K2’的值(K2’min)。接着,参数决定单元143将所决定的K2’min作为第2量化声源增益码(G2)输出到复用单元144。
这样,根据本实施方式中的语音编码装置,通过将第2编码单元130的编码对象作为语音编码装置的输入信号,能够有效地应用适合语音信号的编码的CELP方式的语音编码,能得到质量良好的解码信号。另外,第2编码单元130使用第1参数组进行输入信号的编码,并生成第2参数组,由此,解码装置侧能使用两个参数组(第1参数组、第2参数组)生成第2解码信号。
另外,在以上的结构中,参数解码单元120对从第1编码单元115输出的第1编码信息S12进行局部的解码,将所得到的各参数输出到相当于第1编码单元115的高层的第2编码单元130,第2编码单元130使用该各参数和语音编码装置100的输入信号,进行第2编码。通过采用这种结构,本实施方式中的语音编码装置在对语音信号分层地进行编码时,虽然在增强层使用CELP方式的语音编码,但也能实现高效率的编码,并能得到质量良好的解码信号。进而,因为不需要对第1编码信息完全地进行解码,所以能够减轻编码的处理运算量。
另外,在以上的结构中,第2编码单元130将对作为声音编码装置100的输入的语音信号进行线性预测分析所得到的LSP、和由参数解码单元120所生成的量化LSP之间的差,通过CELP方式的语音编码进行编码。即,第2编码单元130通过在LSP参数的阶段取差,并对该差进行CELP方式的语音编码,由此能够实现不输入残差信号的CELP方式的语音编码。
另外,在以上的结构中,从语音编码装置100(的第2编码单元130)输出的第2编码信息S14是不由以往的语音编码装置生成的全新的信号。
接着,对图3所示的第1编码单元115的动作进行补充说明。
以下,说明第1编码单元115内的LSP量化单元103决定第1量化LSP的处理。
这里,以分配到第1量化LSP(L1)的比特数为8,并对第1LSP进行向量量化的情况为例进行说明。
LSP量化单元103具有保存预先作成的256种第1LSP代码向量[lsp1 (L1’) (i)]的第1LSP码本。这里,L1’是附加到第1LSP代码向量的索引,取0~255的值。另外,lsp1 (L1’)(i)是N维向量,i取0~N-1的值。
LSP量化单元103被从LSP分析单元102输入第1LSP[α1(i)]。这里,α1(i)是N维向量,i取0~N-1的值。
LSP量化单元103通过以下的(式6)求第1LSP[α1(i)]和第1LSP代码向量[lsp1 (L1’)(i)]的平方误差er1
[数6]
er 1 = Σ i = 0 N - 1 ( α 1 ( i ) - lsp 1 ( L 1 ′ ) ( i ) ) 2 ...(式6)
接着,LSP量化单元103对所有的L1’求平方误差er1,并决定平方误差er1为最小的L1’的值(L1’min)。然后,LSP量化单元103将该被决定的L1’min作为第1量化LSP码(L1)输出到复用单元114,并将lsp1 (L1’min) (i)作为第1量化LSP输出到合成滤波器104。
这样,通过LSP量化单元103所求的lsp1 (L1’min)(i)是第1量化LSP。
图8是用于说明第1编码单元115内的参数决定单元113决定第1自适应声源延迟处理的图。
在该图中,缓冲器B1是自适应声源码本106具有的缓冲器,位置P1是第1自适应声源向量的截取位置,向量V1是被截取的第1自适应声源向量。另外,数值41、296是表示使截取位置P1移动的范围的下限及上限。
假设分配到表示第1自适应声源延迟的码(A1)的比特数为8的情况下,使截取位置P1移动的范围设定在256(=28)的长度的范围(例如41~296)内。但是,使截取位置P1移动的范围能任意地设定。
参数决定单元113使截取位置P1在设定范围内移动,依次地将该截取位置P1指示给自适应声源码本106。
自适应声源码本106从由参数决定单元113所指示的截取位置P1将第1 自适应声源向量V1截取相应帧的长度,并将截取的第1自适应声源向量输出到乘法器109。
参数决定单元113对从所有的截取位置P1所截取的所有的第1自适应声源向量V1,求从听觉加权单元112输出的编码失真,并决定该编码失真最小的截取位置P1。由该参数决定单元113所求的缓冲器的截取位置P1是第1自适应声源延迟。参数决定单元113将表示该第1自适应声源延迟的第1自适应声源延迟码(A1)输出到复用单元114。
图9是用于说明第1编码单元115内的参数决定单元113决定第1固定声源向量的处理的图。该图是表示从代数式上固定声源码本生成第1固定声源向量的过程。
轨迹1、轨迹2、以及轨迹3分别生成1条单位脉冲(振幅值为1)。乘法器404、乘法器405以及乘法器406对分别由轨迹1~3生成的单位脉冲附加极性。加法器407是将所生成的3条单位脉冲相加的加法器,向量408是由3条单位脉冲构成的第1固定声源向量。
各轨迹能生成单位脉冲的位置不同,在该图中,其构成为,轨迹1能在{0,3,6,9,12,15,18,21}的8处当中的任意一个建立一条单位脉冲,轨迹2能在{1,4,7,10,13,16,19,22}的8处当中的任意一个建立一条单位脉冲,轨迹3能在{2,5,8,11,14,17,20,23}的8处当中的任意一个建立一条单位脉冲。
由各轨迹生成的单位脉冲分别通过乘法器404~406附加极性,并在加法器407将3条单位脉冲相加,构成作为相加结果的第1固定声源向量408。
在该例中,对于各单位脉冲,位置有8种,极性有正负2种,所以3比特位置信息和1比特极性信息用于表现各单位脉冲。因而,成为合计为12比特的固定声源码本。
参数决定单元113为了使3条单位脉冲的生成位置和极性移动,依次地将生成位置和极性指示给固定声源码本108。
固定声源码本108使用由参数决定单元113指示的生成位置和极性构成第1固定声源向量408,并将所构成的第1固定声源向量408输出到乘法器110。
参数决定单元113对所有的生成位置和极性的组合,求从听觉加权单元112输出的编码失真,并决定编码失真最小的生成位置和极性的组合。接着,参数决定单元113将表示编码失真为最小的生成位置和极性的组合的第1固 定声源向量码(F1)输出到复用单元114。
接着,说明第1编码单元115内的参数决定单元113对量化增益生成单元107进行指示,并决定第1量化自适应声源增益以及第1量化固定声源增益的处理。另外,这里,以假设分配到第1量化声源增益码(G1)的比特数为8的情况为例进行说明。
量化增益生成单元107具有保存预先作成的256种第1声源增益代码向量[gain1 (K1’)(i)]的第1声源增益码本。这里,K1’是附加到第1声源增益代码向量的索引,取0~255的值。另外,gain1 (K1’)(i)是二维向量,i取0~1的值。
参数决定单元113从0到255为止依次地将K1’的值指示给量化增益生成单元107。量化增益生成单元107使用由参数决定单元113指示的K1’,从第1声源增益码本中选择第1声源增益代码向量[gain1 (K1’)(i)],并将gain1 (K1’)(0)作为第1量化自适应声源增益输出到乘法器109,还将gain1 (K1’)(1)作为第1量化固定声源增益输出到乘法器110。
这样,通过量化增益生成单元107所求的gian1 (K1’)(0)是第1量化自适应声源增益,gian1 (K1’)(1)是第1量化固定声源增益。
参数决定单元113对所有的K1’求从听觉加权单元112输出的编码失真,决定编码失真为最小的K1’的值(K1’min)。接着,参数决定单元113将K1’min作为第1量化声源增益码(G1)输出到复用单元114。
以上,详细地说明了本实施方式中的语音编码装置100。
接着,详细地说明对从具有上述的结构的语音编码装置100发送的编码信息S12以及S14进行解码的本实施方式的语音解码装置150。
语音解码装置150的主要结构如图1已经表示那样,主要由第1解码单元160、第2解码单元180、信号控制单元195、以及复用分离单元155构成。语音编码装置150的各单元进行以下的动作。
复用分离单元155将从语音编码装置100进行复用并输出的模式信息和编码信息进行复用分离,在模式信息为‘0’、‘1’的情况下,将第1编码信息S12输出到第1解码单元160,模式信息为‘1’的情况下,将第2编码信息S14输出到第2解码单元180。另外,复用分离单元155将模式信息输出到信号控制单元195。
第1解码单元160使用CELP方式的语音解码方法对从复用分离单元155 输出的第1编码信息S12进行解码(第1解码),并将通过解码求出的第1解码信号S52输出到信号控制单元195。另外,第1解码单元160将在解码时所求的第1参数组S51输出到第2解码单元180。
第2解码单元180使用从第1解码单元160输出的第1参数组S51,对从复用分离单元155输出的第2编码信息S14,通过实施后面论述的第2解码处理而进行解码,并生成第2解码信号S53输出到信号控制单元195。
信号控制单元195输入从第1解码单元160输出的第1解码信号S52和从第2解码单元180输出的第2解码信号S53,并根据从复用分离单元155输出的模式信息,输出解码信号。具体地说,模式信息为‘0’的情况下,将第1解码信号S52作为输出信号输出,模式信息为‘1’的情况下,将第2解码信号S53作为输出信号输出。
图10是表示第1解码单元160的内部结构的方框图。
复用分离单元161从输入到第1解码单元160的第1编码信息S12来分离各个码(L1,A1,G1,F1),并输出到各单元。具体地说,被分离的第1量化LSP码(L1)被输出到LSP解码单元162,分离出的第1自适应声源延迟码(A1)被输出到自适应声源码本165,分离出的第1量化声源增益码(G1)被输出到量化增益生成单元166,分离出的第1固定声源向量码(F1)被输出到固定声源码本167。
LSP解码单元162对从复用分离单元161输出的第1量化LSP码(L1)进行解码得到第1量化LSP,将解码后的第1量化LSP输出到合成滤波器163以及第2解码单元180。
自适应声源码本165从由复用分离单元161输出的第1自适应声源延迟码(A1)所指定的截取位置,从缓冲器截取1帧分量的样本,将截取的向量作为第1自适应声源向量输出到乘法器168。另外,自适应声源码本165将由第1自适应声源延迟码(A1)所指定的截取位置作为第1自适应声源延迟输出到第2解码单元180。
量化增益生成单元166对由从复用分离单元161输出的第1量化声源增益码(G1)所指定的第1量化自适应声源增益以及第1量化固定声源增益进行解码。然后,量化增益生成单元166将所得到的第1量化自适应声源增益输出到乘法器168以及第2解码单元180,并且,将第1量化固定声源增益输出到乘法器169以及第2解码单元180。
固定声源码本167生成由从复用分离单元161输出的第1固定声源向量码(F1)所指定的第1固定声源向量,并输出到乘法器169以及第2解码单元180。
乘法器168对第1自适应声源向量乘以第1量化自适应声源增益,将其输出到加法器170。乘法器169对第1固定声源向量乘以第1量化固定声源增益,输出到加法器170。加法器170将从乘法器168、169输出的乘以增益后的第1自适应声源向量和第1固定声源向量相加,生成驱动声源,并将生成的驱动声源输出到合成滤波器163以及自适应声源码本165。
合成滤波器163使用从加法器170输出的驱动声源、和通过LSP解码单元162进行解码的滤波系数进行滤波合成,并将合成信号输出到后处理单元164。
后处理单元164对从合成滤波器163输出的合成信号,实施共振峰(formant)增强或音调(pitch)增强这样的改善语音的主观质量的处理、或改善稳定杂音的主观质量的处理,并作为第1解码信号S52输出。
另外,再现的各参数作为第1参数组S51输出到第2解码单元180。
图11是表示第2解码单元180的内部结构的方框图。
复用分离单元181从输入到第2解码单元180的第2编码信息S14分离各个码(L2、A2、G2、F2),并输出到各单元。具体地说,被分离的第2量化LSP码(L2)被输出到LSP解码单元182,分离出的第2自适应声源延迟码(A2)被输出到自适应声源码本185,分离出的第2量化声源增益码(G2)被输出到量化增益生成单元186,分离出的第2固定声源向量码(F2)被输出到固定声源码本187。
LSP解码单元182对从复用分离单元181输出的第2量化LSP码(L2)进行解码得到量化残差LSP,并将该量化残差LSP与从第1解码单元160输出的第1量化LSP相加,将作为相加结果的第2量化LSP输出到合成滤波器183。
自适应声源码本185从由从第1解码单元160输出的第1自适应声源延迟、和从复用分离单元180输出的第2自适应声源延迟码(A2)所指定的截取位置,从缓冲器截取1帧分量的样本,并将截取的向量作为第2自适应声源向量输出到乘法器188。
量化增益生成单元186使用从第1解码单元160输出的第1量化自适应 声源增益以及第1量化固定声源增益和从复用分离单元181输出的第2量化声源增益码(G2),求第2量化自适应声源增益以及第2量化固定声源增益,并将第2量化自适应声源增益输出到乘法器188,将第2量化固定声源增益输出到乘法器189。
固定声源码本187生成由从复用分离单元181输出的第2固定声源向量码(F2)所指定的残差固定声源向量,并将生成的残差固定声源向量和从第1解码单元160输出的第1固定声源向量相加,将作为相加结果的第2固定声源向量输出到乘法器189。
乘法器188对第2自适应声源向量乘以第2量化自适应声源增益,将其输出到加法器190。乘法器189对第2固定声源向量乘以第2量化固定声源增益,将其输出到加法器190。加法器190将由乘法器188乘以增益后的第2自适应声源向量和由乘法器189乘以增益后的第2固定声源向量相加,由此,生成驱动声源,将生成的驱动声源输出到合成滤波器183以及自适应声源码本185。
合成滤波器183使用从加法器190输出的驱动声源和通过LSP解码单元182解码的滤波系数,进行滤波合成,将合成信号输出到后处理单元184。
后处理单元184对从合成滤波器183输出的合成信号实施共振峰增强或音调增强这样的改善语音的主观质量的处理、或改善稳定杂音的主观质量的处理等,并作为第2解码信号S53输出。
以上详细地说明了语音解码装置150。
这样,根据本实施方式中的语音解码装置,可以由将第1编码信息解码所得到的第1参数组生成第1解码信号,由将第2编码信息解码得到的第1参数组和所述第1参数组生成第2解码信息,并将其作为输出信号获得。另外,仅使用第1编码信息的情况下,可由将第1编码信息解码所得到的第1参数组生成第1解码信号,由此将其作为输出信号获得。即,通过采用使用所有的编码信息或者一部分编码信息,得到输出信号的结构,由此能够实现即使根据编码信息的一部分也能对语音/乐音进行解码的功能(分层的编码)。
另外,在以上的结构中,第1解码单元160进行第1编码信息S12的解码的同时,将在进行该解码时所求的第1参数组S51输出到第2解码单元180,第2解码单元180使用该第1参数组S51,进行第2编码信息S14的解码。通过采用该结构,本实施方式中的语音解码装置,能对通过本实施方式中的 语音编码装置而被分层编码后的信号进行解码。
另外,在本实施方式中,以在参数解码单元120根据从第1编码单元115输出的第1编码信息S12分离各个码(L1、A1、G1、F1)的情况为例进行了说明,但是也可以通过将所述各个码从第1编码单元115直接输入到参数解码单元120,由此省略复用以及复用分离的步骤。
另外,在本实施方式中,以在语音编码装置100中,固定声源码本108生成的第1固定声源向量、以及固定声源码本138生成的第2固定声源向量通过脉冲形成的情况为例进行了说明,但是,也可以通过扩频脉冲形成向量。
此外,在本实施方式中,以由2层构成的分层编码的情况为例进行了说明,但是,分层的数量不限于此,也可以为3以上。
(实施方式2)
图12A是表示搭载了由实施方式1说明的语音编码装置100的、本发明的实施方式2中的语音/乐音发送装置的结构的方框图。
语音/乐音信号1001通过输入装置1002被变换成电信号,并被输出到A/D变换装置1003。A/D变换装置1003将从输入装置1002输出的(模拟)信号变换成数字信号,并输出到语音/乐音编码装置1004。语音/乐音编码装置1004搭载了图1所示的语音编码装置100,并将从A/D变换装置1003输出的数字语音/乐音信号进行编码,将编码信息输出到RF调制装置1005。RF调制装置1005将从语音/乐音编码装置1004输出的编码信息变换成用于载入电波等传播介质进行发送的信号,并输出到发送天线1006。发送天线1006将从RF调制装置1005输出的输出信号作为电波(RF信号)发送。另外,图中的RF信号1007表示从发送天线1006发送的电波(RF信号)。
以上是语音/乐音信号发送装置的结构以及动作。
图12B是表示搭载了实施方式1说明的语音解码装置150的、本发明的实施方式2中的语音/乐音接收装置的结构的图。
RF信号1008通过接收天线1009接收,并输出到RF解调装置1010。另外,图中的RF信号1008表示由接收天线1009接收的电波,如果在传播路径上没有信号的衰减或噪声的重叠,则与RF信号1007完全相同。
RF解调装置1010根据从接收天线1009输出的RF信号对编码信息进行解调,并输出到语音/乐音解码装置1011。语音/乐音解码装置1011搭载图1所示的语音解码装置150,根据从RF解调装置1010输出的编码信息对语音/ 乐音信号进行解码,并输出到D/A变换装置1012。D/A变换装置1012将从语音/乐音解码装置1011输出的数字语音/乐音信号变换成模拟的电信号,并输出到输出装置1013。输出装置1013将电信号变换成空气的振动输出,以便作为声波使人耳能听到。另外,图中参考标号1014表示输出的声波。
以上是语音/乐音信号接收装置的结构以及动作。
通过在无线通信系统中的基站装置以及通信终端装置上,配置上述的语音/乐音信号发送装置以及语音/乐音信号接收装置,能得到高质量的输出信号。
这样,根据本实施方式,能将本发明中的语音编码装置以及语音解码装置实际安装在语音/乐音信号发送装置以及语音/乐音信号接收装置。
(实施方式3)
在实施方式1中,以本发明中的语音编码方法、即在第2层进行主要由参数解码单元120以及第2编码单元130进行的处理的情况为例进行了说明。但是,本发明的语音编码方法,不仅在第2层,在其他的增强层中也能实施。例如,由3个分层构成的分层编码的情况下,也可以在第2层以及第3层两者中实施本发明的语音编码方法。以下详细地说明该实施方式。
图13是表示本发明的实施方式3中的语音编码装置300以及语音解码装置350的主要结构的方框图。另外,该语音编码装置300以及语音解码装置350具有与实施方式1所示的语音编码装置100以及语音解码装置150同样的基本结构,对相同的结构要素赋予相同的标号,并省略其说明。
首先,说明语音编码装置300。该语音编码装置300除了实施方式1所示的语音编码装置100的结构,还具有第2参数编码单元310以及第3编码单元320。
第1参数编码单元120将通过参数解码所获得的第1参数组S13输出到第2编码单元130以及第3编码单元320。
第2编码单元130通过第2编码处理求第2参数组,并将表示该第2参数组的第2编码信息S14输出到复用单元154以及参数解码单元310。
第2参数解码单元310对于从第2编码单元130输出的第2编码信息S14,实施与第1参数解码单元120同样的参数解码。具体地说,第2参数解码单元310将第2编码信息S14进行复用分离,从而求第2量化LSP码(L2)、第2自适应声源延迟码(A2)、第2量化声源增益码(G2)、以及第2固定声源 向量码(F2),并从所得到的各码中求第2参数组S21。该第2参数组S21输出到第3编码单元320。
第3编码单元320通过使用语音编码装置300的输入信号S11、从第1参数解码单元120输出的第1参数组S13、以及从第2参数解码单元310输出的第2参数组S21实施第3编码处理,从而求第3参数组,并将表示该第3参数组的编码信息(第3编码信息)S22输出到复用单元154。另外,第3参数组分别与第1以及第2参数组对应,由第3量化LSP、第3自适应声源延迟、第3固定声源向量、第3量化自适应声源增益、以及第3量化固定声源增益构成。
复用单元154从第1编码单元115输入第1编码信息,被从第2编码单元130输入第2编码信息,并从第3编码单元320输入第3编码信息。复用单元154根据被输入到语音编码装置300的模式信息,将各编码信息和模式信息进行复用,生成复用的编码信息(复用信息)。例如,在模式信息为‘0’的情况下,复用单元154将第1编码信息和模式信息进行复用,在模式信息为‘1’的情况下,复用单元154将第1编码信息、第2编码信息和模式信息进行复用,并且,模式信息为‘2’的情况下,复用单元154将第1编码信息、第2编码信息、第3编码信息和模式信息进行复用。接着,复用单元154经由传输路径N将复用后的复用信息输出到语音解码装置350。
接着,说明语音解码装置350。该语音解码装置350除了实施方式1所示的语音解码装置150的结构以外,还具有第3解码单元360。
复用分离单元155将从语音编码装置300进行复用并输出的模式信息和编码信息进行复用分离,在模式信息为‘0’、‘1’、‘2’的情况下,将第1编码信息S12输出到第1解码单元160,模式信息为‘1’、‘2’的情况下,将第2编码信息S14输出到第2解码单元180,而在模式信息为‘2’的情况下,将第3编码信息S22输出到第3解码单元360。
第1解码单元160将在第1解码时所求的第1参数组S51输出到第2解码单元180以及第3解码单元360。
第2解码单元180将在第2解码时所求的第2参数组S71输出到第3解码单元360。
第3解码单元360使用从第1解码单元160输出的第1参数组S51和从第2解码单元180输出的第2参数组S71,对于从复用分离单元155输出的 第3编码信息S22实施第3解码处理。第3解码单元360将通过该第3解码处理生成的第3解码信息S72输出到信号控制单元195。
信号控制单元195根据从复用分离单元155输出的模式信息,将第1解码信号S52、第2解码信号S53或者第3解码信号S72作为解码信号输出。具体地说,模式信息为‘0’的情况下,输出第1解码信号S52,模式信息为‘1’的情况下,输出第2解码信号S53,模式信息为‘2’的情况下,输出第3解码信号S72。
这样,根据本实施方式,在由3个分层构成的分层编码中,能在第2层以及第3层两者中实施本发明的语音编码方法。
另外,在本实施方式中,表示了在由3个分层构成的分层编码中,能在第2层以及第3层两者中实施本发明的语音编码方法的方式,但是,也可以仅在第3层中实施本发明中的语音编码方法。
本发明中的语音编码装置以及语音解码装置不限于上述的实施方式1~3,能够实施各种变更。
本发明中的语音编码装置以及语音解码装置也能搭载于移动体通信系统等中的通信终端装置或基站装置,由此,能够提供与上述同样的作用效果的通信终端装置或基站装置。
另外,在这里举例说明了由硬件构成本发明的情况,但是,本发明也能由软件来实现。
本说明书基于2004年6月25日申请的日本专利特愿2004-188755。其内容全部包含于此。
产业上的可利用性
本发明中的语音编码装置、语音解码装置及其方法能应用于因网络的状态引起分组损失的通信系统等、或者根据线路容量等的通信状况而改变比特率的可变速率通信系统中。

Claims (9)

1.一种语音编码装置,具有:
第一编码部件,由语音信号通过码激励线性预测方式的语音编码而生成第一编码信息;
生成部件,由所述第一编码信息生成作为用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;以及
第二编码部件,通过使用所述码激励线性预测方式的语音编码,对输入所述语音编码装置的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成部件所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息,其中,
所述第二编码部件在由固定声源码本生成的固定声源向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码。
2.如权利要求1所述的语音编码装置,其中,所述第二编码部件基于所述生成部件所生成的自适应声源延迟而设定自适应声源码本的搜索范围。
3.如权利要求2所述的语音编码装置,其中,所述第二编码部件对通过所述自适应声源码本的搜索而得到的自适应声源延迟和通过所述生成部件所生成的自适应声源延迟之间的差进行编码。
4.如权利要求1所述的语音编码装置,其中,所述第二编码部件在将由所述固定声源码本生成的固定声源向量乘以0至1之间的常数而得到的向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码。
5.如权利要求1所述的语音编码装置,其中,还具有复用部件,该复用部件根据所述语音信号的模式信息,将所述第一以及第二编码信息中的一个或者两者与所述模式信息进行复用并输出。
6.一种语音解码装置,与语音编码装置进行通信,该语音编码装置,通过第一编码部件,由语音信号通过码激励线性预测方式的语音编码而生成第一编码信息;通过生成部件,由所述第一编码信息生成作为用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;通过第二编码部件,通过使用所述码激励线性预测方式的语音编码,对输入所述语音编码装置的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成部件所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息;并且在由固定声源码本生成的固定声源向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码,
该语音解码装置具有:
第一解码部件,将所述第一编码信息解码;以及
第二解码部件,使用在所述第一解码部件的解码处理中对所述第一编码信息生成的参数,将所述第二编码信息解码。
7.如权利要求6所述的语音解码装置,与语音编码装置进行通信,该语音编码装置还根据所述语音信号的模式信息,将所述第一以及第二编码信息中的一个或者两者与所述模式信息进行复用,该语音解码装置还具有:
输出部件,根据所述模式信息,输出由所述第一或第二解码部件中任何一个进行了解码的信号。
8.一种语音编码方法,具有:
第一编码步骤,通过码激励线性预测方式的语音编码,由语音信号生成第一编码信息;
生成步骤,由所述第一编码信息生成用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;以及
第二编码步骤,通过使用所述码激励线性预测方式的语音编码,对输入的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成步骤所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息,
在所述第二编码步骤中,在由固定声源码本生成的固定声源向量上,加上在所述生成步骤的生成处理中生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码。
9.一种语音解码方法,用于与语音编码装置进行通信的语音解码装置,该语音编码装置,通过第一编码部件,由语音信号通过码激励线性预测方式的语音编码而生成第一编码信息;通过生成部件,由所述第一编码信息生成作为用于表示语音信号的生成模式的特征的参数的量化线谱对、自适应声源延迟、固定声源向量、量化自适应声源增益、以及量化固定声源增益;通过第二编码部件,通过使用所述码激励线性预测方式的语音编码,对输入所述语音编码装置的语音信号进行线性预测分析所得到的量化线谱对和通过所述生成部件所生成的所述量化线谱对之间的差进行编码,从而生成第二编码信息;并且在由固定声源码本生成的固定声源向量上,加上所述生成部件所生成的固定声源向量,并对通过相加所得到的固定声源向量进行编码,
该语音解码方法具有:
第一解码步骤,将所述第一编码信息解码;以及
第二解码步骤,使用在所述第一解码步骤的解码处理中对所述第一编码信息生成的参数,将所述第二编码信息解码。
CN2005800212432A 2004-06-25 2005-06-16 语音编码装置、语音解码装置及其方法 Expired - Fee Related CN1977311B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004188755A JP4789430B2 (ja) 2004-06-25 2004-06-25 音声符号化装置、音声復号化装置、およびこれらの方法
JP188755/2004 2004-06-25
PCT/JP2005/011061 WO2006001218A1 (ja) 2004-06-25 2005-06-16 音声符号化装置、音声復号化装置、およびこれらの方法

Publications (2)

Publication Number Publication Date
CN1977311A CN1977311A (zh) 2007-06-06
CN1977311B true CN1977311B (zh) 2011-07-13

Family

ID=35778425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800212432A Expired - Fee Related CN1977311B (zh) 2004-06-25 2005-06-16 语音编码装置、语音解码装置及其方法

Country Status (7)

Country Link
US (1) US7840402B2 (zh)
EP (1) EP1768105B1 (zh)
JP (1) JP4789430B2 (zh)
KR (1) KR20070029754A (zh)
CN (1) CN1977311B (zh)
CA (1) CA2572052A1 (zh)
WO (1) WO2006001218A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100851972B1 (ko) 2005-10-12 2008-08-12 삼성전자주식회사 오디오 데이터 및 확장 데이터 부호화/복호화 방법 및 장치
JP5339919B2 (ja) * 2006-12-15 2013-11-13 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP4984178B2 (ja) * 2006-12-25 2012-07-25 国立大学法人九州工業大学 高域信号補間装置及び高域信号補間方法
DE102008014099B4 (de) 2007-03-27 2012-08-23 Mando Corp. Ventil für ein Antiblockierbremssystem
KR101350599B1 (ko) * 2007-04-24 2014-01-13 삼성전자주식회사 음성패킷 송수신 방법 및 장치
US8369799B2 (en) 2007-10-25 2013-02-05 Echostar Technologies L.L.C. Apparatus, systems and methods to communicate received commands from a receiving device to a mobile device
US8867571B2 (en) 2008-03-31 2014-10-21 Echostar Technologies L.L.C. Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network
KR101184109B1 (ko) * 2008-03-31 2012-09-18 에코스타 테크놀로지스 엘엘씨 무선 전화기 네트워크의 음성 채널을 통한 데이터 전송을 위한 시스템, 방법 및 장치
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
WO2010127268A1 (en) 2009-05-01 2010-11-04 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
US20120047535A1 (en) * 2009-12-31 2012-02-23 Broadcom Corporation Streaming transcoder with adaptive upstream & downstream transcode coordination
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
US9270417B2 (en) * 2013-11-21 2016-02-23 Qualcomm Incorporated Devices and methods for facilitating data inversion to limit both instantaneous current and signal transitions
CN113724716B (zh) * 2021-09-30 2024-02-23 北京达佳互联信息技术有限公司 语音处理方法和语音处理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751900A (en) * 1994-12-27 1998-05-12 Nec Corporation Speech pitch lag coding apparatus and method
EP0890943A2 (en) * 1997-07-11 1999-01-13 Nec Corporation Voice coding and decoding system
US6192334B1 (en) * 1997-04-04 2001-02-20 Nec Corporation Audio encoding apparatus and audio decoding apparatus for encoding in multiple stages a multi-pulse signal
CN1287658A (zh) * 1998-10-27 2001-03-14 松下电器产业株式会社 Celp型语音编码装置
CN1437169A (zh) * 2002-02-04 2003-08-20 富士通株式会社 对于语音代码进行数据嵌入/抽取方法、装置以及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JPH11130997A (ja) 1997-10-28 1999-05-18 Mitsubishi Chemical Corp 記録液
WO2001020595A1 (en) * 1999-09-14 2001-03-22 Fujitsu Limited Voice encoder/decoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
JP2002073097A (ja) * 2000-08-31 2002-03-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7310596B2 (en) 2002-02-04 2007-12-18 Fujitsu Limited Method and system for embedding and extracting data from encoded voice code
JP4292767B2 (ja) * 2002-09-03 2009-07-08 ソニー株式会社 データレート変換方法及びデータレート変換装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751900A (en) * 1994-12-27 1998-05-12 Nec Corporation Speech pitch lag coding apparatus and method
US6192334B1 (en) * 1997-04-04 2001-02-20 Nec Corporation Audio encoding apparatus and audio decoding apparatus for encoding in multiple stages a multi-pulse signal
EP0890943A2 (en) * 1997-07-11 1999-01-13 Nec Corporation Voice coding and decoding system
CN1287658A (zh) * 1998-10-27 2001-03-14 松下电器产业株式会社 Celp型语音编码装置
CN1437169A (zh) * 2002-02-04 2003-08-20 富士通株式会社 对于语音代码进行数据嵌入/抽取方法、装置以及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2002-73097A 2002.03.12
JP特开2004-94132A 2004.03.25

Also Published As

Publication number Publication date
JP2006011091A (ja) 2006-01-12
EP1768105B1 (en) 2020-02-19
KR20070029754A (ko) 2007-03-14
CN1977311A (zh) 2007-06-06
CA2572052A1 (en) 2006-01-05
US7840402B2 (en) 2010-11-23
WO2006001218B1 (ja) 2006-03-02
WO2006001218A1 (ja) 2006-01-05
EP1768105A1 (en) 2007-03-28
EP1768105A4 (en) 2009-03-25
JP4789430B2 (ja) 2011-10-12
US20070250310A1 (en) 2007-10-25

Similar Documents

Publication Publication Date Title
CN1977311B (zh) 语音编码装置、语音解码装置及其方法
EP1750254B1 (en) Audio/music decoding device and audio/music decoding method
CN102394066B (zh) 语音编码装置、解码装置和语音编码方法、解码方法
CN101091206B (zh) 语音编码装置和语音编码方法
CN101176148B (zh) 编码装置、解码装置和其方法
CN101622665B (zh) 编码装置以及编码方法
US20050010404A1 (en) Bit rate scalable speech coding and decoding apparatus and method
JP4812230B2 (ja) 複数チャネル信号の符号化及び復号化
US5826221A (en) Vocal tract prediction coefficient coding and decoding circuitry capable of adaptively selecting quantized values and interpolation values
US9830919B2 (en) Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method
JPH09319398A (ja) 信号符号化装置
US7580834B2 (en) Fixed sound source vector generation method and fixed sound source codebook
JP2011008250A (ja) ビット率拡張音声符号化及び復号化装置とその方法
CN103119650B (zh) 编码装置和编码方法
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP3099876B2 (ja) 多チャネル音声信号符号化方法及びその復号方法及びそれを使った符号化装置及び復号化装置
JPH05273998A (ja) 音声符号化装置
JP3092436B2 (ja) 音声符号化装置
JP2005215502A (ja) 符号化装置、復号化装置、およびこれらの方法
CN1159044A (zh) 声音编码装置
CN101430879B (zh) 一种多速率语音频编码的方法
Zhou et al. A unified framework for ACELP codebook search based on low-complexity multi-rate lattice vector quantization
Frerking Speech Processing
CN102226945A (zh) 一种多速率语音频编码的方法
JPH09269798A (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140716

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140716

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170522

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110713

CF01 Termination of patent right due to non-payment of annual fee