CN1249035A - 声音编码装置、声音译码装置及声音编码译码装置、以及声音编码方法、声音译码方法及声音编码译码方法 - Google Patents

声音编码装置、声音译码装置及声音编码译码装置、以及声音编码方法、声音译码方法及声音编码译码方法 Download PDF

Info

Publication number
CN1249035A
CN1249035A CN97182031A CN97182031A CN1249035A CN 1249035 A CN1249035 A CN 1249035A CN 97182031 A CN97182031 A CN 97182031A CN 97182031 A CN97182031 A CN 97182031A CN 1249035 A CN1249035 A CN 1249035A
Authority
CN
China
Prior art keywords
sound source
sound
mentioned
pulse
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97182031A
Other languages
English (en)
Other versions
CN1252679C (zh
Inventor
田崎裕久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN1249035A publication Critical patent/CN1249035A/zh
Application granted granted Critical
Publication of CN1252679C publication Critical patent/CN1252679C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

在将输入声音(5)分成频谱包络信息和声源并以帧为单位按多个声源位置及声源增益对声源进行编码时,用于改善编码特性。在按多个声源位置和声源增益对声源进行编码的声源编码部(11)内,设有用于计算对每个候补声源位置附加的临时增益的临时增益计算部(40),声源位置检索部(41)利用该临时增益决定多个声源位置,增益编码部(12)利用所决定的声源位置对声源增益进行编码。

Description

声音编码装置、声音译码装置及声音编码译码装置、以及 声音编码方法、声音译码方法及声音编码译码方法
技术领域
本发明涉及将声音信号压缩编码为数字信号的声音编码装置和方法、将该数字信号扩展译码为声音信号的声音译码装置和方法及将两者组合后的声音编码译码装置和方法。
背景技术
在现有的多种声音编码译码装置中,采用着将输入声音分成频谱包络信息和声源后以帧为单位对声源进行编码并通过对上述编码后的声源进行译码而生成输出声音的结构。
这里,所谓频谱包络信息,是指与声音信号所包含的频谱波形的振幅(功率)成比例的信息。所谓声源,是指生成声音的能源。在声音识别或声音合成中,利用周期的模式或周期的脉冲序列将声源模型化并近似地使用。
以改善编码译码的质量为目的,特别是在声源的编码译码方法上进行着各种改进。作为最有代表性的声音编码译码装置,有一种采用了代码激励线性预测编码(Celp(code-excited linear predictioncoding))的装置。
图13示出现有的Celp制声音编码译码装置的总体结构。
在图中,1是编码部,2是译码部,3是多路复用部,4是分离部,5是输入声音,6是代码,7是输出声音。编码部1由以下的8~12构成。8是线性预测分析部,9是线性预测系数编码部,10是自适应声源编码部,11是驱动声源编码部,12是增益编码部。而译码部2由以下的13~17构成。13是线性预测系数译码部,14是合成滤波器,15是自适应声源译码部,16是驱动声源译码部,17是增益译码部。
在该现有的声音编码译码装置中,将长度为5~50ms左右的声音作为1帧,在将该帧的声音分成频谱包络信息和声源后进行编码。以下,说明该现有的声音编码译码装置的动作。
首先,在编码部1中,由线性预测分析部8对输入声音5进行分析,并抽出作为声音的频谱包络信息的线性预测系数。线性预测系数编码部9,对该线性预测系数进行编码,并将编码后的代码输出到多路复用部3,同时,为了声源的编码输出编码后的线性预测系数18。
其次,用图20、图21、图22说明声源的编码。
如图20所示,在自适应声源编码部10中,在自适应声源代码簿110内,作为自适应声源113存储着与自适应声源代码111对应的多个(S个)过去的声源。首先,生成使该存储着的与各自适应声源代码111对应的过去的声源、即,使自适应声源113周期性地反复的时间序列矢量114。接着,将各时间序列矢量114乘以适当的增益g,并由使用了上述编码后的线性预测系数18的合成滤波器115对时间序列矢量114进行滤波,从而得到临时合成音116。从该临时合成音116与输入声音5的差分求出误差信号118,用以检查临时合成音116与输入声音5之间的距离。利用各自适应声源113将该处理反复进行S次。然后,选择使该距离为最小的自适应声源代码111,同时将与所选定的自适应声源代码111对应的时间序列矢量114作为自适应声源113输出。并且,还输出与所选定的自适应声源代码111对应的误差信号118。
如图21所示,在驱动声源编码部11中,在驱动声源代码簿130内,作为驱动声源133存储着与驱动声源代码131对应的多个(T个)声源。首先,将各驱动声源133乘以适当的增益g,并由使用了上述编码后的线性预测系数18的合成滤波器135对其进行滤波,从而得到临时合成音136。检查临时合成音136与误差信号118之间的距离。利用各驱动声源133将该处理反复进行T次。然后,选择使该距离为最小的驱动声源代码131,同时输出与所选定的驱动声源代码131对应的驱动声源133。
如图22所示,增益编码部12,在增益代码簿150内,与增益代码151对应地存储着多组(U组)增益。首先,生成与各增益代码151对应的增益矢量(g1、g2)154。接着,由乘法器166、167对上述自适应声源113(时间序列矢量114)及上述驱动声源133乘以各增益矢量154的各要素g1、g2,然后由加法器168相加,并由使用了上述编码后的线性预测系数18的合成滤波器对其进行滤波,从而得到临时合成音156。检查该临时合成音156与输入声音5之间的距离。利用各增益将该处理反复进行U次。然后,选择使该距离为最小的增益代码151。最后,将上述自适应声源113及上述驱动声源133乘以与所选定的增益代码151对应的增益矢量154的各要素g1、g2后相加,从而生成声源163。自适应声源编码部10,用声源163对自适应声源代码簿110进行更新。
另外,多路复用部3,对上述编码后的线性预测系数18、自适应声源代码111、驱动声源代码131、增益代码151进行多路复用,并输出所得到的代码6。此外,分离部4,将上述代码6分离为编码后的线性预测系数18、自适应声源代码111、驱动声源代码131、增益代码151。
由于用乘法器166对构成自适应声源113的时间序列矢量114乘以一定的增益g1,所以使时间序列矢量114的振幅为固定值。同样,由于用乘法器166对构成驱动声源133的时间序列矢量134乘以一定的增益g2,所以使时间序列矢量134的振幅为固定值。
另一方面,在译码部2中,线性预测系数译码部13,对编码后的线性预测系数18中的线性预测系数进行译码,并将其设定为合成滤波器14的系数。接着,自适应声源译码部15,将过去的声源存储在自适应声源译码簿内,并输出使与自适应声源代码对应的多个过去的声源周期性地反复的时间序列矢量128,另外,驱动声源译码部16,将多个驱动声源存储在驱动声源译码簿内,并输出与驱动声源代码对应的时间序列矢量148。增益译码部17,将多组增益存储在增益代码簿内,并输出与增益代码对应的增益矢量168。译码部2,通过将上述两个时间序列矢量128、148乘以上述增益矢量的各要素g1、g2后相加而生成声源198,并由合成滤波器14对该声源198进行滤波,从而生成输出声音7。最后,自适应声源译码部15,用所生成的上述声源198对自适应声源译码部15内的自适应声源代码簿进行更新。
这里,在「CS-ACELP的基本算法」(片冈章俊、林伸二、守谷建弘、栗原祥子、间野一则著,NTT R&D,Vol.45,pp.325-330(1996年4月)(以下,称文献1))中,公开了一种以削减运算量和存储量为主要目的而将脉冲声源引入驱动声源编码的Celp制声音编码译码装置。
图14示出在文献1所公开的现有的声音编码译码装置中使用的驱动声源编码部11的结构。而总体结构与图13相同。
在图中,18是编码后的线性预测系数,19是作为上述驱动声源代码131的驱动声源代码,20是作为上述误差信号118的编码对象信号,21是脉冲响应计算部,22是脉冲位置检索部,23是脉冲位置代码簿。如图21所示,编码对象信号20,是将自适应声源113(的时间序列矢量114)乘以适当的增益后由合成滤波器115滤波并将其从输入声音5减去后的误差信号118。
图15是在文献1中采用的脉冲位置代码簿23。
另外,图15还示出脉冲位置代码230的范围与位数的具体例。
在文献1中,声源编码帧长是40个样值,驱动声源由4个脉冲构成。脉冲号1~3的脉冲位置,如图15所示,分别被限制为8个位置,由于脉冲位置有0~7的8个位置,所以,可以分别按3位进行编码。脉冲号4的脉冲,被限制为16个脉冲位置,由于脉冲位置有0~15的16个位置,所以,可以按4位进行编码。指示4个脉冲位置的脉冲位置代码,构成3+3+3+4位=13位的代码字。通过对脉冲位置加以限制,可以在抑制编码特性恶化的同时,通过编码位数的削减、组合数的削减而实现运算量的削减。
以下,用图23、图24、图25说明上述现有的声音编码译码装置内的驱动声源编码部11的动作。
脉冲响应计算部21,在脉冲信号发生部218中产生如图25所示的脉冲信号210,并由将编码后的线性预测系数18由作为滤波系数的合成滤波器211计算与脉冲信号210对应的脉冲响应214,听觉加权部212,对该脉冲响应214进行听觉加权处理,并输出经过听觉加权后的脉冲响应215。脉冲位置检索部22,相对于图15所示的各脉冲位置代码230(例如,图23中的[5、3、0、14]),依次读出存储在脉冲位置代码簿23内的脉冲位置(例如,[25、16、2、34]),并通过在所读出的规定个数(4个)的脉冲位置([25、16、2、34])上设定振幅固定而仅对极性提供适当极性信息231(例如,[0、0、1、1]:1指示正极性,0指示负极性)的脉冲,生成临时的脉冲声源172。通过对该临时脉冲声源172与上述脉冲响应215进行褶积运算,生成临时合成音174,并计算该临时合成音174与编码对象信号20的距离。将该计算对所有脉冲位置的全部组合进行8×8×8×16=8192次。然后,将提供最小距离的脉冲位置代码230(例如,[5、3、0、14])与对各脉冲提供的极性信息231(例如,[0、0、1、1])组合,并作为驱动声源代码19(相当于图13所示的驱动声源代码131)输出,同时将与该脉冲位置代码230对应的临时脉冲声源172(相当于图13所示的驱动声源133)输出到编码部1内的增益编码部12。
另外,在文献1中,为削减脉冲位置检索部22的运算量,实际上不生成临时脉冲声源172及临时合成音174,而是预先计算脉冲响应与编码对象信号20的相关函数及脉冲响应间的互相关函数,并通过将该计算结果的简单相加而执行距离的计算。
以下,说明距离计算方法。
首先,求取距离的最小值是与求取下列式(1)的D的最大值等效的,可通过对脉冲位置的全部组合执行该D的计算,执行最小距离检索。 D = C 2 E - - - - - ( 1 ) 式中, C = Σ k g ( k ) d ( m ( k ) ) - - - - - ( 2 ) E = Σ k Σ i g ( k ) g ( i ) φ ( m ( k ) , m ( i ) ) - - - - ( 3 )
m(k):第k个脉冲的脉冲位置
g(k):第k个脉冲的脉冲振幅
d(x):在脉冲位置x上设定脉冲时的脉冲响应与输入声音间的相关性
Φ(x,y):在脉冲位置x上设定脉冲时的脉冲响应与在脉冲位置y上设定脉冲时的脉冲响应间的相关性
另外,在文献1的脉冲位置检索部22中,通过使g(k)具有与d(m(k))相同的符号并使其绝对值为1而将式(2)和式(3)简化后进行计算。被简化后的式(2)和式(3)如下。 C = Σ k d ′ ( m ( k ) ) - - - - - ( 4 ) E = Σ k Σ i φ ′ ( m ( k ) , m ( i ) ) - - - - ( 5 ) 式中,d′(m(k))=|d(m(k))|                                 (6)φ′(m(k),m(i))=sign[g(k)]sign[g(i)]φ(m(k),m(i))  (7)
因此,如在开始计算与脉冲位置的全部组合对应的D之前先进行d’和Φ’的计算,则接着只需以式(4)和式(5)的简单相加这样的很少的运算量即可求得D。
图16是用于说明在脉冲位置检索部22内生成的临时脉冲声源172的说明图。
在图16(a)中,根据作为一例示出的相关性d(x)的正负决定脉冲的极性。脉冲的振幅,固定为1。就是说,当在脉冲位置m(k)上设定脉冲时,在d(m(k))为正的情况下,设定具有(+1)振幅的脉冲,在d(m(k))为负的情况下,设定具有(-1)振幅的脉冲。图16(b),是与图16(a)的d(x)对应的临时脉冲声源172。
如上所述,通过对脉冲位置加以限制而能进行高速检索的脉冲声源,被称作「采用代数代码(Algebraic Code)的声源」。为简单起见,在下文中简称为「代数声源」。作为采用了代数声源而试图改善声源编码特性的声音编码译码装置,有在「基于多脉冲矢量量化声源和高速检索的MP-CELP声音编码」(小泽一范、田海真一、野村俊之著,电子信息通信学会论文集A,Vol.J79-A,No.10,pp.1655-1663(1996年10月)(以下,称文献2))中公开的一种型式。
图17示出该现有的声音编码译码装置的总体结构。
在图中,24是模式判断部,25是第1脉冲声源编码部,26是第1增益编码部,27是第2脉冲声源编码部,28是第2增益编码部,29是第1脉冲声源译码部,30是第1增益译码部,31是第2脉冲声源译码部,32是第2增益译码部。
对与图13相同的部分标以相同符号,并将其说明省略。
在该声音编码译码装置中,与图13相比,新增结构的动作如下。即,模式判断部24,根据平均音调预测增益、即音调周期性的高低,判断所使用的声源编码的模式并将判断结果作为模式信息输出。当音调周期性高时,使用第1声源编码模式、即自适应声源编码部10、第1脉冲声源编码部25及第1增益编码部26进行声源编码,当音调周期性低时,使用第2声源编码模式、即第2脉冲声源编码部27、第2增益编码部28进行声源编码。
第1脉冲声源编码部25,首先,生成与各脉冲声源代码对应的临时脉冲声源,然后将该临时脉冲声源及自适应声源编码部10输出的自适应声源乘以适当的增益,并由使用了线性预测系数编码部9输出的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查该临时合成音与输入声音5之间的距离,按距离由近至远的顺序求得候补脉冲声源代码,同时输出与各候补脉冲声源代码对应的临时脉冲声源。第1增益编码部26,首先,生成与各增益代码对应的增益矢量。然后,将各增益矢量的各个要素与上述自适应声源及上述临时脉冲声源相乘后相加,并由使用了线性预测系数编码部9输出的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查该临时合成音与输入声音5之间的距离,选择使该距离为最小的临时脉冲声源及增益代码,并输出该增益代码及与临时脉冲声源对应的脉冲声源代码。
第2脉冲声源编码部27,首先,生成与各脉冲声源代码对应的临时脉冲声源,然后将该临时脉冲声源乘以适当的增益,并由使用了线性预测系数编码部9输出的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查该临时合成音与输入声音5之间的距离,选择使该距离为最小的脉冲声源代码,同时按距离由近至远的顺序求得候补脉冲声源代码,并输出与各候补脉冲声源代码对应的临时脉冲声源。
第2增益编码部28,首先,生成与各增益代码对应的临时增益值。然后,将各增益值与上述临时脉冲声源相乘,并由使用了线性预测系数编码部9输出的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查该临时合成音与输入声音5之间的距离,选择使该距离为最小的临时脉冲声源及增益代码,并输出该增益代码及与临时脉冲声源对应的脉冲声源代码。
另外,多路复用部3,对线性预测系数代码、模式信息、第1声源编码模式时的自适应声源代码、脉冲声源代码及增益代码、第2声源编码模式时的脉冲声源代码及增益代码进行多路复用,并输出所得到的代码6。此外,分离部4,将上述代码6分离为线性预测系数代码、模式信息、模式信息为第1声源编码模式时的自适应声源代码、脉冲声源代码及增益代码、模式信息为第2声源编码模式时的脉冲声源代码及增益代码。
当模式信息为第1声源编码模式时,第1脉冲声源译码部29,输出与脉冲声源代码对应的脉冲声源,第1增益译码部30,输出与增益代码对应的增益矢量,在译码部2内,将上述增益矢量的各个要素与自适应声源译码部15的输出及上述脉冲声源相乘后相加,从而生成声源,并通过由合成滤波器14对该声源进行滤波,生成输出声音7。当模式信息为第2声源编码模式时,第2脉冲声源译码部31,输出与脉冲声源代码对应的脉冲声源,第2增益译码部32输出与增益代码对应的增益值,在译码部2内,将上述增益值与上述脉冲声源相乘从而生成声源,并通过由合成滤波器14对该声源进行滤波,生成输出声音7。
图18示出上述声音编码译码装置的第1脉冲声源编码部25和第2脉冲声源编码部27的结构。
在图中,33是编码后的线性预测系数,34是候补脉冲声源代码,35是编码对象信号,36是脉冲响应计算部,37是候补脉冲位置检索部,38是候补脉冲振幅检索部,39是脉冲振幅代码簿。在第1脉冲声源编码部25的情况下,编码对象信号35是将自适应声源乘以适当的增益并从输入声音5减去后的信号,在第2脉冲声源编码部27的情况下,是输入声音5本身。脉冲位置代码簿23,与在图14和图15中说明过的相同。
首先,脉冲响应计算部36,计算将编码后的线性预测系数33作为滤波系数的合成滤波器的脉冲响应,并对该脉冲响应进行听觉加权处理。然后,当由自适应声源编码部10求得的自适应声源代码、即音调周期长度比进行声源编码的基本单位即(子)帧的长度短时,由音调滤波器对上述脉冲响应进行滤波。
候补脉冲位置检索部37,依次读出存储在脉冲位置代码簿23内的脉冲位置,并通过在所读出的规定个数的脉冲位置上设定振幅固定而仅提供适当极性的脉冲而生成临时脉冲声源,通过对该临时脉冲声源与上述脉冲响应进行褶积运算,生成临时合成音,并计算该临时合成音与编码对象信号35的距离,按距离由近至远的顺序求得并输出若干组候补脉冲位置。此外,该距离的计算,与文献1一样,实际上不生成临时声源及临时合成音,而是预先计算脉冲响应与编码对象信号35的相关函数及脉冲响应间的互相相关函数,并根据对该计算结果的简单相加运算而执行距离的计算。候补脉冲振幅检索部38,依次读出脉冲振幅代码簿39内的脉冲振幅矢量,并利用上述各候补脉冲位置及该脉冲振幅矢量进行式(1)的D的计算,按D值从大到小的顺序选择若干组候补脉冲位置及候补脉冲振幅,并作为候补脉冲声源34输出。
图19是用于说明在候补脉冲位置检索部37内生成的临时脉冲声源及由候补脉冲振幅检索部38附加脉冲振幅后的临时脉冲声源的说明图。
图19(a)和图19(b),分别与图16(a)和图16(b)相同。由候补脉冲振幅检索部38利用脉冲振幅矢量附加振幅后的结果,示于图19(c)。
作为有效地削减代数声源的编码信息量的现有的声音编码译码装置,有在「CELP编码中的相位自适应型脉冲声源检索的研究」(江原宏辛、吉田辛司、八木敏男著,日本音响学会讲演论文集,Vol.1,pp.273-274(平成8年9月:1996年9月)(以下,称文献3))中公开的一种型式。在文献3中,利用自适应声源代码、即音调周期长度,使代数声源形成音调周期后使用。另外,当引入根据自适应声源的一种音调波形的峰值位置信息适应代数声源沿时间方向的偏移(相位)的方法时,代数声源的脉冲位置选择将会出现偏于一方的不均匀情况,而通过利用这一特征抽取选择率低的位置,即可削减分配给脉冲位置的信息量。
作为通过使由多个脉冲构成的声源形成音调周期而削减声源所需信息量的现有的声音编码译码装置,有在「4.8Kb/s多脉冲声音编码方法」(小泽一范、荒关卓著,日本音响学会讲演论文集,Vol.1,pp.203-204(昭和60年9月:1985年9月)(以下,称文献4))中公开的一种型式。在文献4中,首先,将帧分割为每个音调周期的子帧,并以规定个数的脉冲表示各子帧的声源。当选择帧内的一个子帧并以使该子帧的脉冲声源以音调周期反复的方式生成整个帧内的声源时,选择使整个帧生成最好的合成音的一个子帧作为代表区间,并对该区间的脉冲信息进行编码。为使每个帧的声源编码信息量保持一定,将每1个帧的脉冲数固定为4个。
作为通过对脉冲声源附加相位特性和声源波特性而改善声源的表示精度的现有的声音编码译码装置,有在「关于脉冲驱动型分析合成编码的声源研究」(细井茂、佐藤好男、牧野忠田著,电子信息通信学会讲演论文集,A-254(1992年3月)(以下,称文献5))、及「低位速率CELP的有声质量改善的研究」(山浦正、高桥真哉著,日本音响学会讲演论文集,Vol.1,pp.263-264(平成6年10~11月:1994年10~11月)(以下,称文献6))中公开的型式。
在文献5中,对脉冲声源附加固定的声源波特性(在文献5中,记述为脉冲波形)。通过使上述声源波以长时间预测延迟(音调)周期反复而生成(子)帧长度的声源,检索使该声源的合成音与输入声音的失真最小的声源增益及声源波开头位置,并对检索结果进行编码。在文献6中,对自适应声源及脉冲声源附加量化后的相位振幅特性。依次读出存储在相位振幅特性代码簿内的相位振幅特性附加滤波系数,对将以自适应延迟(音调)周期反复的脉冲声源与自适应声源相加而求得的帧长的声源,进行相位振幅特性附加滤波及合成滤波,并输出附加了使所得到的合成音与输入声音间的距离为最小的相位振幅特性附加滤波系数及声源的相位振幅特性代码、自适应声源代码、脉冲声源代码。
作为通过采用在一部分中备有脉冲序列声源的噪声代码簿而改善有声区间的编码质量的现有的声音编码译码装置,有在「A Very High-Quality Celp Coder at the Rate of 2400 bps(速率为2400bps的极高质量的Celp编码器)」(Gao Yang,H.Leich,R.Boite,EUROSPEECH’91.pp.829-832(以下,称文献7))中公开的一种型式。在文献7中,由以音调周期(自适应声源的延迟长度)反复的脉冲序列、以音调周期的半周期反复的脉冲序列、及使大半部分为0(稀疏化)的噪声构成一个声源代码簿。
如上所述,在文献1~7所公开的现有的声音编码译码装置中,存在着如下所述的问题。即,首先,在文献1的声音编码译码装置中,通过设定振幅固定而仅提供适当极性的脉冲,生成临时声源并进行脉冲位置的检索,所以,当最后进行对每个脉冲附加独立增益(振幅)的改进时,该固定振幅的近似精度将对检索结果产生非常大的影响,因而存在着不能找到最佳脉冲位置的问题。而在文献2中,为抑制该近似的影响,采用了保留多个候补脉冲位置并将其与候补脉冲振幅组合从而选择最佳脉冲位置的方法,但这种方法存在着使简单的运算量随之增加的问题。
另外,在文献2所公开的声音编码译码装置中,根据音调周期性的高低来决定使用通过将自适应声源与代数声源相加而进行编码的第1声源编码模式和仅以代数声源进行编码的第2声源编码模式中的哪一种模式,但有时即使音调周期低也希望使用自适应声源、或即使音调周期高也希望只使用代数声源,因而存在着不能判断出提供最佳编码特性的模式的问题。
作为即使音调周期低也希望使用自适应声源的例,在音调周期短、代数声源的脉冲数少的情况下,有时不能精确地表示声源。声源编码信息量越少、且脉冲数越少,这种倾向越明显。作为即使音调周期高也希望只使用代数声源进行编码的例,即使当音调周期长、代数声源的脉冲少时,有时也仍能较好地表示声源。从这两个例可知,必须适应性地根据音调周期和脉冲数改变模式判断的阈值。但是,在文献2的声音编码译码装置中,由于不能进行这种适应性的处理,所以存在着不能判断出提供最佳编码特性的模式的问题。
在文献3的声音编码译码装置中,使代数声源形成音调周期后使用,但由于音调周期取决于自适应声源代码,所以自适应声源和代数声源两者都必定需要使用。因而,在采用了自适应声源的编码特性差的部分,存在着使声音编码特性恶化的问题。作为一例,当尽管当前帧的声源周期性高但前一帧与当前帧的声源类似度低时,自适应声源的效率很差,最好是进行使代数声源形成音调周期的处理。
即使是采用文献2中的仅以代数声源对声源进行编码的第2声源编码模式进行上述部分的编码,但由于没有对代数声源进行形成音调周期的处理,所以仍然存在着编码特性差的问题。作为使文献2中的代数声源形成音调周期的方法,可以考虑对音调周期另行编码的方法,但存在着因音调周期的编码信息量大、脉冲数少而引起质量恶化的问题。
另外,在文献3的声音编码译码装置中,通过抽取选择率低的脉冲位置削减分配给脉冲位置的信息量,但当音调周期短时,由于有从来不被使用的脉冲位置,所以在编码信息中存在着信息的浪费。此外,在文献4的声音编码译码装置中,对以帧为代表的音调周期长度的子帧脉冲信息进行编码,并使该脉冲声源形成音调周期后使用。但即使当音调周期短、脉冲位置的编码范围窄时,也仍然固定地使用着与宽的编码范围对应的脉冲位置编码方式,所以,与文献3一样,在编码信息中存在着信息的浪费。
在文献5的声音编码译码装置中,通过使固定的声源波以音调周期反复而生成(子)帧长度的声源,并检索使该声源的合成音和输入声音的失真最小的声源增益及声源波开头位置,但在每个声源波开头位置的距离计算上所需的运算量很大(虽然取决于某些条件,但大约是文献1方法的100倍数量级的运算量),为能进行实时处理,如文献5所述,必须将声源位置组合限制在较少的个数(100个以下)。就是说,当可独立地提供各音调周期长度的声源位置的声源位置组合数多(10000个以上)时,存在着很难进行实时处理的问题。
在文献6的声音编码译码装置中,对自适应声源及脉冲声源附加量化后的相位振幅特性,但与文献5一样,每一个声源位置的距离计算的运算量大,因此当脉冲位置的组合数增加时,检索运算量与其成比例地增加,因此,存在着很难进行实时处理的问题。在文献7所公开的声音编码译码装置中,通过采用在一部分中备有脉冲序列声源的噪声代码簿而改善有声区间的编码质量,但能够表示的只是音调周期脉冲序列、音调周期的半周期脉冲序列、及稀疏化后的噪声,对可以表示的声源却有诸多的限制,因而存在着编码特性随输入声音而恶化的课题。此外,在形成了周期的脉冲序列声源中,仅脉冲开头位置有差异,就是说,代码的种类必须与声源样值数相同,因而存在着在尺寸小的代码簿中不能使一部分为脉冲序列声源的问题。
本发明是为解决以上的问题而开发的,其目的是提供一种将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码时使编码特性得到显著改进的声音编码装置、声音译码装置及声音编码译码装置。发明的公开
本发明的声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于:具有按多个声源位置和声源增益对上述声源进行编码的声源编码部(11和12),在该声源编码部内,备有:临时增益计算部(40),用于计算对每个候补声源位置附加的临时增益;声源位置检索部(41),利用上述临时增益决定多个声源位置;及增益编码部(12),利用所决定的上述声源位置对上述声源增益进行编码。
本发明的声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,具有按多个声源位置和声源增益对上述声源进行编码的声源编码部(11和12),在该声源编码部内,备有:临时增益计算部(40),用于计算对每个候补声源位置附加的临时增益;声源位置检索部(41),利用上述临时增益决定多个声源位置;及增益编码部(12),利用所决定的上述声源位置对上述声源增益进行编码;在译码部(2)内,备有通过对上述多个声源位置和上述声源增益进行译码而生成声源的声源译码部(16和17)。
本发明的声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于,备有:脉冲响应计算部(21),根据频谱包络信息求取合成滤波器的脉冲响应;相位附加滤波器(42),用于对上述脉冲响应附加规定的声源相位特性;及声源编码部(22和12),利用附加了上述声源相位特性的上述脉冲响应按多个脉冲声源位置和声源增益对上述声源进行编码。
本发明的声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有:脉冲响应计算部(21),根据频谱包络信息求取合成滤波器的脉冲响应;相位附加滤波器(42),用于对上述脉冲响应附加规定的声源相位特性;及声源编码部(22和12),利用附加了上述声源相位特性的上述脉冲响应按多个脉冲声源位置和声源增益对上述声源进行编码;在译码部(2)内,备有通过对上述多个脉冲声源位置和上述声源增益进行译码而生成声源的声源译码部(16和17)。
本发明的声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于:备有按多个脉冲声源位置和声源增益对声源进行编码的声源编码部(11和12),上述声源编码部,备有多个候补声源位置表(51、52),当音调周期在规定值以下时,对上述声源编码部内的候补声源位置表(51、52)进行切换使用。
本发明的声音译码装置,通过对以帧为单位编码后的声源进行译码而生成输出声音,该声音译码装置的特征在于:备有通过对多个脉冲声源位置和声源增益进行译码而生成声源的声源译码部(16和17),上述声源译码部,备有多个候补声源位置表(55、56),当音调周期在规定值以下时,对上述声源译编码部内的候补声源位置表(55、56)进行切换使用。
本发明的声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有按多个脉冲声源位置和声源增益对声源进行编码的声源编码部(11和12),上述声源编码部,备有多个候补声源位置表(51、52),当音调周期在规定值以下时,对上述声源编码部内的候补声源位置表(51、52)进行切换使用,在译码部(2)内,备有通过对多个脉冲声源位置和声源增益进行译码而生成声源的声源译码部(16和17),上述声源译码部,备有多个候补声源位置表(55、56),当音调周期在规定值以下时,对上述声源译编码部内的候补声源位置表(55、56)进行切换使用。
本发明的声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于:备有按多个脉冲声源位置和声源增益对音调周期长度的声源进行编码的声源编码部(11和12),在上述声源编码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310)。
本发明的声音译码装置,通过对以帧为单位编码后的声源进行译码而生成输出声音,该声音译码装置的特征在于:备有通过对多个脉冲声源位置和声源增益进行译码而生成音调周期长度的声源的声源译码部(16和17),在该声源译码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310)。
本发明的声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有按多个脉冲声源位置和声源增益对音调周期长度的声源进行编码的声源编码部(11和12),在该声源编码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310),在译码部(2)内,备有通过对多个脉冲声源位置和声源增益进行译码而生成音调周期长度的声源的声源译码部(16和17),在该声源译码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310)。
本发明的声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于,备有:第1声源编码部(10、11和12),利用多个脉冲声源位置和声源增益对声源进行编码;与该第1声源编码部不同的第2声源编码部(57和58);及选择部(59),将上述第1声源编码部输出的编码失真与上述第2声源编码部输出的编码失真进行比较,选择编码失真较小的上述第1声源编码部或第2声源编码部。
本发明的声音编码译码部,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有:第1声源编码部(10、11和12),按多个脉冲声源位置和声源增益对声源进行编码;与该第1声源编码部不同的第2声源编码部(57和58);及选择部(59),将上述第1声源编码部输出的编码失真与上述第2声源编码部输出的编码失真进行比较,选择编码失真较小的上述第1声源编码部或第2声源编码部;在译码部(2)内,备有:与上述第1声源编码部对应的上述第1声源译码部(15、16和17);与上述第2声源编码部对应的上述第2声源译码部(60和61);及根据上述选择部的选择结果使用上述第1声源译码部或第2声源译码部中的一个的控制部(330)。
本发明的声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于,备有:多个声源代码簿(63、64),由表示声源位置信息的多个代码字(340)及表示声源波形的多个代码字(350)构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及声源编码部(11),利用该多个声源代码簿对声源进行编码。
本发明的声音编码装置,其特征在于:根据音调周期控制上述声源代码簿(63、64)内的表示声源位置信息的代码字(340)数。
本发明的声音译码装置,通过对以帧为单位编码后的声源进行译码而生成输出声音,该声音译码装置的特征在于:备有:多个声源代码簿(63、64),由表示声源位置信息的多个代码字(340)及表示声源波形的多个代码字(350)构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及声源译码部(16),利用上述多个声源代码簿对声源进行译码。
本发明的声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有:多个声源代码簿(63、64),由表示声源位置信息的多个代码字(340)及表示声源波形的多个代码字(350)构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及声源编码部(11),利用上述多个声源代码簿对声源进行编码;在译码部(2)内,备有与编码部相同的多个声源代码簿(63、64)、及利用上述该多个声源代码簿对声源进行译码的声源译码部(16)。
本发明的声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:具有按多个声源位置和声源增益对上述声源进行编码的声源编码工序,在该声源编码工序内,包括:临时增益计算工序,计算对每个候补声源位置附加的临时增益;声源位置检索工序,利用上述临时增益决定多个声源位置;及增益编码工序,利用所决定的上述声源位置对上述声源增益进行编码。
本发明的声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:包括:脉冲响应计算工序,根据频谱包络信息求取合成滤波器的脉冲响应;相位附加滤波工序,对上述脉冲响应附加规定的声源相位特性;及声源编码工序,利用附加了上述声源相位特性的上述脉冲响应按多个脉冲声源位置和声源增益对上述声源进行编码。
本发明的声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:备有按多个脉冲声源位置和声源增益对声源进行编码的声源编码工序,并包括当音调周期在规定值以下时对上述声源编码工序内的候补声源位置表进行切换使用的工序。
本发明的声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:备有按多个脉冲声源位置和声源增益对音调周期长度的声源进行编码的声源编码工序,在上述声源编码工序内,包括对表示超过音调周期的脉冲声源位置的代码进行重新设定以使其表示音调周期范围内的脉冲声源位置的工序。
本发明的声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于,包括:第1声源编码工序,按多个脉冲声源位置和声源增益对声源进行编码;与该第1声源编码工序不同的第2声源编码工序;及选择工序,将上述第1声源编码工序输出的编码失真与上述第2声源编码工序输出的编码失真进行比较,选择编码失真较小的上述第1声源编码工序或第2声源编码工序。
本发明的声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于,备有:多个声源代码簿,由表示声源位置信息的多个代码字及表示声源波形的多个代码字构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及利用该多个声源代码簿对声源进行编码的声源编码工序。
本发明的声音编码装置的特征在于:上述临时增益计算部(40),假定在帧内的候补声源位置上设定单一的脉冲,并对每个候补声源位置求取增益。
本发明的声音编码装置的特征在于:上述增益编码部(12),对由上述声源位置检索部(41)求得的多个声源位置的各个声源位置,求取与上述临时增益不同的声源增益,并对所求得的该声源增益进行编码。
附图的简单说明
图1是表示本发明实施形态1的声音编码译码装置及其中的驱动声源编码部的结构的框图。
图2是用于说明由图1的临时增益计算部算出的临时增益及由脉冲位置检索部生成的临时脉冲声源的简略曲线图。
图3是表示本发明实施形态2的声音编码译码装置内的驱动声源编码部的结构的框图。
图4是表示本发明实施形态2的声音编码译码装置内的驱动声源译码部的结构的框图。
图5是表示本发明实施形态3的声音编码译码装置内的驱动声源编码部的结构的框图。
图6是表示本发明实施形态3的声音编码译码装置内的驱动源译码部的结构的框图。
图7是表示在图5和图6的声音编码译码装置中使用的第1脉冲位置代码簿~第N脉冲位置代码簿的一例的图。
图8是表示在本发明实施形态4的声音编码译码装置中使用的脉冲位置代码簿的一例的图。
图9是表示本发明实施形态5的声音编码译码装置的总体结构的框图。
图10是表示本发明实施形态6的声音编码译码装置内的驱动声源编码部的结构的框图。
图11是用于说明在本发明实施形态6的声音编码译码装置内的驱动声源编码部中使用的第1驱动声源代码簿和第2驱动声源代码簿的结构的简略曲线图。
图12是用于说明在本发明实施形态7的声音编码译码装置内的驱动声源编码部中使用的第1驱动声源代码簿和第2驱动声源代码簿的结构的简略曲线图。
图13是表示现有的Celp制声音编码译码装置的总体结构的框图。
图14是表示在现有的声音编码译码装置中使用的驱动声源编码部的结构的框图。
图15是表示现有的脉冲位置代码簿的结构的图。
图16是用于说明在现有的脉冲位置检索部内生成的临时脉冲声源的简略曲线图。
图17是表示现有的声音编码译码装置的总体结构的框图。
图18是表示现有的声音编码译码装置中的第1脉冲声源编码部和第2脉冲声源编码部的结构的框图。
图19是用于说明在现有的声音编码译码装置的候补脉冲位置检索部内生成的临时脉冲声源及由候补脉冲振幅检索部附加脉冲振幅后的临时脉冲声源的简略曲线图。
图20是表示现有的自适应声源编码部的动作的图。
图21是表示现有的驱动声源编码部的动作的图。
图22是表示现有的增益声源编码部的动作的图。
图23是表示现有的驱动声源编码部的动作的图。
图24是表示现有的脉冲响应计算部的动作的图。
图25是表示现有的脉冲信号及脉冲响应的图。
图26是表示本发明实施形态1的驱动声源编码部的动作的图。
图27是表示本发明实施形态1的临时增益求取方法的图。
图28是表示本发明实施形态1的增益声源编码部的一部分的动作的图。
图29是表示本发明实施形态3的音调周期形成处理的图。
用于实施发明的最佳形态
以下,参照附图说明本发明的实施形态。实施形态1
对与图13、图14的对应部分标以相同符号的图1,作为本发明的声音编码译码装置的实施形态1,示出声音编码译码装置的总体结构及声音编码译码装置内的驱动声源编码部11。
在图1中,新增加的部分,是临时增益计算部40、脉冲位置检索部41。临时增益计算部40,计算脉冲响应计算部21输出的脉冲响应215与作为图20示出的误差信号118的编码对象信号20之间的相关性,并根据该相关性计算各脉冲位置的临时增益。所谓临时增益216,是当在由脉冲位置代码簿23得到的某个脉冲位置上设定脉冲时对该脉冲附加的增益值。
如图26所示,脉冲位置检索部41,相对于在图15中说明过的各脉冲位置代码230,依次读出存储在脉冲位置代码簿23内的脉冲位置,并通过在所读出的规定个数的脉冲位置上设定附加了临时增益216的脉冲而生成临时脉冲声源172a。通过对该临时脉冲声源172a与脉冲响应215进行褶积运算,生成临时合成音174,并计算该临时合成音174与编码对象信号20的距离。将该计算对所有脉冲位置的全部组合进行8×8×8×16=8192次。然后,将提供最小距离的脉冲位置代码230作为驱动声源代码19输出到多路复用部3,同时将与该脉冲位置代码230对应的临时脉冲声源172a输出到编码部1内的增益编码部12。
在图2中,示出由临时增益计算部40算出的临时增益216及由脉冲位置检索部41生成的临时脉冲声源172a。
在图2(a)中示出的临时增益216a,作为脉冲声源假定设定1个脉冲而不是设定4个脉冲,并对4个脉冲的各个脉冲位置进行计算。由式(8)示出计算式的一例。
a(x)=d(x)/Φ(x,y)                                 (8)
式中,
d(x):在脉冲位置x上设定脉冲时的脉冲响应与输入声音间的相关性
Φ(x,y):在脉冲位置x上设定脉冲时的脉冲响应与在脉冲位置y上设定脉冲时的脉冲响应间的相关性
该式(8),提供在脉冲位置x上设定单个脉冲时的最佳增益值。临时增益计算部40,如图27所示,计算与0~39的40个样值对应的各脉冲位置的临时增益,并输出到脉冲位置检索部41。然后,在脉冲位置检索部41内,当通过在脉冲位置{m(k),k=1、...、4}上设定脉冲时,在生成临时脉冲声源172a时,如图2(b)所示,利用在图2(a)中示出的临时增益216,对各脉冲附加增益{a(m(k)),k=1、...、4}。
以下,说明如上所述附加临时增益a(x)时的脉冲位置检索部41的距离计算方法。
与文献1一样,求取距离的最小值与求取式(1)的D的最大值等效,并可通过对脉冲位置的全部组合执行D的计算而执行最小距离检索。但是,在本实施形态1的情况下,可通过在式(2)和式(3)中将g(k)置换成由式(8)定义的a(m(k))而进行简化计算。简化后的式(2)和式(3)如下。 C = Σ k d ′ ( m ( k ) ) - - - - - ( 9 ) E = Σ k Σ i φ ′ ( m ( k ) , m ( i ) ) - - - - ( 10 ) 式中,
d′(m(k))=a(m(k))d(m(k))                         (11)
φ′(m(k),m(i))=a(m(k))a(m(i))φ(m(k),m(i))    (12)
m(k):第k个脉冲的脉冲位置
因此,如在开始计算与脉冲位置的全部组合对应的D之前先进行d’和Φ’的计算,则接着只需以式(9)和式(10)示出的简单相加这样的的很少的运算量即可计算D。
另外,如上所述,当利用临时增益216进行脉冲位置检索时,在后级的增益编码部12中,必须提供对每个脉冲附加独立增益的结构。
在图28中,示出设定4个脉冲时增益编码部12的增益代码簿150的一例。
增益检索部160,从自适应声源编码部10输入自适应声源113,从驱动声源编码部11输入临时脉冲声源172a,在乘以增益代码簿150内的与各脉冲对应的独立增益g1及g21~g24后相加,从而生成临时声源199。然后,进行与图22所示的合成滤波器155以后的动作相同的动作,求出使距离最小的增益代码151。
如上所述,在本实施形态1的声音编码译码装置中,在决定脉冲位置之前,先计算对每个脉冲位置附加的临时增益并利用该临时增益生成脉冲振幅不同的临时脉冲声源172a,从而决定脉冲位置,所以,当增益编码部12最终对每个脉冲附加独立的增益时,脉冲位置检索过程中的与最终的增益对应的近似精度提高,因而易于找到最佳的脉冲位置,并具有可以改善编码特性的效果。在现有技术中,在决定脉冲位置时,脉冲振幅是固定的,所以很难决定准确的脉冲位置。此外,按照本实施形态1,还具有可以使脉冲位置检索的运算量的增加很少的效果。实施形态2
对与图14的对应部分标以相同符号的图3,作为本发明的声音编码译码装置的实施形态2,示出图13的声音编码译码装置内的驱动声源编码部11,而图4示出图13的声音编码译码装置内的驱动声源译码部16。
在图中,42、48是相位附加滤波器,43是驱动声源代码,44是驱动声源,46是脉冲位置译码部,47是与编码部1内的脉冲位置代码簿23具有相同结构的脉冲位置代码簿。
编码部1内的相位附加滤波器42,对脉冲响应计算部21输出的易于产生特殊相位关系的脉冲响应215进行附加相位特性的滤波,即,对各个频率进行移相,并输出接近真实位置关系的脉冲响应215a。译码部2内的脉冲位置译码部46,根据驱动声源代码43读出脉冲位置代码簿47内的脉冲位置数据,并根据脉冲位置数据设定由驱动声源代码43指定了极性的多个脉冲,并作为驱动声源输出。相位附加滤波器48,对驱动声源进行附加相位特性的滤波,并将所得到的信号作为驱动声源44输出。
作为声源相位特性,与文献5一样,可以附加固定的脉冲波形,也可以与特愿平6-264832号公报所公开的一样,采用量化后的相位振幅特性。也可以将过去的声源分出一部分后平均使用。此外,还可以与实施形态1的临时增益计算部40组合使用。
如上所述,本实施形态2的声音编码译码装置,利用附加声源相位特性后的脉冲响应,在编码部,按多个脉冲声源位置及声源增益对声源进行编码,并在译码部中对声源附加声源相位特性,所以,可以对声源附加相位特性而不增加每个声源位置组合的距离计算所需的运算量,即使脉冲位置的组合数增加,也能在可实现的运算量范围内进行附加相位特性后的声源编码译码,并因声源的表示精度改善而具有使编码质量得到改进的效果。实施形态3
对与图3和图4的对应部分标以相同符号的图5,作为本发明的声音编码译码装置的实施形态3,示出图13的声音编码译码装置内的驱动声源编码部11,而图6示出驱动声源译码部16。声音编码译码装置的总体结构,与图13相同。
在图中,49、53是音调周期,50是脉冲位置检索部,51、55是第1脉冲位置代码簿,52、56是第N脉冲位置代码簿,54是脉冲位置译码部。
在驱动声源编码部11内,根据音调周期49,选择第1脉冲位置代码簿51~第N脉冲位置代码簿52的N个脉冲位置代码簿中的一个。这里,作为音调周期,可以直接采用自适应声源的反复周期,也可以采用以其他方式分析和计算的音调周期。但是,在后者的情况下,必须对音调周期进行编码,并供给译码部2内的驱动声源译码部16。
脉冲位置检索部50,对应于各脉冲位置代码,依次读出存储在所选定的脉冲位置代码簿内的脉冲位置,在所读出的规定个数的脉冲位置上设定振幅固定而仅提供适当极性的脉冲,并根据音调周期49的值进行音调周期形成处理,从而生成临时脉冲声源。通过对该临时脉冲声源与脉冲响应进行褶积运算,生成临时合成音,并计算该临时合成音与编码对象信号20的距离。然后,将提供最小距离的脉冲位置代码作为驱动声源代码19输出,同时将与该脉冲位置代码对应的临时脉冲声源输出到编码部1内的增益编码部12。
在驱动声源译码部16内,根据音调周期53,选择第1脉冲位置代码簿51~第N脉冲位置代码簿52的N个脉冲位置代码簿中的一个。脉冲位置译码部46,根据驱动声源代码43读出所选定的脉冲位置代码簿内的脉冲位置数据,根据脉冲位置数据设定由驱动声源代码43指定了极性的多个脉冲,并根据音调周期53进行音调周期形成处理,然后,作为驱动声源44输出。
图7是当进行声源编码的帧长为80个样值时采用的第1脉冲位置代码簿51~第N脉冲位置代码簿52。
图7(a),例如,如图29(a)所示,是音调周期p大于48时采用的第1脉冲位置代码簿。在该代码簿的情况下,由4个脉冲构成80个样值的驱动声源,而且,没有进行音调周期形成处理。对各脉冲位置分配的信息量,按自上而下的顺序,为4位、4位、4位、5位,总计为17位。
图7(b),例如,如图29(b)所示,是音调周期p小于48、大于32时采用的第2脉冲位置代码簿。在该代码簿的情况下,由3个脉冲构成最多48个样值的驱动声源,并通过进行1次音调周期形成处理而生成80个样值的声源。在该代码簿的情况下,可以由6个脉冲构成80个样值的驱动声源。对各脉冲位置分配的信息量,按自上而下的顺序,为4位、4位、4位,总计为12位。如果必需对音调周期另行编码,则若以5位进行编码,总计为17位。
图7(c),例如,如图29(c)所示,是音调周期p在32以下时采用的第3脉冲位置代码簿。在该代码簿的情况下,由4个脉冲构成最多32个样值的驱动声源,并通过进行3次音调周期化处理而生成80个样值的声源。在该代码簿的情况下,可以由16个脉冲构成80个样值的驱动声源。对各脉冲位置分配的信息量,按自上而下的顺序,为3位、3位、3位、3位,总计为12位。如果必需对音调周期另行编码,则若以5位进行编码,总计为17位。
在图7中,假定对音调周期另行编码而设定了脉冲数,但当将自适应声源的反复周期用作音调周期时,可以使图7(b)和图7(c)的脉冲数进一步增加。这种情况虽然取决于帧长和总计位数,但与现有型的图7(a)相比,由于可以将所给出的脉冲范围限制在音调周期长度左右,所以每1个脉冲所需要的位数也被相应地削减,因此,如果总计位数固定,则可以使脉冲数增加。对音调周期另行编码的结构,如在图17中所说明过的第2声源编码模式那样,当仅以代数声源对声源进行编码时是有效的。
如上所述,本实施形态3的声音编码译码装置,在编码部内,当音调周期在规定值以下时,通过将候补声源位置限制在音调周期范围内,使声源脉冲数增加,所以,因声源的表示精度改善而具有使编码质量得到改进的效果。此外,还可以对音调周期另行编码而不会使脉冲数减少得太多,在采用了自适应声源的编码特性差的部分中,可以利用进行了音调周期形成处理的代数声源进行编码,因而具有改进编码质量的效果。实施形态4
图8是在本发明实施形态4的声音编码译码装置中使用的脉冲位置代码簿。声音编码译码装置的总体结构,与图13相同。驱动声源编码部11的结构,与图5相同,驱动声源译码部16的结构,与图6相同。而初始脉冲位置代码簿,与图7相同。
当音调周期p在32以下时,在驱动声源编码部11及驱动声源译码部16内,选择如图7(c)所示的第3脉冲位置代码簿。在本实施形态中,当音调周期为32时,如图8(a)所示,可直接使用该第3脉冲位置代码簿。
但是,当音调周期小于32时,不能选择超过音调周期长度的脉冲位置,所以,对该不能选择的脉冲位置部分,可将其重新设定为小于音调周期长度的脉冲位置后使用。
在图8(b)中,示出将音调周期p为20时不能选择的脉冲声源位置300重新设定为小于音调周期长度的脉冲声源位置310后的脉冲位置代码簿。
图7(c)的第3脉冲位置代码簿中的超过20的脉冲声源位置300,全部被重新设定为其值小于20的脉冲声源位置310。作为重新设定的方法,只要能使同一脉冲号内不出现相同的脉冲位置,可以采用各种方法。这里,如箭头所示,采用了置换为分配给下一个脉冲号的脉冲声源位置311的方法。
如上所述,本实施形态4的声音编码译码装置,对表示超过音调周期的脉冲声源位置的代码,进行重新设定以使其表示音调周期范围内的脉冲声源位置,所以可将指示从来不被使用的脉冲位置的代码排除,因而在编码信息中不存在信息的浪费,具有改进编码质量的效果。实施形态5
对与图13的对应部分标以相同符号的图9,示出本发明的声音编码译码装置的实施形态5的总体结构。
在图中,57是脉冲声源编码部,58是脉冲增益编码部,59是选择部,60是脉冲声源译码部,61是脉冲增益译码部,330是控制部。与图13相比,新增加的结构的动作如下。即,脉冲声源编码部57,首先,生成与各脉冲声源代码对应的临时脉冲声源,对该临时脉冲声源乘以适当的增益,并由使用了线性预测系数编码部9输出的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查该临时合成音与输入声音5之间的距离,选择使该距离为最小的脉冲声源代码,同时按距离由近至远的顺序求得候补脉冲声源代码,并输出与各候补脉冲声源代码对应的临时脉冲声源。
脉冲增益编码部58,首先,生成与各增益代码对应的临时的脉冲增益矢量。然后,将各脉冲增益矢量的各个要素与临时脉冲声源的各脉冲相乘,并由使用了线性预测系数编码部9输出的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查该临时合成音与输入声音5之间的距离,选择使该距离最小的临时脉冲声源及增益代码,并输出该增益代码及与临时脉冲声源对应的脉冲声源代码。
选择部59,将在增益编码部12内得到的最小距离与在脉冲增益编码部58内得到的最小距离进行比较,并选择提供较短距离的一方,从而对由自适应声源编码部10、驱动声源编码部11和增益编码部12构成的第1声源编码模式及由脉冲声源编码部57和脉冲增益编码部58构成的第2声源编码模式中的任何一种模式进行切换使用。
多路复用部3,对线性预测系数代码、选择信息、第1声源编码模式时的自适应声源代码、驱动声源代码及增益代码、第2声源编码模式时的脉冲声源代码及脉冲增益代码进行多路复用,并输出所得到的代码6。分离部4,将代码6分离为线性预测系数代码、选择信息、选择信息为第1声源编码模式时的自适应声源代码、驱动声源代码及增益代码、选择信息为第2声源编码模式时的脉冲声源代码及脉冲增益代码。
当选择信息为第1声源编码模式时,自适应声源译码部15,输出与自适应声源代码对应的使过去的声源周期性反复的时间序列矢量,而驱动声源译码部16输出与驱动声源代码对应的时间序列矢量。增益译码部17,输出与增益代码对应的增益矢量。译码部2,将增益矢量的各个要素与两个时间序列矢量相乘后相加,从而生成声源,并通过由合成滤波器14对该声源进行滤波,生成输出声音7。
当选择信息为第2声源编码模式时,脉冲声源译码部60,输出与脉冲声源代码对应的脉冲声源,脉冲增益译码部61,输出与增益代码对应的脉冲增益矢量,在译码部2内,通过将脉冲增益矢量的各个要素与脉冲声源的各脉冲相乘,生成声源,并由合成滤波器14对该声源进行滤波,从而生成输出声音7。控制部330,根据选择信息切换来自第1声源编码模式的输出及来自第2声源编码模式的输出。
如上所述,按照本实施形态5,与图17所示的以往只进行其中一种模式的动作的情况相比,在本实施形态中,以按多个脉冲声源位置和声源增益对声源进行编码的第1声源编码模式及与第1声源编码模式不同的第2声源编码模式的两种模式进行声源编码,并且可以选择编码失真较小的声源编码模式,所以,可以选择提供最佳编码特性的模式,因而具有改进编码质量的效果。另外,对本实施形态5中的驱动声源编码部11、脉冲声源编码部57,也可以采用实施形态1~4中示出的结构。实施形态6
对与图5的对应部分标以相同符号的图10,示出本发明的声音编码译码装置的实施形态6的声音编码译码装置内的驱动声源编码部11。声音编码译码装置的总体结构,与图9或图13相同。
在图中,62是驱动声源检索部,63是第1驱动声源代码簿,64是第2驱动声源代码簿。
首先,第1驱动声源代码簿63和第2驱动声源代码簿64,根据所输入的音调周期49对各代码字进行更新。然后,在驱动声源检索部62中,首先,对应于各驱动声源代码,读出第1驱动声源代码簿63中的一个时间序列矢量及第2驱动声源代码簿64中的一个时间序列矢量,通过将该两个时间序列矢量相加,生成临时驱动声源。对该临时驱动声源及自适应声源编码部10输出的自适应声源乘以适当的增益后相加,并由使用了编码后的线性预测系数的合成滤波器对其进行滤波,从而得到临时合成音。检查临时合成音与输入声音5之间的距离,并选择使该距离为最小的驱动声源代码,同时将与所选定的驱动声源代码对应的临时驱动声源作为驱动声源输出。
在图11中,示出第1驱动声源代码簿63和第2驱动声源代码簿64的结构,在图中,L是声源编码的帧长,p是音调周期49,N是各驱动声源代码簿的尺寸。0~(L/2-1)的代码字340,表示以音调周期p反复的脉冲序列。(L/2)~N的代码字350,表示声源波形。图11(a)所示的第1驱动声源代码簿63的脉冲序列与图11(b)所示的第2驱动声源代码簿64的脉冲序列,其开头的脉冲位置交替地错开而决不重复。在图11中,对(L/2)之后的代码字存储着学习过的噪声信号,但也可以使用非学习噪声、及与以音调周期反复的脉冲不同的信号等各种信号。另外,在译码部2内的驱动声源译码部16中,备有与第1驱动声源代码簿63和第2驱动声源代码簿64的结构相同的代码簿,读出与驱动声源代码对应的各代码字并相加,然后作为驱动声源输出。
如上所述,本实施形态6的声音编码译码装置,在结构上,备有由表示声源位置信息的多个代码字及表示声源波形的多个代码字构成、且各声源代码簿内的代码字表示的声源位置信息完全不同的多个声源代码簿,并利用该多个声源代码簿对声源进行编码或译码,所以,也可以表示除音调周期脉冲序列、音调周期的半周期脉冲序列以外的周期性声源,因此,不管进行比较的是什么输入声音,都具有改善编码特性的效果。另外,由于减少了各声源代码部的声源位置信息在代码簿之间的重复,所以,可以削减表示声源位置信息的代码字数,因此,在代码簿尺寸N小于帧长、表示声源波形的代码字太少的情况下,具有改善编码特性的效果。换句话说,即使是尺寸较小的代码簿,也可以使其一部分为表示声源位置信息的代码字,因而具有改善编码特性的效果。
在本实施形态6中,通过将两个时间序列矢量相加而生成临时驱动声源,但作为独立的驱动声源信号也可以是附加独立增益的结构。在这种情况下,增益编码信息量虽然增加,但由于对增益一次性地进行矢量量化,所以具有能够改善编码特性的效果,而不会有大的信息量增加。实施形态7
图12是在本发明的声音编码译码装置的实施形态7的驱动声源编码部11中使用的第1驱动声源代码簿63和第2驱动声源代码簿64。声音编码译码装置的总体结构,与图9或图13相同,驱动声源编码部11的结构,与图10相同。
0~(p/2-1)的代码字,表示以音调周期p反复的脉冲序列。与图11的不同点在于,将脉冲序列的开头位置限制在音调周期长度范围内,因而由脉冲序列构成的代码字数少。但是,当音调周期p比帧长L长时,结构与图11相同。图12(a)所示的第1驱动声源代码簿63的脉冲序列与图12(b)所示的第2驱动声源代码簿64的脉冲序列,其开头的脉冲位置交替地出现而决不重复。在图12中,对(p/2)之后的代码字存储着学习过的噪声信号,但也可以对该部分使用非学习噪声、及与以音调周期反复的脉冲不同的信号等各种信号。
如上所述,本实施形态7的声音编码译码装置,备有由表示声源位置信息的多个代码字及表示声源波形的多个代码字构成、且各声源代码簿内的代码字表示的声源位置信息完全不同的多个声源代码簿。在结构上,一面根据音调周期控制该声源代码簿内的表示声源位置信息的代码字数,一面利用该声源代码簿对声源进行编码,所以,除具有实施形态6的效果外,还可以进一步削减表示声源位置信息的代码字数,因而在代码簿尺寸N小于帧长、表示声源波形的代码字太少的情况下,具有改善编码特性的效果。换句话说,即使是尺寸较小的代码簿,也可以使其一部分为表示声源位置信息的代码字,因而具有改善编码特性的效果。
另外,当如文献4所公开的声音编码译码装置所示引入根据自适应声源的一种音调波形的峰值位置信息适应代数声源沿时间方向的偏移(相位)的方法而进行音调周期长度的声源编码时,只需准备在其一部分中具有如下的代码字的驱动声源代码簿即可,即,该代码字将脉冲设定在以与代码簿内的峰值位置一致的特征点为中心、长度等于音调周期长度或将音调周期乘以小于1的常数后的长度的范围内。产业上的可应用性
如上所述,按照本发明,当通过计算对每个候补声源位置附加的临时增益并利用该临时增益决定多个声源位置而最终对每个脉冲附加独立的增益时,脉冲位置检索过程中的与最终的增益对应的近似精度提高,因而可以实现易于找到最佳声源位置并能改善编码特性的声音编码装置、声音编码译码装置。
另外,按照本发明,利用附加了声源相位特性的脉冲响应,按多个脉冲声源位置及声源增益对声源进行编码,所以,即使脉冲位置的组合数增加,也能在可实现的运算量范围内进行附加相位特性后的声源编码译码,因此,可以实现因声源的表示精度改进而能改善编码质量的声音编码装置、声音编码译码装置。
另外,按照本发明,当音调周期在规定值以下时,通过将候补声源位置限制在音调周期范围内,使声源脉冲数增加,因此,可以实现因声源的表示精度改进而能改善编码质量的声音编码装置、声音译码装置、声音编码译码装置。
另外,按照本发明,对表示超过音调周期的脉冲声源位置的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置,所以,可将指示从来不被使用的脉冲位置的代码排除,因而在编码信息中不存在信息的浪费,因此,可以实现能改善编码质量的声音编码装置、声音译码装置、声音编码译码装置。
另外,按照本发明,以按多个脉冲声源位置和声源增益对声源进行编码的第1声源编码部及与第1声源编码部不同的第2声源编码部的两种声源编码部进行声源编码,并且可以选择编码失真较小的第1或第2声源编码部,所以,可以选择附加最佳编码特性的模式,因此,可以实现能改善编码质量的声音编码装置、声音译码装置、声音编码译码装置。
另外,按照本发明,备有由表示声源位置信息的多个代码字及表示声源波形的多个代码字构成、且各声源代码簿内的代码字表示的声源位置信息完全不同的多个声源代码簿,并利用该多个声源代码簿对声源进行编码或译码,所以,也可以表示除音调周期脉冲序列、音调周期的半周期脉冲序列以外的周期性声源,因此,可以实现不管进行比较的是什么输入声音都能改善编码特性的声音编码装置、声音译码装置、声音编码译码装置。
另外,由于减少了各声源代码薄的声源位置信息在代码簿之间的重复,所以,可以削减表示声源位置信息的代码字数,因此,在代码簿尺寸N小于帧长、表示声源波形的代码字太少的情况下,可以实现能改善编码特性声音编码装置、声音译码装置、声音编码译码装置。换句话说,即使是在尺寸更小的代码簿内,也可以使其一部分为表示声源位置信息的代码字,因此,可以实现能改善编码特性的声音编码装置、声音译码装置、声音编码译码装置。
另外,按照本发明,一面根据音调周期控制该声源代码簿内的表示声源位置信息的代码字数,一面利用该声源代码薄对声源进行编码,所以,除上述效果外,还可以进一步削减表示声源位置信息的代码字数。
另外,上述这些发明,也可以用作声音的编码译码方法。

Claims (24)

1.一种声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于:具有按多个声源位置和声源增益对上述声源进行编码的声源编码部(11和12),在该声源编码部内,备有:临时增益计算部(40),用于计算对每个候补声源位置附加的临时增益;声源位置检索部(41),利用上述临时增益决定多个声源位置;及增益编码部(12),利用所决定的上述声源位置对上述声源增益进行编码。
2.一种声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,具有按多个声源位置和声源增益对上述声源进行编码的声源编码部(11和12),在该声源编码部内,备有:临时增益计算部(40),用于计算对每个候补声源位置附加的临时增益;声源位置检索部(41),利用上述临时增益决定多个声源位置;及增益编码部(12),利用所决定的上述声源位置对上述声源增益进行编码;在译码部(2)内,备有通过对上述多个声源位置和上述声源增益进行译码而生成声源的声源译码部(16和17)。
3.一种声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于,备有:脉冲响应计算部(21),根据频谱包络信息求取合成滤波器的脉冲响应;相位附加滤波器(42),用于对上述脉冲响应附加规定的声源相位特性;及声源编码部(22和12),利用附加了上述声源相位特性的上述脉冲响应按多个脉冲声源位置及声源增益对上述声源进行编码。
4.一种声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有:脉冲响应计算部(21),根据频谱包络信息求取合成滤波器的脉冲响应;相位附加滤波器(42),用于对上述脉冲响应附加规定的声源相位特性;及声源编码部(22和12),利用附加了上述声源相位特性的上述脉冲响应按多个脉冲声源位置及声源增益对上述声源进行编码;在译码部(2)内,备有通过对上述多个脉冲声源位置和上述声源增益进行译码而生成声源的声源译码部(16和17)。
5.一种声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于:备有按多个脉冲声源位置和声源增益对声源进行编码的声源编码部(11和12),上述声源编码部,备有多个候补声源位置表(51、52),当音调周期在规定值以下时,对上述声源编码部内的候补声源位置表(51、52)进行切换使用。
6.一种声音译码装置,通过对以帧为单位编码后的声源进行译码而生成输出声音,该声音译码装置的特征在于:备有通过对多个脉冲声源位置和声源增益进行译码而生成声源的声源译码部(16和17),上述声源译码部,备有多个候补声源位置表(55、56),当音调周期在规定值以下时,对上述声源译编码部内的候补声源位置表(55、56)进行切换使用。
7.一种声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有按多个脉冲声源位置和声源增益对声源进行编码的声源编码部(11和12),上述声源编码部,备有多个候补声源位置表(51、52),当音调周期在规定值以下时,对上述声源编码部内的候补声源位置表(51、52)进行切换使用,在译码部(2)内,备有通过对多个脉冲声源位置和声源增益进行译码而生成声源的声源译码部(16和17),上述声源译码部,备有多个候补声源位置表(55、56),当音调周期在规定值以下时,对上述声源译编码部内的候补声源位置表(55、56)进行切换使用。
8.一种声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于:备有按多个脉冲声源位置和声源增益对音调周期长度的声源进行编码的声源编码部(11和12),在上述声源编码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310)。
9.一种声音译码装置,通过对以帧为单位编码后的声源进行译码而生成输出声音,该声音译码装置的特征在于:备有通过对多个脉冲声源位置和声源增益进行译码而生成音调周期长度的声源的声源译码部(16和17),在该声源译码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310)。
10.一种声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有按多个脉冲声源位置和声源增益对音调周期长度的声源进行编码的声源编码部(11和12),在该声源编码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310),在译码部(2)内,备有通过对多个脉冲声源位置和声源增益进行译码而生成音调周期长度的声源的声源译码部(16和17),在该声源译码部内,对表示超过音调周期的脉冲声源位置(300)的代码进行重新设定,以使其表示音调周期范围内的脉冲声源位置(310)。
11.一种声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于,备有:第1声源编码部(10、11和12),按多个脉冲声源位置和声源增益对声源进行编码;与该第1声源编码部不同的第2声源编码部(57和58);及选择部(59),将上述第1声源编码部输出的编码失真与上述第2声源编码部输出的编码失真进行比较,选择编码失真较小的上述第1声源编码部或第2声源编码部。
12.一种声音编码译码部,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有:第1声源编码部(10、11和12),按多个脉冲声源位置和声源增益对声源进行编码;与该第1声源编码部不同的第2声源编码部(57和58);及选择部(59),将上述第1声源编码部输出的编码失真与上述第2声源编码部输出的编码失真进行比较,选择编码失真较小的上述第1声源编码部或第2声源编码部;在译码部(2)内,备有:与上述第1声源编码部对应的上述第1声源译码部(15、16和17);与上述第2声源编码部对应的上述第2声源译码部(60和61);及根据上述选择部的选择结果使用上述第1声源译码部或第2声源译码部中的一个的控制部(330)。
13.一种声音编码装置,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码装置的特征在于,备有:多个声源代码簿(63、64),由表示声源位置信息的多个代码字(340)及表示声源波形的多个代码字(350)构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及声源编码部(11),利用该多个声源代码簿对声源进行编码。
14.根据权利要求13所述的声音编码装置,其特征在于:根据音调周期控制上述声源代码簿(63、64)内的表示声源位置信息的代码字(340)数。
15.一种声音译码装置,通过对以帧为单位编码后的声源进行译码而生成输出声音,该声音译码装置的特征在于:备有:多个声源代码簿(63、64),由表示声源位置信息的多个代码字(340)及表示声源波形的多个代码字(350)构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及声源译码部(16),利用上述多个声源代码簿对声源进行译码。
16.一种声音编码译码装置,备有将输入声音分成频谱包络信息和声源并以帧为单位对声源进行编码的编码部(1)、及通过对上述编码后的声源进行译码而生成输出声音的译码部(2),该声音编码译码装置的特征在于:在编码部(1)内,备有:多个声源代码簿(63、64),由表示声源位置信息的多个代码字(340)及表示声源波形的多个代码字(350)构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及声源编码部(11),利用上述多个声源代码簿对声源进行编码;在译码部(2)内,备有与编码部相同的多个声源代码簿(63、64)、及利用上述该多个声源代码簿对声源进行译码的声源译码部(16)。
17.一种声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:具有按多个声源位置和声源增益对上述声源进行编码的声源编码工序,在该声源编码工序内,包括:临时增益计算工序,计算对每个候补声源位置附加的临时增益;声源位置检索工序,利用上述临时增益决定多个声源位置;及增益编码工序,利用所决定的上述声源位置对上述声源增益进行编码。
18.一种声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:包括:脉冲响应计算工序,根据频谱包络信息求取合成滤波器的脉冲响应;相位附加滤波工序,对上述脉冲响应附加规定的声源相位特性;及声源编码工序,利用附加了上述声源相位特性的上述脉冲响应按多个脉冲声源位置和声源增益对上述声源进行编码。
19.一种声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:备有按多个脉冲声源位置和声源增益对声源进行编码的声源编码工序,并包括当音调周期在规定值以下时对上述声源编码工序内的候补声源位置表进行切换使用的工序。
20.一种声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于:备有按多个脉冲声源位置和声源增益对音调周期长度的声源进行编码的声源编码工序,在上述声源编码工序内,包括对表示超过音调周期的脉冲声源位置的代码进行重新设定以使其表示音调周期范围内的脉冲声源位置的工序。
21.一种声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于,包括:第1声源编码工序,按多个脉冲声源位置和声源增益对声源进行编码;与该第1声源编码工序不同的第2声源编码工序;及选择工序,将上述第1声源编码工序输出的编码失真与上述第2声源编码工序输出的编码失真进行比较,选择编码失真较小的上述第1声源编码工序或第2声源编码工序。
22.一种声音编码方法,将输入声音分成频谱包络信息和声源,并以帧为单位对声源进行编码,该声音编码方法的特征在于,备有:多个声源代码簿,由表示声源位置信息的多个代码字及表示声源波形的多个代码字构成,各声源代码簿内的代码字表示的声源位置信息完全不同;及利用该多个声源代码簿对声源进行编码的声源编码工序。
23.根据权利要求1所述的声音编码装置,其特征在于:上述临时增益计算部(40),假定在帧内的候补声源位置上设定单一的脉冲,并对每个候补声源位置求取增益。
24.根据权利要求23所述的声音编码装置,其特征在于:上述增益编码部(12),对由上述声源位置检索部(41)求得的多个声源位置的各个声源位置,求取与上述临时增益不同的声源增益,并对所求得的该声源增益进行编码。
CNB971820317A 1997-03-12 1997-09-24 声音编码装置、声音编码译码装置、以及声音编码方法 Expired - Fee Related CN1252679C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP57214/1997 1997-03-12
JP57214/97 1997-03-12
JP5721497 1997-03-12

Publications (2)

Publication Number Publication Date
CN1249035A true CN1249035A (zh) 2000-03-29
CN1252679C CN1252679C (zh) 2006-04-19

Family

ID=13049285

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971820317A Expired - Fee Related CN1252679C (zh) 1997-03-12 1997-09-24 声音编码装置、声音编码译码装置、以及声音编码方法

Country Status (10)

Country Link
US (1) US6408268B1 (zh)
EP (1) EP1008982B1 (zh)
JP (1) JP3523649B2 (zh)
KR (1) KR100350340B1 (zh)
CN (1) CN1252679C (zh)
AU (1) AU733052B2 (zh)
CA (1) CA2283187A1 (zh)
DE (1) DE69734837T2 (zh)
NO (1) NO994405L (zh)
WO (1) WO1998040877A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3824810B2 (ja) * 1998-09-01 2006-09-20 富士通株式会社 音声符号化方法、音声符号化装置、及び音声復号装置
JP3594854B2 (ja) 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3582589B2 (ja) 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
JP4304360B2 (ja) * 2002-05-22 2009-07-29 日本電気株式会社 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
WO2005020210A2 (en) * 2003-08-26 2005-03-03 Sarnoff Corporation Method and apparatus for adaptive variable bit rate audio encoding
KR100589446B1 (ko) * 2004-06-29 2006-06-14 학교법인연세대학교 음원의 위치정보를 포함하는 오디오 부호화/복호화 방법및 장치
WO2008072732A1 (ja) * 2006-12-14 2008-06-19 Panasonic Corporation 音声符号化装置および音声符号化方法
EP2118888A4 (en) * 2007-01-05 2010-04-21 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
JP4660496B2 (ja) * 2007-02-23 2011-03-30 三菱電機株式会社 音声符号化装置及び音声符号化方法
EP2128858B1 (en) * 2007-03-02 2013-04-10 Panasonic Corporation Encoding device and encoding method
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
JP4907677B2 (ja) * 2009-01-29 2012-04-04 三菱電機株式会社 音声符号化装置及び音声符号化方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
CN111123272B (zh) * 2018-10-31 2022-02-22 无锡祥生医疗科技股份有限公司 单极系统的戈莱码编码激励方法和解码方法
US11777763B2 (en) * 2020-03-20 2023-10-03 Nantworks, LLC Selecting a signal phase in a communication system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
JPH0782360B2 (ja) * 1989-10-02 1995-09-06 日本電信電話株式会社 音声分析合成方法
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JP3074703B2 (ja) * 1990-06-27 2000-08-07 ソニー株式会社 マルチパルス符号化装置
JPH05273999A (ja) * 1992-03-30 1993-10-22 Hitachi Ltd 音声符号化方法
US5457783A (en) * 1992-08-07 1995-10-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear prediction
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法

Also Published As

Publication number Publication date
AU733052B2 (en) 2001-05-03
EP1008982A4 (en) 2003-01-08
DE69734837T2 (de) 2006-08-24
DE69734837D1 (de) 2006-01-12
CA2283187A1 (en) 1998-09-17
KR100350340B1 (ko) 2002-08-28
CN1252679C (zh) 2006-04-19
KR20000076153A (ko) 2000-12-26
NO994405L (no) 1999-09-13
NO994405D0 (no) 1999-09-10
JP3523649B2 (ja) 2004-04-26
US6408268B1 (en) 2002-06-18
WO1998040877A1 (fr) 1998-09-17
AU4319697A (en) 1998-09-29
EP1008982B1 (en) 2005-12-07
EP1008982A1 (en) 2000-06-14

Similar Documents

Publication Publication Date Title
CN1252679C (zh) 声音编码装置、声音编码译码装置、以及声音编码方法
CN1200403C (zh) 线性预测编码参数的矢量量化装置
CN1172294C (zh) 音频编码装置、音频编码方法、音频解码装置及音频解码方法
CN1096148C (zh) 信号编码方法和装置
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1187735C (zh) 多模式话音编码装置和解码装置
CN1288622C (zh) 编码设备和解码设备
CN1158648C (zh) 语音可变速率编码方法与设备
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1220178C (zh) 在码本中进行搜索以对声音信号编码的方法和设备
CN1114900C (zh) 快速语音编码的代数码书深度优先搜索方法
CN1106710C (zh) 向量量化装置和方法
CN1185625C (zh) 语音编码方法及语音编码装置
CN1151491C (zh) 音频编码装置和音频编码译码装置
CN1097396C (zh) 声音编码装置和方法
CN1240978A (zh) 音频信号编码装置、解码装置及音频信号编码、解码装置
CN1248195C (zh) 语音编码转换方法和装置
CN1156872A (zh) 语音编码的方法和装置
CN1222926C (zh) 语音编码方法及其装置
CN1167046C (zh) 矢量编码方法及其利用该方法的编码器和解码器
CN1139912C (zh) 码激励线性预测编码型语音编码装置
CN1293535C (zh) 声音编码设备和方法以及声音解码设备和方法
CN1112672C (zh) 多脉冲分析语言处理系统及其方法
CN1135528C (zh) 声音编码装置以及声音解码装置
CN1135530C (zh) 声音编码装置和声音译码装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060419

Termination date: 20150924

EXPY Termination of patent right or utility model