CN1372247A - 语音编码方法及语音编码装置 - Google Patents
语音编码方法及语音编码装置 Download PDFInfo
- Publication number
- CN1372247A CN1372247A CN02105352A CN02105352A CN1372247A CN 1372247 A CN1372247 A CN 1372247A CN 02105352 A CN02105352 A CN 02105352A CN 02105352 A CN02105352 A CN 02105352A CN 1372247 A CN1372247 A CN 1372247A
- Authority
- CN
- China
- Prior art keywords
- sound source
- distortion
- source code
- coding
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims description 68
- 230000000052 comparative effect Effects 0.000 claims description 51
- 238000006073 displacement reaction Methods 0.000 claims description 28
- 230000005284 excitation Effects 0.000 abstract 5
- 239000013598 vector Substances 0.000 description 79
- 230000001976 improved effect Effects 0.000 description 35
- 238000011156 evaluation Methods 0.000 description 27
- 230000006866 deterioration Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 238000011002 quantification Methods 0.000 description 19
- 239000002131 composite material Substances 0.000 description 17
- 230000008676 import Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 238000007689 inspection Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000035807 sensation Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000001915 proofreading effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供一种可以适当地选择给出较好音质的声源并能使由语音译码装置将所求得的语音代码译码后得到的译码音的主观质量即音质得到改善的语音编码方法及语音编码装置。备有按每种声源模式对从输入语音1求得的编码对象信号进行编码并将编码时的编码失真输出的驱动声源编码装置9~11、将编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据编码对象信号的信号功率决定的阈值进行比较的比较装置15、及根据编码失真及比较装置的比较结果进行声源模式的选择的最小失真选择装置17。
Description
技术领域
本发明涉及将数字语音信号压缩到很少的信息量的语音编码方法及语音编码装置,尤其是,涉及语音编码方法及语音编码装置中的声源的编码方法。
背景技术
现有的语音编码方法及语音编码装置,大多是将输入语音分为声谱包络信息和声源并以帧为单位分别进行编码而生成语音代码。关于语音的编码,为确保对包含背景噪声区间的具有各种形态的输入语音的编码质量,研讨了准备有使可表现的声源具有不同形式的多种声源模式并按每个帧选择其中一种使用的所谓多模式编码。作为进行这种现有的多模式编码的语音编码方法及语音编码装置,例如有特开平3-156498号公报或国际公开WO98/40877号公报等所公开的方法和装置。
图8是表示特开平3-156498号公报中公开的现有的语音编码装置的结构的框图。在图中,1是输入语音,2是线性预测分析装置,3是线性预测系数编码装置,7是多路复用装置,8是语音代码,47是声源编码部。此外,在声源编码部47内,48是分类装置,49、50是切换装置,51是多脉冲声源编码装置,52是元音部声源编码装置。
以下,说明该特开平3-156498号公报中公开的现有的语音编码装置的动作。
这里,在结构如图所示的现有的语音编码装置中,将预先规定的区间长度、例如10ms作为1帧而以帧为单位进行处理。
首先,将输入语音1输入到线性预测分析装置2、分类装置48和切换装置49。线性预测分析装置2,对该输入语音1进行分析,并抽出作为语音的声谱包络信息的线性预测系数。线性预测系数编码装置3,对所抽出的该线性预测系数进行编码,并将其代码输出到多路复用装置7,同时输出为进行声源的编码而被量化了的线性预测系数。
分类装置48,通过分析输入语音1的音响特征而将其分类为元音性信号和其他信号,并将分类结果输出到切换装置49和切换装置50。切换装置49,当分类装置48的分类结果为元音性信号时,将输入语音1连接于元音部声源编码装置52,当分类装置48的分类结果不是元音性信号时,将输入语音1连接于多脉冲声源编码装置51。
多脉冲声源编码装置51,根据多个脉冲串的组合对声源进行编码,并将编码结果输出到切换装置50。元音部声源编码装置52,计算可变时间长度的区段长度,同时例如用改进的基音插补多脉冲声源模型对该区段的声源信号进行编码,并将其编码结果输出到切换装置50。
切换装置50,当分类装置48的分类结果为元音性信号时,将元音部声源编码装置52输出的编码结果连接于多路复用装置7,当分类装置48的分类结果不是元音性信号时,将多脉冲声源编码装置51输出的编码结果连接于多路复用装置7。多路复用装置7,对从线性预测系数编码装置3输入的代码及从切换装置50输入的编码结果进行多路复用,并输出所求得的语音代码8。
如上所述,在特开平3-156498号公报所公开的现有的语音编码装置中,报告了根据输入语音1的音响特征从预先准备好的多种声源模型中选择一种并用所选定的声源模型进行编码从而能以较少的信息量良好地表示语音信号。
另外,图9是表示国际公开WO98/40877号公报中公开的现有的语音编码装置的结构的框图。在图中,1是输入语音,2是线性预测分析装置,3是线性预测系数编码装置,4是自适应声源编码装置,7是多路复用装置,8是语音代码,53、54是驱动声源编码装置,55、56是增益编码装置,57是最小失真选择装置。
以下,说明该国际公开WO98/40877号公报中公开的现有的语音编码装置的动作。
这里,在结构如图所示的现有的语音编码装置中,将长度为5~50ms左右的语音作为1帧而以帧为单位进行处理。对于声源的编码,按将1帧分为2半后的每个子帧进行处理。而为易于理解说明,在以下的说明中,不再特意地区别帧和子帧而只简单地记作帧。
首先,将输入语音1输入到线性预测分析装置2、自适应声源编码装置4及驱动声源编码装置53。线性预测分析装置2,对输入语音1进行分析,并抽出作为语音的声谱包络信息的线性预测系数。线性预测系数编码装置3,对该线性预测系数进行编码,并将其代码输出到多路复用装置7,同时输出为进行声源的编码而被量化了的线性预测系数。
在自适应声源编码装置4中,以自适应声源代码簿的形式存储着过去的规定长度的声源(信号)。该自适应声源代码簿,当输入以几位的二进数值表示的自适应声源代码时,从该自适应声源代码计算重复周期,并利用该重复周期生成和输出使过去的声源周期反复的时间序列向量。自适应声源编码装置4,使通过将各自适应声源代码输入该自适应声源代码簿而得到的时间序列向量通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器,从而求得临时合成音。然后,检查使该临时合成音乘以适当增益后的信号与输入语音1之间的失真。对所有的自适应声源代码进行上述处理,并选择给出最小失真的自适应声源代码,同时将与所选定的自适应声源代码对应的时间序列向量作为自适应声源输出。另外,将从输入语音1减去使自适应声源产生的合成音乘以适当增益的信号后所得到的信号作为编码对象信号输出。
在驱动声源编码装置54中,以驱动声源代码簿的形式存储着多个时间序列向量。该驱动声源代码簿,当输入以几位的二进数值表示的驱动声源代码时,将存储在与该驱动声源代码对应的位置上的时间序列向量读出后输出。驱动声源编码装置54,通过将各自适应声源代码输入该驱动声源代码簿而求出各时间序列向量,并使其通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器,从而求得临时合成音。然后,检查使该临时合成音乘以适当增益后的信号与从自适应声源编码装置4输入的编码对象信号之间的失真。对所有的驱动声源代码进行上述处理,并选择给出最小失真的驱动声源代码,同时将与所选定的驱动声源代码对应的时间序列向量作为驱动声源输出。
在增益编码装置56中,以增益代码簿的形式存储着表示与自适应声源和驱动声源对应的2个增益值的多个增益向量。该增益代码簿,当输入以几位的二进数值表示的增益代码时,将存储在与该增益代码对应的位置上的增益向量读出后输出。增益编码装置56,通过将各增益代码输入该增益代码簿而求出增益向量,并使从自适应声源编码装置4输出的自适应声源乘以其第一要素,使从驱动声源编码装置54输出的驱动声源乘以第二要素,并将所得到的2个信号相加,从而生成临时声源。接着,使该临时声源通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器,从而求得临时合成音,并检查该临时合成音与通过驱动声源编码装置54输入的输入语音1之间的失真。对所有的增益代码进行上述处理,并选择给出最小失真的增益代码。然后,将由所选定的增益代码、从自适应声源编码装置4通过驱动声源编码装置54输入的自适应声源代码及从驱动声源编码装置54输入的驱动声源代码构成的声源代码、最小失真、与所选定的增益代码对应的临时声源输出到最小失真选择装置57。
另一方面,在驱动声源编码装置53中,以驱动声源代码簿的形式存储着多个时间序列向量。该驱动声源代码簿,当输入以几位的二进数值表示的驱动声源代码时,将存储在与该驱动声源代码对应的位置上的时间序列向量读出后输出。驱动声源编码装置53,通过将各自适应声源代码输入该驱动声源代码簿而求出各时间序列向量,并使其通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器,从而求得临时合成音。然后,检查使该临时合成音乘以适当增益后的信号与输入语音1之间的失真。对所有的驱动声源代码进行上述处理,并选择给出最小失真的驱动声源代码,同时将与所选定的驱动声源代码对应的时间序列向量作为驱动声源输出。
在增益编码装置55中,以第一增益代码簿的形式存储着与驱动声源对应的对应多个增益值。该增益代码簿,当输入以几位的二进数值表示的增益代码时,将存储在与该增益代码对应的位置上的增益值读出后输出。增益编码装置55,通过将各增益代码输入该增益代码簿而求得增益值,使从驱动声源编码装置53输出的驱动声源乘以该增益值,并将所得到的信号作为临时声源。接着,使该临时声源通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器,从而求得临时合成音,并检查该临时合成音与通过驱动声源编码装置53输入的输入语音1之间的失真。对所有的增益代码进行上述处理,并选择给出最小失真的增益代码。然后,将由所选定的增益代码、从驱动声源编码装置53输入的驱动声源代码构成的声源代码、最小失真、与所选定的增益代码对应的临时声源输出到最小失真选择装置57。
最小失真选择装置57,将从增益编码装置55输入的最小失真与从增益编码装置56输入的最小失真进行比较,选择输出较小失真的增益编码装置55或56,并将所选定的增益编码装置55、56输出的声源代码输出到多路复用装置7。此外,还将从所选定的增益编码装置55、56输出的声源作为最终的声源输出到自适应声源编码装置4。自适应声源编码装置4,利用从最小失真选择装置57输入的声源对内部的自适应声源代码簿进行更新。
在这之后,多路复用装置7,对从线性预测系数编码装置3输出的线性预测系数的代码及从最小失真选择装置57输出的声源代码进行多路复用,并输出所求得的语音代码8。
如上所述,在国际公开WO98/40877号公报所公开的现有的语音编码装置中,报告了以两种声源模式分两路进行编码并选择给出较小失真的声源模式从而可以进行提供最佳编码特性的模式选择并能改善编码质量。
另外,作为这种进行与语音编码装置有关的记述的文献,例如还有从输入语音生成其长度与延迟参数对应的目标语音向量并进行自适应声源搜索及驱动声源搜索的特开平9-319396号公报、根据自适应声源信号的信号功率从多个增益量化表中选择与驱动声源对应的增益量化表的特开2000-175598号公报等。
由于现有的语音编码装置具有如上所述的结构,所以分别存在着如下所述的课题。
在特开平3-156498号公报所公开的现有的语音编码装置中,根据输入语音1的音响特征从预先准备好的声源模型中选择一种,所以存在着由语音译码装置将所求得的语音代码译码后得到的译码音的主观质量即音质不一定是最佳的课题。即,在基于输入语音1的音响特征的分类中,必然存在着分类错误,所以有时将会选择出对输入语音并不适合的声源模型。此外,即使输入语音1的分类正确,但有时在选定的声源模型中不能进行正常的编码,反而在未被选择的声源模型中由语音译码装置译码后得到的译码音却具有很好的音质。例如,当在元音区间也存在着很多的过渡部等波形的紊乱时,有时使元音部声源编码装置52中的编码结果恶化,但采用多脉冲方式反而可以对变化进行良好的处理。
另外,在国际公开WO98/40877号公报所公开的现有的语音编码装置中,以两种声源模式分两路分别进行编码并选择给出较小失真的声源模式,所以存在着由语音译码装置将所求得的语音代码译码后得到的译码音的主观质量(音质)不一定是最佳的课题。以下,边参照图7边对其进行详细说明。
图7(a)示出输入语音,图7(b)示出选择了为表现有噪声的语音而准备好的声源模式时的译码音(由语音译码装置将语音代码译码后的结果),图7(c)示出选择了为表现元音的语音而准备好的声源模式时的译码音。此外,图7(a)中示出的输入语音,为具有噪声特征的区间的语音,如图所示,有噪声的输入语音,其振幅大的部分和小的部分经常混合在一个帧中。
在图7的情况下,图7(a)和图7(b)的信号的作为信号差值的功率求得的失真值,大于图7(a)和图7(c)的失真。这是因为在图7(a)所示的输入语音的振幅大的部分上与图7(c)的差值小。但是,当人们听取了图7(b)和图7(c)时,一般认为在图7(c)的情况下听起来是有脉冲的恶化音,而图7(b)却很好。因此,在选择失真最小的声源模式的现有的语音编码装置中,在由语音译码装置将所求得的语音代码译码后得到的译码音的主观质量(音质)上,有时不一定是最佳的选择。
发明内容
本发明是为解决如上所述的课题而开发的,其目的是提供一种可以适当地选择给出较好音质并能使由语音译码装置将所求得的语音代码译码后得到的译码音的主观质量即音质得到改善的语音编码方法及语音编码装置。
按照本发明,第1,提供一种语音编码方法,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码方法的特征在于:在编码步骤中,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出,在比较步骤中,将由上述编码步骤编码后的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较,在选择步骤中,根据由上述编码步骤编码后的编码失真及上述比较步骤的比较结果进行上述声源模式的选择。
按照本发明,第2,提供一种语音编码方法,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码方法的特征在于:在编码步骤中,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出,在选择步骤中,对由上述编码步骤编码后的编码失真进行相互比较,并根据该比较结果选择一种声源模式,在比较步骤中,将与由上述选择步骤选定的声源模式对应的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较,在置换步骤中,根据上述比较步骤的比较结果对由上述选择步骤选定的声源模式进行置换。
在选择步骤中,也可以对所得到的比较结果为编码失真超过阈值的声源模式的选择进行抑制。
也可以按每种声源模式准备阈值。
在进行编码失真的输出变换的变换步骤中,当比较步骤的编码失真与阈值的比较结果为上述编码失真超过上述阈值时,可以用上述阈值的值置换该编码失真,在选择步骤中,也可以从包含着由上述变换步骤输出的编码失真的所有声源模式的编码失真中选择与最小编码失真对应的声源模式。
在置换步骤中,当与选择步骤选定的声源模式对应的编码失真超过阈值时,也可以选择预先决定的声源模式。
也可以将阈值设定为对输入语音或编码对象信号规定的失真系数。
也可以设置判定步骤,通过对输入语音或编码对象信号进行分析而判定语音形态,并仅当上述判定步骤输出规定的判定结果时,由选择步骤进行声源模式的选择而不使用比较步骤的比较结果。
也可以设置判定步骤,通过对输入语音或编码对象信号进行分析而判定语音形态,并设置阈值计算步骤,根据上述判定步骤的判定结果进行阈值的决定,在比较步骤中,利用由上述阈值计算步骤决定的阈值进行比较。
判定步骤,也可以至少进行是否是语音的开始的判定。
也可以由生成有噪声声源的声源模式及生成无噪声声源的声源模式形成多种声源模式。
也可以由使用有噪声的声源代码字的声源模式及使用无噪声的声源代码字的声源模式形成多种声源模式。
按照本发明,第3,提供一种语音编码装置,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码装置的特征在于,备有:编码装置,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出;比较装置,将由上述编码装置编码后的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较;选择装置,根据由上述编码装置编码后的编码失真及上述比较装置的比较结果进行上述声源模式的选择。
按照本发明,第4,提供一种语音编码装置,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码装置的特征在于,备有:编码装置,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出;选择装置,对由上述编码装置编码后的编码失真进行相互比较,并根据该比较结果选择一种声源模式;比较装置,将与由上述选择装置选定的声源模式对应的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较;置换装置,根据上述比较装置的比较结果对由上述选择装置选定的声源模式进行置换。
比较装置,也可以将用于与由编码装置输出的编码失真进行比较的阈值设定为对输入语音或编码对象信号规定的失真系数。
也可以备有通过对输入语音或编码对象信号进行分析而判定语音形态的判定装置,选择装置,仅当上述判定装置输出规定的判定结果时,进行声源模式的选择而不使用比较装置的比较结果。
也可以由生成有噪声声源的声源模式及生成无噪声声源的声源模式形成多种声源模式。
附图的简单说明
图1是表示应用了本发明实施形态1的语音编码方法的语音编码装置的结构的框图。
图2是表示应用了本发明实施形态2的语音编码方法的语音编码装置的结构的框图。
图3是表示应用了本发明实施形态3的语音编码方法的语音编码装置的结构的框图。
图4是表示应用了本发明实施形态4的语音编码方法的语音编码装置的结构的框图。
图5是表示应用了本发明实施形态5的语音编码方法的语音编码装置的结构的框图。
图6是表示应用了本发明实施形态6的语音编码方法的语音编码装置的结构的框图。
图7是用于说明使由语音译码装置将语音代码译码后的译码音的主观质量得到改善的情况的波形图。
图8是表示现有的语音编码装置的结构一例的框图。
图9是表示现有的语音编码装置的结构的另一例的框图。用于实施本发明的最佳形态
以下,说明本发明的一实施形态。实施形态1
图1是表示应用了本发明实施形态1的语音编码方法的语音编码装置的结构的框图。在图中,1是输入语音,2是从该输入语音1抽出线性预测系数的线性预测系数分析装置,3是为进行编码而对所抽出的线性预测系数进行量化的线性预测系数编码装置。4是根据输入语音1及来自线性预测系数编码装置3的信号输出自适应声源和编码对象信号的自适应声源编码装置。5是根据输入语音1、来自线性预测系数编码装置3的信号及来自自适应声源编码装置4信号输出驱动声源、驱动声源代码及模式选择信息的驱动声源编码部。6是将输入语音1、来自线性预测系数编码装置3的信号及来自驱动声源编码部5的信号作为输入而选择增益代码并将与该增益代码对应的声源输入到自适应声源编码装置4的增益编码装置。7是对来自线性预测系数编码装置3、自适应声源编码装置4、驱动声源编码部5及增益编码装置6的信号进行多路复用的多路复用装置,8是从该多路复用装置7输出的由该语音编码装置编码后的语音代码。
另外,在驱动声源编码部5内,9是备有由随机数生成的时间序列向量所构成的驱动声源代码簿并根据来自线性预测系数编码装置3及自适应声源编码装置4的信号检查临时合成音与编码对象信号之间的失真从而输出驱动声源代码、失真及驱动声源的作为编码装置的驱动声源编码装置。10、11是备有包含着各自不同的脉冲位置表的驱动声源代码簿并根据来自线性预测系数编码装置3及自适应声源编码装置4的信号检查临时合成音与编码对象信号之间的失真从而输出驱动声源代码、失真及驱动声源的作为编码装置的驱动声源编码装置。12是计算输入语音1的信号功率的功率计算装置,13是根据来自功率计算装置12的信号计算与失真有关的阈值的阈值计算装置。14是分析输入语音1并进行是否是语音的开始部分的判定的判定装置。15是将来自驱动声源编码装置9的信号与来自阈值计算装置13的阈值进行比较的比较装置,16是根据判定装置14的判定结果及比较装置15的比较结果进行驱动声源编码装置9的输出变换的变换装置。17是根据来自变换装置16的信号及来自驱动声源编码装置10和11的信号将驱动声源、驱动声源代码及模式选择信息输出到多路复用装置7的作为选择装置的最小失真选择装置。
以下,对动作进行说明。
在本实施形态1的语音编码装置中,例如将20ms作为1帧并以帧为单位进行处理。在声源的编码处理、即自适应声源编码装置4、驱动声源编码部5及增益编码装置6的处理中,按将1帧分为2半后的每个子帧进行处理。而为易于理解说明,在以下的说明中,与现有技术的情况一样,不再特意地区别帧和子帧而只简单地记作帧。
首先,将输入语音1输入到线性预测分析装置2、自适应声源编码装置4、驱动声源编码部5及增益编码装置6。输入到驱动声源编码部5的输入语音1,被传送到其功率计算装置12和判定装置14。线性预测分析装置2,当输入语音1时对其进行分析,并在抽出作为语音的声谱包络信息的线性预测系数后,将其传送到线性预测系数编码装置3。线性预测系数编码装置3,对从线性预测分析装置2接收到的线性预测系数进行编码并输出到多路复用装置7,同时将为进行声源的编码而被量化了的线性预测系数输出到自适应声源编码装置4、驱动声源编码部5及增益编码装置6。在驱动声源编码部5中,将来自线性预测系数编码装置3的量化后的线性预测系数输入到驱动声源编码装置9~11。
另外,在本实施形态1中,将线性预测系数用作声谱包络信息,但并不限定于此,也可以使用LSP(Line Spectrum Pairs:线谱对)等其他参数。
在自适应声源编码装置4中,备有存储了过去的规定长度的声源(信号)的自适应声源代码簿。该自适应声源代码簿,当输入以几位的二进数值表示的自适应声源代码时,求出与该自适应声源代码对应的过去的声源的重复周期,并利用该重复周期生成和输出使过去的声源周期反复的时间序列向量。自适应声源编码装置4,使通过将各自适应声源代码输入该自适应声源代码簿而得到的时间序列向量通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,根据使所求得的临时合成音乘以适当增益后的信号与输入语音1的差值检查其两者之间的失真。
自适应声源编码装置4,对所有的自适应声源代码进行上述处理,选择给出最小失真的自适应声源代码,并将与所选定的自适应声源代码对应的时间序列向量作为自适应声源输出到驱动声源编码装置9及驱动声源编码装置10、11。另外,还将从输入语音1减去使自适应声源产生的合成音乘以适当增益的信号后所得到的信号(两者间的失真)作为编码对象信号输出到驱动声源编码装置9及驱动声源编码装置10、11。
在驱动声源编码装置9中,将由随机数生成的多个时间序列向量作为有噪声的声源代码字存储在驱动声源代码簿内。该驱动声源编码装置9的驱动声源代码簿,当输入以几位的二进数值表示的驱动声源代码时,从与该驱动声源代码对应的位置读出并输出其中存储着的时间序列向量。在这种情况下,所输出的时间序列向量生成有噪声的声源。驱动声源编码装置9,使通过将各驱动声源代码输入该驱动声源代码簿而得到的时间序列向量通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,根据使所求得的临时合成音乘以适当增益后的信号与从自适应声源编码装置4输入的编码对象信号之间的差值检查失真。这里,如设编码对象信号为x、临时合成音为y,则两者间的失真D可按以下的式(1)计算。
驱动声源编码装置9,对所有的驱动声源代码进行上述处理,并选择给出最小失真的驱动声源代码,同时将与所选定的驱动声源代码对应的时间序列向量作为驱动声源,并输出到比较装置15和变换装置16。这时,将上述最小失真及驱动声源代码也与该驱动声源一起输出到比较装置15和变换装置16。
在驱动声源编码装置10中,存储着包含脉冲位置表的驱动声源代码簿。该驱动声源编码装置10的驱动声源代码簿,当输入以几位的二进数值表示的驱动声源代码时,将该驱动声源代码分离为多个脉冲位置代码和极性,读出存储在与脉冲位置表中的各脉冲位置代码对应的位置上的脉冲位置,并根据该脉冲位置和极性生成并输出具有多个脉冲的时间序列向量。就是说,所输出的时间序列向量,生成由多个脉冲构成的无噪声的声源。此外,可以看作是在该驱动声源编码装置10的驱动声源代码簿内以上述脉冲位置表等形式存储着无噪声的声源代码字。
驱动声源编码装置10,利用与由自适应声源编码装置4选定的自适应声源代码对应的重复周期使通过将各自适应声源代码输入该驱动声源代码簿而求得的各时间序列向量的基音周期化,并进一步使其通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,根据使所求得的临时合成音乘以适当增益后的信号与从自适应声源编码装置4输入的编码对象信号的差值检查两者之间的失真。
驱动声源编码装置10,对所有的驱动声源代码进行上述处理,并选择给出最小失真的驱动声源代码,同时将与所选定的驱动声源代码对应的时间序列向量作为驱动声源。然后,将该驱动声源与上述最小失真及驱动声源代码一起输出到最小失真选择装置17。
在驱动声源编码装置11中,存储着包含与驱动声源编码装置10不同的脉冲位置表的驱动声源代码簿。该驱动声源编码装置11的驱动声源代码簿,当输入以几位的二进数值表示的驱动声源代码时,将该驱动声源代码分离为多个脉冲位置代码和极性,读出存储在与脉冲位置表中的各脉冲位置代码对应的位置上的脉冲位置,并根据该脉冲位置和极性生成并输出具有多个脉冲的时间序列向量。在这种情况下,与驱动声源编码装置10一样,也由时间序列向量生成由多个脉冲构成的无噪声的声源,并可以看作是在该驱动声源代码簿内以上述脉冲位置表等形式存储着无噪声的声源代码字。
驱动声源编码装置11,利用与由自适应声源编码装置4选定的自适应声源代码对应的重复周期使通过将各自适应声源代码输入该驱动声源代码簿而求得的各时间序列向量的基音周期化,并进一步使其通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与从自适应声源编码装置4输入的编码对象信号的差值,并根据该差值检查两者之间的失真。
驱动声源编码装置11,对所有的驱动声源代码进行上述处理,并选择给出最小失真的驱动声源代码,同时将与所选定的驱动声源代码对应的时间序列向量作为驱动声源。然后,将该驱动声源与上述最小失真及驱动声源代码一起输出到最小失真选择装置17。
功率计算装置12,计算接收到的输入语音1的帧内的信号功率,并将所求得的信号功率输出到阈计算装置13。阈值计算装置13,使从功率计算装置12输入的信号功率乘以预先准备好的与失真系数有关的常数,并将该计算结果作为与失真有关的阈值输出到比较装置15和变换装置16。
这里,如设预先准备好的常数为R、信号功率为P,则与失真有关的阈值Dth可按以下的式(2)求得。
Dth=R·P …(2)
另外,常数R是功率领域内的与失真系数有关的常数,在本实施形态1中设定为0.7。此外,使输入语音1的信号功率P乘以与失真系数有关的常数R而求得的与失真有关的阈值Dth,具有在式(1)所示的失真领域内定义的值。
另一方面,判定装置14,通过对接收到的输入语音1进行分析而判定语音形态。其结果是,当为语音的开始部分时,作为判定结果输出“0”,而当为其他部分时,作为判定结果输出“1”。是否是语音的开始,可以根据使输入语音1的信号功率除以前一帧的信号功率所得的商是否超过规定的阈值进行粗略的判定。
比较装置15,将从驱动声源编码装置9输入的失真D与从阈值计算装置13输入的与失真有关的阈值Dth进行比较,作为其比较结果,当失真D较大时输出“1”,在其他情况下输出“0”。变换装置16,接收从判定装置14输出的判定结果及从比较装置15输出的比较结果,当两者都为“1”时,将从驱动声源编码装置9输入的失真D置换为从阈值计算装置13输入的阈值Dth的值。而当从判定装置14输出的判定结果或从比较装置15输出的比较结果中的任何一方为“0”时,该变换装置16不进行上述置换处理。该变换装置16的置换处理结果,输出到最小失真选择装置17。
最小失真选择装置17,对从该变换装置16输入的失真、从驱动声源编码装置10输入的失真、从驱动声源编码装置11输入的失真进行比较,并从其中选择最小的失真。然后,将从输出该选定的失真的变换装置16或驱动声源编码装置10、11输出的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。进一步,将指示选择了上述3个失真中的哪一个的信息作为模式选择信息输出到多路复用装置7。
另外,由于式(1)的第一项与临时合成音y无关,所以对使失真D为最小的y的搜索,相当于对使如以下的式(3)所示的上述式(1)的第二项为最大的y的搜索。
因此,对多个临时合成音y计算由该式(3)示出的评价值d并选择可以提供使其为最大的临时合成音y的驱动声源代码,也能取得同样的结果。但是,当各驱动声源编码装置搜索使由式(3)示出的评价值d为最大的驱动声源代码并代替失真D而输出评价值d时,必须使阈值计算装置13、变换装置16、最小失真选择装置17中的处理进行如下的变更。
即,在阈值计算装置13中,设编码对象信号x的信号功率为P’,并按以下的式(4)计算与评价值d对应的阈值dth。
dth=P’-R·P …(4)
这里,该式(4),可以通过将式(1)与式(3)合并以求得以下的式(5)并将式(2)代入所求得的式(5)的第二项而导出。而式(5)的第一项是编码对象信号的信号功率P’。这时,作为对阈值计算装置13的输入,必须追加从自适应声源编码装置4输出的编码对象信号。
另外,在比较装置15中,将从驱动声源编码装置9输入的评价值d与从阈值计算装置13输入的阈值dth进行比较,作为其比较结果,当评价值d较小时输出“1”,在其他情况下输出“0”。将从比较装置15输出的比较结果及从判定装置14输出的判定结果输出到变换装置16,如两者都为“1”,则将从驱动声源编码装置9输出的结果中的评价值d置换为从阈值计算装置13输入的阈值dth的值。而在其他情况下不进行评价值d的置换处理。
将评价值d从变换装置16及驱动声源编码装置10和11输入到最小失真选择装置17。最小失真选择装置17,对上述3个评价值d进行比较,并从其中选择最大的评价值。然后,将从输出所选定的评价值的变换装置16或驱动声源编码装置10或驱动声源编码装置11输出的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。进一步,将指示选择了上述3个评价值中的哪一个的信息作为模式选择信息输出到多路复用装置7。
在增益编码装置6中,以增益代码簿的形式存储着表示与自适应声源和驱动声源对应的2个增益值的多个时间序列向量。该增益代码簿,当输入以几位的二进数值表示的增益代码时,将存储在与该增益代码对应的位置上的增益向量读出后输出。增益编码装置6,通过将各增益代码输入该增益代码簿而求出增益向量,使自适应声源编码装置4输出的自适应声源乘以其第一要素,使最小失真选择装置17输出的驱动声源乘以第二要素,并将所得到的2个信号相加,从而生成临时声源。接着,使该临时声源通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取所求得的临时合成音与输入语音1的差值,并根据该差值检查两者之间的失真。
增益编码装置6,对所有的增益代码进行上述处理,并选择给出最小失真的增益代码,同时将所选定的该增益代码输出到多路复用装置7,并将与所选定的增益代码对应的临时声源作为最终的声源输出到自适应声源编码装置4。
自适应声源编码装置4,当接收从该增益编码装置6输出的最终的声源时,根据该最终的声源对存储在内部的自适应声源代码部进行更新。
在这之后,多路复用装置7,对从线性预测系数编码装置3输出的线性预测系数的代码、从自适应声源编码装置4输出的自适应声源代码、从驱动声源编码部5的最小失真选择装置17输出的驱动声源代码和模式选择信息及从增益编码装置6输出的增益代码进行多路复用,并输出所求得的语音代码8。
以下,边参照图7边对按照本实施形态1而使由语音译码装置将所求得的语音代码8译码后得到的译码音的主观质量即音质得到改善的情况进行说明。图7是表示用于对使编码失真为最小的声源模式的选择进行说明的各波形的示意图,图7(a)示出输入语音,图7(b)示出选择了为表现有噪声的语音而准备好的声源模式时的译码音(由语音译码装置将语音代码译码后的结果),图7(c)示出选择了为表现元音的语音而准备好的声源模式时的译码音。此外,由于图7(a)中示出的输入语音为具有噪声特征的区间的语音,如图所示,有噪声的输入语音,其振幅大的部分和小的部分经常混合在一个帧中。
当输入语音1为图7(a)所示的有噪声的语音时,使其模型化一般起不到任何作用,所以,无论在图7(b)所示的为表现有噪声的语音而准备好的声源模式(使用有噪声的声源代码字的声源模式)的情况下,还是在图7(c)所示的为表现元音的语音而准备好的声源模式(使用无噪声的声源代码字的声源模式)的情况下,编码时的失真系数都是较大的值。
这里,驱动声源编码装置9,使用由随机数生成的时间序列向量,并对应于图7(b)所示的为表现有噪声的语音而准备好的声源模式。而驱动声源编码装置10和11,使用脉冲声源及基音周期性,并对应于图7(c)所示的为表现元音的语音而准备好的声源模式。
如上所述,虽然从各驱动声源编码装置9~11输出的失真D都具有较大的值,但只有从驱动声源编码装置9输出的失真D由变换装置16装置置换为比失真D小的阈值Dth。其结果是,由最小失真选择装置17选择从驱动声源编码装置9输出的驱动声源代码,并产生图7(b)所示的译码音。因此,即使当图7(b)所示的译码音的失真大于图7(c)所示的译码音的失真时,在有噪声的区间等编码时的失真系数大的区间内,也仍能稳定地选择图7(b)所示的译码音。
另外,在本实施形态1中,仅当由判定装置14判定为不是语音的开始部分时,进行变换装置16的置换处理。即,如果当判定为语音的开始部分时也进行变换装置16的换处理从而产生图7(b)所示的译码音,则将失去破裂音的脉冲特征,或使元音的开始部分恶化成刺耳的音质。
另外,在本实施形态1中,由功率计算装置12计算输入语音1的信号功率,并由阈值计算装置13利用该信号功率进行阈值的计算。即,通过使输入语音1的信号功率乘以与失真系数有关的常数,计算具有一定的失真系数(SN比等)的失真值作为阈值。当驱动声源编码装置9的失真超过一定的失真系数(SN比等)时,使用该阈值置换该失真值,从而可以很容易地选择驱动声源编码装置9输出的失真。
另外,对于阈值计算装置13,在结构上也可以变形为不使用输入语音1的信号功率而直接输出固定阈值R。在这种情况下,变形为将各驱动声源编码装置9~11输出的失真作为除以输入语音1的信号功率P的值即失真系数输出,从而即使利用不同的结构也可以取得与上述实施形态1的情况相同的结果。
另外,在本实施形态1中,由功率计算装置12计算输入语音1的信号功率,但也可以变更为计算自适应声源编码装置4输出的编码对象信号的信号功率。在这种情况下,阈值计算装置13输出的阈值,不是与上述输入语音1所对应的失真有关的阈值,而是与编码对象信号所对应的失真有关的阈值。
另外,在稳态元音区间内可以用自适应声源进行良好的编码,因而编码对象信号有时具有振幅低于输入语音的噪声。如上所述,当结构为由功率计算装置12计算编码对象信号的信号功率时,阈值也变得较小,因而很容易引起由变换装置16进行的置换。但是,在稳态元音区间内,最好选择使失真为最小的驱动声源编码装置9~11,而不进行置换,所以,为使置换停止就必须修改判定装置14的判定处理。具体地说,判定装置14,只需当检测到语音的开始或元音区间时作为判定结果输出“0”而当为其他部分时作为判定结果输出“1”即可。元音区间的检测,可以利用输入语音1的基音周期性的大小、自适应声源编码装置4的编码处理中的中间参数等进行。
另外,在本实施形态1中,由功率计算装置12计算输入语音1的信号功率,并由阈值计算装置13利用该信号功率进行阈值的计算,但通过改变阈值计算装置13的计算式而使用振幅或对数功率等代替信号功率,也可以取得同样的结果。
另外,在本实施形态1中,在结构上,作为生成有噪声声源的驱动声源编码装置备有一个驱动声源编码装置9,而作为生成无噪声声源的驱动声源编码装置备有2个驱动声源编码装置10、11,但当然可以使前者为2个以上并使后者为1个或3个以上。
另外,在本实施形态1中,根据阈值Dth与失真D的比较结果将失真D置换为阈值Dth,但也可以准备将阈值Dth和失真D作为输入变量的函数,并将其输出值与失真D进行置换。
另外,在本实施形态1中,简单地将信号间的平方距离作为失真,但当然也可以是在语音编码装置中经常使用的听觉加权失真。
如上所述,按照本实施形态1,当从多种声源模式中选择一种并使用该声源模式按每个被称为帧的规定长度的区间对输入语音1进行编码时,按每种声源模式对从输入语音求得的编码对象信号进行编码,并将编码时的编码失真与固定的阈值或根据编码对象信号的信号功率决定的阈值进行比较,从而根据该比较结果进行声源模式的选择,所以,即使当编码失真较大时,也可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量即音质得到改善的效果。
进一步,按照本实施形态1,对预先决定的声源模式进行编码失真与阈值的比较,当编码失真超过阈值时,将该编码失真置换为阈值的值,并从所有声源模式的编码失真中选择与最小编码失真对应的声源模式,所以,当编码失真较大时,可以很容易地选择将编码失真置换后的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
进一步,按照本实施形态1,将阈值设定为对输入语音或编码对象信号规定的失真系数,所以,当编码时的失真系数大于规定值时,可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
进一步,按照本实施形态1,通过对输入语音或编码对象信号进行分析而判定语音形态,并仅当为规定的判定结果时,进行声源模式的选择而不使用编码失真与阈值的比较结果,所以,对于即使编码失真较大也很难引起译码音的质量恶化的输入语音,可以进行与以往的情况相同的声源模式选择,因而能更为精细地进行声源模式选择,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
进一步,按照本实施形态1,在语音形态的判定中,至少要判定是否是语音的开始,所以,在语音开始部分这样的编码失真往往较大的区间及其以外的区间内,可以根据编码失真改变声源模式选择的控制,因而可以消除语音开始部分的恶化,并能改善其他部分的语音模式选择,从而可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善,此外,对于上述语音开始的区间,脉冲声源通常比破裂音等有噪声的声源更为适合,因此,尽管编码失真较大也要优先选择特定的声源模式的控制,有时将引起恶化,但通过对语音的开始进行判定,能取得可以避免这种情况等的效果。
进一步,按照本实施形态1,由生成无噪声声源的声源模式及生成有噪声声源的声源模式构成多种声源模式,所以,当编码失真较大时,可以很容易地选择生成有噪声声源的声源模式,因而可以避免因选择生成无噪声声源的声源模式而引起的恶化,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
进一步,按照本实施形态1,由使用无噪声的声源代码字的声源模式及使用有噪声的声源代码字的声源模式构成多种声源模式,所以,当编码失真较大时,可以很容易地地选择使用有噪声的声源代码字的声源模式,因而可以避免因选择使用无噪声的声源代码字的声源模式而引起的恶化,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。实施形态2
图2是表示应用了本发明实施形态2的语音编码方法的语音编码装置的结构的框图。在图中,1是输入语音,2是线性预测系数分析装置,3是线性预测系数编码装置。6是增益编码装置,7是多路复用装置,8是语音代码,这些都是与图1中示出的标以相同符号的实施形态1的各部相同的部分。
另外,18是根据输入语音1及来自线性预测系数编码装置3的信号输出自适应声源、驱动声源、声源代码及模式选择信息的声源编码部。
在该声源编码部18内,19是备有由随机数生成的时间序列向量所构成的驱动声源代码簿并根据输入语音1及来自线性预测系数编码装置3的信号检查临时合成音与输入语音1之间的失真从而输出声源代码、失真及驱动声源的作为编码装置的声源编码装置。20是备有包含着脉冲位置表的驱动声源代码簿并根据输入语音1及来自线性预测系数编码装置3的信号检查临时合成音与输入语音1之间的失真从而输出声源代码、失真及驱动声源的作为编码装置的声源编码装置。21是由备有自适应声源代码部的自适应声源编码装置及备有驱动声源代码簿的驱动声源编码装置构成并根据输入语音1及来自线性预测系数编码装置3信号输出声源代码、失真、自适应声源及驱动声源的作为编码装置的声源编码装置。
22是计算输入语音的信号功率的功率计算装置,23是根据来自功率计算装置22的信号计算与失真有关的阈值的阈值计算装置,24是分析输入语音1并判定是否是语音的开始部分的判定装置。25是将来自声源编码装置19的信号与来自阈值计算装置23的阈值进行比较的比较装置,26是根据判定装置24的判定结果及比较装置25的比较结果进行声源编码装置19的输出变换的变换装置。27是根据来自变换装置26的信号及来自声源编码装置20和21的信号将自适应声源及驱动声源输出到增益编码装置6并将声源代码及模式选择信息输出到多路复用装置7的作为选择装置的最小失真选择装置。
如上所述,在上述实施形态2中,在结构为从声源编码装置19~21中选择一个的这一点上,与结构为选择驱动声源编码装置9~11中的一个的实施形态1不同。就是说,将本发明应用于除驱动声源编码装置外还包含自适应声源编码装置的高一级的声源编码装置19~21的选择。
以下,对动作进行说明。这里,以与上述实施形态1不同的部分为中心,根据图2进行说明。
首先,将输入语音1输入到线性预测系数分析装置2、增益编码装置6及声源编码部18。线性预测分析装置2,当输入语音1时对其进行分析,并在抽出作为语音的声谱包络信息的线性预测系数后,将其传送到线性预测系数编码装置3。线性预测系数编码装置3,对从线性预测分析装置2接收到的线性预测系数进行编码并输出到多路复用装置7,同时将为进行声源的编码而被量化了的线性预测系数输出到声源编码部18及增益编码装置6。另外,在声源编码部18中,将输入语音1输入到声源编码装置19~21、功率计算装置22及判定装置24,并将来自线性预测系数编码装置3的量化后的线性预测系数输入到声源编码装置19~21。
在声源编码装置19中,将由随机数生成的多个时间序列向量作为有噪声的声源代码字存储在驱动声源代码簿内。该声源编码装置19的驱动声源代码簿,当输入以几位的二进数值表示的声源代码时,从与该声源代码对应的位置读出并输出其中存储着的时间序列向量。此外,所输出的该时间序列向量生成有噪声的声源。声源编码装置19,使通过将各声源代码输入该驱动声源代码簿而得到的时间序列向量通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与输入语音1的差值,并根据该差值检查两者之间的失真。
声源编码装置19,对所有的声源代码进行上述处理,并选择给出最小失真的声源代码,同时将与所选定的声源代码对应的时间序列向量作为驱动声源。然后,将该驱动声源与上述最小失真及声源代码一起输出到比较装置25和变换装置26。
在声源编码装置20中,存储着包含脉冲位置表的驱动声源代码簿。该声源编码装置20的驱动声源代码簿,当输入以几位的二进数值表示的声源代码时,将该声源代码分离为多个脉冲位置代码和极性,读出存储在与脉冲位置表中的各脉冲位置代码对应的位置上的脉冲位置,并根据该脉冲位置和极性生成并输出具有多个脉冲的时间序列向量。该时间序列向量,生成由多个脉冲构成的无噪声声源,并可以看作是该驱动声源代码簿以脉冲位置表等形式存储着无噪声的声源代码字。
声源编码装置20,使通过将各声源代码输入该驱动声源代码簿而求得的各时间序列向量通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与输入语音1的差值,并根据该差值检查两者之间的失真。
声源编码装置20,对所有的声源代码进行上述处理,并选择给出最小失真的声源代码,同时将与所选定的声源代码对应的时间序列向量作为驱动声源。然后,将该驱动声源与上述最小失真及驱动声源代码一起输出到最小失真选择装置27。
声源编码装置21,由以自适应声源代码簿的形式存储着过去的规定长度的声源(信号)的自适应声源编码装置及存储着包含脉冲位置表的驱动声源代码簿的驱动声源编码装置构成。该声源编码装置21中的自适应声源编码装置具有的自适应声源代码簿,当输入以几位的二进数值表示的自适应声源代码时,根据该自适应声源代码计算重复周期,并利用该重复周期生成和输出使过去的声源周期反复的时间序列向量。此外,该声源编码装置21中的驱动声源编码装置具有的驱动声源代码簿,当输入以几位的二进数值表示的驱动声源代码时,将存储在与该驱动声源代码对应的位置上的时间序列向量读出后输出。该时间序列向量,生成由多个脉冲构成的无噪声声源,并可以看作是该驱动声源代码簿以脉冲位置表等形式存储着无噪声的声源代码字。
该声源编码装置21中的自适应声源编码装置,使通过将各自适应声源代码输入该自适应声源代码簿而得到的时间序列向量通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与输入语音1的差值,并根据该差值检查两者之间的失真。声源编码装置21中的自适应声源编码装置,对所有的声源代码进行上述处理,并选择给出最小失真的自适应声源代码,同时将与所选定的自适应声源代码对应的时间序列向量作为自适应声源输出。另外,计算输入语音1与使自适应声源产生的合成音乘以适当增益后的信号的差值,并将其作为编码对象信号输出。
另外,声源编码装置21的驱动声源编码装置,利用与由上述声源编码装置21的自适应声源编码装置选定的自适应声源代码对应的重复周期使通过将驱动声源代码输入该驱动声源代码簿而求得的各时间序列向量的基音周期化,并进一步使其通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与从自适应声源编码装置输入的编码对象信号的差值,并根据该差值检查两者之间的失真。声源编码装置21的驱动声源编码装置,对所有的驱动声源代码进行上述处理,并选择给出最小失真的驱动声源代码,然后将与所选定的驱动声源代码对应的时间序列向量作为驱动声源,并将该驱动声源与上述最小失真及驱动声源代码一起输出。
最后,声源编码装置21,对该自适应声源代码及驱动声源代码进行多路复用,并将所得到的结果作为声源代码而与上述自适应声源、驱动声源一起输出到最小失真选择装置27。
功率计算装置22,计算接收到的输入语音1的帧内的信号功率,并将所求得的信号功率输出到阈计算装置23。阈值计算装置23,使从功率计算装置22输入的信号功率乘以预先准备好的与失真系数有关的常数,并将该计算结果作为与失真有关的阈值输出到比较装置25和变换装置26。判定装置24,通过对接收到的输入语音1进行分析而判定语音形态。作为判定结果,当为语音的开始部分时输出“0”,而当为其他部分时输出 “1”。
比较装置25,将从声源编码装置19输入的失真与从阈值计算装置23输入的与失真有关的阈值进行比较,作为其比较结果,当失真较大时输出“1”,在其他情况下输出“0”。变换装置26,接收从判定装置24输出的判定结果及从比较装置25输出的比较结果,当两者都为“1”时,将从声源编码装置19输入的失真置换为从阈值计算装置23输入的阈值的值。而当从判定装置14的判定结果或从比较装置25的比较结果中的任何一方为“0”时,该变换装置26不进行上述置换处理。该变换装置26的置换处理结果,输出到最小失真选择装置27。
最小失真选择装置27,对从该变换装置26输入的失真、从声源编码装置20输入的失真、从声源编码装置21输入的失真进行比较,并从其中选择最小的失真。当选择了从变换装置26输入的失真时,将作为自适应声源的所有要素具有零值的信号及从变换装置26输入的驱动声源输出到增益编码装置6,并将从变换装置26输入的声源代码输出到多路复用装置7。而当选择了从声源编码装置20输入的失真时,将作为自适应声源的所有要素具有零值的信号及从声源编码装置20输入的驱动声源输出到增益编码装置6,并将从声源编码装置20输入的声源代码输出到多路复用装置7。另外,当选择了从声源编码装置21输入的失真时,将从声源编码装置21输入的自适应声源及驱动声源输出到增益编码装置6,并将从声源编码装置21输入的声源代码输出到多路复用装置7。进一步,将指示选择了上述3个失真中的哪一个的信息作为模式选择信息输出到多路复用装置7。
在增益编码装置6中,以增益代码簿的形式存储着表示与自适应声源和驱动声源对应的2个增益值的多个时间序列向量。该增益代码簿,当输入以几位的二进数值表示的增益代码时,将存储在与该增益代码对应的位置上的增益向量读出后输出。增益编码装置6,通过将各增益代码输入该增益代码簿而求出增益向量,使声源编码部18输出的自适应声源乘以其第一要素,使声源编码部18输出的驱动声源乘以第二要素,并将所得到的2个信号相加,从而生成临时声源。接着,使该临时声源通过采用了来自线性预测系数编码装置3的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取所求得的临时合成音与输入语音1的差值,并根据该差值检查两者之间的失真。
增益编码装置6,对所有的增益代码进行上述处理,并选择给出最小失真的增益代码,同时将所选定的该增益代码输出到多路复用装置7,并将与所选定的增益代码对应的临时声源作为最终的声源输出到声源编码装置21内的自适应声源编码装置。
声源编码装置21内的自适应声源编码装置,当接收从该增益编码装置6输出的最终的声源时,根据该最终的声源对存储在内部的自适应声源代码部进行更新。
在这之后,多路复用装置7,对从线性预测系数编码装置3输出的线性预测系数的代码、从声源编码部18输出的声源代码和模式选择信息及从增益编码装置6输出的增益代码进行多路复用,并输出所求得的语音代码8。
另外,作为本发明的实施形态2,说明了图2所示的备有多个还包含着自适应声源编码装置的高一级的声源编码装置并从其中选择一个的结构,但也可以是构成为使声源编码装置备有多个驱动声源编码装置并从其中选择一个的与上述实施形态相同的各种变形。
如上所述,按照本实施形态2,备有多个还包含着自适应声源编码装置的高一级的声源编码装置并从其中选择一个,所以,在该声源编码装置的选择中,也可以取得与上述实施形态1的情况相同的效果。实施形态3
图3是表示应用了本发明实施形态3的语音编码方法的语音编码装置的结构的框图。图中,对与图1的各部分相同的部分标以相同的符号而将其说明省略。在图中,28是根据输入语音1、来自线性预测系数编码装置3的信号及来自自适应声源编码装置4的信号输出驱动声源、驱动声源代码及模式选择信息的驱动声源编码部。
另外,29是根据来自功率计算装置12的信号计算与失真有关的第一阈值及第二阈值的阈值计算装置。30是将来自驱动声源编码装置10的信号与第一阈值进行比较的比较装置,31是根据该比较装置30和判定装置14的判定结果对驱动声源编码装置10的输出进行校正的作为变换装置的校正装置。32是将来自驱动声源编码装置11的信号与第二阈值进行比较的比较装置,33是根据该比较装置32和判定装置14的判定结果对驱动声源编码装置11的输出进行校正的作为变换装置的校正装置。此外,上述驱动声源编码部28,由阈值计算装置29、比较装置30、32、校正装置31、33、驱动声源编码装置9、10、11、功率计算装置12、判定装置14及最小失真选择装置17构成。
以下,对动作进行说明。这里,以与上述实施形态1不同的部分为中心,根据图3进行说明。
在这种情况下,也是将由线性预测系数编码装置3量化后的线性预测系数及来自自适应声源编码装置4的编码对象信号输入到驱动声源编码装置9~11。在该驱动声源编码装置9中,以驱动声源代码簿的形式存储着由随机数生成的多个时间序列向量。驱动声源编码装置9,与实施形态1的情况一样,利用该驱动声源代码簿选择使对从自适应声源编码装置4输入的编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到最小失真选择装置17。
另外,在驱动声源编码装置10中,存储着包含脉冲位置表的驱动声源代码簿。该驱动声源编码装置10,与实施形态1的情况一样,利用该驱动声源代码簿选择使对从自适应声源编码装置4输入的编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到比较装置30和校正装置31。同样,在驱动声源编码装置11中,存储着包含与驱动声源编码装置10不同的脉冲位置表的驱动声源代码簿。驱动声源编码装置11,利用该驱动声源代码簿选择使对从自适应声源编码装置4输入的编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到比较装置32和校正装置33。
另外,在这种情况下,在驱动声源编码装置9的驱动声源代码簿内,也存储着由随机数生成的有噪声的声源代码字,在驱动声源编码装置10、11的驱动声源代码簿内,以脉冲位置表等形式存储着无噪声的声源代码字,此外,由驱动声源编码装置9输出的时间序列向量,生成有噪声的声源,由驱动声源编码装置10、11输出的时间序列向量,生成无噪声的声源。
另一方面,阈值计算装置29,通过使由功率计算装置12计算出的信号功率乘以预先准备好的与失真系数有关的第一常数而求得与失真有关的第一阈值,通过乘以预先准备好的与失真系数有关的第二常数而求得与失真有关的第二阈值。将所求得的与失真有关的第一阈值输出到比较装置30和校正装置31,并将与失真有关的第二阈值输出到比较装置32和校正装置33。此外,这里,对于预先准备好的第一和第二与失真系数有关的常数,当编码失真较大时,将驱动声源编码装置10和11中的译码音的恶化程度更大的一方的常数设定得较小。与该失真系数有关的常数越小,编码失真越大,在这种情况下,使将在后文中说明的比较装置30、32中的比较结果为“1”。
判定装置14,与实施形态1的情况一样,通过对输入语音1进行分析而判定语音形态。作为判定的结果,当为语音的开始部分时输出“0”,而当为其他部分时输出“1”。
比较装置30,将从驱动声源编码装置10输入的失真与从阈值计算装置29输入的第一阈值进行比较,当失真较大时,输出“1”作为其比较结果,在其他情况下输出“0”作为其比较结果。校正装置31,当从判定装置14输出的判定结果及从比较装置30输出的比较结果都为“1”时,利用从阈值计算装置29输入的第一阈值对从驱动声源编码装置10输出的结果中的失真进行校正,并将校正后的值作为新的失真输出到最小失真选择装置17。在其他起情况下不进行上述校正,而是将从驱动声源编码装置10输出的失真直接输出到最小失真选择装置17。关于该校正装置31的校正,如设失真为D、阈值为Dth,例如可以用以下的式(6)进行。
D’=D+α(D-Dth) …(6)
式中,D’为校正后的失真,α为正的常数。
另外,校正装置31的校正,当然也可以利用采用指数函数等的比式(6)复杂的校正,并可以校正为非常大的固定值。当校正为非常大的固定值时,最小失真选择装置17,基本上不选择驱动声源编码装置10。
另外,比较装置32,将从驱动声源编码装置11输入的失真与从阈值计算装置29输入的第二阈值进行比较,当失真较大时,输出“1”作为其比较结果,在其他情况下输出“0” 作为其比较结果。校正装置33,当从判定装置14输出的判定结果及从比较装置30输出的比较结果都为“1”时,利用从阈值计算装置29输入的第二阈值对从驱动声源编码装置11输出的结果中的失真进行校正,并将校正后的值作为新的失真输出到最小失真选择装置17。在其他起情况下不进行校正,而是将从驱动声源编码装置11输出的失真直接输出到最小失真选择装置17。另外,关于其校正,可以按与校正装置31相同的方式进行。
最小失真选择装置17,对从驱动声源编码装置9、校正装置31及校正装置33输入的各失真进行比较,并从其中选择最小的失真。其结果是,当选择了从驱动声源编码装置9输入的失真时,将从驱动声源编码装置9输入的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。而当选择了从校正装置31输入的失真时,将从驱动声源编码装置10通过校正装置31输入的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。同样,当选择了从校正装置33输入的失真时,将从驱动声源编码装置11通过校正装置33输入的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。进一步,将指示选择了上述3个失真中的哪一个的信息作为模式选择信息输出到多路复用装置7。
以下,边参照图7边对按照本实施形态3而使由语音译码装置将所求得的语音代码8译码后得到的译码音的主观质量(音质)得到改善的情况进行说明。
图7是表示用于对使编码失真为最小的声源模式的选择进行说明的各波形的示意图,图7(a)示出输入语音,图7(b)示出选择了为表现有噪声的语音而准备好的声源模式时的译码音,图7(c)示出选择了为表现元音的语音而准备好的声源模式时的译码音。当输入语音1为图7(a)所示的有噪声的语音时,使其模型化一般起不到任何作用,所以,无论在图7(b)所示的为表现有噪声的语音而准备好的声源模式的情况下,还是在图7(c)所示的为表现元音的语音而准备好的声源模式的情况下,编码时的失真系数都是较大的值。
这里,驱动声源编码装置9,使用由随机数生成的时间序列向量,并对应于图7(b)所示的为表现有噪声的语音而准备好的声源模式。而驱动声源编码装置10和11,使用脉冲声源及基音周期性,并对应于图7(c)所示的为表现元音的语音而准备好的声源模式。虽然从各驱动声源编码装置9~11输出的失真D都具有较大的值,但从驱动声源编码装置10和11输出的失真D由校正装置31或33校正为比失真D大的值。其结果是,由最小失真选择装置17选择从驱动声源编码装置9输出的驱动声源代码,并产生图7(b)所示的译码音。因此,即使当图7(b)的失真大于图7(c)的失真,在有噪声的区间等编码时的失真系数大的区间内,也仍能稳定地选择图7(b)所示的译码音。
另外,在本实施形态3中,说明了由驱动声源编码装置9~11搜索使式(1)所示的失真D为最小的驱动声源代码并输出最小失真D的结构,但与实施形态1的情况一样,也可以构成为搜索使式(3)所示的评价值d为最大的驱动声源代码并代替失真D而输出评价值d。
另外,在本实施形态3中,可以变形为使阈值计算装置29直接输出2个固定阈值并将各驱动声源编码装置9~11输出的失真作为除以输入语音1的信号功率的值即失真系数输出,也可以变更为由功率计算装置12计算自适应声源编码装置4输出的编码对象信号的信号功率,还可以变更为代替信号功率而计算振幅或对数功率等。
另外,在本实施形态3中,在结构上,作为生成有噪声声源的驱动声源编码装置备有一个驱动声源编码装置9,而作为生成无噪声声源的驱动声源编码装置备有2个驱动声源编码装置10、11,但当然可以使前者为2个以上并使后者为1个或3个以上。
另外,在本实施形态3中,简单地将信号间的平方距离作为失真,但当然也可以是在语音编码装置中经常使用的听觉加权失真。
如上所述,按照本实施形态3,与实施形态1的情况一样,即使当编码失真较大时,或当编码时的失真系数大于规定值时,也可以选择译码音的质量很少恶化的声源模式,另外,对于即使编码失真较大也很难引起译码音的质量恶化的输入语音,可以进行与以往的情况相同的声源模式选择,因而能更为精细地进行声源模式选择,此外,在编码失真往往较大的区间及其以外的区间内,可以根据编码失真改变声源模式选择的控制,因而可以消除语音开始部分的恶化,并能改善其他部分的语音模式选择,进一步,当编码失真较大时,可以很容易地选择生成有噪声声源的声源模式或使用有噪声的声源代码字的声源模式,因而可以避免因选择生成无噪声声源的声源模式或使用无噪声的声源代码字的声源模式而引起的恶化,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
另外,按照本实施形态3,可以对所得到的比较结果为编码失真超过阈值的声源模式的选择进行抑制,所以,当编码失真较大时,可以很容易地选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
进一步,按照本实施形态3,按每种声源模式准备了阈值,所以,通过按每种声源模式对用于检测引起译码音质量恶化的情况的阈值进行适当的调整,可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。实施形态4
图4是表示应用了本发明实施形态4的语音编码方法的语音编码装置的结构的框图。图中,对与图1的各部分相同的部分标以相同的符号而将其说明省略。在图中,34是根据输入语音1、来自线性预测系数编码装置3的信号及来自自适应声源编码装置4的信号输出驱动声源、驱动声源代码及模式选择信息的驱动声源编码部。
另外,35是根据来自驱动声源编码装置9~11的信号输出最小失真、与该最小失真对应的驱动声源、驱动声源代码、模式选择信息的作为选择装置的最小失真选择装置。36是将来自最小失真选择装置35的最小失真与来自阈值计算装置13的阈值进行比较的比较装置,37是根据该比较装置36及判定装置14的判定结果用驱动声源编码装置9的输出置换来自最小失真选择装置35的驱动声源和驱动声源代码的置换装置。此外,上述驱动声源编码部34,由最小失真选择装置35、比较装置36、置换装置37、驱动声源编码装置9、10、11、功率计算装置12、阈值计算装置13及判定装置14构成。
以下,对动作进行说明。这里,以与上述实施形态1不同的部分为中心,根据图4进行说明。
在这种情况下,也是将由线性预测系数编码装置3量化后的线性预测系数及来自自适应声源编码装置4的编码对象信号输入到驱动声源编码装置9~11。在该驱动声源编码装置9中,以驱动声源代码簿的形式存储着由随机数生成的多个时间序列向量。驱动声源编码装置9,与实施形态1的情况一样,利用该驱动声源代码簿选择使对从自适应声源编码装置4输入的编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到最小失真选择装置35和置换装置37。
另外,在驱动声源编码装置10中,存储着包含脉冲位置表的驱动声源代码簿。驱动声源编码装置10,利用该驱动声源代码簿选择使对从自适应声源编码装置4输入的编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到最小失真选择装置35。同样,在驱动声源编码装置11中,存储着包含与驱动声源编码装置10不同的脉冲位置表的驱动声源代码簿。驱动声源编码装置11,利用该驱动声源代码簿选择使对从自适应声源编码装置4输入的编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到最小失真选择装置35。
另外,在这种情况下,在驱动声源编码装置9的驱动声源代码簿内,也存储着由随机数生成的有噪声的声源代码字,在驱动声源编码装置10、11的驱动声源代码簿内,以脉冲位置表等形式存储着无噪声的声源代码字,此外,由驱动声源编码装置9输出的时间序列向量,生成有噪声的声源,由驱动声源编码装置10、11输出的时间序列向量,生成无噪声的声源。
最小失真选择装置35,对从上述各驱动声源编码装置9~11输入的各失真进行比较,从其中选择最小的失真,并将该最小失真输出到比较装置36。此外,将驱动声源编码装置9~11中的与最小失真对应的一个输入的驱动声源和驱动声源代码输出到置换装置37,并进一步将指示选择了上述3个失真中的哪一个的信息作为模式选择信息输出到置换装置37。另外,判定装置14,通过对输入语音1进行分析而判定语音形态,作为判定结果,当为语音的开始部分时,将“0”输出到置换装置37,而当为其他部分时,将“1”输出到置换装置37。
另一方面,将由阈值计算装置13根据来自功率计算装置12的信号功率计算出的与失真有关的阈值由上述最小失真选择装置35选定的失真一起输出到比较装置36。而比较装置36则将从最小失真选择装置35输入的失真与从阈值计算装置13输入的阈值进行比较,作为比较结果,当失真较大时,将“1”输出到置换装置37,在其他情况下将“0”输出到置换装置37。
置换装置37,接收从判定装置14输出的判定结果及从比较装置36输出的比较结果,当两者都为“1”时,将从最小失真选择装置35输出的驱动声源和驱动声源代码置换为从驱动声源编码装置9输出的驱动声源和驱动声源代码。而在其他情况下不进行上述置换。将作为该置换装置37的置换处理结果的最终的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。以下,边参照图7边对按照本实施形态4而使由语音译码装置将所求得的语音代码8译码后得到的译码音的主观质量(音质)得到改善的情况进行说明。
图7是表示用于对使编码失真为最小的声源模式的选择进行说明的各波形的示意图,图7(a)示出输入语音,图7(b)示出选择了为表现有噪声的语音而准备好的声源模式时的译码音,图7(c)示出选择了为表现元音的语音而准备好的声源模式时的译码音。当输入语音1为图7(a)所示的有噪声的语音时,使其模型化一般起不到任何作用,所以,无论在图7(b)所示的为表现有噪声的语音而准备好的声源模式的情况下,还是在图7(c)所示的为表现元音的语音而准备好的声源模式的情况下,编码时的失真系数都是较大的值。
这里,驱动声源编码装置9,使用由随机数生成的时间序列向量,并对应于图7(b)所示的为表现有噪声的语音而准备好的声源模式。而驱动声源编码装置10和11,使用脉冲声源及基音周期性,并对应于图7(c)所示的为表现元音的语音而准备好的声源模式。虽然从各驱动声源编码装置9~11输出的失真D都具有较大的值,但由最小失真选择装置35选择从因其振幅大的部分上的编码失真较小所以其失真D往往较小的驱动声源编码装置10和11输出的失真。由于所选定的最小失真D还是大于来自阈值计算装置13的阈值Dth,所以由置换装置37将从最小失真选择装置35输出的驱动声源编码装置10或11的驱动声源代码置换为从驱动声源编码装置9输出的驱动声源代码,从而产生图7(b)所示的译码音。因此,即使当图7(b)的失真大于图7(c)的失真,在有噪声的区间等编码时的失真系数大的区间内,也仍能稳定地选择图7(b)所示的译码音。
另外,在本实施形态4中,与实施形态1一样,也可以构成为由各驱动声源编码装置9~11搜索使式(3)所示的评价值d为最大的驱动声源代码并代替失真D而输出评价值d。在这种情况下,由最小失真选择装置35选择最大的评价值,并在比较装置36中使大小的比较关系与输出结果的关系反转。此外,还必须由阈值计算装置13计算与评价值d对应的dth。
另外,在本实施形态4中,可以变形为使阈值计算装置13直接输出固定的阈值并将各驱动声源编码装置9~11输出的失真作为除以输入语音1的信号功率的值即失真系数输出,也可以变更为由功率计算装置12计算自适应声源编码装置4输出的编码对象信号的信号功率,还可以变更为代替信号功率而计算振幅或对数功率等。
另外,在本实施形态4中,在结构上,作为生成有噪声声源的驱动声源编码装置备有一个驱动声源编码装置9,而作为生成无噪声声源的驱动声源编码装置备有2个驱动声源编码装置10、11,但当然可以使前者为2个以上并使后者为1个或3个以上。
另外,在本实施形态4中,简单地将信号间的平方距离作为失真,但当然也可以是在语音编码装置中经常使用的听觉加权失真。
如上所述,按照本实施形态4,当从多种声源模式中选择一种并使用该声源模式按每个被称为帧的规定长度的区间对输入语音1进行编码时,按每种声源模式对从输入语音求得的编码对象信号进行编码,然后从中选择一个并将其和编码时的编码失真与固定的阈值或根据编码对象信号的信号功率决定的阈值进行比较,从而根据该比较结果进行编码失真的输出变换,所以,即使当编码失真较大时,也可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
进一步,按照本实施形态4,与实施形态1的情况一样,即使当编码时的失真系数大于规定值时,也可以选择译码音的质量很少恶化的声源模式,另外,对于即使编码失真较大也很难引起译码音的质量恶化的输入语音,可以进行与以往的情况相同的声源模式选择,因而能更为精细地进行声源模式选择,此外,在编码失真往往较大的区间及其以外的区间内,可以根据编码失真改变声源模式选择的控制,因而可以消除语音开始部分的恶化,并能改善其他部分的语音模式选择,进一步,当编码失真较大时,可以很容易地选择生成有噪声声源的声源模式或使用有噪声的声源代码字的声源模式,因而可以避免因选择生成无噪声声源的声源模式或使用无噪声的声源代码字的声源模式而引起的恶化,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
进一步,按照本实施形态4,从编码失真中选择最小的一个,将所选定的编码失真与阈值进行比较,并根据该其比较结果进行声源模式的选择,所以,当编码失真较大时,可以强制性地选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
进一步,按照本实施形态4,从编码失真中选择最小的一个,并当所选定的编码失真超过阈值时,选择预先决定的声源模式,所以,可以强制性地选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。实施形态5
图5是表示应用了本发明实施形态5的语音编码方法的语音编码装置的结构的框图。图中,对与图1的各部分相同的部分标以相同的符号而将其说明省略。在图中,38是根据输入语音1、来自线性预测系数编码装置3的信号及来自自适应声源编码装置4的信号输出驱动声源、驱动声源代码及模式选择信息的驱动声源编码部。
另外,39是分析输入语音1并进行是否是语音的开始部分的判定的判定装置,但在将判定结果输出到阈值计算装置而不是输出到变换装置这一点上,与图1中标以符号14的装置不同。40是根据该判定装置39的判定结果及来自功率计算装置12的信号功率计算阈值的阈值计算装置。41是根据比较装置15的比较结果进行驱动声源编码装置9的输出变换的变换装置。此外,上述驱动声源编码部38,由判定装置39、阈值计算装置40、变换装置41、驱动声源编码装置9~11、功率计算装置12、比较装置15及最小失真选择装置17构成。
以下,对动作进行说明。这里,以与上述实施形态1不同的部分为中心,根据图5进行说明。
在这种情况下,也是将由线性预测系数编码装置3量化后的线性预测系数及来自自适应声源编码装置4的编码对象信号输入到驱动声源编码部38内的驱动声源编码装置9~11。驱动声源编码装置9,利用存储了由随机数生成的多个时间序列向量的驱动声源代码簿,选择使对编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到变换装置41和比较装置15。此外,驱动声源编码装置10和11,利用包含着各自不同的脉冲位置表的驱动声源代码簿,选择使对编码对象信号进行编码时的失真为最小的驱动声源代码,并将与所选定的该声源代码对应的时间序列作为驱动声源而与最小失真及驱动声源代码一起输出到最小失真选择装置17。
另外,在这种情况下,在驱动声源编码装置9的驱动声源代码簿内,也存储着由随机数生成的有噪声的声源代码字,在驱动声源编码装置10、11的驱动声源代码簿内,以脉冲位置表等形式存储着无噪声的声源代码字,此外,由驱动声源编码装置9输出的时间序列向量,生成有噪声的声源,由驱动声源编码装置10、11输出的时间序列向量,生成无噪声的声源。
另一方面,功率计算装置12,计算输入语音1的帧内的信号功率,并将所求得的信号功率输出到阈计算装置40。此外,判定装置39,通过对输入语音1进行分析而判定语音形态,作为判定结果,当为语音的开始部分时,将“0”输出到阈计算装置40,而当为其他部分时,将“1”输出到阈计算装置40。
阈计算装置40,当判定装置39的判定结果为“0”时,使来自功率计算装置12的信号功率乘以预先准备好的与失真系数有关的第一常数,当判定装置39的判定结果为“1”时,使从功率计算装置12输入的信号功率乘以预先准备好的与失真系数有关的第二常数。将通过该乘法运算求得的结果作为与失真系数有关的阈值而分别输出到比较装置15和变换装置41。另外,将上述第一常数设定为大于第二常数。例如,将第一常数设定为0.9,将第二常数设定为0.7。
比较装置15,将从驱动声源编码装置9输入的失真与从阈值计算装置40输入的阈值进行比较,作为比较结果,当失真较大时将“1”输出到变换装置41,在其他情况下将“0”输出到变换装置41。变换装置41,当从该比较装置15输出的比较结果为“1”时,将从驱动声源编码装置9输出的结果中的失真置换为从阈值计算装置40输入的阈值的值,并输出到最小失真选择装置17。在其他情况下不进行上述置换处理,而是将从驱动声源编码装置9输出的结果中的失真直接输出到最小失真选择装置17。
最小失真选择装置17,对从该变换装置41输入的失真及从驱动声源编码装置10和11输入的失真进行比较,并从其中选择最小的失真。然后,将从输出该选定的最小失真的变换装置41或驱动声源编码装置10或驱动声源编码装置11输出的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。进一步,将指示选择了上述3个失真中的哪一个的信息作为模式选择信息输出到多路复用装置7。
以下,边参照图7边对按照本实施形态5而使由语音译码装置将所求得的语音代码8译码后得到的译码音的主观质量(音质)得到改善的情况进行说明。
图7是表示用于对使编码失真为最小的声源模式的选择进行说明的各波形的示意图,当输入语音1为图7(a)所示的有噪声的语音时,使其模型化一般起不到任何作用,所以,无论在图7(b)所示的为表现有噪声的语音而准备好的声源模式的情况下,还是在图7(c)所示的为表现元音的语音而准备好的声源模式的情况下,编码时的失真系数都是较大的值。
这里,驱动声源编码装置9,使用由随机数生成的时间序列向量,并对应于图7(b)所示的为表现有噪声的语音而准备好的声源模式。而驱动声源编码装置10和11,使用脉冲声源及基音周期性,并对应于图7(c)所示的为表现元音的语音而准备好的声源模式。当判定装置39判定为是语音的开始并输出判定结果“0”时,在阈计算装置40中计算出较大的阈值。因此,虽然从驱动声源编码装置9输出的失真D是较大的值,但尚未超过阈值,因而不进行变换装置41中的置换处理。其结果是,由最小失真选择装置17选择因其振幅大的部分上的编码失真较小所以其失真D往往较小的驱动声源编码装置10和11,从而产生图7(c)所示的译码音。当判定装置39判定为不是语音的开始部分并输出判定结果“1”时,在阈计算装置40中计算出较小的阈值。因此,使从驱动声源编码装置9输出的失真D超过阈值,因而由变换装置41置换为比失真D小的阈值Dth。其结果是,由最小失真选择装置17选择从驱动声源编码装置9输出的驱动声源代码,从而产生图7(b)所示的译码音。因此,即使当图7(b)的失真大于图7(c)的失真,在有噪声的区间等编码时的失真系数大的区间内,也仍能稳定地选择图7(b)所示的译码音。
另外,如果在语音的开始部分也采用较小的阈值而产生图7(b)所示的译码音,则将失去破裂音的脉冲特征,或使元音的开始部分恶化成刺耳的音质。在本实施形态5中,根据判定装置39的判定结果决定阈值,从而可以避免开始部分的恶化。
另外,在本实施形态5中,与实施形态1一样,也可以构成为由各驱动声源编码装置9~11搜索使式(3)所示的评价值d为最大的驱动声源代码并代替失真D而输出评价值d。在这种情况下,由最小失真选择装置17选择最大的评价值,并在比较装置15中使大小的比较关系与输出结果的关系反转。此外,还必须由阈值计算装置40计算与评价值d对应的dth。
另外,在本实施形态5中,可以变形为使阈值计算装置40将第一常数或第二常数直接作为阈值输出,并将各驱动声源编码装置9~11输出的失真作为除以输入语音1的信号功率的值即失真系数输出,也可以变更为由功率计算装置12计算自适应声源编码装置4输出的编码对象信号的信号功率,还可以变更为代替信号功率而计算振幅或对数功率等。
另外,在本实施形态5中,在结构上,作为生成有噪声声源的驱动声源编码装置备有一个驱动声源编码装置9,而作为生成无噪声声源的驱动声源编码装置备有2个驱动声源编码装置10、11,但当然可以使前者为2个以上并使后者为1个或3个以上。
另外,在本实施形态5中,简单地将信号间的平方距离作为失真,但当然也可以是在语音编码装置中经常使用的听觉加权失真。
另外,在本实施形态5中,由阈值计算装置40根据判定装置39的判定结果选择和使用预先准备好的与失真系数有关的2个常数之一,但如判定结果为3个以上,则也可以使对应的常数为3个以上,因而能进行更为精细的控制。进一步,也可以由判定装置39通过分析输入语音1而计算连续值的判定参数,并由阈值计算装置40根据该判定参数计算由连续值构成的阈值。
如上所述,按照本实施形态5,与实施形态1的情况一样,即使当编码失真较大时,或当编码时的失真系数大于规定值时,也可以选择译码音的质量很少恶化的声源模式,另外,即使当编码失真较大时,也可以很容易地选择将编码失真置换后的声源模式,此外,在编码失真往往较大的区间及其以外的区间内,可以根据编码失真改变声源模式选择的控制,因而可以消除语音开始部分的恶化,并能改善其他部分的语音模式选择,进一步,当编码失真较大时,可以很容易地选择生成有噪声声源的声源模式或使用有噪声的声源代码字的声源模式,因而可以避免因选择生成无噪声声源的声源模式或使用无噪声的声源代码字的声源模式而引起的恶化,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
进一步,按照本实施形态5,通过对输入语音1或编码对象信号进行分析而判定语音形态,并利用根据该判定结果决定的阈值进行比较,所以,可以利用根据语音形态适当决定的阈值进行声源模式的选择,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。实施形态6
图6是表示应用了本发明实施形态6的语音编码方法的语音编码装置的结构的框图。图中,对与图1的各部分相同的部分标以相同的符号而将其说明省略。在图中,42是根据输入语音1、来自线性预测系数编码装置3的信号及来自自适应声源编码装置4的信号输出驱动声源、驱动声源代码及模式选择信息的驱动声源编码部。
另外,43是由随机数生成的时间序列向量构成的驱动声源代码簿,44是利用该驱动声源代码簿43并根据来自线性预测系数编码装置3及自适应声源编码装置4的信号检查临时合成音与编码对象信号之间的失真从而输出驱动声源的作为编码装置的驱动声源编码装置。45是包含着脉冲位置表的驱动声源代码簿,46是利用该驱动声源代码簿45并根据来自线性预测系数编码装置3及自适应声源编码装置4的信号检查临时合成音与编码对象信号之间的失真从而输出驱动声源代码的作为编码装置的驱动声源编码装置。此外,上述驱动声源编码部42,由功率计算装置12、阈值计算装置13、判定装置14、比较装置15、变换装置16、最小失真选择装置17、驱动声源代码簿43、45、驱动声源编码装置44、46构成。
以下,对动作进行说明。这里,以与上述实施形态1不同的部分为中心,根据图6进行说明。
在驱动声源代码簿43内,存储着由随机数生成的多个时间序列向量。该驱动声源代码簿43,当输入以几位的二进数值表示的驱动声源代码时,将存储在与该驱动声源代码对应的位置上的时间序列向量读出后输出。驱动声源编码装置44,使通过将各驱动声源代码输入该驱动声源代码簿43而得到的时间序列向量通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与从自适应声源编码装置4输入的编码对象信号的差值,并根据该差值检查两者之间的失真。
驱动声源编码装置44,对所有的声源代码进行上述处理,选择给出最小失真的驱动声源代码,并将与所选定的驱动声源代码对应的时间序列向量作为驱动声源而与上述最小失真及声源代码一起输出到比较装置15和变换装置16。
另外,在驱动声源代码簿45内,存储着包含着脉冲位置表的代码簿。驱动声源代码簿45,当输入以几位的二进数值表示的驱动声源代码时,将该驱动声源代码分离为多个脉冲位置代码和极性,读出存储在与脉冲位置表中的各脉冲位置代码对应的位置上的脉冲位置,并根据该脉冲位置和极性生成并输出具有多个脉冲的时间序列向量。进一步,驱动声源代码簿45,利用与由自适应声源编码装置4选定的自适应声源代码对应的重复周期使所生成的该时间序列向量的基音周期化,并输出到驱动声源编码装置46。
驱动声源编码装置46,使通过将各驱动声源代码输入该驱动声源代码簿45而得到的各时间序列向量通过采用了线性预测系数编码装置3输出的量化后的线性预测系数的合成滤波器进行滤波,从而求得临时合成音。然后,求取使所求得的临时合成音乘以适当增益后的信号与从自适应声源编码装置4输入的编码对象信号的差值,并根据该差值检查两者之间的失真。驱动声源编码装置46,对所有的声源代码进行上述处理,选择给出最小失真的驱动声源代码,并将与所选定的驱动声源代码对应的时间序列向量作为驱动声源而与上述最小失真及声源代码一起输出到最小失真选择装置17。
另外,在这种情况下,在驱动声源编码装置44的驱动声源代码簿43内,也存储着由随机数生成的有噪声的声源代码字,在驱动声源编码装置46的驱动声源代码簿45内,以脉冲位置表等形式存储着无噪声的声源代码字,此外,由驱动声源编码装置44输出的时间序列向量,生成有噪声的声源,由驱动声源编码装置46输出的时间序列向量,生成无噪声的声源。
另一方面,功率计算装置12,计算接收到的输入语音1的帧内的信号功率并将其输出到阈计算装置13。阈值计算装置13,使从功率计算装置12输入的信号功率乘以预先准备好的与失真系数有关的常数,并将所求得的结果作为与失真有关的阈值输出到比较装置15和变换装置16。另外,判定装置14,通过对输入语音1进行分析而判定语音形态,作为判定结果,当为语音的开始部分时,将“0”输出到阈值计算装置13,而当为其他部分时,将“1”输出到阈值计算装置13。
比较装置15,将从驱动声源编码装置44输入的失真与从阈值计算装置13输入的阈值进行比较,作为比较结果,当失真较大时将“1”输出到变换装置16,在其他情况下将“0”输出到变换装置16。当从该判定装置14输出的判定结果及从比较装置15输出的比较结果都为“1”时,变换装置16,将从驱动声源编码装置44输入的结果中失真置换为从阈值计算装置13输入的阈值的值并输出到最小失真选择装置17。在其他情况下不进行上述置换,而是将从驱动声源编码装置44输入的失真直接输出到最小失真选择装置17。
最小失真选择装置17,对从该变换装置16输入的失真及从驱动声源编码装置46输入的失真进行比较,并从其中选择最小的失真。然后,将从输出该选定的最小失真的变换装置16或驱动声源编码装置46输出的驱动声源输出到增益编码装置6,并将驱动声源代码输出到多路复用装置7。进一步,将指示选择了上述2个失真中的哪一个的信息作为模式选择信息输出到多路复用装置7。
这里,该驱动声源编码装置44与驱动声源编码装置46中的编码处理的差异,仅仅是所访问的驱动声源代码簿43、45的不同。在这种情况下,可以变形为使驱动声源代码簿43与驱动声源代码簿45合为一体并由一个驱动声源编码装置进行搜索。这时,通过分别独立地计算与驱动声源代码簿43对应的驱动声源的失真及与驱动声源代码簿45对应的失真并将前者的失真输入到变换装置16,可以取得同样的效果。就是说,如果将与一个驱动声源代码簿对应的驱动声源代码分成与有噪声的代码字对应的和与无噪声的代码字对应的2组并将前者看作是驱动声源代码簿43而将后者看作是驱动声源代码簿45,则可以应用本实施形态6。
另外,在本实施形态6中,与实施形态1一样,也可以构成为由驱动声源编码装置44、46搜索使式(3)所示的评价值d为最大的驱动声源代码并代替失真D而输出评价值d。在这种情况下,由最小失真选择装置17选择最大的评价值,并在比较装置15中使大小的比较关系与输出结果的关系反转。此外,还必须由阈值计算装置13计算与评价值d对应的dth。
另外,在本实施形态6中,可以变形为使阈值计算装置13将与失真系数有关的常数直接作为阈值输出,并将驱动声源编码装置44、46输出的失真作为除以输入语音1的信号功率的值即失真系数输出,也可以变更为由功率计算装置12计算自适应声源编码装置4输出的编码对象信号的信号功率,还可以变更为代替信号功率而计算振幅或对数功率等。
另外,在本实施形态6中,在结构上,作为生成有噪声声源的驱动声源编码装置的驱动声源编码装置44及作为生成无噪声声源的驱动声源编码装置的驱动声源编码装置46,各备有1个,但当然可以使其分别为2个以上。
另外,在本实施形态6中,简单地将信号间的平方距离作为失真,但当然也可以是在语音编码装置中经常使用的听觉加权失真。
如上所述,按照本实施形态6,与实施形态1的情况一样,即使当编码失真较大时,或当编码时的失真系数大于规定值时,也可以选择译码音的质量很少恶化的声源模式,另外,即使当编码失真较大时,也可以很容易地选择将编码失真置换后的声源模式,此外,对于即使编码失真较大也很难引起译码音的质量恶化的输入语音,可以进行与以往的情况相同的声源模式选择,因而能更为精细地进行声源模式选择,此外,在编码失真往往较大的区间及其以外的区间内,可以根据编码失真改变声源模式选择的控制,因而可以消除语音开始部分的恶化,并能改善其他部分的语音模式选择,进一步,当编码失真较大时,可以很容易地选择生成有噪声声源的声源模式或使用有噪声的声源代码字的声源模式,因而可以避免因选择生成无噪声声源的声源模式或使用无噪声的声源代码字的声源模式而引起的恶化,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。实施形态7
在上述实施形态2中,说明了备有由自适应声源编码装置及驱动声源编码装置构成的多个声源编码装置19~21并从中选择一个的结构,但也可以备有多个还包含着增益编码装置6的更高一级的多个声源编码装置,并从中选择一个。
另外,在实施形态3~实施形态6中,也都可以构成为备有由自适应声源编码装置4及驱动声源编码装置9~11或44、46构成的多个声源编码装置,并从中选择一个,也可以构成为备有多个还包含着增益编码装置6的更高一级的声源编码装置,并从中选择一个。
在这种备有多个高一级的声源模式并使用该声源模式按每个被称为帧的规定长度的区间对输入语音进行编码的语音编码方法中,按每种声源模式对从输入语音求得的编码对象信号进行编码,并将编码时的编码失真与固定的阈值或根据编码对象信号的信号功率决定的阈值进行比较,从而根据该比较结果进行声源模式的选择,所以,当编码失真较大时,可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量即音质得到改善的效果。
发明的效果
如上所述,按照本发明,构成为在多个声源模式的每一个中对从输入语音求得的编码对象信号进行编码并根据编码时的编码失真与固定的阈值或由编码对象信号的信号功率决定的阈值的比较结果选择声源模式从而利用所选定的模式按每个帧对输入语音进行编码,所以,即使当编码失真较大时,也可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量即音质得到改善的效果。
按照本发明,构成为在多个声源模式的每一个中在对从输入语音求得的编码对象信号进行编码后根据编码时的编码失真的相互比较结果选择一种声源模式并将与该声源模式对应的编码失真与固定的阈值或根据编码对象信号的信号功率决定的阈值进行比较从而根据该比较结果进行声源模式的置换并利用所选定的模式按每个帧对输入语音进行编码,所以,即使当编码失真较大时,也可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量(音质)得到改善的效果。
按照本发明,构成为当编码失真超过阈值时可以对得到该比较结果的声源模式的选择进行抑制,所以,当编码失真较大时,可以很容易地选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为按每种声源模式准备阈值,所以,可以按每种声源模式对用于检测引起译码音质量恶化的情况的阈值进行适当的调整,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为在预先决定的声源模式中进行编码失真与阈值的比较并当编码失真超过阈值时将该编码失真置换为阈值的值从而选择与所有声源模式的编码失真中的最小编码失真对应的声源模式,所以,当编码失真较大时,可以很容易地选择将编码失真置换后的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为选择与所选定的声源模式对应的编码失真后与阈值进行比较并当编码失真超过阈值时选择预先决定的声源模式,所以,当编码失真较大时,可以强制性地选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为将阈值设定为对输入语音或编码对象信号规定的失真系数,所以,当编码时的失真系数大于规定值时,可以选择译码音的质量很少恶化的声源模式,因而可以适当地选择给出较好音质的声源模式,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为通过对输入语音或编码对象信号进行分析而判定语音形态并仅当为规定的判定结果时进行声源模式的选择而不使用编码失真与阈值的比较结果,所以,对于即使编码失真较大也很难引起译码音的质量恶化的输入语音,可以进行与以往的情况相同的声源模式选择,因而能更为精细地进行声源模式选择,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为利用根据对输入语音或编码对象信号进行分析而得到的语音形态判定结果决定的阈值进行比较,所以,可以利用根据语音形态适当设定的阈值进行声源模式的选择,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为在语音形态的判定中至少要判定是否是语音的开始,所以,在编码失真往往较大的区间及其以外的区间内,可以根据编码失真改变声源模式选择的控制,因而可以消除语音开始部分的恶化,并能改善其他部分的语音模式选择,从而可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善,此外,对于语音开始的区间,脉冲声源通常比破裂音等有噪声的声源更为适合,因此,尽管编码失真较大也要优先选择特定的声源模式的控制,有时将引起恶化,但通过对语音的开始进行判定,能取得可以避免这种情况等的效果。
按照本发明,构成为由生成无噪声声源的声源模式及生成有噪声声源的声源模式构成多种声源模式,所以,当编码失真较大时,可以很容易地选择生成有噪声声源的声源模式,因而可以避免因选择生成无噪声声源的声源模式而引起的恶化,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
按照本发明,构成为由使用无噪声的声源代码字的声源模式及使用有噪声的声源代码字的声源模式构成多种声源模式,所以,当编码失真较大时,可以很容易地地选择使用有噪声的声源代码字的声源模式,因而可以避免因选择使用无噪声的声源代码字的声源模式而引起的恶化,从而能取得可以使由语音译码装置将所求得的语音代码译码后的译码音的主观质量得到改善的效果。
Claims (15)
1.一种语音编码方法,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码方法的特征在于:在编码步骤中,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出,在比较步骤中,将由上述编码步骤编码后的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较,在选择步骤中,根据由上述编码步骤编码后的编码失真及上述比较步骤的比较结果进行上述声源模式的选择。
2.一种语音编码方法,一种语音编码方法,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码方法的特征在于:在编码步骤中,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出,在选择步骤中,对由上述编码步骤编码后的编码失真进行相互比较,并根据该比较结果选择一种声源模式,在比较步骤中,将与由上述选择步骤选定的声源模式对应的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较,在置换步骤中,根据上述比较步骤的比较结果对由上述选择步骤选定的声源模式进行置换。
3.根据权利要求1所述的语音编码方法,其特征在于:在选择步骤中,对所得到的比较结果为编码失真超过阈值的声源模式的选择进行抑制。
4.根据权利要求1所述的语音编码方法,其特征在于:按每种声源模式准备阈值。
5.根据权利要求1所述的语音编码方法,其特征在于:在进行编码失真的输出变换的变换步骤中,当比较步骤的编码失真与阈值的比较结果为上述编码失真超过上述阈值时,可以用上述阈值的值置换该编码失真,在选择步骤中,从包含着由上述变换步骤输出的编码失真的所有声源模式的编码失真中选择与最小编码失真对应的声源模式。
6.根据权利要求2所述的语音编码方法,其特征在于:在置换步骤中,当与选择步骤选定的声源模式对应的编码失真超过阈值时,选择预先决定的声源模式。
7.根据权利要求1或2所述的语音编码方法,其特征在于:将阈值设定为对输入语音或编码对象信号规定的失真系数。
8.根据权利要求1所述的语音编码方法,其特征在于:设置判定步骤,通过对输入语音或编码对象信号进行分析而判定语音形态,并仅当上述判定步骤输出规定的判定结果时,由选择步骤进行声源模式的选择而不使用比较步骤的比较结果。
9.根据权利要求1或2所述的语音编码方法,其特征在于:设置判定步骤,通过对输入语音或编码对象信号进行分析而判定语音形态,并设置阈值计算步骤,根据上述判定步骤的判定结果进行阈值的决定,在比较步骤中,利用由上述阈值计算步骤决定的阈值进行比较。
10.根据权利要求8所述的语音编码方法,其特征在于:判定步骤,至少进行是否是语音的开始的判定。
11.根据权利要求1所述的语音编码方法,其特征在于:由生成有噪声声源的声源模式及生成无噪声声源的声源模式形成多种声源模式。
12.一种语音编码装置,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码装置的特征在于,备有:编码装置,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出;比较装置,将由上述编码装置编码后的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较;选择装置,根据由上述编码装置编码后的编码失真及上述比较装置的比较结果进行上述声源模式的选择。
13.一种语音编码装置,从多种声源模式中选择一种声源模式,并使用该声源模式按每个由规定长度区间构成的帧对输入语音进行编码,该语音编码装置的特征在于,备有:编码装置,按上述每种声源模式对从上述输入语音求得的编码对象信号进行编码,并将编码时的编码失真输出;选择装置,对由上述编码装置编码后的编码失真进行相互比较,并根据该比较结果选择一种声源模式;比较装置,将与由上述选择装置选定的声源模式对应的编码失真与固定的阈值或根据上述输入语音的信号功率决定的阈值或根据上述编码对象信号的信号功率决定的阈值进行比较;置换装置,根据上述比较装置的比较结果对由上述选择装置选定的声源模式进行置换。
14.根据权利要求12或13所述的语音编码方法,其特征在于:比较装置,将用于与由编码装置输出的编码失真进行比较的阈值设定为对输入语音或编码对象信号规定的失真系数。
15.根据权利要求12所述的语音编码方法,其特征在于:备有通过对输入语音或编码对象信号进行分析而判定语音形态的判定装置,选择装置,仅当上述判定装置输出规定的判定结果时,进行声源模式的选择而不使用比较装置的比较结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001052944A JP3404024B2 (ja) | 2001-02-27 | 2001-02-27 | 音声符号化方法および音声符号化装置 |
JP52944/2001 | 2001-02-27 | ||
JP52944/01 | 2001-02-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1372247A true CN1372247A (zh) | 2002-10-02 |
CN1185625C CN1185625C (zh) | 2005-01-19 |
Family
ID=18913489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021053529A Expired - Fee Related CN1185625C (zh) | 2001-02-27 | 2002-02-26 | 语音编码方法及语音编码装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7130796B2 (zh) |
EP (1) | EP1235204B1 (zh) |
JP (1) | JP3404024B2 (zh) |
CN (1) | CN1185625C (zh) |
DE (1) | DE60229458D1 (zh) |
IL (1) | IL148101A0 (zh) |
TW (1) | TW554334B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107077857A (zh) * | 2014-05-07 | 2017-08-18 | 三星电子株式会社 | 对线性预测系数量化的方法和装置及解量化的方法和装置 |
CN110097874A (zh) * | 2019-05-16 | 2019-08-06 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及存储介质 |
US11450329B2 (en) | 2014-03-28 | 2022-09-20 | Samsung Electronics Co., Ltd. | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005086139A1 (en) * | 2004-03-01 | 2005-09-15 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
DE102005002195A1 (de) * | 2005-01-17 | 2006-07-27 | Siemens Ag | Verfahren und Anordnung zur Regeneration eines optischen Datensignals |
US7852999B2 (en) * | 2005-04-27 | 2010-12-14 | Cisco Technology, Inc. | Classifying signals at a conference bridge |
US7461106B2 (en) * | 2006-09-12 | 2008-12-02 | Motorola, Inc. | Apparatus and method for low complexity combinatorial coding of signals |
JP2008170488A (ja) * | 2007-01-06 | 2008-07-24 | Yamaha Corp | 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法 |
US8576096B2 (en) * | 2007-10-11 | 2013-11-05 | Motorola Mobility Llc | Apparatus and method for low complexity combinatorial coding of signals |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
US7889103B2 (en) * | 2008-03-13 | 2011-02-15 | Motorola Mobility, Inc. | Method and apparatus for low complexity combinatorial coding of signals |
US20090234642A1 (en) * | 2008-03-13 | 2009-09-17 | Motorola, Inc. | Method and Apparatus for Low Complexity Combinatorial Coding of Signals |
US8639519B2 (en) * | 2008-04-09 | 2014-01-28 | Motorola Mobility Llc | Method and apparatus for selective signal coding based on core encoder performance |
US8140342B2 (en) * | 2008-12-29 | 2012-03-20 | Motorola Mobility, Inc. | Selective scaling mask computation based on peak detection |
US8175888B2 (en) | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
US8219408B2 (en) * | 2008-12-29 | 2012-07-10 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
US8200496B2 (en) * | 2008-12-29 | 2012-06-12 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
CA2827482C (en) * | 2011-02-18 | 2018-01-02 | Ntt Docomo, Inc. | Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program |
US9025779B2 (en) | 2011-08-08 | 2015-05-05 | Cisco Technology, Inc. | System and method for using endpoints to provide sound monitoring |
US9129600B2 (en) | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
CN107452391B (zh) * | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03132700A (ja) * | 1989-10-18 | 1991-06-06 | Victor Co Of Japan Ltd | 音声の適応直交変換符号化方法 |
JPH03156498A (ja) | 1989-11-15 | 1991-07-04 | Nec Corp | 音声符号化方式 |
JPH0467200A (ja) * | 1990-07-09 | 1992-03-03 | Matsushita Electric Ind Co Ltd | 有音区間判定方法 |
JP3065638B2 (ja) | 1990-08-09 | 2000-07-17 | 株式会社東芝 | 音声符号化方式 |
JPH05150800A (ja) | 1991-11-30 | 1993-06-18 | Fujitsu Ltd | 音声符号器 |
JP3364825B2 (ja) | 1996-05-29 | 2003-01-08 | 三菱電機株式会社 | 音声符号化装置および音声符号化復号化装置 |
EP1085504B1 (en) * | 1996-11-07 | 2002-05-29 | Matsushita Electric Industrial Co., Ltd. | CELP-Codec |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
CN1252679C (zh) | 1997-03-12 | 2006-04-19 | 三菱电机株式会社 | 声音编码装置、声音编码译码装置、以及声音编码方法 |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
EP1686563A3 (en) | 1997-12-24 | 2007-02-07 | Mitsubishi Denki Kabushiki Kaisha | Method and apparatus for speech decoding |
JP2002530706A (ja) | 1998-11-13 | 2002-09-17 | クゥアルコム・インコーポレイテッド | 閉ループ可変速度マルチモード予測スピーチコーダ |
JP4028651B2 (ja) | 1998-12-14 | 2007-12-26 | 株式会社シマノ | 竿 |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP2000200097A (ja) | 1999-01-07 | 2000-07-18 | Mitsubishi Electric Corp | 音声符号化装置、音声復号化装置及び音声符号化復号化装置 |
US6697430B1 (en) * | 1999-05-19 | 2004-02-24 | Matsushita Electric Industrial Co., Ltd. | MPEG encoder |
US6510407B1 (en) * | 1999-10-19 | 2003-01-21 | Atmel Corporation | Method and apparatus for variable rate coding of speech |
-
2001
- 2001-02-27 JP JP2001052944A patent/JP3404024B2/ja not_active Expired - Lifetime
-
2002
- 2002-02-07 TW TW091102256A patent/TW554334B/zh not_active IP Right Cessation
- 2002-02-11 IL IL14810102A patent/IL148101A0/xx unknown
- 2002-02-12 US US10/072,892 patent/US7130796B2/en not_active Expired - Fee Related
- 2002-02-22 DE DE60229458T patent/DE60229458D1/de not_active Expired - Lifetime
- 2002-02-22 EP EP02003974A patent/EP1235204B1/en not_active Expired - Fee Related
- 2002-02-26 CN CNB021053529A patent/CN1185625C/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11450329B2 (en) | 2014-03-28 | 2022-09-20 | Samsung Electronics Co., Ltd. | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization |
CN107077857A (zh) * | 2014-05-07 | 2017-08-18 | 三星电子株式会社 | 对线性预测系数量化的方法和装置及解量化的方法和装置 |
CN107077857B (zh) * | 2014-05-07 | 2021-03-09 | 三星电子株式会社 | 对线性预测系数量化的方法和装置及解量化的方法和装置 |
US11238878B2 (en) | 2014-05-07 | 2022-02-01 | Samsung Electronics Co., Ltd. | Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same |
US11922960B2 (en) | 2014-05-07 | 2024-03-05 | Samsung Electronics Co., Ltd. | Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same |
CN110097874A (zh) * | 2019-05-16 | 2019-08-06 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20020147582A1 (en) | 2002-10-10 |
CN1185625C (zh) | 2005-01-19 |
JP2002258896A (ja) | 2002-09-11 |
EP1235204A3 (en) | 2003-10-22 |
DE60229458D1 (de) | 2008-12-04 |
JP3404024B2 (ja) | 2003-05-06 |
EP1235204A2 (en) | 2002-08-28 |
TW554334B (en) | 2003-09-21 |
IL148101A0 (en) | 2002-09-12 |
US7130796B2 (en) | 2006-10-31 |
EP1235204B1 (en) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1185625C (zh) | 语音编码方法及语音编码装置 | |
CN1172294C (zh) | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 | |
CN1252679C (zh) | 声音编码装置、声音编码译码装置、以及声音编码方法 | |
CN1172292C (zh) | 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备 | |
CN1200403C (zh) | 线性预测编码参数的矢量量化装置 | |
CN1212606C (zh) | 处理丢失帧的语音通信系统及方法 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1192358C (zh) | 声音信号加工方法和声音信号加工装置 | |
CN1158648C (zh) | 语音可变速率编码方法与设备 | |
CN1248195C (zh) | 语音编码转换方法和装置 | |
CN1288622C (zh) | 编码设备和解码设备 | |
CN1097396C (zh) | 声音编码装置和方法 | |
CN1106710C (zh) | 向量量化装置和方法 | |
CN1145512A (zh) | 再现语音信号的方法和装置以及传输该信号的方法 | |
CN1310431C (zh) | 用于编码音频信号的设备和方法 | |
CN1222926C (zh) | 语音编码方法及其装置 | |
CN1457425A (zh) | 用于语音编码的码本结构与搜索 | |
CN1151491C (zh) | 音频编码装置和音频编码译码装置 | |
CN1947173A (zh) | 分层编码装置及分层编码方法 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN1669071A (zh) | 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质 | |
CN1135528C (zh) | 声音编码装置以及声音解码装置 | |
CN1229194A (zh) | 基频特性曲线产生方法,基频特性曲线产生器,和程序记录介质 | |
CN1483189A (zh) | 语音编码装置以及语音编码方法 | |
CN1287347A (zh) | 声音编码装置和声音译码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050119 Termination date: 20160226 |
|
CF01 | Termination of patent right due to non-payment of annual fee |