CN1192563A - 可变率声音编码方法及可变率声音解码方法 - Google Patents
可变率声音编码方法及可变率声音解码方法 Download PDFInfo
- Publication number
- CN1192563A CN1192563A CN97125590A CN97125590A CN1192563A CN 1192563 A CN1192563 A CN 1192563A CN 97125590 A CN97125590 A CN 97125590A CN 97125590 A CN97125590 A CN 97125590A CN 1192563 A CN1192563 A CN 1192563A
- Authority
- CN
- China
- Prior art keywords
- sound source
- signal
- code table
- source code
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 134
- 230000005540 biological transmission Effects 0.000 claims description 28
- 230000005236 sound signal Effects 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract 3
- 239000002131 composite material Substances 0.000 description 26
- 238000012545 processing Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 16
- 230000008676 import Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 108010076504 Protein Sorting Signals Proteins 0.000 description 6
- 230000009471 action Effects 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 102100031798 Protein eva-1 homolog A Human genes 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
在CELP声音编码方式的可变率编码方法中,利用声源码表及杂音声源码表选择对应声源向量及第一杂音声源向量,以便得到对输入信号的失真最小的第一合成音信号。利用由对应声源向量生成的声源信号合成虚拟参考信号,并选择与对应声源向量对应的第二杂音声源向量,以便能得到对虚拟参考信号的失真最小的第二合成音信号;根据第二合成音信号的品质,可以停止发送与第一杂音声源向量对应的杂音声源码表索引。
Description
本发明涉及在声音信息的传送存储中所用的声音编码方式中或在将可变率传送比较容易的码分多址(CDM)方式做为线路复用方式的无线通信系统、利用异步传送方式(ATM)交换的无线·有线通信系统中,或在声音存储等应用中所用的可变率声音编码及解码方法中,把码激线性预测(CELP)声音编码方式做为基本算法,并通过控制声源信息参数的传送/非传送来改变编码率的可变率声音编码及可变率解码方法。
把CELP声音编码方式做为基本方式的现有可变率声音编码方法中,有一种方法是在特开平7-36495公报中提出的可变率声音编码装置的方法,它是以处理帧为单位判断声源信号的传送/非传送来进行可变率的。图9示出了先有的可变率声音编码方法的处理帧单位的处理顺序。对以该处理帧单位分割的声音信号的输入,依次进行同一处理。即,如果结束了此前的处理帧的编码处理,就输入下一个处理帧的声音信号,从步骤SP1开始进行编码处理。首先,在线形预测分析步骤SP2中,进行声音信号的线形预测分析,该处理帧的声音信号作为表示频谱信息的预测参数被提取。而且,把该线形预测参数另外进行编码后送出。
接着,在声源码表搜索步骤SP3中,对该处理帧的输入声音信号,选择对应声源向量及杂音声源向量,以便得到失真最小的合成声音信号。该处理用下述A-b-s(通过合成进行分析)的方法来实现:存储以前的驱动声源向量,并选择对应声源码表及杂音声源码表输出的最佳组合,使对应声源向量及杂音声源向量进行加法运算后的信号输入给合成过滤器(由依次在线形预测分析步骤SP2得到的线性预测参数(量化后)构成),选择使输出的合成声音信号与做为参考声音信号的输入声音信号间的失真最少的组合。
对应声源码表按声音信号的音调周期输出在时间序列上周期性的对应声源向量,杂音声源码表存储输出多个例如由随机杂音生成的时间序列的杂音声源向量。因此,作为各声源码表的结构,一般把对声源的增益标准化后按时间序列排列,保存到码表,增益是另外计算添加后编码传送的,但是在下面的说明中,认为各声源向量含有声源增益。而且,在此过程中,在用A-b-s方法得到对应声源向量及杂音声源向量的最佳组合的时候,也同时得到由此得到的合成音信号。
接着,在对应声源驱动合成音信号合成步骤SP4中,只利用在上述声源码表搜索步骤SP3中选择的对应声源向量,使用与声源码表搜索步骤SP3同样的合成滤波器进行输出。而且,在下一个传送判定步骤SP5中,根据合成音品质的阀值判定来停止杂音声源码表索引的传送,这样实现可变率。
即,在该传送判定步骤SP5中,包括如下步骤:对虚拟的合成音计算输入声音的SN比(信噪比)的SN计算步骤SP5a,将该SN比与预先设定好的固定阀值进行比较的阀值比较步骤SP5b,在该阀值比较步骤SP5b中判定为即使停止使用杂音声源码表索引也能得到超过此阀值的声音品质的场合下、可从传送的码表索引中停止传送杂音声源码表索引的传送停止步骤SP5c,以及在其它场合下传送所有码表索引的通常传送步骤SP5d。
在该传送判定步骤SP5中,输出该处理帧的码后,在下一次步骤SP6中,结束该处理帧的编码处理,并再次从步骤SP1开始下一次处理帧的处理,通过依次重复该处理来进行编码处理。
由此,在特开平7-36495号公报的可变率声音编码装置中,对只利用杂音声源向量合成的合成音,也通过与上述相同的阀值判定来进行停止对应的声源码表索引传送的处理。但是,进行该处理的输入声音区间几乎被限定在缺少周期性信息的无音区间,因此对声音的有音定常区间的音质改善不起作用。
CELP声音编码方式中的对应声源码表起着根据声音的音调周期来周期性地显现其结构的作用。另一方面,杂音声源码表起着用杂音成分配合对应声源码表未表现的部分(即声源信息中周期性部分以外的部分)的作用。通过使用这些组合生成的声源信号,可以提高编码后的声源信号的再现性,可以得到高品质的合成音。
因此,在图9中所述的可变率声音编码方法中,在声音的有音定常区间那样的声音周期性几乎不变化的区间中,大致停止杂音声源码表索引的传送,只进行对应声源码表索引的传送处理。但是,原来杂音声源向量起着弥补只用对应声源向量不能充分表现的周期结构的作用,所以,如果完全取消杂音声源向量,则有关周期性的表现并不充分,与把对应声源向量和杂音声源向量重叠进行合成的合成音相比,存在着该区间的音质大幅度劣化的问题。
而且,因上述结构,在先有装置的方法中,由于没有传送另外添加的信息的结构,而只是停止杂音声源码表索引的传送,存在着只进行传送对应声源码表索引的传送那样的动作难以实现输入声音区间内的音质改善的问题。
还有,在图9所述的可变率声音编码方法中,对该处理模块的输入声音信号,通过对只用对应声源向量得到的合成音求出输入声音信号的信噪比(SNR),并把它与已设定好的固定阀值比较,从而决定是否传送杂音声源码表索引。但是,在通常的CELP声音编码方式中,因为以处理帧为单位、以失真最小为基准进行编码,所以,即使在连续的帧间,以处理帧为单位的合成音的输入声音信号的SNR也随时都有很大的变化。因此,按上述固定阀值的基准,例如即使在声音的定常区间等中,也有传送或不传送帧单位中的各码表索引的混乱、结果产生合成音不稳定的问题。
本发明就是为解决上述问题而做的,提供了一种可变帧声音编码方法及可变帧声音解码方法,即使在停止杂音声源码表索引的传送、只传送对应声源码表索引的输入声音状态的情况下,也不降低编码效率,改善了音质,同时,预先防止了输出合成音变得不稳定。
与本发明有关的可变率声音编码方法是包括存储了按音调周期重复先前帧的声源信号的对应声源向量的对应声源码表和存储了杂音声源向量的杂音声源码表的CELP声音编码方式的可变率声音编码方法,包括如下步骤:根据声源码表和杂音声源码表选择输出对应声源向量和第1杂音声源向量以得到对输入声音信号的失真最小的第一合成声音信号的声源码表搜索步骤;使用由对应声源向量生成的声源信号生成虚拟声音信号的虚拟参考声音信号合成步骤;选择与对应声源向量相对应的第2杂音声源向量以便得到对虚拟声音信号失真最小的第2合成声音信号的第2声源码表搜索步骤;根据第2合成声音信号的品质、停止发送对应于第1杂音声源向量的杂音声源码表索引的码发送序列选择步骤。
而且,在与本发明有关的可变率声音编码方法中,码字发送序列选择步骤进一步还包括如下步骤:把第1合成声音信号、第2合成声音信号及虚拟参考声音信号的品质转换成数值尺度的合成音品质尺度化步骤;使用由合成音品质尺度化步骤求出的第1合成声音信号的品质和虚拟参考声音信号的品质求出比较阀值的阀值计算步骤;把比较阀值和第2合成声音信号进行比较的阀值比较步骤;根据阀值比较步骤的比较结果,判定是否停止发送与第1杂音声源向量对应的杂音声源码表索引的发送判定步骤。
而且,与发明有关的可变率声音解码方法是包括存储了按音调周期重复先前帧的声源信号的对应声源向量的对应声源码表和存储了噪声声源向量的杂音声源码表的CELP声音解码方式的可变率声音解码方法,它包括如下步骤:在接收序列中含有对应声源码表索引及杂音声源码表索引的情况下,使用与接收的对应声源码表索引和杂音声源码表索引相对应的对应声源向量和杂音声源向量生成的声源并输出第1合成音的第1合成音输出步骤;在接收序列中不含有杂音声源码表索引的情况下,使用与接收的对应声源码表索引对应的对应声源向量生成的声源来合成虚拟参考声音信号的虚拟参考声音信号合成步骤;选择与接收的对应声源码表索引所示的对应声源向量相应的杂音声源向量以便得到对虚拟参考声音信号的失真最小的合成声音信号、并且输出由选择结果合成的第2合成音的第2合成音输出步骤。
图1是表示作为本发明的实施例1的可变率声音编码方法的处理顺序的流程图。
图2是说明图1的可变率声音编码方法中信号流程的框图。
图3是用于说明输入声音信号的状态的信号波形图。
图4是用于说明第1合成音信号的状态的信号波形图。
图5是用于说明虚拟参考声音信号状态的信号波形图。
图6是用于说明第2合成音信号的状态的信号波形图。
图7是表示作为本发明的实施例2的可变率声音解码方法的处理顺序的流程图。
图8是用于说明图7的可变率声音信号解码方法中的信号流程的框图。
图9是表示现有的可变率声音编码方法的处理顺序的流程图。
下面,参考附图来说明本发明的实施例。
实施例1
图1是表示根据本发明的可变率声音编码方法的实施例1的流程图。在图1中,与图9中所述的现有可变率声音编码方法不同的是第2声源码表搜索步骤SP14和码字发送序列选择步骤SP15。在该第2声源码表搜索步骤SP14,进行选择与适合的声源向量相对应的第2杂音声源向量的处理,以便得到对虚拟参考声音信号的失真最小的第2合成声音信号。而且,在码字发送序列选择步骤SP15中,根据第2合成声音信号的品质,执行停止发送与第1杂音声源向量对应的索引的处理。
而且,码发送序列选择步骤SP15包括合成音品质尺度化步骤SP15a、阀值计算步骤SP15b、阀值比较步骤SP15c、停止发送步骤SP15d及常规发送步骤SP15e。因为线形预测分析步骤SP11、声源码表搜索步骤SP12和虚拟参考声音合成步骤SP13与图9中的可变率编码方法相同,所以,简单地说明如下的动作。
接着,在可变率声音编码方法中,对按处理帧单元分割的声音信号的输出,按顺序相同的处理流程来进行。即,一旦前一处理帧的的编码处理结束,就输入下一处理帧的声音信号,从步骤SP10重新开始处理。接着,执行线形预测分析步骤SP11、声源码表搜索步骤SP12和虚拟参考声音信号合成步骤SP13。
这些处理以与先前相同的方法来进行,在线形预测分析步骤SP11输出线形预测参数。而且,在下一个声源码表搜索步骤SP12中,把参考声音为输入声音信号,并选择能得到使其与输入声音信号间的失真最小的第1合成声音信号的、适合的声源向量和杂音声源向量,并与第1合成声音信号一起输出。在虚拟参考声音信号合成步骤SP13中,输出虚拟参考声音信号。
接着,执行第2声源码表搜索步骤SP14。在该处理中,再次进行选择杂音声源向量的处理,以得到对虚拟合成声音信号失真最小的第2合成音信号。即,为了使该第2合成音信号与在虚拟参考声音信号合成步骤SP13中得到的虚拟参考声音信号间的失真最小,采用A-b-s方法选择杂音声源向量与在声源码表搜索步骤SP12中得到的对应声源向量的最佳组合作为第2杂音声源向量,并输出第2合成音信号。
因此,在该实施例1中,声源码表搜索步骤SP12的输出、即第1杂音声源向量是传送对象,但第2杂音声源向量是非传送对象,因此,在第2声源码表搜索步骤SP14中,不输出第2杂音声源向量。
接着,在码字发送序列选择步骤SP15中,判定是否传送第1杂音声源向量。首先,在合成音品质尺度化步骤SP15a中,根据与该处理帧的输入声音信号的比较,对在以前各步骤中输出的第1合成音信号、第2合成音信号及虚拟参考声音信号,用数值尺度计算声音品质值。因此,在该实施例1中,该数值尺度是通过各合成音信号和输入声音信号的SNR(信噪比)来表示。
接着,在阀值计算步骤SP15b中,根据合成音品质尺度化步骤SP15a中得到的各合成音信号的SNR计算判定阀值。在该实施例中,判定阀值是按下述预先准备的算式来计算的。这里,在该实施形式中的该算式是通过使用大量数据得到第1合成信号、第2合成音信号及虚拟参考声音信号与输入声音信号间的SNR的统计性质来定式化的方法来实现的。
[表1]
第1合成音品质 | 第2合成音品质 | 虚拟参考音品质 | |
平均(dB) | 11.8 | 9.32 | 8.79 |
离散(dB) | 7.22 | 7.40 | 7.43 |
表1是对该实施例中的可变率声音编码装置的男/女声各5节输入声音、约6000帧的第1合成音信号、第2合成信号及虚拟参考声音信号与输入信号的各帧单位的SNR的平均值和离散度的一个例子。从该表中可以知道,第2合成音信号的SNR的平均值取以约8∶2的比例把第1合成音信号和虚拟参考声音信号的SNR平均值内分的值,而且离散度几乎相同。
因此,例如各SNR离散度几乎取得相同的值,所以把该内分比值做为计算判定阀值的基准。即,在各处理帧单位计算出第1合成音信号及虚拟参考音信号对输入声音信号的SNR,并利用将其按一定比(在表1的例中,是约8∶2)内分的内分点的值做为判定阀值来计算。
在阀值比较步骤SP15c中,对在上面计算的判定阀值和第2合成音信号的SNR进行比较。如果第2合成音信号的SNR比计算的判定阀值大,则进行停止传送处理步骤SP15d,停止第1杂音声源向量的传送;如果第2合成音信号的SNR比计算的判定阀值大,则执行常规处理SP15e,与通常一样传送杂音声源向量。在这里,从表1中可以统计地知道,即使不传送第1杂音声源向量,也可以通过第2合成音信号得到比用虚拟参考声音信号时品质更好的合成音。
以上,在码字发送序列选择步骤SP15中,在发送该处理帧的码后,在下一步骤SP16中结束该处理帧的编码处理。该处理模的下次处理是从步骤SP10开始,通过重复该处理来进行编码处理。
在图2中,使用信号流程来说明该实施例1的可变率声音编码方法的具体动作。图中,1是声音信号输入端,2是码输出端,还有,3是线形预测分析装置,4是对应声源码表,5是杂音声源码表,6是合成滤波器。而且,7是最佳声源选择装置,8是码字发送序列选择装置,9是目的地虚拟参考声音信号用的缓冲器。10、11、12、13是使用声源选择开关,14是合成音输出目的地选择开关,15是参考声音选择开关,16是对应声源增益选择装置,17是杂音对应声源增益选择开关。还有,在各信号中,S1是输入声音信号,S2是线形预测参数,S3是虚拟参考声音信号,S4是第1合成信号,S5是第2合成信号,S6是声源码表选择控制信号。
实际上,从声音信号输入端1来输入输入信号S2。而且,从码输出端2输出码字发送序列选择装置8选择的码序列。将输入声音S1输入到线形预测分析装置3后,输出线形预测参数S2。该线形预测参数S2另外进行量化后,做为码序列的一部分来发送。对应声源码表4、杂音声源码表5及对应声源增益选择编码装置16和杂音对应声源增益选择编码装置17受声源码表选择控制信号S6的控制,并输出不含增益的对应声源向量、不含增益的杂音声源向量、对应声源增益和杂音声源增益,并将输出维持到下一次的选择开始。而且,在该说明中,可以把不含增益的对应声源向量和对应声源增益、把不含增益的杂音声源向量和杂音声源增益各自组合称为对应声源向量和杂音声源向量,且从其组合各自作为对应声源码表、杂音声源码表表现。
而且,在合成滤波器6中,输入由线形预测参数S2和对应声源向量或杂音声源信号组合所得的各声源信号,并合成虚拟参考声音信号S3及合成音信号S4、S5。最佳声源装置7评价参考声音信号S1或S3和合成音信号S4、S5间的失真,同时选择不含增益的对应声源向量、不含增益的杂音声源向量、对应声源增益和杂音声源增益,使上述失真最小,并调整和输出声源码表选择控制信号S6。在码字发送序列选择装置8中,输入输入信号S1、虚拟参考声音信号S3、第1合成声音信号S4、第2合成声音信号S5,并根据其品质和另外计算的阀值来控制杂音声源码表索引的发送。
虚拟参考信号用的缓冲器9为了选择声源码本而暂时保存虚拟参考声音信号。使用声源选择开关10、11、12、13控制做为选择对象的声源向量及其组合。合成音输出目的地选择开关14在合成虚拟参考声音信号S3时和在选择合成第1合成音信号S4和第2合成信号S5时,控制其输出目的地。参考声音选择开关15从输入声音信号S1和虚拟参考声音信号S3中选择声源选择过程中的参考声音信号。对应声源增益选择装置16及杂音声源增益选择装置17接收声源码表选择控制信号S6,调整赋予各声源向量的增益。将此时被选择的各增益编码后发送。
接着,用图1和图2来说明该实施例1中的各步骤的动作。因为图1中的线形预测分析步骤SP11、码字发送序列选择步骤SP15都简单地与图2中的线形预测分析装置3、码字发送序列选择装置8相对应,所以,以下省略其说明。首先,在图1中的声源码表搜索步骤SP12,将图2中的使用声源选择开关10、11、12、13及合成音输出目的地选择开关14、参考声音开关15按以下方式连接后开始。即,连接使用声源选择开关10,使用声源选择开关11接到端子b侧,使用声源选择开关12接到端子b侧,并连接使用声源选择开关13。还有,把合成音输出目的地选择开关14接到端子b侧,把参考声音选择开关15接到端子b侧。
做为按上述连接的图2中的信号流,在合成滤波器6,将对应声源向量及杂音信号向量相加,输入声源信号,并按合成滤波器6输出的合成声音信号相对于输入声音信号S1的失真最小的原则来输出声源码表选择控制信号S6,并选择对应声源向量及杂音声源向量。作为该声源码表搜索步骤SP12的结果,输出做为最终的合成滤波器6的合成声音信号的输出,得到第1合成音信号S4,并选择成为其声源信号的对应声源向量及第1杂音声源向量。
接着,图1的虚拟参考声音信号合成步骤SP13这样来实现:断开图2中的使用声源选择开关10,并把使用声源选择开关11接到端子a,把使用声源选择开关12接到端子a侧,断开使用声源选择开关13。进而,把合成音输出选择开关14接到端子a侧、把参考声音选择开关15接到端子b侧。做为上述连接状态中的图2的信号流,在合成滤波器6中输入由声源码表搜索步骤SP12选择的对应声源向量,作为虚拟参考声音信号S3输出,并在输出到虚拟参考声音信号用缓冲器9后,输出到码字发送序列选择装置8。
而且,图1中的第2声源码表搜索步骤SP14这样来实现:在图2中,连接使用声源选择开关10,并把使用声源开关11接到端子b侧,把使用声源选择开关12接到端子b侧,断开使用声源选择开关13;同时,把合成音输出目的地选择开关14接到端子b侧,把参考声音选择开关15接到端子a侧。做为上述连接状态后的图2的信号流,在声源码表搜索步骤SP12中选择的、由对应声源向量及杂音声源向量相加的声源信号输入到合成滤波器6,输出能使合成滤波器6输出的合成音信号相对于保存在虚拟参考声音信号用缓冲器9中的虚拟参考信号S3的失真最小的声源码表选择控制信号S6,并选择杂音声源向量。作为该第2声源码表搜索步骤SP14的结果,得到作为合成滤波器6的最终合成声音信号的输出-第2合成声音信号S5,选择第2杂音声源向量
在该实施例1中,到目前为止,是按假定杂音声源码表是由事前学习或者对由随机杂音得到的时间序列向量添加索引来构成的形态进行说明的,但做为杂音声源编码方法,也可以采用其它方法,如《基于代数码的快速CELP编码》(Fast CELP Codings Based on AlgeblicCodes)(J-P.Adoul,P.Mabilleau,M.Delprat,S.Morissette著,Proc.ICASSP’87,第1957-1960页,(1987))中记载的、使用代数激励码的结构。
而且,做为采用代数激励码的声音编码方法,有《CS-ACELP的基本算法》(片岡章俊,林伸二,守谷健弘,栗原祥子,問野一则著,NTT R&D.Vol.45.pp325-330,(1996))中所述的CS-ACELP(Coniugate-Structure Algebraic)方法,该方式虽然被作为ITU-TG.729 8Kbps标准方式采用,但是,将该方式做为编码的基本算法,也可以适用于该实施例1所示的可变率声音编码方法。在该ITU-TG.7298Kbps标准方式中的代数激励源是由对5msec区间(40个采样)的子模块的4个脉冲的位置及极性来表现的。而且,在音调周期比子模块的长度短的情况下,取入按音调周期重复的音调周期。而且,拥有联合结构的增益量化方法,因此提高了容错性。
在此图3-图6中,为了表示使用第2合成音信号的效果,是基于把该ITU-TG.729方式做为基本算法、并把代数激励码做为杂音声源的情况下的波形检测结果来说明的。而且,与图2对应添加图中各信号的码。对图3的输入声音信号S1,在得到图4的第1合成声音信号S4的过程中,第1杂音声源向量由脉冲序列组成,它能弥补对应输入声音信号S1的对应声源向量的周期表现的不足,并能使之表现细微的声源结构。可知,即使是输入声音信号S1的更细微的结构,在此得到的第1合成声音信号S4也能跟随。
接着,如图5所示,在只利用在得到第1合成声音信号中选择的对应声源向量来合成虚拟参考声音信号S3的情况下,只能得到接近于以一定的周期及振幅来单纯重复的波形,不能表现输入声音信号S1中表现出的周期结构表现的不足部分。在以前的可变率声音编码方法中的杂音声源码长索引的停止传送区间中,直接把虚拟参考声音信号做为合成音输出,因此有很大的品质劣化。
另一方面可以知道,在图6中的第2合成声音信号S5中,对应声源向量的周期表现的不足部分由第2杂音声源向量来补充,与不能表现细微结构的虚拟参考声音信号S3相比,周期性表现得到了大的改善。在此,第2杂音声源向量的脉冲极性采用与在子帧中的虚拟参考声音信号S3的同位置的极性。因此,即使在将代数激励码用作杂音声源的情况下,对脉冲位置及极性也不传送所有信息,在编码解码侧也能得到相同的第2杂音声源向量。
而且,在利用CS-ACELP方法的该适用例中,只停止代数激励码的位置和极性的传送,在第1杂音声源向量的传送停止区间,第2杂音声源向量与平常一样,是进行具有联合结构的增益的量化后传送的结构。第1杂音声源向量的传送停止在子帧单位中进行判定。由此,在该实施例中的第一杂音声源向量的传送停止区间,有可能去掉帧附近80位中的17位或34位。
按以上所述的实施方式1,为了使与虚拟参考信号的失真最小,至少可以使用第2杂音声源向量来补充只用对应声源向量不能完全表现的声源的周期结构,因此,可以实现即使在不传送第1杂音声源码表索引的区间也能减少其合成音品质的可变率声音编码方法。
实施例2
图7示出了根据该发明的可变率声音解码方法的实施方式2。该可变率声音解码方法包括以下步骤:接收信号序列判别步骤SP21、输出第1合成音的第1合成音输出步骤SP22、合成虚拟参考声音信号的虚拟参考声音信号合成步骤SP23、输出第2合成音的第2合成音输出步骤SP24。
在可变率声音信号解码方法中,虚拟参考声音信号合成步骤SP23与实施例1所述的虚拟参考声音合成步骤SP13一样,因此在以下说明中省略。而且,在该发明的可变率声音信号解码方法中,对由处理帧单位接收的接收码字序列,按顺序相同的处理流来进行。现在,如果结束了前一处理帧的解码处理,那么输入对应于下一处理帧的接收码字序列,从步骤SP20开始进行解码处理。
接着,在接收信号序列判别步骤SP21中,参考接收序列长度,判别接收序列中有无杂音声源码表索引。在该接收信号序列判别步骤SP21中,在判定接收信号序列中含有杂音声源码表索引时,则通过第1合成音输出步骤SP22输出合成音。在该第1合成音输出步骤SP22中,输入到使用与接收的对应声源码表索引及杂音声源码表索引对应的对应声源向量和杂音声源向量生成的声源、同时使用做为接收序列的一部分而传送的线形预测参数构成的合成滤波器产生第1合成声音信号。
另一方面,在接收序列判别步骤SP21中,如果判定为接收序列中不含杂音声源码表索引时,按以下顺序,进行与在实施例1中说明的编码侧的第2杂音声源码表搜索步骤SP13相同的处理,得到第2合成音信号。即,首先,利用虚拟参考信号合成步骤SP23,把只根据与接收的对应声源码表索引对应的对应声源向量得到的虚拟合成音信号输入到同时使用作为接收序列的一部分而传送的线形预测参数构成的合成滤波器,得到虚拟参考声音信号。
接着,在第2合成音输出步骤SP24中,根据A-B-S方法,对杂音声源向量与在声源码表搜索步骤SP12中得到的对应声源向量的最佳组合,选择第2杂音声源向量,输出选择的第二合成音信号,使其与参考声音信号合成步骤SP23中得到的虚拟参考声音信号间的失真最小。通过执行以上各步骤,输出该处理帧的合成声音信号后,在步骤SP25结束该处理帧的解码处理,并从步骤SP20开始对应于下一处理帧的处理,依次重复进行上述过程来进行解码。
在与图2的对应部分添加相同编号的图8中,使用信号流对实施例2的可变帧解码方法说明其具体动作。图中,18是码输入端,19是合成音输出端,20是线性预测参数解码装置,21是接收序列判别装置,22是输入选择开关,23、24是声源选择开关,25是合成选择开关。
此间,从码输入端18输入接收的码,从合成音输出端19输出合成音。而且,线形预测参数解码装置20从接收序列解码线形预测参数S2。接收信号序列判别装置21根据接收信号序列长度判定是否传送了杂音码长索引,分割输出各编码参数。输入选择开关22根据接收序列判别装置21的判定结果,切换向声源码表的控制信号输入。声源选择开关23、24根据接收信号判别装置21的判别结果,切换输入到合成滤波器的声源信号。合成音选择开关25控制合成滤波器6中合成的合成音的输出目的地。
接着,用图7和图8来说明实施例2的各步骤的动作。因为图7中的接收序列判别步骤SP21与图8的接收序列判别装置21简单对应,所以,以下省略其说明。首先,图7的第1合成音输出步骤SP27是把图8中的输入选择开关22、声源选择开关23、24及合成音选择开关25按以下方式连接后开始。即,把输入选择开关22接到端子b侧,把声源选择开关23接到端子a侧,把声源选择开关24接到端子a侧,把合成音选择开关25接到端子a侧。做为上述连接状态的图8中的信号流,向合成滤波器6中输入与各传送的索引对应的对应声源向量和杂音声源向量叠加的声源信号,并得到从合成滤波器6输出的合成音信号,即第1合成声音信号S4。
接着,图7的虚拟参考声音信号合成步骤SP22这样来实现:把图8中的输入选择开关22接到端子b侧,把声源选择开关23接到端子b侧,把声源选择开关24接到端子b侧,把合成音选择开关25接到端子b侧。做为上述连接状态的图8的信号流,将与所传送过来的索引相对应的对应声源向量做为声源信号输入到合成滤波器6,从合成滤波器6输出的合成声音信号做为虚拟参考声音信号S3,并输出到虚拟参考声音信号缓冲器9。
接着,图7中的第2合成音输出步骤SP24是在把图8中的输入选择开关22接到端子a、把声源选择开关23接到端子a、把声源选择开关24接到端子a、把合成音选择开关25接到端子a的情况下进行。作为上述连接后的图8的信号流,将与传送的索引对应的对应声源向量和依次输出的杂音声源向量叠加后的向量作为声源信号输入到合成滤波器6,选择第二杂音声源向量,使合成滤波器6输出的合成声音信号与虚拟参考声音信号用缓冲器9的失真最小,将其结果得到的合成声音信号做为第2合成音信号S5输出。
按照该实施例2,即使在停止传送杂音声源向量的区间,也可以在解码侧独自计算上述实施例1所述的第2杂音声源向量,并可实现可以提高输出合成音品质的可变率声音解码方法。
实施例3
在上述实施例1的合成音品质尺度化步骤SP15a中,用SNR(信噪比)做为尺度化基准,但只要是对数倒频谱、巴克谱(バ-クスブクトル)距离等可测量波形间失真的数值尺度,就可以像实施例1一样实用,并可得到与实施例1一样的效果。
在上述实施方式1,在阀值计算步骤SP15b及阀值比较步骤SP15c中,只进行根据单一SN比尺度的比较判定处理,但是当然可以用多个上述的各种尺度来进行比较判定处理。
在上述实施例1中,码字发送序列选择步骤SP15一直进行到判断可否发送杂音声源码表索引,但即使是把表示可停止发送的标志、对应声源码表索引及杂音码表索引作为码字发送序列选择步骤SP15的输出、并通过主基带信号处理部等的判断来进行最终杂音码表索引的发送判断的结构,也得到与上述实施例1相同的效果。
在上述实施方式2中,在接收序列判别步骤SP21中,是通过接收码长等来知道是否传送杂音码表索引的结构,但是,构成为在主基带信号处理部中进行该判定并接收标志和所需最小限度的索引,也可以得到与上述实施方式2相同的效果。
根据以上对本发明的说明,根据声源码表及杂音声源码表选择并输出能得到对输入声音信号的失真最小的第1合成音信号的对应声源向量及第1杂音声源向量,使用由对应声源向量生成的声源信号制作虚拟参考声音信号,并选择能得到对该虚拟参考声音信号失真最小的第2合成音信号的、与对应声源向量对应的第2杂音声源向量;通过根据第2合成音信号的品质来停止与第1杂音声源向量对应的杂音声源码表索引的发送,即使在不传送杂音声源码表索引的场合下,也可实现能在解码侧独立选择、可以使用共同的杂音声源向量、并且可以实现很少有品质劣化的编码的可变率声音编码方法。
另外,按照本发明,对于输入声音信号,把第1合成声音信号和第2合成信号及虚拟参考信号的品质转换为数值尺度,并计算其比较阀值,将该比较阀值和第2合成声音信号进行比较,并根据其结果判定是否输出与第1杂音声源向量对应的杂音声源码表索引,这样,与以前利用处理帧间固有的阀值的情况相比,可以进行与各处理帧单位的合成品质相适合的判定,因此,可以实现进行更稳定的发送判定的可变率编码方法。
而且,按照本发明,如果接收序列中包含有对应声源码表索引及杂音声源码表,就利用与所接收信号的对应声源向量表索引及杂音声源表索引相对应的对应声源向量及杂音声源向量生成的声源,输出第1合成音。如果接收到的序列中不包含有杂音声源码表索引,则利用与接收到的对应声源码表索引对应的对应声源向量生成的声源,合成虚拟参考声音信号,选择与接收到的对应声源码表索引所示的对应声源向量相应的杂音声源向量,使之能够得到与上述虚拟参考信号间的失真最少的第2合成音,并输出由其选择结果合成的第2合成音。因此,即使在不传送杂音声源码表索引的场合,也可以独立进行选择,而且可以使用与编码侧共同的杂音声源向量,由此,可以实现品质劣化少的可变率声音解码方法。
Claims (3)
1.一种可变率声音编码方法,是含有存储了按音调周期重复先前帧的声源信号的对应声源向量的对应声源码表及存储了杂音声源向量的杂音声源码表的CELP声音编码方式的可变率声音编码方法,其特征在于,利用如下步骤来实现编码率可变:根据上述声源码表及上述杂音声源码表选择输出对应声源向量及第一杂音声源向量以便得到对输入声音信号的失真最小的第一合成声音信号的声源码表搜索步骤;使用由上述对应声源向量生成的声源信号制作虚拟参考声音信号的虚拟参考声音信号合成步骤;选择与上述对应声源向量对应的第二杂音声源向量以得到对上述虚拟参考信号的失真最小的第二合成声音信号的第二声源码表搜索步骤;根据上述第二合成音信号的品质、停止发送与上述第一杂音声源向量对应的杂音声源码表索引的码字发送序列选择步骤。
2.权利要求1记载的可变率声音编码方法,其特征在于:上述码字发送序列选择步骤包括如下步骤:对上述输入声音信号,把上述第一合成声音信号和上述第二合成声音信号以及上述虚拟参考信号的品质转换为数值尺度的合成音品质尺度化步骤;使用由上述合成音品质尺度化步骤计算的上述第一合成音信号的品质和上述虚拟参考声音信号的品质,计算比较阀值的阀值计算步骤;把上述比较阀值和上述第二合成声音信号进行比较的阀值比较步骤;根据阀值比较结果判定是否要停止发送与上述第一杂音声源向量对应的杂音声源码表索引的发送判定步骤。
3.一种可变率声音解码方法,是含有存储了按音调周期重复先前帧的声源信号的对应声源向量的对应声源码表及存储了杂音声源向量的杂音声源码表的CELP声音解码方式的可变率声音解码方法,其特征在于,包括如下步骤:
在接收序列中含有对应声源码表索引及杂音声源码表索引的情况下、使用与接收的上述对应声源码表索引及上述杂音声源码表索引对应的对应声源向量及杂音声源向量二者生成的声源并输出第一合成音的第一合成音输出步骤;在接收序列中不含有杂音声源码表索引的情况下,利用与接收的对应声源码表索引对应的对应声源向量生成的声源来合成虚拟参考声音信号的虚拟参考声音信号合成步骤;选择与接收的对应声源码表索引所示的对应声源向量相应的杂音声源向量以便得到对上述虚拟参考信号的失真最小的合成音信号、并输出使用选择结果合成的第二合成音的第二合成音输出步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP49364/97 | 1997-03-04 | ||
JP9049364A JPH10247098A (ja) | 1997-03-04 | 1997-03-04 | 可変レート音声符号化方法、可変レート音声復号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1192563A true CN1192563A (zh) | 1998-09-09 |
Family
ID=12828973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN97125590A Pending CN1192563A (zh) | 1997-03-04 | 1997-12-24 | 可变率声音编码方法及可变率声音解码方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US5875423A (zh) |
EP (1) | EP0863500A3 (zh) |
JP (1) | JPH10247098A (zh) |
KR (1) | KR100276035B1 (zh) |
CN (1) | CN1192563A (zh) |
AU (1) | AU689413B1 (zh) |
CA (1) | CA2218118C (zh) |
TW (1) | TW403891B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100369108C (zh) * | 2003-12-18 | 2008-02-13 | 诺基亚公司 | 编码域中的音频增强的方法和设备 |
CN102460570A (zh) * | 2009-01-28 | 2012-05-16 | 三星电子株式会社 | 用于对音频信号进行编码和解码的方法及设备 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU3708597A (en) | 1996-08-02 | 1998-02-25 | Matsushita Electric Industrial Co., Ltd. | Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus |
CN1262994C (zh) * | 1996-11-07 | 2006-07-05 | 松下电器产业株式会社 | 噪声消除器 |
WO1998043238A1 (en) * | 1997-03-25 | 1998-10-01 | The Secretary Of State For Defence | Speech analysis system |
US6847960B1 (en) * | 1999-03-29 | 2005-01-25 | Nec Corporation | Document retrieval by information unit |
US6618701B2 (en) | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
US6330532B1 (en) * | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
JP2001242896A (ja) * | 2000-02-29 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 音声符号化/復号装置およびその方法 |
JP3558031B2 (ja) | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
KR20170044849A (ko) * | 2015-10-16 | 2017-04-26 | 삼성전자주식회사 | 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02272500A (ja) * | 1989-04-13 | 1990-11-07 | Fujitsu Ltd | コード駆動音声符号化方式 |
JP3102015B2 (ja) * | 1990-05-28 | 2000-10-23 | 日本電気株式会社 | 音声復号化方法 |
EP0751496B1 (en) * | 1992-06-29 | 2000-04-19 | Nippon Telegraph And Telephone Corporation | Speech coding method and apparatus for the same |
US5408234A (en) * | 1993-04-30 | 1995-04-18 | Apple Computer, Inc. | Multi-codebook coding process |
SG43128A1 (en) * | 1993-06-10 | 1997-10-17 | Oki Electric Ind Co Ltd | Code excitation linear predictive (celp) encoder and decoder |
JP3685812B2 (ja) * | 1993-06-29 | 2005-08-24 | ソニー株式会社 | 音声信号送受信装置 |
JP3265726B2 (ja) * | 1993-07-22 | 2002-03-18 | 松下電器産業株式会社 | 可変レート音声符号化装置 |
IN184794B (zh) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5615298A (en) * | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
US5450449A (en) * | 1994-03-14 | 1995-09-12 | At&T Ipm Corp. | Linear prediction coefficient generation during frame erasure or packet loss |
JP3568255B2 (ja) * | 1994-10-28 | 2004-09-22 | 富士通株式会社 | 音声符号化装置及びその方法 |
JP2697642B2 (ja) * | 1994-11-24 | 1998-01-14 | 日本電気株式会社 | Atm音声符号化装置 |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
GB2312360B (en) * | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
-
1997
- 1997-03-04 JP JP9049364A patent/JPH10247098A/ja active Pending
- 1997-08-09 TW TW086111418A patent/TW403891B/zh not_active IP Right Cessation
- 1997-10-08 CA CA002218118A patent/CA2218118C/en not_active Expired - Fee Related
- 1997-10-09 AU AU40013/97A patent/AU689413B1/en not_active Ceased
- 1997-10-15 KR KR1019970052792A patent/KR100276035B1/ko not_active IP Right Cessation
- 1997-10-17 US US08/953,437 patent/US5875423A/en not_active Expired - Fee Related
- 1997-10-30 EP EP97118865A patent/EP0863500A3/en not_active Withdrawn
- 1997-12-24 CN CN97125590A patent/CN1192563A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100369108C (zh) * | 2003-12-18 | 2008-02-13 | 诺基亚公司 | 编码域中的音频增强的方法和设备 |
CN102460570A (zh) * | 2009-01-28 | 2012-05-16 | 三星电子株式会社 | 用于对音频信号进行编码和解码的方法及设备 |
US8918324B2 (en) | 2009-01-28 | 2014-12-23 | Samsung Electronics Co., Ltd. | Method for decoding an audio signal based on coding mode and context flag |
CN102460570B (zh) * | 2009-01-28 | 2016-03-16 | 三星电子株式会社 | 用于对音频信号进行编码和解码的方法及设备 |
US9466308B2 (en) | 2009-01-28 | 2016-10-11 | Samsung Electronics Co., Ltd. | Method for encoding and decoding an audio signal and apparatus for same |
Also Published As
Publication number | Publication date |
---|---|
US5875423A (en) | 1999-02-23 |
JPH10247098A (ja) | 1998-09-14 |
KR100276035B1 (ko) | 2000-12-15 |
CA2218118C (en) | 2001-05-08 |
TW403891B (en) | 2000-09-01 |
AU689413B1 (en) | 1998-03-26 |
KR19980079418A (ko) | 1998-11-25 |
CA2218118A1 (en) | 1998-09-04 |
EP0863500A2 (en) | 1998-09-09 |
EP0863500A3 (en) | 1999-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1192563A (zh) | 可变率声音编码方法及可变率声音解码方法 | |
CN1241169C (zh) | 语音中非话音部分的低数据位速率编码 | |
CN1790485A (zh) | 声音译码方法和声音译码装置 | |
CN101615396B (zh) | 语音编码设备、以及语音解码设备 | |
JP3430175B2 (ja) | スピーチ信号を高速符号化するための信号選択されたパルス振幅を備えた代数学的符号帳 | |
CN1235190C (zh) | 改善音频信号编码效率的方法 | |
CN1347550A (zh) | Celp转发 | |
CN1241170C (zh) | 语音编解码器中用于线频谱频率矢量量化的方法和系统 | |
US7792679B2 (en) | Optimized multiple coding method | |
CN1270292C (zh) | 语音带宽扩展装置及语音带宽扩展方法 | |
US6385576B2 (en) | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch | |
CN101000768B (zh) | 嵌入式语音编解码的方法及编解码器 | |
CN1432176A (zh) | 用于预测量化有声语音的方法和设备 | |
CN1292914A (zh) | 语音编码 | |
EP0654909A1 (en) | Code excitation linear prediction encoder and decoder | |
CN1193344C (zh) | 语音解码器和一种语音解码方法 | |
CN1140894C (zh) | 可变位速率语音传输系统 | |
CN1158665A (zh) | 矢量编码方法及其利用该方法的编码器和解码器 | |
CN1104010A (zh) | 产生用于话音编码器的频谱噪音加权滤波器的方法 | |
CN1487746A (zh) | 编码或解码音频信号的方法和设备 | |
JP3063668B2 (ja) | 音声符号化装置及び復号装置 | |
CN1234898A (zh) | 具有改进语音编码器和解码器的发射机 | |
Vaseghi | Finite state CELP for variable rate speech coding | |
CN1154084C (zh) | 一种基于伪小波滤波的音频编/解码方法 | |
CN1222996A (zh) | 用于传输语音信号的传输系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |