CN1426049A - 语音传输系统 - Google Patents
语音传输系统 Download PDFInfo
- Publication number
- CN1426049A CN1426049A CN02128551A CN02128551A CN1426049A CN 1426049 A CN1426049 A CN 1426049A CN 02128551 A CN02128551 A CN 02128551A CN 02128551 A CN02128551 A CN 02128551A CN 1426049 A CN1426049 A CN 1426049A
- Authority
- CN
- China
- Prior art keywords
- frame
- signal
- coefficient
- lpc
- output terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title description 29
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000005284 excitation Effects 0.000 abstract description 17
- 230000001419 dependent effect Effects 0.000 abstract 1
- 239000002131 composite material Substances 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
在语音编码器(4)中,语音样本帧(100)被编码成数据帧(104),数据帧(104)中包含一组LPC系数和一组激发系数。为了降低编码语音信号的位速率,LPC系数只引入到数据帧中,这取决于实际LPC系数和对先前的及其后的语音样本帧的LPC系数进行内插所得到的LPC系数之间的差别。为了减小解码延迟,根据本发明提出,如果当前帧的LPC系数未被传送的话,则传送已在当前帧中的来自下一帧的LPC参数。为得到当前语言帧的LPC参数所用的内插能在当前数据帧开始时便已经被执行。
Description
本发明是涉及包含带有语音编码器的发射机的一种传输系统,该语音编码器用于从语音信号样本得出具有代表所述语音信号样本帧的系数的数据帧,该语音编码器包含帧装配装置,用于装配完全的数据帧和不完全的数据帧,所述不完全数据帧包含代表其语音信号样本帧的不完全系数集,该发射机还包括发送装置,用于通过传输介质向接收机发送所述数据帧,该接收机包含一个语音解码器,所述语音解码器包含一个完成装置,用于利用内插的系数使不完全的系数集变成完全的系数集,这些内插的系数是从与所述不完全数据帧对应的语音信号样本帧的前后的语音信号样本帧所对应的系数得到的。
本发明还涉及发射机、接收机、编码器、解码器、语音编码方法及被编码的语音信号。根据本前序的传输系统可从美国专利4,379,949号中得知。
将这种传输系统用于这样一些应用,在这些应用中语音信号不得不以有限的传输容量在传输介质上传送,或者不得不以有限的存储容量存储到存储介质上。这种应用的实例是:在因特网上传送语音信号,从移动电话向基站传送语音信号和反过来从基站向移动电话传送语音信号,以及把语音信号存储在CD-ROM上,固态存储器中或硬盘驱动器上。
语音编码器从语音样本帧得出数据帧,该数据帧包括代表所述语音样本帧的系数。这些系数包括分析系数和激发系数。一组这样的分析系数描述语音信号的短时谱。分析系数的另一实例是代表语音信号音调(pitch)的系数。将分析系数通过传输介质传送到接收机,在那里将这些分析系数用作为一个合成滤波器的系数。
除了分析参数外,语音编码器还确定每个语音样本帧的激发(excitation)序列数(例如4)。被这种激发序列复盖的时间间隔称作子帧(Subframe)将语音编码器安排成用于找出这样的激发信号,使得当使用上述分析系数的合成滤波器被所述激发序列激发时能得到最好的语音质量。所述激发序列的一种表达(representation)作为数据帧中的系数通过传输介质被传送到接收机。在接收机中,该激发序列被从接收的信号中恢复出来并加到合成滤波器的输入端。在合成滤波器的输出端便可以得到一个合成的语音信号。
以一定质量描述语音信号所需要的位速率(bitrate)取决于语音的内容。由数据帧携带的一些系数在一个长时间段上可能基本上为常数,例如在持续的元音的情况中。在这种情况下能通过传送包含不完全系数集的不完全数据帧来利用这一特性。
将这种可能性用于根据上述的美国专利的传输系统中。这个专利描述了一个带有语音编码器的传输系统,其中不在每一帧中都传送分析系数。只有当在一个数据帧中至少一个实际分析系数与从相邻数据帧中的分析系数进行内插所得到的相应分析系数之间的差值超过一个预先确定的阈值时,这些分析系数才被传送。这造成传输语音信号所需位速率的降低。
根据上面提到的美国专利的传输系统的缺点是由于要完成内插使语音信号总是被延迟若干帧。
本发明的目的是提供一个根据本文前序的传输系统,其中语音信号的延迟已被减小。
所以,根据本发明的传输系统的特征在于所述装配装置被安排成用于引入至少一个所述不完全数据帧和代表这样一些语音信号样本帧的附加系数,这些语音信号样本帧在时间上迟于所述不完全数据帧所对应的语音信号样本帧;其特征还在于将完成装置安排成用于利用所述附加系数使不完全系数集变为完全的。
通过在不完全数据帧中传送代表较迟的语音信号样本帧的附加系数,使得在编码器中至少提前一个帧间隔能得到这些附加系数。因为这些附加系数被用于以内插来使决定不完全系数集变为完全的系数集,所以这一内插也能至少提前一个帧间隔完成。于是能提前完成被重建语音信号的合成,而时间延迟能被减小至少一个帧间隔。
本发明的一个实施例的特征在于将帧装配装置安排成用于在数据帧中引入指示符,用于指示该帧是否是不完全数据帧,以及指示该数据帧携带的系数所代表的语音样本帧是否不同于它所对应的语音样本帧。
第一和第二指示符的引入使得在接收器中能很容易地解码。在接收机中的完成装置能容易地从输入信号提取出不完全帧,并在能得到携带附加系数的不完全帧之后尽快地开始(通过内插)使其完全。如果只存在一个指示符,则语音解码器为了能对信号解码需要对应于先前数据帧的指示符。这需要非常可靠的通信来避免数据帧中出错和丢失数据帧。
现在将参考附图解释本发明。这些附图是:
图1给出其中能使用本发明的一个传输系统;
图2是在本发明中能使用的编码装置的一个实施例,该编码装置向外发送被编码的语音信号帧。
图3是在根据图2的编码装置中要使用的控制装置30的一个实施例;
图4显示输入的语音帧序列、从这语音帧序列导出的数据帧、以及在接收机处根据所述数据帧重建的语音帧;
图5是实现多路调制器6的可编程处理器所用程序的流程图;
图6是实现信号分离器16的可编程处理器所用程序的流程图;
图7是图6中指令138的另一种实现的流程图;
图8是在根据图1的传输系统中使用的语音解码装置18。
在根据图1的传输系统中,要被编码的语音信号被加到发射机2中的语音编码器4的一个输入端。语音编码器4的第一输出端载有代表分析系数的输出信号LPC,该第一输出端与多路调制器6的第一输入端相连。语音编码器4的第二输出端载有输出信号下,该第二输出端与多路调制器6的第二输入端相连。信号F代表一个标志,指出信号LPC是否得要被传送。语音编码器4的第三输出端载有信号EX,该第三输出端与多路调制器6的第三输入端相连。信号EX代表供语音解码器中的合成滤波器使用的激发信号。一个位速率控制信号R被加到语音编码器4的第二输入端。
多路调制器6的一个输出端与发送装置8的一个输入端相连。发送装置8的一个输出端通过传输介质10与接收机12相连。
在接收机12中,传输介质10的输出端与接收装置14的一个输入端相连。接收装置14的一个输出端与信号分离器(demultiplexer)16的一个输入端相连。信号分离器16的第一输出端载有信号LPC,该第一输出端与语音解码装置18的第一输入端相连;信号分离器16的第二输出端载有信号EX,该第二输出端与语音解码装置18的第二输入端相连,在语音解码装置18的输出端能得到被重建的语音信号,信号分离器16和语音解码装置18的组合构成了根据本发明概念的语音解码器。
对于根据本发明的传输系统的操作所做的解释是在假定使用CELP型语音编码器的情况下进行的,但应该看到,本发明的范围不限于此。
语音编码器4被安排成从语音信号样本帧中提取被编码的语音信号。语音编码器提取例如代表语音信号短时谱的分析系数。通常是使用LPC系数或它的变换后的表现形式。有用的表现形式是对数面积比(LogAreaRatios,LARs)、反射系数的反正弦或线性谱频率(Line SpectralFrequencies,LSFs),后者也称作线性谱对(Line Spectral Pairs,LSPs)。在语音编码器4的第一输出端能得到作为信号LPC的分析系数表现形式。
在语音编码器4中,其激发信号等于一个或多个固定代码本(codebook)和一个适应性代码本的输出信号的加权和。固定代码本的输出信号由固定代码本索引(index)指示,而固定代码本的加权因子由固定代码本增益指示。适应性代码本的输出信号由适应性代码本索引指示,而适应性代码本的加权因子由适应性代码本增益指示。
代码本索引和增益是通过以合成方法进行分析来确定的,即所确定的代码本索引和增益要使原始语音信号和基于激发系数和分析系数合成的语音信号之间的差值为一极小值。信号F指示是否要发送对应于语音信号样本当前帧的分析参数。这些系数能在当前数据帧中被发送,或者在较早的一个数据帧中被发送。
多路调制器6把帧头与代表语音信号的数据组合成数据帧,该帧头包含一个第一指示(标志F),指示当前数据帧是否为不完全数据帧。该帧头还可任选地包含第二指示(标志L),指示当前数据帧是否载有分析参数。该帧还包含多个子帧用的激发参数,子帧个数取决于在语音编码器4的控制输入端的信号R所选定的位速率。每帧的子帧个数和帧长度能被编码到该帧的帧头中,但也能在建立连接的过程中约定每帧的子帧数和帧长度。在多路调制器6的输出端能得到代表语音信号的完全的帧。
在发送装置8中,在多路调制器6输出端产生的帧被转换成能通过传输介质10发送出去的信号。在发送装置中完成的操作涉及纠错编码、交错组合(interleaving)和调制。
接收机12被安排成接收来自传输介质10的由发射机2发送的信号。接收装置14被安排成用于解调、去交错组合以及纠错解码。信号分离器从接收装置14的输出信号中提取信号LPC、F和EX。必要时由信号分离器16完成相继收到的两组系数之间的内插。完全的系数LPC和EX集合被提供给语音解码装置18。在语音解码装置18的输出端,能得到被重建的语音信号。
在根据图2的语音编码器中,输入信号被加到帧装置20的一个输入端。帧装置20的载有输出信号Sk+1的输出端与分析装置(这里是一个线性预测分析器22)的一个输入端相连,还和延时部件28的一个输入端相连。线性预测分析器22的载有信号αk+1的输出端与量子化装置(quantiger)24的一个输入端相连。量化装置24的载有输出信号Ck+1的第一输出端与延时部件26的一个输入端相连,并与语音编码器4的第一输出端相连。延时部件26的载有输出信号Ck的一个输出端与语音编码器的第二输出端相连。
量化装置24的载有信号
的第二输出端与控制装置30的一个输入端相连。代表位速率设置值的输入信号R被加到控制装置30的第二输入端。控制装置30的第一输出端载有输出信号F,该第一输出端与语音编码器4的一个输出端相连。
控制装置30的载有输出信号α′k的第三输出端与插补器(interpolator)32相连。插补器32的载有输出信号α′k〔m〕的一个输出端与感性(perceptual)加权滤波器34的控制输入端相连。
帧装置20的输出端还与延时部件28的一个输入端相连。延时部件28的载有信号Sk的输出端与感性加权滤波器34的载有信号rs〔m〕的输出端与激发查寻装置36的一个输入端相连。在激发查寻装置36的输出端处,能得到一个激发信号EX的代表信号,它包含固定代码本索引、固定代码本增益、适应性代码本索引和适应性代码本增益。
帧装置从来自语音编码器4的输入信号中得到包含多个输入样本的帧。在一帧中的样本个数能根据位速率设置R而改变。线性预测分析器22从输入样本帧中提取出包含预测系数αk+1〔P〕的多个分析系数。这些预测系数能由公知的Levinson-Durbin算法找出。量子化装置24把系数αk+1〔P〕变换成另一种表现形式,并把变换后的预测系数量子化为量子化系数Ck+1〔P〕,这些量子化系数Ck+1〔P〕通过延时部件26后作为系数Ck〔P〕被送到输出端。该延时部件的目的是使对应于同一帧语音输入样本的系数Ck〔P〕和激发信号EX能同时出现在多路调制器6处。量子化装置24向控制装置30提供信号
信号
是通过对量子化系数Ck+1进行逆变换得到的。这种逆变换与接收机中的语音解码器中完成的变换相同。在语音编码器中完成量子化系数的逆变换,是为了把与接收机中解码器能得到的那些系数完全相同的系数提供给语音编码器用于本地合成。
控制装置30被安排成提取出一部分帧,使其中被传送的关于分析系数的信息多于其他帧中包含的信息。在根据本实施例的语音编码器4中,各帧中或者携带关于分析系数的全部信息,或者根本不携带关于分析系数的任何信息,控制装置30提供一个输出信号F,它指示多路调制器6是否要在当前帧中引入信号LPC。然而,应该看到,每帧中所携带的分析参数的个数是能够改变的。
控制单元30向插补器32提供预测系数α′k。如果对于当前帧,所述LPC系数被传送,则α′k之值等于最近确定的(量子化的)预测系数。如果对于当前帧其LPC系数未被传送,则通过对α′k-1和α′k+1之值进行内插来找出α′k之值。
内插器32对当前帧中的每个子帧由α′k-1和α′k+1之值给出线性内插值α′k(m)。该α′k(m)之值被加到感性加权滤波器34,用于从输入信号Sk的当前子帧m中导出“残差信号”rs〔m〕。查寻装置36被安排成用于找出这样的固定代码本索引、固定代码本增益、适应性代码本索引和适应性代码本增益,它们所造成的激发信号能给出与“残差信号”rs〔m〕的当前子帧m的最佳匹配。对于每个子帧m,能在语音编码器4的输出端EX得到激发参数固定代码本索引、固定代码本增益、适应性代码本索引和适应性代码本增益。
根据图2的一个实例语音编码器是一个宽带语音编码器,用于以7kHz带宽和位速率变化范围从13.6kbit/s至24kbit/s对语音信号进行编码。语音编码器可被设定在4个所谓锚定位速率,这些锚定位速率是这样一些起始值,可以通过减小携带预测参数的帧数份额来使位速率从这些值起始下降。在下表中给出这4个锚定位速率和相应的帧持续时间值、一帧中的样本个数以及每帧的子帧个数。
位速率(kbit/s) | 帧的大小(ms) | 每帧样本数 | 每帧子帧数 |
15.818.2 | 1510 | 240160 | 64 |
20.124.0 | 1515 | 240240 | 810 |
通过减少存在LPC系数的帧的个数,便能以小步长控制位速率。如果携带LPC系数的帧所占份额在0.5至1之间变化,而且传送一帧LPC系数所需二进制位数为66,便能计算出最大能得到的位速率降低。对于10ms大小的帧,LPC系数所需的位速率可在3.3kbit/s至6.6kbit/s之间变化。对于15ms大小的帧,LPC系数所需的位速率可在2.2kbit/s至4.4kbit/s之间变化。在下表中对这4个锚定位速率给出位速率降低最大值和最小位速率。
锚定位速率(kbit/s) | 位速率降低最大值(kbit/s) | 最小位速率(kbit/s) |
15.818.220.124.0 | 2.23.32.22.2 | 13.614.917.921.8 |
在根据图3的控制装置中,载有信号
的第一输入端与延时部件60的一个输入端以及转换器64的一个输入端相连。延时部件60的载有信号
的一个输出端与延时部件62的一个输入端以及转换器70的一个输入端相连。转换器64的载有输出信息ik+1的一个输出端与插补器68的第一输入端相连。转换器66的载有输出信号ik-1的一个输出端与插补器68的第二输入端相连。插补器68的载有输出信号
的输出端与差距计算器72的第一输入端以及选择器80的第一输入端相连。转换器70的载有输出信号ik的一个输出端与差距计算器72的第二输入端以及选择器80的第二输入端相连。
控制装置30的一个输入信号R与计算装置74的一个输入端相连。计算装置74的第一输出端与控制装置76相连。在计算装置74的第一输出端处的信号代表携带LPC参数的帧的个数所占的份额r,于是所述信号代表位速率设置。
计算装置的第二和第三输出端载有的信号代表根据信号R设置的锚定位速率。控制单元76的载有阈值信号t的一个输出端与比较器78的第一输入端相连。差距计算器72的一个输出端与比较器78的第二输入端相连。比较器78的一个输出端与选择器80的控制输入端、控制单元76的一个输入端以及控制装置30的一个输出端相连。
在根据图3的控制装置中,延时部件60和62根据反射系数集
提供延时后的反射系数集
和
转换器64、70和66计算系数ik+1ik及ik-1,它们比系数
及
更适于进行内插。插补器68根据ik+1和ik-1值得出内差后的值
差距计算器72确定预测参数集ik和由ik+1及ik-1内插得到的预测参数集
之间的差距测量值d。一个合适的差距测量值由下式给出:
在(1)中H(ω)是由系数ik描述的谱,
是由系数
描述的谱。测量值d是通常使用的,但实验表明,更容易计算的L1范数能给出可与之相比较的结果。为此,L1范数可写成: 在(2)式中p是由分析装置22确定的预测系数的个数。由比较器78将差距测量值d与阈值t进行比较。如果差距d大于阈值t,则比较器78输出信号C指示应发送当前帧的LPC系数。如果差距测量值d小于阈值t,则比较器78的输出信号C指示当前帧的LPC系数不必发送。通过在一预定时间段(例如在K帧上,而K的典型值为100)上对信号C指示要发送LPC系数的次数a进行计数,便能得到包含LPC参数的帧数所占实际份额的测量值a。如果给定了对应于所选锚定位速率的参数,该测量值a也是实际位速率的一种测量。
控制装置30被安排成用于对实际位速率的测量值和位速率设定值的比较,并在必要时调整实际位速率。计算装置74根据信号R确定锚定位速率和份额r。万一从两个不同的锚定位速率出发都能达到某一位速率R,则选择产生最佳语音质量的那个锚定位速率。把锚定位速率的值作为信号R的函数存储到一个表中会带来方便。如果已选定锚定位速率,便能确定携带LPC系数的帧所占的份额。
首先,根据公式:
BMAX=bHEADER+bEXCITATION+bLPC ((4)
BMIN=bHEADER+bEXCITATION ((5)确定代表每帧中二进制位个数最大值和最小值的BMAX和BMIN之值。在式(4)和(5)中,bHEADER是一帧中帧头位的个数,bEXCITATION是代表激发信号的位的个数,而bLPC是代表分析系数的位的个数。如果信号R代表所需位速率BREQ,则对于携带LPC参数的帧所占份额r有公式:
应该指出,在本实施例中r的最小值是0.5。
控制单元76确定份额r和携带LPC参数帧的实际份额a之间的差值。为了根据位速率设置和实际位速率之间的差值来调整位速率,可增大或减小阈值t。如果阈值t增大,则将有较少的帧数出现差距测量值d超过所述阈值的情况,于是实际位速率将会降低。如果阈值t减小,则将有较多的帧数出现差距测量值d超过所述阈值的情况,于是实际位速率将会提高。由控制单元76按照下式根据对位速率设定值得到的测量值r和对实际位速率得到的测量值b来完成对阈值t的更新:在(3)式中t′是阈值的原始值,而C1和C2是常数。
在图4中,图100给出包含语音信号样本的帧1……8。图101显示出具有与图100中的语音信号帧相对应的系数的帧。对语音信号样本帧1……8的每一个,确定其LPC系数L和激发系数EX。
图102显示出由根据先有技术的传输系统所传送的数据帧。假定平均有一半数据帧是完全的数据帧。即它们携带有与它们的语音样本帧相对应的LPC和激发系数。在图102所示例子中,数据帧1、3、5和7是完全的数据帧。其余的(不完全的)数据帧0、2、4和6只携带对应于它们的语音样本帧的激发系数。根据图101和图102的数据帧之间存在延时,以使得能决定要发送的帧是否必须是完全的或不完全的数据帧。为了做出这一决定,必须得能够得到下一个语音样本帧的LPC系数。
帧头Hi能包含帧同步信号,它还包含如前文解释的第一和第二指示码。
在图103中显示出根据图102从数据帧中解码出来的语音信号样本帧序列。可以看到,在被发送的和被接收的语音样本帧之间存在多于3个帧间隔的延时。在接收机处,引起这一延时的原因是:在收到携带LPC系数的下一帧之前,它不能重建与一不完全数据帧对应的语音样本帧。在图103中,在收到对应于语音帧1的LPC参数L1之前,语音信号样本帧0不能被重建。对于语音帧2和4也有同样情况。
在根据本发明的传输系统中,数据帧的传输如图104中所示。现在不完全帧0、2和4分别携带来自其后的完全帧1、3和5的LPC系数。提前传送下一个完全帧的LPC系数,则允许提前一个帧间隔开始实现内插以得到不完全帧的LPC系数。在图104中,刚一收到对应于帧0的数据帧(它包括语音帧1的LPC参数)便已经能够重建语音帧0。从图105能看到,这造成显著减小了语音信号帧的延时。
在图5的流程图中,被编号的指令具有按下表给出的含义:
编号 | 标记 | 含义 |
110112114115*116117*118119*120122124126 | STARTWRITE F[K]F[K]=1?WRITE L[K]=1F[K-1]=1?WRITE L[K]=1WRITELPC[K+1]WRITE L[K]=0WRITE LPC[K]WRITE EX[K]StopE F[K]Stop | 程序被启动,所用变量被初始化。标志F〔K〕被写入当前数据帧的帧头。标志F〔K〕之值与“1”进行比较。标志L〔K〕被置为1并被写入当前数据帧。标志F〔K-1〕之值与“1”进行比较。标志L〔K〕被置为1并被写入当前数据帧。对应于下一个语音帧的LPC系数被写入当前数据帧。标志L〔K〕被置为0并被写入当前数据帧。对应于当前语音帧的LPC系数被写入当前数据帧。激发系数被写入当前数据帧。标志F〔K〕之值被存储。程序被终止。 |
根据图5流程图的程序在每个帧间隔被执行一次,它由语音编码器4提供的输出信号组合物成数据帧。应该指出,如果已经能得到语音样本的第K+1帧的LPC系数,则程序从组合第K数据帧开始。假定只存在标志F指示当前帧是否为完全帧。如果还得要使用标志L指示当前帧是否携带任何LPC系数的话,则要增加由*号指示的指令115、117和119。
在指令110中开始该程序,并根据需要对所用变量设置成各自的初始值。在指令112中,从语音编码器6中收到的标志F〔K〕被写入当前数据帧的帧头中。
在指令114中,标志F〔K〕之值与1进行比较。如果F〔K〕=1,则当前数据帧是一不完全数据帧。在这种情况下,在指令118中下一个语音信号样本帧的LPC参数LPC〔K+1〕被写入当前数据帧。如果得要包括标志L的话,则在指令115中把标志L置为1并写入当前数据帧的帧头中,以指示在当前数据帧中存在LPC系数。其后该程序在指令122处继续进行。
如果F〔K〕=0,则当前数据帧是一完全数据帧。在指令116中,F〔K-1〕之值与1进行比较。F〔K-1〕之值指示前一个数据帧是不完全数据帧。在这种情况下,当前完全数据帧的LPC系数已在所述前一个(不完全)数据帧中被传送。于是,在当前数据帧中将不传送LPC系数。如果得要包括标志L,则在指令119中使标志L置为0并写入当前数据帧的帧头中,以指示在当前数据帧中不存在LPC系数,其后该程序在指令122处继续进行。
如果F〔K-1〕之值等于0,则当前(完全)数据帧的LPC系数尚未被传送,于是在指令120中这些LPC系数被写入当前数据帧。如果得要包括标志L,则在指令117中标志L被置为1并写入当前数据帧的帧头中,以指示在当前数据帧中存在LPC系数。
在指令122中,激发系数EX〔K〕被写入当前数据帧。在指令124中,F〔K〕之值被存储,用于下次执行该程序时作为F〔K-1〕。在指令126中该程序被终止。
在图6的流程图中,被编号的指令具有按下表给出的含义:
编号 | 标记 | 含义 |
130132134136138140142144146148150152154 | STARTREAD F[K]F[K]=1?F[K-1]=1?LOAD LPC[K]READ LPC[K]STORE LPC[K]READLPC[K+1]CALC LPC[K]STORE LPC[K+1]READ EX[K]STORE F[K]Stop | 程序被启动。标志F〔K〕被从当前数据帧中读出。标志F〔K〕之值与1进行比较。标志F〔K-1〕之值与1进行比较。从存储器中读出当前帧的一组LPC系数。从当前数据帧中读出当前帧的一组LPC系数。从数据帧中读出的一组LPC系数被存入存储器。从当前数据帧中读出下一帧的一组LPC系数。计算出当前帧的LPC系数值。下一帧的LPC系数值被存入存储器。从当前数据帧中读出当前帧的激发信号标志F〔K〕被存入存储器。程序的执行被终止。 |
根据图6所示流程图的程序被用于实现只使用标志F情况下信号分离器的功能。为了还处置标志L所需的修改将在后面讨论。
在指令130中程序开始。在指令132中,标志F〔K〕之值被从当前数据帧中读出。在指令134中,标志F〔K〕之值与1进行比较。
如果标志F〔K〕等于0,则指明当前帧是一不完全帧,在指令136中F〔K-1〕之值与1进行比较。如果F〔K-1〕等于1,则前一个数据帧是携带当前帧LPC系数的不完全数据帧。这些系数是在上一次执行该程序时被存于存储器中的。其后,在指令138中系数LPC〔K〕被从存储器中读出并传送给语音解码装置18。在执行指令138之后该程序以指令150继续。
如果标志F〔K-1〕等于0,则前一个数据帧为一完全数据帧,而且当前帧的LPC系数由当前数据帧携带。于是在指令140中从当前数据帧读出系数LPC〔K〕。在指令140中,由指令140得到的系数LPC〔K〕被写入存储器,供对下一数据帧执行程序时使用。系数LPC〔K〕被进一步传送给语音解码装置18。其后程序以指令150继续执行。
如果在指令134中标志F〔K〕之值等于1,则当前数据帧是一不完全数据帧,它携带与下一数据帧对应的系数LPC〔K+1〕。在指令146中,根据下次从系数LPC〔K-1〕和LPC〔K+1〕计算出系数LPC〔K〕: 在(4)式中I是一运行参数,P是被传送的预测系数的个数。在指令148中,由指令146计算出的系数LPC〔K〕被存储在存储器中供处理下一数据帧时使用。
在指令150中,激发系数EX〔K〕被从当前数据帧中读出并传送给语音解码装置18。在指令152中,标志F〔K〕被存于存储器中供处理下一数据帧时使用。在指令154,该程序的执行被终止。
图7显示根据图6的程序中指令136的修改,以处理标志L。除了标志F〔K〕外还使用标志L〔K〕的好处在于:当由于传输错误导致一个或多个数据帧出错或者完全丢失时仍可能重新开始对数据帧解码,因为此时不必象只有标志F的情况那样需要来自先前一些帧的标志值。图7中编号的指令具有按下表给出的含义:
编号 | 标记 | 含义 |
131133 | READ L[K]L[K]=1? | 从当前数据帧中读出标志L〔K〕。标志L〔K〕与值1进行比较。 |
在指令131中从当前数据帧读出L〔K〕值,并在指令133中L〔K〕之值与1进行比较。如果L〔K〕之值为1,这意味着当前数据帧携带LPC系数。程序继续指令140以从数据帧中读出LPC系数。如果L〔K〕之值为0,这意味着当前数据帧不携带LPC系数。于是程序继续指令138以从存储器中加载先前收到的LPC系数。
在根据图8的解码装置18中,载有信号LPC的输入端与一子帧插补器87的一个输入端相连。子帧插补器87的输出端与合成滤波器88的一个输入端相连。
语音解码装置18的一个载有输入信号EX的输入端与信号分离器89的一个输入端相连。信号分离器89的第一输出端载有代表固定代码本索引的信号FI,该第一输出端与固定代码本90的一个输入端相连。固定代码本90的一个输出端与乘法器92的第一输入端相连。信号分离器的载有信号FCBG(固定代码本增益)的第二输出端与乘法器92的第二输入端相连。
信号分离器89的第三输出端载有代表适应性代码本索引的信号AI,该第三输出端与适应性代码本91的一个输入端相连。适应性代码本91的一个输出端与乘法器93的第一输入端相连。信号分离器89的第二输出端载有信号ACBG(适应性代码本增益),该输出端与乘法器93的第二输入端相连。乘法器92的一个输出端与加法器94的第一输入端相连,而乘法器93的一个输出端与加法器94的第二输入端相连。加法器94的输出端与适应性代码本的一个输入端以及合成滤波器的一个输入端相连。
在根据图8的语音解码装置中,插补器为每个子帧提供内插得到的预测系数,并把这些预测系数传送给合成滤波器88。
合成滤波器的激发信号等于固定代码本90和适应性代码本91的输出信号的加权和。加权是由乘法器92和93完成的,代码本索引FI和AI是由信号分离器89从信号EX中提取出来的。加权因子FCBG(固定代码本增益)和ACBG(适应性代码本增益)也是由信号分离器89从信号EX中提取出来的。加法器94的输出信号被移入适应性代码本以提供其适应性。
Claims (8)
1.一种包含数据帧的信号,这些数据帧具有代表语音信号样本帧的系数集,所述信号包含一些不完全数据帧,这些不完全数据帧具有代表其相应语音信号样本帧的不完全系数集,其特征在于一些不完全数据帧包含附加系数,这些附加系数代表的语音信号样本帧在时间上迟于所述不完全数据帧对应的语音信号样本帧。
2.根据权利要求7的信号,其特征在于数据帧包含指示符用于指示该帧是否是不完全数据帧以及用于指示该数据帧携带的系数是否代表不同于其对应的语音样本帧的语音样本帧。
3.根据权利要求2的信号,其中这些数据帧的首标包括表示该当前帧是否为不完全帧的第一指示符,和表示该当前帧是否携带分析参数的第二指示符。
4.根据权利要求3的信号,其中该第一指示符是一个特征位,它的第一值表示该当前帧是不完全帧,而第二值表示该当前帧是完全数据帧。
5.根据权利要求3或4的信号,其中该第二指示符是一个特征位,它的第一值表示在当前数据帧中分析参数的存在,而第二值表示在当前数据帧中不存在分析参数。
6.根据权利要求3-5的任一项的信号,其中这些分析系数是LPC系数。
7.根据权利要求3-6的任一项的信号,其中该信号表示已由CELP型的语音编码器编码的语音信号。
8.一种存储媒体,具有其上存储的如前面权利要求的任一项的信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97200999 | 1997-04-07 | ||
EP97200999.7 | 1997-04-07 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98800430A Division CN1104093C (zh) | 1997-04-07 | 1998-03-05 | 语音传输系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1426049A true CN1426049A (zh) | 2003-06-25 |
Family
ID=8228172
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98800430A Expired - Lifetime CN1104093C (zh) | 1997-04-07 | 1998-03-05 | 语音传输系统 |
CN02128551A Pending CN1426049A (zh) | 1997-04-07 | 2002-08-09 | 语音传输系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98800430A Expired - Lifetime CN1104093C (zh) | 1997-04-07 | 1998-03-05 | 语音传输系统 |
Country Status (10)
Country | Link |
---|---|
US (1) | US6292774B1 (zh) |
EP (1) | EP0906664B1 (zh) |
JP (1) | JP4346689B2 (zh) |
KR (1) | KR100668247B1 (zh) |
CN (2) | CN1104093C (zh) |
BR (1) | BR9804809B1 (zh) |
DE (1) | DE69834993T2 (zh) |
ES (1) | ES2267176T3 (zh) |
PL (1) | PL193723B1 (zh) |
WO (1) | WO1998045951A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8326609B2 (en) * | 2006-06-29 | 2012-12-04 | Lg Electronics Inc. | Method and apparatus for an audio signal processing |
KR101418248B1 (ko) | 2007-04-12 | 2014-07-24 | 삼성전자주식회사 | 정현파 성분의 진폭 코딩 및 디코딩 방법과 그 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4379949A (en) * | 1981-08-10 | 1983-04-12 | Motorola, Inc. | Method of and means for variable-rate coding of LPC parameters |
US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5351338A (en) * | 1992-07-06 | 1994-09-27 | Telefonaktiebolaget L M Ericsson | Time variable spectral analysis based on interpolation for speech coding |
US5479559A (en) * | 1993-05-28 | 1995-12-26 | Motorola, Inc. | Excitation synchronous time encoding vocoder and method |
US5504834A (en) * | 1993-05-28 | 1996-04-02 | Motrola, Inc. | Pitch epoch synchronous linear predictive coding vocoder and method |
-
1998
- 1998-03-05 PL PL98330399A patent/PL193723B1/pl unknown
- 1998-03-05 WO PCT/IB1998/000277 patent/WO1998045951A1/en active IP Right Grant
- 1998-03-05 ES ES98903258T patent/ES2267176T3/es not_active Expired - Lifetime
- 1998-03-05 KR KR1020037003302A patent/KR100668247B1/ko not_active IP Right Cessation
- 1998-03-05 EP EP98903258A patent/EP0906664B1/en not_active Expired - Lifetime
- 1998-03-05 DE DE69834993T patent/DE69834993T2/de not_active Expired - Lifetime
- 1998-03-05 BR BRPI9804809-0A patent/BR9804809B1/pt not_active IP Right Cessation
- 1998-03-05 JP JP52930098A patent/JP4346689B2/ja not_active Expired - Lifetime
- 1998-03-05 CN CN98800430A patent/CN1104093C/zh not_active Expired - Lifetime
- 1998-03-31 US US09/052,292 patent/US6292774B1/en not_active Expired - Lifetime
-
2002
- 2002-08-09 CN CN02128551A patent/CN1426049A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
BR9804809B1 (pt) | 2011-05-31 |
WO1998045951A1 (en) | 1998-10-15 |
DE69834993T2 (de) | 2007-02-15 |
DE69834993D1 (de) | 2006-08-03 |
CN1223034A (zh) | 1999-07-14 |
US6292774B1 (en) | 2001-09-18 |
EP0906664B1 (en) | 2006-06-21 |
PL193723B1 (pl) | 2007-03-30 |
JP2000511653A (ja) | 2000-09-05 |
EP0906664A1 (en) | 1999-04-07 |
PL330399A1 (en) | 1999-05-10 |
ES2267176T3 (es) | 2007-03-01 |
KR100668247B1 (ko) | 2007-01-16 |
KR20040004372A (ko) | 2004-01-13 |
BR9804809A (pt) | 1999-08-17 |
CN1104093C (zh) | 2003-03-26 |
JP4346689B2 (ja) | 2009-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1121683C (zh) | 语音编码 | |
CN1154086C (zh) | Celp转发 | |
CN1735927B (zh) | 用于高质量语音编码转换的方法和装置 | |
US6363340B1 (en) | Transmission system with improved speech encoder | |
CN1133151C (zh) | 纠正传输差错的声频信号解码方法 | |
CN1235190C (zh) | 改善音频信号编码效率的方法 | |
CN1140894C (zh) | 可变位速率语音传输系统 | |
US6385576B2 (en) | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch | |
CN1185616A (zh) | 音频带宽扩展系统和方法 | |
CN1432176A (zh) | 用于预测量化有声语音的方法和设备 | |
CN1815558A (zh) | 语音中非话音部分的低数据位速率编码 | |
US7634402B2 (en) | Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof | |
CN1188832C (zh) | 过滤语言帧的多脉冲内插编码 | |
CN1134764C (zh) | 语音编码的方法和装置 | |
CN1447963A (zh) | 语音编码中噪音鲁棒分类方法 | |
US6192334B1 (en) | Audio encoding apparatus and audio decoding apparatus for encoding in multiple stages a multi-pulse signal | |
CN1234898A (zh) | 具有改进语音编码器和解码器的发射机 | |
CN1189264A (zh) | 降低了复杂度的信号传输系统 | |
CN1104093C (zh) | 语音传输系统 | |
CN1244090C (zh) | 具备背景噪声再现的语音编码 | |
CN1222996A (zh) | 用于传输语音信号的传输系统 | |
CN1202513C (zh) | 音频编码、译码方法和装置及其应用 | |
KR100383589B1 (ko) | 보코더에서 피치 검색에 필요한 계산량을 감소하는 방법 | |
CN1235335A (zh) | 改善话音信号编码器性能的方法 | |
CN1103973C (zh) | 传输系统和方法及相应发射机、接收机、编码器、解码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |