CN1154086C - Celp转发 - Google Patents

Celp转发 Download PDF

Info

Publication number
CN1154086C
CN1154086C CNB008036411A CN00803641A CN1154086C CN 1154086 C CN1154086 C CN 1154086C CN B008036411 A CNB008036411 A CN B008036411A CN 00803641 A CN00803641 A CN 00803641A CN 1154086 C CN1154086 C CN 1154086C
Authority
CN
China
Prior art keywords
celp
resonance peak
output
input
filter coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB008036411A
Other languages
English (en)
Other versions
CN1347550A (zh
Inventor
A��P�����ſ�
A·P·德雅科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1347550A publication Critical patent/CN1347550A/zh
Application granted granted Critical
Publication of CN1154086C publication Critical patent/CN1154086C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Cephalosporin Compounds (AREA)
  • Steroid Compounds (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种用于基于CELP对基于CELP声码器数据包变换的方法和装置。装置包括共振峰参数变换器和激励参数变换器。共振峰参数变换器包括模型级别转换器和时基转换器。方法包括下述步骤:将输入数据包的共振峰滤波器系数从输入CELP格式变换成输出CELP格式,并将输入语音数据包的音调和编码簿参数从输入CELP格式变换成输出CELP格式。变换共振峰滤波器系数的步骤包括下述步骤:将共振峰滤波器系数模型级别从输入CELP格式的模型级别转换成输出CELP格式的模型级别,并将得到的系数的时基从输入CELP格式时基转换成输出CELP格式的时基。

Description

CELP转发
                          发明背景
发明领域
本发明涉及编码受激线性预测(CELP)语音处理。具体地说,本发明涉及将数字语音数据包从一种CELP格式转换成另一种CELP格式。
相关技术领域
采用数字技术进行话音传输已日趋广泛,特别是在长途和数字无线电话中尤其是这样。这接着引起人们对确定在信道上可以发送的最少信息量的同时保持重新构筑的语音的觉察质量这一方面的兴趣。如果语音是通过简单地进行取样和数字化来传送的,那么在得到传统的模拟电话语音质量的时候,需要每秒64千比(kbps)数量级的数据速率。但是,通过语音分析、随后进行恰当的编码、传输以及在接收机处进行重新合成,可以使数据速率显著减小。
通常,将通过获取与人的发音模型有关的参数而对送气的语音进行压缩的装置称之为声码器。这样的装置是由对输入语音进行分析以获取相关参数的编码器以及采用在信道(如传输信道)上进行接收的参数而对语音进行再合成的译码器组成的。将语音分成时间段,或分析子帧,在其期间计算各参数。接着,对每一新的子帧,修改这些参数。
基于线性预测的时域编码器是迄今为止最普通的语音编码器。这些技术在几个过去的取样中,从输入的语音取样处获取相关性,并且仅对信号的不相关部分进行编码。这种技术中所使用的基本线性预测滤波器预测当前取样,作为过去取样的线性组合。一例这种类型的编码规则见Thomas E.Tremain等人的论文:“A 4.8kpbsCode Excited Linear Predictive Coder”(Proceeding of the Mobile SatelliteConference,1988)。
声码器的作用是通过去掉语音中所有固有的自然冗余位而将数字化的语音信号压缩成低数据位速率的信号。通常,语音中主要由于嘴唇和舌的筛选而具有较短的冗余位,并且由于声带的振动而具有较长的冗余位。在CELP编码器中,这些工作是由两个过滤器即短时间共振峰(short-term formant)的滤波器和长时间音调(long-term pitch)的滤波器来形成模型的。一旦去掉了这些冗余位以后,所得到的剩余信号可以形成白高斯噪声,而该白高斯噪声也是经过编码的。
这一技术的基本点是计算两个数字滤波器的参数。一个滤波器称为共振峰滤波器(也称为“LPC(线性预测系数)滤波器”),执行对语音波形的短期预测。另一个滤波器称为音调滤波器,执行对语音波形的长期预测。最后,还必须对这些滤波器进行激励,并且这是在波形对上述两个滤波器进行激励时通过确定编码簿中的几个随机激励波形中哪一个波形最接近原始语音来完成的。因此,所传送的参数涉及三项:(1)LPC滤波器,(2)音调滤波器以及(3)编码簿激励。
可以将数字语音编码分成两个部分;即,编码和译码,有时也称为分析和合成。图1是用于对语音进行数字编码、传输和译码的系统100的方框图。该系统包括编码器102、信道104和译码器106。信道104可以是通信系统信道、存储介质等。编码器102接收数字化的输入语音、获取描述语音特征的参数,并将这些参数量化成发送到信道104的数据位流源。译码器106从信道104接收数据位流,并用接收到的数据位流中的量化特征来重新构筑输出语音波形。
当前,有许多种格式的CELP编码可供使用。为了成功地对CELP编码的语音信号进行编码,译码器106必须采用相同的CELP编码模型(也称为“格式”),来作为产生信号的编码器102。当采用不同的CELP格式的通信系统必须共享语音数据时,要求经常地将语音信号从一种CELP编码格式转换成另一种编码格式。
一种传统的转换方法是已知的“汇接编码”。图2是用来从输入CELP格式转换成输出CELP格式的汇接编码系统200的方框图。系统包括输入CELP格式译码器206和输出CELP格式编码器202。输入格式的CELP译码器206接收已经用一种CELP格式(下文中称之为“输入”格式)进行了编码的语音信号(下文中称之为“输入”信号)。译码器206对输入信号进行译码,以产生语音信号。输出CELP格式编码器202接收经译码的语音信号,并用输出CELP格式(下文中称为“输出”格式)对其进行编码,以产生输出格式的输出信号。这种方法的主要缺点是在通过多个编码器和译码器时语音信号所经受的觉察劣化。
                         发明概述
本发明是基于CELP对基于CELP的声码器数据包转换的方法和装置。本发明的装置包括共振峰参数转换器,用来将用于语音数据包的输入共振峰滤波器系数从一种CELP格式转换成输出CELP格式,以生成输出共振峰滤波器系数;本发明的装置还包括一个激励参数转换器,用来将与语音数据包相应的输入音调和编码簿参数从一种输入的CELP格式转换成输出的CELP格式,以产生输出音调和编码簿参数。共振峰参数转换器包括一个模型级别(order)转换器,将输入共振峰滤波器的系数的模型级别从输入格式的模型级别转换成输出CELP格式的模型级别;本发明的共振峰参数转换器还包括一个时基转换器,用来将输入共振峰滤波器系数的时基从输入CELP格式的时基转换成输出CELP格式的时基。
本发明的方法包括下述步骤,即,将输入数据包的共振峰滤波器系数从输入CELP格式转换成输出CELP格式,并将输入语音数据包的音调和编码簿参数从输入CELP格式转换成输出CELP格式。转换共振峰滤波器系数的的步骤包括下述步骤,即,将共振峰滤波器系数从输入CELP格式转换成反射系数CELP格式、将反射系数的模型级别从输入CELP格式的模型级别转换成输出CELP格式的模型级别、将合成系数转换成线谱对(LSP)CELP格式、将合成系数的时基从输入CELP格式时基转换成输出CELP格式的时基,以及将合成的系数从LSP格式转换成输出CELP格式,以生成输出共振峰滤波器系数。转换音调和编码簿参数的步骤包括下述步骤,即,用输入音调和编码簿参数来合成语音,以产生目标信号,并用目标信号和输出共振峰滤波器系数来搜寻输出音调和编码簿参数。
本发明的优点是消除了通常由汇接编码转换所引起的觉察语音质量的劣化。
                           附图简述
读者在阅读了本发明的详细描述以后,将会更清楚地了解本发明的特征、目的和优点。图中,相同的标号所表示的意义相同。
图1是对语音进行数字编码、传送和译码的系统的方框图;
图2是从输入CELP格式转换成输出CELP格式的汇接编码系统的方框图;
图3是CELP译码器的方框图;
图4是CELP编码器的方框图;
图5是描述按照本发明的实施例用于基于CELP对基于CELP的声码器的数据包变换的方法的流程图;
图6描绘的是按照本发明的实施例的基于CELP对基于CELP的声码器数据包转换器;
图7、8和9是描绘按照本发明的实施例的共振峰参数转换器工作情况的流程图;
图10是描绘按照本发明的实施例的激励参数转换器的工作情况的流程图;
图11是描绘搜寻器的工作情况的流程图;以及
图12是激励参数转换器更详细的图。
                    较佳实施例的详细描述
下面详细讨论本发明的较佳实施例。读者应当理解,所讨论的特定步骤、结构和排列仅仅是用于描述的。本领域中的普通技术人员应当理解,在不偏离本发明的精神和范围的情况下,也可以采用其他的步骤、结构和排列。本发明可以用在各种各样的信息和通信系统包括卫星和地面蜂窝电话系统之中。一种较佳的应用是在CDMA无线扩展谱通信系统中用于电话服务。
下面分两个步骤来描述本发明。首先描述CELP编译码器,包括CELP编码器和CELP译码器。接着,按照一种较佳实施例来描述数据包转换器。
在描述一种较佳实施例之前,首先描述图1所示的典型CELP系统的结构。在该结构中,CELP编码器102采用分析—合成的方法来对语音信号进行编码。按照该方法,采用开环的方法计算某些语音参数,而通过试错,以闭环的方式决定其他的语音参数。具体地说,通过求解一组方程式,来决定LPC系数。接着,将LPC系数施加到共振峰滤波器。随后,再用该共振峰滤波器,采用其余参数(编码簿索引、编码簿增益、音调滞后以及音调增益)的假定值来合成语音信号。然后,将合成的语音信号与实际的语音信号比较,决定这些其余参数中的哪些假定值是合成最精确的语音信号的。
受激编码的线性预测(CELP)译码器
语音译码过程包含打开数据包、对接收的参数进行去量化处理,以及由这些参数重新构筑语音信号。语音信号的重新构筑包括采用语音参数对产生的编码簿矢量进行滤波。
图3是CELP译码器106的方框图。CELP译码器106包括编码簿302、编码簿增益元件304、音调滤波器306、共振峰滤波器308以及后置滤波器310。下面综述每一方框的一般用途。
共振峰滤波器308也称为LPC合成滤波器,可以被看作是模拟声道的舌、齿和唇的,并且其谐振频率接近声道筛选(filtering)所引起的原始语音的谐振频率。共振峰滤波器308是一种具有下述形式的数字滤波器:
1/A(z)=1-a1z-1-…-anz-n(1)共振峰滤波器308的系数a1…an称为共振峰滤波器系数或LPC系数。
可以将音调滤波器306看作是在浊音发声期间从声带产生的周期脉冲串。浊音是通过声带与肺部气流向外的力之间复杂的非线性相互作用而产生的。浊音的例子如单词“low”中的“O”以及单词“day”中的“A”。在发清音时,音调滤波器基本上是从输入到输出保持不变的。清音是通过强迫使气流通过声道中某一点处收缩而产生的。清音的例子如单词“these”中的“TH”,它是由舌和上齿之间的收缩形成的;以及单词“shuffle”中的“FF”,它是通过下唇与上齿之间的收缩而形成的。音调滤波器306是具有下述形式的数字滤波器:
1/P(z)=1(1·bz-L)=1+bz+L+b2z+2L+…
式中,b称为滤波器的音调增益,而L是滤波器的音调滞后。
可以将编码簿302看作是清音中的湍流噪声,以及对浊音中声带的刺激。在背景喧闹和寂静期间,编码簿输出由随机噪声所取代。编码簿302存储几个称作是编码簿矢量的数据字。编码簿矢量是按照编码簿索引I来选择的。按照编码簿增益参数G,由增益元件304来选择编码簿矢量的比例。编码簿302可以包括增益元件304。因此,我们也将编码簿的输出称作是编码簿矢量。增益元件304可以用例如乘法器来构成。
采用滤波器310来对因参数量化以及编码簿的不完善而加入的量化噪声。该噪声在信号能量很小的频带中可以是显著的,而在信号能量较大的频带中却是觉察不到的。为了利用该性能,后置滤波器310尝试在觉察不到的频率范围内加入更多的量化噪声,而在觉察明显的频率范围内加入较少的噪声。这种后置滤波的进一步的讨论见J-H Chen和A.Gersho的文章:“Real-Time Vector APC Speech Codingat 4800 bps with Adaptive Postfiltering”(Proc.ICASSP(1987))以及N.S Jayant和V.Ramamoorthy的文章:“Adaptive Postfiltering of Speech”(Proc.ICASSP829-32)(1986年4月,日本,东京)。
在一种实施例中,每一帧的数字化语音包含一个或多个子帧。对于每一子帧,将一组语音参数施加到CELP译码器106,以产生一个子帧的合成语音·(n)。该语音参数包括:编码簿索引I、编码簿增益G、音调滞后L、音调增益b以及共振峰滤波器系数a1…an。按照索引I选择编码簿302的一个矢量,按照增益G取比例,并用来激励音调滤波器306和共振峰滤波器308。音调滤波器306按照音调增益b和音调滞后L对选择的编码簿矢量进行运算。共振峰滤波器308按照共振峰滤波器系数a1…an对音调滤波器306产生的信号进行操作,以产生合成的语音信号·(n)。
受激编码的线性预测(CELP)编码器
CELP语音编码程序包含确定译码器的输入参数,而这些输入参数使合成的语音信号和输入的数字化语音信号之间的觉察差异为最小。下面描述每一组参数的选择处理过程。编码过程还包括使参数量化,并使之分组而成为用于传输的数据包,这是相关技术领域中的普通技术人员所知道的。
图4是CELP编码器102的方框图。CELP编码器102包括编码簿302、编码簿增益元件304、音调滤波器306、共振峰滤波器308、觉察加权滤波器410、LPC发生器412、加法器414以及最小化元件416。CELP编码器102接收被分隔到几个帧和子帧的数字语音信号s(n)。对于每一子帧来说,CELP编码器102产生一组描述该子帧中的语音信号的参数。将这些参数量化,并传送到CELP译码器106。象上文中描述的那样,CELP译码器106采用这些参数来合成语音信号。
参照图4,以开环方式产生LPC系数。采用相关技术领域中众所周知的方法,从每一子帧的输入语音取样s(n),LPC发生器412计算LPC系数。将这些LPC系数馈送到共振峰滤波器308。
然而,通常采用闭环方式(通常也称为是分析-合成的方法)来计算音调参数b和L以及编码簿参数I和G。按照该方法,将编码簿和音调参数的假设候选值施加到CELP编码器,以合成语音信号·(n)。在加法器414处,将每一猜想的合成语音信号·(n)与输入的语音信号s(n)比较。将通过比较得到的误差信号r(n)提供到最小化元件416。最小化元件416选择猜想编码簿和音调参数的不同组合,并决定使误差信号r(n)最小化的组合。使这些参数和LPC发生器412产生的共振峰滤波器系数量化,并使之分组用于传输。
在图4所示的实施例中,由觉察加权滤波器410来对输入语音取样s(n)加权,从而将经过加权的语音信号提供到加法器414的求和输入端。采用觉察加权(perceptual weighting)在信号功率较小的频率下对误差进行加权。正是在这些低信号功率频率下,噪声显得更为明显。觉察加权的进一步的讨论见美国专利5,414,796,其标题是“Variable Rate Vocoder”,并在此引入作为参考。
最小化元件416分两个阶段对编码簿和音调参数进行搜寻。首先,最小化元件416搜寻音调参数。在音调搜寻期间,是没有来自编码簿的贡献的(G=0)。在最小化元件416中,音调滞后参数L和音调增益参数b的所有可能值都被输入到音调滤波器306。最小化元件416选择使经加权的输入语音和合成的语音之间的误差r(n)为最小的那些L和b的值。
在找到了音调滤波器的音调滞后L和音调增益b以后,以类似的方式进行编码簿搜寻。最小化元件416接着产生编码簿索引I和编码簿增益G的值。在增益元件304中,将按照编码簿索引I选择的来自编码簿302的输出值与编码簿增益G相乘,得到音调滤波器306中使用的值的序列。最小化元件416选择使误差r(n)为最小的编码簿索引I和编码簿增益G。
在一种实施例中,采用觉察加权滤波器410对输入语音而采用共振峰滤波器308中的加权功能对合成的语音都执行觉察加权。在另一种实施例中,觉察加权滤波器410是放在加法器414后面的。
基于CELP对基于CELP的声码器数据包转换
在下文的讨论中,将要转换的语音数据包称作是“输入”数据包,该数据包具有指定“输入”编码簿和音调参数以及“输入”共振峰滤波器系数的“输入”CELP格式。同样,将变换的结果称为具有指定“输出”编码簿和音调参数以及“输出”共振峰滤波器系数的“输出”CELP格式的“输出”数据包。这种变换的一种有用的应用是使无线电话系统与互联网接口相连,用来交换语音信号。
图5示出的是描述按照较佳实施例的方法的流程图。整个变换分为三个阶段。在第一个阶段,如步骤502所示的那样,将输入语音数据包的共振峰滤波器系数从输入CELP格式变换成输出CELP格式。在第二阶段,如在步骤504中所示的那样,将输入语音数据包的音调和编码簿参数从输入CELP格式变换成输出CELP格式。在第三阶段,用输出CELP量化器将输出参数量化。
图6描绘的是按照较佳实施例的数据包变换器600。数据包变换器600包括共振峰参数变换器620和激励参数变换器630。共振峰参数变换器620将输入共振峰滤波器系数变换成输出CELP格式,以产生输出共振峰滤波器系数。共振峰参数变换器620包括模型级别转换器602、时基转换器604以及共振峰滤波器系数变换器610A、B、C。激励参数变换器630将输入音调和编码簿参数变换成输出CELP格式,以产生输出音调和编码簿参数。激励参数变换器630包括语音合成器606和搜寻器608。图7、8和9是描绘按照较佳实施例的共振峰参数变换器620的运行的流程图。
输入语音数据包由变换器610A接收。变换器610A将每一输入语音数据包的共振峰滤波器系数从输入CELP格式变换成适合用于模型级别转换的CELP格式。CELP格式的模型级别描述的是该格式所采用的共振峰滤波器系数的个数。在一种较佳实施例中,如步骤702中所示的那样,输入共振峰滤波器系数被变换成反射系数格式。将反射系数格式的模型级别选择为与输入共振峰滤波器系数格式的模型级别是相同的。执行这样的变换的方法在相关技术领域中是众所周知的。当然,如果输入CELP格式采用反射系数格式共振峰滤波器系数,那么这样的变换就是不必要的了。
如步骤704中所示的那样,模型级别转换器602从变换器610A接收反射系数,并将反射系数的模型级别从输入CELP格式的模型级别转换成输出CELP格式的模型级别。模型级别转换器602包括插入器612和抽取器614。当输入CELP格式的模型级别低于输出CELP格式的模型级别的时候,那么如步骤802中所示的那样,插入器612执行插入操作,以给出附加的系数。在一种实施例中,附加的系数被设置为零。当输入CELP格式的模型级别高于输出CELP格式的模型级别的时候,如步骤804所示的那样,抽取器614执行抽取操作,以减少系数的数量。在一种实施例中,简单地就用零来代替不必要的系数的。这种插入和抽取操作在相关技术领域中是众所周知的。在系数反射域模型中,级别转换相对来说比较简单,所以似乎是一种合适的选择。当然,如果输入和输出CELP格式的模型级别是相同的,那么模型级别转换就是不必要的了。
转换器610B从模型级别转换器602接收级别经校正的共振峰滤波器系数,并将这些系数从反射系数格式变换成适合于时基转换的CELP格式。CELP格式的时基描述的是对共振峰合成参数进行取样的速率,即,每秒共振峰合成参数的矢量数。在一种较佳实施例中,如步骤706所示的那样,将反射系数变换成线谱对(LSP)格式。执行这种变换的方法在相关技术领域中是众所周知的。
如步骤708所示,时基转换器604从变换器610B接收LSP系数,并将LSP系数的时基从输入CELP格式的时基转换成输出CELP格式的时基。时基转换器604包括插入器622和抽取器624。当输入CELP格式的时基低于输出CELP格式的时基的时候(即,每秒采用更少的取样数),如步骤902所示的那样,插入器622执行插入操作,以增加取样数。当输入CELP格式的时基高于输出CELP格式的模型级别的时候(即,每秒采用更多的取样数),那么如步骤904所示的那样,抽取器624执行抽取操作,以减少取样数。这样的插入和抽取操作在本领域中是众所周知的。当然,如果输入CELP格式的时基与输出CELP格式的时基是相同的,那么就不必有时基转换了。
如步骤710所示的那样,变换器610C从时基转换器604接收经时基校正的共振峰滤波器系数,并将这些系数从LSP格式转换成输出CELP格式,以产生输出共振峰滤波器系数。当然,如果输出CELP格式采用LSP格式共振峰滤波器系数,那么该变换就是不必要的了。如步骤712所示的那样,量化器611从变换器610C接收输出共振峰滤波器系数,并量化输出该共振峰滤波器系数。
在变换的第二阶段,如步骤504所示的那样,将输入语音数据包的音调和编码簿参数(也称为“激励”参数)从输入CELP格式变换成输出CELP格式。图10是描述按照本发明的较佳实施例的激励参数变换器630的操作的流程图。
参照图6,语音合成器606接收每一输入语音数据包的音调和编码簿参数。语音合成器606采用输出共振峰滤波器系数产生称为“目标信号”的语音信号,而输出共振峰滤波器系数是由共振峰参数变换器620产生的,并且还产生输入编码簿和音调激励参数,如步骤1002所示。接着,如上所述,在步骤1004,搜寻器608用与上述CELP译码器106所使用的类似的搜寻程序得到输出编码簿和音调参数。搜寻器608随后使输出参数量化。
图11是描绘按照本发明的较佳实施例的搜寻器608运行的流程图。搜寻中,如步骤1104所示的那样,搜寻器608采用共振峰参数变换器620所产生的输出共振峰筛选系数和语音合成器606的产生的目标信号以及候选编码簿和音调参数来产生候选信号。如步骤1006所示的那样,搜寻器608将目标信号和候选信号比较,以产生误差信号。搜寻器608接着改变候选编码簿和音调参数,如步骤1008中所示的那样,使误差信号为最小。选择使误差信号为最小的音调和编码簿参数的组合,作为输出激励参数。这些过程将在下文中作更详细的描述。
图12更详细地描绘了激励参数变换器630。如上所述,激励参数变换器630包括语音合成器606和搜寻器608。参照图12,语音合成器606包括编码簿302A、增益元件304A、音调滤波器306A和共振峰滤波器308A。如同上文中针对译码器106所描述的那样,语音合成器606根据激励参数和共振峰滤波器系数,产生一个语音信号。具体地说,语音合成器606用输入激励参数和输出共振峰滤波器系数产生一个目标信号sT(n)。将输入编码簿索引II施加到编码簿302A,以产生一个编码簿矢量。由增益元件304A采用输入编码簿增益参数GI对编码簿矢量取比例。音调滤波器306A用已取比例的编码簿矢量和输入音调增益和音调滞后参数bI和LI产生音调信号。共振峰滤波器308A用由共振峰参数变换器620产生的音调信号和输出共振峰滤波器系数a01…a0n,产生目标信号sT(n)。本领域中的普通技术人员将会理解,输入和输出激励参数的时基可以是不同的,但所产生的激励信号具有相同的时基(按照一种实施例,为每秒8000个激励取样)。所以,激励参数的时基插入在这处理过程中是固有的(inherent)。
搜寻器608包括第二语音合成器、加法器1202以及最小化元件1216。第二语音合成器包括编码簿302B、增益元件304B、音调滤波器306B以及共振峰滤波器308B。如上文中针对译码器106所描述的那样,第二语音合成器根据激励参数和共振峰滤波器系数,产生语音信号。
具体地说,语音合成器606用共振峰参数变换器620生成的候选激励参数和输出共振峰滤波器系数产生候选信号sG(n)。将猜想的编码簿索引IG施加到编码簿302B以产生编码簿矢量。由增益元件304B采用输入编码簿增益参数GG对编码簿矢量取比例。音调滤波器用已取了比例的编码簿矢量以及输入音调增益和音调滞后参数bG和LG产生音调信号。共振峰滤波器308B用该音调信号和输出共振峰滤波器系数a01…a0n,产生猜想的信号sG(n)。
搜寻器608将候选信号与目标信号进行比较,产生误差信号r(n)。在一种较佳实施例中,将目标信号sT(n)施加到加法器1202的和输入端,而将猜想信号sG(n)施加到加法器1202的差输入端。加法器1202的输出是误差信号r(n)。
将误差信号r(n)提供到最小化元件1216。最小化元件1216选择编码簿和音调参数的不同组合,并采用与上述针对CELP编码器102的最小化元件416类似的方法,确定使误差信号r(n)为最小的组合。使通过搜寻得到的编码簿和音调参数量化,并采用由数据包变换器600的共振峰参数变换器产生和量化的共振峰滤波器系数来产生在输出CELP格式中的语音数据包。
结论
上文中较佳实施例的描述使得本领域中的普通技术人员能够制造和使用本发明。很明显,本领域中的普通技术人员还能对这些实施例作各种修改,并且在没有发明人的帮助的情况下,将本文中所揭示的原理应用于其他的实施例。所以,本发明并非仅限于这里所描述的实施例,读者应当从最宽的范围来理解本文中所揭示的原理和新特征。

Claims (19)

1.一种将经压缩的语音数据包从一种CELP格式转换成另一种CELP格式的装置,其特征在于,它包含:
共振峰参数转换器,用来将具有输入CELP格式并相应于语音数据包的输入共振峰滤波器系数转换成输出CELP格式,而产生输出共振峰滤波器系数;以及
激励参数转换器,用来将具有输入CELP格式并相应于所述语音数据包的输入音调和编码簿参数转换成所述输出CELP格式,而产生输出音调和编码簿参数,其中,所述激励参数转换器包含:
模型级别转换器,用来将所述输入共振峰滤波器系数的模型级别从所述输入CELP格式的模型级别转换成所述输出CELP格式的模型级别;
时基转换器,用来将所述输入共振峰滤波器系数的时基从所述输入CELP格式的时基转换成所述输出CELP格式的时基;
语音合成器,它采用所述输入音调和编码簿参数以及所述输出共振峰滤波器系数,产生一个目标信号;以及
搜寻器,它用所述目标信号和所述输出共振峰滤波器系数搜寻所述输出编码簿和音调参数。
2.如权利要求1所述的装置,其特征在于,所述共振峰参数转换器包含:
模型级别转换器,用来将所述输入共振峰滤波器系数的模型级别从所述输入CELP格式的模型级别转换成所述输出CELP格式的模型级别;以及
时基转换器,用来将所述输入共振峰滤波器系数的时基从所述输入CELP格式的时基转换成所述输出CELP格式的时基。
3.如权利要求1所述的装置,其特征在于,所述搜寻器包含:
另一个语音合成器,它用猜想激励参数和所述输出共振峰滤波器系数产生一个猜想信号;
混合器,它根据所述猜想信号和所述目标信号产生一误差信号;以及
最小化元件,它改变所述猜想激励参数,使所述误差信号为最小。
4.如权利要求1所述的装置,其特征在于,所述模型级别转换器还包含:
共振峰滤波器系数变换器,它在所述语音合成器用来产生第三系数以前,将所述输入共振峰滤波器系数转换成第三CELP格式。
5.如权利要求4所述的装置,其特征在于,所述模型级别转换器还包含:
插入器,当所述输入CELP格式的模型级别低于所述输出CELP格式的所述模型级别的时候,它插入所述第三系数,以产生级别经校正的系数;以及
抽取器,当所述输入CELP格式的模型级别高于所述输出CELP格式的所述模型级别的时候,它抽取所述第三系数,以产生所述级别经校正的系数。
6.如权利要求1所述的装置,其特征在于,所述语音合成器包含:
编码簿,它用所述输入编码簿参数,产生编码簿矢量;
音调滤波器,它用所述输入音调滤波器参数和所述编码簿矢量产生一音调信号;以及
共振峰滤波器,它用所述输出共振峰滤波器系数和所述音调信号产生所述目标信号。
7.如权利要求6所述的装置,其特征在于,所述猜想激励参数包括猜想音调滤波器参数和猜想编码簿参数,其中,所述另一语音合成器包含:
另一编码簿,它用所述猜想编码簿参数产生另一编码簿矢量;
音调滤波器,它用所述猜想音调滤波器参数和所述另一编码簿矢量产生另一音调信号;以及
共振峰滤波器,它用所述输出共振峰滤波器系数和所述另一音调信号产生所述猜想信号。
8.如权利要求2所述的装置,其特征在于,它还包含:
第一共振峰滤波器系数变换器,它在由所述时基转换器使用之前,将所述输入共振峰滤波器系数变换成第四CELP格式。
9.如权利要求2所述的装置,其特征在于,它还包含:
第二共振峰滤波器系数变换器,它将所述时基转换器的输出从所述第四CELP格式转换成所述输出CELP格式。
10.如权利要求4所述的装置,其特征在于,所述第三CELP格式是反射系数CELP格式。
11.如权利要求8所述的装置,其特征在于,所述第四CELP格式是线谱对CELP格式。
12.一种将经压缩的语音数据包从一种CELP格式转换成另一种CELP格式的方法,其特征在于,它包含下述步骤:
(a)将与一语音数据包相应的输入共振峰滤波器系数从输入CELP格式变换成输出CELP格式,而产生输出共振峰滤波器系数;以及
(b)将与所述语音数据包相应的输入音调和编码簿参数从所述输入CELP格式变换成所述输出CELP格式,而产生输出音调和编码簿参数,它包含:
(i)用所述输入CELP格式的所述输入音调和编码簿参数以及所述输出共振峰滤波器系数来合成语音,以产生一个目标信号;以及
(ii)用所述目标信号和所述输出共振峰滤波器系数搜寻所述输出音调和编码簿参数。
13.如权利要求12所述的方法,其特征在于,所述步骤(a)包含下述步骤:
(i)将所述输入共振峰滤波器系数的模型级别从所述输入CELP格式的模型级别转换成所述输出CELP格式的模型级别;以及
(ii)将所述输入共振峰滤波器系数的时基从所述输入CELP格式的时基转换成所述输出CELP格式的时基。
14.如权利要求13所述的方法,其特征在于,所述步骤(i)包含下述步骤:
将所述输入共振峰滤波器系数从所述输入CELP格式变换成第三CELP格式,以产生第三系数;以及
将所述第三系数的模型级别从所述输入CELP格式的模型级别转换成所述输出CELP格式的模型级别,以产生级别经校正的系数。
15.如权利要求14所述的方法,其特征在于,所述步骤(ii)包含下述步骤:
将所述级别经校正的系数变换成第四格式,以产生第四系数;
将所述第四系数的时基从所述输入CELP格式的时基转换成所述输出CELP格式的时基,以产生时基经校正的系数;以及
将所述时基经校正的系数从所述第四格式变换成所述输出CELP格式,而产生所述输出共振峰滤波器系数。
16.如权利要求12所述的方法,其特征在于,所述搜寻步骤(ii)包含下述步骤:
用猜想编码簿和音调参数以及所述输出系数产生一猜想信号;
根据所述猜想信号和所述目标信号产生一误差信号;以及
改变所述猜想编码簿和音调参数,而使所述误差信号为最小。
17.如权利要求14所述的方法,其特征在于,所述步骤(i)还包含下述步骤:
当所述输入CELP格式的所述模型级别低于所述输出CELP格式的所述模型级别的时候,插入所述第三系数,以产生所述级别经校正的系数;以及
当所述输入CELP格式的模型级别高于所述输出CELP格式的所述模型级别的时候,抽取所述第三系数,以产生所述级别经校正的系数。
18.如权利要求14所述的方法,其特征在于,所述第三CELP格式是反射系数CELP格式。
19.如权利要求15所述的方法,其特征在于,所述第四CELP格式是线谱对CELP格式。
CNB008036411A 1999-02-12 2000-02-14 Celp转发 Expired - Fee Related CN1154086C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/249,060 1999-02-12
US09/249,060 US6260009B1 (en) 1999-02-12 1999-02-12 CELP-based to CELP-based vocoder packet translation

Publications (2)

Publication Number Publication Date
CN1347550A CN1347550A (zh) 2002-05-01
CN1154086C true CN1154086C (zh) 2004-06-16

Family

ID=22941896

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008036411A Expired - Fee Related CN1154086C (zh) 1999-02-12 2000-02-14 Celp转发

Country Status (10)

Country Link
US (2) US6260009B1 (zh)
EP (1) EP1157375B1 (zh)
JP (1) JP4550289B2 (zh)
KR (2) KR100873836B1 (zh)
CN (1) CN1154086C (zh)
AT (1) ATE268045T1 (zh)
AU (1) AU3232600A (zh)
DE (1) DE60011051T2 (zh)
HK (1) HK1042979B (zh)
WO (1) WO2000048170A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US7392180B1 (en) * 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US7283961B2 (en) * 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
DE60134861D1 (de) 2000-08-09 2008-08-28 Sony Corp Vorrichtung zur verarbeitung von sprachdaten und verfahren der verarbeitung
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
JP2002229599A (ja) * 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
JP2002268697A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
US20030195745A1 (en) * 2001-04-02 2003-10-16 Zinser, Richard L. LPC-to-MELP transcoder
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7526572B2 (en) * 2001-07-12 2009-04-28 Research In Motion Limited System and method for providing remote data access for a mobile communication device
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
KR100460109B1 (ko) * 2001-09-19 2004-12-03 엘지전자 주식회사 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법
JP4108317B2 (ja) 2001-11-13 2008-06-25 日本電気株式会社 符号変換方法及び装置とプログラム並びに記憶媒体
US6829579B2 (en) 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
EP1464047A4 (en) * 2002-01-08 2005-12-07 Dilithium Networks Pty Ltd TRANSCODE SCHEME BETWEEN CELP-BASED LANGUAGE CODES
US6950799B2 (en) 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
CN1653521B (zh) * 2002-03-12 2010-05-26 迪里辛姆网络控股有限公司 用于音频代码转换中的自适应码本音调滞后计算的方法
CN1653515A (zh) * 2002-05-13 2005-08-10 迈恩斯比德技术股份有限公司 在分组网络环境中的语音传输编码
JP4304360B2 (ja) 2002-05-22 2009-07-29 日本電気株式会社 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
JP2004061646A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd Tfo機能を有する音声符号化器および方法
JP2004069963A (ja) * 2002-08-06 2004-03-04 Fujitsu Ltd 音声符号変換装置及び音声符号化装置
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
KR100499047B1 (ko) * 2002-11-25 2005-07-04 한국전자통신연구원 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
WO2004064041A1 (en) 2003-01-09 2004-07-29 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
KR100554164B1 (ko) * 2003-07-11 2006-02-22 학교법인연세대학교 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US20050258983A1 (en) * 2004-05-11 2005-11-24 Dilithium Holdings Pty Ltd. (An Australian Corporation) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
KR100703325B1 (ko) * 2005-01-14 2007-04-03 삼성전자주식회사 음성패킷 전송율 변환 장치 및 방법
KR100640468B1 (ko) * 2005-01-25 2006-10-31 삼성전자주식회사 디지털 통신 시스템에서 음성 패킷의 전송과 처리 장치 및방법
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
BRPI0520720A2 (pt) 2005-11-30 2009-06-13 Ericsson Telefon Ab L M método para transcodificação de fala de um primeiro esquema de codificação de fala para um segundo esquema de codificação de fala, transcodificador de fala, e, sistema de telecomunicação
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
US7805292B2 (en) * 2006-04-21 2010-09-28 Dilithium Holdings, Inc. Method and apparatus for audio transcoding
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
EP1903559A1 (en) * 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
JP5602769B2 (ja) * 2010-01-14 2014-10-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法
US10269375B2 (en) * 2016-04-22 2019-04-23 Conduent Business Services, Llc Methods and systems for classifying audio segments of an audio signal
CN111901384B (zh) * 2020-06-29 2023-10-24 成都质数斯达克科技有限公司 处理报文的系统、方法、电子设备以及可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE138073C (zh) *
JPS61180299A (ja) * 1985-02-06 1986-08-12 日本電気株式会社 コ−デツク変換装置
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
FR2700087B1 (fr) * 1992-12-30 1995-02-10 Alcatel Radiotelephone Procédé de positionnement adaptatif d'un codeur/décodeur de parole au sein d'une infrastructure de communication.
JPH08146997A (ja) 1994-11-21 1996-06-07 Hitachi Ltd 符号変換装置および符号変換システム
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US5995923A (en) * 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
JP4132154B2 (ja) 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置

Also Published As

Publication number Publication date
AU3232600A (en) 2000-08-29
CN1347550A (zh) 2002-05-01
ATE268045T1 (de) 2004-06-15
WO2000048170A1 (en) 2000-08-17
KR100769508B1 (ko) 2007-10-23
US6260009B1 (en) 2001-07-10
HK1042979A1 (en) 2002-08-30
KR100873836B1 (ko) 2008-12-15
JP2002541499A (ja) 2002-12-03
WO2000048170A9 (en) 2001-09-07
KR20070086726A (ko) 2007-08-27
DE60011051T2 (de) 2005-06-02
US20010016817A1 (en) 2001-08-23
JP4550289B2 (ja) 2010-09-22
DE60011051D1 (de) 2004-07-01
KR20010102004A (ko) 2001-11-15
EP1157375A1 (en) 2001-11-28
EP1157375B1 (en) 2004-05-26
HK1042979B (zh) 2005-03-24

Similar Documents

Publication Publication Date Title
CN1154086C (zh) Celp转发
CN1121683C (zh) 语音编码
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
CN1432176A (zh) 用于预测量化有声语音的方法和设备
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN1334952A (zh) 用于改善编码通信信号性能的编码增强特性
CN1241169C (zh) 语音中非话音部分的低数据位速率编码
KR101414341B1 (ko) 부호화 장치 및 부호화 방법
CN1379899A (zh) 语音可变速率编码方法与设备
CN1552059A (zh) 分布式语音识别系统中语音识别的方法和设备
CN101061535A (zh) 用于人工扩展语音信号的带宽的方法和装置
CN1922659A (zh) 编码模式选择
CN108231083A (zh) 一种基于silk的语音编码器编码效率提高方法
CN1890713B (zh) 用于数字信号压缩编码的多脉冲字典的索引间的编码转换的方法及系统
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
US6768978B2 (en) Speech coding/decoding method and apparatus
JPH10282997A (ja) 音声符号化装置及び復号装置
Gottesmann Dispersion phase vector quantization for enhancement of waveform interpolative coder
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
CN1262991C (zh) 跟踪准周期性信号的相位的方法和设备
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
CN1708786A (zh) 代码转换机及代码转换方法
CN1875401A (zh) 数字语音编码器中的谐波噪声加权

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040616

Termination date: 20190214