CN1266674C - 闭环多模混合域线性预测语音编解码器和处理帧的方法 - Google Patents

闭环多模混合域线性预测语音编解码器和处理帧的方法 Download PDF

Info

Publication number
CN1266674C
CN1266674C CNB008192219A CN00819221A CN1266674C CN 1266674 C CN1266674 C CN 1266674C CN B008192219 A CNB008192219 A CN B008192219A CN 00819221 A CN00819221 A CN 00819221A CN 1266674 C CN1266674 C CN 1266674C
Authority
CN
China
Prior art keywords
frame
decoding
encoding
speech
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB008192219A
Other languages
English (en)
Other versions
CN1437747A (zh
Inventor
A·达斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1437747A publication Critical patent/CN1437747A/zh
Application granted granted Critical
Publication of CN1266674C publication Critical patent/CN1266674C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Abstract

一种闭环多模混合域线性预测(MDLP)语音编解码器包括高速率时域编解码模式、低速率频域编解码模式和根据输入到编解码器的帧的语音内容选择编解码模式的闭环模式选择机制。用高速率时域模式(可能是某种CELP编码模式)对过渡语音(即从无声语音到有声语音,或反之)帧编码。用低速率频域编码模式(可能是某种谐波编码模式)对有声语音编码。相位参数不由频域模式编码,而是按照(如)某种二次相位模型模拟。对每个按频域编码模式的语音帧,初始相位值取紧接在前的按频域编码模式的语音帧的初始相位值。如果紧接在前的语音帧按时域编码模式,则从紧接至前的时域编码的语音帧的解码信息计算当前帧的初始相位值。每个按频域编码模式的语音帧都可以与相应的输入语音帧相比较,以获取性能测量值。如果该性能测量值低于某个预定阈值,则该输入语音帧按时域编码模式。

Description

闭环多模混合域线性预测语音编解码器和处理帧的方法
技术领域
本发明一般关于语音处理领域,特别是关于一种闭环、多模、混合域语音编解码的方法和设备。
背景技术
利用数字技术的话音传输已变得很广泛,尤其在长途和数字无线电话的应用上。这种情况反过来引起了对确定在维持再现语音感知品质的前提下可以在信息上发送信息的最少数量的兴趣。如果只是简单地取样和数字化后传输语言,就需要数量级为每秒64千比特(kbps)的数据速率来获得常规模拟电话的语音品质。可是,通过语音分析的使用,以及适当的编解码、传输和在接收方的重新合成,可以获得显著降低的数据速率。
把通过析取与人类发音模型有关的参数,使用技术来压缩语音的设备称为语音编解码器。语音编解码器可以将输入的语音信号分解为时间块或分析帧。语音编解码器一般包括一个编码器和一个解码器。编码器分析输入的语音帧,以析取某些相关参数,然后将这些参数量化成二进制表示,即量化成比特组或二进制数据分组。数据分组通过通信信道传输到接收机和解码器。解码器处理这些数据分组,将其去除量化以产生参数,并使用这些去除量化了的参数重新合成语音帧。
语音编解码器的功能是通过清除所有语音中固有的自然冗余,将数字化语音信号压缩成某种低比特率的信号。通过用一组参数表示输入语音帧以及利用量化以用一组比特表示这些参数而获得这种数字压缩。如果输入语音帧具有比特数量Ni,而由语音编解码器产生的数据分组具有比特数量No,则该语音编解码器的压缩因子为Cr=Ni/No。问题在于在达到目标压缩因子的同时保持解码后语音的高话音品质。语音编解码器的性能取决于:(1)语音模型或上述的分析和合成过程的组合运行得如何,以及(2)在每帧No比特的目标比特率下参数量化过程工作得如何。因此语音模型的目标是用每帧的一小组参数来捕获语音信号的本质,或目标话音品质。
语音编解码器可以实现为时域编解码器,它每一次通过使用高时间分辨率处理过程为小段语音(一般为5毫秒(ms)子帧)编码来捕获时域语音波形。针对每个子帧,可以利用本技术领域中已知的多种搜索算法从一个代码本空间找到某种高精度的表示。另一方面,也可以实现语音编解码器为频域编解码器,它用一组参数来捕获输入语音帧的短期语音频谱(分析),并使用相应的合成过程来从这些频谱参数重新建立语音波形。按照在A.Gersho和R.M.Gray的《向量量化和信号压缩》(1992年)中所描述的已知量化技术,参数量化器通过以存储的代码向量的表示来表示这些参数而保存它们。
一种众所周知的时域语音编解码器是在L.B.Rabiner和R.W.Schafer的《语音信号的数字处理》(1978年)第396-453页所描述的“代码激发线性预测”(CELP)编解码器(全部附入以供参考)。在CELP编解码器中,语音信号中的短期相关或冗余由一个线性预测(LP)分析予以清除,该分析寻找一个短期共振峰滤波器的系数。将该短期预测滤波器应用于输入语音帧,就产生一个LP剩余信号,该信号将进一步用长期预测滤波器参数和一个接着的随机代码本予以模拟和量化。这样,CELP编解码就将对时域语音波形编码的任务分解成不同的LP短期滤波器系数编码任务和LP剩余编码任务。时域编解码可以以固定速率(即每帧使用同样比特数No)执行,也可以以可变速率(对不同类型的帧内容使用不同比特率)执行。可变速率编解码器试图只使用为获得目标品质的适当水平所必需的比特数量来对编解码参数进行编码。在美国专利编号5,414,796中描述了一种示例性的可变速率CELP编解码器,该专利已转让予本发明的受让人,并全部附入以供参考。
象CELP编解码器这样的时域编解码器一般需要每帧大量的比特No数以保持时域语音波形的正确度。如果每帧比特数No相当地大(如8kbps或以上),则这样的编解码器一般可以提供优秀的话音品质。但是,在低比特率(4kbps或以下),由于可用比特数量有限,时域编解码器难以维持高品质和增强性能。在低比特率处,有限的代码本空间限制了在高速率商业应用中如此成功使用的常规时域编解码器的波形匹配能力。
现在有一股研究兴趣浪潮和强烈的商业需求,来开发一种工作于中低比特率(即,在2.4到4kbps范围内或以下)的高品质语音编解码器。其应用领域包括无线电话、卫星通信、互联网电话、多种多媒体及话音流应用、话音邮件和其它话音存储系统。其驱动力在于对高容量的需求和在分组丢失环境下对增强性能的要求。许多近代语音编解码标准化的努力也是推进低速率语音编解码算法的研究和开发的另一种直接驱动力。低速率语音编解码器可以为每个允许的应用带宽产生更多的信道或用户,而结合了额外适当信道编解码层的低速率语音编解码器可以适应编解码器规格的总体比特预算,并在信道差错条件下提供增强性能。
为了以低比特率编解码,已经开发了频谱或频域、语音编解码的许多方法,其中,作为某种随时间变化的频谱演变束分析语音信号(参见在《语音编解码与合成》(W.B.Kleijn和K.K.Paliwal编辑,1995年)第4章中R.J.McAulay和T.F.Quatieri的《正弦波编解码》)。在频谱编解码器中,目的是用一组频谱参数对每个语音输入帧的短期语音频谱进行模拟或预测,而不是精确地模拟随时间变化的语音波形。然后对这些频谱参数进行编码,并用解码后的参数产生一个语音输出帧。其结果的合成语音并不与原始的输入语音波形相匹配,但可提供相似的感知品质。在本技术领域中众所周知的示例性频域编解码器包括多波段激发编解码器(MBE)、正弦变换编解码器(STC)和谐波编解码器(HC)。这些频域编解码器可以提供高品质的参数模拟,并具有可在低比特率以少量比特予以准确量化的一组紧凑的参数。
然而,低比特率编解码带来了有限编解码分辨率或有限代码本空间的严重制约,这限制了单个的编解码机制的效力,致使编解码器在不同背景条件下无法以同样的精确度表示不同类型的语音片段。例如,常规的低比特率频域编解码器不传输语音帧的相位信息。作为替代相位信息是使用某种随机、人工产生的初始相位值和线性内插技术来再现的。参见《29封电子学信件》(1993年5月)第856-857页H.Yang等的《MBE模型中用于有声语音合成的二次相位内插法》)。由于相位信息是人工产生的,即使量化-去除量化过程完美地保持正弦波的振幅,由频域编解码器产生的输出语音也不会与原始的输入语音完全一致(即,主要脉冲不会同步)。因此,在频域编解码器中难以采用任何闭环性能测量值,例如信噪比(SNR)或感知SNR。
已经使用多模编解码技术以执行连同开环模式判定过程的低速率语音编解码。在《语音编解码与合成》(W.B.Kleijn和K.K.Paliwal编辑,1995年)第7章中Amitava Das等的《多模和可变速率语音编解码》中描述了这样一种多模编解码技术。常规多模编解码器针对不同类型的输入语音帧应用不同的模式或编码-解码算法。运制每种模式或编码-解码过程以效率最高的方式表示某种特定类型的语音片段,例如有声语音、无声语音或背景噪声(非语音)。外部的开环模式判定机制检查输入语音帧,并作出将何种模式应用于该帧的判定。一般通过从输入帧中析取某些参数,以某些临时的和频谱的特征估计这些参数,再在估计的基础上作出模式判定而执行开环模式判定。因此,在事先并不知道输出语音的确切条件(即就语音品质或其他性能测量值而言输出语音和输入语音将如何接近而作出模式判定。
基于上述情况,很需要提供一种可以更精确地估计相位信息的低比特率频域编解码器。如果能提供一种多模、混合域编解码器,根据语音帧的内容对某些语音帧进行时域编码,对其它语音帧进行频域编码,则将更为有利。再希望提供一种混合域编解码器,它可以按照某种闭环编解码模式判定机制对某些语音帧进行时域编码,对其它语音帧进行频域编码。因此,需要一种闭环、多模、混合域的语音编解码器,来确保由编解码器产生的输出语音和输入到编解码器的原始语音之间的时间同步。
发明内容
本发明是关于一种确保由编解码器产生的输出语音和输入到编解码器的原始语音之间时间同步的闭环、多模、混合域的语音编解码器。相应地,在本发明的一个方面,多模、混合域的语音处理器有利地包括一个具有至少一种时域编解码模式和至少一种频域编解码模式的编解码器,和一个与编解码器结合,并配置成根据语音处理器所处理帧的内容为编解码器选择编解码模式的闭环模式选择装置。
根据本发明的一个方面,提供一种多模混合域语音处理器,它包括:编解码器,它具有至少一种时域编解码模式和至少一种频域编解码模式;和闭环模式选择装置,它与编解码器相连,并配置成如果频域编解码模式的输出失真至可接受的界限之外,则实现至少一种时域编解码模式;其中所述闭环模式选择装置包括与编解码器相连的比较电路,用来对未编码帧和按至少一种频域编解码模式编码的帧进行比较,并根据比较结果产生性能测量值,其中,只有该性能测量值低于预定阈值时,编解码器才应用至少一种时域编解码模式,否则编解码器应用该至少一种频域编解码模式。
根据本发明的另一方面,提供一种多模混合域语音处理器,它包括:编解码器,它具有至少一种时域编解码模式和至少一种频域编解码模式,其中至少一种频域编解码模式用多个各具一组包括频率、相位和振幅的参数的正弦波表示每个帧的短期频谱,相位由一个多项表达式和一个初始相位值来模拟,其中多项表达式为θ(k,n)=B1(k)*n2+B2(k)*n+B3(k),θ(k,n)为正弦波的相位,k等于1,2…,L,L为正弦波的总数量,n等于1,2…,N,N为每帧的取样数量,Bi(k)是估计系数,初始相位值或者是(1)如果前一帧以至少一种频域编解码模式的一种编解码,则取前一帧的最终估计相位值,或者是(2)如果前一帧以该至少一种时域编解码模式中的一种编解码,则取从前一帧的短期频谱获取的一个相位值;和闭环模式选择装置,它与编解码器相连,并配置成根据以至少一种频域编解码模式编码的每个帧的短期频谱为编解码器选择编解码模式,其中如果短期频谱失真至可接受的界限之外,闭环模式选择装置则选择至少一种时域编解码模式;其中所述闭环模式选择装置包括与编解码器相连的比较电路,用来对未编码帧和按至少一种频域编解码模式编码的帧进行比较,并根据比较结果产生性能测量值,其中,只有该性能测量值低于预定阈值时,编解码器才应用至少一种时域编解码模式,否则编解码器应用该至少一种频域编解码模式。
在本发明的另一方面中,一种处理帧的方法有利地包括以下步骤:对每个连续的输入帧施加一个开环编解码模式选择过程,以根据输入帧的语音内容选择时域模式或频域编解码模式;如果输入帧的语音内容表示稳定状态的有声语音,则对输入帧进行频域编解码;如果输入帧的语音内容表示不是稳定状态的有声语音的其它任何内容,则对输入帧进行时域编解码;比较频域编解码的帧和输入帧,以获取某种性能测量值;如果该性能测量值降到某个预先定义的阈值以下,则对输入帧进行时域编解码。
在本发明的另一方面中,多模、混合域的语音处理器。有利地包括:把一个开环编解码模式选择过程施加于输入帧,以根据输入帧的语音内容选择时域或频域编解码模式的装置;如果输入帧的语音内容表示稳定状态的有声语音,收对输入帧进行频域编解码的装置;如果输入帧的语音内容表示不是稳定状态的有声语言的其它任何内容,则对输入帧进行时域编解码的装置;比较频域编解码的帧和输入帧,以获取性能测量值的装置;以及如果该性能测量值降到某个预先定义的阈值以下,则对输入帧进行时域编解码的装置。
附图说明
图1是每端由语音编解码器终结的通信信道的方框图;
图2是可以用于多模混合域线性预测(MDLP)语音编解码器中的编码器的方框图;
图3是可以用于多模MDLP语音编解码器中的解码器的方框图;
图4是流程图,示出可以用于图2编码器中的MDLP编码器所执行的MDLP编码步骤;
图5是流程图,示出语音编解码判定过程;
图6是闭环多模MDLP语音编解码器的方框图;
图7是可以用于图6编解码器或图2编码器中的频谱编解码器的方框图;
图8是振幅-频率曲线图,示出在谐波编解码器中的正弦波的振幅;
图9是流程图,示出在多模MDLP编解码器中的模式判定过程;
图10A是语音信号振幅-时间曲线图;以及图10B是线性预测(LP)剩余振幅-时间曲线图;
图11A是曲线图,是在闭环编码判定下速率/模式-帧索引的曲线图;图11B是在闭环判定下感知信噪比(PSNR)-帧索引的曲线图;以及,图11C是不存在闭环编码判定时速率/模式与PSNR两者-帧索引的曲线图。
具体实施方式
在图1中,第一个编码器10接收到数字化语音取样s(n),并对这些取样s(n)进行编码,以通过一个传输媒介12或通信信道12传输往第一个解码器14。解码器14对这些编码语音取样进行解码,并合成为一个输出语音信号sSYNTH(n)。对于反方向的传输,由第二个编码器16对数字化语音取样s(n)进行编码,这些取样通过一个通信信道18传输。第二个解码器20接收这些语音取样并进行解码,并产生一个合成的输出语音信号sSYNTH(n)。
语音取样s(n)表示已按照本技术领域中众知的各种方法中的任何一种,如脉冲编码调制(PCM)、压扩的μ律或A率,进行了数字化和量化的语音信号。正如本技术领域中已知,把这些语音取样s(n)组织成输入数据的一些帧,其中,每帧都包含了预定数量的数字化语音取样s(n)。在某个示例性实施例中,使用了8kHz的采样频率,即每个20ms的帧包含160个取样。在下面描述的实施例中,可以在帧到帧的基础上有利地改变数据传输速率,从8kbps(全速率)到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)。另一方面,也可以选用其他数据速率。如这里所使用,术语“全速率”或“高速率”一般指大于或等于8kbps的数据速率,而术语“半速率”或“低速率”一般指小于或等于4kbps的数据速率。变动数据传输速率是有益的,因为对于包含相对较少语音信息的帧,可以选择地使用较低的比特率。熟悉本技术领域的人员可以理解,也可以使用其它采样频率、帧大小和数据传输速率。
第一个编码器10和第二个解码器20一起组成第一个语音编解码器,或语言编码解码器。同样,第二个编码器16和第一个解码器14一起组成第二个语音编解码器。熟悉本技术领域的人员众知,语音编解码器可以由数字信号处理器(DSP)、专用集成电路(ASIC)、分立门逻辑电路、固件或任何常规可编程软件模块以及微处理器加以实现。软件模块可以驻留在RAM存储器、快闪存储器、寄存器或本技术领域中已知的任何其它形式可写入存储媒体中。另一方面,任何常规处理器、控制器或状态机都可以选来替代微处理器。在美国专利编号5,727,123(已转让给本发明的受让人,并全部附入以供参考)和1994年2月16日提出的,名为《声码器专用集成电路(ASIC)》的美国专利申请序列编号08/197,417(已转让给本发明的受让人,并全部附入以供参考)中,描述了特别为语音编解码而设计的示例性ASIC。
按照图2中描述的一个实施例,一个可以用于语音编解码器中的多模混合域线性预测(MDLP)编码器100包含一个模式判定模块102、一个间距估计模块104、一个线性预测(LP)分析模块106、一个LP分析滤波器108、一个LP量化模块110和一个MDLP剩余编码器112。把输入语音帧s(n)提供给模式判定模块102、间距估计模块104、线性预测(LP)分析模块106和LP分析滤波器108。模式判定模块102根据每个输入语音帧s(n)的周期和其它析取的参数如能量、频谱倾斜、过零点速率等产生一个模式索引IM和一个模式M。在1997年3月11日提出的,名为《执行降低速率的可变速率话音编解码的方法和设备》的美国专利申请序列编号08/815,354(已转让给本发明的受让人,并全部附入以供参考)中描述了根据周期对语音帧分类的多种方法。这样的方法也被结合在电信工业协会工业暂定标准TIA/EIA IS-127和TIA/EIA IS-733中。
间距估计模块104根据每个输入语音帧s(n)产生一个间距索引IP和一个时滞值P0。LP分析模块106对每个输入语音帧s(n)执行线性预测分析,以产生一个LP参数α。把该LP参数α提供给LP量化模块110。LP量化模块110还接收模式M,从而以取决于模式的方式执行量化过程。LP量化模块110产生一个LP索引ILP和一个量化LP参数。LP分析滤波器108除了接收该量化LP参数还接收输入语音帧s(n)。LP分析滤波器108产生一个表示输入语音帧s(n)和根据该量化线性预测参数再现的语音之间误差的LP剩余信号R[n]。把LP剩余信号R[n]、模式M和量化LP参数一起提供给MDLP剩余编码器112。根据这些数值,MDLP剩余编码器112按照下面参照图4流程图所描述的步骤产生一个剩余索引IR和一个量化剩余信号
在图3中,一个可以用于语音编解码器中的解码器200包含一个LP参数解码模块202、一个剩余解码模块204、一个模式解码模块206和一个LP合成滤波器208。模式解码模块206接收并对从模式M产生的模式索引IM并进行解码。LP参数解码模块202接收模式M和LP索引ILP。LP参数解码模块202对这些接收到的数值进行解码以产生一个量化LP参数。剩余解码模块204接收剩余索引IR、间距索引IP和模式索引IM。剩余解码模块204并对这些接收到的数值进行解码以产生一个量化剩余信号 该量化剩余信号
Figure C0081922100133
和量化LP参数一起提供给LP合成滤波器208,从中合成一个解码输出语音信号[n]。
除MDLP剩余编码器112以外,图2中编码器100和图3中解码器200中多个模块的运作和实现在本技术领域中是已知的,并在前述美国专利编号5,414,796和L.B.Rabiner与R.W.Schafer的《语音信号的数字处理》(1978年)第396-453页中有所描述。
按照一个实施例,一个MDLP编码器(未示出)执行图4流程图中的步骤。该MDLP编码器可以是图2中的MDLP剩余编码器112。在步骤300中该MDLP编码器检查模式M是全速率(FR)。还是四分之一速率(QR)或八分之一速率(ER)。如果模式M是FR、QR或ER,则该MDLP编码器就转到步骤302。在步骤302中,该MDLP编码器把相应的速率(FR、QR或ER——取决于M的值)施加于剩余索引IR。把对FR模式是高精度、高速率编解码,并且有利地是CELP编解码的时域编解码施加于一个LP剩余帧,或者另一方面,施加于一个语音帧。然后发送该帧(在包括数字-模拟转换和调制的进一步信号处理之后)。在一个实施例中,该帧是一个表示预测误差的LP剩余帧。在另一个实施例中,该帧是一个表示语音取样的语音帧。
另一方面,如果在步骤300中模式M不是FR、QR或ER(即,如果模式M是半速率(HR)),则该MDLP编码器就转到步骤304。在步骤304中,以半速率把有利地是谐波编解码的频谱编解码施加于LP剩余,或另一方面,施加于语音信号。然后该MDLP编码器转到步骤306。在步骤306中,通过对编码语音进行解码并将之与原始输入帧相比较,可以获得一个失真测量值D。然后,该MDLP编码器转到步骤308。在步骤308中,对该失真测量值D与一个预定阈值T进行比较。如果失真测量值D大于预定阈值T,则调制和发送以半速率频谱编码的帧的相应量化参数。另一方面,如果失真测量值D不大于阈值T,则该MDLP编码器转到步骤310。在步骤310中,以全速率在时域中对该解码了的帧重新编码。可以有利地使用任何常规高速率、高精度编解码算法,例如CELP编解码。然后,调制和发送与该帧相关联的FR模式量化参数。
如图5流程图中所示,按照一个实施例的一种闭环多模MDLP语音编解码器在处理用于传输的语音取样时遵循一组步骤。在步骤400中,语音编解码器接收连续帧中的语音信号的数字取样。在接受特定帧后,该语音编解码器执行步骤402。在步骤402中,该语音编解码器检测该帧的能量。能量是对帧的语音活动性的一种测量值。是将数字化语音取样振幅的平方相加,并将结果的能量与某个阈值相比较而执行语音检测。在一个实施例中,该阈值是根据背景噪声的变化电平而且适应的。在前述美国专利编号5,414,796中描述了一种示例性的可变阈值语音活动性检测器。某些无声语音可能是非常低能量的取样,可能被错误地当作背景噪声来编码。为防止这种情况发生,如前述美国专利编号5,414,796中所描述,可以使用低能量取样的频谱倾斜来区分无声语音和背景噪声。
在检测帧的能量后,该语音编解码器转到步骤404。在步骤404中,该语音编解码器确定被检测帧的能量是否足以将该帧分类为包含语音信息。如果被检测帧的能量低于预定阈值电平,则该语音编解码器转到步骤406。在步骤406中,该语音编解码器将该帧当作背景噪声(即非语音或静默)进行编码。在一个实施例中,以1/8速率或1kbps对背景噪声帧进行时域编码。如果在步骤404中,被检测帧的能量符合或超过预定阈值电平,则把该帧分类为语音,并且该语音编解码器转到步骤408。
在步骤408中,该语音编解码器确定该帧是否是周期性的。例如,多种已知的周期性确定方法包括利用过零点和利用归一化自相关函数(NACF)。特别地,在1997年3月11日提出的名为《执行降低速率的可变速率话音编解码的方法和设备》的美国专利申请序列编号08/815354(已转让予本发明的受让人,并全部附入以供参考)中描述了利用过零点和NACF来检测周期性。此外,上述用以区分有声语音和无声语音的方法也被结合在电信工业协会工业暂定标准TIA/EIA IS-127和TIA/EIA IS-733中。如果在步骤408中,确定该帧不是周期性的,则该语音编解码器转到步骤410。在步骤410中,该语音编解码器将该帧当作无声语音进行编码。在一个实施例中,以1/4速率或2kbps对无声语音帧进行时域编码。如果在步骤408中确定该帧是周期性的,则该语音编解码器转到步骤412。
在步骤412中,该语音编解码器使用如前述的,例如,上述美国专利申请序列编号08/815,354中所描述的现有技术中的已知周期性检测方法来确定该帧是否是充分周期性的。如果确定该帧不是充分周期性的,则该语音编解码器转到步骤414。在步骤414中,把该帧当作过渡语音(即从无声语音向有声语音过渡)进行时域编码。在一个实施例中,以全速率或8kbps对过渡语音帧进行时域编码。
如果在步骤412中,语音编解码器确定该帧是充分周期性的,则该语音编解码器转到步骤416。在步骤416中,该语音编解码器将该帧当作有声语音进行编码。在一个实施例中,以半速率或4kbps对有声语音帧进行频谱编码。有利地,用下面参照图7所描述的一种谐波编解码器对该有声语音帧进行频谱编码。另一方面,可以使用本技术领域中,已知的其它频谱编解码器,如正弦变换编解码器或多波段激发编解码器也可以选用。然后,该语音编解码器转到步骤418。在步骤418中,该语音编解码器对编码的有声语音帧进行解码。然后,该语音编解码器转到步骤420。在步骤420中,把该解码的有声语音帧与该帧的相应输入语音取样相比较,以获得一个合成后语音失真的测量值,并确定该种半速率有声语音频谱编解码模型是否工作在可接受的界限内。然后,该语音编解码器转到步骤422。
在步骤422中,该语音编解码器确定解码的有声语音帧与该帧的相应输入语音取样之间的误差是否低于预定的阈值。根据一个实施例,使用下面参照图6所描述的方式完成这种确定。如果该编码失真低于该预定的阈值,则该语音编解码器转到步骤424。在步骤424中,该语音编解码器将该帧当作有声语音,使用步骤416中的参数进行发送。如果在步骤422中该编码误差符合或超过该预定的阈值,则该语音编解码器转到步骤414,将在步骤400中接收到的数字化语音取样的该帧当作过渡语音以全速率进行时域编码。
需要指出,步骤400-410构成了一个开环编码判定模式,而另一方面,步骤412-426构成了一个闭环编码判定模式。
如图6中所示,在一个实施例中,一个闭环多模MDLP语音编解码器包括了与一个帧缓冲区502相连接一个模拟-数字转换器(A/D)500,帧缓冲区502又与一个控制处理器504相连接。一个能量计算器506、一个有声语音检测器508、一个背景噪声编码器510、一个高速率时域编码器512和一个低速率频谱编码器514也都与该控制处理器504相连接。一个频谱解码器516与频谱编码器514相连接,而一个误差计算器518与频谱解码器516和控制处理器504相连接。一个阈值比较器520与误差计算器518和控制处理器504相连接,一个缓冲器522与频谱编码器514、频谱解码器516和阈值比较器520相连接。
在图6中所示的实施例中,在语音编解码器中作为固件或其它软件驱动模块有利地实现这些语言编解码器的部件,而语音编解码器本身最好驻留在一个DSP或一个ASIC中。熟悉本技术领域的人员会明白这些语音编解码器部件也可以用许多其它已知方法等同地加以实现。有利地,控制处理器504可以是一个微处理器,但是另外也可以用一个控制器、状态机或分立逻辑电路来实现。
在图6中所示的多模编解码器中,把语音信号被提供给A/D 500。A/D 500将模拟信号转换成数字化语音取样S(n)的一些帧。把这些数字化语音取样提供给帧缓冲器502。控制处理器504从帧缓冲器502提取这些数字化语音取样,并将其提供给能量计算器506。能量计算器506则按照以下公式计算每个语音取样的能量E:
E = Σ n = 0 159 S 2 ( n )
其中帧的长度为20ms,采样频率为8kHz。把计算出的能量E又送回控制处理器504。
控制处理器504将该计算出的语音能量与语音活动性阈值相比校。如果该计算出的能量低于该语音活动性阈值,则控制处理器504从帧缓冲器502将这些数字化语音取样引导到背景噪声编码器510。背景噪声编码器510使用为保持对背景噪声的估计所必需的最少比特数对这些帧进行编码。
如果该计算出的能量大于或等于该语音活动性阈值,则控制处理器504将这些数字化语音取样从帧缓冲器502引导到有声语音检测器508。有声语音检测器508确定这些语音帧的周期性是否能允许使用某种低比特率频谱编码进行有效的编解码。确定一个语音帧中周期性水平的方法是本技术领域中已知的,例如,包括利用归一化自相关函数(NACF)和过零点。在前述美国专利申请序列编号08/815,354中描述了这些方法及其它方法。
有声语音检测器508将信号提供给控制处理器504,指出该语音帧所包含的语音是否具有足够的周期,以供频谱编码器514进行有效编码。如果有声语音检测器508确定该语音帧缺乏足够的周期,则控制处理器504将这些数字化语音取样引导到高速率编码器512,高速率编码器512以预定的最大数据速率对这些语音进行时域编码。在一个实施例中,该预定最大数据速率是8kbps,而该高速率编码器512是一个CELP编解码器。
如果有声语音检测器508最初确定该语音信号具有供频谱编码器514进行有效编码的足够的周期,则控制处理器504从帧缓冲区502将这些数字化语音取样引导到频谱编码器514。将在下面参照图7详细描述一种示例性的频谱编码器。
频谱编码器514析取估计间距频率F0、间距频率的谐波的振幅A1和话音信息Vc。频谱编码器415将这些参数提供给缓冲器522和频谱解码器516。有利地频谱解码器516可以与传统CELP编码器中的解码器相类似。频谱解码器516按照某种频谱解码格式(下面参照图7予以描述)产生合成语音取样 并将该合成语音取样提供给误差计算器518。控制处理器504将语音取样S(n)发送到误差计算器518。
误差计算器518按照以下公式计算每个语音取样S(n)和每个相应的合成语音取样 之间的均方误差(MSE):
MSE = Σ n = 0 159 ( S ( n ) - S ^ ( n ) ) 2
把计算出的MSE提供给阈值比较器520,阈值比较器520确定失真水平是否在可接受界限内,即失真水平是否低于预定的阈值。
如果计算出的MSE在可接受界限内,则阈值比较器520将信号提供给缓冲器502,并从语音编解码器中输出频谱编码了的数据。另一方面,如果MSE不在可接受界限内,则阈值比较器520将信号提供给控制处理器504,依次控制处理器504从缓冲器522将数字化取样引导到高速率时域编码器512。时域编码器512以预定的最大速率对这些帧进行编码,并丢弃缓冲区522中的内容。
在图6所示的实施例中,所使用的频谱编解码类型是下面将参照图7予以描述的谐波编解码,但也可以选择任何类型的频谱编解码,如正弦变换编解码或多波段激发编解码。如在美国专利编号5,195,166中描述多波段激发编解码的用法,而如在美国专利编号4,865,068中描述正弦变换编解码的用法。
针对过渡帧和相位失真阈值等于或低于周期性参数的有声帧,图6中的多模编解码器通过高速率时域编码器512以全速率或8kbps有利地使用CELP编解码。另一方面,针对这样的帧,可以使用任何其它已知的高速率时域编解码形式。如此,以高精度对过渡帧(和没有足够周期性的有声帧)编解码,以致其输入和输出波形就能很好地匹配,相位信息也能很好地保留。在一个实施例中,在处理了阈值超过其周期性测量值的预定数量连续的有声帧后,无需阈值比校器520的确定,多模编解码器就对某一帧从半速率频谱编解码切换到全速率CELP编解码。
需要指出,能量计算机506、有声语音检测器508与控制处理器504一起,构成了开环编码判定。反之,频谱编码器514、频谱解码器516、误差计算器518、阈值比较器520、缓冲器522与控制处理器504一起,构成了一个闭环编码判定。
在参考图7所描述的实施例中,使用频谱编解码(有利地是谐波编解码)以低比特率对充分周期性的有声帧进行编码。频谱编解码器一般由一些算法所定义,这些算法试图通过对每帧语音在频域中进行模拟和编码,以某种感性意味的方式保持语音频谱特征的时间演变。这样的算法的基本部分有:(1)频谱分析或参数估计;(2)参数量化;以及(3)用解码的参数合成输出语音波形。因此,其目标就是以一组频谱参数来保留短期语音频谱的重要特征,对这些参数进行编码,然后用解码了的这些频谱参数合成输出语音。一般,合成输出语音作为一种正弦波的加权和。该正弦波的振幅、频率和相位就是在分析期间估计的频谱参数。
尽管在CELP编解码中“通过合成分析”已经是一种众所周知的技术,在频谱编解码中却并未使用该技术。通过合成分析没有应用于频谱编解码器的主要原因是初始相位信息的丢失。尽管从某种感知的观点看,语音模型运作恰当,但是合成语音的均方能量(MSE)仍可能很高。因此,准确产生初始相位的另一个优点就是获得将再现的语音与语音取样直接比较的所产生能力,以允许确定该种语音模型是否可对语音帧准确地进行编码。
在频谱编解码中,合成输出语音帧如:
             S[n]=Sv[n]+Suv[n],n=1,2,...,N
其中N为每帧的取样数量,Sv和Suv分别为有声和无声的部分。一个“正弦波累加”合成过程建立有声的部分如下:
S [ n ] = Σ k = 1 L A ( k , n ) · cos ( 2 πn f k + θ ( k , n ) )
其中L为正弦波的总数量,fk为短期频谱中的感兴趣的频率,A(k,n)为正弦波的振幅,而θ(k,n)为正弦波的相位。这些振幅、频率和相位参数都是通过频谱分析过程从输入帧的短期频谱中估计的。无声部分可以在某单个的“正弦波累加”合成中与有声部分一起建立,或者可以通过某个专门的“无声合成”过程单独计算,然后加回到Sv中。
在图7的实施例中,使用一种被称为谐波编解码器的特殊类型频谱编解码器以低比特率对充分周期性的有声帧进行频谱编码。谐波编解码器分析一个帧的小片段,将该帧特征化为一些正弦波的和。正弦波和中的每一个正弦波都具有一个频率,该频率是该帧的间距F0的整数倍。在一个可替代的实施例中,特殊类型频谱编解码器不再是谐波编解码器,每一个帧的正弦波频率都从一组0到2π之间的实数中提取。在图7所示的实施例中,有利地选择总和中每个正弦波的振幅和相位,以致使该总和可以在一个周期上与信号最佳地匹配,如图8的曲线图所示。谐波编解码器一般使用某种外部分类,将每个输入语音帧标记为有声的或无声的。对于某个有声帧,其正弦波的频率都被限定为所估计间距(F0)的谐波,即fk=kF0。对于无声帧,使用其短期频谱的波峰被来确定正弦波。内插振幅和频率,以模拟它们在帧上的演变,如:
          A(k,n)=C1(k)*n+C2(k)
         θ(k,n)=B1(k)*n2+B2(k)*n+B3(k)
其中,根据开了窗口的输入语音帧的短期傅立叶变换(STFT)之外的特定频率位置fk(=kf0)处的振幅、频率和相位的瞬时值来估计系数[Ci(k),Bi(k)]。每个正弦波要发送的参数是振幅和频率。不发送相位,而是按照几种已知技术(如二次相位模拟)中的任何一种来模拟。
如在图7中所示,某个谐波编解码器包含一个间距析取器600,它与窗口逻辑电路602和离散傅立叶变换(DFT)及谐波分析逻辑电路604相连接。接收语音取样S(n)作为输入的间距析取器600,还与DFT及谐波分析逻辑电路604相连接。DFT及谐波分析逻辑电路604与一个剩余编码器606相连接。间距析取器600、DFT及谐波分析逻辑电路604和剩余编码器606每个都与一个参数量化器608相连接。参数量化器608又与一个信道编码器610相连接,而信道编码器610则与一个发射机612相连接。发射机612通过某种标准射频(RF)接口(例如,堵如某种码分多址(CDMA)空中接口)与一个接收机614相连接。接收机614与一个信道解码器616相连接,而信道解码器616又与一个去除量化器618相连接。去除量化器618与一个“正弦波累加”语音合成器620相连接。与“正弦波累加”语音合成器620相连接的还有一个接收前一帧信息作为输入的相位估计器622。配置“正弦波累加”语音合成器620以产生合成语音输出SSYNTH(n)。
间距析取器600、窗口逻辑电路602、DFT及谐波分析逻辑电路604、剩余编码器606、参数量化器608、信道编码器610、信道解码器616、去除量化器618、“正弦波累加”语音合成器620和相位估计器622可以用熟悉本技术领域的人员众知的多种不同的方式,如包括固件或软件模块,加以实现。发射机612和接收机614可以用任何等效的标准RF部件加以实现。
在图7所示的谐波编解码器中,间距析取器600接收输入取样S(n),并析取间距频率信息F0。然后窗口逻辑电路602按取样乘以合适的窗口函数,以允许对语言帧的小片段进行分析。利用间距析取器608提供的间距信息,DFT及谐波分析逻辑电路604计算取样的DFT,以产生复数频谱点,从复数频谱点可从析取谐波振幅A1,如图8的曲线图所示,在图8中,L表示谐波的总数量。把DFT提供给剩余编码器606,剩余编码器606析取声音信息Vc
应该指出,如图8所示,参数Vc表示频率轴上的一个点,在其上方的频谱是无声语音信号的特征,而且不再是谐波。相反,在Vc点下方的频谱是谐波及有声语音信号的特征。
把A1、F0和Vc成分提供给对这些信息进行量化的参数量化器608。把这些量化信息以分组的形式提供给信道编码器610,信道编码器610以例如,诸如半速率或4kbps的低比特率对其进行量化。然后这些分组被提供给发射机612,发射机612对其进行调制并从空中将结果信号发送往接收机614。接收机614接收并解调该信号,将编码的分组传递给信道解码器616。信道解码器616对这些分组进行解码,并将解码的分组提供给去除量化器618。去除量化器618对这些信息进行去除量化。然后把这些信息被提供给“正弦波累加”语音合成器620。
配置“正弦波累加”语音合成器620以按照上述关于S[n]的公式对多个模拟短期语音频谱的正弦波进行合成。这些正弦波的频率fk是基本频率F0的倍数或谐波,而基本频率F0是准周期性(即过渡)有声语音片段的间距周期的频率。
“正弦波累加”语音合成器620还从相位估计器622接收相位信息。相位估计器622接收前面帧的信息,即紧接的前一帧的A1、F0和Vc参数。相位估计器622还接收前面帧再现的N个取样,其中N是帧的长度(即N是每帧的取样数量)。相位估计器622根据前面帧的信息确定帧的初始相位。把确定的初始相位提供给“正弦波累加”语音合成器620。根据当前帧的信息,和由相位估计器622根据过去帧信息进行的初始相位计算,“正弦波累加”语音合成器620产生合成的语音帧,如上所述。
如上所述,谐波编解码器通过利用前面帧的信息和预测相位从一帧到一帧线性地变化。而合成或再现对语音帧。在上述普通称为“二次相位模型”的合成模型中,系数B3(k)表示正在合成的当前有声帧的初始相位。在确定相位时,常规谐波编解码器或者是将初始相位设置为零,或者是随机地或按一些伪随机产生方法产生一个初始相位。为了更加准确地预测相位,相位估计器622根据紧接的上一帧被确定为是有声语音帧(即一个充分周期性的帧)还是过渡语音帧而使用两种可能的方法之一来确定初始相位。如果前面的帧是一个有声语音帧,则使用一帧的最终估计相位值作为当前帧的初始相位值。另一方面,如果把前面的帧分类为一个过渡帧,则从通过对前面帧的解码输出执行DFT得到的前面帧的频谱得到当前帧的初始相位值。如此,相位估计器622就利用了已经存在的准确相位信息(因为是以全速率处理作为过渡帧的前面的帧的)。
在某实施例中,一种闭环多模MDLP语音编解码器遵循图9流程图中所描述的语音处理步骤。该语音编解码器通过选择最恰当的编码模式来对每个输入语音帧的LP剩余进行编码。某些模式在时域中对LP剩余或语音剩余进行编码,而另一些模式在频域中表示LP剩余或语音剩余。这些模式的集合是:针对过渡帧按全速率、时域(T模式);针对有声帧按半速率、频域(V模式);针对无声帧按四分之一速率、时域(U模式);针对噪声帧按八分之一速率、时域(N模式)。
熟悉本技术领域的人员会理解,语音信号或相应的LP剩余都可以遵循图9中所示的步骤来进行编码。可以把噪声、无声、过渡和有声语音的波形特征都看作图10A的曲线图中的时间函数。可以把噪声、无声、过渡和有声LP剩余看作图10B的曲线图中的时间函数。
在步骤700中,作出关于将四种模式(T、V、U或N)中的哪一种应用于输入语音剩余S(n)的开环模式判定。如果应用T模式,则在步骤702中按T模式(即全速率、在时域中)处理语音剩余。如果应用U模式,则在步骤704中按U模式(即四分之一速率、在时域中)处理语音剩余。如果应用N模式,则在步骤706中按N模式(即八分之一速率、在时域中)处理语音剩余。如果应用V模式,则在步骤708中按V模式(即半速率、在频域中)处理语音剩余。
在步骤710中,对应步骤708中编码的语音进行解码,并将其与输入语音剩余S(n)相比较,以及计算性能测量值D。在步骤712中,将该性能测量值D与预定的阈值T相比较。如果性能测量值D大于或等于阈值T,则在步骤714中准许发送在步骤708中频谱编码的语音剩余。另一方面,如果性能测量值D小于阈值T,则在步骤716中按T模式处理输入语音剩余S(n)。在某个可替代的实施例中,不计算性能测量值,也不定义阈值。而是在按V模式处理了预定数量的语音剩余帧后,就按T模式处理下一帧。
有利地,图9中所示的判定步骤允许只有在必要时才使用高比特率的T模式,而将低比特率的V模式用于有声语音片段的周期性,同时在无法合适地执行V模式时切换到全速率,以防止品质的任何下降。相应地,就可以以显著低于全速率的某个平均速率来产生一种接近全速率话音品质的非常高的话音品质。而且,还可以通过选定的性能测量值和所选择的阈值来控制目标话音品质。
通过使模拟相位跟踪保持接近输入语音的相位跟踪,对T模式的“更新”也提高了V模式后续应用的性能。当V模式的性能不适当时,步骤710和712的闭环性能检查就切换到T模式,从而通过“刷新”初始相位值,让模拟相位跟踪再次靠近原始输入语音的相位跟踪,提高了后续的V模式处理的性能。通过如图11A-C的曲线图中所示的例子,如通过所用的PSNR失真测量值可见,在V模式中从开始的第五帧执行得不适当。因而,如果没有闭环判定和更新,模拟相位跟踪将显著偏离原始输入语音的相位跟踪,导致如图11C所示的PSNR的剧烈降低。而且,在V模式下处理的后续帧的性能都降低了。但是,在闭环判定下,把第五帧如图11A所示那样切换到T模式处理。可以从图11B所示PSNR的提高看出,第五帧的性能通过更新获得了显著的提高。此外,还提高了在V模式中处理的后继帧的性能。
通过提供非常准确的初始相位估计值,确保V模式合成的结果语音剩余信号与原始输入语音剩余S(n)在时间上准确对齐,图9所示的判定步骤提高了V模式的表示品质。以下述方式从紧接的上一解码帧获得第一个V模式处理的语音剩余片段的初始相位。对于每个谐波,如果上一帧是在V模式下处理的,则把其初始相位设置为等于上一帧的最终估计相位。对于每个谐波,如果上一帧是在T模式下处理的,则把其初始相位设置为等于上一帧的实际谐波相位。通过使用整个上一帧进行过去解码剩余的DFT而获得上一帧的实际谐波相位。另一方面,也可以通过处理上一帧的多个间距周期,以间距同步方式对过去解码剩余进行DFT而获得上一帧的实际谐波相位。
如此,已经描述了一种新颖的闭环多模混合域线性预测(MDLP)语音编解码器。熟悉本技术领域的人员众知,可以用数字信号处理器(DSP)、专用集成电路(ASIC)、分立门或晶体管逻辑电路、如寄存器和FIFO之类的分立硬件部件、执行一组固件指令的处理器或任何常规可编程软件模块以及处理器来实现或执行与在此透露的实施例有关的多种说明性逻辑块和算法步骤。有利地,处理器可以是微处理器,但是另一方面,该处理器也可以是任何常规处理器、控制器、微控制器或状态机。软件模块可以驻留在RAM存储器、快闪存储器、寄存器或本技术领域中已知的任何其它形式可写入存储媒体。熟悉本技术领域的人员会进一步理解,以上整个描述中所引用的数据、指令、命令、信息、信号、比特、符号和芯片,可以有利地用电压、电流、电磁波、磁场或磁微粒、光场或光微粒、或它们的任何组合来予以表示。
本发明的较佳实施例由此得以揭示和描述。可是,熟悉本技术领域中基本技术的人员会明了,可以对此处揭示的实施例作许多改变而不偏离本发明的精神和范围。所以,除非依据以下的如权利要求,本发明不受限制。

Claims (25)

1.一种多模混合域语音处理器,其特征在于,包括:
编解码器,它具有至少一种时域编解码模式和至少一种频域编解码模式;和
闭环模式选择装置,它与编解码器相连,并配置成如果频域编解码模式的输出失真至可接受的界限之外,则实现至少一种时域编解码模式;
其中所述闭环模式选择装置包括与编解码器相连的比较电路,用来对未编码帧和按至少一种频域编解码模式编码的帧进行比较,并根据比较结果产生性能测量值,其中,只有该性能测量值低于预定阈值时,编解码器才应用至少一种时域编解码模式,否则编解码器应用该至少一种频域编解码模式。
2.如权利要求1所述的语音处理器,其特征在于,编解码器对语音帧进行编码。
3.如权利要求1所述的语音处理器,其特征在于,编解码器对语音帧的线性预测剩余进行编码。
4.如权利要求1所述的语音处理器,其特征在于,至少一种时域编解码模式包括一种按第一种编码速率对帧进行编解码的编解码模式,以及至少一种频域编解码模式包括一种按第二种编码速率对帧进行编解码的编解码模式,第二种编码速率小于第一种编码速率。
5.如权利要求1所述的语音处理器,其特征在于,至少一种频域编解码模式包括一种谐波编解码模式。
6.如权利要求1所述的语音处理器,其特征在于,在连续处理以至少一种频域编解码模式编解码的帧达到某一预定数量后,编解码器对紧接着的一帧应用至少一种时域编解码模式。
7.一种多模混合域语音处理器,其特征在于,包括:
编解码器,它具有至少一种时域编解码模式和至少一种频域编解码模式,其中至少一种频域编解码模式用多个各具一组包括频率、相位和振幅的参数的正弦波表示每个帧的短期频谱,相位由一个多项表达式和一个初始相位值来模拟,其中多项表达式为θ(k,n)=B1(k)*n2+B2(k)*n+B3(k),θ(k,n)为正弦波的相位,k等于1,2…,L,L为正弦波的总数量,n等于1,2…,N,N为每帧的取样数量,Bi(k)是估计系数,初始相位值或者是(1)如果前一帧以至少一种频域编解码模式的一种编解码,则取前一帧的最终估计相位值,或者是(2)如果前一帧以该至少一种时域编解码模式中的一种编解码,则取从前一帧的短期频谱获取的一个相位值;和
闭环模式选择装置,它与编解码器相连,并配置成根据以至少一种频域编解码模式编码的每个帧的短期频谱为编解码器选择编解码模式,其中如果短期频谱失真至可接受的界限之外,闭环模式选择装置则选择至少一种时域编解码模式;
其中所述闭环模式选择装置包括与编解码器相连的比较电路,用来对未编码帧和按至少一种频域编解码模式编码的帧进行比较,并根据比较结果产生性能测量值,其中,只有该性能测量值低于预定阈值时,编解码器才应用至少一种时域编解码模式,否则编解码器应用该至少一种频域编解码模式。
8.如权利要求7所述的语音处理器,其特征在于,每一帧的正弦波频率是该帧的间距频率的整数倍。
9.如权利要求7所述的语音处理器,其特征在于每一帧的正弦波频率从一组0到2π之间的实数中提取。
10.一种处理帧的方法,其特征在于,包括下列步骤:
对每个连续输入帧应用开环编解码模式选择过程,以根据输入帧的语音内容选择一种时域编解码模式或一种频域编解码模式;
如果输入帧的语音内容表示为稳定状态的有声语音,则对该输入帧进行频域编解码;
如果输入帧的语音内容表示为除稳定状态有声语音外的任何其它内容,则对该输入帧进行时域编解码;
比较以频域编解码的帧和输入帧,以获取一个性能测量值;和
如果该性能测量值低于预定的阈值,则对该输入帧进行时域编解码。
11.如权利要求10所述的方法,其特征在于,这些帧都是线性预测剩余帧。
12.如权利要求10所述的方法,其特征在于,这些帧都是语音帧。
13.如权利要求10所述的方法,其特征在于,时域编解码步骤包括按第一种编解码速率对帧进行编解码,频域编解码步骤包括按第二种编解码速率对帧进行编解码,第二种编解码速率小于第一种编解码速率。
14.如权利要求10所述的方法,其特征在于,频域编解码步骤包括谐波编解码。
15.如权利要求10所述的方法,其特征在于,频域编解码步骤包括用多个各具一组包括频率、相位和振幅的参数的正弦波表示每个帧的短期频谱,其中相位由一个多项表达式和一个初始相位值来模拟,其中多项表达式为θ(k,n)=B1(k)*n2+B2(k)*n+B3(k),θ(k,n)为正弦波的相位,k等于1,2…,L,L为正弦波的总数量,n等于1,2…,N,N为每帧的取样数量,Bi(k)是估计系数,初始相位值或者是(1)如果前一帧以频域编解码模式编解码,则取前一帧的最终估计相位值,或者是(2)如果前一帧以时域编解码模式编解码,则取从前一帧的短期频谱获取的一个相位值。
16.如权利要求15所述的方法,其特征在于,每一帧的正弦波频率是该帧间距频率的整数倍。
17.如权利要求15所述的方法,其特征在于,每一帧的正弦波频率从一组0到2π之间的实数中提取。
18.一种多模混合域语音处理器,其特征在于包括:
对输入帧应用开环编解码模式选择过程,以根据输入帧的语音内容选择一种时域编解码模式或一种频域编解码模式的装置;
如果输入帧的语音内容表示为稳定状态的有声语音,则对该输入帧进行频域编解码的装置;
如果输入帧的语音内容表示为除稳定状态有声语音外的任何其它内容,则对该输入帧进行时域编解码的装置;
比较以频域编解码的帧和输入帧,以获取一个性能测量值的装置;和
如果该性能测量值低于某个预定的阈值,则对该输入帧进行时域编解码的装置。
19.如权利要求18所述的语音处理器,其特征在于,该输入帧是一个线性预测剩余帧。
20.如权利要求18所述的语音处理器,其特征在于,该输入帧是一个语音帧。
21.如权利要求18所述的语音处理器,其特征在于,用于时域编解码的装置包括按第一种编解码速率对帧进行编解码的装置,用于频域编解码的装置包括按第二种编解码速率对帧进行编解码的装置,第二种编解码速率小于第一种编解码速率。
22.如权利要求18所述的语音处理器,其特征在于,用于频域编解码的装置包括谐波编解码器。
23.如权利要求18所述的语音处理器,其特征在于,用于频域编解码的装置包括用多个各具一组包括频率、相位和振幅的参数的正弦波表示每个帧的短期频谱的装置,其中,相位由一个多项表达式和一个初始相位值来模拟,其中,多项表达式为θ(k,n)=B1(k)*n2+B2(k)*n+B3(k),θ(k,n)为正弦波的相位,k等于1,2…,L,L为正弦波的总数量,n等于1,2…,N,N为每帧的取样数量,Bi(k)是估计系数,初始相位值或者是(1)如果前一帧以频域编解码模式编解码,则取前一帧的最终估计相位值,或者是(2)如果前一帧以时域编解码模式编解码,则取从前一帧的短期频谱获取的一个相位值。
24.如权利要求23所述的语音处理器,其特征在于,每一帧的正弦波频率是该帧间距频率的整数倍。
25.如权利要求23所述的语音处理器,其特征在于每一帧的正弦波频率从一组0到2π之间的实数中提取。
CNB008192219A 2000-02-29 2000-02-29 闭环多模混合域线性预测语音编解码器和处理帧的方法 Expired - Lifetime CN1266674C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2000/005140 WO2001065544A1 (en) 2000-02-29 2000-02-29 Closed-loop multimode mixed-domain linear prediction speech coder

Publications (2)

Publication Number Publication Date
CN1437747A CN1437747A (zh) 2003-08-20
CN1266674C true CN1266674C (zh) 2006-07-26

Family

ID=21741098

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008192219A Expired - Lifetime CN1266674C (zh) 2000-02-29 2000-02-29 闭环多模混合域线性预测语音编解码器和处理帧的方法

Country Status (10)

Country Link
EP (1) EP1259957B1 (zh)
JP (1) JP4907826B2 (zh)
KR (1) KR100711047B1 (zh)
CN (1) CN1266674C (zh)
AT (1) ATE341074T1 (zh)
AU (1) AU2000233851A1 (zh)
DE (1) DE60031002T2 (zh)
ES (1) ES2269112T3 (zh)
HK (1) HK1055833A1 (zh)
WO (1) WO2001065544A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
CN100504922C (zh) * 2003-12-19 2009-06-24 创新科技有限公司 处理数字图像的方法和系统
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
CN101283406B (zh) * 2005-10-05 2013-06-19 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
US7643561B2 (en) * 2005-10-05 2010-01-05 Lg Electronics Inc. Signal processing using pilot based coding
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
WO2007148925A1 (en) 2006-06-21 2007-12-27 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
KR101131880B1 (ko) * 2007-03-23 2012-04-03 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
WO2008131703A1 (de) * 2007-04-26 2008-11-06 Siemens Aktiengesellschaft Baugruppe mit automatischer erweiterung eines überwachungskreises
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
KR101617816B1 (ko) 2011-02-14 2016-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
PL2550653T3 (pl) 2011-02-14 2014-09-30 Fraunhofer Ges Forschung Reprezentacja sygnału informacyjnego z użyciem transformacji zakładkowej
CA2903681C (en) 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
ES2715191T3 (es) 2011-02-14 2019-06-03 Fraunhofer Ges Forschung Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
MX2013009301A (es) 2011-02-14 2013-12-06 Fraunhofer Ges Forschung Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio.
TWI469136B (zh) 2011-02-14 2015-01-11 Fraunhofer Ges Forschung 在一頻譜域中用以處理已解碼音訊信號之裝置及方法
PT2676265T (pt) 2011-02-14 2019-07-10 Fraunhofer Ges Forschung Aparelho e método para codificar e descodificar um sinal de áudio utilizando uma parte antecipada alinhada
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10957331B2 (en) * 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986005617A1 (en) * 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
JPH02288739A (ja) * 1989-04-28 1990-11-28 Fujitsu Ltd 音声符号復号化伝送方式
JP3680374B2 (ja) * 1995-09-28 2005-08-10 ソニー株式会社 音声合成方法
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法

Also Published As

Publication number Publication date
ES2269112T3 (es) 2007-04-01
KR100711047B1 (ko) 2007-04-24
DE60031002T2 (de) 2007-05-10
EP1259957A1 (en) 2002-11-27
JP4907826B2 (ja) 2012-04-04
DE60031002D1 (de) 2006-11-09
AU2000233851A1 (en) 2001-09-12
JP2003525473A (ja) 2003-08-26
CN1437747A (zh) 2003-08-20
WO2001065544A1 (en) 2001-09-07
HK1055833A1 (en) 2004-01-21
ATE341074T1 (de) 2006-10-15
KR20020081374A (ko) 2002-10-26
EP1259957B1 (en) 2006-09-27

Similar Documents

Publication Publication Date Title
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CN100350453C (zh) 强壮语音分类方法和装置
CN1154086C (zh) Celp转发
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
CN1241169C (zh) 语音中非话音部分的低数据位速率编码
CN100362568C (zh) 用于预测量化有声语音的方法和设备
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN1158647C (zh) 话音编码设备的频谱幅度量化
CN1121683C (zh) 语音编码
CN1922659A (zh) 编码模式选择
CN1212607C (zh) 使用编码方案选择模型以减少对帧差错敏感性的预测语音编码器
CN1334952A (zh) 用于改善编码通信信号性能的编码增强特性
CN1188832C (zh) 过滤语言帧的多脉冲内插编码
CN1361912A (zh) 保持语言编码中目标比特率的方法和装置
CN1290077C (zh) 用来对相位谱信息进行子抽样的方法和设备
CN1144177C (zh) 产生语音编码器用八分之一速率随机数的方法和装置
CN112614495A (zh) 一种软件无线电多制式语音编解码器
CN1262991C (zh) 跟踪准周期性信号的相位的方法和设备
FR2869151B1 (fr) Procede de quantification d'un codeur de parole a tres bas debit

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20060726