CN1470050A - 可感知地改善的编码声信号的增强 - Google Patents

可感知地改善的编码声信号的增强 Download PDF

Info

Publication number
CN1470050A
CN1470050A CNA01817597XA CN01817597A CN1470050A CN 1470050 A CN1470050 A CN 1470050A CN A01817597X A CNA01817597X A CN A01817597XA CN 01817597 A CN01817597 A CN 01817597A CN 1470050 A CN1470050 A CN 1470050A
Authority
CN
China
Prior art keywords
master code
code signal
frequency spectrum
reconstruction
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA01817597XA
Other languages
English (en)
Other versions
CN1271597C (zh
Inventor
S3
S·布鲁恩
�������ɭ
S·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN1470050A publication Critical patent/CN1470050A/zh
Application granted granted Critical
Publication of CN1271597C publication Critical patent/CN1271597C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

本发明涉及对宽带及窄带声源信号(x)进行编码,以便于与公知的方法相比较,所感知到的对应重建信号的声音质量得到改善。通过利用一个增强频谱(C),与常规的编码/解码装置(101)串行或并行运算的增强估算单元(102)可感知地增强重建的声源信号,其中所述增强频谱(C)包括比在携带声源信号的基本编码表示的对应信号帧中采样值数量多的较大数量频谱系数。由此所扩展的增强频谱帧的块长度为实现所要求的可感知的声音质量改善提供了基础。

Description

可感知地改善的编码声信号的增强
本发明的背景及相关技术
本发明总体上涉及对声源信号的编码,以便基于编码信息所重建的相应信号具有一个可感知的声音质量,此声音质量较根据公知编码方法的声音质量高。更具体而言,根据权利要求1和43的前序,本发明涉及对声源信号的编码,以产生用于经一传输介质来传输的编码信息,根据权利要求30和52的前序,本发明涉及对通过一传输介质已经接收的所述编码信息进行对应的解码。本发明还涉及一种根据权利要求65序言的通讯系统,以及根据权利要求28相应41的计算机程序,以及根据权利要求29相应42的计算机可读取媒体。
存在语音编码解码器的许多不同应用。例如编码和解码方案被用作声源信号在固定和移动通讯系统中以及在电视会议系统中的比特率高效传输。语音编码解码器还可以被用在安全电话业及用于声音存储器中。
在固定和移动电话业以及在电视会议中的趋势是朝向改善重建声源信号的质量。这一趋势反映出用户的期望,即这些系统提供至少与当今固定电话网络同样优良的声音质量。满足这一期望的一种方法是扩宽声源信号的频率带,并由此向接收器传送包含在源信号中的更多信息。确实,语音信号的大部分能量从频谱上讲位于0kHz和4kHz之间(即,现有技术编码器/解码器的典型带宽)。然而,相当大的能量还被分配在4kHz和8kHz之间。在此带中的频率组分表示出由人类听众感知到“清晰”的信息且表示出说话者与听众“接近”这样的感觉。
人类听力的频率分辨率随着频率的增加而减少。因此在4kHz和8kHz之间的频率组分比较而言需要较少位来效仿一个足够的精确度。
针对对一个声源信号进行编码以便于它可以由一个具有相对良好感知声音质量的接收器进行重建这一问题,其方法将包括:例如一个后滤波器,其与规则编码装置串行或并行运算,除了主编码信息以外它还产生一个编码信息。对于窄带声源信号(典型地具有0-3.5kHz或0-4kHz的带宽)才存在涉及到后滤波的编码方法。然而,如果这些窄带方法被用于传输具有较大带宽的声源信号,则具有比较而言差的声音质量的所述信号被重建。其原因在于:基本的编码解码器方法和增强方法两者都被优化用于保存窄带信号的特征。事实上,在不幸的情况下,就所感知的声音质量,增强编码甚至可以使情况变糟。
此外,在低于16千比特/秒速率下运算(典型地处于手机应用下)的公知语音编码器及解码器,总体上显示出非语音声音如音乐的相对低的性能。
因此,当今的编码解码器或编码方案提供一种方法,借此方法一个具有令人满意的可感知质量的宽带声源信号可以被编码且被重建。此外,对于某些应用,要求可感知到得以改善的窄带编码方法。
发明概述
因此本发明的目的是避免上述问题且与所公知的方法相比,其使具有可感知质量基本上得到改善的宽带及窄带声源信号得到有效的编码、传输及重建成为可能。
根据本发明的一个方面,如最初所述,通过对声源信号进行编码的方法,所述目的得以实现,其特征在于一种增强频谱,所述频谱包括一个与在目标信号帧及主编码信号帧中的采样值数量相比较大数量的频谱系数。由此,与在其它信号中采样值的数量相关,在增强频谱中增加数量的频谱系数提供了用于实现所要求的可感知声音质量加以改善的基础。
根据本发明的另一个方面,通过一种被直接装入到计算机内部存储器内的计算机程序,所述目的得以实现,所述计算机程序包括当所述程序在所述计算机上运行时用于控制上述段落中所述方法的软件。
根据本发明的另一方面,通过一种具有其上被记录有程序的计算机可读取介质,所述目的得以实现,其中所述程序将使所述计算机控制在上述倒数第二段中所述方法。
根据本发明的另一方面,如最初所述,通过一种对通过传输介质被传输的编码信息进行解码的方法,所述目的得以实现,其特征在于:通过扩展有关重建的主编码信号帧,以便包括与增加频谱中的频谱系数一样多的采样值,从而产生一个增强的编码信号。
根据本发明的另一方面,通过一种被直接装入到计算机内部存储器内的计算机程序,所述目的得以实现,所述计算机程序包括当所述程序在所述计算机上运行时用于控制上述段落中所述方法的软件。
根据本发明的附加方面,通过一种具有其上被记录有程序的计算机可读取介质,所述目的得以实现,其中所述程序将使所述计算机控制在上述倒数第二段中所述方法。
根据本发明的另一方面,通过一种发送器所述目的得以实现,所述发送器用于对声源信号进行编码,以便如上所述产生用于通过一传输介质来传输的编码信息,其特征在于:与在进来的目标信号帧及进来的主编码信号帧中的采样值数量相比,增强频谱包括一个较大数量的频谱系数。在所述发送器中的增强估算单元扩展有关的目标信号帧及有关的主编码信号帧,以便于它们中的每一个均包括与增强频谱中的频谱系数同样多的采样值。
根据本发明的另一方面,通过一种接收器所述目的得以实现,如最初所述,所述接收器用于从传输介质中接收编码信息并对其解码,其特征在于:增强单元扩展一个进来的重建主编码信号帧,以便包括与增强频谱中的频谱系数同样多的采样值。
根据本发明的另一方面,通过一种通讯系统所述目的得以实现,所述通讯系统用于在第一和第二节点之间交换已编码的声源信号,其包括所建议的发送器、所建议的接收器以及用于从所述发送器到所述接收器来传输编码信息的传输介质。
当然,在所述增强频谱中所建议的扩展数量的频谱系数增加了对应信号的频率分辨率。尤其是就可感知的声音质量,其为许多有益的效果提供了基础。得到改善的频率分辨率即意味着包含在源信号中可感知到的更多重要信息可以由此得到编码且被送到接收器。
此外,从计算的角度看,优选地是利用信号帧,所述信号帧包括众多适用于快速傅立叶变换(FFT)的采样值,例如整数2的幂。所建议的方法提供就此选择一个理想帧尺寸的完全自由。
因此,本发明既包括用于传输一声源信号得到改善的可感知质量的方法,又包括一个计算上高效的方法。
附图的简要说明
现在参考所附的附图,通过作为实例被公开的优选实施例,本发明将得到更细致的说明。
图1示出根据本发明的一个通用发送器的方框图,
图2示出根据本发明的一个通用接收器的方框图,
图3示出根据本发明第一实施例的发送器的方框图,
图4示出根据本发明第一实施例的接收器的方框图,
图5示出根据本发明第二实施例的发送器的方框图,
图6示出根据本发明第二实施例的接收器的方框图,
图7示出一个示意图,其示例出根据本发明的实施例,一个对称窗是如何被应用到信号帧上,
图8示出一个示意图,其示例出根据本发明的实施例,一个非对称窗是如何被应用到信号帧上,
图9以一个流程图示例出根据本发明所述方法的第一方面,以及
图10以一个流程图示例出根据本发明所述方法的第二方面。
本发明优选实施例的说明
图1呈现出一个通用发送器的方框图,所述发送器用于对一个声源信号x进行编码,以产生用于通过传输介质来传输的编码信息S、Cq。图9通过一个流程图示例出由所述发送器所执行的对应方法步骤。所述发送器包括一个主编码器101,其具有一个用来接收声源信号x的输入。响应于所述声源信号x,所述主编码器101产生一个目标信号T和一个旨在与所述目标信号T相匹配的主编码信号P1。所述目标信号T与所述主编码信号P1均被分成帧,其每一个包括第一数量n1采样值。因此所述目标信号T由被按照成组对待的采样值来表示,其中所述每个组构成了一个目标信号帧。对应地,所述编码信号P1的采样值按照编码的信号帧被分组在一起。主编码器101还产生编码信息S,主编码信号P1将从所述编码信息S中由一接收器来重建。因此编码信息S表示声源信号x的重要特征。参考图3和5,可以被包括在编码信息S中的数据实例将被给出。
由主编码器101所执行的上述动作对应于图9流程图中的头三个步骤901、902和903,即产生具有第一数量n1采样值/帧的目标信号T、产生具有第一数量n1采样值/帧的主编码信号P1,及产生编码信息S。所述目标信号T、主编码信号P1和编码信息S均是响应于所述进来的声源信号x而产生。
增强估算单元102接收目标信号T和主编码信号P1且响应于所述这些信号产生一个增强频谱C,接收器将从所述增强频谱C可感知地改善对声源信号x的重建。增强频谱C按照帧方式来产生,以便于增强频谱C的特定帧是基于来自目标信号T的至少一个帧以及来自主编码信号P1的至少一个帧的采样值。为了建立增强频谱C的一个帧,也就是说采样值必须取自于不只一个进来的帧,因为增强频谱C的一个帧包括比目标信号T或主编码信号P1的一个帧更多的采样值。根据本发明所优选的实施例,增强频谱C的帧包括若干采样,所述数量为整数2的幂,假定为128。典型地,目标信号帧或主编码信号帧的一个帧包括80个采样(如果一个帧表示以16kHz的速率来采样的5ms),则因此其意味着在增强频谱帧中存在比目标信号帧或主编码信号帧中的采样值多48个(或60%)的采样值。在图9中增强信号C的这一产生被表示为步骤904,其涉及产生一个具有第二数量nc采样值/帧的增强频谱C。如前所述,所述第二数量nc大于所述第一数量n1,且优选为整数2的幂。
增强编码器103接收增强频谱C且响应于此产生一个编码的增强频谱Cq,所述增强频谱Cq构成增强频谱C的编码表示。将增强频谱C编码成编码的增强频谱Cq的目的在于:使增强频谱C的格式适应于通过传输介质进行传输。典型地,这种自适应涉及将增强频谱C量化,以便于它由离散的采样值来表示。
在图9中编码的增强频谱Cq的形成被表示为步骤905,且其随后为步骤906,其中由主编码器101所产生的编码信息S、以及编码的增强频谱Cq两者均被输出,用于通过传输介质进行传输,所述传输介质构成了数据S和Cq的发送器和接收器之间的信道。
然后所述程序循环返回以对声源信号x的随后一个帧进行编码。
所建议的增强频谱的增加块长度(即频谱容纳比目标信号T或主编码信号P1的一个帧中的采样值更多的频谱系数)并不是在实际中所要完成的一个微不足道的特点。无论如何,增强频谱C所基于的信号帧必须被扩展到包括这样一个数量的采样值,所述采样值数量等于增强频谱C中频谱系数的数量。
根据本发明所优选的实施例,通过在一个有关帧的末尾添加一个足够数量的零值采样,即所谓的零填充,目标信号及主编码信号的基础帧被扩展。因而,如果目标信号和主编码信号的一个帧包括80个采样值且增强频谱的一个帧包括256个频谱系数,则在被包含在每个目标信号帧和主编码信号帧中的原始采样值末端(或开始处)添加176个数值为零的采样。
根据本发明另一优选的实施例,通过将来自至少前面一个帧的足够数量的采样值添加到一个有关帧中,则目标信号及主编码信号的基础帧被扩展。因而,如果目标信号和主编码信号的一个帧包括148个采样值且增强频谱的一个帧包括256个采样值,则在被包含在每个目标信号帧和主编码信号帧中的原始采样值之前,添加了来自一个前面帧的108个采样值。
不管根据上述所介绍的哪一个方法,目标信号T和主编码信号P1得到扩展,增强单元102均执行下述程序。
首先,通过利用高达采样值总计数量的采样值来扩展目标信号T的有关目标信号帧,则产生一个扩展的目标信号帧,所述采样值总计数量等于包含在增强频谱C中每个帧中频谱系数的数量。然后,由此所扩展的目标信号帧被频率转换,以表示在频率域中的一个频谱。
与此同时、在此之后或可能在此之前,一个有关主编码信号P1的相应运算被执行。因此,通过利用高达采样值总计数量的采样值来扩展一个有关的主编码信号帧,则产生一个扩展的主编码信号,所述采样值总计数量等于包含在增强频谱C中每个帧中频谱系数的数量。然后,由此所扩展的主编码信号被频率转换,以表示在频率域中的一个频谱。
最后,增强频谱C从扩展的目标信号帧和扩展的主编码信号中产生。例如,这可以通过将扩展的目标信号的频谱与扩展的主编码信号的频谱相分离来完成。
根据本发明的另一优选实施例,目标信号T与主编码信号P1中的每一个被乘以一个窗口函数W1。所述窗口函数W1具有一个对应于包含在增强频谱C中的频谱系数数量的总宽度,且它被置于一个基本信号(即目标信号T或主编码信号P1)的有关帧的中心。然而,对于第一数量n1采样值,即在所述有关帧中的采样数量,所述窗口函数W1仅具有一个最大量值(典型地为1)。所述窗口函数W1对于这一范围(即从相邻帧至所述有关帧)以外的采样值具有一个逐渐下降的量值。总的来讲,应用窗口函数对于增强估算是有利的。
图7示出一个示意图,其中窗口函数W1的一个实例被加以描绘。在此所述窗口函数W1是对称的,且处于一个有关帧Fi(被表示为沿着x轴的变量N)的中心,所述有关帧Fi包括第一数量采样值。窗口函数W1不仅覆盖所述有关帧Fi的全部采样值Foxt(i),而且覆盖来自一个前面帧和一个后面帧Fi+1的采样值。通过将所述前面帧的采样值存储在一个缓冲器中,将所述采样值重新用于所述有关帧相对比较容易。然而,来自所述后面帧Fi+1的采样值还没有被主编码器101产生。因此,将对应于所谓的预见距离L的编码延迟引入到所述后面帧Fi+1。编码延迟是不希望存在的,且应该被保持到最小,因为这种延迟可以引起回声效应,且如果它们变得过量的话,则令听众烦恼。
根据本发明另一优选的实施例,而是将所述窗口函数置于所述有关帧上,以便于除了所述有关帧的采样值以外,仅有历史采样值构成增强频谱的基础。
图8示出这种窗口函数W2的实例被加以描绘的图形。这一窗口函数W2是非对称的(这是所优选的,但不是必要的)并且被置于整个有关帧F上、且沿着至少所述一个前面帧的至少一部分扩展。在这个实例中,所述有关帧F被假定为包括从N=m到N=m+79这一范围的80个采样值。另一方面,增强频谱被假定为包括从N=m-48到N=m+79这一范围的128个频谱系数。通过乘以所述窗口函数W2,因此所述有关帧被扩展到一个扩展的有关帧Fext,其还包括被置于从N=m-48到N=m+79这一范围内的采样值。
在图8中所示范的窗口函数W2是所谓的Hamming-Cosine窗口,对于其初始的m1,其具有一个Hamming窗口的形状,且对于其拖尾的m2采样值,其具有一个对应于余弦波上弦的形状。自然地根据本发明,其它类型的对称或非对称窗口函数,如Hamming、Hanning、Blackman、Kaiser和Bartlet同样适用。
当应用一个非对称窗口函数时还有可能包括一个预见,虽然其具有很少的优点。在这个实施中,例如所述的Hamming-Cosine窗口可能扩展到包括m+79以上的采样值,即未来采样值。
如果通过将目标信号T和主编码信号P1的信号帧乘以一个窗口函数,而完成所述目标信号T和主编码信号P1的必要扩展,则增强单元102执行下述程序。
首先,目标信号T的有关部分被乘以一个窗口函数,所述窗口函数包括与增强频谱中的频谱系数同样多的采样值。然后由此得到的扩展的目标信号帧被频率转换,以表示在频率域中的一个频谱。
与此同时、在此之后或可能在此之前,一个有关主编码信号P1的相应运算被执行。因此,通过将主编码信号的有关部分乘以一个窗口函数,便产生一个扩展的主编码信号,所述窗口函数包括与增强频谱中的频谱系数同样多的采样值。然后,由此得到的扩展的主编码信号帧被频率转换,以表示在频率域中的一个频谱。
最后,增强频谱C从扩展的目标信号帧和扩展的主编码信号中产生。例如,这可以通过将扩展的目标信号的频谱与扩展的主编码信号的频谱相分离来完成。
根据本发明另一优选的实施例,增强单元102专门地从来自主编码信号P1及目标信号T的采样值中产生增强频谱C,所述增强频谱C表示高于特定阈值频率且低于在例如7kHz(如果取样频率为16kHz)的上通频带极限的频率组分。阈值频率(在2kHz或3kHz)的适当选择即带来基于增强频谱C而建立的重建声源信号的可感知进一步改善的声音质量。
基本编码方案通常被设计成建立一个增强频谱C,其旨在修改主编码信号的频谱量值,以便于根据某一标准(例如最小平方误差,MSE)其到目标信号的距离被最小化。主编码信号的相位信息通常由增强频谱C未加变动地加以保留。由于在帧边界处可能的信号非连续性,其中根据已修改的频谱量相位值不如从前,这可能在帧边界上引起所谓的阻挡效应。
然而,如果增强频谱C是专门地基于目标信号T和主编码信号P1的较高频率组分,则这些效应可以显著地得以减轻。于是,在帧边界处引起信号非连续性的相位误差主要针对具有比较而言低功率水平的较高频率组分而出现。因此,相位误差将仅或多或少地影响重建的声源信号的感知。关于低频率组分,在语音信号中浊语音声音具有相比较而言高的功率水平,而对于较高频率组分,功率级相对低,且因此并不显著地受所建议的目标信号T和主编码信号P1的选择性滤波的影响。然而,非浊语言声音显示出在上频率带上具有相对高的功率水平。由于这些类型声音的噪声特点,阻挡效应未起到重要作用,且因此可以在较大范围内被接受。
根据上述实施例的选择性滤波的结果是:仅有在所选择的频率范围内的频率组分被加以修改,以便于它们相应的量值与目标信号对应的参数之间的距离被最小化。处在所选择频率范围以外的频率组分根本没有被修改。如果在目标信号T的功率水平和主编码信号P1的功率水平之间存在相对大的差异,则这可能带来问题。例如,如果主编码器101是一个CELP编码器(CELP=Code Excited Linear Predictive(代码激励的线性预测),见图5),其中主编码信号P1是激励信号且目标信号是LPC余量(LPC=Linear Predictive Coding(线性预测编码))。一个进来的非浊语言声音可能引起编码器产生具有比较低功率水平的主编码信号P1和具有比较高功率水平的目标信号T。假设主编码信号P1和目标信号T两者都具有从频谱上讲平的频谱(即,基本上表示白噪声),则增强频谱C也应该具有从频谱上讲平的频谱。然而,选择性滤波导致一个具有倾斜频谱(即非平的)的增强频谱C。结果是,重建的声源信号将具有一个不必要的差的声音质量。
根据本发明另一优选实施例,因此在产生增强频谱C的期间,目标信号T的功率水平被加以调节,以便于目标信号T的功率被衰减到这样一个值,对于低于阈值频率(在2kHz或3kHz)的频谱组分,所述值基本上等于主编码信号P1的功率。这减轻了在上述倒数第二段末尾所提出的问题,因为当进来的声源信号为一个非浊语言声音时,增强频谱C的频谱被维持成平的。
另外,在产生增强频谱期间,主编码信号P1的功率水平可以被调节,以便于主编码信号P1的功率被放大到这样一个值,对于低于阈值频率的频谱组分,所述值基本上与目标信号T的功率相同。
根据本发明另一优选的实施例,增强频谱C被限制成具有在较低和较高边界之间的系数值。这个措施表示为一个对由在帧边界处信号的非连续性所导致问题的可选择解决方案。
在增强频谱C中对系数值的限制意味着:如果在任何频谱组分内,通过重建的增强频谱所增强的重建主编码信号均没有被放大10dB(即系数为3.16)以上或者在任何频谱组分内均没有被衰减10dB(即系数为0.316)以上,则在单个频率组分中的变化也将保持在某个边界之内。在帧之间的非连续性效应将因此被这样加以限制,以致于它们可被感知到是不相关的。
根据本发明另一优选的实施例,通过将一非均匀量化方案应用到增强频谱C上,增强编码器103产生编码的增强频谱Cq。例如,编码的增强频谱Cq的产生可能涉及到将增强频谱C从线性转换到对数域。从可感知性的观点来看,在量化之前的这种转换是恰当的,因为有关声响度的人类听力近似为对数性的。
根据本发明另一优选的实施例,编码的增强频谱Cq的产生涉及:将增强频谱C的至少两个单独的频率组分组合成一个联合频率组分。在较高频率组分的信号量值中,人类的听力即对量化误差较不敏感。因此,利用与用于较低频率带中频率组分的分辨率相比较低的分辨率,则对这种频率组分进行量化已足够。人类的声音感知可以利用所谓的临界带滤波器加以近似,所述临界带滤波器的带宽基本上与对数频率刻度成比例。Bark刻度及Mel刻度构成频率带的这种分割的两个实例。为了获得在增强频谱C中信号量的减少,而并不显著地减少重建信号可感知到的声音质量,则在每个带中系数的算术平均或中值系数值可以代替在相应带中单独的系数值。
因此,由增强编码器103所完成的程序包括:第一步骤,将增强频谱C的至少一部分频谱分割成一个或多个频带,以及第二步骤,针对每个频率带,导出一个联合频率组分。
根据本发明另一优选的实施例,增强频谱Cq的产生涉及:将增强频谱C转换成一个经逆谱(cepstral)转换的增强频谱,且放弃在经逆谱转换的增强信号中高于特定阶的逆谱系数。这些高阶逆谱系数即表示增强频谱C的一个可感知的不相关精细结构,且因此可以被放弃,而并不显著地减少重建的声源信号中可感知到的声音质量。
根据本发明另一优选的实施例,增强频谱Cq的产生涉及到:探测是否目标信号T或主编码信号P1的一个有关信号帧被预计成表示一个浊音或一个非浊音。在前一种情况下,针对一个相对窄的频率范围(2kHz-4kHz),增强频谱C被导出且被量化,且在后一种情况下,针对一个相对宽的频率范围(3kHz-7kHz),增强频谱C被导出且被量化。非浊语言声音即具有一个相对平的频谱(要求一个均匀的分辨率),而浊语音声音在高频率带具有一个相比较而言陡的下降斜率(较低频率需要比较高频率更佳的分辨率)。在语音编码解码器包括一个自适应的码本(例如,CELP-编码器)的情况下,一个电流增益值(在图5中为g1)可以被用来探测是否一个编码信号表示一个浊音还是一个非浊音。例如,低于0.5的增益值g1表明一个非浊音,且为0.5或高于0.5的增益值g1表明一个浊音。
当然,上述所建议的所有措施可以通过可直接装入计算机内存的一个计算机程序来实施,所述计算机程序包括当所述程序在计算机上运行时用于控制必要步骤的适当软件。所述计算机程序可以同样被记录到任意类型的计算机可读取介质上。
根据本发明的通用接收器的方框图被示于图2中。图10示出由所述接收器所执行的对应方法的流程图。已经通过传输介质被传输的编码信息S;Cq的估算到达接收器。这由图10中的第一步骤1001来表示。
然后,主解码器201接收一个编码信息
Figure A0181759700221
的估算,从所述编码信息
Figure A0181759700222
产生一个重建的主编码信号
Figure A0181759700223
所述重建的主编码信号 被分割成重建的主编码信号帧,所述每个帧包括一个第一数量n1采样值。这由图10中的第二步骤1002来表示。
对应地,一个增强解码器202接收对一个编码的增强频谱 的估算,并且产生一个重建的增强频谱
Figure A0181759700226
。所述重建的增强频谱
Figure A0181759700227
包括第二数量nc频谱系数。这对应于重建的增强信号帧(在时间域),所述每个帧包括所述第二数量nc采样值。根据本发明,所述第二数量nc大于所述第一数量n1。这由图10中的第三步骤1003来表示。
重建的增强频谱 和重建的主编码信号
Figure A0181759700229
均被送到一个增强单元203,响应于此,所述增强单元203提供一个增强的重建主编码信号
Figure A01817597002210
增强的重建主编码信号
Figure A01817597002211
的频谱也包括第二数量nc频谱系数。为了产生增强的重建主编码信号
Figure A01817597002212
则根据较早所说明方法增强单元203对每个进来的重建主编码信号帧进行扩展,以包括第二数量nc采样值。然后,通过对重建的主编码信号 进行频率转换以获得一个对应的频谱、将这个频谱乘以重建的增强频谱 、以及对其中的结果进行逆频率转换,则导出增强的重建主编码信号 这个运算产生具有第二数量nc频谱系数的增强的重建主编码信号
Figure A01817597002216
如果下面的合成器204这样要求,即为了产生一个每个帧具有正确数量(即,典型地为第一数量n1)采样值的重建声源信号F,在增强的重建主编码信号 中的频谱系数数量得到降低(例如,通过重新采样),以再次获得总计为第一数量n1的频谱系数。
取决于要求过程的能力,增强的重建主编码信号
Figure A0181759700232
由此被送到具有第一数量n1或者第二数量nc频谱系数的所述合成滤波器204中。通过放弃在有关主编码信号帧中对应于所添加的超出所述第一数量n1采样值的这些采样值,可以完成从所述第二数量nc采样值减到所述第一数量n1采样值。这由图10中的第四步骤1004来表示。然后,响应于此,合成型滤波器产生一个重建的声源信号 。这由图10中的第五步骤1005来表示。然后,所述程序循环返回以对随后的信号帧进行解码。
根据本发明优选的实施例,且与所建议的编码方法相类似,通过采用来自重建的增强频谱的采样值以及来自至少一个重建的主编码信号帧的采样值,则增强的重建主编码信号 得以产生。
重建的主编码信号帧的扩展可能涉及:将来自至少一个前面重建的主编码信号帧中的采样值添加到有关重建的主编码信号帧中。另外,通过将空采样值添加到有关重建的主编码信号帧中,可以扩展重建的主编码信号帧。这种采样值既可以添加到原始帧的末尾也可以添加到其开始处(所谓的零填充)。
根据本发明的优选实施例,通过将重建的主编码信号
Figure A0181759700235
乘以一个窗口函数,则产生一个包括来自重建的主编码信号 的第二数量nc采样值的扩展帧,其中所述窗口函数包括第二数量nc采样值,且其被置于有关目标信号帧的中心。所述窗口函数既可以是对称的也可以是非对称的。优选地,非对称窗口函数被应用,以便于仅有当前的和历史的采样值被包括在重建的主编码信号 的扩展帧中。图8示出一个适宜的非对称窗口函数W2的实例。
根据本发明的另一优选的实施例,采用一对称的窗口功能。这一窗口函数具有对应于包括在增强频谱C中的频谱数量(例如第二数量nc)的总宽度,且它被置于主编码信号P1的有关帧的中心。对于第一数量n1采样值,即对于在主编码信号P1的有关帧中的采样值数量,窗口函数具有最大的量值,且对于在这个范围以外的采样值,即对于从相邻帧到有关帧的采样值,窗口函数具有一个逐渐下降的量值。
因此,基于重建的增强频谱
Figure A0181759700238
和重建的主编码信号
Figure A0181759700239
的扩展帧,可以产生具有一个频谱的增强的重建主编码信号 所述频谱包括第二nc频谱系数。优选地,所述第二数量nc为整数2的幂,因为例如通过快速傅立叶变换(FFT),这确保对所形成的增强的重建主编码信号
Figure A0181759700242
进行有效的进一步处理。
为了避免在应用重建的增强频谱
Figure A0181759700243
之前扩展重建的主编码信号帧,且随后还为了避免在合成滤波之前减少增强的重建主编码信号
Figure A0181759700244
的帧尺寸,一个理论上可供选择的方案将是:在第一数量n1采样点,对重建的增强频谱 进行重新采样,以便于仅利用第一数量n1频谱系数,可以建立增强的重建主编码信号 然而,这将以所不希望的方式使通过增强频谱
Figure A0181759700247
帧的较长块长度而获得的可感知质量恶化。
当然,上述所建议的所有解码措施可以通过被直接装入到计算机内存中的计算机程序来实施,所述计算机程序包括当所述程序在计算机上运行时用于控制必要步骤的适当软件。同样,所述计算机程序还可以被记录到任意类型的计算机可读取介质上。
图3示出根据本发明第一实施例的发送器的方框图。所述发送器是一个所谓的LPAS编码器(LPAS=Linear Predictive Analysis-by-synthesis线性可预测的分析-及合成),其中主编码器101包括一个逆合成滤波器301。这个滤波器301接收一个声源信号x,并且响应于此产生一个目标信号T。所述主编码器101进一步包括例如为了执行LPC分析的一个或多个单元(未示出),以及一个激励发生器311。所述激励发生器311接收声源信号x,并且响应于此产生一个主编码信号P1和编码信息S。所述编码信息S被传递到一接收器,用于主编码信号P1的重建。
增强单元308产生一个增强的主编码信号PE(表示一个增强的激励信号),并且将这个信号反馈回到激励发生器311中,其中所述信号PE旨在用于模仿产生在接收器中的增强的重建主编码信号 因此,所述激励发生器311可以修改其内部状态,以便于它建立更好地对声源信号x加以说明的主编码信号P1和编码信息S。
发送器进一步包括一个增强估算单元102,所述单元接收目标信号T及主编码信号P1,且根据上述图1和图9所说明的方法,响应于这些信号产生一个增强频谱C。
根据本发明优选的实施例,增强的主编码信号PE作为主编码信号P1的一个可供选择,被馈送到增强估算单元102。这通过图3中的虚线来表示。因此,来自前面增强的主编码信号帧PE的采样值有助于当前增强频谱C的产生。
增强编码器103接收增强频谱C,且响应于此产生一个编码的增强频谱Cq,此增强频谱Cq构成所述增强频谱C的一个编码表示。编码的增强频谱Cq表示一个增强频谱C的格式,其适合于经传输介质来传输信号。
除了主编码信号P1以外,增强单元308还接收增强频谱C。所述增强的主编码信号PE(增强的激励信号)基于主编码信号P1和增强频谱C两者而产生。
在本发明的另一实施例中,增强单元308未被包括在主编码器101中。于是,与上述所说明的不同,合成滤波器与增强的主编码信号PE不适应。
图4示出根据本发明第一实施例的接收器的方框图,所述接收器适合于接收由图3中所示的发送器所产生的编码信息。因此所述接收器是一个LPAS解码器。其主解码器201包括一个激励发生器412,所述激励发生器412接收编码信息 的估算,且响应于此产生一个重建的主编码信号
Figure A0181759700252
在接收器中剩余的单元202、203和204具有与图2中具有相同参考号的那些单元所述的功能和特征相同的功能和特征。
根据本发明第一实施例的一个方面,增强的重建主编码信号
Figure A0181759700253
作为一个输入信号,被反馈回到增强单元203,以便于来自前面增强的重建主编码信号帧
Figure A0181759700254
的采样值有助于当前增强的重建主编码信号帧
Figure A0181759700255
的产生。这通过图4中的虚线来表示。
图5示出根据本发明第二实施例的发送器的方框图。所述发送器是一个所谓的CELP编码器,其包括一个代数码本504。
这个发送器的主编码器101包括一个搜索单元502,其中一个声源信号x被馈到所述搜索单元502内。一个逆合成滤波器501还接收所述声源信号x。响应于所述声源信号x,所述逆合成滤波器501产生一个目标信号T,所述目标信号T被送到一个增强估算单元102中。
除了所述声源信号x以外,所述搜索单元502还接收一个本地重建的声源信号y,所述信号y是通过同样被包括在主编码器101中的合成滤波器510而产生的。所述合成滤波器510与接收器中的对应滤波器相同,所述接收器旨在接收和重建由发送器所产生的编码信息。所述合成滤波器510模拟所述接收器,且因此使搜索单元502能调节其参数,以便于本地重建的声源信号y尽可能地与声源信号x相类似。所述搜索单元502产生第一指针s1,其为在自适应码本503中的第一矢量v1编址。随后的第一自适应放大器505赋予所述矢量v1所要求的幅度,所述幅度也是通过第一增益值g1由搜索单元502来设置。此外,所述搜索单元502产生第二指针s2,其为代数码本503中的第二矢量v2编址。对应地,通过第二自适应放大器506将所述第二矢量v2赋予所要求的幅值,这是经由第二增益值g2由搜索单元502来控制。一个组合器507将放大的第一和第二矢量g1v1和g2v2相加,且形成一个主编码信号P1。这个信号P1被反馈到自适应码本503上、并被送到作为本地重建的声源信号y基础的合成滤波器510上,以及送到增强估算单元102上。
增强估算单元102还从逆合成滤波器501中接收目标信号T,且根据上述图1和图9中所述的方法,响应于这些信号,产生一个增强频谱C。增强编码器103接收所述增强频谱C,且响应于此产生一个编码的增强频谱Cq,其构成增强频谱C的编码表示。编码的增强频谱Cq表示增强频谱C的一个格式,其适合于经传输介质来传输信号。
由搜索单元502所产生的参数s1、s2、v1和v2也通过传输介质被传输到一接收器,其中所述参数构成图1中的编码信息S。编码信息S还可能额外地包括其它的编码信息,如LPC信息(在此未示出)。
根据本发明的另一实施例,一增强单元(对应于图3中的308,未示出)被包括在自适应码本503和合成滤波器510之间,其接收主编码信号P1,且响应于此产生一个增强的主编码信号PE。在这另一个实施例中,增强的主编码信号PE由此被本地产生,且代替主编码信号P1分别被反馈回到自适应码本503和合成滤波器510上。
图6示出根据本发明第二实施例的一个接收器的方框图,所述接收器旨在接收由图5中所示发送器所产生的编码信息、且将这一信息重建到声源信号的估算当中。
所述接收器包括一个主解码器201,所述主解码器201包括自适应码本603、代数码本604、第一自适应放大器605、第二自适应放大器606及组合器607。第一指针
Figure A0181759700261
的估算寻址自适应码本603中的第一矢量v1,所述第一矢量v1经由第一自适应放大器605被赋予第一增益值的估算
Figure A0181759700271
的幅值。对应地,第二指针
Figure A0181759700272
的估算寻址代数码本604中的第二矢量v2,所述第二矢量v2经由第二自适应放大器606被赋予第二增益值的估算
Figure A0181759700273
的幅值。组合器607将放大的第一和第二矢量 相加,且形成一个重建的主编码信号 这个信号
Figure A0181759700277
被反馈回自适应码本603且被送到增强单元203。
增强解码器202接收编码的增强频谱
Figure A0181759700278
的估算,且根据上述图2中所说明的程序,产生一个重建的增强频谱 同样,增强单元203产生一个增强的重建主编码信号
Figure A01817597002710
且随后的合成滤波器204产生一个重建的声源信号
当然,任何所建议的发送器和接收器可被组合以构成一个通讯系统,用于在第一和第二结点间交换编码的声源信号,所述这种系统除了包括发送器和接收器以外,还包括用于从发送器将编码信息传输到接收器的传输介质。
被用在此技术说明中的术语“comprises/comprising”被用来规定所陈述的特点、整数、步骤或组分的存在。然而,此术语并不排除一个或多个附加的特点、整数、步骤或组分或其中的组的存在或添加。
本发明并不被限制在附图所说明的实施例中,而是可能在下述权利要求范围内自由地变化。

Claims (65)

1.一种对声源信号(x)进行编码以产生用于经过传输介质进行传输的编码信息的方法,包括:
响应于所述声源(x),产生一个被分成多个帧的目标信号(T),所述每个帧包括第一数量(n1)采样值,
响应于所述声源(x),产生一个旨在与所述目标信号(T)相匹配的主编码信号(P1),所述主编码信号(P1)被分成多个帧,所述每个帧包括第一数量(n1)采样值,
响应于所述声源(x),产生编码信息(S),所述主编码信号(P1)将从所述编码信息(S)中被重建
响应于所述主编码信号(P1)和所述目标信号(T),产生一个增强频谱(C),所述增强频谱(C)表示所述主编码信号(P1)与所述目标信号(T)相匹配的程度,以及
响应于所述增强频谱(C),产生一个编码的增强频谱(Cq),其构成所述增强频谱(C)的编码表示,
其特征在于:
所述增强频谱(C)的增强频谱帧包括第二数量(nc)频谱系数,所述第二数量(nc)大于所述第一数量(n1)。
2.根据权利要求1所述的方法,其特征在于:增强频谱(C)按照帧的方式被产生,以便于增强频谱帧是基于来自目标信号(T)的至少一个帧(Fi,Fi+1,F,Fext)以及来自主编码信号(P1)的至少一个帧(Fi,Fi+1,F,Fext)的采样值。
3.根据任何一项权利要求1或2的方法,其特征在于所述第二数量(nc)为整数2的幂。
4.根据任何一项前述权利要求的方法,其特征在于
通过利用高至采样值总计数量的采样值来扩展目标信号(T)的有关目标信号帧,以产生一个扩展的目标信号帧,所述采样值总计数量等于所述第二数量(nc),
对所述扩展的目标信号帧进行频率转换,
通过利用高至采样值总计数量的采样值来扩展有关的主编码信号帧,以产生一个扩展的主编码信号帧,所述采样值总计数量等于所述第二数量(nc),
对所述扩展的主编码信号进行频率转换,以及
从所述扩展的目标信号帧和扩展的主编码信号产生增强频谱(C)。
5.根据权利要求4所述的方法,其特征在于采样值的扩展涉及到:将来自一个前面信号帧的采样值添加到所述有关的信号帧中。
6.根据权利要求4所述的方法,其特征在于采样值的扩展涉及到:将来自一个前面增强的主编码信号帧的采样值添加到增强的主编码信号的有关信号帧中。
7.根据权利要求4所述的方法,其特征在于采样值的扩展涉及到:将空值添加到所述有关的信号帧中。
8.根据任何一项前述权利要求的方法,其特征在于
将所述目标信号(T)乘以一个窗口函数(W1,W2),所述窗口函数(W1,W2)包括第二数量(nc)采样值,且其被置于有关目标信号帧(Fi)的中心,
对所述目标信号(T)进行频率转换,
将所述主编码信号(P1)乘以一个窗口函数(W1,W2),所述窗口函数(W1,W2)包括第二数量(nc)采样值,且其被置于有关主编码信号帧(Fi)的中心,以及
对所述主编码信号(P1)进行频率转换。
9.根据权利要求8所述的方法,其特征在于所述窗口函数(W1)为对称的。
10.根据权利要求8所述的方法,其特征在于所述窗口函数(W2)为非对称的。
11.根据权利要求10所述的方法,其特征在于所述窗口函数(W2)为Hamming-Cosine窗口,其被应用到前一信号帧的第三数量(m-48→m+79)采样值以及当前信号帧(F)的全部采样值上。
12.根据权利要求11所述的方法,其特征在于所述Hamming-Cosine窗口独有地包括前面信号帧和当前信号帧(F)的采样值。
13.根据权利要求8所述的方法,其特征在于窗口函数包括
包括第一数量(nc)采样值的第一范围,针对于此,窗口函数具有一个恒定量值,所述第一范围对应于有关的主编码信号帧,以及
在所述第一范围以外的采样值的第二范围,针对于此,窗口函数具有一个逐渐下降的量值。
14.根据任何一项前述权利要求的方法,其特征在于
从主编码信号(P1)和目标信号(T)中专门地产生增强频谱(C),其表示超出阈值频率的频率组分。
15.根据权利要求14所述的方法,其特征在于:在产生增强频谱(C)期间调节目标信号(T)的功率水平,以便于目标信号(T)的功率水平被衰减到一个这样的值,对于由低于所述阈值频率的频率组分所表示的频率带,所述值基本上与主编码信号(P1)的功率水平相同。
16.根据权利要求14所述的方法,其特征在于:在产生增强频谱(C)期间调节主编码信号(P1)的功率水平,以便于主编码信号(P1)的功率水平被放大到一个这样的值,对于由低于所述阈值频率的频率组分所表示的频率带,所述值基本上与目标信号(T)的功率水平相同。
17.根据任何一项权利要求14-16所述的方法,其特征在于增强频谱(C)被限定到具有在较低边界与较高边界之间的系数值。
18.根据权利要求17所述的方法,其特征在于所述较低边界表示衰减10dB,及所述较高边界表示放大10dB。
19.根据任何一项前述权利要求的方法,其特征在于编码的增强频谱(Cq)构成增强频谱(C)的非均匀量化。
20.根据权利要求19所述的方法,其特征在于产生编码的增强频谱(Cq)涉及:将增强频谱(C)从线性转换到对数域。
21.根据权利要求19所述的方法,其特征在于产生编码的增强频谱(Cq)涉及:将增强频谱(C)至少两个单独的频率组分组合成一个联合频率组分。
22.根据权利要求21所述的方法,其特征在于
将增强频谱(C)的至少一部分频谱分成至少一个频率带,以及
针对至少一个频率带的每一个,得出一个联合频率组分。
23.根据任何一项权利要求21或22所述的方法,其特征在于:所述联合频率组分表示所述至少两个单独频率组分的算术平均值。
24.根据任何一项权利要求21或22所述的方法,其特征在于:所述联合频率组分表示所述至少两个单独频率组分的中值。
25.根据任何一项权利要求19-24所述的方法,其特征在于产生编码的增强频谱(Cq)涉及
将增强频谱(C)转换成一个经逆谱转换的增强信号,以及
放弃在经逆谱转换的增强信号中高于特定阶的逆谱系数。
26.根据权利要求19所述的方法,其特征在于产生编码的增强频谱(Cq)涉及
探测是否一个有关信号帧被预计成表示一个浊音还是一个非浊音,
如果探测出一个浊音,则针对一个相对窄的频率范围对所述增强频谱(C)进行量化,以及
如果探测出一个非浊音,则针对一个相对宽的频率范围对所述增强频谱(C)进行量化。
27.根据权利要求26所述的方法,其特征在于
如果一个自适应码表增益具有一个低于0.5的增益值(g1),则探测出一个非浊音,以及
如果一个自适应码表增益具有一个为0.5或高于0.5的增益值(g1),则探测出一个浊音。
28.一种被直接装入到计算机内存中的计算机程序,其包括当所述程序在计算机上运行时,用于控制任何一项权利要求1-27所述步骤的软件。
29.一种其上记录有程序的计算机可读取介质,其中所述程序将使计算机控制任何一项权利要求1-27所述的步骤。
30.一种对已经经由传输介质来传输的编码信息进行解码的方法,包括
响应于从所述传输介质已经接收到的编码信息的估算,产生一个重建的主编码信号
Figure A0181759700051
,所述重建的主编码信号 被分成重建的主编码信号帧,每个帧包括第一数量采样值(n1),
响应于从所述传输介质已经接收到的编码的增强频谱 的估算,产生一个重建的增强频谱
Figure A0181759700054
,所述重建的增强频谱
Figure A0181759700055
被分成重建的增强频谱帧,每个帧包括第二数量频谱系数(nc),
响应于重建的主编码信号
Figure A0181759700056
及重建的增强频谱
Figure A0181759700057
,产生一个增强的重建主编码信号 ,以及
响应于所述增强的重建主编码信号
Figure A0181759700059
,产生声源信号 的重建,其特征在于
所述第二数量(nc)大于所述第一数量(n1),以及
增强的重建主编码信号
Figure A0181759700061
的产生涉及:将有关的重建主编码信号帧扩展,以包括第二数量(nc)采样值。
31.根据权利要求30所述的方法,其特征在于:通过采用来自一重建的增强频谱帧的采样值以及来自至少一重建的主编码信号帧的采样值,产生增强的重建主编码信号 的一个重建的目标信号帧。
32.根据任何一项权利要求30或31所述的方法,其特征在于所述第二数量(nc)为整数2的幂。
33.根据任何一项权利要求30-32所述的方法,其特征在于通过下述方法产生增强的重建主编码信号
利用高达采样值总计数量的采样值来扩展一个有关重建的主编码信号帧,以形成一个扩展的重建主编码信号帧,所述采样值总计数量等于所述第二数量(nc),
将扩展的重建主编码信号帧的频率转换乘以一个有关重建的增强频谱帧,以形成一个增强的重建主编码信号 的频谱,以及
将所述增强的重建主编码信号
Figure A0181759700065
的所述频谱进行逆频率转换。
34.根据任何一项权利要求30-33所述的方法,其特征在于:对所述重建的主编码信号帧的扩展涉及到:将来自一个前面重建的主编码信号帧的采样值添加到所述有关重建的主编码信号帧上。
35.根据任何一项权利要求30-33所述的方法,其特征在于:对所述重建的主编码信号帧的扩展涉及到:将来自一个前面重建的增强主编码信号帧的采样值添加到所述重建的增强主编码信号的所述有关信号帧上。
36.根据任何一项权利要求30-33所述的方法,其特征在于:对所述重建的主编码信号帧的扩展涉及到:将空采样值添加到所述有关重建的主编码信号帧上。
37.根据任何一项权利要求33-36所述的方法,其特征在于通过这样的一项运算而产生的增强的编码信号,所述运算涉及:扩展的重建主编码信号帧乘以一窗口函数(W1;W2),所述窗口函数(W1;W2)包括第二数量(nc)采样值且其被置于一个有关目标信号帧(Fi)的中心。
38.根据权利要求37所述的方法,其特征在于所述窗口函数(W1)是对称的。
39.根据权利要求37所述的方法,其特征在于所述窗口函数(W2)是非对称的。
40.根据权利要求37所述的方法,其特征在于所述窗口函数包括
包括第一数量(n1)采样值的第一范围,对此所述窗口函数具有一个恒定的量值,所述第一范围对应于所述有关重建的主编码信号帧,以及
位于所述第一范围以外的采样值的第二范围,对此所述窗口函数具有一个逐渐下降的量值。
41.一种被直接装入到计算机内存中的计算机程序,其包括当所述程序在计算机上运行时,用于控制任何一项权利要求30-40所述步骤的软件。
42.一种其上记录有程序的计算机可读取介质,其中所述程序将使计算机控制任何一项权利要求30-40所述的步骤。
43.一种用于对声源信号(x)进行编码以产生用于经过传输介质进行传输的编码信息的发送器,其包括:
主编码器(101),其具有
用于接收所述声源信号(x)的输入,
用于提供目标信号(T)的第一输出,所述目标信号(T)被分成目标信号帧,每个目标信号帧包括第一数量(n1)采样值,
用于提供主编码信号(P1)的第二输出,所述主编码信号(P1)旨在与所述目标信号(T)相匹配,其被分成目标信号帧,每个目标信号帧包括第一数量(n1)采样值,
用于提供编码信息(S)的第三输出,所述主编码信号(P1)将通过一个接收器从所述编码信息被重建,
增强估算单元(102),其具有
用于接收所述目标信号(T)的第一输入,
用于接收所述主编码信号(P1)的第二输入,
用于提供增强频谱(C)的输出,接收器将从所述增强频谱(C)可感知到声源信号(x)的重建 得到改善,并且增强编码器(103)具有
接收所述增强频谱(C)的输入,以及
用于提供构成对增强频谱(C)量化表示的编码的增强频谱(Cq)的输出,
其特征在于:所述增强频谱(C)的增强频谱帧包括第二数量(nc)频谱系数,所述第二数量(nc)大于所述第一数量(n1),以及
增强估算单元(102)执行对引入目标信号帧的扩展,以包括所述第二数量(nc)采样值,以及执行对引入主编码信号帧的扩展,以包括所述第二数量(nc)采样值。
44.根据权利要求43所述的发送器,其特征在于:通过使用来自至少一个主编码信号帧的采样值,以及使用来自至少一个目标信号帧的采样值,所述增强估算单元(102)产生一个增强频谱帧。
45.根据任何一项权利要求43或44的发送器,其特征在于:所述第二数量(nc)为整数2的幂。
46.根据任何一项权利要求43-45的发送器,其特征在于:通过将来自一个前面信号帧的采样值添加到一个进来的信号帧上,所述增强估算单元(102)将所述进来的信号帧加以扩展。
47.根据权利要求43所述的发送器,其特征在于:通过使用来自至少一个前面的增强主编码信号帧的采样值,所述增强估算单元(102)产生一个增强频谱帧。
48.根据任何一项权利要求43-45的发送器,其特征在于:通过将空采样值添加到一个进来的信号帧上,所述增强估算单元(102)将所述进来的信号帧加以扩展。
49.根据任何一项权利要求43-48的发送器,其特征在于:所述主编码器(101)包括一个逆合成滤波器(301;501),所述逆合成滤波器(301;501)具有一个接收所述声源信号(x)的输入及提供所述目标信号(T)的输出。
50.根据任何一项权利要求43-49的发送器,其特征在于:所述主编码器(101)包括一个激励发生器(311),所述激励发生器(311)具有一个接收所述声源信号(x)的输入、提供所述主编码信号(P1)的第一输出以及提供所述编码信息(S)的第二输出。
51.根据任何一项权利要求43-49的发送器,其特征在于:所述主编码器(101)包括至少一个码本(503;504),其用于经过由搜索单元(502)所控制的自适应及反馈来提供所述主编码信号(P1)。
52.一种用于从传输介质接收编码信息(S:Cq)并对其解码的接收器,其包括,
主解码器(201),其具有一个用来接收已经从传输介质所接收的编码信息 的估算的输入、以及提供一个重建的主编码信号 的输出,其中所述重建的主编码信号 被分成重建的主编码信号帧,每个所述帧包括第一数量(n1)采样值,
增强解码器(202),其具有一个接收编码的增强频谱 的输入、以及一个提供重建的增强频谱 的输出,其中所述重建的增强频谱 被分成重建的增强频谱帧,每个所述帧包括第二数量(nc)频谱系数,
增强单元(203),其具有接收所述重建的增强频谱 的第一输入、接收所述重建的主编码信号
Figure A0181759700098
的第二输入、以及一个提供增强的重建主编码信号
Figure A0181759700099
的输出,以及
合成滤波器(204),其具有一个接收所述增强的重建主编码信号
Figure A01817597000910
的输入以及提供对所述声源信号(x)的重建
Figure A01817597000911
的输出,
其特征在于:
所述第二数量(nc)大于所述第一数量(n1),以及
所述增强单元(203)对进来的重建主编码信号帧 进行扩展,以包括所述第二数量(nc)采样值。
53.根据权利要求52所述的接收器,其特征在于:通过使用来自一个重建的增强频谱帧的频谱系数以及来自至少一个重建的主编码信号帧的采样值,所述增强单元(203)产生一个增强的重建主编码信号帧
Figure A01817597000913
54.根据任何一项权利要求52或53的接收器,其特征在于:所述第二数量(nc)为整数2的幂。
55.根据任何一项权利要求52或54的接收器,其特征在于:所述增强单元(203)
通过利用高达采样值总计数量的采样值来扩展一个有关的重建主编码信号帧,产生一个重建的被扩展主编码信号帧,其中所述采样值总计数量等于所述第二数量(nc),以及
通过将扩展的重建被扩展主编码信号帧的频谱乘以一个有关的重建的增强频谱帧,则产生一个增强的重建主编码信号
Figure A01817597000914
56.根据任何一项权利要求52-55的接收器,其特征在于:通过将来自一个前面重建的主编码信号帧的采样值添加到所述有关重建的主编码信号帧上,所述增强单元(203)将一个进来的重建的主编码信号帧加以扩展。
57.根据任何一项权利要求52-55的接收器,其特征在于:通过将来自一个前面重建的增强主编码信号帧的采样值添加到所述重建的增强主编码信号的所述有关信号帧上,所述增强单元(203)将一个进来的重建的主编码信号帧加以扩展。
58.根据任何一项权利要求52-55的接收器,其特征在于:通过将一个空采样值添加到所述有关重建的主编码信号帧上,所述增强单元(203)对一个进来的重建的主编码信号帧进行扩展。
59.根据任何一项权利要求52-55的接收器,其特征在于:通过将扩展的重建主编码信号帧乘以一个窗口函数(W1;W2),产生一个重建的目标信号帧,其中所述窗口函数(W1;W2)包括第二数量(nc)采样值,且其被置于一个有关的目标信号帧的中心。
60.根据权利要求59所述的接收器,其特征在于:所述窗口函数(W1)是对称的。
61.根据权利要求59所述的接收器,其特征在于:所述窗口函数(W2)是非对称的。
62.根据权利要求59所述的接收器,其特征在于:所述窗口函数包括
包括第一数量(n1)采样值的第一范围,对此所述窗口函数具有一个恒定的量值,所述第一范围对应于所述有关的重建的主编码信号帧,以及
位于所述第一范围以外的采样值的第二范围,对此所述窗口函数具有一个逐渐下降的量值。
63.根据任何一项权利要求52-62的接收器,其特征在于:所述主解码器(201)包括一个激励发生器(412),所述激励发生器(412)具有一个接收所述编码信息
Figure A0181759700101
的估算的输入以及一个提供所述重建的主编码信号 的输出。
64.根据任何一项权利要求52-62的接收器,其特征在于:所述主解码器(201)包括
至少一个用于接收所述编码信息
Figure A0181759700111
的估算的输入,
至少一个码本(603;604),其用于基于所述编码信息
Figure A0181759700112
Figure A0181759700113
的所述估算,提供重建的主编码信号
65.一种通讯系统,其用于在第一节点和第二节点之间交换编码的声源信号,其特征在于所述系统包括
根据任何一项权利要求43-51的发送器,
根据任何一项权利要求52-64的接收器,以及
用于将所述编码信息从所述发送器传输到所述接收器的传输介质。
CNB01817597XA 2000-10-20 2001-09-07 对声源信号进行编码/解码的方法和装置 Expired - Lifetime CN1271597C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00850169A EP1199711A1 (en) 2000-10-20 2000-10-20 Encoding of audio signal using bandwidth expansion
EP00850169.4 2000-10-20

Publications (2)

Publication Number Publication Date
CN1470050A true CN1470050A (zh) 2004-01-21
CN1271597C CN1271597C (zh) 2006-08-23

Family

ID=8175678

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB01817597XA Expired - Lifetime CN1271597C (zh) 2000-10-20 2001-09-07 对声源信号进行编码/解码的方法和装置

Country Status (11)

Country Link
US (1) US6654716B2 (zh)
EP (2) EP1199711A1 (zh)
JP (1) JP5192630B2 (zh)
KR (1) KR100882771B1 (zh)
CN (1) CN1271597C (zh)
AT (1) ATE360870T1 (zh)
AU (2) AU2001284607B2 (zh)
CA (1) CA2424375C (zh)
DE (1) DE60128121T2 (zh)
ES (1) ES2284676T3 (zh)
WO (1) WO2002033693A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010075777A1 (zh) * 2008-12-30 2010-07-08 华为技术有限公司 信号编码、解码方法及装置、系统
CN101076853B (zh) * 2004-12-10 2010-10-13 松下电器产业株式会社 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
CN103021416B (zh) * 2011-09-26 2017-04-26 索尼公司 音频编码装置和方法、音频解码装置和方法
CN108269579A (zh) * 2018-01-18 2018-07-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308406B2 (en) * 2001-08-17 2007-12-11 Broadcom Corporation Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform
KR100711989B1 (ko) * 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
JP4296752B2 (ja) * 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
ES2338117T3 (es) * 2004-05-17 2010-05-04 Nokia Corporation Codificacion de audio con diferentes longitudes de trama de codificacion.
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
WO2008049590A1 (en) * 2006-10-25 2008-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2193348A1 (en) * 2007-09-28 2010-06-09 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
TR201910073T4 (tr) 2009-01-16 2019-07-22 Dolby Int Ab Vektörel çarpımı geliştirilmiş harmonik aktarım.
TWI453694B (zh) * 2010-12-02 2014-09-21 Univ Nat Taiwan Science Tech 一種避免像素擴張之影像加密方法
CN104025191A (zh) * 2011-10-18 2014-09-03 爱立信(中国)通信有限公司 用于自适应多速率编解码器的改进方法和设备
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
CN108885877B (zh) * 2016-01-22 2023-09-08 弗劳恩霍夫应用研究促进协会 用于估计声道间时间差的设备及方法
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1184023B (it) * 1985-12-17 1987-10-22 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante analisi a sottobande e quantizzazione vettorariale con allocazione dinamica dei bit di codifica
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP3475446B2 (ja) 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
JP2776300B2 (ja) 1995-05-31 1998-07-16 日本電気株式会社 音声信号処理回路
DE19537338C2 (de) * 1995-10-06 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren von Audiosignalen
US5754534A (en) 1996-05-06 1998-05-19 Nahumi; Dror Delay synchronization in compressed audio systems
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JPH11219199A (ja) * 1998-01-30 1999-08-10 Sony Corp 位相検出装置及び方法、並びに音声符号化装置及び方法
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076853B (zh) * 2004-12-10 2010-10-13 松下电器产业株式会社 宽带编码装置、宽带线谱对预测装置、频带可扩展编码装置以及宽带编码方法
WO2010075777A1 (zh) * 2008-12-30 2010-07-08 华为技术有限公司 信号编码、解码方法及装置、系统
CN101771417B (zh) * 2008-12-30 2012-04-18 华为技术有限公司 信号编码、解码方法及装置、系统
US8380526B2 (en) 2008-12-30 2013-02-19 Huawei Technologies Co., Ltd. Method, device and system for enhancement layer signal encoding and decoding
CN103021416B (zh) * 2011-09-26 2017-04-26 索尼公司 音频编码装置和方法、音频解码装置和方法
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
CN104021796B (zh) * 2013-02-28 2017-06-20 华为技术有限公司 语音增强处理方法和装置
CN108269579A (zh) * 2018-01-18 2018-07-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
DE60128121D1 (de) 2007-06-06
US20020049583A1 (en) 2002-04-25
ES2284676T3 (es) 2007-11-16
EP1199711A1 (en) 2002-04-24
AU2001284607B2 (en) 2007-03-01
AU8460701A (en) 2002-04-29
US6654716B2 (en) 2003-11-25
EP1327241A1 (en) 2003-07-16
WO2002033693A1 (en) 2002-04-25
DE60128121T2 (de) 2007-12-27
EP1327241B1 (en) 2007-04-25
CN1271597C (zh) 2006-08-23
KR100882771B1 (ko) 2009-02-09
ATE360870T1 (de) 2007-05-15
JP5192630B2 (ja) 2013-05-08
CA2424375A1 (en) 2002-04-25
JP2004512560A (ja) 2004-04-22
CA2424375C (en) 2010-08-24
KR20030046468A (ko) 2003-06-12

Similar Documents

Publication Publication Date Title
CN1271597C (zh) 对声源信号进行编码/解码的方法和装置
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
CN1288621C (zh) 涉及已编码声音信号的译码的差错消除方法和装置
EP1869670B1 (en) Method and apparatus for vector quantizing of a spectral envelope representation
JP5694532B2 (ja) ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体
CN1279512C (zh) 用于改善高频重建的方法和装置
JP5405456B2 (ja) ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化
RU2428748C2 (ru) Кодирование аудиосигнала
CN104123946A (zh) 用于在与语音信号相关联的包中包含识别符的系统及方法
CN101061535A (zh) 用于人工扩展语音信号的带宽的方法和装置
CN1148232A (zh) 改善增强语声的滤波器,用该滤波器的装置、系统和方法
US20010053972A1 (en) Method and apparatus for an encoding and decoding a speech signal by adaptively changing pulse position candidates
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
CN103366755A (zh) 对音频信号进行编码和解码的方法和设备
CN104978970A (zh) 一种噪声信号的处理和生成方法、编解码器和编解码系统
KR102493482B1 (ko) 시간-도메인 스테레오 코딩 및 디코딩 방법, 및 관련 제품
US10607624B2 (en) Signal codec device and method in communication system
CN1193344C (zh) 语音解码器和一种语音解码方法
US11900952B2 (en) Time-domain stereo encoding and decoding method and related product
CN1051099A (zh) 信号能量参数优化的数字语声编码器
JP2013076871A (ja) 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
WO2024051412A1 (zh) 语音编码、解码方法、装置、计算机设备和存储介质
KR102492600B1 (ko) 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
CN1708785A (zh) 带宽扩展装置及方法
KR101737254B1 (ko) 오디오 신호, 디코더, 인코더, 시스템 및 컴퓨터 프로그램을 합성하기 위한 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20060823