CN102934163B - 用于宽带语音编码的系统、方法、设备 - Google Patents

用于宽带语音编码的系统、方法、设备 Download PDF

Info

Publication number
CN102934163B
CN102934163B CN201180026945.5A CN201180026945A CN102934163B CN 102934163 B CN102934163 B CN 102934163B CN 201180026945 A CN201180026945 A CN 201180026945A CN 102934163 B CN102934163 B CN 102934163B
Authority
CN
China
Prior art keywords
signal
frequency
frequency subband
band
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180026945.5A
Other languages
English (en)
Other versions
CN102934163A (zh
Inventor
杨岱
丹尼尔·J·辛德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN102934163A publication Critical patent/CN102934163A/zh
Application granted granted Critical
Publication of CN102934163B publication Critical patent/CN102934163B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明描述音频编码方法,其中使用用于音频信号的第一频带的激励信号来计算用于所述音频信号的与所述第一频带分开的第二频带的激励信号。

Description

用于宽带语音编码的系统、方法、设备
依据35U.S.C.§119主张优先权
本专利申请案主张2010年6月1日申请的题目为“用于宽带语音编码的系统、方法、设备和计算机程序产品(SYSTEMS,METHODS,APPARATUS,AND COMPUTERPROGRAM PRODUCTS FOR WIDEBAND SPEECH CODING)”的第61/350,425号临时申请案(代理人案号为092086P1)的优先权,所述临时申请案转让给本受让人。
技术领域
本发明涉及语音处理。
背景技术
类似于公众交换式电话网络(PSTN),传统无线话音服务基于300Hz与3400Hz之间的窄带音频。此质量正受到对宽带(WB)高清晰度(HD)话音系统的日益增长的关注的挑战,所述系统经设计以再现50Hz与7kHz或8kHz之间的话音频率。以此方式使带宽增加为两倍以上可引起所感知的质量和可懂度的显著改进。宽带在企业内的桌上型电话以及基于个人计算机(PC)的IP话音(VoIP)客户端(例如,Skype)(所述客户端提供与相同类型的其它客户端的通信)中正受到阻力。
由于宽带会话话音开始受到阻力,因此编解码器开发者考虑用于会话话音的音频带宽中的下一发展步骤。新的超宽带(SWB)话音编解码器现在是一种趋势,其再现从50Hz到14kHz的频率。
将用于话音的带宽扩展到14kHz将给蜂窝式呼叫带来新的会话音频体验。通过涵盖几乎整个声频谱,所添加的带宽可促成改进的存在感。浊音语音通常以约每倍频程减六分贝的速度衰减,因此,超过14kHz,几乎无能量存在。
发明内容
根据一个一般配置,一种处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的方法包括对所述音频信号进行滤波以获得 窄带信号和超高频带信号。此方法包括:基于来自所述窄带信号的信息计算经编码的窄带激励信号;以及基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号。此方法包括:基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数;以及通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算多个增益因子。在此方法中,所述窄带信号基于所述低频率次频带中的所述频率成分,且所述超高频带信号基于所述高频率次频带中的所述频率成分。在此方法中,所述低频率次频带的宽度为至少三千赫兹,且所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半。在一个实例中,计算所述超高频带激励信号包括将基于来自所述经编码的窄带激励信号的所述信息的信号升高取样以产生经内插的信号;以及扩展基于所述经内插的信号的信号的频谱以产生经频谱扩展的信号,其中所述超高频带激励信号基于所述经频谱扩展的信号。
根据另一个一般配置,一种用于处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的设备包括:用于对所述音频信号进行滤波以获得窄带信号和超高频带信号的装置;用于基于来自所述窄带信号的信息计算经编码的窄带激励信号的装置;以及用于基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号的装置。此设备还包括:用于基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数的装置;以及用于通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算多个增益因子的装置。在此设备中,所述窄带信号基于所述低频率次频带中的所述频率成分,且所述超高频带信号基于所述高频率次频带中的所述频率成分。在此设备中,所述低频率次频带的宽度为至少三千赫兹,且所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半。在一个实例中,用于计算所述超高频带激励信号的装置包括用于将基于来自所述经编码的窄带激励信号的所述信息的信号升高取样以产生经内插的信号的装置;以及扩展基于所述经内插的信号的信号的频谱以产生经频谱扩展的信号的装置,其中所述超高频带激励信号基于所述经频谱扩展的信号。
根据另一个一般配置,一种用于处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的设备包括:滤波器组,其经配置以对所述音频信号进行滤波以获得窄带信号和超高频带信号;以及窄带编码器,其经配置以基于来自所述窄带信号的信息计算经编码的窄带激励信号。此设备还包括超高频带编码 器,所述超高频带编码器经配置以:(A)基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号;(B)基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数;且(C)通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算多个增益因子。在此设备中,所述窄带信号基于所述低频率次频带中的所述频率成分,且所述超高频带信号基于所述高频率次频带中的所述频率成分。在此设备中,所述低频率次频带的宽度为至少三千赫兹,且所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半。在一个实例中,超高频带编码器包括:升高取样器,其经配置以将基于来自所述经编码的窄带激励信号的所述信息的信号升高取样以产生经内插的信号;以及频谱扩展器,其经配置以扩展基于所述经内插的信号的信号的频谱以产生经频谱扩展的信号,其中所述超高频带激励信号基于所述经频谱扩展的信号。
附图说明
图1展示根据一般配置的超宽带编码器SWE100的框图。
图2展示超宽带编码器SWE100的实施方案SWE110的框图。
图3为根据一般配置的超宽带解码器SWD100的框图。
图4为超宽带解码器SWD100的实施方案SWD110的框图。
图5A展示滤波器组FB100的实施方案FB110的框图。
图5B展示滤波器组FB200的实施方案FB210的框图。
图6A展示滤波器组FB100的实施方案FB112的框图。
图6B展示滤波器组FB210的实施方案FB212的框图。
图7A、7B和7C展示在三个不同实施实例中窄带信号SIL10、高频带信号SIH10和超高频带信号SIS10的相对带宽。
图8A展示整数倍降低取样器(decimator)DS10的实施方案DS12的框图。
图8B展示内插器IS10的实施方案IS12的框图。
图8C展示滤波器组FB112的实施方案FB120的框图。
图9A-F展示在路径PAS20的应用中处理的信号的频谱的逐步实例。
图10展示滤波器组FB212的实施方案FB220的框图。
图11A-F展示在路径PSS20的应用中处理的信号的频谱的逐步实例。
图12A展示语音信号的对数振幅与频率的曲线图的实例。
图12B展示基本线性预测编码系统的框图。
图13展示窄带编码器EN100的实施方案EN110的框图。
图14展示量化器QLN10的实施方案QLN20的框图。
图15展示量化器QLN10的实施方案QLN30的框图。
图16展示窄带解码器DN100的实施方案DN110的框图。
图17A展示浊音语音的残余信号的对数振幅与频率的曲线图的实例。
图17B展示浊音语音的残余信号的对数振幅与时间的曲线图的实例。
图17C展示还执行长期预测的基本线性预测编码系统的框图。
图18展示高频带编码器EH100的实施方案EH110的框图。
图19展示超高频带编码器ES100的实施方案ES110的框图。
图20展示高频带解码器DH100的实施方案DH110的框图。
图21展示超高频带解码器DS100的实施方案DS110的框图。
图22A展示超高频带激励产生器XGS10的实施方案XGS20的框图。
图22B展示超高频带激励产生器XGS20的实施方案XGS30的框图。
图23A展示将一帧划分成五个子帧的实例。
图23B展示将一帧划分成十个子帧的实例。
图23C展示用于子帧增益计算的开窗函数的实例。
图24A展示根据一般配置的方法M100的流程图。
图24B展示根据一般配置的设备MF100的框图。
具体实施方式
常规窄带(NB)语音编解码器通常再现具有从300Hz到3400Hz的频率范围的信号。宽带语音编解码器将此涵盖范围扩展到50Hz到7000Hz。如本文中所描述的SWB语音编解码器可用以再现宽得多的频率范围,例如从50Hz到14kHz。经扩展的带宽可向收听者提供具有较大存在感的更自然的发声体验。
所提议的频谱高效SWB语音编解码器提供一种新的语音编码和解码技术,使得经处理的语音含有比传统语音编解码器可提供的带宽宽得多的带宽。与通常为窄带(0kHz到3.5kHz)或宽带(0kHz到7kHz)的其它现有语音编解码器相比较,SWB语音编解码器给予移动终端用户实际得多且清楚得多的体验。
除非受上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它发射媒体上表达的存储器位置(或存储器位置的集合)的状态。除非受上下文明确地限制,否则术语“产生”在本文中用以指示其普通意义中 的任一者,例如计算或以其它方式产生。除非受上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如计算、评估、估计和/或从多个值进行选择。除非受上下文明确地限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非受上下文明确地限制,否则术语“选择”用以指示其普通意义中的任一者,包括识别、指示、应用和/或使用两者或两者以上的集合中的至少一者和少于全部。在本描述和权利要求书中使用术语“包含”之处,其并不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者,包括以下状况:(i)“从…导出”(例如,“B为A的前驱物”);(ii)“至少基于”(例如,“A至少基于B”);且若在特定上下文中为适当的,(iii)“等于”(例如,“A等于B”或“A与B相同”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。
除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示以十为底的对数,但此运算扩展到其它底数也在本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带中的一者,例如信号的频域表示(例如,如由快速傅立叶变换产生)的样本(或“频格”)或信号的次频带(例如,巴克(Bark)刻度或梅尔(mel)刻度次频带)。
除非另外指示,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可如其特定上下文所指示关于方法、设备和/或系统而使用。除非由特定上下文另外指示,否则一般性地且可互换地使用术语“方法”、“过程”、“程序”和“技术”。除非由特定上下文另外指示,否则也一般性地且可互换地使用术语“设备”与“装置”。术语“元件”和“模块”通常用以指示较大配置的一部分。除非受上下文明确地限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包括“相互作用以实现共同目的的元件群组”。以引用的方式对文献的一部分的任何并入还应理解为并入在所述部分内所引用的术语或变数的定义(其中此等定义在所述文献中的别处出现),以及在所并入部分中所引用的任何图。
术语“编码器”、“编解码器”和“编码系统”可互换地用来表示包括经配置以接收且编码音频信号的帧(可能在例如感知加权和/或其它滤波操作的一个或一个以上预处理操作之后)的至少一个编码器和经配置以产生帧的经解码表示的对应解码器的系统。此编码器和解码器通常部署于通信链路的相对终端处。为了支持全双工通信,编码器和解码 器两者的例子通常部署于此链路的每一末端处。
除非由特定上下文另外指示,否则术语“窄带”指代具有小于6kHz(例如,从0Hz、50Hz或300Hz到2000Hz、2500Hz、3000Hz、3400Hz、3500Hz或4000Hz)的带宽的信号;术语“宽带”指代具有在从6kHz到10kHz(例如,从0Hz、50Hz或300Hz到7000Hz或8000Hz)的范围内的带宽的信号;且术语“超宽带”指代具有大于10kHz(例如,从0Hz、50Hz或300Hz到12kHz、14kHz或16kHz)的带宽的信号。一般来说,术语“低频带”、“高频带”和“超高频带”以相对意义来使用,使得低频带信号的频率范围低于对应的高频带信号的频率范围且高频带信号的频率范围高于低频带信号的频率范围,且使得高频带信号的频率范围低于对应的超高频带信号的频率范围且超高频带信号的频率范围高于高频带信号的频率范围。
支持超宽带宽的几个会话编解码器已在例如G.719和G.722.1C等ITU-T(国际电信联盟(Geneva,CH)-电信标准化部门)中标准化。Speex(在www.speex.org线上可得)为另一SWB编解码器,其已作为GNU计划(www.gnu.org)的部分而可获得。然而,此等编解码器可能不适用于例如蜂窝式通信网络等受约束应用中。在此网络中使用此编解码器将合理的通信质量传递给终端用户通常将需要不可接受的高位速率,而例如G.722.1C等基于变换的语音编解码器可在较低位速率下提供不令人满意的语音质量。
用于编码和解码一般音频信号的方法包括基于变换的方法,例如编解码器的AAC(进阶音频编码)系列(例如,欧洲电信标准协会TS 102005、国际标准化组织(ISO)/国际电工委员会(IEC)14496-3:2009),其希望用于串流音频内容。此等编解码器有若干特征(例如,较长延迟和较高位速率)在编解码器于容量敏感性无线网络上直接应用于用于会话话音的语音信号时可能有问题。第三代合作伙伴计划(3GPP)标准增强式自适应多速率-宽带(AMR-WB+)为希望用于串流音频内容的另一编解码器,其通常能够在低速率(例如,低到10.4千位/秒)下编码高质量SWB话音,但可能归因于高算法延迟而不适用于会话用途。
现有宽带语音编解码器包括基于模型的次频带方法,例如第三代合作伙伴计划2(3GPP2,Arlington,VA)标准增强式可变速率编解码器-宽带(EVRC-WB)编解码器(在www.3gpp2.org线上可得)和G.729.1编解码器。此编解码器可实施两频带模型,两频带模型使用来自低频率次频带的信息在高频率次频带中重建构信号内容。举例来说,EVRC-WB编解码器使用针对信号的低频带部分(50Hz到4000Hz)的激励的频谱扩展来模拟高频带激励。
在EVRC-WB中,使用频谱高效带宽扩展模型来重建构语音信号的高频带部分(4 kHz到7kHz)。仍对HB信号执行LP分析以获得频谱包络信息。然而,浊音HB激励信号不再为HB LPC分析的实际残余。事实上,经由非线性模型处理NB部分的激励信号以产生针对浊音语音的HB激励。
此方法可用以产生具有较宽带宽的高频带激励。在使用适当包络和能量级来调制较宽激励之后,可重建构SWB语音信号。然而,扩展此方法以使其包括用于SWB语音编码的较宽频率范围并非不重要的问题,且并不清楚此种基于模型的方法是否可以理想质量和合理延迟来有效地处置SWB语音信号的编码。尽管此SWB语音编码方法可适用于一些网络上的会话应用,但所提议的方法可提供质量优点。
所提议的SWB编解码器通过引入多频带方法以合成SWB语音信号而得体地且有效地处置额外带宽。关于本文中所描述的所提议的SWB语音编解码器,已设计出多频带技术来有效地扩展带宽涵盖范围,使得所述编解码器可再现两倍或甚至更大的带宽。使用基于多频带模型的方法来合成SWB语音信号的所提议方法以高频谱效率来表示超高频带(SHB)部分,以便恢复SWB语音信号的最宽频率分量。由于其基于模型的性质,此方法避免与基于变换的方法相关联的较高延迟。由于额外的SHB信号,输出语音更自然且提供较大存在感,且因此向终端用户提供好得多的会话体验。多频带技术还提供从WB到SWB的嵌式可扩充性,在两频带方法中可能不可获得此可扩充性。
在典型实例中,使用三频带分频带方法实施所提议的编解码器,其中将输入语音信号划分成三个频带:低频带(LB)、高频带(HB)和超高频带(SHB)。由于人类语音中的能量随着频率增加而衰减,且人类听力随着频率增加到高于窄带语音而较不敏感,故更积极的模型化可用于较高频带,并且结果在感知上令人满意。
在所提议的编解码器中,类似于EVRC-WB的高频带激励扩展,使用LB激励的非线性扩展来模型化SHB激励信号,而不是使用实际SHB激励信号。由于非线性扩展与实际激励的计算和编码相比来说在计算上较不复杂,故在过程的此部分中在编码器处和解码器处涉及较少电力和较少延迟。
所提议的方法使用SHB激励信号、SHB频谱包络和SHB时间增益参数来重建构SHB分量。可通过基于原始SHB信号计算线性预测编码(LPC)系数来获得SHB的频谱包络信息。可通过比较原始SHB信号的能量与所估计的SHB信号的能量来估计SHB时间增益参数。LPC阶数和每帧时间增益的数目的恰当选择可能对使用此方法获得的质量很重要,且可能需要实现再现语音质量与表示SHB包络和时间增益参数所需的位的数目之间的适当平衡。
所提议的SWB编解码器可实施成包括扩展,所述扩展经配置以使用类似于 EVRC-WB中对HB部分的编码的方法来对语音信号的SHB部分(7kHz到14kHz)进行编码。在如图10中所展示的一个此类实例中,使用非线性函数来盲扩展LB(50Hz到4000Hz)的LPC残余,一直到7kHz到14kHz,以产生SHB激励信号XS10。LPC滤波器参数CPS10a(例如,通过第八阶LPC分析获得)表示SHB的频谱包络,且表示原始SHB信号与合成SHB信号的增益包络(例如,能量)之间的差异的十个子帧增益和一个帧增益含有SHB信号的时间包络。
图1展示包括此SHB编码器的SWB编码器SWE100(其还可经配置以执行频谱和时间包络参数的量化)的高阶框图。分别在图3和21中说明对应的SWB和SHB解码器(其还可经配置以执行频谱和时间包络参数的反量化)。
所提议的方法可经实施以使用在由3GPP2标准化为服务选项68(SO 68)(且在www.3gpp2.org线上可得)的EVRC-B窄带语音编解码器中所使用的相同技术来编码SWB信号的低频带(LB)(例如,50Hz到4000Hz)。关于作用中浊音语音,EVRC-B使用基于码激励线性预测(CELP)的压缩技术来编码低频带。此技术背后的基本思路为源滤波器语音产生模型,此模型将语音描述为准周期性激励(源)的线性滤波的结果。所述滤波器对原始输入语音的频谱包络进行塑形。可使用LPC系数来近似输入信号的频谱包络,LPC系数将每一样本描述为先前各样本的线性组合。使用自适应和固定的码簿条目来模型化激励,所述码簿条目经选择以最佳地匹配LPC分析的残余。尽管极高质量为可能的,但质量可由于低于约8kbps的位速率而受损。关于作用中非浊音语音,EVRC-B使用基于噪声激励线性预测(NELP)的压缩技术来编码低频带。
理论上,SHB模型可应用于任意LB和HB编码技术。可通过任何传统声码器来处理LB信号,传统声码器进行激励信号的分析与合成和信号的频谱包络的塑形。可通过可再现HB频率分量的任何编解码器来编码和解码HB部分。明显地注意到,HB没有必要使用基于模型的方法(例如,CELP)。举例来说,可使用基于变换的技术来编码HB。然而,使用基于模型的方法来编码HB通常必然伴有较低位速率要求且产生较少编码延迟。
所提议的方法还可经实施以使用与由3GPP2标准化为服务选项70(SO 70)(且在www.3gpp2.org线上可得)的EVRC-WB编解码器的高频带相同的模型化方法来编码SWB编解码器的信号的高频带(HB)部分(4kHz到7kHz)。在此状况下,HB为经由非线性函数加上频谱包络的低速率编码、五个子帧增益(例如,如图23A中所展示)和一个帧增益对LB线性预测残余的盲扩展。
可能需要实施所提议的编解码器以使得大多数位分配给最低频带的高质量编码。举 例来说,EVRC-WB分配155个位来编码LB,且分配16个位来编码HB,得到每二十毫秒帧171个位的总分配。所提议的SWB编解码器分配额外19个位来编码SHB,得到每二十毫秒帧190个位的总分配。因此,所提议的SWB编解码器使WB的带宽加倍,而位速率的增加小于12%。所提议的SWB编解码器的一替代实施方案分配额外24个位来编码SHB(得到每二十毫秒帧195个位的总分配)。所提议的SWB编解码器的另一替代实施方案分配额外38个位来编码SHB(得到每二十毫秒帧209个位的总分配)。
所提议的编码器的一个版本将如下三组高频带参数发射到解码器以用于重建构SHB信号:LSF参数、子帧增益和帧增益。每一帧的LSF参数和子帧增益为多维的,而帧增益为纯量。关于多维参数的量化,可能需要最小化使用向量量化(VQ)所需的位的数目。由于高频带LSF参数和子帧增益的向量维数常常较高,故可使用分割式VQ。为实现特定量化质量,VQ码簿可能较大。针对已选择单向量VQ的状况,可采用多阶段VQ以减小存储器要求且降低码簿搜索复杂性。
图1展示根据一般配置的超宽带编码器SWE100的框图。滤波器组FB100经配置以对超宽带信号SISW10进行滤波以产生窄带信号SIL10、高频带信号SIH10和超高频带信号SIS30。窄带编码器EN100经配置以编码窄带信号SIL10以产生窄带(NB)滤波器参数FPN10和经编码的NB激励信号XL10。如本文中更详细描述,窄带编码器EN100通常经配置以产生作为码簿索引或呈另一量化形式的窄带滤波器参数FPN10和经编码的窄带激励信号XL10。高频带编码器EH100经配置以根据来自经编码的窄带激励信号XL10的信息XL10a来编码高频带信号SIH10以产生高频带编码参数CPH10。如本文中更详细描述,高频带编码器EH100通常经配置以产生作为码簿索引或呈另一量化形式的高频带编码参数CPH10。超高频带编码器ES100经配置以根据来自经编码的窄带激励信号XL10的信息XL10b来编码超高频带信号SIS10以产生超高频带编码参数CPS10。如本文中更详细描述,超高频带编码器ES100通常经配置以产生作为码簿索引或呈另一量化形式的超高频带编码参数CPS10。
超宽带编码器SWE100的一个特定实例经配置而以约9.75kbps(千位/秒)的速率来编码超宽带信号SISW10,其中约7.75kbps用于窄带滤波器参数FPN10和经编码的窄带激励信号XL10,约0.8kbps用于高频带编码参数CPH10,且约0.95kbps用于超高频带编码参数CPS10。超宽带编码器SWE100的另一特定实例经配置而以约9.75kbps的速率来编码超宽带信号SISW10,其中约7.75kbps用于窄带滤波器参数FPN10和经编码的窄带激励信号XL10,约0.8kbps用于高频带编码参数CPH10,且约1.2kbps用于超高频带编码参数CPS10。超宽带编码器SWE100的另一特定实例经配置而以约10.45kbps的 速率来编码超宽带信号SISW10,其中约7.75kbps用于窄带滤波器参数FPN10和经编码的窄带激励信号XL10,约0.8kbps用于高频带编码参数CPH10,且约1.9kbps用于超高频带编码参数CPS10。
可能需要将经编码的窄带、高频带和超高频带信号组合成单一位流。举例来说,可能需要将经编码的信号多路复用在一起以便作为经编码的超宽带信号来发射(例如,经由有线、光学或无线发射信道)或存储。图2展示超宽带编码器SWE100的实施方案SWE110的框图,所述实施方案SWE110包括经配置以将窄带滤波器参数FPN10、经编码的窄带激励信号XL10、高频带编码参数CPH10和超高频带编码参数CPS10组合成多路复用信号SM10的多路复用器MPX100(例如,位封装器)。
包括编码器SWE110的设备还可包括经配置以将多路复用信号SM10发射到例如有线、光学或无线信道等发射信道中的电路。此设备还可经配置以对信号执行一个或一个以上信道编码操作(例如误差校正编码(例如,速率兼容回旋编码)和/或误差检测编码(例如,循环冗余编码)),和/或一层或一层以上网络协议编码(例如,以太网、TCP/IP、cdma2000)。
可能需要使多路复用器MPX100经配置以将经编码的窄带信号(包括窄带滤波器参数FPN10和经编码的窄带激励信号XL10)嵌入为多路复用信号SM10的可分离子串流,使得经编码的窄带信号可独立于多路复用信号SM10的另一部分(例如高频带信号、超高频带信号和/或低频带信号)而恢复且解码。举例来说,多路复用信号SM10可经布置以使得可通过去掉高频带编码参数CPH10和超高频带编码参数CPS10来恢复经编码的窄带信号。此特征的一个潜在优点为,避免了在将经编码的超宽带信号传递到支持窄带信号的解码但不支持高频带或超高频带部分的解码的系统之前对所述经编码的超宽带信号进行转码的需要。
或者或另外,可能需要使多路复用器MPX100经配置以将经编码的宽带信号(包括窄带滤波器参数FPN10、经编码的窄带激励信号XL10和高频带编码参数CPH10)嵌入为多路复用信号SM10的可分离子串流,使得经编码的窄带信号可独立于多路复用信号SM10的另一部分(例如超高频带信号和/或低频带信号)而恢复且解码。举例来说,多路复用信号SM10可经布置以使得可通过去掉超高频带编码参数CPS10来恢复经编码的宽带信号。此特征的一个潜在优点为,避免了在将经编码的超宽带信号传递到支持宽带信号的解码但不支持超高频带部分的解码的系统之前对所述经编码的超宽带信号进行转码的需要。
图3为根据一般配置的超宽带解码器SWD100的框图。窄带解码器DN100经配置 以解码窄带滤波器参数FPN10和经编码的窄带激励信号XL10以产生经解码的窄带信号SDL10。高频带解码器DH100经配置以基于高频带编码参数CPH10和来自经编码的激励信号XL10的信息XL10a产生经解码的高频带信号SDH10。超高频带解码器DS100经配置以基于超高频带编码参数CPS10和来自经编码的激励信号XL10的信息XL10b产生经解码的超高频带信号SDS10。滤波器组FB200经配置以组合经解码的窄带信号SDL10、经解码的高频带信号SDH10与经解码的超高频带信号SDS10以产生超宽带输出信号SOSW10。
图4为超宽带解码器SWD100的实施方案SWD110的框图,所述实施方案SWD110包括经配置以从多路复用信号SM10产生经编码的信号FPN40、XL10、CPH10和CPS10的多路分用器DMX100(例如,位解封装器)。包括解码器SWE110的设备可包括经配置以从例如有线、光学或无线信道等发射信道接收多路复用信号SM10的电路。此设备还可经配置以对信号执行一个或一个以上信道解码操作(例如误差校正解码(例如,速率兼容回旋解码)和/或误差检测解码(例如,循环冗余解码)),和/或一层或一层以上网络协议解码(例如,以太网、TCP/IP、cdma2000)。
滤波器组FB100经配置以根据分频带方案对输入信号进行滤波以产生多个有限带宽的次频带信号,所述信号各自含有输入信号的对应次频带的频率成分。视特定应用的设计准则而定,输出次频带信号可能具有相等或不等的带宽且可为重叠或非重叠的。产生三个以上次频带信号的滤波器组FB100的配置也是可能的。举例来说,此滤波器组可经配置以产生一个或一个以上低频带信号,所述一个或一个以上低频带信号包括在低于窄带信号SIL10的频率范围的频率范围(例如,从0Hz、20Hz或50Hz到200Hz、300Hz或500Hz的范围)中的分量。使此滤波器组经配置以产生一个或一个以上特高频带信号也是可能的,所述一个或一个以上特高频带信号包括在高于超高频带信号SIH10的频率范围的频率范围(例如,14kHz到20kHz、16kHz到20kHz或16kHz到32kHz的范围)中的分量。在此状况下,超宽带编码器SWE100可经实施以分离地编码此信号或此等信号,且多路复用器MPX100可经配置以在多路复用信号SM10中包括所述额外经编码的信号(例如,作为可分离部分)。
滤波器组FB100经布置以接收具有低频率次频带、中频率次频带和高频率次频带的超宽带信号SISW10。图5A展示滤波器组FB100的实施方案FB110的框图,所述实施方案FB110经配置以产生具有减小的取样率的三个次频带信号(窄带信号SIL10、高频带信号SIH10和超高频带信号SIS10)。滤波器组FB110包括经配置以接收超宽带信号SISW10且产生宽带信号SIW10的宽带分析处理路径PAW10,和经配置以接收超宽带信 号SISW10且产生超高频带信号SIS30的超高频带分析处理路径PAS10。滤波器组FB110还包括经配置以接收宽带信号SIW10且产生窄带信号SIL10的窄带分析处理路径PAN10,和经配置以接收宽带语音信号SIW10且产生高频带信号SIH10的高频带分析处理路径PAH10。窄带信号SIL10含有低频率次频带的频率成分,高频带信号SIH10含有中频率次频带的频率成分,宽带信号SIW10含有低频率次频带的频率成分和中频率次频带的频率成分,且超高频带信号SIS10含有高频率次频带的频率成分。
因为次频带信号具有比超宽带信号SISW10窄的带宽,所以次频带信号的取样率可在某种程度上减小(例如,以减小计算复杂性而不会丢失信息)。图6A展示滤波器组FB110的实施方案FB112的框图,其中宽带分析处理路径PAW10由整数倍降低取样器(decimator)DW10实施且窄带分析处理路径PAN10由整数倍降低取样器DN10实施。滤波器组FB112还包括:高频带分析处理路径PAH10的实施方案PAH12,其具有频谱反转模块RHA10和整数倍降低取样器DH10;和超高频带分析处理路径PAS10的实施方案PAS12,其具有频谱反转模块RSA10和整数倍降低取样器DS10。
整数倍降低取样器DW10、DN10、DH10和DS10中的每一者可实施为低通滤波器(例如,以防止混叠)后续接着降低取样器(downsampler)。举例来说,图8A展示经配置而按2的因子(by a factor of two)对输入信号进行整数倍降低取样的整数倍降低取样器DS 10的此实施方案DS12的框图。在此等状况下,低通滤波器可实施为具有截止频率为fs(2kd)的有限脉冲响应(FIR)或无限脉冲响应(IIR)滤波器,其中fs为输入信号的取样率且kd为整数倍降低取样因子,且可通过移除所述信号的样本和/或使用平均值替换样本来执行降低取样。
或者,整数倍降低取样器DW10、DN10、DH10和DS10中的一者或一者以上(可能全部)可实施为集成了低通滤波与降低取样操作的滤波器。整数倍降低取样器的一个此类实例经配置以通过使用三段式多相实施方案来执行按2的因子的整数倍降低取样,使得针对偶数n≥0,待整数倍降低取样的输入信号Sin[n]的样本经由转移函数由下式给出的全通滤波器来滤波
H down 2,0 = ( a down 2,0,0 + z - 1 1 + a down 2,0,0 z - 1 ) ( a down 2,0,1 + z - 1 1 + a down 2,0,1 z - 1 ) ( a down 2,0,2 + z - 1 1 + a down 2,0,2 z - 1 ) ,
且针对奇数n≥0,输入信号Sin[n]的样本经由转移函数由下式给出的全通滤波器来滤波
H down 2 , 1 = ( a down 2,1,0 + z - 1 1 + a down 2,1,0 z - 1 ) ( a down 2,1,1 + z - 1 1 + a down 2,1,1 z - 1 ) ( a down 2,1,2 + z - 1 1 + a down 2,1,2 z - 1 ) .
将这两个多相分量的输出相加(例如,求平均值),得出经整数倍降低取样的输出信号Sout[n]。在一特定实例中,值(adown2,0,0,adown2,0,1,adown2,0,2,adown2,1,0,adown2,1,1,adown2,1,2)等于(0.06056541924291,0.42943401549235,0.80873048306552,0.22063024829630,0.63593943961708,0.94151583095682)。此实施方案可允许逻辑和/或码的功能块的再使用。举例来说,明显地注意到,本文中描述的按2整数倍降低取样操作中的任一者可以此方式执行(且可能由相同模块在不同时间执行)。在一特定实例中,使用此三段式多相实施方案来实施整数倍降低取样器DH10和DS10。
或者或另外,整数倍降低取样器DW10、DN10、DH10和DS10中的一者或一者以上(可能全部)经配置以使用多相实施方案来执行按2的因子的整数倍降低取样,使得待整数倍降低取样的输入信号被分成各自由相应第13阶FIR滤波器来滤波的奇数时间索引和偶数时间索引的子序列。换句话说,针对偶数样本索引n≥0,待整数倍降低取样的输入信号Sin[n]的样本经由第一个第13阶FIR滤波器Hdec1(z)来滤波,且针对奇数n≥0,输入信号Sin[n])的样本经由第二个第13阶FIR滤波器Hdec2(z)来滤波。将这两个多相分量的输出相加(例如,求平均值),得出经整数倍降低取样的输出信号Sout[n]。在一特定实例中,滤波器的系数Hdecl(z)和Hdec2(z)展示于下表中:
分接头 Hdec1(z) Hdec2(z) 分接头 Hdec1(z) Hdec2(z)
0 4.64243812e-3 6.25339997e-3 7 4.49506086e-1 1.48104776e-1
1 -8.20745101e-3 -1.05729745e-2 8 -8.68124575e-2 -5.98583629e-2
2 1.34441876e-2 1.69574704e-2 9 4.43922465e-2 3.41918706e-2
3 -2.13208829e-2 -2.68710133e-2 10 -2.68710133e-2 -213208829e-2
4 3.41918706e-2 4.43922465e-2 11 1.69574704e-2 1.34441876e-2
5 -5.98583629e-2 -8.68124575e-2 12 -1.05729745e-2 -8.20745101e-3
6 1.48104776e-1 4.49506086e-1 13 6.25339997e-3 4.64243812e-3
此实施方案可允许逻辑和/或码的功能块的再使用。举例来说,明显地注意到,本文中描述的按2整数倍降低取样操作中的任一者可以此方式执行(且可能由相同模块在不同时间执行)。在一特定实例中,使用此FIR多相实施方案来实施整数倍降低取样器DW10和DN10。
在高频带分析处理路径PAH12中,频谱反转模块RHA10反转宽带信号SIW10的频 谱(例如,通过使所述信号与函数ejnπ或序列(-1)n相乘,序列(-1)n的值在+1与-1之间交替),且整数倍降低取样器DH10根据所要的整数倍降低取样因子减小经频谱反转的信号的取样率以产生高频带信号SIH10。在超高频带处理路径PAS12中,频谱反转模块RSA10反转超宽带信号SISW10的频谱(例如,通过使所述信号与函数ejnπ或序列(-1)n相乘),且整数倍降低取样器DS10根据所要的整数倍降低取样因子减小经频谱反转的信号的取样率以产生超高频带信号SIS10。还涵盖产生三个以上通带信号的滤波器组FB112的配置。
滤波器组FB200经布置以根据分频带方案对具有低频率成分的通带信号、具有中频率成分的通带信号和具有高频率成分的通带信号进行滤波以产生输出信号,其中有限带宽的次频带信号中的每一者含有输出信号的对应次频带的频率成分。视特定应用的设计准则而定,输出次频带信号可能具有相等或不等的带宽且可为重叠或非重叠的。图5B展示滤波器组FB200的实施方案FB210的框图,所述实施方案FB210经配置以接收具有减小的取样率的三个通带信号(经解码的窄带信号SDL10、经解码的高频带信号SDH10,和经解码的超高频带信号SDS10)且组合所述通带信号的频率成分以产生超宽带输出信号SOSW10。
滤波器组FB210包括经配置以接收窄带信号SDL10(例如,窄带信号SIL10的解码版本)且产生窄带输出信号SOL10的窄带合成处理路径PSN10,和经配置以接收高频带信号SDH10(例如,高频带信号SIH10的解码版本)且产生高频带输出信号SOH10的高频带合成处理路径PSH10。滤波器组FB210还包括经配置以将经解码的宽带信号SDW10(例如,宽带信号SIW10的解码版本)产生为通带信号SOL10与SOH10的总和的加法器ADD10。加法器ADD10还可经实施以根据由超高频带解码器SWD100接收和/或计算的一个或一个以上权重将经解码的宽带信号SDW10产生为两个通带信号SOL10与SOH10的加权总和。在一个此类实例中,加法器ADD10经配置以根据表达式SDW10[n]=SOL10[n]+0.9*SOH10[n]来产生经解码的宽带信号SDW10。
滤波器组FB210还包括经配置以接收经解码的宽带信号SDW10且产生宽带输出信号SOW10的宽带合成处理路径PSW10,和经配置以接收超高频带信号SDS10(例如,超高频带信号SIS10的解码版本)且产生超高频带输出信号SOS10的超高频带合成处理路径PSS10。滤波器组FB210还包括经配置以将超宽带输出信号SOSW10(例如,超宽带信号SISW10的解码版本)产生为信号SOW10与SOS10的总和的加法器ADD20。加法器ADD20还可经实施以根据由超高频带解码器SWD100接收和/或计算的一个或一个以上权重将超宽带输出信号SOSW10产生为两个通带信号SOW10与SOS10的加权总和。在一个此类实例中,滤波器组FB210经配置以根据表达式 SOSW10[n]=SOW10[n]+0.9*SOS10[n]来产生超宽带输出信号SOSW10。窄带信号SDL10和SOL10含有信号SOSW10的低频率次频带的频率成分,高频带信号SDH10和SOH10含有信号SOSW10的中频率次频带的频率成分,宽带信号SDW10和SOW10含有信号SOSW10的低频率次频带的频率成分和中频率次频带的频率成分,且超高频带信号SDS10和SOS10含有信号SOSW10的高频率次频带的频率成分。
组合三个以上次频带信号的滤波器组FB210的配置也是可能的。举例来说,此滤波器组可经配置以产生具有来自一个或一个以上低频带信号的频率成分的输出信号,所述一个或一个以上低频带信号包括在低于窄带信号SDL10的频率范围的频率范围(例如,从0Hz、20Hz或50Hz到200Hz、300Hz或500Hz的范围)中的分量。使此滤波器组经配置以产生具有来自一个或一个以上特高频带信号的频率成分的输出信号也是可能的,所述一个或一个以上特高频带信号包括在高于超高频带信号SDH10的频率范围的频率范围(例如,14kHz到20kHz、16kHz到20kHz或16kHz到32kHz的范围)中的分量。在此状况下,超宽带解码器SWD100可经实施以分离地解码此信号或此等信号,且多路分用器DMX100可经配置以从多路复用信号SM10提取所述额外经编码的信号(例如,作为可分离部分)。
因为次频带信号具有比超宽带输出信号SOSW10窄的带宽,故次频带信号的取样率可低于信号SOSW10的取样率。图6B展示滤波器组FB210的实施方案FB212的框图,其中窄带合成处理路径PSN10由内插器IN10实施且宽带合成处理路径PSW10由内插器IW10实施。滤波器组FB212还包括:高频带合成处理路径PSH10的实施方案PSH12,其具有内插器IH10和频谱反转模块RHD10;和超高频带合成处理路径PSS10的实施方案PSS12,其具有内插器IS10和频谱反转模块RSD10。
内插器IW10、IN10、IH10和IS10中的每一者可实施为升高取样器(upsampler)后续接着低通滤波器(例如,以防止混叠)。举例来说,图8B展示经配置而以按2的因子对输入信号进行内插的内插器IS10的此实施方案IS12的框图。在此等状况下,低通滤波器可实施为具有截止频率为fs(2kd)的有限脉冲响应(FIR)或无限脉冲响应(IIR)滤波器,其中fs为输入信号的取样率且kd为内插因子,且可通过补零和/或通过复制样本来执行升高取样。
或者,内插器IW10、IN10、IH10和IS10中的一者或一者以上(可能全部)可实施为集成了升高取样与低通滤波操作的滤波器。内插器的一个此类实例经配置以通过使用三段式多相实施方案来执行按2的因子的内插,使得针对偶数n≥0,经内插的信号Sout[n]的样本通过用转移函数由下式给出的全通滤波器对输入信号Sin[n/2]进行滤波而获得
H up 2,0 = ( a up 2,0,0 + z - 1 1 + a up 2,0,0 z - 1 ) ( a up 2,0,1 + z - 1 1 + a up 2,0,1 z - 1 ) ( a up 2,0,2 + z - 1 1 + a up 2,0,2 z - 1 ) ,
且针对奇数n≥0,经内插的信号Sout[n]的样本通过用转移函数由下式给出的全通滤波器对输入信号Sin[(n-1)/2]进行滤波而获得
H up 2 , 1 = ( a up 2,1,0 + z - 1 1 + a up 2,1,0 z - 1 ) ( a up 2,1,1 + z - 1 1 + a up 2,1,1 z - 1 ) ( a up 2,1,2 + z - 1 1 + a up 2,1,2 z - 1 ) .
在一特定实例中,值(aup2,0,0,aup2,0,1,aup2,0,2)等于(0.22063024829630,0.63593943961708,0.94151583095682)且值(aup2,1,0,aup2,1,1,aup2,1,2)等于(0.06056541924291,0.42943401549235,0.80873048306552)。此实施方案可允许逻辑和/或码的功能块的再使用。举例来说,明显地注意到,本文中描述的按2内插操作中的任一者可以此方式执行(且可能由相同模块在不同时间执行)。在一特定实例中,使用此三段式多相实施方案来实施内插器IH10和IS10。
或者或另外,内插器IW10、IN10、IH10和IS10中的一者或一者以上(可能全部)经配置以使用多相实施方案来执行按2的因子的内插,使得待内插的输入信号由两个不同的第15阶FIR滤波器来滤波以产生经内插的信号的奇数时间索引和偶数时间索引的子序列。换句话说,针对偶数样本索引n≥0,经内插的信号Sout[n]的样本通过用第一个第15阶FIR滤波器Hint1(z)对待插入的输入信号Sin[n/2]进行滤波而产生,且针对奇数n≥0,经内插的信号Sout[n]的样本通过用第二个第15阶FIR滤波器Hint2(z)对输入信号样本Sin[(n-1)/2]进行滤波而产生。在一特定实例中,滤波器的系数Hint1(z)和Hint2(z)展示于下表中:
分接头 Hint1(z) Hint2(z) 分接头 Hint1(z) Hint2(z)
0 -4.54575223e-3 -5.72353363e-3 8 3.04016299e-1 8.92598257e-1
1 1.12287220e-2 1.35456148e-2 9 -1.28550250e-1 -1.68733537e-1
2 -2.00599576e-2 -2.29975097e-2 10 7.77310154e-2 8.53696291e-2
3 3.25351453e-2 3.51649970e-2 11 -5.18131018e-2 -5.15341410e-2
4 -5.15341410e-2 -5.18131018e-2 12 3.51649970e-2 3.25351453e-2
5 8.53696291e-2 7.77310154e-2 13 -2.29975097e-2 -2.00599576e-2
6 -1.68733537e-1 -1.28550250e-1 14 1.35456148e-2 1.12287220e-2
7 8.92598257e-1 3.04016299e-1 15 -5.72353363e-3 -4.54575223e-3
此实施方案可允许逻辑和/或码的功能块的再使用。举例来说,明显地注意到,本文中描述的按2整数倍降低取样操作中的任一者可以此方式执行(且可能在不同时间由相同模块执行)。在一特定实例中,使用此FIR多相实施方案来实施内插器IN10和IW10。
在高频带合成处理路径PSH12中,内插器IH10根据所要的内插因子增加经解码的高频带信号SDH10的取样率,且频谱反转模块RHD10反转经升高取样的信号的频谱(例如,通过使所述信号与函数ejnπ或序列(-1)n相乘)以产生高频带输出信号SOH10。接着对两个通带信号SOL10与SOH10求和以形成经解码的宽带信号SDW10。滤波器组FB212还可经实施以根据由超高频带解码器SWD100接收和/或计算的一个或一个以上权重将经解码的宽带信号SDW10产生为两个通带信号SOL10与SOH10的加权总和。在一个此类实例中,滤波器组FB212经配置以根据表达式SDW10[n]=SOL10[n]+0.9*SOH10[n]来产生经解码的宽带信号SDW10。
在超高频带合成处理路径PSS12中,内插器IS10根据所要的内插因子增加经解码的超高频带信号SDS10的取样率,且频谱反转模块RSD10反转经升高取样的信号的频谱(例如,通过使所述信号与函数ejnπ或序列(-1)n相乘)以产生超高频带输出信号SOS10。接着对两个通带信号SOW10与SOS10求和以形成超宽带输出信号SOSW10。滤波器组FB212还可经实施以根据由超高频带解码器SWD100接收和/或计算的一个或一个以上权重将超宽带输出信号SOSW10产生为两个通带信号SOW10与SOS10的加权总和。在一个此类实例中,滤波器组FB212经配置以根据表达式SOSW10[n]=SOW10[n]+0.9*SOS10[n]来产生超宽带输出信号SOSW10。还涵盖组合三个以上经解码的通带信号的滤波器组FB212的配置。
在一典型实例中,窄带信号SIL10含有低频率次频带的频率成分,所述低频率次频带包括300Hz到3400Hz(例如,从0kHz到4kHz的频带)的受限PSTN范围,但在其它实例中,所述低频率次频带可能较窄(例如,0Hz、50Hz或300Hz到2000Hz、2500Hz或3000Hz)。图7A、7B和7C展示三个不同实施实例中窄带信号SIL10、高频带信号SIH10和超高频带信号SIS10的相对带宽。在所有这些特定实例中,超宽带信号SISW10具有32kHz的取样率(表示在0kHz到16kHz的范围内的频率分量),且窄带信号SIL10具有8kHz的取样率(表示在0kHz到4kHz的范围内的频率分量),且图7A到7C中的每一者展示在由滤波器组产生的所述信号中的每一者中所包含的超宽带信号SISW10的频率成分的部分的实例。
术语“频率成分”在本文中用以指代在信号的规定频率处存在的能量,或跨信号的 规定频带的能量分布。窄带信号SIL10含有低频率次频带的频率成分,高频带信号SIH10含有中频率次频带的频率成分,宽带信号SIW10含有低频率次频带的频率成分和中频率次频带的频率成分,且超高频带信号SIS10含有高频率次频带的频率成分。将次频带的宽度定义为选择所述次频带的频率成分的滤波器组路径的频率响应中的负二十分贝点之间的距离。类似地,可将两个次频带的重叠定义为从选择较高频率次频带的频率成分的滤波器组路径的频率响应下降到负二十分贝的点直到选择较低频率次频带的频率成分的滤波器组路径的频率响应下降到负二十分贝的点之间的距离。
在图7A的实例中,三个次频带间不存在显著的重叠。可使用具有4kHz到8kHz的通带的高频带分析处理路径PAH10的实施方案来获得如此实例中所展示的高频带信号SIH10。在此状况下,可能需要处理路径PAH10通过按2的因子对信号进行整数倍降低取样而将取样率减小到8kHz。此操作(可预期其显著减小对信号的进一步处理操作的计算复杂性)使4kHz到8kHz的中频率次频带的频率成分下降到0kHz到4kHz的范围而不会丢失信息。
类似地,可使用具有8kHz到16kHz的通带的超高频带分析处理路径PAS10的实施方案来获得如此实例中所展示的超高频带信号SIS10。在此状况下,可能需要处理路径PAS10通过按2的因子对信号进行整数倍降低取样而将取样率减小到16kHz。此操作(可预期其显著减小对信号的进一步处理操作的计算复杂性)使8kHz到16kHz的高频率次频带的频率成分下降到0kHz到8kHz的范围而不会丢失信息。
在图7B的替代实例中,低频率次频带与中频率次频带具有明显重叠,使得窄带信号SIL10和高频带信号SIH10两者描述3.5kHz到4kHz的区。可使用具有3.5kHz到7kHz的通带的高频带分析处理路径PAH10的实施方案来获得如此实例中所展示的高频带信号SIH10。在此状况下,可能需要处理路径PAH10通过按16/7的因子对信号进行整数倍降低取样而将取样率减小到7kHz。此操作(可预期其显著减小对信号的进一步处理操作的计算复杂性)使3.5kHz到7kHz的中频率次频带的频率成分下降到0kHz到3.5kHz的范围而不会丢失信息。高频带分析处理路径PAH10的其它特定实例具有3.5kHz到7.5kHz和3.5kHz到8kHz的通带。
图7B还展示高频率次频带从7kHz延伸到14kHz的实例。可使用具有7kHz到14kHz的通带的超高频带分析处理路径PAS10的实施方案来获得如此实例中所展示的超高频带信号SIS10。在此状况下,可能需要处理路径PAS10通过按32/7的因子对信号进行整数倍降低取样而将取样率从32kHz减小到7kHz。此操作(可预期其显著减小对信号的进一步处理操作的计算复杂性)使7kHz到14kHz的高频率次频带的频率成分下降到 0kHz到7kHz的范围而不会丢失信息。
图8C展示滤波器组FB112的实施方案FB120的框图,所述实施方案FB120可用于如图7B中所展示的应用。滤波器组FB120经配置以接收具有取样率fs(例如,32kHz)的超宽带信号SISW10。滤波器组FB120包括:整数倍降低取样器DW10的实施方案DW20,其经配置而按2的因子对信号SISW10进行整数倍降低取样以获得具有取样率fSW(例如,16kHz)的宽带信号SIW10;和整数倍降低取样器DN10的实施方案DN20,其经配置而按2的因子对信号SIW10进行整数倍降低取样以获得具有取样率fSN(例如,8kHz)的窄带信号SIL10。
滤波器组FB120还包括高频带分析处理路径PAH12的实施方案PAH20,其经配置而按非整数因子fSH/fSW对宽带信号SIW10进行整数倍降低取样,其中fSH为高频带信号SIH10的取样率(例如,7kHz)。路径PAH20包括:内插块IAH10,其经配置而按2的因子来内插信号SIW10,使其达到取样率fSW×2(例如,到32kHz);重取样块,其经配置以重取样经内插的信号,使其达到取样率fSH×4(例如,按7/8的因子,达到28kHz);和整数倍降低取样块DH30,其经配置而按2的因子对经重取样的信号进行整数倍降低取样,使其达到取样率fSH×2(例如,达到14kHz)。整数倍降低取样块DH30可根据如本文中所描述的此操作的实例中的任一者(例如,本文中描述的三段式多相实例)来实施。路径PAH20还包括频谱反转块和整数倍降低取样器DH10的按2整数倍降低取样实施方案(decimate-by-two implementation)DH20,所述频谱反转块和所述实施方案DH20可分别如上文参看路径PAH12的模块RHA10和整数倍降低取样器DH10所描述来实施。
在此特定实例中,路径PAH20还包括可选频谱塑形块FAH10,可选频谱塑形块FAH10可实施为经配置以对信号塑形以获得所要的总滤波器响应的低通滤波器。在一特定实例中,频谱塑形块FAH10经实施为具有如下转移函数的第一阶IIR滤波器
H shaping ( z ) = 0.95 1 + z - 1 1 - 0.9 z - 1 .
路径PAH20的内插块IAH10可根据如本文中所描述的此操作的实例中的任一者(例如,本文中描述的三段式多相实例)来实施。内插器的一个此类实例经配置以通过使用两段式多相实施方案来执行按2的因子的内插,使得针对偶数n≥0,经内插的信号Sout[n]的样本通过用转移函数由下式给出的全通滤波器对输入信号子序列Sin[n/2]进行滤波而获得
H up 2,0 = ( a up 2,0,0 + z - 1 1 + a up 2,0,0 z - 1 ) ( a up 2,0,1 + z - 1 1 + a up 2,0,1 z - 1 )
且针对奇数n≥0,经内插的信号Sout[n]的样本通过用转移函数由下式给出的全通滤波器对输入信号子序列Sin[(n-1)/2]进行滤波而获得
H up 2 , 1 = ( a up 2,1,0 + z - 1 1 + a up 2,1,0 z - 1 ) ( a up 2,1,1 + z - 1 1 + a up 2,1,1 z - 1 ) .
在一特定实例中,值(aup2,0,0,aup2,0,1,aup2,1,0,aup2,1,1)等于(0.06262441299567,0.49326511845632,0.23754715248027,0.80890715711734)。
路径PAH20的按7/8重取样块可经实施以使用多相内插来重取样具有取样率32kHz的输入信号sin以产生具有取样率28kHz的输出信号sout。此内插可(例如)根据例如 (n=0,1,2,…,(320/8)-1且j=0,1,2,…,6)的表达式来实施,其中h32到28为7×10矩阵。矩阵h32到28的左半边的值展示于下表中:
3.41912907e-4 -2.69503234e-3 1.19769577e-2 -4.56908882e-2 9.77711819e-1
1.23211218e-3 -8.62410562e-3 3.47366625e-2 -1.17506954e-1 9.01024049e-1
1.81777835e-3 -1.23518612e-2 4.80598154e-2 -1.52764025e-1 7.75797477e-1
2.02437256e-3 -1.34769676e-2 5.10793217e-2 -1.54547032e-1 6.14941672e-1
1.84337614e-3 -1.20398838e-2 4.45406397e-2 -1.29059613e-1 4.34194878e-1
1.32890510e-3 -8.47829304e-3 3.05201954e-2 -8.47225835e-2 2.50516846e-1
5.86167535e-4 -3.53544829e-3 1.20198888e-2 -3.11043229e-2 8.03984401e-2
将此半矩阵水平地且垂直地翻转以获得矩阵h32到28的右半边的值(即,行r和列c处的元素具有与行(8-r)和列(11-c)处的元素相同的值)。
滤波器组FB120还包括超高频带分析处理路径PAS12的实施方案PAS20,其经配置而按非整数因子fs/fss对超宽带信号SISW10进行整数倍降低取样,其中fss为超高频带信号SIS10的取样率(例如,14kHz)。路径PAS20包括:内插块IAS10,其经配置而按2的因子来内插信号SISW10,使其达到取样率fs×2(例如,到64kHz);重取样块,其经配置以重取样经内插的信号,使其达到取样率fss×4(例如,按7/8的因子,达到56kHz);和整数倍降低取样块DS30,其经配置而按2的因子对经重取样的信号进行整数倍降低 取样,使其达到取样率fss×2(例如,达到28kHz)。内插块IAS10可根据如本文中所描述的此操作的实例中的任一者(例如,本文中描述的两段式多相实例)来实施。整数倍降低取样块DS30可根据如本文中所描述的此操作的实例中的任一者(例如,本文中描述的三段式多相实例)来实施。路径PAS20还包括频谱反转块和整数倍降低取样器DS10的按2整数倍降低取样实施方案DS20,所述频谱反转块和所述实施方案DH20可分别如上文参看路径PAS12的模块RSA10和整数倍降低取样器DS10所描述来实施。
可能需要应用超高频带分析处理路径PAS20以从具有取样率32kHz的输入超宽带信号SISW10提取超高频带信号SIS10,超高频带信号SIS10具有14kHz的取样率和7kHz到14kHz的高频率次频带的频率成分。图9A到9F展示在路径PAS20的此应用中所处理的信号(在图8C中标记为A到F的对应点中的每一者处)的频谱的逐步实例。在图9A到9F中,阴影区指示7kHz到14kHz的高频率次频带的频率成分,且垂直轴线指示量值。图9A展示32kHz的超宽带信号SISW10的代表性频谱。图9B展示在将信号SISW10升高取样到取样率64kHz之后的频谱。图9C展示在按7/8的因子重取样经升高取样的信号,使其达到取样率56kHz之后的频谱。图9D展示在对经重取样的信号进行整数倍降低取样,使其达到取样率28kHz之后的频谱。图9E展示在反转经整数倍降低取样的信号的频谱之后的频谱。图9F展示在对经频谱反转的信号进行整数倍降低取样以产生具有14kHz的取样率的超高频带信号SIS10之后的频谱。
路径PAS20的内插块IAS10和整数倍降低取样块DS30可根据如本文中所描述的此类操作的实例中的任一者(例如,本文中描述的多段式多相实例)来实施。路径PAS20的按7/8重取样块可经实施以使用多相实施方案来重取样具有64kHz的取样率的输入信号sin以产生具有56kHz的取样率的输出信号sout。此重取样可(例如)根据例如 (n=0,1,2,…,(640/8)-1且j=0,1,2,…,6)的表达式来实施,其中h64到56为7×10矩阵。矩阵h64到56的特定实施方案的左半边的值展示于下表中:
1.558697e-2 -4.797365e-2 1.008248e-1 -1.765467e-1 1.129741
7.848700e-3 -3.597768e-2 9.765124e-2 -2.200534e-1 1.029719
3.876050e-4 -1.788927e-2 7.155779e-2 -2.013905e-1 8.462753e-1
-4.873989e-3 3.745309e-4 3.355743e-2 -1.398403e-1 6.092098e-1
-7.154279e-3 1.415676e-2 -4.655999e-3 -5.917076e-2 3.554986e-1
-6.747768e-3 2.101616e-2 -3.368756e-2 1.788288e-2 1.220295e-1
-4.654879e-3 2.089194e-2 -4.831460e-2 7.417446e-2 -6.128632e-2
将此半矩阵水平地且垂直地翻转以获得矩阵h64到56的此特定实施方案的右半边的值(即,行r和列c处的元素具有与行(8-r)和列(11-c)处的元素相同的值)。
图7C展示另一实例,其中中频率次频带从3.5kHz延伸到7.5kHz,使得窄带信号SIL10和高频带信号SIH10两者描述3.5kHz到4kHz的区且高频带信号SIH10和超高频带信号SIS10两者描述7kHz到7.5kHz的区。
在一些实施方案中,提供如图7B和7C的实例中的在次频带之间的重叠允许使用在重叠区内具有平滑衰减的处理路径。此等滤波器通常较易于设计,具有较低计算复杂性,且/或引入的延迟少于具有较锐或“砖墙式”响应的滤波器。具有锐转变区的滤波器倾向于比具有平滑衰减的类似阶数的滤波器具有更高的旁波瓣(旁波瓣可引起混叠)。具有锐转变区的滤波器还可具有长脉冲响应,长脉冲响应可引起环状假影(ringing artifact)。对于具有一个或一个以上IIR滤波器的滤波器组实施方案来说,允许在重叠区内的平滑衰减可使得能够使用各极点离单位圆较远的一个或一个以上滤波器,此对确保稳定的固定点实施很重要。
次频带的重叠允许次频带的平滑混合,此平滑混合可引起较少的声假影、减少的混叠,和/或从一个次频带到另一个次频带的较不容易注意到的转变。对于窄带编码器EN100、高频带编码器EH100和超高频带编码器ES100中的两者或两者以上根据不同编码方法来操作的实施方案来说,一个或一个以上此类特征可能尤为理想。举例来说,不同编码技术可产生听起来非常不同的信号。以码簿索引的形式来编码频谱包络的编码器可产生一信号,其声音不同于改为编码振幅频谱的编码器所产生的信号的声音。时域编码器(例如,脉码调制或PCM编码器)可产生一信号,其声音不同于频域编码器所产生的信号的声音。以频谱包络的表示和对应的残余信号来编码信号的编码器可产生一信号,其声音不同于仅以频谱包络的表示来编码信号的编码器(例如,基于变换的编码器)所产生的信号的声音。将信号编码为其波形的表示的编码器可产生一输出,其声音不同于来自正弦编码器的声音。在此等状况下,使用具有锐转变区的滤波器来界定非重叠次频带可导致在合成超宽带信号中的次频带之间的突然且明显可感知的转变。
此外,编码器(例如,波形编码器)的编码效率可随着频率增加而下降。在低位速率下,尤其在存在背景噪声的情况下,可能降低编码质量。在此等状况下,提供次频带的重叠可增加重叠区中的经再现频率分量的质量。
将两个次频带的重叠(例如,低频率次频带与中频率次频带的重叠,或中频率次频带与高频率次频带的重叠)定义为从产生较高频率次频带的路径的频率响应下降到-20dB的点直到产生较低频率次频带的路径的频率响应下降到-20dB的点之间的距离。在滤波 器组FB100和/或FB200的各个实例中,此重叠在约200Hz到约1kHz的范围内。约400Hz到约600Hz的范围可表示编码效率与感知平滑度之间的理想折衷。在图7B和7C中展示的特定实例中,每一重叠为约500Hz。
应注意,作为处理路径PAH12和PAS12中的频谱反转操作的结果,高频带信号SIH10中和超高频带信号SIS10中的频率成分的频谱被反转。可相应地配置编码器和对应的解码器中的后续操作。举例来说,如本文中所描述的高频带激励产生器GXH100可经配置以产生还具有经频谱反转的形式的高频带激励信号SXH10。
图10展示滤波器组FB212的实施方案FB220的框图,所述实施方案FB220可用于如图7B中所展示的应用。滤波器组FB220包括窄带合成处理路径PSN10的实施方案PSN20,其经配置以接收具有取样率FSN(例如,8kHz)的窄带信号SDL10且执行按2内插以产生具有取样率fSW(例如,16kHz)的窄带输出信号SOL10。在此实例中,路径PSN20包括内插器IN10的实施方案IN20(例如,如本文中所描述的FIR多相实施方案)和可选塑形滤波器FSL10(例如,第一阶极点零点滤波器)。在一特定实例中,塑形滤波器FSL10经实施为具有如下转移函数的第二阶IIR滤波器
H shaping ( z ) = 0.477 1 + 1.9 z - 1 + z - 2 1 - 0.6 z - 1 - 0.26 z - 2 .
滤波器组FB220还包括高频带合成处理路径PSH12的实施方案PSH20,其经配置而按非整数因子fSW/fSH来内插具有取样率fSH(例如,7kHz)的高频带信号SDH10。路径PSH20包括:内插器IH10的实施方案IH20,其经配置而按2的因子来内插信号SDH10,使其达到取样率fSH×2(例如,达到14kHz);频谱反转块,其可如上文参看路径PSH12的模块RHS10所描述来实施;内插块IH30,其经配置而按2的因子来内插经频谱反转的信号,使其达到取样率fSH×4(例如,达到28kHz);和重取样块,其经配置以重取样(例如,按4/7的因子)经内插的信号,使其达到取样率fSW。在此特定实例中,路径PSH20还包括可选频谱塑形滤波器FSW10,可选频谱塑形滤波器FSW10可实施为经配置以对信号塑形以获得所要的总滤波器响应的低通滤波器,且/或实施为经配置而在7100Hz使信号的分量衰减的陷波滤波器。在一特定实例中,塑形滤波器FSW10经实施为陷波滤波器,其具有如下转移函数
H shaping ( z ) = ( 0.9 + 1.68548204358251 z - 1 + 0.9 z - 2 1 - 1.84755462947281 z - 1 - 0.97110052295510 z - 2 )
× ( 1 + 1.89908877043819 z - 1 + z - 2 1 - 1.74219434405041 z - 1 - 0.85804273005855 z - 2 )
或如下转移函数
H shaping ( z )
= ( 0.92482579255755 + 1.75415354377535 z - 1 + 0.92482579255755 z - 2 1 - 1.74835555397183 z - 1 - 0.85544957491863 z - 2 ) .
路径PSH20的内插块IH30可根据如本文中所描述的此操作的实例中的任一者(例如,本文中描述的三段式多相实例方案)来实施。路径PSH20的按4/7重取样块可经实施以使用多相实施方案来重取样具有28kHz的取样率的输入信号sin以产生具有16kHz的取样率的输出信号sout。此重取样可(例如)根据例如 (n=0,1,2,…且j=0,1,2,3)的表达式来实施,其中h28到14为4×10矩阵。矩阵h28到16的特定实施方案的左半边的值展示于下表中:
1.20318669e-3 -7.63051281e-3 2.72917685e-2 -7.50806010e-2 2.17114817e-1
1.99103625e-3 -1.31460240e-2 4.92989146e-2 -1.46294949e-1 5.37321710e-1
1.67326973e-3 -1.14565524e-2 4.49962065e-2 -1.45555950e-1 8.19434767e-1
2.78957903e-4 -2.26822102e-3 1.02912159e-2 -3.99823584e-2 9.80668152e-1
矩阵h28到16的此特定实施方案的右半边的值展示于下表中:
9.19427451e-1 -1.06860103e-1 3.11334638e-2 -7.66063210e-3 1.08509157e-3
6.88738481e-1 -1.57550510e-1 5.10128599e-2 -1.33122905e-2 1.98270018e-3
3.76310623e-1 -1.16791891e-1 4.08360252e-2 -1.11251931e-2 1.71435282e-3
7.05611352e-2 -2.76674071e-2 1.07928329e-2 -3.20123678e-3 5.35218462e-4
滤波器组FB220还包括宽带合成处理路径PSW12的实施方案PSW20,其经配置以接收具有取样率fSW(例如,16kHz)的宽带信号SDW10且执行按2内插以产生具有取样率fS(例如,32kHz)的宽带输出信号SOW10。在此实例中,路径PSW20包括内插器IW10的实施方案IW20(例如,如本文中所描述的FIR多相实施方案)和可选塑形滤波器(例如,第二阶极点零点滤波器)。
滤波器组FB220还包括超高频带合成处理路径PSS12的实施方案PSS20,其经配置而按非整数因子fs/fss来内插具有取样率fss(例如,14kHz)的超高频带信号SDS10,其中fs为超宽带信号SOSW10的取样率(例如,32kHz)。滤波器组FB220包括:内插器IS10的实施方案IS20,其经配置而按2的因子来内插信号SDS10,使其达到取样率fss×2(例如,达到28kHz);频谱反转块,其可如上文参看路径PSS12的模块RHD10所描述来实施;内插块IS30,其经配置而按2的因子来内插经频谱反转的信号,使其达到取样率fss×4(例如,达到56kHz);重取样块,其经配置以重取样(例如,按8/7的因子)经内插的信号,使其达到取样率fs×2;和整数倍降低取样块DSS10,其经配置而按2的因子对经重取样的信号进行整数倍降低取样,使其达到取样率fs(例如,达到32kHz)。在此特定实例中,路径PSS20还包括可选频谱塑形块,可选频谱塑形块可实施为经配置以对信号塑形以获得所要的总滤波器响应的滤波器(例如,第30阶FIR滤波器)。
可能需要应用超高频带合成处理路径PSS20以从具有14kHz的取样率的经解码的输入超高频带信号SDS10提取超高频带信号SOS10,超高频带信号SOS10具有32kHz的取样率和7kHz到14kHz的高频率次频带的频率成分。图11A到11F展示在路径PSS20的此应用中所处理的信号(在图10中标记为A到F的对应点中的每一者处)的频谱的逐步实例。在图11A到11F中,阴影区指示7kHz到14kHz的高频率次频带的频率成分,且垂直轴线指示量值。图11A展示14kHz超高频带信号SDS 10的代表性频谱,其含有7kHz到14kHz的高频率次频带的经频谱反转的频率成分。图11B展示在内插信号SDS10,使其达到28kHz的取样率之后的频谱。图11C展示在反转经内插的信号的频谱之后的频谱。图11D展示在内插经频谱反转的信号,使其达到56kHz的取样率之后的频谱。图11E展示在按8/7的因子重取样经内插的信号,使其达到64kHz的取样率之后的频谱。图11F展示在对经重取样的信号进行整数倍降低取样以产生具有32kHz的取样率的超高频带信号SOS10之后的频谱。
路径PSS20的整数倍降低取样块DSS10可根据如本文中所描述的此操作的实例中的任一者(例如,本文中描述的三段式多相实例方案)来实施。路径PSH20和PSS20的内插器IH20、IH30、IS20和IS30可根据如本文中所描述的此操作的实例中的任一者来实施。在一特定实例中,内插器IH20、IH30、IS20和IS30中的每一者根据本文中描述的三段式多相实例方案来实施。
路径PSS20的按8/7重取样块可经实施以使用多相内插来重取样具有56kHz的取样率的输入信号sin以产生具有64kHz的取样率的输出信号sout。在一个实例中,使用根据 (n=0,1,2,…,(640/8)-1且j=0,1,2,…,6)的多相内插来执行此重取样,其中h56到64为8×5矩阵。矩阵h56到64的特定实施方案的值展示于下表中:
8.822681e-3 4.042414e-1 6.891184e-1 -6.491004e-2 -1.584783e-2
-1.584783e-2 -6.491004e-2 6.891184e-1 4.042414e-1 8.822681e-3
1.844283e-3 -1.448563e-1 9.572939e-1 1.446467e-1 6.037494e-2
2.842895e-2 -2.077111e-1 1.165900 -5.667803e-2 8.317225e-2
5.757226e-2 -2.274063e-1 1.279996 -1.813245e-1 7.944362e-2
7.944362e-2 -1.813245e-1 1.279996 -2.274063e-1 5.757226e-2
8.317225e-2 -5.667803e-2 1.165900 -2.077111e-1 2.842895e-2
6.037494e-2 1.446467e-1 9.572939e-1 -1.448563e-1 1.844283e-3
窄带编码器EN100根据源滤波器模型来实施,源滤波器模型将输入语音信号编码为:(A)描述滤波器的一组参数;和(B)驱动所描述的滤波器产生输入语音信号的合成再现的激励信号。图12A展示语音信号的频谱包络的实例。表征此频谱包络的峰值表示声道的共振且被称为共振峰。大多数语音编码器将至少此粗略频谱结构编码为一组参数,例如滤波器系数。
图12B展示如应用于窄带信号SIL10的频谱包络的编码的基本源滤波器布置的实例。分析模块计算一组参数,所述组参数表征对应于在一时间周期(通常为十毫秒或二十毫秒)内的语音声音的滤波器。根据那些滤波器参数而配置的白化滤波器(也称为分析或预测误差滤波器)移除频谱包络,以在频谱上平坦化所述信号。所得白化信号(也称为残余)具有较少能量,且因此具有较小变化且比原始语音信号更容易编码。由残余信号的编码产生的误差也可更均匀地散布于频谱上。滤波器参数和残余通常经量化以获得在信道上的高效发射。在解码器处,根据滤波器参数而配置的合成滤波器基于残余由信号激励,以产生原始语音声音的合成版本。合成滤波器通常经配置以具有一转移函数,所述转移函数为白化滤波器的转移函数的反函数。
图13展示窄带编码器EN100的基本实施方案EN110的框图。在此实例中,线性预测编码(LPC)分析模块LPN10将窄带信号SIL10的频谱包络编码为一组线性预测(LP)系数(例如,全极点滤波器1/A(z)的系数)。分析模块通常将输入信号处理为一系列非重叠帧,其中针对每一帧计算一组新系数。帧周期一般为预期所述信号在局部稳定的周期;一常见的实例为20毫秒(等效于在8kHz的取样率下的160个样本)。在一个实例中,LPC分析模块LPN10经配置以计算一组十个LP滤波器系数以表征每个二十毫秒帧的共振峰结构。实施分析模块以将输入信号处理为一系列重叠帧也是可能的。
分析模块可经配置以直接分析每一帧的样本,或可根据开窗函数(例如,汉明窗(Hamming window))首先加权所述样本。还可在大于帧的窗(例如30毫秒窗)内执行对帧的分析。此窗可为对称的(例如5-20-5,使得其包括紧接在20毫秒帧之前和之后的5毫秒)或非对称的(例如10-20,使得其包括先前帧的最后10毫秒)。LPC分析模块通常经配置以使用Levinson-Durbin递归或Leroux-Gueguen算法来计算LP滤波器系数。在另一实施方案中,分析模块可经配置以针对每一帧计算一组倒频谱系数而不是一组LP滤波器系数。
通过量化所述滤波器参数,可显著降低编码器EN110的输出速率,其对再现质量具有相对较少的影响。线性预测滤波器系数难以有效量化且通常映射为另一表示,例如线频谱对(LSP)或线频谱频率(LSF),以用于量化和/或熵编码。在图13的实例中,LP滤波器系数到LSF变换XLN10将所述组LP滤波器系数变换成一组对应的LSF。LP滤波器系数的其它一对一表示包括:部分自相关系数;对数面积比值;导抗频谱对(IPS);和导抗频谱频率(ISF),以上均用于GSM(全球移动通信系统)AMR-WB(自适应多速率宽带)编解码器。通常,一组LP滤波器系数与一组对应的LSF之间的变换是可逆的,但实施例还包括变换并非无误差地可逆的编码器EN110的实施方案。
量化器QLN10经配置以量化所述组窄带LSF(或其它系数表示),且窄带编码器EN110经配置以将此量化的结果输出为窄带滤波器参数FPN10。此量化器通常包括向量量化器,所述向量量化器将输入向量编码为针对表或码簿中的对应向量条目的索引。
可能需要量化器QLN10并有时间噪声塑形。图14展示量化器QLN10的此实施方案QLN20的框图。针对每一帧,计算LSF量化误差向量且使LSF量化误差向量与值小于一的比例因子V40相乘。在下一帧中,在量化之前将此按比例缩放后的量化误差添加到LSF。可取决于已存在于未量化的LSF向量中的波动的量而动态地调整比例因子V40的值。举例来说,在当前LSF向量与前一LSF向量之间的差较大时,比例因子V40的值接近于零,使得几乎不执行噪声塑形。在当前LSF向量与前一LSF向量有很小差异时,比例因子V40的值接近于一。可预期所得LSF量化在语音信号改变时最小化频谱失真,且在语音信号在一个帧与另一个帧间相对恒定时最小化频谱波动。
图15展示量化器QLN10的另一噪声塑形实施方案QLN30的框图。向量量化中的时间噪声塑形的额外描述可在2006年11月30日公开的第2006/0271356号美国公开专利申请案(Vos等人)中找到。
如图13中展示,窄带编码器EN110可经配置以通过使窄带信号SIL10通过根据所述组滤波器系数而配置的白化滤波器WF10(也称为分析或预测误差滤波器)来产生残余 信号。在此特定实例中,白化滤波器WF10经实施为FIR滤波器,但也可使用IIR实施方案。此残余信号通常将含有在窄带滤波器参数FPN10中未表示的语音帧的感知上重要的信息(例如与音高相关的长期结构)。量化器QXN10经配置以计算此残余信号的量化表示以便输出为经编码的窄带激励信号XL10。此量化器通常包括将输入向量编码为针对表或码簿中的对应向量条目的索引的向量量化器。或者,此量化器可经配置以发送一个或一个以上参数,在解码器处可根据所述一个或一个以上参数动态地产生向量,而不是如稀疏码簿方法中从存储器检索。此方法用于例如代数CELP(码簿激励线性预测)等编码方案中和例如3GPP2(第三代合作伙伴计划2)EVRC(增强型可变速率编解码器)等编解码器中。
可能需要窄带编码器EN110根据将可供对应的窄带解码器使用的相同滤波器参数值来产生经编码的窄带激励信号。以此方式,所得经编码的窄带激励信号可能已在某种程度上解决那些参数值的非理想性,例如量化误差。相应地,可能需要使用将在解码器处可用的相同系数值来配置白化滤波器。在如图13中所展示的编码器EN110的基本实例中,反量化器IQN10反量化(dequantize)窄带编码参数FPN10,LSF到LP滤波器系数变换IXN10将所得值映射回到一组对应的LP滤波器系数,且此组系数用以配置白化滤波器WF10以产生由量化器QXN10量化的残余信号。
窄带编码器EN100的一些实施方案经配置以通过识别一组码簿向量中最佳地匹配所述残余信号的一码簿向量来计算经编码的窄带激励信号XL10。然而,注意到,窄带编码器EN100还可经实施以计算残余信号的量化表示,而实际上并不产生残余信号。举例来说,窄带编码器EN100还可经配置以:使用多个码簿向量来产生对应的合成信号(例如,根据一组当前滤波器参数),且选择与在感知加权域中最佳地匹配原始窄带信号SIL10的所产生信号相关联的码簿向量。
图16展示窄带解码器DN100的实施方案DN110的框图。反量化器IQXN10反量化窄带滤波器参数FPN10(在此状况下,反量化成一组LSF),且LSF到LP滤波器系数变换IXN20将LSF变换成一组滤波器系数(举例来说,如上文参看窄带编码器EN110的反量化器IQN10和变换IXN10所描述)。反量化器IQLN10反量化经编码的窄带激励信号XL10以产生经解码的窄带激励信号XLD10。基于滤波器系数和窄带激励信号XLD10,窄带合成滤波器FNS10合成窄带信号SDL10。换句话说,窄带合成滤波器FNS10经配置以根据经反量化的滤波器系数对窄带激励信号XLD10进行频谱塑形以产生窄带信号SDL10。窄带解码器DN110还将窄带激励信号XL10a提供到高频带编码器DH100,高频带编码器DH100如本文中所描述而使用窄带激励信号XL10a导出高频带激励信号 XHD10,且窄带解码器DN110将窄带激励信号XL10b提供到SHB编码器DS100,SHB编码器DS100如本文中所描述而使用窄带激励信号XL10b导出SHB激励信号XSD10。在如下文所描述的一些实施方案中,窄带解码器DN110可经配置以将与窄带信号相关的额外信息(例如频谱倾斜、音高增益和延滞和/或语音模式)提供到高频带解码器DH100和/或到SHB解码器DS100。
窄带编码器EN110和窄带解码器DN110的系统为以合成作分析(analysis-by-synthesis)的语音编解码器的基本实例。码簿激励线性预测(CELP)编码为一种风行的以合成作分析的编码,且此等编码器的实施方案可执行残余的波形编码,包括例如以下操作:从固定和自适应码簿中选择各条目、误差最小化操作,和/或感知加权操作。以合成作分析的编码的其它实施方案包括混合激励线性预测(MELP)、代数CELP(ACELP)、松弛CELP(RCELP)、规则脉冲激励(RPE)、多脉冲CELP(MPE)和向量总和激励线性预测(VSELP)编码。相关编码方法包括多频带激励(MBE)和原型波形内插(PWI)编码。标准化的以合成作分析的语音编解码器的实例包括:ETSI(欧洲电信标准学会)-GSM全速率编解码器(GSM 06.10),其使用残余激励线性预测(RELP);GSM增强型全速率编解码器(ETSI-GSM 06.60);ITU(国际电信联合会)标准11.8kb/s G.729附件E编码器;用于IS-136(一种时分多址机制)的IS(临时标准)-641编解码器;GSM自适应多速率(GSM-AMR)编解码器;和4GVTM(第四代VocoderTM)编解码器(QUALCOMMIncorporated,San Diego,CA)。窄带编码器EN110和对应的解码器DN110可根据这些技术中的任一者、或将语音信号表示为(A)描述滤波器的一组参数和(B)用以驱动所描述的滤波器再现语音信号的激励信号的任何其它语音编码技术(无论是已知的或是待开发的)而实施。
即使在白化滤波器已从窄带信号SIL10移除粗略频谱包络之后,相当大量的精细谐波结构可仍保留,尤其是针对浊音语音。图17A展示针对例如母音的浊音信号,如可由白化滤波器产生的残余信号的一实例的频谱图。在此实例中可见的周期性结构与音高相关,且同一说话者所说的不同浊音声音可具有不同的共振峰结构但类似的音高结构。图17B展示此残余信号的实例的时域图,其展示时间上的音高脉冲的序列。
通过使用一个或一个以上参数值来编码音高结构的特性,可增加编码效率和/或语音质量。音高结构的一重要特性为第一谐波的频率(也称为基本频率),其通常在60Hz到400Hz的范围内。此特性通常经编码为基本频率的倒数(也称为音高延滞)。音高延滞指示在一个音高周期中的样本的数目,且可经编码为与最小或最大音高延滞值的偏移和/或编码为一个或一个以上码簿索引。来自男性说话者的语音信号倾向于比来自女性说话 者的语音信号具有更大的音高延滞。
与音高结构相关的另一信号特性为周期性,其指示谐波结构的强度,或换句话说,信号为谐波或非谐波的程度。周期性的两个典型指示项为零点交叉和正规化自相关函数(NACF)。周期性也可由音高增益来指示,音高增益通常经编码为码簿增益(例如,经量化的自适应码簿增益)。
窄带编码器EN100可包括经配置以编码窄带信号SIL10的长期谐波结构的一个或一个以上模块。如图17C中所展示,可使用的一个典型CELP范例包括编码短期特性或粗略频谱包络的开放回路LPC分析模块,后续接着编码精细音高或谐波结构的闭合回路长期预测分析阶段。短期特性经编码为滤波器系数,且长期特性经编码为例如音高延滞和音高增益的参数值。
如由CELP编码技术编码的LPC残余通常包括固定码簿部分和自适应码簿部分。举例来说,窄带编码器EN100可经配置以输出经编码的窄带激励信号XL10,所述信号呈包括一个或一个以上固定码簿索引和对应增益值以及一个或一个以上自适应码簿增益值的形式。窄带残余信号的此量化表示的计算(例如,通过量化器QXN10)可包括选择此等索引和计算此等增益值。
在残余的长期预测分析之后保留的结构可编码为固定码簿中的一个或一个以上索引和一个或一个以上对应的固定码簿增益。可使用例如因子或组合脉冲编码等脉冲编码技术来执行固定码簿的量化。音高结构的编码还可包括对音高原型波形的内插,此操作可包括计算连续音高脉冲之间的差。针对对应于非浊音语音(其通常为类噪声且未结构化)的帧,可停用长期结构的模型化。或者,可使用经修改的离散余弦变换(MDCT)技术或其它基于变换的技术来编码LPC残余,尤其是针对普遍的音频或非语音应用(例如,音乐)。
根据如图17C中所展示的范例的窄带解码器DN110的实施方案可经配置以:在已恢复长期结构(音高或谐波结构)之后,将窄带激励信号XL10a输出到高频带解码器DH100,且/或将窄带激励信号XL10b输出到SHB解码器DS100。举例来说,此解码器可经配置以将窄带激励信号XL10a和/或XL10b输出为经编码的窄带激励信号XL10的反量化版本。当然,也有可能实施窄带解码器DN100,使得高频带解码器DH100执行经编码的窄带激励信号XL10的反量化以获得窄带激励信号XL10a,且/或使得SHB解码器DS100执行经编码的窄带激励信号XL10的反量化以获得窄带激励信号XL10b。
在根据如图17中所展示的范例的超宽带语音编码器SWE100的实施方案中,高频带编码器EH100和/或SHB编码器ES100可经配置以接收如由短期分析或白化滤波器产 生的窄带激励信号。换句话说,窄带编码器EN100可经配置以:在编码长期结构之前,将窄带激励信号XL10a输出到高频带编码器EH100,且/或将窄带激励信号XL10b输出到SHB编码器ES100。然而,可能需要高频带编码器EH100从窄带信道接收将由高频带解码器DH100接收的相同编码信息,使得由高频带编码器EH100产生的编码参数可能已在某种程度上考量所述信息中的非理想性。因此,高频带编码器EH100从将由SWB编码器SWE100输出的相同经参数化和/或经量化的经编码的窄带激励信号XL10重建构高频带激励信号XH10可为优选的。举例来说,窄带编码器EN100可经配置以将窄带激励信号XL10a输出为经编码的窄带激励信号XL10的反量化版本。此方法的一个潜在优点在于更准确地计算高频带增益因子CPH10b(下文描述)。
同样地,可能需要SHB编码器ES100从窄带信道接收将由SHB解码器DS100接收的相同编码信息,使得由SHB编码器ES100产生的编码参数可能已在某种程度上考量所述信息中的非理想性。因此,SHB编码器ES100从将由SWB编码器SWE100输出的相同经参数化和/或经量化的经编码的窄带激励信号XL10重建构SHB激励信号XS10可为优选的。举例来说,窄带编码器EN100可经配置以将窄带激励信号XL10b输出为经编码的窄带激励信号XL10的反量化版本。此方法的一个潜在优点在于更准确地计算SHB增益因子CPS10b(下文描述)。
除了表征窄带信号SIL10的短期和/或长期结构的参数外,窄带编码器EN100还可产生与窄带信号SIL10的其它特性相关的参数值。可将这些值(可经合适地量化以便由SWB语音编码器SWE100输出)包括在窄带滤波器参数FPN10当中或分离地输出。高频带编码器EH100还可经配置以根据这些额外参数中的一者或一者以上计算高频带编码参数CPH10(例如,在反量化之后)。在SWB解码器SWD100处,高频带解码器DH100可经配置以经由窄带解码器DN100接收所述参数值(例如,在反量化之后)。或者,高频带解码器DH100可经配置以直接接收(且可能反量化)所述参数值。同样地,SHB编码器ES100可经配置以根据这些额外参数中的一者或一者以上计算SHB编码参数CPS10(例如,在反量化之后)。在SWB解码器SWD100处,SHB解码器DS100可经配置以经由窄带解码器DN100接收所述参数值(例如,在反量化之后)。或者,SHB解码器DS100可经配置以直接接收(且可能反量化)所述参数值。
在额外窄带编码参数的一个实例中,窄带编码器EN100产生频谱倾斜值和每一帧的语音模式参数。频谱倾斜与通带上的频谱包络的形状相关,且通常由经量化的第一反射系数表示。针对大多数浊音声音,频谱能量随着频率增加而减少,使得第一反射系数为负的且可接近-1。大多数非浊音声音具有平坦的频谱,使得第一反射系数接近于零,或 具有在高频率下具有更大能量的频谱,使得第一反射系数为正的且可接近+1。
语音模式(也称为发声模式)指示当前帧表示浊音语音或是非浊音语音。此参数可具有二进制值,所述值基于帧的周期性的一个或一个以上测量(例如零点交叉、NACF、音高增益)和/或语音活动性,例如此测量与阈值之间的关系。在其它实施方案中,语音模式参数具有一个或一个以上其它状态来指示例如以下模式:安静或背景噪声,或在安静与浊音语音之间的转变。
确定SHB信号SIS10的LPC分析的阶数并非不重要的任务。一般来说,因为SHB信号SIS10具有较大带宽(例如,7kHz),所以可能需要相对较高阶的LPC系数以便支持SWB信号SISW10的重建构,并且感知结果令人满意。此实施方案的一实例使用传统线性预测编码(LPC)分析获得八个频谱参数来描述SHB信号SIS10的频谱包络,且使用类似分析获得六个频谱参数来描述高频带信号SIH10的频谱包络。为获得高效编码,将这些预测系数转换成线频谱频率(LSF)且接着使用如本文中所描述的向量量化器(例如,使用时间噪声塑形向量量化器)对其进行量化。
图18展示高频带编码器EH100的实施方案EH110的框图,且图19展示SHB编码器ES100的实施方案ES110的框图。高频带编码器EH100和SHB编码器ES100可经配置以具有类似于窄带编码器EN110中的LPC分析路径的LPC分析路径。举例来说,窄带编码器EN110包括LPC分析路径(包括量化和反量化)LPN10-XLN10-QLN10-IQN10-IXN10,而高频带编码器EH110包括类似路径LPH10-XFH10-QLH10-IQH10-IXH10,且SHB编码器EH110包括类似路径LPS10-XFS10-QLS10-IQS10-IXS10。因而,编码器EN100、EH100和ES100中的两者或两者以上可经配置而在不同时间以不同相应配置来使用相同LPC分析处理路径(可能包括量化,且可能还包括反量化)。高频带编码器EH110包括合成滤波器FSH10,合成滤波器FSH10经配置以根据高频带激励信号XH10和由变换IXH10产生的LPC参数来产生经合成的高频带信号SYH10,且SHB编码器ES110包括合成滤波器FSS10,合成滤波器FSS10经配置以根据SHB激励信号XS10和由变换IXS10产生的LPC参数来产生经合成的SHB信号SYS10。
针对不同类型的语音帧,可在高频带和SHB量化过程中分配不同数目个位。由于安静周期常常不含有很多的高频带或SHB成分,故在安静周期中不发送高频带或SHB信息可节省总位速率要求。也可在VQ训练和编码过程期间以不同方式处理浊音帧和非浊音帧。一般来说,当对码簿大小和码簿搜索复杂性没有很多约束时,单阶段大码簿VQ可由高频带编码器EH100和/或由SHB编码器ES100使用。另一方面,如果对存储 器和量化过程的复杂性有严格约束,那么多阶段和/或分割式VQ可由高频带编码器EH100和/或由SHB编码器ES100采用。
如图19中展示,SHB编码器ES110包括经配置以从窄带激励信号XL10b产生SHB激励信号XS10的SHB激励产生器XGS10。如图21中展示,SHB解码器DS110还包括经配置以从窄带激励信号XL10b产生SHB激励信号XS10的SHB激励产生器XGS10的例子。图22A展示SHB激励产生器XGS10的实施方案XGS20的框图,所述实施方案XGS20经配置以从窄带激励信号XL10b产生SHB激励信号XS10。产生器XGS20包括频谱扩展器SX10、SHB分析滤波器组FBS10和自适应白化滤波器AW10。
频谱扩展器SX10经配置以将窄带激励信号XL10b的频谱扩展到由SHB信号SIS10占据的频率范围中。频谱扩展器SX10可经配置以将无记忆的非线性函数应用于窄带激励信号XL10b,例如绝对值函数(也称为全波整流)、半波整流、求平方、求立方或截割。频谱扩展器SX10可经配置以在应用非线性函数之前将窄带激励信号XL10b升高取样(例如,达到32kHz的取样率,或达到等于或更接近于SHB信号SIS10的取样率的取样率)。接着将分析滤波器组FBS10(其可为用以产生高频带激励信号的相同高频带分析滤波器组(例如,HB分析处理路径PAH10、PAH12或PAH20))应用于经频谱扩展的信号以产生具有所要取样率(例如,fSS或14kHz)的信号。
经频谱扩展的信号很可能随着频率增加而具有振幅的显著降低。白化滤波器WF20(例如,自适应第六阶线性预测滤波器)可用以在频谱上平坦化经谐波扩展的结果以产生SHB激励信号XS10。SHB激励产生器XGS20的另外实施方案可经配置以混合经谐波扩展的信号与噪声信号,其可根据窄带信号SIL10或窄带激励信号XL10b的时域包络而经时间调制。
应注意,在编码器处和解码器两者处产生SHB激励。为了使解码过程与编码过程一致,可能需要编码器和解码器产生相同SHB激励。可通过使用来自可供编码器和解码器两者使用的经编码的窄带激励信号XL10的信息在编码器处和解码器两者处产生SHB激励来实现此结果。举例来说,经反量化的窄带激励信号可在编码器处和解码器两者处用作到SHB激励产生器XGS10的输入XL10b。
当已使用稀疏码簿(条目大多为零值的码簿)来计算残余的量化表示时,合成语音信号中可能出现假影。尤其当窄带激励信号已以低位速率编码时,可能出现码簿稀疏。由码簿稀疏引起的假影通常在时间上为准周期性的,且大多在高于3kHz时发生。因为人耳在较高频率下具有较佳时间分辨率,所以这些假影在高频带和/或超高频带中可能更引人注意。
实施例包括经配置以执行抗稀疏滤波的高频带激励产生器XGS10的实施方案。图22B展示SHB激励产生器XGS20的实施方案XGS30的框图,所述实施方案XGS30包括经布置以对窄带激励信号XL10b进行滤波的抗稀疏滤波器ASF10。在一个实例中,将抗稀疏滤波器ASF10实施为具有的形式的全通滤波器。
抗稀疏滤波器ASF10可经配置以改变其输入信号的相位。举例来说,可能需要抗稀疏滤波器ASF10经配置且布置以使得SHB激励信号XS10的相位随机化,或以其它方式随时间过去而更均匀地分布。还可能需要抗稀疏滤波器ASF10的响应在频谱上为平坦的,以使得经滤波的信号的量值频谱无明显改变。在一个实例中,抗稀疏滤波器ASF10经实施为具有根据以下表达式的转移函数的全通滤波器:
H ( z ) = - 0.7 + z - 4 1 - 0.7 z - 4 × 0.6 + z - 6 1 + 0.6 z - 6 × 0.5 + z - 8 1 + 0.5 z - 8 .
此滤波器的一个作用可在于展开输入信号的能量,以使得能量不再集中于仅少许样本中。
由码簿稀疏引起的假影通常对于类噪声信号更显著,其中残余包括较少音高信息,且对于背景噪声中的语音也更显著。在激励具有长期结构的情况下,稀疏通常引起较少假影,且实际上相位修改可在浊音信号中引起噪度。因此,可能需要配置抗稀疏滤波器ASF10以对非浊音信号进行滤波且使至少一些浊音信号在不发生改变的情况下通过。可基于例如发声、周期性和/或频谱倾斜的因子来选择使用ASF滤波器ASF10。非浊音信号的特征在于低的音高增益(例如,经量化的窄带自适应码簿增益)和接近于零或为正数的频谱倾斜(例如,经量化的第一反射系数),接近于零或为正数的频谱倾斜指示频谱包络为平坦的或随频率增加而向上倾斜。抗稀疏滤波器ASF10的典型实施方案经配置以对非浊音声音(例如,如由频谱倾斜的值所指示)进行滤波,以便在音高增益低于阈值(或者,不大于阈值)时对浊音声音进行滤波,且在其它情况下使信号在不发生改变的情况下通过。
抗稀疏滤波器ASF10的另外实施方案包括两个或两个以上滤波器,所述滤波器经配置以具有不同的最大相位修改角(例如,至多为180度)。在此状况下,抗稀疏滤波器ASF10可经配置以根据音高增益(例如,经量化的自适应码簿或LTP增益)的值在这些组成滤波器中进行选择,以使得较大的最大相位修改角用于具有较低的音高增益值的帧。抗稀疏 滤波器ASF10的一实施方案还可包括经配置以在频谱的较大或较小范围内修改相位的不同组成滤波器,以使得经配置以在输入信号的较宽频率范围内修改相位的滤波器用于具有较低的音高增益值的帧。
如图18中展示,高频带编码器EH110包括经配置以从窄带激励信号XL10a产生高频带激励信号XH10的高频带激励产生器XGH10。如图20中展示,高频带解码器DH110还包括经配置以从窄带激励信号XL10a产生高频带激励信号XH10的高频带激励产生器XGH10的例子。高频带激励产生器XGH10可以与如本文中所描述的SHB激励产生器XGS20或XGS30相同的方式来实施,其中频谱扩展器SX10经配置以升高取样到16kHz而非32kHz。高频带激励产生器XGH10的额外描述可在(例如)2010年10月的文献3GPP2C.S0014-D,v3.0的章节4.3.3.3(第4.21页到第4.22页)“Enhanced Variable RateCodec,Speech Service Options 3,68,70,73 for Wideband Spread Spectrum DigitalSystems”(在www.3gpp2.org线上可得)中找到。
为了准确再现经编码的语音信号,可能需要经合成的SWB信号SOSW10的高频带部分与窄带部分的电平之间的比率类似于原始SWB信号SISW10的高频带部分与窄带部分的电平之间的比率。除了如由SHB编码参数CPS10表示的频谱包络外,SHB编码器ES100还可经配置以通过规定时间或增益包络而表征SHB信号SIS10。如图19中展示,SHB编码器ES110包括SHB增益因子计算器GCS10,SHB增益因子计算器GCS10经配置且布置以根据SHB信号SIS10与经合成的SHB信号SYS10之间的关系(例如,所述两个信号在帧或帧的某一部分上的能量之间的差或比率)来计算一个或一个以上增益因子。在SHB编码器ES110的其它实施方案中,SHB增益计算器GCS10可同样地配置但改为经布置以根据SHB信号SIS10与窄带激励信号XL10b或SHB激励信号XS10之间的此时变关系来计算增益包络。
窄带激励信号XL10b和SHB信号SIS10的时间包络很可能为类似的。因此,编码基于SHB信号SIS10与窄带激励信号XL10b(或从其导出的信号,例如SHB激励信号XS10或经合成的SHB信号SYS10)之间的关系的增益包络将通常比编码仅基于SHB信号SIS10的增益包络更有效。在一典型实施方案中,SHB编码器ES110的量化器QGS10经配置以将量化索引(例如,具有8、10、12、14、16、18或20个位)和正规化因子输出为每一帧的SHB增益因子CPS10b,所述量化索引规定十个子帧增益因子(例如,用于如图23B中展示的十个子帧中的每一者)。
SHB增益因子计算器GCS10可经配置以通过根据SHB信号SHB10与经合成的SHB信号SYS10的相对能量计算对应子帧的增益值来执行增益因子计算。计算器GCS10可 经配置以计算相应信号的对应子帧的能量(例如,将能量计算为相应子帧的样本的平方的总和)。计算器GCS10可接着经配置以将所述子帧的增益因子计算为那些能量的比率的平方根(例如,将增益因子计算为在所述子帧上SHB信号SIS10的能量与经合成的SHB信号SYS10的能量的比率的平方根)。
可能需要SHB增益因子计算器GCS10经配置以根据开窗函数来计算子帧能量。举例来说,计算器GCS10可经配置以将相同开窗函数应用于SHB信号SIS10和经合成的SHB信号SYS10,计算相应窗的能量,且将所述子帧的增益因子计算为所述能量的比率的平方根。一旦已计算出帧的子帧增益因子,则可能需要计算器GCS10计算用于所述帧的正规化因子且根据所述正规化因子来正规化所述子帧增益因子。
可能需要应用与相邻子帧重叠的开窗函数。举例来说,产生可以重叠相加方式应用的增益因子的开窗函数可帮助减小或避免子帧之间的不连续性。在一个实例中,SHB增益因子计算器GCS10经配置以应用如图23C中所展示的梯形开窗函数,其中窗与两个相邻子帧中的每一者重叠达一毫秒。SHB增益因子计算器GCS10的其它实施方案可经配置以应用具有不同重叠周期和/或不同窗形状(例如,矩形、汉明)的开窗函数,窗形状可为对称或非对称的。SHB增益因子计算器GCS10的实施方案还可能经配置以将不同开窗函数应用于一帧内的不同子帧,且/或一帧还可能包括具有不同长度的子帧。
SHB编码器可经配置以通过比较经合成的SHB信号与原始SHB信号而确定关于增益因子的旁侧信息。解码器接着使用这些增益来恰当地按比例缩放经合成的SHB信号。
虽然可预期较高阶的SHB LPC系数以充分细节来模型化频谱的精细结构,但还可能需要使用相对较高的时域分辨率来再现良好的SWB信号。在如上文所描述的一个实施方案中,针对输入语音信号的每个20毫秒帧,计算十个时间增益参数,所述参数各自表示用于对应的两毫秒子帧的比例因子(例如,如图23B中所展示)。可通过比较输入SHB信号的每一子帧中的能量与未按比例缩放的经合成的SHB激励信号的对应子帧中的能量来计算增益参数。可使用仅选择特定子帧的样本的时间上的矩形窗,或者扩展到前一和/或后一子帧中的开窗函数(例如,如图23C中所展示)来执行每一子帧增益的计算。还可能需要计算每一帧的帧增益来调整总语音能量级。为了改进后续量化过程,可通过对应的帧增益值来正规化每一子帧增益向量。还可调整帧增益值以补偿子帧增益正规化。
可能需要配置SHB增益因子计算器GCS10以响应于增益因子中随时间过去的较大变化而执行增益因子的衰减,所述较大变化可指示经合成的信号与原始信号有极大不同。或者或另外,可能需要配置SHB增益因子计算器GCS10以执行增益因子的时间平 滑化(例如,以减少可引起声假影的变化)。
同样地,窄带激励信号XL10a和高频带信号SIH10的时间包络很可能为类似的。如图18中所展示,高频带编码器EH100可经实施以包括高频带增益因子计算器GCH10,高频带增益因子计算器GCH10经配置且布置以根据高频带信号SIH10与窄带激励信号XL10a(或基于其的信号,例如经合成的高频带信号SYH10或高频带激励信号XH10)之间的关系来计算一个或一个以上增益因子。计算器GCH10可以与计算器GCS10相同的方式来实施,只是可能需要计算器GCH10与计算器GCS10相比来说针对每帧较少的子帧来计算增益因子。在一典型实施方案中,高频带编码器EH110的量化器QGH10经配置以将量化索引(例如,具有八个到十二个位)和正规化因子输出为每一帧的高频带增益因子CPH10b,所述量化索引规定五个子帧增益因子(例如,用于如图23A中所展示的五个子帧中的每一者)。
图20展示高频带解码器DH100的实施方案DH110的框图。高频带解码器DH110包括如本文所描述的高频带激励产生器XGH10的例子,其经配置以基于窄带激励信号XL10a产生高频带激励信号XH10。解码器DH110包括反量化器IQH20,反量化器IQH20经配置以反量化高频带滤波器参数CPH10a(在此实例中,反量化成一组LSF),且LSF到LP滤波器系数变换IXH20经配置以将LSF变换成一组滤波器系数(例如,如上文参看窄带解码器DN110的反量化器IQXN10和变换IXN20所描述)。如上文所提及,在其它实施方案中,可使用不同的系数组(例如,倒频谱系数)和/或系数表示(例如,ISP)。高频带合成模块FSH20经配置以根据高频带激励信号XH10和所述组滤波器系数产生经合成的高频带信号。针对高频带编码器包括合成滤波器的系统(例如,如在上文描述的编码器EH110的实例中),可能需要实施高频带合成模块FSH20以使其与所述合成滤波器具有相同响应(例如,相同转移函数)。
高频带解码器DH110还包括:反量化器IQGH10,其经配置以反量化高频带增益因子CPH10b;和增益控制元件GH10(例如,乘法器或放大器),其经配置且布置以将经反量化的增益因子应用于经合成的高频带信号以产生高频带信号SDH10。针对一帧的增益包络由一个以上增益因子规定的状况,增益控制元件GH10可包括经配置以可能根据可与由对应的高频带编码器的增益计算器(例如,高频带增益计算器GCH10)所应用的开窗函数相同或不同的开窗函数而将增益因子应用于相应子帧的逻辑。类似地,增益控制元件GH10可包括经配置以在将增益因子应用于信号之前将正规化因子应用于增益因子的逻辑。在高频带解码器DH110的其它实施方案中,增益控制元件GH10经类似地配置但改为经布置以将经反量化的增益因子应用于窄带激励信号XL10a或应用于高频带激励 信号XH10。
如上文所提及,可能需要在高频带编码器和高频带解码器中获得相同状态(例如,通过在编码期间使用经反量化的值)。因此,在根据此实施方案的编码系统中可能需要确保在编码器和解码器的高频带激励产生器中的对应噪声产生器的相同状态。举例来说,此实施方案的高频带激励产生器可经配置以使得噪声产生器的状态为已在同一帧内编码的信息(例如,窄带滤波器参数FPN10或其部分,和/或经编码的窄带激励信号XL10或其部分)的确定性函数。
图21展示SHB解码器DS100的实施方案DS110的框图。SHB解码器DS110包括如本文所描述的SHB激励产生器XGS10的例子,其经配置以基于窄带激励信号XL10b产生SHB激励信号XS10。解码器DS110包括反量化器IQS20,反量化器IQS20经配置以反量化SHB滤波器参数CPS10a(在此实例中,反量化成一组LSF),且LSF到LP滤波器系数变换IXS20经配置以将LSF变换成一组滤波器系数(例如,如上文参看窄带解码器DN110的反量化器IQXN10和变换IXN20所描述)。如上文所提及,在其它实施方案中,可使用不同得系数组(例如,倒频谱系数)和/或系数表示(例如,ISP)。SHB合成模块FSS20经配置以根据SHB激励信号XS10和所述组滤波器系数产生经合成的SHB信号。针对SHB编码器包括合成滤波器的系统(例如,如在上文描述的编码器ES110的实例中),可能需要实施SHB合成模块FSS20以使其与所述合成滤波器具有相同响应(例如,相同转移函数)。
SHB解码器DS110还包括:反量化器IQGS10,其经配置以反量化SHB增益因子CPS10b;和增益控制元件GS10(例如,乘法器或放大器),其经配置且布置以将经反量化的增益因子应用于经合成的SHB信号以产生SHB信号SDS10。针对一帧的增益包络由一个以上增益因子规定的状况,增益控制元件GS10可包括经配置以可能根据可与由对应的SHB编码器的增益计算器(例如,SHB增益计算器GCS10)所应用的开窗函数相同或不同的开窗函数而将增益因子应用于相应子帧的逻辑。类似地,增益控制元件GS10可包括经配置以在将增益因子应用于信号之前将正规化因子应用于增益因子的逻辑。在SHB解码器DS110的其它实施方案中,增益控制元件GS10经类似地配置但改为经布置以将经反量化的增益因子应用于窄带激励信号XL10b或应用于SHB激励信号XS10。
如上文所提及,可能需要在SHB编码器和SHB解码器中获得相同状态(例如,通过在编码期间使用经反量化的值)。因此,在根据此实施方案的编码系统中可能需要确保在编码器和解码器的SHB激励产生器中的对应噪声产生器的相同状态。举例来说,此实施方案的SHB激励产生器可经配置以使得噪声产生器的状态为已在同一帧内编码的信 息(例如,窄带滤波器参数FPN10或其部分和/或经编码的窄带激励信号XL10或其部分)的确定性函数。
本文中描述的元件的量化器中的一者或一者以上(例如,量化器QLN10、QLH10、QLS10、QGH10或QGS10)可经配置以执行分类向量量化。举例来说,此量化器可经配置以基于已在窄带信道和/或高频带信道中的同一帧内编码的信息来选择一组码簿中的一者。此技术通常以额外码簿存储为代价而增加编码效率。
经编码的窄带激励信号XL10可描述时间上扭曲的信号(例如,通过松弛CELP或其它音高规则化技术)。举例来说,可能需要根据低频率次频带的音高结构的模型来时间扭曲窄带信号SIL10或基于窄带残余的信号。在此状况下,可能需要配置高频带编码器EH100以基于在经编码的窄带激励信号中描述的时间扭曲(例如,如应用于窄带信号或应用于残余)且还基于低频率次频带与高频带信号SIH10的取样率的差而在增益因子计算之前使高频带信号SIH10偏移。同样地,可能需要配置SHB编码器ES100以基于在经编码的窄带激励信号中描述的时间扭曲(例如,如应用于窄带信号或应用于残余)且还基于低频率次频带与SHB信号SIS10的取样率的差而在增益因子计算之前使SHB信号SIS10偏移。此时间扭曲可包括用于经时间扭曲的信号的至少两个连续子帧中的每一者的不同时间偏移,且/或可包括将计算出的时间偏移舍位到整数样本值。信号SIH10或SIS10的时间扭曲可在所述信号的对应LPC分析的上游或下游执行。
经编码的信号将很可能携载于包交换式网络上。针对电路交换式操作,可能需要编解码器在安静周期期间实施不连续发射(DTX)以减小带宽。
根据第一个一般配置的方法包括基于来自语音信号的第一频带的信息计算第一激励信号(例如,窄带激励信号XL10)。此方法还包括基于来自第一激励信号的信息计算用于语音信号的第二频带的第二激励信号(例如,SHB激励信号XS10)。在此方法中,第一频带与第二频带分开一距离,所述距离为第一频带的宽度的至少一半。在一个实例中,激励信号包括具有为至少3000Hz的频率的分量,且第二激励信号包括具有不大于8kHz的频率的分量。在另一实例中,第一频带与第二频带分开至少2500Hz。在如本文中描述的实施方案中,第一频带从50Hz延伸到3500Hz,且第二频带从7kHz延伸到14kHz。
根据第二个一般配置的方法包括基于来自语音信号的第一频带的信息计算第一激励信号(例如,窄带激励信号XL10)。此方法还包括基于来自第一激励信号的信息计算用于语音信号的第二频带的第二激励信号(例如,SHB激励信号XS10)。在此方法中,第二激励信号包括在第一频率分量和第二频率分量中的每一者处的能量,且这些分量分开一距离,所述距离为第一激励信号的取样率的至少百分之五十。在另一实例中,第二激励 信号包括在8000Hz到8500Hz和13,000Hz到13,500Hz的范围内的能量。在如本文中描述的实施方案中,第一激励信号的取样率为8kHz,且第二激励信号包括在7kHz的范围(例如,从7kHz到14kHz)内的分量处的能量。
根据第三个一般配置的方法包括基于来自语音信号的第一频带的信息计算第一激励信号(例如,窄带激励信号XL10)。此方法还包括:基于来自第一激励信号的信息计算用于语音信号的第二频带的第二激励信号(例如,高频带激励信号),和基于来自第一激励信号的信息计算用于语音信号的第三频带的第三激励信号(例如,SHB激励信号XS10)。在此方法中,第二频带与第一频带不同(但可重叠),第三频带与第二频带不同(但可重叠),且第三频带与第一频带分开。在一个实例中,计算第二激励信号包括将第一激励信号的频谱扩展到第二频带中,且计算第三激励信号包括将第一激励信号的频谱扩展到第三频带中。在另一实例中,第二频带包括5kHz与6kHz之间的频率,且第三频带包括10kHz与11kHz之间的频率。在如本文中所描述的实施方案中,第二激励信号从3500Hz延伸到7kHz,且第三激励信号从7kHz延伸到14kHz。
根据第四个一般配置的方法包括基于来自语音信号的第一频带的信息计算第一激励信号(例如,窄带激励信号XL10)。此方法还包括:基于来自第一激励信号的信息计算用于语音信号的第二频带的第二激励信号(例如,高频带激励信号),和基于来自第一激励信号的信息计算用于语音信号的第三频带的第三激励信号(例如,SHB激励信号XS10)。在此方法中,第二频带与第一频带不同(但可重叠),第三频带与第二频带不同(但可重叠),且第三频带与第一频带分开。
此方法包括计算第一多个(m个)增益因子,所述第一多个(m个)增益因子描述(A)基于来自第一频带的信息的信号的帧与(B)基于来自第二激励信号的信息的信号的对应帧之间的关系。此方法还包括计算第二多个(n个)增益因子,所述第二多个(n个)增益因子描述(A)基于来自第一频带的信息的信号的所述帧与(B)基于来自第三激励信号的信息的信号的对应帧之间的关系,其中n大于m。
在一个实例中,第一多个(m个)增益因子中的每一者对应于m个子帧中的一者,且第二多个(n个)增益因子中的每一者对应于n个子帧中的一者。在另一实例中,计算第一多个(m个)增益因子包括根据第一增益帧值正规化第一多个(m个)增益因子,且计算第二多个(n个)增益因子包括根据第二增益帧值正规化第二多个(n个)增益因子。在如本文中所描述的实施方案中,m等于五且n等于十。
图24A展示根据一般配置的处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的方法M100的流程图。方法M100包括: 对所述音频信号进行滤波以获得窄带信号和超高频带信号的任务T100(例如,如本文中参考滤波器组FB100所描述)、基于来自所述窄带信号的信息计算经编码的窄带激励信号的任务T200(例如,如本文中参考窄带编码器EN100所描述),和基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号的任务T300(例如,如本文中参考SHB编码器ES100所描述)。方法M100还包括基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数的任务T400(例如,如本文中参考SHB增益因子计算器GCS100所描述)。在此方法中,所述窄带信号基于所述低频率次频带中的所述频率成分,且所述超高频带信号基于所述高频率次频带中的所述频率成分。在此方法中,所述低频率次频带的宽度为至少两千赫兹,且所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半。方法M100还可包括通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算多个增益因子的任务。
图24B展示根据一般配置的用于处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的设备MF100的框图。设备MF100包括:用于对所述音频信号进行滤波以获得窄带信号和超高频带信号的装置F100(例如,如本文中参考滤波器组FB100所描述)、用于基于来自所述窄带信号的信息计算经编码的窄带激励信号的装置F200(例如,如本文中参考窄带编码器EN100所描述),和用于基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号的装置F300(例如,如本文中参考SHB编码器ES100所描述)。设备MF100还包括用于基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数的装置F400(例如,如本文中参考SHB增益因子计算器GCS100所描述)。在此设备中,所述窄带信号基于所述低频率次频带中的所述频率成分,且所述超高频带信号基于所述高频率次频带中的所述频率成分。在此设备中,所述低频率次频带的宽度为至少两千赫兹,且所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半。设备MF100还可包括用于通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算多个增益因子的装置。
本文中所揭示的方法和设备一般可应用于任何收发和/或音频感测应用中,尤其是此等应用的移动或另外的便携式例子。举例来说,本文中所揭示的配置的范围包括驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法和设备可驻留于使用所属领域的技术人员所已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线 和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道使用IP话音(VoIP)的系统。
明确预期且特此揭示,本文中所揭示的通信装置可适于用于包交换式网络(例如,根据例如VoIP的协议来布置以携载音频发射的有线和/或无线网络)和/或电路交换式网络中。还明确预期且特此揭示,本文中所揭示的通信装置可适于用于窄带编码系统(例如,编码约四千赫兹或五千赫兹的音频频率范围的系统)中和/或用于宽带编码系统(例如,编码大于五千赫兹的音频频率的系统)中,所述系统包括全频带宽带编码系统和分频带宽带编码系统。
提供本文中描述的配置的呈现以使任何所属领域的技术人员能够制造或使用本文中所揭示的方法和其它结构。本文中展示且描述的流程图、框图和其它结构仅为实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理也可应用于其它配置。因此,本发明并不希望限于上文所展示的配置,而是应被赋予与在本文中(包括在如所申请的所附权利要求书中,所附权利要求书形成原始揭示内容的一部分)以任何方式揭示的原理和新颖特征相一致的最广范围。
所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,在以上描述全篇中可能提及的数据、指令、命令、信息、信号、位和符号可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示。
对于如本文中所揭示的配置的实施方案的重要设计要求可包括最小化处理延迟和/或计算复杂性(通常以每秒百万指令数(million of instructions per second)或MIPS来测量),尤其是对于计算密集型应用,例如压缩型音频或视听信息(例如,根据压缩格式编码的文件或串流,例如本文中所识别的实例中的一者)的播放或用于宽带通信(例如,以高于八千赫兹(例如,12kHz、16kHz、44.1kHz、48kHz或192kHz)的取样率进行的话音通信)的应用。
如本文中描述的多麦克风处理系统的目标可包括:实现10dB到12dB的总噪声减小、在所要的说话者移动期间保持话音音量和音色、获得已将噪声移动到背景中的感知而不是积极噪声移除、语音去混响(dereverberation),和/或启用后处理选项(例如,频谱遮蔽和/或基于噪声估计的另一频谱修改操作,例如频谱减法或文纳滤波(Wienerfiltering))以获得更积极的噪声减小。
如本文中揭示的设备的实施方案的各种处理元件(例如,编码器SWE100和解码器SWD100以及编码器SWE100和解码器SWD100的元件)可体现于认为适用于预期应用的硬件、软件和/或固件的任何组合中。举例来说,可将此等元件制造为驻留于(例如)同 一芯片上或一芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例为逻辑元件(例如晶体管或逻辑门)的固定或可编程阵列,且这些元件中的任一者可实施为一个或一个以上此等阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同的一个或一个以上阵列内。此阵列或此等阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。
本文中所揭示的设备的各种实施方案的一个或一个以上元件(例如,编码器SWE100和解码器SWD100以及编码器SWE100和解码器SWD100的元件)还可整体地或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以执行于一个或一个以上固定或可编程逻辑元件阵列上,例如微处理器、嵌式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文中所揭示的设备的一实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也称为“处理器”),且这些元件中的任何两者或两者以上乃至全部可实施于相同的此计算机或此等计算机内。
可将如本文中所揭示的处理器或用于处理的其它装置制造为驻留于(例如)同一芯片上或一芯片组中的两个或两个以上芯片当中的一个或一个以上电子和/或光学装置。此装置的一个实例为逻辑元件(例如晶体管或逻辑门)的固定或可编程阵列,且这些元件中的任一者可实施为一个或一个以上此等阵列。此阵列或此等阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。此等阵列的实例包括固定或可编程逻辑元件阵列,例如微处理器、嵌式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中所揭示的处理器或用于处理的其它装置还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文中描述的处理器来执行并非与方法M100(或如参考本文中描述的设备或装置的操作所揭示的另一种方法)的实施方案的程序直接相关的任务,或执行并非与方法M100的实施方案的程序直接相关的的其它指令集,例如与嵌入有所述处理器的装置或系统(例如,话音通信装置)的另一操作相关的任务。还有可能由音频感测装置的处理器执行如本文中所揭示的方法的一部分且在一个或一个以上其它处理器的控制下执行所述方法的另一部分。
所属领域的技术人员将了解,可将结合本文中揭示的配置所描述的各种说明性模块、逻辑块、电路和测试和其它操作实施为电子硬件、计算机软件或两者的组合。可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、 离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中揭示的配置的任何组合来实施或执行此等模块、逻辑块、电路和操作。举例来说,此配置可至少部分地实施为硬连线电路,实施为制造于专用集成电路中的电路配置,或实施为载入到非易失性存储器中的固件程序或作为机器可读代码从数据存储媒体所载入或载入到数据存储媒体中的软件程序,此代码为可由逻辑元件阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规的处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、结合DSP核心的一个或一个以上微处理器,或任何其它此类配置。软件模块可驻留于例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如快闪RAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM (EEPROM)、寄存器、硬盘、可装卸盘或CD-ROM等非暂时性存储媒体中;或驻留于此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代例中,存储媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代例中,处理器和存储媒体可作为离散组件而驻留于用户终端中。
应注意,可通过例如处理器等逻辑元件阵列来执行本文中所揭示的各种方法(例如,方法M100和参考本文中描述的各种设备的操作所揭示的其它方法),且可将如本文中所描述的设备的各种元件部分地实施为经设计以执行于此阵列上的模块。如本文中所使用,术语“模块”或“子模块”可指代呈软件、硬件或固件形式的包括计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或系统可组合成一个模块或系统,且一个模块或系统可分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令来实施时,过程的要素基本上为用以执行相关任务的代码片段,例如以常式、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包括源代码、组合语言码、机器码、二进制码、固件、宏代码、微代码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列,和此等实例的任何组合。程序或代码片段可存储于处理器可读存储媒体中或通过体现于载波中的计算机数据信号经由发射媒体或通信链路来发射。
本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文中所列出的一个或一个以上计算机可读存储媒体的有形计算机可读特征中)为可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包括可存储或传递信息的任何媒体,包括 易失性、非易失性、可装卸和非可装卸存储媒体。计算机可读媒体的实例包括电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储器、CD-ROM/DVD或其它光学存储器、硬盘,或可用以存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路,或可用以携载所要信息且可存取的任何其它媒体。计算机数据信号可包括可经由例如电子网络信道、光纤、空中、电磁、RF链路等发射媒体来传播的任何信号。代码片段可经由例如因特网或企业内部网络等计算机网络下载。在任何状况下,本发明的范围不应解释为受此等实施例限制。
本文中描述的方法的任务中的每一者可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。在如本文中所揭示的方法的一实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行方法的各种任务中的一者、一者以上乃至全部。也可将所述任务中的一者或一者以上(可能全部)实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述代码可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中所揭示的方法的一实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话)或具有此通信能力的其它装置内执行所述任务。此装置可经配置以与电路交换式网络和/或包交换式网络通信(例如,使用例如VoIP等一种或一种以上协议)。举例来说,此装置可包括经配置以接收和/或发射经编码的帧的RF电路。
明确揭示,本文中所揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文中所描述的各种设备可包括于此装置内。典型的实时(例如,线上)应用为使用此移动装置进行的电话通话。
在一个或一个以上示范性实施例中,本文中描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么此等操作可作为一个或一个以上指令或代码存储于计算机可读媒体上或经由计算机可读媒体发射。术语“计算机可读媒体”包括计算机可读存储媒体和通信(例如,发射)媒体两者。作为实例且非限制,计算机可读存储媒体可包含存储元件的阵列,例如半导体存储器(其可包括(但不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储器;和/或磁盘存储器或其它磁性存储装置。此类存储媒体可存储呈可由计算机存取的指令或数据结构的形式的信息。通信媒体可包含可用以携载呈指令或数据结构的形式且可由计算机存取的所要程序代码的任何媒体,包括促进计算机程序从一处 传递到另一处的任何媒体。并且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或无线技术(例如红外线、无线电和/或微波)而从一网站、服务器或其它远程源发射软件,那么同轴缆线、光纤缆线、双绞线、DSL或无线技术(例如红外线、无线电和/或微波)包括于媒体的定义中。如本文中所使用,磁盘和光盘包括紧密光盘(CD)、激光光盘、光学光盘、数字化通用光盘(DVD)、软性磁盘和Blu-ray DiscTM(Blu-Ray Disc Association,Universal City,CA),其中磁盘通常以磁性方式再现数据,而光盘通过激光以光学方式再现数据。上述各物的组合也应包括在计算机可读媒体的范围内。
如本文中描述的声信号处理设备可并入到电子装置(例如通信装置)中,所述电子装置接受语音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离。许多应用可受益于增强清楚的所要声音或分离清楚的所要声音与源自多个方向的背景声音。此等应用可包括并有例如话音辨识和检测、语音增强和分离、话音启动式控制及其类似者的能力的电子或计算装置中的人机接口。可能需要实施此声信号处理设备以适合于仅提供有限处理能力的装置中。
可将本文中描述的模块、元件和装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或一芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例为逻辑元件(例如,晶体管或门)的固定或可编程阵列。本文中描述的设备的各种实施方案的一个或一个以上元件还可整体地或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以执行于一个或一个以上固定或可编程逻辑元件阵列上,例如微处理器、嵌式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。
有可能使用如本文中描述的设备的一实施方案的一个或一个以上元件来执行并非与所述设备的操作直接相关的任务,或执行并非与所述设备的操作直接相关的其它指令集,例如与嵌入有所述设备的装置或系统的另一操作相关的任务。此设备的一实施方案的一个或一个以上元件还有可能具有共同的结构(例如,用以在不同时间执行代码的对应于不同元件的各部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。

Claims (60)

1.一种处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的方法,所述方法包含:
对所述音频信号进行滤波以获得窄带信号和超高频带信号;
基于来自所述窄带信号的信息计算经编码的窄带激励信号;
基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号;
基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数;以及
通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算第一多个增益因子,
其中所述窄带信号基于所述低频率次频带中的所述频率成分,且
其中所述超高频带信号基于所述高频率次频带中的所述频率成分,且
其中所述低频率次频带的宽度为至少三千赫兹,且
其中所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半,且
其中所述计算所述超高频带激励信号包括:
将基于来自所述经编码的窄带激励信号的所述信息的信号升高取样以产生经内插的信号;以及
扩展基于所述经内插的信号的信号的频谱以产生经频谱扩展的信号,且
其中所述超高频带激励信号基于所述经频谱扩展的信号。
2.根据权利要求1所述的方法,其中所述低频率次频带的所述频率成分包括具有至少等于三千赫兹的频率的分量,且
其中所述高频率次频带的所述频率成分包括具有不大于八千赫兹的频率的分量。
3.根据权利要求1和2中任一权利要求所述的方法,其中所述低频率次频带与所述高频率次频带分开至少两千五百赫兹。
4.根据权利要求1和2中任一权利要求所述的方法,其中所述多个滤波器参数包括表征所述高频率次频带的帧的频谱包络的多个,FCH个,滤波器系数,且
其中所述方法包括计算表征所述低频率次频带的对应帧的频谱包络的多个,FCL个,滤波器系数,且
其中FCH小于FCL。
5.根据权利要求1和2中任一权利要求所述的方法,其中所述对所述音频信号进行滤波包括:
重取样基于所述高频率次频带中的所述频率成分的信号以获得经重取样的信号;以及
对基于所述经重取样的信号的信号执行频谱反转操作以获得经频谱反转的信号,
其中所述超高频带信号基于所述经频谱反转的信号。
6.根据权利要求1所述的方法,其中所述计算所述经编码的窄带激励信号包含以量化形式产生所述经编码的窄带激励信号。
7.根据权利要求1和2中任一权利要求所述的方法,其中所述经编码的窄带激励信号包括固定码簿索引和自适应码簿索引。
8.根据权利要求1和2中任一权利要求所述的方法,其中所述窄带信号具有第一取样率,且
其中所述高频率次频带的宽度大于所述第一取样率的百分之五十。
9.根据权利要求8所述的方法,其中所述高频率次频带的所述宽度至少等于所述第一取样率的百分之七十五。
10.根据权利要求1和2中任一权利要求所述的方法,其中所述高频率次频带的所述宽度为至少六千赫兹。
11.根据权利要求1和2中任一权利要求所述的方法,其中所述高频率次频带包括从八千赫兹(8kHz)到八千五百赫兹(8500Hz)的频率范围或从十三千赫兹(13kHz)到十三点五千赫兹(13,500Hz)的频率范围。
12.根据权利要求1和2中任一权利要求所述的方法,其中所述音频信号具有在不同于所述低频率次频带的中频率次频带中的频率成分,且
其中所述对所述音频信号进行滤波包括获得基于所述中频率次频带中的所述频率成分的高频带信号,且
其中所述方法包括:
基于来自所述经编码的窄带激励信号的信息计算高频带激励信号;
基于来自所述高频带信号的信息计算表征所述中频率次频带的频谱包络的多个滤波器参数;以及
通过评估基于所述高频带信号的信号与基于所述高频带激励信号的信号之间的时变关系来计算第二多个增益因子。
13.根据权利要求12所述的方法,其中所述第一多个增益因子包括多个,n,个,增益因子,所述多个,n个,增益因子描述A基于所述超高频带信号的所述信号的帧与B基于所述超高频带激励信号的所述信号的对应帧之间的关系,且
其中所述第二多个增益因子包括多个,m个,增益因子,所述多个,m个,增益因子描述A基于所述高频带信号的所述信号的帧与B基于所述高频带激励信号的所述信号的对应帧之间的关系,其中n大于m。
14.根据权利要求12所述的方法,其中所述计算所述超高频带激励信号包括将所述经编码的窄带激励信号的频谱扩展到由所述高频率次频带占据的频率范围中,且
其中所述计算所述高频带激励信号包括将所述经编码的窄带激励信号的所述频谱扩展到由中频率频带占据的频率范围中。
15.根据权利要求12所述的方法,其中所述中频率次频带包括五千赫兹与六千赫兹之间的频率,且
其中所述高频率次频带包括十千赫兹与十一千赫兹之间的频率。
16.根据权利要求12所述的方法,其中所述窄带信号具有第一取样率,且
其中所述高频带信号具有小于所述第一取样率的第二取样率。
17.根据权利要求16所述的方法,其中所述超高频带信号具有小于所述第一取样率与所述第二取样率的总和的第三取样率。
18.根据权利要求12所述的方法,其中表征所述高频率次频带的频谱包络的所述多个滤波器参数包括表征所述高频率次频带的帧的频谱包络的多个,FCH个,滤波器系数,且
其中表征所述中频率次频带的频谱包络的所述多个滤波器参数包括表征所述中频率次频带的对应帧的频谱包络的多个,FCM个,滤波器系数,且
其中FCM小于FCH。
19.一种用于处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的设备,所述设备包含:
用于对所述音频信号进行滤波以获得窄带信号和超高频带信号的装置;
用于基于来自所述窄带信号的信息计算经编码的窄带激励信号的装置;
用于基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号的装置;
用于基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数的装置;以及
用于通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算第一多个增益因子的装置,
其中所述窄带信号基于所述低频率次频带中的所述频率成分,且
其中所述超高频带信号基于所述高频率次频带中的所述频率成分,且
其中所述低频率次频带的宽度为至少三千赫兹,且
其中所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半,且
其中所述用于计算所述超高频带激励信号的装置包括:
用于将基于来自所述经编码的窄带激励信号的所述信息的信号升高取样以产生经内插的信号的装置;以及
用于扩展基于所述经内插的信号的信号的频谱以产生经频谱扩展的信号的装置,且
其中所述超高频带激励信号基于所述经频谱扩展的信号。
20.根据权利要求19所述的设备,其中所述低频率次频带的所述频率成分包括具有至少等于三千赫兹的频率的分量,且
其中所述高频率次频带的所述频率成分包括具有不大于八千赫兹的频率的分量。
21.根据权利要求19和20中任一权利要求所述的设备,其中所述低频率次频带与所述高频率次频带分开至少两千五百赫兹。
22.根据权利要求19和20中任一权利要求所述的设备,其中所述多个滤波器参数包括表征所述高频率次频带的帧的频谱包络的多个,FCH个,滤波器系数,且
其中所述设备包括用于计算表征所述低频率次频带的对应帧的频谱包络的多个,FCL个,滤波器系数的装置,且
其中FCH小于FCL。
23.根据权利要求19和20中任一权利要求所述的设备,其中所述用于对所述音频信号进行滤波的装置包括:
用于重取样基于所述高频率次频带中的所述频率成分的信号以获得经重取样的信号的装置;以及
用于对基于所述经重取样的信号的信号执行频谱反转操作以获得经频谱反转的信号的装置,
其中所述超高频带信号基于所述经频谱反转的信号。
24.根据权利要求19所述的设备,其中所述用于计算所述经编码的窄带激励信号的装置经配置以用量化形式产生所述经编码的窄带激励信号。
25.根据权利要求19和20中任一权利要求所述的设备,其中所述经编码的窄带激励信号包括固定码簿索引和自适应码簿索引。
26.根据权利要求19和20中任一权利要求所述的设备,其中所述窄带信号具有第一取样率,且
其中所述高频率次频带的宽度大于所述第一取样率的百分之五十。
27.根据权利要求26所述的设备,其中所述高频率次频带的所述宽度至少等于所述第一取样率的百分之七十五。
28.根据权利要求19和20中任一权利要求所述的设备,其中所述高频率次频带的所述宽度为至少六千赫兹。
29.根据权利要求19和20中任一权利要求所述的设备,其中所述高频率次频带包括从八千赫兹(8kHz)到八千五百赫兹(8500Hz)的频率范围或从十三千赫兹(13kHz)到十三点五千赫兹(13,500Hz)的频率范围。
30.根据权利要求19和20中任一权利要求所述的设备,其中所述音频信号具有在不同于所述低频率次频带的中频率次频带中的频率成分,且
其中所述用于对所述音频信号进行滤波的装置包括用于获得基于所述中频率次频带中的所述频率成分的高频带信号的装置,且
其中所述设备包括:
用于基于来自所述经编码的窄带激励信号的信息计算高频带激励信号的装置;
用于基于来自所述高频带信号的信息计算表征所述中频率次频带的频谱包络的多个滤波器参数的装置;以及
用于通过评估基于所述高频带信号的信号与基于所述高频带激励信号的信号之间的时变关系来计算第二多个增益因子的装置。
31.根据权利要求30所述的设备,其中所述第一多个增益因子包括多个,n个,增益因子,所述多个,n个,增益因子描述A基于所述超高频带信号的所述信号的帧与B基于所述超高频带激励信号的所述信号的对应帧之间的关系,且
其中所述第二多个增益因子包括多个,m个,增益因子,所述多个,m个,增益因子描述A基于所述高频带信号的所述信号的帧与B基于所述高频带激励信号的所述信号的对应帧之间的关系,其中n大于m。
32.根据权利要求30所述的设备,其中所述用于计算所述超高频带激励信号的装置包括将所述经编码的窄带激励信号的频谱扩展到由所述高频率次频带占据的频率范围中,且
其中所述用于计算所述高频带激励信号的装置包括将所述经编码的窄带激励信号的所述频谱扩展到由中频率频带占据的频率范围中。
33.根据权利要求30所述的设备,其中所述中频率次频带包括五千赫兹与六千赫兹之间的频率,且
其中所述高频率次频带包括十千赫兹与十一千赫兹之间的频率。
34.根据权利要求30所述的设备,其中所述窄带信号具有第一取样率,且
其中所述高频带信号具有小于所述第一取样率的第二取样率。
35.根据权利要求34所述的设备,其中所述超高频带信号具有小于所述第一取样率与所述第二取样率的总和的第三取样率。
36.根据权利要求30所述的设备,其中表征所述高频率次频带的频谱包络的所述多个滤波器参数包括表征所述高频率次频带的帧的频谱包络的多个,FCH个,滤波器系数,且
其中表征所述中频率次频带的频谱包络的所述多个滤波器参数包括表征所述中频率次频带的对应帧的频谱包络的多个,FCM个,滤波器系数,且
其中FCM小于FCH。
37.一种用于处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的设备,所述设备包含:
滤波器组,所述滤波器组经配置以对所述音频信号进行滤波以获得窄带信号和超高频带信号;
窄带编码器,所述窄带编码器经配置以基于来自所述窄带信号的信息计算经编码的窄带激励信号;以及
超高频带编码器,所述超高频带编码器经配置以:A基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号,B基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数,和C通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算第一多个增益因子,
其中所述窄带信号基于所述低频率次频带中的所述频率成分,且
其中所述超高频带信号基于所述高频率次频带中的所述频率成分,且
其中所述低频率次频带的宽度为至少三千赫兹,且
其中所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半,且
其中所述超高频带编码器包括:
升高取样器,所述升高取样器经配置以将基于来自所述经编码的窄带激励信号的所述信息的信号升高取样以产生经内插的信号;以及
频谱扩展器,所述频谱扩展器经配置以扩展基于所述经内插的信号的信号的频谱以产生经频谱扩展的信号,且
其中所述超高频带激励信号基于所述经频谱扩展的信号。
38.根据权利要求37所述的设备,其中所述低频率次频带的所述频率成分包括具有至少等于三千赫兹的频率的分量,且
其中所述高频率次频带的所述频率成分包括具有不大于八千赫兹的频率的分量。
39.根据权利要求37和38中任一权利要求所述的设备,其中所述低频率次频带与所述高频率次频带分开至少两千五百赫兹。
40.根据权利要求37到38中任一权利要求所述的设备,其中所述多个滤波器参数包括表征所述高频率次频带的帧的频谱包络的多个,FCH个,滤波器系数,且
其中所述窄带编码器经配置以计算表征所述低频率次频带的对应帧的频谱包络的多个,FCL个,滤波器系数,且
其中FCH小于FCL。
41.根据权利要求37到38中任一权利要求所述的设备,其中所述滤波器组包括:
重取样器,所述重取样器经配置以重取样基于所述高频率次频带中的所述频率成分的信号以获得经重取样的信号;以及
频谱反转模块,所述频谱反转模块经配置以对基于所述经重取样的信号的信号执行频谱反转操作以获得经频谱反转的信号,
其中所述超高频带信号基于所述经频谱反转的信号。
42.根据权利要求37到38中任一权利要求所述的设备,其中所述滤波器组包括经配置以产生所述窄带信号的窄带分析处理路径和经配置以产生所述超高频带信号的超高频带分析处理路径。
43.根据权利要求37到38中任一权利要求所述的设备,其中所述窄带信号具有第一取样率,且
其中所述高频率次频带的宽度大于所述第一取样率的百分之五十。
44.根据权利要求43所述的设备,其中所述高频率次频带的所述宽度至少等于所述第一取样率的百分之七十五。
45.根据权利要求37到38中任一权利要求所述的设备,其中所述高频率次频带的所述宽度为至少六千赫兹。
46.根据权利要求37到38中任一权利要求所述的设备,其中所述高频率次频带包括从八千赫兹(8kHz)到八千五百赫兹(8500Hz)的频率范围或从十三千赫兹(13kHz)到十三点五千赫兹(13,500Hz)的频率范围。
47.根据权利要求37到38中任一权利要求所述的设备,其中所述音频信号具有在不同于所述低频率次频带的中频率次频带中的频率成分,且
其中所述滤波器组经配置以获得基于所述中频率次频带中的所述频率成分的高频带信号,且
其中所述设备包括:
高频带编码器,所述高频带编码器经配置以:A基于来自所述经编码的窄带激励信号的信息计算高频带激励信号,B基于来自所述高频带信号的信息计算表征所述中频率次频带的频谱包络的多个滤波器参数,和C通过评估基于所述高频带信号的信号与基于所述高频带激励信号的信号之间的时变关系来计算第二多个增益因子。
48.根据权利要求47所述的设备,其中所述第一多个增益因子包括多个,n个,增益因子,所述多个,n个,增益因子描述A基于所述超高频带信号的所述信号的帧与B基于所述超高频带激励信号的所述信号的对应帧之间的关系,且
其中所述第二多个增益因子包括多个,m个,增益因子,所述多个,m个,增益因子描述A基于所述高频带信号的所述信号的帧与B基于所述高频带激励信号的所述信号的对应帧之间的关系,其中n大于m。
49.一种处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的方法,所述方法包含:
对所述音频信号进行滤波以获得窄带信号和超高频带信号;
基于来自所述窄带信号的信息计算经编码的窄带激励信号;
基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号;以及
基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数,
其中所述窄带信号基于所述低频率次频带中的所述频率成分,且
其中所述超高频带信号基于所述高频率次频带中的所述频率成分且具有第一取样率,且
其中所述低频率次频带的宽度为至少二千赫兹,且
其中所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半,且
其中所述计算所述超高频带激励信号包括:
将非线性函数应用于基于来自所述经编码的窄带激励信号的所述信息的经升高取样的信号以产生经频谱扩展的信号;以及
将分析滤波器组应用于所述经频谱扩展的信号以产生具有所述第一取样率的经滤波信号,且
其中所述超高频带激励信号基于所述经滤波信号。
50.根据权利要求49所述的方法,其中所述经编码的窄带激励信号包括具有至少等于三千赫兹的频率的分量,且
其中所述超高频带激励信号包括具有不大于八千赫兹的频率的分量。
51.根据权利要求49所述的方法,其中所述低频率次频带与所述高频率次频带分开至少两千五百赫兹。
52.根据权利要求49所述的方法,其中所述经编码的窄带激励信号具有第二取样率,且
其中所述超高频带激励信号包括第一和第二频率分量的每一者处的能量,且
其中所述第一和第二频率分量分开所述第二取样率的至少百分之五十的距离。
53.根据权利要求49所述的方法,其中所述方法包括通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算第一多个增益因子。
54.根据权利要求53所述的方法,其中所述音频信号具有在不同于所述低频率次频带的中频率次频带中的频率成分,且
其中所述对所述音频信号进行滤波包括获得基于所述中频率次频带中的所述频率成分的高频带信号,且
其中所述第一多个增益因子包括多个,n个,增益因子,所述多个,n个,增益因子描述A基于所述超高频带信号的所述信号的帧与B基于所述超高频带激励信号的所述信号的对应帧之间的关系,且
其中所述方法包括:
基于来自所述经编码的窄带激励信号的信息计算高频带激励信号;以及
计算第二多个,m个,增益因子,所述多个,m个,增益因子描述A基于所述高频带信号的所述信号的帧与B基于所述高频带激励信号的所述信号的对应帧之间的关系,其中n大于m。
55.一种用于处理具有在低频率次频带中和在与所述低频率次频带分开的高频率次频带中的频率成分的音频信号的设备,所述设备包含:
用于对所述音频信号进行滤波以获得窄带信号和超高频带信号的装置;
用于基于来自所述窄带信号的信息计算经编码的窄带激励信号的装置;
用于基于来自所述经编码的窄带激励信号的信息计算超高频带激励信号的装置;以及
用于基于来自所述超高频带信号的信息计算表征所述高频率次频带的频谱包络的多个滤波器参数的装置,
其中所述窄带信号基于所述低频率次频带中的所述频率成分,且
其中所述超高频带信号基于所述高频率次频带中的所述频率成分且具有第一取样率,且
其中所述低频率次频带的宽度为至少二千赫兹,且
其中所述低频率次频带与所述高频率次频带分开一距离,所述距离至少等于所述低频率次频带的所述宽度的一半,且
其中所述计算所述超高频带激励信号包括:
将非线性函数应用于基于来自所述经编码的窄带激励信号的所述信息的经升高取样的信号以产生经频谱扩展的信号;以及
将分析滤波器组应用于所述经频谱扩展的信号以产生具有所述第一取样率的经滤波信号,且
其中所述超高频带激励信号基于所述经滤波信号。
56.根据权利要求55所述的设备,其中所述经编码的窄带激励信号包括具有至少等于三千赫兹的频率的分量,且
其中所述超高频带激励信号包括具有不大于八千赫兹的频率的分量。
57.根据权利要求55所述的设备,其中所述低频率次频带与所述高频率次频带分开至少两千五百赫兹。
58.根据权利要求55所述的设备,其中所述经编码的窄带激励信号具有第二取样率,且
其中所述超高频带激励信号包括第一和第二频率分量的每一者处的能量,且
其中所述第一和第二频率分量分开所述第二取样率的至少百分之五十的距离。
59.根据权利要求55所述的设备,其中所述设备包括用于通过评估基于所述超高频带信号的信号与基于所述超高频带激励信号的信号之间的时变关系来计算第一多个增益因子的装置。
60.根据权利要求59所述的设备,其中所述音频信号具有在不同于所述低频率次频带的中频率次频带中的频率成分,且
其中所述用于对所述音频信号进行滤波的装置包括用于获得基于所述中频率次频带中的所述频率成分的高频带信号的装置,且
其中所述第一多个增益因子包括多个,n个,增益因子,所述多个,n个,增益因子描述A基于所述超高频带信号的所述信号的帧与B基于所述超高频带激励信号的所述信号的对应帧之间的关系,且
其中所述设备包括:
用于基于来自所述经编码的窄带激励信号的信息计算高频带激励信号的装置;以及
用于计算第二多个,m个,增益因子的装置,所述多个,m个,增益因子描述A基于所述高频带信号的所述信号的帧与B基于所述高频带激励信号的所述信号的对应帧之间的关系,其中n大于m。
CN201180026945.5A 2010-06-01 2011-06-01 用于宽带语音编码的系统、方法、设备 Expired - Fee Related CN102934163B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US35042510P 2010-06-01 2010-06-01
US61/350,425 2010-06-01
US13/149,874 2011-05-31
US13/149,874 US8600737B2 (en) 2010-06-01 2011-05-31 Systems, methods, apparatus, and computer program products for wideband speech coding
PCT/US2011/038814 WO2011153278A1 (en) 2010-06-01 2011-06-01 Systems, methods, apparatus, and computer program products for wideband speech coding

Publications (2)

Publication Number Publication Date
CN102934163A CN102934163A (zh) 2013-02-13
CN102934163B true CN102934163B (zh) 2014-08-06

Family

ID=45022801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180026945.5A Expired - Fee Related CN102934163B (zh) 2010-06-01 2011-06-01 用于宽带语音编码的系统、方法、设备

Country Status (7)

Country Link
US (1) US8600737B2 (zh)
EP (1) EP2577659B1 (zh)
JP (1) JP5722437B2 (zh)
KR (1) KR101436715B1 (zh)
CN (1) CN102934163B (zh)
TW (1) TW201214419A (zh)
WO (1) WO2011153278A1 (zh)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8326614B2 (en) * 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
US9525569B2 (en) * 2010-03-03 2016-12-20 Skype Enhanced circuit-switched calls
KR101445296B1 (ko) 2010-03-10 2014-09-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
US9313334B2 (en) * 2010-06-17 2016-04-12 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension in a multipoint conference unit
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
US9070361B2 (en) * 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
WO2013002696A1 (en) * 2011-06-30 2013-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
TWI461705B (zh) * 2012-05-24 2014-11-21 Mstar Semiconductor Inc 頻譜反轉判斷裝置及頻譜反轉判斷方法
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
KR101340048B1 (ko) * 2012-06-12 2013-12-11 (주)에프씨아이 스펙트럼 반전 검출 장치 및 방법
US9544074B2 (en) * 2012-09-04 2017-01-10 Broadcom Corporation Time-shifting distribution of high definition audio data
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
CA3076775C (en) 2013-01-08 2020-10-27 Dolby International Ab Model based prediction in a critically sampled filterbank
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
CN103971694B (zh) 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
RU2676242C1 (ru) * 2013-01-29 2018-12-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
ES2768179T3 (es) * 2013-01-29 2020-06-22 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
MX347316B (es) 2013-01-29 2017-04-21 Fraunhofer Ges Forschung Aparato y método para sintetizar una señal de audio, decodificador, codificador, sistema y programa de computación.
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9601125B2 (en) 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
MX343673B (es) * 2013-04-05 2016-11-16 Dolby Int Ab Codificador y decodificador de audio.
US20140309992A1 (en) * 2013-04-16 2014-10-16 University Of Rochester Method for detecting, identifying, and enhancing formant frequencies in voiced speech
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9530422B2 (en) 2013-06-27 2016-12-27 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
CN104575507B (zh) * 2013-10-23 2018-06-01 中国移动通信集团公司 语音通信方法及装置
AU2014350366B2 (en) 2013-11-13 2017-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
CN105745706B (zh) * 2013-11-29 2019-09-24 索尼公司 用于扩展频带的装置、方法和程序
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
CN106463143B (zh) 2014-03-03 2020-03-13 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10121488B1 (en) * 2015-02-23 2018-11-06 Sprint Communications Company L.P. Optimizing call quality using vocal frequency fingerprints to filter voice calls
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN105047201A (zh) * 2015-06-15 2015-11-11 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于分段扩展的宽带激励信号合成方法
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9613628B2 (en) * 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
US9628319B2 (en) * 2015-08-10 2017-04-18 Altiostar Networks, Inc. Time-alignment of signals suffering from quadrature errors
US20170069306A1 (en) * 2015-09-04 2017-03-09 Foundation of the Idiap Research Institute (IDIAP) Signal processing method and apparatus based on structured sparsity of phonological features
CN109074813B (zh) 2015-09-25 2020-04-03 杜比实验室特许公司 处理高清晰度音频数据
BR112017024480A2 (pt) 2016-02-17 2018-07-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. pós-processador, pré-processador, codificador de áudio, decodificador de áudio e métodos relacionados para aprimoramento do processamento transiente
KR102546098B1 (ko) * 2016-03-21 2023-06-22 한국전자통신연구원 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
JP6962269B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN110660402B (zh) * 2018-06-29 2022-03-29 华为技术有限公司 立体声信号编码过程中确定加权系数的方法和装置
WO2021048974A1 (ja) 2019-09-12 2021-03-18 日本電気株式会社 情報処理装置、情報処理方法及び記憶媒体
WO2021172053A1 (ja) * 2020-02-25 2021-09-02 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
WO2024052378A1 (en) * 2022-09-09 2024-03-14 Telefonaktiebolaget Lm Ericsson (Publ) Low complex bandwidth extension target generation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458930A (zh) * 2007-12-12 2009-06-17 华为技术有限公司 带宽扩展中激励信号的生成及信号重建方法和装置
CN101568959A (zh) * 2006-11-17 2009-10-28 三星电子株式会社 用带宽扩展进行编码和/或解码的方法、介质和设备
CN101685637A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 音频编码方法及装置和音频解码方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US5715365A (en) 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US7330814B2 (en) 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
FI118550B (fi) 2003-07-14 2007-12-14 Nokia Corp Parannettu eksitaatio ylemmän kaistan koodaukselle koodekissa, joka käyttää kaistojen jakoon perustuvia koodausmenetelmiä
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
EP1872364B1 (en) * 2005-03-30 2010-11-24 Nokia Corporation Source coding and/or decoding
BRPI0607646B1 (pt) 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
PL1875463T3 (pl) 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
KR100921867B1 (ko) 2007-10-17 2009-10-13 광주과학기술원 광대역 오디오 신호 부호화 복호화 장치 및 그 방법
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101568959A (zh) * 2006-11-17 2009-10-28 三星电子株式会社 用带宽扩展进行编码和/或解码的方法、介质和设备
CN101458930A (zh) * 2007-12-12 2009-06-17 华为技术有限公司 带宽扩展中激励信号的生成及信号重建方法和装置
CN101685637A (zh) * 2008-09-27 2010-03-31 华为技术有限公司 音频编码方法及装置和音频解码方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Mikko Tammi et al.SCALABLE SUPERWIDEBAND EXTENSION FOR WIDEBAND CODING.《ICASSP 2009》.2009,
SCALABLE SUPERWIDEBAND EXTENSION FOR WIDEBAND CODING;Mikko Tammi et al;《ICASSP 2009》;20090419;全文 *
SPECTRAL BAND REPLICATION TOOL FOR VERY LOWDELAY AUDIO CODING APPLICATIONS;Tobias Friedrich, Gerald Schuller;《2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》;20071021;全文 *
Tobias Friedrich, Gerald Schuller.SPECTRAL BAND REPLICATION TOOL FOR VERY LOWDELAY AUDIO CODING APPLICATIONS.《2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》.2007,

Also Published As

Publication number Publication date
TW201214419A (en) 2012-04-01
KR101436715B1 (ko) 2014-09-01
US20110295598A1 (en) 2011-12-01
JP5722437B2 (ja) 2015-05-20
WO2011153278A1 (en) 2011-12-08
EP2577659A1 (en) 2013-04-10
CN102934163A (zh) 2013-02-13
KR20130023289A (ko) 2013-03-07
JP2013528836A (ja) 2013-07-11
US8600737B2 (en) 2013-12-03
EP2577659B1 (en) 2014-03-26

Similar Documents

Publication Publication Date Title
CN102934163B (zh) 用于宽带语音编码的系统、方法、设备
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
JP5203930B2 (ja) 高帯域時間軸伸縮を行うシステム、方法、および装置
CN104123946A (zh) 用于在与语音信号相关联的包中包含识别符的系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140806

Termination date: 20180601

CF01 Termination of patent right due to non-payment of annual fee