CN107851441B - 用于对输入音频信号进行编码的方法和设备 - Google Patents

用于对输入音频信号进行编码的方法和设备 Download PDF

Info

Publication number
CN107851441B
CN107851441B CN201680045819.7A CN201680045819A CN107851441B CN 107851441 B CN107851441 B CN 107851441B CN 201680045819 A CN201680045819 A CN 201680045819A CN 107851441 B CN107851441 B CN 107851441B
Authority
CN
China
Prior art keywords
signal
band
input audio
audio signal
scaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680045819.7A
Other languages
English (en)
Other versions
CN107851441A (zh
Inventor
文卡特拉曼·阿提
文卡塔·萨伯拉曼亚姆·强卓·赛克哈尔·奇比亚姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN107851441A publication Critical patent/CN107851441A/zh
Application granted granted Critical
Publication of CN107851441B publication Critical patent/CN107851441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种用于产生高频带目标信号的方法,所述方法包含在编码器处接收输入信号,所述输入信号具有低频带部分及高频带部分。所述方法还包含比较所述输入信号的第一自相关值与所述输入信号的第二自相关值。所述方法进一步包含按缩放因数缩放所述输入信号,以产生经缩放输入信号。基于所述比较的结果而确定所述缩放因数。所述方法还包含基于所述输入信号而产生低频带信号及基于所述经缩放输入信号而产生所述高频带目标信号。

Description

用于对输入音频信号进行编码的方法和设备
优先权主张
本申请案主张2015年8月17日申请的美国临时专利申请案第62/206,197号和2016年5月31日申请的美国专利申请案第15/169,633号的优先权,其标题都是“高频带目标信号控制(HIGH-BAND TARGET SIGNAL CONTROL)”,所述申请案以全文引用的方式并入。
技术领域
本发明大体上涉及信号处理。
背景技术
技术的进步已带来更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线计算装置,例如便携式无线电话、个人数字助理(PDA)及寻呼装置,其体积小、重量轻、且易于用户携带。更特定地说,例如蜂窝式电话及因特网协议(IP)电话等便携式无线电话可经由无线网络传达语音及数据包。另外,许多这些无线电话包含并入其中的其它类型的装置。举例来说,无线电话还可包含数码相机、数字摄影机、数字记录器及音频文件播放器。
通过数字技术传输语音是普遍的,在长距离及数字无线电电话应用中尤其如此。确定可经由信道发送的最少信息量同时维持经重构建话语的感知质量可能是重要的。如果通过采样及数字化来传输话语,那么约为六十四千位每秒(kbps)的数据速率可用以达成模拟电话的话语质量。通过使用话语分析继之以译码、传输及在接收器处重新合成,可达成数据速率的显著减少。
用于压缩话语的装置可用于许多电信领域中。示范性领域为无线通信。无线通信的领域具有许多应用,包含(例如)无线电话、传呼、无线本地回路、例如蜂窝式及个人通信服务(PCS)电话系统的无线电话、移动IP电话及卫星通信系统。特定应用为用于移动用户的无线电话。
已开发用于无线通信系统的各种空中接口,包含例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)及分时同步CDMA(TD-SCDMA)。结合所述空中接口,已建立各种国内及国际标准,包含(例如)高级移动电话服务(AMPS)、全球移动通信系统(GSM)及临时标准95(IS-95)。示范性无线电话通信系统为码分多址(CDMA)系统。IS-95标准及其衍生标准:IS-95A、ANSI J-STD-008及IS-95B(本文中共同称作IS-95)由电信工业协会(TIA)及其它公认标准机构颁布以指定CDMA空中接口针对蜂窝式或PCS电话通信系统的使用。
IS-95标准随后演进成例如cdma2000及WCDMA的“3G”系统,“3G”系统提供更大容量及高速度包数据服务。cdma2000的两个变体由TIA发布的文件IS-2000(cdma2000 1xRTT)及IS-856(cdma2000 1xEV-DO)呈现。cdma2000 1xRTT通信系统提供153kbps的峰值数据速率,而cdma20001xEV-DO通信系统定义范围介于38.4kbps到2.4Mbps的数据速率集合。WCDMA标准体现于第三代合作伙伴计划“3GPP”第3G TS 25.211号、第3G TS 25.212号、第3GTS25.213号及第3G TS 25.214号文件中。高级国际移动电信(高级IMT)规范陈述“4G”标准。对于(例如,来自火车及汽车的)高移动性通信,高级IMT规范设定100百万位/秒(Mbit/s)的4G服务峰值数据速率,且对于(例如,来自行人及静止用户的)低移动性通信,高级IMT规范设定1十亿位/秒(Gbit/s)的峰值数据速率。
使用通过提取关于人类话语生成模型的参数来压缩话语的技术的装置被称为话语译码器。话语译码器可包括编码器及解码器。编码器将进入话语信号划分成时间块或分析帧。可将各时间分段(或“帧”)的持续时间选择为足够短的,使得可预期信号的频谱包络保持相对静止。举例来说,一个帧长度为二十毫秒,其对应于八千赫兹(kHz)采样速率下的160个样本,但可使用认为适于特定应用的任何帧长度或采样速率。
编码器分析进入话语帧以提取某些相关参数,且接着将参数量化成二进制表示(例如,位集合或二进制数据包)。经由通信信道(即,有线及/或无线网络连接)将数据包传输到接收器及解码器。解码器处理数据包、去量化经处理数据包以产生参数,且使用经去量化参数重新合成话语帧。
话语译码器的功能为通过去除话语中固有的自然冗余而将经数字化话语信号压缩成低位速率信号。可通过用参数集合表示输入话语帧及使用量化以通过位集合表示参数来达成数字压缩。如果输入话语帧具有多个位Ni且由话语译码器产生的数据包具有数个位No,那么由话语译码器所达成的压缩因数为Cr=Ni/No。挑战为在达成目标压缩因数时保留经解码话语的高语音质量。话语译码器的性能取决于:(1)话语模型或上文所描述的分析及合成程序的组合执行得多好;及(2)在No位每帧的目标位速率下参数量化程序执行得多好。因此,话语模型的目标为在各帧具有较小集合的参数的情况下捕获话语信号的本质或目标语音质量。
话语译码器大体上利用参数集合(包含向量)来描述话语信号。良好参数集合理想地为感知上准确的话语信号的重构建提供低系统带宽。音调、信号功率、频谱包络(或共振峰)、振幅及相谱为话语译码参数的实例。
话语译码器可实施为时域译码器,其试图通过使用高时间分辨率处理一次编码较小话语分段(例如,5毫秒(ms)的子帧)来捕获时域话语波形。对于每一子帧,借助于搜索算法发现来自码簿空间的高精确度代表。替代地,话语译码器可实施为频域译码器,其试图通过参数集合(分析)捕获输入话语帧的短期话语频谱并使用对应合成程序从频谱参数再生话语波形。参数量化器通过根据已知量化技术用码向量的所存储表示来表示参数而保持参数。
一个时域话语译码器是码激励线性预测(CELP)译码器。在CELP译码器中,通过发现短期共振峰滤波器的系数的线性预测(LP)分析来去除话语信号中的短期相关性或冗余。将短期预测滤波器应用于进入话语帧产生LP残余信号,通过长期预测滤波器参数及后续随机码簿对LP残余信号进行进一步模型化及量化。因此,CELP译码将编码时域话语波形的任务划分成编码LP短期滤波器系数及编码LP残余的单独任务。可按固定速率(即,对于每一帧,使用相同数目个位No)或可变速率(其中,不同位速率用于不同类型的帧内容)执行时域译码。可变速率译码器试图使用将编解码器参数编码到足以获得目标质量的电平所需要的位量。
例如CELP译码器的时域译码器可依赖于每帧大量位N0以保持时域话语波形的准确性。假如每帧的位数目No相对大(例如,8kbps或更多),那么这些译码器可递送极佳语音质量。在低位速率(例如,4kbps及更少)下,归因于受限数目个可用位,时域译码器可不能保持高质量及稳固性能。在低位速率下,受限码簿空间减小在较高速率商业应用中所部署的时域译码器的波形匹配能力。因此,尽管随时间推移进行改进,但以低位速率操作的许多CELP译码系统仍遭受表征为噪声的感知明显失真。
低位速率下对CELP译码器的替代为在类似于CELP译码器的原理下操作的“噪声激励线性预测”(NELP)译码器。NELP译码器使用经滤波伪随机噪声信号而非码簿以模型化话语。由于NELP使用用于经译码话语的较简单模型,因此NELP达成比CELP低的位速率。NELP可用于压缩或表示无声话语或静默。
以大约为2.4kbps的速率操作的译码系统在本质上大体上是参数的。即,这些译码系统通过以常规间隔传输描述话语信号的音调周期及频谱包络(或共振峰)的参数进行操作。这些所谓的参数译码器的说明为LP声码器系统。
LP声码器通过每音调周期单一脉冲来模型化有声话语信号。可扩增此基本技术以包含关于频谱包络以及其它事项的传输信息。尽管LP声码器大体上提供合理的性能,但其可引入表征为蜂音的感知显著失真。
近年来,已出现为波形译码器及参数译码器两者的混合的译码器。这些所谓的混合译码器的说明为原型波形内插(PWI)话语译码系统。PWI译码系统还可被称为原型音调周期(PPP)话语译码器。PWI译码系统提供用于译码有声话语的高效方法。PWI的基本概念为以固定间隔提取代表性音调循环(原型波形)、传输其描述及通过在原型波形之间进行内插而重构建话语信号。PWI方法可对LP残余信号抑或话语信号进行操作。
可存在对改进话语信号(例如,经译码话语信号、经重构建话语信号或两者)的音频质量的研究关注及商业关注。举例来说,通信装置可接收具有低于最优选语音质量的语音质量的话语信号。举例来说,通信装置可在语音通话期间从另一通信装置接收话语信号。归因于各种原因,例如环境噪声(例如,风、街道噪音)、通信装置的接口的限制、由通信装置进行的信号处理、包丢失、带宽限制、位速率限制等,语音通话质量可受损。
在传统电话系统(例如,公众交换电话网络(PSTN))中,信号带宽限于300赫兹(Hz)到3.4kHz的频率范围。在宽带(WB)应用,例如蜂窝式电话及因特网通讯协议语音(VoIP)中,信号带宽可横跨从大约0kHz到8kHz的频率范围。超宽带(SWB)译码技术支持扩展到16kHz左右的带宽。将信号带宽从3.4kHz的窄频电话延展到16kHz的SWB电话可改进信号重构建的质量、可懂度及自然度。
WB译码技术通常涉及编码及传输输入信号的较低频率部分(例如,0Hz到6kHz,还称为“低频带”)。举例来说,可使用滤波参数及/或低频带激励信号表示低频带。然而,为了改进译码效率,输入信号的较高频率部分(例如,6kHz到8kHz,还称为“高频带”)可未经完全地编码及传输。实情为,接收器可利用信号模型化以预测高频带。在一些实施方案中,可将与高频带相关联的数据提供到接收器以辅助预测。此数据可称为“旁侧信息”,且可包含增益信息、线谱频率(LSF,还称为线谱对(LSP))等。
使用信号模型化预测高频带可包含在编码器处产生高频带目标信号。高频带目标信号可用以估算LP频谱包络及估算高频带的时间增益参数。为了产生高频带目标信号,输入信号可经历“频谱翻转”操作以产生频谱翻转的信号,使得输入信号的8kHz频率分量定位于频谱翻转的信号的0kHz频率处,且使得输入信号的0kHz频率分量定位于频谱翻转的信号的8kHz频率处。频谱翻转的信号可经历抽取操作(例如,“按四抽取”操作)以产生高频带目标信号。
可缩放输入信号,使得保留抽取之后的低频带及高频带的精确度。然而,如果在低频带的第一能量级别比高频带的第二能量级别大若干倍时将固定缩放因数应用于整个输入信号,那么高频带可能在频谱翻转操作及抽取操作之后损失精确度。随后,可粗糙地量化经估算高频带增益参数且引起伪影。
发明内容
根据本发明的一个实施方案,一种用于产生高频带目标信号的方法包含在编码器处接收输入信号,所述输入信号具有低频带部分及高频带部分。所述方法还包含比较输入信号的第一自相关值与输入信号的第二自相关值。所述方法进一步包含按缩放因数缩放所述输入信号,以产生经缩放输入信号。基于所述比较的结果而确定所述缩放因数。替代地,基于所述比较的所述结果而修改预定缩放因数的值。所述方法还包含基于所述输入信号而产生低频带信号及基于所述经缩放输入信号而产生所述高频带目标信号。所述低频带信号独立于所述经缩放输入信号而产生。
根据本发明的另一实施方案,一种设备包含编码器及存储器,所述存储器存储可由所述编码器内的处理器执行以执行操作的指令。所述操作包含比较输入信号的第一自相关值与所述输入信号的第二自相关值。所述输入信号具有低频带部分及高频带部分。所述操作进一步包含按缩放因数缩放所述输入信号以产生经缩放输入信号。基于所述比较的结果而确定所述缩放因数。替代地,基于所述比较的所述结果而修改预定缩放因数的值。所述操作还包含基于所述输入信号而产生低频带信号及基于所述经缩放输入信号而产生高频带目标信号。所述低频带信号独立于所述经缩放输入信号而产生。
根据本发明的另一实施方案,一种非暂时性计算机可读媒体包含用于产生高频带目标信号的指令。所述指令在由编码器内的处理器执行时使得所述处理器执行操作。所述操作包含比较输入信号的第一自相关值与所述输入信号的第二自相关值。所述输入信号具有低频带部分及高频带部分。所述操作进一步包含按缩放因数缩放所述输入信号以产生经缩放输入信号。基于所述比较的结果而确定所述缩放因数。替代地,基于所述比较的所述结果而修改预定缩放因数的值。所述操作还包含基于所述输入信号而产生低频带信号及基于所述经缩放输入信号而产生高频带目标信号。所述低频带信号独立于所述经缩放输入信号而产生。
根据本发明的另一实施方案,一种设备包含用于接收输入信号的装置,所述输入信号具有低频带部分及高频带部分。所述设备还包含用于比较所述输入信号的第一自相关值与所述输入信号的第二自相关值的装置。所述设备进一步包含用于按缩放因数缩放所述输入信号以产生经缩放输入信号的装置。基于所述比较的结果而确定所述缩放因数。替代地,基于所述比较的所述结果而修改预定缩放因数的值。所述设备还包含用于基于所述输入信号而产生低频带信号的装置及用于基于所述经缩放输入信号而产生高频带目标信号的装置。所述低频带信号独立于所述经缩放输入信号而产生。
附图说明
图1是用以说明可操作以控制高频带目标信号的精确度的系统的图表;
图2A是与参考时间增益相比的不使用根据图1的技术的高频带目标信号所估算的高频带时间增益的曲线图;
图2B是与参考时间增益相比的使用根据图1的技术的高频带目标信号所估算的高频带时间增益的曲线图;
图3A是与参考宽带目标信号相比的不使用图1的精确度技术的宽带目标信号的时域曲线图;
图3B是与参考宽带目标信号相比的使用图1的精确度控制技术的宽带目标信号的时域曲线图;
图4A是产生高频带目标信号的方法的流程图;
图4B是产生高频带目标信号的方法的另一流程图;
图5是可操作以控制高频带目标信号的精确度的无线装置的框图;且
图6是可操作以控制高频带目标信号的精确度的基站的框图。
具体实施方式
公开用于控制高频带目标信号精确度的技术。编码器可接收具有范围介于大约0kHz到6kHz的低频带且具有范围介于大约6kHz到8kHz的高频带的输入信号。低频带可具有第一能量级别且高频带可具有第二能量级别。编码器可产生用以估算高频带的LP频谱包络及估算高频带的时间增益参数的高频带目标信号。可对LP频谱包络及时间增益参数进行编码,且将其传输到解码器以重构建高频带。可基于输入信号而产生高频带目标信号。为了说明,编码器可对输入信号的经缩放版本执行频谱翻转操作以产生频谱翻转的信号,且频谱翻转的信号可经历抽取以产生高频带目标信号。
通常,(基于考虑整个频带的信号的峰值绝对值而)缩放输入信号,以包含大大减小当在抽取期间执行额外操作时高频带目标信号饱和的可能性的余裕空间。举例来说,16位字组输入信号可包含介于-32768到32767的定点范围。编码器可出于减小高频带目标信号的饱和的目的而缩放输入信号以包含三个位的余裕空间。缩放输入信号以包含三个位的余裕空间可有效地减小介于-4096到4095的定点范围。
如果高频带的第二能量级别显著地低于低频带的第一能量级别,那么高频带目标信号可具有极低能量或“低精度”,且进一步缩放输入信号以包含基于原始输入信号的整个频带所计算的余裕空间可引起伪影。为了避免产生具有可忽略能量的高频带目标信号,编码器可确定输入信号的频谱倾斜。频谱倾斜可表示高频带相对整个频带的能量分布。举例来说,频谱倾斜可基于表示整个频带的能量的处于滞后指数零的自相关(R0),且基于处于滞后指数一的自相关(R1)。如果频谱倾斜未能满足阈值(例如,如果第一能量级别显著地大于第二能量级别),那么编码器可在缩放输入信号期间减小余裕空间量,以为高频带目标信号提供较大范围。为高频带目标信号提供较大范围可实现对低能量高频带的更精确能量估算,此举又可减小伪影。如果频谱倾斜满足阈值(例如,如果第一能量级别并不显著地大于第二能量级别),那么编码器可在缩放输入信号期间增大余裕空间量,以减小高频带目标信号的饱和的可能性。
由所公开实施方案中的至少一者提供的特定优点包含增大高频带目标信号精确度以减小伪影。举例来说,可基于输入信号的频谱倾斜而动态地调整在缩放输入信号期间所使用的余裕空间量。在输入信号的较高频率部分的能量级别显著地小于输入信号的较低频率部分的能量级别时减小余裕空间可引起高频带目标信号的较大范围。较大范围可实现对高频带的较精确能量估算,此举又可减小伪影。在审阅整个申请案之后,本发明的其它实施方案、优点及特征将变得显而易见。
参看图1,展示可操作以控制高频带目标信号的精确度的系统,且大体上将其指定为100。在一特定实施方案中,系统100可集成于编码系统或设备中(例如,无线电话的编码器/解码器(CODEC)中)。在其它实施方案中,系统100可集成于机顶盒、音乐播放器、视频播放器、娱乐单元、导航装置、通信装置、PDA、固定位置数据单元或计算机中,作为说明性非限制性实例。在一特定实施方案中,系统100可对应于声码器,或包含于声码器中。
应注意,在以下描述中,将由图1的系统100执行的各种功能描述为由某些组件或模块执行。然而,组件及模块的此划分仅是为了说明。在一替代性实施方案中,由特定组件或模块执行的功能可替代地划分于多个组件或模块之中。此外,在一替代实施方案中,图1的两个或多于两个组件或模块可集成到单个组件或模块中。图1中所说明的每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、数字信号处理器(DSP)、控制器等)、软件(例如,可由处理器执行的指令)或其任一组合予以实施。
系统100包含经配置以接收输入音频信号102的分析滤波器组110。举例来说,输入音频信号102可由麦克风或其它输入装置提供。在一特定实施方案中,输入音频信号102可包含话语。输入音频信号102可包含在大约0Hz到大约8kHz的频率范围内的话语内容。如本文中所使用,“大约”可包含在所描述频率的特定范围内的频率。举例来说,大约可包含在所描述频率的百分之十、所描述频率的百分之五、所描述频率的百分之一等内的频率。作为一说明性非限制性实例,“大约8kHz”可包含7.6kHz(例如,8kHz-8kHz*0.05)到8.4kHz(例如,8kHz+8kHz*0.05)的频率。输入音频信号102可包含从大约0Hz横跨到6kHz的低频带部分及从大约6kHz横跨到8kHz的高频带部分。应理解,尽管输入音频信号102描绘为宽带信号(例如,具有0Hz与8kHz之间的频率范围的信号),但关于本发明所描述的技术还可适用于超宽带信号(例如,具有0Hz与16kHz之间的频率范围的信号)及全频带信号(例如,具有0Hz与20kHz之间的频率范围的信号)。
分析滤波器组110包含重采样器103、频谱倾斜分析模块105、缩放因数选择模块107、缩放模块109及高频带目标信号产生模块113。可将输入音频信号102提供到重采样器103、频谱倾斜分析模块105及缩放模块109。重采样器103可经配置以滤除输入音频信号102的高频分量以产生低频带信号122。举例来说,重采样器103可具有大约6.4kHz的截止频率,以产生具有从大约0Hz延伸到大约6.4kHz的带宽的低频带信号122。
频谱倾斜分析模块105、缩放因数选择模块107、缩放模块109及高频带目标信号产生模块113可结合操作以产生高频带目标信号126,高频带目标信号126用以估算输入音频信号102的高频带的LP频谱包络及用以估算输入音频信号102的高频带的时间增益参数。为了说明,频谱倾斜分析模块105可确定与输入音频信号102相关联的频谱倾斜。频谱倾斜可基于输入音频信号102的能量分布。举例来说,频谱倾斜可基于处于滞后指数零的自相关(R0)(表示时域中的输入音频信号102的整个频带的能量)与处于滞后指数一的自相关(R1)(表示时域中的能量)之间的比值。根据一个实施方案,可基于邻近样本的乘积总和而计算处于滞后指数一的自相关(R1)。在下文所描述的伪码中,处于滞后指数零的自相关(R0)指定为“temp1”,且处于滞后指数一的自相关(R1)指定为“temp2”。根据一个实施方案,可将频谱倾斜表达为由自相关(R1)与自相关(R0)产生的商(例如,R1/R0或temp2/temp1)。频谱倾斜分析模块105可产生指示频谱倾斜的信号106且可将信号106提供到缩放因数选择模块107。
缩放因数选择模块107可选择待用以缩放输入音频信号102的缩放因数(例如,“精确度控制因数”或“范数因数”)。缩放因数可基于由信号106指示的频谱倾斜。举例来说,缩放因数选择模块107可比较频谱倾斜与阈值以确定缩放因数。作为一非限制性实例,缩放因数选择模块107可比较频谱倾斜与为百分之九十五(例如,0.95)的阈值。
如果频谱倾斜未能满足阈值(例如,并不小于阈值,即,R1/R0>=0.95),那么缩放因数选择模块107可选择第一缩放因数。选择第一缩放因数可指示低频带的第一能量级别显著地大于高频带的第二能量级别的情境。举例来说,输入音频信号102的能量分布在频谱倾斜不能满足阈值时可相对陡峭。如果频谱倾斜满足阈值(例如,小于阈值),那么缩放因数模块107可选择第二缩放因数。选择第二缩放因数可指示低频带的第一能量级别并不显著地大于高频带的第二能量级别的情境。举例来说,输入音频信号102的能量分布在频谱倾斜满足阈值准则(即R1/R0<0.95)时可横跨低频带及高频带相对平坦。作为一实例,可估算第一缩放因数以标准化输入信号以留下3个位的余裕空间(即,针对16位型信号,将输入信号限制于-4096到4095),且可估算第二缩放因数以标准化输入信号以不留下余裕空间(即,针对16位型信号,将输入信号限制于-32768到32767)。
缩放因数选择模块107可产生指示所选择缩放因数的信号108且可将信号108提供到缩放模块109。举例来说,如果选择了第一缩放因数,那么信号108可具有第一值以指示缩放因数选择模块107选择了第一缩放因数。如果选择了第二缩放因数,那么信号108可具有第二值以指示缩放因数选择模块107选择了第二缩放因数。作为一实例,信号108可以是所选缩放因数值自身。
缩放模块109可经配置以按所选缩放因数缩放输入音频信号102以产生经缩放输入音频信号112。为了说明,如果选择第二缩放因数,那么缩放模块109可在缩放输入音频信号102以产生经缩放输入音频信号112期间增大余裕空间量。根据一个实施方案,缩放模块109可将分配到输入音频信号102的余裕空间增大到(或维持为)三个位的余裕空间。如下文所描述,在缩放输入音频信号102期间增大余裕空间量可在产生高频带目标信号126期间减小饱和的可能性。如果选择第一缩放因数,那么缩放模块109可在缩放输入音频信号102以产生经缩放输入音频信号112期间减小余裕空间量。根据一个实施方案,缩放模块109可将分配到输入音频信号102的余裕空间减小到零个位的余裕空间。如下文所描述,在缩放输入音频信号102期间减小余裕空间量可实现对低能量高频带的更精确能量估算,此举又可减小伪影。
高频带目标信号产生模块113可接收经缩放输入音频信号112且可经配置以基于经缩放输入音频信号112而产生高频带目标信号126。为了说明,高频带目标信号产生模块113可对经缩放输入音频信号112执行频谱翻转操作以产生频谱翻转的信号。举例来说,经缩放输入音频信号112的上部频率分量可定位于频谱翻转的信号的下部频率处,且经缩放输入音频信号112的下部频率分量可定位于频谱翻转的信号的上部频率处。因此,如果经缩放输入音频信号112具有从0Hz横跨到8kHz的8kHz带宽,那么经缩放输入音频信号112的8kHz频率分量可定位于频谱翻转的信号的0kHz频率处,且经缩放输入音频信号112的0kHz频率分量可定位于频谱翻转的信号的8kHz频率处。
高频带目标信号产生模块113可经配置以对频谱翻转的信号执行抽取操作,以产生高频带目标信号126。举例来说,高频带目标信号产生模块113可按为四的因数抽取频谱翻转的信号,以产生高频带目标信号126。高频带目标信号126可以是从0Hz横跨到2kHz的基带信号,且可表示输入音频信号102的高频带。
高频带目标信号126可基于由缩放因数选择模块107选择的动态缩放因数而具有增大的精确度。举例来说,在低频带的第一能量级别显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以减小余裕空间量。减小余裕空间量可提供用以产生高频带目标信号126的较大范围,使得可更精确地捕获高频带的能量。通过高频带目标信号精确地捕获高频带的能量可改进对高频带增益参数(例如,高频带旁侧信息172)的估算且减小伪影。举例来说,参考图2B,展示与参考时间增益相比使用高频带目标信号126所估算的高频带时间增益的曲线图。相比于其中经估算时间增益显著地从参考时间增益偏离的图2A,使用高频带目标信号126所估算的时间增益极相似于参考时间增益。因此,可在信号重构建期间导致减小的伪影(例如,噪声)。
在低频带的第一能量级别并不显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以增大余裕空间量。增大所述量可减小在产生高频带目标信号126期间饱和的可能性。举例来说,在抽取期间,高频带目标信号产生模块113可执行可在不存在足够余裕空间的情况下引起饱和的额外操作。增大余裕空间量(或维持预定义余裕空间量)可大体上减少高频带目标信号126的饱和。举例来说,参考图3B,展示与参考宽带目标信号相比的宽带目标信号126的时域曲线图。相比于其中高频带目标信号的能量级别显著地从参考宽带目标信号的能量级别偏离的图3A,高频带目标信号126的能量级别极相似于参考宽带目标信号的能量级别。因此,可达成减少的饱和。
尽管分析滤波器组110包含多个模块105、107、109、113,但在其它实施方案中,可组合模块105、107、109、113中的一或多者的功能。根据一个实施方案,模块105、107、109、113中的一或多者可基于以下伪码而操作以产生及控制高频带目标信号126的精确度:
Figure GDA0003124683220000121
Figure GDA0003124683220000131
根据伪码,“max_wb”对应于输入音频信号102的最大样本值且“new_inp_resamp16k[i]”对应于输入音频信号102。举例来说,new_inp_resamp16k[i]可具有从0Hz横跨到8kHz的频率,且可按16kHz的尼奎斯(Nyquist)采样速率进行采样。对于各样本,可将输入音频信号102(max_wb)设定为输入音频信号102的最大绝对值(new_inp_resamp16k[i])。参数(“Q_wb_sp”)可指示在涵盖信号(new_inp_resamp16k[i])的完全范围的同时输入音频信号102(new_inp_resamp16k[i])可向左移位的位的数目。根据伪码,参数(Q_wb_sp)可等于max_wb的范数。
根据伪码,频谱倾斜可基于输入音频信号102的处于滞后指数一的自相关(R1)(“temp2”)与处于滞后指数零的自相关(R0)(“temp1”)之间的比值。可基于邻近样本的乘积总和而计算处于滞后指数一的自相关(R1)。
如果自相关(R1)小于阈值(0.95)乘以自相关(R0),那么(Q_wb_sp)可在缩放期间维持另外三个位的额外余裕空间,以在产生高频带目标信号126期间减小饱和的可能性。如果自相关(R1)并不小于阈值(0.95)乘以自相关(R0),那么(Q_wb_sp)可在缩放期间将额外余裕空间减小到零个位以提供用以产生高频带目标信号126的较大范围,使得可更精确地捕获高频带的能量。根据伪码,输入信号向左移位了Q_wb_sp数目个位,意味着由缩放因数选择模块107选择的最终缩放因数将对应于2Q_wb_sp。通过高频带目标信号精确地捕获高频带的能量可改进对高频带增益参数(例如,高频带旁侧信息172)的估算且减小伪影。在一些实例实施例中,可将高频带目标信号126重新缩放回到原始输入电平(例如,按Q因数:Q0或Q-1),使得跨帧的存储器更新、高频带参数估算以及高频带合成维持固定的时间缩放因数调整。
以上实例说明针对WB译码的滤波(例如,从大约0Hz到8kHz的译码)。在其它实例中,分析滤波器组110可针对SWB译码(例如,从大约0Hz到16kHz的译码)及全频带(FB)译码(例如,从大约0Hz到20kHz的译码)对输入音频信号进行滤波。为了说明。为易于说明,除非另外指出,以下描述内容大体上关于WB译码进行描述。然而,可应用类似技术以执行SWB译码及FB译码。
系统100可包含经配置以接收低频带信号122的低频带分析模块130。在一特定实施方案中,低频带分析模块130可表示CELP编码器。低频带分析模块130可包含LP分析及译码模块132、线性预测系数(LPC)到LSP变换模块134,及量化器136。LSP还可被称作LSF,且本文中可互换地使用两个术语(LSP及LSF)。LP分析及译码模块132可将低频带信号122的频谱包络编码成LPC的集合。可针对音频的每一帧(例如,对应于16kHz的采样速率下的320个样本的20ms的音频)、音频的每一子帧(例如,5ms的音频)或其任一组合而产生LPC。可由所执行LP分析的“阶数”确定针对每一帧或子帧所产生的LPC的数目。在一特定实施方案中,LP分析及译码模块132可产生对应于第十阶LP分析的十一个LPC的集合。
LPC到LSP变换模块134可将由LP分析及译码模块132产生的LPC的集合变换成对应LSP集合(例如,使用一对一变换)。替代地,LPC的集合可经一对一变换成部分自相关系数、对数面积比率值、导谱对(ISP)或导谱频率(ISF)的对应集合。LPC集合与LSP集合之间的变换可以是可逆的而不存在误差。
量化器136可量化由变换模块134产生的LSP的集合。举例来说,量化器136可包含或耦合到包含多个条目(例如,向量)的多个码簿。为了量化LSP集合,量化器136可识别“最接近”(例如,基于例如最小平方或均方误差的失真度量)LSP集合的码簿条目。量化器136可输出对应于码簿中所识别条目的位置的索引值或一系列索引值。因此,量化器136的输出可表示包含于低频带位流142中的低频带滤波器参数。
低频带分析模块130还可产生低频带激励信号144。举例来说,低频带激励信号144可以是通过量化在由低频带分析模块130执行的LP程序期间所产生的LP残余信号而产生的经编码信号。LP残余信号可表示低频带激励信号144的预测误差。
系统100可进一步包含高频带分析模块150,高频带分析模块150经配置以从分析滤波器组110接收高频带目标信号126及从低频带分析模块130接收低频带激励信号144。高频带分析模块150可基于高频带目标信号126且基于低频带激励信号144而产生高频带旁侧信息172。举例来说,高频带旁侧信息172可包含高频带LSP、增益信息及/或相位信息。
如所说明,高频带分析模块150可包含LP分析及译码模块152、LPC到LSP变换模块154及量化器156。LP分析及译码模块152、变换模块154及量化器156中的每一者可如上文参考低频带分析模块130的对应组件所描述但以相对减少的分辨率(例如,对于每一系数、LSP等使用较少位)起作用。LP分析及译码模块152可针对高频带目标信号126产生一组LPC,其由变换模块154变换成一组LSP且由量化器156基于码簿163量化。
LP分析及译码模块152、变换模块154及量化器156可使用高频带目标信号126来确定包含于高频带旁侧信息172中的高频带滤波器信息(例如,高频带LSP)。举例来说,LP分析及译码模块152、变换模块154及量化器156可使用高频带目标信号126及高频带激励信号162以确定高频带旁侧信息172。
量化器156可经配置以量化例如由变换模块154提供的LSP的频谱频率值的集合。在其它实施方案中,量化器156可接收且量化除LSF或LSP以外或替代LSF或LSP的一或多个其它类型的频谱频率值的集合。举例来说,量化器156可接收且量化由LP分析及译码模块152产生的LPC的集合。其它实例包含可在量化器156处经接收且量化的部分自相关系数、对数面积比率值及ISF的集合。量化器156可包含向量量化器,其将输入向量(例如,呈向量格式的频谱频率值的集合)编码为表或码簿(例如码簿163)中的对应条目的索引。作为另一实例,量化器156可经配置以确定一或多个参数,可在解码器处,例如在稀疏码簿实施方案中从所述一或多个参数动态地产生输入向量,而非从存储器检索输入向量。为了说明,稀疏码簿实例可应用于例如CELP的译码方案及根据例如3GPP2(第三代合作伙伴2)EVRC(增强型变化速率编码解码器)的业界标准的编码解码器中。在另一实施方案中,高频带分析模块150可包含量化器156,且可经配置以使用多个码簿向量以(例如,根据滤波器参数的集合)产生合成信号,及选择与合成信号相关联的码簿向量中的(例如在经感知加权域中)与高频带目标信号126最优选地匹配的一者。
高频带分析模块150还可包含高频带激励产生器160。高频带激励产生器160可基于来自低频带分析模块130的低频带激励信号144产生高频带激励信号162(例如,谐波延伸的信号)。高频带分析模块150还可包含LP合成模块166。LP合成模块166使用由量化器156产生的LPC信息以产生高频带目标信号126的合成版本。高频带激励产生器160及LP合成模块166可包含于仿真接收器处的解码器器件处的性能的本地解码器中。LP合成模块166的输出可以用于与高频带目标信号126比较,且可基于比较而调整参数(例如,增益参数)。
低频带位流142及高频带旁侧信息172可由多路复用器170进行多路复用以产生输出位流199。输出位流199可表示对应于输入音频信号102的经编码音频信号。输出位流199可由发射器198发射(例如,经由有线、无线或光学信道)及/或存储。在接收器处,反向操作可由多路分用器(DEMUX)、低频带解码器、高频带解码器及滤波器组执行,以产生音频信号(例如,被提供到扬声器或其它输出装置的输入音频信号102的重构建版本)。用于表示低频带位流142的位数目可大体上大于用于表示高频带旁侧信息172的位数目。因此,输出位流199中的大部分位可表示低频带数据。高频带旁侧信息172可在接收器处用以根据信号模型从低频带数据再生高频带激励信号162、164。举例来说,信号模型可表示低频带数据(例如,低频带信号122)与高频带数据(例如,高频带目标信号126)之间的关系或相关性的预期集合。因此,不同信号模型可用于不同种类的音频数据(例如,话语、音乐等),且可在传达经编码音频数据之前由发射器及接收器协商(或通过业界标准界定)使用中的特定信号模型。使用信号模型,发射器处的高频带分析模块150可能够产生高频带旁侧信息172,使得接收器处的对应高频带分析模块能够使用信号模型以从输出位流199重构建高频带目标信号126。
图1的系统100可基于由缩放因数选择模块107选择的动态缩放因数而控制高频带目标信号126的精确度。举例来说,在低频带的第一能量级别显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以减小余裕空间量。减小余裕空间量可提供用以产生高频带目标信号126的较大范围,使得可更精确地捕获高频带的能量。通过高频带目标信号精确地捕获高频带的能量可改进对高频带增益参数(例如,高频带旁侧信息172)的估算且减小伪影。在低频带的第一能量级别并不显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以增大余裕空间量。增大所述量可减小在产生高频带目标信号126期间饱和的可能性。举例来说,在抽取期间,高频带目标信号产生模块113可执行在并不存在足够余裕空间的情况下可引起饱和的额外操作。增大余裕空间量(或维持预定义余裕空间量)可大大减小高频带目标信号126的饱和。
参考图4A,展示产生高频带目标信号的方法400的流程图。可通过图1的系统100执行方法400。
方法400包含在402处在编码器处接收具有低频带部分及高频带部分的输入信号。举例来说,参看图1,分析滤波器频带110可接收输入音频信号102。特定地说,重采样器103、频谱倾斜分析模块105及缩放模块109可接收输入音频信号102。输入音频信号102可具有频率范围在0Hz与6kHz之间的低频带部分。输入音频信号102还可具有频率范围在6kHz与8kHz之间的高频带部分。
在404处,可确定与输入信号相关联的频谱倾斜。频谱倾斜可基于输入信号的能量分布。根据一个实施方案,输入信号的能量分布可至少部分基于低频带的第一能量级别及高频带的第二能量级别。参考图1,频谱倾斜分析模块105可确定与输入音频信号102相关联的频谱倾斜。频谱倾斜可基于输入音频信号102的能量分布。举例来说,频谱倾斜可基于处于滞后指数零的自相关(R0)(表示时域中的输入音频信号102的整个频带的能量)与处于滞后指数一的自相关(R1)(表示时域中的高频带的能量)之间的比值。根据一个实施方案,可基于邻近样本的乘积总和而计算处于滞后指数一的自相关(R1)。可将频谱倾斜表达为由自相关(R1)与自相关(R0)产生的商(例如,R1/R0)。频谱倾斜分析模块105可产生指示频谱倾斜的信号106且可将信号106提供到缩放因数选择模块107。
在406处,可基于频谱倾斜而选择缩放因数。举例来说,参考图1,缩放因数选择模块107可选择待用以缩放输入音频信号102的缩放因数。缩放因数可基于由信号106指示的频谱倾斜。举例来说,缩放因数选择模块107可比较频谱倾斜与阈值以确定缩放因数。如果频谱倾斜未能满足阈值(例如,并不小于阈值或R1/R0>=0.95),那么缩放因数选择模块107可选择第一缩放因数。选择第一缩放因数可指示低频带的第一能量级别显著地大于高频带的第二能量级别的情境。举例来说,输入音频信号102的能量分布在频谱倾斜不能满足阈值时可相对陡峭。如果频谱倾斜满足阈值(例如,小于阈值),那么缩放因数模块107可选择第二缩放因数。选择第二缩放因数可指示低频带的第一能量级别并不显著地大于高频带的第二能量级别的情境。举例来说,输入音频信号102的能量分布在频谱倾斜满足阈值准则(即R1/R0<0.95)时可横跨低频带及高频带相对平坦。
在408处,可按缩放因数缩放输入信号以产生经缩放输入信号。举例来说,参考图1,缩放模块109可按所选缩放因数缩放输入音频信号102以产生经缩放输入音频信号112。为了说明,如果选择第一缩放因数,那么缩放模块109可缩放输入音频信号102使得所得经缩放输入音频信号112具有第一余裕空间量。如果选择第二缩放因数,那么缩放模块109可缩放输入音频信号102,使得所得经缩放输入音频信号112具有小于第一余裕空间量的第二余裕空间量。根据一个实施方案,第一余裕空间量可等于三个位的余裕空间,且第二余裕空间量可等于零个位的余裕空间。产生具有第一余裕空间量的经缩放输入音频信号112可减小在产生高频带目标信号126期间饱和的可能性。产生具有第二余裕空间量的经缩放输入音频信号112可实现对低能量高频带的更精确能量估算,此举又可减小伪影。
在410处,可基于经缩放输入信号而产生高频带目标信号。举例来说,参看图1,可对经缩放输入音频信号112执行频谱翻转操作以产生频谱翻转的信号。另外,可对频谱翻转的信号执行抽取操作以产生高频带目标信号126。根据一个实施方案,抽取操作可按为四的因数抽取频谱翻转的信号。方法400还可包含基于高频带目标信号而产生线性预测频谱包络、时间增益参数或其组合。
图4A的方法400可基于由缩放因数选择模块107选择的动态缩放因数而控制高频带目标信号126的精确度。举例来说,在低频带的第一能量级别显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以减小余裕空间的量。减小余裕空间的量可提供用以产生高频带目标信号126的较大范围,使得可更精确地捕获高频带的能量。通过高频带目标信号精确地捕获高频带的能量可改进对高频带增益参数(例如,高频带旁侧信息172)的估算且减小伪影。在低频带的第一能量级别并不显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以增大余裕空间的量。增大所述量可减小在产生高频带目标信号126期间饱和的可能性。举例来说,在抽取期间,高频带目标信号产生模块113可执行在不存在足够余裕空间的情况下可引起饱和的额外操作。增大余裕空间的量(或维持预定义余裕空间量)可大大减小高频带目标信号126的饱和。
参考图4B,展示产生高频带目标信号的方法420的另一流程图。可通过图1的系统100执行方法420。
方法420包含在422处在编码器处接收具有低频带部分及高频带部分的输入信号。举例来说,分析滤波器组110可接收输入音频信号102。特定地说,重采样器103、频谱倾斜分析模块105及缩放模块109可接收输入音频信号102。输入音频信号102可具有频率范围在0Hz与6kHz之间的低频带部分。输入音频信号102还可具有频率范围在6kHz与8kHz之间的高频带部分。
在424处,可比较输入信号的第一自相关值与输入信号的第二自相关值。举例来说,根据上文所描述的伪码,分析滤波器组110可使用输入音频信号102的处于滞后指数一的自相关(R1)(“temp2”)及处于滞后指数零的自相关(R0)(“temp1”)来执行比较操作。为了说明,分析滤波器组110可确定第二自相关值(例如,处于滞后指数一的自相关(R1))是否小于第一自相关值(例如,处于滞后指数零的自相关(R0))与阈值(例如,百分之95阈值)的乘积。可基于邻近样本的乘积总和而计算处于滞后指数一的自相关(R1)。
在426处,可按缩放因数缩放输入信号以产生经缩放输入信号。可基于比较的结果确定缩放因数。举例来说,参考图1,如果第二自相关值(R1)并不小于第一自相关值(R0)与阈值(例如,0.95)的乘积,那么缩放因数选择模块107可将第一缩放因数选择为缩放因数。如果第二自相关值(R1)小于第一自相关值(R0)与阈值(例如,0.95)的乘积,那么缩放因数选择模块107可将第二缩放因数选择为缩放因数。缩放模块109可按所选缩放因数缩放输入音频信号102以产生经缩放输入音频信号112。为了说明,如果选择第一缩放因数,那么缩放模块109可缩放输入音频信号102使得所得经缩放输入音频信号112具有第一余裕空间量。如果选择第二缩放因数,那么缩放模块109可缩放输入音频信号102,使得所得经缩放输入音频信号112具有小于第一余裕空间量的第二余裕空间量。根据一个实施方案,第一余裕空间量可等于三个位的余裕空间,且第二余裕空间量可等于零个位的余裕空间。产生具有第一余裕空间量的经缩放输入音频信号112可减小在产生高频带目标信号126期间饱和的可能性。产生具有第二余裕空间量的经缩放输入音频信号112可实现对低能量高频带的更精确能量估算,此举又可减小伪影。在其它替代性说明性实施方案中,缩放因数选择模块107可基于在第一自相关值与第二自相关值之间所执行的比较的多个阈值而在多个(例如,多于2个)缩放因数之间作出选择。或者,缩放因数选择模块107可将第一及第二自相关值映射成输出缩放因数。
在一替代实施方案中,缩放因数选择模块107可将第一缩放因数选择为缩放因数。如果第二自相关值(R1)小于第一自相关值(R0)与阈值(例如,0.95)的乘积,那么缩放因数选择模块107可将缩放因数的值修改成第二缩放因数。缩放模块109可按所选缩放因数缩放输入音频信号102以产生经缩放输入音频信号112。为了说明,如果选择第一缩放因数且并不将缩放因数的值修改成第二缩放因数,那么缩放模块109可缩放输入音频信号102使得所得经缩放输入音频信号112具有第一余裕空间量。如果基于第一自相关值与第二自相关值的比较而将缩放因数的值从第一缩放因数修改成第二缩放因数,那么缩放模块109可缩放输入音频信号102使得所得经缩放输入音频信号112具有小于第一余裕空间量的第二余裕空间量。根据一个实施方案,第一余裕空间量可等于三个位的余裕空间,且第二余裕空间量可等于零个位的余裕空间。
在428处,可基于输入信号而产生低频带信号,且可基于经缩放输入信号而产生高频带目标信号。可独立于经缩放输入信号产生低频带信号。举例来说,参看图1,可对经缩放输入音频信号112执行频谱翻转操作以产生频谱翻转的信号。另外,可对频谱翻转的信号执行抽取操作以产生高频带目标信号126。另外,重采样器103可滤除输入音频信号102的高频分量以产生低频带信号122。
根据方法420,如果第二自相关值(R1)小于阈值(0.95)乘以第一自相关值(R0),那么参数(Q_wb_sp)可在缩放期间维持另外三个位的额外余裕空间,以减小在产生高频带目标信号126期间饱和的可能性。如果第二自相关值(R1)并不小于阈值(0.95)乘以第一自相关值(R0),那么(Q_wb_sp)可在缩放期间将额外余裕空间减小到零个位以提供用以产生高频带目标信号126的较大范围,使得可更精确地捕获高频带的能量。根据伪码,输入信号向左移位了Q_wb_sp数目个位,意味着由107选择的最终缩放因数将对应于2Q_wb_sp。通过高频带目标信号精确地捕获高频带的能量可改进对高频带增益参数(例如,高频带旁侧信息172)的估算且减小伪影。在一些实例实施例中,可将高频带目标信号126重新缩放回到原始输入电平(例如,按Q因数:Q0或Q-1),使得跨帧的存储器更新、高频带参数估算以及高频带合成维持固定的时间缩放因数调整。
图4B的方法420可基于由缩放因数选择模块107选择的动态缩放因数而控制高频带目标信号126的精确度。举例来说,在低频带的第一能量级别显著地大于高频带的第二能量级别的情境中,可缩放输入音频信号102以减小余裕空间量。减小余裕空间量可提供用以产生高频带目标信号126的较大范围,使得可更精确地捕获高频带的能量。
在特定实施方案中,图4A到4B的方法400、420可经由处理单元(例如中央处理单元(CPU)、DSP或控制器)的硬件(例如,FPGA装置、ASIC等)、经由固件装置或其任何组合予以实施。作为一实例,可通过执行指令的处理器执行图4A到4B的方法400、420,如关于图5所描述。
参看图5,描绘装置的框图且大体上将其指定为500。在一特定实施方案中,装置500包含处理器506(例如,CPU)。装置500可包含一或多个额外处理器510(例如,一或多个DSP)。处理器510可包含话语及音乐CODEC 508。话语及音乐CODEC 508可包含声码器编码器592、声码器解码器(未展示)或两者。在一特定实施方案中,声码器编码器592可包含编码系统,例如图1的系统100。
装置500可包含存储器532及耦合到天线542的无线控制器540。装置500可包含耦合到显示控制器526的显示器528。扬声器536、麦克风538或两者可耦合到CODEC534。CODEC534可包含数字/模拟转换器(DAC)502及模拟/数字转换器(ADC)504。
在一特定实施方案中,CODEC 534可从麦克风538接收模拟信号,使用模拟/数字转换器504将模拟信号转换成数字信号,且(例如)以脉码调制(PCM)格式将数字信号提供到话语及音乐CODEC 508。话语及音乐CODEC 508可处理数字信号。在一特定实施方案中,话语及音乐CODEC 508可将数字信号提供到CODEC 534。CODEC 534可使用数字/模拟转换器502将数字信号转换成模拟信号,且可将模拟信号提供到扬声器536。
存储器532可包含可由处理器506、处理器510、CODEC 534、装置500的另一处理单元或其组合执行,以执行本文中所公开的方法及程序(例如,图4A到4B的方法400、420)的指令560。图1的系统100的一或多个组件可经由专用硬件(例如,电路系统),由执行指令(例如,指令560)以执行一或多个任务的处理器或其组合实施。作为实例,存储器532或处理器506、处理器510及/或CODEC 534的一或多个组件可以是存储器装置,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可去除式磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如,指令560),指令在由计算机(例如,CODEC 534中的处理器、处理器506及/或处理器510)执行时可使得计算机执行图4A到4B的方法400、420。作为一实例,存储器532或处理器506、处理器510及/或CODEC 534的一或多个组件可以是包含指令(例如,指令560)的非暂时性计算机可读媒体,所述指令在由计算机(例如,CODEC 534中的处理器、处理器506及/或处理器510)执行时使得计算机执行图4A到4B的方法400、420的至少一部分。
在一特定实施方案中,装置500可包含于系统级封装或系统单芯片装置522(例如,移动台调制解调器(MSM))中。在一特定实施方案中,处理器506、处理器510、显示控制器526、存储器532、CODEC 534及无线控制器540包含于系统级封装或系统单芯片装置522中。在一特定实施方案中,例如触控屏幕及/或小键盘的输入装置530及电力供应器544耦合到系统单芯片装置522。此外,在一特定实施方案中,如图5中所说明,显示器528、输入装置530、扬声器536、麦克风538、天线542及电力供应器544在系统单芯片装置522外部。然而,显示器528、输入装置530、扬声器548、麦克风546、天线542及电力供应器544中的每一者可耦合到系统单芯片装置522的组件,例如接口或控制器。在说明性实例中,装置500对应于移动通信装置、智能型手机、蜂窝式电话、膝上型计算机、计算机、平板计算机、个人数字助理、显示装置、电视、游戏控制台、音乐播放器、收音机、数字视频播放器、光盘播放器、调谐器、摄影机、导航装置、解码器系统、编码器系统或其任一组合。
结合所描述实施方案,一种设备包含用于接收具有低频带部分及高频带部分的输入信号的装置。举例来说,用于接收输入信号的装置可包含图1的分析滤波器组110、图1的重采样器103、图1的频谱倾斜分析模块105、图1的缩放模块109、图5的话语及音乐CODEC508、图5的声码器编码器592、经配置以接收输入信号的一或多个装置(例如,执行非暂时性计算机可读存储媒体处的指令的处理器)、或其组合。
设备还可包含用于比较输入信号的第一自相关值与输入信号的第二自相关值的装置。举例来说,用于比较的装置可包含图1的分析滤波器组110、图5的话语及音乐CODEC508、图5的声码器编码器592、经配置以比较第一自相关值与第二自相关值的一或多个装置(例如,执行非暂时性计算机可读存储媒体处的指令的处理器)、或其组合。
设备还可包含用于按缩放因数缩放输入信号以产生经缩放输入信号的装置。可基于比较的结果确定缩放因数。举例来说,用于缩放输入信号的装置可包含图1的分析滤波器组110、图1的缩放模块109、图5的话语及音乐CODEC 508、图5的声码器编码器592、经配置以缩放输入信号的一或多个装置(例如,执行非暂时性计算机可读存储媒体处的指令的处理器)、或其组合。
设备还可包含用于基于输入信号而产生低频带信号的装置。可独立于经缩放输入信号产生低频带信号。举例来说,用于产生低频带信号的装置可包含图1的分析滤波器组110、图1的重采样器103、图5的话语及音乐CODEC 508、图5的声码器编码器592、经配置以产生高频带目标信号的一或多个装置(例如,执行非暂时性计算机可读存储媒体处的指令的处理器)、或其组合。
设备还可包含用于基于经缩放输入信号而产生高频带目标信号的装置。举例来说,用于产生高频带目标信号的装置可包含图1的分析滤波器组110、图1的高频带目标信号产生模块113、图5的话语及音乐CODEC 508、图5的声码器编码器592、经配置以产生低频带信号的一或多个装置(例如,执行非暂时性计算机可读存储媒体处的指令的处理器)、或其组合。
参考图6,描绘基站600的一特定说明性实例的框图。在各种实施方案中,基站600可比图6中所说明具有更多组件或更少组件。在一说明性实例中,基站600可包含图1的系统100。在一说明性实例中,基站600可根据图4A的方法400、图4B的方法420或其组合而操作。
基站600可以是无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可以是长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统,或一些其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA),或某一其它版本的CDMA。
无线装置还可被称作用户设备(UE)、移动台、终端机、存取终端机、用户单元、台等。无线装置可包含蜂窝式电话、智能电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能笔记型计算机、迷你笔记型计算机、平板计算机、无接线电话、无线本地回路(WLL)台、蓝牙装置等。无线装置可包含或对应于图5的装置500。
可通过基站600的一或多个组件(及/或在未展示的其它组件中)执行各种功能,例如发送及接收消息及数据(例如,音频数据)。在一特定实例中,基站600包含处理器606(例如,CPU)。基站600可包含转码器610。转码器610可包含音频CODEC 608。举例来说,转码器610可包含经配置以执行音频CODEC 608的操作的一或多个组件(例如,电路系统)。作为另一实例,转码器610可经配置以执行一或多个计算机可读指令以执行音频CODEC 608的操作。尽管音频CODEC 608说明为转码器610的组件,但在其它实例中,音频CODEC 608的一或多个组件可包含于处理器606、另一处理组件,或其组合中。举例来说,声码器解码器638可包含于接收器数据处理器664中。作为另一实例,声码器编码器636可包含于传输数据处理器667中。
转码器610可起到在两个或多于两个网络之间转码消息及数据的作用。转码器610可经配置以将消息及音频数据从第一格式(例如,数字格式)转换成第二格式。为进行说明,声码器解码器638可对具有第一格式的经编码信号进行解码,且声码器编码器636可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器610可经配置以执行数据速率调适。举例来说,转码器610可在不改变音频数据格式的情况下降频转换数据速率或升频转换数据速率。为进行说明,转码器610可将64千位/s信号降频转换成16千位/s信号。
音频CODEC 608可包含声码器编码器636及声码器解码器638。声码器编码器636可包含编码选择器、话语编码器、及音乐编码器,如参看图5所描述。声码器解码器638可包含解码器选择器、话语解码器及音乐解码器。
基站600可包含存储器632。例如计算机可读存储装置的存储器632可包含指令。指令可包含可由处理器606、转码器610或其组合执行以执行图4A的方法400、图4B的方法420或其组合的一或多个指令。基站600可包含耦合到天线的阵列的多个发射器及接收器(例如,收发器),例如第一收发器652及第二收发器654。天线的阵列可包含第一天线642及第二天线644。天线的阵列可经配置以与一或多个无线装置以无线方式通信,例如图5的装置500。举例来说,第二天线644可从无线装置接收数据流614(例如,位流)。数据流614可包含消息、数据(例如,经编码话语数据),或其组合。
基站600可包含网络连接660,例如空载传输连接。网络连接660可经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站600可经由网络连接660从核心网络接收第二数据流(例如,消息或音频数据)。基站600可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供到一或多个无线装置,或经由网络连接660将消息或音频数据提供到另一基站。在特定实施方案中,网络连接660可以是广域网(WAN)连接,作为说明性非限制性实例。在一些实施方案中,核心网络可包含或对应于公众交换电话网络(PSTN)、包骨干网络或两者。
基站600可包含耦合到网络连接660及处理器606的媒体网关670。媒体网关670可经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关670可在不同传输协议、不同译码方案或两者之间转换。为了说明,媒体网关670可从PCM信号转换成实时输送协议(RTP)信号,作为说明性非限制性实例。媒体网关670可使数据在包交换网络(例如,因特网通讯协议语音(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络,例如LTE、WiMax及UMB等)、电路交换网络(例如,PSTN)与混合型网络(例如,第二代(2G)无线网络,例如GSM、GPRS及EDGE、第三代(3G)无线网络,例如WCDMA、EV-DO及HSPA等)之间转换。
另外,媒体网关670可包含例如转码器610的转码器,且可经配置以在编解码器不相容时转码数据。举例来说,媒体网关670可在可调式多重速率(AMR)编码解码器与G.711编码解码器之间进行转码,作为说明性非限制性实例。媒体网关670可包含路由器及多个物理接口。在一些实施方案中,媒体网关670还可包含控制器(未展示)。在一特定实施方案中,媒体网关控制器可在媒体网关670外部、在基站600外部或在两者外部。媒体网关控制器可控制且协调多个媒体网关的操作。媒体网关670可从媒体网关控制器接收控制信号,且可起到桥接不同传输技术的作用,且可为终端用户能力及连接添加服务。
基站600可包含耦合到收发器652、654、接收器数据处理器664及处理器606的解调器662,且接收器数据处理器664可耦合到处理器606。解调器662可经配置以解调从收发器652、654所接收的经调制信号,且可经配置以将经解调数据提供到接收器数据处理器664。接收器数据处理器664可经配置以从经解调数据提取消息或音频数据,且将消息或音频数据发送到处理器606。
基站600可包含传输数据处理器667及传输多输入多输出(MIMO)处理器668。传输数据处理器667可耦合到处理器606及传输MIMO处理器668。传输MIMO处理器668可耦合到收发器652、654及处理器606。在一些实施方案中,传输MIMO处理器668可耦合到媒体网关670。传输数据处理器667可经配置以从处理器606接收消息或音频数据,且可经配置以基于译码方案(例如CDMA或正交频分复用(OFDM))对消息或音频数据进行译码,作为说明性非限制性实例。传输数据处理器667可将经译码数据提供到传输MIMO处理器668。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用,以产生经多路复用数据。接着可通过传输数据处理器667,基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M-元相移键控(“M-PSK”)、M-元正交振幅调制(“M-QAM”)等)而调制(即,符号映射)经多路复用数据以产生调制符号。在一特定实施方案中,可使用不同调制方案调制经译码数据及其它数据。可通过处理器606执行的指令确定针对每一数据流的数据速率、译码及调制。
传输MIMO处理器668可经配置以从传输数据处理器667接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,传输MIMO处理器668可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线(从天线发射调制符号)。
在操作期间,基站600的第二天线644可接收数据流614。第二收发器654可从第二天线644接收数据流614且可将数据流614提供到解调器662。解调器662可解调数据流614的经调制信号且将经解调数据提供到接收器数据处理器664。接收器数据处理器664可从经解调数据提取音频数据,且将所提取音频数据提供到处理器606。
处理器606可将音频数据提供到转码器610以供转码。转码器610的声码器解码器638可将音频数据从第一格式解码成经解码音频数据,且声码器编码器636可将经解码音频数据编码成第二格式。在一些实施方案中,声码器编码器636可相比从无线装置接收的音频数据使用较高数据速率(例如,升频转换)或较低数据速率(例如,降频转换)来编码音频数据。在其它实施方案中,音频数据可未经转码。尽管转码(例如,解码及编码)被说明为由转码器610执行,但转码操作(例如,解码及编码)可由基站600的多个组件执行。举例来说,解码可由接收器数据处理器664执行,且编码可由传输数据处理器667执行。在其它实施方案中,处理器606可将音频数据提供到媒体网关670以用于转换成另一传输协议、译码方案或两者。媒体网关670可经由网络连接660将经转换数据提供到另一基站或核心网络。
声码器解码器638、声码器编码器636或两者可接收参数数据且可逐帧地识别参数数据。声码器解码器638、声码器编码器636或两者可逐帧地基于参数数据而对合成信号进行分类。合成信号可分类为话语信号、非话语信号、音乐信号、嘈杂话语信号、背景噪音信号或其一组合。声码器解码器638、声码器编码器636或两者可基于分类选择特定解码器、编码器或两者。可经由处理器606将在声码器编码器636处所产生的经编码音频数据,例如经转码数据提供到传输数据处理器667或网络连接660。
可将来自转码器610的经转码音频数据提供到传输数据处理器667,以供根据调制方案(例如OFDM)译码以产生调制符号。传输数据处理器667可将调制符号提供到传输MIMO处理器668以供进一步处理及波束成形。传输MIMO处理器668可应用波束成形权重,且可经由第一收发器652将调制符号提供到天线阵列的一或多个天线,例如第一天线642。因此,基站600可将对应于从无线装置所接收的数据流614的经转码数据流616提供到另一无线装置。经转码数据流616可具有与数据流614不同的编码格式、数据速率或两者。在其它实施方案中,可将经转码数据流616提供到网络连接660以供传输到另一基站或核心网络。
基站600可因此包含计算机可读存储装置(例如,存储器632),所述计算机可读存储装置存储在由处理器(例如,处理器606或转码器610)执行时使得处理器执行操作的指令,所述操作包含对经编码音频信号进行解码以产生合成信号。操作还可包含基于从经编码音频信号所确定的至少一个参数而对合成信号进行分类。
所属领域的技术人员将进一步了解,结合本文中所公开的实施方案所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件、或两者的组合。上文大体上在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。将此功能性实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。对于各特定应用而言,所属领域的技术人员可以变化的方式实施所描述功能性,但不应将所述实施决策解释为导致脱离本发明的范围。
结合本文中所公开的实施方案而描述的方法或算法的步骤可直接体现于硬件、由处理器执行的软件模块或其两者的组合中。软件模块可存在于存储器装置中,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、抽取式磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合到处理器,使得处理器可从存储器装置读取信息且将信息写入到存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器及存储媒体可存在于ASIC中。ASIC可存在于计算装置或用户终端机中。在替代方案中,处理器及存储媒体可作为离散组件存在于计算装置或用户终端机中。
提供对所公开实施方案的先前描述,以使得所属领域的技术人员能够制作或使用所公开实施方案。对于这些实施方案的各种修改对于所属领域的技术人员将易于显而易见,且可在不脱离本发明的范围的情况下将本文中所定义的原理应用于其它实施方案。因此,本发明并非打算限于本文中所展示实施方案,而应被赋予可能与如由以下权利要求书定义的原理及新颖特征相一致的最广泛范围。

Claims (35)

1.一种用于对输入音频信号进行编码的方法,所述方法包括:
在编码器处接收输入音频信号,所述输入音频信号具有低频带部分及高频带部分,所述低频带部分具有第一能量级别,所述高频带部分具有第二能量级别;
通过比较所述输入音频信号的第一自相关值与所述输入音频信号的第二自相关值,来确定表示所述输入音频信号的能量分布的频谱倾斜;
按缩放因数缩放所述输入音频信号以产生经缩放输入信号,所述缩放因数是基于所述输入音频信号的所述频谱倾斜而确定的;
基于所述输入音频信号而产生低频带激励信号;
基于所述经缩放输入信号而产生高频带目标信号;
根据所述高频带目标信号和所述低频带激励信号来产生高频带旁侧信息,解码器能够根据所述高频带旁侧信息来重构建所述高频带目标信号;及
将所述高频带旁侧信息编码为表示所述输入音频信号的位流的一部分。
2.根据权利要求1所述的方法,其中比较所述第一自相关值与所述第二自相关值包括比较所述第二自相关值与所述第一自相关值和阈值的乘积,且其中按所述缩放因数缩放所述输入音频信号包括:
如果所述比较产生第一结果,那么按第一缩放因数缩放所述输入音频信号;或
如果所述比较产生第二结果,那么按第二缩放因数缩放所述输入音频信号。
3.根据权利要求2所述的方法,其中所述经缩放输入信号响应于按所述第一缩放因数缩放所述输入音频信号而具有第一余裕空间量,其中所述经缩放输入信号响应于按所述第二缩放因数缩放所述输入音频信号而具有第二余裕空间量,且其中所述第二余裕空间量大于所述第一余裕空间量。
4.根据权利要求3所述的方法,其中所述第一余裕空间量等于零个位的余裕空间,且其中所述第二余裕空间量等于三个位的余裕空间。
5.根据权利要求1所述的方法,其中产生所述高频带目标信号包括:
对所述经缩放输入信号执行频谱翻转操作以产生频谱翻转的信号;及
对所述频谱翻转的信号执行抽取操作以产生所述高频带目标信号。
6.根据权利要求5所述的方法,其中所述抽取操作按为四的因数抽取所述频谱翻转的信号。
7.根据权利要求1所述的方法,其中所述低频带部分具有0赫兹(Hz)与6千赫兹(kHz)之间的频率范围。
8.根据权利要求1所述的方法,其中所述高频带部分具有6千赫兹(kHz)与8kHz之间的频率范围。
9.根据权利要求1所述的方法,其进一步包括基于所述高频带目标信号而产生线性预测频谱包络、时间增益参数或其组合。
10.根据权利要求1所述的方法,其中在包括移动通信装置的装置处执行比较所述第一自相关值与所述第二自相关值及缩放所述输入音频信号。
11.根据权利要求1所述的方法,其中在包括基站的装置处执行比较所述第一自相关值与所述第二自相关值及缩放所述输入音频信号。
12.一种用于对输入音频信号进行编码的设备,其包括:
编码器;及
存储器,其存储可由所述编码器内的处理器执行的指令,以执行包括以下的操作:
通过比较输入音频信号的第一自相关值与所述输入音频信号的第二自相关值来确定表示所述输入音频信号的能量分布的频谱倾斜,所述输入音频信号具有低频带部分及高频带部分,所述低频带部分具有第一能量级别,所述高频带部分具有第二能量级别;
按缩放因数缩放所述输入音频信号以产生经缩放输入信号,所述缩放因数是基于所述输入音频信号的所述频谱倾斜而确定的;
基于所述输入音频信号而产生低频带激励信号;
基于所述经缩放输入信号而产生高频带目标信号;
根据所述高频带目标信号和所述低频带激励信号来产生高频带旁侧信息,解码器能够根据所述高频带旁侧信息来重构建所述高频带目标信号;及
将所述高频带旁侧信息编码为表示所述输入音频信号的位流的一部分。
13.根据权利要求12所述的设备,其中比较所述第一自相关值与所述第二自相关值包括比较所述第二自相关值与所述第一自相关值和阈值的乘积,且其中按所述缩放因数缩放所述输入音频信号包括:
如果所述比较产生第一结果,那么按第一缩放因数缩放所述输入音频信号;或
如果所述比较产生第二结果,那么按第二缩放因数缩放所述输入音频信号。
14.根据权利要求13所述的设备,其中所述经缩放输入信号响应于按所述第一缩放因数缩放所述输入音频信号而具有第一余裕空间量,其中所述经缩放输入信号响应于按所述第二缩放因数缩放所述输入音频信号而具有第二余裕空间量,且其中所述第二余裕空间量大于所述第一余裕空间量。
15.根据权利要求14所述的设备,其中所述第一余裕空间量等于零个位的余裕空间,且其中所述第二余裕空间量等于三个位的余裕空间。
16.根据权利要求12所述的设备,其中产生所述高频带目标信号包括:
对所述经缩放输入信号执行频谱翻转操作以产生频谱翻转的信号;及
对所述频谱翻转的信号执行抽取操作以产生所述高频带目标信号。
17.根据权利要求16所述的设备,其中所述抽取操作按为四的因数抽取所述频谱翻转的信号。
18.根据权利要求12所述的设备,其中所述低频带部分具有0赫兹(Hz)与6千赫兹(kHz)之间的频率范围。
19.根据权利要求12所述的设备,其中所述高频带部分具有6千赫兹(kHz)与8kHz之间的频率范围。
20.根据权利要求12所述的设备,其中所述操作进一步包括基于所述高频带目标信号而产生线性预测频谱包络、时间增益参数或其组合。
21.根据权利要求12所述的设备,其进一步包括:
天线;及
发射器,其耦合到所述天线且经配置以传输经编码音频信号。
22.根据权利要求21所述的设备,其中所述编码器、所述存储器及所述发射器集成于移动通信装置中。
23.根据权利要求21所述的设备,其中所述编码器、所述存储器及所述发射器集成于基站中。
24.一种非暂时性计算机可读媒体,其包括用于对输入音频信号进行编码的指令,所述指令在由编码器内的处理器执行时使得所述处理器执行包括以下的操作:
通过比较输入音频信号的第一自相关值与所述输入音频信号的第二自相关值来确定表示所述输入音频信号的能量分布的频谱倾斜,所述输入音频信号具有低频带部分及高频带部分,所述低频带部分具有第一能量级别,所述高频带部分具有第二能量级别;
按缩放因数缩放所述输入音频信号以产生经缩放输入信号,所述缩放因数是基于所述输入音频信号的所述频谱倾斜而确定的;
基于所述输入音频信号而产生低频带激励信号;
基于所述经缩放输入信号而产生高频带目标信号;
根据所述高频带目标信号和所述低频带激励信号来产生高频带旁侧信息,解码器能够根据所述高频带旁侧信息来重构建所述高频带目标信号;及
将所述高频带旁侧信息编码为表示所述输入音频信号的位流的一部分。
25.根据权利要求24所述的非暂时性计算机可读媒体,其中比较所述第一自相关值与所述第二自相关值包括比较所述第二自相关值与所述第一自相关值和阈值的乘积,且其中按所述缩放因数缩放所述输入音频信号包括:
如果所述比较产生第一结果,那么按第一缩放因数缩放所述输入音频信号;或
如果所述比较产生第二结果,那么按第二缩放因数缩放所述输入音频信号。
26.根据权利要求25所述的非暂时性计算机可读媒体,其中所述经缩放输入信号响应于按所述第一缩放因数缩放所述输入音频信号而具有第一余裕空间量,其中所述经缩放输入信号响应于按所述第二缩放因数缩放所述输入音频信号而具有第二余裕空间量,且其中所述第二余裕空间量大于所述第一余裕空间量。
27.根据权利要求26所述的非暂时性计算机可读媒体,其中所述第一余裕空间量等于零个位的余裕空间,且其中所述第二余裕空间量等于三个位的余裕空间。
28.根据权利要求24所述的非暂时性计算机可读媒体,其中产生所述高频带目标信号包括:
对所述经缩放输入信号执行频谱翻转操作以产生频谱翻转的信号;及
对所述频谱翻转的信号执行抽取操作以产生所述高频带目标信号。
29.根据权利要求28所述的非暂时性计算机可读媒体,其中所述抽取操作按为四的因数抽取所述频谱翻转的信号。
30.根据权利要求24所述的非暂时性计算机可读媒体,其中所述低频带部分具有0赫兹(Hz)与6千赫兹(kHz)之间的频率范围。
31.一种用于对输入音频信号进行编码的设备,其包括:
用于接收输入音频信号的装置,所述输入音频信号具有低频带部分及高频带部分,所述低频带部分具有第一能量级别,所述高频带部分具有第二能量级别;
用于通过比较所述输入音频信号的第一自相关值与所述输入音频信号的第二自相关值来确定表示所述输入音频信号的能量分布的频谱倾斜的装置;
用于按缩放因数缩放所述输入音频信号以产生经缩放输入信号的装置,所述缩放因数是基于所述输入音频信号的所述频谱倾斜而确定的;
用于基于所述输入音频信号而产生低频带激励信号的装置;
用于基于所述经缩放输入信号而产生高频带目标信号的装置;
用于根据所述高频带目标信号和所述低频带激励信号来产生高频带旁侧信息的装置,解码器能够根据所述高频带旁侧信息来重构建所述高频带目标信号;及
用于将所述高频带旁侧信息编码为表示所述输入音频信号的位流的一部分的装置。
32.根据权利要求31所述的设备,其中用于产生所述高频带目标信号的所述装置包括:
用于对所述经缩放输入信号执行频谱翻转操作以产生频谱翻转的信号的装置;及
用于对所述频谱翻转的信号执行抽取操作以产生所述高频带目标信号的装置。
33.根据权利要求31所述的设备,其进一步包括用于基于所述高频带目标信号而产生线性预测频谱包络、时间增益参数或其组合的装置。
34.根据权利要求31所述的设备,其中用于接收所述输入音频信号的所述装置及用于产生所述高频带目标信号的所述装置集成于移动通信装置中。
35.根据权利要求31所述的设备,其中用于接收所述输入音频信号的所述装置及用于产生所述高频带目标信号的所述装置集成于基站中。
CN201680045819.7A 2015-08-17 2016-07-15 用于对输入音频信号进行编码的方法和设备 Active CN107851441B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562206197P 2015-08-17 2015-08-17
US62/206,197 2015-08-17
US15/169,633 US9830921B2 (en) 2015-08-17 2016-05-31 High-band target signal control
US15/169,633 2016-05-31
PCT/US2016/042648 WO2017030705A1 (en) 2015-08-17 2016-07-15 High-band target signal control

Publications (2)

Publication Number Publication Date
CN107851441A CN107851441A (zh) 2018-03-27
CN107851441B true CN107851441B (zh) 2021-09-14

Family

ID=56618240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680045819.7A Active CN107851441B (zh) 2015-08-17 2016-07-15 用于对输入音频信号进行编码的方法和设备

Country Status (10)

Country Link
US (1) US9830921B2 (zh)
EP (1) EP3338282B1 (zh)
JP (1) JP6779280B2 (zh)
KR (1) KR102612134B1 (zh)
CN (1) CN107851441B (zh)
BR (1) BR112018002979B1 (zh)
CA (1) CA2993004C (zh)
ES (1) ES2842175T3 (zh)
TW (1) TWI642052B (zh)
WO (1) WO2017030705A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2018012490A (es) * 2016-04-12 2019-02-21 Fraunhofer Ges Forschung Codificador de audio para codificar una se?al de audio, metodo para codificar una se?al de audio y programa de computadora en consideracion de una region espectral del pico detectada en una banda de frecuencia superior.
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
KR102271357B1 (ko) * 2019-06-28 2021-07-01 국방과학연구소 보코더 유형 판별 방법 및 장치
TWI835350B (zh) * 2022-10-14 2024-03-11 智原科技股份有限公司 運用於乙太網路的斷線偵測器與斷線偵測方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA04011751A (es) * 2002-05-31 2005-06-08 Voiceage Corp Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
CN101183526A (zh) * 2006-11-14 2008-05-21 中兴通讯股份有限公司 一种检测语音信号基音周期的方法
CN101228576A (zh) * 2005-07-21 2008-07-23 皇家飞利浦电子股份有限公司 音频信号修改
CN101379551A (zh) * 2005-12-28 2009-03-04 沃伊斯亚吉公司 在语音编解码器中用于有效帧擦除隐蔽的方法和装置
CA2917795A1 (en) * 2013-07-12 2015-01-15 Orange Optimized scale factor for frequency band extension in an audio frequency signal decoder

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0054365B1 (en) * 1980-12-09 1984-09-12 Secretary of State for Industry in Her Britannic Majesty's Gov. of the United Kingdom of Great Britain and Northern Ireland Speech recognition systems
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
CN101199002B (zh) * 2005-06-09 2011-09-07 株式会社A.G.I. 检测音调频率的语音分析器和语音分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA04011751A (es) * 2002-05-31 2005-06-08 Voiceage Corp Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
CN101228576A (zh) * 2005-07-21 2008-07-23 皇家飞利浦电子股份有限公司 音频信号修改
CN101379551A (zh) * 2005-12-28 2009-03-04 沃伊斯亚吉公司 在语音编解码器中用于有效帧擦除隐蔽的方法和装置
CN101183526A (zh) * 2006-11-14 2008-05-21 中兴通讯股份有限公司 一种检测语音信号基音周期的方法
CA2917795A1 (en) * 2013-07-12 2015-01-15 Orange Optimized scale factor for frequency band extension in an audio frequency signal decoder

Also Published As

Publication number Publication date
TWI642052B (zh) 2018-11-21
CA2993004C (en) 2023-05-02
BR112018002979A2 (pt) 2018-09-25
KR20180041131A (ko) 2018-04-23
CA2993004A1 (en) 2017-02-23
JP2018528464A (ja) 2018-09-27
BR112018002979B1 (pt) 2024-03-12
ES2842175T3 (es) 2021-07-13
CN107851441A (zh) 2018-03-27
EP3338282B1 (en) 2020-09-23
US20170053658A1 (en) 2017-02-23
TW201713061A (zh) 2017-04-01
KR102612134B1 (ko) 2023-12-08
JP6779280B2 (ja) 2020-11-04
US9830921B2 (en) 2017-11-28
EP3338282A1 (en) 2018-06-27
WO2017030705A1 (en) 2017-02-23

Similar Documents

Publication Publication Date Title
CN107851441B (zh) 用于对输入音频信号进行编码的方法和设备
CN110827842B (zh) 高频带激励信号生成
CA2952214C (en) Temporal gain adjustment based on high-band signal characteristic
CN107851439B (zh) 在带宽变换周期期间的信号再使用
US9818419B2 (en) High-band signal coding using multiple sub-bands

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant