CN108022599B - 音频信号解码器中改进的频带扩展 - Google Patents

音频信号解码器中改进的频带扩展 Download PDF

Info

Publication number
CN108022599B
CN108022599B CN201711459701.1A CN201711459701A CN108022599B CN 108022599 B CN108022599 B CN 108022599B CN 201711459701 A CN201711459701 A CN 201711459701A CN 108022599 B CN108022599 B CN 108022599B
Authority
CN
China
Prior art keywords
signal
band
frequency band
frequency
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711459701.1A
Other languages
English (en)
Other versions
CN108022599A (zh
Inventor
M.卡尼乌斯卡
S.拉戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=51014390&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN108022599(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN108022599A publication Critical patent/CN108022599A/zh
Application granted granted Critical
Publication of CN108022599B publication Critical patent/CN108022599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K3/00Apparatus for stamping articles having integral means for supporting the articles to be stamped
    • B41K3/54Inking devices
    • B41K3/56Inking devices using inking pads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/02Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images
    • B41K1/04Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images with multiple stamping surfaces; with stamping surfaces replaceable as a whole
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/08Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters
    • B41K1/10Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters having movable type-carrying bands or chains
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/08Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters
    • B41K1/12Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with a flat stamping surface and changeable characters having adjustable type-carrying wheels
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • B41K1/38Inking devices; Stamping surfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • B41K1/38Inking devices; Stamping surfaces
    • B41K1/40Inking devices operated by stamping movement
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • B41K1/38Inking devices; Stamping surfaces
    • B41K1/40Inking devices operated by stamping movement
    • B41K1/42Inking devices operated by stamping movement with pads or rollers movable for inking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

本发明涉及一种用于在解码过程中或改进过程中扩展音频信号的频带的方法,该方法包括获得在被称为低频带的第一频带中解码的信号的步骤。该方法为使得其包括以下步骤:从来自该低频带信号的信号中提取(E402)音调分量和环境信号;使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合(E403)以获得被称为组合信号的音频信号;在高于该第一频带的至少一个第二频带上在该提取步骤之前对该低频带解码信号或在该组合步骤之后对该组合信号进行扩展(E401a)。本发明还涉及一种实现所描述的方法的频带扩展装置,并且涉及一种包括这种类型的装置的解码器。

Description

音频信号解码器中改进的频带扩展
技术领域
本发明涉及为了对音频信号(如语音、音乐或其他此类信号)进行传输或存储而对其进行编码/解码和处理的领域。
更具体地,本发明涉及一种在解码器或处理器中产生音频信号增强的频带扩展方法和装置。
背景技术
存在许多技术用于压缩(有损耗)音频信号(如语音或音乐)。
通常将用于对话式应用的常规编码方法分类为:波形编码(“脉冲编码调制”PCM、“自适应差分脉冲编码调制”ADPCM、变换编码等);参数编码(“线性预测编码”LPC、正弦编码等);以及通过“合分量析(analysis by synthesis)”对参数进行量化的参数混合编码,其中,CELP(“码激励线性预测”)编码是最著名的示例。
对于非对话式应用,(单)音频信号编码的现有技术由通过变换或以子频带进行的感知编码与通过频带复制(光谱频带复制SBR)进行的对高频的参数编码所组成。
可以在以下这些著作中找到对常规语音和音频编码方法的回顾:W.B. 克莱因(W.B. Kleijn)和K.K. 帕利埃尔(K.K. Paliwal)(编辑),《语音编码与合成》(SpeechCoding and Synthesis),爱思唯尔出版社,1995;M. 博瑟(M. Bosi)、R.E. 高德博格(R.E.Goldberg),《数字音频编码和标准介绍》(Introduction to Digital Audio Coding andStandards),斯普林格出版社,2002;J. 贝尼斯提(J. Benesty)、M.M. 松迪(M.M.Sondhi)、Y. 黄(Y. Huang)(编辑),《语音处理手册》(Handbook of Speech Processing),斯普林格出版社,2008。
在此,更具体地关注3GPP标准化AMR-WB(“宽带自适应多速率”)编解码器(编码器和解码器),该编解码器在16 kHz的输入/输出频率上进行操作并且其中信号被分成两个子频带:低频带(0 kHz-6.4 kHz)和高频带(6.4 kHz-7 kHz),该低频带以12.8 kHz进行采样并且由CELP模型进行编码,而该高频带取决于当前帧的模式在有附加信息或者没有附加信息的情况下通过“频带扩展”(或者“带宽扩展”BWE)参数化地进行重建。在此,可以注意到的是,在7 kHz上对AMR-WB编解码器的编码频带的限制实质上与以下事实相关联:根据在标准ITU-T P.341中所定义的频率掩模并且更具体地通过使用在标准ITU-T G.191中所定义的截断7 kHz以上的频率的所谓“P341”滤波器(此滤波器遵循在P.341中所定义的掩模)在进行标准化(ETSI/3GPP,然后ITU-T)时近似估算在宽带终端的传输过程中的频率响应。然而,理论上,众所周知的是,以16 kHz采样的信号可以具有所限定的从0 Hz到8000 Hz的音频频带;因此,AMR-WB编解码器通过与8 kHz的理论带宽进行比较来引入对高频带的限制。
在2001年,主要针对关于GSM(2G)和UMTS(3G)的电路模式(CS)电话技术应用对3GPP AMR-WB语音编解码器进行了标准化。还在2003年由ITU-T以建议G.722.2“使用自适应多速率宽带(AMR-WB)以大约16 kbit/s进行宽带编码语音”的形式对这种相同的编解码器进行了标准化。
它包括从6.6 kbit/s到23.85 kbit/s的九种比特率(称为模式),并且包括多种连续传输机制(DTX,“不连续传输”)以及多种丢失帧校正机制(“帧擦除隐藏”FEC,有时也称为“包丢失隐藏”PLC),这些连续传输机制具有语音活动检测(VAD)以及来自静音描述帧(SID,“静音插入描述符”)的舒适噪音生成(CNG)。
在此不再重复AMR-WB编码和解码算法的细节。可以在以下文献中找到对这种编解码的详细说明:3GPP规范(TS 26.190、26.191、26.192、26.193、26.194、26.204);ITU-T-G.722.2(以及相应的附件和附录);B. 贝塞特(B. Bessette)等人的题为《自适应多速率宽带语音编解码器(AMR-WB)》(“The adaptive multirate wideband speech codec(AMR-WB)”)的文章,IEEE语音和音频处理会刊,第10卷,第8期,2002年,620-636页;以及相关联的3GPP标准和ITU-T标准的源代码。
AMR-WB编解码器中的频带扩展原理是相当基础的。实际上,高频带(6.4 kHz-7kHz)是通过时间(以每子帧增益的形式应用的)和频率(通过应用线性预测合成滤波器或“线性预测编码”LPC)包络对白噪声进行整形而生成的。在图1中展示了这种频带扩展技术。
由线性同余生成器针对每5 ms子帧以16 kHz生成白噪声
Figure 92907DEST_PATH_IMAGE001
Figure 10048DEST_PATH_IMAGE002
(框100)。通过对每个子帧应用增益而及时地形成此噪声
Figure 727468DEST_PATH_IMAGE003
;此操作被分解为两个处理步骤(框102、106或109):
• 计算第一因子(框101)以将白噪声
Figure 122677DEST_PATH_IMAGE004
设置(框102)在与在低频带中以12.8kHz解码的激励
Figure 937049DEST_PATH_IMAGE005
Figure 962774DEST_PATH_IMAGE006
,的电平类似的电平处:
Figure 229807DEST_PATH_IMAGE007
在此可以注意到的是,在不对多个采样频率(12.8 kHz或16 kHz)的差异进行补偿的情况下,通过对具有不同尺寸的块(针对
Figure 428708DEST_PATH_IMAGE008
为64并且针对
Figure 97586DEST_PATH_IMAGE009
为80)进行比较来完成对能量的归一化。
• 然后,获得高频带中的激励(框106或109),形式如下:
Figure 763054DEST_PATH_IMAGE010
其中,增益
Figure 517383DEST_PATH_IMAGE011
是根据比特率以不同的方式获得的。如果当前帧的比特率< 23.85kbit/s,那么增益
Figure 254395DEST_PATH_IMAGE012
被估算为“盲式(blind)”(也就是说,没有附加信息);在这种情况下,框103通过具有400 Hz的截止频率的高通滤波器对在低频带中所解码的信号进行滤波来获得信号
Figure 777780DEST_PATH_IMAGE013
Figure 145308DEST_PATH_IMAGE014
——此高通滤波器消除了非常低频率的可以使在框104中所作出的估算发生偏移的影响——然后,通过归一化的自相关(框104)来计算信号
Figure 386933DEST_PATH_IMAGE015
的被表示为
Figure 662057DEST_PATH_IMAGE016
的“倾斜度(tilt)”(频谱斜率指示符):
Figure 263719DEST_PATH_IMAGE017
并且最终,用以下形式来计算
Figure 598885DEST_PATH_IMAGE018
Figure 327807DEST_PATH_IMAGE019
其中,
Figure 344304DEST_PATH_IMAGE020
是应用于有效语音(SP)帧的增益,
Figure 842282DEST_PATH_IMAGE021
是应用于与背景(BG)噪声相关联的无效语音帧的增益,并且
Figure 613929DEST_PATH_IMAGE022
是取决于语音活动检测(VAD)的加权函数。应理解的是,对倾斜度(
Figure 564567DEST_PATH_IMAGE023
)的估算使得有可能根据信号的频谱性质对高频带的电平进行适配;当CELP解码信号的频谱斜率为使得在频率增加时平均能量减少时(语音信号的情况,其中,
Figure 384756DEST_PATH_IMAGE024
接近于1,因此,
Figure 737240DEST_PATH_IMAGE025
被由此减小),这种估算尤其重要。还应注意的是,AMR-WB解码中的因子
Figure 679788DEST_PATH_IMAGE026
是有界的,在区间[0.1,1.0]内取值。实际上,对于其频谱在高频率下具有更多能量的信号(
Figure 55405DEST_PATH_IMAGE027
接近于-1,
Figure 476022DEST_PATH_IMAGE028
接近于2),增益
Figure 948592DEST_PATH_IMAGE029
通常被低估。
以23.85 kbit/s,校正信息项由AMR-WB编码器所传输并且被解码(框107、框108)以便改进针对每个子帧所估算的增益(每5毫秒4比特或0.8 kbit/s)。
然后,通过具有传递函数
Figure 62042DEST_PATH_IMAGE030
并且以16 kHz的采样频率进行操作的LPC合成滤波器来对人工激励
Figure 924955DEST_PATH_IMAGE031
进行滤波(框111)。这种滤波器的构造取决于当前帧的比特率:
• 以6.6 kbit/s,通过按照因子
Figure 149263DEST_PATH_IMAGE032
= 0.9对阶数为20的LPC滤波器
Figure 210760DEST_PATH_IMAGE033
进行加权来获得滤波器
Figure 432794DEST_PATH_IMAGE034
,这对在低频带中(以12.8 kHz)所解码的阶数为16的LPC滤波器
Figure 845321DEST_PATH_IMAGE035
进行“外插”——在标准G.722.2第6.3.2.1节中描述了在ISF(导抗频谱频率)参数领域中进行的外插的细节。在这种情况下,
Figure 873320DEST_PATH_IMAGE036
• 以比特率> 6.6 kbit/s,滤波器
Figure 54902DEST_PATH_IMAGE037
的阶数为16,并且简单对应于:
Figure 182258DEST_PATH_IMAGE038
其中,
Figure 82081DEST_PATH_IMAGE039
=0.6。应注意的是,在这种情况下,在16 kHz上使用滤波器
Figure 648192DEST_PATH_IMAGE040
,这导致此滤波器的频率响应从[0 kHz,6.4 kHz]扩展(通过比例变换)至[0 kHz,8 kHz]。
结果
Figure 887543DEST_PATH_IMAGE041
最终由FIR(“有限脉冲响应”)类型的带通滤波器(框112)处理以仅保留6 kHz-7 kHz的频带;以23.85 kbit/s,同样为FIR类型的低通滤波器(框113)被添加到处理过程中以进一步衰减7 kH以上的频率。高频(HF)合成最终被添加(框130)到通过框120至框123所获得的低频(LF)合成中并且被以16 kHz进行重采样(框123)。从而,即使在AMR-WB编解码器中高频带理论上从6.4 kHz扩展至7 kHz,HF合成在与LF合成相加之前而是被包含在6 kHz-7 kHz频带中。
可以对AMR-WB编解码器的频带扩展技术的许多缺点进行标识:
• 高频带中的信号是成形的白噪声(针对每子帧通过时间增益、通过
Figure 248118DEST_PATH_IMAGE042
滤波和带通滤波形成),这不是在6.4-7 kHz频带中的信号的良好的一般模型。例如,存在非常谐调的音乐信号,针对这些音乐信号,6.4-7 kHz频频带包含正弦分量(或音调)并且没有噪声(或极少噪声);针对这些信号,AMR-WB编解码器的频带扩展大大降低了质量。
• 在7 kHz上的低通滤波器(框113)在低频带与高频带之间引入了几乎1 ms的偏移,这可能会通过以23.85 kbit/s对这两个频带稍微进行去同步而降低某些信号的质量——这种去同步还会在将比特率从23.85 kbit/s切换至其他模式时带来多种问题。
• 对每个子帧的增益(框101、框103至框105)的估算不是最佳的。部分地,它是基于对不同频率上的信号之间的每子帧“绝对”能量所进行的均衡(框101):16 kHz上的人工激励(白噪声)以及12.8 kHz上的信号(经解码的ACELP激励)。具体地,可注意到的是,这种方法隐含地引起了对高频带激励的衰减(按照比例12.8/16 = 0.8进行);实际上,还将注意的是,在AMR-WB编解码器中未对高频带进行去加重,这隐含地引起了相对接近于0.6的放大(这对应于
Figure 635237DEST_PATH_IMAGE043
在6400 Hz处的频率响应的值)。实际上,因子1/0.8与0.6得到了近似补偿。
• 关于语音,记录于3GPP报告TR 26.976中的3GPP AMR-WB编解码器特征化测试已经示出以23.85 kbit/s的模式具有与在23.05 kbit/s上的模式相比不是很好的质量,其质量实际上类似于以15.85 kbit/s的模式的质量。这具体地示出了必须非常谨慎地控制人工HF信号的电平,因为质量在23.85 kbit/s上降低,而每帧4比特被认为是有可能使得最接近于原始高频的能量。
• 将经编码的频带限制到7 kHz是应用声学终端的传输响应的严格模型(ITU- TG.191标准中的滤波器P.341)引起的。现在,针对16 kHz的采样频率,在7-8 kHz频带中的频率(特别是针对音乐信号)保持为重要的以确保良好的品质水平。
AMR-WB解码算法已经随着在2008年标准化的可扩展ITU-TG.718编解码器的发展被部分地改进。
ITU-T G.718标准包括所谓的可互操作模式,针对该可互操作模式,核心编码在12.65 kbit/s与G.722.2(AMR-WB)编码是可兼容的;此外,G.718解码器具有能够以AMR-WB编解码器的所有可能的比特率(从6.6 kbit/s至23.85 kbit/s)解码AMR-WB/G.722.2比特流的具体特征。
图2展示了在低延迟模式(G.718-LD)下的G.718可互操作解码器。以下是由在G.718解码器中的AMR-WB比特流解码功能提供的改进项列表,当需要时参照图1:
频带扩展(例如在建议G.718的第7.13.1条中描述的,框206)与AMR-WB解码器的频带扩展完全相同,除了6-7 kHz带通滤波器与1/AHB(z)合成滤波器(框111和框112)的顺序相反。此外,在23.85 kbit/s下,由AMR-WB编码器每子帧传输的4比特未用在可互操作的G.718解码器中;以23.85 kbit/s的高频(HF)合成因此完全等同于23.05 kbit/s,这避免了在23.85 kbit/s下的AMR-WB解码品质的已知问题。更不用说,不使用7 kHz低频带滤波器(框113),并且23.85 kbit/s模式的特定解码被省略(框107至框109)。
通过框208中的“噪声门”(通过降低电平来“增强”静音的品质)、高通滤波(框209)、框210的使在低频下的交叉谐波噪声衰减的低频后置滤波器(称作“低音后置滤波器”)以及在框211中利用饱和控制(利用增益控制或AGC)转换成16位整数在G.718中实现以16 kHz对合成进行后处理(参见G.718第7.14条)。
然而,在AMR-WB和/或G.718(可互操作模式)编解码器中的频带扩展仍然受限于多个方面。
具体地,通过成形的白噪声高频合成(通过LPC源-滤波器类型的时间方法)是在高于6.4 kHz的频带中的信号的非常有限的模型。
仅6.4-7 kHz频带是人工重新合成的,而实际上更宽的频带(高达8 kHz)理论上有可能处于16 kHz的采样频率,这使得如果信号不被在ITU-T的软件工具库(标准G.191)中定义的P.341类型(50-7000 Hz)的滤波器预先处理则可以潜在地增强信号的品质。
因此,需要改进在AMR-WB型编解码器或此编码器的可互操作版本中的频带扩展或者更一般地改进音频信号的频带扩展,具体地以便改进频带扩展的频率含量。
发明内容
本发明改善了这种状况。
本发明针对此目的提出一种用于在解码过程中或改进过程中扩展音频信号的频带的方法,该方法包括获得在被称为低频带的第一频带中解码的信号的步骤。该方法如此使得其包括以下步骤:
- 从由该经解码的低频带信号产生的信号中提取音调分量和环境信号;
- 使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号;
- 在高于该第一频带的至少一个第二频带上,在该提取步骤之前对该低频带解码信号或在该组合步骤之后对该组合信号进行扩展。
应注意的是,“频带扩展”随后将在广泛意义上被采用并且将不仅包括在高频率下扩展子频带的情况而且包括替代被设置为零的子频带的情况(在变换编码中的“噪声填充”类型)。
因此,在同一时间通过将从由低频带的解码产生的信号中提取的音调分量和环境信号考虑在内,相比于使用人工噪声,有可能利用适合于信号的性质的信号模型执行频带扩展。频带扩展的品质因此被改进并且特别是针对某些类型的信号(如音乐信号)。
实际上,在低频带中解码的信号包括与声音环境对应的部分,该部分可以用这种方式被转位成高频,使得将谐波分量与现有的环境进行混合使有可能确保一致的重建高频带。
将注意的是,即使本发明是以在可互操作AMR-WB编码的背景下提高频带扩展的品质为动机,但不同的实施例适用于音频信号的频带扩展的更一般的情况,特别是在增强装置对音频信号执行分析以提取频带扩展所需的参数时。
以下提及的不同的具体实施例可以被单独地或彼此组合地添加至以上所定义的扩展方法的步骤中。
在一个实施例中,频带扩展是在激励域中执行的并且经解码的低频带信号是低频带解码激励信号。
这个实施例的优点是在激励域中,不加窗(或等效地具有帧长度的隐式矩形窗)的变换是有可能的。在这种情况下,然后没有伪像(块效应)可被听到。
在第一实施例中,所述对这些音调分量和该环境信号的提取是根据以下步骤执行的:
- 在频域中检测该经解码的或经解码且经扩展的低频带信号的主音调分量;
- 通过提取这些主音调分量计算残差信号以获得该环境信号。
此实施例允许精确地检测这些音调分量。
在具有低复杂度的第二实施例中,所述对这些音调分量和该环境信号的提取是根据以下步骤执行的:
- 通过计算该经解码的或经解码且经扩展的低频带信号的频谱的平均值获得该环境信号;
- 通过从该经解码的或经解码且经扩展的低频带信号中减去所计算的环境信号来获得这些音调分量。
在组合步骤的一个实施例中,根据该经解码的或经解码且经扩展的低频带信号与这些音调分量的总能量计算用于该自适应混合的能量水平控制因子。
此控制因子的应用允许组合步骤来适配信号的特点以优化环境信号在该混合物中的相对比例。能量水平因此受到控制从而避免可听伪像。
在优选实施例中,该经解码的低频带信号经历变换步骤或基于滤波器组的子频带分解步骤,该提取步骤和该组合步骤然后在该频率或子频带域中执行。
在频域中实现频带扩展使得有可能获得使用时间方法不可获得的频率分析的细度,并且使得有可能还使频率分辨率足以检测这些音调分量。
在详细的实施例中,经解码且经扩展的低频带信号是根据以下方程获得的:
Figure 5038DEST_PATH_IMAGE044
其中,
Figure 830387DEST_PATH_IMAGE045
是样本索引,
Figure 627442DEST_PATH_IMAGE046
是在变换步骤之后获得的信号的频谱,
Figure 236278DEST_PATH_IMAGE047
是该经扩展的信号的频谱,且start_band是预定义的变量。
因此,此函数包括通过将样本添加到此信号的频谱中对信号进行重采样。然而,扩展信号的其他方式是可能的,例如通过子频带处理的平移。
本发明还设想了一种用于扩展音频信号的频带的装置,该信号已经在被称为低频带的第一频带中被解码。该装置如此使得其包括:
- 用于基于由该经解码的低频带信号产生的信号提取音调分量和环境信号的模块;
- 用于使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号的模块;
- 用于扩展到高于该第一频带的至少一个第二频带上、并且在该提取模块之前在该低频带解码信号上或在该组合模块之后在该组合信号上实现的模块。
这种装置展现了与其所实现的前述方法相同的优点。
本发明的目标在于一种包括所述装置的解码器。
本发明的目标在于一种包括代码指令的计算机程序,当由处理器执行这些指令时,这些代码指令用于实现所述的频带扩展方法的步骤。
最后,本发明涉及一种存储介质,该存储介质可由处理器读取、合并或不合并在频带扩展装置中、可能是可移除的、存储用于实现先前所描述的频带扩展方法的计算机程序。
附图说明
通过阅读以下仅作为非限制性示例给出并且参照这些附图所作出的描述,本发明的其他特征和优点将变得更清晰明显,其中:
- 图1展示了实现现有技术的频带扩展步骤并且如之前所述的AMR-WB类型的解码器的一部分;
- 图2展示了根据现有技术并且如先前所描述的一种16 kHz G.718-LD可互操作类型的解码器;
- 图3展示了根据本发明的实施例的一种可与AMR-WB编码互操作的、合并频带扩展装置的解码器;
- 图4以流程图的形式展示了根据本发明的实施例的频带扩展方法的主要步骤;
- 图5展示了根据本发明的整合到解码器中的频带扩展装置在频域中的实施例;并且
- 图6展示了根据本发明的频带扩展装置的硬件实现。
具体实施方式
图3展示了可与AMR-WB/G.722.2标准相容的示例性解码器,在该标准中,存在与在G.718中介绍的并且参照图2描述的后处理类似的后处理以及根据本发明的扩展方法的、由框309所展示的频带扩展装置实现的改进的频带扩展。
不像以16 kHz输出采样频率进行操作的AMR-WB解码和以8 kHz或16 kHz操作的G.718解码器,在此考虑可以通过使用fs =8 kHz、16 kHz、32 kHz或48 kHz的频率的输出(合成)信号进行操作的解码器。注意到,在此假设的是,已经根据AMR-WB算法执行编码,其中,12.8 kHz的内部频率用于低频带CELP编码,并且在23.85 kbit/s下,子帧增益编码的频率为16 kHz,但是AMR-WB编码器的可互操作的变体也是可能的;虽然本发明在此是在解码层级上进行描述的,但在此假设的是,编码还可以用fs =8 kHz、16 kHz、32 kHz或48 kHz频率的输入信号进行操作,并且根据fs的值对编码实现超出本发明内容的合适的重采样操作。可以注意到,当在解码器fs = 8 kHz时,在与AMR-WB相容的解码的情况下,不需要扩展0kHz-6.4 kHz低频带,因为以频率fs重建的音频带被限制于0 Hz-4000 Hz。
在图3中,CELP解码(低频LF)如在AMR-WB和G.718中那样仍然以12.8 kHz的内部频率进行操作,而作为本发明主题的频带扩展(高频HF)以16 kHz的频率进行操作,并且在合适的重采样(框307和框311)之后以频率fs将LF合成与HF合成进行组合(框312)。在本发明的变体中,可以在已经对从12.8 kHz到16 kHz的低频带进行重采样之后、以频率fs对组合信号进行重采样之前以16 kHz将低频带与高频带进行组合。
根据图3的解码取决于与所接收到的当前帧相关联的AMR-WB模式(或比特率)。作为指示并且在不影响框309的情况下,在低频带中对CELP部分进行解码包括以下步骤:
• 在正确接收到帧的情况下(bfi=0,其中,bfi是“坏帧指示符”,对于所接收到的帧的值为0并且对于丢失帧的值为1),对这些编码的参数进行解复用(框300);
• 如在标准G.722.2的条款6.1中所描述的,通过内插以及转换成LPC系数对ISF参数进行解码(框301);
• 通过用于以12.8 kHz在每个长度为64的子帧中重建激励(exc或
Figure 347453DEST_PATH_IMAGE048
)的自适应和固定部分对CELP激励进行解码(框302):
Figure 358134DEST_PATH_IMAGE049
通过遵循G.718第7.1.2.1条的符号,就CELP解码而言,其中,
Figure 326090DEST_PATH_IMAGE050
Figure 422222DEST_PATH_IMAGE051
分别是自适应词典和固定词典的码字,并且
Figure 71510DEST_PATH_IMAGE052
Figure 936697DEST_PATH_IMAGE053
是相关联的解码增益。在下一个子帧的自适应词典中使用此激励
Figure 75555DEST_PATH_IMAGE054
;然后,对该激励进行后处理,并且,按照G.718,将激励
Figure 658983DEST_PATH_IMAGE055
(也被表示为exc)与其经修改的后处理版本
Figure 846382DEST_PATH_IMAGE056
(也被表示为exc2)区别开来,该后处理版本充当在框303中的合成滤波器
Figure 831655DEST_PATH_IMAGE057
的输入。在可实现用于本发明的变体中,在不影响根据本发明的频带扩展方法的性质的情况下,可以对应用于激励的后处理操作进行修改(例如,可以增强相分散),或者可以对这些后处理操作进行扩展(例如,可以实现交叉谐波噪声的降低);
• 通过
Figure 141414DEST_PATH_IMAGE058
进行合成滤波(框303),其中,解码的LPC滤波器
Figure 149821DEST_PATH_IMAGE059
具有为16的阶数;
• 如果fs=8 kHz,则根据G.718的条款7.3进行窄带后处理(框304);
• 通过滤波器
Figure 203228DEST_PATH_IMAGE060
来进行去加重(框305);
• 如在G.718第7.14.1.1条中所描述的对低频率进行后处理(框306)。这种处理引入了延迟,在对高频带(> 6.4 kHz)的解码过程中将该延迟考虑在内;
• 以输出频率fs对12.8 kHz的内部频率进行重采样(框307)。许多实施例是可能的。在不失一般性的情况下,通过示例的方式在此考虑:如果fs = 8 kHz或16 kHz,则在此重复G.718第7.6条中所描述的重采样,并且如果fs = 32 kHz或48 kHz,则使用多个附加有限脉冲响应(FIR)滤波器;
• 如在G.718第7.14.3条中所描述的优先执行的“噪声门”参数计算(框308)。
在可实现用于本发明的变体中,在不影响频带扩展的性质的情况下,可以对应用于激励的后处理操作进行修改(例如,可以增强相分散),或者可以对这些后处理操作进行扩展(例如,可以实现对交叉谐波噪声的降低)。当在3GPP AMR-WB标准中提供信息的当前帧丢失(bfi = 1)时,我们在此不描述低频带解码的情况;一般地,无论处理AMR-WB解码器还是依赖于源-滤波器模型的通用解码器,其通常涉及最佳估算LPC激励和LPC合成滤波器的系数以重构丢失的信号同时保持源-滤波器模型。当bfi = 1时,在此考虑频带扩展(框309)可以像在bfi = 0且比特率< 23.85 kbit/s的情况一样操作;因此,在不失一般性的情况下,本发明的描述随后将假定bfi = 0。
可以注意的是,对框306、框308、框314的使用是可选的。
还将注意的是,上述对低频带的解码采取具有在6.6 kbit/s与23.85 kbit/s之间的比特率的所谓“有效”当前帧。实际上,当激活DTX模式时,某些帧可以被编码成“无效的”,并且在这种情况下,有可能传输静止描述符(在35个比特上)或者什么都不传输。具体而言,回想起,AMR-WB编码器的SID帧描述了若干参数:在8个帧上取平均的多个ISF参数、在8个帧上的平均能量、非平稳噪声的重建的“抖动标记”。在所有情况下,对于针对当前帧进行激励或LPC滤波器的重建,在解码器中存在与针对有效帧相同的解码模式,这使得有可能将本发明甚至应用到无效帧中。同样的情况适用于对“丢失帧”的解码(或FEC、PLC),其中,LPC模型被应用。
此示例性解码器在激励域内操作并且因此包括解码低频带激励信号的步骤。在本发明含义内的频带扩展装置和频带扩展方法还在与激励域不同的域内操作并且具体地使用低频带解码直接信号或由感知滤波器加权的信号操作。
不像AMR-WB或G.718解码,所描述的解码器使得有可能将经解码的低频带(50 Hz-6400 Hz,将解码器上的50 Hz高通滤波考虑在内,一般情况下为0 Hz-6400 Hz)扩展至经扩展的频带,该经扩展的频带的宽度根据在当前帧中所实现的模式大致从50 Hz-6900 Hz至50 Hz-7700 Hz范围内变化。从而,其有可能指0 Hz至6400 Hz的第一频带以及6400 Hz至8000 Hz的第二频带。实际上,在有利实施例中,针对高频率并且在从5000 Hz至8000 Hz的频带中的频域内生成的激励允许宽度为6000 Hz至6900 Hz或至7700 Hz的带通滤波,其斜率在被拒的上频带中不是太陡。
在表示根据本发明的并且在一个实施例中在图5中详细描述的频带扩展装置的框309中产生高频带合成部分。
为了对准经解码的低频带和高频带,引入延迟(框310)以使框306和框309的输出同步并且从16 kHz到频率fs(框311的输出)对以16 kHz合成的高频带进行重采样。将必须根据所实现的处理操作针对其他情况(fs = 32,48 kHz)对延迟T的值进行适配。将回想起,当fs = 8 kHz时,不必应用框309至框311,因为在解码器的输出端处的信号的频带被限制于0 Hz-4000 Hz。
将注意,根据第一实施例在框309中实现的本发明的扩展方法相对于以12.8 kHz重建的低频带优选地不引入任何附加的延迟;然而,在本发明的变体中(例如,通过重叠的时间/频率变换),将能够引入延迟。从而,通常,将需要根据具体的实现方式必须调整框310中的T值。例如,在低频后处理(框306)不被使用的情况中,针对fs=16 kHz有待引入的延迟可以固定为T=15。
然后,在框312中对低频带和高频带进行组合(相加),并且所获得的合成由2阶的(IIR类型的)50 Hz高通滤波进行后处理,该滤波的系数取决于频率fs(框313),并且以类似于G.718的方式通过可选地应用“噪声门”来进行输出后处理(框314)。
由根据图5的解码器的实施例的框309展示的根据本发明的频带扩展装置实现了现在参照图4描述的频带扩展方法(在广泛的含义上)。
此扩展装置还可以独立于解码器,并且可以实现在图4中描述的、用于通过分析音频信号以从其中提取例如激励和LPC滤波器来对存储至或传输至该装置的现有音频信号进行频带扩展的方法。
此装置接收在被称为低频带
Figure 43008DEST_PATH_IMAGE061
的第一频带中解码的信号作为输入,这可以是在激励域或在那个信号的域中。在此处描述的实施例中,通过时间频率变换或滤波器组实现的子频带分解步骤(E401b)应用于低频带解码信号以获得低频带解码信号的频谱
Figure 461351DEST_PATH_IMAGE062
从而在频域中实现。
在高于第一频带的第二频带中扩展低频带解码信号以获得经扩展的低频带解码信号
Figure 753792DEST_PATH_IMAGE063
的步骤E401a可以在分析步骤(分解成子频带)之前或之后在此低频带解码信号上执行。此扩展步骤可以包括在同一个时间的重采样步骤和扩展步骤或者根据在输入端获得信号仅包括频率平移或换位步骤。将注意的是,在变体中,将能够在图4中描述的处理结束时(也就是说,在组合信号上)执行步骤E401a,然后在扩展之前主要在低频带信号上执行此处理,结果是等效的。
随后在参照图5的实施例中详细描述这个步骤。
所述提取环境信号(
Figure 610889DEST_PATH_IMAGE064
)和音调分量(y(k))的步骤E402是基于经解码的低频带信号(
Figure 305176DEST_PATH_IMAGE065
)或经解码且经扩展的低频带信号(
Figure 894420DEST_PATH_IMAGE066
)执行的。环境在此被定义为残差信号,该残差信号是通过从现有信号中删除主要的(或主)谐波(或音调分量)获得的。
在大多数宽带信号中(以16 kHz采样),高频带(> 6 kHz)包含环境信息,该环境信息通常类似于存在于低频带中的环境信息。
所述提取音调分量和环境信号的步骤例如包括以下步骤:
- 在频域中检测该经解码的(或经解码且经扩展的)低频带信号的主音调分量;并且
- 通过提取这些主音调分量计算残差信号以获得该环境信号。
这个步骤还可以是通过以下各项获得的:
- 通过计算该经解码的(或经解码且经扩展的)低频带信号的平均值获得该环境信号;并且
- 通过从该经解码的或经解码且经扩展的低频带信号中减去所计算的环境信号获得这些音调分量。
然后,在步骤E403中在能量水平控制因子的帮助下以自适应的方式对音调分量和环境信号进行组合以获得所谓的组合信号(
Figure 939737DEST_PATH_IMAGE067
)。如果还未在经解码的低频带信号上执行扩展步骤E401a,则然后可以实现该步骤。
因此,组合这两种类型的信号使得有可能获得组合信号,该组合信号具有更适合于某些类型的信号(如音乐信号以及在频率内容中和在对应于包括第一频带和第二频带的整个频带的经扩展的频带中更丰富的信号)的特点。
根据该方法的频带扩展相对于在AMR-WB标准中描述的扩展改善了这种类型的信号的品质。
使用环境信号与音调分量的组合使得有可能丰富此扩展信号以便对其进行渲染从而更接近真实信号而非人工信号的特点。
随后将参照图5详细地描述这个组合步骤。
在E404b执行对应于在401b的分析的合成步骤从而将信号恢复至时域。
以可选的方式,在合成步骤之前和/或之后通过应用增益和/或通过适当的滤波可以在E404a执行高频带信号的能量水平调整步骤。将在图5描述的实施例中针对框501至框507更详细地解释这个步骤。
在示例性实施例中,现在参照图5描述频带扩展装置500,该图在同一时间展示了此装置还有适合于利用AMR-WB编码在可互操作类型的解码器中实现的处理模块。此装置500实现了先前参照图4描述的频带扩展方法。
因此,处理框510接收经解码的低频带信号(
Figure 334946DEST_PATH_IMAGE068
)。在具体实施例中,频带扩展使用12.8 kHz的解码激励(exc2或
Figure 821422DEST_PATH_IMAGE069
)作为图3的框302的输出。
此信号被子频带分解模块510(该子频带分解模块实现图4的步骤E401b)分解成频率子频带,该子频带分解模块通常执行变换或应用滤波器组以获得分解成信号
Figure 909464DEST_PATH_IMAGE069
的子频带
Figure 176497DEST_PATH_IMAGE070
在具体实施例中,DCT-IV(“离散余弦变换”——IV型)(框510)型变换应用于20 ms(256个样本)的当前帧(未加窗),这相当于根据以下公式直接变换
Figure 375397DEST_PATH_IMAGE068
,其中,
Figure 713450DEST_PATH_IMAGE071
Figure 972393DEST_PATH_IMAGE072
其中,
Figure 726723DEST_PATH_IMAGE073
Figure 339101DEST_PATH_IMAGE074
当在激励域而非信号域中执行处理时,一种无加窗(或等效地具有帧长度的隐式矩形窗)的变换是有可能的。在这种情况下,没有伪像(块效应)是可听见的,由此构成本发明的这个实施例的显著优点。
在本实施例中,DCT-IV变换是根据在D.M. 张(D.M. Zhang)、H.T. 李(H.T. Li)的文章《低复杂性变换——演进型DCT》(A Low Complexity Transform – Evolved DCT),IEEE第14届计算科学与工程(CSE)国际会议,2011年8月,144-149页中所描述的所谓“演进型DCT(EDCT)”算法通过FFT实现的,并且是在标准ITU-T G.718附件B和G.729.1附件E中实现的。
在本发明的变体中,并且不失一般性地,将能够以具有相同长度且在激励域或在信号域中的其他短期时间频率变换来替代DCT-IV变换,如FFT(“快速傅里叶变换”)或者DCT-II(“离散余弦变换”——类型II)。可替代地,将有可能以具有重叠相加并且具有比当前帧的长度更长的长度的窗口的变换来替代帧上的DCT-IV,例如,通过使用MDCT(“经修改 的离散余弦变换”)。在这种情况下,将必须根据由于通过此变换进行的分析/合成所导致的附加延迟来适当地调整(减小)在图3的框310中的延迟T
在另一个实施例中,通过应用例如PQMF(伪QMF)型实数或复数滤波器组执行子频带分解。针对某些滤波器组,在给定帧中针对每个子频带,获得的不是频谱值而是与子频带相关联的一系列时间值;在这种情况下,可以通过执行例如每个子频带的变换并且通过在绝对值域中计算环境信号来应用本发明中有利的实施例,音调分量仍然是通过信号(以绝对值计)与环境信号之间的差异获得的。在复数滤波器组的情况下,样本的复数模量将取代绝对值。
在其他实施例中,本发明将被应用于使用两个子频带的系统,低频带通过变换或通过滤波器组被分析。
在DCT的情况中,覆盖频带0 Hz-6400 Hz的256个样本(以12.8 kHz)的DCT频谱
Figure 862486DEST_PATH_IMAGE075
然后被扩展(框511)成覆盖频带0 Hz-8000 Hz的320个样本(以16 kHz)的频谱,形式如下:
Figure 292330DEST_PATH_IMAGE076
其中,优先取start_band = 160。
框511实现图4的步骤E401a,也就是说,实现低频带解码信号的扩展。此步骤还可以包括通过向频谱添加¼的样本(
Figure 268376DEST_PATH_IMAGE077
)来在频域中执行从12.8 kHz到16 kHz的重采样,16与12.8的比值为5/4。
在对应于范围从索引200至239的样本的频带中,原始频谱被保留,以能够在此频带中向其应用高通滤波器的渐进式衰减响应并且还不向将低频合成添加至高频合成的步骤中引入可听缺陷。
将注意的是,在此实施例中,生成过采样的或经扩展的频谱是在从5 kHz至8 kHz范围上的频带(因此包括高于第一频带(0 kHz-6.4 kHz)的第二频带(6.4 kHz-8 kHz))中执行的。
从而,至少在第二频带上而且还在第一频带的一部分上执行经解码的低频带信号的扩展。
显然,定义这些频带的值可以根据本发明所应用于其中的解码器或处理装置而不同。
此外,因为
Figure 746762DEST_PATH_IMAGE078
的前200个样本被设为零,框511在0 Hz-5000 Hz频带中执行隐式高通滤波。如稍后所解释的,还可以通过在5000 Hz-6400 Hz频带中索引为
Figure 390233DEST_PATH_IMAGE079
的频谱值的渐进式衰减的一部分来补足此高通滤波;这种渐进式衰减是在框501中实现的,但可以在框501外部被单独地执行。等效地,并且在本发明的变体中,将因此能够在单个步骤中执行实现在索引为
Figure 725400DEST_PATH_IMAGE080
的系数被设为零的多个框中进行的高通滤波、衰减在变换域中的系数
Figure 392004DEST_PATH_IMAGE081
在本示例性实施例中并且根据
Figure 470819DEST_PATH_IMAGE082
的定义,将注意的是,
Figure 968796DEST_PATH_IMAGE083
的5000 Hz-6000 Hz频带(其对应于索引
Figure 474864DEST_PATH_IMAGE084
)是从
Figure 628765DEST_PATH_IMAGE085
的5000 Hz-6000 Hz频带复制过来的。这种方式使得有可能在对HF合成与LF合成进行相加时将原始频谱保持在此频带中并且避免在5000 Hz-6000 Hz频带中引入失真——具体地,在此频带中信号的相(隐含地表示在DCT-IV域中)被保留。
在此,因为start_band的值被优先设置为160,所以通过复制
Figure 511270DEST_PATH_IMAGE086
的4000 Hz-6000 Hz频带来定义
Figure 863754DEST_PATH_IMAGE087
的6000 Hz-8000 Hz频带。
在实施例的变体中,在不改变本发明的性质的情况下,将能够使start_band的值围绕值160为自适应的。在此不对start_band值的自适应细节进行描述,因为它们超出了本发明的框架但是不改变其范围。
在大多数宽带信号中(以16 kHz采样的),高频带(> 6 kHz)包含环境信息,该环境信息本质上类似于存在于低频带中的环境信息。环境在此被定义为残差信号,该残差信号是通过从现有信号中删除主要的(或主)谐波获得的。在6000 Hz-8000 Hz频带中的调谐性水平通常与低频带的调谐性水平相关联。
这种经解码且经扩展的低频带信号被提供作为扩展装置500的输入并且具体地作为模块512的输入。因此,用于提取音调分量和环境信号的框512在频域中实现了图4的步骤E402。因此针对第二频带(所谓的高频)获得环境信号(U HBA(k),其中,
Figure 743985DEST_PATH_IMAGE088
)(80个样本),以便随后在组合框513中以自适应的方式将其与所提取的音调分量y(k)进行组合。
在具体实施例中,提取这些音调分量和该环境信号(在6000-8000 Hz频带中)是根据以下操作执行的:
• 计算经扩展的解码低频带信号的总能量
Figure 181920DEST_PATH_IMAGE089
Figure 602537DEST_PATH_IMAGE090
其中,
Figure 75107DEST_PATH_IMAGE091
= 0.1(此值可以是不同的,举例来讲,其在此是固定的)。
• (逐频谱线地)计算在此对应于频谱的平均水平
Figure 860660DEST_PATH_IMAGE092
的环境(以绝对值计)并且(在高频频谱中)计算主音调分量的能量
Figure 785891DEST_PATH_IMAGE093
其中,
Figure 10199DEST_PATH_IMAGE094
,此平均值是通过以下等式获得的:
Figure 272028DEST_PATH_IMAGE095
这对应于平均水平(以绝对值)并因此代表了频谱包络的类别。在此实施例中,
Figure 556379DEST_PATH_IMAGE096
= 80且表示频谱的长度并且从0至
Figure 968906DEST_PATH_IMAGE097
的索引
Figure 731325DEST_PATH_IMAGE098
对应于从240至319的索引
Figure 850591DEST_PATH_IMAGE099
,即,从6kHz至8 kHz的频谱。
通常,
Figure 305843DEST_PATH_IMAGE100
Figure 205666DEST_PATH_IMAGE101
,然而,前7个索引和后7个索引(
Figure 709460DEST_PATH_IMAGE102
Figure 745549DEST_PATH_IMAGE103
)需要特殊的处理并且不失一般性地我们然后定义:
Figure 371702DEST_PATH_IMAGE104
Figure 696504DEST_PATH_IMAGE105
,其中,
Figure 800727DEST_PATH_IMAGE106
Figure 956901DEST_PATH_IMAGE107
Figure 753956DEST_PATH_IMAGE108
,其中,
Figure 300475DEST_PATH_IMAGE109
在本发明的变体中,平均值
Figure 473968DEST_PATH_IMAGE110
Figure 484649DEST_PATH_IMAGE111
可以由在相同值集上的中间值替换,即,
Figure 390288DEST_PATH_IMAGE112
此变体具有比滑动平均值更复杂(在计算量方面)的缺点。在其他变体中,非均匀加权可以应用于这些平均项,或者中值滤波可以例如用“层叠滤波器”类型的其他非线性滤波器替换。
还计算残差信号:
Figure 486420DEST_PATH_IMAGE113
如果值
Figure 932445DEST_PATH_IMAGE114
在给定的频谱线
Figure 63212DEST_PATH_IMAGE115
处为正(
Figure 139752DEST_PATH_IMAGE116
>0),则该残差信号(大致)对应于音调分量。
此计算因此涉及隐式检测音调分量。在代表自适应阈值的中间项y(i)的帮助下,这些音调分量因此被隐式检测到。检测条件为
Figure 723180DEST_PATH_IMAGE117
>0。在本发明的变体中,可以例如通过根据信号的局部包络定义自适应阈值或以形式
Figure 972896DEST_PATH_IMAGE118
,其中,
Figure 895853DEST_PATH_IMAGE119
具有预定义的值(例如,
Figure 205611DEST_PATH_IMAGE119
=10 dB)来改变此条件。
主音调分量的能量是由以下方程式定义的:
Figure 276336DEST_PATH_IMAGE120
当然可以设想用于提取环境信号的其他方案。例如,此环境信号可以是从低频率信号或可选地另一个频带(或若干频带)中提取的。
音调尖峰或音调分量的检测可以以不同方式完成。
还可以在经解码的但未经扩展的激励上(也就是说,在频谱扩展或平移步骤之前,也就是说,例如在低频率信号的一部分上而不是直接在高频率信号上)完成此环境信号的提取。
在变体实施例,提取这些音调分量和该环境信号是按不同的顺序并且根据以下步骤执行的:
- 在频域中检测该经解码的或经解码且经扩展的低频带信号的主音调分量;
- 通过提取这些主音调分量计算残差信号以获得该环境信号。
此变体可以例如以如下方式执行:尖峰(或音调分量)在幅度为
Figure 264496DEST_PATH_IMAGE121
的频谱中在索引为
Figure 104276DEST_PATH_IMAGE122
的频谱线处被检测到,前提是满足以下标准:
Figure 584936DEST_PATH_IMAGE123
Figure 877377DEST_PATH_IMAGE124
其中,
Figure 672157DEST_PATH_IMAGE125
。一旦在索引为
Figure 366444DEST_PATH_IMAGE122
的频谱线处检测到尖峰,就应用正弦模型来估算与此尖峰相关联的音调分量的幅度、频率以及可选地相位参数。在此不介绍此估算的细节,但是频率估算通常可以要求在3个点上的抛物线插值以便定位抛物线逼近3个幅度点
Figure 18005DEST_PATH_IMAGE126
(表示为dB)的最大值,幅度估算是通过这种相同的插值法获得的。因为在此使用的变换域(DCT-IV)并未使得有可能直接获得相位,所以在一个实施例中将有可能忽略此项,但是在变体中将有可能应用DST型正交变换来估算相位项。
Figure 1005DEST_PATH_IMAGE127
的初始值被设置为零,其中,
Figure 396214DEST_PATH_IMAGE128
。估算每个音调分量的正弦参数(频率、幅度以及可选地相位),然后根据估算的正弦参数将项
Figure 945007DEST_PATH_IMAGE129
计算为被转换到DCT-IV域(或者在使用某个其他子频带分解时的其他域)中的纯正弦曲线的预定义的原型(频谱)之和。最后,绝对值应用于项
Figure 970732DEST_PATH_IMAGE129
以将幅值谱域表达为绝对值。
用于确定音调分量的其他方案是有可能的,例如,还将有可能通过
Figure 237765DEST_PATH_IMAGE130
的局部最大值(检测到的尖峰)的样条插值计算信号的包络
Figure 171086DEST_PATH_IMAGE131
,以将此包络降低某个dB级别以便检测作为超过此包络的尖峰并将
Figure 839965DEST_PATH_IMAGE132
定义为
Figure 36591DEST_PATH_IMAGE133
在这个变体中,环境因此是通过下方程获得的:
Figure 525341DEST_PATH_IMAGE134
在本发明的其他变体中,在不改变本发明的原理的情况下,频谱值的绝对值将例如被频谱的平方值替换;在这种情况下,为了返回至信号域,平方根将是必要的,这执行起来会更复杂。
组合模块513通过环境信号与音调分量的自适应混合执行组合步骤。因此,环境水平控制因子
Figure 527932DEST_PATH_IMAGE135
是由以下方程定义的:
Figure 51317DEST_PATH_IMAGE136
Figure 153265DEST_PATH_IMAGE137
是因子,在下文给出了其示例性计算。
为了获得经扩展的信号,我们首先获得绝对值形式的组合信号,其中,
Figure 394891DEST_PATH_IMAGE138
Figure 935594DEST_PATH_IMAGE139
针对其应用符号
Figure 251168DEST_PATH_IMAGE140
Figure 851914DEST_PATH_IMAGE141
其中,函数
Figure 315256DEST_PATH_IMAGE142
给出符号:
Figure 597333DEST_PATH_IMAGE143
根据定义,因子
Figure 95311DEST_PATH_IMAGE144
>1。根据条件
Figure 601378DEST_PATH_IMAGE145
逐频谱线检测的音调分量被除以因子
Figure 817596DEST_PATH_IMAGE144
;平均水平被乘以因子
Figure 634855DEST_PATH_IMAGE146
在自适应混合框513中,根据经解码的(或经解码且经扩展的)低频带信号与音调分量的总能量计算能量水平控制因子。
在自适应混合的优选实施例中,按以下方式执行能量调整:
Figure 987339DEST_PATH_IMAGE147
Figure 664308DEST_PATH_IMAGE148
是频带扩展组合信号。
调整因子是由以下方程定义的:
Figure DEST_PATH_IMAGE149
其中,
Figure 39925DEST_PATH_IMAGE150
使得有可能避免过高估算能量。在示例性实施例中,计算
Figure 726122DEST_PATH_IMAGE151
以便在信号的连续频带中相对于音调分量的能量保持相同水平的环境信号。计算以下三个频带中的音调分量的能量:2000-4000 Hz、4000-6000 Hz和6000-8000 Hz,其中,
Figure 933112DEST_PATH_IMAGE152
其中,
Figure 984245DEST_PATH_IMAGE153
并且其中,
Figure 909475DEST_PATH_IMAGE154
是索引
Figure 133783DEST_PATH_IMAGE155
的集合,针对该集合,索引
Figure 460859DEST_PATH_IMAGE155
的系数被分类为与音调分量相关联。此集合可以例如是通过检查
Figure 682893DEST_PATH_IMAGE156
中的满足
Figure 829841DEST_PATH_IMAGE157
的局部尖峰而获得的,或者
Figure 857840DEST_PATH_IMAGE158
逐频谱线地被计算为频谱的平均水平。
可以注意的是,用于计算音调分量的能量的其他方案是有可能的,例如通过在所考虑的频带上取频谱的中值。
我们以这种方式固定
Figure 977106DEST_PATH_IMAGE159
,从而使得在4 kHz-6 kHz频带与6 kHz-8 kHz频带中的音调分量能量之比与在2 kHz-4 kHz频带与4 kHz-6 kHz频带中的音调分量能量之比相同:
Figure 432358DEST_PATH_IMAGE160
其中
Figure 332181DEST_PATH_IMAGE161
并且max(.,.)是给出两个参数的最大值的函数。
在本发明的变体中,计算
Figure 835974DEST_PATH_IMAGE159
可以由其他方案替代。例如,在一个变体中,将有可能提取(计算)表征低频带信号的不同参数(或“特征”),包括与在AMR-WB编解码器中所计算的参数相类似的“倾斜度”参数,并且将通过将其值限制在0与1之间基于这些不同的参数根据线性回归来估算因子
Figure 872063DEST_PATH_IMAGE159
。例如,将能够通过在学习的基础中得出原始高频带来估算因子
Figure 498217DEST_PATH_IMAGE159
从而以监督的方式来估算线性回归。将注意的是,计算
Figure 619757DEST_PATH_IMAGE159
的方式并不限制本发明的性质。
然后,可以通过考虑以下事实使用参数
Figure 927241DEST_PATH_IMAGE162
来计算
Figure 83416DEST_PATH_IMAGE163
:信号与环境信号一起被添加至给定的频带中通常被感知为强于在同一频带中具有相同能量的谐波信号。如果将
Figure 880471DEST_PATH_IMAGE164
定义为添加至谐波信号中的环境信号的量:
Figure DEST_PATH_IMAGE165
将有可能将
Figure 426990DEST_PATH_IMAGE166
计算为
Figure 334903DEST_PATH_IMAGE164
的减函数,例如,
Figure 345584DEST_PATH_IMAGE167
Figure 248294DEST_PATH_IMAGE168
Figure 344425DEST_PATH_IMAGE169
Figure 56030DEST_PATH_IMAGE166
被限制为从0.3到1。再次,在本发明的框架内,
Figure 186797DEST_PATH_IMAGE164
Figure 263337DEST_PATH_IMAGE166
的其他定义是有可能的。
在频带扩展装置500的输出处,框501在具体实施例中以可选的方式在频域中执行应用带通滤波器频率响应和去加重(或解加重)滤波的双操作。
在本发明的变体中,在框502之后(甚至在框510之前),将能够在时域中执行去加重滤波。然而,在这种情况下,在框501中所执行的带通滤波可以留下某些非常低电平的低频分量,这些低频分量通过去加重而被放大,这可以以一种轻微可感知的方式来修改经解码的低频带。出于这种原因,在此优选在频域中执行去加重。在优选实施例中,索引为
Figure 581186DEST_PATH_IMAGE170
的这些系数被设为零,因此,去加重被限制在更高阶的系数中。
根据以下方程,首先对激励进行去加重:
Figure 96481DEST_PATH_IMAGE171
其中,
Figure 19437DEST_PATH_IMAGE172
是滤波器
Figure 329196DEST_PATH_IMAGE173
在受限的离散频带之上的频率响应。通过将DCT-IV的离散(奇数)频率考虑在内,
Figure 134341DEST_PATH_IMAGE174
在此被定义为:
Figure 125431DEST_PATH_IMAGE175
其中,
Figure 965211DEST_PATH_IMAGE176
在使用除了DCT-IV之外的变换的情况下,将能够对
Figure 445871DEST_PATH_IMAGE177
的定义进行调整(例如,针对偶数频率)。
应注意的是,去加重被应用于两个阶段中:针对对应于5000 Hz-6400 Hz频带的
Figure 941574DEST_PATH_IMAGE178
,其中,如在12.8 kHz上那样应用响应
Figure 533092DEST_PATH_IMAGE179
;以及针对对应于6400Hz-8000 Hz频带的
Figure 492958DEST_PATH_IMAGE180
,其中,该响应从这里的16 kHz扩展至在6.4 kHz-8 kHz频带中的常数值。
可以注意的是,在AMR-WB编解码器中,未对HF合成进行去加重。
在这里所呈现的实施例中,相反地,对高频信号进行去加重以便在退出图3的框305之后将其恢复至与低频信号(0 kHz-6.4 kHz)相一致的域中。这对于对HF合成的能量进行估算以及调整来说是很重要的。
在本实施例的一个变体中,为了减小复杂度,将有可能通过取例如
Figure DEST_PATH_IMAGE181
来将
Figure 82203DEST_PATH_IMAGE182
设为与
Figure DEST_PATH_IMAGE183
无关的常数值,该常数值近似地对应于在以上所描述的实施例的条件中
Figure 861940DEST_PATH_IMAGE184
对于
Figure DEST_PATH_IMAGE185
的平均值。
在解码器的实施例的另一个变体中,在逆DCT之后将能够在时域中以一种等效的方式执行去加重。
除了去加重,带通滤波与两个单独的部分一起被应用:其一,固定的高通部分;其二,自适应的(比特率的函数)低通部分。
这种滤波是在频域中执行的。
在优选实施例中,在频域中按照下式计算低通滤波器部分响应:
Figure 194832DEST_PATH_IMAGE186
其中,
Figure DEST_PATH_IMAGE187
=60(在6.6 kbit/s上)、40(在8.85 kbit/s上)和20(在比特率> 8.85bit/s上)。
然后,以以下形式应用带通滤波器:
Figure 9204DEST_PATH_IMAGE188
例如,在以下的表1中给出对
Figure DEST_PATH_IMAGE189
Figure 769350DEST_PATH_IMAGE190
的定义。
<i>K</i> <i>g</i><sub><i>hp</i></sub>(<i>k</i>) <i>K</i> <i>g</i><sub><i>hp</i></sub>(<i>k</i>) <i>K</i> <i>g</i><sub><i>hp</i></sub>(<i>k</i>) <i>K</i> <i>g</i><sub><i>hp</i></sub>(<i>k</i>)
0 0.001622428 14 0.114057967 28 0.403990611 42 0.776551214
1 0.004717458 15 0.128865425 29 0.430149896 43 0.800503267
2 0.008410494 16 0.144662643 30 0.456722014 44 0.823611104
3 0.012747280 17 0.161445005 31 0.483628433 45 0.845788355
4 0.017772424 18 0.179202219 32 0.510787115 46 0.866951597
5 0.023528982 19 0.197918220 33 0.538112915 47 0.887020781
6 0.030058032 20 0.217571104 34 0.565518011 48 0.905919644
7 0.037398264 21 0.238133114 35 0.592912340 49 0.923576092
8 0.045585564 22 0.259570657 36 0.620204057 50 0.939922577
9 0.054652620 23 0.281844373 37 0.647300005 51 0.954896429
10 0.064628539 24 0.304909235 38 0.674106188 52 0.968440179
11 0.075538482 25 0.328714699 39 0.700528260 53 0.980501849
12 0.087403328 26 0.353204886 40 0.726472003 54 0.991035206
13 0.100239356 27 0.378318805 41 0.751843820 55 1.000000000
表1。
将注意的是,在本发明的变体中,将能够在保持渐进式衰减的同时修改
Figure DEST_PATH_IMAGE191
的值。类似地,在不改变此滤波步骤的原理的情况下,将能够用不同的值或者频率支持来对具有可变带宽的低通滤波器
Figure 971137DEST_PATH_IMAGE192
进行调整。
还将注意的是,将能够通过定义组合了高通滤波与低通滤波的单个滤波步骤来适配带通滤波。
在另一个实施例中,在逆DCT步骤之后,将能够根据比特率用不同的滤波系数在时域中以等效的方式执行带通滤波(如在图1的框112中那样)。然而,将注意的是,有利的是在频域中直接执行此步骤,因为该滤波是在LPC激励域中执行的,并且因此在此域中循环卷积和边缘效应的问题是非常有限的。
逆变换框502对320个样本执行逆DCT以找到以16 kHz采样的高频信号。除了变换长度是320而不是256,该逆变换框的实现方式与框510完全一样(因为DCT-IV是归一化正交的),并且得到下式:
Figure DEST_PATH_IMAGE193
其中,
Figure 170037DEST_PATH_IMAGE194
Figure 838916DEST_PATH_IMAGE195
在框510不是DCT而是某个其他变换或变为子频带的分解的情况下,框502执行与在框510中执行的分析相对应的合成。
然后,以可选的方式按照80个样本的每子帧定义的增益对以16 kHz采样的信号进行缩放(框504)。
在优选实施例中,首先通过子帧的能量比来计算每子帧增益gHB1(m)(框503),从而使得在当前帧的索引m=0、1、2或3的每子帧中:
Figure 769962DEST_PATH_IMAGE196
其中,
Figure 524292DEST_PATH_IMAGE197
其中,
Figure 526883DEST_PATH_IMAGE198
= 0.01。每子帧增益
Figure 50268DEST_PATH_IMAGE199
可以写成以下形式:
Figure 152216DEST_PATH_IMAGE200
该等式表明,确保在信号
Figure DEST_PATH_IMAGE201
中的每子帧能量与每帧能量之比与在信号
Figure 393842DEST_PATH_IMAGE202
中的比值相同。
框504根据以下方程执行对组合信号的缩放(包括在图4的步骤E404a中):
Figure 872228DEST_PATH_IMAGE203
将注意的是,对框503的实现不同于对图1的框101的实现,因为除了子帧的能量水平还将当前帧的能量水平考虑在内。这使得有可能得到每个子帧能量关于每帧能量之比。因此,对低频带与高频带之间的能量比(或相对能量)而不是绝对能量进行比较。
从而,此缩放步骤使得有可能通过与在低频带中相同的方式在高频带中保持子帧与帧之间的能量比。
在一种可选的方式,框506然后根据以下方程执行对信号的缩放(包括在图4的步骤E404a中):
Figure 250119DEST_PATH_IMAGE204
其中,增益
Figure 850865DEST_PATH_IMAGE205
是通过执行AMR-WB编解码器的框103、104和105从框505中获得的(框103的输入是在低频带中解码的激励
Figure 251890DEST_PATH_IMAGE206
)。框505和框506对于在此根据信号的倾斜度调整LPC合成滤波器的水平(框507)是有用的。在不改变本发明的性质的情况下,用于计算增益
Figure 596284DEST_PATH_IMAGE207
的其他方案是有可能的。
最后,通过滤波模块507对信号
Figure 828682DEST_PATH_IMAGE208
Figure 600329DEST_PATH_IMAGE209
进行滤波,在此可以通过看作传递函数
Figure 488651DEST_PATH_IMAGE210
(其中,在6.6 kbit/s下
Figure DEST_PATH_IMAGE211
= 0.9,并且在其他比特率下
Figure 371156DEST_PATH_IMAGE211
= 0.6)来进行,由此将滤波器的阶数限制为16阶。
在一个变体中,将能够以与针对AMR-WB解码器的图1的框111所描述相同的方式来执行此滤波,但是滤波器的阶数在6.6比特率上变为20阶,这不会显著地改变合成信号的质量。在另一个变体中,在已经计算了在框507中所实现的滤波器的频率响应之后,将有可能在频域中执行LPC合成滤波。
在本发明的变体实施例中,对低频带(0 kHz-6.4 kHz)的编码将能够由CELP编码器而不是在AMR-WB中所使用的编码器替代,如,例如,在G.718中在8 kbit/s处的CELP编码器。不失一般性地,可以使用其他宽带编码器或在16 kHz以上的频率上进行操作的编码器,其中,对低频带的编码以在12.8 kHz上的内部频率进行操作。此外,当低频编码器以低于原始信号或重建信号的采样频率进行操作时,本发明可以显著地适应于除12.8 kHz之外的采样频率。当低频带解码不使用线性预测时,不存在有待扩展的激励信号,在这种情况下,将有可能对在当前帧中重建的信号进行LPC分析,并且将计算LPC激励以便能够应用本发明。
最终,在本发明的另一个变体中,在对长度320进行变换(例如,DCT-IV)之前,例如通过在从12.8 kHz至16 kHz上进行线性内插或三次“样条”插值来对激励或低频带信号(
Figure 723640DEST_PATH_IMAGE212
)进行重采样。此变体具有更复杂的缺陷,因为随后在更长的长度上计算激励或信号的变换(DCT-IV)并且该重采样不是在变换域中执行的。
此外,在本发明的变体中,估算增益(
Figure DEST_PATH_IMAGE213
Figure 603871DEST_PATH_IMAGE214
Figure DEST_PATH_IMAGE215
Figure 979489DEST_PATH_IMAGE216
、...)所必需的所有计算都将能够在对数域中执行。
图6表示根据本发明的频带扩展装置600的示例性物理实施例。后者可以形成音频信号解码器的集成部分或者接收经解码或未经解码的音频信号的设备项的集成部分。
这种类型的装置包括与存储器框BM协同操作的处理器PROC,该储存框包括存储设备和/或工作存储器MEM。
这种装置包括输入模块E,该输入模块能够接收在被称为低频带的第一频带中的被恢复至频域(
Figure DEST_PATH_IMAGE217
)的经解码的或所提取的音频信号。这种装置包括输出模块S,该输出模块能够将在第二频带(
Figure 665685DEST_PATH_IMAGE218
)中的扩展信号传输至例如图5的滤波模块501。
存储器框可以有利地包括计算机程序,该计算机程序包括用于实现在本发明含义内的频带扩展方法的步骤的多条代码指令,当这些代码指令由处理器PROC执行时,并且具体地实现以下步骤:从由经解码的低频带信号产生的信号(
Figure 830867DEST_PATH_IMAGE217
)中提取(E402)音调分量和环境信号、使用能量水平控制因子通过自适应混合对音调分量(y(k))和环境信号(
Figure 944316DEST_PATH_IMAGE064
)进行组合(E403)以获得被称为组合信号的音频信号(
Figure DEST_PATH_IMAGE219
)、在高于第一频带的至少一个第二频带上在提取步骤之前对低频带解码信号或在组合步骤之后对组合信号进行扩展(E401a)。
通常,图4的描述重复了这种计算机程序的算法的这些步骤。计算机程序还可以被存储在存储介质上,其可以由装置的读取器进行读取或者可以被下载到其存储空间中。
通常,存储器MEM存储实现该方法所必需的所有数据。
在一个可能的实施例中,因此描述的装置还可以包括除了根据本发明的频带扩展功能之外的低频带解码功能以及例如在图5和图3中描述的其他处理功能。

Claims (8)

1.一种用于在解码过程或改进过程中扩展音频信号的频带的方法,包括:
获得在被称为低频带的第一频带中解码的信号,
在高于第一频带的至少一个第二频带上对该经解码的低频带信号进行扩展,形成经扩展且经解码的低频带信号;
从由该经扩展且经解码的低频带信号产生的信号中提取环境信号和多个音调分量;
使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号;以及
应用去加重滤波和带通滤波器频率响应;
其中所述去加重滤波在频域中执行;
其中,所述去加重滤波的执行被限制在组合信号的更高阶的系数中;
其中根据以下等式对所述组合信号去加重:
Figure DEST_PATH_IMAGE001
其中
Figure DEST_PATH_IMAGE002
是滤波器
Figure DEST_PATH_IMAGE003
在受限的频带之上的离散频率响应,k表示频谱线,UHB2(k)表示所述组合信号。
2.如权利要求1所述的方法,其中所述频率响应
Figure DEST_PATH_IMAGE004
由下式定义
Figure DEST_PATH_IMAGE005
其中
Figure DEST_PATH_IMAGE006
3.根据前述权利要求中的任一个所述的方法,其中使用固定高通滤波器和自适应低通滤波器来应用所述带通滤波器。
4.根据权利要求3所述的方法,其中所述自适应低通滤波器的部分响应在频域中被计算为:
Figure DEST_PATH_IMAGE007
其中Nlp是所述自适应低通滤波器的值,在6.6kbit / s时Nlp=60,在8.85kbit / s时为40,在大于8.85kbits / s时为20。
5.根据权利要求4所述的方法,其中所述带通滤波器以以下形式应用:
Figure DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE009
是去加重的组合信号,而
Figure DEST_PATH_IMAGE010
是固定的高通滤波器。
6.如权利要求5所述的方法,其中所述高通滤波器
Figure DEST_PATH_IMAGE011
的值在下表中给出:
k G<sub>hp</sub>(k) k G<sub>hp</sub>(k) k G<sub>hp</sub>(k) k G<sub>hp</sub>(k) 0 0.001622428 14 0.114047967 28 0.403990611 42 0.776551214 1 0.004717458 15 0.128865425 29 0.430149896 43 0.800503267 2 0.008410494 16 0.144662643 30 0.456722014 44 0.823611104 3 0.012747280 17 0.161445005 31 0.483628433 45 0.845788355 4 0.017772424 18 0.179202219 32 0.510787115 46 0.866951597 5 0.023528982 19 0.197918220 33 0.538112915 47 0.887020781 6 0.030058032 20 0.217571104 34 0.565518011 48 0.905919644 7 0.037398264 21 0.238133114 35 0.592912340 49 0.923576092 8 0.045585564 22 0.259570657 36 0.620204057 50 0.939922577 9 0.054652620 23 0.281844373 37 0.647300005 51 0.954896429 10 0.064628539 24 0.304909235 38 0.674106188 52 0.968440179 11 0.075538482 25 0.328714699 39 0.700528260 53 0.980501849 12 0.087403328 26 0.353204886 40 0.726472003 54 0.991035206 13 0.100239356 27 0.378318805 41 0.751843820 55 1.000000000
7.一种用于扩展音频信号的频带的装置,所述信号已经在被称为低频带的第一频带中被解码,所述装置包括
包括存储在其上的指令的非暂时性计算机可读存储器,
处理器,所述处理器被所述指令配置成执行包括以下动作的动作:
获得在被称为低频带的第一频带中解码的信号,
在高于第一频带的至少一个第二频带上对该经解码的低频带信号进行扩展,形成经扩展且经解码的低频带信号;
从由该经扩展且经解码的低频带信号产生的信号中提取环境信号和多个音调分量;
使用多个能量水平控制因子通过自适应混合对这些音调分量和该环境信号进行组合以获得被称为组合信号的音频信号;以及
应用去加重滤波和带通滤波器频率响应;
其中所述去加重滤波在频域中执行;
其中,所述去加重滤波的执行被限制在组合信号的更高阶的系数中;
其中根据以下等式对所述组合信号去加重:
Figure 185253DEST_PATH_IMAGE001
其中
Figure 571235DEST_PATH_IMAGE002
是滤波器
Figure 616552DEST_PATH_IMAGE003
在受限的频带之上的离散频率响应,k表示频谱线,UHB2(k)表示所述组合信号。
8.一种音频信号解码器,包括如权利要求7所述的用于扩展音频信号的频带的装置。
CN201711459701.1A 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展 Active CN108022599B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR1450969 2014-02-07
FR1450969A FR3017484A1 (fr) 2014-02-07 2014-02-07 Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
PCT/FR2015/050257 WO2015118260A1 (fr) 2014-02-07 2015-02-04 Extension ameliorée de bande de fréquence dans un décodeur de signaux audiofréquences
CN201580007250.0A CN105960675B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580007250.0A Division CN105960675B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展

Publications (2)

Publication Number Publication Date
CN108022599A CN108022599A (zh) 2018-05-11
CN108022599B true CN108022599B (zh) 2022-05-17

Family

ID=51014390

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201711459702.6A Active CN107993667B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展
CN201711459701.1A Active CN108022599B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展
CN201711459695.XA Active CN108109632B (zh) 2014-02-07 2015-02-04 用于扩展音频信号的频带的方法和装置以及音频信号解码器
CN201580007250.0A Active CN105960675B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201711459702.6A Active CN107993667B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201711459695.XA Active CN108109632B (zh) 2014-02-07 2015-02-04 用于扩展音频信号的频带的方法和装置以及音频信号解码器
CN201580007250.0A Active CN105960675B (zh) 2014-02-07 2015-02-04 音频信号解码器中改进的频带扩展

Country Status (21)

Country Link
US (5) US10043525B2 (zh)
EP (4) EP3330966B1 (zh)
JP (4) JP6625544B2 (zh)
KR (5) KR102426029B1 (zh)
CN (4) CN107993667B (zh)
BR (2) BR112016017616B1 (zh)
DK (2) DK3103116T3 (zh)
ES (2) ES2878401T3 (zh)
FI (1) FI3330966T3 (zh)
FR (1) FR3017484A1 (zh)
HR (2) HRP20231164T1 (zh)
HU (2) HUE055111T2 (zh)
LT (2) LT3103116T (zh)
MX (1) MX363675B (zh)
PL (2) PL3103116T3 (zh)
PT (2) PT3330966T (zh)
RS (2) RS64614B1 (zh)
RU (4) RU2763481C2 (zh)
SI (2) SI3103116T1 (zh)
WO (1) WO2015118260A1 (zh)
ZA (3) ZA201606173B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201505903UA (en) * 2013-01-29 2015-08-28 Fraunhofer Ges Forschung Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
CN109688531B (zh) * 2017-10-18 2021-01-26 宏达国际电子股份有限公司 获取高音质音频变换信息的方法、电子装置及记录介质
EP3518562A1 (en) 2018-01-29 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels
KR102308077B1 (ko) * 2019-09-19 2021-10-01 에스케이텔레콤 주식회사 학습 모델 기반의 인공 대역 변환장치 및 방법
WO2021143691A1 (zh) * 2020-01-13 2021-07-22 华为技术有限公司 一种音频编解码方法和音频编解码设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181496A (ja) * 1998-12-14 2000-06-30 Sony Corp 受信装置及び方法、通信装置及び方法
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
KR20110095354A (ko) * 2008-12-15 2011-08-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더 및 대역폭 확장 디코더
KR20130107257A (ko) * 2012-03-21 2013-10-01 삼성전자주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
CN103534754A (zh) * 2011-02-14 2014-01-22 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3352997A (en) 1996-07-03 1998-02-02 British Telecommunications Public Limited Company Voice activity detector
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
JP4792613B2 (ja) * 1999-09-29 2011-10-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2003003345A1 (fr) * 2001-06-29 2003-01-09 Kabushiki Kaisha Kenwood Dispositif et procede d'interpolation des composantes de frequence d'un signal
EP1444688B1 (en) * 2001-11-14 2006-08-16 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
JP2005509928A (ja) * 2001-11-23 2005-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号帯域幅拡張
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
AU2002319903A1 (en) * 2002-06-28 2004-01-19 Pirelli Pneumatici S.P.A. System and monitoring characteristic parameters of a tyre
US6845360B2 (en) * 2002-11-22 2005-01-18 Arbitron Inc. Encoding multiple messages in audio data and detecting same
TWI319565B (en) * 2005-04-01 2010-01-11 Qualcomm Inc Methods, and apparatus for generating highband excitation signal
WO2006132054A1 (ja) * 2005-06-08 2006-12-14 Matsushita Electric Industrial Co., Ltd. オーディオ信号の帯域を拡張するための装置及び方法
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
US20110035212A1 (en) * 2007-08-27 2011-02-10 Telefonaktiebolaget L M Ericsson (Publ) Transform coding of speech and audio signals
JP5284360B2 (ja) * 2007-09-26 2013-09-11 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
JP5400059B2 (ja) * 2007-12-18 2014-01-29 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
CN101990253A (zh) * 2009-07-31 2011-03-23 数维科技(北京)有限公司 一种带宽扩展方法及其装置
CN102612712B (zh) * 2009-11-19 2014-03-12 瑞典爱立信有限公司 低频带音频信号的带宽扩展
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
WO2013066238A2 (en) * 2011-11-02 2013-05-10 Telefonaktiebolaget L M Ericsson (Publ) Generation of a high band extension of a bandwidth extended audio signal
US9228916B2 (en) * 2012-04-13 2016-01-05 The Regents Of The University Of California Self calibrating micro-fabricated load cells
KR101897455B1 (ko) * 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181496A (ja) * 1998-12-14 2000-06-30 Sony Corp 受信装置及び方法、通信装置及び方法
KR20110095354A (ko) * 2008-12-15 2011-08-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더 및 대역폭 확장 디코더
JP2011075728A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 音声帯域拡張装置および音声帯域拡張プログラム
CN103534754A (zh) * 2011-02-14 2014-01-22 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
KR20130107257A (ko) * 2012-03-21 2013-10-01 삼성전자주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Enhanced aacPlus 音频编解码器的研究及其解码器在XScale上的高效实现;任军刚;《中国优秀硕士论文全文数据库 信息科技辑》;20070215;I135-118 *

Also Published As

Publication number Publication date
US20180141361A1 (en) 2018-05-24
JP2019168710A (ja) 2019-10-03
HRP20231164T1 (hr) 2024-01-19
RU2763481C2 (ru) 2021-12-29
KR20180002907A (ko) 2018-01-08
EP3103116B1 (fr) 2021-05-05
RS64614B1 (sr) 2023-10-31
MX363675B (es) 2019-03-29
PT3330966T (pt) 2023-10-04
KR102380487B1 (ko) 2022-03-29
EP3103116A1 (fr) 2016-12-14
EP3330966A1 (fr) 2018-06-06
US20200338917A1 (en) 2020-10-29
PT3103116T (pt) 2021-07-12
EP3330966B1 (fr) 2023-07-26
CN108109632B (zh) 2022-03-29
KR102426029B1 (ko) 2022-07-29
US10668760B2 (en) 2020-06-02
KR20180002910A (ko) 2018-01-08
KR102510685B1 (ko) 2023-03-16
SI3103116T1 (sl) 2021-09-30
ZA201708366B (en) 2019-05-29
HRP20211187T1 (hr) 2021-10-29
EP3327722A1 (fr) 2018-05-30
LT3103116T (lt) 2021-07-26
RU2016136008A (ru) 2018-03-13
CN105960675B (zh) 2020-05-05
BR112016017616A2 (pt) 2017-08-08
RU2682923C2 (ru) 2019-03-22
US20170169831A1 (en) 2017-06-15
ES2955964T3 (es) 2023-12-11
US11325407B2 (en) 2022-05-10
CN108022599A (zh) 2018-05-11
KR20180002906A (ko) 2018-01-08
US10730329B2 (en) 2020-08-04
JP6775065B2 (ja) 2020-10-28
DK3103116T3 (da) 2021-07-26
HUE062979T2 (hu) 2023-12-28
BR112016017616B1 (pt) 2023-03-28
CN108109632A (zh) 2018-06-01
ZA201708368B (en) 2018-11-28
EP3330967A1 (fr) 2018-06-06
RU2017144522A3 (zh) 2021-04-01
US20180304659A1 (en) 2018-10-25
JP2017509915A (ja) 2017-04-06
CN105960675A (zh) 2016-09-21
RU2017144521A3 (zh) 2021-04-01
JP2019168708A (ja) 2019-10-03
KR20160119150A (ko) 2016-10-12
US10043525B2 (en) 2018-08-07
JP2019168709A (ja) 2019-10-03
KR20220035271A (ko) 2022-03-21
RU2017144521A (ru) 2019-02-18
FI3330966T3 (fi) 2023-10-04
EP3330967B1 (fr) 2024-04-10
FR3017484A1 (fr) 2015-08-14
RU2016136008A3 (zh) 2018-09-13
CN107993667B (zh) 2021-12-07
JP6775063B2 (ja) 2020-10-28
WO2015118260A1 (fr) 2015-08-13
RU2763848C2 (ru) 2022-01-11
RS62160B1 (sr) 2021-08-31
RU2763547C2 (ru) 2021-12-30
US11312164B2 (en) 2022-04-26
RU2017144522A (ru) 2019-02-18
DK3330966T3 (da) 2023-09-25
JP6775064B2 (ja) 2020-10-28
EP3327722B1 (fr) 2024-04-10
SI3330966T1 (sl) 2023-12-29
US20200353765A1 (en) 2020-11-12
HUE055111T2 (hu) 2021-10-28
PL3103116T3 (pl) 2021-11-22
ZA201606173B (en) 2018-11-28
RU2017144523A (ru) 2019-02-18
MX2016010214A (es) 2016-11-15
CN107993667A (zh) 2018-05-04
RU2017144523A3 (zh) 2021-04-01
KR102380205B1 (ko) 2022-03-29
PL3330966T3 (pl) 2023-12-18
JP6625544B2 (ja) 2019-12-25
LT3330966T (lt) 2023-09-25
ES2878401T3 (es) 2021-11-18
BR122017027991B1 (pt) 2024-03-12

Similar Documents

Publication Publication Date Title
CN108022599B (zh) 音频信号解码器中改进的频带扩展
CN107527629B (zh) 用于在音频信号解码器中进行频带扩展的优化缩放因子
JP2016528539A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant