CN109509483B - 产生频率增强音频信号的译码器和产生编码信号的编码器 - Google Patents

产生频率增强音频信号的译码器和产生编码信号的编码器 Download PDF

Info

Publication number
CN109509483B
CN109509483B CN201811139723.4A CN201811139723A CN109509483B CN 109509483 B CN109509483 B CN 109509483B CN 201811139723 A CN201811139723 A CN 201811139723A CN 109509483 B CN109509483 B CN 109509483B
Authority
CN
China
Prior art keywords
signal
audio signal
side information
parametric representation
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811139723.4A
Other languages
English (en)
Other versions
CN109509483A (zh
Inventor
弗雷德里克·纳格尔
萨沙·迪施
安德烈娅斯·尼德迈尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN201811139723.4A priority Critical patent/CN109509483B/zh
Publication of CN109509483A publication Critical patent/CN109509483A/zh
Application granted granted Critical
Publication of CN109509483B publication Critical patent/CN109509483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种用于生成频率增强音频信号(120)的译码器和方法以及用于生成编码信号的编码器和方法。所述译码器包括:特征提取器(104),用于自核心信号(100)提取特征;边信息提取器(110),用于提取与该核心信号相关联的选择边信息;参数生成器(108),用于产生用于估计未由所述核心信号(100)限定的所述频率增强音频信号(120)的频谱范围的参数表示,其中所述参数生成器(108)被配置成响应于所述特征(112)提供数个参数表示替代例(702,704,706,708),且其中所述参数生成器(108)被配置成响应于所述选择边信息(712‑718)选择所述参数表示替代例中的一者作为所述参数表示;以及信号估计器(118),用于使用选择的所述参数表示来估计所述频率增强音频信号(120)。

Description

产生频率增强音频信号的译码器和产生编码信号的编码器
本申请是国家申请号为201480006567.8,国际申请日为2014年1月28日,进入国家日期为2015年7月29日,发明名称为“用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法”的申请的分案申请。
技术领域
本发明涉及音频编码,且特别涉及在频率增强(即,译码器输出信号相比于编码信号具有较多数目个频带)的上下文中的音频编码。该过程包含带宽扩展、频谱复制或智能间隙填充。
背景技术
当前的语音编码系统能够在低至6千位/秒的位速率下对宽带(wideband,WB)数字音频内容(亦即,具有高达7kHz至8kHz的频率的信号)编码。经最广泛论述的实例为ITU-T建议G.722.2[1],以及经新近开发的G.718[4、10]及MPEG-D统一语音与音频编码(UnifiedSpeech and Audio Coding,USAC)[8]。G.722.2(亦被称为AMR-WB)及G.718两者使用介于6.4kHz与7kHz间的带宽扩展(BWE)技术以允许基础ACELP核心编码器“集中”于感知上较相关的较低频率(特别是人类听觉系统为相位灵敏处的频率),且由此尤其在极低位速率下实现足够质量。在USAC扩展高效率进阶音频编码(eXtended High Efficiency AdvancedAudio Coding,xHE-AAC)规格中,使用增强频谱带复制(enhanced spectral bandreplication,eSBR)以将音频带宽扩展成超出通常在16千位/秒下低于6kHz的核心编码器带宽。当前现有技术BWE处理通常可被划分成两种概念性方式:
·盲或人工BWE,其中高频(high-frequency,HF)分量仅从解码低频(low-frequency,LF)核心编码器信号重新建构,亦即,无需自编码器传输的边信息。此方案由在16千位/秒及16千位/秒以下的AMR-WB及G.718以及对传统窄带电话语音[5、9、12]操作的一些向前兼容BWE后处理器使用(实例:图15)。
·导引式BWE,其不同于盲BWE之处在于:用于HF内容重新建构的参数中的一些作为边信息被传输至译码器,而非根据译码核心信号来估计。AMR-WB、G.718、xHE-AAC以及一些其它编译码器[2、7、11]使用此方式,但不在极低位速率下(图16)。
图15示出了如Bernd Geiser、Peter Jax及Peter Vary的公开物“ROBUSTWIDEBAND ENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTHEXTENSION”(国际声学回音与噪声控制工作组(International Workshop on AcousticEcho and Noise Control,IWAENC)学报,2005年)中描述的此盲或人工带宽扩展。图15所示的独立带宽扩展算法包含插值程序1500、分析滤波1600、激励扩展1700、合成滤波器1800、特征提取程序1510、包络估计程序1520及统计模型1530。在窄带信号至宽带取样率的内插之后,计算特征向量。接着,借助于经预训练的统计隐式马尔可夫模型(hidden Markovmodel,HMM),依据线性预测(linear prediction,LP)系数来判定针对宽带频谱包络的估计。将该宽带系数用于内插窄带信号的分析滤波。在所得激励的扩展之后,应用反向合成滤波器(inverse synthesis filter)。选择不会更改窄带的激励扩展对于窄带分量是明显的。
图16示出如上述公开物中描述的具有边信息的带宽扩展,该带宽扩展包含电话带通1620、边信息提取块1610、(联合)编码器1630、译码器1640及带宽扩展块1650。用于借由组合式编码及带宽扩展而对误差带语音信号进行宽带增强的该系统在图16中示出。在传输端处,分析宽带输入信号的高频带频谱包络且判定边信息。分离地或与窄带语音信号联合地对所得消息m编码。在接收机处,使用译码器边信息以支持带宽扩展算法内的宽带包络的估计。消息m通过若干程序而获得。自仅在发送侧处可得到的宽带信号提取3,4kHz至7kHz的频率的频谱表示。
该子带包络通过选择性线性预测而计算,即计算宽带功率谱,其后是其上部频带分量的IDFT,以及随后的阶8的Levinson-Durbin递归。将所得子带LPC系数转换成倒谱域,且最后由具有大小M=2N的码本的向量量化器来量化。对于20ms的帧长度,此情形引起300位/秒的边信息数据速率。一组合式估计方式扩展后验机率的计算且重新引入对窄带特征的依赖性。因此,获得改良形式的误差隐藏(error concealment),其使用一个以上信息源用于其参数估计。
可在低位速率(通常低于10千位/秒)下观察到WB编译码器中的某一质量两难推论(quality dilemma)。一方面,该速率已经太低而不能使甚至中等量的BWE数据的传输合法化,从而排除具有1千位/秒或更大的边信息的典型导引式BWE系统。另一方面,可行盲BWE被发现为由于不能够自核心信号进行适当参数预测而使得对至少一些类型的语音或音乐材料看起来显著地较差。对于诸如具有HF与LF间的低相关性的摩擦音的一些口声尤其如此。因此,期望将导引式BWE方案的边信息速率减小至远低于1千位/秒的位准,此情形将允许其甚至在极低位速率编码中被使用。
近年来已记载各种BWE方式[1-10]。一般而言,所有这些方式在给定操作点处为完全盲或完全导引式,而不管输入信号的瞬时特性如何。此外,许多盲BWE系统[1、3、4、5、9、10]特定地针对语音信号而非针对音乐而最佳化,且因此可提供对于音乐不令人满意的结果。最后,大多数BWE实现在计算上相对复杂,其使用边信息的傅里叶(Fourier)变换、LPC滤波器计算或向量量化(MPEG-D USAC中的预测性向量编码[8])。这在移动电信市场中采用新编码技术方面会是劣势,在大多数移动装置提供非常有限的计算能力和电池容量的情况下。
[12]中呈现且图16中示出了通过小边信息来扩展盲BWE的方式。然而,边信息“m”限于带宽扩展频率范围的频谱包络的传输。
图16所示的程序的另外问题为一方面使用低频带特征且另一方面使用额外包络边信息的包络估计的极复杂方式。两个输入(亦即,低频带特征及额外高频带包络)影响统计模型。此情形引起复杂的译码器侧实施,这由于增加的电力消耗而对于移动器件尤其是个问题。此外,由于统计模型并非仅受到额外高频带包络数据影响,统计模型甚至更难以更新。
发明内容
本发明的目的是提供音频编码/译码的改进概念。
此目的通过以下方面来实现:
根据本发明的第一方面,提供一种用于生成频率增强音频信号的译码器,包括:特征提取器,用于自核心信号提取特征;边信息提取器,用于提取与该核心信号相关联的选择边信息;参数生成器,用于产生用于估计未由所述核心信号限定的所述频率增强音频信号的频谱范围的参数表示,其中所述参数生成器被配置成响应于所述特征提供数个参数表示替代例,且其中所述参数生成器被配置成响应于所述选择边信息选择所述参数表示替代例中的一者作为所述参数表示;以及信号估计器,用于使用选择的所述参数表示来估计所述频率增强音频信号,其中,所述参数生成器被配置成接收与所述核心信号相关联的参数频率增强信息,所述参数频率增强信息包含分立参数群组,其中所述参数生成器被配置成除了提供所述参数频率增强信息以外还提供选择的所述参数表示,其中选择的所述参数表示包含未包括于所述分立参数群组中的参数,或用于改变所述分立参数群组中的参数的参数改变值,且其中所述信号估计器被配置成使用选择的所述参数表示及所述参数频率增强信息来估计所述频率增强音频信号,或者其中,所述参数生成器被配置成提供包络表示作为所述参数表示,其中所述选择边信息指示复数个不同齿音或摩擦音中的一者,且其中所述参数生成器被配置成提供由所述选择边信息识别的所述包络表示,或者其中,所述信号估计器包括用于对所述核心信号插值的插值器,且其中所述特征提取器被配置成自未经插值的所述核心信号提取所述特征,或者其中,所述信号估计器包括:分析滤波器,用于分析所述核心信号或插值的核心信号以获得激励信号;激励扩展块,用于产生具有未包括于所述核心信号中的所述频谱范围的增强激励信号;以及合成滤波器,用于对所述扩展激励信号滤波;其中所述分析滤波器或所述合成滤波器由选择的所述参数表示来确定,或者其中,所述信号估计器包含频谱带宽扩展处理器,用于使用所述核心信号的至少频谱带及所述参数表示来产生对应于未包括于所述核心信号中的所述频谱范围的扩展频谱带,其中所述参数表示包含用于频谱包络调整、噪底相加、反向滤波以及遗漏声调的相加中至少一者的参数,其中所述参数生成器被配置成针对特征提供复数个参数表示替代例,每个参数表示替代例具有用于频谱包络调整、噪底相加、反向滤波以及遗漏声调的相加中至少一者的参数。
根据本发明的第二方面,提供一种用于产生编码信号的编码器,包括:核心编码器,用于对原始信号进行编码以获得相比于原始信号具有关于较少数目频带的信息的编码音频信号;选择边信息生成器,用于生成选择边信息,所述选择边信息指示由统计模型响应于自所述原始信号或自所述编码音频信号或自所述编码音频信号的译码版本提取的特征而提供的被限定参数表示替代例;以及输出接口,用于输出所述编码信号,所述编码信号包含所述编码音频信号及所述选择边信息,其中,所述原始信号包含描述用于所述原始音频信号的样本序列的声学信息序列的关联元信息,其中,所述选择边信息生成器包含元数据提取器,其用于提取所述元信息的序列;以及其中,所述编码器还包括元数据转译器,其用于将所述元信息的序列转译成所述选择边信息的序列。
根据本发明的第三方面,提供一种用于生成频率增强音频信号的方法,包括:自核心信号提取特征;提取与所述核心信号相关联的选择边信息;生成用于估计未由所述核心信号限定的所述频率增强音频信号的频谱范围的参数表示,其中响应于所述特征而提供数个参数表示替代例,且其中响应于所述选择边信息而选择所述参数表示替代例中的一者作为所述参数表示;以及使用选择的所述参数表示来估计所述频率增强音频信号,其中,所述生成包括:接收与所述核心信号(100)相关联的参数频率增强信息,所述参数频率增强信息包含分立参数群组;以及除了提供所述参数频率增强信息以外还提供选择的所述参数表示,其中选择的所述参数表示包含未包括于所述分立参数群组中的参数,或用于改变所述分立参数群组中的参数的参数改变值,且其中所述估计包括使用选择的所述参数表示及所述参数频率增强信息来估计所述频率增强音频信号,或者其中,所述生成包括:提供包络表示作为所述参数表示,其中所述选择边信息指示复数个不同齿音或摩擦音中的一者;以及提供由所述选择边信息识别的所述包络表示,或者其中,所述估计包括对所述核心信号插值,以及其中,所述提取包括自未经插值的所述核心信号提取所述特征,或者其中,所述估计包括:通过分析滤波器分析所述核心信号或插值的核心信号以获得激励信号;产生具有未包括于所述核心信号中的所述频谱范围的增强激励信号;以及通过合成滤波器对所述扩展激励信号滤波;其中所述分析滤波器或所述合成滤波器由选择的所述参数表示来确定,或者其中,所述估计包括:使用所述核心信号的至少频谱带及所述参数表示来产生对应于未包括于所述核心信号中的所述频谱范围的扩展频谱带,其中所述参数表示包含用于频谱包络调整、噪底相加、反向滤波以及遗漏声调的相加中至少一者的参数,其中所述生成包括针对特征提供复数个参数表示替代例,每个参数表示替代例具有用于频谱包络调整、噪底相加、反向滤波以及遗漏声调的相加中至少一者的参数。
根据本发明的第四方面,提供一种用于生成编码信号的方法,包括:对原始信号编码以获得相比于原始信号具有关于较少数目频带的信息的编码音频信号;生成选择边信息,所述选择边信息指示由统计模型响应于自所述原始信号或自所述编码音频信号或自所述编码音频信号的译码版本提取的特征而提供的被限定参数表示替代例;以及输出所述编码信号,所述编码信号包含所述编码音频信号及所述选择边信息,其中,所述原始信号包含描述用于所述原始音频信号的样本序列的声学信息序列的关联元信息,其中,所述生成包括提取所述元信息的序列;以及其中,所述方法还包括用于将所述元信息的序列转译成所述选择边信息的序列的步骤。
根据本发明的第五方面,提供一种存储有计算机程序的计算机可读存储介质,用于在计算机或处理器上运行时执行上述第三方面或第四方面所述的方法。
根据本发明的第六方面,提供一种编码信号,包括:编码音频信号;以及选择边信息,其指示由统计模型响应于自原始信号或自所述编码音频信号或自所述编码音频信号的译码版本提取的特征而提供的被限定参数表示替代例。
本发明基于如下发现:为了甚至更多地减小边信息的量,且另外,为了使整个编码器/译码器不过度地复杂,必须通过实际上关于与特征提取器一起用于频率增强译码器上的统计模型的选择边信息来替换或至少增强高频带部分的先前技术参数编码。由于结合统计模型的特征提取提供尤其针对某些语音部分具有模糊度的参数表示替代例,已发现实际上控制译码器侧上的参数生成器(其在所提供的替代例中为最佳例)内的统计模型优于实际上以参数方式对信号的某一特性编码,尤其是在用于带宽扩展的边信息受到限制的极低位速率应用中。
因此,通过具有小额外边信息的扩展而改进盲BWE(其利用用于被编码信号的源模型),尤其是在该信号自身不允许以可接受的感知质量水平来重新建构HF内容的情况下。该程序因此通过额外信息来组合自编码的核心编码器内容产生的、该源模型的参数。此情形特别有利于增强难以在此源模型内编码的声音的感知质量。该声音通常呈现HF成分与LF成分间的低相关性。
本发明解决传统BWE在极低位速率音频编码中的问题以及已存现有技术BWE技术的缺点。通过提议一最低限度导引式BWE作为盲BWE与导引式BWE的信号调适性组合、而提供对上述质量两难推论的解决方案。本发明的BWE将一些小边信息加至信号,其允许进一步鉴别以其它方式有问题的编码声音。在语音编码中,这特别适用于齿音或摩擦音。
已发现,在WB编译码器中,核心编码器区域上方的HF区域的频谱包络表示执行具有可接受的感知质量的BWE所必要的最关键数据。所有其它参数(诸如,频谱精细结构及时间包络)常常可相当准确地自译码核心信号得到,或具有很少感知重要性。然而,摩擦音在BWE信号中常常缺乏适当再现。边信息因此可包括区别诸如“f”、“s”、“ch”及“sh”的不同齿音或摩擦音的额外信息。
当出现诸如“t”或“tsch”的爆破音或塞擦音时,存在用于带宽扩展的其它有问题声学信息。
本发明允许仅使用此边信息,且实际上在必要的情况下传输此边信息且在统计模型中不存在预期模糊度时不传输此边信息。
此外,本发明的优选实施例仅使用诸如每帧三个或三个以下位的极少量的边信息、用于控制信号估计器的组合式话音活动检测/语音/非语音检测、由信号分类器判定的不同统计模型,或参数表示替代例,该参数表示替代例不仅涉及包络估计,而且涉及其它带宽扩展工具,或带宽扩展参数的改进,或新参数至已经存在且实际上传输的带宽扩展参数的相加。
附图说明
随后在附图的上下文中论述本发明的优选实施例,且亦在从属权利要求中阐述本发明的优选实施例。
图1示出用于产生频率增强音频信号的译码器;
图2示出在图1的边信息提取器的上下文中的优选实施;
图3示出关于选择边信息的位的数目至参数表示替代例的数目的表;
图4示出在参数生成器中执行的优选程序;
图5示出由话音活动检测器或语音/非语音检测器控制的信号估计器的优选实施;
图6示出由信号分类器控制的参数生成器的优选实施;
图7示出用于统计模型的结果及关联选择边信息的实例;
图8示出包含编码核心信号及关联边信息的示例性编码信号;
图9示出用于包络估计改进的带宽扩展信号处理方案;
图10示出译码器在频谱带复制程序的上下文中的另外实施;
图11示出译码器在另外传输的边信息的上下文中的另外实施例;
图12示出用于产生编码信号的编码器的实施例;
图13示出图12的选择边信息生成器的实施;
图14示出图12的选择边信息生成器的另外实施;
图15示出现有技术独立带宽扩展算法;及
图16示出具有附加消息的传输系统的概观。
具体实施方式
图1示出用于产生频率增强音频信号120的译码器。该译码器包含用于自核心信号100提取(至少)特征的特征提取器104。通常,该特征提取器可提取单一特征或复数个特征,亦即,两个或更多个特征,且甚至优选的是,由该特征提取器提取复数个特征。此情形不仅适用于译码器中的特征提取器,而且适用于编码器中的特征提取器。
此外,提供用于提取与核心信号100相关联的选择边信息114的边信息提取器110。另外,参数生成器108经由特征传输线112而连接至特征提取器104,且经由选择边信息114而连接至边信息提取器110。参数生成器108被配置成产生用于估计未由核心信号限定的频率增强音频信号的频谱范围的参数表示。参数生成器108被配置成响应于特征112而提供数个参数表示替代例,且响应于选择边信息114而选择参数表示替代例中的一者作为参数表示。译码器还包含用于使用由选择器选择的参数表示(亦即,参数表示116)来估计频率增强音频信号的信号估计器118。
具体来说,特征提取器104可被实施为自译码的核心信号进行提取,如图2所示。接着,输入接口110被配置成接收编码的输入信号200。此编码的输入信号200被输入至接口110中,且输入接口110接着使选择边信息与编码核心信号分离。因此,输入接口110作为图1中的边信息提取器110而操作。由输入接口110输出的编码的核心信号201接着被输入至核心译码器124中,以提供可以是核心信号100的译码的核心信号。
然而,替代地,特征提取器亦可操作或自编码的核心信号提取特征。通常,编码的核心信号包含用于频带的缩放因子的表示,或音频信息的任何其它表示。取决于特征提取的种类,音频信号的编码表示代表译码核心信号,且因此可提取特征。替代地或另外,可不仅自完全译码核心信号提取特征,而且自部分译码核心信号提取特征。在频域编码中,编码信号表示包含频谱帧序列的频域表示。因此,在实际上执行频谱至时间转换前,可仅对编码核心信号部分地译码以获得频谱帧序列的译码表示。因此,特征提取器104可自编码核心信号或部分译码核心信号或完全译码核心信号提取特征。特征提取器104可如在现有技术中已知那样关于其经提取特征加以实施,且该特征提取器可例如如在音频指纹或音频ID技术中加以实施。
优选地,选择边信息114包含核心信号的每帧数目N个位。图3示出了用于不同替代例的表。用于选择边信息的位的数目或者是固定的,或者根据由统计模型响应于经提取特征而提供的参数表示替代例的数目来选择。当由统计模型响应于特征而提供仅两个参数表示替代例时,一个位的选择边信息是足够的。当由统计模型提供最大数目四个表示替代例时,则对于选择边信息两个位是必需的。三个位的选择边信息允许最多八个并行参数表示替代例。四个位的选择边信息实际上允许16个参数表示替代例,且五个位的选择边信息允许32个并行参数表示替代例。优选的是仅使用每帧三个或小于三个位的选择边信息,从而在将一秒划分成50个帧时导致150位/秒的边信息速率。由于选择边信息仅在统计模型实际上提供表示替代例时才为必要,此边信息速率甚至可减小。因此,当统计模型仅提供针对特征的单个替代例时,则根本不需要选择边信息位。另一方面,当统计模型仅提供四个参数表示替代例时,则仅两个位而非三个位的选择边信息为必要的。因此,在典型状况下,额外边信息速率甚至可减小至低于150位/秒。
此外,参数生成器被配置成至多提供量等于2N的参数表示替代例。另一方面,当参数生成器108提供例如仅五个参数表示替代例时,则仍然需要三个位的选择边信息。
图4示出参数生成器108的优选实施。具体来说,参数生成器108被配置成使得图1的特征112被输入至统计模型中,如在步骤400处所概述。接着,如在步骤402中所概述,由该模型提供复数个参数表示替代例。
此外,参数生成器108被配置成自边信息提取器撷取选择边信息114,如在步骤404中所概述。接着,在步骤406中,使用选择边信息114来选择特定参数表示替代例。最后,在步骤408中,将选择的参数表示替代例输出至信号估计器118。
优选地,参数生成器108被配置成在选择参数表示替代例中的一者时使用参数表示替代例的预定义次序,或替代地,使用表示替代例的编码器信号次序。为此,参看图7。图7示出了提供四个参数表示替代例702、704、706、708的统计模型的结果。也示出了对应选择边信息码。替代例702对应于位模式712。替代例704对应于位模式714。替代例706对应于位模式716,且替代例708对应于位模式718。因此,当参数生成器108或例如步骤402以图7所示的次序来撷取四个替代例702至708时,则具有位模式716的选择边信息将唯一地识别参数表示替代例3(附图标记706),且参数生成器108接着将选择此第三替代例。然而,当选择边信息位模式为位模式712时,则将选择第一替代例702。
因此,参数表示替代例的预定义次序可为统计模型响应于经提取特征而实际上递送替代例的次序。替代地,若个别替代例具有相关联的不同概率(然而,概率彼此相当接近),则预定义次序可为:最高概率参数表示最先出现,等等。替代地,该次序可例如由单一位传信,但为了甚至节省此位,预定义次序是优选的。
随后,参看图9至图11。
在根据图9的实施例中,本发明特别适合于语音信号,这是因为将专用语音源模型用于参数提取。然而,本发明并不限于语音编码。不同实施例亦可使用其他源模型。
具体来说,选择边信息114亦被称为“摩擦音信息(fricative information)”,这是因为此选择边信息区别诸如“f”、“s”或“sh”的有问题齿音或摩擦音。因此,选择边信息提供三个有问题替代例中的一者的清晰定义,该三个有问题替代例例如由统计模型904在包络估计902的处理中提供,这二者都在参数生成器108中执行。包络估计产生未包括于核心信号中的频谱部分的频谱包络的参数表示。
因此,块104可对应于图15的块1510。此外,图15的块1530可对应于图9的统计模型904。
此外,优选的是,信号估计器118包含分析滤波器910、激励扩展块912及合成滤波器914。因此,块910、912、914可对应于图15的块1600、1700及1800。特别是,分析滤波器910是LPC分析滤波器。包络估计块902控制分析滤波器910的滤波器系数,使得块910的结果为滤波器激励信号。此滤波器激励信号在频率方面被扩展,以便在块912的输出处获得激励信号,该激励信号不仅具有用于输出信号的译码器124的频率范围,而且具有未由核心编码器限定和/或超过核心信号的频谱范围的频率或频谱范围。因此,对译码器的输出处的音频信号909进行上采样,且由插值器900对音频信号909插值,且接着,使插值的信号经受信号估计器118中的处理。因此,图9中的插值器900可对应于图15的插值器1500。然而,优选地,与图15相比,特征提取104使用非插值信号来执行,而非如图15所示来对插值信号执行。此情形有利之处在于:由于与块900的输出处的经上采样和插值的信号相比,非插值音频信号909相比于音频信号的某一时间部分具有较少数目个样本,从而特征提取器104更有效地操作。
图10示出了本发明的另一实施例。与图9相比,图10具有统计模型904,其不仅提供如在图9中的包络估计,而且提供另外的参数表示,该另外的参数表示包含用于产生遗漏声调1080的信息或用于反向滤波1040的信息或关于待相加的噪底1020的信息。块1020、块1040、频谱包络生成1060及遗漏声调1080过程在高效率进阶音频编码(HE-AAC)的上下文中在MPEG-4标准中有所描述。
因此,如图10所示也可对不同于语音的其它信号进行编码。在这种情况下,只对频谱包络编码可能不够,而是还对诸如调性、噪声水平或遗漏正弦波的边信息编码,如在[6]中所示的频谱带复制(spectral band replication,SBR)技术中所进行的。
图11中示出另一实施例,其中除了1100处所示的SBR边信息以外,还使用边信息114,即选择边信息。因此,将包含例如关于所检测的语音声音的信息的选择边信息添加至传统SBR边信息1100。这帮助较准确地重新产生用于语音声音的高频成分,语音声音诸如包括摩擦音、爆破音或元音的齿音。因此,图11所示的过程具有如下优势:另外传输的选择边信息114支持译码器侧(音素(phonem))分类,以便提供SBR或带宽扩展(BWE)参数的译码器侧调适。因此,与图10对比,图11的实施例除了提供选择边信息以外亦提供传统SBR边信息。
图8示出了编码输入信号的示例性表示。编码输入信号由后续帧800、806、812组成。每一帧具有编码核心信号。示例性地,帧800具有语音作为编码核心信号。帧806具有音乐作为编码核心信号,且帧812又具有语音作为编码核心信号。示例性地,帧800仅具有选择边信息作为边信息,而无SBR边信息。因此,帧800对应于图9或图10。示例性地,帧806包含SBR信息,但不含有任何选择边信息。此外,帧812包含编码语音信号,且与帧800对比,帧812不含有任何选择边信息。这是因为在编码器侧上尚未发现特征提取/统计模型处理的任何模糊度,所以不需要选择边信息。
随后,描述图5。使用对核心信号操作的话音活动检测器或语音/非语音检测器500,以便决定应使用本发明的带宽或频率增强技术抑或不同带宽扩展技术。因此,当话音活动检测器或语音/非语音检测器检测到话音或语音时,则使用在511处所示的第一带宽扩展技术BWEXT.1,其例如如图1、图9、图10、图11所述那样操作。因此,切换器502、504被设定成使得自输入512采取来自参数生成器的参数,且切换器504将这些参数连接至块511。然而,当由检测器500检测到未展示任何语音信号但例如展示音乐信号的情形时,则优选地将来自位流的带宽扩展参数514输入至另一带宽扩展技术程序513中。因此,检测器500检测是否应使用本发明的带宽扩展技术511。对于非语音信号,编码器可切换至由块513所示的其它带宽扩展技术,诸如[6、8]中提及的技术。因此,图5的信号估计器118被配置成在检测器500检测到非话音活动或非语音信号时转接至不同带宽扩展程序及/或使用自编码信号提取的不同参数。对于此不同带宽扩展技术513,在位流中优选地不存在选择边信息且亦不使用选择边信息,此情形系在图5中通过将切换器502断开至输入514加以表征。
图6示出了参数生成器108的另一实施。参数生成器108优选地具有复数个统计模型,诸如,第一统计模型600及第二统计模型602。此外,提供选择器604,其由选择边信息控制以提供正确参数表示替代例。哪一统计模型在作用中由额外信号分类器606控制,额外信号分类器606在其输入处接收核心信号,即与至特征提取器104的输入相同的信号。因此,图10中或任何其它图中的统计模型可随着编码内容而变化。对于语音,使用表示语音产生源模型的统计模型,而对于如例如由信号分类器606分类的其它信号(诸如,音乐信号),使用依据大型音乐数据集而训练的不同模型。其它统计模型对于不同语言等是另外有用的。
如前所论述,图7示出由诸如统计模型600的统计模型获得的复数个替代例。因此,块600的输出例如用于如以并行线605所示的不同替代例。以相同方式,第二统计模型602亦可输出复数个替代例,诸如对于如以线606所示的替代例。取决于特定统计模型,优选的是,仅输出相对于特征提取器104具有相当高概率的替代例。因此,统计模型响应于特征而提供复数个替代参数表示,其中每一替代参数表示具有与其它不同替代参数表示的概率相同或与其它替代参数表示的概率相差小于10%的概率。因此,在一实施例中,仅输出具有最高概率的参数表示,及皆具有比最佳匹配替代例的概率小仅10%的概率的数个其它替代参数表示。
图12示出了用于产生编码信号1212的编码器。该编码器包含核心编码器1200,其用于对原始信号1206编码以获得相比于原始信号1206具有关于较少数目个频带的信息的编码音频信号1208。此外,提供用于产生选择边信息1210(SSI—选择边信息)的选择边信息生成器1202。选择边信息1210指示由统计模型响应于自原始信号1206或自编码音频信号1208或自编码音频信号的译码版本提取的特征而提供的被限定参数表示替代例。此外,编码器包含用于输出编码信号1212的输出接口1204。编码信号1212包含编码音频信号1208及选择边信息1210。优选地,如图13所示来实施选择边信息生成器1202。为此,选择边信息生成器1202包含核心译码器1300。提供特征提取器1302,其对由块1300输出的译码核心信号操作。将特征输入至统计模型处理器1304中,统计模型处理器1304用于产生用于估计未由块1300所输出的译码核心信号限定的频率增强信号的频谱范围的数个参数表示替代例。将这些参数表示替代例1305皆输入至用于估计频率增强音频信号1307的信号估计器1306中。接着将这些经估计频率增强音频信号1307输入至用于比较频率增强音频信号1307与图12的原始信号1206的比较器1308中。选择边信息生成器1202另外地被配置成设定选择边信息1210,使得该选择边信息唯一地限定产生根据最佳化准则与原始信号最佳地匹配的频率增强音频信号的参数表示替代例。该最佳化准则可为以最小均方差(minimum means squarederror,MMSE)为基础的准则、使逐样本差最小化的准则,或优选地为使感知到的失真最小化的心理声学准则,或为本领域技术人员所知的任何其它最佳化准则。
图13示出了封闭回路(closed-loop)或合成式分析(analysis-by-synthesis)程序,而图14示出了与开放回路(open-loop)程序更相似的选择边信息1202的替代实施。在图14的实施例中,原始信号1206包含用于选择边信息生成器1202的关联元信息(metainformation),其描述用于原始音频信号的样本序列的声学信息(例如,批注)序列。在此实施例中,选择边信息生成器1202包含用于提取元信息序列的元数据提取器1400,且另外包含元数据转译器,其通常具有关于译码器侧上使用的统计模型的知识以将元信息序列转译成与原始音频信号相关联的选择边信息1210序列。在编码器中舍弃且在编码信号1212中不传输由元数据提取器1400提取的元数据。相反,连同由核心编码器产生的编码音频信号1208在编码信号中传输选择边信息1210,编码音频信号1208相比于经最后产生的译码信号或相比于原始信号1206具有不同频率内容且通常具有较少频率内容。
由选择边信息生成器1202产生的选择边信息1210可具有如在之前附图的上下文中论述的特性中任一者。
虽然已在框图(其中块表示实际或逻辑硬件组件)的上下文中描述本发明,但本发明也可由计算机实施的方法来实施。在后者状况下,块表示对应方法步骤,其中这些步骤代表由对应逻辑或物理硬件块执行的功能性。
虽然已在装置的上下文中描述一些方面,但显然这些方面也表示对应方法的描述,其中块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应块或项目或特征的描述。方法步骤中的一些或全部可由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行。在一些实施例中,最重要的方法步骤中的某一步骤或更多步骤可由此装置执行。
本发明的传输或编码信号可储存于数字储存介质上,或可在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上传输。
根据某些实施要求,可以硬件或以软件来实施本发明的实施例。可使用储存有电子可读控制信号的数字储存介质(例如,软性磁盘、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH内存)来执行该实施,其与(或能够与)可编程计算机系统合作,使得执行各个方法。因此,数字储存介质可为计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统合作,使得执行本文所描述的方法中的一者。
通常,可将本发明的实施例实施为具有程序代码的计算机程序产品,该程序代码可操作以当该计算机程序产品在计算机上运行时执行方法中的一者。程序代码可例如储存于机器可读载体上。
其它实施例包含用于执行本文所描述的方法中的一者的计算机程序,其储存于机器可读载体上。
换言之,本发明的方法的一实施例因此为具有程序代码的计算机程序,该程序代码用于当该计算机程序在计算机上运行时执行本文所描述的方法中的一者。
本发明的方法的另外实施例因此为一数据载体(或诸如数字储存介质的非暂时性储存介质,或计算机可读介质),其包含记录于其上的用于执行本文所描述的方法中的一者的计算机程序。数据载体、数字储存介质或记录介质通常是有形的及/或非暂时性的。
本发明的方法的另外实施例因此为一数据流或信号序列,其表示用于执行本文所描述的方法中的一者的计算机程序。该数据流或信号序列可例如被配置成经由数据通信连接(例如,经由因特网)而传送。
一另外实施例包含一处理构件,例如,计算机或可编程逻辑器件,其被配置或调适以执行本文所描述的方法中的一者。
一另外实施例包含一计算机,其具有安装于其上的用于执行本文所描述的方法中的一者的计算机程序。
根据本发明的另外实施例包含被配置成将用于执行本文所描述的方法中的一者的计算机程序传送(例如,电子地或光学地)至接收器的装置或系统。举例来说,该接收器可为计算机、移动器件、内存器件等。举例来说,该装置或系统可包含用于将计算机程序传送至接收器的文档服务器。
在一些实施例中,可使用可编程逻辑器件(例如,场可编程门阵列)以执行本文所描述的方法的功能性中的一些或全部。在一些实施例中,场可编程门阵列可与微处理器合作,以便执行本文所描述的方法中的一者。通常,该方法优选地由任何硬件装置执行。
从以上内容可见,本申请所公开的技术内容包括但不限于如下:
方案1.一种用于生成频率增强音频信号(120)的译码器,包括:
特征提取器(104),用于自核心信号(100)提取特征;
边信息提取器(110),用于提取与该核心信号相关联的选择边信息;
参数生成器(108),用于产生用于估计未由所述核心信号(100)限定的所述频率增强音频信号(120)的频谱范围的参数表示,其中所述参数生成器(108)被配置成响应于所述特征(112)提供数个参数表示替代例(702,704,706,708),且其中所述参数生成器(108)被配置成响应于所述选择边信息(712-718)选择所述参数表示替代例中的一者作为所述参数表示;以及
信号估计器(118),用于使用选择的所述参数表示来估计所述频率增强音频信号(120)。
方案2.如方案1所述的译码器,进一步包括:
输入接口(110),用于接收包含编码的核心信号(201)及所述选择边信息(114)的编码的输入信号(200);以及
核心译码器(124),用于对所述编码的核心信号进行译码以获得所述核心信号(100)。
方案3.如方案1或2所述的译码器,
其中所述选择边信息(712,714,716,718)包含所述核心信号(100)的每帧(800,806,812)数目N个位,
其中所述参数生成器(108)被配置成提供至多量等于2N的参数表示替代例(702-708)。
方案4.如前述方案之一所述的译码器,其中所述参数生成器(108)被配置成在选择所述参数表示替代例中的一者时使用所述参数表示替代例的预定义次序,或所述参数表示替代例的编码器传信的次序。
方案5.如前述方案之一所述的译码器,其中所述参数生成器(108)被配置成提供包络表示作为所述参数表示,
其中所述选择边信息(114)指示复数个不同齿音或摩擦音中的一者,且
其中所述参数生成器(108)被配置成提供由所述选择边信息识别的所述包络表示。
方案6.如前述方案之一所述的译码器,
其中所述信号估计器(118)包括用于对所述核心信号(100)插值的插值器(900),且
其中所述特征提取器(104)被配置成自未经插值的所述核心信号(100)提取所述特征。
方案7.如前述方案之一所述的译码器,
其中所述信号估计器(118)包括:
分析滤波器(910),用于分析所述核心信号或插值的核心信号以获得激励信号;
激励扩展块(912),用于产生具有未包括于所述核心信号(100)中的所述频谱范围的增强激励信号;以及
合成滤波器(914),用于对所述扩展激励信号滤波;
其中所述分析滤波器(910)或所述合成滤波器(914)由选择的所述参数表示来确定。
方案8.如前述方案之一所述的译码器,
其中所述信号估计器(118)包含频谱带宽扩展处理器,用于使用所述核心信号的至少频谱带及所述参数表示来产生对应于未包括于所述核心信号中的所述频谱范围的扩展频谱带,
其中所述参数表示包含用于频谱包络调整、噪底(1020)相加、反向滤波(1040)以及遗漏声调的相加中至少一者的参数,
其中所述参数生成器被配置成针对特征提供复数个参数表示替代例,每个参数表示替代例具有用于频谱包络调整、噪底(1020)相加、反向滤波(1040)以及遗漏声调的相加中至少一者的参数。
方案9.如前述方案之一所述的译码器,进一步包括:
话音活动检测器或语音/非语音检测器(500),
其中所述信号估计器(118)被配置成仅在所述话音活动检测器或所述语音/非语音检测器(500)指示话音活动或语音信号时才使用所述参数表示来估计所述频率增强信号。
方案10.如方案9所述的译码器,
其中所述信号估计器(118)被配置成在所述话音活动检测器或语音/非语音检测器(500)指示非语音信号或不具有话音活动的信号时,自一个频率增强程序(511)切换(502,504)至不同的频率增强程序(513)或使用自编码的信号提取的不同参数(514)。
方案11.如前述方案之一所述的译码器,还包括:
信号分类器(606),用于对所述核心信号(100)的帧分类,
其中所述参数生成器(108)被配置成在信号帧被分类为属于第一类的信号时使用第一统计模型(600),且在所述帧被分类到第二不同类的信号时使用第二不同的统计模型(602)。
方案12.如前述方案之一所述的译码器,
其中所述统计模型被配置成响应于特征提供参数表示(702-708)的复数个替代例,
其中每个替代参数表示具有与不同替代参数表示的概率相同、或与所述替代参数表示的所述概率相差小于最高概率的10%的概率。
方案13.如前述方案之一所述的译码器,
其中当所述参数生成器(108)提供复数个参数表示替代例时,所述选择边信息仅包括于所述编码的信号的帧(800)中,且
其中所述选择边信息不包括于所述编码音频信号的不同帧(812)中,其中所述参数生成器(108)响应于所述特征(112)仅提供单个参数表示替代例。
方案14.如前述方案之一所述的译码器,
其中所述参数生成器(108)被配置成接收与所述核心信号(100)相关联的参数频率增强信息(1100),所述参数频率增强信息包含分立参数群组,
其中所述参数生成器(108)被配置成除了提供所述参数频率增强信息以外还提供选择的所述参数表示,
其中选择的所述参数表示包含未包括于所述分立参数群组中的参数,或用于改变所述分立参数群组中的参数的参数改变值,且
其中所述信号估计器(118)被配置成使用选择的所述参数表示及所述参数频率增强信息(1100)来估计所述频率增强音频信号。
方案15.一种用于产生编码信号(1212)的编码器,包括:
核心编码器(1200),用于对原始信号(1206)进行编码以获得相比于原始信号(1206)具有关于较少数目频带的信息的编码音频信号(1208);
选择边信息生成器(1202),用于生成选择边信息(1210),所述选择边信息(1210)指示由统计模型响应于自所述原始信号(1206)或自所述编码音频信号(1208)或自所述编码音频信号(1208)的译码版本提取的特征(112)而提供的被限定参数表示替代例(702-708);以及
输出接口(1204),用于输出所述编码信号(1212),所述编码信号(1212)包含所述编码音频信号(1208)及所述选择边信息(1210)。
方案16.如方案15所述的编码器,还包括:
核心译码器(1300),用于对所述编码音频信号(1208)进行译码以获得译码核心信号,
其中所述选择边信息生成器(1202)包含:
特征提取器(1302),用于自所述译码核心信号提取特征;
统计模型处理器(1304),用于产生用于估计未由所述译码核心信号限定的频率增强信号的频谱范围的数个参数表示替代例(702-708);
信号估计器(1306),用于估计用于所述参数表示替代例(1305)的频率增强音频信号;以及
比较器(1308),用于比较所述频率增强音频信号(1307)与所述原始信号(1206),
其中所述选择边信息生成器(1202)被配置成设定所述选择边信息(1210),使得所述选择边信息唯一地限定导致根据最佳化准则与所述原始信号(1206)最佳地匹配的频率增强音频信号的所述参数表示替代例。
方案17.如方案15所述的编码器,
其中所述原始信号包含描述用于所述原始音频信号的样本序列的声学信息序列的关联元信息,
其中所述选择边信息生成器(1202)包含元数据提取器(1400),其用于提取所述元信息的序列;以及
元数据转译器(1402),其用于将所述元信息的序列转译成所述选择边信息(1210)的序列。
方案18.如方案15或16所述的编码器,
其中所述选择边信息生成器(1202)被配置成生成选择边信息,所述选择边信息包含所述编码音频信号的每帧(800,806,812)数目N个位,
其中所述统计模型使得提供至多量等于2N的参数表示替代例。
方案19.如方案15-17中一项所述的编码器,
其中所述输出接口(1204)被配置成在由所述统计模型提供复数个参数表示替代例时仅将所述选择边信息(1210)包括至所述编码信号(1212)中,且不将任何选择边信息包括至用于所述编码音频信号(1208)的帧中,其中所述统计模型可操作以响应于所述特征而仅提供单个参数表示。
方案20.一种用于生成频率增强音频信号(120)的方法,包括:
自核心信号(100)提取(104)特征;
提取(110)与所述核心信号相关联的选择边信息;
生成用于估计未由所述核心信号(100)限定的所述频率增强音频信号(120)的频谱范围的参数表示,其中响应于所述特征(112)而提供数个参数表示替代例(702,704,706,708),且其中响应于所述选择边信息(712,-718)而选择所述参数表示替代例中的一者作为所述参数表示;以及
使用选择的所述参数表示来估计(118)所述频率增强音频信号(120)。
方案21.一种用于生成编码信号(1212)的方法,包括:
对原始信号(1206)编码(1200)以获得相比于原始信号(1206)具有关于较少数目频带的信息的编码音频信号(1208);
生成(1202)选择边信息(1210),所述选择边信息(1210)指示由统计模型响应于自所述原始信号(1206)或自所述编码音频信号(1208)或自所述编码音频信号(1208)的译码版本提取的特征(112)而提供的被限定参数表示替代例(702-708);以及
输出(1204)所述编码信号(1212),所述编码信号包含所述编码音频信号(1208)及所述选择边信息(1210)。
方案22.一种计算机程序,用于在计算机或处理器上运行时执行如方案20所述的方法或如方案21所述的方法。
方案23.一种编码信号(1212),包括:
编码音频信号(1208);以及
选择边信息(1210),其指示由统计模型响应于自原始信号或自所述编码音频信号或自所述编码音频信号的译码版本提取的特征而提供的被限定参数表示替代例。
上述实施例仅仅说明本发明的原理。应理解,本文所描述的配置及细节的修改及变化对于本领域技术人员来说是明显的。因此,意图仅受到即将出现的专利权利要求的范围的限制,而不受到作为本文中的实施例的描述及解释而呈现的特定细节限制。
参考文献:
[1]B.Bessette et al.,“The Adaptive Multi-rate Wideband SpeechCodec(AMR-WB),”IEEE Trans.on Speech and Audio Processing,
Vol.10,No.8,Nov.2002.
[2]B.Geiser et al.,“Bandwidth Extension for Hierarchical SpeechandAudio Coding in ITU-T Rec.G.729.1,”IEEE Trans.on Audio,
Speech,and Language Processing,Vol.15,No.8,Nov.2007.
[3]B.Iser,W.Minker,and G.Schmidt,Bandwidth Extension ofSpeechSignals,Springer Lecture Notes in Electrical Engineering,Vol.13,
New York,2008.
[4]M.Jelínek and R.Salami,“Wideband Speech Coding Advances inVMR-WBStandard,”IEEE Trans.on Audio,Speech,andLanguage Processing,Vol.15,No.4,May2007.
[5]I.Katsir,I.Cohen,and D.Malah,“Speech Bandwidth ExtensionBased onSpeech Phonetic Content and Speaker Vocal Tract ShapeEstimation,”inProc.EUSIPCO 2011,Barcelona,Spain,Sep.2011.[6]E.Larsen and R.M.Aarts,AudioBandwidth Extension:
Application of Psychoacoustics,Signal Processing andLoudspeakerDesign,Wiley,New York,2004.
[7]J.et al.,“AMR-WB+:A New Audio Coding Standard for
3rd Generation Mobile Audio Services,”in Proc.ICASSP 2005,
Philadelphia,USA,Mar.2005.
[8]M.Neuendorf et al.,“MPEG Unified Speech and Audio Coding-–The ISO/MPEG Stan-dard for High-Efficiency Audio Coding of AllContent Types,”inProc.132nd Convention of the AES,Budapest,
Hungary,Apr.2012.Also to appear in the Journal of the AES,2013.
[9]H.Pulakka and P.Alku,“Bandwidth Extension of Telephone SpeechUsing a Neural Network and a Filter Bank Implementation for Highband MelSpectrum,”IEEE Trans.on Audio,Speech,and Language Processing,Vol.19,No.7,Sep.2011.
[10]T.Vaillancourt et al.,“ITU-T EV-VBR:A Robust 8-32 kbit/s ScalableCoder for Error Prone Telecommunications Channels,”in Proc.EUSIPCO 2008,Lausanne,Switzerland,Aug.2008.
[11]L.Miao et al.,“G.711.1 Annex D and G.722 Annex B:New ITU-TSuperwideband codecs,”in Proc.ICASSP 2011,Prague,Czech Republic,May 2011.
[12]Bernd Geiser,Peter Jax,and Peter Vary::“ROBUST WIDEBANDENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTH EXTENSION”,Proceedings of International Workshop on Acoustic Echo and Noise Control(IWAENC),2005.

Claims (19)

1.一种用于生成频率增强音频信号(120)的译码器,包括:
特征提取器(104),用于自核心音频信号(100,201)提取特征(112);
边信息提取器(110),用于提取与该核心音频信号(100,201)相关联的选择边信息(114,712,714,716,718);
具有统计模型(904)的参数生成器(108),其中,所述参数生成器(108)被配置成产生用于估计未由所述核心音频信号(100,201)限定的所述频率增强音频信号(120)的频谱范围的参数表示(116),其中所述参数生成器(108)被配置成:
将由所述特征提取器(104)提取的所述特征(112)输入(400)到所述统计模型(904);
由所述统计模型(904)响应于输入(400)到所述统计模型(904)中的所述特征(112)提供(402)复数个参数表示替代例(702,704,706,708),以及
响应于所述选择边信息(114,712,714,716,718)选择(406)由所述统计模型(904)提供(402)的所述复数个参数表示替代例(702,704,706,708)中的一个参数表示替代例(116)作为所述参数表示(116);以及
信号估计器(118),用于使用选择的所述参数表示(116)来估计所述频率增强音频信号(120),其中,所述信号估计器(118)被配置成将额外的频率内容添加到所述核心音频信号(100,201),
其中所述选择边信息(114,712,714,716,718)包含所述核心音频信号(100,201)的每帧(800)数目N个位,以及
其中所述参数生成器(108)被配置成提供至多量等于2N的参数表示替代例(702,704,706,708),其中,N是所述选择边信息(114,712,714,716,718)的位的数目。
2.如权利要求1所述的译码器,进一步包括:
输入接口,用于接收包含编码的核心音频信号(201)及所述选择边信息(114,712,714,716,718)的编码的输入信号(200);以及
核心译码器(124),用于对所述编码的核心音频信号(201)进行译码以获得译码信号作为所述核心音频信号(100)。
3.如权利要求1所述的译码器,其中所述参数生成器(108)被配置成在选择所述参数表示替代例(702,704,706,708)中的一者时使用所述参数表示替代例(702,704,706,708)的预定义次序,或所述参数表示替代例(702,704,706,708)的编码器传信的次序。
4.如权利要求1所述的译码器,其中所述参数生成器(108)被配置成提供包络表示作为所述参数表示(116),
其中所述选择边信息(114,712,714,716,718)指示复数个不同齿音或摩擦音中的一者,且
其中所述参数生成器(108)被配置成提供由所述选择边信息(114,712,714,716,718)识别的所述包络表示(116)。
5.如权利要求1所述的译码器,
其中所述信号估计器(118)包括用于对所述核心音频信号(100)插值的插值器(900),且
其中所述特征提取器(104)被配置成自未经插值的所述核心音频信号(100)提取所述特征(112)。
6.如权利要求1所述的译码器,
其中所述信号估计器(118)包括:
分析滤波器(910),用于分析所述核心音频信号(100,201)或插值的核心音频信号以获得激励信号;
激励扩展块(912),用于产生具有未包括于所述核心音频信号(100,201)中的所述频谱范围的增强激励信号;以及
合成滤波器(914),用于对所述增强激励信号滤波;
其中所述分析滤波器(910)或所述合成滤波器(914)由选择的所述参数表示(116)来确定。
7.如权利要求1所述的译码器,
其中所述信号估计器(118)包含频谱带宽扩展处理器,用于使用所述核心音频信号(100,201)的至少频谱带及所选择的所述参数表示(116)来产生对应于未包括于所述核心音频信号(100,201)中的所述频谱范围的扩展频谱带,
其中所选择的所述参数表示(116)包含用于频谱包络调整、噪底(1020)相加、反向滤波(1040)以及遗漏声调的相加中至少一者的参数,
其中所述参数生成器(108)被配置成针对所述特征(112)提供所述复数个参数表示替代例(702,704,706,708),所述复数个参数表示替代例(702,704,706,708)中的每个参数表示替代例具有用于所述频谱包络调整、所述噪底(1020)相加、所述反向滤波(1040)以及所述遗漏声调的相加中至少一者的参数。
8.如权利要求2所述的译码器,进一步包括:
话音活动检测器或语音/非语音检测器(500),
其中所述信号估计器(118)被配置成仅在所述话音活动检测器或所述语音/非语音检测器(500)指示话音活动或语音信号时才使用所选择的所述参数表示(116)来估计所述频率增强音频信号(120)。
9.如权利要求8所述的译码器,
其中所述信号估计器(118)被配置成在所述话音活动检测器或所述语音/非语音检测器(500)指示非语音信号或不具有话音活动的信号时,自一个频率增强程序(511)切换(502,504)至不同的频率增强程序(513)或使用自所述编码的输入信号(200)提取的不同参数(514)。
10.如权利要求1所述的译码器,还包括:
信号分类器(606),用于对所述核心音频信号(100,201)的帧(800)分类,
其中所述参数生成器(108)被配置成在所述帧(800)被分类为属于第一类的信号时使用作为第一统计模型(600)的所述统计模型(904),且在所述帧(800)被分类到第二不同类的信号时使用不同的第二统计模型(602)。
11.如权利要求10的译码器,
其中所述第一统计模型(600)或所述第二统计模型(602)被配置成响应于所述特征(112)提供所述复数个参数表示替代例(702,704,706,708),
其中所述复数个参数表示替代例(702,704,706,708)中的每个参数表示替代例具有与不同的参数表示替代例的概率相同、或与所述参数表示替代例的所述概率相差小于最高概率的10%的概率。
12.如权利要求1所述的译码器,
其中当所述参数生成器(108)提供所述复数个参数表示替代例(702,704,706,708)时,所述选择边信息(114,712,714,716,718)仅包括于所述核心音频信号(100,201)的帧(800)中,且
其中所述选择边信息(114,712,714,716,718)不包括于所述核心音频信号(100,201)的不同帧(806,812)中,其中所述参数生成器(108)响应于所述特征(112)仅提供单个参数表示替代例。
13.如权利要求1所述的译码器,
其中所述参数生成器(108)被配置成接收与所述核心音频信号(100)相关联的参数频率增强信息(1100),所述参数频率增强信息包含分立参数群组,
其中所述参数生成器(108)被配置成除了提供所述参数频率增强信息以外还提供选择的所述参数表示,
其中选择的所述参数表示包含未包括于所述分立参数群组中的参数,或用于改变所述分立参数群组中的参数的参数改变值,且
其中所述信号估计器(118)被配置成使用选择的所述参数表示及所述参数频率增强信息(1100)来估计所述频率增强音频信号。
14.一种用于产生编码信号(1212)的编码器,包括:
核心编码器(1200),用于对原始音频信号(1206)进行编码以获得相比于所述原始音频信号(1206)具有关于较少数目频带的信息的编码音频信号(1208);
选择边信息生成器(1202),用于生成选择边信息(1210),所述选择边信息(1210)指示由统计模型响应于自所述原始音频信号(1206)或自所述编码音频信号(1208)或自所述编码音频信号(1208)的译码版本提取的特征(112)而提供的复数个参数表示替代例(702,704,706,708)中的被限定参数表示替代例(116);以及
输出接口(1204),用于输出所述编码信号(1212),所述编码信号(1212)包含所述编码音频信号(1208)及所述选择边信息(1210),
其中所述选择边信息生成器(1202)被配置成生成所述选择边信息(1210),所述选择边信息(1210)包含所述编码音频信号(1208)的每帧(800)数目N个位,且其中所述统计模型使得提供所述复数个参数表示替代例(702,704,706,708)中的至多量等于2N的所述参数表示替代例,其中,N是所述选择边信息(1210)的位的数目,或者
其中所述输出接口(1204)被配置成在由所述统计模型提供所述复数个参数表示替代例(702,704,706,708)时仅将所述选择边信息(1210)包括至所述编码信号(1212)中,且不将任何选择边信息包括至所述编码音频信号(1208)的帧(800)中,其中所述统计模型可操作以响应于所述特征(112)而仅提供单个参数表示。
15.如权利要求14所述的编码器,还包括:
核心译码器(1300),用于对所述编码音频信号(1208)进行译码以获得译码核心信号,
其中所述选择边信息生成器(1202)包含:
特征提取器(1302),用于自所述译码核心信号提取所述特征(112);
统计模型处理器(1304),用于产生用于估计未由所述译码核心信号限定的频率增强信号的频谱范围的所述复数个参数表示替代例(702,704,706,708);
信号估计器(1306),用于估计用于所述复数个参数表示替代例(702,704,706,708)的频率增强音频信号(1307);以及
比较器(1308),用于比较所述频率增强音频信号(1307)与所述原始音频信号(1206),
其中所述选择边信息生成器(1202)被配置成设定所述选择边信息(1210),使得所述选择边信息(1210)唯一地限定所述复数个参数表示替代例(702,704,706,708)中的导致频率增强音频信号(1307)中的特定频率增强音频信号的所述参数表示替代例,其中,所述特定频率增强音频信号根据最佳化准则与所述原始音频信号(1206)最佳地匹配。
16.如权利要求14所述的编码器,
其中所述原始音频信号(1206)包含描述用于所述原始音频信号(1206)的样本序列的声学信息序列的关联元信息,
其中所述选择边信息生成器(1202)包含元数据提取器(1400),其用于提取所述元信息的序列;以及
元数据转译器(1402),其用于将所述元信息的序列转译成所述选择边信息(1210)的序列。
17.一种用于生成频率增强音频信号(120)的方法,包括:
自核心音频信号(100,201)提取特征(112);
提取与所述核心音频信号(100,201)相关联的选择边信息(114,712,714,716,718);
使用统计模型(904)生成用于估计未由所述核心音频信号(100,201)限定的所述频率增强音频信号(120)的频谱范围的参数表示(116),其中所述生成(108)包括:
将通过所述提取的步骤提取的所述特征(112)输入到所述统计模型(904),
由所述统计模型(904)响应于输入(400)到所述统计模型(904)中的所述特征(112)而提供复数个参数表示替代例(702,704,706,708),以及
响应于所述选择边信息(114,712,714,716,718)而选择由所述统计模型(904)提供的所述复数个参数表示替代例(702,704,706,708)中的一个参数表示替代例作为所述参数表示;以及
使用选择的所述参数表示(116)来估计所述频率增强音频信号(120),其中,所述估计(118)包括将额外的频率内容添加到所述核心音频信号(100,201),
其中所述选择边信息(114,712,714,716,718)包含所述核心音频信号(100,201)的每帧(800)数目N个位,以及
其中所述生成提供至多量等于2N的参数表示替代例(702,704,706,708),其中,N是所述选择边信息(114,712,714,716,718)的位的数目。
18.一种用于生成编码信号(1212)的方法,包括:
对原始信号(1206)编码以获得相比于原始信号(1206)具有关于较少数目频带的信息的编码音频信号(1208);
生成选择边信息(1210),所述选择边信息(1210)指示由统计模型响应于自所述原始信号(1206)或自所述编码音频信号(1208)或自所述编码音频信号(1208)的译码版本提取的特征(112)而提供的复数个参数表示替代例(702,704,706,708)中的被限定参数表示替代例(116);以及
输出所述编码信号(1212),所述编码信号(1212)包含所述编码音频信号(1208)及所述选择边信息(1210),
其中所述生成包括生成所述选择边信息(1210),所述选择边信息(1210)包含所述编码音频信号(1208)的每帧(800)数目N个位,并且其中所述统计模型使得提供所述复数个参数表示替代例(702,704,706,708)中的至多量等于2N的所述参数表示替代例,其中,N是所述选择边信息(1210)的位的数目,或者
其中所述输出包括在由所述统计模型提供所述复数个参数表示替代例(702,704,706,708)时仅将所述选择边信息(1210)包括至所述编码信号(1212)中,且不将任何选择边信息(1210)包括至所述编码音频信号(1208)的帧(800)中,其中所述统计模型可操作以响应于所述特征而仅提供单个参数表示。
19.一种存储有计算机程序的计算机可读存储介质,所述计算机程序用于在计算机或处理器上运行时执行如权利要求17所述的方法或如权利要求18所述的方法。
CN201811139723.4A 2013-01-29 2014-01-28 产生频率增强音频信号的译码器和产生编码信号的编码器 Active CN109509483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811139723.4A CN109509483B (zh) 2013-01-29 2014-01-28 产生频率增强音频信号的译码器和产生编码信号的编码器

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361758092P 2013-01-29 2013-01-29
US61/758,092 2013-01-29
CN201811139723.4A CN109509483B (zh) 2013-01-29 2014-01-28 产生频率增强音频信号的译码器和产生编码信号的编码器
CN201480006567.8A CN105103229B (zh) 2013-01-29 2014-01-28 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
PCT/EP2014/051591 WO2014118155A1 (en) 2013-01-29 2014-01-28 Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480006567.8A Division CN105103229B (zh) 2013-01-29 2014-01-28 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法

Publications (2)

Publication Number Publication Date
CN109509483A CN109509483A (zh) 2019-03-22
CN109509483B true CN109509483B (zh) 2023-11-14

Family

ID=50023570

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201811139723.4A Active CN109509483B (zh) 2013-01-29 2014-01-28 产生频率增强音频信号的译码器和产生编码信号的编码器
CN201480006567.8A Active CN105103229B (zh) 2013-01-29 2014-01-28 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
CN201811139722.XA Active CN109346101B (zh) 2013-01-29 2014-01-28 产生频率增强音频信号的译码器和产生编码信号的编码器

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201480006567.8A Active CN105103229B (zh) 2013-01-29 2014-01-28 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
CN201811139722.XA Active CN109346101B (zh) 2013-01-29 2014-01-28 产生频率增强音频信号的译码器和产生编码信号的编码器

Country Status (19)

Country Link
US (3) US10657979B2 (zh)
EP (3) EP3203471B1 (zh)
JP (3) JP6096934B2 (zh)
KR (3) KR101798126B1 (zh)
CN (3) CN109509483B (zh)
AR (1) AR094673A1 (zh)
AU (3) AU2014211523B2 (zh)
BR (1) BR112015018017B1 (zh)
CA (4) CA3013744C (zh)
ES (3) ES2725358T3 (zh)
HK (1) HK1218460A1 (zh)
MX (1) MX345622B (zh)
MY (1) MY172752A (zh)
RU (3) RU2676242C1 (zh)
SG (3) SG10201608613QA (zh)
TR (1) TR201906190T4 (zh)
TW (3) TWI524333B (zh)
WO (1) WO2014118155A1 (zh)
ZA (1) ZA201506313B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
TWI771266B (zh) 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
BR112020008216A2 (pt) * 2017-10-27 2020-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho e seu método para gerar um sinal de áudio intensificado, sistema para processar um sinal de áudio
KR102556098B1 (ko) * 2017-11-24 2023-07-18 한국전자통신연구원 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치
CN108399913B (zh) * 2018-02-12 2021-10-15 北京容联易通信息技术有限公司 高鲁棒性音频指纹识别方法及系统
EP3844749B1 (en) 2018-08-30 2023-12-27 Dolby International AB Method and apparatus for controlling enhancement of low-bitrate coded audio
KR20220137921A (ko) * 2020-02-03 2022-10-12 핀드롭 시큐리티 인코포레이티드 음성 생체 인식의 크로스-채널 등록 및 인증
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN112233685B (zh) * 2020-09-08 2024-04-19 厦门亿联网络技术股份有限公司 基于深度学习注意力机制的频带扩展方法及装置
KR20220151953A (ko) 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
CN114443891B (zh) * 2022-01-14 2022-12-06 北京有竹居网络技术有限公司 编码器的生成方法、指纹提取方法、介质及电子设备

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1542736A (zh) * 2003-05-01 2004-11-03 在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型
WO2005078706A1 (en) * 2004-02-18 2005-08-25 Voiceage Corporation Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
KR20070003574A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 오디오 신호 인코딩 및 디코딩 방법 및 장치
TW200738037A (en) * 2006-03-28 2007-10-01 Fraunhofer Ges Forschung Enhanced method for signal shaping in multi-channel audio reconstruction
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN101222644A (zh) * 2007-01-12 2008-07-16 三菱电机株式会社 运动图像编码、解码装置以及运动图像编码、解码方法
CN101484935A (zh) * 2006-09-29 2009-07-15 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN101490748A (zh) * 2006-07-24 2009-07-22 汤姆森许可贸易公司 使用有损编码数据流和无损扩展数据流对源信号进行无损编码的方法和设备
EP2228790A2 (en) * 1999-06-21 2010-09-15 DTS, Inc. Improving sound quality of established low bit-rate audio coding systems without loss of decoder compatility
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN101952886A (zh) * 2008-02-19 2011-01-19 西门子企业通讯有限责任两合公司 用于对背景噪声信息进行编码的方法和装置
CN101959068A (zh) * 2010-10-12 2011-01-26 华中科技大学 一种视频流解码计算复杂度估计方法
WO2011047886A1 (en) * 2009-10-21 2011-04-28 Dolby International Ab Apparatus and method for generating a high frequency audio signal using adaptive oversampling
CN102081927A (zh) * 2009-11-27 2011-06-01 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN102089816A (zh) * 2008-07-11 2011-06-08 弗朗霍夫应用科学研究促进协会 音频信号合成器及音频信号编码器
CN102177543A (zh) * 2008-10-08 2011-09-07 弗朗霍夫应用科学研究促进协会 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号
CN102282612A (zh) * 2009-01-16 2011-12-14 杜比国际公司 叉积增强的谐波转置
EP2410522A1 (en) * 2008-07-11 2012-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
CN102598666A (zh) * 2009-11-04 2012-07-18 皇家飞利浦电子股份有限公司 用于提供媒体数据和元数据组合的方法和系统
CN102859967A (zh) * 2010-03-01 2013-01-02 诺基亚公司 用于基于用户交互数据来估计用户特征的方法和设备

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
US8605911B2 (en) * 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US8046217B2 (en) * 2004-08-27 2011-10-25 Panasonic Corporation Geometric calculation of absolute phases for parametric stereo decoding
RU2007107348A (ru) * 2004-08-31 2008-09-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство и способ генерирования стереосигнала
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP4459267B2 (ja) * 2005-02-28 2010-04-28 パイオニア株式会社 辞書データ生成装置及び電子機器
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
JP4766559B2 (ja) * 2006-06-09 2011-09-07 Kddi株式会社 音楽信号の帯域拡張方式
ES2401817T3 (es) * 2008-01-31 2013-04-24 Agency For Science, Technology And Research Procedimiento y dispositivo de distribución/truncado de la velocidad de transmisión de bits para codificación de audio escalable
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
JP5108960B2 (ja) * 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US8578247B2 (en) * 2008-05-08 2013-11-05 Broadcom Corporation Bit error management methods for wireless audio communication channels
AU2009267531B2 (en) * 2008-07-11 2013-01-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for decoding an encoded audio signal
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
JP5326465B2 (ja) 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
JP5629429B2 (ja) 2008-11-21 2014-11-19 パナソニック株式会社 オーディオ再生装置及びオーディオ再生方法
CA2966469C (en) * 2009-01-28 2020-05-05 Dolby International Ab Improved harmonic transposition
BR122019023877B1 (pt) * 2009-03-17 2021-08-17 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
ES2400661T3 (es) * 2009-06-29 2013-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de extensión de ancho de banda
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
CN102714035B (zh) 2009-10-16 2015-12-16 弗兰霍菲尔运输应用研究公司 用以提供一或多个经调整参数的装置及方法
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
PL3779978T3 (pl) * 2010-04-13 2022-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania enkodowanego sygnału audio stereo z wykorzystaniem zmiennego kierunku predykcji
SG185050A1 (en) * 2010-04-26 2012-12-28 Panasonic Corp Filtering mode for intra prediction inferred from statistics of surrounding blocks
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
PL2432161T3 (pl) * 2010-09-16 2016-02-29 Deutsche Telekom Ag Sposób oraz system do pomiaru jakości transmisji strumienia bitów audio i wideo w ciąg transmisji
UA107771C2 (en) * 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2228790A2 (en) * 1999-06-21 2010-09-15 DTS, Inc. Improving sound quality of established low bit-rate audio coding systems without loss of decoder compatility
CN1542736A (zh) * 2003-05-01 2004-11-03 在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型
WO2005078706A1 (en) * 2004-02-18 2005-08-25 Voiceage Corporation Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
KR20070003574A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 오디오 신호 인코딩 및 디코딩 방법 및 장치
TW200738037A (en) * 2006-03-28 2007-10-01 Fraunhofer Ges Forschung Enhanced method for signal shaping in multi-channel audio reconstruction
CN101490748A (zh) * 2006-07-24 2009-07-22 汤姆森许可贸易公司 使用有损编码数据流和无损扩展数据流对源信号进行无损编码的方法和设备
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN101484935A (zh) * 2006-09-29 2009-07-15 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN101222644A (zh) * 2007-01-12 2008-07-16 三菱电机株式会社 运动图像编码、解码装置以及运动图像编码、解码方法
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN101952886A (zh) * 2008-02-19 2011-01-19 西门子企业通讯有限责任两合公司 用于对背景噪声信息进行编码的方法和装置
CN102089816A (zh) * 2008-07-11 2011-06-08 弗朗霍夫应用科学研究促进协会 音频信号合成器及音频信号编码器
EP2410522A1 (en) * 2008-07-11 2012-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
CN102177543A (zh) * 2008-10-08 2011-09-07 弗朗霍夫应用科学研究促进协会 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号
CN102282612A (zh) * 2009-01-16 2011-12-14 杜比国际公司 叉积增强的谐波转置
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CN102177545A (zh) * 2009-04-09 2011-09-07 弗兰霍菲尔运输应用研究公司 用以产生合成音频信号及将音频信号编码的装置与方法
WO2011047886A1 (en) * 2009-10-21 2011-04-28 Dolby International Ab Apparatus and method for generating a high frequency audio signal using adaptive oversampling
CN102598666A (zh) * 2009-11-04 2012-07-18 皇家飞利浦电子股份有限公司 用于提供媒体数据和元数据组合的方法和系统
CN102081927A (zh) * 2009-11-27 2011-06-01 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN102859967A (zh) * 2010-03-01 2013-01-02 诺基亚公司 用于基于用户交互数据来估计用户特征的方法和设备
CN101959068A (zh) * 2010-10-12 2011-01-26 华中科技大学 一种视频流解码计算复杂度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OFDM系统中的Turbo码编译码技术研究与实现;彭芳芳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091215(第12期);全文 *
Quality Enhancement of Coded Transient Audio with a Post-filter in Frequency Domain;Wang, J等;《2010 IEEE 10TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING PROCEEDINGS》;20101231;全文 *

Also Published As

Publication number Publication date
MX2015009747A (es) 2015-11-06
TW201603008A (zh) 2016-01-16
AU2016262636A1 (en) 2016-12-08
BR112015018017B1 (pt) 2022-01-25
US10062390B2 (en) 2018-08-28
TWI524333B (zh) 2016-03-01
TW201443889A (zh) 2014-11-16
US20170358311A1 (en) 2017-12-14
RU2676242C1 (ru) 2018-12-26
AU2014211523B2 (en) 2016-12-22
CA2899134C (en) 2019-07-30
TWI585755B (zh) 2017-06-01
EP3203471A1 (en) 2017-08-09
TW201603009A (zh) 2016-01-16
US20150332701A1 (en) 2015-11-19
RU2676870C1 (ru) 2019-01-11
TR201906190T4 (tr) 2019-05-21
CA3013744C (en) 2020-10-27
WO2014118155A1 (en) 2014-08-07
KR101775084B1 (ko) 2017-09-05
JP2016505903A (ja) 2016-02-25
MX345622B (es) 2017-02-08
CA3013756C (en) 2020-11-03
EP3196878A1 (en) 2017-07-26
ES2924427T3 (es) 2022-10-06
AU2016262636B2 (en) 2018-08-30
US10657979B2 (en) 2020-05-19
RU2627102C2 (ru) 2017-08-03
SG11201505925SA (en) 2015-09-29
CA3013756A1 (en) 2014-08-07
ES2943588T3 (es) 2023-06-14
KR20160099119A (ko) 2016-08-19
CA3013766C (en) 2020-11-03
SG10201608643PA (en) 2016-12-29
AU2016262638A1 (en) 2016-12-08
KR101775086B1 (ko) 2017-09-05
TWI585754B (zh) 2017-06-01
AU2014211523A1 (en) 2015-09-17
CN109346101B (zh) 2024-05-24
CA3013744A1 (en) 2014-08-07
AU2016262638B2 (en) 2017-12-07
JP2017083862A (ja) 2017-05-18
RU2015136789A (ru) 2017-03-03
BR112015018017A2 (zh) 2017-07-11
CN109346101A (zh) 2019-02-15
EP3196878B1 (en) 2022-05-04
ZA201506313B (en) 2019-04-24
CA2899134A1 (en) 2014-08-07
MY172752A (en) 2019-12-11
EP2951828B1 (en) 2019-03-06
ES2725358T3 (es) 2019-09-23
CN105103229B (zh) 2019-07-23
CN109509483A (zh) 2019-03-22
KR20160099120A (ko) 2016-08-19
JP6511428B2 (ja) 2019-05-15
CN105103229A (zh) 2015-11-25
EP3203471B1 (en) 2023-03-08
JP2017076142A (ja) 2017-04-20
HK1218460A1 (zh) 2017-02-17
KR20150111977A (ko) 2015-10-06
US10186274B2 (en) 2019-01-22
EP2951828A1 (en) 2015-12-09
US20170358312A1 (en) 2017-12-14
KR101798126B1 (ko) 2017-11-16
SG10201608613QA (en) 2016-12-29
JP6513066B2 (ja) 2019-05-15
AR094673A1 (es) 2015-08-19
CA3013766A1 (en) 2014-08-07
JP6096934B2 (ja) 2017-03-15

Similar Documents

Publication Publication Date Title
CN109509483B (zh) 产生频率增强音频信号的译码器和产生编码信号的编码器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant