CN101336451A - 音频信号编码的方法和装置 - Google Patents
音频信号编码的方法和装置 Download PDFInfo
- Publication number
- CN101336451A CN101336451A CNA2006800521286A CN200680052128A CN101336451A CN 101336451 A CN101336451 A CN 101336451A CN A2006800521286 A CNA2006800521286 A CN A2006800521286A CN 200680052128 A CN200680052128 A CN 200680052128A CN 101336451 A CN101336451 A CN 101336451A
- Authority
- CN
- China
- Prior art keywords
- basic cycle
- signal
- pulse
- band
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
为了构成音频信号(SAS),该音频信号的分配到第一子频带上的频率分量(NAS)借助子频带解码器(LBD)基于所输送的、分别说明该音频信号的基本周期的基本周期值(λLTP)来构成。该音频信号的分配到第二子频带上的频率分量(HAS)通过借助对于该第二子频带特定的激励信号(u(k))来激励音频合成滤波器(ASYN)被构成。为了产生激励信号(u(k)),通过激励信号发生器(HBG)由基本周期值(λLTP)导出基本周期参数(λp)。基于基本周期参数(λp),通过激励信号发生器(HBG)以由该基本周期参数(λp)确定的时间间隔构成具有取决于该基本周期参数(λp)的脉冲波形的脉冲,并且将所述脉冲与噪声信号进行混合。
Description
本发明涉及一种用于进行音频信号编码的方法和装置。本发明尤其是涉及用于构成音频信号的方法和音频信号解码器以及涉及音频信号编码器。
在许多当代的通信系统中并且尤其是在移动通信系统中,只有有限的传输带宽可供实时音频传输(诸如语音传输或者音乐传输)使用。为了经过具有有限带宽的传输线路(诸如经过无线电网络)实时传输尽可能多的音频信道,因此经常规定:通过有实时能力的或者有准实时能力的音频编码方法压缩要传输的音频信号并且在传输之后解压这些要传输的音频信号。在下面,概念“音频”尤其是也应被理解为语音。
在这种音频编码方法中,通常力求尽可能地减少要传输的数据量并且由此尽可能地减小传输速率,而不会过分地损害主观的收听印象(Hoereindruck)或在语音传输时过分地损害可理解性。
基本的观点是,音频信号的有效压缩也与音频信号的存储或存档相关联。
以下编码方法被证明为特别有效的:其中通过优化滤波器参数来使由音频合成滤波器合成的音频信号逐个时帧地与要传输的音频信号相适应。这样的方法方式常常也被称为综合分析(Analysis-by-Synthesis)。音频合成滤波器在此通过优选地同样要优化的激励信号来激励。该滤波常常也被称为共振峰合成。例如所谓的LPC系数(LPC:线性预测编码(Linear Predictive Coding))和/或详细说明了音频信号的谱包络和/或时间包络的参数可以被用作滤波器参数。于是,优化过的滤波器参数以及详细说明了激励信号的参数可以逐个时帧地被传输到接收机,以便在那里借助设置在接收机侧的音频信号解码器来形成合成的音频信号,该合成的音频信号在主观的收听印象方面尽可能地类似于原始的音频信号。
这种音频编码方法由ITU-T-推荐G.729公知。借助在那里描述的音频编码方法可以将带宽为4kHz的实时音频信号减小到8kbit/s的传输速率上。
此外,目前还力求利用较高的带宽来合成要传输的音频信号,以改善收听印象。在G.792推荐中的目前讨论的扩展G.729EV中尝试将音频带宽从4kHz扩展到8kHz。
可实现的传输带宽和音频合成质量基本上取决于产生适当的激励信号。
在带宽扩展的情况下,其中激励信号unb(k)已经处于低的子频带中(例如在50Hz至3.4kHz的频率范围中),进行带宽扩展的激励信号uhb(k)可以在高的子频带中(例如在3.4-7kHz的频率范围中)被构成为窄带的激励信号unb(k)的频谱副本。(通过索引k在这里并且在下面来指示激励信号或其他信号的采样值。)在这种情况下,副本可以通过对窄带的激励信号unb(k)进行频谱平移或者通过对窄带的激励信号unb(k)进行频谱镜像来构成。可是,通过这种频谱平移或者镜像,激励信号的频谱非谐地失真和/或引起频谱中的明显的、可听到的相位误差。可是,这导致音频信号的可听见的质量损失。
本发明的任务在于说明一种用于构成音频信号的方法,该方法允许改善听质量,其中传输带宽没有或者仅仅相对少地被提高。此外,本发明的任务还在于说明一种用于执行该方法的音频信号解码器以及音频信号编码器。
该任务通过具有权利要求1所述的特征的方法、通过具有权利要求14所述的特征的音频信号解码器以及通过具有权利要求15所述的特征的音频信号编码器来解决。
在根据本发明的用于构成音频信号的方法中,音频信号的分配到第一子频带上的频率分量借助子频带解码器基于所输送的、分别说明该音频信号的基本周期的基本周期值来构成。音频信号的分配到第二子频带上的频率分量通过借助对于该第二子频带特定的激励信号来激励音频合成滤波器而被构成。为了产生对于该第二子频带特定的激励信号,通过激励信号发生器从基本周期值中导出基本周期参数。基于所述基本周期参数,通过激励信号发生器以由基本周期参数所确定的时间间隔构成具有取决于所述基本周期参数的脉冲波形的脉冲,并且所述脉冲与噪声信号混合。
借助本发明,可以基于基本周期值来合成音频信号的分配到其它的第二子频带上的频率分量,其已经被供给对于该第一子频带特定的子频带解码器使用。因为为了产生噪声信号通常也不必需附加的音频参数,所以激励信号的产生通常不要求附加的传输带宽。通过添加该其它的第二子频带的频率分量,音频信号的收听质量可以在此期间显著地被改善,尤其是因为由基本周期值确定的、谐波含量在第二子频带中可以被复制。
本发明的有利的实施形式和改进方案在从属权利要求中被说明。
根据本发明的有利实施形式,基本周期参数可以说明音频信号的除了一小部分分配给子频带解码器的第一采样间隔以外的基本周期。通过除了一小部分(优选为1/N,其中N为整数)第一采样间隔之外进行精确说明的基本周期参数,这些脉冲可以以相对于子频带解码器更高的精度被间隔开,由此音频信号的谐波频谱能在第二子频带中更精细地被模拟。
此外,相应脉冲的脉冲波形可以根据以第一采样间隔为单位的基本周期参数的非整数部分而从被存储在查找表中的不同脉冲波形中被选出。从查找表中能通过简单的调用以小的电路花费、处理花费或计算花费实时地调用完全不同的脉冲波形。要存储的脉冲波形可以事先在尽可能逼真的音频再现方面被优化。实际上,能事先计算出多个滤波器、抽取滤波器(Dezimator)和/或调制器的累加效果或者累加的脉冲响应,并且这些累加效果或者累加的脉冲响应在所有情况下作为相对应成形的脉冲被存储在查找表中。在这一点,以下的转换器被称为抽取滤波器:通过丢弃除了每第m个采样值以外的所有采样值,该转换器将信号的采样间隔乘以抽取因数m。调制器被理解为滤波器,该滤波器将信号的单个采样值与预先给定的单个因数相乘并且输出相应的乘积。
此外,脉冲的时间间隔还可以通过以第一采样间隔为单位的基本周期参数的整数部分来确定。
根据本发明的另一有利的实施形式,所述脉冲可以由预先给定的脉冲波形(例如矩形脉冲)通过采样值来构成,这些采样值具有第二采样间隔,该第二采样间隔比第一采样间隔小了带宽扩展因数。以第二采样间隔为单位的、所述脉冲的时间间隔于是可以通过与该带宽扩展因数相乘的基本周期参数来确定。优选地,可以选择对应于以第一采样间隔为单位的基本周期参数的精度的那个分数1/N的倒数N作为带宽扩展因数。
优选地,所述脉冲通过具有以第二采样间隔预先给定的滤波器系数的脉冲成形滤波器来成形。
此外,在与噪声信号混合之前或之后,所述脉冲通过至少一个高通滤波器、低通滤波器和/或带通滤波器来滤波和/或通过至少一个抽取滤波器来抽取。
按照本发明的另一有利的实施形式,基本周期参数可以逐个时帧地由一个或多个基本周期值导出。
在此,基本周期参数尤其是可以由多个时帧的、波动补偿地(优选地非线性地)链接的基本周期值导出。通过这种方式可以避免,可能例如由干扰噪声引起地错误测量音频基频所导致的基本周期值波动或跳跃对基本周期参数产生不利的影响。
在这一点,可以确定当前的基本周期值与较早的基本周期值或者与由此导出的量的相对偏差,并且该相对偏差可以在导出基本周期参数的范围内被衰减。
按照本发明的另一有利的实施形式,脉冲和噪声信号之间的混合比通过至少一个混合参数来确定。该混合参数可以逐个时帧地由存在于子频带解码器中的、第一子频带的声调的(tonal)音频信号部分和无调的(atonal)音频信号部分之间的电平关系来导出。通过这种方式,可以将存在于子频带解码器中的、涉及第一子频带中的谐波噪声比的电平参数用于构成第二子频带中的音频信号分量。
此外,在导出混合参数的范围内,电平关系被转换来使得在无调的音频信号部分占优势的情况下进一步降低声调的音频信号部分。因为在自然的音频源中,无调的音频信号部分在较高的频带中(尤其是从6kHz起往上)越来越占优势,因此通常可以通过这种降低来改善再现质量。
本发明的有利的实施例随后借助附图被详细阐述。
在此,分别以示意图:
图1示出了音频信号解码器,
图2示出了激励信号发生器的第一实施变形方案,
图3a示出了脉冲成形滤波器的滤波器系数,
图3b示出了滤波器系数的能量谱,
图4示出了激励信号发生器的第二实施变形方案,以及
图5示出了事先计算出的脉冲波形。
图1以示意图示出了音频信号解码器,该音频信号解码器由所输送的被编码的音频数据AD的数据流产生合成的音频信号SAS。合成的音频信号SAS的产生被划分到不同的子频带上。这样,合成的音频信号SAS的分配到低的第一子频带上的频率分量与合成的音频信号SAS的分配到高的第二子频带上的频率分量分开地被产生。在随后的实施例中示例性地假设:低的子频带包括频率范围f=0-4kHz,而高的子频带包括频率范围f=4-8kHz。该低子频带在下面也被称为窄带的。
在低的子频带中,所输送的音频数据AD由对于该低的子频带特定的低频带解码器LBD(即具有基本上仅仅包含该低的子频带的带宽的解码器)来解码。为此,利用尤其是在音频数据AD中所包含的、对于该低的子频带特定的辅助信息(Nebeninformation),即利用无调的混合参数gFIX、声调的混合参数gLTP以及基本周期值λLTP。低频带解码器(例如按照ITU推荐G.729的语音编解码器)在此以fs=8kHz的采样率在频率范围f=0-4kHz中产生窄带的音频信号NAS。
在高的子频带中,由高频带激励信号发生器HBG基于由低频带解码器LBD逐个时帧地提取的辅助信息gFIX、gLTP和λLTP来构成合成的激励信号u(k)。变量k在这里以及在下面表示索引,通过该索引指出激励信号或其它信号的数字采样值。该激励信号u(k)由激励信号发生器HBG输送给音频合成滤波器ASYN,该激励信号u(k)由此被激励用于在频率范围f=4-8kHz中产生合成的高频带音频信号HAS。高频带音频信号HAS与窄带的音频信号NAS组合,以便最后在频率范围f=0-8kHz中产生并且输出宽带的合成的音频信号SAS。
借助音频信号解码器也可以以简单的方式实现音频信号编码器。为此目的,合成的音频信号SAS要被馈送给比较装置(未示出),该比较装置将合成的音频信号SAS与要编码的音频信号进行比较。通过改变音频数据AD并且尤其是改变辅助信息gFIX、gLTP和λLTP来使合成的音频信号SAS与要编码的音频信号相适应。
本发明可以有利地被用于通常的音频编码、用于子频带音频合成以及用于音频信号的人为的带宽扩展。在这种情况下,后者可以被解释为子频带音频合成的特殊情况,其中使用关于某个子频带的信息,以便重建或者估计另一子频带的缺失的频率分量。
前面所提到的应用可能性基于适当构成的激励信号u(k)。代表音频信号的频谱精细结构的激励信号u(k)可以通过音频合成滤波器ASYN以不同的方式(例如通过使其时间变化曲线和/或频率变化曲线成形)被转换。
为了使合成构成的激励信号u(k)尽可能精确地与原始的、由(子频带-)音频信号编码器所使用的激励信号(未示出)一致,所述合成的激励信号u(k)优选地应具有下面的特征:
-合成的激励信号u(k)通常应具有平的频谱。在无调的声音(即清音)的情况下,合成的激励信号u(k)为此可以由白噪声来构成。
-对于声调的声音(即浊音),合成的激励信号u(k)应具有谐波的信号分量,即为音频基频F0的整数倍的谱峰。
然而,在实践中几乎不会出现纯粹的声调的音频信号或者纯粹的无调的音频信号。相反,实际的音频信号通常包含声调的分量和无调的分量的混合。合成的激励信号u(k)优选地被产生来以致原始的音频信号的声调的分量和无调的分量的谐波噪声比(即能量比或强度比)而尽可能精确地被复制。
在声调的声音中,宽带的噪声部分通常被加到音频基频F0的谐波。该噪声部分在频率较高时尤其是从6kHz起的情况下经常是占主导的。
下面详细阐述适于音频编码、适于子频带音频合成以及适于音频信号的人为带宽扩展的激励信号u(k)的构成。
激励信号u(k)作为以预先给定的、例如为16kHz或8kHz的采样率来采样的子频带信号被产生。该子频带信号u(k)代表4-8kHz的高子频带的频率分量,窄带的音频信号NAS的带宽通过所述频率分量被扩展。窄带的音频信号NAS延伸在0-4kHz的频率范围上并且以8kHz的采样率被采样。
所构成的激励信号u(k)激励音频合成滤波器ASYN并且由此被成形为高频带音频信号HAS。最后通过将所成形的高频带音频信号HAS与具有较高的采样率(例如16kHz)的窄带的音频信号NAS进行组合来产生合成的、宽带的音频信号SAS。
激励信号u(k)的构成基于音频产生模型,其中声调的声音(即浊音)通过脉冲序列来激励,而无调的声音(即清音)优选地通过白噪声来激励。规定了不同的修改方案,以便允许所混合的激励形式,通过所述激励形式能实现改善的收听印象。
激励信号u(k)的声调分量的产生基于音频产生模型的两个音频参数,即音频基频F0以及低子频带中的声调的音频分量与无调的音频分量之间的能量比或强度比γ。后者常常也被称为谐波噪声比(Harmonics to Noise Ratio),简称为HNR。该音频基频F0在专业术语中也被称为“基本语音频率”。
可以在所传输的音频信号的接收机中提取两个音频参数F0和γ;优选地(例如在带宽扩展的情况下)直接由音频信号的低频带或者(例如在子频带音频合成的情况下)由所基于的低频带音频编解码器的低频带解码器来提取这两个音频参数F0和γ,其中这种音频参数通常是可支配的。
音频基频F0常常由基本周期值来代表,该基本周期值通过用音频基频F0除采样率来给出。基本周期值常常也被称为“变距摆振(pitchlag)”。基本周期值是以下音频参数:该音频参数通常在诸如按照G.729推荐的标准音频编解码器中为了所谓的“长期预测(long-termprediction)”(简称LTP)而被传送。如果这种标准音频编解码器被用于低的子频带,则音频基频F0可以基于由该音频编解码器所提供的LPT音频参数来确定或者来估计。
在许多标准音频编解码器(诸如按照G.729推荐)中,LTP基本周期值随着时间分辨率(即精度)被传送,该时间分辨率为该音频编解码器所使用的采样间隔的一小部分1/N。在按照G.729推荐的音频编解码器中,提供了精度为采样间隔的1/3的LTP基本周期值。以该采样间隔为单位,所述基本周期值因此也可以取非整数值。这种精度可以由所涉及的音频编码器例如通过一系列所谓的“开环(open-loop)”和“闭环(closed-loop)”搜索来实现。在这种情况下,音频编码器尝试发现其中LTP剩余信号的强度或能量被最小化的那个基本周期值。可是,通过这种方式所确定的LTP基本周期值尤其是在附加噪声强烈的情况下可偏离对应于声调的音频分量的实际音频基频F0的基本周期值,并且因此损害该声调的音频分量的精确复制。作为典型的偏差,出现周期加倍误差(Periodenverdoppelungsfehler)和周期减半误差(Periodenhalbierungsfehler)。也就是说,对应于偏离的LTP基本周期值的频率是声调的音频分量的实际音频基频F0的一半或一倍。
在将这种LTP基本周期值用来合成高子频带中的声调的音频分量的情况下,应该避免这样大的频率偏差。为了最小化通常的周期加倍误差和周期减半误差的影响,可以在本发明的范围内采用下面阐述的后处理技术:
以λLTP(μ)表示由低频带解码器LBD当前提取的LTP基本周期值,其中μ为分别被处理的时帧或子帧的索引。基本周期值λLTP(μ)以低频带解码器LBD的采样间隔为单位来给出并且也可以取非整数值。
首先由当前的基本周期值λLTP(μ)和在前帧的被滤波的基本周期值λpost(μ-1)之间的关系计算出整数因数f为:
在这种情况下,函数round将其自变量映射到最接近的整数。
是否要修改当前的基本周期值λLTP(μ)的决定根据下面的相对误差来作出:
如果相对误差e在预先给定的阈值ε(例如1/10)之下,则假设,当前的基本周期值λLTP(μ)是具有周期加倍误差或周期减半误差的开始相位的结果。在这种情况下,当前的基本周期值λLTP(μ)通过除以因数f被校正或被滤波,使得被滤波的基本周期值λpost(μ)基本上持续表现在多个时帧μ上。被证明为有利的是,按照下式来确定被滤波的基本周期值λpost(μ):
通过在round函数的自变量中乘以因数N(例如N=3),所得到的基本周期值λpost(μ)除了低频带解码器LBD的采样间隔的分数1/N以外再次是精确的。
最后,通过用于进一步平滑的基本周期值λpost(μ)来构成滑动平均。该滑动平均对应于低通滤波的类型。利用例如对两个彼此相继的基本周期值λpost(μ)进行滑动平均得到基本周期参数:
基于该基本周期参数导出用于高的子频带的激励信号u(k)。由于两个值的平均值构成,基本周期参数λp(μ)具有高出两倍的分辨率,该分辨率对应于低频带解码器LBD的采样间隔的小部分1/(2N)。
通过前面所阐述的、非线性的滤波过程,可以避免大多数的周期加倍误差或通常的周期倍增误差。这导致再现质量得到明显改善。
下面阐述,如何逐个时帧地由对于低子频带特定的、低频带解码器LBD的混合参数gLTP(μ)和gFIX(μ)导出声调的混合参数gv(μ)和无调的混合参数guv(μ),用于在高的子频带中对激励信号u(k)的相对应的声调的分量和无调的分量进行混合。在这种情况下假设,低频带解码器LBD是所谓的CELP解码器(CELP:码本激励线性预测(Codebook Excited Linear Prediction)),该CELP解码器具有所谓的自适应的或者LTP码本和所谓的固定码本。
在实际的音频信号中出现的声调声音几乎从来不会没有无调的信号分量的贡献。为了估计在声调的信号贡献和无调的信号贡献之间的能量比或强度比,按模型方式(modellhaft)假设:自适应的码本仅仅对在低子频带中的声调分量作出贡献,而固定码本仅仅对在低子频带中的无调分量作出贡献。此外,还假设,这两种贡献彼此正交。
基于该假设,可以由低频带解码器LBD的混合参数gLTP和gFIX重建声调的信号分量和无调的信号分量之间的强度比。两个混合参数gLTP、gFIX可以逐个时帧地从低频带解码器LBD中被提取。对于每个时帧或子帧(通过μ来指出)可以确定在自适应码本的贡献与固定码本的贡献之间的瞬时强度比,也就是说,通过除自适应码本和固定码本的能量贡献来确定谐波噪声比γ。
混合参数gLTP(μ)说明自适应码本的信号的放大因数,而混合参数gFIX(μ)说明固定码本的信号的放大因数。如果由自适应码本所输出的码本矢量用xLTP(μ)表示,而由固定码本所输出的码本矢量用xFIX(μ)表示,则得到谐波噪声比γ为:
为了更好地模拟高子频带中的无调音频分量,按照下式通过维纳(Wiener)滤波器来转换由低子频带所导出的谐波噪声比γ:
通过该“维纳”滤波,进一步降低了小的γ(无调的音频段),而γ的大的值(声调占优势的音频段)几乎不被改变。通过这种降低,更好地接近了自然的音频信号。
由被滤波的谐波噪声比γpost最后可以将高子频带中的激励信号u(k)的声调的分量或无调的分量的放大因数(即混合参数)gv和guv确定为:
因为在实践中几乎不出现纯粹的声调的音频信号或纯粹的无调的音频信号,所以两个混合参数gv(μ)或guv(μ)通常(同时)具有不为零的值。通过前面的计算规则保证了:混合参数gv和guv的平方和(即混合的激励信号u(k)的总能量)基本上恒定。
在下面,以激励信号发生器HBG的两个实施变形方案为例详细地阐述基于由低频带解码器LBD导出的音频参数gv、guv和λp来产生激励信号u(k)。在这种情况下,出于清楚的原因,假设以低频带解码器LBD的采样间隔为单位的基本周期值的精度通过其中N=3的1/N来给出。随后的实施方案自然可以容易地套用到N的任意值。
在图2中示意性示出了激励信号发生器HBG的第一实施变形方案。在图2中示出的实施变形方案具有脉冲发生器PG1、噪声发生器NOISE、具有截止频率fc=8kHz的低通滤波器LP、具有抽取因数m=3(或一般地m=N)的抽取滤波器D3、具有截止频率fc=4kHz的高通滤波器HP以及具有抽取因数m=2的抽取滤波器D2。噪声发生器NOISE优选地产生白噪声。脉冲发生器PG1在其侧包括矩形脉冲发生器SPG和具有预先给定的有限长度的滤波器系数组p(k)的脉冲成形滤波器SF。噪声发生器NOISE用于产生激励信号u(k)的无调的分量,而脉冲发生器PG1贡献于产生激励信号u(k)的声调分量。
逐个时帧地以连续的顺序由低频带解码器LBD的音频参数导出和匹配音频参数gv、guv和λp或者借助适当的音频参数提取块导出和匹配音频参数gv、guv和λp。滤波器操作针对以低频带解码器LBD的采样间隔为单位的、具有1/(2N) (这里等于1/6)的精度的分数的(frakt ionalen)的基本周期参数λp并且针对对应于低频带解码器LBD的带宽的目标带宽来设计。
因为低频带解码器LBD根据其0-4kHz的带宽使用8kHz的采样率,并且借助激励信号u(k)应该产生4-8kHz(即具有4kHz带宽)的音频分量,所以对于脉冲发生器PG1设置了至少8kHz的采样率。可是,根据在本实施例中的、基本周期参数λp的高了2N=6倍的时间分辨率,不仅对于脉冲发生器PG1而且对于噪声发生器NOISE设置了采样率fs=2*N*8kHz=6*8kHz=48kHz。
为了产生激励信号的声调部分,基本周期参数λp乘以倍数2N=6,并且将乘积6*λp输送给矩形脉冲发生器SPG。因此,矩形脉冲发生器SPG以通过6*λp(以矩形脉冲发生器SPG的采样间隔1/48000s为单位)所给出的时间间隔产生单个矩形脉冲。这些单个矩形脉冲具有幅度以致长的脉冲序列的平均能量基本上等于1。
由矩形脉冲发生器SPG所产生的矩形脉冲与“声调的”混合参数gv相乘并且被馈送给脉冲成形滤波器SF。在脉冲成形滤波器SF中,矩形脉冲通过卷积或者与滤波器系数p(k)相关而在一定程度上在时间上被“涂抹(verschmiert)”。通过这种滤波,可以明显减少所谓的峰值(Crest)因数(即采样值峰值与采样值平均值的比),并且明显改善所合成的音频信号SAS的收听质量。此外,矩形脉冲可以通过脉冲成形滤波器SF以有利的方式在频谱上成形。优选地,脉冲成形滤波器SF为此可以具有带通特性,该带通特性的过渡区为4kHz并且朝较高和较低的频率方向的衰减增加基本上均匀。通过这种方式可以实现,激励信号u(k)的较高的频率较少地具有谐波分量,并且因此噪声部分随着频率的升高而上升。
滤波器系数p(k)的示例性选择在图3a和3b中被示意性示出。图3a示出了相对于其采样值索引k所绘出的滤波器系数p(k),而在图3b中相对于频率绘出了滤波器系数p(k)的能量谱。在滤波器系数p(k)中,对于在本实施例中的决定性的目标频率范围,基本上仅仅频谱范围4-8kHz是相关的。该频率范围在图3b中通过加宽的线条来示出。
如在图2中所示的那样,将通过脉冲成形滤波器SF“涂抹的”矩形脉冲加到由噪声发生器NOISE产生的、与“无调的”混合参数guv相乘的噪声信号上,并且将所得到的总和信号馈送给低通滤波器LP。
直至该方法步骤都使用提高的采样率fs=48kHz。在图2中所示出的剩余的处理块现在用于:将在目标频率范围4-8kHz之外的频率范围滤除,并且在代表该目标频率范围的表达(采样率为fs=8kHz)中产生激励信号u(k)。
出于该目的,首先由低通滤波器LP对总和信号进行滤波,并接着将被滤波的信号通过抽取滤波器D3从48kHz的采样率转换到fs=16kHz的采样率。紧接着将转换过的信号输送给高通滤波器HP,该高通滤波器HP将高通滤波过的信号馈送给抽取滤波器D2,该抽取滤波器D2由所输送的、具有16kHz的采样率的信号最后产生目标采样率为fs=8kHz的激励信号u(k)。
所产生的激励信号u(k)包含为了进行频带扩展必要的频率分量。可是,这作为在4kHz频率周围镜像的频谱存在。为了将该频谱倒转,可以用调制因数(-1)k对激励信号u(k)进行调制。
因为按照图1的音频信号解码器的组件基本上是线性的和时间不变的,所以激励信号u(k)的声调部分和无调部分可以彼此独立地被处理。因此,在按照图2的实施变形方案中所设置的、声调的音频分量的滤波器操作和抽取操作也可以被概括在唯一的处理块中。实际上,所有在图2中为声调的音频分量而设置的滤波操作、抽取操作和调制操作的脉冲相应也可以事先被计算出,并且以适当的形式被存储在查找表中。
激励信号发生器HBG的、这样构造的第二实施变形方案在图4中被示意性示出并在下面被阐述。在图4中示出的实施变形方案具有脉冲发生器PG2以及优选地产生白噪声的噪声发生器NOISE。该脉冲发生器PG2在其侧包括脉冲定位装置PP以及查找表LOOKUP,其中存储了预先给定的脉冲波形vj(k)。噪声发生器NOISE用于产生激励信号u(k)的无调分量,而脉冲发生器PG2贡献于产生激励信号u(k)的声调分量。不仅噪声发生器NOISE而且脉冲发生器PG2都直接使用目标采样率fs=8kHz。
逐个时帧地以连续的顺序将音频参数gv、guv和λp馈送给激励信号发生器。音频参数gv、guv和λp的导出在上面已经阐述过。分数的基本周期参数λp如上所述地利用精度1/(2N)(这里等于1/6)以低频带解码器LBD的采样率为单位来给出。
对于激励信号u(k)的声调分量,所有通过图2示出的滤波器操作、抽取操作和调制操作的脉冲响应也可以事先被计算出,并且以一定的脉冲波形vj(k)的形式被存储在查找表LOOKUP中。只要(如在本实施例中那样)也应该考虑非整数的基本周期参数λp,就要在查找表LOOKUP中维持多个脉冲波形vj(k)。在此,要维持的脉冲波形vj(k)的数量优选地通过基本周期参数λp的精度的倒转(这里即通过2N)来给出。索引j由此例如为从0至2N-1。在本情况下,相对应地将6个事先计算出的脉冲波形vj(k)(j=0,...,5)维持在查找表LOOKUP中。
在脉冲发生器PG2工作时,相应的基本周期参数λp的分数部分被输送给查找表LOOKUP。在这种情况下,括号表示有理数或者实数的整数部分。基于所输送的分数部分从所存储的脉冲波形vj(k)中选出脉冲波形并且由查找表LOOKUP输出相对应成形的脉冲。在本实施例中,可以取值0、1/6、2/6、3/6、4/6和5/6。优选地,选出其索引j对应于所涉及的分数的相应计数器的那个脉冲波形vj(k)。
图5以示意图示出了示例性地计算出的脉冲波形vj(k),j=0,...,5。对于为1/6的λp的分数分辨率(在采样率为8kHz的情况下),构建了所示出的脉冲波形vj(k)并且将其相对于其采样索引k绘出。将相应脉冲波形vj(k)分配到所属的分数部分的分配能从图5的图例得知。
如在图4中所示的那样,由查找表LOOKUP所输出的脉冲(该脉冲具有基于分数部分所选出的脉冲波形)与“声调的”混合参数gv相乘并且被馈送给脉冲定位装置PP。通过后者,所馈送的脉冲根据基本周期参数λp的整数部分在时间上被定位。在这种情况下,这些脉冲由脉冲定位装置PP以对应于基本周期参数λp的整数部分的时间间隔来输出。这些脉冲可以被调制,其方式是:脉冲波形vj(k)或所涉及的脉冲的相应符号或者对于的偶数值或者对于的奇数值被倒转。
最后,将噪声发生器NOISE的与“无调的”混合参数guv相乘的噪声信号加到由脉冲定位装置PP输出的脉冲上,以便获得激励信号u(k)。
在图4中所示的实施变形方案通常能以比在图2中所示的实施变形方案更少的花费来实施。实际上,利用按照图4的激励信号发生器,通过预给定适当的脉冲波形vj(k)能有效地生成与利用按照图2的激励信号发生器效果相同的激励信号u(k)。因为所输出的脉冲具有相对大的间隔(通常为20-134个采样间隔),所以用于按照图4的根据本发明的激励信号发生器的计算花费相对较小。因此,本发明可以借助有利的数字信号处理器以在存储器需求和计算功率方面相对较小的要求被实施。
Claims (15)
1.用于构成音频信号(SAS)的方法,其中:
a)该音频信号的分配到第一子频带上的频率分量(NAS)借助子频带解码器(LBD)基于所输送的、分别说明该音频信号(SAS)的基本周期的基本周期值(λLTP)来构成,
b)该音频信号的分配到第二子频带上的频率分量(HAS)通过借助对于该第二子频带特定的激励信号(u(k))激励音频合成滤波器(ASYN)来构成,并且
c)为了产生激励信号(u(k)),通过激励信号发生器(HBG)
-由基本周期值(λLTP)导出基本周期参数(λp),以及
-以通过该基本周期参数(λp)确定的时间间隔构成具有取决于该基本周期参数(λp)的脉冲波形的脉冲,并且所述脉冲与噪声信号进行混合。
2.按照权利要求1所述的方法,其特征在于,
对于所述第一子频带特定的第一采样间隔被分配给所述子频带解码器(LBD),并且基本周期参数(λp)说明音频信号(SAS)的除了第一采样间隔的小部分以外的基本周期。
5.按照权利要求2或3所述的方法,其特征在于,
所述脉冲由预先给定的脉冲波形通过具有第二采样间隔的采样值来构成,其中第二采样间隔比第一采样间隔小带宽扩展因数(N),并且
以第二采样间隔为单位的、所述脉冲的时间间隔通过与该带宽扩展因数(N)相乘的基本周期参数(λp)来确定。
6.按照权利要求5所述的方法,其特征在于,
所述脉冲通过具有在第二采样间隔中预先给定的滤波器系数(p(k))的脉冲成形滤波器(SF)来成形
7.按照权利要求5或6所述的方法,其特征在于,
在与噪声信号混合之前或之后,所述脉冲通过至少一个抽取滤波器(D2,D3)被抽取。
8.按照前述权利要求之一所述的方法,其特征在于,
在与噪声信号混合之前或之后,所述脉冲通过至少一个高通滤波器、低通滤波器和/或带通滤波器来滤波。
9.按照前述权利要求之一所述的方法,其特征在于,
所述基本周期参数(λp)逐个时帧地由一个或多个基本周期值(λLTP)导出。
10.按照前述权利要求之一所述的方法,其特征在于,
所述基本周期参数(λp)由多个时帧的、波动补偿地链接的基本周期值(λLTP)导出。
11.按照前述权利要求之一所述的方法,其特征在于,
当前的基本周期值(λLTP)与较早的基本周期值或者与由此导出的量(λpost)的相对偏差(e)被确定,并且所述相对偏差(e)在导出基本周期参数(λP)的范围内被衰减。
12.按照前述权利要求之一所述的方法,其特征在于,
所述脉冲与所述噪声信号之间的混合比通过至少一个混合参数(gv,guv)来确定,所述混合参数逐个时帧地由存在于子频带解码器(LBD)中的、第一子频带的声调的音频信号分量与无调的音频信号分量之间的电平比(γ)来导出。
13.按照权利要求12所述的方法,其特征在于,
在导出所述混合参数(gv,guv)的范围内,电平比(γ)被转换来使得在无调的音频信号部分占优势的情况下降低声调的音频信号部分。
14.用于构成音频信号(SAS)的音频信号解码器,其具有:
a)子频带解码器(LBD),用于基于所输送的、分别说明该音频信号(SAS)的基本周期的基本周期值(λLTP)来构成该音频信号的分配到第一子频带上的频率分量(NAS),
b)音频合成滤波器(ASYN),以及
c)激励信号发生器(HBG),用于生成激励信号(u(k)),以通过激励音频合成滤波器来构成音频信号的分配到第二子频带上的频率分量(HAS),其中,该激励信号发生器(HBG)具有:
-用于由基本周期值(λLTP)导出基本周期参数(λp)的导出装置
-用于构成噪声信号的噪声发生器(NOISE),
-脉冲发生器(PG1,PG2),用于以由该基本周期参数(λp)确定的时间间隔构成具有取决于该基本周期参数(λp)的脉冲波形的脉冲,以及
-用于将所述脉冲与所述噪声信号进行混合的混合装置。
15.音频信号编码器,其具有根据权利要求14所述的音频信号解码器以及具有比较装置,该比较装置用于使由音频信号解码器所构成的音频信号与要传输的音频信号相适应。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2006/000812 WO2007087824A1 (de) | 2006-01-31 | 2006-01-31 | Verfahren und anordnungen zur audiosignalkodierung |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101336451A true CN101336451A (zh) | 2008-12-31 |
CN101336451B CN101336451B (zh) | 2012-09-05 |
Family
ID=36616862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800521286A Expired - Fee Related CN101336451B (zh) | 2006-01-31 | 2006-01-31 | 音频信号编码的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8612216B2 (zh) |
EP (1) | EP1979901B1 (zh) |
CN (1) | CN101336451B (zh) |
WO (1) | WO2007087824A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003621A (zh) * | 2018-09-06 | 2018-12-14 | 广州酷狗计算机科技有限公司 | 一种音频处理方法、装置及存储介质 |
CN110634503A (zh) * | 2013-10-11 | 2019-12-31 | 高通股份有限公司 | 用于信号处理的方法和设备 |
CN111583955A (zh) * | 2013-12-16 | 2020-08-25 | 高通股份有限公司 | 高频带信号建模 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4972742B2 (ja) * | 2006-10-17 | 2012-07-11 | 国立大学法人九州工業大学 | 高域信号補間方法及び高域信号補間装置 |
US8639500B2 (en) * | 2006-11-17 | 2014-01-28 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus with bandwidth extension encoding and/or decoding |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
WO2010028301A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Spectrum harmonic/noise sharpness control |
US8532983B2 (en) | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
WO2010031003A1 (en) | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
WO2010031049A1 (en) | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | Improving celp post-processing for music signals |
WO2010046954A1 (ja) * | 2008-10-24 | 2010-04-29 | 三菱電機株式会社 | 雑音抑圧装置および音声復号化装置 |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
CN104321815B (zh) * | 2012-03-21 | 2018-10-16 | 三星电子株式会社 | 用于带宽扩展的高频编码/高频解码方法和设备 |
JP5998603B2 (ja) * | 2012-04-18 | 2016-09-28 | ソニー株式会社 | 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム |
US9373337B2 (en) * | 2012-11-20 | 2016-06-21 | Dts, Inc. | Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis |
US8927847B2 (en) * | 2013-06-11 | 2015-01-06 | The Board Of Trustees Of The Leland Stanford Junior University | Glitch-free frequency modulation synthesis of sounds |
WO2015025454A1 (ja) * | 2013-08-22 | 2015-02-26 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声符号化装置およびその方法 |
RU2689181C2 (ru) * | 2014-03-31 | 2019-05-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Кодер, декодер, способ кодирования, способ декодирования и программа |
US20170010733A1 (en) * | 2015-07-09 | 2017-01-12 | Microsoft Technology Licensing, Llc | User-identifying application programming interface (api) |
US10264116B2 (en) * | 2016-11-02 | 2019-04-16 | Nokia Technologies Oy | Virtual duplex operation |
WO2020157888A1 (ja) * | 2019-01-31 | 2020-08-06 | 三菱電機株式会社 | 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0883107B9 (en) * | 1996-11-07 | 2005-01-26 | Matsushita Electric Industrial Co., Ltd | Sound source vector generator, voice encoder, and voice decoder |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
JP2003044098A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
-
2006
- 2006-01-31 WO PCT/EP2006/000812 patent/WO2007087824A1/de active Application Filing
- 2006-01-31 EP EP06706508.6A patent/EP1979901B1/de active Active
- 2006-01-31 US US12/223,362 patent/US8612216B2/en active Active
- 2006-01-31 CN CN2006800521286A patent/CN101336451B/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634503A (zh) * | 2013-10-11 | 2019-12-31 | 高通股份有限公司 | 用于信号处理的方法和设备 |
CN110634503B (zh) * | 2013-10-11 | 2023-07-14 | 高通股份有限公司 | 用于信号处理的方法和设备 |
CN111583955A (zh) * | 2013-12-16 | 2020-08-25 | 高通股份有限公司 | 高频带信号建模 |
CN111583955B (zh) * | 2013-12-16 | 2023-09-19 | 高通股份有限公司 | 高频带信号建模 |
CN109003621A (zh) * | 2018-09-06 | 2018-12-14 | 广州酷狗计算机科技有限公司 | 一种音频处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2007087824A1 (de) | 2007-08-09 |
US20090024399A1 (en) | 2009-01-22 |
EP1979901B1 (de) | 2015-10-14 |
CN101336451B (zh) | 2012-09-05 |
EP1979901A1 (de) | 2008-10-15 |
US8612216B2 (en) | 2013-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101336451B (zh) | 音频信号编码的方法和装置 | |
DE60120766T2 (de) | Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen | |
US9715883B2 (en) | Multi-mode audio codec and CELP coding adapted therefore | |
KR101303145B1 (ko) | 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더 | |
EP1157374B1 (en) | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting | |
AU763471B2 (en) | A method and device for adaptive bandwidth pitch search in coding wideband signals | |
CN100568345C (zh) | 用于人工扩展语音信号的带宽的方法和装置 | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US8135584B2 (en) | Method and arrangements for coding audio signals | |
EP1264303B1 (en) | Speech processing | |
TW463143B (en) | Low-bit rate speech encoding method | |
CN103155034A (zh) | 基于celp的语音编码器中的音频信号带宽扩展 | |
JPH075899A (ja) | パルス励振による解析−合成技術を採用した音声符号器 | |
KR20180095863A (ko) | 인코딩된 오디오 신호를 처리하기 위한 장치 및 방법 | |
WO2005045808A1 (en) | Harmonic noise weighting in digital speech coders | |
Gao et al. | A 1.7 KBPS waveform interpolation speech coder using decomposition of pitch cycle waveform. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120905 Termination date: 20210131 |