CN103282959A - 低位速率和短延迟地编码普通音频信号 - Google Patents

低位速率和短延迟地编码普通音频信号 Download PDF

Info

Publication number
CN103282959A
CN103282959A CN2011800627296A CN201180062729A CN103282959A CN 103282959 A CN103282959 A CN 103282959A CN 2011800627296 A CN2011800627296 A CN 2011800627296A CN 201180062729 A CN201180062729 A CN 201180062729A CN 103282959 A CN103282959 A CN 103282959A
Authority
CN
China
Prior art keywords
frequency
time domain
domain
contribution
excites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800627296A
Other languages
English (en)
Other versions
CN103282959B (zh
Inventor
T.韦兰科特
M.杰里尼克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengdai EVs Limited
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=45973717&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN103282959(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Publication of CN103282959A publication Critical patent/CN103282959A/zh
Application granted granted Critical
Publication of CN103282959B publication Critical patent/CN103282959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种编码输入声音信号的混合时域/频域编码设备和方法,其中响应输入声音信号计算时域激发贡献。还响应输入声音信号计算时域激发贡献的截止频率,以及与截止频率有关地调整时域激发贡献的频率范围。在响应输入声音信号计算频域激发贡献之后,相加调整后时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发。在时域激发贡献的计算中,可以在输入声音信号的相继帧中处理输入声音信号,以及可以计算要用在当前帧中的子帧的数量。还描述了使用混合时域/频域编码设备的相应编码器和解码器。

Description

低位速率和短延迟地编码普通音频信号
技术领域
本公开涉及编码输入声音信号的混合时域/频域编码设备和方法,以及使用这些混合时域/频域编码设备和方法的相应编码器和解码器。
背景技术
现有技术的会话式编解码器可以非常好的质量表示位速率为大约8kbps的干净语音信号,并且在16kbps的位速率上接近透明。但是,在低于16kbps的位速率上,最常见在时域中编码输入语音信号的短处理延迟会话式编解码器不适用于像音乐和混响语音那样的普通音频信号。为了克服这个缺点,引入了切换式编解码器,其基本上将时域方法用于编码语音为主的输入信号和将频域方法用于编码普通音频信号。但是,这样的切换解决方案通常需要语音-音乐分类和变换到频域两者所需的较长处理延迟。
为了克服上述缺点,提出了更统一的时域和频域模型。
发明内容
本公开涉及一种编码输入声音信号的混合时域/频域编码设备,其包含:响应输入声音信号计算时域激发贡献的计算器;响应输入声音信号计算时域激发贡献的截止频率的计算器;响应截止频率调整时域激发贡献的频率范围的滤波器;响应输入声音信号计算频域激发贡献的计算器;以及相加滤波后时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发的加法器。
本公开还涉及一种使用时域和频域模型的编码器,其包含:将输入声音信号分类成语音或非语音的分类器;只在时域编码器;上述混合时域/频域编码设备;以及取决于输入声音信号的分类为编码输入声音信号选择只在时域编码器和混合时域/频域编码设备之一的选择器。
在本公开中,描述了一种编码输入声音信号的混合时域/频域编码设备,其包含:响应输入声音信号计算时域激发贡献的计算器,其中该计算时域激发贡献的计算器在输入声音信号的相继帧中处理输入声音信号,以及包含计算要用在输入声音信号的当前帧中的子帧的数量的计算器,其中该计算时域激发贡献的计算器在当前帧中使用子帧数量计算器为当前帧确定的子帧的数量;响应输入声音信号计算频域激发贡献的计算器;以及相加时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发的加法器。
本公开进一步涉及一种解码使用如上所述的混合时域/频域编码设备编码的声音信号的解码器,其包含:在时域中转换混合时域/频域激发的转换器;以及响应在时域中转换的混合时域/频域激发合成声音信号的合成滤波器。
本公开还涉及一种编码输入声音信号的混合时域/频域编码方法,其包含:响应输入声音信号计算时域激发贡献;响应输入声音信号计算时域激发贡献的截止频率;响应截止频率,调整时域激发贡献的频率范围;响应输入声音信号计算频域激发贡献;以及相加调整后时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发。
在本公开中,进一步描述了一种使用时域和频域模式编码的方法,其包含:将输入声音信号分类成语音或非语音;提供只在时域编码方法;提供上述混合时域/频域编码方法;以及取决于输入声音信号的分类为编码输入声音信号选择只在时域编码方法和混合时域/频域编码方法之一。
本公开还进一步涉及一种编码输入声音信号的混合时域/频域编码方法,其包含:响应输入声音信号计算时域激发贡献,其中计算时域激发贡献包含在输入声音信号的相继帧中处理输入声音信号,以及计算要用在输入声音信号的当前帧中的子帧的数量,其中计算时域激发贡献还包含在当前帧中使用为当前帧确定的子帧的数量;响应输入声音信号计算频域激发贡献;以及相加时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发。
在本公开中,还进一步描述了一种解码使用如上所述的混合时域/频域编码方法编码的声音信号的方法,其包含:在时域中转换混合时域/频域激发;以及响应在时域中转换的混合时域/频域激发通过合成滤波器合成声音信号。
一旦阅读了参照附图只举例给出的所提出时域和频域模型的例示性实施例的如下非限制性描述,本发明的上述和其他特征将更加明显。
附图说明
在附图中:
图1是例示增强型CELP(代码激发线性预测)编码器,例如,ACELP(代数代码激发线性预测)编码器的概观的示意性方框图;
图2是图1的增强型CELP编码器的更详细结构的示意性方框图;
图3是截止频率的计算器的概观的示意性方框图;
图4是图3的截止频率的计算器的更详细结构的示意性方框图;
图5是频率量化器的概观的示意性方框图;以及
图6是图5的频率量化器的更详细结构的示意性方框图。
具体实施方式
提出的更统一时域和频域模型能够无需增加处理延迟和位速率地为像,例如,音乐和/或混响语音那样的普通音频信号提高合成质量。这种模型工作在例如线性预测(LP)残差(residual)域中,其中取决于输入信号的特性,在自适应码簿、一个或多个固定码簿(例如,代数码簿、高斯码簿等)、和频域编码模式之间动态分配可用位。
为了实现提高像音乐和/或混响语音那样的普通音频信号的合成质量的短处理延迟低位速率会话式编解码器,可以尽可能接近地将频域编码模式与CELP(代码激发线性预测)时域编码模式集成。为此目的,频域编码模式使用,例如,在LP残差域中进行的频率变换。这使得几乎没有伪差地从一个帧(例如,20ms帧)切换到另一个帧。此外,两(2)种编码模式的集成足够接近,使得如果确定当前编码模式不够有效,则可以动态地对另一种编码模式重新分配位预算。
所提出的更统一时域和频域模型的一种特征是逐帧地从四分之一帧到全帧变化的和将称为子帧的时域成分的可变时间支持。作为一个例示性例子,一个帧代表20ms的输入信号。如果编解码器的内部采样频率是16kHz,则这对应于320个样本,或如果编解码器的内部采样频率是12.8kHz,则对应于256个样本。然后,取决于编解码器的内部采样频率,四分之一帧(子帧)代表64或80个样本。在如下例示性实施例中,编解码器的内部采样频率是12.8kHz,给出256个样本的帧长。可变时间支持使得可以以最小位速率捕获主要时间事件,以创建基本时域激发贡献。在很低位速率上,时间支持通常是整个帧。在那种情况下,对激发信号的时域贡献只由自适应码簿组成,以及每帧一次地发送具有相应增益的相应声调(pitch)信息。当更多位速率可用时,可以通过缩短时间支持(以及增加分配给时域编码模式的位速率)捕获更多时间事件。最后,当时间支持足够短(下降到四分之一帧)和可用位速率足够高时,时域贡献可以具有相应增益地包括自适应码簿贡献、固定码簿贡献、或两者。然后为每个子帧发送描述码簿索引和增益的参数。
在低位速率上,会话式编解码器不能适当地编码较高频率。当输入信号包括音乐和/或混响语音时,这会使合成质量严重恶化。为了解决这个问题,加入计算时域激发贡献的效率的特征。在一些情况下,无论输入位速率和时间帧支持是什么,时域激发贡献都是没有价值的。在那些情况下,对下一个步骤的频域编码重新分配所有位。但在大多数时间里,时域激发贡献只直到某个频率(截止频率)是价值的。在这些情况下,在截止频率的上面滤波出时域激发贡献。滤波操作允许保留利用时域激发贡献编码的有价值信息,并且在截止频率的上面除去无价值信息。在一个例示性实施例中,通过将某个频率上面的频率区间(bins)设置成零,在频域中进行滤波。
可变时间支持与可变截止频率结合使集成时域和频域模型内的位分配非常动态。LP滤波器量化之后的位速率可以完全分配给时域或完全分配给频域,或在二者之间。时域与频域之间的位速率分配作为用于时域贡献的子帧的数量、可用位预算、和计算的截止频率的函数来进行。
为了建立更有效地与输入残差匹配的总激发,应用频域编码模式。本公开中的一种特征是对这样的矢量进行频域编码,该矢量包含输入LP残差的频率表示(频率变换)与直到截止频率的滤波后时域激发贡献的频率表示(频率变换)之间的差值,并且包含在那个截止频率之上的输入LP残差本身的频率表示(频率变换)。正好在截止频率之上在两个分段之间插入平滑谱过渡区。换句话说,首先将时域激发贡献的频率表示的高频部分归零。正好在截止频率之上插入频谱的未改变部分与频谱的归零部分之间的过渡区,以保证频谱的两个部分之间的平滑过渡。然后,从输入LP残差的频率表示中减去时域激发贡献的这个修改频谱。在一些过渡区的情况下,所得频谱因此在截止频率以下对应于两个频谱的差值,在截止频率之上对应于LP残差的频率表示。如上所述,截止频率从一个帧到另一个帧可以不同。
无论选择什么频率量化方法(频率编码模式),总是有可能存在前回波,尤其使用长窗口时。在这种技术中,使用的窗口是正方形窗口,以便与编码信号相比的额外窗口长度是零(0),即,不使用重叠相加。虽然这对应于减少任何潜在前回波的最佳窗口,但在一些时间攻击(temporal attack)上仍然可听见一些前回波。存在解决这样前回波问题的许多技术,但本公开提出了消除这种前回波问题的简单特征。这种特征基于源自ITU-T推荐G.718的“过渡模式”的无记忆时域编码模式(参考文献:ITU-T Recommendation G.718"Frame error robust narrow-band and wideband embedded variable bit-rate codingof speech and audio from8-32kbit/s",June2008,section6.8.1.4and section6.8.4.2)。这种特征背后的想法是利用将所提出更统一时域和频域模型与LP残差域集成,使得几乎在任何时候都没有伪差地切换的事实。当一个信号被认为是普通音频(音乐和/或混响语音)时以及当在一个帧中检测到时间攻击时,则只利用这种特殊无记忆时域编码模式编码这个帧。这种模式将留意时间攻击,因此避免了频域编码那个帧可能引入的前回波。
例示性实施例
在提出的更统一时域和频域模型中,可以将上述自适应码簿、一个或多个固定码簿(例如,代数码簿、高斯码簿等)(即,所谓的时域码簿)、和频域量化(频域编码模式)看作码簿库,可以在所有可用码簿或它们的子集之间分配位。这意味着,例如,如果输入声音信号是干净语音,则将所有位分配给时域编码模式,基本上将编码约化成传统CELP方案。另一方面,对于一些音乐片段,为编码输入LP残差而分配的所有位有时最好花费在频域中,例如,在变换域中。
如前面的描述所指出,时域和频域编码模式的时间支持无需相同。虽然花费在不同时域量化方法(自适应和代数码簿搜索)上的位通常根据子帧(四分之一帧,或5ms时间支持)来分配,但分配给频域编码模式的位根据帧(通常20ms时间支持)来分配,以提高频率分辨率。
分配给时域CELP编码模式的位预算也可以取决于输入声音信号地动态控制。在一些情况下,分配给时域CELP编码模式的位预算可以是零,有效地意味着将整个位预算贡献给频域编码模式。对于时域和频域手段两者工作在LP残差域中的选择有两(2)个主要好处。首先,这与CELP编码模式兼容,在语音信号编码中被证明是有效的。因此,不会由于两种类型编码模式之间的切换而带入伪差。其次,LP残差相对于原始输入声音信号的较低动态性以及它的相对平坦性使正方形窗口更容易用于频率变换,因此允许使用无重叠窗口。
与ITU-T推荐G.718中类似,在编解码器的内部采样频率是12.8kHz(意味着每帧256个样本)的非限制性例子中,用在时域CELP编码模式中的子帧的长度可以从典型1/4帧长(5ms)变到半帧(10ms)或全帧长度(20ms)。子帧长度判定基于可用位速率和基于对输入声音信号的分析,尤其这个输入声音信号的频谱动态。子帧长度判定可以以闭环方式进行。为了降低复杂性,也可以以开环方式作出子帧长度判定。子帧长度可以逐帧改变。
一旦在特定帧中选择了子帧的长度,就进行标准闭环声调分析,并从自适应码簿中选择对激发信号的第一贡献。然后,取决于可用位预算和输入声音信号的特性(例如,在输入语音信号的情况下),可以在变换域编码之前加入来自一个或几个固定码簿的第二贡献。将所得激发称为时域激发贡献。另一方面,在很低位速率上和在普通音频的情况下,跳过固定码簿阶段和将所有剩余位用于变换域编码模式往往更好。变换域编码模式可以是例如频域编码模式。如上所述,子帧长度可以是四分之一帧,半帧或一帧长。只有当子帧长度等于四分之一帧长度时才使用固定码簿贡献。在子帧长度被判定为半帧或整帧长的情况下,则只将自适应码簿贡献用于表示时域激发,将所有剩余位分配给频域编码模式。
一旦完成了时域激发贡献的计算,就需要评估和量化它的效率。如果时域中编码的增益很低,则一起除去时域激发贡献并且替代地将所有位用于频域编码模式更有效。另一方面,例如,在干净输入语音的情况下,无需频域编码模式,将所有位分配给时域编码模式。但是,往往只有直到某个频率时域中的编码才有效。这个频率被称为时域激发贡献的截止频率。这样截止频率的确定保证了整个时域编码有助于获得更好的最终合成而不是反对频域编码。
在频域中估计截止频率。为了计算截止频率,首先将LP残差和时域编码贡献两者的频谱分解成预定数量的频带。频带的数量和每个频带覆盖的频率区间的数量从一个实现到另一种实现可以不同。对于每个频带,在时域激发贡献的频率表示与LP残差的频率表示之间计算归一化相关性,并在相邻频带之间对相关性进行平滑。每个频带相关性的下限为0.5,并且在0到1之间归一化。然后计算平均相关性作为所有频带的相关性的平均值。就截止频率的第一估计值而言,接着在0与半采样速率(半采样速率对应于1的归一化相关性值)之间缩放平均相关性。然后找出截止频率的第一估计值作为与那个值最接近的频带的上界。在实现的例子中,为相关性计算定义了在12.8kHz上的十六(16)个频带。
当利用人耳的心理声学属性时,通过将声调的第8谐波频率的估计位置与通过相关性计算估计的截止频率相比较,提高截止频率的估计值的可靠性。如果这个位置高于通过相关性计算估计的截止频率,则将截止频率修改成与声调的第8谐波频率的位置相对应。然后量化和发送截止频率的最终值。在实现的例子中,将3或4个位用于这样的量化,取决于位速率地给出8或16个可能截止频率。
一旦知道截止频率,就进行频域激发贡献的频率量化。首先,确定输入LP残差的频率表示(频率变换)与时域激发贡献的频率表示(频率变换)之间的差值。然后,创建新矢量,其直到截止频率由这个差值组成,而对于剩余频谱由到输入LP残差的频率表示的平滑过渡组成。然后将频率量化应用于整个新矢量。在实现的例子中,量化在于编码主要(最有活力)谱脉冲的符号和位置。每个频带要量化的脉冲的数量与可用于频域编码模式的位速率有关。如果可用于覆盖所有频带的位不足,则只好用噪声填充剩余频带。
使用描述在前段中的量化方法对频带的频率量化保证不了这个频带中的所有频率区间都被量化。这在每个频带量化的脉冲数量相应较少的低位速率上尤其如此。为了防止由这些未量化区间引起的可听见伪差的意外出现,加入某种噪声来填充这些空隙。由于在低位速率上量化脉冲应该支配着频谱而不是插入的噪声,所以噪声谱振幅只对应于脉冲的振幅的几分之一。频谱中的加入噪声的振幅在可用位预算低(允许更多噪声)时较高,而在可用位预算高时较低。
在频域编码模式中,为每个频带计算增益以便将未量化信号的能量与量化信号的能量匹配。矢量量化该增益并每个频带地将它应用于量化信号。当编码器将它的位分配从只在时域编码模式改变成混合时域/频域编码模式时,只在时域编码模式的每个频带激发谱能量与混合时域/频域编码模式的每个频带激发谱能量不匹配。这种能量失配可以选成一些切换伪差,尤其在低位速率上。为了减小这种位重新分配选成的任何可听见恶化,可以为每个频带计算长期增益,并且可以在从只在时域编码模式切换到混合时域/频域编码模式之后将它们应用于为几个帧校正每个频带的能量。
在完成了频域编码模式之后,通过将频域激发贡献与时域激发贡献的频率表示(频率变换)相加求出总激发,然后将激发贡献的总和变换回到时域以形成总激发。最终,通过LP合成滤波器滤波总激发计算合成信号。在一个实施例中,虽然只使用时域激发贡献基于子帧地更新CELP编码记忆,但将总激发用于更新帧边界上的那些记忆。在另一种可能实现中,只使用时域激发贡献基于子帧地以及在帧边界上更新CELP编码记忆。这导致了频域量化信号构成独立于核心CELP层的量化上层的嵌入结构。在这种特定情况下,总是使用固定码簿以便更新自适应码簿内容。但是,频域编码模式可以应用于整个帧。这种嵌入手段适用于12kbps左右和更高的位速率。
1)声音类型分类
图1是例示增强型CELP编码器100,例如,ACELP编码器的概观的示意性方框图。当然,可以使用相同的概念实现其他类型的增强型CELP编码器。图2是增强型CELP编码器100的更详细结构的示意性方框图。
CELP编码器100包含分析输入声音信号101(图1和2)的预处理器102(图1)。参照图2,处理器102包含输入声音信号101的LP分析器201、谱分析器202、开环声调分析器203、和信号分类器204。分析器201和202如,例如,ITU-T推荐G.718第6.4和6.1.4节所述,进行通常在CELP编码中进行的谱分析,因此,在本公开中不再作进一步描述。
预处理器102进行第一级分析,以便以与通过引用将全部内容并入本文中的参考文献[T.Vaillancourt et al.,"Inter-tone noise reduction in a low bit rateCELP decoder,"Proc.lEEE ICASSP,Taipei,Taiwan,Apr.2009,pp.4113-16]所述相似的方式,或利用任何其他可靠语音/非语音区别方法,在语音和非语音(普通音频(音乐或混响语音)之间分类输入声音信号101。
在这个第一级分析之后,预处理器102进行输入信号参数的第二级分析,以便允许对具有强非语音特性,但使用时域手段仍然可以较好编码的一些声音信号使用时域CELP编码(非频域编码)。当能量发生显著变化时,这种第二级分析使CELP编码器100可以切换到无记忆时域编码模式,在通过引用将全部内容并入本文中的参考文献[Eksler,V.,and Jelinek,M.(2008),"Transition mode coding for source controlled CELP codecs",IEEE Proceedingsof International Conference on Acoustics,Speech and Signal Processing,March-April,pp.4001-40043]中一般称为过渡模式。
在这个第二级分析期间,信号分类器204计算和使用来自开环声调分析器203的开环声调相关性的平滑形式cst的偏差σc、当前帧总能量Etot和当前帧总能量与前帧总能量之间的差值Ediff。首先,按如下计算平滑开环声调相关性的偏差:
σ c = Σ i = 0 i = - 10 ( ( C sτ ( i ) - C sτ ‾ ) 2 10 )
其中:
C是按如下定义的平滑开环声调相关性:
Figure BDA00003404385000092
C0l是分析器203使用,例如,如ITU-T推荐G.718第6.6节所述,CELP编码领域的普通技术人员已知的方法计算的开环声调相关性;
Figure BDA00003404385000093
是平滑开环声调相关性C在最后10个帧上的平均值;以及
σc是平滑开环声调相关性的偏差。
在第一级分析期间,当信号分类器204将帧分类成非语音时,由信号分类器204进行如下核实,以便在第二级分析中确定使用混合时域/频域编码模式是否真正安全。但是,有时,利用只在时域编码模式编码当前帧更好,其使用通过时域编码模式的预处理功能估计的时域手段之一。尤其,使用无记忆时域编码模式至少减小混合时域/频域编码模式可以带来的任何可能前回波可能更好。
作为是否应该使用混合时域/频域编码的第一次核实,信号分类器204计算当前帧总能量与前帧总能量之间的差值Ediff。当当前帧总能量Etot与前帧总能量之间的差值Ediff高于6dB时,这对应于输入声音信号中的所谓“时间攻击”。在这样的状况下,覆盖语音/非语音判定和选择的编码模式,并强迫使用无记忆时域编码模式。更具体地说,增强型CELP编码器100包含本身包含语音/普通音频选择器205(图5)、时间攻击检测器208(图2)、和无记忆时域编码模式的选择器206的只有时间/时间-频率编码选择器103(图1)。换句话说,响应选择器205所作的非语音信号(普通音频)的确定和检测器208在输入声音信号中对时间攻击的检测,选择器206强迫闭环CELP编码器207(图2)使用无记忆时域编码模式。闭环CELP编码器207形成图1的只在时域编码器104的一部分。
作为第二次核实,当当前帧总能量Etot与前帧总能量之间的差值Ediff低于或等于6dB,但;
-平滑开环声调相关性Cst高于0.96;
-平滑开环声调相关性Cst高于0.85和当前帧总能量Etot与前帧总能量之间的差值Ediff低于0.3dB;
-平滑开环声调相关性的偏差σc低于0.1和当前帧总能量Etot与前一个帧总能量之间的差值Ediff低于0.6dB;或
-当前帧总能量Etot低于20dB;以及
这至少是打算改变第一级分析的判定的情况下的第二相继帧(cnt≥2)时,然后语音/普通音频选择器205确定使用闭环普通CELP编码器207(图2)和使用只在时域模式编码当前帧。
否则,时间/时间-频率编码选择器103选择由公开在本描述中的混合时域/频域编码设备进行的混合时域/频域编码模式。
例如,当非语音声音信号是音乐时,这可以利用如下伪代码来总结:
if(generic audio)
if(Ediff)6dB)
coding mode=Time domain memory less
Cnt=1
else if(Cst>0.96|(Cst>0.85&Ediff<0.3dB)|(σc<0.1&Ediff<0.6dB)|Etot<20dB)
Cnt++
if(cnt>=2)
coding mode=Time domain
else
coding mode=mix time/frequency domain
cnt=0
其中Etot是表达成如下的当前帧能量:
E tot = 10 log ( Σ i = 0 i = N x ( i ) 2 N )
(其中x(i)代表帧中输入声音信号的样本)以及Ediff是当前帧总能量Etot与前一个帧总能量之间的差值。
2)子帧长度的判定
在典型CELP中,在10-30ms的帧中处理输入声音信号样本,并且将这些帧划分成几个子帧以便作自适应码簿和固定码簿分析。例如,可以使用20ms的帧(当内部采样频率是12.8kHz时,256个样本),将其划分成5ms的四个子帧。可变子帧长度是用于将时域和频域完全集成成一种编码模式的特征。子帧长度可以从典型1/4帧长度变到半帧或全帧长度。当然,也可以使用另一数量量的子帧(子帧长度)。
有关子帧的长度(子帧的数量)或时间支持的判定由子帧的数量的计算器210根据可用位速率和根据预处理器102中的输入信号分析,尤其来自分析器209的输入声音信号101的高频谱动态和包括来自分析器203的平滑开环声调相关性的开环声调分析来确定。分析器209响应来自谱分析器202的信息确定输入信号101的高频谱动态。谱动态从作为给出谱动态的表示的没有其噪声本底的输入谱、描述在ITU-T推荐G.718第6.7.2.2中的特征中计算出来。当如分析器209所确定的在4.4kHz与6.4kHz之间的频带中的输入声音信号101的平均谱动态低于9.6dB和最后帧被认为具有高谱动态时,则不再认为输入信号10在较高频率上具有高谱动态内容。在那种情况下,通过将更多的子帧加入时域编码模式中或通过强迫使用频域贡献的较低频部分中的更多脉冲,可以将更多位分配给,例如,4kHz以下的频率。
另一方面,如果如分析器209所确定输入信号101的较高频率内容的平均动态相对于未被认为具有高谱动态的最后帧的平均谱动态大于,例如,4.5dB时,则认为输入声音信号101在,例如,4kHz之上具有高谱动态内容。在那种情况下,取决于可用位速率,将一些附加位用于编码输入声音信号101的高频,以便允许一个或多个频率脉冲编码。
如计算器210(图2)所确定的子帧长度也取决于可用位预算。在很低位速率,例如,低于9kbps的位速率上,只有一个子帧可用于时域编码,否则,可用位的数量不足以用于频域编码。对于中等位速率,例如,在9kbps与16kbps之间的位速率,对于高频包含高动态谱内容的情况,使用一个子帧,如果不是,使用两个子帧。对于中高位速率,例如,大约16kbps和更高的位速率,如果如声音类型分类部分的段落所定义的平滑开环声调相关性C高于0.8,四(4)个子帧的情况也变成可用的。
虽然一个或两个子帧的情况使时域编码只局限于自适应码簿贡献(存在编码声调滞后和声调增益),即,在那种情况下未使用固定码簿,但如果可用位预算足够,则四(4)个子帧为自适应和固定码簿贡献创造条件。允许四(4)个子帧的情况从大约16kbps开始往上。由于位预算限制,时域激发在较低位速率上只由自适应码簿贡献组成。对于,例如,从24kbps开始的较高位速率,可以加入简单固定码簿贡献。对于所有情况,事后评估时域编码效率,以判定直到哪个频率这样的时域编码都是有价值的。
3)闭环声调分析
当使用混合时域/频域编码模式时,如果需要的话,在闭环声调分析之后接着进行固定代数码簿搜索。为此目的,CELP编码器100(图1)包含时域激发贡献的计算器105(图1和2)。这个计算器进一步包含响应在开环声调分析器203中进行的在开环声调分析和计算器210中的子帧长度(或帧中的子帧的数量)确定进行闭环声调分析的分析器211(图2)。闭环声调分析是本领域的普通技术人员所公知的,实现的例子描述在,例如,通过引用将全部内容并入本文中的参考文献[ITU-T G.718推荐;第6.8.4.1.4.1节]中。闭环声调分析导致主要由声调滞后(自适应码簿索引T)和声调增益(或自适应码簿增益b)组成、也称为自适应码簿参数的声调参数被计算出来。自适应码簿贡献通常是延迟T的过去激发或它的内插形式。编码自适应码簿索引T并将其发送给远处解码器。还量化声调增益b并将其发送给远处解码器。
当完成了闭环声调分析时,CELP编码器100包含为了找出通常包含固定码簿索引和固定码簿增益的最佳固定码簿参数而搜索的固定码簿212。固定码簿索引和增益形成固定码簿贡献。编码固定码簿索引并将其发送给远处解码器。还量化固定码簿增益并将其发送给远处解码器。固定代数码簿及其搜索被认为是CELP编码领域的普通技术人员所公知的,因此在本公开中不再作进一步描述。
自适应码簿索引和增益和固定码簿索引和增益形成时域CELP激发贡献。
4)感兴趣信号的频率变换
在混合时域/频域编码模式的频域编码期间,需要在变换域中,例如,在频域中表示两个信号。在一个实施例中,时间到频率变换可以使用对于12.8kHz的内部采样频率给出25Hz的分辨率的256个点的类型II(或类型IV)DCT(离散余弦变换)来实现,但也可以使用任何其他变换。在使用另一种变换的情况下,可能需要相应地修改频率分辨率(如上所定义)、频带的数量和每个频带的频率区间的数量(如下面所进一步定义)。关于这一点,CELP编码器100包含响应分析器201对输入声音信号的LP分析所得的输入LP残差res(n)计算频域激发贡献的计算器107(图1)。如图2所例示,计算器107可以计算输入LP残差res(n)的DCT213,例如,类型II DCT。CELP编码器100还包含计算时域激发贡献的频率变换的计算器106(图1)。如图2所例示,计算器106可以计算时域激发贡献的DCT214,例如,类型II DCT。输入LP残差的频率变换fres和时域CELP激发贡献fexc可以使用如下表达式来计算:
fres ( k ) - 1 N &CenterDot; &Sigma; n = 0 N - 1 r es ( n ) - cos ( &pi; N ( n + 1 2 ) k ) , k = 0 2 N &CenterDot; &Sigma; n = D N - 1 r es ( n ) &CenterDot; cos ( &pi; N ( n + 1 2 ) k ) , 1 &le; k < N - 1
以及:
fexc ( k ) - 1 N &CenterDot; &Sigma; n = 0 N - 1 e td ( n ) - cos ( &pi; N ( n + 1 2 ) k ) , k = 0 2 N &CenterDot; &Sigma; n = D N - 1 e td ( n ) &CenterDot; cos ( &pi; N ( n + 1 2 ) k ) , 1 &le; k < N - 1
其中res(n)是输入LP残差,etd(n)是时域激发贡献,以及N是帧长度。在一种可能实现中,对于12.8kHz的内部采样频率,帧长度是256个样本。时域激发贡献通过如下关系给出:
etd(n)=bv(n)+gc(n)
其中ν(n)是自适应码簿贡献,b是自适应码簿增益,c(n)是固定码簿贡献,以及g是固定码簿增益。应该注意到,时域激发贡献如上面的描述所述,可能只由自适应码簿贡献组成。
5)时域贡献的截止频率
对于普通音频样本,时域激发贡献(自适应和/或固定代数码簿的组合)与频域编码相比对编码改进的贡献并不总是很多。时常,它的确改进了频谱的较下部,但频谱的较上部分中的编码改进却很小。CELP编码器100包含截止频率的寻找器和滤波器108(图1),该截止频率是时域激发贡献提供的编码改进小到没有什么价值的频率。寻找器和滤波器108包含图2的截止频率的计算器215和滤波器216。首先由计算器215使用定义在前面第4部分中、分别指定为fres和fexc的、来自计算器107的频率变换输入LP残差和来自计算器106的频率变换时域激发贡献之间的每个频带的归一化交叉相关的计算机303(图3和4)估计时域激发贡献的截止频率。包括在,例如,十六(16)个频带的每一个中的最后频率Lf以Hz为单位定义如下:
L f = 175,375,775,1175,1575,1975,2375,2775 , 3175,3575,3975,4375,4775,5175,5575,6375
对于这个例示性例子,对于具有12.8kHz采样频率的20ms帧,每个频带的频率区间的数量Bb、每个频带的累计频率区间CBb、和每个频带的归一化交叉相关CC(i)定义如下:
B b = 8,8,16,16,16,16,16,16 , 16,16,16,16,16,16,16,32
C Bb = 0,8,16,32,48,64,80,96 , 112,128,144,160,176,192,208,224
C C ( i ) = &Sigma; j = C Bb ( i ) j = C Bb ( i ) + B b ( i ) f exc ( j ) &CenterDot; f res ( j ) ( S f exc &prime; ( i ) &CenterDot; S f res &prime; ( i ) )
其中:
S f exc &prime; ( i ) = &Sigma; j = C Bb ( i ) j = C Bb ( i ) + B b ( i ) f exc ( j ) 2
以及:
S f res &prime; ( i ) = &Sigma; j = C Bb ( i ) j = C Bb ( i ) + B b ( i ) f res ( j ) 2
其中Bb是每个频带的频率区间的数量,CBb是每个频带的累计频率区间,
Figure BDA00003404385000154
是每个频带的归一化交叉相关,
Figure BDA00003404385000155
是一个频带的激发能以及类似地,
Figure BDA00003404385000156
是每个频带的残差能量。
截止频率的计算器215包含贯穿频带的交叉相关的平滑器304(图3和4),用于进行一些操作以平滑不同频带之间的交叉相关矢量。更具体地说,贯穿频带的交叉相关的平滑器304使用如下关系计算新交叉相关矢量
Figure BDA00003404385000157
Figure BDA00003404385000158
其中:
α=0.95;δ=(1-α);Nb=13;β=δ/2。
截止频率的计算器215进一步包含新交叉相关矢量
Figure BDA00003404385000159
在前Nb个频带(Nb=代表5575Hz的13)上的平均值的计算器305(图3和4)。
截止频率的计算器215还包含截止频率模块306(图3),该截止频率模块306包括交叉相关的限制器406(图4)、交叉相关的归一化器407和交叉相关最低的频带的寻找器408。更具体地说,限制器406将交叉相关矢量的平均值限制成0.5的最小值,归一化器408将交叉相关矢量的限制平均值归一化成在0与1之间。寻找器408通过寻找使频带Lf的最后频率与乘以输入声音信号的频谱的宽度F/2的交叉相关矢量
Figure BDA00003404385000161
归一化平均值
Figure BDA00003404385000162
之间的差值最小的频带Lf的所述最后频率获取截止频率的第一估计值:
i min = min 0 &le; i < N b ( L f ( i ) - C c 2 &OverBar; &CenterDot; ( F s 2 ) ) f tc 1 = L f ( i min )
其中
Fs=12800Hz和 C c 2 &OverBar; = &Sigma; i = 0 i = N b - 1 ( C c 2 ( i ) ) N b
Figure BDA00003404385000165
是截止频率的第一估计值。
在归一化平均值
Figure BDA00003404385000166
决不会真正很高的低位速率上,或者为了人为地增加
Figure BDA00003404385000167
的值以便将稍多一点的权重给予时域贡献,可以利用固定缩放因子,例如,在低于8kbps的位速率上放大
Figure BDA00003404385000168
的值,并且在示范性实现中总是将
Figure BDA00003404385000169
乘以2。
截止频率的精度可以通过将如下成分加入计算中来增加。为此目的,截止频率的计算器215包含使用如下关系从所有子帧的时域激发贡献的最小或最佳声调滞后值中计算的第8谐波的外推器410(图4):
h 8 th = 8 &CenterDot; F s min 0 &le; i < N sub ( T ( i ) )
其中Fs=12800Hz,Nsub是子帧的数量,以及T(i)是子帧i的自适应码簿索引或声调滞后。
截止频率的计算器215还包含第8谐波
Figure BDA000034043850001611
所在的频带的寻找器409(图4)。更具体地说,对于所有i<Nb,寻找器409搜索仍然满足如下不等式的最高频率:
( h 8 th &GreaterEqual; L f ( i ) ) h gth &GreaterEqual; L f ( i )
那个频带的索引被称为它指示第8谐波有可能所在的频带。
截止频率的计算器215最后包含最终截止频率ftc的选择器411(图4)。更具体地说,选择器411使用如下关系保留来自寻找器408的截止频率的第一估计值ftc1与第8谐波所在的频带的最后频率
Figure BDA00003404385000172
之间的较高频率:
ftc=max(Lf(igth),ftc1)
如图3和4所例示,
-截止频率的计算器215进一步包含要归零的频率区间的数量的判定器307(图3),它本身包括参数的分析器415(图4)、和要归零的频率区间的选择器416(图4);以及
-工作在频域中的滤波器216(图2)包含判定为归零的频率区间的归零器308(图3)。归零器可以归零所有频率区间(图4中的归零器417),或仅仅补充了平滑过渡区的位于截止频率ftc之上的一些较高频率区间。过渡区位于截止频率ftc之上但在归零区间以下,它使ftc以下的不变频谱与较高频率上的归零区间之间的谱过渡变平滑。
对于例示性的例子,当来自选择器411的截止频率ftc低于或等于755Hz时,分析器415认为截止激发贡献的成本太高。选择器416选择要归零的时域激发贡献的频率表示的所有频率区间,归零器417迫使所有频率区间都归零,还迫使截止频率ftc归零。然后将分配给时域激发贡献的所有位重新分配给频域编码模式。否则,分析器415迫使选择器416选择截止频率ftc以上的高频区间以便由归零器418归零。
最后,截止频率的计算器215包含将截止频率ftc量化成这个截止频率的量化形式ftcQ的量化器309。如果将三(3)个位与截止频率参数相联系,则输出值的可能集合可以定义(以Hz为单位)定义:
ftcQ-{0,1175,1575,1975,2375,2775,3175,3575,}
许多机制可以用于稳定最终截止频率ftc的选择,以防止量化形式ftcQ在不适当信号片段中在0与1175之间切换。为了达到这个目的,这个示范性实施例中的分析器415响应来自闭环声调分析器211(图2)的长期平均声调增益Glt412、来自开环声调分析器203的开环相关性Col413和平滑开环相关性Cst。为了防止切换到完全频率编码,当满足如下条件时,分析器415不允许只有频率编码,即,不能将ftcQ设置成0:
ftc>2375Hz,或
ftc>1175Hz,Col>0.7和Gh≥0.6,或
ftc≥1175Hz,Cst>0.8和Glt≥0.4或
ftcQ(t-1)!=0,Col>0.5,Cst>0.5和Clt≥0.6,
其中Col是开环声调相关性413,以及Cst对应于开环声调相关性的平滑形式414,定义为Cst=0.9·Col+0.1·Cst。进一步,Glt(图4中的项412)对应于时域激发贡献内闭环声调分析器211获得的声调增益的长期平均值。声调增益的长期平均值412被定义为
Figure BDA00003404385000181
以及
Figure BDA00003404385000182
是当前帧上的平均声调增益。为了进一步降低在只有频率编码与混合时域/频域编码之间切换的频率,可以加入释放延迟。
6)频域编码
创建差矢量
一旦定义了时域激发贡献的截止频率,就进行频域编码。CELP编码器100包含从零到时域激发贡献的截止频率利用来自DCT213(图2)的输入LP残差的频率变换fres502(图5和6)(或其他频率表示)与来自DCT214(图2)的时域激发贡献的频率变换fexc501(图5和6)(或其他频率表示)之间的差值形成差矢量fd的一部分的减法器或计算器109(图1,2,5和6)。在其与频率变换fres的各自频谱部分相减之前,对ftrans=2kHz的下一个过渡区(在这种示范性实现中,80个频率区间)将缩小因子603(图6)应用于频率变换fexc501。相减的结果构成代表从截止频率ftc到ftc+ftrans的频率范围的差矢量fd的第二部分。将输入LP残差的频率变换fres502用于矢量fd的剩余第三部分。应用缩小因子603所得的矢量fd的缩小部分可以利用任何类型的渐弱函数来实现,可以缩短到只有几个频率区间,但当判断可用位预算足以防止截止频率ftc正在变化时的能量振荡伪差时,也可以省略。例如,对于与12.8kHz上256个点的DCT中的1个频率区间fbin=25Hz相对应的25Hz分辨率,可以按如下建立差矢量:
fd(k)=fres(k)-fexc(k)
其中,0≤k≤ftc/fbin
f d ( k ) = f res ( k ) - f exc ( k ) &CenterDot; ( 1 - sin ( &pi; 2 &CenterDot; f bin f trans &CenterDot; ( k - f tc f bin ) ) )
其中,fte/fbin<k≤(ftc+ftrans)/fbin
否则,fd(k)=fres(k),
其中fres,fexc和ftc已经定义在前面第4和5部分中。
搜索频率脉冲
CELP编码器100包含差矢量fd的频率量化器110(图1和2)。差矢量fd可以使用几种方法来量化。在所有情况下,必须搜索和量化频率脉冲。在一种可能简单方法中,频域编码包含跳过频谱搜索差矢量fd的最有活力脉冲。搜索脉冲的方法可以简单到将频谱分解成频带并使每个频带具有某个数量的脉冲。每个频带的脉冲数量取决于可用的位预算以及取决于频带在频谱内的位置。通常,将较多的脉冲分配给低频。
量化差矢量
取决于可用位速率,频率脉冲的量化可以使用不同技术来进行。在一个实施例中,在低于12kbps的位速率上,可以将简单搜索和量化方案用于编码脉冲的位置和符号。下文描述这种方案。
例如,对于低于3175Hz的频率,这种简单搜索和量化方案使用基于描述在,例如,通过引用将全部内容并入本文中的参考文献[Mittal,U.,Ashley,J.P.,and Cruz-Zeno,E.M.(2007),"Low Complexity Factorial Pulse Coding ofMDCT Coefficients using Approximation of Combinatorial Functions",IEEEProceedings on Acoustic,Speech and Signals Processing,Vol.1,April,pp.289-292]中的阶乘脉冲编码(FPC)的手段。
更具体地说,选择器504(图5和6)确定未使用FPC量化所有频谱。如图5所例示,在编码器506中进行FPC编码和脉冲位置和符号编码。如图6所例示,编码器506包含频率脉冲的搜索器609。贯穿频率低于3175Hz的所有频带地进行搜索。然后,FPC编码器610处理频率脉冲。编码器506还包含对等于或大于3175Hz的频率寻找最有活力脉冲的寻找器611、和找到的最有活力脉冲的位置和符号的量化器612。如果在频带内允许不止一(1)个脉冲,则将以前找到的脉冲的振幅除以2,并在整个频带上再次进行搜索。每当找到一个脉冲时,就为量化和位填充阶段存储它的位置和符号。如下伪代码例示了这种简单搜索和量化方案:
for k=0:NBD
for i=0:NP
Pmax=0
for j=CBb(k):CBb(k)+Bb(k)
if fd(j)2>Pmax
pmax=fd(j)2
f d ( j ) = f d ( j ) 2
pp(i)=j
ps(i)=sign(fd(j))
end
end
end
end
其中NBD是频带的数量(在例示性的例子中,NBD=16),Np是频带k中要编码的脉冲的数量,Bb是每个频带的频率区间的数量,CBb是如前面在第5部分中定义的每个频带的累计频带区间,Pp代表包含找到的脉冲位置的矢量,Ps代表包含找到的脉冲的符号的矢量,以及Pmax代表找到的脉冲的能量。
在高于12kbps的位速率上,选择器504确定要使用FPC量化所有频谱。如图5所例示,在编码器505中进行FPC编码。如图6所例示,编码器505包含频率脉冲的搜索器607。贯穿整个频带地进行搜索。然后,FPC处理器610PFC编码找到的频率脉冲。
然后,通过将具有脉冲符号ps的脉冲的数量nb_pulses加入找到的每个位置pp中获取量化差矢量fdQ。对于每个频带,可以利用如下伪代码书写量化差矢量fdQ
for j=O,…,j<nb_Pulses
fdQ(pp(j))+=ps(j)
噪声填充
所有频带以或多或少的精度量化;描述在前一部分中的量化方法不能保证频带内的所有频率区间都得到量化。在每个频带量化的脉冲的数量相应较少的低位速率上尤其是这种情况。为了防止由这些未量化区间引起的可听见伪差的意外出现,噪声填充器507(图5)加入一些噪声来填充这些空隙。这种噪声加入在低于,例如,12kbps的位速率上在整个频谱上进行,但对于较高位速率,可以只在时域激发贡献的截止频率ftc之上应用。为了简单起见,噪声强度只随可用位速率而变。在高位速率上,噪声水平低,但在低位速率上噪声水平较高。
噪声填充器504包含在估计器6中已经确定这样加入噪声的强度或能量水平之后以及在计算机615中确定每个频带增益之前将噪声加入量化差矢量fdQ中的加法器613(图6)。在例示性实施例中,噪声水平直接与编码位速率有关。例如,在6.60kbps上,噪声水平N'L是在特定频带中编码的谱脉冲的振幅的0.4倍,而在24kbps上逐步下降到在频带中编码的谱脉冲的振幅的0.2的数值。只将噪声加入一定数量的相继频率区间具有很低能量,例如,当相继很低能量区间的数量Nz是包括在频带中的区间的数量的一半时的频谱部分中。对于特定频带i,按如下注入噪声:
for j=CBb(i),…,j<CBb(i)+Bb(i)
if &Sigma; k = j j + N z f dQ ( k ) 2 < 0.5
for k=j,…,k<j+Nz
f dQ ( k ) = f dQ ( k ) + N L &prime; ( i ) &CenterDot; r and ( )
j+=Nz
其中 N z = B b ( i ) 2
其中,对于频带i,CBb是每个频带的区间的累计数量,Bb是特定频带i中的区间的数量,N'L是噪声水平,以及rand是限制在-1与1之间的随机数发生器。
7)每个频带增益量化
频率量化器110包含每个频带增益计算器/量化器508(图5),其包括每个频带增益的计算器615(图6)和所计算每个频带增益的量化器616(图6)。一旦找到如果需要的话包括噪声填充的量化差矢量fdQ,由计算器615为每个频带计算每个频带增益。按如下将特定频带的每个频带增益Gb(i)定义成在对数域中未量化差矢量fd信号的能量与量化差矢量fdQ的能量之比:
G b ( i ) = log 10 ( S f d &prime; ( i ) S f dQ &prime; ( i ) )
其中 S f d &prime; ( i ) = &Sigma; j - C Bb ( i ) j = C Bb ( i ) - B b ( i ) f d ( j ) 2 S f dQ &prime; ( i ) = &Sigma; j - C Bb ( i ) j = C Sb ( i ) - B b ( i ) f dQ ( j ) 2
其中CBb和Bb定义在上文第5部分中。
在图5和6的实施例中,每个频带增益量化器616矢量量化每个频带频率增益。在矢量量化之前,在低位速率上,分开量化最后增益(与最后频带相对应),并将所有剩余十五(15)个增益除以最后量化的增益。然后,矢量量化归一化的十五(15)个剩余增益。在较高位速率上,首先量化每个频带增益的平均值,然后在矢量量化,例如,十六(16)个频带的所有每个频带增益之前,从那些每个频带增益中除去每个频带增益的平均值。使用的矢量量化可以是包含每个频带增益的矢量与特定码簿的项目之间的距离在对数域中的标准极小化。
在频域编码模式中,在计算器615中为每个频带计算增益,以便使未量化矢量fd的能量与量化矢量fdQ的能量匹配。在量化器611中矢量量化增益,并通过乘法器509(图5和6)每个频带地将它应用于量化矢量fdQ
可替代地,通过只选择要量化的一些频带也可以将在低于12kbps的速率上的FPC编码方案用于整个频谱。在进行频带的选择之前,量化未量化矢量fd的频带的能量Ed。该能量如下那样计算:
Ed(i)=log10(Sd(i))
S d ( i ) = &Sigma; j = C Bb ( i ) j = C Bb ( i ) + B b ( i ) f d ( j ) 2
其中CBb和Bb定义在上文第5部分中。
为了进行频带能量Ed'的量化,首先量化并从所有十六(16)频带能量中减去使用的十六个频带当中前12个频带上的平均能量。然后每组3或4个频带地矢量量化所有频带。使用的矢量量化可以是包含每个频带增益的矢量与特定码簿的项目之间的距离在对数域中的标准极小化。如果没有足够的位可用,则可以只量化前12个频带,并使用前3个频带的平均值或通过任何其他方法外推最后4个频带。
一旦量化了未量化差矢量的频带的能量,就可以以在解码器侧可重复的方式按降序将能量排序。在排序期间,总是保留低于2kHz的所有能带,然后只将最有活力频带传递给FPC以便编码脉冲振幅和符号。对于这种手段,FPC方案编码较小矢量,但覆盖较宽频率范围。换句话说,花费较少的位覆盖整个频谱上的重要能量事件。
在脉冲量化过程之后,需要与前面所述类似的噪声填充。然后,每个频带地计算增益调整因子Ga,以来将量化差矢量fdQ的能量EdQ与未量化差矢量fd的量化能量Ed'匹配。然后,将这个每个频带增益调整因子应用于量化差矢量fdQ的:
G a ( i ) = 10 E d &prime; ( i ) - E dQ ( i )
其中 E dQ ( i ) = log 10 ( &Sigma; j = C Bb ( i ) j = C Bb ( i ) + B b ( i ) f dQ ( j ) 2 )
以及Ed'是如前所定义的未量化差矢量fd的量化每个频带能量。
在完成了频域编码阶段之后,通过加法器111(图1,2,5和6)将频率量化差矢量fdQ与滤波后频率变换时域激发贡献fexcF相加求出总时域/频域激发。当增强型CELP编码器100将它的位分配从只在时域编码模式改变时混合时域/频域编码模式时,只在时域编码模式的每个频带激发谱能量与混合时域/频域编码模式的每个频带激发谱能量不匹配。这种能量失配可以选成在低位速率上更加可听见的切换伪差。为了减小这种位重新分配选成的任何可听见恶化,可以为每个频带计算长期增益,并且可以在重新分配之后将它们应用于总和激发,以便为几个帧校正每个频带的能量。然后,在包含,例如,IDCT(逆DCT)220的转换器112(图1,5和6)中将频率量化差矢量fdQ与频率变换和滤波后时域激发贡献fecxF的总和变换回到时域。
最后,通过LP合成滤波器113(图1和2)滤波来自IDCT220的总激发信号计算合成信号。
频率量化差矢量fdQ与频率变换和滤波后时域激发贡献fecxF的总和形成发送给远处解码器(未示出)的混合时域/频域激发。远处解码器也包含使用,例如,IDCT(逆DCT)220将混合时域/频域激发变换回到时域的转换器112。最后,通过LP合成滤波器113(图1和2)滤波来自IDCT220的总激发信号,即,混合时域/频域激发计算合成信号。
在一个实施例中,虽然只使用时域激发贡献基于子帧地更新CELP编码记忆,但将总激发用于更新帧边界上的那些记忆。在另一种可能实现中,只使用时域激发贡献基于子帧地以及在帧边界上更新CELP编码记忆。这导致了频域量化信号构成独立于核心CELP层的量化上层的嵌入结构。这在某些应用中是有优点的。在这种特定情况下,总是使用固定码簿来保持良好感知质量,以及由于相同原因,子帧的数量总是四(4)个。但是,频域分析可以应用于整个帧。这种嵌入手段适用于12kbps左右和更高的位速率。
上文的公开涉及非限制性、例示性实施例,这些实施例可以在所附权利要求的范围内随意地加以修改。

Claims (60)

1.一种编码输入声音信号的混合时域/频域编码设备,其包含:
响应输入声音信号计算时域激发贡献的计算器;
响应输入声音信号计算时域激发贡献的截止频率的计算器;
响应截止频率调整时域激发贡献的频率范围的滤波器;
响应输入声音信号计算频域激发贡献的计算器;以及
相加滤波后时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发的加法器。
2.按照权利要求1所述的混合时域/频域编码设备,其中时域激发贡献包含(a)只有自适应码簿贡献,或(b)自适应码簿贡献和固定码簿贡献。
3.按照权利要求1或2所述的混合时域/频域编码设备,其中计算时域激发贡献的计算器使用输入声音信号的代码激发线性预测编码。
4.按照权利要求1到3的任何一项所述的混合时域/频域编码设备,包含计算要用在当前帧中的子帧的数量的计算器,其中计算时域激发贡献的计算器在当前帧中使用子帧数量计算器为所述当前帧确定的子帧的数量。
5.按照权利要求4所述的混合时域/频域编码设备,其中计算当前帧中的子帧的数量的计算器响应输入声音信号的高频谱动态和可用位预算的至少一种。
6.按照权利要求1到5的任何一项所述的混合时域/频域编码设备,包含计算时域激发贡献的频率变换的计算器。
7.按照权利要求1到6的任何一项所述的混合时域/频域编码设备,其中计算频域激发贡献的计算器对从输入声音信号的LP分析获得的LP残差进行频率变换,以生成LP残差的频率表示。
8.按照权利要求7所述的混合时域/频域编码设备,其中计算截止频率的计算器包含对多个频带的每一个、计算LP残差的频率表示与时域激发贡献的频率表示之间的交叉相关的计算机,以及该编码设备包含响应交叉相关寻找截止频率的估计值的寻找器。
9.按照权利要求7或8所述的混合时域/频域编码设备,进一步包含贯穿频带平滑交叉相关以生成交叉相关矢量的平滑器、计算交叉相关矢量在频带上的平均值的计算器、和将交叉相关矢量的平均值归一化的归一化器,其中寻找截止频率的估计值的寻找器通过找出频带之一的最后频率确定截止频率的第一估计值,其使所述最后频率与乘以频谱宽度值的交叉相关矢量的归一化平均值之间的差值最小。
10.按照权利要求9所述的混合时域/频域编码设备,其中计算截止频率的计算器包含寻找从时域激发贡献中计算的谐波所在的频带之一的寻找器、以及将截止频率选择成截止频率的所述第一估计值与所述谐波所在的频带的最后频率的较高频率的选择器。
11.按照权利要求1到10的任何一项所述的混合时域/频域编码设备,其中滤波器包含频率区间的归零器,其迫使在截止频率以上的多个频带的频率区间归零。
12.按照权利要求1到11的任何一项所述的混合时域/频域编码设备,其中滤波器包含频率区间的归零器,其当截止频率低于给定值时迫使多个频带的所有频率区间归零。
13.按照权利要求1到12的任何一项所述的混合时域/频域编码设备,其中计算频域激发贡献的计算器包含计算输入声音信号的LP残差的频率表示与时域激发贡献的滤波后频率表示之间的差值的计算器。
14.按照权利要求7所述的混合时域/频域编码设备,其中计算频域激发贡献的计算器包含计算LP残差的频率表示与直到截止频率的时域激发贡献的频率表示之间的差值以形成差矢量的第一部分的计算器。
15.按照权利要求14所述的混合时域/频域编码设备,包含在截止频率之后的所确定频率范围内应用于时域激发贡献的频率表示以形成差矢量的第二部分的缩小因子。
16.按照权利要求15所述的混合时域/频域编码设备,其中对于所确定频率范围之上的第三剩余部分,通过LP残差的频率表示形成差矢量。
17.按照权利要求14到16的任何一项所述的混合时域/频域编码设备,包含差矢量的量化器。
18.按照权利要求17所述的混合时域/频域编码设备,其中加法器在频域中相加量化的差矢量和滤波后时域激发贡献的频率变换形式,以形成混合时域/频域激发。
19.按照权利要求1到18的任何一项所述的混合时域/频域编码设备,其中加法器在频域中相加时域激发贡献和频域激发贡献。
20.按照权利要求1到19的任何一项所述的混合时域/频域编码设备,包含在时域激发贡献与频域激发贡献之间动态分配位预算的部件。
21.一种使用时域和频域模型的编码器,其包含:
将输入声音信号分类成语音或非语音的分类器;
只在时域编码器;
按照权利要求1到20的任何一项所述的混合时域/频域编码设备;以及
选择器,取决于输入声音信号的分类,为编码输入声音信号,选择只在时域编码器和混合时域/频域编码设备之一。
22.如权利要求21所述的编码器,其中只在时域编码器是代码激发线性预测编码器。
23.如权利要求21或22所述的编码器,包含无记忆时域编码模式的选择器,其当分类器将输入声音信号分类成非语音并在输入声音信号中检测到时间攻击时,在只在时域编码器中强迫将无记忆时域编码模式用于编码输入声音信号。
24.如权利要求21到23的任何一项所述的编码器,其中混合时域/频域编码设备将可变长度的子帧用在时域贡献的计算中。
25.一种编码输入声音信号的混合时域/频域编码设备,其包含:
响应输入声音信号计算时域激发贡献的计算器,其中该计算时域激发贡献的计算器在所述输入声音信号的相继帧中处理输入声音信号,以及包含计算要用在输入声音信号的当前帧中的子帧的数量的计算器,其中该计算时域激发贡献的计算器在当前帧中使用子帧数量计算器为所述当前帧确定的子帧的数量;
响应输入声音信号计算频域激发贡献的计算器;以及
相加时域激发贡献和频域激发贡献以形成构成输入声音信号的编码形式的混合时域/频域激发的加法器。
26.按照权利要求25所述的混合时域/频域编码设备,其中计算当前帧中的子帧的数量的计算器响应输入声音信号的高频谱动态和可用位预算的至少一种。
27.一种解码使用如权利要求1到20的任何一项所述的混合时域/频域编码设备编码的声音信号的解码器,其包含:
在时域中转换混合时域/频域激发的转换器;以及
响应在时域中转换的混合时域/频域激发而合成声音信号的合成滤波器。
28.按照权利要求27所述的解码器,其中转换器使用逆离散余弦变换。
29.按照权利要求27或28所述的解码器,其中合成滤波器是LP合成滤波器。
30.一种解码使用如权利要求25或26所述的混合时域/频域编码设备编码的声音信号的解码器,其包含:
在时域中转换混合时域/频域激发的转换器;以及
响应在时域中转换的混合时域/频域激发而合成声音信号的合成滤波器。
31.一种编码输入声音信号的混合时域/频域编码方法,其包含:
响应输入声音信号计算时域激发贡献;
响应输入声音信号计算时域激发贡献的截止频率;
响应截止频率,调整时域激发贡献的频率范围;
响应输入声音信号计算频域激发贡献;以及
相加调整后时域激发贡献和频域激发贡献,以形成构成输入声音信号的编码形式的混合时域/频域激发。
32.按照权利要求31所述的混合时域/频域编码方法,其中时域激发贡献包含(a)只有自适应码簿贡献,或(b)自适应码簿贡献和固定码簿贡献。
33.按照权利要求31或32所述的混合时域/频域编码方法,其中计算时域激发贡献包含使用输入声音信号的代码激发线性预测编码。
34.按照权利要求31到32的任何一项所述的混合时域/频域编码方法,包含计算要用在当前帧中的子帧的数量,其中计算时域激发贡献包含在当前帧中使用为所述当前帧确定的子帧的数量。
35.按照权利要求34所述的混合时域/频域编码方法,其中计算当前帧中的子帧的数量响应输入声音信号的高频谱动态和可用位预算的至少一种。
36.按照权利要求31到35的任何一项所述的混合时域/频域编码方法,包含计算时域激发贡献的频率变换。
37.按照权利要求31到36的任何一项所述的混合时域/频域编码方法,其中计算频域激发贡献包含对从输入声音信号的LP分析获得的LP残差进行频率变换,以生成LP残差的频率表示。
38.按照权利要求37所述的混合时域/频域编码方法,其中计算截止频率包含对多个频带的每一个计算LP残差的频率表示与时域激发贡献的频率表示之间的交叉相关,以及该编码方法包含响应交叉相关寻找截止频率的估计值。
39.按照权利要求38所述的混合时域/频域编码方法,包含贯穿频带平滑交叉相关以生成交叉相关矢量,计算交叉相关矢量在各频带上的平均值,和将交叉相关矢量的平均值归一化,其中寻找截止频率的估计值包括通过找出频带之一的最后频率确定截止频率的第一估计值,其使所述最后频率与乘以频谱宽度值的交叉相关矢量的归一化平均值之间的差值最小。
40.按照权利要求39所述的混合时域/频域编码方法,其中计算截止频率包含寻找从时域激发贡献中计算的谐波所在的频带之一,以及将截止频率选择成截止频率的所述第一估计值与所述谐波所在的频带的最后频率的较高频率。
41.按照权利要求31到40的任何一项所述的混合时域/频域编码方法,其中调整时域激发贡献的频率范围包含将频率区间归零,以迫使在截止频率以上的多个频带的频率区间归零。
42.按照权利要求31到41的任何一项所述的混合时域/频域编码方法,其中调整时域激发贡献的频率范围包含当截止频率低于给定值时,将频率区间归零以迫使多个频带的所有频率区间归零。
43.按照权利要求31到42的任何一项所述的混合时域/频域编码方法,其中计算频域激发贡献包含计算输入声音信号的LP残差的频率表示与时域激发贡献的滤波后频率表示之间的差值。
44.按照权利要求31到43的任何一项所述的混合时域/频域编码方法,其中计算频域激发贡献包含计算LP残差的频率表示与直到截止频率的时域激发贡献的频率表示之间的差值以形成差矢量的第一部分。
45.按照权利要求44所述的混合时域/频域编码方法,包含在截止频率之后的所确定频率范围内将缩小因子应用于时域激发贡献的频率表示,以形成差矢量的第二部分。
46.按照权利要求45所述的混合时域/频域编码方法,包含对于预定频率范围之上的第三剩余部分,利用LP残差的频率表示形成差矢量。
47.按照权利要求44到46的任何一项所述的混合时域/频域编码方法,包含量化差矢量。
48.按照权利要求47所述的混合时域/频域编码方法,其中相加调整后时域激发贡献和频域激发贡献以形成混合时域/频域激发包含:在频域中相加量化的差矢量和调整后时域激发贡献的频率变换形式。
49.按照权利要求31到48的任何一项所述的混合时域/频域编码方法,其中相加调整后时域激发贡献和频域激发贡献以形成混合时域/频域激发包含在频域中相加时域激发贡献和频域激发贡献。
50.按照权利要求31到49的任何一项所述的混合时域/频域编码方法,包含在时域激发贡献与频域激发贡献之间动态分配位预算。
51.一种使用时域和频域模型编码的方法,其包含:
将输入声音信号分类成语音或非语音;
提供只在时域编码方法;
提供按照权利要求31到50的任何一项所述的混合时域/频域编码方法;以及
取决于输入声音信号的分类,为编码输入声音信号选择只在时域编码方法和混合时域/频域编码方法之一。
52.如权利要求51所述的编码方法,其中只在时域编码方法是代码激发线性预测编码方法。
53.如权利要求51或52所述的编码的方法,包含选择无记忆时域编码模式,其当输入声音信号被分类成非语音并检测到输入声音信号中的时间攻击时,使用只在时域编码方法强迫将无记忆时域编码模式用于编码输入声音信号。
54.如权利要求51到53的任何一项所述的编码的方法,其中混合时域/频域编码方法包含将可变长度的子帧用在时域贡献的计算中。
55.一种编码输入声音信号的混合时域/频域编码方法,其包含:
响应输入声音信号计算时域激发贡献,其中计算时域激发贡献包含在所述输入声音信号的相继帧中处理输入声音信号,以及计算要用在输入声音信号的当前帧中的子帧的数量,其中计算时域激发贡献还包含在当前帧中使用为所述当前帧计算的子帧的数量;
响应输入声音信号计算频域激发贡献;以及
相加时域激发贡献和频域激发贡献,以形成构成输入声音信号的编码形式的混合时域/频域激发。
56.按照权利要求55所述的混合时域/频域编码方法,其中计算当前帧中的子帧的数量响应输入声音信号的高频谱动态和可用位预算的至少一种。
57.一种解码使用如权利要求31到50的任何一项所述的混合时域/频域编码方法编码的声音信号的方法,其包含:
在时域中转换混合时域/频域激发;以及
响应在时域中转换的混合时域/频域激发通过合成滤波器合成声音信号。
58.按照权利要求57所述的解码的方法,其中在时域中转换混合时域/频域激发包含使用逆离散余弦变换。
59.按照权利要求57或58所述的解码的方法,其中合成滤波器是LP合成滤波器。
60.一种解码使用如权利要求55或56所述的混合时域/频域编码方法编码的声音信号的方法,其包含:
在时域中转换混合时域/频域激发;以及
响应在时域中转换的混合时域/频域激发通过合成滤波器合成声音信号。
CN201180062729.6A 2010-10-25 2011-10-24 低位速率和短延迟地编码普通音频信号 Active CN103282959B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US40637910P 2010-10-25 2010-10-25
US61/406,379 2010-10-25
PCT/CA2011/001182 WO2012055016A1 (en) 2010-10-25 2011-10-24 Coding generic audio signals at low bitrates and low delay

Publications (2)

Publication Number Publication Date
CN103282959A true CN103282959A (zh) 2013-09-04
CN103282959B CN103282959B (zh) 2015-06-03

Family

ID=45973717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180062729.6A Active CN103282959B (zh) 2010-10-25 2011-10-24 低位速率和短延迟地编码普通音频信号

Country Status (21)

Country Link
US (1) US9015038B2 (zh)
EP (3) EP2633521B1 (zh)
JP (1) JP5978218B2 (zh)
KR (2) KR101998609B1 (zh)
CN (1) CN103282959B (zh)
CA (1) CA2815249C (zh)
DK (2) DK3239979T3 (zh)
ES (2) ES2982115T3 (zh)
FI (1) FI3239979T3 (zh)
HK (1) HK1185709A1 (zh)
HR (1) HRP20240863T1 (zh)
HU (1) HUE067096T2 (zh)
LT (1) LT3239979T (zh)
MX (1) MX351750B (zh)
MY (1) MY164748A (zh)
PL (1) PL2633521T3 (zh)
PT (1) PT2633521T (zh)
RU (1) RU2596584C2 (zh)
SI (1) SI3239979T1 (zh)
TR (1) TR201815402T4 (zh)
WO (1) WO2012055016A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105612578A (zh) * 2013-10-11 2016-05-25 高通股份有限公司 用于产生高频带激励信号的混合因子的估计
CN106663442A (zh) * 2014-07-28 2017-05-10 弗劳恩霍夫应用研究促进协会 使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5947294B2 (ja) 2011-06-09 2016-07-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 通信端末装置、ネットワークノード及び通信方法
WO2013002696A1 (en) 2011-06-30 2013-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
JP6126006B2 (ja) * 2012-05-11 2017-05-10 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
MY178710A (en) * 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
CA2894625C (en) 2012-12-21 2017-11-07 Anthony LOMBARD Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
EP2962300B1 (en) * 2013-02-26 2017-01-25 Koninklijke Philips N.V. Method and apparatus for generating a speech signal
JP6111795B2 (ja) * 2013-03-28 2017-04-12 富士通株式会社 信号処理装置、及び信号処理方法
CN106409300B (zh) * 2014-03-19 2019-12-24 华为技术有限公司 用于信号处理的方法和装置
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
ES2904275T3 (es) 2015-09-25 2022-04-04 Voiceage Corp Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
US10638227B2 (en) 2016-12-02 2020-04-28 Dirac Research Ab Processing of an audio input signal
BR112020004909A2 (pt) 2017-09-20 2020-09-15 Voiceage Corporation método e dispositivo para distribuir, de forma eficiente, um bit-budget em um codec celp
CA3170065A1 (en) 2020-04-16 2021-10-21 Vladimir Malenovsky Method and device for speech/music classification and core encoder selection in a sound codec
US20240321285A1 (en) * 2021-01-08 2024-09-26 Voiceage Corporation Method and device for unified time-domain / frequency domain coding of a sound signal
WO2024110562A1 (en) * 2022-11-23 2024-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive encoding of transient audio signals

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1274456A (zh) * 1998-05-21 2000-11-22 萨里大学 语音编码器
CN1527282A (zh) * 2003-01-02 2004-09-08 三星电子株式会社 可伸缩地编解码音频数据的方法和装置
US20070225971A1 (en) * 2004-02-18 2007-09-27 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60118627T2 (de) * 2000-05-22 2007-01-11 Texas Instruments Inc., Dallas Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
RU2007109803A (ru) * 2004-09-17 2008-09-27 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство масштабируемого кодирования, устройство масштабируемого декодирования, способ масштабируемого кодирования, способ масштабируемого декодирования, устройство коммуникационного терминала и устройство базовой станции
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
RU2319222C1 (ru) * 2006-08-30 2008-03-10 Валерий Юрьевич Тарасов Способ кодирования и декодирования речевого сигнала методом линейного предсказания
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1274456A (zh) * 1998-05-21 2000-11-22 萨里大学 语音编码器
CN1527282A (zh) * 2003-01-02 2004-09-08 三星电子株式会社 可伸缩地编解码音频数据的方法和装置
US20070225971A1 (en) * 2004-02-18 2007-09-27 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SUAT YELDENER等: "A MIXED SINUSOIDALLY EXCITED LINEAR PREDICTION CODER AT 4 KB/S AND BELOW", 《SPEECH AND SIGNAL PROCESSING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105612578A (zh) * 2013-10-11 2016-05-25 高通股份有限公司 用于产生高频带激励信号的混合因子的估计
US10410652B2 (en) 2013-10-11 2019-09-10 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
CN105612578B (zh) * 2013-10-11 2019-10-11 高通股份有限公司 用于信号处理的方法和设备
CN106663442A (zh) * 2014-07-28 2017-05-10 弗劳恩霍夫应用研究促进协会 使用零输入响应以获得平滑过渡的音频解码器、方法及计算机程序
US11170797B2 (en) 2014-07-28 2021-11-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US11922961B2 (en) 2014-07-28 2024-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化

Also Published As

Publication number Publication date
FI3239979T3 (fi) 2024-06-19
HRP20240863T1 (hr) 2024-10-11
EP3239979A1 (en) 2017-11-01
HUE067096T2 (hu) 2024-09-28
WO2012055016A1 (en) 2012-05-03
KR101998609B1 (ko) 2019-07-10
US9015038B2 (en) 2015-04-21
DK3239979T3 (da) 2024-05-27
US20120101813A1 (en) 2012-04-26
MY164748A (en) 2018-01-30
HK1185709A1 (zh) 2014-02-21
EP4372747A3 (en) 2024-08-14
JP5978218B2 (ja) 2016-08-24
RU2596584C2 (ru) 2016-09-10
ES2982115T3 (es) 2024-10-14
JP2014500521A (ja) 2014-01-09
CN103282959B (zh) 2015-06-03
ES2693229T3 (es) 2018-12-10
SI3239979T1 (sl) 2024-09-30
KR20180049133A (ko) 2018-05-10
RU2013124065A (ru) 2014-12-10
DK2633521T3 (en) 2018-11-12
CA2815249C (en) 2018-04-24
MX351750B (es) 2017-09-29
EP2633521A1 (en) 2013-09-04
KR20130133777A (ko) 2013-12-09
LT3239979T (lt) 2024-07-25
PT2633521T (pt) 2018-11-13
EP2633521B1 (en) 2018-08-01
EP3239979B1 (en) 2024-04-24
WO2012055016A8 (en) 2012-06-28
EP2633521A4 (en) 2017-04-26
PL2633521T3 (pl) 2019-01-31
EP4372747A2 (en) 2024-05-22
KR101858466B1 (ko) 2018-06-28
MX2013004673A (es) 2015-07-09
TR201815402T4 (tr) 2018-11-21
CA2815249A1 (en) 2012-05-03

Similar Documents

Publication Publication Date Title
CN103282959B (zh) 低位速率和短延迟地编码普通音频信号
EP1747554B1 (en) Audio encoding with different coding frame lengths
US8548801B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
EP2144171B1 (en) Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
Vos et al. Voice coding with Opus
US20140343953A1 (en) Multi-mode audio codec and celp coding adapted therefore
Fuchs et al. Low delay LPC and MDCT-based audio coding in the EVS codec
US20190272839A1 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
CA2691993A1 (en) Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
JPH09319398A (ja) 信号符号化装置
US20240321285A1 (en) Method and device for unified time-domain / frequency domain coding of a sound signal
Ragot et al. A 8-32 kbit/s scalable wideband speech and audio coding candidate for ITU-T G729EV standardization
Taddei et al. A Scalable Three Bit Rate (8, 14.2, and 24 kbit/s) Audio Coder
Nemer et al. Perceptual Weighting to Improve Coding of Harmonic Signals
Czyzewski et al. Speech codec enhancements utilizing time compression and perceptual coding
CA3157876A1 (en) Methods and system for waveform coding of audio signals with a generative model
Galand et al. Complexity reduction of CELP coders
Laaksonen et al. Using noise reduction in mode selection and pitch search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1185709

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1185709

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200911

Address after: California, USA

Patentee after: Shengdai EVs Limited

Address before: Kaisan ohokkatsu

Patentee before: Voisage