CN102272831B - 基于峰值检测的选择性缩放掩码计算 - Google Patents

基于峰值检测的选择性缩放掩码计算 Download PDF

Info

Publication number
CN102272831B
CN102272831B CN2009801533119A CN200980153311A CN102272831B CN 102272831 B CN102272831 B CN 102272831B CN 2009801533119 A CN2009801533119 A CN 2009801533119A CN 200980153311 A CN200980153311 A CN 200980153311A CN 102272831 B CN102272831 B CN 102272831B
Authority
CN
China
Prior art keywords
signal
vector
convergent
encode
divergent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009801533119A
Other languages
English (en)
Other versions
CN102272831A (zh
Inventor
詹姆斯·P·阿什利
乌达·米塔尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN102272831A publication Critical patent/CN102272831A/zh
Application granted granted Critical
Publication of CN102272831B publication Critical patent/CN102272831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

检测接收到的音频信号的重构音频向量
Figure DPA00001392237100011
中的峰值集合,并基于所检测到的峰值集合来生成缩放掩码
Figure DPA00001392237100012
至少基于缩放掩码和表示增益向量的索引j来生成增益向量g*。利用增益向量来缩放所重构的音频信号,以产生缩放的重构音频信号。基于音频信号和缩放的重构音频信号来生成失真。输出基于所生成的失真的增益向量的索引。

Description

基于峰值检测的选择性缩放掩码计算
相关申请的交叉引用
本申请涉及由摩托罗拉公司与本申请一起共同拥有的下面的美国申请:申请No-12/345165,题目为“METHOD AND APPARATUS FORGENERATING AN ENHANCEMENT LAYER WITHIN AMULTIPLE-CHANNEL AUDIO CODING SYSTEM”(律师档案编号No.CS36250AUD);申请No.12/345141,题目为“SELECTIVE SCALINGMASK COMPUTATION BASED ON PEAK DETECTION”(律师档案编号No.CS36251AUD);以及申请No.12/345117,题目为“METHODAND APPARATUS FOR GENERATING AN ENHANCEMENT LAYERWITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM”(律师档案编号No.CS36627AUD),这些申请都与本申请在同一日期2008年12月29日提交。
技术领域
本发明总体上涉及通信系统,并且更具体地涉及在这样的通信系统中代码化语音和音频信号。
背景技术
数字语音和音频信号的压缩是公知的。通常需要压缩以有效地在通信信道上发射信号,或在诸如固态存储设备或计算机硬盘的数字媒体设备上存储压缩的信号。虽然存在许多压缩(或“代码化”)技术,但是已经保持对于数字语音代码化非常流行的一种方法被称为代码激励线性预测(CELP),它是“合成式分析”代码化算法的家族中的一个。合成式分析通常指的是下述代码化处理:通过该代码化处理,数字模型的多个参数用于合成与输入信号作比较并且分析失真的候选信号集合。然后,发射或存储获得最低失真的参数集合,并且该获得最低失真的参数集合最终用于重构原始输入信号的估计。CELP是一种使用一个或多个码本的特定的合成式分析方法,所述一个或多个码本的每一个必要地包括响应于码本索引而从码本检索到的代码向量集合。
在现代CELP代码化器中,对于以合理地低的数据率来维持高质量语音和音频再现存在问题。这对于没有很好地适合于CELP语音模型的音乐或其他通用音频信号而言尤其如此。在该情况下,模型失配可能引起采用这样的方法的装置的最终用户不能接受的严重变差的音频质量。因此,仍然需要改善低比特率的CELP性语音代码化器的性能,特别是对于音乐和其他非语音类型的输入而言。
附图说明
在附图中,在各个视图中,相似的附图标记指的是相同或在功能上类似的元件,附图与下面的详细描述一起被合并在说明书中并且形成说明书的一部分,并且用于进一步说明包括所要求保护的发明的思想的各个实施例,并且用于解释那些实施例的各种原理和优点。
图1是现有技术的嵌入语音/音频压缩系统的框图,
图2是图1的增强层编码器的更详细的示例。
图3是图1的增强层编码器的更详细的示例。
图4是增强层编码器和解码器的框图。
图5是多层嵌入式代码化系统的框图。
图6是层4编码器和解码器的框图。
图7是示出图4和图6的编码器的操作的流程图。
图8是现有技术的嵌入语音/音频压缩系统的框图。
图9是图8的增强层编码器的更详细的示例。
图10是根据各个实施例的增强层编码器和解码器的框图。
图11是根据各个实施例的增强层编码器和解码器的框图。
图12是根据各个实施例的多信道音频信号编码的流程图。
图13是根据各个实施例的多信道音频信号编码的流程图。
图14是根据各个实施例的多信道音频信号的解码的流程图。
图15是根据各个实施例的基于掩码生成的峰值检测的频率曲线。
图16是根据各个实施例的使用峰值掩码生成的核心层缩放的频率曲线。
图17-19是图示根据各个实施例的、用于基于峰值检测使用掩码生成来编码和解码的方法的流程图。
本领域技术人员将理解,出于简单和清楚的目的而图示附图中的元素,并且这些元素不一定按比例绘制。例如,在附图中的元素中的一些元素的尺寸可能相对于其他元素被夸大,以有助于改善对各个实施例的理解。另外,说明书和附图不一定要求所说明的顺序。将进一步理解,可以以特定的发生顺序来描述或说明特定的动作和/或步骤,同时本领域的技术人员将明白,实际上不要求相对于顺序而言的这样的特殊性。在附图中已经根据情况通过常规符号表示了装置和方法组件,仅示出了与理解各个实施例相关的那些具体细节,以便不因为对于受益于在此说明的本领域内的普通技术人员将容易显而易见的细节而混淆本公开。因此,将理解,为了说明的简单和清楚,可能不描述在商业上可行的实施例中有用或必需的常见和公知的元素,以便促进对这些各个实施例的较少妨碍的观点。
具体实施方式
为了解决上述需要,在此描述了一种用于在音频代码化系统内生成增强层的方法和装置。在操作期间,要代码化的输入信号被接收和代码化,以产生代码化的音频信号。然后,使用多个增益值来缩放代码化的音频信号,以产生多个缩放的代码化音频信号,每一个缩放的代码化音频信号具有相关联的增益值,并且确定在输入信号和多个缩放的代码化音频信号的每一个之间存在多个误差值。然后,选择与缩放的代码化音频信号相关联的增益值,使得在输入信号和缩放的代码化音频信号之间存在较低的误差值。最后,将该低误差值与增益值一起作为增强层的一部分发射到代码化音频信号。
在图1中示出了现有技术的嵌入语音/音频压缩系统。输入音频s(n)首先被核心层编码器120处理,对于这些目的而言,核心层编码器120可以是CELP型语音代码化算法。编码的比特流被发射到信道125,并且被输入到本地核心层解码器115,在此,生成了重构的核心音频信号sc(n)。然后,增强层编码器120用于基于信号s(n)和sc(n)的某个比较来代码化附加信息,并且可以可选地使用来自核心层解码器115的参数。如在核心层解码器115中那样,核心层解码器130将核心层比特流参数转换为核心层音频信号
Figure BPA00001392237400041
然后,增强层解码器135使用来自信道125的增强层比特流和信号来产生增强的音频输出信号
这样的嵌入式代码化系统的主要优点是特定的信道125可能不能持续地支持与高质量音频代码化算法相关联的带宽要求。然而,嵌入式代码化器允许当增强层比特流被丢失或损坏时从信道125接收部分比特流(例如,仅核心层比特流),以例如仅产生核心输出音频。然而,在嵌入式与非嵌入式代码化器之间并且也在不同的嵌入式代码化优化目的之间在质量上有折衷。也就是,较高质量的增强层代码化可以有助于实现在核心层和增强层之间的较好的平衡,并且也降低整体数据率以获得较好的传输特性(例如,减少的拥塞),这可能导致增强层的较低的分组误差率。
在图2中给出了现有技术增强层编码器120的更详细的示例。在此,误差信号生成器210由加权差信号组成,该加权差信号被变换到MDCT(修改的离散余弦变换)域中以用于由误差信号编码器220进行处理。误差信号E被给出为:
E=MDCT{W(s-sc)}    (1)
其中,W是基于来自核心层解码器115的LP(线性预测)滤波系数A(z)的感知加权矩阵,s是来自输入音频信号s(n)的采样的向量(即,帧),并且sc是来自核心层解码器115的采样的对应向量。在ITU-T推荐G.729.1中描述了示例MDCT处理。然后,误差信号E被误差信号编码器220处理,以产生代码字iE,该代码字iE随后被发射到信道125。对于这个示例,重要的是注意,误差信号编码器120仅被提供有一个误差信号E,并且输出一个相关联的代码字iE。其原因将在下面变得显而易见。
然后,增强层解码器135从信道125接收编码的比特流,并且适当地解复用该比特流以产生代码字iE。误差信号解码器230使用代码字iE来重构增强层误差信号
Figure BPA00001392237400051
然后由信号组合器240将该增强层误差信号
Figure BPA00001392237400052
与核心层输出音频信号
Figure BPA00001392237400053
组合如下,以产生增强层音频输出信号
s ^ = s c + W - 1 MDCT - 1 { E ^ } - - - ( 2 )
其中,MDCT-1是逆MDCT(包括重叠相加),并且W-1是逆感知加权矩阵。
在图3中示出了增强层编码器的另一个示例。在此,误差信号生成器315的误差信号E的生成涉及自适应预缩放,其中,执行对于核心层音频输出sc(n)的一些修改。这个处理导致生成一定数目的比特,该一定数目的比特在增强层编码器120中被示出为代码字is
另外,增强层编码器120示出了向误差信号编码器320输入的输入音频信号s(n)和变换的核心层输出音频Sc。这些信号用于构造用于增强层误差信号E的改善的代码化的心理声学模型。然后,代码字is和iE被复用器(MUX)325复用,并且然后被发送到信道125以用于由增强层解码器135进行的随后的解码。代码化的比特流被解复用器335接收,解复用器335将比特流分离为分量is和iE。然后,代码字iE被误差信号解码器340使用以重构增强层误差信号
Figure BPA00001392237400056
信号组合器345使用缩放比特is来以某种方式缩放信号并且然后将结果与增强层误差信号
Figure BPA00001392237400058
组合以产生增强的音频输出信号
Figure BPA00001392237400061
在图4中给出了本发明的第一实施例。该图示出了通过缩放单元415来接收核心层输出信号sc(n)的增强层编码器410。预定的增益集合{g}用于产生多个缩放的核心层输出信号{S},其中,gj和Sj是相应的集合的第j个候选。在缩放单元416内,第一实施例将在(MDCT)域中的信号sc(n)处理为:
Sj=Gj×MDCT{Wsc};0≤j<M    (3)
其中,W可以是某个感知加权矩阵,sc是来自核心层解码器115的采样的向量,MDCT是本领域公知的操作,并且Gj可以是通过利用增益向量候选gj而形成的增益矩阵,并且其中M是增益向量候选的数目。在第一实施例中,Gj使用向量gj作为对角并且在其他任何位置使用零(即,对角矩阵),但是存在许多可能。例如,Gj可以是带状矩阵或甚至可以是简单的标量乘以单位矩阵I。替代地,将信号Sj留在时域中可能有一些优点,或可能有下述情况:有利的是,将音频变换到不同的域,诸如离散傅立叶变换(DFT)域。许多这样的变换在本领域中是公知的。在这些情况下,缩放单元可以输出基于相应的向量域的适当的Sj
但是在任何情况下,将核心层输出音频缩放的主要原因是补偿模型失配(或某个其他代码化缺陷),模型失配可能引起在输入信号和核心层编解码器之间的显著差别。例如,如果输入音频信号主要是音乐信号,并且核心层编解码器基于语音模型,则核心层输出可能包含严重失真的信号特性,在该情况下,从声音质量的角度看,在通过一个或多个增强层来应用信号的补充代码化之前选择地减少这个信号分量的能量是有益的。
然后,可以将增益缩放的核心层音频候选向量Sj和输入音频s(n)用作误差信号生成器420的输入。在示例性实施例中,输入音频信号s(n)被转换为向量S,使得S和Sj对应地对齐。也就是,表示s(n)的向量s与sc在时间(相位)上对齐,并且可以应用对应的操作,使得在这个实施例中:
Ej=MDCT{Ws}-Sj;0≤j<M    (4)
这个表达式产生多个误差信号向量Ej,所述多个误差信号向量Ej表示在MDCT频谱域中在输入音频和增益缩放的核心层输出音频之间的加权差。在考虑了不同域的其他实施例中,可以基于相应的处理域来修改上面的表达式。
然后,根据本发明的第一实施例,增益选择器425用于评估多个误差信号向量Ej,以产生最佳的误差向量E*、最佳增益参数g*,并且随后产生对应的增益索引ig。增益选择器425可以使用多种方法来确定最佳参数E*和g*,这可能涉及闭环方法(例如,失真度量的最小化)、开环方法(例如,启发式分类、模型性能估计等)或两种方法的组合。在该示例性实施例中,可以使用偏置的失真度量,其被给出为在原始音频信号向量S和复合重构的信号向量之间的偏置能量差:
j * = arg min 0 &le; j < M { &beta; j &CenterDot; | | S - ( S j + E ^ j ) | | 2 } , - - - ( 5 )
其中,
Figure BPA00001392237400072
可以是误差信号向量Ej的量化估计,并且βj可以是用于补充选择感知最佳增益误差索引j*的判定的偏置项。在题目为APPARATUS AND METHOD FOR LOW COMPLEXITYCOMBINATORIAL CODING OF SIGNALS的美国专利申请No.11/531122中给出了用于信号向量的向量量化的示例性方法,但是许多其他方法是可能的。在认识到Ej=S-Sj的情况下,等式(5)可以被重写为:
j * = arg min 0 &le; j < M { &beta; j &CenterDot; | | ( E j - E ^ j ) | | 2 } - - - ( 6 )
在这个表达式中,
Figure BPA00001392237400082
项表示在未量化的误差信号和量化的误差信号之间的差的能量。为了清楚,这个数量可以被称为“残余能量”,并且进一步可以用于评估“增益选择准则”,其中,选择了最佳增益参数g*。在等式(6)中给出了一种这样的增益选择准则,但是许多准则是可能的。
对于偏置项βj的需要可能起因于下述情况:在等式(3)和(4)中的误差加权函数W可能不足以产生在向量
Figure BPA00001392237400083
上的等同地可感知的失真。例如,虽然误差加权函数W可以用于尝试将误差频谱“白化”到一定程度,但是因为人耳对于失真的感知,将更多的加权置于低频上可能有特定的优点。作为在低频中的提高的误差加权的结果,可能通过增强层来不足地建模(under-modeled)高频信号。在这些情况下,将失真度量向不衰减Sj的高频分量的gj的值偏置有直接的益处,使得高频的不足建模不会导致在最后重构的音频信号中的讨厌的或不自然的声音人工产物。一个这样的示例将是未出声的语音信号的情况。在该情况下,输入音频通常由从来自人嘴的空气湍流产生的中频至高频的噪声类信号构成。可以是核心层编码器不直接地代码化这种类型的波形,而是可以使用噪声模型来生成类似的声音音频信号。这可能导致在输入音频和核心层输出音频信号之间的通常低的相关性。然而,在这个实施例中,误差信号向量Ej基于在输入音频和核心层音频输出信号之间的差。由于这些信号可能不很好地相关,所以误差信号Ej的能量可能不一定低于输入音频或核心层输出音频。在该情况下,在等式(6)中的误差的最小化可能导致增益缩放太积极,这可能导致可能的可听的人工产物。
在另一种情况下,偏置因子βj可以基于输入音频和/或核心层输出音频信号的其他信号特性。例如,信号的频谱的峰值与平均值比率可以给出那个信号的谐波含量的指示。诸如语音和特定类型的音乐的信号可以具有高谐波含量,并且因此具有高的峰值与平均值比率。然而,通过语音编解码器处理的音乐信号可以因为代码化模型的失配而导致不良的质量,并且结果,核心层输出信号频谱当与输入信号频谱作比较时可以具有减小的峰值与平均值比率。在该情况下,可以有益的是,在最小化处理中减少偏置量,以便允许核心层输出音频被增益缩放到较低的能量,由此允许增强层代码化对于复合输出音频具有更显著的影响。相反,特定类型的语音或音乐输入信号可以展现较低的峰值与平均值比率,在该情况下,可能将信号感知为更吵闹,并且可能因此通过提高误差偏置而受益于核心层输出音频的较小缩放。用于生成用于βj的偏置因子的函数的示例被给出为:
Figure BPA00001392237400091
其中,λ可以是某个阈值,并且用于向量φy的峰值与平均值比率可以被给出为:
&phi; y = max { | y k 1 k 2 | } 1 k 2 - k 1 + 1 &Sigma; k = k 1 k 2 | y ( k ) | - - - ( 8 )
并且,其中,
Figure BPA00001392237400093
是y(k)的向量子集,使得
Figure BPA00001392237400094
k1≤k≤k2
一旦从等式(6)确定了最佳增益索引j*,则生成相关联的代码字ig,并且将最佳误差向量E*发送到误差信号编码器430,其中,E*被代码化为适合于(通过复用器440)与其他代码字复用的形式,并且被发射以由对应的解码器使用。在示例性实施例中,误差信号编码器408使用因子脉冲代码化(FPC)。从处理复杂性视点看,这种方法是有益的,因为与向量E*的代码化相关联的枚举处理独立于用于生成
Figure BPA00001392237400095
的向量生成处理。
增强层解码器450逆转这些处理,以产生增强的音频输出更具体地,解码器450接收ig和iE,解复用器455将iE发送到误差信号解码器460,其中,从代码字导出最佳误差向量E*。最佳误差向量E*被传递到信号组合器465,其中,如在等式(2)中那样修改所接收到的
Figure BPA00001392237400102
以产生
Figure BPA00001392237400103
本发明的第二实施例涉及如图5中所示的多层嵌入代码化系统。在此,可以看出,存在对于这个示例给出的五个嵌入层。层1和2可以都是基于语音编解码的,并且层3、4和5可以是MDCT增强层。因此,编码器502和503可以利用语音编解码器来产生和输出已编码的输入信号s(n)。编码器510、610和514包括增强层编码器,其中每一个向已编码的信号输出不同的增强。与前一个实施例类似,可以将用于层3的误差信号向量(编码器510)给出为:
E3=S-S2    (9)
其中,S=MDCT{Ws}是加权变换的输入信号,并且S2=MDCT{Ws2}是从层1/2解码器506生成的已加权变换的信号。在这个实施例中,层3可以是低速率量化层,并且同样,可能有用于代码化对应的量化误差信号
Figure BPA00001392237400104
的相对较少的比特。为了在这些约束下提供良好的质量,仅可以量化在E3内的系数的一部分。要代码化的系数的位置可以是固定的或可以是可变的,但是如果允许变化,则可能要求向解码器发送附加信息,以标识这些位置。如果例如代码化的位置的范围在ks开始并且在ke结束,其中0≤ks<ke<N,则量化的误差信号向量
Figure BPA00001392237400105
可以包含仅在那个范围内的非零值和在那个范围之外的位置的零。根据所使用的代码化方法,位置和范围信息也可以隐含的。例如,在音频代码化中公知的是,频带可以在感知上被认为是重要的,并且信号向量的代码化可以聚焦在那些频率上。在这些情况下,代码化的范围可以是可变的,并且可以不跨越连续的频率集合。但是,在任何速率,一旦这个信号被量化,则复合代码化的输出频谱可以被构造为:
S 3 = E ^ 3 + S 2 - - - ( 10 )
其然后被用作层4编码器610的输入。
层4编码器610类似于先前实施例的增强层编码器410。使用增益向量候选gj,将对应的误差向量描述为:
E4(j)=S-GjS3    (11)
其中,Gj可以是增益矩阵,其中,以向量gj作为对角分量。然而,在当前实施例中,增益向量gj可以以下面的方式来与已量化的误差信号向量
Figure BPA00001392237400112
相关。由于已量化的误差信号向量
Figure BPA00001392237400113
可能在频率范围上受限,例如,在向量位置ks开始,并且在向量位置ke结束,所以假定层3输出信号S3在那个范围内被非常精确地代码化。因此,根据本发明,基于层3误差信号向量的代码化位置ks和ke来调整增益向量gj。更具体地,为了保留在那些位置处的信号完整性,可以将对应的单独增益元素设置为常数值α。也就是:
Figure BPA00001392237400114
其中,通常,0≤γj(k)≤1和gj(k)是第j个候选向量的第k位置的增益。在示例性实施例中,常数值是1(α=1),然而,许多值是可能的。另外,频率范围可以跨越多个开始位置和结束位置。也就是,可以将等式(12)分段为基于误差信号的某个函数的变化的增益的非连续范围,并且可以将其更一般地写为:
Figure BPA00001392237400116
对于这个示例,当在先前量化的误差信号
Figure BPA00001392237400121
中的对应位置是非零时,使用固定增益α来生成gj(k),并且当在
Figure BPA00001392237400122
中的对应的位置是零时,使用增益函数γj(k)。一个可能的增益函数可以被定义为:
Figure BPA00001392237400123
其中,Δ是步长(例如,Δ≈2.2dB),α是常数,M是候选的数目(例如,M=4,可以仅使用2个比特来表示它),并且,kl和kh分别是低频和高频截止频率,在它们上,可能发生增益减少。参数kl和kh的引入在其中仅在特定的频率范围上期望缩放的系统中有用。例如,在给定的实施例中,高频可能未被核心层足够地建模,因此在高频带内的能量可能固有地低于在输入音频信号中的能量。在该情况下,缩放在那个区域信号中的层3输出有很少的益处或没有益处,因为整体误差能量可能作为结果增加。
总而言之,多个增益向量候选gj基于先前代码化的信号向量的代码化元素的某个函数,在该情况下,该向量的代码化元素为
Figure BPA00001392237400124
这可以概括地表达为:
g j ( k ) = f ( k , E ^ 3 ) - - - ( 15 )
在图5的右手侧上示出对应的解码器操作。当接收到代码化的比特流的各个层(i1至i5)时,在核心层(层1)解码器上的增强层的分级上建立较高质量的输出信号。也就是,对于这个特定实施例,在前两个层由时域语音模型代码化(例如,CELP)构成并且剩余的三个层由变换域代码化(例如,MDCT)构成时,根据下面来生成系统的最后输出
Figure BPA00001392237400126
s ^ ( n ) = s ^ 1 ( n ) ; s ^ 2 ( n ) = s ^ 1 ( n ) + e ^ 2 ( n ) ; s ^ 3 ( n ) = W - 1 MDCT - 1 { S ^ 2 + E ^ 3 } ; s ^ 4 ( n ) = W - 1 MDCT - 1 { G j &CenterDot; ( S ^ 2 + E ^ 3 ) + E ^ 4 } ; s ^ 5 ( n ) = W - 1 MDCT - 1 { G j &CenterDot; ( S ^ 2 + E ^ 3 ) + E ^ 4 + E ^ 5 } ; - - - ( 16 )
其中,
Figure BPA00001392237400132
是层2时域增强层信号,并且,
Figure BPA00001392237400133
是与层2音频输出
Figure BPA00001392237400134
相对应的加权MDCT向量。在这个表达式中,可以从接收到的连续比特流层的最高级别来确定整体输出信号
Figure BPA00001392237400135
在这个实施例中,假定较低级层具有从信道适当地接收到的较高概率,因此,代码字集{i1}、{i1 i2}、{i1 i2 i3}等确定在等式(16)中的增强层解码的适当级别。
图6是示出层4编码器610和解码器650的框图。在图6中示出的编码器和解码器与在图4中示出的那些类似,除了分别经由频率选择性增益生成器630和660来导出由缩放单元615和670使用的增益值。在操作层3期间,音频输出S3被从层3编码器输出,并且被缩放单元615接收。另外,层3误差向量被从层3编码器510输出,并且被频率选择性增益生成器630接收。如上所述,由于量化的误差信号向量
Figure BPA00001392237400137
可能在频率范围上受限,所以基于例如如图12中所示的位置ks和ke或在等式13中的更一般的表达式来调整增益向量gj
缩放的音频Sj从缩放单元615输出,并且被误差信号生成器620接收。如上所述,误差信号生成器620接收输入音频信号S,并且确定由缩放单元615利用的每一个缩放向量的误差值Ej。这些误差向量与在基于最佳增益值g*来确定误差向量和特定误差E*中使用的增益值一起被传递到增益选择器电路635。用于表示最佳增益g*的代码字(ig)从增益选择器635输出,并且与最佳误差向量E*一起被传递到误差信号编码器640,其中确定和输出了代码字iE。ig和iE被输出到复用器645,并且经由信道125被发射到层4解码器650。
在层4解码器650的操作期间,ig和iE从信道125接收,并且被解复用器655解复用。根据编码器610的对应的方法,增益代码字ig和层3误差向量
Figure BPA00001392237400141
被用作频率选择性增益生成器660的输入,以产生增益向量g*。然后,在缩放单元670内,将增益向量g*应用到层3重构的音频向量
Figure BPA00001392237400142
并且缩放单元670的输出然后在信号组合器675与通过代码字iE的解码从误差信号解码器655获得的层4增强层误差向量E*相组合,以产生层4重构的音频输出
Figure BPA00001392237400143
如图所示。
图7是根据本发明的第一和第二实施例的编码器的操作的流程图700。如上所述,两个实施例都利用增强层,该增强层利用多个缩放值来缩放已编码的音频,并且然后选择导致最低误差的缩放值。然而,在本发明的第二实施例中,利用频率选择性增益生成器630来生成增益值。
逻辑流在框710开始,其中核心层编码器接收要代码化的输入信号,并且将该输入信号代码化以产生已代码化音频信号。增强层编码器410接收已代码化音频信号(sc(n)),并且,缩放单元415利用多个增益值来缩放代码化音频信号,以产生多个缩放的代码化音频信号,其中每一个具有相关联的增益值(框720)。在框730,误差信号生成器420确定在输入信号和多个缩放的代码化音频信号中的每一个之间存在的多个误差值。然后,增益选择器425从多个增益值选择增益值(框740)。如上所述,增益值(g*)与导致在输入信号和缩放的代码化音频信号之间存在低误差值的缩放的代码化音频信号相关联。最后,在框750,发射机440将低误差值(E*)与增益值(g*)一起作为增强层的一部分发射到代码化音频信号。本领域的普通技术人员将认识到,在传输之前正确地编码了E*和g*两者。
如上所述,在接收机侧处,将与增强层一起接收已代码化音频信号。增强层是对于包括增益值(g*)和与该增益值相关联的误差信号(E*)的已代码化音频信号的增强。
用于立体声的核心层缩放
在上面的描述中,描述了一种嵌入式代码化系统,其中,每一个层代码化单信道信号。现在,用于代码化立体声或其他多信道信号的嵌入式代码化系统。为了简洁,描述了由两个音频输入(源)构成的立体声信号的背景中的技术;然而,在此描述的示例性实施例可以被容易地扩展到其中立体声信号具有超过两个音频输入的情况,在多信道音频输入的情况下就是如此。为了说明而不是限制,两个音频输入是由左信号(sL)和右信号(sR)构成的立体声信号,其中,sL和sR是用于表示音频数据的帧的n维列向量。再一次为了简洁,将详细讨论由两个层——即核心层和增强层——构成的嵌入式代码化系统。所提出的思想可以容易地被扩展到多层嵌入式代码化系统。也不可以嵌入编解码器,即,它可以仅具有一个层,那个编解码器的比特的一些专用于立体声,并且剩余的比特用于单信道信号。
已知嵌入式立体声编解码器,该嵌入式立体声编解码器由简单地代码化单信道信号的核心层和代码化较高频率或立体声信号的增强层构成。在那个受限的情形下,核心层代码化从sL和sR的组合获得的单信道信号(s),以产生代码化的单信道信号设H是用于生成单信道信号的2×1组合矩阵,即,
s=(sL sR)H    (17)
注意,在等式(17)中,sR可以是右音频信号的延迟版本,而不仅是右信道信号。例如,可以计算用于最大化sL和延迟版本sR的相关性的延迟。如果矩阵H是[0.5 0.5]T,则等式17导致相应的右和左信道的相等加权,即s=0.5sL+0.5sR。在此提供的实施例不限于代码化单信道信号的核心层和代码化立体声信号的增强层。嵌入式编解码器的核心层以及增强层可以代码化多信道音频信号。由核心层多信道代码化的在多信道音频信号中的信道的数目可以小于在可以由增强层代码化的多信道音频信号中的信道的数目。设(m,n)是分别要由核心层和增强层代码化的信道的数目。设s1,s2,s3,...,sn是要由嵌入式系统代码化的n个音频信道的表示。要由核心层代码化的m个信道从这些被导出,并且被获得为:
[s1 s2 ... sm]=[s1 s2 ... sn]H,(17a)
其中,H是n×m矩阵。
如上所述,核心层编码单信道信号s,以产生核心层代码化的信号
Figure BPA00001392237400161
为了从
Figure BPA00001392237400162
生成立体声分量的估计,计算了平衡因子。这个平衡因子被计算为:
w L = s L T s s T s , w R = s R T s s T s - - - ( 18 )
可以示出,如果组合矩阵H是[0.5 0.5]T,则
wL=2-wR    (19)
注意到,该比率实现了仅一个参数的量化,并且可以容易地从第一个提取另一个。现在,将立体声输出被计算为
s ^ L = w L s ^ , s ^ R = w R s ^ - - - ( 20 )
在随后的部分中,我们将作用于频域,而不是时域。因此,以大写字母来表示在频域中的对应的信号,即,S、
Figure BPA00001392237400167
SL、SR
Figure BPA00001392237400168
Figure BPA00001392237400169
分别是s、
Figure BPA000013922374001610
sL、sR
Figure BPA000013922374001611
Figure BPA000013922374001612
的频域表示。使用在频域中的项来计算在频域中的平衡因子,并且通过下式来给出该平衡因子:
W L = S L T S S T S , W R = S R T S S T S - - - ( 21 )
并且
S ^ L = W L S ^ , S ^ R = W R S ^ - - - ( 22 )
在频域中,可以将向量进一步分割为非重叠子向量,即,维度n的向量S可以被分割为维度m1,m2,...mt的t个子向量S1,S,...,St,使得
&Sigma; k = 1 t m k = n . - - - ( 23 )
在该情况下,可以对于不同的子向量计算不同的平衡因子,即,
W Lk = S Lk T S k S k T S k , W Rk = S Rk T S k S k T S k - - - ( 24 )
在该实例中的平衡因子独立于增益考虑。
现在参见图8和9,演示了与立体声和其他多信道信号相关的现有技术的附图。图8的现有技术的嵌入式语音/音频压缩系统800类似于图1,但是具有多个音频输入信号,在这个示例中,所述多个音频输入信号被示出为左和右立体声输入信号S(n)。这些输入音频信号被馈送到组合器810,组合器810产生输入音频s(n),如图所示。所述多个输入信号也被提供到增强层编码器820,如图所示。在解码侧上,增强层解码器830产生增强输出音频信号
Figure BPA00001392237400178
如图所示。
图9图示了可以在图8中使用的现有技术的增强层编码器900。所述多个音频输入与所示的核心层输出音频信号一起被提供到平衡因子生成器。增强层编码器910的平衡因子生成器920接收多个音频输入,以产生信号iB,该信号iB被向前传递到复用器325,如图所示。信号iB是平衡因子的表示。在该优选实施例中,iB是用于表示平衡因子的比特序列。在解码器侧上,这个信号iB被平衡因子解码器940接收,平衡因子解码器940产生平衡因子元素WL(n)和WR(n),如图所示,所示的信号组合器950接收平衡因子元素WL(n)和WR(n)。
多信道平衡因子计算
如上所述,在许多情形下,用于多单道信号的代码化的编解码器被设计用于单信道语音,并且每当它用于代码化不被编解码器模型完全支持的信号时导致代码化模型噪声。音乐信号和其他非语音类信号是未由基于语音模型的核心层编解码器正确地建模的信号中的一些。参考图1-7的上面的描述提出了向由核心层代码化的信号应用频率选择性增益。缩放被优化以最小化在音频输入和缩放的代码化信号之间的特定失真(误差值)。如上所述的方法对于单信道信号作用良好,但是可能对于当增强层代码化立体声或其他多信道信号时应用核心层缩放不是最佳的。
由于从两个或更多的立体声音频输入的组合获得了诸如立体声信号的多信道信号的单信道分量,所以组合信号s也可能不符合单信道语音模型;因此,当代码化组合信号时,核心层编解码器可能产生噪声。因此,需要实现在嵌入式代码化系统中的核心层代码化信号的缩放的方法,由此减少由核心层生成的噪声。在上述的单信道信号方法中,获得频率选择性缩放的特定失真度量基于在单信道信号中的误差。在上面的等式(11)中示出了这个误差E4(j)。然而,仅单信道信号的失真不足以改善立体声通信系统的质量。在等式(11)中包含的缩放可以是通过单位(1)的缩放因子或任何其他标识的函数。
对于立体声信号,失真度量应当捕获右信道和左信道两者的失真。设EL和ER分别是用于左信道和右信道的误差向量,并且通过下式被给出:
E L = S L - S ^ L , E R = S R - S ^ R - - - ( 25 )
在现有技术中,例如,如在AMR-WB+标准中所述,这些误差向量被计算为:
E L = S L - W L &CenterDot; S ^ , E R = S R - W R &CenterDot; S ^ . - - - ( 26 )
现在,我们考虑频率选择性增益向量gj(0≤j<M)被应用到
Figure BPA00001392237400195
的情况。这个频率选择性增益向量以矩阵形式被表示为Gj,其中,Gj是具有对角元素gj的对角矩阵。对于每一个向量Gj,误差向量被计算为:
E L ( j ) = S L - W L &CenterDot; G j &CenterDot; S ^ , E R ( j ) = S R - W R &CenterDot; G j &CenterDot; S ^ - - - ( 27 )
通过
Figure BPA00001392237400198
项来给出立体声信号的估计。可以看出,增益矩阵G可以是单位矩阵(1),或它可以是任何其他对角矩阵;可以认识到,每一个可能的估计可以对于每一个缩放信号起作用。
被最小化以改善立体声的质量的失真度量ε是两个误差向量的函数,即
εj=f(EL(j),ER(j))    (28)
可以看出,失真值可以由多个失真度量构成。
通过下式来给出选择的频率选择性增益向量的索引j:
j * = arg min 0 &le; j < M &epsiv; j - - - ( 29 )
在示例性实施例中,失真度量是通过下式来给出的均方失真:
εj=‖EL(j)‖2+‖ER(j)‖2  (30)
或者,它可以是通过下式给出的加权或偏置的失真:
εj=BL‖EL(j)‖2+BR‖ER(j)‖2  (31)
偏置BL和BR可以是左信道和右信道能量的函数。
如上所述,在频域中,向量可以进一步被分割为非重叠的子向量。为了扩展所提出的技术以包括将频域向量分割为子向量,对于每一个子向量计算在(27)中使用的平衡因子。因此,通过由下式给出的误差子向量的级联来形成频率选择性增益中的每一个的误差向量EL和ER
E Lk ( j ) = S Lk - W Lk &CenterDot; G jk &CenterDot; S ^ k , E Rk ( j ) = S Rk - W Rk &CenterDot; G jk &CenterDot; S ^ k - - - ( 32 )
在(28)中的失真度量ε现在是通过以上的误差子向量的级联而形成的误差向量的函数。
计算平衡因子
使用现有技术(等式21)生成的平衡因子独立于核心层的输出。然而,为了最小化在(30)和(31)中给出的失真度量,可能有益的是,也计算平衡因子以最小化对应的失真。现在,平衡因子WL和WR可以被计算为:
W L ( j ) = S L T G j S ^ | | G j S ^ | | 2 , W R ( j ) = S R T G j S ^ | | G j S ^ | | 2 . - - - ( 33 )
其中,可以看出,平衡因子独立于增益,例如,如在图11的附图中所示。这个等式最小化在等式(30)和(31)中的失真。使用这样的平衡因子的问题是现在:
WL(j)≠2-WR(j),(34)
因此,可能需要分离的比特字段来量化WL和WR。通过将约束WL(j)=2-WR(j)置于所述最佳之上来避免这一点。通过这个约束,通过下式来给出等式(30)的最佳解:
Figure BPA00001392237400211
WR(j)=2-WL(j)(35)
其中,平衡因子独立于所示的增益项;附图的图10图示了独立的平衡因子。如果偏置因子BL和BR是单位的,则
Figure BPA00001392237400212
WR(j)=2-WL(j)  (36)
在等式(33)和(36)中的项表示在缩放的代码化音频信号和多信道音频信号的音频信号中的至少一个之间的相关性值。
在立体声代码化中,声音的来源的方向和位置可能比均方失真更重要。左信道能量和右信道能量的比率因此可以是方向(或声音的来源的位置)的较好指示符,而不是最小化加权的失真度量。在这样的情形下,在等式(35)和(36)中计算的平衡因子可能不是用于计算平衡因子的良好方法。所需要的是将在代码化前后的左右信道能量的比率保持得相同。通过下式来分别给出在代码化之前和代码化之后的信道能量的比率:
v = | | S L | | 2 | | S R | | 2 , v ^ = W L 2 ( j ) | | S ^ | | 2 W R 2 ( j ) | | S ^ | | 2 , - - - ( 37 )
使得这两个能量比率相等并且使用假定WL(j)=2-WR(j),我们得到
Figure BPA00001392237400223
WR=2-WL.(38)
其给出所生成的平衡因子的平衡因子分量。注意到,在(38)中计算的平衡因子现在独立于Gj,因此不再是j的函数,于是提供了独立于增益考虑的自相关的平衡因子;在附图的图10中进一步图示了相关的平衡因子。对于等式29和32使用这个结果,我们可以将最佳核心层缩放索引j的选择扩展成包括级联向量分段k,使得:
j * = arg min 0 &le; j < M { &Sigma; k ( | | S Lk - W Lk &CenterDot; G jk &CenterDot; S ^ k | | 2 ) + ( | | S Rk - W Rk &CenterDot; G jk &CenterDot; S ^ k | | 2 ) } - - - ( 39 )
最佳增益值的表示。增益值的这个索引j*作为增强层编码器的输出信号被发射。
现在参见图10,图示了根据各个实施例的增强层编码器和增强层解码器的框图1000。输入音频信号s(n)被增强层编码器1010的平衡因子生成器1050和增益向量生成器1020的误差信号(失真信号)生成器1030接收。来自核心层的代码化的音频信号
Figure BPA00001392237400225
被所示的增益向量生成器1020的缩放单元1025接收。缩放单元1025操作以利用多个增益值缩放代码化的音频信号
Figure BPA00001392237400226
以生成多个候选的代码化音频信号,其中,缩放了候选的代码化音频信号中的至少一个。如上所述,可以采用通过单位或任何期望的标识函数的缩放。缩放单元1025输出缩放的音频Sj,该缩放的音频Sj被平衡因子生成器1030接收。以上结合等式(18)、(21)、(24)和(33)讨论了生成具有多个平衡因子分量的平衡因子,其中每一个平衡因子分量与由增强层编码器1010接收到的多信道音频信号中的一个音频信号相关联。这是通过所示的平衡因子生成器1050完成的,以产生所示的平衡因子分量
Figure BPA00001392237400231
Figure BPA00001392237400232
如以上结合等式(38)所讨论的,平衡因子生成器1030将平衡因子图示为独立于增益。
增益向量生成器1020负责确定要向代码化的音频信号应用的增益值,以生成多信道音频信号的估计,如在等式(27)、(28)和(29)中所讨论的。这是通过缩放单元1025和平衡因子生成器1050来完成的,缩放单元1025和平衡因子生成器1050一起工作以基于平衡因子和至少一个缩放的代码化音频信号来生成该估计。增益值基于平衡因子和多信道音频信号,其中,增益值被配置成最小化在多信道音频信号和多信道音频信号的估计之间的失真值。等式(30)描述了根据多信道输入信号的估计和实际输入信号本身来生成失真值。因此,平衡因子分量与输入音频信号s(n)一起被误差信号生成器1030接收,以确定由缩放单元1025利用的每一个缩放向量的误差值Ej。这些误差向量与在基于最佳增益值g*来确定误差向量和特定误差E*中使用的增益值一起被传递到增益选择器电路1035。然后,增益选择器1035可操作用于基于多信道输入信号的估计和实际信号本身来评估失真值,以便确定可能的增益值的最佳增益值g*的表示。用于表示最佳增益g*的代码字(ig)从增益选择器1035输出,并且被所示的MUX复用器1040接收。
ig和iB都被输出到复用器1040,并且被发射机1045经由信道125发射到增强层解码器1060。增益值ig的表示被输出以传输到所示的信道125,但是如果期望,它也可以被存储。
在解码器侧上,在增强层解码器1060的操作期间,ig和iE从信道125被接收并且被解复用器1065解复用。因此,增强层解码器接收代码化音频信号
Figure BPA00001392237400233
代码化平衡因子iB和代码化增益值ig。增益向量解码器1070包括所示的频率选择性增益生成器1075和缩放单元1080。增益向量解码器1070从代码化的增益值生成解码的增益值。代码化增益值ig被输入到频率选择性增益生成器1075,以根据编码器1010的对应方法来产生增益向量g*。然后向缩放单元1080应用增益向量g*,缩放单元1080利用解码的增益值g*来缩放代码化的音频信号
Figure BPA00001392237400241
以生成缩放的音频信号。信号组合器1095接收平衡因子解码器1090的代码化平衡因子输出信号至缩放的音频信号
Figure BPA00001392237400242
以生成和输出被示出为增强的输出音频信号的解码的多信道音频信号。
图示了示例性增强层编码器和增强层解码器的框图1100,其中,如上结合等式(33)所述,平衡因子生成器1030生成依赖于增益的平衡因子。通过生成Gj信号1110的误差信号生成器来图示这一点。
现在参见图12-14,呈现了涵盖在此提供的各个实施例的方法的流程。在图12的流程1200中,呈现了用于代码化多信道音频信号的方法。在框1210,接收具有多个音频信号的多信道音频信号。在框1220,多信道音频信号被代码化以生成代码化的音频信号。代码化的音频信号可以是单信道或多信道信号,诸如在附图中举例图示的立体声信号。而且,代码化的音频信号可以包括多个信道。在核心层中可以有不止一个信道,并且在增强层中的信道的数目可以大于在核心层中的信道的数目。接下来,在框1230,生成具有平衡因子分量的平衡因子,每一个平衡因子分量与多信道音频信号的一个音频信号相关联。等式(18)、(21)、(24)、(33)描述了平衡因子的生成。每一个平衡因子分量可以与所生成的其他平衡因子分量相关,就象在等式(38)中的情况那样。生成平衡因子可以包括:生成在缩放的代码化音频信号和多信道音频信号的音频信号中的至少一个之间的相关性值,诸如在等式(33)、(36)中。可以如在等式(38)中那样生成在音频信号的至少一个之间的自相关性,由此可以生成平方根。在框1240,确定要应用到代码化音频信号的增益值,以基于平衡因子和多信道音频信号来生成多信道音频信号的估计。该增益值被配置成最小化在多信道音频信号和多信道音频信号的估计之间的失真值。等式(27)、(28)、(29)、(30)描述了确定增益值。可以从多个增益值选择增益值,以缩放代码化的音频信号,并且生成缩放的代码化音频信号。可以基于这个估计来生成失真值;该增益值可以基于该失真值。在框1250,输出该增益值的表示以用于传输和/或存储。
图13的流程1300描述了根据各个实施例的用于代码化多信道音频信号的另一种方法。在框1310,接收具有多个音频信号的多信道音频信号。在框1320,多信道音频信号被代码化以生成代码化的音频信号。如上所述,核心层编码器执行框1310和1320的处理。如上所述,代码化的音频信号可以是单信道或多信道信号,诸如如在附图中举例说明的立体声信号。而且,代码化的音频信号可以包括多个信道。在核心层中可以有不止一个信道,并且增强层中的信道的数目可以大于核心层中的信道的数目。
在框1330,利用多个增益值来缩放代码化的音频信号,以生成多个候选代码化的音频信号,所述候选代码化的音频信号中的至少一个被缩放。通过增益向量生成器的缩放单元来完成缩放。如上所述,缩放代码化的音频信号可以包括利用单位的增益值来缩放。多个增益值的增益值可以是增益矩阵,其中以向量gj来作为如上所述的对角分量。增益矩阵可以是频率选择性的。它可以取决于核心层的输出、在附图中图示的代码化的音频信号。可以从多个增益值选择增益值,以缩放代码化的音频信号并且生成缩放的代码化音频信号。在框1340,生成具有平衡因子分量的平衡因子,所述平衡因子分量每一个与多信道音频信号的音频信号相关联。通过平衡因子生成器来执行平衡因子生成。每一个平衡因子分量可以取决于所生成的另一个平衡因子分量,如在等式(38)中的情况那样。生成平衡因子可以包括生成在缩放的代码化音频信号和多信道音频信号的音频信号中的至少一个之间的相关性值,诸如在等式(33)、(36)中那样。可以生成在音频信号中的至少一个之间的自相关性,如在等式(38)中那样,由此可以生成平方根。
在框1350,基于平衡因子和至少一个缩放的代码化音频信号来生成多信道音频信号的估计,基于缩放的代码化音频信号(多个)和所生成的平衡因子来生成该估计。该估计可以包括与多个候选的代码化音频信号相对应的多个估计。在框1360,基于多信道音频信号的估计和多信道音频信号来评估和/或可以生成失真值,以确定增益值的最佳增益值的表示。失真值可以包括与多个估计相对应的多个失真值。通过增益选择器电路来完成失真值的评估。通过等式(39)来给出最佳增益值的呈现。在框1370,可以输出增益值的表示以用于传输和/或存储。增强层编码器的发射机可以如上所述发射增益值表示。
在图14的流程图1400中包含的处理图示了多信道音频信号的解码。在框1410,接收代码化的音频信号、代码化的平衡因子和代码化的增益值。在框1420,从代码化的增益值生成解码的增益值。增益值可以是增益矩阵,如上所述,并且增益矩阵可以是频率选择性的。增益矩阵也可以取决于作为核心层的输出接收到的代码化的音频。而且,代码化的音频信号可以是单信道或多信道信号,诸如在附图中举例图示的立体声信号。另外,代码化的音频信号可以包括多个信道。例如,在核心层中有不止一个信道,并且增强层中的信道的数目可以大于核心层中的信道的数目。
在框1430,利用解码的增益值来缩放代码化的音频信号,以生成缩放的音频信号。在框1440,代码化的平衡因子被应用到缩放的音频信号以生成解码的多信道音频信号。在框1450,输出解码的多信道音频信号。
基于峰值检测的选择缩放掩码计算
可以如在上面的(14)中那样定义频率选择性增益矩阵Gj,该矩阵是具有形成增益向量gj的对角元素的对角矩阵:
Figure BPA00001392237400271
其中,Δ是步长大小(例如,Δ≈2.0dB),α是常数,M是候选的数目(例如,可以仅使用3个比特来表示它),并且,kl和kh分别是低频和高频截止频率,在它们之上,可能发生增益减少。在此,k表示傅立叶变换系数的第k个MDCT。注意到,gj是频率选择性的,但是它独立于先前层的输出。增益向量gj可以基于先前代码化的信号向量——在该情况下为
Figure BPA00001392237400272
——的代码化元素的某个函数,这可以被表达为:
g j ( k ) = f ( k , S ^ ) . - - - ( 41 )
在多层嵌入式代码化系统(具有超过2个层)中,其中,从至少两个先前的层的贡献来获得要由增益值向量gj缩放的输出
Figure BPA00001392237400274
也就是
S ^ = E ^ 2 + S ^ 1 - - - ( 42 )
其中,
Figure BPA00001392237400276
是第一层(核心层)的输出,并且
Figure BPA00001392237400277
是第二层或第一增强层的贡献。在该情况下,增益向量gj可以是先前代码化的信号向量的代码化的元素和第一增强层的贡献的某个函数:
g j ( k ) = f ( k , S ^ , E ^ 2 ) . - - - ( 43 )
已经观察到,因为较低层的代码化模型导致的大多数可听到的噪声处于谷值中,而不是处于峰值中。换句话说,在频谱峰值处在原始和代码化的频谱之间有较好的匹配。因此,不应当更改峰值,即,缩放应当限于谷值。为了有利地使用这种观察,在实施例之一中,在等式(41)中的函数基于
Figure BPA000013922374002710
的峰值和谷值。设是基于所检测到的
Figure BPA000013922374002712
的峰值幅度的缩放掩码。缩放掩码可以是向量值函数,其在所检测到的峰值处具有非零值,即
Figure BPA00001392237400281
其中,
Figure BPA00001392237400282
Figure BPA00001392237400283
的第i个元素。等式(41)现在可以被修改为:
可以使用各种方法来进行峰值检测。在该优选实施例中,通过下述方式来检测峰值:通过两个单独的加权平均滤波器来传递绝对频谱
Figure BPA00001392237400285
并且然后比较已滤波的输出。设A1和A2是两个平均滤波器的矩阵表示。设是l1和l2(l1>l2)是两个滤波器的长度。峰值检测函数被给出为:
Figure BPA00001392237400286
其中,β是经验阈值。
作为说明性示例,参见图15和图16。在此,在MDCT域中的代码化的信号的绝对值
Figure BPA00001392237400287
在两个曲线图中被给出为1510。这个信号表示来自“定调管”的声音,定调管创建固定间隔的谐波序列,如图所示。难以基于语音模型使用核心层代码化器来代码化这个信号,因为这个信号的基本频率在对于语音信号认为合理的范围之外。这导致由核心层产生的相当高的噪声水平,可以通过将代码化信号1510与原始信号|S|的单信道版本作比较来观察到该噪声水平(1610)。
从该代码化的信号(1510),使用阈值生成器来产生阈值1520,阈值1520对应于等式45中的表达式
Figure BPA00001392237400288
在此,A1是卷积矩阵,该卷积矩阵在该优选实施例中利用长度45的余弦窗口来实现信号
Figure BPA00001392237400291
的卷积。许多窗口形状是可能的,并且可以包括不同的长度。而且,在该优选实施例中,A2是单位矩阵。然后,峰值检测器将信号1510与阈值1520作比较,以产生被示出为1530的缩放掩码
Figure BPA00001392237400292
然后,核心层缩放向量候选(在等式45中给出)可以用于缩放在代码化信号
Figure BPA00001392237400293
的峰值之间的噪声,以产生缩放的重构信号1620。可以根据以上的等式39中描述的处理或以其他方式来选择最佳候选。
现在参见图17-19,呈现了图示根据各个实施例的、与基于上述的峰值检测的选择缩放掩码计算相关联的方法的流程图。在图17的流程图1700中,在框1710,检测在接收到的音频信号的重构的音频向量
Figure BPA00001392237400294
中的峰值集合。可以在多个层中嵌入该音频信号。该重构的音频向量
Figure BPA00001392237400295
可以处于频域中,并且所述峰值集合可以是频域峰值。例如,根据由等式(46)给出的峰值检测函数来执行检测该峰值集合。注意到,该集合可以是空的,就像全部内容被衰减并且没有峰值的情况那样。在框1720,生成基于所检测到的峰值集合的缩放掩码
Figure BPA00001392237400296
然后,在框1730,生成至少基于缩放掩码和用于表示增益向量的索引j的增益向量g*。在框1740,使用增益向量来缩放重构的音频信号,以产生缩放的重构音频信号。在框1750,生成基于音频信号和缩放的重构音频信号的失真。在框1760,输出基于所生成的失真的增益向量的索引。
现在参见图18,流程图1800图示了根据特定实施例的编码音频信号的替代实施例。在框1810,接收音频信号。可以在多个层中嵌入音频信号。然后,在框1820编码音频信号,以生成重构的音频向量
Figure BPA00001392237400297
重构的音频向量可以处于频域中,并且该峰值集合可以是频域峰值。在框1830,检测在接收到的音频信号的重构的音频向量
Figure BPA00001392237400299
中的峰值集合。例如,根据由等式(46)给出的峰值检测函数来执行检测所述峰值集合。再一次,注意到,该集合可以是空的,就像全部内容被衰减并且没有峰值的情况那样。在框1840,生成基于所检测到的峰值集合的缩放掩码
Figure BPA00001392237400301
在框1850,生成基于缩放掩码的多个增益向量gj。在框1860,利用多个增益向量来缩放重构的音频信号,以产生多个缩放的重构音频信号。接下来,在框1870,生成基于音频信号和多个缩放的重构音频信号的多个失真。在框1880,基于所述多个失真从多个增益向量选择增益向量。该增益向量可以被选择成与所述多个失真的最小失真相对应。在框1890,用于表示增益向量的索引被输出以传输和/或存储。
可以通过先前所述的装置结构来实现以上的图17-18中图示的编码器流程。参考流程1700,在可操作用于代码化音频信号的装置中,诸如增强层编码器1010的增益向量生成器1020的增益选择器1035的增益选择器检测在接收到的音频信号的重构的音频向量中的峰值集合
Figure BPA00001392237400302
并且基于所检测到的峰值集合来生成缩放掩码
Figure BPA00001392237400303
再一次,可以在多个层中嵌入音频信号。重构的音频向量
Figure BPA00001392237400304
可以处于频域中,并且该峰值集合可以是频域峰值。例如,根据由等式(46)给出的峰值检测函数来执行检测所述峰值集合。注意到,如果在信号中的全部内容已经被衰减,则峰值集合可以是零。诸如增益向量生成器1020的缩放单元1025的缩放单元至少基于缩放掩码和表示增益向量的索引j来生成增益向量g*,利用增益向量来缩放重构的音频信号,以产生缩放的重构音频信号。增益向量生成器1025的误差信号生成器1030基于音频信号和缩放的重构音频信号来生成失真。诸如增强层解码器1010的发射机1045的发射机可操作用于输出基于所生成的失真的增益向量的索引。
参考图18的流程1800,在可操作用于代码化音频信号的装置中,编码器接收音频信号,并且编码该音频信号以生成重构的音频向量
Figure BPA00001392237400305
诸如增益向量生成器1020的缩放单元1025的缩放单元检测在接收到的音频信号的重构的音频向量
Figure BPA00001392237400306
中的峰值集合,基于所检测到的峰值集合来生成缩放掩码
Figure BPA00001392237400307
基于缩放掩码来生成多个增益向量gj,并且利用多个增益向量来缩放该重构的音频信号,以产生多个缩放的重构音频信号。误差信号生成器1030基于音频信号和多个缩放的重构音频信号来生成多个失真。诸如增益选择器1035的增益选择器基于所述多个失真从多个增益向量选择增益向量。例如,发射机1045输出用于表示增益向量的索引以稍后传输和/或存储。
在图19的流程图1900中,图示了解码音频信号的方法。在框1910处接收重构的音频向量
Figure BPA00001392237400311
和表示增益向量的索引。在框1920,检测在重构的音频向量中的峰值集合。例如,根据例如由等式(46)给出的峰值检测函数来执行检测所述峰值集合。再一次,注意到,该集合可以是空的,就像全部内容被衰减并且没有峰值的情况那样。在框1930,生成基于所检测到的峰值集合的缩放掩码
Figure BPA00001392237400312
在框1940,生成至少基于缩放掩码和表示增益向量的索引的增益向量g*。在框1950,利用增益向量来缩放重构的音频信号,以产生缩放的重构音频信号。该方法可以进一步包括:生成对于所重构的音频向量的增强,并且然后将缩放的重构音频信号和对于所重构的音频向量的增强组合以生成增强的解码信号。
可以通过先前描述的装置结构来实现在图19中图示的解码器流程。在可操作用于解码音频信号的装置中,例如,增强层解码器1060的增益向量解码器1070接收重构的音频向量
Figure BPA00001392237400313
和表示增益向量的索引ig。如图10中所示,增益选择器1075接收ig,而增益向量解码器1070的缩放单元1080接收重构的音频向量
Figure BPA00001392237400314
诸如增益向量解码器1070的增益选择器1075的增益选择器检测在所重构的音频向量中的峰值集合,基于所检测到的峰值集合来生成缩放掩码
Figure BPA00001392237400315
并且至少基于缩放掩码和表示增益向量的索引来生成增益向量g*。再一次,如果信号被大部分衰减,则该集合可以是空的。例如,增益选择器根据诸如在等式(46)中给出的峰值检测函数来检测该峰值集合。例如,缩放单元1080利用增益向量来缩放所重构的音频向量,以产生缩放的重构音频信号。
而且,在图6中的增强层解码器的诸如误差信号解码器665的误差信号解码器可以生成对于所重构的音频向量的增强。诸如图6的信号组合器675的信号组合器将缩放的重构音频信号与对于重构的音频向量的增强组合,以生成增强的解码信号。
进一步应当注意,可以以各种组合来执行图12-14的平衡因子引导的流程和图17-19的具有峰值检测的选择缩放掩码引导的流程两者,并且在此所述的装置和结构支持这一点。
虽然已经参考特定实施例具体示出和描述了本发明,但是本领域技术人员将明白,在不偏离本发明的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。例如,虽然在电信系统中的通过信道的发射和接收上描述了以上技术,但是所述技术可以等同地适用于使用信号压缩系统来用于减少在诸如固态存储设备或计算机硬盘的数字介质设备上的存储要求的目的的系统。这样的改变意图在权利要求的范围之内。

Claims (15)

1.一种对音频信号进行解码的装置,包括:
增强层解码器的增益向量解码器,所述增强层解码器的所述增益向量解码器接收重构的音频向量
Figure FDA00002835301200011
和表示增益向量的索引;
其中所述增益向量解码器的增益选择器接收表示所述增益向量的所述索引,
所述增益向量解码器的增益选择器,所述增益向量解码器的所述增益选择器检测所述重构的音频向量中的峰值集合,基于所检测到的峰值集合来生成缩放掩码
Figure FDA00002835301200012
并且至少基于所述缩放掩码和表示所述增益向量的索引来生成增益向量g
所述增益向量解码器的缩放单元,所述增益向量解码器的所述缩放单元利用所述增益向量来缩放所述重构的音频向量,以产生缩放的重构音频信号。
2.根据权利要求1所述的装置,进一步包括:
误差信号解码器,所述误差信号解码器生成对于所述重构的音频向量的增强;以及
所述增强层解码器的信号组合器,所述增强层解码器的所述信号组合器将所述缩放的重构音频信号与所述对于所述重构的音频向量的增强组合,以生成增强的解码信号。
3.根据权利要求1所述的装置,其中,所述增益选择器根据如下给出的峰值检测函数来检测所述峰值集合:
Figure FDA00002835301200013
其中β是阈值,
Figure FDA00002835301200014
Figure FDA00002835301200015
的第i个元素,
Figure FDA00002835301200016
是绝对频谱,并且A1和A2是两个平均滤波器的矩阵表示。
4.根据权利要求1所述的装置,其中,所述音频信号被嵌入多个层中。
5.根据权利要求1所述的装置,其中,所述重构的音频向量
Figure FDA00002835301200021
是在频域中,并且所述峰值集合是频域峰值。
6.根据权利要求1所述的装置,进一步包括:
解码器,所述解码器接收代码化音频信号、代码化平衡因子和代码化增益值;
其中,所述增强层解码器的增益向量解码器从所述代码化增益值来生成解码的增益值;
其中,所述增强层解码器的缩放单元利用所述解码的增益值来缩放所述代码化音频信号,以生成缩放的音频信号;以及
进一步包括:
信号组合器,所述信号组合器将所述代码化平衡因子应用于所述缩放的音频信号,以生成解码的多信道音频信号并输出所述解码的多信道音频信号。
7.一种用于对音频信号进行解码的方法,所述方法包括:
接收重构的音频向量
Figure FDA00002835301200022
和表示增益向量的索引;
检测所述重构的音频向量中的峰值集合;
基于所检测到的峰值集合来生成缩放掩码
Figure FDA00002835301200023
至少基于所述缩放掩码和表示所述增益向量的所述索引来生成增益向量g;以及
利用所述增益向量来缩放所述重构的音频向量,以产生缩放的重构音频信号。
8.根据权利要求7所述的方法,进一步包括:
生成对于所述重构的音频向量的增强;以及
将所述缩放的重构音频信号与所述对于所述重构的音频向量的增强组合,以生成增强的解码信号。
9.根据权利要求7所述的方法,其中,检测所述峰值集合进一步包括如下给出的峰值检测函数:
Figure FDA00002835301200031
其中β是阈值,
Figure FDA00002835301200032
Figure FDA00002835301200033
的第i个元素,
Figure FDA00002835301200034
是绝对频谱,并且A1和A2是两个平均滤波器的矩阵表示。
10.根据权利要求7所述的方法,进一步包括:
接收代码化音频信号、代码化平衡因子和代码化增益值;
从所述代码化增益值生成解码的增益值;
利用所述解码的增益值来缩放所述代码化音频信号,以生成缩放的音频信号;
将代码化平衡因子应用于所述缩放的音频信号,以生成解码的多信道音频信号;以及
输出所述解码的多信道音频信号。
11.一种用于对音频信号进行编码的方法,所述方法包括:
接收音频信号;
对所述音频信号进行编码,以生成重构的音频向量
检测接收到的音频信号的所述重构的音频向量
Figure FDA00002835301200036
中的峰值集合;
基于所检测到的峰值集合来生成缩放掩码
Figure FDA00002835301200037
基于所述缩放掩码来生成多个增益向量gj
利用所述多个增益向量来缩放所述重构的音频信号,以产生多个缩放的重构音频信号;
基于所述音频信号和多个缩放的重构音频信号来生成多个失真;
基于所述多个失真来从所述多个增益向量选择增益向量;以及
输出表示所述增益向量的索引以用于发射和存储中的至少一个。
12.根据权利要求11所述的方法,其中,所述增益向量被选择为与所述多个失真中的最小失真相对应。
13.根据权利要求11所述的方法,其中,检测所述峰值集合进一步包括如下给出的峰值检测函数:
Figure FDA00002835301200041
其中β是阈值,
Figure FDA00002835301200042
Figure FDA00002835301200043
的第i个元素,
Figure FDA00002835301200044
是绝对频谱,并且A1和A2是两个平均滤波器的矩阵表示。
14.根据权利要求11所述的方法,其中,所述音频信号被嵌入多个层中。
15.根据权利要求11所述的方法,其中,所述重构的音频向量
Figure FDA00002835301200045
是在频域中,并且所述峰值集合是频域峰值。
CN2009801533119A 2008-12-29 2009-12-03 基于峰值检测的选择性缩放掩码计算 Active CN102272831B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/345,096 US8200496B2 (en) 2008-12-29 2008-12-29 Audio signal decoder and method for producing a scaled reconstructed audio signal
US12/345,096 2008-12-29
PCT/US2009/066627 WO2010077557A1 (en) 2008-12-29 2009-12-03 Selective scaling mask computation based on peak detection

Publications (2)

Publication Number Publication Date
CN102272831A CN102272831A (zh) 2011-12-07
CN102272831B true CN102272831B (zh) 2013-08-14

Family

ID=41693452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801533119A Active CN102272831B (zh) 2008-12-29 2009-12-03 基于峰值检测的选择性缩放掩码计算

Country Status (8)

Country Link
US (1) US8200496B2 (zh)
EP (1) EP2382626B1 (zh)
JP (1) JP5283046B2 (zh)
KR (1) KR101275892B1 (zh)
CN (1) CN102272831B (zh)
BR (1) BRPI0923749B1 (zh)
ES (1) ES2430414T3 (zh)
WO (1) WO2010077557A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
US8149144B2 (en) * 2009-12-31 2012-04-03 Motorola Mobility, Inc. Hybrid arithmetic-combinatorial encoder
US8892428B2 (en) 2010-01-14 2014-11-18 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
CN101964188B (zh) * 2010-04-09 2012-09-05 华为技术有限公司 语音信号编码、解码方法、装置及编解码系统
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
US9449607B2 (en) * 2012-01-06 2016-09-20 Qualcomm Incorporated Systems and methods for detecting overflow
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
KR102086047B1 (ko) * 2015-12-11 2020-03-06 한국전자통신연구원 시간 영역을 기반으로 오디오 신호에 데이터를 삽입하거나 오디오 신호로부터 데이터를 추출하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669071A (zh) * 2002-05-22 2005-09-14 日本电气株式会社 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质
CN1791902A (zh) * 2003-05-20 2006-06-21 松下电器产业株式会社 用于扩展音频信号的频带的方法及其装置
EP2437397A1 (en) * 2009-05-29 2012-04-04 Nippon Telegraph And Telephone Corporation Coding device, decoding device, coding method, decoding method, and program therefor

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) * 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) * 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) * 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) * 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) * 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
DE68922610T2 (de) * 1989-09-25 1996-02-22 Rai Radiotelevisione Italiana Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren.
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) * 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
EP1095370A1 (en) * 1999-04-05 2001-05-02 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6236960B1 (en) * 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) * 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) * 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) * 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US6947886B2 (en) 2002-02-21 2005-09-20 The Regents Of The University Of California Scalable compression of audio and other signals
WO2003077235A1 (en) 2002-03-12 2003-09-18 Nokia Corporation Efficient improvements in scalable audio coding
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
KR101000345B1 (ko) 2003-04-30 2010-12-13 파나소닉 주식회사 음성 부호화 장치, 음성 복호화 장치 및 그 방법
JP4123109B2 (ja) * 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
EP1735778A1 (en) * 2004-04-05 2006-12-27 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatuses thereof
US20060022374A1 (en) * 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) * 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) * 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) * 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
EP1818911B1 (en) 2004-12-27 2012-02-08 Panasonic Corporation Sound coding device and sound coding method
JP4116628B2 (ja) * 2005-02-08 2008-07-09 株式会社東芝 オーディオ符号化方法およびオーディオ符号化装置
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
MX2007011995A (es) * 2005-03-30 2007-12-07 Koninkl Philips Electronics Nv Codificacion y decodificacion de audio.
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
ATE490454T1 (de) * 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
EP1912206B1 (en) 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
DE602006015097D1 (de) 2005-11-30 2010-08-05 Panasonic Corp Skalierbare codierungsvorrichtung und skalierbares codierungsverfahren
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
US20070239294A1 (en) * 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
US7230550B1 (en) * 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) * 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8285555B2 (en) * 2006-11-21 2012-10-09 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
PL2311034T3 (pl) 2008-07-11 2016-04-29 Fraunhofer Ges Forschung Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US20100088090A1 (en) * 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US11342764B2 (en) * 2018-11-28 2022-05-24 Shenzhen Innokin Technology Co., Ltd. Low voltage charging control and protection circuit for electronic cigarette and method of charging the electronic cigarette using the circuit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669071A (zh) * 2002-05-22 2005-09-14 日本电气株式会社 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质
CN1791902A (zh) * 2003-05-20 2006-06-21 松下电器产业株式会社 用于扩展音频信号的频带的方法及其装置
EP2437397A1 (en) * 2009-05-29 2012-04-04 Nippon Telegraph And Telephone Corporation Coding device, decoding device, coding method, decoding method, and program therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RAMPRASHAD S. A..A TWO STAGE HYBRID EMBEDDED SPEECH/AUDIO CODING STRUCTURE.《A TWO STAGE HYBRID EMBEDDED SPEECH/AUDIO CODING STRUCTURE.》.NEW YORK, NY : IEEE.,1998, *

Also Published As

Publication number Publication date
CN102272831A (zh) 2011-12-07
WO2010077557A1 (en) 2010-07-08
US8200496B2 (en) 2012-06-12
KR101275892B1 (ko) 2013-06-17
JP5283046B2 (ja) 2013-09-04
ES2430414T3 (es) 2013-11-20
KR20110111442A (ko) 2011-10-11
EP2382626B1 (en) 2013-09-18
BRPI0923749B1 (pt) 2020-03-17
US20100169087A1 (en) 2010-07-01
JP2012514224A (ja) 2012-06-21
EP2382626A1 (en) 2011-11-02
BRPI0923749A2 (pt) 2016-01-19
BRPI0923749A8 (pt) 2017-07-11

Similar Documents

Publication Publication Date Title
CN102272831B (zh) 基于峰值检测的选择性缩放掩码计算
CN102265337B (zh) 用于在多信道音频代码化系统内生成增强层的方法和装置
CN102272829B (zh) 用于在多声道音频编码系统内生成增强层的方法和装置
CN102272832B (zh) 基于峰值检测的选择性缩放掩码计算
CN101297356B (zh) 用于音频压缩的方法和设备
CN101836252B (zh) 用于在音频代码化系统中生成增强层的方法和装置
CN103594090B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
CN102089814B (zh) 对编码的音频信号进行解码的设备和方法
CN102834863B (zh) 用于包括通用音频和语音帧的音频信号的解码器
KR20100085994A (ko) Mdct 스펙트럼의 결합 인코딩을 이용하는 스케일링 가능한 스피치 및 오디오 인코딩

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160411

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC