CN102834863A - 用于包括通用音频和语音帧的音频信号的解码器 - Google Patents

用于包括通用音频和语音帧的音频信号的解码器 Download PDF

Info

Publication number
CN102834863A
CN102834863A CN2011800126235A CN201180012623A CN102834863A CN 102834863 A CN102834863 A CN 102834863A CN 2011800126235 A CN2011800126235 A CN 2011800126235A CN 201180012623 A CN201180012623 A CN 201180012623A CN 102834863 A CN102834863 A CN 102834863A
Authority
CN
China
Prior art keywords
frame
audio
encode
sample
audio samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800126235A
Other languages
English (en)
Other versions
CN102834863B (zh
Inventor
乌达·米塔尔
乔纳森·A·吉布斯
詹姆斯·P·阿什利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google Technology Holdings LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN102834863A publication Critical patent/CN102834863A/zh
Application granted granted Critical
Publication of CN102834863B publication Critical patent/CN102834863B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于对音频帧进行解码的方法,包括:产生代码化音频样本的第一帧;产生代码化音频样本的至少一部分第二帧;基于下述参数来生成音频间隙填充样本,该参数表示代码化音频样本的第一帧的加权分段或代码化音频样本的一部分第二帧的加权分段;以及形成包括代码化音频样本的一部分第二帧和音频间隙填充样本的序列。

Description

用于包括通用音频和语音帧的音频信号的解码器
技术领域
本公开一般地涉及语音和音频处理,并且更具体地,涉及用于处理包括通用音频和语音帧的音频信号的解码器。
背景技术
许多音频信号可以被分类为具有更多类语音特性或音乐、音调、背景噪声、回响语音等更典型的更多的通用音频特性。基于适用于处理语音信号的源滤波器模型的编译码器不会有效地处理通用音频信号。这样的编译码器包括线性预测代码化(LPC)编译码器,如码激励线性预测(CELP)代码器。语音代码器往往以低比特率处理语音信号。相反,诸如频域变换编译码器的通用音频处理系统不会很好地处理语音信号。公知的是,提供分类器或鉴别器来在逐个帧的基础上确定音频信号是更像语音还是不太像语音,并且基于该分类来将信号指引到语音编译码器或通用音频编译码器。能够处理不同信号类型的音频信号处理器有时被称为混合核心编译码器。
然而,分别地已知在与使用语音编译码器和通用音频编译码器的语音帧和通用音频帧的处理之间的转变来在已处理输出信号中产生音频间隙形式的不连续。这样的音频间隙通常可在用户接口处察觉,并且通常是不期望的。现有技术图1图示了输出帧序列中的在已处理语音帧与已处理通用音频帧之间产生的音频间隙。图1还在102处图示了输入帧的序列,该输入帧的序列可以被分类为语音帧(m-2)和(m-1),后面是通用音频帧(m)和(m+1)。样本索引n与该帧串内的在时间n处获得的样本相对应。出于该图的目的,n=0的样本索引与其中获得帧(m)的最后一个样本的相对时间相对应。这里,可以在已经累积了320个新样本之后处理帧(m),将该320个新样本与160个先前累积的样本组合,总共480个样本。在该示例中,采样频率是16kHz,并且对应的帧尺寸是20毫秒,但是许多采样速率和帧尺寸都是可能的。可以使用线性预测代码化(LPC)语音代码化来处理语音帧,其中,在104处图示了LPC分析窗口。已处理语音帧(m-1)在106处进行图示并且其前面是未图示的代码化的语音帧(m-2),与输入帧(m-2)相对应。图1还在108处图示了重叠的代码化的通用音频帧。通用音频分析/复合窗口与已处理通用音频帧的振幅包络相对应。已处理帧106和108的序列由于算法处理延迟而导致在时间上相对于输入帧102的序列偏移,该算法处理延迟在本文中还分别针对语音和通用音频帧被称为先行延迟(look-ahead delay)和重叠-添加延迟。图1中的108处的代码化的通用音频(m)和(m+1)的重叠部分提供了对110处的对应顺序已处理通用音频帧(m)和(m+1)的加性效应。然而,因为前一个帧是代码化的语音帧,所以在108处的代码化的通用音频帧(m)的导尾不与相邻的通用音频帧的拖尾重叠。因此,在108处的对应已处理通用音频帧(m)的前导部分具有减小的振幅。将代码化的语音和通用音频帧的序列组合的结果是在已处理输出帧的序列中的已处理语音帧和已处理通用音频帧之间的音频间隙,如110处的复合输出帧中所示。
标题为“Switching Between Coding Schemes”(诺基亚)的美国申请No.2006/0173675公开了一种混合代码器,该混合代代码器通过在逐帧的基础上在自适应多速率宽带(AMR-WB)编译码器与利用修正的离散余弦变换(MDCT)之间进行选择,例如,在MPEG 3编译码器或(AAC)编译码器之间进行选择,其中最适当的一个,来适应语音和音乐二者。诺基亚改善了不连续性的不利影响,该不连续性由于在使用具有几乎完美的重构性质(其特征在于混叠误差的最小化)的特殊MDCT分析/复合窗口从AMR-WB编译码器切换到基于MDCT的编译码器时产生的未抵消混叠误差而发生。诺基亚公开的特殊MDCT分析/复合窗口包括三个组成部分的重叠的基于正弦的窗口H0(n)、H1(n)和H2(n),其被应用于在语音帧之后的第一个输入音乐帧以提供改善的处理音乐帧。然而,该方法可能经历可能由于由H0(n)、H1(n)和H2(n)定义的关联谱区的欠建模(under-modeling)所引起的信号不连续。也就是说,可以提供的有限数目的比特需要跨三个区域分布,同时仍然要求产生在前一语音帧的结尾与区域H0(n)的起始之间的几乎完美的波形匹配。
对于本领域的技术人员来说,在结合下述附图仔细考虑本发明的以下具体实施方式时,本发明的各种方面、特征和优点将变得更加充分地显而易见。已经出于简单的目的简化了附图,并且附图不一定按比例绘制。
附图说明
现有技术图1图示了具有音频间隙的语音帧和通用音频帧的常规处理序列。
图2是混合语音和通用音频信号代码器的示意性框图。
图3是混合语音和通用音频信号解码器的示意性框图。
图4图示了音频信号编码过程。
图5图示了经历非常规代码化过程的语音帧和通用音频帧的序列。
图6图示了经历另一非常规代码化过程的语音帧和通用音频帧的序列。
图7图示了音频解码过程。
具体实施方式
图2图示混合核心代码器200,该混合核心代码器200被配置成对输入的帧流进行代码化,该输入的帧流中的一些是语音帧,而其它的是不不太像语音的帧。不太像语音的帧在本文中被称为通用音频帧。混合核心编译码器包括处理输入音频信号s(n)的帧的模式选择器120,其中n是样本索引。当采样速率是每秒16k个样本时,帧长度可以包括320个音频样本,这与20毫秒的帧时间间隔相对应,但是许多其它修改也是可能的。模式选择器被配置成基于特定于每个帧的属性或特性的评估来评定输入帧的序列中的帧比较像语音还是不太像语音。音频信号辨别或者更一般地音频帧分类的细节超出本公开的范围,但是对于本领域的普通技术人员来说是公知的。对复用器220提供模式选择码字。该码字在逐个帧的基础上指示通过其处理输入信号的对应帧的模式。因此,例如,输入音频帧可以作为语音信号或通用音频信号来进行处理,其中,码字指示如何处理该帧以及具体地使用什么类型的音频代码器来来处理该帧。该码字还可以传递关于从语音到通用音频的转变的信息。虽然可以从前一帧分类类型暗示转变信息,但是通过其传送信息的信道可能是有损耗的,并且因此关于前一帧类型的信息可能不可用。
在图2中,编译码器通常包括适用于对语音帧进行代码化的第一代码器230以及适用于对通用音频帧进行代码化的第二代码器240。在一个实施例中,语音代码器基于适用于处理语音信号的源滤波器模型,并且通用音频代码器是基于时域混叠抵消(TDAC)的线性正交重叠变换。在一个实现中,语音代码器可以利用码激励线性预测代码器(CELP)典型的线性预测代码化(LPC)以及适用于处理语音信号的代码器。通用音频代码器可以基于不同类型的离散余弦变换(DCT)或DCT/离散正弦变换(DST)组合来被实现为修正的离散余弦变换(MSCT)编译码器或修正的离散正弦变换(MSCT)或MDCT的形式。
在图2中,第一代码器230和第二代码器240具有通过选择开关250耦合到输入音频信号的输入,该选择开关250基于由模式选择器210选择或确定的模式来控制。例如,处理器可以基于模式选择器的码字输出来控制开关250。开关250选择用于处理语音帧的语音代码器230,并且开关选择用于处理通用音频帧的通用音频代码器。借助于选择开关250,可以仅用例如语音代码器或通用音频代码器的一个代码器来处理每个帧。更一般地,虽然在图2中仅图示了两个代码器,但是可以用若干不同代码器中的一个来对该帧进行代码化。例如,可以选择三个或更多代码器中的一个来处理输入音频信号的特定帧。然而,在其它实施例中,如下文进一步讨论的,可以用所有代码器来对每个帧进行代码化。
在图2中,每个编译码器基于由代码器处理的对应输入音频帧来产生编码比特流和对应已处理帧。用
Figure BDA00002103616800051
来指示由语音代码器产生的处理帧,而用
Figure BDA00002103616800052
来指示由通用音频代码器产生的处理帧。
在图2中,代码器230和240的输出上的开关252将所选择的代码器的代码化输出耦合到复用器220。更具体地,开关将代码器的编码比特流输出耦合到复用器。而且基于由模式选择器210选择或确定的模式来控制开关252。例如,处理器可以基于模式选择器的码字输出来控制开关252。复用器使码字与基于该码字选择的对应代码器的编码比特流输出进行复用。因此,对于通用音频帧,开关252将通用音频代码器240的输出耦合到复用器220,并且对于语音帧,开关252将语音代码器230的输出耦合到复用器。在通用音频帧代码化过程遵循语音编码过程的情况下,利用根据本公开的特殊“转变模式”帧。转变模式编码器包括通用音频代码器240和音频间隙编码器260,如下描述其细节。
图4图示了在混合音频信号处理编译码器中,例如2的混合编译码器中,实现的代码化过程400。在410处,通过对帧序列中的第一音频帧进行代码化来产生代码化音频样本的第一帧。在该示例性实施例中,音频样本的第一代码化帧是使用语音编译码器产生或生成的代码化语音帧。在图5中,输入语音/音频帧序列502包括连续语音帧(m-2)和(m-1)以及后续的通用音频帧(m)。可以部分地基于在504处图示的LPC分析窗口来对语音帧(m-2)和(m-1)进行代码化。在506处图示了与输入语音帧(m-1)相对应的代码化语音帧。该帧的前面可以是未示出的与输入帧(m-2)相对应的另一代码化语音帧。代码化语音帧相对于对应的输入帧被延迟了从与LPC“先行”处理缓冲器相关联的算法延迟所得到的间隔,LPC“先行”处理缓冲器即在估计在代码化语音帧的结尾附近(或接近结尾)集中的LPC参数所需要的帧前面的音频样本。
在图4中,在420处,通过对帧序列中的第二音频帧的至少一部分进行代码化来产生代码化音频样本的至少一部分第二帧。该第二帧与第一帧相邻。在本示例性实施例中,音频样本的第二代码化帧是使用通用音频编译码器产生或生成的代码化通用音频帧。在图5中,输入的语音/音频帧序列502中的帧“m”是通用音频帧,该通用音频帧基于在508处图示的基于TDAC的线性正交重叠变换分析/复合窗口(m)来被代码化。用在508处图示的重叠分析/复合窗口(m+1)来代码化输入帧的序列502中的后续通用音频帧(m+1)。在图5中,通用音频分析/复合窗口在振幅上与已处理通用音频帧相对应。在图5中的508处的分析/复合窗口(m)的重叠部分提供了对输入帧序列的对应连续处理通用音频帧(m)和(m+1)的加性影响。该结果是,没有衰减与输入帧(m)相对应的已处理通用音频帧的拖尾以及与输入帧(m+1)相对应的相邻已处理帧的导尾。
在图5中,由于使用MDCT代码器来处理通用音频帧(m)并且使用LPC代码器来处理前一语音帧(m-1),所以在-480和-400之间的重叠区域中的MDCT输出是零。并不知道如何具有通用音频帧(m)的全部320个样本的无混叠生成,并且同时生成用于使用与规则音频帧的MDCT顺序相同顺序的MDCT来与后续通用音频帧(m+1)的MDCT输出重叠添加的一些样本。根据本公开的一方面,为在已处理语音帧之后的已处理通用音频帧之间另外发生的音频间隙提供补偿,如下文所讨论的。
为了保证适当的混叠抵消,必须通过M个样本重叠添加区域内的补充窗口来显示以下属性:
w m - 1 2 ( M + n ) + w m 2 ( n ) = 1,0 &le; n < M , 以及    (1)
wm-1(M+n)wm-1(2M-n-1)-wm(n)wm(M-n-1)=0,0≤n<M,(2)
其中,m是当前帧索引,n是当前帧内的样本索引,wm(n)是帧m处的对应的分析和复合窗口,并且M是关联帧长度。给出满足以上准则的公共窗口形状为:
w ( n ) = sin [ ( n + 1 2 ) &pi; 2 M ] , 0 &le; n < 2 M , - - - ( 3 )
然而,公知的是,许多窗口形状都可以满足这些条件。例如,在本公开中,通过如下对2M帧结构进行零填充来减小通用音频代码化重叠添加过程的算法延迟:
w ( n ) = 0 , 0 &le; n < M 4 , sin [ ( n - M 4 + 1 2 ) &pi; M ] , M 4 &le; n < 3 M 4 , 1 , 3 M 4 &le; &le; n < 5 M 4 , cos [ ( n - 5 M 4 + 1 2 ) &pi; M ] , 5 M 4 &le; n < 7 M 4 , 0 , 7 M 4 &le; n < 2 M , - - - ( 4 )
这通过允许处理在获取仅3M/2个样本或者用于M=320的帧长度的480个样本之后开始来减小算法延迟。注意,虽然w(n)是针对2M个样本(这是处理具有50%重叠添加的MDCT结构所需要的)定义的,但仅需要480个样本以进行处理。
返回以上等式(1)和(2),如果前一帧(m-1)是语音帧并且当前帧(m)是通用音频帧,则将不存在重叠添加数据,并且来自帧(m-1)的窗口基本上是零或wm-1(M+n)=0,0≤n<M。因此,等式(1)和(2)将变成:
w m 2 ( n ) = 1,0 &le; n < M , 以及    (5)
wm(n)wm(M-n-1)=0,0≤n<M.    (6)
根据这些修订的等式,明显的是,等式(3)和(4)中的窗口函数不满足这些约束,并且实际上,对于间隔M/2≤n<M,存在的对于等式(5)和(6)的唯一可能的解为:
wm(n)=1,M/2≤n<M,以及    (7)
wm(n)=0,0≤n<M/2.         (8)
因此,为了确保适当的混叠抵消,在本公开中给出了语音到音频帧转变窗口为:
w ( n ) = 0 , 0 &le; n < M 2 , 1 , M 2 &le; n < 5 M 4 , cos [ ( n - 5 M 4 + 1 2 ) &pi; 2 M ] , 5 M 4 &le; n < 7 M 4 , 0 , 7 M 4 &le; n < 2 M , - - - ( 9 )
并且在图5中在(508)处针对帧m示出。然后,形成“音频间隙”,因为在语音帧(m-1)的结束之后发生的与0≤n<M/2相对应的样本被迫为零。
在图4中,在430处,产生用于生成音频间隙填充样本或补偿样本的参数,其中,音频间隙填充样本可以用于补偿在已处理语音帧与已处理通用音频帧之间的音频间隙。该参数通常作为代码化比特流的一部分进行复用,并且被存储以供稍后使用或传送到解码器,如下文进一步描述。在图2中,我们将其称为“音频间隙样本代码化比特流”。在图5中,音频间隙填充样本构成由
Figure BDA00002103616800082
指示的代码化间隙帧,如下文进一步讨论。该参数表示代码化音频样本的第一帧的加权分段和/或代码化音频样本的一部分第二帧的加权分段。音频间隙填充样本通常构成填充在已处理语音帧与已处理通用音频帧之间的间隙的已处理音频间隙帧。该参数可以被存储或传送到另一设备,并且用于生成音频间隙填充样本或帧,用于填充在已处理语音帧与已处理通用音频帧之间的音频间隙,如下文进一步描述。编码器不必生成音频间隙填充样本,但是在一些使用情况下,期望在编码器处生成音频间隙填充样本。
在一个实施例中,参数包括用于代码化音频样本的例如语音帧的第一帧的加权分段的第一加权参数和第一索引以及代码化音频样本的例如通用音频帧的一部分第二帧的加权分段的第二加权参数和第二索引。该参数可以是恒定值或函数。在一个实施方式中,第一索引指定从输入帧序列中的基准音频间隙样本到代码化音频样本的第一帧(例如,代码化语音帧)的分段中的对应样本的第一时间偏移,并且第二索引指定从基准音频间隙样本到代码化音频样本的第二帧(例如,代码化通用语音帧)的一部分的分段中的对应样本的第二时间偏移。第一加权参数包括应用于第一帧的加索引分段的对应样本的第一增益因数。类似地,第二加权参数包括应用于一部分第二帧的加索引分段的对应样本的第二增益因数。在图5中,第一偏移是T1并且第二偏移是T2。而且在图5中,α表示第一加权参数并且β表示第二加权参数。基准音频间隙样本可以是在代码化语音帧和代码化通用音频帧之间的音频间隙中的任何位置,例如第一或最后的位置或在其之间的样本。我们将基准间隙样本称为sg(n),其中,n=0,...,L-1,并且L是间隙样本的数目。
参数通常被选择为减小在使用该参数生成的音频间隙样本和与音频间隙相对应的帧序列中的样本集合sg(n)之间的失真,其中,该样本集合被称为基准音频间隙样本集合。因此,该参数通常可以基于失真度量,该失真度量是输入帧序列中的基准音频间隙样本集合的函数。在一个实施例中,失真度量是方差失真度量。在另一实施例中,失真度量是加权均方差失真度量。
在一个具体的实施方式中,基于帧序列中的基准音频间隙样本的分段与代码化音频样本的第一帧的分段之间的相关性来确定第一索引。还基于代码化音频样本的一部分第二帧的分段与基准音频间隙样本的分段之间的相关性来确定第二索引。在图5中,通过使帧序列502中的基准间隙样本集合sg(n)与506处的代码化语音帧相关来确定第一偏移和加权分段
Figure BDA00002103616800091
类似地,通过使帧序列502中的基准间隙样本集合sg(n)与508处的代码化通用音频帧相关来确定第二偏移和加权分段
Figure BDA00002103616800092
因此,一般地,基于特定参数并且基于代码化音频样本的第一和/或第二帧来生成音频间隙填充样本。在图5中的510处图示了包括这样的代码化音频间隙填充样本的代码化间隙帧
Figure BDA00002103616800093
在一个实施例中,当该参数表示代码化音频样本的第一帧和第二帧的加权分段时,代码化间隙帧的音频间隙填充样本可以用
Figure BDA00002103616800101
来表示。可以将代码化间隙帧样本
Figure BDA00002103616800102
与代码化通用音频帧(m)相组合以提供与代码化语音帧(m-1)的相对连续的转变,如在图5中的512处所示。
下面讨论用于确定与音频间隙填充样本相关联的参数的细节。使sg是表示间隙区域的长度L=80的输入向量。通过根据前一帧(m-1)的语音帧输出和当前帧(m)的通用音频帧输出的一部分生成估计来对间隙进行代码化。使
Figure BDA00002103616800106
是从
Figure BDA00002103616800107
的第T个过去样本开始的长度L的向量,并且使
Figure BDA00002103616800108
是从的第T个未来样本开始的长度L的向量(参见图5)。然后可以获得向量
Figure BDA000021036168001010
为:
s ^ g = &alpha; &CenterDot; s ^ s ( - T 1 ) + &beta; &CenterDot; s ^ a ( T 2 ) , - - - ( 10 )
其中,获得T1、T2、α和β以最小化在sg之间的失真。T1和T2是整数值,其中160≤T1≤260且0≤T2≤80。因此,用于T1和T2的组合的总数是101×81=8181<8192,并且因此可以使用13个比特共同地对其进行代码化。6比特标量量化器用于对参数α和β中的每一个进行代码化。使用25个比特来对间隙进行代码化。
如下给出一种用于确定这些参数的方法。首先,由下式给出加权均方差失真:
D = | s g - s ^ g | T &CenterDot; W &CenterDot; | s g - s ^ g | , - - - ( 11 )
其中,W是用于找到最佳参数的加权矩阵,并且T表示向量转置。W是正定矩阵并且优选地是对角矩阵。如果W是单位矩阵,则失真是均方失真。
现在可以将等式(11)的各项之间的自相关和互相关定义为:
R gs = s g T &CenterDot; W &CenterDot; s ^ s ( - T 1 ) , - - - ( 12 )
R ga = s g T &CenterDot; W &CenterDot; s ^ a ( T 2 ) , - - - ( 13 )
R aa = s ^ a ( T 2 ) T &CenterDot; W &CenterDot; s ^ a ( T 2 ) , - - - ( 14 )
R ss = s ^ s ( - T 1 ) T &CenterDot; W &CenterDot; s ^ s ( - T 1 ) , 以及    (15)
R as = s ^ a ( T 2 ) T &CenterDot; W &CenterDot; s ^ s ( - T 1 ) . - - - ( 16 )
根据这些,可以进一步定义以下各项:
δ(T1,T2)=RssRaa-RasRas,     (17)
η(T1,T2)=RaaRgs-RasRga,     (18)
γ(T1,T2)=RssRga-RasRgs。    (19)
最小化等式(10)中的失真的T1和T2的值是最大化下述的T1和T2的值:
S=(η·Rgs+γ·Rga)/δ。    (20)
现在使
Figure BDA00002103616800113
Figure BDA00002103616800114
是最大化(20)中的表达式的最佳值,然后获得等式(10)中的系数α和β为:
&alpha; = &eta; ( T 1 * , T 2 * ) / &delta; ( T 1 * , T 2 * ) 以及    (21)
&beta; = &gamma; ( T 1 * , T 2 * ) / &delta; ( T 1 * , T 2 * ) . - - - ( 22 )
随后使用6比特标量量化器来量化α和β的值。在万一对于T1和T2的特定值而言等式(20)中的行列式δ是零的情况下,等式(20)中的表达式被评估为:
S=RgsRgs/Rss,Rss>0,    (23)
或者
S=RgaRga/Raa,Raa>0。   (24)
如果Rss和Raa二者是零,则S被设置成非常小的值。
上文已经描述了T1和T2的联合穷尽搜索方法。该联合搜索通常是复杂的,然而各种相对低复杂性的方法可以适用于该搜索。例如,首先用大于1的因数对针对T1和T2的搜索进行抽取(decimate),并且然后可以使搜索局部化。还可以使用顺序搜索,其中,首先获得T1的几个最佳值,假设Rga=0,并且然后仅在T1的那些值中搜索T2。
使用如上所述的顺序搜索还产生了下述情况:可以使用第一加权分段
Figure BDA00002103616800121
或第二加权分段
Figure BDA00002103616800122
来构建表示为
Figure BDA00002103616800123
的代码器音频间隙填充样本。也就是说,在一个实施例中,能够仅生成用于加权分段的一个参数集合,并且解码器使用该参数集合来重建音频间隙填充样本。此外,可以存在始终偏好一个加权分段优于另一个的实施例。在这样的情况下,可以通过仅考虑加权分段中的一个来减小失真。
在图6中,示出了与在图5中相同的输入语音和音频帧序列602、LPC语音分析窗口604以及代码化间隙帧610。在一个实施例中,如图6中的606处所示,代码化语音帧的拖尾逐渐减小,并且如在612中所示,代码化间隙帧的导尾逐渐减小。在另一实施例中,如图6中的608处所示,代码化通用音频帧的导尾逐渐减小,并且如在612中所示,代码化间隙帧的拖尾逐渐减小。当代码化间隙帧的导尾和拖尾二者都逐渐减小时,与时域不连续性有关的伪像可能被最有效地减小。然而,在一些实施例中,仅使代码化间隙帧的导尾或拖尾逐渐减小可能是有益的,如下文进一步讨论。在其它实施例中,不存在逐渐减小。在图6中,在614处,组合输出语音帧(m-1)和通用帧(m)包括具有锥形尾部的代码化间隙帧。
在一个实施方式中,参考图5,并不是502处的通用音频帧(m)的所有样本都被包括在508处的通用音频分析/复合窗口中。在一个实施例中,将502处的通用音频帧(m)的前L个样本从通用音频分析/复合窗口中排除。排除的样本的数目通常取决于形成用于已处理通用音频帧的包络的通用音频分析/复合窗口的特性。在一个实施例中,排除的样本的数目等于80。在其它实施例中,可以排出更少或更多数目的样本。在本示例中,MDCT窗口的其余非零区域的长度是小于常规音频帧中的MDCT窗口的长度的L。通用音频帧中的窗口的长度等于帧的长度与先行长度的和。在一个实施例中,转变帧的长度是320-80+160=400而不是用于规则音频帧的400。
如果音频代码器可以在没有任何损耗的情况下生成当前帧的所有样本,则优选在左端具有矩形形状的窗口。然而,使用具有矩形形状的窗口可能导致高频MDCT系数中的更多能量,这可能更加难以使用有限数目的比特来在没有显著损耗的情况下进行代码化。因此,为了具有适当的频率响应,使用具有平滑转变的窗口(在左侧具有M1=50个样本正弦窗口并且在右侧具有M/2个样本余弦窗口)。这被描述为:
w ( n ) = 0 , 0 &le; n < M 2 , sin [ ( n - M 2 + 1 2 ) &pi; 2 M 1 ] , M 2 &le; n < M 2 + M 1 , 1 , M 2 + M 1 &le; n < 5 M 4 , cos [ ( n - 5 M 4 + 1 2 ) &pi; M ] , 5 M 4 &le; n < 7 M 4 , 0 , 7 M 4 &le; n < 2 M , - - - ( 25 )
在本示例中,使用前述的替代方法来对80+M1个样本的间隙进行代码化。由于使用具有50个样本的转变区域的平滑窗口而不是矩形或梯形窗口,所以要使用替代方法来代码化的间隙区域被扩展了M1=50个样本,从而使得间隙区的长度为130个样本。上文所讨论的相同正向/反向预测方法用于生成这130个样本。
加权均方方法对于低频信号而言通常是良好的,并且趋向于减少高频信号的能量。为了减少该效果,可以在生成以上等式(10)中的
Figure BDA00002103616800132
之前,使信号
Figure BDA00002103616800133
通过一阶预加重滤波器(预加重滤波器系数=0.1)。
音频模式输出
Figure BDA00002103616800135
可以具有逐渐减小的分析和复合窗口以及由此延迟T2的使得
Figure BDA00002103616800137
Figure BDA00002103616800138
的逐渐减小区域重叠。在这样的情况下,间隙区sg不具有与
Figure BDA00002103616800139
的非常好的相关性。在这样的情况下,可以优选地使
Figure BDA000021036168001310
与均衡器窗口E相乘以获得均衡音频信号:
s ^ ae = E &CenterDot; s ^ a - - - ( 26 )
作为使用
Figure BDA00002103616800142
的替代,现在可以在等式(10)和等式(10)之后的讨论中使用该均衡音频信号。
用于间隙帧的代码化的正向/反向估计方法通常产生对于间隙信号的良好匹配,但是有时导致在两个端点处的不连续,即在语音部分和间隙区域的边界处以及间隙区与通用音频代码化部分(参见图5)之间的边界处。因此,在一些实施例中,为了减小语音部分和间隙部分的边界处的不连续的效果,首先将语音部分的输出扩展例如15个样本。可以通过使用语音代码器中的帧错误缓解处理来扩展激励而获得扩展语音,其通常用于重建在传输期间丢失的帧。该扩展语音部分与
Figure BDA00002103616800143
的前16个样本的重叠添加(梯形)以获得语音部分与间隙的边界处的平滑转变。
为了语音到音频切换帧的MDCT输出和间隙的边界处的平滑转变,首先使
Figure BDA00002103616800144
的后50个样本乘以
Figure BDA00002103616800145
并且然后与
Figure BDA00002103616800146
的前50个样本添加。
图3图示了配置成对编码比特流,例如由图2的代码器200编码的组合比特流,进行解码的混合核心解码器300。在一些实施方式中,最典型地,图2的代码器200和图3的解码器300被组成以形成编译码器。在其它实施方式中,可以单独地实施或实现代码器和解码器。在图3中,解复用器分离组合比特流的组成元素。可以通过通信信道,例如通过无线或有线信道,从另一实体接收比特流,或者可以从可访问解码器或解码器可访问的存储介质获得比特流。在图3中,组合比特流被分成码字以及包括语音帧和通用音频帧的代码化音频帧序列。该码字在逐个帧的基础上指示序列中的特定帧是语音(SP)帧还是通用音频(GA)帧。虽然可以从前一帧分类类型暗示转变信息,但是可以通过其传送信息的信道可能是有损耗的,并且因此关于前一帧类型的信息可能是不可靠或不可用的。因此,在一些实施例中,码字还可以传达关于从语音到通用音频的转变的信息。
在图3中,解码器通常包括适用于对语音帧进行代码化的第一解码器320以及适用于对通用音频帧进行解码的第二代码器330。在一个实施例中,语音解码器是基于适用于处理解码语音信号的源滤波器模型解码器,并且通用音频解码器是适用于上述对通用音频信号进行解码的基于时域混叠抵消(TDAC)的线性正交重叠变换解码器。更一般地,语音解码器和通用音频解码器的配置必须与代码器的互补。
在图3中,对于给定音频帧,第一解码器320和第二解码器330中的一个具有通过选择开关340耦合到解复用器的输出的输入,基于码字或其它装置来控制该选择开关340。例如,处理器可以基于模式选择器的码字输出来控制该开关。开关340根据由解复用器输出的音频帧类型来选择用于处理语音帧的语音解码器320以及用于处理通用音频帧的通用音频解码器330。借助于选择开关340,通常仅用一个代码器,例如语音代码器或通用音频代码器,来处理每个帧。然而,替代地,选择可以在用两个解码器对每个帧进行解码之后发生。更一般地,虽然在图3中仅图示了两个解码器,但是可以用若干解码器中的一个来对帧进行解码。
图7图示了在图3的混合音频信号处理编译码器或至少混合解码器部分中实现的解码过程700。该过程还包括生成音频间隙填充样本,如下文进一步描述。在图7中,在710处,产生代码化音频样本的第一帧,并且在720处,产生代码化音频样本的至少一部分第二帧。在图3中,例如,当从解复用器310输出的比特流包括代码化语音帧和代码化通用音频帧时,使用语音解码器320来产生代码化样本的第一帧,并且然后使用通用音频解码器330来产生代码化音频样本的至少一部分第二帧。如上所述,有时在代码化音频样本的第一帧与代码化音频样本的一部分第二帧之间形成音频间隙而导致在用户接口处的不期望的噪声。
在730处,基于下述参数来生成音频间隙填充样本,该参数表示代码化音频样本的第一帧的加权分段和/或代码化音频样本的一部分第二帧的加权分段的。在图3中,音频间隙样本解码器350基于该参数根据由解码器320生成的已处理语音帧
Figure BDA00002103616800161
和/或根据由通用音频解码器330生成的已处理通用音频帧来生成音频间隙填充样本将该参数作为代码化比特流的一部分被传送到音频间隙解码器350。该参数通常减小上述在生成的视频间隙样本与基准音频间隙样本集合之间的失真。在一个实施例中,该参数包括用于代码化音频样本的第一帧的加权分段的第一加权参数和第一索引以及用于代码化音频样本的一部分第二帧的加权分段的第二加权参数和第二索引。第一索引指定从音频间隙填充样本到代码化音频样本的第一帧的该分段中的对应样本的第一时间偏移,并且第二基准指定从音频间隙填充样本到代码化音频样本的一部分第二帧的该分段中的对应样本的第二时间偏移。
在图3中,由音频间隙解码器350生成的音频填充间隙样本被传送到序列器360,该序列器360将音频间隙样本
Figure BDA00002103616800164
与由通用音频解码器330产生的代码化音频样本
Figure BDA00002103616800165
的第二帧相组合。序列器通常形成样本序列,该样本序列至少包括音频间隙填充样本以及代码化音频样本的一部分第二帧。在一个特定实施方式中,该序列还包括代码化音频样本的第一帧,其中,音频间隙填充样本至少部分地填充在代码化音频样本的第一帧与代码化音频样本的一部分第二帧之间的音频间隙。
该音频间隙帧填充在代码化音频样本的第一帧与代码化音频样本的一部分第二帧之间的音频间隙的至少一部分,从而消除或至少减少可以由用户察觉到的任何可听噪声。开关370基于码字来选择语音解码器320或组合器360的输出,使得在输出序列中重新组合解码的帧。
虽然已经以确立所有权并使得技术人员能够实现并使用该所有权的方式描述了本公开及其最佳模式,但是应当理解和认识到,存在本文公开的示例性实施例的等价物,并且在不脱离本发明的范围和精神的情况下可以对其进行修改和变更,本发明的范围和精神不是由示例性实施例而是由所附权利要求书来限定。

Claims (15)

1.一种用于对音频帧进行解码的方法,所述方法包括;
使用第一解码方法来产生代码化音频样本的第一帧;
使用第二解码方法来产生代码化音频样本的至少一部分第二帧;
基于下述参数来生成音频间隙填充样本:所述参数表示代码化音频样本的所述第一帧的加权分段或代码化音频样本的所述一部分第二帧的加权分段;
形成包括所述音频间隙填充样本和代码化音频样本的所述一部分第二帧的序列。
2.根据权利要求1所述的方法,进一步包括:形成包括代码化音频样本的所述第一帧的序列,其中,所述音频间隙填充样本至少部分地填充了在代码化音频样本的所述第一帧与代码化音频样本的所述一部分第二帧之间的音频间隙。
3.根据权利要求1所述的方法,其中,
代码化音频样本的所述第一帧的所述加权分段包括第一加权参数和第一索引,所述第一加权参数和第一索引用于代码化音频样本的所述第一帧的所述加权分段,并且
代码化音频样本的所述一部分第二帧的所述加权分段包括第二加权参数和第二索引,所述第二加权参数和第二索引用于代码化音频样本的所述一部分第二帧的所述加权分段。
4.根据权利要求3所述的方法,其中,
所述第一索引指定从所述音频间隙填充样本到代码化音频样本的所述第一帧中对应样本的第一时间偏移,
所述第二索引指定从所述音频间隙填充样本到代码化音频样本的所述一部分第二帧中对应样本的第二时间偏移。
5.根据权利要求1所述的方法,基于下述参数来生成所述音频间隙填充样本:所述参数表示代码化音频样本的所述第一帧的所述加权分段以及代码化音频样本的所述一部分第二帧的所述加权分段二者。
6.根据权利要求5所述的方法,其中,所述参数基于以下表达式:
s ^ g = &alpha; &CenterDot; s ^ s ( - T 1 ) + &beta; &CenterDot; s ^ a ( T 2 )
其中,α是代码化音频样本的所述第一帧的分段的第一加权因数,β是用于代码化音频样本的所述一部分第二帧的分段
Figure FDA00002103616700023
的第二加权因数,并且
Figure FDA00002103616700024
与所述音频间隙填充样本相对应。
7.根据权利要求6所述的方法,其中,所述参数基于失真度量,所述失真度量是基准音频间隙样本集合的函数,其中,所述失真度量是方差失真度量。
8.根据权利要求6所述的方法,其中,所述参数基于失真度量,所述失真度量是基准音频间隙样本集合的函数,其中,所述失真度量基于以下表达式:
D = | s g - s ^ g | T &CenterDot; | s g - s ^ g |
其中,sg表示所述基准间隙填充样本集合。
9.根据权利要求6所述的方法,使用通用音频代码化方法来产生代码化音频样本的所述一部分第二帧。
10.根据权利要求9所述的方法,使用语音代码化方法来产生代码化音频样本的所述第一帧。
11.根据权利要求1所述的方法,其中,所述参数基于失真度量,所述失真度量是所述基准间隙填充样本集合的函数。
12.根据权利要求1所述的方法,使用通用音频代码化方法来产生代码化音频样本的所述一部分第二帧。
13.根据权利要求12所述的方法,使用语音代码化方法来产生代码化音频样本的所述第一帧。
14.根据权利要求3所述的方法,其中,
所述第一索引基于在所述帧序列中基准音频间隙样本分段与代码化音频样本的所述第一帧的分段之间的相关性,以及
所述第二索引基于在代码化音频样本的所述一部分第二帧的分段与所述基准音频间隙样本的所述分段之间的相关性。
15.根据权利要求1所述的方法,基于下述参数来生成所述音频间隙填充样本:所述参数被选择为减小在所述音频间隙填充样本与基准音频间隙样本集合之间的失真。
CN201180012623.5A 2010-03-05 2011-03-01 用于包括通用音频和语音帧的音频信号的解码器 Expired - Fee Related CN102834863B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN218KO2010 2010-03-05
IN217/KOL/2010 2010-03-05
PCT/US2011/026660 WO2011109374A1 (en) 2010-03-05 2011-03-01 Decoder for audio signal including generic audio and speech frames

Publications (2)

Publication Number Publication Date
CN102834863A true CN102834863A (zh) 2012-12-19
CN102834863B CN102834863B (zh) 2014-09-10

Family

ID=44069993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180012623.5A Expired - Fee Related CN102834863B (zh) 2010-03-05 2011-03-01 用于包括通用音频和语音帧的音频信号的解码器

Country Status (6)

Country Link
US (1) US8428936B2 (zh)
EP (1) EP2543040A1 (zh)
KR (1) KR101455915B1 (zh)
CN (1) CN102834863B (zh)
CA (1) CA2789956C (zh)
WO (1) WO2011109374A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105453173A (zh) * 2013-06-21 2016-03-30 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
CN108431890A (zh) * 2015-12-18 2018-08-21 高通股份有限公司 多音频信号的编码
CN109155077A (zh) * 2016-06-20 2019-01-04 英特尔公司 渐进渲染的体积光线追踪
US10381011B2 (en) 2013-06-21 2019-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in a CELP-like concealment employing improved pitch lag estimation
CN110462732A (zh) * 2017-03-20 2019-11-15 高通股份有限公司 目标样本产生
CN111602195A (zh) * 2017-11-10 2020-08-28 弗劳恩霍夫应用研究促进协会 用于调制重叠变换的分析/合成窗口化函数

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US20130311174A1 (en) * 2010-12-20 2013-11-21 Nikon Corporation Audio control device and imaging device
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
EP2550653B1 (en) 2011-02-14 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
AR085221A1 (es) * 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Aparato y metodo para codificar y decodificar una señal de audio utilizando una porcion alineada anticipada
BR112013020592B1 (pt) 2011-02-14 2021-06-22 Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. Codec de áudio utilizando síntese de ruído durante fases inativas
AR085218A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio
CA2903681C (en) 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
US9043201B2 (en) 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
CN106816153B (zh) * 2015-12-01 2019-03-15 腾讯科技(深圳)有限公司 一种数据处理方法及其终端
US10141005B2 (en) * 2016-06-10 2018-11-27 Apple Inc. Noise detection and removal systems, and related methods
CN110476207B (zh) * 2017-01-10 2023-09-01 弗劳恩霍夫应用研究促进协会 音频解码器、音频编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、音频流提供器和计算机介质
US20220165282A1 (en) * 2019-03-25 2022-05-26 Razer (Asia-Pacific) Pte. Ltd. Method and apparatus for using incremental search sequence in audio error concealment
US11416208B2 (en) * 2019-09-23 2022-08-16 Netflix, Inc. Audio metadata smoothing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009325A1 (en) * 1998-01-22 2003-01-09 Raif Kirchherr Method for signal controlled switching between different audio coding schemes
CN101248484A (zh) * 2005-08-30 2008-08-20 Lg电子株式会社 用于编码和解码音频信号的装置及其方法
CN101366082A (zh) * 2006-02-06 2009-02-11 艾利森电话股份有限公司 可变帧偏移编码
WO2010003663A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) * 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) * 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) * 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) * 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) * 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
DE68922610T2 (de) * 1989-09-25 1996-02-22 Rai Radiotelevisione Italiana Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren.
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) * 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
JP4249821B2 (ja) * 1998-08-31 2009-04-08 富士通株式会社 ディジタルオーディオ再生装置
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6236960B1 (en) * 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) * 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) * 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) * 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
WO2003073741A2 (en) 2002-02-21 2003-09-04 The Regents Of The University Of California Scalable compression of audio and other signals
CN1266673C (zh) 2002-03-12 2006-07-26 诺基亚有限公司 可伸缩音频编码的有效改进
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
JP2005005844A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) * 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
EP3561810B1 (en) * 2004-04-05 2023-03-29 Koninklijke Philips N.V. Method of encoding left and right audio input signals, corresponding encoder, decoder and computer program product
US20060022374A1 (en) * 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) * 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) * 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) * 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
KR101346120B1 (ko) * 2005-03-30 2014-01-02 코닌클리케 필립스 엔.브이. 오디오 인코딩 및 디코딩
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
EP1907812B1 (fr) * 2005-07-22 2010-12-01 France Telecom Procede de commutation de debit en decodage audio scalable en debit et largeur de bande
US8069035B2 (en) * 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
WO2007063910A1 (ja) 2005-11-30 2007-06-07 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
KR101366124B1 (ko) * 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
US20070239294A1 (en) * 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
US7230550B1 (en) * 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) * 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8285555B2 (en) * 2006-11-21 2012-10-09 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
ES2387692T3 (es) 2006-11-24 2012-09-28 Lg Electronics Inc. Método y aparato para codificar señales de audio basadas en objetos
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US20100088090A1 (en) * 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009325A1 (en) * 1998-01-22 2003-01-09 Raif Kirchherr Method for signal controlled switching between different audio coding schemes
CN101248484A (zh) * 2005-08-30 2008-08-20 Lg电子株式会社 用于编码和解码音频信号的装置及其方法
CN101366082A (zh) * 2006-02-06 2009-02-11 艾利森电话股份有限公司 可变帧偏移编码
WO2010003663A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105453173A (zh) * 2013-06-21 2016-03-30 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US10381011B2 (en) 2013-06-21 2019-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in a CELP-like concealment employing improved pitch lag estimation
US10643624B2 (en) 2013-06-21 2020-05-05 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
US11410663B2 (en) 2013-06-21 2022-08-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation
CN108431890A (zh) * 2015-12-18 2018-08-21 高通股份有限公司 多音频信号的编码
CN109155077A (zh) * 2016-06-20 2019-01-04 英特尔公司 渐进渲染的体积光线追踪
CN109155077B (zh) * 2016-06-20 2024-04-02 英特尔公司 渐进渲染的体积光线追踪
CN110462732A (zh) * 2017-03-20 2019-11-15 高通股份有限公司 目标样本产生
TWI781140B (zh) * 2017-03-20 2022-10-21 美商高通公司 用於編碼音訊通道之目標樣本產生之裝置、方法、包含指令之非暫時性電腦可讀媒體及設備
CN111602195A (zh) * 2017-11-10 2020-08-28 弗劳恩霍夫应用研究促进协会 用于调制重叠变换的分析/合成窗口化函数
CN111602195B (zh) * 2017-11-10 2023-07-07 弗劳恩霍夫应用研究促进协会 对信息信号进行编码和解码的方法及设备
US12033646B2 (en) 2017-11-10 2024-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Also Published As

Publication number Publication date
CN102834863B (zh) 2014-09-10
US8428936B2 (en) 2013-04-23
KR101455915B1 (ko) 2014-11-03
WO2011109374A1 (en) 2011-09-09
CA2789956A1 (en) 2011-09-09
CA2789956C (en) 2016-05-03
KR20120128136A (ko) 2012-11-26
US20110218799A1 (en) 2011-09-08
EP2543040A1 (en) 2013-01-09

Similar Documents

Publication Publication Date Title
CN102834863B (zh) 用于包括通用音频和语音帧的音频信号的解码器
CN102834862B (zh) 用于包括通用音频和语音帧的音频信号的编码器
EP3958257B1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
KR101747307B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
CN101218628B (zh) 编码和解码音频信号的装置和方法
CN102884570B (zh) 基于mdct的复数预测立体声编码
CN101930740B (zh) 使用解相关信号的多信道音频信号解码
CN102265337B (zh) 用于在多信道音频代码化系统内生成增强层的方法和装置
CN102272832B (zh) 基于峰值检测的选择性缩放掩码计算
CN102272831B (zh) 基于峰值检测的选择性缩放掩码计算
US8634577B2 (en) Audio decoder
CN102577384B (zh) 用相位信息和残差信息进行编码/解码的设备和方法
CN101836252B (zh) 用于在音频代码化系统中生成增强层的方法和装置
CN103229234B (zh) 音频编码装置、方法以及音频解码装置、方法
CN102292772B (zh) 多声道信号的编码/解码装置和方法
KR20090083070A (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
US9514759B2 (en) Method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
CN112216289A (zh) 用于音频信号的时域数据包丢失隐藏的方法
CN102855876A (zh) 音频编码器、音频编码方法和程序
Annadana et al. New Results in Low Bit Rate Speech Coding and Bandwidth Extension
EP3664089A1 (en) Encoding method and encoding apparatus for stereo signal
KR102008488B1 (ko) 편안한 잡음 생성 모드 선택을 위한 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160407

Address after: American California

Patentee after: Technology Holdings Co., Ltd of Google

Address before: Illinois State

Patentee before: Motorola Mobility, Inc.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140910

Termination date: 20180301

CF01 Termination of patent right due to non-payment of annual fee