CN102177426A - 多分辨率切换音频编码/解码方案 - Google Patents
多分辨率切换音频编码/解码方案 Download PDFInfo
- Publication number
- CN102177426A CN102177426A CN200980140055XA CN200980140055A CN102177426A CN 102177426 A CN102177426 A CN 102177426A CN 200980140055X A CN200980140055X A CN 200980140055XA CN 200980140055 A CN200980140055 A CN 200980140055A CN 102177426 A CN102177426 A CN 102177426A
- Authority
- CN
- China
- Prior art keywords
- signal
- branch road
- converter
- coded signal
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 113
- 238000001228 spectrum Methods 0.000 claims description 94
- 238000000034 method Methods 0.000 claims description 82
- 238000004422 calculation algorithm Methods 0.000 claims description 81
- 238000005070 sampling Methods 0.000 claims description 55
- 238000006243 chemical reaction Methods 0.000 claims description 50
- 230000002441 reversible effect Effects 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 36
- 230000003595 spectral effect Effects 0.000 claims description 35
- 230000007704 transition Effects 0.000 claims description 33
- 238000013139 quantization Methods 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 28
- 230000002123 temporal effect Effects 0.000 claims description 18
- 239000002131 composite material Substances 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 52
- 230000005284 excitation Effects 0.000 description 32
- 238000005562 fading Methods 0.000 description 23
- 238000011002 quantification Methods 0.000 description 22
- 238000001914 filtration Methods 0.000 description 21
- 230000005540 biological transmission Effects 0.000 description 15
- 238000007781 pre-processing Methods 0.000 description 15
- 230000000737 periodic effect Effects 0.000 description 11
- 230000001276 controlling effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000008447 perception Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 5
- 241000936936 Opitutaceae Species 0.000 description 4
- 230000000712 assembly Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 206010021403 Illusion Diseases 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 241001553178 Arachis glabrata Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 241001183271 Verrucomicrobiaceae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000000411 transmission spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于编码一音频信号的一音频编码器包含一第一编码支路(400),该第一编码支路包含用于将一信号从一时域转换成一频域的一第一转换器(410)。此外,该音频编码器包含一第二编码支路(500),该第二编码支路包含一第二时间/频率转换器(523)。另外,提供了用于分析该音频信号的一信号分析器(300/525)。一方面该信号分析器决定一音频部分作为来自该第一编码支路的一第一编码信号或作为来自一第二编码支路的一第二编码信号,在该编码器输出信号中是否有效。另一方面,该信号分析器决定当产生这些编码信号时这些转换器(410,523)所施加的一时间/频率分辨率。一输出接口除了包括第一编码信号及第二编码信号以外还包括识别该第一时间/频率转换器所使用的以及该第二时间/频率转换器所使用的一分辨率信息。
Description
技术领域
本发明涉及音频编码,且特定地涉及低位率音频编码方案。
背景技术
在现有技术中,诸如MP3或AAC的频域编码方案是已知的。这些频域编码器是基于一时域/频域转换、一随后的量化阶段及一编码阶段的,其中,在该随后的量化阶段中,使用来自一感知模块的信息来控制该量化误差,在该编码阶段中,该量化的频谱系数与对应的旁侧信息使用编码表而被熵编码。
另一方面,有非常适合于语音处理的编码器,诸如在3GPP TS 26.290中所描述的AMR-WB+。此类语音编码方案执行一时域信号的一线性预测(LP)滤波。该LP滤波获自于该输入时域信号的一线性预测分析。接着所产生的LP滤波器系数被量化/编码并当作旁侧信息被传输。该过程被称为线性预测编码(LPC)。在该滤波器的输出中,也称为激发信号的预测残余信号或预测误差信号使用ACELP编码器的综合分析级,或可选择地使用一转换编码器来编码,该转换编码器使用具有一重迭的傅立叶转换。使用一闭回路或一开环回路算法来决定使用ACELP编码或转换编码的激励编码(也称为TCX编码)。
诸如将一AAC编码方案与一频带复制(SBR)技术结合的高效AAC(HE-AAC)编码方案的频域音频编码方案,也可与被称为“MPEG环绕”的一联合立体声或一多声道编码工具相结合。
另一方面,诸如AMR-WB+的语音编码器也具有一高频延伸级与一立体声功能。
频域编码方案的优点在于它们对低位率音乐信号显示一高质量。然而,低位率的语音信号质量却有问题。
语音编码方案对甚至是低位率的语音信号显示有高质量,但对低位率的其他信号显示出不良的质量。
发明内容
本发明的一目的是提供一改良的编码/解码概念。
该目的通过依据权利要求1的一音频编码器、依据权利要求9的一种音频编码方法、依据权利要求10所述的一解码器、依据权利要求19的一种解码方法、依据权利要求20的一编码信号或依据权利要求21的一计算机程序来实现。
本发明是基于一发现,即:一混合或双重模式切换的编码(coding/encoding)方案的优点在于针对某一信号特性始终可选择最佳的编码算法。换言之,本发明并不期望一种完美匹配所有信号特性的信号编码算法。该方案将始终是一折衷方案,这由现有音频编码器与语音编码器之间的巨大差异可领会到。取而代之的是,本发明将不同的编码算法,诸如一语音编码算法及一音频编码算法结合在一切换方案中以便针对每一音频信号部分选择最佳的匹配编码算法。此外,这两个编码支路包含一时间/频率转换器但在一编码支路中提供了诸如一LPC处理器的一进一步的域转换器,这也是本发明的一特征。该域转换器确认该第二支路比该第一编码支路适于某一信号特性。然而,该域处理器的信号输出也转换成一频谱表示也是本发明的一特征。
两转换器,即,在该第一编码支路中的该第一转换器与在该第二编码支路中的该第二转换器,被构造为实施一多分辨率转换编码,其中,根据该音频信号及特定地根据在该相对应的编码支路中实际编码的该音频信号,来设定该相对应的转换器的分辨率,以便获得质量与位率之间的一良好折衷、或考虑到某一固定质量的最低位率、或考虑到一固定位率的最高质量。
依据本发明,该两转换器的时间/频率分辨率可较佳地彼此独立设定以使得每一时间/频率转换器可最佳地匹配该相对应信号的该时间/频率分辨率需求。该位效率,即有用位与旁侧信息位之间的关系对较长区块大小/窗口长度较高。因此,两转换器较偏向于一较长的窗口长度是较佳的,因为,大体上相同数量的旁侧信息较之应用较短的区块大小/窗口长度/转换长度而涉及该音频信号的一较长的时间部分。较佳地,在这些编码支路中的该时间/频率分辨率也受到这些支路中的其他编码/解码工具影响。较佳地,包含该域转换器(诸如一LPC处理器)的该第二编码支路包含另一混合方案,诸如一ACELP支路及一TCX方案,其中,该第二转换器包括在该TCX方案中。较佳地,位于该TCX支路中的该时间/频率转换器的分辨率也受该编码决定影响,以使得在该第二编码支路中的该信号的一部分在具有该第二转换器的该TCX支路中或在不具有一时间/频率转换器的该ACELP支路中处理。
基本上,域转换器与第二编码支路,且特别是第二编码支路中的第一处理支路及在第二编码支路中的第二处理支路,均非必须是与语音相关的组件,诸如域转换器的一LPC分析器、第二处理支路的一TCX编码器及第一处理支路的一ACELP编码器。当与语音及音乐不同的一音频信号的其他信号特性被评估时,其他应用也是有用的。可使用任何域转换器及编码支路实施,以及可用综合分析方案找到最佳匹配算法以使得,在该解码器端针对该音频信号的每一部分执行所有的编码选择并选择最佳结果,其中,该最佳结果可通过对这些编码结果实施一目标函数来找到。接着,识别(对于一解码器而言)针对该编码音频信号的某一部分的该基本编码算法的旁侧信息通过一编码器输出接口而与该编码的音频信号相附合,以使得该解码器不必在意在该编码器端上或在任何信号特性上的任何决策,而只视该发射的旁侧信息来选择它的编码支路。此外,该解码器将不仅选择正确的解码支路,而且还基于在该编码信号中编码的旁侧信息,来选择哪一时间/频率分辨率将应用在一对应的第一解码支路及一对应的第二解码支路中。
因此,本发明提供了一编码/解码方案,该编码/解码方案结合了所有不同的编码算法的优点而避免了这些编码算法的缺点,当该信号部分必须由并不适合于某一编码算法的一算法进行编码时会出现这些缺点。此外,本发明还避免了如果由在不同编码支路中的不同音频信号部分引起的这些不同的时间/频率分辨率需求还没有说明时将出现的任何缺点。取而代之的是,由于在两支路中的时间/频率转换器的可变的时间/频率分辨率,将在以下情形中至少减少或甚至完全避免以上缺点:即在相同时间/频率分辨率将用于两编码支路或其中针对任何编码支路将只可能是一固定的时间/频率分辨率的情况下,出现的任何伪影(artifact)。
该第二开关再次在两处理支路之间决定,但是在与该“外部”第一支路域不同的一域中。再次,一“内部”支路主要由一来源模型或SNR计算来启动,及其他“内部”支路可通过一沉积模型及/或一感知模型来启动即通过屏蔽,或至少包括频率/频谱域编码层面。示范地,一“内部”支路具有一频域编码器/频谱转换器及另一支路具有在其他域(诸如该LPC域)上编码的一编码器,其中此编码器例如是在没有进行一频谱转换的情况下处理一输入信号的一CELP或ACELP量化器/定标器。
一进一步的较佳实施例是一音频编码器,该音频编码器包含定向诸如一频谱域编码支路的编码支路的一第一信息槽、定向诸如一LPC域编码支路的编码支路的一第二信息槽来源或SNR及用于在该第一编码支路与该第二编码支路之间切换的一开关,其中该第二编码支路包含到与该时域不同的一特定域(诸如产生一激发信号的一LPC分析级)中的一转换器,及其中该第二编码支路另外包含诸如LPC域处理支路的一特定域及诸如LPC频谱域处理支路的一特定频谱域及用于在该特定域编码支路与该特定频谱域编码支路之间切换的一额外的开关。
本发明的一进一步的实施例是一音频解码器,该音频解码器包含一第一域(诸如一频谱域解码支路)、一第二域(诸如用于解码在该第二域中的一信号(诸如一激发信号)的一LPC域解码支路)及一第三域(诸如用于解码在一第三域(诸如一LPC频谱域)中的一信号(诸如一激发信号)的一LPC频谱解码器支路),其中该第三域是通过执行自该第二域的一频率转换而获得,其中提供针对该第二域信号与该第三域信号的一第一开关,及其中提供用于在该第一域解码器与针对该第二域或该第三域的解码器之间切换的一第二开关。
附图说明
本发明的较佳实施例随后针对这些附图予以描述,其中:
图1A是依据本发明的一第一层面的一编码方案的一方块图;
图1B是依据本发明的该第一层面的一解码方案的一方块图;
图1C是依据本发明的一进一步的层面的一编码方案的一方块图;
图2A是依据本发明的一第二层面的一编码方案的一方块图;
图2B是依据本发明的该第二层面的一解码方案的一示意图;
图2C是依据本发明的一进一步的层面的一编码方案的一方块图;
图3A说明依据本发明的一进一步的层面的一编码方案的一方块图;
图3B说明依据本发明的该进一步的层面的一解码方案的一方块图;
图3C说明具有级联开关的该编码设备/方法的一示意表示;
图3D说明用于解码的一设备或方法(其中使用了级联组合器)的一示意图;
图3E说明一时域信号的一图解及说明被包括在两编码信号中的短交错淡出区域的该编码信号的一相对应的表示;
图4A说明具有定位在该编码支路的前的一开关的一方块图;
图4B说明具有定位在该编码支路的后的该开关的一编码方案的一方块图;
图5A说明作为一准周期性或类似脉冲的信号段的一时域语音段的一波束形成;
图5B说明图5A的该段的一频谱;
图5C说明无声语音的一时域语音段,作为针对一类似噪声段的一范例;
图5D说明图5C的该时域波束的一频谱;
图6说明一综合分析CELP编码器的一方块图;
图7A至图7D说明有声/无声激发信号,作为针对相似脉冲信号的一范例;
图7E说明提供短期预测信息及该预测误差(激发)信号的一编码器端LPC级;
图7F说明用于产生一加权信号的一LPC装置的一进一步的实施例;
图7G说明通过由实施如在图2b的该转换器537中所需要的一反向加权操作及一随后的激发分析来将一加权信号转换成一激发信号的一实施例;
图8说明依据本发明的一实施例的一联合多声道算法的一方块图;
图9说明一频宽扩展算法的一较佳实施例;
图10A说明当执行一开环回路决策时对该开关的一详细描述;及
图10B说明档在一闭合回路决策模式中操作时该开关的一图解。
图11A依据本发明的另一层面说明一音频编码器的一方块图;
图11B说明一发明音频解码器的另一实施例的一方块图;
图12A说明一发明编码器的另一实施例;
图12B说明一发明解码器的另一实施例;
图13A说明分辨率与窗口/转换长度之间的相互关系;
图13B说明针对该第一编码支路的一组转换窗口的一概观及从该第一编码支路至该第二编码支路的一过渡;
图13C说明多个不同窗口序列,包括针对该第一编码支路的窗口序列及针对到该第二支路的一过渡的序列;
图14A说明该第二编码支路的一较佳实施例的该定框;
图14B说明应用于该第二编码支路的短窗口;
图14C说明应用于该第二编码支路的中等大小的窗口;
图14D说明该第二编码支路所应用的长窗口;
图14E说明在一超帧划分中的ACELP帧及TCX帧的一示范序列;
图14F说明相对应于针对该第二编码支路的不同时间/频率分辨率的不同的转换长度;及
图14G说明使用图14F的多个定义的一窗口的一建构。
具体实施方式
图11A说明用于编码一音频信号的一音频编码器的一实施例。该编码器包含一第一编码支路400,该第一编码支路400用于使用一第一编码算法来编码一音频信号以获得一第一编码信号。
该音频编码器还包含一第二编码支路500,该第二编码支路500用于使用一第二编码算法来编码一音频信号以获得一第二编码信号。该第一编码算法与该第二编码算法不同。额外地,提供了用于在该第一编码支路与该第二编码支路之间切换的一第一开关以使得对于该音频信号的一部分,该第一编码信号或该第二编码信号都在一编码器输出信号801中。
在图11A中说明的该音频编码器额外地包含一信号分析器300/525,该信号分析器300/525被构造为分析该音频信号的一部分,以决定该音频信号的这部分在该编码器输出信号801中是被表示为该第一编码信号还是被表示该第二编码信号。
该信号分析器300/525更进一步被构造为可变地决定在该第一编码支路400中的一第一转换器410或在该第二编码支路500中的一第二转换器523的一各自的时间/频率分辨率。当产生表示该音频信号的这部分的该第一编码信号或该第二编码信号时,应用该时间/频率分辨率。
该音频编码器额外地包含一输出接口800,该输出接口800用于产生该编码器输出信号801,该编码器输出信号801包含对该音频信号的这部分的一编码表示及指示该音频信号的该表示是该第一编码信号还是该第二编码信号并指示用来解码该第一编码信号及该第二编码信号的该时间/频率分辨率的一信息。
该第二编码支路较佳地与该第一编码支路的不同在于:该第二编码支路额外地包含用于将音频信号从其在该第一编码支路中被处理的域转换成一不同的域的一域转换器。较佳地,该域转换器是一LPC处理器510,但是该域转换器可以以任何其他方式来实施,只要该域转换器与该第一转换器410及该第二转换器523不同。
该第一转换器410是一时间/频率转换器,较佳地包含一窗口化器410a及一转换器410b。该窗口化器410a将一分析窗口施加至该输入音频信号,并且该转换器410b执行该窗口化信号至一频谱表示的一转换。
类似地,该第二转换器523较佳地包含一窗口化器523a及一随后连接的转换器523b。该窗口化器523a接收该域转换器510的信号输出并输出其窗口化的表示。由该窗口化器523a所施加的一分析窗口的结果被输入至该转换器523b以形成一频谱表示。该转换器可以是在软件或硬件中或在一混合的硬件/软件实施中实施一相对应的算法的一FFT或较佳地为MDCT处理器。可选择地,该转换器可以是一滤波器组实施,诸如一QMF滤波器组,其可以是基于对一原型滤波器的一实数值的或复杂的调变。对于特定滤波器组实施,应用一窗口。然而,对于其他滤波器组实施,针对基于一FFT或MDCT的一转换算法所需要的一窗口化不是必需的。当使用一滤波器组实施时,则该滤波器组是一可变分辨率滤波器组,并且该分辨率控制该滤波器组的频率分辨率,额外地,控制该时间分辨率或只有该频率分辨率而没有该时间分辨率。然而,当该转换器作为一FFT或MDCT或任何其他相对应的转换器实施时,则该频率分辨率连接至该时间分辨率,原因在于一较大区块长度所获得的该频率分辨率的一增加在时间上自动地对应于一较低的时间分辨率,反之亦然。
额外地,该第一编码支路可包含一量化/编码器级421,并且该第二编码支路也可包含一个或多个进一步的编码工具524。
重要地,该信号分析器被构造为产生针对该第一转换器510及该第二转换器523的一分辨率控制信号。因此,一独立的分辨率控制在两编码支路中都实施,以拥有一方面提供一低位率及另一方面提供考虑到该低位率的一最高质量的一编码方案。为了实现该低位率目标,较长窗口长度或较长转换长度是较佳的,但是在这些长度将导致一伪影(由于低时间分辨率)的情况下,应用导致一较低频率分辨率的较短窗口长度及较短转换长度。较佳地,该信号分析器应用一统计分析或适合于这些编码支路中的这些相对应的算法的任何其他分析。在该第一编码支路是一频域编码支路(诸如一基于AAC的编码器)及该第二编码支路包含作为一域转换器的一LPC处理器510的一实施模式中,该信号分析器执行一语音/音乐区分,以通过控制该开关200使得该音频信号的该语音部分被馈送至该第二编码支路中。通过相对应地控制由这些开关控制线所指示的该开关200,该音频信号的一音乐部分被馈送至该第一该第一编码支路400。可选择地,如将在后面针对图1C或图4B所讨论的,该开关也可以定位在该输出接口800的前面。
此外,该信号分析器可接收输入至开关200的音频信号或由开关200输出的音频信号。此外,该信号分析器执行一分析以不仅将该音频信号馈送至该相对应的编码支路,而且决定在该相对应的编码支路中该各自的转换器的适当的时间/频率分辨率,诸如如由连接该信号分析器与该转换器的分辨率控制线指示的第一转换器410及第二转换器523。
图11B包含匹配图11A中的该音频编码器的一音频解码器的一较佳实施例。
在图11B中的该音频解码器被构造为解码一编码的音频信号,诸如由图11A中的输出接口800输出的编码器输出信号801。该编码的信号包含依据一第一编码算法编码的一第一编码的音频信号、依据一第二算法编码的一第二编码信号(该第二编码算法与该第一编码算法不同)及指示该第一编码算法或该第二编码算法是否用于解码该第一编码信号及该第二编码信号的信息以及针对该第一编码音频信号及该第二编码音频信号的一时间/频率分辨率信息。
该音频解码器包含用于基于该第一编码算法解码该第一编码信号的一第一解码支路431、440。此外,该音频解码器包含用于使用该第二编码算法解码该第二编码信号的一第二解码支路。
该第一解码支路包含用于自一频谱域转换成该时域的一第一可控制的转换器440。该可控制的转换器被构造为以使用来自该第一编码信号的该时间/频率分辨率信息来控制以获得该第一解码信号。
该第二解码支路包含用于自一频谱表示转换成一时间表示的一第二可控制的转换器,该第二可控制的转换器534被构造为使用针对该第二编码信号的时间/频率分辨率信息991来控制。
该解码器额外地包含用于依据该时间/频率分辨率信息来控制该第一转换器540及该第二转换器534的一控制器990。
此外,该解码器包含用于使用该第二解码信号产生一合成信号以消除由在图11A的编码器中的域转换器510所施加的域转换的一域转换器。
较佳地,该域转换器540为一LPC合成处理器,使用包括在该编码信号中的LPC滤波器信息来控制,其中,该LPC滤波器信息已由图11A中的该LPC处理器510产生并作为旁侧信息已输入至该编码器输出信号中。该音频解码器最后包含用于将由该第一域转换器440输出的第一解码信号与该合成信号相组合以获得一解码的音频信号609的一组合器600。
在该较佳实施方式中,该第一解码支路额外地包含用于反向或至少部分地反向该相对应的编码器级所执行的这些操作的一解量化器/解码器级431。然而,清楚的是,量化不可反向,因为这是一损失操作。然而,一解量化器将反向在诸如一对数或压伸量化的一量化中的某些不均匀性。
在该第二解码支路中,该相对应的级533申请取消级524所施加的某些编码操作。较佳地,级524包含一均匀量化。因此,该相对应的级533将不具有用于取消某一均匀量化的一特定解量化级。
第一转换器440及第二转换器534可包含一相对应的反向转换器级440a、534a、一合成窗口级440b、534b及后续连接的重迭/相加级440c、534c。当这些转换器及较特定地这些转换器级440a、534a,实施诸如一改良的离散余弦转换的混迭引入转换时,需要这些重迭/相加级。接着,该重迭/相加操作将执行一时域混迭消除(TDAC)。然而,当该转换器应用诸如一反FFT的一非混迭引入转换时,则不需要一重迭/相加级440c。在此一实施中,可施加用以避免区块伪影的一交错淡出操作。
类似地,该组合器600可以是一切换组合器或一交错淡出组合器,或者当混迭被用来避免区块伪影时,类似于在它的一支路内的一重迭/相加级,由该组合器来实施一过渡窗口化操作,。
图1a说明具有两级联开关的本发明的一实施例。一单声道信号、一立体声信号或一多声道信号输入至开关200中。开关200由决策级300控制。该决策级接收一信号作为一输入来输入至区块200中。可选择地,在存在例如当最初产生该单声信号、该立体声信号或该多声道信号时所产生的信息的情况下,该决策级300也可接收被包括在单声道信号、立体声信号或多声道信号中或至少与此一信号相关联的一旁侧信息。
该决策级300开动该开关200以将一信号馈送至在图1a的一上支路说明的该频率编码部分400中或在图1a的一下支路说明的该LPC域编码部分500。该频率域编码支路的一关键组件是频谱转换区块410,该频谱转换区块410可操作地用以将一共同的预处理级输出信号(如后面讨论的)转换成一频谱域。该频谱转换区块可包括一MDCT算法、一QMF、一FFT算法、一小波(Wavelet)分析或一滤波器组,诸如具有某一数目的滤波器组信道的一关键取样滤波器组,其中,在该滤波器组中的一些子频带信号可以是一实数值的信号或复数值的信号。该频谱转换区块410的输出可使用一频谱音频编码器421来编码,如从该AAC编码方案已知,该频谱音频编码器421可以包括处理区块。
大体上,在支路400中的该处理是在一基于感知的模型或信息槽模型中的一处理。因此,该支路仿真人类听觉系统接收声音。与此相反,在支路500中的该处理系用以产生在该激发、残余或LPC域中的一信号。大体上,在支路500中的该处理是在一语音模型或一信息产生模型中的一处理。对于语音信号,该模型是产生声音的人类语音/声音产生系统的一模型。然而,如果来自一不同来源的需要一不同的声音产生模型的一声音要被编码,则在支路500中的该处理可能不同。
在该下编码支路500,一关键组件是一LPC装置510,该LPC装置510输出用来控制一LPC滤波器的一些特性的一LPC信息。该LPC信息被传输至一解码器。该LPC级510的输出信号是一LPC域信号,由一激发信号及/或一加权信号组成。
该LPC装置大体上输出一LPC域信号,该LPC域信号可以是在该LPC域中的任何信号,诸如在图7e中的激发信号或在图7f中的加权信号或通过将LPC滤波器系数施于一音频信号而产生的任何其他信号。此外,一LPC装置也可决定这些系数并且也可量化/编码这些系数。
在该决策级中的该决策可以是信号适应性的,以使得该决策级执行一音乐/语音区分并以音乐信号输入至该上支路400中及语音信号输入至该下支路500中的一方式来控制该开关200。在一实施例中,该决策级将它的决策信息馈送至一输出比特流以使得一解码器可使用该决策信息来执行这些正确的解码操作。
在图1b中说明了该一解码器。由该频谱音频编码器421输出的该信号在传输之后输入至一频谱音频解码器431中。该频谱音频解码器431的输出被输入至一时域转换器440。类似地,图1a的该LPC域编码支路500的输出在该解码器端被接收并由组件531、533、534及532来处理以获得一LPC激发信号。该LPC激发信号被输入至一LPC合成级540,该LPC合成级540接收由该相对应的LPC合成级510所产生的该LPC信息作为一进一步的输入。该时域转换器440的输出及/或该LPC合成级540的输出被输入至一开关600。该开关通过一开关控制信号来被控制,该开关控制信号例如由该决策级300而产生或由外部提供,诸如由该最初的单声道信号、立体声信号或多声道信号的一创建器提供。该开关600的输出是一完整的单声道信号、立体声信号或多声道信号。
到该开关200及该决策级300的输入信号可以是一单声道信号、立体声信号或多声道信号或者一般的一音频信号。视从该开关200输入信号或从任何外部来源(诸如构成输入至级200的该信号的基础的最初音频信号的一产生器)所取得的决策而定,该开关在该频率编码支路400与该LPC编码支路500之间切换。该频率编码支路400包含一频谱转换级410及一随后连接的量化/编码级421。该量化/编码级可包括如自现代的频域编码器(诸如AAC编码器)已知的任何功能。此外,在该量化/编码级421中的量化操作可通过产生感知信息(诸如一感知屏蔽临限)的一感知模块来控制,其中,该信息被输入至该级421。
在该LPC编码支路中,该开关输出信号通过产生LPC旁侧信息及LPC域信号的一LPC分析级510来处理。该激发编码器创造性地包含一额外的开关,用于在该LPC域中的一量化/编码操作522或处理在该LPC频谱域中的值的一量化/编码级524之间切换该LPC域信号的进一步的处理。为此目的,在该量化/编码级524的输入提供一频谱转换器523。该开关521以一开路方式或一闭路方式来控制,视例如在该AMR-WB+技术说明中予以描述的特定设定而定。
针对该闭合回路控制模式,该编码器额外地包括针对该LPC域信号的一反向量化器/编码器531、针对该LPC频谱域信号的一反向量化器/编码器533及针对项533的输出的一反向频谱转换器534。在该第二编码支路的这些处理支路中的编码及解码信号都被输入至该开关控制装置525。在该开关控制装置525中,这两个输出信号彼此相互比较和/或以一目标函数相比较或可基于这两个信号上失真的一比较来计算一目标函数,以使得使用具有较低失真的该信号来决定该开关应该使用哪一位置。另外,在两支路提供非恒定的位率的情况下,可选择提供该较低位率的支路,甚至当该支路的信号噪声比低于另一支路的该信号噪声比时。另外,该目标函数可使用每一信号的该信号噪声比及每一信号的一位率及/或额外的准则(作为一输入)来找到针对一特定目标的最佳决策。如果,例如,目标是使得该位率应该足够低,则该目标函数将极大地依赖于由组件531、534输出的该两信号的位率。然而,当主要目标是针对某一位率具有最佳质量时,则该开关控制525可能例如丢弃在被该允许的位率以上的每一信号,及当两信号在该被允许的位率以下时,该开关控制将选择具有较好信号噪声比(即具有较小量化/编码失真)的信号。
依据本发明的该解码方案(如前所述)在图1b中说明。对于三种可能的输出信号种类,存在一特定的解码/解量化级431、531或533。当级431输出一时间频谱时,使用该频率/时间转换器440将该时间频谱转换成该时域,级531输出一LPC域信号及项533输出一LPC频谱。为了确保到开关532的这些输入信号都在LPC域中,提供了该LPC频谱/LPC转换器534。使用一LPC合成级540将该开关532的输出数据转换回到该时域中,该LPC合成级540是通过编码器端产生及传输的LPC信息来控制。接着,在区块540之后,这两支路都具有依据一开关控制信号切换的时域信息以最终获得视输入至图1a的该编码方案中的信号而定的一音频信号,诸如一单声道信号、一立体声信号或一多声道信号。
图1c说明具有与图4b的原理相类似的该开关521的一不同配置的一进一步的实施例。
图2a说明依据本发明的一第二层面的一较佳编码方案。连接至该开关200输入的一共同的预处理方案可包含一环绕/联合立体声区块101,该环绕/联合立体声区块101产生联合立体声参数及一单声道输出信号作为一输出,该单声输出信号通过降混(downmix)具有两个或多个信道的输入信号而产生。一般地,在区块101的输出处的信号也可以是具有两个或多个信道的一信号,但是由于区块101的降混功能,在区块101输出的信道数将比输入至区块101的信道数较小。
共同的预处理方案可包含(不同于该区块101或除了该区块101以外)一频宽延伸级102。在图2a的实施例中,区块101的输出被输入至该频宽扩展区块102,在图2a的该编码器中,该频宽扩展区块102在它的输出端输出一限制频带的信号,诸如低频信号或低通信号。较佳地,该信号也被下取样(例如以二为因子)。此外,对于输入至区块102的该高频带的信号,诸如如从MPEG-4的HE-AAC概述已知的频谱包络参数、反向滤波参数、噪声层参数等的频宽扩展参数产生并被转送至一比特流去多任务器800。
较佳地,该决策级300接收输入至区块101或输入至区块102的信号以在例如一音乐模式或一语音模式之间决策。在该音乐模式选择上编码支路400,而在该语音模式选择下编码支路500。较佳地,该决策级额外地控制该联合立体声区块101及/或该频宽扩展区块102以使这些区块的功能适应该特定信号。因此,当该决策级确定该输入信号的某一时间部分是诸如该音乐模式的第一模式时,则区块101及/或区块102的特定特征可用该决策级300来控制。另外,当该决策级300决定该信号在一语音模式或大体上在一第二LPC域模式时,则区块101及102的特定特征可依据该决策级输出来控制。
较佳地,使用一MDCT操作(即更特定地为扭曲时间操作)来完成该编码支路400的频谱转换,其中,强度或一般地扭曲强度可在零与一高扭曲强度之间控制。在一零扭曲强度中,在区块411中的MDCT操作是在技艺中已知的一直接MDCT操作。该时间扭曲强度连同时间扭曲旁侧信息可传输/输入至该比特流多任务器800中作为旁侧信息。
在该LPC编码支路中,该LPC域编码器可包括计算一音高(pitch)增益、一音高滞后及/或诸如一码簿索引及增益的码簿信息的一ACELP核心526。从3GPP TS 26.290已知的该TCX模式引起该转换域中一感知加权信号的一处理。使用具有噪声因子量化的一分割多速率格量化(代数VQ)来量化一傅立叶转换的加权信号。在1024、512或256取样窗口中计算一转换。该激发信号通过反向滤波该量化加权信号经过一反向加权滤波器来恢复。
在该第一编码支路中,一频谱转换器较佳地包含一特定调节的MDCT操作,该MDCT操作具有某些窗口函数、可由一单一向量量化级组成的一量化/熵编码级随后,但较佳地是与该频率域编码支路中该量化器/编码器(即图2a中的项421)类似的一结合纯量量化器/熵编码器。
在该第二编码支路中,存在该LPC区块510,其后是一开关521,该开关521又由一ACELP区块526或一TCX区块527随后。ACELP在3GPPTS 26.190中予以描述而TCX在3GPP TS 26.290中予以描述。一般地,该ACELP区块526接收如由在图7e中予以描述的一程序计算的一LPC激发信号。该TCX区块527接收如参照图7f产生的一加权信号。
在TCX,该转换施于通过滤波该输入信号经过一基于LPC的加权滤波器而运算的加权信号。在本发明的较佳实施例中使用的该加权滤波器由(1-A(z/γ))/(1-μz-1)给定。因此,该加权信号是一LPC域信号及其转换是一LPC频谱域。被ACELP区块526处理的信号是该激发信号且与被区块527所处理的信号不同,但这两信号都在LPC域中。
在图2b中说明的解码器端,在区块537中的反向频谱转换之后,应用该加权滤波器的反向,即(1-μz-1)/(1-A(z/γ))。接着,该信号被滤波经过(1-A(z))以进入该LPC激发域。因此,到LPC域区块534及该TCX-1区块537的转换包括反向转换及接着滤波经过以从该加权域转换至该激发域。
虽然在图1a、图1c、图2a、图2c中的项510说明了一单一区块,但是区块510可输出不同的信号,只要这些信号在该LPC域中。区块510的实际模式,诸如该激发信号模式或该加权信号模式可视实际的开关状态而定。另外,该区块510可具有两个并行处理装置,其中一装置类似于图7e而实施及另一装置如图7f而实施。因此,在510的输出处的该LPC域可表示该LPC激发信号或该LPC加权信号或任何其他LPC域信号。
在图2a或图2c的该第二编码支路(ACELP/TCX)中,该信号在编码之前通过一滤波器1-0.68z-1来预加强。在图2b的该ACELP/TCX解码器中,该合成信号被该滤波器1/(1-0.68z-1)去加强。该预加强可以是LPC区块510的一部分,其中,该信号在LPC分析及量化之前被预加强。类似地,去加强可以是该LPC合成区块LPC-1540的一部分。
图2c说明针对图2a的实施的一进一步的实施例,但却具有类似于图4b的原理的该开关521的一不同的配置。
在一较佳实施例中,该第一开关200(见图1a或图2a)通过一开路决策来控制(如图4a中)及该第二开关通过一闭路决策来控制(如图4b中)。
例如,图2c具有如在图4b中置于该ACELP及TCX支路之后的第二开关。接着,在该第一处理支路中,该第一LPC域表示LPC激发,及在该第二处理支路中,该第二LPC域表示LPC加权信号。即,该第一LPC域信号通过滤波经过(1-A(z))以转换至LPC残余域来获得,而该第二LPC域信号通过滤波经过滤波器(1-A(z/γ))/(1-μz-1)以转换至LPC加权域来获得。
图2b说明与图2a的编码方案相对应的一解码方案。由图2a的比特流多任务器800产生的比特流输入至一比特流去多任务器(demultiplexer)900。视例如从经由一模式检测区块601的比特流而取得的一信息而定,控制一解码器端开关600转送来自该上支路的信号或者来自该下支路的信号至该频宽扩展区块701。该频宽扩展区块701从该比特流去多任务器900接收旁侧信息并基于开关600输出的低频带重建该高频带。
由区块701产生的全频带信号输入至重建两立体声信道或几个多信道的联合立体声/环绕处理级702。一般地,区块702将输出比输入至此区块较多的信道。视应用而定,到区块702的该输入甚至可包括诸如在一立体声模式中的两信道或甚至可包括多个信道,只要该区块的输出具有比到此区块的输入多的信道。
开关200已显示为在两支路之间切换以使得只有一支路接收一信号来处理而另一支路并不接收一信号来处理。在一可选择的实施例中,然而,该开关也可配置在例如音频编码器421及激发编码器522、523、524之后,这意味着两支路400、500并行地处理相同的信号。为了不使位率翻倍,然而,只有由这些编码支路400或500中的一支路输出的信号被选择写入至该输出比特流中。该决策级接着将运作以使得写入至该比特流中的该信号最小化某一成本函数,其中,该成本函数可以是产生的位率或产生的感知失真或一结合的比率/失真成本函数。因此,在该模式或在多个图中说明的模式中,该决策级也可在一闭路模式中运作以确认最终只有该编码支路被写入至对于一给定感知失真具有最低的位率或对于一给定的位率具有最低的感知失真的该比特流。在该闭路模式中,该馈送输入可自图1a中的该三个量化器/定标器区块421、522及424的输出而取得。
在具有两开关(即该第一开关200及该第二开关521)的实施中,较佳的是,针对第一开关的该时间分辨率比针对第二开关的该时间分辨率较低。换言之,到该第一开关的该输入信号的这些区块(通过一开关操作而切换)比由在该LPC域中运作的该第二开关切换的这些区块较大。示范地,该频域/LPC域开关200可切换长度为1024取样的区块,及该第二开关521可切换每个具有256取样的区块。
虽然图1a至图10b中的一些说明为一装置的一方块图,但是这些图同时是一方法的一说明,其中,多个方块功能对应于多个方法步骤。
图3a说明用于产生一编码的音频信号作为该第一编码支路400及一第二编码支路500的一输出的一音频编码器。此外,该编码的音频信号较佳地包括旁侧信息,诸如来自该共同预处理级的预处理参数或如针对前图所作讨论的开关控制信息。
较佳地,该第一编码支路是可操作的,以依据一第一编码算法编码一音频中间信号195,其中,该第一编码算法具有一信息槽模型。该第一编码支路400产生作为该音频中间信号195的一编码的频谱信息表示的第一编码输出信号。
此外,该第二编码支路500适于依据一第二编码算法来编码音频中间信号195,该第二编码算法具有一信息来源模型并针对表示该中间音频信号的该信息来源模型产生(在一第二编码器输出信号中)编码的参数。
该音频编码器更进一步包含用于预处理一音频信号99以获得该音频中间信号195的共同预处理级。特定地,该共同预处理级可操作地用以处理该音频输入信号99以使得该音频中间信号195(即该共同预处理算法的输出)是该音频输入信号的一压缩版本。
用于产生一编码的音频信号的音频编码的一较佳的方法包含:依据一第一编码算法编码400一音频中间信号195的一步骤,该第一编码算法具有一信息槽模型并产生(在一第一输出信号中)表示该音频信号的编码的频谱信息;依据一第二编码算法编码500一音频中间信号195的一步骤,该第二编码算法具有一信息来源模型并产生(在一第二输出信号中)针对表示该中间信号195的信息来源模型的编码的参数;以及共同地预处理100一音频输入信号99以获得该音频中间信号195的一步骤,其中在共同预处理该步骤中,该音频输入信号99被处理以使得该音频中间信号195是该音频输入信号99的一压缩版本,其中,该编码的音频信号针对该音频信号的某一部分而包括该第一输出信号或该第二输出信号。该方法较佳地包括进一步的步骤:使用该第一编码算法或使用该第二编码算法来编码该音频中间信号的某一部分或使用这两种算法来编码该信号,并将该第一编码算法的结果或该第二编码算法的结果输出在一编码的信号中。
一般地,在该第一编码支路400中使用的该音频编码算法反映并仿真一音频槽中的情况。一音频信息的槽通常是人类耳朵。人类耳朵可被仿真为一频率分析器。因此,该第一编码支路输出编码的频谱信息。较佳地,该第一编码支路更进一步包括用于额外地施加一感知屏蔽临限的一感知模型。当量化音频频谱值时使用该感知屏蔽临限,其中较佳地,该量化被执行使得通过量化隐藏在该感知屏蔽临限以下的这些频谱音频值,而引入一量化噪声。
该第二编码支路表示反映声音产生的一信息来源模型。因此,信息来源模型可包括一语音模型,该语音模型通过一LPC分析级而反映,即通过将一时域信号转换成一LPC域并通过随后处理该LPC残余信号(即该激发信号)。然而,可选择的声音来源模型是用于表示某一乐器的声音来源模型或任何其他声音产生器,诸如存在在现实世界中的一特定声音来源。当例如基于一SNR计算,即基于这些来源模型是最适于编码一音频信号的某一时间部分及/或频率部分的一计算,可得几个声音来源模型时,可执行不同声音来源模型之间的一选择。然而,较佳地,在该时域中执行编码支路之间的切换,即使用一模型编码某一时间部分并使用另一编码支路编码该中间信号的某一不同的时间部分。
用某些参数来表示信息来源模型。当考虑一现代语音编码器诸如AMR-WB+时,至于该语音模型,这些参数是LPC参数及编码的激发参数。该AMR-WB+包含一ACELP编码器及一TCX编码器。在此情况中,这些编码的激发参数可以是全域增益、噪声层及变化的长度编码。
图3b说明相对应于图3a中说明的该编码器的一解码器。大体上,图3b说明用于解码一编码的音频信号以获得一解码的音频信号799的一解码器。该解码器包括用于解码依据具有一信息槽模型的一第一编码算法而编码的一编码的信号的该第一解码支路450。该音频解码器更进一步包括用于解码依据具有一信息来源模型的一第二编码算法而编码的一编码的信息信号的一第二解码支路550。该音频解码器更进一步包括用于将来自该第一解码支路450与该第二解码支路550的输出信号相组合以获得一组合的信号的一组合器。在图3b中说明的该组合的信号作为该解码的音频中间信号输入至用于后处理该解码的音频中间信号699(由组合器600输出的该组合的信号)的一共同后处理级,以使得该共同预处理级的一输出信号是该组合的信号的扩充版本。因此,该解码音频信号799较之该解码的音频中间信号699具有一增强的信息内容。此信息扩充在预/后处理参数的帮助下由该共同后处理级提供,这些预/后处理参数可从一编码器传输至一解码器或可从该解码的音频中间信号本身取得。然而,较佳地,预/后处理参数自一编码器传输至一解码器,因为该程序允许该解码音频信号的一改良的质量。
图3c说明用于解码一音频输入信号195的一音频解码器,依据本发明的较佳实施例,该音频输入信号195可等同于图3a的该中间音频信号195。该音频输入信号195出现在一第一域中,该第一域例如可以是时域但其也可以是任何其他域,诸如一频域、一LPC域、一LPC频谱域或任何其他域。大体上,由一转换算法(诸如现有的时间/频率转换算法或频率/时间算法中的任一者)来执行自一域至另一域的转换。
例如自该时域至该LPC域的一可选择的转换是滤波一时域信号的LPC的结果,其引起一LPC残余信号或激发信号。随着可能出现的情况可使用产生在转换前对大量的信号取样具有影响的一滤波信号的任何其他的滤波操作作为一转换算法。因此,使用一基于LPC的加权滤波器对一音频信号加权是一进一步的转换,该转换在该LPC域中产生一信号。在一时间/频率转换中,对一单一频谱值的修改对在转换之前的所有时域值都具有影响。类似地,对任何时域取样的修改将对每一频域取样具有影响。类似地,对在一LPC域情况中的激发信号的一取样的一修改由于该LPC滤波器的长度将对在该LPC滤波之前的大量取样具有影响。类似地,由于该LPC滤波器的内在的内存效应,在一LPC转换之前对一取样的一修改将对该LPC转换所获得的许多取样具有影响。
图3c的该音频编码器包括产生一第一编码信号的一第一编码支路400。此第一编码信号可以是在一第四域中,在该较佳实施例中,该第四域是该时间频谱域,即当一时域信号经由一时间/频率转换被处理时所获得的域。
因此,用于编码一音频信号的该第一编码支路400使用一第一编码算法来获得一第一编码信号,其中,该第一编码算法可以包括或不包括一时间/频率转换算法。
该音频编码器更进一步包括用于编码一音频信号的一第二编码支路500。该第二编码支路500使用与该第一编码算法不同的一第二编码算法来获得一第二编码信号。
该音频编码器更进一步包括一第一开关200,该第一开关200用于在该第一编码支路400与该第二编码支路500之间切换以使得对于该音频输入信号的一部分,在区块400输出的该第一编码信号或在该第二编码支路输出的该第二编码信号被包括在一编码器输出信号中。因此,当对于该音频输入信号195的某一部分,在该第四域中的第一编码信号被包括在该编码器输出信号中时,作为在该第二域中的第一处理信号或作为在该第三域中的第二处理信号的该第二编码信号不被包括在该编码器输出信号中。这确保了该编码器在位率上是高效的。在实施例中,被包括在两个不同的编码信号中的该音频信号的任何时间部分与如将针对图3e讨论的一帧的一帧长度相比是小的。在一开关事件的情况下,这些小部分针对自一编码信号至另一编码信号的一交错淡出是有用的,以减少在没有任何交错淡出的情况下可能出现的伪影。因此,除开该交错淡出的区域,用只有一单一域的一编码信号来表示每一时域区块。
如图3c所述,该第二编码支路500包含用于将在该第一域中的该音频信号(即信号195)转换至一第二域中的一转换器510。此外,该第二编码支路500包含一第一处理支路522,该第一处理支路522用于处理在该第二域中的一音频信号以获得也在该第二域中的一第一处理的信号,使得该第一处理支路522没有执行一域改变。
该第二编码支路500更进一步包含一第二处理支路523、524,该第二处理支路523、524将在该第二域中的该音频信号转换至一第三域中并处理在该第三域中的该音频信号以在该第二处理支路523、524的输出获得一第二处理的信号,其中该第三域与该第一域不同且也与该第二域不同。
此外,该第二编码支路包含一第二开关521,该第二开关521用于在该第一处理支路522与该第二处理支路523、524之间切换以使得对于输入至该第二编码支路中的该音频信号的一部分,在该第二域中的该第一处理信号或在该第三域中的该第二处理信号均在第二编码信号中。
图3d说明用于解码由图3c的该编码器产生的一编码的音频信号的一相对应的解码器。除去一可取舍的交错淡出区域,该交错淡出区域较之一帧的长度优选地较短,以获得尽可能在该关键取样极限的一系统,用一第二域信号、一第三域信号或一第四域编码信号来表示该第一域音频信号的每一区块。该编码的音频信号包括该第一编码信号、在一第二域中的一第二编码信号及在一第三域中的一第三编码的信号,其中,该第一编码信号、该第二编码信号、该第三编码的信号都涉及该已解码的音频信号的不同的时间部分,并且其中对于一已解码的音频信号而言,该第二域、该第三域以及该第一域彼此都是不同的。
该解码器包含用于基于该第一编码算法解码的一第一解码支路。该第一解码支路在图3d中的431、440说明及较佳地包含一频率/时间转换器。该第一编码信号较佳地在一第四域中且被转换至针对该已解码的输出信号的该第一域中。
图3d的该解码器更进一步包含一第二解码支路,该第二解码支路包含几个组件。这些组件是一第一反向处理支路531,该第一反向处理支路531用于反向处理该第二编码信号以在项531的输出获得在该第二域中的一第一反向处理的信号。该第二解码支路更进一步包含一第二反向处理支路533、534,该第二反向处理支路533、534用于反向处理一第三编码的信号以获得在该第二域中的一第二反向处理的信号,其中,该第二反向处理支路包含用于自该第三域转换至该第二域的一转换器。
该第二编码支路更进一步包含一第一组合器532,该第一组合器532用于将该第一反向处理的信号与该第二反向处理的信号相组合以获得在该第二域中的一信号,其中该已组合的信号在该第一时间瞬时只受该第一反向处理的信号影响及在一随后时间瞬时只受该第二反向处理的信号影响。
该第二解码支路更进一步包含用于将该已组合的信号转换至该第一域的一转换器540。
最后,在图3d中说明的该解码器包含一第二组合器600,该第二组合器600用于将来自区块431、440的该已解码的第一信号与该转换器540输出信号相组合以获得在该第一域中的一已解码的输出信号。再者,在该第一域中的该已解码的输出信号在该第一时间瞬时只受由该转换器540输出的信号影响及在一随后时间瞬时只受由区块431、440输出的该第一已解码的信号影响。
从一编码器的观点,在图3e中说明了此情况。图3e中的上部分在示意表示中说明一第一域音频信号,诸如一时域音频信号,其中该时间索引自左至右增加及项3可被认为表示图3c中的该信号195的一连串音频取样。图3e说明可通过在该第一编码信号与该第一处理信号和第二处理信号(如在图3e中的项4说明)之间切换而产生的帧3a、3b、3c、3d。该第一编码信号、该第一处理的信号及该第二处理的信号都在不同的域中,并且为了确保在这些不同域之间的切换在该解码器端不导致一伪影,该时域信号的帧3a、3b具有指示为一交错淡出区域的一重迭范围,及该交错淡出区域在帧3b及3c。然而,在帧3d、3c之间不存在此交错淡出区域,这意味着,帧3d也由一第二处理的信号(即在该第三域中的一信号)来表示,及在帧3c与3d之间不存在域改变。因此,大体上,在不存在域变化的情况下不提供一交错淡出是较佳的,而当存在一域变化(即该两开关当中的一的一切换动作)时要提供一交错淡出区域,即由两随后已编码/处理信号编码的该音频信号的一部分。较佳地,交错淡出是针对其他域变化而执行。
在该第一编码信号或该第二处理的信号已通过具有例如50%重迭的一MDCT处理而产生的实施例中,每一时域取样被包括在两随后帧中。然而,由于该MDCT的多个特性,这并不导致一负担,因为该MDCT是一关键取样系统。在本文中,关键取样的意思是,频谱值数目等于时域值数目。该MDCT的优点在于:在没有一特定的交越区域的情况下提供交越效果,以使得在没有将违反关键取样需求的任何负担的情况下提供自一MDCT区块至下一MDCT区块的一交越。
较佳地,在该第一编码支路中的该第一编码算法是基于一信息槽模型,及在该第二编码支路中的该第二编码算法是基于一信息来源模型或一SNR模型。一SNR模型是并不特定地涉及一特定声音产生机制但为可例如基于一闭合回路决策从多个编码模式中选择的一模式。因此,一SNR模型是任何可得的编码模型,但是其未必必须涉及该声音产生器的实体组成,而是其为与该信息槽模型不同的任何参数化的编码模型,可通过一闭合回路决策及特定地通过比较来自不同模型的不同的SNR结果来选择。
如在图3c中所说明,提供一控制器300、525。该控制器可包括图1a的该决策级的多个功能且额外地可包括图1a的该开关装置525的功能。大体上,该控制器是用于以一信号调节的方式来控制该第一开关及该第二开关。该控制器可操作地用以分析输入至该第一开关或由该第一或该第二编码支路输出的一信号,或针对一目标函数通过来自该第一及该第二编码支路的编码及解码而获得的信号。可选择地或额外地,该控制器可操作地用以分析输入至该第二开关或由该第一处理支路或该第二处理支路输入或通过针对一目标函数来自该第一处理支路及该第二处理支路的处理及反向处理而获得的信号。
在一实施例中,该第一编码支路或该第二编码支路包含一混迭引入时间/频率转换算法,诸如与引入一混迭效果的一直接FFT转换不同的一MDCT或一MDST算法。此外,一个或两个支路包含一量化器/熵编码器区块。特定地,只有该第二编码支路的该第二处理支路包括引入一混迭操作的该时间/频率转换器,及该第二编码支路的该第一处理支路包含一量化器及/或熵编码器且不引入任何混迭效果。该混迭引入时间/频率转换器较佳地包含用于实施一分析窗口及一MDCT转换算法的一窗口化器。特定地,该窗口化器可操作地用于以一重迭方式将该窗口函数施于随后帧以使得一窗口化的信号的一取样出现在至少两随后的窗口化帧中。
在一实施例中,该第一处理支路包含一ACELP编码器及一第二处理支路包含一MDCT频谱转换器及用于量化频谱分量以获得量化的频谱分量的量化器,其中,每一量化的频谱分量为零或由这些多个不同的可能的量化器索引的一量化器索引来定义。
此外,较佳的是,该第一开关200以一开环回路方式运作而该第二开关以一闭合回路方式运作。
如前所述,这两编码支路可操作地以按组方式来解码该音频信号,其中该第一开关或该第二开关以按组方式切换以使得一切换动作至少在一信号的一预定数目的取样的一区块的后发生,该预定数目针对相对应的开关形成一帧长度。因此,用于该第一开关切换的区组可能为例如2048或1028取样的一区块,及该帧长度(该第一开关200基于其切换)是可变的但较佳地固定于这样相当长的周期。
与此相反,即,当该第二开关521自一模式至另一模式切换时,针对该第二开关521的该区块长度实质上比针对该第一开关的该区块长度较小。较佳地,针对开关的这两区块长度被选择为以使得该较长区块长度是该较短区块长度的整数倍。在该较佳实施例中,该第一开关的该区块长度是2048或1024及该第二开关的该区块长度是1024或又较佳地512、以及更较佳地为256、及更较佳地为128取样,以使得当该第一开关仅切换一单一次时该第二开关最多可切换16次。然而,一较佳最大区块长度比为4∶1。
在一进一步的实施例中,该控制器300、525可操作地以相对于对音乐的一决策而偏好对语音的一决策的一方式来执行针对该第一开关的一语音音乐区分。在该实施例中,即便当针对该第一开关的不到一帧的50%的一部分是语音及多于该帧50%的该部分是音乐时也采用对语音的一决策。
此外,当该第一帧的一相当小的部分是语音及特定地是该较小第二帧的长度的50%的该第一帧的一部分是语音时,该控制器可操作地已经切换至该语音模式。因此,即便当例如只有一区块的6%或12%相对应于该第一开关的该帧长度时,一较佳语音/偏好切换决策已经切换至语音。
此程序是较佳地以完全利用在一实施例中具有一有声语音核心的该第一处理支路的位率节省能力且甚至对非语音的该大第一帧的剩余也不放松任何质量,由于该第二处理支路包括一转换器及因此对于具有非语音信号的音频信号也是有用的。较佳地,此第二处理包括一重迭MDCT,该重迭MDCT被关键取样且即便在小窗口大小也提供一高效且免混迭操作,由于该时域混迭消除,诸如在该解码器端的重迭及相加。此外,针对该第一编码支路(较佳地是一类似AAC的MDCT编码支路)的一大的区块长度是有用的,因为非语音信号通常相当静止及一长转换窗口提供一高频分辨率及进而高质量,及额外地由于一感知控制的量化模块提供一位率效率,该感知控制的量化模块在该第二编码支路的该第二处理支路中也可施于该基于转换的编码模式。
就图3d解码器图解而言,较佳地,该传输信号包括一显式的指示符作为如在图3e中所说明的旁侧信息4a。此旁侧信息4a由未在图3d中说明的一比特流剖析器来撷取以将该相对应的第一编码信号、第一处理信号或第二处理信号转送至该正确的处理器,诸如在图3d中的该第一解码支路、该第一反向处理支路或该第二反向处理支路。因此,解码信号不仅具有该编码/解码的信号而且包括相关于这些信号的旁侧信息。然而,在其他实施例中,可存在允许一解码器端比特流剖析器在某些信号之间区分的一隐式传讯。就图3e而言,概述的是,该第一处理信号或该第二处理信号是该第二编码支路及进而是该第二编码信号的输出。
较佳地,该第一解码支路及/或该第二反向处理支路包括自该频谱域转换至该时域的一MDCT换。为此目的,提供一重迭相加器来执行一时域混迭消除功能,该域混迭消除功能与此同时提供一交错淡出效果以避免区块化伪影。大体上,该第一解码支路将在该第四域中编码的一单一编码转换至该第一域中,而该第二反向处理支路执行自该第三域至该第二域的一转换,及随后连接至该第一组合器的该转换器提供自该第二域至该第一域的一转换以使得在该组合器600的输入只有第一域信号,这在第3d图实施例中表示该解码的输出信号。
图4a及图4b说明两个不同的实施例,它们在该开关200的定位上不同。在图4a中,该开关200定位在共同预处理级100的一输出与该两编码的支路400、500的输入之间。图4a实施例确保该音频信号仅输入至一单一编码支路中,而并未连接至该共同预处理级的输出的另一编码支路没有运作及因而被关掉或在一休眠模式。此实施例是较佳的在于:该非活动编码支路并不消耗对行动应用(尤其是受电池供电及因而具有对电力消耗的一般限制的行动应用)有用的电力及运算资源。
然而,另一方面,当电力消耗不是一问题时,图4b的实施例可能是较佳的。在此实施例中,编码支路400、500都一直是活动的,且只有针对某一时间部分及/或某一频率部分的该已选定的编码支路的输出被转送至可作为一比特流多任务器800而实施的该比特流格式器。因此,在图4b的实施例中,这两编码支路都一直是活动的,及由该决策级300所选定的一编码支路的输出进入该输出比特流,而另一未选定的编码支路400的输出被丢弃,即没有进入该输出比特流,即该编码的音频信号。
较佳地,该第二编码规则/解码规则是一基于LPC的编码算法。在基于LPC的语音编码中,给出准周期性类似脉冲激发信号段或信号部分与类似噪声激发信号段或信号部分之间的一区别。这针对如在图7b中的很低位率LPC语音编码器(2.4kbps)而执行。然而,在中等速率CELP编码器中,该激发是针对来自一适应性码簿及一固定码簿的标度向量的相加而获得。
准周期性类似脉冲激发信号段,即具有一特定音高的信号段,与类似噪声的激发信号相比以不同的机制来编码。当准周期性类似脉冲激发信号连接至有声语音时,类似噪声的信号有关于无声的语音。
示范地,参考图5a至图5d。这里,准周期性类似脉冲信号段或信号部分与类似噪声信号段或信号部分是示范性讨论。特定地,在图5a的该时域及图5b的该频域中说明的一有声语音是作为针对一准周期性类似脉冲信号部分的一范例而讨论,及针对图5c及图5d而讨论的一无声语音段作为一类似噪声信号部分的一范例。语音可大体上被分类为有声的、无声的或混合的。在图5a至图5d显示了针对取样的有声及无声段的时间及频率域图。有声语音在时域中是准周期的且在频域中是谐波建构的,而无声语音是类似随机且宽频带的。有声语音的短时间频谱以其细谐波共振峰结构为特征。该细谐波结构是语音的准周期性的结果且有助于振动声带(vocal chord)。该共振峰结构(频谱包络)是由于来源与声道(vocal tract)的交互作用。声道由咽与口腔组成。由于声门脉冲,“适合”有声语音的短时间频谱的该频谱包络的形状与声带及频谱倾斜(6db/八音度)的转移特性相关联。该频谱包络(spectral envelope)以被称为共振峰的一组峰值为特征。这些共振峰是声带的一些共振模式。对于一般声带,存在三至五个共振峰在5kHz以下。该前面三个共振峰的振幅及位置(通常出现在3kHz以下)在语音合成级感知上都十分重要。对于宽带带及无声语音表示较高共振峰也是重要的。语音的这些属性有关于如下的物理语音产生系统。有声语音通过用该震动声带所产生的准周期声门空气脉冲来激发声道而产生。这些周期型的脉冲的频率称为基本频率或音高。无声语音通过迫使空气经过声道内的一压缩而产生。鼻音通过突然释放道内闭合后形成的空气压力而产生。
因此,该音频信号的一类似噪声部分不显示如在图5c说明的任何类似脉冲的时域结构也不显示及如在图5d中说明的谐波频域结构,其与例如在图5a及图5b中所说明的该准周期性类似脉冲部分不同。然而,如随后概述,在针对该激发信号的一LPC之后也可观测到类似噪声部分与准周期性类似脉冲部分之间的不同。该LPC是仿真声道并从该信号撷取这些声道的激发的一方法。
此外,准周期性类似脉冲部分及类似噪声部分可以及时出现,即,这意味着,该音频信号的一部分在时间上是噪声的且该音频信号的另一部分在时间上是准周期性的,即音调的。可选择地或额外地,一信号的特性在不同频带中可不同。因此,该音频信号是噪声的还是音调的的决定也可是频率选择性地执行以使得某一频带或几个频带被认为是噪声的而其他频带被认为是音调的。在此情况中,该音频信号的某一时间部分可能包括音调分量及噪声分量。
图7a说明一语音产生系统的一线性模型。该系统假定一个二级激发,即,如图7c所示一脉冲序列针对有声语音及如图7d所示一随机噪声针对无声语音。声道被仿真为处理由声门模型72产生的图7c或图7d的脉冲的一全极点滤波器70。因此,图7a的系统可缩至具有一增益级的图7b的一全极点滤波器、一转送路径、一回馈路径79及一相加级80。在该回馈路径79,存在一预测滤波器81,及可使用如下的z域功能来表示在图7b中说明的整个仿真来源合成系统:
S(z)=g/(1-A(z))·X(z),
其中,g表示增益,A(z)是由一LP分析决定的预测滤波器,X(z)是激发信号,及S(z)是合成语音输出。
图7c及图7d给出使用该线性来源系统模型的有声及无声语音合成的一图形时域描述。该系统及在上面等式中的这些激发参数是未知的而必须根据语音取样的一有限组来决定。使用该输入信号的一线性预测及一些滤波器系数的一量化来获得A(z)的一些系数。在一p阶转送线性预测器中,该语音序列的目前取样是根据p通过取样的一线性组合来预测。这些预测器系数可由现有算法来决定,诸如礼宾生-杜宾(Levinson-Durbin)算法或一般地一自动相关方法或一反射方法。
图7e说明该LPC分析区块510的一较详细的实施。该音频信号输入至决定该滤波器信息(A(z))的一滤波器决定区块。此信息作为一解码器需要的短期预测信息而输出。该实际预测滤波器85需要该短期预测信息。在一减法器86中,该音频信号的一目前取样被输入及针对该目前取样的一预测值被相减以使得在线84产生该预测误差信号。在图7c或图7d中很示意地说明了此类预测误差信号取样的一序列。因此,图7a图、7b可被认为当作一修正的类似脉冲信号。
图7e说明计算该激发信号的一较佳方式,图7f说明计算该加权信号的一较佳方式。与图7e对比,当γ不是1时,该滤波器85不同。对于γ,A值小于1是较佳的。此外,出现该区块87,及μ较佳的是小于1的一数。大体上,在图7e及图7f中的这些组件可如在3GPP TS 26.190或3GPP TS26.290中实施。
图7g说明可施于该解码器端(诸如图2b中的组件537)上的一反向处理。特定地,区块88自该加权信号产生一未加权信号及区块89根据该未加权信号计算一激发。一般地,处理图7g中的该未加权信号以外的所有信号在该LPC域中,但该激发信号与该加权信号在同一域中是不同信号。区块89输出一激发信号,该激发信号随后可连同区块536的输出而使用。接着,在图2b中的区块540可执行该共同反向LPC转换。
随后地,将针对图6讨论一综合分析CELP编码器以说明施于此算法的多个修改。此CELP编码器在1994年十月IEEE学报第82卷第10号第1541至1585页Andreas Spaniasdi的“Speech Coding:A Tutorial Review”中详细讨论。在图6中说明的该CELP编码器包括一长期预测分量60及一短期预测分量62。此外,使用在64指示的一码簿。在66实施一感知加权滤波器W(z),及在68提供一误差最小化控制器。s(n)是该时域输入信号。在已被感知加权的后,该加权信号输入至一减法器69中,计算在区块66的输出的该加权合成信号与原始加权信号sw(n)之间的误差。一般地,这些短期预测滤波器系数A(z)由一LPC分析级来计算且其系数在上被量化,如在图7e中所示。对在该LPC分析级(在图7e中为10a)的输出的该预测误差信号计算包括该长期预测增益g及该向量量化索引(即码簿参考)的该长期预测信息AL(z)。这些LTP参数是音高延迟及增益。在CELP中,这通常是作为包含过去激发信号(而非残余)的一适应性码簿而实施。该适应性CB延迟及增益是通过最小化该均方加权误差(闭回路音高搜寻)而发现。
接着,该CELP算法对在该短期及长期预测之后使用例如Gaussian序列的一码簿而获得的该残余信号编码。该ACELP算法(其中“A”代表“代数的”)具有一特定代数设计的码簿。
一码簿可包含或多或少的向量,其中每一向量为一些取样长。一增益因子g改变该码向量的大小及该增益的码由该长期预测合成滤波器及该短期预测合成滤波器滤波。该“最佳”码向量被选择以使得在该减法器69的输出该感知加权均方误差被最小化。如图6说明,由一综合分析最佳化来完成该搜寻过程。
对于特定情况,当一帧是无声与有声语音的一混合或当音乐中的语音出现时,一TCX编码可较适于编码该LPC域中的该激发。该TCX编码在没有对激发产生作任何假设的情况下处理该频域中的该加权信号。该TCX于是比CELP编码较一般且不限制于该激发的一有声或一无声来源模型。TCX仍是一来源导向的模型编码,使用一线性预测滤波器仿真这些具语音特征信号的这些共振峰。
在AMR-WB+-编码中,自该AMR-WB+描述中得知进行不同TCX模式与ACELP之间的一选择。这些TCX模式的不同在于针对不同模式按组离散傅立叶转换的长度是不同的及该最佳模式可通过一综合分析方法或一直接“前馈”模式来选择。
如结合图2a及图2b讨论,该共同预处理级100较佳地包括一联合多声道(环绕/联合立体声装置)101及额外地一频宽延伸级102。相对应地,该解码器包括一频宽延伸级701及一随后的连接联合多声道级702。较佳地,就该编码器而言,该联合多声道级101在该频宽延伸级102的前连接,而在该解码器端,就该信号处理方向而言,该频宽延伸级701在该联合多声道级702的前连接。然而,可选择地,该共同预处理级可包括在没有该随后连接的频宽延伸级的情况下的一联合多声道级或在没有一连接的联合多声道级的情况下的一频宽延伸级。
在图8的脉络中说明了在该编码器端101a、101b及在该解码器端702a及702b上的一联合多声道级的一较佳范例。E数个原始输入信道输入至该降混器101a以使得该降混器产生K数个传输的信道,其中,该数K大于或等于一并小于或等于E。
较佳地,该E个输入信道输入至产生参数信息的一联合多声道参数分析器101b。用诸如一不同的编码及随后的霍夫曼(Huffman)编码或可选择地随后的算术编码来较佳地熵编码该参数信息。由区块101b输出的该编码的参数信息被传输至可以是图2b中的项702的一部分的一参数解码器702b。该参数解码器702b对该传输的参数信息解码并将该解码信息转送至该上混器702a。该上混器702a接收该K传输的信道并产生L数个输出信道,其中,该数L大于或等于K且小于或等于E。
参数信息可包括内部信道位准差异、内部信道时间差异、内部信道相位差异及/或内部信道一致量测,如自BCC技术已知或如在MPEG环绕标准中已知或详细描述。传输信道数可以是针对超低位率应用的一单一单信道或可包括一兼容的立体声应用或可包括一兼容的立体声信号即两信道。典型地,该E数个输入信道可以是五个或可能更高。可选择地,如在空间音频对象编码(SAOC)的脉络中已知,该E数个输入信道也可以是E个音频对象。
在一实施中,该降混器执行对该原始E个输入信道的一加权或未加权相加或对该E个输入音频对象的一相加。如果音频对象作为输入信道,该联合多声道参数分析器101b将计算音频对象参数,诸如较佳地针对每一时间部分及更较佳地针对每一频带的这些音频对象之间的一相关矩阵。为此目的,整个频率范围可划分为至少10且较佳地32或64频带。
图9说明该频宽延伸级102(在图2a中)与该相对应的频宽延伸级701(在图2b中)的实施的一较佳实施例。在该解码器端,该频宽扩展区块102较佳地包括一低通过滤波区块102b、在该低通的后或是该反向QMF的一部分、只在这些QMF频带一半发挥作用的一降取样器区块及一高频带分析器102a。输入至该频宽扩展区块102中的该原始音频信号被低通滤波以产生该低频信号,该低频信号接着输入至这些编码支路及/或该开关。该低通滤波器具有可以在3kHz至10kHz的一范围内的一截止频率。此外,该频宽扩展区块102进一步包括一高频带分析器,该高频带分析器用于计算这些频宽扩展参数,诸如一频谱包络参数信息、一噪声层参数信息、一反向滤波参数信息、有关于该高频带中某些谐波线的进一步的参数信息及如在该MPEG-4标准有关于频带复制的章节中详细讨论的额外的参数。
在该解码器端,该频宽扩展区块701包括一补节机(patcher)701a、一调整器701b及一组合器701c。该组合器701c将该解码的低频信号与该调整器701b输出的该重建的及调整的高频信号相组合。一补节机提供至该调整器701b的输入,该补节机被操作以自该低频信号取得该高频信号,诸如通过频带复制或一般地通过频宽扩展。由该补节机所执行的该补节可以是以一谐波方式或一非谐波方式执行的一补节。由该补节机701a所产生的该信号随后被使用该传输的参数频宽扩展信息的该调整器701b调整。
如在图8及图9所示,在一较佳实施例中这些描述的区块可具有一模式控制输入。此模式控制输入自该决策级300输出信号取得。在此一较佳实施例中,一相对应的区块的一特性可适于该决策级输出,即无论在一较佳实施例中对语音的一决策或对音乐的一决策是针对该音频信号的某一时间部分而作出。较佳地,该模式控制仅有关于这些区块的这些功能的一个或多个功能而非有关于区块的所有功能。例如,该决策可仅影响该补节机701a而不影响在图9中的其他区块,或例如可仅影响图8中的该联合多声道参数分析器101b而没有图8中的其他区块。此实施是较佳地以使得通过在该共同预处理级中灵活地提供而获得一较高灵活性且较高质量且较低位率输出信号。然而,另一方面,在该共同预处理级中针对这两种信号的算法的使用允许实施一高效编码/解码方案。
图10a及图10b说明该决策级300的两个不同的实施例。在图10a中指示了一开环回路决策。这里,在该决策级中的该信号分析器300a具有某些规则以决定该输入信号的特定时间部分或某一频率部分是否具有需要此信号部分由该第一编码支路400或该第二编码支路500来编码的一特性。为此目的,该信号分析器300a可分析到该共同预处理级的该音频输入信号或可分析由该共同预处理级输出的该音频信号(即该音频中间信号)或可分析在该共同预处理级中的一中间信号,诸如可以是一单信道信号或可以是具有k信道的一信号(在图8中所示)的降混信号的输出。在该输出端,该信号分析器300a产生用于控制在该编码器端上的该开关200及在该解码器端上的该相对应的开关600或该组合器600的切换决策。
虽然没有针对该第二开关521详细讨论,但是要强调的是,该第二开关521可以以与如针对图4a及图4b讨论的该第一开关200相类似的一方式而被定位。因此,在图3c中开关521的一可选择的位置在两处理支路522、523、524的输出以使得这两处理支路并行运作且只有一处理支路的输出经由未在图3c中说明的一比特流成型器写入至一比特流。
此外,该第二组合器600可具有如在图4c中讨论的一特定交错淡出功能。可选择地或额外地,该第一组合器532可能具有相同的交错淡出功能。此外,这两组合器可具有相同的交错淡出功能或可具有不同的交错淡出功能或可根本没有交错淡出功能以使得这两组合器在没有任何额外的交错淡出功能的情况下切换。
如前面讨论,可通过如针对图10a及图10b讨论的一开环回路决策或一闭回路决策来控制这两开关,其中图3c中的该控制器300、525针对这两开关可具有不同的或相同的功能。
此外,信号适应性的一时间扭曲功能可不仅存在于该第一编码支路或第一解码支路中而且也可存在在该编码器端上与该解码器上的该第二编码支路的该第二处理支路中。视一处理的信号而定,这两时间扭曲功能可具有相同的时间扭曲信息以使得相同的时间扭曲施于在该第一域及该第二域中的这些信号上。这节省了处理量且可能在一些实例中是有用的,在随后区块具有一类似时间扭曲时间特性的情况中。然而,在可选择的实施例中,较佳地具有独立的时间扭曲估计器来针对该第一编码支路及在该第二编码支路中的该第二处理支路。
该发明的编码音频信号可储存在一数字储存媒体上或可在一传输媒体上传输,诸如一无线传输媒体或一有线传输媒体(诸如因特网)。
在一不同的实施例中,图1a或图2a的该开关200在两编码支路400、500之间切换。在一进一步的实施例中,可存在额外的编码支路,诸如一第三编码支路或甚至一第四编码支路或甚至更多的编码支路。在该解码器端,图1b或图2b的该开关600在两编码支路431、440与531、532、533、534、540之间切换。在一进一步的实施例中,可存在额外的解码支路,诸如一第三解码支路或甚至一第四解码支路或甚至更多的解码支路。类似地,当提供此类额外的编码/解码支路时,其他的开关521或532可在多于两个的不同编码算法之间切换。
图12A说明一编码器实施的一较佳实施例,以及图12B说明该相对应的解码器实施的一较佳实施例。除了前面用相对应的参数讨论的这些组件以外,图12A的该实施例说明一单独的感知模块1200,且额外地说明在图11A的区块421说明的该进一步的编码器工具的一较佳实施。这些额外的工具是一时域噪声修整(temporal noise shaping,TNS)工具1201及一中/端(mid/side)编码工具(M/S)1202。此外,组件421及524的额外的功能在区块421/542说明,作为对频谱值的比例调整(scaling)、噪声填充分析、量化、算术编码的一结合的实施。
在该相对应的解码器实施的图12B中,说明了额外的组件,它们为一M/S解码工具1203及一TNS解码器工具1204。此外,在1205指示未在前面图中说明的一低音后滤波器。该过渡窗口区块532相对应于第2B图中的该组件532,该组件532被说明为一开关但执行某种可以是一过渡取样交错淡出或一关键取样交错淡出的一交错淡出。后者是作为一MDCT操作而实施,其中两时间混迭部分被重迭且相加。由于在没有任何质量损失的情况下可减少总的位率,此关键取样过渡处理较佳地使用在适当的情况中。该额外的过度窗口化区块600相对应于图2B中的该组合器600,该组合器600也被说明为一开关,但是清楚的是,当在该第一支路已处理一区块及在该第二分钟已处理另一区块时,此组件执行某种交错淡出(关键取样的或非关键取样的)以避免区块伪影及特定地切换伪影。然而,当在这两支路中的该处理完美匹配其另一时,则该交错淡出操作可“降级”为一硬切换(而一交错淡出操作被理解为在这两支路之间的一“软”切换)。
在图12A及图12B中的概念允许对具有语音及音频内容的一随意混合的信号编码,此概念执行比得上或较好于可能特定于语音或一般音频内容而裁剪的最佳编码技术。该编码器及解码器的大体结构可描述为:存在由处理立体声或多声道处理的一MPEG环绕(MPEGS)功能单元及处理该输入信号中较高音频频率的参数表示的一增强SBR(eSBR)组成的一共同预-后处理。接着,存在两支路,一支路由一改良高阶音频编码(AAC)工具路径组成及另一支路由一基于线性预测编码(LP或LPC域)的路径组成,其接着以该LPC残余的一频域表示或一时域表示为特征。针对AAC及LPC的所有传输的频谱都在量化及算术编码的后的MDCT域中表示。该时域表示使用一ACELP激发编码方案。针对该编码器在图12A中及针对该解码器在图12B中显示了该基本结构。在此图式中的资料流是自左至右,自顶至底。该解码器的功能是在该比特流酬载(bitstream payload)中发现对该量化音频频谱或时域表示的描述且对这些量化值及其他重建信息解码。
在传输频谱信息的情况下,该解码器将重建该量化频谱,通过在该比特流酬载中活动的任何工具来处理该重建的频谱以得到如该输入比特流酬载所描述的该实际信号频谱,并最终将该频域转换成该时域。在该初始重建及该频谱重建的比例调整的后,存在改良一或多个频谱以提供较高效编码的最佳工具。
在一传输的时域信号表示的情况下,该解码器将重建该量化时间信号,通过在该比特流酬载中活动的任何工具来处理该重建的时间信号以得到如该输入比特流酬载所描述的该实际时域信号。
对于在该信号数据上操作的各该工具,保留对“通过”的选择,且在省略该处理的所有情况中,在其输入的该频谱或时间取样直接通过该工具而无需改良。
在该比特流自时域至频谱表示或自LP域至非LP域或反的亦然改变其信号表示的位置,该解码器通过一适当的过渡重迭-相加窗口化的方法将有助于自一域至另一域的过渡。
在过渡处理的后,以相同方式来将eSBR及MPEGS处理施于这两个编码路径。
到该比特流酬载多任务器工具的输入是一比特流酬载。该多任务器将该比特流酬载分离为针对每一工具的多个部分并提供给各该工具有关于该工具的比特流酬载信息。
该比特流酬载多任务器工具的输出是:
●视在目前帧中的该核心编码类型而定,是:
●该量化及无噪声地编码频谱,其用如下表示:
●比例因子信息
●算术编码频谱线
●或是:线性预测(LP)参数以及一激发信号,该激发信号用如下内容中的一者表示:
●量化或算术编码频谱线(转换编码激发,TCX)或
●ACELP编码时域激发
●该频谱噪声填充信息(最佳的)
●该M/S决策信息(最佳的)
●该时域噪声修整(TNS)(最佳的)
●该滤波器组控制信息
●该时间不扭曲(TW)控制信息(最佳的)
●该增强频带复制(eSBR)控制信息
●该MPEG环绕(MPEGS)控制信息
该比例因子无噪声解码工具自该比特流酬载去多任务器撷取信息、分析该信息,并解码该霍夫曼及DPCM编码比例因子。
到该比例因子无噪声解码工具的输入是:
●针对该无噪声编码频谱的比例因子信息
该比例因子无噪声解码工具的输出是:
●该比例因子的解码的整数表示:
该频谱无噪声解码工具自该比特流酬载去多任务器撷取信息、分析该信息、解码算术编码的数据,并重建该量化频谱。到此无噪声解码工具的输入是:
●该无噪声编码频谱
此无噪声解码工具的输出是:
●该频谱的这些量化值
该反向量化器工具撷取针对该频谱的这些量化值,并将该整数值转换成非比例调整的、重建的频谱。此量化器是一压伸量化器,其压伸因子视该选定的核心编码模式而定。
到该反向量化器工具的输入是:
●针对该频谱的这些量化值
该反向量化器工具的输出是:
●该未比例调整、反向量化的频谱
该噪声填充工具用来填充在该解码频谱中的频谱间隙,这些频谱间隙当频谱值被量化为零时出现,例如由于对在该编码器位要求上的一极强限制。该噪声填充工具的使用是最佳的。
到该噪声填充工具的输入是:
●该未比例调整、反向量化频谱
●噪声填充参数
●该比例因子的解码整数表示
到该噪声填充工具的输出是:
●针对频谱线先前被量化为零的该未比例调整、反向量化频谱值。
●这些比例因子的改良的整数表示
该解比例调整(rescaling)工具将这些比例因子的整数表示转换为这些实际值,及用这些相关比例因子乘以该未比例调整反向量化的频谱。
到这些比例因子的输入是:
●这些比例因子的解码整数表示
●该未比例调整、反向量化频谱
该比例因子工具的输出是:
●该未比例调整、反向量化频谱
对该M/S工具的一概观,请参考ISO/IEC 14496-3,分条款4.1.1.2。
对该时域噪声修整(TNS)工具的一概观,请参考ISO/IEC 14496-3,分条款4.1.1.2。
该滤波器组/区块切换工具实施在该编码器中执行的该频率映像的反向。针对该滤波器组使用一反向改良离散余弦转换(IMDCT)。该IMDCT可被构造以支援120、128、240、256、320、480、512、576、960、1024或1152频谱系数。
到该滤波器组工具的输入是:
●该(反向量化)频谱
●该滤波器组控制信息
该滤波器工具的输出是:
●该(这些)时域重建音频信号
当使能该时域扭曲模式时,该时间扭曲滤波器组/区块切换工具替代该正常滤波器/区块切换工具。该滤波器组与该正常滤波器组是相同的(IMDCT),额外地,该窗口化的时域取样通过随时间变化的重取样而自该扭曲时域映像至该线性时域。
这些时间扭曲滤波器组工具的输入是:
●该反向量化频谱
●该滤波器组控制信息
●该时间扭曲控制信息
该滤波器组工具的输出是:
●该(这些)线性时域重建音频信号
该增强SBR(eSBR)工具再产生该音频信号的该高频。它是基于谐波的这些序列的复制,在编码期间截断。它调整所产生的高频的频谱包络并施以反向滤波,且加入噪声及正弦曲线分量以再产生该原始信号的这些频谱特性。
该eSBR的输入是:
●该量化包络资料
●杂项控制数据
●来自该AAC核心解码器的一时域信号
该eSBR的输出是:
●一时域信号或
●一信号的一QMP域表示,例如在使用该MPEG环绕工具的情况下。
该MPEG环绕(MPEGS)通过将一复杂上混程序施加至由适当空间参数控制的该(这些)输入信号,可自一个或多个输入信号而产生多个信号。在该USAC脉络中,MPEGS通过传输参数旁侧信息以及一传输降混信号用来对一多声道信号编码。
到该MPEGS工具的输入是:
●一降混时域信号或
●来自该eSBR工具的一降混信号的一QMF域表示
该MPEGS工具的输出是:
●一多声道时域信号
该信号分类器工具分析该原始输入信号并藉以产生触发这些不同编码模式的选择的控制信息。该输入信号的分析是依赖实现并将试图选择针对一给定输入信号帧的该最佳核心编码模式。该信号分类器的输出也可(最佳地)用于影响其他工具的表现,例如MPEG环绕、增强SBR、时间扭曲滤波器组及其他的。
到该信号分类器工具的输入是:
●该原始未改良输入信号
●依赖参数的额外的实施
该信号分类器工具的输出是:
●控制该核心编解码器的选择(非LP滤波频域编码、LP滤波频域或LP滤波时域编码)的一控制信号
依据本发明,在图12A的区块410中及图12A的该转换器523中的该时间/频率分辨率依赖于该音频信号而控制。在图13A中说明窗口长度、转换长度、时间分辨率与频率分辨率之间的相互关系,其中变得清楚的是,对于一长窗口长度,该时间分辨率变低但该频率分辨率变高,而对于一短窗口长度,该时间分辨率变高但该频率分辨率变低。
在该第一编码支路中(较佳地是用图12A的组件410、1201、1202、4021指示的该AAC编码支路),可使用不同的窗口,其中,该窗口形状由一信号分析器决定,该信号分析器在该信号分类区块300中被编码但其也可以是一单独的模块。该编码器在图13B中说明的具有不同时间/频率分辨率的这些窗口中选择一窗口。该第一长窗口、该第二长窗口、该第三长窗口、该第四长窗口、该第五长窗口、该第六长窗口的该时间/频率分辨率等于2048取样值(对于1024的一转换长度)。图13B中的第三线说明的该短窗口具有相对应于其窗口大小的256取样值的一时间分辨率。这相对应于128的一转换长度。
类似地,最后两窗口具有等于2304的一窗口长度,这与在该第一线中的该窗口相比较具有一较好的频率分辨率和一较低的时间分辨率。在最后两线中的这些窗口的该转换长度等于1152。
在该第一编码支路中,可构建根据在图13B中的这些转换窗口而建立的不同的窗口序列。虽然在图13C中只说明了一短序列,同时其他“序列”只由一单一窗口组成,但是也可构建由多个窗口组成的较大序列。注意的是,依据图13B,对于系数的较小数目,即960而非1024,该时间分辨率也小于系数的该相对应的较高数目,诸如1024。
图14A至图14G说明在该第二编码支路中的不同的分辨率/窗口大小。在本发明的一较佳实施例中,该第二编码支路具有一第一处理支路(是一ACELP时域编码器526),及该第二处理支路包含该滤波器组523。在该支路中,一例如2048取样的一超帧被再分为256取样的帧。可单独使用256取样的个别帧以使得当应用具有百分之50重迭的一MDCT时可应用四窗口(每一窗口涵盖两帧)的一序列。接着,如图14D中所说明,使用一高时间分辨率。可选择地,当该信号允许较长窗口时,可应用如在图14C中的该序列,其中,应用针对每一窗口(中等窗口)具有1024取样的一双倍窗口大小,以使得一窗口涵盖四帧且存在百分之50的一重迭。
最后,当该信号是如此使得一长窗口被使用时,该长窗口扩展4096取样,也具有一百分之50的重迭。
在存在两支路(其中一支路具有一ACELP编码器)的该较佳实施例中,在该超帧中用“A”指示的该ACELP帧的位置也可决定申请在图14E中用“T”指示的两相邻TCX帧的窗口大小。基本上,人们感兴趣于尽可能地使用长窗口。不过,当一单一T帧在两A帧之间时,必须应用短窗口。当存在两个相邻的T帧时应用中等窗口。然而,当存在三个相邻的T帧时,一相对应的较大窗口由于额外的复杂性而可能不是高效的。因此,该第三T帧虽然未被一A帧居前,但可由一短窗口来处理。当整个超帧只具有T帧时则应用一长窗口。
图14F说明针对窗口的几个选择,其中,该窗口大小始终是频谱系数的该数目lg的2x,由于一较佳百分之50的重迭。然而,可应用针对所有编码支路的其他重迭百分比以使得当没有应用时域混迭时窗口大小及转换长度之间的关系也可不同于二以及甚至接近一。
图14G说明了基于在图14F中给定的规则构建一窗口的规则。该值ZL说明在该窗口开始的零。该值L说明在一混迭区域中的多个窗口系数。在部分M中的这些值是未引入任何混迭的“1”值,由于在相对应于M的部分与具有零值的一相邻窗口的一重迭。该部分M的后是一右重迭区域R,该右重迭区域R的后是零的一ZR区域,其将相对应于一随后窗口的一部分M。
参考随后所附附件,其描述了一发明的音频编码/解码方案(特定地关于该解码器端)的一较佳及详细实施。
附件
1.窗口及序列
在该频域中完成量化及编码。为此目的,在该编码器中,该时间信号被映像成该频域。该解码器执行如在分条款2中的该反向映射。视该信号而定,该编码器通过使用三不同的窗口大小:2304、2048与256可改变该时间/频率分辨率。为了在窗口之间切换,使用这些过渡窗口LONG_START_WINDOW、LONG_STOP_WINDOW,START_WINDOW_LPD、STOP_WINDOW_1152,STOP_START_WINDOW及STOP_START_WINDOW_1152。表格5.11列举这些窗口,指定该相对应的转换长度并示意地显示这些窗口的形状。使用三个转换长度:1152、1024(或960)(参考长转换)及128(或120)系数(参考短转换)。
窗口序列由窗口以一raw_data_block始终包含表示1024(或960)输出取样的数据的一方式组成。该数据组件window_sequence指示实际上使用的该窗口序列。第13C图列举这些窗口序列是如何由个别窗口组成。参考分条款2索取关于该转换及这些窗口的较详细的信息。
1.2比例因子频带及分组
见ISO/IEC 14496-3,子部分4,分条款4.5.2.3.4
如在ISO/IEC 14496-3,子部分4,分条款4.5.2.3.4中所解释,这些比例因子频带的宽度是建立在人类听觉系统的这些关键频带的模仿上。由于此原因,在一频谱中的比例因子频带的数目及它们的宽度视该转换长度及该取样频率而定。在ISO/IEC 14496-3子部分4节4.5.4中的表格4.110至表格4.128列举了在这些转换长度1024(960)及128(120)上与这些取样频率上对每一比例因子频带的开始的偏移。原始为LONG_WINDOW,LONG_START_WINDOW及LONG_STOP_WINDOW而设计的这些表格也可用于START_WINDOW_LPD及STOP_START_WINDOW。表格4至表格10是针对STOP_WINDOW_1152及STOP_START_WINDOW_1152的这些偏移表格。
1.2 lpd-channel_stream()的解码
该lpd_channel_stream()比特流组件包含所有必需的信息来对“线性预测域”编码信号的一帧解码。它包含针对在该LPC域中编码(即包括一LPC滤波步骤)的编码信号的一帧的酬载。接着在一ACELP模块的帮助下或在该MDCT转换域中(“转换编码激发”,TCX)表示此滤波器的残余(所谓的“激发”)。为了允许密切适应于这些信号特性,一帧被划分为大小相等的四较小单元,每一较小单元用ACELP或TCX编码方案来编码。
此过程类似于在3GPP TS 26.290中所描述的该编码方案。继承此文件的是一略微不同的术语,其中一“超帧”表示1024取样的一信号段,而一“帧”准确地是该信号段的四分的一,即256取样。这些帧中的每一帧被进一步再分为长度相等四“子帧”。请注意的是,本分章采用此术语。
1.4定义、数据组件
acelp_core_mode在ACELP作为一lpd编码模式而使用的情况下,此位字段指示准确的位分配方案。
lpd_mode该位字段模式定义针对在lpd_channel_stream()的一超帧(相对应于一AAC帧)中的各该四帧的这些编码模式。这些编码模式被储存在该数组mod[]中且自0至3取值。自下面的表格1可决定自lpd_mode至mod[]的映射。
表格1-针对lpd_channle_stream()的编码模式的映像
mod[0..3]在该数组mod[]中的这些值指示在每一帧中的该各自的编码模式:
表格2-mod[]指示的编码模式
mod[x]的值 | 帧中的编码模式 | 比特流组件 |
0 | ACELP | acelp_coding() |
1 | TCX的一帧 | tcx_coding() |
2 | TCX涵盖一超帧的一半 | tcx_coding() |
3 | TCX涵盖整个超帧 | tcx_coding() |
acelp_coding()包含对ACELP激发的一帧解码的所有数据的语法组件。
tcx_coding()包含对基于MDCT转换编码激发(TCX)的一帧解码的所有数据的语法组件。
first_tcx_flag指示目前处理的TCX帧是否是该超帧中的第一帧的旗标。
lpc_data()包含对解码目前帧所需要的所有LPC滤波器参数设定解码的语法组件。
first_lpd_flag指示目前帧是否是在LPC域中编码的超帧的一序列中的第一个帧。依据表格3自该比特流组件core_mode(在一channel_pair_element的情况下是core_mode0及core_mode1)的历史也可决定此旗标。
表格3-first_lpd_flag的定义
last_lpd_mode指示前面解码的帧的lpd_mode。
1.5解码过程
在该lpd_channel_stream中解码的顺序是:
获取acelp_core_mode
获取lpd_mode并据其决定辅助变量mod[]的内容
获取acelp_coding或tcx_coding数据,视辅助变量mod[]的内容而定
获取lpc_data
1.6ACELP/TCX编码模式结合
与节5.2.2中[8]相类似,在一lpd_channel_stream酬载的一超帧中存在26允许的ACELP或TCX的结合。这26模式结合中的每一模式结合在该比特流组件lpd_mode中被标志。在表格1及表格2中显示了在一子帧中的每一帧的lpd_mode至实际编码模式的映像。
表格4-对于在44.1及48kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
表格5-对于在32kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
表格6-对于在8kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
表格7-对于在11.025,12及16kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
表格8-对于在22.05及24kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
表格9-对于在64kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
表格10-对于在88.2及96kHz的STOP_START_1152_WINDOW与STOP_1152_WINDOW针对2304的一窗口长度的比例因子频带
1.7比例因子频带表格参考
对于所有其他的比例因子频带表格请参考ISO/IEC 14496-3子部分4节4.5.4表格4.129至表格4.147。
1.8量化
为了量化在该编码器中的这些AAC频谱系数,使用一非均匀量化器。因此,该解码器在对这些比例因子霍夫曼解码(见分条款6.3)及对该频谱数据无噪声解码(见分条款6.1)的后必须执行反向非均匀量化。
为了量化这些TCX频谱系数,使用一均匀量化器。在对该频谱数据无噪声解码的后在该解码器不需要反向量化。
2.滤波器组及区块切换
2.1工具描述
通过将该信号的时间/频率表示馈送至该滤波器模块将其映像至该时域上。此模块由一反向改良离散余弦转换(IMDCT)及一窗口及一重迭函数相加函数组成。为了使该滤波器组的该时间/频率分辨率适于该输入信号的这些特性,也使用一区块切换工具。N表示该窗口长度其中N是该window_sequence的一函数(见分条款1.1)。对于每一信道,通过IMDCT,N/2时间-频率值被转换成N时域值xi,n。在施以该窗口函数的后,对于每一信道,该zi,n序列的第一半被加入至前面区块窗口化序列z(i-1),n的第二半来重建针对每一信道outi,n的这些输出取样。
2.2定义
window_sequence指示使用哪一窗口序列(即区块大小)的2位。
window_shape指示选择哪一窗口函数的1位。
图13C显示八window_sequences(ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE,STOP_START_SEQUENCE、STOP_1152_SEQUENCE,LPD_START_SEQUENCE、STOP_START_1152_SEQUENCE)。
在后文中,LPD_SEQUENCE指在所谓的线性预测域编解码器(见节1.3)中的所有允许的窗口/编码模式组合。在对一频域编码帧解码的脉络中,知道只有一后面的帧利用由一LPD_SEQUENCE表示的这些LP域编码模式编码是重要的。然而,当对该LP域编码帧解码时,在该LPD_SEQUENCE中的准确结构受注意。
2.3解码过程
2.3.1IMDCT
该IMDCT的分析表式是:
其中:
n=取样指数
i=窗口指数
k=频谱系数指数
N=基于该window_sequence值的窗口长度
n0=(N/2+1)/2
用于反向转换的该分析窗口长度N是该语法组件window_sequence及该算法脉络的一函数。其定义如下:
窗口长度2304:
窗口长度2408:
这些重大区块过渡如下:
自ONLY_LONG_SEQUENCE至
自LONG_START_SEQUENCE至
自LONG_STOP_SEQUENCE至
自EIGHT_SHORT_SEQUENCE至
自LPD_SEQUENCE至
自STOP_START_SEQUENCE至
自LPD_START_SEQUENCE至{LPD_SEQUENCE
自STOP_1152_SEQUENCE至
自STOP_START_1152_SEQUENCE至
2.3.2窗口化及区块切换
视window_sequence及window_shape组件而定,使用不同的转换窗口。如下描述的多个半窗口的一组合提供所有可能的window_sequences。
对于window_shape==1,这些窗口系数由西泽贝索衍生窗口(Kaiser-Bessel derived(KBD)window)给定,如下:
其中:
W′、西泽贝索内核窗口函数(也见[5])如下定义:
对于
α=内核窗口alpha因子,
不然,对于window_shape==0,如下使用一正弦函数:
针对KBD及该正弦窗口的该窗口长度N可以是2048(1920)或256(240)。在STOP_1152_SEQUENCE及STOP_START_1152_SEQUENCE的情况下,N仍可以是2048或256,这些窗口倾斜是类似的,但该平顶区域较长。
只有在LPD_START_SEQUENCE的情况下,该窗口的右部分是64取样的一正弦窗口。
在该分条款的部分a)-h)解释了如何获取可能的这些窗口序列。
对于所有种类的window_sequences,该第一转换窗口的左半的window_shape由前面区块的窗口形状来决定。如下公式表示此事实:
其中:
window_shape_previous_block:前一区块(i-1)的window_shape。对于要被解码的该第一raw_data_block(),该窗口的左及右半的window_shape是相同的。
a)ONLY_LONG_SEQUENCE:
该window_sequence==ONLY_LONG_SEQUENCE等于具有2048(1920)的一总窗口长度N_l的LONG_WINDOW。
对于window_shape==1,针对ONLY_LONG_SEQUENCE的该窗口如下给定:
如果window_shape==0针对ONLY_LONG_SEQUENCE的该窗口可描述如下:
窗口化后,这些时域值(zi,n)可表达为;
zi,n=w(n)·xi,n;
b)LONG_START_SEQUENCE:
需要该LONG_START_SEQUENCE来获得一正确的重迭且加入自一ONLY_LONG_SEQUENCE至一EIGHT_SHORT_SEQUENCE的一区块过渡。
窗口长度N_l及N_s分别被设定为2048(1920)及256(240)。
如果window_shape==1,针对LONG_START_SEQUENCE的窗口可如下给定:
如果window_shape==0,则针对LONG_START_SEQUENCE的该窗口看起来像:
可用在a)说明的该公式计算该窗口化时域值。
c)EIGHT_SHORT
该window_sequence==EIGHT_SHORT包含八重迭的及加入的SHORT_WINDOW,每一SHORT_WINDOW具有256(240)的一长度N_s。该window_sequence的总长度以及前导及后置零是2048(1920)。各该八区块首先被单独窗口化。用变量j=0,...,M-1(M=N_l/N_s)来作为该段区块数的指数。
前面区块的window_shape只影响该八短区块(W0(n))中的第一短区块。如果window_shape==1,这些窗口函数可如下给定:
不然,如果window_shape==0,这些窗口函数可被描述为:
该EIGHT_SHORT window_sequence之间的重迭及相加(产生该窗口化时域值zi,n)描述如下:
d)LONG_STOP_SEQUENCE
此window_sequence需要自一EIGHT_SHORT_SEQUENCE切回至一ONLY_LONG_SEQUENCE。
如果window_shape==1,针对LONG_STOP_SEQUENCE的窗口如下给定:
如果window_shape==0,针对LONG_START_SEQUENCE的窗口由如下决定:
可用在a)中说明的该公式计算这些窗口化的时域值。
e)STOP_START_SEQUENCE:
当只需要一ONLY_LONG_SEQUENCE时,针对自一EIGHT_SHORT_SEQUENCE至一EIGHT_SHORT_SEQUENCE的一区块过渡需要该STOP_START_SEQUENCE来获得一正确的重迭及相加。
窗口长度N_l及N_s分别被设定为2048(1920)及256(240)。
如果window_shape==1,针对STOP_START_SEQUENCE的窗口如下给定:
如果window_shape==0,针对STOP_START_SEQUENCE的窗口看起来像:
可用在a)中说明的该公式计算这些窗口化的时域值。
f)STOP_START_SEQUENCE:
针对自一ONLY_LONG_SEQUENCE至一LPD_SEQUENCE的一区块过渡,需要该LPD_SEQUENCE来获得一正确的重迭及相加。
窗口长度N_l及N_s分别被设定为2048(1920)及256(240)。
如果window_shape==1,针对LPD_START_SEQUENCE的窗口如下给定:
如果window_shape==0,针对LPD_START_SEQUENCE的窗口看起来像:
可用在a)中说明的该公式计算这些窗口化的时域值。
g)STOP_1152_SEQUENCE:
针对自一LPD_SEQUENCE至ONLY_LONG_SEQUENCE的一区块过渡,需要该STOP_1152_SEQUENCE来获得一正确的重迭及相加。
窗口长度N_l及N_s分别被设定为2048(1920)及256(240)。
如果window_shape==1,针对STOP_1152_SEQUENCE的窗口如下给定:
如果window_shape==0,针对STOP_1152_SEQUENCE的窗口如下给定:
可用在a)中说明的该公式来计算这些窗口化的时域值。
h)STOP_START_1152_SEQUENCE:
当只需要一ONLY_LONG_SEQUENCE时,针对自一LPD_SEQUENCE至一EIGHT_SHORT_SEQUENCE的一区块过渡,需要该STOP_START_1152_SEQUENCE来获得一正确的重迭及相加。
窗口长度N_l及N_s分别被设定为2048(1920)及256(240)。
如果window_shape==1,针对STOP_START_SEQUENCE的该窗口如下给定:
如果window_shape==0,针对STOP_START_SEQUENCE的该窗口看起来像:
可用在a)中说明的该公式计算这些窗口化的时域值。
2.3.3与前面窗口序列的重迭与相加
除了在EIGHT_SHORT window_sequence中的重迭及相加以外,每一window_sequence的该第一(左)部分与前面window_sequence的该第二(右)部分重迭及相加产生最终的时域值outi,n。此操作的数学表式可如下描述:
在ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE,EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE、STOP_START_SEQUENCE、LPD_START_SEQUENCE的情况下:
及在STOP_1152_SEQUENCE、STOP_START_1152_SEQUENCE的情况下:
在LPD_START_SEQUENCE的情况下,下一序列是LPD_SEQUENCE。一SIN或KBD窗口施于LPD_SEQUENCE以取得一良好重迭及相加。
在STOP_1152_SEQUENCE、STOP_START_1152_SEQUENCE的情况下,前面序列是LPD_SEQUENCE。一TDAC施于LPD_SEQUENCE以取得一良好重迭及相加。
3.IMDCT
见分条款2.3.1
3.1窗口化及区块切换
视该window_shape组件而定,使用不同的过度取样转换窗口原型,该过度取样窗口的长度是:
NOS=2·n_long·os_factor_win
对于window_shape==1,这些窗口系数由西泽贝索衍生(KBD)窗口如下给定:
其中,W′、西泽贝索衍生内核窗口函数(也见[5])如下定义:
α=内核窗口alpha因子,α=4
不然,对于window_shape==0,如下使用一正弦窗口:
对于各种window_sequences,针对左窗口所使用的原型由前一区块的窗口形状而决定。下面的公式表达此事实:
同样地,针对右窗口形状的原型由如下公式来决定:
由于已决定这些过渡长度,仅必须表明EIGHT_SHORT_SEQUENCE与所有其他之间的差别:
a)EIGHT_SHORT_SEQUENCE:
下面类似c-code的部分描述一EIGHT_SHORT_SEQUENCE的窗口化及内部重迭-相加:
b)所有其它的:
4.基于MDCT的TCX
4.1工具描述
当该core_mode等于1且当该三TCX模式的一或多个模式被选定为该“线性预测域”编码,即mod[]的该4数组项中的一项大于0时,使用该基于MDCT的TCX工具。该基于MDCT的TCX自该算术解码器接收这些量化频谱系数。在施以一反向MDCT转换以获得一时域加权合成(其接着被馈送至该加权合成LPC滤波器)之前,由一舒适噪声来首先完成这些量化系数。
4.2定义
lg由该算术解码器输出的量化频谱系数的数目
4.3解码过程
该基于MDCT的TCX向该算术解码器请求多个量化频谱系数lg,其由该mod[]及last_lpd_mode值决定。这两值也定义将施于该反向MDCT中的该窗口长度及形状。该窗口由三部分组成:L取样的一左端重迭、M取样的若干的一中间部分及R取样的一右重迭部分。为了获得长度为2*lg的一MDCT窗口,在该左端加ZL零及在该右端加ZR零,如在针对表格3的图14G/图14F中所示。
表格3作为last_lpd_mode及mod[]的一函数的频谱系数的数目
该MDCT窗口由如下给定
由该算术解码器传送的这些量化频谱系数、quant[]由一舒适噪声完成。该注入噪声的等级由该解码noise_factor如下决定:
noise_level=0.0625*(8-noise_factor)
接着使用一随机函数、random_sign()、随机传送的值-1或+1来运算一噪声向量、noise[]。
noise[i]=random_sign()*noise_level;
以在quant[]中的这些多个一连串8连续零被noise[]中的这些分量替代的一方式来结合该quant[]及noise[],以形成该重建的频谱系数向量r[]。依据该公式来检测一连串8非零:
人们如下获得该重建频谱:
在实施该反向MDCT的前,依据如下步骤实施一频谱去成形(de-shaping):
1.针对该频谱的第一个四分的一的每一8维区块,计算该8维区块在指数m时的能量Em
2.运算比率Rm=sqrt(Em/EI),其中I是具有所有Em中的最大值的区块指数
3.如果Rm<0.1,则设定Rm=0.1
4.如果Rm<Rm-1,则设定Rm=Rm-1
接着用因子Rm乘以属于频谱的第一个四分的一的每一8维区块。
在一反向MDCT中馈送该重建频谱。该非窗口化的输出信号x[]被增益g解比例调整,该增益g是通过该解码global_gain指数的一反向量化而获得:
g=10global_gain/28(2.rms)
其中,rms被计算为:
那么,该解比例调整合成时域信号等于:
xw[i]=x[i]·g
在解比例调整之后,施以该窗口化及重迭相加。
该重建TCX目标x(n)接着通过该零状态反向加权合成滤波器滤波以找寻该合成滤波器。注意的是,在该滤波中对每一帧使用该插入的LP滤波器。一旦决定该激发,该信号通过将该激发滤波经过合成滤波器且接着通过滤波经过如上描述的该滤波器l/(1-0.68z-1)来去加强而被重建。
注意的是,在一随后帧中,该激发也需要更新该ACELP适应性码簿并允许自TCX至ACELP的切换。还要注意的是,该TCX合成的长度由分别针对1、2、3的mod[]的该TCX帧长度(没有重迭):256、512或1024取样而给定。
规范参考
[1]ISO/IEC 11172-3:1993,Information technology-Coding of moving pictures and associated audio for digital storage media at up to about 1,5Mbit/s,Part 3:Audio.
[2]ITU-T Rec.H.222.0(1995)|ISO/IEC 13818-1:2000,Information technology-Generic coding of moving pictures and associated audio information:-Part 1:Systems.
[3]ISO/IEC 13818-3:1998,Information technology-Generic coding of moving pictures and associated audio information:-Part 3:Audio.
[4]ISO/IEC 13818-7:2004,Information technology-Generic coding of moving pictures and associated audio information:-Part 7:Advanced Audio Coding(AAC).
[5]ISO/IEC 14496-3:2005,Information technology-Coding of audio-visual objects-Part 1:Systems
[6]ISO/IEC 14496-3:2005,Information technology-Coding of audio-visual objects-Part 3:Audio
[7]ISO/IEC 23003-1:2007,Information technology-MPEG audio technologies-Part 1:MPEG Surround
[8]3GPP TS 26.290 V6.3.0,Extended Adaptive Multi-Rate-Wideband (AMR-WB+)codec;Transcoding functions
[9]3GPP TS 26.190,Adaptive Multi-Rate-Wideband(AMR-WB)speech codec;Transcoding functions
[10]3GPP TS 26.090,Adaptive Multi-Rate(AMR)speech codec;Transcoding functions
定义
定义可在ISO/IEC 14496-3子部分1分条款1.3(术语及定义)及3GPPTS 26.290节3(定义及缩语)中找到。
虽然在一设备的脉络中已描述了一些层面,但是清楚的是,这些层面也表示该相对应的方法的一描述,其中一区块或装置对应于一方法步骤或一方法步骤的一特征。类似地,在一方法步骤的脉络中描述的层面也表示一相对应的设备的一相对应的区块或项或特征。
该发明的编码的音频信号可储存在一数字储存媒体上或可在一传输媒体上传输,诸如一无线传输媒体或一有线传输媒体(诸如因特网)。
视某些实施需求而定,本发明的实施例可在硬件或软件中实施,该实施可使用一数字储存媒体而执行,例如一软盘、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一快闪(FLASH)内存,这些数字储存媒体其上具有电气可读取控制信号储存,藉以与一可规划计算机系统协作(或能够协助)以使得本文所描述的这些方法中的一方法被执行。
依据本发明的一些实施例包含具有电气可读取控制信号的一数据载体,这些电气可读取控制信号能够与一可规划计算机系统协作以使得本文所描述的这些方法中的一方法被执行。
其他实施例包含储存于一机器可读取载体上用于执行本文所描述的这些方法中的一方法的计算机程序。
换言之,本发明的方法的一实施例因而是具有用于执行本文所描述的这些方法中的一方法的一计算机程序码的一计算机程序,当该计算机程序在一计算机上执行时。
本发明的方法的一进一步的实施例因而是一数据载体(或一数字储存媒体或一计算机可读取媒体),其包含:记录于其上用于执行本文所描述的这些方法中的一方法的一该计算机程序。
本发明的方法的一进一步的实施例因而是表示用于执行本文所描述的这些方法中的一方法的该计算机程序的一数据流或一信号序列。该数据流或该信号序列可例如被构造以通过一数据通讯连接(例如,通过因特网)而被传送。
一进一步的实施例包含一处理装置,例如一计算机或一可规划逻辑装置,其被构造或被改作以执行本文所描述这些方法中的一方法。
一进一步的实施例包含一计算机,该计算机具有安装于其上的用于执行本文所描述这些方法中的一方法的该计算机程序。
在一些实施例中,一可规划逻辑装置(例如,一字段可规划门阵列)可用来执行这些方法的这些功能中的一些或所有功能。在一些实施例中,一字段可规划门阵列可与一微处理器协作以执行本文所描述这些方法中的一方法。大体上,这些方法较佳地由任何硬设备来执行。
上面描述的这些实施例仅仅是说明本发明的原理。应当明白的是,对本文描述的这些配置及这些细节的修改或变化对熟悉此技者而言将是明显的。因此,旨在仅受后文所附的权利要求的范围限制,而不受作为本文这些实施例的描述及解释而出现的这些特定细节的限制。
Claims (21)
1.一种用于编码一音频信号的音频编码器,包含:
一第一编码支路(400),其用于使用一第一编码算法来编码一音频信号以获得一第一编码信号,所述第一编码支路包含用于将一输入信号转换成一频谱域的第一转换器(410);
一第二编码支路(500),其用于使用一第二编码算法来编码一音频信号以获得一第二编码信号,其中所述第一编码算法与所述第二编码算法不同,所述第二编码支路包含用于将一输入信号从一输入域转换成一输出域的一域转换器以及用于将一输入信号转换成一频谱域的一第二转换器(523);
一开关(200),其用于在所述第一编码支路与所述第二编码支路之间切换以使得对于一部分音频输入信号而言,所述第一编码信号或所述第二编码信号在一编码器输出信号中;
一信号分析器(300,525),其用于分析所述一部分的音频信号以决定所述一部分的音频信号在所述编码器输出信号中是被表示为所述第一编码信号还是被表示为所述第二编码信号,其中,所述信号分析器进一步被构造为当产生表示所述一部分音频信号的所述第一编码信号或所述第二编码信号时,可变地决定所述第一转换器及所述第二转换器的一各自的时间/频率分辨率;以及
一输出接口(800),其用于产生一编码器输出信号,所述编码器输出信号包含所述第一编码信号、所述第二编码信号、一指示所述第一编码信号和所述第二编码信号的信息、以及指示用于编码所述第一编码信号及用于编码所述第二编码信号的所述时间/频率分辨率的一信息。
2.根据权利要求1所述的音频编码器,其中,所述信号分析器(300,525)被构造为将所述一部分的音频信号划分为一有语音特征的音频信号或一有音乐特征的音频信号,且用于在一音乐信号的情况下执行一瞬时检测以决定所述第一转换器(410)的时间/频率分辨率,或用于执行一综合分析处理以决定所述第二转换器(523)的时间/频率分辨率。
3.根据权利要求1或2所述的音频编码器,其中,所述第一转换器(410)与所述第二转换器(523)包含一可变的窗口化转换处理器,所述可变的窗口化转换处理器包含具有一可变窗口大小的一窗口函数及具有一可变转换长度的一转换函数,以及
其中,所述信号分析器(300/525)被构造为基于所述信号分析来控制所述窗口大小和/或所述转换长度。
4.根据以上任一权利要求所述的音频编码器,其中,所述第二编码支路包含用于处理在由所述域转换器(510)所决定的所述域中的一音频信号的一第一处理支路(522)及包含所述第二转换器(523)的一第二处理支路(523,524),
其中,所述信号分析器被构造为将所述一部分的音频信号再细分为一系列子部分,其中,所述信号分析器被构造成依据所述第一处理支路所处理的一子部分相对于由所述第二处理支路所处理的所述一部分的一子部分的所述位置,来决定所述第二转换器(523)的所述时间/频率分辨率。
5.根据权利要求4所述的音频编码器,其中,所述第一处理支路包含一ACELP编码器(526),
其中,所述第二处理支路包含一MDCT-TCX处理装置(527),
其中,所述信号分析器(300/525)被构造为将所述第二转换器的所述时间分辨率设定为由一子部分的一长度决定的一高值或由为大于一的整数值倍的子部分的一长度决定的一相对较低值。
6.根据以上任一权利要求所述的音频编码器,其中,所述信号分析器(300,525)被构造为确定在涵盖多个大小相等的音频取样区块的一恒定光栅中的一信号分类,及用于根据所述音频信号将一区块细分为一可变数目的区块,其中,所述子区块的一长度决定第一时间/频率分辨率或第二时间/频率分辨率。
7.根据以上任一权利要求所述的设备,其中,所述信号分析器(300,525)被构造为确定选自多个不同窗口长度中的所述时间/频率分辨率,所述不同窗口长度为2304、2048、256、1920、2160、240取样中的至少两者,或
使用所述多个不同转换长度,所述不同转换长度包含每转换区块由1152、1024、1080、960、128、120系数组成的组中的至少两者,或
其中,所述信号分析器(300,525)被构造为决定所述第二转换器的所述时间/频率分辨率作为多个不同窗口长度的一窗口长度,所述多个不同窗口长度为640、1152、2304、512、1024或2048取样中的至少两者,或
使用多个不同转换长度,所述不同转换长度包含每转换区块由320、576、1152、256、512、1024频谱系数组成的所述组中的至少两者。
8.根据以上任一权利要求所述的音频编码器,其中,所述第二编码支路包含:
一第一处理支路(522),用于处理一音频信号;
一第二处理支路,所述第二处理支路包含所述第二转换器;以及
一进一步的开关(521),其用于在所述第一处理支路(522)与所述第二处理支路(523,524)之间切换以使得对于一部分输入至所述第二编码支路的所述音频信号而言,一第一处理信号或一第二处理信号在所述第二编码信号中。
9.一种编码一音频信号的音频的方法,包含以下步骤:
在一第一编码支路(400)使用一第一编码算法来编码一音频信号以获得一第一编码信号,所述第一编码支路包含用于将一输入信号转换成一频谱域的所述第一转换器(410);
在一第二编码支路(500)使用一第二编码算法来编码一音频信号以获得一第二编码信号,其中,所述第一编码算法与所述第二编码算法不同,所述第二编码支路包含用于将一输入信号自一输入域转换成一输出域的一域转换器及用于将一输入信号转换成一频谱域的一第二转换器(523);
在所述第一编码支路与所述第二编码支路之间切换(200),以使得对于一部分的音频输入信号,所述第一编码信号或所述第二编码信号在一编码器输出信号中;
分析(300,525)所述一部分的音频信号以决定所述一部分的音频信号在所述编码器输出信号中是被表示为所述第一编码信号还是被表示为所述第二编码信号,
当产生表示所述一部分的音频信号的所述第一编码信号或所述第二编码信号时,可变地决定所述第一转换器及所述第二转换器的一各自的时间/频率分辨率;及
产生(800)一编码器输出信号,所述编码器输出信号包含所述第一编码信号、所述第二编码信号、指示所述第一编码信号与所述第二编码信号的一信息、以及指示用于编码所述第一编码信号与用于编码所述第二编码信号的所述时间/频率分辨率的一信息。
10.一种用于解码一编码信号的音频解码器,所述解码信号包含一第一编码信号、一第二编码信号、指示所述第一编码信号及所述第二编码信号的一指示以及用来解码所述第一编码信号和所述第二编码音频信号的一时间/频率分辨率信息,所述音频解码器包含:
一第一解码支路(431,440),其用于使用一第一可控制的频率/时间转换器(440)来解码所述第一编码信号,所述第一可控制的频率/时间转换器被构造为使用所述第一编码信号的所述时间/频率分辨率信息来控制以获得一第一解码信号;
一第二解码支路,其用于使用一第二可控制的频率/时间转换器(534)来解码所述第二编码信号,所述第二可控制的频率/时间转换器(534)被构造为使用所述第二编码信号的所述时间/频率分辨率信息来控制;
一控制器(990),其用于使用所述时间/频率分辨率信息来控制所述第一频率/时间转换器(440)及所述第二频率/时间转换器(534);
一域转换器(540),其用于使用所述第二解码信号来产生一合成信号;及
一组合器(604),其用于将所述第一解码信号与所述合成信号相组合以获得一解码的音频信号。
11.根据权利要求10所述的音频解码器,其中,所述控制器(990)被构造为控制所述第一频率/时间转换器(440)及所述第二频率/时间转换器(534)以使得,
对于所述第一频率/时间转换器(440),时间/频率分辨率选自于多个不同窗口长度,所述不同窗口长度为2304、2048、256、1920、2160、240取样中的至少两者,或
选自于多个不同转换长度,所述不同转换长度包含每转换区块由1152、1024、1080、960、128、120系数组成的组中的至少两者,或
对于所述第二频率/时间转换器(534),所述时间/频率分辨率被选择成多个不同窗口长度中的一窗口,所述多个不同窗口长度为640、1152、2304、512、1024或2048取样中的至少两者,或
选自于多个不同转换长度,所述不同转换长度包含每转换区块由320、576、1152、256、512、1024频谱系数组成的组中的至少两者。
12.根据权利要求10或11所述的音频解码器,其中,所述第二解码支路包含一第一反向处理支路(531),所述第一反向处理支路用于反向处理被额外地包括在所述编码信号中的一第一处理信号以获得一第一反向处理信号;
其中,所述第二可控制的频率/时间转换器(534)位于一第二反向处理支路中,所述第二反向处理支路被构造为反向处理在与所述第一反向处理信号的域同一域中的所述第二编码信号以获得一第二反向处理信号;
一进一步的组合器(532),其用于将所述第一反向处理信号与所述第二反向处理信号相组合以获得一组合信号;以及
其中,所述组合信号被输入至所述组合器(600)中。
13.根据权利要求10至12中的任一项所述的音频解码器,其中,所述第一频率/时间转换器(440)及所述第二频率/时间转换器为时域混迭消除转换器,具有用于消除包含在所述第一编码信号及所述第二编码信号中的一时域混迭的一重迭/相加单元(440c)。
14.根据权利要求10至13中的任一项所述的音频解码器,其中,所述编码信号包含识别一编码信号是否为所述第一编码信号及所述第二编码信号的编码模式信息,及
其中,所述解码器进一步包含一输入接口(900),所述输入接口解译所述编码模式信息以决定所述编码信号是要被馈送至所述第一解码支路还是被馈送至所述第二解码支路。
15.根据以上任一权利要求所述的音频解码器,其中,所述第一编码信号被算术编码,且其中所述第一编码支路包含一算术解码器。
16.根据以上任一权利要求所述的音频解码器,其中,所述第一编码支路包含一解量化器,所述解量化器具有一非均匀解量化特性,用于消除当产生所述第一编码信号时所实施的一非均匀量化的一结果,
其中,所述第二编码支路在其不包含一解量化器的情况下包含一使用不同解量化特性的解量化器。
17.根据以上任一权利要求所述的音频解码器,其中,所述控制器(990)被构造为通过对每一转换器施以多个可能的不同离散频率/时间分辨率中的一离散频率/时间分辨率,来控制所述第一频率/时间转换器及所述第二频率/时间转换器,所述第二转换器的可能不同离散频率/时间分辨率的数目高于所述第一转换器的可能不同频率/时间分辨率的数目。
18.根据权利要求10至17中的任一项所述的音频解码器,其中,所述域转换器是使用一LPC滤波器信息来产生所述合成信号的一LPC合成处理器(544),所述LPC滤波器信息被包含在所述编码信号中。
19.一种音频解码一编码信号的方法,所述编码信号包含一第一编码信号、一第二编码信号、一指示所述第一编码信号与所述第二编码信号的指示、以及一用来解码所述第一编码信号及所述第二编码音频信号的时间/频率分辨率信息,所述方法包含以下步骤:
由一第一解码支路(431,440)使用一第一可控制频率/时间转换器(440)来解码所述第一编码信号,所述第一可控制频率/时间转换器被构造为控制使用所述第一编码信号的所述时间/频率分辨率信息以获得一第一解码信号;
由一第二解码支路使用一第二可控制频率/时间转换器(534)来解码所述第二编码信号,所述第二可控制频率/时间转换器(534)被构造为控制使用所述第二编码信号的所述时间/频率分辨率信息;
使用所述时间/频率分辨率信息来控制(990)所述第一频率/时间转换器(440)及所述第二频率/时间转换器(534);
由一域转换器使用所述第二解码信号产生(540)一合成信号;及
将所述第一解码信号与所述合成信号相组合(604)以获得一解码音频信号。
20.一种编码音频信号,其包含:
一第一编码信号;
一第二编码信号,其中,用所述第一编码信号或所述第二编码信号来表示一音频信号的一部分;
一指示所述第一编码信号与所述第二编码信号的指示;
一被用来解码所述第一编码信号的一第一时间/频率分辨率信息的指示,及
一被用用来解码所述第二编码信号的一第二时间/频率分辨率信息的指示。
21.一种计算机程序,当在一处理器运行时用于执行如权利要求9或19所述的方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10382508P | 2008-10-08 | 2008-10-08 | |
EP08017663.9 | 2008-10-08 | ||
US61/103,825 | 2008-10-08 | ||
EP08017663 | 2008-10-08 | ||
EP09002271.6 | 2009-02-18 | ||
EP09002271A EP2144230A1 (en) | 2008-07-11 | 2009-02-18 | Low bitrate audio encoding/decoding scheme having cascaded switches |
PCT/EP2009/007205 WO2010040522A2 (en) | 2008-10-08 | 2009-10-07 | Multi-resolution switched audio encoding/decoding scheme |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102177426A true CN102177426A (zh) | 2011-09-07 |
CN102177426B CN102177426B (zh) | 2014-11-05 |
Family
ID=42101010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980140055.XA Active CN102177426B (zh) | 2008-10-08 | 2009-10-07 | 多分辨率切换音频编码/解码方案 |
Country Status (14)
Country | Link |
---|---|
EP (2) | EP3640941A1 (zh) |
JP (1) | JP5555707B2 (zh) |
KR (3) | KR20130069833A (zh) |
CN (1) | CN102177426B (zh) |
AR (1) | AR076060A1 (zh) |
BR (1) | BRPI0914056B1 (zh) |
CA (1) | CA2739736C (zh) |
CO (1) | CO6362072A2 (zh) |
MX (1) | MX2011003824A (zh) |
MY (1) | MY154633A (zh) |
RU (1) | RU2520402C2 (zh) |
TW (2) | TWI419148B (zh) |
WO (1) | WO2010040522A2 (zh) |
ZA (1) | ZA201102537B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103187066A (zh) * | 2012-01-03 | 2013-07-03 | 摩托罗拉移动有限责任公司 | 处理音频帧以在不同编解码器之间转变的方法和装置 |
CN103548080A (zh) * | 2012-05-11 | 2014-01-29 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
CN103620676A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
CN103915100A (zh) * | 2013-01-07 | 2014-07-09 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CN104040624A (zh) * | 2011-11-03 | 2014-09-10 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
CN105190748A (zh) * | 2013-01-29 | 2015-12-23 | 弗劳恩霍夫应用研究促进协会 | 在摩擦音或破擦音的起始段或终止段的时间的接近处使用提高的时间分辨率的音频编码器、音频解码器、系统、方法及计算机程序 |
CN105378832A (zh) * | 2013-05-13 | 2016-03-02 | 弗劳恩霍夫应用研究促进协会 | 利用对象特定时间/频率分辨率从混合信号分离音频对象 |
CN105556602A (zh) * | 2013-08-29 | 2016-05-04 | 杜比国际公司 | 用于高频重构算法的频带表设计 |
CN105593934A (zh) * | 2013-07-22 | 2016-05-18 | 弗朗霍夫应用科学研究促进协会 | 支持变换长度切换的频域音频编码 |
US9626979B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN106796800A (zh) * | 2014-07-28 | 2017-05-31 | 弗劳恩霍夫应用研究促进协会 | 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器 |
CN107404625A (zh) * | 2017-07-18 | 2017-11-28 | 青岛海信电器股份有限公司 | 终端的音效处理方法及装置 |
CN107430863A (zh) * | 2015-03-09 | 2017-12-01 | 弗劳恩霍夫应用研究促进协会 | 用于编码多声道信号的音频编码器及用于解码经编码的音频信号的音频解码器 |
CN113574889A (zh) * | 2019-03-14 | 2021-10-29 | 北京字节跳动网络技术有限公司 | 环路整形信息的信令和语法 |
CN118193470A (zh) * | 2024-03-26 | 2024-06-14 | 广州亿达信息科技有限公司 | 核酸质谱数据的解压方法 |
US12063362B2 (en) | 2019-03-23 | 2024-08-13 | Beijing Bytedance Network Technology Co., Ltd | Restrictions on adaptive-loop filtering parameter sets |
US12096021B2 (en) | 2019-02-01 | 2024-09-17 | Beijing Bytedance Network Technology Co., Ltd. | Signaling of in-loop reshaping information using parameter sets |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3474279A1 (en) | 2009-07-27 | 2019-04-24 | Unified Sound Systems, Inc. | Methods and apparatus for processing an audio signal |
EP2478520A4 (en) * | 2009-09-17 | 2013-08-28 | Univ Yonsei Iacf | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL |
TW201214415A (en) * | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
KR101790373B1 (ko) * | 2010-06-14 | 2017-10-25 | 파나소닉 주식회사 | 오디오 하이브리드 부호화 장치 및 오디오 하이브리드 복호 장치 |
US9224403B2 (en) | 2010-07-02 | 2015-12-29 | Dolby International Ab | Selective bass post filter |
WO2012016839A1 (en) * | 2010-07-20 | 2012-02-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table |
EP3471092B1 (en) | 2011-02-14 | 2020-07-08 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Decoding of pulse positions of tracks of an audio signal |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
TWI469136B (zh) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
MY159444A (en) * | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
EP4243017A3 (en) | 2011-02-14 | 2023-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method decoding an audio signal using an aligned look-ahead portion |
JP5934259B2 (ja) | 2011-02-14 | 2016-06-15 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオコーデックにおけるノイズ生成 |
CA2920964C (en) | 2011-02-14 | 2017-08-29 | Christian Helmrich | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
AR085224A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
MX2013009301A (es) | 2011-02-14 | 2013-12-06 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio. |
BR112013033900B1 (pt) * | 2011-06-30 | 2022-03-15 | Samsung Electronics Co., Ltd | Método para gerar um sinal estendido de largura de banda para decodificação de áudio |
SG11201503788UA (en) | 2012-11-13 | 2015-06-29 | Samsung Electronics Co Ltd | Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals |
KR101690899B1 (ko) | 2012-12-21 | 2016-12-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성 |
WO2014096280A1 (en) | 2012-12-21 | 2014-06-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Comfort noise addition for modeling background noise at low bit-rates |
BR112015017866B1 (pt) | 2013-01-29 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Aparelho e método para gerar um sinal melhorado da frequência utilizando a formação do sinal de melhoria |
SG11201505910PA (en) * | 2013-01-29 | 2015-08-28 | Fraunhofer Ges Forschung | Apparatus and method for processing an encoded signal and encoder and method for generating an encoded signal |
PT3451334T (pt) | 2013-01-29 | 2020-06-29 | Fraunhofer Ges Forschung | Conceito de preenchimento de ruído |
ES2732560T3 (es) | 2013-01-29 | 2019-11-25 | Fraunhofer Ges Forschung | Llenado de ruido sin información secundaria para codificadores tipo celp |
US9786286B2 (en) | 2013-03-29 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals |
ES2902518T3 (es) | 2013-05-24 | 2022-03-28 | Dolby Int Ab | Codificador de audio |
EP2980791A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
RU2701060C2 (ru) * | 2014-09-30 | 2019-09-24 | Сони Корпорейшн | Передающее устройство, способ передачи, приемное устройство и способ приема |
KR102398124B1 (ko) * | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
US10134412B2 (en) * | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
EP3961623A1 (en) | 2015-09-25 | 2022-03-02 | VoiceAge Corporation | Method and system for decoding left and right channels of a stereo sound signal |
EP3182411A1 (en) | 2015-12-14 | 2017-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded audio signal |
CN105632542B (zh) * | 2015-12-23 | 2019-05-28 | 小米科技有限责任公司 | 音频播放方法及装置 |
US9959877B2 (en) * | 2016-03-18 | 2018-05-01 | Qualcomm Incorporated | Multi channel coding |
CN117316168A (zh) * | 2016-04-12 | 2023-12-29 | 弗劳恩霍夫应用研究促进协会 | 用于对音频信号进行编码的音频编码器以及方法 |
US10362423B2 (en) | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
KR20200099561A (ko) | 2017-12-19 | 2020-08-24 | 돌비 인터네셔널 에이비 | 통합 음성 및 오디오 디코딩 및 인코딩 개선을 위한 방법, 장치 및 시스템 |
US10957331B2 (en) * | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
US10847172B2 (en) | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US20230179764A1 (en) * | 2021-12-06 | 2023-06-08 | Tencent America LLC | Arrangement of adaptive loop filter coefficients for fast vectorized transpositions |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3317470B2 (ja) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
DE19706516C1 (de) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
RU2214047C2 (ru) * | 1997-11-19 | 2003-10-10 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов |
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
DE10217297A1 (de) * | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
US7043423B2 (en) * | 2002-07-16 | 2006-05-09 | Dolby Laboratories Licensing Corporation | Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding |
US7424434B2 (en) * | 2002-09-04 | 2008-09-09 | Microsoft Corporation | Unified lossy and lossless audio compression |
DE602004005020T2 (de) * | 2003-04-17 | 2007-10-31 | Koninklijke Philips Electronics N.V. | Audiosignalsynthese |
WO2005027094A1 (fr) * | 2003-09-17 | 2005-03-24 | Beijing E-World Technology Co.,Ltd. | Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
JP2009524100A (ja) * | 2006-01-18 | 2009-06-25 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
RU2444071C2 (ru) * | 2006-12-12 | 2012-02-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Кодер, декодер и методы кодирования и декодирования сегментов данных, представляющих собой поток данных временной области |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
-
2009
- 2009-10-07 MX MX2011003824A patent/MX2011003824A/es active IP Right Grant
- 2009-10-07 RU RU2011117699/08A patent/RU2520402C2/ru active
- 2009-10-07 TW TW098133982A patent/TWI419148B/zh active
- 2009-10-07 KR KR1020137011185A patent/KR20130069833A/ko not_active Application Discontinuation
- 2009-10-07 CA CA2739736A patent/CA2739736C/en active Active
- 2009-10-07 EP EP19213835.2A patent/EP3640941A1/en not_active Ceased
- 2009-10-07 JP JP2011530415A patent/JP5555707B2/ja active Active
- 2009-10-07 TW TW102120721A patent/TWI520128B/zh active
- 2009-10-07 CN CN200980140055.XA patent/CN102177426B/zh active Active
- 2009-10-07 BR BRPI0914056-5A patent/BRPI0914056B1/pt active IP Right Grant
- 2009-10-07 EP EP09736835A patent/EP2345030A2/en not_active Ceased
- 2009-10-07 KR KR1020137031257A patent/KR20130133917A/ko not_active Application Discontinuation
- 2009-10-07 MY MYPI2011001560A patent/MY154633A/en unknown
- 2009-10-07 KR KR1020117010644A patent/KR101403115B1/ko active IP Right Grant
- 2009-10-07 WO PCT/EP2009/007205 patent/WO2010040522A2/en active Application Filing
- 2009-10-08 AR ARP090103876A patent/AR076060A1/es active IP Right Grant
-
2011
- 2011-04-06 ZA ZA2011/02537A patent/ZA201102537B/en unknown
- 2011-05-06 CO CO11055712A patent/CO6362072A2/es active IP Right Grant
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10224051B2 (en) | 2011-04-21 | 2019-03-05 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN103620676A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
US10229692B2 (en) | 2011-04-21 | 2019-03-12 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
US9626980B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor |
CN103620676B (zh) * | 2011-04-21 | 2016-03-09 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
US9626979B2 (en) | 2011-04-21 | 2017-04-18 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
CN104040624B (zh) * | 2011-11-03 | 2017-03-01 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
CN106910509A (zh) * | 2011-11-03 | 2017-06-30 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
CN104040624A (zh) * | 2011-11-03 | 2014-09-10 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
CN103187066B (zh) * | 2012-01-03 | 2016-04-27 | 谷歌技术控股有限责任公司 | 处理音频帧以在不同编解码器之间转变的方法和装置 |
CN103187066A (zh) * | 2012-01-03 | 2013-07-03 | 摩托罗拉移动有限责任公司 | 处理音频帧以在不同编解码器之间转变的方法和装置 |
CN103548080B (zh) * | 2012-05-11 | 2017-03-08 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
CN103548080A (zh) * | 2012-05-11 | 2014-01-29 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
CN103915100A (zh) * | 2013-01-07 | 2014-07-09 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CN103915100B (zh) * | 2013-01-07 | 2019-02-15 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
CN105190748A (zh) * | 2013-01-29 | 2015-12-23 | 弗劳恩霍夫应用研究促进协会 | 在摩擦音或破擦音的起始段或终止段的时间的接近处使用提高的时间分辨率的音频编码器、音频解码器、系统、方法及计算机程序 |
CN105378832B (zh) * | 2013-05-13 | 2020-07-07 | 弗劳恩霍夫应用研究促进协会 | 解码器、编码器、解码方法、编码方法和存储介质 |
US10089990B2 (en) | 2013-05-13 | 2018-10-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
CN105378832A (zh) * | 2013-05-13 | 2016-03-02 | 弗劳恩霍夫应用研究促进协会 | 利用对象特定时间/频率分辨率从混合信号分离音频对象 |
CN105593934A (zh) * | 2013-07-22 | 2016-05-18 | 弗朗霍夫应用科学研究促进协会 | 支持变换长度切换的频域音频编码 |
US10984809B2 (en) | 2013-07-22 | 2021-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frequency-domain audio coding supporting transform length switching |
US11862182B2 (en) | 2013-07-22 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frequency-domain audio coding supporting transform length switching |
US10242682B2 (en) | 2013-07-22 | 2019-03-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frequency-domain audio coding supporting transform length switching |
CN105593934B (zh) * | 2013-07-22 | 2019-11-12 | 弗朗霍夫应用科学研究促进协会 | 支持变换长度切换的频域音频编码器、解码器、编码和解码方法 |
CN105556602B (zh) * | 2013-08-29 | 2019-10-01 | 杜比国际公司 | 确定主标度因子频带表的系统和方法、高频重构单元、音频编码器和解码器 |
CN105556602A (zh) * | 2013-08-29 | 2016-05-04 | 杜比国际公司 | 用于高频重构算法的频带表设计 |
CN106796800A (zh) * | 2014-07-28 | 2017-05-31 | 弗劳恩霍夫应用研究促进协会 | 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器 |
US11107483B2 (en) | 2015-03-09 | 2021-08-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CN107430863B (zh) * | 2015-03-09 | 2021-01-26 | 弗劳恩霍夫应用研究促进协会 | 用于编码的音频编码器及用于解码的音频解码器 |
US10777208B2 (en) | 2015-03-09 | 2020-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CN107430863A (zh) * | 2015-03-09 | 2017-12-01 | 弗劳恩霍夫应用研究促进协会 | 用于编码多声道信号的音频编码器及用于解码经编码的音频信号的音频解码器 |
US11238874B2 (en) | 2015-03-09 | 2022-02-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US11741973B2 (en) | 2015-03-09 | 2023-08-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US11881225B2 (en) | 2015-03-09 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
CN107404625A (zh) * | 2017-07-18 | 2017-11-28 | 青岛海信电器股份有限公司 | 终端的音效处理方法及装置 |
US12096021B2 (en) | 2019-02-01 | 2024-09-17 | Beijing Bytedance Network Technology Co., Ltd. | Signaling of in-loop reshaping information using parameter sets |
CN113574889A (zh) * | 2019-03-14 | 2021-10-29 | 北京字节跳动网络技术有限公司 | 环路整形信息的信令和语法 |
CN113574889B (zh) * | 2019-03-14 | 2024-01-12 | 北京字节跳动网络技术有限公司 | 环路整形信息的信令和语法 |
US12063362B2 (en) | 2019-03-23 | 2024-08-13 | Beijing Bytedance Network Technology Co., Ltd | Restrictions on adaptive-loop filtering parameter sets |
CN118193470A (zh) * | 2024-03-26 | 2024-06-14 | 广州亿达信息科技有限公司 | 核酸质谱数据的解压方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20110081291A (ko) | 2011-07-13 |
TWI520128B (zh) | 2016-02-01 |
EP2345030A2 (en) | 2011-07-20 |
TW201142827A (en) | 2011-12-01 |
WO2010040522A3 (en) | 2010-09-02 |
KR20130133917A (ko) | 2013-12-09 |
RU2520402C2 (ru) | 2014-06-27 |
CA2739736C (en) | 2015-12-01 |
BRPI0914056B1 (pt) | 2019-07-02 |
CN102177426B (zh) | 2014-11-05 |
AR076060A1 (es) | 2011-05-18 |
BRPI0914056A2 (pt) | 2015-11-03 |
MY154633A (en) | 2015-07-15 |
KR101403115B1 (ko) | 2014-06-27 |
RU2011117699A (ru) | 2012-11-10 |
KR20130069833A (ko) | 2013-06-26 |
CA2739736A1 (en) | 2010-04-15 |
AU2009301358A8 (en) | 2011-05-26 |
ZA201102537B (en) | 2011-12-28 |
AU2009301358A1 (en) | 2010-04-15 |
CO6362072A2 (es) | 2012-01-20 |
TW201344679A (zh) | 2013-11-01 |
JP5555707B2 (ja) | 2014-07-23 |
EP3640941A1 (en) | 2020-04-22 |
TWI419148B (zh) | 2013-12-11 |
WO2010040522A2 (en) | 2010-04-15 |
MX2011003824A (es) | 2011-05-02 |
JP2012505423A (ja) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102177426B (zh) | 多分辨率切换音频编码/解码方案 | |
US11823690B2 (en) | Low bitrate audio encoding/decoding scheme having cascaded switches | |
CN102089814B (zh) | 对编码的音频信号进行解码的设备和方法 | |
US8959017B2 (en) | Audio encoding/decoding scheme having a switchable bypass | |
AU2009267518B2 (en) | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme | |
AU2009301358B2 (en) | Multi-resolution switched audio encoding/decoding scheme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Patentee after: Fraunhofer Application and Research Promotion Association Patentee after: Voiceage Corp Address before: Munich, Germany Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Patentee before: Voiceage Corp |