CN102099856A - 具有可切换旁路的音频编码/解码方案 - Google Patents
具有可切换旁路的音频编码/解码方案 Download PDFInfo
- Publication number
- CN102099856A CN102099856A CN2009801279156A CN200980127915A CN102099856A CN 102099856 A CN102099856 A CN 102099856A CN 2009801279156 A CN2009801279156 A CN 2009801279156A CN 200980127915 A CN200980127915 A CN 200980127915A CN 102099856 A CN102099856 A CN 102099856A
- Authority
- CN
- China
- Prior art keywords
- territory
- signal
- transducer
- bypass
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 116
- 238000001228 spectrum Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 41
- 238000006243 chemical reaction Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000153 supplemental effect Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 description 35
- 230000005284 excitation Effects 0.000 description 32
- 230000006870 function Effects 0.000 description 32
- 238000005562 fading Methods 0.000 description 26
- 238000005086 pumping Methods 0.000 description 22
- 230000009466 transformation Effects 0.000 description 20
- 238000007781 pre-processing Methods 0.000 description 15
- 230000003595 spectral effect Effects 0.000 description 13
- 230000000737 periodic effect Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 238000011002 quantification Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 206010021403 Illusion Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000009342 intercropping Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000001028 reflection method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种编码装置包括第一域变换器、可切换旁路、第二域变换器、第一处理器及第二处理器来获得已编码音频信号,该已编码音频信号具有由已经通过不同的算法所编码的在不同域中的已编码数据表示的不同编码部分。在解码器的相对应解码阶段结合用于旁路域变换器的旁路允许产生具有高质量及低比特率的已解码音频信号。
Description
技术领域
本发明涉及音频编码,具体地,涉及低比特率音频编码方案。
背景技术
本领域已知诸如MP3或AAC的频域编码方案。这些频域编码器基于时域/频域变换、随后的量化阶段以及编码阶段,在量化阶段中,使用来自于心理声学模块的信息控制量化误差;在编码阶段中,使用码表对已量化的频谱系数及相对应的边带信息进行熵编码。
另一方面,如3GPP TS 26.290所述,具有极为适合用于语音处理的编码器,例如AMR-WB+。这样的语音编码方案执行时域信号的线性预测滤波。这样的LP滤波从对所输入的时域信号的线性预测分析而获得。然后,对所得到的LP滤波系数进行编码且传输作为边带信息。该方法被称为线性预测编码(LPC)。在滤波器的输出,使用ACELP编码器的合成分析阶段,或者备选地,使用变换编码器对也被称为激励信号的预测残余信号或预测误差信号进行编码,该变换编码器使用有重迭的傅立叶变换。使用闭环或开环算法来进行ACELP编码与变换编码的激励编码(也被称为TCX编码)之间的判决。
频域音频编码方案(例如,组合了AAC编码方案及频谱带宽复制技术的高效率AAC编码方案)也可被组合到在术语“MPEG环绕”之下为人所知的的联合立体声或多通道编码工具。频域编码方案的优点在于针对音乐信号,其在低比特率处显示出高质量。但问题在于语音信号在低比特率处的质量。
另一方面,语音编码器诸如AMR-WB+也有高频加强级及立体声功能。
频域编码方案的优点在于,针对音乐信号,其在低比特率处显示出高质量。但问题在于低比特率处的语音信号质量。
语音编码方案即使在低比特率处也对语音信号显示高质量,但对于低比特率处的音乐信号则显示质量不佳。
发明内容
本发明的目的提供一种提高式编码/解码构想。
根据权利要求1所述的用于编码音频信号的设备、根据权利要求12所述的用于编码音频信号的方法、根据权利要求13所述的用于解码已编码的音频信号的设备、根据权利要求21所述的用于对已编码音频信号进行解码的方法,或者根据权利要求22所述的计算机程序,可以实现本目的。
在根据本发明的编码器中,使用两个域变换器,其中第一域变换器将音频信号由第一域(诸如时域)变换入第二域(诸如LPC域)。第二域变换器被操作为由输入域变换至输出域,且第二域变换器接收第一域变换器的输出信号或可切换旁路(bypass)的输出信号作为输入信号,可切换旁路被连接来用来旁路该第一域变换器。换言之,从而意味着第二域变换器接收第一域诸如时域的音频信号,或备选地,接收第一域变换器的输出信号,亦即已经由一个域变换至不同域的音频信号来作为输入信号。第二域变换器的输出信号通过第一处理器处理来产生第一已处理信号,而第一域变换器的输出信号通过第二处理器处理以产生第二已处理信号。优选地,该可变换旁路也可以附加地连接至第二处理器,使得输入第二处理器的输入为时域音频信号,而非第一域变换器的输出。
此种极为具有灵活性的编码构想特别可用于高质量高比特有效的音频编码,原因在于其允许至少于3个不同域的编码音频信号;以及当可切换旁路也额外连接至第二处理器时,甚至允许对4个域中的音频信号进行编码。可通过由可控地切换该可切换旁路,以针对该时域音频信号的某个部分旁路或桥联第一域变换器。即使已旁路第一域变换器,仍然存在编码时域音频信号的两种不同可能,亦即经由连接至第二域变换器的第一处理器或第二处理器来实现。
优选地,第一处理器及第二域变换器共同形成信宿模型编码器,诸如从MPEG 1第3层或MPEG 4(AAC)已知的心理声学驱动音频编码器。
优选地,另一个编码器亦即第二个处理器为时域编码器,例如为从ACELP编码器已知的残留编码器,此处,LPC残留信号使用用于LPC残留信号或时域信号的残留编码器(例如,向量量化编码器)来编码。在一个实施例中,当旁路为开启时,本时域编码器接收LPC域信号来作为输入。此种编码器为信源模型编码器,原因在于与信宿模型编码器相反,信源模型编码器被特别设计来利用语音产生模型的细节。但当旁路被关闭时,输入第二处理器的输入信号将是时域信号而非LPC域信号。
但若可切换旁路被去激活(这意味着来自第一域的音频信号在被进一步处理之前被变换到第二域中),则再度有两种不同可能,亦即在第二域(例如可能为LPC域)中编码第一域变换器的输出;或备选地,将第二域信号变换至第三域,第三域可以例如是频谱域。
优选地,频谱域变换器亦即第二域变换器适于实现相同算法,而与输入第二域变换器的输入信号是否在第一域(诸如时域)或在第二域(诸如LCP域)无关。
在解码器端,存在有两个不同的解码分支,此处一个解码分支包括域变换器,亦即第二域变换器;而另一个解码分支只包括逆处理器,但不包括域变换器。取决于编码器侧设定的实际旁路,亦即取决于旁路是否激活,可旁路或不旁路解码器中的第一变换器。特别地,当第二变换器的输出信号已经在目标域(诸如第一域或时域)中时,可旁路解码器的第一变换器。但若解码器的第二变换器的输出在与第一域不同的域中,则解码器旁路被去激活,而将信号从不同域转换成目标域,亦即于优选实施例中的第一域。在一个实施例中,第二已处理信号在相同的域,亦即第二域中;但在编码器的可切换旁路也连接至第二处理器的其它实施例中,解码器端的第二逆处理器的输出信号也已经在第一域中。在此种情况下,使用解码器侧的可切换旁路来旁路第一变换器,以使得解码器输出组合器能够接收输入信号,其代表了音频信号的不同部分,且在相同的域中。这样的信号可通过组合器来进行时间复用,或可通过解码器输出信号组合器进行交叉衰减。
在优选实施例中,编码设备包括用于压缩输入信号的共同预处理级。该共同预处理级包括多通道处理器和/或频谱带宽复制处理器,使得对所有的不同编码模式,该共同预处理级的输出相对于输入该共同预处理级的输入是已压缩版本。相对应地,解码器侧的组合器的输出可通过共同后处理级来进行后处理,该级可被操作为执行频谱带宽复制综合和/或多通道扩展运算(诸如多通道上混频操作),该运算优选使用由编码器侧传送至解码器侧的参数型多通道信息来指导。
在优选实施例中,输入编码器的音频信号及通过解码器输出的音频信号所在的第一域为时域。在优选实施例中,第一域变换器的输出所在的第二域为LPC域,故第一域变换器为LPC分析级。在另外的实施例中,第三域亦即第二域变换器的输出所在的域为频谱域,或为通过第一域变换器所产生的LPC域信号的频谱域。连接至第二域变换器的第一处理器优选地被实现为信宿编码器,例如量化器/定标器,其连同熵减少码诸如连接至霍夫曼编码器或算术编码器的心理声学驱动量化器执行相同的功能,而与输入信号于频谱域或LPC频谱域无关。
在又一优选实施例中,在全功能设备中,用于处理第一域变换器的输出或用于处理可切换旁路的输出的第二处理器为时域编码器,诸如用于ACELP编码器或用于任何其它CELP编码器的残留信号编码器。
附图说明
随后,将关于附图对本发明的优选实施例进行实质描述,在附图中:
图1a是根据本发明的第一方面的编码方案的方框图;
图1b是根据本发明的第一方面的解码方案的方框图;
图1c是根据本发明的另一方面的编码方案的方框图;
图1d是根据本发明的另一方面的解码方案的方框图;
图2a是根据本发明的第二方面的编码方案的方框图;
图2b是根据本发明的第二方面的解码方案的示意图;
图2c是图2a的优选共同预处理的方框图;以及
图2d是图2b的优选共同后处理的方框图;
图3a示意了根据本发明的又一方面的编码方案的方框图;
图3b示意了根据本发明的又一方面的解码方案的方框图;
图3c示意了具有级联开关的编码设备/方法的示意性表示;
图3d示意了其中使用级联组合器的用于解码的设备或方法的示意图;
图3e示意了对时域信号和示意包括在两个已编码信号中的短交叉衰减区的编码信号的对应表示的示意;
图4a示意了具有放置于编码分支之前的开关的方框图;
图4b示意了具有放置在编码分支之后的开关的编码方案的方框图;
图4c示意了优选组合器实施例的方框图;
图5a示意了作为准周期或类脉冲信号段的时域语音段的波形;
图5b示意了显示图5a的段的频谱;
图5c示意了作为类噪声段或静态段的示例的无声语音的时域语音段;
图5d示意了图5c的时域波形的频谱;
图6示意了分析综合CELP编码器方框图;
图7a至7d示意了作为类脉冲信号和静态信号的有声/无声激励信号;
图7e示意了提供短期预测信息和预测误差信号的编码器侧的LPC级;
图7f示意了用于产生加权信号的LPC器件的又一个实施例;
图7g示意了用于通过根据图2b的变换器537的需要,应用逆加权操作和随后的激励分析将加权信号变换成激励信号的实现;
图8示意了根据本发明的实施例,联合多通道算法的方框图;
图9示意了频宽扩展算法的优选实施例;
图10a示意了当执行开环判决时,对开关的详细描述;以及
图10b示意了对当在闭环判决模式下操作时的开关的示意。
具体实施方式
图1a示意了本发明的实施例,其中有两个域变换器510、410及可切换旁路50。可切换旁路50适于对输入到可切换旁路50的切换控制输入中的控制信号51进行响应,以处于活跃状态或非活跃状态。若该可切换旁路是活跃状态,则不将音频信号输入99、195处的音频信号馈入第一域变换器510中,而是馈入到可切换旁路50中,以使得第二域变换器410直接在输入99、195处接收该音频信号。在将结合图1c及图1d进行讨论的一个实施例中,可切换旁路50备选地可连接至第二处理器520,而不连接至第二域变换器410,以使得只经由第二处理器520处理可切换旁路50的输出信号。
然而,如果通过控制信号51将可切换旁路50设定在非活跃状态,则将在音频信号输入99或195处的音频信号输入第一域变换器510中,并在第一域变换器510的输出处输入第二域变换器410或第二处理器520中。优选地,基于开关控制信号来进行对将第一域变换器输出信号输入第二域变换器410中还是输入第二处理器520中的判决,但备选地也可经由其它手段(例如,元数据或基于信号分析)进行判决。备选地,甚至可以将第一域变换器信号510输入两个设备410、520中,并且经由图4b中所讨论的处理器和输出接口之间的开关连接,来选择将哪一个处理信号输入到输出接口中,以表示某个时间部分中的音频信号。另一方面,也可以在输出接口800本身内进行对将哪一个信号输入到输出数据流中的判决。
如图1a中所示,用于编码音频信号来获得已编码音频信号的有创造性的设备包括第一域变换器,其中,输入99/195处的音频信号在第一域中,第一域变换器用于将音频信号由第一域变换入第二域中。此外,提供了可切换旁路54,可切换旁路54对第一域变换器510进行旁路,或者用于对旁路开关控制信号51进行响应,使第一域变换器进行音频信号的变换。从而,当在活跃状态中时,可切换旁路对第一域变换器进行旁路;而在非活跃状态中时,将音频信号输入第一域变换器中。
此外,提供第二域变换器410,用于将从可切换旁路50或第一域变换器接收的音频信号变换到第三域中。第三域不同于第二域。此外,提供第一处理器420,用于根据第一算法来对第三域音频信号进行编码,以获得第一已处理信号。此外,提供第二处理器520,用于根据第二算法对从第一域变换器接收的音频信号进行编码,此处,第二算法不同于第一算法不同。第二处理器提供第二已处理信号。特别地,针对音频信号的一部分,该设备适于在其输出处具有已编码音频信号,其中,该已编码信号包括第一已处理信号或第二已处理信号。当然可以有交叉区域,然而从增强编码效率的角度看,目标是将交叉区域维持尽可能地小,可能时消除该交叉区域,以使得能够获得最大比特率压缩。
图1b示意了在优选实施例中,与图1a中的编码器相对应的解码器。图1b中用于解码已编码音频信号的设备接收包括第三域中的第一已处理信号和第二域中的第二已处理信号在内的已编码音频信号来作为输入信号,其中,第二域与第三域彼此不同。特别地,输入到输入接口900中的信号类似于图1a的接口800的输出信号。解码设备包括第一逆处理器430,用于逆处理第一已处理信号;以及第二逆处理器530,用于逆处理第二已处理信号。此外,提供第二变换器440,用于将第一逆处理信号由第三域变换至不同的域。此外,提供第一变换器540,用于将第二逆处理信号变换至第一域,或者用于当该不同的域不是第一域时,将该第一逆处理信号变换至第一域。这意味着当第一已处理信号已经不在第一域(即,在预处理/后处理电路的情况下的已解码音频信号或中间音频信号所要在的目标域)中时,第一已逆处理信号仅由第一变换器来进行变换。此外,解码器包括旁路52,用于当该不同的域是第一域时,旁路该第一变换器540。图1b的电路还包括组合器600,用于组合第一变换器540的输出信号和旁路输出(即,旁路52输出的信号),以获得组合的已解码音频信号699,可以就这样使用,或者甚至可使用后面将要讨论到的共同后处理级来进行解压缩。
图1c示意了本发明的音频编码器的优选实施例,其中,提供了处于心理声学模型300的信号分类器,用来对输入到由MPEG环绕编码器101及增强频带复制处理器102所形成的共同预处理级中的音频信号进行分类。此外,第一域变换器510是LPC分析级,可切换旁路连接在LPC分析级510的输入与输出之间,作为第一域变换器。
LPC设备通常输出LPC域信号,可以是LPC域中的任何信号,例如,图7e中的激励信号、或图7f中的加权信号、或已经通过将LPC滤波系数应用到音频信号而产生的任何其它信号。此外,LPC设备也可以确定这些系数,还可以对这些系数进行量化/编码。
此外,开关200被设置在第一域变换器的输出处,使得能够将在旁路50和LPC级510的共同输出处的信号转发到第一编码分支400或第二编码分支500。第一编码分支400包括图1a的第二域变换器410和第一处理器420,第二编码分支500包括图1a的第二处理器520。在图1c的编码器实施例中,将第一域变换器510的输入连接至可切换旁路50的输入,将可切换旁路50的输出连接至第一域变换器510的输出,以形成共同输出,并将该共同输出输入到开关200中,其中,开关200包括两个输出,或者甚至可以包括用于附加编码处理器的附加输出。
优选地,第一编码分支400中的第二域变换器410包括MDCT变换,附加地,可将MDCT变换与可切换时间偏差(time warp,TW)功能结合。使用定标器(scalar)/量化器来编码MDCT频谱,定标器/量化器基于位于信号分类器块300内的心理声学模型所提供的信息来执行对输入值的量化。另一方面,第二处理器包括用于对输入信号进行时域编码的时域编码器。在一个实施例中,控制开关200,以使得在旁路50处于活跃状态/闭合的情况下,将开关200自动设定至上编码分支400。但在又一个实施例中,即使当旁路处于活跃状态/闭合时,也可以独立于可切换旁路50来控制开关200,使得时域编码器520可以直接接收时域音频输入信号。
图1d示意了相对应的解码器,其中,LPC综合块540与图1b的第一变换器相对应,且可经由旁路52而被旁路,优选地,旁路52是经由比特流解复用器900所产生的旁路信号来控制的可切换旁路。比特流解复用器900可以从输入比特流899产生此信号以及用于编码分支430、530或SBR综合块701或MPEG环绕解码器块702的全部其它控制信号,或者可以接收针对从信号分析或任何其它分隔的信息源而来的这些控制线的数据。
随后,将给出针对编码器的图1c和针对解码器的图1d中的实施例的更详细的描述。
优选实施例包括混合音频编码器,混合音频编码器将成功的MPEG技术(诸如AAC、SBR及MPEG环绕技术)和成功的语音编码技术的力量相结合。所产生的编码解码器包括用于全部信号类别的共同预处理,该共同预处理由MPEG环绕与加强型SBR(eSBR)所组成。通过心理声学模型控制并基于信号类别,逐帧地选择由信宿或信源而获得的编码器架构。
所提出的编码解码器有利地使用编码工具,例如MPEG环绕、SBR及AAC基本编码器。这些编码工具受到变化及增强来提高语音性能且在很低的比特率处。在较高比特率处,AAC的性能至少是匹配的,原因新的编码解码器可以回落到非常接近AAC的模式。实现增强型无噪声编码模式,其在平均上提供了稍好的无噪声编码性能。针对大约32kbps或更低的比特率,激活额外的工具以提高用于语音信号和其它信号基本编码器的性能。这样的工具的主要组件是基于LPC的频率成形,针对基于MDCT的编码器以及时域编码器的更多备选窗口长度选项。将新的频宽扩展技术用来作为对SBR工具的扩张,其更适合低交叉频率并用于语音。MPEG环绕工具通过提供下变频及参数化立体声声像来提供立体声信号或多通道信号的参数表示。针对给定的测试情况,只将其用来编码立体声信号,但通过使用从MPEG-D而来的现有的MPEG环绕功能,其也适合用于多通道输入信号。
优选地,仅在低比特率处使用编码解码器链中的全部工具(MDCT编码器除外)率。
MPEG环绕技术被用来经由M个音频传输通道发送N个音频输入通道。从而,系统通道本质上具有多通道能力。MPEG环绕技术已得到增强来提高在低比特率处并针对类语音信号的性能。
基本操作模式从立体声输入信号创建高质量单声道下变频。此外,提取空间参数的集合。在解码器侧,使用已解码单声道下变频与所提取并发送的空间参数相组合,来产生立体声输出信号。在MPEG环绕上混频中使用由单个OTT(一对二)盒(OTT box)所组成的简单树状结构,低比特率2-1-2模式已经被增加至MPEG环绕中既有的5-x-5或7-x-7工作点。一些组件已受到修改来更好地适于语音重现。针对较高数据率(例如,64kbps或以上),核心码使用离散立体声编码(中间/旁边或L/R),MPEG环绕没有被用于此工作点。
本技术提交中提出的频宽扩展基于MPEG SBR技术。所使用的滤波器组与MPEG环绕及SBR中所使用的QMF滤波器组相同,提供了在额外的综合/分析的情况下共享MPEG环绕与SBR间的QMF域抽样的可能性。与标准化的SBR工具相比,eSBR引入了增强型处理算法,其对于语音及音频两项内容皆为最优。包括了至SBR的扩展,SBR更适用于极低比特率及低交叉频率。
从SBR及AAC的组合知道,本特征可被全局地解除活跃状态,除了对核心编码器的全频率范围的编码之外。
所提出的系统的核心编码器部分可被视为可选的的LPC滤波器与可切换频域/时域核心编码器的组合。
从语音编码器架构知道,LPC滤波器提供针对人类语音的源模型的基础。可全局地或逐帧地使能或去能(旁路)LPC处理。
在LPC滤波器之后,使用时域或基于变换的频域变换器架构来编码LPC域信号。通过扩展的心理声学模型来控制在这两个分支之间的切换。
时域编码器架构基于ACELP技术,提供特别针对低比特率语音信号的最优编码性能。
基于频域的编码解码器分支基于具有定标器/量化器及熵编码的MDCT架构。
可选地,可利用时间偏差工具,以通过更紧密的信号表示来增强较高比特率(例如,64kbps及以上)的语音信号的编码效率。
从现有的MPEG技术知道,基于MDCT的架构给予了较低比特率处的良好质量和逼近透明度的标量。在更高比特率处,其可在更高比特率处向AAC模式收敛。
缓冲器要求与AAC相同,即,输入缓冲器中的最大比特数为每个核心编码器通道6144:每个单声道通道元件6144比特,每个立体声通道对元件12288位。
比特储存器在编码器处受到控制,这允许将编码处理适于目前的比特需求。比特储存器的特性与AAC相同。
编码器及解码器能够被控制为以12kbps单声道与64kpbs立体声之间的不同比特率进行操作。
以PCU的方式来详细说明解码器复杂度。对于基本解码器,要求大约11.7PCU复杂度。在使用时间偏差工具的情况下,例如针对64kbps测试模式,解码器复杂度增加至22.2PCU。
针对优选立体声解码器,对RAM和ROM的要求为:
RAM:约24千字
ROM:约150千字
通过通知熵编码器,可获得只有大约98千字的总ROM大小。
在使用时间偏差工具的情况下,RAM需求增加约3千字,ROM需求增加约40千字。
理论算法延迟取决于编码解码链所使用的工具(例如MPEG环绕等等):所提出的技术的算法延迟在编码解码器抽样率处逐工作点地进行显示。下文给定的数值不包括成帧的延迟,即,以处理第一帧所需的抽样数来填充编码器输入缓冲器所需的延迟。针对所有指定的工作模式,这种成帧的延迟都是2048个抽样。下表包含了最小算法延迟及针对所使用的实现的延迟。再抽样48kHz输入PCM文件对编码解码器抽样率的附加延迟以“(.)”来指定。
测试7,20kbps单声道 | 4794 | 4854(+44) |
测试8,16kbps单声道 | 6842 | 6842(+44) |
测试9,12kbps单声道 | 6842 | 6842(+44) |
本编码解码器的主要贡献总结如下:
所提出的技术有利地使用了当前发展状况的语音及音频编码技术,而没有牺牲语音或音乐内容的编码性能。这产生了一种编码解码器,其可为针对下述比特率范围的语音内容、音乐内容及混合内容给予当前发展状况的质量,该比特率始于极低比特率(12kbps),高至例如128kbps及以上的高数据率,在该比特率处,编码解码器达到透明质量(transparent quality)。
将单声道信号、立体声信号或多通道信号输入图2a的共同预处理级100。共同预处理方案具有联合立体声功能、环绕功能、和/或频宽扩展功能。在块100的输出处,有输入到旁路50与变换器510的集合或者多个这种类型的集合中的单声道通道、立体声通道或多通道。
当级100有两个或多个输出,亦即当级100输出立体声信号或多通道信号时,针对级100的各个输出可存在旁路50与变换器510的集合。举例言的,立体声信号的第一通道可为语音通道,立体声信号的第二通道可为音乐通道。在此种情况下,同一个时刻两个通道间的判决级的判决可以不同。
通过判决级300控制旁路50。判决级接收输入到块100中的信号或从块100输出的信号来作为输入信号。备选地,判决级300也可接收边信息,边信息被包括在单声道信号、立体声信号或多通道信号中,或者至少与例如在初始生成单声道信号、立体声信号或多通道信号时所生成的存在信息的信号相关联。
在一个实施例中,判决级不控制前处理级100,块300与块100间的箭头不存在。在又一个实施例中,通过判决级300将块100的处理控制到特定的程度,以基于该判决对块100中的一个或多个参数进行设置。但这不影响块100的一般算法,使得块100的主要功能处于活跃状态而与级300的判决无关。
判决级300驱使旁路50,以将共同预处理级的输出信号馈入至图1a中的上分支所示的频率编码部分400中,或者馈入到LPC域变换器510中,LPC域变换器510可以是图2a的下分支处所示意的第二编码部分500的一部分,并且具有元件510、520。
在一个实施例中,该旁路对单域变换器进行旁路。在又一实施例中,对不同的编码分支(例如,第三编码分支或甚至第四编码分支,或者甚至更多编码分支),可以有附加的域变换器。在有三个编码分支的实施例中,第三编码分支可类似于第二编码分支,但是可以包括与第二分支500的激励编码器不同的激励编码器。在该实施例中,第二分支包括LPC级510和基于码本的激励编码器(例如,ACELP的激励编码器),第三分支包括LPC级和对LPC级输出信号的频谱表示进行操作的激励编码器。
频域编码分支的关键元件是频谱变换块410,可以操作频谱变换块410来将共同预处理级输出信号变换到频谱域中。频谱变换块包括MDCT算法、QMF、FFT算法、子波分析或滤波器组(例如,具有特定数目的滤波器组通道的临界抽样的滤波器组),其中,该滤波器组中的子频带信号可为实数值信号或复数值信号。使用频谱音频编码器420对频谱变换块410的输出信号进行编码,频谱音频编码器420可包括从AAC编码方案所知的处理块。
在下编码分支500中,关键元件是源模型分析器(例如,LPC 510),在本实施例中,源模型分析器是域变换器510并且输出两种信号。一种信号是LPC信息信号,用来控制LPC综合滤波器的滤波特性。将该LPC信息发送至解码器。另一种LPC级510输出信号是被输入到激励编码器520中的激励信号或LPC域信号。激励编码器520可来自任何源滤波器模型编码器,例如,CELP编码器、ACELP编码器或任何其它处理LPC域信号的编码器。
另一个优选的激励编码器实现是激励信号或LCP域信号的变换编码。在实施例中,不使用ACELP码本机制来编码激励信号,而是将激励信号变换成频谱表示,对频谱表示值(例如,滤波器组情况下的子频段信号或诸如FFT的变换的情况下的频率系数)进行编码来获得数据压缩。这种激励编码器的实现是从AMR-WB+为所知的TCX编码模式。通过将LPC级510输出连接至频谱变换器410来获得本模式。从3GPPTS 26.290所知的TCX模式在变换域中受到感知加权信号的处理。使用以噪声因子量化来划分的多速率格型量化(代数VQ)对傅立叶变换加权信号进行量化。在1024、512或256抽样窗口计算变换。通过由逆加权滤波器对已量化加权的信号进行逆滤波来恢复激励信号。
在图1a或图1c中,时域编码器(可以是ACELP块)或变换域编码器(可以是TCX块527)在LPC块510之后。在3GPP TS 26.190中对ACELP进行了描述,以及在3GPP TS 26.290中对TCX进行了描述。通常,ACELP块接收由图7e所述的过程所计算的LPC激励信号。TCX块527接收图7f产生的加权信号。
在TCX中,通过基于LPC的加权滤波器对输入信号滤波,将变换应用到所计算的已加权信号。由(1-A(z/γ))/(1-μz-1)给出本发明的使用加权滤波的优选实施例。从而,已加权信号是LPC域信号,而其变换是LPC谱域的。通过ACELP块526处理的信号是激励信号,且与通过块527处理的信号不同,但这两个信号都在LPC域中。
在解码器侧,在逆频谱变换后,应用加权滤波的逆,即,(1-μz-1)/A(z/γ)。然后,信号通过(1-A(z))滤波而进入LPC激励域。从而,至LPC域的变换以及TCX-1操作包括了逆变换,并包括然后的通过的滤波以从加权信号域变换至激励域。
虽然项510示意了单个块,但块510可输出不同的信号,只要这些信号在LPC域中。块510的实际模式诸如激励信号模式或加权信号模式可取决于实际的开关状态。备选地,块510具有两个并行的处理器件,其中,类似于图7e来实现一个器件,而如图7f实现另一个器件。从而,在块510的输出处的LPC域可表示LPC激励信号或LPC加权信号或任何其它LPC域信号。
在LPC模式中,当旁路为非活跃状态时,亦即当有ACELP/TCX编码时,优选地在编码之前通过滤波器1-0.68z-1来预加重信号。在ACELP/TCX解码器中,通过滤波器1/(1-0.68z-1)来对所综合的信号进行去加重。预加重可以是LPC块510的一部分,其中,在LPC分析和量化之前对信号进行预加重。同理,去加重可以是LPC综合块LPC-1540的一部分。
存在有若干LPC域。第一LPC域表示LPC激励,第二LPC域表示LPC加权信号。亦即,通过以(1-A(z))进行滤波来变换到LPC残留/激励域中,获得第一LPC域信号;通过以滤波器(1-A(z/γ))/(1-μz-1)进行滤波来变换至LPC加权域,获得第二LPC域信号。
判决级中的判决可以是信号自适应的,使得判决级能够执行音乐/语音鉴别并控制旁路50,以及能够通过将音乐信号输入上分支400并将语音信号输入下分支500的方式来控制图1c的开关200(如果存在)。在一个实施例中,判决级将其判决信息馈入到输出比特流中,使得解码器可使用该判决信息来执行正确的解码操作。
图2b中示意了这样的解码器。频谱音频编码器420输出的信号在传送后被输入频谱音频解码器430中。频谱音频解码器430的输出被输入到时域变换器440中。类似地,图2a的激励编码器的输出被输入到输出LPC域信号的激励解码器530中。LPC域信号被输入到接收由相对应的LPC分析级510产生的LPC信息来作为额外输入信号的LPC综合级540中。将时域变换器440的输出和/或LPC综合级540的输出输入到可切换旁路52中。经由旁路控制信号来控制旁路52,该旁路控制信号例如由判决级300产生,或由外部提供诸如由原先单声道信号、立体声信号或多通道信号的创建者提供。
将旁路540或级540的输出输入到组合器600中,该输出是完整的单声道信号,随后被输入到执行联合立体声处理或频宽扩展处理等的共同后处理级700中。取决于共同后处理级的特定功能,输出单声道信号、立体声信号或多通道信号,当共同后处理级700执行频宽扩展操作时,这些信号具有比输入到块700中的信号更大的频宽。
在一个实施例中,旁路52适于对单变换器540进行旁路。在又一个实施例中,可以有对附加解码分支(例如,第三解码分支或甚至第四解码分支或甚至更多个解码分支)进行定义的附加变换器。在有三个解码分支的实施例中,第三解码分支类似于第二解码分支,但可包括与第二分支530、540中的激励解码器530不同的激励解码器。在该实施例中,第二分支包括LPC级540和基于码本的激励解码器(例如,在ACELP中),而第三分支包括LPC级和对LPC级540的输出信号的频谱表示进行操作的激励解码器。
如前所述,图2c示意了根据本发明的第二方面的优选编码方案。图1a的位于100中的共同预处理方案现在包括产生联合立体声参数及单声道输出信号来作为输出的环绕/联合立体声块101,该联合立体声参数及单声道输出信号是通过对作为具有两个或更多信道的信号的输入信号进行下变频来产生的。通常,在块101的输出处的信号也可是有多个通道的信号,但是由于块101的下变频功能,块101的输出处的通道数目将小于输入到块101中的通道数目。
将块101的输出输入到频宽扩展块102中,在图2c的解码器中,频宽扩展块102在其输出处输出频带受限的信号(例如,低频带信号或低通信号)。此外,针对输入到块102中的信号的高频带,产生从MPEG-4的HE-AAC简档所知的诸如频谱包络参数、逆滤波参数、噪底参数等的频宽扩展参数,并将其转发至比特流复用器800。
优选地,判决级300接收输入到块101或输入到块102中的信号,以在例如音乐模式或语言模式间作判决。在音乐模式中,选择上编码分支400,而在语音模式中,则选用下编码分支500。优选地,判决级附加地控制联合立体声块101和/或频宽扩展块102,以使得这些块的功能适于特定的信号。从而,当判决级确定输入信号的特定时间部分处于第一模式(例如,音乐模式)时,可通过判决级300来控制块101和/或块102的特定特征。备选地,当判决级300判定该信号处于语音模式或通常处于LPC域编码模式时,可根据判决级的输出信号控制块101及块102的特定特征。
取决于开关的判决,开关在频率编码分支400与LPC编码分支500之间切换,该开关的判决可从开关200的输入信号或者从诸如输入到级200中的信号所潜藏的原始音频信号的产生器之类的外部源所获得。频率编码分支400包括频谱变换级及后续连接的量化/频谱级。量化/编码级可以包括从现代频域编码器(例如,AAC编码器)所知的任一种功能。此外,可通过心理声学模块来控制量化/编码级中的量化操作,心理声学模块产生心理声学信息(例如,对频率的心理声学遮蔽临界值),其中,该信息被输入到量化/编码级中。
优选地,使用MDCT操作进行频谱变换,甚至更优选地,频谱变换是时间偏差MDCT操作,其中,可以将强度或通常偏差强度控制在零与高偏差强度之间。在零偏差强度中,图1c的块400的MDCT操作是技艺界已知的直通式MDCT操作。可以将时间偏差强度连同时间偏差边信息传输/输入到比特流复用器800中作为边信息。因此,若使用TW-MDCT,应将时间偏差边信息送至如图1c以424示意的比特流,而在解码器侧,应从图1d中以项434来示意的比特流接收时间偏差边信息。
在LPC编码分支中,LPC域编码器可以包括计算音高增益、音高滞后和/或诸如码本指数及码增益的码本信息的ACELP核。
在第一编码分支400中,频谱变换器优选地包括具有某些窗口功能的已特别适配的MDCT操作,其后是量化/熵编码级,量化/熵编码级可以是向量量化级,但优选是与频域编码分支中的量化器/编码器类似的量化器/编码器。
图2d示意了与图2c的编码方案相对应的解码方案。将由比特流复用器所产生的比特流输入到比特流解复用器中。取决于例如通过模式检测块从比特流获得的信息,解码器侧的开关被控制为将来自于上分支的信号或来自于下分支的信号转发至频宽扩展块701。频宽扩展块701接收来自于比特流解复用器的边信息和模式判决的输出,基于例如图1d的合并器600所输出的低频段来重构高频段。
将块701所产生的全频带信号输入到联合立体声/环绕处理级702中,联合立体声/环绕处理级702重构两个立体声通道或若干个多通道。通常,块702将输出比输入本块更多的通道。取决于应用,进入块702中的输入甚至可以包括两个通道(例如,在立体声中),并可包括多个通道,只要该块的输出具有比进入该块的输入更多的通道。
已将图1c的开关200示出为在两个分支之间切换,使得一般地如图4a所示,只有一个分支接收要处理的信号,而另一个分支不接收要处理的信号。但也可以例如将开关布置在音频编码器420和激励编码器520之后,这意味着两个分支400、500并行处理同一个信号。但为了不要让比特率加倍,只从这些编码分支400或500中的一个分支选择所输出的信号来写入到输出比特流中。然后,判决级将进行操作,使得写入比特流的信号对某个成本函数进行最小化,其中,成本函数可以是所产生的比特流或所产生的感知失真或比特率/感知失真组合的成本函数。因此,在本模式或者在附图所示意的模式中,还可以以闭环模式来操作判决级,以确保最终只有编码分支输出写入到比特流中,该比特流针对给定的感知失真具有最低比特率,或者针对给定的比特率具有最低的感知失真。
大致上,分支400的处理是在基于感知的模型或信宿模型中的处理。从而,本分支对人类接收声音的听觉系统进行模型化。相反地,分支500的处理产生在激励、残留或LPC域中的信号。通常,分支500的处理是在语音模型或信息产生模型中的处理。对语音信号而言,本模型是产生声音的人类语音/声音产生系统模型。然而,要对来自要求不同声音产生模型的不同源的声音进行编码,则分支500的处理可以不同。
虽然图1a至图4c以设备的方框进行了示意,但这样的图示同时也是方法的示例说明,此处方框功能与方法步骤相对应。
图3c示意了用于编码音频输入信号195的音频编码器。音频输入信号195存在于第一域,第一域例如可以是时域,但也可以是任何其它域,诸如频域、LPC域、LPC谱域或任何其它域。通常,由一个域转换至另一个域通过转换算法执行,例如,通过众所周知的时间/频率变换算法或频率/时间变换算法中的任一者来执行。
从时域进行的备选变换(例如,LPC域中的变换)是对时域信号进行基于LPC的滤波的结果,其产生LPC残留信号或激励信号或其它LPC域信号。视情况而定,产生对变换前的信号抽样的实质数目有影响的已滤波信号的任何其它滤波操作也可用作为变换算法。因此,使用基于LPC的加权滤波器对音频信号进行加权是另一种变换,其产生在LPC域中的信号。在时间/频率变换中,对单频谱值的修改将对变换前的全部时域值造成影响。类似地,对任何时域抽样的修改将对每个频域抽样产生影响。同理,由于LPC滤波器长度,在LPC域情况下对激励信号抽样的修改将对LPC滤波前的抽样实质数目产生影响。同理,在LPC变换前的抽样修改将由于LPC固有的记忆效率而对通过此LPC变换所得的多个抽样产生影响。
图3c的音频编码器包括产生第一已编码信号的第一编码分支522。此第一已编码信号可在第四域中,在优选实施例中,第四域是时间-频谱域,亦即当时域信号经由时间/频率变换处理时所得到的域。
因此,用于编码音频信号的第一编码分支522使用第一算法来获得第一已编码信号,其中,该第一算法可以包括或可以不包括时间/频率变换算法。
此外,音频编码器包括用于编码音频信号的第二编码分支523。第二编码分支523使用与第一算法不同的第二算法来获得第二已编码信号。
此外,音频编码器包括第一开关521,用于在第一编码分支522与第二编码分支523、524之间进行切换,以使得针对音频输入信号的一部分,块522输出处的第一已编码信号或第二编码分支输出处的第二已编码信号被包括在编码器输出信号中。从而,当针对音频输入信号195的特定部分,第四域中的第一已编码信号被包括在编码器输出信号中时,编码器输出信号中不包括作为第二域中的第一已处理信号或第三域中的第二已处理信号的第二已编码信号。这确保了该编码器具有比特率效率。在实施例中,与帧的帧长度相比,包括在两个不同编码信号中的音频信号的任何时间部分都小,这将结合图3e进行讨论。对于开关事件中从一个已编码信号至另一个已编码信号的交叉衰减,以减少在没有任何交叉衰减的情况下可能出现的假信号,这样的小的部分是有用的。因此除了交叉衰减区外,各个时域块由只有单域的已编码信号来表示。
如图3c所示意的,第二编码分支523包括变换器521和旁路50,变换器521用于将第一域中的音频信号(亦即信号195)变换到第二域中。此外,第一处理分支522获得优选地也在第二域中的第一已处理信号,以使得第一处理分支522并未进行域改变,或第一处理分支522在第一域中。
第二处理分支523、524将在第二域中的音频信号变换到与第一域不同并且也与第二域不同的第三域或第四域中,以获得在第二处理分支523、524的输出处的第二已处理信号。
此外,编码器包括开关521,用于在第一处理分支522与第二处理分支523、524之间进行切换,其中,此开关与图1c的开关200相对应。
图3d示意了用于对图3c的编码器产生的已编码音频信号进行解码的相对应的解码器。通常,以第二域信号或第一域信号,或者以第三域信号或第四域编码信号来表示第一域音频信号除了可选的交叉衰减区之外的各个块,优选地,可选的交叉衰减区比一帧的帧长度短,以获得尽可能在临界抽样极限处的系统。已编码音频信号包括第一已编码信号、第二已编码信号,其中,该第一已编码信号及第二已编码信号涉及已解码音频信号的不同时间部分,以及,针对已解码音频信号的第二域、第三域和第一域彼此不同。
解码器包括用于基于第一算法解码的第一解码分支。在图3d的531示意了第一解码分支示例。
图3d的解码器还包括第二解码分支533、534,第二解码分支533、534包括若干元件。
此外,解码器包括第一组合器532,用于对第一逆处理信号和第二逆处理信号进行组合,以获得在第一域或第二域中的信号,其中,已组合信号在第一时刻只受第一逆处理信号的影响,而在后来的时刻只受第二逆处理信号的影响。
此外,解码器包括变换器540和可切换旁路52,变换器540用于将已组合信号变换至第一域。
最后,图3d示意的解码器包括第二组合器600,用于对来自于旁路52的已解码的第一信号和变换器540输出信号进行组合,以获得第一域中的已解码输出信号。再次地,第一域中的已解码输出信号在第一时刻只受由变换器540输出的信号的影响,而在后来的时刻只受已被旁路的信号的影响。
在图3e中从编码器的角度示意了这样情况。在图3e的上部的以示意表示的形式示意了第一域音频信号(例如,时域音频信号),其中,时间索引由左至右增加,项目3可被视为对图3c的信号195进行表示的音频抽样流。图3e示意了帧3a、3b、3c、3d,如图3e中的项目4所示意的,其可通过第一已编码信号与第二已编码信号之间的切换而产生。第一已编码信号及第二已编码信号全部都在不同的域中,为了确保不同域之间的切换不会在解码器侧产生假信号,时域信号的帧3a、3b、3c、…具有被指示为交叉衰减区的重迭范围。但是在帧3d、3c之间不存在这种交叉衰减区,这意味着帧3d也可能以与前一信号3c在相同的域中的信号来表示,帧3c与3d之间没有域的改变。
因此,通常当没有域改变时,优选地不提供交叉衰减区;而当有域改变(亦即两个开关中的任一者有切换动作)时,优选地提供交叉衰减区,亦即音频信号由两个随后的已编码/已处理信号进行编码的部分。
在实施例中,已通过具有例如50%重迭的MDCT处理来产生第一已编码信号或第二已处理信号,每个时域抽样被包括在两个随后的帧中。然而,由于MDCT的特性,这并不产生额外的开销,因为MDCT是临界抽样系统。在该背景下,临界抽样意味着频谱值的数目与时域值的数目相同。MDCT的优点在于没有特定的交叉区域的情况下提供了交叉效果,以使得在没有任何违反临界抽样要求的额外开销的情况下,提供了从MDCT块至下一个MDCT块的交叉。
优选地,第一编码分支中的第一算法基于信宿模型,而第二编码分支中的第二算法基于信源模型或SNR模型。SNR模型是这样的模型,其不特别涉及特定的声音产生机制,而是一种可基于例如闭环判决来从多个编码模型中选择的编码模型。从而,SNR模型是任何可用的编码模型,但没有必要与声音产生器的物理组成相关,而是与信宿模型不同的任何参数化的编码模型,其可以通过闭环判决来选择,并且特别地,通过对来自于不同模型的不同SNR结果进行比较来选择。
如图3c所示意的,提供控制器300、525。此种控制器可包括图1c的判决级300的功能。大致上,控制器被用来以信号自适应的方式控制旁路及图1c的开关200。控制器被操作为分析输入旁路的信号、或由第一编码分支或第二编码分支输出的信号、或经由第一编码分支和第二编码分支关于目标功能进行编码和解码所获得的信号。备选地或此外,控制器被操作来分析输入开关的信号、或由第一处理分支或第二处理分支输出的信号,或再次地关于目标功能,通过由第一处理分支及第二处理分支进行处理和逆处理所获得的信号。
在一个实施例中,第一编码分支或第二编码分支包括引入时间/频率变换算法(例如,MDCT或MDST算法)的混迭(aliasing),这与直通式FET变换不同,后者并未引入混迭效果。此外,一个分支或该两个分支包括量化器/熵编码器块。特别地,只有第二编码分支的第二处理分支包括引入混迭操作的时间/频率变换器,而第二编码分支的第一处理分支包括量化器和/或熵编码器并且并未引入任何混迭效果。引入时间/频率变换器的混迭优选地包括用于应用分析窗口及MDCT变换算法的窗口器(windower)。特别地,窗口器被操作为以重迭方式将窗口功能应用到随后的帧,使得窗口化信号的抽样出现在至少两个随后的窗口化帧中。
在一个实施例中,第一处理分支包括ACELP编码器,第二处理分支包括MDCT频谱变换器和用于对频谱成分进行量化以获得量化频谱成分的量化器,其中,各个已量化的频谱成分为零,或者由多个不同的可能的量化器指标中的一个量化器指标来定义。
如前文说明,两个编码分支被操作为而以逐块的方式来编码音频信号,其中,以逐块的方式来切换旁路或开关,以使得至少在具有预定数目的信号抽样的块之后,进行切换或旁路动作,该预定数目形成了针对相对应的开关的帧长度。从而,用于对该旁路进行旁路的粒度(granule)可以是例如具有2048或1028个抽样的块,而该旁路切换时所基于的帧长度是可变的,但优选固定在这样的相当长的周期。
与之相反,开关200的块长度,亦即当开关200从一个模式切换成另一个模式时的块长度实质上小于第一开关的块长度。优选地,对两个开关的块长度进行选择,使得较长的块长度为较短的块长度的整数倍。在优选的实施例中,第一开关的块长度为2048个抽样,而第二开关的块长度为1024个抽样,或更优选地为512,又更优选地为256,甚至又更优选地为128个抽样,因此在最大时,当旁路只改变单次时,该开关可切换16次。
在又一个实施例中,控制器300被操作为:以对语音的判决优于对音乐的判决的方式来执行第一开关的语音/音乐鉴别。在本实施例中,即使针对第一开关的帧少于50%的部分是语音,而该帧超过50%的部分是音乐时,仍然判决采取语音。
此外,控制器被操作为:当第一帧相当小的部分是语音时,特别地,当第一帧的一部分(是较小的第二帧的长度的50%)是语音时,已经切换至语音模式。从而,即使与第一开关的帧长度相对应的块只有6%或12%为语音时,优选语音/优先切换判决已经切换至语音。
本处理是优选的,以完全开发第一处理分支的比特率节省能力(在一个实施例中,该第一处理分支具有有声语音核),并且即使对大的第一帧非语音的其余部分也未放松任何质量,这是因为实际上第二处理分支包括变换器,并因此可用于也有非语音信号的音频信号这一事实。优选地,该第二处理分支包括被临界抽样的重迭MDCT,其甚至在小型窗口尺寸处也提供高效率且无混迭(aliasing free)的操作,原因在于时域混迭消除处理,例如在解码器侧的重迭及相加。此外,针对优选作为类AAC MDCT编码分支的第一编码分支的大型块长度是有用的,因为非语音信号通常相当稳定,并且长的变换窗口提供了高频率分辨率,并因此提供了高质量,此外,也由于心理声学控制的量化模块而提供了比特率效率,心理声学控制的量化模块也可被应用于第二编码分支的第二处理分支中基于变换的编码模式。
关于图3d的解码器的示意,发送信号包括明显的指示器作为如图3e所示的边信息4a是优选的。该边信息4a通过图3d中未示意的比特流语法分析器(parser)来提取,以将相对应的第一已处理信号或第二已处理信号转发至正确的处理器,例如图3d的第一逆处理分支或第二逆处理分支。因此,已编码信号不仅具有已编码信号/已处理信号,同时也包括涉及这些信号的边信息。但在其它实施例中,可能有隐藏的信令,其允许解码器侧的比特流语法分析器在特定的信号之间进行区分。参考图3e,概述了第一已处理信号或第二已处理信号为第二编码分支的输出,因此为第二已编码信号。
优选地,第一解码分支和/或第二逆处理分支包括用于从谱域至时域的变换的MDCT变换。为了达成此项目的,提供重迭-加法器来执行时域混迭消除功能,时域混迭消除功能同时提供交叉衰减效果以避免阻塞假信号。通常,第一解码分支将在第四域编码的信号变换到第一域中,而第二逆处理分支执行从第三域至第二域的变换,后续连接至第一组合器的变换器提供从第二域至第一域的变换,以使得在组合器600的输出处只有第一域信号,在图3d的实施例中,该第一域信号表示已解码的输出信号。
图4c示意了优选解码器实现的又一个方面。特别在第一解码器是时间混迭产生解码器或者一般称为频域解码器,而第二解码器是时域器件的情况下,为了避免可听到的假信号,第一解码器450以及第二解码器550所输出的块或帧之间的边界不应该是完全连续的,特别是在进行切换的情况下。从而,当输出第一解码器450的第一块时,以及当针对后续的时间部分,输出第二解码器的块时,优选执行如交叉衰减块607所示意的交叉衰减操作。为了达成此项目的,交叉衰减块607可如图4c所示在607a、607b及607c处实现。每个分支可具有加权器,该加权器具有于在规范化刻度上的0至1之间的加权因子m1,此处如图609中所指示,加权因子可改变,这样的交叉衰减规则确保进行连续并且平滑的交叉衰减,此外,确保使用者将不会察觉任何的音量变化。非线性交叉衰减规则(例如,sin2交叉衰减规则)可被用来替代线性交叉衰减规则。
在特定实例中,使用窗口来产生第一解码器的最末块,此处该窗口实际上执行本块的淡出。在此种情况下,块607a中的加权因子m1等于1,实际上,针对该分支根本不要求进行加权。
当进行由第二解码器至第一解码器的切换时,以及当第二解码器包括实际上淡出该输出至该块结束时的窗口时,不需要以“m2”来指示的加权器,或整个交叉衰减区的加权参数可设定为1。
当使用加窗(windowing)来产生切换后的第一块时,且当此窗口实际上执行淡入操作时,则相对应的加权因子也可被设定为1,以使得实际上不需要加权器。因此,当对最末块进行加窗以通过解码器来淡出时,并且当使用解码器来对切换后的第一块进行加窗以提供淡入时,则根本不需要加权器607a、607b,通过加法器607c执行的加法操作就足够了。
在此种情况下,最末帧的淡出部分及下一个帧的淡入部分定义了在块609中指示的交叉衰减区。此外,这在下面的情况下是优选的:一个解码器的最末块与另一个解码器的第一块有特定的时间重迭。
若不需要或不可能或不期望交叉衰减操作,以及如果仅有从一个解码器至其它解码器的硬切换(hard switch)时,则优选在音频信号的静默通路内执行这样的切换,或至少在音频信号的低能量通路(亦即,被感知为静默或几乎静默的通路)中执行这样的切换。优选地,在这样的实施例中,判决级300确保在切换事件之后的对应时间部分具有下述能量时才激活开关200:该能量例如低于音频信号的平均能量,且优选地低于例如音频信号与该音频信号的两个或甚至更多时间部分/帧有关的平均能量的50%。
优选地,第二编码规则/解码规则为基于LPC的算法。在基于LPC的语音编码中,进行对准周期性类脉冲激励信号段或信号部分与类噪声激励信号段或信号部分之间的区别。针对如图7b的极低比特率LPC音码器(vocoder)(2.4kbps)来进行。但在中间速率CELP编码器中,针对来自于自适应码本和固定码本的定标向量(scaled vector)的相加获得激励。
以与类噪声激励信号不同的机制,对准周期性类脉冲激励信号段(亦即,具有特定音高的信号段)进行编码。虽然准周期性类脉冲激励信号被关联到有声语音,但类噪声信号与无声语音相关。
示例性地,对图5a至图5d进行参考。此处,对准周期性类脉冲激励信号段或信号部分以及类噪声信号段或信号部分进行示例性讨论。特别地,对如图5a示意的在时域中以及图5b示意的在频域中的有声语音进行讨论,作为准周期性类脉冲信号部分的示例,并结合图5c及图5d对作为类噪声信号部分的示例的无声语音段进行讨论。语音通常被分类为有声、无声、或混合信号。在图5a至图5d中示意了针对已抽样有声段及无声段的时域及频域图。有声语音在时域具有准周期性而在频域为谐波结构,无声语音是类随机的并且是宽带。有声语音的短时间频谱的特征在于其精细以及共振峰的结构。精细谐振结构是语音的准周期性的结果,且可归因于声带的振动。共振峰结构(频谱包络)是源与声道交互作用的结果。声道由咽和口腔所组成。与有声语音的短时间频谱“相符”的频谱包络形状与声道的传输特性和由于声门脉冲的频谱倾斜(六分贝/八音度)相关联。频谱包络的特征在于被称为共振峰的波峰的组。共振峰是声道的共振模式。针对一般的声道,有三个至五个5kHz以下的共振峰。前三个共振峰通常出现在低于3kHz处,这样的共振峰的振幅及位置就语音综合及感知而言都相当重要。较高共振峰对宽带及无声语音呈现也相当重要。语音的性质涉及如下的物理语音产生系统。通过以振动的声带所产生的准周期性声门空气脉冲来刺激声道,以产生有声语音。周期性脉冲频率被称作为基本频率或音高。无声语音经由强迫空气通过声道的狭窄处而产生。鼻音由于鼻道与声道的声学耦合而产生,而爆裂声由突然释放蓄积于声道闭合部后方的气压而产生。
从而,音频信号的类噪声部分既没有示出任何类脉冲时域结构,也没有示出谐振的频域结构,如图5c及图5d所示,这与例如在图5a及图5b中所示的准周期性类脉冲部分不同。然而,如随后将要描述的,在针对激励信号的LPC后,也可以观察到类噪声部分与准周期性类脉冲部分之间的区别。LPC是将声道模型化并且从信号提取声道激励的方法。
此外,准周期性类脉冲部分及类噪声部分可以以适时方式出现,这意味着音频信号在时间中的一部分是带噪声的,音频信号在时间中的另一部分是准周期性的,亦即调性的。备选地或此外,信号的特性在不同频带中可以不同。从而,也可频率选择性地执行对音频信号为噪声或音调的确定,以使得特定的频带或若干特定的频带被视为带噪声的,而其它频带被视为调性的。在此种情况下,该音频信号的某个时间部分可包括调性成分及噪声成分。
图7a示意了语音产生系统的线性模型。本系统被假设为二级式激励,亦即如图7c中所指示的针对有声语音的脉冲串,以及如图7d中所指示的针对无声语音的随机噪声。声道被模型化为全极点滤波器70,全极点滤波器70对声门模型72所产生的图7c或图7d中的脉冲进行处理。从而,可以将图7a的系统精简到图7b的全极点模型,图7b的全极点模型具有增益级77、转发径路78、反馈径路79、及加法级80。在反馈径路79中有预测滤波器81,可以使用z域函数如下表示图7b所示意的全源模型综合系统:
S(z)=g/(1-A(z))·X(z),
此处,g表示增益,A(z)是由LP分析所确定的预测滤波器,X(z)是激励信号,而S(z)是综合语音输出。
图7c及图7d示意了使用线性源系统模型进行有声和无声语音综合的图形时域描述。本系统和上述等式中的激励参数是未知的,必须由语音抽样的有限集合来确定。使用输入信号的线性预测和滤波系数的量化来获得A(z)的系数。在第p阶转发线性预测器(p-th order forward predictor)中,由p个已通过的抽样的线性组合来预测语音序列的当前抽样。可通过众所周知的算法(例如,雷文森杜宾(Levinson-Durbin)算法)或一般地自相关法或反映法来确定预测器系数。
图7e示意了LPC分析块510的更详细实现。将音频信号输入到确定滤波器信息A(z)的滤波器确定块中。输出该信息作为解码器所需的短期预测信息。如例如从AMR-WB+规范所知的,通过量化器81量化该信息。短期预测信息为实际的预测滤波器85所需。在减法器86中,输入音频信号的当前抽样,并减去当前抽样的预测值,以使得对该抽样而言,在线84处产生预测误差信号。在图7c或图7d中极其示意性地示意了这样的预测误差信号抽样的序列。因此图7a及图7b可被视为一种已整流的类脉冲信号。
图7e示意了计算激励信号的优选方式,图7f示意了计算已加权信号的优选方式。与图7e相反,当γ不为1时,滤波器85是不同的。对γ来说,小于1的数值是优选的。此外,存在有块87,μ优选为小于1的数。通常,如在3GPP TS 26.190或3GPP TS 26.290一样,可以实现图7e及图7f中的元件。
图7g示意了可应用于解码器侧(例如,图2b的元件537)的逆处理。特别地,块88从已加权信号产生未加权信号,以及块89从该未加权信号计算激励。通常,除了图7g中的未加权信号之外的全部信号在LPC域中,但激励信号及已加权信号是同一个域中的不同信号。块89输出随后可连同块536的输出信号一起使用的激励信号。然后,可在图2b的块540中进行公共逆LPC变换。
随后,将结合图6讨论分析综合(analysis-by-synthesis)CELP编码器,以示意了应用于本算法的修改。在Andreas Spanias的“Speech Coding:A Tutorial Review”(Proceedings of the IEEE,Vol.82,No.10,October 1994,pages 1541-1582)中对本CELP编码器的细节进行了讨论。图6中所示意的CELP编码器包括长期预测元件60及短期预测元件62。此外使用码本,在64处对此进行了指示。在66处实现感知加权滤波器W(z),而在68处提供误差最小化控制器。s(n)是时域输入信号。在已进行感知加权后,将已加权信号输入减法器69,计算在块66的输出处的已加权综合信号与原始已加权信号sw(n)之间的误差。通常,通过LP分析级来计算短期预测滤波系数A(z),如图7e所指示的,将其系数量化为在图7e中被称为10a的LPC分析级的输出处关于预测误差信号计算长期预测信息AL(z),该长期预测信息AL(z)包括长期预测增益g及向量量化指标,亦即码本参考。LTP参数是音高延迟及增益。在CELP中,其通常被实现为包含过去的激励信号(不是残留)的自适应码本。可通过最小化均方加权误差来找出自适应码本延迟及增益(闭环的音高搜索)。
CELP算法使用例如高斯序列的码本,对在短期预测及长期预测之后所获得残留信号进行编码。ACELP算法具有特定的以代数的方式设计的码本,此处“A”表示“代数”。
码本可包含更多或更少的向量,其中,每个向量具有数个抽样的长度。增益因子g对码向量进行定标(scale),通过长期预测综合滤波器及短期预测综合滤波器对所获得的码进行滤波。对“最优的”的码向量进行选择,以使得减法器69的输出处的感知加权均方差变最小化。通过图6中所示意的分析-综合优化来执行CELP中的搜索处理。
针对特定的情况,当帧是无声语音与有声语音的混合物或者当出现语音超过音乐时,TCX编码可更适合用于对LPC域中的激励编码。TCX编码对频域中的已加权信号进行处理,而不进行激励产生的任何假设。则TCX编码比CELP编码更具一般性,且不受激励的有声或无声源模型所限制。TCX编码仍然是使用线性预测滤波器来用于对类语音信号的共振峰进行模型化的源滤波器模型编码。
在类AMR-WB+的编码中,进行从AMR-WB+描述已知的、在不同的TCX模式与ACELP模式之间的选择。TCX模式的不同之处在于对于不同的模式,基于块的离散傅立叶变换的长度不同,通过分析-综合方法或通过直接的“前馈”模式可以选择最佳模式。
如结合图2c及图2d所讨论的,共同预处理级100优选地包括联合多通道(环绕/联合立体声器件)101,还包括频宽扩展级102。相对应地,解码器包括频宽扩展级701以及随后连接的联合多通道级702。优选地,联合多通道级101就编码器而言连接在频宽扩展级102之前,并且在解码器侧,就信号处理方向而言,频宽扩展级701连接在联合多通道级702之前。但备选地,共同预处理级可包括联合多通道级而没有随后连接的频宽扩展级,或包括频宽扩展级而没有连接的联合多通道级。
在第8图的背景下,描述在编码器侧101a、101b及解码器侧702a及702b的联合多通道级的优选示例。将数目为E的原始输入通道输入到下变频器101a中,以使得下变频器产生数目为K的发送通道,此处,数目K大于或等于1且小于或等于E。
优选地,将E个输入通道输入到产生参数信息的联合多通道参数分析器101b中。优选地,对该参数信息进行熵编码,例如通过不同的编码以及随后的霍夫曼编码或者备选地,随后的算术编码来进行。将块101d输出的已编码参数信息传输至参数解码器702b,参数解码器702b可能是图2b的项目702的一部分。参数解码器702b解码已传输的参数信息,并将已解码的参数信息转发至上混频器702a。上混频器702a接收K个已传输的通道且产生数目为L的输出通道,此处,数目L大于或等于K且小于或等于E。
参数信息可包括通道间电位差(level difference)、通道间时间差、通道间相位差和/或通道间相干性测量,其从BCC技术已知,或在MPEG环绕标准中已知并进行了详细描述。已传输的通道数目可以是用于超低比特率应用的单个单声道通道,或者可以包括可兼容的立体声应用,或者可以包括可兼容的立体声信号,亦即两个通道。典型地,E个输入通道数目可以是5个或甚至更高。备选地,E个输入通道数目也可以是E个音频对象,其在空间音频对象编码(SAOC)的背景下已知。
在一个实施例中,下变频器执行对原始的E个输入通道的加权加法或未加权加法,或者对E个输入音频对象的加法。在将音频对象作为输入通道的情况下,联合多通道参数分析器101b将计算音频对象参数(例如,音频对象间的相关性矩阵),这优选地针对各个时间部分来计算,并更优选地针对各个频带来计算。为了达成此项目的,总频率范围可被分割成至少10个且优选32个或64个频带。
图9示意了图2a的频宽扩展级102以及相对应的图2b的频宽扩展级701的实现的优选实施例。在编码器侧,频宽扩展块102优选地包括低通滤波块102b、降低抽样频率器(downsampler)块以及高频带分析器102a,下抽样器块接在低通块之后,或作为逆QMF的一部分,逆QMF只作用于半数的QMF频带。输入到频宽扩展块102中的原始音频信号经低通滤波而产生低频带信号,然后将该低频带信号输入编码分支和/或开关。低通滤波器具有在3kHz至10kHz的范围内的截止频率。此外,频宽扩展块102额外包括高频带分析器,用于计算频宽扩展参数,例如频谱包络参数信息、噪底参数信息、逆滤波参数信息,涉及在高频带中的特定谐波线的参数信息以及在频带复制相关的章节中所讨论的MPEG-4标准中详细讨论的附加参数。
在解码器侧,频宽扩展块701包括修补器701a、调节器701b及组合器701c。组合器701c对已解码低频带信号和调节器701b所输出的已重构且已调整的高频带信号进行组合。调节器701b的输入由修补器提供,修补器被操作为诸如通过频带复制,或通常通过频宽扩展,来从低频带信号获得高频带信号。通过修补器701a执行的修补可以是以谐波方式或非谐波方式进行的修补。随后由调节器701b使用所传输的参数频宽扩展信息对修补器701a产生的信号进行调整。
如图8及图9所指示的,在优选实施例中,所描述的块具有模式控制输入信号。这样的模式控制输入信号得自于判决级300的输出信号。在这样的优选实施例中,可将相对应的块的特性适于判决级的输出,亦即,在优选实施例中,将音频信号的特定时间部分判决为语音或判决为音乐。优选地,模式控制只涉及这些块的功能中的一个或多个,而不涉及块的全部功能。例如,判决可能只影响修补器701a而不影响图9的其它块,或者例如只影响图8的联合多通道参数分析器101a而不影响图8的其它块。优选地,本实施例使得通过在共同预处理级中提供灵活性,能够获得更高灵活性且更高质量及较低比特率的输出信号。然而另一方面,在共同预处理级使用针对两种信号的算法,使得能够实现有效的编码/解码方案。
图10a及图10b示意了判决级300的两种不同的实现。图10a中指示了开环判决。此处,判决级中的信号分析器300a有特定的规则,以判决输入信号的特定时间部分或特定频率部分是否具有一种特性,该特性要求通过第一编码分支400或通过第二编码分支500对此信号部分编码。为了达成此项目的,信号分析器300a可分析输入到该共同预处理级的音频输入信号,或者可以分析由该共同预处理级输出的音频信号,亦即音频中间信号,或者可分析共同预处理级的中间信号,诸如下变频器信号的输出,该输出可以是单声道信号或者可以是具有图8指示的k个通道的信号。在输出侧,信号分析器300a产生切换判决,用于控制编码器侧的开关200以及解码器侧的相对应的开关600或组合器600。
备选地,判决级300可执行闭环判决,这意味着两个编码分支都对音频信号的同一部分执行操作,并通过相对应的解码分支300c、300d对两个已编码信号解码。将设备300c及300d的输出输入到比较器300b中,比较器300b对解码器件的输出进行比较来输出例如音频中间信号的相对应的部分。然后,取决于成本函数(例如,每个分支的信噪比),进行切换判决。此闭环判决比开环判决的复杂度高,但此复杂度只存在于编码器侧,解码器不具有来自这种处理的任何缺点,因为解码器可以有利地使用本编码判决的输出。因此,由于应用上的复杂度及质量考虑,闭环模式是优选的,其中,解码器及复杂度不是问题,诸如在只有少数编码器但有大量的解码器的广播应用中,此外该解码器必须是智能型而价廉。
通过比较器300d所应用的成本函数可以是由质量方面驱动的成本函数,或可为由噪声方面驱动的成本函数,或可为由比特率方面驱动的成本函数,或可为由比特率、质量、噪声(通过对假信号进行编码所引入,特别通过量化所引入)等的任一种组合所驱动的组合型成本函数。
优选地,第一编码分支或第二编码分支在编码侧及相对应地在解码器侧包括时间偏差功能。在一个实施例中,第一编码分支包括用于依据音频信号的部分来计算可变偏差特性的时间偏差器模块、用于根据该所确定的偏差特性进行再抽样的再抽样器、时域/频域变换器;以及用于将时域/频域变换的结果变换成已编码表示的熵编码器。可变偏差特性包括在该已编码音频信号中。该信息由时间偏差增强型解码分支读取和处理,以最终具有非偏差时间刻度下的输出信号。例如,解码分支执行熵解码、解量化及由频域变换回时域。在时域中,可应用解偏差,接着是相对应的再抽样操作,来获得具有非偏差时间刻度的离散音频信号。
取决于本发明的特定实现要求,本发明方法可以以硬件或软件的方式实现。可使用数字储存媒体,特别是其上储存有可电子读取的控制信号的盘片、DVD或CD实现,该信号与可编程计算机统协力合作,因而可执行本发明方法。因此,大致上,本发明是一种具有储存在机器可读取载体上的程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可被操作为执行本发明的方法。换言之,本发明方法为具有程序代码,用于当计算机程序在计算机上运行时执行本发明方法中的至少一个的计算机程序。
本发明的已编码音频信号可储存于数字储存媒体上,或可经由传输媒体诸如无线传输媒体或有线传输媒体诸如因特网传输。
前述实施例仅被提供来举例说明本发明的原理。应该理解,此处所述配置及细节的修改及变化对本领域技术人员将会是显而易见的。因此意图仅受随附的权利要求的范围所限,而非限制于此处实施例的叙述及说明中所呈现的特定细节。
Claims (19)
1.一种用于编码音频信号来获得已编码音频信号的设备,所述音频信号在第一域中,所述设备包括:
第一域变换器(510),用于将所述音频信号由所述第一域变换至第二域中;
可切换旁路(50),用于响应旁路切换控制信号(51),旁路所述第一域变换器(510)或使得通过所述第一域变换器(510)对所述音频信号进行变换;
第二域变换器(410),用于将从所述可切换旁路(50)或所述第一域变换器(510)接收的音频信号变换至第三域中,所述第三域与所述第二域不同;
第一处理器(420),用于根据第一编码算法对第三域音频信号进行编码;以及
第二处理器(520),用于根据与所述第一编码算法不同的第二编码算法,对从第一域变换器(510)接收的音频信号进行编码来获得第二已处理信号,
其中,针对所述音频信号的一部分的已编码信号包括第一已处理信号或第二已处理信号。
2.根据权利要求1所述的设备,其中,所述第一域变换器(510)包括LPC分析滤波器,用于对所述音频信号进行LPC滤波,以获得LPC残留信号和LPC参数数据。
3.根据权利要求1或2所述的设备,其中,所述第二域变换器(410)包括时间-频率变换器,用于将输入信号变换成其频谱表示。
4.根据前述权利要求中任一项所述的设备,其中,所述第二处理器(520)可被操作为:产生已编码输出信号,使得所述已编码输出信号与所述第二处理器(520)的输入信号处于相同的域中。
5.根据前述权利要求中任一项所述的设备,其中,所述第一处理器(420)包括量化器及熵编码器;以及所述第二处理器(520)包括基于码本的源编码器。
6.根据前述权利要求中任一项所述的设备,其中,所述第一处理器(420)基于信宿模型,以及所述第二处理器(520)基于信源模型。
7.根据前述权利要求中任一项所述的设备,还包括切换级(200),连接在所述第一域变换器(510)的输出与所述第二域变换器(410)的输入和所述第二处理器(520)的输入之间,
其中,所述切换级(200)适于响应切换级控制信号,在所述第二域变换器(410)的输入与所述第二处理器(520)的输入之间切换。
8.根据前述权利要求中任一项所述的设备,其中,所述可切换旁路(50)的输出连接至所述第一域变换器(510)的输出,以及所述可切换旁路(50)的输入连接至所述第一域变换器(510)的输入。
9.根据前述权利要求中任一项所述的设备,进一步包括信号分类器,用于依据对所述音频信号部分的分析结果,针对所述音频信号的所述部分控制所述可切换旁路(50)。
10.根据前述权利要求中任一项所述的设备,其中,所述第二域变换器(410)可被操作为:以基于块的方式变换输入信号;以及所述第二域变换器可被操作为:响应音频信号分析来执行基于块的切换,使得所述第二域变换器(410)由于取决于所述音频信号的内容对不同长度的块进行变换而受到控制。
11.一种编码音频信号来获得已编码音频信号的方法,所述音频信号在第一域中,所述方法包括:
将所述音频信号由所述第一域变换(510)至第二域中;
响应旁路切换控制信号(51),旁路(50)将所述音频信号由所述第一域变换(510)至第二域中的步骤,或将所述音频信号由所述第一域变换至所述第二域中;
将已旁路的音频信号(50)或在所述第二域中的音频信号变换(410)至第三域中,所述第三域与所述第二域不同;
根据第一编码算法,对由变换(410)已旁路音频信号(50)或在所述第二域中的音频信号的步骤所产生的第三域音频信号进行编码(420);以及
根据与所述第一编码算法不同的第二编码算法,编码(520)所述第二域中的音频信号,以获得第二已处理信号,
其中,针对所述音频信号的一部分的已编码信号包括第一已处理信号或第二已处理信号。
12.一种用于解码已编码音频信号的设备,所述已编码音频信号包括在第三域中的第一已处理信号以及在第二域中的第二已处理信号,其中,所述第二域与所述第三域彼此不同,所述设备包括:
第一逆处理器(430),用于逆处理所述第一已处理信号;
第二逆处理器(530),用于逆处理所述第二已处理信号;
第二变换器(440),用于将第一逆处理信号由所述第三域变换至不同的域中;
第一变换器(540),用于将第二逆处理信号变换至第一域中,或者用于当所述不同的域不是所述第一域时,将被变换至所述不同的域中的第一逆处理信号变换至所述第一域中;以及
旁路(52),用于当所述不同的域是所述第一域时,旁路所述第一变换器(540)。
13.根据权利要求12所述的设备,还包括组合器(600),用于将所述第一变换器(540)的输出和所述旁路(52)的输出进行组合,以获得组合解码音频信号(699)。
14.根据权利要求12或13所述的解码设备,还包括输入接口(900),用于从已编码音频信号提取所述第一已处理信号、所述第二已处理信号以及控制信号,所述控制信号指示针对特定的第一逆处理信号是否要由所述旁路来对所述第一变换器(540)进行旁路。
15.根据权利要求12至14中任一项所述的解码设备,其中,所述第一变换器(540)包括线性预测编码(LPC)综合级,以及
其中,所述第二变换器(440)包括频谱-时间变换器,用于将音频信号的频谱表示变换成所述音频信号的时间表示。
16.根据权利要求12至15中任一项所述的解码设备,其中,所述第一逆处理器(430)包括熵解码器及解量化器;以及所述第二逆处理器(530)包括基于码本的源解码器。
17.根据权利要求12至16中任一项所述的解码设备,其中,所述第二变换器(440)可被操作为:执行综合滤波操作,诸如能够由包括在所述编码音频信号中的附加信息(434)来控制的逆时间错位修改离散余弦变换操作。
18.一种解码已编码音频信号的方法,所述已编码音频信号包括在第三域中的第一已处理信号和在第二域中的第二已处理信号,其中,所述第二域和所述第三域彼此不同,所述方法包括:
逆处理(430)所述第一已处理信号;
逆处理(530)所述第二已处理信号;
对所述第一逆处理信号进行第二域变换(440),从所述第三域变换至不同的域;
将所述第二逆处理信号进行第一域变换(540)以变换到第一域中,或者当所述不同的域不是所述第一域时,将所述第一逆处理信号变换到所述第一域中;以及
当所述不同的域是所述第一域时,旁路(52)所述第一域变换步骤(540)。
19.一种计算机程序,用于当于计算机上运行时,执行根据权利要求11所述的编码音频信号的方法,或根据权利要求18所述的的解码已编码音频信号的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8158608P | 2008-07-17 | 2008-07-17 | |
US61/081,586 | 2008-07-17 | ||
EP09002270.8 | 2009-02-18 | ||
EP09002270.8A EP2146344B1 (en) | 2008-07-17 | 2009-02-18 | Audio encoding/decoding scheme having a switchable bypass |
PCT/EP2009/004875 WO2010006717A1 (en) | 2008-07-17 | 2009-07-06 | Audio encoding/decoding scheme having a switchable bypass |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102099856A true CN102099856A (zh) | 2011-06-15 |
CN102099856B CN102099856B (zh) | 2012-11-07 |
Family
ID=40718647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801279156A Active CN102099856B (zh) | 2008-07-17 | 2009-07-06 | 具有可切换旁路的音频编码/解码方法及设备 |
Country Status (17)
Country | Link |
---|---|
US (2) | US8321210B2 (zh) |
EP (2) | EP2146344B1 (zh) |
JP (1) | JP5613157B2 (zh) |
KR (1) | KR101224884B1 (zh) |
CN (1) | CN102099856B (zh) |
AR (1) | AR072551A1 (zh) |
AU (1) | AU2009270524B2 (zh) |
BR (1) | BRPI0910999B1 (zh) |
CA (1) | CA2727883C (zh) |
ES (2) | ES2592416T3 (zh) |
HK (2) | HK1138673A1 (zh) |
MX (1) | MX2011000534A (zh) |
PL (2) | PL2146344T3 (zh) |
PT (1) | PT2146344T (zh) |
RU (1) | RU2483364C2 (zh) |
TW (1) | TWI441167B (zh) |
WO (1) | WO2010006717A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN104050970A (zh) * | 2013-03-14 | 2014-09-17 | 邓禄普制造股份有限公司 | 无噪声的真正旁路切换系统、方法及装置 |
CN104364843A (zh) * | 2012-06-14 | 2015-02-18 | 杜比国际公司 | 用于多通道音频的平滑配置切换 |
CN105242111A (zh) * | 2015-09-17 | 2016-01-13 | 清华大学 | 一种采用类脉冲激励的频响函数测量方法 |
CN105612577A (zh) * | 2013-07-22 | 2016-05-25 | 弗朗霍夫应用科学研究促进协会 | 针对音频声道及音频对象的音频编码及解码的概念 |
CN107925837A (zh) * | 2015-08-31 | 2018-04-17 | 杜比国际公司 | 对压缩hoa信号逐帧组合解码和渲染的方法以及对压缩hoa信号逐帧组合解码和渲染的装置 |
CN109346101A (zh) * | 2013-01-29 | 2019-02-15 | 弗劳恩霍夫应用研究促进协会 | 产生频率增强音频信号的译码器和产生编码信号的编码器 |
CN109410969A (zh) * | 2015-03-13 | 2019-03-01 | 杜比国际公司 | 解码在填充元素中具有增强频谱带复制元数据的音频位流 |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
CN109844858A (zh) * | 2016-10-31 | 2019-06-04 | 高通股份有限公司 | 多个音频信号的解码 |
CN110730408A (zh) * | 2019-11-11 | 2020-01-24 | 北京达佳互联信息技术有限公司 | 一种音频参数切换方法、装置、电子设备及存储介质 |
US10622000B2 (en) | 2013-01-29 | 2020-04-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8356127B2 (en) * | 2004-12-09 | 2013-01-15 | Rambus Inc. | Memory interface with workload adaptive encode/decode |
US8706480B2 (en) * | 2007-06-11 | 2014-04-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoding audio signal |
ATE518224T1 (de) * | 2008-01-04 | 2011-08-15 | Dolby Int Ab | Audiokodierer und -dekodierer |
AU2009267518B2 (en) * | 2008-07-11 | 2012-08-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
ES2558229T3 (es) * | 2008-07-11 | 2016-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
PL3002750T3 (pl) * | 2008-07-11 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder i dekoder audio do kodowania i dekodowania próbek audio |
WO2010044593A2 (ko) | 2008-10-13 | 2010-04-22 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
KR101649376B1 (ko) | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
US8515768B2 (en) * | 2009-08-31 | 2013-08-20 | Apple Inc. | Enhanced audio decoder |
RU2605677C2 (ru) * | 2009-10-20 | 2016-12-27 | Франхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала |
PL2524372T3 (pl) | 2010-01-12 | 2015-08-31 | Fraunhofer Ges Forschung | Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych |
ES2656815T3 (es) | 2010-03-29 | 2018-02-28 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung | Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica |
BR122019026166B1 (pt) * | 2010-04-09 | 2021-01-05 | Dolby International Ab | sistema decodificador, aparelho e método para emitir um sinal de áudio estereofônico tendo um canal esquerdo e um canal direito e meio legível por computador não transitório |
PL4120248T3 (pl) * | 2010-07-08 | 2024-05-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder wykorzystujący kasowanie aliasingu w przód |
LT3239979T (lt) | 2010-10-25 | 2024-07-25 | Voiceage Evs Llc | Bendrųjų garso signalų kodavimas maža bitų sparta ir mažu vėlavimu |
TWI479160B (zh) * | 2010-12-20 | 2015-04-01 | Hon Hai Prec Ind Co Ltd | 測試裝置及方法 |
RU2554554C2 (ru) * | 2011-01-25 | 2015-06-27 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, кодер, способ определения величины периодического признака, устройство определения величины периодического признака, программа и носитель записи |
CA2903681C (en) | 2011-02-14 | 2017-03-28 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
RU2599966C2 (ru) * | 2011-02-18 | 2016-10-20 | Нтт Докомо, Инк. | Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи |
LT2774145T (lt) * | 2011-11-03 | 2020-09-25 | Voiceage Evs Llc | Nekalbinio turinio gerinimas mažos spartos celp dekoderiui |
CN104160442B (zh) | 2012-02-24 | 2016-10-12 | 杜比国际公司 | 音频处理 |
CN106847303B (zh) * | 2012-03-29 | 2020-10-13 | 瑞典爱立信有限公司 | 支持谐波音频信号的带宽扩展的方法、设备和记录介质 |
PT2880654T (pt) * | 2012-08-03 | 2017-12-07 | Fraunhofer Ges Forschung | Descodificador e método para um conceito paramétrico generalizado de codificação de objeto de áudio espacial para caixas de downmix/upmix multicanal |
MX350687B (es) * | 2012-08-10 | 2017-09-13 | Fraunhofer Ges Forschung | Métodos y aparatos para adaptar información de audio en codificación de objeto de audio espacial. |
WO2014023443A1 (en) | 2012-08-10 | 2014-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder, system and method employing a residual concept for parametric audio object coding |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
KR101732137B1 (ko) * | 2013-01-07 | 2017-05-02 | 삼성전자주식회사 | 원격 제어 장치 및 전력 제어 방법 |
CN104904210B (zh) * | 2013-01-07 | 2018-01-30 | 日本电气株式会社 | 视频编码设备、视频解码设备、视频编码方法、视频解码方法,以及程序 |
EP2951821B1 (en) * | 2013-01-29 | 2017-03-01 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for coding mode switching compensation |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
CN109509478B (zh) * | 2013-04-05 | 2023-09-05 | 杜比国际公司 | 音频处理装置 |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
CN110265047B (zh) | 2013-04-05 | 2021-05-18 | 杜比国际公司 | 音频信号的解码方法和解码器、介质以及编码方法 |
ES2635027T3 (es) | 2013-06-21 | 2017-10-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores |
EP2830055A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
CN103413553B (zh) * | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
CN105556597B (zh) * | 2013-09-12 | 2019-10-29 | 杜比国际公司 | 多声道音频内容的编码和解码 |
US10083708B2 (en) | 2013-10-11 | 2018-09-25 | Qualcomm Incorporated | Estimation of mixing factors to generate high-band excitation signal |
CN103841244A (zh) * | 2013-12-03 | 2014-06-04 | 华为技术有限公司 | 一种终端及终端的录音方法 |
JP6235725B2 (ja) * | 2014-01-13 | 2017-11-22 | ノキア テクノロジーズ オサケユイチア | マルチ・チャンネル・オーディオ信号分類器 |
CN110097892B (zh) * | 2014-06-03 | 2022-05-10 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
AU2015258241B2 (en) * | 2014-07-28 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
US20160057463A1 (en) * | 2014-08-19 | 2016-02-25 | Gatesair, Inc. | Hybrid time-divisional multiplexed modulation |
WO2016108655A1 (ko) | 2014-12-31 | 2016-07-07 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
KR20160081844A (ko) | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
KR102083200B1 (ko) | 2016-01-22 | 2020-04-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 |
US10872598B2 (en) | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10573326B2 (en) * | 2017-04-05 | 2020-02-25 | Qualcomm Incorporated | Inter-channel bandwidth extension |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US11017761B2 (en) * | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
FR3075443A1 (fr) * | 2017-12-19 | 2019-06-21 | Orange | Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural |
GB2582916A (en) * | 2019-04-05 | 2020-10-14 | Nokia Technologies Oy | Spatial audio representation and associated rendering |
US10755721B1 (en) | 2019-04-30 | 2020-08-25 | Synaptics Incorporated | Multichannel, multirate, lattice wave filter systems and methods |
EP3970141B1 (en) * | 2019-05-14 | 2024-02-28 | Dolby Laboratories Licensing Corporation | Method and apparatus for speech source separation based on a convolutional neural network |
US10978083B1 (en) | 2019-11-13 | 2021-04-13 | Shure Acquisition Holdings, Inc. | Time domain spectral bandwidth replication |
WO2021261235A1 (ja) * | 2020-06-22 | 2021-12-30 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
KR20220125026A (ko) * | 2021-03-04 | 2022-09-14 | 삼성전자주식회사 | 오디오 처리 방법 및 이를 포함하는 전자 장치 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
JP2002304196A (ja) * | 2001-04-03 | 2002-10-18 | Sony Corp | オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体 |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
KR20040070195A (ko) * | 2001-11-30 | 2004-08-06 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 신호 부호화 |
US7424434B2 (en) | 2002-09-04 | 2008-09-09 | Microsoft Corporation | Unified lossy and lossless audio compression |
TW584835B (en) | 2002-12-13 | 2004-04-21 | Univ Nat Chiao Tung | Method and architecture of digital coding for transmitting and packing audio signals |
AU2003208517A1 (en) * | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7516064B2 (en) * | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
US7596486B2 (en) | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
US7418394B2 (en) | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
CN101086845B (zh) * | 2006-06-08 | 2011-06-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
TWI371925B (en) | 2006-09-08 | 2012-09-01 | Via Tech Inc | Apparatus for processing multiple signals with a single analog-to-digital converter and method thereof |
CN101197576A (zh) * | 2006-12-07 | 2008-06-11 | 上海杰得微电子有限公司 | 一种音频信号编码、解码方法 |
CA2672165C (en) * | 2006-12-12 | 2014-07-29 | Ralf Geiger | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
-
2009
- 2009-02-18 PT PT90022708T patent/PT2146344T/pt unknown
- 2009-02-18 PL PL09002270T patent/PL2146344T3/pl unknown
- 2009-02-18 ES ES09002270.8T patent/ES2592416T3/es active Active
- 2009-02-18 EP EP09002270.8A patent/EP2146344B1/en active Active
- 2009-07-06 MX MX2011000534A patent/MX2011000534A/es active IP Right Grant
- 2009-07-06 KR KR1020117001103A patent/KR101224884B1/ko active IP Right Grant
- 2009-07-06 EP EP09797423A patent/EP2301024B1/en active Active
- 2009-07-06 AU AU2009270524A patent/AU2009270524B2/en active Active
- 2009-07-06 WO PCT/EP2009/004875 patent/WO2010006717A1/en active Application Filing
- 2009-07-06 CN CN2009801279156A patent/CN102099856B/zh active Active
- 2009-07-06 BR BRPI0910999-4A patent/BRPI0910999B1/pt active IP Right Grant
- 2009-07-06 CA CA2727883A patent/CA2727883C/en active Active
- 2009-07-06 ES ES09797423T patent/ES2391715T3/es active Active
- 2009-07-06 PL PL09797423T patent/PL2301024T3/pl unknown
- 2009-07-06 TW TW098122759A patent/TWI441167B/zh active
- 2009-07-06 RU RU2010154749/08A patent/RU2483364C2/ru active IP Right Revival
- 2009-07-06 JP JP2011517779A patent/JP5613157B2/ja active Active
- 2009-07-07 AR ARP090102542A patent/AR072551A1/es active IP Right Grant
-
2010
- 2010-04-08 HK HK10103486.3A patent/HK1138673A1/zh unknown
-
2011
- 2011-01-14 US US13/007,412 patent/US8321210B2/en active Active
- 2011-09-29 HK HK11110282.3A patent/HK1156143A1/xx unknown
-
2012
- 2012-11-06 US US13/670,323 patent/US8959017B2/en active Active
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
US9552818B2 (en) | 2012-06-14 | 2017-01-24 | Dolby International Ab | Smooth configuration switching for multichannel audio rendering based on a variable number of received channels |
CN104364843A (zh) * | 2012-06-14 | 2015-02-18 | 杜比国际公司 | 用于多通道音频的平滑配置切换 |
CN104380376A (zh) * | 2012-06-14 | 2015-02-25 | 杜比国际公司 | 基于可变数量的接收通道的用于多通道音频呈现的平滑配置切换 |
US9601122B2 (en) | 2012-06-14 | 2017-03-21 | Dolby International Ab | Smooth configuration switching for multichannel audio |
CN104364843B (zh) * | 2012-06-14 | 2017-03-29 | 杜比国际公司 | 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统 |
CN109346101B (zh) * | 2013-01-29 | 2024-05-24 | 弗劳恩霍夫应用研究促进协会 | 产生频率增强音频信号的译码器和产生编码信号的编码器 |
US11908485B2 (en) | 2013-01-29 | 2024-02-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm |
US11521631B2 (en) | 2013-01-29 | 2022-12-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm |
US10622000B2 (en) | 2013-01-29 | 2020-04-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm |
CN109346101A (zh) * | 2013-01-29 | 2019-02-15 | 弗劳恩霍夫应用研究促进协会 | 产生频率增强音频信号的译码器和产生编码信号的编码器 |
CN104050970A (zh) * | 2013-03-14 | 2014-09-17 | 邓禄普制造股份有限公司 | 无噪声的真正旁路切换系统、方法及装置 |
CN104050970B (zh) * | 2013-03-14 | 2018-06-05 | 邓禄普制造股份有限公司 | 无噪声的真正旁路切换系统、方法及装置 |
CN105612577B (zh) * | 2013-07-22 | 2019-10-22 | 弗朗霍夫应用科学研究促进协会 | 针对音频声道及音频对象的音频编码及解码的概念 |
US11330386B2 (en) | 2013-07-22 | 2022-05-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US11984131B2 (en) | 2013-07-22 | 2024-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US11910176B2 (en) | 2013-07-22 | 2024-02-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
CN105612577A (zh) * | 2013-07-22 | 2016-05-25 | 弗朗霍夫应用科学研究促进协会 | 针对音频声道及音频对象的音频编码及解码的概念 |
US11463831B2 (en) | 2013-07-22 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US10659900B2 (en) | 2013-07-22 | 2020-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US10715943B2 (en) | 2013-07-22 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11337019B2 (en) | 2013-07-22 | 2022-05-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11227616B2 (en) | 2013-07-22 | 2022-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
CN109410969B (zh) * | 2015-03-13 | 2022-12-20 | 杜比国际公司 | 解码在填充元素中具有增强频谱带复制元数据的音频位流 |
CN109410969A (zh) * | 2015-03-13 | 2019-03-01 | 杜比国际公司 | 解码在填充元素中具有增强频谱带复制元数据的音频位流 |
CN107925837B (zh) * | 2015-08-31 | 2020-09-22 | 杜比国际公司 | 对压缩hoa信号逐帧组合解码和渲染的方法以及对压缩hoa信号逐帧组合解码和渲染的装置 |
CN107925837A (zh) * | 2015-08-31 | 2018-04-17 | 杜比国际公司 | 对压缩hoa信号逐帧组合解码和渲染的方法以及对压缩hoa信号逐帧组合解码和渲染的装置 |
CN105242111B (zh) * | 2015-09-17 | 2018-02-27 | 清华大学 | 一种采用类脉冲激励的频响函数测量方法 |
CN105242111A (zh) * | 2015-09-17 | 2016-01-13 | 清华大学 | 一种采用类脉冲激励的频响函数测量方法 |
CN109844858B (zh) * | 2016-10-31 | 2023-06-02 | 高通股份有限公司 | 多个音频信号的解码 |
CN109844858A (zh) * | 2016-10-31 | 2019-06-04 | 高通股份有限公司 | 多个音频信号的解码 |
CN110730408A (zh) * | 2019-11-11 | 2020-01-24 | 北京达佳互联信息技术有限公司 | 一种音频参数切换方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
AR072551A1 (es) | 2010-09-08 |
HK1156143A1 (en) | 2012-06-01 |
US8959017B2 (en) | 2015-02-17 |
RU2483364C2 (ru) | 2013-05-27 |
ES2391715T3 (es) | 2012-11-29 |
RU2010154749A (ru) | 2012-07-10 |
EP2301024A1 (en) | 2011-03-30 |
US20130066640A1 (en) | 2013-03-14 |
JP2011528129A (ja) | 2011-11-10 |
PL2301024T3 (pl) | 2012-12-31 |
AU2009270524A1 (en) | 2010-01-21 |
TWI441167B (zh) | 2014-06-11 |
EP2146344B1 (en) | 2016-07-06 |
US8321210B2 (en) | 2012-11-27 |
EP2146344A1 (en) | 2010-01-20 |
ES2592416T3 (es) | 2016-11-30 |
TW201009814A (en) | 2010-03-01 |
CA2727883C (en) | 2014-09-02 |
BRPI0910999A2 (pt) | 2019-05-14 |
CA2727883A1 (en) | 2010-04-21 |
BRPI0910999B1 (pt) | 2020-03-10 |
CN102099856B (zh) | 2012-11-07 |
HK1138673A1 (zh) | 2010-08-27 |
US20110202355A1 (en) | 2011-08-18 |
EP2301024B1 (en) | 2012-07-25 |
KR20110055515A (ko) | 2011-05-25 |
AU2009270524B2 (en) | 2012-03-15 |
JP5613157B2 (ja) | 2014-10-22 |
KR101224884B1 (ko) | 2013-02-06 |
MX2011000534A (es) | 2011-04-27 |
WO2010006717A1 (en) | 2010-01-21 |
PT2146344T (pt) | 2016-10-13 |
PL2146344T3 (pl) | 2017-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102099856B (zh) | 具有可切换旁路的音频编码/解码方法及设备 | |
US11823690B2 (en) | Low bitrate audio encoding/decoding scheme having cascaded switches | |
CN102177426B (zh) | 多分辨率切换音频编码/解码方案 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |