CN107077858A - 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器 - Google Patents
使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器 Download PDFInfo
- Publication number
- CN107077858A CN107077858A CN201580049740.7A CN201580049740A CN107077858A CN 107077858 A CN107077858 A CN 107077858A CN 201580049740 A CN201580049740 A CN 201580049740A CN 107077858 A CN107077858 A CN 107077858A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- frequency
- audio signal
- portions
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 97
- 238000001228 spectrum Methods 0.000 claims abstract description 388
- 230000005236 sound signal Effects 0.000 claims abstract description 158
- 230000003595 spectral effect Effects 0.000 claims abstract description 79
- 238000007493 shaping process Methods 0.000 claims abstract description 36
- 230000002123 temporal effect Effects 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 50
- 238000004458 analytical method Methods 0.000 claims description 49
- 238000001914 filtration Methods 0.000 claims description 29
- 230000003044 adaptive effect Effects 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 19
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 238000013139 quantization Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 239000002131 composite material Substances 0.000 claims description 10
- 238000012952 Resampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000011049 filling Methods 0.000 description 48
- 230000006870 function Effects 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000008929 regeneration Effects 0.000 description 11
- 238000011069 regeneration method Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 108010023321 Factor VII Proteins 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- XRKZVXDFKCVICZ-IJLUTSLNSA-N SCB1 Chemical compound CC(C)CCCC[C@@H](O)[C@H]1[C@H](CO)COC1=O XRKZVXDFKCVICZ-IJLUTSLNSA-N 0.000 description 3
- 101100439280 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CLB1 gene Proteins 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000002087 whitening effect Effects 0.000 description 3
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 2
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005429 filling process Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- QZOCOXOCSGUGFC-KIGPFUIMSA-N SCB3 Chemical compound CCC(C)CCCC[C@@H](O)[C@H]1[C@H](CO)COC1=O QZOCOXOCSGUGFC-KIGPFUIMSA-N 0.000 description 1
- QZOCOXOCSGUGFC-UHFFFAOYSA-N SCB3 Natural products CCC(C)CCCCC(O)C1C(CO)COC1=O QZOCOXOCSGUGFC-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于对音频信号进行编码的音频编码器,包括:第一编码处理器(600),用于在频域中对第一音频信号部分进行编码,其中第一编码处理器(600)包括:时间频率转换器(602),用于将第一音频信号部分转换为具有一直到第一音频信号部分的最大频率的频谱线的频域表示;分析器(604),用于分析一直到最大频率的频域表示,以确定要用第一频谱分辨率编码的第一频谱部分,以及要用第二频谱分辨率编码的第二频谱区域,所述第二频谱分辨率低于所述第一频谱分辨率。频谱编码器(606),用于用第一频谱分辨率对第一频谱部分进行编码,并且用于用第二频谱分辨率对第二频谱部分进行编码。第二编码处理器(610),用于在时域中对第二不同音频信号部分进行编码;控制器(620),被配置用于分析音频信号并且用于确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分;以及经编码的信号形成器(630),用于形成经编码的音频信号,所述经编码的音频信号包括用于第一音频信号部分的第一经编码的信号部分和用于第二音频信号部分的第二经编码的信号部分。
Description
技术领域
本发明涉及音频信号编码和解码,并且特别地涉及使用并行频域和时域编码器/解码器处理器的音频信号处理。
背景技术
为了用于音频信号的高效存储或传输的数据减少的目的,音频信号的感知编码是一种广泛使用的实践。特别地,当要实现最低比特率时,所采用的编码导致音频质量的降低,这通常主要由要发送的音频信号带宽的编码器侧的限制引起。这里,通常对音频信号进行低通滤波,使得没有频谱波形内容保留在某个预先确定的截止频率之上。
在当代的编解码器中,存在用于通过音频信号带宽扩展(BWE)的解码器侧信号恢复的公知方法,例如,在频域中操作的频谱带复制(SBR)或所谓的时域带宽扩展(TD-BWE)是在时域中操作的语音编码器中的后处理器。
另外,存在若干组合的时域/频域编码构思,例如在术语AMR-WB+或USAC下已知的构思。
所有这些组合的时域/编码构思具有以下共同之处:频域编码器依赖于将频带限制引入输入音频信号中的带宽扩展技术,并且交叉频率或边界频率以上的部分用低分辨率编码构思编码并在解码器侧合成。因此,这些构思主要依赖于编码器侧的预处理器技术和解码器侧的相应后处理功能。
通常,选择时域编码器用于在时域中编码的有用信号(例如语音信号),并且选择频域编码器用于非语音信号、音乐信号等。然而,特别是针对在高频带中具有突出谐波的非语音信号,现有技术的频域编码器具有降低的精度,并且因此具有降低的音频质量,这是由于以下事实:这样的突出谐波只能被分离地以参数方式编码,或者在编码/解码处理中完全被消除。
此外,存在这样的构思,其中时域编码/解码分支另外依赖于也以参数方式对较高频率范围进行编码的带宽扩展,而较低频率范围通常使用ACELP或任何其它CELP相关编码器(例如语音编码器)进行编码。这种带宽扩展功能性增加了比特率效率,但是另一方面,由于两个编码分支,即频域编码分支和时域编码分支由于在基本上低于包括在输入音频信号中的最大频率的某个交叉频率以上进行操作的频谱带复制过程或带宽扩展过程而被频带限制的事实,引入了进一步的不灵活性。
现有技术的相关主题包括
-SBR作为用于波形解码的后处理器[1-3]
-MPEG-D USAC核心切换[4]
-MPEG-H 3D IGF[5]
以下论文和专利描述了被认为构成本申请的现有技术的方法:
[1]M.Dietz,L.Liljeryd,K.和O.Kunz,“Spectral B andReplication,a novel approach in audio coding,”在第112届AES大会,慕尼黑,德国,2002。
[2]S.Meltzer,R.和F.Henn,“SBR enhanced audio codec s for digitalbroadcasting such as“Digital Radio Mondiale”(DRM),”在第112届AES大会,慕尼黑,德国,2002。
[3]T.Ziegler,A.Ehret,P.Ekstrand和M.Lutzky,“Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algo rithm,”在第112届AES大会,慕尼黑,德国,2002。
[4]MPEG-D USAC标准。
[5]PCT/EP2014/065109。
在MPEG-D USAC中,描述了一种可切换核心编码器。然而,在USAC中,带限核心被限制为总是发送低通滤波信号。因此,包含突出的高频内容的某些音乐信号例如全频带扫描、三角形声音等不能忠实地再现。
发明内容
本发明的目的是提供一种用于音频编码的改进的构思。
该目的通过权利要求1的音频编码装置编码器、权利要求11的音频解码器、权利要求20的音频编码方法、权利要求21的音频解码方法或权利要求22的计算机程序来实现。
本发明基于以下发现:时域编码/解码处理器可以与具有间隙填充功能的频域编码/解码处理器组合,但是用于填充频谱空洞的该间隙填充功能在音频信号的整个频带上或至少在某个间隙填充频率以上进行操作。重要的是,频域编码/解码处理器特别地能够以执行高达最大频率的精确或波形或频谱值编码/解码,而不仅是直到交叉频率为止。此外,用于以高分辨率编码的频域编码器的全频带能力允许将间隙填充功能集成到频域编码器中。
因此,根据本发明,通过使用全频带频谱编码器/解码器处理器,一方面与带宽扩展的分离相关和另一方面与核心编码相关的问题可以通过执行在核心解码器操作的相同频谱域中的带宽扩展来解决和克服。因此,提供全速率核心解码器,其对全音频信号范围进行编码和解码。这不要求对在编码器侧上的下采样器和在解码器侧上的上采样器的需要。替代地,整个处理在全采样率或全带宽域中执行。为了获得高编码增益,分析音频信号以便找到必须以高分辨率编码的第一组第一频谱部分,其中该第一组第一频谱部分在一个实施例中可以包括:音频信号的音调部分。另一方面,构成第二组第二频谱部分的音频信号中的非音调或噪声分量被以低频谱分辨率以参数方式编码。编码的音频信号然后仅要求以具有高频谱分辨率的波形保持方式编码的第一组第一频谱部分,以及此外,以使用来源于第一组的频率“拼块(tile)”的低分辨率以参数方式编码的第二组第二频谱部分。在解码器侧,作为全频带解码器的核心解码器以波形保持方式重建第一组第一频谱部分,即,没有任何存在任何附加频率再生的知识。然而,如此产生的频谱具有许多频谱间隙。这些间隙随后通过一方面使用应用参数数据的频率再生和另一方面使用源频谱范围(即,由全速率音频解码器重建的第一频谱部分)而用本发明的智能间隙填充(IGF)技术填充。
在另外的实施例中,通过仅噪声填充而不是带宽复制或频率拼块填充来重建的频谱部分构成第三组第三频谱部分。由于编码构思在用于一方面核心编码/解码和另一方面频率再生的单个域中操作的事实,通过在没有频率再生的情况下的噪声填充或通过使用在不同频率范围的频率拼块的频率再生,IGF不仅被限制为填满较高的频率范围,而且可以填满较低的频率范围。
此外,要强调的是,关于频谱能量的信息,关于各个能量的信息或个别能量信息,关于存活能量的信息或存活能量信息,关于拼块能量的信息或拼块能量信息,或者关于缺失能量的信息或缺失能量信息可以不仅包括能量值,而且还包括(例如绝对的)振幅值、电平值或任何其他值,从中可以导出最终能量值。因此,关于能量的信息可以例如包括能量值本身,和/或电平的和/或振幅的和/或绝对振幅的值。
另外的方面基于以下发现:相关情况不仅对于源范围重要,而且对于目标范围也重要。此外,本发明承认在源范围和目标范围中可能发生不同相关情况的情况。例如,当考虑具有高频噪声的语音信号时,情况可能是当扬声器放置在中间时包括具有小数量的泛音的语音信号的低频带在左声道和右声道中高度相关。然而,由于在左侧可能存在与另一高频噪声相比不同的高频噪声或在右侧没有高频噪声的事实,所以高频部分可以是强烈不相关的。因此,当执行忽略这种情况的直接间隙填充操作时,则高频部分也将相关,并且这可能在重建信号中产生严重的空间隔离伪像。为了解决这个问题,计算针对重建频带的参数数据,或者一般地,针对必须使用第一组第一频谱部分重建的第二组第二频谱部分的参数数据,以识别针对第二频谱部分的第一或第二不同的双声道表示,或换句话说,针对重建频带的第一或第二不同的双声道表示。因此,在编码器侧,针对第二频谱部分计算双声道识别,即针对另外计算重建频带的能量信息的部分计算双声道识别。在解码器侧的频率再生器然后根据第一组第一频谱部分的第一部分(即,用于第二部分的源范围和参数数据,例如频谱包络能量信息或任何其它频谱包络数据)并且另外根据针对第二部分(即,针对重新考虑下的该重建频带)的双声道识别,来再生第二频谱部分。
双声道识别优选地作为每个重建频带的标志被发送,并且该数据从编码器发送到解码器,然后解码器如由针对核心频带的优选计算的标志所指示的那样对核心信号进行解码。然后,在实现中,核心信号以立体声表示(例如左/右和中/侧)存储,并且对于IGF频率拼块填充,选择源拼块表示以如由用于智能间隙填充或重建频带(即,用于目标范围)的双声道识别标志指示的那样适合目标拼块表示。
要强调的是,该过程不仅针对立体声信号,即针对左声道和右声道工作,而且针对多声道信号操作。在多声道信号的情况下,可以以这种方式处理几对不同的声道,例如左和右声道作为第一对,左环绕声道和右环绕作为第二对以及中心声道和LFE声道作为第三对。可以针对诸如7.1、11.1等较高输出声道格式确定其他配对。
另外的方面是基于以下发现:通过IGF可以改进重建信号的音频质量,因为整个频谱对于核心编码器是可访问的,使得例如在高频谱范围中的感知上重要的音调部分仍然可以由核心编码器编码而不是由参数替代编码。另外,执行使用来自第一组第一频谱部分的频率拼块的间隙填充操作,所述第一组第一频谱部分例如是通常来自较低频率范围的一组音调部分,但也是来自较高频率范围(如果可用)的一组音调部分。然而,对于解码器侧的频谱包络调整,来自位于重建频带中的第一组频谱部分的频谱部分不进一步由例如频谱包络调整进行后处理。只有重建频带中不是源自核心解码器的剩余频谱值将使用包络信息进行包络调整。优选地,包络信息是计及重建频带中的第一组第一频谱部分和同一重建频带中的第二组第二频谱部分的能量的全频带包络信息,其中在第二组第二频谱部分中的后者频谱值被指示为零,并因此不由核心编码器编码,而是用低分辨率能量信息以参数方式编码。
已经发现,相对于相应频带的带宽的标准化或不标准化的绝对能量值在解码器侧的应用中是有用的和非常高效的。这尤其适用于当必须基于重建频带中的残留能量、重建频带中的缺失能量和重建频带中的频率拼块信息来计算增益因子时。
此外,优选的是,编码的比特流不仅覆盖重建频带的能量信息,而且还另外覆盖扩展一直到最大频率的比例因子频带的比例因子。这确保对于某个音调部分(即第一频谱部分)可用的每个重建频带,该第一组第一频谱部分实际上可以用正确的振幅解码。此外,除了用于每个重建频带的比例因子之外,在编码器中产生用于该重建频带的能量,并将其发送到解码器。此外,优选的是重建频带与比例因子频带一致,或者在能量分组的情况下,至少重建频带的边界与比例因子频带的边界一致。
另一方面是基于以下发现:音频质量中的某些损伤可以通过应用信号自适应频率拼块填充方案来补救。为此,执行编码器侧的分析,以便找出针对某个目标区域的最佳匹配的源区域候选。针对目标区域识别某个源区域的匹配信息以及可选的一些附加信息一起被产生并作为辅助信息发送到解码器。然后,解码器使用匹配信息来应用频率拼块填充操作。为此,解码器从所发送的数据流或数据文件读取匹配信息,并且访问针对某个重建频带识别的源区域,并且如果在匹配信息中指示,则另外对该源区域数据执行一些处理以产生用于重建频带的原始频谱数据。然后,频率拼块填充操作的该结果(即重建频带的原始频谱数据)使用频谱包络信息来进行整形,以便最终获得也包括诸如音调部分之类的第一频谱部分的重建频带。然而,这些音调部分不由自适应拼块填充方案产生,而是这些第一频谱部分由音频解码器或核心解码器直接输出。
自适应频谱拼块选择方案可以以低粒度操作。在该实现中,源区域被细分为通常重叠的源区域,并且目标区域或重建带由非重叠的频率目标区域给出。然后,在编码器侧确定每个源区域和每个目标区域之间的相似性,并且通过匹配信息来识别源区域和目标区域的最佳匹配对,并且在解码器侧,在匹配信息中所识别的源区域用于产生重建频带的原始频谱数据。
为了获得更高的粒度的目的,允许每个源区域移位,以便获得相似性为最大的某个滞后。该滞后可以像频率仓(bin)一样精细,并且允许源区域和目标区域之间甚至更好的匹配。
此外,除了仅识别最佳匹配对之外,还可以在匹配信息内发送该相关滞后,并且此外,甚至可以发送符号。当在编码器侧确定符号为负时,然后在匹配信息内也发送对应的符号标志,并且在解码器侧,源区域频谱值乘以“-1”,或者在复数表示中被“旋转”180度。
本发明的另一实现应用了拼块白化操作。频谱的白化去除了粗糙的频谱包络信息,并且强调了对于评估拼块相似性最感兴趣的频谱精细结构。因此,一方面频率拼块和/或另一方面源信号在计算交叉相关测量之前被白化。当仅使用预定义过程白化该拼块时,发送白化标志,指示解码器应该对IGF内的频率拼块应用相同的预定义白化过程。
关于拼块选择,优选地使用相关性的滞后以通过整数个变换仓(transform bin)来在频谱上移动再生的频谱。根据基础变换,频谱移动可能要求附加校正。在奇数滞后的情况下,通过乘以-1/1的交替时间序列来附加地调制拼块,以补偿MDCT内每隔一个频带的频率反转表示。此外,当产生频率拼块时,应用相关结果的符号。
此外,优选地使用拼块修剪和稳定性,以便确保避免由用于相同重建区域或目标区域的快速变化的源区域创建的伪像。为此,执行不同识别的源区域之间的相似性分析,并且当源拼块类似于具有高于阈值的相似性的其他源拼块时,则该源拼块可以从该组潜在源拼块中丢弃,因为它与其他源拼块高度相关。此外,作为一种拼块选择稳定性,如果当前帧中的源拼块中没有一个与当前帧中的目标拼块相关(优于给定阈值),则优选地保持来自先前帧的拼块次序。
另外的方面是基于以下发现:通过将时间噪声整形(TNS)或时间拼块整形(TTS)技术与高频率重建组合来获得特别针对包括瞬态部分(因为它们经常发生在音频信号中)的信号的改进的质量和降低的比特率。通过相对于频率的预测实现的在编码器侧的TNS/TTS处理重建了音频信号的时间包络。根据实现,即,当时间噪声整形滤波器被确定在不仅覆盖源频率范围而且还覆盖频率再现解码器中要重建的目标频率范围的频率范围内时,时间包络不仅应用于核心音频信号一直到间隙填充起始频率,而且时间包络也应用于重建的第二频谱部分的频谱范围。因此,减少或消除了在没有时间拼块整形的情况下将发生的前回波或后回波。这通过不仅在一直到某个间隙填充起始频率的核心频率范围内而且在核心频率范围之上的频率范围内应用相对于频率的逆预测来实现。为此,在应用相对于频率的预测之前,在解码器侧执行频率再生或频率拼块产生。然而,相对于频率的预测可以在频谱包络整形之前或之后应用,这取决于能量信息计算是对滤波之后的频谱残留值已经执行还是对包络整形之前的(全部)频谱值已经执行。
相对于一个或多个频率拼块的TTS处理另外建立了源范围和重建范围之间或两个相邻重建范围或频率拼块中的相关性的连续性。
在实现中,优选使用复数TNS/TTS滤波。从而,避免了临界采样的实数表示(如MDCT)的(时间)混叠伪像。除了获得复数修改的变换之外,可以通过不仅应用修改的离散余弦变换而且还应用修改的离散正弦变换在编码器侧计算复数TNS滤波。尽管如此,只有修改的离散余弦变换值,即复数变换的实部被发送。然而,在解码器侧,有可能使用先前或后续帧的MDCT频谱来估计该变换的虚部,使得在解码器侧,复数滤波器可以再次应用于相对于频率的逆预测,以及,具体地,相对于源范围和重建范围之间的边界以及也相对于重建范围内的频率相邻频率拼块之间的边界的预测。
本发明的音频编码系统以宽范围的比特率有效地对任意音频信号编码。然而,对于高比特率,本发明的系统收敛到透明性,对于低比特率,感知烦扰被最小化。因此,可用比特率的主要份额用于仅对编码器中的信号的感知上最相关的结构进行波形编码,并且所得到的频谱间隙被填充在具有粗略地近似于原始频谱的信号内容的解码器中。通过从编码器发送到解码器的专用辅助信息,消耗非常有限的比特预算来控制参数驱动的所谓的频谱智能间隙填充(IGF)。
在另外的实施例中,时域编码/解码处理器依赖于较低的采样率和相应的带宽扩展功能。
在另外的实施例中,提供交叉处理器以便利用从当前处理的频域编码器/解码器信号导出的初始化数据来初始化时域编码器/解码器。这允许当当前处理的音频信号部分由频域编码器处理时,并行时域编码器被初始化,使得当从频域编码器到时域编码器的切换发生时,该时域编码器可以立即开始处理,因为与更早的信号相关的所有初始化数据由于交叉处理器而已经存在。该交叉处理器优选地应用于编码器侧,并且另外应用于解码器侧,并且优选地使用频率-时间变换,其另外通过仅选择域信号的某个低频带部分以及某个减小的变换尺寸来执行从较高输出或输入采样率到较低时域核心编码器采样率中的非常高效的下采样。因此,非常有效地执行从高采样率到低采样率的采样率转换,并且然后可以使用通过具有减小的变换尺寸的变换获得的该信号来初始化时域编码器/解码器,使得时域编码器/解码器准备好当这种情况由控制器用信号通知并且紧接在前的音频信号部分在频域中编码时立即执行时域编码。
因此,本发明的优选实施例允许包括频谱间隙填充的感知音频编码器和具有或不具有带宽扩展的时域编码器的无缝切换。
因此,本发明依赖于不限于在频域编码器中从音频信号中去除截止频率以上的高频内容的方法,而是在编码器中信号自适应地去除留下频谱间隙的频谱带通区域并随后在解码器中重建这些频谱间隙。优选地,使用诸如智能间隙填充的集成解决方案,其特别在MDCT变换域中有效地组合全带宽音频编码和频谱间隙填充。
因此,本发明提供了一种用于将语音编码和随后的时域带宽扩展与包括频谱间隙填充的全频带波形解码组合成可切换感知编码器/解码器的改进的构思。
因此,与已经存在的方法相比,新构思在变换域编码器中利用全频带音频信号波形编码,并且同时允许到语音编码器的无缝切换,优选地随后是时域带宽扩展。
本发明的其它实施例避免了由于固定频带限制而发生的解释的问题。该构思实现了在配备有频谱间隙填充的频域中的全频带波形编码器和较低采样率语音编码器和时域带宽扩展的可切换组合。这种编码器能够对上述有问题的信号进行波形编码,从而提供一直到音频输入信号的奈奎斯特频率的全音频带宽。尽管如此,两种编码策略之间的无缝瞬时切换特别地由具有交叉处理器的实施例来保证。对于这种无缝切换,交叉处理器表示在全频带能力全速率(输入采样率)频域编码器和具有较低采样率的低速率ACELP编码器之间的编码器和解码器二者处的交叉连接,以当从诸如TCX之类的频域编码器切换到诸如ACELP之类的时域编码器时,适当地初始化ACELP参数和缓冲器,特别是在自适应码本、LPC滤波器或重新采样级内。
附图说明
随后相对于附图讨论本发明,其中:
图1a示出了用于对音频信号进行编码的装置;
图1b示出了与图1a的编码器匹配的用于对编码的音频信号进行解码的解码器;
图2a示出了编码器的优选实现;
图2b示出了编码器的优选实现;
图3a示出了由图1b的频域解码器产生的频谱的示意性表示;
图3b示出了指示用于比例因子频带的比例因子和用于重建频带的能量与用于噪声填充频带的噪声填充信息之间的关系的表格;
图4a示出了用于将频谱部分的选择应用到第一和第二组频谱部分中的频谱域编码器的功能;
图4b示出了图4a的功能的实现;
图5a示出了MDCT编码器的功能;
图5b示出了具有MDCT技术的解码器的功能;
图5c示出了频率再生器的实现;
图6示出了音频编码器的实现;
图7a示出了音频编码器内的交叉处理器;
图7b示出了另外在交叉处理器内提供采样率降低的逆或频率-时间变换的实现;
图8示出了图6的控制器的优选实现;
图9示出了具有带宽扩展功能的时域编码器的另外的实施例;
图10示出了预处理器的优选使用;
图11a示出了音频解码器的示意性实现;
图11b示出了解码器内的用于为时域解码器提供初始化数据的交叉处理器;
图12示出了图11a的时域解码处理器的优选实现;
图13示出了时域带宽扩展的另外的实现;
图14a示出了音频编码器的优选实现;
图14b示出了音频解码器的优选实现;
图14c示出了具有采样率转换和带宽扩展的时域解码器的创造性实现。
具体实施方式
图6示出了用于对音频信号进行编码的音频编码器,包括用于在频域中对第一音频信号部分进行编码的第一编码处理器600。第一编码处理器600包括时间频率转换器602,用于将第一输入音频信号部分转换为具有一直到输入信号的最大频率的频谱线的频域表示。此外,第一编码处理器600包括分析器604,用于分析一直到最大频率的频域表示,以确定要用第一频谱表示编码的第一频谱区域,并确定要用第二频谱分辨率编码的第二频谱区域,所述第二频谱分辨率低于第一频谱分辨率。特别地,全频带分析器604确定时间频率转换器频谱中的哪些频率线或频谱值要被频谱线方式编码,以及哪些其他频谱部分要以参数方式编码,然后这些后者的频谱值在解码器侧用间隙填充过程重建。实际编码操作由频谱编码器606执行,频谱编码器606用于以第一分辨率对第一频谱区域或频谱部分进行编码,并且用于以参数方式用第二频谱分辨率对第二频谱区域或部分进行编码。
图6的音频编码器还包括用于在时域中对音频信号部分进行编码的第二编码处理器610。另外,音频编码器包括控制器620,其被配置用于分析音频信号输入601处的音频信号,并且用于确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分。此外,提供可以例如实现为比特流多路复用器的编码信号形成器630,其被配置用于形成编码的音频信号,该编码的音频信号包括用于第一音频信号部分的第一编码信号部分和用于第二音频信号部分的第二编码信号部分。重要的是,编码的信号仅具有来自同一个音频信号部分的频域表示或时域表示。
因此,控制器620确保对于单个音频信号部分,在编码的信号中仅有时域表示或频域表示。这可以由控制器620以若干方式实现。一种方式将是,对于同一个音频信号部分,两个表示到达块630,并且控制器620控制编码信号形成器630以仅将两个表示中的一个引入到编码的信号中。然而,备选地,控制器620可以控制到第一编码处理器中的输入和到第二编码处理器中的输入,使得基于相应的信号部分的分析,仅激活块600或610二者中的一个来实际执行完全编码操作,并且其他块被去激活。
该去激活可以是去激活,备选地,例如相对于图7a所示,仅仅是一种“初始化”模式,其中另一个编码处理器仅仅对于接收和处理初始化数据是活动的以便初始化内部存储器,但是根本不执行任何特定的编码操作。该激活可以通过在图6中未示出的输入处的某个开关来完成,或优选地,通过控制线621和622来完成。因此,在该实施例中,当控制器620已经确定当前音频信号部分应该由第一编码处理器编码,而第二编码处理器仍然被提供有初始化数据以对于将来的瞬时切换是活动的时,第二编码处理器610不输出任何东西。另一方面,第一编码处理器被配置为不需要来自过去的任何数据来更新任何内部存储器,并且因此,在当前音频信号部分要由第二编码处理器610编码时,则控制器620可以经由控制线621控制第一结束编码处理器600完全不活动。这意味着第一编码处理器600不需要处于初始化状态或等待状态,而是可以处于完全去激活状态。这特别对于其中功耗和因此电池寿命成为问题的移动设备而言是优选的。
在时域中操作的第二编码处理器的进一步具体实现中,第二编码处理器包括下采样器900或采样率转换器,用于将音频信号部分转换为具有较低采样率的表示,其中较低采样率低于在到第一编码处理器中的输入处的采样率。这在图9中示出。特别地,当输入音频信号包括低频带和高频带时,优选的是,在块900的输出处的较低采样率表示仅具有输入音频信号部分的低频带,然后该低频带由时域低频带编码器910进行编码,时域低频带编码器910被配置用于对由块900提供的较低采样率表示进行时域编码。此外,提供了时域带宽扩展编码器920,用于以参数方式对高频带进行编码。为此,时域带宽扩展编码器920至少接收输入音频信号的高频带或输入音频信号的低频带和高频带。
在本发明的另一实施例中,音频编码器另外包括(虽然在图6中未示出,但在图10中示出)预处理器1000,其被配置用于预处理第一音频信号部分和第二音频信号部分。在一个实施例中,该预处理器包括用于确定预测系数的预测分析器。该预测分析器可以实现为用于确定LPC系数的LPC(线性预测编码)分析器。然而,也可以实现其他分析器。此外,预处理器(也在图14a中示出)包括预测系数量化器1010,其中,在图14a中示出的该设备从也在图14a中1002处示出的预测分析器接收预测系数数据。
此外,预处理器另外包括用于产生量化预测系数的编码的版本的熵编码器。重要的是要注意,编码信号形成器630或特定实现,即比特流多路复用器613确保量化预测系数的编码的版本被包括在编码的音频信号632中。优选地,LPC系数不被直接量化,而是被转换为例如ISF,或者更适合于量化的任何其它表示。该转换优选地通过确定LPC系数块1002来执行或者在用于使LPC系数量化的块1010内执行。
此外,预处理器可以包括重新采样器1004,用于以输入采样率将音频输入信号重新采样为用于时域编码器的较低采样率。当时域编码器是具有某个ACELP采样率的ACELP编码器时,则下采样被执行优选到12.8kHz或16kHz。输入采样率可以是特定数量的采样率(例如32kHz或甚至更高的采样率)中的任何一个。另一方面,时域编码器的采样率将由某些限制预先确定,并且重新采样器1004执行该重新采样并输出输入信号的较低采样率表示。因此,重新采样器可以执行类似的功能,并且甚至可以是如图9的上下文中所示的下采样器900那样的同一个元件。
此外,优选地在图14a中的预加重块1005中应用预加重。预加重处理在时域编码领域中是公知的,并且在参考AMR-WB+处理的文献中描述,并且预加重特别地被配置用于补偿频谱倾斜,并因此允许以给定的LPC次序更好地计算LPC参数。
此外,预处理器可以另外包括用于控制图14b中的1420处所示的LT P后滤波器的TCX-LTP参数提取。该块在图14a中的1006处示出。此外,预处理器可以另外包括在1007处示出的其他功能,并且这些其他功能可以包括音调搜索功能、话音活动检测(VAD)功能或者时域或语音编码领域中已知的任何其他功能。
如所示,块1006的结果被输入到编码的信号中,即,在图14a的实施例中,被输入到比特流多路复用器630中。此外,如果需要,来自块1007的数据也可以被引入到比特流多路复用器中,或者可以备选地用于在时域编码器中的时域编码的目的。
因此,总而言之,两个路径共用的是预处理操作1000,其中执行常用的信号处理操作。这些包括针对一个并行路径的到ACELP采样率(12.8或16kHz)的重新采样,并且总是执行该重新采样。此外,执行在块1006处示出的TCX LTP参数提取,另外,执行LPC系数的预加重和确定。如概述的,预加重补偿了频谱倾斜,因此使得以给定LPC次序进行的LPC参数的计算更有效。
随后,参考图8,以便示出控制器620的优选实现。控制器在输入处接收所考虑的音频信号部分。优选地,如图14a所示,控制器接收在预处理器1000中可用的任何信号,其可以是以输入采样率的原始输入信号或以较低时域编码器采样率的重新采样版本,或者是在块1005中的预加重处理之后获得的信号。
基于该音频信号部分,控制器620寻址频域编码器模拟器621和时域编码器模拟器622,以便针对每个编码器可能性计算估计的信噪比。随后,选择器623自然地在考虑预定义比特率的情况下选择已经提供更好的信噪比的编码器。选择器然后通过控制输出识别相应的编码器。当确定考虑下的音频信号部分要使用频域编码器进行编码时,时域编码器被设置为初始化状态,或者在其他实施例中,在完全去激活状态下不要求非常瞬时的切换。然而,当确定考虑下的音频信号部分要由时域编码器进行编码时,则频域编码器被去激活。
随后,示出了图8中所示的控制器的优选实现。通过模拟ACELP和TCX编码器并切换到更好的执行分支,在切换决定中执行应该是选择ACELP还是选择TCX路径的决定。为此,基于ACELP和TCX编码器/解码器模拟来估计ACELP和TCX分支的SNR。在没有TNS/TTS分析、IGF编码器、量化回路/算术编码器或没有任何TCX解码器的情况下执行TCX编码器/解码器模拟。替代地,使用整形后的MDCT域中的量化器失真的估计来估计TCX SNR。仅使用自适应码本和创新码本的模拟来执行ACELP编码器/解码器模拟。通过计算由加权信号域(自适应码本)中的LTP滤波器引入的失真并通过常数因子(创新码本)按比例缩放该失真来简单地估计ACELP SNR。因此,与并行执行TCX和ACELP编码的方法相比,复杂度大大降低。具有较高SNR的分支被选择用于随后的完整编码运行。
在选择TCX分支的情况下,在每个帧中运行TCX解码器,其以ACELT采样率输出信号。这用于更新用于ACELP编码路径(LPC残留、Mem w0、存储器去加重)的存储器,以实现从TCX到ACELP的瞬时切换。在每个TCX路径中执行存储器更新。
备选地,可以执行通过合成处理进行的完全分析,即,编码器模拟器621、622二者都实现实际编码操作,并且结果由选择器623进行比较。备选地,再次,可以通过执行信号分析来完成完整的前馈计算。例如,当通过信号分类器确定信号是语音信号时,选择时域编码器,并且当确定信号是音乐信号时,则选择频域编码器。还可以应用其它过程以便基于对所考虑的音频信号部分的信号分析来在两个编码器之间进行区分。
优选地,音频编码器另外包括图7a中所示的交叉处理器700。当频域编码器600是活动的时,交叉处理器700向时域编码器610提供初始化数据,使得时域编码器准备好用于未来信号部分中的无缝切换。换句话说,当使用频域编码器确定当前信号部分要被编码时,并且当控制器确定紧接在后的音频信号部分要由时域编码器610编码时,则在没有交叉处理器的情况下,这种立即无缝切换将是不可能的。然而,为了初始化时域编码器中的存储器的目的,交叉处理器向时域编码器610提供从频域编码器600导出的信号,因为时域编码器610具有对来自输入的当前帧或按时间紧接在前的帧的编码的信号的依赖性。
因此,时域编码器610被配置为由初始化数据初始化,以便以高效的方式对由频域编码器600编码的较早的音频信号部分之后的音频信号部分进行编码。
特别地,交叉处理器包括用于将频域表示转换为时域表示的时间转换器,所述时域表示可以直接或在一些进一步处理之后被转发到时域编码器。该转换器在图14a中示出为IMDCT(逆修改的离散余弦变换)块。然而,与图14a中所示的时间-频率转换器块602相比,该块702具有不同的变换尺寸(修改的离散余弦变换块)。如块602所示,时间-频率转换器602以输入采样率操作,并且逆修改的离散余弦变换702以较低ACELP采样率操作。
可以计算时域编码器采样率或ACELP采样率与频域编码器采样率或输入采样率的比率,并且它是图7b所示的下采样因子DS。块602具有大变换尺寸,且IMDCT块702具有小变换尺寸。如图7b所示,IMDCT块702因此包括用于选择到IMDCT块702中的输入的较低频谱部分的选择器726。全频带频谱的部分由下采样因子DS限定。例如,当较低采样率是16kHz并且输入采样率是32kHz时,则下采样因子是0.5,因此,选择器726选择全频带频谱的下半部分。当频谱具有例如1024个MDCT线时,则选择器选择下部的512个MDCT线。
全频带频谱的这个低频部分被输入到小尺寸变换和展开(foldout)块720中,如图7b所示。该变换尺寸还根据下采样因子来选择,并且是在块602中变换尺寸的50%。然后执行合成窗口化,其中窗口具有小数量的系数。合成窗口的系数的数量等于下采样因子乘以块602所使用的分析窗口的系数的数量。最后,以每块更小数量的操作执行重叠相加操作,并且每块的操作数量再次是全速率实现MDCT中的每块的操作数量乘以下采样因子。
因此,可以应用非常高效的下采样操作,因为下采样被包括在IMD CT实现中。在该上下文中,要强调的是,块702可以由IMDCT实现,但是也可以由可以在实际变换内核和其他变换相关操作中适当地定尺寸的任何其他变换或滤波器组实现来实现。
在图14a所示的另一实施例中,时间-频率转换器除了分析器之外还包括附加功能。图6的分析器604可以包括在图14a的实施例中的时间噪声整形/时间拼块整形分析块604a,其如在针对TNS/TTS分析块604a的图2b块222的上下文中讨论的那样进行操作,并且针对对应于图14a中的IGF编码器604b的音调掩码226关于图2所示的那样进行操作。
此外,频域编码器优选地包括噪声整形块606a。噪声整形块606a由如块1010产生的量化LPC系数控制。用于噪声整形606a的量化LPC系数执行直接编码(而不是以参数方式编码)的高分辨率频谱值或频谱线的频谱整形,并且块606a的结果类似于LPC滤波级之后的信号的频谱,其在时域(例如稍后将描述的LPC分析滤波块704)中进行操作。此外,然后如块606b所示,对噪声整形块606a的结果进行量化和熵编码。块606b的结果对应于编码的第一音频信号部分或频域编码的音频信号部分(连同其它辅助信息一起)。
交叉处理器700包括用于计算第一编码信号部分的经解码版本的频谱解码器。在图14a的实施例中,频谱解码器701包括前面讨论的逆噪声整形块703、间隙填充解码器704、TNS/TTS合成块705和IMDCT块702。这些块撤消由块602至606b执行的特定操作。具体地,噪声整形块703基于量化的LPC系数1010来撤销由块606a执行的噪声整形。IGF解码器704如关于图2A所讨论的那样操作块202和206,并且TNS/TTS合成块705如在图2A的块210的上下文中所讨论的那样操作,并且频谱解码器另外包括IMDCT块702。此外,图14a中的交叉处理器700另外或备选地包括延迟级707,用于将由频谱解码器701获得的经解码版本的延迟版本馈送在第二编码处理器的去加重级617中,以用于初始化去加重级617的目的。
此外,交叉处理器17可以附加地或备选地包括加权预测系数分析滤波级708,用于对经解码版本进行滤波并用于将滤波后的经解码版本馈送到第二编码处理器的在图14a中指示为“MMSE”的码本确定器613,以用于初始化该块。附加地或备选地,交叉处理器包括LPC分析滤波级,用于将由频谱解码器700输出的第一编码信号部分的经解码版本滤波到自适应码本级712,以用于块612的初始化。另外或备选地,交叉处理器还包括预加重级709,用于在LPC滤波之前对由频谱解码器701输出的经解码版本执行预加重处理。预加重级输出也可以被馈送到另外的延迟级710,用于在时域编码器610内初始化LPC合成滤波块616的目的,用于初始化该LPC分析滤波块611的目的。
如图14a所示,时域编码器处理器610包括在较低ACELP采样率上的预加重操作。如所示,该预加重是在预处理级1000中执行的预加重,并且具有附图标记1005。预加重数据被输入到在时域中进行操作的LPC分析滤波级611中,并且该滤波器由通过预处理级1000获得的量化LPC系数1010控制。如从AMR-WB+或USAC或其它CELP编码器已知的,由块611产生的残留信号被提供给自适应码本612,此外,自适应码本612连接到创新码本级614,并且来自自适应码本612和来自创新码本的码本数据被输入到比特流多路复用器中,如所示。
此外,提供与创新码本级614串联的ACELP增益/编码级612,并且将该块的结果输入到图14a中指示为MMSE的码本确定器613中。该块与创新码本块614协作。此外,时域编码器另外包括具有LPC合成滤波块616、去加重块617和自适应低音后滤波级618的解码器部分,用于计算自适应低音后滤波的参数,然而,自适应低音后滤波应用于解码器侧。在解码器侧没有任何自适应低音后滤波的情况下,块616、617、618对于时域编码器610将不是必需的。
如所示,时域解码器的若干块取决于先前的信号,并且这些块是自适应码本块、码本确定器613、LPC合成滤波块616和去加重块617。这些块被提供有从频域编码处理器数据导出的来自交叉处理器的数据,以便为了准备好从频域编码器到时域编码器的瞬时切换的目的而初始化这些块。从图14a还可以看出,对于频域编码器,对较早数据的任何依赖性不是必需的。因此,交叉处理器700不提供从时域编码器到频域编码器的任何存储器初始化数据。然而,对于其中存在来自过去的依赖性以及其中需要存储器初始化数据的频域编码器的其它实现,交叉处理器700被配置为在两个方向上操作。
因此,音频编码器的优选实施例包括以下部分:
下面描述优选的音频解码器:波形解码器部分由全频带TCX解码器路径和IGF组成,其中二者都以编解码器的输入采样率操作。并行地,存在在较低采样率处的替代ACELP解码器路径,其在下游由TD-BWE进一步加强。
对于从TCX切换到ACELP时的ACELP初始化,存在执行本发明的ACEL P初始化的交叉路径(由共享TCX解码器前端组成,但是另外提供以较低采样率的输出和一些后处理)。在LPC中在TCX和ACELP之间共享相同的采样率和滤波次序允许更容易和更高效的ACELP初始化。
为了可视化切换,在14b中绘制了两个开关。当在下游的第二开关在TCX/IGF或ACELP/TD-BWE输出之间选择时,第一开关要么通过交叉路径的输出预更新在ACELP路径下游的重新采样QMF级中的缓冲器,要么简单地传递ACELP输出。
随后,在图11a-14c的上下文中讨论根据本发明的方面的音频解码器实现。
用于对编码的音频信号1101进行解码的音频解码器包括用于在频域中对第一编码音频信号部分进行解码的第一解码处理器1120。第一解码处理器1120包括频谱解码器1122,用于以高频谱分辨率对第一频谱区域进行解码并且用于使用第二频谱区域的参数表示和至少解码的第一频谱区域来合成第二频谱区域以获得解码的频谱表示。解码的频谱表示是如图6的上下文中讨论的并且也如图1a的上下文中讨论的全频带解码的频谱表示。因此,一般来说,第一解码处理器包括在频域中具有间隙填充过程的全频带实现。第一解码处理器1120还包括频率-时间转换器1124,用于将解码的频谱表示转换到时域中以获得解码的第一音频信号部分。
此外,音频解码器包括第二解码处理器1140,用于在时域中对第二编码的音频信号部分进行解码以获得解码的第二信号部分。此外,音频解码器包括组合器1160,用于组合解码的第一信号部分和解码的第二信号部分以获得解码的音频信号。解码的信号部分按顺序组合,这也在图14b中由表示图11a的组合器1160的实施例的开关实现1160示出。
优选地,第二解码处理器1140是时域带宽扩展处理器,并且如图12所示包括时域低频带解码器1200,用于对低频带时域信号进行解码。该实现还包括用于对低频带时域信号进行上采样的上采样器1210。另外,提供了时域带宽扩展解码器1220,用于对输出音频信号的高频带进行合成。此外,提供了混频器1230,用于混合合成的时域输出信号的高频带和上采样的低频带时域信号,以获得时域编码器输出。因此,在优选的实施例中,图11a中的块1140可以通过图12的功能来实现。
图13示出了图12的时域带宽扩展解码器1220的优选实施例。优选地,提供了时域上采样器1221,其从包括在块1140内并且在图12的1200处示出并在图14b的上下文中进一步示出的时域低频带解码器接收作为输入的LPC残留信号。时域上采样器1221产生LPC残留信号的上采样的版本。然后将该版本输入到非线性失真块1222中,该非线性失真块1222基于其输入信号产生具有较高频率值的输出信号。非线性失真可以是复制、镜像、频移或非线性设备,例如,在非线性区域中操作的二极管或晶体管。块1222的输出信号被输入到LPC合成滤波块1223,LPC合成滤波块1223也由用于低频带解码器的LPC数据控制,或者例如由图14a的编码器侧的时域带宽扩展块920所产生的特定包络数据控制。然后将LPC合成块的输出输入到带通或高通滤波器1224中以最终获得高频带,然后将其输入到混频器1230中,如图12所示。
随后,图12的上采样器1210的优选实现在图14a的上下文中讨论。上采样器优选地包括以第一时域低频带解码器采样率操作的分析滤波器组。这种分析滤波器组的具体实现是图14b中所示的QMF分析滤波器组1471。此外,上采样器包括以高于第一时域低频带采样率的第二输出采样率进行操作的合成滤波器组1473。因此,作为通用滤波器组的优选实现的QMF合成滤波器组1473以输出采样率操作。当如图7b的上下文中讨论的下采样因子T为0.5时,则QMF分析滤波器组1471具有例如仅32个滤波器组通道,并且QMF合成滤波器组1473具有例如64个QMF通道,但是滤波器组通道的较高一半,即上部32个滤波器组通道被馈送有零或噪声,而下部32个滤波器组通道被馈送有由QMF分析滤波器组1471提供的相应信号。然而,优选地,在QMF滤波器组域内执行带通滤波1472,以便确保QMF合成输出1473是ACELP解码器输出的上采样的版本,但没有高于ACELP解码器的最大频率的任何伪像。
作为对带通滤波1472的附加或替代,可以在QMF域内执行进一步的处理操作。如果根本不执行处理,则QMF分析和QMF合成构成高效的上采样器1210。
随后,对图14b中的各个元件的结构进行更详细地讨论。
全频带频域解码器1120包括第一解码块1122a,用于对高分辨率频谱系数进行解码并且用于另外执行例如从USAC技术已知的低频带部分中的噪声填充。此外,全频带解码器包括IGF处理器1122b,用于使用已经仅以参数方式并因此在编码器侧以低分辨率编码的合成的频谱值来填充频谱空洞。然后,在块1122c中,执行逆噪声整形,并且将结果输入到TNS/TTS合成块705中,TNS/TTS合成块705将作为最终输出的输入提供给频率-时间转换器1124,其优选地实现为在输出处操作的逆修改的离散余弦变换,即高采样率。
此外,使用由图14b中的TCX LTP参数提取块1006获得的数据控制的谐波或LTP后滤波器。结果然后是以输出采样率解码的第一音频信号部分,并且如从图14b可以看出的,该数据具有高采样率,因此,根本不需要任何进一步的频率增强,这是由于以下的事实:解码处理器是频域全频带解码器,其优选地使用在图1a-5C的上下文中讨论的智能间隙填充技术来操作。
图14b中的若干元素与图14a的交叉处理器700中的相应块非常相似,特别是关于对应于IGF处理1122b的IGF解码器704,以及由量化LPC系数1145控制的逆噪声整形操作对应于图14a的逆噪声整形703,以及图14b中的TNS/TTS合成块705对应于图14a中的块TNS/TTS合成705。然而,重要的是,图14b中的IMDCT块1124以高采样率操作,而图14a中的IMDCT块702以低采样率操作。因此,图14b中的块1124包括与相应特征720、722、724相比具有相应大数量的操作、大数量的窗口系数和大变换尺寸的大的定尺寸的变换和展开块710、块712中的合成窗口和重叠相加级714,其在块702中操作,并且稍后将在图14b中的交叉处理器1170的块1171中概述。
时域解码处理器1140优选地包括ACELP或时域低频带解码器1200,ACELP或时域低频带解码器1200包括用于获得解码的增益和创新码本信息的ACELP解码器级1149。另外,提供了ACELP自适应码本级1141,以及随后的ACELP后处理级1142和最终合成滤波器(例如LPC合成滤波器1143),其再次由从对应于图11a中的编码的信号解析器1100的比特流多路分配器1100获得的量化LPC系数1145控制。LPC合成滤波器1143的输出被输入到去加重级1144中,用于消除或撤消由图14a的预处理器1000的预加重级1005引入的处理。结果是在低采样率和低频带下的时域输出信号,并且在要求频域输出的情况下,开关1480处于指示位置,并且去加重级1144的输出被引入到上采样器1210中,然后与来自时域带宽扩展解码器1220的高频带混合。
根据本发明的实施例,音频解码器另外包括图11b和图14b中所示的交叉处理器1170,用于根据第一编码音频信号部分的解码的频谱表示计算第二解码处理器的初始化数据,使得第二解码处理器被初始化以对编码的音频信号中在时间上跟随第一音频信号部分的编码的第二音频信号部分进行解码,即,使得时域编码处理器1140准备好从一个音频信号部分到下一个音频信号部分的瞬时切换,而在质量或效率上没有任何损耗。
优选地,交叉处理器1170包括以比第一解码处理器的频率-时间转换器更低的采样率操作的附加频率-时间转换器1171,以便在时域中获得进一步解码的第一信号部分,以用作初始化信号或可以针对其导出任何初始化数据。优选地,该IMDCT或低采样率频率-时间转换器被实现为图7b中所示的项目726(选择器)、项目720(小尺寸变换和展开),如722中所示的具有较小数量的窗口系数的合成窗口以及如724处所示的具有较小数量的操作的重叠相加级。因此,频域全频带解码器中的IMDCT块1124如由块710、712、714所示被实现,并且IMDCT块1171如图7b所示由块726、720、722、724实现。再次,下采样因子是时域编码器采样率或低采样率与较高频域采样率或输出采样率之间的比率,并且该下采样因子小于1且可以是大于0且小于1的任何数。
如图14b所示,交叉处理器1170单独地或者除了其它元件之外还包括延迟级1172,用于延迟进一步解码的第一信号部分并用于将延迟的解码的第一信号部分馈送到第二解码处理器的去加重级1144中以进行初始化。此外,交叉处理器另外或备选地包括预加重滤波器1173和延迟级1175,用于对进一步解码的第一信号部分进行滤波和延迟,并用于将块1175的延迟输出提供到ACELP解码器的LPC合成滤波级1143中,以用于初始化的目的。
此外,交叉处理器备选地或除了其他提到的元件之外可以包括LPC分析滤波器1174,LPC分析滤波器1174用于根据进一步解码的第一信号部分或预加重的进一步解码的第一信号部分产生预测残留信号,并且用于将数据馈送到第二解码处理器的码本合成器中,并且优选地,馈送到自适应码本级1141中。此外,具有低采样率的频率-时间转换器1171的输出也被输入到上采样器1210的QMF分析级1471中,以用于初始化的目的,即在当前解码的音频信号部分由频域全频带解码器1120递送时。
下面描述优选的音频解码器:波形解码器部分由全频带TCX解码器路径和IGF组成,其中二者都以编解码器的输入采样率操作。并行地,存在在较低采样率处的替代ACELP解码器路径,其在下游由TD-BWE进一步加强。
对于从TCX切换到ACELP时的ACELP初始化,存在执行本发明的ACEL P初始化的交叉路径(由共享TCX解码器前端组成,但是另外提供以较低采样率的输出和一些后处理)。在LPC中在TCX和ACELP之间共享相同的采样率和滤波次序允许更容易和更高效的ACELP初始化。
为了可视化切换,在图14b中绘制了两个开关。当在下游的第二开关在TCX/IGF或ACELP/TD-BWE输出之间选择时,第一开关要么通过交叉路径的输出预更新在ACELP路径下游的重新采样QMF级中的缓冲器,要么简单地传递ACELP输出。
总而言之,可单独或组合使用的本发明的优选方面涉及ACELP和TD-BWE编码器与能够全频带TCX/IGF技术的组合,优选与使用交叉信号相关联。
另一个特定特征是用于ACELP初始化以实现无缝切换的交叉信号路径。
另一方面是短IMDCT被馈送有高速率长MDCT系数的较低部分以在交叉路径中高效地实现采样率转换。
另一特征是在解码器中与全频带TCX/IGF部分共享的交叉路径的高效实现。
另一特征是用于QMF初始化的交叉信号路径,以实现从TCX到ACELP的无缝切换。
附加特征是到QMF的交叉信号路径,其允许补偿ACELP重新采样输出和当从ACELP切换到TCX时的滤波器组-TCX/IGF输出之间的延迟间隙。
另一方面是,以相同的采样率和滤波次序为TCX和ACELP编码器二者提供LPC,尽管TCX/IGF编码器/解码器是能够全频带的。
随后,图14c被讨论为要么作为独立解码器操作要么与能够全频带频域解码器组合操作的时域解码器的优选实现。
通常,时域解码器包括ACELP解码器,随后连接的重新采样器或上采样器和时域带宽扩展功能。特别地,ACELP解码器包括用于恢复增益和创新码本的ACELP解码级1149、ACELP自适应码本级1141、ACELP后处理器1142、由来自比特流多路分配器的量化LPC系数控制的LPC合成滤波器1143或编码的信号解析器和随后连接的去加重级1144。优选地,处于ACELP采样率的时域残留信号被输入到时域带宽扩展解码器1220中,其在输出处提供高频带。
为了对去加重1144输出进行上采样,提供了包括QMF分析块1471和QMF合成块1473的上采样器。在由块1471和1473限定的滤波器组域内,优选地应用带通滤波器。特别地,如前面已经讨论的,也可以使用相同的功能,其已经关于相同的附图标记进行了讨论。此外,时域带宽扩展解码器1220可以如图13所示实现。并且通常包括以ACELP采样率对ACELP残留信号或时域残留信号的上采样,ACELP采样率最终到带宽扩展信号的输出采样率。
随后,关于图1A-5C讨论关于能够全频带的频域编码器和解码器的进一步细节。
图1a示出了用于对音频信号99进行编码的装置。音频信号99被输入到时间频谱转换器100中,时间频谱转换器100用于将具有采样率的音频信号转换成由时间频谱转换器输出的频谱表示101。频谱101被输入到用于分析频谱表示101的频谱分析器102中。频谱分析器101被配置用于确定要以第一频谱分辨率编码的第一组第一频谱部分103和要以第二频谱分辨率编码的不同的第二组第二频谱部分105。第二频谱分辨率小于第一频谱分辨率。第二组第二频谱部分105被输入到参数计算器或参数编码器104中,用于计算具有第二频谱分辨率的频谱包络信息。此外,提供了频谱域音频编码器106,用于产生具有第一频谱分辨率的第一组第一频谱部分的第一编码表示107。此外,参数计算器/参数编码器104被配置用于产生第二组第二频谱部分的第二编码表示109。第一编码表示107和第二编码表示109被输入到比特流多路复用器或比特流形成器108中,并且块108最终输出编码的音频信号以用于传输或在存储设备上存储。
通常,第一频谱部分(例如图3a的306)将被两个第二频谱部分(诸如307a、307b)围绕。这不是HE AAC中的情况,其中核心编码器频率范围是频带限制的。
图1b示出了与图1a的编码器相匹配的解码器。第一编码表示107被输入到频谱域音频解码器112中,用于产生第一组第一频谱部分的第一解码表示,该解码表示具有第一频谱分辨率。此外,第二编码表示109被输入到参数解码器114中,用于产生具有低于第一频谱分辨率的第二频谱分辨率的第二组第二频谱部分的第二解码表示。
解码器还包括频率再生器116,用于使用第一频谱部分再生具有第一频谱分辨率的重建的第二频谱部分。频率再生器116执行拼块填充操作,即,使用第一组第一频谱部分的拼块或部分,并将该第一组第一频谱部分复制到具有第二频谱部分的重建范围或重建频带中,并且通常执行频谱包络整形或由参数解码器114输出的解码的第二表示(即,通过使用关于第二组第二频谱部分的信息)所指示的另一操作。解码的第一组第一频谱部分和重建的第二组频谱部分如在线117上的频率再生器116的输出处所指示的那样被输入到频谱-时间转换器118中,频谱-时间转换器118被配置用于将第一解码表示和重建的第二频谱部分转换成时间表示119,该时间表示具有某个高采样率。
图2b示出了图1a编码器的实现。音频输入信号99被输入到对应于图1a的时间频谱转换器100的分析滤波器组220中。然后,在TNS块222中执行时间噪声整形操作。因此,到对应于图2b的块音调掩码226的图1a的频谱分析器102中的输入当不应用时间噪声整形/时间拼块整形操作时可以是全频谱值,或者当应用如图2b、块222所示的TNS操作时可以是频谱残留值。对于双声道信号或多声道信号,可以另外执行联合声道编码228,使得图1a的频谱域编码器106可以包括联合声道编码块228。此外,提供了用于执行无损数据压缩的熵编码器232,其也是图1a的频谱域编码器106的一部分。
频谱分析器/音调掩码226将TNS块222的输出分离为核心频带和对应于第一组第一频谱部分103的音调分量和对应于图1a的第二组第二频谱部分105的残留分量。指示为IGF参数提取编码的块224对应于图1a的参数编码器104,并且比特流多路复用器230对应于图1a的比特流多路复用器108。
优选地,分析滤波器组222被实现为MDCT(修改的离散余弦变换滤波器组),并且MDCT被用于以用作频率分析工具的修改的离散余弦变换将信号99变换到时间-频率域中。
频谱分析器226优选地应用音调掩码。该音调掩码估计级用于将音调分量与信号中的类噪声分量分离。这允许核心编码器228使用心理声学模块对所有音调分量进行编码。音调掩码估计级可以以许多不同的方式实现,并且优选地在其功能上类似于用于语音/音频编码[8,9]或在[10]中描述的基于HILN模型的音频编码器的正弦和噪声建模中使用的正弦轨道估计级。优选地,使用易于实现而不需要保持生死轨迹的实现,但是也可以使用任何其他音调或噪声检测器。
IGF模块计算存在于源区域和目标区域之间的相似性。目标区域将由来自源区域的频谱表示。源区域和目标区域之间的相似性的测量使用互相关方法来完成。目标区域被分成nTar非重叠频率拼块。对于目标区域中的每个拼块,从固定的开始频率创建nSrc源拼块。这些源拼块以0和1之间的因子重叠,其中0意指0%重叠,1意指100%重叠。这些源拼块中的每一个与各种滞后处的目标拼块相关,以找到与目标拼块最佳匹配的源拼块。最佳匹配拼块编号被存储在tileNum[idx_tar]中,在其处它与目标最佳相关的滞后被存储在xcorr_lag[idx_tar][idx_src]中,以及相关性的符号被存储在xcorr_sign[idx_tar][idx_src]中。在相关性非常负面的情况下,在解码器处的拼块填充处理之前,源拼块需要乘以-1。IGF模块还考虑不覆写频谱中的音调分量,因为使用音调掩码来保留音调分量。带状能量参数用于存储目标区域的能量,使得我们能够精确地重建频谱。
这种方法相对于传统的SBR[1]具有的某些优点在于:多音调信号的谐波网格由核心编码器保存,而只有正弦波之间的间隙被来自源区域的最佳匹配的“整形噪声”填充。与ASR(精确频谱替换)[2-4]相比,该系统的另一个优点是没有信号合成级,其在解码器处创建信号的重要部分。相反,这个任务由核心编码器接管,使得能够保存频谱的重要分量。所提出的系统的另一个优点是特征提供的连续可缩放性。只需对每个拼块使用tileNum[idx_tar]和xcorr_lag=0,被称为粒度匹配并且可以用于低比特率,同时对每个拼块使用变量xcorr_lag使得我们能够更好地匹配目标和源频谱。
此外,提出了去除诸如颤动和音乐噪声的频域伪像的拼块选择稳定技术。
在立体声声道对的情况下,应用附加的联合立体声处理。这是必要的,因为对于某个目的地范围,信号可以是高度相关的平移(panned)声源。在为该特定区域选择的源区域不是良好相关的情况下,尽管能量与目的区域匹配,但是空间图像可能由于不相关的源区域而受损。编码器分析每个目的区域能带,通常执行频谱值的交叉相关,并且如果超过某个阈值,则为该能带设置联合标志。在解码器中,如果该联合立体声标志未被设置,则左和右声道能带被分别处理。在设置联合立体声标志的情况下,在联合立体声域中执行能量和修补二者。类似用于核心编码的联合立体声信息,发信号通知用于IGF区域的联合立体声信息,包括在预测的情况下指示以下的标志:预测的方向是否是从下混到残留,或反之。
能量可以根据L/R域中的发送能量来计算。
midNrg[k]=leftNrg[k]+rightNrg[k];
sideNrg[k]=leftNrg[k]-rightNrg[k];
其中k是变换域中的频率索引。
另一种解决方案是对于联合立体声是活动的频带,在联合立体声域中直接计算和发送能量,因此在解码器侧不需要附加的能量变换。
源拼块始终根据中/侧矩阵来创建:
midTile[k]=0.5·(leftTile[k]+rightTile[k])
sideTile[k]=0.5·(leftTile[k]-rightTile[k])
能量调整:
midTile[k]=midTile[k]*midNrg[k];
sideTile[k]=sideTile[k]*siaeNrg[k];
联合立体声->LR变换:
如果没有对附加预测参数进行编码:
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果附加预测参数被编码并且如果发信号通知的方向是从中间到一侧:
sideTile[k]=sideTile[k]-predictionCoeff·midTile[k]
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果发信号通知的方向是从一侧到中间:
midTilel[k]=midTile[k]-predictionCoeff·sideTile[k]
leftTile[k]=midTilel[k]-sideTile[k]
rightTile[k]=midTilel[k]+sideTile[k]
该处理确保根据用于再生高度相关的目的区域和平移的目的区域的拼块,即使源区域不相关,所得到的左和右声道仍然表示相关和平移的声源,从而保存用于这样的区域的立体声图像。
换句话说,在比特流中,发送指示是否应当使用L/R或M/S作为一般联合立体声编码的示例的联合立体声标志。在解码器中,首先,如由针对核心频带的联合立体声标志所指示的,对核心信号进行解码。其次,核心信号以L/R和M/S表示二者进行存储。对于IGF拼块填充,选择源拼块表示以适合如由IGF频带的联合立体声信息所指示的目标拼块表示。
时间噪声整形(TNS)是一种标准技术,且是AAC[11-13]的一部分。TNS可以被认为是感知编码器的基本方案的扩展,在滤波器组和量化级之间插入可选的处理步骤。TNS模块的主要任务是隐藏在瞬态类似信号的时间掩码区域中产生的量化噪声,并且因此它导致更高效的编码方案。首先,TNS使用变换域中的“前向预测”(例如,MDCT)计算一组预测系数。这些系数然后用于使信号的时间包络变平坦。由于量化影响TNS滤波后的频谱,所以量化噪声也暂时是平坦的。通过在解码器侧应用逆TNS滤波,量化噪声根据TNS滤波的时间包络来整形,并且因此量化噪声被瞬态掩码。
IGF基于MDCT表示。为了高效编码,优选地,必须使用大约20ms的长块。如果这种长块内的信号包含瞬态,则由于拼块填充,在IGF频谱带中发生可听到的前回声和后回声。图7c示出了由于IGF引起的瞬时起始之前的典型前回声效应。在左侧,示出了原始信号的频谱图,并且在右侧示出了没有TNS滤波的带宽扩展信号的频谱图。
这种前回声效应通过在IGF上下文中使用TNS而减少。这里,TNS用作时间拼块整形(TTS)工具,因为对TNS残留信号执行解码器中的频谱再生。照常在编码器侧使用全频谱计算并应用所要求的TTS预测系数。TNS/TTS起始频率和停止频率不受IGF工具的IGF起始频率fIGFstart影响。与传统TNS相比,TTS停止频率增加到IGF工具的停止频率,其高于fIGFstart。在解码器侧,TNS/TTS系数再次应用于全频谱,即核心频谱加上再生频谱加上来自音调掩码的音调分量(见图7e)。TTS的应用是形成再生频谱的时间包络以再次匹配原始信号的包络所必需的。因此,所示的前回声被减少。此外,它仍然照常以TNS在低于fIGFstart的信号中对量化噪声进行整形。
在传统解码器中,音频信号上的频谱修补破坏了补丁边界处的频谱相关性,并且由此通过引入频散而损害音频信号的时间包络。因此,对残留信号执行IGF拼块填充的另一益处是,在应用整形滤波之后,拼块边界无缝地相关,导致信号的更忠实的时间再现。
在本发明的编码器中,已经经历TNS/TTS滤波、音调掩码处理和IGF参数估计的频谱除了音调分量之外,没有高于IGF起始频率的任何信号。这个稀疏频谱现在使用算术编码和预测编码的原理由核心编码器编码。这些编码的分量连同信令比特一起形成音频的比特流。
图2a示出了相应的解码器实现。对应于编码的音频信号的图2a中的比特流被输入到多路分配器/解码器中,其将关于图1b连接到块112和114。比特流多路分配器将输入音频信号分离成图1b的第一编码表示107和图1b的第二编码表示109。具有第一组第一频谱部分的第一编码表示被输入到对应于图1b的频谱域解码器112的联合声道解码块204中。第二编码表示被输入到图2a中未示出的参数解码器114中,然后输入到对应于图1b的频率再生器116的IGF块202中。频率再生所要求的第一组第一频谱部分经由线203输入到IGF块202中。此外,在联合声道解码204之后,在音调掩码块206中应用特定核心解码,使得音调掩码206的输出对应于频谱域解码器112的输出。然后,由组合器208执行组合,即,帧建造,其中组合器208的输出现在具有全范围频谱,但仍然在TNS/TTS滤波后的域中。然后,在块210中,使用经由线109提供的TNS/TTS滤波信息来执行逆TNS/TTS操作,即,TTS辅助信息优选地被包括在由频谱域编码器106(例如,频谱域编码器106可以是直接AAC或USAC核心编码器)产生的第一编码表示中,或者也可以被包括在第二编码表示中。在块210的输出处,提供一直到最大频率的完整的频谱,其是由原始输入信号的采样率限定的全范围频率。然后,在合成滤波器组212中执行频谱/时间转换,以最终获得音频输出信号。
图3a示出了频谱的示意表示。按比例因子频带SCB细分频谱,其中在图3a的示出的示例中存在七个比例因子频带SCB1至SCB7。比例因子频带可以是在AAC标准中限定的AAC比例因子频带,并且对于上部频率具有增加的带宽,如图3a示意性地所示。优选地,不是从频谱的一开始即在低频率处执行智能间隙填充,而是在309处所示的IGF起始频率处开始IGF操作。因此,核心频带从最低频率延伸到IGF起始频率。在IGF起始频率之上,应用频谱分析以从由第二组第二频谱部分表示的低分辨率分量中分离出高分辨率频谱分量304、305、306、307(第一组第一频谱部分)。图3a示出了示例性地输入到频谱域编码器106或联合声道编码器228中的频谱,即,核心编码器在全范围中操作,但是编码了大量的零频谱值,即这些零频谱值在量化之前或在量化之后被量化为零或被设置为零。无论如何,核心编码器在全范围中操作,即,如同频谱将如图所示,即,核心解码器不一定必须知道具有较低的频谱分辨率的第二组第二频谱部分的任何智能间隙填充或编码。
优选地,高分辨率由诸如MDCT线的谱线的线方式编码限定,而第二分辨率或低分辨率通过例如仅计算每个比例因子频带的单个频谱值来限定,其中比例因子频带覆盖若干频率线。因此,关于其频谱分辨率,第二低分辨率比由核心编码器(例如AAC或USAC核心编码器)通常应用的线方式编码所限定的第一或高分辨率低得多。
关于比例因子或能量计算,情况在图3b中示出。由于编码器是核心编码器的事实并且由于可以但不一定必须存在每个频带中的第一组频谱部分的分量的事实,核心编码器不仅在低于IGF起始频率309的核心范围内,而且还在IGF起始频率以上一直到最大频率fIGFstop计算针对每个频带的比例因子,所述最大频率小于或等于采样频率的一半,即,fs/2。因此,图3a的编码的音调部分302、304、305、306、307以及在该实施例中与比例因子SCB1至SCB7一起对应于高分辨率频谱数据。低分辨率频谱数据从IGF起始频率开始计算并且对应于能量信息值E1、E2、E3、E4,其与比例因子SF4到SF7一起被发送。
特别地,当核心编码器处于低比特率条件下时,可以另外应用核心频带(即频率比IGF起始频率低,即,在比例因子频带SCB1至SCB3中)中的附加的噪声填充操作。在噪声填充中,存在已被量化为零的若干相邻频谱线。在解码器侧,这些量化为零的频谱值被重新合成,并且使用诸如图3b中的308处所示的NF2的噪声填充能量来在它们的幅度方面调整重新合成的频谱值。可以以绝对项或以特别地关于如在USAC中的比例因子的相对项给出的噪声填充能量对应于量化为零的该组频谱值的能量。这些噪声填充谱线还可以被认为是第三组第三频谱部分,其通过直接噪声填充合成来再生,而没有依赖于使用来自其它频率的频率拼块的频率再生的任何IGF操作,所述IGF操作用于使用来自源范围的频谱值和能量信息E1、E2、E3、E4来重建频谱拼块。
优选地,计算能量信息所针对的频带与比例因子频带一致。在其它实施例中,应用能量信息值分组,使得例如对于比例因子频带4和5,仅发送单个能量信息值,但即使在该实施例中,分组的重建频带的边界与比例因子频带的边界一致。如果应用不同的频带间隔,则可以应用某些重新计算或同步计算,并且这取决于特定实现而可以是有意义的。
优选地,图1a的频谱域编码器106是如图4a所示的心理声学驱动的编码器。通常,如例如在MPEG2/4AAC标准或MPEG1/2、层3标准中所示,在被变换成频谱范围之后要被编码的音频信号(图4a中的401)被转发到比例因子计算器400。比例因子计算器由心理声学模型控制,该心理声学模型另外接收要量化的音频信号或如在MPEG1/2层3或MPEG AAC标准中那样接收音频信号的复数频谱表示。心理声学模型针对每个比例因子频带计算表示心理声学阈值的比例因子。此外,比例因子然后通过公知的内部和外部迭代循环的协作或者通过任何其他适当的编码过程来调整,使得满足某些比特率条件。然后,一方面要量化的频谱值和另一方面计算出的比例因子被输入到量化器处理器404中。在直接音频编码器操作中,要量化的频谱值由比例因子加权,然后加权的频谱值被输入到通常具有到上部振幅范围的压缩功能的固定量化器中。然后,在量化器处理器的输出处存在量化索引,然后将其转发到熵编码器中,该熵编码器通常对于相邻频率值的一组零量化索引(或者如本领域中也称为,零值的“延伸”)具有特定和非常高效的编码。
然而,在图1a的音频编码器中,量化器处理器通常从频谱分析器接收关于第二频谱部分的信息。因此,量化器处理器404确保在量化器处理器404的输出中,如由频谱分析器102识别的第二频谱部分为零或具有由编码器或解码器确认为零表示的表示,其可以是被非常高效地编码,特别是当在频谱中存在零值的“延伸”时。
图4b示出了量化器处理器的实现。MDCT频谱值可以被输入到设置为零块410中。然后,在执行块412中的由比例因子进行的加权之前,第二频谱部分已经被设置为零。在附加的实现中,不提供块410,而是在加权块412之后在块418中执行设置为零协作。在甚至进一步的实现中,也可以在量化器块420中的量化之后,在设置为零块422中执行设置为零操作。在该实现中,块410和418将不存在。通常,根据具体实现提供块410、418、422中的至少一个。
然后,在块422的输出处,获得对应于图3a中所示的内容的量化频谱。然后将该量化的频谱输入到诸如图2b中的232之类的熵编码器中,其可以是例如在USAC标准中限定的霍夫曼编码器或算术编码器。
彼此交替地或并行地提供的设置为零块410、418、422由频谱分析器424控制。频谱分析器优选地包括公知的音调检测器的任何实现,或者包括任何不同种类的检测器,其可操作用于将频谱分离成要以高分辨率编码的分量和要以低分辨率编码的分量。在频谱分析器中实现的其它这样的算法可以是语音活动检测器、噪声检测器、语音检测器或任何其它检测器,这根据关于不同频谱部分的分辨率要求的频谱信息或相关联的元数据来决定。
图5a示出了如例如在AAC或USAC中实现的图1a的时间频谱转换器100的优选实现。时间频谱转换器100包括由瞬态检测器504控制的加窗器502。当瞬态检测器504检测到瞬态时,则从长窗口到短窗口的切换被用信号通知到加窗器。加窗器502然后为重叠块计算窗口化帧,其中每个窗口化帧通常具有二N个值,例如2048个值。然后,执行块变换器506内的变换,并且该块变换器通常另外提供抽取,使得执行组合抽取/变换以获得具有N个值(例如MDCT频谱值)的频谱帧。因此,对于长窗口操作,在块506的输入处的帧包括二N个值,例如2048个值,而频谱帧则具有1024个值。然后,然而,当执行八个短块时,对短块执行切换,其中每个短块与长窗口相比具有1/8窗口化时域值,并且每个频谱块与长块相比具有1/8频谱值。因此,当该抽取与加窗器的50%重叠操作组合时,频谱是时域音频信号99的临界采样版本。
随后,参考图5b,其示出了图1b的频率再生器116和频谱-时间转换器118的具体实现,或者图2a的块208、212的组合操作的具体实现。在图5b中,考虑特定重建频带,例如图3a的缩放因子频带6。该重建频带中的第一频谱部分,即图3a的第一频谱部分306被输入到帧建造器/调整器块510中。此外,针对比例因子频带6的重建的第二频谱部分也被输入到帧建造器/调整器510中。此外,能量信息(诸如用于比例因子频带6的图3b的E3)也被输入到块510中。重建频带中的重建的第二频谱部分已经使用源范围通过频率拼块填充来产生,并且重建频带然后对应于目标范围。现在,执行帧的能量调整,以便然后最终获得如例如在图2a的组合器208的输出处获得的具有N个值的完整重建的帧。然后,在块512中,执行逆块变换/内插以获得针对在块512的输入处的例如124个频谱值的248个时域值。然后,在块514中执行合成窗口化操作,其再次由作为编码的音频信号中的辅助信息发送的长窗口/短窗口指示来控制。然后,在块516中,执行与先前时间帧的重叠/相加操作。优选地,MDCT应用50%的重叠,使得对于2N个值的每个新时间帧,最终输出N个时域值。50%的重叠由于以下的事实而是非常优选的:它由于在块516中的重叠/相加操作而提供关键采样和从一个帧到下一个帧的连续交叉。
如图3a中的301处所示,例如对于与图3a的比例因子频带6一致的预期重建频带,可以不仅在IGF起始频率以下而且在IGF起始频率之上另外应用噪声填充操作。然后,噪声填充频谱值还可以被输入到帧建造器/调整器510中,并且也可以在该块内应用噪声填充频谱值的调整,或者噪声填充频谱值可以在被输入到帧建造器/调整器510中之前使用噪声填充能量来调整。
优选地,可以在完整的频谱中应用IGF操作,即,使用来自其他部分的频谱值的频率拼块填充操作。因此,频谱拼块填充操作不仅可以应用于IGF起始频率之上的高频带,而且可以应用于低频带。此外,没有频率拼块填充的噪声填充不仅可以应用于IGF起始频率以下,而且可以应用于IGF起始频率之上。然而,已经发现,当噪声填充操作受限于低于IGF起始频率的频率范围并且当频率拼块填充操作被限制到高于IGF起始频率的频率范围时,可以获得高质量和高效率的音频编码,如图3a所示。
优选地,目标拼块(TT)(具有大于IGF起始频率的频率)被束缚到全速率编码器的比例因子频带边界。从其获取信息的源拼块(ST)(即,对于低于IGF起始频率的频率)不被比例因子频带边界束缚。ST的尺寸应该对应于相关联的TT的尺寸。这使用以下示例来说明。TT[0]具有10个MDCT仓的长度。这正好对应于两个后续SCB(例如4+6)的长度。然后,与TT[0]相关的所有可能的ST也具有10个仓的长度。与TT[0]相邻的第二目标拼块TT[1]具有15个仓l的长度(SCB具有7+8的长度)。然后,针对其的ST具有15个仓的长度而不是针对TT[0]的10个仓。
如果发生不能找到具有目标拼块的长度的ST的TT(当例如TT的长度大于可用源范围时)的情况,则不计算相关性,并且将源范围多次复制到该TT(一个接一个地完成复制,使得第二副本的最低频率的频率线紧随(在频率方面)用于第一副本的最高频率的频率线),直到目标拼块TT完全填满。
随后,参考图5c,其示出了图1b的频率再生器116或图2a的IGF块202的另一优选实施例。块522是频率拼块产生器,其不仅接收目标频带ID,而且另外接收源频带ID。示例性地,已经在编码器侧确定了图3a的比例因子频带非常好地适合于重建比例因子频带7。因此,源频带ID将为2,而目标频带ID将为7。基于此信息,频率拼块产生器522应用向上复制或谐波拼块填充操作或任何其它拼块填充操作以产生频谱分量523的原始第二部分。频谱分量的原始第二部分具有与包括在第一组第一频谱部分中的频率分辨率相同的频率分辨率。
然后,重建频带的第一频谱部分(例如图3a的307)被输入到帧建造器524中,并且原始的第二部分523也被输入到帧建造器524中。然后,调整器526使用由增益因子计算器528计算的重建频带的增益因子来调整重建的帧。然而,重要的是,帧中的第一频谱部分不受调整器526影响,但是仅重建帧的原始第二部分受调整器526影响。为此,增益因子计算器528分析源频带或原始第二部分523,并且另外分析重建频带中的第一频谱部分,以最终找到正确的增益因子527,使得由调整器526调整后的帧输出的能量当设想比例因子频带7时具有能量E4。
在该上下文中,与HE-AAC相比,评价本发明的高频重建精度是非常重要的。这是关于图3a中的比例因子频带7来解释的。假设例如图13a所示的现有技术的编码器将检测要以高分辨率编码为“丢失谐波”的频谱部分307。然后,该频谱分量的能量将与用于重建频带的频谱包络信息(例如比例因子频带7)一起发送到解码器。然后,解码器将重新创建丢失谐波。然而,将由图13b的现有技术的解码器在其处重建丢失谐波307的频谱值将在由重建频率390指示的频率处在频带7的中间。因此,本发明避免了将由图13d的现有技术的解码器引入的频率误差391。
在一个实现中,频谱分析器还被实现为计算第一频谱部分和第二频谱部分之间的相似性,并且基于所计算的相似性为重建范围中的第二频谱部分确定与第二频谱部分尽可能匹配的第一频谱部分。然后,在该可变源范围/目的范围实现中,参数编码器将另外将匹配信息引入到第二编码表示中,该匹配信息为每个目的范围指示匹配的源范围。在解码器侧,该信息然后将由图5c的频率拼块产生器522使用,图5c示出了基于源频带ID和目标频带ID的原始第二部分523的生成。
此外,如图3a所示,频谱分析器被配置为分析一直到最大分析频率的频谱表示,该最大分析频率仅仅是低于采样频率的一半的小量,并且优选地是采样频率的至少四分之一或通常更高。
如所示,编码器在没有下采样的情况下操作,并且解码器在没有上采样的情况下操作。换句话说,频谱域音频编码器被配置为产生具有由最初输入音频信号的采样率限定的奈奎斯特频率的频谱表示。
此外,如图3a所示,频谱分析器被配置为分析以间隙填充起始频率开始并以由包括在频谱表示中的最大频率表示的最大频率结束的频谱表示,其中从最小频率延伸一直到间隙填充起始频率的频谱部分属于第一组频谱部分,并且其中具有高于间隙填充频率的频率值的另一频谱部分(诸如304、305、306、307)另外被包括在第一组第一频谱部分中。
如概述的,频谱域音频解码器112被配置为使得由第一解码表示中的频谱值表示的最大频率等于包括在具有采样率的时间表示中的最大频率,其中针对最大频率的频谱值在第一组第一频谱部分中是零或不同于零。无论如何,对于第一组频谱分量中的该最大频率,存在针对比例因子频带的比例因子,其被产生并发送,而无论该比例因子频带中的所有频谱值是否被设置为零,如图3a和3b的上下文中所讨论的。
因此,本发明对于增加压缩效率的其它参数技术(例如噪声替代和噪声填充(这些技术专用于像局部信号内容的噪声的高效表示))是有利的,本发明允许音调分量的精确频率再现。到目前为止,没有现有技术的技术通过在没有在低频带(LF)和高频带(HF)中的固定的先验分割的限制的情况下的频谱间隙填充来解决任意信号内容的高效参数表示。
本发明系统的实施例改进了现有技术的方法,从而提供高压缩效率,即使对于低比特率也没有或仅有小的感知烦扰和完全的音频带宽。
一般系统包括:
·全频带核心编码
·智能间隙填充(拼块填充或噪声填充)
·通过音调掩码选择的核心中的稀疏音调部分
·全频带联合立体声对编码,包括拼块填充
·拼块上的TNS
·IGF范围内的频谱白化
朝着更高效的系统的第一步骤是去除将频谱数据变换为与核心编码器之一不同的第二变换域的需要。由于大多数音频编解码器(诸如,例如AAC)使用MDCT作为基本变换,所以在MDCT域中执行BWE也是有用的。BWE系统的第二个要求将是需要保存音调网格,由此甚至HF音调分量被保存,并且经编码的音频的质量因此优于现有系统。为了照顾BWE方案的上述两个要求,提出了称为智能间隙填充(IGF)的新系统。图2b示出了在编码器侧的所提出的系统的框图,并且图2a示出了在解码器侧的系统。
随后,讨论和限定了可以分开实现或一起实现的全频带频域第一编码处理器和并入间隙填充操作的全频带频域解码处理器的另外可选特征。
特别地,对应于块1122a的频谱域解码器112被配置为输出频谱值的解码的帧序列,解码的帧是第一解码表示,其中该帧包括用于第一组频谱部分的频谱值和用于第二频谱部分的零指示。用于解码的装置还包括组合器208。频谱值由用于第二组第二频谱部分的频率再生器产生,其中组合器和频率再生器二者都被包括在块1122b内。因此,通过组合第二频谱部分和第一频谱部分,获得包括第一组第一频谱部分和第二组频谱部分的频谱值的重建的频谱帧,并且对应于图14b中的IMDCT块1124的频谱-时间转换器118然后将重建的频谱帧转换成时间表示。
如所概述的,频谱-时间转换器118或1124被配置为执行逆修改的离散余弦变换512、514,并且还包括重叠-相加级516,用于重叠和相加后续时域帧。
特别地,频谱域音频解码器1122a被配置为产生第一解码表示,使得第一解码表示具有限定等于由频谱-时间转换器1124产生的时间表示的采样率的采样率的奈奎斯特频率。
此外,解码器1112或1122a被配置为产生第一解码表示,使得关于两个第二频谱部分307a、307b之间的频率来放置第一频谱部分306。
在另一实施例中,由第一解码表示中的最大频率的频谱值表示的最大频率等于包括在由频谱-时间转换器产生的时间表示中的最大频率,其中最大频率的频谱值在第一表示中是零或不同于零。
此外,如在图3中所示,编码的第一音频信号部分还包括要通过噪声填充重建的第三组第三频谱部分的编码表示,并且第一解码处理器1120另外包括在块1122b中包括的噪声填充器,用于从第三组第三频谱部分的编码表示提取噪声填充信息308以及用于在不使用不同频率范围中的第一频谱部分的情况下在第三组第三频谱部分中应用噪声填充操作。
此外,频谱域音频解码器112被配置为产生具有第一频谱部分的第一解码表示,所述第一频谱部分的频率值大于以下频率:该频率等于由频谱-时间转换器118或1124输出的时间表示所覆盖的频率范围的中间的频率。
此外,频谱分析器或全频带分析器604被配置为分析由时间-频率转换器602产生的表示,用于确定要用第一高频谱分辨率编码的第一组第一频谱部分和要用低于第一频谱分辨率的第二频谱分辨率编码的不同的第二组第二频谱部分,并且通过频谱分析器,关于频率确定在图3中的307a和307b处的两个第二频谱部分之间的第一频谱部分306。
特别地,频谱分析器被配置用于分析一直到最大分析频率的频谱表示,该最大分析频率是音频信号的采样频率的至少四分之一。
特别地,频谱域音频编码器被配置为处理用于量化和熵编码的频谱值的帧序列,其中,在帧中,第二组第二部分的频谱值被设置为零,或其中,在帧中,存在第一组第一频谱部分和第二组第二频谱部分的频谱值,并且其中,在后续处理期间,将第二组频谱部分中的频谱值设置为零,如在410、418、422处示例性所示。
频谱域音频编码器被配置为产生具有由音频输入信号或由在频域中操作的第一编码处理器处理的音频信号的第一部分的采样率限定的奈奎斯特频率的频谱表示。
频谱域音频编码器606还被配置为提供第一编码表示,使得对于采样后的音频信号的帧,编码表示包括第一组第一频谱部分和第二组第二频谱部分,其中第二组频谱部分中的频谱值被编码为零或噪声值。
全频带分析器604或102被配置为分析以间隙填充起始频率209开始并且以由包括在频谱表示中的最大频率表示的最大频率fmax结束的频谱表示,并且从最小频率延伸一直到间隙填充起始频率309的频谱部分属于第一组第一频谱部分。
特别地,分析器被配置为对至少一部分频谱表示应用音调掩码处理,使得音调分量和非音调分量彼此分离,其中第一组第一频谱部分包括音调分量,并且其中第二组第二频谱部分包括非音调分量。
尽管已在框图的背景(其中,所述块表示真实的或逻辑的硬件组件)下描述了本发明,但本发明也可以实现为计算机实施方法。在后者的情况下,块表示相应方法步骤,其中这些步骤代表由对应逻辑或实体硬件块执行的功能性。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对相应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
本发明的经传输或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质的传输介质或诸如因特网的有线传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案,所述控制信号与可编程计算机系统合作(或能够与之合作),使得执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质),包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传输。
另一实施例包括处理装置,例如,配置为或适用于执行本文所述的方法之一的计算机或可编程逻辑器件。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传输计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
Claims (22)
1.一种用于对音频信号进行编码的音频编码器,包括:
第一编码处理器(600),用于在频域中对第一音频信号部分进行编码,其中第一编码处理器(600)包括:
时间频率转换器(602),用于将第一音频信号部分转换为具有一直到第一音频信号部分的最大频率的频谱线的频域表示;
分析器(604),用于分析一直到所述最大频率的频域表示,以确定要用第一频谱分辨率编码的多个第一频谱部分和要用第二频谱分辨率编码的多个第二频谱部分,第二频谱分辨率低于第一频谱分辨率,其中所述分析器(604)被配置为确定所述多个第一频谱部分中的一第一频谱部分(306),该第一频谱部分相对于频率被设置在所述多个第二频谱部分中的两个第二频谱部分(307a、307b)之间;
频谱编码器(606),用于用所述第一频谱分辨率对所述多个第一频谱部分进行编码并且用所述第二频谱分辨率对所述多个第二频谱部分进行编码,其中所述频谱编码器包括参数编码器,用于根据所述多个第二频谱部分计算具有第二频谱分辨率的频谱包络信息;
第二编码处理器(610),用于在时域中对不同的第二音频信号部分进行编码;
控制器(620),被配置用于分析音频信号,并且用于确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分;以及
编码信号形成器(630),用于形成编码的音频信号,所述编码的音频信号包括用于第一音频信号部分的第一编码信号部分和用于第二音频信号部分的第二编码信号部分。
2.根据权利要求1所述的音频编码器,其中,输入信号具有高频带和低频带,
其中,第二编码处理器(610)包括:采样率转换器(900),用于将第二音频信号部分转换为较低采样率表示,较低采样率低于音频信号的采样率,其中较低采样率表示不包括输入信号的高频带;
时域低频带编码器(910),用于对较低采样率表示进行时域编码;以及
时域带宽扩展编码器(920),用于以参数方式对高频带进行编码。
3.根据权利要求1或2所述的音频编码器,还包括:
预处理器(1000),被配置用于预处理第一音频信号部分和第二音频信号部分,
其中,所述预处理器包括:
预测分析器(1002),用于确定预测系数;以及
其中,所述第二编码处理器包括:
预测系数量化器(1010),用于产生所述预测系数的量化版本;以及
熵编码器,用于产生量化的预测系数的经编码的版本,
其中编码信号形成器(630)被配置用于将所述经编码的版本引入到编码的音频信号中。
4.根据权利要求1、2或3所述的音频编码器,
其中预处理器(1000)包括用于将音频信号重新采样到第二编码处理器的采样率的重新采样器(1004);以及
其中预测分析器被配置为使用重新采样的音频信号来确定预测系数,或者
其中预处理器(1000)还包括用于确定针对第一音频信号部分的一个或多个长期预测参数的长期预测分析级(1006)。
5.根据前述权利要求之一所述的音频编码器,还包括交叉处理器(700),用于根据第一音频信号部分的经编码的频谱表示来计算第二编码处理器(610)的初始化数据,使得第二编码处理(610)被初始化以对音频信号中在时间上紧随第一音频信号部分的第二音频信号部分进行编码。
6.根据权利要求5所述的音频编码器,其中,所述交叉处理器(700)包括:
频谱解码器(701),用于计算第一编码信号部分的经解码版本;
延迟级(707),用于将经解码版本的延迟版本馈送到第二编码处理器的去加重级(617)中以进行初始化;
加权预测系数分析滤波块(708),用于将滤波器输出馈送到第二编码处理器(610)的码本确定器(613)中以进行初始化;
分析滤波级(706),用于对经解码版本或预加重(709)版本进行滤波,并且用于将滤波残留馈送到第二编码处理器的自适应码本确定器(612)中以进行初始化;或者
预加重滤波器(709),用于对经解码版本进行滤波,并且用于将延迟或预加重版本馈送到第二编码处理器(610)的合成滤波级(616)以进行初始化。
7.根据前述权利要求之一所述的音频编码器,
其中,所述分析器(604)被配置为执行时间拼块整形或时间噪声整形分析或将第二频谱部分中的频谱值设置为零的操作,
其中第一编码处理器(600)被配置为使用从第一音频信号部分导出的预测系数(1010)执行第一频谱部分的频谱值的整形(606a),并且其中第一编码处理器(600)还被配置为执行第一频谱部分的整形后的频谱值的量化和熵编码操作(606b),以及
其中,所述第二频谱部分的频谱值被设置为零。
8.根据权利要求7所述的音频编码器,还包括交叉处理器(700),其中,所述交叉处理器(700)包括:
噪声整形器(703),用于使用从第一音频信号部分导出的LPC系数(1010)对第一频谱部分的量化频谱值进行整形;
频谱解码器(704、705),用于以高频谱分辨率对第一频谱部分的频谱整形的频谱部分进行解码,并且用于使用所述第二频谱部分的参数表示和至少经解码的第一频谱部分来合成第二频谱部分,以获得解码的频谱表示;
频率-时间转换器(702),用于将频谱表示转换到时域中以获得解码的第一音频信号部分,其中与解码的第一音频信号部分相关联的采样率不同于音频信号的采样率,以及与频率-时间转换器(702)的输出信号相关联的采样率不同于输入到频率-时间转换器(602)中的音频信号的采样率。
9.根据前述权利要求之一所述的音频编码器,其中第二编码处理器包括以下块组中的至少一个块:
测分析滤波器(611);
自适应码本级(612);
创新码本级(614);
估计器(613),用于估计创新码本条目;
ACELP/增益编码级(615);
预测合成滤波级(616);
去加重级(617);和
低音后滤波分析级(618)。
10.根据前述权利要求之一所述的音频编码器,
其中时域编码处理器具有相关联的第二采样率,
其中频域编码处理器具有与其相关联的高于第二采样率的第一采样率,其中所述音频编码器还包括交叉处理器(700),用于从所述第一音频信号部分的经编码的频谱表示计算所述第二编码处理器的初始化数据,
其中交叉处理器包括用于以第二采样率产生时域信号的频率-时间转换器(702),
其中频率时间转换器(702)包括:
选择器(726),用于根据第一采样率和第二采样率之比选择输入到频率时间转换器中的频谱的低部分,所述第一采样率和第二采样率之比小于1,
变换处理器(720),具有比时间-频率转换器(602)的变换长度小的变换长度;以及
合成加窗器(712),用于使用与由时间频率转换器(602)使用的窗口相比具有较小数量的窗口系数的窗口进行窗口化。
11.一种音频解码器,用于对编码的音频信号进行解码,包括:
第一解码处理器(1120),用于在频域中对第一编码音频信号部分进行解码,第一解码处理器(1120)包括:
频谱解码器(1122),用于用高频谱分辨率对多个第一频谱部分进行解码,并且使用多个第二频谱部分的参数表示和至少经解码的第一频谱部分来合成所述多个第二频谱部分,以获得经解码的频谱表示,其中所述频谱解码器(1122)被配置为产生第一解码表示,使得相对于频率将一第一频谱部分(306)设置在两个第二频谱部分(307a、307b)之间;以及
频率-时间转换器(1120),用于将经解码的频谱表示转换到时域中以获得经解码的第一音频信号部分;
第二解码处理器(1140),用于在时域中对第二编码音频信号部分进行解码以获得解码的第二音频信号部分;以及
组合器(1160),用于组合解码的第一频谱部分和解码的第二频谱部分以获得解码的音频信号。
12.根据权利要求11所述的音频解码器,其中,第二解码处理器包括:
时域低频带解码器(1200),用于解码低频带时域信号;
上采样器(1210),用于对低频带时域信号进行上采样;
时域带宽扩展解码器(1220),用于合成时域输出信号的高频带;以及
混频器(1230),用于混合合成的时域信号的高频带和上采样的低频带时域信号。
13.根据权利要求12所述的音频编码器,
其中所述上采样器(1210)包括以第一时域低频带解码器采样率操作的分析滤波器组(1471)和以高于所述第一时域低频带采样率的第二输出采样率操作的合成滤波器组(1473)。
14.根据权利要求12或13所述的音频解码器,
其中,所述时域低频带解码器(1200)包括残留信号、解码器(1149、1141、1142)和合成滤波器(1143),所述合成滤波器(1143)用于使用合成滤波器系数(1145)对残留信号进行滤波,
其中,所述时域带宽扩展解码器(1220)被配置为对所述残留信号(1221)进行上采样,并且使用非线性操作来处理(1222)上采样的残留信号以获得高频带残留信号,并且对所述高频带残留信号进行频谱整形(1223)以获得合成的高频带。
15.根据权利要求11至14之一所述的音频解码器,
其中第一解码处理器(1120)包括用于对第一解码的第一信号部分进行后滤波的自适应长期预测后滤波器(1420),其中滤波器(1420)由包括在编码的音频信号中的一个或多个长期预测参数控制。
16.根据权利要求11至15之一所述的音频解码器,还包括:
交叉处理器(1170),用于从第一编码音频信号部分的经解码的频谱表示中计算第二解码处理器(1140)的初始化数据,使得第二解码处理器(1140)被初始化以对经编码的音频信号中在时间上跟随第一音频信号部分的经编码的第二音频信号部分进行解码。
17.根据权利要求16所述的音频解码器,其中,交叉处理器还包括:
频率-时间转换器(1170),与所述第一解码处理器(1120)的频率-时间转换器(1124)相比以更低的采样率进行操作,以获得时域中进一步解码的第一信号部分,
其中由频率-时间转换器(1171)输出的信号具有比与第二解码处理器的频率-时间转换器(1124)的输出相关联的第一采样率低的第二采样率,
其中附加的频率-时间转换器(1171)包括:选择器(726),用于根据第一采样率和第二采样率之比选择输入到所述附加的频率-时间转换器(1171)中的频谱的低部分,所述第一采样率和第二采样率之比小于1;
变换处理器(720),具有比时间-频率转换器(1124)的变换长度(710)小的变换长度;以及
合成加窗器(722),使用与频率-时间转换器(1124)使用的窗口相比具有较小数量的系数的窗口。
18.根据权利要求16和17之一所述的音频解码器,其中交叉处理器(1170)包括:
延迟级(1172),用于延迟进一步解码的第一信号部分,并且用于将解码的第一信号部分的延迟版本馈送到第二解码处理器的去加重级(1144)中以进行初始化;
预加重滤波器(1173)和延迟级(1175),用于对进一步解码的第一信号部分进行滤波和延迟,并且用于将延迟级输出馈送到第二解码处理器的预测合成滤波器(1143)中以进行初始化;
预测分析滤波器(1174),用于从进一步解码的第一频谱部分或预加重(1173)的进一步解码的第一信号部分中产生预测残留信号,并且用于将预测残留信号馈送到第二解码处理器(1200)的码本合成器(1141)中;或者
开关(1480),用于将进一步解码的第一信号部分馈送到第二解码处理器的重新采样器(1210)的分析级(1471)中以进行初始化。
19.根据权利要求11至18之一所述的音频解码器,
其中第二解码处理器(1200)包括块组中的至少一个块,所述块组包括:
用于对增益和创新码本进行解码的ACELP;
自适应码本合成级(1141);
ACELP后处理器(1142);
预测合成滤波器(1143);以及
去加重级(1144)。
20.一种对音频信号进行编码的方法,包括:
在频域中对第一音频信号部分进行第一编码(600),其中第一编码(600)包括:
将第一音频信号部分转换(602)为具有一直到第一音频信号部分的最大频率的频谱线的频域表示;
分析(604)一直到所述最大频率的频域表示,以确定要用第一频谱分辨率编码的多个第一频谱部分和要用第二频谱分辨率编码的多个第二频谱部分,第二频谱分辨率低于第一频谱分辨率,其中所述分析(604)确定所述多个第一频谱部分中的一第一频谱部分(306),该第一频谱部分相对于频率被设置在所述多个第二频谱部分中的两个第二频谱部分(307a、307b)之间;
用所述第一频谱分辨率对所述多个第一频谱部分进行编码(606),以及用所述第二频谱分辨率对所述多个第二频谱部分进行编码,其中对第二频谱部分进行编码包括根据所述多个第二频谱部分来计算具有所述第二频谱分辨率的频谱包络信息;
在时域中对不同的第二音频信号部分进行第二编码(610);
分析(620)音频信号,并且确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分;以及
形成(630)编码的音频信号,所述编码的音频信号包括用于第一音频信号部分的第一编码信号部分和用于第二音频信号部分的第二编码信号部分。
21.一种对编码的音频信号进行解码的方法,包括:
在频域中对第一编码音频信号部分进行第一解码(1120),所述第一解码(1120)包括:
用高频谱分辨率对多个第一频谱部分进行解码(1122),并且使用多个第二频谱部分的参数表示和至少经解码的第一频谱部分合成所述多个第二频谱部分,以获得经解码的频谱表示,其中解码(1122)包括产生第一解码表示,使得相对于频率将一第一频谱部分(306)设置在两个第二频谱部分(307a、307b)之间;以及
将解码的频谱表示转换(1120)到时域中以获得经解码的第一音频信号部分;
在时域中对第二编码音频信号部分进行第二解码(1140)以获得解码的第二音频信号部分;以及
组合(1160)解码的第一频谱部分和解码的第二频谱部分以获得解码的音频信号。
22.一种计算机程序,当运行在计算机或处理器上时,所述计算机程序用于执行根据权利要求20或权利要求21所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111184561.8A CN113963705A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184409.XA CN113963704A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184553.3A CN113936675A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184555.2A CN113948100A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184563.7A CN113963706A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178817.4 | 2014-07-28 | ||
EP14178817.4A EP2980794A1 (en) | 2014-07-28 | 2014-07-28 | Audio encoder and decoder using a frequency domain processor and a time domain processor |
PCT/EP2015/067003 WO2016016123A1 (en) | 2014-07-28 | 2015-07-24 | Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor |
Related Child Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111184555.2A Division CN113948100A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184409.XA Division CN113963704A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184553.3A Division CN113936675A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184561.8A Division CN113963705A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184563.7A Division CN113963706A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107077858A true CN107077858A (zh) | 2017-08-18 |
CN107077858B CN107077858B (zh) | 2021-10-26 |
Family
ID=51224876
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111184563.7A Pending CN113963706A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184553.3A Pending CN113936675A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184555.2A Pending CN113948100A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184409.XA Pending CN113963704A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184561.8A Pending CN113963705A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN201580049740.7A Active CN107077858B (zh) | 2014-07-28 | 2015-07-24 | 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器 |
Family Applications Before (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111184563.7A Pending CN113963706A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184553.3A Pending CN113936675A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184555.2A Pending CN113948100A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184409.XA Pending CN113963704A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
CN202111184561.8A Pending CN113963705A (zh) | 2014-07-28 | 2015-07-24 | 频域处理器以及时域处理器的音频编码器和解码器 |
Country Status (19)
Country | Link |
---|---|
US (5) | US10332535B2 (zh) |
EP (4) | EP2980794A1 (zh) |
JP (4) | JP6549217B2 (zh) |
KR (1) | KR102009210B1 (zh) |
CN (6) | CN113963706A (zh) |
AR (1) | AR101344A1 (zh) |
AU (1) | AU2015295605B2 (zh) |
BR (5) | BR122022012517B1 (zh) |
CA (1) | CA2955095C (zh) |
ES (2) | ES2733207T3 (zh) |
MX (1) | MX362424B (zh) |
MY (1) | MY187280A (zh) |
PL (2) | PL3186809T3 (zh) |
PT (1) | PT3186809T (zh) |
RU (1) | RU2671997C2 (zh) |
SG (1) | SG11201700685XA (zh) |
TR (1) | TR201908602T4 (zh) |
TW (1) | TWI570710B (zh) |
WO (1) | WO2016016123A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215670A (zh) * | 2018-09-21 | 2019-01-15 | 西安蜂语信息科技有限公司 | 音频数据的传输方法、装置、计算机设备和存储介质 |
CN109313908A (zh) * | 2016-04-12 | 2019-02-05 | 弗劳恩霍夫应用研究促进协会 | 用于对音频信号进行编码的音频编码器、用于对音频信号进行编码的方法以及考虑上频带中的检测到的尖峰频谱区域的计算机程序 |
CN110794273A (zh) * | 2019-11-19 | 2020-02-14 | 哈尔滨理工大学 | 含有高压驱动保护电极的电位时域谱测试系统 |
CN110914902A (zh) * | 2017-03-31 | 2020-03-24 | 弗劳恩霍夫应用研究促进协会 | 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法 |
CN111386568A (zh) * | 2017-10-27 | 2020-07-07 | 弗劳恩霍夫应用研究促进协会 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序 |
CN112863527A (zh) * | 2017-03-23 | 2021-05-28 | 杜比国际公司 | 用于音频信号的高频重建的谐波转置器的后向兼容集成 |
CN113272898A (zh) * | 2018-12-21 | 2021-08-17 | 弗劳恩霍夫应用研究促进协会 | 使用脉冲处理产生频率增强音频信号的音频处理器和方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
US10770082B2 (en) | 2016-06-22 | 2020-09-08 | Dolby International Ab | Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain |
US10249307B2 (en) | 2016-06-27 | 2019-04-02 | Qualcomm Incorporated | Audio decoding using intermediate sampling rate |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
EP3659140B1 (en) * | 2017-07-28 | 2023-09-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter |
KR102606259B1 (ko) * | 2018-07-04 | 2023-11-29 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들 |
US10911013B2 (en) | 2018-07-05 | 2021-02-02 | Comcast Cable Communications, Llc | Dynamic audio normalization process |
TWI703559B (zh) * | 2019-07-08 | 2020-09-01 | 瑞昱半導體股份有限公司 | 音效編碼解碼電路及音頻資料的處理方法 |
CN113192521B (zh) * | 2020-01-13 | 2024-07-05 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
KR20220046324A (ko) | 2020-10-07 | 2022-04-14 | 삼성전자주식회사 | 인공 신경망을 이용한 추론을 위한 트레이닝 방법, 인공 신경망을 이용한 추론 방법, 및 추론 장치 |
TWI752682B (zh) * | 2020-10-21 | 2022-01-11 | 國立陽明交通大學 | 雲端更新語音辨識系統的方法 |
CN113035205B (zh) * | 2020-12-28 | 2022-06-07 | 阿里巴巴(中国)有限公司 | 音频丢包补偿处理方法、装置及电子设备 |
EP4120253A1 (en) * | 2021-07-14 | 2023-01-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Integral band-wise parametric coder |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100485337C (zh) * | 2004-05-17 | 2009-05-06 | 诺基亚公司 | 用于对音频信号进行编码的编码模型的选择 |
US20120209600A1 (en) * | 2009-10-14 | 2012-08-16 | Kwangwoon University Industry-Academic Collaboration Foundation | Integrated voice/audio encoding/decoding device and method whereby the overlap region of a window is adjusted based on the transition interval |
US20130006645A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and system for audio encoding and decoding and method for estimating noise level |
CN103493131A (zh) * | 2010-12-29 | 2014-01-01 | 三星电子株式会社 | 用于针对高频带宽扩展进行编码/解码的设备和方法 |
Family Cites Families (129)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3465697B2 (ja) | 1993-05-31 | 2003-11-10 | ソニー株式会社 | 信号記録媒体 |
CN1038089C (zh) * | 1993-05-31 | 1998-04-15 | 索尼公司 | 信号编码或译码装置及信号编码或译码方法 |
CA2185745C (en) | 1995-09-19 | 2001-02-13 | Juin-Hwey Chen | Synthesis of speech signals in the absence of coded parameters |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3364825B2 (ja) | 1996-05-29 | 2003-01-08 | 三菱電機株式会社 | 音声符号化装置および音声符号化復号化装置 |
US6134518A (en) | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6968564B1 (en) | 2000-04-06 | 2005-11-22 | Nielsen Media Research, Inc. | Multi-band spectral audio encoding |
US6996198B2 (en) * | 2000-10-27 | 2006-02-07 | At&T Corp. | Nonuniform oversampled filter banks for audio signal processing |
DE10102155C2 (de) * | 2001-01-18 | 2003-01-09 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms |
FI110729B (fi) | 2001-04-11 | 2003-03-14 | Nokia Corp | Menetelmä pakatun audiosignaalin purkamiseksi |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP3876781B2 (ja) * | 2002-07-16 | 2007-02-07 | ソニー株式会社 | 受信装置および受信方法、記録媒体、並びにプログラム |
KR100547113B1 (ko) * | 2003-02-15 | 2006-01-26 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
DE10328777A1 (de) * | 2003-06-25 | 2005-01-27 | Coding Technologies Ab | Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
KR100940531B1 (ko) * | 2003-07-16 | 2010-02-10 | 삼성전자주식회사 | 광대역 음성 신호 압축 및 복원 장치와 그 방법 |
KR101165865B1 (ko) * | 2003-08-28 | 2012-07-13 | 소니 주식회사 | 복호 장치 및 방법과 프로그램 기록 매체 |
JP4679049B2 (ja) | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
KR100561869B1 (ko) * | 2004-03-10 | 2006-03-17 | 삼성전자주식회사 | 무손실 오디오 부호화/복호화 방법 및 장치 |
CN1677490A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
MXPA06012617A (es) | 2004-05-17 | 2006-12-15 | Nokia Corp | Codificacion de audio con diferentes longitudes de cuadro de codificacion. |
US7596486B2 (en) | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
KR100634506B1 (ko) * | 2004-06-25 | 2006-10-16 | 삼성전자주식회사 | 저비트율 부호화/복호화 방법 및 장치 |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
CN101076985A (zh) | 2004-12-14 | 2007-11-21 | 皇家飞利浦电子股份有限公司 | 可编程信号处理电路和解调方法 |
US8170221B2 (en) * | 2005-03-21 | 2012-05-01 | Harman Becker Automotive Systems Gmbh | Audio enhancement system and method |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
US8484036B2 (en) | 2005-04-01 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
CN102163429B (zh) | 2005-04-15 | 2013-04-10 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US8050334B2 (en) * | 2005-07-07 | 2011-11-01 | Nippon Telegraph And Telephone Corporation | Signal encoder, signal decoder, signal encoding method, signal decoding method, program, recording medium and signal codec method |
US7974713B2 (en) | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
JP4876574B2 (ja) | 2005-12-26 | 2012-02-15 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
WO2007096550A2 (fr) | 2006-02-22 | 2007-08-30 | France Telecom | Codage/decodage perfectionnes d'un signal audionumerique, en technique celp |
EP1999997B1 (en) | 2006-03-28 | 2011-04-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Enhanced method for signal shaping in multi-channel audio reconstruction |
JP2008033269A (ja) * | 2006-06-26 | 2008-02-14 | Sony Corp | デジタル信号処理装置、デジタル信号処理方法およびデジタル信号の再生装置 |
EP1990799A1 (en) | 2006-06-30 | 2008-11-12 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US7873511B2 (en) | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
BRPI0712625B1 (pt) * | 2006-06-30 | 2023-10-10 | Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V | Codificador de áudio, decodificador de áudio, e processador de áudio tendo uma caractéristica de distorção ("warping") dinamicamente variável |
EP2122615B1 (en) * | 2006-10-20 | 2011-05-11 | Dolby Sweden AB | Apparatus and method for encoding an information signal |
CN101617362B (zh) | 2007-03-02 | 2012-07-18 | 松下电器产业株式会社 | 语音解码装置和语音解码方法 |
KR101261524B1 (ko) | 2007-03-14 | 2013-05-06 | 삼성전자주식회사 | 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치 |
KR101411900B1 (ko) | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
CA2691993C (en) | 2007-06-11 | 2015-01-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
PT2571024E (pt) * | 2007-08-27 | 2014-12-23 | Ericsson Telefon Ab L M | Frequência de transição adaptativa entre preenchimento de ruído e extensão da largura de banda |
US8515767B2 (en) | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
PL2311034T3 (pl) | 2008-07-11 | 2016-04-29 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio |
WO2010003563A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding audio samples |
ES2683077T3 (es) * | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2304723B1 (en) * | 2008-07-11 | 2012-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for decoding an encoded audio signal |
AU2013200680B2 (en) | 2008-07-11 | 2015-01-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and decoder for encoding and decoding audio samples |
EP2346029B1 (en) | 2008-07-11 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and corresponding computer program |
RU2589309C2 (ru) * | 2008-07-11 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы |
KR20100007738A (ko) | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
CN102160113B (zh) * | 2008-08-11 | 2013-05-08 | 诺基亚公司 | 多声道音频编码器和解码器 |
US8787595B2 (en) | 2008-10-17 | 2014-07-22 | Sharp Kabushiki Kaisha | Audio signal adjustment device and audio signal adjustment method having long and short term gain adjustment |
WO2010053287A2 (en) * | 2008-11-04 | 2010-05-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
GB2466666B (en) * | 2009-01-06 | 2013-01-23 | Skype | Speech coding |
CA2748003C (en) * | 2009-01-16 | 2016-05-24 | Dolby International Ab | Cross product enhanced harmonic transposition |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
TWI458258B (zh) * | 2009-02-18 | 2014-10-21 | Dolby Int Ab | 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法 |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
ES2374486T3 (es) | 2009-03-26 | 2012-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dispositivo y método para manipular una señal de audio. |
RU2452044C1 (ru) | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
PL2273493T3 (pl) * | 2009-06-29 | 2013-07-31 | Fraunhofer Ges Forschung | Kodowanie i dekodowanie z rozszerzaniem szerokości pasma |
WO2011013981A2 (en) * | 2009-07-27 | 2011-02-03 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
GB2473267A (en) * | 2009-09-07 | 2011-03-09 | Nokia Corp | Processing audio signals to reduce noise |
GB2473266A (en) * | 2009-09-07 | 2011-03-09 | Nokia Corp | An improved filter bank |
JP5678071B2 (ja) * | 2009-10-08 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム |
EP4358082A1 (en) * | 2009-10-20 | 2024-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
BR112012009490B1 (pt) * | 2009-10-20 | 2020-12-01 | Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. | ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US8423355B2 (en) * | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
KR101425154B1 (ko) * | 2010-03-09 | 2014-08-13 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 패치 경계 정렬을 이용한 오디오 신호 처리 장치 및 방법 |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
EP4404561A2 (en) * | 2010-04-13 | 2024-07-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoding method for processing stereo audio signals using a variable prediction direction |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
CN101964189B (zh) | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
WO2011156905A2 (en) * | 2010-06-17 | 2011-12-22 | Voiceage Corporation | Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands |
AU2011275731B2 (en) * | 2010-07-08 | 2015-01-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Coder using forward aliasing cancellation |
PL3544007T3 (pl) * | 2010-07-19 | 2020-11-02 | Dolby International Ab | Przetwarzanie sygnałów audio podczas rekonstrukcji wysokiej częstotliwości |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US8560330B2 (en) * | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
JP5749462B2 (ja) * | 2010-08-13 | 2015-07-15 | 株式会社Nttドコモ | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
ES2530957T3 (es) * | 2010-10-06 | 2015-03-09 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio y para proporcionar una mayor granularidad temporal para un códec de voz y de audio unificado combinado (USAC) |
WO2012048472A1 (en) * | 2010-10-15 | 2012-04-19 | Huawei Technologies Co., Ltd. | Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing method, windower, transformer and inverse transformer |
WO2012076689A1 (en) | 2010-12-09 | 2012-06-14 | Dolby International Ab | Psychoacoustic filter design for rational resamplers |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
JP2012242785A (ja) | 2011-05-24 | 2012-12-10 | Sony Corp | 信号処理装置、信号処理方法、およびプログラム |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
CN102543090B (zh) * | 2011-12-31 | 2013-12-04 | 深圳市茂碧信息科技有限公司 | 一种应用于变速率语音和音频编码的码率自动控制系统 |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
CN103428819A (zh) | 2012-05-24 | 2013-12-04 | 富士通株式会社 | 一种载波频点搜索方法和装置 |
CN104364843B (zh) * | 2012-06-14 | 2017-03-29 | 杜比国际公司 | 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统 |
US9589570B2 (en) | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
EP2951818B1 (en) * | 2013-01-29 | 2018-11-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling concept |
US9741350B2 (en) | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
PL2959482T3 (pl) | 2013-02-20 | 2019-10-31 | Fraunhofer Ges Forschung | Urządzenie i sposób do kodowania lub dekodowania sygnału audio przy użyciu zakładki zależnej od lokalizacji transjentu |
EP3010018B1 (en) * | 2013-06-11 | 2020-08-12 | Fraunhofer Gesellschaft zur Förderung der Angewand | Device and method for bandwidth extension for acoustic signals |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
CN108172239B (zh) * | 2013-09-26 | 2021-01-12 | 华为技术有限公司 | 频带扩展的方法及装置 |
FR3011408A1 (fr) * | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
CA2984017C (en) * | 2013-10-31 | 2019-12-31 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
US20150149157A1 (en) | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
CN103905834B (zh) | 2014-03-13 | 2017-08-15 | 深圳创维-Rgb电子有限公司 | 音频数据编码格式转换的方法及装置 |
BR112016020988B1 (pt) * | 2014-03-14 | 2022-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Método e codificador para codificação de um sinal de áudio, e, dispositivo de comunicação |
US9626983B2 (en) * | 2014-06-26 | 2017-04-18 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
FR3023036A1 (fr) * | 2014-06-27 | 2016-01-01 | Orange | Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
-
2014
- 2014-07-28 EP EP14178817.4A patent/EP2980794A1/en not_active Withdrawn
-
2015
- 2015-07-22 TW TW104123735A patent/TWI570710B/zh active
- 2015-07-24 CN CN202111184563.7A patent/CN113963706A/zh active Pending
- 2015-07-24 MY MYPI2017000132A patent/MY187280A/en unknown
- 2015-07-24 PL PL15739300T patent/PL3186809T3/pl unknown
- 2015-07-24 TR TR2019/08602T patent/TR201908602T4/tr unknown
- 2015-07-24 BR BR122022012517-4A patent/BR122022012517B1/pt active IP Right Grant
- 2015-07-24 BR BR122022012616-2A patent/BR122022012616B1/pt active IP Right Grant
- 2015-07-24 PT PT15739300T patent/PT3186809T/pt unknown
- 2015-07-24 CA CA2955095A patent/CA2955095C/en active Active
- 2015-07-24 PL PL19160134.3T patent/PL3511936T3/pl unknown
- 2015-07-24 MX MX2017001235A patent/MX362424B/es active IP Right Grant
- 2015-07-24 CN CN202111184553.3A patent/CN113936675A/zh active Pending
- 2015-07-24 JP JP2017504785A patent/JP6549217B2/ja active Active
- 2015-07-24 EP EP23184408.5A patent/EP4239634A1/en active Pending
- 2015-07-24 CN CN202111184555.2A patent/CN113948100A/zh active Pending
- 2015-07-24 CN CN202111184409.XA patent/CN113963704A/zh active Pending
- 2015-07-24 KR KR1020177005491A patent/KR102009210B1/ko active IP Right Grant
- 2015-07-24 CN CN202111184561.8A patent/CN113963705A/zh active Pending
- 2015-07-24 WO PCT/EP2015/067003 patent/WO2016016123A1/en active Application Filing
- 2015-07-24 RU RU2017105448A patent/RU2671997C2/ru active
- 2015-07-24 BR BR122022012700-2A patent/BR122022012700B1/pt active IP Right Grant
- 2015-07-24 EP EP19160134.3A patent/EP3511936B1/en active Active
- 2015-07-24 ES ES15739300T patent/ES2733207T3/es active Active
- 2015-07-24 EP EP15739300.0A patent/EP3186809B1/en active Active
- 2015-07-24 ES ES19160134T patent/ES2972128T3/es active Active
- 2015-07-24 BR BR112017001297A patent/BR112017001297A2/pt not_active Application Discontinuation
- 2015-07-24 CN CN201580049740.7A patent/CN107077858B/zh active Active
- 2015-07-24 BR BR122022012519-0A patent/BR122022012519B1/pt active IP Right Grant
- 2015-07-24 SG SG11201700685XA patent/SG11201700685XA/en unknown
- 2015-07-24 AU AU2015295605A patent/AU2015295605B2/en active Active
- 2015-07-28 AR ARP150102398A patent/AR101344A1/es active IP Right Grant
-
2017
- 2017-01-24 US US15/414,427 patent/US10332535B2/en active Active
-
2019
- 2019-02-26 US US16/286,397 patent/US11049508B2/en active Active
- 2019-06-26 JP JP2019117964A patent/JP6941643B2/ja active Active
-
2021
- 2021-02-22 JP JP2021026052A patent/JP7228607B2/ja active Active
- 2021-06-01 US US17/336,132 patent/US20210287689A1/en active Pending
-
2023
- 2023-01-23 US US18/158,035 patent/US11929084B2/en active Active
- 2023-02-13 JP JP2023019921A patent/JP2023053255A/ja active Pending
- 2023-08-25 US US18/455,738 patent/US20230402046A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100485337C (zh) * | 2004-05-17 | 2009-05-06 | 诺基亚公司 | 用于对音频信号进行编码的编码模型的选择 |
US20120209600A1 (en) * | 2009-10-14 | 2012-08-16 | Kwangwoon University Industry-Academic Collaboration Foundation | Integrated voice/audio encoding/decoding device and method whereby the overlap region of a window is adjusted based on the transition interval |
CN103493131A (zh) * | 2010-12-29 | 2014-01-01 | 三星电子株式会社 | 用于针对高频带宽扩展进行编码/解码的设备和方法 |
US20130006645A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and system for audio encoding and decoding and method for estimating noise level |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11682409B2 (en) | 2016-04-12 | 2023-06-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
CN109313908A (zh) * | 2016-04-12 | 2019-02-05 | 弗劳恩霍夫应用研究促进协会 | 用于对音频信号进行编码的音频编码器、用于对音频信号进行编码的方法以及考虑上频带中的检测到的尖峰频谱区域的计算机程序 |
US12014747B2 (en) | 2016-04-12 | 2024-06-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
CN109313908B (zh) * | 2016-04-12 | 2023-09-22 | 弗劳恩霍夫应用研究促进协会 | 用于对音频信号进行编码的音频编码器以及方法 |
CN112863527A (zh) * | 2017-03-23 | 2021-05-28 | 杜比国际公司 | 用于音频信号的高频重建的谐波转置器的后向兼容集成 |
CN110914902A (zh) * | 2017-03-31 | 2020-03-24 | 弗劳恩霍夫应用研究促进协会 | 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法 |
CN110914902B (zh) * | 2017-03-31 | 2023-10-03 | 弗劳恩霍夫应用研究促进协会 | 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法 |
CN111386568A (zh) * | 2017-10-27 | 2020-07-07 | 弗劳恩霍夫应用研究促进协会 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机程序 |
CN111386568B (zh) * | 2017-10-27 | 2023-10-13 | 弗劳恩霍夫应用研究促进协会 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质 |
CN109215670B (zh) * | 2018-09-21 | 2021-01-29 | 西安蜂语信息科技有限公司 | 音频数据的传输方法、装置、计算机设备和存储介质 |
CN109215670A (zh) * | 2018-09-21 | 2019-01-15 | 西安蜂语信息科技有限公司 | 音频数据的传输方法、装置、计算机设备和存储介质 |
CN113272898A (zh) * | 2018-12-21 | 2021-08-17 | 弗劳恩霍夫应用研究促进协会 | 使用脉冲处理产生频率增强音频信号的音频处理器和方法 |
CN113272898B (zh) * | 2018-12-21 | 2024-05-31 | 弗劳恩霍夫应用研究促进协会 | 使用脉冲处理产生频率增强音频信号的音频处理器和方法 |
CN110794273A (zh) * | 2019-11-19 | 2020-02-14 | 哈尔滨理工大学 | 含有高压驱动保护电极的电位时域谱测试系统 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7228607B2 (ja) | 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器 | |
JP7135132B2 (ja) | 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |