CN105229735B - 用于编码模式切换补偿的技术 - Google Patents
用于编码模式切换补偿的技术 Download PDFInfo
- Publication number
- CN105229735B CN105229735B CN201480019089.4A CN201480019089A CN105229735B CN 105229735 B CN105229735 B CN 105229735B CN 201480019089 A CN201480019089 A CN 201480019089A CN 105229735 B CN105229735 B CN 105229735B
- Authority
- CN
- China
- Prior art keywords
- time
- frequency spectrum
- coding mode
- information signal
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005516 engineering process Methods 0.000 title description 4
- 238000009499 grossing Methods 0.000 claims abstract description 63
- 238000002156 mixing Methods 0.000 claims abstract description 53
- 230000004044 response Effects 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims description 244
- 230000014759 maintenance of location Effects 0.000 claims description 87
- 238000000034 method Methods 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 34
- 201000004569 Blindness Diseases 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 20
- 238000007493 shaping process Methods 0.000 claims description 17
- 238000005562 fading Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 9
- 230000001965 increasing effect Effects 0.000 claims description 8
- 230000002829 reductive effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 123
- 230000002123 temporal effect Effects 0.000 description 31
- 239000000203 mixture Substances 0.000 description 30
- 238000010276 construction Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 10
- 102000004127 Cytokines Human genes 0.000 description 9
- 108090000695 Cytokines Proteins 0.000 description 9
- 238000005086 pumping Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000002131 composite material Substances 0.000 description 6
- 238000010348 incorporation Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000153 supplemental effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
通过响应于切换瞬间而执行在个别过渡期的时间平滑化和/或混合来改良一种允许不同编码模式之间的切换的编码解码器。
Description
技术领域
本发明是关于使用不同编码模式的信息信号编码,这些模式例如在有效编码频宽和/或能量保留性质方面有所不同。
背景技术
在[1]、[2]及[3]中,提议通过以预测方式用盲目BWE对遗漏内容进行外推来解决频宽的短限制。然而,此方法未涵盖长远来看频宽会发生变化的情况。再者,未考虑不同能量保留性质(例如,与全频带核心相比,盲目BWE在高频下通常具有显着的能量衰减)。[4]及[5]中描述了使用具有变化频宽的模式的编码解码器。
在移动通讯应用中,可利用的数据速率的变化可能是常见的,这些变化亦会影响所用编码解码器的位速率。因此,能够在不同的位速率相依性设定和/或增强之间切换编码解码器将是有利的。当在不同BWE之间切换且例如倾向于全频带核心时,可能因不同的有效输出频宽或变化的能量保留性质而发生不连续性。更确切地说,可根据操作点及位速率(参见图1)来使用不同的BWE或BWE设定。通常,针对极低的位速率,盲目频宽扩展方案为优选的,以便使可利用的位速率集中在更重要的核心编码器处。盲目频宽扩展方案通常在核心编码器上合成小的额外频宽,而无需任何额外的旁侧信息。为避免盲目BWE引入假影(例如,由于错位分量的能量过冲或放大),额外频宽的能量通常极为有限。针对中等位速率,通常建议用导引式BWE方法替代盲目BWE。此导引式方法使用关于合成的额外频宽的能量及形状的参数旁侧信息。通过此方法,且与盲目BWE相比,更高能量处的更宽频宽可获合成。针对高位速率,建议在核心编码器域中编码完整的频宽,即,无需频宽扩展。此通常提供频宽及能量的近乎完美的保留。
发明内容
因此,本发明之一的目标是提供一种用以改良编码解码器的质量的技术,这些编码解码器支持不同编码模式之间的切换,尤其在不同编码模式之间的过渡期。
此目标通过未决的独立权利要求的主题来达成,其中,有利的子方面为从属权利要求的主题。
本申请案所基于的发现为,通过响应于切换瞬间执行在各个过渡期的时间平滑化和/或混合,可改良一种允许不同编码模式之间的切换的编码解码器。
根据实施例,该切换发生在一方面的全频宽音频编码模式与另一方面的BWE或子频宽音频编码模式之间。根据另一实施例,另外或二者择一地,在导引式BWE编码模式与盲目BWE编码模式之间切换的切换瞬间执行时间平滑化和/或混合。
除上文所概述的发现之外,根据本发明的另一方面,本申请案的发明者认识到,在编码模式之间的切换瞬间亦可使用时间平滑化和/或混合来得到多模式编码改良,这些编码模式的有效编码频宽实际上均与在频谱上执行时间平滑化和/或混合所在的高频频谱带重叠。更确切地说,根据本申请案之一实施例,执行在过渡期的时间平滑化和/或混合所在的高频频谱带在频谱上与两种编码模式的有效编码频宽重叠,在切换瞬间处的切换发生在这些编码模式之间。例如,高频频谱带可与两种编码模式中之一的频宽扩展部分(即,根据两种编码模式中之一,使用BWE将频谱扩展至其中的高频部分)重叠。在涉及两种编码模式中的另一者的情况下,高频频谱带可例如与此编码模式的变换频谱或线性预测编码频谱或频宽扩展部分重叠。所得的改良因此源于以下事实:不同的编码模式即使在其有效编码频宽会重叠的频谱部分仍可能具有不同的能量保留性质,因此在编码信息信号时,人工时间边缘/跳变可能造成信息信号的频谱图。时间平滑化和/或混合减少负面影响。
根据本申请的一的实施例,另外根据在分析频谱带中对信息信号的分析来执行时间平滑化和/或混合,该分析频谱带在频谱上配置于高频频谱带下方。通过此措施,根据信息信号在分析频谱带中的能量波动的度量来抑制时间平滑化和/或混合或调适其程度是可行的。若波动较高,则平滑化和/或混合可能无意地或不利地移除原始信号的高频频谱带中的能量波动,从而潜在地引起信息信号质量的降级。
虽然下文进一步概述的实施例是针对音频编码,但应明确,对其它种类的信息信号(诸如量测信号、数据传输信号或类似信号)而言,本发明亦为有利的,且亦可有利地加以使用。因此,所有实施例亦将被视为呈现用于这些其它种类的信息信号的实施例。
附图说明
下文关于各图来进一步描述本申请案的优选实施例,其中:
图1使用频谱时间灰阶分布示意性地展示出具有不同的有效频宽及能量保留性质的示例性BWE及全频带核心;
图2示意性地展示出图1的不同编码模式的能量保留性质的频谱核心上的差异之一的实例;
图3示意性地展示出支持不同编码模式的编码器,本申请案的实施例可结合该编码器来使用;
图4示意性地展示出支持不同编码模式的解码器,其另外示意性地例示出当在高频频谱带中自较高能量保留性质切换至较低能量保留性质时的示例性的功能性;
图5示意性地展示出支持不同编码模式的解码器,其另外示意性地例示出当在高频频谱带中自较低能量保留性质切换至较高能量保留性质时的示例性的功能性;
图6a至图6d示意性地展示出编码模式的不同实例、针对这些编码模式在数据流中所传达的数据,以及解码器内用以处置各个编码模式的功能性;
图7a至图7c示意性地展示出解码器在切换瞬间处如何执行图4及图5的暂时时间平滑化/混合的不同方式;
图8示意性地展示出图表,其展示出跨切换瞬间彼此相邻的连续时间部分的频谱的实例,以及根据实例的这些时间部分的相关联编码模式的能量保留性质的频谱变化,以便例示出图9的时间平滑化/混合的信号适应性控制;
图9示意性地展示出根据实施例的时间平滑化/混合的信号适应性控制;
图10展示出频谱时间频块(tile)的位置,在这些频块处根据特定信号适应性平滑化实施例来评估且使用能量;
图11展示出在解码器内根据信号适应性平滑化实施例所执行的流程图;
图12展示出在解码器内根据实施例所执行的频宽混合的流程图;
图13a展示出切换瞬间附近的频谱时间部分,以便例示出根据图12执行混合所在的频谱时间频块;
图13b展示出根据图12的实施例的混合因子的时间变化;
图14a示意性地展示出图12的实施例的变化,以便考虑到在混合期间发生的切换瞬间;以及
图14b展示出在图14a的变形的情况下,混合因子的时间变化的所得变化。
具体实施方式
在下文进一步描述本申请案的实施例之前,再次简要参考图1,以便激励并阐明作为以下实施例的基础的教示及想法。图1示例性地展示出示例性地使用三种不同编码模式加以连续编码的音频信号中的一部分,这些编码模式即:第一时间部分10中的盲目BWE、第二时间部分12中的导引式BWE,以及第三时间部分14中的全频带核心编码。具体地,图1展示出二维灰阶编码的表示,其展示出通过在频谱时间上(即,通过将频谱轴16与时间轴18相加)编码该音频信号的能量保留性质的变化。关于图1所示的关于三种不同编码模式所展示并描述的细节应仅被视为例示出以下实施例,但是这些细节改善了对以下实施例及其由此所得的优点的理解,因此下文中描述这些细节。
具体地,如通过使用图1的灰阶表示所展示,全频带核心编码模式在自0扩展至fstop,Core2的全频宽上实质上保留音频信号的能量。在图2中,在20处经由频率f用图展示出全频宽核心的能量保留性质的频谱历程。因此,变换编码是示例性地与自0连续扩展至fstop,Core2的变换区间配合使用。例如,根据模式20,可使用关键取样重叠变换来分解音频信号,并且随后使用例如量化及熵编码来编码由此所得的频谱线。或者全频带核心模式可为诸如CELP或ACELP的线性预测类型。
图1及图2中示例性地例示的两种BWE编码模式亦使用核心编码模式(诸如刚才概述的变换编码模式或线性预测编码模式)来编码低频部分,但此时核心编码仅与全频宽的低频部分有关,该低频部分的范围为0至fstop,Core1<fstop,Core2。该音频信号的高于fstop,Core1的频谱分量是在导引式频宽扩展的情况下加以参数编码,直至频率fstop,BWE2,且在fstop,Core1与fstop,BWE1之间是在盲目频宽扩展模式的情况下在无需数据流中的旁侧信息的情况下(即盲目地)加以参数编码,其中在图2之情况下,fstop,Core1<fstop,BWE1<fstop,BWE2<fstop,Core2。
根据盲目频宽扩展,例如,解码器根据该盲目BWE编码模式从自0扩展至fstop,Core1的核心编码部分估计频宽扩展部分fstop,Core1至fstop,BWE1,而无需数据流中所含的除音频信号频谱的核心编码部分的编码之外的任何额外旁侧信息。由于对音频信号的频谱加以编码直至核心编码停止频率fstop,Core1的非导引方式,盲目BWE的频宽扩展部分的宽度通常但不一定小于导引式BWE模式的频宽扩展部分(自fstop,Core1扩展至fstop,BWE2)的宽度。在导引式BWE中,在涉及自0扩展至fstop,Core1的频谱核心编码部分的情况下,该音频信号是使用核心编码模式加以编码,但提供了额外的参数旁侧信息数据以便允许解码侧估计在自fstop,Core1扩展至fstop,BWE2的频宽扩展部分内超过交叉频率fstop,Core1的音频信号频谱。例如,此参数旁侧信息包含以某一频谱时间分辨率来描述音频信号的包络的包络数据,此频谱时间分辨率比使用变换编码时在核心编码部分中使用核心编码来编码音频信号的频谱时间分辨率要粗糙。例如,该解码器可复制核心编码部分内的频谱以便初步填充介于fstop,Core1与fstop,BWE2之间的空白音频信号部分,并且随后使用所传输的包络数据对此预填充状态加以整形。
图1及图2揭露了示例性编码模式之间的切换可能在这些编码模式之间的切换瞬间造成不良的(即,可感知的)假影。例如,当在一方面的导引式BWE与另一方面的全频宽音频编码模式之间切换时,显而易见,虽然该全频宽编码模式在频谱部分fstop,BWE2及fstop,Core2内正确地重新建构(即,有效地编码)频谱分量,但是导引式BWE模式在该频谱部分内甚至不能编码音频信号的任何分量。因此,自导引式BWE切换至FB编码可能造成音频信号的频谱分量在该频谱部分内的不利的突然出现,且在相反方向上切换(即,自FB核心编码切换至导引式BWE)又可能造成这些频谱分量的突然消失。然而,此可能在音频信号的重现中造成假影。在盲目BWE的情况下甚至增加了与全频宽核心编码模式相比未保留原始音频信号的任何能量的频谱区域,且因此,具有刚才关于导引式BWE所描述的突然出现和/或突然消失的频谱区域亦在盲目BWE及在该模式与FB核心编码模式之间切换的情况下发生,然而该频谱部分有所增加且自fstop,BWE1扩展至fstop,Core2。
然而,可能由于在不同编码模式之间切换而产生恼人的假影的频谱部分不限于编码模式(切换瞬间发生在这些编码模式之间)中的之一完全没有进行任何编码的频谱部分,即,不限于在具有编码模式有效编码频宽的频谱部分外的频谱部分。相反,如图1及图2所示,甚至存在几个部分,在这些部分中:实际上两种编码模式(切换瞬间发生在这些编码模式之间)均实际上有效,但是这些编码模式的所述能量保留性质有所不同以使得恼人的假影亦可能由此产生。例如,在FB核心编码与导引式BWE之间切换的情况下,两种编码模式在频谱部分fstop,Core1及fstop,BWE2中均有效,但是虽然FB核心编码模式20在该频谱部分内实质上保存音频信号的能量,但导引式BWE在该频谱部分内的能量保留性质实质上是减小的,且因此,在这些两种编码模式之间切换时的突然减小/增加亦可能造成可感知的假影。
上文所概述的切换情境仅仅旨在作为代表。存在其它的编码模式对,这些编码模式之间的切换造成或可能造成恼人的假影。例如对以下各者而言确实如此:在一方面的盲目BWE与另一方面的导引式BWE之间的切换,或在一方面的盲目BWE、导引式BWE及FB编码中的任一一个与另一方面的仅共同编码(作为盲目BWE及导引式BWE的基础)之间的切换,或甚至在能量保留性质不相等的不同全频带核心编码器之间的切换。
下文进一步概述的实施例克服了在不同编码模式之间切换时由上文所概述的情况产生的负面影响。
然而,在描述这些实施例之前,关于展示出支持不同编码模式的示例性编码器的图3来简要阐述编码器可如何,例如,在所支持的若干编码模式当中决定当前所使用的编码模式,以便更好地理解在这些编码模式之间的切换为何可能产生上文所概述的可感知的假影。
图3中所示的编码器大体上是使用参考符号30来指示,该编码器在其输入端接收信息信号(即此处的音频信号)32且在其输出端输出表示/编码该音频信号32的数据流34。如刚才所概述,该编码器30支持如关于图1及图2所示例性地概述的具有不同能量保留性质的多种编码模式。音频信号32可被视为无失真的,诸如具有自0直至某一最大频率的所表示频宽(诸如音频信号32的取样率的一半)。图3中在36处展示出原始音频信号的频谱或频谱图。音频编码器30在将音频信号32编码至数据流34中期间在不同编码模式之间切换,这些编码模式诸如在上文关于图1及图2所概述的编码模式。因此,该音频信号可从数据流34重新建构,然而,在较高频区中的能量保留根据不同编码模式之间的切换而变化。例如,参见图3中38处的可从数据流34重新建构的音频信号的频谱/频谱图,其中,示例性地展示出三个切换瞬间A、B及C。在切换A前面,所述编码器30使用编码该音频信号32直至某一最大频率fmax,cod≤fmax的编码模式,其实质上,例如,跨整个频宽0至fmax,cod保留能量。在切换瞬间A与B之间,例如,该编码器30使用如40中所示具有仅扩展至频率f1<fmax,cod的有效编码频宽的编码模式,其跨此频宽具有例如实质上恒定的能量保留性质,且在切换瞬间B与C之间,编码器30使用亦如42处所示具有扩展至fmax,cod的有效编码频宽,但在涉及f1至fmax,cod之间的频谱范围的情况下具有相对于状态A之前的全频宽编码模式有所减小的能量保留性质的编码模式。
因此,在切换瞬间处,关于可感知的假影的问题可能发生,如上文关于图1及图2所论述。然而,编码器30可无视这些问题,响应于外部控制信号44而决定在切换瞬间A至C处在编码模式之间切换。这些外部控制信号44可,例如,来源于负责传输所述数据流34的传输系统。例如,该控制信号44可向编码器30指示可利用的传输频宽,因此编码器30可能必须调适数据流34的位速率以便满足(即,低于或等于)所指示的可利用的位速率。然而,根据此可利用的位速率,编码器30的可利用的编码模式当中的最佳编码模式可改变。所述“最佳编码模式”可为在各个位速率下具有最佳/最好的速率与失真之比的编码模式。然而,因为可利用的位速率以与音频信号32的内容完全或实质上无关的方式改变,所以这些切换瞬间A至C可能发生在音频信号的内容不利地在该高频部分f1至fmax,cod内具有实质能量的时间,其中由于在编码模式之间切换,编码器30的能量保留性质在时间上变化。因此,即使在切换为不利的时间,编码器30可能无法避免,而可能必须按控制信号44自外部所指示在编码模式之间切换。
接下来描述的实施例涉及用于解码器的实施例,该解码器被配置为适当地减小由于在编码器侧在编码模式之间的切换而产生的负面影响。
图4展示出解码器50,其支持至少两种编码模式且可在至少两种编码模式之间切换以便自入站数据流34解码信息信号52,其中,该解码器被配置为响应于某些切换瞬间而执行如下文进一步描述的实际平滑化或混合。
关于解码器50所支持的编码模式的实例,例如参考上文关于图1及图2的描述。也就是,该解码器50可,例如,支持一或多种编码模式,这些编码模式是用来使用例如变换编码将音频信号编码至数据流34中,直至某一最大频率,例如,其中数据流34针对音频信号的用此核心编码模式加以编码的部分包含音频信号的变换的逐频谱线表示,从而自0直至各个最大频率在频谱上分解所述音频信号。可替换地,所述核心编码模式可包括预测性编码(例如线性预测性编码)。在第一种情况下,所述数据流34针对音频信号的核心编码部分可包含音频信号的逐频谱线表示的编码,且解码器50被配置为对此逐频谱线表示执行逆变换,其中该逆变换产生自0频率扩展至最大频率的逆变换,以使得重新建构的音频信号52与已编码至数据流34中的原始音频信号在自0至各个最大频率的整个频带上在能量上实质上一致。在预测性核心编码模式的情况下,所述解码器50可被配置为使用数据流30中所含的线性预测系数(其是针对原始音频信号的使用各个预测性核心编码模式编码至数据流34中的时间部分),以便使用根据这些线性预测系数来设定的合成滤波器,或使用经由这些线性预测系数来控制的频域噪声整形(FDNS),来使用亦针对这些时间部分加以编码的激励信号重新建构音频信号52。在使用合成滤波器的情况下,合成滤波器可在取样率下操作以使得音频信号52得以重新建构直至各个最大频率,即,作为取样率的最大频率的两倍,且在使用频域噪声整形的情况下,该解码器50可被配置为从数据流34及变换域获得呈逐频谱线表示的形式的激励信号,例如,通过以下操作来进行:通过使用线性预测系数来使用FDNS(频域噪声整形)对此激励信号加以整形,以及对由变换系数表示且又表示激励的频谱的频谱整形版本执行逆变换。具有不同最大频率之一的或两种或更多此类核心编码模式可由解码器50利用或由解码器50支持。其它编码模式可使用诸如盲目BWE或导引式BWE的BWE,以便扩展核心编码模式中的任一个所支持的频宽,超过个别最大频率。导引式BWE例如可涉及SBR(频谱带复制),根据该SBR,解码器50自根据核心编码模式所重新建构的音频信号获得将核心编码频宽朝向更高频率加以扩展的频宽扩展部分的精细结构,其中使用参数旁侧信息以便根据此参数旁侧信息对该精细结构加以整形。其它导引式BWE编码模式同样可行。在盲目BWE的情况下,解码器50可重新建构将核心编码频宽超过其最大值朝向更高频率加以扩展的频宽扩展部分,而无需关于该频宽扩展部分的任何显式旁侧信息。
请注意,数据流内编码模式可在时间上改变的单元可为具有恒定的或甚至变化的长度的“帧”。下文中无论何处出现“帧”一词,其因此旨在表示位流中编码模式变化的此单元,即,编码模式在其间可能变化且编码模式在其内不变化的单元。例如,针对每一帧,数据流34可包含语法元素,其揭露用来编码各个帧的编码模式。切换瞬间可因此配置于帧边界处,这些帧边界分离具有不同编码模式的帧。有时可能出现子帧一词。子帧可表示将帧在时间上分割成时间子单元,在这些时间子单元处,根据与各个帧相关联的编码模式使用针对各个编码模式的子帧特定编码参数来编码音频信号。
图4尤其涉及自在某一高频频谱带处具有更高能量保留性质的编码模式切换至在该高频频谱带内具有较小能量保留性质或不具有能量保留性质的编码模式。请注意,图4仅为了便于理解而专注于这些切换瞬间,且根据本申请案的实施例的解码器不应限于此可能性。相反,应显而易见,可将根据本申请案的实施例的解码器实行成并入关于图4及以下诸图结合针对特定编码模式对的特定切换瞬间来描述的特定功能性的全部或其任何子集,个别切换瞬间发生在这些编码模式对之间。
图4示例性地展示出在时间瞬间tA处的切换瞬间A,用来将音频信号编码至数据流34中的编码模式在该切换瞬间A处自第一编码模式切换至第二编码模式(其中所述第一编码模式示例性地为具有0至fmax的有效编码频宽的编码模式),切换至自0频率直至频率f1<fmax在能量保留性质上一致,但超过该频率(即,在f1至fmax之间)具有较小的能量保留性质或不具有能量保留性质的编码模式。图4中针对介于f1与fmax之间的示例性频率在54及56处示例性地例示出这两种可能性,该示例性频率是在58处的用来将音频信号编码至数据流34中的能量保留性质的示意性频谱时间表示内用虚线指示的。在54的情况下,所述第二编码模式(在切换瞬间A后面的音频信号52的时间部分的解碼版本)具有仅扩展至f1的有效编码频宽,因此超过此频率,能量保留性质为0,如54处所示。
例如,第一编码模式以及第二编码模式可为具有不同最大频率f1及fmax的核心编码模式。可替换地,这些编码模式中的一个或两者可涉及具有不同有效编码频宽的频宽扩展,一种扩展至f1而另一种扩展至fmax。
56的情况例示出以下可能性:两种编码模式具有扩展至fmax的有效编码频宽,然而,第二编码模式的能量保留性质相对于与在所述时间瞬间tA前面的时间部分有关的第一编码模式中的一个有所减小。
该切换瞬间A(即,紧接在该切换瞬间A前面的时间部分60是使用第一编码模式加以编码,且紧接在切换瞬间A后面的时间部分62是使用第二编码模式加以编码的事实)可在数据流34内用信号发出,或可以其它方式用信号发出至解码器50,以使得解码器50改变用以自数据流34解码音频信号52的编码模式时的切换瞬间与在编码侧对各个编码模式的切换同步。例如,解码器50可使用上文所简要概述的逐帧模式发信号以便辨识并识别切换瞬间,或区分不同类型的切换瞬间。
在任何情况下,图4的解码器被配置为在音频信号52的时间部分60及62的解码版本之间的过渡期执行时间平滑化或混合,如64处所示意性地例示,64试图通过展示以下情形来例示出执行时间平滑化或混合的效果:在频率f1至fmax之间的高频频谱带66内的能量保留性质经时间平滑化以便避免在切换瞬间A处的时间不连续性的影响。
类似于54及56,在68、70、72及74处,一组非详尽的实例通过展示出所得能量保留性质历程来展示出解码器50如何达成时间平滑化/混合,该所得能量保留性质历程是针对在64中用虚线来指示的在高频频谱带66内的示例性频率在时间t上所绘制。在实例68及72表示解码器50的用以处理54中所示的切换瞬间的功能性的可能实例的同时,70及74中所示的实例展示出解码器50在56处所例示的切换情境的情况下的可能功能性。
同样,在54中所例示的切换情境中,所述第二编码模式根本不重新建构高于频率f1的音频信号52。为在音频信号52的在切换瞬间A前面及后面的解码版本之间的过渡期执行时间平滑化或混合,根据68之实例,解码器50在紧接在切换瞬间A后面的暂时性时段76内暂时执行盲目BWE,以便估计并填充音频信号的高于频率f1直至fmax的频谱。如实例72中所示,解码器50为此可使高频频谱带66内的估计频谱经受使用某种淡出函数(fade-outfunction)78进行的时间整形,以使得在涉及高频频谱带66内的能量保留性质的情况下,跨切换瞬间A的过渡甚至更为平滑。
下文进一步描述实例72的情况的特定实例。应强调,数据流34不需要用信号发出与数据流34内的暂时性盲目BWE执行有关的任何内容。相反,该解码器50本身被配置为响应于切换瞬间A,来暂时应用盲目BWE(具有或不具有淡出)。
使用盲目BWE来将跨切换瞬间彼此邻接的编码模式中的之一的有效编码频宽朝向更高频率加以扩展而超过其上界在下文中被称为时间混合。如将自图5的描述变得显而易见,跨切换瞬间在时间上移动/偏移所述混合时段76以使其比实际切换瞬间更早开始将是可行的。在涉及混合时段76的将在切换瞬间A前面的部分的情况下,混合将导致以逐步方式(即按介于0与1之间(不包括0及1)的因子)或以变化的方式(在介于0与1之间的区间或子区间中变化)减小音频信号52在高频频谱带66内的能量,从而导致在高频频谱带66内的能量保留性质的时间平滑化。
56的情形与54中的情形不同之处在于,在56之情况下,跨切换瞬间A彼此邻接的两种编码模式的能量保留性质在两种编码模式下在高频频谱带66内不等于0。在56的情况下,能量保留性质在切换瞬间A处突然降低。为补偿能量保留性质在频带66中的此突然减小的潜在负面影响,图4的解码器50根据70的实例被配置为在紧接在切换瞬间A前面及后面的时间部分60与62之间的过渡期执行时间平滑化或混合,此是通过以下操作来达成:在紧接在切换瞬间A之后的初步时段80内初步设定该音频信号52在高频频谱带66内的能量,以使其介于紧接在切换瞬间A前面的音频信号52的能量与仅使用第二编码模式所获得的音频信号在高频频谱带66内的能量之间。换言之,该解码器50在初步时段80期间初步增加音频信号52的能量,以便初步使切换瞬间A之后的能量保留性质更类似于紧接在切换瞬间A前面所应用的编码模式的能量保留性质。虽然用于此增加的因子在初步时段80期间可保持恒定,如70处所例示,但图4中在74处例示出此因子亦可在该时段80内逐步减小,以便在高频频谱带64内获得能量保留性质跨切换瞬间A的更平滑过渡。
稍后,下文将进一步概述70中所展示/例示的替选方案的实例。为了补偿在各个切换瞬间A之前及之后用来编码音频信号的有所增加的/减小的能量保留性质而对音频信号的水平的初步改变(即,在70及74的情况下为增加)在下文中被称为时间平滑化。换言之,在初步时段80期间在高频频谱带内的时间平滑化将表示:在切换瞬间A附近的其中音频信号是使用在该高频频谱带内具有较弱能量保留性质的编码模式加以编码的时间部分处,音频信号52的水平/能量相对于直接由使用个别编码模式进行的解码所产生的音频信号52的水平/能量的增加;在切换瞬间A附近的其中音频信号是使用在高频频谱带内具有较高能量保留性质的编码模式加以编码的时间部分内,音频信号52的水平/能量在暂时性时段80期间相对于直接由使用该编码模式来编码音频信号所产生的能量的减小。换言之,解码器处理如56的切换瞬间的方式不限于将暂时性时段80置放成紧接在切换瞬间A之后。相反,暂时性时段80可跨越切换瞬间A或甚至可在切换瞬间A前面。在该情况下,在涉及在切换瞬间A前面的时间部分的情况下,在暂时性时段80期间减小音频信号52的能量,以便使所得能量保留性质更类似于在切换瞬间A之后用来编码音频信号的编码模式的能量保留性质,即,以使得在高频频谱带内的所得能量保留性质介于在切换瞬间A之前的编码模式的能量保留性质与在切换瞬间A之后的编码模式的能量保留性质之间,这两种能量保留性质均在高频频谱带66内。
在进行对图5的解码器的描述之前,请注意,可混合时间平滑化技术与时间混合技术。假设例如使用盲目BWE作为执行时间混合的基础。此盲目BWE可具有例如较低能量保留性质,此“缺陷”可另外通过在此之后应用时间平滑化来加以补偿。此外,图4应被理解为描述并入上文关于68至74所概述的功能性中的一个或其组合或以这些功能性中的一个或其组合为特征(即,响应于各个瞬间55和/或56)的解码器的实施例。此情形适用于描述解码器50的下图,该解码器响应于自一种编码模式的切换瞬间,该编码模式在高频频谱带66内具有相对于在切换瞬间之后有效的编码模式而言较低的能量保留性质。为加强显示该差异,在图5中将切换瞬间表示为B。在可能的情况下,再使用图4中所使用的相同参考符号,以便避免描述之不必要的重复。
在图5中,将音频信号编码至流34中的能量保留性质是以示意方式在频谱时间上绘制,如同在图4中之58中的情况下一样,且如所展示,紧接在切换瞬间B前面的时间部分60属于在高频频谱带内具有相对于紧接在切换瞬间B之后经选择来编码音频信号的在切换瞬间B后面的时间部分62的编码模式而言有所减小的能量保留性质的编码模式。同样,在图5的92及94处,展示出跨时间瞬间tB处的切换瞬间B的能量保留性质的时间历程的示例性情况:92展示出用于时间部分60的编码模式具有与之相关联的甚至不涵盖高频频谱带66的有效编码频宽且因此能量保留性质为0的情况,而94展示出用于时间部分60的编码模式具有涵盖高频频谱带66的有效编码频宽且在高频频谱带内具有非零的能量保留性质,但相对于与在切换瞬间B之后的时间部分62相关联的编码模式的相同频率下的能量保留性质有所减小的情况。
如图5中所例示,在涉及高频频谱带66的情况下,图5的解码器响应于切换瞬间B来以某种方式时间平滑化跨切换瞬间B的有效能量保留性质。如同图4一样,关于响应于切换瞬间B的解码器50的功能性可如何进行,图5在98、100、102及104处呈现四个实例,但同样请注意,其它实例是可行的并且将在下文中更详细地加以概述。
在实例98至104当中,实例98及100指切换瞬间类型92,而其它实例指切换瞬间类型94。如同图表92及94一样,98至104处所示的图表展示出在高频频谱带66内部的示例性频率线的能量保留性质的时间历程。然而,92及94展示出在切换瞬间B前面及后面的各个编码模式所定义的原始能量保留性质,而98至104处所示的图表展示出包括(即,考虑到)解码器50的响应于切换瞬间所执行的措施(如下文所描述)的有效能量保留性质。
98展示出解码器50被配置为在实现切换瞬间B时执行时间混合的实例:因为在切换瞬间B以前有效的编码模式的能量保留性质为0,所以解码器50在暂时性时段106内初步减小紧接在切换瞬间B之后的音频信号52的解码版本的能量/水平,该解码版本是由使用从切换瞬间B开始有效的使用各个编码模式加以解码所产生的,因此在该暂时性时段106内,在涉及高频频谱带66的情况下,有效能量保留性质介于在切换瞬间B前面的编码模式的能量保留性质与在切换瞬间B后面的编码模式的未修改的/原始能量保留性质之间。实例68使用一种替选方案,根据该替选方案,使用淡入函数来在自切换瞬间B至时段106的末尾的暂时性时段106期间逐步/连续地增加通过对音频信号52的能量进行缩放的因子。然而,如上文关于图4使用实例72及68所阐释,使缩放因子在暂时性时段106期间保持恒定亦将为可行的,从而在时段106期间暂时减小音频信号的能量,以便使频带66内的所得能量保留性质更接近在切换瞬间B前面的编码模式的0保留性质。
100展示出在实现切换瞬间B时解码器50的功能性的替选方案的实例,该功能性在描述68及72时已关于图4加以论述:根据100中所示的替选方案,沿时间上游方向偏移暂时性时段106,以便跨越时间瞬间tB。解码器50响应于切换瞬间B而使用例如盲目BWE以某种方式填充紧接在切换瞬间B前面的音频信号52的空白(即,零能量值)高频频谱带66,以便在部分106的时间上在切换瞬间B前面的部分内获得对频带66内的音频信号52的估计,且随后应用淡入函数以便自时段106的开始至末尾逐步/连续地缩放(例如,0至1)音频信号52的能量,从而使减小频带66内的音频信号的能量的程度连续地减小,该音频信号的能量在切换瞬间B之前是通过盲目BWE获得的,且在涉及部分106的在切换瞬间B后面的部分的情况下是使用在切换瞬间B之后所选择的/有效的编码模式获得的。
在如同94中一样在编码模式之间切换的情况下,在切换瞬间B前面以及后面,频带66内的能量保留性质均不等于0。与图4中在56处所示的情况的差异仅在于,与在切换瞬间B前面的时间部分内应用之编码模式能量保留性质相比而言,在切换瞬间B后面,频带66内的能量保留性质在时间部分62内更高。实际上,图5的解码器50根据102处所展示的实例表现得类似于上文关于70及图4所论述的情况:在紧接在切换瞬间B后面的暂时性时段108期间,解码器50略微减小使用在切换瞬间B之后有效的编码模式加以解码之音频信号的能量,以便将有效能量保留性质设定为介于在切换瞬间B之前有效的编码模式的原始能量保留性质与在切换瞬间B之后有效的编码模式的未修改的/原始能量保留性质之间。虽然图5中在102处例示出恒定的缩放因子,但图4中已经关于情况74论述了同样可使用连续地暂时变化的淡入函数。
为完整起见,104展示出一种可替代的方案,根据该可替代的方案,解码器50在时间上游方向上面对/偏移暂时性时段108,以使其紧接在切换瞬间B前面,其因此在该时段108期间使用缩放因子来增加音频信号52的能量,以便将所得能量保留性质设定为介于编码模式的原始/未修改的能量保留性质之间,切换瞬间B发生在这些编码模式之间。即使此处,仍可使用某种淡入缩放函数而不是恒定的缩放因子。
因此,实例102及104展示出响应于切换瞬间B而执行时间平滑化的两个实例,且正如关于图4已经论述的,可偏移暂时性时段以使其跨越切换瞬间B或甚至在切换瞬间B前面的事实亦可传递至图4的实例70及74。
在图5中加以描述之后,请注意,解码器50可响应于切换瞬间90和/或94而仅仅并入上文关于实例98至104所概述的功能性中的一个或其子集的事实(该陈述已关于图4以类似方式提供)。在涉及功能性68、70、72、74、98、100、102及104的整个集合的情况下亦有效:解码器可响应于切换瞬间54、56、92和/或94而实行这些功能性中的一个或其子集。
图4及图5共同使用fmax来表示编码模式(切换瞬间A或B发生在这些编码模式之间)的有效编码频宽的较高频率上限,且使用f1来表示最高频率,直至此最高频率,两种编码模式(切换瞬间发生在这些编码模式之间)具有实质上相同的或可比较的能量保留性质,以使得低于f1,则不需要时间平滑化,且高频频谱带经配置成以f1为频谱下界,其中f1<fmax。虽然上文已经简要论述编码模式,但参考图6a至图6d来更详细地例示出某些可能性。
图6a展示出解码器50的编码模式或解码模式,其表示“核心编码模式”的一种可能性。根据此编码模式,将音频信号以逐频谱线变换表示110(诸如重叠变换)的形式编码至数据流中,该逐频谱线变换表示110具有针对0频率直至最大频率fcore的频谱线112,其中该重叠变换可例如为MDCT或类似者。频谱线112的频谱值可在使用缩放因子来不同地量化的情况下加以传输。为此,可将频谱线112分组/分割成缩放因子频带114,且数据流可包括与缩放因子频带114相关联的缩放因子116。解码器根据图6a的模式在118处根据相关联的缩放因子116来重新缩放与各个缩放因子频带114相关联的频谱线112的频谱值,且使已重新缩放的逐频谱线表示经受诸如IMDCT的逆变换120(选择地包括用于时间频迭补偿的重叠/相加处理),以便在与图6a的编码模式相关联的部分处恢复/重现音频信号。
图6b示出亦可表示核心编码模式的一种编码模式可能性。数据流针对用与图6b相关联的编码模式加以编码的部分包含关于线性预测系数的信息122以及关于激励信号的信息124。此处,信息124使用逐频谱线表示(如110处所展示的逐频谱线表示),即使用直至最高频率fcore的逐频谱线分解,来表示激励信号。信息124亦可包含缩放因子,虽然图6b中未展示。在任何情况下,解码器使在频域中通过信息124获得的激励信号经受用基于线性预测系数122所导出的频谱整形函数进行的频谱整形(称为频域噪声整形126),从而导出音频信号频谱的表示,该表示随后可例如经受逆变换动作,正如关于120所阐释。
图6c亦示范了一种可能的核心编码模式。此时,数据流针对音频信号的分别编码的部分包含具有线性预测系数的信息128以及关于激励信号的信息(即130),其中解码器使用信息128及130,以便使激励信号130经受根据线性预测系数128加以调整的合成滤波器138。合成滤波器132使用某一样本滤波器子取样(filter-tap)率,其经由尼奎斯准则来判定最大频率fcore,通过使用合成滤波器132(即,在其输出侧)重新建构音频信号,直至该最大频率fcore。
关于图6a至图6c所例示的核心编码模式倾向于用自0频率至最大核心编码频率fcore实质上在频谱上恒定的能量保留性质来编码音频信号。然而,关于图6d所例示的编码模式在此方面有所不同。图6d例示出诸如SBR或类似者的导引式频宽扩展模式。在此情况下,数据流针对音频信号的分别编码的部分包含核心编码数据134以及除此之外的参数数据136。核心编码数据134描述0直至fcore的音频信号频谱,且可包括112及116,或122及124,或128及130。参数数据136用参数描述频宽扩展部分中的音频信号频谱,该频宽扩展部分在频谱上定位于自0扩展至fcore的核心编码频宽的较高频率侧。解码器使核心编码数据134经受核心解码138以便恢复核心编码频宽内(即,直至fcore)的音频信号频谱,且使参数数据经受高频估计140以便恢复/估计高于fcore直至fBWE的音频信号频谱,其表示图6d的编码模式的有效编码频宽。如通过虚线142所展示,解码器可使用通过核心解码138所获得的直至fcore的音频信号频谱的重新建构(在频域中或在时域中),以便获得对在fcore与fBWE之间的频宽扩展部分内的音频信号的精细结构的估计,且使用参数数据136在频谱上对此精细结构加以整形,参数数据136例如描述频宽扩展部分内的频谱包络。在例如SBR中将为此情况。此将在高频估计140的输出端产生音频信号的重新建构。
盲目BWE模式将仅包含核心编码数据,且将估计高于核心编码频宽的音频信号频谱,此是通过以下操作来达成:使用外推法将音频信号的包络外推至高于例如fcore的较高频区中,且使用人工噪声产生和/或自核心编码部分至较高频区(频宽扩展部分)的频谱复制以便判定该区中的精细结构。
回到图4及图5的f1及fmax,这些频率(其中两者或一者)可表示核心编码模式的上界频率,即fcore,或这些频率(其中两者或一者)可表示频宽扩展部分的上界频率,亦即fBWE。
为完整起见,图7a至图7c例示出实现上文关于图4及图5所概述的时间平滑化及时间混合选项之三种不同方式。例如,图7a例示出以下情况,其中解码器50响应于切换瞬间而使用盲目BWE 150来在各个暂时性时段期间初步将与高频频谱带66重合的频宽扩展部分内的音频信号频谱的估计与个别编码模式的有效编码频宽152相加。在图4及图5的全部实例68至74及98至104中均为此种情况。已使用点线填充来指示所得能量保留性质中的盲目BEW。如这些实例中所展示,解码器可另外在缩放器154中诸如使用淡入或淡出函数对盲目频宽扩展估计的结果加以缩放/整形。
图7b展示出在以下情况下解码器50的功能性,其中响应于切换瞬间而在缩放器156中在高频频谱带66内且在各个暂时性时段期间初步缩放通过编码模式(各个切换瞬间发生在这些编码模式之间)中的一个所获得的音频信号频谱158,以便产生经修改的音频信号频谱160。缩放器156的缩放可在频域中执行,但另一种可能性将同样存在。图7b的替选方案例如发生在图4及图5之实例70、74、100、102及104中。
图7b的特定变形展示于图7c中。图7c展示出一种执行在图4及图5的实例70、74、102及104处所示范的时间平滑化中的任一者的方式。此处,用于高频频谱带66中的缩放的缩放因子是基于能量来判定,这些能量是根据在切换瞬间前面及后面的使用各个编码模式所获得的音频信号频谱来判定。例如,162展示出在切换瞬间前面及后面的时间部分中音频信号的音频信号频谱,其中此编码模式的有效编码频宽自0达到fmax。在164处展示出位于切换瞬间的另一时间侧的时间部分的音频信号频谱,其是使用有效编码频宽同样自0达到fmax的编码模式加以编码。然而这些编码模式中的一个在高频频谱带66内具有减小的能量保留性质。通过能量判定166及168,判定音频信号频谱在高频频谱带66内的能量,一次是根据频谱162,一次是根据频谱164。例如将根据频谱164来判定的能量指示为E1,且例如使用E2来指示根据频谱162来判定的能量。缩放因子判定器随后判定用以经由缩放器156在图4及图5中所提及的暂时性时段期间在高频频谱带66内缩放频谱162和/或频谱164的缩放因子,其中用于频谱164的缩放因子例如介于1与E2/E1之间(包括1及E2/E1),且用于对频谱162执行的缩放的缩放因子介于1与E2/E1之间(包括1及E2/E1)或被设定为在两个界限之间(不包括两个界限)为恒定的。例如在实例102、104及70中使用通过缩放因子判定器170对缩放因子的恒定设定,而在图4中的74处呈现/示范具有时变缩放因子的连续变化。
即,图7a至图7c展示出由解码器50响应于切换瞬间而在该切换瞬间在暂时性时间部分内执行的解码器50的功能性,该暂时性时间部分诸如在切换瞬间后面、跨越切换瞬间,或甚至在切换瞬间前面,如上文关于图4及图5所概述。
关于图7c,应注意图7c的描述初步忽略了是否将频谱162关联为属于在各个切换瞬间前面的时间部分,和/或关联为使用在高频频谱带中具有较高能量保留性质的编码模式加以编码的时间部分。然而,缩放因子判定器170实际上可考虑到频谱162及164中哪一者是使用在频带66内具有较高能量保留性质的编码模式加以编码。
缩放因子判定器170可通过编码模式切换来不同地处理过渡,其根据切换方向,即,在涉及高频频谱带的情况下自具有较高能量保留性质的编码模式至具有较低能量保留性质的编码模式且反之亦然;和/或根据对音频信号在分析频谱带中的能量的时间历程的分析,如下文将更详细地概述。通过此措施,缩放因子判定器170可在时间上设定音频信号在高频频谱带内的能量的“低通滤波”的程度,以便避免不良的“涂抹(smearing)”。例如,缩放因子判定器170在某些区域中可减小低通滤波的程度,在这些区域中,对分析频谱带内的音频信号能量历程的评估显示,切换瞬间发生在音频信号内容的音调相位邻近攻击(attack)或反之亦然的时间瞬间,因此低通滤波宁可使解码器的输出端所产生的音频信号质量降级,而不是改良音频信号质量。同样地,在高频频谱带中在音频信号内容中的攻击的末尾对能量分量的该种“截止“倾向于使音频信号质量降级的程度超过在这些攻击的开始处在高频频谱带中的截止,且因此缩放因子判定器170可宁愿在自在高频频谱带中具有较低能量保留性质的编码模式至在该频谱带中具有较高能量保留性质的编码模式的过渡期减小低通滤波程度。
值得注意的是,在图7c的情况下,在高频频谱带内在时间意义上对能量保留性质的平滑化实际上是在音频信号的能量域中执行,即,此平滑化是通过在时间上平滑化音频信号在该高频频谱带内的能量来间接执行。只要音频信号内容在切换瞬间附近为同一类型,诸如为音调类型或攻击或类似者,因此所执行的平滑化就实际上产生在高频频谱带内对能量保留性质的类似平滑化。然而,例如上文关于图3所概述,当切换瞬间是在外部(即从外部)强加于编码器上且因此可甚至与自一种音频信号内容类型至另一种音频信号内容类型的过渡同时发生时,此假设可能无法维持。下文关于图8及图9所描述的实施例因此试图识别这些情形,以便在这些情况下抑制解码器响应于切换瞬间而进行的时间平滑化,或减小在这些情形中执行的时间平滑化的程度。虽然下文中进一步描述的实施例集中在编码模式切换时的时间平滑化功能性,但是例如当时间混合是不利的(因为必须使用盲目BWE以便至少根据关于图4及图5所描述的示例性功能性中的一些来执行时间混合)时,亦可使用下文所进一步执行的分析,以便控制上文所描述的时间混合的程度且使响应于切换瞬间对盲目BWE的臆测执行局限于此小部分,其中由此所得的质量优点超过由不良估计之频宽扩展部分引起的总体音频质量的潜在降级,甚至可使用下文所概述的分析以便抑制时间混合或减小时间混合的量。
图8在图表中展示出编码至数据流中且因此在解码器处可利用的音频信号频谱,以及在自具有较高能量保留性质的编码模式至具有较低能量保留性质的编码模式的切换瞬间,用于数据流的两个连续时间部分(诸如帧)的各个编码模式的能量保留性质,上述两个能量保留性质均在感兴趣的高频频谱带处。图8的切换瞬间因此为在56及图4中所例示的类型,其中“t–1”将表示在切换瞬间前面的时间部分,且“t”将加索引于在切换瞬间后面的时间部分。
如图8中可见,音频信号在高频频谱带66内的能量在后面的时间部分t中与在前面的时间部分t–1中相比而言低得多。然而,问题在于,当自时间部分t–1处的编码模式过渡至时间部分t处的编码模式时,此能量减小是否将完全归因于在高频频谱带66中的能量保留性质减小。
在下文关于图9进一步概述的实施例中,通过评估音频信号在分析频谱带190内的能量来解答该问题,该分析频谱带190是诸如以图8所示的紧邻高频频谱带66的方式配置于高频频谱带66的较低频侧。若评估显示音频信号在分析频谱带190内的能量的波动较高,则很可能在高频频谱带66中的任何能量波动很可能归因于原始音频信号的固有性质,而不是由编码模式切换造成的假影,因此在该情况下,应抑制或逐步减小通过解码器响应于切换瞬间所进行的任何时间平滑化和/或混合。
图9以类似于图7c的方式示意性地展示出在图8的实施例的情况下解码器50的功能性。图9展示出:可从音频信号的在当前切换瞬间前面的时间部分60导出的频谱,类似于图8使用Et-1来指示该频谱;以及可从音频信号的在当前切换瞬间后面的时间部分62导出的频谱,类似于图8使用“Et”来指示该频谱。图9使用参考符号192来展示解码器的时间平滑化/混合工具,该工具响应于切换瞬间,诸如56或上文所论述的切换瞬间中的任何其它切换瞬间,且可根据以上功能性中的任一者来实行,诸如根据图7c来实行。此外,在解码器中提供评估器,其中使用参考符号194来指示该评估器。评估器在分析频谱带190内评估或研究音频信号。例如,评估器194为此使用分别从部分60以及部分62导出的音频信号的能量。例如,评估器194判定音频信号在分析频谱带190内的能量的波动程度,且由此导出决策,根据该决策,应抑制工具190对切换瞬间的响应性或减小工具190的时间平滑化/混合之程度。因此,评估器194相应地控制工具190。下文中更详细地论述评估器194的可能的实行方案。
下文中以更详细的方式描述特定实施例。如上文所描述,下文更详细地概述的实施例试图使用在解码器内执行的两个处理步骤来获得不同BWE与全频带核心之间的无缝过渡。
如上文所概述,该处理是以后处理阶段的形式在解码器侧在频域(诸如FFT域、MDCT域或QMF域)中应用。下文中描述了在编码器内可能已经进一步执行一些步骤,诸如将淡入混合应用于更宽的有效频宽(诸如全频带核心)中。
详言之,关于图10,就如何实行信号适应性平滑化而言描述了更详细的实施例。接下来描述的实施例迄今为止是实行根据图4及图5的70、102的以上实施例的一种可能性,其使用图7c所示的替选方案来设定用于分别在暂时性时段80及108期间进行的缩放的各个缩放因子,且使用上文关于图9所概述的信号适应性来将时间平滑化限于该平滑化带来优点的瞬间。
信号适应性平滑化的目的为,通过防止非预期的能量跳变(energy jump)来获得无缝过渡。相反,需要保留存在于原始信号中的能量变化。上文关于图8亦已经论述后一种情况。
因此,根据现在描述的在解码器侧的信号适应性平滑化功能,执行以下步骤,其中关于在阐释此实施例时所使用的值/变量的阐明及相依性,参考图10。
如图11的流程图所示,在200处,解码器连续地感测当前是否存在切换瞬间。若解码器发现切换瞬间,则解码器执行对分析频谱带中的能量的评估。评估202可例如包含计算分析频谱带的帧内能量差δintra及帧间能量差δinter,该分析频谱带在此处定义为介于fanalysis,start与fanalysis,stop之间的分析频率范围。可涉及以下计算:
δintra=Eanalysis,2-Eanalysis,1
δinter=Eanalysis,1-Eanalysis,prev
δmax=max(|δintra|,|δinter|)
即,该计算可例如计算编码至数据流中的音频信号在分析频谱带中的能量之间的能量差,一次是自均位于切换瞬间204后面的时间部分(即图10中的子帧1及子帧2)取样,且一次是在位于切换瞬间204的相反时间侧的时间部分取样。亦可导出两个差的绝对值的最大值,即δmax。能量判定可使用对频谱时间频块内的频谱线值的平方求和来进行,该频块在时间上在各个时间部分内扩展,且在频谱上分析频谱带内扩展。虽然图10显示在其内判定能量被减数及能量减数的时间部分的时间长度彼此相等,但不一定如此。图10中分别在206、208及210处展示出在其内判定能量被减数/减数的频谱时间频块。
下文中,在214处,使用由步骤202中的评估产生的计算出的能量参数来判定平滑化因子αsmooth。根据一实施例,根据最大能量差δmax来设定αsmooth,即,使得δmax越小,αsmooth越大。例如,αsmooth在区间[0…1]内。虽然202中的评估是例如由图9的评估器194执行,但214的判定是例如由缩放因子判定器170执行。
然而,步骤214中对平滑化因子αsmooth的判定亦可考虑到差值δintra及δinter中之一的为最大值的差值的正负号,即,在δintra的绝对值高于δinter的绝对值的情况下为δintra的符号,且在δinter的绝对值大于δintra的绝对值的情况下为δinter的符号。
详言之,针对存在于原始音频信号中的能量降低,需要应用较少平滑化以防止对原本为低能量的区的能量涂抹,且因此,在最大能量差的符号指示音频信号频谱在分析频谱带190内的能量降低的情况下,在步骤214中可判定αsmooth为较低的值。
在步骤216中,随后将步骤214中所判定的平滑化因子αsmooth应用于以下值:根据高频频谱带66中的在切换瞬间前面的频谱时间频块来判定的前述能量值,亦即Eactual,prev;根据高频频谱带66中的在切换瞬间204之后的频谱时间频块来判定的当前实际能量,亦即Eactual,curr,以便得到形成将要执行时间平滑化的暂时性时段的当前帧或时间部分的目标能量Etarget,curr。根据应用216,将目标能量计算为:
Etarget,curr=αsmooth·Eactual,prev+(1-αsmooth)·Eactual,curr.
216中的应用同样将由缩放因子判定器170执行。
为了将该已定义的目标频率范围ftarget,start至ftarget,stop内的频谱样本x朝向当前目标能量加以缩放而将要应用于频谱时间频块220(其沿着时间轴t在暂时性时段222内扩展,且沿着频谱轴f在高频频谱带66内扩展)的缩放因子的计算于是可涉及:
xnew=αscale·xold.
虽然αscale的计算将例如由缩放因子判定器170执行,但使用αscale作为因子的乘法将由上文所述的缩放器156在频谱时间频宽220内执行。
为完整起见,请注意,可以与上文关于频谱时间频块206至210所描述的方式相同的方式来判定能量Eactual,prev及Eactual,curr:可使用对频谱时间频块224(其时间上在切换瞬间204前面且在高频频谱带66内扩展)内的频谱值的平方求和来判定Eactual,prev,且可使用对频谱时间频块220内的频谱值的平方求和来判定Eactual,curr。
请注意,在图10的实例中,频谱时间频块220的时间宽度示例性地为频谱时间频块206至210的时间宽度的两倍,但此情况并非关键性的,而是可不同地加以设定。
接下来描述用以执行时间混合的具体的更详细实施例。如上文所描述,此频宽混合的目的在于,一方面抑制恼人的频宽波动,且允许与各个切换瞬间相邻的每一编码模式可在其预期有效编码频宽下运行。例如,可应用平滑调适来允许每一BWE可在其预期最佳频宽下运行。
由解码器执行以下步骤:如图12中所示,在切换瞬间时,解码器在230判定切换瞬间的类型,以便区分为类型54的切换瞬间与为类型92的切换瞬间。如图4及图5中所描述,在类型54的情况下执行淡出混合,且在切换类型92的情况下执行淡入混合。另外参考图13A及图13B来首先描述淡出混合。即,若在230中判定了切换类型54,则设定最大混合时间tblend,max并且在频谱上判定混合区,即高频频谱带66,在此处较高频宽编码模式的有效编码频宽超过较低频宽编码模式的有效编码频宽,为类型54的切换瞬间发生在这些编码模式之间。此设定232可涉及:计算频宽差fBW1–fBW2,其中fBW1表示较高频宽编码模式的有效编码频宽的最大频率,且fBW2指示较低频宽编码模式的有效编码频宽的最大频率,该差定义了混合区;以及计算预定义的最大混合时间tblend,max。后一时间值可设定为默认值,或可不同地加以判定,如稍后结合在当前混合程序期间发生的切换瞬间所阐释。
随后,在步骤234中,执行在切换瞬间204之后的编码模式的增强,以便导致在切换瞬间204之后的编码模式的频宽至混合区或高频频谱带66中的辅助扩展234,以便在tblend,max期间无间隙地填充混合区,即,以便填充图13a中的频谱时间频块236。因为此操作234可在无需经由数据流中的旁侧信息之控制的情况下执行,所以辅助扩展234可使用盲目BWE来执行。
随后,在238中计算混合因子wblend,其中tblend,act表示自此处示例性地在t0处的切换以来的实际流逝时间:
wblend=(tblend,max-tblend,act)/tblend,max
图13b中例示出因此所判定的混合因子的时间历程。虽然公式例示出线性混合的实例,但其它混合特性同样可能,诸如二次混合特性、对数混合特性等。在此情况下,通常应注意,混合/平滑化之特性不必为统一的/线性的,或甚至为单调的。本文中所提及之所有增加/减小不一定为单调的。
下文中,在240中,使用混合因子wblend来执行频谱时间频块236内(即在混合区66内,在定义为或限于最大混合时间的暂时性时段期间)的频谱样本x的加权,此是根据
xnew=wblend·xold
即,在缩放步骤240中,根据wblend来缩放频谱时间频块236内的频谱值,更确切地说,即,根据wblend(tblend,act)来缩放时间上在切换瞬间204后面(所流逝时间为tblend,act)的频谱值。
在切换类型92的情况下,在242处,以类似于232的方式执行最大混合时间及混合区的设定。用于切换类型92的最大混合时间tblend,max可不同于在切换类型54的情况下在232中设定的tblend,max。亦参考对混合期间的切换之后续描述。
随后计算混合因子,即wblend。计算244可根据下一段根据自t0处的切换以来的流逝时间,亦即根据tblend,act,来计算混合因子:
wblend=tblend,act/tblend,max
随后使用混合因子以类似于240的方式进行246中的实际缩放。
混合期间的切换
然而,上文所提及的方法仅在混合过程期间未发生另外的切换(如图14a中在t1所展示)的情况下适用。在该情况下,将混合因子计算自淡出切换至淡入,且通过以下来更新流逝时间值
tblend,act=tblend,max-tblend,act
从而产生如图14b中所示在t2完成的还原混合过程。
因此,将在步骤232及242中执行此经修改的更新,以便考虑到被新的当前发生的切换瞬间(此处示例性地在t1)中断的中断式淡入或淡出过程。换言之,解码器将通过应用淡出(或淡入)缩放函数240来在第一切换瞬间t0执行时间平滑化或混合,且在淡出(或淡入)缩放函数240期间发生第二切换瞬间t1的情况下,再次对高频频谱带66应用淡入(或淡出)缩放函数242,以便在第二切换瞬间t1执行时间平滑化或混合,其中设定自第二切换瞬间t2开始的应用淡入(或淡出)缩放函数242的起点,以使得在第二切换瞬间t2应用的淡入(或淡出)缩放函数242在该起点处具有一函数值,该函数值最接近或等于在第一切换瞬间应用的淡出(或淡入)缩放函数240在第二切换瞬间的发生时间t2所假设的函数值。
上文所描述的实施例是关于音频及语音编码,且尤其是关于在切换应用中使用不同频宽扩展方法(BWE)或非能量保留性BWE及无需BWE的全频带核心编码器的编码技术。已提议通过使不同有效输出频宽之间的过渡平滑化来增强感知质量。详言之,使用信号适应性平滑化技术来获得无缝过渡,且使用不同频宽之间的可能但不一定统一的混合技术来达成每一BWE的最佳输出频宽,同时避免令人烦恼的频宽波动。
通过以上实施例避免了在不同BWE或全频带核心之间切换时的非预期能量跳变,而可保留存在于原始信号中的增加及减小(例如,由于嘶嘶声的出现或消失)。此外,示例性地执行不同频宽的平滑调适,以便允许每一BWE在其预期最佳频宽下运行(若其需要作用更长时段)。
除了在使BWE成为必需的切换瞬间的解码器功能性以外,编码器亦可采用相同功能性。诸如图3的30的编码器随后将上文所描述的功能性如下应用于原始音频信号的频谱。
例如,若图3的编码器30能够提前一点预测或体验到为类型54的切换瞬间将会发生,则编码器可例如在紧接在切换瞬间前面的暂时性时段期间初步将音频信号编码成经修改的版本,根据该版本,在该暂时性时段期间使用淡出函数在时间上对音频信号频谱的高频频谱带加以整形,其例如在该暂时性时段的开始处由1开始,且在该暂时性时段的末尾处变为0,该末尾与该切换瞬间重合。经修改的版本的编码可例如包括:首先在切换瞬间前面的时间部分中将音频信号编码成其原始版本,例如直至语法水平;然后在暂时性时段期间用淡出函数来缩放关于高频频谱带66的频谱线值和/或缩放因子。或者,编码器30或者可首先修改音频信号及频谱域以便将淡出缩放函数应用于高频频谱带66中的频谱时间频块,该频谱时间频块在该暂时性时段内扩展,且然后,其次编码分别经修改的音频信号。
在遇到为类型56的切换瞬间时,编码器30可如下起作用。编码器30可在直接在切换瞬间开始的暂时性时段内在高频频谱带66内初步放大(即,扩大)音频信号,其中使用或不使用淡出缩放函数,且可随后编码由此经修改之音频信号。或者,编码器30可首先使用紧接在切换瞬间之后有效的编码模式来编码原始音频信号,直至某一语法元素水平,然后修改后者以便在该暂时性时段期间在高频频谱带内放大音频信号。例如,若针对其发生切换瞬间的编码模式涉及至高频频谱带66中的导引式频宽扩展,则编码器30可在暂时性时段期间适当地扩大关于此高频频谱带的频谱包络的信息。
然而,若编码器30遇到为类型92的切换瞬间,则编码器30可编码在切换瞬间之后的音频信号的时间部分而不进行修改,直至某一语法元素水平,且随后例如对其进行修改以便使该暂时性时段期间的音频信号的高频频谱带经受淡入函数(诸如通过适当地缩放各个频谱时间频块内的缩放因子和/或频谱线值),或编码器30首先在于切换瞬间立即开始的暂时性时段期间在高频频谱带66内修改音频信号,然后编码由此经修改的音频信号。
当遇到为类型94的切换瞬间时,编码器30可例如如下起作用:编码器可在于切换瞬间立即开始的暂时性时段内缩小高频频谱带66内的音频信号频谱(通过应用淡入函数或不应用淡入函数)。或者,编码器可在切换瞬间之后的时间部分使用针对其发生切换瞬间的编码模式来编码音频信号,而不进行任何修改,直至某一语法元素水平,然后改变适当的语法元素以便引起在暂时性时段期间对高频频谱带内的音频信号频谱的各个缩小。编码器可适当地缩小各个缩放因子和/或频谱线值。
虽然已就装置的情境来描述一些方面,但显而易见,这些方面亦表示对应的方法的描述,其中方块或设备对应于方法步骤或方法步骤的特征。类似地,就方法步骤的情境所描述的方面亦表示对应的方块或对应的装置的项目或特征的描述。这些方法步骤中的一些或全部可通过(或使用)例如为微处理器、可规划计算机或电子电路的硬件装置来执行。在一些实施例中,最重要的方法步骤中的某一或多者可通过此装置来执行。
根据特定的实行方案要求,本发明的实施例可在硬件或软件中实行。可使用储存有电子可读控制信号的数字储存媒体来执行实行方案,数字储存媒体例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存,这些电子可读控制信号与可规划计算机系统合作(或能够与可规划计算机系统合作)以使得各个方法得以执行。因此,数字储存媒体可为计算机可读的。
根据本发明的一些实施例包含一种具有电子可读控制信号的数据载体,这些电子可读控制信号能够与可规划计算机系统合作以使得本文中所描述的方法中的一者得以执行。
一般而言,本发明的实施例可实行作为一种具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作来执行这些方法中的一个。该程序代码可例如储存于机器可读载体上。
其它实施例包含用以执行本文中所描述的方法中的一者的计算机程序,其储存于机器可读载体上。
换言之,本发明的方法之一实施例因此是一种具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用以执行本文中所描述的方法中的一个。
本发明的方法的另一实施例因此是一种数据载体(或数字储存媒体或计算机可读媒体),其包含记录于其上的用以执行本文中所描述的方法中的一者的计算机程序。数据载体、数字储存媒体或记录媒体通常为有形的和/或非暂时性的。
本发明的方法的另一实施例因此是一种数据流或一种信号序列,其表示用以执行本文中所描述的方法中的一个的计算机程序。该数据流或该信号序列可例如被配置为经由数据通讯连接(例如经由因特网)加以传递。
另一实施例包含一种处理构件,例如计算机或可规划逻辑设备,其被配置为执行或适于执行本文中所描述的方法中的一个。
另一实施例包含一种计算机,其上安装有用以执行本文中所描述的方法中的一个的计算机程序。
根据本发明的另一实施例包含一种装置或一种系统,其被配置为将用以执行本文中所描述的方法中的一个的计算机程序传递(例如,电子地或光学地)至一接收器。该接收器可例如为计算机、移动设备、内存设备或类似物。该装置或系统可例如包含一用以将计算机程序传递至该接收器的档案服务器。
在一些实施例中,可规划逻辑设备(例如场可规划门阵列)可用来执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,场可规划门阵列可与微处理器合作以便执行本文中所描述的方法中的一个。一般而言,优选通过任何硬件装置来执行这些方法。
可使用硬件装置,或使用计算机,或使用硬件装置与计算机的组合来实行本文中所描述的装置。
可使用硬件装置,或使用计算机,或使用硬件装置与计算机的组合来实行本文中所描述的方法。
上述实施例仅例示出本发明的原理。应理解,本文中所描述的配置及细节的修改及变化对本领域的技术人员而言将显而易见。因此,倾向于仅受即将到来的申请专利范围的范畴限制,而不受本文中经由对实施例的描述及阐释所呈现的特定细节限制。解码器
参考文献
[1]Recommendation ITU-T G.718–Amendment 2:“Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from8-32kbit/s–Amendment 2:New Annex B on superwideband scalable extension forITU-T G.718 and corrections to main body fixed-point C-code and descriptiontext”
[2]Recommendation ITU-T G.729.1–Amendment 6:“G.729-based embeddedvariable bit-rate coder:An 8-32kbit/s scalable wideband coder bitstreaminteroperable with G.729–Amendment 6:New Annex E on superwideband scalableextension”
[3]B.Geiser,P.Jax,P.Vary,H.Taddei,S.Schandl,M.Gartner,C.Guillaumé,S.Ragot:“Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec.G.729.1”,IEEE Transactions on Audio,Speech,and Language Processing,Vol.15,No.8,2007,pp.2496-2509
[4]M.Tammi,L.Laaksonen,A.H.Toukomaa:“Scalable SuperwidebandExtension for Wideband Coding”,IEEE ICASSP 2009,pp.161-164
[5]B.Geiser,P.Jax,P.Vary,H.Taddei,M.Gartner,S.Schandl:“A QualifiedITU-T G.729 EV Codec Candidate for Hierarchical Speech and Audio Coding”,2006IEEE 8th Workshop on Multimedia Signal Processing,pp.114-118
Claims (16)
1.一种解码器,该解码器支持至少两种模式且能够在该至少两种模式之间切换,以便解码信息信号,其中,该解码器被配置为响应于切换瞬间而在该信息信号的第一时间部分(60)与该信息信号的第二时间部分(62)之间的过渡期以局限于高频频谱带(66)的方式来执行时间平滑化和/或混合,其中,该第一时间部分在该切换瞬间前面,该第二时间部分在该切换瞬间后面,
其中,该解码器是响应于切换,该切换为以下切换中的一个或多个:自全频宽音频编码模式至BWE音频编码模式;以及自BWE音频编码模式至全频宽音频编码模式,
其中,该高频频谱带(66)与两种编码模式的有效编码频宽重叠,在该切换瞬间的该切换发生在该两种编码模式之间,并且该高频频谱带(66)与该BWE音频编码模式的频谱BWE扩展部分和该全频宽编码模式的变换频谱部分或线性预测编码频谱部分重叠,
其中,该解码器被配置为在紧接在该过渡期的暂时性部分(80,108)内的该过渡期执行该时间平滑化和/或混合,这是通过以下操作来完成的:该暂时性部分跨越该过渡期或在该过渡期前面,在使用该全频带音频编码模式编码该信息信号的该暂时性部分(80)期间降低该信息信号的能量和/或在使用该BWE音频编码模式编码该信息信号的该暂时性部分(80)期间增加该信息信号的能量,以补偿该全频宽音频编码模式相对于该BWE音频编码模式增加的能量保留性质。
2.根据权利要求1所述的解码器,其中,该解码器被配置为另外根据在分析频谱带(190)中对该信息信号的分析(194)来执行该时间平滑化和/或混合,该分析频谱带(190)在频谱上配置于该高频频谱带(66)下方。
3.一种解码器,该解码器支持至少两种模式且能够在该至少两种模式之间切换,以便解码信息信号,其中,该解码器被配置为响应于切换瞬间而在该信息信号的第一时间部分(60)与该信息信号的第二时间部分(62)之间的过渡期以局限于高频频谱带(66)的方式来执行时间平滑化和/或混合,其中,该第一时间部分在该切换瞬间前面,该第二时间部分在该切换瞬间后面,
其中,该解码器被配置为另外根据在分析频谱带(190)中对该信息信号的分析(194)来执行该时间平滑化和/或混合,该分析频谱带(190)在频谱上配置于该高频频谱带(66)下方,
其中,该解码器被配置为判定对信息信号在该分析频谱带(190)中的能量波动的度量,且根据该度量来设定该时间平滑化和/或混合的程度。
4.根据权利要求3所述的解码器,其中,该解码器被配置为将该度量计算为:在位于该过渡期(204)的相反时间侧的时间部分之间,信息信号在该分析频谱带(190)中的能量之间的第一绝对差;以及在两者均在该过渡期(204)前面的连续的时间部分之间,信息信号在该分析频谱带(190)中的能量之间的第二绝对差。
5.根据权利要求3所述的解码器,其中,该分析频谱带(190)在该高频频谱带(66)的较低频谱侧与该高频频谱带(66)相邻。
6.根据权利要求1或3所述的解码器,其中,该解码器被配置为根据度量用缩放因子在该第二时间部分(62)中缩放该信息信号在该高频频谱带(66)中的能量,该缩放因子在1与
之间变化。
7.根据权利要求1或3所述的解码器,其中,该解码器被配置为通过以下操作来执行该切换和/或混合:将盲目BEW应用于该第一时间部分及该第二时间部分中的一个,其中该一个是使用具有小于第二编码模式的有效编码频宽的有效编码频宽的第一编码模式加以解码,该第一时间部分及该第二时间部分中的另一个是使用该第二编码模式加以解码,以便在频谱上将该第一时间部分及该第二时间部分中的一个的该有效编码频宽扩展至该高频频谱带(66)中,且根据淡入/淡出缩放函数来在已在频谱上扩展的该第一时间部分及该第二时间部分中的一个中在时间上对该信息信号在该高频频谱带中的能量加以整形,该淡入/淡出缩放函数自该过渡期朝向离该过渡期更远处减小直至0。
8.根据权利要求1或3所述的解码器,其中,该切换自第一编码模式切换至第二编码模式,其中,该第一编码模式具有大于该第二编码模式的有效编码频宽的有效编码频宽,其中,该解码器被配置为使用盲目BWE在频谱上将该第二时间部分的该有效编码频宽扩展至该高频频谱带(66)中,且根据淡出缩放函数来在已使用该盲目BWE在频谱上加以扩展的该第二时间部分中在时间上对该信息信号在该高频频谱带中的能量加以整形,该淡出缩放函数自该过渡期朝向离该过渡期更远处减小,直至0。
9.根据权利要求1或3所述的解码器,其中,该切换自第一编码模式切换至第二编码模式,其中,该第一编码模式的有效编码频宽小于该第二编码模式的有效编码频宽,其中,该解码器被配置为根据淡入缩放函数来在该第二时间部分中在时间上对该信息信号在该高频频谱带(66)中的能量加以整形,该淡入缩放函数自该过渡期朝向离该过渡期更远处增加直至1。
10.根据权利要求1或3所述的解码器,其中,该解码器被配置为通过应用淡入或淡出缩放函数来在该切换瞬间执行该时间平滑化和/或混合,且在该淡入或淡出缩放函数期间发生后续切换瞬间的情况下,再次对高频频谱带(66)应用该淡入或淡出缩放函数以便在该后续切换瞬间执行时间平滑化和/或混合,其中,设定自该后续切换瞬间开始的应用该淡入或淡出缩放函数的起点,以使得在该后续切换瞬间应用的该淡入或淡出缩放函数在该起点处为函数值,该函数值最接近在该切换瞬间应用的该淡入或淡出缩放函数在该后续切换瞬间的发生时间所假设的函数值。
11.一种用于解码的方法,该解码支持至少两种模式且能够在该至少两种模式之间切换,以便解码信息信号,其中,该方法包含:响应于切换瞬间而在该信息信号的第一时间部分(60)与该信息信号的第二时间部分(62)之间的过渡期以局限于高频频谱带(66)的方式来执行时间平滑化和/或混合,其中,该第一时间部分在该切换瞬间前面,该第二时间部分在该切换瞬间后面,
其中,该方法包含:响应于以下切换中的一个或多个:自全频宽音频编码模式至BWE音频编码模式;以及自BWE音频编码模式至全频宽音频编码模式,
其中,该高频频谱带(66)与两种编码模式的有效编码频宽重叠,在该切换瞬间的该切换发生在该两种编码模式之间,并且该高频频谱带(66)与该BWE音频编码模式的频谱BWE扩展部分和该全频宽编码模式的变换频谱部分或线性预测编码频谱部分重叠,
其中,通过以下方式在紧接在该过渡期的暂时性部分(80,108)内的该过渡期执行该时间平滑化和/或混合:该暂时性部分跨越该过渡期或在该过渡期前面,在使用该全频带音频编码模式编码该信息信号的该暂时性部分(80)期间降低该信息信号的能量和/或在使用该BWE音频编码模式编码该信息信号的该暂时性部分(80)期间增加该信息信号的能量,以补偿该全频宽音频编码模式相对于该BWE音频编码模式增加的能量保留性质。
12.一种计算机可读储存媒体,存储有具有程序代码的计算机程序,该计算机程序在计算机上运行时用以执行根据权利要求11所述的方法。
13.一种编码器,该编码器支持在高频频谱带中具有变化的信号能量保存性质的至少两种模式且能够在该至少两种模式之间切换,以便编码信息信号,其中,该编码器被配置为响应于切换瞬间而编码该信息信号,该信息信号是在该信息信号的第一时间部分(60)与该信息信号的第二时间部分(62)之间的过渡期以局限于所述高频频谱带(66)的方式在时间上平滑化和/或混合,其中,该第一时间部分在该切换瞬间前面,该第二时间部分在该切换瞬间后面。
14.根据权利要求13所述的编码器,其中,该编码器被配置为响应于自在该高频频谱带中具有第一信号能量保存性质的第一编码模式至在该高频频谱带中具有第二信号能量保存性质的第二编码模式的切换瞬间而暂时性编码该信息信号的经修改的版本,该版本与该信息信号相比而言被修改之处在于根据淡入缩放函数来在该切换瞬间后面的时间部分中在时间上对该信息信号在该高频频谱带中的能量加以整形,该淡入缩放函数自该过渡期朝向离该过渡期更远处单调地增加直至1。
15.一种用于编码器的方法,该编码器支持在高频频谱带中具有变化的信号能量保存性质的至少两种模式且能够在该至少两种模式之间切换,以便编码信息信号,其中,该方法包含:响应于切换瞬间而编码该信息信号,该信息信号是在该信息信号的第一时间部分(60)与该信息信号的第二时间部分(62)之间的过渡期以局限于所述高频频谱带(66)的方式在时间上平滑化和/或混合,其中,该第一时间部分在该切换瞬间前面,该第二时间部分在该切换瞬间后面。
16.一种计算机可读储存媒体,存储有具有程序代码的计算机程序,该计算机程序在计算机上运行时用以执行根据权利要求15所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758086P | 2013-01-29 | 2013-01-29 | |
US61/758,086 | 2013-01-29 | ||
PCT/EP2014/051565 WO2014118139A1 (en) | 2013-01-29 | 2014-01-28 | Concept for coding mode switching compensation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105229735A CN105229735A (zh) | 2016-01-06 |
CN105229735B true CN105229735B (zh) | 2019-11-01 |
Family
ID=50030276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480019089.4A Active CN105229735B (zh) | 2013-01-29 | 2014-01-28 | 用于编码模式切换补偿的技术 |
Country Status (19)
Country | Link |
---|---|
US (4) | US9934787B2 (zh) |
EP (1) | EP2951821B1 (zh) |
JP (2) | JP6297596B2 (zh) |
KR (1) | KR101766802B1 (zh) |
CN (1) | CN105229735B (zh) |
AR (1) | AR094675A1 (zh) |
AU (1) | AU2014211586B2 (zh) |
CA (3) | CA2898572C (zh) |
ES (1) | ES2626809T3 (zh) |
HK (1) | HK1218588A1 (zh) |
MX (1) | MX351361B (zh) |
MY (1) | MY177336A (zh) |
PL (1) | PL2951821T3 (zh) |
PT (1) | PT2951821T (zh) |
RU (1) | RU2625561C2 (zh) |
SG (1) | SG11201505898XA (zh) |
TW (1) | TWI541798B (zh) |
WO (1) | WO2014118139A1 (zh) |
ZA (1) | ZA201506321B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
JP7214726B2 (ja) * | 2017-10-27 | 2023-01-30 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101025918A (zh) * | 2007-01-19 | 2007-08-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101231850A (zh) * | 2007-01-23 | 2008-07-30 | 华为技术有限公司 | 编解码方法及装置 |
CN101305423A (zh) * | 2005-11-08 | 2008-11-12 | 三星电子株式会社 | 自适应的基于时间/频率的音频编码和解码设备和方法 |
EP2311035B1 (en) * | 2008-07-11 | 2012-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN102369569A (zh) * | 2009-05-13 | 2012-03-07 | 华为技术有限公司 | 编码处理方法、编码处理装置与发射机 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3638091B2 (ja) * | 1999-03-25 | 2005-04-13 | 松下電器産業株式会社 | マルチバンドデータ通信装置、マルチバンドデータ通信装置の通信方法および記録媒体 |
JP3467469B2 (ja) * | 2000-10-31 | 2003-11-17 | Necエレクトロニクス株式会社 | 音声復号装置および音声復号プログラムを記録した記録媒体 |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US7406096B2 (en) * | 2002-12-06 | 2008-07-29 | Qualcomm Incorporated | Tandem-free intersystem voice communication |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
CA2566368A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
WO2006079349A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for weighted overlap-add |
KR100715949B1 (ko) * | 2005-11-11 | 2007-05-08 | 삼성전자주식회사 | 고속 음악 무드 분류 방법 및 그 장치 |
KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
KR101441896B1 (ko) * | 2008-01-29 | 2014-09-23 | 삼성전자주식회사 | 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치 |
EP2313885B1 (en) | 2008-06-24 | 2013-02-27 | Telefonaktiebolaget L M Ericsson (PUBL) | Multi-mode scheme for improved coding of audio |
RU2483366C2 (ru) * | 2008-07-11 | 2013-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Устройство и способ декодирования кодированного звукового сигнала |
EP2146343A1 (en) * | 2008-07-16 | 2010-01-20 | Deutsche Thomson OHG | Method and apparatus for synchronizing highly compressed enhancement layer data |
EP2146344B1 (en) * | 2008-07-17 | 2016-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding/decoding scheme having a switchable bypass |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
US8532211B2 (en) * | 2009-02-20 | 2013-09-10 | Qualcomm Incorporated | Methods and apparatus for power control based antenna switching |
CN102598123B (zh) | 2009-10-23 | 2015-07-22 | 松下电器(美国)知识产权公司 | 编码装置、解码装置及其方法 |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
WO2012002768A2 (ko) * | 2010-07-01 | 2012-01-05 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
CN102737636B (zh) * | 2011-04-13 | 2014-06-04 | 华为技术有限公司 | 一种音频编码方法及装置 |
-
2014
- 2014-01-28 JP JP2015555670A patent/JP6297596B2/ja active Active
- 2014-01-28 PT PT147019780T patent/PT2951821T/pt unknown
- 2014-01-28 RU RU2015136797A patent/RU2625561C2/ru active
- 2014-01-28 MX MX2015009535A patent/MX351361B/es active IP Right Grant
- 2014-01-28 PL PL14701978T patent/PL2951821T3/pl unknown
- 2014-01-28 CA CA2898572A patent/CA2898572C/en active Active
- 2014-01-28 AU AU2014211586A patent/AU2014211586B2/en active Active
- 2014-01-28 SG SG11201505898XA patent/SG11201505898XA/en unknown
- 2014-01-28 KR KR1020157023195A patent/KR101766802B1/ko active IP Right Grant
- 2014-01-28 CA CA2979260A patent/CA2979260C/en active Active
- 2014-01-28 CA CA2979245A patent/CA2979245C/en active Active
- 2014-01-28 MY MYPI2015001899A patent/MY177336A/en unknown
- 2014-01-28 WO PCT/EP2014/051565 patent/WO2014118139A1/en active Application Filing
- 2014-01-28 EP EP14701978.0A patent/EP2951821B1/en active Active
- 2014-01-28 CN CN201480019089.4A patent/CN105229735B/zh active Active
- 2014-01-28 ES ES14701978.0T patent/ES2626809T3/es active Active
- 2014-01-29 AR ARP140100291A patent/AR094675A1/es active IP Right Grant
- 2014-01-29 TW TW103103530A patent/TWI541798B/zh active
-
2015
- 2015-07-29 US US14/812,263 patent/US9934787B2/en active Active
- 2015-08-28 ZA ZA2015/06321A patent/ZA201506321B/en unknown
-
2016
- 2016-06-07 HK HK16106533.3A patent/HK1218588A1/zh unknown
-
2017
- 2017-10-27 JP JP2017208082A patent/JP6549673B2/ja active Active
-
2018
- 2018-01-17 US US15/873,550 patent/US10734007B2/en active Active
-
2020
- 2020-06-29 US US16/915,904 patent/US11600283B2/en active Active
-
2023
- 2023-03-06 US US18/179,139 patent/US20230206931A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101305423A (zh) * | 2005-11-08 | 2008-11-12 | 三星电子株式会社 | 自适应的基于时间/频率的音频编码和解码设备和方法 |
CN101025918A (zh) * | 2007-01-19 | 2007-08-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101231850A (zh) * | 2007-01-23 | 2008-07-30 | 华为技术有限公司 | 编解码方法及装置 |
EP2311035B1 (en) * | 2008-07-11 | 2012-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN102369569A (zh) * | 2009-05-13 | 2012-03-07 | 华为技术有限公司 | 编码处理方法、编码处理装置与发射机 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2498419C2 (ru) | Устройство аудио кодирования и декодирования для кодирования фреймов, представленных в виде выборок звуковых сигналов | |
US8862480B2 (en) | Audio encoding/decoding with aliasing switch for domain transforming of adjacent sub-blocks before and subsequent to windowing | |
EP2591470B1 (en) | Coder using forward aliasing cancellation | |
US20230206931A1 (en) | Concept for coding mode switching compensation | |
US20240046941A1 (en) | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition | |
CN101373594A (zh) | 修正音频信号的方法及装置 | |
Thyssen et al. | A candidate for the ITU-T G. 722 packet loss concealment standard | |
BR112015017874B1 (pt) | Conceito para codificar a compensação de comutação de modo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |