CN105264599A - 音频编码器、音频解码器、提供编码及解码音频信息的方法、计算机程序及使用信号适应性带宽扩展的编码表示 - Google Patents
音频编码器、音频解码器、提供编码及解码音频信息的方法、计算机程序及使用信号适应性带宽扩展的编码表示 Download PDFInfo
- Publication number
- CN105264599A CN105264599A CN201480019094.5A CN201480019094A CN105264599A CN 105264599 A CN105264599 A CN 105264599A CN 201480019094 A CN201480019094 A CN 201480019094A CN 105264599 A CN105264599 A CN 105264599A
- Authority
- CN
- China
- Prior art keywords
- audio
- information
- bandwidth expansion
- frequency
- bandwidth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 68
- 238000004590 computer program Methods 0.000 title claims description 19
- 238000001228 spectrum Methods 0.000 claims description 94
- 238000001678 elastic recoil detection analysis Methods 0.000 claims description 62
- 230000003595 spectral effect Effects 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 238000013139 quantization Methods 0.000 claims description 19
- 230000011664 signaling Effects 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 8
- 238000007493 shaping process Methods 0.000 claims description 7
- 230000007480 spreading Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000009527 percussion Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100001669 Emericella variicolor andD gene Proteins 0.000 description 1
- 101100001672 Emericella variicolor andG gene Proteins 0.000 description 1
- 241001237745 Salamis Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005469 granulation Methods 0.000 description 1
- 230000003179 granulation Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 235000015175 salami Nutrition 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于基于输入音频信息提供编码音频信息的音频编码器包括:低频编码器,被配置为编码该输入音频信息的低频部分以获得该低频部分的编码表示;及带宽扩展信息提供器,被配置为基于该输入音频信息提供带宽扩展信息。该音频编码器被配置为以信号适应性方式将带宽扩展信息选择性地包括至该编码音频信息中。一种音频解码器包括:低频解码器,被配置为解码低频部分的编码表示以获得该低频部分的解码表示;及带宽扩展,被配置为针对音频内容的无带宽扩展参数包括于该编码音频信息中的部分而使用盲带宽扩展来获得带宽扩展信号,且针对该音频内容的有带宽扩展参数包括于该编码音频信息中的部分而使用参数导引式带宽扩展来获得该带宽扩展信号。
Description
技术领域
根据本发明的实施例为关于一种用于基于输入音频信息来提供编码音频信息的音频编码器。
根据本发明的其他实施例为关于一种用于基于编码音频信息来提供解码音频信息的音频解码器。
根据本发明的其他实施例为关于一种用于基于输入音频信息来提供编码音频信息的方法。
根据本发明的其他实施例为关于一种用于基于编码音频信息来提供解码音频信息的方法。
根据本发明的其他实施例为关于一种用于执行该方法中的一个的计算机程序。
根据本发明的其他实施例为关于一种表示音频信息的编码音频表示。
根据本发明的一些实施例为关于一种将信号适应性旁侧信息速率用于极低比特率音频写码的一般音频带宽扩展。
背景技术
近年来,已显现对音频内容的编码及解码的增加需求。虽然用于编码音频内容的传输及储存的可用比特率及储存容量实质上已增加,但仍存在对在合理质量下的音频内容(尤其在通信情形中为语音信号)的比特率有效编码、传输、储存及解码的需求。
同期语音写码系统能够以低达6kbps的比特率编码宽带(WB)数字音频内容,亦即,具有高达7至8kHz的频率的信号。最广泛论述的实例为ITU-T标准G.722.2(例如,参见参考案[1])以及最近开发的G.718(例如,参见参考案[4]及[10])及MPEG统一语音及音频编码解码器xHE-AAC(例如,参见参考案[8])。亦称为AMR-WB的G.722.2与G.718两者使用在6.4kHz与7kHz之间的带宽扩展(BWE)技术,以允许基础ACELP核心写码器“专注”于感知上更相关的较低频率(尤其为人类听觉系统为相位敏感情况下的频率),且藉此达成足够质量,尤其在极低比特率下。在xHE-AAC中,将增强型频带复制(eSBR)用于带宽扩展(BWE)。可一般将带宽扩展程序分成两个概念性方法:
●“盲”或“人工”BWE,其中单独地自解码低频(LF)核心写码器信号(亦即,不需要自编码器传输的旁侧信息)重建构高频(HF)分量。此方案由AMR-WB及G.718在16kbps及低于16kbps下使用,以及一些回溯兼容带宽扩展后处理系统对传统窄频带电话语音操作(例如,参见参考案[5]及[9])。
●“导引式”BWE,其与盲带宽扩展的不同之处在于,将用于高频(HF)内容重建构的参数中的一些作为旁侧信息传输至解码器,而非自解码核心信号估计该参数。AMR-WB、G.718、xHE-AAC以及一些其他编码解码器(例如,参见参考案[2]、[7]及[11])使用此方法,但并非在极低比特率下使用。
然而,业已发现,难以在低比特率下提供适当带宽扩展,低比特率在音频内容的重建构时提供足够良好的质量。
因此,存在对带来比特率与音频质量之间的改良取舍的带宽扩展概念的需要。
发明内容
根据本发明的实施例建立一种用于基于输入音频信息来提供编码音频信息的音频编码器。该音频编码器包括低频编码器,被配置为编码该输入音频信息的低频部分以获得该低频部分的编码表示。该音频编码器亦包含带宽扩展信息提供器,被配置为基于该输入音频信息来提供带宽扩展信息。该音频编码器被配置为以信号适应性方式选择性地将带宽扩展信息包括至该编码音频信息中。
根据本发明的此实施例基于以下发现:对于一些类型的音频内容,且甚至对于连续音频内容片段的一些部分,可在不使用任何带宽扩展旁侧信息或仅使用少量带宽扩展旁侧信息(例如,包括至该编码音频信息中的少量带宽扩展参数)的情况下基于该低频部分的该编码表示来达成一良好质量的带宽扩展。然而,该概念亦基于以下发现:因为解码器侧带宽扩展不提供令人满意的音频质量,所以对于其他类型的音频内容,且甚至对于连续音频内容片段的其他部分,可能有必要(或至少非常需要)将带宽扩展旁侧信息(例如,专用带宽扩展参数)或增加量的带宽扩展旁侧信息(例如,当与先前提及的状况相比时)包括至编码音频信息中。
藉由选择性地将带宽扩展信息包括至编码音频信息中(例如,藉由选择性地使包括至编码音频信息中的带宽扩展信息或带宽扩展参数的量变化,或藉由选择性地在带宽扩展信息至编码音频信息中的包括与带宽扩展信息至编码音频信息中的该包括的省略之间切换),可避免在解码器侧带宽扩展事实上不需要带宽扩展信息的状况下,“不必要的”带宽扩展信息消耗宝贵的比特率,且仍可确保在解码器侧带宽扩展实际上需要带宽扩展信息的情况下,亦即,对于音频内容的解码器侧重建构,将带宽扩展信息(或增加量的带宽扩展信息)包括至编码音频信息中。
因此,藉由以信号适应性方式选择性地将带宽扩展信息包括至编码音频信息中,亦即,当带宽扩展信息实际上为达成解码音频信号表示的足够良好质量所需的时,可减小平均比特率,同时仍维持获得良好音频质量的可能性。
换言之,音频编码器可(例如)在带宽扩展信息的提供(其允许在音频解码器侧获得参数导引式带宽扩展)与带宽扩展信息的提供的省略(其使在音频解码器侧使用盲带宽扩展成为必要)之间切换。
因此,可使用上述概念获得比特率与音频质量之间的尤其良好的取舍。
在较佳实施例中,音频编码器包括侦测器,被配置为识别输入音频信息的不能基于低频部分的编码表示且使用盲带宽扩展以足够或所要的质量(例如,就预定质量度量而言)解码的部分。在此状况下,音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。藉由判定或估计(例如,基于输入音频信息的特征,或基于音频信息在音频编码器侧上的部分或完整重建构)输入音频信息的哪些部分不能基于低频部分的编码表示且使用盲带宽扩展以足够(或所要的)质量解码,获得有意义的准则以针对输入音频信息的部分(例如,帧)(或等效地,针对编码音频信息的帧或部分)决定是否将带宽扩展信息包括至编码音频信息中。换言之,藉由侦测器评估的上文所提及的准则允许可藉由解码编码音频信息达成的收听印象与编码音频信息的比特率之间的良好取舍。
在较佳实施例中,音频编码器包括侦测器,被配置为识别输入音频信息的不能以足够或所要的准确度来基于低频部分估计带宽扩展参数的部分。在此状况下,音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。根据本发明的此实施例基于以下发现:关于是否可以足够或所要的准确度来基于低频部分估计带宽扩展参数的判定构成可以适度计算努力来评估且仍构成用于决定是否将带宽扩展信息包括至编码音频信息中的良好准则的准则。
在较佳实施例中,音频编码器包括侦测器,被配置为根据输入音频信息的部分是否为时间上稳定的部分且根据该部分是否具有低通性质而识别该部分。此外,音频编码器被配置为针对输入音频信息的由侦测器识别为具有低通性质的时间上稳定的部分的部分而选择性地省略带宽扩展信息至编码音频信息中的包括。
根据本发明的此实施例基于以下发现:对于输入音频信息的在时间上稳定且包含低通性质的部分,通常不必将带宽扩展信息包括至编码音频信息中,这是因为盲带宽扩展(其不依赖于来自比特流的带宽扩展信息或参数)通常允许此等信号部分的足够良好的重建构。因此,存在可以计算有效方式评估且仍实现良好结果(就比特率与音频质量之间的取舍而言)的准则。
在较佳实施例中,侦测器被配置为根据输入音频信息的部分是否包含有声语音及/或根据该部分是否包含环境(例如,汽车)噪声及/或根据该部分是否包含无打击乐器声的音乐而识别该部分。已发现,可通常以足够音频质量使用盲带宽扩展来重建构包含有声语音或包含环境噪声或包含无打击乐器声的音乐的此等部分,使得对于此等部分,可推荐省略带宽扩展信息至编码音频信息中的包括。
在较佳实施例中,音频编码器包括侦测器,被配置为根据低频部分的频谱包络与高频部分的频谱包络之间的差是否大于或等于预定差度量而识别输入音频信息的部分。在此状况下,音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。
已发现,通常可能不可使用盲带宽扩展来良好地重建构输入音频信息的包含低频部分的频谱包络与高频部分的频谱包络之间的大差值的部分,这是因为在与各别低频部分相比时,盲带宽扩展常常在高频部分中(亦即,在带宽扩展信号中)提供类似频谱包络。因此已发现,对低频部分的频谱包络与高频部分的频谱包络之间的差的评定构成用于决定是否将带宽扩展信息包括至编码音频信息中的良好准则。
在较佳实施例中,侦测器被配置为根据输入音频信息的部分是否包含无声语音及/或根据该部分是否包含打击声而识别该部分。已发现,包含无声语音的部分及包含打击声的部分通常包含以下频谱:其中低频部分的频谱包络实质上不同于高频部分的频谱包络。因此,已发现对无声语音及/或打击声的侦测为用于决定是否将带宽扩展信息包括至编码音频信息中的良好准则。
在较佳实施例中,音频编码器包括侦测器,被配置为判定输入音频信息的部分的频谱倾斜量,且根据所判定的频谱倾斜量是否大于或等于固定或可变的倾斜量阈值而识别输入音频信息的部分。在此状况下,音频编码器被配置为针对输入音频信息的由侦测器识别的部分而选择性地将带宽扩展信息包括至编码音频信息中。已发现,可藉由适度计算努力来导出频谱倾斜量,且该频谱倾斜量仍提供用于关于是否将带宽扩展信息包括至编码音频信息中的决策的良好准则。举例而言,若频谱倾斜量达到或超过倾斜量阈值,则可推断频谱具有高通性质且不可藉由盲带宽扩展来良好地建构。详言之,盲带宽扩展通常不可以良好准确度来重建构包含正倾斜量(其中相比于低频部分,着重强调高频部分)的频谱。此外,由于在正倾斜量的状况下,高频部分具有特定感知相关性,因此在此等状况下可推荐将带宽扩展信息包括至编码音频表示中。
在较佳实施例中,侦测器被进一步配置为判定输入音频信息的部分的过零率,且还根据所判定的过零率是否大于或等于固定或可变的过零率阈值而识别输入音频信息的部分。已发现,过零率亦为用以侦测输入音频信息的不可使用盲带宽扩展来良好地重建构使得将带宽扩展信息包括至编码音频信息中有意义(就达成比特率与音频质量之间的良好取舍而言)的部分的良好准则。
在较佳实施例中,侦测器被配置为应用滞后以用于识别输入音频信息的信号部分,以减少在所识别的信号部分(对于该部分,将带宽扩展信息包括至编码音频表示中)与未识别的信号部分(对于该部分,不将带宽扩展信息包括至编码音频表示中)之间的转变的数目。已发现,避免以下两者之间的过多切换系有利的:带宽扩展信息至编码音频信息中的包括,及带宽扩展信息至编码音频表示中的包括的省略,这是因为此等转变可带来一些伪讯(artifact),尤其在转变的数目极高的情况下系如此。因此,使用可(例如)应用于倾斜量阈值(其接着为可变倾斜量阈值)或过零率阈值(其接着为可变过零率阈值)的滞后,可达成此目标。
在较佳实施例中,音频编码器被配置为以信号适应性方式选择性地将表示输入音频信息的高频部分的频谱包络的参数作为带宽扩展信息包括至编码音频信息中。此实施例基于以下想法:表示高频部分的频谱包络的参数在参数导引式带宽扩展中尤其重要,使得包括表示输入音频信息的高频部分的频谱包络的该参数允许在不引起高比特率的情况下达成良好质量的带宽扩展。
在较佳实施例中,低频编码器被配置为编码输入音频信息的低频部分,该低频部分包含高达位于6kHz与7kHz之间的范围中的最大频率的频率。此外,音频编码器被配置为选择性地将描述具有在300Hz与500Hz之间的带宽的高频信号部分或子部分(例如,具有高于大约6至7kHz的频率的信号部分)的强度的三个至五个参数包括至编码音频表示中。已发现,此概念导致良好音频质量而实质上不损害比特率努力。
在较佳实施例中,音频编码器被配置为选择性地将描述四个高频信号部分(或子部分)的强度的3至5个标量量化参数包括至编码音频表示中,该高频信号部分(或子部分)涵盖高于低频部分的频率范围。已发现,使用描述四个高频信号部分的强度的3至5个标量量化参数通常足以达成参数导引式带宽扩展,该参数导引式带宽扩展胜过可由盲带宽扩展针对相同信号部分而获得的相对较低音频质量。因此,无关于经重建构音频信号系使用盲带宽扩展或导引式带宽扩展来重建构,经重建构音频信号部分之间不存在大的质量差异。因此,上文所提及的概念良好地适于允许盲带宽扩展与参数导引式带宽扩展之间的切换的概念。
在较佳实施例中,音频编码器被配置为选择性地将描述频谱相邻的频率部分的能量之间的关系的多个参数包括至编码音频表示中,其中,该参数中的一个描述第带宽扩展高频部分与低频部分的能量之间的比率,且其中,该参数中的其他参数描述(多对)其他带宽扩展高频部分的能量之间的比率。已发现,描述不同(较佳相邻)频率部分的能量(或等效地,强度)之间的比率(或差)的此概念允许带宽扩展信息的有效编码。亦已发现,可通常藉由仅少量比特来量化描述频谱相邻的频率部分的能量之间的关系的此等参数,而实质上不损害可由带宽扩展达成的音频质量。
根据本发明的另一实施例建立一种用于基于编码音频信息来提供解码音频信息的音频解码器。该音频解码器包括低频解码器,被配置为解码(音频内容的)低频部分的编码表示以获得低频部分的解码表示。音频解码器亦包含带宽扩展,被配置为针对音频内容的无带宽扩展参数包括于编码音频信息中的部分而使用盲带宽扩展来获得带宽扩展信号,且针对音频内容的有带宽扩展参数包括于编码音频信息中的部分而使用参数导引式带宽扩展来获得带宽扩展信号。
此音频编码器基于以下想法:若甚至在连续音频内容片段内仍有可能在盲带宽扩展与参数导引式带宽扩展之间切换,则可达成音频质量与比特率之间的良好取舍,这是因为已发现,许多典型的音频内容片段包含可使用盲带宽扩展来获得良好音频质量的区段与需要参数导引式带宽扩展以便达成足够音频质量的区段两者。此外,应显而易见,上文关于音频编码器所解释的相同考虑亦适用于音频解码器。
在较佳实施例中,音频解码器被配置为在逐帧基础上决定使用盲带宽扩展或使用参数导引式带宽扩展来获得带宽扩展信号。已发现,盲带宽扩展与参数导引式带宽扩展之间的此精细粒度级(逐帧)切换有助于将比特率保持为合理地低的,即使有规律地存在需要参数导引式带宽扩展以避免音频内容的过度降级的一些帧亦如此。
在较佳实施例中,音频解码器被配置为在连续音频内容片段内在使用盲带宽扩展与使用参数导引式带宽扩展之间切换。此实施例基于以下发现:甚至单一(连续)音频内容片段常常仍包含不同种类的分段(或部分,或帧),应使用参数导引式带宽扩展编码(及因此,解码)其中的一些,而可使用盲带宽扩展解码其他分段或帧,而无音频质量的显著降级。
在较佳实施例中,音频解码器被配置为针对音频内容的不同部分(例如,帧)而评估包括于编码音频信息中的旗标,以决定使用盲带宽扩展或参数导引式带宽扩展(例如,对于与旗标相关联的帧)。因此,应使用盲带宽扩展或参数导引式带宽扩展的决策保持为简单的,且音频解码器无需具有决定使用盲带宽扩展或参数导引式带宽扩展的显著智慧。
然而,在另一较佳实施例中,音频解码器被配置为在不评估带宽扩展模式信令旗标的情况下基于低频部分的编码表示来决定使用盲带宽扩展或参数导引式带宽扩展。因此,藉由在音频解码器中提供智能性,可省略带宽扩展模式信令旗标,此减小比特率。
在较佳实施例中,音频解码器被配置为基于(音频内容的)低频部分的解码表示的一或多个特征来决定使用盲带宽扩展或参数导引式带宽扩展。已发现,低频部分的解码表示的特征构成多个量,可以良好准确度来使用该量以决定使用盲带宽扩展或参数导引式带宽扩展。若在音频编码器侧处使用相同特征,则尤其为如此状况。因此,不再有必要评估带宽扩展模式信令旗标,其又允许减小比特率,这是因为在音频编码器侧处不必将带宽扩展模式信令旗标包括至编码音频表示中。
在较佳实施例中,音频解码器被配置为基于量化线性预测系数及/或(音频内容的)低频部分的解码表示的时域统计来决定使用盲带宽扩展或参数导引式带宽扩展。已发现,可易于在音频解码器侧处获得量化线性预测系数,且藉由允许导出频谱倾斜量,量化线性预测系数可因此充当使用盲带宽扩展或参数导引式带宽扩展的良好指示。此外,亦可易于在音频编码器侧处存取量化线性预测系数,使得有可能容易地在音频编码器侧处及在音频解码器侧处协调盲带宽扩展与参数导引式带宽扩展之间的切换。类似地,已发现低频部分的解码表示的时域统计(诸如,过零率)为用于在音频解码器侧处决定使用盲带宽扩展或参数导引式带宽扩展的可靠量。
在较佳实施例中,带宽扩展被配置为针对输入音频信息(或内容)的无带宽扩展参数包括于编码音频信息中的时间部分而使用低频部分的解码表示的一或多个特征及/或使用低频解码器的一或多个参数来获得带宽扩展信号。已发现,此盲带宽扩展导致良好音频质量。
在较佳实施例中,带宽扩展被配置为针对输入音频信息(或内容)的无带宽扩展参数包括于编码音频信息中的时间部分而使用频谱矩心信息及/或使用能量信息及/或使用(频谱)倾斜量信息及/或使用写码滤波器系数来获得带宽扩展信号。已发现,使用此等量得到获得良好质量的带宽扩展的有效方式。
在较佳实施例中,带宽扩展被配置为针对音频内容的有带宽扩展参数包括于编码音频信息中的时间部分而使用描述高频部分的频谱包络的比特流参数来获得带宽扩展信号。已发现,使用描述高频部分的频谱包络的比特流参数允许具有良好质量的比特率有效参数导引式带宽扩展,其中描述频谱包络的比特流参数通常不需要高比特率,但每音频帧可仅藉由相对少量的比特来编码。因此,甚至朝向参数导引式带宽扩展的切换仍不导致比特率的显著增加。
在较佳实施例中,带宽扩展被配置为评估三个至五个比特流参数,以便获得带宽扩展信号,该比特流参数描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度。已发现,相对少量的比特流参数足以获得在感知上重要的范围上的带宽扩展,使得可以小的比特率增加来获得良好音频质量。
在较佳实施例中,以2或3个比特的分辨率标量量化描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度的三个至五个比特流参数,使得每音频帧存在6个至15个比特的带宽扩展频谱成形参数。已发现,此选择允许参数导引式带宽扩展的极高比特率效率,同时带宽扩展质量通常与可针对音频内容的“非关键”部分使用盲带宽扩展获得的带宽扩展质量相当,在该“非关键”部分中,盲带宽扩展提供良好结果。因此,在应用盲带宽扩展的状况与应用参数导引式带宽扩展的状况两者下,存在平衡质量。
在较佳实施例中,带宽扩展被配置为在自盲带宽扩展切换至参数导引式带宽扩展及/或在自参数导引式带宽扩展切换至盲带宽扩展时执行带宽扩展信号的能量的平滑。因此,可避免可由盲带宽扩展及参数导引式带宽扩展的不同特性引起的卡嗒声或“区块伪讯”。
在较佳实施例中,带宽扩展被配置为针对在音频内容的应用有盲带宽扩展的部分之后的音频内容的应用有参数导引式带宽扩展的部分而使带宽扩展信号的高频部分衰减。此外,带宽扩展被配置为针对在音频内容的应用有参数导引式带宽扩展的部分之后的音频内容的应用有盲带宽扩展的部分而减少对带宽扩展信号的高频部分的衰减。因此,可将盲带宽扩展通常展示低通特性(而对于参数导引式带宽扩展未必为如此状况)的效应补偿至某一程度。因此,减少了音频内容的使用盲带宽扩展及使用参数导引式带宽扩展解码的部分之间的转变处的伪讯。
根据本发明的另一实施例建立一种用于基于输入音频信息来提供编码音频信息的方法。该方法包含编码输入音频信息的低频部分以获得低频部分的编码表示。该方法亦包含基于输入音频信息提供带宽扩展信息。以信号适应性方式选择性地将带宽扩展信息包括至编码音频信息中。此方法基于与上述音频编码器相同的考虑。
根据本发明的另一实施例建立一种用于基于编码音频信息来提供解码音频信息的方法。该方法包含解码低频部分的编码表示以获得低频部分的解码表示。该方法进一步包含针对音频内容的无带宽扩展参数包括于编码音频信息中的部分而使用盲带宽扩展来获得带宽扩展信号。该方法进一步包含针对音频内容的有带宽扩展参数包括于编码音频信息中的部分而使用参数导引式带宽扩展来获得带宽扩展信号。此方法基于与上述音频解码器相同的考虑。
根据本发明的另一实施例建立一种计算机程序,其用于在该计算机程序在计算机上执行时执行上文所提及的方法中的一者。
根据本发明的另一实施例建立一种表示音频信息的编码音频表示。该编码音频表示包含音频信息及带宽扩展噪声的低频部分的编码表示。针对音频信息的一些但非所有部分而以信号适应性方式将带宽扩展信息包括于编码音频表示中。藉由上文所描述的音频编码器提供此编码音频信息,且可藉由上文所描述的音频解码器评估此编码音频信息。
附图说明
随后将参看随附诸图来描述根据本发明的实施例,其中:
图1展示根据本发明的实施例的音频编码器的方块示意图;
图2展示根据本发明的另一实施例的音频编码器的方块示意图;
图3展示频率部分及与其相关联的编码音频信息的图形表示;
图4展示根据本发明的实施例的音频解码器的方块示意图;
图5展示根据本发明的另一实施例的音频解码器的方块示意图;
图6展示根据本发明的实施例的用于提供编码音频表示的方法的流程图;
图7展示根据本发明的实施例的用于提供解码音频表示的方法的流程图;
图8展示根据本发明的实施例的编码音频表示的示意说明。
具体实施方式
1.根据图1的音频编码器
图1展示根据本发明的实施例的音频编码器的方块示意图。
根据图1的音频编码器100接收输入音频信息110,且基于输入音频信息提供编码音频信息112。音频编码器100包含低频编码器120,被配置为编码该输入音频信息110的低频部分以获得该低频部分的编码表示122。该音频编码器100亦包含带宽扩展信息提供器130,被配置为基于输入音频信息110来提供带宽扩展信息132。该音频编码器100被配置为以信号适应性方式选择性地将带宽扩展信息132包括至编码音频信息112中。
关于音频编码器100的功能性,可据称音频编码器100提供对输入音频信息110的比特率有效编码。使用低频编码器120编码(例如)在高达大约6或7kHz的频率范围中的低频部分,其中可使用已知音频编码概念中的任一者。举例而言,低频编码器120可为“一般音频”编码器(例如,如AAC音频编码器)或语音类型的音频编码器(例如,如基于线性预测的音频编码器、CELP音频编码器、ACELP音频编码器或其类似者)。因此,使用习知概念中的任一者编码输入音频信息的低频部分。然而,将低频部分的编码表示122的比特率保持为合理地低的,这是因为仅编码高达大约6至7kHz的频率分量。此外,音频编码器100能够提供带宽扩展信息,例如,呈描述输入音频信息110的高频部分(例如,如包含高于由低频编码器120编码的频率区域的频率的频率区域)的带宽扩展参数的形式。因此,带宽扩展信息提供器130能够提供编码音频信息112的旁侧信息,其可控制在图1中未展示的音频解码器侧处执行的带宽扩展。带宽扩展信息(或带宽扩展旁侧信息)可(例如)表示输入音频信息的高频部分(亦即,输入音频信息的未由低频编码器120涵盖的频率范围)的频谱形状(或频谱包络)。
然而,音频编码器100被配置为以信号适应性方式决定是否应将带宽扩展信息包括至编码音频信息112中。因此,音频编码器100能够仅在音频信息于音频解码器侧处的重建构要求(或至少需要)带宽扩展信息的情况下才将带宽扩展信息包括至编码音频信息112中。在此情境中,音频编码器亦可针对输入音频信息的部分(或等效地,编码音频信息的部分)而控制是否由带宽扩展信息提供器130提供带宽扩展信息132,这是因为若不应将带宽扩展信息包括至编码音频信息中,则当然不必为输入音频信息(或编码音频信息)的部分提供带宽扩展信息。因此,若基于由音频编码器100执行的一些分析程序及/或决策程序而发现,当在音频解码器处重建构音频内容的对应部分时不需要带宽扩展信息来获得某音频质量,则音频编码器100能够藉由避免将带宽扩展信息132包括至编码音频信息112中而将编码音频信息112的比特率保持为尽可能小。
因此,音频编码器100仅在音频解码器侧处需要带宽扩展信息(以获得某音频质量)的情况下才将带宽扩展信息包括至编码音频信息中,此情形一方面有助于减小编码音频信息112的比特率,且另一方面确保,若在于音频解码器侧处解码编码音频信息时需要带宽扩展信息以避免不良音频质量,则将适当带宽扩展信息132包括于编码音频信息112中。因此,当与习知解决方案相比时,藉由音频编码器100达成比特率与音频质量之间的改良取舍。
举例而言,音频解码器可每音频帧决定是否应将带宽扩展信息包括至编码音频信息112中(或甚至是否应判定带宽扩展信息)。然而替代地,音频解码器可每“输入”(例如,每音频档案或每音频串流)决定是否应将带宽扩展信息包括至编码音频信息112中,为此目的,可分析(例如,在编码之前)输入使得以信号适应性方式作出决策。
2.根据图2的音频编码器
图2展示根据本发明的实施例的音频编码器的方块示意图。音频编码器200接收输入音频信息210,且基于输入音频信息提供编码音频信息212。音频编码器200包含低频编码器220,其可实质上与上文所描述的低频编码器120相同。低频编码器220提供输入音频信息(或等效地,由输入音频信息210表示的音频内容)的低频部分的编码表示222。音频编码器200亦包含带宽扩展信息提供器230,其可实质上与上文所描述的带宽扩展信息提供器130相同。带宽扩展信息提供器230通常接收输入音频信息210。然而,带宽扩展信息提供器230亦可自低频编码器220接收控制信息(或中间信息),其中,该控制信息(或中间信息)可(例如)包含关于输入音频信息210的低频部分的频谱(或频谱形状或频谱包络)的信息。然而,控制信息(或中间信息)亦可包含编码参数(例如,LPC滤波器系数或变换域值,如MDCT系数或QMF系数)或其类似者。此外,带宽扩展信息提供器230可视情况接收低频部分的编码表示222或其至少一部分。此外,音频编码器200包含侦测器240,被配置为针对输入音频信息210的给定部分(或编码音频信息212的给定部分)而决定是否将带宽扩展信息包括至编码音频信息212中。视情况,侦测器240亦可针对输入音频信息210(或编码音频信息212)的该给定部分而判定是否由带宽扩展信息提供器230判定该带宽扩展信息。因此,侦测器240可接收输入音频信息210,及/或来自低频编码器220的控制信息或中间信息224(例如,如上文所描述),及/或低频部分的编码表示222。此外,侦测器240被配置为提供控制信号242,其控制带宽扩展信息的选择性提供及/或带宽扩展信息至编码音频信息212中的选择性包括。
关于音频编码器200的功能性,参考上文关于音频编码器100而进行的解释。
此外,应注意,侦测器240包含中心作用,这是因为侦测器240决定是否将带宽扩展信息包括至编码音频信息212中,且因此决定接收编码音频信息212的音频解码器使用盲带宽扩展或使用参数导引式带宽扩展(其中带宽扩展信息表示导引参数导引式带宽扩展的参数)来重建构由输入音频信息210描述的音频内容。
一般而言,侦测器基于使用盲带宽扩展的低频部分的编码表示222来识别输入音频信息的不能以足够或所要的质量解码的部分。换言之,侦测器240应辨识何时低频部分的编码表示222单独地不允许具有足够质量的盲带宽扩展。不同而言,侦测器240较佳识别输入音频信息的部分,对于该部分,不可以足够(或所要的)准确度来基于低频部分估计带宽扩展参数从而达成可接受(或所要的)音频质量。因此,侦测器240可针对输入音频信息的不能基于使用盲带宽扩展(亦即,不自编码器接收任何带宽扩展信息)的低频部分的编码表示222以足够或所要的质量解码的部分而使用控制信号242判定应将带宽扩展信息包括至编码音频信息中。等效地,侦测器可针对输入音频信息的不能以足够或所要的准确度来基于低频部分(或等效地,低频部分的编码表示222)估计带宽扩展参数的部分而使用控制信号242判定应将带宽扩展信息包括至编码音频信息中。
为了识别应将带宽扩展信息包括至编码音频信息中的此等部分(或等效地,为了识别输入音频信息的不必将带宽扩展信息包括至编码音频信息212中的部分),侦测器240可使用不同策略。如上文所提及,侦测器240可接收不同类型的输入信息。在一些状况下,是否应将带宽扩展信息包括至编码音频信息212中的侦测器决策可仅基于输入音频信息210。换言之,侦测器240可(例如)被配置为分析输入音频信息210以发现,对于输入音频信息的哪些部分(其对应于编码音频信息212的部分),有必要将带宽扩展信息232包括至编码音频信息212中以达成可接受(或所要的)音频质量。然而,侦测器240的决策可替代地基于由低频编码器200提供的一些控制信息或中间信息224。替代地或另外,侦测器240的决策可基于输入音频信息210的低频部分的编码表示222。因此,侦测器可评估不同量以判定(或估计)音频解码器侧处的盲带宽扩展是否将导致足够音频质量(或可能导致足够音频质量,或预期导致足够音频质量)。
举例而言,侦测器可判定输入音频信息210的部分是否为时间上稳定的部分,且输入音频信息210的部分是否具有低通性质。举例而言,侦测器240可推断,对于被发现为时间上稳定的部分且具有低通性质的部分,不必将带宽扩展信息包括至编码音频信息212中,这是因为已认识到,通常可在音频解码器侧处甚至使用盲带宽扩展以足够良好的音频质量来再现输入音频信息210的此等部分。这归因于如下事实:盲带宽扩展通常对输入音频信息(或内容)的不包含音频内容的强改变(或不包含音频内容的任何瞬变或其他强变化)且可因此被视为在时间上稳定的部分良好地起作用。此外,已发现,盲带宽扩展对音频内容的包含低通性质的部分(亦即,对音频内容的低频部分的强度高于高频部分的强度的部分)良好地起作用,这是因为此情形为大多数盲带宽扩展概念的基础假定。因此,对于具有低通性质的此等时间上稳定的部分,侦测器240可使用控制信号242来用信号通知选择性地省略带宽扩展信息至编码音频信息212中的包括。
举例而言,侦测器240可被配置为识别输入音频信息的包含有声语音的部分,及/或输入音频信息的包含环境噪声的部分,及/或输入音频信息的包含无打击乐器声的音乐的部分。输入音频信息的此等部分通常为时间上稳定的且包含低通性质,使得对于此等部分,侦测器240通常用信号通知省略带宽扩展信息至编码音频信息中的包括。
替代地或另外,侦测器240可分析是否可基于低频部分的频谱包络以合理准确度(例如,使用由盲带宽扩展应用的概念)预测输入音频信息的高频部分中的频谱形状。因此,侦测器可(例如)被配置为判定低频部分的频谱包络(例如,其可由中间信息224或由低频部分的编码表示222描述)与高频部分的频谱包络(例如,其可由侦测器240基于输入音频信息210判定)之间的差是否大于或等于预定义差度量。举例而言,侦测器240可依据强度差或依据形状差异或依据随频率的变化或依据频谱包络的任何其他特性特征来判定该差。因此,侦测器240可响应于发现低频部分的频谱包络与高频部分的频谱包络之间的差大于或等于预定义差度量而决定(及用信号通知)将带宽扩展信息232包括至输入音频信息中。换言之,侦测器240可判定可基于低频部分的频谱包络预测高频部分的频谱包络的良好程度,且若该预测不可能伴随有良好结果(例如,其为若高频部分的所预测频谱包络与高频部分的实际频谱包络存在很大不同的状况),则可推断在音频解码器侧处将需要带宽扩展信息232。然而,替代比较高频部分的所预测频谱包络与高频部分的实际频谱包络,侦测器240可替代地比较低频部分的频谱包络与高频部分的频谱包络。若假定在应用盲带宽估计时高频部分的频谱包络通常类似于低频部分的频谱包络,则此比较有意义。
替代地或另外,侦测器240可识别包含无声语音的部分及/或包含打击声的部分。由于在此等状况下,高频部分的频谱包络通常与低频部分的频谱包络存在很大不同,因此侦测器可针对输入音频信息(或编码音频信息)的包含无声语音或包含打击声的此等部分而用信号通知将带宽扩展信息包括至编码音频表示中。
然而,替代地或另外,侦测器240可分析输入音频信息210的部分的频谱倾斜量。又,侦测器240可使用关于输入音频信息的部分的频谱倾斜量的信息以决定是否应将带宽扩展信息232包括至编码音频信息212中。此概念基于以下想法:盲带宽扩展对音频内容的在与高频范围相比时在低频范围中存在更多能量(或大体上为强度)的部分良好地起作用。相比之下,若高频部分(亦指定为高频范围)为“占优势的”,亦即,包含大量能量,则盲带宽扩展通常不可良好地再现音频内容,使得应将带宽扩展信息包括至编码音频信息中。因此,在一些实施例中,侦测器判定频谱倾斜量(其描述能量或大体上强度在频率上的分布)是否大于或等于固定或可变的倾斜量阈值。若频谱倾斜量大于或等于固定或可变的倾斜量阈值(其意谓至少在与能量或强度随频率增加而减小的“正常”状况相比时在音频内容的高频部分中存在相对大的能量或强度),则侦测器可决定将带宽扩展信息包括至编码音频信息中。
除上文所提及的特征中的一些或全部外,侦测器亦可评估输入音频信息的部分的过零率。此外,是否包括带宽扩展信息的侦测器决策亦可基于所判定的过零率是否大于或等于固定或可变的过零率阈值。此概念基于以下考虑:高过零率通常指示高频在输入音频信息中起重要作用,此又指示应在音频解码器侧处使用参数导引式带宽扩展。
此外,应注意,侦测器240可较佳使用一些滞后以避免在以下两者之间的过多切换:带宽扩展信息232至编码音频信息中的包括,及该包括的省略。举例而言,可将滞后应用于可变倾斜量阈值、可变过零率阈值或用以关于自带宽扩展信息的包括至该包括的避免或自该包括的避免至该包括的转变而作出决策的任何其他阈值。因此,滞后可使阈值变化,以便减小在针对输入音频信息的当前部分而包括带宽扩展信息时切换至带宽扩展信息的包括的省略的机率。类似地,可使阈值变化,以减少在针对输入音频信息的当前部分而避免带宽扩展信息的包括时切换至带宽扩展信息的包括的机率。因此,可减少可由不同模式之间的转变引起的伪讯。
在下文中,将论述关于带宽扩展信息提供器230的一些细节。详言之,将解释响应于侦测器用信号通知应将带宽扩展信息232包括至编码音频信息中而将哪一信息包括至编码音频信息212中。出于解释的目的,亦将参看图3,其展示输入音频信息的频率部分及包括至编码音频表示中的参数的示意性表示。横坐标310描述频率,且纵坐标312描述不同频谱频格(例如,如MDCT系数、QMF系数、FFT系数或其类似者)的强度(例如,如振幅或能量的强度)。如可见的,输入音频信息的低频部分可(例如)涵盖自较低频率边界(例如,0或50Hz,或300Hz,或任何其他合理的较低频率边界)直至大约6.4kHz的频率的频率范围。如可见的,可为此低频部分(例如,自300Hz至6.4kHz,或其类似者)提供编码表示222。此外,存在(例如)范围为自6.4kHz至8kHz的高频部分。然而,高频部分当然可涵盖通常由人类接听者可感知的频率范围限制的不同频率范围。然而,在图3中可见,作为一实例,以参考数字320展示的频谱包络在高频部分中包含不规则形状。此外,可见频谱包络320在高频部分中包含相对大的能量,且甚至包含在7.2kHz与7.6kHz之间的相对高的能量。作为比较,亦在图3中展示第二频谱包络330,其中第二频谱包络330展示高频部分中的强度或能量(例如,每单位频率)的减退。因此,频谱包络320通常将使侦测器针对包含频谱包络320的部分而决定将带宽扩展信息包括至编码音频表示中,而频谱包络330通常将使侦测器针对音频内容的包含频谱包络330的部分而决定省略带宽扩展信息的包括。
如进一步可见的,对于音频内容的包含频谱包络320的部分,四个标量参数将作为带宽扩展信息包括至编码音频表示中。第一标量参数可(例如)描述在6.4kHz与6.8kHz之间的频率区域的频谱包络(或频谱包络的平均值),第二标量参数可描述在6.8kHz与7.2kHz之间的频率区域的频谱包络320(或其平均值),第三标量参数可描述在7.2kHz与7.6kHz之间的频率区域的频谱包络320(或其平均值),且第四标量参数可描述在7.6kHz与8kHz之间的频率区域的频谱包络(或其平均值)。该标量参数可以绝对或相对方式描述(例如)关于频谱上先前的频率范围(或区域)的频谱包络。举例而言,第一标量参数可描述以下两者之间的强度比率(例如,其可经正规化至某一量):在6.4kHz与6.8kHz之间的频率区域中的频谱包络,及在较低频率区域(例如,低于6.4kHz)中的频谱包络。第二、第三及第四标量参数可(例如)描述邻近频率范围中的频谱包络(的强度)之间的差(或比率),使得(例如)第二标量参数可描述以下两者之间的比率:在6.8kHz与7.2kHz之间的频率范围中的频谱包络(的平均值),及在6.4kHz与6.8kHz之间的频率范围中的频谱包络。
此外,应注意到,在任何状况下可包括低频部分的编码表示,亦即,低于6.4kHz的频率部分。可使用熟知编码概念中的任一者来编码低于6.4kHz的频率部分(低频部分),例如,使用如AAC(或其衍生编码)的“一般音频”编码或语音写码(例如,如CELP、ACELP或其衍生编码)。因此,对于音频内容的包含频谱包络320的部分,低频部分的编码表示与四个标量带宽扩展参数(可使用相对少量比特来量化该参数)两者将包括至编码音频表示中。相比之下,对于音频内容的包含频谱包络330的部分,仅低频部分的编码表示将包括至编码音频表示中,但无(标量)带宽扩展参数将包括至编码音频表示中(然而,此情形不会引起严重问题,这是因为频谱包络330展现可使用盲带宽扩展来良好地再现的规则及减退(低通)特性)。
总之,音频编码器200被配置为以信号适应性方式选择性地将表示输入音频信息的高频部分的频谱包络的参数作为带宽扩展信息包括至编码音频信息中。举例而言,可以信号适应性方式将参看图3所提及的标量带宽扩展参数包括至编码音频信息中。一般而言,较低频率编码器220可被配置为编码输入音频信息210的低频部分,该低频部分包含高达位于6kHz与7kHz之间的范围中的最大频率(其中已在图3的实例中使用6.4kHz的边界)的频率。此外,音频编码器可被配置为选择性地将三个至五个参数包括至编码音频表示中,该参数描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度。在图3的实例中,已展示描述具有大约400Hz的带宽的高频信号部分的强度的四个标量参数。换言之,音频编码器可被配置为将描述四个高频信号部分的强度的四个标量量化参数包括至编码音频表示中,该高频信号部分涵盖高于低频部分(例如,如参看图3所解释)的频率范围(例如,如图3中所展示)。举例而言,音频编码器可被配置为选择性地将描述频谱上邻近的频率部分的能量或强度之间的关系的多个参数包括至编码音频表示中,其中,该参数中的一个描述第带宽扩展高频部分的能量或强度与低频部分的能量或强度之间的比率,且其中,该参数中的其他参数描述其他带宽扩展高频部分(其中,该带宽扩展高频部分可为在6.4kHz与6.8kHz之间、在6.8kHz与7.2kHz之间、在7.2kHz与7.6kHz之间及在7.6kHz与8kHz之间的频率部分的能量或强度之间的比率)。替代地,可向量量化三个至五个包络形状参数(描述高频信号部分的强度)。向量量化通常稍微比标量量化更有效。另一方面,向量量化比标量量化更复杂。换言之,可替代地使用向量量化(而非使用标量量化)执行四个带宽扩展能量值的量化。
总之,音频编码器可被配置为将相对简单的带宽扩展信息包括至编码音频表示中,使得仅对于输入音频信息(或编码音频表示)的由侦测器发现将需要参数导引式带宽扩展的部分,稍微增加编码音频表示的比特率。
3.根据图4的音频解码器
图4展示根据本发明的实施例的音频解码器的方块示意图。根据图4的音频解码器400接收编码音频信息410(例如,其可由音频编码器100或音频编码器200提供),且基于编码音频信息提供解码音频信息412。
音频解码器400包含低频解码器420,其接收编码音频信息410(或至少包括于其中的低频部分的编码表示),解码低频部分的编码表示且获得低频部分的解码表示422。音频解码器400亦包含带宽扩展430,被配置为针对(编码)音频内容(由编码音频信息410表示)的无带宽扩展参数包括于编码音频信息410中的部分而使用盲带宽扩展来获得带宽扩展信号432,且针对音频内容的有带宽扩展参数包括于编码音频信息(或编码音频表示)410中的部分而使用参数导引式带宽扩展(使用包括于编码音频信息410中的带宽扩展信息或带宽扩展参数)来获得带宽扩展信号432。
因此,音频解码器400能够无关于带宽扩展参数是否包括于编码音频信息410中而执行带宽扩展。因此,音频解码器可适于编码音频信息410,且考虑存在盲带宽扩展与参数导引式带宽扩展之间的切换的概念。因此,音频解码器400能够处置编码音频信息410,其中仅针对音频内容的不可使用盲带宽扩展以足够质量重建构的部分(例如,帧)而包括带宽扩展参数。因此,可提供解码音频信息412,其包含低频部分的解码表示及带宽扩展信号(其中,可(例如)将带宽扩展信号添加至低频部分的解码表示422以藉此获得解码音频信息412)。
因此,音频解码器400有助于获得音频质量与比特率之间的良好取舍。
下文将(例如)参看图5来描述音频解码器400的另一可选改良。
4.根据图5的音频解码器
图5展示根据本发明的另一实施例的音频解码器500的方块示意图。音频解码器500接收编码音频信息(亦指定为编码音频表示)510,且基于编码音频信息提供解码音频信息(亦指定为解码音频表示)512。音频解码器500包含低频解码器520,其可相当于低频解码器420且可实现相当的功能性。因此,低频解码器500提供由编码音频信息510表示的音频内容的低频部分的解码表示522。音频解码器500亦包含带宽扩展530,其可实现与带宽扩展430相同的功能性。
因此,带宽扩展530可提供带宽扩展信号532,其通常与低频部分的解码表示522组合(例如,添加至该解码表示)以藉此获得解码音频信息512。带宽扩展530可(例如)接收低频部分522的解码表示522。然而替代地,带宽扩展532可接收由低频解码器520提供的控制信息(其亦将被视为辅助信息或中间信息)524。辅助信息或控制信息或中间信息524可(例如)表示音频内容的低频部分的频谱形状、低频部分的解码表示的过零率,或由低频解码器520使用的有助于带宽扩展程序的任何其他中间量。此外,音频解码器包括控制部分540,被配置为提供指示应由带宽扩展530执行盲带宽扩展或参数导引式带宽扩展的控制信息542。控制部分540可使用不同类型的信息以用于提供控制信息542。举例而言,控制部分540可接收可包括于编码音频信息510中的带宽扩展模式比特流旗标。举例而言,针对编码音频信息的每一部分(例如,帧)可存在一个带宽扩展模式比特流旗标,该带宽扩展模式比特流旗标可由控制部分540自编码音频信息撷取且可用以导出控制信息542(或可直接构成控制信息542)。然而替代地,控制部分540可接收表示低频部分及/或描述如何解码低频部分(且因此亦指定为“低频部分解码信息”)的信息。替代地或另外,控制部分540可自低频解码器接收控制信息或辅助信息或中间信息524,其可(例如)携载关于低频部分的频谱包络的信息及/或关于低频部分的解码表示的过零率的信息。然而,控制信息或辅助信息或中间信息524亦可携载关于低频部分的解码表示522的统计的信息,或可表示由低频解码器520自低频部分的解码表示(亦指定为低频部分解码信息)导出的任何其他中间信息。
替代地或另外,控制部分540可接收低频部分的解码表示522,且自身可自低频部分的解码表示522导出特征值(例如,过零率信息、频谱包络信息、频谱倾斜量信息,或其类似者)。
因此,若比特流旗标(用信号通知应使用盲带宽扩展或参数导引式带宽扩展)包括于编码音频信息510中,则控制部分540可评估此比特流旗标以提供盲/参数导引式控制信息542。然而,若此比特流旗标不包括于编码音频信息510中(例如,以减小比特率),则控制部分540通常基于其他信息判定使用盲带宽扩展或参数导引式带宽扩展。为此目的,可由控制部分540评估低频部分解码信息(其可等于低频部分的编码表示,或其子集)。替代地或另外,控制部分可考虑低频部分的解码表示522以用于作出使用盲带宽扩展或参数导引式带宽扩展的决策,亦即,用于提供控制信息542。此外,控制部分540可视情况使用由低频解码器520提供的控制信息或辅助信息或中间信息524,其限制条件为低频解码器520提供可由控制部分540使用的任何中间量。
因此,控制部分540可在盲带宽扩展与参数导引式带宽扩展之间切换带宽扩展。
在盲带宽扩展的状况下,带宽扩展530可在不评估任何额外比特流参数的情况下基于低频部分的解码表示522来提供带宽扩展信号532。相比之下,在参数导引式带宽扩展的状况下,带宽扩展530可提供考虑额外(专用)带宽扩展比特流参数的带宽扩展信号532,该参数辅助判定音频内容的高频部分的特性(亦即,带宽扩展信号的特性)。然而,带宽扩展530亦可使用由低频解码器520提供的低频部分的解码表示522及/或控制信息或辅助信息或中间信息524,以提供带宽扩展信号532。
因此,在使用盲带宽扩展与使用参数导引式带宽扩展之间的决策有效地判定是否应用专用带宽扩展参数(其通常不由低频解码器520使用以提供低频部分的解码表示)以获得带宽扩展信号(其通常描述由编码音频信息表示的音频内容的高频部分)。
为概述以上内容,音频解码器500可被配置为在逐帧基础上(其中“帧”为音频内容的部分的实例,且其中帧可(例如)包含在10ms与40ms之间的持续时间,且可较佳具有大约20ms±2ms的持续时间)决定使用盲带宽扩展或使用参数导引式带宽扩展来获得带宽扩展信号532。因此,音频解码器可被配置为以极精细时间粒度在盲带宽扩展与参数导引式带宽扩展之间切换。
又,应注意音频解码器500通常能够在连续音频内容片段内在使用盲带宽扩展与使用参数导引式带宽扩展之间切换。因此,可在连续音频内容片段内实质上在任何时间(当然考虑成框)执行盲带宽扩展与参数导引式带宽扩展之间的切换,以使带宽扩展适于单音频内容片段的不同部分的(改变)特性。
如上文所提及,音频解码器(较佳控制部分540)可被配置为针对音频内容的不同部分(例如,帧)而评估包括于编码音频信息510中的旗标(例如,每帧一个单一比特旗标),以决定使用盲带宽扩展或参数导引式带宽扩展。在此状况下,控制部分540可保持为极简单的,代价为针对音频内容的每一部分必须将信令旗标包括于编码音频信息中。然而替代地,控制部分540可被配置为在不评估(专用)带宽扩展模式信令旗标的情况下基于低频部分的编码表示(其可包括使用由低频解码器520自低频部分的该编码表示导出的控制信息或辅助信息或中间信息524,且还可包括使用由低频解码器520自低频部分的编码表示导出的解码表示522)来决定使用盲带宽扩展或参数导引式带宽扩展。因此,甚至在比特流中无信令附加项的情况下仍可执行盲带宽扩展与参数导引式带宽扩展之间的切换。
音频解码器(或控制部分540)可被配置为基于低频部分的解码表示的一或多个特征来决定使用盲带宽扩展或参数导引式带宽扩展。可自低频部分的解码表示522撷取此等特征(例如,如频谱倾斜量信息、过零率信息或其类似者),或可由控制信息/辅助信息/中间信息524来用信号通知此等特征。举例而言,音频解码器(或控制部分540)可被配置为基于量化线性预测系数(例如,其可包括于控制信息/辅助信息/中间信息524中)及/或根据低频部分的解码表示522的时域统计来决定使用盲带宽扩展或参数导引式带宽扩展。
在下文中,将描述如何达成带宽扩展的一些概念。举例而言,带宽扩展可被配置为针对(输入)音频内容的无带宽扩展参数包括于编码音频信息中的时间部分而使用低频部分的解码表示522的一或多个特征及/或低频解码器520的一或多个参数(其可由控制信息/辅助信息/中间信息524用信号通知)来获得带宽扩展信号532。因此,带宽扩展530可执行盲带宽扩展,其基于自低频部分的解码表示推断由编码音频信息表示的音频内容的高频部分的想法。举例而言,带宽扩展530可被配置为针对输入音频内容的无带宽扩展参数包括于编码音频信息510中的时间部分而使用频谱矩心信息及/或使用能量信息及/或使用(例如,写码)滤波器系数来获得带宽扩展信号532。因此,可达成良好的盲带宽扩展。
然而,当然亦可应用不同的盲带宽扩展概念。
然而,带宽扩展可被配置为针对音频内容的有带宽扩展参数包括于编码音频信息中的时间部分而使用描述高频部分的频谱包络的比特流参数来获得带宽扩展信号532。换言之,可使用描述高频部分的频谱包络的比特流参数来执行参数导引式带宽扩展。描述高频部分的频谱包络的比特流参数可支持参数导引式带宽扩展(然而,其可另外依赖于由盲带宽扩展使用的量中的一些或全部)。
举例而言,已发现,带宽扩展较佳应被配置为评估三个至五个比特流参数,以便获得带宽扩展信号,该比特流参数描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度。使用此等相对少量的比特流参数并不实质上增加比特率,但在“困难”信号部分的状况下仍带来带宽扩展的足够改良,使得可针对“困难”信号部分而由因此导引的带宽扩展达成的质量与可针对“容易”信号部分而使用盲带宽扩展获得的质量相当(其中“困难”信号部分为盲带宽扩展将不导致良好或可接受音频质量的信号部分,而“容易”信号部分为盲带宽扩展带来足够结果的信号部分)。
因此,较佳以两个或三个比特的分辨率标量量化描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度的三个至五个比特流参数,使得每帧存在6个至15个比特的带宽扩展频谱成形参数。已发现,带宽扩展信息的此低比特率已足以在音频内容的“困难”部分的状况下获得合理的良好带宽扩展。
视情况,带宽扩展530可被配置为在自盲带宽扩展切换至参数导引式带宽扩展及/或在自参数导引式带宽扩展切换至盲带宽扩展时执行带宽扩展信号的能量的平滑。因此,减少在盲带宽扩展与参数导引式带宽扩展之间切换时的频谱形状的不连续性。举例而言,带宽扩展可被配置为针对在音频内容的应用有盲带宽扩展的部分之后的音频内容的应用有参数导引式带宽扩展的部分使带宽扩展信号的高频部分衰减。又,带宽扩展可被配置为针对在音频内容的应用有参数导引式带宽扩展的部分之后的音频内容的应用有盲带宽扩展的部分减少对带宽扩展信号的高频部分的衰减(亦即,稍微着重强调带宽扩展信号的高频部分)。然而,亦可藉由减少在带宽扩展模式之间切换时的高频部分的频谱形状的不连续性的任何其他操作来执行平滑。因此,藉由减少伪讯来改良音频质量。
总之,音频解码器500允许在带宽扩展信息提供于编码音频信息中的状况与无带宽扩展信息提供于编码音频信息中的状况两者下对音频内容的良好质量解码。音频解码器可以精细时间粒度(例如,在逐帧基础上)而在盲带宽扩展与参数导引式带宽扩展之间切换,其中伪讯保持为小的。
5.根据图6的用于基于输入音频信息提供编码音频信息的方法
图6展示用于基于输入音频信息提供编码音频信息的方法600的流程图。该方法600包含编码610输入音频信息的低频部分以获得低频部分的编码表示。该方法600亦包含基于输入音频信息提供620带宽扩展信息,其中以信号适应性方式选择性地将带宽扩展信息包括至编码音频信息中。
应注意,可藉由本文中关于音频编码器(且还关于音频解码器)所描述的特征及功能性中的任一者补充根据图6的方法600。
6.根据图7的用于提供解码音频信息的方法
图7展示根据本发明的实施例的用于提供解码音频信息的方法的流程图。该方法700包含解码710低频部分的编码表示以获得低频部分的解码表示。该方法700亦包含针对音频内容的无带宽扩展参数包括于编码音频信息中的部分而使用盲带宽扩展来获得720带宽扩展信号。此外,该方法700包含针对音频内容的有带宽扩展参数包括于编码音频信息中的部分而使用参数导引式带宽扩展来获得730带宽扩展信号。
应注意,可藉由本文中关于音频解码器(且还关于音频编码器)所描述的特征及功能性中的任一者补充根据图7的方法700。
7.根据图8的编码音频表示
图8展示表示音频信息的编码音频表示800的示意性说明。
编码音频表示(亦指定为编码音频信息)包含音频信息的低频部分的编码表示。举例而言,针对音频信息的第一部分(例如,针对音频信息的第一帧)而提供音频信息的低频部分的编码表示810。此外,亦针对音频信息的第二部分(例如,第二帧)而提供音频信息的低频部分的编码表示。然而,编码音频表示800亦包含带宽扩展信息,其中针对音频信息的一些但非所有部分而以信号适应性方式将带宽扩展信息包括于编码音频表示中。举例而言,针对音频信息的第一部分而包括带宽扩展信息812。相比之下,针对音频信息的第二部分而不提供带宽扩展信息。
总之,通常藉由本文中所描述的音频编码器提供且藉由本文中所描述的音频解码器评估编码音频表示800。当然,编码音频表示可储存于非暂时性计算机可读媒体或其类似者上。此外,应注意,可藉由关于音频编码器及音频解码器所描述的特征、信息项目等中的任一者补充编码音频表示800。
8.结论及其他态样
根据本发明的实施例藉由提议作为盲带宽扩展与参数导引式带宽扩展的组合的“微导引式”带宽扩展来处理在极低比特率音频写码中的习知带宽扩展的问题及现有习知带宽扩展技术的缺点,该“微导引式”带宽扩展满足以下情形:
●仅在不可自低频音频(例如,音频内容的低频部分)足够良好地重建构输入音频的高频内容(例如,高频部分)的情况下才使用导引式带宽扩展,亦即,每20ms(例如,每音频帧)传输数字元的旁侧信息,
●否则使用盲带宽扩展,亦即,高频分量(例如,高频部分)自诸如频谱矩心、能量、倾斜量、编码滤波器系数的低频核心特征(例如,重建构低频部分的特征)的经典重建构,
●藉由利用旁侧信息的标量而非向量量化且藉由避免涉及大量数据点的操作(诸如,傅立叶变换及自相关及/或滤波器计算)来展现极低计算复杂度,
●关于输入信号特性为稳固的,亦即,并未针对诸如安静环境中的成人语音的特定输入信号而优化,以便对所有类型的语音以及音乐良好地起作用。
仍待解决在根据本发明的实施例的导引式带宽扩展部分中将哪一(哪些)参数作为旁侧信息来传输及何时传输该参数的问题。
已发现,在诸如AMR-WB的宽带编码解码器中,在核心写码器区域上方的高频区域的频谱包络表示以适当质量执行带宽扩展所必要(或所需)的最关键数据。诸如频谱精细结构及时间包络的所有其他参数可相当准确地自解码核心信号导出或具有低感知重要性。因此,此处所描述的微导引式带宽扩展的导引式部分仅将高频频谱包络作为旁侧信息(例如,作为带宽扩展信息)来传输。此情形辅助将带宽扩展旁侧信息速率保持为低的。此外,已用试验发觉,盲带宽扩展对具有或多或少明显的低通性质的时间上稳定的信号分段提供足够(亦即,至少可接受)质量。有声语音、环境噪声及无打击乐器声的音乐区段为常见实例。事实上,至宽带语音及音频写码系统的大多数输入通常属于此种类。
然而,较佳经由将高频频谱包络的量化表示作为旁侧信息(例如,作为带宽扩展信息)来传输的导引式带宽扩展来写码信号段,该信号段的瞬时频谱在高频区域中(例如,在高频部分中)展现与在低频(核心写码器)区域(或低频部分)中非常不同的包络。原因为,关于此等频谱构造,盲带宽扩展一般不能自如由写码滤波器系数或频谱成形残余信号(亦称为语音写码器中的激励)核心信号包络预测高频频谱包络发展。突出实例为无声语音,尤其为强摩擦音及塞擦音(如“s”或德语“z”),以及主要在现代音乐中的某些打击声。在根据本发明的实施例中,因此仅针对此等“不可预测的”高频频谱来启动导引式带宽扩展。
在LD-USAC、xHE-AAC的低延迟版本的背景下实施根据本发明的微导引式带宽扩展,以便按13.2kbit/s将宽带写码(WB写码)信号带宽自6.4kHz扩展至8.0kHz。在编码器侧上,每20ms的编码解码器帧自输入信号在感知频率标度上的频谱倾斜量(现有特征亦用于ACELP写码路径中)以及如由现有瞬时侦测器提供的输入信号的过零率的改变的时域特征(亦用于其他写码模式决策)来计算盲/导引式决策。更具体而言,若频谱倾斜量为正(意谓频谱能量倾向于随频率增加而增加)并高于指定阈值,且同时过零率已增加某的比率或高于某一阈值(意谓当前帧表示有噪声波形分段的开始或位于有噪声波形分段内),则选择及用信号通知导引式带宽扩展。否则,选择盲带宽扩展。关于前述阈值,进一步应用简单的滞后,以便减小在导引式带宽扩展与盲带宽扩展之间反复切换的机率。一旦将导引式带宽扩展模式用于帧,则稍微降低用于随后的帧中的决策阈值,使得编码解码器更有可能保持于导引式模式中。一旦已决定切换回至盲模式,则恢复原始阈值,使得带宽扩展决策不太可能即刻转换回至导引式模式。
如下概述每帧带宽扩展程序的剩余内容:
1.若带宽扩展为盲扩展,则使用比特流中的一个比特传输“0”以将此模式用信号通知解码器。视情况,不传输任何比特,且令解码器藉由对核心信号的解码器侧分析将帧识别为使用盲带宽扩展模式。
2.若带宽扩展处于导引式模式下,则使用比特流中的一个比特传输“1”。接着,编码器计算各自涵盖输入信号的400Hz的四个频率增益索引,以允许在解码器中对6.4至8kHz带宽扩展区域的准确频谱成形。在低延迟USAC实现方案中,四个索引中的每一者为四个带宽扩展区域QMF能量中的每一者相对于先前QMF能量(或在第带宽扩展增益的状况下,相对于4.8至6.4kHzQMF频谱的能量)的标量量化的结果。由于使用具有2dB的步阶大小的2比特中升型量化器,因此该增益涵盖-3dB至3dB的值范围且每帧消耗8比特。此情形得到每导引式带宽扩展帧9比特的总旁侧信息,或若排除如步骤1中的信令,则视情况为8比特。
3.在对应解码器中,读取第带宽扩展比特。若该比特为“0”,则使用盲带宽扩展,否则,多读取8个比特且使用导引式带宽扩展。视情况,跳过第带宽扩展比特的读取(这是因为此比特不存在于比特流中),且藉由核心信号分析在本端执行盲/导引式决策,如步骤1中所提及。
4.若在解码器中判定盲带宽扩展模式,则执行仅使用解码核心信号的特征的带宽扩展。此带宽扩展本质上遵循在参考案[2]、[3]、[6]及[9]中的一个中描述的带宽扩展概念,但在QMF而非DFT域中,且仅具有自核心QMF频谱导出的低复杂度特征(例如,频谱矩心/倾斜量)。
5.若在解码器中选择导引式带宽扩展模式,则将四个2比特增益索引反量化成QMF能量增益,且适用于如在步骤4中重建构的QMF带宽扩展区域频带的频谱成形。换言之,此处亦使用盲带宽扩展,以下情形除外:经由在比特流中传输的按比例调整因子而非经由自核心信号外插的按比例调整(结果,其构成参数导引式带宽扩展)进行频谱成形。
6.当自一个帧至下一帧而在盲带宽扩展与导引式带宽扩展之间切换时,执行高频能量的简单平滑,以最少化由盲带宽扩展的类低通行为引起的切换伪讯(高频能量不连续性)。平滑本质上充当盲带宽扩展与导引式带宽扩展之间的平滑转换衰减器(cross-fader):使在某一(一些)盲带宽扩展帧之后的第一导引式带宽扩展帧在其高频区域中稍微衰减,而使在一些导引式带宽扩展之后的第盲带宽扩展帧的高频衰减稍微减少。
关于典型的电话语言内容及风行音乐,试验已展示所有20ms帧的约13%在LD-USAC中正利用导引式带宽扩展。因此,平均带宽扩展旁侧信息速率达到每帧约略2比特或0.1kbit/s。此速率远小于(e)SBR(例如,参见参考案[8])或本文中参考的导引式语音写码器带宽扩展中的任一者的速率。
应进一步注意,如早先在此部分中建议为逐步描述中的可选方法,若编码器与解码器两者可以比特精确方式自核心写码信号导出彼决策,则可避免带宽扩展模式决策至解码器的1比特信令。若编码器基于自本端解码的核心信号导出的一些特征而选择带宽扩展模式,则可达成此信令,这是因为此为解码器中可用的仅有信号。假定在某一帧中未出现传输错误且编码器与解码器两者自完全相同的核心信号特征(诸如,量化LPC系数或来自解码残余信号的时域统计,如过零率,如上文所提到)判定带宽扩展模式,则模式决策在编码器及解码器中相同。
根据本发明的实施例克服可在9至13kbit/s的比特率下观测到的宽带编码解码器中的某一质量难题。一方面已发现,此等速率已太低而无法证明甚至适度量的带宽扩展数据的传输为正当的,从而排除使用1kbit/s或更多旁侧信息的典型导引式带宽扩展系统。另一方面已发现,由于不能进行自核心信号的适当参数预测,因此发现可行的盲带宽扩展对于至少一些类型的语音或音乐材料的作用显著较差。已发现,因此需要将导引式带宽扩展方案的旁侧信息速率减小至远低于1kbit/s的等级,其允许甚至在极低比特率写码中仍采用导引式带宽扩展方案。用于根据本发明的实施例中的方法为识别典型输入信号的由盲带宽扩展不良地或次最佳地重建构的多个段,且仅针对此等段传输将高频重建构质量改良至可接受等级(或至少在关于彼信号的平均盲带宽扩展质量的范围中的等级)所必要的旁侧信息。换言之:应藉由极少带宽扩展旁侧信息或不藉由带宽扩展旁侧信息来写码高频输入信号的可由盲带宽扩展良好地合理重建立的部分,且仅盲带宽扩展将使编码解码器质量的总体印象降级的分段应使其高频分量由导引式带宽扩展来再现。以信号适应性方式调整旁侧信息速率的此带宽扩展设计为本发明的目标,且被称作“微导引式带宽扩展”。
根据本发明的实施例优于近年来在文件(例如,参见参考案[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]及[10])中描述的多个带宽扩展方法。一般而言,所有此等方法在给定操作点处为完全盲或完全导引式的,而无关于输入信号的瞬时特性。此外,对于语音信号,排他性地优化盲带宽扩展的所有实施(例如,参见参考案[1]、[3]、[4]、[5]、[9]及[10]),且因而该实施不可能关于诸如音乐的其他输入而得到令人满意的质量(甚至在一些公开案中提到)。最后,大多数习知带宽扩展实现方案相对复杂,其使用傅立叶变换、LPC滤波器计算,或旁侧信息的向量量化。假定大多数行动器件提供非常有限的计算能力,则此复杂性可使得在行动电信市场中采用新写码技术时存在缺点。
为了进一步得出推断,根据本发明的实施例建立如上文所描述的用于音频编码的音频编码器或方法,或相关计算机程序。
根据本发明的其他实施例建立如上文所描述的用于音频解码的音频解码器或方法,或相关计算机程序。
根据本发明的额外实施例建立如上文所描述的编码音频信号或储存有编码音频信号的储存媒体。
9.实施替代例
尽管已在装置的背景下描述一些态样,但显而易见,此等态样亦表示对应方法的描述,其中区块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的背景下描述的态样亦表示对应装置的对应区块或项目或特征的描述。可藉由(或使用)如(例如)微处理器、可规划计算机或电子电路的硬件装置来执行方法步骤中的一些或全部。在一些实施例中,可藉由此装置来执行最重要方法步骤中的某一或多者。
本发明的编码音频信号可储存于数字储存媒体上,或可在诸如无线传输媒体或有线传输媒体(诸如,因特网)的传输媒体上加以传输。
根据某些实施要求,可以硬件或以软件来实施本发明的实施例。可使用例如以下各者的上面储存有电子可读控制信号的数字储存媒体来执行该实施:软性磁盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存,该数字储存媒体与可规划计算机系统合作(或能够与可规划计算机系统合作)以使得执行各别方法。因此,数字储存媒体可为计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,该电子可读控制信号能够与可规划计算机系统合作以使得执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上执行时,该程序代码可操作以用于执行方法中的一个。举例而言,该程序代码可储存于机器可读载体上。
其他实施例包含用于执行本文中所描述的方法中的一个、储存于机器可读载体上的计算机程序。
换言之,本发明方法的实施例因此为具有程序代码的计算机程序,当该计算机程序在计算机上执行时,该程序代码用于执行本文中所描述的方法中的一个。
本发明方法的另一实施例因此为数据载体(或数字储存媒体或计算机可读媒体),其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字储存媒体或记录媒体通常为有形及/或非暂时性的。
本发明方法的另一实施例因此为表示用于执行本文中所描述的方法中的一个的计算机程序的数据串流或信号序列。举例而言,该数据串流或信号序列可被配置为经由数据通讯连接(例如,经由因特网)而传送。
另一实施例包含被配置为或用以执行本文中所描述的方法中的一个的处理构件,例如,计算机或可规划逻辑器件。
另一实施例包含计算机,其具有安装于其上的执行本文中所描述的方法中的一个的计算机程序。
根据本发明的另一实施例包含被配置为将用于执行本文中所描述的方法中的一个的计算机程序传送(例如,以电子方式或光学方式)至接收器的装置或系统。举例而言,接收器可为计算机、行动器件、内存器件或其类似者。举例而言,装置或系统可包含用于将计算机程序传送至接收器的文件服务器。
在一些实施例中,可规划逻辑器件(例如,场可规划门阵列)可用以执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,场可规划门阵列可与微处理器合作以便执行本文中所描述的方法中的一个。大体而言,较佳藉由任何硬件装置来执行方法。
可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施本文中所描述的装置。
可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施本文中所描述的方法。
上述实施例仅说明本发明的原理。据了解,本文中所描述的配置及细节的修改及变化对于熟习此项技术者而言将为显而易见的。因此,其意欲仅由即将给出的申请专利范围的范畴来限制,而非由借助于本文中的实施例的描述及解释而呈现的特定细节来限制。
参考文献
[1]B.Bessetteetal.,“TheAdaptiveMulti-rateWidebandSpeechCodec(AMR-WB),”IEEETrans.onSpeechandAudioProcessing,Vol.10,No.8,Nov.2002。
[2]B.Geiseretal.,“BandwidthExtensionforHierarchicalSpeechandAudioCodinginITU-TRec.G.729.1,”IEEETrans.onAudio,Speech,andLanguageProcessing,Vol.15,No.8,Nov.2007。
[3]B.Iser,W.Minker,andG.Schmidt,BandwidthExtensionofSpeechSignals,SpringerLectureNotesinElectricalEngineering,Vol.13,NewYork,2008。
[4]M.JelínekandR.Salami,“WidebandSpeechCodingAdvancesinVMR-WBStandard,”IEEETrans.onAudio,Speech,andLanguageProcessing,Vol.15,No.4,May2007。
[5]I.Katsir,I.Cohen,andD.Malah,“SpeechBandwidthExtensionBasedonSpeechPhoneticContentandSpeakerVocalTractShapeEstimation,”inProc.EUSIPCO2011,Barcelona,Spain,Sep.2011。
[6]E.LarsenandR.M.Aarts,AudioBandwidthExtension:ApplicationofPsycho-acoustics,SignalProcessingandLoudspeakerDesign,Wiley,NewYork,2004。
[7]J.etal.,“AMR-WB+:ANewAudioCodingStandardfor3rdGenerationMobileAudioServices,”inProc.ICASSP2005,Philadelphia,USA,Mar.2005。
[8]M.Neuendorfetal.,“MPEGUnifiedSpeechandAudioCoding–TheISO/MPEGStandardforHigh-EfficiencyAudioCodingofAllContentTypes,”inProc.132ndAESConvention,Budapest,Hungary,Apr.2012.AlsoappearsintheJournaloftheAES,2013。
[9]H.PulakkaandP.Alku,“BandwidthExtensionofTelephoneSpeechUsingaNeuralNetworkandaFilterBankImplementationforHighbandMelSpectrum,”IEEETrans.onAudio,Speech,andLanguageProcessing,Vol.19,No.7,Sep.2011。
[10]T.Vaillancourtetal.,“ITU-TEV-VBR:ARobust8-32kbit/sScalableCoderforErrorProneTelecommunicationsChannels,”inProc.EUSIPCO2008,Lausanne,Switzer-land,Aug.2008。
[11]L.Miaoetal.,“G.711.1AnnexDandG.722AnnexB:NewITU-TSuperwidebandcodecs,”inProc.ICASSP2011,Prague,CzechRepublic,May2011。
Claims (32)
1.一种用于基于输入音频信息(110;210)提供编码音频信息(112;212)的音频编码器(100;200),该音频编码器包括:
低频编码器(120;220),被配置为编码该输入音频信息的低频部分以获得该低频部分的编码表示(122;222);及
带宽扩展信息提供器(130;230),被配置为基于该输入音频信息提供带宽扩展信息(132;232);
其中,该音频编码器被配置为以信号适应性方式选择性地将带宽扩展信息包括至该编码音频信息中。
2.根据权利要求1所述的音频编码器(100;200),其中,该音频编码器包括侦测器(240),该侦测器被配置为识别该输入音频信息的不能基于该低频部分的该编码表示且使用盲带宽扩展以足够或所要的质量解码的部分;且
其中,该音频编码器被配置为针对该输入音频信息的由该侦测器识别的部分而选择性地将带宽扩展信息包括至该编码音频信息中。
3.根据权利要求1或2所述的音频编码器(100;200),其中,该音频编码器包括侦测器(240),该侦测器被配置为识别该输入音频信息的不能以足够或所要的准确度来基于该低频部分估计带宽扩展参数的部分;且
其中,该音频编码器被配置为针对该输入音频信息的由该侦测器识别的部分而选择性地将带宽扩展信息包括至该编码音频信息中。
4.根据权利要求1至3中任一项所述的音频编码器(100;200),其中,该音频编码器包括侦测器(240),该侦测器被配置为根据该输入音频信息的部分是否为时间上稳定的部分且根据该部分是否具有低通性质而识别该部分;且
其中,该音频编码器被配置为针对该输入音频信息的由该侦测器识别为具有低通性质的时间上稳定的部分的部分而选择性地省略带宽扩展信息至该编码音频信息中的包括。
5.根据权利要求4所述的音频编码器(100;200),其中,该侦测器被配置为根据该输入音频信息的部分是否包含有声语音及/或根据该部分是否包含环境噪声及/或根据该部分是否包含无打击乐器声的音乐而识别该部分。
6.根据权利要求1至5中任一项所述的音频编码器(100;200),其中,该音频编码器包括侦测器(240),该侦测器被配置为根据低频部分的频谱包络与高频部分的频谱包络之间的差是否大于或等于预定差度量而识别该输入音频信息的部分;且
其中,该音频编码器被配置为针对该输入音频信息的由该侦测器识别的部分而选择性地将带宽扩展信息包括至该编码音频信息中。
7.根据权利要求6所述的音频编码器(100;200),其中,该侦测器被配置为根据部分是否包含无声语音而识别该部分,及/或其中,该侦测器被配置为根据部分是否包含打击声而识别该部分。
8.根据权利要求1至7中任一项所述的音频编码器(100;200),其中,该音频编码器包括侦测器(240),该侦测器被配置为判定该输入音频信息的部分的频谱倾斜量,且根据所判定的该频谱倾斜量是否大于或等于固定或可变的倾斜量阈值而识别该输入音频信息的部分;且
其中,该音频编码器被配置为针对该输入音频信息的由该侦测器识别的部分而选择性地将带宽扩展信息包括至该编码音频信息中。
9.根据权利要求8所述的音频编码器(100;200),其中,该侦测器被进一步配置为判定该输入音频信息的部分的过零率,且还根据该所判定的过零率是否大于或等于固定或可变的过零率阈值或根据该过零率是否包含超过过零率改变阈值的时间改变而识别该输入音频信息的部分。
10.根据权利要求2至9中任一项所述的音频编码器(100;200),其中,该侦测器(240)被配置为应用滞后以用于识别该输入音频信息的信号部分,以减少在所识别的信号部分与未识别的信号部分之间的转变的数目。
11.根据权利要求1至10中任一项所述的音频编码器(100;200),其中,该音频编码器被配置为以信号适应性方式选择性地将表示该输入音频信息的高频部分的频谱包络的参数作为该带宽扩展信息包括至该编码音频信息中。
12.根据权利要求1至11中任一项所述的音频编码器(100;200),其中,该低频编码器被配置为编码该输入音频信息的低频部分,该低频部分包含高达位于6kHz与7kHz之间的范围中的最大频率的频率,且
其中,该音频编码器被配置为选择性地将三个至五个参数包括至该编码音频表示中,该参数描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度。
13.根据权利要求12所述的音频编码器(100;200),其中,该音频编码器被配置为选择性地将描述四个高频信号部分的强度的4个标量量化参数包括至该编码音频表示中,该高频信号部分涵盖高于该低频部分的频率范围。
14.根据权利要求12或13所述的音频编码器(100;200),其中,该音频编码器被配置为选择性地将描述频谱相邻的频率部分的能量或强度之间的关系的多个参数包括至该编码音频表示中,其中,该参数中的一个描述一第带宽扩展高频部分与低频部分的能量或强度之间的的比率或差,且其中,该参数中的其他参数描述其他带宽扩展高频部分的能量或强度之间的比率或差。
15.一种用于基于编码音频信息(410;510)提供解码音频信息(412;512)的音频解码器(400;500),该音频解码器包括:
低频解码器(420;520),被配置为解码低频部分的编码表示以获得该低频部分的解码表示(422;522);
带宽扩展(430;530),被配置为针对音频内容的无带宽扩展参数包括于该编码音频信息中的部分而使用盲带宽扩展来获得带宽扩展信号(432;532),且针对该音频内容的有带宽扩展参数包括于该编码音频信息中的部分而使用参数导引式带宽扩展来获得该带宽扩展信号。
16.根据权利要求15所述的音频解码器(400;500),其中,该音频解码器被配置为在逐帧基础上决定使用盲带宽扩展或使用参数导引式带宽扩展来获得该带宽扩展信号。
17.根据权利要求15或16所述的音频解码器(400;500),其中,该音频解码器被配置为在连续音频内容片段内在盲带宽扩展的使用与参数导引式带宽扩展的使用之间切换。
18.根据权利要求15至17中任一项所述的音频解码器(400;500),其中,该音频解码器被配置为针对该音频内容的不同部分而评估包括于该编码音频信息中的旗标,以决定使用盲带宽扩展或参数导引式带宽扩展。
19.根据权利要求15至17中任一项所述的音频解码器(400;500),其中,该音频解码器被配置为在不评估带宽扩展模式信令旗标的情况下基于该低频部分的该编码表示来决定使用盲带宽扩展或参数导引式带宽扩展。
20.根据权利要求19所述的音频解码器(400;500),其中,该音频解码器被配置为基于该低频部分的该解码表示的一或多个特征来决定使用盲带宽扩展或参数导引式带宽扩展。
21.根据权利要求19或20所述的音频解码器(400;500),其中,该音频解码器被配置为基于线性预测系数及/或基于该低频部分的该解码表示的时域统计来决定使用盲带宽扩展或参数导引式带宽扩展。
22.根据权利要求15至21中任一项所述的音频解码器(400;500),其中,该带宽扩展被配置为针对输入的该音频内容的无带宽扩展参数包括于该编码音频信息中的时间部分而使用该低频部分的该解码表示的一或多个特征及/或使用该低频解码器的一或多个参数来获得该带宽扩展信号。
23.根据权利要求15至22中任一项所述的音频解码器(400;500),其中,该带宽扩展被配置为针对输入的该音频内容的无带宽扩展参数包括于该编码音频信息中的时间部分而使用频谱矩心信息及/或使用能量信息及/或使用倾斜量信息及/或使用滤波器系数来获得该带宽扩展信号。
24.根据权利要求15至23中任一项所述的音频解码器(400;500),其中,该带宽扩展被配置为针对该音频内容的有带宽扩展参数包括于该编码音频信息中的时间部分而使用描述高频部分的频谱包络的比特流参数来获得该带宽扩展信号。
25.根据权利要求24所述的音频解码器(400;500),其中,该带宽扩展被配置为评估三个至五个比特流参数,以便获得该带宽扩展信号,该比特流参数描述具有在300Hz与500Hz之间的带宽的高频信号部分的强度。
26.根据权利要求25所述的音频解码器(400;500),其中以2或3个比特的分辨率标量量化描述高频信号部分的强度的三个至五个该比特流参数,使得每音频帧存在6个至15个比特的带宽扩展频谱成形参数。
27.根据权利要求15至26中任一项所述的音频解码器(400;500),其中,该带宽扩展被配置为在自盲带宽扩展切换至参数导引式带宽扩展及/或在自参数导引式带宽扩展切换至盲带宽扩展时执行该带宽扩展信号的能量的平滑。
28.根据权利要求27所述的音频解码器(400;500),其中,该带宽扩展被配置为针对在该音频内容的应用有盲带宽扩展的部分之后的该音频内容的应用有参数导引式带宽扩展的部分而使该带宽扩展信号的高频部分衰减;且
其中,该带宽扩展被配置为针对在该音频内容的应用有参数导引式带宽扩展的部分之后的该音频内容的应用有盲带宽扩展的部分而减少对该带宽扩展信号的高频部分的衰减或增加该高频部分的等级。
29.一种用于基于输入音频信息提供编码音频信息的方法(600),该方法包含:
编码(610)该输入音频信息的低频部分以获得该低频部分的编码表示;及
基于该输入音频信息提供(620)带宽扩展信息;
其中以信号适应性方式选择性地将带宽扩展信息包括至该编码音频信息中。
30.一种用于基于编码音频信息提供解码音频信息的方法(700),该方法包含:
解码(710)低频部分的编码表示以获得该低频部分的解码表示;及
针对音频内容的无带宽扩展参数包括于该编码音频信息中的部分而使用盲带宽扩展来获得(720)带宽扩展信号,及
针对该音频内容的有带宽扩展参数包括于该编码音频信息中的部分而使用参数导引式带宽扩展来获得(730)该带宽扩展信号。
31.一种计算机程序,其用于在该计算机程序执行于计算机上时执行根据权利要求29或30所述的方法。
32.一种表示音频信息的编码音频表示(800),该编码音频表示包含:
该音频信息的低频部分的编码表示(810,820);及
带宽扩展信息(812);
其中针对该音频信息的一些但非所有部分而以信号适应性方式将该带宽扩展信息包括于该编码音频表示中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910313032.XA CN110111801B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、方法及编码音频表示 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758205P | 2013-01-29 | 2013-01-29 | |
US61/758,205 | 2013-01-29 | ||
PCT/EP2014/051641 WO2014118185A1 (en) | 2013-01-29 | 2014-01-28 | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910313032.XA Division CN110111801B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、方法及编码音频表示 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105264599A true CN105264599A (zh) | 2016-01-20 |
CN105264599B CN105264599B (zh) | 2019-05-10 |
Family
ID=50029037
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480019094.5A Active CN105264599B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、提供编码音频信息的方法 |
CN201910313032.XA Active CN110111801B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、方法及编码音频表示 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910313032.XA Active CN110111801B (zh) | 2013-01-29 | 2014-01-28 | 音频编码器、音频解码器、方法及编码音频表示 |
Country Status (20)
Country | Link |
---|---|
US (1) | US9646624B2 (zh) |
EP (4) | EP2951822B1 (zh) |
JP (1) | JP6239007B2 (zh) |
KR (1) | KR101771828B1 (zh) |
CN (2) | CN105264599B (zh) |
AR (2) | AR094681A1 (zh) |
AU (1) | AU2014211479B2 (zh) |
BR (1) | BR112015017753B1 (zh) |
CA (4) | CA2898637C (zh) |
ES (4) | ES2768179T3 (zh) |
HK (1) | HK1218179A1 (zh) |
MX (1) | MX347062B (zh) |
MY (1) | MY185176A (zh) |
PL (4) | PL3070713T3 (zh) |
PT (3) | PT3070713T (zh) |
RU (1) | RU2641461C2 (zh) |
SG (1) | SG11201505912QA (zh) |
TW (1) | TWI533288B (zh) |
WO (1) | WO2014118185A1 (zh) |
ZA (1) | ZA201506312B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019282A (zh) * | 2020-08-13 | 2020-12-01 | 西安烽火电子科技有限责任公司 | 一种短波时变信道衰落带宽估计方法 |
CN112669860A (zh) * | 2020-12-29 | 2021-04-16 | 北京百瑞互联技术有限公司 | 一种增加lc3音频编解码有效带宽的方法及装置 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886959B2 (en) * | 2005-02-11 | 2018-02-06 | Open Invention Network Llc | Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
WO2014118156A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
TWI693594B (zh) | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
CN106294331B (zh) | 2015-05-11 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 音频信息检索方法及装置 |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
TWI807562B (zh) | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
EP3382703A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and methods for processing an audio signal |
US10650806B2 (en) * | 2018-04-23 | 2020-05-12 | Cerence Operating Company | System and method for discriminative training of regression deep neural networks |
EP3576088A1 (en) | 2018-05-30 | 2019-12-04 | Fraunhofer Gesellschaft zur Förderung der Angewand | Audio similarity evaluator, audio encoder, methods and computer program |
US11570849B2 (en) * | 2018-12-06 | 2023-01-31 | Schneider Electric Systems Usa, Inc. | Wireless instrument area network node with internal force sensor |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
WO2021261235A1 (ja) * | 2020-06-22 | 2021-12-30 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
WO2024080597A1 (ko) * | 2022-10-12 | 2024-04-18 | 삼성전자주식회사 | 오디오 비트스트림을 적응적으로 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006107833A1 (en) * | 2005-04-01 | 2006-10-12 | Qualcomm Incorporated | Method and apparatus for vector quantizing of a spectral envelope representation |
US20070050189A1 (en) * | 2005-08-31 | 2007-03-01 | Cruz-Zeno Edgardo M | Method and apparatus for comfort noise generation in speech communication systems |
CN102473414A (zh) * | 2009-06-29 | 2012-05-23 | 弗兰霍菲尔运输应用研究公司 | 带宽扩展编码器、带宽扩展解码器和相位声码器 |
CN102543086A (zh) * | 2011-12-16 | 2012-07-04 | 大连理工大学 | 一种基于音频水印的语音带宽扩展的装置和方法 |
CN102612712A (zh) * | 2009-11-19 | 2012-07-25 | 瑞典爱立信有限公司 | 低频带音频信号的带宽扩展 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8901032A (nl) | 1988-11-10 | 1990-06-01 | Philips Nv | Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting. |
JPH0758629B2 (ja) * | 1989-08-24 | 1995-06-21 | 矢崎総業株式会社 | 端子係止具付コネクタ |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
KR101271069B1 (ko) * | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
WO2006116025A1 (en) | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
US7953605B2 (en) | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
JP5266341B2 (ja) * | 2008-03-03 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
CN102089814B (zh) * | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
PL4231290T3 (pl) * | 2008-12-15 | 2024-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy |
EP2239732A1 (en) | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
CN101521014B (zh) * | 2009-04-08 | 2011-09-14 | 武汉大学 | 音频带宽扩展编解码装置 |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
JP5743137B2 (ja) | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
PL2676264T3 (pl) * | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
-
2014
- 2014-01-28 EP EP14701755.2A patent/EP2951822B1/en active Active
- 2014-01-28 PL PL16162701T patent/PL3070713T3/pl unknown
- 2014-01-28 CA CA2898637A patent/CA2898637C/en active Active
- 2014-01-28 ES ES14701755T patent/ES2768179T3/es active Active
- 2014-01-28 MX MX2015009682A patent/MX347062B/es active IP Right Grant
- 2014-01-28 ES ES16162697.3T patent/ES2659177T3/es active Active
- 2014-01-28 ES ES16162701.3T patent/ES2664185T3/es active Active
- 2014-01-28 EP EP16162697.3A patent/EP3067890B1/en active Active
- 2014-01-28 SG SG11201505912QA patent/SG11201505912QA/en unknown
- 2014-01-28 PT PT161627013T patent/PT3070713T/pt unknown
- 2014-01-28 PT PT147017552T patent/PT2951822T/pt unknown
- 2014-01-28 PT PT161626973T patent/PT3067890T/pt unknown
- 2014-01-28 RU RU2015136792A patent/RU2641461C2/ru active
- 2014-01-28 PL PL14701755T patent/PL2951822T3/pl unknown
- 2014-01-28 WO PCT/EP2014/051641 patent/WO2014118185A1/en active Application Filing
- 2014-01-28 CN CN201480019094.5A patent/CN105264599B/zh active Active
- 2014-01-28 PL PL16162696.5T patent/PL3054446T3/pl unknown
- 2014-01-28 BR BR112015017753-0A patent/BR112015017753B1/pt active IP Right Grant
- 2014-01-28 EP EP16162696.5A patent/EP3054446B1/en active Active
- 2014-01-28 KR KR1020157023559A patent/KR101771828B1/ko active IP Right Grant
- 2014-01-28 ES ES16162696T patent/ES2959240T3/es active Active
- 2014-01-28 CN CN201910313032.XA patent/CN110111801B/zh active Active
- 2014-01-28 CA CA2985115A patent/CA2985115C/en active Active
- 2014-01-28 CA CA2985121A patent/CA2985121C/en active Active
- 2014-01-28 CA CA2985105A patent/CA2985105C/en active Active
- 2014-01-28 MY MYPI2015001890A patent/MY185176A/en unknown
- 2014-01-28 JP JP2015555682A patent/JP6239007B2/ja active Active
- 2014-01-28 AU AU2014211479A patent/AU2014211479B2/en active Active
- 2014-01-28 PL PL16162697T patent/PL3067890T3/pl unknown
- 2014-01-28 EP EP16162701.3A patent/EP3070713B1/en active Active
- 2014-01-29 TW TW103103514A patent/TWI533288B/zh active
- 2014-01-29 AR ARP140100297A patent/AR094681A1/es active IP Right Grant
-
2015
- 2015-07-28 US US14/811,727 patent/US9646624B2/en active Active
- 2015-08-28 ZA ZA2015/06312A patent/ZA201506312B/en unknown
-
2016
- 2016-05-30 HK HK16106087.3A patent/HK1218179A1/zh unknown
-
2019
- 2019-07-22 AR ARP190102058A patent/AR115823A2/es active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006107833A1 (en) * | 2005-04-01 | 2006-10-12 | Qualcomm Incorporated | Method and apparatus for vector quantizing of a spectral envelope representation |
US20070050189A1 (en) * | 2005-08-31 | 2007-03-01 | Cruz-Zeno Edgardo M | Method and apparatus for comfort noise generation in speech communication systems |
CN102473414A (zh) * | 2009-06-29 | 2012-05-23 | 弗兰霍菲尔运输应用研究公司 | 带宽扩展编码器、带宽扩展解码器和相位声码器 |
CN102612712A (zh) * | 2009-11-19 | 2012-07-25 | 瑞典爱立信有限公司 | 低频带音频信号的带宽扩展 |
CN102543086A (zh) * | 2011-12-16 | 2012-07-04 | 大连理工大学 | 一种基于音频水印的语音带宽扩展的装置和方法 |
Non-Patent Citations (2)
Title |
---|
VISAR BERISHA ET AL.: "《A SCALABLE BANDWIDTH EXTENSION ALGORITHM》", 《IEEE INTERNATIONAL CONFERENCE ON ACOUSTIC, SPEECH,AND SIGNAL PROCESSING》 * |
VISAR BERISHA ET AL.: "《Bandwidth Extension of Audio Based on Partial Loudness Criteria》", 《IEEE WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112019282A (zh) * | 2020-08-13 | 2020-12-01 | 西安烽火电子科技有限责任公司 | 一种短波时变信道衰落带宽估计方法 |
CN112019282B (zh) * | 2020-08-13 | 2022-10-28 | 西安烽火电子科技有限责任公司 | 一种短波时变信道衰落带宽估计方法 |
CN112669860A (zh) * | 2020-12-29 | 2021-04-16 | 北京百瑞互联技术有限公司 | 一种增加lc3音频编解码有效带宽的方法及装置 |
CN112669860B (zh) * | 2020-12-29 | 2022-12-09 | 北京百瑞互联技术有限公司 | 一种增加lc3音频编解码有效带宽的方法及装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105264599A (zh) | 音频编码器、音频解码器、提供编码及解码音频信息的方法、计算机程序及使用信号适应性带宽扩展的编码表示 | |
CA2984066C (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
CA2984573C (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
CN107077855B (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
CA3202969A1 (en) | Method and device for unified time-domain / frequency domain coding of a sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |