CN107077851A - 使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法 - Google Patents
使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法 Download PDFInfo
- Publication number
- CN107077851A CN107077851A CN201580058327.7A CN201580058327A CN107077851A CN 107077851 A CN107077851 A CN 107077851A CN 201580058327 A CN201580058327 A CN 201580058327A CN 107077851 A CN107077851 A CN 107077851A
- Authority
- CN
- China
- Prior art keywords
- frame
- decoder
- encoder
- parameter
- copy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005728 strengthening Methods 0.000 title claims abstract description 19
- 230000036961 partial effect Effects 0.000 claims description 84
- 230000005540 biological transmission Effects 0.000 claims description 54
- 239000000872 buffer Substances 0.000 claims description 36
- 230000002123 temporal effect Effects 0.000 claims description 28
- 230000007704 transition Effects 0.000 claims description 24
- 238000013213 extrapolation Methods 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000005516 engineering process Methods 0.000 claims description 22
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 230000003111 delayed effect Effects 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 15
- 241000208340 Araliaceae Species 0.000 claims description 11
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 11
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 11
- 235000008434 ginseng Nutrition 0.000 claims description 11
- 230000001052 transient effect Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000002829 reductive effect Effects 0.000 claims description 10
- 230000008901 benefit Effects 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 8
- 235000013399 edible fruits Nutrition 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000002349 favourable effect Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 108010094028 Prothrombin Proteins 0.000 claims description 2
- AGVAZMGAQJOSFJ-WZHZPDAFSA-M cobalt(2+);[(2r,3s,4r,5s)-5-(5,6-dimethylbenzimidazol-1-yl)-4-hydroxy-2-(hydroxymethyl)oxolan-3-yl] [(2r)-1-[3-[(1r,2r,3r,4z,7s,9z,12s,13s,14z,17s,18s,19r)-2,13,18-tris(2-amino-2-oxoethyl)-7,12,17-tris(3-amino-3-oxopropyl)-3,5,8,8,13,15,18,19-octamethyl-2 Chemical compound [Co+2].N#[C-].[N-]([C@@H]1[C@H](CC(N)=O)[C@@]2(C)CCC(=O)NC[C@@H](C)OP(O)(=O)O[C@H]3[C@H]([C@H](O[C@@H]3CO)N3C4=CC(C)=C(C)C=C4N=C3)O)\C2=C(C)/C([C@H](C\2(C)C)CCC(N)=O)=N/C/2=C\C([C@H]([C@@]/2(CC(N)=O)C)CCC(N)=O)=N\C\2=C(C)/C2=N[C@]1(C)[C@@](C)(CC(N)=O)[C@@H]2CCC(N)=O AGVAZMGAQJOSFJ-WZHZPDAFSA-M 0.000 claims description 2
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000000151 deposition Methods 0.000 claims 2
- 230000002035 prolonged effect Effects 0.000 claims 1
- 230000002950 deficient Effects 0.000 description 34
- 230000002708 enhancing effect Effects 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005086 pumping Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000035611 feeding Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明涉及一种用于对类语音内容和/或一般音频内容进行编码的编码器,其中该编码器被配置为至少在一些帧中将参数嵌入比特流中,该参数在原始帧丢失、损坏或延迟的情况下增强隐藏;以及一种用于对类语音内容和/或一般音频内容进行解码的解码器,其中该解码器被配置为使用在时间上稍后发送的参数以在原始帧丢失、损坏或延迟的情况下增强隐藏;以及一种编码方法和一种解码方法。
Description
技术领域
本发明涉及使用编码器和解码器的音频编解码器,其中有缺陷(例如,丢失、损坏或延迟)的音频帧通过使用错误隐藏机制被至少部分地重建。本发明通过在比特流内提供所选择的错误隐藏辅助参数来改进传统的错误隐藏机制,该错误隐藏辅助参数增强了解码器侧的隐藏。
背景技术
在VoIP系统中,分组到达具有不同的延迟或者甚至在接收器处交换的时间顺序。由于预期每个分组在确定的周期性时间点用于在语音/音频解码器处进行解码,所以需要所谓的去抖动缓冲器来消除时间抖动并且如果可能的话恢复分组之间的正确顺序。
去抖动缓冲器的可用性使得能够使用信道感知编码,其中当前帧的部分冗余副本在编码器内被编码在未来帧的主副本之上。如果当前帧在接收器处丢失或到达太晚,则在后面的帧中到达的其部分冗余副本可以用于合成丢失的帧。取决于实际的可用系统延迟和帧错误率(FER)(即,当前信道条件),可以在编码器处动态地控制主帧和其部分冗余副本之间的延迟(或帧数)(即,所谓的FEC偏移)以及对是否需要发送特定帧的部分冗余副本的决定。
尽管这种技术需要降低主帧的总体大小以保持比特率不变,但是在中等FER和高FER下,与基于非信道感知/冗余的方法相比,它允许更好的质量。
诸如互联网之类的网络除了发送数据之外还被用于诸如召开会议之类的VolP通信。因此,将多个语音或音乐编码为数字数据,对数据进行分组排列,并且通过网络将分组发送给接收者。VolP要求该过程实时发生。
允许实时使用的协议的缺点是它们不可靠,因为它们允许分组丢失,而不对其进行取回。当这种情况发生时,不对它们携带的语音或音频段进行重建,并且接收者听到令人讨厌的语音或音乐空白。这些空白被认为是降低服务质量。
为了隐藏分组已丢失的事实,已经设计出冗余方案。对重复原始数据方面的冗余分组进行编码和发送。如果分组丢失,则其数据从其希望不会丢失的相应冗余分组中恢复和/或重建。接收端的抖动缓冲器收集主分组和冗余分组,并将它们馈送到播放它们的解码器。
针对RTP定义的第一个媒体特定的纠错方案是RFC 2198[1]中规定的音频冗余编码。这是专为语音电话会议而设计的。每个分组以更严重压缩的格式包含音频数据的原始帧和前一帧的冗余副本。
基于分组的业务可能经受高分组丢失率、抖动和重排序。前向纠错(FEC)是解决分组丢失问题的一种技术。通常,FEC涉及将冗余信息与编码语音一起发送。解码器尝试使用冗余信息来重建丢失的分组。媒体独立的FEC技术基于音频流内的比特而添加冗余信息(独立于语音流的特征的更高层次的知识)。另一方面,媒体依赖的FEC技术基于语音流的特征而添加冗余信息。
授权的专利US 6,757,654[2]描述了用于对语音数据进行编码的改进的FEC技术。US 6,757,654公开了:
“[该技术包括:]编码器模块使用主合成模型对输入语音信号进行主编码,以产生主编码数据,并使用冗余合成模型对输入语音信号进行冗余编码,以产生冗余编码数据。分组器将主编码数据和冗余编码数据组合成一系列分组,并通过诸如互联网协议(IP)网络之类的基于分组的网络来发送分组。解码模块使用主合成模型对分组进行主解码,并使用冗余合成模型对分组进行冗余解码。该技术在解码期间和解码之后提供主合成模型和冗余合成模型之间的交互,以提高合成的输出语音信号的质量。例如,这种“交互”可以采用使用其他模型更新一个模型中的状态的形式。
此外,本技术利用主帧和冗余帧的FEC交错耦合(即,帧n的主数据与帧n-1的冗余数据的耦合),以在编码器模块和解码器模块处提供预先处理。预先处理补充关于语音信号的可用信息,从而提高输出合成语音的质量。
两种模式用于对语音信号进行编码的交互协作大大扩展了传统系统以前考虑的冗余编码的使用。”
会议论文[3]提出了针对互联网电话的联合播放缓冲器和前向纠错(FEC)调整方案,其中包含端到端延迟对所感知的音频质量的影响。会议论文[3]表示基于端到端延迟和语音信号的失真感知音频质量。开发了联合速率/错误/播出延迟控制算法,从而优化这种质量测量。
如[3]所述,大多数音频会议工具使用媒体特定的FEC。信号处理FEC的原理是在多个分组中传输用不同质量编码器编码的每个音频段。当分组丢失时,包含相同段(可被不同编码)的另一分组可能够覆盖丢失。
所有的现有技术都是基于冗余的,这意味着利用后面的帧发送当前帧的非常低的比特率版本。虽然冗余音频编码可以提供精确的修复(如果冗余副本与原始相同),但是更有可能将使用较低的比特率,因此将实现较低的质量。在高级语音和音频编码的背景下,每帧的数据速率越来越大,并且传输非常低的比特率版本导致相对差的质量。
因此,期望改进现有的错误隐藏机制。
发明内容
本发明的实施例通过提供以下项来创建改进的解决方案:至少具有独立权利要求1的特征的编码器,至少具有独立权利要求22的特征的解码器,根据权利要求42所述的系统,至少包括独立权利要求43的特征的编码方法,至少包括独立权利要求44的特征的解码方法,根据权利要求45所述的计算机程序,至少具有权利要求46的特征的编码器,至少具有权利要求55的特征的解码器,根据独立权利要求62至64中的至少一个所述的装置,至少具有独立权利要求65的特征的切换式编码器或解码器,至少具有独立权利要求66的特征的变换域编码器或解码器,以及根据独立权利要求68所述的方法或计算机程序。
根据权利要求1,提出提供了一种编码器,用于对类语音内容和/或一般音频内容进行编码,其中该编码器被配置为至少在一些帧中将参数嵌入比特流中,所述参数在原始帧丢失、损坏或延迟的情况下增强隐藏。即使标准隐藏机制可用于丢失的帧,嵌入在帧中的参数将用于增强这种隐藏。因此,本发明提出不具有仅是主帧的低比特率版本的部分副本,而是仅传输将增强隐藏的一些选择的参数。因此,解码器可不同于现有技术中提出的解码器而工作。
已经发现提供增强错误隐藏的一些选择的参数(例如,这些参数定义丢失帧的特性,否则这些丢失帧将基于已丢失、损坏或延迟的有缺陷帧之前的先前帧而被估计)带来了(有缺陷帧的)良好的错误隐藏,同时保持所需的比特率低。
换句话说,增强隐藏的参数的传输使得可以基于关于先前解码的帧的信息来重建有缺陷的帧,其中隐藏帧的大部分信息是从有缺陷帧之前(或之后)的一个或更多个帧导出的,但是其中通常需要从之前或之后正确编码的帧导出的有缺陷帧的最相关特性中的一个或更多个(或错误隐藏的最重要参数中的一个或更多个)通过增强隐藏的参数以相当准确的方式来表示。
换言之,用于增强错误隐藏的嵌入式参数优选地不足以重建有缺陷的帧,因为它们不包含所有所需类型的信息,但是支持错误隐藏,因为最重要类型的信息由参数提供,而用于隐藏的其他类型的信息必须从在解码器侧先前解码的帧导出。
因此,实现了错误隐藏质量和比特率之间的良好折中。
在实施例中,编码器可以被配置为创建主帧和所谓的“部分副本”,其中“部分副本”不是主帧的低比特率版本,但是其中“部分副本”包含参数(例如,如果所考虑的帧有缺陷,则是隐藏所需的一些最相关的参数)。换句话说,如本文所使用的“部分副本”不是作为冗余信息嵌入比特流中的(原始)音频内容的低比特率表示,并且稍后可以将其用于完全合成输出信号。相反,本发明构思是嵌入一些参数数据,即,如果所述参数数据可用,则是增强解码器侧的隐藏的上述参数。当使用该信息时,解码器必须处于隐藏模式。因此,解码器将对有缺陷的(即丢失的、损坏的或延迟的)帧(由于去抖动缓冲器延迟而可能可用)的“部分副本”进行解码,并且使用所述解码的参数来辅助解码器侧的隐藏例程。因此,与通过(例如,以减小的比特率)对整个主帧的内容进行冗余编码而对冗余副本进行编码所需的大小相比,可以减小对仅包含一个或更多个参数的部分副本进行编码所需的大小,而通常也可以使用相同的比特率或更高的比特率来对部分副本进行编码。然而,与相应主帧的低比特率版本的常规解码相比,本发明构思,即通过错误隐藏辅助参数来增强隐藏,提供了更好的质量。
在实施例中,编码器可以被配置为将参数延迟一段时间,并将参数嵌入被编码且在时间上稍后被发送的分组中。换句话说,编码器首先以第一分组发送主帧。然后,在一定时间延迟之后,编码器以比第一分组更晚发送的另一分组发送“部分副本”。因此,编码器仍然对参数进行量化,但将其添加到稍后分组中的比特流。因此,即使主帧不可用或有缺陷,例如丢失、损坏或延迟,其内容仍然可以借助于稍后发送且因此可能在解码器可用的参数以隐藏的方式在解码器侧被正确地重建(或至少近似而没有严重的伪像)。
在实施例中,编码器可以被配置为减小主帧比特率,其中主帧比特率减小和部分副本帧编码机制一起确定主帧和部分副本帧之间的比特率分配以包括在恒定的总比特率内。因此,编码器在发送主帧和部分副本帧时提供恒定的总比特率,同时提供具有低感知影响的良好音频质量。
在实施例中,编码器可以被配置为创建具有类语音内容类型和一般音频内容类型中之一的主帧以及具有类语音内容类型和一般音频内容类型中另一个的部分副本。因此,编码器是通用的,因为它可以分别或彼此结合地处理不同类型的音频内容。因此,这在编码器适于将例如ACELP主帧与TCX部分冗余副本进行组合时特别有用,反之亦然。
在实施例中,编码器可以是使用TCX编码方案的编解码器的一部分。根据该实施例,编码器优选地使用TCX编码来有效地编码一般音频内容、音乐、背景噪声等。编码器可以可靠地确定和发送TCX特定参数,当部分冗余帧可以例如不包括任何编码的频谱值并且因此可能本身不足以重建有缺陷的帧时,该TCX特定参数可以用于解码器侧的TCX隐藏。
在实施例中,编码器可以被配置为检测帧是否包含噪声或类似噪声的音频信号,或者帧是否包含具有在一段时间内平稳的尖锐谱线的噪声基底,并且基于该检测将参数嵌入TCX帧中。因此,可以在编码器侧做出关于当前信号特性的决定,使得这些信号的特定参数被编码并被发送到解码器以增强隐藏。
在实施例中,所述参数可以包括ISF或LSF参数,具体是预测编码的ISF或LSF参数。ISF和LSF参数表示被用于LPC参数的量化和编码。在TCX编码方案中,LPC用于表示掩蔽阈值。这是一个重要的参数,并且在帧丢失的情况下,非常有助于在解码器侧正确使用。特别是如果ISF/LSF被进行预测编码,则隐藏质量将通过在隐藏期间使该信息可用而得以改进,因为解码器侧的预测器状态将保持正确,即,与编码器同步,并且这将导致不可用主帧的快速恢复。
在实施例中,所述参数可以包括信号分类参数。信号分类用于表示内容类型:无声(UNVOICED),无声过渡(UNVOICEDTRANSITION),有声过渡(VOICED TRANSITION),有声(VOICED)和起始(ONSET)。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否正在改变。在隐藏期间使该信息在解码器侧可用有助于确定信号的可预测性,并且因此可以帮助调整LPC参数的幅度淡出速度、内插速度。
在实施例中,所述参数可以包括TCX全局增益或TCX全局等级。可以发送该全局增益以在隐藏帧可用的情况下容易地将隐藏帧的能量设置为正确的(编码器确定的水平)。
在实施例中,所述参数可以包括窗口信息和频谱峰值位置中的至少一个。使该信息在编码器侧可用有利于将这些参数选择性地发送到解码器以进行隐藏。
在实施例中,编码器可以是切换式编解码器的一部分,其中该切换式编解码器包括至少两个核心编码方案,其中第一核心编码方案使用ACELP,第二核心编码方案使用TCX。例如,编码器使用ACELP对类语音音频内容进行编码,并且使用TCX对一般音频内容进行编码。因此,使用若干用于对音频内容进行编码的编码方案使编码器成为通用的。此外,编码器通过对每个信号使用信号特定编码方案来提供良好的结果。
在实施例中,编码器可以被配置为当在ACELP帧之后存在第一TCX帧时,在切换之后不将“部分副本”放置在TCX帧之上。例如,在这种情况下,可以选择性地省略增强隐藏的参数的提供。如果第一TCX帧丢失,则无法以TCX模式隐藏。因此,将改为使用ACELP隐藏。在这种情况下,仅TCX部分副本将不足以完全合成帧,解码器需要处于隐藏模式,且可由部分副本支持。因此,由于隐藏需要前一帧对信号内容进行外插,因此在这种情况下优选地使用ACELP隐藏(因为先前帧是ACELP),该ACELP隐藏使得TCX部分副本不太有用。由于编码器被配置为检测切换并且选择性地,即取决于切换事件,提供特定类型的部分副本,因此解码器侧的隐藏将提供良好的结果。
在实施例中,编码器可以被配置为在编码之前分析信号并且基于分析的信号禁用部分副本(例如,不提供任何参数)或者提供减少的部分副本(例如,提供比正常情况下少的参数)。例如,如果在没有解码器内的附加部分副本信息的帮助下,可以令人满意地隐藏信号,但是干净信道性能由于主帧减少而受到影响,则可以禁用部分副本或者可以在编码器内使用特定减少的部分副本。因此,编码器适于选择性地提供部分副本,即只有在解码器侧需要隐藏参数来重建不可用主帧的音频内容时才提供部分副本。此外,可以优化主帧传输的带宽使用。
在实施例中,编码器可以被配置为在使用不同量的信息和/或不同参数集的多个部分副本模式之间进行选择,其中所述部分副本模式的选择是基于参数的(例如,描述要被编码的信号的参数)。因此,编码器可以选择性地选择特定部分副本模式,以提供非常适合于在解码器侧隐藏特定不可用主帧的部分副本。多个部分副本模式之间的选择基于各种参数,例如当前和/或先前帧的信号特性,包括音调稳定性、LTP音调、LTP增益、信号的时间趋势、最后两帧的模式以及帧类。
在实施例中,多个部分副本模式中的至少一个可以是频域隐藏模式。该模式可以由编码器选择性地选择,以提供包括特定参数的部分副本,该参数非常适合于在解码器侧提供包含频域信号的不可用主帧的良好隐藏结果。
在实施例中,多个部分副本模式中的至少两个可以是不同的时域隐藏模式。例如,如果相应的时域信号包括至少特定特性,则可以选择第一部分副本模式。否则,如果时域信号不包括该特定特性,或者如果时域信号包括不同的信号特性,则选择第二部分副本模式。因此,编码器提供包含在部分副本中的参数的信号特定选择。
在实施例中,如果帧包含瞬态或者如果帧的全局增益比先前帧的全局增益低(例如,至少预定义的量),则可以选择至少两个时域隐藏模式中的一个。因此,编码器选择性地选择用于提供在解码器侧使用的增强有缺陷或不可用主帧的隐藏的参数的模式,即使该有缺陷或不可用主帧的信号特性在一定程度上偏离了先前帧的信号特性。
在实施例中,编码器可以被配置为:如果存在LTP数据,则发送LTP滞后(作为用于增强隐藏的参数)。因此,编码器选择性地提供在解码器侧使用的用于长期预测解码的参数。
在实施例中,编码器可以被配置为发送分类器信息(作为用于增强隐藏的参数)。信号分类用于表示内容类型:无声,无声过渡,有声过渡,有声和起始。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否在改变。在隐藏期间使该信息在解码器侧可用(由编码器发送)有助于确定信号的可预测性,并且因此可以帮助调整LPC参数的幅度淡出速度和/或内插速度,并且可以控制有声或无声激励信号的高通或低通滤波的可能使用(例如,用于去噪)。
在实施例中,编码器可以被配置为发送LPC参数、LTP增益、噪声等级和脉冲位置中的至少一个(作为用于增强隐藏的参数)。因此,编码器发送非常适合于在解码器侧隐藏有缺陷或不可用主帧的内容(即,以增强隐藏)的特定参数。
另一实施例提供了一种用于对类语音内容和/或一般音频内容进行解码的解码器,其中该解码器被配置为使用在时间上稍后发送的参数以在原始帧丢失、损坏或延迟的情况下增强隐藏。因此,在接收器(或解码器)处,在时间上稍后发送的参数可以用于增强解码器侧的错误隐藏,从而在原始帧有缺陷(例如丢失、损坏或延迟)的情况下重建信号(例如,避免严重伪像的隐藏信号)。因此,本发明构思可以通过使用增强隐藏的参数同时有效地使用给定带宽来可靠地重建不可用的音频内容。
例如,由音频解码器发送(及评估)以增强隐藏的参数可以包括在解码器的隐藏单元隐藏有缺陷帧时所需的最重要的信息类型中的一个或更多个。然而,通常选择参数以使得仅参数不足以执行完全错误隐藏。相反,为了实际执行错误隐藏,解码器的隐藏单元通常例如基于先前(或随后)解码的帧来获得附加信息类型。因此,在时间上稍后发送的参数仅增强隐藏,但并不构成完全的隐藏信息。
因此,在时间上稍后发送的参数的使用允许仅以小的比特率使关于最重要隐藏参数的精确信息在音频解码器处可用,而提供隐藏帧所需的附加信息由音频解码器本身例如使用外插或内插基于一个或更多个先前(或随后)解码的帧而生成。
在实施例中,解码器可以被配置为接收主帧和“部分副本”,其中“部分副本”不是主帧的低比特率版本,但是其中“部分副本”包含用于增强隐藏的参数。由于“部分副本”包含这些参数,所以与用于发送主帧的低比特率版本的带宽相比,用于传输这些参数的带宽甚至更低。
在实施例中,所述参数包含在部分副本中,并且解码器被配置为在当前丢失帧的部分副本可用的情况下从去抖动缓冲器接收该部分副本。去抖动缓冲器进一步改进了本发明构思,因为它能够提供抖动延迟,其中可以缓冲一定数量的帧。因此,以错误的时间顺序到达解码器的帧(即,在第二帧之前已在编码器侧发送的第一帧比第二帧更晚到达解码器侧,即使预期第一帧比第二帧更早到达解码器侧)可以被缓冲并以正确的时间顺序被提供。这在帧延迟的情况下特别有用。
在实施例中,解码器可以被配置为接收具有类语音内容类型和一般音频内容类型中之一的主帧以及具有类语音内容类型和一般音频内容类型中另一个的部分副本。因此,解码器是通用的,因为它可以分别或彼此结合地处理不同类型的音频内容。因此,这在解码器适于提取例如已在ACELP主帧之上传输的TCX部分冗余副本时特别有用,或反之亦然。
在实施例中,解码器可以是使用TCX编解码方案的编解码器的一部分。根据该实施例,解码器优选地使用TCX解码来有效地解码一般音频内容、音乐、背景噪声等。解码器可以可靠地从部分副本中提取TCX特定参数(以增强隐藏)以用于增强TCX隐藏。
在实施例中,所述参数可以包括ISF或LSF参数,具体是预测编码的ISF或LSF参数。ISF和LSF参数表示被用于LPC参数的量化和编码。在TCX编码方案中,LPC用于表示掩蔽阈值。这是一个重要的参数,并且在帧丢失的情况下,非常有助于在解码器侧正确使用。特别是如果ISF/LSF被进行预测编码,则隐藏质量将通过在隐藏期间使该信息可用而得以改进,因为解码器侧的预测器状态将保持正确,即,与编码器同步,并且这将导致不可用主帧的快速恢复。
在实施例中,所述参数可以包括信号分类参数。信号分类用于表示内容类型:无声,无声过渡,有声过渡,有声和起始。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否正在改变。在隐藏期间使该信息在解码器侧可用有助于确定信号的可预测性,并且因此可以帮助调整LPC参数的幅度淡出速度、内插速度。
在实施例中,所述参数可以包括TCX全局增益或TCX全局等级。可以发送全局增益以在其可用的情况下容易地将隐藏帧的能量设置为正确的(编码器确定的)级别。
在实施例中,所述参数可以包括窗口信息和频谱峰值位置中的至少一个。使该信息在解码器侧可用能够用于选择性地增强隐藏。
在实施例中,解码器可以是切换式编解码器的一部分,其中该切换式编解码器包括至少两个核心编码方案,其中第一核心编码方案使用ACELP,第二核心编码方案使用TCX。例如,解码器使用ACELP解码方案来解码类语音音频内容并使用TCX解码方案来解码一般音频内容。因此,使用若干解码方案来解码不同的音频内容使得解码器是通用的。
在实施例中,解码器可以被配置为在ACELP帧之后的第一TCX帧对解码器不可用的情况下,在切换之后使用ACELP隐藏。如果第一TCX帧有缺陷,即丢失、损坏或延迟,则无法以TCX模式隐藏。因此,将改为使用ACELP隐藏。在这种情况下,仅TCX部分副本将不足以完全合成帧,解码器需要处于隐藏模式,且可由部分副本支持。由于隐藏需要前一帧对信号内容进行外插,因此在这种情况下优选地使用ACELP隐藏(因为先前帧是ACELP),该ACELP隐藏将使得TCX部分副本不太有用。
在实施例中,解码器可以被配置为在解码器可用的多种模式之中的使用不同量的信息和/或不同参数集的多个部分副本模式或隐藏模式之间进行选择。在实施例中,如果解码器没有得到相应模式,即,如果它不能从部分副本确定或以其它方式获取相应模式,则解码器选择隐藏模式。否则,隐藏模式由可用的部分副本指定,其中随后作出决定的是编码器。因此,解码器使用直接来自在编码器侧发送的比特流的分别编码的不同量的信息和/或不同的参数集。因此,解码器可以基于部分副本模式应用非常适合的隐藏模式,其中在一种模式中存在较多的支持(增强)信息(即,参数),而在另一模式中存在较少的支持信息。换句话说,在CA模式下,编码器决定适当的隐藏模式并相应地准备部分副本。如果部分副本可用于解码器,并且其应当用于增强隐藏,则解码器必须坚持由编码器作出的决定,否则该部分副本中的信息不能被恰当地利用。如果部分副本不可用,或者如果部分副本由于其他原因而不和/或不应被使用,则解码器仅自身决定隐藏模式。
在实施例中,多个部分副本模式中的至少一个可以是频域隐藏模式。该模式可以由解码器选择性地选择,以使用包括特定参数的部分副本,这些参数非常适合于提供包含频域信号的不可用主帧的良好隐藏结果。
在实施例中,多个部分副本模式中的至少两个可以是不同的时域隐藏模式。例如,第一部分副本包含包括至少某一特性的相应时域信号的参数,而第二部分副本包含包括不同信号特性的相应时域信号的参数。这两个时域模式中的一个可以由解码器选择性地选择,以使用包括特定参数的部分副本,这些参数非常适合于提供包含时域信号的不可用主帧的良好隐藏结果。
在实施例中,解码器可以被配置为:如果LTP数据存在于相应的主帧中,则接收LTP滞后。因此,解码器能够通过长期预测解码来重建不可用主帧的内容,从而使用已经在部分副本中接收的LTP参数。
在实施例中,解码器可以被配置为接收分类器信息。信号分类用于表示内容类型:无声,无声过渡,有声过渡,有声和起始。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否在改变。在隐藏期间使该信息在解码器侧可用(由编码器发送)有助于确定信号的可预测性,并且因此可以帮助调整LPC参数的幅度淡出速度、内插速度,并且可以控制有声或无声激励信号的高通或低通滤波的可能使用(例如,用于去噪)。
在实施例中,解码器可以被配置为接收LPC参数、LTP增益、噪声等级和脉冲位置中的至少一个(作为用于增强隐藏的参数)。因此,解码器能够通过使用已经在部分副本中接收的这些参数中的至少一个来重建不可用主帧的内容。
在实施例中,解码器可以被配置为根据隐藏模式以两个不同因子减少音调增益和代码增益。这用以每当原始信号更瞬态时避免具有长平稳信号。
在实施例中,减少音调增益和代码增益的第一因子是0.4,第二因子是0.7。这两个因子是特别有效的,以便每当原始信号更瞬态时避免具有长平稳信号。
在实施例中,解码器可以被配置为:如果先前主帧丢失,则不考虑从部分副本解码的音调,并且其中解码器被配置为将音调固定(即,调整)为预测音调以用于后续丢失的主帧,而不是使用所发送的音调。因此,如果先前帧丢失,则不应考虑从部分副本解码的音调,因为在比特流中发送的音调是基于地面实况在编码器侧计算的,但是如果先前帧丢失,则先前丢失和隐藏合成的合成可能确实不同于编码器地面实况。因此,一般来说更好的是,在多帧丢失的情况下,不冒险依赖于编码器/解码器的同步性,并且将音调固定为预测音调以用于后续丢失的帧,而不是使用所发送的音调。
另一实施例创建了一种用于对类语音内容和/或一般音频内容进行编码的方法,该方法包括以下步骤:至少在一些帧中将参数嵌入比特流中,所述参数在原始帧丢失、损坏或延迟的情况下增强隐藏。即使标准的隐藏机制可被用于有缺陷的(即丢失的、损坏的或延迟的)帧,本发明方法使用嵌入在帧中的参数,以便增强这种隐藏(并且比特流参数可以替代常规地在解码器侧导出的参数)。因此,本发明提出不具有仅是主帧的低比特率版本的部分副本,而是传输将增强隐藏的参数(但该参数通常不构成完全错误隐藏信息)。因此,与现有技术相比,解码器可以在一定程度上修改。
另一实施例创建了一种用于对类语音内容和/或一般音频内容进行解码的方法,该方法包括以下步骤:使用在时间上稍后发送的参数以在原始帧丢失、损坏或延迟的情况下增强隐藏。因此,在接收器处,在时间上稍后发送的参数可以用于增强解码器侧的错误隐藏,从而在原始帧有缺陷(即丢失、损坏或延迟)的情况下重建信号。因此,通过使用本发明的方法,有缺陷、损坏或不可用的音频内容可以通过使用参数而不是整个冗余编码帧而被可靠地(至少部分地)重建。
另一实施例创建一种用于对音频内容进行编码的编码器,其中该编码器被配置为提供当前帧的主编码表示和至少一个错误隐藏参数的编码表示以增强当前帧的解码器侧的错误隐藏,其中该编码器被配置为基于(或依赖于)表示当前帧中包含的音频内容的信号特性的一个或更多个参数来选择该至少一个隐藏参数。例如并不限于此,表示信号特性的参数可以从至少当前帧和先前帧的信号特性中选择,包括音调稳定性、LTP音调、LTP增益、信号的时间趋势、最后两帧的模式和帧类。基于这些信号特性参数,编码器选择性地选择一个或更多个隐藏参数,这些参数非常适合于解码器侧的错误隐藏。这些错误隐藏参数被分别编码,即,与要发送的信号的主编码表示分开编码。因此,解码器可以通过使用错误隐藏来从这些错误隐藏参数重建信号,即使该信号的主编码表示丢失、损坏或延迟。因此,至少在一些帧(或分组)中,错误隐藏参数(也被指定为冗余编码参数)被嵌入在比特流中并被发送到解码器侧。因此,不需要提供整个信号的“部分副本”,该“部分副本”通常以较低的比特率编码并且因此可包括较低的质量。因此,本发明提供了一种通过所选择的错误隐藏参数来隐藏有缺陷(例如,丢失、损坏或延迟)的帧的改进构思,其中所选择的错误隐藏参数已在编码器侧加以选择(例如,根据信号特性)并嵌入比特流中。因此,本发明保持在给定带宽内,同时保持发送信号的良好质量,即使该信号的一部分(例如,一帧)通过解码器侧的隐藏来重建。
在实施例中,解码器侧的错误隐藏是基于外插的错误隐藏。因此,隐藏例程可以使用外插法来估计或预测未来的信号特性,该信号特性可以进一步帮助和辅助有缺陷的主帧的隐藏。
在实施例中,编码器可以被配置为将当前帧的至少一个错误隐藏参数的编码表示与未来帧的主编码表示组合为传输分组,使得当前帧的至少一个错误隐藏参数的编码表示以相对于当前帧的主编码表示的时间延迟被发送。换句话说,编码器首先以第一分组发送主帧(即,帧的主编码表示)。然后,在一定时间延迟之后,编码器以比第一分组更晚发送的另一分组发送“部分副本”(即,至少一个错误隐藏参数的编码表示)。因此,编码器仍然对参数进行量化,但将其添加到稍后分组中的比特流。因此,本发明特别适用于基于分组的网络,例如IP语音(VoIP)、LTE语音(VoLTE)等。虽然帧的主编码表示可能已经被发送到解码器侧,但是其相应的错误隐藏参数将利用后续传输分组之一来发送。因此,如果包含主编码表示的分组丢失、损坏或延迟,则包含错误隐藏参数的分组可以正确地到达解码器侧,因为其已经在时间上稍后发送。此外,通过将这些错误隐藏参数与另一帧的主编码表示组合为一个分组,可以有效地使用带宽。
在实施例中,编码器可以被配置为在用于提供错误隐藏参数的编码表示的至少两个模式之间选择性地选择。因此,编码器是通用的,因为其提供用于处理可具有不同信号特性的不同信号的不同模式,其中可以在不同模式中提供不同的错误隐藏参数集。由于这两种模式用于提供至少一个错误隐藏参数的编码表示,所以这些至少两种模式也被称为部分副本模式。
在实施例中,编码器对用于提供至少一个错误隐藏参数的编码表示的模式的选择可以基于包括以下至少一项的一个或更多个参数:帧类、LTP音调、LTP增益和用于提供一个或更多个先前帧的至少一个错误隐藏参数的编码表示的模式。这些参数非常适合于决定用于在解码器侧的错误隐藏的模式。
在实施例中,用于提供至少一个错误隐藏参数的编码表示的模式中的至少一个可以是时域隐藏模式,使得至少一个错误隐藏参数的编码表示包括TCX LTP滞后和分类器信息中的一个或更多个。例如,如果存在包括至少某一特性的时域信号,则可以选择第一模式,其为时域隐藏模式。否则,如果时域信号不包括该某一特性,或者如果时域信号包括不同的信号特性,则选择第二模式。因此,编码器提供错误隐藏参数的信号特定选择。
在实施例中,用于提供至少一个错误隐藏参数的编码表示的模式中的至少一个可以是时域隐藏模式,其中如果当前帧中包含的音频内容包含瞬态或如果当前帧中包含的音频内容的全局增益低于前一帧的全局增益,则选择该时域隐藏模式。因此,编码器选择性地选择用于提供错误隐藏参数的模式,所述错误隐藏参数用于在解码器侧隐藏不可用的主编码表示,即使这种不可用的主帧的信号特性在一定程度上偏离了前一帧的信号特性。
在实施例中,用于提供至少一个错误隐藏参数的编码表示的模式中的至少一个可以是频域隐藏模式,使得至少一个错误隐藏参数的编码表示包括LSF参数、TCX全局增益和分类器信息中的一个或更多个。该模式可以由编码器选择性地选择,以提供至少一个错误隐藏参数的编码表示,所述参数非常适合于在解码器侧提供包含频域信号的不可用主编码表示的良好隐藏结果。
在实施例中,编码器可以至少使用TCX编码方案。根据该实施例,编码器优选地使用TCX编码来有效地编码一般音频内容、音乐、背景噪声等。因此,编码器可以可靠地确定和发送可用于解码器侧的TCX隐藏的TCX特定参数。
一个实施例创建一种用于对音频内容进行解码的解码器,其中该解码器被配置为接收当前帧的主编码表示和/或至少一个错误隐藏参数的编码表示,以增强当前帧的解码器侧的错误隐藏,其中该解码器被配置为在当前帧的主编码表示丢失、损坏或延迟的情况下通过使用该至少一个错误隐藏参数来使用错误隐藏至少部分地重建当前帧的音频内容。通常,解码器能够接收比特流,该比特流可以是在编码器决定不发送特定过去帧的任何辅助数据的情况下不具有任何辅助数据(即,至少一个错误隐藏参数)的单个主帧(即,当前帧的主编码表示)、或者主帧(即,当前帧的主编码表示)和至少一个或更多个错误隐藏参数。因此,解码器可以通过使用错误隐藏来使用这些一个或更多个错误隐藏参数至少部分地重建信号,即使该信号的主编码表示有缺陷,例如丢失、损坏或延迟。因此,至少在一些帧中,错误隐藏参数(冗余编码参数)被嵌入比特流中并被发送到解码器侧。因此,不需要提供整个信号的部分副本,该部分副本通常以较低比特率编码并且因此可以包括较低的质量。因此,本发明提供了一种通过使用所选择的错误隐藏参数来隐藏有缺陷(例如,丢失、损坏或延迟)的帧的改进构思,其中当使用接收的错误隐藏参数对使用基于一个或更多个先前解码的帧所获得的信息的隐藏进行“引导”(例如,增强或改进)时,所选择的错误隐藏参数已在编码器侧加以选择、嵌入比特流中并被发送到解码器侧。因此,本发明构思保持在给定带宽内(通过使用不需要将所有错误隐藏信息从编码器发送到解码器的基于外插的误差隐藏),同时保持解码信号的良好质量(通过使用错误隐藏参数增强错误隐藏),即使该信号通过解码器侧的隐藏被重建。
在实施例中,解码器侧的错误隐藏是基于外插的错误隐藏。因此,在解码器侧提供的隐藏例程可以使用外插法来估计或预测未来的信号特性,该信号特性可以进一步帮助和辅助有缺陷的主帧的隐藏。
在实施例中,解码器可以被配置为从与包含当前帧的主编码表示的分组分离的分组提取当前帧的错误隐藏参数。因此,通过使两个分离的分组可用,解码器可以在包含当前帧的主编码表示的分组丢失、损坏或延迟的情况下使用这些分离的分组之一中包含的错误隐藏参数。
在实施例中,解码器可以被配置为在至少两个错误隐藏模式之间选择性地选择,所述至少两个错误隐藏模式使用一个或更多个错误隐藏参数的不同编码表示以使用基于外插的错误隐藏至少部分地重建音频内容。如果解码器没有获得相应的模式,即,如果解码器不能从部分副本(即,从至少一个错误隐藏参数的编码表示)确定或以其他方式获取相应的模式,则解码器选择所述至少两个错误隐藏模式中的一个。否则,隐藏模式由可用的部分副本指定,即,由至少一个错误隐藏参数的编码表示指定。在这种情况下,编码器已经作出选择,而解码器使用至少两个模式中的所选择的一个。换句话说,在CA模式下,编码器决定适当的隐藏模式并相应地准备部分副本。如果部分副本可用于解码器,并且其应当用于增强隐藏,则解码器必须坚持由编码器作出的决定,否则该部分副本中的信息不能被恰当地利用。如果部分副本不可用,或者如果部分副本由于其他原因而不和/或不应被使用,则解码器仅自身决定隐藏模式。因此,解码器提供一个或更多个错误隐藏参数的信号特定解码和增强的错误隐藏。
在实施例中,使用一个或更多个错误隐藏参数的不同编码表示的错误隐藏模式中的至少一个可以是时域隐藏模式,其中至少一个错误隐藏参数的编码表示包括TCX LTP滞后和分类器信息中的至少一个。例如,如果存在包括至少某一特性的时域信号,则可以选择第一模式,其为时域隐藏模式。否则,如果时域信号不包括该某一特性,或者如果时域信号包括不同的信号特性,则选择第二模式。因此,当解码器可以遵循该编码器的选择时,编码器可以提供错误隐藏参数的信号特定选择。
在实施例中,使用一个或更多个错误隐藏参数的不同编码表示的所述至少两个错误隐藏模式中的至少一个可以是频域隐藏模式,其中至少一个错误隐藏参数的编码表示包括LSF参数、TCX全局增益和分类器信息中的一个或更多个。该模式可以由解码器选择性地选择,以提供包含频域信号的不可用主编码表示的良好隐藏结果。
在实施例中,解码器可以至少使用TCX编码方案。根据该实施例,解码器优选地使用TCX解码来有效地解码一般音频内容、音乐、背景噪声等。因此,解码器可以在主编码表示已丢失、损坏或延迟的情况下使用TCX特定错误隐藏参数以重建TCX信号。
一个实施例创建了一种用于错误隐藏的装置,该装置被配置为执行对于丢失帧的标准隐藏机制并使用可传输参数来增强隐藏。因此,本发明通过使用特定参数来改进标准隐藏机制。
一个实施例创建了一种用于错误隐藏的装置,该装置被配置为不具有仅是主帧的低比特率版本的部分副本,而是具有由多个关键参数组成的部分副本以增强隐藏。因此,可以有效地使用带宽容量。
一个实施例创建了一种用于错误隐藏的装置,其具有接收器,该接收器包括去抖动缓冲器,用于在当前丢失帧的部分冗余副本可用于任何未来帧的情况下提供所述部分冗余副本,其中该装置被配置为读取部分冗余信息比特流并更新相应的参数。因此,如果当前帧丢失、损坏或延迟,则本发明的装置可以使用已经在时间上稍后发送的(即,以未来帧发送的)部分冗余副本,以重建该帧。
一个实施例创建了一种切换式编码器或解码器,其中存在两个或更多个核心编码方案,而例如一个编码方案使用ACELP对类语音内容进行编码,第二编码方案使用TCX对一般音频内容进行编码,其中使用部分冗余副本编码对ACELP帧进行处理,使用不同的方法对TCX帧进行处理,其中在靠近核心编码器切换的帧中,出现两种特殊情况,即:上方具有从未来TCX帧生成的部分副本的ACELP主帧,或上方具有从未来ACELP帧生成的部分副本的TCX主帧,其中,对于这些情况,两个核心编码器可配置为创建另一编码器类型的主帧以及部分副本,而不违反帧的所需总大小,以确保恒定的比特率,或其中:在ACELP帧之后的第一TCX帧,其中如果该帧丢失并且因此对于解码器不可用,则所提出的技术将使用已在另一帧之上传输的部分副本信息对该帧进行TCX隐藏,其中隐藏需要前一帧来对信号内容进行外插,使用ACELP隐藏(因为先前帧为ACELP),并且其中已经在编码器中决定在切换之后不将部分副本放置在TCX帧之上,或者其中存在信号自适应部分副本选择,其中在编码之前分析信号以确定部分副本的使用是否是有利的,其中如果在没有解码器内的附加部分副本信息的帮助下可以令人满意地隐藏信号,但是干净信道性能由于减少的主帧而受到影响,则禁用部分副本或者在编码器内使用特别减少的部分副本。因此,本发明的编码器或解码器是通用的,因为其提供不同编码方案的组合。
一个实施例创建了一种变换域编码器或解码器,其中使用编码/解码方案,其中至少在一些帧中冗余编码参数被嵌入比特流中并被发送到解码器侧,或其中冗余信息被延迟一段时间并被嵌入分组中,该分组被编码并在时间上稍后被发送,使得在解码器已使未来帧可用并且原始帧丢失、损坏或延迟甚至更多的情况下能够使用所述信息。因此,通过提供比特流中的冗余编码参数,可以有效地使用给定带宽。
如前所述,变换域编码器或解码器可以使用包含ISF/LSF参数的冗余信息:ISF/LSF参数表示被用于LPC参数的量化和编码。在TCX中,LPC用于表示掩蔽阈值。这是基本参数,并且在帧丢失的情况下非常有助于使其在解码器侧正确使用。特别是如果ISF/LSF被进行预测编码,则隐藏质量将通过在隐藏期间使该信息可用而显著改进,因为在解码器侧的预测器状态将保持正确(与编码器同步),这将在丢失之后导致非常快速的恢复;信号分类:信号分类用于表示内容类型:无声,无声过渡,有声过渡,有声和起始。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否正在改变。在隐藏期间在解码器侧使该信息可用能够帮助确定信号的可预测性,并且因此能够帮助调整LPC参数的幅度淡出速度、内插速度;TCX全局增益/等级:该全局增益能够被传输,以在隐藏帧可用的情况下容易地将隐藏帧的能量设置为正确的(编码器确定的水平);窗口信息,如重叠长度;或频谱峰值位置用于帮助音调隐藏。
在提供“部分”信息的意义上,可以使用术语“冗余”、“冗余副本”、“部分冗余副本”和包含术语“冗余”的其他表达组合。部分信息不包含主编码帧(即,编码音频信号)的冗余且可能的低比特率表示。相反,部分信息可以包含或包括参数,特别是隐藏辅助参数,其增强在解码器侧可用的隐藏机制,以便在主编码帧有缺陷(例如丢失、损坏或延迟)的情况下隐藏相应的主帧,即,主编码音频数据。换句话说,术语“冗余”和“部分”及其派生物,例如,“冗余副本”和“部分副本”可以在本文档中互换使用,因为这两个术语表示可包含或包括上述参数的信息。
附图说明
之后将参考附图来描述本发明的实施例,在附图中:
图1示出了本发明的编码器的示意性表示,
图2示出了本发明的编码器的实施例的示意性表示,
图3示出了本发明的编码器的实施例的示意性表示,
图4示出了本发明的编码器的实施例的示意性表示,
图5示出了本发明的解码器的实施例的示意性表示,
图6示出了说明信道感知模式下部分冗余的概念的实施例的示意性表示,
图7示出了说明信道感知模式下部分冗余的概念的实施例的示意性表示,
图8示出了说明信道感知编码器框架的实施例的示意性表示,
图9示出了说明信道感知解码器框架的实施例的示意性表示,
图10示出了表示宽带ITU-T P.800 ACR MOS测试结果的图,以及
图11示出了表示超宽带ITU-T P.800 DCR MOS测试结果的图。
具体实施方式
图1示出了本发明的编码器1。编码器1被配置为对音频内容2进行编码。具体地,编码器1被配置为对类似语音的内容和/或一般音频内容进行编码。相应的编码音频内容3在至少帧4中嵌入到比特流5中。
编码器1还被配置为至少在一些帧7中将参数6嵌入比特流5中。这些参数6用于在原始帧4丢失、损坏或延迟的情况下增强隐藏。
比特流5被发送到包括解码器的接收器。
如图2所示,编码器1被配置为创建主帧4b和部分副本8b。然而,该部分副本8b不仅是主帧4b的低比特率版本。相反,该部分副本8b包含增强解码器侧的隐藏的参数6,但是另一方面,不包括用于重建有缺陷的音频内容(例如,丢失、损坏或延迟的主帧)的完整信息。换句话说,该部分副本包括一个或更多个参数来增强解码器侧的错误隐藏,但不包括错误隐藏所需的所有信息。
编码器1被配置为将参数6延迟一段时间并且将参数6嵌入在分组9中,分组9在时间上比包括主帧4b的分组更晚被编码和发送。
编码器1可以创建一个或更多个主帧4b、4c以及一个或更多个部分副本8a、8b。例如,音频内容2的至少一部分被编码并嵌入到主帧4b中。对于某些信号特性,由编码器1分析音频内容2的相同部分。基于此,编码器1确定对增强解码器侧的隐藏的一个或更多个参数6的选择。这些参数6被嵌入在相应的“部分副本”8b中。
换句话说,主帧4b包含音频内容2的至少一部分的编码表示。相应的部分副本8b包含一个或更多个参数6,这些参数6在解码器侧被错误隐藏使用,以在主帧4b丢失、损坏或延迟的情况下重建音频内容2的编码表示。
主副本4b与部分副本8a一起被打包到传送分组9中,其中部分副本8a是已经被编码在已在早些时候发送的主帧4a中的音频内容的部分副本。因此,编码器1将参数6延迟一段时间。如图2中可以进一步看到的,在部分副本8a之后的部分副本8b(属于主帧4b)将与主帧4c一起打包在稍后的传输分组中。在主帧4c和4b之间还可以存在一个或更多个另外的主帧。
一个重要的特征是,这里描述的概念使用如下编码/解码方案:至少在一些帧8a、8b中,冗余编码参数6被嵌入在比特流5中并被发送到解码器侧。冗余信息(参数6)被延迟一段时间并且被嵌入到分组9中,分组9在稍后的时间被编码和发送,使得在解码器已经具有未来的帧4b、8a可用的情况下可以使用该信息,但是原始帧4a被丢失、损坏或延迟更多。
比特流5可以例如包括恒定的总比特率。编码器1可以被配置为当与恒定的总比特率相比时减小主帧比特率,即,对主帧4b、4c进行编码所需的比特率。主帧4b、4c的比特率降低和部分冗余帧编码机制一起确定要被包括在比特流5的恒定的总比特率内的主帧和冗余帧(部分副本)4b、4c、8a、8b之间的比特率分配。因此,编码器1被配置为提供包含主帧4b和部分副本8a的分组9,其中分组9的大小,即比特率,处于或低于恒定的总比特率。
换句话说,主帧比特率降低和部分冗余帧编码机制一起确定要被包括在恒定的总比特率内主帧和冗余帧4b、4c、8a、8b之间的比特率分配。保持部分副本参数8a的帧4b(除了主帧之外)的总比特率不增加。
TCX编码方案
根据实施例,编码器1是使用TCX编码方案的编解码器的一部分。本发明的编码器1优选地使用TCX来编码一般音频内容。在TCX的情况下,部分副本8a、8b用于通过发送一些辅助参数6来增强解码器侧的错误隐藏的帧丢失算法。
当使用变换域编解码器时,可以选择将冗余信息8a、8b嵌入到TCX帧4b、4c,如果:
帧包含非常嘈杂的音频信号。这可以由低自动相关度量指示或由帧分类器输出为无声(UNVOICED)或无声过渡(UNVOICED TRANSITION)。无声或无声过渡分类指示低预测增益。
帧包含具有尖锐谱线的噪声基底,所述尖锐谱线在较长时间段内是平稳的。这可以通过搜索TCX频谱(功率谱或实频谱)中的局部最大值并将结果与先前帧的峰值检测结果进行比较的峰值检测算法来检测。在峰值没有移动的情况下,可能存在静止音调,所述静止音调可以在通过利用称为音调隐藏的相位推断器对频谱进行后处理来隐藏噪声频谱之后被容易地隐藏。
在存在LTP信息并且滞后在实际和过去是稳定的情况下,帧音调隐藏[6]应适用于解码器。
冗余信息(参数6)可以是:
ISF/LSF参数:
1SF/LSF参数表示被用于LPC参数的量化和编码。在TCX中,LPC用于表示掩蔽阈值。这是一个重要的参数,并且在帧丢失的情况下,非常有助于在解码器侧正确使用。特别是如果ISF/LSF被预测编码,则隐藏质量将通过在隐藏期间使该信息可用而显著改善,因为解码器侧的预测器状态将保持正确(与编码器同步),并且这将导致丢失后非常快速的恢复。
信号分类:
信号分类用于表示内容类型:无声(UNVOICED),无声过渡(UNVOICEDTRANSITION),有声过渡(VOICED TRANSITION),有声(VOICED)和起始(ONSET)。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否在改变。在隐藏期间使该信息在解码器侧可用有助于确定信号的可预测性,并且因此可以帮助调整LPC参数的幅度淡出速度、内插速度。
TCX全局增益/等级:
可以发送全局增益以在其可用的情况下容易地将隐藏帧的能量设置为正确的(编码器确定的)级别。
窗口信息,如重叠长度。
频谱峰值位置,用于帮助音调隐藏
存在一种特殊情况:在用于频域部分副本的编码器1处,检查信号2是否包含起始(onset)。如果实际帧4c的增益(可被量化)比先前帧4b的增益大特定(例如,1.6)倍,并且实际帧4c与先前帧4b之间的相关性低,则只有有限的(限幅)增益被传输。这避免了在隐藏情况下获得预回波伪像。在起始情况下,先前帧4b与实际帧4c实际上不相关。因此,如果基于先前帧4b频谱箱(spectral bin)进行隐藏,则不能依赖于在实际帧4c上计算的增益。
切换式编解码方案(TCX-ACELP)
在另一实施例中,编码器1是切换式编解码器的一部分,其中切换式编解码器包括至少两个核心编码方案。第一核心编码方案使用ACELP,第二核心编码方案使用TCX。参考图3,编码器1包括可在ACELP和TCX核心编码方案之间切换的核心编码器10。
该编码器还包括用于处理ACELP编码内容13的ACELP处理器11和用于处理TCX编码内容14的TCX处理器12。ACELP处理器11是使用常规部分副本方法的公知处理器,其中主帧15被进行主编码,冗余帧16被进行冗余编码。冗余帧16是它们对应的主帧15的低比特率版本。
TCX处理器12处理根据本发明构思被编码的帧。在第一分支17中,编码内容3以主帧4b、4c的形式来提供。在第二分支18中,增强隐藏的参数6以“部分副本”8a、8b的形式来提供,如图2所示。如前所述,ACELP内容15、16和TCX内容17、18都被打包到传输分组9的序列中,并且在比特流5中被发送到解码器侧。
仍然参考图3,但是以不同的词语来陈述,在切换式编码系统中结合现有技术的基于部分冗余副本的方法来描述本发明构思的用法。这样的系统包括两个(或更多个)核心编码方案,其中一个编码方案使用ACELP来编码类语音内容,第二个编码方案使用TCX来编码一般音频内容。
假设使用传统的部分冗余副本编码来处理ACELP帧15、16,并且使用本发明的方法来处理TCX帧4b、4c、8a、8b,则将出现两种主要情况,其中不需要特殊动作,并且帧4b、4c、8a、8b、15、16可以使用下面的核心编码器10的部分副本方法被处理:
上方具有从未来ACELP帧生成的部分副本16的ACELP主帧15
上方具有从未来TCX帧4b生成的部分副本8b的TCX主帧4c
然而,在靠近核心编码器切换的帧中,可能会出现两种特殊情况,即
上方具有从未来TCX帧生成的部分副本8的ACELP主帧15
上方具有从未来ACELP帧生成的部分副本16的TCX主帧4
对于这些情况,两个核心编码器需要配置为创建主帧4、15以及另一编码器类型的部分副本8、16,而不违反帧的所需总大小,以确保恒定的比特率。
因此,编码器1被配置为创建具有类语音内容类型(ACELP)和一般音频内容类型(TCX)中之一的主帧4和15以及具有类语音内容类型和一般音频内容类型中另一个的部分副本8、16。
然而,存在更具体的情况,其中对部分副本8、16的更复杂的选择是适当的,例如:
ACELP帧15之后的第一TCX帧4:
如果该帧4丢失并且因此对解码器不可用,则本发明的技术将使用已在另一(希望未丢失的)帧之上传输的部分副本信息(参数6)来对帧4进行TCX隐藏。但是,由于隐藏需要用于推断信号内容的前一帧,所以在这种情况下优选地使用ACELP隐藏(如前一帧是ACELP),这将使得不需要TCX部分副本。因此,在编码器1中已经确定在切换之后不将部分副本8放置在TCX帧4之上。
因此,当在ACELP帧15之后存在第一TCX帧4时,编码器1被配置为在切换之后不将部分副本8放置在TCX帧4之上。
信号自适应部分副本选择:
可以在编码之前分析信号(音频内容)2,以确定本发明的部分副本(使用参数6)的使用是否是有利的。例如,如果在没有解码器内的附加部分副本信息(即,参数6)的帮助下信号2可以被令人满意地隐藏,但干净信道性能由于主帧4的减小而受到影响,则可以禁止本发明的部分副本使用(即,将参数6嵌入比特流5中)或者可以在编码器1内使用特定减小的部分副本8。
因此,编码器1被配置为在编码之前分析信号2,并且基于分析的信号2禁用部分副本或者提供减小的部分副本。
通常,编码器1被配置为提供以部分副本模式构造的部分冗余副本8。在实施例中,编码器1被配置为在使用不同量的信息和/或不同参数集的多个部分副本模式之间进行选择,其中部分副本模式的选择基于各种参数。
针对TCX帧的部分冗余帧的构建
在TCX部分冗余帧类型的情况下,使用由一些辅助参数6组成的部分副本8来增强帧丢失隐藏算法。在实施例中,存在可用的三种不同的部分副本模式,其为RF_TCXFD、RF_TCXTD1和RF_TCX_TD2。类似于解码器侧的PLC模式决定,针对TCX的部分副本模式的选择基于诸如最后两帧的模式、帧类、LTP音调和增益之类的各种参数。用于选择模式的参数可以等于或不同于包含在“部分副本”中的用于增强隐藏的参数。
a)频域隐藏(RF TCXFD)部分冗余帧类型
根据实施例,多个部分副本模式中的至少一个是频域(“FD”)隐藏模式,其示例在下面进行描述。
针对RF_TCXFD部分副本模式使用29位。
·13位用于LSF量化器(例如,用于对LPC参数进行编码),LSF量化器与用于常规低速率TCX编码的相同。
·全局TCX增益使用7位来量化。
·分类器信息(例如,有声、无声等)以2位来编码。
b)时域隐藏(RF_TCXTD1和RF_TCXTD2)部分冗余帧类型
根据实施例,多个部分副本模式中的至少两个是不同的时域(“TD”)隐藏模式,其示例在下面进行描述。如果帧4c包含瞬态或者如果帧4c的全局增益比先前帧4b的全局增益低(很多),则选择第一时域隐藏模式,即,部分副本模式RF_TCXTD1。否则,选择第二时域隐藏模式,即,RF_TCXTD2。
对于这两种模式使用总共18位的辅助数据(side data)。
·9位用于表示TCX LTP(长期预测)滞后
·2位用于表示分类器信息(例如,有声、无声等)
时域隐藏
根据实现情况,编解码器可以仅是变换域编解码器或者是使用[4]或[5]中描述的时域隐藏的切换式编解码器(变换域/时域)。类似于所描述的在解码器侧的分组丢失隐藏模式决定,根据本发明的部分副本模式的选择基于如上所述的各种参数,例如,最后两帧的模式、帧类、LTP音调和增益。
在选择了时域模式的情况下,可以发送以下参数6:
在存在LTP数据的情况下,发送LTP滞后,
用信号发送分类器信息(无声、无声过渡、有声、有声过渡、起始…):信号分类用于表示内容类型:无声,无声过渡,有声过渡,有声和起始。通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否正在改变。在隐藏期间使该信息在解码器侧可用有助于确定信号的可预测性,并且因此可以帮助调整LPC参数的幅度淡出速度、内插速度,并且可以控制有声或无声激励信号的高通滤波或低通滤波的可能使用(例如,用于去噪)。
可选地,还可以发送以下参数6中的至少一个:
在带宽扩展用于常规编码的情况下,描述全频谱范围的LPC参数,
LTP增益,
噪音等级,和
脉冲位置
大多数发送的参数6是直接从在变换域中编码的实际帧4得出的,所以没有引起额外的复杂性。但是,如果复杂性不是问题,则可以添加编码器1处的隐蔽仿真以精化可以发送的变量6。
如上所述,也可以使用用于提供部分副本8的多种模式。这允许发送不同量的信息或不同的参数集。例如,对于时域(TD)有两种模式。如果帧4c包含瞬态或者如果帧4c的全局增益远低于先前帧4b的全局增益,则可以选择部分副本模式TD1。否则选择TD2。然后在解码器处,音调增益和代码增益将随两个不同的因子(相应地为0.4和0.7)而减小,以避免在原始信号2更短暂的情况下具有较长的平稳信号。
多帧丢失
还存在另外的特殊情况,即,多帧丢失的情况。如果先前帧4a丢失,则将不考虑从部分副本8b解码的音调,因为在比特流5中发送的音调是基于地面实况在编码器侧计算的,但是如果先前帧4a丢失,则先前丢失和隐藏合成的合成可能确实不同于编码器地面实况。因此,一般来说更好的是,在多帧丢失的情况下,不冒险依赖于编码器/解码器的同步性,并且将音调固定为预测音调以用于后续丢失的帧,而不是使用所发送的音调。
下面将参考图4所示的实施例概述编码器1的发明构思。
编码器1接收包含音频内容2的输入信号。音频内容2可以是类语音内容和/或一般音频内容,诸如音乐、背景噪声等。
编码器1包括核心编码器10。核心编码器10可以使用用于对类语音内容进行编码的核心编码方案(诸如ACELP)或者用于对一般音频内容进行编码的核心编码方案(诸如TCX)。核心编码器10还可以形成切换式编解码器的一部分,即,核心编码器10可以在类语音内容核心编码方案和一般音频内容核心编码方案之间进行切换。具体地,核心编码器10可以在ACELP和TCX之间进行切换。
如分支20所示,核心编码器10创建包括音频内容2的编码表示在内的主帧4。
编码器1还可以包括部分冗余帧提供器21。如分支30所示,核心编码器10可以向部分冗余帧提供器21提供一个或更多个参数6。这些参数6是增强解码器侧的隐藏的参数。
附加地或替代地,编码器1可以包括隐藏参数提取单元22。隐藏参数提取单元22直接从音频信号,即从内容2,提取隐藏参数6,如分支40所示。隐藏参数提取单元22将所提取的参数6提供给部分冗余帧提供器21。
编码器1还包括模式选择器23。模式选择器23选择性地选择隐藏模式,也称为部分冗余副本模式。根据部分冗余副本模式,模式选择器23确定哪些参数6适合于解码器侧的错误隐藏。
因此,核心编码器10分析信号,即音频内容2,并且基于分析的信号特性确定提供给模式选择器23的某些参数24。这些参数24还被称为模式选择参数24。例如,模式选择参数可以是帧类、最后两帧的模式、LTP音调和LTP增益中的至少一个。核心编码器10将这些模式选择参数24提供给模式选择器23。
基于模式选择参数24,模式选择器23选择部分冗余副本模式。模式选择器23可以选择性地在三种不同的部分冗余副本模式之间进行选择。具体地,模式选择器23可以选择性地在频域部分冗余副本模式和两个不同的时域部分冗余副本模式(例如,TD1和TD2)之间进行选择,例如如上所述。
如分支50所示,模式选择信息25,即,关于所选择的部分冗余副本模式的信息,被提供给部分冗余帧提供器21。基于模式选择信息25,部分冗余帧提供器21选择性地选择将在解码器侧使用的用于错误隐藏的参数6。因此,部分冗余帧提供器21创建并提供包含所述错误隐藏参数6的编码表示在内的部分冗余帧8。
换句话说,部分冗余帧提供器21提供特定于信号的部分冗余副本。这些部分冗余副本在部分冗余帧8中提供,其中每个部分冗余帧8包含至少一个错误隐藏参数6。
如分支20和60所示,编码器1将主帧4和部分冗余帧8组合为输出比特流5。在基于分组的网络的情况下,主帧4和部分冗余帧8一起被打包到传输分组中,传输分组在比特流中被发送到解码器侧。然而,应当注意,当前音频帧的主帧4c与先前帧(即,在早些时候已经发送的帧)的部分冗余帧8b(仅包含用于增强隐藏的参数6)一起被打包到分组9中。
比特流5包括恒定的总比特率。为了确保比特流5处于或低于恒定的总比特率,编码器1控制包含主帧和部分冗余帧8的组合在内的传输分组的比特率。附加地或替代地,编码器1可以包括接管该功能的比特率控制器26。
换句话说,编码器1被配置为将当前帧的至少一个隐藏参数6的编码表示8与未来帧(即,将在时间上比当前帧稍后发送的帧)的主编码表示4进行组合。因此,当前帧的至少一个错误隐藏参数6的编码表示8以相对于该当前帧的主编码表示4的时间延迟被发送。
换句话说,并且仍然参考图4,在第一步骤中,内容2a被编码并且被提供为主帧4a。其对应的一个或更多个错误隐藏参数6a被选择并被提供为部分冗余帧8a。然后,在第二步骤中,后续内容2b被编码并被提供为(后续)主帧4b,且其一个或更多个错误隐藏参数6b被选择并被提供为(后续)部分冗余帧8b。现在,编码器1将(当前内容的)部分冗余帧8a与(后续内容的)主帧4b组合为公共传输分组9b。因此,如果包含主帧4a的前一分组9a丢失、损坏或延迟,则在上述后续传输分组9b(包含部分冗余帧8a和主帧4b)内在时间上稍后发送的其部分冗余帧8a可以在解码器侧用于隐藏在(有缺陷的)主帧4a中的编码表示中原始包含的音频内容。
关于解码器的描述
根据实施例,本发明使用分组交换或基于分组的网络。在这种情况下,如图5所示,在传输分组9a、9b中发送帧。传输分组9a包含主帧4b和部分副本8a。传输分组9b包含主帧4c和部分副本8b。
换句话说,部分副本8a是当前帧的至少一个错误隐藏参数6的编码表示。已经由编码器1选择性地选择了至少一个错误隐藏参数6,如先前参考图1至图4所述。至少一个错误隐藏参数6增强在解码器31处的隐藏,如将在下面更详细描述的。
在解码器31处,可能分别存在关于发送帧4、8或传输分组9a、9b的两种不同情况。
对主编码表示的标准解码
在由分支70指示的第一种情况下,以正确的顺序,即,以与在编码器侧发送的顺序相同的顺序,接收所发送的传输分组9a、9b。
解码器31包括用于对包含在帧中的所发送的编码音频内容2进行解码的解码单元34。具体地,解码单元34被配置为对某些帧的所发送的主编码表示4b、4c进行解码。根据相应帧的编码方案,解码器31可以使用相同的解码方案,即,用于一般音频内容的TCX解码方案或用于类语音内容的ACELP解码方案。因此,解码器31输出分别解码的音频内容35。
使用至少一个错误隐藏参数的编码表示的增强错误隐藏
如果帧的主编码表示4是有缺陷的,即,如果主编码表示4丢失、损坏或延迟(例如,因为传输分组9a丢失、损坏或延迟得长于解码器的缓冲器长度),则可能发生第二种情况,诸如分支80所示。然后,音频内容将必须通过错误隐藏被至少部分地重建。
因此,解码器31包括隐藏单元36。隐藏单元36可以使用基于常规隐藏机制的隐藏机制,然而,其中由从编码器1接收的一个或更多个错误隐藏参数6来增强(或支持)隐藏。根据本发明的实施例,隐藏单元36使用诸如在专利申请[4]和[5]中所描述的基于外插的隐藏机制,它们通过引用并入本文。
使用所述基于外插的错误隐藏机制,以在该主编码表示4有缺陷(即,丢失、损坏或延迟)的情况下,重建在帧的主编码表示4中可用的音频内容。本发明构思使用至少一个错误隐藏参数6来增强这些常规的错误隐藏机制。
将参考图5中所示的实施例更详细地对此进行解释。解码器31通常接收传输分组9a和传输分组9b。传输分组9a包含当前帧的主编码表示4b和前一帧(未示出)的至少一个错误隐藏参数6的编码表示8a。传输分组9b包含当前帧的至少一个错误隐藏参数6的编码表示8b,以用于增强当前帧的解码器侧的基于外插的错误隐藏。传输分组9b还包含后续帧的主编码表示4c,即在当前帧之后的帧(直接或间隔一个或更多个帧)。
换句话说,用于重建当前帧的有缺陷音频内容的至少一个错误隐藏参数6的编码表示8b包含在传输分组9b中,而该当前帧的主编码表示4b包含在传输分组9a中。
如果由解码器31检测到例如当前帧的主编码表示4b有缺陷,即丢失、损坏或延迟,则通过使用上述可用的错误隐藏机制来重建有缺陷的音频内容。根据本发明,通过在错误隐藏期间使用至少一个错误隐藏参数6来增强可用的错误隐藏机制。
为此,解码器31从包含在传输分组9b中的编码表示8b提取至少一个错误隐藏参数6。基于已经提取的至少一个参数6,解码器31选择性地在至少两个隐藏模式之间进行选择,以用于至少部分地重建有缺陷的音频内容(在所隐藏的音频内容被提供的意义上,预期其在某种程度上类似于丢失的主编码表示的音频内容)。特别地,解码器31可以在频域隐藏模式和至少一个时域隐藏模式之间进行选择。
频域隐藏(RF_TCXFD)部分冗余帧类型
在频域隐藏模式的情况下,至少一个错误隐藏参数6的编码表示8b包括ISF/LSF参数、TCX全局增益、TCX全局级别、信号分类器信息、如重叠长度和频谱峰值位置的窗口信息中的一个或更多个,以帮助音调隐藏。
相应的所提取的一个或更多个参数6被馈送到错误隐藏单元36,错误隐藏单元36使用至少一个参数6来增强基于外插的错误隐藏,以至少部分地重建有缺陷的音频内容。结果,解码器31输出隐藏的音频内容35。
下面描述使用频域隐藏的示例的本发明的实施例,其中:
29位用于RF_TCXFD部分副本模式(即,29位包括在错误隐藏参数6的编码表示中并被隐藏单元36使用)。
·13位用于LSF量化器,其与用于常规低速率TCX编码的相同。
·全局TCX增益使用7位被量化。
·分类器信息以2位被编码。
时域隐藏(RF_TCXTD1和RF_TCXTD2)部分冗余帧类型
在时域隐藏模式的情况下,解码器31可以选择性地在至少两种不同的时域隐藏模式之间进行选择,以至少部分地重建有缺陷的音频内容。
例如,如果帧包含瞬态或者如果帧的全局增益远低于先前帧的全局增益,则选择第一模式RF_TCXTD1。否则,选择第二模式RF_TCXTD2。
在时域隐藏模式的情况下,至少一个错误隐藏参数6的编码表示8b包括LSF参数、TCX LTP滞后、分类器信息、LPC参数、LTP增益、噪声等级和脉冲位置中的一个或更多个。相应的所提取的一个或更多个参数6被馈送到错误隐藏单元36,错误隐藏单元36使用至少一个参数6来增强基于外插的错误隐藏,以至少部分地重建(或近似)有缺陷的音频内容。结果,解码器31输出隐藏的音频内容35。
下面描述使用时域隐藏的示例的本发明的实施例,其中:
针对这两种模式使用总共18位的辅助数据(即,参数6)。
·9位用于表示TCX LTP滞后
·2位用于表示分类器信息
如上所述,解码器31可以是使用TCX解码方案来解码和/或隐藏TCX帧的编解码器的一部分。解码器31还可以是使用ACELP编码方案来解码和/或隐藏ACELP帧的编解码器的一部分。在ACELP编码方案的情况下,至少一个错误隐藏参数6的编码表示8b可以包括自适应码本参数和固定码本参数中的一个或更多个。
根据本发明,在解码器31中,识别当前帧4b的至少一个错误隐藏参数6的编码表示的类型,并且基于是否对仅仅一个或更多个自适应码本参数(例如,ACELP)、仅仅一个或更多个固定码本参数(例如,ACELP)或者一个或更多个自适应码本参数和一个或更多个固定码本参数、TCX错误隐藏参数6或噪声激励线性预测参数进行编码,来执行解码和错误隐藏。如果通过使用相应帧的至少一个错误隐藏参数6的编码表示来隐藏当前帧4b或先前帧4a,则首先获得当前帧4b的至少一个错误隐藏参数6(诸如LSP参数、自适应码本的增益、固定码本或BWE增益),然后结合当前帧4b的先前帧或当前帧4b的未来帧的解码参数、分类信息或频谱倾斜对所述至少一个错误隐藏参数6进行处理,以重建输出信号35,如上所述。最后,基于隐藏方案(例如,时域隐藏或频域隐藏)来重建帧。对TCX部分信息进行解码,但是与ACELP部分副本模式相反,解码器31以隐藏模式运行。与上述常规基于外插的隐藏的不同之处在于,从比特流5可获得的至少一个错误隐藏参数6被直接使用,而不是由所述常规隐藏导出。
第一EVS实施例
下面的描述段落提供了关于使用所谓的EVS(增强语音服务)编解码器的编码器1和解码器31之间的协同交互的本发明构思的概述。
对EVS实施例的介绍
EVS(增强语音服务)为宽带和超宽带二者的音频带宽提供13.2kbps的基于部分冗余的错误鲁棒信道感知模式。根据帧的关键性,对于特定帧,部分冗余被动态地启用或禁用,同时保持13.2kbps的固定比特预算。
信道感知编码的原理
在VoIP系统中,分组在到达时间内随机抖动地到达解码器。分组还可以在解码器处乱序到达。由于解码器期望每20毫秒馈送语音分组,以在周期性块中输出语音样本,所以需要去抖动缓冲器[6]来吸收分组到达时间中的抖动。去抖动缓冲器的大小越大,其在到达时间内吸收抖动的能力越好,因此丢弃较晚到达的分组。语音通信也是延迟关键系统,因此必须使端到端延迟尽可能的低,从而可以维持双向对话。
自适应去抖动缓冲器的设计反映了上述权衡。在尝试最小化分组丢失的同时,解码器中的抖动缓冲器管理算法还保持跟踪由于缓冲而导致的分组传递中的延迟。抖动缓冲器管理算法适当地调整去抖动缓冲器的深度,以实现延迟和延迟损耗之间的权衡。
参考图6,EVS信道感知模式使用当前帧4a的部分冗余副本8a以及未来帧4b来进行错误隐藏。部分冗余技术将当前帧4a的部分副本8a连同未来帧4b一起发送,希望在当前帧4a丢失(由于网络丢失或迟到)的情况下,来自未来帧4b的部分副本8a可以从抖动缓冲器取回,以改善从损失中的恢复。
帧的主副本4a的发送时间与帧的冗余副本8a的发送时间(背负在未来帧4b上)之间的时间单位差异被称为FEC偏移。如果在任何给定时间的抖动缓冲区的深度至少等于FEC偏移,则很可能未来帧在当前时间实例处可用于去抖动缓冲器中。FEC偏移是编码器处的可配置参数,其可以根据网络条件动态地调整。
与[7]等同的具有FEC偏移的EVS中部分冗余的概念如图6所示。
冗余副本8a仅是仅包括对于解码或阻止错误传播最关键的参数子集的部分副本。
EVS信道感知模式传输作为编解码器有效载荷的一部分的带内冗余,而不是在传输层发送冗余(例如,通过在单个RTP有效载荷中包括多个分组)。包括带内冗余允许传输冗余以进行信道控制(例如,以防止网络拥塞)或源控制。在后一种情况下,编码器可以使用输入源信号的属性来确定哪些帧对于解码器处的高质量重建而言是最关键的,并且仅选择性地发送那些帧的冗余。带内冗余的另一个优点是,可以使用源控制来确定哪些输入帧可以以降低的帧速率被最佳地编码,以适应冗余的附加而不改变总分组大小。以这种方式,信道感知模式包括恒定比特率信道(13.2kbps)中的冗余。
对于主帧和部分冗余帧编码的比特率分配
主帧比特率降低
使用主帧的可压缩性的度量来确定哪些帧可以以降低的帧速率被最佳地编码。对于TCX帧,将9.6kpbs设置应用于WB以及SWB。对于ACELP,以下适用。首先检查来自信号分类算法的编码模式决定。分类为无声编码(UC)或有声编码(VC)的语音帧适用于压缩。对于通用编码(GC)模式,使用帧内相邻子帧之间的相关(在音调滞后处)来确定可压缩性。在信道感知模式下高频带信号(即,SWB中的6.4到14.4kHz以及WB中的6.4到8kHz)的主帧编码使用时域带宽扩展(TBE)。对于SWB TBE,在信道感知模式中,使用非信道感知模式框架的缩小版本来获得用于主帧的比特的减少。在信道感知模式中使用8位矢量量化来执行LSF量化,而在非信道感知模式中使用基于21位标量量化的方法。信道感知模式中的SWB TBE主帧增益参数在13.2kbps处被编码为与非信道感知模式相似,即增益参数为8位。信道感知模式中的WB TBE使用与非信道感知模式的9.6kbps WB TBE中使用的类似的编码,即LSF为2位,增益参数为4位。
部分冗余帧编码
部分冗余帧的大小是可变的,并且取决于输入信号的特性。关键性度量也是重要的指标。当帧的丢失将对接收器处的语音质量产生重大影响时,该帧被认为是保护的关键。关键性还取决于先前帧是否丢失。例如,如果先前帧也丢失,则帧可以从非关键变为关键。使用诸如编码器类型分类信息、子帧音调滞后、因子M等的从主副本编码计算的参数来测量帧的关键性。用于确定特定帧是否是关键的阈值是编码器处的可配置参数,其可以根据网络条件被动态地调整。例如,在高FER条件下,可能需要调整阈值以将更多的帧分类为关键的。高频带信号的部分帧编码依赖于增益参数的粗略编码以及来自主帧的LSF参数的内插/外插。在第(n-FEC偏移)帧的主帧编码期间估计的TBE增益参数在第n帧期间作为部分副本信息被重新发送。根据部分帧编码模式,即通用(GENERIC)或有声(VOICED)或(无声UNVOICED),增益帧的重新发送使用不同的量化分辨率和增益平滑。
以下部分描述不同的部分冗余帧类型及其组成。
构建用于通用编码模式和有声编码模式的部分冗余帧
在帧的冗余版本的编码中,基于自适应码本能量和固定码本能量来确定因子M。
在该等式中,E(ACB)表示自适应码本能量,E(FCB)表示固定码本能量。M的低值指示当前帧中的大部分信息由固定码本贡献承载。在这种情况下,仅使用一个或更多个固定码本参数(FCB脉冲和增益)来构造部分冗余副本(RF_NOPRED)。M的高值指示当前帧中的大部分信息由自适应码本贡献承载。在这种情况下,仅使用一个或更多个自适应码本参数(音调滞后和增益)来构造部分冗余副本(RF_ALLPRED)。如果M取中值,则选择混合编码模式,其中一个或更多个自适应码本参数和一个或更多个固定码本参数被编码(RF_GENPRED)。在通用编码模式和有声编码模式下,TBE增益帧值通常较低,并且表现出较小的差异。因此,使用具有增益平滑的粗略TBE增益帧量化。
构建用于无声编码模式的部分冗余帧
低比特率噪声激励线性预测编码方案用于构建无声帧类型(RF_NELP)的部分冗余副本。在无声编码模式下,TBE增益帧具有更宽的动态范围。为了保持该动态范围,在无声编码模式中的TBE增益帧量化使用与主帧中使用的量化范围相似的量化范围。
构建针对TCX帧的部分冗余帧
在TCX部分冗余帧类型的情况下,使用由一些辅助参数组成的部分副本来增强帧丢失隐藏算法。存在可用的三种不同的部分副本模式,分别是RF_TCXFD、RF_TCXTD1和RF_TCX_TD2。类似于解码器侧的PLC模式决定,针对TCX的部分副本模式的选择基于诸如最后两帧的模式、帧类、LTP音调和增益之类的各种参数。
频域隐藏(RF TCXFD)部分冗余帧类型
针对RF_TCXFD部分副本模式使用29位。
·13位用于LSF量化器,其与用于常规低速率TCX编码的相同。
·使用7位来量化全局TCX增益。
·分类器信息以2位被编码。
时域隐藏(RF_TCXTD1和RF_TCXTD2)部分冗余帧类型
如果帧包含瞬态或如果帧的全局增益远低于先前帧的全局增益,则选择部分副本模式RF_TCXTD1。否则选择RF_TCXTD2。
对于这两种模式使用总共18位的辅助数据(side data)。
·9位用于表示TCX LTP滞后
·2位用于表示分类器信息
RF_NO_DATA部分冗余帧类型
这用于表示不发送部分冗余副本的配置,并将所有比特用于主帧编码。
主帧比特率降低和部分冗余帧编码机制一起确定要包括在13.2kbps有效载荷内的主帧和冗余帧之间的比特率分配。
解码
在接收器处,去抖动缓冲器提供当前丢失帧的部分冗余副本,如果它在任何未来帧中可用。如果存在,则使用部分冗余信息来合成丢失的帧。在解码中,识别部分冗余帧类型,并且基于仅仅一个或更多个自适应码本参数、仅仅一个或更多个固定码本参数或者一个或更多个自适应码本参数和一个或更多个固定码本参数、TCX帧丢失隐藏辅助参数或噪声激励线性预测参数是否被编码,来执行解码。如果当前帧或先前帧是部分冗余帧,则首先获得当前帧的解码参数,诸如LSP参数、自适应码本的增益、固定码本或BWE增益,然后根据当前帧的先前帧或当前帧的未来帧的解码参数、分类信息或频谱倾斜对所获得的解码参数进行后处理。后处理参数用于重建输出信号。最后,基于编码方案重建帧。对TCX部分信息进行解码,但与ACELP部分副本模式相反,解码器以隐藏模式运行。与常规隐藏的区别仅在于,从比特流可用的参数被直接使用,而不是通过隐藏来获得。
信道感知模式编码器可配置参数
信道感知模式编码器可以使用以下可配置参数来调整其操作以跟踪在接收器处看到的信道特性。这些参数可以在接收器处计算,并通过接收器触发的反馈机制传送到编码器。
最佳部分冗余偏移(o):帧(n)的主副本的发送时间与背负在未来帧(n+X)上的该帧的冗余副本的发送时间之间的时间单位差异被称为FEC偏移X。最佳FEC偏移是当在接收器处存在帧丢失时使部分冗余副本的可用性的概率最大化的值。
帧擦除率指示符(p)具有以下值:用于FER速率的LO(低)<5%或者用于FER的HI(高)>5%。该参数控制用于确定特定帧是否是关键的阈值。这种关键性阈值的调整用于控制部分副本传输的频率。与LO设置相比,HI设置调整关键性阈值以将更多的帧分类为对发送关键的。
注意,这些编码器可配置参数是可选的,默认设置为p=HI和o=3。
第二EVS实施例
下面的描述段落描述了在分组交换网络中使用的本发明构思的示例性实施例,例如,IP语音(VoIP)、LTE语音(VoLTE)或WiFi语音(VoWiFi)。
描述了新标准化的3GPP EVS语音编解码器的高错误弹性模式。与AMR-WB编解码器和其他对话编解码器相比,EVS信道感知模式在通过分组交换网络(诸如IP语音(VoIP)和LTE语音(VoLTE))的语音通信中提供了显著提高的错误恢复力。使用带内前向纠错的形式来实现错误恢复力。源控编码技术用于识别用于比特率降低的候选语音帧,留下用于发送先前帧的部分副本的备用比特,使得维持恒定的比特率。如果原始主帧由于迟到而丢失或被丢弃,则使用自包含的部分副本来提高错误鲁棒性。提供了ITU-T P.800平均意见得分(MOS)测试的主观评估结果,显示出在信道损伤下的质量改善以及干净信道性能的可忽略的影响。
介绍
在分组交换网络中,分组可能经受不同的调度和路由条件,这导致时变的端到端延迟。延迟抖动对于通常期望以固定时间间隔接收分组的大多数常规语音解码器和语音后处理算法是不适用的。因此,通常在接收终端中使用去抖动缓冲器(也称为抖动缓冲器管理(JBM)[8]、[13]),以消除抖动并以正确的顺序将分组传送到解码器。
去抖动缓冲器越长,其去除抖动的能力越好,并且可以容忍抖动的可能性越大,而不会由于迟到(或缓冲器下溢)而丢弃分组。然而,端到端延迟是对话语音网络中呼叫质量的关键决定因素,并且JBM吸收抖动而不增加过多缓冲延迟的能力是重要的要求。因此,在接收器处JBM延迟与抖动引起的分组丢失之间存在权衡。JBM设计已经发展到提供更高水平的性能,同时保持最小的平均延迟[8]。除了延迟抖动之外,分组交换网络的另一个主要特征是存在多个连续分组丢失(错误突发),这比电路交换网络更常见。这种突发可能是由于在不同网络层处的分组捆绑、调度器行为、差的射频覆盖或者甚至缓慢适应的JBM引起的。然而,可以利用去抖动缓冲器(VoIP的重要组件)来改善下溢预防和更复杂的分组丢失隐藏[8]。一种这样的技术是通过当在接收器处丢失原始信息时冗余地发送编码信息以供使用来使用前向纠错。
EVS编解码器中的信道感知模式
EVS信道感知模式引入了一种用于在恒定比特率流中发送作为编解码器有效载荷的一部分的带内冗余的新技术,并被实现用于13.2kbps下的宽带(WB)和超宽带(SWB)。这种技术与先前的编解码器相反,先前的编解码器通常通过定义在传输层传输冗余的机制来将冗余作为事后项加以添加。例如,AMR-WB RTP有效载荷格式允许捆绑多个语音帧以将冗余包括在单个RTP有效载荷中[9]。替代地,可以在稍后的时间简单地重新发送包含单个语音帧的RTP分组。
图7描绘了EVS信道感知模式中部分冗余的概念。构思是与第(N+K)帧的主编码4b一起编码和发送与第N帧相关联的部分冗余副本8a。确定主帧4和部分帧8之间的间隔的偏移参数K也与部分副本8一起发送。在分组交换网络中,如果第N帧4a分组丢失,则去抖动缓冲器71被检查未来分组的可用性。如果可用,则使用所发送的偏移参数来识别用于部分副本提取和丢失帧合成的适当的未来分组。使用3的偏移作为示例来示出图7中的过程。偏移参数可以是固定值,或者可以基于网络条件在编码器处进行配置。在EVS信道感知模式中包括带内冗余,允许将冗余的发送为信道控制的(例如,防止网络拥塞)或源控制的。在后一种情况下,编码器可以使用输入源信号的属性来确定对于高质量重建最关键的帧,并且仅选择性地发送那些帧的冗余。此外,编码器还可以识别可以以降低的比特率被最佳编码的帧,以适应冗余的附加,同时将比特流保持在恒定的13.2kbps速率。这些新技术在降低的信道条件下显著提高了性能,同时保持了干净的信道质量。
信道感知编码
图8示出了信道感知编码器1的高级描述。以16kHz(WB)或32kHz(SWB)采样的输入音频2被分割为20毫秒的帧。使用“预处理”级81将输入帧重新采样到12.8kHz,并执行诸如语音活动检测(VAD)和信号分类的步骤[16]。基于特定分析参数(例如,归一化相关、VAD、帧类型和音调滞后),“冗余帧(RF)配置”模块82确定:
1.当前帧4b的可压缩性,即,如果当前帧4b可以允许具有最小感知影响的比特率降低,以能够包括与先前帧4a相关联的部分副本8a,以及
2.RF帧类型分类,其控制通过在未来帧4c中发送的部分副本8b如实地重建当前帧4b所需的比特数。在图8中,部分副本8b以2帧的帧擦除隐藏(FEC)偏移与未来主副本4c一起被发送。
强有声帧和无声帧适用于承载对主帧质量的感知影响可忽略不计的先前帧的部分副本。如果当前帧被允许承载部分副本,则通过将比特流中的设置为1或0来传送。如果设置为1,则通过补偿已经被随附的部分副本用尽的位数BRF来确定可用于编码当前主帧的位数Bprimary,即,在13.2kbps的恒定总比特率处,Bprimary=264-BRF。根据帧关键性和RF帧类型(第3.2部分),位数BRF的范围可以从5位到72位。
主帧编码
图8所示的“主帧编码”模块83使用ACELP编码技术[21]、[23]以将低频带核心编码为6.4kHz,而超过6.4kHz并高达奈奎斯特频率的高频带使用时域带宽扩展(TBE)技术被编码[17]。将高频带参数化为LSP和增益参数,以捕获每个子帧的时间演进以及整个帧[17]。“主帧编码”模块83还使用基于MDCT的变换编码激励(TCX)和智能间隙填充(IntelligentGap Filling,简称IGF)编码技术[11]、[18]以更有效地对背景噪声帧和混合/音乐内容进行编码。基于SNR的开环分类器[22]用于决定是否选择ACELP/TBE技术或TCX/IGF技术对主帧进行编码。
Dietz等[16]概述了EVS主要模式的各种进步,它们进一步提高了ACELP技术的编码效率,超越了3GPP AMR-WB编码效率[21]。EVS信道感知模式利用这些ACELP和TCX核心进步来进行主帧编码。此外,由于部分副本使用跨帧的不同数量的比特,所以主帧编码还需要相应地适应自适应比特分配。
冗余帧编码
“冗余帧(RF)编码”模块84仅执行对保护关键的那些参数的紧凑重新编码。基于帧的信号特征来识别关键参数集,并以低得多的比特率(例如,小于3.6kbps)对其进行重新编码。“位打包器”模块85将主帧比特流86和部分副本87与某些RF参数(例如,RF帧类型和FEC偏移)一起排列(参见表I)在比特流中的固定位置。
表1
以13.2 KBPS进行信道感知编码的比特流分配
当帧的丢失会对接收器处的语音质量产生重大影响时,该帧被认为是关键要保护的。用于确定特定帧是否是关键的阈值是编码器处的可配置参数,其可以根据网络条件动态地调整。例如,在高FER条件下,可能需要调整阈值以将更多的帧分类为关键的。关键性还可以取决于从先前帧的丢失中快速恢复的能力。例如,如果当前帧在很大程度上取决于先前帧的合成,则当前帧可以从非关键重新分类为关键,以在先前帧在解码器处丢失的情况下阻止错误传播。
a)ACELP部分帧编码
对于ACELP帧,根据帧的信号特性,部分副本编码使用四种RF帧类型RF_NOPRED、RF_ALLPRED、RF_GENPRED和RF_NELP中的一种。诸如帧类型、音调滞后和因子之类的从主帧编码计算的参数用于确定RF帧类型和关键性,其中
EACB表示自适应码本(ACB)能量,EFCB表示固定码本(FCB)能量。τ的低值(例如,0.15及以下)指示当前帧中的大部分信息由FCB贡献承载。在这种情况下,RF_NOPRED部分副本编码仅使用一个或更多个FCB参数(例如,FCB脉冲和增益)。另一方面,τ的高值(例如,0.35及以上)指示当前帧中的大部分信息由ACB贡献承载。在这种情况下,RF_ALLPRED部分副本编码仅使用一个或更多个ACB参数(例如,音调滞后和增益)。如果τ在[0.15,0.35]的范围内,则混合编码模式RF_GENPRED使用ACB和FCB参数二者来进行部分副本编码。对于无声帧,低比特率噪声激励线性预测(NELP)[16]用于对RF_NELP部分副本进行编码。高频带部分副本编码依赖于增益参数的粗略编码以及来自先前帧的LSF参数的外插[11]。
b)TCX部分帧编码
为了获得有用的TCX部分副本,必须花费许多位来编码MDCT频谱数据,这显著降低主帧的可用位数,并因此降低干净信道质量。为此,用于TCX主帧的位数保持尽可能大,而部分副本承载控制参数集,从而能够实现高度引导的TCX隐藏。
TCX部分副本编码使用三种RF帧类型RF_TCXFD、RF_TCXTD1和RF_TCXTD2之一。虽然RF_TCXFD承载用于增强频域隐藏的控制参数,但RF_TCXTD1和RF_TCXTD2用于时域隐藏[20]。TCX RF帧类型选择基于当前帧和先前帧的信号特性,包括音调稳定性、LTP增益和信号的时间趋势。诸如信号分类、LSP、TCX增益和音调滞后的一些关键参数被编码在TCX部分副本中。
在背景噪声或非活动语音帧中,非引导的帧擦除隐藏足以使由于丢失的帧而引起的感知伪像最小化。RF_NO_DATA用信号指示在背景噪声期间比特流中不存在部分副本。另外,在这种编码类型切换场景中,由于缺少外插数据,从ACELP帧切换之后的第一TCX帧也使用RF_NODATA。
信道感知解码
图9表示信道感知解码器31的高级描述。在接收器90处,如果当前帧91没有丢失,则JBM 95提供用于“主帧解码”96的分组,并忽略分组中存在的任何RF(冗余帧)信息。在当前帧丢失的情况下,若未来帧94可用于去抖动缓冲器,则JBM 95提供用于“部分帧解码”97的分组。如果未来帧93不可用于去抖动缓冲器,则执行非引导的擦除隐藏[20]。
与JBM的接口
如前所述,如果第N帧在播出时间不可用(丢失或延迟),则检查JBM的未来第(N+K)帧的可用性,该未来第(N+K)帧包含当前帧的部分冗余,其中K∈{2,3,5,7}。帧的部分副本通常在主帧之后到达。使用JBM延迟适应机制来增加未来帧中部分副本的可用性的可能性,特别是对于较高的FEC偏移5和7。EVS JBM符合3GPP TS26.114[10]规定的对于所有EVS模式(包括信道感知模式)的延迟抖动要求。
除了上述功能之外,EVS JBM[13]还计算信道错误率和最佳FEC偏移K,该最佳FEC偏移K基于信道统计使部分冗余副本的可用性最大化。计算出的最佳FEC偏移和信道错误率可以通过接收器反馈机制(例如,通过编解码器模式请求(CMR)[9])发送回编码器,以适配FEC偏移和发送部分冗余的速率,从而改善终端用户体验。
ACELP和TCX部分帧解码
图9中的“比特流解析器”模块98提取RF帧类型信息,并将部分副本信息传递给“部分帧解码”模块97。根据RF帧类型,如果当前帧对应于ACELP部分副本,则对RF参数(例如,LSP、ACB和/或FCB增益以及高频带增益)进行解码以用于ACELP合成。ACELP部分副本合成遵循与主帧解码96类似的步骤,除了对丢失的参数进行外插(例如,某些增益和音调滞后仅在替代子帧中传输)。
此外,如果先前帧使用部分副本进行合成,则在当前帧中执行后处理以用于LSP和时间增益的更平滑的演进。基于帧类型(例如,有声或无声)和在先前帧中估计的频谱倾斜来控制后处理。如果当前帧对应于TCX部分副本,则RF参数用于执行高度引导的隐藏。
主观质量测试
EVS信道感知模式的广泛测试是通过主观的ITU-T P.800平均意见得分(MOS)测试进行的,该测试由32个自发听众在独立测试实验室进行。分别使用绝对类别评级(ACR)和降级类别评级(DCR)测试方法[24]针对WB和SWB二者进行测试。由于信道感知模式被专门设计用于改善VoLTE网络的性能,因此评估这些网络的性能对于建立潜在利益至关重要。因此,使用模拟的编解码器输出进行测试,其中分组延迟和丢失的如VoLTE的图案在插入去抖动缓冲器之前应用于所接收的RTP分组。这些图案中的四种或延迟丢失简档是从在韩国和美国的VoLTE网络中收集的RTP分组到达时间的现实呼叫日志中得出的。
所得简档在不同的信道错误条件下高度模拟了VoLTE网络特性。在导出简档时,考虑了诸如抖动、抖动的时间演进和错误的突发性之类的特性。这四个简档在图10中被标识为简档7、8、9和10,并且在解码器处分别对应于大约3%、6%、8%和10%的帧擦除率(FER)。这些相同的四个简档也被3GPP选择用于该主体在信道损伤下EVS信道感知模式的自身特性化测试。
除了VoLTE简档外,这里考虑的所有编解码器是在无差错条件下进行测试的,并且也用于在3GPP MTSI规范[10]中包含的在解码器处产生约6%的帧擦除率的HSPA简档。在所有实验中,EVS条件使用参考EVS去抖动缓冲器[13]。AMR-WB条件使用固定延迟缓冲器以将延迟丢失简档转换为分组丢失简档,使得经历大于固定阈值的延迟的分组被丢弃,如EVS性能要求规范[14]中所述。
图10中示出了WB情况的ACR得分。对于以无差错(“干净”)简档开始的每个简档,图表比较(从左到右)AMR-WB、EVS AMR-WB IO模式、EVS基线WB和EVS WB信道感知(“RF”)。AMR-WB和EVS AMR-WB IO条件使用15.85kbps的较高比特率,而两个EVS条件使用相同的13.2kbps速率。这些结果表明,在所有帧擦除条件下,与非信道感知模式相比,信道感知模式提供统计学上显著的改进,同时甚至在无差错条件下保持等效质量。值得注意的是,信道感知模式质量大幅降低,甚至降至简档10的FER的10%。与AMR-WB和AMR-WB-IO条件相比,质量效益在这些FER速率下甚至更显著,并且具有在高丢失时段下恢复可理解性的潜力,其中在切换、不佳的无线电条件、小区场景的边缘或者甚至在尽力而为网络[8]上的期间遭遇到该高丢失。
信道感知模式的性能优势在超宽带模式下同样令人信服,其结果如图11所示。如同WB,信道感知模式在无差错条件下不降低性能,但在每个有损简档下具有统计学上显著的性能效益,其中改进程度随错误率的升高而增加。图11还显示了与最大速率为23.85kb/s的AMR-WB-IO相比,EVS SWB信道感知模式在13.2kb/s下的实质改进。
结论
新的3GPP EVS编解码器的信道感知编码模式基于AMR和AMR-WB在与现有部署服务的最广泛使用的比特率类似的能力操作点处为用户和网络运营商提供了一种用于VoLTE的高度错误恢复编码模式。该模式使得编解码器能够即使在网络拥塞、不良射频覆盖、切换或尽力而为信道中的期间可能发生高FER的情况下也维持高质量的WB和SWB会话语音服务。即使在高丢失下具有平稳质量降级,对质量的影响在低丢失或甚至无丢失条件下为可忽略的。信道感知模式提供的这种错误鲁棒性进一步允许缓解某些系统级别方面,诸如重传频率和减少调度器延迟。这进而具有潜在益处,诸如移动手机中增加网络容量、降低信令开销和节能。因此,使用信道感知模式可在不影响容量的情况下有利于大多数网络,以确保高质量通信。
总而言之,本发明利用编码器知道信道质量的事实,以在错误条件下改善语音/音频质量。与现有技术的信道感知编码相反,该构思为不具有仅是主编码帧的低比特率版本的部分副本,但是该部分副本由将大幅增进隐藏的多个关键参数组成。因此,解码器需要区分隐藏所有参数的常规隐藏模式和部分副本参数可用的帧丢失模式。对于隐藏需要在部分隐藏和全部隐藏之间切换的情况,需要特别注意突发帧丢失。
尽管根据若干实施例描述了本发明,然而存在落入本发明范围内的变更、置换和等同物。此外,应注意,存在多种备选方式来执行本发明的方法和组成。因此,意在将所附权利要求理解为包括落入本发明实质精神和范围内的全部这些变更、置换和等同物。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对相应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或更多个方法步骤。
新颖的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传输计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置,或使用计算机,或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件装置,或使用计算机,或者使用硬件装置和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]RTP Payload for Redundant Audio Data″,Internet Engineering TaskForce,RFC 2198,September 1997
[2]US 6,757,654-″Forward error correction in speech coding″,Westerlund,M.and al.,29June 2004
[3]″Adaptive joint playout buffer and FEC adjustment for Internettelephony″C.Boutremans,J.-Y.Le Boudec,INFOCOM 2003.Twenty-Second Annual JointConference of the IEEE Computer and Communications.IEEE Societies;04/2003
[4]Patent application:AUDIO DECODER AND METHOD FOR PROVIDING ADECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT BASED ON A TIME DOMAINEXCITATION SIGNAL
[5]Patent application:AUDIO DECODER AND METHOD FOR PROVIDING ADECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT MODIFYING A TIME DOMAINEXCITATION SIGNAL
[6]3GPP TS 26.448:″Codec for Enhanced Voice Services(EVS);JitterBuffer Management″.
[7]3GPP TS 26.442:″Codec for Enhanced Voice Services(EVS);ANSI C code(fixed-point)″.
[8]D.J.Sinder,I.Varga,V.Krishnan,V.Rajendran and S.Villette,“RecentSpeech Coding Technologies and Standards,”in Speech and Audio Processing forCoding,Enhancement and Recognition,T.Ogunfunmi,R.Togneri,M.Narasimha,Eds.,Springer,2014.
[9]J.Sjoberg,M.Westerlund,A.Lakaniemi and Q.Xie,“RTP Payload Formatand File Storage Format for the Adaptive Multi-Rate(AMR)and Adaptive Multi-Rate Wideband(AMR-WB)Audio Codecs,”April 2007.[Online].Available:ht中://tools.ietf.org/html/rfc4867.
[10]3GPP TS 26.114,“Multimedia Telephony Service for IMS,”V12.7.0,September 2014.
[11]3GPP TS 26.445:“EVS Codec Detailed Algorithmic Description;3GPPTechnical Specification(Release 12),”2014.
[12]3GPP,TS 26.447,“Codec for Enhanced Voice Services(EVS);ErrorConcealment of Lost Packets(Release 12),”2014.
[13]3GPP TS 26.448:“EVS Codec Jitter Buffer Management(Release 12),”2014.
[14]3GPP Tdoc S4-130522,“EVS Permanent Document(EVS-3):EVSperformance requirements,”Version1.4.
[15]S.Bruhn,et al.,“Standardization of the new EVS Codec,”submittedto IEEE ICASSP,Brisbane,Australia,April,2015.
[16]M.Dietz,et al.,“Overview of the EVS codec architecture,”submittedto IEEE ICASSP,Brisbane,Australia,April,2015.
[17]V.Atti,et al.,“Super-wideband bandwidth extension for speech inthe 3GPP EVS codec,”submitted to IEEE ICASSP,Brisbane,Australia,April,2015.
[18]G.Fuchs,et al.,“Low delay LPC and MDCT-based Audio Coding inEVS,”submitted to IEEE ICASSP,Brisbabe,Australia,April,2015.
[19]S.Disch et al.,“Temporal tile shaping for spectral gap fillingwithin TCX in EVS Codec,”submitted to IEEE ICASSP,Brisbane,Australia,April,2015.
[20]J.Lecomte et al.,“Packet Loss Concealment Technology Advances inEVS,”submitted to IEEE ICASSP,Brisbabe,Australia,April,2015.
[21]B.Bessette,et al,“The adaptive multi-rate wideband speech codec(AMR-WB),”IEEE Trahs.on Speech and Audio Processing,vol.10,no.8,pp.620-636,November 2002.
[22]E.Ravelli,et al.,“Open loop switching decision based onevaluation of coding distortions for audio codecs,”submitted to IEEE ICASSP,Brisbane,Australia,April,2015.
[23]M.Jelínek,T.Vaillancourt,and Jon Gibbs,“G.718:A New EmbeddedSpeech and Audio Coding Standard with High Resilience to Error-ProneTransmission Channels,”IEEE Communications Magazine,vol.47,no.10,pp.117-123,October 2009.
[24]ITU-T P.800,“Methods for Subjective Determination of TransmissionQuality,”International Telecommunication Union(ITU),Series P.,August 1996.
Claims (68)
1.一种用于对类语音内容和/或一般音频内容(2)进行编码的编码器(1),
其中,所述编码器(1)被配置为至少在一些帧(8)中将参数(6)嵌入比特流(5)中,所述参数(6)在原始帧(4)丢失、损坏或延迟的情况下增强隐藏。
2.根据权利要求1所述的编码器,其中,所述编码器(1)被配置为创建主帧(4)和部分副本(8),其中所述部分副本(8)不是所述主帧(4)的低比特率版本,但是所述部分副本(8)包含所述参数(6)。
3.根据权利要求1或2所述的编码器,其中,所述编码器(1)被配置为将所述参数(6)延迟一段时间,并且将所述参数(6)嵌入分组(9)中,其中所述分组(9)被编码且在时间上稍后被发送。
4.根据权利要求1至3中任一项所述的编码器,其中,所述编码器(1)被配置为减小主帧比特率,其中所述主帧比特率减小和部分副本帧编码机制一起确定要包括在恒定的总比特率内的所述主帧(4)和所述部分副本帧(8)之间的比特率分配。
5.根据权利要求2至4中任一项所述的编码器,其中,所述编码器(1)被配置为创建具有所述类语音内容类型和所述一般音频内容类型中的一种类型的主帧(4)以及具有所述类语音内容类型和所述一般音频内容类型中的另一种类型的部分副本(8)。
6.根据前述权利要求中任一项所述的编码器,其中,所述编码器(1)是使用TCX编码方案的编解码器的一部分。
7.根据权利要求6所述的编码器,其中,所述编码器(1)被配置为检测所述帧是否包含噪声音频信号,或者所述帧是否包含具有在一段时间内平稳的尖锐谱线的噪声基底,并基于所述检测将所述参数(6)嵌入TCX帧中。
8.根据权利要求6或7所述的编码器,其中,所述参数(6)包括ISF或LSF参数,具体是预测编码的ISF或LSF参数。
9.根据权利要求6至8中任一项所述的编码器,其中,所述参数(6)包括信号分类参数。
10.根据权利要求6至9中任一项所述的编码器,其中,所述参数(6)包括TCX全局增益或TCX全局等级。
11.根据权利要求6至10中任一项所述的编码器,其中,所述参数(6)包括窗口信息和频谱峰值位置中的至少一个。
12.根据权利要求1至5所述的编码器,其中,所述编码器(1)是切换式编解码器的一部分,其中所述切换式编解码器包括至少两个核心编码方案,其中第一核心编码方案使用ACELP,第二核心编码方案使用TCX。
13.根据权利要求12所述的编码器,其中,所述编码器(1)被配置为当在ACELP帧之后存在第一TCX帧时,在切换之后不将部分副本(8)放置在TCX帧(4)之上。
14.根据权利要求6至13中任一项所述的编码器,其中,所述编码器(1)被配置为在编码之前分析所述信号,并且基于所分析的信号禁用所述部分副本或者提供减小的部分副本(8)。
15.根据权利要求1至14所述的编码器,其中,所述编码器(1)被配置为在使用不同量的信息和/或不同参数集(6)的多个部分副本模式之间进行选择,其中所述部分副本模式的选择基于参数。
16.根据权利要求15所述的编码器,其中,所述多个部分副本模式中的至少一个是频域隐藏模式。
17.根据权利要求15所述的编码器,其中,所述多个部分副本模式中的至少两个是不同的时域隐藏模式。
18.根据权利要求17所述的编码器,其中,如果帧包含瞬态或如果帧的全局增益低于先前帧的全局增益,则选择所述至少两个时域隐藏模式中的一个。
19.根据权利要求1至18中任一项所述的编码器,其中,所述编码器(1)被配置为在存在LTP数据的情况下发送LTP滞后。
20.根据权利要求1至19中任一项所述的编码器,其中,所述编码器(1)被配置为发送分类器信息。
21.根据权利要求1至20中任一项所述的编码器,其中,所述编码器(1)被配置为发送LPC参数、LTP增益、噪声等级和脉冲位置中的至少一个。
22.一种用于对类语音内容和/或一般音频内容(2)进行解码的解码器(31),
其中,所述解码器(31)被配置为在原始帧(4)丢失、损坏或延迟的情况下使用在时间上稍后发送的参数(6)以增强隐藏。
23.根据权利要求22所述的解码器,其中,所述解码器(31)被配置为接收主帧(4)和部分副本(8),其中所述部分副本(8)不是所述主帧(4)的低比特率版本,但是所述部分副本(8)包含所述参数(6)。
24.根据权利要求22或23之一所述的解码器(31),其中所述参数(6)包含在部分副本(8)中,并且其中所述解码器(31)被配置为在当前丢失帧(4b)的部分副本(8b)可用的情况下从去抖动缓冲器接收该部分副本。
25.根据权利要求22至24中任一项所述的解码器,其中,所述解码器(31)被配置为接收具有所述类语音内容类型和所述一般音频内容类型中的一种类型的主帧(4)以及具有所述类语音内容类型和所述一般音频内容类型中的另一种类型的部分副本(8)。
26.根据权利要求22至25中任一项所述的解码器,其中,所述解码器(31)是使用TCX编解码方案的编解码器的一部分。
27.根据权利要求26所述的解码器,其中,所述参数(6)包括ISF或LSF参数,具体是预测编码的ISF或LSF参数。
28.根据权利要求26或27之一所述的解码器,其中,所述参数(6)包括信号分类参数。
29.根据权利要求26至28中任一项所述的解码器,其中,所述参数(6)包括TCX全局增益或TCX全局等级。
30.根据权利要求26至29中任一项所述的解码器,其中,所述参数(6)包括窗口信息和频谱峰值位置中的至少一个。
31.根据权利要求22至25中任一项所述的解码器,其中,所述解码器(31)是切换式编解码器的一部分,其中所述切换式编解码器包括至少两个核心编码方案,其中第一核心编码方案使用ACELP,第二核心编码方案使用TCX。
32.根据权利要求31所述的解码器,其中,所述解码器(31)被配置为在ACELP帧之后的第一TCX帧对于所述解码器(31)不可用的情况下,在切换之后使用ACELP隐藏。
33.根据权利要求22至32所述的解码器,其中,所述解码器(31)被配置为在使用不同量的信息和/或不同参数集(6)的多个部分副本模式之间进行选择。
34.根据权利要求33所述的解码器,其中,所述多个部分副本模式中的至少一个是频域隐藏模式。
35.根据权利要求33所述的解码器,其中,所述多个部分副本模式中的至少两个是不同的时域隐藏模式。
36.根据权利要求22至35中任一项所述的解码器,其中,所述解码器(31)被配置为在存在LTP数据的情况下接收LTP滞后。
37.根据权利要求22至36中任一项所述的解码器,其中,所述解码器(31)被配置为接收分类器信息。
38.根据权利要求22至37中任一项所述的解码器,其中,所述解码器(31)被配置为接收LPC参数、LTP增益、噪声等级和脉冲位置中的至少一个。
39.根据权利要求22至38中任一项所述的解码器,其中,所述解码器(31)被配置为根据隐藏模式以两个不同因子减少音调增益和代码增益。
40.根据权利要求39所述的解码器,其中,第一因子是0.4,第二因子是0.7。
41.根据权利要求23至40中任一项所述的解码器,其中,所述解码器(31)被配置为:如果先前主帧(4a)丢失,则不考虑从所述部分副本(8b)解码的音调,并且其中所述解码器(31)被配置为:将音调固定为预测音调以用于后续丢失的主帧,而不是使用所发送的音调。
42.一种系统,包括根据权利要求1至21中任一项所述的编码器(1)和根据权利要求22至41中任一项所述的解码器(31)。
43.一种用于对类语音内容和/或一般音频内容(2)进行编码的方法,所述方法包括以下步骤:
至少在一些帧(8)中将参数(6)嵌入比特流(5)中,所述参数(6)在原始帧(4)丢失、损坏或延迟的情况下增强隐藏。
44.一种用于对类语音内容和/或一般音频内容进行解码的方法,所述方法包括以下步骤:
在原始帧(4)丢失、损坏或延迟的情况下使用在时间上稍后发送的参数(6)以增强隐藏。
45.一种计算机程序,用于当在计算机或信号处理器上执行时实现根据权利要求43或44之一所述的方法。
46.一种用于对音频内容(2)进行编码的编码器(1),其中所述编码器(1)被配置为:
提供当前帧的主编码表示(4)和至少一个错误隐藏参数(6)的编码表示(8)以增强所述当前帧的解码器侧的错误隐藏,其中
所述编码器(1)被配置为基于表示所述当前帧中包含的所述音频内容(2)的信号特性的一个或更多个参数来选择所述至少一个隐藏参数(6)。
47.根据权利要求46所述的编码器(1),其中,所述解码器侧的错误隐藏是基于外插的错误隐藏。
48.根据权利要求46或47之一所述的编码器,其中,所述编码器(1)被配置为将所述当前帧的至少一个错误隐藏参数(6)的编码表示(8b)与未来帧的主编码表示(4c)组合到传输分组(9)中,使得所述当前帧的至少一个错误隐藏参数(6)的编码表示(8b)以相对于所述当前帧的主编码表示(4b)在时间上延迟而发送。
49.根据权利要求46至48中任一项所述的编码器,其中,所述编码器(1)被配置为在用于提供所述至少一个错误隐藏参数(6)的编码表示(8)的至少两个模式之间选择性地进行选择。
50.根据权利要求49所述的编码器,其中,对用于提供所述至少一个错误隐藏参数(6)的编码表示(8)的模式的所述选择是基于包括以下至少一项的参数:帧类、LTP音调、LTP增益和用于提供一个或更多个先前帧的至少一个错误隐藏参数(6)的编码表示(8)的模式。
51.根据权利要求49或50之一所述的编码器,其中,用于提供所述至少一个错误隐藏参数(6)的编码表示(8)的模式中的至少一个是时域隐藏模式,使得所述至少一个错误隐藏参数(6)的编码表示(8)包括TCX LTP滞后和分类器信息中的一个或更多个。
52.根据权利要求49至51中任一项所述的编码器,其中,用于提供所述至少一个错误隐藏参数(6)的编码表示(8)的模式中的至少一个是在以下情况下选择的时域隐藏模式:包含在所述当前帧中的音频内容(2)包含瞬态,或包含在所述当前帧中的音频内容(2)的全局增益低于先前帧的全局增益。
53.根据权利要求49或50之一所述的编码器,其中,用于提供所述至少一个错误隐藏参数(6)的编码表示(8)的模式中的至少一个是频域隐藏模式,使得所述至少一个错误隐藏参数(6)的编码表示(8)包括LSF参数、TCX全局增益和分类器信息中的一个或更多个。
54.根据权利要求46至53中任一项所述的编码器,其中,所述编码器(1)至少使用TCX编码方案。
55.一种用于对音频内容(2)进行解码的解码器(31),其中所述解码器(31)被配置为:
接收当前帧的主编码表示(4)和/或至少一个错误隐藏参数(6)的编码表示(8),以增强所述当前帧的解码器侧的错误隐藏,其中
所述解码器(31)被配置为:在所述当前帧的主编码表示(4)丢失、损坏或延迟的情况下,通过使用所述至少一个错误隐藏参数(6),使用错误隐藏以至少部分地重建所述当前帧的音频内容(2)。
56.根据权利要求55所述的解码器(31),其中,所述解码器侧的错误隐藏是基于外插的错误隐藏。
57.根据权利要求55或56所述的解码器,其中,所述解码器(31)被配置为从与包含当前帧的主编码表示(4)的分组(9a)分离的分组(9b)中提取当前帧的错误隐藏参数(6)。
58.根据权利要求55至57中任一项所述的解码器,其中,所述解码器(31)被配置为在使用一个或更多个错误隐藏参数(6)的不同编码表示(8)的至少两个错误隐藏模式之间选择性地进行选择,以使用错误隐藏至少部分地重建所述音频内容(2)。
59.根据权利要求58所述的解码器,其中,使用一个或更多个错误隐藏参数(6)的不同编码表示(8)的所述至少两个错误隐藏模式中的至少一个是时域隐藏模式,其中所述至少一个错误隐藏参数(6)的编码表示(8)包括TCX LTP滞后和分类器信息中的至少一个。
60.根据权利要求58或59之一所述的解码器,其中,使用一个或更多个错误隐藏参数(6)的不同编码表示(8)的所述至少两个错误隐藏模式中的至少一个是频域隐藏模式,其中所述至少一个错误隐藏参数(6)的编码表示(8)包括LSF参数、TCX全局增益和分类器信息中的一个或更多个。
61.根据权利要求55至60中任一项所述的解码器,其中,所述解码器(31)至少使用TCX编码方案。
62.一种用于错误隐藏的装置,所述装置被配置为执行对于丢失帧(4)的标准隐藏机制并使用可传输参数(6)来增强隐藏。
63.一种用于错误隐藏的装置,所述装置被配置为不具有仅是主帧(4)的低比特率版本的部分副本,但是具有由用于增强隐藏的多个关键参数(6)组成的部分副本(8)。
64.一种用于错误隐藏的装置,具有包括去抖动缓冲器(95)的接收器(90),所述去抖动缓冲器用于在当前丢失帧(92)的部分冗余副本(99)在任何未来帧(94)中可用的情况下提供所述部分冗余副本,其中所述装置被配置为读取部分冗余信息比特流并更新相应的参数。
65.一种切换式编码器(1)或解码器(31),其中存在两个或更多个核心编码方案,其中例如一个编码方案使用ACELP对类语音内容进行编码,另一个编码方案使用TCX对一般音频内容进行编码,其中使用部分冗余副本编码对ACELP帧进行处理,且使用不同的方法对TCX帧进行处理,其中在靠近核心编码器切换的帧中,会出现两种特殊情况,即:
之上具有从未来TCX帧生成的部分副本的ACELP主帧,
之上具有从未来ACELP帧生成的部分副本的TCX主帧,
其中,对于这些情况,两个核心编码器能够被配置为创建主帧以及另一编码器类型的部分副本,而不违反帧的所需总大小,以确保恒定的比特率,或者其中:
在ACELP帧之后的第一TCX帧,其中如果该帧丢失并且因此对于所述解码器(31)不可用,则所提出的技术将使用已经在另一帧(4)之上传输的部分副本信息(8)对该帧进行TCX隐藏,其中隐藏需要前一帧来对信号内容进行外插,使用ACELP隐藏(由于先前帧为ACELP),并且其中已经在所述编码器中确定在切换之后不将部分副本(8)置于TCX帧之上,或者
其中存在信号自适应部分副本选择,其中在编码之前分析信号以确定部分副本的使用是否是有利的,其中如果在没有所述解码器(31)内的附加部分副本信息的帮助下能够令人满意地隐藏信号,但是干净信道性能由于减小的主帧(4)而受到影响,则禁用部分副本或在所述编码器(1)内使用特定减小的部分副本(8)。
66.一种变换域编码器(1)或解码器(31),其中使用编码/解码方案,其中至少在一些帧(8)中冗余编码参数(6)被嵌入比特流(5)中并被发送到解码器侧,或其中冗余信息(6)被延迟一段时间并被嵌入分组(9)中,该分组(9)被编码并在时间上稍后被发送,使得在所述解码器(31)已使未来帧可用并且原始帧(4)丢失、损坏或延迟甚至更多的情况下能够使用所述信息(6)。
67.一种如前述的变换域编码器(1)或解码器(31),其中冗余信息(6)包括ISF/LSF参数:
ISF/LSF参数表示用于LPC参数的量化和编码,在TCX中,LPC用于表示掩蔽阈值,这是基本参数,并且在帧丢失的情况下非常有助于使其在解码器侧正确使用,特别是如果ISF/LSF被进行预测编码,则隐藏质量将通过在隐藏期间使该信息可用而显著改进,因为在解码器侧的预测器状态将保持正确(与编码器同步),这将导致在丢失之后非常快速的恢复;
信号分类:
信号分类用于表示内容类型:无声、无声过渡、有声过渡、有声和起始,通常,这种类型的分类用于语音编码,并且指示音调分量/预测分量是否存在于信号中,或者音调分量/预测分量是否正在改变,在隐藏期间在解码器侧使该信息可用能够帮助确定信号的可预测性,并且因此能够帮助调整LPC参数的幅度淡出速度、内插速度;
TCX全局增益/等级:
该全局增益能够被传输,以在隐藏帧可用的情况下容易地将隐藏帧的能量设置为正确的(编码器确定的水平);
窗口信息,如重叠长度;或者
频谱峰值位置用于帮助音调隐藏。
68.一种类似于上述装置的方法或计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110063494.8A CN112786060B (zh) | 2014-08-27 | 2015-08-24 | 用于对音频内容进行编码和解码的编码器、解码器和方法 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14182553.9 | 2014-08-27 | ||
EP14182553 | 2014-08-27 | ||
EP15164126 | 2015-04-17 | ||
EP15164126.3 | 2015-04-17 | ||
PCT/EP2015/069348 WO2016030327A2 (en) | 2014-08-27 | 2015-08-24 | Encoder, decoder and method for encoding and decoding audio content using parameters for enhancing a concealment |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110063494.8A Division CN112786060B (zh) | 2014-08-27 | 2015-08-24 | 用于对音频内容进行编码和解码的编码器、解码器和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107077851A true CN107077851A (zh) | 2017-08-18 |
CN107077851B CN107077851B (zh) | 2021-02-02 |
Family
ID=53887141
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110063494.8A Active CN112786060B (zh) | 2014-08-27 | 2015-08-24 | 用于对音频内容进行编码和解码的编码器、解码器和方法 |
CN201580058327.7A Active CN107077851B (zh) | 2014-08-27 | 2015-08-24 | 使用用于增强隐藏的参数对音频内容进行编码和解码的编码器、解码器和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110063494.8A Active CN112786060B (zh) | 2014-08-27 | 2015-08-24 | 用于对音频内容进行编码和解码的编码器、解码器和方法 |
Country Status (18)
Country | Link |
---|---|
US (3) | US10878830B2 (zh) |
EP (3) | EP3618066B1 (zh) |
JP (3) | JP6533285B2 (zh) |
KR (1) | KR102016542B1 (zh) |
CN (2) | CN112786060B (zh) |
AU (1) | AU2015308980B2 (zh) |
BR (1) | BR112017003887B1 (zh) |
CA (3) | CA2958932C (zh) |
ES (3) | ES2839509T3 (zh) |
HK (1) | HK1244349A1 (zh) |
MX (1) | MX2017002427A (zh) |
MY (1) | MY192253A (zh) |
PL (2) | PL3618066T3 (zh) |
RU (1) | RU2701707C2 (zh) |
SG (1) | SG11201701517XA (zh) |
TW (1) | TWI602172B (zh) |
WO (1) | WO2016030327A2 (zh) |
ZA (1) | ZA201701930B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110266625A (zh) * | 2019-06-25 | 2019-09-20 | 西安空间无线电技术研究所 | 一种基于帧同步码隐含于信息码的qpsk调制的动态门限判决的解调方法及系统 |
CN110275828A (zh) * | 2019-06-06 | 2019-09-24 | 江西理工大学 | 一种计算机软件优化测试数据有效载荷的方法 |
CN110503970A (zh) * | 2018-11-23 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN112634868A (zh) * | 2020-12-21 | 2021-04-09 | 北京声智科技有限公司 | 一种语音信号处理方法、装置、介质和设备 |
CN113035208A (zh) * | 2021-03-04 | 2021-06-25 | 北京百瑞互联技术有限公司 | 一种音频解码器的分级错误隐藏方法、装置及存储介质 |
CN113491079A (zh) * | 2019-02-13 | 2021-10-08 | 弗劳恩霍夫应用研究促进协会 | 选择错误隐藏模式的解码器和解码方法,以及编码器和编码方法 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK3140831T3 (en) * | 2014-05-08 | 2018-10-15 | Ericsson Telefon Ab L M | Audio signal discriminator and codes |
WO2016017238A1 (ja) * | 2014-07-28 | 2016-02-04 | 日本電信電話株式会社 | 符号化方法、装置、プログラム及び記録媒体 |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
US20170187635A1 (en) * | 2015-12-28 | 2017-06-29 | Qualcomm Incorporated | System and method of jitter buffer management |
JP6718516B2 (ja) | 2016-03-07 | 2020-07-08 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ |
US10517021B2 (en) | 2016-06-30 | 2019-12-24 | Evolve Cellular Inc. | Long term evolution-primary WiFi (LTE-PW) |
US9967306B1 (en) * | 2016-09-08 | 2018-05-08 | Sprint Spectrum L.P. | Prioritized transmission of redundancy data for packetized voice communication |
US10439641B2 (en) * | 2017-06-02 | 2019-10-08 | Nxp B.V. | Error estimation in signal communications |
KR102051891B1 (ko) * | 2017-08-10 | 2019-12-04 | 한양대학교 산학협력단 | 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치 |
FR3071997A1 (fr) * | 2017-10-02 | 2019-04-05 | Orange | Signalisation d’une requete d’adaptation d’une session de communication en voixsur ip |
US11032580B2 (en) | 2017-12-18 | 2021-06-08 | Dish Network L.L.C. | Systems and methods for facilitating a personalized viewing experience |
US10365885B1 (en) * | 2018-02-21 | 2019-07-30 | Sling Media Pvt. Ltd. | Systems and methods for composition of audio content from multi-object audio |
US10652121B2 (en) * | 2018-02-26 | 2020-05-12 | Genband Us Llc | Toggling enhanced mode for a codec |
US10475456B1 (en) * | 2018-06-04 | 2019-11-12 | Qualcomm Incorporated | Smart coding mode switching in audio rate adaptation |
US10990812B2 (en) * | 2018-06-20 | 2021-04-27 | Agora Lab, Inc. | Video tagging for video communications |
MX2021007109A (es) * | 2018-12-20 | 2021-08-11 | Ericsson Telefon Ab L M | Metodo y aparato para controlar el ocultamiento de perdida de tramas de audio multicanal. |
US10803876B2 (en) | 2018-12-21 | 2020-10-13 | Microsoft Technology Licensing, Llc | Combined forward and backward extrapolation of lost network data |
US10784988B2 (en) * | 2018-12-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Conditional forward error correction for network data |
BR112021013720A2 (pt) * | 2019-01-13 | 2021-09-21 | Huawei Technologies Co., Ltd. | Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
US11501787B2 (en) * | 2019-08-22 | 2022-11-15 | Google Llc | Self-supervised audio representation learning for mobile devices |
WO2021200151A1 (ja) * | 2020-03-30 | 2021-10-07 | ソニーグループ株式会社 | 送信装置、送信方法、受信装置、及び受信方法 |
CN111554322A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN111554309A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
CN112802485B (zh) * | 2021-04-12 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
KR20230023306A (ko) * | 2021-08-10 | 2023-02-17 | 삼성전자주식회사 | 컨텐츠 데이터를 기록하는 전자 장치 및 그 방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091945A (en) * | 1989-09-28 | 1992-02-25 | At&T Bell Laboratories | Source dependent channel coding with error protection |
HK1014796A1 (en) * | 1991-06-11 | 1999-09-30 | Qualcomm Inc | Variable rate vocoder |
CN1957398A (zh) * | 2004-02-18 | 2007-05-02 | 沃伊斯亚吉公司 | 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备 |
WO2007073604A1 (en) * | 2005-12-28 | 2007-07-05 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
CN101046964A (zh) * | 2007-04-13 | 2007-10-03 | 清华大学 | 基于重叠变换压缩编码的错误隐藏帧重建方法 |
CN101231849A (zh) * | 2007-09-15 | 2008-07-30 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
CN101437009A (zh) * | 2007-11-15 | 2009-05-20 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US7209900B2 (en) * | 1999-08-27 | 2007-04-24 | Charles Eric Hunter | Music distribution systems |
GB2358558B (en) * | 2000-01-18 | 2003-10-15 | Mitel Corp | Packet loss compensation method using injection of spectrally shaped noise |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US20040204935A1 (en) * | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
US7013267B1 (en) * | 2001-07-30 | 2006-03-14 | Cisco Technology, Inc. | Method and apparatus for reconstructing voice information |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
KR100617165B1 (ko) * | 2004-11-19 | 2006-08-31 | 엘지전자 주식회사 | 워터마크 삽입/검출 기능을 갖는 오디오 부호화/복호화장치 및 방법 |
US20070174054A1 (en) * | 2006-01-25 | 2007-07-26 | Mediatek Inc. | Communication apparatus with signal mode and voice mode |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
MX2012004116A (es) * | 2009-10-08 | 2012-05-22 | Fraunhofer Ges Forschung | Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion. |
RU2591011C2 (ru) * | 2009-10-20 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров) |
CN102648493B (zh) * | 2009-11-24 | 2016-01-20 | Lg电子株式会社 | 音频信号处理方法和设备 |
US8560330B2 (en) * | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
JP5749462B2 (ja) * | 2010-08-13 | 2015-07-15 | 株式会社Nttドコモ | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
MX2013009304A (es) * | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad. |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
JP5973582B2 (ja) * | 2011-10-21 | 2016-08-23 | サムスン エレクトロニクス カンパニー リミテッド | フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置 |
US9047863B2 (en) * | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
ES2960089T3 (es) * | 2012-06-08 | 2024-02-29 | Samsung Electronics Co Ltd | Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio |
CN104885149B (zh) | 2012-09-24 | 2017-11-17 | 三星电子株式会社 | 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备 |
AU2014205389A1 (en) * | 2013-01-11 | 2015-06-04 | Db Networks, Inc. | Systems and methods for detecting and mitigating threats to a structured data storage system |
EP2965315B1 (en) * | 2013-03-04 | 2019-04-24 | Voiceage Evs Llc | Device and method for reducing quantization noise in a time-domain decoder |
RU2639952C2 (ru) * | 2013-08-28 | 2017-12-25 | Долби Лабораторис Лайсэнзин Корпорейшн | Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием |
US10614816B2 (en) * | 2013-10-11 | 2020-04-07 | Qualcomm Incorporated | Systems and methods of communicating redundant frame information |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
-
2015
- 2015-08-14 TW TW104126580A patent/TWI602172B/zh active
- 2015-08-24 CA CA2958932A patent/CA2958932C/en active Active
- 2015-08-24 WO PCT/EP2015/069348 patent/WO2016030327A2/en active Application Filing
- 2015-08-24 ES ES17168268T patent/ES2839509T3/es active Active
- 2015-08-24 PL PL19202304.2T patent/PL3618066T3/pl unknown
- 2015-08-24 MX MX2017002427A patent/MX2017002427A/es active IP Right Grant
- 2015-08-24 CA CA3051511A patent/CA3051511C/en active Active
- 2015-08-24 EP EP19202304.2A patent/EP3618066B1/en active Active
- 2015-08-24 PL PL17168268T patent/PL3220389T3/pl unknown
- 2015-08-24 JP JP2017511668A patent/JP6533285B2/ja active Active
- 2015-08-24 SG SG11201701517XA patent/SG11201701517XA/en unknown
- 2015-08-24 CA CA3008321A patent/CA3008321C/en active Active
- 2015-08-24 ES ES19202304T patent/ES2924351T3/es active Active
- 2015-08-24 EP EP15753061.9A patent/EP3186806B1/en active Active
- 2015-08-24 CN CN202110063494.8A patent/CN112786060B/zh active Active
- 2015-08-24 BR BR112017003887-0A patent/BR112017003887B1/pt active IP Right Grant
- 2015-08-24 MY MYPI2017000301A patent/MY192253A/en unknown
- 2015-08-24 CN CN201580058327.7A patent/CN107077851B/zh active Active
- 2015-08-24 ES ES15753061T patent/ES2826374T3/es active Active
- 2015-08-24 EP EP17168268.5A patent/EP3220389B1/en active Active
- 2015-08-24 AU AU2015308980A patent/AU2015308980B2/en active Active
- 2015-08-24 RU RU2017109774A patent/RU2701707C2/ru active
- 2015-08-24 KR KR1020177007740A patent/KR102016542B1/ko active IP Right Grant
-
2017
- 2017-02-27 US US15/442,980 patent/US10878830B2/en active Active
- 2017-03-20 ZA ZA2017/01930A patent/ZA201701930B/en unknown
-
2018
- 2018-03-19 HK HK18103781.7A patent/HK1244349A1/zh unknown
- 2018-11-05 JP JP2018208097A patent/JP6827997B2/ja active Active
-
2020
- 2020-12-18 US US17/127,140 patent/US11735196B2/en active Active
-
2021
- 2021-01-20 JP JP2021006984A patent/JP7245856B2/ja active Active
-
2023
- 2023-07-05 US US18/347,526 patent/US20240005935A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091945A (en) * | 1989-09-28 | 1992-02-25 | At&T Bell Laboratories | Source dependent channel coding with error protection |
HK1014796A1 (en) * | 1991-06-11 | 1999-09-30 | Qualcomm Inc | Variable rate vocoder |
CN1957398A (zh) * | 2004-02-18 | 2007-05-02 | 沃伊斯亚吉公司 | 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备 |
WO2007073604A1 (en) * | 2005-12-28 | 2007-07-05 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
CN101046964A (zh) * | 2007-04-13 | 2007-10-03 | 清华大学 | 基于重叠变换压缩编码的错误隐藏帧重建方法 |
CN101231849A (zh) * | 2007-09-15 | 2008-07-30 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
CN101437009A (zh) * | 2007-11-15 | 2009-05-20 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503970A (zh) * | 2018-11-23 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110503970B (zh) * | 2018-11-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN113491079A (zh) * | 2019-02-13 | 2021-10-08 | 弗劳恩霍夫应用研究促进协会 | 选择错误隐藏模式的解码器和解码方法,以及编码器和编码方法 |
US12009002B2 (en) | 2019-02-13 | 2024-06-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transmitter processor, audio receiver processor and related methods and computer programs |
CN110275828A (zh) * | 2019-06-06 | 2019-09-24 | 江西理工大学 | 一种计算机软件优化测试数据有效载荷的方法 |
CN110275828B (zh) * | 2019-06-06 | 2022-11-22 | 江西理工大学 | 一种计算机软件优化测试数据有效载荷的方法 |
CN110266625A (zh) * | 2019-06-25 | 2019-09-20 | 西安空间无线电技术研究所 | 一种基于帧同步码隐含于信息码的qpsk调制的动态门限判决的解调方法及系统 |
CN110266625B (zh) * | 2019-06-25 | 2022-01-04 | 西安空间无线电技术研究所 | 一种基于帧同步码隐含于信息码的qpsk调制的动态门限判决的解调方法及系统 |
CN112634868A (zh) * | 2020-12-21 | 2021-04-09 | 北京声智科技有限公司 | 一种语音信号处理方法、装置、介质和设备 |
CN112634868B (zh) * | 2020-12-21 | 2024-04-05 | 北京声智科技有限公司 | 一种语音信号处理方法、装置、介质和设备 |
CN113035208A (zh) * | 2021-03-04 | 2021-06-25 | 北京百瑞互联技术有限公司 | 一种音频解码器的分级错误隐藏方法、装置及存储介质 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7245856B2 (ja) | 符号化器、復号器ならびに隠蔽を増強するためのパラメータを使用してオーディオ内容を符号化および復号するための方法 | |
CA2984573C (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
CA2984017C (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
US20150228291A1 (en) | Frame erasure concealment for a multi-rate speech and audio codec | |
Sinder et al. | Recent speech coding technologies and standards | |
Chibani | Increasing the robustness of CELP speech codecs against packet losses. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |