CN107369455A - 语音频码流的解码方法及装置 - Google Patents
语音频码流的解码方法及装置 Download PDFInfo
- Publication number
- CN107369455A CN107369455A CN201710648938.8A CN201710648938A CN107369455A CN 107369455 A CN107369455 A CN 107369455A CN 201710648938 A CN201710648938 A CN 201710648938A CN 107369455 A CN107369455 A CN 107369455A
- Authority
- CN
- China
- Prior art keywords
- audio frame
- speech audio
- frame
- current
- current speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012805 post-processing Methods 0.000 claims abstract description 253
- 230000003044 adaptive effect Effects 0.000 claims description 258
- 230000005236 sound signal Effects 0.000 claims description 23
- 230000003247 decreasing effect Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 description 444
- 230000003595 spectral effect Effects 0.000 description 143
- 108090000623 proteins and genes Proteins 0.000 description 44
- 101100438378 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) fac-1 gene Proteins 0.000 description 28
- 101100326803 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) fac-2 gene Proteins 0.000 description 28
- 230000007704 transition Effects 0.000 description 27
- 238000011084 recovery Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音频码流的解码方法及装置。一种语音频码流的解码方法,可包括:获取当前语音频帧的语音频解码参数,其中,上述当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧;根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,上述M和N为正整数;使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。本发明技术方案有利于提高输出语音频信号的质量。
Description
技术领域
本发明涉及音频解码技术,具体涉及语音频码流解码方法及装置。
背景技术
基于网际互连协议的语音业务(VoIP,Voice over Internet Protocol)系统之中,分组包在传输过程中可能需要经过多个路由器,而这些路由器在通话过程中也可能发生改变,所以通话过程中的传输时延可能会改变。而且当两个或者更多个用户试图通过同一个网关进入网络时,路由时延可能发生变化;这种时延上的变化被称为时延抖动(delayjitter)。同样,接收端、发送端和网关等使用非实时操作系统也会造成时延抖动,严重时会产生数据包丢失,造成语音频失真,导致VoIP质量下降。
目前,已有很多技术在通信系统不同层中来降低时延、平滑时延抖动及进行丢包补偿。接收端可通过高效抖动缓存处理(JBM,Jitter Buffer Management)算法来在一定程度上补偿网络的时延抖动。然而,对丢包率较高的情况,仅仅通过JBM技术显然不能满足高质量通信的需求。
为了更好的避免语音频帧延迟抖动导致的质量下降问题,引入了冗余编码算法,即在编码端,除了用一定的比特率编码本语音频帧信息外,还用较低比特率编码除本语音频帧之外其他语音频帧的信息,将较低比特率的其他语音频帧信息的码流作为冗余信息和本语音频帧信息的码流一起传输到解码端。在解码端,当某一帧语音频帧丢失时,若抖动缓存(jitter buffer)中缓存了(或已收到的码流里)包含丢失语音频帧的冗余信息,则根据冗余信息恢复该丢失语音频帧,从而改善语音频质量。
现有冗余编码算法中,对于第N帧的码流,除了包含第N帧的语音频帧信息之外,还包含了较低码率下的第N-M帧语音频帧信息。在传输过程中若第N-M帧丢失时,则根据第N帧的码流中包含的第N-M帧的语音频信息进行解码处理,以恢复得到第N-M帧语音频信号。
从上可知,在现有的冗余编码算法中,冗余码流信息是使用较低的码率编码得到的,因此很可能会造成信号不稳定,从而导致输出的语音频信号的质量不高。
发明内容
本发明实施例提供了语音频码流的解码方法及装置,有利于提高输出语音频信号的质量。
本发明实施例第一方面提供一种语音频码流的解码方法,可包括:
获取当前语音频帧的语音频解码参数,其中,所述当前语音频帧为冗余解码帧或者所述当前语音频帧的前一帧语音频帧为冗余解码帧;
根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数,所述X帧语音频帧包括所述当前语音频帧的前M帧语音频帧和/或所述当前语音频帧的后N帧语音频帧,所述M和N为正整数;
使用所述当前语音频帧的后处理的语音频解码参数恢复所述当前语音频帧的语音频信号。
结合第一方面,在第一方面的第一种可能的实施方式中,所述当前语音频帧的语音频解码参数包括所述当前语音频帧的频谱对参数,其中,所述根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数,包括:
根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对所述当前语音频帧的频谱对参数进行后处理,以得到所述当前语音频帧的后处理的频谱对参数。
结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,所述根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对所述当前语音频帧的频谱对参数进行后处理,以得到所述当前语音频帧的后处理的频谱对参数,包括:
若所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型为清音,且所述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将所述当前语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,
若所述当前语音频帧为正常解码帧并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型为清音,并且所述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,
若所述当前语音频帧为冗余解码帧,且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,则将所述当前语音频帧的前一帧语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,
若所述当前语音频帧为冗余解码帧,且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数;
或者,
若所述当前语音频帧为冗余解码帧且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将所述当前语音频帧的前一帧语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将所述当前语音频帧的前一帧语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,
若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数。
结合第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,所述基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数,包括:具体通过如下公式,基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,所述lsp[k]为所述当前语音频帧的后处理的频谱对参数,所述lsp_old[k]为所述当前语音频帧的前一帧语音频帧的频谱对参数,所述lsp_mid[k]为所述当前语音频帧的频谱对参数的中间值,所述lsp_new[k]为所述当前语音频帧的频谱对参数,所述L为频谱对参数的阶数,其中,所述α为所述当前语音频帧的前一帧语音频帧的频谱对参数的权重,所述β为所述当前语音频帧的频谱对参数的中间值的权重,所述δ为所述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若所述当前语音频帧为正常解码帧,并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,则所述α等于0或所述α小于或等于第五阈值;
或者,若所述当前语音频帧为冗余解码帧,则所述β等于0或所述β小于或等于第六阈值;
或者,若所述当前语音频帧为冗余解码帧,所述δ等于0或所述δ小于或等于第七阈值;
或者,若所述当前语音频帧为冗余解码帧,则所述β等于0或所述β小于或等于第六阈值,并且所述δ等于0或所述δ小于或等于第七阈值。
结合第一方面的第二种可能的实施方式,在第一方面的第四种可能的实施方式中,所述基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数,包括:具体通过如下公式,基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,所述lsp[k]为所述当前语音频帧的后处理的频谱对参数,所述lsp_old[k]为所述当前语音频帧的前一帧语音频帧的频谱对参数,所述lsp_new[k]为所述当前语音频帧的频谱对参数,所述L为频谱对参数的阶数,所述α为所述当前语音频帧的前一帧语音频帧的频谱对参数的权重,所述δ为所述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若所述当前语音频帧为正常解码帧,并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,则所述α等于0或所述α小于或等于第五阈值;
或者,若所述当前语音频帧为冗余解码帧,则所述δ等于0或所述δ小于或等于第七阈值。
结合第一方面或第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式中,
所述当前语音频帧的语音频解码参数包括所述当前语音频帧的自适应码书增益;其中,所述根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数包括:
根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益。
结合第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式中,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,包括:
若所述当前语音频帧为冗余解码帧并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则衰减所述当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前子帧的前一子帧的代数码书增益,则衰减所述当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或者等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益;
或者,
若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,且若所述当前语音频帧为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
结合第一方面或第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式或第一方面的第五种可能的实施方式或第一方面的第六种可能的实施方式,在第一方面的第七种可能的实施方式中,所述当前语音频帧的语音频解码参数包括所述当前语音频帧的代数码书,所述根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数包括:根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对所述当前语音频帧的代数码书进行后处理,以得到所述当前语音频帧的后处理的代数码书。
结合第一方面的第七种可能的实施方式,在第一方面的第八种可能的实施方式中,所述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对所述当前语音频帧的代数码书进行后处理,包括:
若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且所述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将所述当前语音频帧的前一子帧的代数码书或随机噪声作为所述当前子帧的代数码书。
结合第一方面或第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式或第一方面的第五种可能的实施方式或第一方面的第六种可能的实施方式或第一方面的第七种可能的实施方式或第一方面的第八种可能的实施方式,在第一方面的第九种可能的实施方式中,所述当前语音频帧的语音频解码参数包括所述当前语音频帧的频带扩展包络,其中,所述根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数包括:根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对所述当前语音频帧的频带扩展包络进行后处理,以得到所述当前语音频帧的后处理的频带扩展包络。
结合第一方面的第九种可能的实施方式,在第一方面的第十种可能的实施方式中,
所述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对所述当前语音频帧的频带扩展包络进行后处理,以得到所述当前语音频帧的后处理的频带扩展包络,包括:
若所述当前语音频帧的前一帧语音频帧为正常解码帧,且所述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络;
或者,
若所述当前语音频帧为冗余解码的预测模式,则基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络;
或者,
若所述当前语音频帧的信号类型不是清音,且所述当前语音频帧的后一帧语音频帧的信号类型为清音,且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据所述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正所述当前语音频帧的频带扩展包络,以得到所述当前语音频帧的后处理的频带扩展包络。
结合第一方面的第十种可能的实施方式,在第一方面的第十一种可能的实施方式中,
所述基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络包括:具体通过如下公式,基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new;
其中,所述GainFrame为所述当前语音频帧的后处理的频带扩展包络,所述GainFrame_old为所述当前语音频帧的前一帧语音频帧的频带扩展包络,所述GainFrame_new为所述当前语音频帧的频带扩展包络,所述fac1为所述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,所述fac2为所述当前语音频帧的频带扩展包络的权重;fac1≥0,fac2≥0,且fac1+fac2=1。
结合第一方面的第十种可能的实施方式,在第一方面的第十二种可能的实施方式中,所述修正所述当前语音频帧的频带扩展包络的修正因子与所述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与所述当前语音频帧的前一帧语音频帧的频带扩展包络与所述当前语音频帧的频带扩展包络的比值成正比。
结合第一方面或第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第二种可能的实施方式或第一方面的第三种可能的实施方式或第一方面的第四种可能的实施方式或第一方面的第五种可能的实施方式或第一方面的第六种可能的实施方式或第一方面的第七种可能的实施方式或第一方面的第八种可能的实施方式或第一方面的第九种可能的实施方式或第一方面的第十种可能的实施方式或第一方面的第十一种可能的实施方式或第一方面的第十二种可能的实施方式,在第一方面的第十三种可能的实施方式中,所述当前语音频帧的语音频解码参数包括所述当前语音频帧的基因周期,所述根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数,包括:根据X帧语音频帧的信号类型和/或基因周期,对所述当前语音频帧的基因周期进行后处理,以得到所述当前语音频帧的后处理的基因周期。
本发明实施例第二方面提供一种用于解码语音频码流的解码器,包括:
参数获取单元,用于获取当前语音频帧的语音频解码参数,其中,所述当前语音频帧为冗余解码帧或者所述当前语音频帧的前一帧语音频帧为冗余解码帧;
后处理单元,用于根据X帧语音频帧的语音频参数对所述当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数,所述X帧语音频帧包括所述当前语音频帧的前M帧语音频帧和/或所述当前语音频帧的后N帧语音频帧,所述M和N为正整数;
恢复单元,用于使用所述当前语音频帧的后处理的语音频解码参数恢复所述当前语音频帧的语音频信号。
结合第二方面,在第二方面的第一种可能的实施方式中,所述后处理单元具体用于,当所述当前语音频帧的语音频解码参数包括所述当前语音频帧的频谱对参数,根据X帧语音频帧的频谱对参数、自适应码书增益、谱倾斜因子和信号类型中的至少一种,对所述当前语音频帧的频谱对参数进行后处理,以得到所述当前语音频帧的后处理的频谱对参数。
结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,在所述根据X帧语音频帧的频谱对参数、自适应码书增益、谱倾斜因子和信号类型中的至少一种,对所述当前语音频帧的频谱对参数进行后处理,以得到所述当前语音频帧的后处理的频谱对参数的方面,所述后处理单元具体用于,
若所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型为清音,且所述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将所述当前语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为正常解码帧并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型为清音,并且所述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧,且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,则将所述当前语音频帧的前一帧语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧,且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将所述当前语音频帧的前一帧语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数;
或者,若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将所述当前语音频帧的前一帧语音频帧的频谱对参数作为所述当前语音频帧的后处理的频谱对参数,或基于所述当前语音频帧的前一帧语音频帧的频谱对参数获得所述当前语音频帧的后处理的频谱对参数;
或者,
若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后一帧语音频帧的信号类型为清音,并且所述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数。
结合第二方面的第二种可能的实施方式,在第二方面的第三种可能的实施方式中,在所述基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数的方面,
所述后处理单元具体用于,通过如下公式,基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,所述lsp[k]为所述当前语音频帧的后处理的频谱对参数,所述lsp_old[k]为所述当前语音频帧的前一帧语音频帧的频谱对参数,所述lsp_mid[k]为所述当前语音频帧的频谱对参数的中间值,所述lsp_new[k]为所述当前语音频帧的频谱对参数,所述L为频谱对参数的阶数,其中,所述α为所述当前语音频帧的前一帧语音频帧的频谱对参数的权重,所述β为所述当前语音频帧的频谱对参数的中间值的权重,所述δ为所述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若所述当前语音频帧为正常解码帧,并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,则所述α等于0或所述α小于或等于第五阈值;
或者,若所述当前语音频帧为冗余解码帧,则所述β等于0或所述β小于或等于第六阈值;
或者,若所述当前语音频帧为冗余解码帧,所述δ等于0或所述δ小于或等于第七阈值;
或者,若所述当前语音频帧为冗余解码帧,则所述β等于0或所述β小于或等于第六阈值,并且所述δ等于0或所述δ小于或等于第七阈值。
结合第二方面的第二种可能的实施方式,在第二方面的第四种可能的实施方式中,在所述基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数的方面,
所述后处理单元具体用于,通过如下公式,基于所述当前语音频帧的频谱对参数和所述当前语音频帧的前一帧语音频帧的频谱对参数,获得所述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,所述lsp[k]为所述当前语音频帧的后处理的频谱对参数,所述lsp_old[k]为所述当前语音频帧的前一帧语音频帧的频谱对参数,所述lsp_new[k]为所述当前语音频帧的频谱对参数,所述L为频谱对参数的阶数,所述α为所述当前语音频帧的前一帧语音频帧的频谱对参数的权重,所述δ为所述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若所述当前语音频帧为正常解码帧,并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,则所述α等于0或所述α小于或等于第五阈值;
或者,若所述当前语音频帧为冗余解码帧,则所述δ等于0或所述δ小于或等于第七阈值。
结合第二方面或第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式或第二方面的第四种可能的实施方式,在第二方面的第五种可能的实施方式中,
所述后处理单元具体用于,当前语音频帧的语音频解码参数包括所述当前语音频帧的自适应码书增益,根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益。
结合第二方面的第五种可能的实施方式,在第二方面的第六种可能的实施方式中,在根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理的方面,所述后处理单元具体用于,
若所述当前语音频帧为冗余解码帧并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则衰减所述当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前子帧的前一子帧的代数码书增益,则衰减所述当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或者等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益;
或者,
若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,且若所述当前语音频帧为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益;
或者,若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
结合第二方面或第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式或第二方面的第四种可能的实施方式或第二方面的第五种可能的实施方式或第二方面的第六种可能的实施方式,在第二方面的第七种可能的实施方式中,
所述后处理单元具体用于,当所述当前语音频帧的语音频解码参数包括所述当前语音频帧的代数码书,根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对所述当前语音频帧的代数码书进行后处理,以得到所述当前语音频帧的后处理的代数码书。
结合第二方面的第七种可能的实施方式,在第二方面的第八种可能的实施方式中,在所述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对所述当前语音频帧的代数码书进行后处理的方面,所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧,且所述当前语音频帧的后一帧语音频帧的信号类型为清音,且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且所述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将所述当前语音频帧的前一子帧的代数码书或随机噪声作为所述当前子帧的代数码书。
结合第二方面或第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式或第二方面的第四种可能的实施方式或第二方面的第五种可能的实施方式或第二方面的第六种可能的实施方式或第二方面的第七种可能的实施方式或第二方面的第八种可能的实施方式,在第二方面的第九种可能的实施方式中,所述后处理单元具体用于,当所述当前语音频帧的语音频解码参数包括所述当前语音频帧的频带扩展包络,根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对所述当前语音频帧的频带扩展包络进行后处理,以得到所述当前语音频帧的后处理的频带扩展包络。
结合第二方面的第九种可能的实施方式,在第二方面的第十种可能的实施方式中,在所述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对所述当前语音频帧的频带扩展包络进行后处理,以得到所述当前语音频帧的后处理的频带扩展包络的方面,所述后处理单元具体用于,
若所述当前语音频帧的前一帧语音频帧为正常解码帧,且所述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络;
或者,
若所述当前语音频帧为冗余解码的预测模式,则基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络;
或者,
若所述当前语音频帧的信号类型不是清音,且所述当前语音频帧的后一帧语音频帧的信号类型为清音,且所述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据所述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正所述当前语音频帧的频带扩展包络,以得到所述当前语音频帧的后处理的频带扩展包络。
结合第二方面的第十种可能的实施方式,在第二方面的第十一种可能的实施方式中,
在所述基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络包括的方面,所述后处理单元具体用于,具体通过如下公式,基于所述当前语音频帧的前一帧语音频帧的频带扩展包络和所述当前语音频帧的频带扩展包络,得到所述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new;
其中,所述GainFrame为所述当前语音频帧的后处理的频带扩展包络,所述GainFrame_old为所述当前语音频帧的前一帧语音频帧的频带扩展包络,所述GainFrame_new为所述当前语音频帧的频带扩展包络,所述fac1为所述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,所述fac2为所述当前语音频帧的频带扩展包络的权重;fac1≥0,fac2≥0,且fac1+fac2=1。
结合第二方面的第十种可能的实施方式,在第二方面的第十二种可能的实施方式中,所述后处理单元修正所述当前语音频帧的频带扩展包络的修正因子与所述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与所述当前语音频帧的前一帧语音频帧的频带扩展包络与所述当前语音频帧的频带扩展包络的比值成正比。
结合第二方面或第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第二种可能的实施方式或第二方面的第三种可能的实施方式或第二方面的第四种可能的实施方式或第二方面的第五种可能的实施方式或第二方面的第六种可能的实施方式或第二方面的第七种可能的实施方式或第二方面的第八种可能的实施方式或第二方面的第九种可能的实施方式或第二方面的第十种可能的实施方式或第二方面的第十一种可能的实施方式或第二方面的第十二种可能的实施方式,在第二方面的第十三种可能的实施方式中,所述后处理单元具体用于,当所述当前语音频帧的语音频解码参数包括所述当前语音频帧的基因周期,根据X帧语音频帧的信号类型和基因周期中的至少一种,对所述当前语音频帧的基因周期进行后处理,以得到所述当前语音频帧的后处理的基因周期。
本发明实施例第三方面提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括本发明实施例中记载的任意一种语音频码流的解码方法的部分或全部步骤。
可以看出,在本发明的一些实施例中,对于当前语音频帧为冗余解码帧或者所述当前语音频帧的前一帧语音频帧为冗余解码帧的场景,解码端获得当前语音频帧的与音频解码参数后,根据X帧语音频帧的语音频参数对当前语音频帧的语音频解码参数进行后处理,以得到所述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,并使用当前语音频帧的后处理的音频解码参数恢复当前语音频帧的语音频信号,这样有利于解码信号在冗余解码帧和正常解码帧之间或在冗余解码帧和帧擦除掩蔽(FEC,Frame erasureconcealment)恢复帧之间过渡时得到稳定质量,从而提高输出的语音频信号的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音频码流的解码方法的流程示意图;
图2是本发明实施例提供的另一种语音频码流的解码方法的流程示意图;
图3是本发明实施例提供的一种解码器的示意图;
图4是本发明实施例提供的另一种解码器的示意图;
图5是本发明实施例提供的另一种解码器的示意图。
具体实施方式
本发明实施例提供了语音频码流的解码方法及装置,有利于提高输出语音频信号的质量。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
以下分别进行详细说明。
先介绍本发明实施例提供的语音频码流的解码方法,本发明实施例提供的语音频码流的解码方法的执行主体是解码器,该解码器可以是任何需要输出语音的装置,如手机,笔记本电脑,平板电脑,个人电脑等设备。
本发明一种语音频码流的解码方法的一个实施例,一种语音频码流的解码方法,可以包括:获取当前语音频帧的语音频解码参数,其中,上述当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧;根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,上述M和N为正整数;使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。
参见图1,图1是本发明的一个实施例提供的一种语音频码流的解码方法的流程示意图。其中,本发明的一个实施例提供的一种语音频码流的解码方法可包括以下内容:
101、获取当前语音频帧的语音频解码参数。
其中,上述当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧。
其中,在上述当前语音频帧的前一帧语音频帧为冗余解码帧时,当前语音频帧可能是正常解码帧、FEC恢复帧或冗余解码帧,其中,当前语音频帧若为FEC恢复帧,则可基于FEC算法预测出当前语音频帧的语音频解码参数。
102、根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧。上述M和N为正整数。
其中,某帧语音频帧(例如当前语音频帧或者当前语音频帧的前一帧语音频帧)为正常解码帧,是指上述某帧语音频帧的语音频参数能够直接从该某帧语音频帧码流中解码获得。某帧语音频帧(例如当前语音频帧或者当前语音频帧的前一帧语音频帧)为冗余解码帧,是指该某帧语音频帧的语音频参数不能够直接从该某帧语音频帧码流中解码获得,但是该某帧语音频帧的冗余码流信息可从其他语音频帧码流中获得。
其中,当前语音频帧的前M帧语音频帧是指,时域上在当前语音频帧之前且与当前语音频帧紧邻的M帧语音频帧。
例如,M可等于1、2或3其它值,其中,当M=1时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当M=2时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧与当前语音频帧是紧邻的三帧语音频帧,以此类推。
其中,当前语音频帧的后N帧语音频帧是指,时域上在当前语音频帧之后且与当前语音频帧紧邻的N帧语音频帧。
例如,N可等于1、2、3或4其它值,其中,当N=1时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当N=2时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧与当前语音频帧是紧邻的三个语音频帧,以此类推。
其中,语音频解码参数可包括如下参数的至少一种:
频带扩展包络、自适应码书增益(gain_pit)、代数码书、基因周期、谱倾斜因子和频谱对参数等。
其中,语音频参数可包括语音频解码参数和信号类型等。
其中,语音频帧的信号类型可以是清音(UNVOICED)、浊音(VOICED)或普通语音(GENERIC)、过渡语音(TRANSITION)或静默音(INACTIVE)等等。
其中,频谱对参数例如可以是线谱对(LSP:Linear Spectral Pairs)参数和导抗频谱对(ISP:Immittance Spectral Pairs)参数中的至少一个。
可以理解,本发明实施例可以对当前语音频帧的频带扩展包络、自适应码书增益、代数码书、基因周期和频谱对参数之中的至少1个语音频解码参数进行后处理,具体选择几个参数,选择哪几个参数进行后处理可以根据应用的场景和环境进行选择,本发明实施例并不做限定。
对于不同的语音频解码参数可能进行不同的后处理,例如,对当前语音频帧的频谱对参数进行的后处理,可以是使用当前语音频帧的频谱对参数和当前语音频帧的前一帧语音频帧的频谱对参数做自适应的加权,以获得当前语音频帧的后处理的频谱对参数。对当前语音频帧的自适应码书增益的后处理可以是对自适应码书增益进行调整,如衰减等。
本发明实施例不对具体的后处理方式进行限定,具体进行何种后处理可以根据需要或者根据应用的环境和场景进行设定。
103、使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。
从上可知,本实施例中,对于当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧的场景,解码端获得当前语音频帧的解码参数后,根据X帧语音频帧的语音频参数对当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,并使用当前语音频帧的后处理的音频解码参数恢复当前语音频帧的语音频信号,这样有利于解码信号在冗余解码帧和正常解码帧之间或在冗余解码帧和FEC恢复帧之间过渡时得到稳定质量,从而提高输出的语音频信号的质量。
在本发明的一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频谱对参数,其中,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,例如可包括:根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数。
举例来说,上述根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数,可包括:
若上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将上述当前语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数。
其中,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方式可以是多种多样的。
例如,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数可包括:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_mid[k]为上述当前语音频帧的频谱对参数的中间值,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,其中,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述β为上述当前语音频帧的频谱对参数的中间值的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若上述当前语音频帧为正常解码帧,并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述β等于0或上述β小于或等于第六阈值;或者,若上述当前语音频帧为冗余解码帧,上述δ等于0或上述δ小于或等于第七阈值;或者若上述当前语音频帧为冗余解码帧,则上述β等于0或者上述β小于或等于第六阈值,并且上述δ等于0或上述δ小于或者等于第七阈值。
又例如,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数可以包括:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或者上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述δ等于0或上述δ小于或等于第七阈值。
其中,对于第五阈值、第六阈值和第七阈值,可以根据应用的环境或场景的不同而设置不同的值。例如,第五阈值的取值可接近于0,例如第五阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。其中,第六阈值的取值可接近于0,如第六阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。第七阈值的取值可接近于0,例如第七阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。
其中,对于第一阈值、第二阈值、第三阈值和第四阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第一阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第二阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第三阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第四阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
其中,第一阈值可等于或不等于第三阈值。第二阈值可等于或不等于第四阈值。
在本发明另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的自适应码书增益;其中,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可包括:根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理,以得到上述当前语音频帧的后处理的自适应码书增益。
举例来说,上述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理可以包括:
若上述当前语音频帧为冗余解码帧并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的当前子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧和后一帧语音频帧的后一帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的当前子帧的代数码书增益是上述当前子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(如增大或衰减)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或者等于上述当前语音频帧的前一帧语音频帧的代数码书增益(上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如,若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,且若上述当前语音频帧为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如等于1、1.1、1.5或2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益)。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的代数码书,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可以包括:根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,以得到上述当前语音频帧的后处理的代数码书。
举例来说,上述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,可包括:若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且上述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将上述当前语音频帧的前一子帧的代数码书或随机噪声作为上述当前子帧的代数码书。
其中,对于第八阈值和第九阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第八阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第九阈值可以设置为0.1,0.09,0.11,0.07,0.101或0.099或其它接近于0的值等。
其中,第八阈值可等于或不等于第二阈值。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频带扩展包络,其中,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可包括:根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络。
举例来说,上述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络,可以包括:
若上述当前语音频帧的前一帧语音频帧为正常解码帧,且上述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧为冗余解码的预测模式,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧的信号类型不是清音,且上述当前语音频帧的后一帧语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据上述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正上述当前语音频帧的频带扩展包络,以得到上述当前语音频帧的后处理的频带扩展包络。
可根据应用的环境或场景的不同而设置第十阈值的不同的取值。例如第十阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络可以包括:具体通过如下公式,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new。
其中,上述GainFrame为上述当前语音频帧的后处理的频带扩展包络,上述GainFrame_old为上述当前语音频帧的前一帧语音频帧的频带扩展包络,上述GainFrame_new为上述当前语音频帧的频带扩展包络,上述fac1为上述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,上述fac2为上述当前语音频帧的频带扩展包络的权重,fac1≥0,fac2≥0,且fac1+fac2=1。
又例如,上述修正上述当前语音频帧的频带扩展包络的修正因子与上述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与上述当前语音频帧的前一帧语音频帧的频带扩展包络与上述当前语音频帧的频带扩展包络的比值成正比。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的基因周期,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可包括:根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行后处理(例如,可以根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行增大或者衰减等后处理),以得到上述当前语音频帧的后处理的基因周期。
从上可知,本发明的一些实施例中,在清音语音频帧和非清音语音频帧之间过渡(例如,当前语音频帧的信号类型为清音并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为非清音并且为正常解码帧,或者当前语音频帧的信号类型为非清音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为清音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于去掉清音语音频帧和非清音语音频帧的帧间过渡时的咔咔声(click)现象,从而提高输出的语音频信号的质量。
本发明的另一些实施例中,在普通语音频帧与浊音语音频帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为浊音并且为正常解码帧,或当前语音频帧的信号类型为浊音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为普通语音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。
本发明的又一些实施例中,在当前语音频帧为冗余解码帧,并且当前语音频帧的信号类型不是清音,且当前语音频帧的后一帧语音频帧的信号类型是清音时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
为便于更好的理解和实施本发明实施例的上述方案,下面通过举例一些具体的应用场景进行说明。
参见图2,图2是本发明的另一个实施例提供的另一种语音频码流的解码方法的流程示意图。本发明的另一个实施例提供的另一种语音频码流的解码方法可包括以下内容:
201、判断当前语音频帧的解码状态。
具体地,例如可以基于JBM算法或其它算法,判断当前语音频帧的解码状态为正常解码帧、冗余解码帧或FEC恢复帧。
其中,若当前语音频帧为正常解码帧,且当前语音频帧的前一帧语音频帧为冗余解码帧,则执行步骤202。
其中,若当前语音频帧为冗余解码帧,则执行步骤203。
其中,若当前语音频帧为FEC恢复帧,且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则执行步骤204。
202、基于当前语音频帧码流获得当前语音频帧的语音频解码参数,跳转至步骤205。
203、基于当前语音频帧的冗余码流,获得上述当前语音频帧的语音频解码参数,跳转至步骤205。
204、基于FEC算法预测得到当前语音频帧的语音频解码参数,跳转至步骤205。
205、根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数。上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧。上述M和N为正整数。
206、使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。
其中,对于不同的语音频解码参数可能进行不同的后处理,例如,对当前语音频帧的频谱对参数进行的后处理,可以是使用当前语音频帧的频谱对参数和当前语音频帧的前一帧语音频帧的频谱对参数做自适应的加权,以获得当前语音频帧的后处理的频谱对参数。对当前语音频帧的自适应码书增益的后处理可以是对自适应码书增益进行调整,如衰减等。
在本发明的一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频谱对参数,其中,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,例如可包括:根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数。
举例来说,上述根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数,可包括:
若上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将上述当前语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数。
其中,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方式可以是多种多样的。
例如,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数可包括:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_mid[k]为上述当前语音频帧的频谱对参数的中间值,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,其中,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述β为上述当前语音频帧的频谱对参数的中间值的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若上述当前语音频帧为正常解码帧,并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述β等于0或上述β小于或等于第六阈值;或者,若上述当前语音频帧为冗余解码帧,上述δ等于0或上述δ小于或等于第七阈值;或者若上述当前语音频帧为冗余解码帧,则上述β等于0或者上述β小于或等于第六阈值,并且上述δ等于0或上述δ小于或者等于第七阈值。
又例如,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数可以包括:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或者上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述δ等于0或上述δ小于或等于第七阈值。
其中,对于第五阈值、第六阈值和第七阈值,可以根据应用的环境或场景的不同而设置不同的值。例如,第五阈值的取值可接近于0,例如第五阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。其中,第六阈值的取值可接近于0,如第六阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。第七阈值的取值可接近于0,例如第七阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。
其中,对于第一阈值、第二阈值、第三阈值和第四阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第一阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第二阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第三阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第四阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
其中,第一阈值可等于或不等于第三阈值。第二阈值可等于或不等于第四阈值。
在本发明另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的自适应码书增益;其中,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可包括:根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理,以得到上述当前语音频帧的后处理的自适应码书增益。
举例来说,上述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理可以包括:
若上述当前语音频帧为冗余解码帧并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的当前子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧和后一帧语音频帧的后一帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的当前子帧的代数码书增益是上述当前子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(如增大或衰减)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或者等于上述当前语音频帧的前一帧语音频帧的代数码书增益(上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如,若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,且若上述当前语音频帧为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如等于1、1.1、1.5或2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益)。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的代数码书,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可以包括:根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,以得到上述当前语音频帧的后处理的代数码书。
举例来说,上述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,可包括:若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且上述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将上述当前语音频帧的前一子帧的代数码书或随机噪声作为上述当前子帧的代数码书。
其中,对于第八阈值和第九阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第八阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第九阈值可以设置为0.1,0.09,0.11,0.07,0.101或0.099或其它接近于0的值等。
其中,第八阈值可等于或不等于第二阈值。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频带扩展包络,其中,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可包括:根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络。
举例来说,上述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络,可以包括:
若上述当前语音频帧的前一帧语音频帧为正常解码帧,且上述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧为冗余解码的预测模式,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧的信号类型不是清音,且上述当前语音频帧的后一帧语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据上述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正上述当前语音频帧的频带扩展包络,以得到上述当前语音频帧的后处理的频带扩展包络。
可根据应用的环境或场景的不同而设置第十阈值的不同的取值。例如第十阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络可以包括:具体通过如下公式,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new。
其中,上述GainFrame为上述当前语音频帧的后处理的频带扩展包络,上述GainFrame_old为上述当前语音频帧的前一帧语音频帧的频带扩展包络,上述GainFrame_new为上述当前语音频帧的频带扩展包络,上述fac1为上述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,上述fac2为上述当前语音频帧的频带扩展包络的权重,fac1≥0,fac2≥0,且fac1+fac2=1。
又例如,上述修正上述当前语音频帧的频带扩展包络的修正因子与上述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与上述当前语音频帧的前一帧语音频帧的频带扩展包络与上述当前语音频帧的频带扩展包络的比值成正比。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的基因周期,上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,可包括:根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行后处理(例如,可以根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行增大或者衰减等后处理),以得到上述当前语音频帧的后处理的基因周期。
从上可知,本实施例中,对于当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧的场景,解码端获得当前语音频帧的解码参数后,根据X帧语音频帧的语音频参数对当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,并使用当前语音频帧的后处理的音频解码参数恢复当前语音频帧的语音频信号,这样有利于解码信号在冗余解码帧和正常解码帧之间或在冗余解码帧和FEC恢复帧之间过渡时得到稳定质量,从而提高输出的语音频信号的质量。
从上可知,本发明的一些实施例中,在清音语音频帧和非清音语音频帧之间过渡(例如,当前语音频帧的信号类型为清音并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为非清音并且为正常解码帧,或者当前语音频帧的信号类型为非清音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为清音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于去掉清音语音频帧和非清音语音频帧的帧间过渡时的咔咔声(click)现象,从而提高输出的语音频信号的质量。
本发明的另一些实施例中,在普通语音频帧与浊音语音频帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为浊音并且为正常解码帧,或当前语音频帧的信号类型为浊音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为普通语音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。
本发明的又一些实施例中,在当前语音频帧为冗余解码帧,并且当前语音频帧的信号类型不是清音,且当前语音频帧的后一帧语音频帧的信号类型是清音时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
本发明实施例还提供用于实施上述方案的相关装置。
参见图3,本发明实施例提供一种用于解码语音频码流的解码器300,可以包括:参数获取单元310、后处理单元320和恢复单元330。
参数获取单元310,用于获取当前语音频帧的语音频解码参数,其中,上述当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧。
其中,在上述当前语音频帧的前一帧语音频帧为冗余解码帧时,当前语音频帧可能是正常解码帧、冗余解码帧或FEC恢复帧。
后处理单元320,用于根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,上述M和N为正整数。
恢复单元330,用于使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。
其中,某帧语音频帧(例如当前语音频帧或者当前语音频帧的前一帧语音频帧)为正常解码帧,是指上述某帧语音频帧的语音频参数等能够直接从该某帧语音频帧码流中解码获得。某帧语音频帧(例如当前语音频帧或者当前语音频帧的前一帧语音频帧)为冗余解码帧,是指该某帧语音频帧的语音频参数等不能够直接从该某帧语音频帧码流中解码获得,但是该某帧语音频帧的冗余码流信息可从其他语音频帧码流中获得。
其中,当前语音频帧的前M帧语音频帧是指,时域上在当前语音频帧之前且与当前语音频帧紧邻的M帧语音频帧。
例如,M可等于1、2或3其它值,其中,当M=1时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当M=2时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧与当前语音频帧是紧邻的三帧语音频帧,以此类推。
其中,当前语音频帧的后N帧语音频帧是指,时域上在当前语音频帧之后且与当前语音频帧紧邻的N帧语音频帧。
例如,N可等于1、2、3或4其它值,其中,当N=1时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当N=2时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧与当前语音频帧是紧邻的三个语音频帧,以此类推。
其中,语音频解码参数可包括如下参数的至少一种:
频带扩展包络、自适应码书增益(gain_pit)、代数码书、基因周期、谱倾斜因子和频谱对参数等。
其中,语音频参数可包括语音频解码参数和信号类型等。
其中,语音频帧的信号类型可以是清音、浊音或普通语音、过渡语音或静默音等等。
其中,频谱对参数例如可为线谱对(LSP)参数和导抗频谱对(ISP)参数中的至少一个。
可以理解,本发明实施例后处理单元320可以对当前语音频帧的频带扩展包络、自适应码书增益、代数码书、基因周期和频谱对参数之中的至少1个语音频解码参数进行后处理,具体选择几个参数,选择哪几个参数进行后处理可以根据应用的场景和环境进行选择,本发明实施例并不做限定。
后处理单元320对于不同的语音频解码参数可能进行不同的后处理,例如后处理单元320对当前语音频帧的频谱对参数进行的后处理,可以是使用当前语音频帧的频谱对参数和当前语音频帧的前一帧语音频帧的频谱对参数做自适应的加权,以获得当前语音频帧的后处理的频谱对参数。后处理单元320对当前语音频帧的自适应码书增益的后处理例如可以是对自适应码书增益进行调整,如衰减等。
本发明实施例不对后处理单元320具体的后处理方式进行限定,具体进行何种后处理可以根据需要或者根据应用的环境和场景进行设定。
在本发明一些实施例中,后处理单元320可具体用于,当上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频谱对参数,根据X帧语音频帧的频谱对参数、自适应码书增益、谱倾斜因子和信号类型中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数。
在本发明的一些实施例中,在上述根据X帧语音频帧的频谱对参数、自适应码书增益、谱倾斜因子和信号类型中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数的方面,上述后处理单元具体用于,
若上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将上述当前语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数。
在本发明一些实施例中,在上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方面,
上述后处理单元320具体用于,通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_mid[k]为上述当前语音频帧的频谱对参数的中间值,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,其中,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述β为上述当前语音频帧的频谱对参数的中间值的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若上述当前语音频帧为正常解码帧,并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或上述α小于或等于第五阈值;
或者,若上述当前语音频帧为冗余解码帧,则上述β等于0或上述β小于或等于第六阈值;
或者,若上述当前语音频帧为冗余解码帧,上述δ等于0或上述δ小于或等于第七阈值;
或者,若上述当前语音频帧为冗余解码帧,则上述β等于0或上述β小于或等于第六阈值,并且上述δ等于0或上述δ小于或等于第七阈值。
在本发明另一些实施例中,在上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方面,
上述后处理单元320具体用于,通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若上述当前语音频帧为正常解码帧,并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或上述α小于或等于第五阈值;
或者,若上述当前语音频帧为冗余解码帧,则上述δ等于0或上述δ小于或等于第七阈值。
其中,对于第五阈值、第六阈值和第七阈值,可以根据应用的环境或场景的不同而设置不同的值。例如,第五阈值的取值可接近于0,例如第五阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。其中,第六阈值的取值可接近于0,如第六阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。第七阈值的取值可接近于0,例如第七阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。
其中,对于第一阈值、第二阈值、第三阈值和第四阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第一阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第二阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第三阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第四阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
其中,第一阈值可等于或不等于第三阈值。第二阈值可等于或不等于第四阈值。
在本发明一些实施例中,上述后处理单元320具体用于,当前语音频帧的语音频解码参数包括上述当前语音频帧的自适应码书增益,根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理,以得到上述当前语音频帧的后处理的自适应码书增益。
例如,在根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理的方面,上述后处理单元具体用于,
若上述当前语音频帧为冗余解码帧并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益,则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前子帧的前一子帧的代数码书增益,则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益,则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整上述当前语音频帧的当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或者等于上述当前语音频帧的前一帧语音频帧的代数码书增益,则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整上述当前语音频帧的当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,且若上述当前语音频帧为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益,则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整上述当前语音频帧的当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益,则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整上述当前语音频帧的当前子帧的自适应码书增益。
在本发明一些实施例中,上述后处理单元320具体用于,当上述当前语音频帧的语音频解码参数包括上述当前语音频帧的代数码书,根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,以得到上述当前语音频帧的后处理的代数码书。
例如,在上述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理的方面,上述后处理单元320具体用于,若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的后一帧语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且上述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将上述当前语音频帧的前一子帧的代数码书或随机噪声作为上述当前子帧的代数码书。
其中,对于第八阈值和第九阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第八阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第九阈值可以设置为0.1,0.09,0.11,0.07,0.101或0.099或其它接近于0的值等。
其中,第八阈值可等于或不等于第二阈值。
在本发明的一些实施例中,上述后处理单元320具体用于,当上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频带扩展包络,根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络。
例如,在上述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络的方面,上述后处理单元具体用于,
若上述当前语音频帧的前一帧语音频帧为正常解码帧,且上述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧为冗余解码的预测模式,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧的信号类型不是清音,且上述当前语音频帧的后一帧语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据上述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正上述当前语音频帧的频带扩展包络,以得到上述当前语音频帧的后处理的频带扩展包络。
可根据应用的环境或场景的不同而设置第十阈值的不同的取值。例如第十阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如,在上述基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络包括的方面,上述后处理单元320具体用于,具体通过如下公式,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new;
其中,上述GainFrame为上述当前语音频帧的后处理的频带扩展包络,上述GainFrame_old为上述当前语音频帧的前一帧语音频帧的频带扩展包络,上述GainFrame_new为上述当前语音频帧的频带扩展包络,上述fac1为上述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,上述fac2为上述当前语音频帧的频带扩展包络的权重;fac1≥0,fac2≥0,且fac1+fac2=1。
又例如,上述后处理单元320修正上述当前语音频帧的频带扩展包络的修正因子与上述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与上述当前语音频帧的前一帧语音频帧的频带扩展包络与上述当前语音频帧的频带扩展包络的比值成正比。
在本发明一些实施例中,上述后处理单元320具体用于,当上述当前语音频帧的语音频解码参数包括上述当前语音频帧的基因周期,根据X帧语音频帧的信号类型和基因周期中的至少一种,对上述当前语音频帧的基因周期进行后处理,以得到上述当前语音频帧的后处理的基因周期。
可以理解的是,本实施例的解码器300的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。其中,解码器300可为任何需要输出语音的装置,如笔记本电脑,平板电脑、个人电脑、手机等设备。
从上可知,本实施例中,对于当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧的场景,解码端获得当前语音频帧的解码参数后,根据X帧语音频帧的语音频参数对当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,并使用当前语音频帧的后处理的音频解码参数恢复当前语音频帧的语音频信号,这样有利于解码信号在冗余解码帧和正常解码帧之间或在冗余解码帧和FEC恢复帧之间过渡时得到稳定质量,从而提高输出的语音频信号的质量。
从上可知,本发明的一些实施例中,在清音语音频帧和非清音语音频帧之间过渡(例如,当前语音频帧的信号类型为清音并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为非清音并且为正常解码帧,或者当前语音频帧的信号类型为非清音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为清音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于去掉清音语音频帧和非清音语音频帧的帧间过渡时的咔咔声(click)现象,从而提高输出的语音频信号的质量。
本发明的另一些实施例中,在普通语音频帧与浊音语音频帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为浊音并且为正常解码帧,或当前语音频帧的信号类型为浊音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为普通语音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。
本发明的又一些实施例中,在当前语音频帧为冗余解码帧,并且当前语音频帧的信号类型不是清音,且当前语音频帧的后一帧语音频帧的信号类型是清音时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
参见图4,图4为本发明实施例提供的解码器400的示意图,解码器400可包括至少一个总线401、与总线401相连的至少一个处理器402以及与总线401相连的至少一个存储器403。
其中,处理器402通过总线401,调用存储器403中存储的代码以用于获取当前语音频帧的语音频解码参数,其中,上述当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧;根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,上述M和N为正整数;使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。
其中,语音频解码参数可包括如下参数的至少一种:
频带扩展包络、自适应码书增益(gain_pit)、代数码书、基因周期、谱倾斜因子和频谱对参数等。
其中,语音频参数可包括语音频解码参数和信号类型等。
其中,语音频帧的信号类型可以是清音(UNVOICED)、浊音(VOICED)或普通语音(GENERIC)、过渡语音(TRANSITION)或静默音(INACTIVE)等等。
其中,频谱对参数例如可以是线谱对(LSP)参数和导抗频谱对(ISP)参数中的至少一个。
其中,当前语音频帧的前M帧语音频帧是指,时域上在当前语音频帧之前且与当前语音频帧紧邻的M帧语音频帧。
例如,M可等于1、2或3其它值,其中,当M=1时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当M=2时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧与当前语音频帧是紧邻的三帧语音频帧,以此类推。
其中,当前语音频帧的后N帧语音频帧是指,时域上在当前语音频帧之后且与当前语音频帧紧邻的N帧语音频帧。
例如,N可等于1、2、3或4其它值,其中,当N=1时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当N=2时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧与当前语音频帧是紧邻的三个语音频帧,以此类推。
可以理解,本发明实施例处理器402调用存储器403中存储的代码可用于对当前语音频帧的频带扩展包络、自适应码书增益、代数码书、基因周期和频谱对参数之中的至少1个语音频解码参数进行后处理,具体选择几个参数,选择哪几个参数进行后处理可以根据应用的场景和环境进行选择,本发明实施例并不做限定。
对于不同的语音频解码参数可能进行不同的后处理,例如,对当前语音频帧的频谱对参数进行的后处理,可以是使用当前语音频帧的频谱对参数和当前语音频帧的前一帧语音频帧的频谱对参数做自适应的加权,以获得当前语音频帧的后处理的频谱对参数。对当前语音频帧的自适应码书增益的后处理可以是对自适应码书增益进行调整,如衰减等。
本发明实施例不对具体的后处理方式进行限定,具体进行何种后处理可以根据需要或者根据应用的环境和场景进行设定。
在本发明的一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频谱对参数,其中,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,处理器402调用存储器403中存储的代码可具体用于:根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数。
举例来说,在上述根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数的方面,处理器402调用存储器403中存储的代码可具体用于:
若上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将上述当前语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数。
其中,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方式可以是多种多样的。
例如,在上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方面,处理器402调用存储器403中存储的代码可具体用于:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_mid[k]为上述当前语音频帧的频谱对参数的中间值,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,其中,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述β为上述当前语音频帧的频谱对参数的中间值的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若上述当前语音频帧为正常解码帧,并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述β等于0或上述β小于或等于第六阈值;或者,若上述当前语音频帧为冗余解码帧,上述δ等于0或上述δ小于或等于第七阈值;或者若上述当前语音频帧为冗余解码帧,则上述β等于0或者上述β小于或等于第六阈值,并且上述δ等于0或上述δ小于或者等于第七阈值。
又例如,在上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方面,处理器402调用存储器403中存储的代码可具体用于:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或者上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述δ等于0或上述δ小于或等于第七阈值。
其中,对于第五阈值、第六阈值和第七阈值,可以根据应用的环境或场景的不同而设置不同的值。例如,第五阈值的取值可接近于0,例如第五阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。其中,第六阈值的取值可接近于0,如第六阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。第七阈值的取值可接近于0,例如第七阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。
其中,对于第一阈值、第二阈值、第三阈值和第四阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第一阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第二阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第三阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第四阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
其中,第一阈值可等于或不等于第三阈值。第二阈值可等于或不等于第四阈值。
在本发明另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的自适应码书增益;其中,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,处理器402调用存储器403中存储的代码可具体用于:根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理,以得到上述当前语音频帧的后处理的自适应码书增益。
举例来说,在上述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理的方面,处理器402调用存储器403中存储的代码可具体用于:
若上述当前语音频帧为冗余解码帧并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的当前子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧和后一帧语音频帧的后一帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的当前子帧的代数码书增益是上述当前子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(如增大或衰减)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或者等于上述当前语音频帧的前一帧语音频帧的代数码书增益(上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如,若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,且若上述当前语音频帧为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如等于1、1.1、1.5或2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益)。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的代数码书,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,处理器402调用存储器403中存储的代码可具体用于:根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,以得到上述当前语音频帧的后处理的代数码书。
举例来说,在上述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理的方面,处理器402调用存储器403中存储的代码可具体用于:
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且上述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将上述当前语音频帧的前一子帧的代数码书或随机噪声作为上述当前子帧的代数码书。
其中,对于第八阈值和第九阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第八阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第九阈值可以设置为0.1,0.09,0.11,0.07,0.101或0.099或其它接近于0的值等。
其中,第八阈值可等于或不等于第二阈值。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频带扩展包络,其中,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,处理器402调用存储器403中存储的代码可具体用于:根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络。
举例来说,在上述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络的方面,处理器402调用存储器403中存储的代码可具体用于:
若上述当前语音频帧的前一帧语音频帧为正常解码帧,且上述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧为冗余解码的预测模式,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧的信号类型不是清音,且上述当前语音频帧的后一帧语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据上述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正上述当前语音频帧的频带扩展包络,以得到上述当前语音频帧的后处理的频带扩展包络。
可根据应用的环境或场景的不同而设置第十阈值的不同的取值。例如第十阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如,在基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络的方面,处理器402调用存储器403中存储的代码可具体用于:具体通过如下公式,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new。
其中,上述GainFrame为上述当前语音频帧的后处理的频带扩展包络,上述GainFrame_old为上述当前语音频帧的前一帧语音频帧的频带扩展包络,上述GainFrame_new为上述当前语音频帧的频带扩展包络,上述fac1为上述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,上述fac2为上述当前语音频帧的频带扩展包络的权重,fac1≥0,fac2≥0,且fac1+fac2=1。
又例如,上述修正上述当前语音频帧的频带扩展包络的修正因子与上述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与上述当前语音频帧的前一帧语音频帧的频带扩展包络与上述当前语音频帧的频带扩展包络的比值成正比。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的基因周期,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,处理器402调用存储器403中存储的代码可具体用于:根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行后处理(例如,可以根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行增大或者衰减等后处理),以得到上述当前语音频帧的后处理的基因周期。
可以理解的是,本实施例的解码器400的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。其中,解码器400可为任何需要输出语音的装置,如笔记本电脑,平板电脑、个人电脑、手机等设备。
从上可知,本实施例中,对于当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧的场景,解码端获得当前语音频帧的解码参数后,根据X帧语音频帧的语音频参数对当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,并使用当前语音频帧的后处理的音频解码参数恢复当前语音频帧的语音频信号,这样有利于解码信号在冗余解码帧和正常解码帧之间或在冗余解码帧和FEC恢复帧之间过渡时得到稳定质量,从而提高输出的语音频信号的质量。
从上可知,本发明的一些实施例中,在清音语音频帧和非清音语音频帧之间过渡(例如,当前语音频帧的信号类型为清音并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为非清音并且为正常解码帧,或者当前语音频帧的信号类型为非清音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为清音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于去掉清音语音频帧和非清音语音频帧的帧间过渡时的咔咔声(click)现象,从而提高输出的语音频信号的质量。
本发明的另一些实施例中,在普通语音频帧与浊音语音频帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为浊音并且为正常解码帧,或当前语音频帧的信号类型为浊音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为普通语音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。
本发明的又一些实施例中,在当前语音频帧为冗余解码帧,并且当前语音频帧的信号类型不是清音,且当前语音频帧的后一帧语音频帧的信号类型是清音时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
参见图5,图5是本发明的另一实施例提供的解码器500的结构框图。其中,解码器500可以包括:至少1个处理器501,至少1个网络接口504或其他用户接口503,存储器505,至少1个通信总线502。通信总线502用于实现这些组件之间的连接通信。其中,该解码器500可选的可以包含用户接口503,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等)、点击设备(例如鼠标、轨迹球(trackball)触感板或触摸屏等)、摄像头和/或拾音装置等。
其中,存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502中的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器505存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统5051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
应用程序模块5052,包含各种应用程序,用于实现各种应用业务。
应用程序模块5052中包括但不限于参数获取单元310、后处理单元320和恢复单元330等。
在本发明的实施例中,通过调用存储器505存储的程序或指令,处理器501可用于获取当前语音频帧的语音频解码参数,其中,上述当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧;根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,上述M和N为正整数;使用上述当前语音频帧的后处理的语音频解码参数恢复上述当前语音频帧的语音频信号。
其中,语音频解码参数可包括如下参数的至少一种:
频带扩展包络、自适应码书增益(gain_pit)、代数码书、基因周期、谱倾斜因子和频谱对参数等。
其中,语音频参数可包括语音频解码参数和信号类型等。
其中,语音频帧的信号类型可以是清音(UNVOICED)、浊音(VOICED)或普通语音(GENERIC)、过渡语音(TRANSITION)或静默音(INACTIVE)等等。
其中,频谱对参数例如可以是线谱对(LSP)参数和导抗频谱对(ISP)参数中的至少一个。
其中,当前语音频帧的前M帧语音频帧是指,时域上在当前语音频帧之前且与当前语音频帧紧邻的M帧语音频帧。
例如,M可等于1、2或3其它值,其中,当M=1时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当M=2时,当前语音频帧的前M帧语音频帧即为当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧,而当前语音频帧的前一帧语音频帧以及当前语音频帧的前一帧语音频帧的前一帧语音频帧与当前语音频帧是紧邻的三帧语音频帧,以此类推。
其中,当前语音频帧的后N帧语音频帧是指,时域上在当前语音频帧之后且与当前语音频帧紧邻的N帧语音频帧。
例如,N可等于1、2、3或4其它值,其中,当N=1时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧与当前语音频帧是紧邻的两个语音频帧,当N=2时,当前语音频帧的后N帧语音频帧即为当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧,而当前语音频帧的后一帧语音频帧以及当前语音频帧的后一帧语音频帧的后一帧语音频帧与当前语音频帧是紧邻的三个语音频帧,以此类推。
可以理解,本实施例中,通过调用存储器505存储的程序或指令,处理器501可对当前语音频帧的频带扩展包络、自适应码书增益、代数码书、基因周期和频谱对参数之中的至少1个语音频解码参数进行后处理,具体选择几个参数,选择哪几个参数进行后处理可以根据应用的场景和环境进行选择,本发明实施例并不做限定。
对于不同的语音频解码参数可能进行不同的后处理,例如,对当前语音频帧的频谱对参数进行的后处理,可以是使用当前语音频帧的频谱对参数和当前语音频帧的前一帧语音频帧的频谱对参数做自适应的加权,以获得当前语音频帧的后处理的频谱对参数。对当前语音频帧的自适应码书增益的后处理可以是对自适应码书增益进行调整,如衰减等。
本发明实施例不对具体的后处理方式进行限定,具体进行何种后处理可以根据需要或者根据应用的环境和场景进行设定。
在本发明的一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频谱对参数,其中,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数。
举例来说,在上述根据X帧语音频帧的信号类型、谱倾斜因子、自适应码书增益和频谱对参数中的至少一种,对上述当前语音频帧的频谱对参数进行后处理,以得到上述当前语音频帧的后处理的频谱对参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:
若上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则将上述当前语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的信号类型不为清音,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,若上述当前语音频帧为冗余解码帧且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第一阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第二阈值,则基于当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数;
或者,若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第四阈值,则将上述当前语音频帧的前一帧语音频帧的频谱对参数作为上述当前语音频帧的后处理的频谱对参数,或基于上述当前语音频帧的前一帧语音频帧的频谱对参数获得上述当前语音频帧的后处理的频谱对参数;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的后一帧语音频帧中的子帧的自适应码书增益的最大值小于或者等于第三阈值,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或者等于第四阈值,则基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数。
其中,上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方式可以是多种多样的。
例如,在上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_mid[k]为上述当前语音频帧的频谱对参数的中间值,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,其中,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述β为上述当前语音频帧的频谱对参数的中间值的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1,
其中,若上述当前语音频帧为正常解码帧,并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述β等于0或上述β小于或等于第六阈值;或者,若上述当前语音频帧为冗余解码帧,上述δ等于0或上述δ小于或等于第七阈值;或者若上述当前语音频帧为冗余解码帧,则上述β等于0或者上述β小于或等于第六阈值,并且上述δ等于0或上述δ小于或者等于第七阈值。
又例如,在上述基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:具体通过如下公式,基于上述当前语音频帧的频谱对参数和上述当前语音频帧的前一帧语音频帧的频谱对参数,获得上述当前语音频帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤L;
其中,上述lsp[k]为上述当前语音频帧的后处理的频谱对参数,上述lsp_old[k]为上述当前语音频帧的前一帧语音频帧的频谱对参数,上述lsp_new[k]为上述当前语音频帧的频谱对参数,上述L为频谱对参数的阶数,上述α为上述当前语音频帧的前一帧语音频帧的频谱对参数的权重,上述δ为上述当前语音频帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1,
其中,若上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,则上述α等于0或者上述α小于或等于第五阈值;或者,若上述当前语音频帧为冗余解码帧,则上述δ等于0或上述δ小于或等于第七阈值。
其中,对于第五阈值、第六阈值和第七阈值,可以根据应用的环境或场景的不同而设置不同的值。例如,第五阈值的取值可接近于0,例如第五阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。其中,第六阈值的取值可接近于0,如第六阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。第七阈值的取值可接近于0,例如第七阈值可等于0.001、0.002、0.01或0.1或其它接近于0的值。
其中,对于第一阈值、第二阈值、第三阈值和第四阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第一阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第二阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第三阈值可以设置为0.9,0.8,0.85,0.7,0.89或0.91等。
例如第四阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
其中,第一阈值可等于或不等于第三阈值。第二阈值可等于或不等于第四阈值。
在本发明另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的自适应码书增益;其中,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理,以得到上述当前语音频帧的后处理的自适应码书增益。
举例来说,在上述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对上述当前语音频帧的自适应码书增益进行后处理的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:
若上述当前语音频帧为冗余解码帧并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的当前子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的信号类型不为清音,并且上述当前语音频帧的后一帧语音频帧和后一帧语音频帧的后一帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且上述当前语音频帧中的当前子帧的代数码书增益大于或等于上述当前子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的当前子帧的代数码书增益是上述当前子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则衰减上述当前子帧的自适应码书增益;
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(如增大或衰减)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为普通语音,并且上述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且上述当前语音频帧中的某子帧的代数码书增益大于或者等于上述当前语音频帧的前一帧语音频帧的代数码书增益(上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如,若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或上述当前语音频帧为正常解码帧且上述当前语音频帧的前一帧语音频帧为冗余解码帧,且若上述当前语音频帧为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述某子帧的前一子帧的代数码书增益(例如上述当前语音频帧中的某子帧的代数码书增益可为上述某子帧的前一子帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如等于1、1.1、1.5或2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益);
或者,
若上述当前语音频帧为冗余解码帧或者上述当前语音频帧为正常解码帧并且上述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若上述当前语音频帧的信号类型为浊音,并且上述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且上述当前语音频帧中的某子帧的代数码书增益大于或等于上述当前语音频帧的前一帧语音频帧的代数码书增益(例如,上述当前语音频帧中的某子帧的代数码书增益为上述当前语音频帧的前一帧语音频帧的代数码书增益的1倍、1.5倍、2倍、2.5倍、3倍、3.4倍、4倍或其它大于或等于1的倍数),则基于上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值、上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值和上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整(衰减或增大)上述当前语音频帧的当前子帧的自适应码书增益(例如若上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的代数码书增益的比值大于或等于第十一阈值(第十一阈值例如可等于2、2.1、.2.5、3或其它值),上述当前语音频帧的当前子帧和上述当前子帧的相邻子帧的自适应码书增益的比值大于或等于第十二阈值(第十二阈值例如可等于1、1.1、1.5、2、2.1或其它值),且上述当前语音频帧的当前子帧和上述当前语音频帧的前一帧语音频帧的代数码书增益的比值小于或等于第十三阈值(第十三阈值例如可等于1、1.1、1.5、2或其它值),则可增大上述当前语音频帧的当前子帧的自适应码书增益)。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的代数码书,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理,以得到上述当前语音频帧的后处理的代数码书。
举例来说,在上述根据X帧语音频帧的信号类型、代数码书和谱倾斜因子的至少一种,对上述当前语音频帧的代数码书进行后处理的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:
若上述当前语音频帧为冗余解码帧,并且上述当前语音频帧的后一帧语音频帧的信号类型为清音,并且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第八阈值,并且上述当前语音频帧的其中一个子帧的代数码书为零或小于或等于第九阈值,则将上述当前语音频帧的前一子帧的代数码书或随机噪声作为上述当前子帧的代数码书。
其中,对于第八阈值和第九阈值,可以根据应用的环境或场景的不同而设置不同的值。
例如第八阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如第九阈值可以设置为0.1,0.09,0.11,0.07,0.101或0.099或其它接近于0的值等。
其中,第八阈值可等于或不等于第二阈值。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的频带扩展包络,其中,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络。
举例来说,在上述根据X帧语音频帧的信号类型、频带扩展包络和谱倾斜因子中的至少一种,对上述当前语音频帧的频带扩展包络进行后处理,以得到上述当前语音频帧的后处理的频带扩展包络的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:
若上述当前语音频帧的前一帧语音频帧为正常解码帧,且上述当前语音频帧的前一帧语音频帧和当前语音频帧的后一帧语音频帧的信号类型相同,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,
若上述当前语音频帧为冗余解码的预测模式,则基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络;
或者,若上述当前语音频帧的信号类型不是清音,且上述当前语音频帧的后一帧语音频帧的信号类型为清音,且上述当前语音频帧的前一帧语音频帧的谱倾斜因子小于或等于第十阈值,则根据上述当前语音频帧的前一帧语音频帧的频带扩展包络或者谱倾斜因子,修正上述当前语音频帧的频带扩展包络,以得到上述当前语音频帧的后处理的频带扩展包络。
可根据应用的环境或场景的不同而设置第十阈值的不同的取值。例如第十阈值可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
例如,在基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:具体通过如下公式,基于上述当前语音频帧的前一帧语音频帧的频带扩展包络和上述当前语音频帧的频带扩展包络,得到上述当前语音频帧的后处理的频带扩展包络:
GainFrame=fac1*GainFrame_old+fac2*GainFrame_new。
其中,上述GainFrame为上述当前语音频帧的后处理的频带扩展包络,上述GainFrame_old为上述当前语音频帧的前一帧语音频帧的频带扩展包络,上述GainFrame_new为上述当前语音频帧的频带扩展包络,上述fac1为上述当前语音频帧的前一帧语音频帧的频带扩展包络的权重,上述fac2为上述当前语音频帧的频带扩展包络的权重,fac1≥0,fac2≥0,且fac1+fac2=1。
又例如,上述修正上述当前语音频帧的频带扩展包络的修正因子与上述当前语音频帧的前一帧语音频帧的谱倾斜因子成反比,与上述当前语音频帧的前一帧语音频帧的频带扩展包络与上述当前语音频帧的频带扩展包络的比值成正比。
在本发明的另一些实施例中,上述当前语音频帧的语音频解码参数包括上述当前语音频帧的基因周期,在上述根据X帧语音频帧的语音频参数对上述当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数的方面,通过调用存储器505存储的程序或指令,处理器501可具体用于:根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行后处理(例如,可以根据X帧语音频帧的信号类型和/或基因周期,对上述当前语音频帧的基因周期进行增大或者衰减等后处理),以得到上述当前语音频帧的后处理的基因周期。
可以理解的是,本实施例的解码器500的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。其中,解码器500可为任何需要输出语音的装置,如笔记本电脑,平板电脑、个人电脑、手机等设备。
从上可知,本实施例中,对于当前语音频帧为冗余解码帧或者上述当前语音频帧的前一帧语音频帧为冗余解码帧的场景,解码端获得当前语音频帧的解码参数后,根据X帧语音频帧的语音频参数对当前语音频帧的语音频解码参数进行后处理,以得到上述当前语音频帧的后处理的语音频解码参数,上述X帧语音频帧包括上述当前语音频帧的前M帧语音频帧和/或上述当前语音频帧的后N帧语音频帧,并使用当前语音频帧的后处理的音频解码参数恢复当前语音频帧的语音频信号,这样有利于解码信号在冗余解码帧和正常解码帧之间或在冗余解码帧和FEC恢复帧之间过渡时得到稳定质量,从而提高输出的语音频信号的质量。
从上可知,本发明的一些实施例中,在清音语音频帧和非清音语音频帧之间过渡(例如,当前语音频帧的信号类型为清音并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为非清音并且为正常解码帧,或者当前语音频帧的信号类型为非清音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为清音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于去掉清音语音频帧和非清音语音频帧的帧间过渡时的咔咔声(click)现象,从而提高输出的语音频信号的质量。
本发明的另一些实施例中,在普通语音频帧与浊音语音频帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,而当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为浊音并且为正常解码帧,或当前语音频帧的信号类型为浊音且为正常解码帧,当前语音频帧的前一帧语音频帧或后一帧语音频帧的信号类型为普通语音并且为冗余解码帧)时,对当前语音频帧的语音频解码参数进行后处理,从而有利于纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。
本发明的又一些实施例中,在当前语音频帧为冗余解码帧,并且当前语音频帧的信号类型不是清音,且当前语音频帧的后一帧语音频帧的信号类型是清音时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任意一种语音频码流的解码方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质可包括:U盘、磁碟、随机存取存储器(RAM,random access memory)、只读存储器(ROM,read-only memory)或移动硬盘或光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (21)
1.一种语音频码流的解码方法,其特征在于,包括:
获取当前语音频帧的语音频解码参数,所述当前语音频帧为冗余解码帧或者正常解码帧;所述语音频解码参数包括自适应码书增益;
当所述当前语音频帧为冗余解码帧或者所述当前语音频帧的前一帧语音频帧为冗余解码帧时,根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,所述X帧语音频帧包括所述当前语音频帧的前M帧语音频帧和/或所述当前语音频帧的后N帧语音频帧,所述M和N为正整数;
使用所述当前语音频帧的后处理的自适应码书增益恢复所述当前语音频帧的语音频信号。
2.根据权利要求1所述的方法,其特征在于,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,包括:
若所述当前语音频帧为冗余解码帧并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则衰减所述当前子帧的自适应码书增益。
3.根据权利要求1所述的方法,其特征在于,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,包括:
若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前子帧的前一子帧的代数码书增益,则衰减所述当前子帧的自适应码书增益。
4.根据权利要求1所述的方法,其特征在于,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,包括:
若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
5.根据权利要求1所述的方法,其特征在于,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,包括:
若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或者等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
6.根据权利要求1所述的方法,其特征在于,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,包括:
若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,且若所述当前语音频帧为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
7.根据权利要求1所述的方法,其特征在于,所述根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,包括:
若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
8.根据权利要求4至7任一项所述的方法,其特征在于,所述调整所述当前语音频帧的当前子帧的自适应码书增益包括:增大或衰减所述当前语音频帧的当前子帧的自适应码书增益。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述当前语音频帧的前一帧语音频帧与所述当前语音频帧是紧邻的两个语音频帧。
10.根据权利要求1至9任一项所述的方法,其特征在于,若所述当前语音频帧为正常解码帧,则所述当前语音频帧的语音频解码参数能够直接从所述当前语音频帧的码流中解码获得;若所述当前语音频帧为冗余解码帧,则所述当前语音频帧的冗余码流信息从其他语音频帧的码流中获得。
11.一种用于解码语音频码流的解码器,其特征在于,包括:
参数获取单元,用于获获取当前语音频帧的语音频解码参数,所述当前语音频帧为冗余解码帧或者正常解码帧;所述语音频解码参数包括自适应码书增益;
后处理单元,用于当所述当前语音频帧为冗余解码帧或者所述当前语音频帧的前一帧语音频帧为冗余解码帧时,根据X帧语音频帧的信号类型、代数码书增益和自适应码书增益中的至少一种,对所述当前语音频帧的自适应码书增益进行后处理,以得到所述当前语音频帧的后处理的自适应码书增益,所述X帧语音频帧包括所述当前语音频帧的前M帧语音频帧和/或所述当前语音频帧的后N帧语音频帧,所述M和N为正整数;
恢复单元,用于使用所述当前语音频帧的后处理的自适应码书增益恢复所述当前语音频帧的语音频信号。
12.根据权利要求11所述的解码器,其特征在于,
所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则衰减所述当前子帧的自适应码书增益。
13.根据权利要求11所述的解码器,其特征在于,所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧,并且所述当前语音频帧的信号类型不为清音,并且所述当前语音频帧的后两帧语音频帧之中的至少一帧语音频帧的信号类型为清音,并且所述当前语音频帧中的当前子帧的代数码书增益大于或等于所述当前子帧的前一子帧的代数码书增益,则衰减所述当前子帧的自适应码书增益。
14.根据权利要求11所述的解码器,其特征在于,所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
15.根据权利要求11所述的解码器,其特征在于,所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为普通语音,并且所述当前语音频帧的后一帧语音频帧的信号类型为浊音,并且所述当前语音频帧中的某子帧的代数码书增益大于或者等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
16.根据权利要求11所述的解码器,其特征在于,
所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧或所述当前语音频帧为正常解码帧且所述当前语音频帧的前一帧语音频帧为冗余解码帧,且若所述当前语音频帧为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述某子帧的前一子帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
17.根据权利要求11所述的解码器,其特征在于,所述后处理单元具体用于,若所述当前语音频帧为冗余解码帧或者所述当前语音频帧为正常解码帧并且所述当前语音频帧的前一帧语音频帧为冗余解码帧,并且若所述当前语音频帧的信号类型为浊音,并且所述当前语音频帧的前一帧语音频帧的信号类型为普通语音,并且所述当前语音频帧中的某子帧的代数码书增益大于或等于所述当前语音频帧的前一帧语音频帧的代数码书增益,则基于所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的代数码书增益的比值、所述当前语音频帧的当前子帧和所述当前子帧的相邻子帧的自适应码书增益的比值和所述当前语音频帧的当前子帧和所述当前语音频帧的前一帧语音频帧的代数码书增益的比值之中的至少一个,调整所述当前语音频帧的当前子帧的自适应码书增益。
18.根据权利要求14至17任一项所述的解码器,其特征在于,所述当前语音频帧的前一帧语音频帧与所述当前语音频帧是紧邻的两个语音频帧。
19.根据权利要求18所述的解码器,其特征在于,若所述当前语音频帧为正常解码帧,则所述当前语音频帧的语音频解码参数能够直接从所述当前语音频帧的码流中解码获得;若所述当前语音频帧为冗余解码帧,则所述当前语音频帧的冗余码流信息从其他语音频帧的码流中获得。
20.一种解码器,其特征在于,包括:至少一个处理器、存储器以及存储在所述存储器上的程序或指令,所述至少一个处理器执行所述程序或指令时实现权利要求1至10任一项所述方法的步骤。
21.一种计算机存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710648938.8A CN107369455B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710648938.8A CN107369455B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
CN201410108478.6A CN104934035B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410108478.6A Division CN104934035B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107369455A true CN107369455A (zh) | 2017-11-21 |
CN107369455B CN107369455B (zh) | 2020-12-15 |
Family
ID=54121177
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710648936.9A Active CN107369453B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
CN201710648938.8A Active CN107369455B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
CN201710648937.3A Active CN107369454B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
CN201410108478.6A Active CN104934035B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710648936.9A Active CN107369453B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710648937.3A Active CN107369454B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
CN201410108478.6A Active CN104934035B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
Country Status (13)
Country | Link |
---|---|
US (2) | US10269357B2 (zh) |
EP (1) | EP3121812B1 (zh) |
JP (1) | JP6542345B2 (zh) |
KR (2) | KR101924767B1 (zh) |
CN (4) | CN107369453B (zh) |
AU (1) | AU2015234068B2 (zh) |
BR (1) | BR112016020082B1 (zh) |
CA (1) | CA2941540C (zh) |
MX (1) | MX360279B (zh) |
MY (1) | MY184187A (zh) |
RU (1) | RU2644512C1 (zh) |
SG (1) | SG11201607099TA (zh) |
WO (1) | WO2015139521A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN107369453B (zh) | 2014-03-21 | 2021-04-20 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
CN108510993A (zh) * | 2017-05-18 | 2018-09-07 | 苏州纯青智能科技有限公司 | 一种网络传输中实时音频数据丢包恢复的方法 |
CN107564533A (zh) * | 2017-07-12 | 2018-01-09 | 同济大学 | 基于信源先验信息的语音帧修复方法和装置 |
US11646042B2 (en) * | 2019-10-29 | 2023-05-09 | Agora Lab, Inc. | Digital voice packet loss concealment using deep learning |
CN111277864B (zh) * | 2020-02-18 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 直播数据的编码方法、装置、流转系统及电子设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1204092A2 (en) * | 2000-11-06 | 2002-05-08 | Nec Corporation | Speech decoder capable of decoding background noise signal with high quality |
EP1235203A2 (en) * | 2001-02-27 | 2002-08-28 | Texas Instruments Incorporated | Method for concealing erased speech frames and decoder therefor |
US20030200083A1 (en) * | 2002-04-19 | 2003-10-23 | Masahiro Serizawa | Speech decoding device and speech decoding method |
CA2179228C (en) * | 1995-06-20 | 2004-10-12 | Masayuki Nishiguchi | Method and apparatus for reproducing speech signals and method for transmitting same |
CA2315699C (en) * | 1997-12-24 | 2004-11-02 | Mitsubishi Denki Kabushiki Kaisha | A method for speech coding, method for speech decoding and their apparatuses |
CN101256774A (zh) * | 2007-03-02 | 2008-09-03 | 北京工业大学 | 用于嵌入式语音编码的帧擦除隐藏方法及系统 |
CN101379551A (zh) * | 2005-12-28 | 2009-03-04 | 沃伊斯亚吉公司 | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 |
US20090240490A1 (en) * | 2008-03-20 | 2009-09-24 | Gwangju Institute Of Science And Technology | Method and apparatus for concealing packet loss, and apparatus for transmitting and receiving speech signal |
CN101894558A (zh) * | 2010-08-04 | 2010-11-24 | 华为技术有限公司 | 丢帧恢复方法、设备以及语音增强方法、设备和系统 |
WO2013016986A1 (zh) * | 2011-07-31 | 2013-02-07 | 中兴通讯股份有限公司 | 一种浊音起始帧后丢帧的补偿方法和装置 |
US20130246068A1 (en) * | 2010-09-28 | 2013-09-19 | Electronics And Telecommunications Research Institute | Method and apparatus for decoding an audio signal using an adpative codebook update |
CN103325373A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于传送和接收音频信号的方法和设备 |
CN104751849A (zh) * | 2013-12-31 | 2015-07-01 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US5717824A (en) | 1992-08-07 | 1998-02-10 | Pacific Communication Sciences, Inc. | Adaptive speech coder having code excited linear predictor with multiple codebook searches |
US5615298A (en) | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
US5699478A (en) | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
US5907822A (en) | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US6385576B2 (en) | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
DE60039565D1 (de) * | 1999-04-19 | 2008-09-04 | At & T Corp | Verfahren zur verschleierung von paketverlusten |
US6973425B1 (en) | 1999-04-19 | 2005-12-06 | At&T Corp. | Method and apparatus for performing packet loss or Frame Erasure Concealment |
US6952668B1 (en) | 1999-04-19 | 2005-10-04 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US6597961B1 (en) | 1999-04-27 | 2003-07-22 | Realnetworks, Inc. | System and method for concealing errors in an audio transmission |
US6757654B1 (en) | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
EP1199709A1 (en) | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
JP3582589B2 (ja) | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
US7590525B2 (en) | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7047187B2 (en) | 2002-02-27 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio error concealment using data hiding |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US20040083110A1 (en) * | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
JP4438280B2 (ja) | 2002-10-31 | 2010-03-24 | 日本電気株式会社 | トランスコーダ及び符号変換方法 |
US7486719B2 (en) | 2002-10-31 | 2009-02-03 | Nec Corporation | Transcoder and code conversion method |
US6985856B2 (en) * | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
EP1775717B1 (en) | 2004-07-20 | 2013-09-11 | Panasonic Corporation | Speech decoding apparatus and compensation frame generation method |
US20060088093A1 (en) | 2004-10-26 | 2006-04-27 | Nokia Corporation | Packet loss compensation |
US7519535B2 (en) | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
CN100561576C (zh) | 2005-10-25 | 2009-11-18 | 芯晟(北京)科技有限公司 | 一种基于量化信号域的立体声及多声道编解码方法与系统 |
US8798172B2 (en) | 2006-05-16 | 2014-08-05 | Samsung Electronics Co., Ltd. | Method and apparatus to conceal error in decoded audio signal |
US20090248404A1 (en) | 2006-07-12 | 2009-10-01 | Panasonic Corporation | Lost frame compensating method, audio encoding apparatus and audio decoding apparatus |
EP2538406B1 (en) * | 2006-11-10 | 2015-03-11 | Panasonic Intellectual Property Corporation of America | Method and apparatus for decoding parameters of a CELP encoded speech signal |
KR20080075050A (ko) | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
WO2008108083A1 (ja) | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声符号化装置および音声符号化方法 |
CN101325537B (zh) * | 2007-06-15 | 2012-04-04 | 华为技术有限公司 | 一种丢帧隐藏的方法和设备 |
CN101689370B (zh) * | 2007-07-09 | 2012-08-22 | 日本电气株式会社 | 音频分组接收器、音频分组接收方法 |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN101261836B (zh) | 2008-04-25 | 2011-03-30 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
WO2009150290A1 (en) | 2008-06-13 | 2009-12-17 | Nokia Corporation | Method and apparatus for error concealment of encoded audio data |
MY159110A (en) * | 2008-07-11 | 2016-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
JP5369180B2 (ja) * | 2008-07-11 | 2013-12-18 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
CN101866649B (zh) * | 2009-04-15 | 2012-04-04 | 华为技术有限公司 | 语音编码处理方法与装置、语音解码处理方法与装置、通信系统 |
US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
CN101777963B (zh) | 2009-12-29 | 2013-12-11 | 电子科技大学 | 一种基于反馈模式的帧级别编码与译码方法 |
PL3154057T3 (pl) * | 2011-04-05 | 2019-04-30 | Nippon Telegraph & Telephone | Dekodowanie sygnału akustycznego |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
WO2012158159A1 (en) | 2011-05-16 | 2012-11-22 | Google Inc. | Packet loss concealment for audio codec |
EP2710589A1 (en) * | 2011-05-20 | 2014-03-26 | Google, Inc. | Redundant coding unit for audio codec |
EP2518986B1 (en) | 2011-07-25 | 2018-03-21 | Huawei Technologies Co., Ltd. | A device and method for controlling echo in parameter domain |
CN102438152B (zh) | 2011-12-29 | 2013-06-19 | 中国科学技术大学 | 可伸缩视频编码容错传输方法、编码器、装置和系统 |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
CN103366749B (zh) | 2012-03-28 | 2016-01-27 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN102760440A (zh) * | 2012-05-02 | 2012-10-31 | 中兴通讯股份有限公司 | 语音信号的发送、接收装置及方法 |
CN102968997A (zh) * | 2012-11-05 | 2013-03-13 | 深圳广晟信源技术有限公司 | 用于宽带语音解码中噪声增强后处理的方法及装置 |
CN107369453B (zh) | 2014-03-21 | 2021-04-20 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
-
2014
- 2014-03-21 CN CN201710648936.9A patent/CN107369453B/zh active Active
- 2014-03-21 CN CN201710648938.8A patent/CN107369455B/zh active Active
- 2014-03-21 CN CN201710648937.3A patent/CN107369454B/zh active Active
- 2014-03-21 CN CN201410108478.6A patent/CN104934035B/zh active Active
-
2015
- 2015-01-13 RU RU2016141282A patent/RU2644512C1/ru active
- 2015-01-13 JP JP2017500113A patent/JP6542345B2/ja active Active
- 2015-01-13 WO PCT/CN2015/070594 patent/WO2015139521A1/zh active Application Filing
- 2015-01-13 EP EP15765124.1A patent/EP3121812B1/en active Active
- 2015-01-13 AU AU2015234068A patent/AU2015234068B2/en active Active
- 2015-01-13 MY MYPI2016703111A patent/MY184187A/en unknown
- 2015-01-13 CA CA2941540A patent/CA2941540C/en active Active
- 2015-01-13 KR KR1020187007131A patent/KR101924767B1/ko active IP Right Grant
- 2015-01-13 MX MX2016012064A patent/MX360279B/es active IP Right Grant
- 2015-01-13 KR KR1020167026153A patent/KR101839571B1/ko active IP Right Grant
- 2015-01-13 SG SG11201607099TA patent/SG11201607099TA/en unknown
- 2015-01-13 BR BR112016020082A patent/BR112016020082B1/pt active IP Right Grant
-
2016
- 2016-09-02 US US15/256,018 patent/US10269357B2/en active Active
-
2019
- 2019-03-19 US US16/358,237 patent/US11031020B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2179228C (en) * | 1995-06-20 | 2004-10-12 | Masayuki Nishiguchi | Method and apparatus for reproducing speech signals and method for transmitting same |
CA2315699C (en) * | 1997-12-24 | 2004-11-02 | Mitsubishi Denki Kabushiki Kaisha | A method for speech coding, method for speech decoding and their apparatuses |
EP1204092A2 (en) * | 2000-11-06 | 2002-05-08 | Nec Corporation | Speech decoder capable of decoding background noise signal with high quality |
EP1235203A2 (en) * | 2001-02-27 | 2002-08-28 | Texas Instruments Incorporated | Method for concealing erased speech frames and decoder therefor |
US20030200083A1 (en) * | 2002-04-19 | 2003-10-23 | Masahiro Serizawa | Speech decoding device and speech decoding method |
CN101379551A (zh) * | 2005-12-28 | 2009-03-04 | 沃伊斯亚吉公司 | 在语音编解码器中用于有效帧擦除隐蔽的方法和装置 |
CN101256774A (zh) * | 2007-03-02 | 2008-09-03 | 北京工业大学 | 用于嵌入式语音编码的帧擦除隐藏方法及系统 |
US20090240490A1 (en) * | 2008-03-20 | 2009-09-24 | Gwangju Institute Of Science And Technology | Method and apparatus for concealing packet loss, and apparatus for transmitting and receiving speech signal |
CN101894558A (zh) * | 2010-08-04 | 2010-11-24 | 华为技术有限公司 | 丢帧恢复方法、设备以及语音增强方法、设备和系统 |
US20130246068A1 (en) * | 2010-09-28 | 2013-09-19 | Electronics And Telecommunications Research Institute | Method and apparatus for decoding an audio signal using an adpative codebook update |
WO2013016986A1 (zh) * | 2011-07-31 | 2013-02-07 | 中兴通讯股份有限公司 | 一种浊音起始帧后丢帧的补偿方法和装置 |
CN103325373A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于传送和接收音频信号的方法和设备 |
CN104751849A (zh) * | 2013-12-31 | 2015-07-01 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
Non-Patent Citations (1)
Title |
---|
INTERNATIONAL TELECOMMUNICATION UNION: "《G.722.2:Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband(AMR-WB) Appendix I Error concealment of erroneous or lost frames》", 13 January 2002 * |
Also Published As
Publication number | Publication date |
---|---|
KR20180029279A (ko) | 2018-03-20 |
CN107369454A (zh) | 2017-11-21 |
CN104934035B (zh) | 2017-09-26 |
BR112016020082B1 (pt) | 2020-04-28 |
CN107369453A (zh) | 2017-11-21 |
US20190214025A1 (en) | 2019-07-11 |
CN107369453B (zh) | 2021-04-20 |
WO2015139521A1 (zh) | 2015-09-24 |
RU2644512C1 (ru) | 2018-02-12 |
SG11201607099TA (en) | 2016-10-28 |
US20160372122A1 (en) | 2016-12-22 |
EP3121812A4 (en) | 2017-03-15 |
AU2015234068B2 (en) | 2017-11-02 |
JP6542345B2 (ja) | 2019-07-10 |
KR101839571B1 (ko) | 2018-03-19 |
EP3121812A1 (en) | 2017-01-25 |
EP3121812B1 (en) | 2020-03-11 |
CN107369454B (zh) | 2020-10-27 |
US10269357B2 (en) | 2019-04-23 |
KR20160124877A (ko) | 2016-10-28 |
CN107369455B (zh) | 2020-12-15 |
CA2941540A1 (en) | 2015-09-24 |
US11031020B2 (en) | 2021-06-08 |
MY184187A (en) | 2021-03-24 |
CN104934035A (zh) | 2015-09-23 |
CA2941540C (en) | 2020-08-18 |
KR101924767B1 (ko) | 2019-02-20 |
AU2015234068A1 (en) | 2016-09-15 |
JP2017515163A (ja) | 2017-06-08 |
MX360279B (es) | 2018-10-26 |
MX2016012064A (es) | 2017-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107369454B (zh) | 语音频码流的解码方法及装置 | |
US10121484B2 (en) | Method and apparatus for decoding speech/audio bitstream | |
CN106486129B (zh) | 一种音频编码方法和装置 | |
CN110097892B (zh) | 一种语音频信号的处理方法和装置 | |
JP2005091749A (ja) | 音源信号符号化装置、及び音源信号符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |