CN104751849B - 语音频码流的解码方法及装置 - Google Patents

语音频码流的解码方法及装置 Download PDF

Info

Publication number
CN104751849B
CN104751849B CN201310751997.XA CN201310751997A CN104751849B CN 104751849 B CN104751849 B CN 104751849B CN 201310751997 A CN201310751997 A CN 201310751997A CN 104751849 B CN104751849 B CN 104751849B
Authority
CN
China
Prior art keywords
frame
present frame
present
spectral pair
former
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310751997.XA
Other languages
English (en)
Other versions
CN104751849A (zh
Inventor
刘泽新
张兴涛
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201310751997.XA priority Critical patent/CN104751849B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to ES14876788T priority patent/ES2756023T3/es
Priority to JP2016543574A priority patent/JP6475250B2/ja
Priority to EP14876788.2A priority patent/EP3076390B1/en
Priority to KR1020167018932A priority patent/KR101833409B1/ko
Priority to EP19172920.1A priority patent/EP3624115A1/en
Priority to PCT/CN2014/081635 priority patent/WO2015100999A1/zh
Priority to KR1020187005229A priority patent/KR101941619B1/ko
Publication of CN104751849A publication Critical patent/CN104751849A/zh
Priority to US15/197,364 priority patent/US9734836B2/en
Application granted granted Critical
Publication of CN104751849B publication Critical patent/CN104751849B/zh
Priority to US15/635,690 priority patent/US10121484B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Abstract

本发明涉及音频解码技术,公开了语音频码流解码方法及装置,其中语音频码流的解码方法包括:判断当前帧是否为正常解码帧或冗余解码帧;如果当前帧为正常解码帧或冗余解码帧,解析获得当前帧的解码参数;对当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数;使用当前帧的后处理的解码参数恢复语音频信号。使用本发明提供的方案,能够提高输出语音频信号的质量。

Description

语音频码流的解码方法及装置
技术领域
本发明涉及音频解码技术,具体涉及语音频码流解码方法及装置。
背景技术
在移动通信业务中,由于网络丢包以及时延抖动,不可避免的会造成丢帧,导致某些语音频信号不能通过解码的参数恢复出来,只能通过帧擦除隐藏(FEC:Frame ErasureConcealment)技术恢复。然而,对丢包率较高的情况,仅仅通过解码端的FEC技术,输出的语音频信号的质量较差,不能满足高质量通信的需求。
为了更好的降低语音频帧丢失导致的质量下降问题,产生了冗余编码算法:在编码端,除了用一定的比特率编码当前帧的信息外,还用较低比特率编码除当前帧之外其他帧的信息,并将较低比特率的码流作为冗余码流信息和当前帧的信息的码流一起传输到解码端。在解码端,当当前帧丢失时,如果抖动缓冲器(jitter buffer)里或已收到的码流里存储了包含当前帧的冗余码流信息,则可以根据该冗余码流信息恢复当前帧,从而改善恢复出的语音频信号的质量。只有在没有当前帧的冗余码流信息时才基于FEC技术恢复当前帧。
从上可知,在现有的冗余编码算法中,冗余码流信息是使用较低的码率编码得到的,因此可能会造成信号不稳定,从而导致输出的语音频信号的质量不高。
发明内容
本发明实施例提供了语音频码流的音频的冗余解码方法及装置,能够提高输出语音频信号的质量。
第一方面,提供了一种语音频码流的解码方法,包括:
判断当前帧是否为正常解码帧或冗余解码帧;
如果所述当前帧为正常解码帧或冗余解码帧,解析获得当前帧的解码参数;
对所述当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数;
使用当前帧的后处理的解码参数恢复语音频信号。
结合第一方面,在第一方面的第一种实现方式中,所述当前帧的解码参数包括当前帧的频谱对参数,所述对所述当前帧的解码参数进行后处理包括:
使用当前帧的频谱对参数和当前帧的前一帧频谱对参数获得当前帧的后处理的频谱对参数。
结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,具体使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1。
结合第一方面的第一种实现方式,在第一方面的第三种实现方式中,具体使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≤k≤M;
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重,β为当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1。
结合第一方面的第三种实现方式,在第一方面的第四种实现方式中,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,β的取值为0或小于预设的门限值。
结合第一方面的第二至四种实现方式中的任何一种,在第一方面的第五种实现方式中,在所述当前帧的信号类型为清音,所述当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值。
结合第一方面的第二至五种实现方式中的任何一种,在第一方面的第六种实现方式中,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,δ的取值为0或小于预设的门限值。
结合第一方面的第四至六种实现方式中的任何一种,在第一方面的第七种实现方式中,所述谱倾斜因子可以为正值或负值,并且所述谱倾斜因子越小,所述谱倾斜因子对应的帧的信号类型越倾向于清音。
结合第一方面,或第一方面的第一至七种实现方式中的任何一种,在第一方面的第八种实现方式中,所述当前帧的解码参数包括当前帧的自适应码书增益;
在所述当前帧为冗余解码帧时,如果当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且所述当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍,所述对所述当前帧的解码参数进行后处理包括:
衰减所述当前帧的当前子帧的自适应码书增益。
结合第一方面,或第一方面的第一至七种实现方式中的任何一种,在第一方面的第九种实现方式中,所述当前帧的解码参数包括当前帧的自适应码书增益;
在所述当前帧或所述当前帧的前一帧为冗余解码帧时,如果当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者所述当前帧的前一帧的信号类型为普通语音且所述当前帧的信号类型为浊音,并且所述当前帧中一个子帧的代数码书与所述一个子帧的前一子帧的代数码书相差第二数量倍或所述当前帧中一个子帧的代数码书与所述当前帧的前一帧的代数码书相差第二数量倍,所述对所述当前帧的解码参数进行后处理包括:
通过所述当前帧的当前子帧的代数码书与所述当前帧的当前子帧的相邻子帧的代数码书的比值,所述当前帧的当前子帧的自适应码书增益与所述当前帧的当前子帧的相邻子帧的自适应码书码书的比值以及所述当前帧的当前子帧的代数码书与所述当前帧的前一帧的代数码书的比值中的至少一个,调整所述当前帧的当前子帧的自适应码书增益。
结合第一方面,或第一方面的第一至九种实现方式中的任何一种,在第一方面的第十种实现方式中,所述当前帧的解码参数包括当前帧的代数码书;
在所述当前帧为冗余解码帧时,如果所述当前帧的下一帧的信号类型为清音,所述当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,且所述当前帧的至少一个子帧的代数码书为0,所述对所述当前帧的解码参数进行后处理包括:
将随机噪声或所述当前帧的当前子帧的前一子帧的非零代数码书作为所述当前帧的全为0的子帧的代数码书。
结合第一方面,或第一方面的第一至十种实现方式中的任何一种,在第一方面的第十一种实现方式中,所述当前帧为冗余解码帧,所述解码参数包括频带扩展包络;
在所述当前帧不是清音帧,且所述当前帧的下一帧是清音帧时,如果当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,所述对所述当前帧的解码参数进行后处理包括:
根据所述当前帧的前一帧的频带扩展包络和谱倾斜因子中的至少一个,对所述当前帧的频带扩展包络进行修正。
结合第一方面的第十一种实现方式,在第一方面的第十二种实现方式中,所述对所述当前帧的频带扩展包络进行修正时的修正因子与所述当前帧的前一帧的谱倾斜因子成反比,与所述当前帧的前一帧的频带扩展包络与所述当前帧的频带扩展包络的比值成正比。
结合第一方面,或第一方面的第一至十种实现方式中的任何一种,在第一方面的第十三种实现方式中,所述当前帧为冗余解码帧,所述解码参数包括频带扩展包络;
在所述当前帧的前一帧为正常解码帧时,如果所述当前帧的信号类型与所述当前帧的前一帧的信号类型相同,或所述当前帧为冗余解码的预测模式,所述对所述当前帧的解码参数进行后处理包括:
使用所述当前帧的前一帧的频带扩展包络对所述当前帧的频带扩展包络进行调整。
第二方面,提供了一种用于解码语音频码流的解码器,包括:
判断单元,用于判断当前帧是否为正常解码帧或冗余解码帧;
解析单元,用于在所述判断单元判断所述当前帧为正常解码帧或冗余解码帧时,解析获得当前帧的解码参数;
后处理单元,用于对所述解析单元获得的当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数;
恢复单元,用于使用所述后处理单元获得的当前帧的后处理的解码参数恢复语音频信号。
结合第二方面,在第二方面的第一种实现方式中,所述后处理单元,具体用于在所述当前帧的解码参数包括当前帧的频谱对参数时,使用当前帧的频谱对参数和当前帧的前一帧频谱对参数获得当前帧的后处理的频谱对参数。
结合第二方面的第一种实现方式,在第二方面的第二种实现方式中,所述后处理单元,具体用于使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1。
结合第二方面的第一种实现方式,在第二方面的第三种实现方式中,所述后处理单元,具体用于使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*st->lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≤k≤M;
其中,lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重,β为当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1。
结合第二方面的第三种实现方式,在第二方面的第四种实现方式中,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,β的取值为0或小于预设的门限值。
结合第二方面的第二至四种实现方式中的任何一种,在第二方面的第五种实现方式中,在所述当前帧的信号类型为清音,所述当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值。
结合第二方面的第二至五种实现方式中的任何一种,在第二方面的第六种实现方式中,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,δ的取值为0或小于预设的门限值。
结合第二方面的第四至六种实现方式中的任何一种,在第二方面的第七种实现方式中,所述谱倾斜因子可以为正值或负值,并且所述谱倾斜因子越小,所述谱倾斜因子对应的帧的信号类型越倾向于清音。
结合第二方面,或者第二方面的第二至七种实现方式中的任何一种,在第二方面的第八种实现方式中,所述后处理单元,具体用于在所述当前帧的解码参数包括当前帧的自适应码书增益,所述当前帧为冗余解码帧时,如果所述当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且所述当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍时,衰减所述当前帧的当前子帧的自适应码书增益。
结合第二方面,或者第二方面的第二至八种实现方式中的任何一种,在第二方面的第九种实现方式中,所述后处理单元,具体用于在所述当前帧的解码参数包括当前帧的自适应码书增益,所述当前帧或所述当前帧的前一帧为冗余解码帧,所述当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者所述当前帧的前一帧的信号类型为普通语音且所述当前帧的信号类型为浊音,并且所述当前帧中一个子帧的代数码书与所述一个子帧的前一子帧的代数码书相差第二数量倍或所述当前帧中一个子帧的代数码书与所述当前帧的前一帧的代数码书相差第二数量倍时,通过所述当前帧的当前子帧的代数码书与所述当前帧的当前子帧的相邻子帧的代数码书的比值,所述当前帧的当前子帧的自适应码书增益与所述当前帧的当前子帧的相邻子帧的自适应码书码书的比值,以及所述当前帧的当前子帧的代数码书与所述当前帧的前一帧的代数码书的比值中的至少一个,调整所述当前帧的当前子帧的自适应码书增益。
结合第二方面,或者第二方面的第二至八种实现方式中的任何一种,在第二方面的第十种实现方式中,所述后处理单元,具体用于在所述当前帧的解码参数包括当前帧的代数码书,所述当前帧为冗余解码帧,所述当前帧的下一帧的信号类型为清音,所述当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,且所述当前帧的至少一个子帧的代数码书为0时,将随机噪声或所述当前帧的当前子帧的前一子帧的非零代数码书作为所述当前帧的全为0的子帧的代数码书。
结合第二方面,或者第二方面的第二至十种实现方式中的任何一种,在第二方面的第十一种实现方式中,所述后处理单元,具体用于在所述当前帧为冗余解码帧,所述解码参数包括频带扩展包络,所述当前帧不是清音帧,所述当前帧的下一帧是清音帧,且所述当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,根据所述当前帧的前一帧的频带扩展包络和谱倾斜因子中的至少一个,对所述当前帧的频带扩展包络进行修正。
结合第二方面的第十一种实现方式,在第二方面的第十二种实现方式中,所述后处理单元在对所述当前帧的频带扩展包络进行修正时使用的修正因子与所述当前帧的前一帧的谱倾斜因子成反比,与所述当前帧的前一帧的频带扩展包络与所述当前帧的频带扩展包络的比值成正比。
结合第二方面,或者第二方面的第二至十种实现方式中的任何一种,在第二方面的第十三种实现方式中,所述后处理单元,具体用于在所述当前帧为冗余解码帧,所述解码参数包括频带扩展包络,所述当前帧的前一帧为正常解码帧,且所述当前帧的信号类型与所述当前帧的前一帧的信号类型相同或所述当前帧为冗余解码的预测模式时,使用所述当前帧的前一帧的频带扩展包络对所述当前帧的频带扩展包络进行调整。
在本发明的另一些实施例中,解码端在解析获得了当前帧的解码参数后,可以对当前帧的解码参数进行后处理,并使用当前帧的后处理的解码参数恢复出语音频信号,使得解码的信号在冗余解码帧和正常解码帧之间过渡时,能够得到稳定的质量,从而提高输出的语音频信号的质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例提供的语音频码流的解码方法的流程示意图;
图2为本发明另一个实施例提供的语音频码流的解码方法的流程示意图;
图3为本发明一个实施例提供的对语音频码流的进行解码的结脉的结构示意图;
图4为本发明一个实施例提供的对语音频码流的进行解码的结脉的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
先介绍本发明实施例提供的语音频码流的解码方法,本发明实施例提供的与音频码流的解码方法的执行主体是解码器,该解码器可以是任何需要输出语音的装置,如手机,笔记本电脑,平板电脑,个人电脑等。
图1描述了本发明一个实施例提供的语音频码流的解码方法流程,该实施例包括:
101、判断语当前帧是否为正常解码帧或冗余解码帧。
正常解码帧是指当前帧的信息能够直接从当前帧码流中解码获得;冗余解码帧是指当前帧的信息不能够直接从当前帧码流中解码获得,但是可以从其他帧码流中获得当前帧的冗余码流信息。
其中,在本发明的一个实施例中,在当前帧为正常解码帧时,只有在当前帧的前一帧为冗余解码帧时,才会执行本发明实施例提供的方法,其中当前帧的前一帧与当前帧是紧邻的两个帧。在本发明的另一个实施例中,在当前帧为正常解码帧时,只有在当前帧的前面的一定数量个帧中有冗余解码帧时,才会执行本发明实施例提供的方法,其中该一定数量可以根据需要进行设置,例如可以设置为2,3,4或10等。
102、如果当前帧为正常解码帧或冗余解码帧,解析获得当前帧的解码参数。
当前帧的解码参数可以包括频谱对参数,自适应码书增益(gain_pit),代数码书和频带扩展包络中的至少一个;其中,频谱对参数可以是线谱对(LSP:Linear SpectralPairs)参数和导抗频谱对(ISP:Immittance Spectral Pairs)参数中的至少一个。可以理解的是,本发明实施例可以只对解码参数中的任意一个参数进行后处理,也可以对所有的解码参数进行后处理,具体选择几个参数,选择哪几个参数进行后处理可以根据应用的场景和环境进行选择,本发明实施例并不做限定。
在当前帧为正常解码帧时,可以从当前帧码流中直接解码获得当前帧的信息,从而获得当前帧的解码参数。在当前帧为冗余解码帧时,可以根据其他帧码流中当前帧的冗余码流信息解析获得当前帧的解码参数。
103、对当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数。
对于不同的解码参数可能进行不同的后处理,例如,对频谱对参数进行的后处理可以是使用当前帧的频谱对参数和当前帧的前一帧频谱对参数做自适应的加权获得当前帧的后处理的频谱对参数。对自适应码书增益的后处理可以是对自适应码书增益进行调整,如衰减等。
本发明实施例不对具体的后处理进行限定,具体进行何种后处理可以根据需要或者根据应用的环境和场景进行设定。
104、使用当前帧的后处理的解码参数恢复语音频信号。
从上可知,本实施例中解码端在解析获得了当前帧的解码参数后,可以对当前帧的解码参数进行后处理,并使用当前帧的后处理的解码参数恢复出语音频信号,使得解码的信号在冗余解码帧和正常解码帧之间过渡时,能够得到稳定的质量,从而提高输出的语音频信号的质量。
在本发明的一个实施例中,当前帧的解码参数包括了当前帧的频谱对参数,则对当前帧的解码参数进行后处理可以包括:使用当前帧的频谱对参数和当前帧的前一帧频谱对参数获得当前帧的后处理的频谱对参数,具体地,可以使用当前帧的频谱对参数和当前帧的前一帧频谱对参数自适应加权获得当前帧的后处理的频谱对参数。具体地,在本发明的一个实施例中,可以使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重。其中,α≥0,δ≥0,且α+δ=1。
在本发明的另一个实施例中,可以使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≤k≤M;
其中,lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对的阶数,α为前一帧的频谱对参数的权重,β为当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重。其中,α≥0,β≥0,δ≥0,且α+β+δ=1。
根据不同的应用环境和场景,上述公式中的α,β和δ的取值会有不同。例如,在当前帧的信号类型为清音,当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值(α_TRESH),α_TRESH的取值可以接近于0。在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,β的取值为0或小于预设的门限值(β_TRESH),β_TRESH的取值可以接近于0。在当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,δ的取值为0或小于预设的门限值(δ_TRESH),δ_TRESH的取值可以接近于0。
其中,谱倾斜因子可以为正值或负值,并且一个帧的谱倾斜因子越小,则说明这个帧的信号类型越倾向于清音。
其中,当前帧的信号类型可以是清音(UNVOICED),浊音(VOICED)、普通语音(GENERIC),过渡语音(TRANSITION)或静默音(INACTIVE)等。
其中,谱倾斜因子可以为正值或负值,并且一个帧的谱倾斜因子越小,则说明这个帧的信号类型越倾向于清音。
因此,谱倾斜因子门限值的取值可以根据引用的环境和场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,当前帧的解码参数可以包括当前帧的自适应码书增益,在当前帧为冗余解码帧时,如果当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍,对当前帧的解码参数进行后处理可以包括:衰减当前帧的当前子帧的自适应码书增益。在当前帧或当前帧的前一帧为冗余解码帧时,如果当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者当前帧的前一帧的信号类型为普通语音且当前帧的信号类型为浊音,并且当前帧中一个子帧的代数码书与该一个子帧的前一子帧的代数码书相差第二数量倍或当前帧中一个子帧的代数码书与当前帧的前一帧的代数码书相差第二数量倍时,对当前帧的解码参数进行后处理可以包括:通过当前帧的当前子帧的代数码书与当前帧的当前子帧的相邻子帧的代数码书的比值,当前帧的当前子帧的自适应码书增益与当前帧的当前子帧的相邻子帧的自适应码书码书的比值,以及当前帧的当前子帧的代数码书与当前帧的前一帧的代数码书的比值中的至少一个,调整当前帧的当前子帧的自适应码书增益。
其中,第一数量和第二数量的取值可以根据根据具体的使用环境和场景进行设置,其取值可以是整数也可以是非整数;其中,第一数量和第二数量的取值可以相同也可以不相同。例如,第一数量的取值可以为2,2.5,3,3.4或4等,第二数量的取值可以为2,2.6,3,3.5或4等。
其中,在对当前帧的当前子帧的自适应码书增益进行衰减时的衰减因子可以根据应用的环境和场景的不同设置不同的值。
在本发明的另一个实施例中,当前帧的解码参数包括了当前帧的代数码书;在当前帧为冗余解码帧时,如果当前帧的下一帧的信号类型为清音,当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,且当前帧的至少一个子帧的代数码书为0,则对当前帧的解码参数进行后处理包括:将随机噪声或当前帧的当前子帧的前一子帧的非零代数码书作为当前帧全为0的子帧的代数码书。其中,谱倾斜因子门限值可以根据应用的环境或场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,当前帧的解码参数包括了当前帧的频带扩展包络;在当前帧为冗余解码帧,当前帧不是清音帧,且当前帧的下一帧是清音帧时,如果当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,则对当前帧的解码参数进行后处理可以包括:根据当前帧的前一帧的频带扩展包络和谱倾斜因子中的至少一个,对当前帧的频带扩展包络进行修正。其中,对当前帧的频带扩展包络进行修正时的修正因子与当前帧的前一帧的谱倾斜因子成反比,与当前帧的前一帧的频带扩展包络与当前帧的频带扩展包络的比值成正比。其中,谱倾斜因子门限值可以根据应用的环境或场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,当前帧的解码参数包括了当前帧的频带扩展包络;如果当前帧为冗余解码帧,当前帧的前一帧为正常解码帧,当前帧的信号类型与当前帧的前一帧的信号类型相同或当前帧为冗余解码的预测模式,则对当前帧的解码参数进行后处理包括:使用当前帧的前一帧的频带扩展包络对当前帧的频带扩展包络进行调整。其中,冗余解码的预测模式表示的是编码冗余码流信息时,使用了更多的比特编码自适应码数增益部分,用更少的比特编码代数码书部分,甚至可以不编码代数码书部分。
从上可知,本发明的一个实施例在清音帧和非清音帧之间过渡(当前帧为清音帧并且为冗余解码帧时,当前帧的前一帧或后一帧为非清音帧并且为正常解码帧,或当前帧为非清音帧且为正常解码帧,当前帧的前一帧或后一帧为清音帧并且为冗余解码帧)时,能够对当前帧的解码参数进行后处理,从而能够去掉清音帧和非清音帧帧间过渡时的咔咔声(click)现象,从而提高输出的语音频信号的质量。本发明的另一个实施例在普通语音帧与浊音帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,当前帧的前一帧或后一帧为浊音帧并且为正常解码帧,或当前帧为浊音帧且为正常解码帧,当前帧的前一帧或后一帧为普通语音帧并且为冗余解码帧)时,能够对当前帧的解码参数进行后处理,从而能够纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。本发明的另一个实施例中,能够在当前帧为冗余解码帧,当前帧不是清音帧,且当前帧的下一帧是清音帧时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
图2描述了本发明另一个实施例提供的语音频码流的解码方法流程,该实施例包括:
201、判断当前帧的是否为正常解码帧;如果是,进入步骤204;如果否,进入步骤202。
具体地,可以基于抖动缓冲管理(JBM:Jitter Buffer Management)算法判断当前帧是否为正常解码帧。
202、判断当前帧的冗余码流信息是否存在;如果是,进入步骤204;如果否,进入步骤203。
如果当前帧的冗余码流信息存在,则当前帧为冗余解码帧。具体地,可以从抖动缓冲器(jitter buffer)或已收到的码流里确定当前帧的冗余码流信息是否存在。
203、基于FEC技术恢复当前帧的语音频信号;结束流程。
204、解析获得当前帧的解码参数。
在当前帧为正常解码帧时,可以从当前帧码流中直接解码获得当前帧的信息,从而获得当前帧的解码参数。在当前帧为冗余解码帧时,可以根据当前帧的冗余码流信息解析获得当前帧的解码参数。
205、对当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数。
206、使用当前帧的后处理的解码参数恢复语音频信号。
其中,步骤204-206可以参考步骤102-104执行,此处不再赘述。
从上可知,本实施例中解码端在解析获得了当前帧的解码参数后,可以对当前帧的解码参数进行后处理,并使用当前帧的后处理的解码参数恢复出语音频信号,使得解码的信号在冗余解码帧和正常解码帧之间过渡时,能够得到稳定的质量,从而提高输出的语音频信号的质量。
在本发明实施例中,解码器解析获得的当前帧的解码参数可以包括当前帧的频谱对参数、当前帧的自适应码书增益、当前帧的代数码书和当前帧的频带扩展包络中的至少一个,可以理解的是,即使解码器解析获得了解码参数中的至少两个,解码器也可以只对其中的一个解码参数进行后处理,因此,解码器具体对几个解码参数,以及对哪些解码参数进行后处理可以根据应用的环境和场景进行设置。
如下介绍本发明实施例提供的用于解码语音频码流的解码器,该解码器具体可以是任何需要输出语音的装置,如手机,笔记本电脑,平板电脑,个人电脑等。
图3描述了本发明一个实施例提供的用于解码语音频码流的解码器的结构,该解码器包括:
判断单元301,用于判断当前帧是否为正常解码帧。
正常解码帧是指当前帧的信息能够直接从当前帧码流中解码获得;冗余解码帧是指当前帧的信息不能够直接从当前帧码流中解码获得,但是可以从其他帧码流中获得当前帧的冗余码流信息。
其中,在本发明的一个实施例中,在当前帧为正常解码帧时,只有在当前帧的前一帧为冗余解码帧时,才会执行本发明实施例提供的方法,其中当前帧的前一帧与当前帧是紧邻的两个帧。在本发明的另一个实施例中,在当前帧为正常解码帧时,只有在当前帧的前面的一定数量个帧中有冗余解码帧时,才会执行本发明实施例提供的方法,其中该一定数量可以根据需要进行设置,例如可以设置为2,3,4或10等。
解析单元302,用于在判断单元301判断当前帧为正常解码帧或冗余解码帧时,解析获得当前帧的解码参数。
当前帧的解码参数可以包括频谱对参数,自适应码书增益(gain_pit),代数码书和频带扩展包络中的至少一个;其中,频谱对参数可以是线谱对(LSP:Linear SpectralPairs)参数和导抗频谱对(ISP:Immittance Spectral Pairs)参数中的至少一个。可以理解的是,本发明实施例可以只对解码参数中的任意一个参数进行后处理,也可以对所有的解码参数进行后处理,具体选择几个参数,选择哪几个参数进行后处理可以根据应用的场景和环境进行选择,本发明实施例并不做限定。
在当前帧为正常解码帧时,可以从当前帧码流中直接解码获得当前帧的信息,从而获得当前帧的解码参数。在当前帧为冗余解码帧时,可以根据其他帧码流中当前帧的冗余码流信息解析获得当前帧的解码参数。
后处理单元303,用于对解析单元302获得的当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数。
对于不同的解码参数可能进行不同的后处理,例如,对频谱对参数进行的后处理可以是使用当前帧的频谱对参数和当前帧的前一帧频谱对参数做自适应的加权获得当前帧的后处理的频谱对参数。对自适应码书增益的后处理可以是对自适应码书增益进行调整,如衰减等。
本发明实施例不对具体的后处理进行限定,具体进行何种后处理可以根据需要或者根据应用的环境和场景进行设定。
恢复单元304,用于使用后处理单元303获得的当前帧的后处理的解码参数恢复语音频信号。
从上可知,本实施例中解码端在解析获得了当前帧的解码参数后,可以对当前帧的解码参数进行后处理,并使用当前帧的后处理的解码参数恢复出语音频信号,使得解码的信号在冗余解码帧和正常解码帧之间过渡时,能够得到稳定的质量,从而提高输出的语音频信号的质量。
在本发明的另一个实施例中,解码参数包括频谱对参数,则后处理单元303,具体可以用于在当前帧的解码参数包括当前帧的频谱对参数时,使用当前帧的频谱对参数和当前帧的前一帧频谱对参数获得当前帧的后处理的频谱对参数,具体地,可以使用当前帧的频谱对参数和当前帧的前一帧频谱对参数自适应加权获得当前帧的后处理的频谱对参数。具体地,在本发明的一个实施例中,后处理单元303,可以使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重。其中,α≥0,δ≥0。
在本发明的一个实施例中,后处理单元303,可以使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*st->lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≤k≤M;
其中,lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对的阶数,α为前一帧的频谱对参数的权重,β为当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重。其中,α≥0,β≥0,δ≥0。
根据不同的应用环境和场景,上述公式中的α,β和δ的取值会有不同。例如,在当前帧的信号类型为清音,当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值(α_TRESH),α_TRESH的取值可以接近于0。在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,β的取值为0或小于预设的门限值(β_TRESH),β_TRESH的取值可以接近于0。在当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,δ的取值为0或小于预设的门限值(δ_TRESH),δ_TRESH的取值可以接近于0。
其中,谱倾斜因子可以为正值或负值,并且一个帧的谱倾斜因子越小,则说明这个帧的信号类型越倾向于清音。
其中,当前帧的信号类型可以是清音(UNVOICED),浊音(VOICED)、普通语音(GENERIC),过渡语音(TRANSITION)或静默音(INACTIVE)等。
其中,谱倾斜因子可以为正值或负值,并且一个帧的谱倾斜因子越小,则说明这个帧的信号类型越倾向于清音。
因此,谱倾斜因子门限值的取值可以根据引用的环境和场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,后处理单元303,具体用于在当前帧的解码参数包括当前帧的自适应码书增益,在当前帧为冗余解码帧时,如果当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍时,衰减当前帧的当前子帧的自适应码书增益。
其中,在对当前帧的当前子帧的自适应码书增益进行衰减时的衰减因子可以根据应用的环境和场景的不同设置不同的值。
其中,第一数量的取值可以根据根据具体的使用环境和场景进行设置,其取值可以是整数也可以是非整数。例如,第一数量的取值可以为2,2.5,3,3.4或4等。
在本发明的另一个实施例中,后处理单元303,具体用于在当前帧的解码参数包括当前帧的自适应码书增益,当前帧或当前帧的前一帧为冗余解码帧,当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者当前帧的前一帧的信号类型为普通语音且当前帧的信号类型为浊音,并且当前帧中一个子帧的代数码书与该一个子帧的前一子帧的代数码书相差第二数量倍或当前帧中一个子帧的代数码书与当前帧的前一帧的代数码书相差第二数量倍时,通过当前帧的当前子帧的代数码书与当前帧的当前子帧的相邻子帧的代数码书的比值,当前帧的当前子帧的自适应码书增益与当前帧的当前子帧的相邻子帧的自适应码书码书的比值中,以及当前帧的当前子帧的代数码书与当前帧的前一帧的代数码书的比值中的至少一个,调整当前帧的当前子帧的自适应码书增益。
其中,第二数量的取值可以根据根据具体的使用环境和场景进行设置,其取值可以是整数也可以是非整数。例如,第二数量的取值可以为2,2.6,3,3.5或4等。
在本发明的另一个实施例中,后处理单元303,具体用于在当前帧的解码参数包括当前帧的代数码书,当前帧为冗余解码帧,当前帧的下一帧的信号类型为清音,当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,且当前帧的至少一个子帧的代数码书为0时,将随机噪声或所述当前帧的当前子帧的前一子帧的非零代数码书作为当前帧的全为0的子帧的代数码书。其中,谱倾斜因子门限值可以根据应用的环境或场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,后处理单元303,具体用于在当前帧为冗余解码帧,解码参数包括频带扩展包络,当前帧不是清音帧,当前帧的下一帧是清音帧,且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,根据当前帧的前一帧的频带扩展包络和谱倾斜因子中的至少一个,对当前帧的频带扩展包络进行修正。其中,对当前帧的频带扩展包络进行修正时的修正因子与当前帧的前一帧的谱倾斜因子成反比,与当前帧的前一帧的频带扩展包络与当前帧的频带扩展包络的比值成正比。其中,谱倾斜因子门限值可以根据应用的环境或场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,后处理单元303,具体用于在当前帧为冗余解码帧,解码参数包括频带扩展包络,当前帧的前一帧为正常解码帧,且当前帧的信号类型与当前帧的前一帧的信号类型相同或当前帧为冗余解码的预测模式时,使用当前帧的前一帧的频带扩展包络对当前帧的频带扩展包络进行调整。
从上可知,本发明的一个实施例在清音帧和非清音帧之间过渡(当前帧为清音帧并且为冗余解码帧时,当前帧的前一帧或后一帧为非清音帧并且为正常解码帧,或当前帧为非清音帧且为正常解码帧,当前帧的前一帧或后一帧为清音帧并且为冗余解码帧)时,能够对当前帧的解码参数进行后处理,从而能够去掉清音帧和非清音帧帧间过渡时的click现象,从而提高输出的语音频信号的质量。本发明的另一个实施例在普通语音帧与浊音帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,当前帧的前一帧或后一帧为浊音帧并且为正常解码帧,或当前帧为浊音帧且为正常解码帧,当前帧的前一帧或后一帧为普通语音帧并且为冗余解码帧)时,能够对当前帧的解码参数进行后处理,从而能够纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。本发明的另一个实施例中,能够在当前帧为冗余解码帧,当前帧不是清音帧,且当前帧的下一帧是清音帧时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
图4描述了本发明另一个实施例提供的用于解码语音频码流的解码器的结构,该解码器包括:至少一个总线401、与总线401相连的至少一个处理器402以及与总线401相连的至少一个存储器403。
其中,处理器402通过总线401,调用存储器403中存储的代码以用于判断当前帧是否为正常解码帧或冗余解码帧;如果当前帧为正常解码帧或冗余解码帧,解析获得当前帧的解码参数;对当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数;使用当前帧的后处理的解码参数恢复语音频信号。
从上可知,本实施例中解码端在解析获得了当前帧的解码参数后,可以对当前帧的解码参数进行后处理,并使用当前帧的后处理的解码参数恢复出语音频信号,使得解码的信号在冗余解码帧和正常解码帧之间过渡时,能够得到稳定的质量,从而提高输出的语音频信号的质量。
在本发明的一个实施例中,当前帧的解码参数包括了当前帧的频谱对参数,则处理器402通过总线401,调用存储器403中存储的代码以用于使用当前帧的频谱对参数和当前帧的前一帧频谱对参数获得当前帧的后处理的频谱对参数,具体地,可以使用当前帧的频谱对参数和当前帧的前一帧频谱对参数自适应加权获得当前帧的后处理的频谱对参数。具体地,在本发明的一个实施例中,可以使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k] 0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重。其中,α≥0,δ≥0。
在本发明的另一个实施例中,可以使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k] 0≤k≤M;
其中,lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对的阶数,α为前一帧的频谱对参数的权重,β当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重。其中,α≥0,β≥0,δ≥0。
根据不同的应用环境和场景,上述公式中的α,β和δ的取值会有不同。例如,在当前帧的信号类型为清音,当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值(α_TRESH),α_TRESH的取值可以接近于0。在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,β的取值为0或小于预设的门限值(β_TRESH),β_TRESH的取值可以接近于0。在当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,δ的取值为0或小于预设的门限值(δ_TRESH),δ_TRESH的取值可以接近于0。
其中,谱倾斜因子可以为正值或负值,并且一个帧的谱倾斜因子越小,则说明这个帧的信号类型越倾向于清音。
其中,当前帧的信号类型可以是清音(UNVOICED),浊音(VOICED)、普通语音(GENERIC),过渡语音(TRANSITION)或静默音(INACTIVE)等。
其中,谱倾斜因子可以为正值或负值,并且一个帧的谱倾斜因子越小,则说明这个帧的信号类型越倾向于清音。
因此,谱倾斜因子门限值的取值可以根据引用的环境和场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,当前帧的解码参数可以包括当前帧的自适应码书增益,在当前帧为冗余解码帧时,如果当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍时,处理器402通过总线401,调用存储器403中存储的代码以用于衰减当前帧的当前子帧的自适应码书增益。在当前帧或当前帧的前一帧为冗余解码帧时,如果当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者当前帧的前一帧的信号类型为普通语音且当前帧的信号类型为浊音,并且当前帧中一个子帧的代数码书与该一个子帧的前一子帧的代数码书相差第二数量倍或当前帧中一个子帧的代数码书与当前帧的前一帧的代数码书相差第二数量倍时,对当前帧的解码参数进行后处理可以包括:通过当前帧的当前子帧的代数码书与当前帧的当前子帧的相邻子帧的代数码书的比值,当前帧的当前子帧的自适应码书增益与当前帧的当前子帧的相邻子帧的自适应码书码书的比值中,以及当前帧的当前子帧的代数码书与当前帧的前一帧的代数码书的比值中的至少一个,调整当前帧的当前子帧的自适应码书增益。
其中,第一数量和第二数量的取值可以根据根据具体的使用环境和场景进行设置,其取值可以是整数也可以是非整数;其中,第一数量和第二数量的取值可以相同也可以不相同。例如,第一数量的取值可以为2,2.5,3,3.4或4等,第二数量的取值可以为2,2.6,3,3.5或4等。
其中,在对当前帧的当前子帧的自适应码书增益进行衰减时的衰减因子可以根据应用的环境和场景的不同设置不同的值。
在本发明的另一个实施例中,当前帧的解码参数包括了当前帧的代数码书;在当前帧为冗余解码帧时,如果当前帧的下一帧的信号类型为清音,当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,且当前帧的至少一个子帧的代数码书为0时,处理器402通过总线401,调用存储器403中存储的代码以用于将随机噪声或当前帧的当前子帧的前一子帧的非零代数码书作为当前帧的全为0的子帧的代数码书。其中,谱倾斜因子门限值可以根据应用的环境或场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,当前帧的解码参数包括了当前帧的频带扩展包络;在当前帧为冗余解码帧,当前帧不是清音帧,且当前帧的下一帧是清音帧时,当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值时,则处理器402通过总线401,调用存储器403中存储的代码以用于根据当前帧的前一帧的频带扩展包络和谱倾斜因子中的至少一个,对当前帧的频带扩展包络进行修正。其中,对当前帧的频带扩展包络进行修正时的修正因子与当前帧的前一帧的谱倾斜因子成反比,与当前帧的前一帧的频带扩展包络与当前帧的频带扩展包络的比值成正比。其中,谱倾斜因子门限值可以根据应用的环境或场景的不同而设置不同的值,例如可以设置为0.16,0.15,0.165,0.1,0.161或0.159等。
在本发明的另一个实施例中,当前帧的解码参数包括了当前帧的频带扩展包络;如果前帧为冗余解码帧,当前帧的前一帧为正常解码帧,当前帧的信号类型与当前帧的前一帧的信号类型相同或当前帧为冗余解码的预测模式,则处理器402通过总线401,调用存储器403中存储的代码以用于使用当前帧的前一帧的频带扩展包络对当前帧的频带扩展包络进行调整。
从上可知,本发明的一个实施例在清音帧和非清音帧之间过渡(当前帧为清音帧并且为冗余解码帧时,当前帧的前一帧或后一帧为非清音帧并且为正常解码帧,或当前帧为非清音帧且为正常解码帧,当前帧的前一帧或后一帧为清音帧并且为冗余解码帧)时,能够对当前帧的解码参数进行后处理,从而能够去掉清音帧和非清音帧帧间过渡时的click现象,从而提高输出的语音频信号的质量。本发明的另一个实施例在普通语音帧与浊音帧之间过渡(当前帧为普通语音帧并且为冗余解码帧时,当前帧的前一帧或后一帧为浊音帧并且为正常解码帧,或当前帧为浊音帧且为正常解码帧,当前帧的前一帧或后一帧为普通语音帧并且为冗余解码帧)时,能够对当前帧的解码参数进行后处理,从而能够纠正普通语音帧和浊音帧之间过渡时的能量不稳定现象,从而提高输出的语音频信号的质量。本发明的另一个实施例中,能够在当前帧为冗余解码帧,当前帧不是清音帧,且当前帧的下一帧是清音帧时,对当前帧的频带扩展包络进行调整,从而修正时域频带扩展的能量不稳定现象,提高输出的语音频信号的质量。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的语音频码流的解码方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (20)

1.一种语音频码流的解码方法,其特征在于,包括:
判断当前帧的类型;
如果所述当前帧为冗余解码帧,或者,如果所述当前帧为正常解码帧,且所述当前帧的前一帧为冗余解码帧时,解析获得所述当前帧的解码参数;
对所述当前帧的解码参数进行后处理,获得所述当前帧的后处理的解码参数;
使用当前帧的后处理的解码参数恢复语音频信号;
其中,所述当前帧的解码参数包括所述当前帧的频谱对参数,所述对所述当前帧的解码参数进行后处理包括:
使用所述当前帧的频谱对参数和所述当前帧的前一帧的频谱对参数获得所述当前帧的后处理的频谱对参数。
2.根据权利要求1所述的方法,其特征在于,具体使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1。
3.根据权利要求1所述的方法,其特征在于,具体使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤M;
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重,β为当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1。
4.根据权利要求3所述的方法,其特征在于,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,β的取值为0或小于预设的门限值。
5.根据权利要求2至4任一所述的方法,其特征在于,在所述当前帧的信号类型为清音,所述当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值。
6.根据权利要求2至4任一所述的方法,其特征在于,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,δ的取值为0或小于预设的门限值。
7.根据权利要6所述的方法,其特征在于,所述谱倾斜因子可以为正值或负值,并且所述谱倾斜因子越小,所述谱倾斜因子对应的帧的信号类型越倾向于清音。
8.根据权利要求1所述的方法,其特征在于,所述当前帧的解码参数还包括当前帧的自适应码书增益。
9.根据权利要求8所述的方法,其特征在于,还包括:
在所述当前帧为冗余解码帧时,如果当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且所述当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍,则衰减所述当前帧的当前子帧的自适应码书增益。
10.根据权利要求8或9所述的方法,其特征在于,还包括:
在所述当前帧或所述当前帧的前一帧为冗余解码帧时,如果当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者所述当前帧的前一帧的信号类型为普通语音且所述当前帧的信号类型为浊音,并且所述当前帧中一个子帧的代数码书与所述一个子帧的前一子帧的代数码书相差第二数量倍或所述当前帧中一个子帧的代数码书与所述当前帧的前一帧的代数码书相差第二数量倍,则通过所述当前帧的当前子帧的代数码书与所述当前帧的当前子帧的相邻子帧的代数码书的比值,所述当前帧的当前子帧的自适应码书增益与所述当前帧的当前子帧的相邻子帧的自适应码书增益的比值以及所述当前帧的当前子帧的代数码书与所述当前帧的前一帧的代数码书的比值中的至少一个,调整所述当前帧的当前子帧的自适应码书增益。
11.一种用于解码语音频码流的解码器,其特征在于,包括:
判断单元,用于判断当前帧的类型;
解析单元,用于在所述判断单元判断所述当前帧为冗余解码帧,或者所述当前帧为正常解码帧,且所述当前帧的前一帧为冗余解码帧时,解析获得当前帧的解码参数;
后处理单元,用于对所述解析单元获得的当前帧的解码参数进行后处理,获得当前帧的后处理的解码参数;
恢复单元,用于使用所述后处理单元获得的当前帧的后处理的解码参数恢复语音频信号;
其中,所述当前帧的解码参数包括当前帧的频谱对参数,所述后处理单元,具体用于使用当前帧的频谱对参数和当前帧的前一帧频谱对参数获得当前帧的后处理的频谱对参数。
12.根据权利要求11所述的解码器,其特征在于,所述后处理单元,具体用于使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*lsp_old[k]+δ*lsp_new[k]0≤k≤M
lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重和δ为当前帧的频谱对参数的权重,α≥0,δ≥0,且α+δ=1。
13.根据权利要求11所述的解码器,其特征在于,所述后处理单元,具体用于使用如下公式计算获得当前帧的后处理的频谱对参数:
lsp[k]=α*st->lsp_old[k]+β*lsp_mid[k]+δ*lsp_new[k]0≤k≤M;
其中,lsp[k]为当前帧的后处理的频谱对参数,lsp_old[k]为前一帧的频谱对参数,lsp_mid[k]为当前帧的频谱对参数的中间值,lsp_new[k]为当前帧的频谱对参数,M为频谱对参数的阶数,α为前一帧的频谱对参数的权重,β为当前帧的频谱对参数的中间值的权重和δ为当前帧的频谱对参数的权重,α≥0,β≥0,δ≥0,且α+β+δ=1。
14.根据权利要求13所述的解码器,其特征在于,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,β的取值为0或小于预设的门限值。
15.根据权利要求12至14任一所述的解码器,其特征在于,在所述当前帧的信号类型为清音,所述当前帧的前一帧为冗余解码帧,且所述当前帧的前一帧的信号类型不为清音时,α的取值为0或小于预设的门限值。
16.根据权利要求12至14任一所述的解码器,其特征在于,在所述当前帧为冗余解码帧,且当前帧的信号类型不为清音时,如果当前帧的后一帧的信号类型为清音,或者当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,或者当前帧的后一帧的信号类型为清音且当前帧的前一帧的谱倾斜因子小于预设的谱倾斜因子门限值,δ的取值为0或小于预设的门限值。
17.根据权利要求16所述的解码器,其特征在于,所述谱倾斜因子可以为正值或负值,并且所述谱倾斜因子越小,所述谱倾斜因子对应的帧的信号类型越倾向于清音。
18.根据权利要求11所述的解码器,其特征在于,所述当前帧的解码参数还包括当前帧的自适应码书增益,所述后处理单元,还用于调整所述当前帧的自适应码书增益。
19.根据权利要求18所述的解码器,其特征在于,所述后处理单元用于在所述当前帧为冗余解码帧时,如果所述当前帧的下一帧是清音帧,或者当前帧的下一帧的下一帧为清音帧且所述当前帧的当前子帧的代数码书是当前子帧的前一子帧的代数码书或当前帧的前一帧的代数码书的第一数量倍时,衰减所述当前帧的当前子帧的自适应码书增益。
20.根据权利要求18或19所述的解码器,其特征在于,所述后处理单元,具体用于在所述当前帧或所述当前帧的前一帧为冗余解码帧,所述当前帧的信号类型为普通语音且当前帧的下一帧的信号类型为浊音或者所述当前帧的前一帧的信号类型为普通语音且所述当前帧的信号类型为浊音,并且所述当前帧中一个子帧的代数码书与所述一个子帧的前一子帧的代数码书相差第二数量倍或所述当前帧中一个子帧的代数码书与所述当前帧的前一帧的代数码书相差第二数量倍时,通过所述当前帧的当前子帧的代数码书与所述当前帧的当前子帧的相邻子帧的代数码书的比值,所述当前帧的当前子帧的自适应码书增益与所述当前帧的当前子帧的相邻子帧的自适应码书增益的比值,以及所述当前帧的当前子帧的代数码书与所述当前帧的前一帧的代数码书的比值中的至少一个,调整所述当前帧的当前子帧的自适应码书增益。
CN201310751997.XA 2013-12-31 2013-12-31 语音频码流的解码方法及装置 Active CN104751849B (zh)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN201310751997.XA CN104751849B (zh) 2013-12-31 2013-12-31 语音频码流的解码方法及装置
KR1020187005229A KR101941619B1 (ko) 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치
EP14876788.2A EP3076390B1 (en) 2013-12-31 2014-07-04 Method and device for decoding speech and audio streams
KR1020167018932A KR101833409B1 (ko) 2013-12-31 2014-07-04 음성/오디오 비트스트림 디코딩 방법 및 장치
EP19172920.1A EP3624115A1 (en) 2013-12-31 2014-07-04 Method and apparatus for decoding speech/audio bitstream
PCT/CN2014/081635 WO2015100999A1 (zh) 2013-12-31 2014-07-04 语音频码流的解码方法及装置
ES14876788T ES2756023T3 (es) 2013-12-31 2014-07-04 Método y dispositivo para decodificar un flujo de bits de voz y audio
JP2016543574A JP6475250B2 (ja) 2013-12-31 2014-07-04 音声/オーディオビットストリームを復号するための方法及び装置
US15/197,364 US9734836B2 (en) 2013-12-31 2016-06-29 Method and apparatus for decoding speech/audio bitstream
US15/635,690 US10121484B2 (en) 2013-12-31 2017-06-28 Method and apparatus for decoding speech/audio bitstream

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310751997.XA CN104751849B (zh) 2013-12-31 2013-12-31 语音频码流的解码方法及装置

Publications (2)

Publication Number Publication Date
CN104751849A CN104751849A (zh) 2015-07-01
CN104751849B true CN104751849B (zh) 2017-04-19

Family

ID=53493122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310751997.XA Active CN104751849B (zh) 2013-12-31 2013-12-31 语音频码流的解码方法及装置

Country Status (7)

Country Link
US (2) US9734836B2 (zh)
EP (2) EP3076390B1 (zh)
JP (1) JP6475250B2 (zh)
KR (2) KR101941619B1 (zh)
CN (1) CN104751849B (zh)
ES (1) ES2756023T3 (zh)
WO (1) WO2015100999A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2951819T (pt) * 2013-01-29 2017-06-06 Fraunhofer Ges Forschung Aparelho, método e meio computacional para sintetizar um sinal de áudio
CN104751849B (zh) * 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369453B (zh) * 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
WO2019083055A1 (ko) 2017-10-24 2019-05-02 삼성전자 주식회사 기계학습을 이용한 오디오 복원 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007698A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
CN101261836A (zh) * 2008-04-25 2008-09-10 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
CN102726034A (zh) * 2011-07-25 2012-10-10 华为技术有限公司 一种参数域回声控制装置和方法

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
CA2335003C (en) 1999-04-19 2009-02-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6973425B1 (en) * 1999-04-19 2005-12-06 At&T Corp. Method and apparatus for performing packet loss or Frame Erasure Concealment
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7069208B2 (en) 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
US7486719B2 (en) 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
US6985856B2 (en) 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20060088093A1 (en) * 2004-10-26 2006-04-27 Nokia Corporation Packet loss compensation
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
JPWO2008007696A1 (ja) 2006-07-13 2009-12-10 三菱瓦斯化学株式会社 フルオロアミンの製造方法
CN102682775B (zh) 2006-11-10 2014-10-08 松下电器(美国)知识产权公司 参数解码方法及参数解码装置
KR20080075050A (ko) 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
CN101256774B (zh) 2007-03-02 2011-04-13 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统
US8364472B2 (en) * 2007-03-02 2013-01-29 Panasonic Corporation Voice encoding device and voice encoding method
JP5012897B2 (ja) 2007-07-09 2012-08-29 日本電気株式会社 音声パケット受信装置、音声パケット受信方法、およびプログラム
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
BR122021009252B1 (pt) 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MY181247A (en) 2008-07-11 2020-12-21 Frauenhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
MX2011000375A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
CN101777963B (zh) * 2009-12-29 2013-12-11 电子科技大学 一种基于反馈模式的帧级别编码与译码方法
CN101894558A (zh) 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
WO2012158159A1 (en) * 2011-05-16 2012-11-22 Google Inc. Packet loss concealment for audio codec
CN102438152B (zh) * 2011-12-29 2013-06-19 中国科学技术大学 可伸缩视频编码容错传输方法、编码器、装置和系统
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN102760440A (zh) 2012-05-02 2012-10-31 中兴通讯股份有限公司 语音信号的发送、接收装置及方法
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN107369453B (zh) 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007698A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
CN101261836A (zh) * 2008-04-25 2008-09-10 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
CN102726034A (zh) * 2011-07-25 2012-10-10 华为技术有限公司 一种参数域回声控制装置和方法

Also Published As

Publication number Publication date
KR20180023044A (ko) 2018-03-06
JP2017504832A (ja) 2017-02-09
ES2756023T3 (es) 2020-04-24
KR20160096191A (ko) 2016-08-12
US10121484B2 (en) 2018-11-06
US9734836B2 (en) 2017-08-15
US20160343382A1 (en) 2016-11-24
KR101833409B1 (ko) 2018-02-28
JP6475250B2 (ja) 2019-02-27
EP3076390A1 (en) 2016-10-05
CN104751849A (zh) 2015-07-01
EP3076390A4 (en) 2016-12-21
EP3624115A1 (en) 2020-03-18
WO2015100999A1 (zh) 2015-07-09
KR101941619B1 (ko) 2019-01-23
US20170301361A1 (en) 2017-10-19
EP3076390B1 (en) 2019-09-11

Similar Documents

Publication Publication Date Title
CN104751849B (zh) 语音频码流的解码方法及装置
CN104934035B (zh) 语音频码流的解码方法及装置
CN104517610B (zh) 频带扩展的方法及装置
CN101964189A (zh) 语音频信号切换方法及装置
CN104299614B (zh) 解码方法和解码装置
CN101548319A (zh) 后置滤波器以及滤波方法
CN105096957B (zh) 处理信号的方法及设备
CN104301064B (zh) 处理丢失帧的方法和解码器
CN104240715B (zh) 用于恢复丢失数据的方法和设备
CN104637486B (zh) 一种数据帧的内插方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant