CN107424621B - 音频编码方法和装置 - Google Patents

音频编码方法和装置 Download PDF

Info

Publication number
CN107424621B
CN107424621B CN201710188022.9A CN201710188022A CN107424621B CN 107424621 B CN107424621 B CN 107424621B CN 201710188022 A CN201710188022 A CN 201710188022A CN 107424621 B CN107424621 B CN 107424621B
Authority
CN
China
Prior art keywords
energy
audio frame
audio
audio frames
sparsity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710188022.9A
Other languages
English (en)
Other versions
CN107424621A (zh
Inventor
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710188022.9A priority Critical patent/CN107424621B/zh
Publication of CN107424621A publication Critical patent/CN107424621A/zh
Application granted granted Critical
Publication of CN107424621B publication Critical patent/CN107424621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Abstract

本发明实施例提供音频编码的方法和装置,包括:确定输入的N个音频帧的能量在频谱上分布的稀疏性,其中该N个音频帧包括当前音频帧,N为正整数;根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,其中该第一编码方法为基于时频变换和变换系数量化且不基于线性预测的编码方法,该第二编码方法为基于线性预测的编码方法。上述技术方案在对音频帧进行编码时,考虑了该音频帧的能量在频谱上分布的稀疏性,能够降低编码的复杂度,同时能够保证编码具有较高的准确率。

Description

音频编码方法和装置
技术领域
本发明实施例涉及信号处理技术领域,并且更具体地,涉及音频编码方法和装置。
背景技术
现有技术中,通常采用混合编码器对语音通信系统中的音频信号进行编码。具体地,该混合编码器通常包括两个子编码器,一个子编码器适合对语音信号进行编码,另一个编码器适合对非语音信号进行编码。对于接收到的音频信号,混合编码器中的每一个子编码器都会对该音频信号进行编码。混合编码器直接比较编码后的音频信号的质量好坏来选择最优的子编码器。但是这种闭环的编码方法的运算复杂度很高。
发明内容
本发明实施例提供的音频编码的方法和装置,能够降低编码的复杂度,同时能够保证编码具有较高的准确率。
第一方面,一种音频编码的方法,该方法包括:确定输入的N个音频帧的能量在频谱上分布的稀疏性,其中该N个音频帧包括当前音频帧,N为正整数;根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,其中该第一编码方法为基于时频变换和变换系数量化且不基于线性预测的编码方法,该第二编码方法为基于线性预测的编码方法。
结合第一方面,在第一方面的第一种可能的实现方式中,该确定输入的N个音频帧的能量在频谱上分布的稀疏性,包括:将该N个音频帧的每一个音频帧的频谱划分为P个频谱包络,其中P为正整数;根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,该一般稀疏性参数表示该N个音频帧的能量在频谱上分布的稀疏性。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,该一般稀疏性参数包括第一最小带宽;该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值为该第一最小带宽;该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第一最小带宽小于第一预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;在该第一最小带宽大于该第一预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,包括:分别将该每一个音频帧的P个频谱包络的能量从大到小排序;根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽;根据该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽的平均值。
结合第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,该一般稀疏性参数包括第一能量比例,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:从该N个音频帧中每个音频帧的P个频谱包络中分别选择P1个频谱包络;根据该N个音频帧中每个音频帧的P1个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第一能量比例,其中P1为小于P的正整数;该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第一能量比例大于第二预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;在该第一能量比例小于该第二预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,该P1个频谱包络中任一个频谱包络的能量大于该P个频谱包络中除该P1个频谱包络外的其他频谱包络中的任一个频谱包络的能量。
结合第一方面的第一种可能的实现方式,在第一方面的第六种可能的实现方式中,该一般稀疏性参数包括第二最小带宽和第三最小带宽,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值作为该第二最小带宽,该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值作为该第三最小带宽,其中该第二预设比例小于该第三预设比例;该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;在该第三最小带宽小于第五预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;或者,在该第三最小带宽大于第六预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码;其中该第四预设值大于或等于该第三预设值,该第五预设值小于该第四预设值,该第六预设值大于该第四预设值。
结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,包括:分别将该每一个音频帧的P个频谱包络的能量从大到小排序;根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽;根据该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽的平均值;根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽;根据该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽确定该N个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽的平均值。
结合第一方面的第一种可能的实现方式,在第一方面的第八种可能的实现方式中,该一般稀疏性参数包括第二能量比例和第三能量比例,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:从该N个音频帧中每个音频帧的P个频谱包络中分别选择P2个频谱包络;根据该N个音频帧中每个音频帧的P2个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第二能量比例;从该N个音频帧中每个音频帧的P个频谱包络中分别选择P3个频谱包络;根据该N个音频帧中每个音频帧的P3个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第三能量比例,其中P2和P3为小于P的正整数,且P2小于P3;该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;在该第二能量比例大于第九预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;在该第三能量比例小于第十预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,该P2个频谱包络为该P个频谱包络中能量最大的P2个频谱包络;该P3个频谱包络为该P个频谱包络中能量最大的P3个频谱包络。
结合第一方面,在第一方面的第十种可能的实现方式中,该能量在频谱上分布的稀疏性包括能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。
结合第一方面的第十种可能的实现方式,在第一方面的第十一种可能的实现方式中,N为1,该N个音频帧为该当前音频帧;该确定输入的N个音频帧的能量在频谱上分布的稀疏性,包括:将该当前音频帧的频谱划分为Q个子带;根据该当前音频帧频谱的Q个子带中的每个子带的峰值能量,确定突发稀疏性参数,其中该突发稀疏性参数用于表示该当前音频帧的全局稀疏性、局部稀疏性以及短时突发性。
结合第一方面的第十一种可能的实现方式,在第一方面的第十二种可能的实现方式中,该突发稀疏性参数包括:该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动,其中该全局峰均比是根据子带内的峰值能量和该当前音频帧的全部子带的平均能量确定的,该局部峰均比是根据子带内的峰值能量和子带内的平均能量确定的,该短时峰值能量波动是根据子带内的峰值能量和该音频帧之前的音频帧的特定频带内的峰值能量确定的;该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:确定该Q个子带中是否存在第一子带,其中该第一子带的局部峰均比大于第十一预设值,该第一子带的全局峰均比大于第十二预设值,该第一子带的短时峰值能量波动大于第十三预设值;在该Q个子带中存在该第一子带的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
结合第一方面,在第一方面的第十三种可能的实现方式中,该能量在频谱上分布的稀疏性包括能量在频谱上分布的带限特性。
结合第一方面的第十三种可能的实现方式,在第一方面的第十四种可能的实现方式中,该确定输入的N个音频帧的能量在频谱上分布的稀疏性,包括:确定该N个音频帧中每个音频帧的分界频率;根据该N个音频帧中每个音频帧的分界频率,确定带限稀疏性参数。
结合第一方面的第十四种可能的实现方式,在第一方面的第十五种可能的实现方式中,该带限稀疏性参数为该N个音频帧的分界频率的平均值;该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在确定该音频帧的带限稀疏性参数小于第十四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
第二方面,本发明实施例提供一种装置,该装置包括:获取单元,用于获取N个音频帧,其中该N个音频帧包括当前音频帧,N为正整数;确定单元,用于确定该获取单元获取的N个音频帧的能量在频谱上分布的稀疏性;该确定单元,还用于根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,其中该第一编码方法为基于时频变换和变换系数量化且不基于线性预测的编码方法,该第二编码方法为基于线性预测的编码方法。
结合第二方面,在第二方面的第一种可能的实现方式中,该确定单元,具体用于将该N个音频帧的每一个音频帧的频谱划分为P个频谱包络,根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,其中P为正整数,该一般稀疏性参数表示该N个音频帧的能量在频谱上分布的稀疏性。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,该一般稀疏性参数包括第一最小带宽;该确定单元,具体用于根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值为该第一最小带宽;该确定单元,具体用于在该第一最小带宽小于第一预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一最小带宽大于该第一预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,该确定单元,具体用于分别将该每一个音频帧的P个频谱包络的能量从大到小排序,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽的平均值。
结合第二方面的第一种可能的实现方式,在第二方面的第四种可能的实现方式中,该一般稀疏性参数包括第一能量比例,该确定单元,具体用于从该N个音频帧中每个音频帧的P个频谱包络中分别选择P1个频谱包络,根据该N个音频帧中每个音频帧的P1个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第一能量比例,其中P1为小于P的正整数;该确定单元,具体用于在该第一能量比例大于第二预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一能量比例小于该第二预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,该确定单元,具体用于根据该P个频谱包络的能量确定该P1个频谱包络,其中该P1个频谱包络中任一个频谱包络的能量大于该P个频谱包络中除该P1个频谱包络外的其他频谱包络中的任一个频谱包络的能量。
结合第二方面的第一种可能的实现方式,在第二方面的第六种可能的实现方式中,该一般稀疏性参数包括第二最小带宽和第三最小带宽,该确定单元,具体用于根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值作为该第二最小带宽,该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值作为该第三最小带宽,其中该第二预设比例小于该第三预设比例;该确定单元,具体用于在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三最小带宽小于第五预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,或者,在该第三最小带宽大于第六预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码;其中该第四预设值大于或等于该第三预设值,该第五预设值小于该第四预设值,该第六预设值大于该第四预设值。
结合第二方面的第六种可能的实现方式,在第二方面的第七种可能的实现方式中,该确定单元,具体用于分别将该每一个音频帧的P个频谱包络的能量从大到小排序,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽的平均值,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽的平均值。
结合第二方面的第一种可能的实现方式,在第二方面的第八种可能的实现方式中,该一般稀疏性参数包括第二能量比例和第三能量比例,该确定单元,具体用于从该N个音频帧中每个音频帧的P个频谱包络中分别选择P2个频谱包络,根据该N个音频帧中每个音频帧的P2个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第二能量比例,从该N个音频帧中每个音频帧的P个频谱包络中分别选择P3个频谱包络,根据该N个音频帧中每个音频帧的P3个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第三能量比例,其中P2和P3为小于P的正整数,且P2小于P3;该确定单元,具体用于在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第二能量比例大于第九预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三能量比例小于第十预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
结合第二方面的第八种可能的实现方式,在第二方面的第九种可能的实现方式中,该确定单元,具体用于从该N个音频帧中每个音频帧的P个频谱包络中能量最大的P2个频谱包络,从该N个音频帧中每个音频帧的P个频谱包络中能量最大的P3个频谱包络。
结合第二方面,在第二方面的第十种可能的实现方式中,N为1,该N个音频帧为该当前音频帧;该确定单元,具体用于将该当前音频帧的频谱划分为Q个子带,根据该当前音频帧频谱的Q个子带中的每个子带的峰值能量,确定突发稀疏性参数,其中该突发稀疏性参数用于表示该当前音频帧的全局稀疏性、局部稀疏性以及短时突发性。
结合第二方面的第十种可能的实现方式,在第二方面的第十一种可能的实现方式中,该确定单元,具体用于确定该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动,其中该全局峰均比是该确定单元根据子带内的峰值能量和该当前音频帧的全部子带的平均能量确定的,该局部峰均比是该确定单元根据子带内的峰值能量和子带内的平均能量确定的,该短时峰值能量波动是根据子带内的峰值能量和该音频帧之前的音频帧的特定频带内的峰值能量确定的;该确定单元,具体用于确定该Q个子带中是否存在第一子带,其中该第一子带的局部峰均比大于第十一预设值,该第一子带的全局峰均比大于第十二预设值,该第一子带的短时峰值能量波动大于第十三预设值,在该Q个子带中存在该第一子带的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
结合第二方面,在第二方面的第十二种可能的实现方式中,该确定单元,具体用于确定该N个音频帧中每个音频帧的分界频率;该确定单元,具体用于根据该N个音频帧中每个音频帧的分界频率,确定带限稀疏性参数。
结合第二方面的第十二种可能的实现方式,在第二方面的第十三种可能的实现方式中,该带限稀疏性参数为该N个音频帧的分界频率的平均值;该确定单元,具体用于在确定该音频帧的带限稀疏性参数小于第十四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
上述技术方案在对音频帧进行编码时,考虑了该音频帧的能量在频谱上分布的稀疏性,能够降低编码的复杂度,同时能够保证编码具有较高的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的音频编码的示意性流程图。
图2是根据本发明实施例提供的装置的结构框图。
图3是根据本发明实施例提供的装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是根据本发明实施例提供的音频编码的示意性流程图。
101,确定输入的N个音频帧的能量在频谱上分布的稀疏性,其中该N个音频帧包括当前音频帧,N为正整数。
102,根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,其中该第一编码方法为基于时频变化和变化系数量化且不基于线性预测的编码方法,该第二编码方法为基于线性预测的编码方法。
图1所示的方法在对音频帧进行编码时,考虑了该音频帧的能量在频谱上分布的稀疏性,能够降低编码的复杂度,同时能够保证编码具有较高的准确率。
在为音频帧选择合适的编码方法时可以考虑该音频帧的能量在频谱上分布的稀疏性。音频帧的能量在频谱上分布的稀疏性可以有三种:一般稀疏性、突发稀疏性和带限稀疏性。
可选的,作为一个实施例,可以通过一般稀疏性为该当前音频帧选择合适的编码方法。在此情况下,该确定输入的N个音频帧的能量在频谱上分布的稀疏性,包括:将该N个音频帧的每一个音频帧的频谱划分为P个频谱包络,其中P为正整数,根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,该一般稀疏性参数表示该N个音频帧的能量在频谱上分布的稀疏性。
具体地,可以将输入的音频帧特定比例能量在频谱上分布的最小带宽在连续N帧的均值定义为一般稀疏性。这个带宽越小则一般稀疏性越强,这个带宽越大则一般稀疏性越弱。换句话说,一般稀疏性越强,则音频帧的能量越集中,一般稀疏性越弱,则音频帧的能量越分散。第一编码方法对一般稀疏性较强的音频帧编码效率高。因此,可以通过判断音频帧的一般稀疏性选择合适的编码方法对音频帧进行编码。为了便于判断音频帧的一般稀疏性,可以将一般稀疏性进行量化得到一般稀疏性参数。可选的,当N取1的情况下,该一般稀疏性就是当前音频帧的特定比例能量在频谱上分布的最小带宽。
可选的,作为一个实施例,该一般稀疏性参数包括第一最小带宽。在此情况下,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第一预设比例的能量在该频谱上分布的最小带宽的平均值为该第一最小带宽。该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第一最小带宽小于第一预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一最小带宽大于该第一预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧,该N个音频帧的第一预设比例的能量在该频谱上分布的最小带宽的平均值就是该当前音频帧的第一预设比例能量在频谱上分布的最小带宽。
本领域技术人员可以理解,该第一预设值和该第一预设比例可以根据仿真试验确定。通过仿真试验可以确定适当的第一预设值和第一预设比例,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。一般而言,第一预设比例的取值一般取在0和1之间较接近于1的数,如90%,80%等。第一预设值的选取则与第一预设比例的取值有关,也与在第一编码方法和第二编码方法间的选择倾向性有关。例如,一个相对较大的第一预设比例所对应的第一预设值一般会大于与一个相对较小的第一预设比例所对应的第一预设值。又例如,倾向于选择第一编码方法的情况下,其对应的第一预设值一般会比倾向于选择第二编码方法的情况下所对应的第一预设值大。
该根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,包括:分别将该每一个音频帧的P个频谱包络的能量从大到小排序;根据该N个音频帧中每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽;根据该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第一预设比例能量在频谱上分布的最小带宽的平均值。例如,输入的音频信号是16kHz采样的宽带信号,输入信号以20ms为一帧被输入。每帧信号为320个时域采样点。对时域信号做时频变换,例如采用快速傅里叶变换(Fast Fourier Transformation,FFT)进行时频变换,得到160个频谱包络S(k),即160个FFT能量谱系数,其中k=0,1,2,…,159。在频谱包络S(k)中寻找一个最小带宽,使得该带宽上的能量占该帧总能量的比例为第一预设比例。具体来说,根据音频帧的从大到小排序的P个频谱包络的能量,确定该音频帧的第一预设比例的能量在频谱上分布的最小带宽,包括:将频谱包络S(k)中的频点能量由大到小依次进行累加;每一次进行累加后与该音频帧的总能量进行比较,如果比值大于第一预设比例,则中止累加过程,累加的次数即为最小带宽。例如,第一预设比例为90%,累加30次的能量之和占总能量的比例超过了90%,并且累加29次的能量之和占总能量的比例小于90%,累加31次的能量之和占总能量的比例超过了累加30次的能量之后占总能量的比例,则可以认为该音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽为30。对N个音频帧分别执行上述确定最小带宽的过程。分别确定包括当前音频帧在内的N个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽。计算N个最小带宽的平均值。这个N最小带宽的平均值可以称为第一最小带宽,该第一最小带宽可以作为该一般稀疏性参数。在该第一最小带宽小于第一预设值的情况下,确定采用第一编码方法对该当前音频帧进行编码。在该第一最小带宽大于该第一预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
可选的,作为另一个实施例,该一般稀疏性参数可以包括第一能量比例。在此情况下,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:从该N个音频帧中每个音频帧的P个频谱包络中分别选择P1个频谱包络,根据该N个音频帧中每个音频帧的P1个频谱包络的能量与该N个音频帧的每个音频帧的总能量确定该第一能量比例,其中P1为小于P的正整数。该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第一能量比例大于第二预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一能量比例小于该第二预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧,该根据该N个音频帧中每个音频帧的P1个频谱包络的能量与该N个音频帧的每个音频帧的总能量确定该第一能量比例,包括:根据该当前音频帧的P1个频谱包络的能量与该当前音频帧的总能量确定该第一能量比例。
具体地,可以利用以下公式计算该第一能量比例:
Figure BDA0001255369490000091
其中,R1表示该第一能量比例,Ep1(n)表示第n个音频帧中选定的P1个频谱包络的能量之和,Eall(n)表示第n个音频帧的总能量,r(n)表示N个音频帧中的第n个音频帧的P1个频谱包络的能量占该音频帧的总能量的比例。
本领域技术人员可以理解,该第二预设值和该P1个频谱包络的选择可以根据仿真试验确定。通过仿真试验可以确定适当的第二预设值和P1的值以及选择P1个频谱包络的方法,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。一般而言,P1的取值可以是一个相对较小的数,如选取P1,使得P1与P的比值小于20%。第二预设值的取值,一般不选择对应太小比例的数,如不选择小于10%的数。第二预设值的选择又与P1的取值及在第一编码方法和第二编码方法间的选择倾向性有关。例如,一个相对较大的P1所对应的第二预设值一般会大于一个相对较小的P1所对应的第二预设值。又例如,倾向于选择第一编码方法的情况下,其对应的第二预设值一般会比倾向于选择第二编码方法的情况下所对应的第二预设值小。可选的,作为一个实施例,该P1个频谱包络中任意一个的能量要大于该P个频谱包络中剩下的P-P1个频谱包络中任意一个的能量。
举例来说,输入的音频信号是16kHz采样的宽带信号,输入信号以20ms为一帧被输入。每帧信号为320个时域采样点。对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到160个频谱包络S(k),其中k=0,1,2,…,159。从该160个频谱包络中选择P1个频谱包络,计算这P1个频谱包络的能量之和占该音频帧的总能量的比例。对N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P1个频谱包络的能量之和占各自的总能量的比例。计算比例的平均值,这个比例的平均值即为该第一能量比例。在该第一能量比例大于第二预设值的情况下,确定采用第一编码方法对该当前音频帧进行编码。在该第一能量比例小于该第二预设值的情况下,确定采用第二编码方法对该当前音频帧进行编码。该P1个频谱中任一个频谱包络的能量大于所述P个频谱包络中除所述P1个频谱包络外的其他频谱包络中的任一个频谱包络的能量。可选的,作为一个实施例,P1的取值可以为20。
可选的,作为另一个实施例,该一般稀疏性参数可以包括第二最小带宽和第三最小带宽。在此情况下,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值作为所述第二最小带宽,该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值作为该第三最小带宽,其中该第二预设比例小于该第三预设比例。该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码;在该第三最小带宽小于第五预设值的情况下确定采用该第一编码方法对该当前音频帧进行编码;在该第三最小带宽大于第六预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。该第四预设值大于等于该第三预设值,该第五预设值小于该第四预设值,该第六预设值大于该第四预设值。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧。该确定该N个音频帧的第二预设比例能量在频谱上分布的最小带宽的平均值作为该第二最小带宽,包括:根据该当前音频帧的第二预设比例能量在频谱上分布的最小带宽作为该第二最小带宽。该确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值为该第三最小带宽,包括:根据该当前音频帧的第三预设比例能量在频谱上分布的最小带宽作为该第三最小带宽。
本领域技术人员可以理解,该第三预设值、第四预设值、第五预设值、第六预设值、该第二预设比例和该第三预设比例可以根据仿真试验确定。通过仿真试验可以确定适当的预设值和预设比例,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。
该根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,包括:分别将该每一个音频帧的P个频谱包络的能量从大到小排序;根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽;根据该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽的平均值;根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽;根据该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽的平均值。举例来说,输入的音频信号是16kHz采样的宽带信号,输入信号以20ms为一帧被输入。每帧信号为320个时域采样点。对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到160个频谱包络S(k),其中k=0,1,2,…,159。在频谱包络S(k)中寻找一个最小带宽,使得该带宽上的能量占该帧总能量的比例为第二预设比例。继续在频谱包括S(k)中寻找一个带宽,使得该带宽上的能量占总能量的比例为第三预设比例。具体来说,根据一个音频帧的从大到小排序的P个频谱包络的能量,确定该音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽和该音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,包括:将频谱包括S(k)中的频点能量由大到小依次进行累加。每一次进行累加后与该音频帧的总能量进行比较,如果比值大于第二预设比例,则累加的次数即为符合不小于第二预设比例的最小带宽。继续进行累加,如果累加后与该音频帧总能量的比值大于第三预设比例,则中止累加,累加次数为符合不小于第三预设比例的最小带宽。例如,第二预设比例为85%,第三预设比例为95%。累加30次的能量之和占总能量的比例超过了85%,则可以认为该音频帧的第二预设比例的能量在频谱上分布的最小带宽为30。继续进行累加,如果累加了35次的能量之和占总能量的比例为95,则可以认为该音频帧的第三预设比例的能量在频谱上分布的最小带宽为35。对N个音频帧分别执行上述过程。分别确定包括当前音频帧在内的N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽和不小于第三预设比例的能量在频谱上分布的最小带宽。该N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽的平均值即为该第二最小带宽。该N个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽的平均值即为该第三最小带宽。在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定采用第一编码方法对该当前音频帧进行编码。在该第三最小带宽小于第五预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。在该第三最小带宽大于第六预设值的情况下,确定采用第二编码方法对该当前音频帧进行编码。
可选的,作为另一个实施例,该一般稀疏性参数包括第二能量比例和第三能量比例。在此情况下,该根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:从该N个音频帧中每个音频帧的P个频谱包络中分别选择P2个频谱包络,根据该N个音频帧中每个音频帧的P2个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第二能量比例,从该N个音频帧中每个音频帧的P个频谱包络中分布选择P3个频谱包络,根据该N个音频帧中每个音频帧的P3个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第三能量比例。该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第二能量比例大于第九预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三能量比例小于第十预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。P2和P3为小于P的正整数,且P2小于P3。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧。该根据该N个音频帧中每个音频帧的P2个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第二能量比例,包括:根据该当前音频帧的P2个频谱包络的能量与该当前音频帧的总能量,确定该第二能量比例。该根据该N个音频帧中每个音频帧的P3个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第三能量比例,包括:根据该当前音频帧的P3个频谱包络的能量与该当前音频帧的总能量,确定该第三能量比例。
本领域技术人员可以理解,P2和P3的值,以及该第七预设值、该第八预设值、该第九预设值和该第十预设值可以根据仿真试验确定。通过仿真试验可以确定适当的预设值,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。可选的,作为一个实施例,该P2个频谱包络可以是该P个频谱包络中能量最大的P2个频谱包络;该P3个频谱包络可以是该P个频谱包络中能量最大的P3个频谱包络。
举例来说,输入的音频信号是16kHz采样的宽带信号,输入信号以20ms为一帧被输入。每帧信号为320个时域采样点。对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到160个频谱包络S(k),其中k=0,1,2,…,159。从该160个频谱包络中选择P2个频谱包络,计算这P2个频谱包络的能量之和占该音频帧的总能量的比例。对N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P2个频谱包络的能量之和占各自总能量的比例。计算比例的平均值,这个比例的平均值即为该第二能量比例。从该160个频谱包络中选择P3个频谱包络,计算这P3个频谱包络的能量之和占该音频帧的总能量的比例。对该N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P2个频谱包络的能量之和占各自总能量的比例。计算比例的平均值,这个比例的平均值即为该第三能量比例。在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。在该第二能量比例大于第九预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。在该第三能量比例小于第十预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。该P2个频谱包络可以是该P个频谱包络中能量最大的P2个频谱包络;该P3个频谱包络可以是该P个频谱包络中能量最大的P3个频谱包络。可选的,作为一个实施例,P2的取值可以为20,P3的取值可以为30。
可选的,作为另一实施例,可以通过突发稀疏性为该当前音频帧选择合适的编码方法。突发稀疏性需要考虑音频帧的能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。在此情况下,该能量在频谱上分布的稀疏性可以包括能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。在此情况下,N可以取值为1,该N个音频帧就是该当前音频帧。该确定输入的N个音频帧在频谱上分布的稀疏性,包括:将该当前音频帧的频谱划分为Q个子带,根据该当前音频帧的Q个子带中的每个子带的峰值能量,确定突发稀疏性参数,其中该突发稀疏性参数用于表示该当前音频帧的全局稀疏性、该局部稀疏性以及该短时突发性。该突发稀疏性参数包括:该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动,其中该全局峰均比是根据该子带内的峰值能量和该当前音频帧的全部子带的平均能量确定的,该局部峰均比是根据该子带内的峰值能量和该子带的平均能量确定的,该短时峰值能量波动是根据子带内的峰值能量和该音频帧之前的音频帧的特定频带内的峰值能量确定的。该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:确定该Q个子带中是否存在第一子带,其中该第一子带的局部峰均比大于第十一预设值,该第一子带的全局峰均比大于第十二预设值,该第一子带的短时峰值能量波动大于第十三预设值,在该Q个子带中存在该第一子带的情况下,确定采用该第一编码方法对该当前音频帧进行编码。该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动分别表示该全局稀疏性、该局部稀疏性以及该短时突发性。
具体地,该全局峰均比可以采用以下公式确定:
Figure BDA0001255369490000121
其中,e(i)表示Q个子带中第i个子带的峰值能量,s(k)表示P个频谱包络中第k个频谱包络的能量。p2s(i)表示第i个子带的全局峰均比。
该局部峰均比可以采用以下公式确定:
Figure BDA0001255369490000122
其中,e(i)表示Q个子带中第i个子带的峰值能量,s(k)表示P个频谱包络中第k个频谱包络的能量,h(i)表示第i个子带所含频率最高的频谱包络的索引,l(i)表示第i个子带所含频率最低的频谱包络的索引。p2a(i)表示第i个子带的局部峰均比。其中h(i)小于等于P-1。
该短时峰值能量波动可以采用以下公式确定:
dev(i)=(2*e(i))/(e1+e2),...................................公式1.4
其中,e(i)表示当前音频帧的Q个子带中第i个子带的峰值能量,e1和e2表示该当前音频帧之前的音频帧中特定频带的峰值能量。具体地,假设当前音频帧为第M个音频帧,确定该当前音频帧的第i个子带的峰值能量所在的频谱包络。假设该峰值能量所在的频谱包络位置为i1。确定第(M-1)个音频帧中(i1-t)频谱包络至(i1+t)频谱包络范围内的峰值能量,该峰值能量即为e1。类似的,确定第(M-2)个音频帧中(i1-t)频谱包络至(i1+t)频谱包络范围内的峰值能量,该峰值能量即为e2
本领域技术人员可以理解,该第十一预设值、第十二预设值、第十三预设值可以根据仿真试验确定。通过仿真试验可以确定适当的预设值,从而使得满足上述条件的音频帧在采用第一编码方法时可以获得较好的编码效果。
可选的,作为另一个实施例,可以通过带限稀疏性为该当前音频帧选择合适的编码方法。在此情况下,该能量在频谱上分布的稀疏性包括能量在频谱上分布的带限稀疏性。在此情况下,该确定输入的N个音频帧的能量在频谱上分布的稀疏性,包括:确定该N个音频帧中每个音频帧的分界频率,根据该每个音频帧的分界频率,确定带限稀疏性参数。该带限稀疏性参数可以是该N个音频帧的分界频率的平均值。举例来说,第Ni个音频帧为该N个音频帧中的任一个音频帧,该第Ni个音频帧的频率范围是从Fb至Fe,其中Fb小于Fe。假设起始频率为Fb,那么确定该第Ni个音频帧的分界频率的方法可以是从Fb开始搜索一个频率Fs,Fs满足以下条件:从Fb到Fs的能量之和与该第Ni个音频帧总能量的比值不小于该第四预设比例,从Fb到小于Fs的任一频率的能量之和与该第Ni个音频帧总能量的比值小于该第四预设比例,Fs就是第Ni个音频帧的分界频率。对该N个音频帧中每一个音频帧都执行上述确定分界频率的步骤。这样,就可以得到N个音频帧的N个分界频率。该根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,包括:在确定该音频帧的带限稀疏性参数小于第十四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
本领域技术人员可以理解,该第四预设比例和该第十四预设值的取值可以根据仿真实验确定。根据仿真实验,可以确定适当的预设值和预设比例,从而使得满足上述条件的音频帧在采用第一编码方法时可以获得较好的编码效果。一般而言,第四预设比例的取值会选择一个小于1但接近于1的数,如95%,99%等。第十四预设值的选取一般不会选择一个对应于相对较高频率的数。如在一些实施例中,若音频帧的频率范围是从0Hz~8kHz,则第十四预设值可以选择小于5kHz频率的数。
举例来说,可以确定该当前音频帧的P个频谱包络中每一个频谱包络的能量,从低频到高频搜索分界频率,使得小于该分界频率的能量占该当前音频帧总能量的比值为第四预设比例。假设N为1,则该当前音频帧的分界频率即为该带限稀疏性参数。假设N为大于1的整数,则确定N个音频帧的分界频率的平均值即为该带限稀疏性参数。本领域技术人员可以理解,上述确定分界频率仅是一个例子。确定分界频率的方法还可以是从高频到低频搜索分界频率或者其他方法。
进一步,为了避免频繁地切换第一编码方法和第二编码方法,还可以设置拖尾区间。拖尾区间内的音频帧可以采用拖尾区间起始位置音频帧采用的编码方法。这样,就可以避免频繁切换不同的编码方法引起的切换质量的下降。
如果拖尾区间的拖尾长度为L,则在该当前音频帧之后的L个音频帧均属于该当前音频帧的拖尾区间。如果属于拖尾区间内的某一音频帧的能量在频谱上分布的稀疏性与该拖尾区间起始位置音频帧的能量在频谱上分布的稀疏性不同,则该音频帧仍采用与该拖尾区间起始位置音频帧相同的编码方法进行编码。
拖尾区间的长度可以根据拖尾区间内的音频帧的能量在频谱上分布的稀疏性更新,直到拖尾区间的长度为0。
举例来说,如果确定第I个音频帧采用第一编码方法且预设拖尾区间长度为L,则该第I+1个音频帧至第I+L个音频帧均采用该第一编码方法。然后,确定该第I+1个音频帧的能量在频谱上分布的稀疏性,根据该第I+1个音频帧的能量在频谱上分布的稀疏性重新计算拖尾区间。如果第I+1个音频帧仍符合采用第一编码方法的条件,则后续拖尾区间仍然是预设拖尾区间L。也就是说,拖尾区间从第L+2个音频帧开始到第(I+1+L)个音频帧。如果第I+1个音频帧不符合采用第一编码方法的条件,则根据该I+1个音频帧的能量在频谱上分布的稀疏性,重新确定拖尾区间。例如,重新确定确定拖尾区间为L-L1,其中L1为小于或等于L的正整数。如果L1等于L,则拖尾区间的长度更新为0。在此情况下,根据该第I+1个音频帧的能量在频谱上分布的稀疏性重新确定编码方法。如果L1为小于L的整数,则根据第(I+1+L-L1)个音频帧的能量在频谱上分布的稀疏性重新确定编码方法。但是由于第I+1个音频帧位于第I个音频帧的拖尾区间内,第I+1个音频帧仍采用第一编码方法进行编码。L1可以称为拖尾更新参数,该拖尾更新参数的取值可以根据输入的音频帧的能量在频谱上分布的稀疏性来确定。这样,拖尾区间的更新与音频帧的能量在频谱上分布的稀疏性相关。
例如,在确定了一般稀疏性参数且该一般稀疏性参数为第一最小带宽的情况下,可以根据音频帧的第一预设比例的能量在频谱上分布的最小带宽重新确定该拖尾区间。假设确定采用第一编码方法对第I个音频帧进行编码,且预设的拖尾区间为L。确定包括第I+1个音频帧在内的连续H个音频帧中每一个音频帧的第一预设比例的能量在频谱上分布的最小带宽,其中H为大于0的正整数。如果第I+1个音频帧不满足使用第一编码方法的条件,则确定第一预设比例的能量在频谱上分布的最小带宽小于第十五预设值的音频帧的数量(以下简称该数量为第一拖尾参数)。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于第十六预设值且小于第十七预设值,并且该第一拖尾参数小于第十八预设值的情况下,将拖尾区间长度减1,即拖尾更新参数为1。该第十六预设值大于第一预设值。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于该第十七预设值且小于该第十九预设值,并且该第一拖尾参数小于该第十八预设值的情况下,将该拖尾区间长度减2,即拖尾更新参数为2。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于该第十九预设值的情况下,将拖尾区间设置为0。在该第一拖尾参数以及该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽不满足上述第十六预设值至第十九预设值中的一个或多个预设值的情况下,拖尾区间保持不变。
本领域技术人员可以理解,该预设的拖尾区间可以根据实际情况进行设置,拖尾更新参数也可以根据实际情况进行调整。该第十五预设值至该第十九预设值可以根据实际情况进行调整,从而可以设置不同的拖尾区间。
类似的,当该一般稀疏性参数包括第二最小带宽和第三最小带宽,或者,该一般稀疏性参数包括第一能量比例,或者,该一般稀疏性参数包括第二能量比例和第三能量比例的情况下,可以设置相应的预设的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数,从而可以确定相应的拖尾区间,避免频繁地切换编码方法。
在根据的突发稀疏性确定编码方法(即根据音频帧的能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性确定编码方法)的情况下,也可以设置相应的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数以避免频繁地切换编码方法。在此情况下,该拖尾区间可以小于一般稀疏性参数时设置的拖尾区间。
在根据能量在频谱上分布的带限特性确定编码方法的情况下,也可以设置相应的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数以避免频繁地切换编码方法。例如,可以通过计算输入的音频帧的低频谱包络的能量与所有频谱包络的能量的比值,根据该比值确定该拖尾更新参数。具体地,可以采用以下公式确定低频谱包络的能量与所有频谱包络的能量的比值:
Figure BDA0001255369490000151
其中,Rlow表示低频谱包络的能量与所有频谱包络的能量的比值,s(k)表示第k个频谱包络的能量,y表示低频带的最高频谱包络的索引,P表示该音频帧总共被划分为P个频谱包络。在此情况下,如果Rlow大于第二十预设值,则该拖尾更新参数为0。否则如果Rlow大于第二十一预设值,则拖尾更新参数可以取较小的值,其中该第二十预设值大于该第二十一预设值。如果Rlow不大于第二十一预设值,则该拖尾参数可以取较大的值。本领域技术人员可以理解,该第二十预设值和该第二十一预设值可以根据仿真实验确定,该拖尾更新参数的取值也可以根据试验确定。一般而言,第二十一预设值的取值一般不选取太小比值的数,如一般可以选取大于50%的数。第二十预设值的取值介于第二十一预设值与1之间。
此外,在根据能量在频谱上分布的带限特性确定编码方法的情况下,还可以确定输入的音频帧的分界频率,根据该分界频率确定该拖尾更新参数,其中该分界频率可以与用于确定带限稀疏性参数的分界频率不同。如果该分界频率小于第二十二预设值,则该拖尾更新参数为0。否则,如果该分界频率小于第二十三预设值,则该拖尾更新参数取值较小。其中第二十三预设值大于第二十二预设值。如果该分界频率大于该第二十三预设值,则该拖尾更新参数可以取较大的值。本领域技术人员可以理解,该第二十二预设值和该第二十三预设值可以根据仿真实验确定,该拖尾更新参数的取值也可以根据试验确定。一般而言,第二十三预设值的取值不选取对应于相对较高频率的数。例如,若音频帧的频率范围是从0Hz~8kHz,则二十三预设值可以选择小于5kHz频率的数。
图2是根据本发明实施例提供的装置的结构框图。图2所示的装置200能够执行图1的各个步骤。如图2所示,装置200包括获取单元201和确定单元202。,其特征在于,该装置包括:
获取单元201,用于获取N个音频帧,其中该N个音频帧包括当前音频帧,N为正整数。
确定单元202,用于确定该获取单元201获取的N个音频帧的能量在频谱上分布的稀疏性。
确定单元202,还用于根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,其中该第一编码方法为基于时频变换和变换系数量化且不基于线性预测的编码方法,该第二编码方法为基于线性预测的编码方法。
图2所示的装置在对音频帧进行编码时,考虑了该音频帧的能量在频谱上分布的稀疏性,能够降低编码的复杂度,同时能够保证编码具有较高的准确率。
在为音频帧选择合适的编码方法时可以考虑该音频帧的能量在频谱上分布的稀疏性。音频帧的能量在频谱上分布的稀疏性可以有三种:一般稀疏性、突发稀疏性和带限稀疏性。
可选的,作为一个实施例,可以通过一般稀疏性为该当前音频帧选择合适的编码方法。在此情况下,确定单元202,具体用于将该N个音频帧的每一个音频帧的频谱划分为P个频谱包络,根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,其中P为正整数,该一般稀疏性参数表示该N个音频帧的能量在频谱上分布的稀疏性。
具体地,可以将输入的音频帧特定比例能量在频谱上分布的最小带宽在连续N帧的均值定义为一般稀疏性。这个带宽越小则一般稀疏性越强,这个带宽越大则一般稀疏性越弱。换句话说,一般稀疏性越强,则音频帧的能量越集中,一般稀疏性越弱,则音频帧的能量越分散。第一编码方法对一般稀疏性较强的音频帧编码效率高。因此,可以通过判断音频帧的一般稀疏性选择合适的编码方法对音频帧进行编码。为了便于判断音频帧的一般稀疏性,可以将一般稀疏性进行量化得到一般稀疏性参数。可选的,当N取1的情况下,该一般稀疏性就是当前音频帧的特定比例能量在频谱上分布的最小带宽。
可选的,作为一个实施例,该一般稀疏性参数包括第一最小带宽。在此情况下,确定单元202,具体用于根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值为该第一最小带宽。确定单元202,具体用于在该第一最小带宽小于第一预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一最小带宽大于该第一预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
本领域技术人员可以理解,该第一预设值和该第一预设比例可以根据仿真试验确定。通过仿真试验可以确定适当的第一预设值和第一预设比例,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。
确定单元202,具体用于分别将该每一个音频帧的P个频谱包络的能量从大到小排序,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽的平均值。例如,获取单元201获取的音频信号是16kHz采样的宽带信号,获取的音频信号以20ms为一帧被获取。每帧信号为320个时域采样点。确定单元202可以对时域信号做时频变换,例如采用快速傅里叶变换(Fast Fourier Transformation,FFT)进行时频变换,得到160个频谱包络S(k),即160个FFT能量谱系数,其中k=0,1,2,…,159。确定单元202可以在频谱包络S(k)中寻找一个最小带宽,使得该带宽上的能量占该帧总能量的比例为第一预设比例。具体来说,确定单元202可以将频谱包络S(k)中的频点能量由大到小依次进行累加;每一次进行累加后与该音频帧的总能量进行比较,如果比值大于第一预设比例,则中止累加过程,累加的次数即为最小带宽。例如,第一预设比例为90%,累加30次的能量之和占总能量的比例超过了90%,则可以认为该音频帧的不小于第一预设比例的能量的最小带宽为30。确定单元202可以对N个音频帧分别执行上述确定最小带宽的过程。分别确定包括当前音频帧在内的N个音频帧的不小于第一预设比例的能量的最小带宽。确定单元202可以计算N个不小于第一预设比例的能量的最小带宽的平均值。这个N个不小于第一预设比例的能量的最小带宽的平均值可以称为第一最小带宽,该第一最小带宽可以作为该一般稀疏性参数。在该第一最小带宽小于第一预设值的情况下,确定单元202可以确定采用第一编码方法对该当前音频帧进行编码。在该第一最小带宽大于该第一预设值的情况下,确定单元202可以确定采用该第二编码方法对该当前音频帧进行编码。
可选的,作为另一个实施例,该一般稀疏性参数可以包括第一能量比例。在此情况下,确定单元202,具体用于从该N个音频帧中每个音频帧的P个频谱包络中分别选择P1个频谱包络,根据该N个音频帧中每个音频帧的P1个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第一能量比例,其中P1为小于P的正整数。确定单元202,具体用于在该第一能量比例大于第二预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一能量比例小于该第二预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧,确定单元202,具体用于根据该当前音频帧的P1个频谱包络的能量与该当前音频帧的总能量确定该第一能量比例。确定单元202,具体用于根据该P个频谱包络的能量确定该P1个频谱包络,其中该P1个频谱包络中任一个频谱包络的能量大于该P个频谱包络中除该P1个频谱包络外的其他频谱包络中的任一个频谱包络的能量。
具体地,确定单元202可以利用以下公式计算该第一能量比例:
Figure BDA0001255369490000171
其中,R1表示该第一能量比例,Ep1(n)表示第n个音频帧中选定的P1个频谱包络的能量之和,Eall(n)表示第n个音频帧的总能量,r(n)表示N个音频帧中的第n个音频帧的P1个频谱包络的能量占该音频帧的总能量的比例。
本领域技术人员可以理解,该第二预设值和该P1个频谱包络的选择可以根据仿真试验确定。通过仿真试验可以确定适当的第二预设值和P1的值以及选择P1个频谱包络的方法,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。可选的,作为一个实施例,该P1个频谱包络可以是该P个频谱包络中能量最大的P1个频谱包络。
举例来说,获取单元201获取的音频信号是16kHz采样的宽带信号,获取的音频信号以20ms为一帧被获取。每帧信号为320个时域采样点。确定单元202可以对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到160个频谱包络S(k),其中k=0,1,2,…,159。确定单元202可以从该160个频谱包络中选择P1个频谱包络,计算这P1个频谱包络的能量之和占该音频帧的总能量的比例。确定单元202可以对N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P1个频谱包络的能量之和占各自的总能量的比例。确定单元202可以计算比例的平均值,这个比例的平均值即为该第一能量比例。在该第一能量比例大于第二预设值的情况下,确定单元202可以确定采用第一编码方法对该当前音频帧进行编码。在该第一能量比例小于该第二预设值的情况下,确定单元202可以确定采用第二编码方法对该当前音频帧进行编码。该P1个频谱包络可以是该P个频谱包络中能量最大的P1个频谱包络。也就是说,确定单元202,具体用于从该N个音频帧中每个音频帧的P个频谱包络中确定能量最大的P1个频谱包络。可选的,作为一个实施例,P1的取值可以为20。
可选的,作为另一个实施例,该一般稀疏性参数可以包括第二最小带宽和第三最小带宽。在此情况下,确定单元202,具体用于根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值作为该第二最小带宽,该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值作为该第三最小带宽,其中该第二预设比例小于该第三预设比例。确定单元202,具体用于在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三最小带宽小于第五预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,或者,在该第三最小带宽大于第六预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧。确定单元202可以根据该当前音频帧的第二预设比例能量在频谱上分布的最小带宽作为该第二最小带宽。确定单元202可以根据该当前音频帧的第三预设比例能量在频谱上分布的最小带宽作为该第三最小带宽。
本领域技术人员可以理解,该第三预设值、第四预设值、第五预设值、第六预设值、该第二预设比例和该第三预设比例可以根据仿真试验确定。通过仿真试验可以确定适当的预设值和预设比例,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。
该确定单元202,具体用于分别将该每一个音频帧的P个频谱包络的能量从大到小排序,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值。举例来说,获取单元201获取的音频信号是16kHz采样的宽带信号,获取的音频信号以20ms为一帧被获取。每帧信号为320个时域采样点。确定单元202可以对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到160个频谱包络S(k),其中k=0,1,2,…,159。确定单元202可以在频谱包络S(k)中寻找一个最小带宽,使得该带宽上的能量占该帧总能量的比例不小于第二预设比例。确定单元202可以继续在频谱包括S(k)中寻找一个带宽,使得该带宽上的能量占总能量的比例不小于第三预设比例。具体来说,确定单元202可以将频谱包括S(k)中的频点能量由大到小依次进行累加。每一次进行累加后与该音频帧的总能量进行比较,如果比值大于第二预设比例,则累加的次数即为不小于第二预设比例的最小带宽。确定单元202可以继续进行累加,如果累加后与该音频帧总能量的比值大于第三预设比例,则中止累加,累加次数为不小于第三预设比例的最小带宽。例如,第二预设比例为85%,第三预设比例为95%。累加30次的能量之和占总能量的比例超过了85%,则可以认为该音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽为30。继续进行累加,如果累加了35次的能量之和占总能量的比例为95,则可以认为该音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽为35。确定单元202可以对N个音频帧分别执行上述过程。确定单元202可以分别确定包括当前音频帧在内的N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽和不小于第三预设比例的能量在频谱上分布的最小带宽。该N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽的平均值即为该第二最小带宽。该N个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽的平均值即为该第三最小带宽。在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定单元202可以确定采用第一编码方法对该当前音频帧进行编码。在该第三最小带宽小于第五预设值的情况下,确定单元202可以确定采用该第一编码方法对该当前音频帧进行编码。在该第三最小带宽大于第六预设值的情况下,确定单元202可以确定采用第二编码方法对该当前音频帧进行编码。
可选的,作为另一个实施例,该一般稀疏性参数包括第二能量比例和第三能量比例。在此情况下,确定单元202,具体用于从该N个音频帧中每个音频帧的P个频谱包络中分别选择P2个频谱包络,根据该N个音频帧中每个音频帧的P2个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第二能量比例,从该N个音频帧中每个音频帧的P个频谱包络中分别选择P3个频谱包络,根据该N个音频帧中每个音频帧的P3个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第三能量比例,其中P2和P3为小于P的正整数,且P2小于P3。确定单元202,具体用于在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第二能量比例大于第九预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三能量比例小于第十预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧。确定单元202可以根据该当前音频帧的P2个频谱包络的能量与该当前音频帧的总能量,确定该第二能量比例。确定单元202可以根据该当前音频帧的P3个频谱包络的能量与该当前音频帧的总能量,确定该第三能量比例。
本领域技术人员可以理解,P2和P3的值,以及该第七预设值、该第八预设值、该第九预设值和该第十预设值可以根据仿真试验确定。通过仿真试验可以确定适当的预设值,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。可选的,作为一个实施例,确定单元202,具体用于从该N个音频帧中每个音频帧的P个频谱包络中能量最大的P2个频谱包络,从该N个音频帧中每个音频帧的P个频谱包络中能量最大的P3个频谱包络。
举例来说,获取单元201获取的音频信号是16kHz采样的宽带信号,获取的音频信号以20ms为一帧被获取。每帧信号为320个时域采样点。确定单元202可以对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到160个频谱包络S(k),其中k=0,1,2,…,159。确定单元202可以从该160个频谱包络中选择P2个频谱包络,计算这P2个频谱包络的能量之和占该音频帧的总能量的比例。确定单元202可以对N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P2个频谱包络的能量之和占各自总能量的比例。确定单元202可以计算比例的平均值,这个比例的平均值即为该第二能量比例。确定单元202可以从该160个频谱包络中选择P3个频谱包络,计算这P3个频谱包络的能量之和占该音频帧的总能量的比例。确定单元202可以对该N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P2个频谱包络的能量之和占各自总能量的比例。确定单元202可以计算比例的平均值,这个比例的平均值即为该第三能量比例。在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定单元202可以确定采用该第一编码方法对该当前音频帧进行编码。在该第二能量比例大于第九预设值的情况下,确定单元202可以确定采用该第一编码方法对该当前音频帧进行编码。在该第三能量比例小于第十预设值的情况下,确定单元202可以确定采用该第二编码方法对该当前音频帧进行编码。该P2个频谱包络可以是该P个频谱包络中能量最大的P2个频谱包络;该P3个频谱包络可以是该P个频谱包络中能量最大的P3个频谱包络。可选的,作为一个实施例,P2的取值可以为20,P3的取值可以为30。
可选的,作为另一实施例,可以通过突发稀疏性为该当前音频帧选择合适的编码方法。突发稀疏性需要考虑音频帧的能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。在此情况下,该能量在频谱上分布的稀疏性可以包括能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。在此情况下,N可以取值为1,该N个音频帧就是该当前音频帧。确定单元202,具体用于将该当前音频帧的频谱划分为Q个子带,根据该当前音频帧频谱的Q个子带中的每个子带的峰值能量,确定突发稀疏性参数,其中该突发稀疏性参数用于表示该当前音频帧的全局稀疏性、局部稀疏性以及短时突发性。
具体地,确定单元202,具体用于确定该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动,其中该全局峰均比是确定单元202根据子带内的峰值能量和该当前音频帧的全部子带的平均能量确定的,该局部峰均比是确定单元202根据子带内的峰值能量和子带内的平均能量确定的,该短时峰值能量波动是根据子带内的峰值能量和该音频帧之前的音频帧的特定频带内的峰值能量确定的。该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动分别表示该全局稀疏性、该局部稀疏性以及该短时突发性。确定单元202,具体用于确定该Q个子带中是否存在第一子带,其中该第一子带的局部峰均比大于第十一预设值,该第一子带的全局峰均比大于第十二预设值,该第一子带的短时峰值能量波动大于第十三预设值,在该Q个子带中存在该第一子带的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
具体地,确定单元202可以采用以下公式确定该全局峰均比:
Figure BDA0001255369490000211
其中,e(i)表示Q个子带中第i个子带的峰值能量,s(k)表示P个频谱包络中第k个频谱包络的能量。p2s(i)表示第i个子带的全局峰均比。
确定单元202可以采用以下公式确定该局部峰均比:
Figure BDA0001255369490000212
其中,e(i)表示Q个子带中第i个子带的峰值能量,s(k)表示P个频谱包络中第k个频谱包络的能量,h(i)表示第i个子带所含频率最高的频谱包络的索引,l(i)表示第i个子带所含频率最低的频谱包络的索引。p2a(i)表示第i个子带的局部峰均比。其中h(i)小于等于P-1。
确定单元202可以采用以下公式确定该短时峰值能量波动:
dev(i)=(2*e(i))/(e1+e2),.................................公式1.9
其中,e(i)表示当前音频帧的Q个子带中第i个子带的峰值能量,e1和e2表示该当前音频帧之前的音频帧中特定频带的峰值能量。具体地,假设当前音频帧为第M个音频帧,确定该当前音频帧的第i个子带的峰值能量所在的频谱包络。假设该峰值能量所在的频谱包络位置为i1。确定第(M-1)个音频帧中(i1-t)频谱包络至(i1+t)频谱包络范围内的峰值能量,该峰值能量即为e1。类似的,确定第(M-2)个音频帧中(i1-t)频谱包络至(i1+t)频谱包络范围内的峰值能量,该峰值能量即为e2
本领域技术人员可以理解,该第十一预设值、第十二预设值、第十三预设值可以根据仿真试验确定。通过仿真试验可以确定适当的预设值,从而使得满足上述条件的音频帧在采用第一编码方法时可以获得较好的编码效果。
可选的,作为另一个实施例,可以通过带限稀疏性为该当前音频帧选择合适的编码方法。在此情况下,该能量在频谱上分布的稀疏性包括能量在频谱上分布的带限稀疏性。在此情况下,确定单元202,具体用于确定该N个音频帧中每个音频帧的分界频率。确定单元202,具体用于根据该N个音频帧中每个音频帧的分界频率,确定带限稀疏性参数。
本领域技术人员可以理解,该第四预设比例和该第十四预设值的取值可以根据仿真实验确定。根据仿真实验,可以确定适当的预设值和预设比例,从而使得满足上述条件的音频帧在采用第一编码方法时可以获得较好的编码效果。
举例来说,确定单元202可以确定该当前音频帧的P个频谱包络中每一个频谱包络的能量,从低频到高频搜索分界频率,使得小于该分界频率的能量占该当前音频帧总能量的比值为第四预设比例。该带限稀疏性参数还可以是该N个音频帧的分界频率的平均值。在此情况下,确定单元202,具体用于在确定该音频帧的带限稀疏性参数小于第十四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。假设N为1,则该当前音频帧的分界频率即为该带限稀疏性参数。假设N为大于1的整数,则确定单元202可以确定N个音频帧的分界频率的平均值即为该带限稀疏性参数。本领域技术人员可以理解,上述确定分界频率仅是一个例子。确定分界频率的方法还可以是从高频到低频搜索分界频率或者其他方法。
进一步,为了避免频繁地切换第一编码方法和第二编码方法,确定单元202还可以用于设置拖尾区间。确定单元202可以用于确定拖尾区间内的音频帧可以采用拖尾区间起始位置音频帧采用的编码方法。这样,就可以避免频繁切换不同的编码方法引起的切换质量的下降。
如果拖尾区间的拖尾长度为L,则确定单元202可以用于确定在该当前音频帧之后的L个音频帧均属于该当前音频帧的拖尾区间。如果属于拖尾区间内的某一音频帧的能量在频谱上分布的稀疏性与该拖尾区间起始位置音频帧的能量在频谱上分布的稀疏性不同,则确定单元202可以用于确定该音频帧仍采用与该拖尾区间起始位置音频帧相同的编码方法进行编码。
拖尾区间的长度可以根据拖尾区间内的音频帧的能量在频谱上分布的稀疏性更新,直到拖尾区间的长度为0。
举例来说,如果确定单元202确定第I个音频帧采用第一编码方法且预设拖尾区间长度为L,则确定单元202可以确定该第I+1个音频帧至第I+L个音频帧均采用该第一编码方法。然后,确定单元202可以确定该第I+1个音频帧的能量在频谱上分布的稀疏性,根据该第I+1个音频帧的能量在频谱上分布的稀疏性重新计算拖尾区间。如果第I+1个音频帧仍符合采用第一编码方法的条件,则确定单元202可以确定后续拖尾区间仍然是预设拖尾区间L。也就是说,拖尾区间从第L+2个音频帧开始到第(I+1+L)个音频帧。如果第I+1个音频帧不符合采用第一编码方法的条件,则确定单元202可以根据该I+1个音频帧的能量在频谱上分布的稀疏性,重新确定拖尾区间。例如,确定单元202可以重新确定确定拖尾区间为L-L1,其中L1为小于或等于L的正整数。如果L1等于L,则拖尾区间的长度更新为0。在此情况下,确定单元202可以根据该第I+1个音频帧的能量在频谱上分布的稀疏性重新确定编码方法。如果L1为小于L的整数,则确定单元202可以根据第(I+1+L-L1)个音频帧的能量在频谱上分布的稀疏性重新确定编码方法。但是由于第I+1个音频帧位于第I个音频帧的拖尾区间内,第I+1个音频帧仍采用第一编码方法进行编码。L1可以称为拖尾更新参数,该拖尾更新参数的取值可以根据输入的音频帧的能量在频谱上分布的稀疏性来确定。这样,拖尾区间的更新与音频帧的能量在频谱上分布的稀疏性相关。
例如,在确定了一般稀疏性参数且该一般稀疏性参数为第一最小带宽的情况下,确定单元202可以根据音频帧的第一预设比例的能量在频谱上分布的最小带宽重新确定该拖尾区间。假设确定采用第一编码方法对第I个音频帧进行编码,且预设的拖尾区间为L。确定单元202可以确定包括第I+1个音频帧在内的连续H个音频帧中每一个音频帧的第一预设比例的能量在频谱上分布的最小带宽,其中H为大于0的正整数。如果第I+1个音频帧不满足使用第一编码方法的条件,则确定单元202可以确定第一预设比例的能量在频谱上分布的最小带宽小于第十五预设值的音频帧的数量(以下简称该数量为第一拖尾参数)。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于第十六预设值且小于第十七预设值,并且该第一拖尾参数小于第十八预设值的情况下,确定单元202可以将拖尾区间长度减1,即拖尾更新参数为1。该第十六预设值大于第一预设值。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于该第十七预设值且小于该第十九预设值,并且该第一拖尾参数小于该第十八预设值的情况下,确定单元202可以将该拖尾区间长度减2,即拖尾更新参数为2。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于该第十九预设值的情况下,确定单元202可以将拖尾区间设置为0。在该第一拖尾参数以及该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽不满足上述第十六预设值至第十九预设值中的一个或多个预设值的情况下,确定单元202可以确定拖尾区间保持不变。
本领域技术人员可以理解,该预设的拖尾区间可以根据实际情况进行设置,拖尾更新参数也可以根据实际情况进行调整。该第十五预设值至该第十九预设值可以根据实际情况进行调整,从而可以设置不同的拖尾区间。
类似的,当该一般稀疏性参数包括第二最小带宽和第三最小带宽,或者,该一般稀疏性参数包括第一能量比例,或者,该一般稀疏性参数包括第二能量比例和第三能量比例的情况下,确定单元202可以设置相应的预设的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数,从而可以确定相应的拖尾区间,避免频繁地切换编码方法。
在根据的突发稀疏性确定编码方法(即根据音频帧的能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性确定编码方法)的情况下,确定单元202也可以设置相应的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数以避免频繁地切换编码方法。在此情况下,该拖尾区间可以小于一般稀疏性参数时设置的拖尾区间。
在根据能量在频谱上分布的带限特性确定编码方法的情况下,确定单元202也可以设置相应的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数以避免频繁地切换编码方法。例如,确定单元202可以通过计算输入的音频帧的低频谱包络的能量与所有频谱包络的能量的比值,根据该比值确定该拖尾更新参数。具体地,确定单元202可以采用以下公式确定低频谱包络的能量与所有频谱包络的能量的比值:
Figure BDA0001255369490000231
其中,Rlow表示低频谱包络的能量与所有频谱包络的能量的比值,s(k)表示第k个频谱包络的能量,y表示低频带的最高频谱包络的索引,P表示该音频帧总共被划分为P个频谱包络。在此情况下,如果Rlow大于第二十预设值,则该拖尾更新参数为0。如果Rlow大于第二十一预设值,则拖尾更新参数可以取较小的值,其中该第二十预设值大于该第二十一预设值。如果Rlow不大于第二十一预设值,则该拖尾参数可以取较大的值。本领域技术人员可以理解,该第二十预设值和该第二十一预设值可以根据仿真实验确定,该拖尾更新参数的取值也可以根据试验确定。
此外,在根据能量在频谱上分布的带限特性确定编码方法的情况下,确定单元202还可以确定输入的音频帧的分界频率,根据该分界频率确定该拖尾更新参数,其中该分界频率可以与用于确定带限稀疏性参数的分界频率不同。如果该分界频率小于第二十二预设值,则确定单元202可以确定该拖尾更新参数为0。如果该分界频率小于第二十三预设值,则确定单元202可以确定该拖尾更新参数取值较小。如果该分界频率大于该第二十三预设值,则确定单元202可以确定该拖尾更新参数可以取较大的值。本领域技术人员可以理解,该第二十二预设值和该第二十三预设值可以根据仿真实验确定,该拖尾更新参数的取值也可以根据试验确定。
图3是根据本发明实施例提供的装置的结构框图。图3所示的装置300能够执行图1的各个步骤。如图3所示,装置300包括:处理器301、存储器302。
装置300中的各个组件通过总线系统303耦合在一起,其中总线系统303除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统303。
上述本发明实施例揭示的方法可以应用于处理器301中,或者由处理器301实现。处理器301可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-Only Memory,ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302,处理器301读取存储器302中的指令,结合其硬件完成上述方法的步骤。
处理器301,用于获取N个音频帧,其中该N个音频帧包括当前音频帧,N为正整数。
处理器301,用于确定该处理器301获取的N个音频帧的能量在频谱上分布的稀疏性。
处理器301,还用于根据该N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对该当前音频帧进行编码,其中该第一编码方法为基于时频变换和变换系数量化且不基于线性预测的编码方法,该第二编码方法为基于线性预测的编码方法。
图3所示的装置在对音频帧进行编码时,考虑了该音频帧的能量在频谱上分布的稀疏性,能够降低编码的复杂度,同时能够保证编码具有较高的准确率。
在为音频帧选择合适的编码方法时可以考虑该音频帧的能量在频谱上分布的稀疏性。音频帧的能量在频谱上分布的稀疏性可以有三种:一般稀疏性、突发稀疏性和带限稀疏性。
可选的,作为一个实施例,可以通过一般稀疏性为该当前音频帧选择合适的编码方法。在此情况下,处理器301,具体用于将该N个音频帧的每一个音频帧的频谱划分为P个频谱包络,根据该N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,其中P为正整数,该一般稀疏性参数表示该N个音频帧的能量在频谱上分布的稀疏性。
具体地,可以将输入的音频帧特定比例能量在频谱上分布的最小带宽在连续N帧的均值定义为一般稀疏性。这个带宽越小则一般稀疏性越强,这个带宽越大则一般稀疏性越弱。换句话说,一般稀疏性越强,则音频帧的能量越集中,一般稀疏性越弱,则音频帧的能量越分散。第一编码方法对一般稀疏性较强的音频帧编码效率高。因此,可以通过判断音频帧的一般稀疏性选择合适的编码方法对音频帧进行编码。为了便于判断音频帧的一般稀疏性,可以将一般稀疏性进行量化得到一般稀疏性参数。可选的,当N取1的情况下,该一般稀疏性就是当前音频帧的特定比例能量在频谱上分布的最小带宽。
可选的,作为一个实施例,该一般稀疏性参数包括第一最小带宽。在此情况下,处理器301,具体用于根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值为该第一最小带宽。处理器301,具体用于在该第一最小带宽小于第一预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一最小带宽大于该第一预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。
本领域技术人员可以理解,该第一预设值和该第一预设比例可以根据仿真试验确定。通过仿真试验可以确定适当的第一预设值和第一预设比例,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。
处理器301,具体用于分别将该每一个音频帧的P个频谱包络的能量从大到小排序,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽的平均值。例如,处理器301获取的音频信号是16kHz采样的宽带信号,获取的音频信号以30ms为一帧被获取。每帧信号为330个时域采样点。处理器301可以对时域信号做时频变换,例如采用快速傅里叶变换(Fast Fourier Transformation,FFT)进行时频变换,得到130个频谱包络S(k),即130个FFT能量谱系数,其中k=0,1,2,…,159。处理器301可以在频谱包络S(k)中寻找一个最小带宽,使得该带宽上的能量占该帧总能量的比例为第一预设比例。具体来说,处理器301可以将频谱包络S(k)中的频点能量由大到小依次进行累加;每一次进行累加后与该音频帧的总能量进行比较,如果比值大于第一预设比例,则中止累加过程,累加的次数即为最小带宽。例如,第一预设比例为90%,累加30次的能量之和占总能量的比例超过了90%,则可以认为该音频帧的不小于第一预设比例的能量的最小带宽为30。处理器301可以对N个音频帧分别执行上述确定最小带宽的过程。分别确定包括当前音频帧在内的N个音频帧的不小于第一预设比例的能量的最小带宽。处理器301可以计算N个不小于第一预设比例的能量的最小带宽的平均值。这个N个不小于第一预设比例的能量的最小带宽的平均值可以称为第一最小带宽,该第一最小带宽可以作为该一般稀疏性参数。在该第一最小带宽小于第一预设值的情况下,处理器301可以确定采用第一编码方法对该当前音频帧进行编码。在该第一最小带宽大于该第一预设值的情况下,处理器301可以确定采用该第二编码方法对该当前音频帧进行编码。
可选的,作为另一个实施例,该一般稀疏性参数可以包括第一能量比例。在此情况下,处理器301,具体用于从该N个音频帧中每个音频帧的P个频谱包络中分别选择P1个频谱包络,根据该N个音频帧中每个音频帧的P1个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第一能量比例,其中P1为小于P的正整数。处理器301,具体用于在该第一能量比例大于第二预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第一能量比例小于该第二预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧,处理器301,具体用于根据该当前音频帧的P1个频谱包络的能量与该当前音频帧的总能量确定该第一能量比例。处理器301,具体用于根据该P个频谱包络的能量确定该P1个频谱包络,其中该P1个频谱包络中任一个频谱包络的能量大于该P个频谱包络中除该P1个频谱包络外的其他频谱包络中的任一个频谱包络的能量。
具体地,处理器301可以利用以下公式计算该第一能量比例:
Figure BDA0001255369490000261
其中,R1表示该第一能量比例,Ep1(n)表示第n个音频帧中选定的P1个频谱包络的能量之和,Eall(n)表示第n个音频帧的总能量,r(n)表示N个音频帧中的第n个音频帧的P1个频谱包络的能量占该音频帧的总能量的比例。
本领域技术人员可以理解,该第二预设值和该P1个频谱包络的选择可以根据仿真试验确定。通过仿真试验可以确定适当的第二预设值和P1的值以及选择P1个频谱包络的方法,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。可选的,作为一个实施例,该P1个频谱包络可以是该P个频谱包络中能量最大的P1个频谱包络。
举例来说,处理器301获取的音频信号是16kHz采样的宽带信号,获取的音频信号以30ms为一帧被获取。每帧信号为330个时域采样点。处理器301可以对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到130个频谱包络S(k),其中k=0,1,2,…,159。处理器301可以从该130个频谱包络中选择P1个频谱包络,计算这P1个频谱包络的能量之和占该音频帧的总能量的比例。处理器301可以对N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P1个频谱包络的能量之和占各自的总能量的比例。处理器301可以计算比例的平均值,这个比例的平均值即为该第一能量比例。在该第一能量比例大于第二预设值的情况下,处理器301可以确定采用第一编码方法对该当前音频帧进行编码。在该第一能量比例小于该第二预设值的情况下,处理器301可以确定采用第二编码方法对该当前音频帧进行编码。该P1个频谱包络可以是该P个频谱包络中能量最大的P1个频谱包络。也就是说,处理器301,具体用于从该N个音频帧中每个音频帧的P个频谱包络中确定能量最大的P1个频谱包络。可选的,作为一个实施例,P1的取值可以为30。
可选的,作为另一个实施例,该一般稀疏性参数可以包括第二最小带宽和第三最小带宽。在此情况下,处理器301,具体用于根据该N个音频帧的每一个音频帧的P个频谱包络的能量,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值,该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值作为该第二最小带宽,该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值作为该第三最小带宽,其中该第二预设比例小于该第三预设比例。处理器301,具体用于在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三最小带宽小于第五预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,或者,在该第三最小带宽大于第六预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧。处理器301可以根据该当前音频帧的第二预设比例能量在频谱上分布的最小带宽作为该第二最小带宽。处理器301可以根据该当前音频帧的第三预设比例能量在频谱上分布的最小带宽作为该第三最小带宽。
本领域技术人员可以理解,该第三预设值、第四预设值、第五预设值、第六预设值、该第二预设比例和该第三预设比例可以根据仿真试验确定。通过仿真试验可以确定适当的预设值和预设比例,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。
该处理器301,具体用于分别将该每一个音频帧的P个频谱包络的能量从大到小排序,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的第二预设比例的能量在频谱上分布的最小带宽的平均值,根据该N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,根据该N个音频帧中每一个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽,确定该N个音频帧的第三预设比例的能量在频谱上分布的最小带宽的平均值。举例来说,处理器301获取的音频信号是16kHz采样的宽带信号,获取的音频信号以30ms为一帧被获取。每帧信号为330个时域采样点。处理器301可以对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到130个频谱包络S(k),其中k=0,1,2,…,159。处理器301可以在频谱包络S(k)中寻找一个最小带宽,使得该带宽上的能量占该帧总能量的比例不小于第二预设比例。处理器301可以继续在频谱包括S(k)中寻找一个带宽,使得该带宽上的能量占总能量的比例不小于第三预设比例。具体来说,处理器301可以将频谱包括S(k)中的频点能量由大到小依次进行累加。每一次进行累加后与该音频帧的总能量进行比较,如果比值大于第二预设比例,则累加的次数即为不小于第二预设比例的最小带宽。处理器301可以继续进行累加,如果累加后与该音频帧总能量的比值大于第三预设比例,则中止累加,累加次数为不小于第三预设比例的最小带宽。例如,第二预设比例为85%,第三预设比例为95%。累加30次的能量之和占总能量的比例超过了85%,则可以认为该音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽为30。继续进行累加,如果累加了35次的能量之和占总能量的比例为95,则可以认为该音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽为35。处理器301可以对N个音频帧分别执行上述过程。处理器301可以分别确定包括当前音频帧在内的N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽和不小于第三预设比例的能量在频谱上分布的最小带宽。该N个音频帧的不小于第二预设比例的能量在频谱上分布的最小带宽的平均值即为该第二最小带宽。该N个音频帧的不小于第三预设比例的能量在频谱上分布的最小带宽的平均值即为该第三最小带宽。在该第二最小带宽小于第三预设值且该第三最小带宽小于第四预设值的情况下,处理器301可以确定采用第一编码方法对该当前音频帧进行编码。在该第三最小带宽小于第五预设值的情况下,处理器301可以确定采用该第一编码方法对该当前音频帧进行编码。在该第三最小带宽大于第六预设值的情况下,处理器301可以确定采用第二编码方法对该当前音频帧进行编码。
可选的,作为另一个实施例,该一般稀疏性参数包括第二能量比例和第三能量比例。在此情况下,处理器301,具体用于从该N个音频帧中每个音频帧的P个频谱包络中分别选择P2个频谱包络,根据该N个音频帧中每个音频帧的P2个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第二能量比例,从该N个音频帧中每个音频帧的P个频谱包络中分别选择P3个频谱包络,根据该N个音频帧中每个音频帧的P3个频谱包络的能量与该N个音频帧的每个音频帧的总能量,确定该第三能量比例,其中P2和P3为小于P的正整数,且P2小于P3。处理器301,具体用于在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第二能量比例大于第九预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码,在该第三能量比例小于第十预设值的情况下,确定采用该第二编码方法对该当前音频帧进行编码。可选的,作为一个实施例,在N取1的情况下,该N个音频帧就是该当前音频帧。处理器301可以根据该当前音频帧的P2个频谱包络的能量与该当前音频帧的总能量,确定该第二能量比例。处理器301可以根据该当前音频帧的P3个频谱包络的能量与该当前音频帧的总能量,确定该第三能量比例。
本领域技术人员可以理解,P2和P3的值,以及该第七预设值、该第八预设值、该第九预设值和该第十预设值可以根据仿真试验确定。通过仿真试验可以确定适当的预设值,从而使得满足上述条件的音频帧在采用第一编码方法或第二编码方法时可以获得较好的编码效果。可选的,作为一个实施例,处理器301,具体用于从该N个音频帧中每个音频帧的P个频谱包络中能量最大的P2个频谱包络,从该N个音频帧中每个音频帧的P个频谱包络中能量最大的P3个频谱包络。
举例来说,处理器301获取的音频信号是16kHz采样的宽带信号,获取的音频信号以30ms为一帧被获取。每帧信号为330个时域采样点。处理器301可以对时域信号做时频变换,例如采用快速傅里叶变换进行时频变换,得到130个频谱包络S(k),其中k=0,1,2,…,159。处理器301可以从该130个频谱包络中选择P2个频谱包络,计算这P2个频谱包络的能量之和占该音频帧的总能量的比例。处理器301可以对N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P2个频谱包络的能量之和占各自总能量的比例。处理器301可以计算比例的平均值,这个比例的平均值即为该第二能量比例。处理器301可以从该130个频谱包络中选择P3个频谱包络,计算这P3个频谱包络的能量之和占该音频帧的总能量的比例。处理器301可以对该N个音频帧分别执行上述过程,即分别计算N个音频帧中每一个音频帧的P2个频谱包络的能量之和占各自总能量的比例。处理器301可以计算比例的平均值,这个比例的平均值即为该第三能量比例。在该第二能量比例大于第七预设值且该第三能量比例大于第八预设值的情况下,处理器301可以确定采用该第一编码方法对该当前音频帧进行编码。在该第二能量比例大于第九预设值的情况下,处理器301可以确定采用该第一编码方法对该当前音频帧进行编码。在该第三能量比例小于第十预设值的情况下,处理器301可以确定采用该第二编码方法对该当前音频帧进行编码。该P2个频谱包络可以是该P个频谱包络中能量最大的P2个频谱包络;该P3个频谱包络可以是该P个频谱包络中能量最大的P3个频谱包络。可选的,作为一个实施例,P2的取值可以为30,P3的取值可以为30。
可选的,作为另一实施例,可以通过突发稀疏性为该当前音频帧选择合适的编码方法。突发稀疏性需要考虑音频帧的能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。在此情况下,该能量在频谱上分布的稀疏性可以包括能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性。在此情况下,N可以取值为1,该N个音频帧就是该当前音频帧。处理器301,具体用于将该当前音频帧的频谱划分为Q个子带,根据该当前音频帧频谱的Q个子带中的每个子带的峰值能量,确定突发稀疏性参数,其中该突发稀疏性参数用于表示该当前音频帧的全局稀疏性、局部稀疏性以及短时突发性。
具体地,处理器301,具体用于确定该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动,其中该全局峰均比是处理器301根据子带内的峰值能量和该当前音频帧的全部子带的平均能量确定的,该局部峰均比是处理器301根据子带内的峰值能量和子带内的平均能量确定的,该短时峰值能量波动是根据子带内的峰值能量和该音频帧之前的音频帧的特定频带内的峰值能量确定的。该Q个子带中每个子带的全局峰均比、该Q个子带中每个子带的局部峰均比和该Q个子带中每个子带的短时能量波动分别表示该全局稀疏性、该局部稀疏性以及该短时突发性。处理器301,具体用于确定该Q个子带中是否存在第一子带,其中该第一子带的局部峰均比大于第十一预设值,该第一子带的全局峰均比大于第十二预设值,该第一子带的短时峰值能量波动大于第十三预设值,在该Q个子带中存在该第一子带的情况下,确定采用该第一编码方法对该当前音频帧进行编码。
具体地,处理器301可以采用以下公式确定该全局峰均比:
Figure BDA0001255369490000291
其中,e(i)表示Q个子带中第i个子带的峰值能量,s(k)表示P个频谱包络中第k个频谱包络的能量。p2s(i)表示第i个子带的全局峰均比。
处理器301可以采用以下公式确定该局部峰均比:
Figure BDA0001255369490000292
其中,e(i)表示Q个子带中第i个子带的峰值能量,s(k)表示P个频谱包络中第k个频谱包络的能量,h(i)表示第i个子带所含频率最高的频谱包络的索引,l(i)表示第i个子带所含频率最低的频谱包络的索引。p2a(i)表示第i个子带的局部峰均比。其中h(i)小于等于P-1。
处理器301可以采用以下公式确定该短时峰值能量波动:
dev(i)=(2*e(i))/(e1+e2),...................................公式1.9
其中,e(i)表示当前音频帧的Q个子带中第i个子带的峰值能量,e1和e2表示该当前音频帧之前的音频帧中特定频带的峰值能量。具体地,假设当前音频帧为第M个音频帧,确定该当前音频帧的第i个子带的峰值能量所在的频谱包络。假设该峰值能量所在的频谱包络位置为i1。确定第(M-1)个音频帧中(i1-t)频谱包络至(i1+t)频谱包络范围内的峰值能量,该峰值能量即为e1。类似的,确定第(M-2)个音频帧中(i1-t)频谱包络至(i1+t)频谱包络范围内的峰值能量,该峰值能量即为e2
本领域技术人员可以理解,该第十一预设值、第十二预设值、第十三预设值可以根据仿真试验确定。通过仿真试验可以确定适当的预设值,从而使得满足上述条件的音频帧在采用第一编码方法时可以获得较好的编码效果。
可选的,作为另一个实施例,可以通过带限稀疏性为该当前音频帧选择合适的编码方法。在此情况下,该能量在频谱上分布的稀疏性包括能量在频谱上分布的带限稀疏性。在此情况下,处理器301,具体用于确定该N个音频帧中每个音频帧的分界频率。处理器301,具体用于根据该N个音频帧中每个音频帧的分界频率,确定带限稀疏性参数。
本领域技术人员可以理解,该第四预设比例和该第十四预设值的取值可以根据仿真实验确定。根据仿真实验,可以确定适当的预设值和预设比例,从而使得满足上述条件的音频帧在采用第一编码方法时可以获得较好的编码效果。
举例来说,处理器301可以确定该当前音频帧的P个频谱包络中每一个频谱包络的能量,从低频到高频搜索分界频率,使得小于该分界频率的能量占该当前音频帧总能量的比值为第四预设比例。该带限稀疏性参数还可以是该N个音频帧的分界频率的平均值。在此情况下,处理器301,具体用于在确定该音频帧的带限稀疏性参数小于第十四预设值的情况下,确定采用该第一编码方法对该当前音频帧进行编码。假设N为1,则该当前音频帧的分界频率即为该带限稀疏性参数。假设N为大于1的整数,则处理器301可以确定N个音频帧的分界频率的平均值即为该带限稀疏性参数。本领域技术人员可以理解,上述确定分界频率仅是一个例子。确定分界频率的方法还可以是从高频到低频搜索分界频率或者其他方法。
进一步,为了避免频繁地切换第一编码方法和第二编码方法,处理器301还可以用于设置拖尾区间。处理器301可以用于确定拖尾区间内的音频帧可以采用拖尾区间起始位置音频帧采用的编码方法。这样,就可以避免频繁切换不同的编码方法引起的切换质量的下降。
如果拖尾区间的拖尾长度为L,则处理器301可以用于确定在该当前音频帧之后的L个音频帧均属于该当前音频帧的拖尾区间。如果属于拖尾区间内的某一音频帧的能量在频谱上分布的稀疏性与该拖尾区间起始位置音频帧的能量在频谱上分布的稀疏性不同,则处理器301可以用于确定该音频帧仍采用与该拖尾区间起始位置音频帧相同的编码方法进行编码。
拖尾区间的长度可以根据拖尾区间内的音频帧的能量在频谱上分布的稀疏性更新,直到拖尾区间的长度为0。
举例来说,如果处理器301确定第I个音频帧采用第一编码方法且预设拖尾区间长度为L,则处理器301可以确定该第I+1个音频帧至第I+L个音频帧均采用该第一编码方法。然后,处理器301可以确定该第I+1个音频帧的能量在频谱上分布的稀疏性,根据该第I+1个音频帧的能量在频谱上分布的稀疏性重新计算拖尾区间。如果第I+1个音频帧仍符合采用第一编码方法的条件,则处理器301可以确定后续拖尾区间仍然是预设拖尾区间L。也就是说,拖尾区间从第L+2个音频帧开始到第(I+1+L)个音频帧。如果第I+1个音频帧不符合采用第一编码方法的条件,则处理器301可以根据该I+1个音频帧的能量在频谱上分布的稀疏性,重新确定拖尾区间。例如,处理器301可以重新确定确定拖尾区间为L-L1,其中L1为小于或等于L的正整数。如果L1等于L,则拖尾区间的长度更新为0。在此情况下,处理器301可以根据该第I+1个音频帧的能量在频谱上分布的稀疏性重新确定编码方法。如果L1为小于L的整数,则处理器301可以根据第(I+1+L-L1)个音频帧的能量在频谱上分布的稀疏性重新确定编码方法。但是由于第I+1个音频帧位于第I个音频帧的拖尾区间内,第I+1个音频帧仍采用第一编码方法进行编码。L1可以称为拖尾更新参数,该拖尾更新参数的取值可以根据输入的音频帧的能量在频谱上分布的稀疏性来确定。这样,拖尾区间的更新与音频帧的能量在频谱上分布的稀疏性相关。
例如,在确定了一般稀疏性参数且该一般稀疏性参数为第一最小带宽的情况下,处理器301可以根据音频帧的第一预设比例的能量在频谱上分布的最小带宽重新确定该拖尾区间。假设确定采用第一编码方法对第I个音频帧进行编码,且预设的拖尾区间为L。处理器301可以确定包括第I+1个音频帧在内的连续H个音频帧中每一个音频帧的第一预设比例的能量在频谱上分布的最小带宽,其中H为大于0的正整数。如果第I+1个音频帧不满足使用第一编码方法的条件,则处理器301可以确定第一预设比例的能量在频谱上分布的最小带宽小于第十五预设值的音频帧的数量(以下简称该数量为第一拖尾参数)。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于第十六预设值且小于第十七预设值,并且该第一拖尾参数小于第十八预设值的情况下,处理器301可以将拖尾区间长度减1,即拖尾更新参数为1。该第十六预设值大于第一预设值。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于该第十七预设值且小于该第十九预设值,并且该第一拖尾参数小于该第十八预设值的情况下,处理器301可以将该拖尾区间长度减2,即拖尾更新参数为2。在该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽大于该第十九预设值的情况下,处理器301可以将拖尾区间设置为0。在该第一拖尾参数以及该第L+1个音频帧的第一预设比例的能量在频谱上分布的最小带宽不满足上述第十六预设值至第十九预设值中的一个或多个预设值的情况下,处理器301可以确定拖尾区间保持不变。
本领域技术人员可以理解,该预设的拖尾区间可以根据实际情况进行设置,拖尾更新参数也可以根据实际情况进行调整。该第十五预设值至该第十九预设值可以根据实际情况进行调整,从而可以设置不同的拖尾区间。
类似的,当该一般稀疏性参数包括第二最小带宽和第三最小带宽,或者,该一般稀疏性参数包括第一能量比例,或者,该一般稀疏性参数包括第二能量比例和第三能量比例的情况下,处理器301可以设置相应的预设的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数,从而可以确定相应的拖尾区间,避免频繁地切换编码方法。
在根据的突发稀疏性确定编码方法(即根据音频帧的能量在频谱上分布的全局稀疏性、局部稀疏性以及短时突发性确定编码方法)的情况下,处理器301也可以设置相应的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数以避免频繁地切换编码方法。在此情况下,该拖尾区间可以小于一般稀疏性参数时设置的拖尾区间。
在根据能量在频谱上分布的带限特性确定编码方法的情况下,处理器301也可以设置相应的拖尾区间、拖尾更新参数以及用于确定拖尾更新参数的相关参数以避免频繁地切换编码方法。例如,处理器301可以通过计算输入的音频帧的低频谱包络的能量与所有频谱包络的能量的比值,根据该比值确定该拖尾更新参数。具体地,处理器301可以采用以下公式确定低频谱包络的能量与所有频谱包络的能量的比值:
Figure BDA0001255369490000321
其中,Rlow表示低频谱包络的能量与所有频谱包络的能量的比值,s(k)表示第k个频谱包络的能量,y表示低频带的最高频谱包络的索引,P表示该音频帧总共被划分为P个频谱包络。在此情况下,如果Rlow大于第二十预设值,则该拖尾更新参数为0。如果Rlow大于第二十一预设值,则拖尾更新参数可以取较小的值,其中该第二十预设值大于该第二十一预设值。如果Rlow不大于第二十一预设值,则该拖尾参数可以取较大的值。本领域技术人员可以理解,该第二十预设值和该第二十一预设值可以根据仿真实验确定,该拖尾更新参数的取值也可以根据试验确定。
此外,在根据能量在频谱上分布的带限特性确定编码方法的情况下,处理器301还可以确定输入的音频帧的分界频率,根据该分界频率确定该拖尾更新参数,其中该分界频率可以与用于确定带限稀疏性参数的分界频率不同。如果该分界频率小于第二十二预设值,则处理器301可以确定该拖尾更新参数为0。如果该分界频率小于第二十三预设值,则处理器301可以确定该拖尾更新参数取值较小。如果该分界频率大于该第二十三预设值,则处理器301可以确定该拖尾更新参数可以取较大的值。本领域技术人员可以理解,该第二十二预设值和该第二十三预设值可以根据仿真实验确定,该拖尾更新参数的取值也可以根据试验确定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种音频编码的方法,其特征在于,所述音频编码的方法由处理器实现,所述方法包括:
确定输入的N个音频帧的能量在频谱上分布的稀疏性,其中所述N个音频帧包括当前音频帧,N为正整数;
根据所述N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对所述当前音频帧进行编码,其中所述第一编码方法为基于时频变换和变换系数量化且不基于线性预测的编码方法,所述第二编码方法为基于线性预测的编码方法;
所述确定输入的N个音频帧的能量在频谱上分布的稀疏性,包括:
将所述N个音频帧的每一个音频帧的频谱划分为P个频谱包络,其中P为正整数;
根据所述N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,所述一般稀疏性参数表示所述N个音频帧的能量在频谱上分布的稀疏性;
其中,所述一般稀疏性参数包括第一最小带宽;所述根据所述N个音频帧的每一个音频帧的P个频谱包络的能量确定一般稀疏性参数,包括:
根据所述N个音频帧的每一个音频帧的P个频谱包络的能量,确定所述N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,所述N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值为所述第一最小带宽;
所述根据所述N个音频帧的能量在频谱上分布的稀疏性,确定采用第一编码方法或第二编码方法对所述当前音频帧进行编码,包括:
在所述第一最小带宽大于所述第一预设值的情况下,确定采用所述第二编码方法对所述当前音频帧进行编码。
2.如权利要求1所述的音频编码的方法,其特征在于,还包括:
在所述第一最小带宽小于第一预设值的情况下,确定采用所述第一编码方法对所述当前音频帧进行编码。
3.如权利要求1或2所述的音频编码的方法,其特征在于,所述根据所述N个音频帧的每一个音频帧的P个频谱包络的能量,确定所述N个音频帧的第一预设比例的能量在频谱上分布的最小带宽的平均值,包括:
分别将所述每一个音频帧的P个频谱包络的能量从大到小排序;
根据所述N个音频帧中的每一个音频帧的从大到小排序的P个频谱包络的能量,确定所述N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽;
根据所述N个音频帧中每一个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽,确定所述N个音频帧的不小于第一预设比例的能量在频谱上分布的最小带宽的平均值。
4.如权利要求3所述的音频编码的方法,其特征在于,每一个音频帧的所述最小带宽通过以下方法确定:
将一个音频帧的P个频谱包络的频点能量从大到小依次进行累加;
每一次进行累加后与该音频帧的总能量进行比较;
如果比值大于所述第一预设比例,则中止累加过程,累加的次数即为所述最小带宽。
5.一种音频编码装置,其特征在于,所述音频编码装置包括:处理器以及存储器,所述存储器存储有指令,所述处理器用于读取所述存储器中存储的所述指令来执行如权利要求1-4任一项所述的方法。
CN201710188022.9A 2014-06-24 2014-06-24 音频编码方法和装置 Active CN107424621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710188022.9A CN107424621B (zh) 2014-06-24 2014-06-24 音频编码方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410288983.3A CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置
CN201710188022.9A CN107424621B (zh) 2014-06-24 2014-06-24 音频编码方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201410288983.3A Division CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置

Publications (2)

Publication Number Publication Date
CN107424621A CN107424621A (zh) 2017-12-01
CN107424621B true CN107424621B (zh) 2021-10-26

Family

ID=54936800

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201710188023.3A Active CN107424622B (zh) 2014-06-24 2014-06-24 音频编码方法和装置
CN201710188022.9A Active CN107424621B (zh) 2014-06-24 2014-06-24 音频编码方法和装置
CN201410288983.3A Active CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710188023.3A Active CN107424622B (zh) 2014-06-24 2014-06-24 音频编码方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201410288983.3A Active CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置

Country Status (17)

Country Link
US (3) US9761239B2 (zh)
EP (2) EP3144933B1 (zh)
JP (1) JP6426211B2 (zh)
KR (2) KR101960152B1 (zh)
CN (3) CN107424622B (zh)
AU (2) AU2015281506B2 (zh)
BR (1) BR112016029380B1 (zh)
CA (1) CA2951593C (zh)
DK (1) DK3460794T3 (zh)
ES (2) ES2703199T3 (zh)
HK (1) HK1220542A1 (zh)
MX (1) MX361248B (zh)
MY (1) MY173129A (zh)
PT (1) PT3144933T (zh)
RU (1) RU2667380C2 (zh)
SG (1) SG11201610302TA (zh)
WO (1) WO2015196968A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424622B (zh) 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101523486A (zh) * 2006-10-10 2009-09-02 高通股份有限公司 用于编码和解码音频信号的方法和设备
CN102044244A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 信号分类方法和装置
CN103069482A (zh) * 2010-08-17 2013-04-24 高通股份有限公司 用于噪声注入的系统、方法、设备和计算机可读媒体
CN103778919A (zh) * 2014-01-21 2014-05-07 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
CN105336338B (zh) * 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI101439B (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
DE102005046993B3 (de) 2005-09-30 2007-02-22 Infineon Technologies Ag Vorrichtung und Verfahren zum Erzeugen eines Leistungssignals aus einem Laststrom
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101149449B1 (ko) 2007-03-20 2012-05-25 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
JP5108960B2 (ja) * 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
EP2139000B1 (en) * 2008-06-25 2011-05-25 Thomson Licensing Method and apparatus for encoding or decoding a speech and/or non-speech audio input signal
WO2010005224A2 (en) * 2008-07-07 2010-01-14 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CA2730196C (en) * 2008-07-11 2014-10-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
CN101800050B (zh) * 2010-02-03 2012-10-10 武汉大学 基于感知自适应比特分配的音频精细分级编码方法及系统
US20130114733A1 (en) 2010-07-05 2013-05-09 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, device, program, and recording medium
US8484023B2 (en) 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
WO2012146290A1 (en) * 2011-04-28 2012-11-01 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
EP2770506A4 (en) 2011-10-19 2015-02-25 Panasonic Ip Corp America CODING DEVICE AND CODING METHOD
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
CN105976824B (zh) 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
CN103747237B (zh) * 2013-02-06 2015-04-29 华为技术有限公司 视频编码质量的评估方法及设备
CN103280221B (zh) 2013-05-09 2015-07-29 北京大学 一种基于基追踪的音频无损压缩编码、解码方法及系统
CN104217730B (zh) * 2014-08-18 2017-07-21 大连理工大学 一种基于k‑svd的人工语音带宽扩展方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101523486A (zh) * 2006-10-10 2009-09-02 高通股份有限公司 用于编码和解码音频信号的方法和设备
CN102044244A (zh) * 2009-10-15 2011-05-04 华为技术有限公司 信号分类方法和装置
CN103069482A (zh) * 2010-08-17 2013-04-24 高通股份有限公司 用于噪声注入的系统、方法、设备和计算机可读媒体
CN103778919A (zh) * 2014-01-21 2014-05-07 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
CN105336338B (zh) * 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置

Also Published As

Publication number Publication date
KR20190029778A (ko) 2019-03-20
US20190311727A1 (en) 2019-10-10
BR112016029380A2 (pt) 2017-08-22
EP3144933B1 (en) 2018-09-26
WO2015196968A1 (zh) 2015-12-30
KR102051928B1 (ko) 2019-12-04
MX361248B (es) 2018-11-30
US11074922B2 (en) 2021-07-27
PT3144933T (pt) 2018-12-18
AU2018203619A1 (en) 2018-06-14
BR112016029380B1 (pt) 2020-10-13
EP3144933A1 (en) 2017-03-22
JP2017523455A (ja) 2017-08-17
AU2015281506A1 (en) 2017-01-05
MY173129A (en) 2019-12-30
CA2951593A1 (en) 2015-12-30
ES2703199T3 (es) 2019-03-07
US20170345436A1 (en) 2017-11-30
CN107424622A (zh) 2017-12-01
SG11201610302TA (en) 2017-01-27
AU2018203619B2 (en) 2020-02-13
CN105336338A (zh) 2016-02-17
CN107424622B (zh) 2020-12-25
US20170103768A1 (en) 2017-04-13
EP3460794B1 (en) 2021-05-26
KR20170015354A (ko) 2017-02-08
CN107424621A (zh) 2017-12-01
AU2015281506B2 (en) 2018-02-22
KR101960152B1 (ko) 2019-03-19
US9761239B2 (en) 2017-09-12
JP6426211B2 (ja) 2018-11-21
RU2017101813A3 (zh) 2018-07-27
MX2016016564A (es) 2017-04-25
CN105336338B (zh) 2017-04-12
ES2883685T3 (es) 2021-12-09
EP3144933A4 (en) 2017-03-22
HK1220542A1 (zh) 2017-05-05
RU2667380C2 (ru) 2018-09-19
DK3460794T3 (da) 2021-08-16
CA2951593C (en) 2019-02-19
EP3460794A1 (en) 2019-03-27
US10347267B2 (en) 2019-07-09
RU2017101813A (ru) 2018-07-27

Similar Documents

Publication Publication Date Title
EP2613315B1 (en) Method and device for coding an audio signal
CN110265047B (zh) 音频信号的解码方法和解码器、介质以及编码方法
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
JP7144499B2 (ja) 信号処理方法及び装置
EP2892052A1 (en) Bit allocation method and device for audio signal
US11074922B2 (en) Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
JP2017515155A (ja) 音声情報を用いる改善されたフレーム消失補正
EP3707713B1 (en) Controlling bandwidth in encoders and/or decoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant