CN107452390A - 音频编码方法及相关装置 - Google Patents
音频编码方法及相关装置 Download PDFInfo
- Publication number
- CN107452390A CN107452390A CN201710188290.0A CN201710188290A CN107452390A CN 107452390 A CN107452390 A CN 107452390A CN 201710188290 A CN201710188290 A CN 201710188290A CN 107452390 A CN107452390 A CN 107452390A
- Authority
- CN
- China
- Prior art keywords
- audio frame
- linear
- efficiency
- current audio
- linear prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000000694 effects Effects 0.000 claims description 91
- 238000013507 mapping Methods 0.000 claims description 90
- 230000008859 change Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 description 131
- 230000015654 memory Effects 0.000 description 62
- 241000208340 Araliaceae Species 0.000 description 24
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 24
- 235000003140 Panax quinquefolius Nutrition 0.000 description 24
- 238000005314 correlation function Methods 0.000 description 24
- 235000008434 ginseng Nutrition 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 18
- 230000003044 adaptive effect Effects 0.000 description 14
- 238000013139 quantization Methods 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例提供了一种音频编码方法以及相关装置。一种音频编码方法,包括:估计当前音频帧的参考线性预测效率;确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式;按照与上述当前音频帧的参考线性预测效率匹配的音频编码方式对上述当前音频帧进行音频编码。本发明实施例提供的技术方案有利于降低音频编码的开销。
Description
技术领域
本发明涉及音频编码技术,具体涉及音频编码方法及相关装置。
背景技术
在过去相当长一段时期内,语音信号的编码和非语音信号(如音乐)的编码都是相对独立的,即语音信号的编码由专门的语音编码器实现,而非语音信号的编码由专门的非语音编码器(其中,非语音编码器也可称之为一般音频编码器)来实现。
其中,语音编码器一般不用来编码非语音信号,非语音编码器一般也不被用来编码语音信号,这不仅仅是因为语音编码和非语音信号编码在编码理论上的相对独立,也是因为这两种信号在实际应用中通常相对独立。例如在话音通信网络中,由于过去很长一段时间内,话音都是全部或主要的信源,且带宽限制严格,所以在话音通信网络中各种低速率的语音编码器被大量的使用。而在影音、娱乐等应用中,由于非语音信号占据信源的大多数且出于这些应用对音频质量的相对较高要求和码率的相对宽松,在这些场景下非语音编码器被大量的使用。
近些年,在传统的话音通信网络中出现了越来越多的多媒体信源,例如彩铃等等。这对编码器的编码质量提出了更高的要求,专门的语音编码器已不能提供这些多媒体信号所需的较高编码质量,新的编码技术如混合音频编码器应运而生。
其中,所谓混合音频编码器,即一个音频编码器中既包含有适合编码语音信号的子编码器,也包含有适合编码非语音信号的子编码器。其中,混合音频编码器总是试图在所有子编码器中动态的选择最适合的一个子编码器对输入音频信号进行编码。其中,如何从所有子编码器中选出最适合的一个子编码器来对输入的当前音频帧进行编码,是混合编码器的一个重要功能和要求,对子编码器的选择也叫模式选择,这将直接关系到混合编码器的编码质量好坏。
现有技术一般采用闭环模式选择子编码器,即每个子编码器都用来对输入的当前音频帧进行一次编码,通过直接比较编码后的当前音频帧的质量好坏来选择最优的子编码器。但是,闭环模式选择的缺点是使得编码运算复杂度相对很高(因为每个子编码器都用来对输入的当前音频帧进行一次编码),进而使得实际音频编码的开销变得较大。
发明内容
本发明实施例提供了一种音频编码方法以及相关装置,以期降低音频编码的开销。
本发明实施例第一方面提供一种音频编码方法,包括:
估计当前音频帧的参考线性预测效率;
确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式;
按照与所述当前音频帧的参考线性预测效率匹配的音频编码方式对所述当前音频帧进行音频编码。
结合第一方面,在第一方面的第一种可能的实施方式中,
所述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率。
结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,所述参考综合线性预测效率为所述参考长时线性预测效率和所述参考短时线性预测效率的和值、加权和值或平均值。
结合第一方面的第一种可能的实施方式,在第一方面的第三种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考长时线性预测效率和所述当前音频帧的参考短时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:
若所述当前音频帧的参考长时线性预测效率小于第一阈值,和/或所述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;
和/或,
若所述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或所述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
结合第一方面的第一种可能的实施方式,在第一方面的第四种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考长时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:
若所述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,若所述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
结合第一方面的第一种可能的实施方式,在第一方面的第五种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考长时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定所述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,所述第一音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
结合第一方面的第一种可能的实施方式,在第一方面的第六种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:
若所述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,若所述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
结合第一方面的第一种可能的实施方式,在第一方面的第七种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定所述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第二线性预测效率区间具有映射关系的第二音频编码方式,其中,所述第二音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第二音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
结合第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第八种可能的实施方式中,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考综合线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:
若所述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,若所述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
结合第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,在第一方面的第九种可能的实施方式中,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考综合线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定所述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第三线性预测效率区间具有映射关系的第三音频编码方式,其中,所述第三音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第三音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
结合第一方面的第一至九种可能的实施方式,在第一方面的第十种可能的实施方式中,所述当前音频帧的参考长时线性预测效率通过如下方式估计得到:估计当前音频帧的长时线性预测效率,其中,所述当前音频帧的长时线性预测效率为所述当前音频帧的参考长时线性预测效率;或者,
所述当前音频帧的参考长时线性预测效率通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取所述当前音频帧的N1个历史音频帧的线性预测效率;计算所述N1个历史音频帧的线性预测效率和所述当前音频帧的长时线性预测效率的第一统计值,其中,所述N1为正整数,所述第一统计值为所述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;所述N11个历史音频帧为所述N1个历史音频帧的子集;或者,
所述当前音频帧的参考长时线性预测效率通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取所述当前音频帧的N2个历史音频帧的参考线性预测效率;计算所述N2个历史音频帧的参考线性预测效率和所述当前音频帧的长时线性预测效率的第二统计值,其中,所述N2为正整数,所述第二统计值为所述当前音频帧的参考长时线性预测效率,其中,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,所述N21个历史音频帧为所述N2个历史音频帧的子集;或者,
所述当前音频帧的参考长时线性预测效率通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取所述当前音频帧的N4个历史音频帧的参考线性预测效率,获取所述当前音频帧的N3个历史音频帧的线性预测效率;计算所述N3个历史音频帧的线性预测效率、所述N4个历史音频帧的参考线性预测效率和所述当前音频帧的长时线性预测效率的第三统计值,其中,所述N3和所述N4为正整数,所述第三统计值为所述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N31个历史音频帧为所述N3个历史音频帧的子集,其中,所述N41个历史音频帧为所述N4个历史音频帧的子集。
结合第一方面的第一至九种可能的实施方式,在第一方面的第十一种可能的实施方式中,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计当前音频帧的短时线性预测效率,其中,所述当前音频帧的短时线性预测效率为所述当前音频帧的参考短时线性预测效率;或者,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N5个历史音频帧的线性预测效率;计算所述N5个历史音频帧的线性预测效率和所述当前音频帧的短时线性预测效率的第四统计值,其中,所述N5为正整数,所述第四统计值为所述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,所述N51个历史音频帧为所述N5个历史音频帧的子集;或者,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N6个历史音频帧的参考线性预测效率;计算所述N6个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第五统计值,其中,所述N6为正整数,所述第五统计值为所述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N61个历史音频帧为所述N6个历史音频帧的子集;或者,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N8个历史音频帧的参考线性预测效率;获取所述当前音频帧的N7个历史音频帧的线性预测效率;计算所述N7个历史音频帧的线性预测效率、所述N8个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第六统计值,其中,所述N7和所述N8为正整数,所述第六统计值为所述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N71个历史音频帧为所述N7个历史音频帧的子集,所述N81个历史音频帧为所述N8个历史音频帧的子集。
结合第一方面的第十一种可能的实施方式,在第一方面的第十二种可能的实施方式中,所述估计得到当前音频帧的短时线性预测效率,包括:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
结合第一方面的第十二种可能的实施方式,在第一方面的第十三种可能的实施方式中,所述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率,包括:
计算当前音频帧进行短时线性预测前后的能量变化率,其中,所述能量变化率为所述当前音频帧的短时线性预测效率,或者所述当前音频帧的短时线性预测效率基于所述能量变化率变换得到,其中,所述当前音频帧进行短时线性预测后的能量为所述当前音频帧的线性预测残差的能量。
结合第一方面的第十三种可能的实施方式,在第一方面的第十四种可能的实施方式中,所述当前音频帧进行短时线性预测前后的能量变化率为所述当前音频帧进行短时线性预测前的能量与所述当前音频帧的线性预测残差的能量的比值。
结合第一方面的第十种可能的实施方式,在第一方面的第十五种可能的实施方式中,
所述估计得到当前音频帧的长时线性预测效率包括:根据当前音频帧的线性预测残差与第一历史线性预测信号,得到所述当前音频帧的线性预测残差与所述第一历史线性预测信号之间的相关性,其中,所述相关性为所述当前音频帧的长时线性预测效率,或者所述当前音频帧的长时线性预测效率基于所述相关性得到,其中,所述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差;所述第一历史线性预测残差为所述当前音频帧的历史音频帧的线性预测残差,所述第一历史线性预测激励为所述当前音频帧的历史音频帧的线性预测激励。
结合第一方面的第十五种可能的实施方式,在第一方面的第十六种可能的实施方式中,所述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到所述当前音频帧的线性预测残差与所述第一历史线性预测信号之间的相关性,包括:
计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性;
或者,
将当前音频帧的线性预测残差乘以增益因子以得到所述当前音频帧的增益线性预测残差,计算得到所述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的所述当前音频帧的增益线性预测残差与所述第一历史线性预测信号之间的相关性,为所述当前音频帧的线性预测残差与所述第一历史线性预测信号之间的相关性;
或者,将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到所述当前音频帧的线性预测残差与所述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的所述当前音频帧的线性预测残差与所述增益后的第一历史线性预测信号之间的相关性,为所述当前音频帧的线性预测残差与所述第一历史线性预测信号之间的相关性。
结合第一方面的第十五种可能的实施方式或第一方面的第十六种可能的实施方式,在第一方面的第十七种可能的实施方式中,所述第一历史线性预测激励或第一历史线性预测残差基于所述当前音频帧的基音确定。
结合第一方面的第十五至十七种可能的实施方式,在第一方面的第十八种可能的实施方式中,所述第一历史线性预测激励与所述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与所述当前音频帧的线性预测残差在时域上的相关性;
或者,所述第一历史线性预测残差与所述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与所述当前音频帧的线性预测残差在时域上的相关性。
结合第一方面的第十五至十八种可能的实施方式,在第一方面的第十九种可能的实施方式中,所述第一历史线性预测激励为利用基于线性预测的编码方式对所述当前音频帧的历史音频帧进行音频编码而产生的线性预测激励。
结合第一方面的第十五至十九种可能的实施方式,在第一方面的第二十种可能的实施方式中,所述第一历史线性预测残差基于所述当前音频帧的第一历史音频帧的时域信号和所述第一历史音频帧的线性预测系数得到,其中,所述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。
结合第一方面的第十五至二十种可能的实施方式,在第一方面的第二十一种可能的实施方式中,所述当前音频帧的线性预测残差基于所述当前音频帧的时域信号和所述当前音频帧的线性预测系数得到,其中,所述当前音频帧的线性预测系数为量化后的线性预测系数或未经量化的线性预测系数。
结合第一方面的第十五至二十一种可能的实施方式,在第一方面的第二十二种可能的实施方式中,所述第一历史线性预测激励为自适应码本激励与固定码本激励的叠加激励,或者所述第一历史线性预测激励为自适应码本激励。
结合第一方面的第十五至二十二种可能的实施方式,在第一方面的第二十三种可能的实施方式中,所述相关性为时域上的互相关函数值和/或频域上的互相关函数值,或者所述相关性为时域上的失真和/或频域上的失真。
结合第一方面的二十三种可能的实施方式,在第一方面的第二十四种可能的实施方式中,所述频域上的失真为在频域上的K1个频点的失真的和值或加权和值,或者所述频域上的失真为在频域上的K2个子带上的失真的和值或加权和值,所述K1和所述K2为正整数。
结合第一方面的二十四种可能的实施方式,在第一方面的第二十五种可能的实施方式中,所述失真的加权和值所对应的加权系数为反映心理声学模型的感知加权系数。
本发明实施例第二方面提供一种音频编码器,包括:
估计单元,用于估计当前音频帧的参考线性预测效率;
确定单元,用于确定与所述估计单元估计出的所述当前音频帧的参考线性预测效率匹配的音频编码方式;
编码单元,用于按照所述确定单元确定出的与所述当前音频帧的参考线性预测效率匹配的音频编码方式,对所述当前音频帧进行音频编码。
结合第二方面,在第二方面的第一种可能的实施方式中,所述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率。
结合第二方面的第一种可能的实施方式,在第二方面的第二种可能的实施方式中,所述参考综合线性预测效率为所述参考长时线性预测效率和所述参考短时线性预测效率的和值、加权和值或平均值。
结合第二方面的第一种可能的实施方式,在第二方面的第三种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考长时线性预测效率和所述当前音频帧的参考短时线性预测效率,则确定单元具体用于:
若所述当前音频帧的参考长时线性预测效率小于第一阈值,和/或所述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;
和/或,
若所述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或所述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
结合第二方面的第一种可能的实施方式,在第二方面的第四种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考长时线性预测效率,则确定单元具体用于:
若所述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,若所述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
结合第二方面的第一种可能的实施方式,在第二方面的第五种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考长时线性预测效率,则所述确定单元具体用于:确定所述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,所述第一音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
结合第二方面的第一种可能的实施方式,在第二方面的第六种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定单元具体用于:
若所述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,若所述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
结合第二方面的第一种可能的实施方式,在第二方面的第七种可能的实施方式中,若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定单元具体用于:确定所述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第二线性预测效率区间具有映射关系的第二音频编码方式,其中,所述第二音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第二音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
结合第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式,在第二方面的第八种可能的实施方式中,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考综合线性预测效率,则所述确定单元具体用于:
若所述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,若所述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
结合第二方面的第一种可能的实施方式或第二方面的第二种可能的实施方式,在第二方面的第九种可能的实施方式中,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考综合线性预测效率,所述确定单元具体用于:确定所述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第三线性预测效率区间具有映射关系的第三音频编码方式,其中,所述第三音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第三音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
结合第二方面的第一至九种可能的实施方式,在第二方面的第十种可能的实施方式中,在估计当前音频帧的参考长时线性预测效率的方面,所述估计单元具体用于:估计当前音频帧的长时线性预测效率,其中,所述当前音频帧的长时线性预测效率为所述当前音频帧的参考长时线性预测效率;或者,
在估计所述当前音频帧的参考长时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的长时线性预测效率;获取所述当前音频帧的N1个历史音频帧的线性预测效率;计算所述N1个历史音频帧的线性预测效率和所述当前音频帧的长时线性预测效率的第一统计值,其中,所述N1为正整数,所述第一统计值为所述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;所述N11个历史音频帧为所述N1个历史音频帧的子集;或者,
在估计所述当前音频帧的参考长时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的长时线性预测效率;获取所述当前音频帧的N2个历史音频帧的参考线性预测效率;计算所述N2个历史音频帧的参考线性预测效率和所述当前音频帧的长时线性预测效率的第二统计值,其中,所述N2为正整数,其中,所述第二统计值为所述当前音频帧的参考长时线性预测效率,其中,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N21个历史音频帧为所述N2个历史音频帧的子集;或者,
在估计所述当前音频帧的参考长时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的长时线性预测效率;获取所述当前音频帧的N4个历史音频帧的参考线性预测效率,获取所述当前音频帧的N3个历史音频帧的线性预测效率;计算所述N3个历史音频帧的线性预测效率、所述N4个历史音频帧的参考线性预测效率和所述当前音频帧的长时线性预测效率的第三统计值,其中,所述N3和所述N4为正整数,所述第三统计值为所述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N31个历史音频帧为所述N3个历史音频帧的子集,所述N41个历史音频帧为所述N4个历史音频帧的子集。
结合第二方面的第一至九种可能的实施方式,在第二方面的第十一种可能的实施方式中,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计当前音频帧的短时线性预测效率,其中,所述当前音频帧的短时线性预测效率为所述当前音频帧的参考短时线性预测效率;
或者,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N5个历史音频帧的线性预测效率;计算所述N5个历史音频帧的线性预测效率和所述当前音频帧的短时线性预测效率的第四统计值,其中,所述N5为正整数,所述第四统计值为所述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,所述N51个历史音频帧为所述N5个历史音频帧的子集;或者,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N6个历史音频帧的参考线性预测效率;计算所述N6个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第五统计值,其中,所述N6为正整数,所述第五统计值为所述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N61个历史音频帧为所述N6个历史音频帧的子集;或者,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N8个历史音频帧的参考线性预测效率;获取所述当前音频帧的N7个历史音频帧的线性预测效率;计算所述N7个历史音频帧的线性预测效率、所述N8个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第六统计值,其中,所述N7和所述N8为正整数,所述第六统计值为所述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N71个历史音频帧为所述N7个历史音频帧的子集,所述N81个历史音频帧为所述N8个历史音频帧的子集。
结合第二方面的第十一种可能的实施方式,在第二方面的第十二种可能的实施方式中,在所述估计得到当前音频帧的短时线性预测效率的方面,所述估计单元具体用于:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
结合第二方面的第十二种可能的实施方式,在第二方面的第十三种可能的实施方式中,在所述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率的方面,所述估计单元具体用于:计算当前音频帧进行短时线性预测前后的能量变化率,其中,所述能量变化率为所述当前音频帧的短时线性预测效率,或者所述当前音频帧的短时线性预测效率基于所述能量变化率变换得到,其中,所述当前音频帧进行短时线性预测后的能量为所述当前音频帧的线性预测残差的能量。
结合第二方面的第十三种可能的实施方式,在第二方面的第十四种可能的实施方式中,所述当前音频帧进行短时线性预测前后的能量变化率,为所述当前音频帧进行短时线性预测前的能量与所述当前音频帧的线性预测残差的能量的比值。
结合第二方面的第十种可能的实施方式,在第二方面的第十五种可能的实施方式中,
在所述估计得到当前音频帧的长时线性预测效率的方面,所述估计单元具体用于:根据计算当前音频帧的线性预测残差和第一历史线性预测信号,得到当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性,其中,所述相关性为所述当前音频帧的长时线性预测效率,或者所述当前音频帧的长时线性预测效率基于所述相关性得到,其中,所述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差,所述第一历史线性预测残差为所述当前音频帧的历史音频帧的线性预测残差,所述第一历史线性预测激励为所述当前音频帧的历史音频帧的线性预测激励。
结合第二方面的第十五种可能的实施方式,在第二方面的第十六种可能的实施方式中,在所述根据计算当前音频帧的线性预测残差和第一历史线性预测信号,得到当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性的方面,所述估计单元具体用于:计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性;
或者,将当前音频帧的线性预测残差乘以增益因子以得到所述当前音频帧的增益线性预测残差,计算得到所述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的所述当前音频帧的增益线性预测残差与所述第一历史线性预测信号之间的相关性,为所述当前音频帧的线性预测残差与所述第一历史线性预测信号之间的相关性;
或者,将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到所述当前音频帧的线性预测残差与所述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的所述当前音频帧的线性预测残差与所述增益后的第一历史线性预测信号之间的相关性,为所述当前音频帧的线性预测残差与所述第一历史线性预测信号之间的相关性。
结合第二方面的第十五种可能的实施方式或第二方面的第十六种可能的实施方式,在第二方面的第十七种可能的实施方式中,所述第一历史线性预测激励或第一历史线性预测残差基于所述当前音频帧的基音确定。
结合第二方面的第十五至十七种可能的实施方式,在第二方面的第十八种可能的实施方式中,所述第一历史线性预测激励与所述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与所述当前音频帧的线性预测残差在时域上的相关性;
或者,所述第一历史线性预测残差与所述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与所述当前音频帧的线性预测残差在时域上的相关性。
结合第二方面的第十五至十八种可能的实施方式,在第二方面的第十九种可能的实施方式中,所述第一历史线性预测激励为利用基于线性预测的编码方式对所述当前音频帧的历史音频帧进行音频编码而产生的线性预测激励。
结合第二方面的第十五至十九种可能的实施方式,在第二方面的第二十种可能的实施方式中,所述第一历史线性预测残差基于所述当前音频帧的第一历史音频帧的时域信号和所述第一历史音频帧的线性预测系数得到,其中,所述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。
结合第二方面的第十五至二十种可能的实施方式,在第二方面的第二十一种可能的实施方式中,所述当前音频帧的线性预测残差基于所述当前音频帧的时域信号和所述当前音频帧的线性预测系数得到,其中,所述当前音频帧的线性预测系数为量化后的线性预测系数或未经量化的线性预测系数。
结合第二方面的第十五至二十一种可能的实施方式,在第二方面的第二十二种可能的实施方式中,所述第一历史线性预测激励为自适应码本激励与固定码本激励的叠加激励,或者所述第一历史线性预测激励为自适应码本激励。
结合第二方面的第十五至二十二种可能的实施方式,在第二方面的第二十三种可能的实施方式中,所述相关性为时域上的互相关函数值和/或频域上的互相关函数值,或者所述相关性为时域上的失真和/或频域上的失真。
结合第二方面的二十三种可能的实施方式,在第二方面的第二十四种可能的实施方式中,所述频域上的失真为在频域上的K1个频点的失真的和值或加权和值,或者所述频域上的失真为在频域上的K2个子带上的失真的和值或加权和值,所述K1和所述K2为正整数。
结合第二方面的二十四种可能的实施方式,在第二方面的第二十五种可能的实施方式中,所述失真的加权和值所对应的加权系数为反映心理声学模型的感知加权系数。
可以看出,在本发明一些实施例的技术方案中,由于是先估计当前音频帧的参考线性预测效率;通过估计出的上述当前音频帧的参考线性预测效率来确定与之匹配的音频编码方式,并按照确定出的与之匹配音频编码方式对上述当前音频帧进行音频编码,由于上述方案在确定音频编码方式的过程中,无需执行现有闭环选择模式所需要执行的利用每种音频编码方式分别将当前音频帧进行完整编码的操作,而是通过当前音频帧的参考线性预测效率来确定需选择的音频编码方式,而估计当前音频帧的参考线性预测效率的计算复杂度,通常是远远小于利用每种音频编码方式分别将当前音频帧进行完整编码的计算复杂度的,因此相对于现有机制而言,本发明实施例的上述技术方案有利于降低音频编码运算复杂度,进而降低音频编码的开销。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例提供的一种音频编码方法的流程示意图;
图2为本发明另一个实施例提供的另一种音频编码方法的流程示意图;
图3-a为本发明一个实施例提供的一种音频编码器的结构示意图;
图3-b为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-c为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-d为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-e为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-f为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-g为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-h为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图3-i为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图4为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图5为本发明另一个实施例提供的另一种音频编码器的结构示意图;
图6为本发明另一个实施例提供的另一种音频编码器的结构示意图。
具体实施方式
本发明实施例提供了一种音频编码方法以及相关装置,以期降低音频编码的开销。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面先介绍本发明实施例提供的音频编码方法,本发明实施例提供的音频编码方法的执行主体可为音频编码器,该音频编码器可为任何需要采集、存储或者向外传输音频信号的装置,例如手机、平板电脑、个人电脑、笔记本电脑等等。
本发明音频编码方法的一实施例,其中,一种音频编码方法可包括:估计当前音频帧的参考线性预测效率;确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式;按照与上述当前音频帧的参考线性预测效率匹配的音频编码方式,对上述当前音频帧进行音频编码。
首先请参见图1,图1为本发明的一个实施例提供的一种音频编码方法的流程示意图。其中,如图1所示,本发明实施例提供的一种音频编码方法可包括以下内容:
101、估计当前音频帧的参考线性预测效率。
在实际应用中,可以采用多种可用算法来估计当前音频帧的参考线性预测效率。
其中,在本发明的各实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。其中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明的一些实施例中,上述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率,其中,上述参考综合线性预测效率基于上述参考长时线性预测效率和上述参考短时线性预测效率得到。
其中,当前音频帧的参考长时线性预测效率可基于当前音频帧的长时线性预测效率得到。当前音频帧的参考短时线性预测效率可基于当前音频帧的短时线性预测效率得到。当前音频帧的参考综合线性预测效率例如可基于当前音频帧的长时线性预测效率和短时线性预测效率得到。
可以理解,参考线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x1(x1为正数)。其中,参考长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x2(x2为正数)。参考短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x3(x3为正数)。其中,参考综合线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x4(x4为正数)。其中,长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x5(x5为正数)。短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x6(x6为正数)。其中,x1、x2、x3、x4、x5或x6例如可为0.5、0.8或1.5、2、5、10、50、100或其它正数。为便于描述,下面举例中主要以各线性预测效率的取值范围为0~1(即0%~100%)为例,而其它取值范围可以据此类推。
102、确定与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
在本发明的一些实施例中,音频编码方式与音频帧的参考线性预测效率之间可以具有设定的映射关系,例如,不同的音频编码方式可以对应不同的参考线性预测效率,或者,不同的音频编码方式可以对应不同的参考线性预测效率区间等。例如可在至少两个音频编码方式中,确定与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
103、按照与上述当前音频帧的参考线性预测效率匹配的音频编码方式对上述当前音频帧进行音频编码。
在本发明的一些实施例中,在估计当前音频帧的参考线性预测效率之前可以先判断当前音频帧是否为语音音频帧。例如,上述估计当前音频帧的参考线性预测效率可以包括:当当前音频帧为非语音音频帧,估计上述当前音频帧的参考线性预测效率。此外,也可在上述估计当前音频帧的参考线性预测效率之前不区分当前音频帧是否为语音音频帧,即,无论当前音频帧为语音音频帧还是非语音音频帧,均执行步骤101~步骤103。
可以看出,本实施例的技术方案中,由于是先估计当前音频帧的参考线性预测效率;通过估计出的上述当前音频帧的参考线性预测效率来确定与之匹配的音频编码方式,并按照确定出的与之匹配音频编码方式对上述当前音频帧进行音频编码,由于上述方案在确定音频编码方式的过程中,无需执行现有闭环选择模式所需要执行的利用每种音频编码方式分别将当前音频帧进行完整编码的操作,而是通过当前音频帧的参考线性预测效率来确定需选择的音频编码方式,而估计当前音频帧的参考线性预测效率的计算复杂度,通常是远远小于利用每种音频编码方式分别将当前音频帧进行完整编码的计算复杂度的,因此相对于现有机制而言,本发明实施例的上述方案有利于降低音频编码运算复杂度,进而降低音频编码的开销。
在本发明的一些实施例中,音频帧(例如当前音频帧或其它音频帧)的参考综合线性预测效率基于该音频帧的参考长时线性预测效率和该音频帧的参考短时线性预测效率得到。例如,上述当前音频帧的参考综合线性预测效率例如可为上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率的和值、加权和值(其中,此处加权和值所对应的权值可以根据实际需要进行设定,其中1个权值例如可为0.5、1.、2、3、5、10或者其它值)或者平均值。当然,也可能通过其它算法,基于上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率得到上述当前音频帧的参考综合线性预测效率。
在本发明一些实施例中,基于线性预测的音频编码方式可包括代数码激励线性预测(ACELP,Algebraic Code Excited Linear Prediction)编码、变换激励编码(TCX,Transform Coded Excitation)等。非基于线性预测的音频编码方式可包括一般音频编码(GAC,Generic Audio Coding),GAC例如可包括修正离散余弦变换(MDCT,ModifiedDiscrete Cosine Transform)编码或离散余弦变换(DCT,Discrete Cosine Transform)编码等。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的线性预测效率的种类不同,确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的具体方式也就可能不同。下面举例一些可能的实施例方式。
举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式可以包括:若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式可以包括:若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式可包括:若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定上述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,上述第一音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。其中,不同的线性预测效率区间对应于不同的音频编码方式。例如假设存着3个线性预测效率区间,分别可为0~30%GAC、30%~70%TCX和70%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~30%(即第一线性预测效率区间为线性预测效率区间0~30%),可确定线性预测效率区间0~30%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式(例如GAC)。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间30%~70%(即第一线性预测效率区间为线性预测效率区间30%~70%),可以确定线性预测效率区间30%~70%对应的音频编码方式(例如TCX),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间70%~100%(即第一线性预测效率区间为线性预测效率区间70%~100%),可确定线性预测效率区间70%~100%对应的音频编码方式(如ACELP编码),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景可以以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定上述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第二线性预测效率区间具有映射关系的第二音频编码方式或为非基于线性预测的音频编码方式,其中,上述第二音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第二音频编码方式为基于线性预测的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~40%、40%~60%和60%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~40%(即第二线性预测效率区间为线性预测效率区间0~40%),则可确定线性预测效率区间0~40%对应的音频编码方式(例如GAC),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间40%~60%(即第二线性预测效率区间为线性预测效率区间40%~60%),确定线性预测效率区间40%~60%对应的音频编码方式(例如TCX),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间60%~100%(即第二线性预测效率区间为线性预测效率区间60%~100%),确定线性预测效率区间60%~100%对应的音频编码方式(例如ACELP编码),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景可以以此类推。可根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定上述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第三线性预测效率区间具有映射关系的第三音频编码方式或为非基于线性预测的音频编码方式,其中,上述第三音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第三音频编码方式为基于线性预测的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~50%、50%~80%和80%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~50%(即第三线性预测效率区间为线性预测效率区间0~50%),则可确定线性预测效率区间0~50%对应的音频编码方式(例如GAC),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间50~80%(即第三线性预测效率区间为线性预测效率区间50%~80%),确定线性预测效率区间50%~80%对应的音频编码方式(例如TCX),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间80%~100%(即第三线性预测效率区间为线性预测效率区间80%~100%),确定线性预测效率区间80%~100%对应的音频编码方式(例如ACELP编码),为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。其它场景可以以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
可以理解,上述举例中提及的各种阈值(例如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值)的具体取值,可根据需要或者根据应用的环境和场景进行设定。例如上述当前音频帧的参考长时线性预测效率的取值范围为0~1,则第一阈值可取值为0.2、0.5、0.6、0.8、0.9等、上述当前音频帧的参考短时线性预测效率的取值范围为0~1,第二阈值可取值为0.3、0.3、0.6或0.8、0.9等。其它场景以此类推。进一步的,还可根据需要对各种阈值的取值进行动态适应性的调整。举例来说,若倾向于选择基于线性预测的音频编码方式(如TCX、ACELP编码等)来编码音频帧,则相应的阈值(例如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值)可以设定的相对小一些。若倾向于选择非基于线性预测的音频编码方式(如GAC编码等)来编码音频帧,则相应阈值(如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值)可以设定的相对大一些。以此类推。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的不同种类线性预测效率的具体估计方式可能有所不同。下面通过举例一些可能的实施例方式进行说明。
举例来说,在本发明的一些实施例中,当前音频帧的参考长时线性预测效率可通过如下方式估计得到:估计当前音频帧的长时线性预测效率,上述当前音频帧的长时线性预测效率为上述当前音频帧的参考长时线性预测效率。
或者,
上述当前音频帧的参考长时线性预测效率通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N1个历史音频帧的线性预测效率;计算上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值,其中,上述N1为正整数(例如N1可等于1、2、3或其它值),上述第一统计值为上述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;上述每个历史音频帧的综合线性预测效率可基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到(例如上述N11个历史音频帧为音频帧F1、F2和F3,则音频帧F1的线性预测效率为音频帧F1的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,音频帧F2的线性预测效率为音频帧F2的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率、音频帧F3的线性预测效率为音频帧F3的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,音频帧F1的综合线性预测效率可基于上述音频帧F1的长时线性预测效率和短时线性预测效率得到,音频帧F2的综合线性预测效率可基于上述音频帧F2的长时线性预测效率和短时线性预测效率得到,音频帧F3的综合线性预测效率可基于上述音频帧F3的长时线性预测效率和短时线性预测效率得到,N11取其它值的场景以此类推),上述N11个历史音频帧为上述N1个历史音频帧的子集(上述N11小于或等于上述N1)。其中,上述N1个历史音频帧可以是上述当前音频帧的任意N1个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N1个历史音频帧。上述N1个历史音频帧中除上述N11个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N11个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。其中,计算得到的上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值例如可以是,上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,上述当前音频帧的参考长时线性预测效率例如可通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N2个历史音频帧的参考线性预测效率;计算上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值,其中,上述N2为正整数(例如N2可等于1、2、3或其它值),上述第二统计值为上述当前音频帧的参考长时线性预测效率,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N21个历史音频帧为上述N2个历史音频帧的子集(上述N21小于或等于上述N2)。其中,上述N2个历史音频帧可以是上述当前音频帧的任意N2个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N2个历史音频帧。上述N2个历史音频帧中除上述N21个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N21个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。计算得到的上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值例如为,上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,上述当前音频帧的参考长时线性预测效率例如可通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N4个历史音频帧的参考线性预测效率,获取上述当前音频帧的N3个历史音频帧的线性预测效率;计算上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值,其中,上述N3和上述N4为正整数(例如N3和上述N4可等于1、2、3或其它值),上述第三统计值为上述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述N31个历史音频帧为上述N3个历史音频帧的子集,上述N31小于或等于上述N3。其中,上述N3个历史音频帧可以是上述当前音频帧的任意N3个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N3个历史音频帧。上述N3个历史音频帧中除上述N31个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N31个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。上述N41个历史音频帧为上述N4个历史音频帧的子集,上述N41小于或等于上述N4,其中,上述N4个历史音频帧可以是上述当前音频帧的任意N4个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N4个历史音频帧。上述N4个历史音频帧中除上述N41个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N41个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到。上述N3个历史音频帧和上述N4个历史音频帧的交集可为空集或不是空集。计算得到的上述上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值例如为,上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
举例来说,在本发明的一些实施例中,上述当前音频帧的参考短时线性预测效率例如通过如下方式估计得到:估计当前音频帧的短时线性预测效率,其中上述当前音频帧的短时线性预测效率为上述当前音频帧的参考短时线性预测效率。
或者,
上述当前音频帧的参考短时线性预测效率可通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N5个历史音频帧的线性预测效率;计算上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值,其中,上述N5为正整数(例如N5可等于1、2、3或其它值),上述第四统计值为上述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N51个历史音频帧为上述N5个历史音频帧的子集(上述N51小于或等于上述N5)。其中,上述N5个历史音频帧可以是上述当前音频帧的任意N5个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N5个历史音频帧。上述N5个历史音频帧中除上述N51个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N51个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。其中,计算得到的上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值可为上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,
上述当前音频帧的参考短时线性预测效率可通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N6个历史音频帧的参考线性预测效率;计算上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值,上述N6为正整数(例如N6可等于1、2、3或其它值),上述第五统计值为上述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N61个历史音频帧为上述N6个历史音频帧的子集(上述N61小于或等于上述N6)。其中,上述N6个历史音频帧可以是上述当前音频帧的任意N6个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N6个历史音频帧。上述N6个历史音频帧中除上述N61个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N61个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。其中,计算得到的上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值可为,上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,
上述当前音频帧的参考短时线性预测效率可通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N8个历史音频帧的参考线性预测效率;获取上述当前音频帧的N7个历史音频帧的线性预测效率;计算上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值,上述N7和上述N8为正整数(例如上述N7和上述N8可等于1、2、3或其它值),上述第六统计值为上述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N71个历史音频帧为上述N7个历史音频帧的子集(上述N71小于或等于上述N7)。其中,上述N7个历史音频帧可以是上述当前音频帧的任意N7个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N7个历史音频帧。上述N7个历史音频帧中除上述N71个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N71个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。上述N81个历史音频帧为上述N8个历史音频帧的子集(上述N81小于或等于上述N8)。其中,上述N8个历史音频帧可以是上述当前音频帧的任意N8个历史音频帧,或可以是时间域上与上述当前音频帧相邻的N8个历史音频帧。上述N8个历史音频帧中除上述N81个历史音频帧中之外的剩余历史音频帧的线性预测效率可为不同于上述N81个历史音频帧的线性预测效率的其它类型线性预测效率,此处不再详举。上述N7个历史音频帧和上述N8个历史音频帧的交集可为空集或不是空集。其中,计算得到的上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值可为,上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明一些实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(如长时线性预测效率、短时线性预测效率)可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(例如长时线性预测效率、短时线性预测效率)越高,则表示该音频帧能够被进行线性预测的程度越高。
其中,在本发明的一些实施例中,上述估计得到当前音频帧的短时线性预测效率可以包括:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
在本发明的一些实施例中,上述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率,例如包括:计算当前音频帧进行短时线性预测前后的能量变化率,其中,计算出的上述能量变化率为当前音频帧的短时线性预测效率,或者,当前音频帧的短时线性预测效率基于计算出的上述能量变化率变换得到,其中,上述当前音频帧进行短时线性预测后的能量为上述当前音频帧的线性预测残差的能量。例如,能量变化率与当前音频帧的短时线性预测效率之间可具有映射关系,可基于能量变化率与当前音频帧的短时线性预测效率之间的映射关系,得到与计算出的上述能量变化率具有映射关系的当前音频帧的短时线性预测效率。一般来说,当前音频帧进行短时线性预测前后的能量变化率越大,表示当前音频帧的短时线性预测效率越高。
例如,上述当前音频帧进行短时线性预测前后的能量变化率,可为上述当前音频帧进行短时线性预测前的能量与上述当前音频帧的线性预测残差的能量的比值或比值的倒数。一般来说,上述当前音频帧进行短时线性预测前的能量除以上述当前音频帧的线性预测残差的能量得到的比值越大,表示当前音频帧的短时线性预测效率越高。
在本发明的一些实施例中,上述估计得到当前音频帧的长时线性预测效率可包括:根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,上述相关性为当前音频帧的长时线性预测效率,或者当前音频帧的长时线性预测效率基于上述变换得到。其中,上述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差;上述第一历史线性预测残差为上述当前音频帧的历史音频帧的线性预测残差(例如,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某一帧历史音频帧的线性预测残差,或者,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测残差),上述第一历史线性预测激励为上述当前音频帧的历史音频帧的线性预测激励(例如,上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某一帧历史音频帧的线性预测激励,或者上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测激励)。举例来说,例如相关性与音频帧的长时线性预测效率之间具有映射关系,可基于相关性与音频帧的长时线性预测效率之间的映射关系,得到与计算出的上述相关性具有映射关系的上述当前音频帧的长时线性预测效率。
其中,根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方式可以是多种多样的。
例如,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性可以包括:计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性可包括:将当前音频帧的线性预测残差乘以增益因子以得到上述当前音频帧的增益线性预测残差,计算得到上述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的增益线性预测残差与上述第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,可以包括:将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
其中,上述第一历史线性预测激励或上述第一历史线性预测残差可基于上述当前音频帧的基音确定。例如,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。例如,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性越大,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述相关性例如为时域上的互相关函数值和/或频域上的互相关函数值,或者上述相关性可为时域上的失真和/或频域上的失真(其中,频域上的失真亦可称之为谱失真)。
其中,在本发明的一些实施例中,上述频域上的失真可在频域上的K1个频点的失真的和值或加权和值,或者上述频域上的失真可为在频域上的K2个子带上的失真的和值或加权和值,上述K1和上述K2为正整数。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的互相关函数值越大,则可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的互相关函数值越大,可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述失真的加权和值所对应的加权系数为反映心理声学模型的感知加权系数。当然,上述失真的加权和值所对应的加权系数亦可为基于实际需要设定的其它加权系数。其中,测试发现,使用感知加权系数有利于使得计算出的失真更加符合主观的质量,从而有利于提升性能。
在本发明的一些实施例中,上述第一历史线性预测激励可为利用基于线性预测的编码方式对上述当前音频帧的历史音频帧进行音频编码而产生的线性预测激励。
在本发明的一些实施例中,上述第一历史线性预测残差,可基于上述当前音频帧的第一历史音频帧的时域信号和上述第一历史音频帧的线性预测系数得到,其中,上述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述当前音频帧的线性预测残差可基于上述当前音频帧的时域信号和上述当前音频帧的线性预测系数得到,其中,上述当前音频帧的线性预测系数可为量化后的线性预测系数或者未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述第一历史线性预测激励可为自适应码本激励与固定码本激励的叠加激励,或者上述第一历史线性预测激励可为自适应码本激励。或上述第一历史线性预测激励可为其它类型的码本激励。
可以理解的是,在本发明各实施例中,音频帧(例如当前音频帧或时域上位于当前音频帧之前或之后的音频帧)的历史音频帧是指,在同一个音频流中时域上位于该音频帧之前的音频帧。可见历史音频帧是相对的概念,例如假设同一个音频流之中包含的4个音频帧在时域上的先后顺序为音频帧y1—>音频帧y2—>音频帧y3—>音频帧y4,那么音频帧y1、音频帧y2、音频帧y3都是音频帧y4的历史音频帧,音频帧y1和音频帧y2都是音频帧y3的历史音频帧,而音频帧y1是音频帧y2的历史音频帧。可以理解的是,音频帧y4不是音频帧y3的历史音频帧、音频帧y4也不是音频帧y2和音频帧y1历史音频帧,其它场景可以此类推。
为便于更好的理解本发明实施例的上述技术方面,下面通过一些具体的应用场景进行举例介绍。
首先请参见图2,图2为本发明实施例提供的一种音频编码方法的流程示意图。其中,如图2所示,本发明实施例提供的一种音频编码方法可包括以下内容:
201、判断当前音频帧是否为语音音频帧。
若是,则执行步骤202。
若否、则执行步骤203。
202、基于语音编码方式对上述当前音频帧进行音频编码。
在本发明一些实施例中,若当前音频帧为语音音频帧,可基于代数码激励线性预测(ACELP,Algebraic Code Excited Linear Prediction)编码对上述当前音频帧进行音频编码。例如,若当前音频帧为语音音频帧,则可将当前音频帧输入到ACELP子编码器中进行进行音频编码。其中,ACELP子编码器为采用ACELP编码的子编码。
203、估计当前音频帧的参考线性预测效率。
其中,可以采用多种算法来估计当前音频帧的参考线性预测效率。
其中,在本发明的各实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。其中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明的一些实施例中,上述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率,其中,上述参考综合线性预测效率基于上述参考长时线性预测效率和上述参考短时线性预测效率得到。
其中,当前音频帧的参考长时线性预测效率可基于当前音频帧的长时线性预测效率得到。当前音频帧的参考短时线性预测效率可基于当前音频帧的短时线性预测效率得到。当前音频帧的参考综合线性预测效率例如可基于当前音频帧的长时线性预测效率和短时线性预测效率得到。
可以理解,参考线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x1(x1为正数)。其中,参考长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x2(x2为正数)。参考短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x3(x3为正数)。其中,参考综合线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x4(x4为正数)。其中,长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x5(x5为正数)。短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x6(x6为正数)。其中,x1、x2、x3、x4、x5或x6例如可为0.5、0.8或1.5、2、5、10、50、100或其它正数
204、确定与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
在本发明的一些实施例中,音频编码方式与音频帧的参考线性预测效率之间可以具有映射关系,例如,不同的音频编码方式可对应不同的参考线性预测效率。例如可在至少两个音频编码方式中,确定与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
其中,与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式可能是变换激励编码(TCX,Transform Coded Excitation)、也可能是一般音频编码(GAC,Generic Audio Coding)。其中,GAC例如可以是修正离散余弦变换(Modified DiscreteCosine Transform)编码。
205、按照确定出的上述音频编码方式对上述当前音频帧进行音频编码。
可以看出,本实施例的技术方案中,首先判断出当前音频帧是否为语音音频帧,若当前音频帧为语音音频帧,则基于语音编码方式对上述当前音频帧进行音频编码。若当前音频帧为非语音音频帧,则先估计当前音频帧的参考线性预测效率;通过估计出的上述当前音频帧的参考线性预测效率来确定与之匹配的音频编码方式,并按照确定出的与之匹配音频编码方式对上述当前音频帧进行音频编码,由于上述方案在确定音频编码方式的过程中,无需执行现有闭环选择模式所需要执行的利用每种音频编码方式分别将当前音频帧进行完整编码的操作,而是通过当前音频帧的参考线性预测效率来确定需选择的音频编码方式,而估计当前音频帧的参考线性预测效率的计算复杂度,通常是远远小于利用每种音频编码方式分别将当前音频帧进行完整编码的计算复杂度的,因此相对于现有机制而言,本发明实施例的上述方案有利于降低音频编码运算复杂度,进而降低音频编码的开销。
在本发明的一些实施例中,上述当前音频帧的参考综合线性预测效率例如可为上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率的和值、加权和值(其中,此处加权和值所对应的权值可以根据实际需要进行设定,其中1个权值例如可为0.5、1.、2、3、5、10或者其它值)或平均值。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的线性预测效率的种类不同,确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的具体方式也就可能不同。下面举例一些可能的实施例方式。
举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式可以包括:若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式可以包括:若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式可以包括:若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定上述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,上述第一音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。其中,不同的线性预测效率区间对应于不同的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~30%、30%~70%和70%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~30%(即第一线性预测效率区间为线性预测效率区间0~30%),可确定线性预测效率区间0~30%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间30%~70%(即第一线性预测效率区间为线性预测效率区间30%~70%),可以确定线性预测效率区间30%~70%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定上述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第二线性预测效率区间具有映射关系的第二音频编码方式,其中,上述第二音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第二音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~40%、40%~60%和60%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~40%(即第二线性预测效率区间为线性预测效率区间0~40%),则可确定线性预测效率区间0~40%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间40%~60%(即第二线性预测效率区间为线性预测效率区间40%~60%),确定线性预测效率区间40%~60%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,可包括:若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定上述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第三线性预测效率区间具有映射关系的第三音频编码方式,其中,上述第三音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第三音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~50%、50%~80%和80%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~50%(即第三线性预测效率区间为线性预测效率区间0~50%),则可确定线性预测效率区间0~50%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间50~80%(即第三线性预测效率区间为线性预测效率区间50%~80%),确定线性预测效率区间50%~80%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的不同种类线性预测效率的具体估计方式可能有所不同。下面通过举例一些可能的实施例方式进行说明。
举例来说,在本发明的一些实施例中,当前音频帧的参考长时线性预测效率可通过如下方式估计得到:估计当前音频帧的长时线性预测效率,上述当前音频帧的长时线性预测效率为上述当前音频帧的参考长时线性预测效率。
或者,
上述当前音频帧的参考长时线性预测效率通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N1个历史音频帧的线性预测效率;计算上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值,其中,上述N1为正整数,上述第一统计值为上述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N11个历史音频帧为上述N1个历史音频帧的子集。其中,计算得到的上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值例如可以是,上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,上述当前音频帧的参考长时线性预测效率例如可通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N2个历史音频帧的参考线性预测效率;计算上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值,其中,上述N2为正整数,上述第二统计值为上述当前音频帧的参考长时线性预测效率,其中,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N21个历史音频帧为上述N2个历史音频帧的子集。计算得到的上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值例如为,上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,上述当前音频帧的参考长时线性预测效率例如可通过如下方式估计得到:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N4个历史音频帧的参考线性预测效率,获取上述当前音频帧的N3个历史音频帧的线性预测效率;计算上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值,其中,上述N3和上述N4为正整数,上述第三统计值为上述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述N31个历史音频帧为上述N3个历史音频帧的子集,上述N41个历史音频帧为上述N4个历史音频帧的子集,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到。上述N3个历史音频帧和上述N4个历史音频帧的交集可为空集或不是空集。计算得到的上述上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值例如为,上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
举例来说,在本发明的一些实施例中,上述当前音频帧的参考短时线性预测效率例如通过如下方式估计得到:估计当前音频帧的短时线性预测效率,其中上述当前音频帧的短时线性预测效率为上述当前音频帧的参考短时线性预测效率。
或者,
上述当前音频帧的参考短时线性预测效率可通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N5个历史音频帧的线性预测效率;计算上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值,其中,上述N5为正整数,上述第四统计值为上述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N51个历史音频帧为上述N5个历史音频帧的子集。其中,计算得到的上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值可为,上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,
上述当前音频帧的参考短时线性预测效率可通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N6个历史音频帧的参考线性预测效率;计算上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值,上述N6为正整数,上述第五统计值为上述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N61个历史音频帧为上述N6个历史音频帧的子集。其中,计算得到的上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值可为,上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,
上述当前音频帧的参考短时线性预测效率可通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N8个历史音频帧的参考线性预测效率;获取上述当前音频帧的N7个历史音频帧的线性预测效率;计算上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值,上述N7和上述N8为正整数,上述第六统计值为上述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N71个历史音频帧为上述N7个历史音频帧的子集,上述N81个历史音频帧为上述N8个历史音频帧的子集。上述N7个历史音频帧和上述N8个历史音频帧的交集可为空集或不是空集。其中,计算得到的上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值可为,上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明一些实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(如长时线性预测效率、短时线性预测效率)可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(例如长时线性预测效率、短时线性预测效率)越高,则表示该音频帧能够被进行线性预测的程度越高。
其中,在本发明的一些实施例中,上述估计得到当前音频帧的短时线性预测效率可以包括:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
在本发明的一些实施例中,上述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率,例如包括:计算当前音频帧进行短时线性预测前后的能量变化率,其中,计算出的上述能量变化率为当前音频帧的短时线性预测效率,或者,当前音频帧的短时线性预测效率基于计算出的上述能量变化率变换得到,其中,上述当前音频帧进行短时线性预测后的能量为上述当前音频帧的线性预测残差的能量。例如,能量变化率与当前音频帧的短时线性预测效率之间可具有映射关系,可基于能量变化率与当前音频帧的短时线性预测效率之间的映射关系,得到与计算出的上述能量变化率具有映射关系的当前音频帧的短时线性预测效率。一般来说,当前音频帧进行短时线性预测前后的能量变化率越大,表示当前音频帧的短时线性预测效率越高。
例如,上述当前音频帧进行短时线性预测前后的能量变化率,可为上述当前音频帧进行短时线性预测前的能量与上述当前音频帧的线性预测残差的能量的比值或比值的倒数。一般来说,上述当前音频帧进行短时线性预测前的能量除以上述当前音频帧的线性预测残差的能量得到的比值越大,表示当前音频帧的短时线性预测效率越高。
在本发明的一些实施例中,上述估计得到当前音频帧的长时线性预测效率可包括:根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,上述相关性为当前音频帧的长时线性预测效率,或者当前音频帧的长时线性预测效率基于上述变换得到。其中,上述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差;上述第一历史线性预测残差为上述当前音频帧的历史音频帧的线性预测残差,上述第一历史线性预测激励为上述当前音频帧的历史音频帧的线性预测激励。举例来说,例如相关性与音频帧的长时线性预测效率之间具有映射关系,可基于相关性与音频帧的长时线性预测效率之间的映射关系,得到与计算出的上述相关性具有映射关系的上述当前音频帧的长时线性预测效率。
在本发明的一些实施例中,可利用分析滤波器A(Z)对当前音频帧的时域信号进行滤波,得到当前音频帧的线性预测残差R,其中,滤波器A(Z)的滤波器系数为当前音频帧的线性预测系数。
具体可如下面公式1所示:
其中,公式1中的S(i)表示当前音频帧的第i个时域样点的信号,a(k)表示当前音频帧的第k阶线性预测系数,M为滤波器总阶数,上述N为当前音频帧的时域长度,R(i)表示当前音频帧的第i个时域样点的线性预测残差。
可以理解,任何1个音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测残差均可通过上述举例方式得到。
其中,例如可以缓存每个音频帧或者部分音频帧的线性预测激励或线性预测残差,以便作为在可能的下一音频帧将可能用到的历史线性预测激励或历史线性预测残差,以计算其与下一音频帧的线性预测残差的相关性。
其中,根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方式可以是多种多样的。
例如,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性可以包括:计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,可包括:将当前音频帧的线性预测残差乘以增益因子以得到上述当前音频帧的增益线性预测残差,计算得到上述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的增益线性预测残差与上述第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,可以包括:将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
其中,上述第一历史线性预测激励或上述第一历史线性预测残差可基于上述当前音频帧的基音确定。例如,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。例如,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。
在本发明的一些实施例中,上述相关性例如为时域上的互相关函数值和/或频域上的互相关函数值。
其中,在本发明一可选的实施方式中,计算频域上互相关函数值时,可对当前音频帧的线性预测残差进行时频变换(如离散傅利叶变换(DFT,Discrete Fourier Transform)或离散余弦变换(DCT:discrete Cosine Transform))以得到当前音频帧的线性预测残差的频域信号,可对第一历史线性预测信号进行时频变换(例如DFT或DCT)以得到第一历史线性预测信号的频域信号。下面举例一种相关性计算公式,如下公式1所示:
其中,上述公式2中C表示当前音频帧的线性预测残差与第一历史线性预测信号在时域上的互相关函数值,R(i)表示当前音频帧的第i个时域样点的线性预测残差,E(i)表示第一历史线性预测信号的第i个时域样点的信号,N表示一个音频帧的时域样点总数。或者,上述公式2中C表示当前音频帧的线性预测残差与第一历史线性预测信号在频域上的互相关函数值,R(i)表示当前音频帧的线性预测残差的第i个频谱包络,E(i)表示第一历史线性预测信号的第i个频谱包络的信号,N表示一个音频帧的频谱包络总数。当然,本发明也不限制其它的相关性计算方法。
在本发明的另一个在频域计算相关性的实施例中,为了更好的克服基音的抖动,可以在计算互相关之前先将R(i)或E(i)中的其中一个信号进行移位处理,例如如下公式3所示:
其中,在公式2的基础中,上述公式3进一步对E(i)进行移位处理。j表移位量,j可为整数,而对R(i)进行移位处理的方式与之类似。
在本发明的另一些实施例中,上述相关性例如可为时域上的失真和/或频域上的失真。
其中,在本发明一可选的实施方式中,在计算频域的失真时,可对当前音频帧的线性预测残差进行时频变换(例如DFT或DCT)以得到当前音频帧的线性预测残差的频域信号,可对第一历史线性预测信号进行时频变换(例如DFT或DCT)以得到第一历史线性预测信号的频域信号。计算当前音频帧的线性预测残差的频域信号与第一历史线性预测信号的频域信号之间的失真D。
其中,失真D越小,则表示相关性越强,长时线性预测效率越高。下面举例一种失真D计算公式,如公式4所示:
其中,公式4中的N可表示一个音频帧的时域样点总数,R(k)表示当前音频帧的第k个时域样点的线性预测残差,E(k)表示第一历史线性预测信号的第k个时域样点的信号。或者,公式4中的N也可表示一个音频帧的频谱包络总数,R(k)表示当前音频帧的线性预测残差的第k个频谱包络,E(k)表示第一历史线性预测信号的第k个频谱包络。
下面举例另两种失真D计算公式,如公式5或公式6所示:
其中,公式5和公式6中的N可表示一个音频帧的时域样点总数,R(k)表示当前音频帧的第k个时域样点的线性预测残差,E(k)表示第一历史线性预测信号的第k个时域样点的信号。或者,公式5和公式6中的N也可表示一个音频帧的频谱包络总数,R(k)表示当前音频帧的线性预测残差的第k个频谱包络,E(k)表示第一历史线性预测信号的第k个频谱包络。
其中,公式5和公式6中的G表示增益因子,通过选取合适取值的G,可以使得求得的失真D最小。公式4中将增益因子G施加给了E(k),公式5中将增益因子G施加给了R(k)。
其中,在本发明的一些实施例中,上述频域上的失真可在频域上的K1个频点的失真的和值或加权和值,或者上述频域上的失真可为在频域上的K2个子带上的失真的和值或加权和值,上述K1和上述K2为正整数。
下面又举例三种失真D计算公式,如公式7或公式8或公式9所示:
其中,在公式7~公式9中,P(k)为一组加权系数,P(k)可以是一组反映心理声学模型的感知加权系数或其它加权系数。
其中,公式7~公式9中的N、R(k)、E(k)、G的含义与公式5相同。
在本发明的一些实施例中,上述第一历史线性预测激励可为利用基于线性预测的编码方式对上述当前音频帧的历史音频帧s进行音频编码而产生的线性预测激励。
在本发明的一些实施例中,上述第一历史线性预测残差,可基于上述当前音频帧的第一历史音频帧的时域信号和上述第一历史音频帧的线性预测系数得到,其中,上述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。
在本发明的一些实施例中,上述当前音频帧的线性预测残差可基于上述当前音频帧的时域信号和上述当前音频帧的线性预测系数得到,其中,上述当前音频帧的线性预测系数可为量化后的线性预测系数或者未经量化的线性预测系数。
在本发明的一些实施例中,上述第一历史线性预测激励可为自适应码本激励与固定码本激励的叠加激励,或者上述第一历史线性预测激励可为自适应码本激励。
下面还提供用于实施上述方案的相关装置。
参见图3-a,图3-a为本发明的另一实施例提供的一种音频编码器300的结构示意图。
其中,时域的音频信号可被以帧为单位输入到本发明实施例提供的音频编码器300之中,经过音频编码器300的编码处理,输入音频帧可被压缩为相对较小的比特流。该比特流可用于存储或传输目的,并可经过一个音频解码器恢复出原始的时域音频帧。
其中,本实施例中的音频编码器300可包括多个子编码器,具体可包括至少1个子编码器是基于线性预测的子编码器(为方便起见,下文中可将基于线性预测的子编码器称为A类子编码器)、至少1个子编码器为非基于线性预测的子编码器(为方便起见,下文中可将非基于线性预测的子编码器称为B类编码器)。
如图3-a所示,音频编码器300包括选择器301、A类子编码器302、B类子编码器303和受控选路器304。
其中,选择器301用于估计当前音频帧的参考线性预测效率;确定与上述当前音频帧的参考线性预测效率匹配的音频编码器;向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304的当前音频帧输出至与上述当前音频帧的参考线性预测效率匹配的音频编码器(如A类子编码器302或B类子编码器303)。A类子编码器302或B类子编码器303用于对输入的当前音频帧进行音频编码,输出编码音频信号。例如,A类子编码器302可为TCX编码器,B类子编码器302为GAC编码器,例如B类子编码器302可为MDCT编码器。
在本发明的一些实施例中,如图3-b所示,还可进一步在图3-a所示架构的音频编码器300的基础上增加分类器305和子编码器306。
其中,分类器305用于判断当前音频帧是否为语音音频帧,若音频帧为语音音频帧,则向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304的当前音频帧输出至子编码器306,其中,编码器306为适合编码语音音频帧的子编码器,例如子编码器306为ACELP编码器。编码器306用于对输入的当前音频帧进行音频编码,输出编码音频信号。
在本发明的一些实施例中,如图3-c所示,选择器301可以包括:判决单元3013、第一估计单元3011和第二估计单元3022。其中,音频帧的参考线性预测效率包括音频帧的参考长时线性预测效率和参考短时线性预测效率。
其中,第一估计单元3011用于估计当前音频帧的参考长时线性预测效率。
第二估计单元3012用于估计当前音频帧的参考短时线性预测效率。
其中,判决单元3013,用于若第一估计单元3011估计出的上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或第二估计单元3012估计出的上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式,向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304中的当前音频帧输出至子B类子编码器303;若第一估计单元3011估计出的上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或第二估计单元3012估计出的上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式,向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304中的当前音频帧输出至子B类子编码器302。
在本发明的一些实施例中,如图3-d和图3-e所示,选择器301也不包括第一估计单元3011或不包括第二估计单元3012。
在图3-d所示架构中,判决单元3013可用于若第一估计单元3011估计出的上述当前音频帧的参考长时线性预测效率小于第一阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式,向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304中的当前音频帧输出至子B类子编码器303;若第一估计单元3011估计出的上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式,向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304中的当前音频帧输出至子B类子编码器302。
在图3-e所示架构中,判决单元3013可用于若第二估计单元3012估计出的上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式,向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304中的当前音频帧输出至子B类子编码器303;若第二估计单元3012估计出的上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式,向受控选路器304发送选路控制信号以控制受控选路器304将输入到受控选路器304中的当前音频帧输出至子B类子编码器302。
在本发明的一些实施例中,如图3-f所示,在图3-c所示架构的音频编码器300的基础上,音频编码器300还可包括前处理器3014,用于获得当前音频帧的线性预测残差,前处理器3014可具体用于,利用分析滤波器A(Z)对当前音频帧的时域信号进行滤波,得到当前音频帧的线性预测残差R,其中,滤波器A(Z)的滤波器系数为当前音频帧的线性预测系数。
其中,第一估计单元3011具体用于,根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,基于相关性与当前音频帧的长时线性预测效率之间的映射关系,得到与计算出的上述相关性具有映射关系的上述当前音频帧的长时线性预测效率,其中,上述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差;上述第一历史线性预测残差为上述当前音频帧的历史音频帧的线性预测残差(例如,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某一帧历史音频帧的线性预测残差,或者,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测残差),上述第一历史线性预测激励为上述当前音频帧的历史音频帧的线性预测激励(例如,上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某一帧历史音频帧的线性预测激励,或者上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测激励)。
在本发明的一些实施例中,如图3-g所示,在图3-f所示架构的音频编码器300的基础上,音频编码器300还可包括缓存器308,缓存器308可缓存每个音频帧或者部分音频帧的线性预测激励或线性预测残差,以便作为在可能的下一音频帧将可能用到的历史线性预测激励或历史线性预测残差,以计算其与下一音频帧的线性预测残差的相关性。其中,第一估计单元3011可从缓存器308之中获得第一历史线性预测信号。
在本发明的一些实施例中,如图3-h所示,缓存器308所缓存的历史线性预测激励或历史线性预测残差可来自于本地音频解码器311。其中,本地音频解码器311可对A类子编码器302、B类子编码器303编码后输出的已编码的音频帧进行解码处理并输出,线性预测器312可本地音频解码器311输出的时域音频帧进行线性预测,得到音频帧的线性预测残差或线性预测激励。
在本发明的一些实施例中,如图3-i所示,缓存器308所缓存的历史线性预测激励也可来自A类子编码器302,A类子编码器302在编码音频帧的过程中将得到音频帧的线性预测激励,A类子编码器302可将得到的音频帧的线性预测激励输出到缓存器308之中进行缓存。
在本发明的一些实施例中,第一估计单元3011估计当前音频帧的长时线性预测效率所使用的第一历史线性预测激励或上述第一历史线性预测残差可基于上述当前音频帧的基音确定,例如,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于缓存器308所缓存的其它历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于缓存器308所缓存的其它至少1个历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。例如,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于缓存器308所缓存的其它历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于缓存器308所缓存的其它至少1个历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。
其中,音频编码器300可为任何需要采集、存储或者向外传输音频信号的装置,例如手机、平板电脑、个人电脑、笔记本电脑等等。
参见图4,图4为本发明的另一实施例提供的一种音频编码器400的结构示意图。其中,音频编码器400可以包括估计单元410、确定单元420和编码单元430。
其中,估计单元410,用于估计当前音频帧的参考线性预测效率。
确定单元420,用于确定与估计单元410估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
编码单元430,用于按照确定单元420确定出的与上述当前音频帧的参考线性预测效率匹配的音频编码方式,对上述当前音频帧进行音频编码。
其中,在本发明的各实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。其中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明的一些实施例中,上述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率,其中,上述参考综合线性预测效率基于上述参考长时线性预测效率和上述参考短时线性预测效率得到。
例如,当前音频帧的参考长时线性预测效率可基于当前音频帧的长时线性预测效率得到。当前音频帧的参考短时线性预测效率可基于当前音频帧的短时线性预测效率得到。当前音频帧的参考综合线性预测效率例如可基于当前音频帧的长时线性预测效率和短时线性预测效率得到。
可以理解,参考线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x1(x1为正数)。其中,参考长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x2(x2为正数)。参考短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x3(x3为正数)。其中,参考综合线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x4(x4为正数)。其中,长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x5(x5为正数)。短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x6(x6为正数)。其中,x1、x2、x3、x4、x5或x6例如可为0.5、0.8或1.5、2、5、10、50、100或其它正数。
在本发明的一些实施例中,估计单元可具体用于,当当前音频帧为非语音音频帧,估计上述当前音频帧的参考线性预测效率。
在本发明一些实施例中,音频帧(例如当前音频帧或其它音频帧)的参考综合线性预测效率基于该音频帧的参考长时线性预测效率和该音频帧的参考短时线性预测效率得到。上述当前音频帧的参考综合线性预测效率例如可为上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率的和值、加权和值(其中,此处加权和值所对应的权值可以根据实际需要进行设定,其中1个权值例如可为0.5、1.、2、3、5、10或其它值)或平均值。当然,也可能通过其它的算法,基于上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率得到上述当前音频帧的参考综合线性预测效率。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的线性预测效率的种类不同,确定单元420确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的具体方式也就可能不同。
下面举例一些可能的实施例方式。
在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则确定单元420可具体用于:若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则确定单元420可具体用于:若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则确定单元420可具体用于:若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则确定单元420可具体用于:若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则确定单元420可具体用于:若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则确定单元420可具体用于:若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则确定单元420具体用于:确定上述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,上述第一音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定单元420具体用于:若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则上述确定单元420具体用于:若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则确定单元420具体用于:若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则确定单元420具体用于:确定上述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第二线性预测效率区间具有映射关系的第二音频编码方式,其中,上述第二音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第二音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定单元420具体用于:若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定单元420具体用于:若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则上述确定单元420具体用于:若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,确定单元420具体用于:确定上述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第三线性预测效率区间具有映射关系的第三音频编码方式,上述第三音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第三音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
在本发明一些实施例中,基于线性预测的音频编码方式可以包括ACELP编码、TCX等。非基于线性预测的音频编码方式可包括GAC,GAC例如可包括MDCT编码或DCT编码等。
可以理解,上述举例中提及的各种阈值(例如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值)的具体取值,可根据需要或者根据应用的环境和场景进行设定。例如上述当前音频帧的参考长时线性预测效率的取值范围为0~1,则第一阈值可取值为0.2、0.5、0.6、0.8等、上述当前音频帧的参考短时线性预测效率的取值范围为0~1,第二阈值可取值为0.3、0.3、0.6或0.8等。其它场景以此类推。进一步的,还可根据需要对各种阈值的取值进行动态适应性的调整。
可以理解的是,估计单元410具体估计上述当前音频帧的参考线性预测效率所包括的不同种类线性预测效率的方式可能有所不同。下面通过举例一些可能的实施例方式进行说明。
在本发明的一些实施例中,在估计当前音频帧的参考长时线性预测效率的方面,估计单元410具体用于:估计当前音频帧的长时线性预测效率,上述当前音频帧的长时线性预测效率为上述当前音频帧的参考长时线性预测效率。
在本发明的另一些实施例中,在估计上述当前音频帧的参考长时线性预测效率的方面,估计单元410具体用于:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N1个历史音频帧的线性预测效率;计算上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值,其中,上述N1为正整数,上述第一统计值为上述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N11个历史音频帧为上述N1个历史音频帧的子集。其中,计算得到的上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值例如可以是,上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明的另一些实施例中,在估计上述当前音频帧的参考长时线性预测效率的方面,估计单元410具体用于:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N2个历史音频帧的参考线性预测效率;计算上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值,其中,上述N2为正整数,其中,上述第二统计值为上述当前音频帧的参考长时线性预测效率,其中,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N21个历史音频帧为上述N2个历史音频帧的子集。其中,计算得到的上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值例如为上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明的另一些实施例中,在估计上述当前音频帧的参考长时线性预测效率的方面,估计单元410具体用于:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N4个历史音频帧的参考线性预测效率,获取上述当前音频帧的N3个历史音频帧的线性预测效率;计算上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值,其中,上述N3和上述N4为正整数,上述第三统计值为上述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述N31个历史音频帧为上述N3个历史音频帧的子集,上述N41个历史音频帧为上述N4个历史音频帧的子集,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到。其中,计算得到的上述上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值例如为,上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明的一些实施例中,在估计上述当前音频帧的参考短时线性预测效率的方面,上述估计单元410可具体用于:估计当前音频帧的短时线性预测效率,其中,上述当前音频帧的短时线性预测效率为上述当前音频帧的参考短时线性预测效率。
在本发明的另一些实施例中,在估计上述当前音频帧的参考短时线性预测效率的方面,上述估计单元410可具体用于:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N5个历史音频帧的线性预测效率;计算上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值,其中,上述N5为正整数,上述第四统计值为上述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N51个历史音频帧为上述N5个历史音频帧的子集。计算得到的上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值可为,上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明的另一些实施例中,在估计上述当前音频帧的参考短时线性预测效率的方面,上述估计单元410可具体用于:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N6个历史音频帧的参考线性预测效率;计算上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值,其中,上述N6为正整数,上述第五统计值为上述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N61个历史音频帧为上述N6个历史音频帧的子集。其中,估计单元410计算得到的上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值可为,上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明的另一些实施例中,在估计上述当前音频帧的参考短时线性预测效率的方面,上述估计单元410可具体用于:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N8个历史音频帧的参考线性预测效率;获取上述当前音频帧的N7个历史音频帧的线性预测效率;计算上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值,其中,上述N7和上述N8为正整数,上述第六统计值为上述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,其中,上述N71个历史音频帧为上述N7个历史音频帧的子集,上述N81个历史音频帧为上述N8个历史音频帧的子集。其中,计算得到的上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值可为,上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明一些实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(如长时线性预测效率、短时线性预测效率)可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(例如长时线性预测效率、短时线性预测效率)越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明一些实施例中,在上述估计得到当前音频帧的短时线性预测效率的方面,估计单元410具体用于:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
在本发明一些实施例中,在上述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率的方面,估计单元410可具体用于:计算当前音频帧进行短时线性预测前后的能量变化率,其中,上述能量变化率为上述当前音频帧的短时线性预测效率,或者上述当前音频帧的短时线性预测效率基于上述能量变化率变换得到,其中,上述当前音频帧进行短时线性预测后的能量为上述当前音频帧的线性预测残差的能量。例如,能量变化率与当前音频帧的短时线性预测效率之间可具有映射关系,可基于能量变化率与当前音频帧的短时线性预测效率之间的映射关系,得到与计算出的上述能量变化率具有映射关系的当前音频帧的短时线性预测效率。一般来说,当前音频帧进行短时线性预测前后的能量变化率越大,表示当前音频帧的短时线性预测效率越高。
在本发明一些实施例中,上述当前音频帧进行短时线性预测前后的能量变化率,为上述当前音频帧进行短时线性预测前的能量与上述当前音频帧的线性预测残差的能量的比值。一般来说,上述当前音频帧进行短时线性预测前的能量除以上述当前音频帧的线性预测残差的能量得到的比值越大,表示当前音频帧的短时线性预测效率越高。
在本发明的一些实施例中,在上述估计得到当前音频帧的长时线性预测效率的方面,上述估计单元410可以具体用于:根据计算当前音频帧的线性预测残差和第一历史线性预测信号,得到当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性,其中,上述相关性为上述当前音频帧的长时线性预测效率,或者,上述当前音频帧的长时线性预测效率基于上述相关性得到,其中,上述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差,上述第一历史线性预测残差为上述当前音频帧的历史音频帧的线性预测残差(例如,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某一帧历史音频帧的线性预测残差,或者,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测残差),上述第一历史线性预测激励为上述当前音频帧的历史音频帧的线性预测激励(例如,上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某一帧历史音频帧的线性预测激励,或者上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测激励)。
其中,估计单元410根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方式可以是多种多样的。
在本发明的一些实施例中,在上述根据计算当前音频帧的线性预测残差和第一历史线性预测信号,得到当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性的方面,上述估计单元410可具体用于:计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性;
或者,将当前音频帧的线性预测残差乘以增益因子以得到上述当前音频帧的增益线性预测残差,计算得到上述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的增益线性预测残差与上述第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性;
或者,
将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性越大,表示上述当前音频帧的长时线性预测效率越高。
在本发明一些实施例中,其中,上述第一历史线性预测激励或上述第一历史线性预测残差可基于上述当前音频帧的基音确定。例如,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。例如,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或者等于其它至少1个历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。
在本发明的一些实施例中,当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性例如为,时域上的互相关函数值和/或频域上的互相关函数值,或者当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性可为时域上的失真和/或频域上的失真。其中,在本发明的一些实施例中,上述频域上的失真可在频域上的K1个频点的失真的和值或加权和值,或者上述频域上的失真可为在频域上的K2个子带上的失真的和值或加权和值,上述K1和上述K2为正整数。在本发明的一些实施例中,上述失真的加权和值所对应的加权系数为反映心理声学模型的感知加权系数。当然,上述失真的加权和值所对应的加权系数亦可为基于实际需要设定的其它加权系数。其中,测试发现,使用感知加权系数有利于使得计算出的失真更加符合主观的质量,从而有利于提升性能。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的互相关函数值越大,则可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的互相关函数值越大,可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述第一历史线性预测激励为利用基于线性预测的编码方式对上述当前音频帧的历史音频帧进行音频编码而产生的线性预测激励。
在本发明的一些实施例中,上述第一历史线性预测残差基于上述当前音频帧的第一历史音频帧的时域信号和上述第一历史音频帧的线性预测系数得到,其中,上述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述当前音频帧的线性预测残差基于上述当前音频帧的时域信号和上述当前音频帧的线性预测系数得到,其中,上述当前音频帧的线性预测系数为量化后的线性预测系数或未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述第一历史线性预测激励为自适应码本激励与固定码本激励的叠加激励,或者,上述第一历史线性预测激励为自适应码本激励。
可以理解的是,本实施例的音频编码器400的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。其中,音频编码器400可为任何需要采集、存储或者可向外传输音频信号的装置,例如可为手机、平板电脑、个人电脑、笔记本电脑等等。
其中,本装置实施例涉及的各阈值(如第一阈值、第二阈值等)、各其它参数(如N1、N11、N21、N2等)的取值举例,可参考上述方法实施例中的相关取值举例,此处不再赘述。
可以看出,本实施例的技术方案中,音频编码器400先估计当前音频帧的参考线性预测效率;通过估计出的上述当前音频帧的参考线性预测效率来确定与之匹配的音频编码方式,并按照确定出的与之匹配音频编码方式对上述当前音频帧进行音频编码,由于上述方案在确定音频编码方式的过程中,无需执行现有闭环选择模式所需要执行的利用每种音频编码方式分别将当前音频帧进行完整编码的操作,而是通过当前音频帧的参考线性预测效率来确定需选择的音频编码方式,而估计当前音频帧的参考线性预测效率的计算复杂度,通常是远远小于利用每种音频编码方式分别将当前音频帧进行完整编码的计算复杂度的,因此相对于现有机制而言,本发明实施例的上述方案有利于降低音频编码运算复杂度,进而降低音频编码的开销。
参见图5,图5描述了本发明另一个实施例提供的用于解码语音频码流的编码器的结构,该编码器包括:至少一个总线501、与总线501相连的至少一个处理器502以及与总线501相连的至少一个存储器503。
其中,处理器502通过总线501,调用存储器503中存储的代码以用于估计当前音频帧的参考线性预测效率;确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式;按照与上述当前音频帧的参考线性预测效率匹配的音频编码方式,对上述当前音频帧进行音频编码。
其中,在本发明的各实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。其中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明的一些实施例中,上述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率,其中,上述参考综合线性预测效率基于上述参考长时线性预测效率和上述参考短时线性预测效率得到。
其中,当前音频帧的参考长时线性预测效率可基于当前音频帧的长时线性预测效率得到。当前音频帧的参考短时线性预测效率可基于当前音频帧的短时线性预测效率得到。当前音频帧的参考综合线性预测效率例如可基于当前音频帧的长时线性预测效率和短时线性预测效率得到。
可以理解,参考线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x1(x1为正数)。其中,参考长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x2(x2为正数)。参考短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x3(x3为正数)。其中,参考综合线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x4(x4为正数)。其中,长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x5(x5为正数)。短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x6(x6为正数)。其中,x1、x2、x3、x4、x5或x6例如可为0.5、0.8或1.5、2、5、10、50、100或其它正数。
在本发明的一些实施例中,音频编码方式与音频帧的参考线性预测效率之间可以具有设定的映射关系,例如,不同的音频编码方式可以对应不同的参考线性预测效率,或者,不同的音频编码方式可以对应不同的参考线性预测效率区间等。例如可在至少两个音频编码方式中,确定与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
在本发明的一些实施例中,在估计当前音频帧的参考线性预测效率之前处理器502还可用于通过总线501,调用存储器503中存储的代码,先判断当前音频帧是否为语音音频帧。例如,上述估计当前音频帧的参考线性预测效率可以包括:当当前音频帧为非语音音频帧,估计上述当前音频帧的参考线性预测效率。此外,也可在上述估计当前音频帧的参考线性预测效率之前不区分当前音频帧是否为语音音频帧。
在本发明的一些实施例中,上述当前音频帧的参考综合线性预测效率例如可为上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率的和值、加权和值(其中,此处加权和值所对应的权值可以根据实际需要进行设定,其中1个权值例如可为0.5、1.、2、3、5、10或者其它值)或平均值。当然,也可能通过其它算法,基于上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率得到上述当前音频帧的参考综合线性预测效率。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的线性预测效率的种类不同,处理器502确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的具体方式也就可能不同。下面举例一些可能的实施例方式。
举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,确定上述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,上述第一音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。其中,不同的线性预测效率区间对应于不同的音频编码方式。例如假设存着3个线性预测效率区间,分别可为0~30%、30%~70%和70%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~30%(即第一线性预测效率区间为线性预测效率区间0~30%),可确定线性预测效率区间0~30%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间30%~70%(即第一线性预测效率区间为线性预测效率区间30%~70%),可以确定线性预测效率区间30%~70%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,确定上述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第二线性预测效率区间具有映射关系的第二音频编码方式或为非基于线性预测的音频编码方式,其中,上述第二音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第二音频编码方式为基于线性预测的音频编码方式。例如假设存着3个线性预测效率区间,分别为0~40%、40%~60%和60%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~40%(即第二线性预测效率区间为线性预测效率区间0~40%),则可确定线性预测效率区间0~40%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间40%~60%(即第二线性预测效率区间为线性预测效率区间40%~60%),确定线性预测效率区间40%~60%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,处理器502通过总线501调用存储器503中存储的代码以具体用于,确定上述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第三线性预测效率区间具有映射关系的第三音频编码方式或为非基于线性预测的音频编码方式,其中,上述第三音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第三音频编码方式为基于线性预测的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~50%、50%~80%和80%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~50%(即第三线性预测效率区间为线性预测效率区间0~50%),则可确定线性预测效率区间0~50%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间50~80%(即第三线性预测效率区间为线性预测效率区间50%~80%),确定线性预测效率区间50%~80%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
在本发明一些实施例中,基于线性预测的音频编码方式可包括代数码激励线性预测(ACELP)编码、变换激励编码(TCX)等。非基于线性预测的音频编码方式可包括一般音频编码(GAC),GAC例如可以包括修正离散余弦变换(MDCT)编码或离散余弦变换(DCT)编码等。
可以理解,上述举例中提及的各种阈值(例如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值)的具体取值,可根据需要或者根据应用的环境和场景进行设定。例如上述当前音频帧的参考长时线性预测效率的取值范围为0~1,则第一阈值可取值为0.2、0.5、0.6、0.8等、上述当前音频帧的参考短时线性预测效率的取值范围为0~1,第二阈值可取值为0.3、0.3、0.6或0.8等。其它场景以此类推。进一步的,还可根据需要对各种阈值的取值进行动态适应性的调整。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的不同种类线性预测效率的具体估计方式可能有所不同。下面通过举例一些可能的实施例方式进行说明。
举例来说,在本发明的一些实施例中,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计当前音频帧的长时线性预测效率,上述当前音频帧的长时线性预测效率为上述当前音频帧的参考长时线性预测效率。
或者,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N1个历史音频帧的线性预测效率;计算上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值,其中,上述N1为正整数,上述第一统计值为上述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N11个历史音频帧为上述N1个历史音频帧的子集。其中,计算得到的上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值例如可以是,上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N2个历史音频帧的参考线性预测效率;计算上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值,其中,上述N2为正整数,上述第二统计值为上述当前音频帧的参考长时线性预测效率,其中,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N21个历史音频帧为上述N2个历史音频帧的子集。计算得到的上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值例如为,上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N4个历史音频帧的参考线性预测效率,获取上述当前音频帧的N3个历史音频帧的线性预测效率;计算上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值,其中,上述N3和上述N4为正整数,上述第三统计值为上述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述N31个历史音频帧为上述N3个历史音频帧的子集,上述N41个历史音频帧为上述N4个历史音频帧的子集,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到。上述N3个历史音频帧和上述N4个历史音频帧的交集可为空集或不是空集。计算得到的上述上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值例如为,上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
举例来说,在本发明的一些实施例中,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计当前音频帧的短时线性预测效率,其中上述当前音频帧的短时线性预测效率为上述当前音频帧的参考短时线性预测效率。
或者,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N5个历史音频帧的线性预测效率;计算上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值,其中,上述N5为正整数,上述第四统计值为上述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N51个历史音频帧为上述N5个历史音频帧的子集。其中,计算得到的上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值可为,上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N6个历史音频帧的参考线性预测效率;计算上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值,上述N6为正整数,上述第五统计值为上述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N61个历史音频帧为上述N6个历史音频帧的子集。其中,计算得到的上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值可为,上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,处理器502通过总线501调用存储器503中存储的代码以具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N8个历史音频帧的参考线性预测效率;获取上述当前音频帧的N7个历史音频帧的线性预测效率;计算上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值,上述N7和上述N8为正整数,上述第六统计值为上述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N71个历史音频帧为上述N7个历史音频帧的子集,上述N81个历史音频帧为上述N8个历史音频帧的子集。上述N7个历史音频帧和上述N8个历史音频帧的交集可为空集或不是空集。其中,计算得到的上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值可为,上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明一些实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(如长时线性预测效率、短时线性预测效率)可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(例如长时线性预测效率、短时线性预测效率)越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明的一些实施例中,在上述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率的方面,处理器502可通过总线501调用存储器503中存储的代码以具体用于:计算当前音频帧进行短时线性预测前后的能量变化率,其中,计算出的上述能量变化率为当前音频帧的短时线性预测效率,或者,当前音频帧的短时线性预测效率基于计算出的上述能量变化率变换得到,其中,上述当前音频帧进行短时线性预测后的能量为上述当前音频帧的线性预测残差的能量。例如,能量变化率与当前音频帧的短时线性预测效率之间可具有映射关系,可基于能量变化率与当前音频帧的短时线性预测效率之间的映射关系,得到与计算出的上述能量变化率具有映射关系的当前音频帧的短时线性预测效率。一般来说,当前音频帧进行短时线性预测前后的能量变化率越大,表示当前音频帧的短时线性预测效率越高。
例如,上述当前音频帧进行短时线性预测前后的能量变化率,可为上述当前音频帧进行短时线性预测前的能量与上述当前音频帧的线性预测残差的能量的比值或比值的倒数。一般来说,上述当前音频帧进行短时线性预测前的能量除以上述当前音频帧的线性预测残差的能量得到的比值越大,表示当前音频帧的短时线性预测效率越高。
在本发明的一些实施例中,在上述估计得到当前音频帧的长时线性预测效率的方面,处理器502可通过总线501调用存储器503中存储的代码以具体用于:根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,上述相关性为当前音频帧的长时线性预测效率,或者当前音频帧的长时线性预测效率基于上述变换得到。其中,上述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差;上述第一历史线性预测残差为上述当前音频帧的历史音频帧的线性预测残差(例如上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某一帧历史音频帧的线性预测残差,或者,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测残差),上述第一历史线性预测激励为上述当前音频帧的历史音频帧的线性预测激励(例如上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某一帧历史音频帧的线性预测激励,或者上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测激励)。举例来说,例如相关性与音频帧的长时线性预测效率之间具有映射关系,可基于相关性与音频帧的长时线性预测效率之间的映射关系,得到与计算出的上述相关性具有映射关系的上述当前音频帧的长时线性预测效率。
其中,根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方式可以是多种多样的。
举例来说,在上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方面,处理器502可通过总线501调用存储器503中存储的代码以具体用于:计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性可包括:将当前音频帧的线性预测残差乘以增益因子以得到上述当前音频帧的增益线性预测残差,计算得到上述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的增益线性预测残差与上述第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,可以包括:将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
其中,上述第一历史线性预测激励或上述第一历史线性预测残差可基于上述当前音频帧的基音确定。例如,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。例如,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性越大,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述相关性例如为时域上的互相关函数值和/或频域上的互相关函数值,或者上述相关性可为时域上的失真和/或频域上的失真(其中,频域上的失真亦可称之为谱失真)。
其中,在本发明的一些实施例中,上述频域上的失真可在频域上的K1个频点的失真的和值或加权和值,或者上述频域上的失真可为在频域上的K2个子带上的失真的和值或加权和值,上述K1和上述K2为正整数。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的互相关函数值越大,则可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的互相关函数值越大,可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述失真的加权和值所对应的加权系数为反映心理声学模型的感知加权系数。当然,上述失真的加权和值所对应的加权系数亦可为基于实际需要设定的其它加权系数。其中,测试发现,使用感知加权系数有利于使得计算出的失真更加符合主观的质量,从而有利于提升性能。
在本发明的一些实施例中,上述第一历史线性预测激励可为利用基于线性预测的编码方式对上述当前音频帧的历史音频帧进行音频编码而产生的线性预测激励。
在本发明的一些实施例中,上述第一历史线性预测残差,可基于上述当前音频帧的第一历史音频帧的时域信号和上述第一历史音频帧的线性预测系数得到,其中,上述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述当前音频帧的线性预测残差可基于上述当前音频帧的时域信号和上述当前音频帧的线性预测系数得到,其中,上述当前音频帧的线性预测系数可为量化后的线性预测系数或者未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述第一历史线性预测激励可为自适应码本激励与固定码本激励的叠加激励,或者上述第一历史线性预测激励可为自适应码本激励。或上述第一历史线性预测激励可为其它类型的码本激励。
可以理解的是,本实施例的音频编码器500的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。其中,音频编码器500可为任何需要采集、存储或者可向外传输音频信号的装置,例如可为手机、平板电脑、个人电脑、笔记本电脑等等。
其中,本装置实施例涉及的各阈值(如第一阈值、第二阈值等)、各其它参数(如N1、N11、N21、N2等)的取值举例,可参考上述方法实施例中的相关取值举例,此处不再赘述。
可以看出,本实施例的技术方案中,音频编码器500先估计当前音频帧的参考线性预测效率;通过估计出的上述当前音频帧的参考线性预测效率来确定与之匹配的音频编码方式,并按照确定出的与之匹配音频编码方式对上述当前音频帧进行音频编码,由于上述方案在确定音频编码方式的过程中,无需执行现有闭环选择模式所需要执行的利用每种音频编码方式分别将当前音频帧进行完整编码的操作,而是通过当前音频帧的参考线性预测效率来确定需选择的音频编码方式,而估计当前音频帧的参考线性预测效率的计算复杂度,通常是远远小于利用每种音频编码方式分别将当前音频帧进行完整编码的计算复杂度的,因此相对于现有机制而言,本发明实施例的上述方案有利于降低音频编码运算复杂度,进而降低音频编码的开销。
参见图6,图6是本发明的另一个实施例提供的音频编码器600的结构框图。其中,音频编码器600可以包括:至少1个处理器601,至少1个网络接口604或其他用户接口603,存储器605,至少1个通信总线602。通信总线602用于实现这些组件之间的连接通信。其中,该音频编码器600可选的包含用户接口603,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等)、点击设备(例如鼠标、轨迹球(trackball)触感板或触摸屏等)、摄像头和/或拾音装置等。
其中,存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器602中的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器605存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统6051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
应用程序模块6052,包含各种应用程序,用于实现各种应用业务。
应用程序模块6052中包括但不限于集合确估计单元410、确定单元420和编码单元430等。
在本发明实施例中,通过调用存储器605存储的程序或指令,处理器601用于估计当前音频帧的参考线性预测效率;确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式;按照与上述当前音频帧的参考线性预测效率匹配的音频编码方式,对上述当前音频帧进行音频编码。
其中,在本发明的各实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。其中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的参考线性预测效率越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明的一些实施例中,上述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率,其中,上述参考综合线性预测效率基于上述参考长时线性预测效率和上述参考短时线性预测效率得到。
其中,当前音频帧的参考长时线性预测效率可基于当前音频帧的长时线性预测效率得到。当前音频帧的参考短时线性预测效率可基于当前音频帧的短时线性预测效率得到。当前音频帧的参考综合线性预测效率例如可基于当前音频帧的长时线性预测效率和短时线性预测效率得到。
可以理解,参考线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x1(x1为正数)。其中,参考长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x2(x2为正数)。参考短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x3(x3为正数)。其中,参考综合线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x4(x4为正数)。其中,长时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x5(x5为正数)。短时线性预测效率的取值范围可为0~1(即0%~100%),或者取值范围也可以是0~x6(x6为正数)。其中,x1、x2、x3、x4、x5或x6例如可为0.5、0.8或1.5、2、5、10、50、100或其它正数。
在本发明的一些实施例中,音频编码方式与音频帧的参考线性预测效率之间可以具有设定的映射关系,例如,不同的音频编码方式可以对应不同的参考线性预测效率,或者,不同的音频编码方式可以对应不同的参考线性预测效率区间等。例如可在至少两个音频编码方式中,确定与估计出的上述当前音频帧的参考线性预测效率匹配的音频编码方式。
在本发明一些实施例中,在估计当前音频帧的参考线性预测效率之前,通过调用存储器605存储的程序或指令,处理器601还可用于,先判断当前音频帧是否为语音音频帧。例如上述估计当前音频帧的参考线性预测效率可包括:当当前音频帧为非语音音频帧,估计上述当前音频帧的参考线性预测效率。此外,也可在上述估计当前音频帧的参考线性预测效率之前不区分当前音频帧是否为语音音频帧。
在本发明的一些实施例中,上述当前音频帧的参考综合线性预测效率例如可为上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率的和值、加权和值(其中,此处加权和值所对应的权值可以根据实际需要进行设定,其中1个权值例如可为0.5、1.、2、3、5、10或者其它值)或平均值。当然,也可能通过其它算法,基于上述当前音频帧的参考长时线性预测效率和当前音频帧的参考短时线性预测效率得到上述当前音频帧的参考综合线性预测效率。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的线性预测效率的种类不同,处理器601确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的具体方式也就可能不同。下面举例一些可能的实施例方式。
举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率和上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于若上述当前音频帧的参考长时线性预测效率小于第一阈值,和/或上述当前音频帧的参考短时线性预测效率小于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率大于或等于第一阈值,和/或上述当前音频帧的参考短时线性预测效率大于或等于第二阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考长时线性预测效率大于或等于第三阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考长时线性预测效率小于第四阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考长时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,确定上述当前音频帧的参考长时线性预测效率所落入的第一线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第一线性预测效率区间具有映射关系的第一音频编码方式,其中,上述第一音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第一音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。其中,不同的线性预测效率区间对应于不同的音频编码方式。例如假设存着3个线性预测效率区间,分别可为0~30%、30%~70%和70%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~30%(即第一线性预测效率区间为线性预测效率区间0~30%),可确定线性预测效率区间0~30%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间30%~70%(即第一线性预测效率区间为线性预测效率区间30%~70%),可以确定线性预测效率区间30%~70%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考短时线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,确定上述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第二线性预测效率区间具有映射关系的第二音频编码方式或为非基于线性预测的音频编码方式,其中,上述第二音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,第二音频编码方式为基于线性预测的音频编码方式。例如假设存着3个线性预测效率区间,分别可为0~40%、40%~60%和60%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~40%(即第二线性预测效率区间为线性预测效率区间0~40%),则可确定线性预测效率区间0~40%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间40%~60%(即第二线性预测效率区间为线性预测效率区间40%~60%),确定线性预测效率区间40%~60%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式。
又举例来说,在本发明的另一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的又一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,若上述当前音频帧的参考综合线性预测效率大于或等于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;若上述当前音频帧的参考综合线性预测效率小于第六阈值,则确定出与上述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
又举例来说,在本发明的一些实施例中,若上述当前音频帧的参考线性预测效率包括上述当前音频帧的参考综合线性预测效率,则在上述确定与上述当前音频帧的参考线性预测效率匹配的音频编码方式的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,确定上述当前音频帧的参考综合线性预测效率所落入的第三线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与上述第三线性预测效率区间具有映射关系的第三音频编码方式或为非基于线性预测的音频编码方式,其中,上述第三音频编码方式为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,上述第三音频编码方式为基于线性预测的音频编码方式。例如,假设存着3个线性预测效率区间,分别可为0~50%、50%~80%和80%~100%,若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间0~50%(即第三线性预测效率区间为线性预测效率区间0~50%),则可确定线性预测效率区间0~50%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式。若上述当前音频帧的参考长时线性预测效率落入线性预测效率区间50~80%(即第三线性预测效率区间为线性预测效率区间50%~80%),确定线性预测效率区间50%~80%对应的音频编码方式,为与上述当前音频帧的参考线性预测效率匹配的音频编码方式,其它场景以此类推。可以根据不同应用场景的需要,来设定线性预测效率区间和基于线性预测的音频编码方式之间的映射关系。
在本发明一些实施例中,基于线性预测的音频编码方式可包括代数码激励线性预测(ACELP)编码、变换激励编码(TCX)等。非基于线性预测的音频编码方式可包括一般音频编码(GAC),GAC例如可以包括修正离散余弦变换(MDCT)编码或离散余弦变换(DCT)编码等。
可以理解,上述举例中提及的各种阈值(例如第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值)的具体取值,可根据需要或者根据应用的环境和场景进行设定。例如上述当前音频帧的参考长时线性预测效率的取值范围为0~1,则第一阈值可取值为0.2、0.5、0.6、0.8等、上述当前音频帧的参考短时线性预测效率的取值范围为0~1,第二阈值可取值为0.3、0.3、0.6或0.8等。其它场景以此类推。进一步的,还可根据需要对各种阈值的取值进行动态适应性的调整。
可以理解的是,上述当前音频帧的参考线性预测效率所包括的不同种类线性预测效率的具体估计方式可能有所不同。下面通过举例一些可能的实施例方式进行说明。
举例来说,在本发明的一些实施例中,通过调用存储器605存储的程序或指令,处理器601可具体用于,通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计当前音频帧的长时线性预测效率,上述当前音频帧的长时线性预测效率为上述当前音频帧的参考长时线性预测效率。
或者,通过调用存储器605存储的程序或指令,处理器601可具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N1个历史音频帧的线性预测效率;计算上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值,其中,上述N1为正整数,上述第一统计值为上述当前音频帧的参考长时线性预测效率,其中,N11个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N11个历史音频帧为上述N1个历史音频帧的子集。其中,计算得到的上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的第一统计值例如可以是,上述N1个历史音频帧的线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,通过调用存储器605存储的程序或指令,处理器601可具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N2个历史音频帧的参考线性预测效率;计算上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值,其中,上述N2为正整数,上述第二统计值为上述当前音频帧的参考长时线性预测效率,其中,N21个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N21个历史音频帧为上述N2个历史音频帧的子集。计算得到的上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第二统计值例如为,上述N2个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,通过调用存储器605存储的程序或指令,处理器601可具体用于通过如下方式估计得到当前音频帧的参考长时线性预测效率:估计得到当前音频帧的长时线性预测效率;获取上述当前音频帧的N4个历史音频帧的参考线性预测效率,获取上述当前音频帧的N3个历史音频帧的线性预测效率;计算上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值,上述N3和上述N4为正整数,上述第三统计值为上述当前音频帧的参考长时线性预测效率,N31个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率;其中,N41个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述N31个历史音频帧为上述N3个历史音频帧的子集,上述N41个历史音频帧为上述N4个历史音频帧的子集,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到。上述N3个历史音频帧和上述N4个历史音频帧的交集可为空集或不是空集。计算得到的上述上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的第三统计值例如为,上述N3个历史音频帧的线性预测效率、上述N4个历史音频帧的参考线性预测效率和上述当前音频帧的长时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
举例来说,在本发明的一些实施例中,通过调用存储器605存储的程序或指令,处理器601可具体用于,通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计当前音频帧的短时线性预测效率,其中上述当前音频帧的短时线性预测效率为上述当前音频帧的参考短时线性预测效率。
或者,通过调用存储器605存储的程序或指令,处理器601可具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N5个历史音频帧的线性预测效率;计算上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值,其中,上述N5为正整数,上述第四统计值为上述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,上述N51个历史音频帧为上述N5个历史音频帧的子集。其中,计算得到的上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的第四统计值可为,上述N5个历史音频帧的线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,通过调用存储器605存储的程序或指令,处理器601可具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N6个历史音频帧的参考线性预测效率;计算上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值,上述N6为正整数,上述第五统计值为上述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N61个历史音频帧为上述N6个历史音频帧的子集。其中,计算得到的上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第五统计值可为,上述N6个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
或者,通过调用存储器605存储的程序或指令,处理器601可具体用于通过如下方式估计得到当前音频帧的参考短时线性预测效率:估计得到当前音频帧的短时线性预测效率;获取上述当前音频帧的N8个历史音频帧的参考线性预测效率;获取上述当前音频帧的N7个历史音频帧的线性预测效率;计算上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值,上述N7和上述N8为正整数,上述第六统计值为上述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为上述每个历史音频帧的如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,上述每个历史音频帧的综合线性预测效率基于上述每个历史音频帧的长时线性预测效率和短时线性预测效率得到,其中,上述每个历史音频帧的参考综合线性预测效率基于上述每个历史音频帧的参考长时线性预测效率和参考短时线性预测效率得到,上述N71个历史音频帧为上述N7个历史音频帧的子集,上述N81个历史音频帧为上述N8个历史音频帧的子集。上述N7个历史音频帧和上述N8个历史音频帧的交集可为空集或不是空集。其中,计算得到的上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的第六统计值可为,上述N7个历史音频帧的线性预测效率、上述N8个历史音频帧的参考线性预测效率和上述当前音频帧的短时线性预测效率的和值、加权和值、几何平均值、算术平均值、滑动平均值或加权平均值。
在本发明一些实施例中,音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(如长时线性预测效率、短时线性预测效率)可用于表示该音频帧能够被进行线性预测的程度。其中,音频帧(如当前音频帧或者当前音频帧的历史音频帧)的线性预测结果指该音频帧的线性预测值。音频帧(如当前音频帧或当前音频帧的历史音频帧)的线性预测效率(例如长时线性预测效率、短时线性预测效率)越高,则表示该音频帧能够被进行线性预测的程度越高。
在本发明一些实施例中,在基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,计算当前音频帧进行短时线性预测前后的能量变化率,其中,计算出的上述能量变化率为当前音频帧的短时线性预测效率,或者,当前音频帧的短时线性预测效率基于计算出的上述能量变化率变换得到,其中,上述当前音频帧进行短时线性预测后的能量为上述当前音频帧的线性预测残差的能量。例如,能量变化率与当前音频帧的短时线性预测效率之间可具有映射关系,可基于能量变化率与当前音频帧的短时线性预测效率之间的映射关系,得到与计算出的上述能量变化率具有映射关系的当前音频帧的短时线性预测效率。一般来说,当前音频帧进行短时线性预测前后的能量变化率越大,表示当前音频帧的短时线性预测效率越高。
例如,上述当前音频帧进行短时线性预测前后的能量变化率,可为上述当前音频帧进行短时线性预测前的能量与上述当前音频帧的线性预测残差的能量的比值或比值的倒数。一般来说,上述当前音频帧进行短时线性预测前的能量除以上述当前音频帧的线性预测残差的能量得到的比值越大,表示当前音频帧的短时线性预测效率越高。
在本发明的一些实施例中,在上述估计得到当前音频帧的长时线性预测效率的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,上述相关性为当前音频帧的长时线性预测效率,或者当前音频帧的长时线性预测效率基于上述变换得到。其中,上述第一历史线性预测信号为第一历史线性预测激励或第一历史线性预测残差;上述第一历史线性预测残差为上述当前音频帧的历史音频帧的线性预测残差(例如,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某一帧历史音频帧的线性预测残差,或者,上述第一历史线性预测残差可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测残差),上述第一历史线性预测激励为上述当前音频帧的历史音频帧的线性预测激励(例如,上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,并且为上述当前音频帧的某一帧历史音频帧的线性预测激励,或者上述第一历史线性预测激励可以为时长与上述当前音频帧相同或相近,且为当前音频帧的某相邻两帧历史音频帧的部分连续音频信号的线性预测激励)。举例来说,例如相关性与音频帧的长时线性预测效率之间具有映射关系,可基于相关性与音频帧的长时线性预测效率之间的映射关系,得到与计算出的上述相关性具有映射关系的上述当前音频帧的长时线性预测效率。
其中,根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方式可以是多种多样的。
举例来说,在上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性的方面,通过调用存储器605存储的程序或指令,处理器601可具体用于,计算当前音频帧的线性预测残差与第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性可包括:将当前音频帧的线性预测残差乘以增益因子以得到上述当前音频帧的增益线性预测残差,计算得到上述当前音频帧的增益线性预测残差与第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的增益线性预测残差与上述第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
或者,上述根据当前音频帧的线性预测残差与第一历史线性预测信号,得到上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性,可以包括:将第一历史线性预测信号乘以增益因子以得到增益后的第一历史线性预测信号,计算得到上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,其中,计算得到的上述当前音频帧的线性预测残差与上述增益后的第一历史线性预测信号之间的相关性,为上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性。
其中,上述第一历史线性预测激励或上述第一历史线性预测残差可基于上述当前音频帧的基音确定。例如,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测激励与上述当前音频帧的线性预测残差在时域上的相关性。例如,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。或者,上述第一历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性,大于或等于其它至少1个历史线性预测残差与上述当前音频帧的线性预测残差在时域上的相关性。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号之间的相关性越大,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述相关性例如为时域上的互相关函数值和/或频域上的互相关函数值,或者上述相关性可为时域上的失真和/或频域上的失真(其中,频域上的失真亦可称之为谱失真)。
其中,在本发明的一些实施例中,上述频域上的失真可在频域上的K1个频点的失真的和值或加权和值,或者上述频域上的失真可为在频域上的K2个子带上的失真的和值或加权和值,上述K1和上述K2为正整数。
一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的互相关函数值越大,则可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的互相关函数值越大,可表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在频域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。一般来说,上述当前音频帧的线性预测残差与上述第一历史线性预测信号在时域上的失真越小,表示上述当前音频帧的长时线性预测效率越高。
在本发明的一些实施例中,上述失真的加权和值所对应的加权系数为反映心理声学模型的感知加权系数。当然,上述失真的加权和值所对应的加权系数亦可为基于实际需要设定的其它加权系数。其中,测试发现,使用感知加权系数有利于使得计算出的失真更加符合主观的质量,从而有利于提升性能。
在本发明的一些实施例中,上述第一历史线性预测激励可为利用基于线性预测的编码方式对上述当前音频帧的历史音频帧进行音频编码而产生的线性预测激励。
在本发明的一些实施例中,上述第一历史线性预测残差,可基于上述当前音频帧的第一历史音频帧的时域信号和上述第一历史音频帧的线性预测系数得到,其中,上述第一历史音频帧的线性预测编码系数为量化后的线性预测系数或未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述当前音频帧的线性预测残差可基于上述当前音频帧的时域信号和上述当前音频帧的线性预测系数得到,其中,上述当前音频帧的线性预测系数可为量化后的线性预测系数或者未经量化的线性预测系数。其中,由于实际编解码过程中对最终质量起作用的通常都是量化后的线性预测系数,因此使用量化后的线性预测系数计算线性预测残差有利于使计算出的相关性更准确。
在本发明的一些实施例中,上述第一历史线性预测激励可为自适应码本激励与固定码本激励的叠加激励,或者上述第一历史线性预测激励可为自适应码本激励。或上述第一历史线性预测激励可为其它类型的码本激励。
可以理解的是,本实施例的音频编码器600的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。其中,音频编码器600可为任何需要采集、存储或者可向外传输音频信号的装置,例如可为手机、平板电脑、个人电脑、笔记本电脑等等。
其中,本装置实施例涉及的各阈值(如第一阈值、第二阈值等)、各其它参数(如N1、N11、N21、N2等)的取值举例,可参考上述方法实施例中的相关取值举例,此处不再赘述。
可以看出,本实施例的技术方案中,音频编码器600先估计当前音频帧的参考线性预测效率;通过估计出的上述当前音频帧的参考线性预测效率来确定与之匹配的音频编码方式,并按照确定出的与之匹配音频编码方式对上述当前音频帧进行音频编码,由于上述方案在确定音频编码方式的过程中,无需执行现有闭环选择模式所需要执行的利用每种音频编码方式分别将当前音频帧进行完整编码的操作,而是通过当前音频帧的参考线性预测效率来确定需选择的音频编码方式,而估计当前音频帧的参考线性预测效率的计算复杂度,通常是远远小于利用每种音频编码方式分别将当前音频帧进行完整编码的计算复杂度的,因此相对于现有机制而言,本发明实施例的上述方案有利于降低音频编码运算复杂度,进而降低音频编码的开销。
本发明实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任意一种音频编码方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅仅是用以说明本发明的技术方案,而不是对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (18)
1.一种音频编码方法,其特征在于,包括:
估计当前音频帧的参考线性预测效率;
确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式;
按照与所述当前音频帧的参考线性预测效率匹配的音频编码方式对所述当前音频帧进行音频编码。
2.根据权利要求1所述的方法,其特征在于,
所述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率。
3.根据权利要求2所述的方法,其特征在于,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:
若所述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,
若所述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
4.根据权利要求2所述的方法,其特征在于,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定与所述当前音频帧的参考线性预测效率匹配的音频编码方式,包括:确定所述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第二线性预测效率区间具有映射关系的第二音频编码方式,其中,所述第二音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第二音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
5.根据权利要求2至4任一项所述的方法,其特征在于,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计当前音频帧的短时线性预测效率,其中,所述当前音频帧的短时线性预测效率为所述当前音频帧的参考短时线性预测效率;
或者,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N5个历史音频帧的线性预测效率;计算所述N5个历史音频帧的线性预测效率和所述当前音频帧的短时线性预测效率的第四统计值,其中,所述N5为正整数,所述第四统计值为所述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,所述N51个历史音频帧为所述N5个历史音频帧的子集;
或者,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N6个历史音频帧的参考线性预测效率;计算所述N6个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第五统计值,其中,所述N6为正整数,所述第五统计值为所述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N61个历史音频帧为所述N6个历史音频帧的子集;
或者,
所述当前音频帧的参考短时线性预测效率通过如下方式估计得到:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N8个历史音频帧的参考线性预测效率;获取所述当前音频帧的N7个历史音频帧的线性预测效率;计算所述N7个历史音频帧的线性预测效率、所述N8个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第六统计值,其中,所述N7和所述N8为正整数,所述第六统计值为所述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N71个历史音频帧为所述N7个历史音频帧的子集,所述N81个历史音频帧为所述N8个历史音频帧的子集。
6.根据权利要求5所述的方法,其特征在于,所述估计得到当前音频帧的短时线性预测效率,包括:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
7.根据权利要求6所述的方法,其特征在于,所述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率,包括:
计算当前音频帧进行短时线性预测前后的能量变化率,其中,所述能量变化率为所述当前音频帧的短时线性预测效率,或者所述当前音频帧的短时线性预测效率基于所述能量变化率变换得到,其中,所述当前音频帧进行短时线性预测后的能量为所述当前音频帧的线性预测残差的能量。
8.根据权利要求7所述的方法,其特征在于,所述当前音频帧进行短时线性预测前后的能量变化率为所述当前音频帧进行短时线性预测前的能量与所述当前音频帧的线性预测残差的能量的比值。
9.根据权利要求1-8任一所述的方法,其特征在于,所述估计当前音频帧的参考线性预测效率包括:
当当前音频帧为非语音音频帧时,估计所述当前音频帧的参考线性预测效率。
10.一种音频编码器,其特征在于,包括:
估计单元,用于估计当前音频帧的参考线性预测效率;
确定单元,用于确定与所述估计单元估计出的所述当前音频帧的参考线性预测效率匹配的音频编码方式;
编码单元,用于按照所述确定单元确定出的与所述当前音频帧的参考线性预测效率匹配的音频编码方式,对所述当前音频帧进行音频编码。
11.根据权利要求10所述的音频编码器,其特征在于,
所述参考线性预测效率包括如下线性预测效率的至少一种:参考长时线性预测效率、参考短时线性预测效率和参考综合线性预测效率。
12.根据权利要求11所述的音频编码器,其特征在于,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定单元具体用于:
若所述当前音频帧的参考短时线性预测效率大于或等于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为基于线性预测的音频编码方式;
和/或,
若所述当前音频帧的参考短时线性预测效率小于第五阈值,则确定出与所述当前音频帧的参考线性预测效率匹配的音频编码方式为非基于线性预测的音频编码方式。
13.根据权利要求11所述的音频编码器,其特征在于,
若所述当前音频帧的参考线性预测效率包括所述当前音频帧的参考短时线性预测效率,则所述确定单元具体用于:确定所述当前音频帧的参考短时线性预测效率所落入的第二线性预测效率区间,根据线性预测效率区间和基于线性预测的音频编码方式之间的映射关系,确定出与所述第二线性预测效率区间具有映射关系的第二音频编码方式,其中,所述第二音频编码方式为与所述当前音频帧的参考线性预测效率匹配的音频编码方式,所述第二音频编码方式为基于线性预测的音频编码方式或为非基于线性预测的音频编码方式。
14.根据权利要求11至13任一项所述的音频编码器,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计当前音频帧的短时线性预测效率,其中,所述当前音频帧的短时线性预测效率为所述当前音频帧的参考短时线性预测效率;
或者,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N5个历史音频帧的线性预测效率;计算所述N5个历史音频帧的线性预测效率和所述当前音频帧的短时线性预测效率的第四统计值,其中,所述N5为正整数,所述第四统计值为所述当前音频帧的参考短时线性预测效率,其中,N51个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,所述N51个历史音频帧为所述N5个历史音频帧的子集;
或者,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N6个历史音频帧的参考线性预测效率;计算所述N6个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第五统计值,其中,所述N6为正整数,所述第五统计值为所述当前音频帧的参考短时线性预测效率,其中,N61个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N61个历史音频帧为所述N6个历史音频帧的子集;
或者,
在估计所述当前音频帧的参考短时线性预测效率的方面,所述估计单元具体用于:估计得到当前音频帧的短时线性预测效率;获取所述当前音频帧的N8个历史音频帧的参考线性预测效率;获取所述当前音频帧的N7个历史音频帧的线性预测效率;计算所述N7个历史音频帧的线性预测效率、所述N8个历史音频帧的参考线性预测效率和所述当前音频帧的短时线性预测效率的第六统计值,其中,所述N7和所述N8为正整数,所述第六统计值为所述当前音频帧的参考短时线性预测效率,N71个历史音频帧中的每个历史音频帧的线性预测效率为如下线性预测效率中的至少一种:长时线性预测效率、短时间线性预测效率和综合线性预测效率,N81个历史音频帧中的每个历史音频帧的参考线性预测效率为如下线性预测效率中的至少一种:参考长时线性预测效率、参考短时间线性预测效率和参考综合线性预测效率,其中,所述N71个历史音频帧为所述N7个历史音频帧的子集,所述N81个历史音频帧为所述N8个历史音频帧的子集。
15.根据权利要求14所述的音频编码器,在所述估计得到当前音频帧的短时线性预测效率的方面,所述估计单元具体用于:基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率。
16.根据权利要求15所述的音频编码器,其特征在于,在所述基于当前音频帧的线性预测残差得到当前音频帧的短时线性预测效率的方面,所述估计单元具体用于:计算当前音频帧进行短时线性预测前后的能量变化率,其中,所述能量变化率为所述当前音频帧的短时线性预测效率,或者所述当前音频帧的短时线性预测效率基于所述能量变化率变换得到,其中,所述当前音频帧进行短时线性预测后的能量为所述当前音频帧的线性预测残差的能量。
17.根据权利要求16所述的音频编码器,其特征在于,所述当前音频帧进行短时线性预测前后的能量变化率,为所述当前音频帧进行短时线性预测前的能量与所述当前音频帧的线性预测残差的能量的比值。
18.根据权利要求10-17任一所述的音频编码器,其特征在于,所述估计单元用于当所述当前音频帧为非语音音频帧时,估计所述当前音频帧的参考线性预测效率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710188290.0A CN107452390B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710188290.0A CN107452390B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
CN201410177838.8A CN105096958B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410177838.8A Division CN105096958B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107452390A true CN107452390A (zh) | 2017-12-08 |
CN107452390B CN107452390B (zh) | 2021-10-26 |
Family
ID=54358108
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710188290.0A Active CN107452390B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
CN201410177838.8A Active CN105096958B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
CN201710188301.5A Active CN107452391B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410177838.8A Active CN105096958B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
CN201710188301.5A Active CN107452391B (zh) | 2014-04-29 | 2014-04-29 | 音频编码方法及相关装置 |
Country Status (18)
Country | Link |
---|---|
US (2) | US10262671B2 (zh) |
EP (2) | EP3139379A4 (zh) |
JP (2) | JP2017515154A (zh) |
KR (2) | KR101971268B1 (zh) |
CN (3) | CN107452390B (zh) |
AU (2) | AU2014392320A1 (zh) |
BR (1) | BR112016025330B1 (zh) |
CA (1) | CA2947360C (zh) |
CL (1) | CL2016002750A1 (zh) |
HK (1) | HK1216449A1 (zh) |
MX (1) | MX364291B (zh) |
MY (1) | MY193553A (zh) |
NZ (1) | NZ726171A (zh) |
RU (1) | RU2661787C2 (zh) |
SG (1) | SG11201609043PA (zh) |
UA (1) | UA118588C2 (zh) |
WO (1) | WO2015165233A1 (zh) |
ZA (1) | ZA201607558B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452390B (zh) * | 2014-04-29 | 2021-10-26 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN106297813A (zh) | 2015-05-28 | 2017-01-04 | 杜比实验室特许公司 | 分离的音频分析和处理 |
CN109076241B (zh) * | 2016-05-04 | 2023-06-23 | 微软技术许可有限责任公司 | 利用样本值的非相邻参考线进行帧内图片预测 |
CN113129910A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009325A1 (en) * | 1998-01-22 | 2003-01-09 | Raif Kirchherr | Method for signal controlled switching between different audio coding schemes |
CN101145345A (zh) * | 2006-09-13 | 2008-03-19 | 华为技术有限公司 | 音频分类方法 |
CN102341844A (zh) * | 2009-03-10 | 2012-02-01 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序及记录介质 |
US20120226496A1 (en) * | 2009-11-12 | 2012-09-06 | Lg Electronics Inc. | apparatus for processing a signal and method thereof |
CN103262161A (zh) * | 2010-10-18 | 2013-08-21 | 三星电子株式会社 | 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法 |
CN105096958B (zh) * | 2014-04-29 | 2017-04-12 | 华为技术有限公司 | 音频编码方法及相关装置 |
Family Cites Families (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1270439B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce |
JPH08179796A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | 音声符号化方法 |
FR2729247A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
EP0723258B1 (en) | 1995-01-17 | 2000-07-05 | Nec Corporation | Speech encoder with features extracted from current and previous frames |
JP3089967B2 (ja) * | 1995-01-17 | 2000-09-18 | 日本電気株式会社 | 音声符号化装置 |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
JP3616432B2 (ja) * | 1995-07-27 | 2005-02-02 | 日本電気株式会社 | 音声符号化装置 |
US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
US5978756A (en) * | 1996-03-28 | 1999-11-02 | Intel Corporation | Encoding audio signals using precomputed silence |
US5890109A (en) * | 1996-03-28 | 1999-03-30 | Intel Corporation | Re-initializing adaptive parameters for encoding audio signals |
US5839098A (en) * | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
JP3583945B2 (ja) * | 1999-04-15 | 2004-11-04 | 日本電信電話株式会社 | 音声符号化方法 |
JP3387092B2 (ja) * | 2000-10-20 | 2003-03-17 | 日本ビクター株式会社 | 音声符号化装置 |
JP3404024B2 (ja) | 2001-02-27 | 2003-05-06 | 三菱電機株式会社 | 音声符号化方法および音声符号化装置 |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
EP1383109A1 (fr) * | 2002-07-17 | 2004-01-21 | STMicroelectronics N.V. | Procédé et dispositif d'encodage de la parole à bande élargie |
JP2004069963A (ja) | 2002-08-06 | 2004-03-04 | Fujitsu Ltd | 音声符号変換装置及び音声符号化装置 |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
US7047188B2 (en) * | 2002-11-08 | 2006-05-16 | Motorola, Inc. | Method and apparatus for improvement coding of the subframe gain in a speech coding system |
US7176878B2 (en) * | 2002-12-11 | 2007-02-13 | Nvidia Corporation | Backlight dimming and LCD amplitude boost |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7739120B2 (en) | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
KR100707174B1 (ko) | 2004-12-31 | 2007-04-13 | 삼성전자주식회사 | 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법 |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
US20070174502A1 (en) | 2006-01-23 | 2007-07-26 | Cheng-Chieh Lin | Method and apparatus of identifying type of non-volatile memory |
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
CN101000768B (zh) * | 2006-06-21 | 2010-12-08 | 北京工业大学 | 嵌入式语音编解码的方法及编解码器 |
JP4399829B2 (ja) | 2006-07-07 | 2010-01-20 | 日本ビクター株式会社 | 音声符号化方法及び音声復号化方法 |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
CN101145343B (zh) * | 2006-09-15 | 2011-07-20 | 展讯通信(上海)有限公司 | 一种用于音频处理框架中的编码和解码方法 |
WO2008035949A1 (en) * | 2006-09-22 | 2008-03-27 | Samsung Electronics Co., Ltd. | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding |
EP2092517B1 (en) * | 2006-10-10 | 2012-07-18 | QUALCOMM Incorporated | Method and apparatus for encoding and decoding audio signals |
KR100964402B1 (ko) | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
US8548815B2 (en) | 2007-09-19 | 2013-10-01 | Qualcomm Incorporated | Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications |
AU2009220321B2 (en) | 2008-03-03 | 2011-09-22 | Intellectual Discovery Co., Ltd. | Method and apparatus for processing audio signal |
KR200443078Y1 (ko) * | 2008-04-15 | 2009-01-07 | 유혜경 | 절단위치의 조절이 가능한 절단장치 |
WO2010003521A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and discriminator for classifying different segments of a signal |
KR101381513B1 (ko) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
WO2011034374A2 (en) * | 2009-09-17 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US9275650B2 (en) * | 2010-06-14 | 2016-03-01 | Panasonic Corporation | Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs |
WO2012003412A2 (en) * | 2010-06-30 | 2012-01-05 | Life Technologies Corporation | Inducible nucleic acid targets for detection of pathogens, methods and compositions thereof |
US9373332B2 (en) | 2010-12-14 | 2016-06-21 | Panasonic Intellectual Property Corporation Of America | Coding device, decoding device, and methods thereof |
FR2984580A1 (fr) * | 2011-12-20 | 2013-06-21 | France Telecom | Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant |
WO2014118136A1 (en) | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm |
CN103325375B (zh) * | 2013-06-05 | 2016-05-04 | 上海交通大学 | 一种极低码率语音编解码设备及编解码方法 |
CN105096957B (zh) | 2014-04-29 | 2016-09-14 | 华为技术有限公司 | 处理信号的方法及设备 |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
-
2014
- 2014-04-29 CN CN201710188290.0A patent/CN107452390B/zh active Active
- 2014-04-29 CN CN201410177838.8A patent/CN105096958B/zh active Active
- 2014-04-29 CN CN201710188301.5A patent/CN107452391B/zh active Active
- 2014-11-05 WO PCT/CN2014/090369 patent/WO2015165233A1/zh active Application Filing
- 2014-11-05 EP EP14890742.1A patent/EP3139379A4/en not_active Ceased
- 2014-11-05 SG SG11201609043PA patent/SG11201609043PA/en unknown
- 2014-11-05 JP JP2016565172A patent/JP2017515154A/ja active Pending
- 2014-11-05 KR KR1020167033082A patent/KR101971268B1/ko active IP Right Grant
- 2014-11-05 NZ NZ726171A patent/NZ726171A/en unknown
- 2014-11-05 MY MYPI2016703961A patent/MY193553A/en unknown
- 2014-11-05 MX MX2016014176A patent/MX364291B/es active IP Right Grant
- 2014-11-05 BR BR112016025330-2A patent/BR112016025330B1/pt active IP Right Grant
- 2014-11-05 KR KR1020197010932A patent/KR20190042770A/ko not_active Application Discontinuation
- 2014-11-05 EP EP19181627.1A patent/EP3618069B1/en active Active
- 2014-11-05 UA UAA201612001A patent/UA118588C2/uk unknown
- 2014-11-05 RU RU2016146538A patent/RU2661787C2/ru active
- 2014-11-05 CA CA2947360A patent/CA2947360C/en active Active
- 2014-11-05 AU AU2014392320A patent/AU2014392320A1/en not_active Abandoned
-
2016
- 2016-04-18 HK HK16104382.0A patent/HK1216449A1/zh unknown
- 2016-10-28 CL CL2016002750A patent/CL2016002750A1/es unknown
- 2016-10-28 US US15/337,927 patent/US10262671B2/en active Active
- 2016-11-02 ZA ZA2016/07558A patent/ZA201607558B/en unknown
-
2018
- 2018-10-26 AU AU2018253632A patent/AU2018253632B2/en active Active
-
2019
- 2019-01-30 US US16/262,562 patent/US10984811B2/en active Active
- 2019-06-26 JP JP2019118554A patent/JP6812504B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009325A1 (en) * | 1998-01-22 | 2003-01-09 | Raif Kirchherr | Method for signal controlled switching between different audio coding schemes |
CN101145345A (zh) * | 2006-09-13 | 2008-03-19 | 华为技术有限公司 | 音频分类方法 |
CN102341844A (zh) * | 2009-03-10 | 2012-02-01 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序及记录介质 |
US20120226496A1 (en) * | 2009-11-12 | 2012-09-06 | Lg Electronics Inc. | apparatus for processing a signal and method thereof |
CN103262161A (zh) * | 2010-10-18 | 2013-08-21 | 三星电子株式会社 | 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法 |
CN105096958B (zh) * | 2014-04-29 | 2017-04-12 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN107452391B (zh) * | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106462557B (zh) | 重采样音频信号的方法、设备、编/解码器及存储介质 | |
CN1954365B (zh) | 使用不同编码模型的音频编码 | |
CN1947174B (zh) | 可扩展编码装置、可扩展解码装置、可扩展编码方法以及可扩展解码方法 | |
CN104347067B (zh) | 一种音频信号分类方法和装置 | |
RU2509379C2 (ru) | Устройство и способ квантования и обратного квантования lpc-фильтров в суперкадре | |
CN101395661B (zh) | 音频编码和解码的方法和设备 | |
CN108352162A (zh) | 用于使用主声道的编码参数编码立体声声音信号以编码辅声道的方法和系统 | |
CN103688306B (zh) | 对被编码为连续帧序列的音频信号进行解码的方法和装置 | |
CN104025189B (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN101114450B (zh) | 一种语音编码选择性加密方法 | |
CN103348597B (zh) | 低比特率信号的编码及解码方法 | |
CN104126201B (zh) | 用于语音编码的混合码本激励的系统和方法 | |
CN105096958B (zh) | 音频编码方法及相关装置 | |
CN103544957B (zh) | 音频信号的比特分配的方法和装置 | |
CN101208741B (zh) | 一种适用于数字信号短时相关性模型之间的互用性的方法 | |
CN105960676B (zh) | 线性预测分析装置、方法以及记录介质 | |
CN101198041B (zh) | 矢量量化方法及装置 | |
CN100550132C (zh) | 线谱频率矢量量化的方法及系统 | |
CN107210042A (zh) | 编码装置、解码装置、它们的方法、程序以及记录介质 | |
Be’ery et al. | An efficient variable-bit-rate low-delay CELP (VBR-LD-CELP) coder | |
CN106030703A (zh) | 音频信号编码器 | |
Zopf | Real-time implementation of a variable rate CELP speech codec | |
JPH07191700A (ja) | 音声符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1241134 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |