CN101217037A - 对音频信号的编码速率进行源控的方法和系统 - Google Patents
对音频信号的编码速率进行源控的方法和系统 Download PDFInfo
- Publication number
- CN101217037A CN101217037A CN 200710000121 CN200710000121A CN101217037A CN 101217037 A CN101217037 A CN 101217037A CN 200710000121 CN200710000121 CN 200710000121 CN 200710000121 A CN200710000121 A CN 200710000121A CN 101217037 A CN101217037 A CN 101217037A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- energy
- sub
- characteristic parameter
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 257
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 12
- 238000012512 characterization method Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108091029480 NONCODE Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229960001484 edetic acid Drugs 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种对音频信号的编码速率进行源控的方法、系统和音频信号复杂程度确定装置,其根据音频信号的复杂特征参数确定音频信号的复杂程度;并根据所述复杂程度选择相应的编码速率。因此,依据本发明的实施例所选择的编码速率,在对音频信号进行编码时,能在有限的资源条件下,获得较好的编码质量,或是在编码质量相同的条件下,需要较少的资源。
Description
技术领域
本发明涉及通信领域,尤其涉及对音频信号的编码速率进行源控的技术。
背景技术
在语音通信过程中,语音信号的处理通常通过语音编解码器来完成。而传统的语音编码器对语音信号的处理都是基于帧进行的,也就是说,每一种语音编码器只有一个固定的编码速率。但是,语音信号所包含的关键信息量总是不平稳的,即有的语音信号包含的信息量大,有的语音信号包含的信息量小,因此,如果采用固定编码速率,对所述语音信号进行编码,必然存在有时编码比特浪费,有时编码比特又不足的问题。
为了能够有效降低整个通话过程的平均编码速率,以便较好地保证编码质量。与本发明有关的现有技术提出了一种通过源控速率机制控制编码速率的变速率编码方式,其主要原理是:
在对输入的语音信号进行编码之前,对语音信号进行详尽的分类,如针对语音信号处理而开发的源控变速率语音编码器SMV(Selectable Mode Vocoder,可选模式语音编码器),其可对每一语音帧进行分类,将其分为静音/背景噪声帧、类噪声帧、清音帧、起始帧、不稳定浊音帧和稳定浊音帧六类;
然后,根据所述分类结果,为当前的语音帧选择合适的编码速率和编码方式,如为静音/背景噪声帧选择0.8kbit/s速率进行编码,为类噪声帧和清音帧选择2.0kbit/s速率进行编码,为起始帧选择4.0kbit/s速率进行编码,为不稳定浊音帧和稳定浊音帧选择8.5kbit/s速率进行编码;不稳定浊音帧和稳定浊音帧均用8.5kbit/s速率进行编码时,分别采用与其信号特征相适应的编码方式来进行编码,即对二者进行编码时,采用不同编码方式,相同的编码速率。因此实际上编码速率只是编码方式在编码比特上的一个最终体现,因此为音频信号选择编码速率从本质上说是为音频信号选择编码方式以及对应的编码方法。
由现有技术可以看出,其在对语音信号进行编码前,需要对语音信号进行分类,但对于包括音乐等各种类型的非语音音频信号来说,如果通过变速率语音编码器SMV来对其进行编码时,也只能在编码前将所述非语音音频信号分成静音/背景噪声帧、类噪声帧、清音帧、起始帧、不稳定浊音帧和稳定浊音帧这六类中的一种,然后选择相应的编码速率对其进行编码。然而,由于这种分类方法并不能对所述包括音乐在内的非语音音频信号进行准确的分类,因此根据这种分类结果选择相应的编码速率,对所述非语音音频信号进行编码时,不能在有限的资源条件(这些资源统指音频信号在编码传输时通信系统所附出的代价,包括但不限于信道带宽以及编解码端的处理能力)下,获得较好的编码质量,或是在编码质量相同的条件下,需要的资源较多。
发明内容
本发明的实施例提供一种对音频信号的编码速率进行源控的方法和系统,通过本发明的实施例所选择的编码速率,在对音频信号进行编码时,能够在有限的资源条件下,获得较好的编码质量;或是在编码质量相同的条件下,需要较少的资源。
本发明的实施例通过如下技术方案实现:
本发明的实施例提供了一种对音频信号的编码速率进行源控的方法,其包括:
根据音频信号的复杂特征参数判断音频信号的复杂程度;
根据所述音频信号的复杂程度与其所需编码速率间的关系,为所述音频信号选择相应的编码速率。
本发明的实施例还提供一种对音频信号的编码速率进行源控的系统,其包括:
音频信号复杂程度确定装置,用于根据音频信号的复杂特征参数判断音频信号的复杂程度;
编码速率选择装置,用于根据所述信号复杂程度确定单元确定出的音频信号的复杂程度与其所需编码速率间的关系,为所述音频信号选择相应的编码速率。
本发明的实施例还提供一种音频信号复杂程度确定装置,其包括:
复杂特征参数获取单元,用于获取音频信号的复杂特征参数;
信号复杂程度确定单元,用于根据所述复杂特征参数获取单元获取的音频信号的复杂特征参数,判断音频信号的复杂程度。
由上述本发明的实施例提供的具体实施方案可以看出,其根据音频信号的复杂特征参数确定音频信号的复杂程度;并根据所述复杂程度选择相应的编码速率。因此,依据本发明的实施例所选择的编码速率,在对音频信号进行编码时,能在有限的资源条件下,获得较好的编码质量,或是在编码质量相同的条件下,需要较少的资源。
附图说明
图1为本发明提供的第一实施例的流程图;
图2为本发明提供的第二实施例的结构图;
图3为本发明提供的第三实施例的结构图。
具体实施方式
考虑到对于一个音频编码器来说,在对信号进行编码时,信号的编码质量受以下复杂特征参数影响。
1、音频信号中包含关键频率的数量,以及重要频谱分布的集中程度。
由于音频信号中包含的关键频率成分越多,其携带的信息量越多,为达到一定的编码质量,需要的编码速率就越高;若音频信号的重要频谱分布越分散,信号信息越难以用编码表示,为达到一定的编码质量,需要的编码比特数越多,需要的编码速率越高。因此,在对音频信号编码时可以用表征信号包含关键频率多少,以及重要频谱分布集中程度的复杂特征参数,来指导编码器选择编码速率。
2、重要编码频带在整个待编码频带中所占的比重。
对编码器来说,由于其编码方式的限制,其在对信号进行编码时,并不是对所有待编码频带均采用相同的量化精度,也就是说,在对信号进行量化编码时,对某些频带是有所侧重的,这些频带可以称之为重要编码频带,而非侧重的编码频带可以称之为非重要编码频带。在对信号进行编码时,若输入信号中的重要编码频带占整个待编码频带的比重较大,那么就比较符合编码器的编码原理,对这些重要编码频带进行编码时,能够获得较好的编码效果。反之,若信号中非重要编码频带占整个待编码频带的比重较大,那么就不太符合编码器的编码原理,对这些非编码频带进行编码时,获得的编码效果也不会理想,从而使得信号的整体编码效果下降。可见,对音频信号来讲,若重要编码频带在整个编码频带中所占的比重较大,则可以认为信号携带的信息量较少,为达到一定编码质量,需要的编码速率就较低;因此,在对音频信号进行编码时,可以用表征信号中重要编码频带在整个待编码频带中所占的比重的复杂特征参数,来指导编码器选择编码速率。
3、音频信号的稳定状况。
音频信号的稳定状况表现的是音频信号的变化程度,包括时域和频域两方面的因素。若信号特性变化得较快,则表示信号特性不稳定、信号携带的信息量多,这种情况下,为达到一定的编码质量,需要选择的编码速率就越高。因此,在对音频信号进行编码时,可以用表征信号的稳定状况的复杂特征参数,来指导编码器选择编码速率。
4、音频信号相邻帧间的关联程度。
音频信号相邻帧间的关联程度表示的是相邻音频信号间的联系,一般来说,若信号相邻帧间的联系不是很紧密,那么信号携带的信息量就多,这种情况下,为达到一定的编码质量,需要选择的编码速率就越高。因此,在对音频信号进行编码时,可以用表征信号相邻帧间的关联程度的复杂特征参数,来指导编码器选择编码速率。
5、音频信号的能量大小。
音频信号的能量大小,表示的信号的能量幅值。一般来讲,若信号的能量越大,那么信号携带的信息量就多,这种情况下,为达到一定的编码质量,需要选择的编码速率就越高。因此,在对音频信号编码时,可以用表征信号能量大小的复杂特征参数,来指导编码器选择编码速率。
基于这种考虑,本发明提供的第一实施例是一种对音频信号的编码速率进行源控的方法,其具体实施过程如图1所示,包括如下内容:
步骤S101,获取音频信号,并计算所述音频信号的复杂特征参数。
根据音频信号的特征以及音频编码原理,音频信号的复杂程度受音频信号的复杂特征参数影响,这些音频信号的复杂特征参数包括,但不限于包括如下信息中的至少一个:
音频信号中包含的关键频率的数量;音频信号中重要频谱分布的集中程度;重要编码频带在整个待编码频带中所占的比重;音频信号的稳定状况;音频信号相邻帧间的关联程度;音频信号的能量大小。
假定在编码器中,音频信号的编码效果受音频信号中关键频率数量的影响较大,那么就需要根据所述音频信号各个子频带的能量特征参数,计算所述音频信号中包含的关键频率的数量有多少。一种具体的计算方式如下:
将输入的音频信号变换到频域,并在整个频带范围内,从低频到高频等间隔的划分为一定数目的子频带,如划分成N个子频带,子频带序号从低频到高频依次为i=1...N,各个子频带的能量为energy(i)=1...N,将energy(i)与一个能量门限THR进行比较,并统计大于此能量门限的energy(i)对应的子频带的数目,数目越大表示关键频率越多,否则关键频率越少。
假定在编码器中,音频信号的编码效果受音频信号中重要频谱分布的集中程度的影响较大,则需要根据音频信号各个子频带能量特征参数,计算所述音频信号中重要频谱分布的集中程度的复杂特征参数,一种具体的计算方式如下:
首先将输入的音频信号变换到频域,并在整个频带范围内,从低频到高频等间隔地划分为一定数目的子频带,如划分成N个子频带,子频带序号从低频到高频依次为i=1...N,各个子频带的能量为energy(i),i=1...N。
以及,计算整个频带的能量energy_total:
接下来,按照能量从大到小的顺序,将计算得到的子频带能量进行排序,得到新排列的一系列子频带能量energy′(i),i=1...N。这一系列子频带能量对应的子频带中,序号越小,其对应的能量值越大。
然后,依据这些排序后的子频带计算由高能量频带向低能量频带累积的频带能量占全频带能量一定比重(所述一定比重采用较大的数值,如95%,或80%等)时,所占用的子频带的数量,即rolloff_number:
energy_rolloff=energy′(1);
i=1;
while(energy_rolloff<energy_total*0.95)
{
i=i+1;
energy_rolloff=energy_rolloff+energy′(i);
}
rolloff_number=i;
将上式中的rolloff_number=i作为描述音频信号中重要频谱集中程度的特征参数Rolloff的具体数值,然后根据计算得到的子频带数量rolloff_number值确定音频信号中的重要频谱集中程度:Rolloff的值越大就表明频率分布较为分散;Rolloff值越小表示重要频谱集中程度较高。
另外,由于人耳对信号的不同子频带的感知程度不同,因此为更加准确地表征人耳所感知的频谱重要性,还可以在获得各子频带的能量energy(i),i=1...N后,依据人耳对每一频带的感知程度对每一频带进行加权(一般来说,人耳对低频较为敏感,对高频次之,因此加权时选择的低频子带的权重系数要比高频子带的权重系数大),然后再按照能量从大到小的顺序,将计算得到的子频带能量进行排序,并进行后续的特征参数Rolloff的值的计算过程。计算出的Rolloff值越大,表明频率分布较为分散;计算出的Rolloff值越小,表示重要频谱集中程度较高。
假定在编码器中,音频信号的编码效果受音频信号中重要编码频带在整个待编码频带中所占的比重的影响较大,则需要根据描述重要编码频带在整个待编码频带中所占的比重的特征参数,计算重要编码频带在整个待编码频带中所占的比重。一种具体的计算方式如下:
首先将输入的音频信号变换到频域,并在整个频带范围内,从低频到高频等间隔的划分为一定数目的子频带,如划分成N个子频带,子频带序号从低频到高频依次为i=1...N,各个子频带的能量为energy(i),i=1...N。
其次,计算整个频带的能量energy_total:
再其次,计算重要编码频带的能量energy_import,假设重要编码频带的子频带序号从N1到N2:
最后,用energy_import除以energy_total,得到的结果越大表示重要编码频带的比重越大,否则表示重要编码频带的比重越小。
假定在编码器中,音频信号的编码效果受音频信号的稳定状况的影响较大,则需要根据描述音频信号各个子频带的能量特征参数,计算音频信号的稳定状况的复杂特征参数。一种具体的计算方式如下:
首先对每帧输入的音频信号将其变换到频域,并在整个频带范围内,从低频到高频等间隔地划分为一定数目的子频带,如划分成N个子频带,子频带序号从低频到高频依次为i=1...N,各个子频带的能量为energy(i),i=1...N。设当前帧的各子频带能量为energy(i),i=1...N,前一帧的子频带能量为energy′(i),i=1...N。
其次,计算描述音频信号的稳定状况的复杂特征参数:
计算出来的stab参数的值越大,表示当前信号的稳定状况越好,否则越差。
假定在编码器中,音频信号的编码效果受音频信号相邻帧间的关联程度的影响较大,则需要根据相邻帧对应的音频信号,计算音频信号相邻帧间的关联程度的复杂特征参数。一种简单的计算方式如下:
设当前帧的音频信号为x(n),n=0,...N,上一帧的音频信号为x′(n),n=0,...N,则相邻帧的关联程度可简单计算如下:
计算出来的参数值rela越大,表示当前信号的相邻帧关联程度越强,否则越差。
假定在编码器中,音频信号的编码效果受音频信号的能量大小的影响较大,则需要计算音频信号的能量大小。一种具体的计算方式如下:
设当前帧的音频信号为x(n),n=0,...N,则其信号能量可简单计算如下:
计算出来的energy参数值越大,表示当前信号帧的能量越大,否则越小。以上仅仅是影响音频信号复杂程度的几个主要参数(参数的具体计算方法并不限于如上所述方法),除此之外,还有其它影响音频信号复杂程度的复杂特征参数,根据所述复杂特征参数中的一个或多个参数,可以判断出音频信号的复杂程度,具体参见步骤S102。
步骤S102,根据音频信号的复杂特征参数判断音频信号的复杂程度。
下面分别以影响音频信号的复杂程度的各个复杂特征参数为例,对步骤S102进行详细说明:
1、音频信号中包含关键频率的数量,以及重要频谱分布的集中程度。
根据步骤S101中统计出的大于能量门限的energy(i)对应的子频带的数目,数目越大表示关键频率越多,则表示其携带的信息量越多,音频信号的复杂程度高;否则,关键频率越少,则表示音频信号的复杂程度低;
根据步骤S101中计算出的Rolloff值越大,表示信号的重要频谱分布越分散,音频信号的复杂程度越高;反之,Rolloff值越小,表示信号的频谱分布越集中,因此音频信号的复杂程度越低。这样,就根据音频信号的特征参数Rolloff的具体数值表示了音频信号的复杂程度。
2、重要编码频带在整个待编码频带中所占的比重。
根据步骤S101计算出的重要编码频带在整个编码频带中所占的比重值越大,表示重要编码频带的比重越大,则可以认为信号携带的信息量较少,音频信号的复杂程度较低;否则,表示重要编码频带的比重越小,则认为音频信号的复杂程度较高。
3、音频信号的稳定状况。
音频信号的稳定状况表现的是音频信号的变化程度,包括时域和频域两方面的因素。根据步骤S101计算出的描述音频信号稳定状况的复杂特征参数stab的值越小,表示信号特性不稳定,信号特性变化(包括时域的和频域的)得较快,信号携带的信息量多,这种情况下,认为音频信号的复杂程度较高;反之,则认为音频信号的复杂程度较低。
4、音频信号相邻帧间的关联程度。
音频信号相邻帧间的关联程度表示的是相邻音频信号间的联系,根据步骤S101计算出的描述音频信号相邻帧间的关联程度的特征参数的值rela越小,表示当前信号的相邻帧关联程度越弱,信号相邻帧间的联系不是很紧密,那么信号携带的信息量就多,这种情况下,认为音频信号的复杂程度较高;反之,则认为音频信号的复杂程度较低。
5、音频信号的能量大小。
音频信号的能量大小,表示的信号的能量幅值。根据步骤S101计算出的energy的值越大,表示当前信号帧的能量越大,那么信号携带的信息量就多,这种情况下,认为音频信号的复杂程度较高;反之,则认为音频信号的复杂程度较低。
上述表征音频信号复杂程度的多种复杂特征参数可以组合在一起,综合来表现音频信号的复杂程度,也可以仅仅由某一个复杂特征参数来表现音频信号的复杂程度。用此复杂程度指导编码器选择音频信号的编码速率,要考虑变速率语音编码器对音频信号的编码速率和音频信号复杂程度间的关系。具体实现如步骤S103。
步骤S103,根据所述音频信号的复杂程度与其所需编码速率间的关系,为所述音频信号选择相应的编码速率。
由于变速率音频编码器对音频信号的编码速率和音频信号复杂程度间的关系不同,因此在为所述音频信号选择相应的编码速率时,需要考虑变速率语音编码器本身的特性,例如:假定一个特定的变速率语音编码器A,其对音频信号的编码速率为N个,分别为速率1,速率2,...速率N,速率关系为:速率1>速率2>...>速率N,则根据音频信号复杂程度越高需要的编码速率越高的原则,确定所述音频信号的复杂程度与编码速率间的对应关系,如表1所示,其中THR_1,THR_2,...THR_N是复杂程度的判决阈值,分别对应所述变速率编码器的速率1,速率2,...速率N,其间的关系为:THR_1>THR_2>...>THR_N。
复杂程度范围 | 编码速率 |
复杂程度≥THR_1 | 编码速率1 |
THR_1>复杂程度≥THR_2 | 编码速率2 |
...... | ...... |
复杂程度≥THR_N | 编码速率N |
表1
然后,根据音频信号的复杂程度与编码速率间的对应关系,选择对音频信号进行编码时的编码速率。
若复杂程度大于或等于THR_1,则选择编码速率1对音频信号进行编码;若复杂程度大于或等于THR_2,并小于THR_1,则选择编码速率2对音频信号进行编码;......若复杂程度大于或等于THR_N,则选择编码速率N对音频信号进行编码。
步骤S104,根据所确定出的编码速率对音频信号进行编码。
经过上述过程,能够根据音频信号的复杂程度为音频信号选择出相应的编码速率,但在具体应用时,由于在不同的编码器中,音频信号的复杂特征参数对音频信号的复杂程度的影响是不一样的。例如,对某一个编码器来说,可能音频信号的稳定状况这一复杂特征参数对音频信号的复杂程度影响较大,其它的复杂特征参数对音频信号的复杂程度的影响较小,当应用这个编码器时,若采用多种复杂特征参数确定音频信号的复杂程度,则音频信号的稳定状况这一复杂特征参数所占的比重就要大,其它复杂特征参数所占的比重要小。这样用这些复杂特征参数确定出的音频信号的复杂程度就更加准确,进而根据所确定的复杂程度来选择音频信号的编码速率,就会更有针对性,利用所选择的编码速率对音频信号进行编码时,得到的编码质量也就更好。
需要说明的是,由于在有些情况下,相同的编码速率可能对应几个编码方式,这时也可以根据音频信号的复杂程度以及其与不同编码方式之间的关系,来为音频信号选择一种最合适的编码方式。
本发明提供的第二实施例是一种对音频信号的编码速率进行源控的系统,其结构如图2所示,包括:音频信号复杂程度确定装置和编码速率选择装置。
系统中各个装置之间的信号传递关系如下:
所述音频信号复杂程度确定装置获取音频信号,并计算所述音频信号的复杂特征参数。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
所述音频信号的复杂特征参数包括如下信息中的至少一个:
音频信号中包含的关键频率的多少;音频信号中重要频谱分布的集中程度;重要编码频带在整个待编码频带中所占的比重;音频信号的稳定状况;音频信号相邻帧间的关联程度;音频信号的能量大小。
当音频信号的复杂特征参数为音频信号中重要频谱分布的集中程度时,所述复杂特征参数计算单元计算音频信号整个频带内各个子频带的能量,并按照能量从大到小的顺序,将所计算出的子频带能量进行排序;以及,根据排序后的子频带能量,计算由高能量频带向低能量频带累积(由低频向高频累积)的频带能量占全频带能量一定比重时,所占用的子频带的数量(即Rolloff值);并根据计算得到的Rolloff值确定音频信号中的重要频谱集中程度。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
所述音频信号复杂程度确定装置还根据得到的音频信号的复杂特征参数判断音频信号的复杂程度;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
所述编码速率选择装置,根据所述音频信号复杂程度确定装置确定出的音频信号的复杂程度与其所需编码速率间的关系,为所述音频信号选择最佳的编码速率。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
本发明提供的第三实施例是一种音频信号复杂程度确定装置,其结构如图3所示,包括:复杂特征参数计算单元、复杂特征参数获取单元和信号复杂程度确定单元。
装置中各个单元之间的信号传递关系如下:
所述复杂特征参数计算单元获取音频信号,并计算所述音频信号的复杂特征参数。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
所述音频信号的复杂特征参数包括如下信息中的至少一个:
音频信号中包含的关键频率的多少;音频信号中重要频谱分布的集中程度;重要编码频带在整个待编码频带中所占的比重;音频信号的稳定状况;音频信号相邻帧间的关联程度;音频信号的能量大小。
当音频信号的复杂特征参数为音频信号中重要频谱分布的集中程度时,所述复杂特征参数计算单元计算音频信号整个频带内各个子频带的能量,并按照能量从大到小的顺序,将所计算出的子频带能量进行排序;根据排序后的子频带能量,计算由高能量频带向低能量频带累积(由低频向高频累积)的频带能量占全频带能量一定比重时,所占用的子频带的数量(即Rolloff值);根据计算得到的Rolloff值确定音频信号中的重要频谱集中程度。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
所述复杂特征参数获取单元从所述复杂特征参数计算单元中获取音频信号的复杂特征参数;具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
所述信号复杂程度确定单元根据所述复杂特征参数获取单元获取的音频信号的复杂特征参数,判断音频信号的复杂程度。具体处理过程与第一实施例中的相关描述雷同,这里不再详细描述。
本发明提供的第三实施例,除了应用在多速率语音(还包括各种音频)编解码领域来进行源端速率选择和控制,还可以应用在其它各种需要对音频信号进行复杂度评估以决定对音频信号进行如何处理的领域。
上述实施例中,所述音频信号不仅仅局限于语音和音乐,还包括其它类型的声音信号,如歌曲、戏曲、噪声等,也就是说其范围包括各种有关声音的信号。
由上述本发明提供的具体实施方案可以看出,其根据音频信号的特征参数确定语音信号的复杂程度;并根据所述复杂程度选择相应的编码速率。因此,依据本发明的实施例所选择的编码速率,在对音频信号进行编码时,能在有限的资源条件(这些资源统指音频信号在编码传输时通信系统所附出的代价,包括但不限于信道带宽以及编解码端的处理能力)下,获得较好的编码质量,或是在编码质量相同的条件下,需要较少的资源。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (15)
1.一种对音频信号的编码速率进行源控的方法,其特征在于,包括:
根据音频信号的复杂特征参数判断音频信号的复杂程度;
根据所述音频信号的复杂程度与其所需编码速率间的关系,为所述音频信号选择相应的编码速率。
2.如权利要求1所述的方法,其特征在于,还包括:
获取音频信号,并计算所述音频信号的复杂特征参数。
3.如权利要求1或2所述的方法,其特征在于,所述音频信号的复杂特征参数包括如下信息中的至少一个:
音频信号中包含的关键频率的数量;音频信号中重要频谱分布的集中程度;重要编码频带在整个待编码频带中所占的比重;音频信号的稳定状况;音频信号相邻帧间的关联程度;音频信号的能量大小。
4.如权利要求3所述的方法,其特征在于,当音频信号的复杂特征参数为音频信号中重要频谱分布的集中程度时,所述根据音频信号的特征参数计算音频信号的复杂特征参数的过程,具体包括:
计算音频信号整个频带内各个子频带的能量,并按照能量从大到小的顺序,将所计算出的子频带能量进行排序;
根据排序后的子频带能量,计算由高能量频带向低能量频带累积的频带能量占全频带能量一定比重时,所占用的子频带的数量;
根据所占用的子频带的数量确定音频信号中的重要频谱集中程度。
5.如权利要求4所述的方法,其特征在于,在所述按照能量从大到小的顺序,将所计算出的子频带能量进行排序的过程之前,还包括:
根据人耳感知特性将计算得到的各个子频带的能量进行加权。
6.一种对音频信号的编码速率进行源控的系统,其特征在于,包括:
音频信号复杂程度确定装置,用于根据音频信号的复杂特征参数判断音频信号的复杂程度;
编码速率选择装置,用于根据所述信号复杂程度确定单元确定出的音频信号的复杂程度与其所需编码速率间的关系,为所述音频信号选择相应的编码速率。
7.如权利要求6所述的系统,其特征在于,所述音频信号复杂程度确定装置还用于:
根据音频信号的特征参数计算音频信号的复杂特征参数。
8.如权利要求6或7所述的系统,其特征在于,所述音频信号的复杂特征参数包括如下信息中的至少一个:
音频信号中包含的关键频率的数量;音频信号中重要频谱分布的集中程度;重要编码频带在整个待编码频带中所占的比重;音频信号的稳定状况;音频信号相邻帧间的关联程度;音频信号的能量大小。
9.如权利要求8所述的系统,其特征在于,所述音频信号复杂程度确定装置还用于:
当音频信号的复杂特征参数为音频信号中重要频谱分布的集中程度时,计算音频信号整个频带内各个子频带的能量,并按照能量从大到小的顺序,将所计算出的子频带能量进行排序;以及,根据排序后的子频带能量,计算由高能量频带向低能量频带累积的频带能量占全频带能量一定比重时,所占用的子频带的数量;根据所占用的子频带的数量确定音频信号中的重要频谱集中程度。
10.如权利要求9所述的系统,其特征在于,所述音频信号复杂程度确定装置还用于:
在所述按照能量从大到小的顺序,将所计算出的子频带能量进行排序的过程之前,根据人耳感知特性将计算得到的各个子频带的能量进行加权。
11.一种音频信号复杂程度确定装置,其特征在于,包括:
复杂特征参数获取单元,用于获取音频信号的复杂特征参数;
信号复杂程度确定单元,用于根据所述复杂特征参数获取单元获取的音频信号的复杂特征参数,判断音频信号的复杂程度。
12.如权利要求11所述的装置,其特征在于,还包括:
复杂特征参数计算单元,用于获取音频信号,并计算所述音频信号的复杂特征参数。
13.如权利要求11或12所述的装置,其特征在于,所述音频信号的复杂特征参数包括如下信息中的至少一个:
音频信号中包含的关键频率的数量;音频信号中重要频谱分布的集中程度;重要编码频带在整个待编码频带中所占的比重;音频信号的稳定状况;音频信号相邻帧间的关联程度;音频信号的能量大小。
14.如权利要求13所述的装置,其特征在于,所述复杂特征参数计算单元还用于:
当音频信号的复杂特征参数为音频信号中重要频谱分布的集中程度时,计算音频信号整个频带内各个子频带的能量,并按照能量从大到小的顺序,将所计算出的子频带能量进行排序;根据排序后的子频带能量,计算由高能量频带向低能量频带累积的频带能量占全频带能量一定比重时,所占用的子频带的数量;根据所占用的子频带的数量确定音频信号中的重要频谱集中程度。
15.如权利要求14所述的装置,其特征在于,所述复杂特征参数计算单元还用于:
在所述按照能量从大到小的顺序,将所计算出的子频带能量进行排序的过程之前,根据人耳感知特性将计算得到的各个子频带的能量进行加权。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710000121 CN101217037B (zh) | 2007-01-05 | 2007-01-05 | 对音频信号的编码速率进行源控的方法和系统 |
PCT/CN2007/003797 WO2008086700A1 (fr) | 2007-01-05 | 2007-12-25 | Procédé commandé par la source et système pour coder la fréquence d'un signal audio |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710000121 CN101217037B (zh) | 2007-01-05 | 2007-01-05 | 对音频信号的编码速率进行源控的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101217037A true CN101217037A (zh) | 2008-07-09 |
CN101217037B CN101217037B (zh) | 2011-09-14 |
Family
ID=39623459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710000121 Expired - Fee Related CN101217037B (zh) | 2007-01-05 | 2007-01-05 | 对音频信号的编码速率进行源控的方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101217037B (zh) |
WO (1) | WO2008086700A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102263576A (zh) * | 2010-05-27 | 2011-11-30 | 盛乐信息技术(上海)有限公司 | 无线信息传输方法及实现设备 |
CN102610234A (zh) * | 2012-04-09 | 2012-07-25 | 河海大学 | 信号复杂度和编码速率选择的映射实现方法 |
CN103928030A (zh) * | 2014-04-30 | 2014-07-16 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
CN106028401A (zh) * | 2016-05-09 | 2016-10-12 | Tcl移动通信科技(宁波)有限公司 | 一种通话时语音编码速率的选择方法及系统 |
CN110619881A (zh) * | 2019-09-20 | 2019-12-27 | 北京百瑞互联技术有限公司 | 一种语音编码方法、装置及设备 |
WO2021218558A1 (zh) * | 2020-04-30 | 2021-11-04 | 华为技术有限公司 | 音频信号的比特分配方法和装置 |
CN116348952A (zh) * | 2023-02-09 | 2023-06-27 | 北京小米移动软件有限公司 | 一种音频信号处理、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105992120B (zh) * | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
JP2000244384A (ja) * | 1999-02-18 | 2000-09-08 | Mitsubishi Electric Corp | 移動通信端末装置及び移動通信端末装置における音声符号化レート決定方法 |
-
2007
- 2007-01-05 CN CN 200710000121 patent/CN101217037B/zh not_active Expired - Fee Related
- 2007-12-25 WO PCT/CN2007/003797 patent/WO2008086700A1/zh active Application Filing
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102263576A (zh) * | 2010-05-27 | 2011-11-30 | 盛乐信息技术(上海)有限公司 | 无线信息传输方法及实现设备 |
CN102610234A (zh) * | 2012-04-09 | 2012-07-25 | 河海大学 | 信号复杂度和编码速率选择的映射实现方法 |
CN103928030A (zh) * | 2014-04-30 | 2014-07-16 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
CN103928030B (zh) * | 2014-04-30 | 2017-03-15 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
CN106028401A (zh) * | 2016-05-09 | 2016-10-12 | Tcl移动通信科技(宁波)有限公司 | 一种通话时语音编码速率的选择方法及系统 |
CN110619881A (zh) * | 2019-09-20 | 2019-12-27 | 北京百瑞互联技术有限公司 | 一种语音编码方法、装置及设备 |
WO2021218558A1 (zh) * | 2020-04-30 | 2021-11-04 | 华为技术有限公司 | 音频信号的比特分配方法和装置 |
US11900950B2 (en) | 2020-04-30 | 2024-02-13 | Huawei Technologies Co., Ltd. | Bit allocation method and apparatus for audio signal |
CN116348952A (zh) * | 2023-02-09 | 2023-06-27 | 北京小米移动软件有限公司 | 一种音频信号处理、装置、设备及存储介质 |
WO2024164284A1 (zh) * | 2023-02-09 | 2024-08-15 | 北京小米移动软件有限公司 | 一种音频信号处理、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2008086700A1 (fr) | 2008-07-24 |
CN101217037B (zh) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101217037B (zh) | 对音频信号的编码速率进行源控的方法和系统 | |
JP7177185B2 (ja) | 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス | |
US8019599B2 (en) | Speech codecs | |
CN101751926A (zh) | 信号编码、解码方法及装置、编解码系统 | |
CN101320563B (zh) | 一种背景噪声编码/解码装置、方法和通信设备 | |
CN102985969B (zh) | 编码装置、解码装置和编码方法、解码方法 | |
US8041042B2 (en) | Method, system, apparatus and computer program product for stereo coding | |
CN103928029B (zh) | 音频信号编码和解码方法、音频信号编码和解码装置 | |
CN103177726A (zh) | 音频信号的分类 | |
CN103325377A (zh) | 音频编码方法 | |
EP3723086A1 (en) | Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method | |
CN110767243A (zh) | 一种音频编码方法、装置及设备 | |
CN106409299A (zh) | 信号编码和解码的方法和设备 | |
Soong et al. | Optimal quantization of LSP parameters using delayed decisions | |
JP5262171B2 (ja) | 符号化装置、符号化方法および符号化プログラム | |
CN103098130B (zh) | 编码装置、解码装置、编码方法以及解码方法 | |
CN102737636B (zh) | 一种音频编码方法及装置 | |
CN103295577A (zh) | 用于音频信号编码的分析窗切换方法和装置 | |
CN101753262A (zh) | 语音质量确定方法、下行链路用户配对方法及装置 | |
CN102760441B (zh) | 一种背景噪声编码/解码装置、方法和通信设备 | |
US11232804B2 (en) | Low complexity dense transient events detection and coding | |
CN101211561A (zh) | 音乐信号质量增强方法和装置 | |
Tahilramani et al. | A hybrid scheme of information hiding incorporating steganography as well as watermarking in the speech signal using Quantization index modulation (QIM) | |
CN101609679B (zh) | 嵌入式编解码方法和装置 | |
Tkachenko et al. | ADAPTIVE VOICE ACTIVITY DETECTION IN DELTA COMPRESSION OF SPEECH SIGNALS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110914 Termination date: 20180105 |
|
CF01 | Termination of patent right due to non-payment of annual fee |