CN101751928A - 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 - Google Patents
应用音频帧频谱平坦度简化声学模型分析的方法及其装置 Download PDFInfo
- Publication number
- CN101751928A CN101751928A CN200810178895A CN200810178895A CN101751928A CN 101751928 A CN101751928 A CN 101751928A CN 200810178895 A CN200810178895 A CN 200810178895A CN 200810178895 A CN200810178895 A CN 200810178895A CN 101751928 A CN101751928 A CN 101751928A
- Authority
- CN
- China
- Prior art keywords
- audio frame
- frequency spectrum
- sound channels
- right sound
- spectrum flatness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims description 66
- 238000009434 installation Methods 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 28
- 238000007906 compression Methods 0.000 description 20
- 230000006835 compression Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
应用音频帧频谱平坦度简化声学模型分析的方法及其装置。其应用音频帧频谱平坦度来简化对一声音信号的声学模型分析。如果该声音信号包含多个音频帧(a plurality of frames),则先计算该声音信号在频域上的能量,接着据以计算出多个频谱平坦度,并据以使用短区块或长区块的演进式离散余弦变换来变换每一音频帧。如果该声音信号包含左、右声道信号,则本发明先对该声音信号执行声学模型分析,以计算该左、右声道信号在频域上的能量,接着据以计算出该左、右声道信号的频谱平坦度,并据以使用同异信号变换或左、右声道编码来变换该左、右声道信号。
Description
技术领域
本发明涉及一种简化声学模型分析的方法,尤其涉及一种用于一音频压缩系统,且利用音频帧频谱平坦度(spectral flatness)来简化声学模型分析的方法。
背景技术
随着电子音视频产品的快速发展,应用于电子音视频产品的图像压缩技术愈来愈显得重要,其中,以动态图像压缩标准(Motion Picture ExpertsGroup,MPEG)来作图像压缩更是一种主流。
请参考图1,图1为已知应用动态图像压缩标准的一音频编码器(audioencoder)的操作流程10的示意图。首先,一模拟声音信号经过脉冲编码调制(pulse-code modulation,PCM)(步骤100)后变换成一数字声音信号。此数字声音信号经过子带滤波(subband filter)(步骤102)以将声音分成数个频域上的子频带,再经过演进式离散余弦变换(modified discrete cosinetransform,MDCT)(步骤104)及同异信号变换(middle/side transform,M/S transform)(步骤106)将声音信号变换成频域(frequency domain)值后,送入再量化(requantize)模块进行量化(步骤108),最后产生格式化的数据流(format bitstream)(步骤110)。为了达成有效率的压缩,必须对声音信号作分析,以得到一些重要的参数。因此,声音信号经过脉冲编码调制后,除了进行子带滤波,也另外进行了快速傅利叶变换(FastFourier Transform,FFT)(步骤112),再通过声学模型分析(PsychoacousticModel Analysis)(步骤114)以得到相关参数,如区块类型(block type)、同异信号类型(middle/side type,M/S type)及遮蔽阈值(masking threshold)。其中,区块类型是进行演进式离散余弦变换时的重要参数,同异信号类型是决定是否使用同异信号变换的重要参数,遮蔽阈值则为再量化模块进行量化时的参考参数。
在执行演进式离散余弦变换前需要先判断要用何种区块类型进行变换,亦即,该声音信号是适合用长区块(long block)或短区块(short block)的演进式离散余弦变换。当声音信号为短期稳定(short-term stationary)的信号,则使用长区块的演进式离散余弦变换;而当声音信号有转调(transition)发生时,则使用短区块的演进式离散余弦变换,以避免回声杂讯(pre-echo noise)的发生。
请参考图2,图2为已知决定区块类型的一流程20的示意图。声音信号经过脉冲编码调制(步骤200)后会先执行长区块的声学模型分析(步骤202),接下来判断该声音信号是否要使用短区块的演进式离散余弦变换(步骤204)。如果是,则重新执行一次短区块的演进式离散余弦变换(步骤206),并执行短区块的声学模型分析(步骤207);若否,则进行同异信号变换或其它的声音编码(步骤208)。因此,不论声音信号是属于何种区块类型,现有技术皆会在步骤202预设地执行长区块的声学模型分析,当在步骤204中判断声音信号须使用短区块的演进式离散余弦变换时,则在步骤207重新执行一次短区块的声学模型分析。在此种情况下,步骤202的运算为多余,因而造成运算量的增加。再者,在步骤204中,通常是以感知熵(perceptual entropy)来作为判断是否该使用短区块的演进式离散余弦变换的依据,当感知熵大于一预设值时,则使用短区块的演进式离散余弦变换来变换该声音信号。
另外,同异信号变换是在声音信号的左、右声道信号的频谱特性接近时,可以去除左、右声道的相关性后再压缩,以增加压缩效率。例如,声音信号的左声道信号为L[n],右声道信号为R[n],则定义其同信号(middlesignal)M[n]=√2×(L[n]+R[n])/2,其异信号(side signal)S[n]=√2×(L[n]-R[n])/2。由上面两个式子可以知道,同信号就是左、右声道信号相同的部分,而异信号就是左、右声道信号相异的部分,因此,通过同异信号变换可以减少数据量,增加压缩效率。所以,判断声音信号是否适用于同异信号变换,只要检视其的左、右声道信号的频谱特性是否接近即可。
请参考图3,图3为已知判断左、右声道信号的性质的一流程30的示意图。在现有技术中,是先执行左、右声道信号的声学模型分析(步骤300),接下来再判断左、右声道信号是否适合使用同异信号变换(步骤302)。如果是,重新以同异信号变换来变换左、右声道信号(步骤304),并执行同异信号的声学模型分析(步骤305);若否,则进行其它的声音编码(步骤306),例如送入再量化模块进行量化。因此,当左、右声道信号适合使用同异信号变换时,则步骤300中先执行左、右声道信号的声学模型分析就显得多余,而造成运算量不必要的增加。
因此,有鉴于上述的流程20与流程30可能会造成运算量不必要的增加,并且影响系统效率,其确有改进的必要性。
发明内容
因此,本发明的主要目的即在于提供一种应用音频帧频谱平坦度简化声学模型分析的方法及其相关装置,以增加压缩的效率。
本发明公开一种应用音频帧频谱平坦度简化声学模型分析的方法,包含计算该声音信号所包含的多个音频帧在频域上的能量;根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。
本发明另公开一种用于一音频压缩系统的音频变换装置,用来执行前述的音频变换方法。
本发明另公开一种应用音频帧频谱平坦度简化声学模型分析的方法,包含计算该声音信号所包含的左、右声道信号在频域上的能量;根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度;以及根据该左、右声道信号的频谱平坦度,使用同异信号变换或左、右声道编码来变换该左、右声道信号。
本发明另公开一种用于一音频压缩系统的音频变换装置,用来执行前述的音频变换方法。
附图说明
图1为已知应用动态图像压缩标准的一音频编码器的操作流程的示意图。
图2为已知决定区块类型的一流程的示意图。
图3为已知判断左、右声道信号的性质的一流程的示意图。
图4为本发明实施例用以决定使用短区块或长区块的演进式离散余弦变换来变换一音频帧的一流程的示意图。
图5为本发明实施例比较多个音频帧的频谱平坦度的一流程的示意图。
图6为三个音频帧的频谱平坦度的示意图。
图7为本发明实施例用以决定使用同异信号变换或左、右声道编码来变换该左、右声道信号的一流程的示意图。
图8为本发明实施例一电子装置的示意图。
【主要元件符号说明】
10、20、30、40、50、70 流程
100、102、104、106、108、110、 步骤112、114
200、202、204、206、207、208 步骤
300、302、304、305、306 步骤
400、402、404、406、408 步骤
500、502、504、506、508、510、 步骤512、514
700、702、704、706、708 步骤
80 电子装置
800 声学模型分析单元
802 计算单元
804 判断单元
具体实施方式
本发明公开一种应用音频帧频谱平坦度简化声学模型分析的方法,其主要概念是利用频谱平坦度(spectral flatness)来决定一声音信号的区块类型(block type)及是否为同异信号类型(middle/side type,M/S type),进而简化声学模型分析的执行,以增加压缩的效率。
请参考图4,图4为本发明实施例一流程40的示意图。流程40应用音频帧频谱平坦度来简化声学模型分析,其包含以下步骤:
步骤400:开始。
步骤402:计算一声音信号所包含的多个音频帧在频域上的能量。
步骤404:根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度。
步骤406:根据该多个频谱平坦度,使用短区块(short block)或长区块(long block)的演进式离散余弦变换(modified discrete cosine transform,MDCT)来变换该多个音频帧的每一音频帧。
步骤408:结束。
根据流程40,本发明实施例先对一声音信号计算其包含的音频帧在频域上的能量,并据以计算出每一音频帧的频谱平坦度,进而决定使用短区块或长区块的演进式离散余弦变换来变换每一音频帧。如此一来,通过频谱平坦度的运算,就可判断每一音频帧该用短区块或长区块的演进式离散余弦变换来变换。藉此,即可避免如图2所示,当步骤204中判断声音信号须使用短区块的演进式离散余弦变换时,则步骤202的运算为多余的缺点,以增加压缩的效率并可简化已知技术中(例如图2所示)所需的两次声学模型分析。
其中,在步骤402中,声音信号已先经过脉冲编码调制(pulse-codemodulation,PCM)及适当的滤波,然后再利用子带滤波(subband filter)法或快速傅利叶变换(FFT)等方式得到声音信号所包含的多个音频帧在频域上的能量的参数,在此,先以子带滤波法为例。首先定义一音频帧为a[t],t=0~N-1;接着,以子带滤波将该音频帧a[t]分为M个子频带,每个子频带的序列标记为A[0][k],A[1][k],A[2][k]......A[M-1][k],k=0~(N/M-1);最后,计算出该音频帧a[t]的一能量序列A_ene[m]=sum(A[m][0]*A[m][0]+A[m][1]*A[m][1]..........),m=0~M-1。如此一来,能量序列A_ene[m]即可表示其中的一音频帧在频域上的能量的参数。接着,在步骤404中,利用这些能量的参数,计算出音频帧的频谱平坦度,其计算方式可参见下面的式子(A),也就是将序列能量序列A_ene[m]的几何平均数除以算数平均数,以得到其频谱平坦度。
最后,在步骤406中,根据所算出的频谱平坦度,决定要使用短区块或长区块的演进式离散余弦变换来变换音频帧。关在步骤406的详细操作方式,可再参考图5。图5为本发明实施例一流程50的示意图。流程50为步骤406的详细操作,其包含以下步骤:
步骤500:开始。
步骤502:比较该多个音频帧的其中的一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值。
步骤504:比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值。
步骤506:比较该第一差值与该第二差值,以产生一第三差值。
步骤508:判断该第三差值是否大于一预设值?若是,则进行步骤510;若否,则进行步骤512。
步骤510:使用短区块的演进式离散余弦变换来变换该音频帧。
步骤512:使用长区块的演进式离散余弦变换来变换该音频帧。
步骤514:结束。
关于流程50的说明,请同时参考图6。如图6所示,假设一音频帧为grN-1,其前一个音频帧为grN-2,后一个音频帧为grN。首先,如步骤502所述,比较音频帧grN-1与其前一个音频帧grN-2的频谱平坦度所得的差值的绝对值为ΔN-1,即第一差值。同样的,如步骤504所述,比较音频帧grN-1与其后一个音频帧grN的频谱平坦度所得的差值的绝对值为ΔN,即第二差值。接着,如步骤506所述,可计算出第三差值为|ΔN-ΔN-1|(取绝对值以保证其值为正)。当第三差值|ΔN-ΔN-1|大于特定预设值时,表示音频帧grN-1有转调(transition)发生,则如步骤510所述,使用短区块的演进式离散余弦变换来变换音频帧grN-1;相反地,如果第三差值|ΔN-ΔN-1|小于预设值,表示音频帧grN-1为短期稳定(short-term stationary)的信号,则如步骤512所述,使用长区块的演进式离散余弦变换来变换音频帧grN-1。
在前述说明中,第一差值ΔN-1及第二差值ΔN是指音频帧grN-1前、后音频帧的频谱平坦度差异程度。当然,除了取绝对值外,也可取对数值。亦即,第一差值ΔN-1可以是音频帧grN-1与音频帧grN-2的频谱平坦度取对数结果后的差值的绝对值,而第二差值ΔN则为音频帧grN-1与音频帧grN的频谱平坦度取对数结果后的差值的绝对值,在此情况下,预设值可设为3,且不以此为限。当然,前述比较各音频帧的频谱平坦度的差异的方式,仅为一举例,并不以此为限,且相关的比较基准的数值大小也可随不同的状况而加以变化。
如此一来,本发明便可利用频谱平坦度来决定一音频帧的区块类型,以决定要用短区块或长区块的演进式离散余弦变换来变换该音频帧,藉此,可将已知技术中(例如图2所示)所需的两次声学模型分析,简化只剩一次声学模型分析,以增加压缩的效率。
值得一提的是,在步骤402中,如果要使用快速傅利叶变换的方式来得到声音信号所包含的多个音频帧在频域上的能量的参数,则可定义该音频帧为a[t],t=0~N-1;接着,以快速傅立叶变换将该音频帧a[t]变换后,得到其频域上的多个序列A[n]+B[n]*i,n=0~N/2-1;其中,A[n]是此多个序列的实部,B[n]是此多个序列的虚部,而i为虚根。最后,计算出该音频帧a[t]的一能量序列A_ene[n]=A[n]*A[n]+B[n]*B[n],n=0~N/2-1。
另外,针对立体声信号的变换,请参考图7,图7为本发明实施例一流程70的示意图。流程70应用音频帧频谱平坦度来简化声学模型分析,其包含以下步骤:
步骤700:开始。
步骤702:计算一声音信号所包含的左、右声道信号在频域上的能量。
步骤704:根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度。
步骤706:根据该左、右声道信号的频谱平坦度,使用同异信号变换(middle/side transform,M/S transform)或左、右声道编码(L/R encoding)来变换该左、右声道信号。
步骤708:结束。
类似于流程40,流程70亦是根据频谱平坦度,决定立体声音频的变换方式。首先,流程70计算声音信号所包含的左、右声道信号在频域上的能量,并据以计算出该左、右声道信号的频谱平坦度,进而决定使用同异信号变换或左、右声道编码来变换该左、右声道信号。
其中,在步骤702中,声音信号已先经过脉冲编码调制及适当的滤波,然后再利用子带滤波(subband filter)法或快速傅利叶变换(FFT)等其它方式得到声音信号所包含的左、右声道信号在频域上的能量的参数。如果以子带滤波法作说明,则首先定义该左、右声道信号的其中一个为c[t],t=0~N-1;接着,以子带滤波将该左、右声道信号的其中一个c[t]分为M个子频带,每个子频带的序列标记为C[0][k],C[1][k],C[2][k]......C[M-1][k],k=0~(N/M-1);最后,计算出该左、右声道信号的其中一个c[t]的一能量序列C_ene[m]=sum(C[m][0]*C[m][0]+C[m][1]*C[m][1]..........),m=0~M-1。如此一来,能量序列C_ene[m]即可表示该左、右声道信号的其中一个在频域上的能量的参数。此外,在本发明另一实施例中步骤702中也可以快速傅利叶变换的方式来得到声音信号所包含的多个音频帧在频域上的能量的参数。如果定义该左、右声道信号的其中一个为c[t],t=0~N-1;接着,以快速傅立叶变换将该音频帧c[t]变换后,得到其频域上的多个序列C[n]+D[n]*i,n=0~N/2-1;其中,C[n]是此多个序列的实部,D[n]是此多个序列的虚部,而i为虚根。最后,计算出该左、右声道信号的其中一个c[t]的一能量序列C_ene[n]=C[n]*C[n]+D[n]*D[n],n=0~N/2-1。
接着,在本发明以子带滤波法求取声音信号所包含的左、右声道信号在频域上的能量的参数的实施例中,步骤704利用这些能量的参数,计算出左、右声道信号的频谱平坦度,其计算方式相同于前述式子(A)的计算方式,可参考下面的式子(B)。
最后,在步骤706中,根据所算出的左、右声道信号的频谱平坦度,决定要使用同异信号变换或左、右声道编码来变换该左、右声道信号。当左、右声道信号的频谱平坦度的差异值小于一预设值时,则使用同异信号变换来变换左、右声道信号;而当左、右声道信号的频谱平坦度的差异值大于该预设值时,使用左、右声道编码来变换左、右声道信号。较佳地,本发明是将所算出的左、右声道信号的频谱平坦度取对数值后,再比较两者的差异值的绝对值;若小于5,则判断左、右声道的频谱接近而采用同异信号变换来变换左、右声道信号;若大于或等于5,则采用左、右声道编码来变换左、右声道信号。当然,前述比较左、右声道的频谱平坦度的差异的方式,仅为一举例,并不以此为限,且相关的比较基准的数值大小也可随不同的状况而加以变化。
如此一来,本发明便可利用频谱平坦度来判断左、右声道信号的频谱差异情况,并据以判断是否采用同异信号变换来变换左、右声道信号。藉此,即可避免如图3所示,当步骤302中判断左、右声道信号适合使用同异信号变换时,则步骤300中所执行的声学模型分析为多余的缺点,以增加压缩的效率并可简化已知技术中(例如图3所示)所需的两次声学模型分析。
在图4中,本发明应用「频谱平坦度特征值」来获知同一声道中前后音频帧的相关性,以简化音频压缩过程,并简化所需的声学模型分析;而在图7中,本发明则是应用「频谱平坦度特征值」来获知左、右声道中音频帧之间的相关性,以简化音频压缩过程及所需的声学模型分析。需注意的是,图4及图7仅为本发明的实施例,本发明也可应用「频谱平坦度特征值」来简化音频压缩过程中的其它步骤,而不限于此。
另一方面,关于图4或图7所示的音频变换方法,本领域技术人员当可据以实现应用音频帧频谱平坦度简化声学模型分析的电子装置。举例来说,请参考图8,图8为本发明实施例一电子装置80的示意图。电子装置80用来应用音频帧频谱平坦度简化声学模型分析,其包含有一能量计算单元800、一频谱平坦度计算单元802及一判断单元804。电子装置80实现流程40,亦即能量计算单元800、频谱平坦度计算单元802及判断单元804分别用来执行步骤402、404及406。当然,本领域技术人员当可据以调整各元件的实现方式。例如,能量计算单元800可利用子带滤波法或快速傅利叶变换等方式得到声音信号所包含的多个音频帧在频域上的能量的参数。如果能量计算单元800利用子带滤波法得出声音信号所包含的多个音频帧在频域上的能量的参数,则频谱平坦度计算单元802可应用前述的式子(A),得到频谱平坦度。当得到频谱平坦度后,判断单元804先比较一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值;再比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值;最后比较该第一差值与该第二差值,以产生一第三差值,并据以判断使用短区块或长区块的演进式离散余弦变换来变换该音频帧。例如,如果该第三差值大于一预设值,则使用短区块的演进式离散余弦变换来变换该音频帧;反之,则使用长区块的演进式离散余弦变换来变换该音频帧。上述操作可进一步参考前述流程40及50的说明,在此不赘述。
同样地,关于图7的流程70的实现方式,也可仿照电子装置80,以一电子装置实现,相关实现方式应为本领域技术人员参考前述说明即能完成,故不赘述。
综上所述,本发明可利用频谱平坦度来决定一音频帧的区块类型,以决定要用短区块或长区块的演进式离散余弦变换来变换该音频帧,同时,可利用频谱平坦度来判断左、右声道信号的频谱差异情况,并据以判断是否采用同异信号变换来变换左、右声道信号。因此,本发明相较于已知技术中的决定区块类型的流程,或是判断左、右声道信号的性质,皆可简化声学模型分析的执行次数,从而增加压缩的效率,故确实能达成本发明的目的。
以上所述仅为本发明的优选实施例,凡依本发明权利要求书所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (15)
1.一种应用音频帧频谱平坦度简化声学模型分析的方法,包含有:
计算一声音信号所包含的多个音频帧在频域上的能量;
根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及
根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。
2.如权利要求1所述的方法,其中根据该多个频谱平坦度使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧,包含有:
比较该多个音频帧的其中的一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值;
比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值;
比较该第一差值与该第二差值,以产生一第三差值;以及
根据该第三差值,决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧。
3.如权利要求2所述的方法,其中根据该第三差值决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧,在该第三差值大于一预设值时,使用短区块的演进式离散余弦变换来变换该音频帧,而在该第三差值小于该预设值时,使用长区块的演进式离散余弦变换来变换该音频帧。
4.如权利要求2所述的方法,其中比较该多个音频帧的其中的该音频帧与其前一个音频帧的频谱平坦度以产生该第一差值,是比较该音频帧与其前一个音频帧的频谱平坦度的对数值,以产生该第一差值;而比较该音频帧与其后一个音频帧的频谱平坦度以产生该第二差值,是比较该音频帧与其后一个音频帧的频谱平坦度的对数值,以产生该第二差值。
5.如权利要求1所述的方法,其中计算一音频帧在频域上的能量包含有:
定义该音频帧为a[t],t=0~N-1;
以快速傅立叶变换(FFT)将该音频帧a[t]变换后,得到其频域上的序列A[n]+B[n]*i,n=0~N/2-1;
计算出该音频帧a[t]的一能量序列A_ene[n]=A[n]*A[n]+B[n]*B[n],n=0~N/2-1。
6.如权利要求1所述的方法,其中计算一音频帧在频域上的能量包含有:
定义该音频帧为a[t],t=0~N-1;
以子带滤波(subband filter)将该音频帧a[t]分为M个子频带,每个子频带的序列标记为A[0][k],A[1][k],A[2][k]......A[M-1][k],k=0~(N/M-1);
计算出该音频帧a[t]的一能量序列A_ene[m]=sum(A[m][0]*A[m][0]+A[m][1]*A[m][1]..........),m=0~M-1。
8.一种应用音频帧频谱平坦度简化声学模型分析的电子装置,用来执行如权利要求1所述的方法。
9.一种应用音频帧频谱平坦度简化声学模型分析的方法,包含有:
计算一声音信号所包含的左、右声道信号在频域上的能量;
根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度;以及
根据该左、右声道信号的频谱平坦度,使用同异信号变换(middle/sidetransform,M/S transform)或左、右声道编码(L/R encoding)来变换该左、右声道信号。
10.如权利要求9所述的方法,其中根据该左、右声道信号的频谱平坦度,使用同异信号变换或左、右声道编码来变换该左、右声道信号,在该左、右声道信号的频谱平坦度的差异值小于一预设值时,使用同异信号变换来变换该左、右声道信号;而在该左、右声道信号的频谱平坦度的差异值大于该预设值时,使用左、右声道编码来变换该左、右声道信号。
11.如权利要求10所述的方法,其中该左、右声道信号的频谱平坦度的差异值,分别将该左、右声道信号的频谱平坦度取对数值后相减得到;该预设值实质上为5。
12.如权利要求9所述的方法,其中计算该左、右声道信号的其中一个在频域上的能量包含有:
定义该左、右声道信号的其中一个为c[t],t=0~N-1;
以快速傅立叶变换(FFT)将该左、右声道信号的其中一个c[t]变换后,得到其频域上的序列C[n]+D[n]*i,n=0~N/2-1;
计算出该左、右声道信号的其中一个c[t]的一能量序列
C_ene[n]=C[n]*C[n]+D[n]*D[n],n=0~N/2-1。
13.如权利要求9所述的方法,其中计算该左、右声道信号的其中一个在频域上的能量包含有:
定义该该左、右声道信号的其中一个为c[t],t=0~N-1;
以子带滤波(subband filter)将该该左、右声道信号的其中一个c[t]分为M个子频带,每个子频带的序列标记为C[0][k],C[1][k],C[2][k]......C[M-1][k],k=0~(N/M-1);
计算出该该左、右声道信号的其中一个c[t]的一能量序列C_ene[m]=sum(C[m][0]*C[m][0]+C[m][1]*C[m][1]..........),m=0~M-1。
15.一种应用音频帧频谱平坦度简化声学模型分析的电子装置,用来执行如权利要求9所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101788952A CN101751928B (zh) | 2008-12-08 | 2008-12-08 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
US12/412,382 US8751219B2 (en) | 2008-12-08 | 2009-03-27 | Method and related device for simplifying psychoacoustic analysis with spectral flatness characteristic values |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101788952A CN101751928B (zh) | 2008-12-08 | 2008-12-08 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101751928A true CN101751928A (zh) | 2010-06-23 |
CN101751928B CN101751928B (zh) | 2012-06-13 |
Family
ID=42232061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101788952A Expired - Fee Related CN101751928B (zh) | 2008-12-08 | 2008-12-08 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8751219B2 (zh) |
CN (1) | CN101751928B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013879A (zh) * | 2010-09-10 | 2011-04-13 | 建荣集成电路科技(珠海)有限公司 | Mp3音乐均衡调节装置及方法 |
CN102280103A (zh) * | 2011-08-02 | 2011-12-14 | 天津大学 | 基于方差的音频信号瞬态段检测方法 |
CN105869657A (zh) * | 2016-06-03 | 2016-08-17 | 竹间智能科技(上海)有限公司 | 语音情感辨识系统及方法 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4136825C1 (zh) * | 1991-11-08 | 1993-03-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De | |
JP3739959B2 (ja) * | 1999-03-23 | 2006-01-25 | 株式会社リコー | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
JP4021124B2 (ja) * | 2000-05-30 | 2007-12-12 | 株式会社リコー | デジタル音響信号符号化装置、方法及び記録媒体 |
US7930170B2 (en) * | 2001-01-11 | 2011-04-19 | Sasken Communication Technologies Limited | Computationally efficient audio coder |
CN1288622C (zh) * | 2001-11-02 | 2006-12-06 | 松下电器产业株式会社 | 编码设备和解码设备 |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
US20030215013A1 (en) * | 2002-04-10 | 2003-11-20 | Budnikov Dmitry N. | Audio encoder with adaptive short window grouping |
KR100462611B1 (ko) * | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
US20040083110A1 (en) * | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
KR100547113B1 (ko) * | 2003-02-15 | 2006-01-26 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
TW594674B (en) * | 2003-03-14 | 2004-06-21 | Mediatek Inc | Encoder and a encoding method capable of detecting audio signal transient |
US7283968B2 (en) * | 2003-09-29 | 2007-10-16 | Sony Corporation | Method for grouping short windows in audio encoding |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
US20080004873A1 (en) * | 2006-06-28 | 2008-01-03 | Chi-Min Liu | Perceptual coding of audio signals by spectrum uncertainty |
DE102006055737A1 (de) * | 2006-11-25 | 2008-05-29 | Deutsche Telekom Ag | Verfahren zur skalierbaren Codierung von Stereo-Signalen |
-
2008
- 2008-12-08 CN CN2008101788952A patent/CN101751928B/zh not_active Expired - Fee Related
-
2009
- 2009-03-27 US US12/412,382 patent/US8751219B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013879A (zh) * | 2010-09-10 | 2011-04-13 | 建荣集成电路科技(珠海)有限公司 | Mp3音乐均衡调节装置及方法 |
CN102280103A (zh) * | 2011-08-02 | 2011-12-14 | 天津大学 | 基于方差的音频信号瞬态段检测方法 |
CN105869657A (zh) * | 2016-06-03 | 2016-08-17 | 竹间智能科技(上海)有限公司 | 语音情感辨识系统及方法 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20100145682A1 (en) | 2010-06-10 |
US8751219B2 (en) | 2014-06-10 |
CN101751928B (zh) | 2012-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101178114B1 (ko) | 복수의 입력 데이터 스트림을 믹싱하기 위한 장치 | |
KR100986924B1 (ko) | 정보 신호 인코딩 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
KR101143225B1 (ko) | 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체 | |
US7337118B2 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
RU2439718C1 (ru) | Способ и устройство для обработки звукового сигнала | |
JP2022185105A (ja) | Hoa信号の係数領域表現からこのhoa信号の混合した空間/係数領域表現を生成する方法および装置 | |
KR101341317B1 (ko) | 오디오 신호를 트랜스코딩하는 방법 및 장치 | |
US20080312759A1 (en) | Flexible frequency and time partitioning in perceptual transform coding of audio | |
US20090204397A1 (en) | Linear predictive coding of an audio signal | |
US8352249B2 (en) | Encoding device, decoding device, and method thereof | |
AU2003243441B2 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
JP2011013560A (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
WO2003096325A1 (en) | Coding method, coding device, decoding method, and decoding device | |
CN104170009A (zh) | 感知音频编解码器中的谐波信号的相位相干性控制 | |
CN112997248A (zh) | 确定空间音频参数的编码和相关联解码 | |
KR101363206B1 (ko) | 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩 | |
CN101751928B (zh) | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 | |
JP2002132295A (ja) | ステレオオーディオ信号高能率符号化装置 | |
JP4721355B2 (ja) | 符号化データの符号化則変換方法および装置 | |
KR960012477B1 (ko) | 인지 정보량을 이용한 적응적 스테레오 디지탈 오디오 부호화 및 복호화장치 | |
KR970006825B1 (ko) | 오디오신호 부호화장치 | |
KR101386645B1 (ko) | 모바일 기기에서 지각적 오디오 코딩 장치 및 방법 | |
KR101421256B1 (ko) | 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120613 Termination date: 20161208 |