CN101751928A - 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 - Google Patents

应用音频帧频谱平坦度简化声学模型分析的方法及其装置 Download PDF

Info

Publication number
CN101751928A
CN101751928A CN200810178895A CN200810178895A CN101751928A CN 101751928 A CN101751928 A CN 101751928A CN 200810178895 A CN200810178895 A CN 200810178895A CN 200810178895 A CN200810178895 A CN 200810178895A CN 101751928 A CN101751928 A CN 101751928A
Authority
CN
China
Prior art keywords
audio frame
frequency spectrum
sound channels
right sound
spectrum flatness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200810178895A
Other languages
English (en)
Other versions
CN101751928B (zh
Inventor
何宜伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ali Corp
Original Assignee
Ali Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ali Corp filed Critical Ali Corp
Priority to CN2008101788952A priority Critical patent/CN101751928B/zh
Priority to US12/412,382 priority patent/US8751219B2/en
Publication of CN101751928A publication Critical patent/CN101751928A/zh
Application granted granted Critical
Publication of CN101751928B publication Critical patent/CN101751928B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Abstract

应用音频帧频谱平坦度简化声学模型分析的方法及其装置。其应用音频帧频谱平坦度来简化对一声音信号的声学模型分析。如果该声音信号包含多个音频帧(a plurality of frames),则先计算该声音信号在频域上的能量,接着据以计算出多个频谱平坦度,并据以使用短区块或长区块的演进式离散余弦变换来变换每一音频帧。如果该声音信号包含左、右声道信号,则本发明先对该声音信号执行声学模型分析,以计算该左、右声道信号在频域上的能量,接着据以计算出该左、右声道信号的频谱平坦度,并据以使用同异信号变换或左、右声道编码来变换该左、右声道信号。

Description

应用音频帧频谱平坦度简化声学模型分析的方法及其装置
技术领域
本发明涉及一种简化声学模型分析的方法,尤其涉及一种用于一音频压缩系统,且利用音频帧频谱平坦度(spectral flatness)来简化声学模型分析的方法。
背景技术
随着电子音视频产品的快速发展,应用于电子音视频产品的图像压缩技术愈来愈显得重要,其中,以动态图像压缩标准(Motion Picture ExpertsGroup,MPEG)来作图像压缩更是一种主流。
请参考图1,图1为已知应用动态图像压缩标准的一音频编码器(audioencoder)的操作流程10的示意图。首先,一模拟声音信号经过脉冲编码调制(pulse-code modulation,PCM)(步骤100)后变换成一数字声音信号。此数字声音信号经过子带滤波(subband filter)(步骤102)以将声音分成数个频域上的子频带,再经过演进式离散余弦变换(modified discrete cosinetransform,MDCT)(步骤104)及同异信号变换(middle/side transform,M/S transform)(步骤106)将声音信号变换成频域(frequency domain)值后,送入再量化(requantize)模块进行量化(步骤108),最后产生格式化的数据流(format bitstream)(步骤110)。为了达成有效率的压缩,必须对声音信号作分析,以得到一些重要的参数。因此,声音信号经过脉冲编码调制后,除了进行子带滤波,也另外进行了快速傅利叶变换(FastFourier Transform,FFT)(步骤112),再通过声学模型分析(PsychoacousticModel Analysis)(步骤114)以得到相关参数,如区块类型(block type)、同异信号类型(middle/side type,M/S type)及遮蔽阈值(masking threshold)。其中,区块类型是进行演进式离散余弦变换时的重要参数,同异信号类型是决定是否使用同异信号变换的重要参数,遮蔽阈值则为再量化模块进行量化时的参考参数。
在执行演进式离散余弦变换前需要先判断要用何种区块类型进行变换,亦即,该声音信号是适合用长区块(long block)或短区块(short block)的演进式离散余弦变换。当声音信号为短期稳定(short-term stationary)的信号,则使用长区块的演进式离散余弦变换;而当声音信号有转调(transition)发生时,则使用短区块的演进式离散余弦变换,以避免回声杂讯(pre-echo noise)的发生。
请参考图2,图2为已知决定区块类型的一流程20的示意图。声音信号经过脉冲编码调制(步骤200)后会先执行长区块的声学模型分析(步骤202),接下来判断该声音信号是否要使用短区块的演进式离散余弦变换(步骤204)。如果是,则重新执行一次短区块的演进式离散余弦变换(步骤206),并执行短区块的声学模型分析(步骤207);若否,则进行同异信号变换或其它的声音编码(步骤208)。因此,不论声音信号是属于何种区块类型,现有技术皆会在步骤202预设地执行长区块的声学模型分析,当在步骤204中判断声音信号须使用短区块的演进式离散余弦变换时,则在步骤207重新执行一次短区块的声学模型分析。在此种情况下,步骤202的运算为多余,因而造成运算量的增加。再者,在步骤204中,通常是以感知熵(perceptual entropy)来作为判断是否该使用短区块的演进式离散余弦变换的依据,当感知熵大于一预设值时,则使用短区块的演进式离散余弦变换来变换该声音信号。
另外,同异信号变换是在声音信号的左、右声道信号的频谱特性接近时,可以去除左、右声道的相关性后再压缩,以增加压缩效率。例如,声音信号的左声道信号为L[n],右声道信号为R[n],则定义其同信号(middlesignal)M[n]=√2×(L[n]+R[n])/2,其异信号(side signal)S[n]=√2×(L[n]-R[n])/2。由上面两个式子可以知道,同信号就是左、右声道信号相同的部分,而异信号就是左、右声道信号相异的部分,因此,通过同异信号变换可以减少数据量,增加压缩效率。所以,判断声音信号是否适用于同异信号变换,只要检视其的左、右声道信号的频谱特性是否接近即可。
请参考图3,图3为已知判断左、右声道信号的性质的一流程30的示意图。在现有技术中,是先执行左、右声道信号的声学模型分析(步骤300),接下来再判断左、右声道信号是否适合使用同异信号变换(步骤302)。如果是,重新以同异信号变换来变换左、右声道信号(步骤304),并执行同异信号的声学模型分析(步骤305);若否,则进行其它的声音编码(步骤306),例如送入再量化模块进行量化。因此,当左、右声道信号适合使用同异信号变换时,则步骤300中先执行左、右声道信号的声学模型分析就显得多余,而造成运算量不必要的增加。
因此,有鉴于上述的流程20与流程30可能会造成运算量不必要的增加,并且影响系统效率,其确有改进的必要性。
发明内容
因此,本发明的主要目的即在于提供一种应用音频帧频谱平坦度简化声学模型分析的方法及其相关装置,以增加压缩的效率。
本发明公开一种应用音频帧频谱平坦度简化声学模型分析的方法,包含计算该声音信号所包含的多个音频帧在频域上的能量;根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。
本发明另公开一种用于一音频压缩系统的音频变换装置,用来执行前述的音频变换方法。
本发明另公开一种应用音频帧频谱平坦度简化声学模型分析的方法,包含计算该声音信号所包含的左、右声道信号在频域上的能量;根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度;以及根据该左、右声道信号的频谱平坦度,使用同异信号变换或左、右声道编码来变换该左、右声道信号。
本发明另公开一种用于一音频压缩系统的音频变换装置,用来执行前述的音频变换方法。
附图说明
图1为已知应用动态图像压缩标准的一音频编码器的操作流程的示意图。
图2为已知决定区块类型的一流程的示意图。
图3为已知判断左、右声道信号的性质的一流程的示意图。
图4为本发明实施例用以决定使用短区块或长区块的演进式离散余弦变换来变换一音频帧的一流程的示意图。
图5为本发明实施例比较多个音频帧的频谱平坦度的一流程的示意图。
图6为三个音频帧的频谱平坦度的示意图。
图7为本发明实施例用以决定使用同异信号变换或左、右声道编码来变换该左、右声道信号的一流程的示意图。
图8为本发明实施例一电子装置的示意图。
【主要元件符号说明】
10、20、30、40、50、70                流程
100、102、104、106、108、110、        步骤112、114
200、202、204、206、207、208          步骤
300、302、304、305、306               步骤
400、402、404、406、408               步骤
500、502、504、506、508、510、        步骤512、514
700、702、704、706、708               步骤
80                                    电子装置
800                                   声学模型分析单元
802                                   计算单元
804                                   判断单元
具体实施方式
本发明公开一种应用音频帧频谱平坦度简化声学模型分析的方法,其主要概念是利用频谱平坦度(spectral flatness)来决定一声音信号的区块类型(block type)及是否为同异信号类型(middle/side type,M/S type),进而简化声学模型分析的执行,以增加压缩的效率。
请参考图4,图4为本发明实施例一流程40的示意图。流程40应用音频帧频谱平坦度来简化声学模型分析,其包含以下步骤:
步骤400:开始。
步骤402:计算一声音信号所包含的多个音频帧在频域上的能量。
步骤404:根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度。
步骤406:根据该多个频谱平坦度,使用短区块(short block)或长区块(long block)的演进式离散余弦变换(modified discrete cosine transform,MDCT)来变换该多个音频帧的每一音频帧。
步骤408:结束。
根据流程40,本发明实施例先对一声音信号计算其包含的音频帧在频域上的能量,并据以计算出每一音频帧的频谱平坦度,进而决定使用短区块或长区块的演进式离散余弦变换来变换每一音频帧。如此一来,通过频谱平坦度的运算,就可判断每一音频帧该用短区块或长区块的演进式离散余弦变换来变换。藉此,即可避免如图2所示,当步骤204中判断声音信号须使用短区块的演进式离散余弦变换时,则步骤202的运算为多余的缺点,以增加压缩的效率并可简化已知技术中(例如图2所示)所需的两次声学模型分析。
其中,在步骤402中,声音信号已先经过脉冲编码调制(pulse-codemodulation,PCM)及适当的滤波,然后再利用子带滤波(subband filter)法或快速傅利叶变换(FFT)等方式得到声音信号所包含的多个音频帧在频域上的能量的参数,在此,先以子带滤波法为例。首先定义一音频帧为a[t],t=0~N-1;接着,以子带滤波将该音频帧a[t]分为M个子频带,每个子频带的序列标记为A[0][k],A[1][k],A[2][k]......A[M-1][k],k=0~(N/M-1);最后,计算出该音频帧a[t]的一能量序列A_ene[m]=sum(A[m][0]*A[m][0]+A[m][1]*A[m][1]..........),m=0~M-1。如此一来,能量序列A_ene[m]即可表示其中的一音频帧在频域上的能量的参数。接着,在步骤404中,利用这些能量的参数,计算出音频帧的频谱平坦度,其计算方式可参见下面的式子(A),也就是将序列能量序列A_ene[m]的几何平均数除以算数平均数,以得到其频谱平坦度。
Figure G2008101788952D0000051
最后,在步骤406中,根据所算出的频谱平坦度,决定要使用短区块或长区块的演进式离散余弦变换来变换音频帧。关在步骤406的详细操作方式,可再参考图5。图5为本发明实施例一流程50的示意图。流程50为步骤406的详细操作,其包含以下步骤:
步骤500:开始。
步骤502:比较该多个音频帧的其中的一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值。
步骤504:比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值。
步骤506:比较该第一差值与该第二差值,以产生一第三差值。
步骤508:判断该第三差值是否大于一预设值?若是,则进行步骤510;若否,则进行步骤512。
步骤510:使用短区块的演进式离散余弦变换来变换该音频帧。
步骤512:使用长区块的演进式离散余弦变换来变换该音频帧。
步骤514:结束。
关于流程50的说明,请同时参考图6。如图6所示,假设一音频帧为grN-1,其前一个音频帧为grN-2,后一个音频帧为grN。首先,如步骤502所述,比较音频帧grN-1与其前一个音频帧grN-2的频谱平坦度所得的差值的绝对值为ΔN-1,即第一差值。同样的,如步骤504所述,比较音频帧grN-1与其后一个音频帧grN的频谱平坦度所得的差值的绝对值为ΔN,即第二差值。接着,如步骤506所述,可计算出第三差值为|ΔNN-1|(取绝对值以保证其值为正)。当第三差值|ΔNN-1|大于特定预设值时,表示音频帧grN-1有转调(transition)发生,则如步骤510所述,使用短区块的演进式离散余弦变换来变换音频帧grN-1;相反地,如果第三差值|ΔNN-1|小于预设值,表示音频帧grN-1为短期稳定(short-term stationary)的信号,则如步骤512所述,使用长区块的演进式离散余弦变换来变换音频帧grN-1
在前述说明中,第一差值ΔN-1及第二差值ΔN是指音频帧grN-1前、后音频帧的频谱平坦度差异程度。当然,除了取绝对值外,也可取对数值。亦即,第一差值ΔN-1可以是音频帧grN-1与音频帧grN-2的频谱平坦度取对数结果后的差值的绝对值,而第二差值ΔN则为音频帧grN-1与音频帧grN的频谱平坦度取对数结果后的差值的绝对值,在此情况下,预设值可设为3,且不以此为限。当然,前述比较各音频帧的频谱平坦度的差异的方式,仅为一举例,并不以此为限,且相关的比较基准的数值大小也可随不同的状况而加以变化。
如此一来,本发明便可利用频谱平坦度来决定一音频帧的区块类型,以决定要用短区块或长区块的演进式离散余弦变换来变换该音频帧,藉此,可将已知技术中(例如图2所示)所需的两次声学模型分析,简化只剩一次声学模型分析,以增加压缩的效率。
值得一提的是,在步骤402中,如果要使用快速傅利叶变换的方式来得到声音信号所包含的多个音频帧在频域上的能量的参数,则可定义该音频帧为a[t],t=0~N-1;接着,以快速傅立叶变换将该音频帧a[t]变换后,得到其频域上的多个序列A[n]+B[n]*i,n=0~N/2-1;其中,A[n]是此多个序列的实部,B[n]是此多个序列的虚部,而i为虚根。最后,计算出该音频帧a[t]的一能量序列A_ene[n]=A[n]*A[n]+B[n]*B[n],n=0~N/2-1。
另外,针对立体声信号的变换,请参考图7,图7为本发明实施例一流程70的示意图。流程70应用音频帧频谱平坦度来简化声学模型分析,其包含以下步骤:
步骤700:开始。
步骤702:计算一声音信号所包含的左、右声道信号在频域上的能量。
步骤704:根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度。
步骤706:根据该左、右声道信号的频谱平坦度,使用同异信号变换(middle/side transform,M/S transform)或左、右声道编码(L/R encoding)来变换该左、右声道信号。
步骤708:结束。
类似于流程40,流程70亦是根据频谱平坦度,决定立体声音频的变换方式。首先,流程70计算声音信号所包含的左、右声道信号在频域上的能量,并据以计算出该左、右声道信号的频谱平坦度,进而决定使用同异信号变换或左、右声道编码来变换该左、右声道信号。
其中,在步骤702中,声音信号已先经过脉冲编码调制及适当的滤波,然后再利用子带滤波(subband filter)法或快速傅利叶变换(FFT)等其它方式得到声音信号所包含的左、右声道信号在频域上的能量的参数。如果以子带滤波法作说明,则首先定义该左、右声道信号的其中一个为c[t],t=0~N-1;接着,以子带滤波将该左、右声道信号的其中一个c[t]分为M个子频带,每个子频带的序列标记为C[0][k],C[1][k],C[2][k]......C[M-1][k],k=0~(N/M-1);最后,计算出该左、右声道信号的其中一个c[t]的一能量序列C_ene[m]=sum(C[m][0]*C[m][0]+C[m][1]*C[m][1]..........),m=0~M-1。如此一来,能量序列C_ene[m]即可表示该左、右声道信号的其中一个在频域上的能量的参数。此外,在本发明另一实施例中步骤702中也可以快速傅利叶变换的方式来得到声音信号所包含的多个音频帧在频域上的能量的参数。如果定义该左、右声道信号的其中一个为c[t],t=0~N-1;接着,以快速傅立叶变换将该音频帧c[t]变换后,得到其频域上的多个序列C[n]+D[n]*i,n=0~N/2-1;其中,C[n]是此多个序列的实部,D[n]是此多个序列的虚部,而i为虚根。最后,计算出该左、右声道信号的其中一个c[t]的一能量序列C_ene[n]=C[n]*C[n]+D[n]*D[n],n=0~N/2-1。
接着,在本发明以子带滤波法求取声音信号所包含的左、右声道信号在频域上的能量的参数的实施例中,步骤704利用这些能量的参数,计算出左、右声道信号的频谱平坦度,其计算方式相同于前述式子(A)的计算方式,可参考下面的式子(B)。
Figure G2008101788952D0000081
最后,在步骤706中,根据所算出的左、右声道信号的频谱平坦度,决定要使用同异信号变换或左、右声道编码来变换该左、右声道信号。当左、右声道信号的频谱平坦度的差异值小于一预设值时,则使用同异信号变换来变换左、右声道信号;而当左、右声道信号的频谱平坦度的差异值大于该预设值时,使用左、右声道编码来变换左、右声道信号。较佳地,本发明是将所算出的左、右声道信号的频谱平坦度取对数值后,再比较两者的差异值的绝对值;若小于5,则判断左、右声道的频谱接近而采用同异信号变换来变换左、右声道信号;若大于或等于5,则采用左、右声道编码来变换左、右声道信号。当然,前述比较左、右声道的频谱平坦度的差异的方式,仅为一举例,并不以此为限,且相关的比较基准的数值大小也可随不同的状况而加以变化。
如此一来,本发明便可利用频谱平坦度来判断左、右声道信号的频谱差异情况,并据以判断是否采用同异信号变换来变换左、右声道信号。藉此,即可避免如图3所示,当步骤302中判断左、右声道信号适合使用同异信号变换时,则步骤300中所执行的声学模型分析为多余的缺点,以增加压缩的效率并可简化已知技术中(例如图3所示)所需的两次声学模型分析。
在图4中,本发明应用「频谱平坦度特征值」来获知同一声道中前后音频帧的相关性,以简化音频压缩过程,并简化所需的声学模型分析;而在图7中,本发明则是应用「频谱平坦度特征值」来获知左、右声道中音频帧之间的相关性,以简化音频压缩过程及所需的声学模型分析。需注意的是,图4及图7仅为本发明的实施例,本发明也可应用「频谱平坦度特征值」来简化音频压缩过程中的其它步骤,而不限于此。
另一方面,关于图4或图7所示的音频变换方法,本领域技术人员当可据以实现应用音频帧频谱平坦度简化声学模型分析的电子装置。举例来说,请参考图8,图8为本发明实施例一电子装置80的示意图。电子装置80用来应用音频帧频谱平坦度简化声学模型分析,其包含有一能量计算单元800、一频谱平坦度计算单元802及一判断单元804。电子装置80实现流程40,亦即能量计算单元800、频谱平坦度计算单元802及判断单元804分别用来执行步骤402、404及406。当然,本领域技术人员当可据以调整各元件的实现方式。例如,能量计算单元800可利用子带滤波法或快速傅利叶变换等方式得到声音信号所包含的多个音频帧在频域上的能量的参数。如果能量计算单元800利用子带滤波法得出声音信号所包含的多个音频帧在频域上的能量的参数,则频谱平坦度计算单元802可应用前述的式子(A),得到频谱平坦度。当得到频谱平坦度后,判断单元804先比较一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值;再比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值;最后比较该第一差值与该第二差值,以产生一第三差值,并据以判断使用短区块或长区块的演进式离散余弦变换来变换该音频帧。例如,如果该第三差值大于一预设值,则使用短区块的演进式离散余弦变换来变换该音频帧;反之,则使用长区块的演进式离散余弦变换来变换该音频帧。上述操作可进一步参考前述流程40及50的说明,在此不赘述。
同样地,关于图7的流程70的实现方式,也可仿照电子装置80,以一电子装置实现,相关实现方式应为本领域技术人员参考前述说明即能完成,故不赘述。
综上所述,本发明可利用频谱平坦度来决定一音频帧的区块类型,以决定要用短区块或长区块的演进式离散余弦变换来变换该音频帧,同时,可利用频谱平坦度来判断左、右声道信号的频谱差异情况,并据以判断是否采用同异信号变换来变换左、右声道信号。因此,本发明相较于已知技术中的决定区块类型的流程,或是判断左、右声道信号的性质,皆可简化声学模型分析的执行次数,从而增加压缩的效率,故确实能达成本发明的目的。
以上所述仅为本发明的优选实施例,凡依本发明权利要求书所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (15)

1.一种应用音频帧频谱平坦度简化声学模型分析的方法,包含有:
计算一声音信号所包含的多个音频帧在频域上的能量;
根据该多个音频帧在频域上的能量,计算出该多个音频帧的多个频谱平坦度;以及
根据该多个频谱平坦度,使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧。
2.如权利要求1所述的方法,其中根据该多个频谱平坦度使用短区块或长区块的演进式离散余弦变换来变换该多个音频帧的每一音频帧,包含有:
比较该多个音频帧的其中的一音频帧与其前一个音频帧的频谱平坦度,以产生一第一差值;
比较该音频帧与其后一个音频帧的频谱平坦度,以产生一第二差值;
比较该第一差值与该第二差值,以产生一第三差值;以及
根据该第三差值,决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧。
3.如权利要求2所述的方法,其中根据该第三差值决定使用短区块或长区块的演进式离散余弦变换来变换该音频帧,在该第三差值大于一预设值时,使用短区块的演进式离散余弦变换来变换该音频帧,而在该第三差值小于该预设值时,使用长区块的演进式离散余弦变换来变换该音频帧。
4.如权利要求2所述的方法,其中比较该多个音频帧的其中的该音频帧与其前一个音频帧的频谱平坦度以产生该第一差值,是比较该音频帧与其前一个音频帧的频谱平坦度的对数值,以产生该第一差值;而比较该音频帧与其后一个音频帧的频谱平坦度以产生该第二差值,是比较该音频帧与其后一个音频帧的频谱平坦度的对数值,以产生该第二差值。
5.如权利要求1所述的方法,其中计算一音频帧在频域上的能量包含有:
定义该音频帧为a[t],t=0~N-1;
以快速傅立叶变换(FFT)将该音频帧a[t]变换后,得到其频域上的序列A[n]+B[n]*i,n=0~N/2-1;
计算出该音频帧a[t]的一能量序列A_ene[n]=A[n]*A[n]+B[n]*B[n],n=0~N/2-1。
6.如权利要求1所述的方法,其中计算一音频帧在频域上的能量包含有:
定义该音频帧为a[t],t=0~N-1;
以子带滤波(subband filter)将该音频帧a[t]分为M个子频带,每个子频带的序列标记为A[0][k],A[1][k],A[2][k]......A[M-1][k],k=0~(N/M-1);
计算出该音频帧a[t]的一能量序列A_ene[m]=sum(A[m][0]*A[m][0]+A[m][1]*A[m][1]..........),m=0~M-1。
7.如权利要求6所述的方法,其中该音频帧a[t]的频谱平坦度通过该能量序列A_ene[m]以下式求得:
Figure F2008101788952C0000021
8.一种应用音频帧频谱平坦度简化声学模型分析的电子装置,用来执行如权利要求1所述的方法。
9.一种应用音频帧频谱平坦度简化声学模型分析的方法,包含有:
计算一声音信号所包含的左、右声道信号在频域上的能量;
根据该左、右声道信号在频域上的能量,计算出该左、右声道信号的频谱平坦度;以及
根据该左、右声道信号的频谱平坦度,使用同异信号变换(middle/sidetransform,M/S transform)或左、右声道编码(L/R encoding)来变换该左、右声道信号。
10.如权利要求9所述的方法,其中根据该左、右声道信号的频谱平坦度,使用同异信号变换或左、右声道编码来变换该左、右声道信号,在该左、右声道信号的频谱平坦度的差异值小于一预设值时,使用同异信号变换来变换该左、右声道信号;而在该左、右声道信号的频谱平坦度的差异值大于该预设值时,使用左、右声道编码来变换该左、右声道信号。
11.如权利要求10所述的方法,其中该左、右声道信号的频谱平坦度的差异值,分别将该左、右声道信号的频谱平坦度取对数值后相减得到;该预设值实质上为5。
12.如权利要求9所述的方法,其中计算该左、右声道信号的其中一个在频域上的能量包含有:
定义该左、右声道信号的其中一个为c[t],t=0~N-1;
以快速傅立叶变换(FFT)将该左、右声道信号的其中一个c[t]变换后,得到其频域上的序列C[n]+D[n]*i,n=0~N/2-1;
计算出该左、右声道信号的其中一个c[t]的一能量序列
C_ene[n]=C[n]*C[n]+D[n]*D[n],n=0~N/2-1。
13.如权利要求9所述的方法,其中计算该左、右声道信号的其中一个在频域上的能量包含有:
定义该该左、右声道信号的其中一个为c[t],t=0~N-1;
以子带滤波(subband filter)将该该左、右声道信号的其中一个c[t]分为M个子频带,每个子频带的序列标记为C[0][k],C[1][k],C[2][k]......C[M-1][k],k=0~(N/M-1);
计算出该该左、右声道信号的其中一个c[t]的一能量序列C_ene[m]=sum(C[m][0]*C[m][0]+C[m][1]*C[m][1]..........),m=0~M-1。
14.如权利要求13所述的方法,其中该该左、右声道信号的其中一个c[t]的频谱平坦度通过该能量序列C_ene[m]以下式求得:
Figure F2008101788952C0000031
15.一种应用音频帧频谱平坦度简化声学模型分析的电子装置,用来执行如权利要求9所述的方法。
CN2008101788952A 2008-12-08 2008-12-08 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 Expired - Fee Related CN101751928B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008101788952A CN101751928B (zh) 2008-12-08 2008-12-08 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
US12/412,382 US8751219B2 (en) 2008-12-08 2009-03-27 Method and related device for simplifying psychoacoustic analysis with spectral flatness characteristic values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101788952A CN101751928B (zh) 2008-12-08 2008-12-08 应用音频帧频谱平坦度简化声学模型分析的方法及其装置

Publications (2)

Publication Number Publication Date
CN101751928A true CN101751928A (zh) 2010-06-23
CN101751928B CN101751928B (zh) 2012-06-13

Family

ID=42232061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101788952A Expired - Fee Related CN101751928B (zh) 2008-12-08 2008-12-08 应用音频帧频谱平坦度简化声学模型分析的方法及其装置

Country Status (2)

Country Link
US (1) US8751219B2 (zh)
CN (1) CN101751928B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013879A (zh) * 2010-09-10 2011-04-13 建荣集成电路科技(珠海)有限公司 Mp3音乐均衡调节装置及方法
CN102280103A (zh) * 2011-08-02 2011-12-14 天津大学 基于方差的音频信号瞬态段检测方法
CN105869657A (zh) * 2016-06-03 2016-08-17 竹间智能科技(上海)有限公司 语音情感辨识系统及方法
CN108231091A (zh) * 2018-01-24 2018-06-29 广州酷狗计算机科技有限公司 一种检测音频的左右声道是否一致的方法和装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4136825C1 (zh) * 1991-11-08 1993-03-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP4021124B2 (ja) * 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
WO2003038813A1 (en) * 2001-11-02 2003-05-08 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US20040083110A1 (en) * 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
TW594674B (en) * 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
DE102006055737A1 (de) * 2006-11-25 2008-05-29 Deutsche Telekom Ag Verfahren zur skalierbaren Codierung von Stereo-Signalen

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013879A (zh) * 2010-09-10 2011-04-13 建荣集成电路科技(珠海)有限公司 Mp3音乐均衡调节装置及方法
CN102280103A (zh) * 2011-08-02 2011-12-14 天津大学 基于方差的音频信号瞬态段检测方法
CN105869657A (zh) * 2016-06-03 2016-08-17 竹间智能科技(上海)有限公司 语音情感辨识系统及方法
CN108231091A (zh) * 2018-01-24 2018-06-29 广州酷狗计算机科技有限公司 一种检测音频的左右声道是否一致的方法和装置

Also Published As

Publication number Publication date
US20100145682A1 (en) 2010-06-10
US8751219B2 (en) 2014-06-10
CN101751928B (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
JP7158452B2 (ja) Hoa信号の係数領域表現からこのhoa信号の混合した空間/係数領域表現を生成する方法および装置
KR101178114B1 (ko) 복수의 입력 데이터 스트림을 믹싱하기 위한 장치
KR100986924B1 (ko) 정보 신호 인코딩
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR101143225B1 (ko) 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체
US7337118B2 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
KR101341317B1 (ko) 오디오 신호를 트랜스코딩하는 방법 및 장치
US20090204397A1 (en) Linear predictive coding of an audio signal
JP2011013560A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
AU2003243441B2 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
WO2003096325A1 (en) Coding method, coding device, decoding method, and decoding device
CN104170009A (zh) 感知音频编解码器中的谐波信号的相位相干性控制
CN112997248A (zh) 确定空间音频参数的编码和相关联解码
KR101363206B1 (ko) 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩
CN101751928B (zh) 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
JP2002132295A (ja) ステレオオーディオ信号高能率符号化装置
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
KR960012477B1 (ko) 인지 정보량을 이용한 적응적 스테레오 디지탈 오디오 부호화 및 복호화장치
KR970006825B1 (ko) 오디오신호 부호화장치
KR101386645B1 (ko) 모바일 기기에서 지각적 오디오 코딩 장치 및 방법
KR101421256B1 (ko) 휴대용 단말기의 대역 확장 기법을 이용한 부호화 장치 및방법
KR101281945B1 (ko) 오디오 코딩 장치 및 방법
Reddy Implementation of AAC Encoder for Audio Broadcasting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120613

Termination date: 20161208