CN102419981B - 音频信号时间尺度和频率尺度缩放处理方法及设备 - Google Patents

音频信号时间尺度和频率尺度缩放处理方法及设备 Download PDF

Info

Publication number
CN102419981B
CN102419981B CN2011103421742A CN201110342174A CN102419981B CN 102419981 B CN102419981 B CN 102419981B CN 2011103421742 A CN2011103421742 A CN 2011103421742A CN 201110342174 A CN201110342174 A CN 201110342174A CN 102419981 B CN102419981 B CN 102419981B
Authority
CN
China
Prior art keywords
frequency
signal
region signal
reconstruction
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011103421742A
Other languages
English (en)
Other versions
CN102419981A (zh
Inventor
吴晟
李昙
林福辉
张本好
徐晶明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN2011103421742A priority Critical patent/CN102419981B/zh
Publication of CN102419981A publication Critical patent/CN102419981A/zh
Application granted granted Critical
Publication of CN102419981B publication Critical patent/CN102419981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种音频信号时间尺度和频率尺度缩放处理方法及设备,其中所述音频信号时间尺度和频率尺度缩放处理方法包括对输入音频信号进行采样以生成待处理音频时域信号,其中待处理音频时域信号的帧间间隔为L,每帧包括N个采样点;将待处理音频时域信号转换成待处理音频频域信号;获取待处理音频频域信号的频率和幅度;获取目标音频频域信号的重建频率和重建幅度;将具备重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号;对目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。本技术方案的实施方式复杂度较低、且处理质量高,并且可以独立调节音频信号的时间尺度和频率尺度。

Description

音频信号时间尺度和频率尺度缩放处理方法及设备
技术领域
本发明涉及音频信号处理领域,特别涉及一种音频信号时间尺度和频率尺度缩放处理方法及设备。
背景技术
在各种多媒体应用中,调整音频信号的时间尺度或频率高低具有广泛的需求。以调整重放速度为例,比如降低音频信号的重放速度,即拉长信号的时间尺度,可以有助于有听力或理解力障碍的人群提高听音的可懂度,也有助于外语初学者的学习,提高音频信号的重放速度,即压缩信号的时间尺度可帮助听者节省从录音中获取信息的时间;对音乐重放音速和音调的调整,还可以改变音乐的节奏和音色,获得独特的艺术效果;对于视频中的伴音,音频重放的音速调整,可以使得视频在加快或放慢回放速度的同时,使观众可以听到同步的,没有发生畸变的伴音。
直接对音频进行播放速度调整,即改变播放的采样率而不做其它任何处理,音频的音调会随着播放速度同步变化,造成音调和音色的变化。在降低音速时,声音会变低沉;在提高音速时,声音会变得尖锐,语音则表现为如加快语速的童声。为了能够让音频播放速度和音调互相独立调整,需要对音频信号进行处理。
传统的数字音频变速算法中,重叠相加(overlap add)技术可以实现音频时间尺度的独立变化,保留原有音调音色,但如果不进行波形的相似程度检测来确定重叠相加的时延,这种方法会带来帧连接处的相位不连续,从而引入一些节拍效应。而波形检测方法具有较强局限性,首先它的计算量较高,其次它只能处理具有明显稳定基音周期的信号。传统的时频变换算法可以处理包括语音和音乐的通用音频(general audio),它对时域上的原始数字音频进行重采样以变换采样率,然后将改变了采样率的数字音频转换到频域,获得数字音频的频谱,随后对频谱进行频谱搬移(frequency shift),将处理后的频谱变换回时域,这个算法一般用短时傅里叶变换(short time Fouriertransform)实现。为能获得较高的处理音质,这类算法的短时傅里叶变换需要一次处理较长的音频,其计算量和存储量较大,并且对于帧间相位不连续也没有解决方法,处理音质受到很大限制。
更多关于数字信号音频变速处理的技术方案可以参考公开号为CN101202048A公开的“语音变速的方法”的专利申请文件,然而仍旧没有解决上述问题。
发明内容
本发明解决的问题是提供一种复杂度较低,处理质量高的音频信号时间尺度和频率尺度缩放处理方法及设备。
为解决上述问题,本发明实施例提供一种音频信号时间尺度和频率尺度缩放处理方法,包括:对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点;将所述待处理音频时域信号转换成待处理音频频域信号;获取所述待处理音频频域信号的频率和幅度;获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度;将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号;对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
可选地,所述对输入音频信号进行采样以生成待处理音频时域信号包括:基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟。
可选地,所述固定采样点小于等于所述帧间间隔的采样点。
可选地,所述将所述待处理音频时域信号转换成待处理音频频域信号包括:对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。
可选地,所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
可选地,所述获取所述待处理音频频域信号的频率和幅度包括:
分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;
基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率;
根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。
可选地,所述获取目标音频频域信号的重建频率和重建幅度包括:
当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的;
当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则所述目标音频频域信号在新索引处的重建频率是根据所述变换率控制参数和所述待处理音频信号中幅度最大的原索引处对应的频率确定的。
可选地,原索引处的信号频率变换到所述目标音频频域信号在新索引处的重建频率时,所述原索引处的信号需要映射到新索引处,其中所述新索引的取值范围在[0,N/2]。
可选地,所述将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号包括:
根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位,其中所述重建相位的初始值为零;
根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换,以获得重建频域信号;
基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。
可选地,所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
本发明实施例还提供了一种音频信号时间尺度和频率尺度缩放处理设备,包括:
信号采样模块,用于对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点;第一时频转换模块,用于将所述待处理音频时域信号转换成待处理音频频域信号;第一处理模块,用于获取所述待处理音频频域信号的频率和幅度;第二处理模块,用于获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度;第二时频转换模块,用于将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号;信号输出模块,对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
可选地,所述信号采样模块用于:基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟。
可选地,所述固定采样点小于等于所述帧间间隔的采样点。
可选地,所述第一时频转换模块包括:对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。
可选地,所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
可选地,所述第一处理模块包括:
极坐标转换模块,用于分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;
频率计算模块,用于基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频信号的频率;
幅度计算模块,用于根据所述第一幅度和/或所述第二幅度确定所述待处理音频信号的幅度。
可选地,所述第二处理模块包括:
重建幅度确定模块,用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则在所述目标音频信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的;
重建频率确定模块,用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则在所述目标音频信号在新索引处的重建频率是根据所述变换率控制参数和所述待处理音频信号中幅度最大的原索引处对应的频率确定的。
可选地,原索引处的信号频率变换到所述目标音频信号在新索引处的重建频率时,所述原索引处的信号需要映射到新索引处,其中所述新索引的取值范围在[0,N/2]。
可选地,所述第二时频转换模块包括:
重建相位确定模块,根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位,其中所述重建相位的初始值为零;
直角坐标转换模块,用于根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换,以获得重建频域信号;
逆加窗处理模块,用于基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。
可选地,所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
与现有技术相比,本发明技术方案具有以下有益效果:
本发明对输入音频信号经过间隔采样生成帧间间隔为L,每帧包括N个采样点的待处理音频时域信号,再将待处理音频时域信号通过加窗离散傅里叶变换转换成待处理音频频域信号,并获得频率和幅度。进一步地,通过分别控制变换率控制参数和增益控制参数获取目标音频频域信号的重建频率和重建幅度,再通过逆加窗离散傅里叶变换将目标音频频域信号转换成目标音频时域信号,最后经过重叠累加输出获得输出点数为M的输出音频信号。本技术方案的实施方式复杂度较低、且处理质量高,并且可以独立调节音频信号的时间尺度和频率尺度。
附图说明
图1是本发明的一种音频信号时间尺度和频率尺度缩放处理方法的具体实施方式的流程示意图;
图2是本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中诗歌朗诵的原始频谱图;
图3至图7是基于图2所示的具体实施例中分别对诗歌朗诵进行频率尺度和时间尺度调节后的频谱图;
图8是本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中音乐的原始频谱示意图;
图9是基于图8所示的具体实施例中对音乐进行频率尺度和时间尺度调节后的频谱图;
图10是本发明的一种音频信号时间尺度和频率尺度缩放处理设备的具体实施例的结构示意图。
具体实施方式
针对现有技术的间题,发明人经过研究,提供了一种音频信号时间尺度和频率尺度缩放处理方法以及相应的音频信号时间尺度和频率尺度缩放处理设备。本技术方案的实施方式复杂度较低、且处理质量高,并且可以独立调节音频信号的时间尺度和频率尺度。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
如图1所示的是本发明的一种音频信号时间尺度和频率尺度缩放处理方法的具体实施方式的流程示意图。参考图1,所述音频信号时间尺度和频率尺度缩放处理方法包括:
步骤S1:对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点。
具体地,所述输入音频信号是数字信号,其中所述帧间间隔是指对所述输入音频信号进行采样的间隔,即对所述输入音频信号采样的相邻两帧的帧间间隔。进一步地,在本实施例中,本步骤包括:基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟;其中所述固定采样点小于等于所述帧间间隔的采样点。
例如,设输入信号为x(t),将输入信号按所述帧间间隔L组成帧长为N(即N个采样点)的向量x(n)和x’(n),其中:
向量x(n)=[x(nL+1),x(nL+2),...,x(nL+N)];
向量x’(n)=[x(nL+1-K),x(nL+2-K),...,x(nL+N-K)],其中n是帧序号,K是固定采样点,K的取值较小,通常要求小于等于L,根据向量x(n)和x’(n)的表达式可以看出,当K=L时,x’(n)=x(n-1)。
步骤S2:将所述待处理音频时域信号转换成待处理音频频域信号。
具体地,在本实施例中,所述将所述待处理音频时域信号转换成待处理音频频域信号包括:对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。
沿用上述步骤S1的例子,分别对所述向量x(n)和x’(n)作加窗离散傅里叶变换。首先,作加窗的过程为:
xw(n)=x(n)·hana=[x(nL+1)hana(0),x(nL+2)hana(1),...,x(nL+N)hana(N-1)];
x’w(n)=x’(n)·hana=[x(nL+1-K)hana(0),x(nL+2-K)hana(1),...,x(nL+N-K)hana(N-1)];
其中hana是所述加窗离散傅里叶变换所使用的窗函数,所述窗函数也是N点的分析窗函数,在本实施例中,一般使用汉明窗(Hamming)或者汉宁窗(Hanning),但实际应用中不限于此。
然后,对已经过加窗变换的向量Xw(n)和X’w(n)作离散傅里叶变换(DFT),变换过程为:
X ( n ) [ k ] = Σ l = 0 N - 1 x w ( n ) [ l ] e - j 2 π N lk = [ X r ( n ) [ k ] + j X i ( n ) [ k ] ] ,
X ′ ( n ) [ k ] = Σ l = 0 N - 1 x w ′ ( n ) [ l ] e - j 2 π N lk = [ X r ′ ( n ) [ k ] + j X i ′ ( n ) [ k ] ] ,
其中k=0,1,2,...,N/2。
由于所述输入音频信号是实数信号,N点的离散傅里叶变换(DFT)得到的DFT谱只需要保留前N/2+1点,因为实数DFT谱具有共轭对称性。下标[k]表示向量的第k元素。进一步地,当K=L时,由于X’(n)=X(n-1),因此只需要计算得出X(n)[k]的结果即可,省去了一次DFT计算。
步骤S3:获取所述待处理音频频域信号的频率和幅度。
具体地,本步骤包括:1)分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;2)基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率;3)根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。
继续沿用上述步骤S2的例子,具体地,首先分别对X(n)[k]和X’(n)[k]进行直角坐标到极坐标的转换,转换过程如下:
[ X r ( n ) [ k ] + j X i ( n ) [ k ] ] = X A ( n ) [ k ] e j 2 π X P ( n ) [ k ] ,
[ X r ′ ( n ) [ k ] + j X i ′ ( n ) [ k ] ] = X A ′ ( n ) [ k ] e j 2 π X P ′ ( n ) [ k ] ,
其中k=0,1,2,...,N/2。
其中,上述XA(n)[k]、XA’(n)[k]、XP(n)[k]和XP’(n)[k]可以通过如下方式获得:
X A ( n ) [ k ] = X r ( n ) [ k ] 2 + X i ( n ) [ k ] 2 , X A ( n ) [ k ] = X r ( n ) [ k ] 2 + X i ( n ) [ k ] 2 ,
X P ( n ) [ k ] = tan - 1 ( X i ( n ) [ k ] / X r ( n ) [ k ] ) 2 π , X P ′ ( n ) [ k ] = tan - 1 ( X i ′ ( n ) [ k ] / X r ′ ( n ) [ k ] ) 2 π ,
其中k=0,1,2,...,N/2。
需要说明的是,其中XA(n)[k]、XA’(n)[k]是幅度部分,即XA(n)[k]是所述第一频域信号的第一幅度,XA’(n)[k]是所述第二频域信号的第二幅度。通常所述第一幅度和第二幅度近似相等,在本实施例中,可以任意选择其中一个幅度作为所述待处理音频频域信号的幅度,两者间的细微差异并不影响后续计算步骤的实现。
其中,XP(n)[k]、XP’(n)[k]是相位部分,即XP(n)[k]是所述第一频域信号的第一相位,XP’(n)[k]是所述第二频域信号的第二相位。
然后,利用所述第一频域信号的第一相位XP(n)[k]与所述第二频域信号的第二相位XP’(n)[k]之间的相位差计算所述待处理音频频域信号的频率。
具体过程如下:
计算相位差Pdelta(n)[k]=XP(n)[k]-XP’(n)[k],其中,k=0,1,2,...,N/2,并令整数约束残差为res[x]=x-round[x],其中round[]表示四舍五入取整,即round[x]=int[x+0.5],则所述待处理音频频域信号的频率为:
X F ( n ) [ k ] = k + N K res [ P delta ( n ) [ k ] - k K N ] , 其中,k=0,1,2,...,N/2。
接着,根据所述第一频域信号的第一幅度和/或所述第二频域信号的第二幅度确定所述待处理音频频域信号的幅度。正如上文所述,通常所述第一幅度和第二幅度近似相等,因此在本实施例中,可以任意选择其中一个幅度作为所述待处理音频频域信号的幅度,两者间的细微差异并不影响后续计算步骤的实现;或者也可以根据所述第一幅度和第二幅度的平均值来确定所述待处理音频频域信号的幅度,本领域技术人员可以根据实际需要选择较佳的计算方式来确定所述待处理音频频域信号的幅度。
步骤S4:获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度。
具体地,根据上述步骤S3确定的所述待处理音频信号的幅度和频率进行处理,基于如下三个原则:
1)索引随频率映射原则,即原索引k处的信号频率XF(n)[k]变换到所述目标音频信号在新索引处的重建频率rkXF(n)[k]时,所述原索引k处的信号需要映射到新索引k’=round[rkXF(n)[k]]处,其中rk为变换率控制参数;进一步地,在本实施例中,所述新索引k’的取值范围在[0,N/2],若新索引k’的取值不在上述取值范围内,则放弃该映射。
2)幅度累加原则,即当所述待处理音频信号的多个原索引(例如k1和k2)处的频率映射到同一个所述目标音频频域信号的新索引k’=round[rk1XF(n)[k1]]=round[rk2XF(n)[k2]]处时,则在所述目标音频频域信号在新索引k’处的重建幅度是原索引k1和k2处的幅度之和,即重建幅度XRA(n)[k’]=gk(XA(n)[k1]+XA(n)[k2]),其中gk是增益控制参数。
3)频率随最大幅度原则,即对于多个原索引(例如k1和k2)映射到同一所述目标音频频域信号的新索引k’=round[rk1XF(n)[k1]]=round[rk2XF(n)[k2]],假设令XA(n)[k1]>=XA(n)[k2],即原索引k1对应信号的幅度大于k2对应信号的幅度,则新索引k’处的重建频率XRF(n)[k’]将是原索引k1对应的变换频率,即rk1XF(n)[k1]。因此,根据上述三个原则,可以获取所述目标音频频域信号的重建频率和重建幅度。
步骤S5:将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号。
具体地,本步骤包括:1)根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位,其中所述重建相位的初始值为零;2)根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换,以获得重建频域信号;3)基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。
继续沿用上述步骤S3和步骤S4的例子,具体地,首先确定当前帧的重建相位,令前一帧的相位是XRP(n-1),目标音频时域信号的输出点数为M,那么当前帧的重建相位XRP(n)可以由如下方式得到:
X RP ( n ) [ k ] = res [ X RP ( n - 1 ) [ k ] + X P ( n ) [ k ] M N ] , 其中k=0,1,2,...,N/2。
需要说明的是,在本实施例中,XRP(n)的初始值为零。
然后,根据当前帧的重建相位XRP(n)和重建幅度XRA(n)进行极坐标到直角坐标的转换,以获得重建频域信号,具体如下:
X R ( n ) [ k ] = X RA ( n ) [ k ] e j 2 π X RP ( n ) [ k ] , k = 0,2 , L , N / 2 X RA ( n ) [ N - k ] e - j 2 π X RP ( n ) [ N - k ] , k = N / 2 + 1 , L , N
在本步骤中,之所以需要通过两个公式计算得到XR(n)[k],是因为在上述步骤S2中,k的取值只保留了DFT谱的前N/2+1点,这里则利用共轭对称性得到整个重建频域信号。
接着,基于所述重建频域信号XR(n)[k]作逆加窗离散傅里叶变换得到目标时域信号。具体地,首先对所述重建频域信号XR(n)[k]作逆离散傅里叶变换(IDFT):
对重建N点DFT谱XR做加窗IDFT变换得到目标信号dw(n)
dw(n)=[d(0),d(1),L,d(N-1)]·hsyn
=[d(0)hsyn(0),d(1)hsyn(1),L,d(N-1)hsyn(N-1)]
d ( l ) = 1 N Σ k = 0 N - 1 X R ( n ) [ k ] e j 2 π N lk , l=0,2,L,N /2
其中hsyn是合成窗函数,在本实施例中,一般使用汉明窗(Hamming)或者汉宁窗(Hanning),但在实际应用中不限于此。
步骤S6:对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
具体地,在本步骤中,利用dw(n)进行重叠累加得到输出点数为M的输出音频信号,具体过程如下:
令z(n)=dw(n)+z(n-1),得到输出音频信号xR(b)[l]=z(n)[l],其中l=0,1,2,...,M-1。得到输出后更新缓冲:
z(n)[l]=z(n)[l+M],其中l=0,1,2,...,N-M-1;
z(n)[l]=0,其中l=N-M,N-M+1,...,N-1。
其中z(n)的初始值为零。
在本发明实施例中,对输入音频信号经过间隔采样生成帧间间隔为L,每帧包括N个采样点的待处理音频时域信号,再将待处理音频时域信号通过加窗离散傅里叶变换转换成待处理音频频域信号,并获得频率和幅度。进一步地,通过分别控制变换率控制参数和增益控制参数获取目标音频频域信号的重建频率和重建幅度,再通过逆加窗离散傅里叶变换将目标音频频域信号转换成目标音频时域信号,最后经过重叠累加输出获得输出点数为M的输出音频信号。本技术方案的实施方式复杂度较低、且处理质量高,并且可以独立调节音频信号的时间尺度和频率尺度。
在实际应用中,以选用一段诗歌朗诵和音乐为例,假设诗歌朗诵的采样频率为8kHz,音乐采样频率为44.1kHz,帧长N均为512,输出点数M均为128,增益控制参数gk对于所有的k均为2.6,窗函数均使用汉明窗(Hanning)。具体地,参考图2所示的是本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中诗歌朗诵的原始频谱图,图3至图7是分别对诗歌朗诵进行频率尺度和时间尺度调节后的频谱图;图8所示的本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中音乐的原始频谱示意图,图9是对音乐进行频率尺度和时间尺度调节后的频谱图。需要说明的是,上述图2至图9所示的所有频谱图中,横轴是时间轴,单位是秒(s);纵轴是频率轴,单位是赫兹(Hz)。
具体地,其中图3是将诗歌朗诵的频率增加至2倍,且rk对于所有的k均为2的频谱图;图4是诗歌朗诵的频率降低至0.7倍,即rk对于所有的k均为0.7的频谱图;图5是诗歌朗诵的持续时间拉伸至1.67倍,即L为77,播放速度放慢至0.6倍的频谱图;图6是诗歌朗诵的持续时间压缩至0.53倍,即L为243,播放速度加快至1.9倍的频谱图;图7是诗歌朗诵的持续时间拉伸至1.67倍,频率压缩至0.6倍,即L为243,播放速度加快至0.6倍,rk对于所有的k均为0.6的频谱图;图9是音乐持续时间拉伸至1.67倍,频率压缩至0.6倍,即L为243,播放速度加快至0.6倍,rk对于所有的k均为0.6的频谱图。通过上述这些处理后的音频信号频谱图中可以看到,处理后音频的声音纹理清晰连续,音质保持较好。
本技术方案还提供了一种如图10所示的音频信号时间尺度和频率尺度缩放处理设备的具体实施例的结构示意图。参考图10,所述音频信号时间尺度和频率尺度缩放处理设备1包括:
信号采样模块11,用于对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点。
第一时频转换模块12,用于将所述待处理音频时域信号转换成待处理音频频域信号。
第一处理模块13,用于获取所述待处理音频频域信号的频率和幅度。
第二处理模块14,用于获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度。
第二时频转换模块15,用于将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号.
信号输出模块16,对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
具体地,在本发明实施例中,所述信号采样模块11用于基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟。其中,所述固定采样点小于等于所述帧间间隔的采样点。
所述第一时频转换模块12用于对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。其中,所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
进一步地,所述第一处理模块13还包括:极坐标转换模块131,用于分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;频率计算模块132,用于基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频信号的频率;幅度计算模块133,用于根据所述第一幅度和/或所述第二幅度确定所述待处理音频信号的幅度。
所述第二处理模块14包括重建幅度确定模块141和重建频率确定模块142。其中,所述重建幅度确定模块141,用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则所述目标音频信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的。
所述重建频率确定模块142,用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时,则所述目标音频信号在新索引处的重建频率是根据变换率控制参数和所述待处理音频信号中幅度最大的原索引处对应的频率确定的。
需要说明的是,其中原索引处的信号频率变换到所述目标音频信号在新索引处的重建频率时,所述原索引处的信号需要映射到新索引处,其中所述新索引的取值范围在[0,N/2]。
所述第二时频转换模块15包括:重建相位确定模块151,根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位,其中所述重建相位的初始值为零;直角坐标转换模块152,用于根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换,以获得重建频域信号;逆加窗处理模块153,用于基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。其中,所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
需要说明的是,上述音频信号时间尺度和频率尺度缩放处理设备的实施例中主要描述了为实现本技术方案所需要的处理模块,但并不限制实际应用中音频信号时间尺度和频率尺度缩放处理设备仅包含本实施例所述的处理模块,通常音频信号时间尺度和频率尺度缩放处理设备还可以包括其他所需的处理模块,在此不予赘述。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (18)

1.一种音频信号时间尺度和频率尺度缩放处理方法,其特征在于,包括:
对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点;
将所述待处理音频时域信号转换成待处理音频频域信号;
获取所述待处理音频频域信号的频率和幅度;
获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频频域信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频频域信号的幅度转换为目标音频频域信号的重建幅度;当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时,则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频频域信号在多个原索引处的幅度之和确定的;当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时,则所述目标音频频域信号在新索引处的重建频率是根据所述变换率控制参数和所述待处理音频频域信号中幅度最大的原索引处对应的频率确定的;
将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号;
对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
2.根据权利要求1所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述对输入音频信号进行采样以生成待处理音频时域信号包括:
基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟。
3.根据权利要求2所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述固定采样点小于等于所述帧间间隔的采样点。
4.根据权利要求2所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述将所述待处理音频时域信号转换成待处理音频频域信号包括:
对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。
5.根据权利要求4所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
6.根据权利要求4所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述获取所述待处理音频频域信号的频率和幅度包括:
分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;
基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率;
根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。
7.根据权利要求1所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,原索引处的信号频率变换到所述目标音频频域信号在新索引处的重建频率时,所述原索引处的信号需要映射到新索引处,其中所述新索引的取值范围在[0,N/2]。
8.根据权利要求1所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号包括:
根据所述目标音频频域信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位,其中所述重建相位的初始值为零;
根据所述目标音频频域信号的当前帧的重建相位和重建幅度进行直角坐标转换,以获得重建频域信号;
基于所述重建频域信号作逆加窗离散傅里叶变换得到目标音频时域信号。
9.根据权利要求8所述的音频信号时间尺度和频率尺度缩放处理方法,其特征在于,所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
10.一种音频信号时间尺度和频率尺度缩放处理设备,其特征在于,包括:
信号采样模块,用于对输入音频信号进行采样以生成待处理音频时域信号,其中所述待处理音频时域信号的帧间间隔为L,每帧包括N个采样点;
第一时频转换模块,用于将所述待处理音频时域信号转换成待处理音频频域信号;
第一处理模块,用于获取所述待处理音频频域信号的频率和幅度;
第二处理模块,用于获取目标音频频域信号的重建频率和重建幅度;其中,按照变换率控制参数将所述待处理音频频域信号的频率转换为目标音频频域信号的重建频率;按照增益控制参数将所述待处理音频频域信号的幅度转换为目标音频频域信号的重建幅度;
其中,所述第二处理模块包括:
重建幅度确定模块,用于当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时,则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频频域信号在多个原索引处的幅度之和确定的;
重建频率确定模块,用于当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时,则所述目标音频频域信号在新索引处的重建频率是根据变换率控制参数和所述待处理音频频域信号中幅度最大的原索引处对应的频率确定的;
第二时频转换模块,用于将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号;
信号输出模块,对所述目标音频时域信号进行重叠累加,得到输出点数为M的输出音频信号,其中,M不大于N/2。
11.根据权利要求10所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述信号采样模块用于:
基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量,其中所述第二向量和所述第一向量之间具有固定采样点的延迟。
12.根据权利要求11所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述固定采样点小于等于所述帧间间隔的采样点。
13.根据权利要求11所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述第一时频转换模块用于:
对所述第一向量和第二向量分别作加窗离散傅里叶变换,得到相对应的第一频域信号和第二频域信号。
14.根据权利要求13所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
15.根据权利要求13所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述第一处理模块包括:
极坐标转换模块,用于分别对所述第一频域信号和所述第二频域信号进行极坐标转换,以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度;
频率计算模块,用于基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率;
幅度计算模块,用于根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。
16.根据权利要求10所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,原索引处的信号频率变换到所述目标音频频域信号在新索引处的重建频率时,所述原索引处的信号需要映射到新索引处,其中所述新索引的取值范围在[0,N/2]。
17.根据权利要求10所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述第二时频转换模块包括:
重建相位确定模块,根据所述目标音频频域信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位,其中所述重建相位的初始值为零;
直角坐标转换模块,用于根据所述目标音频频域信号的当前帧的重建相位和重建幅度进行直角坐标转换,以获得重建频域信号;
逆加窗处理模块,用于基于所述重建频域信号作逆加窗离散傅里叶变换得到目标音频时域信号。
18.根据权利要求17所述的音频信号时间尺度和频率尺度缩放处理设备,其特征在于,所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。
CN2011103421742A 2011-11-02 2011-11-02 音频信号时间尺度和频率尺度缩放处理方法及设备 Active CN102419981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103421742A CN102419981B (zh) 2011-11-02 2011-11-02 音频信号时间尺度和频率尺度缩放处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103421742A CN102419981B (zh) 2011-11-02 2011-11-02 音频信号时间尺度和频率尺度缩放处理方法及设备

Publications (2)

Publication Number Publication Date
CN102419981A CN102419981A (zh) 2012-04-18
CN102419981B true CN102419981B (zh) 2013-04-03

Family

ID=45944362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103421742A Active CN102419981B (zh) 2011-11-02 2011-11-02 音频信号时间尺度和频率尺度缩放处理方法及设备

Country Status (1)

Country Link
CN (1) CN102419981B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
CN104053120B (zh) * 2014-06-13 2016-03-02 福建星网视易信息系统有限公司 一种立体声音频的处理方法和装置
CN106469559B (zh) * 2015-08-19 2020-10-16 中兴通讯股份有限公司 语音数据的调整方法及装置
CN108074588B (zh) * 2016-11-15 2020-12-01 北京唱吧科技股份有限公司 一种音高计算方法及装置
CN106971740B (zh) * 2017-03-28 2019-11-15 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107331403B (zh) 2017-06-27 2020-11-06 深圳创维-Rgb电子有限公司 一种基于算法的音频优化方法、智能终端及存储装置
CN107749302A (zh) * 2017-10-27 2018-03-02 广州酷狗计算机科技有限公司 音频处理方法、装置、存储介质及终端
CN110858487A (zh) * 2018-08-23 2020-03-03 北京嘉楠捷思信息技术有限公司 一种音频信号缩放处理方法及装置
CN111210837B (zh) * 2018-11-02 2022-12-06 北京微播视界科技有限公司 音频处理方法和装置
CN109448752B (zh) 2018-11-28 2021-01-01 广州市百果园信息技术有限公司 音频数据的处理方法、装置、设备及存储介质
CN110491366B (zh) * 2019-07-02 2021-11-09 招联消费金融有限公司 音频平滑处理方法、装置、计算机设备和存储介质
CN111884673A (zh) * 2020-08-05 2020-11-03 成都国卫通信技术有限公司 一种基于逆窗补偿处理的频域滤波干扰抑制方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060269057A1 (en) * 2005-05-26 2006-11-30 Groove Mobile, Inc. Systems and methods for high resolution signal analysis and chaotic data compression
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
CN101354889B (zh) * 2008-09-18 2012-01-11 北京中星微电子有限公司 一种语音变调方法及装置
CN102117613B (zh) * 2009-12-31 2012-12-12 展讯通信(上海)有限公司 数字音频变速处理方法及其设备

Also Published As

Publication number Publication date
CN102419981A (zh) 2012-04-18

Similar Documents

Publication Publication Date Title
CN102419981B (zh) 音频信号时间尺度和频率尺度缩放处理方法及设备
KR101309671B1 (ko) 결합된 트랜스포저 필터 뱅크에서의 오버샘플링
CN102664017B (zh) 一种3d音频质量客观评价方法
JP3528258B2 (ja) 符号化音声信号の復号化方法及び装置
CN101241150B (zh) 信号处理装置、方法以及信号生成方法
CN103258539B (zh) 一种语音信号特性的变换方法和装置
CN101527141B (zh) 基于径向基神经网络的耳语音转换为正常语音的方法
CN1440549A (zh) 数字音频信号的连续可变时间标度改变技术
CN104134444B (zh) 一种基于mmse的歌曲去伴奏方法和装置
CN102903357A (zh) 一种提取歌曲副歌的方法、装置和系统
CN102741921A (zh) 改进的基于子带块的谐波换位
Mittal et al. Study of characteristics of aperiodicity in Noh voices
CN102402977A (zh) 从立体声音乐中提取伴奏、人声的方法及其装置
CN103714822B (zh) 基于silk编解码器的子带编解码方法及装置
CN105321526B (zh) 音频处理方法和电子设备
Erro et al. HNM-based MFCC+ F0 extractor applied to statistical speech synthesis
CN106255027A (zh) 一种非线性音频系统的音质可听化评估方法及系统
CN106997765A (zh) 人声音色的定量表征方法
CN103258543A (zh) 一种人工语音带宽扩展的方法
CN105575414A (zh) 歌词文件的生成方法及装置
Kumar et al. Bessel features for estimating number of speakers from multispeaker speech signals
Bonada et al. Generation of growl-type voice qualities by spectral morphing
WO2013020341A1 (zh) 一种音效变音方法及装置
Tan et al. A time-scale modification algorithm based on the subband time-domain technique for broad-band signal applications
Roberts et al. An objective measure of quality for time-scale modification of audio

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170210

Address after: Room 32, building 3205F, No. 707, Zhang Yang Road, free trade zone,, China (Shanghai)

Patentee after: Xin Xin Finance Leasing Co.,Ltd.

Address before: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170707

Address after: 100033 room 2062, Wenstin Executive Apartment, 9 Financial Street, Beijing, Xicheng District

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: Room 32, building 707, Zhang Yang Road, China (Shanghai) free trade zone, 3205F

Patentee before: Xin Xin Finance Leasing Co.,Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120418

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: 2018990000163

Denomination of invention: Zooming method and device for time scale and frequency scale of audio signal

Granted publication date: 20130403

License type: Exclusive License

Record date: 20180626

TR01 Transfer of patent right

Effective date of registration: 20200306

Address after: 201203 Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 100033 room 2062, Wenstin administrative apartments, 9 Financial Street B, Xicheng District, Beijing.

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200601

Address after: 361012 unit 05, 8 / F, building D, Xiamen international shipping center, No.97 Xiangyu Road, Xiamen area, China (Fujian) free trade zone, Xiamen City, Fujian Province

Patentee after: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

Address before: 201203 Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
EC01 Cancellation of recordation of patent licensing contract

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Beijing) Co.,Ltd.

Contract record no.: 2018990000163

Date of cancellation: 20210301

EC01 Cancellation of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120418

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

Contract record no.: X2021110000010

Denomination of invention: Audio signal time scale and frequency scale scaling processing method and equipment

Granted publication date: 20130403

License type: Exclusive License

Record date: 20210317

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20230719

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 361012 unit 05, 8 / F, building D, Xiamen international shipping center, 97 Xiangyu Road, Xiamen area, China (Fujian) pilot Free Trade Zone, Xiamen City, Fujian Province

Patentee before: Xinxin Finance Leasing (Xiamen) Co.,Ltd.

TR01 Transfer of patent right