CN102419981B

CN102419981B - 音频信号时间尺度和频率尺度缩放处理方法及设备

Info

Publication number: CN102419981B
Application number: CN2011103421742A
Authority: CN
Inventors: 吴晟; 李昙; 林福辉; 张本好; 徐晶明
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2011-11-02
Filing date: 2011-11-02
Publication date: 2013-04-03
Anticipated expiration: 2031-11-02
Also published as: CN102419981A

Abstract

一种音频信号时间尺度和频率尺度缩放处理方法及设备，其中所述音频信号时间尺度和频率尺度缩放处理方法包括对输入音频信号进行采样以生成待处理音频时域信号，其中待处理音频时域信号的帧间间隔为L，每帧包括N个采样点；将待处理音频时域信号转换成待处理音频频域信号；获取待处理音频频域信号的频率和幅度；获取目标音频频域信号的重建频率和重建幅度；将具备重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号；对目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。本技术方案的实施方式复杂度较低、且处理质量高，并且可以独立调节音频信号的时间尺度和频率尺度。

Description

音频信号时间尺度和频率尺度缩放处理方法及设备

技术领域

本发明涉及音频信号处理领域，特别涉及一种音频信号时间尺度和频率尺度缩放处理方法及设备。

背景技术

在各种多媒体应用中，调整音频信号的时间尺度或频率高低具有广泛的需求。以调整重放速度为例，比如降低音频信号的重放速度，即拉长信号的时间尺度，可以有助于有听力或理解力障碍的人群提高听音的可懂度，也有助于外语初学者的学习，提高音频信号的重放速度，即压缩信号的时间尺度可帮助听者节省从录音中获取信息的时间；对音乐重放音速和音调的调整，还可以改变音乐的节奏和音色，获得独特的艺术效果；对于视频中的伴音，音频重放的音速调整，可以使得视频在加快或放慢回放速度的同时，使观众可以听到同步的，没有发生畸变的伴音。

直接对音频进行播放速度调整，即改变播放的采样率而不做其它任何处理，音频的音调会随着播放速度同步变化，造成音调和音色的变化。在降低音速时，声音会变低沉；在提高音速时，声音会变得尖锐，语音则表现为如加快语速的童声。为了能够让音频播放速度和音调互相独立调整，需要对音频信号进行处理。

传统的数字音频变速算法中，重叠相加(overlap add)技术可以实现音频时间尺度的独立变化，保留原有音调音色，但如果不进行波形的相似程度检测来确定重叠相加的时延，这种方法会带来帧连接处的相位不连续，从而引入一些节拍效应。而波形检测方法具有较强局限性，首先它的计算量较高，其次它只能处理具有明显稳定基音周期的信号。传统的时频变换算法可以处理包括语音和音乐的通用音频(general audio)，它对时域上的原始数字音频进行重采样以变换采样率，然后将改变了采样率的数字音频转换到频域，获得数字音频的频谱，随后对频谱进行频谱搬移(frequency shift)，将处理后的频谱变换回时域，这个算法一般用短时傅里叶变换(short time Fouriertransform)实现。为能获得较高的处理音质，这类算法的短时傅里叶变换需要一次处理较长的音频，其计算量和存储量较大，并且对于帧间相位不连续也没有解决方法，处理音质受到很大限制。

更多关于数字信号音频变速处理的技术方案可以参考公开号为CN101202048A公开的“语音变速的方法”的专利申请文件，然而仍旧没有解决上述问题。

发明内容

本发明解决的问题是提供一种复杂度较低，处理质量高的音频信号时间尺度和频率尺度缩放处理方法及设备。

为解决上述问题，本发明实施例提供一种音频信号时间尺度和频率尺度缩放处理方法，包括：对输入音频信号进行采样以生成待处理音频时域信号，其中所述待处理音频时域信号的帧间间隔为L，每帧包括N个采样点；将所述待处理音频时域信号转换成待处理音频频域信号；获取所述待处理音频频域信号的频率和幅度；获取目标音频频域信号的重建频率和重建幅度；其中，按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率；按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度；将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号；对所述目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。

可选地，所述对输入音频信号进行采样以生成待处理音频时域信号包括：基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量，其中所述第二向量和所述第一向量之间具有固定采样点的延迟。

可选地，所述固定采样点小于等于所述帧间间隔的采样点。

可选地，所述将所述待处理音频时域信号转换成待处理音频频域信号包括：对所述第一向量和第二向量分别作加窗离散傅里叶变换，得到相对应的第一频域信号和第二频域信号。

可选地，所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

可选地，所述获取所述待处理音频频域信号的频率和幅度包括：

分别对所述第一频域信号和所述第二频域信号进行极坐标转换，以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度；

基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率；

根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。

可选地，所述获取目标音频频域信号的重建频率和重建幅度包括：

当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时，则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的；

当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时，则所述目标音频频域信号在新索引处的重建频率是根据所述变换率控制参数和所述待处理音频信号中幅度最大的原索引处对应的频率确定的。

可选地，原索引处的信号频率变换到所述目标音频频域信号在新索引处的重建频率时，所述原索引处的信号需要映射到新索引处，其中所述新索引的取值范围在[0，N/2]。

可选地，所述将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号包括：

根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位，其中所述重建相位的初始值为零；

根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换，以获得重建频域信号；

基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。

可选地，所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

本发明实施例还提供了一种音频信号时间尺度和频率尺度缩放处理设备，包括：

信号采样模块，用于对输入音频信号进行采样以生成待处理音频时域信号，其中所述待处理音频时域信号的帧间间隔为L，每帧包括N个采样点；第一时频转换模块，用于将所述待处理音频时域信号转换成待处理音频频域信号；第一处理模块，用于获取所述待处理音频频域信号的频率和幅度；第二处理模块，用于获取目标音频频域信号的重建频率和重建幅度；其中，按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率；按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度；第二时频转换模块，用于将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号；信号输出模块，对所述目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。

可选地，所述信号采样模块用于：基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量，其中所述第二向量和所述第一向量之间具有固定采样点的延迟。

可选地，所述固定采样点小于等于所述帧间间隔的采样点。

可选地，所述第一时频转换模块包括：对所述第一向量和第二向量分别作加窗离散傅里叶变换，得到相对应的第一频域信号和第二频域信号。

可选地，所述第一处理模块包括：

极坐标转换模块，用于分别对所述第一频域信号和所述第二频域信号进行极坐标转换，以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度；

频率计算模块，用于基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频信号的频率；

幅度计算模块，用于根据所述第一幅度和/或所述第二幅度确定所述待处理音频信号的幅度。

可选地，所述第二处理模块包括：

重建幅度确定模块，用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时，则在所述目标音频信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的；

重建频率确定模块，用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时，则在所述目标音频信号在新索引处的重建频率是根据所述变换率控制参数和所述待处理音频信号中幅度最大的原索引处对应的频率确定的。

可选地，原索引处的信号频率变换到所述目标音频信号在新索引处的重建频率时，所述原索引处的信号需要映射到新索引处，其中所述新索引的取值范围在[0，N/2]。

可选地，所述第二时频转换模块包括：

重建相位确定模块，根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位，其中所述重建相位的初始值为零；

直角坐标转换模块，用于根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换，以获得重建频域信号；

逆加窗处理模块，用于基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。

与现有技术相比，本发明技术方案具有以下有益效果：

本发明对输入音频信号经过间隔采样生成帧间间隔为L，每帧包括N个采样点的待处理音频时域信号，再将待处理音频时域信号通过加窗离散傅里叶变换转换成待处理音频频域信号，并获得频率和幅度。进一步地，通过分别控制变换率控制参数和增益控制参数获取目标音频频域信号的重建频率和重建幅度，再通过逆加窗离散傅里叶变换将目标音频频域信号转换成目标音频时域信号，最后经过重叠累加输出获得输出点数为M的输出音频信号。本技术方案的实施方式复杂度较低、且处理质量高，并且可以独立调节音频信号的时间尺度和频率尺度。

附图说明

图1是本发明的一种音频信号时间尺度和频率尺度缩放处理方法的具体实施方式的流程示意图；

图2是本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中诗歌朗诵的原始频谱图；

图3至图7是基于图2所示的具体实施例中分别对诗歌朗诵进行频率尺度和时间尺度调节后的频谱图；

图8是本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中音乐的原始频谱示意图；

图9是基于图8所示的具体实施例中对音乐进行频率尺度和时间尺度调节后的频谱图；

图10是本发明的一种音频信号时间尺度和频率尺度缩放处理设备的具体实施例的结构示意图。

具体实施方式

针对现有技术的间题，发明人经过研究，提供了一种音频信号时间尺度和频率尺度缩放处理方法以及相应的音频信号时间尺度和频率尺度缩放处理设备。本技术方案的实施方式复杂度较低、且处理质量高，并且可以独立调节音频信号的时间尺度和频率尺度。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

如图1所示的是本发明的一种音频信号时间尺度和频率尺度缩放处理方法的具体实施方式的流程示意图。参考图1，所述音频信号时间尺度和频率尺度缩放处理方法包括：

步骤S1：对输入音频信号进行采样以生成待处理音频时域信号，其中所述待处理音频时域信号的帧间间隔为L，每帧包括N个采样点。

具体地，所述输入音频信号是数字信号，其中所述帧间间隔是指对所述输入音频信号进行采样的间隔，即对所述输入音频信号采样的相邻两帧的帧间间隔。进一步地，在本实施例中，本步骤包括：基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量，其中所述第二向量和所述第一向量之间具有固定采样点的延迟；其中所述固定采样点小于等于所述帧间间隔的采样点。

例如，设输入信号为x(t)，将输入信号按所述帧间间隔L组成帧长为N(即N个采样点)的向量x(n)和x’(n)，其中：

向量x(n)＝[x(nL+1)，x(nL+2)，...，x(nL+N)]；

向量x’(n)＝[x(nL+1-K)，x(nL+2-K)，...，x(nL+N-K)]，其中n是帧序号，K是固定采样点，K的取值较小，通常要求小于等于L，根据向量x(n)和x’(n)的表达式可以看出，当K＝L时，x’(n)＝x(n-1)。

步骤S2：将所述待处理音频时域信号转换成待处理音频频域信号。

具体地，在本实施例中，所述将所述待处理音频时域信号转换成待处理音频频域信号包括：对所述第一向量和第二向量分别作加窗离散傅里叶变换，得到相对应的第一频域信号和第二频域信号。

沿用上述步骤S1的例子，分别对所述向量x(n)和x’(n)作加窗离散傅里叶变换。首先，作加窗的过程为：

x_w(n)＝x(n)·h_ana＝[x(nL+1)h_ana(0)，x(nL+2)h_ana(1)，...，x(nL+N)h_ana(N-1)]；

x’_w(n)＝x’(n)·h_ana＝[x(nL+1-K)h_ana(0)，x(nL+2-K)h_ana(1)，...，x(nL+N-K)h_ana(N-1)]；

其中h_ana是所述加窗离散傅里叶变换所使用的窗函数，所述窗函数也是N点的分析窗函数，在本实施例中，一般使用汉明窗(Hamming)或者汉宁窗(Hanning)，但实际应用中不限于此。

然后，对已经过加窗变换的向量X_w(n)和X’_w(n)作离散傅里叶变换(DFT)，变换过程为：

X {(n)}_{[k]} = Σ_{l = 0}^{N - 1} x_{w} {(n)}_{[l]} e^{- j \frac{2 π}{N} lk} = [X_{r} {(n)}_{[k]} + j X_{i} {(n)}_{[k]}],

X^{'} {(n)}_{[k]} = Σ_{l = 0}^{N - 1} {x_{w}}^{'} {(n)}_{[l]} e^{- j \frac{2 π}{N} lk} = [{X_{r}}^{'} {(n)}_{[k]} + j {X_{i}}^{'} {(n)}_{[k]}],

其中k＝0，1，2，...，N/2。

由于所述输入音频信号是实数信号，N点的离散傅里叶变换(DFT)得到的DFT谱只需要保留前N/2+1点，因为实数DFT谱具有共轭对称性。下标[k]表示向量的第k元素。进一步地，当K＝L时，由于X’(n)＝X(n-1)，因此只需要计算得出X(n)_[k]的结果即可，省去了一次DFT计算。

步骤S3：获取所述待处理音频频域信号的频率和幅度。

具体地，本步骤包括：1)分别对所述第一频域信号和所述第二频域信号进行极坐标转换，以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度；2)基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率；3)根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。

继续沿用上述步骤S2的例子，具体地，首先分别对X(n)_[k]和X’(n)_[k]进行直角坐标到极坐标的转换，转换过程如下：

[X_{r} {(n)}_{[k]} + j X_{i} {(n)}_{[k]}] = X_{A} {(n)}_{[k]} e^{j 2 π X_{P} {(n)}_{[k]}},

{[X}_{r}^{'} {(n)}_{[k]} + j {X_{i}}^{'} {(n)}_{[k]}] = {X_{A}}^{'} {(n)}_{[k]} e^{j 2 π X_{P^{'}} {(n)}_{[k]}},

其中k＝0，1，2，...，N/2。

其中，上述X_A(n)_[k]、X_A’(n)_[k]、X_P(n)_[k]和X_P’(n)_[k]可以通过如下方式获得：

X_{A} {(n)}_{[k]} = \sqrt{X_{r} {(n)}_{[k]}^{2} + X_{i} {(n)}_{[k]}^{2}},

X_{A} {(n)}_{[k]} = \sqrt{X_{r} {(n)}_{[k]}^{2} + X_{i} {(n)}_{[k]}^{2}},

X_{P} {(n)}_{[k]} = \frac{\tan^{- 1} (X_{i} {(n)}_{[k]} / X_{r} {(n)}_{[k]})}{2 π},

{X_{P}}^{'} {(n)}_{[k]} = \frac{\tan^{- 1} ({X_{i}}^{'} {(n)}_{[k]} / {X_{r}}^{'} {(n)}_{[k]})}{2 π},

其中k＝0，1，2，...，N/2。

需要说明的是，其中X_A(n)_[k]、X_A’(n)_[k]是幅度部分，即X_A(n)_[k]是所述第一频域信号的第一幅度，X_A’(n)_[k]是所述第二频域信号的第二幅度。通常所述第一幅度和第二幅度近似相等，在本实施例中，可以任意选择其中一个幅度作为所述待处理音频频域信号的幅度，两者间的细微差异并不影响后续计算步骤的实现。

其中，X_P(n)_[k]、X_P’(n)_[k]是相位部分，即X_P(n)_[k]是所述第一频域信号的第一相位，X_P’(n)_[k]是所述第二频域信号的第二相位。

然后，利用所述第一频域信号的第一相位X_P(n)_[k]与所述第二频域信号的第二相位X_P’(n)_[k]之间的相位差计算所述待处理音频频域信号的频率。

具体过程如下：

计算相位差P_delta(n)_[k]＝X_P(n)_[k]-X_P’(n)_[k]，其中，k＝0，1，2，...，N/2，并令整数约束残差为res[x]＝x-round[x]，其中round[]表示四舍五入取整，即round[x]＝int[x+0.5]，则所述待处理音频频域信号的频率为：

X_{F} {(n)}_{[k]} = k + \frac{N}{K} res [P_{delta} {(n)}_{[k]} - k \frac{K}{N}],

其中，k＝0，1，2，...，N/2。

接着，根据所述第一频域信号的第一幅度和/或所述第二频域信号的第二幅度确定所述待处理音频频域信号的幅度。正如上文所述，通常所述第一幅度和第二幅度近似相等，因此在本实施例中，可以任意选择其中一个幅度作为所述待处理音频频域信号的幅度，两者间的细微差异并不影响后续计算步骤的实现；或者也可以根据所述第一幅度和第二幅度的平均值来确定所述待处理音频频域信号的幅度，本领域技术人员可以根据实际需要选择较佳的计算方式来确定所述待处理音频频域信号的幅度。

步骤S4：获取目标音频频域信号的重建频率和重建幅度；其中，按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率；按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度。

具体地，根据上述步骤S3确定的所述待处理音频信号的幅度和频率进行处理，基于如下三个原则：

1)索引随频率映射原则，即原索引k处的信号频率X_F(n)_[k]变换到所述目标音频信号在新索引处的重建频率r_kX_F(n)_[k]时，所述原索引k处的信号需要映射到新索引k’＝round[r_kX_F(n)_[k]]处，其中r_k为变换率控制参数；进一步地，在本实施例中，所述新索引k’的取值范围在[0，N/2]，若新索引k’的取值不在上述取值范围内，则放弃该映射。

2)幅度累加原则，即当所述待处理音频信号的多个原索引(例如k₁和k₂)处的频率映射到同一个所述目标音频频域信号的新索引k’＝round[r_k1X_F(n)_[k1]]＝round[r_k2X_F(n)_[k2]]处时，则在所述目标音频频域信号在新索引k’处的重建幅度是原索引k₁和k₂处的幅度之和，即重建幅度X_RA(n)_[k’]＝g_k(X_A(n)_[k1]+X_A(n)_[k2])，其中g_k是增益控制参数。

3)频率随最大幅度原则，即对于多个原索引(例如k₁和k₂)映射到同一所述目标音频频域信号的新索引k’＝round[r_k1X_F(n)_[k1]]＝round[r_k2X_F(n)_[k2]]，假设令X_A(n)[k₁]＞＝X_A(n)[k₂]，即原索引k₁对应信号的幅度大于k₂对应信号的幅度，则新索引k’处的重建频率X_RF(n)_[k’]将是原索引k₁对应的变换频率，即r_k1X_F(n)_[k1]。因此，根据上述三个原则，可以获取所述目标音频频域信号的重建频率和重建幅度。

步骤S5：将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号。

具体地，本步骤包括：1)根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位，其中所述重建相位的初始值为零；2)根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换，以获得重建频域信号；3)基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。

继续沿用上述步骤S3和步骤S4的例子，具体地，首先确定当前帧的重建相位，令前一帧的相位是X_RP(n-1)，目标音频时域信号的输出点数为M，那么当前帧的重建相位X_RP(n)可以由如下方式得到：

X_{RP} {(n)}_{[k]} = res [X_{RP} {(n - 1)}_{[k]} + X_{P} {(n)}_{[k]} \frac{M}{N}],

其中k＝0，1，2，...，N/2。

需要说明的是，在本实施例中，X_RP(n)的初始值为零。

然后，根据当前帧的重建相位X_RP(n)和重建幅度X_RA(n)进行极坐标到直角坐标的转换，以获得重建频域信号，具体如下：

X_{R} {(n)}_{[k]} = \{\begin{matrix} X_{RA} {(n)}_{[k]} e^{j 2 π X_{RP} {(n)}_{[k]}}, & k = 0,2, L, N / 2 \\ X_{RA} {(n)}_{[N - k]} e^{- j 2 π X_{RP} {(n)}_{[N - k]}}, & k = N / 2 + 1, L, N \end{matrix}

在本步骤中，之所以需要通过两个公式计算得到X_R(n)_[k]，是因为在上述步骤S2中，k的取值只保留了DFT谱的前N/2+1点，这里则利用共轭对称性得到整个重建频域信号。

接着，基于所述重建频域信号X_R(n)_[k]作逆加窗离散傅里叶变换得到目标时域信号。具体地，首先对所述重建频域信号X_R(n)_[k]作逆离散傅里叶变换(IDFT)：

对重建N点DFT谱X_R做加窗IDFT变换得到目标信号d_w(n)

d_w(n)＝[d(0)，d(1)，L，d(N-1)]·h_syn

＝[d(0)h_syn(0)，d(1)h_syn(1)，L，d(N-1)h_syn(N-1)]

d (l) = \frac{1}{N} Σ_{k = 0}^{N - 1} X_{R} {(n)}_{[k]} e^{j \frac{2 π}{N} lk},

l＝0，2，L，N /2

其中h_syn是合成窗函数，在本实施例中，一般使用汉明窗(Hamming)或者汉宁窗(Hanning)，但在实际应用中不限于此。

步骤S6：对所述目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。

具体地，在本步骤中，利用d_w(n)进行重叠累加得到输出点数为M的输出音频信号，具体过程如下：

令z(n)＝d_w(n)+z(n-1)，得到输出音频信号x_R(b)_[l]＝z(n)_[l]，其中l＝0，1，2，...，M-1。得到输出后更新缓冲：

z(n)_[l]＝z(n)_[l+M]，其中l＝0，1，2，...，N-M-1；

z(n)_[l]＝0，其中l＝N-M，N-M+1，...，N-1。

其中z(n)的初始值为零。

在本发明实施例中，对输入音频信号经过间隔采样生成帧间间隔为L，每帧包括N个采样点的待处理音频时域信号，再将待处理音频时域信号通过加窗离散傅里叶变换转换成待处理音频频域信号，并获得频率和幅度。进一步地，通过分别控制变换率控制参数和增益控制参数获取目标音频频域信号的重建频率和重建幅度，再通过逆加窗离散傅里叶变换将目标音频频域信号转换成目标音频时域信号，最后经过重叠累加输出获得输出点数为M的输出音频信号。本技术方案的实施方式复杂度较低、且处理质量高，并且可以独立调节音频信号的时间尺度和频率尺度。

在实际应用中，以选用一段诗歌朗诵和音乐为例，假设诗歌朗诵的采样频率为8kHz，音乐采样频率为44.1kHz，帧长N均为512，输出点数M均为128，增益控制参数g_k对于所有的k均为2.6，窗函数均使用汉明窗(Hanning)。具体地，参考图2所示的是本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中诗歌朗诵的原始频谱图，图3至图7是分别对诗歌朗诵进行频率尺度和时间尺度调节后的频谱图；图8所示的本发明的一种音频信号时间尺度和频率尺度缩放处理的具体实施例中音乐的原始频谱示意图，图9是对音乐进行频率尺度和时间尺度调节后的频谱图。需要说明的是，上述图2至图9所示的所有频谱图中，横轴是时间轴，单位是秒(s)；纵轴是频率轴，单位是赫兹(Hz)。

具体地，其中图3是将诗歌朗诵的频率增加至2倍，且r_k对于所有的k均为2的频谱图；图4是诗歌朗诵的频率降低至0.7倍，即r_k对于所有的k均为0.7的频谱图；图5是诗歌朗诵的持续时间拉伸至1.67倍，即L为77，播放速度放慢至0.6倍的频谱图；图6是诗歌朗诵的持续时间压缩至0.53倍，即L为243，播放速度加快至1.9倍的频谱图；图7是诗歌朗诵的持续时间拉伸至1.67倍，频率压缩至0.6倍，即L为243，播放速度加快至0.6倍，r_k对于所有的k均为0.6的频谱图；图9是音乐持续时间拉伸至1.67倍，频率压缩至0.6倍，即L为243，播放速度加快至0.6倍，r_k对于所有的k均为0.6的频谱图。通过上述这些处理后的音频信号频谱图中可以看到，处理后音频的声音纹理清晰连续，音质保持较好。

本技术方案还提供了一种如图10所示的音频信号时间尺度和频率尺度缩放处理设备的具体实施例的结构示意图。参考图10，所述音频信号时间尺度和频率尺度缩放处理设备1包括：

信号采样模块11，用于对输入音频信号进行采样以生成待处理音频时域信号，其中所述待处理音频时域信号的帧间间隔为L，每帧包括N个采样点。

第一时频转换模块12，用于将所述待处理音频时域信号转换成待处理音频频域信号。

第一处理模块13，用于获取所述待处理音频频域信号的频率和幅度。

第二处理模块14，用于获取目标音频频域信号的重建频率和重建幅度；其中，按照变换率控制参数将所述待处理音频信号的频率转换为目标音频频域信号的重建频率；按照增益控制参数将所述待处理音频信号的幅度转换为目标音频频域信号的重建幅度。

第二时频转换模块15，用于将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号.

信号输出模块16，对所述目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。

具体地，在本发明实施例中，所述信号采样模块11用于基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量，其中所述第二向量和所述第一向量之间具有固定采样点的延迟。其中，所述固定采样点小于等于所述帧间间隔的采样点。

所述第一时频转换模块12用于对所述第一向量和第二向量分别作加窗离散傅里叶变换，得到相对应的第一频域信号和第二频域信号。其中，所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

进一步地，所述第一处理模块13还包括：极坐标转换模块131，用于分别对所述第一频域信号和所述第二频域信号进行极坐标转换，以得到所述第一频域信号的第一相位和第一幅度以及所述第二频域信号的第二相位和第二幅度；频率计算模块132，用于基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频信号的频率；幅度计算模块133，用于根据所述第一幅度和/或所述第二幅度确定所述待处理音频信号的幅度。

所述第二处理模块14包括重建幅度确定模块141和重建频率确定模块142。其中，所述重建幅度确定模块141，用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时，则所述目标音频信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频信号在多个原索引处的幅度之和确定的。

所述重建频率确定模块142，用于当所述待处理音频信号的多个原索引处的频率映射到同一个所述目标音频信号的新索引处时，则所述目标音频信号在新索引处的重建频率是根据变换率控制参数和所述待处理音频信号中幅度最大的原索引处对应的频率确定的。

需要说明的是，其中原索引处的信号频率变换到所述目标音频信号在新索引处的重建频率时，所述原索引处的信号需要映射到新索引处，其中所述新索引的取值范围在[0，N/2]。

所述第二时频转换模块15包括：重建相位确定模块151，根据所述目标音频信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位，其中所述重建相位的初始值为零；直角坐标转换模块152，用于根据所述目标音频信号的当前帧的重建相位和重建幅度进行直角坐标转换，以获得重建频域信号；逆加窗处理模块153，用于基于所述重建频域信号作逆加窗离散傅里叶变换得到目标时域信号。其中，所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

需要说明的是，上述音频信号时间尺度和频率尺度缩放处理设备的实施例中主要描述了为实现本技术方案所需要的处理模块，但并不限制实际应用中音频信号时间尺度和频率尺度缩放处理设备仅包含本实施例所述的处理模块，通常音频信号时间尺度和频率尺度缩放处理设备还可以包括其他所需的处理模块，在此不予赘述。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种音频信号时间尺度和频率尺度缩放处理方法，其特征在于，包括：

对输入音频信号进行采样以生成待处理音频时域信号，其中所述待处理音频时域信号的帧间间隔为L，每帧包括N个采样点；

将所述待处理音频时域信号转换成待处理音频频域信号；

获取所述待处理音频频域信号的频率和幅度；

获取目标音频频域信号的重建频率和重建幅度；其中，按照变换率控制参数将所述待处理音频频域信号的频率转换为目标音频频域信号的重建频率；按照增益控制参数将所述待处理音频频域信号的幅度转换为目标音频频域信号的重建幅度；当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时，则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频频域信号在多个原索引处的幅度之和确定的；当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时，则所述目标音频频域信号在新索引处的重建频率是根据所述变换率控制参数和所述待处理音频频域信号中幅度最大的原索引处对应的频率确定的；

将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号；

对所述目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。

2.根据权利要求1所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述对输入音频信号进行采样以生成待处理音频时域信号包括：

基于所述输入音频信号组成相同帧长和相同采样点数目的第一向量和第二向量，其中所述第二向量和所述第一向量之间具有固定采样点的延迟。

3.根据权利要求2所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述固定采样点小于等于所述帧间间隔的采样点。

4.根据权利要求2所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述将所述待处理音频时域信号转换成待处理音频频域信号包括：

对所述第一向量和第二向量分别作加窗离散傅里叶变换，得到相对应的第一频域信号和第二频域信号。

5.根据权利要求4所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

6.根据权利要求4所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述获取所述待处理音频频域信号的频率和幅度包括：

7.根据权利要求1所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，原索引处的信号频率变换到所述目标音频频域信号在新索引处的重建频率时，所述原索引处的信号需要映射到新索引处，其中所述新索引的取值范围在[0，N/2]。

8.根据权利要求1所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号包括：

根据所述目标音频频域信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位，其中所述重建相位的初始值为零；

根据所述目标音频频域信号的当前帧的重建相位和重建幅度进行直角坐标转换，以获得重建频域信号；

基于所述重建频域信号作逆加窗离散傅里叶变换得到目标音频时域信号。

9.根据权利要求8所述的音频信号时间尺度和频率尺度缩放处理方法，其特征在于，所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

10.一种音频信号时间尺度和频率尺度缩放处理设备，其特征在于，包括：

信号采样模块，用于对输入音频信号进行采样以生成待处理音频时域信号，其中所述待处理音频时域信号的帧间间隔为L，每帧包括N个采样点；

第一时频转换模块，用于将所述待处理音频时域信号转换成待处理音频频域信号；

第一处理模块，用于获取所述待处理音频频域信号的频率和幅度；

第二处理模块，用于获取目标音频频域信号的重建频率和重建幅度；其中，按照变换率控制参数将所述待处理音频频域信号的频率转换为目标音频频域信号的重建频率；按照增益控制参数将所述待处理音频频域信号的幅度转换为目标音频频域信号的重建幅度；

其中，所述第二处理模块包括：

重建幅度确定模块，用于当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时，则所述目标音频频域信号在新索引处的重建幅度是根据所述增益控制参数和所述待处理音频频域信号在多个原索引处的幅度之和确定的；

重建频率确定模块，用于当所述待处理音频频域信号的多个原索引处的频率映射到同一个所述目标音频频域信号的新索引处时，则所述目标音频频域信号在新索引处的重建频率是根据变换率控制参数和所述待处理音频频域信号中幅度最大的原索引处对应的频率确定的；

第二时频转换模块，用于将具备所述重建频率和重建幅度的目标音频频域信号转换成目标音频时域信号；

信号输出模块，对所述目标音频时域信号进行重叠累加，得到输出点数为M的输出音频信号，其中，M不大于N/2。

11.根据权利要求10所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述信号采样模块用于：

12.根据权利要求11所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述固定采样点小于等于所述帧间间隔的采样点。

13.根据权利要求11所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述第一时频转换模块用于：

14.根据权利要求13所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。

15.根据权利要求13所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述第一处理模块包括：

频率计算模块，用于基于所述第一相位与所述第二相位之间的相位差计算所述待处理音频频域信号的频率；

幅度计算模块，用于根据所述第一幅度和/或所述第二幅度确定所述待处理音频频域信号的幅度。

16.根据权利要求10所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，原索引处的信号频率变换到所述目标音频频域信号在新索引处的重建频率时，所述原索引处的信号需要映射到新索引处，其中所述新索引的取值范围在[0，N/2]。

17.根据权利要求10所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述第二时频转换模块包括：

重建相位确定模块，根据所述目标音频频域信号在新索引处的重建频率以及前一帧的重建相位确定当前帧的重建相位，其中所述重建相位的初始值为零；

直角坐标转换模块，用于根据所述目标音频频域信号的当前帧的重建相位和重建幅度进行直角坐标转换，以获得重建频域信号；

逆加窗处理模块，用于基于所述重建频域信号作逆加窗离散傅里叶变换得到目标音频时域信号。

18.根据权利要求17所述的音频信号时间尺度和频率尺度缩放处理设备，其特征在于，所述逆加窗离散傅里叶变换所使用的窗函数是汉明窗或者汉宁窗。