CN101354889B

CN101354889B - 一种语音变调方法及装置

Info

Publication number: CN101354889B
Application number: CN2008102225080A
Authority: CN
Inventors: 徐磊; 张晨
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2008-09-18
Filing date: 2008-09-18
Publication date: 2012-01-11
Anticipated expiration: 2028-09-18
Also published as: CN101354889A

Abstract

本发明公开了一种语音变调方法及装置，用以实现语音的自适应变调。本发明提供的一种语音变调方法包括：对接收到的语音进行基音检测，确定所述语音的基音周期；确定所述语音的基音周期所属的基音周期范围，并根据预先设置的基音周期范围与变调参数的对应关系，获取所述语音的基音周期所属的基音周期范围所对应的变调参数；采用所述变调参数对所述语音进行变调处理。本发明用于实现语音的自适应变调，避免现有技术需要用户通过手工设置升调或者降调的幅度来固定地改变音调，从而方便用户操作，并且提高变调准确性。

Description

一种语音变调方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音变调方法及装置。

背景技术

目前，语音通信涉及的范围越来越广，包括电话，手机，网络视频聊天，语音邮件等。出于军事安全、保护隐私或者是个人娱乐等方面的需要，人们在语音通信中除了希望通过改变自己的声音特征掩盖自己的身份外，同时也有在本地通话端改变对方通话端声音特征的需要。

现有的语音变调特效，一般应用在语音信号的发送端，通过指定升调或者降调的范围，来固定地改变音调，起到男声变女声，或者女声变男声的作用。一般情况下，女声的音调要高于男声，因此，当用户是位女性时，该用户通过在语音信号的发送端设定降调的幅度，即可实现将自己的音调调低，从而达到将自己的声音变成男声后发送给接收端的目的。同理，当用户是位男性时，该用户通过在语音信号的发送端设定升调的幅度，即可实现将自己的音调调高，从而达到将自己的声音变成女声后发送给接收端的目的。

综上所述，现有语音变调技术是通过用户手工设定升调或者降调的幅度，来固定地改变音调，即现有技术无法实现语音的自适应变调。

发明内容

本发明实施例提供了一种语音变调方法及装置，用以实现语音的自适应变调。

本发明实施例提供的一种语音变调方法包括：

对接收到的语音进行基音检测，确定所述语音的基音周期；

确定所述语音的基音周期所属的基音周期范围，并根据预先设置的基音周期范围与变调参数的对应关系，获取所述语音的基音周期所属的基音周期范围所对应的变调参数；

采用所述变调参数对所述语音进行变调处理。

本发明实施例提供的另一种语音变调方法包括：

对接收到的语音进行基音检测，确定所述语音的基音频率；

确定所述语音的基音频率所属的基音频率范围，并根据预先设置的基音频率范围与变调参数的对应关系，获取所述语音的基音频率所属的基音频率范围所对应的变调参数；

采用所述变调参数对所述语音进行变调处理。

本发明实施例提供的一种语音变调装置包括：

设置单元，用于预先设置并存储基音周期范围与变调参数的对应关系；

基音周期单元，用于对接收到的语音进行基音检测，确定所述语音的基音周期；

变调参数单元，用于确定所述语音的基音周期所属的基音周期范围，并根据所述对应关系，获取所述语音的基音周期所属的基音周期范围所对应的变调参数；

变调单元，用于采用所述变调参数单元获取的变调参数对所述语音进行变调处理。

本发明实施例提供的另一种语音变调装置包括：

设置单元，用于预先设置并存储基音频率范围与变调参数的对应关系；

基音频率单元，用于对接收到的语音进行基音检测，确定所述语音的基音频率；

变调参数单元，用于确定所述语音的基音频率所属的基音频率范围，并根据所述对应关系，获取所述语音的基音频率所属的基音频率范围所对应的变调参数；

本发明实施例，通过对接收到的语音进行基音检测，确定所述语音的基音周期；通过确定所述语音的基音周期所属的基音周期范围，并根据预先设置的基音周期范围与变调参数的对应关系，获取所述语音的基音周期所属的基音周期范围所对应的变调参数；采用该变调参数对所述语音进行变调处理，从而实现了对语音的自适应变调，避免了现有技术需要用户通过手工设置升调或者降调的幅度来固定地改变音调，从而方便了用户操作，并且提高了变调准确性。

附图说明

图1为本发明实施例提供的一种自适应的语音变调方法的总体流程示意图；

图2为本发明实施例提供的中心削波函数示意图；

图3为本发明实施例提供的AMDF算法中函数γ_w(l)的波形示意图；

图4为本发明实施例提供的变调算法原理示意图；

图5为本发明实施例提供的音色调整原理示意图；

图6为本发明实施例提供的一种语音变调装置的具体结构示意图。

具体实施方式

本发明实施例提供了一种自适应的语音变调方法及装置，用以实现自动将接收到的语音进行变调，将男声变成女声，或者将女声变成男生，或者无论男女，都变成男声或者都变成女声，从而方便了用户操作，并且提高了变调准确性。

下面结合附图对本发明实施例进行详细说明。

参见图1，本发明实施例提供了一种自适应的语音变调方法总体包括步骤：

S101、对接收到的语音进行基音检测，确定语音的基音周期。

S102、确定语音的基音周期所属的基音周期范围，并根据预先设置的基音周期范围与变调参数的对应关系，获取语音的基音周期所属的基音周期范围所对应的变调参数。

S103、采用语音的基音周期所属的基音周期范围所对应的变调参数对该语音进行变调处理。

下面关于步骤S101给出具体说明。

基音周期是语音信号处理中最重要的参数之一，在语音编解码器、语音识别等方面具有关键性的应用。基音周期是根据加窗的短时语音帧估计得到的，基音周期的估计方案有很多，本发明实施例基于短时平均幅度差函数(AMDF，Average magnitude difference function)算法，提出了一种改进的基音周期检测方案，用以在较短的时间内，更加准确地检测出语音的基音周期。

基音周期是一种典型的语音短时特征，因此首先需要对语音进行加窗分帧处理，研究表明窗长至少应大于两个基音周期，才可能得到较好的基音周期检测效果，而语音中最大的基音周期约为20毫秒(ms)，因此，本发明实施例为了提高检测基音周期的准确性，将窗长选为64ms，即每帧语音信号的长度是64ms。并且，较佳地，本发明实施例中将每帧语音信号分为四个子帧。

为了对基音周期进行准确判断，需要选择元音信号帧作为目标检测帧；并且，为了保持音调的一致性，在说话人刚开口说话时就需要对基音周期进行检测。为了同时满足这两个条件，本发明实施例通过实验证明：较佳地，当某一帧语音信号的短时平均幅度为噪声短时平均幅度的5倍时，选取该帧语音信号为目标检测帧的语音信号，检测目标检测帧的语音信号的基音周期能够得到较准确的基音周期。

首先，噪声短时平均幅度(T)的具体计算方法包括如下三个步骤：

a、将接收到的第一个子帧的短时平均幅度作为T的参考值(或者称为初始值)。其中，在窗长选为64ms的情况下，每个子帧具有128个样本点，采样频率为8千赫兹(即8KHz)。

b、分别计算第一个子帧后的连续3个子帧(即第二个子帧、第三个子帧和第四个子帧)的短时平均幅度，并且，如果这3个子帧中出现某个子帧的短时平均幅度过大，例如大于两倍的第一个子帧的短时平均幅度，则舍去不用，将其余的短时平均幅度取算数平均，将得到的平均值作为噪声短时平均幅度T。

c、判断步骤b中计算得到的噪声短时平均幅度T是否小于预先设定的噪声短时平均幅度阈值，如果是，则利用该阈值更新噪声短时平均幅度T的值，否则，保持噪声短时平均幅度T的值不变。

较佳地，所述的噪声短时平均幅度阈值可以设为300。

在确定了噪声短时平均幅度以后，本发明实施例将满足以下两个条件的语音帧作为检测基音周期的目标检测帧：

条件一：该帧语音信号的短时平均幅度是噪声短时平均幅度的5倍。

一般情况下目标检测帧语音信号的短时平均幅度大约为3分贝(db)。

条件二：该帧信号进行中心削波后，至少有三个子帧中保留有信号，也就是说，至少要有一半以上个数的子帧中留有信号，而不会大部分子帧的信号都被削掉。

中心削波的目的是为了进一步提高准确性，因为，本发明实施例要选择元音信号帧作为目标检测帧，而元音信号的强度是比较高的，所以通过中心削波来选取元音信号帧作为目标检测帧。

为了排除共振峰对检测基音周期造成的干扰，本发明实施例进一步采用了一个带宽为60赫兹(Hz)至800Hz的带通滤波器对语音信号进行滤波。带通滤波器的低端截频置为60Hz是为了抑制50Hz的电源干扰，带通滤波器的高端截频置为800Hz是为了消除大部分共振峰的影响，同时又可以保留基音周期为最高值(400Hz)时的一、二次谐波。

为了减小声道特性的影响，进一步提高基音检测的准确率，本发明实施例进一步对目标检测帧的语音信号进行中心削波处理。若输入的某一目标检测帧语音信号用x(n)表示，中心削波后输出的语音信号用y(n)表示，则有y(n)＝C[x(n)]，中心削波函数C[x]的波形示意图如图2所示，较佳地，削波电平C_L的值取为该目标检测帧语音的最大采样值的68％。

AMDF算法是一种提取周期的算法，本发明实施例利用该算法计算经过中心削波处理后的目标检测帧语音的基音周期。设s_w(n)是某一目标检测帧语音信号，它的非零区间为n＝0～(N-1)，其中N表示窗长，即一个目标检测帧的长度。利用AMDF算法对s_w(n)进行计算的公式为：

γ_{w} (l) = Σ_{n = 0}^{N - l - 1} | s_{w} (n + l) - s_{w} (n) |

如图3所示，为函数γ_w(l)的波形示意图，由于s_w(n)是周期性的，所以γ_w(l)也具有周期性，因此可以用γ_w(l)来确定基音周期，最小的γ_w(l)所对应的l即为基音周期。

一般男性的基音频率在100Hz至200Hz的范围内，女性的基音频率大致在150Hz至300Hz的范围内，在8K采样频率下，男性基音周期大致包括50至95个样本点；而女性基音周期大致包括15至50个样本点。

对于女性，基音周期和两倍基音周期处，γ_w(l)都为局部最小值，受声道特性和其它不确定因素的影响，两倍基音周期处对应的γ_w(l)有可能小于基音周期处的γ_w(l)，而女性基音周期的两倍恰好落入男性基音周期的范围，所以，极易造成误判。为了进一步提高基音周期检测的准确度，避免误检，在利用AMDF算法确定目标检测帧语音的基音周期时，本发明实施例引入“清晰度”作为判决条件。具体如下：

预先根据女性基音周期范围设置短时平均幅度差函数的第一变量值范围[15，50]，以及根据男性基音周期范围设置短时平均幅度差函数的第二变量值范围[51，90]。

分别选取第一变量值范围[15，50]内短时平均幅度差函数值γ_w(l)最小的第一变量值l_s和第二变量值范围[51，90]内短时平均幅度差函数值γ_w(l)最小的第二变量值l_g。下面对l_s和l_g进行“清晰度”检查。

将小于和大于所述第一变量值l_s的4个变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去第一变量值l_s所对应的短时平均幅度差函数值γ_w(l_s)，将得到的差值Cl_s作为所述第一变量值l_s的清晰度，具体公式如下：

Cl_s＝(γ_w(l_s-4)+γ_w(l_s-3)+γ_w(l_s-2)+γ_w(l_s-1)+γ_w(l_s+1)+γ_w(l_s+2)+γ_w(l_s+3)+γ_w(l_s+4))/8-γ_w(l_s)

同理，将小于和大于所述第二变量值l_g的4个变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去第二变量值l_g所对应的短时平均幅度差函数值γ_w(l_g)，将得到的差值Cl_g作为所述第二变量值的清晰度，具体公式如下：

Cl_g＝(γ_w(l_g-4)+γ_w(l_g-3)+γ_w(l_g-2)+γ_w(l_g-1)+γ_w(l_g+1)+γ_w(l_g+2)+γ_w(l_g+3)+γ_w(l_g+4))/8-γ_w(l_g)

通过比较第一变量值l_s所对应的短时平均幅度差函数值γ_w(l_s)与第二变量值l_g所对应的短时平均幅度差函数值γ_w(l_g)的大小，以及所述第一变量值l_s的清晰度Cl_s和所述第二变量值l_g的清晰度Cl_g，确定目标检测帧语音的基音周期。

较佳地，该方法具体包括：

当γ_w(l_s)＜γ_w(l_g)时，确定目标检测帧语音的基音周期为第一变量值l_s；

当γ_w(l_g)＜γ_w(l_s)，且Cl_g＞Cl_s时，确定目标检测帧语音的基音周期为第二变量值l_g；

当γ_w(l_g)＜γ_w(l_s)，且Cl_s＞Cl_g时，如果l_g≈2l_s(即误差在两个样本点以内)，且γ_w(l_g)与γ_w(l_s)的值差别不大，即γ_w(l_g)与γ_w(l_s)的差值小于一定阈值时，确定目标检测帧语音的基音周期为第一变量值l_s；否则，确定目标检测帧语音的基音周期为第二变量值l_g。

对若干连续目标检测帧的语音信号进行基音检测所得到的多个基音周期构成一个基音周期轨迹。无论采用什么算法求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合，实际上大部分段落是吻合的，而在一些局部段落中有一个或几个基音周期的估计值偏离了真实的基音周期轨迹，将这些偏离了真实的基音周期轨的基音周期检测值称为基音周期轨迹的“野点”。为了去除野点，使得检测得到的基音周期更加准确，本发明实施例采用连续四个目标检测帧的语音信号进行计算所得到的基音周期进行中值平滑处理，即去掉这四个目标检测帧的语音信号中基音周期最大的点和基音周期最小的点，将剩下的两个基音周期的值取算术平均，将得到的平均值作为这四个目标检测帧的语音信号的基音周期。

下面关于步骤S102给出具体说明。

本发明实施例可以预先设置基音周期范围与变调参数的对应关系，而基音周期的倒数即是基音频率，所以同理也可以预先设置基音频率范围与变调参数的对应关系。下面以预先设置基音频率范围与变调参数的对应关系为例进行说明。

由于一般男性的基音频率在100Hz至200Hz的范围内，女性的基音频率大致在150Hz至300Hz的范围内，所以男性的基音频率和女性的基音频率有一定的重叠，即150Hz至200Hz的频率范围为重叠的频率范围，所以，对于该频率范围内的基音频率本发明实施例给出了特殊处理。

本发明实施例预先将基音频率划分为四个范围：100Hz至150Hz、150Hz至175Hz、175Hz至200Hz、200Hz至300Hz。其中，100Hz至150Hz为男性特性语音的基音频率范围，150Hz至175Hz为弱男性特性语音的基音频率范围，175Hz至200Hz为弱女性特性语音的基音频率范围，200Hz至300Hz为女性特性语音的基音频率范围。

针对上述四种基音频率范围，本发明实施例分别设置不同的变调参数，在确定了目标检测帧语音的基音周期后，对该基音周期取倒数，得到相应的基音频率，确定该基音频率所属的基音频率范围，从而确定需要对该目标检测帧的语音进行变调处理时所采用的变调参数。

下面关于步骤S103给出具体说明。

如上所述，本发明实施例对于男性特性语音，变调时可以将其变为女性特性语音；反之对于女性特性语音，变调时可以将其变为男性特性语音。对于弱男性特性语音和弱女性特性语音，由于性别辨识上可能存在错误，所以本发明实施例采用减小变调程度的策略，将弱男性特性语音变调为弱女性特性语音，而将弱女性特性语音变调为弱男性特性语音，从而尽量减小误判带来的影响。

要使得变调后的声音更加自然，就需要考虑音色的特点。一般来说，音调反映的是语音谱结构的微观特点，而音色反映的是语音谱包络的宏观特点。因此，要取得较好的变声效果，就必须综合考虑变调和改变音色两个方面。

因此，本发明实施例在对语音进行变调处理的基础上，进一步增加了音色调整和频谱均衡。变调采用变速和变采样率的方法实现，音色调整采用调整谱包络实现，另外再加上频谱均衡，使得改变后的语音更加自然。

变调(即Pitch Scaling)的主要的目的是在不改变声音的总长度下，改变声音的音调，将音调升高或者降低。一般来说男声的音调较低，女生的音调较高。将男声的音调调高可以起到男声变女声的作用；反之，将女声的音调降低可以起到女声变男声的作用，具体是采用变速加变采样率的方法实现变调的。

如图4所示，x(n)为输入的原声信号，v(n)为输出的变调后的语音信号，对语音信号的变调处理是逐帧进行的，即x(n)和v(n)都表示一段长度为N的序列。

音色也是语音中重要的特点之一，一般来说，年龄大的人音色较低沉，年纪轻的人音色较高亢。音色由谱包络的形状决定，更确切地讲是由共振峰的位置决定的。共振峰的位置对于特定人来说是较为稳定的参数，一般由声道、口腔的尺寸等决定，不易改变。因而也就形成了每个人的特有音色。

音色的调整采用调整谱包络来实现，其原理如图5所示，具体算法包括如下步骤：

1.将变调后的结果v(n)做分析加窗处理，窗函数选择正弦窗。

首先，将v(n)与上一帧输入v_old(n)合并成一个长度为2N的大帧：

v^{'} (n) = [\begin{matrix} v_old (n) \\ v (n) \end{matrix}]

用正弦窗加权得到z(n)：

z(n)＝v′(n)sin(πn/2N)，n＝0～2N-1

2.将w(n)变换到频域：

Z(k)＝FFT[z(n)]

3.从W(k)中提取出谱包络，提取谱包络的方法很多，可以采取加窗平滑法或中值平滑法。

加窗平滑法相当于低通滤波，采用一个窗长为2L+1的窗函数，对窗内的谱线平均，得到平滑后的输出：

U (k) = Σ_{i = - L}^{L} | Z (k + i) | W (i + L)

较佳地，所述的窗函数为矩形窗，L取2。

中值平滑法同样采用一个窗长为2L+1的窗，对W(K)进行中值滤波：

U(k)＝Mid{|Z(k+i)|}，i＝-L～L

4.调整谱包络，得到：

U′(k)＝U(βk)

其中，

所谓调整谱包络，就是将谱包络扩展或者压缩，从而改变共振峰的位置。

5.谱包络整形：

通过调整前后的谱包络系数，可以得到最终的谱包络加权系数：

Uo (k) = \frac{U^{'} (k)}{U (k)}

然后，用这个谱包络加权系数，对信号进行谱包络整形：

Z′(k)＝Z(k)Uo(k)

6.将Z’(k)变换到时域：

z′(n)＝IFFT[Z′(K)]

7.将z’(n)做综合加窗处理，窗函数选择正弦窗，如下所示：

z_w(n)＝z′(n)sin(πn/2N)，n＝0～2N-1

将加窗后的前一半结果与上一帧保存的结果叠加作为最终的输出信号：

y(n)＝z_w(n)+z_w′(n)，n＝0～N-1

将加窗后的后一半结果保存。

不同性别、年龄的人的谱包络的集间存在一定差异，集内又比较相似。因此可以利用这个特点，对频谱进行进一步均衡，使得音色更加的自然。

由于频谱均衡也需要对信号进行正反傅立叶变换(FFT)的操作，因此可以与音色调整共用FFT变换，直接对图4中的Z’(k)作均衡处理。均衡的方法可以是：将Z’(k)的2N条谱线分成M个区间(band)(M可以取10)，将落在某个band内的谱线用设置好的加权系数进行加权，加权系数可以根据实验获得。

下面给出本发明实施例提供的装置。

参见图6，本发明实施例提供的一种语音变调装置包括：

设置单元11，用于预先设置并存储基音周期范围与变调参数的对应关系。

基音周期单元12，用于对接收到的语音进行基音检测，确定语音的基音周期。

变调参数单元13，用于确定语音的基音周期所属的基音周期范围，并根据所述设置单元11存储的对应关系，获取该语音的基音周期所属的基音周期范围所对应的变调参数；

变调单元14，用于变调参数单元13确定的变调参数对接收到的语音进行变调处理。

较佳地，所述基音周期单元12包括：

目标检测帧单元121，用于确定噪声短时平均幅度，并且当判定某帧语音的短时平均幅度大于该噪声短时平均幅度一定倍数时，将该帧作为目标检测帧。

较佳地，所述目标检测帧单元121，当判定某帧语音的短时平均幅度大于噪声短时平均幅度一定倍数时，进一步对该帧语音进行中心削波，当该帧语音经过中心削波后至少有半数以上的子帧中保留有信号时，将该帧作为目标检测帧。

带通滤波单元122，用于对目标检测帧语音进行带通滤波处理，消除电源以及共振峰的干扰。

中心削波单元123，用于对经过所述带通滤波处理后的目标检测帧语音进行中心削波处理。

确定单元124，用于采用短时平均幅度差函数确定目标检测帧语音的基音周期。

后处理单元125，用于采用连续的一定个数的目标检测帧语音的基音周期进行中值平滑处理，将中值平滑处理后得到的基音周期作为该连续的一定个数的目标检测帧语音的基音周期。

较佳地，所述确定单元124包括：

存储单元1241，用于存储预先根据女性基音周期范围设置的短时平均幅度差函数的第一变量值范围，以及根据男性基音周期范围设置的短时平均幅度差函数的第二变量值范围。

选取单元1242，用于分别选取第一变量值范围内短时平均幅度差函数值最小的第一变量值和第二变量值范围内短时平均幅度差函数值最小的第二变量值。

清晰度单元1243，用于将小于和大于所述第一变量值的一定个数的变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去第一变量值所对应的短时平均幅度差函数值，将得到的差值作为第一变量值的清晰度；并且，将小于和大于所述第二变量值的一定个数的变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去第二变量值所对应的短时平均幅度差函数值，将得到的差值作为第二变量值的清晰度。

比较单元1244，用于通过比较第一变量值所对应的短时平均幅度差函数值与第二变量值所对应的短时平均幅度差函数值，以及第一变量值的清晰度和第二变量值的清晰度，确定目标检测帧语音的基音周期。

同理，本发明实施例提供的另一种语音变调装置包括：

设置单元，用于预先设置并存储基音频率范围与变调参数的对应关系。

基音频率单元，用于对接收到的语音进行基音检测，确定语音的基音频率。

变调参数单元，用于确定所述语音的基音频率所属的基音频率范围，并根据预先设置的基音频率范围与变调参数的对应关系，获取该语音的基音频率所属的基音频率范围所对应的变调参数。

变调单元，用于采用语音的基音频率所属的基音频率范围所对应的变调参数对语音进行变调处理。

综上所述，基音周期决定了语音音调，基音周期越小，音调越高。因此在变调时，可以根据检测到的基音周期，决定变调算法的参数。如果是要将女声变为男声，检测到的基音周期越小，则选择的变调参数使降调程度越大；反之，将男声变成女声，检测到的基音周期越大，则选择的变调参数使升调程度越大。这样，使变调后的声音效果更加的自然，性别的特征也更明显。

需要说明的是，本发明实施例中给出的各种参数的具体值都是较佳的值，而不是唯一的值，各种参数的值可以根据实际需要进行设置。本发明实施例提供的技术方案可以应用在语音的发送端，也可以应用在语音的接收端。在语音的接收端用户可以预先设定想要接听到的语音的性别，接收端就可以自动将接收到的语音信号转化成具有该性别特征的语音。例如，事先在接收端设定对方通话人为男性，则通话时无论对方是男是女，听者都会听到一位男性在讲话。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音变调方法，其特征在于，所述方法包括：

预先根据女性基音周期范围设置短时平均幅度差函数的第一变量值范围，以及根据男性基音周期范围设置短时平均幅度差函数的第二变量值范围；

对接收到的语音进行基音检测，确定所述语音的基音周期，其中，所述确定所述语音的基音周期包括以下步骤：

确定噪声短时平均幅度；

当一帧语音的短时平均幅度大于所述噪声短时平均幅度一定倍数时，将该帧作为目标检测帧；

采用短时平均幅度差函数确定目标检测帧语音的基音周期；其中，

分别选取第一变量值范围内短时平均幅度差函数值最小的第一变量值和第二变量值范围内短时平均幅度差函数值最小的第二变量值；

将小于和大于所述第一变量值的一定个数的变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去所述第一变量值所对应的短时平均幅度差函数值，将得到的差值作为所述第一变量值的清晰度；并且，

将小于和大于所述第二变量值的一定个数的变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去所述第二变量值所对应的短时平均幅度差函数值，将得到的差值作为所述第二变量值的清晰度；

通过比较所述第一变量值所对应的短时平均幅度差函数值与所述第二变量值所对应的短时平均幅度差函数值，以及所述第一变量值的清晰度和所述第二变量值的清晰度，确定所述目标检测帧语音的基音周期；

采用所述获取的变调参数对所述语音进行变调处理。

2.根据权利要求1所述的方法，其特征在于，所述当一帧语音的短时平均幅度大于所述噪声短时平均幅度一定倍数时，进一步对该帧语音进行中心削波，当该帧语音经过中心削波后至少有半数以上的子帧中保留有信号时，将该帧作为目标检测帧。

3.根据权利要求1或2所述的方法，其特征在于，确定所述噪声短时平均幅度的步骤包括：

计算接收到的第一帧信号中的各个子帧信号的平均幅度，并丢弃其中大于第一个子帧信号的平均幅度预先设定的倍数的平均幅度，将剩余的平均幅度取平均，并将得到的平均值与预先设置的阈值进行比较，将较大的值作为噪声短时平均幅度的值。

4.根据权利要求1所述的方法，其特征在于，确定了所述目标检测帧之后，采用短时平均幅度差函数确定目标检测帧语音的基音周期之前还包括：

对所述目标检测帧语音进行带通滤波处理，消除电源以及共振峰的干扰。

5.根据权利要求4所述的方法，其特征在于，对所述目标检测帧语音进行带通滤波处理之后，采用短时平均幅度差函数确定目标检测帧语音的基音周期之前还包括：

对所述目标检测帧语音进行中心削波处理。

6.根据权利要求1所述的方法，其特征在于，通过比较所述第一变量值所对应的短时平均幅度差函数值与所述第二变量值所对应的短时平均幅度差函数值，以及所述第一变量值的清晰度和所述第二变量值的清晰度，确定所述目标检测帧语音的基音周期的步骤包括：

当所述第一变量值所对应的短时平均幅度差函数值小于所述第二变量值所对应的短时平均幅度差函数值时，确定所述目标检测帧语音的基音周期为所述第一变量值；

当所述第一变量值所对应的短时平均幅度差函数值大于所述第二变量值所对应的短时平均幅度差函数值，且所述第一变量值的清晰度小于所述第二变量值的清晰度时，确定所述目标检测帧语音的基音周期为所述第二变量值；

当所述第一变量值所对应的短时平均幅度差函数值大于所述第二变量值所对应的短时平均幅度差函数值，且所述第一变量值的清晰度大于所述第二变量值的清晰度时，如果所述第二变量值约等于两倍的所述第一变量值，且所述第一变量值所对应的短时平均幅度差函数值与所述第二变量值所对应的短时平均幅度差函数值的差值小于一定值时，确定所述目标检测帧语音的基音周期为所述第一变量值；否则，确定所述目标检测帧语音的基音周期为所述第二变量值。

7.根据权利要求1或6所述的方法，其特征在于，确定了所述目标检测帧语音的基音周期之后还包括：

采用连续的一定个数的目标检测帧语音的基音周期进行中值平滑处理，将中值平滑处理后得到的基音周期作为该连续的一定个数的目标检测帧语音的基音周期。

8.一种语音变调方法，其特征在于，所述方法包括：

基音周期的倒数即是基音频率，预先设置基音频率范围与变调参数的对应关系；

对接收到的语音进行基音检测，确定所述语音的基音频率，其中，所述基音频率对应有基音周期；

所述基音周期通过如下步骤获得：

确定噪声短时平均幅度；

基于所述目标检测帧语音的基音周期，及基音周期与基音频率间的倒数关系，确定所述目标检测帧语音的基音周期对应的基音频率；

采用所述获取的变调参数对所述语音进行变调处理。

9.一种语音变调装置，其特征在于，该装置包括：

基音周期单元，用于对接收到的语音进行基音检测，确定所述语音的基音周期，其中，所述基音周期单元包括：

目标检测帧单元，用于确定噪声短时平均幅度，并且当判定一帧语音的短时平均幅度大于所述噪声短时平均幅度一定倍数时，将该帧作为目标检测帧；

确定单元，用于采用短时平均幅度差函数确定目标检测帧语音的基音周期；其中，所述确定单元具体包括：

存储单元，用于存储预先根据女性基音周期范围设置的短时平均幅度差函数的第一变量值范围，以及根据男性基音周期范围设置的短时平均幅度差函数的第二变量值范围；

选取单元，用于分别选取第一变量值范围内短时平均幅度差函数值最小的第一变量值和第二变量值范围内短时平均幅度差函数值最小的第二变量值；

清晰度单元，用于将小于和大于所述第一变量值的一定个数的变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去所述第一变量值所对应的短时平均幅度差函数值，将得到的差值作为所述第一变量值的清晰度；并且，将小于和大于所述第二变量值的一定个数的变量值所对应的短时平均幅度差函数值取平均，并将得到的平均值减去所述第二变量值所对应的短时平均幅度差函数值，将得到的差值作为所述第二变量值的清晰度；

比较单元，用于通过比较所述第一变量值所对应的短时平均幅度差函数值与所述第二变量值所对应的短时平均幅度差函数值，以及所述第一变量值的清晰度和所述第二变量值的清晰度，确定所述目标检测帧语音的基音周期；

所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述目标检测帧单元，当判定一帧语音的短时平均幅度大于所述噪声短时平均幅度一定倍数时，进一步对该帧语音进行中心削波，当该帧语音经过中心削波后至少有半数以上的子帧中保留有信号时，将该帧作为目标检测帧。

11.根据权利要求9或10所述的装置，其特征在于，所述基音周期单元还包括：

带通滤波单元，用于对所述目标检测帧语音进行带通滤波处理，消除电源以及共振峰的干扰。

12.根据权利要求11所述的装置，其特征在于，所述基音周期单元还包括：

中心削波单元，用于对经过所述带通滤波处理后的目标检测帧语音进行中心削波处理。

13.根据权利要求9所述的装置，其特征在于，所述基音周期单元还包括：

后处理单元，用于采用连续的一定个数的目标检测帧语音的基音周期进行中值平滑处理，将中值平滑处理后得到的基音周期作为该连续的一定个数的目标检测帧语音的基音周期。