CN103514883A

CN103514883A - 一种自适应实现男女声切换方法

Info

Publication number: CN103514883A
Application number: CN201310444837.0A
Authority: CN
Inventors: 郭礼华; 邓迪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2014-01-15
Anticipated expiration: 2033-09-26
Also published as: CN103514883B

Abstract

本发明公开了一种自适应实现男女声切换方法，包括以下步骤：训练时，将语音数据库的语音数据进行分段提取音频数据库的声音数据，再提取其动静态梅尔倒谱参数特征，然后将其送入深度限制波尔机网络进行语音性别学习。用户使用时，采集语音信号，按照与语音数据库的语音数据相同的步骤处理后送入深度限制波尔机网络进行语音性别判别；根据性别判别结果设定变音目标，再利用时间动态规划SOLAFS算法根据变音目标对音频信号进行时长规整和重采样，最终达到自动实现男女声切换的效果。本发明能实时辨别性别并自适应设定变声目标，再进行实时变声处理，无需每次使用时手动设定参数，语音的动态判断准确。

Description

一种自适应实现男女声切换方法

技术领域

本发明涉及机器学习和音频处理领域，特别涉及一种自适应实现男女声切换方法男女声切换方法。

背景技术

男女声互相变换是通过改变语音信号的音调和音色，传统方法是利用语音信号处理方法来实现，其是语音信号处理领域中一个的重要理论研究方向，并且男女语音切换可以应用在保密通信，娱乐通信等多个领域，具有很好的实际应用价值。目前也有不少方法设计了男女声切换方法，如目前的专利CN03137014.4提供一种变声方法，该方法通过手动设定变音目标，通过改变信号的长度来达到变音的效果。专利CN200410062337.1利用频谱搬移，将语音信号先转换成频域型号，然后在频域上，将信号频谱整体搬移到高频域范围，最后再将其变换回时域，最终完成变声目的。但是现有的变声方法需要手动设定变音目标（如设定男变女，或者女变男），设定变音目标后，不能自动变更变音目标，也不能实时监测说话人性别并进行变音。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种自适应实现男女声切换方法男女声切换方法，能够自动实时辨识性别，然后根据识别的性别设定变音目标，并完成最终的男女语音变音。

本发明的目的通过以下技术方案实现：

一种自适应实现男女声切换方法，包括以下步骤：

（1）训练过程：

（1-1）收集语音数据库；所述语音数据库中的语音数据包括男声和女声；

（1-2）对语音数据库中的语音数据进行预处理；

（1-3）对预处理后的语音数据进行特征提取：先将预处理后的语音数据分成30ms的语音帧；对每语音帧提取12维的梅尔倒谱参数x_i，其中i=1..12；将这12维的倒谱参数x_i进行一阶差分的处理得到12维的动态差分参数y_i，即y_i=x_i-x_i-1；将动态差分参数y_i和梅尔倒谱参数x_i级联组成当前语音帧的动静态梅尔倒谱参数的语音特征；然后随机选取90帧语音数据的动静态梅尔倒谱参数的语音特征，组成当前语音数据的动静态梅尔倒谱参数的语音特征，即得到90*24维的动静态梅尔倒谱参数的语音特征矢量；

（1-4）采用基于深度限制波尔机网络进行语音性别训练学习：

基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、第三隐层和输出层；基于深度限制波尔机网络形成四层网络，其中，第一层网络由输入层和第一隐层组成，输入层作为第一层网络的输入层，第一隐层作为第一层网络的输出层；第二层网络由第一隐层和第二隐层组成，第一隐层作为第二层网络的输入层，第二隐层作为第二层网络的输出层；第三层络由第二隐层和第三隐层组成，第二隐层作为第三层网络的输入层，第三隐层作为第三层网络的输出层；第四层络由第三隐层和输出层组成，第三隐层作为第四层网络的输入层，输出层作为第四层网络的输出层；每层网络的能量定义为E(v,h)=-bv-ch-hWv，其中b是该层网络的输入层v的偏差，c是该层网络的输出层h的偏差，W是该层网络的输入层v和该层网络的输出层h的权重值；

将步骤（1-3）提取得到的语音特征矢量输入基于深度限制波尔机网络，作为输入层，采用吉比特采样方法根据输入层生成第一层网络的输入层的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权重值；将当前层网络的输出层作为下一层网络的输入层，分开训练多层网络，将多层网络叠加实现深度限制波尔机网络的训练；得到各层网络的输入层的偏差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值；

（2）识别过程：

（2-1）采集用户的语音信号；

（2-2）对采集到的语音信号进行预处理；

（2-3）对预处理后的语音信号进行特征提取：先将预处理后的语音信号分成30ms的语音段；在每语音帧中提取12维的梅尔倒谱参数x_i，其中i=1..12；将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi，即y_i=x_i-x_i-1；将动态差分参数y_i和梅尔倒谱参数x_i级联组成当前语音帧的动静态梅尔倒谱参数的语音特征；然后随机选取90帧语音信号的动静态梅尔倒谱参数的语音特征，组成当前语音信号的动静态梅尔倒谱参数的语音特征，即得到90*24维的动静态梅尔倒谱参数的语音特征矢量；

（2-3）将步骤（2-2）得到的语音特征矢量展开成1维，利用步骤（1-4）得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入层和输出层的权重值，对当前90帧语音的进行性别判断，根据性别判断结果设定变音目标：

如果性别判断为女，则变音目标为女声变男声；

如果性别判断为男，则变音目标为男声变女声；

（2-4）根据步骤（2-3）设定的变音目标，利用时间动态规划SOLAFS算法对语音信号进行时长规整，将时长规整后的语音信息输出。

步骤（1-2）所述对语音数据库中的语音数据进行预处理，具体为：

对语音数据进行去平均化能量处理。

步骤（2-2）所述对采集到的语音信号进行预处理，具体为：

对语音信号进行去平均化能量处理。

步骤（2-4）所述利用时间动态规划SOLAFS算法对语音信号进行时长规整，具体为：

当变音目标为女声变男声时，将语音信号的时长扩大为原语音时长的1.25倍；再进行重采样，重采样率为原采样率的0.75倍；

当变音目标为男声变女声时，将语音信号的时长缩小为原语音时长的0.75倍；再进行重采样，重采样率为原采样率的1.25倍。

进行步骤（2-4）之后，还进行以下步骤：

（2-5）计算下一个时长为90帧的语音信号平均能量，如果当前语音信号平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍，则认为当前语音信号与第一个时长为90帧的语音信号由同一用户发出，则继续使用上一个语音信号变音目标，进行步骤（2-4）；

如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量的0.2倍，则认为当前语音中断；继续计算下一个时长为语音信号的平均能量，直至检测到某一个时长为90帧的语音信号的平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍时，将语音信号的平均能量更新为当前时长为90帧的语音信号的平均能量，重新进行步骤（2-3）～（2-5）。

与现有技术相比，本发明具有以下优点和有益效果：

（1）本发明的自适应实现男女声切换方法男女声切换方法能实时辨别性别并自适应设定变声目标，再进行实时变声处理，无需每次使用时手动设定参数。

（2）本发明的自适应实现男女声切换方法提取的语音特征是采用动静态梅尔倒谱参数的语音特征，使语音的动态判断更加准确。

（3）本发明的自适应实现男女声切换方法采用深度限制波尔机网络的语音性别训练学习和识别，从而对语音性别的判断更准确，减少误判率。

附图说明

图1为本发明的实施例的自适应实现男女声切换方法的流程图。

具体实施方式

下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例的自适应实现男女声切换方法，包括以下步骤：

（1）训练过程：

（1-1）收集语音数据库：主要是从电子汉语词典真人发音数据库根据单词提取了10组男女声数据库，其中男生5组，女生5组，每组数据库中包含常用的3893个单词的语音发音；

（1-2）对语音数据库中的语音数据进行去平均化能量预处理；

首先截取语音开始点和结束点的数据，先统计整个语音的平均能量，为了简化计算，本发明取每个语音数据的绝对值的平均值作为其平均能量

第一个语音信号值大于

即是语音开始点，最后一个语音信号值大于即为语音结束点。截取语音开始和结束之间信号，然后将语音数据进行去平均化能量处理，即将语音数据除了平均能量

以统一各个语音数据的能量分布；

（1-4）采用基于深度限制波尔机网络（Deep Restrict BoltzmanMachine,DRBM）进行语音性别训练学习：

基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、第三隐层和输出层，其中输入层维度为2160，第一、二、三隐层的维度分别为500、500、3000；基于深度限制波尔机网络形成四层网络，其中，第一层网络由输入层和第一隐层组成，输入层作为第一层网络的输入层，第一隐层作为第一层网络的输出层；第二层网络由第一隐层和第二隐层组成，第一隐层作为第二层网络的输入层，第二隐层作为第二层网络的输出层；第三层络由第二隐层和第三隐层组成，第二隐层作为第三层网络的输入层，第三隐层作为第三层网络的输出层；第四层络由第三隐层和输出层组成，第三隐层作为第四层网络的输入层，输出层作为第四层网络的输出层。对于每层网络，正向迭代次数为50次，反向为200次，每层网络的能量定义为E(v,h)=-bv-ch-hWv，其中b是该层网络的输入层v的偏差，c是该层网络的输出层h的偏差，W是该层网络的输入层v和该层网络的输出层h的权重值；

将步骤（1-3）提取得到的语音特征矢量输入基于深度限制波尔机网络，作为输入层，采用吉比特（Gibbs）采样方法根据输入层生成第一层网络的输入层的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权重值（具体实现细节可参考文献Hinton,G.E.,Osindero,S.and Teh,Y.,Afast learning algorithm for deep belief nets.Neural Computation18:1527-1554,2006）；将当前层网络的输出层作为下一层网络的输入层，分开训练多层网络，将多层网络叠加实现深度限制波尔机网络的训练；得到各层网络的输入层的偏差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值；

（2）识别过程：

（2-1）采集用户的语音信号；

（2-2）对采集到的语音信号进行去平均化能量预处理；

第一个语音信号值大于

即是语音开始点，最后一个语音信号值大于

即为语音结束点。截取语音开始和结束之间信号，然后将语音数据进行去平均化能量处理，即将语音数据除了平均能量

以统一各个语音数据的能量分布；

（2-3）对预处理后的语音信号进行特征提取：先将预处理后的语音信号分成30ms的语音段；在每语音帧中提取12维的梅尔倒谱参数x_i，其中i=1..12；将这12维的倒谱参数x_i进行一阶差分的处理得到12维的动态差分参数y_i，即y_i=x_i-x_i-1；将动态差分参数y_i和梅尔倒谱参数x_i级联组成当前语音帧的动静态梅尔倒谱参数的语音特征；然后随机选取90帧语音信号的动静态梅尔倒谱参数的语音特征，组成当前语音信号的动静态梅尔倒谱参数的语音特征，即得到90*24维的动静态梅尔倒谱参数的语音特征矢量；

如果性别判断为女，则变音目标为女声变男声；

如果性别判断为男，则变音目标为男声变女声；

（2-4）根据步骤（2-3）设定的变音目标，利用时间动态规划SOLAFS算法对语音信号进行时长规整，将时长规整后的语音信息输出；所述利用时间动态规划SOLAFS算法对语音信号进行时长规整，具体为：

在用户的后续使用过程中，还可以进行以下步骤：

如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量的0.2倍，则认为当前语音中断（可能使用人已改变）；继续计算下一个时长为语音信号的平均能量，直至检测到某一个时长为90帧的语音信号的平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍时，将语音信号的平均能量更新为当前时长为90帧的语音信号的平均能量，重新进行步骤（2-3）～（2-5），这样处理的最大好处在于，当当前使用人发生改变时，系统可以实现自动化适配不同性别使用者的变声处理。

本实施例的自适应实现男女声切换方法在应用时，可以使用计算机提取语音数据库的语音信号特征和训练深度限制波尔机网络，然后将训练好的深度限制波尔机网络模型配置在每台手机端，当手机用户使用时，麦克风采集当前用户的语音信号，提取当前语音信号特征，并利用训练好的深度限制波尔机网络模型进行判断性别，然后自动调整变音目标，利用时间动态规划SOLAFS算法对语音信号进行时长规整和重采样语音信号，再传送给远端用户。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种自适应实现男女声切换方法，其特征在于，包括以下步骤：

（1）训练过程：

（1-2）对语音数据库中的语音数据进行预处理；

（2）识别过程：

（2-1）采集用户的语音信号；

（2-2）对采集到的语音信号进行预处理；

如果性别判断为女，则变音目标为女声变男声；

如果性别判断为男，则变音目标为男声变女声；

2.根据权利要求1所述的自适应实现男女声切换方法，其特征在于，步骤（1-2）所述对语音数据库中的语音数据进行预处理，具体为：

对语音数据进行去平均化能量处理。

3.根据权利要求2所述的自适应实现男女声切换方法，其特征在于，步骤（2-2）所述对采集到的语音信号进行预处理，具体为：

对语音信号进行去平均化能量处理。

4.根据权利要求1所述的自适应实现男女声切换方法，其特征在于，步骤（2-4）所述利用时间动态规划SOLAFS算法对语音信号进行时长规整，具体为：

5.根据权利要求1所述的自适应实现男女声切换方法，其特征在于，进行步骤（2-4）之后，还进行以下步骤：