CN103514883A - 一种自适应实现男女声切换方法 - Google Patents
一种自适应实现男女声切换方法 Download PDFInfo
- Publication number
- CN103514883A CN103514883A CN201310444837.0A CN201310444837A CN103514883A CN 103514883 A CN103514883 A CN 103514883A CN 201310444837 A CN201310444837 A CN 201310444837A CN 103514883 A CN103514883 A CN 103514883A
- Authority
- CN
- China
- Prior art keywords
- voice
- layer
- network
- speech
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种自适应实现男女声切换方法,包括以下步骤:训练时,将语音数据库的语音数据进行分段提取音频数据库的声音数据,再提取其动静态梅尔倒谱参数特征,然后将其送入深度限制波尔机网络进行语音性别学习。用户使用时,采集语音信号,按照与语音数据库的语音数据相同的步骤处理后送入深度限制波尔机网络进行语音性别判别;根据性别判别结果设定变音目标,再利用时间动态规划SOLAFS算法根据变音目标对音频信号进行时长规整和重采样,最终达到自动实现男女声切换的效果。本发明能实时辨别性别并自适应设定变声目标,再进行实时变声处理,无需每次使用时手动设定参数,语音的动态判断准确。
Description
技术领域
本发明涉及机器学习和音频处理领域,特别涉及一种自适应实现男女声切换方法男女声切换方法。
背景技术
男女声互相变换是通过改变语音信号的音调和音色,传统方法是利用语音信号处理方法来实现,其是语音信号处理领域中一个的重要理论研究方向,并且男女语音切换可以应用在保密通信,娱乐通信等多个领域,具有很好的实际应用价值。目前也有不少方法设计了男女声切换方法,如目前的专利CN03137014.4提供一种变声方法,该方法通过手动设定变音目标,通过改变信号的长度来达到变音的效果。专利CN200410062337.1利用频谱搬移,将语音信号先转换成频域型号,然后在频域上,将信号频谱整体搬移到高频域范围,最后再将其变换回时域,最终完成变声目的。但是现有的变声方法需要手动设定变音目标(如设定男变女,或者女变男),设定变音目标后,不能自动变更变音目标,也不能实时监测说话人性别并进行变音。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种自适应实现男女声切换方法男女声切换方法,能够自动实时辨识性别,然后根据识别的性别设定变音目标,并完成最终的男女语音变音。
本发明的目的通过以下技术方案实现:
一种自适应实现男女声切换方法,包括以下步骤:
(1)训练过程:
(1-1)收集语音数据库;所述语音数据库中的语音数据包括男声和女声;
(1-2)对语音数据库中的语音数据进行预处理;
(1-3)对预处理后的语音数据进行特征提取:先将预处理后的语音数据分成30ms的语音帧;对每语音帧提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音数据的动静态梅尔倒谱参数的语音特征,组成当前语音数据的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;
(1-4)采用基于深度限制波尔机网络进行语音性别训练学习:
基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、第三隐层和输出层;基于深度限制波尔机网络形成四层网络,其中,第一层网络由输入层和第一隐层组成,输入层作为第一层网络的输入层,第一隐层作为第一层网络的输出层;第二层网络由第一隐层和第二隐层组成,第一隐层作为第二层网络的输入层,第二隐层作为第二层网络的输出层;第三层络由第二隐层和第三隐层组成,第二隐层作为第三层网络的输入层,第三隐层作为第三层网络的输出层;第四层络由第三隐层和输出层组成,第三隐层作为第四层网络的输入层,输出层作为第四层网络的输出层;每层网络的能量定义为E(v,h)=-bv-ch-hWv,其中b是该层网络的输入层v的偏差,c是该层网络的输出层h的偏差,W是该层网络的输入层v和该层网络的输出层h的权重值;
将步骤(1-3)提取得到的语音特征矢量输入基于深度限制波尔机网络,作为输入层,采用吉比特采样方法根据输入层生成第一层网络的输入层的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权重值;将当前层网络的输出层作为下一层网络的输入层,分开训练多层网络,将多层网络叠加实现深度限制波尔机网络的训练;得到各层网络的输入层的偏差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值;
(2)识别过程:
(2-1)采集用户的语音信号;
(2-2)对采集到的语音信号进行预处理;
(2-3)对预处理后的语音信号进行特征提取:先将预处理后的语音信号分成30ms的语音段;在每语音帧中提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音信号的动静态梅尔倒谱参数的语音特征,组成当前语音信号的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;
(2-3)将步骤(2-2)得到的语音特征矢量展开成1维,利用步骤(1-4)得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入层和输出层的权重值,对当前90帧语音的进行性别判断,根据性别判断结果设定变音目标:
如果性别判断为女,则变音目标为女声变男声;
如果性别判断为男,则变音目标为男声变女声;
(2-4)根据步骤(2-3)设定的变音目标,利用时间动态规划SOLAFS算法对语音信号进行时长规整,将时长规整后的语音信息输出。
步骤(1-2)所述对语音数据库中的语音数据进行预处理,具体为:
对语音数据进行去平均化能量处理。
步骤(2-2)所述对采集到的语音信号进行预处理,具体为:
对语音信号进行去平均化能量处理。
步骤(2-4)所述利用时间动态规划SOLAFS算法对语音信号进行时长规整,具体为:
当变音目标为女声变男声时,将语音信号的时长扩大为原语音时长的1.25倍;再进行重采样,重采样率为原采样率的0.75倍;
当变音目标为男声变女声时,将语音信号的时长缩小为原语音时长的0.75倍;再进行重采样,重采样率为原采样率的1.25倍。
进行步骤(2-4)之后,还进行以下步骤:
(2-5)计算下一个时长为90帧的语音信号平均能量,如果当前语音信号平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语音信号与第一个时长为90帧的语音信号由同一用户发出,则继续使用上一个语音信号变音目标,进行步骤(2-4);
如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语音中断;继续计算下一个时长为语音信号的平均能量,直至检测到某一个时长为90帧的语音信号的平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍时,将语音信号的平均能量更新为当前时长为90帧的语音信号的平均能量,重新进行步骤(2-3)~(2-5)。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明的自适应实现男女声切换方法男女声切换方法能实时辨别性别并自适应设定变声目标,再进行实时变声处理,无需每次使用时手动设定参数。
(2)本发明的自适应实现男女声切换方法提取的语音特征是采用动静态梅尔倒谱参数的语音特征,使语音的动态判断更加准确。
(3)本发明的自适应实现男女声切换方法采用深度限制波尔机网络的语音性别训练学习和识别,从而对语音性别的判断更准确,减少误判率。
附图说明
图1为本发明的实施例的自适应实现男女声切换方法的流程图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例的自适应实现男女声切换方法,包括以下步骤:
(1)训练过程:
(1-1)收集语音数据库:主要是从电子汉语词典真人发音数据库根据单词提取了10组男女声数据库,其中男生5组,女生5组,每组数据库中包含常用的3893个单词的语音发音;
(1-2)对语音数据库中的语音数据进行去平均化能量预处理;
首先截取语音开始点和结束点的数据,先统计整个语音的平均能量,为了简化计算,本发明取每个语音数据的绝对值的平均值作为其平均能量第一个语音信号值大于即是语音开始点,最后一个语音信号值大于即为语音结束点。截取语音开始和结束之间信号,然后将语音数据进行去平均化能量处理,即将语音数据除了平均能量以统一各个语音数据的能量分布;
(1-3)对预处理后的语音数据进行特征提取:先将预处理后的语音数据分成30ms的语音帧;对每语音帧提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音数据的动静态梅尔倒谱参数的语音特征,组成当前语音数据的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;
(1-4)采用基于深度限制波尔机网络(Deep Restrict BoltzmanMachine,DRBM)进行语音性别训练学习:
基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、第三隐层和输出层,其中输入层维度为2160,第一、二、三隐层的维度分别为500、500、3000;基于深度限制波尔机网络形成四层网络,其中,第一层网络由输入层和第一隐层组成,输入层作为第一层网络的输入层,第一隐层作为第一层网络的输出层;第二层网络由第一隐层和第二隐层组成,第一隐层作为第二层网络的输入层,第二隐层作为第二层网络的输出层;第三层络由第二隐层和第三隐层组成,第二隐层作为第三层网络的输入层,第三隐层作为第三层网络的输出层;第四层络由第三隐层和输出层组成,第三隐层作为第四层网络的输入层,输出层作为第四层网络的输出层。对于每层网络,正向迭代次数为50次,反向为200次,每层网络的能量定义为E(v,h)=-bv-ch-hWv,其中b是该层网络的输入层v的偏差,c是该层网络的输出层h的偏差,W是该层网络的输入层v和该层网络的输出层h的权重值;
将步骤(1-3)提取得到的语音特征矢量输入基于深度限制波尔机网络,作为输入层,采用吉比特(Gibbs)采样方法根据输入层生成第一层网络的输入层的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权重值(具体实现细节可参考文献Hinton,G.E.,Osindero,S.and Teh,Y.,Afast learning algorithm for deep belief nets.Neural Computation18:1527-1554,2006);将当前层网络的输出层作为下一层网络的输入层,分开训练多层网络,将多层网络叠加实现深度限制波尔机网络的训练;得到各层网络的输入层的偏差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值;
(2)识别过程:
(2-1)采集用户的语音信号;
(2-2)对采集到的语音信号进行去平均化能量预处理;
首先截取语音开始点和结束点的数据,先统计整个语音的平均能量,为了简化计算,本发明取每个语音数据的绝对值的平均值作为其平均能量第一个语音信号值大于即是语音开始点,最后一个语音信号值大于即为语音结束点。截取语音开始和结束之间信号,然后将语音数据进行去平均化能量处理,即将语音数据除了平均能量以统一各个语音数据的能量分布;
(2-3)对预处理后的语音信号进行特征提取:先将预处理后的语音信号分成30ms的语音段;在每语音帧中提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音信号的动静态梅尔倒谱参数的语音特征,组成当前语音信号的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;
(2-3)将步骤(2-2)得到的语音特征矢量展开成1维,利用步骤(1-4)得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入层和输出层的权重值,对当前90帧语音的进行性别判断,根据性别判断结果设定变音目标:
如果性别判断为女,则变音目标为女声变男声;
如果性别判断为男,则变音目标为男声变女声;
(2-4)根据步骤(2-3)设定的变音目标,利用时间动态规划SOLAFS算法对语音信号进行时长规整,将时长规整后的语音信息输出;所述利用时间动态规划SOLAFS算法对语音信号进行时长规整,具体为:
当变音目标为女声变男声时,将语音信号的时长扩大为原语音时长的1.25倍;再进行重采样,重采样率为原采样率的0.75倍;
当变音目标为男声变女声时,将语音信号的时长缩小为原语音时长的0.75倍;再进行重采样,重采样率为原采样率的1.25倍。
在用户的后续使用过程中,还可以进行以下步骤:
(2-5)计算下一个时长为90帧的语音信号平均能量,如果当前语音信号平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语音信号与第一个时长为90帧的语音信号由同一用户发出,则继续使用上一个语音信号变音目标,进行步骤(2-4);
如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语音中断(可能使用人已改变);继续计算下一个时长为语音信号的平均能量,直至检测到某一个时长为90帧的语音信号的平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍时,将语音信号的平均能量更新为当前时长为90帧的语音信号的平均能量,重新进行步骤(2-3)~(2-5),这样处理的最大好处在于,当当前使用人发生改变时,系统可以实现自动化适配不同性别使用者的变声处理。
本实施例的自适应实现男女声切换方法在应用时,可以使用计算机提取语音数据库的语音信号特征和训练深度限制波尔机网络,然后将训练好的深度限制波尔机网络模型配置在每台手机端,当手机用户使用时,麦克风采集当前用户的语音信号,提取当前语音信号特征,并利用训练好的深度限制波尔机网络模型进行判断性别,然后自动调整变音目标,利用时间动态规划SOLAFS算法对语音信号进行时长规整和重采样语音信号,再传送给远端用户。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种自适应实现男女声切换方法,其特征在于,包括以下步骤:
(1)训练过程:
(1-1)收集语音数据库;所述语音数据库中的语音数据包括男声和女声;
(1-2)对语音数据库中的语音数据进行预处理;
(1-3)对预处理后的语音数据进行特征提取:先将预处理后的语音数据分成30ms的语音帧;对每语音帧提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音数据的动静态梅尔倒谱参数的语音特征,组成当前语音数据的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;
(1-4)采用基于深度限制波尔机网络进行语音性别训练学习:
基于深度限制波尔机网络包括依次连接的输入层、第一隐层、第二隐层、第三隐层和输出层;基于深度限制波尔机网络形成四层网络,其中,第一层网络由输入层和第一隐层组成,输入层作为第一层网络的输入层,第一隐层作为第一层网络的输出层;第二层网络由第一隐层和第二隐层组成,第一隐层作为第二层网络的输入层,第二隐层作为第二层网络的输出层;第三层络由第二隐层和第三隐层组成,第二隐层作为第三层网络的输入层,第三隐层作为第三层网络的输出层;第四层络由第三隐层和输出层组成,第三隐层作为第四层网络的输入层,输出层作为第四层网络的输出层;每层网络的能量定义为E(v,h)=-bv-ch-hWv,其中b是该层网络的输入层v的偏差,c是该层网络的输出层h的偏差,W是该层网络的输入层v和该层网络的输出层h的权重值;
将步骤(1-3)提取得到的语音特征矢量输入基于深度限制波尔机网络,作为输入层,采用吉比特采样方法根据输入层生成第一层网络的输入层的偏差、第一层网络的输出层的偏差、第一层网络的输入层和第一层网络的输出层的权重值;将当前层网络的输出层作为下一层网络的输入层,分开训练多层网络,将多层网络叠加实现深度限制波尔机网络的训练;得到各层网络的输入层的偏差、各层网络输出层的偏差、各层网络的输入层和输出层的权重值;
(2)识别过程:
(2-1)采集用户的语音信号;
(2-2)对采集到的语音信号进行预处理;
(2-3)对预处理后的语音信号进行特征提取:先将预处理后的语音信号分成30ms的语音段;在每语音帧中提取12维的梅尔倒谱参数xi,其中i=1..12;将这12维的倒谱参数xi进行一阶差分的处理得到12维的动态差分参数yi,即yi=xi-xi-1;将动态差分参数yi和梅尔倒谱参数xi级联组成当前语音帧的动静态梅尔倒谱参数的语音特征;然后随机选取90帧语音信号的动静态梅尔倒谱参数的语音特征,组成当前语音信号的动静态梅尔倒谱参数的语音特征,即得到90*24维的动静态梅尔倒谱参数的语音特征矢量;
(2-3)将步骤(2-2)得到的语音特征矢量展开成1维,利用步骤(1-4)得到的四层网络的输入层的偏差、四层网络的输出层的偏差、四层网络的输入层和输出层的权重值,对当前90帧语音的进行性别判断,根据性别判断结果设定变音目标:
如果性别判断为女,则变音目标为女声变男声;
如果性别判断为男,则变音目标为男声变女声;
(2-4)根据步骤(2-3)设定的变音目标,利用时间动态规划SOLAFS算法对语音信号进行时长规整,将时长规整后的语音信息输出。
2.根据权利要求1所述的自适应实现男女声切换方法,其特征在于,步骤(1-2)所述对语音数据库中的语音数据进行预处理,具体为:
对语音数据进行去平均化能量处理。
3.根据权利要求2所述的自适应实现男女声切换方法,其特征在于,步骤(2-2)所述对采集到的语音信号进行预处理,具体为:
对语音信号进行去平均化能量处理。
4.根据权利要求1所述的自适应实现男女声切换方法,其特征在于,步骤(2-4)所述利用时间动态规划SOLAFS算法对语音信号进行时长规整,具体为:
当变音目标为女声变男声时,将语音信号的时长扩大为原语音时长的1.25倍;再进行重采样,重采样率为原采样率的0.75倍;
当变音目标为男声变女声时,将语音信号的时长缩小为原语音时长的0.75倍;再进行重采样,重采样率为原采样率的1.25倍。
5.根据权利要求1所述的自适应实现男女声切换方法,其特征在于,进行步骤(2-4)之后,还进行以下步骤:
(2-5)计算下一个时长为90帧的语音信号平均能量,如果当前语音信号平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语音信号与第一个时长为90帧的语音信号由同一用户发出,则继续使用上一个语音信号变音目标,进行步骤(2-4);
如果当前语音信号平均能量小于上一个时长为90帧的语音信号的平均能量的0.2倍,则认为当前语音中断;继续计算下一个时长为语音信号的平均能量,直至检测到某一个时长为90帧的语音信号的平均能量大于第一个时长为90帧的语音信号的平均能量的0.2倍时,将语音信号的平均能量更新为当前时长为90帧的语音信号的平均能量,重新进行步骤(2-3)~(2-5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310444837.0A CN103514883B (zh) | 2013-09-26 | 2013-09-26 | 一种自适应实现男女声切换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310444837.0A CN103514883B (zh) | 2013-09-26 | 2013-09-26 | 一种自适应实现男女声切换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103514883A true CN103514883A (zh) | 2014-01-15 |
CN103514883B CN103514883B (zh) | 2015-12-02 |
Family
ID=49897509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310444837.0A Expired - Fee Related CN103514883B (zh) | 2013-09-26 | 2013-09-26 | 一种自适应实现男女声切换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514883B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504756A (zh) * | 2016-12-02 | 2017-03-15 | 珠海市杰理科技股份有限公司 | 嵌入式语音识别系统及方法 |
WO2017059678A1 (zh) * | 2015-10-08 | 2017-04-13 | 乐视控股(北京)有限公司 | 实时语音通话中的实时语音接收设备及降低延迟的方法 |
CN106649643A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频数据处理方法及其装置 |
CN107180641A (zh) * | 2017-07-12 | 2017-09-19 | 深圳奥雅设计股份有限公司 | 一种可改变音频、音色、音调的传声方法 |
CN108269579A (zh) * | 2018-01-18 | 2018-07-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
CN108417223A (zh) * | 2017-12-29 | 2018-08-17 | 申子涵 | 在社交网络中发送变调语音的方法 |
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN110600042A (zh) * | 2019-10-10 | 2019-12-20 | 公安部第三研究所 | 一种伪装语音说话人性别识别的方法及系统 |
CN110797038A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN114464151A (zh) * | 2022-04-12 | 2022-05-10 | 荣耀终端有限公司 | 修音方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
US20090204605A1 (en) * | 2008-02-07 | 2009-08-13 | Nec Laboratories America, Inc. | Semantic Search Via Role Labeling |
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN102436811A (zh) * | 2010-09-21 | 2012-05-02 | 微软公司 | 用于语音识别的深度结构的全序列训练 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
-
2013
- 2013-09-26 CN CN201310444837.0A patent/CN103514883B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
US20090204605A1 (en) * | 2008-02-07 | 2009-08-13 | Nec Laboratories America, Inc. | Semantic Search Via Role Labeling |
CN102122507A (zh) * | 2010-01-08 | 2011-07-13 | 龚澍 | 一种运用人工神经网络进行前端处理的语音检错方法 |
CN102436811A (zh) * | 2010-09-21 | 2012-05-02 | 微软公司 | 用于语音识别的深度结构的全序列训练 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017059678A1 (zh) * | 2015-10-08 | 2017-04-13 | 乐视控股(北京)有限公司 | 实时语音通话中的实时语音接收设备及降低延迟的方法 |
CN106504756A (zh) * | 2016-12-02 | 2017-03-15 | 珠海市杰理科技股份有限公司 | 嵌入式语音识别系统及方法 |
CN106504756B (zh) * | 2016-12-02 | 2019-05-24 | 珠海市杰理科技股份有限公司 | 嵌入式语音识别系统及方法 |
CN106649643B (zh) * | 2016-12-08 | 2019-10-22 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频数据处理方法及其装置 |
CN106649643A (zh) * | 2016-12-08 | 2017-05-10 | 腾讯音乐娱乐(深圳)有限公司 | 一种音频数据处理方法及其装置 |
CN107180641A (zh) * | 2017-07-12 | 2017-09-19 | 深圳奥雅设计股份有限公司 | 一种可改变音频、音色、音调的传声方法 |
CN108417223A (zh) * | 2017-12-29 | 2018-08-17 | 申子涵 | 在社交网络中发送变调语音的方法 |
CN108269579A (zh) * | 2018-01-18 | 2018-07-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
CN108269579B (zh) * | 2018-01-18 | 2020-11-10 | 厦门美图之家科技有限公司 | 语音数据处理方法、装置、电子设备及可读存储介质 |
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN110600042A (zh) * | 2019-10-10 | 2019-12-20 | 公安部第三研究所 | 一种伪装语音说话人性别识别的方法及系统 |
CN110600042B (zh) * | 2019-10-10 | 2020-10-23 | 公安部第三研究所 | 一种伪装语音说话人性别识别的方法及系统 |
CN110797038A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
US11869524B2 (en) | 2019-10-30 | 2024-01-09 | Tencent Technology (Shenzhen) Company Limited | Audio processing method and apparatus, computer device, and storage medium |
CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN114464151A (zh) * | 2022-04-12 | 2022-05-10 | 荣耀终端有限公司 | 修音方法及装置 |
CN114464151B (zh) * | 2022-04-12 | 2022-08-23 | 北京荣耀终端有限公司 | 修音方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103514883B (zh) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103514883B (zh) | 一种自适应实现男女声切换方法 | |
CN107146624B (zh) | 一种说话人确认方法及装置 | |
CN106205623B (zh) | 一种声音转换方法及装置 | |
CN110390955A (zh) | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 | |
CN106683666B (zh) | 一种基于深度神经网络的领域自适应方法 | |
CN108172218A (zh) | 一种语音建模方法及装置 | |
CN111048117B (zh) | 一种基于目标适应子空间学习的跨库语音情感识别方法 | |
CN107068167A (zh) | 融合多种端到端神经网络结构的说话人感冒症状识别方法 | |
CN110491406B (zh) | 一种多模块抑制不同种类噪声的双噪声语音增强方法 | |
CN108335702A (zh) | 一种基于深度神经网络的音频降噪方法 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN104751227A (zh) | 深度神经网络的构建方法及系统 | |
CN110277099A (zh) | 基于语音的嘴型生成方法和装置 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
CN108962229A (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN109671446A (zh) | 一种基于绝对听觉阈值的深度学习语音增强方法 | |
CN105845149A (zh) | 声音信号中主音高的获取方法及系统 | |
CN106898355A (zh) | 一种基于二次建模的说话人识别方法 | |
CN106782500A (zh) | 一种基于基音周期和mfcc的融合特征参数提取方法 | |
CN110490428A (zh) | 空中交通管制工作质量评估方法及相关装置 | |
CN108520757A (zh) | 基于听觉特性的音乐适用场景自动分类方法 | |
CN108461091A (zh) | 面向家居环境的智能哭声检测方法 | |
CN110428841A (zh) | 一种基于不定长均值的声纹动态特征提取方法 | |
CN105845131A (zh) | 远讲语音识别方法及装置 | |
CN109961152A (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151202 Termination date: 20210926 |