CN115798453A - 语音重建方法、装置、计算机设备和存储介质 - Google Patents

语音重建方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115798453A
CN115798453A CN202111059801.1A CN202111059801A CN115798453A CN 115798453 A CN115798453 A CN 115798453A CN 202111059801 A CN202111059801 A CN 202111059801A CN 115798453 A CN115798453 A CN 115798453A
Authority
CN
China
Prior art keywords
voice
signal
sample
features
mask information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111059801.1A
Other languages
English (en)
Inventor
陶建华
汪涛
傅睿博
易江燕
翁超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Institute of Automation of Chinese Academy of Science
Original Assignee
Tencent Technology Shenzhen Co Ltd
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Institute of Automation of Chinese Academy of Science filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111059801.1A priority Critical patent/CN115798453A/zh
Publication of CN115798453A publication Critical patent/CN115798453A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请涉及一种语音重建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对原始语音进行特征提取,得到对应的声学特征;将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。采用本方法能够控制语音重建中所生成的噪声的分量,有效提高重建的语音的质量。

Description

语音重建方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音重建方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了语音重建技术,语音重建能够使用在语音合成、语音转换和语音增强等多个场景,以实现对语音的各种应用。例如,将语音重建使用在语音转换场景,能够将一个人说话的音色转换为另一个人说话的音色,而说话的内容不变。
传统的语音重建模型例如WORLD模型,WORLD模型会提取原始语音波形中的基频、频谱包络与非周期信号,将基频、频谱包络与非周期信号三种声学特征通过合成算法输出重建的语音波形信号。然而,WORLD模型要求输入的原始语音波形有比较高的信噪比,在存在噪声的情况下难以重建出高质量的语音。
发明内容
基于此,有必要针对上述技术问题,提供一种能够控制语音重建过程中的噪声的语音重建方法、装置、计算机设备和存储介质。
一种语音重建方法,所述方法包括:
对原始语音进行特征提取,得到对应的声学特征;
将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
一种语音重建装置,所述装置包括:
提取模块,用于对原始语音进行特征提取,得到对应的声学特征;
转换模块,用于将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
确定模块,用于基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
重建模块,用于根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
在一个实施例中,所述转换模块,还用于对所述声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将所述声学特征从频域转换至时域,得到在所述时域下对应的确定性信号。
在一个实施例中,所述转换模块,还用于对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;对预设噪声数据进行扩展卷积处理,得到对应的噪声特征;对所述噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合,得到随机信号。
在一个实施例中,所述确定模块,还用于基于所述声学特征解耦出所述原始语音中噪声信号和非噪声信号;确定所述非噪声信号在所述原始语音中所占的非噪声比重,以及所述噪声信号在所述原始语音中所占的噪声比重;将所述非噪声比重作为与所述确定性信号对应的第一掩码信息,并将所述噪声比重作为与所述随机信号对应的第二掩码信息。
在一个实施例中,所述重建模块,还用于根据所述确定性信号和所述第一掩码信息,生成被掩蔽的确定性信号;根据所述随机信号和所述第二掩码信息,生成被掩蔽的随机信号;将所述被掩蔽的确定性信号和所述被掩蔽的随机信号进行拼接处理,得到拼接信号;对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;将所述拼接信号和所述隐藏特征进行融合处理,得到重建后的目标语音。
在一个实施例中,所述重建模块,还用于确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为所述拼接信号;对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征;对所述上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合处理,得到中间过程特征;将所述中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回所述对所述待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出重建后的目标语音。
在一个实施例中,所述装置还包括:
样本提取模块,用于对样本语音进行特征提取,得到对应的样本声学特征;
样本转换模块,用于通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
掩码确定模块,用于基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
样本重建模块,用于根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
调整模块,用于基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。
在一个实施例中,所述提取模块,还用于对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到所述源对象的源声学特征和所述目标对象对应的目标音色特征;所述源声学特征中包括内容特征和所述源对象的源音色特征;通过所述目标音色特征替换所述源声学特征中的所述源音色特征,得到对应的声学特征;其中,所述声学特征中包括所述目标音色特征和所述内容特征,所述目标语音的语音内容与所述内容特征对应,所述目标语音的音色与所述目标音色特征对应。
在一个实施例中,所述原始语音为待降噪语音,所述第二掩码信息包括第二掩码值;所述装置还包括调整模块,所述调整模块,用于减小所述随机信号对应的第二掩码值;
所述重建模块,还用于根据所述确定性信号、所述第一掩码信息、所述随机信号和减小后的第二掩码值进行语音重建处理,生成降噪后的目标语音。
在一个实施例中,所述提取模块,还用于将歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声;对所述原始歌声进行特征提取,得到对应的声学特征;
所述重建模块,还用于根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行歌声重建处理,生成目标合成歌声。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对原始语音进行特征提取,得到对应的声学特征;
将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对原始语音进行特征提取,得到对应的声学特征;
将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
对原始语音进行特征提取,得到对应的声学特征;
将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
上述语音重建方法、装置、计算机设备、存储介质和计算机程序产品,对原始语音进行特征提取,得到对应的声学特征,将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出原始语音中存在的真实信号的分量和存在的噪声的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,能够有效实现语音重建过程中噪声成分的可控性,从而能够重建出高质量的语音。并且,通过噪声的可控性,可以重建出满足各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
一种语音重建模型的训练方法,所述方法包括:
对样本语音进行特征提取,得到对应的样本声学特征;
通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
一种语音重建模型的训练装置,所述装置包括:
样本提取模块,用于对样本语音进行特征提取,得到对应的样本声学特征;
样本转换模块,用于通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
掩码确定模块,用于基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
样本重建模块,用于根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
调整模块,用于基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对样本语音进行特征提取,得到对应的样本声学特征;
通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对样本语音进行特征提取,得到对应的样本声学特征;
通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
对样本语音进行特征提取,得到对应的样本声学特征;
通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
上述语音重建模型的训练方法、装置、计算机设备、存储介质和计算机程序产品,通过对样本语音进行特征提取,得到对应的样本声学特征,通过语音重建模型将在频域下的样本声学特征转换为在时域下对应的样本确定性信号,并基于样本噪声数据生成时域下的样本随机信号,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,能够在重建过程中通过第三掩码信息控制重建所要生成的真实信号的分量,以及通过第四掩码信息来控制重建所要生成的噪声信号的分量,从而得到样本重建语音,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,使得训练好的目标语音重建模型准确确定出原始语音中存在的噪声信号的比重和存在的真实信号的比重,以有效实现语音重建过程中噪声占比的可控性,从而能够重建获得高质量的语音。训练好的目标语音重建模型的运行效率高,能够有效提高语音重建的处理效率。并且,通过噪声的可控性,可以满足后续生成各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
附图说明
图1为一个实施例中语音重建方法的应用环境图;
图2为一个实施例中语音重建方法的流程示意图;
图3为一个实施例中基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息的结构示意图;
图4为另一个实施例中将拼接信号和隐藏特征进行融合处理,得到重建后的目标语音的流程示意图;
图5为一个实施例中目标语音重建模型的训练步骤流程示意图;
图6为一个实施例中目标语音重建模型的结构示意图;
图7为一个实施例中目标语音重建模型和传统的声码器的合成音质评测的示意图;
图8为一个实施例中语音重建模型的训练方法的流程示意图;
图9为一个实施例中语音重建装置的结构框图;
图10为一个实施例中语音重建模型的训练装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。本申请实施例提供的方案涉及人工智能的语音重建方法,具体通过如下各实施例进行说明。
本申请提供的语音重建方法,可以应用于如图1所示的语音重建系统。如图1所示,该语音重建系统包括终端110和服务器120。在一个实施例中,终端110和服务器120均可单独执行本申请实施例中提供的语音重建方法。终端110和服务器120也可协同用于执行本申请实施例中提供的语音重建方法。当终端110和服务器120协同用于执行本申请实施例中提供的语音重建方法时,终端110获取原始语音,将原始语音发送至服务器120。服务器120对原始语音进行特征提取,得到对应的声学特征,服务器120将声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号。服务器120基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息。服务器120根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音。
其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和车载终端,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,多个服务器可组成区块链,而服务器作为区块链上的节点。
在一个实施例中,与该语音重建方法相关的数据可保存于区块链上,例如声学特征、确定性信号、预设噪声数据、随机信号、第一掩码信息、第二掩码信息和目标语音等数据均可保存于区块链上。类似地,与语音重建模型的训练方法相关的数据也可保存于区块链上。
在一个实施例中,如图2所示,提供了一种语音重建方法,以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器),包括以下步骤:
步骤S202,对原始语音进行特征提取,得到对应的声学特征。
其中,语音即语言的物质外壳,是语言的外部表现形式。原始语音是指待重建的音频,具体包括说话声、歌声、乐器发出的声音等,还可以包括视频中出现的音频,视频可以是从电影、电视剧、节目和动画中的至少一种。
声学特征表征原始语音中的关键信息,可包括音高特征、音强特征、音长特征、音色特征和内容特征中的至少一种。进一步地,声学特征是指原始语音中的关键信息在频域上的表达,频域(frequency domain)是描述信号在频率方面特性时所使用的坐标系。例如,声学特征可以是Mel谱梅尔倒频谱系数(Mel-Frequency Cipstal Coefficients,MFCC)特征。
音高特征表征声音的高低、音强特征表征声音的强弱、音长特征表征声音的长短,音色特征表征声音的特色和本质,也称作“音质”。内容特征表征语言的相关内容。
具体地,计算机设备可以从本地或其他设备或网络上获取原始语音,也可以通过录制得到音频、视频,将录制的音频作为原始语音,或者从视频中提取出音频作为原始语音。计算机设备对原始语音进行特征提取,得到对应的声学特征。
步骤S204,将声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号。
其中,确定性信号是指可以用明确的数学关系或者图表描述的信号。若信号被表示为一确定的时间函数,对于指定的某一时刻,可以确定一相应的函数值,这种信号被称为确定性信号。本实施例中的确定性信号是指在原始语音中存在的非噪声信号在时域上的表达。时域(Time domain)可描述确定性信号与时间的对应关系。
非噪声信号是指真实信号,与非噪声信号相反的是噪声信号,噪声信号是指除真实信号以外的各种信号的值之和。例如,原始语音为两个用户的对话,则真实信号为两个用户说话的声音、而噪声信号是指除了两个用户说话之外的各种杂音。
随机信号是指非确定性信号,即信号值随偶然因素而变化,但又遵从一定概率分布规律。随机信号可以用平均值、数学期望和方差等进行分析和描述。本实施例中的随机信号是指在原始语音中存在的噪声信号在时域上的表达。
具体地,声学特征是在频域上的表达,计算机设备将频域上的声学特征转换为在时域下对应的信号,即可得到确定性信号。计算机设备获取预设噪声数据,将预设噪声数据转换为在时域下对应的随机信号。
在一个实施例中,计算机设备获取预设噪声数据,对预设噪声数据进行特征提取,得到在频域上对应的特征,将在频域上对应的特征转换到时域上,得到对应的随机信号。
步骤S206,基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息。
其中,第一掩码信息包括原始语音中存在非噪声信号的比重,第二掩码信息包括原始语音中存在噪声信号的比重。
具体地,原始语音中包含了真实信号和噪声信号,则特征提取所得到的声学特征中包含了真实信号对应的非噪声特征和噪声信号对应的噪声特征。
计算机设备从声学特征分离出非噪声特征和噪声特征,基于非噪声特征确定对应的非噪声信号在原始语音中所占的比重,并基于噪声特征确定对应的噪声信号在原始语音中所占的比重。
计算机设备基于非噪声信号在原始语音中所占的比重,确定与确定性信号对应的第一掩码信息。并基于噪声信号在原始语音中所占的比重,确定与随机信号对应的第二掩码信息。
步骤S208,根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音。
其中,目标语音是经过重建所获得的语音,目标语音具体可以是对原始语音降噪后的语音、可以是原始语音转换音色后的语音、可以是原始语音与其他语音合成后得到的语音,也可以是与原始语音保持一致的语音等,但不限于此。
具体地,计算机设备根据确定性信号和对应的第一掩码信息,以及随机信号和对应第二掩码信息进行语音重建处理,得到重建后的目标语音。
进一步地,计算机设备根据确定性信号和对应的第一掩码信息,确定在语音重建中需要生成的真实信号的比重,并根据随机信号和对应的第二掩码信息确定在语音重建中需要生成的噪声信号的比重,从而生成包含真实信号和噪声信号的目标语音。
上述语音重建方法中,对原始语音进行特征提取,得到对应的声学特征,将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出原始语音中存在的真实信号的分量和存在的噪声的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,从而能够有效实现语音重建过程中噪声成分的可控性,从而能够重建出高质量的语音。并且,通过噪声的可控性,可以重建出满足各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
在一个实施例中,获取原始语音,将原始语音输入目标语音重建模型。通过目标语音重建模型对原始语音进行特征提取,得到对应的声学特征,通过目标语音重建模型将声学特征转换为对应的确定性信号。目标语音重建模型中包含预设噪声数据,目标语音重建模型可基于预设噪声数据生成随机信号。目标语音重建模型基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息。通过目标语音重建模型根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音。
在一个实施例中,计算机设备可获取原始语音,将原始语音输入其他模型,以基于其他模型对原始语音进行处理,得到声学特征,再将声学特征输入目标语音重建模型进行处理。
在一个实施例中,将声学特征转换为对应的确定性信号,包括:对声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将声学特征从频域转换至时域,得到在时域下对应的确定性信号。
具体地,声学特征是在频域下的表达,而信号是在时域下的表达。计算机设备对声学特征进行扩展卷积处理,得到经过扩展卷积处理后的特征,对经过扩展卷积处理后的特征进行上采样处理。经过上采样处理所得到的特征进入下一个扩展卷积处理,对下一个扩展卷积处理后的特征进行上采样处理,依次类推,将执行了预设次数的扩展卷积处理和上采样处理后所得到的信号,作为声学特征在时域下对应的确定性信号,从而将声学特征从频域转换至时域。
本实施例中,对声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,能够从声学特征中提取出非噪声特征,并能够将非噪声特征准确从频域转换至时域,得到非噪声特征在时域下对应的确定性信号。并且,使用一系列上采样和卷积运算进行转化,所生成的特征的感受野将呈不断增长,使得在所得到的确定性信号中获得更好的长程相关性。
在一个实施例中,基于预设噪声数据生成随机信号,包括:
对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;对预设噪声数据进行扩展卷积处理,得到对应的噪声特征;对噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合,得到随机信号。
具体地,计算机设备对声学特征卷积处理,得到经过卷积处理后的特征,对经过卷积处理后的特征进行上采样处理,得到隐藏特征。计算机设备对预设噪声数据进行扩展卷积处理,以增加特征的维度,得到对应的噪声特征。计算机设备对噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到迭代特征。计算机设备对迭代特征执行因果卷积处理及其之后的融合处理,经过多次循环迭代,可得到随机信号。
进一步地,将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到迭代特征,得到随机信号,包括:
将经过因果卷积处理后的特征和隐藏特征相加,对相加后的特征进行激活处理,激活处理的特征经过全连接层,得到迭代特征。将迭代特征进行因果卷积处理,返回将经过因果卷积处理后的特征和隐藏特征相加的步骤并继续执行,直至经过预设迭代循环次数后,得到随机信号。
在一个实施例中,对预设噪声数据进行扩展卷积处理,得到对应的噪声特征;对噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合,得到随机信号,包括:
确定当次迭代所对应的迭代特征;其中,首次迭代所对应的迭代特征为预设噪声数据;对当次迭代所对应的迭代特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间特征;将中间特征作为下一次迭代所对应的迭代特征,进入到下一次迭代中,并返回对当次迭代所对应的迭代特征进行扩展卷积处理的步骤继续执行,直至达到迭代停止条件时停止,输出随机信号。
本实施例中,通过对声学特征进行卷积处理,能够获得声学特征中的中间特征,并对经过卷积处理后的特征进行上采样处理,以获得较大尺寸的隐藏特征。对预设噪声数据进行扩展卷积处理,得到对应的噪声特征,对噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合,能够准确获得预设噪声数据在时域下所对应的随机信号。
在一个实施例中,基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,包括:
基于声学特征解耦出原始语音中噪声信号和非噪声信号;确定非噪声信号在原始语音中所占的非噪声比重,以及噪声信号在原始语音中所占的噪声比重;将非噪声比重作为与确定性信号对应的第一掩码信息,并将噪声比重作为与随机信号对应的第二掩码信息。
具体地,原始语音由噪声信号和非噪声信号构成,非噪声信息为原始语音中的真实信号。声学特征中包含噪声信号对应的特征和非噪声信号对应的特征。计算机设备从声学特征中解耦出噪声信号对应的噪声特征和非噪声信号对应的非噪声特征,从而解耦出原始语音中存在的噪声信号和非噪声信号。基于声学特征中解耦出非噪声特征,能够确定对应的非噪声信号在原始语音中所占的比重,即非噪声比重。将该非噪声比重作为确定性信号对应的第一掩码信息,以通过第一掩码信息确定重建中所使用的确定性信号的比重。
通过所解耦出的噪声特征,能够确定对应的非噪声信号在原始语音中所占的比重,即噪声比重。将该非噪声比重作为确定性信号对应的第一掩码信息,以通过第二掩码信息确定重建中所使用的随机信号的比重,从而能够控制重建过程中噪声的分量。
在一个实施例中,计算机设备可对声学特征进行卷积处理,对卷积处理后的特征进行激活处理。对激活处理后的特征执行卷积处理,对执行卷积处理后的特征进行激活处理,经过多次循环之后,可解耦出非噪声信号对应的非噪声特征和噪声信号对应的噪声特征。将非噪声特征进行卷积处理,对经过卷积处理后的特征进行激活处理,对激活处理后的特征进行上采样处理,可得到非噪声比重,将该非噪声比重作为确定性信号对应的第一掩码信息。将噪声特征进行卷积处理,对经过卷积处理后的特征进行激活处理,对激活处理后的特征进行上采样处理,可得到噪声比重,将该噪声比重作为确定性信号对应的第二掩码信息。
如图3所示,对声学特征进行卷积处理,使用线性整流函数(Rectified LinearUnit,ReLU)对卷积处理后的特征进行激活处理。对激活处理后的特征再执行卷积处理,使用线性整流函数对执行卷积处理后的特征进行激活处理,经过n次循环之后,可解耦出非噪声信号对应的非噪声特征和噪声信号对应的噪声特征。
将非噪声特征进行卷积处理,通过sigmoid函数对经过卷积处理后的特征进行激活处理。sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),通过sigmoid函数可以将输出映射到(0,1)的区间。对激活处理后的特征进行上采样处理,可得到第一掩码值md(t)。将噪声特征进行卷积处理,通过sigmoid函数对经过卷积处理后的特征进行激活处理,对激活处理后的特征进行上采样处理,可得到第二掩码值ms(t)。
本实施例中,基于声学特征解耦出原始语音中噪声信号和非噪声信号,能够准确计算出非噪声信号在原始语音中所占的非噪声比重,以及噪声信号在原始语音中所占的噪声比重,从而能够计算出构成原始语音的成分,以及各成分所占的分量。将非噪声比重作为与确定性信号对应的第一掩码信息,并将噪声比重作为与随机信号对应的第二掩码信息,从而能够通过控制第一掩码信息来控制所要生成的目标语音中非噪声信号的多少,以及通过控制第二掩码信息来控制所要生成的目标语音中噪声信号的多少,有效实现在语音重建过程中对噪声分量的控制。
在一个实施例中,根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音,包括:
根据确定性信号和第一掩码信息,生成被掩蔽的确定性信号;根据随机信号和第二掩码信息,生成被掩蔽的随机信号;将被掩蔽的确定性信号和被掩蔽的随机信号进行拼接处理,得到拼接信号;对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;将拼接信号和隐藏特征进行融合处理,得到重建后的目标语音。
其中,被遮蔽的确定性信号是指与非噪声信号相关的信号,被掩蔽的随机信号是指噪声信号相关的信号。
具体地,计算机设备根据确定性信号和第一掩码信息,生成被掩蔽的确定性信号,以得到与非噪声信号相关的信号。计算机设备根据随机信号和第二掩码信息,生成被掩蔽的随机信号,以得到与噪声信号相关的信号。计算机设备将被掩蔽的确定性信号和被掩蔽的随机信号进行拼接处理,得到拼接信号。
计算机设备对声学特征卷积处理,得到经过卷积处理后的特征,对经过卷积处理后的特征进行上采样处理,得到隐藏特征。计算机设备将拼接信号和隐藏特征进行融合处理,生成重建后的目标语音。
在一个实施例中,将拼接信号和隐藏特征进行融合处理,包括:将拼接信号和隐藏特征相加,对相加后的特征进行激活处理,激活处理的特征经过全连接层。将经过全连接层输出的特征进行下一次的因果卷积处理,返回将经过因果卷积处理后的特征和隐藏特征相加的步骤并继续执行,直至经过多次迭代循后,得到重建后的目标语音。
在一个实施例中,第一掩码信息包括第一掩码值,第二掩码信息包括第二掩码值;计算机设备将确定性信号和第一掩码值进行点乘处理,得到被掩蔽的确定性信号;计算机设备将随机信号和第二掩码值进行点乘处理,得到被掩蔽的随机信号。
本实施例中,根据确定性信号和第一掩码信息,生成被掩蔽的确定性信号,能够通过第一掩码信息有效控制重建过程中所使用的确定性信号的量。根据随机信号和第二掩码信息,生成被掩蔽的随机信号,能够通过第二掩码信息有效控制重建过程中所加入的噪声信号的量。将被掩蔽的确定性信号和被掩蔽的随机信号进行拼接处理,得到拼接信号,对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征,将拼接信号和隐藏特征进行融合处理,准确获得重建的目标语音。
在一个实施例中,如图4所示,将拼接信号和隐藏特征进行融合处理,得到重建后的目标语音,包括:
步骤S402,确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为拼接信号。
具体地,得到拼接信号和隐藏特征后,需要经过多次迭代处理,以获得重建的目标语音。上一次迭代的输出作为下一次迭代的输入,并且将隐藏特征作为每次迭代的输入。首次迭代的输入为拼接信号和隐藏特征。
计算机设备可确定当次迭代所对应的待处理特征,在首次迭代中的待处理特征为拼接信号。
步骤S404,对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征。
具体地,计算机设备对当次迭代所对应的待处理特征进行扩展卷积处理,得到感受视野更宽的特征。计算机设备对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征。
步骤S406,对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征。
具体地,计算机设备对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征。
在一个实施例中,对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征,包括:
对上采样拼接特征进行因果卷积处理,将经过因果卷积处理后的特征和隐藏特征相加,对相加后的特征进行激活处理,激活处理的特征经过全连接层,得到中间过程特征。
步骤S408,将中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出重建后的目标语音。
具体地,计算机设备将中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,则将该下一次迭代作为当次迭代,并返回对当次迭代所对应的待处理特征进行扩展卷积处理的步骤继续执行,直至迭代达到预设停止条件时停止,得到重建后的目标语音。
在一个实施例中,预设停止条件可设置为预设迭代次数,当迭代次数达到预设迭代次数时停止,得到重建后的目标语音。
本实施例中,确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为拼接信号,对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征,对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征,将中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,能够经过多次循环迭代,准确地生成目标语音。
在一个实施例中,如图5所示,该语音重建方法通过目标语音重建模型执行,该目标语音重建模型通过训练步骤获得,该训练步骤包括:
步骤S502,对样本语音进行特征提取,得到对应的样本声学特征。
其中,样本语音是指用于训练和测试的音频,具体包括说话声、歌声、乐器发出的声音等,还可以包括视频中出现的音频,视频可以是从电影、电视剧、节目和动画中的至少一种。
样本声学特征表征样本语音中的关键信息,可包括音高特征、音强特征、音长特征、音色特征和内容特征中的至少一种。
具体地,计算机设备可以从本地或其他设备或网络上获取样本语音,也可以通过录制得到音频、视频,将录制的音频作为样本语音,或者从视频中提取出音频作为样本语音。计算机设备对样本语音进行特征提取,得到对应的样本声学特征。
在一个实施例中,计算机设备可将样本语音输入语音重建模型,通过语音重建模型对样本语音进行特征提取,得到对应的样本声学特征。计算机设备也可以将样本语音输入其他模型,通过其他模型对样本语音进行处理,得到对应的样本声学特征。语音重建模型运行于计算机设备上。
步骤S504,通过语音重建模型将样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号。
其中,样本确定性信号是指在样本语音中存在的非噪声信号在时域上的表达。样本随机信号是指在样本语音中存在的噪声信号在时域上的表达。
具体地,样本声学特征是在频域上的表达,计算机设备通过语音重建模型将频域上的样本声学特征转换为在时域下对应的信号,即可得到样本确定性信号。计算机设备获取样本噪声数据,通过语音重建模型将样本噪声数据转换为在时域下对应的样本随机信号。
在一个实施例中,计算机设备获取样本噪声数据,通过语音重建模型对样本噪声数据进行特征提取,得到在频域上对应的样本特征,将在频域上对应的样本特征转换到时域上,得到对应的样本随机信号。
步骤S506,基于样本声学特征,确定与样本确定性信号对应的第三掩码信息、以及与样本随机信号对应的第四掩码信息。
其中,第三掩码信息包括样本语音中存在非噪声信号的比重,第四掩码信息包括样本语音中存在噪声信号的比重。
具体地,样本语音中包含了真实信号和噪声信号,则特征提取所得到的声学特征中包含了真实信号对应的非噪声特征和噪声信号对应的噪声特征。
语音重建模型从样本声学特征分离出非噪声特征和噪声特征,基于非噪声特征确定对应的非噪声信号在样本语音中所占的比重,并基于噪声特征确定对应的噪声信号在样本语音中所占的比重。
语音重建模型基于非噪声信号在样本语音中所占的比重,确定与样本确定性信号对应的第三掩码信息。语音重建模型基于噪声信号在样本语音中所占的比重,确定与样本随机信号对应的第四掩码信息。
步骤S508,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,得到样本重建语音。
其中,样本重建语音是经过重建所获得的语音,样本重建语音具体可以是对样本语音降噪后的语音、可以是样本语音转换音色后的语音、可以是样本语音与其他语音合成后得到的语音,也可以是与样本语音保持一致的语音等,但不限于此。
具体地,语音重建模型根据样本确定性信号和对应的第三掩码信息,以及样本随机信号和对应第四掩码信息进行语音重建处理,得到样本重建语音。
进一步地,语音重建模型根据样本确定性信号和对应的第三掩码信息,确定在语音重建中需要生成的真实信号的比重,并根据样本随机信号和对应的第四掩码信息确定在语音重建中需要生成的噪声信号的比重,从而预测生成包含真实信号和噪声信号的样本重建语音。
步骤S510,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。
其中,训练停止条件可以是损失误差小于误差阈值,或训练迭代次数达到预设迭代次数等。
具体地,计算机设备可确定样本重建语音和对应的样本语音之间的差异,基于样本重建语音和对应的样本语音之间的差异调整语音重建模型的参数,并对调整参数后的语音重建模型继续进行训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。该目标语音重建模型中包括预设噪声数据,该预设噪声数据可以是训练过程中使用的样本噪声数据,也可以是从训练过程所使用的多个样本噪声数据中选择的。
在一个实施例中,计算机设备可确定样本重建语音和对应的样本语音之间的损失误差,基于损失误差调整语音重建模型的参数,并对调整参数后的语音重建模型继续进行训练,直至训练所得到的损失误差小于误差阈值时停止,得到训练好的目标语音重建模型。
在一个实施例中,计算机设备可确定样本重建语音和对应的样本语音之间的差异,基于样本重建语音和对应的样本语音之间的差异调整语音重建模型的参数,并对调整参数后的语音重建模型继续进行训练,直至训练的迭代次数达到预设迭代次数时停止训练,得到训练好的目标语音重建模型。
本实施例中,对样本语音进行特征提取,得到对应的样本声学特征,通过语音重建模型将在频域下的样本声学特征转换为在时域下对应的样本确定性信号,并基于样本噪声数据生成时域下的样本随机信号,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,能够在重建过程中通过第三掩码信息控制重建所要生成的真实信号的分量,以及通过第四掩码信息来控制重建所要生成的噪声信号的分量,从而得到样本重建语音,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,使得训练好的目标语音重建模型准确确定出原始语音中存在的噪声信号的比重和存在的真实信号的比重,以有效实现语音重建过程中噪声占比的可控性,从而能够满足后续生成各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
在一个实施例中,该语音重建方法可应用于目标语音重建模型,如图6所示,该目标语音重建模型中包括:确定性源单元、随机性源单元、决策单元和滤波单元。
确定性源单元用于生成确定性信号ed(t),随机性源单元用于生成随机信号es(t)。决策单元用于预测确定性信号对应的第一掩码值md(t)和随机信号的第二掩码值ms(t)。滤波单元,用于将确定性信号ed(t)、第一掩码值md(t)、随机信号es(t)和第二掩码值ms(t)组合,输出语音波形信号。以下介绍各个子单元的结构。
确定性源单元:
确定性信号被定义为不是噪声的任何事物对应的信号,可以从声学特征中预测出对应的事物。因此确定性信号是从声学特征中预测生成的。由于声学特征是定义在频域范围,而确定性信号在时域,可以使用一系列上采样和卷积运算将声学特征中的非噪声信号对应的特征转化为对应的确定性信号。例如,经过n1次扩展卷积和n1次上采样处理。一堆残差块跟随每个带有扩张卷积的转置卷积层之后,随着网络层数的增加,卷积层的感受野将呈指数增长,从而在得到的确定性信号中产生更好的长程相关性。
随机性源单元:
使用多层扩张卷积网络对滤波器进行建模,并使用声学特征作为条件信息。为了结合声学特征,通过卷积和上采样网络对声学特征进行上采样,得到隐藏特征。
在随机性源单元中进行n2次迭代:
首次迭代:使用高斯噪声和隐藏特征作为随机性源单元的输入,并通过FF(FeedForward(FF)),前馈神经网络)层对高斯噪声进行扩展卷积处理,以执行升维度操作,得到扩展后的信号。对扩展后的信号进行因果卷积层处理,经过因果卷积处理后的特征与隐藏特征相加,相加后的特征经由tanh和sigmoid的门控激活单元处理,激活处理后的特征通过两个额外的FF层,得到迭代特征。
从第二次迭代起,将上一次迭代所得到的迭代特征作为下一次迭代的输入,并将隐藏特征作为每次迭代的输入。对迭代特征进行扩展卷积处理,得到扩展后的信号。对扩展后的信号进行因果卷积处理,将经过因果卷积处理后的特征与隐藏特征相加,相加后的特征经由tanh和sigmoid的门控激活单元处理,激活处理后的特征通过两个额外的FF层,得到本次迭代的迭代特征。
可将第k次迭代中的扩张卷积层的扩张大小设置为2^{k-1}。第n次迭代输出的迭代特征输入到输出维度为1的FF层,通过该FF层输出随机信号es(t)。
决策单元:
该决策单元预测确定性信号ed(t)和随机信号es(t)的掩码值,掩码值的范围是0到1。在特定时刻,激励信号的掩码值越大,被选中的概率就越大,这有助于获得更准确的激励信号。激励信号指确定性信号或随机信号。将声学特征作为决策单元的输入,决策单元基于声学特征确定确定性信号ed(t)的第一掩码值md(t)和随机信号es(t)的第二掩码值ms(t)。决策单元中的结构和处理过程可参见图3所在的实施例。
滤波单元:
滤波单元的作用是接收被掩蔽的确定性信号和被掩蔽的随机信号,以输出最终的语音波形信号。滤波单元的结构与随机性源单元的结构相同,均为基于扩展卷积的滤波器。该滤波单元也是在给定的声学特征条件下工作的,滤波单元中包括n3个基于扩展卷积的滤波器。将被掩蔽的确定性信和被掩蔽的随机信号在非时间维度上进行连接以获得总激励信号,即拼接信号。将拼接信号和隐藏特征输入滤波单元,得到最终的语音波形信号
Figure BDA0003255971090000231
从而获得重建的目标语音。滤波单元可以是神经滤波器。
本实施例中,从声学特征中解耦确定性信号和随机信号,通过控制随机信号的所预测出的掩码值来控制噪声分量的。并且,后续可以对随机信号对应的掩码值进行调整,如随机加减一个常数,即可有效的控制重建的语音中的噪声成分的多少,从而可以控制目标语音信号中的噪声成分。并且,目标语音重建模型中的确定性源单元、随机性源单元和决策单元是并行的处理方式,可以提高语音重建的运行效率,降低语音重建的运行成本。
本实施例中的各个单元均可以采用RNN、LSTM、CNN、transformer等其他网络结构实现。
若下表所示,为本实施例的目标语音重建模型和传统的声码器的运行效率评测结果:
模型 WaveNet WaveGAN NDPS
RTF(GPU) 170.217 0.015 0.011
RTF(CPU) 603.892 3.006 2.180
Params(M) 43.748 17.099 11.836
为了评估本实施例的目标语音重建模型和传统的神经声码器的运行时效率,实时因子(RTF)被定义为生成语音所消耗的时间之间的比率,作为测量值。本实施例中,RTF值计算为使用单个GeForce RTX 2080Ti GPU或单个CPU内核生成所有测试语句的时间之间的比率。从上表可看出,与自回归模型WaveNet相比,本实施例的目标语音重建模型NDPS在生成效率上有显着提高,并且在单CPU内核上相对于WaveGAN有28%的改进。此外,还比较了模型参数的大小。上表中的最后一行统计了每个模型的参数,可见目标语音重建模型的总参数比WaveNet小很多,比WaveGAN的参数小30%。这是因为自学习的激励信号减轻了神经滤波器的负担,从而大大减少了神经滤波器的参数量。
如图7所示,为本实施例的目标语音重建模型和传统的声码器的合成音质评测的示意图。本实施例对测试集的主观评价进行语音质量的平均意见得分(MOS)听力测试。在不同模型之间保持文本内容一致,以排除其他干扰因素,只检查语音质量。二十位听众参与了评估。在每个实验组中,从每个系统的测试集中随机选取20个平行句子。图7中显示了每个系统的通过分析合成(R)和文本到语音合成(P)的MOS分数。结果表明,目标语音重建模型NDSP优于WaveGAN模型。这是因为WaveGAN仅使用噪声作为激励信号,而目标语音重建模型NDPS可以从噪声和声学特征中学习更丰富的激励信号。通过比较WaveNet声码器和NDPS声码器,可以观察到这两种声码器在主观评价上存在很小的差距。尽管NDPS声码器实现了与WaveNet相似的性能,但其在单个CPU内核上的运行时效率大约高出280倍。
在一个实施例中,对原始语音进行特征提取,得到对应的声学特征,包括:
对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到源对象的源声学特征和目标对象对应的目标音色特征;该源声学特征中包括内容特征和源对象的源音色特征;通过目标音色特征替换源声学特征中的源音色特征,得到对应的声学特征;其中,声学特征中包括目标音色特征和内容特征,该目标语音的语音内容与内容特征对应,目标语音的音色与目标音色特征对应。
具体地,计算机设备获取源对象的原始语音和目标对象的原始语音。源对象的原始语音中包括源对象的声音,目标对象的原始语音中包括目标对象的声音。
计算机设备对源对象的原始语音进行特征提取,得到源对象对应的源声学特征。该源声学特征中包括内容特征和源对象的源音色特征。内容特征表示与原始语音中所表达的内容相关的特征。计算机设备对目标对象的原始语音进行特征提取,得到目标对象对应的目标音色特征。
计算机设备通过目标音色特征替换源声学特征中的源音色特征,得到对应的声学特征;其中,声学特征中包括目标音色特征和内容特征。
计算机设备将声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号。计算机设备基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息。计算机设备根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音。该目标语音的语音内容与内容特征对应,目标语音的音色与目标音色特征对应。
本实施例中,通过对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到源对象的源声学特征和目标对象对应的目标音色特征,通过目标音色特征替换源声学特征中的源音色特征,得到频域下的声学特征,从而能够将源对象在原始语音中的音色转换为目标对象在原始语音中的音色。将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出源对象的原始语音中存在的真实信号的分量和存在的噪声信号的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,从而能够有效实现语音重建过程中噪声成分的可控性。通过控制第二掩码信息能够减少重建的语音中存在的噪声,使得在进行语音转换时,能够通过语音重建,降低噪声。
在一个实施例中,原始语音为待降噪语音,第二掩码信息包括第二掩码值;在基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息之后,还包括:减小随机信号对应的第二掩码值;
根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音,包括:根据确定性信号、第一掩码信息、随机信号和减小后的第二掩码值进行语音重建处理,生成降噪后的目标语音。
具体地,原始语音是指需要降噪的语音,则计算机设备基于声学特征,确定与确定性信号对应的第一掩码值、以及与随机信号对应的第二掩码值。计算机设备可减小该第二掩码值,得到减小后的第二掩码值。
计算机设备根据确定性信号和对应的第一掩码值,确定在语音重建中需要生成的真实信号的比重,并根据随机信号和减小后的第二掩码值确定在语音重建中需要生成的噪声信号的比重,从而生成包含真实信号和噪声信号的目标语音。通过减小后的第二掩码值,减少了重建的噪声信号的比重,使得重建获得的目标语音中噪声较少,即可获得降噪后的目标语音。
在一个实施例中,可基于降噪后的目标语音进行语音识别,以转换为对应的文本内容。
本实施例中,基于声学特征,确定与确定性信号对应的第一掩码值、以及与随机信号对应的第二掩码值,能够准确计算出原始语音中存在的非噪声信号的比重和存在的噪声信号的比重。通过第一掩码值和确定性信号生成目标语音中的非噪声信号,减小第二掩码值后,根据减小后的第二掩码值和确定性信号生成目标语音中的噪声信号,能够减少重建的目标语音中存在的噪声信号,从而有效实现语音的降噪处理,并有效提高了语音的清晰度,增强了重建后的语音的质量。
在一个实施例中,对原始语音进行特征提取,得到对应的声学特征,包括:
将歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声;对原始歌声进行特征提取,得到对应的声学特征;
根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音,包括:根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行歌声重建处理,生成目标合成歌声。
其中,目标合成歌声是经过重建所获得的歌声,目标合成歌声具体可以是对原始歌声降噪后的歌声、可以是原始歌声转换音色后的歌声、可以是原始歌声与其他歌声合成后得到的歌声,但不限于此。
具体地,计算机设备获取歌词信息和对应的乐谱信息,基于歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声。计算机设备对原始歌声进行特征提取,得到对应的声学特征。
计算机设备将声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号。计算机基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息。
计算机设备根据确定性信号和对应的第一掩码信息,以及随机信号和对应第二掩码信息进行歌声重建处理,得到重建后的目标合成歌声。
进一步地,计算机设备根据确定性信号和对应的第一掩码信息,确定在歌声重建中需要生成的真实歌声信号的比重,并根据随机信号和对应的第二掩码信息确定在歌声重建中需要生成的噪声信号的比重,从而生成包含真实歌声信号和噪声信号的目标合成歌声。
本实施例中,将歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声,对原始歌声进行特征提取,得到频域下的声学特征。将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出原始歌声中存在的真实歌声信号的分量和存在的噪声信号的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行歌声重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实歌声信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,从而能够有效实现歌声重建过程中噪声成分的可控性。通过控制第二掩码信息能够减少重建的歌声中存在的噪声,提高歌声的质量。
在一个实施例中,如图8所示,提供了一种语音重建模型的训练方法,以该方法应用于计算机设备(该计算机设备具体可以是图1中的终端或服务器),包括以下步骤:
步骤S802,对样本语音进行特征提取,得到对应的样本声学特征。
具体地,计算机设备可以从本地或其他设备或网络上获取样本语音,也可以通过录制得到音频、视频,将录制的音频作为样本语音,或者从视频中提取出音频作为样本语音。计算机设备对样本语音进行特征提取,得到对应的样本声学特征。
在一个实施例中,计算机设备可将样本语音输入语音重建模型,通过语音重建模型对样本语音进行特征提取,得到对应的样本声学特征。计算机设备也可以将样本语音输入其他模型,通过其他模型对样本语音进行处理,得到对应的样本声学特征。语音重建模型运行于计算机设备上。
步骤S804,通过语音重建模型将样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号。
具体地,样本声学特征是在频域上的表达,计算机设备通过语音重建模型将频域上的样本声学特征转换为在时域下对应的信号,即可得到样本确定性信号。计算机设备获取样本噪声数据,通过语音重建模型将样本噪声数据转换为在时域下对应的样本随机信号。
在一个实施例中,计算机设备获取样本噪声数据,通过语音重建模型对样本噪声数据进行特征提取,得到在频域上对应的样本特征,将在频域上对应的样本特征转换到时域上,得到对应的样本随机信号。
步骤S806,基于样本声学特征,确定与样本确定性信号对应的第三掩码信息、以及与样本随机信号对应的第四掩码信息。
具体地,样本语音中包含了真实信号和噪声信号,则特征提取所得到的声学特征中包含了真实信号对应的非噪声特征和噪声信号对应的噪声特征。
语音重建模型从样本声学特征分离出非噪声特征和噪声特征,基于非噪声特征确定对应的非噪声信号在样本语音中所占的比重,并基于噪声特征确定对应的噪声信号在样本语音中所占的比重。
语音重建模型基于非噪声信号在样本语音中所占的比重,确定与样本确定性信号对应的第三掩码信息。语音重建模型基于噪声信号在样本语音中所占的比重,确定与样本随机信号对应的第四掩码信息。
步骤S808,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,得到样本重建语音。
具体地,语音重建模型根据样本确定性信号和对应的第三掩码信息,以及样本随机信号和对应第四掩码信息进行语音重建处理,得到样本重建语音。
进一步地,语音重建模型根据样本确定性信号和对应的第三掩码信息,确定在语音重建中需要生成的真实信号的比重,并根据样本随机信号和对应的第四掩码信息确定在语音重建中需要生成的噪声信号的比重,从而预测生成包含真实信号和噪声信号的样本重建语音。
步骤S810,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;该目标语音重建模型用于将原始语音重建为目标语音。
其中,训练停止条件可以是损失误差小于误差阈值,或训练迭代次数达到预设迭代次数等。
具体地,计算机设备可确定样本重建语音和对应的样本语音之间的差异,基于样本重建语音和对应的样本语音之间的差异调整语音重建模型的参数,并对调整参数后的语音重建模型继续进行训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。该目标语音重建模型中包括预设噪声数据,该预设噪声数据可以是训练过程中使用的样本噪声数据,也可以是从训练过程所使用的多个样本噪声数据中选择的。
目标语音重建模型用于基于原始语音的声学特征,预测出与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,从而根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音。
在一个实施例中,计算机设备可确定样本重建语音和对应的样本语音之间的损失误差,基于损失误差调整语音重建模型的参数,并对调整参数后的语音重建模型继续进行训练,直至训练所得到的损失误差小于误差阈值时停止,得到训练好的目标语音重建模型。
在一个实施例中,计算机设备可确定样本重建语音和对应的样本语音之间的差异,基于样本重建语音和对应的样本语音之间的差异调整语音重建模型的参数,并对调整参数后的语音重建模型继续进行训练,直至训练的迭代次数达到预设迭代次数时停止训练,得到训练好的目标语音重建模型。
本实施例的语音重建模型的训练方法,通过对样本语音进行特征提取,得到对应的样本声学特征,通过语音重建模型将在频域下的样本声学特征转换为在时域下对应的样本确定性信号,并基于样本噪声数据生成时域下的样本随机信号,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,能够在重建过程中通过第三掩码信息控制重建所要生成的真实信号的分量,以及通过第四掩码信息来控制重建所要生成的噪声信号的分量,从而得到样本重建语音,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,使得训练好的目标语音重建模型准确确定出原始语音中存在的噪声信号的比重和存在的真实信号的比重,以有效实现语音重建过程中噪声占比的可控性,从而能够满足后续生成各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。并且,训练好的目标语音重建模型的运行效率高,能够有效提高语音重建的处理效率。
在一个实施例中,提供了一种语音重建方法,应用于计算机设备上的目标语音重建模型,包括:
对语音重建模型进行训练:
获取样本语音,将样本语音输入语音重建模型。语音重建模型中包括确定性源单元、随机性源单元、决策单元和滤波单元。
语音重建模型对样本语音进行特征提取,得到对应的样本声学特征。
通过确定性源单元将样本声学特征转换为对应的样本确定性信号,并通过随机性源单元将样本噪声数据转换为对应的样本随机信号。
通过决策单元基于样本声学特征,确定与样本确定性信号对应的第三掩码值、以及与样本随机信号对应的第四掩码值。
通过滤波单元根据样本确定性信号、第三掩码值、样本随机信号和第四掩码值进行语音重建处理,得到样本重建语音。
基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。
使用目标语音重建模型进行语音重建,目标语音重建模型中包括确定性源单元、随机性源单元、决策单元和滤波单元:
通过目标语音重建模型对待降噪的原始语音进行特征提取,得到对应的声学特征。
通过确定性源单元对声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将声学特征从频域转换至时域,得到在时域下对应的确定性信号。
通过目标语音重建模型对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征。
将隐藏特征和预设噪声数据作为随机性源单元的输入,随机性源单元确定当次迭代所对应的迭代特征;其中,首次迭代所对应的迭代特征为预设噪声数据;对当次迭代所对应的迭代特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间特征;将中间特征作为下一次迭代所对应的迭代特征,进入到下一次迭代中,并返回对当次迭代所对应的迭代特征进行扩展卷积处理的步骤继续执行,直至达到迭代停止条件时停止,输出随机信号。
通过决策单元基于声学特征解耦出原始语音中噪声信号和非噪声信号;确定非噪声信号在原始语音中所占的非噪声比重,以及噪声信号在原始语音中所占的噪声比重。将非噪声比重作为与确定性信号对应的第一掩码值,并将噪声比重作为与随机信号对应的第二掩码值。
通过目标语音重建模型根据确定性信号和第一掩码值进行点乘处理,得到被掩蔽的确定性信号。
通过目标语音重建模型自动减小随机信号对应的第二掩码值,根据随机信号和减小后的第二掩码值进行点乘处理,得到被掩蔽的随机信号。将被掩蔽的确定性信号和被掩蔽的随机信号进行拼接处理,得到拼接信号。
将拼接信号输入决策单元,决策单元确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为拼接信号。对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征。对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征。将中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出降噪后的目标语音。
本实施例中,通过对样本语音进行特征提取,得到对应的样本声学特征,通过语音重建模型将在频域下的样本声学特征转换为在时域下对应的样本确定性信号,并基于样本噪声数据生成时域下的样本随机信号,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,能够在重建过程中通过第三掩码信息控制重建所要生成的真实信号的分量,以及通过第四掩码信息来控制重建所要生成的噪声信号的分量,从而得到样本重建语音,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,使得训练好的目标语音重建模型准确确定出原始语音中存在的噪声信号的比重和存在的真实信号的比重,以有效实现语音重建过程中噪声占比的可控性,从而能够满足后续生成各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
对原始语音进行特征提取,得到对应的声学特征,将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。
基于声学特征,确定与确定性信号对应的第一掩码值、以及与随机信号对应的第二掩码值,能够准确计算出原始语音中存在的非噪声信号的比重和存在的噪声信号的比重。计算所得到的第二掩码值可调整,能够有效实现语音重建过程中噪声成分的可控性。通过第一掩码值和确定性信号生成目标语音中的非噪声信号,减小第二掩码值后,根据减小后的第二掩码值和确定性信号生成目标语音中的噪声信号,能够减少重建的目标语音中存在的噪声信号,从而有效实现语音的降噪处理,并有效提高了语音的清晰度,增强了重建后的语音的质量。
应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种语音重建装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:提取模块902、转换模块904、确定模块906和重建模块908,其中:
提取模块902,用于对原始语音进行特征提取,得到对应的声学特征;
转换模块904,用于将声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
确定模块906,用于基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息;
重建模块908,用于根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,得到目标语音。
本实施例中,对原始语音进行特征提取,得到对应的声学特征,将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出原始语音中存在的真实信号的分量和存在的噪声的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,能够有效实现语音重建过程中噪声成分的可控性,从而能够重建出高质量的语音。并且,通过噪声的可控性,可以重建出满足各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
在一个实施例中,转换模块904,还用于对声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将声学特征从频域转换至时域,得到在时域下对应的确定性信号。
本实施例中,对声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,能够从声学特征中提取出非噪声特征,并能够将非噪声特征准确从频域转换至时域,得到非噪声特征在时域下对应的确定性信号。并且,使用一系列上采样和卷积运算进行转化,所生成的特征的感受野将呈不断增长,使得在所得到的确定性信号中获得更好的长程相关性。
在一个实施例中,转换模块904,还用于对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;对预设噪声数据进行扩展卷积处理,得到对应的噪声特征;对噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合,得到随机信号。
本实施例中,通过对声学特征进行卷积处理,能够获得声学特征中的中间特征,并对经过卷积处理后的特征进行上采样处理,以获得较大尺寸的隐藏特征。对预设噪声数据进行扩展卷积处理,得到对应的噪声特征,对噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合,能够准确获得预设噪声数据在时域下所对应的随机信号。
在一个实施例中,确定模块906,还用于基于声学特征解耦出原始语音中噪声信号和非噪声信号;确定非噪声信号在原始语音中所占的非噪声比重,以及噪声信号在原始语音中所占的噪声比重;将非噪声比重作为与确定性信号对应的第一掩码信息,并将噪声比重作为与随机信号对应的第二掩码信息。
本实施例中,基于声学特征解耦出原始语音中噪声信号和非噪声信号,能够准确计算出非噪声信号在原始语音中所占的非噪声比重,以及噪声信号在原始语音中所占的噪声比重,从而能够计算出构成原始语音的成分,以及各成分所占的分量。将非噪声比重作为与确定性信号对应的第一掩码信息,并将噪声比重作为与随机信号对应的第二掩码信息,从而能够通过控制第一掩码信息来控制所要生成的目标语音中非噪声信号的多少,以及通过控制第二掩码信息来控制所要生成的目标语音中噪声信号的多少,有效实现在语音重建过程中对噪声分量的控制。
在一个实施例中,重建模块908,还用于根据确定性信号和第一掩码信息,生成被掩蔽的确定性信号;根据随机信号和第二掩码信息,生成被掩蔽的随机信号;将被掩蔽的确定性信号和被掩蔽的随机信号进行拼接处理,得到拼接信号;对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;将拼接信号和隐藏特征进行融合处理,得到重建后的目标语音。
本实施例中,根据确定性信号和第一掩码信息,生成被掩蔽的确定性信号,能够通过第一掩码信息有效控制重建过程中所使用的确定性信号的量。根据随机信号和第二掩码信息,生成被掩蔽的随机信号,能够通过第二掩码信息有效控制重建过程中所加入的噪声信号的量。将被掩蔽的确定性信号和被掩蔽的随机信号进行拼接处理,得到拼接信号,对声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征,将拼接信号和隐藏特征进行融合处理,准确获得重建的目标语音。
在一个实施例中,重建模块908,还用于确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为拼接信号;对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征;其中,首次迭代所对应的待处理特征为拼接信号;对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征;将中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出重建后的目标语音。
本实施例中,确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为拼接信号,对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征,对上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和隐藏特征进行融合处理,得到中间过程特征,将中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,能够经过多次循环迭代,准确地生成目标语音。
在一个实施例中,该装置还包括:
样本提取模块,用于对样本语音进行特征提取,得到对应的样本声学特征。
样本转换模块,用于通过语音重建模型将样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号。
掩码确定模块,用于基于样本声学特征,确定与样本确定性信号对应的第三掩码信息、以及与样本随机信号对应的第四掩码信息。
样本重建模块,用于根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,得到样本重建语音。
调整模块,用于基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。
本实施例中,对样本语音进行特征提取,得到对应的样本声学特征,通过语音重建模型将在频域下的样本声学特征转换为在时域下对应的样本确定性信号,并基于样本噪声数据生成时域下的样本随机信号,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,能够在重建过程中通过第三掩码信息控制重建所要生成的真实信号的分量,以及通过第四掩码信息来控制重建所要生成的噪声信号的分量,从而得到样本重建语音,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,使得训练好的目标语音重建模型准确确定出原始语音中存在的噪声信号的比重和存在的真实信号的比重,以有效实现语音重建过程中噪声占比的可控性,从而能够满足后续生成各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
在一个实施例中,提取模块,还用于对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到源对象的源声学特征和目标对象对应的目标音色特征;源声学特征中包括内容特征和源对象的源音色特征;通过目标音色特征替换源声学特征中的源音色特征,得到对应的声学特征;其中,声学特征中包括目标音色特征和内容特征,目标语音的语音内容与内容特征对应,目标语音的音色与目标音色特征对应。
本实施例中,通过对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到源对象的源声学特征和目标对象对应的目标音色特征,通过目标音色特征替换源声学特征中的源音色特征,得到频域下的声学特征,从而能够将源对象在原始语音中的音色转换为目标对象在原始语音中的音色。将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出源对象的原始语音中存在的真实信号的分量和存在的噪声信号的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行语音重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,从而能够有效实现语音重建过程中噪声成分的可控性。通过控制第二掩码信息能够减少重建的语音中存在的噪声,使得在进行语音转换时,能够通过语音重建,降低噪声。
在一个实施例中,原始语音为待降噪语音,第二掩码信息包括第二掩码值;装置还包括调整模块,调整模块,用于减小随机信号对应的第二掩码值;
重建模块,还用于根据确定性信号、第一掩码信息、随机信号和减小后的第二掩码值进行语音重建处理,生成降噪后的目标语音。
本实施例中,基于声学特征,确定与确定性信号对应的第一掩码值、以及与随机信号对应的第二掩码值,能够准确计算出原始语音中存在的非噪声信号的比重和存在的噪声信号的比重。通过第一掩码值和确定性信号生成目标语音中的非噪声信号,减小第二掩码值后,根据减小后的第二掩码值和确定性信号生成目标语音中的噪声信号,能够减少重建的目标语音中存在的噪声信号,从而有效实现语音的降噪处理,并有效提高了语音的清晰度,增强了重建后的语音的质量。
在一个实施例中,提取模块,还用于将歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声;对原始歌声进行特征提取,得到对应的声学特征;
重建模块,还用于根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行歌声重建处理,生成目标合成歌声。
本实施例中,将歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声,对原始歌声进行特征提取,得到频域下的声学特征。将在频域下的声学特征转换为在时域下对应的确定性信号,并基于预设噪声数据生成时域下的随机信号。基于声学特征,确定与确定性信号对应的第一掩码信息、以及与随机信号对应的第二掩码信息,能够通过声学特征解耦出原始歌声中存在的真实歌声信号的分量和存在的噪声信号的分量。根据确定性信号、第一掩码信息、随机信号和第二掩码信息进行歌声重建处理,能够在重建过程中通过第一掩码信息控制重建所要生成的真实歌声信号的分量,以及通过第二掩码信息来控制重建所要生成的噪声信号的分量,从而能够有效实现歌声重建过程中噪声成分的可控性。通过控制第二掩码信息能够减少重建的歌声中存在的噪声,提高歌声的质量。
关于语音重建装置的具体限定可以参见上文中对于语音重建方法的限定,在此不再赘述。上述语音重建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图10所示,提供了一种语音重建模型的训练装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本提取模块1002、样本转换模块1004、掩码确定模块1006、样本重建模块1008和调整模块1010,其中:
样本提取模块1002,用于对样本语音进行特征提取,得到对应的样本声学特征。
样本转换模块1004,用于通过语音重建模型将样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号。
掩码确定模块1006,用于基于样本声学特征,确定与样本确定性信号对应的第三掩码信息、以及与样本随机信号对应的第四掩码信息。
样本重建模块1008,用于根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,得到样本重建语音。
调整模块1010,用于基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;该目标语音重建模型用于将原始语音重建为目标语音。
本实施例的语音重建模型的训练方法,通过对样本语音进行特征提取,得到对应的样本声学特征,通过语音重建模型将在频域下的样本声学特征转换为在时域下对应的样本确定性信号,并基于样本噪声数据生成时域下的样本随机信号,根据样本确定性信号、第三掩码信息、样本随机信号和第四掩码信息进行语音重建处理,能够在重建过程中通过第三掩码信息控制重建所要生成的真实信号的分量,以及通过第四掩码信息来控制重建所要生成的噪声信号的分量,从而得到样本重建语音,基于样本重建语音和样本语音对语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,使得训练好的目标语音重建模型准确确定出原始语音中存在的噪声信号的比重和存在的真实信号的比重,以有效实现语音重建过程中噪声占比的可控性,从而能够重建出高质量的语音。训练好的目标语音重建模型的运行效率高,能够有效提高语音重建的处理效率。并且,通过噪声的可控性,可以重建出满足后续生成各种噪声比重的语音,更能够满足语音重建在各种应用场景中的使用。
关于语音重建模型的训练装置的具体限定可以参见上文中对于语音重建模型的训练方法的限定,在此不再赘述。上述语音重建模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器。本实施例中以终端为例,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音重建方法和一种语音重建模型的训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种语音重建方法,其特征在于,所述方法包括:
对原始语音进行特征提取,得到对应的声学特征;
将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
2.根据权利要求1所述的方法,其特征在于,所述将所述声学特征转换为对应的确定性信号,包括:
对所述声学特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,以将所述声学特征从频域转换至时域,得到在所述时域下对应的确定性信号。
3.根据权利要求1所述的方法,其特征在于,所述基于预设噪声数据生成随机信号,包括:
对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;
对预设噪声数据进行扩展卷积处理,得到对应的噪声特征;
对所述噪声特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合,得到随机信号。
4.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息,包括:
基于所述声学特征解耦出所述原始语音中噪声信号和非噪声信号;
确定所述非噪声信号在所述原始语音中所占的非噪声比重,以及所述噪声信号在所述原始语音中所占的噪声比重;
将所述非噪声比重作为与所述确定性信号对应的第一掩码信息,并将所述噪声比重作为与所述随机信号对应的第二掩码信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音,包括:
根据所述确定性信号和所述第一掩码信息,生成被掩蔽的确定性信号;
根据所述随机信号和所述第二掩码信息,生成被掩蔽的随机信号;
将所述被掩蔽的确定性信号和所述被掩蔽的随机信号进行拼接处理,得到拼接信号;
对所述声学特征进行卷积处理,并对经过卷积处理后的特征进行上采样处理,得到隐藏特征;
将所述拼接信号和所述隐藏特征进行融合处理,得到重建后的目标语音。
6.根据权利要求5所述的方法,其特征在于,所述将所述拼接信号和所述隐藏特征进行融合处理,得到重建后的目标语音,包括:
确定当次迭代所对应的待处理特征;其中,首次迭代所对应的待处理特征为所述拼接信号;
对当次迭代所对应的待处理特征进行扩展卷积处理,并对经过扩展卷积处理后的特征进行上采样处理,得到上采样拼接特征;
对所述上采样拼接特征进行因果卷积处理,并将经过因果卷积处理后的特征和所述隐藏特征进行融合处理,得到中间过程特征;
将所述中间过程特征作为下一次迭代所对应的待处理特征,进入到下一次迭代中,并返回对所述待处理特征进行扩展卷积处理的步骤继续执行,直至达到预设停止条件时停止,输出重建后的目标语音。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述语音重建方法通过目标语音重建模型执行,所述目标语音重建模型通过训练步骤获得,所述训练步骤包括:
对样本语音进行特征提取,得到对应的样本声学特征;
通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型。
8.根据权利要求1至6任意一项所述的方法,其特征在于,所述对原始语音进行特征提取,得到对应的声学特征,包括:
对源对象的原始语音和目标对象的原始语音分别进行特征提取,得到所述源对象的源声学特征和所述目标对象对应的目标音色特征;所述源声学特征中包括内容特征和所述源对象的源音色特征;
通过所述目标音色特征替换所述源声学特征中的所述源音色特征,得到对应的声学特征;其中,所述声学特征中包括所述目标音色特征和所述内容特征,所述目标语音的语音内容与所述内容特征对应,所述目标语音的音色与所述目标音色特征对应。
9.根据权利要求1至6任意一项所述的方法,其特征在于,所述原始语音为待降噪语音,所述第二掩码信息包括第二掩码值;在所述基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息之后,还包括:
减小所述随机信号对应的第二掩码值;
所述根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音,包括:
根据所述确定性信号、所述第一掩码信息、所述随机信号和减小后的第二掩码值进行语音重建处理,生成降噪后的目标语音。
10.根据权利要求1至6任意一项所述的方法,其特征在于,所述对原始语音进行特征提取,得到对应的声学特征,包括:
将歌词信息和对应的乐谱信息进行歌声合成处理,得到原始歌声;
对所述原始歌声进行特征提取,得到对应的声学特征;
所述根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音,包括:
根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行歌声重建处理,生成目标合成歌声。
11.一种语音重建模型的训练方法,其特征在于,包括:
对样本语音进行特征提取,得到对应的样本声学特征;
通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
12.一种语音重建装置,其特征在于,所述装置包括:
提取模块,用于对原始语音进行特征提取,得到对应的声学特征;
转换模块,用于将所述声学特征转换为对应的确定性信号,并基于预设噪声数据生成随机信号;
确定模块,用于基于所述声学特征,确定与所述确定性信号对应的第一掩码信息、以及与所述随机信号对应的第二掩码信息;
重建模块,用于根据所述确定性信号、所述第一掩码信息、所述随机信号和所述第二掩码信息进行语音重建处理,得到目标语音。
13.一种语音重建模型的训练装置,其特征在于,所述装置包括:
样本提取模块,用于对样本语音进行特征提取,得到对应的样本声学特征;
样本转换模块,用于通过语音重建模型将所述样本声学特征转换为对应的样本确定性信号,并基于样本噪声数据生成样本随机信号;
掩码确定模块,用于基于所述样本声学特征,确定与所述样本确定性信号对应的第三掩码信息、以及与所述样本随机信号对应的第四掩码信息;
样本重建模块,用于根据所述样本确定性信号、所述第三掩码信息、所述样本随机信号和所述第四掩码信息进行语音重建处理,得到样本重建语音;
调整模块,用于基于所述样本重建语音和所述样本语音对所述语音重建模型的参数进行调整并继续训练,直至达到训练停止条件时停止,得到训练好的目标语音重建模型;所述目标语音重建模型用于将原始语音重建为目标语音。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202111059801.1A 2021-09-10 2021-09-10 语音重建方法、装置、计算机设备和存储介质 Pending CN115798453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111059801.1A CN115798453A (zh) 2021-09-10 2021-09-10 语音重建方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111059801.1A CN115798453A (zh) 2021-09-10 2021-09-10 语音重建方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115798453A true CN115798453A (zh) 2023-03-14

Family

ID=85417046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111059801.1A Pending CN115798453A (zh) 2021-09-10 2021-09-10 语音重建方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115798453A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013354A (zh) * 2023-03-24 2023-04-25 北京百度网讯科技有限公司 深度学习模型的训练方法、控制虚拟形象口型变化的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013354A (zh) * 2023-03-24 2023-04-25 北京百度网讯科技有限公司 深度学习模型的训练方法、控制虚拟形象口型变化的方法

Similar Documents

Publication Publication Date Title
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
Venkataramanan et al. Emotion recognition from speech
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
Xiang et al. A parallel-data-free speech enhancement method using multi-objective learning cycle-consistent generative adversarial network
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
Bandela et al. Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition
US20230162758A1 (en) Systems and methods for speech enhancement using attention masking and end to end neural networks
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
Du et al. A joint framework of denoising autoencoder and generative vocoder for monaural speech enhancement
Lee et al. Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities
Wu et al. Acoustic to articulatory mapping with deep neural network
Xian et al. Convolutional fusion network for monaural speech enhancement
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
Cornell et al. Implicit acoustic echo cancellation for keyword spotting and device-directed speech detection
CN115798453A (zh) 语音重建方法、装置、计算机设备和存储介质
Zhang et al. Voice conversion with denoising diffusion probabilistic gan models
Zhou et al. Speech Enhancement via Residual Dense Generative Adversarial Network.
Wu et al. Self-supervised speech denoising using only noisy audio signals
Chen et al. Neural-free attention for monaural speech enhancement towards voice user interface for consumer electronics
González-Salazar et al. Enhancing speech recorded from a wearable sensor using a collection of autoencoders
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
Nasretdinov et al. Hierarchical encoder-decoder neural network with self-attention for single-channel speech denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination