CN113421576A - 语音转换方法、装置、设备以及存储介质 - Google Patents
语音转换方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113421576A CN113421576A CN202110731052.6A CN202110731052A CN113421576A CN 113421576 A CN113421576 A CN 113421576A CN 202110731052 A CN202110731052 A CN 202110731052A CN 113421576 A CN113421576 A CN 113421576A
- Authority
- CN
- China
- Prior art keywords
- conversion
- fundamental frequency
- model
- information
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 321
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000001228 spectrum Methods 0.000 claims abstract description 194
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 15
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 230000009466 transformation Effects 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 20
- 230000003595 spectral effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 7
- 238000001831 conversion spectrum Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000008451 emotion Effects 0.000 abstract description 46
- 238000005516 engineering process Methods 0.000 abstract description 22
- 238000012549 training Methods 0.000 description 80
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010238 partial least squares regression Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音转换方法,包括:将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。可见,本发明能够同时基于原始语音的基频和频谱进行原始语音的情感转换,提高最终得到的转换语音的情感相似度和自然度,提高情感语音转换技术的语音转换质量。本发明还涉及区块链技术领域。
Description
技术领域
本发明涉及音频转换技术领域,尤其涉及一种语音转换方法、装置、计算机设备以及存储介质。
背景技术
情感语音转换技术(EVC)是语音转换技术(VC)的一种,其能够实现在保留语音内容和说话人身份的同时,将语音的情感从一种状态转换到另一种状态。目前,情感语音转换技术被广泛地应用在智能对话系统、语音助手与会话代理等应用中。情感语音转换技术早期的研究方法主要有高斯混合模型(GMM)、偏最小二乘回归(PLSR)及群稀疏表示方法,这些研究方法的语音转换质量都不够理想,如,转换后的语音的情感相似度和自然度都不够理想。近年,使用深度学习技术进行情感语音转换已取得一定的成效,如,将深度神经网络(DNN)与变分自编码器(VAE)应用在情感语音转换的过程中,大大提高了语音转换质量,但是使用深度学习技术进行情感语音转换的语音转换质量仍未能达到理想的标准。可见,目前的情感语音转换技术的语音转换质量仍有进一步提升的空间。
发明内容
本发明所要解决的技术问题在于,目前的情感语音转换技术的语音转换质量较低。
为了解决上述技术问题,本发明第一方面公开了一种语音转换方法,所述方法包括:
将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
本发明第二方面公开了一种语音转换装置,所述装置包括:
语音分析模块,用于将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基频转换模块,用于基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
频谱转换模块,用于基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
语音合成模块,用于将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的语音转换方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的语音转换方法中的部分或全部步骤。
本发明实施例中,首先将原始语音输入至预设的声码器进行分析,得到原始语音对应的基频信息和频谱信息,然后基于预设的基频转换模型对基频信息进行基于CWT变换的转换,得到转换基频信息,基于预设的频谱转换模型对频谱信息进行基于MCEPS变换的转换,得到转换频谱信息,最后将转换基频信息和转换频谱信息输入至声码器进行语音合成,得到转换语音,从而能够同时基于原始语音的基频和频谱进行原始语音的情感转换,提高最终得到的转换语音的情感相似度和自然度,提高情感语音转换技术的语音转换质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音转换方法的流程示意图;
图2是本发明实施例公开的一种语音转换方法的整体示意图;
图3是本发明实施例公开的一种语音转换模型的训练方法的流程示意图;
图4是本发明实施例公开的一种语音转换模型的训练方法的整体示意图;
图5是本发明实施例公开的一种语音转换装置的结构示意图;
图6是本发明实施例公开的一种语音转换模型的训练装置的结构示意图;
图7是本发明实施例公开的一种计算机设备的结构示意图;
图8是本发明实施例公开的一种计算机存储介质的结构示意图;
图9是本发明实施例公开的另一种计算机设备的结构示意图;
图10是本发明实施例公开的另一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种语音转换方法、装置、计算机设备以及存储介质,首先将原始语音输入至预设的声码器进行分析,得到原始语音对应的基频信息和频谱信息,然后基于预设的基频转换模型对基频信息进行基于CWT变换的转换,得到转换基频信息,基于预设的频谱转换模型对频谱信息进行基于MCEPS变换的转换,得到转换频谱信息,最后将转换基频信息和转换频谱信息输入至声码器进行语音合成,得到转换语音,从而能够同时基于原始语音的基频和频谱进行原始语音的情感转换,提高最终得到的转换语音的情感相似度和自然度,提高情感语音转换技术的语音转换质量。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种语音转换方法的流程示意图。如图1所示,该语音转换方法可以包括以下操作:
101、将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
102、基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
103、基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
104、将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
本发明实施例中,如图2所示,声码器可以是world声码器。将原始语音输入至world声码器之后,world声码器即可以使用DIO算法对原始语音进行分析,从而得到原始语音对应的基频信息F0。另外,将原始语音输入至world声码器之后,world声码器还可以使用CheapTrick算法对原始语音进行频谱分析,从而得到原始语音对应的频谱信息Spectrum。在得到原始语音对应的基频信息F0(即转换后的F0)之后,即可以使用预设的基频转换模型对基频信息F0进行转换,得到转换基频信息。在得到原始语音对应的频谱信息Spectrum之后,即可以使用预设的频谱转换模型对频谱信息Spectrum进行转换,得到转换频谱信息(即转换后的Spectrum)。其中,基频转换模型和频谱转换模型均可以通过对PSR-StarGAN模型进行训练后获得,对于基频转换模型和频谱转换模型的训练过程以及信息转换过程,稍后进行具体描述。最后,将转换基频信息和转换频谱信息输入至world声码器进行语音合成,即可以合成最终的转换语音,从而完成对原始语音的情感转换。
可见,实施图1所描述的语音转换方法,首先将原始语音输入至预设的声码器进行分析,得到原始语音对应的基频信息和频谱信息,然后基于预设的基频转换模型对基频信息进行基于CWT变换的转换,得到转换基频信息,基于预设的频谱转换模型对频谱信息进行基于MCEPS变换的转换,得到转换频谱信息,最后将转换基频信息和转换频谱信息输入至声码器进行语音合成,得到转换语音,从而能够同时基于原始语音的基频和频谱进行原始语音的情感转换,提高最终得到的转换语音的情感相似度和自然度,提高情感语音转换技术的语音转换质量。
在一个可选的实施例中,所述基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息,包括:
对所述基频信息执行CWT变换,得到CWT基频信息;
将所述CWT基频信息输入至预设的基频转换模型进行分析,得到转换CWT基频信息;
对所述转换CWT基频信息执行CWT逆变换,得到转换基频信息。
如图2所示,在得到原始语音的基频信息F0之后,可以先对基频信息F0进行CWT变换,再输入至PSR-StarGAN模型进行转换,最后再进行CWT逆变换,从而完成对基频信息F0的转换,得到转换基频信息。其中,CWT(Continuous Wavelet Transform)变换即是连续小波变换,是一种利用连续小波变换将基频信息F0分解为不同时间尺度的非线性方法,在PSR-StarGAN模型进行转换的前后,进行CWT变换和CWT逆变换,有利于提高PSR-StarGAN模型的情感转换的性能,提高情感语音转换技术的语音转换质量。
可见,实施该可选的实施例,在将基频信息转换为转换基频信息时,在PSR-StarGAN模型进行转换的前后,进行CWT变换和CWT逆变换,从而有利于提高PSR-StarGAN模型的情感转换的性能,提高情感语音转换技术的语音转换质量。
在一个可选的实施例中,所述基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息,包括:
对所述频谱信息执行MCEPS变换,得到所述频谱信息对应的梅尔频谱倒谱系数;
将所述梅尔频谱倒谱系数输入至预设的频谱转换模型进行分析,得到转换梅尔频谱倒谱系数;
对所述转换梅尔频谱倒谱系数执行MCEPS逆变换,得到转换频谱信息。
如图2所示,在得到原始语音的频谱信息Spectrum之后,可以先对频谱信息Spectrum进行MCEPS变换,再输入至PSR-StarGAN模型进行转换,最后再进行MCEPS逆变换,从而完成对频谱信息Spectrum的转换,得到转换频谱信息。其中,MCEPS(mel-cepstralcoefficients)变换即是梅尔频谱倒谱系数转换,是一种能够从语音的频谱中计算出语音的梅尔频谱倒谱系数的方法,在PSR-StarGAN模型进行转换的前后,进行MCEPS变换和MCEPS逆变换,有利于提高PSR-StarGAN模型的情感转换的性能,提高情感语音转换技术的语音转换质量。
可见,实施该可选的实施例,在将频谱信息转换为转换频谱信息时,在PSR-StarGAN模型进行转换的前后,进行MCEPS变换和MCEPS逆变换,有利于提高PSR-StarGAN模型的情感转换的性能,提高情感语音转换技术的语音转换质量。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均是基于StarGAN模型构建的模型。
在该可选的实施例中,基频转换模型和频谱转换模型均可以是PSR-StarGAN模型。PSR-StarGAN模型是一种在StarGAN模型的基础之上进行改进的模型。StarGAN模型是GAN(Generative Adversarial Network,生成对抗网络)模型中的一种典型模型,根据该模型的外形将该模型命名为星形网络,即StarGAN。
可选地,PSR-StarGAN模型可以在StarGAN模型的基础上引入感知损失函数来构建模型中的生成器,使得PSR-StarGAN模型可以学习更高层级的频谱与韵律特征,从而能够提高PSR-StarGAN模型的情感转换的性能。
可选地,PSR-StarGAN模型还可以在StarGAN模型的基础上使用SwitchableNormalization代替Batch Normalization,使得PSR-StarGAN模型的不同归一化层可以学习不同的操作,从而能够提高PSR-StarGAN模型的情感转换的性能。其中,SwitchableNormalization(SN)是一种可微分学习的自适配归一化方法,是一种规范化技术,能够学习深度神经网络中不同规范化层的不同规范化操作,Batch Normalization(BN)则是一种批归一化方法。
可选地,PSR-StarGAN模型还可以在StarGAN模型的基础之上使用ResidualNetwork建立generator编码器和解码器之间不同层次的映射,使得PSR-StarGAN模型在进行语音情感转换时能够保留更多的语义特征,从而能够提高PSR-StarGAN模型的转换语音的自然度。其中,Residual Network是残差网络,generator是生成器。
可见,实施该可选的实施例,在StarGAN模型的基础上引入感知损失函数来构建模型中的生成器、使用Switchable Normalization代替Batch Normalization、使用ResidualNetwork建立generator编码器和解码器之间不同层次的映射,以作为基频转换模型和频谱转换模型,使得基频转换模型和频谱转换模型能够学习更高层级的频谱与韵律特征、基频转换模型和频谱转换模型的不同归一化层能够学习不同的操作、基频转换模型和频谱转换模型在进行语音情感转换时能够保留更多的语义特征,从而能够提高基频转换模型和频谱转换模型的语音情感转换的性能,提高基频转换模型和频谱转换模型的语音转换质量。
可选地,还可以:将所述语音转换方法的语音转换信息上传至区块链中。
具体来说,语音转换信息是通过运行所述语音转换方法后得到的,用于记录语音转换情况,例如,原始语音对应的基频信息和频谱信息、转换基频信息、转换频谱信息、原始语音、转换语音等等。将语音转换信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该语音转换信息,以便查证所述语音转换方法的语音转换信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
可见,实施本发明实施例,首先将原始语音输入至预设的声码器进行分析,得到原始语音对应的基频信息和频谱信息,然后基于预设的基频转换模型对基频信息进行基于CWT变换的转换,得到转换基频信息,基于预设的频谱转换模型对频谱信息进行基于MCEPS变换的转换,得到转换频谱信息,最后将转换基频信息和转换频谱信息输入至声码器进行语音合成,得到转换语音,从而能够同时基于原始语音的基频和频谱进行原始语音的情感转换,提高最终得到的转换语音的情感相似度和自然度,提高情感语音转换技术的语音转换质量。还在将基频信息转换为转换基频信息时,在PSR-StarGAN模型进行转换的前后,进行CWT变换和CWT逆变换,从而有利于提高PSR-StarGAN模型的情感转换的性能,提高情感语音转换技术的语音转换质量。还在将频谱信息转换为转换频谱信息时,在PSR-StarGAN模型进行转换的前后,进行MCEPS变换和MCEPS逆变换,有利于提高PSR-StarGAN模型的情感转换的性能,提高情感语音转换技术的语音转换质量。还在StarGAN模型的基础上引入感知损失函数来构建模型中的生成器、使用Switchable Normalization代替Batch Normalization、使用Residual Network建立generator编码器和解码器之间不同层次的映射,以作为基频转换模型和频谱转换模型,使得基频转换模型和频谱转换模型能够学习更高层级的频谱与韵律特征、基频转换模型和频谱转换模型的不同归一化层能够学习不同的操作、基频转换模型和频谱转换模型在进行语音情感转换时能够保留更多的语义特征,从而能够提高基频转换模型和频谱转换模型的语音情感转换的性能,提高基频转换模型和频谱转换模型的语音转换质量。
实施例二
请参阅图3,图3是本发明实施例公开的一种语音转换模型的训练方法的流程示意图。如图3所示,该语音转换模型的训练方法可以包括以下操作:
301、将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
302、将训练语音输入至所述声码器进行分析,得到所述训练语音对应的训练基频信息和训练频谱信息;
303、基于所述基频信息和所述训练基频信息对预设的基频转换模型进行基于CWT变换的训练,得到训练完成的基频转换模型;
304、基于所述频谱信息和所述训练频谱信息对预设的频谱转换模型进行基于MCEPS变换的训练,得到训练完成的频谱转换模型。
本发明实施例中,如图4所示,声码器可以是world声码器。将原始语音和训练语音分别输入至world声码器之后,world声码器即可以使用DIO算法对原始语音和训练语音分别进行分析,从而得到原始语音和训练语音分别对应的基频信息F0。另外,将原始语音和训练语音分别输入至world声码器之后,world声码器还可以使用CheapTrick算法对原始语音和训练语音分别进行频谱分析,从而得到原始语音和训练语音分别对应的频谱信息Spectrum。最后,基于原始语音和训练语音分别对应的基频信息F0完成对基频转换模型的训练,基于原始语音和训练语音分别对应的频谱信息Spectrum完成对频谱转换模型的训练。其中,基频转换模型和频谱转换模型的训练思想与GAN模型的训练思想一样,基于一个生成器和一个判别器,生成器根据原始语音生成一个假的中间语音,然后使用判别器判断这个假的中间语音是否和训练语音一致,并将这个信息反馈至生成器,据此逐次分别提高生成器和判别器的能力,以使生成器逐渐获得生成与训练语音一致的语音的能力。
可见,实施图3所描述的语音转换模型的训练方法,将原始语音和训练语音分别输入至声码器进行分析,得到原始语音对应的基频信息和频谱信息、训练语音对应的训练基频信息和训练频谱信息,基于原始语音和训练语音分别对应的基频信息完成对基频转换模型的训练,基于原始语音和训练语音分别对应的频谱信息完成对频谱转换模型的训练,从而能够同时基于语音的基频和频谱完成语音转换模型的训练,提高语音转换模型的语音情感转换能力,提高情感语音转换技术的语音转换质量。
在一个可选的实施例中,所述基于所述基频信息和所述训练基频信息对预设的基频转换模型进行基于CWT变换的训练,得到训练完成的基频转换模型,包括:
对所述基频信息执行CWT变换,得到CWT基频信息;
对所述训练基频信息执行CWT变换,得到CWT训练基频信息;
基于所述CWT基频信息和所述CWT训练基频信息对预设的基频转换模型进行训练,得到训练完成的基频转换模型。
在一个可选的实施例中,所述基于所述频谱信息和所述训练频谱信息对预设的频谱转换模型进行基于MCEPS变换的训练,得到训练完成的频谱转换模型,包括:
对所述频谱信息执行MCEPS变换,得到所述频谱信息对应的梅尔频谱倒谱系数;
对所述训练频谱信息执行MCEPS变换,得到所述训练频谱信息对应的梅尔频谱倒谱系数;
基于所述频谱信息和所述训练频谱信息分别对应的梅尔频谱倒谱系数对预设的频谱转换模型进行训练,得到训练完成的频谱转换模型。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均是基于StarGAN模型构建的模型。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上引入感知损失函数来构建模型中的生成器。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Switchable Normalization代替Batch Normalization。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Residual Network建立generator编码器和解码器之间不同层次的映射。
对于上述语音转换模型的训练方法的具体描述可以参照上述语音转换方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图5,图5是本发明实施例公开的一种语音转换装置的结构示意图。如图5所示,该语音转换装置可以包括:
语音分析模块501,用于将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基频转换模块502,用于基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
频谱转换模块503,用于基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
语音合成模块504,用于将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
在一个可选的实施例中,所述基频转换模块502基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息的具体方式为:
对所述基频信息执行CWT变换,得到CWT基频信息;
将所述CWT基频信息输入至预设的基频转换模型进行分析,得到转换CWT基频信息;
对所述转换CWT基频信息执行CWT逆变换,得到转换基频信息。
在一个可选的实施例中,所述频谱转换模块503基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息的具体方式为:
对所述频谱信息执行MCEPS变换,得到所述频谱信息对应的梅尔频谱倒谱系数;
将所述梅尔频谱倒谱系数输入至预设的频谱转换模型进行分析,得到转换梅尔频谱倒谱系数;
对所述转换梅尔频谱倒谱系数执行MCEPS逆变换,得到转换频谱信息。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均是基于StarGAN模型构建的模型。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上引入感知损失函数来构建模型中的生成器。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Switchable Normalization代替Batch Normalization。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Residual Network建立generator编码器和解码器之间不同层次的映射。
对于上述语音转换装置的具体描述可以参照上述语音转换方法的具体描述,为避免重复,在此不再一一赘述。
实施例四
请参阅图6,图6是本发明实施例公开的一种语音转换模型的训练装置的结构示意图。如图6所示,该语音转换模型的训练装置可以包括:
原始语音分析模块601,用于将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
训练语音分析模块602,用于将训练语音输入至所述声码器进行分析,得到所述训练语音对应的训练基频信息和训练频谱信息;
基频转换模型训练模块603,用于基于所述基频信息和所述训练基频信息对预设的基频转换模型进行基于CWT变换的训练,得到训练完成的基频转换模型;
频谱转换模型训练模块604,用于基于所述频谱信息和所述训练频谱信息对预设的频谱转换模型进行基于MCEPS变换的训练,得到训练完成的频谱转换模型。
在一个可选的实施例中,所述基频转换模型训练模块603基于所述基频信息和所述训练基频信息对预设的基频转换模型进行基于CWT变换的训练,得到训练完成的基频转换模型的具体方式为:
对所述基频信息执行CWT变换,得到CWT基频信息;
对所述训练基频信息执行CWT变换,得到CWT训练基频信息;
基于所述CWT基频信息和所述CWT训练基频信息对预设的基频转换模型进行训练,得到训练完成的基频转换模型。
在一个可选的实施例中,所述频谱转换模型训练模块604基于所述频谱信息和所述训练频谱信息对预设的频谱转换模型进行基于MCEPS变换的训练,得到训练完成的频谱转换模型的具体方式为:
对所述频谱信息执行MCEPS变换,得到所述频谱信息对应的梅尔频谱倒谱系数;
对所述训练频谱信息执行MCEPS变换,得到所述训练频谱信息对应的梅尔频谱倒谱系数;
基于所述频谱信息和所述训练频谱信息分别对应的梅尔频谱倒谱系数对预设的频谱转换模型进行训练,得到训练完成的频谱转换模型。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均是基于StarGAN模型构建的模型。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上引入感知损失函数来构建模型中的生成器。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Switchable Normalization代替Batch Normalization。
在一个可选的实施例中,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Residual Network建立generator编码器和解码器之间不同层次的映射。
对于上述语音转换模型的训练装置的具体描述可以参照上述语音转换模型的训练方法的具体描述,为避免重复,在此不再一一赘述。
实施例五
请参阅图7,图7是本发明实施例公开的一种计算机设备的结构示意图。如图7所示,该计算机设备可以包括:
存储有可执行程序代码的存储器701;
与存储器701连接的处理器702;
处理器702调用存储器701中存储的可执行程序代码,执行本发明实施例一公开的语音转换方法中的步骤。
实施例六
请参阅图8,本发明实施例公开了一种计算机存储介质801,计算机存储介质801存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的语音转换方法中的步骤。
实施例七
请参阅图9,图9是本发明实施例公开的另一种计算机设备的结构示意图。如图9所示,该计算机设备可以包括:
存储有可执行程序代码的存储器901;
与存储器901连接的处理器902;
处理器902调用存储器901中存储的可执行程序代码,执行本发明实施例二公开的语音转换模型的训练方法中的步骤。
实施例八
请参阅图10,本发明实施例公开了另一种计算机存储介质1001,计算机存储介质1001存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例二公开的语音转换模型的训练方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种语音转换方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种语音转换方法,其特征在于,所述方法包括:
将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
2.根据权利要求1所述的语音转换方法,其特征在于,所述基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息,包括:
对所述基频信息执行CWT变换,得到CWT基频信息;
将所述CWT基频信息输入至预设的基频转换模型进行分析,得到转换CWT基频信息;
对所述转换CWT基频信息执行CWT逆变换,得到转换基频信息。
3.根据权利要求1所述的语音转换方法,其特征在于,所述基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息,包括:
对所述频谱信息执行MCEPS变换,得到所述频谱信息对应的梅尔频谱倒谱系数;
将所述梅尔频谱倒谱系数输入至预设的频谱转换模型进行分析,得到转换梅尔频谱倒谱系数;
对所述转换梅尔频谱倒谱系数执行MCEPS逆变换,得到转换频谱信息。
4.根据权利要求1-3任一项所述的语音转换方法,其特征在于,所述基频转换模型和所述频谱转换模型均是基于StarGAN模型构建的模型。
5.根据权利要求4所述的语音转换方法,其特征在于,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上引入感知损失函数来构建模型中的生成器。
6.根据权利要求4所述的语音转换方法,其特征在于,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Switchable Normalization代替BatchNormalization。
7.根据权利要求4所述的语音转换方法,其特征在于,所述基频转换模型和所述频谱转换模型均在所述StarGAN模型的基础之上使用Residual Network建立generator编码器和解码器之间不同层次的映射。
8.一种语音转换装置,其特征在于,所述装置包括:
语音分析模块,用于将原始语音输入至预设的声码器进行分析,得到所述原始语音对应的基频信息和频谱信息;
基频转换模块,用于基于预设的基频转换模型对所述基频信息进行基于CWT变换的转换,得到转换基频信息;
频谱转换模块,用于基于预设的频谱转换模型对所述频谱信息进行基于MCEPS变换的转换,得到转换频谱信息;
语音合成模块,用于将所述转换基频信息和所述转换频谱信息输入至所述声码器进行语音合成,得到转换语音。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的语音转换方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110731052.6A CN113421576B (zh) | 2021-06-29 | 2021-06-29 | 语音转换方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110731052.6A CN113421576B (zh) | 2021-06-29 | 2021-06-29 | 语音转换方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113421576A true CN113421576A (zh) | 2021-09-21 |
CN113421576B CN113421576B (zh) | 2024-05-24 |
Family
ID=77717337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110731052.6A Active CN113421576B (zh) | 2021-06-29 | 2021-06-29 | 语音转换方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421576B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778937A (zh) * | 2023-03-28 | 2023-09-19 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090089063A1 (en) * | 2007-09-29 | 2009-04-02 | Fan Ping Meng | Voice conversion method and system |
CN107705802A (zh) * | 2017-09-11 | 2018-02-16 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
CN111696520A (zh) * | 2020-05-26 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、介质及电子设备 |
CN112466314A (zh) * | 2020-11-27 | 2021-03-09 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
WO2021047233A1 (zh) * | 2019-09-10 | 2021-03-18 | 苏宁易购集团股份有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
-
2021
- 2021-06-29 CN CN202110731052.6A patent/CN113421576B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090089063A1 (en) * | 2007-09-29 | 2009-04-02 | Fan Ping Meng | Voice conversion method and system |
CN107705802A (zh) * | 2017-09-11 | 2018-02-16 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
WO2021047233A1 (zh) * | 2019-09-10 | 2021-03-18 | 苏宁易购集团股份有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
CN111696520A (zh) * | 2020-05-26 | 2020-09-22 | 深圳壹账通智能科技有限公司 | 智能配音方法、装置、介质及电子设备 |
CN112466314A (zh) * | 2020-11-27 | 2021-03-09 | 平安科技(深圳)有限公司 | 情感语音数据转换方法、装置、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778937A (zh) * | 2023-03-28 | 2023-09-19 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113421576B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN108182936A (zh) | 语音信号生成方法和装置 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
CN110033755A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
Chen et al. | A deep generative architecture for postfiltering in statistical parametric speech synthesis | |
CN107680597A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN105654939A (zh) | 一种基于音向量文本特征的语音合成方法 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
Neekhara et al. | Expressive neural voice cloning | |
CN111128118A (zh) | 语音合成方法、相关设备及可读存储介质 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
Pascual et al. | Multi-output RNN-LSTM for multiple speaker speech synthesis and adaptation | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN113421576B (zh) | 语音转换方法、装置、设备以及存储介质 | |
JP3014177B2 (ja) | 話者適応音声認識装置 | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
CN117392972A (zh) | 基于对比学习的语音合成模型训练方法、装置及合成方法 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
CN115424605B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN113870827A (zh) | 一种语音合成模型的训练方法、装置、设备及介质 | |
CN114627851A (zh) | 一种语音合成方法及系统 | |
CN114822497A (zh) | 语音合成模型的训练及语音合成方法、装置、设备和介质 | |
Baas et al. | Disentanglement in a GAN for unconditional speech synthesis | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 | |
Yoneyama et al. | High-Fidelity and Pitch-Controllable Neural Vocoder Based on Unified Source-Filter Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |