CN112634914B - 基于短时谱一致性的神经网络声码器训练方法 - Google Patents
基于短时谱一致性的神经网络声码器训练方法 Download PDFInfo
- Publication number
- CN112634914B CN112634914B CN202011482467.6A CN202011482467A CN112634914B CN 112634914 B CN112634914 B CN 112634914B CN 202011482467 A CN202011482467 A CN 202011482467A CN 112634914 B CN112634914 B CN 112634914B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- natural
- predictor
- predicted
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 336
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012360 testing method Methods 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 230000005284 excitation Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 28
- 238000001308 synthesis method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Auxiliary Devices For Music (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于短时谱一致性的神经网络声码器训练方法,包括:使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器;将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器;本发明提供的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于短时谱一致性的神经网络声码器训练方法及语音合成方法。
背景技术
语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话,它使许多语音交互应用受益,例如智能个人助理和机器人。当前,统计参数语音合成(statisticalparametric speech synthesis,SPSS)是其中一种主流的方法。
统计参数语音合成利用声学模型来建模文本特征和声学特征之间的关系,并利用声码器(vocoder)在给定预测声学特征的情况下得到语音波形。声码器的性能会显著影响合成语音的质量。传统的声码器如STRAIGHT和WORLD被广泛应用到目前的SPSS系统中。然而,这些传统的声码器存在一些缺陷,例如谱细节和相位信息的丢失,会导致合成语音听感的下降。随着神经网络的发展,一些神经网络声码器逐渐被提出,如自回归的神经网络声码器、基于知识蒸馏的神经网络声码器、基于逆自回归流的神经网络声码器、基于神经网络声门模型和线性自回归的神经网络声码器以及无自回归无流的神经网络声码器等。这些神经网络声码器相比传统声码器大幅提升了SPSS系统合成语音的质量。然而,这些神经网络声码器都对最终的波形或者中间的波形在点级别上进行建模,容易造成模型规模过大或者生成效率过低的问题。于是,幅度相位谱分级预测神经网络声码器HiNet被提出,分别预测语音的幅度谱和相位谱,再合成波形。其一方面更加分别关注于对波形的这两个重要部分的建模,能够提升合成质量;另一方面对谱的建模可以减少点级的运算操作,增加帧级的运算操作,从而提升合成效率。
然而,HiNet声码器存在的一个问题是:由于幅度谱和相位谱的分别预测,二者结合得到的短时谱可能不满足短时谱一致性的条件,造成合成语音波形质量的损失。
发明内容
本发明在神经网络声码器的原训练方式基础上,设计了短时谱一致性损失函数来联合训练神经网络声码器中的幅度谱预测器和相位谱预测器,以减轻预测的幅度谱和相位谱结合的短时谱存在的不一致的问题,提升合成语音质量。
在本发明实施方式的第一方面中,提供了一种基于短时谱一致性的神经网络声码器训练方法,其中,上述神经网络声码器包括幅度谱预测器和相位谱预测器,包括:
使用自然声学特征和自然对数幅度谱训练上述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练上述相位谱预测器;
将训练后的上述幅度谱预测器和上述相位谱预测器进行连接,通过上述自然声学特征、上述自然对数幅度谱、上述自然基频和上述自然波形训练连接后的上述幅度谱预测器和上述相位谱预测器;
其中,通过对自然波形进行特征提取得到上述自然声学特征和上述自然基频,对上述自然波形进行短时傅里叶变换得到上述自然对数幅度谱,上述自然波形为用于模型训练的真实录音的语音波形。
在本发明的一个实施例中,上述使用自然声学特征和自然对数幅度谱训练上述幅度谱预测器包括:
上述幅度谱预测器根据输入的上述自然声学特征得到第一预测对数幅度谱;
通过上述自然对数幅度谱和上述第一预测对数幅度谱计算得到幅度谱预测器损失函数,其中,上述幅度谱预测器损失函数为上述第一预测对数幅度谱与上述自然对数幅度谱的均方误差;
以上述自然对数幅度谱作参考,通过上述幅度谱预测器损失函数对上述幅度谱预测器进行训练。
在本发明的另一个实施例中,上述使用自然对数幅度谱、自然对数幅度谱、自然基频和自然波形训练上述相位谱预测器包括:
将上述自然基频输入到上述相位谱预测器的源模块中,输出正弦激励信号;
将上述正弦激励信号和上述自然对数幅度谱输入到上述相位谱预测器的滤波模块,输出第一样本波形;
以上述自然波形作参考,根据上述第一样本波形并通过相位谱预测器损失函数对上述相位谱预测器进行训练;
其中:上述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;上述幅度谱损失为上述自然波形和上述样本波形中提取的幅度谱之间的均方误差;上述波形损失为上述自然波形和上述样本波形在其对应的时域的均方误差;上述负相关系数损失为上述自然波形和上述样本波形的负相关系数。
在本发明的又一个实施例中,上述通过上述自然声学特征、上述自然对数幅度谱、上述自然基频和上述自然波形训练连接后的上述幅度谱预测器和上述相位谱预测器包括:
上述幅度谱预测器根据输入的上述自然声学特征输出第二预测对数幅度谱;
上述相位谱预测器根据输入的上述第二预测对数幅度谱和上述自然基频提取预测相位谱;
将上述第二预测对数幅度谱和上述预测相位谱组合得到预测短时谱;
通过对上述预测短时谱计算得到预测短时谱一致性损失函数;
通过联合损失函数对上述幅度谱预测器和上述相位谱预测器进行训练;
其中:上述联合损失函数为上述预测短时谱一致性损失函数、上述幅度谱预测器损失函数和上述相位谱预测器损失函数之和。
在本发明的再一个实施例中,上述幅度谱预测器根据输入的上述自然声学特征输出第二预测对数幅度谱包括:
其中:ASP表示幅度谱预测器,表示第n帧的预测对数幅度谱,k表示频率点索引,a表示自然声学特征。
在本发明的再一个实施例中,上述相位谱预测器根据输入的上述第二预测对数幅度谱和上述自然基频提取预测相位谱包括:
将上述自然基频输入到上述相位谱预测器的源模块中,输出正弦激励信号;
将上述正弦激励信号和上述第二对数幅度谱输入到上述相位谱预测器的滤波模块,输出第二样本波形;
通过短时傅里叶变换从上述第二样本波形中提取预测相位谱。
在本发明的再一个实施例中,上述通过短时傅里叶变换从上述第二样本波形中提取预测相位谱包括:
其中:表示第二预测对数幅度谱,f表示自然基频,PSP表示相位谱预测器,ANG表示从短时谱中取角度的操作。
在本发明的再一个实施例中,上述将上述第二预测对数幅度谱和上述预测相位谱组合得到预测短时谱包括:
其中:j为虚数单位。
在本发明的再一个实施例中,上述通过上述预测短时谱得到预测短时谱一致性损失函数包括:
在本发明实施方式的第二方面中,提供了一种利用上述训练方法得到的神经网络声码器进行语音合成的方法,包括:
将测试的声学特征输入到上述幅度谱预测器中,输出测试对数幅度谱;
将上述测试对数幅度谱和测试的基频输入到上述相位谱预测器中,输出测试相位谱;
将上述测试对数幅度谱和上述测试相位谱组合成测试短时谱;
将上述测试短时谱通过逆短时傅里叶变换得到测试的语音波形。
本发明实施例提供的短时谱一致性的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。
附图说明
图1是本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法流程图;
图2是本发明实施例提供的分别训练幅度谱预测器和相位谱预测器的流程图;
图3是本发明实施例提供的联合训练幅度谱预测器和相位谱预测器的流程图;
图4是本发明实施例提供的语音合成方法流程图;
图中:1、幅度谱预测器;2、相位谱预测器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提供的基于短时谱一致性的神经网络声码器训练方法应用于幅度相位谱分级预测的神经网络声码器HiNet中,用于减轻预测的幅度谱和相位谱结合的短时谱存在的不一致的问题。HiNet声码器由幅度谱预测器和相位谱预测器组成。
由于HiNet声码器的幅度谱和相位谱是分开单独预测的,二者组成的短时谱很难满足一致性条件,即组成的短时谱落在短时谱域之外,而其对应的满足一致性条件的短时谱是其经过逆短时傅里叶变换(inverse short-time Fourier transform,ISTFT)和短时傅里叶变换(short-time Fourier transform,STFT)后的落在短时谱域内的结果。直观地,缩小组成的短时谱与其对应的满足一致性条件的短时谱之间的差距有助于缓解短时谱不一致的问题,于是本发明提出了短时谱一致性损失函数,定义为二者差的2范数。
下面结合图1对本发明示例性实施方式的基于短时谱一致性的神经网络声码器训练方法进行描述。
图1是本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法流程图。
如图1所示,本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法,包括操作S101~S102,其中,短时谱为时域波形通过加窗截取分为若干部分,再将若干部分进行傅里叶变换拼接后得到。
在操作S101,使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器。
在操作S102,将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器。
需要说明的是,自然波形为用于模型训练的真实录音的语音波形,自然声学特征和自然基频为通过对自然波形进行特征提取得到,自然对数幅度谱是对自然波形进行短时傅里叶变换得到。
在本实施例中,图2是本发明实施例提供的分别训练幅度谱预测器和相位谱预测器的流程图;如图2所示,使用自然声学特征和自然对数幅度谱训练幅度谱预测器,包括操作S211~S213。
在操作S211,幅度谱预测器根据输入的自然声学特征得到第一预测对数幅度谱,本实施例中的自然声学特征a=[a1,...,aN]T,其中,an=[an,1,...,an,C]T是第n帧的声学特征,c是声学特征维度索引。
在操作S212,通过自然对数幅度谱和第一预测对数幅度谱计算得到幅度谱预测器损失函数,其中,幅度谱预测器损失函数为第一预测对数幅度谱与自然对数幅度谱的均方误差。
在操作S213,以自然对数幅度谱作参考,通过幅度谱预测器损失函数对幅度谱预测器进行训练。
在本实施例中,如图2所示,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器,包括操作S221~S223:
在操作S221,将自然基频输入到相位谱预测器的源模块中,输出正弦激励信号。
在操作S222,将正弦激励信号和自然对数幅度谱输入到相位谱预测器的滤波模块,输出第一样本波形。
在操作S223,以自然波形作参考,根据第一样本波形并通过相位谱预测器损失函数对相位谱预测器进行训练;需要说明的是,相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;幅度谱损失为自然波形和样本波形中提取的幅度谱之间的均方误差;波形损失为自然波形和样本波形在其对应的时域的均方误差;负相关系数损失为自然波形和样本波形的负相关系数。
在本实施例中,图3是本发明实施例提供的联合训练幅度谱预测器和相位谱预测器的流程图;如图3所示,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器,包括操作S311~S315。
在操作S311,幅度谱预测器根据输入的自然声学特征输出第二预测对数幅度谱。
在操作S312,相位谱预测器根据输入的第二预测对数幅度谱和自然基频提取预测相位谱。
在操作S313,将第二预测对数幅度谱和预测相位谱组合得到预测短时谱。
在操作S314,通过对预测短时谱计算得到预测短时谱一致性损失函数。
在操作S315,通过联合损失函数对幅度谱预测器和相位谱预测器进行训练;需要说明的是,联合损失函数为预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和。
在本实施例中,幅度谱预测器根据输入的自然声学特征输出第二预测对数幅度谱包括:
其中:ASP表示幅度谱预测器,表示第n帧的预测对数幅度谱,k表示频率点索引,a表示自然声学特征。
在本实施例中,如图3所示,相位谱预测器根据输入的第二预测对数幅度谱和自然基频提取预测相位谱,包括S321~S323。
在操作S321,将自然基频输入到相位谱预测器的源模块中,输出正弦激励信号。
在操作S322,将正弦激励信号和第二对数幅度谱输入到相位谱预测器的滤波模块,输出第二样本波形。
在操作S323,通过短时傅里叶变换从第二样本波形中提取预测相位谱。
在本发明实施例中,通过短时傅里叶变换从第二样本波形中提取预测相位谱包括:
其中:表示第二预测对数幅度谱,f表示自然基频,PSP表示相位谱预测器,ANG表示从短时谱中取角度的操作。
在本发明实施例中,将第二预测对数幅度谱和预测相位谱组合得到预测短时谱包括:
其中:j为虚数单位。
在本发明实施例中,通过预测短时谱得到预测短时谱一致性损失函数包括:
根据本发明实施例,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题。
在介绍了基于短时谱一致性的神经网络声码器训练方法之后,下面结合图4对利用基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器进行语音合成的方法作进一步介绍。
图4是本发明实施例提供的语音合成方法流程图。如图4所示,本发明实施方式提供利用训练方法得到的神经网络声码器进行语音合成的方法,包括操作S401~S404。
在操作S401,将测试的声学特征输入到幅度谱预测器中,输出测试对数幅度谱。
在操作S402,将测试对数幅度谱和测试的基频输入到相位谱预测器中,输出测试相位谱。
在操作S403,将测试对数幅度谱和测试相位谱组合成测试短时谱。
在操作S404,将测试短时谱通过逆短时傅里叶变换得到测试的语音波形。
根据本发明实施例,通过基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而大幅提高语音的合成质量。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于短时谱一致性的神经网络声码器训练方法,其中,所述神经网络声码器包括幅度谱预测器和相位谱预测器,其特征在于,包括:
使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器;
将训练后的所述幅度谱预测器和所述相位谱预测器进行连接,通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器,包括:所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱;所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱;将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱;通过对所述预测短时谱计算得到预测短时谱一致性损失函数;通过联合损失函数对所述幅度谱预测器和所述相位谱预测器进行训练;其中:所述联合损失函数为所述预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和;
其中,通过对自然波形进行特征提取得到所述自然声学特征和所述自然基频,对所述自然波形进行短时傅里叶变换得到所述自然对数幅度谱,所述自然波形为用于模型训练的真实录音的语音波形。
2.根据权利要求1所述的方法,其特征在于,所述使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器包括:
所述幅度谱预测器根据输入的所述自然声学特征得到第一预测对数幅度谱;
通过所述自然对数幅度谱和所述第一预测对数幅度谱计算得到所述幅度谱预测器损失函数,其中,所述幅度谱预测器损失函数为所述第一预测对数幅度谱与所述自然对数幅度谱的均方误差;
以所述自然对数幅度谱作参考,通过所述幅度谱预测器损失函数对所述幅度谱预测器进行训练。
3.根据权利要求1所述的方法,其特征在于,所述使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器包括:
将所述自然基频输入到所述相位谱预测器的源模块中,输出正弦激励信号;
将所述正弦激励信号和所述自然对数幅度谱输入到所述相位谱预测器的滤波模块,输出第一样本波形;
以所述自然波形作参考,根据所述第一样本波形并通过所述相位谱预测器损失函数对所述相位谱预测器进行训练;
其中:所述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;所述幅度谱损失为所述自然波形和所述样本波形中提取的幅度谱之间的均方误差;所述波形损失为所述自然波形和所述样本波形在其对应的时域的均方误差;所述负相关系数损失为所述自然波形和所述样本波形的负相关系数。
4.根据权利要求1所述的方法,其特征在于,所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱包括:
其中:ASP表示幅度谱预测器,表示第n帧的预测对数幅度谱,k表示频率点索引,a表示自然声学特征。
5.根据权利要求1所述的方法,其特征在于,所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱包括:
将所述自然基频输入到所述相位谱预测器的源模块中,输出正弦激励信号;
将所述正弦激励信号和所述第二预测对数幅度谱输入到所述相位谱预测器的滤波模块,输出第二样本波形;
通过短时傅里叶变换从所述第二样本波形中提取预测相位谱。
6.根据权利要求5所述的方法,其特征在于,所述通过短时傅里叶变换从所述第二样本波形中提取预测相位谱包括:
其中:表示第二预测对数幅度谱,f表示自然基频,PSP表示相位谱预测器,ANG表示从短时谱中取角度的操作。
7.根据权利要求1所述的方法,其特征在于,所述将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱包括:
其中:j为虚数单位。
8.根据权利要求1所述的方法,其特征在于,所述通过所述预测短时谱得到预测短时谱一致性损失函数包括:
9.一种利用根据权利要求1~8任一项所述的基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器进行语音合成的方法,其特征在于,包括:
将测试的声学特征输入到所述幅度谱预测器中,输出测试对数幅度谱;
将所述测试对数幅度谱和测试的基频输入到所述相位谱预测器中,输出测试相位谱;
将所述测试对数幅度谱和所述测试相位谱组合成测试短时谱;
将所述测试短时谱通过逆短时傅里叶变换得到测试的语音波形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482467.6A CN112634914B (zh) | 2020-12-15 | 2020-12-15 | 基于短时谱一致性的神经网络声码器训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482467.6A CN112634914B (zh) | 2020-12-15 | 2020-12-15 | 基于短时谱一致性的神经网络声码器训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634914A CN112634914A (zh) | 2021-04-09 |
CN112634914B true CN112634914B (zh) | 2024-03-29 |
Family
ID=75313381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011482467.6A Active CN112634914B (zh) | 2020-12-15 | 2020-12-15 | 基于短时谱一致性的神经网络声码器训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634914B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519996B (zh) * | 2022-04-20 | 2022-07-08 | 北京远鉴信息技术有限公司 | 一种语音合成类型的确定方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0258100A (ja) * | 1988-08-24 | 1990-02-27 | Nec Corp | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 |
JPH10214100A (ja) * | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
JP2015194666A (ja) * | 2014-03-24 | 2015-11-05 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
CN109346090A (zh) * | 2018-10-29 | 2019-02-15 | 王秉玉 | 一种穿透声码器的方法 |
CN110797002A (zh) * | 2020-01-03 | 2020-02-14 | 同盾控股有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111316352A (zh) * | 2019-12-24 | 2020-06-19 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
KR20200092501A (ko) * | 2019-01-11 | 2020-08-04 | 네이버 주식회사 | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2242045B1 (en) * | 2009-04-16 | 2012-06-27 | Université de Mons | Speech synthesis and coding methods |
CN114694632A (zh) * | 2015-09-16 | 2022-07-01 | 株式会社东芝 | 语音处理装置 |
JP6724932B2 (ja) * | 2018-01-11 | 2020-07-15 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
-
2020
- 2020-12-15 CN CN202011482467.6A patent/CN112634914B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0258100A (ja) * | 1988-08-24 | 1990-02-27 | Nec Corp | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 |
JPH10214100A (ja) * | 1997-01-31 | 1998-08-11 | Sony Corp | 音声合成方法 |
JP2015194666A (ja) * | 2014-03-24 | 2015-11-05 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
CN109346090A (zh) * | 2018-10-29 | 2019-02-15 | 王秉玉 | 一种穿透声码器的方法 |
KR20200092501A (ko) * | 2019-01-11 | 2020-08-04 | 네이버 주식회사 | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 |
CN111316352A (zh) * | 2019-12-24 | 2020-06-19 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN110797002A (zh) * | 2020-01-03 | 2020-02-14 | 同盾控股有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112634914A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Erro et al. | Parametric voice conversion based on bilinear frequency warping plus amplitude scaling | |
Polyak et al. | Unsupervised cross-domain singing voice conversion | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN105474311A (zh) | 基于听觉场景分析及语音模型化的语音信号分离及合成 | |
Jiang et al. | Geometric methods for spectral analysis | |
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
CN112634914B (zh) | 基于短时谱一致性的神经网络声码器训练方法 | |
Rao | Real time prosody modification | |
Li et al. | Speech intelligibility enhancement using non-parallel speaking style conversion with stargan and dynamic range compression | |
Yang et al. | A fast high-fidelity source-filter vocoder with lightweight neural modules | |
Li et al. | Non-Parallel Many-to-Many Voice Conversion with PSR-StarGAN. | |
Wen et al. | Pitch-scaled spectrum based excitation model for HMM-based speech synthesis | |
Roebel et al. | Towards universal neural vocoding with a multi-band excited wavenet | |
Narendra et al. | Parameterization of excitation signal for improving the quality of HMM-based speech synthesis system | |
Al-Radhi et al. | Noise and acoustic modeling with waveform generator in text-to-speech and neutral speech conversion | |
Prasad et al. | Backend tools for speech synthesis in speech processing | |
Wu et al. | Nonlinear speech coding model based on genetic programming | |
Li et al. | Non-parallel voice conversion based on perceptual star generative adversarial network | |
Mohammadi et al. | Speech recognition system based on machine learning in persian language | |
Wen et al. | An excitation model based on inverse filtering for speech analysis and synthesis | |
Chandra et al. | Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan) | |
Nirmal et al. | Voice transformation using radial basis function | |
Narendra et al. | A deterministic plus noise model of excitation signal using principal component analysis for parametric speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |