CN112634914B - 基于短时谱一致性的神经网络声码器训练方法 - Google Patents

基于短时谱一致性的神经网络声码器训练方法 Download PDF

Info

Publication number
CN112634914B
CN112634914B CN202011482467.6A CN202011482467A CN112634914B CN 112634914 B CN112634914 B CN 112634914B CN 202011482467 A CN202011482467 A CN 202011482467A CN 112634914 B CN112634914 B CN 112634914B
Authority
CN
China
Prior art keywords
spectrum
natural
predictor
predicted
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011482467.6A
Other languages
English (en)
Other versions
CN112634914A (zh
Inventor
艾杨
凌震华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011482467.6A priority Critical patent/CN112634914B/zh
Publication of CN112634914A publication Critical patent/CN112634914A/zh
Application granted granted Critical
Publication of CN112634914B publication Critical patent/CN112634914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于短时谱一致性的神经网络声码器训练方法,包括:使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器;将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器;本发明提供的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。

Description

基于短时谱一致性的神经网络声码器训练方法
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于短时谱一致性的神经网络声码器训练方法及语音合成方法。
背景技术
语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话,它使许多语音交互应用受益,例如智能个人助理和机器人。当前,统计参数语音合成(statisticalparametric speech synthesis,SPSS)是其中一种主流的方法。
统计参数语音合成利用声学模型来建模文本特征和声学特征之间的关系,并利用声码器(vocoder)在给定预测声学特征的情况下得到语音波形。声码器的性能会显著影响合成语音的质量。传统的声码器如STRAIGHT和WORLD被广泛应用到目前的SPSS系统中。然而,这些传统的声码器存在一些缺陷,例如谱细节和相位信息的丢失,会导致合成语音听感的下降。随着神经网络的发展,一些神经网络声码器逐渐被提出,如自回归的神经网络声码器、基于知识蒸馏的神经网络声码器、基于逆自回归流的神经网络声码器、基于神经网络声门模型和线性自回归的神经网络声码器以及无自回归无流的神经网络声码器等。这些神经网络声码器相比传统声码器大幅提升了SPSS系统合成语音的质量。然而,这些神经网络声码器都对最终的波形或者中间的波形在点级别上进行建模,容易造成模型规模过大或者生成效率过低的问题。于是,幅度相位谱分级预测神经网络声码器HiNet被提出,分别预测语音的幅度谱和相位谱,再合成波形。其一方面更加分别关注于对波形的这两个重要部分的建模,能够提升合成质量;另一方面对谱的建模可以减少点级的运算操作,增加帧级的运算操作,从而提升合成效率。
然而,HiNet声码器存在的一个问题是:由于幅度谱和相位谱的分别预测,二者结合得到的短时谱可能不满足短时谱一致性的条件,造成合成语音波形质量的损失。
发明内容
本发明在神经网络声码器的原训练方式基础上,设计了短时谱一致性损失函数来联合训练神经网络声码器中的幅度谱预测器和相位谱预测器,以减轻预测的幅度谱和相位谱结合的短时谱存在的不一致的问题,提升合成语音质量。
在本发明实施方式的第一方面中,提供了一种基于短时谱一致性的神经网络声码器训练方法,其中,上述神经网络声码器包括幅度谱预测器和相位谱预测器,包括:
使用自然声学特征和自然对数幅度谱训练上述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练上述相位谱预测器;
将训练后的上述幅度谱预测器和上述相位谱预测器进行连接,通过上述自然声学特征、上述自然对数幅度谱、上述自然基频和上述自然波形训练连接后的上述幅度谱预测器和上述相位谱预测器;
其中,通过对自然波形进行特征提取得到上述自然声学特征和上述自然基频,对上述自然波形进行短时傅里叶变换得到上述自然对数幅度谱,上述自然波形为用于模型训练的真实录音的语音波形。
在本发明的一个实施例中,上述使用自然声学特征和自然对数幅度谱训练上述幅度谱预测器包括:
上述幅度谱预测器根据输入的上述自然声学特征得到第一预测对数幅度谱;
通过上述自然对数幅度谱和上述第一预测对数幅度谱计算得到幅度谱预测器损失函数,其中,上述幅度谱预测器损失函数为上述第一预测对数幅度谱与上述自然对数幅度谱的均方误差;
以上述自然对数幅度谱作参考,通过上述幅度谱预测器损失函数对上述幅度谱预测器进行训练。
在本发明的另一个实施例中,上述使用自然对数幅度谱、自然对数幅度谱、自然基频和自然波形训练上述相位谱预测器包括:
将上述自然基频输入到上述相位谱预测器的源模块中,输出正弦激励信号;
将上述正弦激励信号和上述自然对数幅度谱输入到上述相位谱预测器的滤波模块,输出第一样本波形;
以上述自然波形作参考,根据上述第一样本波形并通过相位谱预测器损失函数对上述相位谱预测器进行训练;
其中:上述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;上述幅度谱损失为上述自然波形和上述样本波形中提取的幅度谱之间的均方误差;上述波形损失为上述自然波形和上述样本波形在其对应的时域的均方误差;上述负相关系数损失为上述自然波形和上述样本波形的负相关系数。
在本发明的又一个实施例中,上述通过上述自然声学特征、上述自然对数幅度谱、上述自然基频和上述自然波形训练连接后的上述幅度谱预测器和上述相位谱预测器包括:
上述幅度谱预测器根据输入的上述自然声学特征输出第二预测对数幅度谱;
上述相位谱预测器根据输入的上述第二预测对数幅度谱和上述自然基频提取预测相位谱;
将上述第二预测对数幅度谱和上述预测相位谱组合得到预测短时谱;
通过对上述预测短时谱计算得到预测短时谱一致性损失函数;
通过联合损失函数对上述幅度谱预测器和上述相位谱预测器进行训练;
其中:上述联合损失函数为上述预测短时谱一致性损失函数、上述幅度谱预测器损失函数和上述相位谱预测器损失函数之和。
在本发明的再一个实施例中,上述幅度谱预测器根据输入的上述自然声学特征输出第二预测对数幅度谱包括:
其中:ASP表示幅度谱预测器,表示第n帧的预测对数幅度谱,k表示频率点索引,a表示自然声学特征。
在本发明的再一个实施例中,上述相位谱预测器根据输入的上述第二预测对数幅度谱和上述自然基频提取预测相位谱包括:
将上述自然基频输入到上述相位谱预测器的源模块中,输出正弦激励信号;
将上述正弦激励信号和上述第二对数幅度谱输入到上述相位谱预测器的滤波模块,输出第二样本波形;
通过短时傅里叶变换从上述第二样本波形中提取预测相位谱。
在本发明的再一个实施例中,上述通过短时傅里叶变换从上述第二样本波形中提取预测相位谱包括:
其中:表示第二预测对数幅度谱,f表示自然基频,PSP表示相位谱预测器,ANG表示从短时谱中取角度的操作。
在本发明的再一个实施例中,上述将上述第二预测对数幅度谱和上述预测相位谱组合得到预测短时谱包括:
其中:j为虚数单位。
在本发明的再一个实施例中,上述通过上述预测短时谱得到预测短时谱一致性损失函数包括:
在本发明实施方式的第二方面中,提供了一种利用上述训练方法得到的神经网络声码器进行语音合成的方法,包括:
将测试的声学特征输入到上述幅度谱预测器中,输出测试对数幅度谱;
将上述测试对数幅度谱和测试的基频输入到上述相位谱预测器中,输出测试相位谱;
将上述测试对数幅度谱和上述测试相位谱组合成测试短时谱;
将上述测试短时谱通过逆短时傅里叶变换得到测试的语音波形。
本发明实施例提供的短时谱一致性的神经网络声码器训练方法,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而提高合成语音的质量。
附图说明
图1是本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法流程图;
图2是本发明实施例提供的分别训练幅度谱预测器和相位谱预测器的流程图;
图3是本发明实施例提供的联合训练幅度谱预测器和相位谱预测器的流程图;
图4是本发明实施例提供的语音合成方法流程图;
图中:1、幅度谱预测器;2、相位谱预测器。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提供的基于短时谱一致性的神经网络声码器训练方法应用于幅度相位谱分级预测的神经网络声码器HiNet中,用于减轻预测的幅度谱和相位谱结合的短时谱存在的不一致的问题。HiNet声码器由幅度谱预测器和相位谱预测器组成。
由于HiNet声码器的幅度谱和相位谱是分开单独预测的,二者组成的短时谱很难满足一致性条件,即组成的短时谱落在短时谱域之外,而其对应的满足一致性条件的短时谱是其经过逆短时傅里叶变换(inverse short-time Fourier transform,ISTFT)和短时傅里叶变换(short-time Fourier transform,STFT)后的落在短时谱域内的结果。直观地,缩小组成的短时谱与其对应的满足一致性条件的短时谱之间的差距有助于缓解短时谱不一致的问题,于是本发明提出了短时谱一致性损失函数,定义为二者差的2范数。
下面结合图1对本发明示例性实施方式的基于短时谱一致性的神经网络声码器训练方法进行描述。
图1是本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法流程图。
如图1所示,本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法,包括操作S101~S102,其中,短时谱为时域波形通过加窗截取分为若干部分,再将若干部分进行傅里叶变换拼接后得到。
在操作S101,使用自然声学特征和自然对数幅度谱训练幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器。
在操作S102,将训练后的幅度谱预测器和相位谱预测器进行连接,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器。
需要说明的是,自然波形为用于模型训练的真实录音的语音波形,自然声学特征和自然基频为通过对自然波形进行特征提取得到,自然对数幅度谱是对自然波形进行短时傅里叶变换得到。
在本实施例中,图2是本发明实施例提供的分别训练幅度谱预测器和相位谱预测器的流程图;如图2所示,使用自然声学特征和自然对数幅度谱训练幅度谱预测器,包括操作S211~S213。
在操作S211,幅度谱预测器根据输入的自然声学特征得到第一预测对数幅度谱,本实施例中的自然声学特征a=[a1,...,aN]T,其中,an=[an,1,...,an,C]T是第n帧的声学特征,c是声学特征维度索引。
在操作S212,通过自然对数幅度谱和第一预测对数幅度谱计算得到幅度谱预测器损失函数,其中,幅度谱预测器损失函数为第一预测对数幅度谱与自然对数幅度谱的均方误差。
在操作S213,以自然对数幅度谱作参考,通过幅度谱预测器损失函数对幅度谱预测器进行训练。
在本实施例中,如图2所示,使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器,包括操作S221~S223:
在操作S221,将自然基频输入到相位谱预测器的源模块中,输出正弦激励信号。
在操作S222,将正弦激励信号和自然对数幅度谱输入到相位谱预测器的滤波模块,输出第一样本波形。
在操作S223,以自然波形作参考,根据第一样本波形并通过相位谱预测器损失函数对相位谱预测器进行训练;需要说明的是,相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;幅度谱损失为自然波形和样本波形中提取的幅度谱之间的均方误差;波形损失为自然波形和样本波形在其对应的时域的均方误差;负相关系数损失为自然波形和样本波形的负相关系数。
在本实施例中,图3是本发明实施例提供的联合训练幅度谱预测器和相位谱预测器的流程图;如图3所示,通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器,包括操作S311~S315。
在操作S311,幅度谱预测器根据输入的自然声学特征输出第二预测对数幅度谱。
在操作S312,相位谱预测器根据输入的第二预测对数幅度谱和自然基频提取预测相位谱。
在操作S313,将第二预测对数幅度谱和预测相位谱组合得到预测短时谱。
在操作S314,通过对预测短时谱计算得到预测短时谱一致性损失函数。
在操作S315,通过联合损失函数对幅度谱预测器和相位谱预测器进行训练;需要说明的是,联合损失函数为预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和。
在本实施例中,幅度谱预测器根据输入的自然声学特征输出第二预测对数幅度谱包括:
其中:ASP表示幅度谱预测器,表示第n帧的预测对数幅度谱,k表示频率点索引,a表示自然声学特征。
在本实施例中,如图3所示,相位谱预测器根据输入的第二预测对数幅度谱和自然基频提取预测相位谱,包括S321~S323。
在操作S321,将自然基频输入到相位谱预测器的源模块中,输出正弦激励信号。
在操作S322,将正弦激励信号和第二对数幅度谱输入到相位谱预测器的滤波模块,输出第二样本波形。
在操作S323,通过短时傅里叶变换从第二样本波形中提取预测相位谱。
在本发明实施例中,通过短时傅里叶变换从第二样本波形中提取预测相位谱包括:
其中:表示第二预测对数幅度谱,f表示自然基频,PSP表示相位谱预测器,ANG表示从短时谱中取角度的操作。
在本发明实施例中,将第二预测对数幅度谱和预测相位谱组合得到预测短时谱包括:
其中:j为虚数单位。
在本发明实施例中,通过预测短时谱得到预测短时谱一致性损失函数包括:
根据本发明实施例,首先分别训练幅度谱预测器和相位谱预测器,最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器,能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题。
在介绍了基于短时谱一致性的神经网络声码器训练方法之后,下面结合图4对利用基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器进行语音合成的方法作进一步介绍。
图4是本发明实施例提供的语音合成方法流程图。如图4所示,本发明实施方式提供利用训练方法得到的神经网络声码器进行语音合成的方法,包括操作S401~S404。
在操作S401,将测试的声学特征输入到幅度谱预测器中,输出测试对数幅度谱。
在操作S402,将测试对数幅度谱和测试的基频输入到相位谱预测器中,输出测试相位谱。
在操作S403,将测试对数幅度谱和测试相位谱组合成测试短时谱。
在操作S404,将测试短时谱通过逆短时傅里叶变换得到测试的语音波形。
根据本发明实施例,通过基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题,进而大幅提高语音的合成质量。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于短时谱一致性的神经网络声码器训练方法,其中,所述神经网络声码器包括幅度谱预测器和相位谱预测器,其特征在于,包括:
使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器,使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器;
将训练后的所述幅度谱预测器和所述相位谱预测器进行连接,通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器,包括:所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱;所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱;将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱;通过对所述预测短时谱计算得到预测短时谱一致性损失函数;通过联合损失函数对所述幅度谱预测器和所述相位谱预测器进行训练;其中:所述联合损失函数为所述预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和;
其中,通过对自然波形进行特征提取得到所述自然声学特征和所述自然基频,对所述自然波形进行短时傅里叶变换得到所述自然对数幅度谱,所述自然波形为用于模型训练的真实录音的语音波形。
2.根据权利要求1所述的方法,其特征在于,所述使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器包括:
所述幅度谱预测器根据输入的所述自然声学特征得到第一预测对数幅度谱;
通过所述自然对数幅度谱和所述第一预测对数幅度谱计算得到所述幅度谱预测器损失函数,其中,所述幅度谱预测器损失函数为所述第一预测对数幅度谱与所述自然对数幅度谱的均方误差;
以所述自然对数幅度谱作参考,通过所述幅度谱预测器损失函数对所述幅度谱预测器进行训练。
3.根据权利要求1所述的方法,其特征在于,所述使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器包括:
将所述自然基频输入到所述相位谱预测器的源模块中,输出正弦激励信号;
将所述正弦激励信号和所述自然对数幅度谱输入到所述相位谱预测器的滤波模块,输出第一样本波形;
以所述自然波形作参考,根据所述第一样本波形并通过所述相位谱预测器损失函数对所述相位谱预测器进行训练;
其中:所述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和;所述幅度谱损失为所述自然波形和所述样本波形中提取的幅度谱之间的均方误差;所述波形损失为所述自然波形和所述样本波形在其对应的时域的均方误差;所述负相关系数损失为所述自然波形和所述样本波形的负相关系数。
4.根据权利要求1所述的方法,其特征在于,所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱包括:
其中:ASP表示幅度谱预测器,表示第n帧的预测对数幅度谱,k表示频率点索引,a表示自然声学特征。
5.根据权利要求1所述的方法,其特征在于,所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱包括:
将所述自然基频输入到所述相位谱预测器的源模块中,输出正弦激励信号;
将所述正弦激励信号和所述第二预测对数幅度谱输入到所述相位谱预测器的滤波模块,输出第二样本波形;
通过短时傅里叶变换从所述第二样本波形中提取预测相位谱。
6.根据权利要求5所述的方法,其特征在于,所述通过短时傅里叶变换从所述第二样本波形中提取预测相位谱包括:
其中:表示第二预测对数幅度谱,f表示自然基频,PSP表示相位谱预测器,ANG表示从短时谱中取角度的操作。
7.根据权利要求1所述的方法,其特征在于,所述将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱包括:
其中:j为虚数单位。
8.根据权利要求1所述的方法,其特征在于,所述通过所述预测短时谱得到预测短时谱一致性损失函数包括:
9.一种利用根据权利要求1~8任一项所述的基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器进行语音合成的方法,其特征在于,包括:
将测试的声学特征输入到所述幅度谱预测器中,输出测试对数幅度谱;
将所述测试对数幅度谱和测试的基频输入到所述相位谱预测器中,输出测试相位谱;
将所述测试对数幅度谱和所述测试相位谱组合成测试短时谱;
将所述测试短时谱通过逆短时傅里叶变换得到测试的语音波形。
CN202011482467.6A 2020-12-15 2020-12-15 基于短时谱一致性的神经网络声码器训练方法 Active CN112634914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011482467.6A CN112634914B (zh) 2020-12-15 2020-12-15 基于短时谱一致性的神经网络声码器训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011482467.6A CN112634914B (zh) 2020-12-15 2020-12-15 基于短时谱一致性的神经网络声码器训练方法

Publications (2)

Publication Number Publication Date
CN112634914A CN112634914A (zh) 2021-04-09
CN112634914B true CN112634914B (zh) 2024-03-29

Family

ID=75313381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011482467.6A Active CN112634914B (zh) 2020-12-15 2020-12-15 基于短时谱一致性的神经网络声码器训练方法

Country Status (1)

Country Link
CN (1) CN112634914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519996B (zh) * 2022-04-20 2022-07-08 北京远鉴信息技术有限公司 一种语音合成类型的确定方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0258100A (ja) * 1988-08-24 1990-02-27 Nec Corp 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
JP2015194666A (ja) * 2014-03-24 2015-11-05 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN109346090A (zh) * 2018-10-29 2019-02-15 王秉玉 一种穿透声码器的方法
CN110797002A (zh) * 2020-01-03 2020-02-14 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质
CN111316352A (zh) * 2019-12-24 2020-06-19 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和存储介质
KR20200092501A (ko) * 2019-01-11 2020-08-04 네이버 주식회사 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2242045B1 (en) * 2009-04-16 2012-06-27 Université de Mons Speech synthesis and coding methods
CN114694632A (zh) * 2015-09-16 2022-07-01 株式会社东芝 语音处理装置
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0258100A (ja) * 1988-08-24 1990-02-27 Nec Corp 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
JP2015194666A (ja) * 2014-03-24 2015-11-05 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN109346090A (zh) * 2018-10-29 2019-02-15 王秉玉 一种穿透声码器的方法
KR20200092501A (ko) * 2019-01-11 2020-08-04 네이버 주식회사 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
CN111316352A (zh) * 2019-12-24 2020-06-19 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和存储介质
CN110797002A (zh) * 2020-01-03 2020-02-14 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112634914A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Erro et al. Parametric voice conversion based on bilinear frequency warping plus amplitude scaling
Polyak et al. Unsupervised cross-domain singing voice conversion
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN105474311A (zh) 基于听觉场景分析及语音模型化的语音信号分离及合成
Jiang et al. Geometric methods for spectral analysis
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN112634914B (zh) 基于短时谱一致性的神经网络声码器训练方法
Rao Real time prosody modification
Li et al. Speech intelligibility enhancement using non-parallel speaking style conversion with stargan and dynamic range compression
Yang et al. A fast high-fidelity source-filter vocoder with lightweight neural modules
Li et al. Non-Parallel Many-to-Many Voice Conversion with PSR-StarGAN.
Wen et al. Pitch-scaled spectrum based excitation model for HMM-based speech synthesis
Roebel et al. Towards universal neural vocoding with a multi-band excited wavenet
Narendra et al. Parameterization of excitation signal for improving the quality of HMM-based speech synthesis system
Al-Radhi et al. Noise and acoustic modeling with waveform generator in text-to-speech and neutral speech conversion
Prasad et al. Backend tools for speech synthesis in speech processing
Wu et al. Nonlinear speech coding model based on genetic programming
Li et al. Non-parallel voice conversion based on perceptual star generative adversarial network
Mohammadi et al. Speech recognition system based on machine learning in persian language
Wen et al. An excitation model based on inverse filtering for speech analysis and synthesis
Chandra et al. Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan)
Nirmal et al. Voice transformation using radial basis function
Narendra et al. A deterministic plus noise model of excitation signal using principal component analysis for parametric speech synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant