CN111316352B - 语音合成方法、装置、计算机设备和存储介质 - Google Patents
语音合成方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111316352B CN111316352B CN201980003188.6A CN201980003188A CN111316352B CN 111316352 B CN111316352 B CN 111316352B CN 201980003188 A CN201980003188 A CN 201980003188A CN 111316352 B CN111316352 B CN 111316352B
- Authority
- CN
- China
- Prior art keywords
- voice
- part information
- synthesized
- spectrum
- real part
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 299
- 238000013528 artificial neural network Methods 0.000 claims abstract description 71
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 31
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 31
- 238000005070 sampling Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种语音合成方法、装置、计算机设备和计算机可读存储介质,包括:获取待合成语音文本;根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;根据所述复数频谱得到所述待合成语音文本对应的合成语音。通过本发明能够高效、简单的完成语音合成。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、计算机设备和存储介质。
背景技术
语音合成技术是指根据待合成的语音文本得到合成的语音的过程。在语音合成的过程中,深度生成模型大大提高了合成的语音的质量,譬如,WaveNet,与传统的语音合成器相比,表现出了卓越的性能。
但是,WaveNet在语音合成的过程中,需要生成语音的采样点,并且,WaveNet是自回归模型,由于其自回归性质导致语音合成速度较慢,而且由于需要生成大量的语音采样点,再次导致语音合成速度变慢且过程繁杂。
发明内容
基于此,有必要针对上述问题,提出一种高效且简单的语音合成方法、装置、计算机设备和存储介质。
一种语音合成方法,所述方法包括:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述根据所述复数频谱得到所述待合成语音文本对应的合成语音,包括:使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,包括:将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;将所述梅尔频谱对应的频谱特征输入所述上采样网络;所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
在一个实施例中,在所述获取待合成语音文本之前,还包括:获取训练语音;根据所述训练语音得到所述训练语音对应的梅尔频谱;将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
在一个实施例中,所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,包括:根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数;将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
在一个实施例中,所述根据所述训练语音得到所述训练语音对应的梅尔频谱,包括:使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱;根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱;采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
一种语音合成装置,所述装置包括:
文本获取模块,用于获取待合成语音文本;
第一频谱模块,用于根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
第二频谱模块,用于将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
语音合成模块,用于根据所述复数频谱得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述语音合成模块,包括:逆变换模块,用于使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述第二频谱模块,包括:下采样模块,用于将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;上采样输入模块,用于将所述梅尔频谱对应的频谱特征输入所述上采样网络;实部模块,用于所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;虚部模块,用于所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
在一个实施例中,所述装置,还包括:训练语音获取模块,用于获取训练语音;训练语音梅尔模块,用于根据所述训练语音得到所述训练语音对应的梅尔频谱;训练语音输入模块,用于将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;训练合成模块,用于根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;训练语音频谱模块,用于根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;网络更新模块,用于根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
在一个实施例中,所述网络更新模块,包括:第一损失模块,用于根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;第一采样模块,用于对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;第二采样模块,用于对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;采样损失模块,用于根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数;损失求和模块,用于将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
在一个实施例中,所述训练语音梅尔模块,包括:短时傅里叶模块,用于使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱;谱计算模块,用于根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱;梅尔滤波模块,用于采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音。
上述语音合成方法、装置、计算机设备和计算机可读存储介质,首先获取待合成语音文本;然后根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;并且将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;最后根据所述复数频谱得到所述待合成语音文本对应的合成语音。可见,通过上述方式,由于是根据语音文本对应的梅尔频谱得到语音文本的复数频谱,复数频谱包含实部信息和虚部信息,该实部信息和虚部信息可以看做是两张图像,生成两张图像所需的像素点远小于生成语音所需的采样点,因此,相较于WaveNet自回归的方式具有更低的复杂度,并且具有更高的合成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中语音合成方法的实现流程图;
图2为一个实施例中步骤106的实现流程图;
图3为一个实施例中语音合成方法的实现流程图;
图4为一个实施例中步骤304的实现流程图;
图5为一个实施例中步骤312的实现流程图;
图6为一个实施例中训练复数神经网络的示意图;
图7为一个实施例中语音合成装置的组成结构框图;
图8为一个实施例中第二频谱模块706的组成结构框图;
图9为一个实施例中语音合成装置的组成结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种语音合成方法,本发明实施例所述的语音合成方法的执行主体为能够实现本发明实施例所述的语音合成方法的设备,该设备可以包括但不限于终端和服务器,其中,终端包括移动终端和台式终端,移动终端包括但不限于手机、平板电脑和笔记本电脑,台式终端包括但不限于台式电脑和车载电脑,服务器包括高性能计算机和高性能计算机集群。该语音合成方法,具体包括如下步骤:
步骤102,获取待合成语音文本。
其中,待合成语音文本,为待合成的语音对应的文本。在本发明实施例中,根据待合成语音文本合成语音,得到语音合成的目的。
步骤104,根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱。
其中,梅尔频谱,为语音频谱的一种表现方式,普通的语音频谱是一张很大的频谱图,使用梅尔滤波器对语音频率进行滤波,从而得到相对较小的频谱图,该相对较小的频谱图即为梅尔频谱。
将所述待合成语音文本输入声谱网络,声谱网络包括编码器和解码器,其中,编码器用于根据待合成语音文本得到隐层特征,解码器用于根据待合成语音文本对应的隐层特征预测得到梅尔频谱。
具体的,编码器包括字符向量单元、卷积单元和双向LSTM单元,待合成语音文本被字符向量单元编码成固定维度(例如,512维)的字符向量;字符向量输入卷积单元(例如,3层卷积核),卷积单元提取字符向量的上下文特征;将卷积单元提取的上下文特征输入双向LSTM单元,得到编码特征。解码器可以是一个自回归循环神经网络,解码器根据双向LSTM单元输出的编码特征预测梅尔频谱。
步骤106,将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息。
其中,复数神经网络,以梅尔频谱作为输入,以复数频谱作为输出。在本发明实施例中,复数神经网络的网络结构包括U-net网络结构。
复数频谱的实部信息和虚部信息可以看做是两张图像,也就是说,将复数神经网络的输出看做是两张频谱图像。
步骤108,根据所述复数频谱得到所述待合成语音文本对应的合成语音。
根据待合成语音文本对应的复数频谱即可得到待合成语音文本对应的合成语音。需要说明的是,由于复数频谱包括实部信息和虚部信息,最终合成的语音是根据实部信息和虚部信息合成的,相较于只依据实部信息合成语音的方法,本发明实施例的方法合成的语音由于保留了更多的语音信息将更加的真实。
在一个实施例中,步骤108所述根据所述复数频谱得到所述待合成语音文本对应的合成语音,包括:使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
语音本身是一维的时域信号,从该时域信号是很难看出语音的频率变化规律的。通过傅里叶可以将语音从时域变到频域,虽然此时可以看出语音的频率分布,但是缺丢失了时域信息,从该语音的频域分布也很难看出语音的时域信息。为了解决这个问题,很多时频分析方法应运而生,短时傅里叶变换就是很常用的时频域分析方法,逆短时傅里叶变换是短时傅里叶变换的逆过程。
具体的,短时傅里叶变换能够将语音从时域变到频域,逆短时傅里叶变换能够将频域的语音复原到时域。使用逆短时傅里叶变换(函数)将频域的语音复原到时域相较于使用自回归模型合成语音的方式更为简单。
上述语音合成方法,首先获取待合成语音文本;然后根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;并且将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;最后根据所述复数频谱得到所述待合成语音文本对应的合成语音。可见,通过上述方式,由于是根据语音文本对应的梅尔频谱得到语音文本的复数频谱,复数频谱包含实部信息和虚部信息,该实部信息和虚部信息可以看做是两张图像,生成两张图像所需的像素点远小于生成语音所需的采样点,因此,相较于WaveNet自回归的方式具有更低的复杂度,并且具有更高的合成效率。
在一个实施例中,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核。如图2所示,步骤106所述将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,包括:
步骤106A,将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征。
其中,下采样网络包括多层,每层设置有卷积核,每层的卷积核用于对该层的输入进行特征提取,从而不断挖掘出更加深层次的特征,实现将大尺寸变换到小尺寸。将梅尔频谱输入下采样网络,经过多层的卷积核进行特征提取,得到所述梅尔频谱对应的频谱特征。
步骤106B,将所述梅尔频谱对应的频谱特征输入所述上采样网络。
在得到梅尔频谱对应的频谱特征之后,将得到的频谱特征输入复数神经网络中的上采样网络,以便上采样网络根据频谱特征得到复数频谱。
步骤106C,所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息。
上采样网络中设置有反卷积核,反卷积核执行反卷积操作,反卷积就是转置卷积,实现将小尺寸变换到大尺寸。
步骤106D,所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
在本发明实施例中,在上采样网络中设置两种反卷积核,具体的为实部反卷积核以及虚部反卷积核,通过设置实部反卷积核对频谱特征进行处理得到待合成语音文本对应的实部信息,通过设置虚部反卷积核对频谱特征进行处理得到待合成语音文本对应的虚部信息。
在一个实施例中,提供了待合成语音文本的训练方式,如图3所示,在步骤314所述获取待合成语音文本之前,还包括:
步骤302,获取训练语音。
其中,训练语音,为用于训练复数神经网络的语音。
步骤304,根据所述训练语音得到所述训练语音对应的梅尔频谱。
在本发明实施例中,复数神经网络以梅尔频谱作为输入,因此,需要首先得到训练语音对应的梅尔频谱,然后再使用得到的梅尔频谱对复数神经网络进行训练。
在一个实施例中,如图4所示,步骤304所述根据所述训练语音得到所述训练语音对应的梅尔频谱,包括:
步骤304A,使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱。
其中,短时傅里叶变换,指将时域信号变换到频域的函数变换,使用短时傅里叶变换对训练语音进行处理能够得到训练语音对应的复数频谱,训练语音对应复数频谱包括实部和虚部。
步骤304B,根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱。
获取复数频谱到幅度谱的计算公式,根据该计算公式计算得到训练语音对应的幅度谱;获取复数频谱到相位谱的计算公式,根据该计算公式计算得到训练语音对应的相位谱。
步骤304C,采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
采用梅尔滤波器对幅度谱进行降维(滤波),即可得到梅尔频谱。
步骤306,将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息。
步骤308,根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音。
采用逆短时傅里叶变换对复数神经网络输出的训练语音对应的第一实部信息和第一虚部信息(即得到了训练语音对应的复数频谱)进行处理即可生成合成语音,后续将根据合成语音、训练语音等更新复数神经网络,以便通过不断更新复数神经网络,使得最终复数神经网络输出的第一实部信息和第一虚部信息更加接近真实语音的实部信息和虚部信息,提高最终合成的语音的质量。
步骤310,根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息。
采用短时傅里叶变换对训练语音进行处理,即可得到训练语音对应的第二实部信息和第二虚部信息(即复数频谱)。
步骤312,根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
在一个实施例中,如图5所示,步骤312包括:
步骤312A,根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数。
如图6所示,鉴别器将训练语音和合成语音进行比对,然后根据比对结果输出第一损失参数,具体的,训练语音和合成语音差别越大,则第一损失参数也越大;相反的,训练语音和合成语音差别越小,则第一损失参数也越小。
进一步的,鉴别器根据训练语音和合成语音输出第三损失参数,第三损失参数用于确定合成语音与训练语音的真假,若合成语音越真(和训练语音越接近),则第三损失参数越小;若合成语音越假,则第三损失参数越大。然后对第三损失参数进行梯度下降,从而实现对鉴别器的更新。
相较于第三损失参数,第一损失参数进行的是更为细节的判断。
步骤312B,对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息。
如图6所示,对复数神经网络输出的第一实部信息和第一虚部信息进行多次采样,每次采样得到维度更低的实部信息和虚部信息,然后再继续对该维度更低的实部信息和虚部信息进行采样,最终经过多次采样,得到预设个数的维度不同的实部信息和虚部信息。例如,采样前的尺寸是512×512,采样后的尺寸是256×256,再次采样后的尺寸为128×128。
步骤312C,对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息。
同样的,对训练语音对应的第二实部信息和第二虚部信息进行多次采样,每次采样得到维度更低的实部信息和虚部信息,然后再继续对该维度更低的实部信息和虚部信息进行采样,最终经过多次采样,得到预设个数的维度不同的实部信息和虚部信息。在第二实部信息和第二虚部信息的采样过程中,每次的采样参数和第一实部信息以及第一虚部信息每次采样的采样参数保持一致。
步骤312D,根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数。
如图6所示,将第一实部虚部集中的第一实部信息和第一虚部信息与第二实部虚部集中相应的第二实部信息和第二虚部信息进行比较,得到损失子参数;将多个损失子参数相加,即可得到第二损失参数。
步骤312E,将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
将第一损失参数和第二损失参数的和作为网络损失参数,以便根据所述网络损失参数更新所述复数神经网络,由于复数神经网络的更新同时考虑到了合成语音、训练语音以及复数神经网络输出的第一实部信息和第一虚部信息,能够提高网络更新速度,加速复数神经网络的训练,并且能够得到高质量的复数神经网络。
具体的,对网络损失参数进行梯度下降,从而实现对复数神经网络的更新。
如图7所示,在一个实施例中,提出了一种语音合成装置700,该装置700包括:
文本获取模块702,用于获取待合成语音文本。
第一频谱模块704,用于根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱。
第二频谱模块706,用于将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息。
语音合成模块708,用于根据所述复数频谱得到所述待合成语音文本对应的合成语音。
上述语音合成装置,首先获取待合成语音文本;然后根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;并且将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;最后根据所述复数频谱得到所述待合成语音文本对应的合成语音。可见,通过上述装置,由于是根据语音文本对应的梅尔频谱得到语音文本的复数频谱,复数频谱包含实部信息和虚部信息,该实部信息和虚部信息可以看做是两张图像,生成两张图像所需的像素点远小于生成语音所需的采样点,因此,相较于WaveNet自回归的方式具有更低的复杂度,并且具有更高的合成效率。
在一个实施例中,所述语音合成模块708,包括:逆变换模块,用于使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;如图8所示,所述第二频谱模块706,包括:下采样模块7062,用于将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;上采样输入模块7064,用于将所述梅尔频谱对应的频谱特征输入所述上采样网络;实部模块7066,用于所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;虚部模块7068,用于所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
在一个实施例中,如图9所示,所述装置700,还包括:训练语音获取模块710,用于获取训练语音;训练语音梅尔模块712,用于根据所述训练语音得到所述训练语音对应的梅尔频谱;训练语音输入模块714,用于将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;训练合成模块716,用于根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;训练语音频谱模块718,用于根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;网络更新模块720,用于根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
在一个实施例中,所述网络更新模块,包括:第一损失模块,用于根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;第一采样模块,用于对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;第二采样模块,用于对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;采样损失模块,用于根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数;损失求和模块,用于将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
在一个实施例中,所述训练语音梅尔模块,包括:短时傅里叶模块,用于使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱;谱计算模块,用于根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱;梅尔滤波模块,用于采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器和终端。如图10所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语音合成方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语音合成方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的语音合成方法可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成语音合成装置的各个程序模板。比如,文本获取模块702,第一频谱模块704,第二频谱模块706,语音合成模块708。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述根据所述复数频谱得到所述待合成语音文本对应的合成语音,包括:使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,包括:将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;将所述梅尔频谱对应的频谱特征输入所述上采样网络;所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
在一个实施例中,所述计算机程序被处理器执行时,还用于:在所述获取待合成语音文本之前,获取训练语音;根据所述训练语音得到所述训练语音对应的梅尔频谱;将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
在一个实施例中,所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,包括:根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数;将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
在一个实施例中,所述根据所述训练语音得到所述训练语音对应的梅尔频谱,包括:使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱;根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱;采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述根据所述复数频谱得到所述待合成语音文本对应的合成语音,包括:使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
在一个实施例中,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,包括:将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;将所述梅尔频谱对应的频谱特征输入所述上采样网络;所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
在一个实施例中,所述计算机程序被处理器执行时,还用于:在所述获取待合成语音文本之前,获取训练语音;根据所述训练语音得到所述训练语音对应的梅尔频谱;将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
在一个实施例中,所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,包括:根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数;将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
在一个实施例中,所述根据所述训练语音得到所述训练语音对应的梅尔频谱,包括:使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱;根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱;采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
需要说明的是,上述语音合成方法、语音合成装置、计算机设备及计算机可读存储介质属于一个总的发明构思,语音合成方法、语音合成装置、计算机设备及计算机可读存储介质实施例中的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成语音文本;
根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
根据所述复数频谱得到所述待合成语音文本对应的合成语音;
其中,在所述获取待合成语音文本之前,还包括:
获取训练语音;
根据所述训练语音得到所述训练语音对应的梅尔频谱;
将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;
根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;
根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;
根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
2.根据权利要求1所述的方法,其特征在于,所述根据所述复数频谱得到所述待合成语音文本对应的合成语音,包括:
使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
3.根据权利要求1所述的方法,其特征在于,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,包括:
将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;
将所述梅尔频谱对应的频谱特征输入所述上采样网络;
所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;
所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,包括:
根据所述训练语音和所述训练语音对应的合成语音得到第一损失参数;
对所述第一实部信息和所述第一虚部信息进行采样操作,得到第一实部虚部集,所述第一实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;
对所述第二实部信息和所述第二虚部信息进行采样操作,得到第二实部虚部集,所述第二实部虚部集中包括预设个数的维度不同的实部信息和虚部信息;
根据所述第一实部虚部集和所述第二实部虚部集得到第二损失参数;
将所述第一损失参数和第二损失参数的和作为所述网络损失参数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述训练语音得到所述训练语音对应的梅尔频谱,包括:
使用短时傅里叶变换对所述训练语音进行处理,得到所述训练语音对应的复数频谱;
根据所述训练语音对应的复数频谱计算得到所述训练语音对应的幅度谱和相位谱;
采用梅尔滤波器对所述训练语音对应的幅度谱进行滤波,得到所述训练语音对应的梅尔频谱。
6.一种语音合成装置,其特征在于,所述装置包括:
文本获取模块,用于获取待合成语音文本;
第一频谱模块,用于根据所述待合成语音文本得到所述待合成语音文本对应的梅尔频谱;
第二频谱模块,用于将所述梅尔频谱输入复数神经网络,得到所述待合成语音文本对应的复数频谱,所述复数频谱包括实部信息和虚部信息;
语音合成模块,用于根据所述复数频谱得到所述待合成语音文本对应的合成语音;
其中,在所述获取待合成语音文本之前,装置还用于:获取训练语音;根据所述训练语音得到所述训练语音对应的梅尔频谱;将所述训练语音对应的梅尔频谱输入所述复数神经网络,得到所述训练语音对应的第一实部信息和第一虚部信息;根据所述第一实部信息和所述第一虚部信息得到所述训练语音对应的合成语音;根据所述训练语音得到所述训练语音对应的第二实部信息和第二虚部信息;根据所述训练语音、所述训练语音对应的合成语音、所述第一实部信息、所述第一虚部信息、所述第二实部信息和所述第二虚部信息,得到网络损失参数,以便根据所述网络损失参数更新所述复数神经网络。
7.根据权利要求6所述的装置,其特征在于,所述语音合成模块,包括:
逆变换模块,用于使用逆短时傅里叶变换对所述复数频谱进行处理,得到所述待合成语音文本对应的合成语音。
8.根据权利要求6所述的装置,其特征在于,所述复数神经网络包括下采样网络和上采样网络,所述上采样网络包括实部反卷积核和虚部反卷积核;所述第二频谱模块,包括:
下采样模块,用于将所述梅尔频谱输入所述复数神经网络中的下采样网络,得到所述下采样网络输出的所述梅尔频谱对应的频谱特征;
上采样输入模块,用于将所述梅尔频谱对应的频谱特征输入所述上采样网络;
实部模块,用于所述上采样网络中的实部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的实部信息;
虚部模块,用于所述上采样网络中的虚部反卷积核对所述梅尔频谱对应的频谱特征进行处理得到所述待合成语音文本对应的虚部信息。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音合成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音合成方法的步骤。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/127911 WO2021127978A1 (zh) | 2019-12-24 | 2019-12-24 | 语音合成方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111316352A CN111316352A (zh) | 2020-06-19 |
CN111316352B true CN111316352B (zh) | 2023-10-10 |
Family
ID=71147678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980003188.6A Active CN111316352B (zh) | 2019-12-24 | 2019-12-24 | 语音合成方法、装置、计算机设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11763796B2 (zh) |
CN (1) | CN111316352B (zh) |
WO (1) | WO2021127978A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037760B (zh) | 2020-08-24 | 2022-01-07 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
CN112382271B (zh) * | 2020-11-30 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN112634914B (zh) * | 2020-12-15 | 2024-03-29 | 中国科学技术大学 | 基于短时谱一致性的神经网络声码器训练方法 |
WO2022133630A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳市优必选科技股份有限公司 | 跨语言音频转换方法、计算机设备和存储介质 |
CN112712812B (zh) * | 2020-12-24 | 2024-04-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN113421544B (zh) * | 2021-06-30 | 2024-05-10 | 平安科技(深圳)有限公司 | 歌声合成方法、装置、计算机设备及存储介质 |
CN113488022B (zh) * | 2021-07-07 | 2024-05-10 | 北京搜狗科技发展有限公司 | 一种语音合成方法和装置 |
CN113470616B (zh) * | 2021-07-14 | 2024-02-23 | 北京达佳互联信息技术有限公司 | 语音处理方法和装置以及声码器和声码器的训练方法 |
CN114265373A (zh) * | 2021-11-22 | 2022-04-01 | 煤炭科学研究总院 | 综采面一体式操控台控制系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109817198A (zh) * | 2019-03-06 | 2019-05-28 | 广州多益网络股份有限公司 | 用于语音合成的多发音训练方法、语音合成方法与装置 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110310621A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 歌唱合成方法、装置、设备以及计算机可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9031834B2 (en) * | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
EP2984649B1 (en) * | 2013-04-11 | 2020-07-29 | Cetin CETINTURK | Extraction of acoustic relative excitation features |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US11017761B2 (en) * | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
TWI651927B (zh) * | 2018-02-14 | 2019-02-21 | National Central University | 訊號源分離方法及訊號源分離裝置 |
US11462209B2 (en) * | 2018-05-18 | 2022-10-04 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
CN109754778B (zh) * | 2019-01-17 | 2023-05-30 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN109523989B (zh) * | 2019-01-29 | 2022-01-11 | 网易有道信息技术(北京)有限公司 | 语音合成方法、语音合成装置、存储介质及电子设备 |
CN110211604A (zh) * | 2019-06-17 | 2019-09-06 | 广东技术师范大学 | 一种用于语音变形检测的深度残差网络结构 |
US20220165247A1 (en) * | 2020-11-24 | 2022-05-26 | Xinapse Co., Ltd. | Method for generating synthetic speech and speech synthesis system |
-
2019
- 2019-12-24 CN CN201980003188.6A patent/CN111316352B/zh active Active
- 2019-12-24 WO PCT/CN2019/127911 patent/WO2021127978A1/zh active Application Filing
-
2020
- 2020-12-10 US US17/117,148 patent/US11763796B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109817198A (zh) * | 2019-03-06 | 2019-05-28 | 广州多益网络股份有限公司 | 用于语音合成的多发音训练方法、语音合成方法与装置 |
CN110310621A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 歌唱合成方法、装置、设备以及计算机可读存储介质 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
郑乃君.基于复值神经网络的信号增强处理方法.《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》.2019,(第5期),P23-39. * |
Also Published As
Publication number | Publication date |
---|---|
US20220189454A1 (en) | 2022-06-16 |
US11763796B2 (en) | 2023-09-19 |
CN111316352A (zh) | 2020-06-19 |
WO2021127978A1 (zh) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111316352B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
Birnbaum et al. | Temporal FiLM: Capturing Long-Range Sequence Dependencies with Feature-Wise Modulations. | |
CN111133507B (zh) | 一种语音合成方法、装置、智能终端及可读介质 | |
WO2017196931A1 (en) | Frequency based audio analysis using neural networks | |
DE112014003337T5 (de) | Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung | |
CN114067826B (zh) | 语音降噪方法、装置、设备及存储介质 | |
Zhang et al. | Wsrglow: A glow-based waveform generative model for audio super-resolution | |
CN113470688B (zh) | 语音数据的分离方法、装置、设备及存储介质 | |
Gupta et al. | High‐band feature extraction for artificial bandwidth extension using deep neural network and H∞ optimisation | |
CN113241062B (zh) | 语音训练数据集的增强方法、装置、设备及存储介质 | |
CN112712789B (zh) | 跨语言音频转换方法、装置、计算机设备和存储介质 | |
CN111108549B (zh) | 语音合成方法、装置、计算机设备及计算机可读存储介质 | |
CN112863539B (zh) | 一种高采样率语音波形生成方法、装置、设备及存储介质 | |
CN114664313A (zh) | 语音识别方法、装置、计算机设备、存储介质和程序产品 | |
Raj et al. | Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder | |
Si et al. | Multi‐scale audio super resolution via deep pyramid wavelet convolutional neural network | |
Zheng et al. | Multi-windowed vertex-frequency analysis for signals on undirected graphs | |
CN117746891A (zh) | 声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质 | |
CN115171667A (zh) | 基于人工智能的音频生成方法、装置、设备及存储介质 | |
CN115881150A (zh) | 语音修复方法、装置、电子设备及存储介质 | |
Rahat-uz-Zaman et al. | Audio Future Block Prediction with Conditional Generative Adversarial Network | |
Chen et al. | Locality Preserving Discriminative Complex-Valued Latent Variable Model | |
CN115798507A (zh) | 音频处理方法、装置、电子设备及介质 | |
CN115359777A (zh) | 音色可控的视频声音合成模型及其构建方法、装置及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |