CN109767755A - 一种语音合成方法和系统 - Google Patents
一种语音合成方法和系统 Download PDFInfo
- Publication number
- CN109767755A CN109767755A CN201910153925.2A CN201910153925A CN109767755A CN 109767755 A CN109767755 A CN 109767755A CN 201910153925 A CN201910153925 A CN 201910153925A CN 109767755 A CN109767755 A CN 109767755A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- prediction
- frequency spectrum
- neural network
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种语音合成方法,包括:将待处理的多语言文本转化为对应的混合音素集,并利用one‑hot编码映射得到音素混合序列;通过编码器将所述音素混合序列生成文本特征序列;通过解码器将所述文本特征序列生成预测声学频谱特征;将所述预测声学频谱特征合成语音波形。本发明实施例还公开了一种语音合成系统。采用本发明实施例,能够合成多种语言的语音,减少合成语音的误差,节省资源。
Description
技术领域
本发明涉及语音技术领域,尤其涉及一种语音合成方法和系统。
背景技术
语音合成技术指将输入的文本转换成自然流畅的语音,让机器可以开口说话,扩展了人机交互方式,让人机沟通更加方便。语音合成技术是一种多学科交叉融合技术,主要涉及语言学、数字信号处理、声学、统计学和计算机科学等,目前已在语音客服网络、移动通信,智能家居等领域得到了广泛的应用。
传统语音合成技术一般采用单元挑选和拼接的方法,通过缝合技术把预先录制的语音波形小片段拼接在一起输出对应文本的语音。还有一种方法是统计参数语音合成方法,其采用隐马尔科夫模型(Hidden Markov Model,HMM)预测输出语音特征的平滑轨迹,然后由声码器来合成语音。传统的语音合成过程一般需要文本处理前端、语音持续时间模型、声学特征预测模型、声码器合成模型等多个组件的组合,而这些组件的设计需要大量专业领域知识,同时每个组件通常是单独训练的,在最后组装合成语音时会出现误差累计效应,给工程实践人员设计和调试带来极大的困难。
另外,目前提出的语音合成方法都只针对一种语言的合成,对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,最后通过拼接合成多种语言混合的语音,这往往需要消耗额外的计算资源,同时拼接合成的语音也不够自然。
发明内容
本发明实施例的目的是提供一种语音合成方法和系统,能够合成多种语言的语音,减少合成语音的误差,节省资源。
为实现上述目的,本发明实施例提供了一种语音合成方法,包括:
将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;
通过编码器将所述音素混合序列生成文本特征序列;
通过解码器将所述文本特征序列生成预测声学频谱特征;
将所述预测声学频谱特征合成语音波形。
与现有技术相比,本发明公开的语音合成方法,首先,将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;然后,通过编码器将所述音素混合序列生成文本特征序列;最后,通过解码器将所述文本特征序列生成预测声学频谱特征,并将所述预测声学频谱特征合成语音波形。解决了现有技术中传统的语音合成过程需要多个组件的组合,在最后组装合成语音时会出现误差累计效应的问题;同时还解决了现有技术中对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,从而消耗额外的计算资源的问题。本发明实施例能够合成多种语言的语音,减少合成语音的误差,节省资源。
作为上述方案的改进,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述通过编码器将所述音素混合序列生成文本特征序列,具体包括:
利用混合音素集与所述神经网络的神经元构建音素向量表;
根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;
利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。
作为上述方案的改进,所述通过解码器将所述文本特征序列生成预测声学频谱特征,具体包括:
在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。
作为上述方案的改进,所述将所述预测声学频谱特征合成语音波形,具体包括:
利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。
作为上述方案的改进,所述将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列,具体包括:
预先获取多语言的音频数据及对应的多语言文本;
调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub;
将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列。
作为上述方案的改进,所述解码器的训练方法包括:
在初始阶段,采用特征标记帧输入到预设参数的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到预设参数的循环神经网络中,循环迭代得到所述预测声学频谱特征;
利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价,将误差进行反向传播;
更新预设参数,最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。
作为上述方案的改进,所述将所述预测声学频谱特征合成语音波形后,还包括:
对所述语音波形进行处理,得到处理后的语音波形。
为实现上述目的,本发明实施例还提供了一种语音合成系统,包括:
预处理单元,用于将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;
编码器单元,用于通过编码器将所述音素混合序列生成文本特征序列;
解码器单元,用于通过解码器将所述文本特征序列生成预测声学频谱特征;
语音波形合成单元,用于将所述预测声学频谱特征合成语音波形。
与现有技术相比,本发明公开的语音合成系统,首先,预处理单元将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;然后,编码器单元通过编码器将所述音素混合序列生成文本特征序列;最后,解码器单元通过解码器将所述文本特征序列生成预测声学频谱特征,语音波形合成单元将所述预测声学频谱特征合成语音波形。解决了现有技术中传统的语音合成过程需要多个组件的组合,在最后组装合成语音时会出现误差累计效应的问题;同时还解决了现有技术中对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,从而消耗额外的计算资源的问题。本发明实施例能够合成多种语言的语音,减少合成语音的误差,节省资源。
作为上述方案的改进,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述编码器单元具体用于:
利用混合音素集与所述神经网络的神经元构建音素向量表;
根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;
利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。
作为上述方案的改进,所述解码器单元具体用于:
在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。
附图说明
图1是本发明实施例提供的一种语音合成方法的流程图;
图2是本发明实施例提供的一种语音合成方法中步骤S1的流程图;
图3是本发明实施例提供的一种语音合成方法中步骤S2的流程图;
图4是本发明实施例提供的一种语音合成方法中解码器的训练方法的流程图;
图5是本发明实施例提供的一种语音合成系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图1,图1是本发明实施例提供的一种语音合成方法的流程图;包括:
S1、将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;
S2、通过编码器将所述音素混合序列生成文本特征序列;
S3、通过解码器将所述文本特征序列生成预测声学频谱特征;
S4、将所述预测声学频谱特征合成语音波形。
具体的,在步骤S1中,在将待处理的多语言文本转化为对应的混合音素集之前,还需要对所述待处理的多语言文本进行分词、多音字及标点符号处理。在本发明实施例中,所述混合音素集为所述待处理的多语言文本对应的混合音素的集合,若所述待处理的多语言文本由中文和英文组成,则音素集为中文的23个声母、39个韵母、声调以及中文标点符号与英文的39音素、26个英文字母及英文的标点符号组合构成的混合音素集。
经过步骤S1能够将多语言文本如中文和英文转化为对应的音素,结合以下实施例进行具体说明:
对于中文文本,可选用23个声母、39个韵母、声调以及中文标点符号来构成中文音素集,在将文本转化为音素时,先将汉字转化为拼音,再由拼音转化为对应的音素;如示例文本“我爱你,我亲爱的祖国”先转化为拼音可得到“wo3 ai4 ni3,wo3 qin1 ai4 de5 zu3guo2”,利用数字1-5来表示汉字拼音的音调,其中5表示轻声。再将拼音转化为对应的音素可得到“uu uo3 aa ai4 n i3,uu uo3 q in1 aa ai4 d e5 z u3 g uo2”;对于中文标点符号需要利用Unicode编码将其转化为英文标点符号,方便后续音素集的one-hot编码;
对于英文文本,可选用卡耐基梅隆大学提供的基于39音素的英文-音素词典来对英文文本进行转化,将卡耐基梅隆大学提供的39音素与26个英文字母及英文的标点符号组合构成英文音素集;对于文本中的英文在英文-音素词典中的直接转化为英文音素组合,对于不在词典中的英文用英文的26个字母来表示;如示例文本“intense anxiety,shyness,feelings of awkwardness and insecurity,end quote.”转化为英文序列可得到“IH2 NT EH1 N S anxiety,shyness,F IY1 L IHO NG Z AH1 V AO1 K W ERO D N AHO S AHO ND insecurity,EH1N D quote”;其中,部分单词如“anxiety,shyness,insecurity”等无法在英文-音素词典中找到对应的,将直接用英文字母来表示;
若输入文本既有中文又有英文,则需要先将中文与英文区分出来,然后利用对应语言的音素集来变换得到文本对应的音素。
在得到多语言文本对应的音素后,还需要对音素进行one-hot编码得到音素混合序列。对于中文和英文这两种语言,可利用中文的23个声母、39个韵母、声调与英文的39个音素及英文的标点符号组成中英文混合音素集,然后对中英文混合音素集进行one-hot编码构成音素id映射表。在本发明实施例中,除中文音素、英文音素、字母及英文标点符号外,还增加两个特殊符号表示序列的开始与结束。
将得到的多语言文本对应的音素通过查阅所述音素id映射表,最终可得到音素的混合序列。对于上文英文示例中无法找到的英文单词如“anxiety”在进行one-hot编码时,需要将其拆开成单个的字母“a n x i e t y”然后再查阅音素id映射表来完成编码。
优选的,参见图2,图2是本发明实施例提供的一种语音合成方法中步骤S1的流程图;包括:
S11、预先获取多语言的音频数据及对应的多语言文本;
S12、调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub;
S13、将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列。
具体的,在步骤S2中,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种。参见图3,图3是本发明实施例提供的一种语音合成方法中步骤S2的流程图,包括:
S21、利用混合音素集与所述神经网络的神经元构建音素向量表;
S22、根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;
S23、利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。
具体的,本发明实施例中的语音合成方法采用卷积神经网络与循环神经网络的组合网络来获得更好的文本特征表达。首先,需要利用混合音素集与第一层神经网络的神经元来构建一个音素向量表;然后,利用音素向量表将音素混合序列转换为神经网络输入维度相同的音素向量;最后,利用所述神经网络对音素向量施加非线性变换,同时使用dropout的脖颈层可在训练中加速收敛及增强泛化能力,采用卷积神经网络的卷积核提取高级文本特征,最后输入到循环神经网络来编码得到最终的文本特征序列。
优选的,在本发明实施例中可以采用双向GRU循环神经网络来对音素混合序列进行编码得到文本特征序列,但在其他实施例中可以采用其他循环神经网络如双向LSTM、纯卷积网络、纯注意力网络等皆可编码输出得到文本特征序列,本发明对此不做具体限定。
值得说明的是,在所述编码器的训练阶段中利用所述步骤S12中的真实声学频谱特征与预测声学频谱特征的误差的反向传播,利用一定的最优化的方法来优化更新编码器模型中卷积神经网络和循环神经网络的参数。而在模型推理阶段(即实际操作中)则直接利用已训练好的编码器模型直接输出预测文本特征序列即可。
具体的,在步骤S3中,所述通过解码器根据所述文本特征序列生成预测声学频谱特征,具体包括:在初始阶段,采用特征标记帧(如全0的向量帧)输入到预先训练好的循环神经网络中,得到预测声学频谱特征;在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代所述预测声学频谱特征。
具体的,在本发明实施例中可以采用双向GRU循环神经网络作为所述解码器来输出所述预测声学频谱特征,但在其他实施例中也可以采用其他循环神经网络如双向LSTM网络、纯卷积网络、纯注意力网络等皆可解码输出声学频谱特征。采用了基于内容的tanh注意力模型来在每个时间步上对步骤S2中得到的所述文本特征序列进行加权变换。实践中也可以采用点积注意力模型、单调注意力模型、位置敏感注意力模型等对文本特征序列进行加权变换。
优选的,本发明实施例中的注意力模型采用单向GRU循环神经网络模型来实现,实践中也可采用其他循环神经网络如单向LSTM网络或其他卷积神经网络皆可。
进一步的,参见图4,图4是本发明实施例提供的一种语音合成方法中解码器的训练方法的流程图;所述解码器的训练方法包括:
S31、在初始阶段,采用特征标记帧(如全0的向量帧)输入到预设参数的循环神经网络中,得到预测声学频谱特征;
S32、在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到预设参数的循环神经网络中,循环迭代得到所述预测声学频谱特征;
S33、利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价,将误差进行反向传播;
S34、更新预设参数,最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。
优选的,采用L1范数作为所述真实声学频谱特征与所述预测声学频谱特征的损失评价函数。实践中也可采用L2范数或其他合适的损失评价函数皆可。采用学习率自适应的Adam梯度下降优化函数来更新预设参数,实践中也可采用其他梯度下降优化方法来更新预设参数。其中,所述预设参数包括所述注意力模型、循环神经网络、卷积神经网络和循环神经网络的权重参数。
具体的,在步骤S4中,利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。优选的,在执行步骤S4之前,还可以将所述预测声学频谱的振幅提高一定倍数,然后再利用Griffin-Lim算法进行自回归合成波形,这样可相对减少人工合成的痕迹。
在本发明实施例中,采用无需任何训练的相位自回归的Griffin-Lim算法对步骤S3中得到的预测声学频谱特征进行迭代更新生成语音波形。其中,Griffin-Lim算法是目前广泛研究和应用的公知技术,在此不再赘述。但在其他发明实施例中,也可采用其他声码器模型如WaveNet、WaveGlow等方法将所述预测声学频谱特征作为输入来迭代合成语音波形。
值得说明的是,WaveNet与WaveGlow这两种声码器模型需要预先训练才能合成波形。在模型训练阶段:首先,需要将步骤S12中的所述真实声学频谱特征作为输入,迭代输出预测音频帧;然后,利用损失评价函数对真实音频帧与预测音频帧之间的误差进行评价,将误差进行反向传播;最后,利用一定的最优化方法来更新注意力模型与循环神经网络及步骤S2中的卷积神经网络和循环神经网络的权重参数,最小化预测音频帧与真实音频帧的差异。而在模型推理阶段(即实际操作中)直接利用已训练好的声码器模型将所述预测声学频谱特征进行转换合成语音波形即可。
优选的,在得到所述语音波形后,还需要对所述语音波形进行处理,即所述语音合成方法还包括步骤S5:对所述语音波形进行处理,得到处理后的语音波形。
具体的,利用一些常用的操作对所述语音波形进行处理,常包括修剪语音的无声片段、调整语音播放速度及调整语音音色等操作。在本发明实施例中,剪掉声贝数小于某个阈值、沉默时间小于某个时间段的音频片段,其中,最小声贝阈值及最小的沉默时间段根据训练音频数据的停顿时长来定,在此不做具体限定。语音播放速度调整可通过直接调用一些音频处理包如librosa或pydub等来完成。音色变换可通过一些音频处理软件来调整变换。
具体实施时,首先,将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;然后,通过编码器将所述音素混合序列生成文本特征序列;最后,通过解码器根据所述文本特征序列生成预测声学频谱特征,并将所述预测声学频谱特征合成语音波形。
与现有技术相比,本发明公开的语音合成方法,解决了现有技术中传统的语音合成过程需要多个组件的组合,在最后组装合成语音时会出现误差累计效应的问题;同时还解决了现有技术中对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,从而消耗额外的计算资源的问题。本发明实施例能够合成多种语言的语音,减少合成语音的误差,节省资源。
实施例二
参见图5,图5是本发明实施例提供的一种语音合成系统的结构框图;包括:
预处理单元1,用于将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;
编码器单元2,用于通过编码器将所述音素混合序列生成文本特征序列;
解码器单元3,用于通过解码器将所述文本特征序列生成预测声学频谱特征;
语音波形合成单元4,用于将所述预测声学频谱特征合成语音波形。
优选的,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述编码器单元2具体用于:
利用混合音素集与所述神经网络的神经元构建音素向量表;
根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;
利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。
优选的,所述解码器单元3具体用于:
在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。
优选的,所述语音合成系统还包括后处理单元5,所述后处理单元5用于对所述语音波形进行处理,得到处理后的语音波形。
优选的,所述语音波形合成单元4具体用于利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。
优选的,所述语音合成预处理方法包括:
预先获取多语言的音频数据及对应的多语言文本;
调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub;
将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列。
优选的,所述解码器的训练方法包括:
在初始阶段,采用特征标记帧输入到预设参数的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到预设参数的循环神经网络中,循环迭代得到所述预测声学频谱特征;
利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价,将误差进行反向传播;
更新预设参数,最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。
所述语音合成系统中各个单元的具体工作过程和训练过程请参考上述实施例一所述的语音合成方法的具体步骤,在此不再赘述。
具体实施时,首先,预处理单元1将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;然后,编码器单元2通过编码器将所述音素混合序列生成文本特征序列;最后,解码器单元3通过解码器根据所述文本特征序列生成预测声学频谱特征,语音波形合成单元4将所述预测声学频谱特征合成语音波形。
与现有技术相比,本发明公开的语音合成系统,解决了现有技术中传统的语音合成过程需要多个组件的组合,在最后组装合成语音时会出现误差累计效应的问题;同时还解决了现有技术中对于不同场景下多种语言的语音合成,需要切换多个模型来合成相应的语音,从而消耗额外的计算资源的问题。本发明实施例能够合成多种语言的语音,减少合成语音的误差,节省资源。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;
通过编码器将所述音素混合序列生成文本特征序列;
通过解码器将所述文本特征序列生成预测声学频谱特征;
将所述预测声学频谱特征合成语音波形。
2.如权利要求1所述的语音合成方法,其特征在于,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述通过编码器将所述音素混合序列生成文本特征序列,具体包括:
利用混合音素集与所述神经网络的神经元构建音素向量表;
根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;
利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。
3.如权利要求1所述的语音合成方法,其特征在于,所述通过解码器将所述文本特征序列生成预测声学频谱特征,具体包括:
在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。
4.如权利要求1所述的语音合成方法,其特征在于,所述将所述预测声学频谱特征合成语音波形,具体包括:
利用Griffin-Lim算法将所述预测声学频谱特征进行迭代更新,合成语音波形。
5.如权利要求1所述的语音合成方法,其特征在于,所述将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列,具体包括:
预先获取多语言的音频数据及对应的多语言文本;
调用音频处理包利用傅里叶变换将时域状态的所述音频数据转化为对应的真实声学频谱特征;其中,所述音频处理包包括但不限于python中的librosa和pydub;
将所述多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列。
6.如权利要求5所述的语音合成方法,其特征在于,所述解码器的训练方法包括:
在初始阶段,采用特征标记帧输入到预设参数的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到预设参数的循环神经网络中,循环迭代得到所述预测声学频谱特征;
利用损失评价函数对所述真实声学频谱特征与所述预测声学频谱特征之间的误差进行评价,将误差进行反向传播;
更新预设参数,最小化所述预测声学频谱特征与所述真实声学频谱特征的误差。
7.如权利要求1所述的语音合成方法,其特征在于,所述将所述预测声学频谱特征合成语音波形后,还包括:
对所述语音波形进行处理,得到处理后的语音波形。
8.一种语音合成系统,其特征在于,包括:
预处理单元,用于将待处理的多语言文本转化为对应的混合音素集,并利用one-hot编码映射得到音素混合序列;
编码器单元,用于通过编码器将所述音素混合序列生成文本特征序列;
解码器单元,用于通过解码器将所述文本特征序列生成预测声学频谱特征;
语音波形合成单元,用于将所述预测声学频谱特征合成语音波形。
9.如权利要求8所述的语音合成系统,其特征在于,所述编码器由神经网络训练得到;其中,所述神经网络包括卷积神经网络和循环神经网络中的至少一种;则,所述编码器单元具体用于:
利用混合音素集与所述神经网络的神经元构建音素向量表;
根据所述音素向量表将所述音素混合序列转换为与所述神经网络输入维度相同的音素向量;
利用所述神经网络对所述音素向量施加非线性变换,得到文本特征序列。
10.如权利要求8所述的语音合成系统,其特征在于,所述解码器单元具体用于:
在初始阶段,采用特征标记帧输入到预先训练好的循环神经网络中,得到预测声学频谱特征;
在后续每个时间步上,将所述预测声学频谱特征与所述文本特征序列拼接,并输入到所述循环神经网络中,循环迭代得到所述预测声学频谱特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910153925.2A CN109767755A (zh) | 2019-03-01 | 2019-03-01 | 一种语音合成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910153925.2A CN109767755A (zh) | 2019-03-01 | 2019-03-01 | 一种语音合成方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109767755A true CN109767755A (zh) | 2019-05-17 |
Family
ID=66456526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910153925.2A Pending CN109767755A (zh) | 2019-03-01 | 2019-03-01 | 一种语音合成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767755A (zh) |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211562A (zh) * | 2019-06-05 | 2019-09-06 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
CN110299131A (zh) * | 2019-08-01 | 2019-10-01 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN110473516A (zh) * | 2019-09-19 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置以及电子设备 |
CN110797002A (zh) * | 2020-01-03 | 2020-02-14 | 同盾控股有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110992926A (zh) * | 2019-12-26 | 2020-04-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111160044A (zh) * | 2019-12-31 | 2020-05-15 | 出门问问信息科技有限公司 | 文语转换方法及装置、终端和计算机可读存储介质 |
CN111179904A (zh) * | 2019-12-31 | 2020-05-19 | 出门问问信息科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN111247581A (zh) * | 2019-12-23 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种多语言文本合成语音方法、装置、设备及存储介质 |
CN111260761A (zh) * | 2020-01-15 | 2020-06-09 | 北京猿力未来科技有限公司 | 一种生成动画人物口型的方法及装置 |
CN111599338A (zh) * | 2020-04-09 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种稳定可控的端到端语音合成方法及装置 |
CN111785249A (zh) * | 2020-07-10 | 2020-10-16 | 恒信东方文化股份有限公司 | 语音合成的输入音素的训练方法、装置及获得方法 |
CN111816158A (zh) * | 2019-09-17 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN111899716A (zh) * | 2020-08-03 | 2020-11-06 | 北京帝派智能科技有限公司 | 一种语音合成方法和系统 |
CN111968618A (zh) * | 2020-08-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置 |
CN112069816A (zh) * | 2020-09-14 | 2020-12-11 | 深圳市北科瑞声科技股份有限公司 | 中文标点符号添加方法和系统及设备 |
CN112185337A (zh) * | 2019-07-02 | 2021-01-05 | 微软技术许可有限责任公司 | 多语言神经文本到语音合成 |
CN112289297A (zh) * | 2019-07-25 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置和系统 |
CN112365878A (zh) * | 2020-10-30 | 2021-02-12 | 广州华多网络科技有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN112652294A (zh) * | 2020-12-25 | 2021-04-13 | 深圳追一科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112652291A (zh) * | 2020-12-15 | 2021-04-13 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112767910A (zh) * | 2020-05-13 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频信息合成方法、装置、计算机可读介质及电子设备 |
CN112767957A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 获得预测模型的方法、语音波形的预测方法及相关装置 |
CN112786000A (zh) * | 2019-11-11 | 2021-05-11 | 亿度慧达教育科技(北京)有限公司 | 语音合成方法、系统、设备及存储介质 |
CN113053357A (zh) * | 2021-01-29 | 2021-06-29 | 网易(杭州)网络有限公司 | 语音合成方法、装置、设备和计算机可读存储介质 |
CN113345415A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113450756A (zh) * | 2020-03-13 | 2021-09-28 | Tcl科技集团股份有限公司 | 一种语音合成模型的训练方法及一种语音合成方法 |
US20220172703A1 (en) * | 2019-08-20 | 2022-06-02 | Ai, Inc. | Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program |
CN114974208A (zh) * | 2022-06-20 | 2022-08-30 | 青岛大学 | 一种中文语音合成方法、装置、电子设备、存储介质 |
CN115910033A (zh) * | 2023-01-09 | 2023-04-04 | 北京远鉴信息技术有限公司 | 一种语音的合成方法、装置、电子设备及可读存储介质 |
CN112185337B (zh) * | 2019-07-02 | 2024-04-26 | 微软技术许可有限责任公司 | 多语言神经文本到语音合成 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120221339A1 (en) * | 2011-02-25 | 2012-08-30 | Kabushiki Kaisha Toshiba | Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis |
CN102737628A (zh) * | 2012-07-04 | 2012-10-17 | 哈尔滨工业大学深圳研究生院 | 一种基于lpc及rbf神经网络的声音转换的方法 |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN107481713A (zh) * | 2017-07-17 | 2017-12-15 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN108369803A (zh) * | 2015-10-06 | 2018-08-03 | 交互智能集团有限公司 | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109036375A (zh) * | 2018-07-25 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
US10186252B1 (en) * | 2015-08-13 | 2019-01-22 | Oben, Inc. | Text to speech synthesis using deep neural network with constant unit length spectrogram |
-
2019
- 2019-03-01 CN CN201910153925.2A patent/CN109767755A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120221339A1 (en) * | 2011-02-25 | 2012-08-30 | Kabushiki Kaisha Toshiba | Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis |
CN102737628A (zh) * | 2012-07-04 | 2012-10-17 | 哈尔滨工业大学深圳研究生院 | 一种基于lpc及rbf神经网络的声音转换的方法 |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
US10186252B1 (en) * | 2015-08-13 | 2019-01-22 | Oben, Inc. | Text to speech synthesis using deep neural network with constant unit length spectrogram |
CN108369803A (zh) * | 2015-10-06 | 2018-08-03 | 交互智能集团有限公司 | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 |
CN107481713A (zh) * | 2017-07-17 | 2017-12-15 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN109036375A (zh) * | 2018-07-25 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
Non-Patent Citations (1)
Title |
---|
张征: "《基于深度神经网络的汉语语音合成的研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211562A (zh) * | 2019-06-05 | 2019-09-06 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
CN110211562B (zh) * | 2019-06-05 | 2022-03-29 | 达闼机器人有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
CN112185337B (zh) * | 2019-07-02 | 2024-04-26 | 微软技术许可有限责任公司 | 多语言神经文本到语音合成 |
CN112185337A (zh) * | 2019-07-02 | 2021-01-05 | 微软技术许可有限责任公司 | 多语言神经文本到语音合成 |
US11922924B2 (en) | 2019-07-02 | 2024-03-05 | Microsoft Technology Licensing, Llc | Multilingual neural text-to-speech synthesis |
CN112289297A (zh) * | 2019-07-25 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置和系统 |
CN110299131A (zh) * | 2019-08-01 | 2019-10-01 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN110299131B (zh) * | 2019-08-01 | 2021-12-10 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
US20220172703A1 (en) * | 2019-08-20 | 2022-06-02 | Ai, Inc. | Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program |
CN111816158B (zh) * | 2019-09-17 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111816158A (zh) * | 2019-09-17 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
US11417314B2 (en) | 2019-09-19 | 2022-08-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech synthesis method, speech synthesis device, and electronic apparatus |
CN110473516A (zh) * | 2019-09-19 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置以及电子设备 |
CN110473516B (zh) * | 2019-09-19 | 2020-11-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置以及电子设备 |
CN112786000A (zh) * | 2019-11-11 | 2021-05-11 | 亿度慧达教育科技(北京)有限公司 | 语音合成方法、系统、设备及存储介质 |
CN112786000B (zh) * | 2019-11-11 | 2022-06-03 | 亿度慧达教育科技(北京)有限公司 | 语音合成方法、系统、设备及存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111247581A (zh) * | 2019-12-23 | 2020-06-05 | 深圳市优必选科技股份有限公司 | 一种多语言文本合成语音方法、装置、设备及存储介质 |
CN111247581B (zh) * | 2019-12-23 | 2023-10-10 | 深圳市优必选科技股份有限公司 | 一种多语言文本合成语音方法、装置、设备及存储介质 |
WO2021127817A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 一种多语言文本合成语音方法、装置、设备及存储介质 |
CN110992926B (zh) * | 2019-12-26 | 2022-06-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN110992926A (zh) * | 2019-12-26 | 2020-04-10 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
CN111179904A (zh) * | 2019-12-31 | 2020-05-19 | 出门问问信息科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN111160044A (zh) * | 2019-12-31 | 2020-05-15 | 出门问问信息科技有限公司 | 文语转换方法及装置、终端和计算机可读存储介质 |
CN110797002A (zh) * | 2020-01-03 | 2020-02-14 | 同盾控股有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111260761A (zh) * | 2020-01-15 | 2020-06-09 | 北京猿力未来科技有限公司 | 一种生成动画人物口型的方法及装置 |
CN111145720B (zh) * | 2020-02-04 | 2022-06-21 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN113450756A (zh) * | 2020-03-13 | 2021-09-28 | Tcl科技集团股份有限公司 | 一种语音合成模型的训练方法及一种语音合成方法 |
CN111599338B (zh) * | 2020-04-09 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种稳定可控的端到端语音合成方法及装置 |
CN111599338A (zh) * | 2020-04-09 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种稳定可控的端到端语音合成方法及装置 |
CN112767910A (zh) * | 2020-05-13 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 音频信息合成方法、装置、计算机可读介质及电子设备 |
US20220215827A1 (en) * | 2020-05-13 | 2022-07-07 | Tencent Technology (Shenzhen) Company Limited | Audio synthesis method and apparatus, computer readable medium, and electronic device |
WO2021227707A1 (zh) * | 2020-05-13 | 2021-11-18 | 腾讯科技(深圳)有限公司 | 音频合成方法、装置、计算机可读介质及电子设备 |
CN111785249A (zh) * | 2020-07-10 | 2020-10-16 | 恒信东方文化股份有限公司 | 语音合成的输入音素的训练方法、装置及获得方法 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN111883102B (zh) * | 2020-07-14 | 2022-12-30 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN111899716A (zh) * | 2020-08-03 | 2020-11-06 | 北京帝派智能科技有限公司 | 一种语音合成方法和系统 |
CN111968618B (zh) * | 2020-08-27 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置 |
CN111968618A (zh) * | 2020-08-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置 |
CN112069816A (zh) * | 2020-09-14 | 2020-12-11 | 深圳市北科瑞声科技股份有限公司 | 中文标点符号添加方法和系统及设备 |
CN112365878B (zh) * | 2020-10-30 | 2024-01-23 | 广州华多网络科技有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112365878A (zh) * | 2020-10-30 | 2021-02-12 | 广州华多网络科技有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
CN112652291A (zh) * | 2020-12-15 | 2021-04-13 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
CN112652291B (zh) * | 2020-12-15 | 2024-04-05 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
CN112652294B (zh) * | 2020-12-25 | 2023-10-24 | 深圳追一科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112652294A (zh) * | 2020-12-25 | 2021-04-13 | 深圳追一科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112767957A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 获得预测模型的方法、语音波形的预测方法及相关装置 |
CN112735373B (zh) * | 2020-12-31 | 2024-05-03 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113053357B (zh) * | 2021-01-29 | 2024-03-12 | 网易(杭州)网络有限公司 | 语音合成方法、装置、设备和计算机可读存储介质 |
CN113053357A (zh) * | 2021-01-29 | 2021-06-29 | 网易(杭州)网络有限公司 | 语音合成方法、装置、设备和计算机可读存储介质 |
CN113345415A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN114974208A (zh) * | 2022-06-20 | 2022-08-30 | 青岛大学 | 一种中文语音合成方法、装置、电子设备、存储介质 |
CN115910033A (zh) * | 2023-01-09 | 2023-04-04 | 北京远鉴信息技术有限公司 | 一种语音的合成方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767755A (zh) | 一种语音合成方法和系统 | |
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
US20210295858A1 (en) | Synthesizing speech from text using neural networks | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN107871496A (zh) | 语音识别方法和装置 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
Rawat et al. | Digital life assistant using automated speech recognition | |
De Mori et al. | Parallel algorithms for syllable recognition in continuous speech | |
Ronanki et al. | A Hierarchical Encoder-Decoder Model for Statistical Parametric Speech Synthesis. | |
KR102352987B1 (ko) | 음향 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법 | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
CN110808026B (zh) | 一种基于lstm的电声门图语音转换方法 | |
Mei et al. | A particular character speech synthesis system based on deep learning | |
CN112242134A (zh) | 语音合成方法及装置 | |
Zhao et al. | Research on voice cloning with a few samples | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN114495894A (zh) | 一种基于Tacotron2改进的语音合成方法 | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
Sanjay et al. | Natural text-to-speech synthesis by conditioning spectrogram predictions from transformer network on waveglow vocoder | |
Hu et al. | The USTC system for blizzard machine learning challenge 2017-ES2 | |
Vargas et al. | Cascade prediction filters with adaptive zeros to track the time-varying resonances of the vocal tract | |
KR102608344B1 (ko) | 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |