CN113345415A - 语音合成方法、装置、设备及存储介质 - Google Patents
语音合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113345415A CN113345415A CN202110607789.7A CN202110607789A CN113345415A CN 113345415 A CN113345415 A CN 113345415A CN 202110607789 A CN202110607789 A CN 202110607789A CN 113345415 A CN113345415 A CN 113345415A
- Authority
- CN
- China
- Prior art keywords
- preset
- text
- acoustic model
- model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 83
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 62
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 62
- 238000001228 spectrum Methods 0.000 claims abstract description 51
- 238000013507 mapping Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 14
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 230000006403 short-term memory Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及人工智能领域,公开了一种语音合成方法、装置、设备及存储介质,用于提升语音的合成效果。语音合成方法包括:获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列;获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型;调用优化后的声学模型,对音节序列进行编码处理和解码处理,得到梅尔频谱序列;通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。此外,本发明还涉及区块链技术,目标语音可存储于区块链节点中。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
语音合成,又称文语转换(text to speech,TTS),是一种可以将任意输入文本转换成相应语音的技术,是自然语言处理领域中一个重要的研究分支。
语音合成的研究历史可以追溯到18至19世纪,从早期的基于规则的机械式、电子式语音合成器,到基于波形拼接、统计参数的语音合成,近年来,深度学习的引入使得语音合成效果得到了显著提升,但是,如果想使得深度学习语音合成的效果变好,必须需要大量的语料库进行训练,现有技术中的语料库获取比较困难,导致合成语音的效果差。
发明内容
本发明提供了一种语音合成方法、装置、设备及存储介质,用于调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
本发明第一方面提供了一种语音合成方法,包括:获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列;获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型;调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列;通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音。
可选的,在本发明第一方面的第一种实现方式中,所述获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列包括:获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本;调用预置的文本分词工具,对所述预处理文本进行分词处理,得到分词文本;通过预置的字素转音素模型和预置的映射词典,对所述分词文本进行映射转换,得到音节序列,所述音节序列包括声母序列、韵母序列和所述韵母序列对应的声调。
可选的,在本发明第一方面的第二种实现方式中,所述获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型包括:获取训练文本,所述训练文本包括多个子文本,每一个子文本包括训练集文本和测试集文本;获取预置的声学模型的参数,通过所述训练文本和预置的模型无关元学习算法,计算所述声学模型的损失函数,得到模型损失函数,所述预置的声学模型为神经网络语音合成模型;基于所述模型损失函数求所述声学模型的参数对应的偏导数,得到参数偏导数;基于所述参数偏导数,通过预置的梯度下降法对所述预置的声学模型的所述参数进行更新,得到优化后的声学模型。
可选的,在本发明第一方面的第三种实现方式中,所述调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列包括:调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征;调用所述优化后的声学模型中的解码器,对所述编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列。
可选的,在本发明第一方面的第四种实现方式中,所述调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征包括:调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层,将所述音节序列转换为预设维度的字符向量,得到编码字符向量;通过预设的三卷积层,对所述编码字符向量进行归一化处理,得到卷积向量,调用预置的激活函数激活所述卷积向量,得到激活向量;通过预设的编码长短期记忆网络对所述激活向量进行预测,得到编码特征,所述编码长短期记忆网络为双向的编码长短期记忆网络。
可选的,在本发明第一方面的第五种实现方式中,所述通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音包括:调用预置的声码器中的反卷积层,对所述梅尔频谱序列进行上采样,得到初始音频波形,所述初始音频波形的采样速率与预设的波形采样速率匹配;对所述初始音频波形进行去加重处理,得到目标音频波形,将所述目标音频波形进行拼接,得到目标语音。
可选的,在本发明第一方面的第六种实现方式中,在所述获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列之前,所述方法还包括:获取训练语料,对所述训练语料进行预处理,得到预处理后的训练语料,所述训练语料包括训练文本和所述训练文本对应的拼音序列;从预置的转换规则库中选取字素转音素的转换规则,得到映射转换规则;将所述训练语料和所述映射转换规则导入预置的词典构建模板,得到映射词典。
本发明第二方面提供了一种语音合成装置,包括:获取模块,用于获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列;优化模块,用于获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型;编解码模块,用于调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列;分析模块,用于通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块包括:过滤单元,用于获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本;分词单元,用于调用预置的文本分词工具,对所述预处理文本进行分词处理,得到分词文本;映射单元,用于通过预置的字素转音素模型和预置的映射词典,对所述分词文本进行映射转换,得到音节序列,所述音节序列包括声母序列、韵母序列和所述韵母序列对应的声调。
可选的,在本发明第二方面的第二种实现方式中,所述优化模块包括:获取单元,用于获取训练文本,所述训练文本包括多个子文本,每一个子文本包括训练集文本和测试集文本;第一计算单元,用于获取预置的声学模型的参数,通过所述训练文本和预置的模型无关元学习算法,计算所述声学模型的损失函数,得到模型损失函数,所述预置的声学模型为神经网络语音合成模型;第二计算单元,用于基于所述模型损失函数求所述声学模型的参数对应的偏导数,得到参数偏导数;更新单元,用于基于所述参数偏导数,通过预置的梯度下降法对所述预置的声学模型的所述参数进行更新,得到优化后的声学模型。
可选的,在本发明第二方面的第三种实现方式中,所述编解码模块包括:编码单元,用于调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征;解码单元,用于调用所述优化后的声学模型中的解码器,对所述编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列。
可选的,在本发明第二方面的第四种实现方式中,所述编码单元具体用于:调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层,将所述音节序列转换为预设维度的字符向量,得到编码字符向量;通过预设的三卷积层,对所述编码字符向量进行归一化处理,得到卷积向量,调用预置的激活函数激活所述卷积向量,得到激活向量;通过预设的编码长短期记忆网络对所述激活向量进行预测,得到编码特征,所述编码长短期记忆网络为双向的编码长短期记忆网络。
可选的,在本发明第二方面的第五种实现方式中,所述分析模块包括:上采样单元,用于调用预置的声码器中的反卷积层,对所述梅尔频谱序列进行上采样,得到初始音频波形,所述初始音频波形的采样速率与预设的波形采样速率匹配;拼接单元,用于对所述初始音频波形进行去加重处理,得到目标音频波形,将所述目标音频波形进行拼接,得到目标语音。
可选的,在本发明第二方面的第六种实现方式中,在所述获取模块之前,所述语音合成装置还包括构建模块,所述构建模块包括:预处理单元,用于获取训练语料,对所述训练语料进行预处理,得到预处理后的训练语料,所述训练语料包括训练文本和所述训练文本对应的拼音序列;选取单元,用于从预置的转换规则库中选取字素转音素的转换规则,得到映射转换规则;构建单元,用于将所述训练语料和所述映射转换规则导入预置的词典构建模板,得到映射词典。
本发明第三方面提供了一种语音合成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音合成设备执行上述的语音合成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音合成方法。
本发明提供的技术方案中,获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列;获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型;调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列;通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音。本发明实施例中,调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
附图说明
图1为本发明实施例中语音合成方法的一个实施例示意图;
图2为本发明实施例中语音合成方法的另一个实施例示意图;
图3为本发明实施例中语音合成装置的一个实施例示意图;
图4为本发明实施例中语音合成装置的另一个实施例示意图;
图5为本发明实施例中语音合成设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种语音合成方法、装置、设备及存储介质,用于调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中语音合成方法的一个实施例包括:
101、获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列。
可以理解的是,本发明的执行主体可以为语音合成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
服务器获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列。初始文本通过爬虫获取,本实施例中运用到的初始文本都经过用户授权,对初始文本进行预处理的执行过程可以为:服务器对初始文本进行缺失值的填充、异常值过滤和重复值过滤,以实现对初始文本的预处理,从而得到预处理文本,缺失值的填充可以为多重插补,异常值的处理主要采用异常值检测算法z-score识别出异常值并删除,同时对重复值进行去重处理,得到预处理文本,预处理文本生成后,服务器调用预置的字素转音素模型(grapheme-to-phoneme,G2P)对预处理文本进行转换,得到音节序列,G2P模型使用循环神经网络(recurrent neuralnetwork,RNN)和长短期记忆网络(long short-term memory,LSTM)实现单词到音素的转化。
102、获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型。
服务器获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型。本实施例通过100组任务(即训练文本)来训练预置的声学模型,100组任务均为文本到语音(text to speech,TTS)任务,每一组任务都包括训练集与测试集,其中,每一组任务由一个说话人的11句话组成,10句话为训练集,1句话为测试集,测试集中出现的文字必须在训练集出现过,100组任务对应着不同的100个说话人,本实施例采用模型无关元学习算法(model agnostic meta-learning,MAML)对预置的声学模型进行参数优化,通过计算模型的损失函数实现参数的更新,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型tacotron2,tacotron2是一种从文字直接转化为语音的模型,该模型的作用是将频谱图合成波形图,最终合成目标语音。
103、调用优化后的声学模型,对音节序列进行编码处理和解码处理,得到梅尔频谱序列。
服务器调用优化后的声学模型,对音节序列进行编码处理和解码处理,得到梅尔频谱序列。优化后的声学模型包括一个编码器和一个包含注意力机制的解码器,编码器把字符序列转换成一个隐层表征(即编码特征),解码器接收这个隐层表征用以预测声谱图,得到梅尔频谱序列,其中,编码器包括一个字符嵌入层(character embedding),一个三卷积层和一个双向编码长短期记忆网络LSTM层,解码器包括一个初始网络层pre-net,一个单向长短期记忆网络层和一个后网络层post-net。
104、通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。
服务器通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。本实施例中运用的声码器为基于生成对抗的并行波形网络parallel wavegan,是一种无蒸馏的对抗生成网络,快速且占用空间小的波形生成算法,通过优化多分辨率谱图和对抗损失函数来训练语音生成模型WaveNet,可以有效捕获真实语音波形的时频分布,将梅尔频谱序列转化为携带语言信息的声波频谱(即声纹),得到目标语音。
本发明实施例中,调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
请参阅图2,本发明实施例中语音合成方法的另一个实施例包括:
201、获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列。
服务器获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列。具体的,服务器获取初始文本,对初始文本进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本;服务器调用预置的文本分词工具,对预处理文本进行分词处理,得到分词文本;服务器通过预置的字素转音素模型和预置的映射词典,对分词文本进行映射转换,得到音节序列,音节序列包括声母序列、韵母序列和韵母序列对应的声调。
对初始文本进行预处理的执行过程可以为:服务器对初始文本进行缺失值的填充、异常值的过滤和重复值过滤,得到预处理文本,缺失值的填充可以为多重插补,异常值的处理主要采用异常值检测算法z-score识别出异常值并删除,同时对重复值进行去重处理,得到预处理文本,预处理文本生成后,调用预置的文本分词工具对预处理文本进行分词处理,文本分词工具包括但不限于语言技术平台(language technology plantform,LTP)、汉语言处理包(han language processing,HanLP)和结巴jieba分词工具,得到分词文本,通过调用预置的字素转音素模型,基于预置的映射词典可以将分词文本映射转换为对应的音节序列,音节序列包括声母序列、韵母序列和韵母序列对应的声调,例如,“中国”对应的音节序列为“zh,ong1,g,uo2”,“平安”对应的音节序列为“p,ing2,an1”,韵母序列对应的声调用数字1到5表示,1代表中文声调里的第一声,2代表第二声,3代表第三声,4代表第四声,5代表轻声。
202、获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型。
服务器获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型。具体的,服务器获取训练文本,训练文本包括多个子文本,每一个子文本包括训练集文本和测试集文本;服务器获取预置的声学模型的参数,通过训练文本和预置的模型无关元学习算法,计算声学模型的损失函数,得到模型损失函数,预置的声学模型为神经网络语音合成模型;服务器基于模型损失函数求声学模型的参数对应的偏导数,得到参数偏导数;服务器基于参数偏导数,通过预置的梯度下降法对预置的声学模型的参数进行更新,得到优化后的声学模型。
本实施例中的训练文本即为小样本语料,包括100组任务文本转换语音的任务,服务器获取预置的声学模型的参数,通过训练文本和预置的模型无关元学习算法,计算声学模型的损失函数得到模型损失函数,其中,N为子任务个数,ln为子任务损失,表示第n个任务训练出来的初始化参数,模型的优化过程就是对参数进行更新,对模型损失函数求参数的偏导数,之后用梯度下降的方法更新参数,得到优化后的声学模型。
203、调用优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对音节序列进行编码运算,得到编码特征。
服务器调用优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对音节序列进行编码运算,得到编码特征。具体的,服务器调用优化后的声学模型中的编码器,基于预设的字符嵌入层,将音节序列转换为预设维度的字符向量,得到编码字符向量;服务器通过预设的三卷积层,对编码字符向量进行归一化处理,得到卷积向量,调用预置的激活函数激活卷积向量,得到激活向量;服务器通过预设的编码长短期记忆网络对激活向量进行预测,得到编码特征,编码长短期记忆网络为双向的编码长短期记忆网络。
通过编码器中的字符嵌入层将音节序列转换为预设维度的字符向量,预设维度可以为512维,得到编码字符向量,然后通过预设的三卷积层,三卷积层包括三层卷积层,对编码字符向量进行归一化处理,每层卷积层包含512个5x1的卷积核,即每个卷积核横跨5个字符,对编码字符向量进行批归一化(batch normalization)处理,调用激活函数relu进行激活,得到激活向量,最后将激活向量传输到双向的编码长短期记忆网络层,对激活向量对应的隐藏状态进行预测,得到编码特征,双向的编码长短期记忆网络层包括512个单元,每个方向包含256个单元。
204、调用优化后的声学模型中的解码器,对编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列。
服务器调用优化后的声学模型中的解码器,对编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列。服务器通过解码器中的初始网络层pre-net和单向LSTM层,对编码特征进行基于预设维度的线性投影,得到中间频谱帧,pre-net为双层全连接层,每层全连接层由256个隐藏激活函数relu单元组成,通过后网络层post-net对中间频谱帧进行残差预测和归一化处理,得到梅尔频谱序列,post-net为五层卷积层,每层由512个5x1的卷积核组成,除了最后一层卷积层,其它每层归一化的过程都采用激活函数tanh激活。
205、通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。
服务器通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。具体的,服务器调用预置的声码器中的反卷积层,对梅尔频谱序列进行上采样,得到初始音频波形,初始音频波形的采样速率与预设的波形采样速率匹配;服务器对初始音频波形进行去加重处理,得到目标音频波形,将目标音频波形进行拼接,得到目标语音。
本实施例中运用的声码器为基于生成对抗的并行波形网络parallel wavegan,可以包括4个反卷积层,预设的波形采样速率为16kHz,因此反卷积层将对梅尔频谱序列进行上采样,以匹配语音波形的采样率,得到初始音频波形,对初始音频波形中的高频分量进行去加重处理,得到目标音频波形,将目标音频波形进行拼接,最终得到目标语音。
本发明实施例中,调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
上面对本发明实施例中语音合成方法进行了描述,下面对本发明实施例中语音合成装置进行描述,请参阅图3,本发明实施例中语音合成装置的一个实施例包括:
获取模块301,用于获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列;
优化模块302,用于获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型;
编解码模块303,用于调用优化后的声学模型,对音节序列进行编码处理和解码处理,得到梅尔频谱序列;
分析模块304,用于通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。
本发明实施例中,调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
请参阅图4,本发明实施例中语音合成装置的另一个实施例包括:
获取模块301,用于获取初始文本,对初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对预处理文本进行转换,得到音节序列;
优化模块302,用于获取训练文本,基于训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,预置的声学模型为神经网络语音合成模型;
编解码模块303,用于调用优化后的声学模型,对音节序列进行编码处理和解码处理,得到梅尔频谱序列;
其中,编解码模块303具体包括:
编码单元3031,用于调用优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对音节序列进行编码运算,得到编码特征;
解码单元3032,用于调用优化后的声学模型中的解码器,对编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列;
分析模块304,用于通过预置的声码器,对梅尔频谱序列进行频谱分析,得到目标语音。
可选的,获取模块301包括:
过滤单元3011,用于获取初始文本,对初始文本进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本;
分词单元3012,用于调用预置的文本分词工具,对预处理文本进行分词处理,得到分词文本;
映射单元3013,用于通过预置的字素转音素模型和预置的映射词典,对分词文本进行映射转换,得到音节序列,音节序列包括声母序列、韵母序列和韵母序列对应的声调。
可选的,优化模块302包括:
获取单元3021,用于获取训练文本,训练文本包括多个子文本,每一个子文本包括训练集文本和测试集文本;
第一计算单元3022,用于获取预置的声学模型的参数,通过训练文本和预置的模型无关元学习算法,计算声学模型的损失函数,得到模型损失函数,预置的声学模型为神经网络语音合成模型;
第二计算单元3023,用于基于模型损失函数求声学模型的参数对应的偏导数,得到参数偏导数;
更新单元3024,用于基于参数偏导数,通过预置的梯度下降法对预置的声学模型的参数进行更新,得到优化后的声学模型。
可选的,编码单元3031还可以具体用于:
调用优化后的声学模型中的编码器,基于预设的字符嵌入层,将音节序列转换为预设维度的字符向量,得到编码字符向量;
通过预设的三卷积层,对编码字符向量进行归一化处理,得到卷积向量,调用预置的激活函数激活卷积向量,得到激活向量;
通过预设的编码长短期记忆网络对激活向量进行预测,得到编码特征,编码长短期记忆网络为双向的编码长短期记忆网络。
可选的,分析模块304包括:
上采样单元3041,用于调用预置的声码器中的反卷积层,对梅尔频谱序列进行上采样,得到初始音频波形,初始音频波形的采样速率与预设的波形采样速率匹配;
拼接单元3042,用于对初始音频波形进行去加重处理,得到目标音频波形,将目标音频波形进行拼接,得到目标语音。
可选的,在获取模块301之前,语音合成装置还包括构建模块305,包括:
预处理单元3051,用于获取训练语料,对训练语料进行预处理,得到预处理后的训练语料,训练语料包括训练文本和训练文本对应的拼音序列;
选取单元3052,用于从预置的转换规则库中选取字素转音素的转换规则,得到映射转换规则;
构建单元3053,用于将训练语料和映射转换规则导入预置的词典构建模板,得到映射词典。
本发明实施例中,调用预置的字素转音素模型对预处理文本进行转换,得到音节序列,调用优化后的声学模型,对音节序列进行基于声谱的预测,通过声码器合成目标语音,提升了语音的合成效果。
上面图3和图4从模块化功能实体的角度对本发明实施例中的语音合成装置进行详细描述,下面从硬件处理的角度对本发明实施例中语音合成设备进行详细描述。
图5是本发明实施例提供的一种语音合成设备的结构示意图,该语音合成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语音合成设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在语音合成设备500上执行存储介质530中的一系列指令操作。
语音合成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的语音合成设备结构并不构成对语音合成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种语音合成设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述语音合成方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述语音合成方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音合成方法,其特征在于,所述语音合成方法包括:
获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列;
获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型;
调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列;
通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列包括:
获取初始文本,对所述初始文本进行缺失值补全、异常值过滤和重复值过滤,得到预处理文本;
调用预置的文本分词工具,对所述预处理文本进行分词处理,得到分词文本;
通过预置的字素转音素模型和预置的映射词典,对所述分词文本进行映射转换,得到音节序列,所述音节序列包括声母序列、韵母序列和所述韵母序列对应的声调。
3.根据权利要求1所述的语音合成方法,其特征在于,所述获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型包括:
获取训练文本,所述训练文本包括多个子文本,每一个子文本包括训练集文本和测试集文本;
获取预置的声学模型的参数,通过所述训练文本和预置的模型无关元学习算法,计算所述声学模型的损失函数,得到模型损失函数,所述预置的声学模型为神经网络语音合成模型;
基于所述模型损失函数求所述声学模型的参数对应的偏导数,得到参数偏导数;
基于所述参数偏导数,通过预置的梯度下降法对所述预置的声学模型的所述参数进行更新,得到优化后的声学模型。
4.根据权利要求1所述的语音合成方法,其特征在于,所述调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列包括:
调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征;
调用所述优化后的声学模型中的解码器,对所述编码特征进行基于注意力机制的解码运算,得到梅尔频谱序列。
5.根据权利要求4所述的语音合成方法,其特征在于,所述调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层、三卷积层和编码长短期记忆网络,对所述音节序列进行编码运算,得到编码特征包括:
调用所述优化后的声学模型中的编码器,基于预设的字符嵌入层,将所述音节序列转换为预设维度的字符向量,得到编码字符向量;
通过预设的三卷积层,对所述编码字符向量进行归一化处理,得到卷积向量,调用预置的激活函数激活所述卷积向量,得到激活向量;
通过预设的编码长短期记忆网络对所述激活向量进行预测,得到编码特征,所述编码长短期记忆网络为双向的编码长短期记忆网络。
6.根据权利要求1所述的语音合成方法,其特征在于,所述通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音包括:
调用预置的声码器中的反卷积层,对所述梅尔频谱序列进行上采样,得到初始音频波形,所述初始音频波形的采样速率与预设的波形采样速率匹配;
对所述初始音频波形进行去加重处理,得到目标音频波形,将所述目标音频波形进行拼接,得到目标语音。
7.根据权利要求1-6中任一项所述的语音合成方法,其特征在于,在所述获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列之前,所述方法还包括:
获取训练语料,对所述训练语料进行预处理,得到预处理后的训练语料,所述训练语料包括训练文本和所述训练文本对应的拼音序列;
从预置的转换规则库中选取字素转音素的转换规则,得到映射转换规则;
将所述训练语料和所述映射转换规则导入预置的词典构建模板,得到映射词典。
8.一种语音合成装置,其特征在于,所述语音合成装置包括:
获取模块,用于获取初始文本,对所述初始文本进行预处理,得到预处理文本,调用预置的字素转音素模型和预置的映射词典,对所述预处理文本进行转换,得到音节序列;
优化模块,用于获取训练文本,基于所述训练文本和预置的模型无关元学习算法,对预置的声学模型进行优化,得到优化后的声学模型,所述预置的声学模型为神经网络语音合成模型;
编解码模块,用于调用所述优化后的声学模型,对所述音节序列进行编码处理和解码处理,得到梅尔频谱序列;
分析模块,用于通过预置的声码器,对所述梅尔频谱序列进行频谱分析,得到目标语音。
9.一种语音合成设备,其特征在于,所述语音合成设备包括:
存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音合成设备执行如权利要求1-7中任意一项所述的语音合成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110607789.7A CN113345415A (zh) | 2021-06-01 | 2021-06-01 | 语音合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110607789.7A CN113345415A (zh) | 2021-06-01 | 2021-06-01 | 语音合成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113345415A true CN113345415A (zh) | 2021-09-03 |
Family
ID=77473922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110607789.7A Pending CN113345415A (zh) | 2021-06-01 | 2021-06-01 | 语音合成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345415A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023312A (zh) * | 2021-11-26 | 2022-02-08 | 杭州涿溪脑与智能研究所 | 基于元学习的语音声纹识别通用对抗扰动构建方法及系统 |
CN114023300A (zh) * | 2021-11-03 | 2022-02-08 | 四川大学 | 一种基于扩散概率模型的中文语音合成方法 |
CN115862641A (zh) * | 2023-02-16 | 2023-03-28 | 北京惠朗时代科技有限公司 | 基于区块链的印控仪智能启动和安全应用方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598552A (zh) * | 2014-12-31 | 2015-05-06 | 大连钜正科技有限公司 | 一种支持增量式更新的大数据特征学习的方法 |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN111292719A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN112002305A (zh) * | 2020-07-29 | 2020-11-27 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
-
2021
- 2021-06-01 CN CN202110607789.7A patent/CN113345415A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598552A (zh) * | 2014-12-31 | 2015-05-06 | 大连钜正科技有限公司 | 一种支持增量式更新的大数据特征学习的方法 |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN111292719A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN112002305A (zh) * | 2020-07-29 | 2020-11-27 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023300A (zh) * | 2021-11-03 | 2022-02-08 | 四川大学 | 一种基于扩散概率模型的中文语音合成方法 |
CN114023312A (zh) * | 2021-11-26 | 2022-02-08 | 杭州涿溪脑与智能研究所 | 基于元学习的语音声纹识别通用对抗扰动构建方法及系统 |
CN115862641A (zh) * | 2023-02-16 | 2023-03-28 | 北京惠朗时代科技有限公司 | 基于区块链的印控仪智能启动和安全应用方法及系统 |
CN115862641B (zh) * | 2023-02-16 | 2023-04-28 | 北京惠朗时代科技有限公司 | 基于区块链的印控仪智能启动和安全应用方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Durian: Duration informed attention network for multimodal synthesis | |
US20220208170A1 (en) | Generating Expressive Speech Audio From Text Data | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
US11538455B2 (en) | Speech style transfer | |
EP3752964B1 (en) | Speech style transfer | |
WO2020215666A1 (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN113345415A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111754976A (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN110570876B (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
US10255903B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN112562634B (zh) | 多风格音频合成方法、装置、设备及存储介质 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
KR102137523B1 (ko) | 텍스트-음성 변환 방법 및 시스템 | |
CA3004700C (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
Rajesh Kumar et al. | Optimization-enabled deep convolutional network for the generation of normal speech from non-audible murmur based on multi-kernel-based features | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
US11404045B2 (en) | Speech synthesis method and apparatus | |
KR102639322B1 (ko) | 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법 | |
CN115910032A (zh) | 音素对齐模型训练方法、计算机设备及计算机存储介质 | |
CN114299989A (zh) | 一种语音过滤方法、装置、电子设备及存储介质 | |
CN115206281A (zh) | 一种语音合成模型训练方法、装置、电子设备及介质 | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
Louw | Neural speech synthesis for resource-scarce languages | |
McHargue | Efficient Multispeaker Speech Synthesis and Voice Cloning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |