CN113327576A - 语音合成方法、装置、设备及存储介质 - Google Patents
语音合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113327576A CN113327576A CN202110621375.XA CN202110621375A CN113327576A CN 113327576 A CN113327576 A CN 113327576A CN 202110621375 A CN202110621375 A CN 202110621375A CN 113327576 A CN113327576 A CN 113327576A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- audio
- text sample
- speech synthesis
- numerical value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 33
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音合成方法、装置、设备及存储介质,该方法包括:将待处理的文本数据的每个字转成相应的音素;根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。本发明能有效提高语音合成的效果,使得合成的音频更加自然、真实,同时能提高语音合成的推理速度。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
语音合成,又称文语转换(Text to Speech)技术,通过将任意文字信息实时转化为语音,其在语音交互、实时新闻语音播报、语音翻译等语音合成应用场景具有很好的应用前景。目前,常规的语音合成方法是:先储存每个音素的波形,然后先把文字转成音素,再查找音素对应的波形,通过预设的规则拼接波形,输出语音。但是通过波形拼接方法合成语音效果不够自然,与真人语音有较大的差距。
发明内容
针对上述问题,本发明的目的在于提供一种语音合成方法、装置、设备及存储介质,其能有效提高语音合成的效果,使得合成的音频更加自然、真实。
第一方面,本发明实施例提供了一种语音合成方法,包括:
将待处理的文本数据的每个字转成相应的音素;
根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
作为上述方案的改进,所述方法还包括以下所述声学模型训练步骤:
将预先采集的文本样本的每个字转成相应的音素;
根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;
获取所述文本样本的每个音素的音频特征;
根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;
以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型。
作为上述方案的改进,所述将待处理的文本数据的每个字转成相应的音素,包括:
将所述文本数据的每个字转成拼音;
根据预先构建的拼音与音素字典文件,将每个拼音映射成音素。
作为上述方案的改进,所述获取所述文本样本的每个音素的音频特征,包括:
对预存的音频数据进行归一化处理;
获取所述音频数据对应的文本样本中每个字对应的拼音;
根据归一化后的音频数据、所述文本样本对应的拼音及预先构建的拼音与音素字典文件,通过预先预先训练好的对齐模型,获得音频与音素的对齐结果;
根据所述对齐结果,读取所述文本样本中每个音素的音频范围;
根据每个音素的音频范围切分出每个音素在所述文本样本中音频特征。
作为上述方案的改进,所述根据所述对齐结果,读取所述文本样本中每个音素的音频范围,包括:
读取所述对齐结果对应的TextGrid文件,并根据所述TextGrid文件,获取所述文本样本中每个音素的起始时间和终止时间;
将任一音素的起始时间至终止时间对应范围,作为任一音素对应的音频范围。
作为上述方案的改进,所述根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量,包括:
获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;
根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;
根据每个音素插值后的音频特征,得到音素向量。
作为上述方案的改进,所述根据每个音素插值后的音频特征,得到音素向量,包括:
将每个音素插值后的音频特征转换为梅尔频谱;
计算每个音素对应的梅尔频谱的帧数量,作为对应音素的时长值;
根据属于第i种音素的所有时长值,计算第i种音素的时长平均值;
根据各种音素的时长平均值构建一维矩阵,作为音素向量。
第二方面,本发明实施例提供了一种语音合成装置,包括:
音素转换模块,用于将待处理的文本数据的每个字转成相应的音素;
数值转换模块,用于根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
频谱获取模块,用于根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
音频转换模块,用于将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
第三方面,本发明实施例提供了一种语音合成设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的语音合成方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的语音合成方法。
相对于现有技术,本发明实施例的有有益效果在于:通过将待处理的文本数据的每个字转成相应的音素;根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。本发明通过先将文字转成音频特征,然后将音频特征转成音素向量,并基于嵌入了音素向量与音素数值映射的声学模型,推理梅尔频谱,最终通过声码器将所述梅尔频谱转换成音频,能有效提高语音合成的效果,使得合成的音频更加自然、真实,同时能提高语音合成的推理速度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种语音合成方法的流程图;
图2是本发明第二实施例提供的一种语音合成装置的示意图;
图3是本发明第三实施例提供的一种语音合成设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供的一种语音合成方法,包括:
S1:将待处理的文本数据的每个字转成相应的音素;
S2:根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
S3:根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
S4:将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
本发明通过先将文字转成音频特征,然后将音频特征转成音素向量,并基于嵌入了音素向量与音素数值映射的声学模型,推理梅尔频谱,最终通过声码器将所述梅尔频谱转换成音频,可以保证合成语音的准确度,能有效提高语音合成的效果,使得合成的音频更加自然、真实,同时能提高语音合成的推理速度。
在一种可选的实施例中,所述将待处理的文本数据的每个字转成相应的音素,包括:
将所述文本数据的每个字转成拼音;
根据预先构建的拼音与音素字典文件,将每个拼音映射成音素。
示例性的,可通过pypinyin工具或是预训练好的拼音预测模型输出所述文本数据中每个字对应的拼音。
在一种可选的实施例中,所述方法还包括以下所述声学模型训练步骤:
S11:将预先采集的文本样本的每个字转成相应的音素;
S12:根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;
进一步的,所述根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值,包括:
将所述文本样本的每个字转成拼音;
根据预先构建的拼音与音素字典文件,将每个拼音映射成音素;
根据所述音素与数值映射,将每个拼音对应的音素转成音素数值。
S13:获取所述文本样本的每个音素的音频特征;
S14:根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;
S15:以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型。
示例性的,对初始化后的神经网络模型,将所述文本样本的音素向量及其音素数值以映射的方式复制到神经网络模型的的嵌入层的向量映射中,其中,所述神经网络模型可以是tacotron,DeepVoice等模型,也可以非自回归模型。然后通过将所述文本样本的音素数值输入到所述神经网络模型中进行训练,得到所述文本样本的梅尔频谱;所述神经网络模型的工作原理如下:
所述神经网络模型的嵌入层将输入的音素数值转换成音素向量;
将音素向量输入到所述神经网络模型的一个子网络(如一层全连接神经网络),得到一个整数值d(可以理解为时长值),把音素向量根据对应的时长值d复制和扩展成d份,然后把扩展后的音素向量进行拼接。
把拼接后的音素向量输入到所述神经网络模型的一个子网络,输出变换后的梅尔频谱。
基于大量的文本样本重复上述模型训练过程,直到根据神经网络模型的输出和损失函数,使得神经网络模型的精度达到需求。
在本发明实施例中,基于音素向量和音素数值的映射来初始化神经网络参数,相比于现有的随机初始化神经网络参数,训练神经网路时收敛所需的训练步数更少,可有效提升模型训练速度。所述神经网络模型中子网络采用一层卷积神经网络,相比其他主流声学模型参数量大大减少,从而减少了所需计算量,进一步的提高了训练速度和推理速度,减少了语音合成系统的参数量和占用空间。
在一种可选的实施例中,所述获取所述文本样本的每个音素的音频特征,包括:
S21:对预存的音频数据进行归一化处理;
示例性的,可通过对所述音频数据进行线性变换以实现归一化,例如:统计所有音频数据的最大值和最低值;根据最大值和最小值将所有音频数据进行归一化。
S22:获取所述音频数据对应的文本样本中每个字对应的拼音;
示例性的,可通过pypinyin工具或是预训练好的拼音预测模型输出所述文本样本中每个字对应的拼音。
S23:根据归一化后的音频数据、所述文本样本对应的拼音及预先构建的拼音与音素字典文件,通过预先预先训练好的对齐模型,获得音频与音素的对齐结果;
示例性的,所述对齐模型可参见Montreal Forced Alignment工具。
S24:根据所述对齐结果,读取所述文本样本中每个音素的音频范围;
S25:根据每个音素的音频范围切分出每个音素在所述文本样本中音频特征。
示例性的,读取出所述对齐结果的音频数据,获得数组。根据每个音素的起始时间和终止时间获得对应时间范围的数组数列,储存为对应音素的音频特征。
在本发明实施例中,通过进行音频-音素对齐处理,使得所述文本样本中每一个句子与对应的音频数据对齐,同时标准了每个音素对应的音频的起始时间点,并以TextGrid文件的形式记录下来。通过音频-音素对齐能准确定位出文本样本中每个音素的音频范围,提高语音合成的准确性,
在一种可选的实施例中,所述根据所述对齐结果,读取所述文本样本中每个音素的音频范围,包括:
读取所述对齐结果对应的TextGrid文件,并根据所述TextGrid文件,获取所述文本样本中每个音素的起始时间和终止时间;
将任一音素的起始时间至终止时间对应范围,作为任一音素对应的音频范围。
在一种可选的实施例中,所述根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值,包括:
获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;
根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;
根据每个音素插值后的音频特征,得到音素向量。
在本发明实施例中,对于属于同一种音素的音频特征进行如下处理:
计算属于同一种音素的所述音频特征的最大音频长度;
对每个音频特征进行插值处理,保证属于同一种音素的所有音频特征的长度等于最大音频长度,从而使得每个音素对应一个时长值;
在一种可选的实施例中,所述根据每个音素插值后的音频特征,得到音素向量,包括:
将每个音素插值后的音频特征转换为梅尔频谱;
计算每个音素对应的梅尔频谱的帧数量,作为对应音素的时长值;
根据属于第i种音素的所有时长值,计算第i种音素的时长平均值;
根据各种音素的时长平均值构建一维矩阵,作为音素向量。
在其他实施例中,还可以基于插值后的音频特征对应梅尔频谱、音素的时长值计算最大值、最小值、方差和偏斜度等统计数值,并结合所述时长平均值,生成一维矩阵,作为音素向量。
在本发明实施例中,通过将文本样本预处理成音素向量、音素数值,并基于声学模型进行梅尔频谱的推理,可以有效提升推理速度。
请参阅图2,本发明第二实施例提供了一种语音合成装置,包括:
音素转换模块1,用于将待处理的文本数据的每个字转成相应的音素;
数值转换模块2,用于根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
频谱获取模块3,用于根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
音频转换模块4,用于将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
在一种可选的实施例中,所述装置还包括模型训练模块,所述模型训练模块包括:
音素获取单元,用于将预先采集的文本样本的每个字转成相应的音素;
数值获取单元,用于根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;
音频特征获取单元,用于获取所述文本样本的每个音素的音频特征;
音素向量获取单元,用于根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;
神经网络训练单元,用于以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型。
在一种可选的实施例中,所述音素转换模块1包括:
拼音转换单元,用于将所述文本数据的每个字转成拼音;
音素映射单元,用于根据预先构建的拼音与音素字典文件,将每个拼音映射成音素。
在一种可选的实施例中,所述音频特征获取单元,包括:
归一化子单元,用于对预存的音频数据进行归一化处理;
拼音获取子单元,用于获取所述音频数据对应的文本样本中每个字对应的拼音;
对齐子单元,用于根据归一化后的音频数据、所述文本样本对应的拼音及预先构建的拼音与音素字典文件,通过预先预先训练好的对齐模型,获得音频与音素的对齐结果;
音频范围读取子单元,用于根据所述对齐结果,读取所述文本样本中每个音素的音频范围;
音频特征切分子单元,用于根据每个音素的音频范围切分出每个音素在所述文本样本中音频特征。
在一种可选的实施例中,所述音频范围读取子单元,用于
读取所述对齐结果对应的TextGrid文件,并根据所述TextGrid文件,获取所述文本样本中每个音素的起始时间和终止时间;
将任一音素的起始时间至终止时间对应范围,作为任一音素对应的音频范围。
在一种可选的实施例中,所述音素向量获取单元包括:
最大音频长度计算子单元,用于获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;
插值子单元,用于根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;
音素向量生成子单元,用于根据每个音素插值后的音频特征,得到音素向量。
在一种可选的实施例中,所述音素向量生成子单元,用于
将每个音素插值后的音频特征转换为梅尔频谱;
计算每个音素对应的梅尔频谱的帧数量,作为对应音素的时长值;
根据属于第i种音素的所有时长值,计算第i种音素的时长平均值;
根据各种音素的时长平均值构建一维矩阵,作为音素向量。
本发明实施例所提供的一种语音合成装置能够实现上述语音合成方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的语音合成方法的作用以及实现的技术效果对应相同,这里不再赘述。
参见图3,是本发明第三实施例提供的一种语音合成设备的示意图。如图3所示,该语音合成设备包括:至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的语音合成方法,例如图1所示的步骤S1。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如音素转换模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述语音合成设备中的执行过程。
所述语音合成设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述语音合成设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是语音合成设备的示例,并不构成对语音合成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所称处理器11可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器11是所述语音合成设备的控制中心,利用各种接口和线路连接整个语音合成设备的各个部分。
所述存储器15可用于存储所述计算机程序和/或模块,所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述语音合成设备的各种功能。所述存储器15可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器15可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述语音合成设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明第四实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
作为一种可选的实施例,计算机可读介质可以包括RAM,ROM,EEPROM,CD-ROM或其它光盘存储器,磁盘存储器或其它磁存储设备,或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码,并且可由计算机访问。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,数字用户线(DSL)或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD),激光盘,光盘,数字通用光盘(DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
将待处理的文本数据的每个字转成相应的音素;
根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
2.如权利要求1所述的语音合成方法,其特征在于,所述方法还包括以下所述声学模型训练步骤:
将预先采集的文本样本的每个字转成相应的音素;
根据所述音素与数值映射字典,将所述文本样本的每个音素转换成音素数值;
获取所述文本样本的每个音素的音频特征;
根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量;
以所述文本样本的音素向量和音素数值为训练集,对神经网络模型进行训练,得到所述声学模型。
3.如权利要求1所述的语音合成方法,其特征在于,所述将待处理的文本数据的每个字转成相应的音素,包括:
将所述文本数据的每个字转成拼音;
根据预先构建的拼音与音素字典文件,将每个拼音映射成音素。
4.如权利要求2所述的语音合成方法,其特征在于,所述获取所述文本样本的每个音素的音频特征,包括:
对预存的音频数据进行归一化处理;
获取所述音频数据对应的文本样本中每个字对应的拼音;
根据归一化后的音频数据、所述文本样本对应的拼音及预先构建的拼音与音素字典文件,通过预先预先训练好的对齐模型,获得音频与音素的对齐结果;
根据所述对齐结果,读取所述文本样本中每个音素的音频范围;
根据每个音素的音频范围切分出每个音素在所述文本样本中音频特征。
5.如权利要求4所述的语音合成方法,其特征在于,所述根据所述对齐结果,读取所述文本样本中每个音素的音频范围,包括:
读取所述对齐结果对应的TextGrid文件,并根据所述TextGrid文件,获取所述文本样本中每个音素的起始时间和终止时间;
将任一音素的起始时间至终止时间对应范围,作为任一音素对应的音频范围。
6.如权利要求2所述的语音合成方法,其特征在于,所述根据所述文本样本的每个音素的音频特征,得到所述文本样本的音素向量,包括:
获取属于第i种音素的所有音频特征,并计算第i种音素的所有音频特征中的最大音频长度;
根据所述最大音频长度,对第i种音素的所有音频特征进行插值处理;其中,插值后的音频特征的长度等于所述最大音频长度;
根据每个音素插值后的音频特征,得到音素向量。
7.如权利要求6所述的语音合成方法,其特征在于,所述根据每个音素插值后的音频特征,得到音素向量,包括:
将每个音素插值后的音频特征转换为梅尔频谱;
计算每个音素对应的梅尔频谱的帧数量,作为对应音素的时长值;
根据属于第i种音素的所有时长值,计算第i种音素的时长平均值;
根据各种音素的时长平均值构建一维矩阵,作为音素向量。
8.一种语音合成装置,其特征在于,包括:
音素转换模块,用于将待处理的文本数据的每个字转成相应的音素;
数值转换模块,用于根据预先构建的音素与数值映射字典,将所述文本数据的每个音素转成相应的音素数值;
频谱获取模块,用于根据所述音素数值,通过预先训练的声学模型,获得所述文本数据对应的梅尔频谱;其中,所述声学模型根据音素向量与音素数值映射基于神经网络模型训练得到;
音频转换模块,用于将所述梅尔频谱输入到声码器中以将所述梅尔频谱转换成音频。
9.一种语音合成设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的语音合成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110621375.XA CN113327576B (zh) | 2021-06-03 | 2021-06-03 | 语音合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110621375.XA CN113327576B (zh) | 2021-06-03 | 2021-06-03 | 语音合成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113327576A true CN113327576A (zh) | 2021-08-31 |
CN113327576B CN113327576B (zh) | 2024-04-23 |
Family
ID=77421066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110621375.XA Active CN113327576B (zh) | 2021-06-03 | 2021-06-03 | 语音合成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327576B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744715A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 声码器语音合成方法、装置、计算机设备及存储介质 |
CN113763924A (zh) * | 2021-11-08 | 2021-12-07 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410918A (zh) * | 2018-10-15 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于获取信息的方法及装置 |
US20190164535A1 (en) * | 2017-11-27 | 2019-05-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech synthesis |
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
WO2020200178A1 (zh) * | 2019-04-03 | 2020-10-08 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN112002305A (zh) * | 2020-07-29 | 2020-11-27 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN112233646A (zh) * | 2020-10-20 | 2021-01-15 | 携程计算机技术(上海)有限公司 | 基于神经网络的语音克隆方法、系统、设备及存储介质 |
CN112420016A (zh) * | 2020-11-20 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
WO2021040490A1 (en) * | 2019-08-30 | 2021-03-04 | Samsung Electronics Co., Ltd. | Speech synthesis method and apparatus |
CN112652291A (zh) * | 2020-12-15 | 2021-04-13 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
CN112735389A (zh) * | 2020-12-29 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
-
2021
- 2021-06-03 CN CN202110621375.XA patent/CN113327576B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190164535A1 (en) * | 2017-11-27 | 2019-05-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech synthesis |
CN109410918A (zh) * | 2018-10-15 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于获取信息的方法及装置 |
WO2020200178A1 (zh) * | 2019-04-03 | 2020-10-08 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
WO2021040490A1 (en) * | 2019-08-30 | 2021-03-04 | Samsung Electronics Co., Ltd. | Speech synthesis method and apparatus |
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN112002305A (zh) * | 2020-07-29 | 2020-11-27 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN112233646A (zh) * | 2020-10-20 | 2021-01-15 | 携程计算机技术(上海)有限公司 | 基于神经网络的语音克隆方法、系统、设备及存储介质 |
CN112420016A (zh) * | 2020-11-20 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
CN112652291A (zh) * | 2020-12-15 | 2021-04-13 | 携程旅游网络技术(上海)有限公司 | 基于神经网络的语音合成方法、系统、设备及存储介质 |
CN112735389A (zh) * | 2020-12-29 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744715A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 声码器语音合成方法、装置、计算机设备及存储介质 |
CN113763924A (zh) * | 2021-11-08 | 2021-12-07 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
CN113763924B (zh) * | 2021-11-08 | 2022-02-15 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113327576B (zh) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410621B2 (en) | Training method for multiple personalized acoustic models, and voice synthesis method and device | |
CN111667814B (zh) | 一种多语种的语音合成方法及装置 | |
US10789938B2 (en) | Speech synthesis method terminal and storage medium | |
CN109389968B (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
CN109817198B (zh) | 语音合成方法、装置及存储介质 | |
CN110136691B (zh) | 一种语音合成模型训练方法、装置、电子设备及存储介质 | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
CN108564966B (zh) | 语音测试的方法及其设备、具有存储功能的装置 | |
CN110264993B (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN113327576B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113053357B (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CN110211562B (zh) | 一种语音合成的方法、电子设备及可读存储介质 | |
CN110138654B (zh) | 用于处理语音的方法和装置 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
US20090177473A1 (en) | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech | |
JP2019179257A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP2016161823A (ja) | 音響モデル学習支援装置、音響モデル学習支援方法 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN112185340B (zh) | 语音合成方法、语音合成装置、存储介质与电子设备 | |
CN114550702A (zh) | 一种语音识别方法和装置 | |
CN110312161B (zh) | 一种视频配音方法、装置及终端设备 | |
CN114783409A (zh) | 语音合成模型的训练方法、语音合成方法及装置 | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN113948062A (zh) | 数据转换方法及计算机存储介质 | |
CN111105781B (zh) | 语音处理方法、装置、电子设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |