CN113450765A - 语音合成方法、装置、设备及存储介质 - Google Patents
语音合成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113450765A CN113450765A CN202110866867.5A CN202110866867A CN113450765A CN 113450765 A CN113450765 A CN 113450765A CN 202110866867 A CN202110866867 A CN 202110866867A CN 113450765 A CN113450765 A CN 113450765A
- Authority
- CN
- China
- Prior art keywords
- text
- synthesized
- phoneme
- frequency spectrum
- mel frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 108091026890 Coding region Proteins 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 52
- 230000015572 biosynthetic process Effects 0.000 claims description 28
- 238000003786 synthesis reaction Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012805 post-processing Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 25
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002355 dual-layer Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能领域,具体公开了一种语音合成方法、装置、设备及存储介质,所述方法包括:获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;对所述编码序列进行注意力计算,得到注意力输出;将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。能够提高合成语音的自然度。
Description
技术领域
本申请涉及语音合成领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
随着计算机技术的不断发展,在日常生活中逐渐开始使用合成语音来进行客户服务、广播通知、新闻播报等服务。现有技术中通常使用文本转语音的方式来利用输入文本合成高质量的语音,这种方式的优点在于不需要显著的特征提取,但这种方式无法完全代表韵律语言的特征,并导致了平坦的基频率变化,这导致在合成语音时会出现梅尔频谱的失真,降低合成出语音的准确度。
发明内容
本申请提供了一种语音合成方法、装置、设备及存储介质,以提高合成语音的准确度。
第一方面,本申请提供了一种语音合成方法,所述方法包括:
获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;
将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;
对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;
对所述编码序列进行注意力计算,得到注意力输出;
将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;
对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
第二方面,本申请还提供了一种语音合成装置,所述装置包括:
文本获取模块,用于获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;
特征预测模块,用于将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;
特征编码模块,用于对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;
注意计算模块,用于对所述编码序列进行注意力计算,得到注意力输出;
频谱生成模块,用于将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;
语音合成模块,用于对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音合成方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的语音合成方法。
本申请公开了一种语音合成方法、装置、设备及存储介质,通过获取待合成文本,并对待合成文本进行音素嵌入,从而得到待合成文本的音素嵌入文本,然后将音素嵌入文本输入至预先训练的分类器中进行预测,得到待合成文本的语言特征,再将音素嵌入文本和语言特征进行编码,并对得到的编码序列进行注意力计算,得到注意力输出,最终将注意力输出输入至预先训练的解码器中进行解码,得到待合成文本对应的梅尔频谱,并对梅尔频谱进行音频转换,从而得到待合成文本对应的合成语音。利用预先训练的分类器来得到待合成文本语言特征,从而根据语言特征以及音素嵌入文本的结合来进行语音合成,提高了合成语音的自然度,并且在合成语音和自然语音之间实现较高的基频轮廓相关性和较低的梅尔倒谱失真。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音合成方法的示意流程图;
图2是本申请实施例提供的语音合成方法的框架流程图;
图3是本申请实施例提供的语音合成方法的另一种框架流程图;
图4是本申请实施例提供的解码器的结构示意图;
图5为本申请实施例提供的一种语音合成装置的示意性框图;
图6为本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种语音合成方法、装置、计算机设备及存储介质。语音合成方法可用于对待合成文本进行语音合成,从而提高合成语音的自然度。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1和图2,图1是本申请实施例提供的一种语音合成方法的示意流程图,图2是本申请实施例提供的语音合成方法的框架流程图。该语音合成方法通过利用预先训练的分类器来提取语言特征,并将提取出的语言特征和音素嵌入文本进行结合来进行语音合成,从而达到提高合成语音的自然度的目的。
如图1所示,该语音合成方法,具体包括:步骤S101至步骤S105。
S101、获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本。
获取需要进行语音合成的待合成文本,待合成文本可以是文字文本,也可以是拼音文本,当待合成文本时文字文本时,需要先对待合成文本进行预处理,将文字文本转换为对应的拼音文本,然后再对拼音文本进行音素嵌入。
音素嵌入,也即将语素转换为音素,得到待合成文本对应的音素嵌入文本,在一实施例中,所述对所述待合成文本进行音素嵌入,包括:采用预先构建的音素字典对所述待合成文本进行语素和音素转换,得到所述待合成文本对应的音素嵌入文本。
对于一些词语,具有相同的拼写,但发音却完全不同,因此,可以通过使用不同的表达方式来展示有关发音的更多信息,也即音素。人所发出的声音是由不同的音素单位组成,将它们结合在一起后就以重新创建几乎所有词语的发音。
因此,可以根据预先构建的音素字典,对待合成文本进行语素和音素转换,也即将待合成文本转换为待合成文本的音素表示,从而得到待合成文本对应的音素嵌入文本。其中,预先构建的音素字典可以是CMU的音素字典。
S102、将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征。
将得到的音素嵌入文本输入至预先训练的分类器中进行预测,得到待合成文本对应的语言特征,其中,得到的语言特征是一个二维的二进制向量,语言特征中包括了待合成文本的韵律特征。其中,韵律特征又称超音段特征或者超语言学特征,韵律特征中包含了大量语音情感的特征。
在一实施例中,该语音合成方法还包括:获取训练样本,并对所述训练样本进行预处理,得到所述训练样本对应的韵律特征和音素嵌入样本;将所述韵律特征和所述音素嵌入样本输入多层神经网络,对所述多层神经网络进行无监督学习,得到预先训练的分类器。
其中,多层神经网络包括两层双向循环网络和一个全连接网络。其中,全连接网络使用Sigmod激活函数。获取用于训练分类器的训练样本,然后对训练样本进行预处理,从而得到训练样本所对应的韵律特征和音素嵌入样本,以便于对多层神经网络进行学习训练。
在具体实施过程中,所述对所述训练样本进行预处理,得到所述训练样本对应的韵律特征和音素嵌入样本的步骤可以包括:对所述训练样本进行基频检测,得到所述训练样本对应的韵律特征;对所述训练样本进行音素嵌入,得到所述训练样本对应的音素嵌入样本。
在对训练样本进行基频检测时,可以采用自相关函数法和平均幅度差法等来提取出训练样本所对应的韵律特征。然后再根据预先构建的音素字典对训练样本进行音素嵌入,得到音素嵌入样本。
在具体实施过程中,还可以使用Festival工具对训练样本进行文本数据的规范化,从而提取出训练样本的韵律特征。
将韵律特征和音素嵌入样本共同输入多层神经网络中,对多层神经网络进行无监督学习,在多层神经网络的损失函数值达到最小时,将训练完成的多层神经网络作为预先训练的分类器。
由于预先训练的分类器在训练时使用了音素嵌入样本和韵律特征来进行训练,因此,将音素嵌入文本输入至预先训练的分类器中进行预测后,得到的语言特征中包括了该待合成文本的韵律特征。
S103、对所述音频嵌入文本和所述语言特征进行编码,得到编码序列。
利用编码器对音频嵌入文本和语言特征共同进行编码,使得到的编码序列中包括语言特征,也即得到的编码序列中包括待合成文本的韵律特征。
在一实施例中,对所述音频嵌入文本和所述语言特征进行编码,得到编码序列的步骤可以包括:对所述音频嵌入文本进行预编码,得到所述音频嵌入文本的嵌入向量;将所述嵌入向量和所述语言特征进行拼接,得到拼接向量,并对所述拼接向量进行编码,得到编码序列。
对音频嵌入文本进行预编码,得到与音频嵌入文本相对应的嵌入向量,然后再将嵌入向量与语言特征进行拼接,得到拼接向量,最后再对拼接向量进行编码,得到编码序列。
S104、对所述编码序列进行注意力计算,得到注意力输出。
将编码序列输入至注意力网络中进行注意力计算,从而将编码序列归纳为一个定长上下文向量,并将得到的定长上下文向量作为注意力输出。其中,注意力网络可以使用位置敏感注意力机制。
在具体实施过程中,注意力计算发生在输出编码序列的每一个时间步上,首先根据源状态,也即音频嵌入文本和语言特征,和对应的编码序列生成注意力权重,也即进行对齐处理。其中,在此过程中可以使用位置敏感注意力机制,也可以使用基于内容的注意力机制、混合注意力机制或其他类型的注意力机制。
然后基于生成的注意力权重计算上下文向量作为源状态的加权平均,再将得到的注意力向量作为下一个时间步的输出,循环执行该步骤,直至对整个编码序列完成注意力计算。
S105、将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱。
预先训练的解码器中包括一个自回归的循环神经网络,将注意力输出输入至该预先训练的解码器中进行解码,从而预测出待合成文本所对应的梅尔频谱。每次解码预测的过程预测出一个梅尔频谱帧。
在一实施例中,所述将所述注意力输出输入至预先训练的解码器中进行解码的步骤可以包括:将所述注意力输出输入所述双层循环网络得到预测的梅尔频谱;根据所述后处理网络对所述预测的梅尔频谱进行优化,得到所述待合成文本对应的梅尔频谱。
其中,如图3所示,为本申请实施例提供的解码器的结构示意图。预先训练的解码器中包括双层循环网络(双层LSTM网络)、后处理网络(Post-Net)以及信息瓶颈层(Pre-Net)。
将注意力输出输入至双层循环网络中,将预测出的当前步的梅尔频谱帧输入至一个双层Pre-Net中,在具体实施过程中,Pre-Net可以是每层由256个隐藏ReLU单元组成的双层全连接的信息瓶颈层。
将Pre-Net的输出与当前步的注意力输出进行拼接,并将拼接结果再次输入至双层循环网络,再次将双层循环网络的输出和当前步的注意力输出拼接在一起,对此时的拼接结果经过线性变换投影来预测目标梅尔频谱帧。
同时,并行于梅尔频谱帧的预测,双层循环网络的输出与注意力输出进行拼接,投影成一个标量后传递给Sigmod激活函数,来预测解码过程是否已经结束。循环执行该过程,直至预测到停止标志时,结束梅尔频谱帧的生成。此时根据生成的多个梅尔频谱帧得到预测的梅尔频谱。
然后将预测的梅尔频谱帧经过后处理网络来预测一个残差叠加到卷积前的梅尔频谱帧上,从而改善频谱重构的过程,得到待合成文本所对应的梅尔频谱。其中,后处理网络是由多个卷积层所组成的。
在一实施例中,如图4所示,为本申请实施例提供的语音合成方法的另一种框架流程图。将注意力输出输入至预先训练的解码器中进行语音合成的步骤可以包括:将所述注意力输出和所述语言特征进行拼接,并将拼接后的特征输入至预先训练的解码器中进行语音合成,得到所述待合成文本对应的合成语音。
将注意力输出和语言特征进行拼接,其中,由于注意力输出为一个上下文向量,语言特征也是一个向量,因此,可以直接将注意力输出与语言特征进行拼接,然后将拼接后的特征向量输入至预先训练的解码器中进行处理,从而进行语音合成,得到合成语音。
将拼接后的向量输入至双层循环网络中,将预测出的当前步的梅尔频谱帧输入至一个双层Pre-Net中,在具体实施过程中,Pre-Net可以是每层由256个隐藏ReLU单元组成的双层全连接的信息瓶颈层。
将Pre-Net的输出与当前步的注意力输出进行拼接,并将拼接结果再次输入至双层循环网络,再次将双层循环网络的输出和当前步的注意力输出拼接在一起,对此时的拼接结果经过线性变换投影来预测目标梅尔频谱帧。
同时,并行于梅尔频谱帧的预测,双层循环网络的输出与拼接后的向量再进行拼接,投影成一个标量后传递给Sigmod激活函数,来预测解码过程是否已经结束。循环执行该过程,直至预测到停止标志时,结束梅尔频谱帧的生成。此时根据生成的多个梅尔频谱帧得到预测的梅尔频谱。
然后将预测的梅尔频谱帧经过后处理网络来预测一个残差叠加到卷积前的梅尔频谱帧上,从而改善频谱重构的过程,得到待转换梅尔频谱。其中,后处理网络是由多个卷积层所组成的。
S106、对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
在得到待合成文本对应的梅尔频谱后,对梅尔频谱进行转换,将梅尔频谱特征表达逆变换为时域波形样本,从而得到合成语音。在具体实施过程中,可以使用WaveNet来实现音频转换,生成待合成文本对应的合成语音。
在一实施例中,所述对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音的步骤包括:将所述语音特征与所述梅尔频谱进行拼接,得到拼接梅尔频谱;对所述拼接梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
将语音特征和待合成文本对应的梅尔频谱进行拼接,使得到的拼接梅尔频谱中包括待合成文本的韵律信息。然后在生成合成语音时,基于拼接梅尔频谱进行语音合成,从而得到合成语音。这使得在合成语音时考虑到了待合成文本的韵律信息,从而提高了语音合成的自然度。
另外,在一实施例中,在对解码器进行预先训练时,可以使用训练多层神经网络,也即对分类器进行训练时的训练样本来对解码器进行训练。将分类器中的网络参数与解码器中的网络参数使用同一训练样本来进行同时训练。
训练过程可以为:将训练样本所对应的韵律特征和音素嵌入样本输入多层神经网络,得到语言特征。然后将语言特征和音素嵌入样本进行拼接,输入编码器中进行编码,将编码器的输出输入至注意力网络中进行注意力计算,得到注意力输出。然后将注意力输出与语言特征进行拼接,并将拼接后的结果输入至解码器中。同时,将语言特征也与解码器中后网的输出进行拼接,从而最终得到合成的样本语音。根据该过程不断对多层神经网络和解码器进行学习训练,直至训练完成后,将多层神经网络作为预先训练的分类器,将解码器作为预先训练的解码器。
在具体实施过程中,可以将训练过程中解码器所输出的合成的样本语音添加至训练样本中,重复的参与多层神经网络和解码器的学习训练。
在训练过程中分别将包括有韵律信息的语言特征与音频嵌入文本、注意力输出以及待转换梅尔频谱进行拼接,在语音合成的多个阶段结合语言特征来进行联合训练,以增强合成语音的韵律腾讯,从而实现合成语音的高自然度,提升用户对合成语音的体验感。
上述实施例提供的语音合成方法,通过获取待合成文本,并对待合成文本进行音素嵌入,从而得到待合成文本的音素嵌入文本,然后将音素嵌入文本输入至预先训练的分类器中进行预测,得到待合成文本的语言特征,再将音素嵌入文本和语言特征进行编码,并对得到的编码序列进行注意力计算,得到注意力输出,最终将注意力输出输入至预先训练的解码器中进行解码,得到待合成文本对应的梅尔频谱,并对梅尔频谱进行音频转换,从而得到待合成文本对应的合成语音。利用预先训练的分类器来得到待合成文本语言特征,从而根据语言特征以及音素嵌入文本的结合来进行语音合成,提高了合成语音的自然度,并且在合成语音和自然语音之间实现较高的基频轮廓相关性和较低的梅尔倒谱失真。
请参阅图5,图5是本申请的实施例还提供一种语音合成装置的示意性框图,该语音合成装置用于执行前述的语音合成方法。其中,该语音合成装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图5所示,语音合成装置200包括:文本获取模块201、特征预测模块202、特征编码模块203、注意计算模块204、频谱生成模块205和语音合成模块206。
文本获取模块201,用于获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本。
特征预测模块202,用于将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征。
特征编码模块203,用于对所述音频嵌入文本和所述语言特征进行编码,得到编码序列。
注意计算模块204,用于对所述编码序列进行注意力计算,得到注意力输出。
频谱生成模块205,用于将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱。
语音合成模块206,用于对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的语音合成装置和各模块的具体工作过程,可以参考前述语音合成方法实施例中的对应过程,在此不再赘述。
上述的语音合成装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音合成方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音合成方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;对所述编码序列进行注意力计算,得到注意力输出;将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
在一个实施例中,所述处理器在实现所述对所述待合成文本进行音素嵌入时,用于实现:
采用预先构建的音素字典对所述待合成文本进行语素和音素转换,得到所述待合成文本对应的音素嵌入文本。
在一个实施例中,所述处理器在实现所述将所述注意力输出输入至预先训练的解码器中进行解码时,用于实现:
将所述注意力输出和所述语言特征进行拼接,并将拼接后的特征输入至预先训练的解码器中进行解码。
在一个实施例中,所述解码器包括双层循环网络和后处理网络;所述处理器在实现所述将所述注意力输出输入至预先训练的解码器中进行解码,得到所述待合成文本对应的梅尔频谱时,用于实现:
将所述注意力输出输入所述双层循环网络得到预测的梅尔频谱;根据所述后处理网络对所述预测的梅尔频谱进行优化,得到所述待合成文本对应的梅尔频谱。
在一个实施例中,所述处理器在实现所述对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音时,用于实现:
将所述语音特征与所述梅尔频谱进行拼接,得到拼接梅尔频谱;对所述拼接梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
在一个实施例中,所述处理器用于实现:
获取训练样本,并对所述训练样本进行预处理,得到所述训练样本对应的韵律特征和音素嵌入样本;将所述韵律特征和所述音素嵌入样本输入多层神经网络,对所述多层神经网络进行无监督学习,得到预先训练的分类器。
在一个实施例中,所述处理器在实现所述对所述训练样本进行预处理,得到所述训练样本对应的韵律特征和音素嵌入样本时,用于实现:
对所述训练样本进行基频检测,得到所述训练样本对应的韵律特征;对所述训练样本进行音素嵌入,得到所述训练样本对应的音素嵌入样本。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项语音合成方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;
将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;
对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;
对所述编码序列进行注意力计算,得到注意力输出;
将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;
对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述对所述待合成文本进行音素嵌入,包括:
采用预先构建的音素字典对所述待合成文本进行语素和音素转换,得到所述待合成文本对应的音素嵌入文本。
3.根据权利要求1所述的语音合成方法,其特征在于,所述将所述注意力输出输入至预先训练的解码器中进行解码,包括:
将所述注意力输出和所述语言特征进行拼接,并将拼接后的特征输入至预先训练的解码器中进行解码。
4.根据权利要求1所述的语音合成方法,其特征在于,所述解码器包括双层循环网络和后处理网络;所述将所述注意力输出输入至预先训练的解码器中进行解码,得到所述待合成文本对应的梅尔频谱,包括:
将所述注意力输出输入所述双层循环网络得到预测的梅尔频谱;
根据所述后处理网络对所述预测的梅尔频谱进行优化,得到所述待合成文本对应的梅尔频谱。
5.根据权利要求1所述语音合成方法,其特征在于,所述对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音,包括:
将所述语音特征与所述梅尔频谱进行拼接,得到拼接梅尔频谱;
对所述拼接梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
6.根据权利要求1所述的语音合成方法,其特征在于,所述方法包括:
获取训练样本,并对所述训练样本进行预处理,得到所述训练样本对应的韵律特征和音素嵌入样本;
将所述韵律特征和所述音素嵌入样本输入多层神经网络,对所述多层神经网络进行无监督学习,得到预先训练的分类器。
7.根据权利要求6所述的语音合成方法,其特征在于,所述对所述训练样本进行预处理,得到所述训练样本对应的韵律特征和音素嵌入样本,包括:
对所述训练样本进行基频检测,得到所述训练样本对应的韵律特征;
对所述训练样本进行音素嵌入,得到所述训练样本对应的音素嵌入样本。
8.一种语音合成装置,其特征在于,包括:
文本获取模块,用于获取待合成文本,并对所述待合成文本进行音素嵌入,得到所述待合成文本对应的音素嵌入文本;
特征预测模块,用于将所述音素嵌入文本输入至预先训练的分类器中进行预测,得到所述待合成文本对应的语言特征;
特征编码模块,用于对所述音频嵌入文本和所述语言特征进行编码,得到编码序列;
注意计算模块,用于对所述编码序列进行注意力计算,得到注意力输出;
频谱生成模块,用于将所述注意力输出输入至预先训练的解码器进行解码,得到所述待合成文本对应的梅尔频谱;
语音合成模块,用于对所述梅尔频谱进行音频转换,得到所述待合成文本对应的合成语音。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的语音合成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110866867.5A CN113450765B (zh) | 2021-07-29 | 2021-07-29 | 语音合成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110866867.5A CN113450765B (zh) | 2021-07-29 | 2021-07-29 | 语音合成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113450765A true CN113450765A (zh) | 2021-09-28 |
CN113450765B CN113450765B (zh) | 2024-07-09 |
Family
ID=77817703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110866867.5A Active CN113450765B (zh) | 2021-07-29 | 2021-07-29 | 语音合成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450765B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724686A (zh) * | 2021-11-03 | 2021-11-30 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
CN114038447A (zh) * | 2021-12-02 | 2022-02-11 | 深圳市北科瑞声科技股份有限公司 | 语音合成模型的训练方法、语音合成方法、装置及介质 |
CN114267376A (zh) * | 2021-11-24 | 2022-04-01 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN114360559A (zh) * | 2021-12-17 | 2022-04-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
WO2024174787A1 (zh) * | 2023-02-23 | 2024-08-29 | 京东科技信息技术有限公司 | 语音编辑方法、装置及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524534A (zh) * | 2020-03-20 | 2020-08-11 | 北京捷通华声科技股份有限公司 | 一种语音分析方法、系统、设备及存储介质 |
CN112002305A (zh) * | 2020-07-29 | 2020-11-27 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN112669841A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112786007A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
-
2021
- 2021-07-29 CN CN202110866867.5A patent/CN113450765B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524534A (zh) * | 2020-03-20 | 2020-08-11 | 北京捷通华声科技股份有限公司 | 一种语音分析方法、系统、设备及存储介质 |
CN112002305A (zh) * | 2020-07-29 | 2020-11-27 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN112669841A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112786007A (zh) * | 2021-01-20 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724686A (zh) * | 2021-11-03 | 2021-11-30 | 中国科学院自动化研究所 | 编辑音频的方法、装置、电子设备及存储介质 |
US11462207B1 (en) | 2021-11-03 | 2022-10-04 | Institute Of Automation, Chinese Academy Of Sciences | Method and apparatus for editing audio, electronic device and storage medium |
CN114267376A (zh) * | 2021-11-24 | 2022-04-01 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN114038447A (zh) * | 2021-12-02 | 2022-02-11 | 深圳市北科瑞声科技股份有限公司 | 语音合成模型的训练方法、语音合成方法、装置及介质 |
CN114360559A (zh) * | 2021-12-17 | 2022-04-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
WO2024174787A1 (zh) * | 2023-02-23 | 2024-08-29 | 京东科技信息技术有限公司 | 语音编辑方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113450765B (zh) | 2024-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113450765B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
CN110288972B (zh) | 语音合成模型训练方法、语音合成方法及装置 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
WO2022252904A1 (zh) | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN111930900B (zh) | 标准发音生成方法及相关装置 | |
CN113450758B (zh) | 语音合成方法、装置、设备及介质 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN115206284B (zh) | 一种模型训练方法、装置、服务器和介质 | |
CN113761841A (zh) | 将文本数据转换为声学特征的方法 | |
CN113870827A (zh) | 一种语音合成模型的训练方法、装置、设备及介质 | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
Xue et al. | Foundationtts: Text-to-speech for asr customization with generative language model | |
CN114743539A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN117316140A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN116863912A (zh) | 语音合成方法、装置、设备及介质 | |
CN116469374A (zh) | 基于情感空间的语音合成方法、装置、设备及存储介质 | |
CN116597807A (zh) | 基于多尺度风格的语音合成方法、装置、设备及介质 | |
CN112687262A (zh) | 语音转换方法、装置、电子设备及计算机可读存储介质 | |
CN116978364A (zh) | 音频数据处理方法、装置、设备以及介质 | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |