CN116129858A - 语音合成方法、语音后验概率生成模型的训练方法及装置 - Google Patents
语音合成方法、语音后验概率生成模型的训练方法及装置 Download PDFInfo
- Publication number
- CN116129858A CN116129858A CN202211412891.2A CN202211412891A CN116129858A CN 116129858 A CN116129858 A CN 116129858A CN 202211412891 A CN202211412891 A CN 202211412891A CN 116129858 A CN116129858 A CN 116129858A
- Authority
- CN
- China
- Prior art keywords
- posterior probability
- voice
- speech
- sequence
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000001308 synthesis method Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 45
- 230000008451 emotion Effects 0.000 claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 claims abstract description 33
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 25
- 108091026890 Coding region Proteins 0.000 claims description 105
- 239000013598 vector Substances 0.000 claims description 77
- 238000013507 mapping Methods 0.000 claims description 59
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 156
- 230000008569 process Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本说明书实施方式提供了一种语音合成方法、语音后验概率生成模型的训练方法及装置。语音合成方法包括:获取目标文本对应的音素序列;将音素序列输入至语音后验概率生成模型,得到音素序列对应的语音后验概率;调用语音转换模型对音素序列对应的语音后验概率进行转换处理,得到音素序列对应的梅尔频谱特征;基于梅尔频谱特征进行语音合成处理,得到目标文本对应的合成语音。通过将与说话人语音特征无关的语音后验概率作为中间数据,以在一定程度上减少了受说话人特征影响的模型参数数量,以在一定程度上较小说话人特征对合成的语音的影响,从而减少合成语音的机械化,使得合成语音具有一定情感。
Description
技术领域
本说明书中实施方式关于人工智能领域,尤其涉及一种语音合成方法、语音后验概率生成模型的训练方法及装置。
背景技术
目前,常用的语音合成方法是将文本的音素输入训练好的深度学习模型,得到相应的梅尔频谱。进一步的,根据梅尔频谱可以生成时序波形,基于时序波形便可得到一段合成语音。然而,深度学习模型在训练的过程中,训练样本中作为目标输出的梅尔频谱包括了说话人的声音特征,不同训练样本的说话人可能不同。相应的,说话人的声音特征也会不同。因此,在深度学习模型训练过程中只能学习到较为平均的语音语调,受到说话人的声音特征的影响较大。导致,通过相应的深度学习模型合成的语音会变得过于机械化,不富含情感。
发明内容
有鉴于此,本说明书多个实施方式致力于提供语音合成方法、语音后验概率生成模型的训练方法及装置,在一定程度上减小说话人的特征对合成的语音的影响。
本说明书中多个实施方式提供一种语音合成方法。所述方法包括:获取目标文本对应的音素序列;其中,所述音素序列包括至少一个音素;将所述音素序列输入至语音后验概率生成模型,得到所述音素序列对应的语音后验概率;其中,所述语音后验概率包括所述至少一个音素在不同时间帧的概率分布数据;其中,所述语音后验概率生成模型包括依序连接的编码模块、长度调节模块和概率映射模块;所述编码模块用于对所述音素序列进行编码处理得到编码序列,所述长度调节模块用于扩展所述编码序列,使得扩展后的编码序列包括的编码向量的数量与所述语音后验概率包括的时间帧的数量相匹配,所述概率映射模块用于将扩展后的编码序列映射为所述至少一个音素在不同时间帧的概率分布数据;调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征;基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
本说明书的一个实施方式提供一种语音后验概率生成模型的训练方法,包括:构建语音后验概率生成模型的训练样本;其中,所述训练样本包括训练文本对应的音素序列,以及所述训练文本的语音对应的目标语音后验概率;其中,所述音素序列包括至少一个音素;所述目标语音后验概率用于表示不同时间帧所述音素序列的至少一个音素的使用概率;通过所述语音后验概率生成模型中的编码模块对所述音素序列进行编码处理,得到对应所述音素序列的编码序列;将所述编码序列输入所述语音后验概率生成模型的长度调节模块,得到扩展后的编码序列;其中,所述扩展后的编码序列包括的编码向量的数量与所述目标语音后验概率包括的时间帧的数量相匹配;将扩展后的编码序列输入所述概率映射模块,得到所述音素序列对应的预测语音后验概率;其中,所述概率映射模块用于将所述扩展后的编码序列映射至所述音素在不同时间帧下的概率分布数据,所述概率分布数据作为所述预测语音后验概率;依照所述目标语音后验概率和所述预测语音后验概率之间的差异,调整所述语音后验概率生成模型,以得到目标语音后验概率生成模型,调整后的语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到所述目标文本的音素序列对应的语音后验概率。
本说明书中多个实施方式提供一种语音合成装置。所述装置包括:获取模块,用于获取目标文本对应的音素序列;其中,所述音素序列包括至少一个音素;语音后验概率生成模块,用于将所述音素序列输入至语音后验概率生成模型,得到所述音素序列对应的语音后验概率;其中,所述语音后验概率包括所述至少一个音素在不同时间帧的概率分布数据;其中,所述语音后验概率生成模型包括依序连接的编码模块、长度调节模块和概率映射模块;所述编码模块用于对所述音素序列进行编码处理得到编码序列,所述长度调节模块用于扩展所述编码序列,使得扩展后的编码序列包括的编码向量的数量与所述语音后验概率包括的时间帧的数量相匹配,所述概率映射模块用于将扩展后的编码序列映射为所述至少一个音素在不同时间帧的概率分布数据;梅尔频谱生成模块,用于调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征;合成语音生成模块,用于基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
本说明书的一个实施方式提供一种语音后验概率生成模型的训练装置,包括:构建模块,用于构建语音后验概率生成模型的训练样本;其中,所述训练样本包括训练文本对应的音素序列,以及所述训练文本的语音对应的目标语音后验概率;其中,所述音素序列包括至少一个音素;所述目标语音后验概率用于表示不同时间帧所述音素序列的音素的使用概率;特征提取模块,用于通过所述语音后验概率生成模型中的编码模块对所述音素序列进行编码处理,得到对应所述音素序列的编码序列;扩展模块,用于将所述编码序列输入所述语音后验概率生成模型的长度调节模块,得到扩展后的编码序列;其中,所述扩展后的编码序列包括的编码向量的数量与所述目标语音后验概率包括的时间帧的数量相匹配;概率预测模块,用于将所述扩展后的编码序列输入所述语音后验概率生成模型的概率映射模块,得到所述音素序列对应的预测语音后验概率;其中,所述概率映射模块用于将所述扩展后的编码序列映射至所述音素在不同时间帧下的概率分布数据,所述概率分布数据作为所述预测语音后验概率;调整模块,用于依照所述目标语音后验概率和所述预测语音后验概率之间的差异,调整所述语音后验概率生成模型,调整后的语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到所述目标文本的音素序列对应的语音后验概率。
本说明书提供的多个实施方式,通过根据目标文本对应的音素序列中的音素在不同时间帧的概率分布数据,确定所述音素序列对应的语音后验概率;其中,所述语音后验概率与的说话人的声音特征解耦。进一步的,根据所述语音后验概率生成合成语音,可以在一定程度上减小说话人特征对合成语音的影响,减少合成语音的机械化,使得合成语音具有一定情感。
附图说明
图1为本说明书的一个实施方式提供的语音合成方法的流程的示意图。
图2为本说明书的一个实施方式提供的简化后的FastSpeech2模型的结构的示意图。
图3为本说明书的一个实施方式提供的语音后验概率生成模型的训练方法的流程的示意图。
图4为本说明书的一个实施方式提供的语音合成装置的示意图。
图5为本说明书的一个实施方式提供的语音后验概率生成模型的训练装置的示意图。
图6为本说明书的一个实施方式计算机设备的示意图。
具体实施方式
在相关技术中,语音合成方法可以是通过文本的音素序列,生成梅尔频谱。进一步地根据梅尔频谱可以生成时域波形,进而根据时域波形得到合成语音。例如,FastSpeech2模型可以通过输入目标文本的音素序列,生成相应的梅尔频谱。基于所述梅尔频谱可以生成时序的语音波形。其中,FastSpeech2模型是一种语音合成模型。FastSpeech2在FastSpeech1的基础上,去除了知识蒸馏框架,从而在降低了模型训练的复杂度的同时,可以直接使用真实的语音数据作为训练目标,在一定程度上可以避免信息损失。此外,FastSpeech2模型还加入了语音的时长信息的特征提取模块和语音中的其他可变信息的特征提取模块,例如高音特征和音量特征等。因此,FastSpeech2模型合成的语音可以具有较好的语音质量。
然而,梅尔频谱与说话人信息强相关。例如,梅尔频谱可以包括音调、能量等特征。在语音合成模型的训练样本是通过多个说话人的语音信息构建得到的情况下,可能会导致语音合成模型合成出来的音调过于机械化,富含情感较少。
因此,有必要提供一种语音合成方法,可以通过音素序列预测目标文本的语音后验概率,进一步地依照语音后验概率生成相应的梅尔频谱,并基于所述梅尔频谱可以生成目标语音。通过将与说话人语音特征无关的语音后验概率作为中间数据,以在一定程度上减少了受说话人特征影响的模型参数数量,以实现解决语音合成方法合成出来的语音受说话人的语音特征影响较大的技术问题。
该语音合成方法可以应用在各种需要语音合成的各种应用场景中,下面简单介绍两种应用场景。
在一个实施例中,上述语音合成方法可以应用在智能客服机器人等领域。具体的,例如,用户在向智能客服机器人提出问题后,智能客服机器人可以将相应的问题发送给后端进行处理。后端在处理完成后可以将问题答案返回给智能客服机器人。后端返回的问题答案可以是文字。智能客服机器人可以调用该语音合成方法,将问题答案的文字转化为语音后播放给用户。通过使用该语音合成方法,可以为用户提供富有感情的语音,可以较好地提高用户的使用体验。
另一个实施例中,该语音合成方法还可以应用在语音图书等领域。具体的,例如,对于视觉障碍者或者年龄较小的儿童,无法完成书籍的阅读。此时,通过该语音合成方法可以将现有的书籍转换为语音,从而可以播放给使用者。通过使用该语音合成方法可以根据书籍的文字转化为富有感情的语音,可以较好地增强用户的体验。并且,使用该语音合成方法也可以较好地减轻人工成本。
请参阅图1,为本说明书的一个实施方式提供一种语音合成方法。所述语音合成方法可以应用于计算机设备。其中,计算机设备可以包括服务器或终端。终端可以包括手机、平板电脑、智能交互设备以及车载终端等设备,服务器可以包括独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。所述语音合成方法可以包括以下步骤:
步骤S101:获取目标文本对应的音素序列;其中,音素序列包括至少一个音素。
在一些情况下,目标文本是指待合成语音的任意一段文本,通过目标文本的音素序列可以合成与所述目标文本匹配的语音。基于目标文本合成的语音所包含的语义信息可以与目标文本所包含语义信息趋于相同。具体的,例如,所述目标文本可以为“如何办理会员”。相应的,基于目标文本合成的语音可以为“如何办理会员卡”这样一段音频。
在本实施方式中,所述音素序列可以包括所述目标文本对应的音素。其中,所述音素可以是根据语音的自然属性划分出来的最小语音单位。依据音节里的发音动作来分析,一个动作构成一个音素。在一些情况下,目标文本包括的字、词可以分别与至少一个音素相对应。具体的,例如,汉语音节ā(啊)只有一个音素。汉语ài(爱)有两个音素。汉语dāi(呆)有三个音素等。
获取目标文本对应的音素序列的方法,可以是:依照数据库中存储的文字与音素之间的对应关系,获取目标文本中的文字所对应的音素,组成所述音素序列。当然,在一些实施方式中,所述目标文本可以具有标记完成的音素序列并存储在数据库。相应的,获取目标文本对应的音素序列的方法,可以是依照所述目标文本在数据库中匹配得到相应的音素序列。
步骤S102:将音素序列输入至语音后验概率生成模型,得到音素序列对应的语音后验概率;其中,语音后验概率包括音素序列的音素在不同时间帧的概率分布数据;其中,语音后验概率生成模型包括依序连接的编码模块、长度调节模块和概率映射模块;编码模块用于对音素序列进行编码处理得到编码序列,长度调节模块用于扩展编码序列,使得扩展后的编码序列包括的编码向量的数量与语音后验概率包括的时间帧的数量相匹配,概率映射模块用于将扩展后的编码序列映射为对应不同时间帧的音素的概率分布数据,得到语音后验概率。
在一些情况下,使用语音后验概率可以生成目标文本的合成语音。其中,语音后验概率所表示的语音特征与说话人的特征无关,因此,使用语音后验概率合成的语音受到说话人自身发音特征的影响较小。另外,使用语音后验概率训练得到的语音转换模型合成的语音情感特征也比较丰富。
时间帧可以表示具有一定时长的语音被划分的时间单位。在相关技术中,在短时间范围内可以认为语音信号是稳态的、时不变的。基于此,在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,对语音信号进行分段处理,其中每一段称为一个时间帧。相应的,在语音合成的过程中,可以通过确定每一个时间帧的语音信号,从而合成语音。在一些实施方式中,相邻的两时间帧之间可以具有部分重叠,以在一定程度上保证帧与帧之间的平滑过渡,增强其连续性。
语音后验概率可以包括不同时间帧音素的概率分布数据。具体的,语音后验概率可以是一个概率矩阵。其中,概率矩阵可以包括多个对应不同时间帧的概率向量。每个概率向量的每个维度,可以分别对应音素序列中的不同音素。概率向量中每个维度的取值可以分别表示相应音素在对应时间帧中可能出现的概率。语音后验概率可以在保留语音信息的情况下,剔除说话人的音调、能量等特征。
语音后验概率生成模型可以用于生成语音后验概率。语音后验概率可以包括音素在不同时间帧的概率分布数据。其中,语音后验概率生成模型可以由编码模块、长度调节模块和概率映射模块组成。其中,编码模块可以用于对音素序列进行编码处理得到编码序列。长度调节模块可以用于扩展编码序列,使得扩展后的编码序列包括的编码向量的数量与语音后验概率包括的时间帧的数量相匹配,概率映射模块可以用于将扩展后的编码序列映射为对应不同时间帧的音素的概率分布数据,以得到语音后验概率。
具体的,例如,编码模块可以包括用于将音素转换为音素嵌入的音素嵌入单元和多头自注意力单元。概率映射模块可以包括一个多维映射矩阵,以将语音特征映射为对应不同时间帧的概率分布数据。长度调节模块可以基于语音文本对齐方法构建。
在一些实施方式中,语音后验概率生成模型可以是端到端的模型。语音后验概率生成模型的结构可以与FastSpeech2模型的结构相同。或者,语音后验概率生成模型的结构可以是在FastSpeech2模型的基础上简化得到。
具体的,FastSpeech2模型可以包括编码模块、解码模块和根据能量预测单元、长度预测单元、音调预测单元和编码扩展单元等单元形成的长度调节模块。在对FastSpeech2模型进行简化的过程中,可以去除FastSpeech2模型中的音调预测单元、能量预测单元。在一些实施方式中,也可以适当对FastSpeech2模型的解码模块进行修改,或者使用PostNet替换编码模型。请参阅图2,简化后的Fastspeech2模型,可以包括编码器、编码扩展单元、长度预测单元、以及概率映射模块。其中,简化后的Fastspeech2模型的输入可以是音素序列,输出可以是语音后验概率。通过简化Fastspeech2模型,可以减少模型的参数,更利于模型拟合。同时也能增加模型的相应速度。另外,通过简化后的Fastspeech2模型的输出的语音后验概率,生成合成语音,可以减少说话人的声音特征对合成的语音的影响。
当然,语音后验概率生成模型的结构也可以基于如Tacotron1、Tacotron2或者FastPitch等模型的基础上构建。在训练语音后验概率生成模型的过程中,模型的输入可以是音素序列,模型的输出可以替换为语音后验概率,以训练得到语音后验概率生成模型。
在一些实施方式中,所述语音后验概率生成模型可以包括上述模型中的编码器部分,根据编码器编码后的编码序列可以生成分别对应不同时间帧的音素的概率分布数据。具体的,所述编码器可以将编码后的音素序列进行扩展,以得到扩展后的编码序列。其中,所述扩展后的编码序列所包括的编码向量的数量可以与语音后验概率指定数量的时间帧的数量相匹配。进一步地,通过PostNet等模型修正可以得到所述语音后验概率。
步骤S103:调用语音转换模型对音素序列对应的语音后验概率进行转换处理,得到音素序列对应的梅尔频谱特征。
在一些情况下,基于所述语音后验概率可以生成所述目标文本对应的梅尔频谱。使用语音后验概率可以在一定程度上减少说话人的特征对合成语音的影响,从而可以在一定程度上降低所述语音合成模型合成出来的音调过于机械化,富含情感较少的可能性。另外,在通过语音后验概率生成梅尔频谱的过程中,可以根据任务需求为所述添加指定音色、情感等信息,使得基于相应梅尔频谱生成的语音可以具有指定的音色或者情感。
合成语音可以表示所述目标文本的语音音频。梅尔频谱特征可以用于表示所述目标文本对应的梅尔频谱。
调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征的方法,可以是通过PPG-VC语音转换模型得到。具体的,语音转换模型可以包括条件网络(Condition Network)和一维转置卷积网络。将语音后验概率输入条件网络可以得到中间特征。进一步地将中间特征输入一维转置卷积网络,可以得到梅尔频谱。其中,所述条件网络可以由BiLSTM和自注意力模型组合而成。条件网络用于获取语音后验概率的多尺度的上下文信息。一维转置卷积网络可以对条件网络提取得到中间特征上采样,得到梅尔频谱。
步骤S104:基于梅尔频谱特征进行语音合成处理,得到目标文本对应的合成语音
在一些情况下,通过梅尔频谱特征可以生成所述目标文本对应的合成语音。
基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音的方法,可以借助Neural Vcoder模型。例如,WaveRNN、HiFi-GAN等模型。
通过目标文本可以生成所述语音后验概率。所述语音后验概率可以通过语音后验概率生成模型得到。在语音后验概率生成模型的参数的学习过程中可以不涉及说话的声音特征。进一步地,基于所述语音后验概率可以生成梅尔频谱。在整个过程中,只有通过语音后验概率生成梅尔频谱的过程中,生成梅尔频谱的模型在学习过程中会学到部分说话人的特征。对于整个语音合成过程,相当于只有模型的部分参数学习到了说话人的声音特征。因此,可以在一定程度上减小说话人的声音特征对合成语音的影响。另外,在基于语音后验概率生成梅尔频谱的过程中,也可以指定语音特征,以使得合成语音能具有所述语音特征的信息,并在一定程度上较少受到训练样本中说话人声音特征的影响。
在一些实施方式中,编码模块可以包括多头自注意力单元,将音素序列输入至语音后验概率生成模型,得到音素序列对应的语音后验概率,包括:将音素序列输入编码模块的多头自注意力单元进行编码处理,生成表示音素序列的不同语音特征的多个编码序列;使用长度调节模块和概率映射模块对多个编码序列进行处理,得到音素序列对应的语音后验概率。
在一些情况下,对音素序列进行编码后得到一个编码序列可能只侧重音素序列某一方面的语音特征。因此,通过多头自注意力单元可以生成多个编码序列,以进一步地生成语音后验概率,以在一定程度上保证语音后验概率能够表征更全面的与说话人无关的语音特征。
在一些实施方式中,不同的编码序列所表示语音特征的侧重可以有一定的区别。例如,一个编码序列可以更侧重于学习不同音素之间的先后关系。一个编码序列可以更侧重于学习音素序列的语义等。因此,通过所述音素序列生成的多个编码序列,可以较为全面地表征所述音素序列的语音特征。其中,一个编码序列可以包括多个编码向量。一个编码向量可以表示音素序列中至少部分音素的语音特征。具体的,编码向量可以是根据音素序列中每一个音素所对应的音素嵌入加权得到。当然,所述编码向量也可以是根据音素序列中位置在前的音素所对应的音素嵌入加权得到。
将所述音素序列输入编码模块的多头自注意力单元进行编码处理,生成表示音素序列的不同语音特征的多个编码序列过程中,多头自注意力单元可以是通过多个权重矩阵分别对所述音素序列的音素加权计算,从而得到所述多个编码序列。具体的,例如,一个权重矩阵可以包括多个权重向量。其中,每一个权重向量可以用于对音素进行加权计算,得到一个编码向量。权重矩阵包括的多个权重向量可以生成多个编码向量,构成一个编码序列。使用多个权重矩阵可以生成多个编码序列。在一些实施方案中,所述编码模块还可以包括音素嵌入单元。所述音素嵌入单元可以将所述音素序列包括音素转换为音素嵌入。根据所述权重向量可以对所述音素嵌入进行加权计算,得到分别对应每个音素的编码向量。其中,所述权重矩阵的权重取值可以是通过样本训练得到。所述权重向量可以表示所述多头自注意力单元的注意力权重。
使用长度调节模块和概率映射模块对多个编码序列进行处理,得到音素序列对应的语音后验概率的方法,可以是将所述多个编码序列输入语音后验概率模型的长度调节模块,得到多个扩展后的编码序列。进一步的,使用所述语音后验概率模型的概率映射模块,可以将所述多个扩展后的编码序列映射为音素在不同时间帧的概率分布数据,得到所述语音后验概率。其中,所述概率分布数据中的数值可以分别对应有时间帧和音素,可以表示在相应时间帧,相应音素的使用概率。
在一些实施方式中,编码序列包括与音素序列中的每个音素相对应的编码向量;每个音素相对应的编码向量是基于相对应的音素进行编码得到的;长度调节模块包括长度预测单元和编码扩展单元;语音合成方法还可以包括:通过所述长度预测单元对所述编码序列进行长度预测,得到每个编码向量的预测长度;其中,所述预测长度用于扩展所述编码序列;通过编码扩展单元,基于编码序列中的多个编码向量和多个编码向量分别对应的预测长度,分别生成编码子序列,以组成扩展后的编码序列;其中,每个编码子序列对应一个编码向量,且编码子序列包括的对应的编码向量的数量与对应的预测长度相等。
在一些情况下,在生成语音后验概率的过程中,可以将音素序列输入语音后验概率生成模型,来生成表示音素在不同时间帧的概率分布数据的语音后验概率。由于所述音素序列所包括的音素数量,在一些情况下会远远少于时间帧的数量。因此,在对所述音素序列进行编码处理,得到编码序列后,可以扩展所述编码序列,得到扩展后的编码序列,以使得所述扩展后的编码序列所包括编码向量的数量与所述时间帧的数量相匹配。其中,扩展后的编码序列可以称为扩展编码序列。
所述预测长度用于扩展编码序列,得到扩展后的编码序列以使得所述扩展后的编码序列包括的编码向量的数量可以与所述时间帧的数量相匹配。具体的,扩展后的编码序列包括的编码向量的数量可以与所述时间帧的数量相同。不同的音素发声时长可以具有一定的区别,因此,处于音素序列中不同位置的音素所占据的时间帧数量可以不同。所述预测长度可以用于预测音素所占据的时间帧数量。
在一些实施方式中,通过语音文本对齐方法构建长度预测单元。在一些实施方式中,所述长度预测单元可以包括一个两层的一维卷积网络。相应的,输出为预测长度。
通过编码扩展单元,基于编码序列中的多个编码向量和多个编码向量分别对应的预测长度,分别生成编码子序列,以组成扩展后的编码序列的方法,可以是先针对编码序列中的编码向量以及所述编码向量对应的预测长度,复制所述编码向量,得到根据预测长度个相同的编码向量形成的编码子序列。接着将不同编码向量的编码子序列依次拼接,可以得到扩展后的编码向量。例如,编码序列中的第一个编码向量为(1,0,2,0),对应的预测长度为10。相应的,该编码向量对应的编码子序列可以是由10个(1,0,2,0)这一个编码向量组成。相应的,扩展后的编码序列中的前10个编码向量均为(1,0,2,0)。
基于扩展后的编码序列,使用概率映射模块,确定所述音素在不同时间帧的概率分布数据,得到所述语音后验概率的过程中,所述概率映射模块可以基于扩展后的编码序列中至少部分编码向量,将其映射至成语音后验概率。具体的,可以将扩展后的编码序列进行线性加权,映射为对应不同时间帧的概率向量,以形成语音后验概率。在一些实施方式中,基于扩展后的编码序列,确定音素在不同时间帧的概率分布数据,得到所述语音后验概率方法,也可以是将扩展后的编码序列通过PostNet模型进行修正后得到语音后验概率。
在一些实施方式中,基于扩展后的音素编码序列,使用所述概率映射模块,确定所述音素在不同时间帧的概率分布数据的步骤,包括:仅基于扩展后的编码序列和所述概率预测映射模块,确定所述音素在不同时间帧的概率分布数据,得到所述语音后验概率。
在一些情况下,生成所述语音后验概率的方法,可以基于语音后验概率生成模型预测得到。由于所述语音后验概率相比起梅尔频谱包含的信息量较少。因此,可以适当简化所述语音后验概率生成模型,以在一定程度上加快训练时间以及减少训练样本需求数量。当然,也可以提高语音后验概率生成模型的响应速率。
具体的,例如,可以仅根据扩展编码序列生成所述语音后验概率,而忽略音素序列可以涉及的能量、音调等信息。在一些实施方式中,将扩展后的编码序列输入所述概率映射模块,可以得到音素在不同时间帧的概率分布数据。
在一些实施方式中,语音后验概率生成模型,可以基于FastSpeech2模型进行构建。具体的,可以移除FastSpeech2模型的Variance Adaptor模块中所述预测长度的预测器以外其他的模块,以在一定程度上减少模型的参数的数量,提高拟合能力。当然,还可以移除所述FastSpeech2模型解码器模块等。移出所述模块后得到的模型架构,可以作为所述语音后验概率模型。其中,FastSpeech2模型的音素嵌入单元和自注意力单元可以构成所述语音后验概率生成模型的编码模块。仅包括预测长度的预测器的Variance Adaptor模块可以作为所述长度调节模块。所述概率映射模块可以由PostNet形成。训练所述语音后验概率生成模型的过程中,训练样本可以包括作为模型输入的音序序列,和作为模型的目标输出的目标语音后验概率。
在一些实施方式中,调用语音转换模型对音素序列对应的语音后验概率进行转换处理,得到音素序列对应的梅尔频谱特征可以包括:获取反映目标情感的情感特征数据;调用语音转换模型对音素序列对应的语音后验概率和情感特征数据进行转换处理,得到音素序列对应的梅尔频谱特征;其中,所述梅尔频谱特征用于生成具有目标情感的合成语音。
在一些情况下,音素在不同时间帧下的概率分布数据可以与说话人的个人特征解耦,使得使用概率分布数据进一步地生成的语音不会过多受到说话人的影响。在一些情况下,可以为语音指定情感特征。通过概率分布数据和所述情感特征数据生成具有所述情感特征的语音。
情感特征数据可以包括表示所述语音的情感信息。在一些实施方式中,情感特征数据可以通过向量表示。所述向量可以根据能识别情感信息的编码器提取得到。依照对应所述音素的概率分布数据和所述情感特征数据,生成与所述目标文本相对应的目标语音的过程,可以将所述概率分布数据以及所述情感特征数据输入语音转换模型。具体的,情感特征数据可以由至少一个向量表示。所述概率分布数据可以通过矩阵表示。其中所述矩阵的每一列可以对应一个时间帧,所述矩阵的每一行可以对应一个音素。将所述矩阵和所述向量拼接后输入语音转换模型,可以得到附有所述情感特征数据表示的情感的语音。
请参阅图3,本说明实施方式提供了一种语音后验概率生成模型的训练方法。所述语音后验概率生成模型的训练方法可以应用于计算机设备。语音后验概率生成模型的训练方法可以包括以下步骤。
步骤S201:构建语音后验概率生成模型的训练样本;其中,训练样本包括训练文本对应的音素序列,以及训练文本的语音对应的目标语音后验概率;其中,音素序列包括至少一个音素;目标语音后验概率用于表示不同时间帧音素序列的至少一个音素的使用概率。
在训练语音后验概率生成模型前,可以构建用于训练所述语音后验概率生成模型的训练样本。
所述训练样本可以包括训练文本对应的音素序列和目标语音后验概率。其中,音素序列可以作为语音后验概率生成模型的输入,音素数据对应的目标语音后验概率可以作为语音后验概率生成模型的目标输出。其中,所述音素序列可以包括表示训练文本涉及的至少一个音素。具体的,所述音素序列可以根据多个表示音素的标识组成。当然,所述音素序列也可以是表示所述音素的字符串。
目标语音后验概率可以作为所述训练样本的标签。目标语音后验概率可以用于表示音素在不同时间帧的概率分布数据。所述目标语音后验概率可以是通过已训练好的ASR语音识别模型在训练文本对应的语音中提取得到。
步骤S202:通过语音后验概率生成模型中的编码模块对音素序列进行编码处理,得到对应音素序列的编码序列。
在一些情况下,所述语音后验概率生成模型可以包括编码模块,以对所述音素序列进行编码,得到表示所述音素序列的语音特征的编码序列。其中,所述编码模块可以包括音素嵌入单元、多头自注意力单元等。所述音素嵌入单元可以用于生成所述音素对应的音素嵌入。所述自注意力单元可以用于提取音素的上下文信息。将所述音素序列输入编码模块,可以得到编码序列。其中,编码序列可以包括多个表征所述音素序列中至少部分音素的语音特征的编码向量。
步骤S203:将编码序列输入语音后验概率生成模型的长度调节模块,得到扩展后的编码序列;其中,扩展后的编码序列包括的编码向量的数量与目标语音后验概率包括的时间帧的数量相匹配。
在一些情况下,音素序列包括的音素的数量可能远少于语音后验概率所对应的时间帧的数量。因此,可以通过语音后验概率生成模型包括的长度调节模块,得到预测长度,以扩展所述音序序列,得到扩展后的编码序列,使得扩展后的编码序列所包括的用于表征所述音素数据中至少部分音素的语音特征的编码向量的数量与所述概率分布数据所对应的时间帧的数量相匹配。
步骤S204:将扩展后的编码序列输入语音后验概率生成模型的概率映射模块,得到音素序列对应的预测语音后验概率。其中,概率映射模块用于将扩展后的编码序列映射至音素在不同时间帧下的概率分布数据,概率分布数据作为预测语音后验概率。
在一些情况下,通过扩展后的编码序列可以生成预测语音后验概率。其中,得到所述音素序列对应的预测语音后验概率的方法,可以将扩展后的编码序列输入语音后验概率生成模型的概率映射模块得到。其中,概率映射模块可以用于将扩展后的编码序列映射至音素在不同时间帧的概率分布数据。在一些实施方式中,所述概率映射模块可以通过PostNet等神经网络构成。
步骤S205:依照目标语音后验概率和预测语音后验概率之间的差异,调整语音后验概率生成模型调整后的语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到目标文本的音素序列对应的语音后验概率。
在一些情况下,根据目标语音后验概率和预测语音后验概率之间的差异,可以调整所述语音后验概率生成模型的参数,以得到目标语音后验概率生成模型。具体的,可以通过构建相应损失函数,并基于最优化方法优化所述损失函数的输出,以确定目标语音后验概率生成模型的参数。
在一些实施方式中,所述语音后验概率生成模型可以由所述编码模块、长度调节模块和概率映射模块组成。
在一些情况下,语音后验概率包括的信息量相对梅尔频谱较少。因此,为了在一定程度上保证所述语音后验概率生成模型在响应速率,可以设计所述语音后验概率生成模型仅由编码模块、长度调节模块和概率映射模块组成。通过剔除部分与说话人特征相关的模块。例如,可以剔除用于提取音调特征的模型。这样可以在一定程度上保证提取得到的语音后验概率不涉及说话人的特征。另外,也可以减少所述语音后验概率生成模型的参数,更易于拟合。
在一些实施方式中,语音后验概率生成模型的训练方法还可以包括:提取训练文本对应的语音的梅尔频谱特征;通过梅尔频谱特征和相应的训练文本对应的目标语音后验概率训练语音转换模型;所述语音转换模型用于对所述语音后验概率生成模型生成的且对应目标文本的语音后验概率进行处理,得到对应所述目标文本的梅尔频谱,以基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
在一些情况下,语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到目标文本的音素序列对应的语音后验概率。进一步地,根据语音后验概率,使用语音转换模型,可以生成目标文本对应的梅尔频谱,以生成合成语音。因此,训练语音后验概率模型的过程中,语音后验概率模型的训练样本也可以用于训练语音转换模型。一方面可以将合理利用训练样本,简化训练样本的构建过程。另一方面也可以在一定程度上保证语音后验概率生成模型和语音转换模型之间的一致性。具体的,通过训练文本对应的语音的梅尔频谱特征和训练文本对应的目标语音后验概率可以构建语音转换模型的训练样本。提取训练文本对应的语音的梅尔频谱特征的方法,可以是经过语音信号处理相关技术处理成得到梅尔频谱。例如,可以通过TacotronSTFT提取梅尔频谱。
在一些实施方式中,本说明实施方式提供了一种语音合成方法。可以包括以下步骤:
步骤S301:根据目标文本和与目标文本对应的音素,构成音素序列。
步骤S302:将音素序列输入语音后验概率生成模型的音素嵌入单元,生成音素嵌入序列;其中,音素嵌入序列包括音素序列中音素所对应的音素嵌入;音素嵌入用于表征相应音素的语音特征。
步骤S303:将音素嵌入序列输入语音后验概率生成模型的多头注意力单元,生成表示音素序列的不同语音特征的多个编码序列。
步骤S304:基于多个编码序列和长度调节模块,预测编码序列中编码向量对应的预测长度;预测长度用于扩展编码序列。
步骤S305:依照编码向量对应的预测长度,在扩展后的编码序列中,重复添加相应的编码向量,使得同一编码向量在扩展后的编码序列中的数量与相应的预测长度相匹配。
步骤S306:根据多个扩展后的编码序列,使用语音后验概率生成模型的概率映射模块,得到音素序列对应的语音后验概率;其中,语音后验概率包括的时间帧的数量与扩展后的编码序列的长度相对应。
步骤S307:利用语音后验概率,以及指定的情感特征数据,通过语音转换模型生成具有情感特征数据的梅尔频谱特征;梅尔频谱特征用于生成具有目标情感的合成语音。
步骤S308:通过梅尔频谱特征,生成语音时序波形,得到合成语音;合成语音的内容与目标文本的内容一致。
该语音合成方法,通过将目标文本的音素序列输入音素嵌入单元,生成音素嵌入序列,可以在一定程度上简化模型的训练过程。将音素嵌入序列输入多头注意力单元,可以提取到侧重不同语音特征的多个编码序列。根据多个编码序列生成语音后验概率,可以提高语音后验概率生成的准确性。进一步地,通过语音后验概率生成合成语音,可以在一定程度上减小说话人特征对合成语音的影响,减少合成语音的机械化。另外,使用语音后验概率,结合指定的情感特征数据,可以使得生成的合成语音具有相应的情感特征,提高了合成语音的情感进行设定的灵活性。
请参阅图4,本说明书实施方式提供了一种语音合成装置。所述装置可以包括:获取模块401、语音后验概率生成模块402、梅尔频谱生成模块403和合成语音生成模块404。
获取模块401,用于获取目标文本对应的音素序列;其中,音素序列包括至少一个音素。
语音后验概率生成模块402,用于将音素序列输入至语音后验概率生成模型,得到音素序列对应的语音后验概率;其中,语音后验概率包括至少一个音素在不同时间帧的概率分布数据;其中,语音后验概率生成模型包括依序连接的编码模块、长度调节模块和概率映射模块;编码模块用于对音素序列进行编码处理得到编码序列,长度调节模块用于扩展编码序列,使得扩展后的编码序列包括的编码向量的数量与语音后验概率包括的时间帧的数量相匹配,概率映射模块用于将扩展后的编码序列映射为至少一个音素在不同时间帧的概率分布数据。
梅尔频谱生成模块403,用于调用语音转换模型对音素序列对应的语音后验概率进行转换处理,得到音素序列对应的梅尔频谱特征。
合成语音生成模块404,用于基于梅尔频谱特征进行语音合成处理,得到目标文本对应的合成语音。
在一个实施例中,所述编码模块包括多头自注意力单元;所述语音后验概率生成模块402在将音素序列输入至语音后验概率生成模型,得到音素序列对应的语音后验概率时,执行如下步骤:
将所述音素序列输入所述编码模块的多头自注意力单元进行编码处理,生成表示所述音素序列的不同语音特征的多个编码序列;使用所述长度调节模块和所述概率映射模块对所述多个编码序列进行处理,得到所述音素序列对应的语音后验概率。
在一个实施例中,所述编码序列包括与所述音素序列中的每个音素相对应的编码向量;每个音素相对应的编码向量是基于相对应的音素进行编码得到的;所述长度调节模块包括长度预测单元和编码扩展单元;通过所述长度预测单元对所述编码序列进行长度预测,得到每个编码向量的预测长度;其中,所述预测长度用于扩展所述编码序列;
通过所述编码扩展单元,基于所述编码序列中的多个编码向量和所述多个编码向量分别对应的预测长度,分别生成编码子序列,以组成扩展后的编码序列;其中,每个编码子序列对应一个编码向量,且编码子序列对应的编码向量的数量与对应的预测长度相等。
在一个实施例中,所述梅尔频谱生成模块403在调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特时,执行如下步骤:
获取反映目标情感的情感特征数据;调用语音转换模型对所述音素序列对应的语音后验概率和所述情感特征数据进行转换处理,得到所述音素序列对应的梅尔频谱特征;其中,所述梅尔频谱特征用于生成具有所述目标情感的合成语音。
本实施方式中,通过根据目标文本对应的音素序列中的音素在不同时间帧的概率分布数据,确定所述音素序列对应的语音后验概率;其中,所述语音后验概率与的说话人的声音特征解耦。进一步的,根据所述语音后验概率生成合成语音,可以在一定程度上减小说话人特征对合成语音的影响,减少合成语音的机械化,使得合成语音具有一定情感。
请参阅图5,本说明书实施方式提供了一种语音后验概率生成模型的训练装置。所述装置可以包括:构建模块501、特征提取模块502、扩展模块503、概率预测模块504和调整模块505。
所述构建模块501,用于构建语音后验概率生成模型的训练样本;其中,训练样本包括训练文本对应的音素序列,以及训练文本的语音对应的目标语音后验概率;其中,音素序列包括至少一个音素;目标语音后验概率用于表示不同时间帧音素序列的音素的使用概率。
特征提取模块502,用于通过语音后验概率生成模型中的编码模块对音素序列进行编码处理,得到对应音素序列的编码序列。
扩展模块503,用于将编码序列输入语音后验概率生成模型的长度调节模块,得到扩展后的编码序列;其中,扩展后的编码序列包括的编码向量的数量与目标语音后验概率包括的时间帧的数量相匹配。
概率预测模块504,用于将扩展后的编码序列输入概率映射模块,得到音素序列对应的预测语音后验概率;其中,概率映射模块用于将扩展后的编码序列映射至音素在不同时间帧下的概率分布数据,概率分布数据作为预测语音后验概率。
调整模块505,用于依照目标语音后验概率和预测语音后验概率之间的差异,调整语音后验概率生成模型,调整后的语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到目标文本的音素序列对应的语音后验概率。
在一个实施例中,所述特征提取模块502还用于提取所述训练文本对应的语音的梅尔频谱特征;所述调整模块505,还用于通过所述梅尔频谱特征和相应的训练文本对应的目标语音后验概率训练语音转换模型;所述语音转换模型用于对所述语音后验概率生成模型生成的且对应目标文本的语音后验概率进行处理,得到对应所述目标文本的梅尔频谱特征,以基于所述目标文本的梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
本实施方式中,通过根据目标文本对应的音素序列中的音素在不同时间帧的概率分布数据,确定所述音素序列对应的语音后验概率;其中,所述语音后验概率与的说话人的声音特征解耦。进一步的,根据所述语音后验概率生成合成语音,可以在一定程度上减小说话人特征对合成语音的影响,减少合成语音的机械化,使得合成语音具有一定情感。
请参阅图6,本说明书实施方式还提供一种计算机设备,所述计算机设备执行上述任一实施方式中的语音合成方法和语音后验概率生成模型的训练方法。
图6的计算机设备可以包括处理器601、输入接口602、输出接口603、通信接口604和非易失性存储介质605。处理器601、输入接口602、输出接口603、通信接口604以及非易失性存储介质605可以通过总线或其他方式连接。
非易失性存储介质605可以存储有操作系统和计算机程序。该计算机程序被处理器601执行时可以实现语音合成方法和语音后验概率生成模型的训练方法。具体的,计算机设备可以适于加载并执行:获取目标文本对应的音素序列。接着,将所述音素序列输入至语音后验概率生成模型,得到所述音素序列对应的语音后验概率。进一步地,调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征。最后,基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
当然,计算机设备也可以计算机设备可以适于加载并执行:构建语音后验概率生成模型的训练样本。通过所述语音后验概率生成模型中的编码模块对所述音素序列进行编码处理,得到对应所述音素序列的编码序列。接着,将所述编码序列输入所述语音后验概率生成模型的长度调节模块,得到扩展后的编码序列。然后,将所述扩展后的编码序列输入所述语音后验概率生成模型的概率映射模块,得到所述音素序列对应的预测语音后验概率。最后,依照所述目标语音后验概率和所述预测语音后验概率之间的差异,调整所述语音后验概率生成模型,得到所述目标文本的音素序列对应的语音后验概率。
本说明书实施方式还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得,该计算机执行上述任一实施方式中的语音合成方法和语音后验概率生成模型的训练方法。
可以理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式,而非限制本发明的范围。
可以理解,在本说明书中的各种实施方式中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本说明书实施方式的实施过程构成任何限定。
可以理解,本说明书中描述的各种实施方式,既可以单独实施,也可以组合实施,本说明书实施方式对此并不限定。
除非另有说明,本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
可以理解,本说明书实施方式的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施方式描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本说明书的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施方式中的对应过程,在此不再赘述。
在本说明书所提供的几个实施方式中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本说明书的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本说明书的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取目标文本对应的音素序列;其中,所述音素序列包括至少一个音素;
将所述音素序列输入至语音后验概率生成模型,得到所述音素序列对应的语音后验概率;其中,所述语音后验概率包括所述至少一个音素在不同时间帧的概率分布数据;其中,所述语音后验概率生成模型包括依序连接的编码模块、长度调节模块和概率映射模块;所述编码模块用于对所述音素序列进行编码处理得到编码序列,所述长度调节模块用于扩展所述编码序列,使得扩展后的编码序列包括的编码向量的数量与所述语音后验概率包括的时间帧的数量相匹配,所述概率映射模块用于将扩展后的编码序列映射为所述至少一个音素在不同时间帧的概率分布数据;
调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征;
基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
2.根据权利要求1所述的方法,其特征在于,所述编码模块包括多头自注意力单元;所述将所述音素序列输入至语音后验概率生成模型,得到所述音素序列对应的语音后验概率,包括:
将所述音素序列输入所述编码模块的多头自注意力单元进行编码处理,生成表示所述音素序列的不同语音特征的多个编码序列;
使用所述长度调节模块和所述概率映射模块对所述多个编码序列进行处理,得到所述音素序列对应的语音后验概率。
3.根据权利要求1所述的方法,其特征在于,所述编码序列包括与所述音素序列中的每个音素相对应的编码向量;每个音素相对应的编码向量是基于相对应的音素进行编码得到的;所述长度调节模块包括长度预测单元和编码扩展单元;所述方法还包括:
通过所述长度预测单元对所述编码序列进行长度预测,得到每个编码向量的预测长度;其中,所述预测长度用于扩展所述编码序列;
通过所述编码扩展单元,基于所述编码序列中的多个编码向量和所述多个编码向量分别对应的预测长度,分别生成编码子序列,以组成扩展后的编码序列;其中,每个编码子序列对应一个编码向量,且编码子序列对应的编码向量的数量与对应的预测长度相等。
4.根据权利要求1所述的方法,其特征在于,所述调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征,包括:
获取反映目标情感的情感特征数据;
调用语音转换模型对所述音素序列对应的语音后验概率和所述情感特征数据进行转换处理,得到所述音素序列对应的梅尔频谱特征;其中,所述梅尔频谱特征用于生成具有所述目标情感的合成语音。
5.一种语音后验概率生成模型的训练方法,其特征在于,包括:
构建语音后验概率生成模型的训练样本;其中,所述训练样本包括训练文本对应的音素序列,以及所述训练文本的语音对应的目标语音后验概率;其中,所述音素序列包括至少一个音素;所述目标语音后验概率用于表示不同时间帧所述音素序列的至少一个音素的使用概率;
通过所述语音后验概率生成模型中的编码模块对所述音素序列进行编码处理,得到对应所述音素序列的编码序列;
将所述编码序列输入所述语音后验概率生成模型的长度调节模块,得到扩展后的编码序列;其中,所述扩展后的编码序列包括的编码向量的数量与所述目标语音后验概率包括的时间帧的数量相匹配;
将所述扩展后的编码序列输入所述语音后验概率生成模型的概率映射模块,得到所述音素序列对应的预测语音后验概率;其中,所述概率映射模块用于将所述扩展后的编码序列映射至所述音素在不同时间帧下的概率分布数据,所述概率分布数据作为所述预测语音后验概率;
依照所述目标语音后验概率和所述预测语音后验概率之间的差异,调整所述语音后验概率生成模型,调整后的语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到所述目标文本的音素序列对应的语音后验概率。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
提取所述训练文本对应的语音的梅尔频谱特征;
通过所述梅尔频谱特征和相应的训练文本对应的目标语音后验概率训练语音转换模型;所述语音转换模型用于对所述语音后验概率生成模型生成的且对应目标文本的语音后验概率进行处理,得到对应所述目标文本的梅尔频谱特征,以基于所述目标文本的梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
7.一种语音合成装置,其特征在于,包括:
获取模块,用于获取目标文本对应的音素序列;其中,所述音素序列包括至少一个音素;
语音后验概率生成模块,用于将所述音素序列输入至语音后验概率生成模型,得到所述音素序列对应的语音后验概率;其中,所述语音后验概率包括所述至少一个音素在不同时间帧的概率分布数据;其中,所述语音后验概率生成模型包括依序连接的编码模块、长度调节模块和概率映射模块;所述编码模块用于对所述音素序列进行编码处理得到编码序列,所述长度调节模块用于扩展所述编码序列,使得扩展后的编码序列包括的编码向量的数量与所述语音后验概率包括的时间帧的数量相匹配,所述概率映射模块用于将扩展后的编码序列映射为所述至少一个音素在不同时间帧的概率分布数据;
梅尔频谱生成模块,用于调用语音转换模型对所述音素序列对应的语音后验概率进行转换处理,得到所述音素序列对应的梅尔频谱特征;
合成语音生成模块,用于基于所述梅尔频谱特征进行语音合成处理,得到所述目标文本对应的合成语音。
8.一种语音后验概率生成模型的训练装置,其特征在于,包括:
构建模块,用于构建语音后验概率生成模型的训练样本;其中,所述训练样本包括训练文本对应的音素序列,以及所述训练文本的语音对应的目标语音后验概率;其中,所述音素序列包括至少一个音素;所述目标语音后验概率用于表示不同时间帧所述音素序列的音素的使用概率;
特征提取模块,用于通过所述语音后验概率生成模型中的编码模块对所述音素序列进行编码处理,得到对应所述音素序列的编码序列;
扩展模块,用于将所述编码序列输入所述语音后验概率生成模型的长度调节模块,得到扩展后的编码序列;其中,所述扩展后的编码序列包括的编码向量的数量与所述目标语音后验概率包括的时间帧的数量相匹配;
概率预测模块,用于将所述扩展后的编码序列输入所述语音后验概率生成模型的概率映射模块,得到所述音素序列对应的预测语音后验概率;其中,所述概率映射模块用于将所述扩展后的编码序列映射至所述音素在不同时间帧下的概率分布数据,所述概率分布数据作为所述预测语音后验概率;
调整模块,用于依照所述目标语音后验概率和所述预测语音后验概率之间的差异,调整所述语音后验概率生成模型,调整后的语音后验概率生成模型用于对目标文本对应的音素序列进行处理,得到所述目标文本的音素序列对应的语音后验概率。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的语音合成方法;或者实现权利要求5或6所述的语音后验概率生成模型的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的语音合成方法;或者实现如权利要求5或6所述的语音后验概率生成模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211412891.2A CN116129858A (zh) | 2022-11-11 | 2022-11-11 | 语音合成方法、语音后验概率生成模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211412891.2A CN116129858A (zh) | 2022-11-11 | 2022-11-11 | 语音合成方法、语音后验概率生成模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129858A true CN116129858A (zh) | 2023-05-16 |
Family
ID=86303352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211412891.2A Pending CN116129858A (zh) | 2022-11-11 | 2022-11-11 | 语音合成方法、语音后验概率生成模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129858A (zh) |
-
2022
- 2022-11-11 CN CN202211412891.2A patent/CN116129858A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN108615525B (zh) | 一种语音识别方法及装置 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN113053357B (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
WO2022252904A1 (zh) | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN114582317B (zh) | 语音合成方法、声学模型的训练方法及装置 | |
CN114283783A (zh) | 语音合成方法、模型训练方法、设备及存储介质 | |
CN114387946A (zh) | 语音合成模型的训练方法和语音合成方法 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
CN117275498A (zh) | 语音转换方法及语音转换模型的训练方法、电子设备和存储介质 | |
CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 | |
CN116312471A (zh) | 语音迁移、语音交互方法、装置、电子设备及存储介质 | |
CN116312476A (zh) | 语音合成方法和装置、存储介质、电子设备 | |
CN116129856A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN115359780A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN114495896A (zh) | 一种语音播放方法及计算机设备 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
KR20230075340A (ko) | 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법 | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |