CN118314871A - 一种语音合成的系统和方法 - Google Patents

一种语音合成的系统和方法 Download PDF

Info

Publication number
CN118314871A
CN118314871A CN202211696831.8A CN202211696831A CN118314871A CN 118314871 A CN118314871 A CN 118314871A CN 202211696831 A CN202211696831 A CN 202211696831A CN 118314871 A CN118314871 A CN 118314871A
Authority
CN
China
Prior art keywords
style
module
alignment
generating
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211696831.8A
Other languages
English (en)
Inventor
司马华鹏
徐冉
毛志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
Nanjing Silicon Intelligence Technology Co Ltd
Filing date
Publication date
Application filed by Nanjing Silicon Intelligence Technology Co Ltd filed Critical Nanjing Silicon Intelligence Technology Co Ltd
Publication of CN118314871A publication Critical patent/CN118314871A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种语音合成的系统和方法,涉及计算机技术领域。该方法的一具体实施方式包括:包括:文本编码模块,用于根据待合成音频的原始文本,生成文本向量;风格编码模块,用于根据待合成音频的参考音频,生成风格向量;风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征;差异适配器,用于根据编码输出特征,由所述风格自适应层归一化模块生成梅尔频谱;声码器,根据所述梅尔频谱,输出合成语音。该实施方式解决了现有技术存在小数据量的情况下,现有技术存在进行对齐的准确性不够,且使用成本昂贵的问题、在合成的语音没有韵律起伏的技术缺陷,进而达到提高数据对齐的准确性,更好的拟合数据的技术效果。

Description

一种语音合成的系统和方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音合成的系统和方法。
背景技术
近年来,语音合成随着AI技术的进步,语音合成技术也得到了长足发展,从文本到语音模型(TTS模型)旨在对给定文本合成高质量语音。现在的TTS模型能够很好处理大规模的语音数据,无论是单一说话人还是多说话人情况,只要每个说话人的数据足够、录音质量高,都能合成出很自然的语音。但在很多商业用途上,更多的是在低资源数据情况的语音定制,即仅根据用户少量的录音数据来使模型适配出需要的说话方式。近年来基于低资源数据的个性化语音合成的需求在逐步提升。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、在小数据量的情况下,现有技术存在进行对齐的准确性不够,且使用成本昂贵的问题;
2、在小数据量的情况下,现有技术存在合成的语音较为韵律被平均,没有韵律起伏的技术缺陷。
发明内容
有鉴于此,本发明实施例提供一种语音合成的系统和方法,能够解决小数据量下音频对齐不准确的问提。同时可以通过使用风格编码模块、音高预测模块、能量预测模块,更好的解决拟合语音合成中的音色和自然度问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种语音合成的系统,包括:文本编码模块、风格编码模块、风格自适应层归一化模块、差异适配器、解码模块、声码器;
所述文本编码模块,用于根据待合成音频的原始文本,生成文本向量;
所述风格编码模块,用于根据待合成音频的参考音频,生成风格向量;
所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征;
所述差异适配器,用于根据所述编码输出特征,生成解码输入特征;
所述解码模块,用于根据所述解码输入特征,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;
所述声码器,根据所述梅尔频谱,输出合成语音。
可选地,所述风格编码模块包括:光谱处理模块、时间处理模块、多头注意模块;
所述光谱处理模块,用于将所述参考音频对应的梅尔频谱,通过全连接层转换成帧级隐状态序列;
所述时间处理模块,用于根据Gated CNN和残差连接,捕获语音中的时序信息;
所述多头注意模块,用于根据多头自注意机制和所述残差连接,生成全局信息;
根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量。
可选地,根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量,包括:
根据所述帧级隐状态序列、所述时序信息和所述全局信息,提取风格特征,
对所述风格特征在输出时间上取平均值,得到所述风格特征。
可选地,所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征,包括:
接收所述文本向量和所述风格向量;
预测所述风格向量的增益和偏差;
根据所述文本向量和所述风格向量的增益和偏差进行标准化处理,生成所述编码输出特征。
可选地,生成所述编码输出特征的计算公式包括:
其中
SALN(h,ω)=g(ω)·y+b(ω) (2)
其中h表示为所述文本向量,y为h的正则化表示,上述公式(1)表示对所述文本向量进行正则化处理;公式(2)中,w为风格特征,g(ω),b(ω)为对风格特征进行线性变换得到的表示;SALN(h,ω)即表示所述文本向量和所述风格向量进行融合后的所述编码输出特征。
可选地,所述差异适配器,用于根据所述编码输出特征,生成解码输入特征,包括:
根据所述编码输出特征,生成特征集合;
将所述特征集合中的每一特征分别与所述编码输出特征加和,生成解码输入特征。
可选地,所述差异适配器,包括:非监督对齐模块、音高预测模块、能量预测模块;
根据所述编码输出特征,生成特征集合,包括:
将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征;
将所述编码输出特征输入到所述音高预测模块,生成音高特征;
将所述编码输出特征输入到所述能量预测模块,生成能量特征;
将所述对齐时长特征、所述音高特征、所述能量特征所组成的集合,确定为特征集合。
可选地,将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征,包括:
利用卷积对原始文本和梅尔频谱进行编码,并利用激活函数将文本与梅尔频谱对齐;
使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合;
使用维特比算法,从所述对齐集合中选择所述原始文本与所述梅尔频谱的对齐方式;
根据所述对齐方式,生成所述对齐时长特征。
可选地,所述对齐集合的计算公式为:
其中S表示梅尔频谱和文本之间的特定对齐,S(Φ)表示所有可能有效的单调对齐的集合,P(st|xt;θ)是特定文本在时间t时刻与对应时刻的梅尔频谱对齐的可能性。
可选地,使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合,包括:
使用隐马尔可夫模型中的前向传播算法,限制为单调对齐,将CTC损失降至最低;
筛选所述梅尔频谱的概率最大化对应的对齐集合。
根据本发明实施例的另一个方面,提供了一种语音合成的方法,包括:根据待合成音频的原始文本,生成文本向量;
根据待合成音频的参考音频,生成风格向量;
对所述文本向量和所述风格向量进行风格自适应层归一化处理,生成编码输出特征;
根据所述编码输出特征进行差异适配,生成解码输入特征;
根据所述解码输入特征进行解码,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;
所述梅尔频谱,合成语音。
根据本发明实施例的另一个方面,提供了一种语音合成的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明提供的语音合成的方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的语音合成的方法。
上述发明中的一个实施例具有如下优点或有益效果:
本发明中主要提出了一种基于无监督对齐框架的个性化实时语音的合成技术,在非自回归语音合成的基础上使用无监督的对齐框架替代已有的基于MFA对齐模型,解决小数据量下音频对齐不准确的问提。同时可以通过使用风格编码模块、音高预测模块、能量预测模块,更好的解决拟合语音合成中的音色和自然度问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的语音合成的系统的主要模块的示意图;
图2是根据本发明实施例的语音合成的系统的模块的示意图;
图3是根据本发明实施例的语音合成的方法的主要流程的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
近年来,语音合成随着AI技术的进步,语音合成技术也得到了长足发展,从文本到语音模型(TTS模型)旨在对给定文本合成高质量语音。现在的TTS模型能够很好处理大规模的语音数据,无论是单一说话人还是多说话人情况,只要每个说话人的数据足够、录音质量高,都能合成出很自然的语音。但在很多商业用途上,更多的是在低资源数据情况的语音定制,即仅根据用户少量的录音数据来使模型适配出需要的说话方式。近年来基于低资源数据的个性化语音合成的需求在逐步提升。
个性化语音合成展现出了巨大的应用前景,如虚拟人语音合成、自动配音等。除了要求合成丰富多样的语音之外,这些应用还特别期望在少量数据的基础下,给定指定的文本,可以合成在音色和音质上可媲美单人语音合成的高质量的音频。但由于人类自然语音的表现力非常丰富,在说话人音色和韵律上变化很大,以及数据量较少,导致建模有难度,所以这种用少量语音数据去做TTS的任务是很有挑战性的。
现有技术目前低资源个性化的语音合成算法策略主要有两种:
其中一种方法是从一条参考语音中提取一个隐向量(代表说话人身份、韵律、或说话风格等特征),然后模型在合成时将此隐向量加到文本特征上。这种方法不需要任何微调步骤即可适应到新说话人上。但该类方法严重依赖于预训练数据集的泛化程度,所以常常在新说话人上表现出较差的合成效果。
另一种主流方法是采用预训练+微调的策略,即先在一个很大的多说话人语料数据集上做模型预训练,然后用目标说话人的少量数据去对模型做微调。基于自回归语音合成的此种策略目前仍存在合成速度慢,重复吐词或漏词,无法细粒度控制语速、韵律和停顿等问题,在一些对实时性,对合成质量要求较高的场合下较难应用。而非自回归的语音合成,虽然在合成速度,错字漏字,语速韵律的可控性上,但是这些非自回归的语音合成模型通常需要依赖外部算法进行时间对齐,常用的算法有Montreal Forced Aligner(MFA),MFA使用了Kaldi的工具集,基于GMM-HMM的算法,包括音频特征参数提取,模型构建,训练方法等,且使用方法简单,当数据量充足,数据质量较好的情况下,使用MFA进行对齐模型的训练,能实现较好的对齐效果,但是在小数据量的情况下,使用MFA数据进行对齐的准确性不够,且仍存在使用成本昂贵,某些语言通常不容易获得,合成的语音较为平稳,去个性化,韵律被平均,且中文拼音对齐能力不足,针对长文本处理能力不足等技术问题。
针对上述问题,本发明在非自回归语音合成的预训练和微调策略的基础上,使用非监督的对齐框架替代MFA算法对齐的方法,参与语音合成模型的训练的技术手段,达到提高数据对齐的准确性,更好的拟合数据的技术效果。同时,通过使用风格编码模块提取音频的风格向量,添加到语音合成的不同模块中的技术手段,达到提高语音合成的音色转换的技术效果;另外本发明可以通过使用音高预测模块,能量预测模块增加语音合成的自然度,可以实现基于无监督对齐框架的个性化实时语音合成技术。避免现有技术存在的在小数据量的情况下存在的对齐的准确性不够、使用成本昂贵、针对长文本处理能力不足的技术问题。在本发明中音高预测模块,能量预测模块可以通过Fastspeech2算法实现,具体实现方式并非本发明的重点,在此不再赘述。
图1是根据本发明实施例的语音合成的系统的主要模块的示意图,如图1所示,包括:
为实现上述目的,根据本发明实施例的一个方面,提供了一种语音合成的系统100,包括:文本编码模块101、风格编码模块102、风格自适应层归一化模块103、差异适配器104、解码模块105、声码器106。
所述文本编码模块101,用于根据待合成音频的原始文本,生成文本向量。文本编码模块用于处理输入本文(待合成音频的原始文本),得到文本向量。在一具体实施例中,文本编码模块可以将先对原始文本生成中间文本向量,再对中间文本向量进行提取特征序列,最后生成文本向量。
所述风格编码模块102,用于根据待合成音频的参考音频(输入参考Mel谱),生成风格向量;
所述风格自适应层归一化模块103,用于根据所述文本向量和所述风格向量,生成编码输出特征。其中编码输出特征包含风格信息例如说话人身份、韵律的风格向量。
所述差异适配器104,用于根据所述编码输出特征,生成解码输入特征。在本发明可选实施例中差异适配器可以包括但不限于以下之一:音高预测模块、能量预测模块和对齐框架。通过对音高进行预测、能量预测和/或对输出特征进行对齐,实现生成编码输出特征。
所述解码模块105,用于根据所述解码输入特征,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱。
所述声码器106,根据所述梅尔频谱,输出合成语音。
本发明中主要提出了一种基于无监督对齐框架的个性化实时语音的合成技术,在非自回归语音合成的基础上使用无监督的对齐框架替代已有的基于MFA对齐模型,解决小数据量下音频对齐不准确的问提。同时可以通过使用风格编码模块、音高预测模块、能量预测模块,更好的解决拟合语音合成中的音色和自然度问题。
关于风格编码模块(MelStyleEncoder模块):
本发明通过使用风格编码模块(MelStyleEncoder模块)将参考音频作为输入,输出一个包含风格信息(说话人身份、韵律)的风格(Style Embeddings)。
在本发明可选实施例中,所述风格编码模块可以包括如下三个子模块:光谱处理模块(Spectral processing)、时间处理模块(Temporal processing)、多头注意模块(Multi-head attention);
所述光谱处理模块,用于将所述参考音频对应的梅尔频谱,通过全连接层转换成帧级隐状态序列;
所述时间处理模块,用于根据Gated CNN和残差连接,捕获语音中的时序信息;
所述多头注意模块,用于根据多头自注意机制和所述残差连接,生成全局信息;
根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量。具体地,多头自注意模块被用在帧级别上以更好从较短语音中提取风格特征,然后输出在时间上取平均得到一个风格向量Style Embeddings。
也就是说,根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量,包括:
根据所述帧级隐状态序列、所述时序信息和所述全局信息,提取风格特征,
对所述风格特征在输出时间上取平均值,得到所述风格特征。
风格自适应层归一化模块(Style-Adaptive Layer Norm模块)
在传统做法中,风格向量一般直接拼接或加到文本编码模块的输出或解码模块的输出上。本发明通过采用风格自适应层归一化模块,接收文本向量和风格向量作为该模块的输入,用来预测输入特征的增益gain和偏差bias,然后做标准化处理得到输出。
与普通的层标准化不同,对风格特征进行线性变换是受风格向量影响可变的。在编码器和解码器的快速傅里叶变换模块(FFT block)中应用风格自适应层归一化模块(SALN)(即把其中的LayerNorm换成SALN),其中增益和偏差是风格向量通过一层全连接层获得。(这部分类似AdaSpeech)
具体地,在本发明可选实施例中,所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征,包括:
接收所述文本向量和所述风格向量;
预测所述风格向量的增益和偏差;
根据所述文本向量和所述风格向量的增益和偏差进行标准化处理,生成所述编码输出特征。
可选地,生成所述编码输出特征的计算公式包括:
其中
SALN(h,ω)=g(ω)·y+b(ω) (2)
其中h表示为所述文本向量,y为h的正则化表示,上述公式(1)表示对所述文本向量进行正则化处理;公式(2)中,w为风格特征,g(ω),b(ω)为对风格特征进行线性变换得到的表示;SALN(h,ω)即表示所述文本向量和所述风格向量进行融合后的所述编码输出特征。
在本申请可选实施例中,所述差异适配器,用于根据所述编码输出特征,生成解码输入特征,包括:
根据所述编码输出特征,生成特征集合;
将所述特征集合中的每一特征分别与所述编码输出特征加和,生成解码输入特征。
具体地,所述差异适配器,包括:非监督对齐模块、音高预测模块、能量预测模块;
根据所述编码输出特征,生成特征集合,包括:
将所述编码输出特征输入到所述非监督对齐模块(Alignment Framework模块),生成对齐时长特征;
将所述编码输出特征输入到所述音高预测模块(Pitch Embedding),生成音高特征;
将所述编码输出特征输入到所述能量预测模块(Energy Embedding),生成能量特征;
将所述对齐时长特征、所述音高特征、所述能量特征所组成的集合,确定为特征集合。
本发明中的非监督对齐模块,结合隐马尔可夫模型,分别使用维特比算法(Viterbi算法)和前向传播算法(forward-sum算法)计算文本向量和风格向量之间的所有可能的对齐集合和最优的对齐方式。
具体地,在非自回归的语音合成系统中,使用简单的一维卷积对原始文本和参考语音进行编码,并使用激活函数softmax来计算对齐。
可选地,将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征,包括:
利用卷积对原始文本和梅尔频谱进行编码,并利用激活函数将文本与梅尔频谱对齐;
使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合;
使用维特比算法,从所述对齐集合S(Φ)中选择所述原始文本与所述梅尔频谱的对齐方式(也就是搜索最优的对齐路径)。
可选地,所述对齐集合的计算公式为:
其中S表示梅尔频谱和文本之间的特定对齐,S(Φ)表示所有可能有效的单调对齐的集合,P(st|xt;θ)是特定文本在时间t时刻与对应时刻的梅尔频谱对齐的可能性。
该公式总结了所有可能的对齐。通过使用隐马尔可夫模型中使用的前向传播算法(Forward-sum算法),使给定的Mel谱图的概率最大化。优选地,当将其限制为单调对齐时,上述公式相当于将CTC损失降至最低。
在本申请可选实施例中,使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合,包括:
使用隐马尔可夫模型中的前向传播算法,限制为单调对齐,将CTC损失降至最低;
筛选所述梅尔频谱的概率最大化对应的对齐集合。
本发明所公开的对齐模块可以在不依赖外部对齐器的情况下快速学习文本和语音之间的对齐。实际上,对齐可以在几千次的模型迭代中迅速收敛到可用状态,进而达到消除了对MFA对齐的需求,在针对少量数据的情况下,对齐准确率更高,收敛速度更快的技术效果,并且本发明所适用的场景较为广泛,适用于各种非自回归TTS模型。
通过采取预训练与微调结合的方式,使用对齐模块实现对齐效果,更加符合目标人的韵律节奏。
综上所述,基于无监督对齐框架的低资源个性化实时语音合成技术具有较为显著的优势,使用非自回归语音合成方法作为基础,在保证语音合成实时性和准确性的同时,使用风格编码模块(MelStyleEncoder)提取音频的风格向量,并使用风格自适应层归一化的方式添加到语音合成算法的主要模块中,可以最大程度的保留待合成说话人的音色。另外,使用基于CTC损失的对齐框架替代MFA,参与语音合成的模型训练中,提高对齐的准确性,同时将音高预测模块、能量预测模块融入系统可以使得语音合成的效果更自然,更具有韵律性。
下面以一具体实施例说明本发明语音合成的系统。
图2是根据本发明实施例的语音合成的系统的模块的示意图;
如图2所示,提供了一种语音合成的系统100,包括:文本编码模块(Encoder模块)101、风格编码模块(MelStyleEncoder模块)102、风格自适应层归一化模块(Style-Adaptive Layer Norm模块)103、差异适配器(VarianceAdaptor)104、解码模块(Decoder)105、声码器(NN.linear)106。
文本编码模块101中可以包含三个主要的子模块:向量转换模块(World-Emb)、去噪模块(Prenet)、特征提取模块(CBHG)。
风格编码模块(MelStyleEncoder模块)102中可以包含光谱处理模块(Spectralprocessing)、时间处理模块(Temporal processing)、多头注意模块(Multi-headattention)。
差异适配器(VarianceAdaptor)104包括:音高预测模块(Pitch Embedding)、能量预测模块(Energy Embedding)。
图3是根据本发明实施例的语音合成的方法的主要流程的示意图。
如图3所示,根据本发明实施例的另一个方面,提供了一种语音合成的方法,包括:
步骤301、根据待合成音频的原始文本,生成文本向量text_embedding。
步骤302、根据待合成音频的参考音频,生成风格向量style_embedding。
步骤303、对所述文本向量text_embedding和所述风格向量style_embedding进行风格自适应层归一化处理,生成编码输出特征。
步骤304、根据所述编码输出特征进行差异适配,生成解码输入特征。其中,所述差异适配的过程包括:根据所述编码输出特征,生成特征集合;将所述特征集合中的每一特征分别与所述编码输出特征加和,生成解码输入特征。具体地,将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征;将所述编码输出特征输入到所述音高预测模块,生成音高特征;将所述编码输出特征输入到所述能量预测模块,生成能量特征;将所述对齐时长特征、所述音高特征、所述能量特征所组成的集合,确定为特征集合。
步骤305、根据所述解码输入特征进行解码,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱。
步骤306、根据所述梅尔频谱,合成语音。
图4示出了可以应用本发明实施例的语音合成的方法或语音合成的装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的语音合成的方法一般由服务器405执行,相应地,语音合成的装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
根据待合成音频的原始文本,生成文本向量;
根据待合成音频的参考音频,生成风格向量;
对所述文本向量和所述风格向量进行风格自适应层归一化处理,生成编码输出特征;
根据所述编码输出特征进行差异适配,生成解码输入特征;
根据所述解码输入特征进行解码,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;
所述梅尔频谱,合成语音。
根据本发明实施例的技术方案,可以达到如下技术效果:
本发明中主要提出了一种基于无监督对齐框架的个性化实时语音的合成技术,在非自回归语音合成的基础上使用无监督的对齐框架替代已有的基于MFA对齐模型,解决小数据量下音频对齐不准确的问提。同时可以通过使用风格编码模块、音高预测模块、能量预测模块,更好的解决拟合语音合成中的音色和自然度问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (13)

1.一种语音合成的系统,其特征在于,包括:文本编码模块、风格编码模块、风格自适应层归一化模块、差异适配器、解码模块、声码器;
所述文本编码模块,用于根据待合成音频的原始文本,生成文本向量;
所述风格编码模块,用于根据待合成音频的参考音频,生成风格向量;
所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征;
所述差异适配器,用于根据所述编码输出特征,生成解码输入特征;
所述解码模块,用于根据所述解码输入特征,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;
所述声码器,根据所述梅尔频谱,输出合成语音。
2.根据权利要求1所述的系统,其特征在于,所述风格编码模块包括:光谱处理模块、时间处理模块、多头注意模块;
所述光谱处理模块,用于将所述参考音频对应的梅尔频谱,通过全连接层转换成帧级隐状态序列;
所述时间处理模块,用于根据Gated CNN和残差连接,捕获语音中的时序信息;
所述多头注意模块,用于根据多头自注意机制和所述残差连接,生成全局信息;
根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量。
3.根据权利要求1所述的系统,其特征在于,根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量,包括:
根据所述帧级隐状态序列、所述时序信息和所述全局信息,提取风格特征,
对所述风格特征在输出时间上取平均值,得到所述风格特征。
4.根据权利要求1所述的系统,其特征在于,所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征,包括:
接收所述文本向量和所述风格向量;
预测所述风格向量的增益和偏差;
根据所述文本向量和所述风格向量的增益和偏差进行标准化处理,生成所述编码输出特征。
5.根据权利要求4所述的系统,其特征在于,生成所述编码输出特征的计算公式包括:
其中
SALN(h,ω)=g(ω)·y+b(ω) (2)
其中h表示为所述文本向量,y为h的正则化表示,上述公式(1)表示对所述文本向量进行正则化处理;公式(2)中,w为风格特征,g(ω),b(ω)为对风格特征进行线性变换得到的表示;SALN(h,ω)即表示所述文本向量和所述风格向量进行融合后的所述编码输出特征。
6.根据权利要求1所述的系统,其特征在于,所述差异适配器,用于根据所述编码输出特征,生成解码输入特征,包括:
根据所述编码输出特征,生成特征集合;
将所述特征集合中的每一特征分别与所述编码输出特征加和,生成解码输入特征。
7.根据权利要求6所述的系统,其特征在于,所述差异适配器,包括:非监督对齐模块、音高预测模块、能量预测模块;
根据所述编码输出特征,生成特征集合,包括:
将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征;
将所述编码输出特征输入到所述音高预测模块,生成音高特征;
将所述编码输出特征输入到所述能量预测模块,生成能量特征;
将所述对齐时长特征、所述音高特征、所述能量特征所组成的集合,确定为特征集合。
8.根据权利要求7所述的系统,其特征在于,将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征,包括:
利用卷积对原始文本和梅尔频谱进行编码,并利用激活函数将文本与梅尔频谱对齐;
使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合;
使用维特比算法,从所述对齐集合中选择所述原始文本与所述梅尔频谱的对齐方式;
根据所述对齐方式,生成所述对齐时长特征。
9.根据权利要求8所述的系统,其特征在于,所述对齐集合的计算公式为:
其中S表示梅尔频谱和文本之间的特定对齐,S(Φ)表示所有可能有效的单调对齐的集合,P(st|xt;θ)是特定文本在时间t时刻与对应时刻的梅尔频谱对齐的可能性。
10.根据权利要求8所述的系统,其特征在于,使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合,包括:
使用隐马尔可夫模型中的前向传播算法,限制为单调对齐,将CTC损失降至最低;
筛选所述梅尔频谱的概率最大化对应的对齐集合。
11.一种语音合成的方法,其特征在于,包括:
根据待合成音频的原始文本,生成文本向量;
根据待合成音频的参考音频,生成风格向量;
对所述文本向量和所述风格向量进行风格自适应层归一化处理,生成编码输出特征;
根据所述编码输出特征进行差异适配,生成解码输入特征;
根据所述解码输入特征进行解码,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;
所述梅尔频谱,合成语音。
12.一种语音合成的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求11所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求11所述的方法。
CN202211696831.8A 2022-12-28 一种语音合成的系统和方法 Pending CN118314871A (zh)

Publications (1)

Publication Number Publication Date
CN118314871A true CN118314871A (zh) 2024-07-09

Family

ID=

Similar Documents

Publication Publication Date Title
KR102484967B1 (ko) 음성 전환 방법, 장치 및 전자 기기
CN110288980A (zh) 语音识别方法、模型的训练方法、装置、设备及存储介质
US11355097B2 (en) Sample-efficient adaptive text-to-speech
WO2019174450A1 (zh) 一种对话生成的方法和装置
WO2021227707A1 (zh) 音频合成方法、装置、计算机可读介质及电子设备
WO2022126904A1 (zh) 语音转换方法、装置、计算机设备及存储介质
CN111161695B (zh) 歌曲生成方法和装置
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
CN113327580A (zh) 语音合成方法、装置、可读介质及电子设备
CN111696520A (zh) 智能配音方法、装置、介质及电子设备
WO2023045954A1 (zh) 语音合成方法、装置、电子设备及可读存储介质
WO2023226260A1 (zh) 语音生成方法及装置、存储介质、电子设备
CN110930975A (zh) 用于输出信息的方法和装置
CN114550702A (zh) 一种语音识别方法和装置
US20230059882A1 (en) Speech synthesis method and apparatus, device and computer storage medium
CN112185340B (zh) 语音合成方法、语音合成装置、存储介质与电子设备
Zhang et al. Promptspeaker: Speaker generation based on text descriptions
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN117373429A (zh) 语音克隆方法、装置、存储介质及计算机设备
CN118314871A (zh) 一种语音合成的系统和方法
CN114783409A (zh) 语音合成模型的训练方法、语音合成方法及装置
CN114512121A (zh) 语音合成方法、模型训练方法及装置
EP4172985A1 (en) Speech synthesis and speech recognition
CN118335052A (zh) 一种语音合成的系统和方法
CN116189654B (zh) 语音编辑方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication