CN115798455A - 语音合成方法、系统、电子设备及存储介质 - Google Patents

语音合成方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN115798455A
CN115798455A CN202310072854.XA CN202310072854A CN115798455A CN 115798455 A CN115798455 A CN 115798455A CN 202310072854 A CN202310072854 A CN 202310072854A CN 115798455 A CN115798455 A CN 115798455A
Authority
CN
China
Prior art keywords
speech synthesis
sequence
mean
denoising
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310072854.XA
Other languages
English (en)
Other versions
CN115798455B (zh
Inventor
陈杰
康世胤
吴志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuanxiang Information Technology Co ltd
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen Yuanxiang Information Technology Co ltd
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuanxiang Information Technology Co ltd, Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen Yuanxiang Information Technology Co ltd
Priority to CN202310072854.XA priority Critical patent/CN115798455B/zh
Publication of CN115798455A publication Critical patent/CN115798455A/zh
Application granted granted Critical
Publication of CN115798455B publication Critical patent/CN115798455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及语音合成技术领域,尤其涉及一种语音合成方法、系统、电子设备及存储介质。该语音合成方法基于预训练的语音合成模型实现,语音合成模型包括文本编码器模块、时长预测模块、解码器模块,方法包括:获取音素序列,并输入至语音合成模型;通过文本编码器模块将音素序列转换成均值序列,并输入至时长预测模块;通过时长预测模块将均值序列扩展复制,得到拓展后的均值序列;通过解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。本申请的语音合成方法,可以将语音转换成均值序列并去噪,经过去噪操作后,提高了语音合成速度,加快了解码器的运算速度,使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。

Description

语音合成方法、系统、电子设备及存储介质
技术领域
本申请涉及语音合成技术领域,尤其涉及一种语音合成方法、系统、电子设备及存储介质。
背景技术
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使一些产品具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。
语音合成能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。
语音合成技术已经被广泛地应用到了有声小说、新闻、智能导航、语音助手等多个场景中,因为与人工录音相比,其效率高、成本低。语音合成的目标是合成类似人类的语音,已经防范应用于很多设备中。
目前,在一些在手机、平板电脑等低功耗设备部署语音合成模式时,语音模型需要较多的去噪步数,所以合成的速度就会比较慢。
发明内容
为了计算机或者部分解决上述问题,本申请提供了一种语音合成方法、显示系统、电子设备及存储介质,能够实现在低功耗设备部署时也能够快速合成语音。
第一方面,本申请的实施例提供了一种语音合成方法,该方法基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括:
获取音素序列,并输入至所述语音合成模型;
通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块;
通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列;
通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。
在本申请提供的语音合成方法中,所述通过所述解码器模块将拓展后的均值序列去噪,包括:
对扩展后的均值序列进行采样,得到随机数;
通过所述解码器模块对所述随机数进行去噪。
在本申请提供的语音合成方法中,所述对扩展后的均值序列进行采样,包括:
对所述均值序列进行拆分,得到所述均值序列对应的多个子序列;
在每次采样过程中,从均值序列的子序列中随机采样。
在本申请提供的语音合成方法中,所述解码器模块基于U-Net模型训练得到,且所述U-Net模型中的卷积网络为深度可分离卷积网络;所述对扩展后的均值序列进行采样,包括:
通过所述解码器模块对扩展后的均值序列进行采样,以获取随机数。
在本申请提供的语音合成方法中,所述通过所述解码器模块对所述随机数进行去噪,包括:
将所述随机数输入解码器模块,获取微分方程的准确解;
对所述准确解的积分进行近似求解,获取所述微分方程的解,以实现去噪;
其中,所述微分方程如下:
Figure SMS_1
其中,t为0-1之间的自然数,µ是噪声的先验分布的均值,S是神经网络,βt是一个线性函数,Yt=Xt-µ,Xt是经过t步去噪的样本。
所述微分方程的准确解,公式如下:
Figure SMS_2
其中,
Figure SMS_3
λ表示对数信噪比,I为单位矩阵,βs为线性函数,
Figure SMS_4
表示数据分布标准差,
Figure SMS_5
表示数据分布方差,
Figure SMS_6
为λt的反函数,
Figure SMS_7
Figure SMS_8
的对应的噪声值,λs是s时刻的λ;
Figure SMS_9
为t步数噪声的标准差,Ys为s时刻的带噪样本,S表示神经网络,t表示步数。
在本申请提供的语音合成方法中,所述通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,包括:
通过所述解码器模块对当前采样的随机数逐个进行去噪操作并进行转换,得到对应的梅尔谱片段;
将每个所述梅尔谱片段单独合成并对外输出,以播放合成语音。
在本申请提供的语音合成方法中,所述通过所述时长预测模块将所述均值序列扩展复制,包括:
通过所述时长预测模块对所述均值序列的每个音素时长进行预测;
根据所预测的时长,将所述均值序列进行扩展复制。
第二方面,本申请还提供了一种电子设备,所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述语音合成方法的步骤。
第三方面,本申请还提供了一种语音合成系统,包括文本录入设备,与文本录入设备相连的语音合成设备,其中,所述语音合成设备用于执行如上所述的语音合成方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述语音合成方法的步骤。
相比于现有技术,本申请实施例提供的语音合成方法,基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括:获取音素序列,并输入至所述语音合成模型;通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块;通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列;通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音,本申请可以将语音转换成均值序列并去噪,经过去噪操作后,提高了语音合成速度,能够实现在低功耗设备部署时也能够快速合成语音。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式提供的一种语音合成方法的流程示意图。
图2为本申请实施方式提供的一种语音合成方法的子步骤流程示意图。
图3为本申请实施方式提供的一种语音合成方法的另一种子步骤流程示意图。
图4为本申请实施方式提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
应当理解,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一服务器和第二服务器仅仅是为了区分不同的服务器,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请发明人发现,在一些在手机、平板电脑等低功耗设备部署语音合成模式时,语音模型需要较多的去噪步数,所以合成的速度就会比较慢。此外,低功耗设备搭载目前的语音合成模型,计算开销也比较大。
为了解决上述问题,本申请提供了一种语音合成方法,该方法基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括:获取音素序列,并输入至所述语音合成模型;通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块;通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列;通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。通过上述方案,可以将语音转换成均值序列并去噪,经过去噪操作后,提高了语音合成速度。
此外,本申请的解码器模块可以基于U-Net模型训练得到,因为U-Net被广泛应用于图像语义分割领域,其内部包含了大量的卷积网络、下采样操作和上采样操作。其中卷积网络贡献了大量的参数;而本方案可以使用深度可分离卷积网络代替了原始U-Net中的卷积网络,能够有效降低U-Net的参数量,同时加快了解码器的运算速度。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
参见图1所示,图1为本申请实施方式提供的一种语音合成方法的流程示意图。该方法基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括步骤S100-步骤S400。
步骤S100、获取音素序列,并输入至所述语音合成模型。
在一些实施例中,可以将一些文本,输入一些现有的编码器中,编码器中的文本转音素模块可以根据语言学知识设计的转换逻辑,将文本转换成更能体现其发音特点的音素序列,从而获得到音素序列。
值得一提的是,编码器将文本转化为音素序列后,还需要经过一系列操作才能得到合成后的语音。
当然,也可以采用其他方法获取音素序列,此处就不再进行过多的说明。
步骤S200、通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块。
当音素序列被输入至文本编码器模块后,文本编码器模块可以将音素序列进行转换处理,转换成均值序列。
步骤S300、通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列。
在本申请实施例中,时长预测模块可以对每个音素的时长进行预测,从而确定每个音素的时长。当每个音素的时长都确定后,可以根据所预测的时长扩展复制均值序列,从而得到拓展后的均值序列。
具体的,所述通过所述时长预测模块将所述均值序列扩展复制,包括:
通过所述时长预测模块对所述均值序列的每个音素时长进行预测;根据所预测的时长,将所述均值序列进行扩展复制。
步骤S400、通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。
根据扩展后的均值序列,采样随机数,输入到解码器模块中进行去噪,经过数步去噪操作后,将随机数转换为梅尔谱并作为模型的最终输出,从而输出合成后的语音。
在本申请实施例中,参见图2所示,图2为本申请实施方式提供的一种语音合成方法的子步骤流程示意图。所述通过所述解码器模块将拓展后的均值序列去噪,包括:步骤S401-402。
步骤S401、对扩展后的均值序列进行采样,得到随机数。
其中,所述对扩展后的均值序列进行采样,包括:对所述均值序列进行拆分,得到所述均值序列对应的多个子序列;在每次采样过程中,从均值序列的子序列中随机采样。
需要说明的是,合成输入音素序列所对应的语音时,均值序列可以被拆分成多个子序列。然后,每次只从一个均值序列的子序列采样随机数,并使用解码器模块对当前采样的随机数进行去噪操作,得到其所对应的梅尔谱片段。每一个梅尔谱片段合成完毕以后,就可以直接进行播放,而不需要等待整个句子合成完毕。
此外,在本申请实施例中,所述解码器模块优选为基于U-Net模型训练得到,且所述U-Net模型中的卷积网络为深度可分离卷积网络。所述对扩展后的均值序列进行采样,包括:通过所述解码器模块对扩展后的均值序列进行采样,以获取随机数。
需要说明的是,U-Net模型被广泛应用于图像语义分割领域,其内部包含了大量的卷积网络、下采样操作和上采样操作。其中,卷积网络贡献了大量的参数。本本申请实施例可以使用深度可分离卷积网络代替原始U-Net模型中的卷积网络,能够有效降低U-Net模型的参数量,同时加快了解码器模块的运算速度。
步骤S402、通过所述解码器模块对所述随机数进行去噪。
具体的,所述通过所述解码器模块对所述随机数进行去噪,包括:
将所述随机数输入解码器模块,获取微分方程的准确解;对所述准确解的积分进行近似求解,获取所述微分方程的解,以实现去噪。
其中,所述微分方程如下:
Figure SMS_10
其中,t为0-1之间的自然数,µ是噪声的先验分布的均值,S是神经网络,βt是一个线性函数,Yt=Xt-µ,Xt是经过t步去噪的样本。
所述微分方程的准确解,公式如下:
Figure SMS_11
其中,
Figure SMS_12
λ表示对数信噪比,I为单位矩阵,βs为线性函数,
Figure SMS_13
表示数据分布标准差,
Figure SMS_14
表示数据分布方差,
Figure SMS_15
为λt的反函数,
Figure SMS_16
Figure SMS_17
的对应的噪声值,λs是s时刻的λ;
Figure SMS_18
为t步数噪声的标准差,Ys为s时刻的带噪样本,S表示神经网络,t表示步数。
进一步地,参见图3所示,图3为本申请实施方式提供的一种语音合成方法的另一种子步骤流程示意图。在本申请实施例中,所述通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,包括:步骤S403-S404。
步骤S403、通过所述解码器模块对当前采样的随机数逐个进行去噪操作并进行转换,得到对应的梅尔谱片段。
步骤S404、将每个所述梅尔谱片段单独合成并对外输出,以播放合成语音。
通过上述方案,将去噪过程中的求解简化,在减小计算误差的情况下,能够提高模型在推理阶段的采样效率;所以,上述方案能够有效降低去噪扩散概率模型合成语音时的实时率与时延,同时使用了深度可分离卷积网络代替原始U-Net中的卷积网络,降低了模型参数量,加快了解码器的运算速度,使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。
此外,本申请实施方式还提供了一种语音合成系统,包括文本录入设备,与文本录入设备相连的语音合成设备,其中,所述语音合成设备用于执行如上所述的语音合成方法的步骤;其中,该方法基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括:
获取音素序列,并输入至所述语音合成模型;通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块;通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列;通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。
进一步地,在本申请一些实施例中,还包括:所述通过所述解码器模块将拓展后的均值序列去噪,包括:
对扩展后的均值序列进行采样,得到随机数;通过所述解码器模块对所述随机数进行去噪。
进一步地,在本申请一些实施例中,述对扩展后的均值序列进行采样,包括:对所述均值序列进行拆分,得到所述均值序列对应的多个子序列;在每次采样过程中,从均值序列的子序列中随机采样。
进一步地,在本申请一些实施例中,所述解码器模块基于U-Net模型训练得到,且所述U-Net模型中的卷积网络为深度可分离卷积网络;所述对扩展后的均值序列进行采样,包括:通过所述解码器模块对扩展后的均值序列进行采样,以获取随机数。
进一步地,在本申请一些实施例中,所述通过所述解码器模块对所述随机数进行去噪,包括:
将所述随机数输入解码器模块,获取微分方程的准确解;
对所述准确解的积分进行近似求解,获取所述微分方程的解,以实现去噪;
其中,所述微分方程如下:
Figure SMS_19
其中,Xt是经过t步去噪的样本,t为0-1之间的自然数,µ是噪声的先验分布的均值,S是神经网络,βt是一个线性函数,Yt=Xt-µ。
所述微分方程的准确解,公式如下:
Figure SMS_20
其中,
Figure SMS_21
λ表示对数信噪比,I为单位矩阵,βs为线性函数,
Figure SMS_22
表示数据分布标准差,
Figure SMS_23
表示数据分布方差,
Figure SMS_24
为λt的反函数,
Figure SMS_25
Figure SMS_26
的对应的噪声值,λs是s时刻的λ;
Figure SMS_27
为t步数噪声的标准差,Ys为s时刻的带噪样本,S表示神经网络,t表示步数。
进一步地,在本申请一些实施例中,所述通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,包括:
通过所述解码器模块对当前采样的随机数逐个进行去噪操作并进行转换,得到对应的梅尔谱片段;
将每个所述梅尔谱片段单独合成并对外输出,以播放合成语音。
进一步地,在本申请一些实施例中,所述通过所述时长预测模块将所述均值序列扩展复制,包括:
通过所述时长预测模块对所述均值序列的每个音素时长进行预测;根据所预测的时长,将所述均值序列进行扩展复制。
通过上述方案,将去噪过程中的求解简化,在减小计算误差的情况下,能够提高模型在推理阶段的采样效率;所以,上述方案能够有效降低去噪扩散概率模型合成语音时的实时率与时延,同时使用了深度可分离卷积网络代替原始U-Net中的卷积网络,降低了模型参数量,加快了解码器的运算速度,使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。
本申请还提供了一种电子设备,参见图4所示,图4为本申请实施方式提供的一种电子设备的结构示意图。电子设备50可以包括处理器(CPU、GPU、FPGA等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述附图所示的实施方式中的部分或全部处理。在RAM503中,还存储有系统操作所需的各种程序和数据。处理器501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本申请的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本申请的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,程序被一个或者一个以上的处理器用来执行描述于本申请的语音合成方法,该语音合成方法基于预训练的语音合成模型实现,语音合成模型包括文本编码器模块、时长预测模块、解码器模块,方法包括:获取音素序列,并输入至语音合成模型;通过文本编码器模块将音素序列转换成均值序列,并输入至时长预测模块;通过时长预测模块将均值序列扩展复制,得到拓展后的均值序列;通过解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。本申请的语音合成方法,可以将语音转换成均值序列并去噪,经过去噪操作后,提高了语音合成速度,加快了解码器的运算速度,使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。
进一步地,在本申请实施例中,所述通过所述解码器模块将拓展后的均值序列去噪,包括:对扩展后的均值序列进行采样,得到随机数;通过所述解码器模块对所述随机数进行去噪。
进一步地,在本申请实施例中,所述对扩展后的均值序列进行采样,包括:对所述均值序列进行拆分,得到所述均值序列对应的多个子序列;在每次采样过程中,从均值序列的子序列中随机采样。
进一步地,在本申请实施例中,所述解码器模块基于U-Net模型训练得到,且所述U-Net模型中的卷积网络为深度可分离卷积网络;所述对扩展后的均值序列进行采样,包括:通过所述解码器模块对扩展后的均值序列进行采样,以获取随机数。
进一步地,在本申请实施例中,所述通过所述解码器模块对所述随机数进行去噪,包括:将所述随机数输入解码器模块,获取微分方程的准确解;对所述准确解的积分进行近似求解,获取所述微分方程的解,以实现去噪。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音合成方法,其特征在于,该方法基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括:
获取音素序列,并输入至所述语音合成模型;
通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块;
通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列;
通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。
2.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述解码器模块将拓展后的均值序列去噪,包括:
对扩展后的均值序列进行采样,得到随机数;
通过所述解码器模块对所述随机数进行去噪。
3.根据权利要求2所述的语音合成方法,其特征在于,所述对扩展后的均值序列进行采样,包括:
对所述均值序列进行拆分,得到所述均值序列对应的多个子序列;
在每次采样过程中,从均值序列的子序列中随机采样。
4.根据权利要求2项所述的语音合成方法,其特征在于,所述解码器模块基于U-Net模型训练得到,且所述U-Net模型中的卷积网络为深度可分离卷积网络;所述对扩展后的均值序列进行采样,包括:
通过所述解码器模块对扩展后的均值序列进行采样,以获取随机数。
5.根据权利要求2所述的语音合成方法,其特征在于,所述通过所述解码器模块对所述随机数进行去噪,包括:
将所述随机数输入解码器模块,获取微分方程的准确解;
对所述准确解的积分进行近似求解,获取所述微分方程的解,以实现去噪;
其中,所述微分方程如下:
Figure QLYQS_1
其中,t为0-1之间的自然数,µ是噪声的先验分布的均值,S是神经网络,βt是一个线性函数,Yt=Xt-µ,Xt是经过t步去噪的样本;
所述微分方程的准确解,公式如下:
Figure QLYQS_2
其中,
Figure QLYQS_3
λ表示对数信噪比,I为单位矩阵,βs为线性函数,
Figure QLYQS_4
表示数据分布标准差,
Figure QLYQS_5
表示数据分布方差,
Figure QLYQS_6
为λt的反函数,
Figure QLYQS_7
Figure QLYQS_8
的对应的噪声值,λs是s时刻的λ;
Figure QLYQS_9
为t步数噪声的标准差,Ys为s时刻的带噪样本,S表示神经网络,t表示步数。
6.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,包括:
通过所述解码器模块对当前采样的随机数逐个进行去噪操作并进行转换,得到对应的梅尔谱片段;
将每个所述梅尔谱片段单独合成并对外输出,以播放合成语音。
7.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述时长预测模块将所述均值序列扩展复制,包括:
通过所述时长预测模块对所述均值序列的每个音素时长进行预测;
根据所预测的时长,将所述均值序列进行扩展复制。
8.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。
9.一种语音合成系统,其特征在于,包括文本录入设备,与文本录入设备相连的语音合成设备,其中,所述语音合成设备用于执行所述权利要求1至7中任一项所述的语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。
CN202310072854.XA 2023-02-07 2023-02-07 语音合成方法、系统、电子设备及存储介质 Active CN115798455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310072854.XA CN115798455B (zh) 2023-02-07 2023-02-07 语音合成方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310072854.XA CN115798455B (zh) 2023-02-07 2023-02-07 语音合成方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115798455A true CN115798455A (zh) 2023-03-14
CN115798455B CN115798455B (zh) 2023-06-02

Family

ID=85430237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310072854.XA Active CN115798455B (zh) 2023-02-07 2023-02-07 语音合成方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115798455B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423329A (zh) * 2023-12-19 2024-01-19 北京中科汇联科技股份有限公司 模型训练及语音生成方法、装置、设备及存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203852A (zh) * 2008-09-12 2011-09-28 如师通有限公司 建立语音模型的方法
CN106871891A (zh) * 2017-01-16 2017-06-20 中北大学 一种基于累加累减混合微分器的信号去噪方法
CN107437412A (zh) * 2016-05-25 2017-12-05 北京搜狗科技发展有限公司 一种声学模型处理方法、语音合成方法、装置及相关设备
CN109036376A (zh) * 2018-10-17 2018-12-18 南京理工大学 一种闽南语语音合成方法
US20200043516A1 (en) * 2018-08-06 2020-02-06 Spotify Ab Singing voice separation with deep u-net convolutional networks
CN110772227A (zh) * 2019-11-01 2020-02-11 山东工商学院 基于全卷积编解码架构的介观荧光探针重建方法及系统
CN111613211A (zh) * 2020-04-17 2020-09-01 云知声智能科技股份有限公司 特定词语音的处理方法及装置
WO2020250220A1 (en) * 2019-06-12 2020-12-17 Uveye Ltd. Sound analysis for determination of sound sources and sound isolation
CN112530401A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 一种语音合成方法、系统及装置
CN112735389A (zh) * 2020-12-29 2021-04-30 平安科技(深圳)有限公司 基于深度学习的语音训练方法、装置、设备以及存储介质
CN112837669A (zh) * 2020-05-21 2021-05-25 腾讯科技(深圳)有限公司 语音合成方法、装置及服务器
CN113593590A (zh) * 2021-07-23 2021-11-02 哈尔滨理工大学 一种语音中瞬态噪声的抑制方法
CN113707127A (zh) * 2021-08-30 2021-11-26 中国科学院声学研究所 一种基于线性自注意力的语音合成方法及系统
CN113781995A (zh) * 2021-09-17 2021-12-10 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备及可读存储介质
CN113823308A (zh) * 2021-09-18 2021-12-21 东南大学 一种使用单个带噪语音样本进行语音去噪的方法
WO2022085846A1 (ko) * 2020-10-19 2022-04-28 주식회사 딥히어링 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치
CN114944146A (zh) * 2022-04-19 2022-08-26 北京奕斯伟计算技术股份有限公司 一种语音合成方法及装置
CN115641834A (zh) * 2022-09-09 2023-01-24 平安科技(深圳)有限公司 一种语音合成方法、装置、电子设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203852A (zh) * 2008-09-12 2011-09-28 如师通有限公司 建立语音模型的方法
CN107437412A (zh) * 2016-05-25 2017-12-05 北京搜狗科技发展有限公司 一种声学模型处理方法、语音合成方法、装置及相关设备
CN106871891A (zh) * 2017-01-16 2017-06-20 中北大学 一种基于累加累减混合微分器的信号去噪方法
US20200043516A1 (en) * 2018-08-06 2020-02-06 Spotify Ab Singing voice separation with deep u-net convolutional networks
CN109036376A (zh) * 2018-10-17 2018-12-18 南京理工大学 一种闽南语语音合成方法
WO2020250220A1 (en) * 2019-06-12 2020-12-17 Uveye Ltd. Sound analysis for determination of sound sources and sound isolation
CN110772227A (zh) * 2019-11-01 2020-02-11 山东工商学院 基于全卷积编解码架构的介观荧光探针重建方法及系统
CN111613211A (zh) * 2020-04-17 2020-09-01 云知声智能科技股份有限公司 特定词语音的处理方法及装置
CN112837669A (zh) * 2020-05-21 2021-05-25 腾讯科技(深圳)有限公司 语音合成方法、装置及服务器
WO2022085846A1 (ko) * 2020-10-19 2022-04-28 주식회사 딥히어링 음성 데이터의 품질 향상 방법, 및 이를 이용하는 장치
CN112530401A (zh) * 2020-11-30 2021-03-19 清华珠三角研究院 一种语音合成方法、系统及装置
CN112735389A (zh) * 2020-12-29 2021-04-30 平安科技(深圳)有限公司 基于深度学习的语音训练方法、装置、设备以及存储介质
CN113593590A (zh) * 2021-07-23 2021-11-02 哈尔滨理工大学 一种语音中瞬态噪声的抑制方法
CN113707127A (zh) * 2021-08-30 2021-11-26 中国科学院声学研究所 一种基于线性自注意力的语音合成方法及系统
CN113781995A (zh) * 2021-09-17 2021-12-10 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备及可读存储介质
CN113823308A (zh) * 2021-09-18 2021-12-21 东南大学 一种使用单个带噪语音样本进行语音去噪的方法
CN114944146A (zh) * 2022-04-19 2022-08-26 北京奕斯伟计算技术股份有限公司 一种语音合成方法及装置
CN115641834A (zh) * 2022-09-09 2023-01-24 平安科技(深圳)有限公司 一种语音合成方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴志勇: "语音合成中的韵律关联模型" *
李蕊等: "一种融合残差机制和注意力机制的深度语音去噪方法" *
蒲小样等: "基于噪声整形的语音去噪算法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423329A (zh) * 2023-12-19 2024-01-19 北京中科汇联科技股份有限公司 模型训练及语音生成方法、装置、设备及存储介质
CN117423329B (zh) * 2023-12-19 2024-02-23 北京中科汇联科技股份有限公司 模型训练及语音生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115798455B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN111402855B (zh) 语音合成方法、装置、存储介质和电子设备
CN111583900B (zh) 歌曲合成方法、装置、可读介质及电子设备
CN112786006B (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
Zhang et al. Improving sequence-to-sequence voice conversion by adding text-supervision
CN111369971A (zh) 语音合成方法、装置、存储介质和电子设备
CN112786011A (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN110930975B (zh) 用于输出信息的方法和装置
CN112365878A (zh) 语音合成方法、装置、设备及计算机可读存储介质
Trabelsi et al. Evaluation of the efficiency of state-of-the-art Speech Recognition engines
CN112634858A (zh) 语音合成方法、装置、计算机设备及存储介质
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN115798455B (zh) 语音合成方法、系统、电子设备及存储介质
CN113782042B (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN113314097B (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
CN113889073B (zh) 语音处理方法、装置、电子设备和存储介质
CN116312476A (zh) 语音合成方法和装置、存储介质、电子设备
CN113539239B (zh) 语音转换方法、装置、存储介质及电子设备
CN111489745A (zh) 一种应用于人工智能的汉语语音识别系统
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN114242035A (zh) 语音合成方法、装置、介质以及电子设备
CN113948061A (zh) 语音合成方法、系统、语音合成模型及其训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant