CN115910033A - 一种语音的合成方法、装置、电子设备及可读存储介质 - Google Patents

一种语音的合成方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN115910033A
CN115910033A CN202310024074.8A CN202310024074A CN115910033A CN 115910033 A CN115910033 A CN 115910033A CN 202310024074 A CN202310024074 A CN 202310024074A CN 115910033 A CN115910033 A CN 115910033A
Authority
CN
China
Prior art keywords
sequence
text
audio
model
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310024074.8A
Other languages
English (en)
Other versions
CN115910033B (zh
Inventor
史王雷
王秋明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202310024074.8A priority Critical patent/CN115910033B/zh
Publication of CN115910033A publication Critical patent/CN115910033A/zh
Application granted granted Critical
Publication of CN115910033B publication Critical patent/CN115910033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请提供了一种语音的合成方法、装置、电子设备及可读存储介质,应用于语音处理技术领域,获取待合成文本特征序列以及目标说话人标签;将待合成文本特征序列以及目标说话人标签输入至预先训练好的语音合成模型中,通过语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与文本特征序列对应的目标合成音频。这样,将待合成文本特征序列以及目标说话人标签,输入至预先训练好的语音合成模型中,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,结合目标说话人标签,快速准确地输出目标合成音频,有助于提升语音合成的效果以及效率。

Description

一种语音的合成方法、装置、电子设备及可读存储介质
技术领域
本申请涉及语音处理技术领域,尤其是涉及一种语音的合成方法、装置、电子设备及可读存储介质。
背景技术
现阶段,随着人工智能应用领域的不断扩大和发展,智能语音处理及应用已经遍布于人们生活的方方面面,其中包括的语音增强、语音分离、语音合成、语音识别、声纹识别等技术已具体应用在智能家居、身份认证、智慧教育、语音检索等多个领域。
对于语音合成来说,包括前端和后端两大模块,前端为文本分离模块,该模块主要完成断句、文本归一化、分词、词性分析、注音、韵律分析等。文本分析阶段主要基于规则和模型方法完成,前端文本分析效果直接影响到语音合成效果;后端模块根据前端分析结果,通过波形拼接、统计参数、等方法,生成对应的音频特征序列,但是,现有技术中对于语音合成的准确性会受波形以及统计参数等的影响,导致语音合成效果不好,准确率也比较低。
发明内容
有鉴于此,本申请的目的在于提供一种语音的合成方法、装置、电子设备及可读存储介质,将待合成文本特征序列以及目标说话人标签,输入至预先训练好的语音合成模型中,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,结合目标说话人标签,快速准确地输出目标合成音频,有助于提升语音合成的效果以及效率。
第一方面,本申请实施例提供了一种语音的合成方法,所述合成方法包括:
获取待合成文本特征序列以及目标说话人标签;
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,所述将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频,包括:
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,对所述目标说话人标签进行独热编码,得到目标说话人序列;
将所述目标说话人序列与所述待合成文本特征序列拼接后,得到所述目标合成文本特征;
基于所述音素模型序列表征的文本与音频之间的映射关系,确定与所述目标合成文本特征对应的目标伪造音频特征;
将所述目标伪造音频特征输入至所述语音合成模型中的解码器进行解码,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,通过以下步骤训练所述语音合成模型:
获取样本文本特征序列以及多个包含多名不同说话人的样本音频特征集合;
将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型。
在一种可能的实施方式中,所述将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型,包括:
基于所述样本音频特征序列中的各个音频特征提取均值以及方差值,进行音素建模,以及基于所述样本文本特征序列、所述说话人序列对预先构建好的神经网络模型中的音素模型序列进行迭代修正,直至所述样本音频特征与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型中的音素模型序列,以通过训练好的语音合成模型中的音素模型序列,得到训练好的语音合成模型。
在一种可能的实施方式中,通过以下步骤获取所述样本文本特征序列:
获取样本文本,并对所述样本文本进行分词处理后,得到待处理文本;
对所述待处理文本进行分解后的每个音素进行韵律级标注,并按照韵律分类后,得到所述样本文本特征序列。
第二方面,本申请实施例还提供了一种语音的合成装置,所述合成装置包括:
序列标签获取模块,用于获取待合成文本特征序列以及目标说话人标签;
音频合成模块,用于将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,所述音频合成模块在用于将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频时,所述音频合成模块用于:
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,对所述目标说话人标签进行独热编码,得到目标说话人序列;
将所述目标说话人序列与所述待合成文本特征序列拼接后,得到所述目标合成文本特征;
基于所述音素模型序列表征的文本与音频之间的映射关系,确定与所述目标合成文本特征对应的目标伪造音频特征;
将所述目标伪造音频特征输入至所述语音合成模型中的解码器进行解码,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,所述合成装置还包括模型训练模块,所述模型训练模块用于通过以下步骤训练所述语音合成模型:
获取样本文本特征序列以及多个包含多名不同说话人的样本音频特征集合;
将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一项所述的语音的合成的处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一项所述的语音的合成方法的步骤。
本申请实施例提供的语音的合成方法、装置、电子设备及可读存储介质,获取待合成文本特征序列以及目标说话人标签;将待合成文本特征序列以及目标说话人标签输入至预先训练好的语音合成模型中,通过语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与文本特征序列对应的目标合成音频。这样,将待合成文本特征序列以及目标说话人标签,输入至预先训练好的语音合成模型中,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,结合目标说话人标签,快速准确地输出目标合成音频,有助于提升语音合成的效果以及效率。
进一步的,本申请的文本标注阶段,将韵律音素用于模型训练,同时增加模型映射类别数,可以有效提升合成语音韵律。
进一步的,本申请中将目标人数据作为总训练集合的一个子集进行训练,对于解耦说话人身份信息的语音来说,能够得到更丰富的韵律音素数据,建模效果更好。并且闭集语音合成算法训练不需要专门针对说话人身份建模,训练效率更高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种语音的合成方法的流程图;
图2为本申请实施例所提供的模型训练过程中流程示意图;
图3为本申请实施例所提供的一种语音的合成装置的结构示意图之一;
图4为本申请实施例所提供的一种语音的合成装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于语音处理技术领域。
经研究发现,现阶段,随着人工智能应用领域的不断扩大和发展,智能语音处理及应用已经遍布于人们生活的方方面面,其中包括的语音增强、语音分离、语音合成、语音识别、声纹识别等技术已具体应用在智能家居、身份认证、智慧教育、语音检索等多个领域。
对于语音合成来说,包括前端和后端两大模块,前端为文本分离模块,该模块主要完成断句、文本归一化、分词、词性分析、注音、韵律分析等。文本分析阶段主要基于规则和模型方法完成,前端文本分析效果直接影响到语音合成效果;后端模块根据前端分析结果,通过波形拼接、统计参数、等方法,生成对应的音频特征序列,但是,现有技术中对于语音合成的准确性会受波形以及统计参数等的影响,导致语音合成效果不好,准确率也比较低。
基于此,本申请实施例提供了一种语音的合成方法,以提升语音合成的效果以及效率。
请参阅图1,图1为本申请实施例所提供的一种语音的合成方法的流程图。如图1中所示,本申请实施例提供的语音的合成方法,包括:
S101、获取待合成文本特征序列以及目标说话人标签。
S102、将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
本申请实施例所提供的一种语音的合成方法,将待合成文本特征序列以及目标说话人标签,输入至预先训练好的语音合成模型中,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,结合目标说话人标签,快速准确地输出目标合成音频,有助于提升语音合成的效果以及效率。
下面对本申请实施例示例性的各步骤进行说明:
S101、获取待合成文本特征序列以及目标说话人标签。
在本申请实施例中,针对的是语音合成的场景,现阶段,随着人工智能应用领域的不断扩大和发展,智能语音处理及应用已经遍布于人们生活的方方面面,其中包括的语音增强、语音分离、语音合成、语音识别、声纹识别等技术已具体应用在智能家居、身份认证、智慧教育、语音检索等多个领域。
具体地,对于语音合成来说,包括前端和后端两大模块,前端为文本分离模块,该模块主要完成断句、文本归一化、分词、词性分析、注音、韵律分析等。文本分析阶段主要基于规则和模型方法完成,前端文本分析效果直接影响到语音合成效果;后端模块根据前端分析结果,通过波形拼接、统计参数、神经网络等方法,生成对应的音频特征序列,本申请实施例中是针对于后端通过神经网络进行语音合成的技术方案做出的更新。
在一种可能的实施方式中,需要获取待合成文本特征序列,同时还需要确定出需要将待合成文本特征序列要合成的目标说话人的标签(可以是ID编号等目标说话人唯一标识)。
值得注意的是,在获取到待合成文本后,需要对待合成文本进行断句、文本归一化、分词、词性分析、注音、韵律分析等预处理,才能得到本申请实施例中可以输入到语音合成模型中参与合成的待合成文本特征序列。
S102、将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
在本申请实施例中,将步骤S101获取到的待合成文本特征序列以及目标说话人标签输入至预先训练好的语音合成模型中,在语音合成模型中通过目标说话人标签的独热编码映射完成特征拼接后,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,将待合成文本特征序列以及目标说话人标签输入语音合成模型后,训练好的语音合成模型会根据训练过程中的参数以及音素模型序列确定出的文本-音频映射关系,确定出对应的目标合成音频,进而通过语音合成模型的处理,快速准确地将待合成文本特征序列合成对应的目标合成音频。
具体地,步骤“将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频”,包括:
a1:将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,对所述目标说话人标签进行独热编码,得到目标说话人序列。
a2:将所述目标说话人序列与所述待合成文本特征序列拼接后,得到所述目标合成文本特征。
a3:基于所述音素模型序列表征的文本与音频之间的映射关系,确定与所述目标合成文本特征对应的目标伪造音频特征。
a4:将所述目标伪造音频特征输入至所述语音合成模型中的解码器进行解码,输出与所述文本特征序列对应的目标合成音频。
在本申请实施例中,将待合成文本特征序列以及目标说话人标签输入值训练好的语音合成模型后,首先对目标说话人标签进行独热编码,得到说话人序列,进而将目标说话人序列与输入的待合成文本特征序列进行拼接后,得到目标合成文本特征;根据语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,确定出与目标和成文本特征相映射的目标伪造音频特征,将目标音频特征经过语音合成模型中的解码器进行解码后,得到基于待合成文本合成的目标合成音频。
经过上述语音合成模型处理后的目标合成音频的速度快、准确性高,可以快速准确地完成语音合成。
在一种可能的实施方式中,本申请实施例中的重点在于语音合成模型的内部处理过程,因此,对于语音合成模型的训练过程是保证语音合成模型执行语音合成是否准确的基石,下面将对语音合成魔性的过程进行阐述。
具体地,通过以下步骤训练所述语音合成模型:
b1:获取样本文本特征序列以及多个包含多名不同说话人的样本音频特征集合;
b2:将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型。
在本申请实施例中,请参阅图2,图2为本申请实施例所提供的模型训练过程中流程示意图,如图2所示,需要获取到原始音频特征序列,并根据原始音频特征序列进行音素建模,进而通过训练,确定出真实音频特征到伪造音频特征的映射;进一步的,因为现有语音合成均是由文本到的语音的合成,因此,在训练过程中需要将加入文本特征序列,作为标签监督模型训练;同时,通过引入说话人特征序列的方式,在通过特征解码后,解耦语音合成中的说话人信息,让模型更专注于语音本身到文本的映射。这样,在训练阶段可以通过构建包含多名不同说话人的训练集合,如图2中的[s1,s2,s3,...],引入少量目标说话人数据,得到最终大的训练数据集合进行训练。最后经过解码器得到合成音频特征。
具体地,在一种可能的实施方式中,需要获取到大量的样本文本特征序列以及多个包含不同说话人的样本特征集合。
值得注意的是,本申请实施例中解耦语音合成中的说话人信息,让模型更专注于语音本身到文本的映射。这样,在训练阶段可以通过构建包含多名不同说话人的样本音频特征集合,如图2中的[s1,s2,s3,...],引入少量目标说话人数据,得到最终的样本音频特征集合进行训练,这样相较于再训练一个声纹识别模型进行声纹识别的方式(模型参数量庞大,系统结构复杂),训练过程更为简化,同时,更准确高效。
在一种可能的实施方式中,步骤“将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型”,包括:
c1:基于所述样本音频特征序列中的各个音频特征提取均值以及方差值,进行音素建模,以及基于所述样本文本特征序列、所述说话人序列对预先构建好的神经网络模型中的音素模型序列进行迭代修正,直至所述样本音频特征与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型中的音素模型序列,以通过训练好的语音合成模型中的音素模型序列,得到训练好的语音合成模型。
在本申请实施例中,对于语音合成模型的训练过程,最重要的是对语音合成模型中的音素模型序列的确定和训练,需要预先获取到原始音频,并对原始音频提取梅尔频谱特征,得到原始音频特征序列,并对原始音频特征序列中的各个音频特征提取均值以及方差值,进行音素建模,在训练过程中沟通过迭代对均值以及方差值进行优化处理,同时调整音素建模,以构建可以反应原始音频特征与构造音频特征之间映射关系的音素模型。
具体地,在本申请实施例中,假设每个音素模型服从高斯分布,对于整个算法结构来说,可以称单个音素模型为隐藏变量z。那么,隐藏变量后验信息服从如下公式:
其中,P代表隐藏变量服从的概率分布为贝叶斯分布;z表示隐藏变量;m表示原始音频中提取出的梅尔频谱特征,即语音特征;μm分别代表隐藏变量服从高斯分布的均值和方差。
在一种可能的实施方式中,如图2所示,对于提取到的原始音频特征序列,可以得到一组隐藏变量序列[z1,z2,z3,...]与其一一对应,对于给定的音频特征序列[m1,m2,m3,...],假设对应的隐藏变量符合高斯正态分布,从而分别对每个隐藏变量进行高斯建模(见公式1),建模过程中需对音频特征提取均值、方差参数作为模型训练参数。这样,每一个隐藏变量对应一个高斯混合模型,并实际对应一个音素点。最终,通过迭代减小隐藏变量模型生成伪造假声特征和真实音频特征之间的损失来优化模型。
进一步的,语音合成需要完成从文本特征到伪造假声特征的映射,那么,在对语音合成模型的训练过程中,需要引入样本文本特征序列,作为标签监督模型训练。其中,为了使文本标签预测的伪造假声特征的分布近似于真实音频特征预测的伪造音频特征分布,使用kl散度进行评估运算,监督模型训练,公式如下:
其中,LK1表示伪造假声特征;ttext表示对应的文本特征序列;MAS(MonotonicAlignment Search)为文本序列到音频特征序列的对齐算法-单调对齐搜索算法;m代表音频梅尔频谱特征序列;z代表隐藏特征序列。
值得注意的是,为了防止出现合成音频音色接近目标人,但语句韵律效果不理想的问题,本申请实施例中在得到样本文本序列之前,首先需要对样本文本序列进行韵律级别的标注。
具体地,通过以下步骤获取所述样本文本特征序列:
d1:获取样本文本,并对所述样本文本进行分词处理后,得到待处理文本。
d2:对所述待处理文本进行分解后的每个音素进行韵律级标注,并按照韵律分类后,得到所述样本文本特征序列。
在本申请实施例中,首先获取到样本文本,并对样本文本进行分词处理后,得到待处理文本,针对于待处理文本,对中文分解后的每个音素进行韵律级标注(如图中橙色框标出部分,是对文本的处理),首先在训练数据上进行优化,同时在建模阶段根据标注得到的韵律音素集合确定分类数,细化训练,能够有效提升合成语音韵律效果。
本申请实施例提供的语音的合成方法,获取待合成文本特征序列以及目标说话人标签;将待合成文本特征序列以及目标说话人标签输入至预先训练好的语音合成模型中,通过语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与文本特征序列对应的目标合成音频。在本申请实施例中,将待合成文本特征序列以及目标说话人标签,输入至预先训练好的语音合成模型中,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,结合目标说话人标签,快速准确地输出目标合成音频,有助于提升语音合成的效果以及效率。
请参阅图3、图4,图3为本申请实施例所提供的一种语音的合成装置的结构示意图之一,图4为本申请实施例所提供的一种语音的合成装置的结构示意图之二。如图3中所示,所述语音的合成装置300包括:
序列标签获取模块310,用于获取待合成文本特征序列以及目标说话人标签;
音频合成模块320,用于将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,所述语音的合成装置300还包括模型训练模块330,所述模型训练模块330用于通过以下步骤训练所述语音合成模型:
获取样本文本特征序列以及多个包含多名不同说话人的样本音频特征集合;
将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型。
在一种可能的实施方式中,所述音频合成模块320在用于将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频时,所述音频合成模块320用于:
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,对所述目标说话人标签进行独热编码,得到目标说话人序列;
将所述目标说话人序列与所述待合成文本特征序列拼接后,得到所述目标合成文本特征;
基于所述音素模型序列表征的文本与音频之间的映射关系,确定与所述目标合成文本特征对应的目标伪造音频特征;
将所述目标伪造音频特征输入至所述语音合成模型中的解码器进行解码,输出与所述文本特征序列对应的目标合成音频。
在一种可能的实施方式中,所述模型训练模块330在用于将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型时,所述模型训练模块330用于:
基于所述样本音频特征序列中的各个音频特征提取均值以及方差值,进行音素建模,以及基于所述样本文本特征序列、所述说话人序列对预先构建好的神经网络模型中的音素模型序列进行迭代修正,直至所述样本音频特征与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型中的音素模型序列,以通过训练好的语音合成模型中的音素模型序列,得到训练好的语音合成模型。
在一种可能的实施方式中,模型训练模块330用于通过以下步骤获取所述样本文本特征序列:
获取样本文本,并对所述样本文本进行分词处理后,得到待处理文本;
对所述待处理文本进行分解后的每个音素进行韵律级标注,并按照韵律分类后,得到所述样本文本特征序列。
本申请实施例提供的语音的合成装置,获取待合成文本特征序列以及目标说话人标签;将待合成文本特征序列以及目标说话人标签输入至预先训练好的语音合成模型中,通过语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与文本特征序列对应的目标合成音频。在本申请实施例中,将待合成文本特征序列以及目标说话人标签,输入至预先训练好的语音合成模型中,根据语音合成模型中音素模型序列表征的文本与音频之间的映射关系,结合目标说话人标签,快速准确地输出目标合成音频,有助于提升语音合成的效果以及效率。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1所示方法实施例中的语音的合成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的语音的合成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音的合成方法,其特征在于,所述合成方法包括:
获取待合成文本特征序列以及目标说话人标签;
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
2.根据权利要求1所述的合成方法,其特征在于,所述将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频,包括:
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,对所述目标说话人标签进行独热编码,得到目标说话人序列;
将所述目标说话人序列与所述待合成文本特征序列拼接后,得到所述目标合成文本特征;
基于所述音素模型序列表征的文本与音频之间的映射关系,确定与所述目标合成文本特征对应的目标伪造音频特征;
将所述目标伪造音频特征输入至所述语音合成模型中的解码器进行解码,输出与所述文本特征序列对应的目标合成音频。
3.根据权利要求1所述的合成方法,其特征在于,通过以下步骤训练所述语音合成模型:
获取样本文本特征序列以及多个包含多名不同说话人的样本音频特征集合;
将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型。
4.根据权利要求3所述的合成方法,其特征在于,所述将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型,包括:
基于所述样本音频特征序列中的各个音频特征提取均值以及方差值,进行音素建模,以及基于所述样本文本特征序列、所述说话人序列对预先构建好的神经网络模型中的音素模型序列进行迭代修正,直至所述样本音频特征与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型中的音素模型序列,以通过训练好的语音合成模型中的音素模型序列,得到训练好的语音合成模型。
5.根据权利要求3所述的合成方法,其特征在于,通过以下步骤获取所述样本文本特征序列:
获取样本文本,并对所述样本文本进行分词处理后,得到待处理文本;
对所述待处理文本进行分解后的每个音素进行韵律级标注,并按照韵律分类后,得到所述样本文本特征序列。
6.一种语音的合成装置,其特征在于,所述合成装置包括:
序列标签获取模块,用于获取待合成文本特征序列以及目标说话人标签;
音频合成模块,用于将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频。
7.根据权利要求6所述的合成装置,其特征在于,所述音频合成模块在用于将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,以使所述语音合成模型基于所述文本特征序列以及所述目标说话人标签,拼接成目标合成文本特征后,根据所述语音合成模型中的音素模型序列表征的文本与音频之间的映射关系,输出与所述文本特征序列对应的目标合成音频时,所述音频合成模块用于:
将所述待合成文本特征序列以及所述目标说话人标签输入至预先训练好的语音合成模型中,对所述目标说话人标签进行独热编码,得到目标说话人序列;
将所述目标说话人序列与所述待合成文本特征序列拼接后,得到所述目标合成文本特征;
基于所述音素模型序列表征的文本与音频之间的映射关系,确定与所述目标合成文本特征对应的目标伪造音频特征;
将所述目标伪造音频特征输入至所述语音合成模型中的解码器进行解码,输出与所述文本特征序列对应的目标合成音频。
8.根据权利要求6所述的合成装置,其特征在于,所述合成装置还包括模型训练模块,所述模型训练模块用于通过以下步骤训练所述语音合成模型:
获取样本文本特征序列以及多个包含多名不同说话人的样本音频特征集合;
将确定出的样本文本特征序列、确定的样本音频特征序列以及说话人序列,输入至预先构建的好的神经网络模型进行迭代修正,直至所述样本音频特征序列与所述神经网络模型输出的伪造音频特征之间的误差值小于预设阈值,得到训练好的语音合成模型。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至5任一项所述的语音的合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的语音的合成方法的步骤。
CN202310024074.8A 2023-01-09 2023-01-09 一种语音的合成方法、装置、电子设备及可读存储介质 Active CN115910033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310024074.8A CN115910033B (zh) 2023-01-09 2023-01-09 一种语音的合成方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310024074.8A CN115910033B (zh) 2023-01-09 2023-01-09 一种语音的合成方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN115910033A true CN115910033A (zh) 2023-04-04
CN115910033B CN115910033B (zh) 2023-05-30

Family

ID=85769240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310024074.8A Active CN115910033B (zh) 2023-01-09 2023-01-09 一种语音的合成方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115910033B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523989A (zh) * 2019-01-29 2019-03-26 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112289299A (zh) * 2020-10-21 2021-01-29 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112309365A (zh) * 2020-10-21 2021-02-02 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112331176A (zh) * 2020-11-03 2021-02-05 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112509550A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音合成模型训练方法、语音合成方法、装置及电子设备
CN114512121A (zh) * 2022-02-16 2022-05-17 北京百度网讯科技有限公司 语音合成方法、模型训练方法及装置
CN115035885A (zh) * 2022-04-15 2022-09-09 科大讯飞股份有限公司 一种语音合成方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523989A (zh) * 2019-01-29 2019-03-26 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112289299A (zh) * 2020-10-21 2021-01-29 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112309365A (zh) * 2020-10-21 2021-02-02 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112331176A (zh) * 2020-11-03 2021-02-05 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112509550A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音合成模型训练方法、语音合成方法、装置及电子设备
CN114512121A (zh) * 2022-02-16 2022-05-17 北京百度网讯科技有限公司 语音合成方法、模型训练方法及装置
CN115035885A (zh) * 2022-04-15 2022-09-09 科大讯飞股份有限公司 一种语音合成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115910033B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
US8126717B1 (en) System and method for predicting prosodic parameters
Cai et al. From speaker verification to multispeaker speech synthesis, deep transfer with feedback constraint
EP4018437B1 (en) Optimizing a keyword spotting system
CN105654940B (zh) 一种语音合成方法和装置
CN106688034A (zh) 具有情感内容的文字至语音转换
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
CN104143327A (zh) 一种声学模型训练方法和装置
CN112786018B (zh) 语音转换及相关模型的训练方法、电子设备和存储装置
CN111462761A (zh) 声纹数据生成方法、装置、计算机装置及存储介质
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Chen et al. The ustc system for blizzard challenge 2011
Meyer et al. Speaker anonymization with phonetic intermediate representations
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
CN112614510B (zh) 一种音频质量评估方法及装置
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN111354354A (zh) 一种基于语义识别的训练方法、训练装置及终端设备
Kuo et al. Improved HMM/SVM methods for automatic phoneme segmentation.
Sahraeian et al. Under-resourced speech recognition based on the speech manifold
CN115910033B (zh) 一种语音的合成方法、装置、电子设备及可读存储介质
Shan et al. Phoneme hallucinator: One-shot voice conversion via set expansion
CN112686041A (zh) 一种拼音标注方法及装置
CN111933121A (zh) 一种声学模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant