CN116013244A - 语音合成方法、装置、存储介质和电子设备 - Google Patents
语音合成方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN116013244A CN116013244A CN202211678571.1A CN202211678571A CN116013244A CN 116013244 A CN116013244 A CN 116013244A CN 202211678571 A CN202211678571 A CN 202211678571A CN 116013244 A CN116013244 A CN 116013244A
- Authority
- CN
- China
- Prior art keywords
- characteristic information
- pronunciation
- pronunciation characteristic
- target
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本公开涉及人工智能领域,具体地,涉及一种语音合成方法、装置、存储介质和电子设备。该方法包括:通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;通过第二类型的发音特征提取模型,分别确定目标发音人对应的第三发音特征信息、以及每个参考发音人对应的第四发音特征信息;根据第一发音特征信息、第二发音特征信息、第三发音特征信息和第四发音特征信息,确定目标发音特征信息;根据目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。如此,能够在确保目标语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
Description
技术领域
本公开涉及人工智能领域,具体地,涉及一种语音合成方法、装置、存储介质和电子设备。
背景技术
现有语音合成系统通常是由目标发音人录制大量语料数据,基于这些语料数据合成该目标发音人的语音。虽然通过该方法合成的语音音色与发音人本身发出的语音较为接近,但是需要录制目标发音人的大量语料数据,工作量大,耗费周期长,而且成本较高。
发明内容
本公开的目的是提供一种语音合成方法、装置、存储介质和电子设备,以在确保语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
为了实现上述目的,本公开第一方面提供一种语音合成方法,该方法包括:
通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
可选地,所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息,包括:
确定每个所述参考发音人对应的权重信息;
根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。
可选地,所述确定每个所述参考发音人对应的权重信息,包括:
针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;
针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度,并根据所述第二相似度,确定所述参考发音人对应的第二权重;
所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息。
可选地,所述根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息,包括:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重,确定第一融合特征信息;
根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定第二融合特征信息;
根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
可选地,所述确定每个所述参考发音人对应的权重信息,包括:
针对每个所述参考发音人,若确定所述参考发音人与所述目标发音人为相同性别,则将第三权重作为所述参考发音人对应的权重信息;若确定所述参考发音人与所述目标发音人为不同性别,则将第四权重作为所述参考发音人对应的权重信息,其中,所述第三权重大于所述第四权重。
可选地,根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述权重信息,确定第一融合特征信息;
根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述权重信息,确定第二融合特征信息;
根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
可选地,所述根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音,包括:
将所述文本信息输入至预先训练的声学模型中,获得所述声学模型输出的与所述文本信息对应的声学特征;
将所述声学特征输入至预先训练的声码器模型中,获得所述声码器模型输出的音频,以得到所述目标语音,其中,所述声学模型和所述声码器模型是基于所述目标发音特征信息训练得到的。
本公开第二方面提供一种语音合成装置,该装置包括:
第一确定模块,用于通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
第二确定模块,用于通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
第三确定模块,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
合成模块,用于根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
可选地,所述第三确定模块包括:
第一确定子模块,用于确定每个所述参考发音人对应的权重信息;
第二确定子模块,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。
可选地,第一确定子模块包括:
第三确定子模块,用于针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;
第四确定子模块,用于针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度,并根据所述第二相似度,确定所述参考发音人对应的第二权重;
第二确定子模块用于通过以下方式确定所述目标发音特征信息:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息。
可选地,所述第二确定子模块包括:
第五确定子模块,用于根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重,确定第一融合特征信息;
第六确定子模块,用于根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定第二融合特征信息;
第七确定子模块,用于根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
可选地,第一确定子模块包括:
第八确定子模块,用于针对每个所述参考发音人,若确定所述参考发音人与所述目标发音人为相同性别,则将第三权重作为所述参考发音人对应的权重信息;若确定所述参考发音人与所述目标发音人为不同性别,则将第四权重作为所述参考发音人对应的权重信息,其中,所述第三权重大于所述第四权重。
可选地,所述第二确定子模块包括:
第九确定子模块,用于根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述权重信息,确定第一融合特征信息;
第十确定子模块,用于根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述权重信息,确定第二融合特征信息;
第十一确定子模块,用于根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
可选地,所述合成模块包括:
第一获取子模块,用于将所述文本信息输入至预先训练的声学模型中,获得所述声学模型输出的与所述文本信息对应的声学特征;
第二获取子模块,用于将所述声学特征输入至预先训练的声码器模型中,获得所述声码器模型输出的音频,以得到所述目标语音,其中,所述声学模型和所述声码器模型是基于所述目标发音特征信息训练得到的。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
控制器,所述计算机程序被控制器执行时,实现本公开第一方面提供的所述方法的步骤
在上述技术方案中,通过不同的第一类型的发音特征提取模型和第二类型的发音特征提取模型,可提取到同一发音人的不同发音特征信息,如此,确定出的每一发音人的发音特征信息更加全面、准确,以提高语音合成的效果。根据目标发音人和预设数量的参考发音人的发音特征信息,确定目标发音特征信息,并结合待合成的文本信息进行语音合成,以得到目标语音。如此,能够在确保目标语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例提供的语音合成方法的流程图。
图2是本公开一示例性实施例提供的声学模型loss曲线的示意图。
图3是本公开一示例性实施例提供的语音合成装置的框图。
图4是本公开一示例性实施例提供的电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
图1是本公开一示例性实施例提供的语音合成方法的流程图。如图1所示,该方法可以包括S101至S104。
S101,通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息。
S102,通过第二类型的发音特征提取模型,分别确定目标发音人对应的第三发音特征信息、以及每个参考发音人对应的第四发音特征信息。
其中,第二类型与第一类型不同。
示例地,目标发音人为待合成语音对应的发音人。例如,要合成发音人A的语音,则可将发音人A确定为目标发音人。目标发音人的音频(即语料数据)可以现场录制,也可以从云端获取。参考发音人可以为开源数据集中预存的发音人,开源数据集可以为aishell3开源数据集,也可以为标贝开源数据集。其中,预设数量可以为500。例如,可以从aishell3开源数据集随机获取500位参考发音人的音频(即语料数据)。
第一类型的发音特征提取模型可以为声纹模型ECAPA,第二类型的发音特征提取模型可以为分类模型RTVC,不同类型的模型结构不同,基于同一个音频确定出的发音特征信息也有所不同,因此,将同一发音人的音频同时输入两种不同类型的发音特征提取模型,可以得到同一发音人的不同发音特征信息,如此,可以更加准确、全面地确定出该发音人的发音特征信息。其中,发音特征信息可以是表征音调、响度、频率、音色等信息的编码。
S103,根据第一发音特征信息、第二发音特征信息、第三发音特征信息和第四发音特征信息,确定目标发音特征信息。
S104,根据目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
示例地,可将目标发音人对应的第一发音特征信息和第三发音特征信息、以及每个参考发音人对应的第二发音特征信息和第四发音人特征信息,叠加、融合确定出目标发音特征信息,以结合待合成的文本信息进行语音合成。目标发音人的语料数据量往往较少,通过上述方式得到的语音,一方面可以通过第一发音特征信息和第三发音特征信息保留目标发音人的声音特点,如音调、响度、频率、音色等,另一方面还可以结合参考发音人的声音特点,对发音特征信息进行补充,避免因目标发音人的语料数据量过少而导致的目标语音的合成效果不佳的问题,即可以在确保目标语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
在上述技术方案中,通过不同的第一类型的发音特征提取模型和第二类型的发音特征提取模型,可提取到同一发音人的不同发音特征信息,如此,确定出的每一发音人的发音特征信息更加全面、准确,以提高语音合成的效果。根据目标发音人和预设数量的参考发音人的发音特征信息,确定目标发音特征信息,并结合待合成的文本信息进行语音合成,以得到目标语音。如此,能够在确保目标语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
可选地,在S103中,根据第一发音特征信息、第二发音特征信息、第三发音特征信息和第四发音特征信息,确定目标发音特征信息,可包括:
确定每个参考发音人对应的权重信息;
根据第一发音特征信息、第二发音特征信息、第三发音特征信息、第四发音特征信息和权重信息,确定目标发音特征信息。
在一可选的实施例中,确定每个参考发音人对应的权重信息,可包括:
针对每个参考发音人,确定目标发音人对应的第一发音特征信息与参考发音人对应的第二发音特征信息之间的第一相似度,并根据第一相似度,确定参考发音人对应的第一权重;
针对每个参考发音人,确定目标发音人对应的第三发音特征信息与参考发音人对应的第四发音特征信息之间的第二相似度,并根据第二相似度,确定参考发音人对应的第二权重。
示例地,目标发音人对应的第一发音特征信息与参考发音人对应的第二发音特征信息是通过同一发音特征提取模型得到的,两者的相似度越高,表明该参考发音人和目标发音人的声音越相似。目标发音人对应的第三发音特征信息与参考发音人对应的第四发音特征信息是通过同一发音特征提取模型得到的,两者的相似度越高,表明该参考发音人和目标发音人的声音越相似。
可通过欧式距离公式,确定不同发音特征信息之间的相似度。欧氏距离的数值和权重之间的关系可以被预先设置,例如,可以如表1所示。通过表1,可以确定参考发音人对应的第一权重和第二权重。相似度越高,确定的欧式距离越小,参考发音人对应的权重越高。如此,相对于直接将目标发音人对应的第一发音特征信息和第三发音特征信息、以及每个参考发音人对应的第二发音特征信息和第四发音人特征信息叠加、融合在一起得到目标发音特征信,通过权重的设置得到的目标发音特征信,可以提高目标语音合成效果,使得确定出的语音贴近目标发音人。
表1
欧氏距离(d) | d=0 | d<1 | 1≤d<3 | 3≤d |
权重(w) | 100 | 5 | 3 | 1 |
相应地,根据第一发音特征信息、第二发音特征信息、第三发音特征信息、第四发音特征信息和权重信息,确定目标发音特征信息,可包括:
根据第一发音特征信息、每个参考发音人对应的第二发音特征信息及第一权重、第三发音特征信息、每个参考发音人对应的第四发音特征信息及第二权重,确定目标发音特征信息。
例如,可根据第一发音特征信息、每个参考发音人对应的第二发音特征信息及第一权重,确定第一融合特征信息;
根据第三发音特征信息、每个参考发音人对应的第四发音特征信息及第二权重,确定第二融合特征信息;
根据第一融合特征信息、第一类型的发音特征提取模型对应的模型权重、第二融合特征信息、以及第二类型的发音特征提取模型对应的模型权重,确定目标发音特征信息。
其中,可以通过加权求和的方式,根据第一发音特征信息、每个参考发音人对应的第二发音特征信息及第一权重,确定第一类型的发音特征提取模型对应的第一融合特征信息。同样地,可以通过加权求和的方式,根据第三发音特征信息、每个参考发音人对应的第四发音特征信息及第二权重,确定第二类型的发音特征提取模型对应的第二融合特征信息。第一类型的发音特征提取模型对应的模型权重、以及第二类型的发音特征提取模型对应的模型权重可以被预先设置,例如,可以均被设置为0.5。可通过加权求和的方式,根据第一融合特征信息、第一类型的发音特征提取模型对应的模型权重、第二融合特征信息、以及第二类型的发音特征提取模型对应的模型权重,确定目标发音特征信息。如此,可确保目标语音合成效果,使得确定出的语音贴近目标发音人。
在另一可选的实施例中,确定每个参考发音人对应的权重信息,可包括:
针对每个参考发音人,若确定参考发音人与目标发音人为相同性别,则将第三权重作为参考发音人对应的权重信息;若确定参考发音人与目标发音人为不同性别,则将第四权重作为参考发音人对应的权重信息。
其中,第三权重大于第四权重。
示例地,可根据发音人对应的发音特征信息确定发音人的性别,例如,可以根据音色确定性别。又示例地,可以在确定目标发音人和参考发音人的同时,获取对应的性别信息。例如,第三权重可以被设置为0.8,第四权重可以被设置为0.2。男性和女性的声音具有较为明显的区别,若目标发音人和参考发音人的性别相同,则可确定该参考发音人的发音特征信息和目标发音人的发音特征信息区别较小,可将较大的第三权重作为参考发音人对应的权重信息,以确保目标语音的合成效果,使得确定出的语音贴近目标发音人。若目标发音人和参考发音人的性别不同,则可确定该参考发音人的发音特征信息和目标发音人的发音特征信息区别较大,若该参考发音人对应的权重信息较大,则可能导致目标语音合成效果较差,可将较小的第四权重作为参考发音人对应的权重信息。如此,可确保目标语音合成效果,使得确定出的语音贴近目标发音人。
对应地,根据第一发音特征信息、第二发音特征信息、第三发音特征信息、第四发音特征信息和权重信息,确定目标发音特征信息,可包括:
根据第一发音特征信息、每个参考发音人对应的第二发音特征信息及权重信息,确定第一融合特征信息;
根据第三发音特征信息、每个参考发音人对应的第四发音特征信息及权重信息,确定第二融合特征信息;
根据第一融合特征信息、第一类型的发音特征提取模型对应的模型权重、第二融合特征信息、以及第二类型的发音特征提取模型对应的模型权重,确定目标发音特征信息。
可通过加权求和的方式,分别确定第一融合特征信息、第二融合特征信息以及目标发音特征信息。如此,可确保目标语音合成效果,使得确定出的语音贴近目标发音人。
可选地,在根据第一发音特征信息、第二发音特征信息、第三发音特征信息、第四发音特征信息和权重信息,确定目标发音特征信息过程中,可先对第一发音特征信息、第二发音特征信息、第三发音特征信息、第四发音特征信息进行降维处理,之后再确定权重信息。
通常情况下,为了确保对声音的描述的准确性,通过第一类型的发音特征提取模型和第二类型的发音特征提取模型得到的发音特征信息往往是高维特征,可通过降维,减少计算量,提高语音合成效率。例如,可以通过主成分分析、UMAP等方式实现降维。
可选地,在S104中,根据目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音,可包括:
将文本信息输入至预先训练的声学模型中,获得声学模型输出的与文本信息对应的声学特征;
将声学特征输入至预先训练的声码器模型中,获得声码器模型输出的音频,以得到目标语音,其中,声学模型和声码器模型是基于目标发音特征信息训练得到的。
示例地,声学模型可将待合成的文本信息转换为对应的声学特征,声码器模型可将声学特征转换为音频,如此,可以得到目标语音。声学模型可以是采用机器学习的方式训练得到的、能够根据待合成的文本信息确定对应声学特征的机器学习模型。声码器模型可以是采用机器学习的方式训练得到的、能够根据声学特征输出音频的机器学习模型。其中,声学模型可以为Tacotron模型、FastSpeech2模型等,声码器模型可以为WaveRNN模型,HiFiGAN模型等。
例如,可预先使用开源数据集中的语料训练得到基本声学模型和基本声码器模型;在基本模型的基础上使用目标发音特征信息进行迁移学习,以得到能够更好的与目标发音人相适应的声学模型和声码器模型。
如图2所示,第一曲线1为仅基于目标发音人的发音特征信息训练得到的声音模型的loss曲线、第二曲线2为基于目标发音特征信息训练得到的声音模型的loss曲线,由图2可知,第二曲线2对应的声音模型损失更小,鲁棒性更好。因此,基于目标发音特征信息训练得到的声音模型,可以确定出更为准确的声学特征,以更好的拟合出目标发音人的语音。
其中,若声学模型为FastSpeech2模型,可使用conformer替换其模型结构中常见的trasformer,以得到更为清晰、准确的声学特征。
基于同一发明构思,本公开还提供一种语音合成装置。图3是本公开一示例性实施例提供的语音合成装置300的框图。参照图3,该语音合成装置300可以包括:
第一确定模块301,用于通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
第二确定模块302,用于通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
第三确定模块303,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
合成模块304,用于根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
在上述技术方案中,通过不同的第一类型的发音特征提取模型和第二类型的发音特征提取模型,可提取到同一发音人的不同发音特征信息,如此,确定出的每一发音人的发音特征信息更加全面、准确,以提高语音合成的效果。根据目标发音人和预设数量的参考发音人的发音特征信息,确定目标发音特征信息,并结合待合成的文本信息进行语音合成,以得到目标语音。如此,能够在确保目标语音合成效果的情况下,减少对目标发音人的语料数据的需求量。
可选地,所述第三确定模块303包括:
第一确定子模块,用于确定每个所述参考发音人对应的权重信息;
第二确定子模块,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。
可选地,第一确定子模块包括:
第三确定子模块,用于针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;
第四确定子模块,用于针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度,并根据所述第二相似度,确定所述参考发音人对应的第二权重;
第二确定子模块用于通过以下方式确定所述目标发音特征信息:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息。
可选地,所述第二确定子模块包括:
第五确定子模块,用于根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重,确定第一融合特征信息;
第六确定子模块,用于根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定第二融合特征信息;
第七确定子模块,用于根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
可选地,第一确定子模块包括:
第八确定子模块,用于针对每个所述参考发音人,若确定所述参考发音人与所述目标发音人为相同性别,则将第三权重作为所述参考发音人对应的权重信息;若确定所述参考发音人与所述目标发音人为不同性别,则将第四权重作为所述参考发音人对应的权重信息,其中,所述第三权重大于所述第四权重。
可选地,所述第二确定子模块包括:
第九确定子模块,用于根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述权重信息,确定第一融合特征信息;
第十确定子模块,用于根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述权重信息,确定第二融合特征信息;
第十一确定子模块,用于根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
可选地,所述合成模块304包括:
第一获取子模块,用于将所述文本信息输入至预先训练的声学模型中,获得所述声学模型输出的与所述文本信息对应的声学特征;
第二获取子模块,用于将所述声学特征输入至预先训练的声码器模型中,获得所述声码器模型输出的音频,以得到所述目标语音,其中,所述声学模型和所述声码器模型是基于所述目标发音特征信息训练得到的。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备700的框图。如图4所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的语音合成方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的语音合成方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的语音合成方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的语音合成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语音合成方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息,包括:
确定每个所述参考发音人对应的权重信息;
根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息。
3.根据权利要求2所述的方法,其特征在于,所述确定每个所述参考发音人对应的权重信息,包括:
针对每个所述参考发音人,确定所述目标发音人对应的所述第一发音特征信息与所述参考发音人对应的所述第二发音特征信息之间的第一相似度,并根据所述第一相似度,确定所述参考发音人对应的第一权重;
针对每个所述参考发音人,确定所述目标发音人对应的第三发音特征信息与所述参考发音人对应的所述第四发音特征信息之间的第二相似度,并根据所述第二相似度,确定所述参考发音人对应的第二权重;
所述根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重、所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定所述目标发音特征信息,包括:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述第一权重,确定第一融合特征信息;
根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述第二权重,确定第二融合特征信息;
根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
5.根据权利要求2所述的方法,其特征在于,所述确定每个所述参考发音人对应的权重信息,包括:
针对每个所述参考发音人,若确定所述参考发音人与所述目标发音人为相同性别,则将第三权重作为所述参考发音人对应的权重信息;若确定所述参考发音人与所述目标发音人为不同性别,则将第四权重作为所述参考发音人对应的权重信息,其中,所述第三权重大于所述第四权重。
6.根据权利要求5所述的方法,其特征在于,根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息、所述第四发音特征信息和所述权重信息,确定所述目标发音特征信息,包括:
根据所述第一发音特征信息、每个所述参考发音人对应的所述第二发音特征信息及所述权重信息,确定第一融合特征信息;
根据所述第三发音特征信息、每个所述参考发音人对应的所述第四发音特征信息及所述权重信息,确定第二融合特征信息;
根据所述第一融合特征信息、所述第一类型的发音特征提取模型对应的模型权重、所述第二融合特征信息、以及所述第二类型的发音特征提取模型对应的模型权重,确定所述目标发音特征信息。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音,包括:
将所述文本信息输入至预先训练的声学模型中,获得所述声学模型输出的与所述文本信息对应的声学特征;
将所述声学特征输入至预先训练的声码器模型中,获得所述声码器模型输出的音频,以得到所述目标语音,其中,所述声学模型和所述声码器模型是基于所述目标发音特征信息训练得到的。
8.一种语音合成装置,其特征在于,包括:
第一确定模块,用于通过第一类型的发音特征提取模型,分别确定目标发音人对应的第一发音特征信息、以及预设数量的参考发音人中每个参考发音人对应的第二发音特征信息;
第二确定模块,用于通过第二类型的发音特征提取模型,分别确定所述目标发音人对应的第三发音特征信息、以及每个所述参考发音人对应的第四发音特征信息,其中,所述第二类型与所述第一类型不同;
第三确定模块,用于根据所述第一发音特征信息、所述第二发音特征信息、所述第三发音特征信息和所述第四发音特征信息,确定目标发音特征信息;
合成模块,用于根据所述目标发音特征信息和待合成的文本信息进行语音合成,以得到目标语音。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211678571.1A CN116013244A (zh) | 2022-12-26 | 2022-12-26 | 语音合成方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211678571.1A CN116013244A (zh) | 2022-12-26 | 2022-12-26 | 语音合成方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116013244A true CN116013244A (zh) | 2023-04-25 |
Family
ID=86026083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211678571.1A Pending CN116013244A (zh) | 2022-12-26 | 2022-12-26 | 语音合成方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116013244A (zh) |
-
2022
- 2022-12-26 CN CN202211678571.1A patent/CN116013244A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
US9047868B1 (en) | Language model data collection | |
JP2024038474A (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
CN112164407B (zh) | 音色转换方法及装置 | |
CN111968678B (zh) | 一种音频数据处理方法、装置、设备及可读存储介质 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN113724683A (zh) | 音频生成方法、计算机设备及计算机可读存储介质 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
CN117111879A (zh) | 一种表盘生成方法、装置、智能穿戴设备及存储介质 | |
WO2019144260A1 (en) | Reminder method and apparatus and electronic device | |
US8781835B2 (en) | Methods and apparatuses for facilitating speech synthesis | |
CN107948854B (zh) | 一种操作音频生成方法、装置、终端及计算机可读介质 | |
CN117727290A (zh) | 一种语音合成方法、装置、设备及可读存储介质 | |
CN113327576A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN114694645A (zh) | 一种确定用户意图的方法及装置 | |
CN110570877B (zh) | 手语视频生成方法、电子设备及计算机可读存储介质 | |
CN115563377B (zh) | 企业的确定方法、装置、存储介质及电子设备 | |
CN116013244A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 | |
CN113205797B (zh) | 虚拟主播生成方法、装置、计算机设备及可读存储介质 | |
CN114842859A (zh) | 一种基于in和mi的语音转换方法、系统、终端及存储介质 | |
US9626968B2 (en) | System and method for context sensitive inference in a speech processing system | |
CN114067807A (zh) | 音频数据处理方法、装置及电子设备 | |
CN113886639A (zh) | 数字人视频生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |