CN116863909B - 基于因子图的语音合成方法、装置及系统 - Google Patents

基于因子图的语音合成方法、装置及系统 Download PDF

Info

Publication number
CN116863909B
CN116863909B CN202311131998.4A CN202311131998A CN116863909B CN 116863909 B CN116863909 B CN 116863909B CN 202311131998 A CN202311131998 A CN 202311131998A CN 116863909 B CN116863909 B CN 116863909B
Authority
CN
China
Prior art keywords
features
feature
sound
resolution acoustic
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311131998.4A
Other languages
English (en)
Other versions
CN116863909A (zh
Inventor
张青辉
王英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4u Beijing Technology Co ltd
Original Assignee
4u Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4u Beijing Technology Co ltd filed Critical 4u Beijing Technology Co ltd
Priority to CN202311131998.4A priority Critical patent/CN116863909B/zh
Publication of CN116863909A publication Critical patent/CN116863909A/zh
Application granted granted Critical
Publication of CN116863909B publication Critical patent/CN116863909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本申请提供了一种基于因子图的语音合成方法、装置及系统,其中,该方法包括:获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。本申请解决了相关技术中合成语音与待模仿对象的声音的相似度不够高的技术问题。

Description

基于因子图的语音合成方法、装置及系统
技术领域
本申请涉及语音合成技术领域,具体而言,涉及一种基于因子图的语音合成方法、装置及系统。
背景技术
随着人工智能技术的进步,语音合成(Text To Speech,TTS)技术引起了广泛的关注。当前的研究重点聚焦于解决训练数据稀缺(few-shot,少样本)甚至完全缺乏训练数据(zero-shot,零样本)情况下的语音模仿问题。
然而,目前的零样本语音模仿方法受限于仅从参考音频中提取固定长度的向量,因此只能获取言辞层面的说话者特征。尽管这种方法可以在一定程度上准确反映参考音频中说话者的整体音色特性,但却无法捕捉其独特的发音模式、口音特点以及言谈节奏等微妙细节。因此,由此合成的语音与实际说话者的音色细节相似性相对较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于因子图的语音合成方法、装置及系统,以至少解决相关技术中合成语音与待模仿对象的声音的相似度不够高的技术问题。
根据本申请实施例的一个方面,提供了一种基于因子图的语音合成方法,包括:获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。
根据本申请实施例的另一个方面,提供了一种基于因子图的语音合成装置,包括:音素获取模块,被配置为获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;音频获取模块,被配置为获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;融合模块,被配置为利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。
根据本申请实施例的又一个方面,还提供了一种基于因子图的语音合成系统,包括:如上所述的语音合成装置,被配置为生成所述目标语音;虚拟形象渲染设备,被配置为渲染虚拟形象,其中,所述虚拟形象用于播放所述目标语音。
在本申请实施例中,获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。通过上述方案,解决了相关技术中合成语音与待模仿对象的声音的相似度不够高的技术问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种语音合成方法的流程图;
图2是根据本申请实施例的另一种语音合成方法的流程图;
图3是根据本申请实施例的一种训练语音合成模型的方法的流程图;
图4是根据本申请实施例的一种因子图的示意图;
图5是根据本申请实施例的另一种训练语音合成模型的方法的流程图;
图6是根据本申请实施例的又一种语音合成方法的流程图;
图7是根据本申请实施例的一种语音合成装置的结构示意图;
图8是根据本申请实施例的一种语音合成系统的结构示意图;
图9示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到 :相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例1
本申请实施例提供了一种语音合成方法,如图1所示,该方法包括以下步骤:
步骤S102,获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征。
步骤S104,获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征。
从所述待模仿音频中提取高分辨率声学特征包括:将所述待模仿音频分成多个音频帧;对于每个所述音频帧,将该音频帧转换为音频频谱,并从所述音频频谱中提取所述高分辨率声学特征。
步骤S106,利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。
首先,确定所述声音特征和所述高分辨率声学特征之间的因子函数,其中,所述因子函数描述了所述声音特征和所述高分辨率声学特征之间的关联关系。
例如,根据频谱分布的一致性来确定所述声谱熵特征和所述高分辨率声学特征之间的所述因子函数,这样,使得合成语音在频谱特性上更加一致,从而提高了合成语音的音质和自然度。根据能量分布的一致性来确定所述能量特征和所述高分辨率声学特征之间的所述因子函数,这样,有助于控制合成语音的响度和音量,使其更接近待模仿对象声音的音量特性。根据频率成分的相关性来确定所述基频特征和所述高分辨率声学特征之间的所述因子函数,这样,有助于合成语音的音调更准确地反映待模仿对象声音的音高特征。根据共振特性的一致性来确定所述声道特征与所述高分辨率声学特征之间的所述因子函数,这样,有助于合成语音在共振特性上更加准确地模仿待模仿对象声音的声学特征。
接着,基于所述因子函数对所述声音特征和所述高分辨率声学特征进行融合,得到所述融合后的特征。例如,将所述声谱熵特征、所述能量特征、所述基频特征、所述声道特征、和所述高分辨率声学特征分别作为所述因子图的因子节点;通过所述因子函数增强、抑制或者调整所述因子节点之间的关联关系来更新所述因子节点的节点值,直至所述节点值逐渐趋近于最优解;基于所述最优解,对所述声音特征和所述高分辨率声学特征进行融合。
本实施例通过将声谱熵、能量、基频、声道特征以及高分辨率声学特征作为因子图的因子节点,充分考虑了多个维度的声学特性。这使得合成语音能够更全面地捕捉待模仿对象声音的细节和特点,提高合成语音的准确性。此外,利用因子函数,能够根据声音特征和高分辨率声学特征之间的关联关系来实现融合。通过增强、抑制或者调整因子节点之间的关联,声音特征和高分辨率声学特征可以更有效地结合在一起,以产生更合适的特征表示。此外,因子函数可以根据相似性和关联度,不断调整节点值,直至趋近于最优解。这种动态的节点值更新方式确保了合成特征的逐步优化,从而生成更逼真的语音。
最后,将所述融合后的特征反复迭代,来优化所述融合后的特征。例如,在所述因子图中,将所述声谱熵特征、所述能量特征、所述基频特征、所述声道特征和所述高分辨率声学特征作为联合概率分布;通过不断地更新和优化所述联合概率分布,来反复迭代优化所述融合后的特征。之后,将优化的所述融合后的特征再次输入到所述因子图中,与所述声音特征和所述高分辨率声学特征进行对比优化。
本实施例在因子图中将声谱熵、能量、基频、声道特征和高分辨率声学特征作为联合概率分布的组成部分,这种综合建模方式充分考虑了多个声学特性的相互影响,为迭代优化提供了更全面的基础。通过不断更新和优化联合概率分布,对融合后的特征进行反复改进,这样,在每次迭代中,优化的过程会使融合后的特征逐渐趋近于更合适的状态,从而实现了特征的不断提升。此外,在迭代过程中,优化后的融合特征被再次输入到因子图中与原始声音特征和高分辨率声学特征进行对比优化。这种动态的调整方式能够确保优化的特征在整体特征空间中仍然与原始特征相协调,从而避免特征融合后的偏离或失真。最后,通过多次迭代的过程,融合后的特征逐渐趋近于最优解。迭代优化允许特征在多个维度上进行微调,以使得合成结果更贴近待模仿对象声音的真实特征,从而产生更高质量的合成语音。反复迭代的优化过程有助于使融合后的特征更准确地模仿待模仿对象声音的声学特性。这将使得合成语音更自然、更逼真,从而提升合成语音的质量。
实施例2
本申请实施例提供了另一种语音合成方法,如图2所示,该方法包括以下步骤:
步骤S202,获取与待模仿对象的声音对应的待模仿音频。
待模仿音频是源自真实模仿对象的约10分钟时长的语音数据,它直接捕捉了模仿对象的声音特征、语调、情感等信息。通过获取这些待模仿音频,合成系统可以在生成合成语音时参考这些真实的声音特征,从而使合成语音更加自然、逼真,并且更接近模仿对象的声音。
步骤S204,利用待模仿音频训练语音合成模型。
将在下文详细描述如何利用待模仿音频训练语音合成模型,此处不再赘述。
步骤S206,获取待处理的文本。
首先,待处理的文本经过预处理,去除特殊字符、标点符号和其他无关信息,确保文本与语音之间的对应关系清晰。
步骤S208,利用语音合成模型输出与待处理的文本对应的语音。
将待处理的文本输入到训练好的语音合成模型,生成对应的声音特征序列。将声音特征序列转换为声音波形。使用声码器或声音合成引擎,将生成的声音特征序列转换为最终的声音波形。
下面将详细描述如何利用待模仿音频训练语音合成模型,如图3所示,训练语音合成模型的方法包括以下步骤:
步骤S2042,数据预处理。
在数据准备阶段,首先需要将待模仿音频进行拆分,将约10分钟的待模仿音频分成小的时间段,每个时间段即为一个音频帧。这种拆分有助于模型捕捉语音的瞬时特征和变化。
随后,对于每个音频帧,需要将其转录为相应的高分辨率声学特征,例如梅尔频率倒谱系数(MFCC)或倒谱包络系数(MFCC)。这些高分辨率声学特征能够捕捉音频中的频谱信息,有助于模型理解音频的声学特性。
在转录高分辨率声学特征的过程中,可以选择合适的特征提取方法,确保特征能够尽可能准确地表达音频的频谱分布。此外,应该确保特征的维度适中,不过于冗余,以便在模型训练过程中保持高效性能。
通过将每个音频帧与其对应的高分辨率声学特征进行关联,建立起输入音频帧与输出高分辨率声学特征之间的映射关系。这为模型提供了训练数据,使其能够学习如何从文本输入到声音特征输出的转换过程。
本实施例在数据准备阶段,将长音频拆分成音频帧,并将这些帧与相应的高分辨率声学特征进行关联,为语音合成模型提供训练所需的输入输出对应关系。这将确保训练出的模型能够在接收到输入文本后,生成与待模仿音频中声音类似的语音。
步骤S2044,数据标注。
首先,需要对待模仿音频进行文本转录,将音频中所包含的话语内容转换为对应的文本。对于每个音频帧,将其与其对应的文本进行关联。每个音频帧都有一个与之对应的文本标注,用于表示该帧的声音内容。在进行数据标注时,确保标注的文本与音频帧内容相符。这有助于模型理解输入文本与音频特征之间的关系,从而在合成过程中能够生成与输入文本相符的语音。
通过将输入文本与相应的声音特征进行关联标注,建立起输入文本与输出高分辨率声学特征之间的映射关系。这为模型提供了训练数据,使其能够学习如何从输入文本到高分辨率声学特征输出的转换过程。
步骤S2046,模型架构搭建。
在一些实施例中,可以将Transformer模型与因子图相结合。
首先,使用Transformer模型的编码器部分对文本数据进行编码。每个音素可以被视为一个单词,通过嵌入层和多头自注意力层,将音素序列转换为上下文感知的向量表示。接着,创建一个因子图,如图4所示,将声谱熵、能量、基频、声道特征和高分辨率声学特征作为因子图的节点。之后,为节点之间的连接定义因子函数。根据音素序列和高分辨率声学特征之间的相似性,以及声音特征和高分辨率声学特征之间的一致性,定义合适的因子函数。使用这些因子函数来调整节点之间的关联关系,实现声音特征和高分辨率声学特征的融合。在因子图中,通过不断调整节点的值,实现特征的优化。根据因子函数和关联关系,对声音特征、高分辨率声学特征和Transformer编码特征进行迭代优化,使它们更加协调和逼真。最后,在优化后的特征基础上,使用声音合成技术生成目标语音。融合后的特征、优化后的声音特征和高分辨率声学特征以及Transformer编码后的文本特征共同用于生成逼真的合成语音。
具体过程可以参考实施例1中的方法。本实例结合了Transformer的编码能力和因子图的关联建模能力,使得语音合成可以更精细地考虑声音特征与文本之间的关系,同时保留高分辨率声学特征的细节。
在另外一些实施例中,还可以仅采用Transformer模型。Transformer模型由编码器和解码器组成。编码器用于处理输入的音素序列,而解码器则负责生成对应的音频帧序列。具体地,编码器负责将输入的文本对应的音素序列进行嵌入表示,捕捉输入文本的语义信息,而解码器则根据编码器的输出和自身的上下文生成对应的音频帧序列。这样的架构能够确保模型在理解输入文本的基础上生成适合的声音。
在编码器阶段,从待模仿音频对应的文本的音素序列中提取频谱特征,利用散度来评估频谱特征与高分辨率声学特征之间的差异,得到频谱特征与高分辨率声学特征的权重;然后,基于所述权重,利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征,得到融合后的特征。具体地说,将待模仿音频对应的文本的音素序列映射成频谱特征,其中包括声谱熵特征和能量特征。为了确定这些特征的权重,引入了散度,用于评估频谱特征与高分辨率声学特征之间的差异。然后,利用谱熵加权,将频谱特征与高分辨率声学特征进行融合,确保融合后的特征保持合理的比例。
本实施例通过使用散度来评估频谱特征与高分辨率声学特征之间的差异,能够根据实际数据情况,动态调整特征的权重。这样可以在不同情境下确保融合后的特征更好地捕捉源声音和目标声音之间的关系,从而提高合成语音的自然度和逼真度。此外,在特征融合中引入声谱熵特征和能量特征,使得合成的语音能够在声音特征的多个维度上进行调整。这种多样性有助于合成语音在不同场景和情感中都能够更准确地表达模仿对象的声音特征。最后,通过谱熵加权,融合后的特征能够保持原始特征的信息,同时也能够充分利用高分辨率声学特征的细节,以在合成过程中获得更高的质量和准确性。
在解码器阶段,利用融合后的特征来调整音素序列中的音素的音色和动态范围。例如,基于融合后的特征,利用正弦和余弦函数的线性组合来确定用于编码所述音素序列中的音素的位置信息的位置编码参数;基于所述位置编码参数,确定位置感知权重矩阵,并利用注意力机制,调整所述位置感知权重矩阵中的位置编码参数的权重;通过调整后的所述位置感知权重矩阵来调整音素序列中的音素的音色和动态范围。具体地说,本实施例采用了高度精细的位置感知权重矩阵。这个矩阵的每个元素涉及到位置编码参数。这些位置编码参数是经过调整的正弦和余弦函数的线性组合,用于编码位置信息。此外,解码器中还引入了多层自注意力机制,每层都有精心调整的权重参数,用于控制每个位置与其他位置之间的关联强度。这些权重参数确保了整体的自注意力机制在每个层中都能够有效地捕获序列间的上下文信息。另一方面,引入了双曲正切函数的多项式变种作为非线性激活函数。这个多项式变种的每个系数都经过选择,以满足输入输出的范围要求。在解码器的每个层中,这个激活函数都被应用,用于调整生成的音频帧的音色和动态范围。
本实施例引入正弦和余弦函数的线性组合来确定位置编码参数,使得这些参数能够随着位置的变化而自适应调整。这种自适应性有助于在不同位置上对音色和动态范围进行个性化调整,从而更好地捕捉源声音的细微差异。此外,通过基于位置编码参数确定位置感知权重矩阵,并利用注意力机制调整权重矩阵中的位置编码参数的权重,能够实现对不同位置之间的关联强度进行精确控制。这使得在合成过程中能够更有针对性地调整音色和动态范围,以实现更加准确的声音模仿。最后,结合融合后的特征和位置感知权重矩阵的调整,能够在多个方面对音色和动态范围进行调整。这种综合的调整有助于使合成语音在不同位置和情境下都能够保持一致的声音特征,使得合成结果更加连贯和真实。
在一些实施例中,还可以在编码器中采用基频分析技术,从音素序列中提取基频特征。然后,使用特征拼接方法将这些基频特征与高分辨率声学特征结合,例如,对基频特征和高分辨率声学特征进行多项式变换,得到融合后的特征。在解码器端,利用所述融合后的特征来调整音素序列中的共振峰频率和带宽。这样,确保声道特征在不同层次的融合中被充分整合,以达到所需的调整效果。
具体地,对所述声音特征中的基频特征和所述高分辨率声学特征进行归一化处理;采用频谱梳状变换来调整归一化处理后的所述基频特征和所述高分辨率声学特征的频率轴,以增加归一化处理后的所述基频特征和所述高分辨率声学特征的不同频率成分之间的相互作用;将多项式变换扩展到多个通道,每个通道对应不同阶数的多项式,利用所述不同阶数的多项式将调整后的所述基频特征和所述高分辨率声学特征进行深度组合;捕捉组合后的所述基频特征和所述高分辨率声学特征之间的非线性关系,基于所述非线性关系进行降维处理,得到融合后的特征。
在另外一些实施例中,还可以从音素序列中抽取声道特征,随后引入深度递归融合法,以参数形式将这些声道特征与高分辨率声学特征相互融合。通过对多个上述参数进行交叉操作,得到了融合后的特征,融合后的特征具备了在不同频率范围内的丰富信息。在这之后,引入了参数化调整机制,对融合后特征中的各个频率分量进行参数调整,以实现对音素序列中的共振峰频率和带宽的微调。或者,还可以将所述声音特征中的声道特征和所述高分辨率声学特征映射到共享的嵌入空间;在所述共享的嵌入空间中预测所述声道特征和所述高分辨率声学特征的自监督任务,以增强所述声道特征和所述高分辨率声学特征之间的对应关系;基于增强后的所述对应关系,来融合所述高分辨率声学特征和所述声音特征,得到融合后的特征。
在本申请实施例中,在编码器和解码器中,嵌入层将音素序列和音频帧序列转换为连续向量表示。这些嵌入具有较低维度的表示,以便于模型处理。这些向量嵌入将在整个模型中传递,供后续的自注意力机制使用。
Transformer模型通过多层的自注意力机制来建立文本和音频帧之间的联系。编码器的自注意力机制使模型能够在不同层次捕捉音素序列中的上下文信息,解码器的自注意力机制则确保在生成每个音频帧时,模型能够考虑输入文本的相关部分,以获得全局的语境信息。每个注意力层都能将音素序列中的每个位置与音频帧序列中的所有位置建立联系,从而建立全局的上下文联系,提高生成的音频帧的准确性和连贯性。
步骤S2048,使用训练数据集进行训练。
使用训练数据集,将输入的音素序列输入编码器,期望输出为相应的音频帧序列。然后,通过计算生成的音频帧序列与目标音频帧之间的差异(通常使用均方误差损失),进行反向传播,调整模型的权重,以逐步优化模型。
为了确保Transformer模型的训练过程稳定且有效,可以采用学习率调度策略,这有助于平衡训练过程中的收敛速度和震荡问题。学习率调度策略的主要目标是在模型训练的早期阶段使用较大的学习率以加速收敛,然后逐渐减小学习率以避免在训练后期产生震荡或过度拟合。
学习率是控制模型参数更新步长的重要超参数,过大的学习率可能导致训练不稳定,甚至无法收敛,而过小的学习率可能使得训练过程非常缓慢,需要更多的迭代次数才能达到合适的模型性能。
本实施例采用学习率调度策略,通过在训练过程中动态地调整学习率,以在不同阶段实现更好的收敛效果。在训练初始阶段,使用较大的学习率,以便快速接近全局最优点;然后逐渐降低学习率,使模型能够更加精细地搜索损失函数的局部最优点,从而避免训练过程中的震荡。
具体地,在每个训练周期(epoch)结束时,将当前学习率乘以一个小于1的因子,以逐渐降低学习率。这种策略可以在训练初始阶段迅速降低学习率,然后在接近收敛时使学习率变得更小,从而有助于模型更好地收敛。
学习率调度策略能够帮助模型在训练过程中保持稳定的梯度更新,避免在训练后期产生震荡,从而提高模型的训练效率和性能。本实施例可以使模型在相对较少的迭代次数内达到理想的收敛效果,减少训练时间和资源消耗。通过逐渐降低学习率,该策略可以在保持训练稳定性的同时,有效提高模型的收敛速度和性能,使得模型能够更好地适应复杂的任务和数据。
本申请实施例还提供了另一种语音合成模型的训练方法,如图5所示,该方法包括以下步骤:
步骤S502,获取与待模仿对象的声音对应的待模仿音频;
步骤S504,将所述待模仿音频输入到预先构建的语音合成模型中,其中,所述语音合成模型将所述待模仿音频转换为文本,从所述文本对应的音素序列中提取声音特征,从所述待模仿音频中提取高分辨率声学特征,融合所述高分辨率声学特征和所述声音特征,并基于融合后的特征生成与所述文本对应的合成音频,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征。
首先,融合高分辨率声学特征和声音特征,得到融合后的特征。
在一些实施例中,利用散度来评估所述声音特征中的频谱特征与所述高分辨率声学特征之间的差异,得到所述频谱特征的权重和所述高分辨率声学特征的权重,其中,所述频谱特征包括声谱熵特征和能量特征;基于所述频谱特征的权重和所述高分辨率声学特征的权重,利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征,得到融合后的特征。
通过利用散度来评估声音特征中频谱特征与高分辨率声学特征之间的差异,能够获取频谱特征和高分辨率声学特征的权重信息。通过将频谱特征的权重和高分辨率声学特征的权重结合,产生一个更加综合且信息丰富的特征表示。这样的融合方法能够在音频合成中实现更好的音质和准确性,从而提升合成音频的自然度和逼真感。
在另外一些实施例中,对所述声音特征中的基频特征和所述高分辨率声学特征进行归一化处理;采用频谱梳状变换来调整归一化处理后的所述基频特征和所述高分辨率声学特征的频率轴,以增加归一化处理后的所述基频特征和所述高分辨率声学特征的不同频率成分之间的相互作用;将多项式变换扩展到多个通道,每个通道对应不同阶数的多项式,利用所述不同阶数的多项式将调整后的所述基频特征和所述高分辨率声学特征进行深度组合;捕捉组合后的所述基频特征和所述高分辨率声学特征之间的非线性关系,基于所述非线性关系进行降维处理,得到融合后的特征。
通过对声音特征中的基频特征和高分辨率声学特征进行归一化处理,实现了特征的统一尺度,从而减少了特征之间的差异。随后,通过采用频谱梳状变换来调整归一化处理后的基频特征和高分辨率声学特征的频率轴,增强了这些特征之间的频率成分交互,进一步丰富了特征表示。多项式变换的引入进一步拓展了特征组合的维度,通过多个通道以不同阶数的多项式将调整后的基频特征和高分辨率声学特征深度组合,进一步增强了特征的多样性和表达能力。这样生成的特征不仅能够捕捉基频特征和声学特征之间的复杂关系,还能够更好地反映音频的变化模式。最后,通过捕捉非线性关系并进行降维处理,获得了融合后的特征,这将在音频合成过程中更好地保留重要信息,提升了合成音频的真实感和音质。
在又一些实施例中,将所述声音特征中的声道特征和所述高分辨率声学特征映射到共享的嵌入空间;在所述共享的嵌入空间中预测所述声道特征和所述高分辨率声学特征的自监督任务,以增强所述声道特征和所述高分辨率声学特征之间的对应关系;基于增强后的所述对应关系,来融合所述高分辨率声学特征和所述声音特征,得到融合后的特征。
通过将声音特征中的声道特征和高分辨率声学特征映射到共享的嵌入空间,实现了不同特征之间的联系与转化。在这个共享的嵌入空间中,通过预测声道特征和高分辨率声学特征的自监督任务,进一步加强了它们之间的对应关系,从而提升了特征之间的一致性和相关性。这样的强化对应关系能够更有效地将声道特征和高分辨率声学特征融合在一起,产生更丰富、更准确的融合后特征。通过这个增强的融合过程,合成音频的生成能够更加准确地捕捉原始声音的细节特征,从而提升了合成音频的真实感和音质。
接着,在得到融合后的特征之后,基于融合后的特征生成与所述文本对应的合成音频。
例如,基于融合后的特征,利用正弦和余弦函数的线性组合来确定用于编码所述音素序列中的音素的位置信息的位置编码参数;基于所述位置编码参数,确定位置感知权重矩阵,并利用注意力机制,调整所述位置感知权重矩阵中的位置编码参数的权重;通过调整后的所述位置感知权重矩阵来调整音素序列中的音素的音色和动态范围,生成与所述文本对应的合成音频。
借助融合后的特征,采用正弦和余弦函数的线性组合,精准地确定用于编码音素序列中每个音素的位置信息的位置编码参数。这种方法充分考虑了音素在序列中的位置关系,有助于模型更好地捕捉音素的语境。基于这些位置编码参数,能够确定位置感知权重矩阵,通过融合位置编码参数和融合后的特征,利用注意力机制调整位置感知权重矩阵的位置编码参数权重。这一精细调节能够准确控制音素序列中每个位置与其他位置之间的关联强度,进而影响合成音频的音色和动态范围。最终,通过调整过的位置感知权重矩阵,能够实现基于文本的合成音频中音色和动态范围的个性化调整,从而生成更具表现力和逼真度的合成音频。
步骤S506,根据所述合成音频和所述待模仿音频确定所述语音合成模型的损失,并基于所述损失更新所述语音合成模型的网络参数,以训练所述深度学习模型。
在这个过程中,基于生成的合成音频与待模仿音频之间的比较,确定了语音合成模型的损失函数,该损失函数旨在量化合成音频与目标音频之间的差异。通过计算这个损失,能够评估模型在音质、音色和语音特征等方面的表现。然后,通过优化算法(例如梯度下降法),在训练数据上迭代地调整模型的网络参数,以最小化损失函数。这个训练过程使得模型逐渐学会更好地捕捉音频的特征,以生成更符合预期的合成音频。
在更新网络参数的过程中,可以采用一些优化技术,如自适应学习率调整、正则化方法和批归一化等,以加速训练过程并提高模型的稳定性。此外,还可以引入一些先进的深度学习技巧,例如残差连接、注意力机制等,以增强模型的表达能力和性能。
整个训练过程是一个反复迭代的过程,模型通过不断地从合成音频与目标音频的差异中学习,逐渐优化自身,使得合成音频与目标音频之间的相似度逐步提高。这样的深度学习训练过程能够使语音合成模型不断进步,最终生成更自然、更逼真的合成音频。
实施例3
本申请实施例提供了一种语音合成方法,如图6所示,该方法包括以下步骤:
步骤S602,获取与待处理的文本对应的音素序列以及与待模仿对象的声音对应的待模仿音频。
步骤S604,从所述待模仿音频中提取高分辨率声学特征,并基于所述高分辨率声学特征来对所述音素序列进行处理,得到语音波形片段,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征。
首先,提取高分辨率声学特征。
将所述待模仿音频分成预设长度的音频帧;对于每个所述音频帧,将该音频帧转换为音频频谱,并从所述音频频谱中提取所述高分辨率声学特征,其中,所述高分辨率声学特征包括以下至少之一:倒谱包络系数、和梅尔频率倒谱系数。
本实施例通过获取文本对应的音素序列和待模仿对象的声音对应的待模仿音频,能够准确地了解待合成语音的文本内容和模仿对象的声音特征,从而提供了关于待合成语音的重要信息,进而使得后续合成的语音更加贴近目标。
接下来,基于所述高分辨率声学特征来对所述音素序列进行处理。
例如,从所述音素序列中提取频谱特征,利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征,得到融合后的特征,其中,所述频谱特征包括声谱熵特征和能量特征;利用所述融合后的特征来调整所述音素序列中的音素的音色和动态范围。
本实施例从音素序列中提取频谱特征,包括声谱熵特征和能量特征,这些特征能够捕捉声音的能量分布和频谱特点。通过将这些频谱特征与高分辨率声学特征进行加权平均融合,生成融合后的特征,可以综合保留原始声音特征和高分辨率细节,从而增强合成语音的声音质量和自然度。此外,声谱熵特征和能量特征能够反映声音的音色特点和音量分布,通过融合后的特征调整,可以使合成语音的音色更加接近待模仿对象的声音,同时实现更广泛的音量变化,从而增加合成语音的表现力和逼真度。
在一些实施例中,可以从所述音素序列中提取基频特征,利用特征拼接法将所述基频特征融入到所述高分辨率声学特征中,得到融合后的特征;利用所述融合后的特征来调整所述音素序列中的音素的音高和音调。本实施例通过将提取的基频特征与高分辨率声学特征进行特征拼接和融合,得到融合后的特征,可以使合成语音的音高和音调更加准确地反映待模仿对象的声音特征。这样,合成语音就能够更精确地模仿待模仿对象的音高和音调变化。
在另一些实施例中,可以从所述音素序列中提取声道特征,利用递归融合法将所述声道特征与所述高分辨率声学特征相融合,得到融合后的特征;利用所述融合后的特征来调整所述音素序列中的音素的共振峰频率和带宽。本实施例通过将从音素序列提取的声道特征与高分辨率声学特征进行递归融合,得到融合后的特征,可以调整合成语音的共振峰频率和带宽,从而实现对音色的调整。此外,声道特征能够表征说话人的独特音色特点,通过融合这些特征,合成语音可以更好地模仿待模仿对象的音色特征,使得合成语音更接近待模仿对象的声音特点。
在另外的一些实施例中,还可以从所述音素序列中提取声音特征,利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征;利用所述融合后的特征来调整所述音素序列中的音素,得到所述语音波形片段。例如,确定所述声音特征和所述高分辨率声学特征之间的相互影响;基于所述相互影响,利用所述因子图的推断算法对所述声音特征和所述高分辨率声学特征进行融合,得到所述融合后的特征。
本实施例通过利用因子图来融合声音特征和高分辨率声学特征,能够提升语音合成的质量和逼真度。因子图能够建模声音特征和高分辨率声学特征之间的复杂相互影响关系,从而更全面地考虑它们之间的关联性。通过确定相互影响并建立复杂的因子函数,能够更好地捕捉这些特征之间的非线性关系,使合成语音更加地个性化,从而能够更好地模仿和表达待模仿对象的声音特征。
步骤S606,对所述语音波形片段进行优化处理,并对优化处理后的所述语音波形片段进行重叠和拼接,以合成目标语音。
首先,应用平滑过渡技术,如淡入淡出,以实现相邻波形片段的无缝连接。例如,可以通过逐渐调整音频的振幅来实现,从而减少了不连贯性和突兀感。接着,通过降噪、去失真和频谱均衡等处理来提升音频质量。降噪算法可以去除背景噪声,使合成语音更加清晰。去失真技术有助于减少音频畸变,提高合成语音的准确性。频谱均衡技术则可以平衡不同频率范围内的声音,使合成语音的音色更加平衡和自然。最后,在优化处理后,使用重叠和拼接技术来连接经过改进的语音波形片段。通过将相邻的波形片段在适当的位置进行重叠,然后平滑地过渡到下一个片段,以消除不连贯性。这种重叠和拼接方法有助于实现整体语音的连贯性,使得听者在听取合成语音时感觉更加流畅和自然。
本实施例通过采用平滑过渡、音频质量提升以及重叠和拼接技术,有效地提升了合成语音的质量和自然度,使得最终合成目标语音在听觉上更加令人满意,从而能够提供更加逼真和舒适的听觉体验。
实施例4
本申请实施例提供了一种语音合成装置,如图7所示,该语音合成装置包括:音素获取模块72、音频获取模块74和融合模块76。
音素获取模块72被配置为获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征。音频获取模块74被配置为获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;融合模块76被配置为利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。
需要说明的是:上述实施例提供的语音合成装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音合成装置与语音合成方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
实施例5
本申请实施例提供了一种语音合成系统,如图8所示,该语音合成系统包括语音合成装置82和虚拟形象渲染设备84。
语音合成装置82被配置为生成所述目标语音。语音合成装置82的结构和功能和实施例4中的语音合成装置相同,此处不再赘述。
虚拟形象渲染设备84被配置为渲染虚拟形象,其中,所述虚拟形象用于播放所述目标语音。
实施例6
图9示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图9示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,该电子设备包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,电子设备还可以包括AI( ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现上述方法实施例的各个步骤等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (7)

1.一种基于因子图的语音合成方法,其特征在于,包括:
获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;
获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;
利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音;
其中,利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,包括:确定所述声音特征和所述高分辨率声学特征之间的因子函数,其中,所述因子函数描述了所述声音特征和所述高分辨率声学特征之间的关联关系;基于所述因子函数对所述声音特征和所述高分辨率声学特征进行融合,得到所述融合后的特征;
其中,确定所述声音特征和所述高分辨率声学特征之间的因子函数包括:根据频谱分布的一致性来确定所述声谱熵特征和所述高分辨率声学特征之间的所述因子函数;根据能量分布的一致性来确定所述能量特征和所述高分辨率声学特征之间的所述因子函数;根据频率成分的相关性来确定所述基频特征和所述高分辨率声学特征之间的所述因子函数;根据共振特性的一致性来确定所述声道特征与所述高分辨率声学特征之间的所述因子函数;
其中,基于所述因子函数对所述声音特征和所述高分辨率声学特征进行融合,包括:将所述声谱熵特征、所述能量特征、所述基频特征、所述声道特征、和所述高分辨率声学特征分别作为所述因子图的因子节点;通过所述因子函数增强、或抑制所述因子节点之间的关联关系来更新所述因子节点的节点值,直至所述节点值逐渐趋近于最优解;基于所述最优解,对所述声音特征和所述高分辨率声学特征进行融合。
2.根据权利要求1所述的方法,其特征在于,在得到融合后的特征之后,所述方法还包括:
将所述融合后的特征反复迭代,来优化所述融合后的特征;
将优化的所述融合后的特征再次输入到所述因子图中,与所述声音特征和所述高分辨率声学特征进行对比优化。
3.根据权利要求2所述的方法,其特征在于,将所述融合后的特征反复迭代,来优化所述融合后的特征,包括:
在所述因子图中,将所述声谱熵特征、所述能量特征、所述基频特征、所述声道特征和所述高分辨率声学特征作为联合概率分布;
通过不断地更新和优化所述联合概率分布,来反复迭代优化所述融合后的特征。
4.根据权利要求1至3中任一项所述的方法,其特征在于,从所述待模仿音频中提取高分辨率声学特征包括:将所述待模仿音频分成多个音频帧;对于每个所述音频帧,将该音频帧转换为音频频谱,并从所述音频频谱中提取所述高分辨率声学特征。
5.一种基于因子图的语音合成装置,其特征在于,包括:
音素获取模块,被配置为获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;
音频获取模块,被配置为获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;
融合模块,被配置为利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音;
其中,所述融合模块还被配置为:确定所述声音特征和所述高分辨率声学特征之间的因子函数,其中,所述因子函数描述了所述声音特征和所述高分辨率声学特征之间的关联关系;基于所述因子函数对所述声音特征和所述高分辨率声学特征进行融合,得到所述融合后的特征;
所述融合模块还被配置为:根据频谱分布的一致性来确定所述声谱熵特征和所述高分辨率声学特征之间的所述因子函数;根据能量分布的一致性来确定所述能量特征和所述高分辨率声学特征之间的所述因子函数;根据频率成分的相关性来确定所述基频特征和所述高分辨率声学特征之间的所述因子函数;根据共振特性的一致性来确定所述声道特征与所述高分辨率声学特征之间的所述因子函数;
所述融合模块还被配置为:将所述声谱熵特征、所述能量特征、所述基频特征、所述声道特征、和所述高分辨率声学特征分别作为所述因子图的因子节点;通过所述因子函数增强、或抑制所述因子节点之间的关联关系来更新所述因子节点的节点值,直至所述节点值逐渐趋近于最优解;基于所述最优解,对所述声音特征和所述高分辨率声学特征进行融合。
6.一种基于因子图的语音合成系统,其特征在于,包括:
如权利要求5所述的语音合成装置,被配置为生成所述目标语音;
虚拟形象渲染设备,被配置为渲染虚拟形象,其中,所述虚拟形象用于播放所述目标语音。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至4中任一项所述的方法。
CN202311131998.4A 2023-09-04 2023-09-04 基于因子图的语音合成方法、装置及系统 Active CN116863909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311131998.4A CN116863909B (zh) 2023-09-04 2023-09-04 基于因子图的语音合成方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311131998.4A CN116863909B (zh) 2023-09-04 2023-09-04 基于因子图的语音合成方法、装置及系统

Publications (2)

Publication Number Publication Date
CN116863909A CN116863909A (zh) 2023-10-10
CN116863909B true CN116863909B (zh) 2023-11-07

Family

ID=88222030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311131998.4A Active CN116863909B (zh) 2023-09-04 2023-09-04 基于因子图的语音合成方法、装置及系统

Country Status (1)

Country Link
CN (1) CN116863909B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735373A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN113506562A (zh) * 2021-07-19 2021-10-15 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN113793591A (zh) * 2021-07-07 2021-12-14 科大讯飞股份有限公司 语音合成方法及相关装置和电子设备、存储介质
CN114201656A (zh) * 2020-09-18 2022-03-18 巴斯夫欧洲公司 组合用于对数据进行分类的数据驱动模型
CN115641834A (zh) * 2022-09-09 2023-01-24 平安科技(深圳)有限公司 一种语音合成方法、装置、电子设备及存储介质
CN116798405A (zh) * 2023-08-28 2023-09-22 世优(北京)科技有限公司 语音合成方法、装置、存储介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6293912B2 (ja) * 2014-09-19 2018-03-14 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201656A (zh) * 2020-09-18 2022-03-18 巴斯夫欧洲公司 组合用于对数据进行分类的数据驱动模型
CN112735373A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN113793591A (zh) * 2021-07-07 2021-12-14 科大讯飞股份有限公司 语音合成方法及相关装置和电子设备、存储介质
CN113506562A (zh) * 2021-07-19 2021-10-15 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN115641834A (zh) * 2022-09-09 2023-01-24 平安科技(深圳)有限公司 一种语音合成方法、装置、电子设备及存储介质
CN116798405A (zh) * 2023-08-28 2023-09-22 世优(北京)科技有限公司 语音合成方法、装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN116863909A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
JP7395792B2 (ja) 2レベル音声韻律転写
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN101399044A (zh) 语音转换方法和系统
CN111276120A (zh) 语音合成方法、装置和计算机可读存储介质
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
JP2024510679A (ja) 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ
CN111161695B (zh) 歌曲生成方法和装置
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
CN111091800A (zh) 歌曲生成方法和装置
EP3824461A1 (en) Method and system for creating object-based audio content
CN111710326A (zh) 英文语音的合成方法及系统、电子设备及存储介质
CN116798405B (zh) 语音合成方法、装置、存储介质和电子设备
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
JP2022547685A (ja) 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成
KR20210045217A (ko) 감정 이식 장치 및 감정 이식 방법
CN116863909B (zh) 基于因子图的语音合成方法、装置及系统
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
CN112885326A (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
CN116825090B (zh) 语音合成模型的训练方法、装置及语音合成方法、装置
CN113314097B (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
KR102277205B1 (ko) 오디오 변환 장치 및 방법
CN117116304A (zh) 语音处理方法、装置以及语音合成方法、装置
CN112951200A (zh) 语音合成模型的训练方法、装置、计算机设备及存储介质
US20210295820A1 (en) Method and system for creating object-based audio content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant