CN114464163A - 语音合成模型的训练方法、装置、设备、存储介质和产品 - Google Patents

语音合成模型的训练方法、装置、设备、存储介质和产品 Download PDF

Info

Publication number
CN114464163A
CN114464163A CN202210146068.5A CN202210146068A CN114464163A CN 114464163 A CN114464163 A CN 114464163A CN 202210146068 A CN202210146068 A CN 202210146068A CN 114464163 A CN114464163 A CN 114464163A
Authority
CN
China
Prior art keywords
tone
target
training data
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210146068.5A
Other languages
English (en)
Inventor
郑振鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuer Network Technology Co ltd
Original Assignee
Shanghai Yuer Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuer Network Technology Co ltd filed Critical Shanghai Yuer Network Technology Co ltd
Priority to CN202210146068.5A priority Critical patent/CN114464163A/zh
Publication of CN114464163A publication Critical patent/CN114464163A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种语音合成模型的训练方法、装置、设备、存储介质和产品。所述方法包括:获取第一训练数据;对所述第一训练数据进行训练得到基础模型,所述基础模型包括音色学习模块,所述音色学习模块在所述第一训练数据训练的过程中区分不同音色的差异,并得到所述不同音色对应的模型参数;获取第二训练数据;根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,所述迁移学习仅对所述音色学习模块的模型参数进行修改。采用本方法能够提供一种能够不需要对全部参数进行更新的语音合成模型的训练方法。

Description

语音合成模型的训练方法、装置、设备、存储介质和产品
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音合成模型的训练方法、装置、设备、存储介质和产品。
背景技术
随着计算机技术的发展,出现了语音合成技术。
语音合成技术可以使训练好的模型合成指定音色对应的语音数据,如合成张三或李四的音色对应的语音数据。若需要合成新增指定音色的语音数据,则需要收集大量新增指定音色对应的训练语音数据,以对之前训练好的模型的全部参数进行更新。
更新训练好的模型的指定音色需要对全部参数进行更新,这样的方式费时费力,不利于部署。
发明内容
基于此,有必要针对上述技术问题,提供一种能够不需要对全部参数进行更新的语音合成模型的训练方法、装置、设备、存储介质和产品。
第一方面,本申请提供了一种语音合成模型的训练方法,所述方法包括:获取第一训练数据;对所述第一训练数据进行训练得到基础模型,所述基础模型包括音色学习模块,所述音色学习模块在所述第一训练数据训练的过程中区分不同音色的差异,并得到所述不同音色对应的模型参数;获取第二训练数据;根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,所述迁移学习仅对所述音色学习模块的模型参数进行修改。
在其中一个实施例中,所述对所述第一训练数据进行训练得到基础模型,包括:对所述第一训练数据进行预处理;对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过所述音色学习模块对所述特征编码向量进行处理得到音色特征;根据所述特征编码向量以及所述音色特征进行解码得到对应的目标频谱;根据所述第一训练数据、所述音色特征和所述目标频谱生成目标函数;根据所述目标函数进行迭代训练得到所述基础模型。
在其中一个实施例中,所述对所述第一训练数据进行预处理,包括:对所述第一训练数据中的所述文本信息进行分词处理;将分词后的所述文本信息转化成对应的标准音素。
在其中一个实施例中,所述通过所述音色学习模块对所述特征编码向量进行处理得到音色特征,包括:获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量;根据每一所述特征编码向量生成第一音色基函数,并生成每一所述特征编码向量对应的第一音色调整系数;根据每一所述第一音色基函数和所述第一音色调整系数生成第一音色特征。
在其中一个实施例中,所述通过所述音色学习模块对所述特征编码向量进行处理得到音色特征之后,还包括:对各所述特征编码向量进行长度调整得到对应的目标编码特征向量;所述对各所述特征编码向量进行长度调整得到对应的目标编码特征向量,包括:根据所述第一音色特征得到对应的长度信息;根据所述长度信息对所述特征编码向量进行相应的长度调整,得到对应的目标编码向量。
在其中一个实施例中,所述通过所述音色学习模块对所述特征编码向量进行处理得到音色特征,包括:获取每一语义解码层对所述目标编码向量进行解码得到对应的目标解码向量;根据每一所述目标解码向量生成第二音色基函数,并生成每一所述目标解码向量对应的第二音色调整系数;根据每一所述第二音色基函数和所述第二音色调整系数生成第二音色特征。
在其中一个实施例中,所述根据所述特征编码向量以及所述音色特征进行解码得到对应的目标频谱,包括:根据所述目标特征解码向量以及所述第二音色特征进行解码得到对应的目标频谱。
在其中一个实施例中,所述根据所述第一训练数据、所述音色特征和所述目标频谱生成目标函数,包括:根据真实频谱和所述目标频谱的差值得到所述真实损失值,所述真实频谱为所述语音数据对应的频谱数据;根据所述长度信息和目标长度信息的差值得到所述长度损失值,所述长度信息根据各所述第一音色特征得到,所述目标长度信息为所述语音数据对应的长度数据;根据第一音色特征和所述第二音色特征得到所述音色损失值;根据所述真实损失值、所述长度损失值和所述音色损失值生成所述目标函数。
在其中一个实施例中,所述根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,包括:修改所述音色学习模块的音色调整系数的表达;根据所述第二训练数据进行训练,以对所述音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。
第二方面,本申请还提供了一种语音合成方法,包括:获取文本信息;将所述文本信息输入至迁移学习得到的目标模型中,得到所述文本信息对应的目标语音。
第三方面,本申请还提供了一种语音合成模型的训练装置,所述装置包括:第一获取模块,用于获取第一训练数据;训练模块,用于对所述第一训练数据进行训练得到基础模型,所述基础模型包括音色学习模块,所述音色学习模块在所述第一训练数据训练的过程中区分不同音色的差异,并得到所述不同音色对应的模型参数;第二获取模块,用于获取第二训练数据;第二训练模块,用于根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,所述迁移学习仅对所述音色学习模块的模型参数进行修改。
第四三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9或10中任一项所述的方法的步骤。
第五四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至9或10中任一项所述的方法的步骤。
第六五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至9或10中任一项所述的方法的步骤。
上述语音合成模型的训练方法、装置、设备、存储介质和产品,根据获取的第一训练数据进行训练得到基础模型,基础模型的音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数,使得基础模型可以合成不同音色对应的语音数据。当需要合成目标音色的语音数据时,根据获取的第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改,使得目标模型可以合成第二训练数据中的音色对应的语音数据,利于部署。
附图说明
图1为一个实施例中语音合成模型的训练方法的应用环境图;
图2为一个实施例中语音合成模型的训练方法的流程示意图;
图3为一个实施例中语音合成模型的架构示意图;
图4为一个实施例中语音特征变化器的示意图;
图5为一个实施例中语音合成模型的训练装置的结构框图;
图6为一个实施例中语音合成装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的语音合成模型的训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。数据存储系统和/或终端102中存储有第一训练数据和/或第二训练数据。服务器104从数据库存储系统或终端102获取第一训练数据,以得到基础模型。服务器104从数据库存储系统或终端102获取第二训练数据,通过第二训练数据对基础模型进行迁移学习以得到目标模型。需要说明的是,终端102存储的第一训练数据和或第二训练数据是用户上传的或者终端102通过网络下载的。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
为了使得本领域技术人员清楚理解,以地图声音合成为例进行说明,服务器104从终端102或数据库存储系统获取第一训练数据,对第一训练数据进行训练得到基础模型。服务器104从终端102或数据库存储系统获取第二训练数据,第二训练数据为特定音色的数据;根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型。服务器104接收终端102发送的目标语音转换指令,将数据库存储系统中的地图导航的文字部分输入目标模型,目标模型将地图导航的文字部分转换为目标模型所包括的指定音色对应的语音数据。上述目标模型所包括的音色为第一训练数据和第二训练数据所包括的音色。
在一个实施例中,如图2所示,提供了一种语音合成模型的训练方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
步骤202,获取第一训练数据。
其中,第一训练数据为至少两个种类的语音合成训练数据,一个种类的语音合成数据为同一音色。语音合成训练数据包括语音数据和文本信息两部分,其中,语音数据和文本信息一一对应,其中语音数据是指文本信息的声音,文本数据则是具体的文字表达。例如“您好”这以语音合成训练数据可以包括“您好”的声音数据以及文本“您好”。可选地,每个人的语音合成训练数据中包括多个语音数据,每个语音数据的长度均满足长度条件,例如在10s以下,每个人的语音合成训练数据中的所有语音数据的总时长优选的符合时间条件,例如在10h以上。需要说明的一点是,上述的长度条件和时间条件可以根据需要进行设置,在此不做具体的限定。
具体地,终端可以从数据库中读取至少两个种类的语音合成训练数据。在其中一个实施例中,终端从数据库中分别读取不同用户的语音合成训练数据即可满足要求。
步骤204,对第一训练数据进行训练得到基础模型,基础模型包括音色学习模块,音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数。
其中,基础模型是通过对第一训练数据进行训练以能够根据文本信息得到对应不同音色的语音数据的模型,其中输入文本信息即可以得到不同音色的语音数据。其中基础模型可以是fune-tune(迁移学习)语音合成方案中的base(基础)语音合成系统。具体的,该基础模型可以包括音素生成网络、特征提取网络、长度调整网络、频谱生成网络以及声音生成网络,其中音素生成网络用于将第一训练数据中的文字信息转化成对应的标准音素,特征提取网络用于提取第一训练数据中语音数据的各音色特征,长度调整网络用于将标准音素的长度转换为第一训练数据中语音数据的各音色对应的音素长度,频谱生成网络用于将调整长度后的标准音素转换成对应的频谱数据,声音生成网络网络用于将频谱数据转换成声音数据,这样使得基础模型可以实现将文本信息转换成对应的音色的声音数据。基础模型可以合成第一训练数据中的音色对应的语音数据。
具体地,终端对多个种类的语音合成训练数据进行训练,得到可以合成第一训练数据中的不同音色对应的语音数据的基础模型。在训练过程中,基础模型的音色学习模块根据多个种类的语音合成训练数据进行训练,以区分不同种类语音合成数据对应的音色之间的差异,得到不同种类语音合成数据对应的音色的模型参数。
步骤206,获取第二训练数据。
其中,第二训练数据为目标种类的语音合成训练数据,目标种类的语音合成训练数据的音色与第一训练数据中的音色不同,且目标种类的语音合成训练数据的音色为同一音色。可选地,目标种类的语音合成训练数据中包括多个语音数据,每个语音数据的长度均满足第二长度条件,例如在10s以下,所有语音数据的总条数优选的符合数量条件,例如至少可以为20条。需要说明的是,目标种类的语音合成训练数据中的语音数据与为文本信息也一一对应。需要说明的一点是,上述的第二长度条件和数量条件可以根据需要进行设置,在此不做具体的限定。
具体的,终端可以从数据库中读取目标种类的语音合成训练数据。在其中一个实施例中,终端从数据库中读目标用户的语音合成训练数据即可满足要求。
获取目标种类的语音合成训练数据即第二训练数据。
步骤208,根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改。
其中,目标模型是通过对第二训练数据进行训练以能够根据文本信息得到目标音色的语音数据的模型,其中输入文本信息即可以得到目标音色的语音数据。其中目标模型可以是fune-tune语音合成方案中经过迁移学习后的模型。具体地,该目标模型仅修改上述基础模型的特征提取网络,修改后的特征提取网络用于提取第二训练数据中语音数据的目标音色特征,这样使得目标模型可以实现将文本信息转换成对应的目标音色的声音数据。目标模型可以合成第二训练数据中的目标音色对应的语音数据。
可以合成第二训练数据对应的目标音色对应的语音数据。
具体地,终端对目标的语音合成训练数据进行迁移学习,得到可以合成目标的语音合成训练数据中的目标音色对应的语音数据的目标模型。终端在迁移学习的过程中,仅根据目标的语音合成训练数据学习目标模型中的音色学习模块的目标模型参数,并用目标模型参数对目标模型的音色学习模块的模型参数进行修改。
上述语音合成模型的训练方法中,根据获取的第一训练数据进行训练得到基础模型,基础模型的音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数,使得基础模型可以合成不同音色对应的语音数据。当需要合成目标音色的语音数据时,根据获取的第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改,使得目标模型可以合成第二训练数据中的音色对应的语音数据,利于部署。
在一个实施例中,对第一训练数据进行训练得到基础模型,包括:对第一训练数据进行预处理。对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过音色学习模块对特征编码向量进行处理得到音色特征。根据特征编码向量以及音色特征进行解码得到对应的目标频谱。根据第一训练数据、音色特征和目标频谱生成目标函数。具体地,终端对上述第一训练数据中的文本信息中的语句进行预处理得到对应的音素。例如,第一训练数据中的语句“我爱祖国”转换为音素即“w”“ou”“ai”“zu”“g”“uo”。
其中,不同的人的有不同的音色特征。
具体地,终端对根据预处理得到的音素进行编码得到对应的特征编码向量,该特征编码向量用于表征预处理得到的音素的相同特征;且通过音素学习模块对特征编码向量进行处理,得到经过预处理得到的音素对应的语音数据的不同特征即音色特征。
具体地,终端根据特征编码向量进行解码得到各音素的相同特征,根据音色特征对特征编码向量进行解码得到各音素对应的语音数据的不同特征即音色特征,以获得各音素对应的语音数据的编码向量,并对该编码向量进行解码得到对应的目标频谱。可选地,目标频谱为梅尔频谱。本实施例并不对目标频谱的类型做限定,可以用来表示声音的特征即可。
其中,目标函数为用来优化基础模型的函数。
具体地,终端根据第一训练数据、音色特征和目标频谱生成目标函数。
根据目标函数进行迭代训练得到基础模型。上述语音合成模型的训练方法中,通过对第一训练数据进行预处理,减小了合成建模的颗粒度,提高语音合成的质量;通过音色学习模块学习第一训练数据中各音色的不同音色特征;通过第一训练数据、音色特征和目标频谱生成目标函数,以进行迭代训练得到基础模型。
在一个实施例中,对第一训练数据进行预处理,包括:对第一训练数据中的文本信息进行分词处理;将分词后的文本信息转化成对应的标准音素。
其中,第一训练数据中包括语音数据和文本信息,语音数据与文本信息一一对应。标准音素为音色相同的音素,同样的词语对应的音素的音色相同。
具体地,终端对第一训练数据中的文本信息中的语句进行分词处理得到对应的词语,并将分词后得到的词语转换为标准音素。例如,第一训练数据中的语句为“我爱祖国”,分词处理后得到的对应词语则为“我”“爱”“祖国”,进一步转换为音素即“w”“ou”“ai”“zu”“g”“uo”。
上述语音合成模型的训练方法中,减小了语音合成模型建模的颗粒度,降低了文字数据不均衡的问题,提高语音合成的质量。
在一个实施例中,通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量;根据每一特征编码向量生成第一音色基函数,并生成每一特征编码向量对应的第一音色调整系数;根据每一第一音色基函数和第一音色调整系数生成第一音色特征。
具体地,终端通过每一语义编码层对标准音素进行编码得到对应的特征编码向量,即通过每一语义编码层对标准音素的相同特征进行提取,得到对应的特征编码向量即公式(1)中的x。终端根据每一特征编码向量生成第一音色基函数βi(x)和对应的第一音色调整系数
Figure BDA0003508327620000092
在具体地实施过程中,音色学习模块通过公式(1)对特征编码向量x进行处理得到音色特征,公式(1)为:
Figure BDA0003508327620000091
其中,公式(1)中的l表示网络层的id,x为每一语义编码层对应的特征编码向量。t表示不同音色的id,即第一训练数据中不同种类的语音合成训练数据对应不同的音色,有不同的id,每个不同的音色有对应的适应参数。βi(x)为上述适应参数的自适应基函数,共计M个,不同的βi(x)函数保持正交。
Figure BDA0003508327620000094
表示第t个人所对应的βi(x)函数的自适应系数,
Figure BDA0003508327620000095
为可学习系数。通过第一训练数据中的不同种类的语音合成训练数据中的语音数据,可以确定每个不同人的每层的不同
Figure BDA0003508327620000093
系数,进而保证每个人有不同的不同层自适应系数。
上述语音合成模型的训练方法中,通过特征编码向量的提取,得到上述标准音素对应的相同特征。通过每一特征编码向量生成第一音色基函数和对应的第一音色调整系数;根据每一第一音色基函数和第一音色调整系数生成第一音色特征,以得到上述标准音素对应的各第一训练数据中的不同音色的不同特征。
在一个实施例中,通过音色学习模块对特征编码向量进行处理得到音色特征之后,还包括:对各特征编码向量进行长度调整得到对应的目标编码特征向量;对各特征编码向量进行长度调整得到对应的目标编码特征向量,包括:根据第一音色特征得到对应的长度信息;根据长度信息对特征编码向量进行相应的长度调整,得到对应的目标编码向量。
具体地,终端对各特征编码向量进行按照不同种类的音色对应的特征向量长度进行调整,得到目标编码特征向量。
具体地,终端根据第一音色特征得到不同种类的音色对应的特征向量长度信息,根据长度信息对特征编码向量进行相应的长度调整,得到对应的目标编码向量。例如,终端接收到4个特征编码向量,根据第一音色特征解析出上述个特征编码向量的长度分别为“1”“2”“3”“4”,则终端根据上述长度信息将4个特征编码向量分别复制对应的长度份数,得到相应的目标编码向量。
上述语音合成模型的训练方法中,通过第一音色特征得到长度信息;根据长度信息对特征编码向量进行相应的并行长度调整,得到对应的目标编码向量,大幅度增加了语音合成的速度。
在一个实施例中,通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义解码层对目标编码向量进行解码得到对应的目标解码向量;根据每一目标解码向量生成第二音色基函数,并生成每一目标解码向量对应的第二音色调整系数;根据每一第二音色基函数和第二音色调整系数生成第二音色特征。
具体地,终端通过每一语义解码层对目标编码向量进行解码得到对应的目标解码向量,即通过每一语义解码层对目标编码向量的相同特征进行提取,得到对应的目标解码向量即公式(1)中的x。终端根据每一目标解码向量生成第二音色基函数βi(x)和对应的第二音色调整系数
Figure BDA0003508327620000101
在具体地实施过程中,音色学习模块通过公式(1)对目标解码向量x进行处理得到第二音色特征。
其中,公式(1)中的l表示网络层的id,x为每一语义解码层对应的目标解码向量。t表示不同音色的id,即第一训练数据中不同种类的语音合成训练数据对应不同的音色,有不同的id,每个不同的音色有对应的适应参数。βi(x)为上述适应参数的自适应基函数,共计M个,不同的βi(x)函数保持正交。
Figure BDA0003508327620000102
表示第t个人所对应的
Figure BDA0003508327620000103
函数的自适应系数,
Figure BDA0003508327620000104
为可学习系数。通过第一训练数据中的不同种类的语音合成训练数据中的语音数据,可以确定每个不同人的每层的不同
Figure BDA0003508327620000105
系数,进而保证每个人有不同的不同层自适应系数。
需要说明的是,公式(1)中的x为特征编码向量和目标编码向量,特征编码向量、目标编码向量和目标解码向量为同一类数据。M的个数为个编码层和各解码层的和。
上述语音合成模型的训练方法中,通过目标解码向量的提取,得到上述目标编码向量对应的相同特征。通过每一目标解码向量生成第二音色基函数和对应的第二音色调整系数;根据每一第二音色基函数和第二音色调整系数生成第二音色特征,以得到上述目标解码向量对应的各第一训练数据中的不同音色的不同特征。
在一个实施例中,根据特征编码向量以及音色特征进行解码得到对应的目标频谱,包括:根据目标特征解码向量以及第二音色特征进行解码得到对应的目标频谱。
具体地,终端根据目标特征解码向量进行解码得到相同特征对应的梅尔频谱,以及根据第二音色特征进行解码得到各音色的不同特征对应的梅尔频谱,上述相同特征和不同特征对应的梅尔频谱的和为目标梅尔频谱。
上述语音合成模型的训练方法中得到语音合成步骤中需要的目标频谱数据。
在一个实施例中,根据第一训练数据、音色特征和目标频谱生成目标函数,包括:根据真实频谱和目标频谱的差值得到真实损失值,真实频谱为语音数据对应的频谱数据。根据长度信息和目标长度信息的差值得到长度损失值,长度信息根据各特征编码向量得到,目标长度信息为语音数据对应的长度数据。根据第一音色特征和第二音色特征得到音色损失值。根据真实损失值、长度损失值和音色损失值生成目标函数。
其中,真实频谱为第一训练数据中的语音数据对应的频谱数据。
具体地,终端真实频谱和目标频谱的差值得到真实损失值,其中,真实频谱为第一训练数据中的语音数据对应的频谱数据,目标频谱为根据与上述语音数据相对应的根据上述实施例中的训练步骤得到的频谱数据。上述真实损失值 L1可以根据公式(2)获得。
L1=||R-O|| (2)
其中,公式(2)中的R为真实频谱对应的真实频谱矩阵,O为目标频谱对应的目标频谱矩阵。可选地,若真实频谱为梅尔频谱,则真实频谱矩阵与目标频谱矩阵的类型为梅尔频谱矩阵。
具体地,终端根据长度信息和目标长度信息的差值得到长度损失值,长度信息根据各第一音色特征得到,目标长度信息为语音数据对应的长度数据,各第一音色特征为根据语音数据学习得到,相互对应。上述长度损失值L2可以根据公式(3)得到。
Figure BDA0003508327620000121
其中,公式(3)中的p为语音音素长度,ri为语音数据中的第i个音素的语音梅尔频谱长度,oi为根据特征编码向量得到的第i个音素的语音梅尔频谱长度。可选地,语音数据中的各音素的语音梅尔频谱长度可通过MFA工具获取对齐信息获取。
具体地,音色损失值l3的计算公式如公式(4)所示。
Figure BDA0003508327620000122
其中,公式(4)中的L为网络层id,al为第l层的自适应矩阵,l3是衡量不同说话人的自适应损失函数,其反映同一音色说话人自适应模块相近,不同音色说话人自适应模块不同。其中,第一音色特征和第二音色特这个分别代表不同的网络层下的自适应矩阵。
具体地,目标函数L的通过公式(5)获得。
L=L1+L2+L3 (5)
上述语音合成模型的训练方法中,通过真实损失值考虑目标频谱与对应的真实频谱图的损失,通过长度损失值考虑预测长度信息与对应的真实长度信息的损失,通过音色损失值考虑不同说话人的自适应损失函数。
在一个实施例中,根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,包括:修改音色学习模块的音色调整系数的表达。根据第二训练数据进行训练,以对音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。
具体地,终端修改公式(1)中的
Figure BDA0003508327620000123
得到目标模型。
具体地,终端根据目标种类的语音合成训练数据中的语音数据进行训练,以得到目标种类的语音数据所对应的音色的不同特征即
Figure BDA0003508327620000131
将基础模型的
Figure BDA0003508327620000132
修改为目标音色对应的
Figure BDA0003508327620000133
即得到目标模型。
上述语音合成模型的训练方法中,通过少量的第二训练数据对音色学习模块的修改后表达的音色调整系数进行训练,修改基础模型中的音色学习模块的音色调整系数的表达即可得到目标模型。仅对基础模型的一个参数进行修改即可得到可以合成目标音色的语音数据的目标模型,修改参数少,便于部署和复用。且训练目标模型的第二训练数据少,易于获取。
在一个实施例中,一种语音合成方法,包括:获取文本信息;将文本信息输入至迁移学习得到的目标模型中,得到文本信息对应的目标语音。
在一个具体地实施例中,一种语音合成模型的训练方法,包括:终端、服务器和数据存储系统。
第一训练数据为至少两个不同人的语音合成训练数据。其中,每个人的语音合成训练数据中包括多个语音数据和文本信息,语音数据与文本信息一一对应,每个语音数据的长度在10s以下,每个人的语音数据的和至少10h。可选地,语音数据可以是文本信息对应的录音文件。
第二训练数据为定制音色的语音合成训练数据。定制音色的语音合成训练数据中也包括多个语音数据和文本信息,语音数据与文本信息一一对应,每个语音数据的长度在10s一下,定制音色的语音数据的条数最少20条即可。需要说明的是定制音色的语音合成训练数据中的语音数据的音色相同,为同一音色。可选地,定制音色的语音数据可以是网下下载或由用户上传得到。
语音合成模型的训练过程如图3所示,服务器获取第一训练数据,将第一训练数据中的文本信息作为文字序列输入至训练模型。
终端通过训练模型的文字预处理模块将文字序列进行分词处理,将分词处理后的每个词语进行标准音素转换。例如:文字序列为我爱祖国->我爱祖国 ->w ou ai zu g uo。其中,标准音素可以理解为打印体汉字,同一个打印体汉字的形状相同,即同一个标准音素的发音也总是相同的,并不跟随目标音色进行改变。文字预处理模块减小了语音合成模型的建模颗粒度,减少了文字数据不均衡的问题,可以提高语音合成的质量。
终端将文字预处理模块的输出标准音素作为语义信息特征编码模块的输入,语义特征编码模块的各编码层用于提取各标准音素对应的相同特征x,并将上述各编码层提取的各标准音素的相同特征x作为自适应激活模块的输入。自适应激活模块根据公式(1)学习第一训练数据中各音色的不同特征,并将上述不同特征作为自适应激活模块的输出。上述自适应网络模块存在于每个语义信息编码模块的每层神经网络。其中,相同特征x即上述实施例中的特征编码向量,各音色的不同特征及上述实施例中的第一音色特征。可选地,语义信息特征编码模块通过transformer(一种神经网络)网络或Bi-LSTM(双向长短期记忆神经网络)网络实现。
终端将语音信息特征编码模块的输出相同特征x和自适应激活模块输出的各音色的不同特征作为语音特征变化器模块的输入。语音特征变化器模块包括长度预测器和长度调整器。终端将自适应激活模块输出的各音色的不同特征作为长度预测器的输入,得到语音信息特征编码模块的输出相同特征x的长度。长度调整器根据长度预测器的输出对相同特征x的长度进行调整得到目标编码向量。如图4所示,输入为四个音素的编码特征向量,预测器预期其长度分别为1,2,3,4,则长度调整器将编码特征向量分别复制1,2,3,4份。通过语音特征变化器模块可进行语音合成的并行化运行,大幅度增加语音合成的速度。
终端将语音特征变化器模块的输出目标编码向量作为语义信息特征解码模块的输入,语义特征解码模块的各解码层用于提取各目标编码向量对应的相同特征x,并将上述各解码层提取的各目标编码向量的相同特征x作为自适应激活模块的输入。自适应激活模块根据公式(1)学习第一训练数据中各音色的不同特征,并将上述不同特征作为自适应激活模块的输出。终端根据各目标编码向量对应的相同特征x和各音色的不同特征合成对应的梅尔频谱图。上述自适应网络模块存在于每个语义信息解码模块的每层神经网络。其中,相同特征x即上述实施例中的目标解码向量,各音色的不同特征及上述实施例中的第二音色特征。可选地,语义信息特征编码模块通过transformer(一种神经网络)网络或 Bi-LSTM(双向长短期记忆神经网络)网络实现。
终端将语音信息解码模块的输出梅尔频谱图作为语音声码器模块的输入,通过语音声码器模块将上述梅尔频谱图转换为人耳感知的目标语音波形图。可选地,语音声码器模块为Hi-Fi GAN(高保真声码器)声码器或MelGAN(生成对抗网络快速生成音频)声码器。
终端将公式(5)作为输入第一训练数据的文本信息到训练模型中,输出梅尔频谱的训练过程的损失函数。该损失函数包括三个部分,分别是(2)、(3)和(4)。其中,公式(2)为预测的梅尔频谱与真实的梅尔频谱图的损失,可以设计为L1-loss,R表示真实的梅尔频谱矩阵,O为网络预测梅尔频谱矩阵。公式(3)为长度预测器的损失函数,其中p为语音音素长度,ri为第i个音素的语音梅尔频谱长度,oi为音素长度预测器预测的第i个音素的语音梅尔频谱长度。公式(4)是衡量不同说话人的自适应损失函数,其反映同一音色说话人自适应模块相近,不同音色说话人自适应模块不同,其中L为网络层id,al为第l 层的自适应矩阵。可选地,终端可以通过将第一训练数据中的语音数据的原始波形进行预加重、分帧、加窗、快速傅立叶变换、梅尔频谱变换,以得到R真实的梅尔频谱矩阵。可选的,终端通过MFA工具获取ri的对齐信息。
在生成梅尔频谱的模型训练完成后,终端使用其生成预测的梅尔频谱图,并根据预测的梅尔频谱图与真实语音波形图的一一对应关系对声码器模块进行训练。根据训练完成后生成梅尔频谱的模型和训练完成后的声码器模块得到对应的基础模型。
在训练完成后的基础模型的基础上,利用第二训练数据的目标音色的语音数据对训练基础模型的公式(1)的自适应系数
Figure BDA0003508327620000152
进行更新得到公式(6)。
基础模型中的公式(1)更新为公式(6)即为目标模型。
Figure BDA0003508327620000151
其中,公式(6)对应的损失函数Y为公式(7)。
Y=L1+L2 (7)
需要说明的是第一音色特征和第二音色特征、公式(1)和公式(6)均指模型参数。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音合成模型的训练方法的语音合成模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音合成模型的训练装置实施例中的具体限定可以参见上文中对于语音合成模型的训练方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种语音合成模型的训练装置,包括:第一获取模块100、训练模块200、第二获取模块300和第二训练模块400,其中:
第一获取模块100,用于获取第一训练数据。
训练模块200,用于对第一训练数据进行训练得到基础模型,基础模型包括音色学习模块,音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数。
第二获取模块300,用于获取第二训练数据。
第二训练模块400,用于根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改。
在一个实施例中,训练模块,包括:预处理模块,用于对第一训练数据进行预处理。编码模块,用于对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过音色学习模块对特征编码向量进行处理得到音色特征。解码模块,用于根据特征编码向量以及音色特征进行解码得到对应的目标频谱。目标函数生成模块,用于根据第一训练数据、音色特征和目标频谱生成目标函数。训练模块,用于根据目标函数进行迭代训练得到基础模型。
在一个实施例中,预处理模块,包括:分词模块,用于对第一训练数据中的文本信息进行分词处理。音素转换模块,用于将分词后的文本信息转化成对应的标准音素。
在一个实施例中,编码模块,包括:第一编码模块,用于获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量。第一生成模块,用于根据每一特征编码向量生成第一音色基函数,并生成每一特征编码向量对应的第一音色调整系数。第一特征生成模块,用于根据每一第一音色基函数和第一音色调整系数生成第一音色特征。
在一个实施例中,还包括:长度调整模块,用于对各特征编码向量进行长度调整得到对应的目标编码特征向量。对各特征编码向量进行长度调整得到对应的目标编码特征向量,包括:长度获取模块,用于根据第一音色特征得到对应的长度信息。目标编码向量生成模块,用于根据长度信息对特征编码向量进行相应的长度调整,得到对应的目标编码向量。
在一个实施例中,编码模块,包括:第一解码模块,用于获取每一语义解码层对目标编码向量进行解码得到对应的目标解码向量。第二生成模块,用于根据每一目标解码向量生成第二音色基函数,并生成每一目标解码向量对应的第二音色调整系数。第二特征生成模块,用于根据每一第二音色基函数和第二音色调整系数生成第二音色特征。
在一个实施例中,解码模块,包括:目标频谱生成模块,用于根据目标特征解码向量以及第二音色特征进行解码得到对应的目标频谱。
在一个实施例中,目标函数生成模块,包括:真实损失值生成模块,用于根据真实频谱和目标频谱的差值得到真实损失值,真实频谱为语音数据对应的频谱数据。长度损失值生成模块,用于根据长度信息和目标长度信息的差值得到长度损失值,长度信息根据各第一音色特征得到,目标长度信息为语音数据对应的长度数据。音色损失值生成模块,用于根据第一音色特征和第二音色特征得到音色损失值。第二目标函数生成模块,用于根据真实损失值、长度损失值和音色损失值生成目标函数。
在一个实施例中,第二训练模块,包括:修改模块,用于修改音色学习模块的音色调整系数的表达。目标模型生成模块,用于根据第二训练数据进行训练,以对音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。
在一个实施例中,如图6所示,提供了一种语音合成装置,包括:信息获取模块500和目标语音生成模块600,其中
信息获取模块500,用于获取文本信息。
目标语音生成模块600,用于将文本信息输入至迁移学习得到的目标模型中,得到文本信息对应的目标语音。
上述语音合成模型的训练装置和语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成模型的训练方法和语音合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取第一训练数据;对第一训练数据进行训练得到基础模型,基础模型包括音色学习模块,音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数;获取第二训练数据;根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改。
在一个实施例中,处理器执行计算机程序时所实现的对第一训练数据进行训练得到基础模型,包括:对第一训练数据进行预处理;对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过音色学习模块对特征编码向量进行处理得到音色特征;根据特征编码向量以及音色特征进行解码得到对应的目标频谱;根据第一训练数据、音色特征和目标频谱生成目标函数;根据目标函数进行迭代训练得到基础模型。
在一个实施例中,处理器执行计算机程序时所实现的对第一训练数据进行预处理,包括:对第一训练数据中的文本信息进行分词处理;将分词后的文本信息转化成对应的标准音素。
在一个实施例中,处理器执行计算机程序时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量;根据每一特征编码向量生成第一音色基函数,并生成每一特征编码向量对应的第一音色调整系数;根据每一第一音色基函数和第一音色调整系数生成第一音色特征。
在一个实施例中,处理器执行计算机程序时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征之后,还包括:对各特征编码向量进行长度调整得到对应的目标编码特征向量;对各特征编码向量进行长度调整得到对应的目标编码特征向量,包括:根据第一音色特征得到对应的长度信息;根据长度信息对特征编码向量进行相应的长度调整,得到对应的目标编码向量。
在一个实施例中,处理器执行计算机程序时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义解码层对目标编码向量进行解码得到对应的目标解码向量;根据每一目标解码向量生成第二音色基函数,并生成每一目标解码向量对应的第二音色调整系数;根据每一第二音色基函数和第二音色调整系数生成第二音色特征。
在一个实施例中,处理器执行计算机程序时所实现的根据特征编码向量以及音色特征进行解码得到对应的目标频谱,包括:根据目标特征解码向量以及第二音色特征进行解码得到对应的目标频谱。
在一个实施例中,处理器执行计算机程序时所实现的根据第一训练数据、音色特征和目标频谱生成目标函数,包括:根据真实频谱和目标频谱的差值得到真实损失值,真实频谱为语音数据对应的频谱数据;根据长度信息和目标长度信息的差值得到长度损失值,长度信息根据各第一音色特征得到,目标长度信息为语音数据对应的长度数据;根据第一音色特征和第二音色特征得到音色损失值;根据真实损失值、长度损失值和音色损失值生成目标函数。
在一个实施例中,处理器执行计算机程序时所实现的根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,包括:修改音色学习模块的音色调整系数的表达;根据第二训练数据进行训练,以对音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。在一个实施例中,处理器执行计算机程序时所实现的一种语音合成方法,包括:获取文本信息;将文本信息输入至迁移学习得到的目标模型中,得到文本信息对应的目标语音。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取第一训练数据;对第一训练数据进行训练得到基础模型,基础模型包括音色学习模块,音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数;获取第二训练数据;根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改。
在一个实施例中,计算机程序被处理器执行时所实现的对第一训练数据进行训练得到基础模型,包括:对第一训练数据进行预处理;对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过音色学习模块对特征编码向量进行处理得到音色特征;根据特征编码向量以及音色特征进行解码得到对应的目标频谱;根据第一训练数据、音色特征和目标频谱生成目标函数;根据目标函数进行迭代训练得到基础模型。
在一个实施例中,计算机程序被处理器执行时所实现的对第一训练数据进行预处理,包括:对第一训练数据中的文本信息进行分词处理;将分词后的文本信息转化成对应的标准音素。
在一个实施例中,计算机程序被处理器执行时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量;根据每一特征编码向量生成第一音色基函数,并生成每一特征编码向量对应的第一音色调整系数;根据每一第一音色基函数和第一音色调整系数生成第一音色特征。
在一个实施例中,计算机程序被处理器执行时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征之后,还包括:对各特征编码向量进行长度调整得到对应的目标编码特征向量;对各特征编码向量进行长度调整得到对应的目标编码特征向量,包括:根据第一音色特征得到对应的长度信息;根据长度信息对特征编码向量进行相应的长度调整,得到对应的目标编码向量。
在一个实施例中,计算机程序被处理器执行时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义解码层对目标编码向量进行解码得到对应的目标解码向量;根据每一目标解码向量生成第二音色基函数,并生成每一目标解码向量对应的第二音色调整系数;根据每一第二音色基函数和第二音色调整系数生成第二音色特征。
在一个实施例中,计算机程序被处理器执行时所实现的根据特征编码向量以及音色特征进行解码得到对应的目标频谱,包括:根据目标特征解码向量以及第二音色特征进行解码得到对应的目标频谱。
在一个实施例中,计算机程序被处理器执行时所实现的根据第一训练数据、音色特征和目标频谱生成目标函数,包括:根据真实频谱和目标频谱的差值得到真实损失值,真实频谱为语音数据对应的频谱数据;根据长度信息和目标长度信息的差值得到长度损失值,长度信息根据各第一音色特征得到,目标长度信息为语音数据对应的长度数据;根据第一音色特征和第二音色特征得到音色损失值;根据真实损失值、长度损失值和音色损失值生成目标函数。
在一个实施例中,计算机程序被处理器执行时所实现的根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,包括:修改音色学习模块的音色调整系数的表达;根据第二训练数据进行训练,以对音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。
在一个实施例中,计算机程序被处理器执行时所实现的一种语音合成方法,包括:获取文本信息;将文本信息输入至迁移学习得到的目标模型中,得到文本信息对应的目标语音。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取第一训练数据;对第一训练数据进行训练得到基础模型,基础模型包括音色学习模块,音色学习模块在第一训练数据训练的过程中区分不同音色的差异,并得到不同音色对应的模型参数;获取第二训练数据;根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,迁移学习仅对音色学习模块的模型参数进行修改。
在一个实施例中,计算机程序被处理器执行时所实现的对第一训练数据进行训练得到基础模型,包括:对第一训练数据进行预处理;对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过音色学习模块对特征编码向量进行处理得到音色特征;根据特征编码向量以及音色特征进行解码得到对应的目标频谱;根据第一训练数据、音色特征和目标频谱生成目标函数;根据目标函数进行迭代训练得到基础模型。
在一个实施例中,计算机程序被处理器执行时所实现的对第一训练数据进行预处理,包括:对第一训练数据中的文本信息进行分词处理;将分词后的文本信息转化成对应的标准音素。
在一个实施例中,计算机程序被处理器执行时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量;根据每一特征编码向量生成第一音色基函数,并生成每一特征编码向量对应的第一音色调整系数;根据每一第一音色基函数和第一音色调整系数生成第一音色特征。
在一个实施例中,计算机程序被处理器执行时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征之后,还包括:对各特征编码向量进行长度调整得到对应的目标编码特征向量;对各特征编码向量进行长度调整得到对应的目标编码特征向量,包括:根据第一音色特征得到对应的长度信息;根据长度信息对特征编码向量进行相应的长度调整,得到对应的目标编码向量。
在一个实施例中,计算机程序被处理器执行时所实现的通过音色学习模块对特征编码向量进行处理得到音色特征,包括:获取每一语义解码层对目标编码向量进行解码得到对应的目标解码向量;根据每一目标解码向量生成第二音色基函数,并生成每一目标解码向量对应的第二音色调整系数;根据每一第二音色基函数和第二音色调整系数生成第二音色特征。
在一个实施例中,计算机程序被处理器执行时所实现的根据特征编码向量以及音色特征进行解码得到对应的目标频谱,包括:根据目标特征解码向量以及第二音色特征进行解码得到对应的目标频谱。
在一个实施例中,计算机程序被处理器执行时所实现的根据第一训练数据、音色特征和目标频谱生成目标函数,包括:根据真实频谱和目标频谱的差值得到真实损失值,真实频谱为语音数据对应的频谱数据;根据长度信息和目标长度信息的差值得到长度损失值,长度信息根据各第一音色特征得到,目标长度信息为语音数据对应的长度数据;根据第一音色特征和第二音色特征得到音色损失值;根据真实损失值、长度损失值和音色损失值生成目标函数。
在一个实施例中,计算机程序被处理器执行时所实现的根据第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,包括:修改音色学习模块的音色调整系数的表达;根据第二训练数据进行训练,以对音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。
在一个实施例中,计算机程序被处理器执行时所实现的一种语音合成方法,包括:获取文本信息;将文本信息输入至迁移学习得到的目标模型中,得到文本信息对应的目标语音。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory, DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (14)

1.一种语音合成模型的训练方法,其特征在于,所述方法包括:
获取第一训练数据;
对所述第一训练数据进行训练得到基础模型,所述基础模型包括音色学习模块,所述音色学习模块在所述第一训练数据训练的过程中区分不同音色的差异,并得到所述不同音色对应的模型参数;
获取第二训练数据;
根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,所述迁移学习仅对所述音色学习模块的模型参数进行修改。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一训练数据进行训练得到基础模型,包括:
对所述第一训练数据进行预处理;
对预处理后的第一训练数据进行编码得到对应的特征编码向量,且通过所述音色学习模块对所述特征编码向量进行处理得到音色特征;
根据所述特征编码向量以及所述音色特征进行解码得到对应的目标频谱;
根据所述第一训练数据、所述音色特征和所述目标频谱生成目标函数;
根据所述目标函数进行迭代训练得到所述基础模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一训练数据进行预处理,包括:
对所述第一训练数据中的所述文本信息进行分词处理;
将分词后的所述文本信息转化成对应的标准音素。
4.根据权利要求3所述的方法,其特征在于,所述通过所述音色学习模块对所述特征编码向量进行处理得到音色特征,包括:
获取每一语义编码层对预处理后的第一训练数据进行编码得到对应的特征编码向量;
根据每一所述特征编码向量生成第一音色基函数,并生成每一所述特征编码向量对应的第一音色调整系数;
根据每一所述第一音色基函数和所述第一音色调整系数生成第一音色特征。
5.根据权利要求4所述的方法,其特征在于,所述通过所述音色学习模块对所述特征编码向量进行处理得到音色特征之后,还包括:
对各所述特征编码向量进行长度调整得到对应的目标编码特征向量;
所述对各所述特征编码向量进行长度调整得到对应的目标编码特征向量,包括:
根据所述第一音色特征得到对应的长度信息;
根据所述长度信息对所述特征编码向量进行相应的长度调整,得到对应的目标编码向量。
6.根据权利要求5所述的方法,其特征在于,所述通过所述音色学习模块对所述特征编码向量进行处理得到音色特征,包括:
获取每一语义解码层对所述目标编码向量进行解码得到对应的目标解码向量;
根据每一所述目标解码向量生成第二音色基函数,并生成每一所述目标解码向量对应的第二音色调整系数;
根据每一所述第二音色基函数和所述第二音色调整系数生成第二音色特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述特征编码向量以及所述音色特征进行解码得到对应的目标频谱,包括:
根据所述目标特征解码向量以及所述第二音色特征进行解码得到对应的目标频谱。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一训练数据、所述音色特征和所述目标频谱生成目标函数,包括:
根据真实频谱和所述目标频谱的差值得到所述真实损失值,所述真实频谱为所述语音数据对应的频谱数据;
根据所述长度信息和目标长度信息的差值得到所述长度损失值,所述长度信息根据各所述第一音色特征得到,所述目标长度信息为所述语音数据对应的长度数据;
根据第一音色特征和所述第二音色特征得到所述音色损失值;
根据所述真实损失值、所述长度损失值和所述音色损失值生成所述目标函数。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,包括:
修改所述音色学习模块的音色调整系数的表达;
根据所述第二训练数据进行训练,以对所述音色学习模块的修改后表达的音色调整系数进行训练,得到目标模型。
10.一种语音合成方法,其特征在于,包括:
获取文本信息;
将所述文本信息输入至迁移学习得到的目标模型中,得到所述文本信息对应的目标语音。
11.一种语音合成模型的训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一训练数据;
训练模块,用于对所述第一训练数据进行训练得到基础模型,所述基础模型包括音色学习模块,所述音色学习模块在所述第一训练数据训练的过程中区分不同音色的差异,并得到所述不同音色对应的模型参数;
第二获取模块,用于获取第二训练数据;
第二训练模块,用于根据所述第二训练数据对训练完成的基础模型进行迁移学习得到目标模型,其中,所述迁移学习仅对所述音色学习模块的模型参数进行修改。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9或10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9或10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9或10中任一项所述的方法的步骤。
CN202210146068.5A 2022-02-17 2022-02-17 语音合成模型的训练方法、装置、设备、存储介质和产品 Pending CN114464163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210146068.5A CN114464163A (zh) 2022-02-17 2022-02-17 语音合成模型的训练方法、装置、设备、存储介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210146068.5A CN114464163A (zh) 2022-02-17 2022-02-17 语音合成模型的训练方法、装置、设备、存储介质和产品

Publications (1)

Publication Number Publication Date
CN114464163A true CN114464163A (zh) 2022-05-10

Family

ID=81414534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210146068.5A Pending CN114464163A (zh) 2022-02-17 2022-02-17 语音合成模型的训练方法、装置、设备、存储介质和产品

Country Status (1)

Country Link
CN (1) CN114464163A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226309A1 (zh) * 2022-05-24 2023-11-30 华为云计算技术有限公司 一种模型训练方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023226309A1 (zh) * 2022-05-24 2023-11-30 华为云计算技术有限公司 一种模型训练方法及相关设备

Similar Documents

Publication Publication Date Title
CN112687259B (zh) 一种语音合成方法、装置以及可读存储介质
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
CN111968618B (zh) 语音合成方法、装置
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN112786007A (zh) 语音合成方法、装置、可读介质及电子设备
CN112837669B (zh) 语音合成方法、装置及服务器
JP2022158735A (ja) 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム
CN114882862A (zh) 一种语音处理方法及相关设备
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN114360493A (zh) 语音合成方法、装置、介质、计算机设备和程序产品
CN114255740A (zh) 语音识别方法、装置、计算机设备和存储介质
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
JP2023169230A (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
CN114038484B (zh) 语音数据处理方法、装置、计算机设备和存储介质
KR102639322B1 (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
CN113555003B (zh) 语音合成方法、装置、电子设备及存储介质
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
CN114495896A (zh) 一种语音播放方法及计算机设备
CN114566140A (zh) 语音合成模型训练方法、语音合成方法、设备及产品
CN113314097A (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
CN113299270B (zh) 语音合成系统的生成方法、装置、设备及存储介质
CN116266266B (zh) 多音字消歧方法、装置、设备及存储介质
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质
CN117711372A (zh) 语音合成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination