CN113345410A - 通用语音、目标语音合成模型的训练方法及相关装置 - Google Patents
通用语音、目标语音合成模型的训练方法及相关装置 Download PDFInfo
- Publication number
- CN113345410A CN113345410A CN202110513379.6A CN202110513379A CN113345410A CN 113345410 A CN113345410 A CN 113345410A CN 202110513379 A CN202110513379 A CN 202110513379A CN 113345410 A CN113345410 A CN 113345410A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- model
- modeling
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 107
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 107
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 77
- 238000012512 characterization method Methods 0.000 claims description 56
- 238000013434 data augmentation Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000013016 damping Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其是涉及一种通用语音、目标语音合成模型的训练方法及相关装置。
背景技术
端到端的语音合成模型已经能够合成接近人类的语音,但是训练这种基于神经网络的端到端的语音合成模型需要大量标注有文本信息的语音样本,而获取标注有文本信息的语音样本代价昂贵。对于标注有文本信息的语音样本稀缺的语种,构建高自然度的语音合成模型是比较困难的。
发明内容
本发明提供一种通用语音、目标语音合成模型的训练方法及相关装置,其能够降低语音合成模型的代价。
为解决上述技术问题,本发明提供的第一个技术方案为:提供一种通用语音合成模型的训练方法,包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。
其中,利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型的步骤,包括:对语音样本数据进行处理,进而得到语音样本数据对应的上下文表征向量以及第二语音建模数据;利用上下文表征向量以及第二语音建模数据对初始语音建模模型进行训练,进而得到语音建模模型。
其中,对语音样本数据进行处理,进而得到语音样本数据对应的上下文表征向量以及第二语音建模数据的步骤,包括:对语音样本数据进行特征提取,进而得到第一表征向量;利用上下文表征算法对第一表征向量进行处理,进而得到上下文表征向量;利用乘积量化的方法对第一表征向量进行处理,进而得到第二语音建模数据。
其中,利用上下文表征向量以及第二语音建模数据对初始语音建模模型进行训练,进而得到语音建模模型的步骤,包括:利用上下文表征向量以及第二语音建模数据构建目标函数,进而得到第一语音建模模型;利用乘积量化的方法基于交叉熵函数得到辅助语音建模模型;利用第一语音建模模型以及辅助语音建模模型得到语音建模模型。
其中,对语音样本数据进行特征提取,进而得到第一表征向量的步骤,包括:对语音样本数据进行归一化处理,得到归一化数据;对归一化数据进行特征提取,进而得到第一表征向量。
其中,利用上下文表征算法对第一表征向量进行处理,进而得到上下文表征向量的步骤,包括:利用自注意力算法以及前馈网络算法对第一表征向量进行处理,进而得到上下文表征向量。
其中,利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型的步骤,包括:利用第一语音建模数据对ticotron模型进行训练,进而得到通用语音合成模型,其中,第一语音建模数据包含频谱数据。
其中,语音样本数据包括至少一种语种。
为解决上述技术问你,本发明提供的第二个技术方案为:提供一种目标语音合成模型的训练方法,包括:获取目标语种语音数据,其中,目标语种语音数据标注有文本信息;利用目标语种语音数据对通用语音合成模型进行训练,进而得到目标语音合成模型;其中,通用语音合成模型通过上述任一项的方法训练所得。
其中,利用目标语种语音数据对通用语音合成模型进行训练,进而得到目标语音合成模型的步骤,包括:对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据;利用处理后的目标语种语音数据通用语音合成模型进行训练,进而得到目标语音合成模型。
其中,对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据的步骤,包括:利用第一预设范围的混响数据、第二预设范围的余响数据以及第三预设范围的阻尼控制系数对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据。
为解决上述技术问题,本发明提供的第三个技术方案为:提供一种电子设备,包括:存储器和处理器,其中,存储器存储有程序指令,处理器从存储器调取程序指令以执行上述任一项的通用语音合成模型的训练方法;和/或处理器从存储器调取程序指令以执行上述任一项的目标语音合成模型的训练方法。
为解决上述技术问题,本发明提供的第四个技术方案为:提供一种存储介质,存储有程序文件,程序文件能够被执行以实现上述任一项的通用语音合成模型的训练方法;和/或程序文件能够被执行以实现上述任一项的目标语音合成模型的训练方法。
本发明的有益效果,区别于现有技术的情况,本发明利用未标注文本信息的语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,利用语音建模模型对语音测试数据进行处理,得到第一语音建模数据,利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明通用语音合成模型的训练方法的第一实施例的流程示意图;
图2为图1中步骤S11的一实施例的流程示意图;
图3为图2中步骤S22的一实施例的流程示意图;
图4为本发明目标语音合成模型的训练方法的第一实施例的流程示意图;
图5为本发明电子设备的一实施例的结构示意图;
图6为本发明计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果特定姿态发生改变时,则方向性指示也相应地随之改变。本申请实施例中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或组件。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
首先,传统的语音合成模型例如隐马尔可夫模型或者循环神经网络模型等统计参数语音合成模型使用语料较少,但对标注精度要求较高,同时合成语音的自然度较低,常常伴随较为明显的机器音。其次,端到端语音合成模型利用文本编码、声学自回归或并行建模、注意力机制以及时长建模方法,大大提升了合成语音的稳定性,但是极大提升了可训练参数量,从而提高了平行语料(平行语料为标注要文本信息的语音样本)的规模要求。为了降低端到端语音合成模型的所需数据量,部分技术方案利用语音合成和识别之间的对偶性,仅需要少量平行语料就可构建完成端到端语音合成模型,但该方法最终的合成语音远远不及一般的端到端语音合成模型。
本申请提供一种通用语音、目标语音合成模型的训练方法以及相关装置,其能够降低训练难度以及代价,具体结合附图以及以下实施例进行说明。
请参见图1,为本发明通用语音合成模型的训练方法的第一实施例的流程示意图,具体包括:
步骤S11:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据。
具体的,收集大量的语音样本数据,语音样本数据包括至少一种语种,例如语音样本数据包括中文语音、英文语音、法语语音、意大利语语音等。本申请中,收集的语音样本数据不需要标注文本信息。
利用收集的语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型。在一实施例中,初始语音建模模型包括三个部分分别为特征提取器、上下文表征模块以及量化器。具体的,请结合图2,步骤S11具体包括:
步骤S21:对语音样本数据进行处理,进而得到语音样本数据对应的上下文表征向量以及第二语音建模数据。
具体的,在一实施例中,对语音样本数据进行特征提取,进而得到第一表征向量,进一步利用上下文表征算法对第一表征向量进行处理,进而得到上下文表征向量。利用乘积量化的方法对第一表征向量进行处理,进而得到第二语音建模数据。
在一实施例中,利用特征提取器对语音样本数据进行特征提取,进而得到第一表征向量。为了简化特征提取过程,预先对语音样本数据进行归一化处理,然后利用特征提取器对语音样本数据进行特征提取,进而得到第一表征向量。具体的,特征提取器在对语音样本数据进行处理时,可以将较长的语音样本数据按照时间分为多个语音片段,然后进行特征提取,最后输出若干时间步语音片段的第一表征向量。特征提取器由因果卷积层和归一化层组成,在另一实施例中,特征提取器还可以由因果卷积层组成。需要说明的是,因果卷积层的步数即为语音片段的第一表征向量的时间步步数。第t个时间步的语音片段的第一表征向量记作Zt。
利用上下文表征模块对第一表征向量进行处理,得到上下文表征向量。将第一表征向量Zt作为上下文表征模块的输入以得到上下文表征向量。其中,上下文表征模块使用Transformer中的自注意力和前馈网络。也即利用Transformer中的自注意力算法以及前馈网络算法对第一表征向量进行处理,进而得到上下文表征向量。自注意力算法可以使得每一个时间步的语音片段的第一表征向量与其他任何一个语音片段的第一表征向量产生的信息交互和融合,从而使得编码后的表征向量蕴含上下文信息。前馈网络算法能够增强上下文表征模块的表达能力。在一实施例中,为了提高预测能力,可以以一定概率将部分第一表征向量替换为全零的特征向量,再利用上下文模块进行处理,进而得到上下文表征向量。对于第t个时间步的语音片段的第一表征向量Zt,得到的上下文表征向量记作Ct。
利用乘积量化的方法对第一表征向量进行处理,进而得到第二语音建模数据。将第一表征向量作为量化器的输入,进而输出第二语音建模数据。具体的,量化器包含M个码本,每个码本包括N个码本单元。在量化时,在时间步t上,从每一个码本中选择一个码本单元,然后将所有选中的码本单元进行拼接,作为量化器的输出,即第二语音建模数据,第一语音建模数据记作Qt。第m个码本选中第n个码本单元的概率,可以由如下公式(1)计算得到:
其中,lm,n∈RM×N为语音片段的第一表征向量Zt的归一化运算后的输出结果,τ≥0为超参数,可选为1,u=-log(-log(x)),x~N(0,1),N表示均匀采样。
语音片段的第一表征向量Zt是一个向量,假设Zt为一个512维的向量,码本个数取为M=3,每个码本中码本单元个数取为N=4。则将该第一表征向量Zt乘以一个512×12的矩阵,将第一表征向量Zt转换为维度为12的向量Lm,n,乘以的这个矩阵是可训练的。这样每个码本的每个码本单元就对应一个数字,然后将该维度是12的向量进行归一化,映射概率由如下公式(2)计算得到:
以此每一个码本单元都会对应一个Lm,n。
上述公式(1)中的u以及式中的un,uk是一个均匀分布的采样值,就是一个从0~1中随机选择的数字,具体选择哪个数字的概率服从均匀分布,从而引入一定的噪声,以便模拟采样过程。语音片段的第一表征向量zt表示一种分布,但是为了限制住其近乎无穷的空间,将其人为控制在有限个码本单元的空间中,量化的过程实际是根据语音片段的第一表征向量zt表示的分布,选择码本单元,来表示第一表征向量zt的过程。进行量化的主要目的是限制语音建模模型的向量空间,码本集合是有限的,模型无法表征所有的发音对立,从而鼓励模型将注意力集中在代表语音的最重要因素上,而非偶然出现的差异,比如背景噪音上。
步骤S22:利用上下文表征向量以及第二语音建模数据对初始语音建模模型进行训练,进而得到语音建模模型。
在得到上下文表征向量Ct以及第二语音建模数据Qt之后,利用上下文表征向量Ct以及第二语音建模数据Qt对初始语音建模模型进行训练,进而得到语音建模模型。
具体请结合图3,步骤S22包括:
步骤S31:利用上下文表征向量以及第二语音建模数据构建目标函数,进而得到第一语音建模模型。
具体的,在训练时,利用对抗学习的方法,为了迫使模型区分发音相似和不同的语音数据,引入目标函数(3):
其中,ct为上下文表征模块第t个时间步的输出的上下文表征向量,Qt为量化器的输出的第二语音建模数据,K为从语音中随机采样的负样本数量,sim为余弦相似度函数,Lm为第一语音建模模型。
步骤S32:利用乘积量化的方法基于交叉熵函数得到辅助语音建模模型。
利用乘积量化的方法基于交叉熵函数得到辅助语音建模模型。具体的,为了保证M个码本的N个码本单元保持较大的信息量,采用交叉熵鼓励各个码本单元保证足够的多样性,如如下公式(4)所示:
其中,M为码本个数,N为每个码本中码本单元的数量,vm,n为第m个码本中第n个码本单元,Ld为辅助语音建模模型。
步骤S33:利用第一语音建模模型以及辅助语音建模模型得到语音建模模型。
具体的,根据第一语音建模模型以及辅助语音建模模型得到语音建模模型。在一实施例中,将第一语音建模模型以及辅助语音建模模型相加,进而得到语音建模模型:L=Lm+Ld。
本实施例中,利用不标注文本的语音样本数据进行无监督训练得到语音建模模型,其能够降低语音合成模型的训练代价以及训练难度。
步骤S12:利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据。
具体的,获取语音测试数据,语音测试数据可以与语音样本数据相同,即直接利用语音建模模型对语音样本数据进行处理,进而得到第一语音建模数据。在一实施例中,语音测试数据可以为重新获取的与语音样本数据不同的数据。
语音建模模型通过上述步骤S11训练所得,利用训练所得的语音建模模型L对语音测试数据进行处理,进而得到第一语音建模数据,第一语音建模数据为类似于因素嵌入向量。
步骤S13:利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。
利用得到的第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。其中初始通用语音合成模型可以为ticotron模型。需要说明的是,第一语音建模数据包含由频谱数据,以此可以对初始通用语音合成模型进行有监督训练,进而得到通用语音合成模型。
初始通用语音合成模型一般包括文本前端、字符嵌入层、编码器、解码器以及声码器等。将第一语音建模数据送入初始通用语音合成模型,此时除了字符嵌入层之外,声学模型的编码器、解码器和注意力机制均参与到预训练中,使得在利用稀少的标注语料之前,除了字符嵌入层之外的所有模块均能够收敛,编码器能够将第一语音建模数据映射为表征语音信息的隐变量,注意力机制能够将编码器输出的隐变量和解码器输出的隐变量对齐,而解码器能够根据编码器和注意力机制提供的信息,合成对应的语音波形。在通用语音合成模型的预训练阶段,仅仅需要多个语种的语音测试数据。语音测试数据输入到语音建模模型中,输出类似于音素嵌入向量的第一语音建模数据,第一语音建模数据输入到初始通用语音合成模型中,重建语音波形。计算重建前后的语音差异,预训练除文本嵌入层之外的通用语音合成模型。因此,整个通用语音合成模型的预训练目标函数为如下公示(5):
Loss=LinearLoss+StopTokenLoss+RegulationLoss (5);
其中,LinearLoss为重建前后的线性谱损失,StopTokenLoss为重建前后的停止符损失,RegulationLoss为参数L2正则化,防止模型过拟合。重建前的语音即为步骤S11中的语音样本数据。为了减少计算量,利用从音频中提取的声学参数线性谱代替语音波形。
其中,LinearLoss通过如下公示(6)计算所得:
StopTokenLoss过如下公示(7)计算所得:
StopTokenLoss=-[y·log(p)+(1-y)·log(1-p)] (7);
其中,y为重建前停止符的真实概率分布,p是重建后通用语音合成模型输出的预测分布。
RegulationLoss通过如下公示(8)计算所得:
其中,K为通用语音合成模型的参数总数,wk为模型中的参数,这里排除偏置值、RNN以及线性映射中的可训练参数。
通过上述公式(5)、(6)、(7)、(8)即可利用第一语音建模数据训练得到通用语音合成模型。
本实施例中,利用不标注文本的语音样本数据进行无监督训练得到语音建模模型,然后利用语音建模模型输出的第一语音建模数据对初始通用语音合成模型进行训练,得到通用语音合成模型。其能够降低语音合成模型的训练代价以及训练难度。
具体的,通过不标注文本的语音样本数据进行无监督训练得到语音建模模型,然后利用语音建模模型输出的第一语音建模数据,第一语音建模数据为类似于文本或者因素嵌入向量,为训练通用语音合成模型提供了训练数据。本实施例的方法,对训练样本数据的规模要求较低,在合成语音质量和成本上都有较大突破。
请结合图4,为本发明目标语音合成模型的训练方法的一实施例的流程示意图,具体包括:
步骤S41:获取目标语种语音数据,其中,目标语种语音数据标注有文本信息。
在本实施例中,获取目标语音的语音数据,目标语音的语音数据标注有文本信息。例如,若要训练得到中文语音合成模型,则需要获取中文的语音数据,并标注文本信息;在例如,若要训练得到英文语音合成模型,则需要获取英文的语音数据,并标注文本信息。
步骤S42:利用目标语种语音数据对通用语音合成模型进行训练,进而得到目标语音合成模型。
在本实施例中,可以获取较少的目标语种语音数据即可训练得到目标语音合成模型。
具体的,在一实施例中,可以先对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据;利用处理后的目标语种语音数据通用语音合成模型进行训练,进而得到目标语音合成模型。例如,若获取的目标语种语音数据为10s,通过数据增广处理可以将目标语种语音数据扩展为100s,然后利用100s的目标语种语音数据对通用语音合成模型进行训练。其中,通用语音合成模型通过上述图1至图3所示的方法训练所得。
在一具体实施例种,数据增广的的主要方式包括:对所有的目标语种语音数据随机地进行数字信号处理,比如加混响、截断幅值较高的样本点、随机微调音频帧中的基频、随机丢弃波形中的若干帧、语音增强去除可能的背景噪声,而对应的文本原样复制一份,从而能够使目标语种语音数据的数量规模增大若干倍。利用第一预设范围的混响数据、第二预设范围的余响数据以及第三预设范围的阻尼控制系数对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据。在进行数据增广时,所有的信号处理参数均为随机值,以便增大平行语料的多样性,例如向原始语音中加混响的空间大小设置为0~100的随机整数,余响大小是40~50的随机整数,阻尼控制系数则设置为40~50的随机整数。之后加载预训练好的通用语音合成模型的除文本嵌入层的对应参数,并对文本嵌入层进行随机初始化,利用数据增广之后的语料对整个通用语音合成模型进行微调,以便整个系统快速收敛,增强稳定性,防止随机初始化的文本嵌入层造成整个模型的紊乱。而数据增广后的平行语料不可避免地引入了噪音,为了提升最终的合成语音音质,在训练的最后阶段,例如训练的最后2万步时仅使用真实、未经信号处理的语音进行训练,以便模型能够产出最为自然的语音。最终训练完成的目标语音合成模型能够获得与一般语音合成模型,如训练语料为本案低资源语音合成系统10倍的语音合成模型相媲美的稳定性和合成语音自然度。
具体的,本实施例的目标语音合成模型,通过不标注文本的语音样本数据进行无监督训练得到语音建模模型,然后利用语音建模模型输出的第一语音建模数据,第一语音建模数据为类似于文本或者因素嵌入向量,为训练通用语音合成模型提供了训练数据。本实施例的方法,对训练样本数据的规模要求较低,在合成语音质量和成本上都有较大突破。通过数据增广的方式仅仅需要较少的目标语种语音数据即可在通用语音合成模型的基础上训练得到目标语音合成模型,并且得到的目标语音合成模型的稳定性和语音合成的自然度又有突出的进步。
请参见图5,为本发明电子设备的一实施例的结构示意图,电子设备包括相互连接的存储器202和处理器201。
存储器202用于存储实现上述任意一项的方法的程序指令。
处理器201用于执行存储器202存储的程序指令。
其中,处理器201还可以称为CPU(Central Processing Unit,中央处理单元)。处理器201可能是一种集成电路芯片,具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器202可以为内存条、TF卡等,可以存储设备的电子设备中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器,电子设备才有记忆功能,才能保证正常工作。电子设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图6为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有方法的程序文件203,其中,该程序文件203可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (13)
1.一种通用语音合成模型的训练方法,其特征在于,包括:
利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,所述语音样本数据为非标注文本信息的样本数据;
利用所述语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;
利用所述第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。
2.根据权利要求1所述的方法,其特征在于,所述利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型的步骤,包括:
对所述语音样本数据进行处理,进而得到所述语音样本数据对应的上下文表征向量以及第二语音建模数据;
利用所述上下文表征向量以及所述第二语音建模数据对所述初始语音建模模型进行训练,进而得到所述语音建模模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音样本数据进行处理,进而得到所述语音样本数据对应的上下文表征向量以及第二语音建模数据的步骤,包括:
对所述语音样本数据进行特征提取,进而得到第一表征向量;
利用上下文表征算法对所述第一表征向量进行处理,进而得到所述上下文表征向量;
利用乘积量化的方法对所述第一表征向量进行处理,进而得到所述第二语音建模数据。
4.根据权利要求3所述的方法,其特征在于,所述利用所述上下文表征向量以及所述第二语音建模数据对所述初始语音建模模型进行训练,进而得到所述语音建模模型的步骤,包括:
利用所述上下文表征向量以及所述第二语音建模数据构建目标函数,进而得到第一语音建模模型;
利用乘积量化的方法基于交叉熵函数得到辅助语音建模模型;
利用所述第一语音建模模型以及所述辅助语音建模模型得到所述语音建模模型。
5.根据权利要求3所述的方法,其特征在于,所述对所述语音样本数据进行特征提取,进而得到第一表征向量的步骤,包括:
对所述语音样本数据进行归一化处理,得到归一化数据;
对所述归一化数据进行特征提取,进而得到所述第一表征向量。
6.根据权利要求3所述的方法,其特征在于,所述利用上下文表征算法对所述第一表征向量进行处理,进而得到所述上下文表征向量的步骤,包括:
利用自注意力算法以及前馈网络算法对所述第一表征向量进行处理,进而得到所述上下文表征向量。
7.根据权利要求1所述的方法,其特征在于,所述利用所述第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型的步骤,包括:
利用所述第一语音建模数据对ticotron模型进行训练,进而得到通用语音合成模型,其中,所述第一语音建模数据包含频谱数据。
8.根据权利要求1所述的方法,其特征在于,所述语音样本数据包括至少一种语种。
9.一种目标语音合成模型的训练方法,其特征在于,包括:
获取目标语种语音数据,其中,所述目标语种语音数据标注有文本信息;
利用所述目标语种语音数据对通用语音合成模型进行训练,进而得到所述目标语音合成模型;其中,所述通用语音合成模型通过上述权利要求1~9任一项所述的方法训练所得。
10.根据权利要求9所述的方法,其特征在于,所述利用所述目标语种语音数据对通用语音合成模型进行训练,进而得到所述目标语音合成模型的步骤,包括:
对所述目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据;
利用处理后的目标语种语音数据通用语音合成模型进行训练,进而得到所述目标语音合成模型。
11.根据权利要求10所述的方法,其特征在于,所述对所述目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据的步骤,包括:
利用第一预设范围的混响数据、第二预设范围的余响数据以及第三预设范围的阻尼控制系数对所述目标语种语音数据进行数据增广处理,进而得到处理后的所述目标语种语音数据。
12.一种电子设备,其特征在于,包括:存储器和处理器,其中,所述存储器存储有程序指令,所述处理器从所述存储器调取所述程序指令以执行如权利要求1-8任一项所述的通用语音合成模型的训练方法;和/或
所述处理器从所述存储器调取所述程序指令以执行如权利要求9-11任一项所述的目标语音合成模型的训练方法。
13.一种计算机可读存储介质,其特征在于,存储有程序文件,所述程序文件能够被执行以实现如权利要求1-8任一项所述的通用语音合成模型的训练方法;和/或
所述程序文件能够被执行以实现如权利要求9-11任一项所述的目标语音合成模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513379.6A CN113345410B (zh) | 2021-05-11 | 通用语音、目标语音合成模型的训练方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513379.6A CN113345410B (zh) | 2021-05-11 | 通用语音、目标语音合成模型的训练方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345410A true CN113345410A (zh) | 2021-09-03 |
CN113345410B CN113345410B (zh) | 2024-05-31 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243508A1 (en) * | 2007-03-28 | 2008-10-02 | Kabushiki Kaisha Toshiba | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof |
US20160343366A1 (en) * | 2015-05-19 | 2016-11-24 | Google Inc. | Speech synthesis model selection |
US20190163747A1 (en) * | 2017-11-30 | 2019-05-30 | Samsung Electronics Co., Ltd. | Language model translation and training method and apparatus |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
CN110264991A (zh) * | 2019-05-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
KR20200048620A (ko) * | 2018-10-30 | 2020-05-08 | 주식회사 셀바스에이아이 | 음성 합성 모델의 학습용 데이터 생성 방법 및 음성 합성 모델의 학습 방법 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN111968618A (zh) * | 2020-08-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置 |
CN112365876A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN112735379A (zh) * | 2020-12-30 | 2021-04-30 | 北京大米科技有限公司 | 语音合成方法、装置、电子设备和可读存储介质 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243508A1 (en) * | 2007-03-28 | 2008-10-02 | Kabushiki Kaisha Toshiba | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof |
US20160343366A1 (en) * | 2015-05-19 | 2016-11-24 | Google Inc. | Speech synthesis model selection |
US20190163747A1 (en) * | 2017-11-30 | 2019-05-30 | Samsung Electronics Co., Ltd. | Language model translation and training method and apparatus |
KR20200048620A (ko) * | 2018-10-30 | 2020-05-08 | 주식회사 셀바스에이아이 | 음성 합성 모델의 학습용 데이터 생성 방법 및 음성 합성 모델의 학습 방법 |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
CN110264991A (zh) * | 2019-05-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN111968618A (zh) * | 2020-08-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置 |
CN112365876A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN112735379A (zh) * | 2020-12-30 | 2021-04-30 | 北京大米科技有限公司 | 语音合成方法、装置、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948066B2 (en) | Processing sequences using convolutional neural networks | |
US11482207B2 (en) | Waveform generation using end-to-end text-to-waveform system | |
Valle et al. | Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN111837178A (zh) | 语音处理系统和处理语音信号的方法 | |
CN112289299B (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
US20220238116A1 (en) | A Method Of Sequence To Sequence Data Processing And A System For Sequence To Sequence Data Processing | |
CN114038447A (zh) | 语音合成模型的训练方法、语音合成方法、装置及介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US20230230571A1 (en) | Audio processing method and apparatus based on artificial intelligence, device, storage medium, and computer program product | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112712789B (zh) | 跨语言音频转换方法、装置、计算机设备和存储介质 | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
Sharma et al. | Reducing footprint of unit selection based text-to-speech system using compressed sensing and sparse representation | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
CN116312617A (zh) | 语音转换方法、装置、电子设备及存储介质 | |
CN113327578B (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN113345410B (zh) | 通用语音、目标语音合成模型的训练方法及相关装置 | |
CN113345410A (zh) | 通用语音、目标语音合成模型的训练方法及相关装置 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
CN112786004B (zh) | 语音合成方法以及电子设备、存储装置 | |
Park et al. | Perturbation AUTOVC: Voice Conversion from Perturbation and Autoencoder Loss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |