CN112786003A - 语音合成模型训练方法、装置、终端设备及存储介质 - Google Patents
语音合成模型训练方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112786003A CN112786003A CN202011602180.2A CN202011602180A CN112786003A CN 112786003 A CN112786003 A CN 112786003A CN 202011602180 A CN202011602180 A CN 202011602180A CN 112786003 A CN112786003 A CN 112786003A
- Authority
- CN
- China
- Prior art keywords
- voice
- discriminator
- loss value
- generator
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 91
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 48
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种语音合成模型训练方法、装置、终端设备及存储介质,该方法包括:将已标注语音样本和未标注样本分别输入生成器进行数据生成得到第一生成语音和第二生成语音;将已标注语音样本、第一生成语音和第二生成语音分别输入判别器进行数据识别得到第一判别结果和第二判别结果,根据第一判别结果和第二判别结果分别进行损失计算得到第一损失值和第二损失值,根据第二损失值和第一损失值对判别器和生成器进行参数权值的更新。本申请采用少量有标签的已标注语音样本和大量没有标签的未标注语音样本对语音合成模型进行模型训练,降低了对已标注语音样本的需求,提高了模型训练效率。此外,本申请还涉及区块链技术。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种语音合成模型训练方法、装置、终端设备及存储介质。
背景技术
语音合成是人机交互中的重要一环,通过语音合成可以将文本数据转换成相应的语音数据,语音合成可用于客服机器人、语音操作界面或有声书播报等场景。语音合成均是基于语音合成模型实现语音合成效果,语音合成模型通过接收文本数据作为输入,输出音频的梅尔谱和线性谱,再通过一声码转换将梅尔谱和线性谱转换为声波,以达到语音合成的效果。
现有的语音合成模型训练过程中,需要大量的已标注语音样本,导致需要花费大量的人力进行语音样本的标注,降低了语音合成模型的训练效率。
发明内容
有鉴于此,本申请实施例提供了一种语音合成模型训练方法、装置、终端设备及存储介质,以解决现有技术的语音合成模型训练过程中,由于需要花费大量的人力进行语音样本标注,所导致的语音合成模型训练效率低下的问题。
本申请实施例的第一方面提供了一种语音合成模型训练方法,包括:
获取语音样本数据,所述语音样本数据包括已标注语音样本和未标注语音样本,并将所述已标注语音样本输入语音合成模型中的生成器进行数据生成,得到第一生成语音;
将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,并根据所述已标注语音样本和所述第一判别结果进行损失计算,得到第一损失值;
将所述未标注语音样本输入所述生成器进行数据生成,得到第二生成语音,并将所述第二生成语音输入所述判别器进行数据识别,得到第二判别结果;
根据所述第二判别结果进行损失计算,得到第二损失值,并根据所述第二损失值对所述判别器进行参数权值的更新;
对所述第二损失值和所述第一损失值进行加权计算,得到第三损失值,并根据所述第三损失值对所述生成器进行参数权值的更新;
对参数权值更新后的所述生成器和所述判别器进行收敛检测;
若所述生成器或所述判别器未收敛,则返回执行所述获取语音样本数据的步骤以及后续步骤,直至所述生成器和所述判别器收敛。
进一步地,所述将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,包括:
将所述已标注语音样本和所述第一生成语音输入所述判别器,并根据所述判别器中的卷积神经网络分别对所述已标注语音样本和所述第一生成语音进行特征提取,得到第一语音特征和第二语音特征;
将所述第一语音特征和所述第二语音特征输入所述判别器中的自注意力网络进行向量转换,得到第一语音向量和第二语音向量;
将所述第一语音向量和所述第二语音向量输入所述判别器中的分类网络进行概率计算,得到所述第一判别结果。
进一步地,所述将所述已标注语音样本和所述第一生成语音输入所述判别器之前,还包括:
获取所述已标注样本中的样本音频,并根据预设时长对所述样本音频和所述第一生成语音进行语音分割,得到分割语音;
若任一所述分割语音的语音时长小于所述预设时长,则对所述分割语音进行语音补偿,所述语音补偿用于将所述分割语音的语音时长补偿至所述预设时长。
进一步地,所述根据所述第二判别结果进行损失计算所采用的损失函数是:
其中,D是所述判别器,G是所述生成器,minDVLSGAN(D)是所述第二损失值中所述判别器对应的最小损失值,VLSGAN(G)是所述第二损失值中所述生成器对应的最小损失值,VLSGAN(D)与VLSGAN(G)之间的和等于所述第二损失值,pdata(x)是所述未标注语音样本,z是噪声,Pz(z)是所述第二生成语音。
进一步地,所述对所述第二损失值和所述第一损失值进行加权计算所采用的计算公式是:
L=Ltacotron+λVLSGAN(D)
其中,Ltacotron是所述第一损失值,L是所述第三损失值,λ是预设权重。
进一步地,所述对参数权值更新后的所述生成器和所述判别器进行收敛检测,包括:
若所述第二损失值小于第一损失阈值,则判定所述判别器收敛,若所述第二损失值大于或等于所述第一损失阈值,则判定所述判别器未收敛;
若所述第三损失值小于第二损失阈值,则判定所述生成器收敛,若所述第三损失值大于或等于所述第二损失阈值,则判定所述生成器未收敛。
本申请实施例的第二方面提供了一种语音合成方法,包括:
获取待合成文本,并将所述待合成文本输入采用上述语音合成模型训练方法训练后的所述语音合成模型进行语音合成,得到目标语音。
本申请实施例的第三方面提供了一种语音合成模型训练装置,包括:
数据获取单元,用于获取语音样本数据,所述语音样本数据包括已标注语音样本和未标注语音样本,并将所述已标注语音样本输入语音合成模型中的生成器进行数据生成,得到第一生成语音;
数据识别单元,用于将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,并根据所述已标注语音样本和所述第一判别结果进行损失计算,得到第一损失值;
数据生成单元,用于将所述未标注语音样本输入所述生成器进行数据生成,得到第二生成语音,并将所述第二生成语音输入所述判别器进行数据识别,得到第二判别结果;
判别器更新单元,用于根据所述第二判别结果进行损失计算,得到第二损失值,并根据所述第二损失值对所述判别器进行参数权值的更新;
生成器更新单元,用于对所述第二损失值和所述第一损失值进行加权计算,得到第三损失值,并根据所述第三损失值对所述生成器进行参数权值的更新;
收敛检测单元,用于对参数权值更新后的所述生成器和所述判别器进行收敛检测,若所述生成器或所述判别器未收敛,则返回执行所述获取语音样本数据的步骤以及后续步骤,直至所述生成器和所述判别器收敛。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的语音合成模型训练方法的各步骤。
本申请实施例的第五方面提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的语音合成模型训练方法的各步骤。
实施本申请实施例提供的一种语音合成模型训练方法、装置、终端设备及存储介质具有以下有益效果:
本申请实施例提供的一种语音合成模型训练方法,通过将未标注语音样本输入生成器进行数据生成,以得到未携带标注信息的第二生成语音,通过将未携带标注信息的第二生成语音输入判别器进行数据识别,以控制判别器对未携带标注信息的第二生成语音进行真实数据的判别,通过根据第二判别结果进行损失计算得到第二损失值,并根据第二损失值对判别器进行参数权值的更新,以采用半监督的方式对语音合成模型进行模型训练,即,采用少量有标签的已标注语音样本和大量没有标签的未标注语音样本对语音合成模型进行模型训练,降低了对已标注语音样本的需求,进而提高了语音合成模型的训练效率,通过对第二损失值和第一损失值进行加权计算得到第三损失值,并根据第三损失值对生成器进行参数权值的更新,有效的提高了生成器中参数权值更新的准确性,进而提高了收敛后语音合成模型训练的准确性和鲁棒性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音合成模型训练方法的实现流程图;
图2是本申请另一实施例提供的一种语音合成模型训练方法的实现流程图;
图3是本申请实施例提供的一种语音合成模型训练装置的结构框图;
图4是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的语音合成模型训练方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种语音合成模型训练方法的实现流程图,包括:
步骤S10,获取语音样本数据,并将所述语音样本数据中的已标注语音样本输入语音合成模型中的生成器进行数据生成,得到第一生成语音。
其中,该语音样本数据包括已标注语音样本和未标注语音样本,该已标注语音样本包括样本音频和该样本音频对应的样本文本,该样本文本用于对该样本音频起到标签标注的效果,该未标注语音样本中仅携带有样本音频,且该未标注语音样本和已标注语音样本中的样本音频均是真实音频。
具体的,该已标注语音样本的数量小于该未标注语音样本的数量,该语音合成模型采用生成式对抗模型,该语音合成模型包括生成器和与生成器连接的判别器,该生成器包括编码器和与编码器连接的解码器,该生成器基于输入数据的音频特征生成新的音频数据,该判别器用于判别生成器生成的音频数据是否为真实音频。
该步骤中,通过将已标注语音样本输入生成器进行数据生成,以控制该生成器基于已标注语音样本中样本音频的音频特征进行数据生成,得到该第一生成语音,具体的,该步骤中,通过该生成器中的编码器对已标注语音样本中样本音频的音频特征进行编码,并将音频特征的编码结果输送至解码器进行特征解码,得到该第一生成语音。
步骤S20,将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,并根据所述已标注语音样本和所述第一判别结果进行损失计算,得到第一损失值。
其中,该判别器通过分别提取该已标注语音样本和第一生成语音中的音频特征,并对提取到的音频特征进行相似度计算,以得到该第一判别结果,该第一判别结果用于表征已标注语音样本中样本音频与第一生成语音之间的语音相似度。
可选的,该步骤中,该音频特征包括梅尔谱特征、短时能量特征、过零率特征、短时自相关系数和/或比特率特征等。
具体的,该步骤中,通过根据已标注语音样本和第一判别结果进行损失计算,能有效的计算到生成器进行数据生成时的误差,该第一损失值用于表征该生成器对已标注语音样本进行数据生成时,生成真实音频数据的能力,例如,当该第一损失值越小时,则该生成器对已标注语音样本进行数据生成时,生成的真实音频的性能越好。
步骤S30,将所述未标注语音样本输入所述生成器进行数据生成,得到第二生成语音,并将所述第二生成语音输入所述判别器进行数据识别,得到第二判别结果。
其中,通过将未标注语音样本输入生成器进行数据生成,以得到未携带标注信息的第二生成语音,通过将未携带标注信息的第二生成语音输入判别器进行数据识别,以控制判别器对未携带标注信息的第二生成语音进行真实数据的判别,得到该第二判别结果。
步骤S40,根据所述第二判别结果进行损失计算,得到第二损失值,并根据所述第二损失值对所述判别器进行参数权值的更新。
具体的,该步骤中,所述根据所述第二判别结果进行损失计算所采用的损失函数是:
其中,D是所述判别器,G是所述生成器,minDVLSGAN(D)是所述第二损失值中所述判别器对应的最小损失值,VLSGAN(G)是所述第二损失值中所述生成器对应的最小损失值,VLSGAN(D)与VLSGAN(G)之间的和等于所述第二损失值,pdata(x)是所述未标注语音样本,z是噪声,Pz(z)是所述第二生成语音,E是数学期望运算。
该步骤中,通过将第二损失值在语音合成模型中进行反向传播操作,并根据随机梯度下降方法调整判别器的参数权值,以达到对判别器进行参数权值更新的效果。
步骤S50,对所述第二损失值和所述第一损失值进行加权计算,得到第三损失值,并根据所述第三损失值对所述生成器进行参数权值的更新。
具体的,该步骤中,所述对所述第二损失值和所述第一损失值进行加权计算所采用的计算公式是:
L=Ltacotron+λVLSGAN(D)
其中,Ltacotron是所述第一损失值,L是所述第三损失值,λ是预设权重,λ可以根据需求进行设置,基于λ能有效的对第三损失值进行参数调节,进而提高了对生成器中参数权值更新的灵活性。
可选的,该步骤中,通过将第三损失值在语音合成模型中进行反向传播操作,并根据随机梯度下降方法调整生成器的参数权值,以达到对生成器进行参数权值更新的效果。
步骤S60,对参数权值更新后的所述生成器和所述判别器进行收敛检测。
具体的,该步骤中,所述对参数权值更新后的所述生成器和所述判别器进行收敛检测,包括:
若所述第二损失值小于第一损失阈值,则判定所述判别器收敛,若所述第二损失值大于或等于所述第一损失阈值,则判定所述判别器未收敛;
若所述第三损失值小于第二损失阈值,则判定所述生成器收敛,若所述第三损失值大于或等于所述第二损失阈值,则判定所述生成器未收敛;
其中,该第一损失阈值和第二损失阈值均可以根据需求进行设置,该第一损失阈值用于检测参数权值更新后的判别器,识别真实音频的效果是否大于预设效果,该第二损失阈值用于检测参数权值更新后的生成器,生成真实数据的效果是否大于预设效果。
步骤S70,若所述生成器或所述判别器未收敛,则返回执行所述获取语音样本数据的步骤以及后续步骤,直至所述生成器和所述判别器收敛。
本实施例中,通过将未标注语音样本输入生成器进行数据生成,以得到未携带标注信息的第二生成语音,通过将未携带标注信息的第二生成语音输入判别器进行数据识别,以控制判别器对未携带标注信息的第二生成语音进行真实数据的判别,通过根据第二判别结果进行损失计算得到第二损失值,并根据第二损失值对判别器进行参数权值的更新,以采用半监督的方式对语音合成模型进行模型训练,即,采用少量有标签的已标注语音样本和大量没有标签的未标注语音样本对语音合成模型进行模型训练,降低了对已标注语音样本的需求,进而提高了语音合成模型的训练效率,通过对第二损失值和第一损失值进行加权计算得到第三损失值,并根据第三损失值对生成器进行参数权值的更新,有效的提高了生成器中参数权值更新的准确性,进而提高了收敛后语音合成模型训练的准确性和鲁棒性,且通过利用生成式对抗网络的方式进行语音合成模型的训练,当语音合成模型中的生成器和判别器收敛时,语音合成模型无法判断哪些音频是真实音频哪些音频是合成的音频,进而提高了语音合成模型输出的合成音频的质量。
请参阅图2,图2是本申请另一实施例提供的一种语音合成模型训练方法的实现流程图。相对于图1实施例,本实施例提供的语音合成模型训练方法用于对图1实施例中的步骤S20作进一步细化,包括:
步骤S21,将所述已标注语音样本和所述第一生成语音输入所述判别器,并根据所述判别器中的卷积神经网络分别对所述已标注语音样本和所述第一生成语音进行特征提取,得到第一语音特征和第二语音特征。
其中,该判别器包括卷积神经网络(Convolutional Neural Networks,CNN)、与卷积神经网络连接的自注意力网络和与自注意力网络连接的分类网络,该卷积神经网络中的卷积层、池化层和全连接层的数量均可以根据需求进行设置,该卷积神经网络用于对输入的音频数据进行音频特征的提取。
具体的,本实施例中的卷积神经网络的结构为卷积层-池化层-全连接层,该判别器内卷积神经网络、自注意力网络和分类网络之间的具体结构为:3层的卷积神经网络-1层的自注意力网络-1层的卷积神经网络-1层的自注意力网络-分类网络。
可选的,该步骤中,所述将所述已标注语音样本和所述第一生成语音输入所述判别器之前,还包括:
获取所述已标注样本中的样本音频,并根据预设时长对所述样本音频和所述第一生成语音进行语音分割,得到分割语音,其中,该预设时长可以根据需求进行设置,通过根据预设时长对样本音频和第一生成语音进行语音分割,以保障分割语音之间时长的一致性,进而防止了由于已标注样本中样本音频和第一生成语音之间时长不一致所导致的音频特征提取错误;
若任一所述分割语音的语音时长小于所述预设时长,则对所述分割语音进行语音补偿,其中,该语音补偿用于将分割语音的语音时长补偿至预设时长,该步骤中,可以根据预设补偿音频对该分割语音进行语音补偿,该预设补偿音频可以根据需求进行音频设置,例如,该预设补偿音频可以设置为无声音频。
步骤S22,将所述第一语音特征和所述第二语音特征输入所述判别器中的自注意力网络进行向量转换,得到第一语音向量和第二语音向量。
其中,通过将第一语音特征和第二语音特征输入自注意力网络进行向量转换,能有效的将第一语音特征和第二语音特征映射为对应的向量特征,以得到该第一语音向量和第二语音向量。
步骤S23,将所述第一语音向量和所述第二语音向量输入所述判别器中的分类网络进行概率计算,得到所述第一判别结果。
其中,将第一语音向量和第二语音向量输入分类网络进行概率计算所采用的计算公式可以为欧式距离公式、余弦相似度计算公式或明可夫斯基距离公式等,通过将第一语音向量和第二语音向量输入分类网络进行概率计算,以计算第一语音向量与第二语音向量之间的向量相似度,若该向量相似度大于相似度阈值,则判定该第一语音向量和第二语音向量对应的已标注语音样本中的样本音频和第一生成语音相同,即该第一生成语音是真实音频,得到该第一判别结果。
本实施例中,通过将已标注语音样本和第一生成语音输入判别器,并根据判别器中的卷积神经网络分别对已标注语音样本和第一生成语音进行特征提取,能有效的提取到已标注语音样本中音频样本和第一生成语音中的音频特征,通过将第一语音特征和第二语音特征输入自注意力网络进行向量转换,能有效的将第一语音特征和第二语音特征映射为对应的向量特征,以得到该第一语音向量和第二语音向量,通过通过将第一语音向量和第二语音向量输入分类网络进行概率计算,以计算第一语音向量与第二语音向量之间的向量相似度,并基于该向量相似度以判别该第一生成语音是否是真实音频。
本实施例还提供一种语音合成方法,包括:
获取待合成文本,并将所述待合成文本输入采用如图1或图2实施例中语音合成模型训练方法训练后的所述语音合成模型进行语音合成,得到目标语音。
本实施例中,通过将待合成文本输入采用如图1或图2实施例中语音合成模型训练方法训练后的语音合成模型进行语音合成,能有效的对待合成文本中的文字进行语音合成,得到对应的目标语音。
在本申请的所有实施例中,基于生成器和判别器进行参数权值的更新,得到收敛后的语音合成模型,具体来说,收敛后的语音合成模型由生成器和判别器进行参数权值更新得到。将收敛后的语音合成模型上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得到该收敛后的语音合成模型,以便查证收敛后的语音合成模型是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图3,图3是本申请实施例提供的一种语音合成模型训练装置100的结构框图。本实施例中该语音合成模型训练装置100包括的各单元用于执行图1、图2对应的实施例中的各步骤。具体请参阅图1、图2以及图1、图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,语音合成模型训练装置100包括:数据获取单元10、数据识别单元11、数据生成单元12、判别器更新单元13、生成器更新单元14和收敛检测单元15,其中:
数据获取单元10,用于获取语音样本数据,所述语音样本数据包括已标注语音样本和未标注语音样本,并将所述已标注语音样本输入语音合成模型中的生成器进行数据生成,得到第一生成语音。
数据识别单元11,用于将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,并根据所述已标注语音样本和所述第一判别结果进行损失计算,得到第一损失值。
其中,该数据识别单元11还用于:将所述已标注语音样本和所述第一生成语音输入所述判别器,并根据所述判别器中的卷积神经网络分别对所述已标注语音样本和所述第一生成语音进行特征提取,得到第一语音特征和第二语音特征;
将所述第一语音特征和所述第二语音特征输入所述判别器中的自注意力网络进行向量转换,得到第一语音向量和第二语音向量;
将所述第一语音向量和所述第二语音向量输入所述判别器中的分类网络进行概率计算,得到所述第一判别结果。
进一步地,该数据识别单元11还用于:获取所述已标注样本中的样本音频,并根据预设时长对所述样本音频和所述第一生成语音进行语音分割,得到分割语音;
若任一所述分割语音的语音时长小于所述预设时长,则对所述分割语音进行语音补偿,所述语音补偿用于将所述分割语音的语音时长补偿至所述预设时长。
数据生成单元12,用于将所述未标注语音样本输入所述生成器进行数据生成,得到第二生成语音,并将所述第二生成语音输入所述判别器进行数据识别,得到第二判别结果。
判别器更新单元13,用于根据所述第二判别结果进行损失计算,得到第二损失值,并根据所述第二损失值对所述判别器进行参数权值的更新。
其中,该判别器更新单元13还用于:所述根据所述第二判别结果进行损失计算所采用的损失函数是:
其中,D是所述判别器,G是所述生成器,minDVLSGAN(D)是所述第二损失值中所述判别器对应的最小损失值,VLSGAN(G)是所述第二损失值中所述生成器对应的最小损失值,VLSGAN(D)与VLSGAN(G)之间的和等于所述第二损失值,pdata(x)是所述未标注语音样本,z是噪声,Pz(z)是所述第二生成语音。
生成器更新单元14,用于对所述第二损失值和所述第一损失值进行加权计算,得到第三损失值,并根据所述第三损失值对所述生成器进行参数权值的更新。
其中,该生成器更新单元14还用于:所述对所述第二损失值和所述第一损失值进行加权计算所采用的计算公式是:
L=Ltacotron+λVLSGAN(D)
其中,Ltacotron是所述第一损失值,L是所述第三损失值,λ是预设权重。
收敛检测单元15,用于对参数权值更新后的所述生成器和所述判别器进行收敛检测,若所述生成器或所述判别器未收敛,则返回执行所述获取语音样本数据的步骤以及后续步骤,直至所述生成器和所述判别器收敛。
本实施例中,通过将未标注语音样本输入生成器进行数据生成,以得到未携带标注信息的第二生成语音,通过将未携带标注信息的第二生成语音输入判别器进行数据识别,以控制判别器对未携带标注信息的第二生成语音进行真实数据的判别,通过根据第二判别结果进行损失计算得到第二损失值,并根据第二损失值对判别器进行参数权值的更新,以采用半监督的方式对语音合成模型进行模型训练,即,采用少量有标签的已标注语音样本和大量没有标签的未标注语音样本对语音合成模型进行模型训练,降低了对已标注语音样本的需求,进而提高了语音合成模型的训练效率,通过对第二损失值和第一损失值进行加权计算得到第三损失值,并根据第三损失值对生成器进行参数权值的更新,有效的提高了生成器中参数权值更新的准确性,进而提高了收敛后语音合成模型训练的准确性和鲁棒性。
图4是本申请另一实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如语音合成模型训练方法的程序。处理器20执行所述计算机程序23时实现上述各个语音合成模型训练方法各实施例中的步骤,例如图1所示的S10至S70,或者图2所示的S21至S23。或者,所述处理器20执行所述计算机程序22时实现上述图3对应的实施例中各单元的功能,例如,图3所示的单元10至15的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成数据获取单元10、数据识别单元11、数据生成单元12、判别器更新单元13、生成器更新单元14和收敛检测单元15,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图4仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音合成模型训练方法,其特征在于,包括:
获取语音样本数据,所述语音样本数据包括已标注语音样本和未标注语音样本,并将所述已标注语音样本输入语音合成模型中的生成器进行数据生成,得到第一生成语音;
将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,并根据所述已标注语音样本和所述第一判别结果进行损失计算,得到第一损失值;
将所述未标注语音样本输入所述生成器进行数据生成,得到第二生成语音,并将所述第二生成语音输入所述判别器进行数据识别,得到第二判别结果;
根据所述第二判别结果进行损失计算,得到第二损失值,并根据所述第二损失值对所述判别器进行参数权值的更新;
对所述第二损失值和所述第一损失值进行加权计算,得到第三损失值,并根据所述第三损失值对所述生成器进行参数权值的更新;
对参数权值更新后的所述生成器和所述判别器进行收敛检测;
若所述生成器或所述判别器未收敛,则返回执行所述获取语音样本数据的步骤以及后续步骤,直至所述生成器和所述判别器收敛。
2.根据权利要求1所述的语音合成模型训练方法,其特征在于,所述将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,包括:
将所述已标注语音样本和所述第一生成语音输入所述判别器,并根据所述判别器中的卷积神经网络分别对所述已标注语音样本和所述第一生成语音进行特征提取,得到第一语音特征和第二语音特征;
将所述第一语音特征和所述第二语音特征输入所述判别器中的自注意力网络进行向量转换,得到第一语音向量和第二语音向量;
将所述第一语音向量和所述第二语音向量输入所述判别器中的分类网络进行概率计算,得到所述第一判别结果。
3.根据权利要求2所述的语音合成模型训练方法,其特征在于,所述将所述已标注语音样本和所述第一生成语音输入所述判别器之前,还包括:
获取所述已标注样本中的样本音频,并根据预设时长对所述样本音频和所述第一生成语音进行语音分割,得到分割语音;
若任一所述分割语音的语音时长小于所述预设时长,则对所述分割语音进行语音补偿,所述语音补偿用于将所述分割语音的语音时长补偿至所述预设时长。
5.根据权利要求4所述的语音合成模型训练方法,其特征在于,所述对所述第二损失值和所述第一损失值进行加权计算所采用的计算公式是:
L=Ltacotron+λVLSGAN(D)
其中,Ltacotron是所述第一损失值,L是所述第三损失值,λ是预设权重。
6.根据权利要求1所述的语音合成模型训练方法,其特征在于,所述对参数权值更新后的所述生成器和所述判别器进行收敛检测,包括:
若所述第二损失值小于第一损失阈值,则判定所述判别器收敛,若所述第二损失值大于或等于所述第一损失阈值,则判定所述判别器未收敛;
若所述第三损失值小于第二损失阈值,则判定所述生成器收敛,若所述第三损失值大于或等于所述第二损失阈值,则判定所述生成器未收敛。
7.一种语音合成方法,其特征在于,包括:
获取待合成文本,并将所述待合成文本输入采用如权利要求1至6任一项所述方法训练后的所述语音合成模型进行语音合成,得到目标语音。
8.一种语音合成模型训练装置,其特征在于,包括:
数据获取单元,用于获取语音样本数据,所述语音样本数据包括已标注语音样本和未标注语音样本,并将所述已标注语音样本输入语音合成模型中的生成器进行数据生成,得到第一生成语音;
数据识别单元,用于将所述已标注语音样本和所述第一生成语音输入所述语音合成模型中的判别器进行数据识别,得到第一判别结果,并根据所述已标注语音样本和所述第一判别结果进行损失计算,得到第一损失值;
数据生成单元,用于将所述未标注语音样本输入所述生成器进行数据生成,得到第二生成语音,并将所述第二生成语音输入所述判别器进行数据识别,得到第二判别结果;
判别器更新单元,用于根据所述第二判别结果进行损失计算,得到第二损失值,并根据所述第二损失值对所述判别器进行参数权值的更新;
生成器更新单元,用于对所述第二损失值和所述第一损失值进行加权计算,得到第三损失值,并根据所述第三损失值对所述生成器进行参数权值的更新;
收敛检测单元,用于对参数权值更新后的所述生成器和所述判别器进行收敛检测,若所述生成器或所述判别器未收敛,则返回执行所述获取语音样本数据的步骤以及后续步骤,直至所述生成器和所述判别器收敛。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011602180.2A CN112786003A (zh) | 2020-12-29 | 2020-12-29 | 语音合成模型训练方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011602180.2A CN112786003A (zh) | 2020-12-29 | 2020-12-29 | 语音合成模型训练方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112786003A true CN112786003A (zh) | 2021-05-11 |
Family
ID=75751704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011602180.2A Pending CN112786003A (zh) | 2020-12-29 | 2020-12-29 | 语音合成模型训练方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786003A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239704A (zh) * | 2021-05-31 | 2021-08-10 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
CN114360515A (zh) * | 2021-12-09 | 2022-04-15 | 北京声智科技有限公司 | 信息处理方法、装置、电子设备、介质及计算机程序产品 |
CN114512112A (zh) * | 2022-01-26 | 2022-05-17 | 达闼科技(北京)有限公司 | 语音合成模型的训练方法、装置、电子设备和存储介质 |
CN115424604A (zh) * | 2022-07-20 | 2022-12-02 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型的训练方法 |
WO2024093588A1 (zh) * | 2022-11-04 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备、存储介质及程序产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
US20190122120A1 (en) * | 2017-10-20 | 2019-04-25 | Dalei Wu | Self-training method and system for semi-supervised learning with generative adversarial networks |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
US20190355347A1 (en) * | 2018-05-18 | 2019-11-21 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
CN110537184A (zh) * | 2017-05-19 | 2019-12-03 | 华为技术有限公司 | 利用生成式对抗网络的半监督回归 |
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN110751941A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及存储介质 |
CN110853663A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN110991636A (zh) * | 2019-11-14 | 2020-04-10 | 东软医疗系统股份有限公司 | 生成式对抗网络的训练方法及装置、图像增强方法及设备 |
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
-
2020
- 2020-12-29 CN CN202011602180.2A patent/CN112786003A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110537184A (zh) * | 2017-05-19 | 2019-12-03 | 华为技术有限公司 | 利用生成式对抗网络的半监督回归 |
US20190122120A1 (en) * | 2017-10-20 | 2019-04-25 | Dalei Wu | Self-training method and system for semi-supervised learning with generative adversarial networks |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
CN109741736A (zh) * | 2017-10-27 | 2019-05-10 | 百度(美国)有限责任公司 | 使用生成对抗网络进行鲁棒语音识别的系统和方法 |
US20190355347A1 (en) * | 2018-05-18 | 2019-11-21 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN110751941A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 语音合成模型的生成方法、装置、设备及存储介质 |
CN110853663A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN110991636A (zh) * | 2019-11-14 | 2020-04-10 | 东软医疗系统股份有限公司 | 生成式对抗网络的训练方法及装置、图像增强方法及设备 |
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
Non-Patent Citations (1)
Title |
---|
陈梦楠: ""基于深度学习的中文语音合成"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 11, pages 136 - 7 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239704A (zh) * | 2021-05-31 | 2021-08-10 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
CN113239704B (zh) * | 2021-05-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 干扰语句生成方法、装置、设备及计算机可读存储介质 |
CN114360515A (zh) * | 2021-12-09 | 2022-04-15 | 北京声智科技有限公司 | 信息处理方法、装置、电子设备、介质及计算机程序产品 |
CN114512112A (zh) * | 2022-01-26 | 2022-05-17 | 达闼科技(北京)有限公司 | 语音合成模型的训练方法、装置、电子设备和存储介质 |
CN115424604A (zh) * | 2022-07-20 | 2022-12-02 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型的训练方法 |
CN115424604B (zh) * | 2022-07-20 | 2024-03-15 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型的训练方法 |
WO2024093588A1 (zh) * | 2022-11-04 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112786003A (zh) | 语音合成模型训练方法、装置、终端设备及存储介质 | |
Liu et al. | Audioldm: Text-to-audio generation with latent diffusion models | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN110379409B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
Huang et al. | Speech emotion recognition using CNN | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
CN110310619A (zh) | 多音字预测方法、装置、设备及计算机可读存储介质 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
CN113327578B (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN111814479B (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
US10147443B2 (en) | Matching device, judgment device, and method, program, and recording medium therefor | |
CN110992943B (zh) | 基于词混淆网络的语义理解方法及系统 | |
WO2022095370A1 (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN112906403B (zh) | 语义分析模型训练方法、装置、终端设备及存储介质 | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
CN112052916B (zh) | 基于神经网络的数据处理方法、装置以及可读存储介质 | |
CN113870826A (zh) | 基于时长预测模型的发音时长预测方法及相关设备 | |
CN112735377A (zh) | 语音合成方法、装置、终端设备及存储介质 | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN116645956A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
CN116844573A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN115691510A (zh) | 一种基于随机屏蔽训练的声纹识别方法及计算机设备 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40046370 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |