CN112820267A - 波形生成方法以及相关模型的训练方法和相关设备、装置 - Google Patents
波形生成方法以及相关模型的训练方法和相关设备、装置 Download PDFInfo
- Publication number
- CN112820267A CN112820267A CN202110056064.3A CN202110056064A CN112820267A CN 112820267 A CN112820267 A CN 112820267A CN 202110056064 A CN202110056064 A CN 202110056064A CN 112820267 A CN112820267 A CN 112820267A
- Authority
- CN
- China
- Prior art keywords
- waveform
- sample
- generation
- network
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000001228 spectrum Methods 0.000 claims abstract description 246
- 230000004927 fusion Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请公开了一种波形生成方法以及相关模型的训练方法和相关设备、装置,其中,波形生成模型的训练方法包括:获取样本音频波形和样本音频波形的样本声学参数;其中,样本音频波形是在现实场景中采集得到的;利用样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和样本初始幅度谱,得到样本初始波形;将样本初始波形输入波形生成模型,得到样本生成波形;基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数。上述方案,能够提高波形生成的质量。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种波形生成方法以及相关模型的训练方法和相关设备、装置。
背景技术
波形生成是语音处理领域中一重要分支。例如,在语音合成系统(Text ToSpeech,TTS)中,需要通过声学参数恢复出对应的语音波形,故波形生成的质量对语音合成最终合成的语音音质具有极其重要的影响。有鉴于此,如何提高波形生成的质量成为极具研究价值的课题。
发明内容
本申请主要解决的技术问题文本是提供一种波形生成方法以及相关模型的训练方法和相关设备、装置,能够提高波形生成的质量。
为了解决上述问题文本,本申请第一方面提供了一种波形生成模型的训练方法,包括:获取样本音频波形和样本音频波形的样本声学参数;其中,样本音频波形是在现实场景中采集得到的;利用样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和样本初始幅度谱,得到样本初始波形;将样本初始波形输入波形生成模型,得到样本生成波形;基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数。
为了解决上述问题文本,本申请第二方面提供了一种波形生成方法,包括:利用目标声学参数预测得到初始幅度谱,并获取初始相位谱;基于初始幅度谱和初始相位谱,得到初始音频波形;将初始音频波形输入波形生成模型,得到目标音频波形;其中,波形生成模型是利用在现实场景中采集到的样本音频波形训练得到的。
为了解决上述问题文本,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的波形生成模型的训练方法,或实现上述第二方面中的波形生成方法。
为了解决上述问题文本,本申请第四方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的波形生成模型的训练方法,或实现上述第二方面中的波形生成方法。
上述方案,获取样本音频波形和样本音频波形的样本声学参数,且样本音频波形是在现实场景中采集得到的,并利用样本声学参数预测得到样本初始幅度谱,以及基于样本初始相位谱和样本初始幅度谱,得到样本初始波形,从而将样本初始波形输入波形生成模型,得到样本生成波形,进而基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数,故此能够基于幅度谱和相位谱重建波形,并通过约束波形生成模型所生成的样本生成波形与现实场景所采集的样本音频波形之间的差异,来调整波形生成模型的网络参数,能够使得波形生成模型在训练过程学习现实场景中的样本音频波形的波形特征,从而能够有利于提高波形生成波形的准确性,进而有利于提高后续利用波形生成模型生成波形的质量。
附图说明
图1是本申请波形生成方法一实施例的流程示意图;
图2是本申请波形生成模型的训练方法一实施例的过程示意图;
图3是图1中步骤S13一实施例的流程示意图;
图4是本申请波形生成方法一实施例的流程示意图;
图5是本申请波形生成方法一实施例的过程示意图;
图6是本申请电子设备一实施例的框架示意图;
图7是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请波形生成模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取样本音频波形和样本音频波形的样本声学参数。
本公开实施例中,样本音频波形是在现实场景中采集得到的。具体地,现实场景可以根据实际应用情况进行设置。例如,在波形生成主要应用于在线客服场景的情况下,可以收集真人客服语音,得到样本音频波形;或者,在波形生成主要应用于小说阅读场景的情况下,可以收集真人朗读者语音,得到样本音频波形,其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,在获取到样本音频波形之后,可以提取样本音频波形的样本声学参数。具体地,样本声学参数可以包括但不限于:梅尔谱、倒谱基频等等,在此不做限定。
在一个实施场景中,为了提高后续训练的准确性,在获取到样本音频波形之后,还可以对样本音频波形进行预处理,再提取预处理之后的样本音频波形的样本声学参数。
在一个具体的实施场景中,预处理具体可以包括但不限于:去噪、能量规整等等,在此不做限定。需要说明的是,去噪具体可以采用诸如噪声门降噪法、采样降噪法、滤波降噪法等降噪方式处理,在此不做限定。噪声门降噪法包括将低于预设门限(如,-65dB)的信号直接归零,而大于上述预设门限的信号无变化;采样降噪法包括利用预先采集的噪声样本消除样本音频波形中的噪声;滤波降噪法包括获取噪声所在的目标频段,并适当减弱该目标频段的信号。此外,能量规整表示将样本音频波形的音量规整至预设范围内(如,-0.7至0.7范围内)。
在一个实施场景中,样本音频波形的样本声学参数包括样本音频波形中每一音频帧的声学参数。例如,样本音频波形通过窗函数分为N个音频帧,则可以提取每一音频帧的声学参数,从而得到N个声学参数,进而可以将上述N个声学参数,作为样本音频波形的样本声学参数。
步骤S12:利用样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和样本初始幅度谱,得到样本初始波形。
在一个实施场景中,为了提高幅度谱预测的效率,波形生成模型可以包括幅度预测网络,在此基础上,可以利用幅度预测网络处理样本声学参数,得到样本初始幅度谱。此外,幅度预测网络包括若干顺序连接的卷积层和全连接层,且卷积层包括若干二维卷积核。上述方式,通过将波形生成模型设置为包括幅度预测网络,从而利用幅度预测网络处理样本声学参数,得到样本初始幅度谱,且幅度预测网络包括若干顺序连接的卷积层和全连接层,卷积层包括若干二维卷积核,故能够通过幅度预测网络提高预测幅度谱的效率,此外由于幅度预测网络包括若干顺序连接的卷积层,且卷积层包括若干二维卷积核,故能够有利于更好地描述幅度谱的时频特性,提高幅度谱的准确性。
在一个具体的实施场景中,请结合参阅图2,图2是本申请波形生成模型的训练方法一实施例的过程示意图。如图2所示,为了便于描述,可以将上述幅度预测网络记为ASP,利用幅度预测网络ASP处理样本声学参数得到的样本初始幅度谱记为S0。
在另一个具体的实施场景中,如前所述,样本音频波形的样本声学参数包括样本音频波形中每一音频帧的声学参数,故可以利用上述幅度预测网络分别处理样本声学参数中所包含的每一音频帧的声学参数,得到样本初始幅度谱,能够有利于实现帧级网络预测幅度谱,提高波形生成的精度。
在又一个具体的实施场景中,为了在训练过程中,学习到预测得到的样本初始幅度谱和样本音频波形的样本实际幅度谱之间的差异,以使得预测得到的样本初始幅度谱尽可能地接近样本音频波形的样本实际幅度谱,还可以在训练波形生成模型的同时,训练一个波形鉴别模型,且该波形鉴别模型包含幅度鉴别网络(如图2中DAS),从而可以将样本初始幅度谱输入幅度鉴别网络,得到样本初始幅度谱被鉴别为样本实际幅度谱的概率值,从而可以基于该概率值,调整上述幅度预测网络的网络参数或上述幅度鉴别网络的网络参数。具体过程可以参阅下述相关描述,在此暂不赘述。此外,需要说明的是,样本音频波形的样本实际幅度谱可以利用诸如STFT(Short Time Fourier Transform,短时傅里叶变换)等方式提取得到,具体提取过程在此不再赘述。此外,幅度鉴别网络可以包括若干顺序连接的卷积层和全连接层,卷积层可以包括若干二维卷积核。
在一个实施场景中,可以将样本初始相位谱和样本初始幅度谱相乘,得到样本初始波形在频域上的频谱,在此基础上可以利用诸如ISTFT(Inverse Short Time FourierTransform,短时傅里叶逆变换)等方式对样本初始波形在频域上的频谱进行变换,得到样本初始波形。请结合参阅图2,为了便于描述,可以将样本初始波形记为x0。ISTFT的具体变换过程在此不再赘述。
在一个实施场景中,样本初始相位谱可以基于随机序列提取得到。具体地,可以从随机序列中提取相位,作为样本初始相位谱。
步骤S13:将样本初始波形输入波形生成模型,得到样本生成波形。
在一个实施场景中,为了提高波形生成效率,波形生成模型具体还可以包括波形生成网络,为了便于描述,可以将该波形生成网络记为G1,从而可以将样本初始波形x0输入波形生成网络,得到样本生成波形y1。
在一个具体的实施场景中,波形生成网络具体可以包括若干顺序连接的卷积层和全连接层,且卷积层包括若干一维卷积核。上述方式,通过将波形生成网络设置为包括若干顺序连接的卷积层和全连接层,且卷积层包括若干一维卷积核,能够有利于提高波形生成效率。
在另一个具体的实施场景中,如前所述,样本初始波形可以利用诸如ISTFT等方式变换得到,由于ISTFT属于一种离散傅里叶逆变换,故变换得到的样本初始波形x0包含若干采样点,在此基础上,通过波形生成网络处理样本初始波形,能够有利于实现采样点级的波形生成,有效降低波形生成的复杂度。
在另一个实施场景中,为了进一步提高波形生成的精确度,波形生成模型具体可以包括多个顺序连接的波形生成网络,为了便于描述,而可以将多个顺序连接的波形生成网络依序分别记为G1,G2,…,Gn,…GN,其中,N表示波形生成模型中所包含的波形生成网络的总数量。在此基础上,可以在波形生成过程中,利用多个顺序连接的波形生成网络不断迭代,以提高波形生成的精确度。以波形生成模型包括两个顺序连接的波形生成网络为例,可以先将样本初始波形x0输入首个波形生成网络G1,得到样本生成波形y1,再次基础上,可以进一步在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形x1,进而可以将样本融合波形x1再次输入下一个波形生成网络G2,得到最新的样本生成波形y2。在波形生成模型包括其他数量的波形生成网络的情况下,可以以此类推,具体可以参阅下述相关公开实施例,在此暂不赘述。
步骤S14:基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数。
在一个实施场景中,为了鉴别样本生成波形与样本音频波形之间的差异,在训练样本生成模型的同时,还可以训练一个波形鉴别模型。在此基础上,可以将样本生成波形输入波形鉴别模型,得到样本生成波形被鉴别为样本音频波形的第一概率值,并将样本音频波形输入波形鉴别模型,得到样本音频波形被鉴别为样本音频波形的第二概率值,从而可以基于第一概率值,得到波形生成模型的第一损失值,并基于第一概率值和第二概率值,得到波形鉴别模型的第二损失值,进而可以利用第一损失值,调整波形生成模型的网络参数,或者利用第二损失值,调整波形鉴别模型的网络参数。上述方式,通过将样本生成波形输入波形鉴别模型,得到样本生成波形被鉴别为样本音频波形的第一概率值,并将样本音频波形输入波形鉴别模型,得到样本音频波形被鉴别为样本音频波形的第二概率值,从而基于第一概率值,得到波形生成模型的第一损失值,并基于第一概率值和第二概率值,得到波形鉴别模型的第二损失值,进而利用第一损失值,调整波形生成模型的网络参数,或者,利用第二损失值,调整波形鉴别模型的网络参数,故此能够在训练过程,通过优化波形生成模型的性能,提高波形生成模型生成波形的质量,而通过优化波形鉴别模型的性能,提高波形鉴别模型鉴别波形的能力,使得波形生成模型和波形鉴别模型相辅相成,相互提高,最终能够有利于提高波形生成模型的性能。
在一个具体的实施场景中,波形生成模型具体是经过若干次训练得到的,故在当前训练次数满足预设条件的情况下,可以利用第一损失值,调整波形生成模型的网络参数,而在当前训练次数不满足预设条件的情况下,可以利用第二损失值,调整波形鉴别模型的网络参数。具体地,预设条件可以包括以下任一者:当前训练次数为奇数,当前训练次数为偶数,在此不做限定。上述方式,通过若干次训练波形生成模型,且在当前训练次数满足预设条件的情况下,利用第一损失值,调整波形生成模型的网络参数,而在当前训练次数不满足预设条件的情况下,利用第二损失值,调整波形鉴别模型的网络参数,能够在若干次训练过程中,轮番优化波形生成模型和波形鉴别模型,使得彼此之间相互促进,有利于不断提高波形生成模型的性能。
在另一个具体的实施场景中,如前所述,波形生成模型可以包括若干(如,1个、2个、3个等等)波形生成网络,在此情况下,波形鉴别模型也可以包括若干(如,1个、2个、3个等等)波形鉴别网络,且每一波形生成网络对应设有一个波形鉴别网络,从而可以将每一波形生成网络Gi所生成的样本生成波形yi输入与该波形生成网络Gi对应的波形鉴别网络Di,得到样本生成波形yi被鉴别为样本音频波形的第一概率值Di(yi)。此外,在此情况下,可以将样本音频波形(为了便于描述,记为xnat)分别输入各个波形鉴别网络Di,得到样本音频波形分别被各个波形鉴别网络Di鉴别为样本音频波形的第二概率值Di(xnat)。在此情况下,第一损失值可以表示为:
LG(Gi)=(Di(yi)-1)2……(1)
LG=LG_sum……(3)
上述公式(1)、(2)、(3)中,N表示波形生成模型所包含的波形生成网络的总数量,LG(Gi)表示波形生成网络Gi的损失值,LG_sum表示N个波形生成网络的总损失值,LG表示波形生成模型的第一损失值。由此可见,通过最小化第一损失值,可以使得第一概率值Di(yi)趋近于1,即可以使得波形生成网络所生成的样本生成波形趋近于现实场景采集的样本音频波形,即可以提高波形生成模型生成波形的自然度。此外,第二损失值可以表示为:
LD(Di)=(1-Di(xnat))2+(Di(yi))2……(4)
LD=LD_sum……(6)
上述公式(4)、(5)、(6)中,N表示波形鉴别模型所包含的波形鉴别网络的总数量,LD(Di)表示波形鉴别网络Di的损失值,LD_sum表示N个波形鉴别网络的总损失值,LD表示波形鉴别模型的第二损失值。由此可见,通过最小化第二损失值,可以使得Di(xnat)第二概率值趋近于1,且第一概率值Di(yi)趋近于0,即可以使得波形鉴别模型可以准确地鉴别出现实场景所采集的样本音频波形以及波形生成模型所生成的样本音频波形之间的差异,即可以提高波形鉴别模型的波形鉴别能力。需要说明的是,波形鉴别网络具体可以包括若干顺序连接的卷积层和全连接层,且卷积层可以包括若干一维卷积核。
在又一个具体的实施场景中,如前所述,波形生成模型还可以包括幅度预测网络,此外波形鉴别模型也可以包括幅度鉴别网络,在此基础上,可以将样本初始幅度谱输入幅度鉴别网络,得到样本初始幅度谱被鉴别为样本实际幅度谱的概率值,为了与前述第一概率值、第二概率值加以区别,可以将样本初始幅度谱被鉴别为样本实际幅度谱的概率值称之为第三概率值,为了便于描述,如前所述幅度鉴别网络可以记为DAS,样本初始幅度谱可以记为S0,样本实际幅度谱可以记为Snat,则第三概率值可以记为DAS(S0)。进一步地,可以将样本实际幅度谱输入幅度鉴别网络,得到样本实际幅度谱被鉴别为样本实际幅度谱的概率值,为了与前述第一概率值、第二概率值和第三概率值加以区别,可以将样本实际幅度谱被鉴别为样本实际幅度谱的概率值称之为第四概率值,为了便于描述可以记为DAS(Snat)。在此基础上,可以基于样本初始幅度谱和样本实际幅度谱之间的差异,以及第三概率值,得到幅度预测网络的损失值,进一步可以结合前述第一概率值,得到波形生成模型的第一损失值,此外,可以基于第三概率值和第四概率值,得到幅度鉴别网络的损失值,进一步可以结合前述第一概率值和第二概率值,得到波形鉴别模型的第二损失值。具体地,幅度预测网络的损失值以及波形生成模型的第一损失值可以表示为:
LAS(ASP)=||Snat-S0||1……(7)
Ladv(ASP)=(DAS(S0)-1)2……(8)
LG(ASP)=LAS(ASP)+λ*Ladv(ASP)……(9)
LG=LG_sum+LG(ASP)……(10)
上述公式(7)、(8)、(9)、(10)中,LAS(ASP)表示基于样本初始幅度谱和样本实际幅度谱之间的差异所得到的幅度预测网络的第一子损失值,||·||1表示L1损失函数,Ladv(ASP)表示基于第三概率值所得到的幅度预测网络的第二子损失值,λ为超参数,可以根据实际情况进行设置,LG(ASP)表示幅度预测网络的损失值,公式(10)所述的LG表示波形生成模型的第一损失值。由此可见,通过最小化第一损失值,可以提高预测得到的样本初始幅度谱的自然度以及生成得到的样本生成波形的自然度,从而可以提高波形生成模型的性能。此外,幅度鉴别网络的损失值以及波形鉴别模型的第二损失值可以表示为:
LD(DAS)=(1-DAS(Snat))2+(DAS(S0))2……(11)
LD=LD(DAS)+LD_sum……(12)
上述公式(11)、(12)中,LD(DAS)表示波形鉴别网络的损失值,公式(12)所示的LD表示波形鉴别模型的第二损失值。由此可见,通过最小化第二损失值,可以提高区分预测的样本初始幅度谱和现实场景的样本实际幅度谱的鉴别能力,以及区分生成得得到的样本生成波形和现实场景的样本音频波形的鉴别能力,从而可以提高波形鉴别模型的性能。
上述方案,获取样本音频波形和样本音频波形的样本声学参数,且样本音频波形是在现实场景中采集得到的,并利用样本声学参数预测得到样本初始幅度谱,以及基于样本初始相位谱和样本初始幅度谱,得到样本初始波形,从而将样本初始波形输入波形生成模型,得到样本生成波形,进而基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数,故此能够基于幅度谱和相位谱重建波形,并通过约束波形生成模型所生成的样本生成波形与现实场景所采集的样本音频波形之间的差异,来调整波形生成模型的网络参数,能够使得波形生成模型在训练过程学习现实场景中的样本音频波形的波形特征,从而能够有利于提高波形生成波形的准确性,进而有利于提高后续利用波形生成模型生成波形的质量。
请参阅图3,图3是图1中步骤S13一实施例的流程示意图。本公开实施例中,波形生成模型可以包括多个顺序连接的波形生成网络,例如,可以包括2个顺序连接的波形生成网络,3个顺序连接的波形生成网络等等,在此不做限定。为了在提高波形生成模型性能的同时,确保适中的计算负荷,波形生成网络的总数量可以不超过一个预设数量阈值(如,2个、3个等)。具体而言,可以包括如下步骤:
步骤S31:将首个波形生成网络作为当前生成网络,并将样本初始波形输入当前生成网络,得到样本生成波形。
请结合参阅图2,如图2所示,可以将首个波形生成网络G1作为当前生成网络,并将样本初始波形x0输入当前生成网络,得到样本生成波形y1。
步骤S32:在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形。
在一个实施场景中,可以提取样本生成波形的样本生成幅度谱和样本生成相位谱,并将样本初始幅度谱和样本生成幅度谱进行融合,得到样本融合幅度谱,从而可以基于样本生成相位谱和样本融合幅度谱,得到样本融合波形。上述方式,通过提取样本生成波形的样本生成幅度谱和样本生成相位谱,并将样本初始幅度谱和样本生成幅度谱进行融合,得到样本融合幅度谱,从而基于样本生成相位谱和样本融合幅度谱,得到样本融合波形,能够有利于在波形生成过程中,通过样本生成波形的样本幅度谱补偿预测得到的初始幅度谱,使其逼近现实场景的自然幅度谱,能够有利于提高最终生成的样本生成波形的自然度。
在一个具体的实施场景中,可以分别利用第一权值、第二权值对样本初始幅度谱、样本生成幅度谱进行加权处理,得到样本融合幅度谱,且第一权值和第二权值为负相关关系。此外,为了在每次融合过程中保留大部分样本初始幅度谱,以使得每次融合均能够利用样本生成幅度谱以较小幅度的补偿样本初始幅度谱,从而使得在多次迭代过程中,不断调整幅度谱,使得幅度谱不断趋近于现实场景下的自然幅度谱,第二权值可以设置为小于预设阈值,预设阈值可以根据实际应用情况进行设置,例如,可以设置为0.1、0.15等等,在此不做限定。上述方式,通过分别利用第一权值、第二权值对样本初始幅度谱、样本生成幅度谱进行加权处理,得到样本融合幅度谱,能够通过第一权值和第二权值将样本初始幅度谱、样本生成幅度谱进行线性组合,从而能够有利于降低融合的复杂度。
在另一个具体的实施场景中,在波形生成模型包括多个波形生成网络的情况下,每一波形生成网络所生成得到的样本生成波形的样本生成幅度谱均可以对应设有一个第二权值,为了便于描述,可以将第i个波形生成网络所生成得到的样本生成波形的样本生成幅度谱对应的第二权值记为αi,此外为了简化第一权值的获取复杂度,第一权值可以为1-αi。在此情况下,请结合参阅图2,对于上述样本生成波形y1而言,其样本生成幅度谱可以记为S1,其样本生成相位谱可以记为P1,故样本融合波形可以表示为:
x1=ISTFT{((1-α1)S0+α1S1)*P1}……(13)
上述公式(13)中,x1表示样本融合波形,ISTFT{·}表示短时傅里叶逆变换。即可以将样本融合幅度谱和样本生成相位谱相乘,得到样本融合波形在频域上的频谱,从而可以利用诸如ISTFT将样本融合波形在频域上的频谱变换到时域,得到样本融合波形。
在又一个具体的实施场景中,需要说明的是,上述第一权值、第二权值可以在训练过程中进行调整,在此情况下,对于第i个生成网络而言,其损失值可以表示为:
LG(Gi,αi-1)=(Di(yi)-1)2……(14)
即在利用第一损失值,调整波形生成模型的网络参数的过程中,还可以同时利用第一损失值,调整第一权值和第二权值。需要说明的是,一旦波形生成模型训练完毕收敛后,在利用波形生成模型生成波形的过程中,第一权值和第二权值可以不再改变。
步骤S33:将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将样本融合波形输入当前生成网络,得到新的样本生成波形。
请继续结合参阅图2,在得到样本融合波形x1之后,可以将当前生成网络G1的下一个波形生成网络G2,作为新的当前生成网络,并将样本融合波形x1输入当前生成网络G2,得到新的样本生成波形y2。
在一个实施场景中,在得到新的样本生成波形之后,还可以进一步检测当前生成网络是否为波形生成模型中最后一个波形生成网络,并在当前生成网络并非波形生成模型中最后一个波形生成网络的情况下,重新执行上述在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形的步骤以及后续步骤。上述方式,通过在当前生成网络并非波形生成模型中最后一个波形生成网络的情况下,重新执行在样本生成波形的样本生成幅度谱中融合样本初始幅度不断循环迭代,有利于使得波形生成网络所生成的波形不断逼近现实场景自然波形,进而能够有利于进一步提高波形生成模型的性能。
在一个具体的实施场景中,请继续结合参阅图2,在第n次迭代时,样本融合波形xn-1输入当前生成网络Gn得到新的样本生成波形yn,提取新的样本生成波形yn的样本生成幅度谱Sn和样本生成相位谱Pn,并利用第一权值1-αn、第二权值αn对样本初始幅度谱S0、样本生成幅度谱Sn进行加权处理,得到样本融合幅度谱,在此基础上,基于样本生成相位谱和样本融合幅度谱,得到样本融合波形xn。具体地,样本融合波形xn可以表示为:
xn=ISTFT{((1-αn)S0+αnSn)*Pn}……(15)
在另一个实施场景中,在得到新的样本生成波形之后,若当前生成网络检测为波形生成模型的最后一个波形生成网络,则可以将最新得到的样本生成波形作为波形生成模型最终输出的样本生成波形。请继续结合参阅图2,如图2所示,在波形生成网络共包括N个波形生成网络的情况下,最终经过N-1次迭代可以得到样本融合波形xN-1,该样本融合波形xN-1输入第N个波形生成网络GN,可以得到波形生成模型最终输出的样本生成波形yN。
区别于前述实施例,波形生成模型包括多个顺序连接的波形生成网络,将首个波形生成网络作为当前生成网络,并将样本初始波形输入当前生成网络,得到样本生成波形,在此基础上,在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形,从而将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将样本融合波形输入当前生成网络,得到新的样本生成波形,故此在波形生成过程中,还能够利用波形生成网络所生成的样本生成波形的样本生成幅度谱对预测得到的样本初始幅度谱进行补偿,从而能够有利于使得融合得到的样本融合波形趋近于现实场景自然波形,在此基础上,进一步通过下一个波形生成网络对样本融合波形进行处理,得到新的样本生成波形,能够有利于进一步提高样本生成波形的自然度。
请参阅图4,图4是本申请波形生成方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S41:利用目标声学参数预测得到初始幅度谱,并获取初始相位谱。
本公开实施例中,目标声学参数是最终期望生成的目标音频波形的声学参数,声学参数的含义具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,目标音频波形是与目标文本对应的音频波形。例如,在电商客服场景中,目标文本可以为“您好,请问有什么可以帮助您的吗?”,则目标音频波形为目标文本“您好,请问有什么可以帮助您的吗?”对应的音频波形,通过在客服场景中播放该目标音频波形能够实现与用户进行语音交互;或者,在小说阅读场景中,目标文本可以为“时遇冬深将近,忽一日,林冲巳牌时分偶出营前闲走”,目标音频波形可以为目标文本可以为“时遇冬深将近,忽一日,林冲巳牌时分偶出营前闲走”对应的音频波形,通过在小说阅读场景中播放该目标音频波形能够实现用户用耳“收听”到小说。其他场景可以以此类推,在此不再一一举例。
在一个实施场景中,可以获取目标文本的音素序列,并基于音素序列预测得到目标声学参数。上述方式,目标音频波形是与目标文本对应的音频波形,并获取目标文本的音素序列,从而基于音素序列预测得到目标声学参数,故通过预测目标文本的目标声学参数,并基于目标声学参数进行后续的波形生成,能够有利于生成与目标文本对应的目标音频波形。
在一个具体的实施场景中,以目标文本包含中文为例,音素序列可以采用拼音标注,例如,对于上述目标文本“您好,请问有什么可以帮助您的吗?”,其音素序列可以包括:nínhǎoqǐngwènyǒushí me kěyǐbāngzhùnín de ma,其他情况可以以此类推,在此不再一一举例;或者,以目标文本包含英文为例,音素序列可以采用英文音标进行标注,例如,对于目标文本“what is the weather like today”,其音素序列可以包括:其他情况可以以此类推,在此不再一一举例。此外,在目标文本包含多语种的情况下,音素序列也可以采用国际音标进行标注,具体标注方式在此不再赘述。
在另一个具体的实施场景中,为了提高预测目标声学参数的效率和准确性,还可以预先训练一个声学参数预测模型,声学参数预测模型具体可以包括但不限于:卷积神经网络、循环神经网络等等,在此不做限定。在此基础上,可以将音素序列输入声学参数预测模型,得到目标声学参数。此外,在训练过程中,可以获取样本语音以及样本语音的样本音素序列,并提取样本语音的样本声学参数,从而可以将样本音素序列输入声学参数预测模型,得到预测声学参数,进而可以基于样本声学参数和预测声学参数之间的差异,调整声学参数预测网络的网络参数。具体训练过程在此不再赘述。
在一个实施场景中,请结合参阅图5,图5是本申请波形生成方法一实施例的过程示意图。如图5所示,为了幅度谱预测的效率,波形生成模型可以包括幅度预测网络ASP,在此基础上,可以利用幅度预测网络ASP处理目标声学参数,得到初始幅度谱S0。幅度预测网络的具体构造可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,初始相位谱P0可以基于随机序列提取得到。具体可以参阅前述公开实施例中关于样本初始相位谱的相关描述,在此不再赘述。
步骤S42:基于初始幅度谱和初始相位谱,得到初始音频波形。
在一个实施场景中,请继续结合参阅图2,可以将初始幅度谱和初始相位谱相乘,得到初始音频波形在频域上的频谱,在此基础上,可以利用诸如ISTFT(Inverse ShortTime Fourier Transform,短时傅里叶逆变换)等方式对初始音频波形在频域上的频谱进行变换,得到初始音频波形x0。具体可以参阅前述公开实施例中样本初始波形相关描述,在此不再赘述。
步骤S43:将初始音频波形输入波形生成模型,得到目标音频波形。
本公开实施例中,波形生成模型是利用在现实场景中采集到的样本音频波形训练得到的。在一个实施场景中,波形生成模型具体可以是利用上述任一波形生成模型的训练方法训练得到的。具体过程可以参阅前述公开实施例,在此不再赘述。
在一个实施场景中,如前述公开实施例所述,为了提高波形生成效率,波形生成模型还可以进一步包括波形生成网络,可以将该波形生成网络记为G1,从而可以将初始音频波形x0输入波形生成网络,得到目标音频波形y1。波形生成网络的具体构造可以参阅前述公开实施例中相关描述,在此不再赘述。
在另一个实施场景中,如前述公开实施例所述,为了进一步提高波形生成的精确度,波形生成模型具体可以包括多个顺序连接的波形生成网络,为了便于描述,而可以将多个顺序连接的波形生成网络依序分别记为G1,G2,…,Gn,…GN,其中,N表示波形生成模型中所包含的波形生成网络的总数量。在此基础上,请继续结合参阅图5,可以将首个波形生成网络G1作为当前生成网络,并将初始音频波形x0输入当前生成网络,得到生成音频波形y1,并在生成音频波形y1的生成幅度谱S1中融合初始幅度谱S0,得到融合音频波形x1,从而可以将当前生成网络的下一个波形生成网络G2作为新的当前生成网络,并将融合音频波形x1输入当前生成网络G2,得到新的生成音频波形y2。在当前生成网络G2并非最后一个波形生成网络的情况下,可以重新执行上述在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形的步骤以及后续步骤,而在当前生成网络为最后一个波形生成网络GN的情况下,可以将最新得到的生成音频波形yN作为目标音频波形。上述方式,波形生成模型包括多个顺序连接的波形生成网络,在此基础上将首个波形生成网络作为当前生成网络,并将初始音频波形输入当前生成网络,得到生成音频波形,从而在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形,进而将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将融合音频波形输入当前生成网络,得到新的生成音频波形,并在当前生成网络并非最后一个波形生成网络的情况下,重新执行在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形的步骤以及后续步骤,而在当前生成网络为最后一个波形生成网络的情况下,将最新得到的生成音频波形作为目标音频波形,能够通过在多次迭代过程中利用波形生成网络生成波形,有利于不断提高生成音频波形的质量。
在一个具体的实施场景中,在生成音频波形的生成幅度谱中融合初始幅度谱的具体过程,可以参阅前述公开实施例中关于本生成波形的样本生成幅度谱中融合样本初始幅度谱的相关描述,在此不再赘述。
在另一个具体的实施场景中,请继续结合参阅图5,在第n次迭代时,融合音频波形xn-1输入当前生成网络Gn得到新的生成音频波形yn,提取新的生成音频波形yn的生成幅度谱Sn和生成相位谱Pn,并利用第一权值1-αn、第二权值αn对初始幅度谱S0、生成幅度谱Sn进行加权处理,得到融合幅度谱,在此基础上,基于生成相位谱和融合幅度谱,得到融合音频波形xn。具体地,融合音频波形xn可以表示为:
xn=ISTFT{((1-αn)S0+αnSn)*Pn}……(16)
在一个实施场景中,本申请波形生成方法实施例中的步骤以及波形生成模型可以集成于诸如声码器等模块中,以在语音合成系统中执行波形生成的数据处理工作,从而可以提高语音合成的音质、音色以及自然度。
上述方案,通过利用目标声学参数预测得到初始幅度谱,并获取初始相位谱,并基于初始幅度谱和初始相位谱,得到初始音频波形,从而将初始音频波形输入波形生成模型,得到目标音频波形,且波形生成模型是利用在现实场景中采集到的样本音频波形训练得到的,故波形生成模型能够在训练过程学习现实场景中的样本音频波形的波形特征,从而能够有利于提高波形生成波形的准确性,进而通过将初始音频波形输入波形生成模型,得到目标音频波形,能够有利于提高生成波形的质量。
请参阅图6,图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62,存储器61中存储有程序指令,处理器62用于执行程序指令以实现上述任一波形生成模型的训练方法实施例中的步骤,或实现上述任一波形生成方法实施例中的步骤。具体地,电子设备60可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑、翻译机、故事机等等,在此不做限定。
具体而言,处理器62用于控制其自身以及存储器61以实现上述任一波形生成模型的训练方法实施例中的步骤,或实现上述任一波形生成方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit,中央处理单元)。处理器62可能是一种集成电路芯片,具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器62可以由集成电路芯片共同实现。
在一些公开实施例中,处理器62用于获取样本音频波形和样本音频波形的样本声学参数;其中,样本音频波形是在现实场景中采集得到的;处理器62用于利用样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和样本初始幅度谱,得到样本初始波形;处理器62用于将样本初始波形输入波形生成模型,得到样本生成波形;处理器62用于基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数。
上述方案,获取样本音频波形和样本音频波形的样本声学参数,且样本音频波形是在现实场景中采集得到的,并利用样本声学参数预测得到样本初始幅度谱,以及基于样本初始相位谱和样本初始幅度谱,得到样本初始波形,从而将样本初始波形输入波形生成模型,得到样本生成波形,进而基于样本生成波形和样本音频波形之间的差异,调整波形生成模型的网络参数,故此能够基于幅度谱和相位谱重建波形,并通过约束波形生成模型所生成的样本生成波形与现实场景所采集的样本音频波形之间的差异,来调整波形生成模型的网络参数,能够使得波形生成模型在训练过程学习现实场景中的样本音频波形的波形特征,从而能够有利于提高波形生成波形的准确性,进而有利于提高后续利用波形生成模型生成波形的质量。
在一些公开实施例中,波形生成模型包括多个顺序连接的波形生成网络,处理器62用于将首个波形生成网络作为当前生成网络,并将样本初始波形输入当前生成网络,得到样本生成波形;处理器62用于在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形;处理器62用于将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将样本融合波形输入当前生成网络,得到新的样本生成波形。
区别于前述实施例,波形生成模型包括多个顺序连接的波形生成网络,将首个波形生成网络作为当前生成网络,并将样本初始波形输入当前生成网络,得到样本生成波形,在此基础上,在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形,从而将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将样本融合波形输入当前生成网络,得到新的样本生成波形,故此在波形生成过程中,还能够利用波形生成网络所生成的样本生成波形的样本生成幅度谱对预测得到的样本初始幅度谱进行补偿,从而能够有利于使得融合得到的样本融合波形趋近于现实场景自然波形,在此基础上,进一步通过下一个波形生成网络对样本融合波形进行处理,得到新的样本生成波形,能够有利于进一步提高样本生成波形的自然度。
在一些公开实施例中,处理器62用于提取样本生成波形的样本生成幅度谱和样本生成相位谱;处理器62用于将样本初始幅度谱和样本生成幅度谱进行融合,得到样本融合幅度谱;处理器62用于基于样本生成相位谱和样本融合幅度谱,得到样本融合波形。
区别于前述实施例,通过提取样本生成波形的样本生成幅度谱和样本生成相位谱,并将样本初始幅度谱和样本生成幅度谱进行融合,得到样本融合幅度谱,从而基于样本生成相位谱和样本融合幅度谱,得到样本融合波形,能够有利于在波形生成过程中,通过样本生成波形的样本幅度谱补偿预测得到的初始幅度谱,使其逼近现实场景的自然幅度谱,能够有利于提高最终生成的样本生成波形的自然度。
在一些公开实施例中,处理器62用于分别利用第一权值、第二权值对样本初始幅度谱、样本生成幅度谱进行加权处理,得到样本融合幅度谱;其中,第一权值和第二权值为负相关关系。
区别于前述实施例,通过分别利用第一权值、第二权值对样本初始幅度谱、样本生成幅度谱进行加权处理,得到样本融合幅度谱,能够通过第一权值和第二权值将样本初始幅度谱、样本生成幅度谱进行线性组合,从而能够有利于降低融合的复杂度。
在一些公开实施例中,处理器62用于在当前生成网络并非波形生成模型中最后一个波形生成网络的情况下,重新执行在样本生成波形的样本生成幅度谱中融合样本初始幅度谱,得到样本融合波形的步骤以及后续步骤。
区别于前述实施例,通过在当前生成网络并非波形生成模型中最后一个波形生成网络的情况下,重新执行在样本生成波形的样本生成幅度谱中融合样本初始幅度不断循环迭代,有利于使得波形生成网络所生成的波形不断逼近现实场景自然波形,进而能够有利于进一步提高波形生成模型的性能。
在一些公开实施例中,波形生成网络包括若干顺序连接的第一卷积层和第一全连接层,且第一卷积层包括若干一维卷积核。
区别于前述实施例,通过将波形生成网络设置为包括若干顺序连接的卷积层和全连接层,且卷积层包括若干一维卷积核,能够有利于提高波形生成效率。
在一些公开实施例中,处理器62用于将样本生成波形输入波形鉴别模型,得到样本生成波形被鉴别为样本音频波形的第一概率值;以及,处理器62用于将样本音频波形输入波形鉴别模型,得到样本音频波形被鉴别为样本音频波形的第二概率值;处理器62用于基于第一概率值,得到波形生成模型的第一损失值,并基于第一概率值和第二概率值,得到波形鉴别模型的第二损失值;处理器62用于利用第一损失值,调整波形生成模型的网络参数,或者,利用第二损失值,调整波形鉴别模型的网络参数。
区别于前述实施例,通过将样本生成波形输入波形鉴别模型,得到样本生成波形被鉴别为样本音频波形的第一概率值,并将样本音频波形输入波形鉴别模型,得到样本音频波形被鉴别为样本音频波形的第二概率值,从而基于第一概率值,得到波形生成模型的第一损失值,并基于第一概率值和第二概率值,得到波形鉴别模型的第二损失值,进而利用第一损失值,调整波形生成模型的网络参数,或者,利用第二损失值,调整波形鉴别模型的网络参数,故此能够在训练过程,通过优化波形生成模型的性能,提高波形生成模型生成波形的质量,而通过优化波形鉴别模型的性能,提高波形鉴别模型鉴别波形的能力,使得波形生成模型和波形鉴别模型相辅相成,相互提高,最终能够有利于提高波形生成模型的性能。
在一些公开实施例中,波形生成模型是经若干次训练得到的,处理器62用于在当前训练次数满足预设条件的情况下,利用第一损失值,调整波形生成模型的网络参数;处理器62用于在当前训练次数不满足预设条件的情况下,利用第二损失值,调整波形鉴别模型的网络参数。
区别于前述实施例,通过若干次训练波形生成模型,且在当前训练次数满足预设条件的情况下,利用第一损失值,调整波形生成模型的网络参数,而在当前训练次数不满足预设条件的情况下,利用第二损失值,调整波形鉴别模型的网络参数,能够在若干次训练过程中,轮番优化波形生成模型和波形鉴别模型,使得彼此之间相互促进,有利于不断提高波形生成模型的性能。
在一些公开实施例中,波形生成模型包括幅度预测网络,处理器62用于利用幅度预测网络处理样本声学参数,得到样本初始幅度谱;其中,幅度预测网络包括若干顺序连接的第二卷积层和第二全连接层,且第二卷积层包括若干二维卷积核。
区别于前述实施例,,通过将波形生成模型设置为包括幅度预测网络,从而利用幅度预测网络处理样本声学参数,得到样本初始幅度谱,且幅度预测网络包括若干顺序连接的卷积层和全连接层,卷积层包括若干二维卷积核,故能够通过幅度预测网络提高预测幅度谱的效率,此外由于幅度预测网络包括若干顺序连接的卷积层,且卷积层包括若干二维卷积核,故能够有利于更好地描述幅度谱的时频特性,提高幅度谱的准确性。
在一些公开实施例中,处理器62用于利用目标声学参数预测得到初始幅度谱,并获取初始相位谱;处理器62用于基于初始幅度谱和初始相位谱,得到初始音频波形;处理器62用于将初始音频波形输入波形生成模型,得到目标音频波形;其中,波形生成模型是利用在现实场景中采集到的样本音频波形训练得到的。
区别于前述实施例,通过利用目标声学参数预测得到初始幅度谱,并获取初始相位谱,并基于初始幅度谱和初始相位谱,得到初始音频波形,从而将初始音频波形输入波形生成模型,得到目标音频波形,且波形生成模型是利用在现实场景中采集到的样本音频波形训练得到的,故波形生成模型能够在训练过程学习现实场景中的样本音频波形的波形特征,从而能够有利于提高波形生成波形的准确性,进而通过将初始音频波形输入波形生成模型,得到目标音频波形,能够有利于提高生成波形的质量。
在一些公开实施例中,波形生成模型是利用上述任一波形生成模型的训练方法实施例中的步骤训练得到的。
区别于前述实施例,波形生成模型是利用上述任一波形生成模型的训练方法实施例中的步骤训练得到的,能够有利于进一步提高波形生成质量。
在一些公开实施例中,波形生成模型包括多个顺序连接的波形生成网络,处理器62用于将首个波形生成网络作为当前生成网络,并将初始音频波形输入当前生成网络,得到生成音频波形;处理器62用于在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形;处理器62用于将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将融合音频波形输入当前生成网络,得到新的生成音频波形;处理器62用于在当前生成网络并非最后一个波形生成网络的情况下,重新执行在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形的步骤以及后续步骤;处理器62用于在当前生成网络为最后一个波形生成网络的情况下,将最新得到的生成音频波形作为目标音频波形。
区别于前述实施例,波形生成模型包括多个顺序连接的波形生成网络,在此基础上将首个波形生成网络作为当前生成网络,并将初始音频波形输入当前生成网络,得到生成音频波形,从而在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形,进而将当前生成网络的下一个波形生成网络,作为新的当前生成网络,并将融合音频波形输入当前生成网络,得到新的生成音频波形,并在当前生成网络并非最后一个波形生成网络的情况下,重新执行在生成音频波形的生成幅度谱中融合初始幅度谱,得到融合音频波形的步骤以及后续步骤,而在当前生成网络为最后一个波形生成网络的情况下,将最新得到的生成音频波形作为目标音频波形,能够通过在多次迭代过程中利用波形生成网络生成波形,有利于不断提高生成音频波形的质量。
在一些公开实施例中,目标音频波形是与目标文本对应的音频波形,处理器62用于获取目标文本的音素序列,并基于音素序列预测得到目标声学参数。
区别于前述实施例,目标音频波形是与目标文本对应的音频波形,并获取目标文本的音素序列,从而基于音素序列预测得到目标声学参数,故通过预测目标文本的目标声学参数,并基于目标声学参数进行后续的波形生成,能够有利于生成与目标文本对应的目标音频波形。
请参阅图7,图7是本申请存储装置70一实施例的框架示意图。存储装置70存储有能够被处理器运行的程序指令71,程序指令71用于实现上述任一波形生成模型的训练方法实施例中的步骤,或实现上述任一波形生成方法实施例中的步骤。
上述方案,能够提高波形生成的质量。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (15)
1.一种波形生成模型的训练方法,其特征在于,包括:
获取样本音频波形和所述样本音频波形的样本声学参数;其中,所述样本音频波形是在现实场景中采集得到的;
利用所述样本声学参数预测得到样本初始幅度谱,并基于样本初始相位谱和所述样本初始幅度谱,得到样本初始波形;
将所述样本初始波形输入波形生成模型,得到样本生成波形;
基于所述样本生成波形和所述样本音频波形之间的差异,调整所述波形生成模型的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述波形生成模型包括多个顺序连接的波形生成网络;所述将所述样本初始波形输入波形生成模型,得到样本生成波形,包括:
将首个所述波形生成网络作为当前生成网络,并将所述样本初始波形输入所述当前生成网络,得到所述样本生成波形;
在所述样本生成波形的样本生成幅度谱中融合所述样本初始幅度谱,得到样本融合波形;
将所述当前生成网络的下一个所述波形生成网络,作为新的当前生成网络,并将所述样本融合波形输入所述当前生成网络,得到新的样本生成波形。
3.根据权利要求2所述的方法,其特征在于,所述在所述样本生成波形的样本生成幅度谱中融合所述样本初始幅度谱,得到样本融合波形,包括:
提取所述样本生成波形的样本生成幅度谱和样本生成相位谱;
将所述样本初始幅度谱和所述样本生成幅度谱进行融合,得到样本融合幅度谱;
基于所述样本生成相位谱和所述样本融合幅度谱,得到所述样本融合波形。
4.根据权利要求3所述的方法,其特征在于,所述将所述样本初始幅度谱和所述样本生成幅度谱进行融合,得到样本融合幅度谱,包括:
分别利用第一权值、第二权值对所述样本初始幅度谱、所述样本生成幅度谱进行加权处理,得到所述样本融合幅度谱;
其中,所述第一权值和所述第二权值为负相关关系。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述当前生成网络并非所述波形生成模型中最后一个所述波形生成网络的情况下,重新执行所述在所述样本生成波形的样本生成幅度谱中融合所述样本初始幅度谱,得到样本融合波形的步骤以及后续步骤。
6.根据权利要求2所述的方法,其特征在于,所述波形生成网络包括若干顺序连接的第一卷积层和第一全连接层,且所述第一卷积层包括若干一维卷积核。
7.根据权利要求1所述的方法,其特征在于,所述基于所述样本生成波形和所述样本音频波形之间的差异,调整所述波形生成模型的网络参数,包括:
将所述样本生成波形输入波形鉴别模型,得到所述样本生成波形被鉴别为所述样本音频波形的第一概率值;以及,
将所述样本音频波形输入所述波形鉴别模型,得到所述样本音频波形被鉴别为所述样本音频波形的第二概率值;
基于所述第一概率值,得到所述波形生成模型的第一损失值,并基于所述第一概率值和所述第二概率值,得到所述波形鉴别模型的第二损失值;
利用所述第一损失值,调整所述波形生成模型的网络参数,或者,利用所述第二损失值,调整所述波形鉴别模型的网络参数。
8.根据权利要求7所述的方法,其特征在于,所述波形生成模型是经若干次训练得到的;所述利用所述第一损失值,调整所述波形生成模型的网络参数,或者,利用所述第二损失值,调整所述波形鉴别模型的网络参数,包括:
在当前训练次数满足预设条件的情况下,利用所述第一损失值,调整所述波形生成模型的网络参数;
在当前训练次数不满足所述预设条件的情况下,利用所述第二损失值,调整所述波形鉴别模型的网络参数。
9.根据权利要求1所述的方法,其特征在于,所述波形生成模型包括幅度预测网络;所述利用所述样本声学参数预测得到样本初始幅度谱,包括:
利用所述幅度预测网络处理所述样本声学参数,得到所述样本初始幅度谱;
其中,所述幅度预测网络包括若干顺序连接的第二卷积层和第二全连接层,且所述第二卷积层包括若干二维卷积核。
10.一种波形生成方法,其特征在于,包括:
利用目标声学参数预测得到初始幅度谱,并获取初始相位谱;
基于所述初始幅度谱和所述初始相位谱,得到初始音频波形;
将所述初始音频波形输入波形生成模型,得到目标音频波形;
其中,所述波形生成模型是利用在现实场景中采集到的样本音频波形训练得到的。
11.根据权利要求10所述的方法,其特征在于,所述波形生成模型是利用权利要求1至9任一项所述的波形生成模型的训练方法训练得到的。
12.根据权利要求10所述的方法,其特征在于,所述波形生成模型包括多个顺序连接的波形生成网络;所述将所述初始音频波形输入波形生成模型,得到目标音频波形,包括:
将首个所述波形生成网络作为当前生成网络,并将所述初始音频波形输入所述当前生成网络,得到生成音频波形;
在所述生成音频波形的生成幅度谱中融合所述初始幅度谱,得到融合音频波形;
将所述当前生成网络的下一个所述波形生成网络,作为新的当前生成网络,并将所述融合音频波形输入所述当前生成网络,得到新的生成音频波形;
在所述当前生成网络并非最后一个所述波形生成网络的情况下,重新执行所述在所述生成音频波形的生成幅度谱中融合所述初始幅度谱,得到融合音频波形的步骤以及后续步骤;
在所述当前生成网络为最后一个所述波形生成网络的情况下,将最新得到的生成音频波形作为所述目标音频波形。
13.根据权利要求10所述的方法,其特征在于,所述目标音频波形是与目标文本对应的音频波形;在所述利用目标声学参数预测得到初始幅度谱之前,所述方法还包括:
获取所述目标文本的音素序列,并基于所述音素序列预测得到所述目标声学参数。
14.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的波形生成模型的训练方法,或实现权利要求10至13任一项所述的波形生成方法。
15.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至9任一项所述的波形生成模型的训练方法,或实现权利要求10至13任一项所述的波形生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110056064.3A CN112820267B (zh) | 2021-01-15 | 2021-01-15 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110056064.3A CN112820267B (zh) | 2021-01-15 | 2021-01-15 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112820267A true CN112820267A (zh) | 2021-05-18 |
CN112820267B CN112820267B (zh) | 2022-10-04 |
Family
ID=75870272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110056064.3A Active CN112820267B (zh) | 2021-01-15 | 2021-01-15 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820267B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
CN1157452A (zh) * | 1995-09-28 | 1997-08-20 | 索尼公司 | 合成语音的方法和装置 |
CN1345028A (zh) * | 2000-09-18 | 2002-04-17 | 松下电器产业株式会社 | 语音合成装置和方法 |
JP2003202882A (ja) * | 2002-01-07 | 2003-07-18 | Seiko Epson Corp | サウンド合成方法およびサウンド合成装置 |
US20140142946A1 (en) * | 2012-09-24 | 2014-05-22 | Chengjun Julian Chen | System and method for voice transformation |
JP2015161774A (ja) * | 2014-02-27 | 2015-09-07 | 学校法人 名城大学 | 音合成方法及び音合成装置 |
US20170162186A1 (en) * | 2014-09-19 | 2017-06-08 | Kabushiki Kaisha Toshiba | Speech synthesizer, and speech synthesis method and computer program product |
US20180174570A1 (en) * | 2015-09-16 | 2018-06-21 | Kabushiki Kaisha Toshiba | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109119063A (zh) * | 2018-08-31 | 2019-01-01 | 腾讯科技(深圳)有限公司 | 视频配音生成方法、装置、设备及存储介质 |
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110797002A (zh) * | 2020-01-03 | 2020-02-14 | 同盾控股有限公司 | 语音合成方法、装置、电子设备及存储介质 |
US20200342848A1 (en) * | 2018-01-11 | 2020-10-29 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
-
2021
- 2021-01-15 CN CN202110056064.3A patent/CN112820267B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
CN1157452A (zh) * | 1995-09-28 | 1997-08-20 | 索尼公司 | 合成语音的方法和装置 |
CN1345028A (zh) * | 2000-09-18 | 2002-04-17 | 松下电器产业株式会社 | 语音合成装置和方法 |
JP2003202882A (ja) * | 2002-01-07 | 2003-07-18 | Seiko Epson Corp | サウンド合成方法およびサウンド合成装置 |
US20140142946A1 (en) * | 2012-09-24 | 2014-05-22 | Chengjun Julian Chen | System and method for voice transformation |
JP2015161774A (ja) * | 2014-02-27 | 2015-09-07 | 学校法人 名城大学 | 音合成方法及び音合成装置 |
US20170162186A1 (en) * | 2014-09-19 | 2017-06-08 | Kabushiki Kaisha Toshiba | Speech synthesizer, and speech synthesis method and computer program product |
US20180174570A1 (en) * | 2015-09-16 | 2018-06-21 | Kabushiki Kaisha Toshiba | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product |
US20200342848A1 (en) * | 2018-01-11 | 2020-10-29 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109119063A (zh) * | 2018-08-31 | 2019-01-01 | 腾讯科技(深圳)有限公司 | 视频配音生成方法、装置、设备及存储介质 |
CN110222781A (zh) * | 2019-06-12 | 2019-09-10 | 成都嗨翻屋科技有限公司 | 音频去噪方法、装置、用户终端及存储介质 |
CN110797002A (zh) * | 2020-01-03 | 2020-02-14 | 同盾控股有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
SHINJI TAKAKI ET AL.: "Direct Modeling of Frequency Spectra and Waveform Generation Based on Phase Recovery for DNN-Based Speech Synthesis", 《INTERSPEECH》 * |
XIN, W. , ET AL.: "A comparison of recent waveform generation and acoustic modeling methods for neural-network-based speech synthesis", 《ICASSP》 * |
周健 等: "采用L1/2稀疏约束的梅尔倒谱系数语音重建方法", 《声学学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112820267B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN105976812B (zh) | 一种语音识别方法及其设备 | |
Xu et al. | A regression approach to speech enhancement based on deep neural networks | |
Wali et al. | Generative adversarial networks for speech processing: A review | |
Uria et al. | A deep neural network for acoustic-articulatory speech inversion | |
Kelly et al. | Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors | |
CN112927707A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
Hsieh et al. | Improving perceptual quality by phone-fortified perceptual loss for speech enhancement | |
CN113284507B (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
Wang et al. | Adversarial examples attack and countermeasure for speech recognition system: A survey | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Qiu et al. | Adversarial multi-task learning with inverse mapping for speech enhancement | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN112820267B (zh) | 波形生成方法以及相关模型的训练方法和相关设备、装置 | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
Hu et al. | Learnable spectral dimension compression mapping for full-band speech enhancement | |
Thai | Deepfake detection and low-resource language speech recogntion using deep learning | |
CN114299918A (zh) | 声学模型训练与语音合成方法、装置和系统及存储介质 | |
JP6912780B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
Zong et al. | Black-box audio adversarial example generation using variational autoencoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230508 Address after: 230026 No. 96, Jinzhai Road, Hefei, Anhui Patentee after: University of Science and Technology of China Patentee after: IFLYTEK Co.,Ltd. Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui Patentee before: IFLYTEK Co.,Ltd. |
|
TR01 | Transfer of patent right |