CN111179905A - 一种快速配音生成方法及装置 - Google Patents
一种快速配音生成方法及装置 Download PDFInfo
- Publication number
- CN111179905A CN111179905A CN202010024022.7A CN202010024022A CN111179905A CN 111179905 A CN111179905 A CN 111179905A CN 202010024022 A CN202010024022 A CN 202010024022A CN 111179905 A CN111179905 A CN 111179905A
- Authority
- CN
- China
- Prior art keywords
- dubbing
- training
- synthesizer
- generation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 99
- 230000008569 process Effects 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000005070 sampling Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种快速配音生成方法及装置,该方法包括:构建配音生成框架,其中,所述配音生成框架包括扬声器编码器、合成器和声码器,所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,所述合成器用于根据所据嵌入信息,将文本生成频谱图,所述声码器用于根据所述频谱图推断并输出音频波形;采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型;将参考语音和文本输入训练之后的所述配音生成框架模型,实现快速配音生成。本发明解决了现有的文本到语音的模型不具有用任何声音生成语音的能力且数据效率低的问题。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种快速配音生成方法及装置。
背景技术
在许多应用机器学习领域,深度学习模型已成为主流。文字转语音(TTS),即从文字提示中合成人工语音的过程,也不例外。比起传统的级联方法,深度模型将产生听起来更自然的语音。
专业录制的语音数据集是一种稀缺资源,要想用正确的发音、生动的语调和最低限度的背景噪音来合成一个自然的声音,需要具有相同质量的训练数据。其次,数据效率仍然是深度学习的核心问题,通常训练一个常见的文本到语音的模型,如Tacotron,通常需要数百小时的语音。此外,为这样的模型提供一个新的声音是非常昂贵的,因为它需要记录一个新的数据集并对模型进行重新训练。此外,现有的文本到语音的模型不具有用任何声音生成语音的能力,即配音生成能力。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种快速配音生成方法及装置,以解决背景技术中出现有一个或多个的问题。
第一方面,本发明实施例提供一种快速配音生成方法,包括:
构建配音生成框架,其中,所述配音生成框架包括扬声器编码器、合成器和声码器,所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,所述合成器用于根据所据嵌入信息,将文本生成频谱图,所述声码器用于根据所述频谱图推断并输出音频波形;
采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型;
将参考语音和文本输入训练之后的所述配音生成框架模型,实现快速配音生成。
进一步地,所述采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型的步骤包括:
分别获取扬声器编码器、合成器和声码器的训练数据集;
依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练,得到训练之后的配音生成框架模型。
进一步地,在分别获取扬声器编码器、合成器和声码器的训练数据集的步骤之后,所述方法还包括:
采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。
进一步地,所述频谱图为梅尔频谱图,所述声码器为基于WaveRNN的模型。
进一步地,所述扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合,且仅包括说话人身份标签,对所述扬声器编码器进行训练的目标函数为GE2E损失函数;
所述合成器的训练数据集为LibriSpeech数据集,在所述合成器的训练过程中采用自动语音识别(ASR)模型将LibriSpeech音频与文本对齐,并将无声时间超过0.4秒的话语进行分割。
第二方面,本发明实施例提供一种快速配音生成装置,包括:
框架构建模块,用于构建配音生成框架,其中,所述配音生成框架包括扬声器编码器、合成器和声码器,所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,所述合成器用于根据所据嵌入信息,将文本生成频谱图,所述声码器用于根据所述频谱图推断并输出音频波形;
模型训练模块,用于采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型;
配音生成模块,用于将参考语音和文本输入训练之后的所述配音生成框架模型,实现快速配音生成。
进一步地,所述模型训练模块包括:
获取模块,用于分别获取扬声器编码器、合成器和声码器的训练数据集;
训练模块,用于依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练,得到训练之后的配音生成框架模型。
进一步地,所述装置还包括:
UMAP模块,用于采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。
进一步地,所述频谱图为梅尔频谱图,所述声码器为基于WaveRNN的模型。
进一步地,所述扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合,且仅包括说话人身份标签,对所述扬声器编码器进行训练的目标函数为GE2E损失函数;
所述合成器的训练数据集为LibriSpeech数据集,在所述合成器的训练过程中采用自动语音识别(ASR)模型将LibriSpeech音频与文本对齐,并将无声时间超过0.4秒的话语进行分割。
第三方面,本发明实施例提供一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种上述的方法。
第四方面,本发明实施例提供一种处理器,上述处理器用于运行程序,其中,所述程序运行时执行任意一种上述的方法。
第五方面,本发明实施例提供一种电子设备,包括:一个或多个处理器,存储器,显示装置以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的方法。
有益效果
本发明提供的快速配音生成方法及装置,通过配音生成框架捕获说话者的语音,能够在任意输入上执行文本到语音的转换,且允许从仅仅几秒钟的参考语音中克隆出在训练过程中看不到的语音,并且不需要对配音生成框架模型进行再训练。与现有的为每个说话者训练单独的文本到语音的模型相比,速度更快,计算成本更低,能够实现实时快速的配音生成。
附图说明
图1是根据本发明实施例的一种快速配音生成方法的流程图;
图2是发音嵌入的UMAP投影;
图3是包括有男性和女性的120个嵌入信息的UMAP投影;
图4是根据本发明实施例的一种快速配音生成装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在本发明实施中,提供一种快速配音生成方法,如图1所示,该方法包括如下步骤:
步骤S100,构建配音生成框架,其中,配音生成框架包括扬声器编码器、合成器和声码器,扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,合成器用于根据所据嵌入信息,将文本生成频谱图,声码器用于根据频谱图推断并输出音频波形;
步骤S102,采用端到端的方式对配音生成框架进行训练,得到训练之后的配音生成框架模型;
步骤S104,将参考语音和文本输入训练之后的配音生成框架模型,实现快速配音生成。
其中,本发明方法基于Speaker Verification to Multispeaker Text-To-Speech(简称SV2TTS), SV2TTS是Tacotron系列5在谷歌上发表的谷歌的论文,它号称能用于零样本(zero-shot)配音生成,只需要5秒钟的参照语音,但目前没有公开实现,且没有一个SV2TTS框架,无法实时运行。本发明方法首先构建一个SV2TTS框架,即配音生成框架,它使用一个比SV2TTS 更新的声码器,以便它能够实时运行,实现快速配音生成。
其中,配音生成框架包括如下三个部分:
(1)一种扬声器编码器,可从单个说话人的短促讲话中提取嵌入信息。嵌入是说话人声音的一种有意义的表示,使得相似的声音在潜在空间中很接近;
(2)一种合成器,其以扬声器的嵌入为条件,可从文本生成频谱图,该模型是移除了 Wavenet的Tacotron 2模型;
(3)一个声码器,可以从合成器生成的频谱图中推断出音频波形。其使用WaveNet作为声码器,有效地重新应用了整个Tacotron 2框架。
在推断时间,扬声器编码器会收到扬声器的简短参考言语以进行克隆,它生成用于调节合成器的嵌入,并且将作为音素序列处理的文本作为合成器的输入给出,声码器获取合成器的输出以生成语音波形。
由于SV2TTS没有得到任何公开实施的支持,我们创建了配音生成框架,使其实时运行,即在更短的时间内或等于产生的语音的持续时间内生成语音,训练之后的配音生成框架模型是一个固定的模型,能够在几乎没有数据的情况下合并较新的语音。与现有的为每个说话者训练单独的文本到语音的模型相比,速度更快,计算成本更低,能够实现实时快速的配音生成。
考虑由说话者分组的话语数据集。我们将第i个说话者的第j个发音表示为uij。话语在波形域中。我们用xij表示发音uij的对数梅尔频谱图。对数梅尔频谱图是确定性的,不可逆的(有损)函数,可从波形中提取语音特征,以便在机器学习中以更易处理的方式处理语音。
我们可以以端到端的方式对该配音生成框架进行训练,其目标功能如下:
其中,是波形域中的损失函数。但这种方法要求在同一数据集上训练所有三个部分,这意味着该数据集在理想情况下需要满足所有模型的要求:扬声器编码器需要大量说话者,但合成器需要同时转录。合成器的低电平噪声,以及编码器的平均噪声电平(以便能够处理有噪声的输入语音)。这些冲突是有问题的,因此,我们在不同的数据集上对三个部分分别训练,将导致训练的配音生成框架模型的性能更好。
此外,由于合成模型的收敛性可能很难达到。特别是,Tacotron合成器可能需要花费大量时间才能产生正确的校准。我们将合成器和声码器的训练分开。假设经过预训练的扬声器编码器,则可以训练合成器以直接预测目标音频的梅尔频谱图:
与合成器和声码器不同,扬声器编码器没有要训练的标签,我可以对扬声器编码器进行优化,其被大胆地被定义为产生有意义的“嵌入”,以体现话语中的语音特征。我们可以想到一种将扬声器编码器训练为自动编码器的方法,但是这需要使相应的上采样模型知道要预测的文本,要么将数据集限制在同一句子中,要么需要转录,而上采样模型就是合成器。在这两种情况下,为了使训练的质量不会受到数据集的影响,我们使用GE2E损失模拟这一过程并允许独立于合成器训练扬声器编码器。在不对音频的噪声水平有任何强烈要求的情况下,q我们采用由许多不同说话者组成的大型语料库来训练编码器,以生成一种对噪声稳定并且能够捕获人类语音的许多特征的模型。此外,扬声器接受了GE2E损失训练,除说话人身份外,不需要其他任何标签。对于GE2E,模型要学习的任务是说话者验证任务,而该任务本身与配音生成无关。但是,该任务以网络将输出嵌入的方式规定,该嵌入是说话者语音的有意义的表示。这种嵌入适合将合成器置于声音上,我们采用相对较小的更高质量和带注释的数据集作为合成器和声码器的数据集,对合成器和声码器的进行训练。
虽然配音生成框架的所有部分都是单独训练的,但合成器仍然需要从训练过的编码器中嵌入,而声码器需要从训练过的合成器中提取梅尔频谱图,配音生成框架中每一部分都依赖于前一个部分模型进行训练。扬声器编码器需要有足够的泛化能力,以便在合成器的数据集上产生有意义的嵌入;即使是在通用数据集上进行训练,它也必须能够在推理时在零样本设置下进行操作。
扬声器编码器模型是一个三层的LSTM,有768个隐藏节点,之后是一个由256个单元的全连接层。每个全连接层分别连接在每个LSTM层之后,接收上一个LSTM层的输出。为了快速制作原型,简化操作并减轻训练负担,我们直接使用了256个单元的LSTM层来代替全连接层,使得模型更小,效果极好。该模型的输入是40通道对数梅尔频谱图,窗口宽度为25ms,步长为10ms。输出是最后一层的L2归一化隐藏状态,它是256个元素的向量。我们的实现在归一化之前还具有ReLU层,其目标是使嵌入变得稀疏,从而更容易解释。
扬声器编码器在扬声器验证任务上接受训练。扬声器验证是一种典型的生物鉴定应用,通过鉴定人声判定人的身份。通过从人的一些话语中获取扬声器嵌入,进而可以创建此人的模板。这个过程被称为登入(enrollment)。在运行过程中,用户说出一些话,并且系统会对这段话语的嵌入与已登入的扬声器嵌入进行比较。如果两个嵌入向量的相似度超过给定的阈值,则用户验证成功。GE2E loss模拟这一过程,作为模型的目标函数。
在训练时,扬声器编码器模型计算了N个说话人M个固定时长的话语的嵌入eij(1≤i≤N, 1≤j≤m),导出了每个说话人的说话人嵌入ci:相似度矩阵Sij,k是将所有嵌入eij与批处理中每个说话人嵌入ck(1≤K≤N)进行二乘二比较的结果。此度量是缩放余弦相似度
Sij,k=w·cos(eij,ck)+b=w·eij·||ck||2+b
其中w和b是可学习的参数。从计算的角度来看,两个L2归一化向量的余弦相似度只是它们的点积,因此是上述方程的最右边。当一个话语与说话人匹配时(i=k),一个最优模型期望输出高相似度值,而在其他地方则输出低相似度值(i≠k)。要在这个方向上进行优化,损失是逐行softmax损失的总和。
在计算损耗时,每个话语eij都包含在同一个说话者的质心ci中。这就造成了对正确说话者的偏见,而这与扬声器编码器模型的准确性无关,也为微不足道的解决方案留下了空间。为了防止这种情况的发生,将从说话人嵌入中移除与其自身说话人嵌入进行比较的话语。相似矩阵定义为:
一个训练批次中说话的固定时长是1.6秒,这些是从数据集中较长完整的话语中采样的部分话语。虽然该扬声器编码器模型体系结构能够处理可变长度的输入,但是我们有理由期望它在处理与训练中相同持续时间的话语时表现得最好。因此,在推断时,一个话语被分割成1.6秒的片段,重叠50%,扬声器编码器分别转发每个片段。然后对结果进行平均,然后归一化以产生发声嵌入。
计算相似矩阵的时间复杂度为O(N2M),应选择不太大的参数,以免大大降低训练速度,而不是简单地选择GPU上的最大批量。当然,仍然有可能在同一GPU上并行化多个批次,同时跨批次同步操作以提高效率。我们发现在计算相似矩阵时,对所有操作进行矢量化以最小化GPU事务的数量尤为重要。
我们使用LibriSpeech-Other、VoxCeleb1和VoxCeleb2作为扬声器编码器的训练数据集,经实验发现,说话者的数量不仅与扬声器编码器在验证任务上的良好性能密切相关,而且与整个框架在生成语音的质量及其克隆语音的能力方面的良好性能也密切相关。
我们训练扬声器编码器一百万步。为了监测训练,我们报告了能效比,并观察了模型聚集说话者的能力。我们采用随机抽样的方式,每组10个说话者,每个说话者有10个话语,计算话语嵌入,并使用UMAP将它们投射到二维空间中。UMAP是均匀流形近似和投影(uniform manifold approximation and projection),用于对数据集降维,由于不同说话者的嵌入在潜在空间中的距离比来自同一说话者的嵌入要远,因此随着训练的进行,来自同一说话者的话语集群也会出现。我们在图2中报告了我们的UMAP预测,在图2中可以观察到这种行为。在我们模型的不同迭代中,从训练集中随机选择的批次中发音嵌入的UMAP投影。可以看出来自同一扬声器的讲话用相同颜色的点表示,我们特别省略了将标签传递给UMAP的操作,因此聚类完全由模型完成。
等误差率(EER)是生物计量系统中常用的一种测量方法,用于评估系统的准确性。它是假阳性率与真负性率相等时的值。通过改变生物识别系统识别用户的相似度阈值来实现这些术语的等价,我们计算的EER为4.5%。
我们发现该模型产生的潜在空间聚类具有很强的鲁棒性和泛化能力。在我们所有的测试中,UMAP投影完美地将话语从三个数据集的测试集中分离出来,具有较大的簇间距离和较小的簇内方差。图3给出了一个示例,120个嵌入信息的UMAP投影,12个演讲者每人10个,从测试集中随机选择六位男性和六位女性演讲者,使用的测试集是LibriSpeech、VoxCeleb1 和VoxCeleb2测试集的组合。带F的是女性,带M的是男性。我们发现,我们的预测会在预测空间中线性地将说话者的性别分开。我们的集群比现有方法预测的集群更密集,我们使用的话语为部分话语,因为实验发现完整的话语会产生更低的能率。
合成器是移除了Wavenet的Tacotron 2,Tacotron是一个循环的序列到序列模型,它能够从文本中预测梅尔声谱图。Tacotron是编码器-解码器结构(并非SV2TTS的扬声器编码器),中间由位置敏感的注意力机制连接。首先,输入为文本序列,其中的字符首先转换为嵌入向量。随后嵌入向量通过卷积层,用于增加单个编码器帧的范围。通过卷积层之后的编码器帧再通过双向LSTM,生成编码器输出帧。
注意力机制对编码器输出帧进行处理,以生成解码器输入帧。每个解码器输入帧和经过 pre-net的前一个解码器帧输出级联,使模型实现自回归。这个级联向量通过两个单向LSTM 层,然后映射到梅尔声图谱帧。级联向量同时映射到一个标量(scalar)上,使网络预测一个值,如果该值超过设定阈值,则停止生成。整个帧序列在转换为梅尔声谱图前通过残差 post-net传递。
用于合成器的目标梅尔频谱图比用于扬声器编码器的梅尔频谱图具有更多的特性。它们是在一个50ms的窗口中以12.5ms的步长计算的,有80个通道。在我们的实现中,输入文本经过清洗过程,字符按原样输入,我们用完整的文本形式替换缩写和数字,强制所有字符用 ASCII码表示,将空白规整并使所有字符小写,可以使用标点。
我们使用LibriSpeech数据集训练合成器,LibriSpeech数据集上的采样率为16kHz,我们发现在LibriSpeech数据集上训练的合成器生成效果优于VCTK数据集,为了不损失语音自然度。我们在LibriSpeech数据集上训练合成器,在VCTK数据集上进行测试。
我们使用一个自动语音识别(ASR)模型来强制使LibriSpeech音频与文本对齐。将音频与文本对齐后,我们将无声时间超过0.4秒的话语进行分割。这有助于合成器的收敛,一方面是因为目标频谱图中无声的消除,另一方面是因为数据集中话语持续时间的中位数减少了,因为较短的序列为计时错误提供了更少的空间。我们确保话语不少于1.6秒,用于训练扬声器编码器的部分话语的持续时间,不长于11.25秒,节省GPU内存用于训练。
通过将文本与音频对齐来隔离无声信息,还可以为同一说话者的所有话语创建噪音概要。我们使用python实现了LogMMSE算法。使用LogMMSE通过在最早的几帧(通常还不包含语音) 中分析噪声,并在整个语音过程中在非语音帧中不断更新噪声,从而清理音频语音段,这个额外的预处理步骤大大有助于降低合成光谱图的背景噪声。
我们训练合成器150K步,批量大小为144,跨4个gpu。损失函数是L2损失之间的预测和地面真相梅尔光谱图。在训练过程中,将模型设置为Ground Truth Aligned(GTA)模式,其中预网的输入是Ground Truth图谱的前一帧,而不是预测的前一帧。使用GTA,生成的谱图的音高和韵律与地面真值保持一致,允许预测与地面真值之间共享上下文,并更快地收敛。如果没有GTA,合成器就会在给定固定文本和嵌入输入的情况下生成相同话语的不同变体,就像推理时的情况一样。
其中,声码器为基于WaveRNN的模型。WaveRNN是一个描述自回归模型推理速度的简单方案。给定一个具有|u|个样本的目标向量u,推理的总时间T(u)可以分解为:
其中N是产生一个样本所需的矩阵向量积的数目(∝是层的数目),c(opi)是层i的计算时间,d(opi)是层i的计算开销(通常是i/O操作)。语音的标准采样率包括16kHz,22.05kHz和24kHz(而音乐采样频率通常为44.1kHz),这意味着仅5秒的音频|u|就接近100000个采样。标准的WaveNet架构包含三个堆栈,每个堆栈包含10个残差块,每个块有两层,从而得到N=60。WaveRNN模型不仅减少了N的贡献,而且减少了c(opi)和d(opi)的贡献,我们使用的声码器模型是一个开源的PyTorch实现,它基于WaveRNN,我们将此架构称为“替代WaveRNN”。
在替代的WaveRNN中,WaveNet的全部60个卷积被一个GRU层替代。WaveNet的MOS值为4.51±0.08,而最佳的WaveRNN模型的MOS值为4.48±0.07。模型输入的是由合成器生成的GTA met声谱图,以ground truth音频为目标。模型在训练时预测固定大小的波形片段。在粗精方案中,WaveRNN的前向传递通过N=5的矩阵向量乘积来实现,其中首先对16位目标样本的较低8位(粗)进行预测,然后据此对较高8位(精)的预测进行调整。预测包含对输出进行采样的分布参数。
在批量采样中,话语被分成固定长度的片段,并并行生成在所有部分。为了在一个段的结束和下一个段的开始之间保留一些上下文,在下一个段的开始处重复一小段段的结束。这个过程叫做折叠。然后,模型将折叠好的线段向前传递。为了获得展开张量,对连续段的重叠部分进行交叉消隐合并。我们使用替代的WaveRNN进行批量采样,片段长度为8000个样本,重叠长度为400个样本。使用这些参数,对于16kHz的语音,大小为2的折叠批将产生稍多于1秒的音频。
在处理短话语时,声码器的运行速度通常低于实时速度。推理速度高度依赖于批采样过程中的折叠次数。事实上,就折叠次数而言,声码器网络几乎是在恒定时间内运行,并且随着折叠次数的增加,时间只有少量增加。可以设置阈值持续时间为12.5秒,如果话语短于该阈值,则模型的运行速度将慢于实时速度。
为了使声码器模型表现得更好更快,更有利于提高推理速度。我们可以对替代WaveRNN模型进行修剪,一个大型的稀疏的WaveRNN将比一个小型的稠密的WaveRNN表现得更好更快,通过实验,我们发现对于稀疏矩阵和稠密向量的矩阵乘法运算在时间上只在稀疏度大于91%的情况下才会打破时间上的平衡,在这个值以下,使用稀疏张量实际上会降低前向传递的速度。测试表明,在最好的情况下,96.4%的稀疏性水平会将实时阈值降低到7.86秒,将97.8%的水平降低到4.44秒。
在本发明实施例中,通过配音生成框架捕获说话者的语音,能够在任意输入上执行文本到语音的转换,且允许从仅仅几秒钟的参考语音中克隆出在训练过程中看不到的语音,并且不需要对配音生成框架模型进行再训练。
图4显示了根据本发明实施例的一种快速配音生成装置的示意图,如图4所示,本实施例的快速配音生成装置包括框架构建模块200、模型训练模块202和配音生成模块204。框架构建模块200、模型训练模块202和配音生成模块204分别用于执行图1中的S100、S102、S104中的具体方法,详情可参见图1的相关介绍,在此仅作简单描述:
框架构建模块200,用于构建配音生成框架,其中,配音生成框架包括扬声器编码器、合成器和声码器,扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,合成器用于根据所据嵌入信息,将文本生成频谱图,声码器用于根据频谱图推断并输出音频波形;
模型训练模块202,用于采用端到端的方式对配音生成框架进行训练,得到训练之后的配音生成框架模型;
配音生成模块204,用于将参考语音和文本输入训练之后的配音生成框架模型,实现快速配音生成。
进一步地,模型训练模块202可以包括:
获取模块,用于分别获取扬声器编码器、合成器和声码器的训练数据集;
训练模块,用于依次对扬声器编码器、合成器和声码器在不同的数据集上分别进行训练,得到训练之后的配音生成框架模型。
进一步地,装置还可以包括:
UMAP模块,用于采用均匀流形近似和投影UMAP对扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。
进一步地,频谱图为梅尔频谱图,声码器为基于WaveRNN的模型。
进一步地,扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合,且仅包括说话人身份标签,对扬声器编码器进行训练的目标函数为GE2E损失函数;
合成器的训练数据集为LibriSpeech数据集,在合成器的训练过程中采用自动语音识别 (ASR)模型将LibriSpeech音频与文本对齐,并将无声时间超过0.4秒的话语进行分割。
在本发明实施中,还提供一种存储介质,存储介质包括存储的程序,其中,程序执行任意一种上述的方法。
在本发明实施中,还提供一种处理器,上述处理器用于运行程序,其中,程序运行时执行任意一种上述的方法。
在本发明实施中,还提供一种电子设备,包括:一个或多个处理器,存储器,显示装置以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的方法。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种快速配音生成方法,其特征在于,所述方法包括:
构建配音生成框架,其中,所述配音生成框架包括扬声器编码器、合成器和声码器,所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,所述合成器用于根据所据嵌入信息,将文本生成频谱图,所述声码器用于根据所述频谱图推断并输出音频波形;
采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型;
将参考语音和文本输入训练之后的所述配音生成框架模型,实现快速配音生成。
2.根据权利要求1所述的方法,其特征在于,所述采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型的步骤包括:
分别获取扬声器编码器、合成器和声码器的训练数据集;
依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练,得到训练之后的配音生成框架模型。
3.根据权利要求2所述的方法,其特征在于,在分别获取扬声器编码器、合成器和声码器的训练数据集的步骤之后,所述方法还包括:
采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。
4.根据权利要求3所述的方法,其特征在于,所述频谱图为梅尔频谱图,所述声码器为基于WaveRNN的模型。
5.根据权利要求4所述的方法,其特征在于,
所述扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合,且仅包括说话人身份标签,对所述扬声器编码器进行训练的目标函数为GE2E损失函数;
所述合成器的训练数据集为LibriSpeech数据集,在所述合成器的训练过程中采用自动语音识别(ASR)模型将LibriSpeech音频与文本对齐,并将无声时间超过0.4秒的话语进行分割。
6.一种快速配音生成装置,其特征在于,所述装置包括:
框架构建模块,用于构建配音生成框架,其中,所述配音生成框架包括扬声器编码器、合成器和声码器,所述扬声器编码器用于从单个说话人的短促讲话中提取嵌入信息,所述合成器用于根据所据嵌入信息,将文本生成频谱图,所述声码器用于根据所述频谱图推断并输出音频波形;
模型训练模块,用于采用端到端的方式对所述配音生成框架进行训练,得到训练之后的配音生成框架模型;
配音生成模块,用于将参考语音和文本输入训练之后的所述配音生成框架模型,实现快速配音生成。
7.根据权利要求6所述的装置,其特征在于,所述模型训练模块包括:
获取模块,用于分别获取扬声器编码器、合成器和声码器的训练数据集;
训练模块,用于依次对所述扬声器编码器、合成器和声码器在不同的数据集上分别进行训练,得到训练之后的配音生成框架模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
UMAP模块,用于采用均匀流形近似和投影UMAP对所述扬声器编码器训练数据集、合成器训练数据集和声码器的训练数据集进行降维处理。
9.根据权利要求8所述的装置,其特征在于,所述频谱图为梅尔频谱图,所述声码器为基于WaveRNN的模型。
10.根据权利要求9所述的装置,其特征在于,
所述扬声器编码器的训练数据集为LibriSpeech、VoxCeleb1和VoxCeleb2数据集的组合,且仅包括说话人身份标签,对所述扬声器编码器进行训练的目标函数为GE2E损失函数;
所述合成器的训练数据集为LibriSpeech数据集,在所述合成器的训练过程中采用自动语音识别(ASR)模型将LibriSpeech音频与文本对齐,并将无声时间超过0.4秒的话语进行分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010024022.7A CN111179905A (zh) | 2020-01-10 | 2020-01-10 | 一种快速配音生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010024022.7A CN111179905A (zh) | 2020-01-10 | 2020-01-10 | 一种快速配音生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111179905A true CN111179905A (zh) | 2020-05-19 |
Family
ID=70652599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010024022.7A Pending CN111179905A (zh) | 2020-01-10 | 2020-01-10 | 一种快速配音生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179905A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816148A (zh) * | 2020-06-24 | 2020-10-23 | 厦门大学 | 一种基于生成对抗网络的虚拟人声视唱方法和系统 |
CN112116903A (zh) * | 2020-08-17 | 2020-12-22 | 北京大米科技有限公司 | 语音合成模型的生成方法、装置、存储介质及电子设备 |
CN112365875A (zh) * | 2020-11-18 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、声码器和电子设备 |
CN112382308A (zh) * | 2020-11-02 | 2021-02-19 | 天津大学 | 基于深度学习与简单声学特征的零次语音转换系统和方法 |
CN112614479A (zh) * | 2020-11-26 | 2021-04-06 | 北京百度网讯科技有限公司 | 训练数据的处理方法、装置及电子设备 |
CN112837691A (zh) * | 2021-01-14 | 2021-05-25 | 北京中科深智科技有限公司 | 在自动化配音场景中实现短语音同步的方法和装置 |
CN112929752A (zh) * | 2021-01-26 | 2021-06-08 | 广州欢网科技有限责任公司 | 基于智能电视的配音方法、装置及计算机设备 |
CN113409759A (zh) * | 2021-07-07 | 2021-09-17 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN113488057A (zh) * | 2021-08-18 | 2021-10-08 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
CN113628610A (zh) * | 2021-08-12 | 2021-11-09 | 科大讯飞股份有限公司 | 一种语音合成方法和装置、电子设备 |
CN113724684A (zh) * | 2021-10-19 | 2021-11-30 | 南京航空航天大学 | 一种空中交通管制指令的语音合成方法及系统 |
WO2022121157A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282300A (ja) * | 2000-04-03 | 2001-10-12 | Sharp Corp | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 |
CN1815552A (zh) * | 2006-02-28 | 2006-08-09 | 安徽中科大讯飞信息科技有限公司 | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 |
CN101178895A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于生成参数听感误差最小化的模型自适应方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
JP4829477B2 (ja) * | 2004-03-18 | 2011-12-07 | 日本電気株式会社 | 声質変換装置および声質変換方法ならびに声質変換プログラム |
US20140142946A1 (en) * | 2012-09-24 | 2014-05-22 | Chengjun Julian Chen | System and method for voice transformation |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109119067A (zh) * | 2018-11-19 | 2019-01-01 | 苏州思必驰信息科技有限公司 | 语音合成方法及装置 |
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的系统和方法 |
CN110473515A (zh) * | 2019-08-29 | 2019-11-19 | 郝洁 | 一种基于WaveRNN的端到端语音合成方法 |
-
2020
- 2020-01-10 CN CN202010024022.7A patent/CN111179905A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282300A (ja) * | 2000-04-03 | 2001-10-12 | Sharp Corp | 声質変換装置および声質変換方法、並びに、プログラム記録媒体 |
JP4829477B2 (ja) * | 2004-03-18 | 2011-12-07 | 日本電気株式会社 | 声質変換装置および声質変換方法ならびに声質変換プログラム |
CN1815552A (zh) * | 2006-02-28 | 2006-08-09 | 安徽中科大讯飞信息科技有限公司 | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101178895A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于生成参数听感误差最小化的模型自适应方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
US20140142946A1 (en) * | 2012-09-24 | 2014-05-22 | Chengjun Julian Chen | System and method for voice transformation |
CN110136693A (zh) * | 2018-02-09 | 2019-08-16 | 百度(美国)有限责任公司 | 用于使用少量样本进行神经话音克隆的系统和方法 |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109119067A (zh) * | 2018-11-19 | 2019-01-01 | 苏州思必驰信息科技有限公司 | 语音合成方法及装置 |
CN109637546A (zh) * | 2018-12-29 | 2019-04-16 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110473515A (zh) * | 2019-08-29 | 2019-11-19 | 郝洁 | 一种基于WaveRNN的端到端语音合成方法 |
Non-Patent Citations (1)
Title |
---|
CHUXIONG ZHANG ET AL.: "《A Prosodic Mandarin Text-to-Speech System Based on Tacotron》", 《IEEE 2019 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816148A (zh) * | 2020-06-24 | 2020-10-23 | 厦门大学 | 一种基于生成对抗网络的虚拟人声视唱方法和系统 |
CN112116903A (zh) * | 2020-08-17 | 2020-12-22 | 北京大米科技有限公司 | 语音合成模型的生成方法、装置、存储介质及电子设备 |
CN112382308A (zh) * | 2020-11-02 | 2021-02-19 | 天津大学 | 基于深度学习与简单声学特征的零次语音转换系统和方法 |
CN112365875A (zh) * | 2020-11-18 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、声码器和电子设备 |
CN112365875B (zh) * | 2020-11-18 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音合成方法、装置、声码器和电子设备 |
CN112614479A (zh) * | 2020-11-26 | 2021-04-06 | 北京百度网讯科技有限公司 | 训练数据的处理方法、装置及电子设备 |
WO2022121157A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112837691A (zh) * | 2021-01-14 | 2021-05-25 | 北京中科深智科技有限公司 | 在自动化配音场景中实现短语音同步的方法和装置 |
CN112929752A (zh) * | 2021-01-26 | 2021-06-08 | 广州欢网科技有限责任公司 | 基于智能电视的配音方法、装置及计算机设备 |
CN113409759A (zh) * | 2021-07-07 | 2021-09-17 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN113628610A (zh) * | 2021-08-12 | 2021-11-09 | 科大讯飞股份有限公司 | 一种语音合成方法和装置、电子设备 |
CN113628610B (zh) * | 2021-08-12 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语音合成方法和装置、电子设备 |
CN113488057A (zh) * | 2021-08-18 | 2021-10-08 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
CN113488057B (zh) * | 2021-08-18 | 2023-11-14 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
CN113724684A (zh) * | 2021-10-19 | 2021-11-30 | 南京航空航天大学 | 一种空中交通管制指令的语音合成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
Shen et al. | Natural tts synthesis by conditioning wavenet on mel spectrogram predictions | |
Sun et al. | Voice conversion using deep bidirectional long short-term memory based recurrent neural networks | |
Zen et al. | Statistical parametric speech synthesis using deep neural networks | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
KR20180071029A (ko) | 음성 인식 방법 및 장치 | |
US6006186A (en) | Method and apparatus for a parameter sharing speech recognition system | |
CN111161702A (zh) | 个性化语音合成方法、装置、电子设备、存储介质 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Hussain et al. | Ace-vc: Adaptive and controllable voice conversion using explicitly disentangled self-supervised speech representations | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Rajesh Kumar et al. | Optimization-enabled deep convolutional network for the generation of normal speech from non-audible murmur based on multi-kernel-based features | |
Li et al. | Multi-task learning of structured output layer bidirectional LSTMs for speech synthesis | |
Hasija et al. | Out domain data augmentation on Punjabi children speech recognition using Tacotron | |
Ramos | Voice conversion with deep learning | |
CN113436607A (zh) | 一种快速语音克隆方法 | |
Zhao et al. | Research on voice cloning with a few samples | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
Wisesty et al. | Feature extraction analysis on Indonesian speech recognition system | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
KR20230094826A (ko) | 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |
|
RJ01 | Rejection of invention patent application after publication |