CN113436607A - 一种快速语音克隆方法 - Google Patents

一种快速语音克隆方法 Download PDF

Info

Publication number
CN113436607A
CN113436607A CN202110657034.8A CN202110657034A CN113436607A CN 113436607 A CN113436607 A CN 113436607A CN 202110657034 A CN202110657034 A CN 202110657034A CN 113436607 A CN113436607 A CN 113436607A
Authority
CN
China
Prior art keywords
voice
layer
speech
cloning method
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110657034.8A
Other languages
English (en)
Other versions
CN113436607B (zh
Inventor
赵莉
陈非凡
赵瑞霞
史嘉琪
许鹤馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202110657034.8A priority Critical patent/CN113436607B/zh
Publication of CN113436607A publication Critical patent/CN113436607A/zh
Application granted granted Critical
Publication of CN113436607B publication Critical patent/CN113436607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种快速语音克隆方法,包括如下步骤:步骤101、利用编码器模块获取声学特征;步骤102、利用合成器模块合成梅尔谱图;步骤103、利用声码器模块将梅尔谱图转换成克隆语音;该快速语音克隆方法,采用了3个模型联合建模,分别采用不同数据集,进行独立的训练。其可以使用目前的开源数据集并在低性能设备上克隆出良好效果的克隆语音,具有失真率低,频谱相似度高,对齐度高的优点。

Description

一种快速语音克隆方法
技术领域
本发明属于语音克隆技术领域,具体涉及一种快速语音克隆方法。
背景技术
随着语音学的研究和发展,语音技术也日新月异。如今的语音技术主要包括语音合成和语音识别两大类。一般来说,对语音中的声学特征进行改变或调整的技术被称为语音转换。而对语音进行处理,通过改变说话人的声学特征,如频谱、共振峰等,使其与另一说话人的音色相似的技术则是语音克隆。实现语音克隆的方法通常有两种,通过改变原始语音中的声学特征,使其与目标说话人的声学特征近似,以将原始语音转换成目标说话人音色的语音。本技术所说的语音克隆则是另一种,通过提取目标说话人语音特征后再根据文字进行特定的语音合成。
语音克隆的研究始于18世纪,Kratzenstein使用气囊风箱簧片等材料模仿人的发声器官和发声过程,并加以改造,以此发出不同的元音。20世纪初,贝尔实验室发明了一种电子合成器,可以通过模拟声音的谐振发声。到了20世纪后期,使用集成电路技术的共振峰合成器的也相继出现,其可以构建滤波器的声道可以通过精心调整参数合成出自然的语音。接着波形拼接合成方法也随即出现。21世纪初刘庆峰博士将复杂的语音以听感量化单元进行表征,并以此技术占据当时的80%的中文语音合成市场。随着硬件算力的提升,基于人工智能的语音克隆技术层出不穷,卷积神经网络和长短期记忆神经网络等各种神经网络构型都可以用来做语音克隆系统的训练,对语音的韵律进行更加精准的调整,并且训练出成熟模型后不需要大量人力进行人工调整。
传统语音克隆的方法有矢量量化、隐马尔科夫模型、高斯混合模型等方法,此类方法均有过平滑和语音特征处理较弱的缺点,同时需要手动的对韵律和频谱图进行调整,需要的人工成本较高。目前现有的语音克隆方案依托于大量的数据集和人工对于韵律的调整,条件苛刻并且耗时耗力。同时中文高质量的开源语音数据较为匮乏,许多语音数据被科大讯飞等公司独占。
发明内容
为了解决现有语音克隆技术的缺陷问题,本发明提出了一种快速语音克隆方法,其可以使用目前的开源数据集并在低性能设备上实现良好的效果。
本发明所述的一种快速语音克隆方法,包括如下步骤:
步骤101、利用编码器模块获取声学特征;
步骤102、利用合成器模块合成梅尔谱图;
步骤103、利用声码器模块将梅尔谱图转换成克隆语音。
进一步的,所述步骤101、利用编码器模块获取声学特征的具体过程是:
步骤201、将目标的音频文件进行预处理后得到40维MFCC;
步骤202、将40维MFCC输入到3层LSTM中,从中提取出声学隐藏特征;
步骤203、将声学隐藏特征输入到全连接层中,对声学特征进行归类;
步骤204、将经过归类的声学特征进行缩放,并通过RELU层去除冗余数据,使目标的声学特征稀疏化。
进一步的,所述声学特征通过相似度矩阵进行表示:如下式(3):
Figure BDA0003113779270000021
其中,第i个说话人的第j个语音定义为uij(1≤i≤N,1≤j≤M),xij表示语音uij的对数梅尔频谱图,eij表示目标的特征,目标特征的均值定义为目标特征的质心ci,如式(1)所示:
Figure BDA0003113779270000031
其中,排他性特征
Figure BDA0003113779270000032
定义如下式(4):
Figure BDA0003113779270000033
进一步的,所述步骤102、利用合成器模块合成梅尔谱图的具体过程是:
步骤301、将步骤101获取的声学特征进行处理得到,prosody embedding(韵律嵌入);
步骤302、将输入文本转化成的character embedding(文本表征);
步骤303、将character embedding(文本表征)与声学特征进行拼接后,依次进入卷积层、长短期记忆神经网络层、location sensitive attention(基于位置的注意力)模块后获得固定长度的语境向量;
步骤304、将固定长度的语境向量进入自回归循环的解码器网络,获得梅尔谱图的预测结果;
步骤305、将梅尔谱图的预测结果进入prenet层,然后和location sensitiveattention(基于位置的注意力)模块的结果一起进入LSTM层,得到LSTM层的结果;
步骤306、将LSTM层的结果和固定长度的语境向量做合并后通过linearprojection预测目标的spectrogram(谱图);
步骤307、将目标的spectrogram(谱图)进入post-net层来预测残差,并加入步骤301提取的prosody embedding(韵律嵌入)共同进行预测,得到梅尔谱图。
进一步的,所述步骤103、利用声码器模块将梅尔谱图转换成克隆语音的具体过程是:
步骤401、将步骤102得到的合成梅尔谱图作为输入的语音,通过正交镜像滤波器组分析器(QMF)得到分带后的子带信号H(ω),如式(6)所示;
Figure BDA0003113779270000041
其中x()为输入的音频序列,ω为数字角频率。
步骤402、将得到的子带信号,通过LPC(线性预测编码)结构进行采样;
步骤403、经过步骤402处理的采样信号通过正交镜像滤波器组合成器进行合并,输出克隆语音。
进一步的,所述LPC(线性预测编码)的运算如下式(10):
Figure BDA0003113779270000042
其中,在t时间的激励为et,生成的音频为st,P是滤波器的阶数,ap是滤波器的系数;通过最小化真实信号与预测信号之间的均方误差求ap,其式为(11)所示:
Figure BDA0003113779270000043
进一步的,所述LPC(线性预测编码)包括帧速率网络、采样速率网络。
进一步的,所述采样速率网络的GRU计算如下式(7):
Figure BDA0003113779270000044
其中u(...)向量是将列向量i查找到相应的V(...)矩阵中,GRUB(.)是一个正常的、非稀疏的GRU;U()为GRU非递归权重矩阵,设U(u,s)为U(u)的子矩阵,由用于st-1输入样本embedding的列组成,导出一个新的embedding矩阵V(u,s)=U(u,s)E,E为embedding矩阵,
Figure BDA0003113779270000051
向量是将列向量i查找到相应的V(,)矩阵中,而GRUB()是一个正常的、非稀疏的GRU。
进一步的,所述采样速率网络的对偶全连接层被定义为下式(8):
dualfc(x)=a1*tanh(W1x)+a2*tanh(W2x)…+a8*tanh(W8x) (8)
其中,W是权重矩阵,a是权重向量,tanh是函数,x为输入的语音信号
本发明的有益效果:本发明提供的这种快速语音克隆方法,采用了3个模型联合建模,分别采用不同数据集,进行独立的训练。其可以使用目前的开源数据集并在低性能设备上克隆出良好效果的克隆语音,具有失真率低,频谱相似度高,对齐度高的优点。
以下将结合附图对本发明做进一步详细说明。
附图说明
图1是系统结构示意图。
图2是Encoder网络结构示意图。
图3是韵律提取示意图。
图4是synthesizer网络结构图。
图5是Vocoder整体架构示意图。
图6是LPCNet网络结构示意图。
图7是训练过程中的噪声注入示意图。
图8是男性原语音及克隆语音的MFCC示意图。
图9是男性语音频谱图对比及对齐图。
图10是女性原语音及合成语音示意图。
图11是女性语音频谱图对比及对齐图。
图12本方法与现有方法对比示意图。
具体实施方式
为进一步阐述本发明达成预定目的所采取的技术手段及功效,以下结合附图及实施例对本发明的具体实施方式、结构特征及其功效,详细说明如下。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“垂直”、“水平”、“对齐”、“重叠”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征;在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例1
本实施例提供了一种如图1~6所示的快速语音克隆方法,包括如下步骤:
步骤101、利用编码器模块获取声学特征;
步骤102、利用合成器模块合成梅尔谱图;
步骤103、利用声码器模块将梅尔谱图转换成克隆语音。
本方案分为encoder(编码器)、synthesizer(合成器)、vocoder(声码器)3个模块,如图1所示。
其中,encoder模块将说话人的声音转换成speaker embedding(说话人嵌入,可理解为声学特征)。synthesizer模块将speaker embedding和输入文本转化成的characterembedding(文本表征)合成为Mel-spectrogram(梅尔谱图)。vocoder模块将Mel-spectrogram转换成waveform(语音波形)。
进一步的,所述步骤101、利用编码器模块获取声学特征的具体过程是:
步骤201、将目标的音频文件进行预处理后得到40维MFCC;
步骤202、将40维MFCC输入到3层LSTM中,从中提取出声学隐藏特征;
步骤203、将声学隐藏特征输入到全连接层中,可以将声学特征进行分类,将同一人的声学特征归为一类;
步骤204、使用L2将经过归类的声学特征进行缩放,并通过RELU层去除大量冗余数据,使目标的声学特征稀疏化,使得提取的声学特征更加容易理解,如图2所示。
此编码器能够从输入说话人的语音中获得其独特的声学特征并以此训练模型。其需要学习不同说话人的声学参数,并仅仅只通过几秒的目标说话人语音,甚至在语音不清晰,包含一些背景噪声的情况下,能够准确的输出目标说话人的声学特征。
为提高编码器学习embedding的能力,使其在说话人验证任务上训练。说话人验证为判断不同语音是否为同一人所说,也可以理解为判断语音的说话人归属。将一段语音输入模型,提取其语音特征并与已知其余特征进行比对,如超过给定的相似度阈值,则将其语音特征放入相应的特征库中。如与已知的其余特征都不相符,则为其创建新的身份。由同一个人发出的语音数据即使内容不同但依旧具有高度的相关性,反之不同说话者的相同语义的话也不相关。本方案使用GE2E损失函数模拟了此过程以优化模型。
假设有一个由说话人分组的语音数据集。第i个说话人的第j个语音定义为uij(1≤i≤N,1≤j≤M),xij表示语音uij的对数梅尔频谱图,对数梅尔频谱图可从波形中提取语音特征。eij表示目标的特征,目标特征的均值定义为目标特征的质心ci,如式(1)所示:
Figure BDA0003113779270000081
通过所有embedding eij与每个说话人embedding ck(1≤k≤N)进行比较构建相似度矩阵sij,k,见式(2):
Sij,k=ω·cos(eij,ck)+b=ω·eij·||ck||2+b (2)
其中,ω和b是可学习的参数。当输入的音频的特征数据与说话者匹配时,模型期望输出高相似度值,而在不匹配处输出较低的值。即为通过相似度矩阵分析并判断语音与声学特征的映射关系,以此提升提取声学特征的准确度。
在计算损失时,每条语音eij都会与说话人embedding ci进行比对,其中包括此语音所属说话人,这会影响损失的计算。为防止此情况对loss计算的干扰,将从说话人embedding数据中删除所属说话人进行比较的语音。所述声学特征通过相似度矩阵进行表示:如下式(3):
Figure BDA0003113779270000082
当语音为所属说话人时(i=k),使用排他性embedding替代embedding做运算,以避免所属说话人对训练产生的影响。其中,排他性特征
Figure BDA0003113779270000091
定义如下式(4):
Figure BDA0003113779270000092
GE2E的损失函数包含softmax和contrast两种,softmax损失函数如式5-a所示,contrast损失函数如式5-b所示。
Figure BDA0003113779270000093
Figure BDA0003113779270000094
其中,1<=i、k<=N,1=<j<=M。在训练过程中,验证样本与所属说话人中心的得分逐渐趋近于1,同时使得与其它说话人中心的得分趋近于0。通过GE2E可以更好的完成说话人分类任务,使得编码器捕获声学特征的能力提升。
进一步的,所述步骤102、利用合成器模块合成梅尔谱图的具体过程是:
步骤301、将步骤101获取的声学特征进行处理得到,prosody embedding(韵律嵌入);
尽管如今有许多信号处理算法能够对语音的显式变量进行控制,例如基频轮廓和发音决策,其避免了文本信息和说话人信息的纠缠对生成语音的影响,同时只需添加对f0基频和vuv(是否为语音)信息的处理,在使用时就可以更好的控制这两个特征。然而语音中的一部分难以表现及使用数字信号处理的潜在变量也对音频起到了控制作用,其只能使用深度学习方法进行学习。其中一个潜在变量为风格标签,可以学习embedding的风格。另一个潜在变量为文本和梅尔谱图的对齐,通过其可以控制音频的节奏。因此为了学习这些潜在变量,在进行合成器的训练前,首先需要对上一个模块编码器输出的speaker embedding进行处理,从中提取出prosody embedding(韵律嵌入),其中包含F0基频和音高轮廓等信息,如图3所示。
频谱提取网络由两个二维卷积层和ReLu层组成,每个卷积层由32个滤波器组成,每个滤波器的内核大小为3×3,步长为1×1。其输出经过平坦层,使其一维化,并使用平均池化将帧级特征序列转换为词例级特征序列,并使用两个线性层投射到一个三维的潜在空间中。矢量量化码本由256个码字组成,用于将三维潜在向量用L2距离测量并量化到最近的码字。这些韵律标签被传递到一个线性层,最后得到prosody embedding。
步骤302、将输入文本转化成的character embedding(文本表征);
步骤303、将character embedding(文本表征)与声学特征进行拼接后,依次进入卷积层、长短期记忆神经网络层、location sensitive attention(基于位置的注意力)模块后获得固定长度的语境向量;
步骤304、将固定长度的语境向量进入自回归循环的解码器网络,获得梅尔谱图的预测结果;
步骤305、将梅尔谱图的预测结果进入prenet层,然后和location sensitiveattention(基于位置的注意力)模块的结果一起进入LSTM层,得到LSTM层的结果;
步骤306、将LSTM层的结果和固定长度的语境向量做合并后通过linearprojection预测目标的spectrogram(谱图);
步骤307、将目标的spectrogram(谱图)进入post-net层来预测残差,并加入步骤301提取的prosody embedding(韵律嵌入)共同进行预测,得到梅尔谱图。
合成器的输入为文本以及提取的speaker embedding。文本首先通过一个编码器转换成character embedding,再与speaker embedding进行拼接,一起通过3层卷积层和长短期记忆神经网络层。接着进入location sensitive attention(基于位置的注意力)模块,其通过解码文本和音频时获得的权重将经过编码的序列转换成为固定长度的语境向量,避免生成的音频过长或过短,也使得模型不会重复生成已生成的音频序列或者发生遗漏。之后是一个解码器网络,是一个自回归循环网络,可以用于预测Mel-spectrogram,而每一步的预测结果会进入prenet层,然后和attention的结果一起进入LSTM层,LSTM层的结果和attention的向量再做concat后通过linear projection预测目标的spectrogram,然后这个预测的结果进入post-net层来预测残差,并加入从speaker embedding提取的prosodyembedding共同进行预测,就得到了最后的mel-spectrogram。
在进行mel-spectrogram预测的同时,将预测的序列与注意力上下文向量一起进入投影层,然后输出给sigmoid激活函数,判断当前的梅尔谱图的预测序列的完成度,如果已经完成则停止后续生成频谱。合成器的网络如图4所示。
现有语音合成系统的声码器部分一般使用WaveNet,其自然度和保真度高。它不对语音做任何先验假设,而是用神经网络从数据中学习分布,并通过一个采样过程来生成语音。它的语音质量比之前常用的所有基于参数的vocoder都要好,但是其生成语音的速度较慢,因为为了获得足够大的感受野而设计的卷积层太复杂。因此其在一些需要快速生成语音的场景并不适用。本方案的vocoder对Wavernn进行了改进,增加了LPC(线性预测编码)结构。
在Wavernn中,模型直接对采样点进行预测,整个流程为自回归模型。本方案的声码器将声源使用神经网络来预测,而滤波器部分则使用数字信号处理的方法进行计算,此方法使得任务更加简单,网络效率进一步提升。图5显示了模型的大致结构。
进一步的,所述步骤103、利用声码器模块将梅尔谱图转换成克隆语音的具体过程是:
步骤401、将步骤102得到的合成梅尔谱图作为输入的语音,通过正交镜像滤波器组分析器(QMF)得到分带后的子带信号H(ω),如式(6)所示;
Figure BDA0003113779270000121
其中,x()为输入的音频序列,ω为数字角频率。
步骤402、将得到的子带信号,通过LPC(线性预测编码)结构进行采样;
步骤403、经过步骤402处理的采样信号通过正交镜像滤波器组合成器进行合并,输出克隆语音。
本方案将多频带策略和多时间策略结合进一步降低其整体计算复杂度,整体计算复杂度约为1.0GFLOPS。原始语音信号通过QMF滤波器后被分成4个子带,然后对每个子带进行4次下采样,一方面不会损失原始信号中的信息,另一方面,使用帧速率网络同时预测4个下采样子带信号,其计算次数与直接进行计算相比只有四分之一。同时QMF是一个低成本的滤波器组,从子带信号重建原始信号的成本远小于通过减少转发子带数目所节省的成本。多频带策略从频域上提高了LPCNet的效率,多时间策略考虑了子带信号中的两个相邻采样点。帧速率网络通过同时预测4个子带中的相邻点,可以将帧速率网络速度大幅提升。其中LPCNet网络结构如图6所示。图6中,左侧是一个帧速率网络,右侧是采样速率网络。将合成的输入限制为16个梅尔频率倒谱系数和2个音高参数的特征。为了低比特率编码应用,需要量化上述特征。
模型的输入为经过处理的16维声学特征。帧速率网络由两个3*1卷积层和两个全连接层组成,其将输入的声学特征转换成一个条件向量f并输出至采样速率网络。向量f在每帧的持续时间内保持不变。在前向传播中,除8层对偶全连接层外,其余的采样率网络层是共享的。音频激励、来自最后相邻帧的音频样本和在上一帧和当前帧获得被用作GRUA的输入。
(1)GRU计算
训练好的模型在实际进行使用时,权重等参数已经训练完成,计算最大开销就在采样率网络的GRU环节。只需先将embedding转成128维,然后把256个可能embedding和GRU中相关非循环矩阵相乘结果存储,这样合成时就可以通过查找表完成该部分计算。U()为GRU非递归权重矩阵,设U(u,s)为Uu的子矩阵,由用于st-1输入样本embedding的列组成,导出一个新的embedding矩阵V(u,s)=U(u,s)E,E为embedding矩阵,直接将样本st-1映射到更新门计算的非循环项。同样的转换适用于所有的门(u,r,h)和所有的embedding输入(s,p,e),总共9个预先计算的V(...)矩阵。通过这种方式,embedding的贡献可以简化为每个门、每个embedding的和。与embedding类似,帧调节向量f在一帧上是常量,因此也可以进行简化。可以计算g(·)=U(·)f中对每个GRU门的贡献,将其结果放入表中以加快运行速度。
上述简化实质上可以使GRU所有非循环输入的计算代本忽略不计,所述采样速率网络的GRU计算如下式(7):
Figure BDA0003113779270000141
其中u(...)向量是将列向量i查找到相应的V(...)矩阵中,GRUB(.)是一个正常的、非稀疏的GRU。同时可以使用稀疏矩阵简化GRU,其只存储和处理GRU中的非零元素,抛弃大量无用的零元素,以此使得数据占用空间减少。同时因数据量的减少,计算量也同步降低。稀疏矩阵使用16*1块稀疏矩阵,而不是对每个元素单独进行稀疏,这妨碍了有效的矢量化。稀疏时除默认保留的非零元素外,容易矢量化的对角项也被保留,这使得降低复杂度的同时保留更多的声学特征。
(2)输出层
GRUB的输出被发送到8个独立的对偶全连接层(DualFC),以预测相邻时间的子带激励。由于分为8个层进行计算,直接计算会使得开销更大,因此使用逐元素加权和的方式将八个全连接层结合起来。所述采样速率网络的对偶全连接层被定义为下式(8):
dualfc(x)=a1*tanh(W1x)+a2*tanh(W2x)…+a8*tanh(W8x) (8)
其中,W是权重矩阵,a是权重向量,tanh是函数,x为输入的语音信号。输出层可以确定一个值是否处于μ-law量化区间。其输出作为SoftMax激活使用来计算et的每个可能激励值的概率p(et)。
(3)线性预测
通过这种设计可以递归地生成当前相邻时间的音频。设在t时间的激励为et,生成的音频为st,生成的预测为pt,则递归公式为(9)所示:
st=et+pt (9)
pt+1=lpc(st-15:st)
st+1=et+1+pt+1
其中,所述LPC(线性预测编码)的运算如式(10):
Figure BDA0003113779270000151
其中,在t时间的激励为et,生成的音频为st,P是滤波器的阶数,ap是滤波器的系数;通过最小化真实信号与预测信号之间的均方误差求ap,其式为(11)所示:
Figure BDA0003113779270000152
计算J关于每个滤波器系数的偏导,并令其值等于0可得式(12):
Figure BDA0003113779270000153
其中,1≤u≤p,1≤p≤P.用数值1,2,……P分别替换3.14式中的p,联列方程组。采用Levinson-Durbin算法解方程组并计算预测因子。倒谱计算预测因子可确保不会传输或合成其他信息。
(4)加噪
在实际合成语音时,输入的目标说话人的语音往往都含有一定程度的噪声,这与数据集中高质量无背景噪声的语音并不相同。如果使用高质量无背景噪声的语音数据集直接进行训练,当实际使用时,含有噪声的语音的输入会使提取声学特征和生成同样音色的语音的难度提升,使得效果下降。因此为使神经网络能够适应含有噪声的语音,可以在Vocoder训练期间向其输入添加噪声,如图7中所示。
其中,Q表示,Q表示μ-law量化,Q^(-1)表示从μ-law到线性的转换。预测滤波器定义如下式(13)。
Figure BDA0003113779270000154
其中,ak是当前帧的k阶线性预测系数,z-k表示Z变换,通过在信号中注入所示的噪声,神经网络可以有效的降低信号的误差,使得生成的语音的质量进一步提升。
综上所述,本实例提供的这种快速语音克隆方法,采用了3个模型联合建模,分别采用不同数据集,进行独立的训练。其可以使用目前的开源数据集并在低性能设备上克隆出良好效果的克隆语音,具有失真率低,频谱相似度高,对齐度高的优点。
实施例2
实验所采用的架构为X64,CPU为2块E5-2680V3(2.5Hz,9.6GT/s),GPU为4块NVIDIATITAN V 12GB,内存大小为128GB。在此硬件环境下训练大约需要2天的时间。实验所用的硬件配置信息详见表1。
表1硬件配置信息
Figure BDA0003113779270000161
本实验所采用的操作系统为Ubuntu 16.04,Python语言版本为3.7.6,PyTorch版本为1.4.0,Cuda版本为10.0.130,Cudnn的版本为5.6.2。实验所用的软件版本信息详见表2。
表2软件版本信息
Figure BDA0003113779270000162
Figure BDA0003113779270000171
语音克隆性能评价是语音克隆任务中非常重要的一步,通过完善的评价机制可以有效判断并提高语音克隆的性能。本章将使用主观评价方法和客观评价方法相结合的方式对克隆语音进行评价,同时和其它克隆模型进行对比,证明本算法的有效性和优越性。
客观评价及分析
把测试生成的克隆语音与原始语音在MFCC和频谱方面进行比较:
以STCMD00044A为例,内容为:“那娃问我愿意吗”,为男性,如图8和9所示。
以STCMD00052I为例,内容为:“提前准备进货缺口”为女性,如图10和11所示。
从上图8、9、10、11中可以看出原语音与克隆出的语音在中后部分近似度高,然而开头处有失真的情况,频谱相似度高,对齐度高。今后改进时可以对这方面进行进一步的优化。同时女性声音克隆的效果比男性要好一些,是由于训练时采用的男声数据较少以及女声更好识别。因为其声音频率更高,更容易提取频谱。
主观评价及分析
主观评价就是通过肉耳对克隆的语音进行评价。倾听者通过对克隆语音与原始语音进行对比,从语音的清晰度、质量、相似度进行评价。采用的方法主要是平均意见分(MOS)。
MOS测试:MOS测试是让测评人员分别倾听原始语音和合成语音,并根据自己的主观感受评定测试语音的质量并评定分数。除对语音质量进行评定外,也对克隆的音色相似度打分。打分后所有分数的平均值则为MOS分数。
一般MOS分数可以分为5级,1分对应最差不可懂,5分对应最优接近自然,如表3所示。
表3 MOS分数评价方式
Figure BDA0003113779270000181
男女语音MOS分数如表4和表5所示:
表4女性语音MOS测试分数
Figure BDA0003113779270000182
表5男性语音MOS测试分数
Figure BDA0003113779270000183
从表4和表5中可以计算出女性语音MOS分数为4.3,而男性语音MOS分数为4.2。男性语音克隆的效果与女性相比还存在一定差距,这是由于男女语音自身的特性决定的,女声较男声更加尖锐,更好提取其中的声音特征,因此生成的语音的自然度更高,与目标语音更为相似。
实验效果对比
选取多种已有方法与本方法进行对比。
由图12所示,本方法分别与HMM、DNN、Tacotron、Wavenet以及Human(真实人类)的语音进行对比。其中本方法的MOS分数与Wavenet接近,且显著优于其他方法,仅次于HUMAN(人类真实语音)。同时本方法速度较Wavenet更快。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种快速语音克隆方法,其特征在于,包括如下步骤:
步骤101、利用编码器模块获取声学特征;
步骤102、利用合成器模块合成梅尔谱图;
步骤103、利用声码器模块将梅尔谱图转换成克隆语音。
2.如权利要求1所述的一种快速语音克隆方法,其特征在于:所述步骤101、利用编码器模块获取声学特征的具体过程是:
步骤201、将目标的音频文件进行预处理后得到40维MFCC;
步骤202、将40维MFCC输入到3层LSTM中,从中提取出声学隐藏特征;
步骤203、将声学隐藏特征输入到全连接层中,对声学特征进行归类;
步骤204、将经过归类的声学特征进行缩放,并通过RELU层去除冗余数据,使目标的声学特征稀疏化。
3.如权利要求2所述的一种快速语音克隆方法,其特征在于:所述声学特征通过相似度矩阵进行表示:如下式(3):
Figure FDA0003113779260000011
其中,第i个说话人的第j个语音定义为uij(1≤i≤N,1≤j≤M),xij表示语音uij的对数梅尔频谱图,eij表示目标的特征,目标特征的均值定义为目标特征的质心ci,如式(1)所示:
Figure FDA0003113779260000012
其中,排他性特征
Figure FDA0003113779260000013
定义如下式(4):
Figure FDA0003113779260000014
4.如权利要求1所述的一种快速语音克隆方法,其特征在于:所述步骤102、利用合成器模块合成梅尔谱图的具体过程是:
步骤301、将步骤101获取的声学特征进行处理得到,prosody embedding(韵律嵌入);
步骤302、将输入文本转化成的character embedding(文本表征);
步骤303、将character embedding(文本表征)与声学特征进行拼接后,依次进入卷积层、长短期记忆神经网络层、location sensitive attention(基于位置的注意力)模块后获得固定长度的语境向量;
步骤304、将固定长度的语境向量进入自回归循环的解码器网络,获得梅尔谱图的预测结果;
步骤305、将梅尔谱图的预测结果进入prenet层,然后和location sensitiveattention(基于位置的注意力)模块的结果一起进入LSTM层,得到LSTM层的结果;
步骤306、将LSTM层的结果和固定长度的语境向量做合并后通过linear projection预测目标的spectrogram(谱图);
步骤307、将目标的spectrogram(谱图)进入post-net层来预测残差,并加入步骤301提取的prosody embedding(韵律嵌入)共同进行预测,得到梅尔谱图。
5.如权利要求1所述的一种快速语音克隆方法,其特征在于:所述步骤103、利用声码器模块将梅尔谱图转换成克隆语音的具体过程是:
步骤401、将步骤102得到的合成梅尔谱图作为输入的语音,通过正交镜像滤波器组分析器(QMF)得到分带后的子带信号H(ω),如式(6)所示;
Figure FDA0003113779260000021
其中,x()为输入的音频序列,ω为数字角频率。
步骤402、将得到的子带信号,通过LPC(线性预测编码)结构进行采样;
步骤403、经过步骤402处理的采样信号通过正交镜像滤波器组合成器进行合并,输出克隆语音。
6.如权利要求5所述的一种快速语音克隆方法,其特征在于:所述LPC(线性预测编码)的运算如下式(10):
Figure FDA0003113779260000031
其中,在t时间的激励为et,生成的音频为st,P是滤波器的阶数,ap是滤波器的系数;通过最小化真实信号与预测信号之间的均方误差求ap,其式为(11)所示:
Figure FDA0003113779260000032
7.如权利要求5所述的一种快速语音克隆方法,其特征在于:所述LPC(线性预测编码)包括帧速率网络、采样速率网络。
8.如权利要求7所述的一种快速语音克隆方法,其特征在于:所述采样速率网络的GRU计算如下式(7):
Figure FDA0003113779260000033
其中,u(...)向量是将列向量i查找到相应的V(...)矩阵中,GRUB(.)是一个正常的、非稀疏的GRU;U()为GRU非递归权重矩阵,设U(u,s)为U(u)的子矩阵,由用于st-1输入样本embedding的列组成,导出一个新的embedding矩阵V(u,s)=U(u,s)E,E为embedding矩阵,
Figure FDA0003113779260000034
向量是将列向量i查找到相应的V(,)矩阵中,而GRUB()是一个正常的、非稀疏的GRU。
9.如权利要求7所述的一种快速语音克隆方法,其特征在于:所述采样速率网络的对偶全连接层被定义为下式(8):
dualfc(x)=a1*tanh(W1x)+a2*tanh(W2x)…+a8*tanh(W8x) (8)
其中,W是权重矩阵,a是权重向量,tanh是函数,x为输入的语音信号。
CN202110657034.8A 2021-06-12 2021-06-12 一种快速语音克隆方法 Active CN113436607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110657034.8A CN113436607B (zh) 2021-06-12 2021-06-12 一种快速语音克隆方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110657034.8A CN113436607B (zh) 2021-06-12 2021-06-12 一种快速语音克隆方法

Publications (2)

Publication Number Publication Date
CN113436607A true CN113436607A (zh) 2021-09-24
CN113436607B CN113436607B (zh) 2024-04-09

Family

ID=77755897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110657034.8A Active CN113436607B (zh) 2021-06-12 2021-06-12 一种快速语音克隆方法

Country Status (1)

Country Link
CN (1) CN113436607B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457969A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 基于人工智能的语音转换方法、装置、计算机设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的系统和方法
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111986679A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN112233646A (zh) * 2020-10-20 2021-01-15 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
CN112331177A (zh) * 2020-11-05 2021-02-05 携程计算机技术(上海)有限公司 基于韵律的语音合成方法、模型训练方法及相关设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN101939781A (zh) * 2008-01-04 2011-01-05 杜比国际公司 音频编码器和解码器
US20200066253A1 (en) * 2017-10-19 2020-02-27 Baidu Usa Llc Parallel neural text-to-speech
CN110136693A (zh) * 2018-02-09 2019-08-16 百度(美国)有限责任公司 用于使用少量样本进行神经话音克隆的系统和方法
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN111210803A (zh) * 2020-04-21 2020-05-29 南京硅基智能科技有限公司 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法
CN111681635A (zh) * 2020-05-12 2020-09-18 深圳市镜象科技有限公司 基于小样本的语音实时克隆的方法、装置、设备和介质
CN111986679A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN112233646A (zh) * 2020-10-20 2021-01-15 携程计算机技术(上海)有限公司 基于神经网络的语音克隆方法、系统、设备及存储介质
CN112331177A (zh) * 2020-11-05 2021-02-05 携程计算机技术(上海)有限公司 基于韵律的语音合成方法、模型训练方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457969A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 基于人工智能的语音转换方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN113436607B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
Shen et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Jemine Real-time voice cloning
Takaki et al. A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis
CN112767958A (zh) 一种基于零次学习的跨语种音色转换系统及方法
CN111179905A (zh) 一种快速配音生成方法及装置
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Huang et al. Refined wavenet vocoder for variational autoencoder based voice conversion
Nakamura et al. Fast and high-quality singing voice synthesis system based on convolutional neural networks
Popov et al. Gaussian LPCNet for multisample speech synthesis
Lim et al. Robust low rate speech coding based on cloned networks and wavenet
Bi et al. Deep feed-forward sequential memory networks for speech synthesis
Singh et al. Spectral Modification Based Data Augmentation For Improving End-to-End ASR For Children's Speech
Kain et al. Stochastic modeling of spectral adjustment for high quality pitch modification
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
Bajpai et al. Performance enhancement of automatic speech recognition system using Euclidean distance comparison and artificial neural network
CN113436607B (zh) 一种快速语音克隆方法
Zhao et al. Research on voice cloning with a few samples
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
Huang et al. An automatic voice conversion evaluation strategy based on perceptual background noise distortion and speaker similarity
Arun Sankar et al. Design of MELPe-based variable-bit-rate speech coding with mel scale approach using low-order linear prediction filter and representing excitation signal using glottal closure instants
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Gentet et al. Neutral to lombard speech conversion with deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant