CN113012678A - 一种免标注的特定说话人语音合成方法及装置 - Google Patents
一种免标注的特定说话人语音合成方法及装置 Download PDFInfo
- Publication number
- CN113012678A CN113012678A CN202110160127.XA CN202110160127A CN113012678A CN 113012678 A CN113012678 A CN 113012678A CN 202110160127 A CN202110160127 A CN 202110160127A CN 113012678 A CN113012678 A CN 113012678A
- Authority
- CN
- China
- Prior art keywords
- mel
- speaker
- spectrum
- posterior probability
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 95
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims description 6
- 238000001308 synthesis method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 229920001451 polypropylene glycol Polymers 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003368 label free method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种免标注的特定说话人语音合成方法及装置。该方法包括获取待处理文本;通过音素后验概率预测网络提取待处理文本对应的音素后验概率特征;通过mel‑spectrogram预测网络提取音素后验概率特征对应的mel‑spectrogram特征;通过声码器模型合成mel‑spectrogram特征对应的目标说话人语音。本发明不需要目标语音的文本标注信息,从而实现目标语音无标注的语音合成;基于音素后验概率特征搭建起文本和mel‑spectrogram之间的桥梁,训练所采用的数据为开源的有标注语音数据及少量目标说话人的无标注语音数据,从而极大的减少了人力、时间和资金成本。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及一种免标注的特定说话人语音合成方法及装置。
背景技术
语音合成技术,即将输入的文字信息转化为可听的声音信息,合成的声音保真度越高越受到大家的青睐。
随着业界语音技术的不断突破以及近年来人们认知水平和需求的提高,大家对语音合成技术提出了越来越多的挑战,例如用户希望合成的语音要听起来像某个特定说话人发出的声音,还要便捷地增添多个其他特定说话人的发音。
近年来,端到端的TTS系统实现了媲美人声的效果,已经成为了主流的语音合成系统框架,一般来说,端到端的TTS系统可以分为两个步骤:1)端到端的mel-spectrogram预测网络,该网络将高质量的<文本,mel-spectrogram>数据对作为网络的输入输出,通过基于注意力(attention)机制的序列到序列(seq2seq)的网络模型来学习对齐;2)声码器(vocoder)模型,将预测的mel-spectrogram高质量地恢复成语音。
上述所说的声码器模型的训练只需要高保真度的语音,并不需要任何的标注信息,然而,mel-spectrogram预测网络的训练要求一定数量的高质量的<文本,mel-spectrogram>数据对,而语音标注价格昂贵并且收集也很耗时,效率低,以至于合成特定说话人的语音就显得不够便捷高效。
正因如此,端到端的TTS系统对语音标注的需求限制了语音合成在无标注资源下的应用。
对于端到端的TTS系统,即使拥有了大量人工标注的样本数据,那也可能存在人为的标注错误造成数据质量不高,从而影响合成语音质量的问题。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种免标注的特定说话人语音合成方法及装置。
为实现上述目的,在第一方面,本发明提供了一种免标注的特定说话人语音合成方法,包括:
步骤S1:获取待处理文本;
步骤S2:通过音素后验概率预测网络提取所述待处理文本对应的音素后验概率特征;
步骤S3:通过mel-spectrogram预测网络提取所述音素后验概率特征对应的mel-spectrogram特征;
步骤S4:通过声码器模型合成所述mel-spectrogram特征对应的目标说话人语音。
进一步的,所述音素后验概率预测网络通过以下方式训练获得:
提取无关说话人的有标注语音的mel-spectrogram特征;
将所述无关说话人的mel-spectrogram特征输入到语音识别器,所述语音识别器输出所述无关说话人的mel-spectrogram特征对应的音素后验概率特征,所述语音识别器根据已有的语料样本预先生成;
基于每一条无关说话人的语音数据的标注文本和音素后验概率特征,对所述音素后验概率预测网络进行训练。
进一步的,所述mel-spectrogram预测网络通过以下方式训练获得:
提取目标说话人的无标注语音的mel-spectrogram特征;
将所述目标说话人的mel-spectrogram特征输入到语音识别器,输出所述目标说话人的mel-spectrogram特征对应的音素后验概率特征;
基于每一条目标说话人的无标注语音数据的音素后验概率特征和mel-spectrogram特征,对所述mel-spectrogram预测网络进行训练。
进一步的,所述声码器模型通过以下方式训练获得:
获取预先生成的通过大量语料训练的无关说话人的WaveGlow模型;
提取目标说话人的无标注语音的mel-spectrogram特征;
基于每一条目标说话人的无标注语音数据的mel-spectrogram特征和语音,对所述无关说话人的WaveGlow模型进行微调,得到目标说话人声码器模型。
进一步的,所述音素后验概率预测网络基于因子分解时延神经网络结构,以梅尔频率倒谱系数特征为输入,输出节点是经过状态树绑定的三音子状态,最后一个全连接层输出的后验概率便是音素后验概率特征。
进一步的,所述mel-spectrogram预测网络采用K组一维卷积核进行卷积,第h组卷积核的宽度是h,其中,h=1,2,…,K,接着将各组卷积输出堆叠起来,在时间轴上进行最大池化,然后把得到的结果序列传给几个定长一维卷积,并将卷积的输出通过冗余连接与原始的输入相加,然后通过高速公路网络和双向门控循环单元充分提取序列的高层信息和上下文信息,最后通过全连接层将这些高层特征连接到输出层mel-spectrogram,即得到待处理文本对应的mel-spectrogram特征;
当有多个目标说话人时,在mel-spectrogram预测网络基础上,将每个说话人都表示为one-hot向量,然后映射为连续的embedding向量;接着采用几层带Relu的FC层将embedding向量进行非线性映射,然后在输入高速公路网络前与卷积的输出、原始的输入相加,即可提取多说话人音素后验概率特征对应的mel-spectrogram特征。
在第二方面,本发明提供了一种免标注的特定说话人语音合成装置,包括:
获取模块,用以获取待处理文本;
音素后验概率特征生成模块,用以通过音素后验概率预测网络提取所述待处理文本对应的音素后验概率特征;
mel-spectrogram特征生成模块,用以通过mel-spectrogram预测网络提取所述音素后验概率特征对应的mel-spectrogram特征;
目标说话人语音合成模块,用以通过声码器模型合成所述mel-spectrogram特征对应的目标说话人语音。
进一步的,所述音素后验概率预测网络通过以下方式训练获得:
提取无关说话人的有标注语音的mel-spectrogram特征;
将所述无关说话人的mel-spectrogram特征输入到所述语音识别器,所述语音识别器输出所述无关说话人的mel-spectrogram特征对应的音素后验概率特征,所述语音识别器根据已有的语料样本预先生成;
基于每一条无关说话人的语音数据的标注文本和音素后验概率特征,对所述音素后验概率预测网络进行训练。
进一步的,所述mel-spectrogram预测网络通过以下方式训练获得:
提取目标说话人的无标注语音的mel-spectrogram特征;
将所述目标说话人的mel-spectrogram特征输入到语音识别器,输出所述目标说话人的mel-spectrogram特征对应的音素后验概率特征;
基于每一条目标说话人的无标注语音数据的音素后验概率特征和mel-spectrogram特征,对所述mel-spectrogram预测网络进行训练。
进一步的,所述声码器模型通过以下方式训练获得:
获取预先生成的通过大量语料训练的无关说话人的WaveGlow模型;
提取目标说话人的无标注语音的mel-spectrogram特征;
基于每一条目标说话人的无标注语音数据的mel-spectrogram特征和语音,对所述无关说话人的WaveGlow模型进行微调,得到目标说话人声码器模型。
有益效果:本发明不需要目标语音的文本标注信息,从而实现目标语音无标注的语音合成;本发明基于音素后验概率特征搭建起文本和mel-spectrogram之间的桥梁,对内容信息和音色信息分开建模;由于音素后验概率预测网络和语音识别器的训练所采用的数据为开源的有标注语音数据及少量目标说话人的无标注语音数据,从而极大的减少了人力、时间和资金成本。
附图说明
图1是本发明实施例的免标注的特定说话人语音合成方法的流程示意图;
图2是现有技术中的端到端的TTS系统的流程示意图;
图3是TPMW网络结构的系统的流程示意图;
图4是本发明实施例的免标注的特定说话人语音合成装置的示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明实施例提供了一种免标注的特定说话人语音合成方法,包括:
步骤S1:获取待处理文本。待处理文本即为待合成特定说话人的语音内容,语音内容可以为中文的字词、短语、句子或段落。
步骤S2:通过音素后验概率预测网络提取待处理文本对应的音素后验概率特征。本发明实例中音素后验概率特征(PPGs)是连接文本和mel-spectrogram的桥梁,是内容信息的矢量表示,它的存在可以将既包含内容信息又包含音色信息的mel-spectrogram的预测分为两个步骤,从而分别对内容信息和音色信息进行建模。其中,音素后验概率预测网络基于因子分解时延神经网络结构(Factorized Time Delay Neural Networks,TDNN-F),以梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征为输入,输出节点是经过状态树绑定的三音子状态(senones),最后一个全连接层输出的后验概率便是音素后验概率特征(PPGs)。TDNN-F作为音素后验概率特征(PPGs)提取器有以下优势:(1)将权重矩阵分解为两个矩阵,其中一个为半正交矩阵,降低了参数的同时保持了很好的建模能力;(2)增加了跳层连接(Skip Connection),缓解了梯度消失;(3)通过dropout防止过拟合;
如图2所示,在现有的端到端的TTS系统中,采用端到端的mel-spectrogram预测网络(Text2Mel)网络结构直接将文本映射为频谱,通过tacotron2网络基于<文本,mel-spectrogram>数据对进行训练。
如图3所示,本发明实例中提出的TPMW(Text-PPGs-Mel-Wave)网络,基于attention的seq2seq结构tacotron2来预测音素后验概率特征(PPGs),采用音素后验概率预测网络(Text2PPGs)基于以<文本,PPGs>数据对进行训练,以音素后验概率特征(PPGs)作为桥梁,将内容信息和音色信息分开建模。
其中,音素后验概率特征(PPGs)严格来说,不是绝对说话人无关的,不同说话人的音素后验概率特征(PPGs)的分布有所不同。音素后验概率特征(PPGs)仅去除了说话人音色信息,却依旧保留了内容信息,也包括了风格、语气、语调、发音时长等其他信息。本发明实例主要考虑的是语音的内容信息和说话人的音色信息,因此所描述的音素后验概率特征(PPGs)只包含内容信息。
步骤S3:通过mel-spectrogram预测网络提取音素后验概率特征对应的mel-spectrogram特征。其中,mel-spectrogram预测网络(PPGs2Mel)由目标说话人的无标注语音mel-spectrogram特征和目标说话人的mel-spectrogram特征对应的音素后验概率特征(PPGs)训练得到;目标说话人的mel-spectrogram特征对应的音素后验概率特征(PPGs)由目标说话人的无标注语音mel-spectrogram特征通过语音识别器得到;音素后验概率特征对应的mel-spectrogram特征便是待处理文本对应的mel-spectrogram特征,用于表示待处理文本的内容信息和音色信息。
本发明实施例的mel-spectrogram预测网络采用K组一维卷积核进行卷积,第h组卷积核的宽度是h,其中,h=1,2,…,K,K为大于2的自然数,不同宽度的卷积有利于对PPGs的局部信息和上下文信息建模,接着将各组卷积输出堆叠起来,在时间轴上进行最大池化(Max Pooling),然后把得到的结果序列传给几个定长一维卷积,并将卷积的输出通过冗余连接(residual connection)与原始的输入相加,然后通过高速公路网络(HighwayNetwork)和双向门控循环单元(gated recurrent unit,GRU)充分提取序列的高层信息和上下文信息,最后通过全连接层(Fully Connected Layer,FC)将这些高层特征连接到输出层mel-spectrogram,即得到待处理文本对应的mel-spectrogram特征。当有多个目标说话人时,需在mel-spectrogram预测网络基础上,将每个说话人都表示为one-hot向量,然后映射为连续的embedding向量;接着采用几层带Relu的FC层将embedding向量进行非线性映射,然后在输入高速公路网络前与卷积的输出、原始的输入相加,即可提取多说话人音素后验概率特征对应的mel-spectrogram特征。
步骤S4:通过声码器模型合成mel-spectrogram特征对应的目标说话人语音。本发明通过WaveGlow模型将mel-spectrogram恢复出高质量的语音,基于目标说话人的无标注语音数据较少的情况,采用一种说话人自适应的方法。本发明实例的声码器模型(Vocoder)通过以下方式训练获得:首先训练一个有大量语料的无关说话人的WaveGlow模型;然后以这个训练好的模型作为初始化模型,用少量的目标说话人的数据进行微调(fine-tune),得到目标说话人的WaveGlow模型,最后使用WaveGlow模型将mel-spectrogram快速的恢复出高质量的语音。
本发明实施例的音素后验概率预测网络通过以下方式训练获得:
提取无关说话人的有标注语音的mel-spectrogram特征。
将无关说话人的mel-spectrogram特征输入到语音识别器,语音识别器输出无关说话人的mel-spectrogram特征对应的音素后验概率特征,语音识别器根据已有的语料样本预先生成。
基于每一条无关说话人的语音数据的标注文本和音素后验概率特征,对音素后验概率预测网络进行训练。
本发明实施例的mel-spectrogram预测网络通过以下方式训练获得:
提取目标说话人的无标注语音的mel-spectrogram特征。
将目标说话人的mel-spectrogram特征输入到语音识别器,输出目标说话人的mel-spectrogram特征对应的音素后验概率特征。
基于每一条目标说话人的无标注语音数据的音素后验概率特征和mel-spectrogram特征,对mel-spectrogram预测网络进行训练。
如图4所示,基于以上实施例,本领域技术人员可以理解,本发明还提供了一种免标注的特定说话人语音合成装置,包括:获取模块201、音素后验概率特征生成模块202、mel-spectrogram特征生成模块203和目标说话人语音合成模块204。
其中,获取模块201用以获取待处理文本。待处理文本即为待合成特定说话人的语音内容,语音内容可以为中文的字词、短语、句子或段落。
音素后验概率特征生成模块202用以通过音素后验概率预测网络提取待处理文本对应的音素后验概率特征。
本发明实施例的音素后验概率预测网络基于因子分解时延神经网络结构(Factorized Time Delay Neural Networks,TDNN-F),以梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)特征为输入,输出节点是经过状态树绑定的三音子状态(senones),最后一个全连接层输出的后验概率便是音素后验概率特征(PPGs)。TDNN-F作为音素后验概率特征(PPGs)提取器有以下优势:(1)将权重矩阵分解为两个矩阵,其中一个为半正交矩阵,降低了参数的同时保持了很好的建模能力;(2)增加了跳层连接(Skip Connection),缓解了梯度消失;(3)通过dropout防止过拟合。
本发明实施例的音素后验概率预测网络通过以下方式训练获得:
提取无关说话人的有标注语音的mel-spectrogram特征。
将无关说话人的mel-spectrogram特征输入到语音识别器,语音识别器输出无关说话人的mel-spectrogram特征对应的音素后验概率特征,语音识别器根据已有的语料样本预先生成。
基于每一条无关说话人的语音数据的标注文本和音素后验概率特征,对音素后验概率预测网络进行训练。
mel-spectrogram特征生成模块203用以通过mel-spectrogram预测网络提取音素后验概率特征对应的mel-spectrogram特征。
本发明实施例的mel-spectrogram预测网络采用K组一维卷积核进行卷积,第h组卷积核的宽度是h,其中,h=1,2,…,K,K为大于2的自然数,接着将各组卷积输出堆叠起来,在时间轴上进行最大池化,然后把得到的结果序列传给几个定长一维卷积,并将卷积的输出通过冗余连接与原始的输入相加,然后通过高速公路网络和双向门控循环单元充分提取序列的高层信息和上下文信息,最后通过全连接层将这些高层特征连接到输出层mel-spectrogram,即得到待处理文本对应的mel-spectrogram特征。当有多个目标说话人时,需在mel-spectrogram预测网络基础上,将每个说话人都表示为one-hot向量,然后映射为连续的embedding向量;接着采用几层带Relu的FC层将embedding向量进行非线性映射,然后在输入高速公路网络前与卷积的输出、原始的输入相加,即可提取多说话人音素后验概率特征对应的mel-spectrogram特征。
本发明实施例的mel-spectrogram预测网络通过以下方式训练获得:
提取目标说话人的无标注语音的mel-spectrogram特征。
将目标说话人的mel-spectrogram特征输入到语音识别器,输出目标说话人的mel-spectrogram特征对应的音素后验概率特征。
基于每一条目标说话人的无标注语音数据的音素后验概率特征和mel-spectrogram特征,对mel-spectrogram预测网络进行训练。
目标说话人语音合成模块204用以通过声码器模型合成mel-spectrogram特征对应的目标说话人语音。本发明通过WaveGlow模型将mel-spectrogram恢复出高质量的语音,基于目标说话人的无标注语音数据较少的情况,采用一种说话人自适应的方法。本发明实例的声码器模型(Vocoder)通过以下方式训练获得:首先训练一个有大量语料的无关说话人的WaveGlow模型;然后以这个训练好的模型作为初始化模型,用少量的目标说话人的数据进行微调(fine-tune),得到目标说话人的WaveGlow模型,最后使用WaveGlow模型将mel-spectrogram快速的恢复出高质量的语音。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种免标注的特定说话人语音合成方法,其特征在于,包括:
步骤S1:获取待处理文本;
步骤S2:通过音素后验概率预测网络提取所述待处理文本对应的音素后验概率特征;
步骤S3:通过mel-spectrogram预测网络提取所述音素后验概率特征对应的mel-spectrogram特征;
步骤S4:通过声码器模型合成所述mel-spectrogram特征对应的目标说话人语音。
2.根据权利要求1所述的免标注的特定说话人语音合成方法,其特征在于,所述音素后验概率预测网络通过以下方式训练获得:
提取无关说话人的有标注语音的mel-spectrogram特征;
将所述无关说话人的mel-spectrogram特征输入到语音识别器,所述语音识别器输出所述无关说话人的mel-spectrogram特征对应的音素后验概率特征,所述语音识别器根据已有的语料样本预先生成;
基于每一条无关说话人的语音数据的标注文本和音素后验概率特征,对所述音素后验概率预测网络进行训练。
3.根据权利要求1所述的免标注的特定说话人语音合成方法,其特征在于,所述mel-spectrogram预测网络通过以下方式训练获得:
提取目标说话人的无标注语音的mel-spectrogram特征;
将所述目标说话人的mel-spectrogram特征输入到语音识别器,输出所述目标说话人的mel-spectrogram特征对应的音素后验概率特征;
基于每一条目标说话人的无标注语音数据的音素后验概率特征和mel-spectrogram特征,对所述mel-spectrogram预测网络进行训练。
4.根据权利要求1所述的免标注的特定说话人语音合成方法,其特征在于,所述声码器模型通过以下方式训练获得:
获取预先生成的通过大量语料训练的无关说话人的WaveGlow模型;
提取目标说话人的无标注语音的mel-spectrogram特征;
基于每一条目标说话人的无标注语音数据的mel-spectrogram特征和语音,对所述无关说话人的WaveGlow模型进行微调,得到目标说话人声码器模型。
5.根据权利要求1所述的免标注的特定说话人语音合成方法,其特征在于,所述音素后验概率预测网络基于因子分解时延神经网络结构,以梅尔频率倒谱系数特征为输入,输出节点是经过状态树绑定的三音子状态,最后一个全连接层输出的后验概率便是音素后验概率特征。
6.根据权利要求1所述的免标注的特定说话人语音合成方法,其特征在于,所述mel-spectrogram预测网络采用K组一维卷积核进行卷积,第h组卷积核的宽度是h,其中,h=1,2,…,K,接着将各组卷积输出堆叠起来,在时间轴上进行最大池化,然后把得到的结果序列传给几个定长一维卷积,并将卷积的输出通过冗余连接与原始的输入相加,然后通过高速公路网络和双向门控循环单元充分提取序列的高层信息和上下文信息,最后通过全连接层将这些高层特征连接到输出层mel-spectrogram,即得到待处理文本对应的mel-spectrogram特征;
当有多个目标说话人时,在mel-spectrogram预测网络基础上,将每个说话人都表示为one-hot向量,然后映射为连续的embedding向量;接着采用几层带Relu的FC层将embedding向量进行非线性映射,然后在输入高速公路网络前与卷积的输出、原始的输入相加,即可提取多说话人音素后验概率特征对应的mel-spectrogram特征。
7.一种免标注的特定说话人语音合成装置,其特征在于,包括:
获取模块,用以获取待处理文本;
音素后验概率特征生成模块,用以通过音素后验概率预测网络提取所述待处理文本对应的音素后验概率特征;
mel-spectrogram特征生成模块,用以通过mel-spectrogram预测网络提取所述音素后验概率特征对应的mel-spectrogram特征;
目标说话人语音合成模块,用以通过声码器模型合成所述mel-spectrogram特征对应的目标说话人语音。
8.根据权利要求7所述的免标注的特定说话人语音合成装置,其特征在于,所述音素后验概率预测网络通过以下方式训练获得:
提取无关说话人的有标注语音的mel-spectrogram特征;
将所述无关说话人的mel-spectrogram特征输入到所述语音识别器,所述语音识别器输出所述无关说话人的mel-spectrogram特征对应的音素后验概率特征,所述语音识别器根据已有的语料样本预先生成;
基于每一条无关说话人的语音数据的标注文本和音素后验概率特征,对所述音素后验概率预测网络进行训练。
9.根据权利要求7所述的免标注的特定说话人语音合成装置,其特征在于,所述mel-spectrogram预测网络通过以下方式训练获得:
提取目标说话人的无标注语音的mel-spectrogram特征;
将所述目标说话人的mel-spectrogram特征输入到语音识别器,输出所述目标说话人的mel-spectrogram特征对应的音素后验概率特征;
基于每一条目标说话人的无标注语音数据的音素后验概率特征和mel-spectrogram特征,对所述mel-spectrogram预测网络进行训练。
10.根据权利要求7所述的免标注的特定说话人语音合成装置,其特征在于,所述声码器模型通过以下方式训练获得:
获取预先生成的通过大量语料训练的无关说话人的WaveGlow模型;
提取目标说话人的无标注语音的mel-spectrogram特征;
基于每一条目标说话人的无标注语音数据的mel-spectrogram特征和语音,对所述无关说话人的WaveGlow模型进行微调,得到目标说话人声码器模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110160127.XA CN113012678B (zh) | 2021-02-05 | 2021-02-05 | 一种免标注的特定说话人语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110160127.XA CN113012678B (zh) | 2021-02-05 | 2021-02-05 | 一种免标注的特定说话人语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113012678A true CN113012678A (zh) | 2021-06-22 |
CN113012678B CN113012678B (zh) | 2024-01-19 |
Family
ID=76383922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110160127.XA Active CN113012678B (zh) | 2021-02-05 | 2021-02-05 | 一种免标注的特定说话人语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113012678B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689866A (zh) * | 2021-08-18 | 2021-11-23 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
CN113724718A (zh) * | 2021-09-01 | 2021-11-30 | 宿迁硅基智能科技有限公司 | 目标音频的输出方法及装置、系统 |
CN114299910A (zh) * | 2021-09-06 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、使用方法、装置、设备及介质 |
CN114464162A (zh) * | 2022-04-12 | 2022-05-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音合成方法、神经网络模型训练方法、和语音合成模型 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110930981A (zh) * | 2018-09-20 | 2020-03-27 | 深圳市声希科技有限公司 | 多对一语音转换系统 |
JP2020060642A (ja) * | 2018-10-09 | 2020-04-16 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、及び音声合成装置 |
KR20200084443A (ko) * | 2018-12-26 | 2020-07-13 | 충남대학교산학협력단 | 음성 변조 시스템 및 방법 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
-
2021
- 2021-02-05 CN CN202110160127.XA patent/CN113012678B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610717A (zh) * | 2016-07-11 | 2018-01-19 | 香港中文大学 | 基于语音后验概率的多对一语音转换方法 |
CN110930981A (zh) * | 2018-09-20 | 2020-03-27 | 深圳市声希科技有限公司 | 多对一语音转换系统 |
JP2020060642A (ja) * | 2018-10-09 | 2020-04-16 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、及び音声合成装置 |
KR20200084443A (ko) * | 2018-12-26 | 2020-07-13 | 충남대학교산학협력단 | 음성 변조 시스템 및 방법 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689866A (zh) * | 2021-08-18 | 2021-11-23 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
CN113724718A (zh) * | 2021-09-01 | 2021-11-30 | 宿迁硅基智能科技有限公司 | 目标音频的输出方法及装置、系统 |
CN114299910A (zh) * | 2021-09-06 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、使用方法、装置、设备及介质 |
CN114299910B (zh) * | 2021-09-06 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 语音合成模型的训练方法、使用方法、装置、设备及介质 |
CN114464162A (zh) * | 2022-04-12 | 2022-05-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音合成方法、神经网络模型训练方法、和语音合成模型 |
Also Published As
Publication number | Publication date |
---|---|
CN113012678B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | A survey on neural speech synthesis | |
CN113012678B (zh) | 一种免标注的特定说话人语音合成方法及装置 | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
CN110534089A (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112863483A (zh) | 支持多说话人风格、语言切换且韵律可控的语音合成装置 | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN112037754B (zh) | 一种语音合成训练数据的生成方法及相关设备 | |
Liu et al. | Recent progress in the cuhk dysarthric speech recognition system | |
GB2326320A (en) | Text to speech synthesis using neural network | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN110390928B (zh) | 一种自动拓增语料的语音合成模型训练方法和系统 | |
CN111210803A (zh) | 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 | |
CN116229932A (zh) | 一种基于跨域一致性损失的语音克隆方法及系统 | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Li et al. | Many-to-many voice conversion based on bottleneck features with variational autoencoder for non-parallel training data | |
CN116092471A (zh) | 一种面向低资源条件下的多风格个性化藏语语音合成模型 | |
CN101350195A (zh) | 语音合成器产生系统与方法 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
JP2021085943A (ja) | 音声合成装置及びプログラム | |
WO2023102932A1 (zh) | 音频转换方法、电子设备、程序产品及存储介质 | |
Weweler | Single-Speaker End-To-End Neural Text-To-Speech Synthesis | |
Boco et al. | An End to End Bilingual TTS System for Fongbe and Yoruba | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
CN112992118B (zh) | 一种少语料的语音模型训练及合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |