CN114787913A - 训练语音合成以生成不同的语音声音 - Google Patents
训练语音合成以生成不同的语音声音 Download PDFInfo
- Publication number
- CN114787913A CN114787913A CN201980102911.6A CN201980102911A CN114787913A CN 114787913 A CN114787913 A CN 114787913A CN 201980102911 A CN201980102911 A CN 201980102911A CN 114787913 A CN114787913 A CN 114787913A
- Authority
- CN
- China
- Prior art keywords
- sequence
- time step
- predicted
- phoneme label
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 47
- 230000015572 biosynthetic process Effects 0.000 title description 12
- 238000003786 synthesis reaction Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000013507 mapping Methods 0.000 claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims description 76
- 238000012545 processing Methods 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
一种训练文本到语音(TTS)模型(108)的方法(800)包括获得训练数据(150),该训练数据(150)包括:包括字符序列的参考输入文本(104)、表示字符序列的参考音频特征(402)序列和表示参考音频特征的不同语音声音的参考音素标签(502)序列。针对多个时间步中的每个时间步,该方法包括基于针对该时间步的参考输入文本的相应部分来生成对应预测音频特征(120),并且使用音素标签映射网络(510)来生成与预测音频特征相关联的对应预测音素标签(520)。该方法还包括将预测音素标签与参考音素标签对准以确定对应预测音素标签损失(622),以及基于对应预测音素标签损失来更新TTS模型。
Description
技术领域
本公开涉及训练语音合成以生成不同的语音声音。
背景技术
神经网络是采用非线性单元的一层或多层以预测所接收的输入的输出的机器学习模型。例如,神经网络可以将输入文本转换成输出语音。除了输出层之外,一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层的输入,即,下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从所接收的输入生成输出。
训练语音合成系统(即,将输入文本转换成输出语音的神经网络)以生成自然的并且可理解的语音。这些系统通常被训练成使语音信号的假设表示(即网络的输出)与参考(即训练)语音信号之间的距离最小化。
发明内容
本公开的一个方面提供一种训练文本到语音(TTS)模型的方法。该方法包括在数据处理硬件处获得训练数据,该训练数据包括:包括特定语言的字符序列的参考输入文本,表示字符序列的参考音频特征序列,以及表示参考音频特征序列的不同语音的参考音素标签序列。针对多个时间步中的每个时间步,该方法包括由数据处理硬件基于针对时间步的参考输入文本的相应部分来生成对应预测音频特征,以及由数据处理硬件使用音素标签映射网络来生成与针对时间步的预测音频特征相关联的对应预测音素标签。该方法还包括通过数据处理硬件将针对时间步的预测音素标签与针对时间步的参考音素标签对准以确定对应预测音素标签损失,并且通过数据处理硬件基于针对多个时间步中的每个时间步所确定的对应预测音素标签损失来更新TTS模型。
本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,该方法还包括,针对多个时间步中的每个时间步,由数据处理硬件基于针对时间步的对应预测音频特征和针对时间步的参考音频特征序列的参考音频特征来确定对应预测音频特征损失。更新TTS模型还可以基于针对多个时间步中的每个时间步所确定的对应预测音频特征损失。
在一些示例中,该方法还包括:由数据处理硬件使用语音识别模型来执行强制对准过程以将参考音频特征序列与参考音素标签序列进行时间对准。可选地,针对多个时间步中的每个时间步来生成对应预测音频特征可以包括:使用编码器神经网络来处理字符序列以生成字符序列的特征表示,以及使用注意力网络来处理特征表示以生成针对时间步的固定长度的上下文向量。生成对应预测音频特征还可以包括使用解码器神经网络来处理针对时间步的固定长度的上下文向量以生成针对时间步的对应预测音频特征。
在一些实施方式中,编码器神经网络包括卷积层和双向长短器记忆(LSTM)层,并且特征表示包括表示字符序列中特定字符周围的字符序列的局部结构的序列特征表示。在一些示例中,解码器神经网络包括自回归神经网络,该自回归神经网络包括卷积子网络和输出层。针对多个时间步中的每个时间步所生成的对应预测音频特征还可以基于针对先前时间步的参考音频特征序列中的参考音频特征以及针对先前时间步的参考音频特征序列中的参考音素标签。
在一些实施方式中,针对多个时间步中的每个时间步,使用音素标签映射网络来生成对应预测音素标签包括:在音素标签映射网络处接收针对对应时间步所生成的预测音频特征作为特征输入,由音素标签映射网络来处理针对对应时间步所生成的接收到的预测音频特征以生成针对对应时间步的对应预测音素标签,以及由音素标签映射网络将针对对应时间步所生成的对应预测音素标签映射到针对对应时间步所生成的预测音频特征。
在一些示例中,参考音频特征包括参考梅尔频率谱图并且预测音频特征包括预测梅尔频谱图。参考音频特征序列可以对应于参考时域音频波形,多个时间步中的每个时间步可以对应于预测音频波形中的相应时间,并且针对多个时间步中的每个时间步所生成的对应预测音频特征可以包括在对应时间步处的预测音频波形的幅度值。
在一些实施方式中,TTS模型包括编码器神经网络、注意力网络和解码器神经网络。在其它实施方式中,TTS模型包括具有单帧同步神经网络的参数合成器模型。
本公开的另一个方面提供了一种用于训练文本到语音模型的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储当在数据处理硬件上执行时使数据处理硬件执行操作的指令。所述操作包括获得训练数据,该训练数据包括:包括特定语言的字符序列的参考输入文本,表示所述字符序列的参考音频特征序列,以及表示所述参考音频特征序列的不同语音声音的参考音素标签序列。针对多个时间步中的每个时间步,操作包括基于针对时间步的参考输入文本的相应部分来生成对应预测音频特征,并且使用音素标签映射网络来生成与针对时间步的预测音频特征相关联的对应预测音素标签。操作还包括将针对时间步的预测音素标签与针对时间步的参考音素标签对准以确定对应预测音素标签损失,并且基于针对多个时间步中的每个时间步所确定的对应预测音素标签损失来更新TTS模型。
该方面可以包括以下可选特征中的一个或多个。在一些实施方式中,针对多个时间步中的每个时间步,操作还包括基于针对时间步的对应预测音频特征和针对时间步的参考音频特征序列的参考音频特征来确定对应预测音频特征损失。更新TTS模型还可以基于针对多个时间步中的每个时间步所确定的对应预测音频特征损失。
在一些示例中,操作还包括使用语音识别模型来执行强制对准过程以将参考音频特征序列与参考音素标签序列进行时间对准。可选地,针对多个时间步中的每个时间步,生成对应预测音频特征可以包括使用编码器神经网络来处理字符序列以生成字符序列的特征表示,以及使用注意力网络来处理特征表示以生成针对时间步的固定长度的上下文向量。生成对应预测音频特征还可以包括使用解码器神经网络来处理针对时间步的固定长度的上下文向量以生成针对时间步的对应预测音频特征。
在一些实施方式中,编码器神经网络包括卷积层和双向长短期记忆(LSTM)层,并且特征表示包括表示字符序列中特定字符周围的字符序列的局部结构的序列特征表示。在一些示例中,解码器神经网络包括自回归神经网络,该自回归神经网络包括卷积子网络和输出层。针对多个时间步中的每个时间步所生成的对应预测音频特征还可以基于针对先前时间步的参考音频特征序列中的参考音频特征以及针对先前时间步的参考音频特征序列中的参考音素标签。
在一些实施方式中,针对多个时间步中的每个时间步,使用音素标签映射网络生成对应预测音素标签包括:在音素标签映射网络处接收针对对应时间步所生成的预测音频特征作为特征输入,由音素标签映射网络处理针对对应时间步所生成的接收到的预测音频特征以生成针对对应时间步的对应预测音素标签,以及由音素标签映射网络将针对对应时间步所生成的对应预测音素标签映射到针对对应时间步所生成的预测音频特征。
在一些示例中,参考音频特征包括参考梅尔频率谱图,并且预测音频特征包括预测梅尔频谱图。参考音频特征序列可以对应于参考时域音频波形,多个时间步中的每个时间步可以对应于预测音频波形中的相应时间,并且针对多个时间步中的每个时间步所生成的对应预测音频特征可以包括在对应时间步处的预测音频波形的幅度值。
在一些实施方式中,TTS模型包括编码器神经网络、注意力网络和解码器神经网络。在其它实施方式中,TTS模型包括具有单帧同步神经网络的参数合成器模型。
在附图和以下描述中阐述了本公开的一种或多种实施方式的细节。从描述和附图以及从权利要求中,其他方面、特征和优点将是显而易见的。
附图说明
图1是用于训练语音合成的示例系统的示意图。
图2是解码器神经网络的示例架构的示意图。
图3是自回归神经网络的示例架构的示意图。
图4是利用多个时间步来训练解码器神经网络的示意图。
图5是利用音素标记映射网络和多个时间步来训练解码器神经网络的示意图。
图6是解码器神经网络的损失函数的示意图。
图7是利用多个时间步在推理期间解码器神经网络的示意图。
图8是一种训练语音合成以生成不同的语音声音的方法的操作的示例布置的流程图。
图9是可以用于实现本文所述的系统和方法的示例计算设备的示意图。
各图中相同的附图标记指示相同的元件。
具体实施方式
训练语音合成系统(例如,传统的参数和端到端神经网络学习模型)以生成自然的和可理解的语音。这些系统被训练成使语音信号的假设表示与参考(即训练)信号之间的距离最小化。这些表示可以是各种格式(例如,声码器参数、滤波器组系数、直接波形表示等),并且直接可转换成可听语音。使用损失函数来测量由系统生成的假设表示与参考信号之间的距离。例如,诸如平均绝对误差、均方误差或平均偏差误差的损失函数可以用于指示预测(即,假设)的准确度并且可以被反馈到模型以优化或训练模型的参数(例如,权重)。
然而,所得的假设信号被收听者解释为分类的语音声音(即,音素)以理解语音。这种关系声音不用于语音合成的训练。这导致不太清晰的合成语音,因为一些语音声音(例如,摩擦音/∫/和/f/或元音//和/a/)尽管在信号空间中相对接近,但对于收听者而言在感知上是不同的。也就是说,测量这些语音声音的准确度的损失函数可以指示准确的预测,尽管对于收听者而言是难以理解的。
因此,本文的实施方式针对一种用于训练语音合成模型(即,参数或端到端文本到语音(TTS)模型)以通过使用包括帧对准音素标签的音频数据来生成不同的语音声音的系统。这里,语音合成模型包括:被配置为针对每帧语音表示来预测音素标签(例如,预测音频特征)的音素标签映射网络,以及测量语音表示与参考音频特征(例如,真实值声学信号)之间的距离和参考音素标签的交叉熵损失项。
现在参考图1,在一些实施方式中,示例系统100包括执行文本到语音(TTS)模型108的计算设备10。计算设备10可以对应于任何计算设备,诸如台式工作站、膝上型工作站或移动设备(即,智能电话)。计算设备还可以是单个计算机、多个计算机或具有可扩展/弹性计算资源18(例如,数据处理硬件)和/或存储资源16(例如,存储器硬件)的分布式系统(例如,云环境)。数据存储50覆盖在存储资源16上以允许计算资源18对存储资源16的可扩展使用。
TTS模型108接收输入文本104并且通过一个或多个神经网络处理该输入文本104(即,字符序列),以生成作为输入文本104的声音表达或叙述的语音106(即,表示字符序列104的音频数据)。例如,当TTS模型108接收书籍的页面的文本作为输入时,模型108处理该文本以生成页面的口头叙述。
计算设备10还执行子系统102,其包括被配置成接收输入文本104作为输入的输入子系统102、102A,以及被配置成提供语音106作为输出的输出子系统102、102B。即,输入子系统102A可以接收文本输入104,而输出子系统102B可以输出表示文本输入104的音频数据106。输入文本104包括特定自然语言(例如英语、西班牙语或法语)的字符序列。字符序列能够包括字母、数字、标点符号和/或其他特殊字符。TTS模型108生成的语音106近似于人类语音,即,人类将如何用言语表达构成输入文本104的字符序列。
输入子系统102A可以包括光学字符识别(OCR)单元以将键入的、手写的或打印的文本的图像转换成机器编码文本。在一些示例中,输出子系统102B包括用于将时域音频波形转换成音频的音频输出设备。在一些实施方式中,输入子系统102A被配置成将字符序列104(即,输入文本)中的每个字符转换成独热向量并且将每个独热向量嵌入连续向量中。即,输入子系统102A可以将序列中的每个字符表示为独热向量,然后生成字符的嵌入103,即向量或数值的其它有序集合。
TTS模型108可以被配置为从输入子系统102A接收字符嵌入103,并且处理这些字符嵌入103以生成时域音频波形119。时域音频波形119是定义音频信号随时间的幅度的音频波形。具体地,TTS模型108的编码器神经网络110被配置为从输入子系统102A接收字符嵌入103,并且针对解码器神经网络114稍后将生成的每个梅尔频谱图118来生成固定长度的上下文向量115。固定长度的上下文向量115定义出现在字符序列104中的特定位置的特征。由上下文向量115定义的特征对其中出现字符序列104中的每个字符的上下文进行建模。
在一些实施方式中,编码器神经网络110包括一个或多个卷积层111,随后是双向长短期记忆(“LSTM”)层112。每个卷积层中的神经元可以仅从先前层中的神经元的小子集接收输入。这种神经元连接性允许卷积层学习当特定隐藏特征出现在字符序列104中的特定位置时激活的滤波器。在一些示例中,每个卷积层中的每个滤波器跨越四个、五个或六个字符。每个卷积层之后可以是批量归一化和修正线性单元(“ReLU”)。在编码器神经网络110包括一个或多个卷积层的实施方式中,双向LSTM层112可以可选地跟随在那些卷积层之后。双向LSTM层112可以被配置为处理由最终卷积层111生成的隐藏特征以生成字符序列104的序列特征表示。如本文所用,序列特征表示表示特定字符周围的字符序列104的局部结构。在一些示例中,序列特征表示包括特征向量序列。
在一些实施方式中,编码器神经网络110还包括注意力网络113。注意力网络113可以被配置为从编码器神经网络110的另一组件(例如,双向LSTM层112)接收序列特征表示,并且处理该序列特征表示以针对每个解码器输出步骤来生成固定长度的上下文向量115。即,注意力网络113可以针对解码器神经网络114稍后将生成的梅尔频谱图118的每个帧来生成固定长度的上下文向量115。帧是基于输入信号的小部分(例如,输入信号的10毫秒样本)的梅尔频谱图118的单元。注意力网络113可以确定编码器输出的每个元素的权重,并且通过确定每个元素的加权和来生成固定长度的上下文向量115。注意力权重可以针对每个解码器时间步而改变。
解码器神经网络114被配置为接收固定长度的上下文向量115作为输入并且生成梅尔频谱图118的对应帧作为输出。梅尔频谱图118是声音的频域表示。梅尔频谱图强调对于语音可理解度是关键的低频,而不强调由摩擦音和其它噪声脉冲支配的高频,并且通常不需要以高保真度建模。在一些实施方式中,解码器神经网络114生成具有12.5毫秒的帧长度的梅尔频谱图118。在其他实施方式中,解码器神经网络114被配置为生成具有小于或大于12.5毫秒的帧长度的梅尔频谱图118。以下将参考图2更详细地描述解码器神经网络114的架构。
在一些示例中,解码器114包括自回归神经网络116,其被配置成接收梅尔频谱图118并且基于梅尔频谱图118生成对应的音频输出样本119。解码器114可以包括声码器网络117。例如,声码器网络117可以基于并行前馈神经网络。
自回归神经网络116可以从解码器神经网络114接收梅尔频谱图118并且在多个时间步上以自回归方式进行操作。在给定时间步处,自回归神经网络116在以下条件下生成针对该时间步的多个可能音频输出样本119上的概率分布:(i)音频数据119的当前输出序列,包括音频数据的输出序列中的一个或多个先前时间步的相应音频输出样本119,以及(ii)该时间步的梅尔频谱图118。在一些示例中,输出子系统102B使用时间步的概率分布来选择当前步的音频样本119。以下将参考图3更详细地描述自回归神经网络116的示例性结构。输出子系统102B在从概率分布中针对该时间步选择音频输出样本106之后,可以通过音频输出设备(例如扬声器)来输出/播放音频输出样本106。
因此,TTS模型108可以使用在样本输入文本104上训练的神经网络和单独的人类语音的对应梅尔频谱图118来从文本生成语音。也就是说,模型108不接收需要重要领域知识来产生的复杂的语言和声学特征。相反,系统可以使用端对端神经网络将输入字符序列104转换成梅尔频谱图118。在一些示例中,解码器114的自回归神经网络116在梅尔频谱图118上被单独训练并且可以生成时域音频波形119。
现在参考图2,解码器神经网络114的示例解码器架构200包括针对先前时间步的梅尔频谱图预测通过的前置网210。前置网210可以包括两个完全连接的隐藏的ReLU层。前置网210充当用于学习注意力的信息瓶颈以提高收敛速度并且提高在训练期间语音合成系统的泛化能力。为了在推断时间引入输出变化,可以将概率为0.5的暂退法应用于前置网中的层。
在一些实施方式中,解码器架构200还包括具有两个或多个LSTM层的LSTM子网220。在每个时间步,LSTM子网220接收前置网210的输出和该时间步的固定长度的上下文向量202的级联。LSTM层可以使用概率为例如0.1的分区输出(zoneout)来正则化。线性投影230接收LSTM子网络220的输出作为输入并且产生梅尔频谱图118P的预测。
在一些示例中,具有一个或多个卷积层的卷积后置网240处理该时间步的预测梅尔频谱图118P以预测残差242,从而在加法器244处添加到预测梅尔频谱图118P。这改善了整体重建。除了最终卷积层之外的每个卷积层之后可以是批量归一化和双曲正切(TanH)激活。使用具有概率例如为0.5的暂退法来正则化卷积层。残差242被添加到由线性投影230生成的预测梅尔频谱图118P,并且该总和(即,梅尔频谱图118)可以被提供给自回归网络116(图1)。
在一些示例中,与针对每个时间步预测梅尔频谱图118的解码器神经网络114并行地,LSTM子网络220的输出与固定长度的上下文向量115的级联被投影到标量并且通过sigmoid激活以预测梅尔频谱图118的输出序列已完成的概率。在推断期间使用该“停止令牌”预测以允许模型动态地确定何时终止生成,而不是总是在固定的持续时间内生成。当停止令牌指示生成已经终止时,即,当停止令牌概率超过阈值时,解码器神经网络114停止预测梅尔频谱图118P并且返回直到该点为止所预测的梅尔频谱图。或者,解码器神经网络114可以总是生成相同长度(例如,10秒)的梅尔频谱图118。
现在参考图3,示例性自回归网络架构300生成音频数据序列119,每个音频数据序列包括在多个时间步中的每个时间步处的相应音频输出样本。通常,给定音频输出序列中的每个时间步对应于音频波形中的相应时间。在时间步处的音频输出样本表征在相应时间处的波形。在一些实施方式中,音频输出序列中的每个时间步处的音频输出样本119是在对应时间处的音频波形的幅度,即,由架构300生成的音频输出序列119是原始音频波形。在一些实施方式中,序列中的每个时间步处的音频输出样本119是在相应时间处的波形的压缩表示。例如,音频输出样本是波形的μ定律变换表示。
在一些实施方式中,架构300在多个时间步中的每个时间步处接收梅尔频谱图118作为输入,并且通过在梅尔频谱图118和当前音频输出序列的至少一部分(即,来自前述时间步的一个或多个音频输出样本118)这两者上调节架构300,在多个时间步中的每个时间步处生成对应的音频输出样本119。音频输出样本119一起形成音频输出序列106。
具体地,在音频输出序列119的生成期间的每个时间步,卷积子网络310接收包括架构300在当前时间步之前已经生成的音频输出样本119的当前音频输出序列340。卷积子网络310处理在针对时间步的梅尔频谱图118上调节的当前音频输出序列340,以生成针对时间步的替代表示344。替代表示344可以是数字表示,即,数值的有序集合,其中当前音频输出序列340已经由卷积子网络例如通过对当前音频输出序列340的特征进行编码来编码。
在一些示例中,输出层320被配置成在时间步中的每个时间步处接收替代表示344并且生成针对该时间步的在可能音频输出样本119上的概率分布。在一些实施方式中,输出层320是逻辑输出层,其生成针对时间步的在可能音频输出样本119上的逻辑混合分布的参数,例如均值、对数标度或混合权重。逻辑输出层可以包括ReLU,后面是线性投影。在其它实施方式中,输出层320是softmax输出层,其生成针对时间步的可能音频样本119上的离散概率分布。也就是说,每个可能音频样本119与离散分值相关联。
一旦输出层320已经生成给定时间步的分值分布,输出子系统102B(图1)或一些其它外部子系统就可以根据给定时间步的分值分布来选择要包括在音频输出序列106中的音频输出样本119。在一些示例中,卷积子网络310一般包括多个音频处理卷积神经网络层。更具体地,音频处理卷积神经网络层可以包括多个因果卷积层。
因果卷积层是通过针对每个时间步生成仅取决于输入序列中的该时间步和该时间步之前的时间步的输入而不取决于输入序列中的该时间步之后的任何时间步的任何输入的输出而对在多个时间步的每个时间步处具有相应输入的输入序列104进行操作的卷积层。在一些情况下,因果卷积层通过应用正常卷积然后将正常卷积的每个输出移位几个时间步(即在应用卷积层的激活函数之前将每个输出向前移位(滤波器长度-1)个时间步)来实现,其中“滤波器长度”是正在应用的卷积的滤波器的长度。
现在参考图4,示意图400示出了典型地用于训练解码器神经网络114的示例最大似然训练过程。在最大似然训练过程期间,解码器神经网络114在每个时间步接收来自编码器110的输出(即,固定长度的上下文向量115)和来自先前时间步的参考音频特征402,402a-n(即,“真实值”声学目标)作为输入,并且生成对应的预测音频特征120(例如,假设)。这被称为教师强制。例如,在“时间步1”处,解码器114接收与“时间步0”(未示出)相关联的参考音频特征402。类似地,在“时间步2”处,解码器114接收与“时间步1”相关联的参考音频特征402,等等。即,代替如在推断期间所做的那样向解码器114提供来自先前时间步的假设/预测音频特征120,120a-n(例如,输出梅尔频谱图118、118a-n、输出时域音频波形119、输出滤波器系数或声码器参数),在训练期间用参考音频特征402替换假设/预测音频特征120。训练数据150(图1)可以包括:包括特定语言的字符序列的样本输入参考文本104T以及表示字符序列的参考音频特征序列402。参考音频特征402可以包括参考滤波器系数、参考梅尔频谱图、时域波形的参考音频样本或参考声码器参数。
经由损失函数(例如,使用平均绝对误差)来确定所得的音频输出序列106(图1)与参考音频样本402序列之间的距离。由于小频谱差异,对于特定语音声音(例如,一些摩擦音辅音),该距离可能较小,但是尽管差异较小,但是这些特定语音声音对于收听者可能是不同的。这些语音声音的不准确度可能显著地增加所得的音频的不可理解度。
图5示出了TTS模型108的示意图500,其在训练期间并入音素标签映射网络510以提高解码器114的预测音频特征120(例如,梅尔频谱图118或时域音频波形的预测音频样本)对于具有类似频谱属性的不同声音的准确度。在所示的示例中,对于训练期间的多个时间步中的每个时间步(即,每帧),音素标签映射网络510接收从解码器114输出的该时间步的预测音频特征120并且将预测音频特征120映射到表示不同语音声音的该时间步的对应音素标签520,520a-n。即,音素标签映射网络510接收针对相应时间步所生成的预测音频特征120作为特征输入,处理所接收到的预测音频特征120以生成针对相应时间步的预测音素标签520,并且将针对相应时间步所生成的相应预测音素标签520映射到针对相应时间步所生成的预测音频特征120。如本文所用,音素标签520指的是任何不同的语音声音,而不管确切的声音对于单词的含义是否是关键的(如与音素相比)。换句话说,音素标签,或简称音素,是对于人类收听者具有不同频谱特性的语音区段,并且用作语音学的语音分析的基本单元。解码器114接收来自编码器110的输出(即,固定长度的上下文向量115)以及具有先前时间步的帧对准音素标签502,502a-n的参考音频特征402,402a-n。即,解码器114接收与图4的最大似然训练过程中类似的输入,但是训练数据150的每个参考音频特征402附加地包括对应帧对准音素标签502。这里,在教师强制训练期间使用帧对准音素标签502来提高音素标签映射网络510和解码器网络114的准确度,使得由解码器410预测的预测音频特征(例如,梅尔频谱图118)学习匹配参考音频特征402,并且对应的预测音素标签520学习匹配帧对准参考音素标签502。
现在参考图6,在一些实施方式中,示例解码器训练过程600同时训练音素标签映射网络510和解码器114。在这种情况下,训练数据150包括:包括特定语言的字符序列的参考输入文本104;表示字符序列的参考音频特征402序列,以及表示参考音频特征402序列的不同语音声音的参考音素标签502序列。在一些示例中,训练过程600使用语音识别模型执行强制对准过程以将参考音频特征402序列与参考音素标签502序列进行时间对准。这些参考音素标签502对应于用于使用损失函数来确定由音素标签映射网络510输出的预测音素标签520的准确度的“真实值”音素标签目标502。在一些实施方式中,将每个时间步的预测音素标签520与参考音素标签对准以确定对应音素标签损失622。音素标签损失622可以更新TTS模型108。在一些实施方式中,针对多个时间步中的每个时间步,解码器损失函数610基于针对时间步的对应预测音频特征120和针对时间步的参考音频特征402序列的参考音频特征402来确定对应预测音频特征损失612。在一些示例中,基于针对多个时间步中的每个时间步所确定的对应预测音频特征损失612来更新TTS模型108。
在所示的示例中,在每个时间步期间,交叉熵损失函数630组合与从解码器114输出的预测音频特征120相关联的解码器损失612(即,预测音频特征损失)和与从音素映射器(例如,音素标签映射网络)510输出的对应预测音素标签520相关联的音素标签损失622。换言之,交叉熵损失函数630将由解码器网络114生成的频谱图118的时间步帧的损失(例如,解码器损失612)(即,假设输出的不准确度的测量)与由音素标签映射网络510生成的对应映射音素标签520的损失(例如,音素标签损失622)(即,音素标签映射网络假设的不准确度的测量)相加或以其他方式组合。例如,解码器损失函数610可以被表示为LD(x,′)以产生测量预测音频特征120(例如,梅尔频谱图118)的准确度的解码器损失612,并且音素标签损失函数可以被表示为LPH(ph,ph′)以产生测量预测音素标签520的准确度的音素标签损失622。在该示例中,交叉熵损失函数630可以组合损失函数610,620,并且表示如下。
LCE(x,ph,x′,ph′)=LD(x,x′)+c*LPH(ph,ph′) (1)
这里,LCE表示交叉熵损失结果632,x表示参考音频特征402,ph表示帧对准参考音素标签502,x’表示预测音频特征120,并且ph’表示预测音素标签520。在一些示例中,基于针对每个时间步确定的对应预测音素标签损失622和/或解码器损失612来更新TTS模型108。
在一些示例中,音素标签损失函数620乘以常数(即,c)以将权重应用于所映射的预测音素标签520。这里,在训练解码器114以预测语音声音时,该常数对预测音素标签520的贡献进行加权。例如,增加常数的大小增加了用于更新TTS模型的预测音素标签520映射的权重或贡献的大小,而减小常数的大小减小了用于更新TTS模型的预测音素标签520映射的权重或贡献的大小。可以基于例如训练数据150来预先确定或动态地调整权重。在一些实施方式中,实现音素标签损失函数620包括使用单独的强制对准过程将由音素映射器510所预测的音素标签假设520与训练数据150的真实值音素标签目标502进行比较。重要的是,如果文本输入104是基于音素的,则不要求从强制对准过程生成的真实值音素标签目标502匹配或等同于输入文本104的音素(尽管它们可以是这样)。
在一些实施方式中,所组合的损失函数630的交叉熵损失结果632被返回给解码器网络114(以及在一些示例中,编码器110)以训练解码器网络114。也就是说,损失结果632用于优化解码器网络114的参数(例如,权重)。换句话说,基于解码器网络114的解码器损失612(经由解码器损失函数610)和音素标签映射网络510的音素标签损失622(经由音素标签损失函数620),在解码器训练过程600中使用交叉熵损失结果632以调整解码器网络114和音素标签映射网络510的参数。因此,将以指导解码器114生成音素标签映射网络510可以使用来更准确地映射预测音素标记520的预测音频特征120(例如,频谱图118)的方式来优化解码器114。针对多个时间步中的每个时间步所生成的对应预测音频特征120可以包括在对应时间步处的预测波形119的幅度值。
在一些实施方式中,通过在来自字符序列104的每个帧上并且在一些示例中在一批量的多个字符序列104上累积损失结果632,在每个时间步或帧之后将损失结果632反馈到解码器114以更新TTS模型(例如,根据损失结果632来改变解码器114的参数)。批量处理允许同时训练多个字符序列以便在高级计算设备10(例如,图形处理单元(GPU)和张量处理单元(TPU))上进行高效的数学处理。附加地,来自损失结果632的更新可以在许多观察上被平均以提高训练的稳定性。在一些示例中,仅在来自音素标签损失函数620的所得的音素标签损失622上训练音素标签映射网络510。也就是说,音素标签映射网络510的参数不被来自解码器损失函数610的解码器损失612改变或影响。
现在参考图7,在一些示例中,示意图700示出了在推断期间丢弃所映射的音素标签520的使用的TTS模型108的解码器网络114。推断是指使用经训练的TTS模型108来接收输入文本104并且预测输出音频样本119以产生表示输入文本104的合成语音106的过程。即,在推断期间(即,在TTS模型108被训练并且被使用之后),不应用从音素标签映射网络510输出的预测音素标签420。在推断的每个时间步期间,解码器114在先前时间步期间从解码器114接收预测音频特征120(例如,梅尔频谱图118),这与在训练期间使用的针对先前时间步的参考音频特征402和相关联的帧对准参考音素标签502相反。
音素标签映射网络510可以包括许多不同类型的神经网络。例如,音素标签映射网络510可以包括循环神经网络(RNN)、LTSM网络或深度前馈(DFF)神经网络。一起训练TTS模型108和音素标签映射网络510有利地降低了所得的音频数据(例如,梅尔频谱图118)的字错误率(WER),从而指示由此产生的合成语音106对于人类收听者来说更容易理解。
本文的示例图示了包括编码器110和解码器114的TTS模型108,然而,音素标签映射网络510同样适用于其他类型的TTS模型或系统,以实现WER的类似改进。例如,TTS模型108可以包括使用相同或相似的损失修改的参数合成器模型,但是代替解耦的编码器和解码器(例如,具有注意力网络),参数合成器模型可以包括单帧同步神经网络。这里,输入文本表示(例如,输入文本104的字符序列)可以通过外部持续时间模型映射到声学帧,以便输入和输出是帧同步的。音素标签映射网络510可以以与上述端到端语音合成模型相同的方式扩展该模型。
图8是用于训练TTS模型的方法800的操作的示例性布置的流程图。方法800开始于操作802处,在数据处理硬件18处获得训练数据150,其包括:包括特定语言的字符序列的参考输入文本104、表示字符序列的参考音频特征402序列、以及表示参考音频特征402序列的不同语音声音的参考音素标签502序列。针对多个时间步中的每个时间步,方法800包括在步骤804处由数据处理硬件18基于该时间步的参考输入文本104的相应部分来生成对应预测音频特征120。方法800在步骤806包括由数据处理硬件18使用音素标签映射网络510来生成与该时间步的预测音频特征120相关联的对应预测音素标签520。在步骤808处,方法800包括通过数据处理硬件18将该时间步的预测音素标签520与该时间步的参考音素标签502对准以确定对应预测音素标签损失622。方法800在步骤810处还包括由数据处理硬件18基于针对多个时间步中的每个时间步所确定的对应预测音素标签损失622来更新TTS模型108。
图9是可以被用于实现本文档中描述的系统和方法的示例计算设备900的示意图。计算设备900旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里示出的组件、它们的连接和关系以及它们的功能仅意在为示例性的,而不意在限制本文档中描述和/或要求保护的发明的实施方式。
计算设备900包括处理器910、存储器920、存储设备930、连接到存储器920和高速扩展端口950的高速接口/控制器940、以及连接到低速总线970和存储设备930的低速接口/控制器960。组件910、920、930、940、950和960中的每一个使用各种总线来互连,并且可以被安装在公共主板上或者酌情以其他方式安装。处理器910能够处理用于在计算设备900内运行的指令,包括存储在存储器920中或在存储设备930上以在诸如耦合到高速接口940的显示器980的外部输入/输出设备上显示图形用户界面(GUI)的图形信息的指令。在其他实施方式中,可以酌情使用多个处理器和/或多个总线以及多个存储器和存储器类型。另外,可以连接多个计算设备900,其中每个设备提供必要操作的部分(例如,作为服务器组、刀片服务器群组或多处理器系统)。
存储器920在计算设备900内非暂时性地存储信息。存储器920可以是计算机可读介质、(多个)易失性存储器单元或(多个)非易失性存储器单元。非暂时性存储器920可以是用于在临时或永久基础上存储程序(例如,指令的序列)或数据(例如,程序状态信息)以供由计算设备900使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储设备930能够为计算设备900提供大容量存储。在一些实施方式中,存储设备930是计算机可读介质。在各种不同的实施方式中,存储设备930可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储器设备、或设备的阵列,包括在存储区域网络或其他配置中的设备。在附加的实施方式中,计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令,当被执行时,指令执行一种或多种方法,诸如上述那些方法。信息载体是计算机或机器可读介质,诸如存储器920、存储设备930或处理器910上的存储器。
高速控制器940管理计算设备900的带宽密集操作,而低速控制器960管理较低带宽密集操作。职责的这种分配仅是示例性的。在一些实施方式中,高速控制器940被耦合到存储器920、显示器980(例如,通过图形处理器或加速器),并且被耦合到高速扩展端口950,其可以接受各种扩展卡(未示出)。在一些实施方式中,低速控制器960被耦合到存储设备930和低速扩展端口990。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口990可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或联网设备,诸如交换机或路由器。
计算设备900可以被实现为多种不同的形式,如附图所示。例如,它可以被实现作为标准服务器900a或多次在这种服务器900a群组中、作为膝上型计算机900b、或作为机架服务器系统900c的一部分。
本文中描述的系统和技术的各种实施方式能够以数字电子和/或光电路系统、集成电路系统、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组来实现。这些各种实施方式能够包括在一个或多个计算机程序中的实施方式,这些计算机程序在包括至少一个可编程处理器的可编程系统上可执行和/或可解释,可编程处理器可以是专用或通用的,被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
软件应用(即,软件资源)可以是指使计算设备执行任务的计算机软件。在一些示例中,软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、词处理应用、电子表格应用、消息传送应用、媒体流应用、社交网络应用和游戏应用。
这些计算机程序(也被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象编程语言和/或用汇编/机器语言来实现。如本文中所使用的,术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
本说明书中描述的过程和逻辑流程能够通过一个或多个可编程处理器,也称为数据处理硬件,运行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能而被执行。过程和逻辑流程也能够由专用逻辑电路系统,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行。通过示例,适合于执行计算机程序的处理器包括通用微处理器和专用微处理器这两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机也将包括或在操作上耦合以从用于存储数据的一个或多个大容量存储设备,例如,磁盘、磁光盘或光盘,接收数据或者将数据转移到该一个或多个大容量存储设备,或者这两者。然而,计算机不必须具有这种设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,作为示例包括半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路系统补充,或者被并入在专用逻辑电路系统中。
为了提供与用户的交互,能够在计算机上实现本公开的一个或多个方面,该计算机具有显示设备,例如,CRT(阴极射线管)、LCD(液晶显示器)监视器或用于向用户显示信息的触摸屏以及可选地用户能够通过其向计算机提供输入的键盘和定点设备,例如,鼠标或轨迹球。其他种类的设备也能够被用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且能够以任何形式接收来自用户的输入,包括声学、语音或触觉输入。另外,计算机能够通过向由用户使用的设备发送文档和从由用户使用的设备接收文档来与用户交互;例如,通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。
已经描述了许多实施方式。然而,应理解,可以在不脱离本公开的精神和范围的情况下做出各种修改。因此,其他实施方式在以下权利要求的范围内。
Claims (24)
1.一种训练文本到语音(108)TTS模型(108)的方法(800),所述方法(800)包括:
在数据处理硬件(18)处获得训练数据(150),所述训练数据(150)包括:
参考输入文本(104),所述参考输入文本(104)包括特定语言的字符序列;
表示所述字符序列的参考音频特征(402)序列;以及
表示用于所述参考音频特征(402)序列的不同语音声音的参考音素标签(502)序列;
针对多个时间步中的每个时间步:
由所述数据处理硬件(18)基于针对所述时间步的所述参考输入文本(104)的相应部分来生成对应预测音频特征(120);
由所述数据处理硬件(18)使用音素标签(520)映射网络来生成与针对所述时间步的所述预测音频特征(120)相关联的对应预测音素标签(520);以及
由所述数据处理硬件(18)将针对所述时间步的所述预测音素标签(520)与针对所述时间步的所述参考音素标签(502)对准以确定对应预测音素标签损失(622);以及
由所述数据处理硬件(18)基于针对所述多个时间步中的每个时间步所确定的所述对应预测音素标签损失(622)来更新所述TTS模型(108)。
2.根据权利要求1所述的方法(800),还包括:
针对所述多个时间步中的每个时间步,由所述数据处理硬件(18)基于针对所述时间步的所述对应预测音频特征(120)和针对所述时间步的所述参考音频特征(402)序列中的所述参考音频特征(402)来确定对应预测音频特征损失(612),
其中,更新所述TTS模型(108)还基于针对所述多个时间步中的每个时间步所确定的对应预测音频特征损失(612)。
3.根据权利要求1或2所述的方法(800),还包括由所述数据处理硬件(18)使用语音识别模型来执行强制对准过程以将所述参考音频特征(402)序列与所述参考音素标签(502)序列进行时间对准。
4.根据权利要求1至3中的任一项所述的方法(800),其中,针对所述多个时间步中的每个时间步来生成所述对应预测音频特征(120)包括:
使用编码器神经网络(110)来处理所述字符序列以生成所述字符序列的特征表示;
使用注意力网络(113)来处理所述特征表示以生成针对所述时间步的固定长度的上下文向量(115);以及
使用解码器神经网络(114)来处理针对所述时间步的所述固定长度的上下文向量(115)以生成针对所述时间步的所述对应预测音频特征(120)。
5.根据权利要求4所述的方法(800),其中:
所述编码器神经网络(110)包括卷积层(111)和双向长短期记忆(LSTM)层(112);以及
所述特征表示包括表示所述字符序列中的特定字符周围的所述字符序列的局部结构的序列特征表示。
6.根据权利要求4或5所述的方法(800),其中,所述解码器神经网络(114)包括自回归神经网络(116),所述自回归神经网络(116)包括卷积子网络(310)和输出层(320)。
7.根据权利要求1至6中的任一项所述的方法(800),其中,针对所述多个时间步中的每个时间步生成的所述对应预测音频特征(120)还基于针对先前时间步的所述参考音频特征(402)序列中的所述参考音频特征(402)以及针对所述先前时间步的所述参考音频特征(402)序列中的所述参考音素标签(502)。
8.根据权利要求1至7中的任一项所述的方法(800),其中,针对所述多个时间步中的每个时间步,使用所述音素标签映射网络(510)来生成所述对应预测音素标签(520)包括:
在所述音素标签映射网络(510)处接收针对所述对应时间步生成的所述预测音频特征(120)作为特征输入;
由所述音素标签映射网络(510)处理针对所述对应时间步生成的接收到的预测音频特征(120)以生成针对所述对应时间步的所述对应预测音素标签(520);以及
由所述音素标签映射网络(510)将针对所述对应时间步生成的所述对应预测音素标签(520)映射到针对所述对应时间步生成的所述预测音频特征(120)。
9.根据权利要求1至8中的任一项所述的方法(800),其中,所述参考音频特征(402)包括参考梅尔频谱图(118),并且所述预测音频特征(120)包括预测梅尔频谱图(118)。
10.根据权利要求1至9中的任一项所述的方法(800),其中:
所述参考音频特征(402)序列对应于参考时域音频波形;
所述多个时间步中的每个时间步对应于预测音频波形(119)中的相应时间;以及
针对所述多个时间步中的每个时间步生成的所述对应预测音频特征(120)包括在所述对应时间步处的所述预测音频波形(119)的幅度值。
11.根据权利要求1至10中的任一项所述的方法(800),其中,所述TTS模型(108)包括编码器神经网络(110)、注意力网络(113)和解码器神经网络(114)。
12.根据权利要求1至11中的任一项所述的方法(800),其中,所述TTS模型(108)包括具有单帧同步神经网络的参数合成器模型。
13.一种用于训练文本到语音模型的系统(100),所述系统包括:
数据处理硬件(18);以及
与所述数据处理硬件(18)通信的存储器硬件(16),所述存储器硬件(16)存储指令,所述指令当在所述数据处理硬件(18)上执行时使所述数据处理硬件(18)执行操作,所述操作包括:
获得训练数据(150),所述训练数据(150)包括:
参考输入文本(104),所述参考输入文本(104)包括特定语言的字符序列;
表示所述字符序列的参考音频特征(402)序列;以及
表示用于所述参考音频特征(402)序列的不同语音声音的参考音素标签(502)序列;
针对多个时间步中的每个时间步:
基于针对所述时间步的所述参考输入文本(104)的相应部分来生成对应预测音频特征(120);
使用音素标签(520)映射网络来生成与针对所述时间步的所述预测音频特征(120)相关联的对应预测音素标签(520);以及
将针对所述时间步的所述预测音素标签(520)与针对所述时间步的所述参考音素标签(502)对准以确定对应预测音素标签损失(622);以及
基于针对所述多个时间步中的每个时间步所确定的所述对应预测音素标签损失(622)来更新所述TTS模型(108)。
14.根据权利要求13所述的系统(100),其中,所述操作还包括:
针对所述多个时间步中的每个时间步,基于针对所述时间步的所述对应预测音频特征(120)和针对所述时间步的所述参考音频特征(402)序列中的所述参考音频特征(402)来确定对应预测音频特征损失(612),
其中,更新所述TTS模型(108)还基于针对所述多个时间步中的每个时间步所确定的对应预测音频特征损失(612)。
15.根据权利要求13或14所述的系统(100),其中,所述操作还包括,使用语音识别模型来执行强制对准过程以将所述参考音频特征(402)序列与所述参考音素标签(502)序列进行时间对准。
16.根据权利要求13至15中的任一项所述的系统(100),其中,针对所述多个时间步中的每个时间步来生成所述对应预测音频特征(120)包括:
使用编码器神经网络(110)来处理所述字符序列以生成所述字符序列的特征表示;
使用注意力网络(113)来处理所述特征表示以生成针对所述时间步的固定长度的上下文向量(115);以及
使用解码器神经网络(114)来处理针对所述时间步的所述固定长度的上下文向量(115)以生成针对所述时间步的所述对应预测音频特征(120)。
17.根据权利要求16所述的系统(100),其中:
所述编码器神经网络(110)包括卷积子网络(111)和双向长短期记忆(LSTM)层(112);以及
所述特征表示包括表示所述字符序列中的特定字符周围的所述字符序列的局部结构的序列特征表示。
18.根据权利要求16或17所述的系统(100),其中,所述解码器神经网络(114)包括自回归神经网络(116),所述自回归神经网络(116)包括卷积子网络(310)和输出层(320)。
19.根据权利要求13至18中的任一项所述的系统(100),其中,针对所述多个时间步中的每个时间步生成的所述对应预测音频特征(120)还基于针对先前时间步的所述参考音频特征(402)序列中的所述参考音频特征(402)以及针对所述先前时间步的所述参考音频特征(402)序列中的所述参考音素标签(502)。
20.根据权利要求13至19中的任一项所述的系统(100),其中,针对所述多个时间步中的每个时间步,使用所述音素标签映射网络(510)来生成所述对应预测音素标签(520)包括:
在所述音素标签映射网络(510)处接收针对所述对应时间步生成的所述预测音频特征(120)作为特征输入;
由所述音素标签映射网络(510)处理针对所述对应时间步生成的接收到的预测音频特征(120)以生成针对所述对应时间步的所述对应预测音素标签(520);以及
由所述音素标签映射网络(510)将针对所述对应时间步生成的所述对应预测音素标签(520)映射到针对所述对应时间步生成的所述预测音频特征(120)。
21.根据权利要求13至20中的任一项所述的系统(100),其中,所述参考音频特征(402)包括参考梅尔频谱图(118),并且所述预测音频特征(120)包括预测梅尔频谱图(118)。
22.根据权利要求13至21中的任一项所述的系统(100),其中:
所述参考音频特征(402)序列对应于参考时域音频波形;
所述多个时间步中的每个时间步对应于预测音频波形(119)中的相应时间;以及
针对所述多个时间步中的每个时间步生成的所述对应预测音频特征(120)包括在所述对应时间步处的所述预测音频波形(119)的幅度值。
23.根据权利要求13至22中的任一项所述的系统(100),其中,所述TTS模型(108)包括编码器神经网络(110)、注意力网络(113)和解码器神经网络(114)。
24.根据权利要求13至23中的任一项所述的系统(100),其中,所述TTS模型(108)包括具有单帧同步神经网络的参数合成器模型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2019/066370 WO2021118604A1 (en) | 2019-12-13 | 2019-12-13 | Training speech synthesis to generate distinct speech sounds |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114787913A true CN114787913A (zh) | 2022-07-22 |
Family
ID=69173409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980102911.6A Pending CN114787913A (zh) | 2019-12-13 | 2019-12-13 | 训练语音合成以生成不同的语音声音 |
Country Status (6)
Country | Link |
---|---|
US (1) | US12087272B2 (zh) |
EP (1) | EP4052251A1 (zh) |
JP (1) | JP7257593B2 (zh) |
KR (1) | KR102625184B1 (zh) |
CN (1) | CN114787913A (zh) |
WO (1) | WO2021118604A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021127811A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、装置、智能终端及可读介质 |
US20210350788A1 (en) * | 2020-05-06 | 2021-11-11 | Samsung Electronics Co., Ltd. | Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device |
US11790884B1 (en) * | 2020-10-28 | 2023-10-17 | Electronic Arts Inc. | Generating speech in the voice of a player of a video game |
CN113362811B (zh) * | 2021-06-30 | 2023-03-24 | 北京有竹居网络技术有限公司 | 语音识别模型的训练方法、语音识别方法和装置 |
CN113838452B (zh) * | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN113450758B (zh) * | 2021-08-27 | 2021-11-16 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置、设备及介质 |
WO2023034441A1 (en) * | 2021-09-01 | 2023-03-09 | Exa Health, Inc. | Imaging test strips |
CN114360490B (zh) * | 2022-01-26 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08508127A (ja) | 1993-10-15 | 1996-08-27 | エイ・ティ・アンド・ティ・コーポレーション | システムをトレーニングする方法、その結果得られる装置、およびその使用方法 |
US6134528A (en) | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
WO2004023455A2 (en) * | 2002-09-06 | 2004-03-18 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US10249289B2 (en) * | 2017-03-14 | 2019-04-02 | Google Llc | Text-to-speech synthesis using an autoencoder |
EP3625791A4 (en) | 2017-05-18 | 2021-03-03 | Telepathy Labs, Inc. | TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE |
JP6806662B2 (ja) * | 2017-12-15 | 2021-01-06 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 |
-
2019
- 2019-12-13 CN CN201980102911.6A patent/CN114787913A/zh active Pending
- 2019-12-13 JP JP2022535634A patent/JP7257593B2/ja active Active
- 2019-12-13 EP EP19839006.4A patent/EP4052251A1/en active Pending
- 2019-12-13 WO PCT/US2019/066370 patent/WO2021118604A1/en unknown
- 2019-12-13 US US17/756,995 patent/US12087272B2/en active Active
- 2019-12-13 KR KR1020227023850A patent/KR102625184B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US12087272B2 (en) | 2024-09-10 |
EP4052251A1 (en) | 2022-09-07 |
WO2021118604A1 (en) | 2021-06-17 |
JP2022551771A (ja) | 2022-12-13 |
KR20220113780A (ko) | 2022-08-16 |
JP7257593B2 (ja) | 2023-04-13 |
KR102625184B1 (ko) | 2024-01-16 |
US20230009613A1 (en) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
US12087272B2 (en) | Training speech synthesis to generate distinct speech sounds | |
CN113892135A (zh) | 多语言语音合成和跨语言话音克隆 | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
JP7502561B2 (ja) | 言語間音声合成を改良するための音声認識の使用 | |
US20240273311A1 (en) | Robust Direct Speech-to-Speech Translation | |
WO2023023434A1 (en) | Improving speech recognition with speech synthesis-based model adaption | |
WO2023183010A1 (en) | Using non-parallel voice conversion for training a speech recognition model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |