CN115836300A - 用于文本到语音的自训练WaveNet - Google Patents

用于文本到语音的自训练WaveNet Download PDF

Info

Publication number
CN115836300A
CN115836300A CN202180046393.8A CN202180046393A CN115836300A CN 115836300 A CN115836300 A CN 115836300A CN 202180046393 A CN202180046393 A CN 202180046393A CN 115836300 A CN115836300 A CN 115836300A
Authority
CN
China
Prior art keywords
neural network
autoregressive
speech samples
trained
synthesized speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180046393.8A
Other languages
English (en)
Inventor
马尼什·夏玛
汤姆·马里厄斯·肯特
罗伯特·克拉克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN115836300A publication Critical patent/CN115836300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

自训练WaveNet的方法(300)包括接收多个记录语音样本(242)并且使用多个记录语音样本训练第一自回归神经网络(210)。训练后的第一自回归神经网络被配置成输出(212)合成语音作为文本输入的可听表示。该方法进一步包括使用训练后的第一自回归神经网络生成多个合成语音样本(252)。该方法另外包括使用来自训练后的第一自回归神经网络的多个合成语音样本训练第二自回归神经网络(220),并且将训练后的第二自回归神经网络提取为前馈神经网络(230)。

Description

用于文本到语音的自训练WaveNet
技术领域
本公开涉及用于文本到语音的自训练WaveNet。
背景技术
语音合成系统使用文本到语音(TTS)模型从文本输入生成语音。所生成/合成的语音应该准确地传达消息(可理解性),同时听起来像具有预期的韵律(表现力)的人类语音(自然度)。虽然传统的串联和参数合成模型能够提供可理解的语音,但语音的神经建模的最新进展已经显著地提高合成语音的自然度和保真度。然而,即使这些进步,这些神经网络模型的准确性往往取决于可用于教导神经网络模型如何合成语音的训练示例的语料库。因此,当存在有限数量的训练示例时,神经网络模型缺乏语音合成系统的用户期望或甚至要求的语音合成精度。随着语音合成系统(例如,个人助理)在日常人机交互中变得更加集成,这可能尤其真实。
发明内容
本公开的一个方面提供一种自训练WaveNet的方法。该方法包括在数据处理硬件处接收多个记录语音样本,并且由数据处理硬件使用多个记录语音样本训练第一自回归神经网络。训练后的第一自回归神经网络被配置成输出合成语音作为文本输入的可听表示。该方法进一步包括由数据处理硬件使用训练后的第一自回归神经网络生成多个合成语音样本。该方法另外包括由数据处理硬件使用来自训练后的第一自回归神经网络的多个合成语音样本训练第二自回归神经网络,并且由数据处理硬件将训练后的第二自回归神经网络提取为前馈神经网络。
本公开的另一方面提供自训练WaveNet的另一方法。该方法包括在数据处理硬件处接收多个记录语音样本,并且由数据处理硬件使用多个记录语音样本训练自回归神经网络。训练后的自回归神经网络被配置成输出合成语音作为文本输入的可听表示。该方法进一步包括由数据处理硬件使用训练后的自回归神经网络生成多个合成语音样本。该方法另外包括由数据处理硬件基于多个合成语音样本将训练后的自回归神经网络提取为前馈神经网络。
本公开的又另一方面提供一种自训练WaveNet系统。所述系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令,该指令当在数据处理硬件上执行时使数据处理硬件执行操作。该操作包括接收多个记录语音样本并且使用多个记录语音样本训练第一自回归神经网络。训练后的第一自回归神经网络被配置成输出合成语音作为文本输入的可听表示。该操作进一步包括使用训练后的第一自回归神经网络生成多个合成语音样本。该操作另外包括使用来自训练后的第一自回归神经网络的多个合成语音样本训练第二自回归神经网络,并且将训练后的第二自回归神经网络提取为前馈神经网络。
本公开中的任一个的实施方案可以包括以下任选特征中的一个或多个。在一些实施方案中,第二自回归神经网络包括与第一自回归神经网络不同的自回归神经网络或与第一自回归神经网络相同的自回归神经网络。当第一和第二自回归神经网络相同时,使用多个合成语音样本训练第二子回归神经网络包括使用多个合成语音样本重新训练第一自回归神经网络。在一些示例中,多个记录语音样本包括相应数目的记录语音样本并且多个合成语音样本包括相应数目的合成语音样本,记录语音样本的相应数目小于合成语音样本的相应数目。在这些示例中,合成语音样本的相应数目可以比记录语音样本的相应数目大至少一倍。
在一些配置中,将训练后的第二自回归神经网络提取成前馈神经网络包括基于来自训练后的第二自回归神经网的概率分布来训练前馈神经网络。在这些配置中,训练前馈神经网络包括基于前馈神经网络与第二自回归神经网络之间的Kullback-Leibler(KL)散度优化损失函数。该损失函数可以包括前馈神经网络与第二自回归神经网络之间的KL散度、均方误差、音素分类误差和对比损失的加权和。
在一些实施方案中,前馈神经网络被配置成在不了解一个或多个先前合成语音输出的情况下输出合成语音。第二自回归神经网络和前馈网络中的每一个可以包括多个扩张残余块,其中每个扩张残余块包括扩张卷积层。前馈网络可以包括多个逆自回归流(IAF)。当前馈网络包括多个逆自回归流(IAF)时,多个IAF流中的每个IAF流包括一个或多个扩张残余块,其中每个扩张残余块包括扩张卷积层。
下文在附图和具体实施方式中阐述本公开的一个或多个实施方案的细节。其它方面、特征和优点将从具体实施方式和附图以及从权利要求书变得显而易见。
附图说明
图1是示例语音环境的示意图。
图2是用于图1的语音环境的语音合成系统的示例自训练模型的示意图。
图3和4是用于文本到语音的自训练WaveNet的方法的操作的示例布置的流程图。
图5是可以用于实现本文中所描述的系统和方法的示例计算装置的示意图。
在各个附图中的相同的附图标记指示相同的元件。
具体实施方式
深度神经网络已经越来越多地被用于提高计算装置理解自然语音的能力。然而,除了理解自然语音之外,人们经常与计算装置进行交互,期望计算装置(例如,语音启用装置)生成合成语音作为响应。例如,语音启用装置的用户向语音启用装置提交查询,或请求语音启用装置基于某种形式的文本生成语音。为了向用户输出响应,语音启用装置采用语音合成系统或文本到语音(TTS)系统。随着时间的推移,语音合成已经从串联或统计参数合成转向由深度神经网络模型执行的合成。在这一转变过程中,语音合成或TTS系统已经发展到产生与人类相当的高保真音频。
WaveNet是一种已经证明是生成看似真实语音的流行选择的模型。WaveNet最初是指生成原始音频波形的深度神经网络。在最初开发时,WaveNet是一个完全概率和自回归的模型,其中音频样本的预测分布取决于所有先前的音频样本分布(即,使用的祖先采样)。作为自回归网络,WaveNet使用扩张卷积对语音样本的概率分布进行建模。例如,WaveNet的卷积层具有各种扩张因子以允许接收场随深度呈指数增长,以便覆盖数千个时间步长。通过卷积层,WaveNet能够并行处理其输入;与基于递归神经网络的模型相比,能够更快地训练其架构。然而,尽管WaveNet被证明能够对数千个原始音频样本进行建模,但作为自回归网络,WaveNet被证明在实时语音合成的推理过程中太慢。与能够并行地执行的训练不同,在推断或生成波形期间,完全自回归WaveNet以顺序方式生成合成输出。例如,WaveNet仅能够以每秒172个时间步长生成语音。虽然这种比实时推断速度慢的速度对于离线合成语音生成来说可接受,但是对于实时应用来说,完全自回归WaveNet被证明太慢。
为了补救缓慢的推理速度,WaveNet的并行变体(称为Parallel WaveNet)出现,从而以比实时语音更快的速率产生音频,同时保持原始自回归WaveNet的高保真和真实的语音方式。为了能够在以实时语音速率的推断过程中生成合成音频,Parallel WaveNet将原始自回归WaveNet的自回归网络提取为在以下文档中描述的并行前馈神经网络:van denOord,Parallel WaveNet:Fast High-Fidelity Speech Synthesis(快速高保真语音合成),其可在https://arxiv.org/pdf/1711.10433.pdf获得并通过引用并入本文。这里,自回归网络被称为“教师”网络(或自回归教师),因为前馈网络由自回归网络教导;因此,前馈网络也被称为“学生”网络或前馈学生网络。换句话说,Parallel WaveNet使用已经训练的自回归神经网络作为教师网络来训练学生网络。在这方面,Parallel WaveNet利用自回归WaveNet的并行训练速度,但生成不依赖于祖先采样的前馈网络(例如,类似于训练后的自回归教师网络)。作为前馈网络,学生网络此后能够隐式地推断先前时间步长的输出,而不需要这些输出的实际知识。利用这种教师-学生架构,Parallel WaveNet能够以每秒约500000个时间步长生成样本;解决完全自回归WaveNet的速度缺陷。
不幸的是,Parallel WaveNet并非没有缺点。一个这种缺点是Parallel WaveNet需要大量记录语音数据来产生高质量的学生网络。例如,WaveNet的单说话者版本已显示需要大约24小时的记录语音以形成高保真学生网络。此外,诸如单说话者Tacotron的其它神经声码器在训练更多话语(例如25000个话语)时比训练更少话语(例如15000或甚至8000个话语)时具有更高的保真度。然而,不可避免地存在大量记录语音数据不可用的情况。当教师网络利用少量记录语音数据训练学生网络时,合成输出可能包含诸如静态噪声的伪影,当记录语音区域的较少训练样本可用时,这些伪影变得更加突出。
由于语音合成模型并不总是具有大量记录语音数据,因此从低数据机制生成高保真音频的WaveNet版本将提高WaveNet的鲁棒性和/或通用性。此处,为了进一步发展WaveNet以使其在低数据机制下有效,自训练模型利用由自回归WaveNet产生的高保真音频和Parallel WaveNet的比实时更快的合成能力。换句话说,在低数据机制下,ParallelWaveNet可以在由自回归WaveNet教师合成的语音上进行训练,以形成自训练模型(即,自训练WaveNet)。通过从自回归教师网络生成高保真合成语音数据以训练学生网络,自训练WaveNet能够在低量记录语音可用时训练学生网络,而不损害保真度。这里,自训练是指使用已经训练的系统在未看到的输入示例上生成输出并将这些生成的输出用作后续训练/再训练的目标的技术。使用自训练方法,由训练后的自回归教师网络生成的高保真合成语音样本训练(或提取)前馈学生网络。这种方法利用自回归WaveNet(例如,自回归教师网络)产生高质量合成示例的事实;从而允许自训练技术不响应于合成示例而进一步使学生网络退化。
参考图1,在一些实施方案中,语音环境100包括用户10将口头话语12传送到语音启用装置110(还称为装置110或用户装置110)。用户10(即,话语12的说话者)可以说出话语12作为从装置110请求响应的查询或命令。装置110被配置成从语音环境100内的一个或多个用户10捕获声音。这里,音频声音可以指由用户10说出的话语12,该话语用作可听查询、装置110的命令,或由装置110捕获的可听通信。装置110的或与装置110相关联的语音启用系统可以通过回答查询和/或使命令被执行来字段化命令的查询。
这里,装置110捕获由用户10说出的话语12的音频信号202(还称为音频数据)。装置110可以对应于与用户10相关联的任何计算装置并且能够接收音频信号202。用户装置110的一些示例包括但不限于移动装置(例如,移动电话、平台计算机、膝上型计算机等)、计算机、可穿戴装置(例如,智能手表)、智能电器和物联网(IoT)装置、智能扬声器等。装置110包括数据处理硬件112和存储器硬件114,该存储器硬件与数据处理硬件112通信并且存储指令,该指令在由数据处理硬件112执行时使数据处理硬件112执行一个或多个操作。在一些示例中,装置110包括一个或多个应用程序(即,软件应用程序),其中每个应用程序可以利用与装置110相关联的一个或多个语音处理系统140、150、200以执行应用程序内的各种功能。例如,装置110包括辅助应用程序,该辅助应用程序被配置成将合成播放音频154传送到用户10以辅助用户10进行各种任务。
装置110进一步包括音频子系统,该音频子系统具有:音频捕获装置(例如,麦克风)116,其用于捕获语音环境100内的口头话语12并且将口头话语转换成电信号;以及语音输出装置(例如,扬声器)118,其用于传送可听音频信号(例如,来自装置110的合成播放信号154)。虽然装置110在所示示例中实现单个音频捕获装置116,但是装置110可以在不偏离本公开的范围的情况下实现音频捕获装置116的阵列,由此阵列中的一个或多个音频捕获装置116可以物理上不驻留在装置110上,而是与音频子系统(例如,装置110的外围设备)通信。例如,装置110可以对应于利用位于整个车辆中的麦克风阵列的车辆信息娱乐系统。
此外,装置110被配置成经由网络120与远程系统130通信。远程系统130可以包括远程资源132,诸如远程数据处理硬件134(例如,远程服务器或CPU)和/或远程存储器硬件136(例如,远程数据库或其它存储硬件)。装置110可以利用远程资源132以执行与语音处理和/或合成播放通信相关的各种功能。例如,装置110被配置成使用语音识别系统140执行语音识别和/或使用TTS系统150(例如,使用自训练模型200)将文本转换为语音。这些系统140、150、200可以驻留在装置110上(称为装置上系统)或远程地驻留(例如,驻留在远程系统130上),但与装置110通信。在一些示例中,这些系统140、150、200中的一些驻留在本地或装置上,而其它系统远程地驻留。换句话说,这些系统140、150、200中的任一个可以是本地或远程的任何组合。例如,当系统140、150、200在尺寸或处理需求方面相当大时,系统140、150、200可以驻留在远程系统130中。然而,当装置110可以支持一个或多个系统140、150、200的尺寸或处理需求时,一个或多个系统140、150、200可以使用数据处理硬件112和/或存储器硬件114驻留在装置110上。任选地,系统140、150、200中的一个或多个可以驻留在本地/装置上以及远程地驻留。例如,当装置110与远程系统130之间到网络120的连接可用时,系统140、150、200中的一个或多个可以默认在远程系统130上执行,但是当连接丢失或网络120不可用时,系统140、150、200替代地在装置110上本地执行。
语音识别系统140接收音频信号202作为输入,并且将该音频信号转录为转录142作为输出。一般来说,通过将音频信号202转换为转录142,语音识别系统140允许装置110识别来自用户10的口头话语12何时对应于查询、命令或某种其它形式的音频通信。转录142是指装置110随后可以用于生成对查询或命令的响应的文本序列。例如,如果用户10向装置110询问问题“what will the weather be like today(今天天气怎么样)”,则装置110将与问题“今天天气怎么样”相对应的音频信号传递到语音识别系统140。语音识别系统140将音频信号转换成包括文本“今天天气怎么样?”的转录。装置110随后可以使用文本或文本的部分确定对查询的响应。例如,为了确定当天(即,今天)的天气,装置110将本文(例如,“今天天气怎么样?”)或本文的标识部分(例如,“天气”和“今天”)传递到搜索引擎。搜索引擎然后可以返回一个或多个搜索结果,装置110解释该搜索结果以生成用户10的响应。
在一些实施方案中,装置110或与装置110相关联的系统标识装置110将传送到用户10的文本152,作为对口头话语12的查询的响应。装置110然后可以使用TTS系统150将文本152转换成对应合成播放音频154,以便装置110传送到用户10(例如,可听地传送到用户10),作为对口头话语12的查询的响应。换句话说,TTS系统150接收文本152作为输入并且将文本152转换成合成播放音频154的输出,其中合成播放音频154是定义文本152的可听再现的音频信号。这里,TTS系统150(或其它语音合成系统)包括自训练模型200(例如,图2的自训练模型),该自训练模型利用深度神经网络(例如,自训练WaveNet)以生成合成播放音频154。一旦生成,TTS系统150就将合成播放音频154传送到装置110以允许装置110输出合成播放音频154。例如,装置110在装置110的扬声器118处输出合成播放音频154“today issunny(今天是晴天)”。
参考图2,TTS系统150包括作为神经声码器的自训练模型200,以便生成合成播放音频154。作为神经声码器,自训练模型200可以以编码语言和/或韵律信息的特征为条件。这里,语言条件可以包括音素、音节、单词、短语和/或话语水平特征。在一些示例中,这些特征通过文本规范化(例如,静态基于规则的文本规范化)结合基于规则的特征计算导出。韵律调节可以由诸如分层变分自动编码器的自动编码器提供。自动编码器还可以使用语言调节来生成每帧基本频率作为输出。
在例如图2的一些实施方案中,自训练模型200包括第一教师网络210、第二或合成教师网络220和合成学生网络230。每个网络210、220、230可以具有扩张残余块作为其(多个)组成单元。在一些示例中,扩张残余块包括一个或多个卷积层。例如,网络210、220、230的扩张残余块对应于十个卷积层(例如,每层增加因子2)。在一些配置中,教师网络210、220包括三个扩张残余块,而学生网络230包括四个逆自回归流(IAF),其中每个IAF可以具有一些数目的残余块。例如,第一、第二和第三IAF各自包括一个扩张块,而第四IAF包括三个扩张残余块。
如通过图2描绘,该自训练模型200与不利用合成语音训练的常规ParallelWaveNet形成对比。通常,训练Parallel WaveNet的常规方法是两步骤过程。在第一步骤中,训练自回归教师网络以基于记录语音的先前样本对样本的概率分布进行建模。这里,由于所有记录语音样本都可用,因此训练可能与教师强迫技术并行进行。在用于训练常规Parallel WaveNet的第二步骤期间,训练过程将自回归教师网络的密度分布提取为前馈学生网络。提取通常指使用预训练网络训练神经网络的过程。使用提取,可以减少对期望输出不太关键(例如,类似于自重)的预训练网络的神经元,以形成更精简的神经网络(即,提取的神经网络)。当与预训练网络相比时,提取可以使提取的神经网络能够更准确和/或更紧凑。换句话说,当形成预训练网络时,预训练网络可能已经形成神经元,这最终导致在预训练网络的训练完成时对期望输出的影响较小;因此,预训练网络包括可以被移除或被修改以减少这些神经元的任何有害影响或移除不必要的神经元的神经元。
在一些示例中,自训练模型200包括用作自回归神经网络的第一教师210。与常规Parallel WaveNet非常相似,第一教师210使用来自记录语音样本242的总量240(例如,显示为数据库或其它类型的音频数据存储库)的记录语音样本242、242a–n进行训练。然而,这里,当记录语音样本242的数目相对较低(即,低数据机制)时,可以利用自训练模型200。例如,低数据机制指记录语音样本242的总量240小于两万五千个样本(即,Parallel WaveNet的记录样本242的健康量),但大于五千个样本(例如,Parallel WaveNet的记录样本242的不健康量)。在一些示例中,低数据机制在五千到一万五千个记录语音样本242之间。即使低数据机制具有较少的记录语音样本242,第一教师210也利用记录语音样本242进行训练以形成训练后的第一教师210。
利用训练后的第一教师210,自训练模型200使训练后的第二教师210生成合成语音样本252、252a–n的总量250作为输出212。在一些实施方案中,合成语音样本252的生成是能够离线执行的一次性处理任务,这对训练后的教师210生成的合成语音样本252的数量几乎没有限制。在一些配置中,自训练模型200使用来自Parallel WaveNet的训练后的自回归教师而不是前馈学生(例如,如图2中的虚线框所示)来生成合成语音样本252,因为自回归教师网络210生成252具有比前馈学生网络更高的保真度的合成语音样本。因此,虽然也可以利用Parallel WaveNet的前馈学生网络生成合成语音样本,但这可能损害自训练模型200的保真度。
在一些示例中,利用TTS系统150,自训练模型200被配置为从容易获得的文本样本(例如,来自TTS系统150的文本152)生成合成语音样本252。在一些配置中,文本样本可以是未标记文本样本。教师210可以从文本样本语料库生成合成语音样本252,该文本样本语料库对合成语音样本252的语言具有足够的语音覆盖。在一些示例中,合成语音样本252经历修剪过程,以防止合成学生230使用有噪声或损坏的合成语音样本252(即,将对学习有害的合成语音样本252)进行学习。例如,为了避免合成语音样本252包括关于音素分布的偏差的问题,可以将脚本选择方法应用于生成的合成语音样本252的数据集。另外或替代地,在生成合成语音样本252的过程期间或之后,训练过程可以生成合成语音样本252的音素对齐。通过生成合成语音样本252的音素对齐,修剪过程可以拒绝产生低于特定阈值(即,最小允许对齐分数)的音素对齐分数的合成语音样本252。换句话说,音素对齐分数可以指示哪些合成语音样本252可能需要从将被用于训练合成教师220(或者,在一些情况下,重新训练教师210)的合成语音样本252的训练集合中进行修剪。
在一些配置中,一旦训练后的教师210生成合成语音样本252,模型训练过程就使用合成语音样本252来训练合成教师220。例如,模型训练过程使用训练数据集,该训练数据集包括在修剪过程中幸存的合成语音样本252。这里,合成教师220的训练过程与第一教师210的训练过程相同,除了训练过程使用合成语音样本252而不是记录语音样本242。利用该训练过程,当与少量记录语音样本252相比时,合成教师220可以利用大样本集(即,合成语音样本252)进行训练。例如,教师210生成多达两万五千至五万个合成语音样本,而低数据机制包括此数量的一小部分(例如,五千至一万五千个记录语音样本242之间);因此,即使第一教师210和合成教师220都是自回归神经网络,合成教师220也在比训练教师210的语音数据量大一倍或更多倍的语音数据量上进行训练。
任选地,在一些示例中,训练过程使用合成语音样本252来训练或提取学生230,而不训练合成教师220。虽然这种方法可行,但可能并不理想。这是特别正确的,因为为了生成合成语音样本252,训练后的教师210仅在相对少量的记录语音样本242上进行训练。这意味着立即训练学生230很可能不具有合成学生230在由已经利用较大数据机制(例如,合成语音样本252)训练的教师(例如,合成教师220)训练时所具有的保真度水平。另外或替代地,第一教师210和第二教师或合成教师220可以是相同神经网络。换句话说,合成教师220仅是已经使用合成语音样本252重新训练的教师210,使得形成教师210的神经网络随后已经在更大的语音样本语料库上进行重新训练。
当已经训练合成教师220时,随后可以将训练后的合成教师230提取成合成学生230。这意味着训练后的合成教师230根据对应于合成语音的概率分布训练合成学生230。由训练后的合成教师220进行的训练过程将合成教师220提取成前馈合成学生230。作为前馈神经网络,与Parallel WaveNet的前馈学生非常类似的合成学生230能够生成合成语音的输出(例如,合成播放音频154),而不需要在推断期间了解一个或多个先前合成语音输出(例如,类似于自回归网络)。尽管通常关于单个说话者描述训练过程,但是模型200的训练过程可以针对多个说话者进行缩放。例如,当模型200用于多个说话者时,合成教师220提取多个说话者中的每个说话者的合成学生230,使得用于多个说话者的模型200包括多个合成学生230(例如,与多个说话者的数目成比例)。
在一些实施方案中,训练过程通过优化损失函数来训练模型200的组件。例如,为了训练任一个教师模型210、220,训练过程可以使用表示为预测混合分布的负对数似然的损失函数。在一些示例中,提取过程使用基于Kullback-Leibler(KL)散度的损失函数来训练学生230。例如,损失函数基于学生230(例如,前馈神经网络)与合成教师220(例如,由合成语音样本252训练的自回归神经网络)之间的KL散度。在一些配置中,提取过程利用损失函数训练学生230,该损失函数是若干不同损失函数(或误差)的加权和,不同损失函数诸如KL散度(例如,在学生230与合成教师220分布之间)、均方误差(例如,移动窗口中的预测和目标信号功率之间)、音素分类误差,和/或对比损失,该对比损失最大化当以正确调节获得时学生230与教师220之间的概率分布的KL散度与当以不正确调节获得时学生230与教师220之间的概率分布的KL散度之间的差。
图3是用于自训练WaveNet的方法的操作的示例布置的流程图。在操作302处,方法300接收多个记录语音样本242。在操作304处,方法300使用多个记录语音样本242训练第一自回归神经网络210。训练后的第一自回归神经网络210被配置成输出合成语音作为文本输入的可听表示。在操作306处,方法300使用训练后的第一自回归神经网络210生成多个合成语音样本252。在操作308处,方法300使用来自训练后的第一自回归神经网络210的多个合成语音样本252训练第二自回归神经网络220。在操作310处,方法300将训练后的第二自回归神经网络220提取为前馈神经网络230。
图4是用于自训练WaveNet的另一方法的操作的示例布置的另一流程图。在操作402处,方法400接收多个记录语音样本242。在操作404处,方法300使用多个记录语音样本242训练自回归神经网络210。训练后的自回归神经网络210被配置成输出合成语音作为文本输入的可听表示。在操作406处,方法400使用训练后的自回归神经网络210生成多个合成语音样本252。在操作408处,方法400将训练后的自回归神经网络210提取为前馈神经网络230。
图5是示例计算装置500的示意图,该计算装置可以被用于实现在本文档中描述的系统(例如,语音识别系统140、TTS系统150,和/或自训练模型200)和方法(例如,方法300、400)。计算装置500预期表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它合适的计算机。这里所示的组件、组件的连接和关系,以及组件的功能意味着仅仅是示例性的,并且并不意味着限制本文档中描述和/或要求保护的发明的实施。
计算装置500包括处理器510(例如,数据处理硬件)、存储器520(例如,存储器硬件)、存储装置530、连接到存储器520和高速扩展端口550的高速接口/控制器540,以及连接到低速总线570和存储装置530的低速接口/控制器560。组件510、520、530、540、550和560中的每一个使用各种总线互连,并且组件可以被安装在通用母板上或视情况以其它方式安装。处理器510能够处理用于在计算装置500内执行的指令,包括存储于存储器520中或存储装置530上以将图形用户界面(GUI)的图形信息显示在外部输入/输出装置,诸如耦合到高速接口540的显示器580上的指令。在其它实施方案中,多个处理器和/或多个总线可以视情况与多个存储器以及多种类型的存储器一起使用。而且,可以连接多个计算装置500,其中每个装置提供必要操作的部分(例如,作为服务器组、刀片服务器群组,或多处理器系统)。
存储器520将信息非暂时性地存储在计算装置500内。存储器520可以是计算机可读介质、(多个)易失性存储器单元,或(多个)非易失性存储器单元。非暂时性存储器520可以是用于临时地或永久地存储程序(例如,指令序列)或数据(例如,程序状态信息)以供计算装置500使用的物理装置。非易失性存储器的示例包括但不限于快闪存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读内存(EPROM)/电子可擦除可编只读存储器(EEPROM)(例如,通常用于固件,诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。
存储装置530能够为计算装置500提供大容量存储。在一些实施方案中,存储装置530是计算机可读介质。在各种不同实施方案中,存储装置530可以是软盘装置、硬盘装置、光盘装置,或磁带装置、快闪存储器或其它类似的固态存储器装置,或装置的阵列,包括存储区域网络或其它配置中的装置。在另外的实施方案中,计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令,该指令在执行时执行一个或多个方法,诸如上述那些方法。信息载体是计算机或机器可读介质,例如,存储器520、存储装置530,或处理器510上的存储器。
高速控制器540管理计算装置500的超带宽操作,而低速控制器560管理较低超带宽操作。这种职责分配仅仅是示例性的。在一些实施方案中,高速控制器540耦合到存储器520、显示器580(例如,通过图形处理器或加速计),以及可以接受各种扩展卡(未示出)的高速扩展端口550。在一些实施方案中,低速控制器560被耦合到存储装置530和低速扩展端口590。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口590可以例如通过网络适配器耦合到一个或多个输入/输出装置,诸如键盘、指向装置、扫描仪,或例如交换机或路由器的联网装置。
如图所示,计算装置500可以通过多种不同形式实现。例如,计算装置可以被实现为标准服务器500a,或多次实现于此类服务器500a的组中、实现为膝上型计算机500b,或实现为机架服务器系统500c的一部分。
本文中描述的系统和技术的各种实施方案能够在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件,和/或它们组合中实现。这些各种实施方案能够包括在一个或多个计算机程序中的实施方案,该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以出于专用或通用目的耦合以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令,并将数据和指令传输到存储系统、至少一个输入装置和至少一个输出装置。
这些计算机程序(还称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且能够用高级程序化和/或面向对象的编程语言,和/或用汇编/机器语言实现。如本文中所使用的,术语“机器可读介质”和“计算机可读介质”指用于将机器指令和/或数据提供到可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、设备和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指用于将机器指令和/或数据提供到可编程处理器的任何信号。
本说明书中描述的过程和逻辑流能够由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过在输入数据上操作并且生成输出来执行功能。过程和逻辑流还能够通过专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行。举例来说,适用于执行计算机程序的处理器包括通用微处理器和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器,以及用于存储指令和数据的一个或多个存储器装置。通常,计算机还将包括用于存储数据的一个或多个大容量存储装置(例如,磁盘、磁光盘或光盘),或可操作地耦合以从该一个或多个大容量存储装置接收数据或将数据传递到该一个或多个大容量存储装置,或两者。然而,计算机不必须具有这种装置。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置,包括例如,半导体存储器装置,例如,EPROM、EEPROM和快闪存储器装置;磁盘,例如,内部硬盘或可移动磁盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本公开的一个或多个方面能够在具有显示装置,例如,CRT(阴极射线管)或LCD(液晶显示器)监测器,或触摸屏,的计算机上实现,以用于将信息显示给用户以及任选地键盘和指向装置(例如,鼠标或轨迹球),用户可以通过键盘和指向装置将输入提供到计算机。其它种类的装置也能够被用于提供与用户的交互;例如,提供给用户的反馈能够是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;以及来自用户的输入能够以任何形式接收,包括声音、语音或触觉输入。另外,通过将文档发送到由用户使用的装置以及从该装置接收文档;例如,通过响应于从网络浏览器接收的请求而将网页发送到用户的客户端装置上的网络浏览器,计算机能够与用户交互。
已经描述多个实施方案。然而,应理解,在不脱离本公开的精神和范围的情况下可以进行各种修改。因此,其它实施方案在所附权利要求书的范围内。

Claims (21)

1.一种方法(300),包括:
在数据处理硬件(134)处接收多个记录语音样本(242);
由所述数据处理硬件(134)使用所述多个记录语音样本(242)训练第一自回归神经网络(210),训练后的第一自回归神经网络(210)被配置成输出(212)合成语音作为文本输入(152)的可听表示;
由所述数据处理硬件(134)使用所述训练后的第一自回归神经网络(210)生成多个合成语音样本(252);
由所述数据处理硬件(134)使用来自所述训练后的第一自回归神经网络(210)的所述多个合成语音样本(252)训练第二自回归神经网络(220);以及
由所述数据处理硬件(134)将训练后的第二自回归神经网络(220)提取为前馈神经网络(230)。
2.根据权利要求1所述的方法(300),其中,所述第二自回归神经网络(220)包括以下各项中的一个:
与所述第一自回归神经网络(210)不同的自回归神经网络;或
与所述第一自回归神经网络相同的自回归神经网络,使得使用所述多个合成语音样本(252)训练所述第二自回归神经网络(220)包括使用所述多个合成语音样本(252)重新训练所述第一自回归神经网络(210)。
3.根据权利要求1或2所述的方法(300),其中,所述多个记录语音样本(242)包括相应数目的记录语音样本(242)并且所述多个合成语音样本(252)包括相应数目的合成语音样本(252),所述记录语音样本(242)的相应数目小于所述合成语音样本(252)的相应数目。
4.根据权利要求3所述的方法(300),其中,所述合成语音样本(252)的相应数目比所述记录语音样本(242)的相应数目大至少一倍。
5.根据权利要求1至4中的任一项所述的方法(300),其中,将所述训练后的第二自回归神经网络(220)提取为所述前馈神经网络(230)包括通过基于所述前馈神经网络(230)与所述第二自回归神经网络(220)之间的Kullback-Leibler KL散度来优化损失函数,基于来自所述训练后的第二自回归神经网络(220)的概率分布训练所述前馈神经网络(230)。
6.根据权利要求5所述的方法(300),其中,所述损失函数包括所述前馈神经网络(230)与所述第二自回归神经网络(220)之间的所述KL散度、均方误差、音素分类误差和对比损失的加权和。
7.根据权利要求1至6中的任一项所述的方法(300),其中,所述前馈神经网络(230)被配置成在不了解一个或多个先前合成语音输出的情况下输出(212)合成语音。
8.根据权利要求1至7中的任一项所述的方法(300),其中,所述第二自回归神经网络(220)和所述前馈神经网络(230)中的每一个包括多个扩张残余块,每个扩张残余块包括扩张卷积层。
9.根据权利要求1至8中的任一项所述的方法(300),其中,所述前馈神经网络(230)包括多个逆自回归流IAF。
10.根据权利要求9所述的方法(300),其中,所述多个IAF流中的每个IAF流包括一个或多个扩张残余块,每个扩张残余块包括扩张卷积层。
11.一种系统(130),包括:
数据处理硬件(134);以及
存储器硬件(136),所述存储器硬件(136)与所述数据处理硬件(134)通信,所述存储器硬件(136)存储指令,所述指令在所述数据处理硬件(134)上执行时使所述数据处理硬件(134)执行操作,所述操作包括:
接收多个记录语音样本(242);
使用所述多个记录语音样本(242)训练第一自回归神经网络(210),训练后的第一自回归神经网络(210)被配置成输出(212)合成语音作为文本输入(152)的可听表示;
使用所述训练后的第一自回归神经网络(210)生成多个合成语音样本(252);
使用来自所述训练后的第一自回归神经网络(210)的所述多个合成语音样本(252)训练第二自回归神经网络(220);以及
将训练后的第二自回归神经网络(220)提取为前馈神经网络(230)。
12.根据权利要求11所述的系统(130),其中,所述第二自回归神经网络(220)包括以下各项中的一个:
与所述第一自回归神经网络(210)不同的自回归神经网络;或
与所述第一自回归神经网络相同的自回归神经网络,使得使用所述多个合成语音样本(252)训练所述第二自回归神经网络(220)包括使用所述多个合成语音样本(252)重新训练所述第一自回归神经网络(210)。
13.根据权利要求11或12所述的系统(130),其中,所述多个记录语音样本(242)包括相应数目的记录语音样本(242)并且所述多个合成语音样本(252)包括相应数目的合成语音样本(252),所述记录语音样本(242)的相应数目小于所述合成语音样本(252)的相应数目。
14.根据权利要求13所述的系统(130),其中,所述合成语音样本(252)的相应数目比所述记录语音样本(242)的相应数目大至少一倍。
15.根据权利要求11至14中的任一项所述的系统(130),其中,将所述训练后的第二自回归神经网络(220)提取为前馈神经网络(230)包括通过基于所述前馈神经网络(230)与所述第二自回归神经网络(220)之间的Kullback-Leibler KL散度来优化损失函数,基于来自所述训练后的第二自回归神经网络(220)的概率分布训练所述前馈神经网络(230)。
16.根据权利要求15所述的系统(130),其中,所述损失函数包括所述前馈神经网络(230)与所述第二自回归神经网络(220)之间的所述KL散度、均方误差、音素分类误差和对比损失中的至少两项的加权和。
17.根据权利要求11至16中的任一项所述的系统(130),其中,所述前馈神经网络(230)被配置成在不了解一个或多个先前合成语音输出的情况下输出(212)合成语音。
18.根据权利要求11至17中的任一项所述的系统(130),其中,所述第二自回归神经网络(220)和所述前馈神经网络(230)中的每一个包括多个扩张残余块,每个扩张残余块包括扩张卷积层。
19.根据权利要求11至18中的任一项所述的系统(130),其中,所述前馈神经网络(230)包括多个逆自回归流IAF。
20.根据权利要求19所述的系统(130),其中,所述多个IAF流中的每个IAF流包括一个或多个扩张残余块,每个扩张残余块包括扩张卷积层。
21.一种方法(400),包括:
在数据处理硬件(134)处接收多个记录语音样本(242);
由所述数据处理硬件(134)使用所述多个记录语音样本(242)训练自回归神经网络(210),训练后的自回归神经网络(210)被配置成输出(212)合成语音作为文本输入(152)的可听表示;
由所述数据处理硬件(134)使用所述训练后的自回归神经网络(210)生成多个合成语音样本(252);以及
由所述数据处理硬件(134)基于所述多个合成语音样本(252)将所述训练后的自回归神经网络(210)提取为前馈神经网络(230)。
CN202180046393.8A 2020-07-09 2021-05-03 用于文本到语音的自训练WaveNet Pending CN115836300A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/925,230 2020-07-09
US16/925,230 US11295725B2 (en) 2020-07-09 2020-07-09 Self-training WaveNet for text-to-speech
PCT/US2021/030479 WO2022010569A1 (en) 2020-07-09 2021-05-03 Self-training wavenet for text-to-speech

Publications (1)

Publication Number Publication Date
CN115836300A true CN115836300A (zh) 2023-03-21

Family

ID=76060005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180046393.8A Pending CN115836300A (zh) 2020-07-09 2021-05-03 用于文本到语音的自训练WaveNet

Country Status (6)

Country Link
US (1) US11295725B2 (zh)
EP (1) EP4154247A1 (zh)
JP (1) JP7393585B2 (zh)
KR (1) KR20230023773A (zh)
CN (1) CN115836300A (zh)
WO (1) WO2022010569A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI766575B (zh) * 2021-02-05 2022-06-01 國立陽明交通大學 提升構音患者語音轉換效益之系統及方法
CN114548221B (zh) * 2022-01-17 2023-04-28 苏州大学 小样本不均衡语音数据库的生成式数据增强方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5912194A (en) * 1996-08-30 1999-06-15 Kimberly Clark Corp. Permeable liquid flow control material
TWI767000B (zh) * 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US11200489B2 (en) * 2018-01-30 2021-12-14 Imubit Israel Ltd. Controller training based on historical data
CN108877765A (zh) 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
US11651211B2 (en) * 2019-12-17 2023-05-16 Adobe Inc. Training of neural network based natural language processing models using dense knowledge distillation

Also Published As

Publication number Publication date
JP7393585B2 (ja) 2023-12-06
EP4154247A1 (en) 2023-03-29
WO2022010569A1 (en) 2022-01-13
US11295725B2 (en) 2022-04-05
US20220013105A1 (en) 2022-01-13
JP2023528536A (ja) 2023-07-04
KR20230023773A (ko) 2023-02-17

Similar Documents

Publication Publication Date Title
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
EP3857543B1 (en) Conversational agent pipeline trained on synthetic data
Ghai et al. Literature review on automatic speech recognition
US11475874B2 (en) Generating diverse and natural text-to-speech samples
WO2023055410A1 (en) Contrastive siamese network for semi-supervised speech recognition
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
WO2023023434A1 (en) Improving speech recognition with speech synthesis-based model adaption
US20240135915A1 (en) Residual adapters for few-shot text-to-speech speaker adaptation
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training
US20230013587A1 (en) Advancing the Use of Text and Speech in ASR Pretraining With Consistency and Contrastive Losses
WO2024091526A1 (en) Residual adapters for few-shot text-to-speech speaker adaptation
Nakashe AUTOMATIC SPEECH RECOGNITION FOR AIR TRAFFIC CONTROL USING CONVOLUTIONAL LSTM
WO2024015140A1 (en) Unsupervised data selection via discrete speech representation for automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination