CN113313183A - 通过使用能量分值来训练语音合成神经网络 - Google Patents

通过使用能量分值来训练语音合成神经网络 Download PDF

Info

Publication number
CN113313183A
CN113313183A CN202110631060.3A CN202110631060A CN113313183A CN 113313183 A CN113313183 A CN 113313183A CN 202110631060 A CN202110631060 A CN 202110631060A CN 113313183 A CN113313183 A CN 113313183A
Authority
CN
China
Prior art keywords
audio output
spectrogram
training
audio
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110631060.3A
Other languages
English (en)
Inventor
蒂姆·萨利曼斯
阿列克谢·阿莱克谢耶维奇·格里岑科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN113313183A publication Critical patent/CN113313183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及通过使用能量分值来训练语音合成神经网络。方法、系统和装置,包括被编码在计算机存储介质上的计算机程序,用于训练生成性神经网络,以通过使用能量分值而将条件文本输入转换为音频输出。

Description

通过使用能量分值来训练语音合成神经网络
相关申请的交叉引用
本申请要求于2020年6月5日提交的美国临时申请No. 63/035,553的优先权。该在先申请的公开内容被认为是本申请的公开 内容的一部分,并且通过引用并入本申请的公开内容中。
技术领域
本申请与训练神经网络有关。
背景技术
神经网络是其中采用一个或多个非线性单元层来针对所接收的输 入而预测输出的机器学习模型。除了输出层之外,一些神经网络还包 括一个或多个隐藏层。每个隐藏层的输出被用作在所述网络中的一个 或多个其他层(即一个或多个其他隐藏层、输出层、或两者)的输入。 所述网络的每个层根据相应参数集的当前值,由所接收的输入来生成 输出。
发明内容
本说明书描述了一种被实施为在一个或多个位置中的一台或多台 计算机上计算机程序的系统,该系统训练被配置为生成输出音频数据 的神经网络。
在一些实施方式中,输出音频数据是包括在输出时间步序列的每 一个处的音频波样本的输出音频示例。在给定时间步处的音频样本可 以是音频波的幅度值,也可以是压缩或压扩的幅度值。
在一些其他实施方式中,输出音频数据是用于表示音频示例的频 谱图。在这些实施方式中,在推断时,系统可以处理所生成的频谱图 以生成相应的音频示例。例如,系统可以通过对生成的频谱图应用逆 频谱图变换,将生成的频谱图线性地投影到波形空间。
本说明书中描述的主题可以在特定实施例中实施,以便实现以下 优点中的一个或多个。
一些现有的语音合成系统依赖于对抗训练,即训练系统并行地训 练语音合成神经网络和一个或多个鉴别器。这些生成性对抗网络可能 难以训练,并且需要许多训练时期(epoch)才能收敛。使用能量分值 来确定参数更新,如本说明书中所述,允许了系统实现稳定训练和快 速收敛。
本说明书中描述的前馈生成性神经网络可以比依赖自回归生成性 神经网络(例如WaveNet)的现有技术更快地生成输出示例,这对于 其中快速批量推理很重要的应用来说很重要。自回归神经网络通过在 每个输出时间步执行前向传递,来生成跨多个输出时间步的输出示例。 在给定的输出时间步,自回归神经网络生成新的输出样本,以被包含 在以已被生成的输出样本为条件的输出示例中。这会消耗大量计算资 源并花费大量时间。另一方面,前馈生成性神经网络可以在单次前向 传递中生成输出示例,同时保持生成的输出示例的高质量。相对于有 多少时间被自回归神经网络所消耗,这大大减少了生成所述输出示例 所需的时间和计算资源量。
其他现有技术依赖于可逆前馈神经网络,该网络通过使用概率密 度来蒸馏(distilling)自回归模型而被训练(例如Parallel WaveNet)。 以这种方式训练允许可逆前馈神经网络生成听起来逼真(realistic)并 且对应于输入文本的语音信号,而无需对数据中发生的每个可能的变 化进行建模。如在本说明书中描述的前馈生成性神经网络还可以生成 忠实于输入文本的逼真音频样本,而无需对所述音频数据的数据分布 进行显式建模,但在模型大小和训练时间两方面都可以更有效地做到 这一点,并且不需要可逆前馈神经网络的蒸馏和可逆性要求。
在附图和以下描述中阐述了本说明书的主题的一个或多个实施例 的细节。本主题的其他特征、方面和优点根据说明书、附图和权利要 求将变得显而易见。
附图说明
图1是用于训练生成性神经网络的示例性训练系统的图。
图2是示出所述训练过程的图。
图3是用于训练生成性神经网络的示例性过程的流程图。
各个附图中相同的附图标记和名称表示相同的元件。
具体实施方式
本说明书描述了一个系统,该系统训练生成性神经网络,以通过 使用条件文本输入来生成输出音频数据。该系统可以通过使用能量分 值来训练生成性神经网络,如下文将更详细地描述。
图1是用于训练生成性神经网络110的示例性训练系统100的图。 训练系统100是在一个或多个位置的一台或多台计算机上实施为计算 机程序的系统的示例,其中,可以实施下文所述的系统、组件和技术。
训练系统100包括生成性神经网络110、能量分值生成系统120 和参数更新系统130。
训练系统100被配置为训练生成性神经网络110,以接收条件文 本输入102并且处理所述条件文本输入102以生成音频输出112。在一 些实施方式中,生成性神经网络110是前馈神经网络,即,生成性神 经网络110在单次前向传递中生成所述音频输出112。
条件文本输入102表征输入文本,并且音频输出112描绘对应于 输入文本的语音。
在一些实施方式中,条件文本输入102包括输入文本本身,例如 输入文本的字符级或词级嵌入。替代地或附加地,条件文本输入可以 包括用于表征文本输入的语言特征。例如,条件文本输入可以包括针 对在输入时间步序列中的每个输入时间步的相应语言特征向量。作为 特定示例,每个输入时间步的语言特征可以包括在所述输入时间步处 的文本的i)音素和ii)持续时间。所述语言特征还可以包括音高信息; 例如,音高可以由所述输入时间步的对数基频log F0来表示。
生成性神经网络110还将噪声输入104接收为输入。
例如,可以从预定分布(例如正态分布)中随机采样所述噪声输 入104。噪声输入104可以确保音频输出112的可变性。
在一些实施方式中,生成性神经网络110还可以将音频输出112 应该所属的类106的标识接收为输入。类106可以是一组可能的类的 成员。例如,类106可以对应于音频输出112应当听起来像的特定说 话者。即,音频输出112可以描绘说出所述输入文本的特定说话者。
通常,音频输出112(也被称为“输出音频数据”)表征音频,即语 音,其中,由条件文本输入102表征的输入文本正在由说话者说出。
在一些实施方式中,输出音频数据112是输出音频示例,其包括 在一系列输出时间步中的每一个处的音频波的音频样本。在给定输出 时间步处的音频样本可以是音频波的幅度值或者压缩或压扩的幅度值。
在一些其他实施方式中,输出音频数据112是用于定义用于表示 音频示例的频谱图的数据,即,用于指定被应用于音频示例的短时傅 立叶变换(STFT)的幅度分量的数据。
在这些实施方式中,在推断时,系统100可以处理生成的频谱图 以生成相应的音频示例。例如,系统可以通过向所生成的频谱图应用 逆频谱图变换,而将所生成的频谱图线性投影到波形空间,来生成音 频示例。
生成性神经网络110可以具有任何合适的神经网络架构。
作为特定示例,生成性神经网络110可以包括卷积神经网络层组 (被称为“生成器块”)的序列。在该生成器块序列中的第一个生成器块 可以将条件文本输入(或条件文本输入的嵌入)接收为输入,并生成 块输出。在所述生成器块序列中的每个后续生成器块都可以将由所述 生成器块序列中的前一个生成器块生成的块输出接收为输入,并且生 成后续块输出。
在下文中,将参考图2更详细地描述生成性神经网络110的示例 性架构。
为了训练生成性神经网络110,系统100通过使用从一组训练数 据采样的小批量训练示例,来重复地更新神经网络110的参数的值。
每个小批量包括一个或多个训练示例,每个训练示例又包括训练 条件文本输入102和真值(ground-truth)音频输出108。
从下文的描述中可以明显看出,真值音频输出108可以是(i) 音频示例,其包括音频波的样本序列并且表示用于表征正由说话者说 出的训练条件文本输入102的输入文本,或(ii)所述音频示例的频 谱图,其表示用于表征正由说话者说出的训练条件文本输入102的输 入文本。
在训练期间,系统100通过使用神经网络110,多次处理在每个 训练示例中的条件文本输入102,每次生成相应的预测音频输出112。
特别地,系统100针对每个训练示例采样多个噪声输入104,例 如z~N(0,Id),其中I是大小为d的单位矩阵。在一些实施方式中,系 统100通过使用潜变量截断,对噪声输入进行采样。即,系统100对 初始噪声输入进行采样,并且对于所述噪声输入中的绝对值超过特定 阈值的每个元素,重新采样该元素以确保每个元素的幅值低于特定阈 值,从而有效地截断分布以具有等于所述特定阈值的最大绝对值。
对于每个噪声输入104,然后,系统通过使用神经网络110来处 理条件文本输入102和噪声输入104,以生成相应的音频输出112。 因为噪声输入104通常会由于它们是来自相同分布的不同样本而不 同,即使使用相同的条件文本输入102生成音频输出,相应的音频输 出112通常也会不同。
然后,能量分值生成系统120通过使用用于训练示例的多个音频 输出112和在所述训练示例中的真值输出108,来对小批量中的每个训 练示例生成估计的能量分值122,并且将所述估计的能量分值122提供 给参数更新系统130。
在下文中,将参考图2和3更详细地描述生成估计的能量分值。
参数更新系统130可以获得由能量分值生成系统120生成的估计 能量分值122,并且根据用于表征跨在该小批量中的各训练示例的组合 能量分值(例如,作为估计的能量分值122的总和或平均值)的损失 函数来确定参数更新132。特别地,系统130可以关于损失函数的神经 网络110的参数来计算梯度,然后将适当的优化器应用于该梯度,例 如Adam优化器、rmsProp优化器、Adafactor优化器和SGD优化器等 等,以确定参数更新132。
在一些实施方式中,损失函数还包括通过使用系统110的其他组 件所生成的一个或多个其他项。例如,损失函数还可以包括其中使用 一个或多个鉴别器神经网络的一个或多个对抗性损失项,该鉴别器神 经网络试图预测所述音频输出112是来自训练数据的真值音频输出 还是已经由神经网络110生成的输出。
训练系统100可以通过例如从所述参数的当前值添加或减去更新 132,来将参数更新132应用于所述生成性神经网络110的参数。
通过以这种方式重复地更新所述参数,训练系统100训练神经网 络110,即确定所述神经网络110的参数的训练值,使得神经网络110 生成听起来逼真并准确地合成来自输入文本的语音的输出示例(或生 成可以被用来生成输出示例的直方图)。
图2是示出神经网络110的训练的图。
特别地,图2图示了在包括训练条件文本输入c 102和真值音频输 出x 108的训练示例上训练所述神经网络110(“模型fθ”)。在图2的 示例中,真值音频输出x直接定义了波形210,即,是音频波的样本序 列。
在一些实施方式中,系统从训练数据中随机均匀地对训练示例进 行采样。在一些其他实施方式中,系统以与训练示例的长度成比例的 概率,从训练数据集采样训练示例。在一些实施方式中,系统仅处理 采样的完整训练示例的一部分;即,系统将训练示例确定为较大的条 件文本输入的固定大小子序列和针对较大的条件文本输入的真值音频 输出的对应子序列。
在图2的示例中,系统对两个噪声输入进行采样,即:第一噪声 输入z 220和第二噪声输入z′230。
然后,系统根据所述参数的当前值,通过使用神经网络110,来 处理包括训练条件文本输入c和第一噪声输入z的第一训练生成性输入, 以生成第一预测音频输出y 240,并且根据所述参数的当前值,通过使 用神经网络110,来处理包括训练条件文本输入c和第二噪声输入z′ 的第二训练生成性输入,以生成第二预测音频输出y′250。
在一些实施方式中,例如,当音频输出是音频示例时,神经网络 110包括多个一维卷积神经网络层。例如,神经网络可以包括一个或多 个“G块”,每个G块都包括增加扩张率的多个卷积神经网络层,如在 “High Fidelity Speech Synthesis with AdversarialNetworks”(使用对抗 网络的高保真语音合成)中所述的,
Figure BDA0003103767350000087
等人,(arXiv:1909.11646)。 在一些实施方式中,每个G块包括一个或多个最近邻上采样层和一个 或多个条件批量归一化层,例如,以采样噪声嵌入为条件的条件批量 归一化层。
在一些实施方式中,神经网络包括一个或多个滤波器响应归一化 (FRN)层,每个层将具有时间维度为t和c个通道的序列
Figure BDA0003103767350000081
作 为输入,并且通过计算下述公式,来输出序列
Figure BDA0003103767350000082
Figure BDA0003103767350000083
其中,
Figure BDA0003103767350000084
Figure BDA0003103767350000085
是学习到的向量,∈是 正标量,以及
Figure BDA0003103767350000086
是阈值。
在一些实施方式中,一个或多个特定FRN层以采样噪声输入为条 件。例如,对于每个特定的FRN层,该层的参数γ和β可以是相应噪 声嵌入的学习到的线性函数,即在神经网络训练期间被联合学习到的 函数。作为特定的示例,对于每个特定的FRN层,可以通过对噪声 输入z~N(0,Id)进行采样并且计算以下内容来确定参数γ和β:
γ=Wγz+(bγ+1)
β=Wβz+bβ
其中,
Figure BDA0003103767350000091
Figure BDA0003103767350000092
是特定于所述特定FRN层的。
在一些其他实施方式中,例如,当音频输出指定频谱图时,神经 网络110包括内核大小为1的一维卷积,其用于将条件文本输入投影 到每个小块的相应投影向量,其中,每个小块对应于预定数量的输入 时间步。然后,将投影向量送入一堆瓶颈ResNet块。每个ResNet块 由对于512个通道的内核大小为1的卷积、在512通道处的内核大小 为5的2个卷积、然后是到固定数量的通道的投影组成。在卷积之 间,神经网络110使用条件批量归一化来以噪声向量和可选的类输入 为条件。
在ResNet块之后,神经网络110将输出向下投影到每个小块 240维。在这些维度中,一个维度用于以指数方式缩放剩余的239个 特征。然后将(在缩放后的)剩余的239个特征解释为具有窗口大小 240和帧步长120的STFT的非冗余元素,即作为用于指定所述频谱图的音频输出。然后可以通过使用线性逆STFT变换,来将这些239 个特征投影到波形空间以生成波形。
在一些实施方式中,神经网络并行地生成所述多个预测音频输出 中的每一个。
在神经网络生成多个不同的预测音频输出之后,系统可以确定用 于表征在真值音频输出x与多个预测音频输出y和y′之间的距离 的估计能量分值。
即,能量分值表征了在由真值音频输出表示的目标分布p与神经 网络的生成性模型的估计分布q之间的相似性。在“Strictly Proper Scoring Rules,Prediction,andEstimation”(严格正确的评分规则、预 测和估计),Gneiting等人(DOI:10.1198/016214506000001437)中更 详细地讨论了能量分值和示例。
为了确定估计的能量分值,系统可以对于多个预测音频输出中的 第一预测音频输出,i)根据距离度量来计算在第一预测音频输出和真 值音频输出之间的距离;以及ii)根据所述距离度量来计算在第一预测 音频输出和所述多个预测音频输出中的第二预测音频输出之间的距离。
估计能量分值的一个示例是:
2d(xi,yi)-d(yi,y′i)
其中,d是距离度量,xi是真值音频输出,yi是第一预测音频输出, 以及yi'是第二预测音频输出。
因为当在真值输出和第一预测音频输出之间的距离较大时,估计 的能量分值较大,所以用于测量该距离的项可以被称为“吸引性”项260, 因为将基于该估计能量分值的损失函数最小化会鼓励在真值和第一预 测音频输出之间的距离更小。
因为当在第二预测音频输出和第一预测音频输出之间的距离较大 时估计的能量分值较小,所以用于测量该距离的项可以被称为“排斥性” 项270,因为将基于该估计能量分值的损失函数最小化会鼓励在第一和 第二预测输出之间的距离更大。
在损失中包括该排斥性项会鼓励多样化的样本并提供统计一致性 保证。换句话说,排斥性项的存在对于损失成为用于学习音频给定语 言特征的条件分布的适当评分规则是必要的,并且防止生成的样本在 没有捕获可以对应于给定输入文本的可能样本的完整分布的情况下崩 溃到单个点。
在一些实施方式中,系统通过组合每个训练示例的相应能量分值, 通过使用小批量训练示例来确定对神经网络的参数的当前值的更新。 例如,系统可以计算损失函数:
Figure BDA0003103767350000111
其中,M是小批量中的训练示例的数量。
在一些实施方式中,损失函数还包括通过使用系统的其他组件所 生成的一个或多个其他项。例如,损失函数还可以包括一个或多个对 抗性损失项,所述对抗性损失项使用一个或多个鉴别器神经网络,所 述鉴别器神经网络试图预测所述音频输出是来自训练数据的真值音频 输出、还是由神经网络110生成的输出。
通常,距离度量是负定的,这使得估计的能量分值成为“适当的评 分规则”,即当q=p时,将最小化所述估计的能量分值。例如,距离 度量可以采用
Figure BDA0003103767350000112
的形式。如果α∈(0,2]且β∈(0,α],那 么估计的能量分值将是适当的评分规则。具有适当的评分规则的损失 已被证明会得出统计上一致的学习方法并且能够从外部的小批量来计 算,从而提高训练稳定性和得到更高质量的结果模型。
在一些实施方式中,距离函数d是对频谱图进行操作的频谱图距 离函数,即,其测量在两个频谱图之间的距离。
特别地,在这些实施方式中,距离函数将在两个音频输出之间的 距离测量为在对应于两个音频输出的频谱图之间的距离。
当音频输出指定频谱图时,与音频输出相对应的频谱图是由所述 音频输出指定的频谱图。
当音频输出为音频示例时,与音频输出相对应的频谱图为由所述 系统从所述音频输出(即从所述音频示例)生成的频谱图。即,系统 可以首先生成对应于每个预测音频输出和真值音频输出的频谱图,并 且在所生成的频谱图上计算所述距离函数。
即,虽然图2的示例示出了真值输出x和预测输出y和y′是 波形,然后将它们转换为相应的频谱图,但在一些其他示例中,真值 输出、预测输出、或两者都是频谱图,因此确实需要被转换。
系统可以通过使用任何适当的技术来确定音频示例的频谱图。然 而,作为特定示例,系统可以使用具有Hann窗口的过完备傅立叶基来 确定所述频谱图。
特别地,在一些实施方式中,系统可以通过对于每个频谱图窗口 长度k,i)将音频输出裁剪为长度
Figure BDA0003103767350000121
以生成裁剪的音频输出; 以及ii)确定裁剪后的音频输出的频谱图,来确定长度为N的音频输 出x的频谱图。
所述系统可以使用各种频谱图距离度量中的任何一个来计算在音 频输出之间的距离。
例如,频谱图距离度量可以是一个或多个距离函数的线性组合, 每个距离函数的形式为
Figure BDA0003103767350000122
Figure BDA0003103767350000123
Figure BDA0003103767350000124
其中,xi是第一音频输出,xj是第二音频输出, 以及s(x)是x的频谱图。如上所述,如果α∈(0,2]且β∈(0,α],那么估 计的能量分值是合适的评分规则。
作为具体的示例,频谱图距离度量可以是:
Figure BDA0003103767350000125
其中,k是频谱图的特定窗口长度,K是频谱图的窗口长度的集合, t是频谱图的时间点,
Figure BDA0003103767350000126
是在时间点t处的具有窗口长度k的音频输 出x的频谱图的值,以及αk是学习到的或预定的权重值。
作为另一个具体示例,频谱图距离度量可以是:
Figure BDA0003103767350000131
其中,k是频谱图的特定窗口长度,K是频谱图的窗口长度的集合, t是频谱图的时间点,
Figure BDA0003103767350000132
是在时间点t处的具有窗口长度k的音频输 出x的频谱图的值,以及αk是学习到的或预定的权重值。
频谱图K的窗口长度的集合可以是几何间隔的窗口长度序列,例 如2的幂序列。作为特定示例,K=[26,...,211]。
图3是用于训练生成性神经网络的示例性过程300的流程图。为 方便起见,过程300将被描述为由位于一个或多个位置的一台或多台 计算机的系统执行。例如,根据本说明书适当编程的训练系统(例如 图1所示的训练系统100)可以执行过程300。
所述系统获得训练示例,该训练示例包括条件文本输入和用于训 练示例的真值音频输出(步骤302)。训练条件文本输入可以包括在多 个输入时间步中的每一个处的相应语言特征表示。例如,在每个输入 时间步处的语言特征表示可以包括在该时间步处的音素、持续时间和 对数基频。
系统通过使用生成性神经网络来处理在训练示例中的多个训练生 成性输入,每个训练生成性输入包括训练条件文本输入,以生成用于 所述训练示例的多个训练音频输出(步骤304)。
系统根据生成性神经网络的参数的当前值来生成训练音频输出。 每个训练音频输出可以包括在多个输出时间步的每一个处的相应音频 样本,或者可以指定音频示例的频谱图。
特别地,每个训练生成输入还包括噪声输入。该系统可以对多个 不同的噪声输入进行采样,并且对于每个噪声输入,处理包括所述噪 声输入和所述训练条件文本输入的训练生成输入,以生成相应的训练 输出。
在一些实施方式中,生成输入还包括所述输出波应当所属的类的 标识。在一些这样的实施方式中,在神经网络中的一层或多层进一步 以所述类的标识为条件。
系统通过使用在训练示例中的真值音频输出和用于所述训练示例 的多个训练音频输出,来确定用于所述训练示例的估计能量分值(步 骤306)。如上所述,估计的能量分值表征在真值音频输出与多个预测 音频输出之间的距离,并且至少基于(i)根据距离度量的在多个输出 的第一预测音频输出与真值输出之间的距离,以及(ii)根据所述距离 度量的在第一预测音频输出和第二预测音频输出之间的距离。
系统根据估计的能量分值来确定对参数当前值的更新(步骤308)。 例如,系统可以对小批量中的每个训练示例来确定估计能量分值,然 后通过计算用于测量用于所述训练示例的组合能量分值(例如,用于 训练示例的能量分值的和或平均值)的损失函数的梯度来确定所述更 新。然后,系统可以将优化器应用于该梯度,以确定对所述参数的当 前值的更新。
本说明书连同系统和计算机程序组件一起使用术语"被配置"。对 于要被配置成执行特定操作或动作的一个或多个计算机的系统,意指 所述系统已在其上安装了在操作中使该系统执行这些操作或动作的软 件、固件、硬件、或软件、固件、硬件的组合。对于要被配置成执行 特定操作或动作的一个或多个计算机程序,意指该一个或多个程序包 括指令,所述指令当由数据处理装置执行时,使该装置执行所述操作 或动作。
本说明书中描述的主题和功能操作的实施例可以在数字电子电路、 有形地实现的计算机软件或固件、包括本说明书中公开的结构及其结 构等同物的计算机硬件、或者它们中的一个或多个的组合中实施。本 说明书中描述的主题的实施例可以被实施为一个或多个计算机程序, 即,在有形非暂时性存储介质上编码以供数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存 储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访 问存储设备、或它们中的一个或多个的组合。替换地或附加地,程序 指令可以被编码在人工生成的传播信号上,所述传播信号例如是机器 生成的电、光或电磁信号,该传播信号被生成来对信息进行编码以用 于传输到适合的接收器装置以供数据处理装置执行。
术语"数据处理装置"指代数据处理硬件并且包含用于处理数据的 所有种类的装置、设备和机器,作为示例包括可编程处理器、计算机、 或多个处理器或计算机。所述装置还可以是或者进一步包括专用逻辑 电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。 所述装置除了包括硬件之外还可以可选地包括为计算机程序创建执行 环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操 作系统、或它们中的一个或多个的组合的代码。
也可以被称为或者描述为程序、软件、软件应用、app、模块、软 件模块、脚本或代码的计算机程序,可以用包括编译或解释语言或声 明或过程语言的任何形式的编程语言编写;并且它可以被以任何形式 部署,包括作为独立程序或者作为模块、组件、子例行程序或适合于 在计算环境中使用的其它单元。程序可以但是不是必需对应于文件系 统中的文件。程序可以被存储在用于保持其它程序或数据的文件的一 部分中,例如存储在标记语言文档中的一个或多个脚本;在专用于所 讨论程序的单个文件中或者在多个协调文件中,例如用于存储代码的 一个或多个模块、子程序或部分的文件。可以将计算机程序部署成在一个计算机上、或者在位于一个站点处或者分布在多个站点上并通过 数据通信网络互连的多个计算机上执行。
在本说明书中,术语"数据库"广泛地用于指代任何数据集:所述 数据不需要被以任何特定方式构造,或者根本不被构造,并且它可被 存储在一个或多个位置中的存储设备上。因此,例如,索引数据库可 包括多个数据集,其中的每一个可以被不同地组织和访问。
类似地,在本说明书中术语"引擎"广泛地用于指代被编程来执行 一个或多个具体功能的基于软件的系统、子系统或过程。通常,引擎 将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或 多个软件模块或组件。在一些情况下,一个或多个计算机将专用于特 定引擎;在其它情况下,可以在同一计算机或多个计算机上安装并运 行多个引擎。
本说明书中描述的过程和逻辑流程可以由用于执行一个或多个计 算机程序的一个或多个可编程计算机执行,以通过对输入数据进行操 作并生成输出来执行功能。所述过程和逻辑流程还可以由例如是FPGA 或ASIC的专用逻辑电路执行,或者通过专用逻辑电路和一个或多个编 程计算机的组合来执行。
适合于执行计算机程序的计算机可以基于通用微处理器或专用微 处理器或两者、或任何其它种类的中央处理器。通常,中央处理单元 将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的 必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令 和数据的一个或多个存储设备。中央处理单元和存储器可以由专用逻辑电路补充或者并入在专用逻辑电路中。通常,计算机还将包括用于 存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘, 或者操作上被耦合以从所述一个或多个大容量存储设备接收数据、或 者将数据传送到所述一个或多个大容量存储设备、或者两者。然而, 计算机不是必需具有这样的设备。此外,计算机可以被嵌入在另一设 备中,所述另一设备例如是移动电话、个人数字助理(PDA)、移动 音频或视频播放器、游戏控制器、全球定位系统(GPS)接收器、或便 携式存储设备,例如通用串行总线(USB)闪存驱动器等。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形 式的非易失性存储器、介质和存储设备,作为示例包括:半导体存储 设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬 盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。
为了提供与用户的交互,可以在计算机上实施本说明书中描述的 主题的实施例,所述计算机具有用于向用户显示信息的显示设备以及 用户可用来向该计算机提供输入的键盘和定点设备,所述显示设备例 如是CRT(阴极射线管)或LCD(液晶显示器)监视器,所述定点设 备例如是鼠标或轨迹球。其它种类的设备也可以用于提供与用户的交 互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉 反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入, 包括声、语音或触觉输入。此外,计算机可以通过向由用户使用的设 备发送文档并从由用户使用的设备接收文档,来与用户交互;例如, 通过响应于从web浏览器接收到请求而向在用户的设备上的web浏览 器发送网页。另外,计算机可以通过向个人设备发送文本消息或其它 形式的消息、并且继而从用户接收响应消息,来与用户交互,所述个 人设备例如是正在运行消息传送应用的智能电话。
用于实施机器学习模型的数据处理装置还可以包括例如用于处理 机器学习训练或生产(即推理、工作负载)的公共和计算密集部分的 专用硬件加速器单元。
可以通过使用机器学习框架来实施和部署机器学习模型。所述机 器学习框架例如是TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或ApacheMXNet框架。
本说明书中描述的主题的实施例可以被实施在计算系统中,所述 计算系统包括后端组件,例如作为数据服务器;或者包括中间件组件, 例如应用服务器;或者包括前端组件,例如具有用户可用来与本说明 书中描述的主题的实施方式进行交互的图形用户界面、web浏览器或 app的客户端计算机;或者包括一个或多个这样的后端、中间件或前端 组件的任何组合。系统的组件可以通过例如通信网络的任何形式或介 质的数字数据通信来互连。通信网络的示例包括局域网(LAN)和广 域网(WAN),例如互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远 离并通常通过通信网络来交互。客户端和服务器的关系借助于在相应 的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。 在一些实施例中,服务器向用户设备传输例如HTML页面的数据,例 如以用于向与作为客户端的设备进行交互的用户显示数据并从该用户 接收用户输入的目的。可以在服务器处从用户设备接收在用户设备处 生成的数据,例如,用户交互的结果。
虽然本说明书包含许多具体实施方式细节,但是这些不应该被解 释为对任何发明的或可能要求保护的范围的限制,而是相反地被解释 为对可能特定于特定发明的特定实施例的特征的描述。也可以在单个 实施例中组合地实施在本说明书中在分开的实施例的上下文中描述的 某些特征。相反地,也可以分开地或者按照任何适合的子组合在多个实施例中实施在单个实施例的上下文中描述的各种特征。此外,尽管 特征可能在上面被描述按照某些组合起作用并且甚至最初被如此要求 保护,但是来自要求保护的组合的一个或多个特征可以在一些情况下 被从该组合中除去,并且所要求保护的组合可以针对子组合或子组合 的变化。
类似地,虽然按照特定次序在附图中描绘并在权利要求书中记载 操作,但是这不应该被理解为要求按照所示的特定次序或者以顺序次 序执行这样的操作,或者要求执行所有图示的操作以实现所预期的结 果。在某些情况下,多任务处理和并行处理可以是有利的。此外,上 述实施例中的各种系统模块和组件的分离不应该被理解为在所有实施 例中要求这样的分离,并且应该理解的是,所描述的程序组件和系统 一般地可被一起集成在单个软件产品中或者包装到多个软件产品中。
已经描述所述了主题的特定实施例。其它实施例在所附权利要求 的范围内。例如,权利要求中记载的动作可被以不同的次序执行并仍 然实现所预期的结果。作为一个示例,附图中描绘的过程不一定要求 所示的特定次序或顺序次序以实现所预期的结果。在一些情况下,多 任务处理和并行处理可以是有利的。

Claims (26)

1.一种用于训练神经网络的方法,所述神经网络具有多个参数并且被配置为通过使用条件文本输入来生成用于定义音频示例的音频输出,
其中,所述神经网络被配置为接收包括条件文本输入和噪声输入的生成性网络输入,并且处理所述生成性网络输入以生成音频输出,所述音频输出包括在多个输出时间步的每一个处的相应音频样本,以及
其中,所述训练包括:
获得训练示例,所述训练示例包括训练条件文本输入和相应的真值(ground-truth)音频输出;
通过对多个噪声输入中的每一个噪声输入,根据所述多个参数的当前值使用所述神经网络处理包括所述训练条件文本输入和所述噪声输入的训练生成性输入以生成相应的预测音频输出,来生成用于所述训练示例的多个预测音频输出;
确定用于表征在所述真值音频输出和所述多个预测音频输出之间的距离的估计能量分值,包括:
对于所述多个预测音频输出中的第一预测音频输出,根据距离度量来计算在所述第一预测音频输出与所述真值音频输出之间的距离;和
对于所述第一预测音频输出以及所述多个预测音频输出中的第二预测音频输出,根据所述距离度量,来计算在所述第一预测音频输出和所述第二预测音频输出之间的距离;以及
根据所述估计能量分值,确定对所述多个参数的当前值的更新。
2.如权利要求1所述的方法,其中,所述估计能量分值等于:
2d(xi,yi)-d(yi,y′i),
其中,d是所述距离度量,xi是所述真值音频输出,yi是所述第一预测音频输出,以及yi'是所述第二预测音频输出。
3.如权利要求2所述的方法,其中,根据所述估计能量分值确定对所述多个参数的当前值的更新包括:根据用于表征跨多个训练示例的组合能量分值的损失函数来确定所述更新,其中,所述损失函数为:
Figure FDA0003103767340000021
其中,M是训练示例的数量。
4.如权利要求1所述的方法,其中,所述距离度量是负定的。
5.如权利要求1所述的方法,其中,计算在第一音频输出和第二音频输出之间的距离包括:
根据频谱图距离度量,计算在对应于所述第一音频输出的频谱图和对应于所述第二音频输出的频谱图之间的距离。
6.如权利要求5所述的方法,其中,所述频谱图距离度量是一个或多个距离函数的线性组合,所述一个或多个距离函数中的每一个的形式是
Figure FDA0003103767340000022
Figure FDA0003103767340000023
其中,xi是所述第一音频输出,xj是所述第二音频输出,以及s(x)是x的频谱图。
7.如权利要求6所述的方法,其中,α∈(0,2]以及β∈(0,α]。
8.如权利要求7所述的方法,其中,所述频谱图距离度量为:
Figure FDA0003103767340000024
其中,k是频谱图的特定窗口长度,K是频谱图的窗口长度的集合,t是频谱图的时间点,
Figure FDA0003103767340000025
是在时间点t处具有窗口长度k的音频输出x的频谱图的值,以及αk是学习到的或预定的权重值。
9.如权利要求7所述的方法,其中,所述频谱图距离度量为:
Figure FDA0003103767340000031
其中,k是频谱图的特定窗口长度,K是频谱图的窗口长度的集合,t是频谱图的时间点,
Figure FDA0003103767340000032
是在时间点t处具有窗口长度k的音频输出x的频谱图的值,以及αk是学习到的或预定的权重值。
10.如权利要求8所述的方法,其中,K是几何间隔的窗口长度序列。
11.如权利要求5所述的方法,其中,所述第一音频输出和所述第二音频输出中的每一个包括音频波的相应多个样本,其中,计算在所述第一音频输出和所述第二音频输出之间的距离包括:
确定所述第一音频输出和第二音频输出中的每一个的相应频谱图。
12.如权利要求11所述的方法,其中,确定所述第一音频输出和第二音频输出中的每一个的相应频谱图包括通过使用过完备傅立叶基和Hann窗口来确定所述相应频谱图。
13.如权利要求11所述的方法,其中,确定长度为N的音频输出x的频谱图包括,对于每个频谱图窗口长度k:
将所述音频输出x裁剪为长度
Figure FDA0003103767340000033
以生成裁剪后的音频输出;以及
确定所述裁剪后的音频输出的频谱图。
14.如权利要求1所述的方法,其中,获得训练示例包括:
利用与完整训练示例的长度成正比的概率,从训练数据集中采样所述完整训练示例;以及
将所述训练示例确定为所采样的完整训练示例的固定大小部分。
15.如权利要求1所述的方法,其中,所述神经网络包括多个一维卷积神经网络层。
16.如权利要求1所述的方法,其中,所述神经网络包括一个或多个滤波器响应归一化层,所述一个或多个滤波器响应归一化层将序列
Figure FDA0003103767340000041
接收为输入,并且通过下述计算,输出序列
Figure FDA0003103767340000042
Figure FDA0003103767340000043
其中,
Figure FDA0003103767340000044
Figure FDA0003103767340000045
是学习到的向量,∈是正标量,
Figure FDA0003103767340000046
是阈值。
17.如权利要求16所述的方法,其中:
对于每个噪声输入,在处理包括所述噪声输入的所述训练生成性输入期间,一个或多个特定滤波器响应归一化层以所述噪声输入为条件。
18.如权利要求17所述的方法,其中,对于所述一个或多个特定滤波器响应归一化层的每一层,所述层的参数γ和β是所述噪声输入的学习到的线性函数。
19.如权利要求18所述的方法,其中,对于所述一个或多个特定滤波器响应归一化层的每一层,通过下述操作来确定所述层的参数γ和β:
对噪声输入z~N(0,Id)进行采样,其中,I是大小为d的单位矩阵;以及
计算:
γ=Wγz+(bγ+1)
β=Wβz+bβ
其中,
Figure FDA0003103767340000047
Figure FDA0003103767340000048
是特定于所述层的。
20.如权利要求1-19中的任一项所述的方法,其中,生成所述多个预测音频输出包括并行地生成所述多个预测音频输出中的每一个。
21.如权利要求1-19中的任一项所述的方法,其中,每个条件文本输入包括在多个输入时间步中的每一个处的相应语言特征表示。
22.如权利要求1-19中的任一项所述的方法,其中,生成所述多个预测音频输出包括从噪声分布来对所述多个噪声输入中的每一个进行采样。
23.如权利要求22所述的方法,其中,对所述多个噪声输入中的每一个进行采样包括:
对初始噪声输入进行采样;
确定所述初始噪声输入的一个或多个元素的绝对值高于预定阈值;以及
作为响应,对所确定的一个或多个元素进行重新采样。
24.一种通过使用神经网络来生成输出音频示例的方法,所述神经网络已经通过使用如权利要求1-23中的任一项所述的方法进行了训练。
25.一种包括一个或多个计算机以及存储指令的一个或多个存储设备的系统,所述指令在由所述一个或多个计算机执行时,使所述一个或多个计算机执行如权利要求1-24中的任一项所述的方法的相应操作。
26.一种或多种存储指令的计算机可读存储介质,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机执行如权利要求1-24中的任一项所述的方法的相应操作。
CN202110631060.3A 2020-06-05 2021-06-07 通过使用能量分值来训练语音合成神经网络 Pending CN113313183A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063035553P 2020-06-05 2020-06-05
US63/035,553 2020-06-05

Publications (1)

Publication Number Publication Date
CN113313183A true CN113313183A (zh) 2021-08-27

Family

ID=77377853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110631060.3A Pending CN113313183A (zh) 2020-06-05 2021-06-07 通过使用能量分值来训练语音合成神经网络

Country Status (2)

Country Link
US (1) US12073819B2 (zh)
CN (1) CN113313183A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
JP2006189554A (ja) * 2005-01-05 2006-07-20 Mitsubishi Electric Corp テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US20160140953A1 (en) * 2014-11-17 2016-05-19 Samsung Electronics Co., Ltd. Speech synthesis apparatus and control method thereof
CN107301859A (zh) * 2017-06-21 2017-10-27 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks
CN107967916A (zh) * 2016-10-20 2018-04-27 谷歌有限责任公司 确定语音关系
US20180268806A1 (en) * 2017-03-14 2018-09-20 Google Inc. Text-to-speech synthesis using an autoencoder
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109635274A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本输入的预测方法、装置、计算机设备和存储介质
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110085210A (zh) * 2019-03-15 2019-08-02 平安科技(深圳)有限公司 交互信息测试方法、装置、计算机设备及存储介质
US20190318754A1 (en) * 2018-04-16 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction
KR20190135853A (ko) * 2018-05-29 2019-12-09 한국과학기술원 텍스트- 다중 음성 변환 방법 및 시스템
CN111048062A (zh) * 2018-10-10 2020-04-21 华为技术有限公司 语音合成方法及设备
US20200169591A1 (en) * 2019-02-01 2020-05-28 Ben Avi Ingel Systems and methods for artificial dubbing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10332520B2 (en) * 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US11190898B2 (en) * 2019-11-05 2021-11-30 Adobe Inc. Rendering scene-aware audio using neural network-based acoustic analysis
US11074925B2 (en) * 2019-11-13 2021-07-27 Adobe Inc. Generating synthetic acoustic impulse responses from an acoustic impulse response

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
JP2006189554A (ja) * 2005-01-05 2006-07-20 Mitsubishi Electric Corp テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US20160140953A1 (en) * 2014-11-17 2016-05-19 Samsung Electronics Co., Ltd. Speech synthesis apparatus and control method thereof
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
US20180075343A1 (en) * 2016-09-06 2018-03-15 Google Inc. Processing sequences using convolutional neural networks
CN107967916A (zh) * 2016-10-20 2018-04-27 谷歌有限责任公司 确定语音关系
CN108573693A (zh) * 2017-03-14 2018-09-25 谷歌有限责任公司 使用自动编码器的文本到语音合成
US20180268806A1 (en) * 2017-03-14 2018-09-20 Google Inc. Text-to-speech synthesis using an autoencoder
CN107301859A (zh) * 2017-06-21 2017-10-27 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
US20190318754A1 (en) * 2018-04-16 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction
KR20190135853A (ko) * 2018-05-29 2019-12-09 한국과학기술원 텍스트- 다중 음성 변환 방법 및 시스템
CN111048062A (zh) * 2018-10-10 2020-04-21 华为技术有限公司 语音合成方法及设备
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109635274A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本输入的预测方法、装置、计算机设备和存储介质
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
US20200169591A1 (en) * 2019-02-01 2020-05-28 Ben Avi Ingel Systems and methods for artificial dubbing
CN110085210A (zh) * 2019-03-15 2019-08-02 平安科技(深圳)有限公司 交互信息测试方法、装置、计算机设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALEXEY A. GRITSENKO 等: "A Spectral Energy Distance for Parallel Speech Synthesis", 《ARXIV:2008.01160》, 3 August 2020 (2020-08-03), pages 1 - 19 *
V. RAMU REDDY 等: "Two-stage intonation modeling using feedforward neural networks for syllable based text-to-speech synthesis", 《COMPUTER SPEECH & LANGUAGE》, vol. 27, no. 05, 31 August 2013 (2013-08-31), pages 1105 - 1126 *
王国梁 等: "一种基于Tacotron 2的端到端中文语音合成方案", 《华东师范大学学报(自然科学版)》, no. 04, 25 July 2019 (2019-07-25), pages 111 - 119 *
祁晓波: "基于机器学习的声纹识别研发", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2020, 15 February 2020 (2020-02-15), pages 136 - 388 *

Also Published As

Publication number Publication date
US12073819B2 (en) 2024-08-27
US20210383790A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
EP3971786B1 (en) Feedforward generative neural networks
US20240135955A1 (en) Generating audio using neural networks
US11928601B2 (en) Neural network compression
US11355097B2 (en) Sample-efficient adaptive text-to-speech
US20210089909A1 (en) High fidelity speech synthesis with adversarial networks
EP3673419A1 (en) Population based training of neural networks
JP2020506488A (ja) バッチ再正規化層
US20210383789A1 (en) Generating audio data using unaligned text inputs with an adversarial network
CN111587441A (zh) 使用以比特值为条件的回归神经网络生成输出示例
CN113313183A (zh) 通过使用能量分值来训练语音合成神经网络
US20220398437A1 (en) Depth-Parallel Training of Neural Networks
US20240144944A1 (en) Generating output signals using variable-rate discrete representations
US20230325658A1 (en) Conditional output generation through data density gradient estimation
US20230252974A1 (en) End-to-end speech waveform generation through data density gradient estimation
EP4407520A1 (en) Noise scheduling for diffusion neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination