CN112639832A - 识别生成网络的显著特征 - Google Patents

识别生成网络的显著特征 Download PDF

Info

Publication number
CN112639832A
CN112639832A CN201980055674.2A CN201980055674A CN112639832A CN 112639832 A CN112639832 A CN 112639832A CN 201980055674 A CN201980055674 A CN 201980055674A CN 112639832 A CN112639832 A CN 112639832A
Authority
CN
China
Prior art keywords
input
features
inputs
encoder
encoders
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980055674.2A
Other languages
English (en)
Inventor
威廉·巴斯蒂安·克雷杰
林施杰
迈克尔·奇涅
简·斯科格隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN112639832A publication Critical patent/CN112639832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

实施方式从输入信号识别独立的显著特征的小集合。显著特征可以被用于条件化生成网络,使得生成网络针对噪声是鲁棒的。显著特征可以促进压缩和数据传送。一种示例方法包括接收输入信号,并且通过将输入信号提供至被训练以提取显著特征的编码器而提取输入信号的显著特征。显著特征可以是独立的并且具有稀疏分布。编码器可以被配置为从系统设计者认为等效的两个输入信号生成几乎相同的特征。该方法还包括使用显著特征条件化生成网络。在一些实施方式中,该方法还可以包括从输入信号提取多个时间序列以及针对每个时间序列提取显著特征。

Description

识别生成网络的显著特征
背景技术
诸如WaveNet、WaveRNN和生成对抗网络的生成网络在诸如话音合成和图像生成之类的音频/视觉合成中生成了非常好的结果。这样的模型具有被局限于流形(manifold)或拓扑空间的属性。因此,例如,WaveNet被局限于产生自然话音,即被局限于话音流形。然而,这样的系统在流形之外再现输入的方面存在困难。例如,非话音声音随着噪声水平升高而趋向于导致音素误差。
发明内容
实施方式提供了一种从输入提取显著特征的编码器。显著特征更加鲁棒且冗余较少,并且可以充当使得生成网络针对噪声鲁棒的提升,这产生更少的伪像以及更加逼真的输出。显著特征还可以充当一种有效的压缩技术。实施方式训练克隆编码器以识别不同但是等效的输入的显著特征。实施方式还可以使用显著特征来条件化(condition)生成网络。实施方式并不尝试近似干净信号(clean signal),从而网络的生成属性在条件化期间并不受限。为了训练编码器,实施方式可以针对干净输入信号生成若干等效信号。等效信号与干净输入信号共享显著特征,但是根据干净信号被修改(例如,以一些方式有所不同)。如本文所使用的,经修改信号是指设计者认为能够接受的向干净信号添加的任何信息或者针对干净信号的任何改变。因此,经修改信号是指干净信号的目标流形以外的修改干净信号的噪声、失真(例如,修改信号的相移、延迟)、伪像、信息等。换句话说,如本文所使用的,经修改信号可以是对于人类设计者而言并不被认为是显著的针对干净信号的任何改变。实施方式训练编码器以从等效输入的集合中过滤掉(例如,忽略)不被认为是显著的信息。共享权重的克隆编码器从等效信号的集合中取得不同的信号作为输入。克隆编码器全部采用全局损失函数,这促进了被每个克隆编码器所提取的显著特征中的等效性以及个体编码器所提取的显著特征内的独立性。在一些实施方式中,全局损失函数也可以促进所提取的显著特征中的稀疏性,和/或可以促进所提取特征映射至共享的目标信号。实施方式可以使用镜像编码器的克隆解码器的集合以从所提取的显著特征重构目标信号。在一些实施方式中,该系统可以每个输入提取12个显著信号。当在推断模式下使用时,经训练的编码器可以针对输入序列提取显著特征并且使用显著特征来条件化生成网络。
根据一个方面,一种用于识别生成网络的特征的方法包括获得针对输入批次中的每个干净输入的输入的集合,该输入的集合包括至少一个经修改输入,每个经修改输入是干净输入的不同修改版本。该方法还包括训练具有权重的编码器以通过针对输入批次中的每个输入的集合执行以下操作来提供输入的特征:将该输入的集合提供至一个或多个克隆编码器,每个克隆编码器共享权重,并且一个或多个克隆编码器中的每一个接收该输入的集合中不同的相应输入,并且修改权重以最小化全局损失函数。全局损失函数具有第一项以及第二项,所述第一项最大化该输入的集合的特征之间的相似性,所述第二项最大化编码器所生成的特征内的独立性和单位方差,编码器是一个或多个编码器之一。该方法可以包括使用该编码器提取新输入的特征并且将所提取的特征提供至生成网络。该方法可以包括压缩新输入的特征并且存储该特征。
根据一个方面,一种方法包括接收输入信号,并且通过将输入信号提供至被训练以提取显著特征的编码器而提取输入信号的显著特征。显著特征可以是独立的并且具有稀疏分布。编码器可以被配置为从系统设计者认为等效的两个输入信号生成几乎相同的特征。该方法可以包括使用显著特征条件化生成网络。该方法可以包括压缩显著特征。
在一个总体方面,一种体现在计算机可读存储设备上的计算机程序产品包括指令,所述指令在被形成于基底中的至少一个处理器执行时使得计算设备实行任何所公开的方法、操作或过程。大体上如至少一个附图所示和/或结合所述附图被描述,并且如权利要求中更完整地所给出的,另一个总体方面包括一种用于学习如何从输入识别独立的显著特征的系统和/或方法,所述显著特征可以被用于条件化生成神经网络或者用于压缩。
本文所描述主题的一种或多种实施方式可以被实施从而实现以下的一种或多种优势。作为一个示例,实施方式提供了条件化生成网络以聚焦于任何输入中的特定特征——显著特征——的一种新的提升类型。这样的条件化使得经如此条件化的生成网络针对噪声是鲁棒的。作为结果,使用显著特征条件化的生成网络与未经类似条件化的生成网络所导致的误差相比产生更自然误差。此外,与未经类似条件化的其它网络相比,使用显著特征条件化的生成网络处置更多的失真输入信号而并不产生误差。例如,随着输入信号中的噪声水平升高,使用本文所公开的显著特征条件化的生成话音网络产生较少的误差,并且如果有任何误差产生,也是产生处于话音流形中的自然发声误差。作为对比,其它生成网络所生成的伪像偏离话音流形并且声音更加不自然,并且因此随着输入中噪声水平的升高更容易被收听者所注意到。
作为另一个示例,显著特征是紧凑的。例如,实施方式可以从输入提取少量(例如,10个或更少、12个或更少、15个或更少、20个或更少)特征,但是由于该特征表示显著的且因此在感知上重要的信息而且互相独立,所以解码器能够使用显著特征而根据特征产生逼真的输出。换句话说,显著特征忽略了在感知上并不相关但是却使用明显存储器分配的特征。这与没有考虑感知重要性的诸如变分自编码器或VAE的最常规编码器形成对比。显著特征是可以被用于信号的存储或传送,或者被用于信号性质的操控。例如,显著特征可以被用于话音的鲁棒代码化,对具体类型的图像(例如,人脸、手写等)进行编码,改变说话者的身份,重新合成没有噪声的话音信号,等等。虽然一些先前的方法已经尝试识别显著特征,但是这样的先前方法或者要求丢弃多余变量的显性知识或者要求等效信号对以进行训练;这样的方法并不像所公开的实施方式那样可扩展。
作为另一个示例,所公开的实施方式并不干涉生成网络的生成本质,这是因为实施方式并不尝试重构地面真值,即干净话音。用于评估的传统提升量度使用基准而并不考虑其它解决方案,这对于类似前馈网络和循环神经网络的网络有效,所述网络尝试基于噪声观察和可用的先验知识来找出干净话音波形的良好近似。作为对比,生成网络(例如,生成卷积神经网络、生成深度神经网络、对抗网络等)被局限于流形或拓扑空间。例如,生成话音网络被局限于产生自然话音,并且生成图像网络被局限于产生图像。生成网络可以使用随机过程来生成在感知上不相关的复杂细节,而不是尝试精确地再现输入信号。例如,在再现树叶的图像时应当看上去是正确的(例如,颜色、形状),但是叶子却在数量或位置上与原本状况相比会有所变化。在该示例中,数量和位置在感知上是不相关的。换句话说,生成网络可以提供一种与地面真值相当不同但是却与之等效的解决方案。当前用于提升生成网络的系统至少部分被优化以重构地面真值输入,这就对生成网络的生成方面有所限制。换句话说,传统的提升量度并未考虑这些其它解决方案。由于所公开的实施方式并不依赖于地面真值的重构,所以所公开的实施方式并不趋于限制生成方面并且因此趋于产生更加自然或逼真的输出。
以下的附图和描述中给出了一种或多种实施方式的细节。其它特征将根据该描述和附图以及根据权利要求而清楚明白。
附图说明
图1图示了依据所公开主题的用于训练显著特征编码器的示例系统。
图2图示了依据所公开主题的用于推断的示例系统。
图3是依据所公开主题的用于识别并使用显著特征的示例过程的流程图。
图4依据所公开主题的用于训练编码器以识别显著特征的示例过程的流程图。
图5A至5C论证了所公开实施方式提供的益处。
图6示出了可以被用来实施所描述技术的计算机设备的示例。
图7示出了可以被用来实施所描述技术的分布式计算机设备的示例。
各附图中同样的附图标记指示同样的要素。
具体实施方式
实施方式通过学习从输入信号提取显著特征而提供了针对生成网络的提升。显著特征是被系统设计者定义为等效的信号所共享的特征。系统设计者向特征提取提供了定性知识。该定性知识使得编码器能够忽略在感知上不相关的特征(例如,并不影响含义或内容的噪声、暂停、失真等),仅提取对输入的内容或含义造成影响的那些特征。换句话说,在感知上相关的特征是影响人类掌握输入实质的能力的特征以及其它特征。能够感知但是并不影响实质的特征在感知上是不相关的。因此,显著特征被描述为在感知上对于人类是重要的。这样的特征针对每个输入在数量上可能是小的,但是却产生了如用户所感知到的更好、更加逼真的重构。
图1是依据示例实施方式的显著特征提取系统的框图。系统100可以被用来训练编码器以从输入提取显著特征。显著特征以可扩展的方式从输入信号捕捉在感知上相关的特征。显著特征可以被用来存储或传输编码信号。显著特征可以被用来条件化生成网络。显著特征提取系统100对克隆编码器115的集合进行联合训练。每个编码器,例如115(1),115(2),...,115(N),接收来自等效信号110的集合中的不同输入信号,例如110(1),110(2),...,110(N),作为输入。克隆编码器115所使用的目标函数促进编码器(115(1)至115(N))将它们相应的输入映射至跨克隆编码器115相同的单位方差特征的集合。训练可以是有监督或无监督的。常规地,有监督训练在训练期间使用带标记的输入。如本文所使用的,有监督训练并非是指这种常规技术。相反,如本文所使用的,有监督训练是指在训练期间使用重构目标项作为附加的优化项。因此,在有监督训练中,系统100包括克隆解码器125,其将显著特征映射至共享目标信号。为了便于描述,对图1中系统100的描述有时被描述为处理话音输入(例如,mel频谱),但是实施方式并不局限于此。例如,图1的系统100可以处理图像输入、视频输入、音乐输入,等等。
显著特征提取系统100可以是采用多种不同设备的形式的一个或多个计算设备,例如标准服务器、这样的服务器的群组,或者机架式服务器系统,等等。此外,系统100可以在个人计算机中实施,例如膝上型计算机。系统100可以是如图6中所描绘的计算机设备600或者如图7中所描绘的计算机设备700的示例。
虽然图1中并未示出,但是系统100可以包括被配置为执行一个或多个机器可执行指令或者软件、固件或它们的组合的形成于基底中的一个或多个处理器。处理器可以是基于半导体的——也就是说,处理器可以包括能够执行数字逻辑的半导体材料。处理器可以是专用处理器,诸如图形处理单元(GPU)。系统100还可以包括操作系统以及一个或多个被配置为临时地、持久地、半持久地或者以上述方式的组合来存储一个或多个数据的计算机存储器,例如主存储器。存储器可以包括以能够被一个或多个处理器读取和/或执行的格式存储信息的任何类型的存储设备。存储器可以包括易失性存储器、非易失性存储器,或者它们的组合,并且存储模块,所述模块在被一个或多个处理器执行时实行某些操作。在一些实施方式中,模块可以被存储在外部存储设备中并且被加载到系统100的存储器中。
克隆编码器115表示多个机器学习的计算模型或编码器。在机器学习中,计算模型被组织为连接的节点,节点被组织为层。节点对所提供的输入执行映射函数以产生某一输出。第一节点层取得提供至模型的输入,即来自外部来源的输入。第一节点层的输出作为输入被提供至第二节点层。第二层中的节点向后续层提供输入,等等,直至到达最终层。最终或输出节点层提供模型的输出。在系统100的情况下,编码器的输出是特征矢量。矢量通常是数的阵列,其中阵列中的每个位置表示不同的性质。阵列位置的数量被称作矢量的维度。每个阵列位置中的值可以是整数或者小数。在一些实施方式中,值可以表示性质存在的百分比、概率、可能性等。在一些实施方式中,值可以表示性质的实际值。层可以是完全连接或部分连接的。在完全连接的模型中,层中的每个节点将其输出发送至下一层中的每个节点。在部分连接的网络中,层中的每个节点将其输出发送至下一层中的一些节点。
节点对输入值所执行的函数将输入映射至输出。该函数使用参数来执行映射。映射可以是满射映射。模型需要训练来确定参数,所述参数可以以随机值作为开始。该参数也被称作权重。出于本申请的目的,权重可以被表达为ψ。训练过程使用目标函数来确定最优参数。目标函数识别映射的目的并且通过迭代训练轮次帮助模型修改参数,直至达到最优的参数的集合。一旦最优参数被识别,就认为模型被训练并且可以在推断模式下使用。在推断模式中,模型使用参数而根据给定输入提供或预测输出。每个机器学习模型都针对特定任务,例如预测、分类、编码等,被训练。计算模型执行的任务由所提供的输入、映射函数和所期望的输出来确定。
在图1的示例中,克隆编码器115包括多个编码器。每个编码器具有其自己的层并且接收单独的输入,但是每个编码器与其它编码器共享相同的权重ψ的集合。因此,在训练期间,权重ψ针对克隆编码器115中的所有编码器相同地被调整。由于编码器共享权重,所以它们可以被称作克隆。换句话说,克隆编码器中的每个编码器有效地表示相同的编码器,并且在被给予相同输入的情况下将会产生相同的特征。然而,在训练克隆编码器115中的每个编码器期间被给予不同的输入,但是每个输入被系统设计者认为在实质上是等效的。克隆编码器115的编码器使用相同的目标函数。
提供至克隆编码器115的输入表示等效信号。在一些实施方式中,等效信号是被系统设计者认为等效的信号。因此,系统设计者可以选择对干净输入所进行的修改的类型。就此而言,系统设计者可以监管用于处理的等效输入的集合的生成。干净输入是被修改以生成等效信号的集合的任何输入。一般而言,干净输入表示原始文件、期望输出,等等。等效信号110的集合表示针对干净信号所进行的不同修改。如本文所使用的,修改可以包括设计者认为能够接受的针对干净信号的任何修改或者向干净信号添加的信息。经修改的信号可以包括向干净信号添加的噪声或伪像。经修改的信号可以包括干净信号失真,诸如全通滤波(即,不同频带的相对延迟、相移等)。经修改的信号可以包括向干净信号添加的目标流形之外的信息。换句话说,修改可以是针对输入所进行的并未被人类设计者认为是显著的任何修改。例如,如果干净输入110(1)是话音样本,则经修改输入110(2)可以是添加了交通噪声的相同话音样本,经修改输入110(3)可以是该话音信号的频带的相对延迟,经修改输入110(4)可以是添加了餐厅噪声的相同话音样本,经修改输入110(5)可以是添加了混响(reverberation)的相同话音样本,输入110(6)可以是添加了麦克风失真的相同话音样本,等等。
在一些实施方式中,系统设计者决定要进行何种修改并且随后使用修改引擎105向干净信号应用该修改并且生成等效信号110的集合。修改引擎105可以使用训练数据103作为干净数据的来源。修改引擎105可以使用训练数据103作为一个或多个修改的来源,以例如生成经修改输入中的一个或多个。例如,训练数据可以是干净信号的数据集,例如图像的数据集、本地讲话者所说的话音数据的数据集、专业录制的音乐作品,等等。在一些实施方式中,修改引擎105可以被配置为在信噪比(SNR)范围内提供输入。例如,如果提供至克隆编码器115的信号噪声过多/修改过多,则最小化重构误差的目标函数可能促进(被人类所感知并且与理解和/或质量相关的)显著的性质的去除。另一方面,如果噪声不足,则显著特征可能对噪声更加敏感。等效信号110的集合中的信号的数量N是取决于实施方式的。一般地,该数量取决于能够应用于输入的修改的类型以及系统100的硬件的处理能力和训练时间。在一些实施方式中,N的选择是性能和质量之间的权衡。在一些实施方式中,等效信号110的集合可以包括32个输入(例如,N=32)。
克隆编码器115中的每个编码器115(1)-115(N)接收等效信号110的集合中的一个不同等效信号。克隆编码器115包括针对每个不同的等效信号的一个编码器。例如,编码器115(1)可以接收干净输入110(1),而编码器115(2)可以接收第一修改输入110(2),等等。
克隆编码器115中的编码器每一个使用目标函数来学习使得编码器能够提取特征矢量的参数(权重),所述特征矢量尽管不同的输入也是跨所有编码器相似的并且包括重构干净输入的表示所需的信息。产生的所提取特征矢量——显著特征——一般缺少与修改相关的信息,并且因此针对修改是鲁棒的。在无监督学习的实施方式中,目标函数包括两项。第一项促进跨显著特征的相似性,并且第二项促进独立性和单位方差。第二项还可以促进稀疏性。在一些实施方式中,目标函数可以包括第三项,其促进克隆编码器115找出经由解码器映射至共享目标信号的显著特征,例如最小化解码器损失。在一些实施方式中,解码器可以是克隆解码器的集合中的一个解码器。在一些实施方式中,第二以及可选的第三项可以被加权。在一些实施方式中,目标函数可以被表达为Dglobal=DEMMDDMMDDDD,其中Dglobal是训练尝试最小化的全局损失,DE是最大化克隆编码器所输出的显著特征之间的相似性的第一项,DMMD是最大化独立性、单位方差以及可选地稀疏性的第二项,λMMD是应用于第二项的加权因数,DD是促进目标信号的重构的第三项,并且λD是应用于第三项的加权因数。训练的目标是要确定使得Dglobal尽可能接近于零的权重。在一些实施方式中,系统100将全局损失定义为数据分布上的期望。在一些实施方式中,系统100将全局损失定义为m个数据的观察批次上的平均值。换句话说,训练在m个干净输入的批次以及它们相应的等效信号110的集合上发生。系统100可以在m个数据点的批次上使用随机梯度下降法以在与训练数据103相关联的经验分布上进行优化。训练数据103可以是与将在推断模式中使用的输入相符的任何数据。在话音领域中,输入数据可以是话音的块或帧。例如,训练数据可以是40ms的话音。训练数据103可以是被转换为mel频率刻度上的频谱表示的话音的块(例如,20ms、40ms)。在图像领域中,输入数据可以是像素数据的块。例如,训练数据可以是32×32的像素块。训练数据103可以是40ms的音乐,等等。
目标函数的第一项最大化克隆编码器115中的编码器所产生的显著特征当中的相似性。可以通过最小化第一克隆所生成的显著特征与其余克隆所生成的显著特征之间(为了减少的计算工作量)或者每个克隆所生成的与其余克隆所生成的显著特征之间的L2范数(或者平方的平方根),最大化克隆编码器115中的不同编码器所提取的显著特征之间的相似性。例如,在一些实施方式中,第一项可以被表达为
Figure BDA0002950270590000101
其中m是输入(等效信号110的集合)的数量,N是克隆编码器115中的编码器的数量,‖·‖是L2范数,并且z表示编码器所提取的显著特征,而i则标记特定特征。换句话说,作为示例,针对等效信号110的m个集合之一,编码器115(1)可以提取特征z(1),编码器115(2)可以提取特征z(2),等等。来自以上表达式的显著特征z(1)被称作基准特征,并且从其相应输入中提取出z(1)的编码器是基准编码器。所要理解的是,克隆编码器115中的任何编码器都可以被选择作为基准编码器。因此,实施方式并不局限于将来自干净信号的显著特征(即,显著特征150(1))与其它显著特征(即,显著特征150(2)至150(N))相比较。相反地,显著特征150(1)至150(N)中的任一个都可以被选择作为基准特征。一些实施方式仅将基准特征与其余显著特征相比较以减少计算工作量。
在一些实施方式中,系统100可以将等效信号110的集合的所有显著特征与等效信号110的集合的所有其它显著特征相比较。在这样的实施方式中,每个编码器都变为基准编码器。在一种实施方式中,子集,例如编码器中的两个、三个、五个,可以被选择作为基准编码器。在一些实施方式中,该系统最小化1范数而不是L2范数。L2范数减少较大的差异,这在确定显著特征时是有利的,但是实施方式可以使用1范数。目标函数的第一项可以由等效性优化器130来计算。等效性优化器130可以被配置为选择以相对高的保真度描述在等效信号的集合(例如,输入110(1)至110(N))中的信号之间被共享的信息分量的特征。在一些实施方式中,等效性优化器130可以计算1范数。等效性优化器130可以确定要调整哪个权重Ψ以最小化针对等效信号的集合所产生的显著特征中的差异。
最大化显著特征的独立性和方差的目标函数的第二项可以使用促进/强制显著特征具有指定分布的任何方法来确定。换句话说,系统可以在特征上强制指定分布。指定分布促进独立性和给定方差。这样的方法的示例包括卡方检验(chi-square test)、经由Kantorovich-Rubinstein二元性重新表达的搬土距离(earth-moving distance),以及最大均值偏差(MMD)。MMD测量两个分布之间的距离并且要求所期望的(指定)分布以便进行比较。示例分布包括高斯、统一、正态、拉普拉斯等。分布的选取确定稀疏性。高斯和正态分布并不促进稀疏性。拉普拉斯分布则促进稀疏性。在稀疏矢量中,大多数维度具有低值(例如,接近于零的值)而仅一些具有大值。在一些实施方式中,系统100可以促进显著特征是稀疏的,例如在维度中具有10、12、15个等的大值。矢量的维度是其所表示的不同性质的数量。
当使用MMD量度时,目标函数的第二项可以被表达为
Figure BDA0002950270590000121
其中m是批次的数量(例如,不同的等效信号110的集合的数量),yi从所选择的分布取得,zi是基准编码器所生成的显著特征的集合,并且k(·,·)是具有所期望尺度和形状的核。在一些实施方式中,核是多元二次核。在一些实施方式中,当使用MMD量度时,第二项可以被表达为
Figure BDA0002950270590000122
Figure BDA0002950270590000123
为了MMD正确执行,m必须足够大并且取决于所期望的精度。例如,m可以以千计。目标函数的第二项的基准编码器可以是与用于目标函数的第一项的基准编码器相同的编码器。第二项的基准编码器可以与用于第一项的基准编码器不同。在一些实施方式中,系统100可以使用多于一个的基准编码器。例如,系统可以将两个、三个、五个等的不同编码器所提取的显著特征与分布进行比较。目标函数的第二项可以由独立性优化器140来计算,其被配置为测量上文所概况的独立性和方差,并且确定要调整哪个权重Ψ以例如最小化分布和所选择分布之间的差异。在一些实施方式中,第二项可以被加权。
目标函数的第三项是促进不同显著特征到共享目标信号的映射的可选项。换句话说,第三项涉及到目标信号的重构。目标信号可以从干净信号(例如,干净输入110(1))所得出。目标信号可能并不尝试直接近似干净信号。在一些实施方式中,目标信号可以表征干净信号的短期谱特性。这样的实施方式减少了计算资源的使用。在一些实施方式中,目标信号可以是等效的经修改输入之一。在一些实施方式中,目标信号可以是具有适当标准的干净信号的表示。例如,在话音领域,可以使用具有L2范数(即,平方误差)的干净话音信号的mel频谱表示作为目标信号。作为另一个示例,在音乐领域,可以使用具有L2范数的干净音乐信号的mel频谱表示作为目标信号。作为另一个示例,在图像领域,可以使用所选择分辨率的小波表示作为目标信号。在一些实施方式中,目标信号可以是干净信号。
系统100可以使用克隆解码器125根据显著特征再现目标信号。在一些实施方式中,克隆解码器125可以具有与克隆编码器115中的编码器相同数量的解码器。在这样的实施方式中,克隆解码器125中的每个解码器接收显著特征矢量中的一个不同的显著特征矢量,例如,解码器125(1)接收显著特征120(1)作为输入,解码器125(2)接收显著特征120(2)作为输入,等等。在(图1中并未图示的)一些实施方式中,克隆解码器125可以包括单个解码器。在一些实施方式中,克隆解码器125可以具有比克隆编码器更少的克隆解码器。克隆解码器从编码器取得显著特征作为输入,并且将显著特征映射至输出。输出表示提供至编码器的输入的重构。在一些实施方式中,解码器的配置可以镜像编码器的配置。例如,编码器可以每一个使用两个长短期记忆(LSTM)节点层以及一个完全连接的节点层,每个层具有800个节点,并且每个克隆编码器可以使用后跟有两个LSTM层的一个完全连接层,每个层具有800个节点。作为另一个示例,编码器可以使用四个LSTM层以及两个完全连接节点层,解码器镜像该配置。在一些实施方式中,解码器可以不镜像编码器的配置。编码器可以不局限于这些确切配置,并且可以包括前馈层、卷积神经网络、ReLU激励,等等。
克隆解码器125可以包括任何适当的解码器。克隆解码器125可以通过采用L2范数的损失函数而得到优化。在一些实施方式中,第三项可以被表达为
Figure BDA0002950270590000131
其中m是等效信号的集合的数量,N是克隆编码器的数量,
Figure BDA0002950270590000132
是克隆编码器之一所生成的显著特征矢量,
Figure BDA0002950270590000133
是干净输入的适当信号表示(即,目标信号),其具有维数P,fφ
Figure BDA0002950270590000134
是具有学习参数φ的克隆解码器网络125,其将具有维数Q(例如,
Figure BDA0002950270590000135
)的矢量映射至维数P的矢量(例如,vi),并且其中求和是在m个等效输入的集合上。在一些实施方式中,用来计算第三项的克隆编码器的数量(N)可以小于克隆编码器115的数量。在一些实施方式中,第三项可以被加权。在一些实施方式中,第三项的权重可以高于第二项的权重。例如,当第二项的权重为1.0时,第三项的权重可以是18.0。在一些实施方式中,第三项的权重可以为零。在这样的实施方式中,训练是无监督的。目标函数的第三项可以由解码器损失优化器150来计算,其被配置为测量解码输出与如上文所概述的目标信号的相似性以及确定要调整哪些权重Ψ以例如最小化重构信号和目标信号之间的差异。参数φ也可以在训练期间来学习。
系统100可以包括其它计算设备(未示出)或者与之进行通信。例如,其它设备可以提供训练数据103、修改引擎105和/或等效信号110的集合。此外,系统100可以在互相通信的多个计算设备中实施。因此,显著特征提取系统100表示一种示例配置,并且其它配置是可能的。此外,系统100的组件可以以与所图示不同的方式被组合或分布。
图2图示了依据所公开主题的用于推断的示例系统200。系统200是显著特征可以被如何使用的一个示例。在系统200的示例中,显著特征被用来条件化生成网络225。系统200是一个计算设备或者是采用多个不同设备的形式的多个设备,例如标准服务器、这样的服务器的群组、机架式服务器系统、互相通信的两个计算机,等等。此外,系统200可以在例如台式或膝上计算机的个人计算机中实施。系统200可以是如图6所示的计算机设备600或者如图7所示的计算机设备700的示例。
虽然图2中并未示出,但是系统200可以包括形成于基底中的一个或多个处理器,其被配置为执行一个或多个机器可执行指令或者多个软件、固件或它们的组合。处理器可以是基于半导体的——也就是说,处理器可以包括能够执行数字逻辑的半导体材料。处理器可以是专用处理器,诸如图形处理单元(GPU)。系统100还可以包括操作系统以及一个或多个被配置为临时地、持久地、半持久地或者以上述方式的组合来存储一个或多个数据的计算机存储器,例如主存储器。存储器可以包括以能够被一个或多个处理器读取和/或执行的格式存储信息的任何类型的存储设备。存储器可以包括易失性存储器、非易失性存储器,或者它们的组合,并且存储在被一个或多个处理器执行时实行某些操作的模块。在一些实施方式中,模块可以被存储在外部存储设备中并且被加载到系统200的存储器中。
系统200包括编码器215。编码器215表示图1的克隆编码器115中的编码器之一。换句话说,编码器215是经训练的编码器,具有已经被优化以根据给定输入210产生显著特征220的权重Ψ。由于克隆编码器115中的编码器共享相同的权重Ψ,所以它们是相同的编码器并且任何编码器(115(1)至115(N))都可以被用作推断模式中的编码器215。换句话说,由于编码器使用权重来将输入映射至输出,所以在克隆编码器115中仅使用一个权重的集合,权重Ψ表示该编码器。因此,由系统100所确定的权重Ψ使得编码器215能够将输入210映射至显著特征220。输入210是与用来训练图1的克隆编码器115的信号相同格式的信号。例如,输入210可以是40ms话音的mel频率块。编码器215将输入210映射至显著特征220。系统200可以将显著特征220提供至生成网络225。在一些实施方式中,系统200可以压缩和/或存储显著特征220并且将特征220传送至生成网络225。生成网络225随后使用显著特征220和输入210以便进行条件化。条件化是一种向网络225提供特征以产生特定特性的方法。显著特征220提供了更好的用于条件化的特征。在系统200的示例中,生成网络225被条件化为关注于输入210的显著特征,这使得网络225对于诸如噪声和失真之类的修改是鲁棒的。虽然图2中并未示出,但是系统200在推断模式下将许多不同输入作为输入210进行处理。例如,系统200可以将较长的音频录音拆分为帧,例如20ms或40ms,并且将该录音中的每一帧作为单独的输入210处理,针对每个输入210提供相应的显著特征220以便进行条件化。
系统200是显著特征220的一种示例用途,但是显著特征可以以其它方式被使用。例如,显著特征220可以被用来以压缩格式存储或传送数据。当显著特征220稀疏时,它们可以被压缩为明显更小的大小并且利用比原始信号更小的带宽被传送。诸如在训练编码器时使用的解码器之类的解码器可以重新生成压缩的显著特征。此外,虽然已经在总体上关于话音对图1和图2进行了讨论,但是实施方式并不局限于此。例如,实施方式可以利用来自图像、音乐、视频等的文件的输入被适配以便使用。
图3是依据所公开主题的用于识别并使用显著特征的示例过程的流程图。过程300可以由诸如图1的系统100和图2的系统200之类的显著特征系统来执行。过程300可以通过获得针对干净输入批次的输入的集合(305)作为开始。干净输入可以来自于数据库,例如数百小时话音的数据库、图像库集等。干净输入不需要在常规意义上是干净的,仅是针对其生成等效信号的信号。在这个意义上来说,干净信号表示数据点批次中的一个数据点。针对每个干净输入,该系统还获得多个等效输入。系统设计者可以选择对干净输入所进行的修改的类型从而获得等效输入。系统因此获得等效输入的集合。在一些实施方式中,集合可以包括干净输入以及多个等效输入。在一些实施方式中,集合可以不包括干净输入,但是仍然被称为与干净输入相关联。等效输入的数量是取决于实施方式的,并且是训练时间、计算资源和准确性之间的权衡。一般而言,使用少于100个等效输入。在一些实施方式中,可以使用少于50个等效输入。在一些实施方式中,可以使用少于20个等效输入。等效输入的集合中的每个输入是基于干净输入。例如,可以向干净输入添加不同的伪像。可以对干净输入进行不同的失真。可以向干净输入添加不同的噪声。总体上,经修改的输入是针对干净输入所进行的任何修改,但是例如在内容和理解方面仍然被认为与干净输入是等效的。克隆编码器学习忽略该额外信息。系统可以训练克隆编码器的集合,即共享权重的多个编码器,以从等效输入的集合提取显著特征(310)。该过程关于图4更详细地描述。一旦克隆编码器被训练,即优化权重的集合被确定,权重就表示经训练的编码器,其也被称作显著特征编码器。系统使用显著特征编码器(即,使用优化权重)针对输入提取显著特征(315)。输入是类似于在步骤305中所使用的训练输入的类型。输入也被称作条件化输入信号。在一些实施方式中,输入信号可以被解析为若干输入,例如音频文件的多个时间序列、视频文件的多个像素块,等等。每个经解析的分量,例如每个时间序列,可以被系统用作单独的输入。系统可以使用显著特征和条件化输入来条件化生成网络(320)或者进行压缩(325)。在一些实施方式中,系统可以在将特征传送至生成网络以进行条件化(320)之前压缩并存储显著特征(325)。虽然在图3中被示为在步骤315中用于一个输入,但是系统可以重复步骤315以及步骤320或325中的任一个任意次数。例如,系统可以针对视频或音频文件中的帧或者针对图像文件中的像素块重复地执行步骤315。因此,所要理解的是,过程300包括按照需要利用不同输入重复步骤315以及步骤320或325中的任一个。因此,过程300的该部分可以在时间序列、大型图像等上被使用。
图4是依据所公开主题的用于训练编码器以识别显著特征的示例过程400的流程图。过程400可以由诸如图1的系统100的显著特征系统来执行。过程400可以以干净输入之一作为开始(405)。干净输入表示训练数据点。训练数据可以是音频或视频文件的帧,可以是指定时间(例如,20ms、30ms、40ms)的音频或视频文件,可以是来自图像的指定大小的像素块,等等。干净输入与等效输入的集合相关联。如关于图3的步骤305所讨论的,等效输入的集合包括干净输入以及一个或多个经修改的输入。系统为克隆编码器的集合(多个克隆编码器)中的每个编码器提供来自等效输入的集合的一个相应输入(410)。因此,该集合中的每个编码器从等效输入的集合接收不同输入。克隆编码器共享权重。每个编码器基于所共享的权重提供输出(415)。编码器的输出表示相应输入的显著特征。系统可以针对不同的干净输入重复生成显著特征的过程(420,是)直至已经对干净输入批次进行了处理(420,否)。批次可以具有足以使得分布测量正确执行的大小(例如,m)。系统随后可以调整共享权重而最小化全局损失函数,所述全局损失函数最大化等效性、独立性、方差以及可选地稀疏性和/或信号重构(425)。全局损失函数具有第一项,该第一项最大化每个编码器针对等效输入的集合所提取的显著特征的相似性。因此,每个编码器得以被促进以针对给定的等效输入的集合提取与其它编码器相同的特征。全局损失函数具有第二项,该第二项最大化独立性和方差。第二项强制显著特征具有特定的分布。分布可以是稀疏分布,例如促进显著特征的稀疏性。第二项利于解耦(disentangled)的特征。一些实施方式可以在全局损失函数中包括确保显著特征能够被映射至目标输入的第三项。目标输入可以从针对等效输入的集合的干净输入所得出。目标输入可以是干净输入。目标输入可以是等效输入的集合中的任何输入。目标函数关于图1被更详细地描述。系统利用新调整的权重重复过程400直至收敛,例如权重导致将目标函数最小化至可接受程度的映射,或者直至预定数量的训练迭代已经被执行。当过程400完成时,编码器的最优权重已经被确定并且该权重可以在推断模式下使用。
图5A至5C论证了所公开实施方式提供的益处。图5A是图示与常规系统相比较的针对各种实施方式的收听测试结果的图形。在图5A的示例中,训练数据库包括100小时的话音和200个讲话者以及噪声的混合语料库。噪声的混合语料库包括来自在包括繁忙街道、咖啡店和游泳池在内的各种环境中捕捉的大约1000个录音的静态和非静态噪声。针对克隆编码器中的编码器的输入是包括含有讲话的信号的32个不同版本的等效输入的集合。等效输入的集合包括干净讲话以及具有从0至10dB信噪比(SNR)的噪声添加的版本。
在图5A的示例中,信号被预处理为过采样的对数mel频谱表示。在一些实施方式中,使用单窗口(sw)方法。单窗口(sw)方法使用40ms,其具有20ms的时间偏移以及针对每个时间偏移的80个系数的表示的分辨率。在一些实施方式中,使用双窗口(dw)方法。在双窗口(dw)方法中,每个20ms偏移与一个40ms的窗口和两个20ms的窗口相关联,所述两个20ms的窗口位于该40ms窗口的5-25和15-45ms处。20ms窗口利用80个对数mel频谱系数进行描述,针对每个20ms的偏移的总共240个系数(维度)。标记为SalientS的实施方式在训练期间使用解码器(有监督的)。标记为SalientU的实施方式使用无监督训练。当使用解码器时(有监督训练),干净信号的mel频谱被用作目标信号。每个实施方式(例如,有监督/无监督、sw/dw)被用来条件化不同的WaveNet。经条件化的WaveNet被提供有干净(-干净)和有噪声(-有噪声)输入,并且使用类似MUSHRA的收听测试来评估输出。
图5A中被图示为基准的常规系统使用基于主成分分析(PCA)的特征集合,该主成分分析(PCA)从双窗口(dw)数据的240维矢量中提取12个特征。针对在训练期间被用作针对克隆编码器的输入的信号计算PCA。还图示了提取四个特征的PCA。
图5A图示了使用所公开实施方式条件化的WaveNet针对噪声更加鲁棒,明显优于基准系统。更具体地,利用单窗口的无监督学习(SalientU-sw)为自然话音质量提供了良好的讲话者身份,但是对于短持续时间的音素的误差相当频繁。干净(SalientU-sw-干净)输入信号的误差数量比有噪声(SalientU-sw-有噪声)输入信号的更低。有监督学习减少了针对干净输入的有噪声输入的误差。针对有噪声输入,通过使用双窗口进一步减少误差,几乎达到了利用干净输入所获得的质量。
图5B和5C是图示所公开实施方式与其它基准系统的比较的图形。图5B图示了各种实施方式与SEAGAN之间的比较。图5C图示了各种实施方式与去噪WaveNet之间的比较。在图5B和5C的示例中,使用了两种大小的模型。第一实施方式(SalientS和SalientP)具有两个LSTM单元层以及一个完全连接层,每一个具有800个节点。第二实施方式(SalientL)具有4个LSTM层和2个完全连接节点层,同样每层有800个节点。图5B和5C中图示的所有实施方式都使用有监督训练,其中解码器镜像编码器配置。在图5B和5C的示例实施方式中,训练处理来自以50%重叠的六个40ms的双窗口mel频率帧的16kHz输入的序列。针对每帧总共240个mel频率槽(frequency bin),每个双窗口帧包括来自一个40ms窗口以及两个20ms窗口(位于40ms窗口的5-25和15-45ms处)的80个mel频率槽。克隆编码器利用线性激励每帧输出12个值作为显著特征(例如,每帧12个显著特征)。将干净话音用于教师强制(teacherforcing)和负对数似然损失,显著特征在来自训练集的完整讲话上被推断以针对WaveNet创建条件化训练数据。SalientL和SalientS示例在(Valetini等人提供的)VoiceBank-DEMAND话音增强数据集上进行训练。此外,SalientP示例在WSJ0数据集上预先训练并且在训练中间切换至VoiceBank-DEMAND。
图5B图示了在收听测试(类似MUSHRA)中,实施方式匹配或超过了SEGAN的性能。图5C图示了实施方式在所有SNR范围都优于去噪WaveNet。SEGAN和去噪WaveNet是开发生成网络但是至少部分被优化以重构地面真值波形的常规系统的示例。因此,图5B和5C论证了并不尝试重构地面真值的实施方式优于这样的方法。
图6示出了可以随本文所描述的技术使用的一般计算机设备600的示例,所述一般计算机设备600可以是图1的系统100或者图2的系统200。计算设备600意在表示各种示例形式的计算设备,诸如膝上计算机、台式机、工作站、个人数字助理、蜂窝电话、智能电话、平板电脑、服务器,以及其它计算设备,包括可穿戴设备。本文所示出的组件、它们的连接和关系以及它们功能仅意在作为示例,而并非意在对本文中所描述和/或要求保护的发明的实施方式加以限制。
计算设备600包括处理器602、存储器604、存储设备606,以及经由接口608连接的扩展端口610。在一些实施方式中,除了其它组件之外,计算设备600可以包括经由接口608连接的收发器646、通信接口644和GPS(全球定位系统)接收器模块648。设备600可以在必要情况下通过可以包括数字信号处理电路的通信接口644进行无线通信。组件602、604、606、608、610、640、644、646和648中的每一个可以安装在共用主板上,或者以其它适宜方式进行安装。
处理器602能够处理指令以便在计算设备600内执行以在诸如显示器616的外部输入/输出设备上显示用于GUI的图形信息,所述指令包括存储在存储器604中或者存储设备606上的指令。显示器616可以是监视器或平面触摸屏显示器。在一些实施方式中,如果适宜,可使用多个处理器和/或多个总线,以及多个存储器和多种类型的存储器。而且,多个计算设备600可以与每个提供必要操作的部分的设备相连接(例如,作为服务器组、刀锋服务器群组或者多处理器系统)。
存储器604存储计算设备600内的信息。在一种实施方式中,存储器604是一个或多个易失性存储器单元。在另一种实施方式中,存储器604是一个或多个非易失性存储器单元。存储器604还可以是其它形式的计算机可读介质,诸如磁盘或光盘。在一些实施方式中,存储器604可以包括通过扩展接口提供的扩展存储器。
存储设备606能够为计算设备600提供大容量存储。在一种实施方式中,存储设备606可以是或者可包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备,闪存或其它类似固态存储器设备,或者设备阵列,包括存储区域网络或其它配置中的设备。计算机程序产品可以以有形的方式提现在这样的计算机可读介质中。该计算机程序产品还可以包含指令,所述指令在被执行时实行诸如以上所描述的一种或多种方法。该计算机或机器可读介质是诸如存储器604、存储设备606、处理器602上的存储器的存储设备。
接口608可以是管理计算设备600的带宽密集操作的高速控制器或者是管理较低带宽密集操作的低速控制器,或者这样的控制器的组合。可以提供外部接口640从而使得设备600能够与其它设备进行近区域通信。在一些实施方式中,控制器608耦合至存储设备606和扩展端口614。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的扩展端口可以例如通过网络适配器耦合至一个或多个输入/输出设备,诸如键盘、指示设备、扫描仪,或者诸如交换机或路由器的联网设备。
如图所示,计算设备600能够以各种不同形式来实施。例如,其可以实施为标准服务器630,或者这种服务器的群组中多次实施。其还可以被实施为机架式服务器系统的一部分。此外,其可以在诸如膝上计算机622的个人计算机或智能电话636中实施。整个系统可包括多个互相通信的多个计算设备600。其它配置是可能的。
图7示出了可以随本文所描述的技术使用的一般计算机设备700的示例,所述一般计算机设备700可以是图1的系统100或者图2的系统200。计算设备700意在表示各种示例形式的大规模数据处理设备,诸如服务器、刀锋服务器、数据中心、大型机,以及其它大规模计算设备。计算设备700可以是具有多个处理器的分布式系统,其可能包括通过一个或多个通信网络互连的附接网络的存储节点。本文所示出的组件、它们的连接和关系以及它们功能仅意在作为示例,而并非意在对本文中所描述和/或要求保护的发明的实施方式加以限制。
分布式计算系统700可以包括任意数量的计算设备780。计算设备780可以包括通过局域网或广域网、专用光学链路、调制解调器、网桥、路由器、交换机、有线或无线网络等进行通信的服务器或机架式服务器、大型机等。
在一些实施方式中,每个计算设备可以包括多个机架。例如,计算设备780a包括多个机架758a-758n。每个机架可以包括一个或多个处理器,诸如处理器752a-752n和762a-762n。处理器可以包括数据处理器、附接网络的存储设备,以及其它计算机控制的设备。在一些实施方式中,一个处理器可以作为主处理器操作并且控制调度和数据分布任务。处理器可以通过一个或多个机架交换机758进行互连,并且在机架可以通过交换机778连接。交换机778可以处置多个连接的计算设备700之间的通信。
每个机架可以包括诸如存储器754和存储器764的存储器,以及诸如756和766的存储。存储756和766可以提供大容量存储并且可以包括易失性或非易失性存储,诸如附接网络磁盘、软盘、硬盘、光盘、磁带,闪存或其它类似固态存储器设备,或者设备阵列,包括存储区域网络或其它配置中的设备。存储756或766可以在多个处理器、多个机架或多个计算设备之间共享,并且可以包括存储能够由一个或多个处理器所执行的指令的计算机可读介质。存储器754和764例如可以包括一个或多个易失性存储器单元、一个或多个非易失性存储器单元和/或诸如磁盘或光盘、闪存、高速缓存、随机访问存储器(RAM)、只读存储器(ROM)的其他形式的计算机可读介质以及它们的组合。诸如存储器754的存储器也可以在处理器752a-752n之间共享。诸如索引的数据结构例如可以跨存储756和存储器754进行存储。计算设备700可以包括其它未示出的组件,诸如控制器、总线、输入/输出设备、通信模块,等等。
诸如系统100的整个系统可以包括互相通信的多个计算设备700。例如,设备780a可以与设备780b、780c和780d通信,并且这些可以被统称为系统100。作为另一个示例,图1的系统100可以包括一个或多个计算设备700。一些计算设备可以在地理上位于彼此接近,而其它的则可能在地理上远离。系统700的布局仅作为示例并且该系统可以采用其它布局或配置。
根据一个方面,一种用于识别生成网络的特征的方法包括获得针对输入批次中的每个干净输入的输入的集合,该输入的集合包括至少一个经修改输入,每个经修改输入是干净输入的不同修改版本。该方法还包括训练具有权重的编码器以通过针对输入批次中的每个输入的集合执行以下操作来提供输入的特征:将该输入的集合提供至一个或多个克隆编码器,每个克隆编码器共享权重,并且一个或多个克隆编码器中的每一个接收该输入的集合中不同的相应输入,并且修改该权重以最小化全局损失函数。全局损失函数具有第一项以及第二项,该第一项最大化该输入的集合的特征之间的相似性,该第二项最大化该编码器所生成的特征内的独立性和单位方差,该编码器是一个或多个编码器之一。该方法可以包括使用编码器提取新输入的特征并且将所提取的特征提供至生成网络。该方法可以包括压缩新输入的特征并且存储该特征。
这些和其它方面可以单独或组合地包括以下的一个或多个。例如,将所提取的特征提供至生成网络可以包括解码所压缩的特征和/或传送特征。作为另一个示例,第一项可以测量从输入的集合的第一输入所提取的特征与从该输入的集合的每个其余输入所提取的特征之间的差异。作为另一个示例,第一项可以测量从输入的集合的每个输入所提取的特征与从该输入的集合的每个其余输入所提取的特征之间的差异。作为另一个示例,第二项可以最小化指定分布和编码器在输入批次上所提取的第一特征的分布之间的最大均值偏差。在一些实施方式中,该指定分布是拉普拉斯分布。在一些实施方式中,该指定分布是高斯分布。在一些实施方式中,第二项可以被表达为
Figure BDA0002950270590000241
Figure BDA0002950270590000242
其中M是批次的大小,k(·,·)是核,z表示输入的集合中的输入的显著特征,并且y则根据指定分布来取得。
作为另一个示例,第二项可以进一步最大化所提取特征内的稀疏性。作为另一个示例,全局损失函数具有第一项、第二项,以及最大化解码输入和目标输入之间的相似性的第三项,该解码输入是所提取特征的解码版本。在一些实施方式中,最大化解码输入和目标输入之间的相似性包括将一个或多个克隆解码器中的解码器所产生的特征提供至解码器;并且调整该解码器的权重以匹配目标输入。在一些实施方式中,目标输入可以表征与输入的集合相关联的干净输入的短期频谱特性。在一些实施方式中,解码器是一个或多个克隆解码器之一,克隆解码器与克隆编码器具有一对一关系。
根据一个方面,一种方法包括接收输入信号,并且将输入信号解析为多个时间序列。该方法还包括针对多个时间序列中的每个时间序列,通过将该时间序列提供至作为一个或多个克隆编码器之一的被训练以提取特征的编码器而提取该时间序列的特征。克隆编码器共享权重并且在训练期间最小化全局损失函数。该全局损失函数最大化该克隆编码器中的每一个所输出的特征之间的相似性,并且最大化该编码器所生成的特征之内的独立性、单位方差和稀疏性。该方法可以包括压缩所提取的特征。该方法可以包括传送和/或存储所提取的特征。存储和/或传送可以是压缩特征的。该方法可以包括使用特征条件化生成网络。该方法可以包括解压缩特征并且使用特征条件化生成网络。
这些和其它方面可以单独或组合地包括以下的一个或多个。例如,在训练期间,克隆编码器中的每个编码器可以接收来自信号的集合的相应的输入信号,来自该信号的集合的每个输入信号表示干净输入信号或者干净输入信号的不同修改。作为另一个示例,独立性、单位方差和稀疏性可以利用强制的拉普拉斯分布而被最大化。作为另一个示例,经条件化的生成网络可以产生话音波形并且时间序列可以包括mel频率槽。在一些这样的实施方式中,该条件化导致了在话音流形内产生伪像的生成网络。作为另一个示例,经条件化的生成网络可以产生图像。
根据一个方面,一种方法包括获得针对输入批次中的每个干净输入的输入的集合,针对干净输入的输入的集合包括至少一个经修改输入,每个经修改输入是该干净输入的不同修改版本。该方法还包括训练具有权重的编码器以针对输入批次中的每个输入的集合生成特征。训练包括针对每个输入的集合,将来自该输入的集合的相应输入提供至一个或多个克隆编码器,该克隆编码器共享权重,其中一个或多个克隆编码器中的每一个接收该输入的集合中的不同的相应输入,并且修改所共享的权重以最小化全局损失函数。全局损失函数具有第一项以及第二项,该第一项最大化克隆编码器针对该输入的集合所生成的特征之间的相似性,该第二项最大化编码器所生成的特征内的独立性和单位方差,该编码器是一个或多个克隆编码器之一。该方法还可以包括使用该编码器提取新输入的显著特征。
这些和其它方面可以单独或组合地包括以下的一个或多个。例如,该方法可以包括压缩针对新输入所提取的显著特征,并且将所压缩的针对新输入所提取的显著特征存储为压缩输入。在一些实施方式中,存储特征可以包括将压缩特征传送至远程计算设备,该远程计算设备存储压缩特征。在一些实施方式中,该远程计算设备解压缩特征并且使用解码器根据该解压缩的特征生成重构输入。作为另一个示例,全局损失函数可以包括最小化重构目标输入中的误差的第三项。在这样的实施方式中,该方法可以进一步包括将克隆编码器所产生的特征提供至解码器并且利用目标输入调整编码器的共享权重以最小化重构损失。
根据一个方面,一种方法包括接收输入信号,并且通过将该输入信号提供至被训练以提取显著特征的编码器而提取该输入信号的显著特征。显著特征是独立的并且具有稀疏分布。编码器可以被配置为根据系统设计者认为等效的两个输入信号生成几乎相同的特征。该方法还包括使用显著特征条件化生成网络。在一些实施方式中,该方法还包括从输入信号提取多个时间序列并且针对每个时间序列提取显著特征。
根据一个方面,一种非瞬态计算机可读存储介质存储显著特征编码器的权重,该权重已经通过包括操作的训练过程而被确定,所述操作包括使用共享权重的克隆编码器针对输入批次最小化具有第一项和第二项的全局损失函数,该输入批次是多个等效输入的集合,每个克隆编码器接收等效输入的集合中的不同一个。全局损失函数的第一项最大化克隆编码器的输出之间的相似性。全局损失函数的第二项最大化至少一个克隆编码器的输出中的特征之间的独立性和方差。等效输入的集合可以包括干净输入以及干净输入的不同修改版本。这些和其它方面可以单独或组合地包括以下中的一个或多个。例如,每个克隆编码器的输出可以是稀疏特征矢量。在这样的实施方式中,该全局损失函数的第二项可以例如通过施加(强制)拉普拉斯分布而最大化稀疏性。作为另一个示例,该全局损失函数可以包括与目标输入的重构相关的第三项。在这样的实施方式中,该第三项可以最小化解码器的输出和目标信号之间的差异,该解码器接收克隆编码器的输出作为输入。该解码器可以镜像该编码器。
根据一个方面,一种系统包括至少一个处理器,存储多个克隆编码器的存储器,该多个克隆编码器中的编码器共享权重,以及用于训练克隆编码器以根据输入产生稀疏特征矢量的装置。在一些实施方式中,该系统可以包括用于使用采用共享权重的编码器以根据新输入生成稀疏特征矢量以及使用该稀疏特征矢量条件化生成网络的装置。在一些实施方式中,该系统可以包括用于使用采用共享权重的编码器以针对输入生成显著特征的装置,用于压缩所生成的显著特征的装置,以及用于存储显著特征的装置。
根据一个方面,一种系统包括至少一个处理器,用于获得条件化输入信号的装置,用于从条件化输入信号提取序列的装置,以及用于根据每个序列提取显著特征的装置。一些实施方式可以包括用于使用显著特征条件化生成网络的装置。一些实施方式可以包括用于压缩显著特征并且存储显著特征的装置。
根据一个方面,一种系统包括至少一个处理器和存储指令的存储器,所述指令在被至少一个处理器执行时使得该系统实行本文所公开的任意方法。
各种实施方式可以包括能够在包括至少一个可编程处理器的可编程系统上执行和/或解释的一个或多个计算机程序的实施方式,所述可编程处理器可以是专用或通用的,其被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。
这些计算机程序(也被称作程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且能够以高级过程和/或面向对象的编程语言来实施,和/或以汇编/机器语言来实施。如本文所使用的,术语“机器可读介质”、“计算机可读介质”是指用来向可编程处理器提供机器指令和/或数据的任何非瞬态计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器(包括读取访问存储器)、可编程逻辑设备(PLD))。
本文所描述的系统和技术可以在计算系统中实施,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户能够通过其与本文所描述的系统和技术的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机),或者这样的后端、中间件或前端组件的任意组合。该系统的组件可以通过任意形式或介质的数字数据通信(例如,通信网络)进行互联。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般互相远离并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且互相具有客户端-服务器关系的计算机程序产生。
已经描述了多种实施方式。然而,可以进行各种修改而并不背离本发明的精神和范围。此外,在图中描绘的逻辑流程并不要求所示出的特定顺序或者连续顺序来实现所期望的结果。此外,可以提供其它步骤,或者步骤可以从所描述的流程中被消除,并且可以向所描述的系统添加其它组件或者从中去除组件。因此,其它实施方式处于以下权利要求的范围之内。

Claims (25)

1.一种用于识别生成网络的特征的方法,所述方法包括:
获得针对输入批次中的每个干净输入的输入的集合,所述输入的集合包括至少一个经修改输入,每个经修改输入是所述干净输入的不同经修改版本;
训练具有权重的编码器以通过针对所述输入批次中的每个输入的集合执行以下操作来提供输入的特征:
将该输入的集合提供至一个或多个克隆编码器,每个克隆编码器共享权重,并且所述一个或多个克隆编码器中的每个克隆编码器接收该输入的集合中不同的相应输入,以及
修改所述权重以最小化全局损失函数,所述全局损失函数具有第一项以及第二项,所述第一项最大化该输入的集合的特征之间的相似性,所述第二项最大化由所述编码器生成的所述特征内的独立性和单位方差,所述编码器是所述一个或多个编码器之一;以及
使用所述编码器提取新输入的特征并且将所提取的特征提供至所述生成网络。
2.根据权利要求1所述的方法,其中所述第一项测量从所述输入的集合中的第一输入提取的特征与从来自所述输入的集合的每个其余输入提取的特征之间的差异。
3.根据权利要求1所述的方法,其中所述第一项测量从所述输入的集合中的每个输入提取的特征与从所述输入的集合中的每个其余输入提取的特征之间的差异。
4.根据权利要求1至3中任一项所述的方法,其中所述第二项最小化指定分布和由所述编码器在所述输入批次上提取的第一特征的分布之间的最大均值偏差。
5.根据权利要求4所述的方法,其中所述指定分布是拉普拉斯分布。
6.根据权利要求4所述的方法,其中所述指定分布是高斯分布。
7.根据权利要求4至6中任一项所述的方法,其中所述第二项被表达为:
Figure FDA0002950270580000021
其中:
M是所述批次的大小,k(·,·)是核,z表示所述输入的集合中的输入的显著特征,并且y根据所述指定分布取得。
8.根据权利要求1至7中任一项所述的方法,其中所述第二项进一步最大化提取的特征内的稀疏性。
9.根据权利要求1至8中任一项所述的方法,其中所述全局损失函数具有所述第一项、所述第二项以及第三项,所述第三项最大化解码输入和目标输入之间的相似性,所述解码输入是提取的特征的解码版本。
10.根据权利要求9所述的方法,其中最大化所述解码输入和所述目标输入之间的相似性包括:
将由所述一个或多个克隆编码器中的编码器产生的所述特征提供至解码器;以及
调整所述解码器的权重以匹配所述目标输入。
11.根据权利要求9或10所述的方法,其中所述目标输入表征与所述输入的集合相关联的干净输入的短期频谱特性。
12.根据权利要求10或在其引用权利要求10时的权利要求11所述的方法,其中所述解码器是一个或多个克隆解码器之一,所述克隆解码器与所述克隆编码器具有一对一关系。
13.一种方法,包括:
接收输入信号;
针对从所述输入信号提取的多个时间序列中的每个时间序列:
通过将该时间序列提供至作为一个或多个克隆编码器之一的、被训练以提取特征的编码器来提取该时间序列的特征,其中所述克隆编码器共享权重并且在训练期间最小化全局损失函数,所述全局损失函数最大化由所述克隆编码器中的每个克隆编码器输出的所述特征之间的相似性并且最大化由所述编码器生成的特征内的独立性、单位方差和稀疏性;以及
使用所述特征条件化生成网络。
14.根据权利要求13所述的方法,其中在训练期间,所述克隆编码器中的每个编码器接收来自信号的集合的相应的输入信号,来自所述信号的集合的每个输入信号表示干净输入信号或者所述干净输入信号的不同修改。
15.根据权利要求13或14所述的方法,其中独立性、单位方差和稀疏性利用强制的拉普拉斯分布而被最大化。
16.根据权利要求13至15中任一项所述的方法,其中所条件化的生成网络产生话音波形并且所述时间序列包括mel频率槽。
17.根据权利要求16所述的方法,其中所述条件化导致所述生成网络在话音流形内产生伪像。
18.根据权利要求13至17中任一项所述的方法,其中所条件化的生成网络产生图像。
19.一种方法,包括:
获得针对输入批次中的每个干净输入的输入的集合,针对干净输入的所述输入的集合包括至少一个经修改输入,每个经修改输入是所述干净输入的不同经修改版本;
训练具有权重的编码器以通过针对每个输入的集合执行以下操作来针对所述输入批次中的每个输入的集合生成特征:
将来自该输入的集合的相应输入提供至一个或多个克隆编码器,所述克隆编码器共享所述权重并且包括所述编码器,其中所述一个或多个克隆编码器中的每个克隆编码器接收该输入的集合中的不同的相应输入,以及
修改所共享的权重以最小化全局损失函数,所述全局损失函数具有第一项以及第二项,所述第一项最大化由所述克隆编码器针对该输入的集合生成的特征之间的相似性,所述第二项最大化由所述编码器生成的所述特征内的独立性和单位方差;
使用所述编码器提取新输入的显著特征;
压缩针对所述新输入提取的所述显著特征;以及
将所压缩的针对所述新输入提取的显著特征存储为压缩输入。
20.根据权利要求19所述的方法,其中存储所述特征包括:
将所压缩的特征传送至远程计算设备,所述远程计算设备存储所压缩的特征。
21.根据权利要求20所述的方法,其中所述远程计算设备解压缩所述特征并且使用解码器根据所解压缩的特征生成重构输入。
22.根据权利要求19至21中任一项所述的方法,其中所述全局损失函数包括最小化重构目标输入中的误差的第三项,并且所述方法进一步包括:
将由所述克隆编码器产生的所述特征提供至解码器;以及
利用所述目标输入调整所述编码器的所共享的权重以最小化重构损失。
23.一种方法,包括:
接收输入信号;
通过将所述输入信号提供至被训练以提取显著特征的编码器来提取所述输入信号的显著特征,所述显著特征是独立的并且具有稀疏分布,并且所述编码器被配置为根据系统设计者认为等效的两个输入信号生成几乎相同的特征;以及
使用所述显著特征条件化生成网络。
24.根据权利要求23所述的方法,进一步包括:
从所述输入信号提取多个时间序列;以及
针对从所述输入信号提取的每个时间序列提取所述显著特征。
25.一种系统,包括:
至少一个处理器;和
存储指令的存储器,所述指令在被所述至少一个处理器执行时使得所述系统执行根据权利要求1至24中任一项所述的方法。
CN201980055674.2A 2019-05-16 2019-05-16 识别生成网络的显著特征 Pending CN112639832A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/032665 WO2020231437A1 (en) 2019-05-16 2019-05-16 Identifying salient features for generative networks

Publications (1)

Publication Number Publication Date
CN112639832A true CN112639832A (zh) 2021-04-09

Family

ID=66691048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980055674.2A Pending CN112639832A (zh) 2019-05-16 2019-05-16 识别生成网络的显著特征

Country Status (4)

Country Link
US (1) US20210287038A1 (zh)
EP (1) EP3903235A1 (zh)
CN (1) CN112639832A (zh)
WO (1) WO2020231437A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495968A (zh) * 2022-03-30 2022-05-13 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10971142B2 (en) * 2017-10-27 2021-04-06 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495968A (zh) * 2022-03-30 2022-05-13 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114495968B (zh) * 2022-03-30 2022-06-14 北京世纪好未来教育科技有限公司 语音处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020231437A1 (en) 2020-11-19
US20210287038A1 (en) 2021-09-16
EP3903235A1 (en) 2021-11-03

Similar Documents

Publication Publication Date Title
CN108735202B (zh) 用于小占用资源关键词检索的卷积递归神经网络
WO2020064990A1 (en) Committed information rate variational autoencoders
Li et al. Real-time speech frequency bandwidth extension
US11990148B2 (en) Compressing audio waveforms using neural networks and vector quantizers
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
CN115426075A (zh) 语义通信的编码传输方法及相关设备
Şimşekli et al. Non-negative tensor factorization models for Bayesian audio processing
JP4981122B2 (ja) 抑制されたベクトル量子化
JP2023545820A (ja) フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル
CN114267366A (zh) 通过离散表示学习进行语音降噪
CN112639832A (zh) 识别生成网络的显著特征
WO2022213825A1 (zh) 基于神经网络的端到端语音增强方法、装置
Shahnawazuddin et al. Sparse coding over redundant dictionaries for fast adaptation of speech recognition system
US20230267315A1 (en) Diffusion Models Having Improved Accuracy and Reduced Consumption of Computational Resources
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
Raj et al. Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder
CN117616498A (zh) 使用神经网络和向量量化器压缩音频波形
US20240177727A1 (en) Method performed by electronic device and apparatus
US11978464B2 (en) Trained generative model speech coding
US20220076077A1 (en) Quality estimation model trained on training signals exhibiting diverse impairments
Deshpande et al. Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency Reconstruction of Long, Lossy Audio Sequences
Gómez et al. Low-complexity Real-time Neural Network for Blind Bandwidth Extension of Wideband Speech
Sach et al. A Maximum Entropy Information Bottleneck (MEIB) Regularization for Generative Speech Enhancement with HiFi-GAN
JP2024518766A (ja) ニューラル画像圧縮におけるオンライン訓練ベースのエンコーダ調整
JP2024519675A (ja) 圧縮領域におけるマルチレートのコンピュータビジョンタスクニューラルネットワーク

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination