CN114267366A - 通过离散表示学习进行语音降噪 - Google Patents
通过离散表示学习进行语音降噪 Download PDFInfo
- Publication number
- CN114267366A CN114267366A CN202111039819.5A CN202111039819A CN114267366A CN 114267366 A CN114267366 A CN 114267366A CN 202111039819 A CN202111039819 A CN 202111039819A CN 114267366 A CN114267366 A CN 114267366A
- Authority
- CN
- China
- Prior art keywords
- audio
- clean
- noisy
- trained
- representations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 15
- 238000000137 annealing Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 3
- 230000002860 competitive effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013476 bayesian approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本申请公开了一种用于训练降噪系统的计算机实现的方法。从综合的观点来看,本文开发和呈现的是用于音频降噪的新端到端方法的实施例。与在文本转语音系统中一样,实施例不是对输入信号中的噪声分量进行显式建模,而是直接从生成模型(或声码器)合成经降噪的音频。在一个或多个实施例中,为了生成用于自回归生成模型的语音内容,经由具有离散潜在表示的变分自编码器来进行学习。此外,在一个或多个实施例中,出于降噪的目的提出了新匹配损耗,当对应的潜在代码不同时,将其进行掩膜。与测试数据集上的其他方法相比,实施例实现了竞争性能,并且可以从头开始进行训练。
Description
技术领域
本公开总体上涉及用于可以提供改进的计算机性能、特征和用途的计算机学习的系统和方法。更具体地,本公开涉及对音频进行降噪的系统和方法。
背景技术
深度神经网络在许多领域中都取得了巨大的成功,诸如计算机视觉、自然语言处理、文本转语音以及许多其他应用。得到极大关注的一个领域是音频的机器学习应用,尤其是语音降噪。
语音降噪是音频信号处理中的重要任务,并且已被广泛应用于许多实际应用中。语音降噪的目标是提高嘈杂音频话语的清晰度。经典方法集中于采用信号处理技术,诸如滤波和频谱恢复。随着深度学习的到来,基于神经网络的方法引起了越来越多的关注,与经典方法相比,可以在时域或频域中进行降噪以提高性能。
另一方面,深度生成模型最近已经成为用于表示学习和生成任务的强大框架,用于各种类型的信号,包括图像、文本和音频。在深度表示学习中,变分自编码器(VAE)已被证明是一种有效工具,用于提取潜在表示然后促进下游任务。对于音频生成,神经声码器在生成原始音频波形方面达到了最先进的性能,并已部署在真实的文本转语音(TTS)系统中。
尽管通过这些不同方法进行了改进,但是它们各自都有局限性。例如,某些技术需要在样本水平上显式计算从经降噪的音频到其干净对应物的损耗,该损耗在某些情况下可能变得不稳定。在当前的神经网络方法中,它们需要对某些组件进行单独的训练——因此,没有可以被训练为一个完整系统的端到端系统。
因此,需要的是,将降噪问题视为根本上不同类型的问题、并且克服了当前这些方法的缺陷的新方法。
发明内容
本发明的第一方面提供了一种用于训练降噪系统的计算机实现的方法,包括:给定包括第一编码器、第二编码器、量化器和解码器的降噪系统,以及给定一组一个或多个干净-嘈杂音频对,其中每个干净-嘈杂音频对包括通过扬声器的干净音频内容以及通过扬声器的嘈杂音频内容:对于每个干净音频,使用第一编码器生成干净音频的一个或多个连续潜在表示;对于每个嘈杂音频,使用第二编码器生成嘈杂音频的一个或多个连续潜在表示;对于干净音频的每个连续潜在表示,使用量化器生成对应的离散干净音频表示;对于嘈杂音频的每个连续潜在表示,使用量化器生成对应的离散嘈杂音频表示;对于每个干净-嘈杂音频对,将离散干净音频表示、干净音频和代表干净-嘈杂音频对的扬声器的扬声器嵌入输入到解码器中以生成音频序列预测;计算降噪系统的损耗,其中损耗包括潜在表示匹配损耗项,潜在表示匹配损耗项对于其中离散干净音频表示和离散嘈杂音频表示不同的时间步长,是基于对于所述时间步长的干净音频的连续潜在表示与嘈杂音频的连续潜在表示之间的距离量度;以及使用损耗更新降噪系统。
本发明的第二方面提供了一种系统,包括一个或多个处理器和包括一个或多个指令集合的非暂时性计算机可读介质。指令在由处理器执行时使得处理器执行本发明的第一方面所提供的方法。
本发明的第三方面提供了一种计算机实现的方法,包括:给定用于降噪的输入嘈杂音频,以及给定的训练后的降噪系统,训练后的降噪系统包括训练后的编码器、训练后的量化器和训练后的解码器:使用训练后的编码器生成输入嘈杂音频的一个或多个连续潜在表示;对于一个或多个连续潜在表示,使用输入嘈杂音频的一个或多个连续潜在表示和训练后的量化器来生成一个或多个离散嘈杂音频表示;以及通过将离散嘈杂音频表示输入到训练后的解码器中,生成输入嘈杂音频的经降噪的音频表示;其中,使用损耗训练降噪系统,其中,损耗包括匹配损耗项,匹配损耗项对于其中来自干净-嘈杂对的干净音频的离散干净音频表示与嘈杂音频的离散嘈杂音频表示不同的时间步长,其中所述干净-嘈杂音频对包括干净音频和对应的嘈杂音频,是基于对于所述时间步长干净音频的连续潜在表示和嘈杂音频的连续潜在表示之间的距离度量的。
本发明出于降噪的目的提出了新匹配损耗,当对应的潜在代码不同时,将其进行掩膜,与测试数据集上的其他方法相比,本发明实现了竞争性能,并且可以从头开始进行训练。
附图说明
将参考本公开的实施例,其示例可以在附图中示出。这些图仅是说明性的,而不是限制性的。尽管通常在这些实施例的上下文中描述本公开,但是应当理解,其并不旨在将本公开的范围限制为这些具体实施例。图中的项目可能未按比例绘制。
图1描绘了根据本公开的实施例的降噪系统。
图2描绘了根据本公开的实施例的整个系统的一部分的视图,示出了用于干净音频的组件和路径。
图3描绘了根据本公开的实施例的用于训练降噪系统的方法。
图4描绘了根据本公开的实施例的训练后的降噪系统。
图5描绘了根据本公开的实施例的用于使用训练后的降噪系统来生成经降噪的音频的方法。
图6描绘了根据本公开的实施例的计算设备/信息处理系统的简化框图。
具体实施方式
在下面的描述中,出于解释的目的,阐述了具体细节以便提供对本公开的理解。然而,对于本领域的技术人员将显而易见的是,可以在没有这些细节的情况下实践本公开。此外,本领域的技术人员将认识到,下面描述的本公开的实施例可以以多种方式来实现,诸如有形计算机可读介质上的过程、装置、系统、设备或方法。
图中示出的组件或模块是本公开的示例性实施例的说明,并且意在避免模糊本公开。还应该理解的是,在整个讨论中,组件可以被描述为单独的功能单元,其可以包括子单元,但是本领域技术人员将认识到,各种组件或其一部分可以被划分为单独的组件或可以集成在一起,包括例如在单个系统或组件中。应当注意,本文讨论的功能或操作可以被实现为组件。组件可以以软件、硬件或其组合来实现。
此外,图内的组件或系统之间的连接不旨在限于直接连接。而是,中间组件可以修正、重新格式化或以其他方式更改这些组件之间的数据。同样,可以使用更多或更少的连接。还应注意,术语“耦接”、“连接”、“通信耦接”、“接口连接”、“界面连接”或其任何派生应理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。还应注意,任何通信,诸如信号、响应、答复、确认、消息、查询等,可以包括一个或多个信息交换。
说明书中对“一个或多个实施例”,“优选实施例”,“一个实施例”,“多个实施例”等的引用意味着结合实施例描述的具体特征、结构、特性或功能包括在本公开的至少一个实施例中,并且可以在一个以上的实施例中。同样,上述短语在说明书中各个地方的出现不一定全部指代同一实施例或多个实施例。
在说明书中的各个地方使用某些术语是为了说明,而不应解释为限制性的。服务、功能或资源不限于单个服务、功能或资源;这些术语的使用可能是指相关服务、功能或资源的分组,它们可以是分布式的或聚合的。术语“包含”和“包括”应被理解为开放术语,并且以下的任何列表都是示例,并不意味着限于所列出的项目。“层”可以包括一个或多个操作。词语“最优的”、“优化”等是指结果或过程的改进,不需要特定的结果或过程已达到“最优”状态或峰值状态。存储器、数据库、信息库、数据存储、表格、硬件、高速缓存等的使用在本文中可以用来指代其中可以输入信息或以其他方式记录信息的一个或多个系统组件。
在一个或多个实施例中,停止条件可以包括:(1)已经执行了设定的迭代次数;(2)已达到一定的处理时间;(3)收敛性(例如,连续迭代之间的差小于第一阈值);(4)发散(例如,性能下降);以及(5)已经达到可接受的结果。
本领域技术人员应认识到:(1)可以可选地执行某些步骤;(2)步骤可能不限于本文所阐述的特定顺序;(3)可能以不同的顺序执行某些步骤;(4)可以同时进行某些步骤。
本文使用的任何标题仅用于组织目的,并且不应用于限制说明书或权利要求书的范围。所述专利文件中提到的每个参考文献/文件都通过引用整体并入本文。
应当注意,本文提供的任何实验和结果均以举例说明的方式提供,并且是在特定条件下使用一个或多个特定实施例进行的;因此,这些实验及其结果均不得用于限制当前专利文件的公开范围。
A.总体介绍
本文的实施例通过将语音降噪任务视为语音生成问题来从新的视角切入,诸如在文本转语音系统中。在一个或多个实施例中,经降噪的音频是从声码器自回归地生成的,诸如WaveN(由A.van den Oord,S.Dieleman,H.Zen,K.Simonyan,O.Vinyals,A.Graves,N.Kalchbrenner,A.Senior,和K.Kavukcuoglu在“WaveNet:原始音频的生成模型(Generative Model for Raw Audio)”中讨论的,可在arxiv.org/abs/1609.03499v2(2016)上查看,其全部内容通过引用并入本文)。此观点将本文中的实施例与先前的方法区分开来,因为实施例避免了需要在样本水平上显式计算从经降噪的音频到其干净对应物的损耗,该损耗在低信噪比(SNR)场景中可能变得不稳定。与使用原始音频波形的梅尔频谱图作为调节器的WaveNet不同,本文的实施例直接从数据中学习所需的语音信息。更具体地,在一个或多个实施例中,向量量化的变分自编码器(VQ-VAE)(诸如由A.van den Oord,O.Vinyals和K.Kavukcuoglu在“神经离散表示学习(Neural Discrete RepresentationLearning)”,《神经信息处理系统的进展(Advances in Neural Information ProcessingSystems)》第6306–6315页(2017)中描述的,在此全文引入作为参考)以从干净音频中生成离散的潜在表示,然后将它们用作用于声码器的调节器,诸如WaveNet实现。为了实现降噪效果,在一个或多个实施例中,基于干净连续潜在表示和嘈杂连续潜在表示之间的距离来计算损耗函数。在一个或多个实施例中,为了提高鲁棒性,仅当离散的潜在代码在干净分量和嘈杂分量之间不一致时,才进一步对损耗函数进行掩膜。在一个或多个实施例中,系统实施例不需要任何预训练的网络,因此可以从头开始进行训练。
B.相关工作
最近的进展表明,深度生成模型可能是语音降噪中的有用工具。已经提出了一种基于生成对抗网络(GAN)的方法,其中,生成器输出经降噪的音频,并且鉴别器将其从干净音频中分类出来。其他人则经由WaveNet对先验函数和似然函数进行建模,从而开发出一种贝叶斯方法,每个函数都需要单独进行训练。有些人已通过最小化在预测输入信号的干净分量和嘈杂分量上的回归损耗,采用非因果的WaveNet来生成经降噪的样本。已经注意到,这些方法可以直接在时域中执行降噪,但是需要对噪声进行显式建模。
有些人提出了一种多级U-Net架构,以有效地捕获原始波形中的长时程暂态相关性,而他们的关注点是语音分离。还有其他人提出了一种新的深度特征损耗函数,以惩罚对干净音频和经降噪的音频跨多个层的激活的差异;但是,需要预训练的音频分类网络,因此不能从头开始进行训练。尽管有些人尝试了用于降噪任务的综合方法,但他们的方法需要依次训练两个部分,其中第一部分需要预测干净的梅尔频谱图(或其他频谱特征,取决于所使用的声码器),第二部分需要采用声码器通过调节来自第一部分的预测而合成经降噪的音频。相反,本文的实施例是端到端的,并且可以从头开始进行训练。
C.对实施例进行降噪
1.前文
作为一种流行的无监督学习框架,变分自编码器(VAE)最近引起了越来越多的关注。例如,DP Kingma和M.Welling在《自编码变分贝叶斯(Auto-encoding VariationalBayes)》(可在arxiv.org/abs/1312.6114预印本arXiv:1312.6114(2013)上查看)以及D.J.Rezende,S.Mohamed和D.Wierstra在《深度生成模型中的随机反向传播和近似推理(Stochastic Backpropagation and Approximate Inference in Deep GenerativeModels)》中,在国际机器学习大会上,第1278-1286页(2014年),都讨论了变分自编码器(每一个都通过引用整体并入本文)。
在VAE中,编码器网络qθ(z|x)对应于给定输入数据x的潜在表示z的分布,并用θ进行参数化;解码器网络pφ(x|z)从z计算出x的似然度,并用φ进行参数化。通过将潜在表示先验定义为p(z),VAE中的目标可能是使以下损耗函数最小化:
等式(1)中的第一项可解释为重建损耗,第二项,Kullback-Leibler(KL)散度项,充当正则项,以最小化后验qθ(z|x)与先验p(z)。
对于向量量化的变分自编码器(VQ-VAE),A.van den Oord,O.Vinyals和K.Kavukcuoglum在《神经信息处理系统的进展》中的《神经离散表示学习》,第6306–6315页(2017)(通过引用整体并入本文)表明使用离散的潜在表示可以跨不同的形态在几个无监督的学习任务中学习更好的表示。在VQ-VAE实施例中的编码器可以输出离散代码而不是通过使用向量量化(VQ)实现的连续潜在表示,即在第i个时间步长处的离散潜在向量可以表示为:
其中{C1,C2,...,CK}对应于码本中的K个可学习代码。然后,解码器从离散潜在中重构输入。在VQ-VAE中,后验分布对应于增量分布,其中概率质量仅分配给从向量量化器返回的代码。通过在所有离散代码上分配统一的先验p(z),可以表明的是等式(1)中的KL散度项减小到常数。随后,VQ-VAE中的损耗可以表示为:
其中Cz代表与输入z相对应的潜在代码;sg()是停止梯度运算符,它等于向前传递中的恒等函数,并且在反向传播阶段的梯度为零。等式(3)中的γ是超参数,并且在一个或多个实施例中,可以将其设置为0.25。
2.经由VQ-VAE实施例进行降噪
本文呈现了用于语音降噪任务中的合成方法的系统和方法。图1描绘了根据本公开的实施例的降噪系统。如图1中所示,描绘的实施例100包括以下组件:(i)具有相同或相似架构的两个残余卷积编码器115和120,其分别应用于嘈杂音频输入110和干净音频输入105;(ii)向量量化器135;(iii)自回归WaveNet解码器150,它可以是共同待决且共同拥有的于2020年2月15日提交的第16/277,919号美国专利,标题为“端到端文本转语音中生成并行波的系统和方法(“SYSTEMS AND METHODS FOR PARALLEL WAVE GENERATION IN END-TO-END TEXT-TO-SPEECH)”,并列出了发明人Wei Ping,Kainan Peng,和Jitong Chen(第28888-2269号案件),此专利文件通过引用整体并入本文。还描绘了损耗计算165,将在下面关于等式(4)更详细地讨论。
在一个或多个实施例中,用于神经网络的架构可以如下。图2描绘了根据本公开的实施例的整个系统的局部视图,其示出了用于干净音频的组件和路径。图2示出了用于干净音频的编码器和路径;相同或相似的编码器结构可以用于嘈杂音频,但是由于空间限制而未描绘。
编码器(105和110)。所描绘的编码器类似于J.Chorowski,RJ Weiss,S.Bengio和A.van den Oord在《关于音频、语音和语言处理的IEEE/ACM交易》中的《使用WaveNet自编码器进行无监督语音表示学习(Unsupervised Speech Representation Learning UsingWaveNet Autoencoders)》第27卷,第12号,第2041-2053页,2019年12月,doi:10.1109/TASLP.2019.2938863中使用的编码器(通过引用整体并入本文),不同之处在于(i)不使用ReLU非线性,而是使用leaky ReLU(α=0.2);(ii)输出信道的数量从768个减少到512个。经验观察表明,这些更改有助于在不牺牲性能的情况下稳定优化并减少训练时间。
在一个或多个实施例中,首先将原始音频以及它们的一阶导数和二阶导数转换为标准的13个梅尔频率倒谱系数(MFCC)特征。如图2中所示,所描绘的编码器网络实施例可以包括:(i)具有滤波器大小为3的两个残余卷积层;(ii)一个步幅为2且滤波器大小为4的跨步卷积层;(iii)两个残余卷积层,其滤波器大小为3;(iv)四个残余的全连接层。
向量量化器(135)。在一个或多个实施例中,首先将潜在向量的输出信道数量减少为64,并且码本包含512个可学习代码,每个代码的尺寸为64。
解码器(150)。在一个或多个实施例中,使用具有交叉熵损耗的20层WaveNet,其中softmax层中的信道数量被设置为2048。残余信道和跳过(skip)信道的数量都可以被设置为256。调节器对样本水平的上采样可以通过重复来实现。在一个或多个实施例中,在卷积层中的滤波器大小被设置为3,并且使用扩张(dilated)块{1,2,4,...,512},对应于具有公共比为2的几何序列。
返回图1,系统100的输入是嘈杂音频和干净音频对,分别表示为x(n)和x(c),包括相同语音内容。如上所述,在一个或多个实施例中,首先从原始音频中提取梅尔频率倒谱系数(MFCC)特征,然后将其通过残余卷积层和全连接层以生成对应的连续潜在向量z(n)130和z(c)125。随后,可以应用在等式(2)中引入的向量量化,来获得离散表示,即145和140。在一个或多个实施例中,在训练期间,仅对应于干净输入105和独热扬声器155的140用作WaveNet解码器150的调节器。通过对嵌入到解码器的扬声器显式调节,编码器可以将更多关注于与扬声器无关的信息上,从而可以更好地提取音素内容。最终,系统的输出160对应于从自回归WaveNet解码器预测的音频序列,此音频序列以训练者(teacher)强制方法进行训练,其中干净的输入作为地面真实(ground truth)(也就是说,在训练过程中,模型接收时间t的地面真实输出作为时间t+1的输入)。
3.降噪处理的实施例
为了消除嘈杂音频中的噪声,目标是匹配来自嘈杂输入和干净输入的潜在表示。一种动机是,当(i)解码器能够使用干净潜在代码,即作为调节器来生成高保真音频,以及(ii)来自嘈杂输入的潜在代码与来自干净输入的潜在代码相近,期望解码器通过使用嘈杂潜在代码来输出高保真音频。为了设计用于匹配的损耗函数,在一个或多个实施例中,可以计算离散潜在表示或连续潜在表示与嘈杂分支和干净分支的距离。然而,在一个或多个实施例中,可以通过计算在它们对应的代码和不同的时间步长处z(c)和z(n)之间的距离来使用混合方法。令l表示潜在中的时间步长的数量,且M表示输出信道的数量,则得到以及随后,总损耗可以表示为等式(3)中的VQ-VAE损耗和匹配损耗的总和,如下:
注意,在一个或多个实施例中,等式(4)中的匹配损耗(最后一项),仅当对应的潜在代码不同时才促成总损耗,从而导致更稳定的训练。此外,等式(4)中的损耗函数可以从头开始优化,因此避免了预训练的需要。关于等式(4)的另一个值得注意的点(也在图1中示出)是在训练期间,解码器不是嘈杂输入的函数。因此,在整个优化过程中,它往往不会学习任何嘈杂音频的隐藏信息。
退火(annealing)方案的实施例。针对等式(4)中的所有变量直接优化,在训练过程中会很快导致发散和振荡。直观地讲,发生这种现象的原因是,干净输入的潜在表示可能信息不足以在初始训练阶段捕获语音信息。结果,与噪声输入相对应的编码器(即编码器2)的目标变得难以匹配。因此,在一个或多个实施例中,为了解决这个问题,可以采用退火策略。在一个或多个实施例中,在等式(4)中,将λ作为超参数引入,并在训练过程中通过将其从0逐渐增加到1进行退火。在一个或多个实施例中,可以经由sigmoid函数在训练过程中通过将λ从0(或接近0)增加到1(或接近1)来对λ进行退火。
通过这种退火策略,可以将整个网络最初训练为VQ-VAE,其中优化主要施加于与干净输入对应的路径中所涉及的参数,即编码器1→向量量化器→解码器,以及扬声器嵌入。在一个或多个实施例中,当对那些分量的训练变得稳定时,可以将匹配损耗逐渐添加到优化中以最小化嘈杂潜在表示和干净潜在表示之间的距离。
图3描绘了根据本公开的实施例的用于训练降噪系统的方法。在一个或多个实施例中,给定包括第一编码器、第二编码器、量化器和解码器的降噪系统,以及给定包括通过扬声器的干净音频内容和通过扬声器的嘈杂音频内容的干净-嘈杂音频对,将干净音频输入(305)到第一编码器中以生成干净音频的连续潜在表示,并且将嘈杂音频输入(305)到第二编码器中以生成嘈杂音频的连续潜在表示。然后可以将向量量化器应用于(310)干净音频的连续潜在表示和嘈杂音频的连续潜在表示,以分别获得对应的离散干净音频和离散嘈杂音频表示。
在一个或多个实施例中,将离散干净音频表示、干净音频和代表干净-嘈杂音频对的扬声器的扬声器嵌入输入(315)到解码器中以生成音频序列预测输出。
在一个或多个实施例中,计算(320)降噪系统的损耗,其中损耗包括基于对于对应的离散干净音频表示和离散嘈杂音频表示不同的时间步长,干净音频的连续潜在表示与嘈杂音频的连续潜在表示之间的距离量度(例如,距离量度)的项。计算损耗用于更新(325)降噪系统。在一个或多个实施例中,训练过程可以继续直到达到停止条件为止,并且可以输出训练后的降噪系统以用于对嘈杂输入音频进行降噪。
4.推理实施例
训练后的降噪系统的前向传播的实施例在图4中示出。推理期间,将嘈杂音频410用作输入,并且将训练后的降噪系统400用于生成对应的经降噪的音频460。在一个或多个实施例中,通过将嘈杂音频410经过训练后的编码器420和训练后的向量量化器435,检索语音内容。训练后的WaveNet解码器450调节来自向量量化器的输出445和扬声器嵌入455而生成经降噪的音频460。请注意,在一个或多个实施例中,当前设置假定测试集中的扬声器也应出现在训练集中;但是,应注意,系统可以扩展到看不见的扬声器。另一方面,对扬声器的解码器嵌入调节可以有助于诸如语音转换的任务。
图5描绘了根据本公开的实施例的用于使用训练后的降噪系统来生成经降噪的音频的方法。在一个或多个实施例中,给定包括训练后的编码器、训练后的量化器和训练后的解码器的训练后的降噪系统,以及给出用于降噪的嘈杂音频和用于嘈杂音频的扬声器的扬声器嵌入,使用训练后的编码器生成(505)嘈杂音频的连续潜在表示。在一个或多个实施例中,将训练后的量化器应用于(510)嘈杂音频的连续潜在表示,以获得对应的离散嘈杂音频表示。最终,可以通过将离散嘈杂音频表示和代表嘈杂音频的扬声器的扬声器嵌入输入训练后的解码器中,生成(515)嘈杂音频的经降噪的音频表示。
D.计算系统实施例
在一个或多个实施例中,本专利文件的各方面可以针对、可以包括一个或多个信息处理系统(或计算系统)或可以在一个或多个信息处理系统(或计算系统)上实现。信息处理系统/计算系统可以包括可操作以运算、计算、确定、分类、处理、发送、接收、检索、发起、路由、切换、存储、显示、通信、显示、检测、记录、复制、处理或利用任何形式的信息、情报或数据的任何工具或工具的聚合。例如,计算系统可以是或可以包括个人计算机(例如,笔记本电脑)、平板计算机、移动设备(例如,个人数字助理(PDA)、智能电话、平板手机、平板电脑等)、智能手表、服务器(例如,刀片服务器或机架服务器)、网络存储设备、相机或任何其他合适的设备,并且在大小、形状、性能、功能和价格上可能会有所不同。所述计算系统可以包括随机存取存储器(RAM),诸如中央处理单元(CPU)或硬件或软件控制逻辑的一个或多个处理资源,只读存储器(ROM)和/或其他类型的存储器。计算系统的附加组件可以包括一个或多个磁盘驱动器,用于与外部设备以及各种输入和输出(I/O)设备通信的一个或多个网络端口,诸如键盘、鼠标、手写笔、触摸屏和/或视频显示。计算系统还可以包括可操作以在各种硬件组件之间传输通信的一条或多条总线。
图6描绘了根据本公开的实施例的信息处理系统(或计算系统)的简化框图。将理解的是,针对系统600示出的功能可以操作以支持计算系统的各种实施例-尽管应当理解,计算系统可以被不同地配置并且包括不同的组件,包括具有更少或更多的组件,如图6中所示。
如图6中所示,计算系统600包括一个或多个中央处理单元(CPU)601,其提供计算资源并控制计算机。CPU 601可以用微处理器等实现,并且还可以包括一个或多个图形处理单元(GPU)602和/或用于数学计算的浮点协处理器。在一个或多个实施例中,一个或多个GPU 602可以被合并在显示控制器609内,诸如一个或多个图形卡的一部分。系统600还可以包括系统存储器619,系统存储器可以包括RAM、ROM或两者。
如图6中所示,还可以提供多个控制器和外围设备。输入控制器603代表到诸如键盘、鼠标、触摸屏和/或手写笔的各种输入设备604的界面。计算系统600还可以包括用于与一个或多个存储设备608接口连接的存储控制器607,每个存储设备608包括诸如磁带或磁盘的存储介质,或可以用于记录用于操作系统、实用程序和应用的指令的程序的光学介质,其可以包括实现本公开的各个方面的程序的实施例。根据本公开,存储设备608也可以用于存储处理后的数据或待处理的数据。系统600还可以包括显示控制器609,用于提供到显示设备611的界面,显示设备可以是阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其他类型的显示器。计算系统600还可以包括用于一个或多个外围设备606的一个或多个外围设备控制器或界面605。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器614可以与一个或多个通信设备615接口连接,这使得系统600能够通过包括因特网,云资源(例如,以太网云,以太网上的光纤信道(FCoE)/数据中心桥接(DCB)云等),局域网(LAN),广域网(WAN),存储区域网(SAN)的各种网络的任何一个或通过任何合适的包括红外信号的电磁载波信号来连接到远程设备。如所描绘的实施例中所示,计算系统600包括一个或多个风扇或风扇托盘618和一个或多个冷却子系统控制器617,其监视系统600(或其组件)的热温度并操作风扇/风扇托盘618以帮助调节温度。
在所示的系统中,所有主要系统组件可以连接到总线616,所述总线可以代表一个以上的物理总线。但是,各种系统组件可能在物理上彼此接近,也可能不在物理上彼此接近。例如,输入数据和/或输出数据可以从一个物理位置远程传输到另一物理位置。另外,可以通过网络从远程位置(例如,服务器)访问实现本公开的各个方面的程序。可以通过各种机器可读介质中的任何一种来传递这样的数据和/或程序,机器可读介质包括,例如:诸如硬盘、软盘和磁带的磁性介质;以及诸如光盘(CD)和全息设备的光学媒体;磁光介质;以及专门配置用于存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其他非易失性存储器(NVM)设备(诸如基于3D XPoint的设备)以及ROM和RAM设备。
本公开的各方面可以利用用于一个或多个处理器或处理单元以使步骤被执行的指令以在一个或多个非暂时性计算机可读介质上进行编码。应当注意,一个或多个非暂时性计算机可读介质应包括易失性和/或非易失性存储器。应当注意的是,替代实现是可能的,包括硬件实现或软件/硬件实现。可以使用ASIC、可编程阵列、数字信号处理电路等来实现硬件实现的功能。因此,任何权利要求中的“装置”术语旨在涵盖软件和硬件实现。类似地,本文所使用的术语“计算机可读介质”包括其上包括指令的程序的软件和/或硬件,或其组合。考虑到这些实现的替代方案,应当理解,附图和随附的描述提供了本领域技术人员编写程序代码(即,软件)和/或制造电路(即,硬件)所需的功能信息,以执行所需的处理。
应当注意,本公开的实施例可以进一步涉及具有非暂时性、有形计算机可读介质的计算机产品,其上具有用于执行各种计算机实现的操作的计算机代码。媒体和计算机代码可以是出于本公开的目的而专门设计和构造的那些,或者它们可以是相关领域技术人员已知或可获得的那种。有形计算机可读介质的示例包括,例如:诸如硬盘、软盘和磁带的磁性介质;诸如CD和全息设备的光学介质;磁光介质;以及专门配置用于存储或存储并执行程序代码的硬件设备,诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、其他非易失性存储器(NVM)设备(诸如基于3D XPoint的设备)以及ROM和RAM设备。计算机代码的示例包括机器代码,诸如由编译器生成的机器代码以及包含由计算机使用解释器执行的更高级别代码的文件。本公开的实施例可以全部或部分地实现为机器可执行指令,机器可执行指令可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中,程序模块可能物理上位于局部、远程或二者兼有的设置中。
本领域技术人员将认识到,没有计算系统或编程语言对于本公开的实践是至关重要的。本领域的技术人员还将认识到,上述许多元件可以在物理上和/或功能上分离为模块和/或子模块或组合在一起。
本领域技术人员将理解,前述示例和实施例是示例性的,并且不限制本公开的范围。旨在通过阅读说明书和对附图的研究,对本领域技术人员显而易见的所有排列、增强、等同、组合和改进包括在本公开的真实精神和范围内。还应当注意,任何权利要求的元素可以不同地布置,包括具有多个依赖性、配置和组合。
Claims (10)
1.一种用于训练降噪系统的计算机实现的方法,包括:
给定包括第一编码器、第二编码器、量化器和解码器的降噪系统,以及给定一组一个或多个干净-嘈杂音频对,其中每个干净-嘈杂音频对包括通过扬声器的干净音频内容以及通过扬声器的嘈杂音频内容:
对于每个干净音频,使用第一编码器生成干净音频的一个或多个连续潜在表示;
对于每个嘈杂音频,使用第二编码器生成嘈杂音频的一个或多个连续潜在表示;
对于干净音频的每个连续潜在表示,使用量化器生成对应的离散干净音频表示;
对于嘈杂音频的每个连续潜在表示,使用量化器生成对应的离散嘈杂音频表示;
对于每个干净-嘈杂音频对,将离散干净音频表示、干净音频和代表干净-嘈杂音频对的扬声器的扬声器嵌入输入到解码器中以生成音频序列预测;
计算降噪系统的损耗,其中损耗包括潜在表示匹配损耗项,潜在表示匹配损耗项对于其中离散干净音频表示和离散嘈杂音频表示不同的时间步长,是基于对于所述时间步长的干净音频的连续潜在表示与嘈杂音频的连续潜在表示之间的距离量度的;以及
使用损耗更新降噪系统。
2.根据权利要求1所述的方法,其中,潜在表示匹配损耗项进一步包括:
在训练期间从0或接近0增加到1或接近1的退火项。
3.根据权利要求1所述的方法,其中,干净音频的连续潜在表示与嘈杂音频的连续潜在表示之间的距离度量包括:
干净音频的连续潜在表示与时间步长的连续潜在表示之间的l2距离。
4.根据权利要求1所述的方法,其中,损耗包括:
与解码器的损耗有关的解码器项;以及
与量化器的损耗有关的量化器项。
5.根据权利要求1所述的方法,其中,量化器包括一个或多个向量量化的变分自编码器,向量量化的变分自编码器将干净音频的一个或多个连续潜在表示转换为对应的一个或多个离散干净音频表示,并将嘈杂音频的一个或多个连续潜在表示转换为对应的一个或多个离散嘈杂音频表示。
6.根据权利要求1所述的方法,进一步包括:
用干净-嘈杂音频对的一个或多个附加集合重复权利要求1的步骤;以及
响应于达到停止条件,输出训练后的降噪系统,训练后的降噪系统包括训练后的第二编码器、训练后的量化器和训练后的解码器。
7.根据权利要求6所述的方法,进一步包括:
给定用于降噪的嘈杂音频,以及用于嘈杂音频中的扬声器的扬声器嵌入:
使用训练后的第二编码器生成嘈杂音频的一个或多个连续潜在表示;
使用嘈杂音频的一个或多个连续潜在表示和训练后的量化器来生成一个或多个离散嘈杂音频表示;以及
通过将一个或多个离散嘈杂音频表示的至少一些和代表嘈杂音频的扬声器的扬声器嵌入输入训练后的解码器中,生成嘈杂音频的经降噪的音频表示。
8.根据权利要求1所述的方法,其中,解码器是自回归生成模型。
9.一种系统,包括:
一个或多个处理器;以及
非暂时性计算机可读介质,包括一个或多个指令集合,所述指令在由一个或多个处理器中的至少一个执行时使得所述处理器执行如权利要求1-8中任一项所述的计算机实现的方法。
10.一种计算机实现的方法,包括:
给定用于降噪的输入嘈杂音频,以及给定的训练后的降噪系统,训练后的降噪系统包括训练后的编码器、训练后的量化器和训练后的解码器:
使用训练后的编码器生成输入嘈杂音频的一个或多个连续潜在表示;
对于一个或多个连续潜在表示,使用输入嘈杂音频的一个或多个连续潜在表示和训练后的量化器来生成一个或多个离散嘈杂音频表示;以及
通过将离散嘈杂音频表示输入到训练后的解码器中,生成输入嘈杂音频的经降噪的音频表示;
其中,使用损耗训练降噪系统,其中,损耗包括匹配损耗项,匹配损耗项对于其中来自干净-嘈杂对的干净音频的离散干净音频表示与嘈杂音频的离散嘈杂音频表示不同的时间步长,其中所述干净-嘈杂音频对包括干净音频和对应的嘈杂音频,是基于对于所述时间步长干净音频的连续潜在表示和嘈杂音频的连续潜在表示之间的距离度量的。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/061,317 US11875809B2 (en) | 2020-10-01 | 2020-10-01 | Speech denoising via discrete representation learning |
US17/061,317 | 2020-10-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114267366A true CN114267366A (zh) | 2022-04-01 |
Family
ID=80824782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111039819.5A Pending CN114267366A (zh) | 2020-10-01 | 2021-09-06 | 通过离散表示学习进行语音降噪 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11875809B2 (zh) |
CN (1) | CN114267366A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11551668B1 (en) * | 2020-12-30 | 2023-01-10 | Meta Platforms, Inc. | Generating representations of speech signals using self-supervised learning |
US11599972B1 (en) * | 2021-12-22 | 2023-03-07 | Deep Render Ltd. | Method and system for lossy image or video encoding, transmission and decoding |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
US10971142B2 (en) * | 2017-10-27 | 2021-04-06 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
KR102137151B1 (ko) * | 2018-12-27 | 2020-07-24 | 엘지전자 주식회사 | 노이즈 캔슬링 장치 및 그 방법 |
-
2020
- 2020-10-01 US US17/061,317 patent/US11875809B2/en active Active
-
2021
- 2021-09-06 CN CN202111039819.5A patent/CN114267366A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220108712A1 (en) | 2022-04-07 |
US11875809B2 (en) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oord et al. | Parallel wavenet: Fast high-fidelity speech synthesis | |
US11238843B2 (en) | Systems and methods for neural voice cloning with a few samples | |
US11482207B2 (en) | Waveform generation using end-to-end text-to-waveform system | |
CN109741736B (zh) | 使用生成对抗网络进行鲁棒语音识别的系统和方法 | |
CN109785826B (zh) | 用于嵌入式模型的迹范数正则化和更快推理的系统和方法 | |
CN108510975B (zh) | 用于实时神经文本转语音的系统和方法 | |
Nakkiran et al. | Compressing deep neural networks using a rank-constrained topology | |
CN111771213A (zh) | 语音风格迁移 | |
US20190304480A1 (en) | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data | |
US20200410976A1 (en) | Speech style transfer | |
Cui et al. | Data augmentation for deep convolutional neural network acoustic modeling | |
Deng et al. | Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications | |
CN114267366A (zh) | 通过离散表示学习进行语音降噪 | |
CN112634936A (zh) | 用于原始音频的基于小占用空间流的模型 | |
KR20210042696A (ko) | 모델 학습 방법 및 장치 | |
US20220130490A1 (en) | Peptide-based vaccine generation | |
Han et al. | Self-supervised learning with cluster-aware-dino for high-performance robust speaker verification | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
CN114626518A (zh) | 使用深度聚类的知识蒸馏 | |
JP2023545820A (ja) | フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル | |
Zhang et al. | Voice conversion with denoising diffusion probabilistic gan models | |
CN116324973A (zh) | 包含时间缩减层的基于变换器的自动语音识别系统 | |
Zhang et al. | Data Independent Sequence Augmentation Method for Acoustic Scene Classification. | |
Shi et al. | ITÔN: End-to-end audio generation with Itô stochastic differential equations | |
JP2018141925A (ja) | 音響モデル学習装置および音響モデル学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |