CN116615781A - 用于使用预先配置的生成器处理音频数据的方法和装置 - Google Patents
用于使用预先配置的生成器处理音频数据的方法和装置 Download PDFInfo
- Publication number
- CN116615781A CN116615781A CN202180084306.8A CN202180084306A CN116615781A CN 116615781 A CN116615781 A CN 116615781A CN 202180084306 A CN202180084306 A CN 202180084306A CN 116615781 A CN116615781 A CN 116615781A
- Authority
- CN
- China
- Prior art keywords
- truncation
- audio
- generator
- decoder
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 116
- 238000012545 processing Methods 0.000 title claims abstract description 43
- 238000009826 distribution Methods 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000004590 computer program Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 13
- 238000012952 Resampling Methods 0.000 claims description 8
- 230000008485 antagonism Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 14
- 230000004913 activation Effects 0.000 description 15
- 230000015654 memory Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012804 iterative process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本文描述了一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络GAN的生成器,其中,该方法包括以下步骤:(a)将生成器预先配置成利用生成器的一组参数来处理音频数据,该参数是通过在训练时间使用完整的级联分布训练生成器来确定的;以及(b)将解码器预先配置成在解码时间确定用于修改级联分布的截断模式并且将所确定的截断模式应用于级联分布。进一步描述了一种使用用于处理音频数据的生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法、以及相应的装置。此外,还描述了相应的系统和计算机程序产品。
Description
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2020年12月17日提交的美国临时申请63/126,594(参考号:D19141USP1)和于2020年12月17日提交的欧洲申请20214888.8(参考号:D19141EP),所述申请通过引用并入本文。
技术领域
本公开总体上涉及一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络GAN的生成器,并且本公开具体地涉及预先配置该生成器和该解码器。本公开进一步涉及一种使用用于处理音频数据的生成式对抗网络GAN的生成器来从音频比特流生成经处理的音频数据的方法。此外,本公开还涉及相应的装置、相应的系统和计算机程序产品。
尽管本文将特别参考该公开内容来描述一些实施例,但是将理解的是,本公开不限于这种使用领域,并且可应用于更广泛的背景。
背景技术
在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
在过去几年期间,深度学习方法在包括语音增强的各种应用领域中变得越来越有吸引力。一般而言,最近的研究主要基于深度卷积GAN(通称为DCGAN)。迄今为止大多数深度学习方法都涉及语音去噪。要注意的是,从编码噪声中恢复音频是具有挑战性的问题。直观地说,人们可以认为编码伪像减少与去噪高度相关。然而,去除与期望声音高度相关的编码伪像/噪声似乎比去除通常不太相关的(去噪应用中的)其他噪声类型更复杂。编码伪像的特性取决于编解码器和所采用的编码工具以及所选比特率。
鉴于上述内容,仍然需要改进基于深度学习的方法。特别需要改进在质量与多样化之间的折衷方面的灵活性。
发明内容
根据本公开的第一方面,提供了一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络GAN的生成器,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。该方法可以包括步骤(a)将生成器预先配置成利用该生成器的一组参数来处理音频数据,该参数是通过在训练时间使用完整的级联分布训练生成器来确定的。并且该方法可以包括步骤(b)将解码器预先配置成在解码时间确定用于修改级联分布的截断模式并且将所确定的截断模式应用于级联分布。
在一些实施例中,解码器可以被预先配置成在解码时间从两种或更多种截断模式中确定用于修改级联分布的截断模式。
在一些实施例中,该两种或更多种截断模式可以包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
在一些实施例中,在步骤(b)中,解码器可以被预先配置成在解码时间基于音频内容和/或音频比特流的比特流参数来确定截断模式。
在一些实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。
在一些实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
在一些实施例中,在步骤(b)中,解码器可以被预先配置成当音频内容包括掌声时在解码时间确定截断关闭截断模式。
在一些实施例中,在步骤(b)中,解码器可以被预先配置成当音频内容包括语音、音乐和/或效果时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
在一些实施例中,在步骤(b)中,解码器可以被预先配置成当对比特率的指示表明低比特率时在解码时间确定截断关闭截断模式。
在一些实施例中,在步骤(b)中,解码器可以被预先配置成当对比特率的指示表明高比特率时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
在一些实施例中,在步骤(b)中,解码器可以被预先配置成基于对应当使用的截断模式的指示来确定截断模式,该指示被包括在音频比特流的元数据中。
在一些实施例中,将所确定的截断模式应用于级联分布可以包括:根据截断范围向级联分布应用切断,以获得截断区域;以及对截断区域外的所有值进行重新采样,以使其位于截断区域内。
在一些实施例中,弱截断截断模式可以被设置成应用从-0.8延伸到+0.8的截断范围。
在一些实施例中,中等截断截断模式可以被设置成应用从-0.5延伸到+0.5的截断范围。
在一些实施例中,强截断截断模式可以被设置成应用从-0.4延伸到+0.4的截断范围。
在一些实施例中,完整的级联分布可以是高斯分布或拉普拉斯分布。
在一些实施例中,步骤(a)可以包括使用完整的级联分布来训练生成器。
在一些实施例中,在步骤(a)中,生成器的一组参数可以通过在包括该生成器和判别器的GAN设置中训练该生成器来确定,其中,该训练可以包括以下步骤:
(a)将音频训练信号输入到生成器中;
(b)由生成器基于音频训练信号使用完整的级联分布来生成经处理的音频训练信号;
(c)一次一个地将经处理的音频训练信号和已从中得到音频训练信号的对应原始音频信号输入到判别器中;
(d)由判别器判断输入音频信号是经处理的音频训练信号还是原始音频信号;以及
(e)迭代地调整生成器的参数直到判别器不在能将经处理的音频训练信号与原始音频信号区分开为止。
在一些实施例中,在训练生成器期间,可以应用截断关闭截断模式。
根据本公开的第二方面,提供了一种使用用于处理音频数据的生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。该方法可以包括步骤(a)接收音频比特流。该方法可以进一步包括步骤(b)由解码器确定截断模式。该方法可以进一步包括步骤(c)将音频数据输入到用于处理音频数据的生成器中。该方法可以进一步包括步骤(d)将所确定的截断模式应用于级联分布以生成经截断的级联分布。该方法可以进一步包括步骤(e)由生成器基于经截断的级联分布来处理音频数据。并且该方法可以包括步骤(f)获得经处理的音频数据作为生成器的输出。
在一些实施例中,该方法可以进一步包括对接收到的音频比特流进行核心解码。
在一些实施例中,截断模式可以由解码器从两种或更多种截断模式中确定。
在一些实施例中,该两种或更多种截断模式可以包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
在一些实施例中,在步骤(b)中,截断模式可以由解码器基于音频内容和/或比特流参数确定。
在一些实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。
在一些实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
在一些实施例中,在步骤(b)中,当音频内容包括掌声时,解码器可以确定截断关闭截断模式。
在一些实施例中,在步骤(b)中,当音频内容包括语音、音乐和/或效果时,解码器可以确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
在一些实施例中,在步骤(b)中,当对比特率的指示表明低比特率时,解码器可以确定截断关闭截断模式。
在一些实施例中,在步骤(b)中,当对比特率的指示表明高比特率时,解码器可以确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
在一些实施例中,在步骤(d)中,将所确定的截断模式应用于级联分布可以包括:根据截断范围向级联分布应用切断,以获得截断区域;以及对截断区域外的所有值进行重新采样,以使其位于截断区域内。
在一些实施例中,弱截断截断模式可以被设置成应用从-0.8延伸到+0.8的截断范围。
在一些实施例中,中等截断截断模式可以被设置成应用从-0.5延伸到+0.5的截断范围。
在一些实施例中,强截断截断模式可以被设置成应用从-0.4延伸到+0.4的截断范围。
在一些实施例中,级联分布可以是高斯分布或拉普拉斯分布。
在一些实施例中,音频比特流可以包括元数据,其中,应当由解码器使用的对截断模式的指示可以被包括在元数据中。
根据本公开的第三方面,提供了一种用于从音频比特流生成经处理的音频数据的装置。该装置可以包括(a)接收器,该接收器用于接收音频比特流。该装置可以进一步包括(b)确定器,该确定器用于确定截断模式。该装置可以进一步包括(c)用于处理音频数据的生成式对抗网络GAN的生成器,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,该生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布,并且其中,该装置可以进一步包括一个或多个处理器,该一个或多个处理器被配置成执行使用用于处理音频数据的生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法。
在一些实施例中,该装置可以进一步包括核心解码器,该核心解码器用于对接收到的音频比特流进行核心解码。
在一些实施例中,接收到的音频比特流可以进一步包括指示应当使用的截断模式的元数据,并且该装置可以进一步包括解复用器,该解复用器用于对接收到的音频比特流进行解复用。
根据本公开的第四方面,提供了一种计算机程序产品,该计算机程序产品包括具有指令的计算机可读存储介质,该指令被适配成当由具有处理能力的设备执行时使该设备执行用于建立用于从音频比特流生成经处理的音频数据的解码器的方法。
根据本公开的第五方面,提供了一种计算机程序产品,该计算机程序产品包括具有指令的计算机可读存储介质,该指令被适配成当由具有处理能力的设备执行时使该设备执行使用生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法。
根据本公开的第六方面,提供了一种具有用于从音频比特流生成经处理的音频数据的装置以及包括生成器和判别器的生成式对抗网络的系统,其中,该系统被配置成执行用于建立用于从音频比特流生成经处理的音频数据的解码器的方法。
根据本公开的第七方面,提供了一种具有用于将音频数据编码在音频比特流中的装置和用于从音频比特流生成经处理的音频数据的装置的系统。
附图说明
现在将参考附图仅通过举例来描述本公开的示例实施例,在附图中:
图1图示了用于建立用于从音频比特流生成经处理的音频数据的解码器的方法的示例。
图2示意性地图示了经截断的级联分布的两个示例和完整的级联分布的示例。
图3图示了生成器架构的示例。
图4图示了通过在包括生成器和判别器的GAN设置中训练生成器来确定生成器的一组参数的示例。
图5图示了使用生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法的示例。
图6图示了用于从音频比特流生成经处理的音频数据的装置的示例。
图7图示了具有处理能力的设备的示例。
具体实施方式
截断
截断通常是指对分布的落在预定范围外的值进行重新采样以使其落入所述预定范围内的操作。如果将音频数据输入到生成式对抗网络GAN的生成器中,则生成器的瓶颈层映射到潜在特征空间表示。瓶颈特征或潜在特征空间表示具有以下维度:[通道(或滤波器输出)数量×时间]。沿着通道维度级联随机噪声向量z(该随机噪声向量z与瓶颈特征具有相同维度),产生级联分布作为所述级联的结果。所描述的方法和装置用于将所述级联分布截断在期望范围内。这允许通过生成器微调音频的增强并且因此改进质量与多样性之间的折衷。
用于建立用于从音频比特流生成经处理的音频数据的解码器的方法
参考图1的示例,图示了一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法的示例。解码器包括用于处理音频数据的生成式对抗网络GAN的生成器。在步骤S101中,生成器被预先配置成利用生成器的一组参数来处理音频数据。通过在训练时间进行训练来确定参数,如以下进一步描述的。生成器使用完整的级联分布来处理音频数据。如本文使用的,完整的级联分布是指尚未被截断(修改)的级联分布。
生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间(潜在特征空间表示)的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。将在下文进一步详细地描述生成器的架构。
在步骤S102中,作为方法的进一步的步骤,解码器被预先配置成在解码时间确定用于修改级联分布的截断模式并且将所确定的截断模式应用于级联分布。
如上所述,如本文使用的,术语“截断”是指对分布(在这种情况下是级联分布)的落在预定范围外的值进行重新采样以使其落入所述预定范围内的操作。进一步地,如本文使用的,术语“解码时间”是指解码器在推断期间的操作,而术语“训练时间”是指如以下进一步描述的训练生成器。可以在“解码时间”之前执行一次或多次“训练时间”以获得经训练的生成器。
参考图2的示例,图示了经截断的级联分布的两个示例和完整的级联分布的示例。在实施例中,解码器可以被预先配置成在解码时间从两种或更多种截断模式中确定用于修改级联分布的截断模式。在实施例中,两种或更多种截断模式可以包括截断关闭截断模式12c、弱截断截断模式12b、中等截断截断模式和强截断截断模式12a。在截断关闭截断模式12c下,可以不对级联分布执行截断。在弱截断截断模式12b下,可以在相当宽范围内对级联分布执行截断,即,仅少数值可能落在范围外。在中等截断截断模式和强截断截断模式12a下,被定义用于截断操作的范围可能更窄,即更多数量的值可能落在范围外。
在实施例中,在步骤S102中,解码器可以被预先配置成在解码时间基于音频内容和/或音频比特流的比特流参数来确定截断模式。在实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。在实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
在实施例中,在步骤S102中,解码器可以被预先配置成当音频内容包括掌声时在解码时间确定截断关闭截断模式。在实施例中,在步骤S102中,解码器可以被预先配置成当音频内容包括语音、音乐和/或效果时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。截断模式的这种差异源自以下事实:相比于语音、音乐和/或效果,掌声通常是嘈杂的。
在实施例中,在步骤S102中,解码器可以被预先配置成当对比特率的指示表明低比特率时在解码时间确定截断关闭截断模式。在实施例中,在步骤S102中,解码器可以被预先配置成当对比特率的指示表明高比特率时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。这是由于以下事实:在低比特率下,由于低比特率编码可能引入频谱空穴,因此存在弱的/稀疏的调节信号,而在高比特率下,存在强的/密集的调节信号。可以将调节(引导)信号(或调节参数)输入到生成器中以相比于非条件GAN(其中生成器仅基于随机噪声处理音频数据)而言实现对音频数据更有意义的处理。在本文中,调节信号可以是经解码音频信号(经解码音频数据)。
在实施例中,在步骤S102中,解码器可以被预先配置成基于对应当使用的截断模式的指示来确定截断模式,该指示被包括在音频比特流的元数据中。这样,可能在确定截断模式时实施编码器控制。
在实施例中,将所确定的截断模式应用于级联分布可以包括根据截断范围向级联分布应用切断以获得截断区域并且对截断区域外的所有值进行重新采样,以使其位于截断区域内。
截断范围可以通过例如设置针对截断的特定上阈值和下阈值来定义。这些上阈值和下阈值可以定义上切断和下切断,如图2的示例中图示的。然后,截断区域可以被认为是位于在上阈值和下阈值处执行的上切断与下切断之间的区域。
在实施例中,弱截断截断模式可以被设置成应用从-0.8延伸到+0.8的截断范围。值-0.8和+0.8对应于定义用于应用切断的上阈值和下阈值的相应归一化值。
在实施例中,中等截断截断模式可以被设置成应用从-0.5延伸到+0.5的截断范围。可替代地或另外地,在实施例中,强截断截断模式可以被设置成应用从-0.4延伸到+0.4的截断范围。
尽管完整的级联分布的类型(未截断、截断关闭截断模式)可能不受限制,但是在实施例中,完整的级联分布可以是高斯分布或拉普拉斯分布。完整的级联分布可以进一步随着馈送到生成器中的音频数据而变化。
生成器的架构
尽管生成器的架构通常不受限制,如上文已经描述的,但是生成器包括编码器级和解码器级。生成器的编码器级和解码器级可以是完全卷积的,其中,解码器级可以镜像编码器级。编码器级以及解码器级各自包括多个层,每一层中具有一个或多个滤波器(例如,多个滤波器),其中,生成器的编码器级的瓶颈层(最后一层)映射到编码器级与解码器级之间的经编码音频特征空间(潜在特征空间表示),并且其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。
例如,生成器的编码器级以及解码器级可以各自包括数量为L个层,每一层中具有N个滤波器。L可以是大于等于1的自然数,并且N可以是大于等于1的自然数。N个滤波器的大小(也称为内核大小)不受限制,并且可以根据生成器对增强初始音频数据的质量的要求来选择。然而,在L层中的每一层中,滤波器大小可以是相同的。
现在参考图3的示例(其示意性地图示了生成器的架构的非限制性示例),可以在第一步骤1中将音频数据输入到生成器中。第一图示的编码器层2(层号L=1)可以包括N=16个滤波器大小为31的滤波器。第二图示的编码器层3(层号L=2)可以包括N=32个滤波器大小为31的滤波器。为了清楚和简洁起见,省略了后续层。第三图示的编码器层4(层号L=11)可以包括N=512个滤波器大小为31的滤波器。
在每一层中,滤波器的数量可以因此增加,即,滤波器的数量可以朝向生成器的更深层增加。在一个实施例中,每个滤波器可以以大于1的步幅对输入到每个编码器层中的音频数据进行操作。每个滤波器可以例如以步幅为2对输入到每个编码器层中的音频数据进行操作。因此,可以执行因子为2的可学习下采样。可替代地,滤波器还可以在每个编码器层中以步幅为1进行操作,随后进行因子为2的下采样(如在已知信号处理中)。可替代地,例如,每个滤波器可以以步幅为4对输入到每个编码器层中的音频数据进行操作,这可以使生成器中的总层数减少一半。
在生成器的至少一个编码器层和至少一个解码器层中,可以另外执行非线性操作作为激活。在一个实施例中,非线性操作可以包括以下中的一项或多项:参数修正线性单元(PReLU)、修正线性单元(ReLU)、泄漏修正线性单元(LReLU)、指数线性单元(eLU)和缩放指数线性单元(SeLU)。在图3的示例中,非线性操作基于PReLU。
如图3所示意性图示的,相应的解码器层7、8、9镜像了编码器层2、3、4。虽然解码器级中的每一层中的滤波器数量和每一层中的滤波器大小可以与编码器级相同,但是可以通过两种替代性方法执行对解码器级中的音频信号的上采样。在一个实施例中,可以在解码器级的层7、8、9中使用小数步幅卷积(也称为转置卷积)操作。可替代地,在解码器级的每一层中,在如利用上采样因子2进行的传统信号处理中那样执行上采样和内插之后,滤波器可以以步幅为1对输入到每一层中的音频数据进行操作。
随后,在输出增强的音频数据之前,输出层(卷积层)10可以在解码器级的最后一层之后。在此示例中,输出层10可以包括N=1个滤波器大小为31的滤波器。
在输出层10中,激活可以不同于在编码器层中的至少一个编码器层以及解码器层中的至少一个解码器层中执行的激活。激活可以例如基于tanh操作。
在编码器级与解码器级之间,可以修改音频数据以生成增强的音频数据。修改可以基于编码器级的映射到经编码音频特征空间6的瓶颈层5。瓶颈层(或者说,经编码音频特征空间)捕获输入(经编码)音频数据的大部分优势特征。经编码音频特征空间6中的修改可以通过将随机噪声向量z与经编码音频特征空间6中的特征级联来完成。
另外地,此时可以输入元数据以修改增强的音频数据。这样,可以基于给定的元数据(例如,压扩元数据)来调节增强的音频数据的生成。
在编码器级与解码器级的同源层之间可能存在跳跃连接11。这样,可以绕过如上所述的经编码音频特征空间6,从而防止信息丢失。可以使用级联和信号相加中的一个或多个来实施跳跃连接11。由于跳跃连接11的实施,滤波器输出的数量可以“实际上”加倍。
参考图3中的示例,生成器的架构可以总结如下:
1/输入:动态范围减小的初始音频数据
2/编码器层L=1:滤波器数量N=16,滤波器大小=31,激活=PreLU
3/编码器层L=2:滤波器数量N=32,滤波器大小=31,激活=PreLU
.
.
.
4/编码器层L=11:滤波器数量N=512,滤波器大小=31
5/瓶颈层:滤波器数量N=1024,滤波器大小=31
6/经编码音频特征空间
7/解码器层L=1:滤波器数量N=512,滤波器大小=31
.
.
.
8/解码器层L=10:滤波器数量N=32,滤波器大小=31,激活PreLU
9/解码器层L=11:滤波器数量N=16,滤波器大小=31,激活PreLU
10/输出层:滤波器数量N=1,滤波器大小=31,激活tanh
输出:增强的音频数据
11/跳跃连接
以上呈现的架构仅表示示例。取决于应用,生成器的编码器级中和解码器级中的层数可以分别按比例缩小或按比例放大。
对生成器的训练
在实施例中,如图1的示例中图示的,步骤S101可以包括使用完整的级联分布来训练生成器。在实施例中,在步骤S101中,可以通过在包括生成器和判别器的GAN设置中训练生成器来确定生成器的该组参数。GAN设置通常包括通过迭代过程训练的生成器G和判别器D。在生成式对抗网络设置中进行训练期间,生成器G使用完整的级联分布基于从原始音频信号x得到的音频训练信号(经核心编码和经核心解码)来生成经处理的音频训练信号x*,该完整的级联分布作为将经编码音频特征空间中的特征与随机噪声向量z级联的结果被获得。另外地,可以将元数据输入到生成器中,并且处理初始音频训练信号/>可以另外地基于元数据。在训练期间,因此可以基于元数据来调节经处理的音频训练信号x*的生成。
在训练期间,生成器尝试输出与原始音频信号x无法区分的经处理的音频训练信号x*。向判别器一次一个地馈送经处理的音频训练信号x*和原始音频信号x,并且判别器以假/真方式判断输入信号是经处理的音频训练信号x*还是原始音频信号x。这样,判别器尝试将原始音频信号x与经处理的音频训练信号x*区别开。在迭代过程期间,生成器然后调整其参数以生成与原始音频信号x相比越来越好的经处理的音频训练信号x*,并且判别器学会在经处理的音频训练信号x*与原始音频信号x之间更好地做出判断。
应当注意的是,为了在最终步骤中训练生成器,可以首先训练判别器。训练和更新判别器可以涉及最大化向原始音频信号x分配高分并且向经处理的音频训练信号x*分配低分的概率。训练判别器的目标可以是将原始音频信号x识别为真而将经处理的音频训练信号x*(生成的信号)识别为假。当训练和更新判别器时,生成器的参数可以保持固定。
训练和更新生成器可以涉及使原始音频信号x与经处理的音频训练信号x*之间的差异最小化。训练生成器的目标可以是为了实现判别器将经处理的音频训练信号x*识别为真。
现在参考图4的示例,更详细地描述了在生成式对抗网络设置中训练生成器G13。对生成器G13的训练可以涉及以下操作。
原始音频信号x 15可以经历核心编码和核心解码以获得初始音频训练信号16。然后将初始音频训练信号/>16和随机噪声向量z 17输入到生成器G13中。基于该输入,生成器G13然后使用完整的级联分布生成经处理的音频训练信号x*18。在实施例中,在训练生成器G13期间,因此可以应用截断关闭截断模式。另外地,可以在经编码音频特征空间中使用元数据作为附加输入来训练生成器G13,以修改经处理的音频训练信号x*18。一次一个地将已从中得到初始音频训练信号/>16的原始音频信号x 15和经处理的音频训练信号x*18输入19到判别器D14中。作为附加信息,还可以每次将初始音频训练信号/>16输入到判别器D14中。然后,判别器D14判断20输入信号是经处理的音频训练信号x*18(假)还是原始音频信号x 15(真)。
在下一步骤中,然后调整生成器G13的参数直到判别器D14不再能将经处理的音频训练信号x*18与原始音频信号x 15区分开为止。这可以在迭代过程21中完成。
通过判别器D14进行的判断可以如根据以下等式(1)基于感知激励的目标函数中的一个或多个:
如从等式(1)中的第一项可以看出,通过将音频训练信号作为附加信息输入到判别器中应用了条件生成式对抗网络设置。
以上等式(1)中的最后两个项可以被称为多分辨率STFT损失项。多分辨率STFT损失可以被认为是使用不同STFT参数的不同基于STFT的损失函数之和。(频谱收敛损失)和(对数尺度STFT量值损失)可以在M个不同分辨率下应用基于STFT的损失,其中分别地,FFT仓(bin)数量∈{512,1024,2048}、跳跃大小∈{50,120,240}、并且最后窗长度∈{240,600,1200}。结果表明,对于处理一般音频(即任何内容类型),多分辨率STFT损失项提供质量改进。
等式(1)中的第二项是按因子lambda(拉姆达)λ缩放的1-范数距离。取决于应用和/或输入到生成器G13中的信号长度,Lambda的值可以从10到100中选择。例如,lambda可以选择为λ=100。此外,多分辨率STFT损失项的缩放(μ和θ)可以被设置为与lambda相同的值。
在生成式对抗网络设置中对判别器D14的训练可以遵循与以上针对响应于将经处理的音频训练信号x*18和原始音频信号x 15连同初始音频训练信号16一次一个地输入19判别器D14中而对生成器G13进行训练所描述的相同的一般迭代过程22,区别在于,在这种情况下,生成器G13的参数可以是固定的,而判别器D14的参数可以是变化的。可以通过以下等式(2)来描述对判别器D14的训练,该等式(2)使得判别器D14能够将经处理的音频训练信号x*18确定为假:
在以上情况下,还通过将经核心解码的初始音频训练信号作为附加信息输入到判别器中应用了最小二乘法(LS)和条件生成式对抗网络设置。
除了最小二乘法,还可以使用其他训练方法来在生成式对抗网络设置中训练生成器和判别器。本公开不限于特定训练方法。可替代地或另外地,可以使用所谓的沃瑟斯坦(Wasserstein)方法。在这种情况下,可以使用陆地移动距离(也称为沃瑟斯坦距离)代替最小二乘距离。通常,不同的训练方法使得对生成器和判别器的训练更加稳定。然而,所应用的训练方法的种类不会影响生成器的架构。
判别器的架构
尽管判别器的架构不受限制,但是判别器的架构可以遵循与上述生成器的编码器级相同的一维卷积结构。因此,判别器架构可以镜像生成器的编码器级。判别器因此也可以包括多个层,每一层中具有一个或多个滤波器。例如,判别器可以包括数量为L个层,其中,每一层可以包括数量为N个滤波器。L可以是大于等于1的自然数,并且N可以是大于等于1的自然数。N个滤波器的大小不受限制,并且也可以根据判别器的要求进行选择。然而,在L层中的每一层中,滤波器大小可以是相同的。在判别器的至少一个编码器层中执行的非线性操作可以包括泄漏ReLU。
在编码器级之后,判别器可以包括输出层。输出层可以具有N=1个滤波器大小为1的滤波器。这样,输出层的滤波器大小可以与编码器层的滤波器大小不同。因此,输出层可以是不会对隐藏激活进行下采样的一维卷积层。这意味着输出层中的滤波器可以以步幅为1进行操作,而判别器的编码器级的所有先前层可以使用步幅2。可替代地,编码器级的先前层中的每个滤波器可以以步幅为4进行操作。这可以使得判别器中的总层数减少一半。
输出层中的激活可以与至少一个编码器层中的激活不同。激活可以是S形的。然而,如果使用最小二乘训练方法,则S形激活可能是不需要的并且因此是可选的。
判别器的架构可以示例性地总结如下:
输入:增强的动态范围减小的音频训练信号或原始的动态范围减小的音频信号
编码器层L=1:滤波器数量N=16,滤波器大小=31,激活=泄漏ReLU
编码器层L=2:滤波器数量N=32,滤波器大小=31,激活=泄漏ReLU
.
.
.
编码器层L=11:滤波器数量N=1024,滤波器大小=31,激活=泄漏ReLU
输出层:滤波器数量N=1,滤波器大小=1,可选地:激活=S形
输出:相对于原始的动态范围减小的音频信号和由生成器生成的增强的动态范围减小的音频训练信号判断输入为真/假。
以上呈现的架构仅表示示例。取决于应用,判别器的编码器级中的层数可以分别按比例缩小或按比例放大。
用于建立用于从音频比特流生成经处理的音频数据的解码器的方法
现在参考图5的示例,图示了使用生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法。生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。
在步骤S201中,接收到音频比特流。在步骤S202中,解码器然后确定截断模式。在步骤S203中,将音频数据输入到生成器中以用于处理音频数据。在步骤S204中,然后将所确定的截断模式应用于级联分布以生成经截断的级联分布。在步骤S205中,由生成器进行的对音频数据的处理时基于经截断的级联分布的。作为来自生成器的输出,然后在步骤S206中获得经处理的音频数据。
要注意的是,如所描述的方法可以应用于未经编码音频或经编码音频。音频数据的格式也不受限制。该方法还可以应用于例如可以涉及附加动态范围卷积的AC-4压扩域。在实施例中,该方法因此可以进一步包括对接收到的音频比特流进行核心解码。
在实施例中,可以由解码器从两种或更多种截断模式中确定截断模式。在实施例中,两种或更多种截断模式可以包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。参考图2的示例和上文给出的细节。
在实施例中,在步骤S202中,可以由解码器基于音频内容和/或比特流参数来确定截断模式。在实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。在实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
在实施例中,在步骤S202中,当音频内容包括掌声时,解码器可以确定截断关闭截断模式。在这种情况下,经截断的级联分布对应于完整的级联分布。在实施例中,在步骤S202中,当音频内容包括语音、音乐和/或效果时,解码器可以确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
在实施例中,在步骤S202中,当对比特率的指示表明低比特率时,解码器可以确定截断关闭截断模式。进一步地,在实施例中,在步骤S202中,当对比特率的指示表明高比特率时,解码器可以确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
在实施例中,在步骤S202中,将所确定的截断模式应用于级联分布可以包括根据截断范围向级联分布应用切断以获得截断区域,并且对截断区域外的所有值进行重新采样,以使其位于截断区域内,如上文更详细地描述的。
在实施例中,弱截断截断模式可以被设置成应用从-0.8延伸到+0.8的截断范围。可替代地或另外地,在实施例中,中等截断截断模式可以被设置成应用从-0.5延伸到+0.5的截断范围。进一步地,可替代地或另外地,在实施例中,强截断截断模式可以被设置成应用从-0.4延伸到+0.4的截断范围。
尽管级联分布的类型不受限制,但是在实施例中,级联分布可以是高斯分布或拉普拉斯分布。
在实施例中,音频比特流可以包括元数据,其中,应当由解码器使用的对截断模式的指示可以被包括在元数据中。这样,可以另外地实施编码器控制。
参考图6的示例,上述方法可以由用于从音频比特流生成经处理的音频数据的装置来实施。装置100可以包括用于接收音频比特流的接收器101和用于确定截断模式的确定器102。装置100可以进一步包括用于处理音频数据的生成式对抗网络GAN的生成器103,其中,生成器103包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器103被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。装置100可以进一步包括被配置成执行上述方法的一个或多个处理器104。
在实施例中,装置可以进一步包括用于对接收到的音频比特流进行核心解码的核心解码器。在实施例中,接收到的音频比特流可以进一步包括指示应当使用的截断模式的元数据,并且装置可以进一步包括用于对接收到的音频比特流进行解复用的解复用器。
上述方法还可以由具有用于将音频数据编码在音频比特流中的装置和用于从音频比特流生成经处理的音频数据的装置的系统来实施。
要注意的是,本文描述的所有方法也可以可替代地或另外地在计算机程序产品上实施,该计算机程序产品包括具有指令的计算机可读存储介质,该指令被适配成当由具有处理能力的设备执行时使该设备执行所述方法。图7的示例中图示了包括两个处理器201、202的设备200。
本文描述的所有方法也可以由具有用于从音频比特流生成经处理的音频数据的装置以及包括生成器和判别器的生成式对抗网络的系统来实施。
解释
除非另外特别声明,否则从以下讨论中显而易见的是,应当理解,在整个公开讨论中,使用诸如“处理”、“计算”、“确定”、“分析”等术语是指计算机或计算系统或类似电子计算设备的动作和/或处理,其将表示为物理(诸如电子)量的数据操纵和/或转换成类似地表示为物理量的其他数据。
以类似的方式,术语“处理器”可以指处理例如来自寄存器和/或存储器的电子数据以将该电子数据转换成例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可以由接受包含指令集的计算机可读(也称为机器可读)代码的一个或多个处理器来执行,该指令集在由处理器中的一个或多个执行时,执行本文描述的方法中的至少一个。包括能够执行指定要采取的动作的指令集(顺序或以其他方式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。该处理系统还可以包括存储器子系统,该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统,以用于组件之间的通信。该处理系统还可以是具有通过网络耦接的处理器的分布式处理系统。如果处理系统需要显示器,则可以包括这样的显示器,例如液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动数据输入,则处理系统还包括输入设备,诸如字母数字输入单元(诸如键盘)、点控制设备(诸如鼠标)等中的一个或多个。该处理系统还可以涵盖存储系统,诸如磁盘驱动单元。在一些配置中,该处理系统可以包括声音输出设备和网络接口设备。因此,存储器子系统包括携带计算机可读代码(例如,软件)的计算机可读载体介质,该计算机可读代码包括在由一个或多个处理器执行时使得执行本文描述的方法中的一个或多个的指令集。注意,当该方法包括多个元素(例如多个步骤)时,除非特别说明,否则不暗示这些元素的顺序。在计算机系统对其执行期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM内和/或处理器内。因此,存储器和处理器也构成携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或被包括在计算机程序产品中。
在可替代示例实施例中,一个或多个处理器作为独立设备操作,或者可以在联网部署中被连接(例如,联网到一个或多个其他处理器),该一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份操作,或者在对等或分布式网络环境中作为对等机器操作。该一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、网络设备、网络路由器、交换机或网桥,或者能够执行指定该机器要采取的动作的指令集(顺序或以其他方式)的任何机器。
注意,术语“机器”还应被理解为包括单独或联合执行一个或多个指令集以执行本文讨论的方法中的任何一种或多种的任何机器集合。
因此,本文描述的每个方法的一个示例实施例是携带指令集的计算机可读载体介质的形式,例如用于在一个或多个处理器(例如是web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、诸如专用装置的装置、诸如数据处理系统的装置或者计算机可读载体介质,例如,计算机程序产品。计算机可读载体介质携带包括指令集的计算机可读代码,该指令集当在一个或多个处理器上执行时,使得一个或多个处理器实施方法。因此,本公开的各方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或者结合软件和硬件方面的示例实施例的形式。此外,本公开可以采取携带介质中体现的计算机可读程序代码的载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式。
还可以经由网络接口设备在网络上发送或接收该软件。虽然载体介质在示例实施例中是单个介质,但是术语“载体介质”应当被理解为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。术语“载体介质”还应被理解为包括能够存储、编码或携带用于由处理器中的一个或多个执行并且使得该一个或多个处理器执行本公开的方法中的任何一种或多种方法的指令集的任何介质。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘和磁光盘。易失性介质包括动态存储器,诸如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含成总线子系统的导线。传输介质也可以采用声波或光波的形式,诸如在无线电波和红外数据通信期间产生的那些声波或光波。例如,术语“载体介质”应相应地被理解为包括但不限于固态存储器、体现在光学和磁性介质中的计算机产品;承载可由一个或多个处理器中的至少一个处理器检测到的传播信号并表示在被执行时实施方法的指令集的介质;以及网络中承载可由一个或多个处理器中的至少一个处理器检测到的传播信号并表示指令集的传输介质。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储器中的指令(计算机可读代码)的处理(例如,计算机)系统的适当处理器(或多个处理器)来执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且可以使用用于实施本文描述的功能的任何适当的技术来实施本公开。本公开不限于任何特定的编程语言或操作系统。
在本公开中,对“一个实施例”、“一些实施例”或“示例实施例”的引用意味着结合实施例描述的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,短语“在一个实施例中”、“在一些实施例中”或“在示例实施例中”在本公开中各处的出现不一定都指代同一示例实施例。此外,在一个或多个示例实施例中,特定的特征、结构或特性可以以任何合适的方式组合,如根据本公开将对于本领域普通技术人员来说是显而易见的。
如本文所用,除非另有说明,否则使用用于描述共同对象的序数形容词“第一”、“第二”、“第三”等仅仅指示相似对象的不同实例被引用,并不意味着如此描述的对象必须在时间上、空间上、排序上或以任何其他方式处于给定的顺序。
在权利要求和本文的描述中,术语“包括”、“包括有”或“其包括”中的任何一个都是开放的术语,意味着至少包括后面的元素/特征,但不排除其他元素/特征。因此,术语“包括”当在权利要求中使用时不应被解释为限于其后列出的模块或元素或步骤。例如,表述包括A和B的设备的范围不应限于设备仅由元素A和B组成。本文使用的术语“包含”或“包含有”或“其包含”中的任何一个也是开放的术语,也意味着至少包括该术语后面的元素/特征,但不排除其他元素/特征。因此,“包括”与“包含”同义。
应当理解,在对本公开的示例实施例的以上描述中,出于简化本公开和帮助理解一个或多个各种发明方面的目的,本公开的各种特征有时被组合在单个示例实施例、附图或其描述中。然而,这种公开方法不应被解释为反映了权利要求需要比每个权利要求中明确记载的特征更多的特征的意图。相反,如随附权利要求所反映的,发明方面在于少于单个前述公开的示例实施例的所有特征。因此,随说明书附上的权利要求由此被明确地并入到本说明书中,其中每个权利要求独立地作为本公开的独立示例实施例。
此外,尽管本文描述的一些示例实施例包括一些但不包括其他示例实施例中包括的其他特征,但是不同示例实施例的特征的组合意在落在本公开的范围内,并且形成不同的示例实施例,如本领域技术人员将理解的那样。例如,在随附的权利要求中,所要求保护的示例实施例中的任何一个都可以以任何组合使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,本公开的示例实施例可以在没有这些具体细节的情况下实施。在其他情况下,没有详细示出公知的方法、结构和技术,以免模糊对此描述的理解。
因此,尽管已经描述了被认为是本公开的最优模式,但是本领域的技术人员将认识到,在不脱离本公开的精神的情况下,可以对本公开进行其他和进一步的修改,并且旨在要求所有这些改变和修改都落入本公开的范围内。例如,上面给出的任何公式仅仅代表可以使用的程序。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。在本公开的范围内,可以向所描述的方法添加或删除步骤。
Claims (43)
1.一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,所述解码器包括用于处理所述音频数据的生成式对抗网络GAN的生成器,其中,所述生成器包括编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,所述编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,所述生成器被适配成将所述经编码音频特征空间中的特征与随机噪声向量z级联,以基于级联的结果获得级联分布,其中,所述方法包括以下步骤:
(a)将所述生成器预先配置成利用所述生成器的一组参数来处理音频数据,所述参数是通过在训练时间使用完整的级联分布训练所述生成器来确定的;以及
(b)将所述解码器预先配置成在解码时间确定用于修改所述级联分布的截断模式并且将所确定的截断模式应用于所述级联分布。
2.如权利要求1所述的方法,其中,所述解码器被预先配置成在解码时间从两种或更多种截断模式中确定用于修改所述级联分布的所述截断模式。
3.如权利要求2所述的方法,其中,所述两种或更多种截断模式包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
4.如权利要求1至3中任一项所述的方法,其中,在步骤(b)中,所述解码器被预先配置成在解码时间基于音频内容和/或所述音频比特流的比特流参数来确定所述截断模式。
5.如权利要求4所述的方法,其中,所述音频内容包括掌声、语音、音乐和效果中的一者或多者。
6.如权利要求4或5所述的方法,其中,所述比特流参数包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
7.如当引用权利要求3时的权利要求5所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当所述音频内容包括掌声时在解码时间确定所述截断关闭截断模式。
8.如当引用权利要求3时的权利要求5所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当所述音频内容包括语音、音乐和/或效果时在解码时间确定所述弱截断截断模式、所述中等截断截断模式或所述强截断截断模式之一。
9.如当引用权利要求3时的权利要求6所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当对所述比特率的所述指示表明低比特率时在解码时间确定所述截断关闭截断模式。
10.如当引用权利要求3时的权利要求6所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当对所述比特率的所述指示表明高比特率时在解码时间确定所述弱截断截断模式、所述中等截断截断模式或所述强截断截断模式之一。
11.如权利要求1至10中任一项所述的方法,其中,在步骤(b)中,所述解码器被预先配置成基于对应当使用的截断模式的指示来确定所述截断模式,所述指示被包括在所述音频比特流的元数据中。
12.如权利要求1至11中任一项所述的方法,其中,将所确定的截断模式应用于所述级联分布包括:
根据截断范围向所述级联分布应用切断,以获得截断区域;以及
对所述截断区域外的所有值进行重新采样,以使其位于所述截断区域内。
13.如当引用权利要求3时的权利要求12所述的方法,其中,所述弱截断截断模式被设置成应用从-0.8延伸到+0.8的截断范围。
14.如当引用权利要求3时的权利要求12或13所述的方法,其中,所述中等截断截断模式被设置成应用从-0.5延伸到+0.5的截断范围。
15.如当引用权利要求3时的权利要求12至14中任一项所述的方法,其中,所述强截断截断模式被设置成应用从-0.4延伸到+0.4的截断范围。
16.如权利要求1至15中任一项所述的方法,其中,所述完整的级联分布是高斯分布或拉普拉斯分布。
17.如权利要求1至16中任一项所述的方法,其中,步骤(a)包括使用所述完整的级联分布来训练所述生成器。
18.如权利要求1至17中任一项所述的方法,其中,在步骤(a)中,所述生成器的所述一组参数是通过在包括所述生成器和判别器的GAN设置中训练所述生成器来确定的,其中,所述训练包括以下步骤:
(a)将音频训练信号输入到所述生成器中;
(b)由所述生成器基于所述音频训练信号使用所述完整的级联分布来生成经处理的音频训练信号;
(c)一次一个地将所述经处理的音频训练信号和已从中得到所述音频训练信号的对应原始音频信号输入到所述判别器中;
(d)由所述判别器判断所述输入音频信号是所述经处理的音频训练信号还是所述原始音频信号;以及
(e)迭代地调整所述生成器的参数直到所述判别器不再能将所述经处理的音频训练信号与所述原始音频信号区分开为止。
19.如权利要求18所述的方法,其中,在训练所述生成器期间应用所述截断关闭截断模式。
20.一种使用生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法,所述生成器用于处理所述音频数据,其中,所述生成器包括编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,所述编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,所述生成器被适配成将所述经编码音频特征空间中的特征与随机噪声向量z级联,以基于级联的结果获得级联分布,其中,所述方法包括以下步骤:
(a)接收所述音频比特流;
(b)由所述解码器确定截断模式;
(c)将所述音频数据输入到所述生成器中以用于处理所述音频数据;
(d)将所确定的截断模式应用于所述级联分布,以生成经截断的级联分布;
(e)由所述生成器基于所述经截断的级联分布来处理所述音频数据;以及
(f)获得经处理的音频数据作为所述生成器的输出。
21.如权利要求20所述的方法,其中,所述方法进一步包括对接收到的音频比特流进行核心解码。
22.如权利要求20或21所述的方法,其中,所述截断模式是由所述解码器从两种或更多种截断模式中确定的。
23.如权利要求22所述的方法,其中,所述两种或更多种截断模式包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
24.如权利要求20至23中任一项所述的方法,其中,在步骤(b)中,所述截断模式是由所述解码器基于音频内容和/或比特流参数确定的。
25.如权利要求24所述的方法,其中,所述音频内容包括掌声、语音、音乐和效果中的一者或多者。
26.如权利要求24或25所述的方法,其中,所述比特流参数包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
27.如当引用权利要求23时的权利要求25所述的方法,其中,在步骤(b)中,当所述音频内容包括掌声时,所述解码器确定所述截断关闭截断模式。
28.如当引用权利要求23时的权利要求25所述的方法,其中,在步骤(b)中,当所述音频内容包括语音、音乐和/或效果时,所述解码器确定所述弱截断截断模式、所述中等截断截断模式或所述强截断截断模式之一。
29.如当引用权利要求23时的权利要求26所述的方法,其中,在步骤(b)中,当对所述比特率的所述指示表明低比特率时,所述解码器确定所述截断关闭截断模式。
30.如当引用权利要求23时的权利要求26所述的方法,其中,在步骤(b)中,当对所述比特率的所述指示表明高比特率时,所述解码器确定所述弱截断截断模式、所述中等截断截断模式或所述强截断截断模式之一。
31.如权利要求20至30中任一项所述的方法,其中,在步骤(d)中,将所确定的截断模式应用于所述级联分布包括:
根据截断范围向所述级联分布应用切断,以获得截断区域;以及
对所述截断区域外的所有值进行重新采样,以使其位于所述截断区域内。
32.如当引用权利要求23时的权利要求31所述的方法,其中,所述弱截断截断模式被设置成应用从-0.8延伸到+0.8的截断范围。
33.如当引用权利要求23时的权利要求31或32所述的方法,其中,所述中等截断截断模式被设置成应用从-0.5延伸到+0.5的截断范围。
34.如当引用权利要求23时的权利要求31至33中任一项所述的方法,其中,所述强截断截断模式被设置成应用从-0.4延伸到+0.4的截断范围。
35.如权利要求20至34中任一项所述的方法,其中,所述级联分布是高斯分布或拉普拉斯分布。
36.如权利要求20至35中任一项所述的方法,其中,所述音频比特流包括元数据,并且其中,对应当由所述解码器使用的截断模式的指示被包括在所述元数据中。
37.一种用于从音频比特流生成经处理的音频数据的装置,其中,所述装置包括:
(a)接收器,所述接收器用于接收所述音频比特流;
(b)确定器,所述确定器用于确定截断模式;以及
(c)生成式对抗网络GAN的生成器,所述生成器用于处理所述音频数据,其中,所述生成器包括编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,所述编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,所述生成器被适配成将所述经编码音频特征空间中的特征与随机噪声向量z级联,以基于级联的结果获得级联分布,
并且其中,所述装置包括一个或多个处理器,所述一个或多个处理器被配置成执行如权利要求20至36中任一项所述的方法。
38.如权利要求37所述的装置,进一步包括核心解码器,所述核心解码器用于对接收到的音频比特流进行核心解码。
39.如权利要求37或38所述的装置,其中,接收到的音频比特流进一步包括指示应当使用的截断模式的元数据,并且所述装置进一步包括解复用器,所述解复用器用于对接收到的音频比特流进行解复用。
40.一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行如权利要求1至19中任一项所述的方法。
41.一种计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行如权利要求20至36中任一项所述的方法。
42.一种具有用于从音频比特流生成经处理的音频数据的装置以及包括生成器和判别器的生成式对抗网络的系统,其中,所述系统被配置成执行如权利要求1至36中任一项所述的方法。
43.一种具有用于将音频数据编码在音频比特流中的装置和如权利要求37至39中任一项所述的用于从音频比特流生成经处理的音频数据的装置的系统。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063126594P | 2020-12-17 | 2020-12-17 | |
EP20214888.8 | 2020-12-17 | ||
US63/126,594 | 2020-12-17 | ||
PCT/EP2021/085852 WO2022129146A1 (en) | 2020-12-17 | 2021-12-15 | Method and apparatus for processing of audio data using a pre-configured generator |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116615781A true CN116615781A (zh) | 2023-08-18 |
Family
ID=87676917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180084306.8A Pending CN116615781A (zh) | 2020-12-17 | 2021-12-15 | 用于使用预先配置的生成器处理音频数据的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116615781A (zh) |
-
2021
- 2021-12-15 CN CN202180084306.8A patent/CN116615781A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7019096B2 (ja) | 低ビットレート符号化オーディオの増強を制御する方法及び機器 | |
KR102057015B1 (ko) | 신호 처리 장치 및 방법, 및 프로그램 | |
JP2010521012A (ja) | 音声符号化システム及び方法 | |
CN1125438C (zh) | 降低编码的语音信号中的稀疏 | |
EP4158624A1 (en) | Method and apparatus for determining parameters of a generative neural network | |
US20230178084A1 (en) | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain | |
CN116615781A (zh) | 用于使用预先配置的生成器处理音频数据的方法和装置 | |
CN113539281A (zh) | 音频信号编码方法和装置 | |
CN113287167A (zh) | 用于混合语音合成的方法、设备及系统 | |
US20240055006A1 (en) | Method and apparatus for processing of audio data using a pre-configured generator | |
US20240021210A1 (en) | Method and apparatus for neural network based processing of audio using sinusoidal activation | |
US8489392B2 (en) | System and method for modeling speech spectra | |
CN113508399A (zh) | 用于更新神经网络的方法和装置 | |
CN113810058A (zh) | 数据压缩方法、数据解压缩方法、装置及电子设备 | |
CN116368495A (zh) | 使用嵌套卷积神经网络架构进行音频处理的方法和装置 | |
CN115867965A (zh) | 低频效果声道的帧丢失隐藏 | |
WO2023237640A1 (en) | Loss conditional training and use of a neural network for processing of audio using said neural network | |
WO2022087025A1 (en) | Method and apparatus for audio processing using a nested convolutional neural network architecture | |
US20230395086A1 (en) | Method and apparatus for processing of audio using a neural network | |
Sun et al. | Steganography using Gabor filter and anisotropic diffusion | |
CN116368497A (zh) | 利用深度神经网络的自适应块切换 | |
CN114556470A (zh) | 利用生成模型对音频信号进行波形编码的方法和系统 | |
CN116457797A (zh) | 使用神经网络处理音频的方法和装置 | |
KR20040017370A (ko) | 오브젝트-기반 비디오 인코딩의 자동 마스크 선택 | |
CN116325807A (zh) | 用于从输入多声道音频信号生成中间音频格式的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |