CN114556470A - 利用生成模型对音频信号进行波形编码的方法和系统 - Google Patents

利用生成模型对音频信号进行波形编码的方法和系统 Download PDF

Info

Publication number
CN114556470A
CN114556470A CN202080072793.1A CN202080072793A CN114556470A CN 114556470 A CN114556470 A CN 114556470A CN 202080072793 A CN202080072793 A CN 202080072793A CN 114556470 A CN114556470 A CN 114556470A
Authority
CN
China
Prior art keywords
source signal
waveform
generative model
signal
generative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080072793.1A
Other languages
English (en)
Inventor
J·克雷沙
A·比斯瓦斯
L·维莱莫斯
R·M·菲金
周聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Publication of CN114556470A publication Critical patent/CN114556470A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本文描述了一种波形解码方法,该方法包括以下步骤:(a)由波形解码器接收包括源信号的有限比特率表示的比特流;(b)对源信号的有限比特率表示进行波形解码以获得源信号的波形近似;(c)将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布;以及(d)基于概率分布来生成源信号的重建信号。进一步描述了一种用于波形编码的方法和系统以及一种训练生成模型的方法。

Description

利用生成模型对音频信号进行波形编码的方法和系统
相关申请的交叉引用
本申请要求于2019年11月15日提交的欧洲专利申请号19209362.3和2019年10月18日提交的美国临时专利申请号62/923,225的优先权,这两个专利申请均通过引用并入本文。
技术领域
本公开总体上涉及一种波形解码方法,并且更具体地,涉及利用生成模型对源信号进行波形解码。本公开进一步涉及一种用于波形编码的方法和系统以及一种训练生成模型的方法。
尽管本文将特别参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景下。
背景技术
在整个公开内容中对背景技术的任何讨论都不应视为承认此类技术是本领域众所周知的或形成本领域公知常识的一部分。
波形的低速率量化会导致编码伪像。常用的样本失真度量无法很好地捕获这些伪像的感知效果。出于这个原因,对波形进行操作的音频编码算法通常配备启发式算法,旨在当信号量化无法重建信号的感知相关的特征时提高感知性能。
例如,在变换音频编码的上下文中,低比特率编码方案通常会引入编码伪像(如频谱空洞)或限制经编码信号的带宽(作为对比特率与样本失真度量之间的权衡优化的结果)。为了隐藏编码伪像,通常使用诸如噪声填充或带宽扩展等工具。
另外,变换编码通常涉及使用简单的量化器(如标量量化器)。由于常用变换的去相关特性,可以减小与向量量化的性能差距。然而,完美的去相关可能难以实现。因此,在许多情况下,解码器侧仍然需要附加措施来进一步提高量化的性能,如后置滤波。
到目前为止,深度生成模型已成功用于语音编码,显著改善了感知的质量与比特率的权衡。这些方案包括计算语音的参数化(有限比特率)表示的编码器和基于生成模型的解码器。通过从以参数化表示为条件的经训练的概率分布中采样来重建语音信号。
生成模型还用于音频信号的合成。然而,它们在音频编码中的应用仍然是一个悬而未决的问题。
最接近编码问题的应用是Magenta项目的方案,其中钢琴波形被编码为类似MIDI的表示,然后从该表示进行重建。这在概念上类似于所提到的语音编码方案,其中编码器提供对要生成的信号的显著的参数化描述。也许,这种用于音频的方法的最明显的缺点是该组显著参数将取决于信号类别(例如,类似MIDI的参数化将不适用于语音)。
虽然深度神经网络已经应用于音频编码问题,但这些方案是基于缺乏对通过从学习的概率分布中进行采样来重建信号的模型的生成能力的判别网络的。生成式建模提供了用于合成合理信号结构的手段,实现了优化感知性能(如带宽扩展或信号结构的噪声填充,否则这些信号结构将由于信号量化而丢失)的强大技术。还提出了能够提供源匹配噪声填充的信号量化器。然而,这些方案局限于标量量化器和描述源的简单概率分布。
因此,存在对用于利用生成模型对音频信号进行波形编码的方法、装置和系统的需求。
发明内容
根据本公开的第一方面,提供了一种波形解码方法。该方法可以包括步骤(a):由波形解码器接收包括源信号的有限比特率表示的比特流。该方法可以进一步包括步骤(b):对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。该方法可以进一步包括步骤(c):将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布。并且该方法可以包括步骤(d):基于概率分布来生成源信号的重建信号。
通过如上配置,所描述的方法允许以无缝方式组合波形编码和参数化编码的优点。特别地,可以提高波形编码的音频的感知性能。
在一些实施例中,在步骤(d)中,可以通过根据概率分布生成随机样本来生成重建信号,或者在步骤(d)中,可以通过根据概率分布对样本进行平均来生成重建信号。
在一些实施例中,在步骤(a)中,所接收到的比特流可以进一步包括以有限比特率表示的一个或多个辅助参数,并且任选地,该一个或多个辅助参数可以包括关于源信号的至少一个频带的每频带能量和/或频谱包络的指示。
在一些实施例中,在步骤(a)中,所接收到的比特流可以进一步包括指示源信号的内容类型的信息,和/或在步骤(a)中,所接收到的比特流可以进一步包括指示编码方案的操作比特率的信息。
在一些实施例中,步骤(c)可以进一步包括基于指示源信号的内容类型的信息从一组预定义生成模型中选择生成模型,并且/或者步骤(c)可以进一步包括基于指示编码方案的操作比特率的信息从一组预定义生成模型中选择生成模型。
在一些实施例中,该方法可以进一步包括以下步骤:基于指示源信号的内容类型的信息和/或基于指示编码方案的操作比特率的信息来确定应当输出源信号的波形近似作为源信号的重建信号。
在一些实施例中,生成模型可以以前瞻的方式进行操作。这样,可以提高生成模型的操作性能。
在一些实施例中,生成模型可已被训练用于在信号域中操作。
在一些实施例中,生成模型可以以自回归方式操作,或者生成模型可以进行操作以一次重建源信号的整个帧。
在一些实施例中,步骤(c)中的生成模型可以是实施条件概率密度函数的生成模型,并且生成模型可以以源信号的波形近似为条件并且可以任选地以一个或多个辅助参数为条件。这样,该方法能够提供与音频编码背景下常用的其他波形编码方案相比具有竞争力的感知性能。
在一些实施例中,生成模型可以是显式密度模型,如易求解的密度模型。在一些实施例中,生成模型可以是自回归神经网络,如卷积神经网络(CNN)(例如,WaveNet)或循环神经网络(RNN)(例如,sampleRNN)。在一些实施例中,生成模型可以包括条件流模型。
在一些实施例中,生成模型可以是条件sampleRNN神经网络,并且任选地,条件sampleRNN神经网络可以是四层sampleRNN,其中通过卷积层向每一层提供条件。
在一些实施例中,源信号的有限比特率表示可以已通过生成包括源信号的有限比特率表示的比特流的波形编码器获得,并且任选地,另外的一个或多个辅助参数可以由波形编码器提供并且被包括在比特流中。
在一些实施例中,波形编码器可以是确定性波形编码器。
在一些实施例中,提供指示源信号的内容类型的信息的另外的一个或多个源分类器可以由波形编码器提供并且被包括在比特流中,并且/或者指示编码方案的操作比特率的另外的信息可以由波形编码器提供并且被包括在比特流中。
根据本公开的第二方面,提供了一种用于波形编码的方法。该方法可以包括步骤(a):由波形编码器对源信号进行操作以获得包括源信号的有限比特率表示的比特流。该方法可以进一步包括步骤(b):由波形解码器接收包括源信号的有限比特率表示的比特流。该方法可以进一步包括步骤(c):对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。该方法可以进一步包括步骤(d):将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布。并且该方法可以包括步骤(e):基于概率分布来生成源信号的重建信号。
根据本公开的第三方面,提供了一种用于波形编码的系统,其中,该系统包括波形编码器和波形解码器,并且其中,该系统被配置为执行用于波形编码的方法。
根据本公开的第四方面,提供了一种训练生成模型的方法。该方法可以包括步骤(a):提供源信号的原始信号。该方法可以进一步包括步骤(b):对源信号的原始信号进行波形编码和解码,以获得源信号的波形近似。该方法可以进一步包括步骤(c):将源信号的波形近似输入到生成模型中,以获得概率分布的参数化函数。并且该方法可以包括步骤(d):基于从生成模型获得的概率分布,调整所述生成模型的参数以使原始源信号的似然最大化。
在一些实施例中,生成模型可以以源信号的波形近似为条件,并且可以任选地以一个或多个辅助参数为条件。
在一些实施例中,在步骤(d)中,可以基于使负对数似然的数据集的平均值最小化来调整生成模型的参数。
在一些实施例中,在步骤(c)中,可以基于概率分布来生成另外的源信号的重建信号,并且在步骤(d)中,可以基于使对源信号的重建信号与源信号的原始信号之间的差的指示最小化来调整生成模型的参数。
附图说明
现在将参考附图仅通过举例来描述本公开的示例实施例,在附图中:
图1图示了利用生成模型进行波形解码的方法的示例的流程图。
图2示意性地图示了利用以源信号的波形近似为条件的生成模型进行波形编码的方法的示例,该方法由生成模型和波形编码解码器的系统实施。
图3图示了利用以源信号的波形近似和一个或多个辅助参数为条件的生成模型进行波形解码的方法的示例的流程图。
图4示意性地图示了利用以源信号的波形近似和一个或多个辅助参数为条件的生成模型进行波形编码的方法的示例,该方法由生成模型和波形编码解码器的系统实施。
图5图示了利用从一组预定义生成模型中选择的生成模型进行波形解码的方法的示例的流程图。
图6示意性地图示了利用从一组预定义生成模型中选择的生成模型进行波形编码的方法的示例,该方法由波形编码器和波形解码器的系统实施。
图7示意性地图示了波形编码器和波形解码器的系统的示例。
图8示意性地图示了训练生成模型的方法的示例。
图9示出了钢琴编码任务的听力测试结果。
图10示出了语音编码任务的听力测试结果。
图11a至图11c图示了钢琴编码任务的频谱图,其中,图11a示出了参考X,
图11b示出了波形基线
Figure BDA0003599145810000051
并且图11c示出了使用利用生成模型的编码方法的实施例的重建
Figure BDA0003599145810000052
具体实施方式
波形编码的生成模型
本文所描述的方法、装置和系统旨在提高经波形编码的音频的感知性能。特别地,可以促进带宽扩展和利用合理结构填充光谱空洞;交错波形编码和带宽扩展;并提高样本失真度量方面的性能。本文所描述的方法、装置和系统提供了一种基于生成模型的源编码方案,该源编码方案以无缝方式组合了波形编码和参数化编码的优点。当针对特定信号类别(内容类型)进行训练时,该方案优于最先进的源编码技术。此外,该编码方案可以与用于分配编码失真的感知模型一起使用。可以通过分析来描述和预测该方案的操作及其性能。
利用生成模型进行波形解码的方法
参考图1的示例,图示了利用生成模型进行波形解码的方法的示例的流程图。在步骤S101中,波形解码器接收包括源信号的有限比特率表示的比特流。在实施例中,可以已经由生成包括源信号的有限比特率表示的比特流的波形编码器获得源信号的有限比特率表示。在实施例中,波形编码器可以是确定性波形编码器。
在步骤S102中,对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。
在步骤S103中,将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布。在实施例中,生成模型可以以前瞻的方式进行操作。在实施例中,生成模型可已被训练用于在信号域中操作。
在步骤S104中,然后基于概率分布来生成源信号的重建信号。在实施例中,在步骤S104中,可以通过根据概率分布生成随机样本来生成重建信号。可替代地,在步骤S104中,可以通过根据概率分布对样本进行平均来生成重建信号。
本文所描述的波形解码的方法可以在包括被配置为执行所述方法的一个或多个处理器的相应的波形解码器上实施。
用于波形编码的方法可以在包括波形编码器和波形解码器的系统上实施。该方法可以包括步骤(a):由波形编码器对源信号进行操作以获得包括源信号的有限比特率表示的比特流。该方法可以进一步包括步骤(b):由波形解码器接收包括源信号的有限比特率表示的比特流。该方法可以进一步包括步骤(c):对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。该方法可以进一步包括步骤(d):将源信号的波形近似提供给实施概率密度函数的生成模型,以获得源信号的重建信号的概率分布。并且该方法可以包括步骤(e):基于概率分布来生成源信号的重建信号。
应当注意,上述系统的波形解码器还可以替代地或另外地被配置为执行如本文所描述的波形解码的方法。
本文描述的方法可以进一步被实施为包括具有指令的计算机可读存储介质的计算机程序产品,该指令被适配成当由具有处理能力的设备执行时使该设备执行所述方法。
利用条件式生成模型进行波形解码的方法
在实施例中,生成模型可以是在步骤S103中实施条件概率密度函数的生成模型,其中,生成模型可以以源信号的波形近似为条件。
现在参考图2的示例,图示了利用以源信号的波形近似为条件的生成模型进行波形编码的方法,该方法由生成模型和波形编码解码器的系统实施。
一般而言,应当注意,贯穿本公开,大写字母可以用于表示随机变量,而小写字母可以用于表示其实现。
在图2的示例中,源信号X1的有限比特率(参数化)表示I2由波形编码器提供。例如,波形编码器可以对被分块成向量的、由X1表示的源信号样本进行操作,以获得源信号的有限比特率表示I2。可以(方便地)针对比特率与失真的权衡来优化波形编码器(通过使用样本失真度量,例如,感知加权平方误差)。
例如,由波形解码器对源信号X1的有限比特率表示I2进行波形解码,然后产生源信号X1的波形近似
Figure BDA0003599145810000071
生成模型4可以以该波形近似为条件。然后,条件式生成模型4可以实施条件概率密度函数,以获得条件概率分布(1):
Figure BDA0003599145810000072
然后,可以根据条件概率分布pθ基于从样本中随机采样或对样本进行平均来生成源信号X1的重建信号
Figure BDA0003599145810000073
因此,在图2的示例中图示的波形编码系统(方案)的结构能够提供与音频编码背景下常用的其他源(波形)编码方案相比具有竞争力的感知性能。
现在参考图3的示例,图示了利用以源信号的波形近似和一个或多个辅助参数为条件的生成模型进行波形解码的方法的示例的流程图。
在步骤S201中,波形解码器可以接收包括源信号的有限比特率表示和以有限比特率表示的一个或多个辅助参数的比特流。一个或多个辅助参数可以包括关于源信号的至少一个频带的每频带能量和/或频谱包络的指示。源信号的有限比特率表示和以有限比特率表示的一个或多个辅助参数可已由波形编码器提供。在实施例中,波形编码器可以是确定性波形编码器。
在步骤S202中,可以对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。
在步骤S203中,可以将源信号的波形近似提供给以源信号的波形近似和一个或多个辅助参数为条件的生成模型。因此,生成模型可以实施条件概率密度函数,以获得源信号的重建信号的条件概率分布。
在步骤S204中,然后可以基于条件概率分布来生成源信号的重建信号。在实施例中,在步骤S204中,可以通过根据条件概率分布生成随机样本来生成重建信号。可替代地,在步骤S204中,可以通过根据条件概率分布对样本进行平均来生成重建信号。
现在参考图4的示例,示意性地图示了利用以源信号的波形近似和一个或多个辅助参数为条件的生成模型进行波形编码的方法的示例,该方法由生成模型和波形编码解码器的系统实施。在图4的示例中,类似于图2的示例,源信号X1的有限比特率表示I2由波形编码器提供。例如,波形编码器可以对被分块成向量的、由X1表示的源信号样本进行操作,以获得源信号的有限比特率表示I2。可以(方便地)针对比特率与失真的权衡来优化波形编码器(通过使用样本失真度量,例如,感知加权平方误差)。进一步地,波形编码器还可以提供以有限比特率表示的一个或多个(一组)辅助参数α6。
例如,由波形解码器对源信号X1的有限比特率表示I2进行波形解码,然后产生源信号X1的波形近似
Figure BDA0003599145810000081
在图4的示例中,生成模型4可以以源信号X1的波形近似
Figure BDA0003599145810000082
Figure BDA0003599145810000083
和一个或多个辅助参数α6两者为条件。然后,条件式生成模型4可以实施条件概率密度函数,以获得如下的条件概率分布(2):
Figure BDA0003599145810000084
然后可以根据上述条件概率分布pθ基于从样本中随机采样或对样本进行平均来生成源信号X1的重建信号
Figure BDA0003599145810000085
因此,在图4的示例中图示的波形编码系统(方案)的结构还能够提供与音频编码背景下常用的其他源(波形)编码方案相比具有竞争力的感知性能。
利用一组预定义生成模型进行波形解码的方法
现在参考图5的示例,图示了利用从一组预定义生成模型中选择的生成模型进行波形解码的方法的示例的流程图。在步骤S301中,接收到的比特流可以包括源信号的有限比特率表示和指示源信号的内容类型的信息。在实施例中,提供指示源信号的内容类型的信息的一个或多个源分类器可以由波形编码器提供并且被包括在比特流中。源信号的内容类型例如可以指源信号的信号类别。以非限制性的方式,信号类别可以包括语音、混响语音、掌声和音乐中的一种或多种。
虽然在图5的示例中,比特流被图示为包括指示源信号的内容类型的信息,但可替代地或另外地,在实施例中,比特流可以进一步包括指示编码方案的操作比特率的信息。
在步骤S302中,可以对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。
在步骤S303中,可以例如由模型选择器基于指示源信号的内容类型的信息从一组预定义生成模型中选择生成模型。这样,由波形解码器接收(即,由波形编码器发送)的比特流包含允许在波形解码器侧从一组预定义生成模型中确定(选择)要使用的生成模型的信息。例如,可以基于帧来促进确定(选择)。例如,可以枚举该组预定义生成模型中的生成模型,并且可以提供指示源信号的内容类型的信息作为指示该组预定义生成模型中要使用的生成模型的数字。
如上面已经提到的,可替代地或另外地,在实施例中,比特流可以进一步包括指示编码方案的操作比特率的信息。在这种情况下,在步骤S302中,还可以基于指示编码方案的操作比特率的信息从一组预定义生成模型中选择生成模型。例如,编码方案可以促进在三个不同比特率R1<R2<R3下的操作。对于每个比特率,可以存在针对该比特率训练的单独(单个)的生成模型。在这种情况下,可以在比特流中指示操作比特率,例如,通过枚举可能的比特率。然后可以例如由模型选择器基于该信息来选择生成模型,即可以存在针对比特率R1的单独的生成模型、针对比特率R2的单独的模型和针对比特率R3的单独的模型。虽然在这个示例中,表示了三个不同的比特率,然而可能的比特率的数量可以是任意的。例如,可以针对16kbps语音提供生成模型,并且可以针对32kbps语音提供另一个生成模型。
然后可以将源信号的波形近似提供给实施概率密度函数的所选生成模型,以获得源信号的重建信号的概率分布。所选生成模型可以是以源信号的波形近似为条件的生成模型。另外,接收到的比特流可以进一步包括以有限比特率表示的一个或多个辅助参数,并且所选生成模型可以进一步以一个或多个辅助参数为条件,如上所述。
在步骤S304中,然后可以基于概率分布来生成源信号的重建信号,该概率分布可以是取决于所选生成模型的条件概率分布。在实施例中,在步骤S304中,可以通过根据概率分布生成随机样本来生成重建信号。可替代地,在步骤S304中,可以通过根据概率分布对样本进行平均来生成重建信号。
在实施例中,该方法可以进一步包括以下步骤:基于指示源信号的内容类型的信息来确定应当输出源信号的波形近似作为源信号的重建信号。因此,可以实施直通(pass-through)模式。例如,可以只针对语音信号类别选择生成模型,然后可以直通其他信号类别。也可以只针对掌声信号选择生成模型,并且可以直通其他信号类别。进一步地,还可以分别针对语音信号类别和掌声信号类别选择生成模型,而其他信号类别可以直通,例如音乐或混响语音。进一步地,还可以在一组预定义生成模型中的所有生成模型都没有针对相应的信号类别进行训练的情况下实施该直通模式。然后可以由波形解码器提供重建信号。
可替代地或另外地,确定应当输出源信号的波形近似作为源信号的重建信号还可以基于指示编码方案的操作比特率的信息。因此,可以实施直通模式。可以特别地针对高比特率实施直通模式。
现在参考图6的示例,图示了利用从一组预定义生成模型中选择的生成模型进行波形编码的方法的示例,该方法由波形编码器和波形解码器的系统实施。
波形编码器7可以提供由对音频源信号9进行操作的波形核心编码器10获得的包括源信号的有限比特率表示的比特流1。在实施例中,波形编码器7可以进一步被配置为提供指示编码方案的操作比特率的信息,并且将指示编码方案的操作比特率的信息包括在比特流12中。一个或多个源分类器11可以进一步由波形编码器7提供,并且被包括在比特流12中。
比特流12可以由波形解码器8接收。波形解码器8可以包括波形核心解码器13,该波形核心解码器被配置为对源信号的有限比特率表示进行波形解码以获得源信号的波形近似。波形解码器8可以进一步包括模型选择器14,该模型选择器被配置为基于由一个或多个源分类器11提供的指示源信号的内容类型的信息从一组预定义生成模型1...N16中选择生成模型。源信号的内容类型例如可以指源信号的信号类别。例如,可以训练该组预定义生成模型1...N 16中的每个生成模型来重建信号类别。以非限制性的方式,信号类别可以包括语音、混响语音、掌声和音乐中的一种或多种。因此,指示源信号的内容类型的信息允许模型选择器14从该组预定义生成模型1...N 16中选择(确定)要使用的生成模型。例如,这可以基于帧来促进。例如,可以枚举该组预定义生成模型1...N 16中的生成模型,并且指示源信号的内容类型的信息可以进一步包括并且/或者是指示要使用的生成模型的数字。
可替代地或另外地,在实施例中,模型选择器14可以进一步被配置为基于指示编码方案的操作比特率的信息从该组预定义生成模型1...N 16中选择生成模型。例如,该组预定义生成模型1...N 16可以包括针对目标操作比特率单独训练的生成模型。例如,如果编码方案有助于在三个不同的比特率R1<R2<R3下进行操作,则可存在针对该比特率中的每个比特率单独训练的三个生成模型。可以例如,通过枚举可能的比特率在由波形解码器8接收的比特流中指示操作比特率,其中可能的比特率的数量可以是任意的。然后,模型选择器14可以被配置为基于该信息选择要使用的生成模型。在这种情况下,也可以相应地枚举该组预定义生成模型1...N 16中的生成模型。例如,该组预定义生成模型1...N 16可以包括针对16kbps语音的生成模型和针对32kbps语音的另一个生成模型。
然后可以将源信号的波形近似提供给该组预定义生成模型1...N 16中的实施概率密度函数的所选生成模型,以获得源信号的重建信号的概率分布。然后,可以由波形解码器8基于概率分布生成和输出源信号的重建信号17。
模型选择器14可以进一步被配置为基于由一个或多个源分类器11提供的指示源信号的内容类型的信息来确定应当输出源信号的波形近似作为源信号的重建信号17,如直通选择15所指示的。可替代地或另外地,模型选择器14可以进一步被配置为基于指示编码方案的操作比特率的信息来确定应当输出源信号的波形近似作为源信号的重建信号17,如直通选择15所指示的。例如,如果指示操作比特率为32kbps语音并且该组预定义生成模型1...N 16不包括针对该比特率训练的生成模型,则模型选择器14可以被配置为绕过该组预定义生成模型16,如直通选择15所指示的。
波形编码解码器
在下文中,将基于图7中所图示的示例来描述波形编码解码器(波形编码器和波形解码器的系统)的示例。可以使用在MDCT域中操作的波形编码解码器。输入源信号X1可以被成帧为促进以320个样本(在fS=16kHz的采样频率下)的步幅应用MDCT 18a。变换的系数可以被分块成N个不均匀、不重叠的频带。对于第n个频带,可以计算系数的方差并以3dB的步长进行量化,从而产生索引ienv(n)。可以将量化后的值分块成向量ε21,并使用频率差分编码和霍夫曼码本将将量化后的值编码到比特流中。
在编码器侧,可以首先根据包络ε21通过F(·)19a对MDCT系数进行频谱展平(flatten)。然后可以通过被选择用于满足每帧比特率约束的一组量化器来量化展平的MDCT行。可以对该组量化器[m0,...,mM]进行排序,从而在每个mn与mn+1之间提供SNR的1.5dB的增量增加。每个mn可以与霍夫曼码本相关联。
对于每个编码块,速率分配过程可受到分配给该块的比特总数的约束。其可以由mn=ienv(n)-ioffset控制,其中,ioffset可以是所有频带共同的整数,并且mn可以被限制为使得0≤mn≤M。可以通过二分查找来确定ioffset的值,这类似于感知加权域中的反向注水过程。这种速率分配的感知效果可以为与频谱包络的平方根成比例地分配帧内的SNR(对于带内包络值每增加3dB,分配1.5dB的SNR增加)。
在解码器侧,可以在展平的域中重建MDCT行,然后可以应用逆频谱展平F-1(·)19b。逆展平由ε21控制,其可以与量化的变换系数和速率分配参数ioffset一起从比特流中解码。
条件sampleRNN
被提供源信号的波形近似的生成模型不受限制。在实施例中,生成模型可以以自回归方式操作,或者生成模型可以进行操作以一次重建源信号的整个帧。在实施例中,可以使用条件sampleRNN神经网络。在下文中,将描述特定sampleRNN神经网络的示例,这不旨在限制。一般而言,sampleRNN是深度神经生成模型,用于通过根据经训练的模型对原始音频信号进行采样来生成原始音频信号。sampleRNN由能够在不同时间尺度上对序列的动态进行建模的一系列多速率循环层以及允许使用参数化简单分布的多级感知器(MLP)构成。sampleRNN通过将联合分布因式分解为以所有先前样本为条件的标量样本分布的乘积,对分块为x的音频样本序列的概率进行建模。这促进了高效的实施方式,其中一次抽取单个标量样本。
生成模型可以根据pθ(x|y)是条件式的。分块为x的标量样本可以表示为[s0,...,sn]。然后模型可以根据(3)递归地操作:
Figure BDA0003599145810000121
在实施例中,条件sampleRNN神经网络可以是四层sampleRNN,其中通过卷积层向每一层提供条件。输出层可以利用离散化逻辑混合技术来生成16位输出。模型可以以y为条件,y包括由波形编解码器重建的信号域样本的帧以及ε中的量化信号包络的相关联的值。在实施例中,生成模型可以以可以提高性能的前瞻的方式进行操作。这可以通过利用3×1卷积层处理条件向量来完成,这可导致两个编解码器帧的前瞻。除了上述条件之外,MLP块还可以访问通过利用以与预测目标对齐的样本为中心的1×319内核的卷积层处理的经编码的波形。
对生成模型的训练
一般而言,对被提供源信号的波形近似的生成模型的训练不受限制。对生成模型的训练可以适配于所使用的生成模型的类型和可以应用的条件。然而,训练生成模型的方法可以包括步骤(a):提供源信号的原始信号。该方法可以进一步包括步骤(b):对源信号的原始信号进行波形编码和解码,以获得源信号的波形近似。该方法可以进一步包括步骤(c):将源信号的波形近似输入到生成模型中,以获得概率分布的参数化函数。并且该方法可以包括步骤(d):基于从生成模型获得的概率分布,调整(训练)所述生成模型的参数以使原始源信号的似然最大化。
对生成模型的训练也可以涉及条件。在实施例中,生成模型可以以源信号的波形近似为条件并且可以任选地以一个或多个辅助参数为条件。更具体地说,可以按以下方式构建训练数据集。(用于训练的)信号集中的每个信号被划分为帧。此外,由波形编解码器对每个信号编码,从而产生被划分为帧的重建波形和/或辅助参数,使得未编码信号的样本与经波形编码的信号的样本的对齐是可能的。
如上面已经提到的,所应用的训练类型不受限制。在实施例中,在步骤(c)中,可以基于概率分布的参数化函数来生成另外的源信号的重建信号,并且在步骤(d)中,可以基于使对源信号的重建信号与源信号的原始信号之间的差的指示最小化来调整生成模型的参数。
还可以基于目标来训练生成模型。在实施例中,在步骤(d)中,可以基于使负对数似然(NLL)的数据集的平均值最小化来调整生成模型的参数。因此,NLL可以用作训练目标。因此,可以针对某种分布匹配来进一步优化生成模型。
现在参考图8的示例,示意性地图示了训练生成模型的方法的示例。可以对原始源信号X22进行波形编解码(即波形编码和解码)23,以获得源信号的波形近似
Figure BDA0003599145810000131
可以在与训练生成模型的域不同的域中促进波形编解码。可以使用针对可用比特率与样本失真(例如,加权平方误差)之间的权衡而优化的波形编码解码器(其提供波形匹配)。在实施例中,可以训练生成模型以在信号域中操作。可以进一步训练生成模型以重建信号类别。以非限制性的方式,信号类别可以包括语音、混响语音、掌声和音乐中的一种或多种。可替代地或另外地,可以进一步关于(目标)操作比特率(例如,16kbps语音或32kbps语音)训练生成模型。
可以将源信号的波形近似
Figure BDA0003599145810000132
和原始源信号X 22输入到生成模型25中。生成模型25可以实施概率密度函数以获得概率分布,然后可以基于该概率分布来获得源信号的重建信号
Figure BDA0003599145810000133
考虑到原始源信号X 22,可以基于源信号的重建信号
Figure BDA0003599145810000134
的质量来调整生成模型25的参数。
实验结果
使用上述示例性条件式四层sampleRNN模型进行实验,以NLL作为训练目标。对两个编码任务进行了主观评估。第一个任务包括对钢琴摘录进行编码。第二个任务包括对语音进行编码。将结果与最先进的编解码器进行比较,最先进的编解码器旨在代表将通常用于编码任务中考虑的特定信号类别的源编码工具。
在第一个实验中,评估了钢琴编码任务的性能。使用Meastro(为同步轨道和组织编辑的MIDI和音频)数据集(即,由在音符标签与音频波形之间进行精细对齐(约3ms)的情况下捕获的超过200小时的大师级钢琴演奏构成的数据集)来训练生成模型。数据集被划分为不重叠的训练集、验证集和测试集。第1层和第2层使用的帧大小等于8,第3层的帧大小等于64,并且第4层的帧大小等于320。逻辑混合分量的数量等于1。按照ITU-R BS.1534所定义的,对测试集项进行了MUSHRA(具有隐藏参考和锚的多重刺激)听力测试,并将MUSHRA听力测试与Opus和AAC编解码器以及以16kb/s操作的基线波形编码解码器进行比较。条件还包括隐藏参考(16kHz采样)和3.5kHz低通锚(“LP 3.5kHz”)。第一个实验的结果如图9所示。可以看出,使用生成模型的编码方法(“sRNN 16”)明显优于基线波形编码解码器(“波形16”),同时与AAC(“AAC 16”)和Opus相比具有竞争力。
在第二个实验中,评估了语音编码任务的性能。在这种情况下,使用WSJ0数据集(连续语音识别试点语料库或CSI-I)来训练生成模型。该数据集包括123位演讲者阅读《华尔街日报》摘录的高保真语音录音。在不重叠演讲者的情况下将数据集划分为训练集、验证集和测试集。第1层和第2层使用的帧大小等于2,第3层的帧大小等于16,并且第4层的帧大小等于160。逻辑混合分量的数量等于10。进行了与上述测试类似的MUSHRA测试,其中将测试集项与以24kb/s操作的Opus音频编解码器、以23.05kb/s操作的AMR-WB(自适应多速率宽带语音编解码器)编解码器和以16kb/s操作的基线波形编码解码器进行比较。结果如图10所示。可以看出,使用生成模型的编码方法(“sRNN 16”)大幅优于波形基线(“波形16”),同时与最先进的编解码器相比具有竞争力。
在检查重建信号的频谱图时,使用生成模型的编码方法相比于波形基线的显著的感知优势变得明显。例如,图11a至图11c图示了钢琴编码实验的频谱图,其中,图11a示出了参考X,图11b示出了波形基线
Figure BDA0003599145810000141
并且图11c示出了使用生成模型的编码方法的重建
Figure BDA0003599145810000142
诠释
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开中,利用诸如“处理”、“计算”、“运算”、“确定”、“分析”等术语的讨论指代计算机或计算系统或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文所描述的方法可以由一个或多个处理器执行,该一个或多个处理器接受包含指令集的计算机可读(也称为机器可读)代码,该指令集在由处理器中的一个或多个处理器执行时执行本文所描述的方法中的至少一个方法。包括能够执行指定要采取的动作的指令集(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元、张量处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统,该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是具有通过网络耦接的处理器的分布式处理系统。如果处理系统需要显示器,则可以包括这样的显示器,例如,液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元的存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。因此,存储器子系统包括携带计算机可读代码(例如,软件)的计算机可读载体介质,该计算机可读代码包括在由一个或多个处理器执行时使得执行本文所描述的方法中的一种或多种方法的指令集。应当注意的是,当方法包括多个元素(例如,多个步骤)时,除非特别声明,否则不暗示这些元素的任何顺序。在计算机系统执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM内和/或处理器内。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或被包括在计算机程序产品中。
在替代性示例实施例中,一个或多个处理器可以作为独立设备操作,或者可以在联网部署中连接到(例如,联网到)其他一个或多个处理器,该一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的能力操作,或者在对等或分布式网络环境中作为对等机器操作。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或桥接器、或者能够执行指定机器要采取的动作的指令集(顺序的或其他形式)的任何机器。
应当注意的是,术语“机器”也应该被认为包括单独或共同地执行指令集(或多个指令集)以执行本文所讨论的方法中的任何一种或多种方法的机器的任何集合。
因此,本文所描述的每种方法的一个示例实施例呈携带指令集的计算机可读载体介质的形式,例如,用于在一个或多个处理器(例如,作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理系统的装置或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括指令集的计算机可读代码,该指令集在一个或多个处理器上执行时使该一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,该载体介质携带体现在该介质中的计算机可读程序代码。
可以进一步通过网络经由网络接口设备发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应被认为包括存储一个或多个指令集的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应被认为包括能够存储、编码或携带指令集的任何介质,该指令集用于由处理器中的一个或多个执行并且使该一个或多个处理器执行本公开的方法中的任何一种或多种方法。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”应相应地被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测并表示在被执行时实施方法的指令集的传播信号的介质;以及网络中的承载可由一个或多个处理器中的至少一个处理器检测并表示指令集的传播信号的传输介质。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统的适当的处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且可以使用用于实施本文所描述的功能的任何适当的技术来实施本公开。本公开不限于任何特定的编程语言或操作系统。
遍及本公开对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此,遍及本公开在各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代相同的示例实施例。此外,根据本公开对于本领域普通技术人员而言将显而易见的是,在一个或多个示例实施例中,可以以任何合适的方式组合特定特征、结构或特性。
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象仅表明提及相似对象的不同实例,并且不旨在暗示如此描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
在权利要求和本文的描述中,术语包括、包括有或其包括中的任何一个是开放术语,其意指至少包括随后的元件/特征,但不排除其他元件/特征。因此,当在权利要求中使用术语包括时,该术语不应被解释为限于在其之后列出的模块或元件或步骤。例如,包括A和B的设备的表达的范围不应限于仅由元件A和B组成的设备。如本文所使用的,术语包含、或其包含、或包含有中的任何一个也是开放术语,其也意指至少包括紧随该术语的元件/特征,但不排除其他元件/特征。因此,包含与包括同义并且意指包括。
应当理解,在以上对本公开的示例实施例的描述中,为了简化本公开并且帮助理解各创造性方面中的一个或多个方面,有时在单个示例实施例/图或其描述中将本公开的各个特征组合在一起。然而,本公开的方法不应被解释为反映权利要求需要比每个权利要求中明确记载的特征更多的特征的意图。而是如权利要求所反映的,创造性的方面在于少于单个前面公开的示例实施例的所有特征。因此,随说明书附上的权利要求在此明确地并入到本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文所描述的一些示例实施例包括其他示例实施例中所包括的一些特征但不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在随附权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内的所描述的方法添加或删除步骤。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
EEE 1.一种波形解码的方法,所述方法包括以下步骤:
(a)由波形解码器接收包括源信号的有限比特率表示的比特流;
(b)对所述源信号的所述有限比特率表示进行波形解码以获得所述源信号的波形近似;
(c)将所述源信号的所述波形近似提供给实施概率密度函数的生成模型,以获得所述源信号的重建信号的概率分布;以及
(d)基于所述概率分布来生成所述源信号的所述重建信号。
EEE 2.根据EEE 1所述的方法,其中,在步骤(d)中,所述重建信号是通过根据所述概率分布生成随机样本来生成的。
EEE 3.根据EEE 1所述的方法,其中,在步骤(d)中,所述重建信号是通过根据所述概率分布对样本进行平均来生成的。
EEE 4.根据EEE 1至3中任一项所述的方法,其中,在步骤(a)中,所接收到的比特流进一步包括以有限比特率表示的一个或多个辅助参数。
EEE 5.根据EEE 4所述的方法,其中,所述一个或多个辅助参数包括关于所述源信号的至少一个频带的每频带能量和/或频谱包络的指示。
EEE 6.根据EEE 1至5中任一项所述的方法,其中,在步骤(a)中,所接收到的比特流进一步包括指示所述源信号的内容类型的信息。
EEE 7.根据EEE 6所述的方法,其中,步骤(c)进一步包括基于指示所述源信号的所述内容类型的信息从一组预定义生成模型中选择所述生成模型。
EEE 8.根据EEE 6或EEE 7所述的方法,其中,所述方法进一步包括以下步骤:基于指示所述源信号的所述内容类型的信息来确定应当输出所述源信号的所述波形近似作为所述源信号的所述重建信号。
EEE 9.根据EEE 1至8中任一项所述的方法,其中,在步骤(a)中,所接收到的比特流进一步包括指示编码方案的操作比特率的信息。
EEE 10.根据EEE 9所述的方法,其中,步骤(c)进一步包括基于指示所述编码方案的所述操作比特率的信息从一组预定义生成模型中选择所述生成模型。
EEE 11.根据EEE 9或EEE 10所述的方法,其中,所述方法进一步包括以下步骤:基于指示所述编码方案的所述操作比特率的信息来确定应当输出所述源信号的所述波形近似作为所述源信号的所述重建信号。
EEE 12.根据EEE 1至11中任一项所述的方法,其中,所述生成模型以前瞻方式操作。
EEE 13.根据EEE 1至12中任一项所述的方法,其中,所述生成模型已被训练用于在信号域中操作。
EEE 14.根据EEE 1至13中任一项所述的方法,其中,所述生成模型以自回归方式操作,或者其中,所述生成模型进行操作以一次重建所述源信号的整个帧。
EEE 15.根据EEE 14所述的方法,其中,步骤(c)中的所述生成模型是实施条件概率密度函数的生成模型,并且其中,所述生成模型以所述源信号的所述波形近似为条件。
EEE 16.根据EEE 15所述的方法,其中,所述生成模型进一步以所述一个或多个辅助参数为条件。
EEE 17.根据EEE 15或EEE 16所述的方法,其中,所述生成模型是条件sampleRNN神经网络。
EEE 18.根据EEE 17所述的方法,其中,所述条件sampleRNN神经网络是四层sampleRNN,其中通过卷积层向每一层提供条件。
EEE 19.根据EEE 1至18中任一项所述的方法,其中,所述源信号的所述有限比特率表示已经由生成比特流的波形编码器获得,所述比特流包括所述源信号的所述有限比特率表示。
EEE 20.根据EEE 19所述的方法,其中,所述波形编码器是确定性波形编码器。
EEE 21.根据EEE 19或EEE 20所述的方法,其中,另外的一个或多个辅助参数由所述波形编码器提供并且被包括在所述比特流中。
EEE 22.根据EEE 19至21中任一项所述的方法,其中,提供指示所述源信号的内容类型的信息的另外的一个或多个源分类器由所述波形编码器提供并且包括在所述比特流中。
EEE 23.根据EEE 19至22中任一项所述的方法,其中,指示编码方案的操作比特率的另外的信息由所述波形编码器提供并且被包括在所述比特流中。
EEE 24.一种波形解码器,包括:
(a)接收器,所述接收器被配置为接收包括源信号的有限比特率表示的比特流;
(b)波形核心解码器,所述波形核心解码器被配置为对所述源信号的所述有限比特率表示进行波形解码以获得所述源信号的波形近似;
(c)生成模型,所述生成模型被配置为实施概率密度函数以基于所述源信号的所述波形近似来获得所述源信号的重建信号的概率分布;以及
(d)采样器,所述采样器被配置为基于所述概率分布来生成所述源信号的所述重建信号。
EEE 25.根据EEE 24所述的波形解码器,其中,所述采样器被配置为通过根据所述概率分布生成随机样本来生成所述重建信号。
EEE 26.根据EEE 24所述的波形解码器,其中,所述采样器被配置为通过根据所述概率分布对样本进行平均来生成所述重建信号。
EEE 27.根据EEE 24至26中任一项所述的波形解码器,其中,所述生成模型以所述源信号的所述波形近似为条件,并且其中,所述生成模型被配置为实施条件概率密度函数,以获得所述源信号的所述重建信号的条件概率分布。
EEE 28.根据EEE 27所述的波形解码器,其中,所述生成模型进一步以所接收到的比特流中包括的一个或多个辅助参数为条件。
EEE 29.根据EEE 24至28中任一项所述的波形解码器,其中,所述波形解码器包括一组预定义生成模型,并且其中,所述波形解码器进一步包括模型选择器,所述模型选择器被配置为基于所接收到的比特流中包括的指示所述源信号的内容类型的信息从该组预定义生成模型中选择所述生成模型以实施所述概率密度函数。
EEE 30.根据EEE 29所述的波形解码器,其中,所述模型选择器进一步被配置为基于指示所述源信号的所述内容类型的信息来确定应当输出所述源信号的所述波形近似作为所述源信号的所述重建信号。
EEE 31.根据EEE 24至30中任一项所述的波形解码器,其中,所述模型选择器进一步被配置为基于所接收到的比特流中包括的指示编码方案的操作比特率的信息来从该组预定义生成模型中选择所述生成模型以实施所述概率密度函数。
EEE 32.根据EEE 31所述的波形解码器,其中,所述模型选择器进一步被配置为基于指示所述编码方案的所述操作比特率的信息来确定应当输出所述源信号的所述波形近似作为所述源信号的所述重建信号。
EEE 33.一种用于波形编码的方法,所述方法包括以下步骤:
(a)由波形编码器对源信号进行操作以获得包括所述源信号的有限比特率表示的比特流;
(b)由波形解码器接收包括所述源信号的所述有限比特率表示的所述比特流;
(c)对所述源信号的所述有限比特率表示进行波形解码以获得所述源信号的波形近似;
(d)将所述源信号的所述波形近似提供给实施概率密度函数的生成模型,以获得所述源信号的重建信号的概率分布;以及
(e)基于所述概率分布来生成所述源信号的所述重建信号。
EEE 34.一种用于波形编码的系统,其中,所述系统包括波形编码器和波形解码器,并且其中,所述系统被配置为执行根据EEE 33所述的方法。
EEE 35.一种训练生成模型的方法,所述方法包括以下步骤:
(a)提供源信号的原始信号;
(b)对所述源信号的所述原始信号进行波形编码和解码,以获得所述源信号的波形近似;
(c)将所述源信号的所述波形近似输入到所述生成模型中,以获得概率分布的参数化函数;以及
(d)基于从所述生成模型获得的所述概率分布,调整所述生成模型的参数以使原始源信号的似然最大化。
EEE 36.根据EEE 35所述的方法,其中,所述生成模型以所述源信号的所述波形近似为条件。
EEE 37.根据EEE 36所述的方法,其中,所述生成模型进一步以一个或多个辅助参数为条件。
EEE 38.根据EEE 35至37中任一项所述的方法,其中,在步骤(d)中,基于使负对数似然的数据集的平均值最小化来调整所述生成模型的参数。
EEE 39.根据EEE 35至37中任一项所述的方法,其中,在步骤(c)中,基于所述概率分布来生成另外的所述源信号的重建信号,并且其中,在步骤(d)中,基于使对所述源信号的所述重建信号与所述源信号的所述原始信号之间的差的指示最小化来调整所述生成模型的参数。
EEE 40.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据EEE 1至23中任一项所述的方法。
EEE 41.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据EEE 33所述的方法。
EEE 42.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据EEE 35至39中任一项所述的方法。

Claims (21)

1.一种波形解码的方法,所述方法包括以下步骤:
(a)由波形解码器接收包括源信号的有限比特率表示的比特流;
(b)对所述源信号的所述有限比特率表示进行波形解码以获得所述源信号的波形近似;
(c)将所述源信号的所述波形近似提供给实施概率密度函数的生成模型,以获得所述源信号的重建信号的概率分布;以及
(d)基于所述概率分布来生成所述源信号的所述重建信号。
2.根据权利要求1所述的方法,其中,在步骤(d)中,通过根据所述概率分布生成随机样本来生成所述重建信号,或者其中,在步骤(d)中,通过根据所述概率分布对样本进行平均来生成所述重建信号。
3.根据权利要求1或2所述的方法,其中,在步骤(a)中,所接收到的比特流进一步包括以有限比特率表示的一个或多个辅助参数,并且其中任选地,所述一个或多个辅助参数包括关于所述源信号的至少一个频带的每频带能量和/或频谱包络的指示。
4.根据权利要求1至3中任一项所述的方法,其中,在步骤(a)中,所接收到的比特流进一步包括指示所述源信号的内容类型的信息,并且/或者其中,在步骤(a)中,所接收到的比特流进一步包括指示编码方案的操作比特率的信息。
5.根据权利要求4所述的方法,其中,步骤(c)进一步包括基于指示所述源信号的所述内容类型的信息从一组预定义生成模型中选择所述生成模型,并且/或者其中,步骤(c)进一步包括基于指示所述编码方案的所述操作比特率的信息从一组预定义生成模型中选择所述生成模型。
6.根据权利要求4或5所述的方法,其中,所述方法进一步包括以下步骤:基于指示所述源信号的所述内容类型的信息并且/或者基于指示所述编码方案的所述操作比特率的信息来确定应当输出所述源信号的所述波形近似作为所述源信号的所述重建信号。
7.根据权利要求1至6中任一项所述的方法,其中,所述生成模型以前瞻的方式进行操作。
8.根据权利要求1至7中任一项所述的方法,其中,所述生成模型已被训练用于在信号域中操作。
9.根据权利要求1至8中任一项所述的方法,其中,所述生成模型以自回归方式操作,或者其中,所述生成模型进行操作以一次重建所述源信号的整个帧。
10.根据权利要求9所述的方法,其中,步骤(c)中的所述生成模型是实施条件概率密度函数的生成模型,并且其中,所述生成模型以所述源信号的所述波形近似为条件并且任选地以所述一个或多个辅助参数为条件。
11.根据权利要求10所述的方法,其中,所述生成模型是条件sampleRNN神经网络,并且其中任选地,所述条件sampleRNN神经网络是四层sampleRNN,其中通过卷积层向每一层提供条件。
12.根据权利要求1至11中任一项所述的方法,其中,所述源信号的所述有限比特率表示已经由生成包括所述源信号的所述有限比特率表示的比特流的波形编码器获得,并且其中任选地,另外的一个或多个辅助参数由所述波形编码器提供并且被包括在所述比特流中。
13.根据权利要求12所述的方法,其中,所述波形编码器是确定性波形编码器。
14.根据权利要求12或13所述的方法,其中,提供指示所述源信号的内容类型的信息的另外的一个或多个源分类器由所述波形编码器提供并且被包括在所述比特流中,并且/或者其中,指示编码方案的操作比特率的另外的信息由所述波形编码器提供并且被包括在所述比特流中。
15.一种波形解码器,包括:
(a)接收器,所述接收器被配置为接收包括源信号的有限比特率表示的比特流;
(b)波形核心解码器,所述波形核心解码器被配置为对所述源信号的所述有限比特率表示进行波形解码以获得所述源信号的波形近似;
(c)生成模型,所述生成模型被配置为实施概率密度函数以基于所述源信号的所述波形近似来获得所述源信号的重建信号的概率分布;以及
(d)采样器,所述采样器被配置为基于所述概率分布来生成所述源信号的所述重建信号。
16.一种训练生成模型的方法,所述方法包括以下步骤:
(a)提供源信号的原始信号;
(b)对所述源信号的所述原始信号进行波形编码和解码,以获得所述源信号的波形近似;
(c)将所述源信号的所述波形近似输入到所述生成模型中,以获得概率分布的参数化函数;以及
(d)基于从所述生成模型获得的所述概率分布,调整所述生成模型的参数以使原始源信号的似然最大化。
17.根据权利要求16所述的方法,其中,所述生成模型以所述源信号的所述波形近似为条件。
18.根据权利要求17所述的方法,其中,所述生成模型进一步以一个或多个辅助参数为条件。
19.根据权利要求16至18中任一项所述的方法,其中,在步骤(d)中,基于使负对数似然的数据集的平均值最小化来调整所述生成模型的参数。
20.根据权利要求16至18中任一项所述的方法,其中,在步骤(c)中,基于所述概率分布来生成另外的所述源信号的重建信号,并且其中,在步骤(d)中,基于使对所述源信号的所述重建信号与所述源信号的所述原始信号之间的差的指示最小化来调整所述生成模型的参数。
21.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时使所述设备执行根据权利要求1至20中任一项所述的方法。
CN202080072793.1A 2019-10-18 2020-10-16 利用生成模型对音频信号进行波形编码的方法和系统 Pending CN114556470A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962923225P 2019-10-18 2019-10-18
US62/923,225 2019-10-18
EP19209362.3 2019-11-15
EP19209362 2019-11-15
PCT/US2020/056162 WO2021077023A1 (en) 2019-10-18 2020-10-16 Methods and system for waveform coding of audio signals with a generative model

Publications (1)

Publication Number Publication Date
CN114556470A true CN114556470A (zh) 2022-05-27

Family

ID=73139461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080072793.1A Pending CN114556470A (zh) 2019-10-18 2020-10-16 利用生成模型对音频信号进行波形编码的方法和系统

Country Status (10)

Country Link
US (1) US20220392458A1 (zh)
EP (1) EP4046155A1 (zh)
JP (1) JP2022552319A (zh)
KR (1) KR20220084294A (zh)
CN (1) CN114556470A (zh)
AU (1) AU2020365140A1 (zh)
BR (1) BR112022007279A2 (zh)
CA (1) CA3157876A1 (zh)
MX (1) MX2022004444A (zh)
WO (1) WO2021077023A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102051891B1 (ko) * 2017-08-10 2019-12-04 한양대학교 산학협력단 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치

Also Published As

Publication number Publication date
AU2020365140A1 (en) 2022-04-28
EP4046155A1 (en) 2022-08-24
KR20220084294A (ko) 2022-06-21
BR112022007279A2 (pt) 2022-07-05
JP2022552319A (ja) 2022-12-15
US20220392458A1 (en) 2022-12-08
WO2021077023A1 (en) 2021-04-22
CA3157876A1 (en) 2021-04-22
MX2022004444A (es) 2022-05-02

Similar Documents

Publication Publication Date Title
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
CN101903945B (zh) 编码装置、解码装置以及编码方法
EP2235719B1 (en) Audio encoder and decoder
RU2437172C1 (ru) Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках
KR101246991B1 (ko) 오디오 신호 처리 방법
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
EP1278184A2 (en) Method for coding speech and music signals
JP2009524100A (ja) 符号化/復号化装置及び方法
CN107077855B (zh) 信号编码方法和装置以及信号解码方法和装置
CN115867966A (zh) 用于确定生成神经网络的参数的方法和装置
US20230178084A1 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
JP2024516664A (ja) デコーダ
CN114556470A (zh) 利用生成模型对音频信号进行波形编码的方法和系统
RU2823081C1 (ru) Способы и система для кодирования на основе формы сигналов аудиосигналов с помощью порождающей модели
US20220277754A1 (en) Multi-lag format for audio coding
WO2024017800A1 (en) Neural network based signal processing
JP2023546082A (ja) 一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル
CN117935840A (zh) 由终端设备执行的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination