CN117577121B - 基于扩散模型的音频编解码方法及装置、存储介质及设备 - Google Patents

基于扩散模型的音频编解码方法及装置、存储介质及设备 Download PDF

Info

Publication number
CN117577121B
CN117577121B CN202410063971.4A CN202410063971A CN117577121B CN 117577121 B CN117577121 B CN 117577121B CN 202410063971 A CN202410063971 A CN 202410063971A CN 117577121 B CN117577121 B CN 117577121B
Authority
CN
China
Prior art keywords
residual quantization
quantization layer
layer
residual
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410063971.4A
Other languages
English (en)
Other versions
CN117577121A (zh
Inventor
陶建华
周俊佐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202410063971.4A priority Critical patent/CN117577121B/zh
Publication of CN117577121A publication Critical patent/CN117577121A/zh
Application granted granted Critical
Publication of CN117577121B publication Critical patent/CN117577121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及一种基于扩散模型的音频编解码方法及装置、存储介质及设备,所述方法包括:接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;对编码后音频向量进行矢量量化,得到压缩后音频信息;接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,在目标音频的原始波形通过编码和矢量量化后传输,再经过解码还原原始音频的过程中,利用扩散模型对音频进行编码和解码,使得音频编码量化传输后,能够在接收端高质量还原原始音频。

Description

基于扩散模型的音频编解码方法及装置、存储介质及设备
技术领域
本公开涉及语音处理技术领域,尤其涉及一种基于扩散模型的音频编解码方法及装置、存储介质及设备。
背景技术
将音频压缩并传输的技术在今天的生活中发挥着重要的作用,例如线上会议音频传输,例如网络通话语音传输等等。
现有技术中,音频编解码以及其采用的压缩方法大多采用传统技术。传统技术包括使用数字信号处理技术对原始数字音频信号流进行压缩编码,以降低其码率而不损失有用信息量并可忽略所引入的损失。这种技术必须具有相应的逆变换,也就是解压缩或解码的过程。相关技术中,一种基于神经网络的音频编解码器使用了残差矢量编码技术进行压缩,残差结构的设计使得不必单独对各个带宽环境单独训练就可以完成压缩比的灵活调整;另一种基于神经网络的音频编解码器引入了轻量级transformer语言模型(是基于注意力机制的模型)和熵编码辅助残差矢量编码进行压缩,这一改进使得模型推理速度大大提升,且不影响其他效果;还有一种基于神经网络的音频编解码器采用了分组残差矢量编码的方式,在保证质量的情形下减少了使用码本数目。
以上三种神经网络的音频编解码器中,其编解码方式都是以自编码器的模式设计生成器,并联合鉴别器形成生成对抗网络结构,以此进行对抗性训练。事实上,编解码器还原音频的高质量一直是该领域追求的目标,而扩散模型结构作为生成对抗网络结构之后流行的生成式模型,已经在图像生成等多个领域验证了其优秀稳定的生成效果。因此,现有技术中无法确保编解码器还原音频的高质量问题,也无法根据应用环境灵活调节音频还原质量与编解码时延。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种基于扩散模型的音频编解码方法及装置、存储介质及设备。
第一方面,本公开的实施例提供了一种基于扩散模型的音频编解码方法,所述方法包括:
接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
对编码后音频向量进行矢量量化,得到压缩后音频信息;
接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
在一种可能的实施方式中,所述对原始波形进行编码,得到编码后音频向量,包括:
将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积模块包括依次连接的3个残差单元和降采样卷积层。
在一种可能的实施方式中,所述对编码后音频向量进行矢量量化,得到压缩后音频信息,包括:
将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。
在一种可能的实施方式中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:
对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;
对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;
对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:
以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;
将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;
将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。
在一种可能的实施方式中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:
其中,为量化损失,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。
在一种可能的实施方式中,所述对压缩后音频信息进行恢复,得到恢复后音频向量,包括:
在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。
在一种可能的实施方式中,所述将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,包括:
根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。
在一种可能的实施方式中,所述扩散模型通过以下步骤训练得到:
将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;
对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;
根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。
第二方面,本公开的实施例提供了一种基于扩散模型的音频编解码装置,包括:
编码模块,用于接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
量化模块,用于对编码后音频向量进行矢量量化,得到压缩后音频信息;
恢复模块,用于接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
在一种可能的实施方式中,所述编码模块还用于:
将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积模块包括依次连接的3个残差单元和降采样卷积层。
在一种可能的实施方式中,所述量化模块还用于:
将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。
在一种可能的实施方式中,在所述量化模块中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:
对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;
对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;
对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:
以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;
将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;
将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。
在一种可能的实施方式中,在所述量化模块中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:
其中,为量化损失,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。
在一种可能的实施方式中,所述恢复模块还用于:
在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。
在一种可能的实施方式中,所述恢复模块还用于:
根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。
在一种可能的实施方式中,在所述恢复模块中,所述扩散模型通过以下步骤训练得到:
将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;
对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;
根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的基于扩散模型的音频编解码方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于扩散模型的音频编解码方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的基于扩散模型的音频编解码方法,接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;对编码后音频向量进行矢量量化,得到压缩后音频信息;接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,在目标音频的原始波形通过编码和矢量量化后传输,再经过解码还原原始音频的过程中,利用扩散模型对音频进行编码和解码,使得音频编码量化传输后,能够在接收端高质量还原原始音频。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的基于扩散模型的音频编解码方法流程示意图;
图2示意性示出了根据本公开实施例的编码器的结构示意图;
图3示意性示出了根据本公开实施例的矢量量化器的结构示意图;
图4示意性示出了根据本公开实施例的扩散模型训练过程示意图;
图5示意性示出了根据本公开实施例的采样中间表示的融合过程示意图;
图6示意性示出了根据本公开实施例的基于扩散模型的音频编解码装置的结构框图;
图7示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的实施例提供了一种基于扩散模型的音频编解码方法,所述方法包括:
S1,接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
S2,对编码后音频向量进行矢量量化,得到压缩后音频信息;
S3,接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
在本实施例,步骤S1中,所述对原始波形进行编码,得到编码后音频向量,包括:
将原始波形输入预设的编码器,输出编码后音频向量,参见图2,所述编码器用于对音频降采样,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积模块包括依次连接的3个残差单元和降采样卷积层。
在本实施例,步骤S2中,所述对编码后音频向量进行矢量量化,得到压缩后音频信息,包括:
将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,参见图3,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。
本实施例将编码器输出的向量分为两组,各组均进行两轮残差矢量量化操作,对量化结果进行聚合,采取分组残差的方式能够得到高质量的压缩后音频信息。
在本实施例中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:
对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目,其中,所述聚类可以为K-means聚类;
对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;
对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
通过以下损失函数,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目:
其中,为当前初始条目对应的第t次训练迭代后条目,/>为对该初始条目第一次到第t次训练迭代得到的所有内容集合,/>为对该初始条目第一次到第t-1次训练迭代得到的历史内容集合,/>为对历史内容集合的偏重权重,/>为对该初始条目第一次到第t次训练迭代得到的所有内容集合的数目,/>为对该初始条目第一次到第t-1次训练迭代得到的历史内容集合的数目,/>为对该初始条目第t次训练迭代得到的内容集合的数目,/>为对该初始条目第t次训练迭代得到的内容集合。
在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:
以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,参见图3,所述语言模型包括多个transformer层和全连接层;
将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;
将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。
在本实施例中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:
其中,为量化损失,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。
在本实施例的矢量量化过程中,结合分组残差矢量量化和语言模型,每个码本对应一个语言模型,单个语言模型由数个transformer层及下游与残差量化层同等数目的全连接层组成,语言模型接收包括当前时间步的编码后音频向量,通过与该量化层连接的全连接层输出对应码本各条目的选取概率,训练过程中,即调整各transformer层和全连接层的参数,使得各个量化层能够避免逐个向量或逐个残差计算最近条目,而是直接并行预测码本查阅结果,从而有效提升推理速度。
在本实施例,步骤S3中,所述对压缩后音频信息进行恢复,得到恢复后音频向量,包括:
在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。
在本实施例,步骤S3中,所述将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,包括:
根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。
在本实施例中,通过以下表达式,根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形:
其中,为目标音频的原始波形,/>为时间步t-1下的还原特征,为时间步t下的预设噪声特征,/>为正态分布的标准差,条件/>为编码后音频向量对应的码本条目。
参见图4,所述扩散模型通过以下步骤训练得到:
将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;
对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合,其中,融合过程如图5所示,针对目标高斯噪声的数个降采样层和与之对等、针对编码后音频向量对应的码本条目的上采样层通过特征线性调制模块连接组成;
根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。
在本实施例中,通过以下损失函数,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数:
其中,为扩散损失,t为时间步,/>为通过扩散模型的反向预测的噪声特征,/>为逐步加噪时的噪声特征,/>为样本提示特征作为噪声预测的条件参数,Zt为时间步t下对原始量Z0进行加噪后的预设噪声特征,在训练过程中,条件/>,/>为编码后音频向量对应的码本条目。
在本实施例中,扩散模型逐步前向的扩散过程可以通过以下表达式表示:
其中,为/>与/>之间的扩散关系,/>为时间步t下对原始量Z 0进行加噪后的预设噪声特征,/>为时间步t-1下对原始量Z 0进行加噪后的预设噪声特征,/>为标准正态分布,/>为时间步t下预先定义的加噪策略参数,用于控制加噪特征的程度。
在一些实施例中,通过以下表达式,向Z 0逐步添加噪声,使其达到完全的高斯噪声Z T
其中,为时间步t下对原始量Z0进行加噪后的预设噪声特征,/>和/>为时间步t下,预先定义的加噪策略参数,用于控制加噪特征的程度,/>为时间步t下,第i个时间步的随机噪声特征,/>为标准正态分布,/>为原始量,/>为时间步从1到t的噪声特征,/>为逐步加噪时的噪声特征。
本实施例中,对于目标音频原始波形,首先在发送端经过编码器后,根据已训练的码本进行矢量量化,得到被压缩后的编码,并传输至接收端,根据已训练的码本,进行解码复原,随后作为扩散模型噪声生成条件,从完全高斯噪声中恢复波形, 使用扩散模型作为音频生成模型,能够进一步提高生成音频的质量。
在本实施例中,目标音频的原始波形的推理步数可以根据应用场景的需求确定,具体而言,如果对解噪复原音频质量要求更高,选取更多的解噪时间步数;如果对时延要求较高,以牺牲质量为代价,使用较短的解噪时间步数。能够根据应用场景的需求灵活平衡被压缩音频还原质量与编解码时延。
参见图6,本公开的实施例提供了一种基于扩散模型的音频编解码装置,包括:
编码模块11,用于接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
量化模块12,用于对编码后音频向量进行矢量量化,得到压缩后音频信息;
恢复模块13,用于接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
在本实施例中,所述编码模块还用于:
将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积模块包括依次连接的3个残差单元和降采样卷积层。
在本实施例中,所述量化模块还用于:
将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。
在本实施例中,在所述量化模块中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:
对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;
对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;
对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:
以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;
将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;
将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。
在本实施例中,在所述量化模块中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:
其中,为量化损失,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。
在本实施例中,所述恢复模块还用于:
在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。
在本实施例中,所述恢复模块还用于:
根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。
在本实施例中,在所述恢复模块中,所述扩散模型通过以下步骤训练得到:
将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;
对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;
根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例中,编码模块11、量化模块12和恢复模块13中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。编码模块11、量化模块12和恢复模块13中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,编码模块11、量化模块12和恢复模块13中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参照图7所示,本公开的示例性实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示基于扩散模型的音频编解码方法:
接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
对编码后音频向量进行矢量量化,得到压缩后音频信息;
接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于扩散模型的音频编解码方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的基于扩散模型的音频编解码方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (18)

1.一种基于扩散模型的音频编解码方法,其特征在于,所述方法包括:
接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
对编码后音频向量进行矢量量化,得到压缩后音频信息;
接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
2.根据权利要求1所述的方法,其特征在于,所述对原始波形进行编码,得到编码后音频向量,包括:
将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积块包括依次连接的3个残差单元和降采样卷积层。
3.根据权利要求1所述的方法,其特征在于,所述对编码后音频向量进行矢量量化,得到压缩后音频信息,包括:
将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。
4.根据权利要求3所述的方法,其特征在于,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:
对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;
对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;
对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:
以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;
将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;
将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。
5.根据权利要求4所述的方法,其特征在于,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:
其中,为量化损失,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。
6.根据权利要求1所述的方法,其特征在于,所述对压缩后音频信息进行恢复,得到恢复后音频向量,包括:
在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。
7.根据权利要求1所述的方法,其特征在于,所述将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形,包括:
根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。
8.根据权利要求7所述的方法,其特征在于,所述扩散模型通过以下步骤训练得到:
将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;
对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;
根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。
9.一种基于扩散模型的音频编解码装置,其特征在于,包括:
编码模块,用于接收目标音频的原始波形,并对原始波形进行编码,得到编码后音频向量;
量化模块,用于对编码后音频向量进行矢量量化,得到压缩后音频信息;
恢复模块,用于接收压缩后音频信息,对压缩后音频信息进行恢复,得到恢复后音频向量,并将恢复后音频向量输入预先训练的扩散模型,将恢复后音频向量恢复为目标音频的原始波形。
10.根据权利要求9所述的装置,其特征在于,所述编码模块还用于:
将原始波形输入预设的编码器,输出编码后音频向量,其中,所述编码器包括依次连接的一维卷积层、多个卷积块和一维卷积层,其中,每个卷积块包括依次连接的3个残差单元和降采样卷积层。
11.根据权利要求9所述的装置,其特征在于,所述量化模块还用于:
将编码后音频向量输入预先训练的矢量量化器,将矢量量化器的码本中与所述编码后音频向量距离最近的码本条目的序号,作为压缩后音频信息,其中,所述预先训练的矢量量化器包括预先训练的语言模型以及分别与其连接的第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层,第一残差量化层与第三残差量化层连接,第二残差量化层与第四残差量化层连接,所述语言模型接收编码后音频向量,第一残差量化层和第二残差量化层均接收编码后音频向量和语言模型的输出,第三残差量化层接收第一残差量化层和语言模型的输出,第四残差量化层接收第二残差量化层和语言模型的输出,将第一残差量化层、第二残差量化层、第三残差量化层和第四残差量化层的输出聚合为压缩后音频信息。
12.根据权利要求11所述的装置,其特征在于,在所述量化模块中,所述矢量量化器以及矢量量化器的码本通过以下步骤训练得到:
对于第一残差量化层和第二残差量化层,将第一批次的编码后音频向量聚类后的聚类中心分别作为第一残差量化层和第二残差量化层的码本的初始条目;
对于第三残差量化层和第四残差量化层,将第一批次的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量聚类后的聚类中心,分别作为第三残差量化层和第四残差量化层的码本的初始条目;
对于第一残差量化层和第二残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
对于第三残差量化层和第四残差量化层的码本的每一个初始条目,根据对该初始条目第一次到第t次训练迭代得到的内容集合,得到当前初始条目对应的第t次训练迭代后条目,其中,第t次训练迭代得到的内容集合为,第t次迭代对应的编码后音频向量作为第一残差量化层和第二残差量化层输入的情况下,第一残差量化层和第二残差量化层输出的量化后残差向量中与第t-1次训练迭代后条目距离小于或等于预设阈值的向量的集合;
在码本的每一次训练迭代中,通过以下步骤训练矢量量化器:
以已知的编码后音频向量及其对应的码本条目的序号分别作为语言模型的输入和输出,训练语言模型,得到训练后的语言模型,其中,所述语言模型包括多个transformer层和全连接层;
将编码后音频向量和语言模型的输出作为第一残差量化层和第二残差量化层的输入,将编码后音频向量对应的码本条目的序号作为第一残差量化层和第二残差量化层的输出,训练第一残差量化层和第二残差量化层,得到训练后的第一残差量化层和第二残差量化层;
将第一残差量化层输出的残差向量和语言模型的输出作为第三残差量化层的输入,将第一残差量化层的输出对应的码本条目的序号作为第三残差量化层的输出,将第二残差量化层输出的残差向量和语言模型的输出作为第四残差量化层的输入,将第二残差量化层的输出对应的码本条目的序号作为第四残差量化层的输出,训练第三残差量化层和第四残差量化层,得到训练后的第三残差量化层和第四残差量化层。
13.根据权利要求12所述的装置,其特征在于,在所述量化模块中,在码本的每一次训练迭代中,通过以下损失函数,训练码本、语言模型、第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层:
其中,为量化损失,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量;在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出,/>为在c=1或2时,输入第一残差量化层或第二残差量化层的编码后音频向量对应的码本条目,在c=3或4时,输入第三残差量化层或第四残差量化层的第一残差量化层或第二残差量化层的输出对应的码本条目。
14.根据权利要求9所述的装置,其特征在于,所述恢复模块还用于:
在与第一残差量化层、第二残差量化层、第三残差量化层、第四残差量化层相同的码本中,查询与压缩后音频信息对应的向量,作为恢复后音频向量。
15.根据权利要求9所述的装置,其特征在于,所述恢复模块还用于:
根据预设高斯噪声和恢复后音频向量,通过预先训练的扩散模型后向得到目标音频的原始波形。
16.根据权利要求15所述的装置,其特征在于,在所述恢复模块中,所述扩散模型通过以下步骤训练得到:
将目标音频的原始波形输入待训练扩散模型,通过待训练扩散模型的前向生成目标高斯噪声;
对编码后音频向量对应的码本条目进行逐步上采样,对目标高斯噪声进行逐步降采样,将码本条目上采样至与目标高斯噪声的采样率相同,并将目标高斯噪声逐步降采样的中间表示与同等级别的码本条目逐步上采样的中间表示进行融合;
根据融合后的向量,通过扩散模型的反向预测噪声,根据预测的噪声与预设噪声特征之间的差值,调整待训练扩散模型的参数,得到预先训练的扩散模型。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8中任一项所述的基于扩散模型的音频编解码方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的基于扩散模型的音频编解码方法。
CN202410063971.4A 2024-01-17 2024-01-17 基于扩散模型的音频编解码方法及装置、存储介质及设备 Active CN117577121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410063971.4A CN117577121B (zh) 2024-01-17 2024-01-17 基于扩散模型的音频编解码方法及装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410063971.4A CN117577121B (zh) 2024-01-17 2024-01-17 基于扩散模型的音频编解码方法及装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN117577121A CN117577121A (zh) 2024-02-20
CN117577121B true CN117577121B (zh) 2024-04-05

Family

ID=89886689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410063971.4A Active CN117577121B (zh) 2024-01-17 2024-01-17 基于扩散模型的音频编解码方法及装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN117577121B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1242860A (zh) * 1997-02-13 2000-01-26 松下电器产业株式会社 话音信号编码器和话音信号解码器
CN102855878A (zh) * 2012-09-21 2013-01-02 山东省计算中心 一种窄带语音子带清浊音度参数的量化方法
WO2023059699A1 (en) * 2021-10-05 2023-04-13 Google Llc Vector-quantized image modeling
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置
CN117012177A (zh) * 2023-06-09 2023-11-07 思必驰科技股份有限公司 语音合成方法、电子设备和存储介质
CN117292704A (zh) * 2023-08-11 2023-12-26 华南农业大学 基于扩散模型的语音驱动姿势动作生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1242860A (zh) * 1997-02-13 2000-01-26 松下电器产业株式会社 话音信号编码器和话音信号解码器
CN102855878A (zh) * 2012-09-21 2013-01-02 山东省计算中心 一种窄带语音子带清浊音度参数的量化方法
WO2023059699A1 (en) * 2021-10-05 2023-04-13 Google Llc Vector-quantized image modeling
CN117012177A (zh) * 2023-06-09 2023-11-07 思必驰科技股份有限公司 语音合成方法、电子设备和存储介质
CN117292704A (zh) * 2023-08-11 2023-12-26 华南农业大学 基于扩散模型的语音驱动姿势动作生成方法及装置
CN116884391A (zh) * 2023-09-06 2023-10-13 中国科学院自动化研究所 基于扩散模型的多模态融合音频生成方法及装置

Also Published As

Publication number Publication date
CN117577121A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN111128137B (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
JP7356513B2 (ja) ニューラルネットワークのパラメータを圧縮する方法および装置
JP4801160B2 (ja) 逐次改善可能な格子ベクトル量子化
WO2020107877A1 (zh) 视频压缩处理方法及装置、电子设备及存储介质
CN111263161B (zh) 视频压缩处理方法、装置、存储介质和电子设备
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN114402596B (zh) 神经网络模型解码方法、装置、系统和介质
US20220222541A1 (en) Neural Network Representation Formats
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN104756187A (zh) 用于能复原的矢量量化的方法和装置
US5444488A (en) Method and apparatus for coding digital data using vector quantizing techniques
CN113271110B (zh) 一种文本的语义信源信道联合编译码方法及装置
Akbari et al. Learned multi-resolution variable-rate image compression with octave-based residual blocks
CN115426075A (zh) 语义通信的编码传输方法及相关设备
CN117577121B (zh) 基于扩散模型的音频编解码方法及装置、存储介质及设备
JP6960784B2 (ja) ニューラルネットワーク、符号化装置、復号装置、学習方法、制御方法、およびプログラム
CN115866253A (zh) 一种基于自调制的通道间变换方法、装置、终端及介质
Jain et al. Low rank based end-to-end deep neural network compression
CN112584144B (zh) 一种图像信号处理方法及装置
JP6337122B2 (ja) オーディオ信号エンコーダ
Ulacha et al. A High Efficienct Binary Arithmetic Coder for Lossless Audio Compression
EP4224852A1 (en) Video encoding and decoding methods, encoder, decoder, and storage medium
Li Quantization Method Based on Gaussian Regularization Reduces Precision Loss in Reparameterization Quantization
Wernik et al. Lossless Audio Coding using Extended Activity Level Classification Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant