CN114258569A - 用于音频编码的多滞后格式 - Google Patents

用于音频编码的多滞后格式 Download PDF

Info

Publication number
CN114258569A
CN114258569A CN202080058713.7A CN202080058713A CN114258569A CN 114258569 A CN114258569 A CN 114258569A CN 202080058713 A CN202080058713 A CN 202080058713A CN 114258569 A CN114258569 A CN 114258569A
Authority
CN
China
Prior art keywords
audio signal
subband
reconstructed
autocorrelation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080058713.7A
Other languages
English (en)
Inventor
L·维莱莫斯
H-M·莱托宁
H·普恩豪根
P·赫德林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN114258569A publication Critical patent/CN114258569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本文描述的是一种对音频信号进行编码的方法。所述方法包括:基于所述音频信号生成多个子带音频信号;确定所述音频信号的频谱包络;针对每个子带音频信号,基于所述子带音频信号的自相关函数来确定所述子带音频信号的自相关信息;以及生成所述音频信号的编码表示,所述编码表示包括所述音频信号的频谱包络的表示和所述多个子带音频信号的自相关信息的表示。进一步描述的是从所述编码表示中解码所述音频信号的方法,以及对应的编码器、解码器、计算机程序和计算机可读记录介质。

Description

用于音频编码的多滞后格式
相关申请的交叉引用
本申请要求以下优先申请的优先权:于2019年8月20日提交的美国临时申请62/889,118(参考号:D19076USP1)和于2019年8月20日提交的欧洲申请19192552.8(参考号:D19076EP),这些申请通过引用结合于此。
技术领域
本公开总体上涉及一种将音频信号编码成编码表示的方法以及一种从编码表示中解码音频信号的方法。
尽管本文将尤其参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景下。
背景技术
在整个公开内容中对背景技术的任何讨论绝不应视为承认该技术是本领域众所周知的或形成本领域公知常识的一部分。
在高质量音频编码系统中,常见的是使信息的最大部分描述信号的详细波形属性。信息的一小部分用于描述更多的统计学定义的特征(如频带中的能量)、或旨在根据已知的听力同时掩蔽属性对量化噪声进行成形的控制数据(例如,在基于MDCT的波形编码器中的边信息,该边信息传达正确反量化代表解码器中波形的数据所必需的量化器步长和范围信息)。然而,这些高质量音频编码系统需要相对大量的数据来编码音频内容,即,具有相对低的编码效率。
需要能够以改进的编码效率对音频数据进行编码的音频编码方法和装置。
发明内容
本公开提供了对音频信号进行编码的方法、对音频信号进行解码的方法、编码器、解码器、计算机程序以及计算机可读存储介质。
根据本公开的第一方面,提供了一种对音频信号进行编码的方法。可以针对音频信号的多个顺序部分(例如,样本组、片段、帧)中的每一个执行编码。在一些实施方式中,这些部分可以彼此重叠。可以针对每个这样的部分生成编码表示。所述方法可以包括基于音频信号生成多个子带音频信号。基于音频信号生成多个子带音频信号可以涉及音频信号的频谱分解,这可以由带通滤波器(BPF)的滤波器组执行。滤波器组的频率分辨率可以与人类听觉系统的频率分辨率有关。例如,BPF可以是复值BPF。可替代地,基于音频信号生成多个子带音频信号可以涉及对音频信号进行频谱和/或时间上的平坦化,可选地通过窗函数对平坦化的音频信号进行加窗,以及将所得信号在频谱上分解成多个子带音频信号。所述方法可以进一步包括确定音频信号的频谱包络。所述方法可以进一步包括针对每个子带音频信号,基于子带音频信号的自相关函数(ACF)来确定子带音频信号的自相关信息。所述方法还可以进一步包括生成音频信号的编码表示,所述编码表示包括音频信号的频谱包络的表示和多个子带音频信号的自相关信息的表示。例如,编码表示可以与比特流的一部分有关。在一些实施方式中,编码表示可以进一步包括与音频信号的波形和/或子带音频信号的一个或多个波形有关的波形信息。所述方法可以进一步包括输出编码表示。
如上所述配置的,所提出的方法提供了音频信号的编码表示,其具有非常高的编码效率(即,需要非常低的比特率来编码音频),但与此同时包括用于在重建后实现非常好的音质的适当信息。这是通过除了频谱包络之外还提供音频信号的多个子带的自相关信息来实现的。值得注意的是,已证明每子带两个值(一个滞后值和一个自相关值)足以实现高音质。
在一些实施例中,给定子带音频信号的自相关信息可以包括相应子带音频信号的滞后值和/或相应子带音频信号的自相关值。优选地,自相关信息可以包括相应子带音频信号的滞后值和相应子带音频信号的自相关值两者。其中,滞后值可以对应于自相关函数达到局部极大值的延迟值(例如横坐标),并且自相关值可以对应于所述局部极大值(例如纵坐标)。
在一些实施例中,频谱包络可以按第一更新率确定,并且多个子带音频信号的自相关信息可以按第二更新率确定。在这种情况下,第一更新率和第二更新率可以彼此不同。更新率还可以称为采样率。在一个这样的实施例中,第一更新率可以高于第二更新率。更进一步,不同的更新率可以应用于不同的子带,即,不同子带音频信号的自相关信息的更新率可以彼此不同。
通过与频谱包络的更新率相比降低自相关信息的更新率,可以在不影响重建音频信号的音质的情况下进一步提高所提出方法的编码效率。
在一些实施例中,生成多个子带音频信号可以包括对音频信号应用频谱和/或时间平坦化。生成多个子带音频信号可以进一步包括通过窗函数对平坦化的音频信号进行加窗。生成多个子带音频信号还可以进一步包括将经加窗的平坦化的音频信号在频谱上分解成多个子带音频信号。在这种情况下,例如,对音频信号进行频谱和/或时间上的平坦化可以涉及生成音频信号的感知加权LPC残差。
在一些实施例中,生成多个子带音频信号可以包括在频谱上分解音频信号。然后,确定给定子带音频信号的自相关函数可以包括确定子带音频信号的子带包络。确定自相关函数可以进一步包括基于子带包络对子带音频信号进行包络平坦化。可以通过取经加窗的子带音频信号的幅度值来确定子带包络。确定自相关函数可以进一步包括通过窗函数对包络平坦化的子带音频信号进行加窗。确定自相关函数还可以进一步包括确定(例如,计算)包络平坦化的经加窗的子带音频信号的自相关函数。可以针对实值(包络平坦化的经加窗的)子带信号确定自相关函数。
本公开的另一方面涉及一种从音频信号的编码表示中解码音频信号的方法。编码表示可以包括音频信号的频谱包络的表示和音频信号(或从音频信号生成)的多个子带音频信号中的每一个的自相关信息的表示。给定子带音频信号的自相关信息可以基于子带音频信号的自相关函数。所述方法可以包括接收音频信号的编码表示。所述方法可以进一步包括从音频信号的编码表示中提取频谱包络和(多条)自相关信息。所述方法还可以进一步包括基于频谱包络和自相关信息确定重建音频信号。重建音频信号可以被确定为使得重建音频信号(或从重建音频信号生成)的多个子带音频信号中的每一个的自相关函数将满足由音频信号(或从音频信号生成)的对应子带音频信号的自相关信息导出的条件。例如,重建音频信号可以被确定为使得对于重建音频信号的每个子带音频信号,重建音频信号(或从重建音频信号生成)的子带音频信号的自相关函数在音频信号(或从音频信号生成)的对应子带音频信号的自相关信息所指示的滞后值(例如,延迟值)处的值与音频信号的对应子带音频信号的自相关信息所指示的自相关值基本上相匹配。这可意味着解码器能够以与编码器所完成的相同方式确定子带音频信号的自相关函数。这可以涉及平坦化、加窗和归一化中的任一者、一些或全部。在一些实施方式中,重建音频信号可以被确定为使得重建子带音频信号(或从重建子带音频信号生成)的多个子带信号中的每一个的自相关信息将与音频信号(或从音频信号生成)的对应子带音频信号的自相关信息基本上相匹配。例如,重建音频信号可以被确定为使得对于重建音频信号(或从重建子带音频信号生成)的每个子带音频信号,重建音频信号的子带信号的自相关函数的自相关值和滞后值(例如,延迟值)与例如音频信号(或从音频信号生成)的对应子带音频信号的自相关信息所指示的自相关值和滞后值基本上相匹配。这可意味着解码器能够以与编码器所完成的相同方式确定重建音频信号的每个子带信号的自相关信息(即,滞后值和自相关值)。在此,例如,术语“基本上相匹配”可以意味着匹配直至预定义裕度。在编码表示包括波形信息的那些实施方式中,可以进一步基于波形信息来确定重建音频信号。子带音频信号可以例如通过对适用的音频信号(即,编码器侧的原始音频信号或解码器侧的重建音频信号)进行频谱分解来获得,或者它们可以通过平坦化、加窗并随后对适用的音频信号进行频谱分解来获得。
因此,可以认为解码器是根据藉由分析的合成办法来操作的,这在于其试图找到重建音频信号z,所述重建音频信号z将满足从编码音频信号的编码表示h(x)导出的至少一个条件,或者其编码表示h(z)将与原始音频信号x的编码表示h(x)基本上相匹配,其中,h是编码器所使用的编码映射。换句话说,可以认为所述解码器找到了解码映射d,使得
Figure BDA0003510617370000041
如已经发现的,如果解码器试图再现的编码表示包括如本公开中定义的频谱包络和自相关信息,则这种藉由分析的合成办法产生出在感知上非常接近原始音频信号的结果。
在一些实施例中,重建音频信号可以在迭代过程中确定,所述迭代过程从重建音频信号的初始候选开始,并在每次迭代中生成相应的中间重建音频信号。在每次迭代中,可以将更新映射应用于中间重建音频信号以获得用于下一次迭代的中间重建音频信号。更新映射可以被配置为使得音频信号的中间重建(或从音频信号的中间重建生成)的子带音频信号的自相关函数更接近地满足由音频信号(或从音频信号生成)的对应子带音频信号的自相关信息导出的条件,和/或使得重建音频信号(或从重建音频信号生成)的子带音频信号的测得信号功率与频谱包络所指示的音频信号(或从音频信号生成)的对应子带音频信号的信号功率之间的差异一次迭代接一次迭代地被减小。如果考虑自相关信息和频谱包络两者,则可以针对满足条件的程度以及子带音频信号的信号功率之间的差异定义适当的差异度量。在一些实施方式中,更新映射可以被配置为使得中间重建音频信号的编码表示与音频信号的编码表示之间的差异一次迭代接一次迭代地逐渐变小。为此,可以定义和使用编码表示(包括频谱包络和/或自相关信息)的适当差异度量。可以按与编码器针对音频信号(或从音频信号生成)的子带音频信号所完成的相同方式来确定中间重建音频信号(或从中间重建音频信号生成)的子带音频信号的自相关函数。同样,中间重建音频信号的编码表示可以是在中间重建音频信号经受了导致音频信号的编码表示的相同编码技术的情况下将获得的编码表示。
这种迭代方法允许简单而高效地实施上述藉由分析的合成办法。
在一些实施例中,基于频谱包络和自相关信息确定重建音频信号可以包括:应用基于机器学习的生成模型,所述基于机器学习的生成模型接收音频信号的频谱包络和音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出重建音频信号。在其中编码表示包括波形信息的那些实施方式中,基于机器学习的生成模型可以进一步接收波形信息作为输入。这意味着基于机器学习的生成模型还可以使用波形信息进行调节/训练。
这种基于机器学习的方法允许非常高效地实施上述藉由分析的合成办法,并且能够实现在感知上非常接近原始音频信号的重建音频信号。
本公开的另一方面涉及一种用于对音频信号进行编码的编码器。所述编码器可以包括处理器和耦接到处理器的存储器,其中,所述处理器适于执行在整个本公开中描述的任何一种编码方法的方法步骤。
本公开的另一方面涉及一种用于从音频信号的编码表示中解码音频信号的解码器。所述解码器可以包括处理器和耦接到处理器的存储器,其中,所述处理器适于执行在整个本公开中描述的任何一种解码方法的方法步骤。
另一方面涉及一种包括指令的计算机程序,用于在执行所述指令时执行在整个本公开中描述的任何方法的方法步骤。
本公开的另一个方面涉及一种存储根据前述方面的计算机程序的计算机可读存储介质。
附图说明
现在将参考附图仅通过举例来描述本公开的示例实施例,在附图中:
图1是示意性地图示了根据本公开实施例的编码器的示例的框图,
图2是图示了根据本公开实施例的编码方法的示例的流程图,
图3示意性地图示了可以存在于图2的编码方法的框架中的波形的示例,
图4是示意性地图示了用于确定解码函数的藉由分析的合成办法的示例的框图,
图5是图示了根据本公开实施例的解码方法的示例的流程图,
图6是图示了图5的解码方法中的步骤的示例的流程图,
图7是示意性地图示了根据本公开实施例的编码器的另一示例的框图,以及
图8是示意性地图示了根据本公开实施例的解码器的示例的框图。
具体实施方式
引言
高质量的音频编码系统通常需要相对大量的数据来编码音频内容,即,具有相对低的编码效率。虽然如噪声填充和高频再生等工具的开发已表明波形描述性数据可以部分替换为一组较小的控制数据,但没有高质量音频编解码器是主要依赖于感知上的相关特征的。然而,计算能力的提高和机器学习领域的最新进展已增加解码主要来自任意编码器格式的音频的可行性。本公开提出了这种编码器格式的示例。
从广义上讲,本公开提出了一种基于听觉分辨率启发的子带包络和附加信息的编码格式。附加信息包括每子带(和每更新步骤)的单个自相关值和单个滞后值。可以按第一更新率计算包络并且可以按第二更新率对附加信息进行采样。编码格式的解码可以使用藉由分析的合成办法进行,例如,这可以通过迭代或基于机器学习的技术来实施。
编码
本公开中提出的编码格式(编码表示)可以称为多滞后格式,因为其提供每子带(和更新步骤)一个滞后。图1是示意性地图示了根据本公开实施例的用于生成编码格式的编码器100的示例的框图。
编码器100接收与要编码的音频信号相对应的目标声音10。音频信号10可以包括由编码器处理的多个顺序的或部分重叠的部分(例如,样本组、片段、帧等)。音频信号10通过滤波器组15在频谱上被分解成对应频率子带中的多个子带音频信号20。例如,滤波器组15可以是带通滤波器(BPF)的滤波器组,其可以是复值BPF。对于音频,使用具有与人类听觉系统相关的频率分辨率的BPF滤波器组是很自然的。
在包络提取块25处提取音频信号10的频谱包络30。对于每个子带,以预定时间步长测量功率,作为由输入声音信号产生的耳蜗上的听觉包络或激励模式的基本模型,从而确定音频信号10的频谱包络30。即,可以基于多个子带音频信号20来确定频谱包络30,例如通过测量(例如,估计、计算)多个子带音频信号20中的每一个的相应信号功率。然而,频谱包络30可以通过任何适当的替代工具来确定,诸如举例而言,线性预测编码(LPC)描述。特别地,在一些实施方式中,可以在滤波器组15进行频谱分解之前从音频信号确定频谱包络。
可选地,所提取的频谱包络30可以在下采样块35处经受下采样,并且经下采样的频谱包络40(或频谱包络30)是作为音频信号10(的适用部分)的编码格式或编码表示的一部分被输出的。
仅有从频谱包络重建的重建信号可能仍然缺乏音质。为了解决这个问题,本公开提出要包括每子带的(可能是包络平坦化的)信号的自相关函数的单个值(即,纵坐标和横坐标),这导致声音质量得到显著改善。为此,子带音频信号20可选地在除法器45处被平坦化(包络平坦化)并输入到自相关块55。自相关块55确定其输入信号的自相关函数(ACF),并基于每个子带音频信号20(即,每个子带)的ACF输出针对相应子带音频信号20的相应条数的自相关信息50。给定子带的自相关信息50包括滞后值T和自相关值ρ(T)的表示50(例如,由其组成)。即,对于每个子带,一个滞后值T和对应的(可能是归一化的)自相关值(ACF值)ρ(T)作为自相关信息50被输出(例如,传输),其是编码表示的一部分。其中,滞后值T对应于ACF达到局部极大值的延迟值,并且自相关值ρ(T)对应于所述局部极大值。换言之,给定子带的自相关信息可以包括延迟值(即,横坐标)和ACF的局部极大值的自相关值和(即,纵坐标)。
音频信号的编码表示因此包括音频信号的频谱包络和每个子带的自相关信息。给定子带的自相关信息包括滞后值T和自相关值ρ(T)的表示。编码表示对应于编码器的输出。在一些实施方式中,编码表示可以另外包括与音频信号的波形和/或子带音频信号的一个或多个波形有关的波形信息。
通过上述过程,定义了将输入音频信号映射到其编码表示的编码函数(或编码映射)h。
如上所述,可以按不同的更新率(采样率)确定和输出子带音频信号的频谱包络和自相关信息。例如,可以按第一更新率确定频谱包络,并且可以按不同于第一更新率的第二更新率确定多个子带音频信号的自相关信息。(所有子带的)频谱包络的表示和自相关信息的表示可以按相应的更新率(采样率)写入比特流。在这种情况下,编码表示可以与由编码器输出的比特流的一部分有关。在这方面,要注意,对于每个时刻,当前频谱包络和当前的一组自相关信息(每个子带一条信息)由比特流定义并且可以被视为编码表示。可替代地,(所有子带的)频谱包络的表示和自相关信息的表示可以在编码器的相应输出单元中以相应的更新率进行更新。在这种情况下,编码器的每个输出单元(例如,编码帧)对应于编码表示的一个实例。取决于相应的更新率,频谱包络和自相关信息的表示在一系列相继的输出单元中可能是相同的。
优选地,第一更新率高于第二更新率。在一个示例中,第一更新率R1可以是R1=1/(2.5ms)并且第二更新率R2可以是R2=1/(20ms),因此频谱包络的更新表示被每2.5ms地输出,而自相关信息的更新表示被每20ms地输出。就音频信号的各部分(例如,各帧)而言,可以每n个部分(例如,每个部分)地确定频谱包络,反之可以每m个部分地确定自相关信息,其中m>n。
(多个)编码表示可以作为特定帧长度的帧序列来输出。除其他因素外,帧长度还可以取决于第一更新率和/或第二更新率。考虑具有经由L1=1/R1与第一更新率R1(例如,1/(2.5ms))相对应的第一周期L1(例如,2.5ms)的长度的帧,该帧将包括一个频谱包络表示和一组自相关信息(每子带音频信号一条信息)的表示。对于分别为1/(2.5ms)和1/(20ms)的第一更新率和第二更新率,自相关信息对于编码表示的八个连贯帧而言将是相同的。通常,假设R1和R2被适当地选择为具有整数比,则自相关信息对于编码表示的R1/R2个连贯帧而言是相同的。另一方面,考虑具有经由L2=1/R2与第二更新率R2(例如,1/(20ms))相对应的第二周期L2(例如,20ms)的长度的帧,该帧将包括一组自相关信息的表示和R1/R2个(例如,八个)频谱包络表示。
在一些实施方式中,甚至可以将不同的更新率应用于不同的子带,即,可以按不同的更新率生成和输出不同子带音频信号的自相关信息。
图2是图示了根据本公开实施例的编码方法200的示例的流程图。所述方法(其可以由上述编码器100实施)接收音频信号作为输入。
步骤S210处,基于音频信号生成多个子带音频信号。这可以涉及对音频信号进行频谱分解,在这种情况下,该步骤可以根据上述滤波器组15的操作来执行。可替代地,这可以涉及对音频信号进行频谱和/或时间上的平坦化,可选地通过窗函数对平坦化的音频信号进行加窗,以及将所得信号在频谱上分解成多个子带音频信号。
步骤S220处,确定(例如,计算)音频信号的频谱包络。该步骤可以根据上述包络提取块25的操作来执行。
步骤S230处,对于每个子带音频信号,基于子带音频信号的ACF确定子带音频信号的自相关信息。该步骤可以根据上述自相关块55的操作来执行。
步骤S240处,生成音频信号的编码表示。所述编码表示包括音频信号的频谱包络的表示和多个子带音频信号中的每一个的自相关信息的表示。
接下来,将描述方法200的步骤的实施细节的示例。
例如,如上所述,生成多个子带音频信号可以包括(或相当于)例如通过滤波器组对音频信号进行频谱分解。在这种情况下,确定给定子带音频信号的自相关函数可以包括确定子带音频信号的子带包络。可以通过取子带音频信号的幅度值来确定子带包络。可以针对实值(包络平坦化的经加窗的)子带信号计算ACF本身。
假设子带滤波器响应是复值的,且傅里叶变换基本上在正频率上被支持,则子带信号变为复值的。然后,可以通过取复值子带信号的幅度来确定子带包络。该子带包络具有与子带信号一样多的样本,并且仍可能是些许振荡的。可选地,可以对子带包络进行下采样,例如对于沿信号的特定长度的一半(例如,2.5ms)的每次移位,通过计算特定长度(例如,长度为5ms,上升2.5ms,下降2.5ms)的段中的包络的三角窗加权平方和,然后取该序列的平方根以获得经下采样的子带包络。这可以被认为对应于“rms包络”定义。可以对三角窗进行归一化,使得值为1的恒定包络给出一系列的1。确定子带包络的其他方式也是可行的,如在实值子带信号的情况下进行半波整流继之以低通滤波。在任何情况下,可以认为子带包络携带有关子带信号中能量的信息(以所选更新率)。
然后,可以基于子带包络对子带音频信号进行包络平坦化。例如,为了获得从其计算ACF数据的精细结构信号(载波),可以通过对经下采样的值进行线性插值并将原始(复值)子带信号除以该线性插值包络来创建新的全采样率包络信号。
然后可以通过适当的窗函数对包络平坦化的子带音频信号进行加窗。最后,确定(例如,计算)经加窗的包络平坦化的子带音频信号的ACF。在一些实施方式中,确定给定子带音频信号的ACF可以进一步包括通过窗函数的自相关函数对经加窗的包络平坦化的子带音频信号的ACF进行归一化。
在图3中,上半部分中的曲线310指示用于计算ACF的经加窗的包络平坦化的子带信号的实值。下半部分中的实线曲线320指示复ACF的实值。
现在的主要思想是在位于(复值)子带滤波器(即,滤波器组的对应BPF)的脉冲响应的绝对值的ACF之上的那些局部极大值中找到子带信号的ACF的最大局部极大值。对于复值的子带信号的ACF,此时可以考虑ACF的实值。找到脉冲响应的绝对值的ACF之上的最大局部极大值对于避免挑选与子带中心频率相关而不是与输入信号属性相关的滞后而言可能是必需的。作为最后调整,该极大值可以除以子带ACF窗的所采用的窗函数的ACF的极大值(假设子带信号的ACF本身已被归一化,例如,使得零延迟的自相关值被归一化为一)。这导致更好地利用0到1之间的区间,其中,ρ(T)=1是最大音调。
因此,基于子带音频信号的ACF确定给定子带音频信号的自相关信息可以进一步包括将子带音频信号的ACF与同子带音频信号相关联的相应带通滤波器的脉冲响应的绝对值的ACF进行比较。与子带音频信号相关联的相应带通滤波器的脉冲响应的绝对值的ACF由图3的下半部分中的实线曲线330指示。然后,基于在与子带音频信号相关联的相应带通滤波器的脉冲响应的绝对值的ACF之上的子带信号的ACF的最高局部极大值来确定自相关信息。在图3的下半部分中,ACF的局部极大值用十字表示,并且在相应带通的脉冲响应的绝对值的ACF之上选择的子带信号的ACF的最高局部极大值用圆圈表示。可选地,所选择的ACF的局部极大值可以通过窗函数的ACF的ACF值来归一化(假设ACF本身已经被归一化,例如,使得零延迟的自相关值被归一化为1)。归一化的所选ACF的最高局部极大值由图3下半部分中的星号指示,并且虚线曲线340指示窗函数的ACF。
在该阶段确定的自相关信息可以包括子带音频信号的ACF的所选择的(归一化的)最高局部极大值的自相关值和延迟值(即,纵坐标和横坐标)。
可以在基于LPC的声码器的框架中定义类似的编码格式。同样在这种情况下,自相关信息是从受到至少某种程度的频谱和/或时间平坦化影响的子带信号中提取的。与前述示例不同的是,这是通过创建(感知加权的)LPC残差、对其进行加窗并将其分解成子带以获得多个子带音频信号来完成的。在这之后是计算ACF并提取每个子带音频信号的滞后值和自相关值。
例如,生成多个子带音频信号可以包括对音频信号应用频谱和/或时间平坦化(例如,通过使用LPC滤波器从音频信号生成感知加权的LPC残差)。在这之后可以是通过窗函数对平坦化的音频信号进行加窗,并将经加窗的平坦化的音频信号频谱分解成多个子带音频信号。如上所述,时间和/或频谱平坦化的结果可以对应于感知加权的LPC残差,其随后经受加窗和频谱分解成子带。例如,感知加权的LPC残差可以是粉色LPC残差。
解码
本公开涉及基于藉由分析的合成办法的音频解码。在最抽象的层面上,假设给出了从信号到感知动机域的编码映射h,使得原始音频信号x由y=h(x)表示。在最好的情况下,像感知域中的最小二乘这样的简单失真测量可以很好地预测由一群听众测量的主观差异。
剩下的一个问题是设计解码器q,其从y(的编码和解码版本)映射到音频信号z=d(y)。为此,可以使用藉由分析的合成的概念,该概念涉及“找到与生成给定图像最接近的波形”。目标是z和x听起来应该相似,因此解码器应该求解逆问题h(z)=y=h(x)。从映射的组成来看,d应该近似于h的左逆,这意味着
Figure BDA0003510617370000111
这个逆问题通常是不适定的,因为它有很多解。实现显著节省比特率的机会在于观察到大量不同的波形将产生相同的声音印象。
图4是示意性地图示了在给定编码函数(或编码映射)h的情况下用于确定解码函数(或解码映射)d的藉由分析的合成办法的示例的框图。对原始音频信号x 410进行编码映射h 415,从而产生编码表示y 420,其中,y=h(x)。编码表示y可以在感知域中被定义。目的是找到将编码表示y映射到重建音频信号z 430的解码函数(解码映射)d 425,其具有将编码映射h 435应用于重建音频信号z将产生与编码表示y=h(x)基本上相匹配的编码表示h(z)440的属性。在此,例如,“基本上相匹配”可以意味着匹配直至预定义裕度。换句话说,给定编码映射h,目的是找到解码映射d,使得
Figure BDA0003510617370000112
图5是图示了根据本公开实施例的与藉由分析的合成办法一致的解码方法500的示例的流程图。方法500是一种从(原始)音频信号的编码表示中解码音频信号的方法。假设编码表示包括原始音频信号的频谱包络的表示和原始音频信号的多个子带音频信号中的每一个的自相关信息的表示。给定子带音频信号的自相关信息基于子带音频信号的ACF。
步骤S510处,接收音频信号的编码表示。
步骤S520处,从音频信号的编码表示中提取频谱包络和自相关信息。
步骤S530处,基于频谱包络和自相关信息确定重建音频信号。其中,重建音频信号被确定为使得重建子带音频信号的多个子带信号中的每一个的自相关函数将(基本上)满足由音频信号的对应子带音频信号的自相关信息导出的条件。例如,该条件可以是对于重建音频信号的每个子带音频信号,重建音频信号的子带音频信号的ACF在音频信号的对应子带音频信号的自相关信息所指示的滞后值(例如,延迟值)处的值与音频信号的对应子带音频信号的自相关信息所指示的自相关值基本上相匹配。这可能意味着解码器可以按与编码器所完成的相同方式确定子带音频信号的ACF。这可以涉及平坦化、加窗和归一化中的任一者、一些或全部。在一种实施方式中,重建音频信号可以被确定为使得对于重建音频信号的每个子带音频信号,重建音频信号的子带信号的ACF的自相关值和滞后值(例如,延迟值)与原始音频信号的对应子带音频信号的自相关信息所指示的自相关值和滞后值基本上相匹配。这可能意味着解码器可以按与编码器所完成的相同方式确定重建音频信号的每个子带信号的自相关信息。在其中编码表示还包括波形信息的那些实施方式中,可以进一步基于波形信息来确定重建音频信号。重建音频信号的子带音频信号可以按与编码器所完成的相同方式生成。例如,这可涉及频谱分解、或一系列的平坦化、加窗和频谱分解。
优选地,在步骤S530处确定重建音频信号还考虑了原始音频信号的频谱包络。然后,重建音频信号可以进一步被确定为使得对于重建子带音频信号的每个子带音频信号,重建音频信号的子带音频信号的测得(例如,估计或计算的)信号功率与由频谱包络指示的原始音频信号的对应子带音频信号的信号功率基本上相匹配。
从上文可以看出,可以认为所提出的方法500是受到藉由分析的合成办法的启发,因为其试图找到(基本上)满足从原始音频信号x的编码表示y=h(x)导出的至少一个条件的重建音频信号z,其中,h是编码器所使用的编码映射。在一些实施方式中,甚至可以认为所提出的方法是根据藉由分析的合成办法来操作的,因为其试图找到其编码表示h(z)将与原始音频信号x的编码表示y=h(x)基本上相匹配的重建音频信号z。换句话说,可以认为所述解码方法找到解码映射d,使得
Figure BDA0003510617370000121
接下来将描述方法500的两个非限制性实施方式示例。
实施方式示例1:参数合成或按信号迭代
在给定更新映射zn=f(zn-1,y)的情况下,逆问题h(z)=y可以通过迭代方法来求解,该更新映射修改了zn-1使得h(zn)比h(zn-1)更接近y。迭代的起点(即,重建音频信号的初始候选)可以是随机噪声信号(例如,白噪声),或者例如它可以基于音频信号的编码表示来确定(例如,如手动制作的第一个猜测)。在后一种情况下,重建音频信号的初始候选可以与基于多个子带音频信号的频谱包络和/或自相关信息做出的有根据的猜测有关。在编码表示包括波形信息的那些实施方式中,可以进一步基于波形信息来做出有根据的猜测。
更详细地,在该实施方式示例中的重建音频信号是在迭代过程中确定的,所述迭代过程从重建音频信号的初始候选开始,并在每次迭代中生成相应的中间重建音频信号。在每次迭代中,将更新映射应用于中间重建音频信号以获得用于下一次迭代的中间重建音频信号。更新映射被选择为使得中间重建音频信号的编码表示与原始音频信号的编码表示之间的差异一次迭代接一次迭代地逐渐变小。为此,可以定义和使用编码表示(例如,频谱包络、自相关信息)的适当差异度量以用于评估差异。中间重建音频信号的编码表示可以是在中间重建音频信号经受了导致音频信号的编码表示的相同编码方案的情况下将获得的编码表示。
在该过程寻找满足从(多条)自相关信息导出的至少一个条件的重建音频信号的情况下,更新映射可以被选择为使得音频信号的中间重建的子带音频信号的自相关函数更接近满足从音频信号的对应子带音频信号的自相关信息导出的相应条件,和/或重建音频信号的子带音频信号的测得信号功率与由频谱包络指示的音频信号的对应子带音频信号的信号功率之间的差异一次迭代接一次迭代地减小。如果同时考虑自相关信息和频谱包络,则可以针对满足条件的程度以及子带音频信号的信号功率之间的差异定义适当的差异度量。
实施方式示例2:基于机器学习的生成模型
现代机器学习方法所支持的另一个选项是以数据y为条件为音频x训练基于机器学习的生成模型(或简称生成模型)。即,给定(x,y)的大量示例集合,其中,y=h(x),训练从y到x的参数化条件分布p(x|y)。然后,解码算法可以由从分布z~p(x|y)中的采样构成。
已发现该选项对于h(x)是语音声码器且p(x|y)由序列生成模型样本递归神经网络(RNN)定义的情况特别有利。然而,如变分自动编码器或生成对抗模型等其他生成模型也与该任务相关。因此,并非刻意进行限制,基于机器学习的生成模型可以是递归神经网络、变分自动编码器或生成对抗模型(例如,生成对抗网络(GAN))中的一种。
在该实施方式示例中,基于频谱包络和自相关信息确定重建音频信号包括:应用基于机器学习的生成模型,所述生成模型接收音频信号的频谱包络和音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出重建音频信号。在编码表示还包括波形信息的那些实施方式中,基于机器学习的生成模型可以进一步接收波形信息作为输入。
如上所述,基于机器学习的生成模型可以包括将音频信号的编码表示y和对应音频信号x与相应概率p相关的参数化条件分布p(x|y)。然后,确定重建音频信号可以包括从针对音频信号的编码表示的参数化条件分布p(x|y)中进行采样。
在训练阶段,在解码之前,可以在多个音频信号和音频信号的对应编码表示的数据集上调节/训练基于机器学习的生成模型。如果编码表示还包括波形信息,则还可以使用波形信息来调节/训练基于机器学习的生成模型。
图6是图示了图5的解码方法500中的步骤S530的示例实施方式600的流程图。特别地,实施方式600涉及步骤S530的按子带实施方式。
步骤610处,基于频谱包络和自相关信息确定多个重建子带音频信号。其中,多个重建子带音频信号被确定为使得对于每个重建子带音频信号,重建子带音频信号的自相关函数将满足由音频信号的对应子带音频信号的自相关信息导出的条件。在一些实施方式中,多个重建子带音频信号被确定为使得对于每个重建子带音频信号,重建子带音频信号的自相关信息将与对应子带音频信号的自相关信息基本上相匹配。
优选地,在步骤S610处确定多个重建子带音频信号还考虑了原始音频信号的频谱包络。然后,多个重建子带音频信号进一步被确定为使得对于每个重建子带音频信号,重建子带音频信号的测得(例如,估计、计算的)信号功率与由频谱包络指示的对应子带音频信号的信号功率基本上相匹配。
步骤S620处,通过频谱合成基于多个重建子带音频信号来确定重建音频信号。
上述实施方式示例1和2还可以应用于步骤S530的按子带实施方式。对于实施方式示例1,每个重建子带音频信号可以在迭代过程中确定,所述迭代过程从重建子带音频信号的初始候选开始,并在每次迭代中生成相应的中间重建子带音频信号。在每次迭代中,可以将更新映射应用于中间重建子带音频信号以获得用于下一次迭代的中间重建子带音频信号,其方式为使得中间重建子带音频信号的自相关信息与对应子带音频信号的自相关信息之间的差异一次迭代接一次迭代地逐渐变小,或者使得重建子带音频信号更好地满足由音频信号的各个对应子带音频信号的自相关信息导出的各个条件。
同样,此时还可以考虑频谱包络。即,更新映射可以使得子带音频信号的相应信号功率之间以及相应自相关信息项之间的(联合)差异逐渐变小。这可能意味着定义了用于评估(联合)差异的适当差异度量。除此之外,与上述实施方式示例1相同的解释可以适用于这种情况。
将实施方式示例2应用于步骤S530的按子带实施方式,基于频谱包络和自相关信息确定多个重建子带音频信号可以包括:应用基于机器学习的生成模型,所述生成模型接收音频信号的频谱包络和音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出多个重建子带音频信号。除此之外,与上述实施方式示例2相同的解释可以适用于这种情况。
本公开进一步涉及用于对音频信号进行编码的编码器,所述编码器能够并且适于执行在整个本公开中描述的编码方法。这种编码器700的示例在图7中以框图形式示意性地图示。编码器700包括处理器710和耦接到处理器710的存储器720。处理器710适于执行在整个本公开中描述的任何一种编码方法的方法步骤。为此,存储器720可以包括供处理器710执行的相应指令。编码器700可以进一步包括接口730,用于接收要被编码的输入音频信号740和/或用于输出音频信号的编码表示750。
本公开进一步涉及用于从音频信号的编码表示中解码音频信号的解码器,所述解码器能够并且适于执行在整个本公开中描述的解码方法。这种解码器800的示例在图8中以框图形式示意性地图示。解码器800包括处理器810和耦接到处理器810的存储器820。处理器810适于执行在整个本公开中描述的任何一种解码方法的方法步骤。为此,存储器820可以包括供处理器810执行的相应指令。解码器800可以进一步包括接口830,用于接收要被解码的音频信号的输入编码表示840和/或用于输出解码(即,重建)的音频信号850。
本公开进一步涉及包括指令的计算机程序,以在执行指令时使计算机执行在整个本公开中描述的编码或解码方法。
最后,本公开还涉及存储有如上所述的计算机程序的计算机可读存储介质。
诠释
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开的讨论中,利用如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,该处理器接受包含一组指令的计算机可读(也称为机器可读)代码,该组指令在由一个或多个处理器执行时执行本文描述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统,该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是分布式处理系统,其中,处理器通过网络耦接在一起。如果处理系统需要显示器,则可以包括这样的显示器,例如,液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元等存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。存储器子系统因此包括携带计算机可读代码(例如,软件)的计算机可读载体介质,该计算机可读代码包括一组指令,该组指令在由一个或多个处理器执行时使得执行本文描述的方法中的一种或多种。应当注意的是,当所述方法包括几个元素(例如,几个步骤)时,除非特别声明,否则不暗示这些元素的任何顺序。在计算机系统执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或包括在计算机程序产品中。
在替代性示例实施例中,一个或多个处理器可以作为独立设备运行,或者可以在联网部署中连接到(例如,联网到)其他处理器,该一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行,或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。
应当注意的是,术语“机器”也应该被认为包括单独或共同地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。
因此,本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式,该组指令例如为用于在一个或多个处理器(例如,作为web服务器装置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将理解的,本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理系统的装置、或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码,该组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,所述载体介质携带体现在该介质中的计算机可读程序代码。
可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质,该组指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,该组指令在被执行时实施方法;以及网络中的传输介质,该传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示该组指令的传播信号。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统中的适当处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。
在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此,在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以按任何合适的方式组合,这根据本公开对于本领域的普通技术人员而言将是显而易见的。
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象,仅表明提及相似对象的不同实例,并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的元件/特征,但不排除其他元件/特征。因此,当在权利要求中使用术语“包括(comprising)”时,该术语不应当被解释为限于在其之后列出的装置或元件或步骤。例如,包括A和B的装置的表达的范围不应限于仅包括元件A和B的装置。如本文所使用的,术语包括(including)或其包括(which includes)或包括(that includes)中的任何一个也是开放术语,其也意指至少包括所述术语之后的元件/特征,但不排除其他元件/特征。因此,包括(including)与包括(comprising)同义并且意指包括(comprising)。
应当理解,在以上对本公开的示例实施例的描述中,有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在以下权利要求中,要求保护的示例实施例中的任何示例实施例都可以按任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。
可以从以下列出的枚举示例实施例(EEE)中理解本公开的实施方式和各个方面。
EEE 1.一种对音频信号进行编码的方法,所述方法包括:
基于所述音频信号生成多个子带音频信号;
确定所述音频信号的频谱包络;
针对每个子带音频信号,基于所述子带音频信号的自相关函数来确定所述子带音频信号的自相关信息;以及
生成所述音频信号的编码表示,所述编码表示包括所述音频信号的频谱包络的表示和所述多个子带音频信号的自相关信息的表示。
EEE 2.根据EEE 1所述的方法,其中,所述频谱包络是基于所述多个子带音频信号来确定的。
EEE 3.根据EEE 1或2所述的方法,其中,给定子带音频信号的自相关信息包括相应子带音频信号的滞后值和/或相应子带音频信号的自相关值。
EEE 4.根据前一EEE所述的方法,其中,所述滞后值对应于所述自相关函数达到局部极大值的延迟值,并且其中,所述自相关值对应于所述局部极大值。
EEE 5.根据前述EEE中任一项所述的方法,其中,所述频谱包络是以第一更新率确定的,并且所述多个子带音频信号的自相关信息是以第二更新率确定的;并且
其中,所述第一更新率和所述第二更新率彼此不同。
EEE 6.根据前一EEE所述的方法,其中,所述第一更新率高于所述第二更新率。
EEE 7.根据前述EEE中任一项所述的方法,其中,生成所述多个子带音频信号包括:
对所述音频信号应用频谱和/或时间平坦化;
对平坦化的音频信号进行加窗;以及
将经加窗的平坦化的音频信号在频谱上分解成所述多个子带音频信号。
EEE 8.根据EEE 1至6中任一项所述的方法,
其中,生成所述多个子带音频信号包括在频谱上分解所述音频信号;并且
其中,确定给定子带音频信号的自相关函数包括:
确定所述子带音频信号的子带包络;
基于所述子带包络对所述子带音频信号进行包络平坦化;
通过窗函数对包络平坦化的子带音频信号进行加窗;以及
确定经加窗的包络平坦化的子带音频信号的自相关函数。
EEE 9.根据EEE 7或8所述的方法,其中,确定给定子带音频信号的自相关函数进一步包括:
通过所述窗函数的自相关函数对所述经加窗的包络平坦化的子带音频信号的自相关函数进行归一化。
EEE 10.根据前述EEE中任一项所述的方法,其中,基于所述子带音频信号的自相关函数确定给定子带音频信号的自相关信息包括:
将所述子带音频信号的自相关函数与同所述子带音频信号相关联的相应带通滤波器的脉冲响应的绝对值的自相关函数进行比较;以及
基于在与所述子带音频信号相关联的相应带通滤波器的脉冲响应的绝对值的自相关函数之上的所述子带信号的自相关函数的最高局部极大值来确定所述自相关信息。
EEE 11.根据前述EEE中任一项所述的方法,其中,确定所述频谱包络包括测量所述多个子带音频信号中的每一个的信号功率。
EEE 12.一种从音频信号的编码表示中解码所述音频信号的方法,所述编码表示包括所述音频信号的频谱包络的表示和从所述音频信号生成的多个子带音频信号中的每一个的自相关信息的表示,其中,给定子带音频信号的自相关信息基于所述子带音频信号的自相关函数,所述方法包括:
接收所述音频信号的编码表示;
从所述音频信号的编码表示中提取所述频谱包络和所述自相关信息;以及
基于所述频谱包络和所述自相关信息确定重建音频信号,
其中,所述重建音频信号被确定为使得从所述重建音频信号生成的多个子带信号中的每一个的自相关函数将满足由从所述音频信号生成的对应子带音频信号的自相关信息导出的条件。
EEE 13.根据前一EEE所述的方法,其中,所述重建音频信号进一步被确定为使得对于所述重建音频信号的每个子带音频信号,所述重建音频信号的子带音频信号的测得信号功率与所述频谱包络所指示的所述音频信号的对应子带音频信号的信号功率基本上相匹配。
EEE 14.根据EEE 12或13所述的方法,
其中,所述重建音频信号是在迭代过程中确定的,所述迭代过程从所述重建音频信号的初始候选开始,并在每次迭代中生成相应的中间重建音频信号;并且
其中,在每次迭代中,按如下方式将更新映射应用于所述中间重建音频信号以获得用于下一次迭代的中间重建音频信号:使得所述中间重建音频信号的编码表示与所述音频信号的编码表示之间的差异一次迭代接一次迭代地逐渐变小。
EEE 15.根据EEE 14所述的方法,其中,所述重建音频信号的初始候选是基于所述音频信号的编码表示来确定的。
EEE 16.根据EEE 14所述的方法,其中,所述重建音频信号的初始候选是白噪声。
EEE 17.根据EEE 12或13所述的方法,其中,基于所述频谱包络和所述自相关信息确定所述重建音频信号包括:应用基于机器学习的生成模型,所述基于机器学习的生成模型接收所述音频信号的频谱包络和所述音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出所述重建音频信号。
EEE 18.根据前一EEE所述的方法,其中,所述基于机器学习的生成模型包括将音频信号的编码表示和对应音频信号与相应概率相关的参数化条件分布;并且
其中,确定所述重建音频信号包括从针对所述音频信号的编码表示的所述参数化条件分布中进行采样。
EEE 19.根据EEE 17或18所述的方法,进一步包括在训练阶段,在多个音频信号和所述音频信号的对应编码表示的数据集上训练所述基于机器学习的生成模型。
EEE 20.根据EEE 17至19中任一项所述的方法,其中,所述基于机器学习的生成模型是递归神经网络、变分自动编码器或生成对抗模型之一。
EEE 21.根据EEE 12所述的方法,其中,基于所述频谱包络和所述自相关信息确定所述重建音频信号包括:
基于所述频谱包络和所述自相关信息确定多个重建子带音频信号;以及
通过频谱合成基于所述多个重建子带音频信号来确定重建音频信号,
其中,所述多个重建子带音频信号被确定为使得对于每个重建子带音频信号,所述重建子带音频信号的自相关函数将满足由对应子带音频信号的自相关信息导出的条件。
EEE 22.根据前一EEE所述的方法,其中,所述多个重建子带音频信号进一步被确定为使得对于每个重建子带音频信号,所述重建子带音频信号的测得信号功率与所述频谱包络所指示的对应子带音频信号的信号功率基本上相匹配。
EEE 23.根据EEE 21或22所述的方法,
其中,每个重建子带音频信号是在迭代过程中确定的,所述迭代过程从所述重建子带音频信号的初始候选开始,并在每次迭代中生成相应的中间重建子带音频信号;并且
其中,在每次迭代中,按如下方式将更新映射应用于所述中间重建子带音频信号以获得用于下一次迭代的中间重建子带音频信号:使得所述中间重建子带音频信号的自相关信息与对应子带音频信号的自相关信息之间的差异一次迭代接一次迭代地逐渐变小。
EEE 24.根据EEE 21或22所述的方法,其中,基于所述频谱包络和所述自相关信息确定所述多个重建子带音频信号包括:应用基于机器学习的生成模型,所述基于机器学习的生成模型接收所述音频信号的频谱包络和所述音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出所述多个重建子带音频信号。
EEE 25.一种用于对音频信号进行编码的编码器,所述编码器包括处理器和耦接到所述处理器的存储器,其中,所述处理器适于执行根据EEE 1至11中任一项所述的方法步骤。
EEE 26.一种用于从音频信号的编码表示中解码所述音频信号的解码器,所述解码器包括处理器和耦接到所述处理器的存储器,其中,所述处理器适于执行根据EEE 12至24中任一项所述的方法步骤。
EEE 27.一种包括指令的计算机程序,用于在执行所述指令时使计算机执行根据EEE1至24中任一项所述的方法。
EEE 28.一种计算机可读存储介质,存储有根据前一EEE所述的计算机程序。

Claims (33)

1.一种对音频信号进行编码的方法,所述方法包括:
基于所述音频信号生成多个子带音频信号;
确定所述音频信号的频谱包络;
针对每个子带音频信号,基于所述子带音频信号的自相关函数来确定所述子带音频信号的自相关信息,其中,所述自相关信息包括所述子带音频信号的自相关值;以及
生成所述音频信号的编码表示,所述编码表示包括所述音频信号的频谱包络的表示和所述多个子带音频信号的自相关信息的表示。
2.根据权利要求1所述的方法,进一步包括输出定义所述编码表示的比特流。
3.根据权利要求1或2所述的方法,其中,所述频谱包络是基于所述多个子带音频信号确定的。
4.根据前述权利要求中任一项所述的方法,其中,给定子带音频信号的自相关信息进一步包括相应子带音频信号的滞后值。
5.根据权利要求4所述的方法,其中,所述滞后值对应于所述自相关函数达到局部极大值的延迟值,并且其中,所述自相关值对应于所述局部极大值。
6.根据前述权利要求中任一项所述的方法,其中,所述频谱包络是以第一更新率确定的,并且所述多个子带音频信号的自相关信息是以第二更新率确定的;并且
其中,所述第一更新率和所述第二更新率彼此不同。
7.根据权利要求6所述的方法,其中,所述第一更新率高于所述第二更新率。
8.根据前述权利要求中任一项所述的方法,其中,生成所述多个子带音频信号包括:
对所述音频信号应用频谱和/或时间平坦化;
对平坦化的音频信号进行加窗;以及
将经加窗的平坦化的音频信号在频谱上分解成所述多个子带音频信号。
9.根据权利要求1至7中任一项所述的方法,
其中,生成所述多个子带音频信号包括在频谱上分解所述音频信号;并且
其中,确定给定子带音频信号的自相关函数包括:
确定所述子带音频信号的子带包络;
基于所述子带包络对所述子带音频信号进行包络平坦化;
通过窗函数对包络平坦化的子带音频信号进行加窗;以及
确定经加窗的包络平坦化的子带音频信号的自相关函数。
10.根据权利要求8或9所述的方法,其中,确定给定子带音频信号的自相关函数进一步包括:
通过所述窗函数的自相关函数对所述经加窗的包络平坦化的子带音频信号的自相关函数进行归一化。
11.根据前述权利要求中任一项所述的方法,其中,基于所述子带音频信号的自相关函数确定给定子带音频信号的自相关信息包括:
将所述子带音频信号的自相关函数与同所述子带音频信号相关联的相应带通滤波器的脉冲响应的绝对值的自相关函数进行比较;以及
基于在与所述子带音频信号相关联的所述相应带通滤波器的脉冲响应的绝对值的自相关函数之上的所述子带信号的自相关函数的最高局部极大值来确定所述自相关信息。
12.根据前述权利要求中任一项所述的方法,其中,确定所述频谱包络包括测量所述多个子带音频信号中的每一个的信号功率。
13.一种从音频信号的编码表示中解码所述音频信号的方法,所述编码表示包括所述音频信号的频谱包络的表示和从所述音频信号生成的多个子带音频信号中的每一个的自相关信息的表示,其中,给定子带音频信号的自相关信息基于所述子带音频信号的自相关函数,所述方法包括:
接收所述音频信号的编码表示;
从所述音频信号的编码表示中提取所述频谱包络和所述自相关信息;以及
基于所述频谱包络和所述自相关信息确定重建音频信号,
其中,给定子带音频信号的自相关信息包括所述子带音频信号的自相关值;并且
其中,所述重建音频信号被确定为使得从所述重建音频信号生成的多个子带信号中的每一个的自相关函数满足由从所述音频信号生成的对应子带音频信号的自相关信息导出的条件。
14.根据权利要求13所述的方法,其中,所述重建音频信号被确定为使得所述重建音频信号的多个子带信号中的每一个的自相关信息与所述音频信号的所述对应子带音频信号的自相关信息相匹配直至预定义裕度。
15.根据权利要求13所述的方法,其中,所述重建音频信号被确定为使得对于所述重建音频信号的每个子带音频信号,所述重建音频信号的所述子带音频信号的自相关函数在所述音频信号的所述对应子带音频信号的自相关信息所指示的滞后值处的值与所述音频信号的所述对应子带音频信号的自相关信息所指示的自相关值相匹配直至预定义裕度。
16.根据权利要求13至15中任一项所述的方法,其中,所述重建音频信号进一步被确定为使得对于所述重建音频信号的每个子带音频信号,所述重建音频信号的所述子带音频信号的测得信号功率与所述频谱包络所指示的所述音频信号的所述对应子带音频信号的信号功率相匹配直至预定义裕度。
17.根据权利要求13至16中任一项所述的方法,
其中,所述重建音频信号是在迭代过程中确定的,所述迭代过程从所述重建音频信号的初始候选开始,并在每次迭代中生成相应的中间重建音频信号;并且
其中,在每次迭代中,按如下方式将更新映射应用于所述中间重建音频信号以获得用于下一次迭代的中间重建音频信号:使得所述中间重建音频信号的编码表示与所述音频信号的编码表示之间的差异一次迭代接一次迭代地逐渐变小。
18.根据权利要求17所述的方法,其中,所述重建音频信号的初始候选是基于所述音频信号的编码表示来确定的。
19.根据权利要求17所述的方法,其中,所述重建音频信号的初始候选是白噪声。
20.根据权利要求13至16中任一项所述的方法,其中,基于所述频谱包络和所述自相关信息确定所述重建音频信号包括:应用基于机器学习的生成模型,所述基于机器学习的生成模型接收所述音频信号的频谱包络和所述音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出所述重建音频信号。
21.根据权利要求20所述的方法,其中,所述基于机器学习的生成模型包括将音频信号的编码表示和对应音频信号与相应概率相关的参数化条件分布;并且
其中,确定所述重建音频信号包括从针对所述音频信号的编码表示的所述参数化条件分布中进行采样。
22.根据权利要求20或21所述的方法,进一步包括:在训练阶段,在多个音频信号和所述音频信号的对应编码表示的数据集上训练所述基于机器学习的生成模型。
23.根据权利要求20至22中任一项所述的方法,其中,所述基于机器学习的生成模型是递归神经网络、变分自动编码器或生成对抗模型之一。
24.根据权利要求13所述的方法,其中,基于所述频谱包络和所述自相关信息确定所述重建音频信号包括:
基于所述频谱包络和所述自相关信息确定多个重建子带音频信号;以及
通过频谱合成基于所述多个重建子带音频信号来确定重建音频信号,
其中,所述多个重建子带音频信号被确定为使得对于每个重建子带音频信号,所述重建子带音频信号的自相关函数满足由所述音频信号的所述对应子带音频信号的自相关信息导出的条件。
25.根据权利要求24所述的方法,其中,所述多个重建子带音频信号被确定为使得每个重建子带音频信号的自相关信息与所述音频信号的所述对应子带音频信号的自相关信息相匹配直至预定义裕度。
26.根据权利要求24所述的方法,其中,所述多个重建子带音频信号被确定为使得对于每个重建子带音频信号,所述重建子带音频信号的自相关函数在所述音频信号的所述对应子带音频信号的自相关信息所指示的滞后值处的值与所述音频信号的所述对应子带音频信号的自相关信息所指示的自相关值相匹配直至预定义裕度。
27.根据权利要求24至26中任一项所述的方法,其中,所述多个重建子带音频信号进一步被确定为使得对于每个重建子带音频信号,所述重建子带音频信号的测得信号功率与所述频谱包络所指示的所述对应子带音频信号的信号功率相匹配直至预定义裕度。
28.根据权利要求24至27中任一项所述的方法,
其中,每个重建子带音频信号是在迭代过程中确定的,所述迭代过程从所述重建子带音频信号的初始候选开始,并在每次迭代中生成相应的中间重建子带音频信号;并且
其中,在每次迭代中,按如下方式将更新映射应用于所述中间重建子带音频信号以获得用于下一次迭代的中间重建子带音频信号:使得所述中间重建子带音频信号的自相关信息与所述对应子带音频信号的自相关信息之间的差异一次迭代接一次迭代地逐渐变小。
29.根据权利要求24至27中任一项所述的方法,其中,基于所述频谱包络和所述自相关信息确定所述多个重建子带音频信号包括:应用基于机器学习的生成模型,所述基于机器学习的生成模型接收所述音频信号的频谱包络和所述音频信号的多个子带音频信号中的每一个的自相关信息作为输入并生成和输出所述多个重建子带音频信号。
30.一种用于对音频信号进行编码的编码器,所述编码器包括处理器和耦接到所述处理器的存储器,其中,所述处理器适于执行根据权利要求1至12中任一项所述的方法步骤。
31.一种用于从音频信号的编码表示中解码所述音频信号的解码器,所述解码器包括处理器和耦接到所述处理器的存储器,其中,所述处理器适于执行根据权利要求13至29中任一项所述的方法步骤。
32.一种包括指令的计算机程序,用于在执行所述指令时使计算机执行根据权利要求1至29中任一项所述的方法。
33.一种计算机可读存储介质,存储有根据权利要求32所述的计算机程序。
CN202080058713.7A 2019-08-20 2020-08-18 用于音频编码的多滞后格式 Pending CN114258569A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962889118P 2019-08-20 2019-08-20
US62/889,118 2019-08-20
EP19192552 2019-08-20
EP19192552.8 2019-08-20
PCT/EP2020/073067 WO2021032719A1 (en) 2019-08-20 2020-08-18 Multi-lag format for audio coding

Publications (1)

Publication Number Publication Date
CN114258569A true CN114258569A (zh) 2022-03-29

Family

ID=72046919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080058713.7A Pending CN114258569A (zh) 2019-08-20 2020-08-18 用于音频编码的多滞后格式

Country Status (7)

Country Link
US (1) US20220277754A1 (zh)
EP (1) EP4018440A1 (zh)
JP (1) JP2022549403A (zh)
KR (1) KR20220050924A (zh)
CN (1) CN114258569A (zh)
BR (1) BR112022003066A2 (zh)
WO (1) WO2021032719A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2342828A (en) * 1998-10-13 2000-04-19 Nokia Mobile Phones Ltd Speech parameter compression; distributed speech recognition
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
CN111164682A (zh) * 2017-10-24 2020-05-15 三星电子株式会社 使用机器学习的音频重建方法和设备
US11205121B2 (en) * 2018-06-20 2021-12-21 Disney Enterprises, Inc. Efficient encoding and decoding sequences using variational autoencoders

Also Published As

Publication number Publication date
KR20220050924A (ko) 2022-04-25
JP2022549403A (ja) 2022-11-25
BR112022003066A2 (pt) 2022-05-17
EP4018440A1 (en) 2022-06-29
WO2021032719A1 (en) 2021-02-25
US20220277754A1 (en) 2022-09-01

Similar Documents

Publication Publication Date Title
Marafioti et al. A context encoder for audio inpainting
JP4740260B2 (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
EP2491558B1 (en) Determining an upperband signal from a narrowband signal
RU2402826C2 (ru) Способы и устройство кодирования и декодирования части речевого сигнала диапазона высоких частот
JP3241959B2 (ja) 音声信号の符号化方法
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
EP3701523B1 (en) Noise attenuation at a decoder
Marafioti et al. Audio inpainting of music by means of neural networks
JP2023546099A (ja) オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
CN115867966A (zh) 用于确定生成神经网络的参数的方法和装置
EP1676262A2 (en) Method and system for speech coding
Lagrange et al. Bandwidth extension of musical audio signals with no side information using dilated convolutional neural networks
US7603271B2 (en) Speech coding apparatus with perceptual weighting and method therefor
CN115171709A (zh) 语音编码、解码方法、装置、计算机设备和存储介质
Gupta et al. High‐band feature extraction for artificial bandwidth extension using deep neural network and H∞ optimisation
Liu et al. AudioSR: Versatile audio super-resolution at scale
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
Srivastava Fundamentals of linear prediction
US20220277754A1 (en) Multi-lag format for audio coding
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质
Liu et al. Blind bandwidth extension of audio signals based on non-linear prediction and hidden Markov model
CN111862931A (zh) 一种语音生成方法及装置
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
WO2019173195A1 (en) Signals in transform-based audio codecs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination