CN116368497A - 利用深度神经网络的自适应块切换 - Google Patents

利用深度神经网络的自适应块切换 Download PDF

Info

Publication number
CN116368497A
CN116368497A CN202180070787.7A CN202180070787A CN116368497A CN 116368497 A CN116368497 A CN 116368497A CN 202180070787 A CN202180070787 A CN 202180070787A CN 116368497 A CN116368497 A CN 116368497A
Authority
CN
China
Prior art keywords
block
neural network
transform coefficients
quantized transform
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180070787.7A
Other languages
English (en)
Inventor
周聪
G·A·戴维森
M·S·文顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN116368497A publication Critical patent/CN116368497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Neurology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种用于通过以下操作预测表示自适应块长度媒体信号的频率内容的变换系数的方法:接收帧并接收指示所述帧中每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量;确定第一块具有第二数量的经量化变换系数;将所述第一块转换成具有第一数量的经量化变换系数的经转换块;调节主神经网络,所述主神经网络被训练成在给定至少一个调节变量的情况下预测至少一个输出变量,所述至少一个调节变量基于关于所述经转换块的信息和所述第一块的块长度信息;从所述主神经网络的输出级提供至少一个预测的变换系数。

Description

利用深度神经网络的自适应块切换
相关申请的交叉引用
本申请要求于2020年10月16日提交的美国临时专利申请号63/092,685以及于2020年11月9日提交的欧洲专利申请号20206462.2的优先权权益,这两个专利申请通过引用并入本文。
技术领域
本发明涉及将生成模型与媒体信号的现有高效编解码方案组合。具体地,本发明涉及一种用于用经训练的神经网络预测自适应块长度媒体信号的变换系数的方法。
背景技术
在低速率自适应块长度编码和解码中,编码器被配置成优化频率与时间分辨率之间的折衷。这可以通过由编码器为每个信号样本块选择变换长度来实现。通常,编码器将为表示具有缓慢演变时间特性的信号的信号样本块选择具有较高数量的变换系数的长块,并将为表示具有快速演变时间特性的信号的信号样本块选择一组短块,每个短块具有较低数量的变换系数。
对自适应块长度信号进行编码和解码的问题在于,要被解码的块可能包括不同数量的变换系数,这些变换系数表示在媒体信号的不同持续时间内媒体信号的频率内容。因此,自适应块长度与为固定块长度信号开发的传统解码方案不兼容。此外,在解码器中获得原始媒体信号的更准确的表示是有益的,所述原始媒体信号已经在编码器中被采样以形成信号样本块,并且被自适应地分成具有不同数量的变换系数的块。
发明内容
基于以上所述,因此本发明的一个目的是提供一种用于利用神经网络来预测自适应块长度媒体信号、并且特别是自适应块长度一般音频信号的变换系数的方法。
根据本发明的第一方面,提供了一种用于利用计算机实施的神经网络系统预测表示自适应块长度媒体信号的频率内容的变换系数的方法。所述方法包括:接收帧的块,所述帧的每个块包括表示所述媒体信号的部分时间片段的至少一个经量化变换系数(或一组经量化变换系数);接收指示所述帧的每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量;确定所述帧的至少第一块具有第二数量的经量化变换系数;将至少所述第一块转换成具有第一数量的经量化变换系数的经转换块;调节主神经网络,所述主神经网络被训练成在给定至少一个调节变量的情况下预测至少一个输出变量,所述至少一个调节变量基于调节信息,所述调节信息包括经转换块的表示和所述第一块的块长度信息的表示;向输出级(输出神经网络)提供所述至少一个输出变量,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。
作为经量化变换系数的替代,变换系数可能失真或受损。由输出级(输出神经网络)输出的变换系数在某种意义上被增强,即这些变换系数更接近地类似于一组原始变换系数,和/或被逆变换到时域的增强的变换系数描述了媒体信号,与由经量化变换系数描述的时域媒体信号相比,所述媒体信号被感知为更高质量的媒体信号。进一步,本文提及的帧可以包括一个或多个块(例如,一组块)。
本发明至少部分地基于这样的理解,即通过将(短)第一块转换成具有第一数量的变换系数的(长)转换块,被训练的主神经网络的生成属性可以被引入到可变块切换解码中。由于神经网络在其输出层中具有固定的维度,因此其与自适应长度块不兼容。通过将具有经量化变换系数的第一块转换成经转换块,并使用经转换块的表示和块长度信息的表示来调节主神经网络,神经网络可以基于块长度以动态方式预测至少一个(增强的或非量化的)变换系数。也就是说,由于块长度信息的表示被包括在调节信息中(至少一个调节变量基于所述调节信息),因此主神经网络将被训练成适当地响应已经被转换成包括第一数量的变换系数的块。
另外地,还可以确定帧的块包括第一数量的经量化变换系数。这种(长)块可以不被转换成经转换块而是具有第一数量的经量化变换系数的块的表示被包括在调节信息中。除了不转换长块之外,可以类似于所确定的短块来处理长块。由输出级输出的变换系数包括第一数量的变换系数,所述第一数量的变换系数表示具有第一数量的变换系数的经量化变换系数块或具有第一数量的经量化变换系数的经转换块,其进而表示具有第二数量的变换系数的至少一个经量化变换系数块。
因为主神经网络可以依次预测每个可变长度块的至少一个变换系数,所以主神经网络考虑了时间和/或频率依赖性。主神经网络可以具有记忆功能,使得先前的输入影响当前的处理,并且使得当前(增强的)至少一个变换系数的预测受到先前变换系数的影响。
自适应长度块表示频率与时间之间的折衷。较长的块包括更多的变换系数,并且将表示媒体信号的较长持续时间,而较短的块包括较少的变换系数,并且将表示媒体信号的较短持续时间。
根据本发明的第二方面,提供了一种用于获得至少一个训练块的方法,所述至少一个训练块用于训练计算机实施的神经网络系统以预测自适应块长度媒体信号的至少一个变换系数。所述方法包括:获得一组变换块,每个变换块包括表示媒体信号的频率内容的多个变换系数,每个块中的变换系数的数量是第一数量或第二数量,其中,所述第一数量大于所述第二数量;确定第一块包括第二数量的变换系数;将所述第一块转换成具有第一数量的变换系数的经转换块;从经转换块获得目标预测块;对所述经转换块进行量化;以及从经量化转换块获得训练块。
所获得一组的变换块可以进一步表示一系列相关联的时域窗口函数(短、长、桥接输入或桥接输出)。
根据本发明的第三方面,提供了一种用于预测表示自适应块长度媒体信号的频率内容的至少一个变换系数的计算机实施的神经网络系统。所述神经网络系统包括自适应块预处理单元,所述自适应块预处理单元被配置成:接收包括表示媒体信号的部分时间片段的一组经量化变换系数的帧;接收指示所述帧中每个块的经量化变换系数的数量的块长度信息,经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量;确定至少第一块具有第二数量的变换系数;以及将至少第一块转换成具有第一数量的经量化变换系数的经转换块。所述神经网络系统进一步包括:主神经网络,其中,所述主神经网络被训练成在给定基于调节信息的至少一个调节变量的情况下预测至少一个输出变量,所述调节信息包括经转换块的表示和第一块的块长度信息的表示;以及输出级,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。
在一些实施方式中,上述神经网络系统已经通过使用一组目标预测块和一组训练块被训练。所述一组训练块是目标预测块的受损表示,并且训练块包括具有第一数量的变换系数的至少一个训练块和具有第二数量的变换系数的至少一个训练块。所述一组训练块被提供给神经网络系统的自适应块预处理单元,并且从神经网络系统的输出级根据所述一组训练块中获得一组预测块。计算预测块相对于所述一组目标预测块的度量,并且修改神经网络系统的权重以减小所述度量。
通过响应于预测块的度量来修改神经网络系统的权重,训练将使得神经网络系统学习从至少一个经量化变换系数预测(生成)至少一个变换系数。所述训练将使得神经网络系统学习正确地识别表示(多个)短块的至少一个调节变量,并处理所述调节变量,其方式使得得到的至少一个预测的变换系数非常类似于媒体信号的至少一个变换系数。
应当理解,基于获得所述度量,可以通过修改每个神经网络的参数(例如,权重)来训练神经网络系统,优选地迭代地训练直到获得令人满意的小度量。
根据第二和第三方面的发明以与根据第一方面的发明相同或等同的实施例和益处为特征。进一步,关于方法描述的任何功能可以在用于在计算机程序产品中执行这些功能的系统或代码中具有对应的结构特征。
已经进行了用固定块长度和自适应块长度编码和解码参考媒体信号的实验。在固定块长度的情况下,在解码器中实施固定长度的神经网络系统,并且在自适应块长度的情况下,在解码器中实施根据本发明的实施方式的神经网络系统。固定块长度编码使用256MDCT系数块,并且自适应块长度编码使用自适应256/128MDCT系数块。当比较解码信号时,在解码器中使用本发明的神经网络系统的自适应块长度切换示出与固定块长度对应部分相比减少了前回声失真。
附图说明
将参考附图更详细地描述本发明,所述附图示出了本发明的当前优选实施例。
图1示出了根据本发明的实施例的实施神经网络系统的自适应块长度编码器和解码器。
图2示出了根据本发明的实施例的神经网络系统。
图3a至图3b示出了时间窗口函数的合并过程。
图4示出了图示根据本发明的实施例的用于从经量化变换系数中预测至少一个变换系数的方法的流程图。
图5示出了图示根据本发明的实施例的用于获得用于训练神经网络系统的训练块的方法的流程图。
图6示出了图示根据本发明的实施例的用于获得用于训练神经网络系统的训练块的方法的流程图。
具体实施方式
图1描绘了包括编码器1和解码器2的自适应块长度编码器/解码器系统。在瞬态检测器101的输入端口处接收媒体信号。媒体信号可以被分成一系列时域帧,并且可以被进一步分成多个时域片段,其中,每个片段包括多个媒体信号样本。例如,时域帧包括16000个信号样本,并且被分成具有4000个样本的四个片段。时域帧和片段中信号样本的数量(由此还有时域帧中片段的数量)仅仅是示例性的,并且可以是任何数量。瞬态检测器101被配置成通过选择变换长度来为每个片段优化频率与时间分辨率之间的折衷。一般来说,瞬态检测器101为包含具有缓慢演变或稳定时间特性的信号的片段选择长变换长度,并且为包含具有快速演变时间特性的信号的片段选择较短的变换长度。通过优化短信号类和长信号类的“感知编码增益”,这种方法提供了优于以时不变的变换长度进行编码的根本优势。
取决于媒体信号片段的时间特性,瞬态检测器101可以选择请求所述片段应该由具有第一数量的变换系数的变换域块(对于缓慢演变的时间信号片段)或者各自包括第二数量的变换系数的多个变换域块(对于快速演变的时间信号片段)来表示,其中,第一数量大于第二数量。例如,瞬态检测器101可以请求用256个变换系数Xk来表示缓慢演变的片段,而用两组(变换域块)128个变换系数Xk或四组64个变换系数Xk来表示快速演变的片段。所选变换系数的数量不限于所包括的示例,并且可以选择任何数量。瞬态检测器101可以请求一组块长度中的多个变换系数,其中,所述一组块长度包括至少两个长度,如256/128。在一些实施方式中,所述一组块长度包括如256/128/64等至少三个或更多个长度,瞬态检测器101可以从中为块选择合适的长度。例如,瞬态检测器101可以请求由不同长度的短块的组合来表示片段。例如,一个缓慢演变的片段由256个变换系数Xk表示,而下一个快速演变的片段由一个具有128个变换系数Xk的块和两个具有64个变换系数Xk的块表示。瞬态检测器101生成块长度信息,所述块长度信息表示请求的变换域块的数量(和/或每个块的变换系数Xk的数量),时域片段应当用所述数量的变换域块来表示。块长度信息被传输到解码器2。瞬态检测器101将块长度信息传递到变换单元102。
变换单元102根据块长度信息对片段进行变换,并将包括变换系数Xk的自适应长度变换块输出到量化器103。对于上文提到的示例,已经被分成四个4000样本片段的16000样本时间帧被变换成一系列分别具有256、256、128、128和256个变换系数Xk的变换块。这些变换块然后可以在编码器1和/或解码器2中形成变换域帧(帧)。换句话说,帧可以被称为一组一个或多个变换块和/或一个或多个片段。在编码器1的部分中和在解码器2中,变换块所属的帧可能没有被明确地指示或考虑,因为无需考虑其相应的时域帧或变换域帧就足以连续地处理变换块。
接收到的媒体信号进一步由计算掩蔽阈值的感知模型111接收。掩蔽阈值被传递到比特分配单元112。
在比特分配单元112中,基于从感知模型111接收的接收到的感知掩蔽阈值信息,为即将量化的变换系数指派比特分配。比特分配单元112可以分配比特以减少或最小化量化噪声。比特分配单元112将比特分配信息传递到量化器103。
量化器103通过根据接收到的比特分配信息向每个变换系数分配比特来量化自适应块长度块中的每个块的变换系数Xk以形成经量化变换系数
Figure BDA0004179230040000061
块。量化器103将包括经量化变换系数/>
Figure BDA0004179230040000062
的自适应块长度块传输到解码器2。
在解码器2中,神经网络(NN)系统201从编码器1的量化器103接收帧,其中,所述帧的每个块包括至少一个经量化变换系数
Figure BDA0004179230040000063
并且从编码器的瞬态检测器101接收块长度信息。神经网络系统201包括主神经网络和输出级(例如,输出神经网络),所述输出级被训练成从经量化变换系数/>
Figure BDA0004179230040000064
中预测至少一个变换系数(至少一个预测的变换系数/>
Figure BDA0004179230040000065
)。神经网络系统201的转换级将具有第二数量的经量化变换系数/>
Figure BDA0004179230040000066
的块转换成包括第一数量的经量化变换系数/>
Figure BDA0004179230040000067
的经转换块。在一些实施方式中,转换级神经网络系统201仅仅传递具有第一数量的经量化变换系数/>
Figure BDA0004179230040000068
的块。因此,神经网络系统201的输出级可以输出静态长度块序列(例如,每个静态长度块包括第一数量的预测的变换系数/>
Figure BDA0004179230040000069
),其中,一些块表示相同长度的经量化块,并且其中,一些块表示至少一个(并且在一些实施方式中多于一个)不同(更短)长度的短块。
在逆变换单元202处接收至少一个预测的变换系数
Figure BDA00041792300400000610
所述逆变换单元被配置成将每个变换域块的至少一个预测的变换系数/>
Figure BDA00041792300400000611
变换成时域片段(即,预测的时域片段)。在一些实施方式中,逆变换单元202可以从编码器1的瞬态检测器101接收块长度信息。
如上所述,作为块到达逆变换单元202的至少一个预测的变换系数
Figure BDA00041792300400000612
可以具有静态预定长度,尽管一些块表示一个或多个原始(转换前)较短长度的经量化块。当逆变换单元202以块长度信息的形式接收该原始变换域块长度的信息时,逆变换单元202可以采取必要的预逆变换处理步骤。例如,响应于预测的长块与在转换单元中被上采样以形成经转换块的原始短块相关联,逆变换单元202可以在将短块逆变换到时域之前将预测的长块下采样为预测的短块。在另一个示例中,至少两个具有经量化变换系数/>
Figure BDA00041792300400000613
的短块在转换单元中被转换成单个经转换块,并且被神经网络系统预测为具有至少一个预测的变换系数/>
Figure BDA0004179230040000071
的单个长块。在这种情况下,逆变换单元202可以根据块长度信息确定预测的长块实际上是基于至少两个短块(已经被组合)的预测,并且作为响应,执行如分割或执行逆转换过程等预逆变换处理步骤,即,在神经网络系统201中执行的转换的逆,以获得与编码器1中的瞬态检测器101所确定的相同长度的预测块。预逆变换处理步骤可以由用于自适应块长度媒体信号的某种预先存在的编码方案的逆变换单元之前的独立单元(未示出)来执行。例如,神经网络系统(与预逆变换处理一起)可以与任何现有编解码器一起实施,例如以细化AC-4变换系数,或者将其与设计用于用神经网络系统201解码的新编解码器一起使用。
在又另外的实施方式中,逆变换单元202将每个预测块(具有静态长度)变换到时域,如如果所述一组预测块来自静态长度媒体信号。在这样的实施方式中,逆变换单元不需要考虑块长度信息,并且神经网络系统将自适应块切换媒体信号有效地转换成静态块长度媒体信号。神经网络系统201接收不同长度的块,并且被训练成输出固定长度的块。逆变换单元202将静态长度块变换为时域媒体信号。
逆变换单元202输出适合于由回放设备(未示出)回放的时域媒体信号(或时域媒体信号块序列)。神经网络系统201被配置成接收块中的至少一个经量化变换系数,并预测至少一个变换系数。
参考图2,更详细地描绘了图1中计算机实施的神经网络系统201的实施例。神经网络系统201被配置成接收一组自适应长度块20,每个自适应长度块包括表示媒体信号的部分时间片段的频率内容的一组经量化变换系数
Figure BDA0004179230040000072
和指示帧20中每个块的经量化变换系数的数量的块长度信息21,经量化变换系数的数量是第一数量或第二数量之一。计算机实施的神经网络系统201进一步包括转换级11,所述转换级被配置成确定至少第一块具有第二数量的经量化变换系数,并且将至少第一块转换成具有第一数量的经量化变换系数的经转换块。从帧20到转换级11,其中,帧20具有至少一个具有第二数量的经量化变换系数的块,转换级生成输出帧20’,其中,输出帧中的输出块都具有第一数量的经量化变换系数。
神经网络系统201进一步接收指示帧20中每个块的经量化变换系数的数量的块长度信息21。块长度信息21由此指示包括第一数量或第二数量的变换系数的块序列。块长度信息21可以是整数或符号的序列,每个整数或符号表示块,并且每个整数的值(或符号的类型)表示该块的经量化变换系数
Figure BDA0004179230040000073
的数量。
块长度信息21可以包括多于两个替代性块长度。在一些实施方式中,在具有第二数量的变换系数Xk的块之前的具有第一数量的变换系数Xk的块可以被标记为桥接输入块,并且在具有第二数量的变换系数Xk的块之后的具有第一数量的变换系数Xk的块可以被标记为桥接输出块。因此,块长度信息21可以是四个(或更多个)不同整数的序列,一个整数用于长块(第一数量的变换系数Xk)、短块(具有第二数量的变换系数Xk)、桥接输入块和桥接输出块中的每一个。
神经网络系统201基于调节信息形成至少一个调节变量15,其中,调节信息包括至少两个分量,(i)表示经转换块(或表示包括第一数量的经量化变换系数的块)的信息,以及(ii)表示块长度信息21的信息。在简单的情况下,表示经转换块的信息是经量化变换系数
Figure BDA0004179230040000081
本身,并且块长度信息表示是整数。至少一个调节变量15和主神经网络16可以以每条调节信息的单独维度或每条调节信息被投射到其上的单一维度为特征。
至少一个调节变量15用于调节主神经网络16。主神经网络16被训练成在给定至少一个调节变量15的情况下预测至少一个输出变量,并且所述至少一个输出变量被提供给输出神经网络17,所述输出神经网络被训练成在给定来自主神经网络16的至少一个输出变量的情况下对至少一个变换系数进行最终预测(即,输出至少一个预测的变换系数
Figure BDA0004179230040000082
)。输出神经网络17可以包括一个或多个隐藏层。
主神经网络16可以是任何类型的神经网络,例如,深度神经网络、递归神经网络或任何神经网络系统。主神经网络16可以是回归模型。媒体信号可以是包括音频或视频信号的任何类型的媒体信号。在媒体信号是音频信号的情况下,主神经网络16在优选实施例中充当变换域中的通用音频生成模型。主神经网络16被配置成在变换域中操作,并且被训练成在给定至少一个调节变量的情况下预测至少一个输出变量。所述至少一个输出变量可以被认为是隐藏状态,并且被提供给输出神经网络17,其中,输出神经网络17被配置(例如,被训练)成在给定所述至少一个输出变量的情况下输出至少一个预测的变换系数。输出神经网络17可以与主神经网络16一起实施为单个单元,例如,作为主神经网络16的输出级或者作为单独的神经网络。无论如何,输出神经网络17和主神经网络16交换隐藏状态信息。
因此,主神经网络16和输出神经网络17通过捕获经量化变换系数的表示的时间和/或频率相关性,从至少一个经量化变换系数
Figure BDA0004179230040000083
中预测至少一个变换系数/>
Figure BDA0004179230040000084
也就是说,主神经网络16和输出神经网络17可以被训练成使得已经由主神经网络16处理的变换系数的先前表示可以影响当前至少一个变换系数的预测。另外地或可替代地,主神经网络16和输出神经网络17被训练成使得考虑当前块与过去块中的变换系数之间的相互依赖性。因为变换系数表示频率内容,所以主神经网络16和输出神经网络17可以被训练成通过学习第一频带的频率内容(在变换系数中表示)如何影响第二频带的频率内容来预测至少一个变换系数。
在一些实施方式中,神经网络系统201进一步包括如调节神经网络12等附加神经网络,所述调节神经网络被连接以接收来自转换单元11的输出并接收来自块长度信息神经网络14的块长度信息。调节神经网络12和块长度信息神经网络14用于预测相应的调节信息,并且可以是任何类型的神经网络,例如卷积层,并且使用一种类型不需要另一种类型。
调节神经网络12和/或块长度信息神经网络14可以被训练成预测相应的至少一个输出变量,其中,所述至少一个调节变量15然后作为相应的至少一个预测的输出变量的总和而获得。进一步,被传递到主神经网络16的至少一个调节变量15(例如,来自调节神经网络12和块长度神经网络14的相应至少一个输出变量的总和)可以被视为隐藏神经网络层。除了为隐藏层建立与主神经网络16的输入维度相匹配的内部维度(作为超参数)之外,神经网络系统201可以在对隐藏层的可解释性没有任何约束的情况下被操作(和训练)。例如,表示经量化变换系数的调节信息和块长度信息的表示可以各自是至少一个输出变量,所述输出变量呈具有与内部维度相匹配的维度的矩阵的形状。然后,至少一个调节变量15可以是至少一个矩阵输出变量的总和。在另外的示例中,矩阵是二维的,并且包括单行或单列(即,向量)。
调节神经网络12被训练成在给定块的经量化变换系数
Figure BDA0004179230040000091
的情况下从输出帧20’预测块的表示。通过预测经转换块的经量化变换系数的表示,利用被训练成预测所述表示的调节神经网络12,可以实现进一步促进主神经网络16进行预测的表示。与为经量化变换系数/>
Figure BDA0004179230040000092
分配将它们转换成表示经量化变换系数/>
Figure BDA0004179230040000093
的信息的静态转换函数相反,调节神经网络15可以被训练成预测促进主神经网络16和输出神经网络17进行最终预测的表示。
以类似的方式,块长度信息神经网络14被训练成在给定块长度信息21的情况下预测块长度信息的表示。通过实施被训练成在给定至少第一块的块长度信息21的情况下预测块长度信息的表示的块长度神经网络14,用于调节主神经网络16的调节信息将以促进主神经网络16和输出神经网络17预测至少一个变换系数
Figure BDA0004179230040000094
的格式携带指示第一块中的经量化变换系数/>
Figure BDA0004179230040000095
的数量的信息。在一个示例中,块长度神经网络14输出块长度信息的表示,所述块长度信息指示具有第一数量的变换系数Xk的块。因此,当所表示的经量化变换系数/>
Figure BDA0004179230040000101
来自经转换块或来自具有第一数量的变换系数/>
Figure BDA0004179230040000102
的经量化块时,主神经网络16被有区别地调节,并且将有区别地响应。由于主神经网络16和输出神经网络17已经被训练成与转换单元11一起从表示经量化变换系数/>
Figure BDA0004179230040000103
的信息中预测至少一个变换系数,所以可以完成对至少一个变换系数的预测,而不管经转换块从至少第一块构造的方式。
与用例如整数序列中的整数来调节块长度神经网络相反,神经网络系统201的一些实施方式包括独热编码器13,所述独热编码器将块长度信息21转换成独热向量,所述独热向量进而用于调节块长度神经网络14。块长度信息是分类的,并且为每个块指示单独的状态(例如,长、短、桥接输入或桥接输出)。利用独热编码,这些类别被分成单独的向量元素,所述向量元素通过清楚地区分不同的可能状态来促进块长度神经网络14的训练和预测。例如,独热编码促进预测的至少一个输出变量与接收所述独热(开启状态)向量元素的块长度神经网络的输入层的输入元素之间的强空间依赖性。
在一些实施方式中,神经网络系统201进一步接收每个块的感知模型系数pEnvQ和/或频谱包络。因此,调节信息可以进一步包括作为感知模型系数pEnvQ信息和/或频谱包络信息的表示的附加信息。感知模型系数pEnvQ和/或频谱包络可以与块长度信息和经量化变换系数并行处理,并且与至少一个调节变量15中的其他信息组合,或者作为单独维度中的辅助信息提供给主神经网络16。
所述一组感知模型系数pEnvQ可以从如在编码器中出现的感知模型等感知模型中得到。感知模型系数pEnvQ是针对每个频带计算的,并且优选地被映射到与块的频率系数相同的分辨率上以便于处理。
在单个短块已经被转换成经转换块的实施方式中,pEnvQ系数通过类似的转换过程被转换成等效的长块表示,并且被用作调节信息。例如,如果对一个短块进行上采样,则以相同的方式对pEnvQ系数进行上采样。
注意,对于在以多于一个神经网络为特征的实施方式中被“训练”的神经网络系统201,系统中的所有神经网络在训练的至少一部分期间被一起训练。例如,块长度神经网络14可以与主神经网络16一起被训练,其中,每个神经网络14、16的内部参数(例如,权重)被修改以与如原始的非量化变换系数Xk等一些目标预测的至少一个变换系数相比,优化预测的至少一个变换系数
Figure BDA0004179230040000104
的某个度量。然后,块长度神经网络14被训练成输出至少一个调节变量15,所述至少一个调节变量使主神经网络16和输出神经网络17的预测的至少一个变换系数尽可能接近地类似于原始变换系数。主神经网络16和输出神经网络17被同时训练成预测尽可能接近地类似于原始变换系数Xk的至少一个变换系数/>
Figure BDA0004179230040000111
在转换单元11中对具有第二数量的变换系数的块进行转换可以涉及将具有第一数量的经量化变换系数
Figure BDA0004179230040000112
的块上采样为经转换块。上采样可以包括第二数量的经量化变换系数到第一数量的经量化变换系数的线性或多项式内插(以及可选地外推)。可替代地,上采样以形成经转换块可以包括以下各项之一:将每个经量化变换系数重复预定次数,在非零元素之间添加零元素,或者交织经量化变换系数/>
Figure BDA0004179230040000113
可替代地,任何其他合适的上采样、扩展或内插技术都是适用的。在一些实施方式中,转换单元11仅将块的经量化变换系数/>
Figure BDA0004179230040000114
转发给主神经网络16,所述主神经网络被训练成预测输出神经网络17的至少一个输出参数。在这种情况下,主神经网络16将学习识别具有第二数量的经量化变换系数/>
Figure BDA0004179230040000115
的块,并且通过训练转换器的功能来吸收。
作为在转换单元11中将包括第二数量的经量化变换系数
Figure BDA0004179230040000116
的第一块转换成至少两个块(第一块和第二块,每个块包括第二数量的经量化变换系数/>
Figure BDA0004179230040000117
)的替代方案,可以将第一块和第二块共同转换成包括第一数量的经量化变换系数/>
Figure BDA0004179230040000118
的经转换块。因此,主神经网络16和输出神经网络17可以被训练成在给定包括第一数量的经量化变换系数/>
Figure BDA00041792300400001118
的经转换块的表示的情况下预测至少一个变换系数/>
Figure BDA0004179230040000119
其中,经转换块的经量化变换系数/>
Figure BDA00041792300400001110
源自至少第一块和第二块的经量化变换系数/>
Figure BDA00041792300400001111
通常,具有第二数量的经量化变换系数
Figure BDA00041792300400001112
的至少第一块和第二块可以是具有第二数量的经量化变换系数/>
Figure BDA00041792300400001113
的N个连续块,其中,第一数量是第二数量的N倍。然后,N个连续块可以被转换成具有第一数量的经量化变换系数/>
Figure BDA00041792300400001114
的经转换块。自适应块切换媒体信号可以例如包括等于256的第一数量的经量化变换系数/>
Figure BDA00041792300400001115
和等于128的第二数量,即N=2。等于256且N=4的第一数量将导致四个短块被转换成一个经转换块,每个短块包括64个经量化变换系数/>
Figure BDA00041792300400001116
在又另外的示例中,N=8,当变换系数的第一数量是1024时,经量化变换系数/>
Figure BDA00041792300400001117
的第二数量是128。
将至少第一块和第二块转换成经转换块可以包括将至少第一块和第二块连结成经转换块。连结是将至少第一块和第二块转换成经转换块的有效且容易实施的方法。
在一些实施方式中,转换单元11为每个块接收相应时域窗口函数的表示,其中,第一块和第二块的窗口函数部分地重叠。
窗口函数可以与经量化变换系数
Figure BDA0004179230040000121
或块长度信息21(被传递到转换单元11上)一起被接收。可替代地,窗口函数可以根据块长度信息21(被传递到转换单元11)构造。或者,可以通过利用块中的经量化变换系数/>
Figure BDA0004179230040000122
的数量与每个块中至少具有第一数量和第二数量的经量化变换系数的块序列之间的相关性来确定转换单元11中的块的经量化变换系数的数量来构造窗口函数。例如,具有第一数量的经量化变换系数/>
Figure BDA0004179230040000123
的块与长窗口函数相关联,并且具有第二数量的变换经量化系数/>
Figure BDA0004179230040000124
的块与短窗口函数相关联。在另外的示例中,如果具有第一数量的经量化变换系数/>
Figure BDA0004179230040000125
的块在具有第二数量的经量化变换系数/>
Figure BDA0004179230040000126
的块之前,则该块可以与桥接输入窗口函数相关联。
在图2中,被描述为操作(可选的)调节神经网络12和(可选的)块长度信息神经网络14的上游的所有功能和单元可以被称为预处理单元或自适应块预处理单元。预处理单元因此可以是多输入多/单输出单元,例如接收块长度信息12和经量化变换系数
Figure BDA0004179230040000127
并且输出表示经量化变换系数/>
Figure BDA0004179230040000128
的信息,并且将块长度信息12表示为单独的信息(至少一个变量)或者组合的信息(至少一个变量)。
进一步参考图6,描绘了图示用于训练神经网络系统的方法的流程图,例如图2中描绘的实施例。在S311处,提供一组自适应长度目标预测(真实)块。这伴随着在S321处提供作为目标预测块的受损表示(例如,经量化表示)的一组训练块而发生。目标预测块包括一组非量化的变换系数Xk。向神经网络系统201提供训练块并且进行处理,使得在S331处获得一组预测块。通过将包括至少一个预测的变换系数
Figure BDA0004179230040000129
的输出预测块与目标预测块进行比较,在S332处获得例如相似性的度量。所述度量可以是误差度量,其中,低误差度量指示高水平的相似性。所述度量可以是如负对数似然(NLL)等负似然,其中,低度量指示高水平的相似性。所述度量可以是平均绝对误差(MAE)或均方误差(MSE),其中,高水平的相似性将由低MAE或MSE来指示。在S333处,所述度量用于修改神经网络系统201的权重以减少或最小化所述度量。
在一个示例中,所述度量被称为损失函数或“损失”,因为被直接计算NLL,即
Figure BDA00041792300400001210
在计算NLL损失时,预测的至少一个变换系数
Figure BDA00041792300400001211
由至少一个预测的变换系数/>
Figure BDA00041792300400001212
的至少一个分布参数来表示。因此,NLL函数被应用于表示预测的至少一个变换系数/>
Figure BDA00041792300400001213
的至少一个分布参数。至少一个分布参数对至少一个预测的变换系数/>
Figure BDA00041792300400001214
的概率分布进行参数化。
在其他实施方式中,根据以下将损失计算为MSE:
Figure BDA0004179230040000131
或者可以根据以下将损失计算为MAE:
Figure BDA0004179230040000132
在计算MSE和MAE损失时,至少一个预测的变换系数
Figure BDA0004179230040000133
如此被使用。
在一些情况下,预测块可以用单个预测的经转换块来表示多于一个训练块(以及相关联的目标预测块),在这种情况下,预测块可以被逆转换成分别与训练块(以及相关联的目标预测块)相对应的块,使得度量可以被计算。
参考图3a,图示了一系列时域窗口函数31、32a、32b、33。图3a图示了典型的2:1块长度切换的窗口序列。第一长窗口31之后是两个短窗口32a、32b,接着是第二长窗口33。短时域窗口函数32a、32b可以重叠50%,其中,将平方的短窗口函数相加导致重叠部分的值为一。另外地,每个窗口函数31、32a、32b、33的平方和将导致每个重叠的值为一。
在一些实施方式中,长窗口31、33可以进一步分别是桥接输入窗口31和桥接输出窗口33,尤其适于分别在短窗口32a、32b之前和之后。窗口函数31、32a、32b、33在时间上至少部分地重叠。每个窗口函数31、32a、32b、33与一组变换系数块相关联,即具有长窗口函数31、33的长变换系数块和具有短窗口函数32a、32b的短变换系数块。
在一些附加实施方式中,其中,每个块中的变换系数的数量是多于两个替代方案中的一个(例如,如上所述的256、128和64个系数中的一个),桥接输入窗口31和桥接输出窗口33函数可以包括多于两个桥接窗口函数,例如,一个用于可变长度块之间的每种类型的转变。如果块的长度为256、128和64中的一个,则可以为以下各项中的每一项定义输入和输出桥接窗口函数:256至128、256至64和128至64。
进一步参考图3b,图示了长转换窗口32(具有相关联的长转换块),所述长转换窗口是两个短窗口函数32a、32b(和两个短变换系数块)的转换结果。
通过将第一和第二(短)块的经量化变换系数(这些变换系数相应的窗口函数在图3a中被示为32a和32b)逆变换回窗口化时域表示,这些变换系数可以被合并成长转换块。这可以通过重叠相加第一块和第二块的窗口化时域表示并且将第一块和第二块的重叠相加的时域表示变换成具有第一数量的经量化变换系数的经转换块来实现。
例如,如果变换系数是修改的离散余弦变换(MDCT)系数,则可以通过将MDCT变换为短时域片段并重叠添加短时域片段来将中间的短块(与窗口函数32a、32b相关联)合并成单个长块。然后,可以使用DCT类型4来计算具有平顶窗口的等效转换长块32的变换系数。该合并/转换操作之后的窗口序列在图3b中示出。进一步注意的是,可以在保持变换系数的完美重构特性的同时完成这一转换过程(在不存在量化的情况下)。
参考图4,描绘了图示根据本发明的实施例的用于从经量化变换系数中预测至少一个变换系数的方法的流程图。在S111处,神经网络系统接收包括经量化变换系数的帧。神经网络系统在S112处确定帧的至少一个块包括第二数量的变换系数,并且在S113通过将至少具有第二数量的变换系数的块转换成具有第一数量的变换系数的经转换块来继续。表示经转换块的经量化变换系数的信息是一条信息,用于在S131处调节主神经网络的至少一个调节变量基于这条信息。可选地,所述方法涉及在S114处用表示经转换块的经量化变换系数的信息对调节神经网络进行调节,并且在S131处使用调节神经网络的至少一个输出变量调节主神经网络。
进一步,所述方法涉及在S121处接收块长度信息。块长度信息的表示被用作用于在S131处调节主神经网络的一条信息。可选地,块长度信息用于在S123处首先调节块长度神经网络,其中,块长度神经网络的预测的至少一个输出变量用于在S131处调节主神经网络。而且,一些实施例包括在S122处对块长度信息进行独热编码,其中,经独热编码的块长度信息用于在S123处调节块长度神经网络,或者作为用于在S131处调节主神经网络的信息的一部分的信息。
在S131处,主神经网络在给定至少一个调节变量的情况下预测至少一个输出变量,并且其中,在S132处将至少一个输出变量提供给输出级(例如,输出神经网络)。输出级在S132处预测至少一个变换系数。
图5描绘了图示根据本发明的实施例的用于获得训练块(用于输入的训练块和用于与输出进行比较的目标预测块)的方法的流程图,所述训练块用于训练用于预测自适应块长度媒体信号的变换系数的神经网络系统。在S211处,获得一组变换块。例如,一批波形或媒体信号已经被分成一组时域片段(例如,形成时域帧),并且每个时域片段已经被变换成一组不同长度的变换块(例如,变换域帧)。可替代地,已使用如上所述的瞬态检测器处理了一批波形或媒体信号以确定每个块的长度。在S212处确定第一块包括第二数量的变换系数,并且该块在S213处被转换成具有第一数量的变换系数的经转换块。在S221处,获得目标预测块。在S221处获得的目标预测块可以是经转换块本身。
在S231处,经转换块被量化以形成经量化块。也就是说,经量化块不表示最初存在于确定的第一块中的完整信息,因此经量化块可以被称为受损块,神经网络应该学习使用所述受损块来预测未受损块。在S232处,从在S231处获得的经量化块中获得训练块。训练块可以是这样的经量化块。在一些实施方式中,包括在训练期间使用目标训练块作为神经网络的输入以及使用目标预测块作为训练的另外的步骤。
被确定为包括第一数量的变换系数的块可以被类似地处理以获得训练块和目标预测块,其中,步骤S213被省略。
在一些实施方式中,媒体信号或一批波形由瞬态检测器处理,所述瞬态检测器如上所述确定变换长度。因此,所述一组变换块将包含所有不同类型的块和窗口函数。
***
在上文中,已经描述了训练和操作用于确定对输入音频样本的音频质量的指示的基于深度学习的系统的可能方法以及这种系统的可能实施方式。另外,本公开还涉及用于实施这些方法的装置。这种装置的示例可以包括处理器(例如,中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、一个或多个专用集成电路(ASIC)、一个或多个射频集成电路(RFIC)或这些的任何组合)和耦接到处理器的存储器。处理器可以适于执行在整个公开中描述的方法的一些或所有步骤。
装置可以是服务器计算机、客户端计算机、个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、智能手机、web设备、网络路由器、交换机或网桥、或能够(顺序或以其他方式)执行指定要由所述装置采取的动作的指令的任何机器。进一步,本公开将涉及单独或联合执行指令以执行本文讨论的任何一种或多种方法的装置的任何集合。
本公开进一步涉及一种包括指令的程序(例如,计算机程序),所述指令当由处理器执行时使所述处理器执行本文描述的方法的一些或所有步骤。
更进一步,本公开涉及存储前述程序的计算机可读(或机器可读)存储介质。这里,术语“计算机可读存储介质”包括但不限于例如固态存储器、光学介质和磁性介质形式的数据储存库。
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开的讨论中,利用如“处理”、“计算(computing)”、“计算(calculating)”“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,所述处理器接受包含一组指令的计算机可读(也称为机器可读)代码,所述一组指令在由一个或多个处理器执行时执行本文所述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统可以进一步包括存储器子系统,所述存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是分布式处理系统,其中,处理器通过网络耦接在一起。如果处理系统需要显示器,则可以包括这样的显示器,例如,液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据,则处理系统还包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元等存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。存储器子系统因此包括携带计算机可读代码(例如,软件)的计算机可读载体介质,所述计算机可读代码包括一组指令,所述一组指令在由一个或多个处理器执行时使得执行本文所述的方法中的一种或多种。应当注意的是,当所述方法包括几个元素(例如,几个步骤)时,除非特别声明,否则不暗示这些元素的任何顺序。在计算机系统执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或包括在计算机程序产品中。
在替代性示例实施例中,一个或多个处理器作为独立设备运行,或者可以在联网部署中连接到(例如,联网到)其他处理器,所述一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行,或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定该机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。
应当注意的是,术语“机器”也应该被认为包括单独或联合地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。
因此,本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式,所述指令例如为用于在一个或多个处理器(例如,作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将认识到的,本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理系统的装置、或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码,所述一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,所述载体介质携带体现在所述介质中的计算机可读程序代码。
可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质,所述一组指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,所述一组指令在被执行时实施方法;以及网络中的传输介质,所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示所述一组指令的传播信号。
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统中的适当处理器(或多个处理器)执行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。
在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此,在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以以任何合适的方式组合,这根据本公开对于本领域的普通技术人员而言将是显而易见的。
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象,仅表明提及相似对象的不同实例,并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的要素/特征,但不排除其他要素/特征。因此,当在权利要求中使用术语“包括”时,所述术语不应当被解释为限于在其之后列出的装置或要素或步骤。例如,包括A和B的设备的表达的范围不应限于仅包括元件A和B的设备。如本文所使用的,术语包括(including)或其包括(whichincludes)或包括(that includes)中的任何一个也是开放术语,其也意指至少包括所述术语之后的元件/特征,但不排除其他元件/特征。因此,包括(including)与包括(comprising)同义并且意指包括(comprising)。
应当认识到,在以上对本公开的示例实施例的描述中,有时在单个示例实施例、图或其描述中将本公开的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映权利要求需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在所附权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。
可以从以下枚举的示例实施例(EEE)的列表中理解本发明的各个方面:
EEE1.一种用于利用计算机实施的神经网络系统预测表示自适应块长度媒体信号的频率内容的至少一个变换系数的方法,所述方法包括以下步骤:
接收帧的块,所述帧的每个块包括表示所述媒体信号的部分时间片段的一组经量化变换系数,
接收指示所述帧的每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量,
确定所述帧的至少第一块具有所述第二数量的经量化变换系数,
将至少所述第一块转换成具有所述第一数量的经量化变换系数的经转换块,
调节主神经网络,所述主神经网络被训练成在给定至少一个调节变量的情况下预测至少一个输出变量,所述至少一个调节变量基于调节信息,所述调节信息包括所述经转换块的表示和所述第一块的块长度信息的表示,
向输出级提供所述至少一个输出变量,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。
EEE2.如EEE 1所述的方法,进一步包括接收所述帧的每个块的一组感知模型系数,并且其中,所述调节信息进一步包括所述一组感知模型系数。
EEE3.如EEE 1所述的方法,进一步包括接收所述帧中每个块的频谱包络,并且其中,所述调节信息进一步包括所述频谱包络。
EEE4.如EEE 1所述的方法,进一步包括:
用所述第一块的块长度信息的所述表示来调节块长度神经网络,所述块长度神经网络被训练成在给定块长度信息的情况下输出所述第一块的块长度信息的所述表示。
EEE5.如EEE 4所述的方法,其中,用所述块长度信息调节所述块长度神经网络包括将所述块长度信息编码为独热向量,并且用所述独热向量调节所述块长度神经网络。
EEE6.如EEE 1所述的方法,进一步包括以下步骤:
用所述经转换块的所述经量化变换系数对调节神经网络进行调节,其中,所述调节神经网络被训练成在给定经量化变换系数的情况下输出所述经转换块的所述表示。
EEE7.如EEE 1所述的方法,其中,将至少所述第一块转换成所述经转换块包括对所述第一块进行上采样。
EEE8.如EEE 1所述的方法,进一步包括确定至少所述第一块和随后的第二块具有所述第二数量的变换系数,并且其中,将至少所述第一块转换成所述经转换块包括将至少所述第一块和所述第二块转换成经转换块。
EEE9.根据任一前述EEE所述的方法,其中,表示频率内容的所述经量化变换系数是离散余弦变换DCT系数。
EEE10.根据任一前述EEE所述的方法,进一步包括:
由逆变换单元接收所述预测的变换系数和所述块长度信息,
将所述预测的变换系数变换成时域信号。
EEE11.根据EEE 8所述的方法,其中,所述第一数量是所述第二数量的N倍,并且确定至少所述第一块和所述随后的第二块具有所述第二数量的经量化变换系数包括
确定所述帧的N个连续块具有所述第二数量的经量化变换系数。
EEE12.根据EEE 8所述的方法,其中,将至少所述第一块和所述第二块转换成所述经转换块包括将至少所述第一块和所述第二块连结成经转换块。
EEE13.根据EEE 8所述的方法,其中,接收所述块长度信息包括:
对于所述帧的每个块,接收相应时域窗口函数的表示,其中,所述第一块和所述第二块的窗口函数部分地重叠。
EEE14.根据EEE 13所述的方法,其中,将至少所述第一块和所述第二块转换成所述经转换块包括:
将所述经量化变换系数逆变换成所述第一块和所述第二块的窗口化时域表示,
重叠相加所述第一块和所述第二块的窗口化时域表示,
将所述第一块和所述第二块的重叠相加的时域表示变换成具有所述第一数量的经量化变换系数的经转换块。
EEE15.一种用于获得至少一个训练块的方法,所述至少一个训练块用于训练计算机实施的神经网络系统以预测自适应块长度媒体信号的至少一个变换系数,所述方法包括:
获得一组变换块,每个变换块包括表示媒体信号的频率内容的多个变换系数,每个块中的变换系数的数量是第一数量或第二数量,其中,所述第一数量大于所述第二数量,
确定第一块包括所述第二数量的变换系数,
将所述第一块转换成具有所述第一数量的变换系数的经转换块,
从所述经转换块获得目标预测块,
对所述经转换块进行量化,以及
从所述经量化转换块中获得训练块。
EEE16.一种用于预测表示自适应块长度媒体信号的频率内容的变换系数的计算机实施的神经网络系统,所述神经网络系统包括:
自适应块预处理单元,所述自适应块预处理单元被配置成:
-接收帧,所述帧包括表示媒体信号的部分时间片段的一组经量化变换系数,
-接收指示所述帧中每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量,
-确定至少第一块具有所述第二数量的变换系数,以及
-将至少所述第一块转换成具有所述第一数量的经量化变换系数的经转换块,
主神经网络,其中,所述主神经网络被训练成在给定基于调节信息的至少一个调节变量的情况下预测至少一个输出变量,所述调节信息包括所述经转换块的表示和所述第一块的块长度信息的表示,以及
输出级,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。
EEE17.一种神经网络解码器,所述神经网络解码器包括根据EEE 16所述的计算机实施的神经网络系统。
EEE18.根据EEE 17所述的神经网络解码器,进一步包括逆变换单元,
所述逆变换单元被配置成:
-接收所述至少一个预测的变换系数和块长度信息,以及
-将所述至少一个预测的变换系数变换为时域信号。
EEE19.根据EEE 16所述的神经网络系统,其中,所述神经网络系统已经通过以下操作被训练:
提供一组目标预测块,
向所述自适应块预处理单元提供一组训练块,所述一组训练块包括具有所述第一数量的变换系数的至少一个训练块和具有所述第二数量的变换系数的至少一个训练块,所述一组训练块是所述一组目标预测块的受损表示,
从所述输出级根据所述一组训练块获得一组预测块,
计算所述一组预测块相对于所述一组目标预测块的度量,
修改所述神经网络系统的权重以减小所述度量。
EEE20.根据EEE 19所述的神经网络系统,其中,所述度量是负似然、均方误差或绝对误差之一。

Claims (21)

1.一种用于利用计算机实施的神经网络系统(201)预测表示自适应块长度媒体信号的频率内容的至少一个变换系数的方法,所述方法包括以下步骤:
接收(S111)包括一个或多个块的帧,所述帧的每个块包括表示所述媒体信号的部分时间片段的一组经量化变换系数,
接收(S121)指示所述帧的每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量,
确定(S112)所述帧的至少第一块具有所述第二数量的经量化变换系数,
将至少所述第一块转换(S113)成具有所述第一数量的经量化变换系数的经转换块,
调节(S131)主神经网络(16),所述主神经网络被训练成在给定至少一个调节变量的情况下预测至少一个输出变量,所述至少一个调节变量基于调节信息,所述调节信息包括所述经转换块的表示和所述第一块的块长度信息的表示,
向输出级(16)提供(S132)所述至少一个输出变量,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。
2.根据权利要求1所述的方法,进一步包括接收所述帧的每个块的一组感知模型系数,并且其中,所述调节信息进一步包括所述一组感知模型系数。
3.根据前述权利要求中任一项所述的方法,进一步包括接收所述帧中每个块的频谱包络,并且其中,所述调节信息进一步包括所述频谱包络。
4.根据前述权利要求中任一项所述的方法,进一步包括:
用所述第一块的块长度信息的所述表示来调节(S123)块长度神经网络(14),所述块长度神经网络被训练成在给定块长度信息的情况下输出所述第一块的块长度信息的所述表示。
5.根据权利要求4所述的方法,其中,用所述块长度信息调节所述块长度神经网络(14)包括将所述块长度信息编码(S122)为独热向量并且用所述独热向量调节所述块长度神经网络(14)。
6.根据前述权利要求中任一项所述的方法,进一步包括以下步骤:
用所述经转换块的所述经量化变换系数对调节神经网络(12)进行调节(S114),其中,所述调节神经网络(12)被训练成在给定经量化变换系数的情况下输出所述经转换块的所述表示。
7.根据前述权利要求中任一项所述的方法,其中,将至少所述第一块转换(S113)成所述经转换块包括对所述第一块进行上采样。
8.根据前述权利要求中任一项所述的方法,其中,表示频率内容的所述经量化变换系数是离散余弦变换DCT系数。
9.根据前述权利要求中任一项所述的方法,进一步包括:
由逆变换单元接收所述预测的变换系数和所述块长度信息,
将所述预测的变换系数变换成时域信号。
10.根据前述权利要求中任一项所述的方法,进一步包括:确定至少所述第一块和随后的第二块具有所述第二数量的变换系数,并且其中,将至少所述第一块转换(S113)成所述经转换块包括将至少所述第一块和所述第二块转换成经转换块。
11.根据权利要求10所述的方法,其中,所述第一数量是所述第二数量的N倍,并且确定(S112)至少所述第一块和所述随后的第二块具有所述第二数量的经量化变换系数包括:
确定所述帧的N个连续块具有所述第二数量的经量化变换系数。
12.根据权利要求10或11所述的方法,其中,将至少所述第一块和所述第二块转换成所述经转换块包括将至少所述第一块和所述第二块连结成经转换块。
13.根据权利要求10至12中任一项所述的方法,其中,接收所述块长度信息包括:
对于所述帧的每个块,接收相应时域窗口函数(31,32a,32b)的表示,其中,所述第一块和所述第二块的窗口函数部分地重叠。
14.根据权利要求13所述的方法,其中,将至少所述第一块和所述第二块转换成所述经转换块包括:
将所述经量化变换系数逆变换成所述第一块和所述第二块的窗口化时域表示,
重叠相加所述第一块和所述第二块的窗口化时域表示,
将所述第一块和所述第二块的重叠相加的时域表示变换成具有所述第一数量的经量化变换系数的经转换块。
15.一种用于获得至少一个训练块的方法,所述至少一个训练块用于训练计算机实施的神经网络系统以预测自适应块长度媒体信号的至少一个变换系数,所述方法包括:
获得一组变换块,每个变换块包括表示媒体信号的频率内容的多个变换系数,每个块中的变换系数的数量是第一数量或第二数量,其中,所述第一数量大于所述第二数量,
确定第一块包括所述第二数量的变换系数,
将所述第一块转换成具有所述第一数量的变换系数的经转换块,
从所述经转换块获得目标预测块,
对所述经转换块进行量化,以及
从所述经量化转换块中获得训练块。
16.一种用于预测表示自适应块长度媒体信号的频率内容的变换系数的计算机实施的神经网络系统(201),所述神经网络系统(201)包括:
自适应块预处理单元,所述自适应块预处理单元被配置成:
-接收包括一个或多个块的帧,所述帧的每个块包括表示媒体信号的部分时间片段的一组经量化变换系数,
-接收指示所述帧中每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量,
-确定至少第一块具有所述第二数量的变换系数,以及
-将至少所述第一块转换成具有所述第一数量的经量化变换系数的经转换块,
主神经网络(16),其中,所述主神经网络(16)被训练成在给定基于调节信息的至少一个调节变量的情况下预测至少一个输出变量,所述调节信息包括所述经转换块的表示和所述第一块的块长度信息的表示,以及
输出级(17),所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。
17.根据权利要求16所述的神经网络系统(201),其中,所述神经网络系统(201)已经通过以下操作被训练:
提供(S311)一组目标预测块,
向所述自适应块预处理单元提供(S321)一组训练块,所述一组训练块包括具有所述第一数量的变换系数的至少一个训练块和具有所述第二数量的变换系数的至少一个训练块,所述一组训练块是所述一组目标预测块的受损表示,
从所述输出级根据所述一组训练块获得(S331)一组预测块,
计算(S332)所述一组预测块相对于所述一组目标预测块的度量,
修改(S334)所述神经网络系统的权重以减小所述度量。
18.根据权利要求17所述的神经网络系统,其中,所述度量是负似然、均方误差或绝对误差之一。
19.一种神经网络解码器,所述神经网络解码器包括根据权利要求16至18中任一项所述的计算机实施的神经网络系统(201)。
20.一种神经网络解码器,所述神经网络解码器包括根据权利要求16至19中任一项所述的计算机实施的神经网络系统。
21.根据权利要求20所述的神经网络解码器,进一步包括逆变换单元,
所述逆变换单元被配置成:
-接收所述至少一个预测的变换系数和块长度信息,以及
-将所述至少一个预测的变换系数变换为时域信号。
CN202180070787.7A 2020-10-16 2021-10-15 利用深度神经网络的自适应块切换 Pending CN116368497A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063092685P 2020-10-16 2020-10-16
US63/092,685 2020-10-16
EP20206462 2020-11-09
EP20206462.2 2020-11-09
PCT/US2021/055248 WO2022082021A1 (en) 2020-10-16 2021-10-15 Adaptive block switching with deep neural networks

Publications (1)

Publication Number Publication Date
CN116368497A true CN116368497A (zh) 2023-06-30

Family

ID=78333316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180070787.7A Pending CN116368497A (zh) 2020-10-16 2021-10-15 利用深度神经网络的自适应块切换

Country Status (5)

Country Link
US (1) US20230386486A1 (zh)
EP (1) EP4229633A1 (zh)
JP (1) JP7487414B2 (zh)
CN (1) CN116368497A (zh)
WO (1) WO2022082021A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US10629213B2 (en) * 2017-10-25 2020-04-21 The Nielsen Company (Us), Llc Methods and apparatus to perform windowed sliding transforms
US20200111501A1 (en) * 2018-10-05 2020-04-09 Electronics And Telecommunications Research Institute Audio signal encoding method and device, and audio signal decoding method and device
WO2020207593A1 (en) 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program

Also Published As

Publication number Publication date
EP4229633A1 (en) 2023-08-23
JP7487414B2 (ja) 2024-05-20
JP2023542747A (ja) 2023-10-11
WO2022082021A1 (en) 2022-04-21
US20230386486A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
US7325023B2 (en) Method of making a window type decision based on MDCT data in audio encoding
JP6633787B2 (ja) 線形予測復号装置、方法、プログラム及び記録媒体
JP2023533427A (ja) 生成ニューラル・ネットワークのパラメータを決定するための方法および装置
JP2002118517A (ja) 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
WO2023278889A1 (en) Compressing audio waveforms using neural networks and vector quantizers
CN115426075A (zh) 语义通信的编码传输方法及相关设备
US20230299788A1 (en) Systems and Methods for Improved Machine-Learned Compression
Wang et al. Context-based adaptive arithmetic coding in time and frequency domain for the lossless compression of audio coding parameters at variable rate
EP4143825A2 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
CN116368497A (zh) 利用深度神经网络的自适应块切换
EP4229632A1 (en) Signal coding using a generative model and latent domain quantization
Xu et al. Low complexity rate-adaptive deep joint source channel coding for wireless image transmission using tensor-train decomposition
US20230395086A1 (en) Method and apparatus for processing of audio using a neural network
WO2023240472A1 (en) Signal encoding using latent feature prediction
US20230394287A1 (en) General media neural network predictor and a generative model including such a predictor
CN116457797A (zh) 使用神经网络处理音频的方法和装置
Farkash et al. Transform trellis coding of images at low bit rates
WO2018052004A1 (ja) サンプル列変形装置、信号符号化装置、信号復号装置、サンプル列変形方法、信号符号化方法、信号復号方法、およびプログラム
CN114556470A (zh) 利用生成模型对音频信号进行波形编码的方法和系统
WO2023237640A1 (en) Loss conditional training and use of a neural network for processing of audio using said neural network
CN117935840A (zh) 由终端设备执行的方法和设备
CN117616498A (zh) 使用神经网络和向量量化器压缩音频波形

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination