CN111009249B - 编码器/解码器、编码/解码方法和非瞬时性存储介质 - Google Patents

编码器/解码器、编码/解码方法和非瞬时性存储介质 Download PDF

Info

Publication number
CN111009249B
CN111009249B CN202010009068.1A CN202010009068A CN111009249B CN 111009249 B CN111009249 B CN 111009249B CN 202010009068 A CN202010009068 A CN 202010009068A CN 111009249 B CN111009249 B CN 111009249B
Authority
CN
China
Prior art keywords
spectral
spectrum
decoder
information
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010009068.1A
Other languages
English (en)
Other versions
CN111009249A (zh
Inventor
纪尧姆·福克斯
马蒂亚斯·诺伊辛格
马库斯·马特拉斯
史蒂芬·道尔拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN111009249A publication Critical patent/CN111009249A/zh
Application granted granted Critical
Publication of CN111009249B publication Critical patent/CN111009249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

通过以熵编/解码同时根据关于频谱的形状的信息对先前编/解码的频谱系数与当前编/解码的频谱系数之间的相对频谱距离进行调整的方式对当前要编/解码的频谱系数进行编/解码来提高对音频信号的频谱的频谱系数进行编码的编码效率,其中,在进行熵编/解码时,以上下文自适应方式根据先前编/解码的频谱系数执行熵编/解码。关于频谱的形状的信息可以包括:音频信号的音高或周期的度量、音频信号的频谱的谐波间距离的度量和/或频谱的频谱包络的共振峰和/或谷的相对位置,并且基于该知识,为了形成当前要编/解码的频谱系数的上下文所采用的频谱邻居可以被调整为由此确定的频谱的形状,从而增强熵编码效率。

Description

编码器/解码器、编码/解码方法和非瞬时性存储介质
本申请是申请日为2014年10月17日的题为“音频信号的频谱的频谱系数的编码”的发明专利申请No.201480056910.X的分案申请。
技术领域
本申请涉及针对例如可以在各种基于变换的音频编解码器中使用的音频信号的频谱的频谱系数的编码方案。
背景技术
基于上下文的算术编码是对基于变换的编码器的频谱系数进行无噪声编码的有效方式[1]。上下文采用频谱系数与存在于其附近的已经编码的系数之间的交互信息。上下文可以在编码器和解码器侧二者处使用,并且无需发送任何额外信息。通过这种方式,基于上下文的熵编码具有提供比无记忆熵编码更高增益的潜力。然而,实际上,上下文的设计尤其由于内存要求、计算复杂度和对信道误差的鲁棒性而受到严重约束。这些约束限制了基于上下文的熵编码的效率,并且造成了较低的编码增益,特别是针对必须限制上下文以采用信号的谐波结构的音调信号。
此外,在低延迟的基于音频变换的编码中,低重叠窗用于减小算法延迟。作为直接结果,MDCT的泄露对于音调信号而言很重要,并且导致更高的量化噪声。可以如针对MPEG2/4-AAC[2]所进行的那样在频域中通过对变换和预测进行组合或者在时域中利用预测来处理音调信号[3]。
考虑编码构思将是有利的,这提高了编码效率。因此,本发明的目的是提供针对音频信号的频谱的频谱系数的编码构思,这提高了编码效率。该目的是通过未决的独立权利要求的主题来实现的。
本申请的基本发现是,可以通过以熵编/解码同时根据关于频谱的形状的信息对先前编/解码的频谱系数与当前编/解码的频谱系数之间的相对频谱距离进行调整的方式对当前要编/解码的频谱系数进行编/解码来提高对音频信号的频谱的频谱系数进行编码的编码效率,其中,在进行熵编/解码时,以上下文自适应方式根据先前编/解码的频谱系数执行熵编/解码。关于频谱的形状的信息可以包括:音频信号的音高或周期的度量、音频信号的频谱的谐波间距离的度量和/或频谱的频谱包络的共振峰和/或谷的相对位置,并且基于该知识,为了形成当前要编/解码的频谱系数的上下文所采用的频谱邻居可以被调整为由此确定的频谱的形状,从而增强熵编码效率。
附图说明
有利实现是从属权利要求的主题,并且在下文中参照附图描述了本申请的优选实施例,在附图中:
图1示出了说明频谱系数编码器及其在对音频信号的频谱的频谱系数进行编码时的操作模式的示意图;
图2示出了说明适应图1的频谱系数编码器的频谱系数解码器的示意图;
图3示出了根据实施例的图1的频谱系数编码器的可能内部结构的框图;
图4示出了根据实施例的图2的频谱系数解码器的可能内部结构的框图;
图5示意性地指示了频谱(其系数要被编码/解码)的图形以说明根据音频信号的音高或周期的度量或者谐波间距离的度量对相对频谱距离的调整;
图6示出了说明根据实施例的频谱(其频谱系数要被编码/解码)(其中,根据基于LP的感知加权合成滤波器(即,其逆)对频谱进行频谱成形)同时说明了根据实施例根据共振峰间距离度量对相对频谱距离的调整的示意图;
图7示意性地示出了根据实施例的频谱的一部分,以说明围绕当前要编码/解码的频谱系数的上下文模板以及根据关于频谱的形状的信息来对上下文模板频谱扩展的调整;
图8示出了说明根据实施例的使用标量函数从上下文模板81的参考频谱系数的一个或多个值进行映射以导出要用于对当前频谱系数进行编码/解码的概率分布估计的示意图;
图9A示意性地示出了使用隐式信令以在编码器和解码器之间对相对频谱距离的调整进行同步;
图9B示出了说明使用显式信令以在编码器和解码器之间对相对频谱距离的调整进行同步的示意图;
图10A示出了根据实施例的基于变换的音频编码器的框图;
图10B示出了适应图10A的编码器的基于变换的音频解码器的框图;
图11A示出了根据实施例的使用频域频谱成形的基于变换的音频编码器的框图;
图11B示出了适应图11A的编码器的基于变换的音频解码器的框图;
图12A示出了根据实施例的基于线性预测的变换码激励音频编码器的框图;
图12B示出了适应图12A的编码器的基于线性预测的变换码激励音频解码器;
图13示出了根据另一实施例的基于变换的音频编码器的框图;
图14示出了适应图13的实施例的基于变换的音频解码器的框图;
图15示出了说明覆盖当前要编码/解码的频谱系数的邻居的传统上下文或上下文模板;
图16示出了根据本申请的实施例的修改的上下文模板配置或映射的上下文;
图17示意性地示出了谐波频谱的图形以说明针对谐波频谱使用图16中的(a)至图16中的(c)中的任意一个的映射的上下文相对于图15的上下文模板定义的优点;
图18示出了根据实施例用于优化用于上下文映射的相对频谱距离D的算法的流程图。
具体实施方式
图1示出了根据实施例的频谱系数编码器10。编码器被配置为对音频信号的频谱的频谱系数进行编码。图1以频谱图示12的形式示出了连续频谱。更准确地,频谱系数14被示出为沿时间轴t和频率轴f在频谱时间上布置的框。虽然频谱时间分辨率可能保持恒定,但是图1示出了频谱时间分辨率可以随着时间而改变,其中在图1中在16处示出了一个这样的时刻。该频谱图示12可以是在不同时刻应用于音频信号18的频谱分解变换的结果,例如,重叠变换,如严格采样变换,例如,MDCT或某种其他实值严格采样变换。迄今为止,频谱图示12可以由频谱系数编码器10以频谱20的形式接收,频谱20由变换系数序列构成,变换系数序列中的每一个变换系数属于相同的时刻。频谱20因而表示频谱图的频谱片,并且在图1中被示出为频谱图示12的单独列。每一个频谱由变换系数序列14构成,并且已经使用例如某一窗函数24根据音频信号18的相应时间帧22导出。具体地,时间帧22顺序地布置在前述时刻,并且与频谱20的时间序列相关联。如图1所示,它们可以彼此重叠,如同相应的变换窗24可以实现的一样。也即是说,如本文所使用的,“频谱”表示属于相同时刻的频谱系数,因此是频率分解。“频谱图”是由连续频谱构成的时频分解,其中“频谱(Spectra)”是频谱(spectrum)的复数。但是,有时“频谱”同义地用于频谱图。如果原始信号在时域并且变换是频率变换,则“变换系数”同义地用于“频谱系数”。
如刚刚所述的,频谱系数编码器10用于对音频信号18的频谱图示12的频谱系数14进行编码,并且为此,编码器可以例如应用预定的编码/解码顺序,这沿频谱时间路径遍历例如频谱系数14,这例如在频谱上在一个频谱20内从低频到高频扫描频谱系数14,然后继续处理时间连续频谱20的频谱系数,如图1在26处所示。
通过下面更详细所述的方式,编码器10被配置为通过以上下文自适应方式根据一个或多个先前编码的频谱系数(如在图1中使用小圆圈o示例性所示)进行熵编码来对当前要编码的频谱系数(如在图1中使用小十字x所示)进行编码。具体地,编码器10被配置为根据关于频谱的形状的信息来调整先前编码的频谱系数与当前编码的频谱系数之间的相对频谱距离。至于依赖性和关于频谱的形状的信息,在下文中阐述了细节以及关于由于根据刚刚提到的信息调整相对频谱距离28而产生的优点的考虑。
换言之,频谱系数编码器10将频谱系数14顺序地编码到数据流30中。如下文将更详细所述的,频谱系数编码器10可以是基于变换的编码器的一部分,其中,除了频谱系数14之外,基于变换的编码器还将其他信息编码到数据流30中使得数据流30实现对音频信号18的重构。
图2示出了适应图1的频谱系数编码器10的频谱系数解码器40。频谱系数解码器40的功能实质上是图1的频谱系数编码器10的逆:频谱系数解码器40使用例如解码顺序26对频谱12的频谱系数14进行顺序解码。在通过熵解码对当前要解码的频谱系数(在图2中使用小x示例性指示的)进行解码时,频谱系数解码器40以上下文自适应方式根据一个或多个先前解码的频谱系数(也在图2中也由小o指示)执行熵解码。通过这样做,频谱系数解码器40根据前述关于频谱12的形状的信息来调整先前解码的频谱系数与当前要解码的频谱系数之间的相对频谱距离28。按照与上述方式相同的方式,频谱系数解码器40可以是基于变换的解码器的一部分,该基于变换的解码器被配置为根据数据流30对音频信号18进行重构,频谱系数解码器40使用熵解码根据数据流30对频谱系数14进行解码。后面的基于变换的解码器可以使频谱12经历逆变换(例如,逆重叠变换)作为重构的一部分,这例如导致重叠加窗时间帧22序列的重构,其通过重叠相加处理移除了由于频谱分解变换引起的混叠。
如下文将更详细描述的,由于根据关于频谱12的形状的信息调整相对频谱距离28产生的优点依赖于提高用于对当前频谱系数x进行熵编码/解码的概率分布估计的能力。概率分布估计越好,熵编码更有效,即,更紧凑。“概率分布估计”是当前频谱系数14的实际概率分布的估计,即,向值域中的每一个值指派概率的函数,其中,当前频谱系数14可以假定该值域。由于距离28的调整对频谱12的形状的依赖性,概率分布估计可以被确定以更接近地对应于实际概率分布,这是因为采用关于频谱12的形状的信息使得能够根据当前频谱系数x的频谱邻居来导出概率分布估计,这允许更准确地估计当前频谱系数x的概率分布。下面给出了这一点的细节以及关于频谱12的形状的信息的示例。
在继续前述关于频谱12的形状的信息的具体示例之前,图3和图4分别示出了频谱系数编码器10和频谱系数解码器40的可能内部结构。具体地,如图3所示,频谱系数编码器10可以由概率分布估计导出器42和熵编码引擎44构成,其中,类似地,频谱系数解码器40可以由概率分布估计导出器52和熵解码引擎54构成。概率分布估计导出器42和52以相同的方式操作:它们基于一个或多个先前解码/编码的频谱系数o的值来导出用于对当前频谱系数x的进行熵解码/编码的概率分布估计56。具体地,熵编码/解码引擎44/54从导出器42/52接收概率分布估计,并且相应地关于当前频谱系数x执行熵编码/解码。
熵编码/解码引擎44/54可以使用例如可变长度编码(例如,霍夫曼编码)来对当前频谱系数x进行编码/解码,并且在这一方面,引擎44/54可以针对不同的概率分布估计56使用不同的VLC(可变长度编码)表格。备选地,引擎44/54可以关于当前频谱系数x使用算数编码/解码,其中概率分布估计56控制表示算数编码/解码引擎44/54的内部状态的当前概率区间的概率区间细分,每一个部分区间被指派给可以由当前频谱系数x假定的目标值范围中的不同可能值。如下文将更详细描述的,熵编码引擎44和熵解码引擎54可以使用逸出机制来将频谱系数14的总值范围映射到有限的整数值区间,即,目标范围,例如,[0…2N-1]。目标范围中的整数值集合(即,{0,…,2N-1})与逸出符号{esc}一起定义了算数编码/解码引擎44/54的符号字母表,即,{0,…,2N-1,esc}。例如,熵编码引擎44使输入频谱系数x根据需要(如果存在的话)除以2,以使频谱系数x进入前述目标区间[0…2N-1],其中,针对每次除法,将逸出符号编码到数据流30中、然后将除法余数——或者在不需要进行除法的情况下原始频谱值——算数编码到数据流30中。熵解码引擎54进而将按如下方式执行逸出机制:它将来自数据流30的当前变换系数x解码为0、1或者更多个逸出符号esc后接非逸出符号的序列,即,解码为序列{a}、{esc,a}、{esc,esc,a}……之一,其中a表示非逸出符号。熵解码引擎54将通过对非逸出符号进行算术解码来获得例如目标区间[0…2N-1]中的值a,并且将通过将当前频谱系数的值计算为等于a+2乘以逸出符号的数量来导出x的系数值。
关于使用概率分布估计56以及将概率分布估计56应用于用于表示当前频谱系数x的符号序列存在不同的可能性:概率分布估计可以例如应用于数据流30中针对频谱系数x表达的任何符号,即,非逸出符号以及任何逸出符号(如果存在的话)。备选地,概率分布估计56仅用于0个或更多个逸出符号后接非逸出符号的序列中的前一个或前两个或前n<N个,其中,例如,针对符号序列中的任意后续一个使用某一默认概率分布估计,例如,等概率分布。
图5示出了频谱图示12中的示例性频谱20。具体地,在图5中沿y轴以任意单位绘制了频谱系数的幅度,而水平x轴以任意单位对应于频率。如上所述,图5中的频谱20对应于音频信号的频谱图上的某一时刻的频谱片,其中,频谱图示12由这种频谱20序列构成。图5还示出了当前频谱系数x的频谱位置。
如下文更详细描述的,虽然频谱20可以是音频信号的未加权频谱,但是根据下面进一步所述的实施例,例如频谱20是已经使用与感知合成滤波器函数的逆相对应的传递函数感知加权的。然而,本申请不受下面进一步所述的具体情况的限制。
在任意情况下,图5示出了沿频率轴具有特定周期的频谱20,这以频谱中的局部最大值和最小值沿频率方向的差不多等距的布置体现。仅为了说明的目的,图5示出了由频谱的局部最大值之间的频谱距离定义的音频信号的音高或周期的度量60,其中,当前频谱系数x位于所述局部最大值之间。当然,度量60可以被区别地定义和确定,例如,局部最大值和/或局部最小值之间的平均音高或者等同于在时域信号18的自相关函数中测量的时间延迟最大值的频率距离。
根据实施例,度量60是关于频谱的形状的信息或者由关于频谱的形状的信息构成。编码器10和解码器40,或者更具体地,概率分布估计导出器42/52可以例如根据该度量60来调整先前的频谱系数o与当前的频谱系数x之间的相对频谱距离。例如,相对频谱距离28可以根据度量60而改变,使得距离28随着度量60的增加而增加。例如,将距离28设置为等于度量60或者是其整数倍可以是有利的。
如下文将更详细描述的,关于如何使解码器利用关于频谱12的形状的信息存在不同的可能性。通常,可以显式地向解码器发信号通知该信息(例如,度量60),其中,仅编码器10或概率分布估计导出器42实际上确定关于频谱的形状的信息,或者对关于频谱的形状的信息的确定是在编码器和解码器侧基于频谱的先前解码部分并行执行的或者可以根据已经写入比特流的另一信息导出。
通过使用不同的术语,度量60还可以被解释为“谐波间距离的度量”,这是因为频谱中的前述局部最大值或峰值(hill)可以形成彼此的谐波。
图6提供了关于频谱的形状的信息的另一示例,其中可以基于该频谱的形状的信息——排他地或者与前述另一度量(例如,度量60)一起——来调整频谱距离28。具体地,图6示出了使用感知加权合成滤波器函数的逆来对由编码器10和解码器40编码/解码的频谱系数所表示的频谱12(在图6中示出了其频谱片)进行加权的示例性情况。也即是说,在图6中在62处示出了原始的且最终重构的音频信号的频谱。在64处使用虚线示出了预加强版本。使用点划线66示出了预加强版本64的线性预测估计的频谱包络,并且在图6中在68处使用点点划线示出了其感知修改版本,即,感知激励合成滤波器函数的传递函数。频谱12可以是使用感知加权合成滤波器函数68的逆对原始音频信号频谱62的预加强版本进行滤波的结果。在任意情况下,编码器和解码器二者可以有权访问频谱包络66,频谱包络66进而可以具有或多或少显著的共振峰70或谷72。根据本申请的备选实施例,至少部分地基于频谱12的频谱包络66的这些共振峰70和/或谷72的相位位置来定义关于频谱的形状的信息。例如,共振峰70之间的频谱距离74可以用于设置前述当前频谱系数x与先前频谱系数o之间的相对频谱距离28。例如,距离28可以优选地被设置为等于距离74或距离74的整数倍,然而,其中备选方式也是可行的。
替代如图6所示的基于LP的包络,还可以区别地定义频谱包络。例如,包络可以以比例因子的方式被定义并且在数据流中传输。也可以使用发送包络的其他方式。
由于以上文关于图5和图6所述的方式对距离28进行调整,因此与例如在频谱上位于当前频谱系数x较近的其他频谱系数相比,“参考”频谱系数o的值表示用于估计当前频谱系数x的概率分布估计的实质上更好的提示。在这一方面,应当注意的是,大多数情况下的上下文建模是在一方面熵编码复杂度与另一方面编码效率之间的折中。因此,迄今所述的实施例提议根据关于频谱的形状的信息对相对频谱距离28进行调整,使得例如距离28随着度量60的增加而增加和/或随着共振峰间距离74的增加而增加。然而,先前系数o(基于所述先前系数来执行对熵编码/解码的上下文自适应)的数量可以是恒定的,即,可以不增加。先前频谱系数o(基于所述先前频谱系数来执行上下文自适应)的数量可以例如是恒定的,而不论关于频谱的形状的信息的变化如何。这意味着以上述方式对相对频谱距离28的调整在不会显著增加执行上下文建模的开销的情况下导致更好的或更有效的熵编码/解码。仅频谱距离28本身的调整增加了上下文建模的开销。
为了更详细地说明刚刚提到的问题,参照示出了频谱图示12的频谱时间部分的图7,频谱时间部分包括要编码/解码的当前频谱系数14。此外,图7示出了示例性的五个先前编码/解码的频谱系数o的模板,其中,基于所述模板来执行针对当前频谱系数x的熵编码/解码的上下文建模。模板位于当前频谱系数x的位置处并且指示相邻的参考频谱系数o。根据前述关于频谱的形状的信息,对这些参考频谱系数o的频谱位置的频谱扩展进行调整。这在图7中使用双箭头80和小的阴影线o示出,其中小的阴影线o示例性地示出了在例如根据调整80对参考频谱系数的频谱位置的频谱扩展进行缩放的情况下参考频谱系数的位置。也即是说,图7示出了贡献于上下文建模的参考频谱系数的数量,即,当前频谱系数x周围的并且标识参考频谱系数o的模板的参考频谱系数的数量,保持恒定,而不论关于频谱的形状的信息的任何变化如何。仅这些参考频谱系数与当前频谱系数之间的相对频谱距离根据80而被调整,并且参考频谱系数本身之间的距离是固有的。然而,应当注意的是,参考频谱系数o的数量不必保持恒定。根据实施例,参考频谱系数的数量可以随着相对频谱距离的增加而增加。然而,相反的情况下也是可行的。
应当注意的是,图7示出了针对当前频谱系数x的上下文建模还涉及与早前频谱/时间帧相对应的先前编码/解码频谱系数的示例性情况。然而,这也仅应当被理解为示例,并且根据另一实施例,可以不再使用对这种时间在前的先前编码/解码频谱系数的依赖性。图8示出了概率分布估计导出器42/52可以如何根据一个或多个参考频谱系数o来确定针对当前频谱系数的概率分布估计。如图8所述,为此,一个或多个参考频谱系数o可能经历标量函数82。基于标量函数,例如,一个或多个参考频谱系数o可以被映射为索引,该索引对可用的概率分布估计集合中要用于当前频谱系数x的概率分布估计编写索引。如先前所述的,可用的概率分布估计可以例如在算数编码的情况下对应于针对符号字母表的不同的概率区间细分或者在使用可变长度编码的情况下对应于不同的可变长度编码表格。
在继续描述将前述频谱系数编码器/解码器向相应的基于变换的编码器/解码器进行可能的集成之前,在下文中讨论了关于可以如何改变迄今所述的实施例的几个可能性。例如,上文关于图3和图4简要描述的逸出机制仅被选择用于说明的目的,并且可以根据备选实施例不再使用该逸出机制。在下述实施例中,使用了逸出机制。此外,如根据下述具体实施例的描述将清楚的是,不是单独地对频谱系数进行编码/解码,而是可以以n元组为单位(即,以n个频谱上紧邻的频谱系数为单位)对频谱系数进行编码/解码。在该情况下,还可以以这种n元组为单位或者以单独的频谱系数为单位来确定对相对频谱距离的确定。关于图8的标量函数82,应当注意的是,标量函数可以是算术函数或逻辑运算。此外,可以针对例如由于以下原因而不可用的那些参考标量系数o采取特殊度量:例如超出频谱的频率范围或者例如位于通过频谱系数以与在对应于当前频谱系数的时刻对频谱进行采样的频谱时间分辨率不同的频谱时间分辨率采样的频谱的一部分中。不可用的参考频谱值o的值可以由例如默认值替换,然后与其他(可用)参考频谱系数一起输入标量函数82中。关于熵编码/解码可以如何使用上文所述的频谱距离调整而工作的另一种方式如下:例如,当前频谱系数可以经历二进制化。例如,频谱系数x可以被映射为二进制序列,然后使用对相对频谱距离调整的调整来对二进制序列进行熵编码。当解码时,可以在遇到有效的二进制序列之前顺序地对二进制进行熵解码,然后,经解码的二进制可以被重新映射到当前频谱系数x的相应值。
此外,可以以与图8所述的方式不同的方式来实现根据一个或多个先前频谱系数o的上下文自适应。具体地,标量函数82可以用于对可用上下文集合中的一个上下文编写索引,并且每一个上下文可以具有与之相关联的概率分布估计。在该情况下,每当已经将当前编码/解码的频谱系数x指派给特定上下文(即,使用该当前频谱系数x的值)时,与相应的上下文相关联的概率分布估计可以被调整为实际的频谱系数统计数据。
最后,图9A和图9B示出了关于可以如何在编码器与解码器之间同步对关于频谱的形状的信息的导出的不同可能性。图9A示出了隐式信令用于在编码器与解码器之间同步对关于频谱的形状的信息的导出的可能性。这里,在编码和解码侧二者处,分别基于比特流30的先前编码部分或先前解码部分来执行对信息的导出,编码侧处的导出是使用附图标记83来指示的,并且解码侧处的导出是使用附图标记84来指示的。可以例如由导出器42和52本身来执行两个导出。
图9B示出了显式信号作用用于从编码器向解码器传达关于频谱的形状的信息的可能性。编码侧处的导出83可能甚至涉及对原始音频信号(包括其分量)的分析,由于编码损耗,其分量在解码侧处不可用。更确切地,数据流30中的显式信令用于渲染解码侧处可用的关于频谱的形状的信息。换言之,解码侧处的导出84使用数据流30中的显式信号作用来获得对关于频谱的形状的信息的访问。显式信号作用30可以涉及区别编码。如下文将更详细所述的,例如,为了其他目的而在数据流30中已经可用的LTP(长期预测)滞后参数可以用作关于频谱的形状的信息。然而,备选地,图9B的显式信号作用可以关于(即,区别地针对)已经可用的LTP滞后参数对度量60进行区别编码。存在渲染解码侧可用的关于频谱的形状的信息的很多其他可能性。
除了上述备选实施例之外,还应当注意的是,除了熵编/解码,对频谱系数的编/解码还可以涉及对当前要编/解码的频谱系数进行频谱和/或时间预测。然后,预测残差可以经历如上所述的熵编/解码。
在已经描述了针对频谱系数编码器和解码器的各种实施例之后,在下文中,描述了关于可以如何将频谱系数编码器和解码器有利地构建到基于变换的编码器/解码器中的一些实施例。
图10A例如示出了根据本发明的实施例的基于变换的音频编码器。图10A的基于变换的音频编码器通常是使用附图标记100来指示的,并且包括频谱计算器102后接图1的频谱系数编码器10。频谱计算器102接收音频信号18,并且基于音频信号18来计算频谱12,频谱12的频谱系数由如上所述的频谱系数编码器10编码到数据流30中。图10B示出了相应解码器104的构造:解码器104包括级联的频谱系数解码器40(如上所述形成的),并且在图10A和图10B的情况下,频谱计算器102可以例如仅对频谱20执行重叠变换,而频谱到时域计算器106相应地仅执行其逆变换。频谱系数编码器10可以被配置为无损地对输入频谱20进行编码。与之相比,频谱计算器102可能由于量化而引入编码损耗。
为了对量化噪声进行频谱成形,可以如图11A所示的实现频谱计算器102。这里,频谱12是使用比例因子频谱成形的。具体地,根据图11A,频谱计算器102包括级联的变换器108和频谱成形器110,其中变换器108使输入音频信号18经历频谱分解变换以获得音频信号18的未成形的频谱112,其中频谱成形器110使用从频谱计算器102的比例因子确定器116获得的比例因子114对该未成形的频谱112进行频谱成形,以获得频谱12,最后由频谱系数编码器10对频谱12进行编码。例如,频谱成形器110针对来自比例因子确定器116的每一个比例因子频带获得一个比例因子114,并且将相应比例因子频带的每一个频谱系数除以与相应比例因子频带相关联的比例因子以接收频谱12。比例因子确定器116可以由感知模型来驱动,以基于音频信号18确定比例因子。备选地,比例因子确定器116可以基于线性预测分析来确定比例因子,使得比例因子表示取决于由线性预测系数信息定义的线性预测合成滤波器的传递函数。线性预测系数信息118与频谱20的频谱系数一起由编码器10编码到数据流30中。为了完整起见,图11A将量化器120示出为位于频谱成形器110的下游以使用量化的频谱系数获得频谱12,然后量化的频谱系数由频谱系数编码器10无损编码。
图11B示出了与图10A的编码器相对应的解码器。这里,频谱到时域计算器106包括比例因子确定器122,比例因子确定器122基于包含在数据流30中的线性预测系数信息118来重构比例因子118,使得比例因子表示取决于由线性预测系数信息118定义的线性预测合成滤波器的传递函数。频谱成形器根据比例因子114对由解码器40根据数据流30解码的频谱12进行频谱成形,即,频谱成形器124使用相应比例因子频带的比例因子对每一个频带内的比例因子进行缩放。因此,在频谱成形器124的输出端处,产生音频信号18的未成形频谱112的重构,并且如在图11B中通过虚线所示,通过逆变换器126的方式对频谱112进行逆变换以在时域中重构音频信号18是可选的。
图12A示出了在使用基于线性预测的频谱成形的情况下图11A的基于变换的音频编码器的更详细的实施例。除了图11A中所示的组件之外,图12A的编码器还包括预加强滤波器128,预加强滤波器128被配置为首先使输入音频信号18经历预加强滤波。预加强滤波器128可以例如被实现为FIR滤波器。预加强滤波器128的传递函数可以例如表示高通传递函数。根据实施例,预加强滤波器128被实现为n阶高通滤波器,例如,一阶高通滤波器,其具有传递函数H(z)=1-dz-1,其中,d被设置为例如0.68。因此,在预加强滤波器128的输出端,产生音频信号18的预加强版本130。此外,图12A将比例因子确定器116示出为由LP(线性预测)分析器132和线性预测系数到比例因子转换器134构成。LPC分析器132基于音频信号18的预加强版本来计算线性预测系数信息118。因此,信息118的线性预测系数表示音频信号18的基于线性预测的频谱包络,或者更具体地,其预加强版本130。LP分析器132的操作模式可以例如涉及对输入信号130进行加窗以获得要进行LP分析的信号130的加窗部分序列、进行自相关确定以确定每一个加窗部分的自相关、以及进行滞后加窗(可选的)以向自相关应用滞后窗函数。然后,可以对自相关或滞后窗输出(即,加窗的自相关函数)执行线性预测参数估计。线性预测参数估计可以例如涉及对(滞后加窗的)自相关执行Wiener-Levinson-Durbin或其他适合的算法以导出针对信号130的每一个自相关(即,针对每一个加窗部分)的线性预测系数。也即是说,在LP分析器132的输出端产生LPC系数118。LP分析器132可以被配置为对线性预测系数进行量化以插入数据流30中。线性预测系数的量化可以在与线性预测系数域不同的另一个域中执行,例如,在线性频谱对或线性频谱频率域中。然而,也可以使用与Wiener-Levinson-Durbin算法不同的其他算法。
线性预测系数到比例因子转换器134将线性预测系数转换为比例因子114。转换器134可以确定比例因子140以与由线性预测系数信息118定义的线性预测合成滤波器1/A(z)的逆相对应。备选地,转换器134确定比例因子以遵循该线性预测合成滤波器的感知激励修改,例如,1/A(γ·z),其中,例如γ=0.92±10%。线性预测合成滤波器的感知激励修改(即,1/A(γ·z))可以被称作“感知模型”。
为了说明的目的,图12A示出了另一元件,然而,对于图12A的实施例而言,该另一元件是可选的。该元件是位于变换器108上游的LTP(长期预测)滤波器136以使音频信号经历长期预测。优选地,LP分析器132对非长期预测滤波版本进行操作。换言之,LTP滤波器136对音频信号18或其预加强版本130执行LTP预测,并且输出LTP残差版本138使得变换器108对预加强的且LTP预测的残差信号138执行变换。LTP滤波器可以例如被实现为FIR滤波器,并且LTP滤波器136可以由包括例如LTP预测增益和LTP滞后的LTP参数来控制。两个LTP参数140被编码到数据流30中。如下面将更详细所述的,LTP增益表示度量60的示例,这是因为它指示音高或周期,音高或周期在没有LTP滤波的情况下在频谱12中完全体现并且在使用LTP滤波的情况下在频谱12中以逐渐减小的强度出现,其中,减小的程度取决于控制LTP滤波器136的LTP滤波的强度的LTP增益参数。
为了完整起见,图12B示出了适应图12A的编码器的解码器。除了图11B的组件以及比例因子确定器122被实现为LPC到比例因子转换器142之外,图12B的解码器还包括位于逆变换器126下游的重叠相加级144,该重叠相加级144使逆变换器126输出的逆变换经历重叠相加处理,从而获得预加强的且LTP滤波的版本138的重构,然后,该重构在LTP后置滤波器146处经历LTP后置滤波,其中,LTP后置滤波器146的传递函数对应于LTP滤波器136的传递函数的逆。LTP后置滤波器146可以例如被实现为IIR滤波器的形式。在LTP后置滤波器146的后续(在图12B中,示例性地,在LTP后置滤波器146的下游),图12B的解码器包括去加强滤波器148,去加强滤波器148使用与预加强滤波器128的传递函数的逆相对应的传递函数对时域信号执行去加强滤波。去加强滤波器148也可以实现为IIR滤波器的形式。在加强滤波器148的输出端产生音频信号18。
换言之,上述实施例提供了用于通过将诸如算数编码器上下文等的熵编码器上下文的设计调整为诸如信号的周期等的信号的频谱的形状来对音调信号和频域进行编码的可能性。坦白地说,上述实施例将上下文扩展超出邻居的概念,并且提议基于音频信号频谱的形状(例如,基于音高信息)的自适应上下文设计。这种音高信息可以附加地发送到解码器,或者可能已经可以从其他编码模块(例如,上述LTP增益)得到。然后,对上下文进行映射以指向以一距离与当前要编码的系数有关的已经编码的系数,所述距离是输入信号的基本频率的倍数或者与输入信号的基本频率成正比。
应当注意的是,根据图12A和图12B使用的LTP前置/后置滤波器构思可以由谐波后置滤波器构思替换,根据谐波后置滤波器构思,通过经由数据流30从编码器向解码器发送的LTP参数(包括音高(或音高滞后))来控制解码器处的谐波后置滤波器。LTP参数可以用作参考,以使用显式信令区别地向解码器发送前述关于频谱的形状的信息。
通过上述实施例的方式,可以不再使用针对音调信号的预测,从而例如避免引入不期望的帧间依赖性。另一方面,关于编码/解码频谱系数的上述构思也可以与任何预测技术相组合,这是因为预测残差仍然表明一些谐波结构。
换言之,再次关于以下附图说明上述实施例,在所述附图中,图13示出了使用上述频谱距离调整的编码处理的一般框图。为了便于以下描述与迄今提出的描述之间的一致性,部分地重新使用附图标记。
首先,将输入信号18传送给TD(TD=时域)中噪声成形/预测模块200。模块200包含例如图12A的元件128和136中的一个或二者。该模块200可以被绕过,或者它可以通过使用LPC编码来执行短期预测,和/或——如图12A所示——长期预测。可以设想每种类型的预测。如果时域处理之一采用音高信息并且发送音高信息,则如上文已经通过LTP滤波器136输出的LTP滞后参数简要描述的,然后可以将这种信息传送到基于上下文的算数编码器模块以进行基于音高的上下文映射。
然后,由变换器108在时频变换的帮助下将残余的且成形的时域信号202变换到频域。可以使用DFT或MDCT。变换长度可以是自适应的,并且为了低延迟,将使用与前一变换窗和下一变换窗(比较:24)的低重叠区域。在文档的其余部分中,将使用MDCT作为说明性示例。
然后,由模块204在频域中对变换的信号112进行成形,模块204因此是例如使用比例因子确定器116和频谱成形器110实现的。这可以通过LPC系数的频率响应并且通过由心理声学模型驱动的比例因子来完成。还可以应用时间噪声成形(TNS)或频域预测,从而采用并发送音高信息。在这种情况下,可以根据基于音高的上下文映射将音高信息传送到基于上下文的算数编码器模块。后一个可能性也可以分别应用于图10A至图12B的上述实施例。
然后,在由基于上下文的熵编码器10对输出频谱系数进行无噪编码之前,由量化级120对输出频谱系数进行量化。如上所述,该最后一个模块10使用例如输入信号的音高估计作为关于音频信号的频谱的信息。这种信息可以是从噪声成形/预测模块200或204之一继承得到的,这已经在时域中或在频域中预先执行了。如果该信息不可用,则可以例如由音高估计模块206对输入信号执行专用音高估计,然后音高估计模块206将音高信息发送到比特流30中。
图14示出了适应图13的解码处理的一般框图。它由图13中所述的逆处理构成。音高信息——在图13和图14的情况下用作关于频谱的形状的信息的示例——被首先解码并且传送到算数解码器40。如果需要的话,该信息被进一步传送到需要该信息的其他模块。
具体地,除了对来自数据流30的音高信息进行解码并因此负责图9B中的导出处理84的音高信息解码器208之外,图14的解码器在基于上下文的解码器40之后按照其提及的顺序还包括解量化器210、FD(频域)中逆噪声成形/预测模块212、逆变换器214和TD中逆噪声成形/预测模块216,其均彼此串联以根据频谱12重构时域中的音频信号18,其中,频谱12的频谱系数由解码器40根据比特流30进行解码。在将图14的元件映射到例如图12B中所示的那些元件时,逆变换器214包含图12B的逆变换器126和重叠相加级144。此外,图14示出了可以例如使用针对所有频谱线等同的量化步长函数向由编码器40输出的经解码的频谱系数应用解量化。此外,图14示出了模块212(例如,TNS(时间噪声成形)模块)可以位于频谱成形器124和126之间。时域中逆噪声成形/预测模块216包含图12B的元件146和/或148。
为了再次促进由本申请的实施例提供的优点,图15示出了针对频谱系数的熵编码的传统上下文。该上下文涵盖当前要编码的系数的过去邻居的有限区域。也即是说,图15示出了如在MPEG USAC中使用上下文自适应一样使用上下文自适应对频谱系数进行熵编码的示例。因此,图15以与图1和图2类似的方式示出了频谱系数,然而,对频谱相邻频谱系数进行分组或者将其划分为群集,称作频谱系数的n元组。为了将这种n元组与单独的频谱系数区分开但是保持与上文提出的描述的一致性,使用附图标记14’来指示这些n元组。图15通过使用矩形轮廓描绘已经编码/解码的n元组的形状并且使用圆形轮廓描绘还未编码/解码的n元组的形状来对已经编码/解码的n元组与还未编码/解码的n元组进行区分。此外,使用阴影线o轮廓描绘了当前要解码/编码的n元组14’,同时还使用阴影线但是矩形轮廓指示了已经编码/解码的n元组14’,其中,已经编码/解码的n元组由位于当前要处理的n元组处的固定邻居模板局部化。因此,根据图15的示例,邻居上下文模板标识位于当前要处理的n元组附近的六个n元组14’,即,处于相同的时刻但是处于紧邻的较低频谱线的n元组(即,c0)、处于相同的频谱线但是处于紧邻的前一时刻的n元组(即,c1)、处于紧邻的较高频谱线并且处于紧邻的前一时刻的n元组(即,c2),以此类推。也即是说,根据图15所使用的上下文模板以与当前要处理的n元组固定的相对距离来标识参考n元组14’,即,紧邻的邻居。根据图15,以n个块示例性地考虑频谱系数,称作n元组。将n个连续值进行组合允许采用系数间依赖性。较高的维度指数地增加了要编码的n元组的字母表尺寸,因而增加了码本尺寸。在剩余描述中示例性地使用n=2的维度,并且n=2的维度表示编码增益与码本尺寸之间的折中。在所有实施例中,编码例如单独地考虑符号。此外,也可以单独地处理每一个系数的2个最高有效位和剩余的最低有效位。上下文自适应可以例如仅应用于无符号频谱值的2个最高有效位(MSB)。可以假定符号和最低有效位均匀分布。逸出符号ESC与2元组的MSB的16个组合一起添加到字母表中以指示解码器必须预期一个额附加LSB。发送与附加LSB一样多的ESC符号。总计17个符号形成代码字母表。本发明不限于上述产生符号的方式。
将随后的具体细节转移到图3和图4的描述,这意味着熵编码/解码引擎44和54的符号字母表可以涵盖值{0,1,2,3}加上逸出符号,并且如果要编码的输入频谱系数超出3,则根据需要将要编码的输入频谱系数除以4以便小于4,其中,针对每一次除法对逸出符号进行编码。因此,针对每一个频谱系数对0或更多个逸出符号后接实际的非逸出符号进行编码,其中,使用如本文先前所述的上下文自适应来对这些符号中的仅例如前两个符号进行编码。通过将该思想转移到2元组,即,频谱紧邻系数对,符号字母表可以包括针对该2元组的16个值对(即,{(0,0),(0,1),(1,0),…,(1,1)})以及逸出符号esc(其中,esc是逸出符号的缩写),即,一共17个符号。包括超出3的至少一个系数的每一个输入频谱系数n元组除以4,其中,对相应2元组的每一个系数应用除以4。在解码侧,逸出符号的数量乘以4(如果存在的话)被添加到根据非逸出符号获得的余数值。
图16示出了由于对根据上述构思的图15的构思进行修改产生的映射的上下文映射的配置,根据该上下文映射的配置,例如通过考虑信号的周期或音高信息,根据关于频谱的形状的信息对参考频谱系数的相对频谱距离28进行调整。具体地,图16示出了可以通过以下公式给出的D0来粗略估计上下文中与前述相对频谱距离28相对应的距离D:
Figure GDA0002907391680000191
这里,fs是采样频率,N是MDCT大小,并且L是以样本为单位的滞后周期。在示例性图16中的(a)中,上下文指向与要编码的当前n元组相距D的倍数的n元组。图16中的(b)将传统的邻居上下文与和谐波相关的上下文进行组合。最后,图16中的(c)示出了与先前帧无关的帧内映射上下文的示例。也即是说,图16中的(a)示出了除了上文关于图7所述的可能性之外,根据关于频谱的形状的信息调整相对频谱距离还可以应用于属于上下文模板的所有固定数量的参考频谱系数。图16中的(b)示出了根据不同的示例仅这些参考频谱系数的子集根据调整80经历替换,例如,仅位于上下文模板的低频侧的在频谱上位于最外侧的参考频谱系数,这里C3和C5。剩余的参考频谱系数(这里,C0至C4)可以位于相对于当前处理的频谱系数的固定位置,即,位于相对于当前要处理的频谱系数的紧邻的频谱时间位置。最后,图16中的(c)示出了仅先前编码的频谱系数用作上下文模板的参考系数的可能性,其中,先前编码的频谱系数位于与当前要处理的频谱系数相同的时刻。
图17给出了关于图16中的(a)至图16中的(c)的映射的上下文可以比根据图15的传统上下文更有效的程度的说明,其中,根据图15的传统上下文未能预测高谐波频谱X(比较:20)的音调。
接下来,将详细描述可能的上下文映射机制并且给出用于对距离D进行有效估计和编码的示例性实现。为了说明的目的,将在以下部分中使用根据图16中的(c)的帧内映射上下文。
第一实施例:2元组编码和映射
首先,以最多减少对大小为N的当前量化频谱x[]进行编码所需的比特数量的方式搜索最佳距离。可以通过在先前执行的音高估计中找到的滞后周期L的D0函数来估计初始距离。搜索范围可以如下:
D0-Δ<D<D0+Δ
备选地,可以通过考虑D0的倍数来修改范围:扩展范围变成:
{M.D0-Δ<D<M.D0+Δ:M∈F}
其中,M是属于有限集F的乘法系数。例如,M可以取值0.5、1和2,以采用音高的一半和两倍。最后,还可以对D进行穷举搜索。实际上,该最后一种方法可能非常复杂。图18给出了搜索算法的示例。该搜索算法可以是例如导出处理82的一部分,或者是解码和编码侧处的导出处理82和84二者的一部分。
成本被初始化为当不执行针对上下文的映射时的成本。如果没有距离导致更好的成本,则不执行映射。将标志发送到解码器以发信号通知何时执行映射。
如果找到最佳距离Dopt,则需要发送该最佳距离。如果已经由编码器的另一模块发送了L,则需要发送与图9B的前述显式信令相对应的调整参数m和d,使得
Dopt=m.D0+d
否则,必须发送Dopt的绝对值。上文关于图9B讨论了两个备选方式。例如,如果考虑大小N=256并且fs=12800Hz的MDCT,则可以通过将D限制在2与17之间来覆盖30Hz和256Hz之间的音高频率。在整数分辨率的情况下,可以使用4个比特来对D进行编码,针对分辨率0.5,可以使用5个比特来对D进行编码,并且在分辨率0.25的情况下,可以使用6个比特对D进行编码。
可以在D用于产生上下文映射的情况下根据对x[]进行编码所需的比特的数量来计算成本函数。获取该成本函数通常很复杂,这是因为它需要对频谱进行算术编码或者至少对它所需的比特的数量进行良好估计。因为针对每一个候选D计算该成本函数可能很复杂,因此推荐备选方式以从根据值D导出上下文映射来直接得到成本的估计。当导出上下文映射时,可以容易地计算相邻映射上下文的范数的差值。因为在算术编码器中使用上下文来预测要编码的n元组并因为在优选的实施例中基于范数-L1来计算上下文,因此相邻映射上下文之间的范数的差值之和是对考虑到D的映射的效率的良好指示。首先,按如下方式计算x[]的每一个2元组的范数:
for(i=0;i于N/2;i++){
normVect[i]=pow(abs(x[2*i]NORM,)+pow(abs(normVect[2*i+1],NORM),
}
其中,在优选实施例中NORM=1,这是因为在上下文计算中考虑了范数-L1。在该部分中,描述了在分辨率2的情况下工作的上下文映射,即,针对每一个2元组一个映射。该分辨率是r=2,并且上下文映射表格具有N/2的大小。如下给出了上下文映射产生和成本函数计算的伪代码:
Figure GDA0002907391680000211
Figure GDA0002907391680000221
一旦计算出了最佳距离D,就还可以推断索引排列表格,该索引排列表格给出了频谱的谐波位置、谷和尾部。然后,按如下方式推断上下文映射规则:
for(i=0;i<N/r;i++){
contextMapping[IndexPermutation[i]]=i;
}
这意味着针对频谱中的索引i的2元组(x[2*i],x[2*i+1]),将在索引contextMapping[i-1]、contextMapping[i-2]……contextMapping[i-1]的2元组的情况下考虑过去的上下文,其中,1是根据2元组的上下文的大小。如果针对上下文还考虑一个或多个先前频谱,则针对并入过去上下文的这些频谱的2元组将具有contextMapping[i+l]、……、contextMapping[i+1]、contextMapping[i]、contextMapping[i-1]、contextMapping[i-l]作为索引,其中,2l+1是针对每一个频谱的上下文的大小。
IndexPermutation表格还给出了附加的令人感兴趣的信息,这是因为它聚集了音调分量的索引后接非音调分量的索引。因此,可以预期相应的幅度逐渐减小。这可以通过检测IndexPermutation中的最后一个索引(其对应于非零2元组)而被利用。该索引对应于(lastNz/2-1),其中,按如下方式计算lastNz:
Figure GDA0002907391680000231
在频谱分量之前的ceil(log2(N/2))个比特上对lastNz/2进行编码。
算数编码器伪代码:
Figure GDA0002907391680000232
Figure GDA0002907391680000241
cum_proba[]表格是在对较大训练集进行离线训练期间获得的不同的累积模型。在该具体情况下,它包括17个符号。proba_model_lookup[]是将上下文索引t映射为累积概率模型pki的查找表。该表格也是通过训练阶段获得的。cum_equiprob[]是针对具有2个符号(其是等概率的)的字母表的累积概率表格。
第二实施例:在1元组映射情况下的2元组
在该第二实施例中,仍然二元组接二元组地对频谱分量进行编码,但是contextMapping现在具有1元组的分辨率。这意味着在映射上下文时存在远远更多的可能性和灵活性。然后,映射的上下文可以更适合于给定的信号。以与在第三部分中进行的方式相同的方式搜索最佳距离,但是此时,分辨率r=1。为此,必须针对每一个MDCT线来计算normVect[]:
for(i=0;i<N;i++){
normVect[i]=pow(abs(x[2*i]NORM,);
}
然后,通过维度为N的表格给出由此产生的上下文映射。如在前一部分中一样计算LastNz,并且可以按如下方式描述编码:
Figure GDA0002907391680000251
Figure GDA0002907391680000261
Figure GDA0002907391680000271
与前一部分相反,两个非连续频谱系数可以聚集在相同的2元组中。由于该原因,针对2元组的两个元素的上下文映射可以指向上下文表格中的两个不同的索引。在优选实施例中,选择具有最低索引的映射上下文,但是也可以具有不同的规则,例如,对两个映射上下文进行平均。由于相同的原因,还应当区别地处理上下文的更新。如果2个元素在频谱中是连续的,则使用计算上下文的传统方式。否则,针对两个元素在仅考虑其自己的幅度的情况下单独地更新上下文。
解码由以下步骤构成:
对标志进行解码以获知是否执行了上下文映射
通过对Dopt或用于针对D0得到Dopt的参数调整参数进行解码来对上下文映射进行解码。
对lastNz进行解码
按如下方式对量化的频谱进行解码:
Figure GDA0002907391680000272
Figure GDA0002907391680000281
Figure GDA0002907391680000291
因此,上述实施例尤其揭示了例如用于音调信号的熵(例如,算数)编码的基于音高的上下文映射。
虽然已经在装置的上下文中描述了一些方面,但是应当清楚的是,这些方面也表示对相应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中所述的方面也表示对相应框或项目或者相应装置的特征的描述。方法步骤中的一些或全部可以由(或使用)硬件装置来执行,例如,微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的某一个或多个可以由这种装置来执行。
创造性的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
根据特定实现需要,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
本发明方法的另一实施例因此是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传递。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,所述计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机传递(例如,电子地或光学地)计算机程序的装置或系统,所述计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传递计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例仅说明本发明的原理。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围而不由通过描述和解释本文的实施例的方式给出的具体细节来限制本发明。
在下文中,将描述本发明的另外的实施例和方面,其可以被单独使用或与本文描述的任何特征、功能和细节结合使用
1.一种解码器(40),被配置为对音频信号(18)的频谱(12)的频谱系数(14)进行解码,所述解码器被配置为通过以上下文自适应的方式根据先前解码的频谱系数(o)进行熵解码、并且根据关于所述频谱的形状的信息对所述先前解码的频谱系数(o)与当前要解码的频谱系数(x)之间的相对频谱距离(28)进行调整,来对所述当前要解码的频谱系数(x)进行解码。
2.根据方面1所述的解码器,其中,关于所述频谱的形状的信息包括以下至少一项:
所述音频信号(18)的音高或周期的度量(60);
所述音频信号的频谱(12)的谐波间距离的度量;
所述频谱的频谱包络的共振峰(70)和/或谷(72)的相对位置。
3.根据方面1或2所述的解码器,其中,所述解码器(40)被配置为通过显式信号作用来导出关于所述频谱的形状的信息。
4.根据方面1或2所述的解码器,其中,所述解码器(40)被配置为根据所述频谱的先前解码的频谱系数(o)或先前解码的基于LPC的频谱包络来导出关于所述频谱的形状的信息。
5.根据前述方面中任一项所述的解码器,其中,所述解码器(40)被配置为使得对所述熵解码的依赖性涉及多个先前解码的频谱系数(o),所述多个先前解码的频谱系数(o)的频谱位置的频谱扩展是根据关于所述频谱的形状的信息来调整的。
6.根据前述方面中任一项所述的解码器,其中,所述解码器(40)被配置为使得
关于所述频谱的形状的信息是所述音频信号的音高的度量(60),并且所述解码器被配置为根据所述音高的度量来调整所述先前解码的频谱系数(o)与所述当前要解码的频谱系数(x)之间的相对频谱距离(28),使得所述相对频谱距离随着音高的增加而增加,或者
关于所述频谱的形状的信息是所述音频信号的周期的度量(60),并且所述解码器被配置为根据所述周期的度量来调整所述先前解码的频谱系数(o)与所述当前要解码的频谱系数(x)之间的相对频谱距离(28),使得所述相对频谱距离随着周期的增加而减小,或者
关于所述频谱的形状的信息是所述音频信号的频谱(12)的谐波间距离的度量,并且所述解码器(40)被配置为根据所述谐波间距离的度量来调整所述先前解码的频谱系数(o)与所述当前要解码的频谱系数(x)之间的相对频谱距离,使得所述相对频谱距离随着谐波间距离的增加而增加,或者
关于所述频谱的形状的信息包括所述频谱的频谱包络的共振峰(70)和/或谷(72)的相对位置,并且所述解码器被配置为根据所述位置来调整所述先前解码的频谱系数与所述当前要解码的频谱系数之间的相对频谱距离,使得所述相对频谱距离随着所述频谱包络中的谷之间和/或所述频谱包括中的共振峰之间的频谱距离(74)的增加而增加。
7.根据前述方面中任一项所述的解码器,其中,所述解码器被配置为:在通过熵解码对所述当前要解码的频谱系数进行解码时,通过使所述先前解码的频谱系数经历标量函数(82)来导出针对所述当前要解码的频谱系数的概率分布估计(56)并且使用所述概率分布估计来进行所述熵解码。
8.根据前述方面中任一项所述的解码器,其中,所述解码器被配置为使用算数解码作为熵解码。
9.根据前述方面中任一项所述的解码器,其中,所述解码器被配置为通过对所述当前要解码的频谱系数进行频谱和/或时间预测并且通过经由所述熵解码获得的预测残差对所述频谱和/或时间预测进行校正来对所述当前要解码的频谱系数进行解码。
10.一种基于变换的音频解码器,包括根据前述方面中任一项所述的、被配置为对音频信号的频谱的频谱系数进行解码的解码器。
11.根据方面10所述的基于变换的音频解码器,其中,所述解码器被配置为通过使用比例因子(114)对所述频谱进行缩放来对所述频谱进行频谱成形。
12.根据方面11所述的基于变换的音频解码器,被配置为基于线性预测系数信息来确定所述比例因子(114),使得所述比例因子表示取决于由所述线性预测系数信息定义的线性预测合成滤波器的传递函数。
13.根据方面12所述的基于变换的音频解码器,其中,所述传递函数对由所述线性预测系数信息定义的所述线性预测合成滤波器的依赖性使得对所述传递函数进行感知加权。
14.根据方面13所述的基于变换的音频解码器,其中,所述传递函数对由所述线性预测信息定义的所述线性预测合成滤波器1/A(z)的依赖性使得所述传递函数是传递函数1/A(k·z),其中k是常数。
15.根据方面10至14中任一项所述的基于变换的音频解码器,其中,所述基于变换的音频解码器支持经由显式发信号通知的长期预测参数控制的长期预测谐波或后置滤波,其中所述基于变换的音频解码器被配置为根据所述显式发信号通知的长期预测参数来导出关于所述频谱的形状的信息。
16.一种编码器(10),被配置为对音频信号(18)的频谱(12)的频谱系数(14)进行编码,所述编码器被配置为通过以上下文自适应的方式根据先前编码的频谱系数(o)进行熵编码、并且根据关于所述频谱的形状的信息对所述先前编码的频谱系数与当前编码的频谱系数之间的相对频谱距离(28)进行调整,来对所述当前要编码的频谱系数(x)进行编码。
17.一种用于对音频信号(18)的频谱(12)的频谱系数(14)进行解码的方法,所述方法包括:通过以上下文自适应的方式根据先前解码的频谱系数(o)进行熵解码、并且根据关于所述频谱的形状的信息对所述先前解码的频谱系数(o)与当前要解码的频谱系数(x)之间的相对频谱距离(28)进行调整,来对所述当前要解码的频谱系数(x)进行解码。
18.一种用于对音频信号(18)的频谱(12)的频谱系数(14)进行编码的方法,所述方法包括:通过以上下文自适应的方式根据先前编码的频谱系数(o)进行熵编码、并且根据关于所述频谱的形状的信息对所述先前编码的频谱系数与当前编码的频谱系数之间的相对频谱距离(28)进行调整,来对所述当前要编码的频谱系数(x)进行编码。
19.一种具有程序代码的计算机程序,所述程序代码用于当在计算机上运行时执行根据方面16或17所述的方法。
参考文献
[1]Fuchs,G.;Subbaraman,V.;Multrus,M.,″Efficient context adaptiveentropy coding for real-time applications,″Acoustics,Speech and SignalProcessing(ICASSP),2011 IEEE International Conference on,vol.,no.,pp.493,496,22-27 May 2011
[2]ISO/IEC 13818,Part 7,MPEG-2 AAC
[3]Juin-Hwey Chen;Dongmei Wang,″Transform predictive coding ofwideband specch signals,″Acoustics,Specch,and Signal Processing,1996.ICASSP-96)Conference Proceedings.,1996 IEEE InternationalConference on,vol.1,no.,pp.275,278vol.1,7-10 May 1996。

Claims (19)

1.一种用于对来自数据流的音频信号的频谱图的频谱系数进行解码的解码器,所述频谱图由频谱序列构成,所述解码器被配置为:
沿频谱时间路径对所述频谱系数进行解码,所述频谱时间路径在频谱上在一个频谱内从低频到高频扫描所述频谱系数,然后继续处理时间连续频谱的频谱系数,以及
通过熵解码以上下文自适应的方式根据先前解码的频谱系数的模板按照以下方式对当前频谱的当前要解码的频谱系数进行解码:根据关于所述频谱的形状的信息调整属于所述当前频谱的频谱系数与所述当前要解码的频谱系数之间的相对频谱距离或者属于所述当前频谱的所述频谱系数与所述模板的属于所述当前频谱的另一频谱系数之间的相对频谱距离中的至少一个,其中所述模板包括属于所述当前频谱的所述频谱系数,所述模板位于所述当前要解码的频谱系数的位置处。
2.根据权利要求1所述的解码器,其中,所述解码器被配置为使得所述相对频谱距离随着所述关于所述频谱的形状的信息的增加而增加,其中,所述关于所述频谱的形状的信息包括所述音频信号的音高或周期的量度。
3.根据权利要求1所述的解码器,其中,所述关于所述频谱的形状的信息包括以下至少一项:
所述音频信号的音高或周期的度量;
所述音频信号的频谱的谐波间距离的度量;
所述频谱的频谱包络的共振峰和/或谷的相对位置。
4.根据权利要求1所述的解码器,其中,所述解码器被配置为通过显式信号作用来导出所述关于所述频谱的形状的信息。
5.根据权利要求1所述的解码器,其中,所述解码器被配置为根据所述频谱的先前解码的频谱系数或先前解码的基于LPC的频谱包络来导出所述关于所述频谱的形状的信息。
6.根据权利要求1所述的解码器,其中,所述解码器被配置为使得
所述关于所述频谱的形状的信息是所述音频信号的音高的度量,并且所述解码器被配置为根据所述音高的度量来调整所述相对频谱距离,使得所述相对频谱距离随着音高的增加而增加,或者
所述关于所述频谱的形状的信息是所述音频信号的周期的度量,并且所述解码器被配置为根据所述周期的度量来调整所述相对频谱距离,使得所述相对频谱距离随着周期的增加而减小,或者
所述关于所述频谱的形状的信息是所述音频信号的频谱的谐波间距离的度量,并且所述解码器被配置为根据所述谐波间距离的度量来调整所述相对频谱距离,使得所述相对频谱距离随着谐波间距离的增加而增加,或者
所述关于所述频谱的形状的信息包括所述频谱的频谱包络的共振峰和/或谷的相对位置,并且所述解码器被配置为根据所述位置来调整所述相对频谱距离,使得所述相对频谱距离随着所述频谱包络中的谷之间和/或所述频谱包络中的共振峰之间的频谱距离的增加而增加。
7.根据权利要求1所述的解码器,其中,所述解码器被配置为:在通过熵解码对所述当前要解码的频谱系数进行解码时,通过使所述模板的所述先前解码的频谱系数经历标量函数来导出针对所述当前要解码的频谱系数的概率分布估计并且使用所述概率分布估计来进行所述熵解码。
8.根据权利要求1所述的解码器,其中,所述解码器被配置为使用算数解码作为熵解码。
9.根据权利要求1所述的解码器,其中,所述解码器被配置为通过对所述当前要解码的频谱系数进行频谱和/或时间预测并且通过经由所述熵解码获得的预测残差对所述频谱和/或时间预测进行校正来对所述当前要解码的频谱系数进行解码。
10.一种基于变换的音频解码器,包括根据权利要求1所述的、被配置为对音频信号的频谱图的频谱系数进行解码的解码器。
11.根据权利要求10所述的基于变换的音频解码器,其中,所述解码器被配置为通过使用比例因子对所述频谱进行缩放来对所述频谱进行频谱成形。
12.根据权利要求11所述的基于变换的音频解码器,被配置为基于线性预测系数信息来确定所述比例因子,使得所述比例因子表示取决于由所述线性预测系数信息定义的线性预测合成滤波器的传递函数。
13.根据权利要求12所述的基于变换的音频解码器,其中,所述传递函数对由所述线性预测系数信息定义的所述线性预测合成滤波器的依赖性使得对所述传递函数进行感知加权。
14.根据权利要求13所述的基于变换的音频解码器,其中,所述传递函数对由所述线性预测信息定义的所述线性预测合成滤波器1/A(z)的依赖性使得所述传递函数是传递函数1/A(k·z),其中k是常数。
15.根据权利要求10所述的基于变换的音频解码器,其中,所述基于变换的音频解码器支持经由显式发信号通知的长期预测参数控制的长期预测谐波或后置滤波,其中所述基于变换的音频解码器被配置为根据所述显式发信号通知的长期预测参数来导出关于所述频谱的形状的信息。
16.一种用于将音频信号的频谱图的频谱系数编码到数据流中的编码器,所述频谱图由频谱序列构成,所述编码器被配置为:
沿频谱时间路径对所述频谱系数进行编码,所述频谱时间路径在频谱上在一个频谱内从低频到高频扫描所述频谱系数,然后继续处理时间连续频谱的频谱系数,以及
通过熵编码以上下文自适应的方式根据先前编码的频谱系数的模板按照以下方式对当前频谱的当前要编码的频谱系数进行编码:根据关于所述频谱的形状的信息调整属于所述当前频谱的频谱系数与所述当前要编码的频谱系数之间的相对频谱距离或者属于所述当前频谱的所述频谱系数与所述模板的属于所述当前频谱的另一频谱系数之间的相对频谱距离中的至少一个,其中所述模板包括属于所述当前频谱的所述频谱系数,所述模板位于所述当前要编码的频谱系数的位置处。
17.一种用于对来自数据流的音频信号的频谱图的频谱系数进行解码的方法,所述频谱图由频谱序列构成,所述方法包括:
沿频谱时间路径对所述频谱系数进行解码,所述频谱时间路径在频谱上在一个频谱内从低频到高频扫描所述频谱系数,然后继续处理时间连续频谱的频谱系数,以及
通过熵解码以上下文自适应的方式根据先前解码的频谱系数的模板按照以下方式对当前频谱的当前要解码的频谱系数进行解码:根据关于所述频谱的形状的信息调整属于所述当前频谱的频谱系数与所述当前要解码的频谱系数之间的相对频谱距离或者属于所述当前频谱的所述频谱系数与所述模板的属于所述当前频谱的另一频谱系数之间的相对频谱距离中的至少一个,其中所述模板包括属于所述当前频谱的所述频谱系数,所述模板位于所述当前要解码的频谱系数的位置处。
18.一种用于将音频信号的频谱图的频谱系数编码到数据流中的方法,所述频谱图由频谱序列构成,所述方法包括:
沿频谱时间路径对所述频谱系数进行编码,所述频谱时间路径在频谱上在一个频谱内从低频到高频扫描所述频谱系数,然后继续处理时间连续频谱的频谱系数,以及
通过熵编码以上下文自适应的方式根据先前编码的频谱系数的模板按照以下方式对当前频谱的当前要编码的频谱系数进行编码:根据关于所述频谱的形状的信息调整属于所述当前频谱的频谱系数与所述当前要编码的频谱系数之间的相对频谱距离或者属于所述当前频谱的所述频谱系数与所述模板的属于所述当前频谱的另一频谱系数之间的相对频谱距离中的至少一个,其中所述模板包括属于所述当前频谱的所述频谱系数,所述模板位于所述当前要编码的频谱系数的位置处。
19.一种存储有计算机程序的非瞬时性计算机可读存储介质,所述计算机程序具有程序代码,所述程序代码用于当在计算机上运行时执行根据权利要求17或权利要求18所述的方法。
CN202010009068.1A 2013-10-18 2014-10-17 编码器/解码器、编码/解码方法和非瞬时性存储介质 Active CN111009249B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13189391 2013-10-18
EP13189391.9 2013-10-18
EP14178806.7 2014-07-28
EP14178806 2014-07-28
CN201480056910.XA CN105723452B (zh) 2013-10-18 2014-10-17 音频信号的频谱的频谱系数的解码方法及解码器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480056910.XA Division CN105723452B (zh) 2013-10-18 2014-10-17 音频信号的频谱的频谱系数的解码方法及解码器

Publications (2)

Publication Number Publication Date
CN111009249A CN111009249A (zh) 2020-04-14
CN111009249B true CN111009249B (zh) 2021-06-04

Family

ID=51844681

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010009068.1A Active CN111009249B (zh) 2013-10-18 2014-10-17 编码器/解码器、编码/解码方法和非瞬时性存储介质
CN201480056910.XA Active CN105723452B (zh) 2013-10-18 2014-10-17 音频信号的频谱的频谱系数的解码方法及解码器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201480056910.XA Active CN105723452B (zh) 2013-10-18 2014-10-17 音频信号的频谱的频谱系数的解码方法及解码器

Country Status (16)

Country Link
US (3) US9892735B2 (zh)
EP (1) EP3058566B1 (zh)
JP (3) JP6385433B2 (zh)
KR (1) KR101831289B1 (zh)
CN (2) CN111009249B (zh)
AU (1) AU2014336097B2 (zh)
CA (1) CA2925734C (zh)
ES (1) ES2660392T3 (zh)
MX (1) MX357135B (zh)
MY (1) MY181965A (zh)
PL (1) PL3058566T3 (zh)
PT (1) PT3058566T (zh)
RU (1) RU2638734C2 (zh)
SG (1) SG11201603046RA (zh)
TW (1) TWI578308B (zh)
WO (1) WO2015055800A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
EP4376307A2 (en) * 2008-07-11 2024-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
WO2013058634A2 (ko) 2011-10-21 2013-04-25 삼성전자 주식회사 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
US10986399B2 (en) 2012-02-21 2021-04-20 Gracenote, Inc. Media content identification on mobile devices
MY181965A (en) * 2013-10-18 2021-01-15 Fraunhofer Ges Forschung Coding of spectral coefficients of a spectrum of an audio signal
WO2015166694A1 (ja) 2014-05-01 2015-11-05 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
DE102016200637B3 (de) * 2016-01-19 2017-04-27 Sivantos Pte. Ltd. Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals sowie Verfahren zum latenzarmen Betrieb eines Hörsystems
JP2018113414A (ja) * 2017-01-13 2018-07-19 新光電気工業株式会社 半導体装置とその製造方法
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
CN110544472B (zh) * 2019-09-29 2021-12-31 上海依图信息技术有限公司 提升使用cnn网络结构的语音任务的性能的方法
US11227614B2 (en) * 2020-06-11 2022-01-18 Silicon Laboratories Inc. End node spectrogram compression for machine learning speech recognition

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583500A (en) 1993-02-10 1996-12-10 Ricoh Corporation Method and apparatus for parallel encoding and decoding of data
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
ES2297083T3 (es) * 2002-09-04 2008-05-01 Microsoft Corporation Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel.
US7599840B2 (en) 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
JP4736699B2 (ja) * 2005-10-13 2011-07-27 株式会社ケンウッド 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム
DE102006027673A1 (de) 2006-06-14 2007-12-20 Friedrich-Alexander-Universität Erlangen-Nürnberg Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
BRPI0910285B1 (pt) 2008-03-03 2020-05-12 Lg Electronics Inc. Métodos e aparelhos para processamento de sinal de áudio.
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
PL2532001T3 (pl) * 2010-03-10 2014-09-30 Fraunhofer Ges Forschung Dekoder sygnału audio, koder sygnału audio, sposoby i program komputerowy wykorzystujące zależne od częstotliwości próbkowania kodowanie krzywej dopasowania czasowego
KR101740359B1 (ko) * 2011-01-25 2017-05-26 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
RU2651187C2 (ru) * 2012-06-28 2018-04-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Основанное на линейном предсказании кодирование аудио с использованием улучшенной оценки распределения вероятностей
MY181965A (en) * 2013-10-18 2021-01-15 Fraunhofer Ges Forschung Coding of spectral coefficients of a spectrum of an audio signal

Also Published As

Publication number Publication date
US20180122387A1 (en) 2018-05-03
US20190043513A1 (en) 2019-02-07
KR101831289B1 (ko) 2018-02-22
EP3058566B1 (en) 2017-11-22
TW201521015A (zh) 2015-06-01
JP2017501427A (ja) 2017-01-12
JP2020190751A (ja) 2020-11-26
RU2638734C2 (ru) 2017-12-15
CA2925734A1 (en) 2015-04-23
JP6385433B2 (ja) 2018-09-05
US10115401B2 (en) 2018-10-30
SG11201603046RA (en) 2016-05-30
CA2925734C (en) 2018-07-10
TWI578308B (zh) 2017-04-11
AU2014336097B2 (en) 2017-01-19
US20160307576A1 (en) 2016-10-20
AU2014336097A1 (en) 2016-05-19
MX2016004806A (es) 2016-06-24
MY181965A (en) 2021-01-15
CN105723452B (zh) 2020-01-31
MX357135B (es) 2018-06-27
JP7218329B2 (ja) 2023-02-06
KR20160060085A (ko) 2016-05-27
US10847166B2 (en) 2020-11-24
US9892735B2 (en) 2018-02-13
CN105723452A (zh) 2016-06-29
CN111009249A (zh) 2020-04-14
WO2015055800A1 (en) 2015-04-23
RU2016118776A (ru) 2017-11-23
JP2018205758A (ja) 2018-12-27
EP3058566A1 (en) 2016-08-24
JP6748160B2 (ja) 2020-08-26
PT3058566T (pt) 2018-03-01
PL3058566T3 (pl) 2018-07-31
ES2660392T3 (es) 2018-03-22

Similar Documents

Publication Publication Date Title
CN111009249B (zh) 编码器/解码器、编码/解码方法和非瞬时性存储介质
KR100958144B1 (ko) 오디오 압축
US9129597B2 (en) Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
JP5625126B2 (ja) スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
TW201519218A (zh) 頻譜包絡線之取樣值之依鄰近關係熵編碼技術
IL278164B (en) Audio encoder and decoder
US11094332B2 (en) Low-complexity tonality-adaptive audio signal quantization
JP2016535286A (ja) ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法
US20100063826A1 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
CN117940994A (zh) 基于长期预测和/或谐波后置滤波生成预测频谱的处理器
KR102148407B1 (ko) 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
BR112016008117B1 (pt) Codificação de coeficientes espectrais de um espectro de um sinal de áudio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant