CN117716424A - 方向性编解码 - Google Patents

方向性编解码 Download PDF

Info

Publication number
CN117716424A
CN117716424A CN202280052906.0A CN202280052906A CN117716424A CN 117716424 A CN117716424 A CN 117716424A CN 202280052906 A CN202280052906 A CN 202280052906A CN 117716424 A CN117716424 A CN 117716424A
Authority
CN
China
Prior art keywords
audio
predicted
sequence
prediction
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280052906.0A
Other languages
English (en)
Inventor
于尔根·赫勒
弗洛林·基多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN117716424A publication Critical patent/CN117716424A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了用于对表示方向性图案的音频信号进行压缩编码和解码的技术,音频值根据在单位球体上定义的不同离散位置而具有不同的值。音频信号值作为预测残差值编码在比特流中。通过在平行于球体的赤道的平行线上定义的位置上移动,在序列中使用预测残差值来获得预测音频信号值,平行线从球体的第一极朝向第二极定义。预测值是基于初始预测序列、给定位置之前的相邻离散位置或先前预测的相邻平行线的音频值的插值版本来获得的。

Description

方向性编解码
技术领域
本发明公开了用于对具有方向性的音频信号进行编码和解码的装置和方法。
背景技术
方向性是声源的重要声学特性,例如在沉浸式再现环境中。方向性与频率有关,并且可以在八度或第三八度频率网格上的离散频率上测量。对于给定频率,方向性是在单位球体上定义的标量值。估计可以使用均匀分布在球体上的多个麦克风来完成。然后对测量结果进行后处理,然后精确地插值到精细或非常精细的球形网格上。这些值被保存到一种可用的互操作性文件格式中,诸如SOFA文件[1]。这些文件可能相当大,可达几兆字节。
然而,为了包括到比特流中进行传输,需要更紧凑的表示,其中大小从几百字节减少到最多几千字节的维度,这取决于频带的数量和重建所需的精度(例如,移动设备上降低的精度)。
有几种文件格式支持方向性数据,如SOFA[1]和OpenDAFF[2],但是它们的主要目标是非常灵活的交换格式,同时保留大量的额外元数据,如数据是如何生成的,以及测量使用了什么设备。此额外的元数据使得在研究应用中更容易自动解释和加载数据,因为一些文件格式允许大量异构数据类型。此外,通常定义的球面网格是精细或非常精细的,因此可以使用使用最近邻搜索的更简单方法来代替二维插值。
寻求一种用于获得更紧凑表示的方法。
参考文献
[1]Piotr Majdak et al.,"Spatially Oriented Format for Acoustics:AData Exchange Format Representing Head-Related Transfer Functions",134thConvention of the Audio Engineering Society,convention paper 8880,May 2013.
[2]Frank Wefers,"OpenDAFF:A free,open-source software package fordirectional audio data",DAGA 2010,March 2010.
发明内容
提出了用于解码比特流中编码的音频信号的装置,音频信号具有根据不同方向的不同音频值,方向与单位球体中的离散位置相关联,单位球体中的离散位置根据平行线从赤道线向第一极、从赤道线向第二极移位,装置包括:
比特流读取器,被配置为从比特流读取编码音频信号的预测残差值;
预测部分,被配置为通过预测和从编码音频信号的预测残差值获得音频信号,预测部分使用多个预测序列,多个预测序列包括:
至少一个初始预测序列,沿着相邻离散位置的线,基于相同初始预测序列中的紧接在前面的音频值的音频值预测音频值;以及
至少一个后续预测序列,分为多个子序列,每个子序列沿着平行线移动并与先前预测的平行线相邻,并且使得沿着正在被处理的平行线的音频值至少基于以下被预测:
同一子序列中相邻离散位置的音频值;以及
先前预测的相邻平行线的音频值的插值版本,相邻先前预测的平行线的每个插值版本具有与正在处理的平行线相同数量的离散位置。
还提出了用于编码音频信号的装置,音频信号根据不同的方向具有不同的音频值,方向与单位球体中的离散位置相关联,单位球体中的离散位置根据从赤道线向两极的平行线位移,装置包括:
预测块,被配置为执行多个预测序列,多个预测序列包括:
至少一个初始预测序列,沿着相邻离散位置(10)的线,通过基于同一初始预测序列中的紧接在前面的音频值的音频值来预测音频值;以及
至少一个后续预测序列,分为多个子序列,每个子序列沿着平行线移动并与先前预测的平行线相邻,并且使得音频值至少基于以下被预测:
同一子序列中相邻离散位置的音频值;以及
先前预测的相邻平行线的音频值的插值版本,每个插值版本具有与平行线的相同数量的离散位置,
预测残差生成器(120),被配置为将音频信号(102)的预测值与实际值进行比较以产生预测残差值(122);
比特流写入器(130),被配置为在比特流(104)中写入预测残差值(122)或其处理版本。
附图说明
图1a、1b、1c、1d、1e、1f示出编码器的示例。
图2a、2b示出解码器的示例。
图3示出如何进行预测。
图4示出解码方法的示例。
图5示出编码操作的示例。
图6和图7示出预测的示例。
具体实施方式
图1f示出了编码器100的示例。编码器100可以从音频信号101(例如以其经处理的版本102)执行预测(例如10、20、30、40,见下文),以获得预测值112。预测残差生成器120可以产生预测值112的预测残差值122。预测残差生成器120的操作示例可以是从音频信号值102中减去预测值112(例如,信号102的相邻值与预测值112之间的差值)。音频信号102在下文也被称为“覆盖(cover)”。预测块110和预测残差生成器120可以构成预测部分110’。可以将预测残差值122输入到比特流写入器130中以生成比特流104。比特流写入器130可以包括,例如,熵编码器。
音频信号102可以是音频信号101的预处理版本(例如,由预处理器105输出)。预处理器105可以,例如,执行以下中至少一项:
1)将音频信号101从线性标度转换为对数标度(例如分贝标度)
2)在不同频带之间分解音频信号。
预处理器105可以在不同的频带中分解音频信号101,使得预处理音频信号102包括多个带宽(例如,从最低频带到最高频带。在预测块110、预测残差生成器120(或更一般地在预测部分110’处)和/或比特流写入器130处的操作可以对每个频带重复。
将示出,也可以执行预测选择来决定要执行哪种类型(例如阶数)的预测(见下文)。
图1c示出了图1f的变体,其中差分生成器105a产生关于前一频带的差分残差105a'(不能对第一、最低频带进行此操作)。预处理音频信号102可在差分残差生成器105a处进行差分,以产生差分残差105a。预测部分110'可以对信号102执行预测,以产生预测值112。
图5示出了编码操作500的示例。至少一些步骤可以由编码器100、100a、100b、100d、100e、100f来执行。
第一编码操作502(第一阶段)可以是采样操作,根据采样操作获得方向信号。然而,采样操作502不一定在方法500中执行或不一定由编码器100、100a、100b执行,并且可以例如由外部设备执行(并且音频信号101因此可以存储在存储器中,或传输到编码器100、100a、100b)。
步骤504包括所获得值的分贝或另一对数标度的转换和/或将音频信号101分解到不同的频带上。因此,后续步骤508-514可以对每个带执行,例如在对数(例如分贝)域中。
在步骤508,可以执行第三阶段的差分(例如,以获得每个频带的差分值)。此步骤可以由差分生成器105a执行,并且在一些示例中可以跳过(例如在图1f中)。
步骤504和508(第二和第三阶段)中的至少一个可以由预处理器105执行或在块10d中执行,并且可以提供例如音频信号101的经处理版本102(预测可以在经处理版本上执行)。然而,步骤504和508并不一定要由编码器100、100a、100b、100d、100e、100f来执行:在一些示例中,步骤504和/或508可以由外部设备来执行,并且音频信号101的经处理版本102可以用于预测。
在步骤509和510处,执行第四阶段的预测音频值(例如,对于每个频带)(例如,由预测块110)。通过模拟要执行的不同预测(例如,不同阶数的预测),并根据模拟决定使用提供最佳预测效果的预测,可以执行选择预测的可选状态509。例如,最佳预测效果可以是最小化预测残差和/或最小化比特流104的长度的效果。在步骤510处,执行预测(如果已执行步骤509,则预测是在步骤509中选择的预测,否则,预测是预先确定的)。
在步骤512处,可以执行预测残差计算步骤。这可以通过预测残差生成器120(或者更一般地通过预测部分110’)来执行。例如,可以计算音频信号101(或其经处理的版本102)之间的预测残差112,以便在比特流中编码。
在步骤514,可以例如由比特流写入器130执行第五阶段的比特流写入。比特流写入514可以例如受到压缩,例如通过用代码替换预测残差112,以最小化比特流104中的位长度。
图1a(及其对应的图1d,其中缺少了残差生成器105a)示出了编码器100a(相应地,100d),其可以代替图1的编码器100。音频信号101在预处理块105a处被预处理和/或量化。因此,可以获得预处理的音频信号102。预处理的音频信号102可用于预测块110处(或更一般地,预测部分110’处)的预测,从而获得预测值112。差分残差生成器105a(在图1a-1c中,但不在图1d-1e中)可以输出差分残差105a'。预测残差生成器120可以通过从差分残差105a'中减去预测结果112来生成预测残差102。在图1d-1e的示例中,残差122是由预测值112与实测值102之间的差产生的。预测残差122可以在比特流写入器130中被编码。比特流写入器130可以具有另一个还原概率估计132,其估计每个代码的概率。如反馈线133所示,概率可以被更新。范围编码器134可以根据其概率在码中插入到比特流104中。
图1b(及其对应的图1e,其中缺少残差生成器105a)示出了类似于图1a的示例的编码器100b(相应地,100e)的示例。与图1a的示例的不同之处在于,预测器选择块109a(预测部分110'的一部分)可以执行预测109a'(可在所选择的预测步骤509处进行)以决定使用哪个预测的阶数,例如(预测的阶数在图6和7中公开,见下文)。
不同的频带可以具有相同的空间分辨率。
解码器及解码方法
图2a和2b分别示出了解码器200a、200的示例(两个解码器之间的区别在于图2a的解码器200没有呈现积分器205a,积分器的作用与图1a-1c的差分块105a相反)。解码器200可以读取比特流104(例如,由编码器100、100b、100c、100e、100f、100d生成的比特流)。比特流读取器230可以提供从比特流104解码的值222。值222可以表示编码器的预测残差值122。如上所述,不同频带的预测残差值222可以不同。可以将值222输入到预测块210和积分器205a。预测块210可以以与编码器的预测块110相同的方式预测预测值122,但是具有不同的输入。
预测残差加法器220的输出可以是要预测的值212。将要预测的音频信号的值提交到预测块210。可以获得预测值212。
一般来说,预测器210和加法器220(以及积分器块205a,如果提供的话)是预测部分210'的一部分。
值202然后可以经过后处理器205,例如通过从对数(分贝)域转换到线性域;通过构成不同的频带。
图4示出了解码方法800的示例,其可例如由解码器200执行。在步骤815,可以有比特流读取的操作,以读取比特流104。在步骤810,可以存在预测操作(例如,见下文)。在步骤812可以存在应用预测残差的操作,例如在预测残差加法器220处。在步骤808(可选的)中可以存在逆差分操作(例如求和,积分),例如在块205a处。在步骤804处,可以存在从对数域(分贝)到线性域的转换的操作和/或频带的重组操作。在步骤802处可以存在渲染操作。
不同的频带可以具有相同的空间分辨率。
单位球体中的坐标
图3示出了用于对音频信号101(102)进行编码的坐标系的示例。音频信号101(102)是定向的,这意味着不同的方向原则上具有不同的音频值(可以在对数域中,诸如分贝)。为了提供不同方向的音频值,使用单位球体1作为坐标参考(图3)。这个坐标参考用来表示声音的方向,想象人类听众在球体的中心。声音的不同来源方向与单位球体1中的不同位置相关联。单位球体1中的位置是离散的,因为不可能具有每个可能的方向的值(理论上为无穷多)。单位球体1中的离散位置(在下面的某些部分也被称为“点”)可以根据类似于通常用于行星地球的地理坐标系(听众位于地球中心)或天文坐标的坐标系来放置。这里定义了北极4(在听众上方)和南极2(在听众下方)。赤道线也存在(对应于图3中的线20),在听众的高度。赤道线是圆周,其直径为单位球体1的直径。在赤道线和两极中的每个之间定义多个平行线(圆周)。因此,从赤道线到北极4,定义多个直径单调递减的平行线,覆盖北半球。这同样适用于从赤道线到南极2穿过覆盖南半球的其他平行线的序列。赤道线因此与音频信号的不同高度(仰角)有关。可以理解,平行线(包括赤道线)加上南极2和北极4,覆盖单位球体1的整体。因此,每条平行线和每个极与一个独特的仰角相关联(例如,赤道线与仰角0°相关联,北极与90°相关联,北半球中的平行线的仰角在0°到90°之间,南极与-90°相关联,南半球中的平行线的仰角在-90°到0°之间)。此外,可以定义至少一条子午线(在图3中,示出了一条子午线与附图标记10对应)。至少一条子午线可以理解为从南极2到北极4的圆周弧线。至少一条子午线可以表示单位球体1中从极点到极点的最大周长的拱(例如,半圆周)。子午线的周向延伸可以是赤道线的周向延伸的一半。我们可以认为北极4和南极2是子午线的一部分。值得注意的是,至少一条子午线是由彼此对齐的离散位置形成的。然而,由于相邻平行线的离散位置之间的方位不对准,不能保证在单位球体1的表面上都有其他子午线。这不是一个问题,因为只要确定一条子午线就足够了,这条子午线由彼此对齐的离散位置(取自不同的平行线)组成。对于每条平行线,离散位置可以用相对于参考方位角0°的方位角来测量。子午线可以位于参考方位角0°,并且因此可以用作测量方位角的参考子午线。因此,每个方向可以与具有特定仰角的平行线或极相关联,和与子午线相关联(通过特定的方位角)。
在示例中,坐标可以用索引来表示,而不是用角度来表示,诸如:
1)仰角索引ei(指示当前预测的离散位置的平行度,赤道具有ei=0对应仰角0°,南极和南半球中的平行线的索引为负数,北极和北半球中的平行线的索引为正数)
2)方位角索引ai(指示当前预测的离散位置的方位角;参考子午线具有ai=0,对应方位角=0°,随后的离散位置被逐步地编号)
3)使得一旦被预测,值(有时表示为cover[ei][ai])指示离散位置中的预测值。
在编码器上进行预处理和差分
可以对音频信号101进行一些预处理(例如504)和差分(例如508),以例如通过预处理器105获得经处理的版本102,和/或例如通过差分残差生成器105a获得差分残差版本105a'。
例如,音频信号101可以在不同的频带之间被分解(在504处)。随后可针对特定频带执行每个预测过程(例如在510处)。因此,编码的比特流104可以具有在其中编码的不同频带的不同预测残差。因此,在一些示例中,下面关于预测的讨论(预测序列、预测子序列球单元等)对每个频带都有效,并且可以对其他频带重复。此外,音频值可以被转换(例如在504处)到对数标度上,诸如在分贝域中。对于仰角和/或方位角,可以选择粗量化步长(例如,1.25dB到6dB)。
沿着单位球体1的不同位置的音频值可以受到差分。例如,在单位球体1的特定离散位置处的差分音频值105a'可以通过对于音频相邻离散位置(其可以是已经差分的离散位置)的音频值减去特定离散位置处的音频值来获得。可执行预定路径来区分不同的音频值。例如,可以没有差分地提供特定的第一点(例如,南极),而所有其余的差分可能沿着预定义的路径执行。在示例中,可以定义序列,这些序列可以是用于预测的相同序列。在一些示例中,可以根据不同的频带分离音频信号的频率,并对每个频带执行预测。
需要注意的是,预测块110通常由预处理音频信号102输入,而不是由差分残差105a’输入。随后,预测残差生成器120将产生预测残差值122。
上述技术可以相互结合使用。对于第一频带(例如,最低频带)可以通过从相同频率的相邻离散位置差分来获得,而对于其余频率(例如,更高频率),可以执行与紧接在前面的相邻频带的差分。
编码器和解码器处的预测
现在讨论在编码器的预测块110和解码器的预测块210处的预测的描述,或在步骤510处执行的预测的描述。
注意,当在编码器处进行预测时,输入为预处理的音频信号102。
沿着整个单位球体1的音频值的预测可以根据多个预测序列执行。在示例中,可以执行至少一个初始预测序列和至少一个后续预测序列。通过基于同一初始预测序列中紧接在前面的音频值的音频值预测音频值,至少一个初始预测序列(可由两个初始预测序列10、20体现)可沿着相邻离散位置的线(例如子午线)延伸。例如,可以存在沿着至少一条子午线从南极2向北极4延伸的至少第一序列10(其可以是子午线初始预测序列)。因此,预测值可以沿着参考子午线(方位角=0°)传播。将示出,在南极2(第一序列的起始位置)可以插入非预测值,但随后的预测值通过子午线向北极4传播。
可沿赤道线定义第二初始预测序列20。在这里,相邻离散位置的线由赤道线(赤道周长)形成,并且根据预定义的圆周方向来预测音频值,例如,从最小正方位角(最接近0°)到最大方位角(最接近360°)。值得注意的是,第二序列20以预测子午线(在第一序列10处预测)与赤道线的交点处的值开始。该位置是第二序列20的起始位置20a(可以是方位角0°和仰角0°的值)。因此,在第二预测序列20之后,执行至少一条子午线(例如,参考子午线)的至少一个离散位置和每条平行线的至少一个离散位置。
至少一个后续预测序列30可以包括,例如,用于预测北半球中赤道线和北极4之间的离散位置的第三序列30。第四序列40可以预测南半球中赤道线和南极2之间的位置(在第二序列20中预测的子午线中已经预测的位置通常不会在随后的预测序列30、40中被预测)。
每个后续预测序列(第三预测序列30、第四预测序列40)可依次被细分为多个子序列。每个子序列可以沿着与先前预测的平行线相邻的一条平行线移动。例如,图2示出了北半球中第三序列30的第一子序列31、第二子序列32和其他子序列33。可以看到,每个子序列31,32,33沿着一条平行线移动,并且圆周长度小于先前的平行线的圆周长度(即子序列越靠近北极,平行线中离散位置的数量越少,要被预测的音频值越少)。第一子序列31在第二子序列32之前执行,而第二子序列32又在第三序列30的紧接着相邻的子序列之前执行,从赤道线向北极4移动。每个子序列(31,32,33)与特定的仰角相关联(因为它只预测一条平行线上的位置),并沿着增加的方位角移动。每个子序列(31、32、33)使得至少基于相同子序列中紧接在前的离散位置的音频值(该音频值应该已经被预测)和相邻的紧接在前预测的平行线的音频值来预测音频值。每个子序列31,32,33从起始位置(31a,32a,33a)开始,并沿着预定义的圆周方向传播(例如,从最接近0的方位角朝向最接近360°的方位角)。起始位置(31a,32a,33a)可能在参考子午线中,该参考子午线已经在子午线初始预测序列10处被预测。由于在第二序列20中已经预测了赤道线的事实,因此也可以依靠赤道线处的音频离散位置中的已经预测的音频值来预测第三序列30的第一子序列31。因此,在第二序列20中预测的音频值用于预测第三序列30的第一子序列31。因此,在第三序列30的第一子序列31中进行的预测不同于在赤道初始预测序列处的第二序列20:在第二预测序列20中,预测仅基于赤道线中的音频值,而第一子序列31处的预测可以不仅基于同一平行线中的已经预测的音频值,而且可以通过先前地预测赤道线中的音频值。
由于赤道线(圆周)比在其上处理第一子序列31的平行线长,因此执行第一子序列31的平行线中的离散位置与赤道线中的离散位置之间并不存在精确的对应关系(即赤道线和平行线的离散位置彼此不对准)。然而,已经理解,可以对赤道线的音频值进行插值,以达到具有平行线的相同数量的离散位置的赤道线的插值版本。
对于同一半球的其余子序列,重复同样的操作,一条平行线接着一条平行线。在一些示例中:
1)第三子序列30的每个子序列(31,32,33)可以从参考子午线中的起始位置(31a,32a,33a)开始,该起始位置在子午线初始预测序列10中已经预测过;
2)在已经预测的起始位置(31a,32a,33a)之后,通过依赖于以下来预测每个子序列(31,32,33)的每个确定的离散位置:
a.同一子序列中先前预测的紧接在前面的离散位置
b.(在某些情况下,也根据在相同的确定的离散位置中的已经预测的第二直接音频值,该第二直接音频值与紧接在前的离散位置相邻,但不与确定的离散位置相邻)
c.紧接在前面的平行线中的音频值的相邻插值版本
d.(在某些情况下,也根据在相同的确定的离散位置中的已经预测的音频值,但在先前的频带处获得)。
当第二序列30从赤道线朝向北极4移动以在北半球传播音频值时,第四序列40从赤道线向南极2移动以在南半球传播音频值。除此之外,第三序列30和第四序列40彼此类似。
可以定义不同的预测阶数。图6和图7示出了其中的一些示例。参照第一序列10和第二序列20,可以定义第一阶数(根据该阶数,从紧接在当前预测的离散位置之前和相邻的位置处的已经预测的音频值来预测特定的离散位置)。根据第二阶数,从以下两者预测特定的离散位置:
1)在紧接在当前预测的离散位置之前并相邻的位置处的第一已经预测的音频值;
2)紧接在第一已经预测的音频值的离散位置之前并相邻的位置处的第二已经预测的音频值。
图6提供了示例。图6的部分a)中示出了第一序列10和第二序列20的第一阶数:
1)第一序列10沿参考子午线移动,方位角索ai=0,仰角索引从极点移动到极点;
a.要在离散位置601(具有仰角索引ei)处预测的音频值仅从以下获得:
i.具有仰角索引ei-1的相邻位置602处的已经预测的音频值
2)第二序列20沿赤道移动,方位角从起点20a(ei=0,ai=0)移动,并且仰角索引沿赤道移动:
a.要在离散位置701处(具有仰角索引ei=0和方位角索引ai)预测的音频值仅从以下获得:
i.具有方位角索引ai-1的相邻位置702处的已预测的音频值。
现在让我们根据第二阶数来检查第一和第二序列10和20,如图6的部分b)所示:
1)第一序列10沿参考子午线移动,方位角索引ai=0,并且仰角索引ei从极点移动到极点:
a.要在离散位置601(仰角索引ei和方位角索引ai=0)预测的音频值仅从以下两者预测:
i.与当前处理的位置601相邻的第一位置602(具有仰角索引ei-1和方位角索引ai=0)处的已经预测的音频值;以及
ⅱ.与第一位置602相邻的第二位置605(具有仰角索引ei-2和方位角索引ai=0)处的已经预测的音频值。
b.预测值可以是同一预测,即pred_v[ei+1]=cover[ei-1][0](其中cover指的是预测前音频信号101或102的值);
2)第二序列20沿赤道移动,方位角a1从起点20a(ei=0,ai=0)移动,并且仰角索引ei=0:
a.要在离散位置701(高程索引ei=0,方位角索引ai)处预测的音频值仅从以下两者预测:
i.与当前处理的位置601相邻的第一位置702(具有仰角索引ei=0和方位角索引ai-1)处的已预测的音频值;以及
ⅱ.与第二位置相邻的相邻位置705(具有仰角索引ei=0和方位角索引ai-2)处的已经预测的音频值。
b.预测可以使得预测值pred_v如下获得:pred_v[ei][0]=2*cover[ei-1][0]-cover[ei-2][0]。
现在让我们检查图7中的第三和第四序列30和40(参考第三序列,特别是在第二子序列31之后执行的第二子序列32)。
例如,可以定义以下预定义阶数中的至少一个(符号和附图标记是完全通用的,仅为了理解):
1)第一阶数(图7的部分a)中示出的阶数1),根据该阶数,从以下预测位置501(仰角ei,方位角ai)中的音频值:
a.同一子序列32中的紧相邻离散位置502(ei,ai-1)中的先前预测的音频值;以及
b.先前预测的平行线31的插值版本31'(ei,ai-1)中相邻位置503的插值音频值;
c.例如,根据公式pred_v=cover[ei-1][0](例如同一预测);
2)第二阶数(阶数2,图7的部分b)所示)(使用紧接在前的仰角和两个紧接在前的方位角),根据该阶数,从以下获得要在位置501(在随后的序列32中)预测的音频值:
a.同一子序列32中相邻离散位置502中的预测音频值;
b.相同的子序列中与位置502相邻的位置505中的一个第一插值音频值;
c.例如,根据公式pred_v=2*cover[ei-1][0]-cover[ei-2][0];
3)第三阶数(图7的部分c)所示的阶数3)(同时使用紧接在前的仰角值和紧接在前的方位角值),根据该阶数,从以下获得位置501处待预测的音频值:
a.相同子序列32中的相邻离散位置502中的先前预测的音频值;以及
b.先前预测的平行线31'的插值版本31'中的相邻位置503中的插值音频值;
c.与第一插值音频值的位置相邻且与要预测的值501的同一子序列32中的相邻离
散位置502中的音频值相邻的位置506中的一个第二插值音频值;
d.例如,根据公式其中/>是位置502处的预测值,/>是在503处的预测插值值,以及/>是在506处的预测插值值。
4)第四阶数(图7的部分d)所示的阶数4)(使用紧接在前的仰角值和两个紧接在前的方位角值(ai-1和ai-2)),根据该阶数,从以下获得在位置501(在子序列32中)待预测的音频值:
a.同一子序列32中相邻位置502中的预测音频值;
b.同一子序列32中与位置502相邻的相邻位置505中的一个第一插值音频值;
c.先前预测的平行线31的插值版本31'中的相邻位置503中的一个第一插值音频值;
d.与第一插值音频值的位置503相邻并且也在同一子序列中与相邻的位置502相邻的位置506中的一个第二插值音频值
e.例如,根据公式其中/>是位置502处的预测值,/>是位置505处的预测值,/>是位置503处的预测插值值,并且是位置506处的预测插值值
即使已经参考了子序列32,这对于第二序列30和第四序列40也是通用的。
排序的类型可以在比特流104中发信号通知。解码器将采用比特流中发信号通知的相同的预测。
可以针对每个预测序列选择性地(例如,通过块109a和/或在步骤509)选择下面讨论的预测阶数(例如,针对初始预测序列10和20的一个选择,以及针对后续预测序列30和40的一个选择)。例如,可以发信号通知第一和第二初始序列10和20将以阶数1或阶数2执行,并且可以发信号通知第三和第四序列30和40将以阶数1、2、3和4之间选择的阶数执行。解码器将读取信令,并根据选择的阶数执行预测。值得注意的是,阶数1和2(图7,部分a)和b))不要求预测也基于先前的平行线。预测阶数5可以如图1a-1c和2a所示。
基本上,编码器可以例如,基于模拟,选择(例如,在块109a和或在步骤509)通过沿着平行线移动并与先前预测的平行线相邻来执行至少一个后续预测序列(30,40),使得仅基于相同子序列(31,32,33)中相邻离散位置的音频值来预测沿着正在被处理的平行线的音频值。解码器将基于比特流104的信令遵循编码器的选择,并将如请求的执行预测,例如根据选择的阶数。
注意,在预测块210进行预测后,可将预测值212(在加法器220处)与预测残差值222相加,从而得到信号202。
参考解码器200或200a,可以认为预测部分210’包括预测器210和加法器200,以便将残差值(或由积分器205a产生的积分信号105a’)加到预测值212。然后可以对获得的值进行后处理。
参照上述,需要注意的是,第一序列10可以以从比特流获得的值(例如在南极处的值)开始(例如在南极处)。在编码器和/或解码器中,此值可能是非残差的。
编码器处的残差生成器和比特流写入器
参考图1d-1f,预测残差生成器120可通过从信号102中减去预测值112来执行减法,以生成预测残差值122。
参考图1a-1c,预测残差生成器120可通过从信号105a'中减去预测值112执行减法,以生成预测残差值122。
比特流写入器可以将预测残差值122写入比特流104。在某些情况下,比特流写入器可以通过使用单阶段编码对比特流104进行编码。在示例中,较频繁的预测音频值(例如112)或其处理版本(例如122)与比较不频繁的预测音频值或其处理版本相比与具有更低长度的代码相关联。
在某些情况下,可以执行两阶段编码。
解码器处的比特流读取器
待由比特流读取器230执行的读取基本上遵循为编码比特流104所描述的规则,因此不详细重复这些规则。
在某些情况下,比特流读取器230可以使用单阶段解码来读取比特流104。在示例中,较频繁的预测音频值(例如112)或其处理版本(例如122)与比较不频繁的预测音频值或其处理版本相比与具有更低长度的代码相关联。
在某些情况下,可以执行两阶段解码。
解码器处的后处理和渲染
可以对音频信号201或202执行一些后处理,以获得要渲染的音频信号的处理版本201。可以使用后处理器205。例如,音频信号201可以被重新组合以重新组合频带。
此外,音频值可以从对数标度(诸如在分贝域中)重新转换为线性域。
沿着单位球体1的不同位置的音频值(可以定义为差分值)可以被重新组合,例如,通过添加紧接在前面的相邻离散位置的值(除了第一值之外,例如在南极,它可以不是差分的)。定义了预定义的顺序,该顺序与编码器200的预处理器205所采用的顺序相同(该顺序可以与用于预测的顺序相同,例如,首先是第一序列10,然后是第二序列20,然后是第三序列30,最后是第四序列40)。
解码的示例
这里具体地介绍如何实现本示例,特别是从解码器200的角度来看。
方向性用于实现音频元素的方向性属性。为此,方向性工具由两个组件组成:方向性数据的编码和方向性数据的呈现。方向性表示为多个覆盖,其中每个覆盖被算术编码。方向性的渲染是通过检查哪些RI使用方向性来完成的,从方向性中获取过滤器增益系数,并将EQ应用于RI的元数据。
在这里,当它被称为“点”时,它被称为上面定义的“离散位置”。
数据元素和变量:
covers此阵列保存所有已解码的方向性覆盖
dbStepIdx这是分贝量化范围的索引。
dbstep此数字是这些值被量化到的分贝步长。
intper90此整数是围绕覆盖的赤道每90度的方位角点的间隔。
elCnt此整数是覆盖上的仰角点的数量。
aziCntPerEl此阵列中的每个元素表示每个仰角点的方位角点的数量。
coverWidth此数字是围绕赤道的最大方位角点。
minPosVal此数字是可以被编码的最小可能分贝值。
maxPosVal此数字是可以被编码的最大可能分贝值。
minVal此数字是编码数据中实际出现的最低分贝值。
maxVal此数字是编码数据中实际存在的最低分贝值。
valAlphabetSize这是用于解码的字母表中符号的数量。
predictionOrder此数字表示此覆盖的预测阶数。这影响了如何使用先前的残差数据(如果存在)重建覆盖。
cover此二维矩阵表示给定频带的覆盖。第一索引是仰角,并且第二索引是方位角。该值是该方位角和仰角的去量化分贝值。注意,方位角点的长度是可变的。
coverResiduals此二维矩阵表示覆盖的残差压缩数据。它反映了与覆盖相同的数据结构,但是该值是残差数据而不是分贝值本身。
freq这是最终去量化的频率值,单位是赫兹。
freqIdx这是需要去量化以检索原始值的频率的索引。
freq1oIdxMin这是八度量化模式中的最小可能索引。
freq1oIdxMax这是八度量化模式中的最大可能索引。
freq3oIdxMin这是第三八度量化模式中的最小可能索引。
freq3oIdxMax这是第三八度量化模式中的最大可能索引。
freq6oIdxMin这是第六八度量化模式中的最小可能索引。
freq6oIdxMax这是在第六八度量化模式中的最大可能索引。
定义:
Sphere Grid单位球体表面上的点的准均匀网格。
其中,v为当前覆盖,ei为仰角索引,以及ai为方位角索引。
其中,/>为当前覆盖的固定线性预测器,ei为仰角索引,并且ai为方位角索引。
其中,/>为经过循环插值的当前覆盖,并且其中ei为仰角索引,并且其中ai为方位角索引。
nei其中,n为每仰角球面网格中方位角点的数量,并且其中ei为仰角索引。
解码过程
一旦接收到方向性有效载荷,在方向性阶段初始化之前,解码过程就开始了。每个覆盖具有相关的频率;direcFreqQuantType指示如何解码频率,即确定频带的宽度,这是在readQuantFreq()中完成的。变量dbStep确定增益系数的量化步长;其值在0.5~3.0的范围内,增量为0.5。intPer90是赤道象限周围的方位角点的数量,并且是用于球体网格生成的关键变量(此整数是覆盖上的仰角点的数量)。direcUseRawBasline确定为增益系数选择两种解码模式中的哪一种。可用的解码模式为“基线模式”或“优化模式”。基线模式简单地使用均匀概率分布对每个分贝索引进行算术编码。然而,优化模式使用残差压缩与自适应概率估计器以及五个不同的预测阶数。最后,在解码完成后,方向性被传递到场景状态,其中其他场景对象可以引用它们。
球体网格生成
球体网格确定覆盖的空间分辨率,不同的覆盖的空间分辨率可能不同。覆盖的球体网格有许多不同的点。在赤道上,至少有4个点,可能更多,这取决于intPer90的值。在北极和南极,只有一个点。在不同的仰角,点的数量等于或少于赤道上的点的数量,并且随着仰角接近两极而减少。在每一个仰角层上,第一方位角点总是0°,从南极到赤道,最后到北极,形成一条均匀间隔的点的线。对于跨不同仰角的其余方位角点,不保证此属性。以下是伪代码格式的描述:
基线模式
基线模式采用具有均匀概率分布的范围解码器对量化分贝值进行解码。可以存储的最大和最小可能值(即maxPosVal,minPosVal)分别为-128.0和127。可以使用dbStep和实际的最大和最小可能值(maxVal,minVal)找到字母表大小。解码分贝后,进行简单的重新缩放以找到实际的dB值。这可以从表中看出。
优化模式
优化模式解码使用顺序预测方案,该方案以特殊阶数遍历覆盖。此方案由predictionOrder确定,其中其值可以是1和5之间的整数(包括1和5)。predictionOrder指示使用哪个线性预测阶数(1或2)。当predictionOrder==1||predictionOrder==3时,线性预测阶数为1,并且当predictionOrder==2||predictionOrder==4时,线性预测阶数为2。遍历由四个不同的序列组成:
第一序列垂直地进行,从南极到北极的值,方位角都是0。序列的第一值(coverResiduals[0][0])在南极不被预测。此值作为预测其余值的基础。此预测使用阶数1或2的线性预测。使用预测阶数1,则使用先前的仰角值,其中预测阶数2使用两个先前的仰角值作为预测的基础。
第二序列是水平的,在赤道,从方位角0度的值(在第一序列中已经预测)的下一个值,直到方位角接近360度的值之前的值。这些值也使用阶数1或2的线性预测从先前的值进行预测。与序列一类似,使用1的预测阶数使用先前的方位角值,而使用2的预测阶数使用前两个方位角值作为预测基础。
第三序列是水平的,按照每一个仰角的顺序,从靠近赤道的那个开始,朝向北极,直到北极之前的那个。每个水平子序列从方位角0度的值(在第一序列中已经预测)的下一个值开始,直到方位角接近360度的值之前的值。当(predictionOrder==1||predictionOrder==2||predictionOrder==3||predictionOrder==4)时,使用阶数1或2的线性预测从先前的值预测值,如上所述。此外,当(predictionOrder==3||predictionOrder==4)时,除了当前覆盖的先前值外,还使用来自先前预测的仰角的值。由于先前预测的仰角ei-1上的球体网格上的点数与当前预测仰角ei上的点数/>不同,因此方位角点的数量在球体网格中的仰角之间不匹配。因此,在先前预测的仰角ei-1处的点被循环插值以产生/>个新点,其中ai是方位角索引,v是表示覆盖的2d向量。例如,如果当前仰角处的点数为24,并且先前仰角处的点数为27,则它们被循环插值以产生24个新点。插值是线性的,以保持单调性。对于要预测的给定点值/>使用水平方向上的先前点值/>和循环插值的新点上的相应的先前点值/>和当前点值/>(从先前的仰角水平导出)作为回归量来创建具有3个线性预测系数的预测器。使用固定线性预测器,即其在dB域中预测完美的二维线性斜率。
第四序列也是水平的,按照每一个仰角的顺序,和第三序列完全一样,但是从靠近赤道的那个开始,朝向南极,直到南极之前的那个。
下面的伪代码描述了上述算法:
/>
/>
/>
阶段描述
阶段对更新线程中的所有RI进行迭代,检查是否可以应用方向性,如果可以,则该阶段获取收听者和RI之间的相对位置,并向方向性查询过滤器系数。最后,该阶段将这些滤波器增益系数应用于RI的中央EQ元数据字段,以在EQ阶段中最终进行听觉化。
更新线程处理
通过使用中央EQ元数据字段,方向性应用于objectSourceHasDirectivity和loudspeakerHasDirectivity的数据元素中所有值为真的RI(以及由早期反射和衍射阶段的此类RI得出的次级RI),字段在EQ阶段应用于音频信号之前累积所有EQ效果。需要收听者在极坐标中相对于RI的相对位置来查询方向性。这可以实现,例如使用笛卡尔坐标到极坐标转换、齐次矩阵变换或四元数。在次级RI的情况下,必须使用它们对于它们的父辈的相对位置来正确地听觉化方向性。为了一致的频率分辨率,对方向性数据进行线性插值,以匹配元数据字段的EQ频带,这可能与比特流表示不同,取决于比特流压缩配置。对于每个频带,根据公式Ceq=exp(d logm)应用方向性(可从objectSourceDirectiveness或loudspeakerDirectiveness中获得),其中d是方向性值,并且m是从与请求的频带相邻的覆盖得出的插值幅度,并且Ceq是用于EQ的系数。
音频线程处理
方向性阶段在音频线程中没有额外的处理。滤波器系数的应用在EQ阶段完成。
比特流语法
在需要字节对齐的环境中,长度不是整数字节的MPEG-I沉浸式音频配置元素或有效载荷元素在末尾填充,以实现整数字节计数。这由函数ByteAlign()表示。
渲染器有效载荷语法(待插入到比特流104中)
表1-payloadDirectivity()的语法
directivitiesCount:此整数表示有效载荷中存在的源方向性的数量
directivityId:此整数是此源方向性的标识符
directivityCodedLength;此整数表示编码的源方向性数据的大小(以字节为单位)
表2-coverSet()的语法
direcCoverCount:此整数表示可用的覆盖的数量direcFreqQuantType:此整数确定每个覆盖的频率的量化类型
表3-directivityCover()的语法
表4-readQuantFrequency()的语法
direcFreqQuantType:此整数确定每个覆盖的频率的量化类型
表5-rawCover()的语法
minVal:此数字是编码数据中实际存在的最低分贝值
minPosVal:此数字是可以被编码的最小分贝值
valAlphabetSize:这是用于解码的字母表中符号的数量
表6-optimizedCover()的语法
讨论
新方法由五个主要阶段组成。第一阶段使用编码器可选择的密度生成单位球体的准均匀覆盖。第二阶段使用编码器可选择的精度将值转换为dB标度并量化它们。第三阶段用于通过将值转换为相对于前一个频率的差来消除连续频率之间可能的冗余,这在较低频率和使用相对粗糙的球体覆盖时尤其有用。第四阶段是序列预测方案,该方案以特定的顺序遍历球体覆盖。第五阶段是预测残差的熵编码,使用其分布的自适应估计器并使用范围编码器对其进行最优编码。
新方法的第一阶段可以是使用多个点(离散位置)对单位球体1进行准均匀采样,使用在方向性文件中可用的精细或非常精细的球体网格上的进一步插值。使用编码器可选密度的准均匀球体覆盖具有许多理想的特性:总是存在仰角0(赤道),在每个仰角水平存在方位角0的球体点,并且对于给定的任意仰角和方位角,确定最近的球体点和执行双线性插值都可以在恒定时间内完成。控制球体覆盖的密度的参数是赤道上两个连续点之间的夹角,即度数步长。由于期望性质所隐含的约束,度数步长必须是90度的除数。最粗的球体覆盖,度数步长为90度,对应共6个球体点:两极处的2个点和赤道上的4个点。在另一端,2度的度数步长对应总共10318个球体点和赤道上的180个点。此球体覆盖非常类似于用于IVAS中DirAC方向元数据的方位角和仰角量化的球体覆盖,只是它的约束较少。相比之下,没有要求除赤道以外的每个仰角水平上的点的数量是4的倍数,这是在DirAC中选择的,目的是确保始终存在方位角为90、180和270度的球体点。在图1a-1f中没有示出此第一阶段,但它提供音频信号101。
第二阶段可以将线性域值转换为dB域,线性域值是正的,但不限于最大值1。根据为方向性选择的归一化约定(即,球体上的平均值为1,赤道上方位角为0处的值为1,等等),值可以大于1。量化使用编码器可选择的精度在dB域中线性地完成,通常使用从0.25dB处的非常精细到6dB处的非常粗略的量化步长。在图1a-1f中,此第二阶段可由编码器100的预处理器105执行,其反向功能由解码器200的后处理器205执行。
第三阶段(差分)可用于消除连续频率之间可能的冗余。这是通过将当前频率的球体覆盖上的值转换为相对于先前频率的球体覆盖上的值的差值来实现的。此方法在较低频率下特别有利,在较低频率下,对于给定仰角和方位角的跨频率的变化往往小于高频。此外,当使用相当粗糙的球体覆盖时,例如,度步长为22.5度或更高,与连续频率之间的相关性相比,相邻连续球体点之间的相关性较小。在图1a-1f中,此第三阶段可由编码器100的预处理器105执行,其反向功能由解码器200的后处理器205执行。
第四阶段是顺序预测方案,它以特定阶数对于一个频率遍历球体覆盖。选择此阶数是为了基于先前预测值的邻域来增加值的可预测性。它由4个不同的序列10、20、30、40组成。第一序列10是垂直的,例如从南极到北极的值,方位角都是0°。序列的第一值(在南极点2)没有被预测,其余的是使用阶数1或2的线性预测从先前的值预测。第二序列20在赤道处水平移动,从方位角0度的值(在第一序列中已经预测)的下一个值开始,直到方位角接近360度处的值之前的值。这些值也使用阶数1或2的线性预测从先前的值进行预测。一种选项是使用固定的线性预测系数,编码器选择最佳预测阶数,即产生预测误差(预测残差)的最小熵的阶数。
第三序列30是水平的,按照每一个仰角的顺序,从靠近赤道的那个开始,朝向北极,直到北极前面的那个。每个水平子序列从方位角0度处的值(在第一序列中已经预测)的下一个值开始,直到方位角接近360度的值之前的值。这些值是使用阶数1或2的线性预测,或者也使用在先前预测的仰角处可用的值的特殊预测模式,从先前的值预测的。由于先前预测的仰角ei-1处的点数与当前预测的仰角ei处的点数/>不同,因此它们的方位角不匹配。因此,在先前预测的仰角ei-1处的点/>被循环插值以产生/>个新点。例如,如果当前仰角处的点数为24,并且先前仰角处的点数为27,则它们被循环插值以产生24个新点。插值通常是线性的,以保持单调性。对于要预测的给定点值/>使用水平方向上的先前点值和循环插值的新点上的相应的先前点值/>和当前点值/>(从先前的仰角水平导出)作为回归量来创建具有3个线性预测系数的预测器。一个选项是使用固定线性预测器,即/>其在dB域中预测完美的二维线性斜率。
第四序列40也是水平的,按照每个仰角的顺序,完全如第三序列30,但是从靠近赤道的那个开始,朝向南极2,直到南极2之前的那个。对于第三和第四序列30和40,编码器100可以在阶数1预测、阶数2预测和特殊预测中选择最佳预测模式,产生预测误差(预测残差)的最小熵的那个模式。
在图1a-1f中,此第四阶段可由编码器100的预测块120执行,其反向功能由解码器200的预测块210执行。
第五阶段是预测残差的熵编码,使用其分布的自适应概率估计器,并使用范围编码器进行最优编码。对于小到中等度数步长,即5度到15度,典型方向性的预测误差(预测残差)通常具有非常小的字母范围,如{-4,…,4}。此非常小的字母大小允许直接使用自适应概率估计器,以最优地匹配预测误差(预测残差)的任意概率分布。对于大到非常大的度数步长,即18到30度,字母表大小变得更大,以零为中心的奇数整数大小的相等仓可以可选地用于匹配预测误差的概率分布的总体形状,同时保持有效字母表大小较小。值的编码分两个阶段进行,首先使用自适应概率估计器对仓索引进行编码,然后使用均匀概率分布对仓内的位置进行编码。编码器可以选择提供最小总熵的最优仓大小。例如,如果为3的仓大小将值-4、-3、-2分组在一个仓中,将值-1、0、1分组在另一个仓中,以此类推。在图1a-1c中,此第五阶段可由编码器100的比特流写入器120执行,其反向功能可由解码器200的比特流读取器230执行。
进一步实施例
这里要提到的是,前面讨论的所有替代方案或方面以及以下权利要求中由独立权利要求定义的所有方面可以单独使用,即,除了所考虑的替代方案、对象或独立权利要求外,不需要任何其他替代方案或对象。然而,在其他实施例中,独立权利要求的两个或多个替代方案或方面可以相互组合,并且在其他实施例中,所有方面或替代方案和所有独立权利要求可以相互组合。
本发明的编码信号可以存储在数字存储介质或非暂时性存储介质上,或者可以在诸如无线传输介质或诸如因特网的有线传输介质上传输。
尽管在装置的上下文中描述了一些方面,但很明显,这些方面也代表了对相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对相应装置的相应块或项目或特征的描述。
根据某些实施要求,本发明的实施例可以在硬件或软件中实现。该实现可以使用数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,其具有存储在其上的电子可读控制信号,其与可编程计算机系统协作(或能够协作),从而执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作,从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可用于执行所述方法之一。程序代码可以例如存储在机器可读的载体上。
其他实施例包括用于执行本文所述方法之一的计算机程序,该程序存储在机器可读载体或非暂时性存储介质上。
换句话说,因此,本发明方法的实施例是,当计算机程序在计算机上运行时,具有用于执行本文所述方法之一的程序代码的计算机程序。
因此,本发明方法的进一步实施例是数据载体(或数字存储介质,或计算机可读介质),包括记录在其上的用于执行本文所述方法之一的计算机程序。
因此,本发明方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接传送,例如经由互联网传送。
进一步实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置为或适于执行本文所述方法之一。
进一步实施例包括在其上安装了用于执行本文所述方法之一的计算机程序的计算机。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的部分或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器合作以执行本文所述的方法之一。通常,优选由任何硬件装置执行方法。
上述所描述的实施例仅是对本发明的原理进行说明。应当理解,本文所述的布置和细节的修改和变化对于本领域技术人员将是显而易见的。因此,其意图仅受即将到来的专利权利要求的范围的限制,而不受通过本文的实施例的描述和解释所提供的具体细节的限制。

Claims (59)

1.一种用于解码比特流(104)中编码的音频信号的装置(200,200a),音频信号具有根据不同方向的不同音频值,方向与单位球体(1)中的离散位置相关联,单位球体(1)中的离散位置根据平行线从赤道线向第一极(2)、从赤道线向第二极(4)移位,所述装置包括:
比特流读取器(130),被配置为从比特流(104)读取编码音频信号的预测残差值;
预测部分(210'),被配置为通过预测和从编码音频信号(104)的预测残差值获得音频信号(101、102),预测部分(210')使用多个预测序列(10、20、30、40),多个预测序列包括:
至少一个初始预测序列(10,20),沿着相邻的离散位置(10)的线,基于相同初始预测序列(10)中紧接在前面的音频值的音频值预测音频值;以及
至少一个后续预测序列(30,40),分为多个子序列(31,32,33),每个子序列(31,32,33)沿着平行线移动并与先前预测的平行线相邻,并且使得沿着正在被处理的平行线的音频值至少基于以下被预测:
同一子序列(31、32、33)中相邻离散位置的音频值;以及
先前预测的相邻平行线的音频值的插值版本(31'),相邻先前预测的平行线的每个插值版本(31')具有与正在被处理的平行线的相同数量的离散位置。
2.如权利要求1所述的装置,其中至少一个初始预测序列包括沿单位球体(1)的子午线的子午线初始预测序列(10),
其中,多个子序列(31,32,33)中的至少一个从已经预测的至少一个子午线初始预测序列(10)的离散位置(31a,32a,33a)开始。
3.如权利要求2所述的装置,其中至少一个初始预测序列包括沿单位球体(1)的赤道线的在子午线初始预测序列(10)之后执行的赤道初始预测序列(20),赤道初始预测序列(20)从已经预测的至少一个子午线初始预测序列(10)的离散位置(20a)开始。
4.如权利要求3所述的装置,其中多个子序列中的第一子序列(31)沿着与赤道线相邻的平行线执行,并且多个子序列中的另外子序列(32,33)朝向极(4)依次执行。
5.如上述权利要求中任何一个所述的装置,其中预测部分(220')被配置为,在至少一个初始预测序列(10,20)中,通过线性预测从相邻离散位置(602,702)中的一个已经预测的单个音频值来预测至少一个音频值(601,701)。
6.如权利要求5所述的装置,其中线性预测在至少一个预测序列中或在至少一个子序列中是同一预测,使得预测音频值与相邻离散位置中的单个音频值相同。
7.如上述权利要求中任何一个所述的装置,其中预测部分(120)被配置为,在至少一个初始预测序列(10、20)中,通过仅从第一相邻离散位置(602、702)中的一个已经预测的音频值和与第一相邻离散位置相邻的第二离散位置(605、705)中的一个已经预测的音频值进行预测,来预测至少一个音频值(601、701)。
8.如权利要求7所述的装置,其中所述预测是线性的。
9.如权利要求7或8所述的装置,其中预测使得第一相邻离散位置(601、701)中的已经预测的音频值的权重为与第一相邻离散位置(601、701)相邻的第二离散位置(605、705)中的已经预测的音频值的权重的至少两倍。
10.如上述权利要求中任何一个所述的装置,其中预测部分(210’)被配置为,在至少一个子序列(31、32、33)中,基于以下来预测至少一个音频值(501):
相同子序列(32)中相邻离散位置(502)中的紧接在前面的音频值;以及
先前预测的平行线(31)的插值版本(31')中的相邻位置(503)中的至少一个第一插值音频值。
11.如权利要求10所述的装置,其中预测部分(210’)被配置为,在至少一个子序列(31、32、33)中,还基于以下来预测至少一个音频值:
与第一插值音频值(503)的位置相邻且与同一子序列中相邻离散位置(502)相邻的位置(506)中的至少一个第二插值音频值。
12.如权利要求11所述的装置,其中,在插值中,相同的权重被给予:
先前预测的平行线(31)的插值版本(31’)中的相邻位置(503)中的第一插值音频值;以及
与第一插值音频值的位置(503)相邻并且与相同子序列(32)中的相邻位置(502)中的先前预测的音频值相邻的位置(506)中的至少一个第二插值音频值。
13.如上述权利要求中任何一个所述的装置,其中预测部分(210')被配置为,在至少一个子序列(31-33)中,通过线性预测来预测至少一个音频值。
14.如上述权利要求中任何一个所述的装置,其中通过减少先前预测的平行线(31)的离散位置的数量以匹配待预测的平行线(32)中的离散位置的数量的处理来检索紧接在前预测的平行线(31)的插值版本(31')。
15.如上述权利要求中任何一个所述的装置,其中通过圆形插值检索紧接在前预测的平行线的插值版本(31')。
16.如上述权利要求中任何一个所述的装置,被配置为基于比特流(104)中的信令,选择通过沿着平行线移动并与先前预测的平行线相邻来执行至少一个后续预测序列(30,40),使得仅基于相同子序列(31,32,33)中的相邻离散位置的音频值来预测沿着正在被处理的平行线的音频值。
17.如上述权利要求中任何一个所述的装置,其中预测部分包括用于将预测值(212)和预测残差值(222)相加的加法器(220)。
18.如上述权利要求中任何一个所述的装置,被配置为根据不同的频带分离音频信号的频率,并对每个频带执行预测。
19.如权利要求18所述的装置,其中单位球体(1)的空间分辨率对于高频带和低频带是相同的。
20.如上述权利要求中任何一个所述的装置,被配置为基于比特流中所选择的空间分辨率的信令,在多个预定义空间分辨率中选择单位球体的空间分辨率。
21.如上述权利要求中任何一个所述的装置,被配置为在对数域中转换预测的音频值(202)。
22.如上述权利要求中任何一个所述的装置,其中预测的音频值为分贝值。
23.如上述权利要求中任何一个所述的装置,包括后处理器(205),后处理器(205)被配置为通过将每个差分音频信号递归地添加到相邻的非差分音频信号,将音频信号从差分音频信号重新定义为非差分音频信号。
24.如权利要求23所述的装置,其中通过根据预定义阶数从相邻离散位置的音频值减去特定离散位置处的音频值而获得特定离散位置处的非差分音频值(201)。
25.如权利要求23或24所述的装置,
被配置为对每个频带执行预测,以及
根据不同的频带来合成(205)音频信号的频率。
26.如上述权利要求中任何一个所述的装置,其中比特流读取器(230)被配置为使用单阶段解码读取比特流(104),根据单阶段解码:
与较不频繁的预测的音频值相比,更频繁的预测的音频值与具有更低长度的代码相关联。
27.一种用于对音频信号(102)进行编码的装置(100),音频信号具有根据不同方向的不同音频值,方向与单位球体(1)中的离散位置相关联,单位球体中的离散位置根据平行线从赤道线到两极(2,4)移位,所述装置包括:
预测块(110),被配置为执行多个预测序列(10、20、30),多个预测序列(10、20、30)包括:
至少一个初始预测序列(10,20),沿着相邻的离散位置(10)的线,通过基于同一初始预测序列中紧接在前面的音频值的音频值来预测音频值;以及
至少一个后续预测序列(30,40),分为多个子序列(31-33),每个子序列(31-33)沿着平行线移动并与先前预测的平行线相邻,并且使得音频值至少基于以下被预测:
同一子序列中相邻离散位置的音频值;以及
先前预测的相邻平行线的音频值的插值版本,每个插值版本具有与平行线相同数量的离散位置,
预测残差生成器(120),被配置为将音频信号(102)的预测值与实际值进行比较以产生预测残差值(122);
比特流写入器(130),被配置为在比特流(104)中写入预测残差值(122)或其经处理版本。
28.如权利要求27所述的装置,其中至少一个初始预测序列包括沿单位球体(1)的子午线的子午线初始预测序列(10),
其中,多个子序列(31,32,33)中的至少一个从已经预测的至少一个子午线初始预测序列(10)的离散位置(31a,32a,33a)开始。
29.如权利要求28所述的装置,其中至少一个初始预测序列包括沿单位球体(1)的赤道线的在子午线初始预测序列(10)之后执行的赤道初始预测序列(20),赤道初始预测序列(20)从已经预测的至少一个子午线初始预测序列(10)的离散位置(20a)开始。
30.如权利要求29所述的装置,其中多个子序列的第一子序列(31)沿着与赤道线相邻的平行线执行,并且多个子序列的另外子序列(32,33)朝着极(4)依次执行。
31.如权利要求27-30所述的装置,其中预测块(120)被配置为,在至少一个初始预测序列(10、20)中,通过线性预测从前面相邻离散位置的一个单个音频值来预测至少一个音频值。
32.如权利要求31所述的装置,其中线性预测在至少一个预测序列中或在至少一个子序列中是同一预测,使得预测的音频值与相邻离散位置中的单个音频值相同。
33.如权利要求27-32中任何一个所述的装置,其中预测块(120)被配置为,在至少一个初始预测序列(10、20)中,通过仅从第一相邻离散位置中的一个音频值和与第一相邻离散位置相邻的第二离散位置中的第二音频值进行预测,来预测至少一个音频值。
34.如权利要求33所述的装置,其中预测是线性的。
35.如权利要求33或34所示的装置,其中预测使得第一相邻离散位置中的音频值的权重为与第一相邻离散位置相邻的第二离散位置中的第二音频值的权重的至少两倍。
36.如权利要求27-35中任何一个所述的装置,其中预测块(120)被配置为,在至少一个子序列(31、32、33)中,基于以下预测至少一个音频值(501):
同一子序列(31)中相邻离散位置(502)中的音频值;以及
先前预测的平行线(31)的插值版本中的相邻位置(503)中的至少一个第一插值音频值。
37.如权利要求36所述的装置,其中预测块(120)被配置为,在至少一个子序列(31、32、33)中,还基于以下预测至少一个音频值(501):
先前预测的平行线(31)的插值版本(31')中并且位于与第一插值音频值的位置(503)相邻且与同一子序列(32)中预测的离散位置(501)相邻的位置(502)相邻的位置中的至少一个第二插值音频值(506)。
38.如权利要求37所述的装置,其中,在插值中,相同的权重被给予:
同一子序列中相邻离散位置中的紧接在前的音频值;
先前预测的平行线的插值版本中的相邻位置中的第一插值音频值;以及
与所述第一插值音频值的位置相邻并且与相同子序列中的相邻离散位置中的音频值相邻的位置中的至少一个第二插值音频值。
39.如权利要求27-38中任何一个所述的装置,其中预测块(120)被配置为在至少一个子序列(31-33)中通过线性预测来预测至少一个音频值。
40.如权利要求27-39中任何一个所述的装置,其中通过减少先前预测的平行线的离散位置的数量以匹配待预测的平行线中的离散位置的数量的处理来检索紧接在前预测的平行线的插值版本。
41.如权利要求27-40中任何一个所述的装置,其中通过圆形插值来检索紧接在前预测的平行线的插值版本。
42.如上述权利要求中任何一个所述的装置,被配置为基于模拟,选择通过沿着平行线移动并与先前预测的平行线相邻来执行至少一个后续预测序列(30,40),使得仅基于相同子序列(31,32,33)中相邻离散位置的音频值预测沿着正在被处理的平行线的音频值。
43.如权利要求27-42中任何一个所述的装置,被配置为根据不同的频带分离音频信号的频率,并对每个频带执行预测。
44.如权利要求43中任何一个所述的装置,其中单位球体(1)的空间分辨率对于高频带和低频带是相同的。
45.如权利要求43或44所述的装置,其中。
46.如权利要求27-45中任何一个所述的装置,被配置为在多个预定义的空间分辨率中选择单位球体的空间分辨率,并在比特流中发信号通知所选择的空间分辨率。
47.如权利要求27-46中任何一个所述的装置,被配置为在预测的上游在对数域中转换音频值。
48.如权利要求27-47中任何一个所述的装置,其中音频值为分贝值。
49.如权利要求27-48中任何一个所述的装置,被配置为在预测的上游对音频值进行量化。
50.如权利要求27-49中任何一个所述的装置,被配置为将音频信号(102)重新定义为差分音频信号,使得音频值为差分音频值。
51.如权利要求50所述的装置,其中通过从相邻离散位置的音频值减去特定离散位置处的音频值来获得特定离散位置处的差分音频值。
52.如权利要求书50或51所述的装置,
被配置为根据不同频带分离音频信号的频率,并对每个频带执行预测,
其中,在当前频率处,通过将特定离散位置处的音频值从相同离散位置的音频值中减去而获得特定离散位置的差分音频值。
53.如权利要求27-52中任何一个所述的装置,其中比特流写入器(130)被配置为使用单阶段编码对比特流进行编码,根据单阶段编码:
与较不频繁的预测的音频值或其处理版本相比,更频繁的预测的音频值(112)或其处理版本(122)与具有更低长度的代码相关联。
54.如权利要求53所述的装置,被配置为将更频繁的预测的音频值或其处理版本分组在一起,并将较不频繁的预测的音频值或其处理版本分组在一起。
55.如权利要求54所述的装置,当引用权利要求1026时,被配置为在使用两阶段编码和单阶段编码之间执行选择,并在比特流中发信号通知选择。
56.如权利要求55所述的装置,被配置为基于单位球体的分辨率与阈值的比较来执行选择,使得:
如果分辨率比阈值精细,则选择单阶段编码,以及
如果分辨率比阈值粗,则选择两阶段编码。
57.一种用于解码比特流(104)中编码的音频信号的方法,音频信号具有根据不同方向的不同音频值,方向与单位球体(1)中的离散位置相关联,单位球体(1)中的离散位置根据平行线从赤道线向第一极(2)、从赤道线向第二极(4)移位,所述方法包括:
从比特流(104)读取编码音频信号的预测残差值;
使用来自多个预测序列(10、20、30、40)的预测残差值和预测值(202)解码音频信号,多个预测序列包括:
至少一个初始预测序列(10,20),沿着相邻的离散位置(10)的线,基于相同初始预测序列(10)中紧接在前面的音频值的音频值预测音频值;以及
至少一个后续预测序列(30,40),分为多个子序列(31,32,33),每个子序列(31,32,33)沿着平行线移动并与先前预测的平行线相邻,并且使得沿着正在被处理的平行线的音频值至少基于以下被预测:
同一子序列(31、32、33)中相邻离散位置的音频值;以及
相邻先前预测的平行线的音频值的插值版本,相邻先前预测的平行线的每个插值版本具有与正在被处理的平行线的相同数量的离散位置。
58.一种非暂时性存储单元,存储指令,当由处理器执行时,使处理器执行如权利要求57所述的方法。
59.一种表示音频信号的压缩描述的比特流(104),在比特流中编码有:
根据不同方向分布的预测音频值(122),所述方向与单位球体(1)中的离散位置相关联,所述单位球体(1)中的离散位置根据平行线从赤道线到第一极(2)从赤道线到第二极(4)进行移位。
CN202280052906.0A 2021-05-27 2022-05-25 方向性编解码 Pending CN117716424A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21176342.0 2021-05-27
EP21176342 2021-05-27
PCT/EP2022/064343 WO2022248632A1 (en) 2021-05-27 2022-05-25 Audio directivity coding

Publications (1)

Publication Number Publication Date
CN117716424A true CN117716424A (zh) 2024-03-15

Family

ID=76305726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280052906.0A Pending CN117716424A (zh) 2021-05-27 2022-05-25 方向性编解码

Country Status (7)

Country Link
US (1) US20240096339A1 (zh)
EP (1) EP4348637A1 (zh)
JP (1) JP2024520456A (zh)
KR (1) KR20240025550A (zh)
CN (1) CN117716424A (zh)
BR (1) BR112023024605A2 (zh)
WO (1) WO2022248632A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8964994B2 (en) * 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
JP2022539217A (ja) * 2019-07-02 2022-09-07 ドルビー・インターナショナル・アーベー 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム

Also Published As

Publication number Publication date
BR112023024605A2 (pt) 2024-02-20
EP4348637A1 (en) 2024-04-10
WO2022248632A1 (en) 2022-12-01
US20240096339A1 (en) 2024-03-21
KR20240025550A (ko) 2024-02-27
JP2024520456A (ja) 2024-05-24

Similar Documents

Publication Publication Date Title
KR100561875B1 (ko) 위치 인터폴레이터 복호화 방법 및 장치
EP1780705B1 (en) Multichannel signal decoding method, device, program, and its recording medium
CN106133828B (zh) 编码装置和编码方法、解码装置和解码方法及存储介质
US7336713B2 (en) Method and apparatus for encoding and decoding data
US9805729B2 (en) Encoding device and method, decoding device and method, and program
US20120045141A1 (en) Image encoding apparatus and decoding apparatus
CN113795870B (zh) 一种对点云属性编解码的方法、装置及存储介质
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
JP3959039B2 (ja) 画像符号化装置、画像符号化方法、画像符号化プログラム、画像復号装置、画像復号方法、及び画像復号プログラム
WO2009127097A1 (en) Method and apparatus of communication
EP3164867A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
EP3165006A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
KR20220043159A (ko) 공간 오디오 방향 파라미터의 양자화
US20110135007A1 (en) Entropy-Coded Lattice Vector Quantization
CN117716424A (zh) 方向性编解码
US20160019900A1 (en) Method and apparatus for lattice vector quantization of an audio signal
WO2021010134A1 (ja) 情報処理装置および方法
CN113115019A (zh) 视频编解码方法、装置、计算机设备及存储介质
EP3164866A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
KR101868252B1 (ko) 오디오 신호 인코더
CN112188216A (zh) 视频数据的编码方法、装置、计算机设备及存储介质
Liu et al. Index compression for vector quantization using principal index-pattern coding algorithm
CN117616499A (zh) 优化的球面向量量化
JP2001078040A (ja) 画像圧縮装置及び画像伸張装置並びに画像圧縮方法
KR20030035517A (ko) 개선된 프랙탈 영상 압축 및/또는 복원 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination