CN116762127A - 量化空间音频参数 - Google Patents

量化空间音频参数 Download PDF

Info

Publication number
CN116762127A
CN116762127A CN202080108370.0A CN202080108370A CN116762127A CN 116762127 A CN116762127 A CN 116762127A CN 202080108370 A CN202080108370 A CN 202080108370A CN 116762127 A CN116762127 A CN 116762127A
Authority
CN
China
Prior art keywords
spatial audio
audio direction
quantized
direction parameter
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080108370.0A
Other languages
English (en)
Inventor
A·瓦西拉切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN116762127A publication Critical patent/CN116762127A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

除其它外,还公开了一种用于空间音频编码的装置,该装置被配置为对空间音频方向参数进行量化和索引化,以形成量化的空间音频方向索引,其中空间音频方向参数与音频帧的频率子带的时间子帧相关联;以及通过计算在量化的空间音频方向索引与量化的平均空间音频方向索引之间的差,确定量化的空间音频差索引。

Description

量化空间音频参数
技术领域
本申请涉及用于声场相关参数编码的装置和方法,但不仅仅是用于音频编码器的时域-频域方向相关参数的编码。
背景技术
参数空间音频处理是音频信号处理的一个领域,其中使用一组参数描述声音的空间方面。例如,在从麦克风阵列的参数空间音频捕捉中,从麦克风阵列信号中估计一组参数是典型且有效的选择,例如声音在频带中的方向,以及在频带中捕捉声音的定向和非定向部分之间的比率。已知这些参数很好地描述了在麦克风阵列位置处所捕捉声音的感知空间属性。这些参数可相应地用于空间声音的合成,用于双耳耳机、用于扬声器或其它格式,例如环境立体声(Ambisonics)。
因此,在频带中的方向和方向能量与总能量之比是对于空间音频捕捉尤其有效的参数化。
在频带和时间子帧中的方向参数和在频带中的能量比参数(表明声音的方向性)组成的参数集,也可以作为空间元数据(其也可以包括其它参数,例如环绕声相干性、传播相干性、方向数、距离等)用于音频编码解码器。例如,这些参数可以从麦克风阵列捕捉的音频信号中进行估计,并且例如,可以从麦克风阵列信号中生成立体声或单声道信号,麦克风阵列信号与空间元数据一起被传输。例如,立体声信号可以用AAC编码器编码,单声道信号可以用EVS编码器编码。解码器可以将音频信号解码为PCM信号,并且对声音进行频带处理(使用空间元数据)以获得空间输出,例如双耳输出。
上述解决方案尤其适合于对从麦克风阵列(例如,在移动电话、虚拟现实摄像机、独立麦克风阵列中)捕捉的空间声音进行编码。然而,可能希望这种编码器还具有除麦克风阵列捕捉信号之外的其它输入类型,例如扬声器信号、音频对象信号或Ambisonic信号。
在与定向音频编码(DirAC)和谐波平面波扩展(Harpex)相关的科学文献中,对用于空间元数据提取的一阶Ambisonic(FOA)输入进行分析已有详尽记载。这是因为存在直接提供FOA信号(更准确地说:其变体,B格式信号)的麦克风阵列,因此分析这种输入一直是该领域的研究重点。此外,在与高阶定向音频编码(HO-DirAC)相关的科学文献中,也记录了对用于多方向空间元数据提取的高阶Ambionics(HOA)输入的分析。
编码器的另外的输入也是多声道扬声器输入,例如5.1或7.1声道环绕输入和音频对象。
然而,对于空间元数据的组成部分,空间音频参数(例如空间音频方向参数)的压缩和编码具有相当重要的,以便最小化表示空间音频参数所需的总比特数。
发明内容
根据第一方面,存在一种用于空间音频编码的装置,包括用于以下项的部件:量化空间音频方向参数并且将其索引化,以形成量化的空间音频方向索引,其中空间音频方向参数与音频帧的频率子带的时间子帧相关联;以及通过计算在量化的空间音频方向索引和量化的平均空间音频方向索引之间的差来确定量化的空间音频差索引。
量化的平均空间音频方向索引可以由该装置具有用于以下项的部件确定:对至少两个空间音频方向参数以提供平均空间音频方向参数求平均,其中至少两个空间音频方向参数与前一频率子带的连续时间子帧相关联,其中前一频率子带是比该频率子带更低的频率子带;以及量化和索引化平均空间音频方向。
该装置还可以包括用于以下项的部件:通过以下项确定频率子带的初始平均空间音频方向参数:用第一权重加权平均空间音频方向参数;用第二权重加权与来自前一音频帧的相同前一频率子带的至少两个空间音频方向参数相关联的平均空间音频方向参数;对第一加权平均空间音频方向参数和第二加权平均空间音频方向参数求平均,以提供频率子带的初始平均空间音频方向参数。
该装置还可以包括用于以下项的部件:量化和索引化另外的空间音频方向参数以形成量化的另外的空间音频方向索引,其中另外的空间音频方向参数与频率子带的后续时间子帧相关联;并且其中量化的平均空间音频方向索引可以由该装置具有用于以下项的部件确定:对频率子带的空间音频方向参数和前一空间音频方向参数进行平均,其中前一空间音频方向参数与与空间音频方向参数相关联的时间子帧的前一时间子帧相关联;以及量化和索引化空间音频方向参数和前一空间音频方向参数的平均值。
该装置还可以包括用于以下项的部件:对空间音频方向参数和至少一个另外的空间音频方向参数求平均,其中至少一个另外的空间音频方向参数与该频率子带的至少一个另外的时间子帧相关联;确定空间音频方向参数和至少一个另外的空间音频方向参数的方差;将度量确定为空间音频方向参数和至少一个另外的空间音频方向参数的方差与平均值之比;并且将该度量与阈值进行比较。
当该度量小于阈值时,该装置可以包括用于以下项的部件:量化和索引化空间音频方向参数和至少一个另外的空间音频方向参数的平均值,以提供量化的平均空间音频方向索引;量化和索引化至少一个另外的空间音频方向参数,以提供量化的至少一个另外的空间音频方向索引;以及通过计算在量化的至少一个另外的空间音频方向索引和量化的平均空间音频方向索引之间的差来确定量化的至少一个另外的空间音频差索引。
该装置还可以包括用于以下项的部件:使用Golomb Rice编码对量化的另外的空间音频方向索引、量化的空间音频差索引和量化的平均空间音频方向索引进行编码;
空间音频方向参数可以是球坐标方位角值。
用于求平均的部件可以包括用于以下项的部件:将空间音频方向参数从球形域转换为笛卡尔(cartesian)域的参数;对笛卡尔域中的参数求平均值;以及将平均的笛卡尔域的参数转换成球形域的参数。
根据第二方面,一种用于空间音频编码的方法,包括:量化和索引化空间音频方向参数,以形成量化的空间音频方向索引,其中空间音频方向参数与音频帧的频率子带的时间子帧相关联;以及通过计算在量化的空间音频方向索引和量化的平均空间音频方向索引之间的差来确定量化的空间音频差索引。
量化的平均空间音频方向索引可以包括:对至少两个空间音频方向参数求平均,以提供平均空间音频方向参数,其中至少两个空间音频方向参数与前一频率子带的连续时间子帧相关联,其中前一频率子带是比该频率子带更低的频率子带;以及量化和索引化平均空间音频方向。
该方法可以还包括:通过以下项来确定频率子带的初始平均空间音频方向参数:使用第一权重对平均空间音频方向参数进行加权;使用第二权重加权与来自前一音频帧的相同前一频率子带的至少两个空间音频方向参数相关联的平均空间音频方向参数;对第一加权平均空间音频方向参数和第二加权平均空间音频方向参数求平均,以提供频率子带的初始平均空间音频方向参数。
该方法可以还包括:量化和索引化另外的空间音频方向参数,以形成量化的另外的空间音频方向索引,其中另外的空间音频方向参数与频率子带的后续时间子帧相关联;并且其中量化的平均空间音频方向索引可以由以下项来确定:对频率子带的空间音频方向参数和前一空间音频方向参数求平均,其中前一空间音频方向参数与与空间音频方向参数相关联的时间子帧的前一时间子帧相关联;以及量化和索引化空间音频方向参数和前一空间音频方向参数的平均值。
该方法可以还包括:对空间音频方向参数和至少一个另外的空间音频方向参数求平均,其中该至少一个另外的空间音频方向参数与该频率子带的至少一个另外的时间子帧相关联;确定空间音频方向参数和至少一个另外的空间音频方向参数的方差;将度量确定为空间音频方向参数和至少一个另外的空间音频方向参数的方差与平均值之比;并将该度量与阈值进行比较。
当度量小于阈值时,该方法可以包括:量化和索引化空间音频方向参数和至少一个另外的空间音频方向参数的平均值,以提供量化的平均空间音频方向索引;量化和索引化至少一个另外的空间音频方向参数,以提供量化的至少一个另外的空间音频方向索引;以及通过计算在量化的至少一个另外的空间音频方向索引和量化的平均空间音频方向索引之间的差,来确定量化的至少一个另外的空间音频差索引。
该方法可以还包括:使用Golomb Rice编码对量化的另外的空间音频方向索引、量化的空间音频差索引和量化的平均空间音频方向索引进行编码;
空间音频方向参数可以是球坐标方位角值。
求平均可包括:将空间音频方向参数从球形域转换为笛卡尔(笛卡尔)域的参数;对在笛卡尔域中的参数求平均值;以及将平均后的笛卡尔域的参数转换成球形域的参数。
根据第三方面,一种用于空间音频编码的装置,包括至少一个处理器以及包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起,使该装置至少量化和索引化空间音频方向参数,以形成量化的空间音频方向索引,其中空间音频方向参数与音频帧的频率子带的时间子帧相关联;并且通过计算在量化的空间音频方向索引和量化的平均空间音频方向索引之间的差,来确定量化的空间音频差索引。
存储在介质上的计算机程序产品可以使装置执行如本文所述的方法。
电子装置可包括如本文所述的装置。
芯片集可包括如本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出示出了适用于实施一些实施例的装置系统;
图2示意性示出示出了根据一些实施例的元数据编码器;
图3示出了根据一些实施例的如图2所示的元数据编码器的操作的流程图;
图4示出了根据一些实施例的如图2所示的元数据编码器的操作的另外的流程图;以及
图5示意性地示出了适用于实现所示装置的示例设备。
具体实施方式
下文进一步详细地描述了用于提供有效空间分析得出的元数据参数的合适装置和可能机制。在接下来的讨论中,讨论了关于多声道麦克风实现的多声道系统。然而,如上所述,输入格式可以是任何合适的输入格式,例如多声道扬声器、ambionic(FOA/HOA)等。此外,示例系统的输出是多声道扬声器布置。然而,可以理解的是输出可以通过扬声器以外的部件呈现给用户。此外,多声道扬声器信号可以被概括为两个或更多个播放音频信号。这种系统目前正由3GPP标准化机构标准化为沉浸式语音和音频服务(IVAS)。为了促进在现有和未来的移动(蜂窝)和固定线路网络上的沉浸式语音和音频服务,IVAS旨在成为现有的3GPP增强型语音服务(EVS)编码解码器的延伸。IVAS的应用程序可以提供在3GPP的第四代(4G)和第五代(5G)网络上沉浸式语音和音频服务。此外,在存储和转发应用程序中可以使用作为EVS扩展的IVAS编码解码器,在存储和转发应用程序中音频和语音内容被编码并存储在文件中以供重放。应当理解,IVAS可以与其它音频和语音编码技术结合使用,该编码技术具有对音频和语音信号的样本进行编码的功能。
对于每个所考虑的时间-频率(TF)块或区块,换句话说,时间/频率子带,元数据可以由至少球形方向(仰角、方位角)、所得方向的至少一个能量比、传播相干性和独立于方向的环绕声相干性组成。总的来说,对于每个时间频率(TF)区块,IVAS可能具有多种不同类型的元数据参数。构成IVAS元数据的空间音频参数类型如下表1所示。
该数据可以由编码器编码和传输(或存储),以便能够在解码器处重建空间信号。
此外,在一些情况下,元数据辅助空间音频(MASA)可以为每个TF区块支持最多2个方向,这样将要求在每个TF区块的基础上为每个方向编码和传输上述参数。因此,根据下表1可能将所需的比特率提高一倍。
该数据可以由编码器编码和传输(或存储),以便能够在解码器处重建空间信号。
在实际的沉浸式音频通信编码解码器中,为元数据分配的比特率可能变化很大。编码解码器的典型整体操作比特率可能仅留下2至10kbps,用于空间元数据的传输/存储。然而,一些进一步的实现可以允许高达30kbps或更高速率的空间元数据的传输/存储。方向参数和能量比分量的编码以及相干性数据的编码之前已经被检查过。然而,无论为空间元数据分配的传输/存储比特率如何,总是需要使用尽可能少的比特来表示这些参数,尤其是当TF区块可以支持对应于空间音频场景中不同声源的多个方向时。
下文讨论的概念是通过依次处理每个频率子带的多个子帧上的空间音频方向参数,来量化音频帧的空间音频方向参数(其可以包括方位角和仰角值)。
因此,本发明从以下考虑出发,即通过使用尽可能少的比特量化音频帧的空间音频方向参数,可以降低传输MASA数据(或空间元数据空间音频参数)所需的比特率,以便促进编码音频信号的传输和存储。
就此而言,图1描绘了用于实现本申请的实施例的示例装置和系统。系统100显示为具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多声道信号到元数据和向下(声道缩减downmix)混音信号的编码的部分,而“合成”部分131是从编码的元数据和向下混音信号的解码到重新生成的信号(例如,以多声道扬声器形式)的呈现的部分。
系统100和“分析”部分121的输入是多声道信号102。在以下示例中,描述了麦克风声道信号输入,但是在其它实施例中可以实现任何合适的输入(或合成多声道)格式。例如,在一些实施例中,空间分析器和空间分析可以在编码器的外部实现。例如,在一些实施例中,与音频信号相关联的空间元数据可以作为单独的比特流提供给编码器。在一些实施例中,空间元数据可以作为一组空间(方向)索引值被提供。这些是基于元数据的音频输入格式的示例。
多声道信号被传递到传输信号发生器103和分析处理器105。
在一些实施例中,传输信号发生器103被配置为接收多声道信号并生成包括确定数量的声道的合适传输信号,并输出传输信号104。例如,传输信号发生器103可以被配置为生成多声道信号的2-音频声道向下混音。确定的声道数量可以是任何合适数量的声道。在一些实施例中,传输信号发生器被配置为,例如通过波束形成技术将输入音频信号以其它方式选择或组合到确定数量的声道,并将其作为传输信号输出。
在一些实施例中,传输信号发生器103是可选的,并且多声道信号以与本示例中传输信号相同的方式未经处理地传递给编码器107。
在一些实施例中,分析处理器105还被配置为接收多声道信号并分析信号以产生与多声道信号相关联并且因此与传输信号104相关联的元数据106。分析处理器105可以被配置为生成元数据,该元数据对于每个时间-频率分析间隔可以包括:方向参数108和能量比参数110(包括每个方向的方向能量与总能量之比和传播能量与总能量之比)以及相干性参数112。在一些实施例中,方向、能量比和相干性参数可被视为空间音频参数。换句话说,空间音频参数包括旨在表征多声道信号(或通常两个或更多个音频信号)创建/捕捉的声场的参数。
在一些实施例中,生成的参数可能因频带和频带而异。因此,例如,在频带X中,所有参数均被生成和传输,而在频带Y中,仅生成和传输其中一个参数,并且此外在频带Z中,不生成或传输任何参数。这方面的实际示例可以是,对于一些频带,例如最高频带,出于感知原因,不需要某些参数。传输信号104和元数据106可被传递给编码器107。
编码器107可以包括音频编码器核心109,其被配置为接收传输(例如向下混音)信号104并且生成这些音频信号的合适编码。在一些实施例中,编码器107可以是计算机(运行存储在存储器中和至少一个处理器上的合适软件),或者备选地,可以利用特定设备,例如现场可编程逻辑门阵列FPGA或专用集成电路ASIC。编码可以使用任何合适的方案来实现。编码器107还可以包括元数据编码器/量化器111,其被配置为接收元数据并输出信息的编码或压缩形式。在一些实施例中,编码器107可以进一步交织、复用成单个数据流,或者在图1中虚线所示的传输或存储之前将元数据嵌入编码的向下混音信号中。复用可以使用任何合适的方案来实现。
在解码器侧,被接收或被检索的数据(流)可以由解码器/解复用器133接收。解码器/解复用器133可以对编码流进行解复用,并将音频编码流传递给传输提取器135,其被配置为对音频信号进行解码以获得传输信号。类似地,解码器/解复用器133可以包括元数据提取器137,其被配置为接收编码的元数据并且生成元数据。在一些实施例中,解码器/解复用器133可以是计算机(运行存储在存储器中和至少一个处理器上的合适软件),或者备选地,可以利用特定设备,例如FPGA或ASIC。
经解码的元数据和传输音频信号可以被传递给合成处理器139。
系统100的“合成”部分131进一步示出了合成处理器139,其被配置为接收传输和元数据,并基于传输信号和元数据以任何合适的格式重新创建多声道信号110形式的合成空间音频(这些可以是多声道扬声器格式,或者在一些实施例中可以是任何合适的输出格式,例如双耳或Ambisonics信号,取决于用例)。
因此,首先总结系统(分析部分)被配置为接收多声道音频信号。
然后,系统(分析部分)被配置为生成合适的传输音频信号(例如通过选择或向下混合一些音频信号声道)和空间音频参数作为元数据。
然后,系统被配置为针对存储/传输的传输信号和元数据进行编码。
此后,系统可以存储/传输经编码的传输信号和元数据。
系统可以检索/接收经编码的传输信号和元数据。
然后,系统被配置为从经编码的传输信号和元数据参数中提取传输信号和元数据,例如对经编码的传输信号和元数据参数进行解复用和解码。
系统(合成部分)被配置为基于经提取的传输音频信号和元数据合成多声道音频信号的输出。
关于图2,进一步详细描述了根据一些实施例的示例分析处理器105和元数据编码器/量化器111(如图1所示)。
图1和图2描绘了耦合在一起的元数据编码器/量化器111和分析处理器105。然而,应当理解,一些实施例可能不会如此紧密地耦合这两个相应的处理实体,使得分析处理器105可以存在于与元数据编码器/量化器111不同的设备上。因此,包括元数据编码器/量化器111的设备可具有用于独立于捕捉和分析过程进行处理和编码的传输信号和元数据流。
在一些实施例中,分析处理器105包括时域-频域变压器201。
在一些实施例中,时域-频域变压器201被配置为接收多声道信号102并且应用合适的时域到频域变换,例如短时傅利叶变换(STFT),以便将输入的时域信号转换成合适的时频信号。这些时频信号可被传递至空间分析器203。
因此,例如,时频信号202可以通过以下项在时域-频域表示中表示:
Si(b,n),
其中b是频率窗口索引,n是时间-频率块(帧)索引,i是声道索引。在另外的个表达式中,n可以被视为比原始时域信号更低采样率的时间索引。这些频段可被分组为子带,该子带将一个或多个频段分组为带索引k=0,...,K-1的子带。每个子带k具有最低频段bk,low和最高频段bk,high,并且该子带包含从bk,low到bk,high的所有频段。子带的宽度可以接近任何合适的分布。例如,等效矩形带宽(ERB)刻度或巴克(Bark)刻度。
因此,时间频率(TF)区块(或块)是帧的子帧内的特定子带。
应当理解,表示空间音频参数所需的比特数可以至少部分取决于TF(时间-频率)区块分辨率(即TF子帧或区块的数量)。例如,一个20毫秒的音频帧可以被分成4个时域子帧,每帧5毫秒,并且每个时域子帧可以具有最多24个频率子带,这些频率子带根据巴克(Bark)刻度、巴克刻度的近似或者任何其它合适的划分在频域中被划分。在该特定示例中,音频帧可被划分为96个TF子帧/区块,换句话说,具有24个频率子带的4个时域子帧。因此,表示音频帧的空间音频参数所需的比特数可能取决于TF区块分辨率。例如,如果每个TF区块根据上述表1的分布进行编码,则每个TF区块要求64比特(对于每个TF区块的一个声源方向)和104比特(对于每个TF区块的两个声源方向,考虑独立于声源方向的参数)。
在实施例中,分析处理器105可以包括空间分析器203。空间分析器203可以被配置为接收时间-频率信号202,并且基于这些信号估计方向参数108。方向参数可以基于任何基于音频的“方向”确定来确定。
例如,在一些实施例中,空间分析器203被配置为估计具有两个或更多个信号输入的声源的方向。
空间分析器203因此可以被配置为在音频信号的一帧内为每个频带和时间的时间频率块提供至少一个方位角和仰角(空间音频方向参数),被表示为方位角φ(k,n)和仰角θ(k,n)。时间子帧的空间音频方向参数108也可以被传递给空间参数集编码器207。
空间分析器203还可以被配置为确定能量比参数110。能量比可以被认为是对可以被认为是从一个方向到达的音频信号的能量的确定。方向能量与总能量之比r(k,n)可以被估计,例如,使用定向估计的稳定性度量,或使用任何相关度量,或任何其它合适的方法来获得比率参数。每个方向能量与总能量之比对应于一个特定的空间方向,并描述了与总能量相比,来自特定空间方向的能量的数量。该值也可以针对每个时间频率区块单独表示。空间方向参数和方向能量与总能量之比描述了每个时间频率区块的总能量中有多少来自特定方向。一般而言,空间方向参数也可视为到达方向(DOA)。
在实施例中,方向能量与总能量之比参数可以基于频带k处的麦克风对之间的标准化互相关参数cor’(k,n)来估计,互相关参数的值在-1和1之间。直接总能量比参数r(k,n)可以通过将标准化互相关参数与扩散场标准化互相关参数corD’(k,n)进行比较而确定为在PCT出版物WO2017/005978中进一步解释了直接总能量比,该出版物在此引入作为参考文献。能量比可以被传递给空间参数集编码器207。
此外,空间分析器203可以被配置为确定多个相干性参数112,该多个相干性参数112可以包括在时域-频域中都分析的环绕声相干性(γ(k,n))和传播相干性(ζ(k,n))。
术语“音频源”可以涉及传播声波的主要方向,其可包含声源的实际方向。
因此,对于每个子带k,将收集(或设置)与子带k和子帧n相关联的空间音频参数。在这种情况下,每个子带k和子帧n(换句话说,TF区块)可以在每个音频源方向的基础上具有与其相关联的以下空间音频参数;至少一个方位角和仰角,被表示为方位角φ(k,n),和仰角θ(k,n),以及传播相干性ζ(k,n)和直接总能量比参数r(k,n)。显然,如果每个TF区块有多个方向,则TF区块可以具有与每个声源方向相关联的上述参数。另外地,空间音频参数的集合还可以包括环绕声相干性(γ(k,n))。参数还可以包括传播能量与总能量之比rdiff(k,n)。
在实施例中,传播能量与总能量之比rdiff(k,n)是非定向声音在环绕声方向上的能量比,并且每个TF区块通常具有单个传播能量与总能量之比(以及环绕声相干性(γ(k,n))。传播能量与总能量之比可以被认为是方向能量与总能量之比(对于每个方向)减去1后剩余的能量比。接下来,上述参数可被称为特定TF区块的一组空间音频参数(或空间音频参数集)。
除了能量比参数110和相干性参数112,空间参数集编码器207可被设置成量化方向参数108。
方向参数108(例如方位角φ(k,n)和仰角θ(k,n))的量化可以基于在“表面”球上形成以环状排列的球形网格的球的排列,该球形网格由查找表格定义,查找表格由确定的量化分辨率定义。换句话说,球形网格使用了用多个较小的球覆盖一个球的想法,并将较小的球的中心视为定义几乎等距离方向的网格的点。因此,较小的球定义了围绕中心点的锥角或立体角,可以根据任何合适的索引算法对其进行索引。方位角φ(k,n)和仰角θ(k,n)方向参数108然后可以使用向量距离度量被映射到点球形网格,以便向球形网格提供量化索引。这种球形量化方案可以在专利申请公开WO2019/091575和WO2019/129350中找到。备选地,方位角φ(k,n)和仰角θ(k,n)方向参数108可以根据任何合适的线性或非线性量化方式被量化。
因此,空间参数集编码器207量化方位角φ(k,n)和仰角θ(k,n)空间音频方向参数108的结果是至少一个方位角量化索引Iφ(k,n)和至少一个用于TF区块(k,n)的仰角量化索引Iθ(k,n)。
图3描述了用于编码频带的子帧的空间音频方向参数(例如方位角和仰角值)的计算机软件或硬件可实现的过程。
在实施例中,用于对空间音频方向参数108进行编码和量化的方案可以包括:找到特定子带k的子帧(n=0:N-1)上的平均空间音频参数的初始步骤。在一些实施例中,该初始步骤可以包括找到第一子带k=0的子帧的平均空间音频参数。
就方位角φ(k,n)和仰角θ(k,n)方向参数108而言,该步骤可以通过首先为子带k(k=0)找到一个帧的n个子帧的平均方位角值Avgφ(k)和平均仰角值Avgθ(k)来执行。
每个平均音频定向参数可以通过首先将平均值计算为笛卡尔坐标,然后将平均笛卡尔坐标转换为平均球坐标来计算。
换句话说,计算子带k的平均方位角和仰角值的操作可以采取具有X轴方向分量的形式,如
其中子带k的平均X轴为
Y轴分量为
其中子带k的平均Y轴为
Z轴分量为
z(k,n)=r(k,n)sinθ(k,n)
其中子带k的平均Z轴为
每个笛卡尔坐标可以由与TF区块相关联的相应的方向能量与总能量之比参数r(k,n)加权。
在其它实施例中,可以不对每个笛卡尔坐标执行加权。
然后,平均方位角和仰角值可以通过取子带k的上述平均笛卡尔坐标值并将其转换回球形域来确定。
在实施例中,该转换可以使用以下表达式来执行;
上述确定频带的子帧的平均空间音频方向参数的处理步骤在图3中示出为处理步骤301。
然后,可以如上所述量化子带k的平均方位角和仰角值,以给出量化指数Iavgφ(k)和Iavgθ(k),即子带k的子帧的平均音频方向索引。
量化和索引化频带的子帧的平均空间音频方向参数的处理步骤在图3中被示出为处理步骤303。
在实施例中,上述针对Iavgφ(k)和Iavgθ(k)的计算可以针对在帧中的第一子带被执行,即子带k=0,导致Iavgφ(0)和Iavgθ(0)。
然后,音频方向参数的编码处理(如空间参数集编码器207所执行的)可以确定第一子带(k=0)的每个子帧(n=0:N-1)的音频方向差索引。其中,子帧n的音频方向差索引可以采取确定在子帧n的音频方向量化索引和跨帧的子帧的平均音频方向索引(如上所述)之间的差的形式。在方位角值的情况下,该例程可以采取以下形式:
对于每个子帧n 0至N-1
同样的步骤也可适用于仰角值。即
对于每个子帧n 0至N-1
Idiffθ(0,n)=Iθ(0,n)-Iavgθ(0)
量化和索引化频带的每个子带的空间音频方向参数的处理步骤在图3中被示出为处理步骤305。上述确定频带的子帧的平均空间音频方向差索引的处理步骤在图3中被示出为处理步骤307。
在一些实施例中,第一子带的音频方向参数的编码过程还可以包括进一步的处理步骤(图3中未示出),由此对子带(k=0)的音频方向差索引进行处理,使得所有值均为正值。
在这些实施例中,将音频方向差索引处理为一系列正值可以通过以下C代码来执行。
然后,该系列音频方向差索引可以被重新排列成幅度的上升或者下降顺序,以便促进(对第一频带的子帧上的音频方向差索引进行)基于熵的编码。
针对音频方向差索引的这些处理步骤可以针对方位角和/或仰角参数Idiffφ(0,n),对于子带k,Idiffφ(0,n)n=0:N-1,在这种情况下,第一子带k=0。
如上所述,可以使用熵编码(例如Golomb Rice编码)对第一频率子带的子帧的重新排列的音频方向差索引进行编码。该编码可以取决于可用于对该帧的音频方向进行编码的比特数。
其它子带(例如,子带k=1:K-1)可以采用不同的方法对相应子带之间的音频方向参数进行编码。为简洁起见,接下来可以执行这些计算的子带被表示为子带k(其中k≠0)。
图4描述了用于对频带(不是音频帧中第一频带)的子帧的空间音频方向参数(例如方位角和仰角值)进行编码的计算机软件或硬件可实现的过程。
该方法首先包括获取由图3的处理步骤303确定的子带k=0,Iavgφ(0)和Iavgθ(0)的空间音频参数平均索引,并使用该值确定在第一子帧(子带k≠0)和子带k=0的平均索引之间的空间音频参数方向差索引。换句话说,空间音频方向差索引Idiffφ(k,0),Idiffθ(k,0)可以由Idiffθ(k,0)=Iθ(k,0)-Iavgθ(0)以及找到,相应地针对方位角和仰角值。
其中Iθ(k,0)和Iφ(k,0)是第k频带的第一子帧的方位角和仰角值的量化索引。
关于图4,步骤401描述了量化和索引化子带k的第一子帧的空间音频方向参数的处理步骤,其中k不是音频帧中的第一子带。此外,处理步骤403描述了确定对应于子带k的第一子帧的空间音频方向参数的空间音频方向差索引(Idiffφ(k,0),Idiffθ(k,0))的步骤。
在该步骤之后,第一子帧(n=0)的平均空间音频方向参数可以被初始化为该子帧(n=0)的实际空间音频方向参数的值。就方位角和仰角值而言,这可以表示为和Avgθ(k,0)=θ(k,0)。可以量化第一子帧(n=0)的平均空间音频方向参数以给出第一子帧的空间音频方向参数平均索引,以方位角和仰角值表示,可表示为Iavgφ(k,0)和Iavgθ(k,0)。
在一些实施例中,第一子帧(n=0)的平均空间音频方向参数可以与来自前一音频帧的相应平均空间音频方向参数进行平均。这可以作为加权平均值来执行,其中加权有利于来自当前音频帧的平均空间音频方向参数。在这种情况下,加权w(小于0.5)可以应用于来自前一音频帧的平均空间音频方向参数,加权1-w可应用于来自当前帧的平均空间音频方向参数。在实施例中,可以如上所述在笛卡尔坐标域中执行求平均操作。
确定子带k的第一子帧的平均空间音频方向参数的步骤被示出为图4中的处理步骤405。量化和索引化子带k的第一子帧的平均空间音频方向参数的步骤在图4中被示出为处理步骤407。
图4中还示出了路径402,其描述了作为空间音频方向编码过程的输出的第k个子带的第一子帧的空间音频方向差索引。
在该步骤之后,第一子帧(n=0)(对于子带k≠0)的平均空间音频参数索引可以用于确定同一子带k内的另外的子帧(n=1)的空间音频参数方向差索引。该步骤由路径404描述。处理步骤417描述了第一子帧(n=0)的平均空间音频参数索引被设置为用作下一后续子帧(n=1)的平均空间音频参数索引。
对另外的子帧(本例中n=1)的处理可以采取以下步骤的形式:
1.确定空间音频参数方向差索引。换句话说,空间音频方向差索引Idiffφ(k,1),Idiffθ(k,1)可以由Idiffθ(k,1)=Iθ(k,1)-Iavgθ(k,0)以及来找到。其中Iθ(k,0)和Iφ(k,0)是第k频带的第二子帧相应地针对方位角和仰角值的量化索引。关于图4该步骤被表示为处理步骤409和411。
2.然后,通过计算子帧(n=1)的实际空间音频方向参数和前一子帧(n=0)的实际空间音频方向参数的平均值,可以为另外的子帧(n=1)确定平均空间音频方向参数。就方位角和仰角值而言,这可以表示为和Avgθ(k,0)=(θ(k,1)+θ(k,0))/2。在实施例中,可以如上所述在笛卡尔坐标域中执行求平均操作。关于图4该步骤被表示为处理步骤413。
3.然后,可以量化另外的子帧(n=1)的平均空间音频方向参数,以给出另外的子帧(n=1)的空间音频方向参数平均索引。就方位角和仰角值而言,这可以表示为Iavgφ(k,1)和Iavgθ(k,1)。关于图4,平均空间音频方向参数的量化和索引化被示出为处理步骤415。
然后另外的子帧(n=1)(对于子带k≠0)的空间音频参数平均索引可以被用于确定同一子带k内的另外的子帧(n=2)的空间音频参数方向差索引。该步骤在图4中被示出为路径406与处理步骤417相耦合。
然后,处理步骤1至3可以针对又一子帧(例如,n=2)重复。使得:
1(2).又一子帧的空间音频参数方向差索引可以通过确定Idiffθ(k,2)=Iθ(k,2)-Iavgθ(k,1)以及来确定。其中Iθ(k,2)和Iφ(k,2)是第k频带的第三子帧相应地针对方位角和仰角值的量化索引。
2(2).然后通过计算子帧(n=2)的实际空间音频方向参数和先前子帧(n=0,1)的实际空间音频方向参数的平均值,可以确定又一子帧(n=2)的平均空间音频方向参数。就方位角和仰角值而言,这可以表示为平均值和Avgθ(k,2)=(θ(k,2)+θ(k,1)+θ(k,0))/3。在实施例中,可以如前所述在笛卡尔坐标域中执行求平均操作。
3(2).然后可以量化又一子帧(n=2)的平均空间音频方向参数,以给出又一子帧(n=2)的空间音频方向参数平均索引。就方位角和仰角值而言,这可表示为Iavgφ(k,2)和Iavgθ(k,2)。另外的子帧(n=2)(对于子带k≠0)的空间音频参数平均索引然后可以用于确定同一子带k内的又一子帧(n=3)的空间音频参数方向差索引。
应当理解,可以重复步骤1、2和3,直到已经为频带k(其中k≠0)内的所有子帧确定了空间音频参数方向差索引。对于频率子带k内的其它子帧重复上述步骤的过程在图4中由返回路径408描述。
在已经为频带k的至少一些(或所有)子帧确定了空间音频参数方向差索引之后,则可以使用上述C代码(图4中未示出)处理空间音频参数方向差索引,使得所有值均为正值。该系列音频方向差索引然后可以被重新排列成按幅度的上升或者下降顺序,以便促进(对第k频带的子帧上的音频方向差索引进行)基于熵的编码。
每个处理后的子帧的输出空间音频方向差索引在图4中被描述为路径410。
在实施例中,可以使用Golomb Rice编码对与子带的子帧相关联的空间音频参数方向差索引进行编码。因此,就方位角和仰角值而言,可以根据Golomb Rice编码对子带的子帧的方位角差索引进行编码,并且还可以根据Golomb Rice编码对子带的子帧的仰角差索引进行编码。方位角差索引和仰角差索引的Golomb编码可以分别针对音频帧的每个子带来执行。
另外,第一子带(k=0)的平均空间音频参数索引值也可以被Golomb Rice编码。例如,Iavgθ(0)和Iavgφ(0)也可以被Golomb Rice编码。
因此,应当理解,基于每个音频帧的经编码的空间音频参数流可以包括:对第一子带(k=0)的平均空间音频参数索引值进行熵编码,例如Golomb Rice编码的Iavgθ(0)和Iavgφ(0);以及与音频帧的每个子带的子帧相关联的熵编码的空间音频参数方向差索引。例如,对于k=0:M-1和n=0:N-1,Golomb Rice编码的仰角和方位角差索引Idiffφ(k,n),Idiffθ(k,n)。
应当理解,上述图3和图4中概述的空间音频方向参数的编码步骤可以针对音频帧内的方位角值或音频帧内的仰角值或帧内的方位角值和仰角值两者执行。
由图3所示的封装的空间音频方向参数进行编码的上述步骤可被称为对空间音频方向参数进行编码的固定平均编码方法。如图4所示的空间音频方向参数进行编码的上述步骤可被称为对空间音频方向参数进行编码的自适应平均编码方法。因此,如图3所示的方法步骤(固定平均编码方法)可以作为独立方法部署。另外地,用于对空间音频方向参数进行编码的图4的方法步骤(自适应平均编码方法)也可以被配置为作为独立方法对子带的子帧的空间音频方向参数进行编码。在这种情况下,用作图4输入的平均空间音频方向参数索引可以作为从前一频率子带的子帧的至少空间音频方向参数的平均值得出。
在一些实施例中,用于对频率子带的子帧的空间音频参数进行编码的方法可以在固定平均编码方法或者自适应平均编码方法之间选择。选择两种方法之一(固定平均或自适应平均)的标准可能取决于每个子带的平均方位角值的方差。作出选择的度量可以基于跨子带的子帧的空间音频方向参数的方差与音频帧的空间音频方向参数的平均值之比。然后,可以将该度量与阈值进行比较,由此如果计算的度量小于阈值,则可以使用固定平均方法对与频率子带的子帧相关联的空间音频方向参数进行编码。反之,如果计算的度量等于或高于阈值,则可以使用自适应平均方法对与频率子带的子帧相关联的空间音频方向参数进行编码。
如上所述并在图3和图4中列出的对音频帧的空间音频方向参数进行编码的上述方法可以被纳入包含多个不同空间音频方向参数编码机制的更通用的编码框架中。可以基于音频帧确定编码机制的选择(用于音频帧的空间音频方向参数的编码),并且可以取决于为此目的的比特分配。
通用框架可以具有以下伪代码结构。
通用框架的输入可以包括:量化的空间音频定向参数(方位角和仰角);以及允许的比特数(bits_allowed)。
1.如果bits_EC1<bits_allowed,则使用过程EC1对参数进行编码
a.通过方法EC1对量化的方向参数进行编码
2.否则
a.使用带宽编码EC2(潜在量化分辨率可能降低)
b.如果bits_EC2<bits_allowed
i.使用EC2进行编码
c.否则
i.降低量化分辨率
ii.使用EC3
d.结束条件
3.结束条件
其中EC1指的是使用如上所述并在图3和图4中列出的差索引对空间音频定向参数进行编码的方法。方法EC2和EC3可以指对空间音频方向参数进行编码的不同方法。例如,EC2可以指WO专利申请号PCT/FI2020/050578中所述的对方位角和仰角值进行编码的方法,EC3可以指WO专利申请WO/2020/070377中公布所述的对方位角和仰角值进行编码的方法。
元数据编码器/量化器111还可以包括能量比参数编码器,其可以被配置为接收每个TF区块的(多个)能量比参数并且执行合适的压缩和编码方案。
类似地,元数据编码器/量化器111还可以包括相干性编码器,其被配置为接收环绕声相干性值γ和传播相干性值ζ,并且确定用于压缩环绕声和传播相干性值的合适的编码。
编码的方向、能量比和相干性值可以被传递给组合器。组合器可以被配置为接收经编码(或者量化/压缩)的定向参数、能量比参数和相干性参数,并且组合这些参数以产生合适的输出(例如,可以与传输信号组合或者与传输信号分开传输或存储的元数据比特流)。
在一些实施例中,经编码的数据流被传递给解码器/解复用器133。解码器/解复用器133对该帧的编码的量化空间音频参数集进行去多路复用并传递它们给元数据提取器137,并且在一些实施例中,解码器/解复用器133可以提取传输音频信号到传输提取器用于解码和提取。
经解码的空间音频参数然后可以形成从元数据提取器137输出的经解码的元数据,并被传递给合成处理器139,以便形成多声道信号110。
关于图5示出了可以用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板电脑、计算机、音频播放装置等。
在一些实施例中,设备1400包括至少一个处理器或者中央处理单元1407。处理器1407可以被配置为执行各种程序代码,例如如本文所述的方法。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407与存储器1411耦合。存储器1411可以是任何合适的存储部件。在一些实施例中,存储器1411包括程序代码部分,用于存储可在处理器1407上实现的程序代码。此外,在一些实施例中,存储器1411可以还包括用于存储数据的存储数据部分,例如根据本文所述的实施例已经处理或者要处理的数据。存储在程序代码部分内的实现程序代码和存储在存储数据部分内的数据可以由处理器1407检索,在需要时经由存储器-处理器耦合。
在一些实施例中,设备1400包括用户界面1405。在一些实施例中,用户界面1405可以与处理器1407耦合。在一些实施例中,处理器1407可以控制用户界面1405的操作,并且从用户界面1405接收输入。在一些实施例中,用户界面1405可以使用户能够,例如通过键盘向设备1400输入命令。在一些实施例中,用户界面1405可以使用户能够从设备1400获取信息。例如,用户界面1405可以包括显示器,其被配置为向用户显示来自设备1400的信息。在一些实施例中,用户界面1405可以包括能够将信息输入设备1400并且进一步向设备1400的用户显示信息的触摸屏或触摸界面。在一些实施例中,如本文所述,用户界面1405可以是用于与位置确定器通信的用户界面。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发器。在这样的实施例中的收发器可被耦合至处理器1407,并且被配置为能够,例如经由无线通信网络与其它装置或电子设备进行通信。在一些实施例中,收发器或任何合适的收发器或发送器和/或接收器部件可以被配置为经由电线或有线耦合与其它电子设备或装置进行通信。
收发器可以通过任何合适已知的通信协议与其它装置进行通信。例如,在一些实施例中,收发器可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议,例如IEEE 802.X、合适的短距离射频通信协议,例如蓝牙或红外数据通信路径(IRDA)。
收发器输入/输出端口1409可以被配置为接收信号,并且在一些实施例中,通过使用执行合适代码的处理器1407来确定如本文所述的参数。此外,该设备可以生成合适的向下混音信号和参数输出,以发送至合成设备。
在一些实施例中,设备1400可以被用作合成设备的至少一部分。因此,输入/输出端口1409可以被配置为接收向下混音信号,并且在一些实施例中,接收如本文所述的在捕捉设备或处理设备处所确定的参数,并且通过使用执行合适代码的处理器1407生成合适的音频信号格式输出。输入/输出端口1409可以耦合到任何合适的音频输出,例如多声道扬声器系统和/或耳机等。
一般而言,本发明的各种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,尽管本发明不限于此,一些方面可以在硬件中实现,而其它方面可以在固件或软件中实现,其可以由控制器、微处理器或其它计算设备执行。尽管本发明的各个方面可被示出和描述为框图、流程图或使用一些其它图形表示,但是很好理解本文描述的这些框、装置、系统、技术或方法可在作为非限制性示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或者其中一些组合中实现。
本发明的实施例可以通过可以由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件、或者通过硬件、或者通过软件和硬件的组合来实现。此外,在这方面应当注意,图中所示的逻辑流的任何框可以表示程序步骤,或者互连的逻辑电路、框和功能,或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在物理介质上,例如存储芯片或者在处理器内实现的存储块、磁介质(例如硬盘或软盘)和光学介质(例如DVD及其数据变体CD)。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,例如基于半导体的存储设备、磁存储设备和系统、光存储设备和系统、固定存储器和可移动存储器。作为非限制性示例,数据处理器可以是适合于本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个。
本发明的实施例可以在各种组件中实施,例如集成电路模块。集成电路的设计大体上是一个高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为半导体电路设计,以便于在半导体基底上蚀刻和成形。
程序可以使用完善的设计规则和预先存储的设计模块库在半导体芯片上布线和定位组件。在半导体电路的设计完成之后,标准化电子格式的最终设计可以传输至半导体制造机房或微型芯片生产厂(fab)进行制造。
前面的描述已经通过示例性和非限制性示例的方式提供了对本发明示例性实施例的完整且信息丰富的描述。然而,当结合附图和所附权利要求书阅读时,各种修改和调整可能对于相关领域技术人员变得明显。然而,对本发明教导的所有这样及类似修改仍将落入所附权利要求书所定义的本发明的范围内。

Claims (18)

1.一种用于空间音频编码的装置,包括用于以下项的部件:
量化和索引化空间音频方向参数,以形成经量化的空间音频方向索引,其中所述空间音频方向参数与音频帧的频率子带的时间子帧关联;以及
通过计算在所述经量化的空间音频方向索引和经量化的平均空间音频方向索引之间的差,来确定量化的空间音频差索引。
2.根据权利要求1所述的装置,其中所述经量化的平均空间音频方向索引由具有用于以下项的部件的所述装置来确定:
对至少两个空间音频方向参数求平均,以提供平均空间音频方向参数,其中所述至少两个空间音频方向参数与前一频率子带的连续时间子帧相关联,其中所述前一频率子带是比所述频率子带更低的频率子带;以及
量化和索引化所述平均空间音频方向。
3.根据权利要求2所述的装置,其中所述装置还包括用于以下项的部件:
通过以下项来确定所述频率子带的初始平均空间音频方向参数:
用第一权重加权所述平均空间音频方向参数;
用第二权重加权与来自前一音频帧的等效前一频率子带的至少两个空间音频方向参数相关联的平均空间音频方向参数;
对第一加权平均空间音频方向参数和第二加权平均空间音频方向参数求平均,以提供所述频率子带的所述初始平均空间音频方向参数。
4.根据权利要求1至3中任一项所述的装置,其中所述装置还包括用于以下项的部件:
量化和索引化另外的空间音频方向参数,以形成经量化的另外的空间音频方向索引,其中所述另外的空间音频方向参数与所述频率子带的后续时间子帧相关联;并且其中所述经量化的平均空间音频方向索引由具有用于以下项的部件的所述装置来确定:
对所述频率子带的所述空间音频方向参数和前一空间音频方向参数求平均,其中所述前一空间音频方向参数和与所述空间音频方向参数相关联的所述时间子帧之前的时间子帧相关联;以及
量化和索引化所述空间音频方向参数和所述前一空间音频方向参数的所述平均值。
5.根据权利要求1所述的装置,其中所述装置还包括用于以下项的部件:
对所述空间音频方向参数和至少一个另外的空间音频方向参数求平均,其中所述至少一个另外的空间音频方向参数与所述频率子带的至少一个另外的时间子帧相关联;
确定所述空间音频方向参数和所述至少一个另外的空间音频方向参数的方差;
将度量确定为所述空间音频方向参数和至少一个另外的空间音频方向参数的所述方差与所述平均值之比;以及
将所述度量与阈值进行比较。
6.根据权利要求5所述的装置,其中当所述度量小于所述阈值时,所述装置包括用于以下项的部件:
量化和索引化所述空间音频方向参数和所述至少一个另外的空间音频方向参数的所述平均值,以提供所述经量化的平均空间音频方向索引;
量化和索引化所述至少一个另外的空间音频方向参数,以提供所述经量化的至少一个另外的空间音频方向索引;以及
通过计算在所述经量化的至少一个另外的空间音频方向索引和所述经量化的平均空间音频方向索引之间的所述差,来确定所述经量化的至少一个另外的空间音频差索引。
7.根据权利要求1至6中任一项所述的装置,还包括用于以下项的部件:
使用Golomb Rice编码,对所述经量化的另外的空间音频方向索引、所述经量化的空间音频差索引、以及所述经量化的平均空间音频方向索引进行编码。
8.根据权利要求1至7中任一项所述的装置,其中所述空间音频方向参数是球坐标方位角值。
9.根据权利要求1至8中任一项所述的装置,其中用于求平均的所述部件包括用于以下项的部件:
将空间音频方向参数从球形域转换为笛卡尔域的参数;
对在所述笛卡尔域的参数求平均;以及
将所述平均的笛卡尔域的参数转换为所述球形域。
10.一种用于空间音频编码的方法,包括:
量化和索引化空间音频方向参数,以形成经量化的空间音频方向索引,其中所述空间音频方向参数与音频帧的频率子带的时间子帧相关联;以及
通过计算在所述经量化的空间音频方向索引和经量化的平均空间音频方向索引之间的差,来确定经量化的空间音频差索引。
11.根据权利要求10所述的方法,其中所述经量化的平均空间音频方向索引包括:
对至少两个空间音频方向参数求平均以提供平均空间音频方向参数,其中所述至少两个空间音频方向参数与前一频率子带的连续时间子帧相关联,其中所述前一频率子带是比所述频率子带更低的频率子带;以及
量化和索引化所述平均空间音频方向。
12.根据权利要求11所述的方法,其中所述方法还包括:
通过以下项确定所述频率子带的初始平均空间音频方向参数:
用第一权重加权所述平均空间音频方向参数;
用第二权重加权与来自前一音频帧的等效前一频率子带的至少两个空间音频方向参数相关联的平均空间音频方向参数;
对所述第一加权平均空间音频方向参数和第二加权平均空间音频方向参数求平均,以提供所述频率子带的所述初始平均空间音频方向参数。
13.根据权利要求10至12中任一项所述的方法,其中所述方法还包括部件:
量化和索引另外的空间音频方向参数,以形成经量化的另外的空间音频方向索引,其中所述另外的空间音频方向参数与所述频率子带的后续时间子帧相关联;并且其中所述经量化的平均空间音频方向索引由以下项确定:
对所述频率子带的空间音频方向参数和前一空间音频方向参数求平均,其中所述前一空间音频方向参数和与所述空间音频方向参数相关联的所述时间子帧之前的时间子帧相关联;以及
量化和索引化所述空间音频方向参数和所述前一空间音频方向参数的所述平均值。
14.根据权利要求10所述的方法,其中所述方法还包括:
对所述空间音频方向参数和至少一个另外的空间音频方向参数求平均,其中所述至少一个另外的空间音频方向参数与所述频率子带的至少一个另外的时间子帧相关联;
确定所述空间音频方向参数和所述至少一个另外的空间音频方向参数的方差;
将度量确定为所述空间音频方向参数和至少一个另外的空间音频方向参数的所述方差与所述平均值之比;以及
将所述度量与阈值进行比较。
15.根据权利要求14所述的方法,其中当所述度量小于所述阈值时,所述方法包括:
量化和索引化所述空间音频方向参数和所述至少一个另外的空间音频方向参数的所述平均值,以提供所述经量化的平均空间音频方向索引;
量化和索引化所述至少一个另外的空间音频方向参数,以提供经量化的至少一个另外的空间音频方向索引;以及
通过计算在所述经量化的至少一个另外的空间音频方向索引和所述经量化的平均空间音频方向索引之间的差,来确定所述量化的至少一个另外的空间音频差索引。
16.根据权利要求1至15所述的方法,还包括:
使用Golomb Rice编码,对所述经量化的另外的空间音频方向索引、所述经量化的空间音频差索引、以及所述经量化的平均空间音频方向索引进行编码。
17.根据权利要求1至16中任一项所述的方法,其中所述空间音频方向参数是球坐标方位角值。
18.根据权利要求1至17中任一项所述的方法,其中所述求平均包括:
将空间音频方向参数从球形域转换为笛卡尔域参数;
对在所述笛卡尔域中参数求平均;以及
将所述平均的笛卡尔域参数转换为所述球形域。
CN202080108370.0A 2020-12-15 2020-12-15 量化空间音频参数 Pending CN116762127A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2020/050840 WO2022129672A1 (en) 2020-12-15 2020-12-15 Quantizing spatial audio parameters

Publications (1)

Publication Number Publication Date
CN116762127A true CN116762127A (zh) 2023-09-15

Family

ID=82058977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080108370.0A Pending CN116762127A (zh) 2020-12-15 2020-12-15 量化空间音频参数

Country Status (7)

Country Link
US (1) US20240046939A1 (zh)
EP (1) EP4264603A1 (zh)
JP (1) JP2023554411A (zh)
KR (1) KR20230119209A (zh)
CN (1) CN116762127A (zh)
CA (1) CA3202283A1 (zh)
WO (1) WO2022129672A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024110006A1 (en) 2022-11-21 2024-05-30 Nokia Technologies Oy Determining frequency sub bands for spatial audio parameters

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
JP6250071B2 (ja) * 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
EP3074970B1 (en) * 2013-10-21 2018-02-21 Dolby International AB Audio encoder and decoder
CN106023999B (zh) * 2016-07-11 2019-06-11 武汉大学 用于提高三维音频空间参数压缩率的编解码方法及系统
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
JP7213364B2 (ja) * 2018-10-31 2023-01-26 ノキア テクノロジーズ オーユー 空間オーディオパラメータの符号化及び対応する復号の決定

Also Published As

Publication number Publication date
US20240046939A1 (en) 2024-02-08
CA3202283A1 (en) 2022-06-23
KR20230119209A (ko) 2023-08-16
JP2023554411A (ja) 2023-12-27
WO2022129672A1 (en) 2022-06-23
EP4264603A1 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
CN112639966A (zh) 空间音频参数编码和关联解码的确定
US20230197086A1 (en) The merging of spatial audio parameters
US20240185869A1 (en) Combining spatial audio streams
US20230402053A1 (en) Combining of spatial audio parameters
WO2022214730A1 (en) Separating spatial audio objects
CN116762127A (zh) 量化空间音频参数
EP4162486A1 (en) The reduction of spatial audio parameters
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
US20230335143A1 (en) Quantizing spatial audio parameters
US20240079014A1 (en) Transforming spatial audio parameters
CN116508332A (zh) 空间音频参数编码和相关解码
EP3948861A1 (en) Determination of the significance of spatial audio parameters and associated encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination