CN113302692A - 基于方向响度图的音频处理 - Google Patents

基于方向响度图的音频处理 Download PDF

Info

Publication number
CN113302692A
CN113302692A CN201980086950.1A CN201980086950A CN113302692A CN 113302692 A CN113302692 A CN 113302692A CN 201980086950 A CN201980086950 A CN 201980086950A CN 113302692 A CN113302692 A CN 113302692A
Authority
CN
China
Prior art keywords
audio
loudness
signals
signal
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980086950.1A
Other languages
English (en)
Inventor
于尔根·赫尔
巴勃罗·曼努尔·德尔加多
萨沙·迪克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN113302692A publication Critical patent/CN113302692A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/26Spatial arrangements of separate transducers responsive to two or more frequency ranges
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

音频分析器被配置为获得两个或更多个输入音频信号的谱域表示。另外,音频分析器被配置为获得与谱域表示的谱带相关联的方向信息,且获得与不同方向相关联的响度信息作为分析结果。根据方向信息确定对响度信息的贡献。

Description

基于方向响度图的音频处理
技术领域
根据本发明的实施例涉及基于方向响度图的音频处理。
背景技术
由于感知音频编码器的出现,在开发能够预测编码信号的音频质量而不依赖于大量主观收听测试以节省时间和资源的算法方面引起了相当大的兴趣。对单声道编码的信号执行所谓的质量客观评估的算法诸如PEAQ[3]或POLQA[4]被广泛地传播。然而,它们对于利用空间音频技术编码的信号的性能仍然被认为是不令人满意的[5]。另外,诸如带宽扩展(BWE)的非波形保持技术也已知会使这些算法过高估计质量损失[6],因为为分析而提取的许多特征假定波形保持条件。空间音频和BWE技术主要用于低比特率音频编码(大约每声道32kbps)。
假定可以通过使用头相关传输函数(HRTF)集和/或双耳房间冲激响应(BRIR)将多于两个声道的空间音频内容渲染为进入左耳和右耳的信号的双耳表示[5,7]。大多数提出的用于双耳客观质量评估的扩展基于与人类对声音位置的感知和感知的听觉源宽度相关的众所周知的双耳听觉提示,诸如进入左耳和右耳的信号之间的耳间强度差(ILD)、耳间时间差(ITD)和耳间互相关(IACC)[1,5,8,9]。在客观质量评估的背景下,基于这些空间线索从参考和测试信号中提取特征,并且两者之间的距离测量被用作失真指数。考虑这些空间线索和它们相关的感知失真允许在空间音频编码算法设计的背景下获得相当大的进步[7]。然而,在预测总体空间音频编码质量的使用情况下,当使用这些特征来预测由诸如MUSHRA[11]的主观质量测试给出的单个质量得分时,这些提示失真彼此之间以及与单声道/音质失真(尤其是在非波形保存的情况下)的交互渲染具有变化结果的复杂场景[10]。还提出了其他备选模型[2],其中双耳模型的输出通过聚类算法进一步处理以识别瞬时听觉图像中参与源的数量,因此也是经典听觉提示失真模型的抽象。然而,文献[2]中的模型主要关注空间中的运动源,其性能也受到相关联的聚类算法的准确性和跟踪能力的限制。使这个模型可用的附加特征的数量也非常重要。
客观的音频质量测量系统还应尽可能地使用最少的相互独立的和最相关的提取的信号特征,以避免在给定用于将特征失真映射到由收听测试提供的质量得分的有限量的真相数据的情况下过度拟合的风险[3]。
在低比特率下对空间编码的音频信号的收听测试中报告的最显著的失真特性之一被描述为立体声图像向中心位置的崩溃和声道串扰[12]。
因此,期望获得提供改进的、有效的和高精度的音频分析、音频编码和音频解码的概念。
这是通过本申请的独立权利要求的主题实现的。
根据本发明的另外的实施例由本申请的从属权利要求的主题限定。
发明内容
根据本发明的实施例涉及音频分析器,例如音频信号分析器。音频分析器被配置为获得两个或更多个输入音频信号的谱域表示。因此,音频分析器例如被配置为确定或接收谱域表示。根据实施例,音频分析器被配置为通过将两个或更多个输入音频信号分解成时频片段来获得谱域表示。此外,音频分析器被配置为获得与谱域表示的谱带相关联的方向信息。方向信息表示例如包含在两个或更多个输入音频信号中的音频分量的不同方向(或位置)。根据实施例,方向信息可以被理解为平移索引(panning index),平移索引描述例如在双声道处理中由两个或更多个输入音频信号创建的声场中的源位置。此外,音频分析器被配置为获得与不同方向相关联的响度信息作为分析结果,其中对响度信息的贡献根据方向信息而确定。换言之,音频分析器例如被配置为获得与不同的平移方向或平移索引相关联的或者针对多个不同的评估的方向范围的响度信息作为分析结果。根据实施例,可以从方向信息获得不同的方向,例如平移方向、平移索引和/或方向范围。响度信息包括例如方向响度图或等级信息或能量信息。对响度信息的贡献例如是谱域表示的谱带对响度信息的贡献。根据实施例,对响度信息的贡献是对与不同方向相关联的响度信息的值的贡献。
本实施例基于这样的思想:根据从两个或更多个输入音频信号获得的方向信息来确定响度信息是有利的。这使得能够获得关于由两个或更多个音频信号实现的立体声音频混合中的不同源的响度的信息。因此,利用音频分析器,通过获得与不同方向相关联的响度信息作为分析结果,可以非常有效地分析两个或更多个音频信号的感知。根据实施例,响度信息可以包括或表示方向响度图,其给出例如在所有ERB(ERB=等效矩形带宽)带上平均的,关于两个或更多个信号的组合在不同方向处的响度的信息或关于两个或更多个输入音频信号的至少一个公共时间信号的响度的信息。
根据实施例,音频分析器被配置为基于两个或更多个输入音频信号的谱域(例如时频域)表示来获得多个加权谱域(例如时频域)表示(例如方向信号)。一个或多个谱域表示的值根据两个或更多个输入音频信号中的(例如谱仓或谱带的)音频分量(例如,来自乐器或歌唱者的曲调)的(例如由加权因子表示的)不同方向(例如平移方向)来加权,以获得多个加权谱域表示(例如方向信号)。音频分析器被配置为基于加权谱域表示(例如“方向信号”)获得与不同方向(例如平移方向)相关联的响度信息(例如针对多个不同方向的响度值;例如“方向响度图”)作为分析结果。
这意味着,例如音频分析器分析一个或多个谱域表示的值在音频分量的不同方向的哪个方向上影响响度信息。每个谱仓例如与某个方向相关联,其中与某个方向相关联的响度信息可由音频分析器基于多于一个与此方向相关联的谱仓来确定。可以针对一个或多个谱域表示的每个仓或每个谱带执行加权。根据实施例,通过向不同方向中的一个方向进行加权来对频率仓或频率组的值进行加窗。例如它们被加权到它们所关联的方向和/或相邻方向。所述方向例如与频率仓或频率组影响响度信息的方向相关联。例如偏离该方向的值的加权不太重要。因此,多个加权谱域表示可提供对不同方向上影响响度信息的谱仓或谱带的指示。根据实施例,多个加权谱域表示可以至少部分地表示对响度信息的贡献。
根据实施例,音频分析器被配置为将两个或更多个输入音频信号分解(例如变换)为短时傅立叶变换(STFT)域(例如使用Hann窗口)以获得两个或更多个经变换的音频信号。两个或更多个经变换的音频信号可以表示两个或更多个输入音频信号的谱域(例如时频域)表示。
根据实施例,音频分析器被配置为(例如基于人的耳蜗的频率选择性)将两个或更多个经变换的音频信号的谱仓分组为两个或更多个经变换的音频信号的谱带(例如使得组或谱带的带宽随着频率的增加而增加)。此外,音频分析器被配置为基于外耳和中耳模型使用不同权重来对谱带(例如谱带内的谱仓)进行加权,以获得两个或更多个输入音频信号的一个或多个谱域表示。通过谱仓到谱带的特殊分组,并且通过对谱带进行加权,两个或更多个输入音频信号被准备为使得收听所述信号的用户对两个或更多个输入音频信号的响度感知可以由音频分析器根据确定响度信息而非常精确和有效地估计或确定。利用该特征分别变换音频信号,两个或更多个输入音频信号的谱域表示适于人耳,以改善由音频分析器获得的响度信息的信息内容。
根据实施例,两个或更多个输入音频信号与不同的方向或不同的扬声器位置相关联(例如L(左)、R(右)。不同的方向或不同的扬声器位置可以表示用于立体声和/或多声道音频场景的不同声道。两个或更多个输入音频信号可以通过索引来彼此区分,这些索引可以例如由字母表的字母(例如L(左)、R(右)、M(中))或例如由指示两个或更多个输入音频信号的声道的号码的正整数来表示。因此,索引可以指示两个或更多个输入音频信号所关联的不同方向或扬声器位置(例如它们指示输入信号在收听空间中发起的位置)。根据实施例,两个或更多个输入音频信号的不同方向(在下文中,例如第一不同方向)与由音频分析器获得的响度信息所关联的不同方向(在下文中,例如第二不同方向)无关。因此,第一不同方向的方向可以表示两个或更多个输入音频信号中的信号的声道,并且第二不同方向的方向可以表示两个或更多个输入音频信号中的信号的音频分量的方向。第二不同方向可以位于第一方向之间。附加地或可替换地,第二不同方向可以位于第一方向之外和/或在第一方向上。
根据实施例,音频分析器被配置为针对每个谱仓(例如,也是每个时间步/帧)以及针对多个预定方向(期望的平移方向)确定方向相关加权(例如基于平移方向)。预定方向表示例如可以与预定平移方向/索引相关联的等距方向。可替换地,例如使用由音频分析器获得的与谱域表示的谱带相关联的方向信息来确定预定方向。根据实施例,方向信息可以包括预定方向。例如由音频分析器将方向相关加权应用于两个或更多个输入音频信号的一个或多个谱域表示。利用方向相关加权,谱仓的值例如与多个预定方向中的一个或多个方向相关联。该方向相关加权例如基于这样的思想:两个或更多个输入音频信号的谱域表示的每个谱仓在多个预定方向中的一个或多个不同方向上对响度信息作出贡献。例如每个谱仓主要对一个方向有贡献,并且仅对相邻方向有少量的贡献,由此对于不同的方向不同地加权谱仓的值是有利的。
根据实施例,音频分析器被配置为使用高斯函数来确定方向相关加权,使得方向相关加权随着(例如与所考虑的时频仓相关联的)相应的提取方向值与相应的预定方向值之间的偏差的增加而减小。各个提取方向值可以表示两个或更多个输入音频信号中的音频分量的方向。各个提取方向值的间隔可以位于完全向左的方向和完全向右的方向之间,其中,方向左和右是相对于感知两个或更多个输入音频信号的用户(例如面向扬声器)而言的。根据实施例,音频分析器可以将每个提取方向值确定为预定方向值,或者将等距方向值确定为预定方向值。因此,例如与在与提取方向值相对应的预定方向上相比,在与提取方向相邻的预定方向上根据高斯函数对与所述提取方向相对应的一个或多个谱仓进行较小加权。预定方向与提取方向的距离越大,谱仓或谱带的加权减小越多,使得例如谱仓对远离相应提取方向的位置处的响度感知几乎或没有影响。
根据实施例,音频分析器被配置为确定平移索引值作为提取方向值。平移索引值将例如唯一地指示由两个或更多个输入音频信号创建的立体声混合中的源的时频分量(即谱仓)的方向。
根据实施例,音频分析器被配置为根据输入音频信号的谱域值(例如输入音频信号的谱域表示的值)来确定提取方向值。例如基于对输入音频信号之间的(例如时频仓中的)信号分量的幅度平移的估计,或者基于输入音频信号的对应谱域值的幅度之间的关系,来确定提取方向值。根据实施例,提取方向值定义了输入音频信号的谱域值之间的相似性度量。
根据实施例,音频分析器被配置为根据
Figure BDA0003136099550000051
获得与(例如由索引Ψ0,j表示的)预定方向、由时间索引m指示的时间(或时间帧)以及由谱仓索引k指示的谱仓相关联的方向相关加权
Figure BDA0003136099550000052
其中ξ是用于例如控制高斯窗口的宽度的预定值。Ψ(m,k)指示与由时间索引m指示的时间(或时间帧)以及由谱仓索引k指示的谱仓相关联的提取方向值,Ψ0,j是指示预定方向(例如具有方向索引j)或与预定方向相关联的方向值。方向相关加权基于这样的思想:具有等于Ψ0,j(例如等于预定方向)的提取方向值(例如平移索引)的谱值或谱仓或谱带通过方向相关加权不被修改,并且对具有偏离Ψ0,j的提取方向值(例如平移索引)的谱值或谱仓或谱带进行加权。根据实施例,加权并传递具有接近Ψ0,j的提取方向值的谱值或谱仓或谱带,并且拒绝其余的值(例如不被进一步处理)。
根据实施例,音频分析器被配置为将方向相关加权应用于两个或更多个输入音频信号的一个或多个谱域表示,以获得加权谱域表示(例如“方向信号”)。因此,加权谱域表示例如包含对应于例如容限值内的一个或多个预定方向的两个或更多个输入音频信号的一个或多个谱域表示的谱仓(即时频分量)(例如还有与临近选定预定方向的不同预定方向相关联的谱仓)。根据实施例,对于每个预定方向,可以通过方向相关加权来实现加权谱域表示(例如加权谱域表示可以包括随着时间的与预定方向和/或与预定方向附近的方向相关联的方向相关加权的谱值、谱仓或谱带)。可替换地,对于(例如两个或更多输入音频信号的)每个谱域表示,获得一个加权谱域表示,其表示例如针对所有预定方向加权的对应谱域表示。
根据实施例,音频分析器被配置为获得加权谱域表示,使得在第一加权谱域表示中,具有关联的第一预定方向(例如第一平移方向)的信号分量相对于具有(不同于第一预定方向并且例如根据高斯函数被衰减的)关联的其他方向的信号分量更被强调,且使得在第二加权谱域表示中,具有(不同于第一预定方向的)关联的第二预定方向(例如第二平移方向)的信号分量相对于具有(不同于第二预定方向并且例如根据高斯函数被衰减的)关联的其他方向的信号分量被强调。因此,例如,对于每个预定方向,可以确定两个或更多个输入音频信号中的每个信号的加权谱域表示。
根据实施例,音频分析器被配置为根据
Figure BDA0003136099550000061
获得与由索引i指示的输入音频信号或输入音频信号的组合、由索引b指示的谱带、由索引Ψ0,j指示的方向、由时间索引m指示的时间(或时间帧)以及以及由谱仓索引k指示的谱仓相关联的加权谱域表示
Figure BDA0003136099550000062
Xi,b(m,k)指示与由索引i指示的输入音频信号或输入音频信号的组合(例如i=L或i=R或i=DM;其中L=左,R=右,并且DM=下混)、由索引b表示的谱带、由时间索引m表示的时间(或时间帧)以及由谱仓索引k表示的谱仓相关联的谱域表示,以及
Figure BDA0003136099550000063
指示与由索引Ψ0,j指示的方向、由时间索引m表示的时间(或时间帧)以及由谱仓索引k表示的谱仓相关联的方向相关加权(例如如高斯函数的加权函数)。因此,可以例如通过利用方向相关加权对与输入音频信号或输入音频信号的组合相关联的谱域表示进行加权来确定加权谱域表示。
根据实施例,音频分析器被配置为确定(例如与不同频带但是相同方向相关联的,例如与预定方向和/或预定方向附近的方向相关联的)多个带响度值的平均值,以获得(例如与给定方向或平移方向,即预定方向)相关联的组合响度值。组合响度值可将音频分析器获得的响度信息表示为分析结果。可替换地,由音频分析器作为分析结果获得的响度信息可以包括组合响度值。因此,响度信息可包括与不同预定方向相关联的组合响度值,从中可获得方向响度图。
根据实施例,音频分析器被配置为基于表示多个输入音频信号(例如两个或更多个输入音频信号的组合)的加权组合谱域表示而获得多个谱带(例如ERB带)的带响度值(例如其中加权组合频谱表示可以组合与输入音频信号相关联的加权谱域表示)。另外,音频分析器被配置为基于针对多个不同方向(或平移方向)所获得的带响度值而获得作为分析结果的(覆盖多个谱带;例如以单个标量值的形式的)多个组合响度值。因此,例如,音频分析器被配置为对与相同方向相关联的所有带响度值进行平均,以获得与此方向相关联的组合响度值(例如导致多个组合响度值)。音频分析器例如被配置为针对每个预定方向获得组合响度值。
根据实施例,音频分析器被配置为在频带的谱值上(或在频带的谱仓上)计算加权组合谱域表示的均方谱值,并且将具有在0和1/2之间(并且优选地小于或等于1/3或1/4)的指数的取幂应用于均方谱值,以便确定(与相应频带相关联的)带响度值。
根据实施例,音频分析器被配置为根据
Figure BDA0003136099550000071
来获得与由索引b指示的谱带、由索引Ψ0,j指示的方向、由时间索引m指示的时间(或时间帧)相关联的带响度值
Figure BDA0003136099550000072
因子Kb表示在具有频带索引b的频带中的谱仓的数量。变量k是游动变量并且指示频带索引为b的频带中的谱仓,其中b指示谱带。
Figure BDA0003136099550000073
指示与索引b指示的谱带、索引Ψ0,j指示的方向、索引m指示的时间(或时间帧)以及谱仓索引k指示的谱仓相关联的加权组合谱域表示。
根据实施例,音频分析器被配置为根据
Figure BDA0003136099550000074
获得与由索引Ψ0,j指示的方向和由时间索引m指示的时间(或时间帧)相关联的多个组合响度值L(m,Ψ0,j)。因子B表示谱带b的总数,并且
Figure BDA0003136099550000075
表示与索引b指示的谱带、索引Ψ0,j指示的方向以及时间索引m指示的时间(或时间帧)相关联的带响度值。
根据实施例,音频分析器被配置为根据方向信息将响度贡献分配给与不同方向(例如如上所述的第二不同方向;例如预定方向)相关联的直方图仓以获得分析结果。响度贡献例如由多个组合响度值或由多个带响度值表示。因此,例如,分析结果包括由直方图仓定义的方向响度图。每个直方图仓例如与预定方向中的一个相关联。
根据实施例,音频分析器被配置为基于谱域表示获得与谱仓相关联的响度信息(例如以获得每T/F片段的组合响度)。音频分析器被配置为基于与给定谱仓相关联的响度信息来将响度贡献添加到一个或多个直方图仓。例如(例如根据对应于直方图仓的方向)将与给定谱仓相关联的响度贡献以不同加权添加到不同直方图仓。将响度贡献给到(即添加到)哪一个或多个直方图仓的选择基于对给定谱仓的方向信息(即提取方向值)的确定。根据实施例,每个直方图仓可以表示时间方向片段。因此,直方图仓例如与在特定时间帧和方向上组合的两个或更多个输入音频信号的响度相关联。为了确定给定谱仓的方向信息,例如分析两个或更多个输入音频信号的谱域表示的对应谱仓的等级信息。
根据实施例,音频分析器被配置为基于与给定谱仓相关联的响度信息将响度贡献添加到多个直方图仓,使得最大贡献(例如主要贡献)被添加到与对应于与(即提取方向值的)给定谱仓相关联的方向信息的方向相关联的直方图仓,并且使得将(例如相对小于最大贡献或主要贡献的)减小的贡献添加到与(例如在对应于与给定谱仓相关联的方向信息的方向附近的)其他方向相关联的一个或多个直方图仓。如上所述,每个直方图仓可以表示时间方向片段。根据实施例,多个直方图仓可以定义方向响度图,其中方向响度图定义例如针对两个或更多个输入音频信号的组合随时间的不同方向的响度。
根据实施例,音频分析器被配置为基于两个或更多个输入音频信号的音频内容来获得方向信息。方向信息包括例如两个或更多个输入音频信号的音频内容中的分量或源的方向。换言之,方向信息可以包括源在两个或更多个输入音频信号的立体声混合中的平移方向或平移索引。
根据实施例,音频分析器被配置为基于对音频内容的幅度平移的分析来获得方向信息。附加地或可替换地,音频分析器被配置为基于对两个或更多个输入音频信号的音频内容之间的相位关系和/或时延和/或相关性的分析来获得方向信息。附加地或可替换地,音频分析器被配置为基于对加宽(例如去相关和/或平移)源的识别来获得方向信息。对音频内容的幅度平移的分析可以包括对两个或更多个输入音频信号的谱域表示的对应的谱仓之间的等级相关性的分析(例如具有相同等级的对应谱仓可以与各自传输两个输入音频信号中的一个的两个扬声器的中间的方向相关联)。类似地,可以执行对音频内容之间的相位关系和/或时延和/或相关性的分析。因此,例如,针对两个或更多个输入音频信号的谱域表示的相应谱仓,分析音频内容之间的相位关系和/或时延和/或相关性。附加地或可替换地,除了声道间等级/时间差比较之外,存在用于方向信息估计的另一(例如第三)方法。该方法包括在不同方向上将传入声音的谱信息与头相关传输函数(HRF)的预先测量的“模板频谱响应/滤波器”进行匹配。
例如:在某个时间/频率片段处,来自左声道和右声道的35度处的输入信号的频谱包络可能与以35度的角度测量的用于左耳和右耳的线性滤波器的形状紧密匹配。然后,优化算法或模式匹配程序将声音的到达方向指定为35°。可以在下面找到更多信息:https://iem.kug.ac.at/fileadmin/media/iem/projects/2011/baumgartner_robert.pdf(例如请参阅第2章)。该方法具有允许估计除水平源之外的升高的声源的进入方向(矢状面)的优点。该方法基于例如谱等级比较。
根据实施例,音频分析器被配置为根据扩展规则(例如高斯扩展规则,或有限、离散扩展规则)将响度信息扩展到多个方向(例如除了由方向信息指示的方向之外)。这意味着,例如,与特定方向信息相关联的与特定谱仓相对应的响度信息也可以根据扩展规则对(谱仓的特定方向的)相邻方向作出贡献。根据实施例,扩展规则可以包括或对应于方向相关加权,其中,在这种情况下,方向相关加权例如定义特定谱仓的响度信息对多个方向的不同加权贡献。
根据本发明的实施例涉及音频相似性评估器,其被配置为基于第一组两个或更多个输入音频信号,获得与不同(例如平移)方向相关联的第一响度信息(例如方向响度图;一个或多个组合响度值)。音频相似性评估器被配置为将第一响度信息与与不同(例如平移)方向和一组两个或更多个参考音频信号相关联的第二(例如对应)响度信息(例如参考响度信息、参考方向响度图和/或参考组合响度值)进行比较,以获得相似性信息(例如“模型输出变量”(MOV),例如单个标量值),相似性信息描述第一组两个或更多个输入音频信号与一组两个或更多个参考音频信号之间的相似性(或表示例如当与一组两个或更多个参考音频信号进行比较时第一组两个或更多个输入音频信号的质量)。
本实施例基于以下思想:将两个或更多个输入音频信号的方向响度信息(例如第一响度信息)与两个或更多个参考音频信号的方向响度信息(例如第二响度信息)进行比较是有效的并且提高了音频质量指示(例如相似性信息)的准确性。使用与不同方向相关联的响度信息对于立体声混合或多声道混合是特别有利的,因为不同方向可以例如与混合中的源(即音频分量)的方向(平移方向、平移索引)相关联。因此,可以有效地测量两个或更多个输入音频信号的经处理的组合的质量降级。另一优点在于,诸如带宽扩展(BWE)的非波形保留音频处理仅最小地或不影响相似性信息,因为例如在短时傅里叶变换(STFT)域中确定立体声图像或多声道图像的响度信息。此外,基于响度信息的相似性信息可以容易地用单声道/音质相似性信息来补充,以改善对两个或更多个输入音频信号的感知预测。因此,例如仅使用除了单声道质量描述符之外的一个相似性信息,相对于仅使用单声道质量描述符的已知系统,这可以减少由客观音频质量测量系统使用的独立且相关的信号特征的数量。对于相同的性能使用较少的特征将降低过拟合的风险并且指示它们较高的感知相关性。
根据实施例,音频相似性评估器被配置为获得第一响度信息(例如方向响度图),使得第一响度信息(例如包括用于多个预定方向的组合响度值的向量)包括与第一组两个或更多个输入音频信号相关联以及与相应的预定方向相关联的多个组合响度值,第一响度信息的组合响度值描述与相应的预定方向相关联的第一组两个或更多个输入音频信号的信号分量的响度(其中,例如每个组合响度值与不同的方向相关联)。因此,例如每个组合响度值可以由定义例如对于某个特定方向的响度随时间的变化的向量来表示。这意味着,例如,一个组合响度值可以包括与连续时间帧相关联的一个或多个响度值。预定方向可以由第一组两个或更多个输入音频信号的信号分量的平移方向/平移索引来表示。因此,例如可以通过用于在由第一组两个或更多个输入音频信号表示的立体声或多声道混合中定位方向信号的幅度皮革平移技术来预定义预定方向。
根据实施例,音频相似性评估器被配置为获得所述第一响度信息(例如方向响度图),使得第一响度信息与和相应的预定方向相关联的第一组两个或更多个输入音频信号的(例如每个音频信号的)多个加权谱域表示的组合相关联(例如每个组合响度值和/或加权谱域表示与不同的预定方向相关联)。这意味着,例如对于每个输入音频信号,计算至少一个加权谱域表示,然后组合与同一预定方向相关联的所有加权谱域表示。因此,第一响度信息表示例如与关联于相同预定方向的多个谱仓相关联的响度值。例如多个谱仓中的至少一些谱仓的加权不同于多个谱仓中的其他谱仓的加权。
根据实施例,音频相似性评估器被配置为确定第二响度信息和第一响度信息之间的差,以获得残差响度信息。根据实施例,残差响度信息可以表示相似性信息,或者可以基于残差响度信息来确定相似性信息。残差响度信息例如被理解为第二响度信息与第一响度信息之间的距离量度。因此,残差响度信息可被理解为方向响度距离(例如DirLoudDist)。利用该特征,可以非常有效地确定与第一响度信息相关联的两个或更多个输入音频信号的质量。
根据实施例,音频相似性评估器被配置为确定在多个方向上(并且可选地也在时间上,例如在多个帧上)量化差的值(例如单个标量值)。音频相似性评估器例如被配置为确定在所有方向(例如平移方向)上以及在时间上的残差响度信息的幅度的平均值作为量化差的值。由此,例如确定了被称为模型输出变量(MOV)的单个数字,其中MOV定义了第一组两个或更多个输入音频信号相对于一组两个或更多个参考音频信号的相似性。
根据实施例,音频相似性评估器被配置为使用根据在此描述的实施例之一的音频分析器来获得第一响度信息和/或第二响度信息(例如作为方向响度图)。
根据实施例,音频相似性评估器被配置为使用表示与输入音频信号相关联的扬声器的位置信息的元数据来获得用于获得与不同方向相关联的响度信息(例如一个或多个方向响度图)的方向分量(例如方向信息)。不同的方向不必与方向分量相关联。根据实施例,方向分量与两个或更多个输入音频信号相关联。因此,方向分量可以表示专用于例如扬声器的不同方向或位置的扬声器标识符或声道标识符。相反,与响度信息相关联的不同方向可以表示由两个或更多个输入音频信号实现的音频场景中的音频分量的方向或位置。可替换地,不同的方向可以表示位置区间(例如[-1;1],其中-1表示完全向左平移的信号,+1表示完全向右平移的信号)中的等间隔的方向或位置,由两个或更多个输入音频信号实现的音频场景可以在位置区间中展开。根据实施例,不同的方向可以与在此描述的预定方向相关联。方向分量例如与位置区间的边界点相关联。
根据本发明的实施例涉及一种用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的音频编码器。音频编码器被配置为基于一个或多个输入音频信号(例如左信号及右信号),或从其得出的一个或多个信号(例如中间信号或下混信号和侧信号或差分信号)来提供一个或多个编码(例如经量化且接着无损编码)的音频信号(例如编码的谱域表示)。另外,音频编码器被配置为根据表示与待编码的一个或多个信号的多个不同方向(例如平移方向)相关联的响度信息的一个或多个方向响度图(例如根据待量化的一个或多个信号的单独的方向响度图对总体方向响度图的贡献,方向响度图例如与多个输入音频信号相关联(例如与一个或多个输入音频信号中的每个信号相关联))适配编码参数(例如用于提供一个或多个编码音频信号的;例如量化参数)。
包括一个输入音频信号的音频内容可以与单声道音频场景相关联,包括两个输入音频信号的音频内容可以与立体声音频场景相关联,并且包括三个或更多个输入音频信号的音频内容可以与多声道音频场景相关联。根据实施例,音频编码器为每个输入音频信号提供单独的编码音频信号作为输出信号,或者提供包括两个或更多个输入音频信号的两个或更多个编码音频信号的一个组合输出信号。
方向响度图(即DirLoudMap)对于不同的音频内容可以变化,编码参数的适配取决于方向响度图。因此,对于单声道音频场景,方向响度图例如仅对于一个方向包括偏离零的响度值(基于唯一的输入音频信号),并且例如对于所有其他方向包括等于零的响度值。对于立体声音频场景,方向响度图表示例如与两个输入音频信号相关联的响度信息,其中不同的方向例如与两个输入音频信号的音频分量的位置或方向相关联。在三个或更多个输入音频信号的情况下,编码参数的适配取决于例如三个或更多个方向响度图,其中每个方向响度图对应于与三个输入音频信号中的两个相关联的响度信息(例如第一DirLoudMap可对应于第一和第二输入音频信号;第二DirLoudMap可以对应于第一和第三输入音频信号;第三DirLoudMap可以对应于第二和第三输入音频信号)。如针对立体声音频场景所描述的,在多声道音频场景的情况下,方向响度图的不同方向例如与多个输入音频信号的音频分量的位置或方向相关联。
本音频编码器的实施例基于这样的思想:取决于一个或多个方向响度图对编码参数进行适配是有效的并且提高了编码的准确性。例如根据与一个或多个输入音频信号相关联的方向响度图和与一个或多个参考音频信号相关联的方向响度图的差来适配编码参数。根据一个实施例,对所有输入音频信号的组合和所有参考音频信号的组合的总体方向响度图进行比较,或者可替换地,将单个或成对信号的方向响度图与所有输入音频信号的总体方向响度图进行比较(例如多于一个差可以被确定)。DirLoudMap之间的差可以表示编码的质量量度。因此,编码参数例如被适配为使得差被最小化,以确保音频内容的高质量编码,或者编码参数被适配为使得仅对与低于特定阈值的差相对应的音频内容的信号进行编码,以降低编码的复杂度。可替换地,例如根据单独的信号DirLoudMap或信号对DirLoudMap与总体DirLoudMap(例如与所有输入音频信号的组合相关联的DirLoudMap)的比率(例如贡献)来适配编码参数。所述比率可以与差类似地表示音频内容的单个信号或信号对之间的相似性,或者单个信号与音频内容的所有信号的组合之间的相似性,或信号对与音频内容的所有信号的组合之间的相似性,从而导致高质量编码和/或编码复杂度的降低。
根据实施例,音频编码器被配置为根据待编码的一个或多个信号和/或参数的单独的方向响度图对总体方向响度图的贡献适配待编码的一个或多个信号和/或参数之间的比特分布(或者,例如待编码的两个或更多个信号和/或参数之间的比特分布)(例如残差信号和下混信号之间的比特分布,或者左声道信号和右声道信号之间的比特分布,或由多个信号的联合编码提供的两个或更多个信号之间的比特分布,或由多个信号的联合编码提供的参数与信号之间的比特分布)。比特分布的适配例如被理解为音频编码器对编码参数的适配。比特分布也可以被理解为比特率分布。例如通过控制音频编码器的一个或多个输入音频信号的量化精度来适配比特分布。根据实施例,高贡献可以指示对应的输入音频信号或输入音频信号对对于由音频内容创建的音频场景的高质量感知的高相关性。因此,举例来说,音频编码器可被配置为为具有高贡献的信号提供许多比特,且为具有低贡献的信号提供极少比特或不提供比特。因此,可以实现高效和高质量的编码。
根据实施例,音频编码器被配置为当给定的待编码的一个信号(例如残差信号)的单独的方向响度图对总体方向响度图的贡献低于(例如预定的)阈值时,禁用对给定的待编码的一个信号(例如残差信号)的编码。如果平均比率或在最大相对贡献的方向上的比率低于阈值,则编码例如被禁用。可替换地或另外地,信号对的方向响度图(例如信号对的单独的方向响度图(例如,两个信号的组合可以理解为信号对;例如,与不同声道相关联的信号和/或残差信号和/或下混信号的组合可以理解为信号对)对总体方向响度图的贡献可以由编码器用来禁用对信号中的给定一个的编码(例如对于待编码的三个信号:如上所述,信号对的三个方向响度图可以相对于总体方向响度图进行分析;因此,编码器可以被配置为确定对总体方向响度图具有最高贡献的信号对,并且仅对这两个信号进行编码,并且对其余信号禁用编码)。信号的编码的禁用例如被理解为编码参数的适配。因此,不需要对与收听者对音频内容的感知高度不相关的信号进行编码,这导致非常有效的编码。根据实施例,阈值可以被设置为小于或等于总体方向响度图的响度信息的5%、10%、15%、20%或50%。
根据实施例,音频编码器被配置为根据待编码的(相应的)一个或多个信号的单独的方向响度图对总体方向响度图的贡献来适配待编码的一个或多个信号(例如残差信号和下混信号之间的信号)的量化精度。可替换地或附加地,类似于上述禁用,编码器可以使用信号对的方向响度图对总体方向响度图的贡献来适配待编码的一个或多个信号的量化精度。量化精度的适配可以理解为音频编码器适配编码参数的示例。
根据实施例,音频编码器被配置为使用一个或多个量化参数(例如描述哪些量化精度或量化步长应当应用于待量化的一个或多个信号的哪些谱仓或频带的缩放因子或参数)(其中量化参数描述例如比特到待量化的不同信号和/或到不同频带的分配)来量化一个或多个输入音频信号(例如左信号和右信号;例如,一个或多个输入音频信号例如对应于多个不同的声道。因此,音频编码器接收例如多声道输入)或从其得出的一个或多个信号(例如中间信号或下混信号以及侧信号或差分信号),以获得一个或多个量化的谱域表示。音频编码器被配置为根据表示与待量化的一个或多个信号的多个不同方向(例如平移方向)相关联的响度信息的一个或多个方向响度图(例如根据待量化的一个或多个信号的单独的方向响度图对例如与多个输入音频信号相关联(例如与一个或多个输入音频信号的每个信号相关联)的总体方向响度图的贡献)来调节所述一个或多个量化参数(例如以便适配待编码的一个或多个信号之间的比特分布),以适配对一个或多个编码音频信号的提供。另外,音频编码器被配置为对一个或多个量化谱域表示进行编码,以便获得一个或多个编码音频信号。
根据实施例,音频编码器被配置为根据待量化的一个或多个信号的单独的方向响度图对总体方向响度图的贡献来适配一个或多个量化参数。
根据实施例,音频编码器被配置为基于输入音频信号确定总体方向响度图,使得总体方向响度图表示与由输入音频信号(可能结合关于扬声器的位置的知识或边信息和/或描述音频对象的位置的知识或边信息)表示的(或将表示的,例如在解码器侧渲染之后)音频场景的(例如音频分量的)不同方向(例如平移方向)的相关联的响度信息。总体方向响度图表示例如与所有输入音频信号(例如其组合)相关联的响度信息。
根据实施例,将待量化的一个或多个信号(例如以固定的方式,非信号相关方式)与不同方向(例如第一不同方向)相关联,或者与(例如在不同的预定义扬声器位置处的)不同的扬声器相关联,或者与不同的音频对象(例如根据对象渲染信息,例如平移索引,在不同的位置处待渲染的音频对象)相关联。
根据实施例,待量化的信号包括两个或更多个输入音频信号的联合多信号编码的分量(例如中侧立体声编码的中间信号和侧信号)。
根据实施例,音频编码器被配置为估计联合多信号编码的残差信号对总体方向响度图的贡献,并且根据其来调节一个或多个量化参数。所估计的贡献例如由残差信号的方向响度图对总体方向响度图的贡献来表示。
根据实施例,音频编码器被配置为针对不同谱仓单独地或针对不同频带单独地适配待编码的一个或多个信号和/或参数之间的比特分布。另外地或可替换地,音频编码器被配置为针对不同谱仓单独地或针对不同频带单独地适配待编码的一个或多个信号的量化精度。随着量化精度的适配,音频编码器例如被配置为还适配比特分布。因此,音频编码器例如被配置为适配待由音频编码器编码的音频内容的一个或多个输入音频信号之间的比特分布。附加地或可替换地,适配待编码的参数之间的比特分布。可以由音频编码器针对不同谱仓单独地或针对不同频带单独地执行比特分布的适配。根据实施例,还可以适配信号和参数之间的比特分布。换言之,要由音频编码器编码的一个或多个信号中的每个信号可以包括用于(例如对应信号的)不同谱仓和/或不同频带的单独比特分布,并且待编码的一个或多个信号中的每个信号的所述单独比特分布可以由音频编码器来适配。
根据实施例,音频编码器被配置为根据待编码的两个或更多个信号之间的空间掩蔽的评估来(例如针对每个谱仓或针对每个频带单独地)适配待编码的一个或多个信号和/或参数之间的比特分布。此外,音频编码器被配置为基于与待编码的两个或更多个信号相关联的方向响度图来评估空间掩蔽。这例如基于这样的思想:对方向响度图进行空间和/或时间分辨。因此,例如仅很少或没有比特被用于掩蔽的信号,并且更多的比特(例如比用于掩蔽的信号更多的比特)被用于相关信号或信号分量(例如未被其他信号或信号分量掩蔽的信号或信号分量)的编码。根据实施例,空间掩蔽例如取决于与待编码的两个或更多个信号的谱仓和/或频带相关联的等级,谱仓和/或频带之间的空间距离,和/或谱仓和/或频带之间的时间距离。方向响度图可直接提供单独的信号或信号组合(例如信号对)的单独的谱仓和/或频带的响度信息,从而导致编码器对空间掩蔽的有效分析。
根据实施例,音频编码器被配置为评估与待编码的第一信号的第一方向相关联的响度贡献对与待编码的第二信号的(不同于第一方向的)第二方向相关联的响度贡献的掩蔽效果(其中,例如掩蔽效果随着角度的差的增大而减小)。掩蔽效果例如定义空间掩蔽的相关性。这意味着,例如,对于与低于阈值的掩蔽效果相关联的响度贡献,比与高于阈值的掩蔽效果相关联的信号(例如空间掩蔽的信号)花费更多的比特。根据实施例,阈值可以定义为总掩蔽的20%、50%、60%、70%或75%掩蔽。这意味着,例如,根据方向响度图的响度信息来评估相邻谱仓或频带的掩蔽效果。
根据实施例,音频编码器包括根据本文描述的实施例之一的音频分析器,其中与不同方向相关联的响度信息(例如“方向响度图”)形成方向响度图。
根据实施例,音频编码器被配置为根据一个或多个方向响度图适配由编码器引入的噪声(例如量化噪声)。因此,例如,编码器可将待编码的一个或多个信号的一个或多个方向响度图与一个或多个参考信号的一个或多个方向响度图进行比较。基于所述比较,音频编码器例如被配置为评估指示所引入的噪声的差。可以通过适配由音频编码器执行的量化来适配噪声。
根据实施例,音频编码器被配置为使用与给定的未编码输入音频信号(或与给定的未编码输入音频信号对)相关联的方向响度图和通过给定输入音频信号的(或给定输入音频信号对的)编码版本可实现的方向响度图之间的偏差作为用于适配给定编码音频信号(或给定编码音频信号对)的提供的标准(例如目标标准)。仅针对一个给定的未编码输入音频信号描述了以下示例,但是显然,它们也适用于给定的未编码输入音频信号对。与给定的未编码输入音频信号相关联的方向响度图可以是相关联的或者可以表示参考方向响度图。因此,参考方向响度图与给定输入音频信号的编码版本的方向响度图之间的偏差可以指示由编码器引入的噪声。为了降低噪声,音频编码器可以被配置为适配编码参数以降低偏差,从而提供高质量的编码音频信号。这例如通过控制每次偏差的反馈回路来实现。因此,适配编码参数直到偏差低于预定阈值。根据实施例,阈值可以定义为5%、10%、15%、20%或25%偏差。可替换地,由编码器使用神经网络(例如实现前馈回路)来执行适配。利用神经网络,可以估计给定输入音频信号的编码版本的方向响度图,而不必由音频编码器或音频分析器直接确定它。因此,可以实现非常快速和高精度的音频编码。
根据实施例,音频编码器被配置为根据表示与待编码的一个或多个信号的多个不同方向相关联的响度信息的一个或多个方向响度图激活和去激活联合编码工具(其例如联合编码输入音频信号的两个或更多个,或从其得出的信号)(例如以做出M/S(中/侧信号)开/关决策)。为了激活或去激活联合编码工具,音频编码器可被配置为确定每一信号或每一候选信号对的方向响度图对总体场景的总体方向响度图的贡献。根据实施例,高于阈值的贡献(例如至少10%或至少20%或至少30%或至少50%的贡献)指示输入音频信号的联合编码是否合理。例如对于所述使用情况,阈值可以相对较低(例如低于其他使用情况),以主要滤除无关对。基于方向响度图,音频编码器可检查信号的联合编码是否导致更有效和/或视图比特高分辨率编码。
根据实施例,音频编码器被配置为根据表示与待编码的一个或多个信号的多个不同方向相关联的响度信息的一个或多个方向响度图确定联合编码工具(其例如联合编码输入音频信号的两个或更多个;或由其得出的信号)的一个或多个参数(例如以控制频率相依预测因子的平滑;例如以设置“强度立体声”联合编码工具的参数)。一个或多个方向响度信息图包括例如关于预定方向和时间帧处的响度的信息。因此,例如,音频编码器被配置为基于先前时间帧的响度信息来确定当前时间帧的一个或多个参数。基于方向响度图,可以非常有效地分析掩蔽效应并且可以由一个或多个参数来指示掩蔽效应,由此可以基于一个或多个参数来确定频率相依预测因子,使得预测的样本值接近于(与待编码的信号相关联的)原始样本值。因此,编码器可以确定表示掩蔽阈值而不是待编码的信号的近似的频率相依预测因子。此外,方向响度图例如基于心理声学模型,由此进一步改进了基于一个或多个参数的频率相依预测因子的确定,并且可以产生高度准确的预测。可替换地,联合编码工具的参数定义例如哪些信号或信号对应当由音频编码器联合编码。音频编码器例如被配置为基于与待编码的信号或待编码的信号的信号对相关联的每个方向响度图对总体方向响度图的贡献来确定一个或多个参数。因此,例如一个或多个参数指示具有最高贡献或等于或高于阈值(参见例如上文的阈值定义)的贡献的单独的信号和/或信号对。基于一个或多个参数,音频编码器例如被配置为对由一个或多个参数指示的信号进行联合编码。可替换地,例如在相应的方向响度图中具有高接近度/相似性的信号对可以由联合编码工具的一个或多个参数来指示。所选择的信号对例如由下混来联合表示。因此,编码所需的比特被最小化或减少,因为待联合编码的信号的下混信号或残差信号非常小。
根据实施例,音频编码器被配置为确定或估计控制一个或多个编码音频信号的提供的一个或多个控制参数的变化对一个或多个编码信号的方向响度图的影响,并且根据对影响的确定或估计来调节一个或多个控制参数。控制参数对一个或多个编码信号的方向响度图的影响可以包括通过音频编码器的编码引起的噪声的量度(例如关于量化位置的控制参数可以被调节)、音频失真的量度和/或收听者的感知质量的下降的量度。根据实施例,控制参数可以由编码参数来表示,或者编码参数可以包括控制参数。
根据实施例,音频编码器被配置为使用表示与输入音频信号相关联的扬声器的位置信息的元数据来获得用于获得一个或多个方向响度图的方向分量(例如方向信息)(所述概念也可以用于其他音频编码器)。方向分量例如由在此描述的第一不同方向表示,第一不同方向例如与输入音频信号相关联的不同声道或扬声器相关联。根据实施例,基于方向分量,所获得的一个或多个方向响度图可以与输入音频信号和/或具有相同方向分量的输入音频信号的信号对相关联。因此,例如方向响度图可以具有索引L,并且输入音频信号可以具有索引L,其中L指示左声道或用于左扬声器的信号。可替换地,方向分量可以由指示第一声道和第三声道的输入音频信号的组合的向量如(1,3)来表示。因此,具有索引(1,3)的方向响度图可以与此信号对相关联。根据实施例,每个声道可以与不同的扬声器相关联。
根据本发明的实施例涉及一种用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的音频编码器。音频编码器被配置为使用待联合编码的两个或更多个信号的联合编码(例如使用中间信号或下混信号以及侧信号或差分信号),基于两个或更多个输入音频信号(例如左信号及右信号)或基于从其得出的两个或更多个信号,提供一个或多个编码的(例如经量化且接着无损编码的)音频信号(例如编码的谱域表示)。另外,音频编码器被配置为根据表示与候选信号或候选信号对的多个不同方向(例如平移方向)相关联的响度信息的方向响度图(例如根据候选信号的单独的方向响度图对例如与多个输入音频信号相关联的(例如与一个或多个输入音频信号的每个信号相关联的)总体方向响度图的贡献,或根据候选信号对的方向响度图对(例如与所有输入音频信号相关联的)总体方向响度图的贡献),从多个候选信号中或从多个候选信号对中(例如从两个或更多个输入音频信号中或从其得出的所述两个或更多个信号中)选择待联合编码的信号。
根据实施例,音频编码器可以被配置为激活和去激活联合编码。因此,例如,如果音频内容仅包括一个输入音频信号,则去激活联合编码,并且仅在音频内容包括两个或更多个输入音频信号时激活联合编码。因此,可以利用音频编码器编码单声道音频内容、立体声音频内容和/或包括三个或更多个输入音频信号的音频内容(即多声道音频内容)。根据实施例,音频编码器为每个输入音频信号提供单独的编码音频信号作为输出信号(例如适合于仅包括一个单个输入音频信号的音频内容)或者提供包括两个或更多个输入音频信号的两个或更多个编码音频信号的一个组合输出信号(例如联合编码的信号)。
本音频编码器的实施例基于这样的思想:基于方向响度图的联合编码是高效的并且提高了编码的准确性。使用方向响度图是有利的,因为它们可以指示收听者对音频内容的感知并且因此改进编码的音频内容的音频质量,尤其是在联合编码的情况下。例如可以通过分析方向响度图来优化待联合编码的信号对的选择。方向响度图的分析给出例如关于可以忽略的信号或信号对的信息(例如对收听者的感知几乎没有影响的信号),导致由音频编码器编码的音频内容(例如包括两个或更多个编码信号)所需的少量比特。这意味着,例如具有它们各自的方向响度图对总体方向响度图的低贡献的信号可被忽略。可替换地,分析可以指示具有高相似性的信号(例如具有相似方向响度的信号),由此,例如可以通过联合编码获得优化的残差信号。
根据实施例,音频编码器被配置为根据候选信号的单独的方向响度图对总体方向响度图的贡献,或者根据候选信号对的方向响度图对(例如与多个输入音频信号相关联的(例如与一个或多个输入音频信号中的每个信号相关联的))(或与例如由输入音频信号表示的总体(音频)场景相关联的)总体方向响度图的贡献,从多个候选信号中或者从多个候选信号对中选择待联合编码的信号。总体方向响度图表示例如与由输入音频信号(可能与关于扬声器的位置的知识或边信息和/或描述音频对象的位置的知识或边信息相结合)表示的(或例如在解码器侧渲染之后待表示的)音频场景的(例如音频分量的)不同方向相关联的响度信息。
根据实施例,音频编码器被配置为确定候选信号对对于总体方向响度图的贡献。另外,音频编码器被配置为选择对总体方向响度图具有最高贡献的一个或多个候选信号对以用于联合编码,或者音频编码器被配置为选择对总体方向响度图具有大于预定阈值的贡献(例如至少60%、70%、80%或90%的贡献)的一个或多个候选信号对以用于联合编码。关于最高贡献,有可能只有一对候选信号具有最高贡献,但也有可能多于一对候选信号具有代表最高贡献的相同贡献,或者多于一对候选信号在最高贡献的小变化内具有相似的贡献。因此,音频编码器例如被配置为选择多于一个信号或信号对用于联合编码。利用本实施例中描述的特征,可以找到用于改进的联合编码的相关信号对,并丢弃不会大量地影响收听者对编码音频内容的感知的信号或信号对。
根据实施例,音频编码器被配置为确定两个或更多个候选信号的单独的方向响度图(例如与信号对相关联的方向响度图)。另外,音频编码器被配置为比较两个或更多个候选信号的单独的方向响度图,并根据比较的结果选择两个或更多个候选信号用于联合编码(例如使得选择其单独的响度图包括最大相似性或高于相似性阈值的相似性的候选信号(例如信号对、信号三元组、信号四元组等)用于联合编码)。因此,例如对于保持编码音频内容的高质量的残差信号(例如针对中间声道的侧声道),仅花费极少比特或不花费比特。
根据实施例,音频编码器被配置为使用输入音频信号的下混和/或使用输入音频信号的双声道化来确定总体方向响度图。下混或双声道化考虑例如方向(例如与用于相应的输入音频信号的声道或扬声器的关联)。总体方向响度图可以与对应于由所有输入音频信号创建的音频场景的响度信息相关联。
根据本发明的实施例涉及一种用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的音频编码器。音频编码器被配置为基于两个或更多个输入音频信号(例如左信号及右信号)或基于从其得出的两个或更多个信号提供一个或多个编码的(例如经量化且接着无损编码的)音频信号(例如编码的谱域表示)。另外,音频编码器被配置为基于输入音频信号确定总体方向响度图(例如场景的目标方向响度图),和/或确定与单独的输入音频信号相关联(或与两个或更多个输入音频信号(例如信号对)相关联)的一个或多个单独的方向响度图。此外,音频编码器被配置为将总体方向响度图和/或一个或多个单独的方向响度图编码为边信息。
因此,例如如果音频内容仅包括一个输入音频信号,则音频编码器被配置为仅将此信号与对应的单独的方向响度图一起编码。如果音频内容包括两个或更多个输入音频信号,则音频编码器例如被配置为将所有或至少一些信号(例如三个输入音频信号的一个信号对和一个单独的信号)单独地与相应的方向响度图一起(例如与单独的编码信号的单独的方向响度图一起和/或与对应于信号对或多于两个信号的其他组合的方向响度图一起和/或与和所有输入音频信号相关联的总体方向响度图一起)编码。根据实施例,音频编码器被配置为对导致一个编码音频信号的全部或至少一些信号进行编码,例如与总体方向响度图一起作为输出(例如,包括例如两个或更多个输入音频信号的两个或更多个编码音频信号的一个组合输出信号(例如联合编码的信号))。因此,可以利用音频编码器编码单声道音频内容、立体声音频内容和/或包括三个或更多个输入音频信号的音频内容(即多声道音频内容)。
本音频编码器的实施例基于这样的思想:确定和编码一个或多个方向响度图是有利的,因为它们可以指示收听者对音频内容的感知,并且因此改善编码的音频内容的音频质量。根据实施例,编码器可以使用一个或多个方向响度图来改善编码,例如通过基于一个或多个方向响度图适配编码参数。因此,一个或多个方向响度图的编码是特别有利的,因为它们可以表示关于编码的影响的信息。利用由音频编码器提供的作为编码音频内容中的边信息的一个或多个方向响度图,可以实现非常准确的解码,因为由音频编码器(例如在数据流中)提供关于编码的信息。
根据实施例,音频编码器被配置为基于输入音频信号确定总体方向响度图,使得总体方向响度图表示与由输入音频信号(可能结合关于扬声器位置的知识或边信息和/或描述音频对象的位置的知识或边信息)表示的(或例如在解码器侧渲染之后待表示的)音频场景的(例如音频分量的)不同方向相关联的响度信息。音频场景的不同方向表示例如在此描述的第二不同方向。
根据实施例,音频编码器被配置为以与不同方向(并且优选地与多个频率仓或谱带)相关联的成组的(例如标量)值的形式对总体方向响度图进行编码。如果总体方向响度图以成组的值的形式被编码,则与某个方向相关联的值可以包括多个频率仓或频带的响度信息。可替换地,音频编码器被配置为使用中心位置值(例如描述对于给定的频率仓或频带出现总体方向响度图的最大值的角度或平移索引)和斜率信息(例如描述总体方向响度图的值在角度方向或平移索引方向上的斜率的一个或多个标量值)来编码总体方向响度图。可以针对不同的给定频率仓或频带执行使用中心位置值和斜率信息的总体方向响度图的编码。因此,例如,总体方向响度图可以包括多于一个频率仓或频带的中心位置值的信息和斜率信息。可替换地,音频编码器被配置为以多项式表示的形式编码总体方向响度图,或者音频编码器被配置为以样条表示的形式编码总体方向响度图。以多项式表示或样条表示的形式对总体方向响度图进行编码是一种成本有效的编码。虽然这些特征是相对于总体方向响度图来描述的,但是这种编码也可以针对(例如单独信号、信号对和/或三个或更多信号的组的)单独的方向响度图来执行。因此,利用这些特征,方向响度图被非常有效地编码,并且提供编码所基于的信息。
根据实施例,音频编码器被配置为对基于多个输入音频信号获得的一个(例如仅一个)下混信号和总体方向响度图进行编码(例如,和传输或包括到编码的音频表示中)。可替换地,音频编码器被配置为对多个信号(例如输入音频信号或从其得出的信号)进行编码(例如,和传输或包括到编码的音频表示中),并且对编码的多个信号的单独的方向响度图(例如单独的信号和/或信号对和/或三个或更多个信号的组的方向响度图)进行编码(例如,和传输或包括到编码的音频表示中)。可替换地,音频编码器被配置为对总体方向响度图、多个信号(例如输入音频信号或从其得出的信号)以及描述待编码的信号对于总体方向响度图的(例如相对)贡献的参数进行编码(例如,和传输或包括到编码的音频表示中)。根据实施例,描述贡献的参数可以由标量值表示。因此,音频解码器可以接收编码的音频表示(例如包括编码信号、总体方向响度图和参数的音频内容或数据流),以基于总体方向响度图和描述信号的贡献的参数来重建信号的单独的方向响度图。
根据本发明的实施例涉及一种用于对编码的音频内容进行解码的音频解码器。音频解码器被配置为接收一个或多个音频信号的编码表示并且(例如使用类AAC解码或使用熵编码的谱值的解码)提供一个或多个音频信号的解码表示。此外,音频解码器被配置为接收编码的方向响度图信息并解码编码的方向响度图信息,以获得一个或多个(例如解码的)方向响度图。另外,音频解码器被配置为使用一个或多个音频信号的解码表示且使用一个或多个方向响度图来重建音频场景。音频内容可以包括一个或多个音频信号的编码表示和编码的方向响度图信息。编码的方向响度图信息可以包括单个信号、信号对和/或三个或更多个信号的组的方向响度图。
本音频解码器的实施例基于这样的思想:确定和解码一个或多个方向响度图是有利的,因为它们可以指示收听者对音频内容的感知,并且因此改善解码的音频内容的音频质量。音频解码器例如被配置为基于一个或多个方向响度图确定高质量预测信号,借此可改进残差解码(或联合解码)。根据实施例,方向响度图随时间定义音频场景中不同方向的响度信息。在某个时间点或在某个时间帧内的某个方向的响度信息可以包括不同音频信号或例如不同频率仓或频带处的一个音频信号的响度信息。因此,例如可以通过例如基于解码的方向响度图适配对一个或多个音频信号的编码表示的解码来改进音频解码器对一个或多个音频信号的解码表示的提供。因此,优化了重建的音频场景,因为一个或多个音频信号的解码表示可以基于对一个或多个方向响度图的分析实现与原始音频信号的最小偏差,从而产生高质量音频场景。根据实施例,音频解码器可以被配置为将一个或多个方向响度图用于解码参数的适配,以高效地且高精度地提供一个或多个音频信号的解码表示。
根据实施例,音频解码器被配置为获得输出信号,使得与输出信号相关联的一个或多个方向响度图接近或等于一个或多个目标方向响度图。一个或多个目标方向响度图基于一个或多个解码的方向响度图或者等于一个或多个解码的方向响度图。音频解码器例如被配置为使用一个或多个解码的音频信号的适当缩放或组合来获得输出信号。目标方向响度图例如被理解为参考方向响度图。根据实施例,目标方向响度图可以表示在音频信号的编码和解码之前的一个或多个音频信号的响度信息。可替换地,目标方向响度图可以表示与一个或多个音频信号的编码表示相关联的响度信息(例如一个或多个解码的方向响度图)。音频解码器接收例如用于编码的编码参数以提供编码的音频内容。例如音频解码器被配置为基于编码参数确定解码参数,以缩放一个或多个解码的方向响度图来确定一个或多个目标方向响度图。音频解码器还可以包括音频分析器,音频分析器被配置为基于解码的方向响度图和一个或多个解码的音频信号来确定目标方向响度图,其中,例如基于一个或多个解码的音频信号来缩放解码的方向响度图。因为一个或多个目标方向响度图可以与由音频信号实现的最优或优化的音频场景相关联,所以有利的是最小化与输出信号相关联的一个或多个方向响度图与一个或多个目标方向响度图之间的偏差。根据实施例,通过适配解码参数或适配关于音频场景的重建的参数,音频解码器可以最小化该偏差。因此,利用该特征,例如通过分析与输出信号相关联的一个或多个方向响度图,通过反馈回路来控制输出信号的质量。音频解码器例如被配置为确定输出信号的一个或多个方向响度图(例如音频解码器包括在此描述的用于确定方向响度图的音频分析器)。因此,音频解码器提供与接近或等于目标方向响度图的方向响度图相关联的输出信号。
根据实施例,音频解码器被配置为接收一个(例如仅一个)(例如基于多个输入音频信号获得的)编码的下混信号和总体方向响度图;或多个编码音频信号(例如编码器的输入音频信号或从其得出的信号)以及多个编码信号的单独的方向响度图;或总体方向响度图、多个编码音频信号(例如由音频编码器接收的输入音频信号或从其得出的信号)和描述编码音频信号对总体方向响度图的(例如相对)贡献的参数。音频解码器被配置为基于其提供输出信号。
根据本发明的实施例涉及一种格式转换器,用于将表示音频场景(例如空间音频场景)的音频内容的格式从第一格式转换为第二格式。第一格式可以例如包括第一数量的声道或输入音频信号以及适配于第一数量的声道或输入音频信号的边信息或空间边信息,并且其中第二格式可以例如包括可以与第一数量的声道或输入音频信号不同的第二数量的声道或输出音频信号,以及适配于第二数量的声道或输出音频信号的边信息或空间边信息。此外,格式转换器被配置为基于第一格式的音频内容的表示来提供第二格式的音频内容的表示。另外,格式转换器被配置为根据第一格式的输入音频信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对音频场景的总体方向响度图(其中总体方向响度图例如可以由格式转换器接收的第一格式的边信息来描述)的贡献来调节格式转换的复杂度(例如通过在格式转换过程中跳过对方向响度图作出贡献低于阈值的第一格式的输入音频信号中的一个或多个)。因此,例如,针对格式转换的复杂度调节,分析与单独的输入音频信号相关联的单独的方向响度图对音频场景的总体方向响度图的贡献。可替换地,可以由格式转换器根据与输入音频信号的组合(例如信号对、中间信号、侧信号、下混信号、残差信号、差分信号和/或三个或更多个信号的组)相对应的方向响度图对音频场景的总体方向响度图的贡献来执行该调节。
格式转换器的实施例基于这样的思想:基于一个或多个方向响度图转换音频内容的格式是有利的,因为它们可以指示收听者对音频内容的感知,从而实现第二格式的高质量音频内容,并且取决于方向响度图降低格式转换的复杂度。利用所述贡献,可以获得与格式转换的音频内容的高质量音频感知相关的信号的信息。因此,第二格式的音频内容例如包括比第一格式的音频内容更少的信号(例如仅根据方向响度图的相关信号),具有几乎相同的音频质量。
根据实施例,格式转换器被配置为接收方向响度图信息,并基于其获得总体方向响度图(例如解码的音频场景的总体方向响度图;例如第一格式的音频内容的总体方向响度图)和/或一个或多个方向响度图。方向响度图信息(即与音频内容的单独的信号相关联或与信号对相关联或与音频内容的三个或更多个信号的信号对或组合相关联的一个或多个方向响度图)可以表示第一格式的音频内容,可以是第一格式的音频内容的一部分,或者可以由格式转换器基于第一格式的音频内容来确定(例如由在此描述的音频分析器来确定;例如格式转换器包括音频分析器)。根据实施例,格式转换器被配置为还确定第二格式的音频内容的方向响度图信息。因此,例如可以比较格式转换之前和之后的方向响度图,以减少由于格式转换而引起的感知质量降级。这例如通过最小化格式转换之前和之后的方向响度图之间的偏差来实现。
根据实施例,格式转换器被配置为从(例如与第一格式的信号相关联的)一个或多个(例如解码的)方向响度图得出(例如解码的音频场景的)总体方向响度图。
根据实施例,格式转换器被配置为计算或估计给定输入音频信号(例如第一格式的信号)对音频场景的总体方向响度图的贡献。格式转换器被配置为根据所述贡献的计算或估计来(例如通过将所计算或估计的贡献与预定的绝对或相对阈值进行比较)确定是否在格式转换中考虑给定输入音频信号。如果贡献例如处于或高于绝对或相对阈值,则对应的信号可以被视为相关的,并且因此格式转换器可以被配置为确定考虑此信号。这可以被理解为由格式转换器进行的复杂度调节,因为并非第一格式的所有信号都必须被转换为第二格式。预定阈值可以表示至少2%或至少5%或至少10%或至少20%或至少30%的贡献。例如这意味着排除听不见的和/或不相关的声道(或几乎听不见的和/或不相关的声道),即(例如当与其他使用情况相比时)阈值应较低,例如5%、10%、20%、30%。
根据本发明的实施例涉及一种用于对编码的音频内容进行解码的音频解码器。音频解码器被配置为接收一个或多个音频信号的编码表示并且提供一个或多个音频信号的解码表示(例如使用类AAC解码或使用熵编码的谱值的解码)。此外,音频解码器被配置为使用一个或多个音频信号的解码表示来重建音频场景,并根据编码信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对解码的音频场景的总体方向响度图的贡献来适配解码复杂度。
本音频解码器的实施例基于这样的思想:基于一个或多个方向响度图调节解码复杂度是有利的,因为它们可以指示收听者对音频内容的感知,从而同时实现解码复杂度的降低和音频内容的解码器音频质量的提高。因此,例如音频解码器被配置为基于所述贡献来确定音频内容的哪些编码信号应当被解码并被音频解码器用于对音频场景的重建。这意味着,例如与具有几乎相同的音频质量的一个或多个音频信号的解码表示相比,一个或多个音频信号的编码表示包括更少的音频信号(例如仅是根据方向响度图的相关音频信号)。
根据实施例,音频解码器被配置为接收编码的方向响度图信息并且解码编码的方向响度图信息,以获得总体方向响度图(例如解码的音频场景的总体方向响度图,或者例如作为解码的音频场景的目标方向响度图)和/或一个或多个(解码的)方向响度图。根据实施例,格式转换器被配置为确定或接收编码的音频内容的方向响度图信息(例如接收的)和解码的音频内容的方向响度图信息(例如确定的)。因此,例如可以比较解码之前和之后的方向响度图,以减少由于解码和/或(例如由本文描述的音频编码器执行的)先前编码而引起的感知质量降级。这例如通过最小化格式转换之前和之后的方向响度图之间的偏差来实现。
根据实施例,音频解码器被配置为从一个或多个(例如解码的)方向响度图得出总体方向响度图(例如解码的音频场景的总体方向响度图,或者例如作为解码的音频场景的目标方向响度图)。
根据实施例,音频解码器被配置为计算或估计给定编码信号对解码的音频场景的总体方向响度图的贡献。可替换地,音频解码器被配置为计算给定编码信号对编码的音频场景的总体方向响度图的贡献。音频解码器被配置为根据贡献的计算或估计来确定是否对给定编码信号进行解码(例如通过将所计算或估计的贡献与预定的绝对或相对阈值进行比较)。预定阈值可以表示至少60%、70%、80%或90%的贡献。为了保持良好的质量,阈值应较低,对于计算能力非常有限的情况(例如移动设备),阈值仍然可以达到该范围,例如10%、20%、40%、60%。换言之,在一些优选实施例中,预定阈值应当表示至少5%、或至少10%、或至少20%、或至少40%、或至少60%的贡献。
根据本发明的实施例涉及用于渲染音频内容的渲染器(例如双耳渲染器或条形音箱渲染器或扬声器渲染器)。根据实施例,一种渲染器用于将使用第一数量的输入音频声道和描述期望的空间特性(如音频对象的布置或音频声道之间的关系)的边信息表示的音频内容分配到包括与输入音频声道的第一数量无关的给定数量(例如大于输入音频声道的第一数量或小于输入音频声道的第一数量)的声道的表示。渲染器被配置为基于一个或多个输入音频信号(或例如基于两个或更多个输入音频信号)来重建音频场景。此外,渲染器被配置为根据输入音频信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对渲染的音频场景的总体方向响度图的贡献来调节渲染复杂度(例如通过在渲染过程中跳过对方向响度图作出贡献低于阈值的一个或多个输入音频信号)。总体方向响度图可以例如由渲染器接收的边信息来描述。
根据实施例,渲染器被配置为获得(例如接收或通过自身确定)方向响度图信息,并且基于方向响度图信息获得(例如解码的音频场景的)总体方向响度图和/或一个或多个方向响度图。
根据实施例,渲染器被配置为从一个或多个(或两个或更多个)(例如解码的或自得出的)方向响度图得出(例如解码的音频场景的)总体方向响度图。
根据实施例,渲染器被配置为计算或估计给定输入音频信号对音频场景的总体方向响度图的贡献。此外,渲染器被配置为根据贡献的计算或估计(例如通过将计算或估计的贡献与预定的绝对或相对阈值进行比较)来确定是否在渲染中考虑给定的输入音频信号。
根据本发明的实施例涉及一种用于分析音频信号的方法。方法包括基于两个或更多个输入音频信号的一个或多个谱域(例如时频域)表示来获得多个加权谱域(例如时频域)表示(例如方向信号)。根据两个或更多个输入音频信号中的音频分量(例如谱仓或谱带的)(例如来自乐器或歌手的曲调)的(例如由加权因子表示的)不同方向(例如平移方向)来对一个或多个谱域表示的值进行加权,以获得多个加权谱域表示(例如“方向信号”)。另外,方法包括基于多个加权谱域表示(例如“方向信号”)获得与不同方向(例如“平移方向”)相关联的响度信息(例如一个或多个“方向响度信息”)作为分析结果。
根据本发明的实施例涉及一种用于评估音频信号的相似性的方法。方法包括基于第一组两个或更多个输入音频信号获得与不同(例如平移)方向相关联的第一响度信息(例如方向响度图;组合响度值)。另外,方法包括将第一响度信息与与不同平移方向和一组两个或更多个参考音频信号相关联的第二(例如对应)响度信息(例如参考响度信息;例如参考方向响度图;例如参考组合响度值)进行比较,以获得描述第一组两个或更多个输入音频信号和一组两个或更多个参考音频信号之间的相似性(或例如表示当与一组两个或更多个参考音频信号进行比较时第一组两个或更多个输入音频信号的质量)的相似性信息(例如“模型输出变量”(MOV))。
根据本发明的实施例涉及一种用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的方法。方法包括基于一个或多个输入音频信号(例如左信号和右信号),或从其得出的一个或多个信号(例如中间信号或下混信号和侧信号或差分信号)来提供一个或多个编码的(例如经量化且然后无损编码的)音频信号(例如编码的谱域表示)。此外,方法包括根据表示与待编码的一个或多个信号的多个不同方向(例如平移方向)相关联的响度信息的一个或多个方向响度图来适配一个或多个编码音频信号的提供。根据待量化的一个或多个信号的(例如与单独的信号、信号对或成组的三个或更多个信号相关联的)单独的方向响度图对例如与多个输入音频信号相关联的(例如与一个或多个输入音频信号中的每个信号相关联的)总体方向响度图的贡献,执行对一个或多个编码音频信号的提供的适配。
根据本发明的实施例涉及一种用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的方法。方法包括基于两个或更多个输入音频信号(例如左信号和右信号)或基于从其得出的两个或更多个信号,使用待联合编码的两个或更多个信号的联合编码(例如使用中间信号或下混信号以及侧信号或差分信号)来提供一个或多个编码的(例如经量化并且然后无损编码的)音频信号(例如编码的谱域表示)。此外,方法包括根据表示与候选信号或候选信号对的多个不同方向(例如平移方向)相关联的响度信息的方向响度图,从多个候选信号中或者从多个候选信号对中(例如从两个或更多个输入音频信号中或者从从其得出的两个或更多个信号中)选择待联合编码的信号。根据实施例,根据候选信号的单独的方向响度图对例如与多个输入音频信号相关联(例如与一个或多个输入音频信号中的每个信号相关联的)总体方向响度图的贡献或者根据候选信号对的方向响度图对总体方向响度图的贡献来选择待联合编码的信号。
根据本发明的实施例涉及一种用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的方法。方法包括基于两个或更多个输入音频信号(例如左信号和右信号)或基于从其得出的两个或更多个信号来提供一个或多个编码的(例如经量化且然后无损编码的)音频信号(例如编码的谱域表示)。此外,方法包括基于输入音频信号确定总体方向响度图(例如场景的目标方向响度图),和/或确定与单独的输入音频信号相关联的一个或多个单独的方向响度图(和/或确定与输入音频信号对相关联的一个或多个方向响度图)。另外,方法包括将总体方向响度图和/或一个或多个单独的方向响度图编码为边信息。
根据本发明的实施例涉及一种用于对编码的音频内容进行解码的方法。方法包括接收一个或多个音频信号的编码表示并且(例如使用类AAC解码或使用熵编码的谱值的解码)提供一个或多个音频信号的解码表示。此外,方法包括接收编码的方向响度图信息并对编码的方向响度图信息进行解码,以获得一个或多个(例如解码的)方向响度图。另外,方法包括使用一个或多个音频信号的解码表示并使用一个或多个方向响度图重建音频场景。
根据本发明的实施例涉及一种用于将表示音频场景(例如空间音频场景)的音频内容的格式从第一格式转换为第二格式的方法。第一格式可以例如包括第一数量的声道或输入音频信号以及适配于第一数量的声道或输入音频信号的边信息或空间边信息,并且其中第二格式可以例如包括可以与第一数量的声道或输入音频信号不同的第二数量的声道或输出音频信号,以及适合于第二数量的声道或输出音频信号的边信息或空间边信息。方法包括基于第一格式的音频内容的表示来提供第二格式的音频内容的表示,以及根据第一格式的输入音频信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对音频场景的总体方向响度图的贡献,(例如通过在格式转换过程中跳过对方向响度图的贡献低于阈值的第一格式的输入音频信号中的一个或多个)调节格式转换的复杂度。总体方向响度图可以例如通过由格式转换器接收的第一格式的音频内容的边信息来描述。
根据本发明的实施例涉及一种包括接收一个或多个音频信号的编码表示并(例如使用类AAC解码或使用熵编码的谱值的解码)提供一个或多个音频信号的解码表示的方法。方法包括使用一个或多个音频信号的解码表示来重建音频场景。此外,方法包括根据编码信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对解码的音频场景的总体方向响度图的贡献来调节解码复杂度。
根据本发明的实施例涉及一种用于渲染音频内容的方法。根据实施例,本发明涉及一种用于将使用第一数量的输入音频声道和描述期望空间特性(如音频对象的布置或音频声道之间的关系)的边信息表示的音频内容上混到包括比第一数量的输入音频声道大的数量的声道的表示中的方法。方法包括基于一个或多个输入音频信号(或基于两个或更多个输入音频信号)来重建音频场景。此外,方法包括根据输入音频信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对渲染的音频场景的总体方向响度图的贡献来(例如通过在渲染过程中跳过对方向响度图作出贡献低于阈值的输入音频信号中的一个或多个)调节渲染复杂度。总体方向响度图可以例如由渲染器接收的边信息来描述。
根据本发明的实施例涉及一种具有程序代码的计算机程序,当在计算机上运行时,执行在此描述的方法。
根据本发明的实施例涉及编码的音频表示(例如音频流或数据流),其包括一个或多个音频信号的编码表示和编码的方向响度图信息。
方法基于与上述音频分析器、音频相似性评估器、音频编码器、音频解码器、格式转换器和/或渲染器相同的考虑。顺便说一句,这些方法可以用也关于音频分析器、音频相似性评估器、音频编码器、音频解码器、格式转换器和/或渲染器来描述的所有特征和功能来完成。
附图说明
附图不一定按比例绘制,而是将重点放在说明本发明的原理上。在以下描述中,参考以下附图描述本发明的各种实施例,其中:
图1示出了根据本发明实施例的音频分析器的框图;
图2示出了根据本发明实施例的音频分析器的详细框图;
图3a示出了根据本发明实施例的使用第一平移索引法的音频分析器的框图;
图3b示出了根据本发明实施例的使用第二平移索引法的音频分析器的框图;
图4a示出了根据本发明实施例的使用第一直方图法的音频分析器的框图;
图4b示出了根据本发明实施例的使用第二直方图法的音频分析器的框图;
图5示出了根据本发明实施例的待由音频分析器分析的谱域表示的示意图以及由音频分析器进行的方向分析、每频率仓的响度计算和每方向的响度计算的结果;
图6示出了根据本发明实施例的用于由音频分析器进行的方向分析的两个信号的示意性直方图;
图7a示出了根据本发明实施例的对于由音频分析器执行的缩放,对于与方向相关联的每个时间/频率片段具有一个不同于0的缩放因子的矩阵;
图7b示出了根据本发明实施例的对于由音频分析器执行的缩放,对于与方向相关联的每个时间/频率片段具有不同于0的多个缩放因子的矩阵;
图7c示出了根据本发明实施例的在处理之后具有第一导电路径和第二导电路径的印刷电路板的示意图;
图8示出了根据本发明实施例的音频相似性评估器的框图;
图9示出了根据本发明实施例的用于分析立体声信号的音频相似性评估器的框图;
图10a示出了根据本发明实施例的可由音频相似性评估器使用的参考方向响度图的色度图;
图10b示出了将由根据本发明实施例的待由音频相似性评估器分析的方向响度图的色度图;
图10c示出了根据本发明实施例的由音频相似性评估器确定的差值方向响度图的色度图;
图11示出了根据本发明实施例的音频编码器的框图;
图12示出了根据本发明实施例的被配置为适配量化参数的音频编码器的框图;
图13示出了根据本发明实施例的被配置为选择待被编码的信号的音频编码器的框图;
图14示出说明根据本发明实施例的由音频编码器执行的候选信号的单独的方向响度图对总体方向响度图的贡献的确定的示意图;
图15示出了根据本发明实施例的被配置为将方向响度信息编码为边信息的音频编码器的框图;
图16示出了根据本发明实施例的音频解码器的框图;
图17示出了根据本发明实施例的被配置为适配解码参数的音频解码器的框图;
图18示出了根据本发明实施例的格式转换器的框图;
图19示出了根据本发明实施例的被配置为调节解码复杂度的音频解码器的框图;
图20示出根据本发明实施例的渲染器的框图;
图21示出了根据本发明实施例的用于分析音频信号的方法的框图;
图22示出了根据本发明实施例的用于评估音频信号相似性的方法的框图;
图23示出了根据本发明实施例的用于对包括一个或多个输入音频信号的输入音频内容进行编码的方法的框图;
图24示出了根据本发明实施例的用于联合编码音频信号的方法的框图;
图25示出根据本发明实施例的用于将一个或多个方向响度图编码为边信息的方法的框图;
图26示出了根据本发明实施例的用于对编码的音频内容进行解码的方法的框图;
图27示出了根据本发明实施例的用于将表示音频场景的音频内容的格式从第一格式转换为第二格式的方法的框图;
图28示出了根据本发明实施例的用于对编码的音频内容进行解码并调节解码复杂度的方法的框图;以及
图29示出了根据本发明实施例的用于渲染音频内容的方法的框图。
具体实施方式
相等或等效的元件是具有相等或等效的功能性的元件。即使在不同的图中出现,它们在以下描述中由相同或等同的附图标记表示。
在下面的描述中,阐述了多个细节以提供对本发明实施例的更全面的解释。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节的情况下实施本发明的实施例。在其他示例中,以框图形式而不是详细地示出了公知的结构和设备,以避免模糊本发明的实施例。此外,在下文中描述的不同实施例的特征可以相互组合,除非另外特别指出。
图1示出了音频分析器100的框图,音频分析器100被配置为获得第一输入音频信号的谱域表示1101,例如xL,b(m,k),和第二输入音频信号的谱域表示1102,例如xR,b(m,k)。因此,例如音频分析器100接收谱域表示1101,1102作为待分析的输入110。这意味着,例如第一输入音频信号和第二输入音频信号被外部设备或装置转换成谱域表示1101,1102,然后被提供给音频分析器100。可替换地,如将针对图2所描述的,谱域表示1101,1102可以由音频分析器100来确定。根据实施例,谱域表示110可以由Xi,b(m,k)表示,例如针对i={L;R;DM}或针对i∈[1;I]。
根据实施例,将谱域表示1101,1102馈入方向信息确定120,以获得与谱域表示1101,1102的谱带(例如时间帧m中的谱仓k)相关联的方向信息122,例如Ψ(m,k)。方向信息122表示例如包含在两个或更多个输入音频信号中的音频分量的不同方向。因此,方向信息122可以与收听者将听到包含在两个输入音频信号中的分量的方向相关联。根据实施例,方向信息可以表示平移索引。因此,例如,方向信息122包括指示收听房间中的歌手的第一方向和对应于音频场景中乐队的不同乐器的另外的方向。方向信息122例如由音频分析器100通过分析所有频率仓或频率组(例如所有谱仓k或谱带b)的谱域表示1101,1102之间的等级比率来确定。参照图5至图9描述方向信息确定120的示例。
根据实施例,音频分析器100被配置为基于对音频内容的幅度平移的分析;和/或基于对两个或更多个输入音频信号的音频内容之间的相位关系和/或时延和/或相关性的分析;和/或基于对加宽(例如去相关和/或平移)源的识别来获得方向信息122。音频内容可以包括输入音频信号和/或输入音频信号的谱域表示110。
基于方向信息122和谱域表示1101,1102,音频分析器100被配置为确定对响度信息142的贡献132(例如
Figure BDA0003136099550000321
Figure BDA0003136099550000322
)。根据实施例,由贡献确定130根据方向信息122来确定与第一输入音频信号的谱域表示1101相关联的第一贡献1321,并且由贡献确定130根据方向信息122来确定与第二输入音频信号的谱域表示1102相关联的第二贡献1322。根据实施例,方向信息122包括不同的方向(例如提取方向值Ψ(m,k))。贡献132包括例如取决于方向信息122的预定方向Ψ0,j的响度信息。根据实施例,贡献132定义方向Ψ(m,k)(对应于方向信息122)等于预定方向Ψ0,j的谱带的等级信息和/或方向Ψ(m,k)与预定方向Ψ0,j相邻的谱带的缩放等级信息。
根据实施例,根据输入音频信号中的谱域值(例如注解[13]中的作为X1(m,k)的XL,b(m0,k0)和作为X2(m,k)的XR,b(m0,k0),确定提取方向值Ψ(m,k)。
为了针对与不同方向Ψ0,j(例如预定方向)相关联的多个不同的估计方向范围Ψ0,j(对于J个预定方向,j∈[1;J])获得响度信息142(例如L(m,Ψ0,j))作为音频分析器100的分析结果,音频分析器100被配置为组合对应于第一输入音频信号的谱域表示1101的贡献1321(例如
Figure BDA0003136099550000331
)和对应于第二输入音频信号的谱域表示1102的贡献1322(例如
Figure BDA0003136099550000332
)以接收组合信号作为例如两个或更多个声道(例如第一声道与第一输入音频信号相关联并由索引L表示,第二声道与第二输入音频信号相关联并由索引R表示)的响度信息142。因此,获得响度信息142,响度信息142定义随时间的响度并且针对不同方向Ψ0,j中的每一者定义随时间的响度。这例如由响度信息确定单元140来执行。
图2示出了音频分析器100,其可以包括关于图1中的音频分析器100所描述的特征和/或功能。根据实施例,音频分析器100接收第一输入音频信号xL 1121和第二输入音频信号xR 1122。索引L与左相关联,索引R与右相关联。索引可以与扬声器相关联(例如与扬声器定位相关联)。根据实施例,索引可以由指示与输入音频信号相关联的声道的数字来表示。
根据一个实施例,第一输入音频信号1121和/或第二输入音频信号1122可以表示时域信号,所述时域信号可以被时域到谱域转换114转换以接收相应输入音频信号的谱域表示110。换言之,时域到谱域转换114可以将两个或更多个输入音频信号1121,1122(例如xL,xR,xi)分解成短时傅里叶变换(STFT)域,以获得两个或更多个经变换音频信号1151,1152(例如x’L,x’R,x’i)。如果第一输入音频信号1121和/或第二输入音频信号1122表示谱域表示110,则可以跳过时域到谱域转换114。
可选地,通过耳模型处理116来处理输入音频信号112或经变换音频信号115,以获得相应输入音频信号1121和1122的谱域表示110。例如基于用于人耳感知谱带的模型将要处理的信号(例如112或115)的谱仓分组到谱带,然后基于外耳和/或中耳模型对谱带进行加权。因此,利用耳模型处理116,可以确定输入音频信号112的优化的谱域表示110。
根据实施例,第一输入音频信号1121的谱域表示1101(例如XL,b(m,k))与(例如由索引b表示的)不同谱带和(例如由索引L表示的)第一输入音频信号1121的等级信息相关联。对于每个谱带b,谱域表示1101表示例如时间帧m和相应谱带b的所有谱仓k的等级信息。
根据实施例,第二输入音频信号1122的谱域表示1102(例如XR,b(m,k))与(例如由索引b表示的)不同谱带和(例如由索引R表示)的第二输入音频信号1122的等级信息相关联。对于每个谱带b,谱域表示1102表示例如时间帧m和相应谱带b的所有谱仓k的等级信息。
基于第一输入音频信号112的谱域表示1101和第二输入音频信号的谱域表示1102,可以由音频分析器100执行方向信息确定120。利用方向分析124a,可以确定平移方向信息125,例如Ψ(m,k)。平移方向信息125表示例如与信号分量(例如平移到特定方向的第一输入音频信号1121和第二输入音频信号1122的信号分量)相对应的平移索引。根据实施例,输入音频信号112与例如由用于左的索引L和用于右的索引R指示的不同方向相关联。平移索引定义例如两个或更多个输入音频信号112之间的方向或在输入音频信号112的方向上的方向。因此,例如在如图2所示的双声道信号的情况下,平移方向信息125可以包括对应于完全向左或向右或向中间某个方向平移的信号分量的平移索引。
根据实施例,基于平移方向信息125,音频分析器100被配置为执行缩放因子确定126,以确定方向相关加权127,例如对于j∈[1;i]的
Figure BDA0003136099550000341
方向相关加权127例如定义取决于从平移方向信息125提取的方向Ψ(m,k)的缩放因子。对于多个预定方向Ψ0,j确定方向相关加权127。根据实施例,方向相关加权127定义每个预定方向的函数。这些函数例如取决于从平移方向信息125中提取的方向Ψ(m,k)。缩放因子例如取决于从平移方向信息125中提取的方向Ψ(m,k)与预定方向Ψ0,j之间的距离。可以确定每个谱仓和/或每个时间步长/时间帧的缩放因子,即方向相关加权127。
根据实施例,方向相关加权127使用高斯函数,使得方向相关加权随着相应的提取方向值Ψ(m,k)与相应的预定方向值Ψ0,j之间的偏差的增加而减小。
根据实施例,音频分析器100被配置为根据
Figure BDA0003136099550000342
获得与(例如由索引Ψ0,j表示的)预定方向、由时间索引m表示的时间(或时间帧)以及由谱仓索引k指示的谱仓相关联的方向相关加权
Figure BDA0003136099550000343
其中ξ是预定值(其控制例如高斯窗口的宽度);其中Ψ(m,k)指示与由时间索引m指示的时间(或时间帧)和由谱仓索引k指示的谱仓相关联的提取方向值;并且其中Ψ0,j是(例如预定的)方向值,其指示(或关联于)(例如具有方向索引j的)预定方向。
根据实施例,音频分析器100被配置为通过使用方向信息确定120来确定包括平移方向信息125和/或方向相关加权127的方向信息。该方向信息例如是基于两个或更多个输入音频信号112的音频内容而获得的。
根据实施例,音频分析器100包括用于贡献确定130的缩放器134和/或组合器136。利用缩放器134,将方向相关加权127应用于两个或更多个输入音频信号112的一个或多个谱域表示110,以便获得加权谱域表示135(例如对于不同的Ψ0(j∈[1;J]或j={L;R;DM})的
Figure BDA0003136099550000351
)。换言之,针对每个预定方向Ψ0,j单独地对第一输入音频信号的谱域表示1101和第二输入音频信号的谱域表示1102进行加权。因此,例如,第一输入音频信号的加权谱域表示1351(例如
Figure BDA0003136099550000352
)可以仅包括对应于预定方向Ψ0,1的第一输入音频信号112的信号分量,或额外地包括与相邻预定方向相关联的第一输入音频信号1121的经加权(例如降低)的信号分量。因此,根据音频分量的(例如由加权因子Ψ(m,k)表示的)不同方向(例如平移方向Ψ0,j),对一个或多个谱域表示110(例如Xi,b(m,k))的值进行加权。
根据实施例,缩放因子确定126被配置为确定方向相关加权127,使得其提取方向值Ψ(m,k)偏离预定方向Ψ0,j的每个预定方向信号分量被加权,使得它们的影响小于其提取方向值ΨΨ(m,k)等于预定方向Ψ0,j的信号分量。换言之,在用于第一预定方向Ψ0,1的方向相关加权127处,与第一预定方向Ψ0,1相关联的信号分量在对应于第一预定方向Ψ0,1的第一加权谱域表示
Figure BDA0003136099550000353
中相比与其他方向相关联的信号分量得到强调。
根据实施例,音频分析器100被配置为根据
Figure BDA0003136099550000354
获得与由索引i指示的输入音频信号(例如对于i=1的1101或对于i=2的1102)或输入音频信号的组合(例如对于i=1,2的两个输入音频信号1101和1102的组合),由索引b指示的谱带,由索引Ψ0,j指示的(例如预定的)方向,由时间索引m指示的时间(或时间帧),以及由谱仓索引k指示的谱仓相关联的加权谱域表示
Figure BDA0003136099550000355
其中Xi,b(m,k)指示与由索引i(例如i=L或i=R或i=DM或i由指示声道的数字表示)指示的输入音频信号112或输入音频信号112的组合、由索引b指示的谱带、由时间索引m指示的时间(或时间帧)以及由谱仓索引k指示的谱仓相关联的谱域表示110;并且其中
Figure BDA0003136099550000356
指示与由索引Ψ0,j指示的(例如预定的)方向、由时间索引m指示的时间(或时间帧)和由谱仓索引k指示的谱仓相关联的方向相关加权127。
参考图6至图9描述缩放器134的附加或替换功能。
根据实施例,第一输入音频信号的加权谱域表示1351和第二输入音频信号的加权谱域表示1352由组合器136组合以获得加权组合谱域表示
Figure BDA0003136099550000357
因此,利用组合器136,将对应于预定方向Ψ0,j的所有声道(在图2的情况下,第一输入音频信号1121和第二输入音频信号1122)的加权谱域表示135组合为一个信号。例如对于所有预定方向Ψ0,j(对于j∈[1;i]])执行上述步骤。根据实施例,加权组合谱域表示137与不同频带b相关联。
基于加权组合谱域表示137,执行响度信息确定140以获得响度信息142作为分析结果。根据实施例,响度信息确定140包括频带内响度确定144和所有谱带上的响度确定146。根据实施例,频带内响度确定144被配置为基于加权组合谱域表示137来确定每个谱带b的带响度值145。换言之,谱带内响度确定144根据预定方向Ψ0,j确定每个谱带的响度。因此,所获得的带响度值145不再取决于单个谱仓k。
根据实施例,音频分析器被配置为在频带的谱值上(或在频带(b)的谱仓(k)上)计算加权组合谱域表示137(例如
Figure BDA0003136099550000361
)的均方谱值,并将具有介于0与1/2(且优选小于1/3或1/4)之间的指数的取幂应用于均方频谱值,以便确定(例如与相应频带(b)相关联的)带响度值145(例如
Figure BDA0003136099550000362
)。
根据实施例,音频分析器被配置为根据
Figure BDA0003136099550000363
来获得与由索引b指示的谱带、由索引Ψ0,j指示的方向以及由时间索引m指示的时间(或时间帧)相关联的带响度值
Figure BDA0003136099550000364
其中Kb指示频带索引为b的频带中的谱仓的数量;其中k是游动变量并且指示频带索引为b的频带中的谱仓;其中b指示谱带,并且其中
Figure BDA0003136099550000365
指示与由索引b指示的谱带、由索引Ψ0,j指示的方向、由时间索引m指示的时间(或时间帧)和由谱仓索引k指示的谱仓相关联的加权组合谱域表示137。
在所有谱带146上的响度信息确定时,带响度值145例如在所有谱带上被平均以提供取决于预定方向和至少一个时间帧m的响度信息142。根据实施例,响度信息142可以表示由收听房间中不同方向上的输入音频信号112引起的一般响度。根据实施例,响度信息142可以与组合响度值相关联,所述组合响度值与不同的给定或预定方向Ψ0,j相关联。
根据权利要求1至17之一所述的音频分析器,其中,音频分析器被配置为根据
Figure BDA0003136099550000366
来获得与由索引Ψ0,j表示的方向以及由时间索引m表示的时间(或时间帧)相关联的多个组合响度值L(m,Ψ0,j),其中B指示谱带b的总数,并且其中
Figure BDA0003136099550000367
指示与由索引b表示的谱带、由索引Ψ0,j指示的方向以及由时间索引m指示的时间[或时间帧]相关联的带响度值145。
在图1和图2中,音频分析器100被配置为分析两个输入音频信号的谱域表示110,但是音频分析器100也被配置为分析多于两个的谱域表示110。
图3a至图4b示出了音频分析器100的不同实现。图1至图4b所示的音频分析器不限于针对一种实现方式示出的特征和功能,而是还可以包括不同图1至图4b所示的音频分析器的其他实现方式的特征和功能。
图3a和图3b示出音频分析器100基于平移索引的确定来确定响度信息142的两种不同方法。
图3a所示的音频分析器100与图2所示的音频分析器100类似或相同。通过时间/频率分解113将两个或更多个输入信号112变换为时间/频率信号110。根据实施例,时间/频率分解113可以包括时域到谱域转换和/或耳模型处理。
基于时间/频率信号执行方向信息确定120。方向信息确定120包括例如方向分析124和窗口函数126的确定。在贡献确定单元130处,通过例如将方向相关窗函数127应用于时间/频率信号110来将时间/频率信号110划分为方向信号,从而获得方向信号132。基于方向信号132,执行响度计算140以获得响度信息142作为分析结果。响度信息142可以包括方向响度图。
图3b中的音频分析器100在响度计算140方面不同于图3a中的音频分析器100。根据图3b,在计算时间/频率信号110的方向信号之前执行响度计算140。因此,例如根据图3b,基于时间/频率信号110直接计算带响度值141。通过将方向相关窗函数127应用于带响度值141,可以获得方向响度信息142作为分析结果。
图4a和图4b示出了根据实施例被配置为使用直方图法来确定响度信息142的音频分析器100。根据实施例,音频分析器100被配置为使用时间/频率分解113来基于两个或更多个输入信号112确定时间/频率信号110。
根据实施例,基于时间/频率信号110,执行响度计算140以获得每个时间/频率片段的组合响度值145。组合响度值145不与任何方向信息相关联。组合响度值例如与由输入信号112叠加到时间/频率片段而产生的响度相关联。
此外,音频分析器100被配置为执行时间/频率信号110的方向分析124以获得方向信息122。根据图4a,方向信息122包括具有比率值的一个或多个方向向量,所述比率值指示在两个或多个输入信号112之间具有相同等级比率的时间/频率片段。例如如关于图5或图6所描述的那样执行方向分析124。
图4b中的音频分析器100不同于图4a中所示的音频分析器100,使得在方向分析124之后可选地执行方向值1221的方向拖尾(directional smearing)126。利用方向拖尾126,还可以将与邻近预定方向的方向相关联的时间/频率片段与预定方向相关联,其中所获得的方向信息1222可以针对这些时间/频率片段额外地包括缩放因子以最小化预定方向上的影响。
在图4a和图4b中,音频分析器100被配置为基于与时间/频率片段相关联的方向信息122,在方向直方图仓中累积146组合响度值145。
关于图3a和图3b中的音频分析器100的更多细节在下面的章节“用于计算方向响度图的一般步骤”和章节“使用广义标准函数计算响度图的不同形式的实施例”中描述。
图5示出了将由这里描述的音频分析器分析的第一输入音频信号的谱域表示1101和第二输入音频信号的谱域表示1102。谱域表示110的方向分析124产生方向信息122。根据实施例,方向信息122表示具有第一输入音频信号的谱域表示1101和第二输入音频信号的谱域表示1102之间的比率值的方向向量。因此,例如具有相同等级比率的谱域表示110的频率片段(例如时间/频率片段)与相同方向125相关联。
根据实施例,响度计算140产生例如每个时间/频率片段的组合响度值145。组合响度值145例如与第一输入音频信号和第二输入音频信号的组合(例如两个或更多个输入音频信号的组合)相关联。
基于方向信息122和组合响度值145,组合响度值145可以被累积146到方向和时间相关直方图仓中。因此,例如将与某个方向相关联的所有组合响度值145相加。根据方向信息122,方向与时间/频率片段相关联。利用累积146得到可表示响度信息142的方向响度直方图结果作为本文所述音频分析器的分析结果。
还可能的是,对应于不同或相邻时间帧中(例如先前或后续时间帧中)的相同方向和/或相邻方向的时间/频率片段可以与当前时间步长或时间帧中的方向相关联。这意味着,例如方向信息122包括取决于时间的每个频率片段(或频率仓)的方向信息。因此,例如针对多个时间帧或针对所有时间帧获得方向信息122。
关于图5所示的直方图法的更多细节将在章节“使用广义标准函数选项2计算响度图的不同形式的实施例”中描述。
图6示出了由本文描述的音频分析器基于平移方向信息所执行的贡献确定130。图6a示出了第一输入音频信号的谱域表示,图6b示出了第二输入音频信号的谱域表示。根据图6a1至图6a3.1和图6b1至图6b3,选择对应于相同平移方向的谱仓或谱带,以计算在此平移方向上的响度信息。图6a3.2和图6b3.2示出了替换过程,其中不仅考虑了对应于平移方向的频率仓或频带,而且考虑了被加权或缩放以具有较小影响的其他频率仓或频率组。关于图6的更多细节在章节“利用从平移索引得出的加窗/选择函数恢复方向信号”中描述。
根据实施例,方向信息122可以包括与方向121和时间/频率片段123相关联的缩放因子,如图7a和/或图7b所示。根据一实施例,图7a和图7b中仅针对一个时间步长或时间帧示出时间/频率片段123。图7a示出了比例因子,其中仅考虑了贡献于特定(例如预定)方向121的时间/频率片段123,如例如关于图6a1至图6a3.1和图6b1至图6b3.1所描述的。可替换地,在图7b中,也考虑相邻方向,但是相邻方向被缩放以减小相应时间/频率片段123对相邻方向的影响。根据图7b,缩放时间/频率片段123,使得其影响将随着与相关联方向的偏差的增加而减小。相反,在图6a3.2和图6b3.2中,对应于不同平移方向的所有时间/频率片段均等地被缩放。不同的缩放或加权是可能的。取决于缩放,可以提高音频分析器的分析结果的准确度。
图8示出了音频相似性评估器200的实施例。音频相似性评估器200被配置为获得第一响度信息1421(例如L1(m,Ψ0,j))和第二响度信息1422(例如L2(m,Ψ0,j))。基于第一组两个或更多个输入音频信号112a(例如对于i∈[1;n]的xL、xR或xi),第一响度信息1421与不同方向(例如预定平移方向Ψ0,j)相关联,并且基于第二组两个或更多个输入音频信号,第二响度信息1422与不同的方向相关联,第二组两个或更多个输入音频信号可以由一组参考音频信号112b表示(例如对于i∈[1;n]的x2,R、x2,L、x2,i)。第一组输入音频信号112a和一组参考音频信号112b可以包括n个音频信号,其中n表示大于或等于2的整数。第一组输入音频信号112a和一组参考音频信号112b的每个音频信号可以与位于收听空间中的不同位置处的不同扬声器相关联。第一响度信息1421和第二响度信息1422可以表示在收听空间中(例如在扬声器位置处和/或扬声器位置之间)的响度分布。根据实施例,第一响度信息1421和第二响度信息1422包括收听空间中的离散位置或方向的响度值。不同的方向可以与专用于一组音频信号112a或112b的音频信号的平移方向相关联,这取决于哪个组对应于要计算的响度信息。
第一响度信息1421和第二响度信息1422可由响度信息确定100确定,响度信息确定100可由音频相似性评估器200执行。根据实施例,响度信息确定100可以由音频分析器来执行。因此,例如音频相似性评估器200可以包括音频分析器或者从外部音频分析器接收第一响度信息1421和/或第二响度信息1422。根据实施例,音频分析器可以包括如关于图1至图4b中的音频分析器所描述的特征和/或功能。或者,通过响度信息确定100仅确定第一响度信息1421,且通过音频相似性评估器200从具有参考响度信息的数据库接收或获得第二响度信息1422。根据实施例,数据库可以包括用于不同扬声器设置和/或扬声器配置和/或不同组参考音频信号的参考响度信息图112b。
根据实施例,一组参考音频信号112b可以表示针对收听者在收听空间中的优化音频感知的一组理想音频信号。
根据实施例,第一响度信息1421(例如包括L1(m,Ψ0,1)到L1(m,Ψ0,J)的向量)和/或第二响度信息1422(例如包括L2(m,Ψ0,1)到L2(m,Ψ0,J)的向量)可以包括与相应的输入音频信号(例如与第一组输入音频信号112对应a的输入音频信号或与一组参考音频信号112b对应的参考音频信号)相关联(并且与相应的预定方向相关联)的多个组合响度值。相应的预定方向可以表示平移索引。由于每个输入音频信号例如与扬声器相关联,因此相应的预定方向可以被理解为相应扬声器之间(例如相邻扬声器和/或其他扬声器对之间)的等间隔位置。换言之,音频相似性评估器200被配置为使用表示与输入音频信号相关联的扬声器的位置信息的元数据来获得用于获得具有不同方向(例如这里描述的第二方向)的响度信息1421和/或1422的方向分量(例如这里描述的第一方向)。第一响度信息1421和/或第二响度信息1422的组合响度值描述与相应预定方向相关联的相应组输入音频信号112a和112b的信号分量的响度。第一响度信息1421和/或第二响度信息1422与和相应预定方向相关联的多个加权谱域表示的组合相关联。
音频相似性评估器200被配置为将第一响度信息1421与第二响度信息1422进行比较,以获得描述第一组两个或更多个输入音频信号112a与一组两个或更多个参考音频信号112b之间的相似性的相似性信息210。这可以由响度信息比较单元220来执行。相似性信息210可以指示第一组输入音频信号112a的质量。为了进一步改善基于相似性信息210对第一组输入音频信号112a的感知的预测,可以仅考虑第一响度信息1421和/或第二响度信息1422中的频带的子集。根据实施例,仅针对频率为1.5kHz及以上的频带确定第一响度信息1421和/或第二响度信息1422。因此,可以基于人类听觉系统的灵敏度来优化所比较的响度信息1421和1422。因此,响度信息比较单元220被配置为比较仅包括相关频带的响度值的响度信息1421和1422。相关频带可以与对应于对于预定等级差高于预定阈值的(例如人耳的)灵敏度的频带相关联。
为了获得相似性信息210,例如计算第二响度信息1422与第一响度信息1421之间的差。
该差可以表示残差响度信息并且可以已经定义了相似性信息210。可替换地,进一步处理残差响度信息以获得相似性信息210。根据实施例,音频相似性评估器200被配置为确定量化多个方向上的差的值。该值可以是表示相似性信息210的单个标量值。为了接收标量值,响度信息比较单元220可以被配置为计算第一组输入音频信号112a和/或一组参考音频信号112b的部分或完整持续时间的差并且然后在所有平移方向(例如与第一响度信息1421和/或第二响度信息1422相关联的不同方向)和时间上对所获得的残差响度信息进行平均,产生单个编号的称为模型输出变量(MOV)。
图9示出音频相似性评估器200的实施例,音频相似性评估器200用于基于参考立体声输入信号112b和要分析的立体声信号112a(例如在此情况下,是测试信号(SUT))来计算相似性信息210。根据实施例,音频相似性评估器200可以包括如关于图8中的音频相似性评估器所描述的特征和/或功能。两个立体声信号112a和112b可由外周耳模型116处理以获得立体声输入音频信号112a和112b的谱域表示110a和110b。
根据实施例,在下一步骤中,可以分析立体声信号112a和112b的音频分量以获得方向信息。不同的平移方向125可以是预定的并且可以与窗口宽度128组合以获得方向相关加权1271至1277。基于方向相关加权127和相应立体声输入信号112a和/或112b的谱域表示110a和/或110b,可以执行平移索引方向分解130以获得贡献132a和/或132b。根据实施例,贡献132a和/或132b然后例如由响度计算144处理以获得每个频带和平移方向的响度145a和/或145b。根据实施例,对响度信号145b和/或145a执行基于ERB的频率平均146(ERB=等效矩形带宽),以获得用于响度信息比较220的方向响度图142a和/或142b。响度信息比较220例如被配置为基于两个方向响度图142a和142b来计算距离量度。距离量度可以表示包括两个方向响度图142a和142b之间的差的方向响度图。根据实施例,通过对所有平移方向和时间上的距离量度取平均值,可以获得单个编号的称为模型输出变量MOV作为相似性信息210。
图10c示出了由方向响度图210表示的图9中描述的距离量度或图8中描述的相似性信息,示出了图10a所示的方向响度图142b和图10b所示的方向响度图142a之间的响度差。图10a至图10c所示的方向响度图表示例如时间和平移方向上的响度值。图10a所示的方向响度图可以表示对应于参考值输入信号的响度值。该方向响度图可以如图9中所描述的那样计算,或者可以通过如图1至图4b中所描述的音频分析器来计算,或者可替换地,可以从数据库中取出。图10b中所示的方向响度图对应于例如测试中的立体声信号,并且可以表示由如图1至4b以及图8或图9中说明的音频分析器确定的响度信息。
图11示出了用于对输入音频内容112进行编码310的音频编码器300,输入音频内容112包括一个或多个输入音频信号(例如xi)。输入音频内容112优选地包括多个输入音频信号,诸如立体声信号或多声道信号。音频编码器300被配置为基于一个或多个输入音频信号112,或基于由可选处理330从一个或多个输入音频信号112得出的一个或多个信号110来提供一个或多个编码音频信号320。因此,音频编码器300对一个或多个输入音频信号112或从其得出的一个或多个信号110进行编码310。处理330可以包括中/侧处理,下混/差分处理,时域到谱域转换和/或耳模型处理。编码310包括例如量化以及然后无损编码。
音频编码器300被配置为根据一个或多个方向响度图142(例如多个不同的Ψ0的Li(m,Ψ0,j))来适配340编码参数,方向响度图142表示与多个不同方向(例如待编码的一个或多个信号112的方向或预定方向)相关联的响度信息。根据实施例,编码参数包括量化参数和/或其他编码参数,例如比特分布和/或与编码310的禁用/启用有关的参数。
根据实施例,音频编码器300被配置为执行响度信息确定100以基于输入音频信号112或基于经处理的输入音频信号110获得方向响度图142。因此,例如音频编码器300可以包括如关于图1至图4b描述的音频分析器100。可替换地,音频编码器300可以从执行响度信息确定100的外部音频分析器接收方向响度图142。根据实施例,音频编码器300可以获得与输入音频信号112和/或经处理的输入音频信号110相关的多于一个的方向响度图142。
根据实施例,音频编码器300可以仅接收一个输入音频信号112。在这种情况下,方向响度图142包括例如仅一个方向的响度值。根据实施例,方向响度图142可以包括对于不同于与输入音频信号112相关联的方向的方向,等于零的响度值。在仅一个输入音频信号112的情况下,音频编码器300可基于方向响度图142来判定是否应执行编码参数的适配340。因此,例如编码参数的适配340可以包括将编码参数设置为用于单声道信号的标准编码参数。
如果音频编码器300接收立体声信号或多声道信号作为输入音频信号112,则方向响度图142可以包括不同方向的响度值(例如与零不同)。在立体声输入音频信号的情况下,音频编码器300获得例如与两个输入音频信号112相关联的一个方向响度图142。在多声道输入音频信号112的情况下,音频编码器300基于输入音频信号112获得例如一个或多个方向响度图142。如果多声道信号112由音频编码器300编码,则例如可以通过响度信息确定100基于所有声道信号和/或方向响度图获得总体方向响度图142和/或基于多声道输入音频信号112的信号对获得一个或多个方向响度图142。因此,例如音频编码器300可被配置为根据例如信号对、中间信号、侧信号、下混信号、差分信号和/或三个或更多个信号的组的单独的方向响度图142对例如与多个输入音频信号相关联(例如,与多声道输入音频信号112或经处理的多声道输入音频信号110的所有信号相关联)的总体方向响度图142的贡献来执行编码参数的适配340。
如关于图11描述的响度信息确定100是示例性的,并且可以由所有后面的音频编码器或解码器相同地或类似地执行。
图12示出了音频编码器300的实施例,其可以包括关于图11中的音频编码器所描述的特征和/或功能。根据一个实施例,编码310可以包括由量化器312进行的量化和由编码单元314进行的编码,像(例如)熵编码。因此,例如编码参数340的适配可包括量化参数342的适配和编码参数344的适配。音频编码器300被配置为对包括例如两个或更多个输入音频信号的输入音频内容112进行编码310,以提供包括例如编码的两个或更多个输入音频信号的编码的音频内容320。该编码310取决于基于输入音频内容112和/或基于输入音频内容112的编码版本320的例如方向响度图142或多个方向响度图142(例如Li(m,Ψ0,j))。
根据实施例,输入音频内容112可以被直接编码310或者可选地在之前被处理330。如上所述,音频编码器300可被配置为通过处理330来确定输入音频内容112的一个或多个输入音频信号的谱域表示110。可替换地,处理330可以包括进一步的处理步骤以得出输入音频内容112的一个或多个信号,其可以经历时域到谱域的转换以接收谱域表示110。根据实施例,由处理330得出的信号可以包括例如中间信号或下混信号以及侧信号或差分信号。
根据实施例,输入音频内容112的信号或谱域表示110可以由量化器312进行量化。量化器312使用例如一个或多个量化参数来获得一个或多个量化的谱域表示313。一个或多个量化的谱域表示313可以由编码单元314编码,以便获得编码的音频内容320的一个或多个编码音频信号。
为了优化音频编码器300的编码310,音频编码器300可以被配置为适配342量化参数。量化参数例如包括比例因子或参数,比例因子或参数描述哪些量化精度或量化步长应当被应用于待量化的一个或多个信号的频带的哪些谱仓。根据实施例,量化参数描述例如将比特分配给待量化的不同信号和/或不同频带。量化参数的适配342可以被理解为量化精度的适配和/或编码器300引入的噪声的适配和/或音频编码器300待编码的一个或多个信号112/110和/或参数之间的比特分布的适配。换言之,音频编码器300被配置为适配一个或多个量化参数以适配比特分布,适配量化精度和/或适配噪声。另外,音频编码器可对量化参数和/或编码参数进行编码310。
根据实施例,可以根据表示与待量化的一个或多个信号112/110的多个不同方向、平移方向相关联的响度信息的一个或多个方向响度图142来执行编码参数的适配340,如量化参数的适配342和编码参数的适配344。为了更准确,可以根据待编码的一个或多个信号的单独的方向响度图142对总体方向响度图142的贡献来执行适配340。这可以如关于图11所描述的那样执行。因此,例如可以根据待编码的一个或多个信号112/110的单独的方向响度图对总体方向响度图的贡献来执行比特分布的适配,量化精度的适配和/或噪声的适配。这例如通过由适配342调整一个或多个量化参数来执行。
根据实施例,音频编码器300被配置为基于输入音频信号112或谱域表示110来确定总体方向响度图,使得总体方向响度图表示与例如由输入音频内容112表示的音频场景的音频分量的不同方向相关联的响度信息。可替换地,例如在解码器侧渲染之后,总体方向响度图可表示与待表示的音频场景的不同方向相关联的响度信息。根据实施例,可以通过响度信息确定100并可能地结合关于扬声器的位置的知识或边信息和/或描述音频对象的位置的知识或边信息来获得不同的方向。该知识或边信息可以基于待量化的一个或多个信号112/110来获得,因为这些信号112/110例如以固定的,非信号相关的方式,与不同的方向或与不同的扬声器或与不同的音频对象相关联。例如信号与某个声道相关联,所述声道可以被解释为不同方向(例如这里所描述的第一方向)的方向。根据实施例,一个或多个信号的音频对象被平移到不同的方向或在不同的方向上渲染,这可以通过响度信息确定100作为对象渲染信息来获得。可以通过针对谱域表示110或输入音频内容112的两个或更多个输入音频信号的组的响度信息确定100来获得该知识或边信息。
根据实施例,待量化的信号112/110可以包括两个或更多个输入音频信号112的联合多信号编码的分量,例如中侧立体声编码的中间信号和侧信号。因此,音频编码器300被配置为估计联合多信号编码的一个或多个残差信号的方向响度图142对总体方向响度图142的上述贡献,并根据其调整一个或多个编码参数340。
根据实施例,音频编码器300被配置为针对不同的谱仓单独地或针对不同的频带单独地适配待编码的参数和/或一个或多个信号112/110之间的比特分布,和/或适配一个或多个待编码信号112/110的量化精度,和/或适配由编码器300引入的噪声。这意味着,例如执行量化参数的适配342,使得针对单独的谱仓或单独的不同频带改进编码310。
根据实施例,音频编码器300被配置为根据待编码的两个或更多个信号之间的空间掩蔽的评估来适配待编码的一个或更多个信号112/110和/或参数之间的比特分布。音频编码器例如被配置为基于与待编码的两个或更多个信号112/110相关联的方向响度图142来评估空间掩蔽。额外地或可替换地,音频编码器被配置为评估与待编码的第一信号的第一方向相关联的响度贡献对与待编码的第二信号的不同于第一方向的第二方向相关联的响度贡献的空间掩蔽或掩蔽效果。根据实施例,与第一方向相关联的响度贡献可以例如表示输入音频内容的信号的音频对象或音频分量的响度信息,并且与第二方向相关联的响度贡献可以例如表示与输入音频内容的信号的另一音频对象或音频分量相关联的响度信息。根据与第一方向相关联的响度贡献和与第二方向相关联的响度贡献的响度信息,并且根据第一方向和第二方向之间的距离,可以评估掩蔽效果或空间掩蔽。根据实施例,掩蔽效果随着第一方向和第二方向之间的角度差的增大而减小。类似地,可以评估时间掩蔽。
根据实施例,可以由音频编码器300执行量化参数的适配342,以便基于由输入音频内容112的编码版本320可实现的方向响度图来适配由编码器300引入的噪声。因此,音频编码器300例如被配置为使用与给定的未编码输入音频信号112/110(或两个或更多个输入音频信号)相关联的方向响度图142与由给定输入音频信号112/110(或两个或更多个输入音频信号)的编码版本320可实现的方向响度图之间的偏差作为用于给定编码音频信号或编码音频内容320的音频信号的提供的适配的标准。该偏差可以表示编码器300的编码310的质量。因此,编码器300可以被配置为适配340编码参数,使得偏差低于特定阈值。因此,实现反馈回路322以基于编码音频内容320的方向响度图142和未编码输入音频内容112或未编码谱域表示110的方向响度图142来改进音频编码器300的编码310。根据实施例,在反馈回路322中,编码的音频内容320被解码以基于解码的音频信号执行响度信息确定100。可替换地,编码音频内容320的方向响度图142也可以通过由神经网络实现的(例如预测的)前馈来实现。
根据实施例,音频编码器被配置为通过适配342调整一个或多个量化参数,以适配编码音频内容320的一个或多个编码音频信号的提供。
根据实施例,可以执行编码参数的适配340,以便禁用或启用编码310和/或激活和停用例如由编码单元314使用的联合编码工具。这例如由编码参数的适配344来执行。根据实施例,编码参数的适配344可以取决于与量化参数的适配342相同的考虑。因此,根据实施例,音频编码器300被配置为当待编码的信号中的给定一个的单独的方向响度图142对总体方向响度图的贡献低于阈值时(或者,例如当待编码信号对的方向响度图142或者待编码的三个或更多个信号的组的方向响度图142对总体方向响度图的贡献低于阈值时),禁用对待编码的信号中的给定一个(例如残差信号)的编码310。因此,音频编码器300被配置为仅有效地编码310相关信息。
根据实施例,编码单元314的联合编码工具例如被配置为对输入音频信号112或从其得出的信号110中的两个或更多个进行联合编码,以例如做出M/S(中间/侧信号)开/关决策。可以执行编码参数的适配344,使得根据表示与待编码的一个或多个信号112/110的多个不同方向相关联的响度信息的一个或多个方向响度图142来激活或去激活联合编码工具。可替换地或附加地,音频编码器300可以被配置为根据一个或多个方向响度图142来确定联合编码工具的一个或多个参数作为编码参数。因此,例如利用编码参数的适配344,可以控制频率相关预测因子的平滑,以例如设置“强度立体声”联合编码工具的参数。
根据实施例,量化参数和/或编码参数可以被理解为控制参数,其可以控制一个或多个编码音频信号320的提供。因此,音频编码器300被配置为确定或估计一个或多个控制参数的变化对一个或多个编码信号320的方向响度图142的影响,并且根据对影响的确定或估计来调节一个或多个控制参数。这可以通过反馈回路322和/或通过如上所述的前馈来实现。
图13示出了用于对包括一个或多个输入音频信号1121,1122的输入音频内容112进行编码310的音频编码器300。优选地,如图13所示,输入音频内容112包括多个输入音频信号,例如两个或更多个输入音频信号1121,1122。根据实施例,输入音频内容112可以包括时域信号或谱域信号。可选地,可以由音频编码器300处理330输入音频内容112的信号以确定候选信号,如第一候选信号1101和/或第二候选信号1102。如果输入音频信号112是时域信号,则处理330可以包括例如时域到谱域转换。
音频编码器300被配置为根据方向响度图142从多个候选信号110中或从多个候选信号110的对中选择350待联合编码310的信号。方向响度图142表示与候选信号110或候选信号110的对的多个不同方向(例如平移方向)和/或预定方向相关联的响度信息。
根据实施例,可以通过如本文所述的响度信息确定100来计算方向响度图142。因此,可以如关于图11或图12中描述的音频编码器300所描述的那样实现响度信息确定100。方向响度图142基于候选信号110,其中如果音频编码器300没有应用处理330,则候选信号表示输入音频内容112的输入音频信号。
如果输入音频内容112仅包括一个输入音频信号,则该信号由信号选择350选择以由音频编码器300编码,例如使用熵编码来提供一个编码音频信号作为编码音频内容320。在此情况下,例如音频编码器被配置为停用联合编码310且切换到仅一个信号的编码。
如果输入音频内容112包括两个输入音频信号1121和1122(其可描述为X1和X2),那么音频编码器300选择350信号1121和1122两者进行联合编码310以在编码的音频内容320中提供一个或多个编码信号。因此,编码音频内容320可选地包括中间信号和侧信号,或下混信号和差分信号,或这四个信号中的仅一个。
如果输入音频内容112包括三个或更多个输入音频信号,则信号选择350基于候选信号110的方向响度图142。根据实施例,音频编码器300被配置为使用信号选择350来从多个候选信号110中选择一个信号对,对于所选择的信号对,根据方向响度图142,可以实现高效的音频编码和高质量的音频输出。可替换地或附加地,信号选择350还可以选择候选信号110中的三个或更多信号以被联合编码310。可替换地或附加地,音频编码器300可以使用信号选择350来选择多于一个信号对或信号组以用于联合编码310。待编码的信号352的选择350可以取决于两个或更多个信号的组合的单独的方向响度图142对总体方向响度图的贡献。根据实施例,总体方向响度图与多个选择的输入音频信号或与输入音频内容112的每个信号相关联。在图14中示例性地描述了音频编码器300如何针对包括三个输入音频信号的输入音频内容112来执行信号选择350。
因此,音频编码器300被配置为基于两个或更多个输入音频信号1121,1122或基于从其得出的两个或更多个信号1101,1102,使用待联合编码的两个或更多个信号352的联合编码310来提供一个或多个编码的(例如经量化且接着无损编码)的音频信号(例如编码的谱域表示)。
根据实施例,音频编码器300例如被配置为确定两个或更多个候选信号的单独的方向响度图142,并且比较两个或更多个候选信号的单独的方向响度图142。另外,所述音频编码器例如被配置为根据比较的结果来选择候选信号中的两个或更多个用于联合编码,例如使得选择其单独的响度图包括最大相似性或高于相似性阈值的相似性的候选信号用于联合编码。利用这种优化的选择,可以实现非常有效的编码,因为待联合编码的信号的高相似性可以导致仅使用很少比特的编码。这意味着,例如所选候选对的下混信号或残差信号可以被有效地联合编码。
图14显示了信号选择350的实施例,其可由本文中所描述的任何音频编码器300(如图13中的音频编码器300)执行。音频编码器可以被配置为使用如图14所示的信号选择350或将所描述的信号选择350应用于多于三个的输入音频信号,以根据候选信号的单独的方向响度图对总体方向响度图142b的贡献,或者根据候选信号对的方向响度图142a1到142a3对总体方向响度图142b的贡献,从多个候选信号中或从多个对中选择待联合编码的信号,如图14所示。
根据图14,对于每个可能的信号对,例如由信号选择350接收方向响度图142a1到142a3,并且由信号选择单元350接收与输入音频内容的所有三个信号相关联的总体方向响度图142b。方向响度图142,例如信号对142a1至142a3的方向响度图,以及总体方向响度图142b,可以从音频分析器接收,或者可以由音频编码器确定,并提供给信号选择350。根据实施例,总体方向响度图142b可以表示例如在由音频编码器处理之前例如由输入音频内容表示的总体音频场景。根据实施例,总体方向响度图142b表示与由输入音频信号1121至1123所表示或例如在解码器侧渲染之后将要表示的音频场景的音频分量的不同方向相关联的响度信息。总体方向响度图例如被表示为DirtLoudMap(1,2,3)。根据实施例,总体方向响度图142b由音频编码器使用输入音频信号1121至1123的下混或使用输入音频信号1121至1123的双声道化来确定。
图14示出了分别与第一输入音频信号1121、第二输入音频信号1122或第三输入音频信号1123相关联的三个声道CH1至CH3的信号选择350。第一方向响度图142a1,例如DirLoudMap(1,2)基于第一输入音频信号1121和第二输入音频信号1122,第二方向响度图142a2,例如DirLoudMap(2,3)基于第二输入音频信号1122和第三输入音频信号1123,以及第三方向响度图142a3,例如DirLoudMap(1,3)基于第一输入音频信号1121和第三输入音频信号1123
根据实施例,每个方向响度图142表示与不同方向相关联的响度信息。不同的方向在图14中由L和R之间的线表示,其中L与向左侧的音频分量的平移相关联,并且其中R与向右侧的音频分量的平移相关联。因此,不同的方向包括左侧和右侧以及左侧和右侧之间的方向或角度。图14所示的方向响度图142被表示为图表,但是可替换地,方向响度图142也可以由如图5所示的方向响度直方图来表示,或者由如图10a至图10c所示的矩阵来表示。显然,仅与方向响度图142相关联的信息与信号选择350相关,并且图形表示仅用于提高理解。
根据实施例,执行信号选择350以确定候选信号对总体方向响度图142b的贡献。总体方向响度图142b和候选信号对的方向响度图142a1到142a3之间的关系可以通过以下公式来描述:
DirLoudMap(1,2,3)=a*DirLoudMap(1,2,3)+b*DirLoudMap(2,3)+c*DirLoudMap(1,3)。
由音频编码器使用信号选择所确定的贡献可以由因子a、b和c来表示。
根据实施例,音频编码器被配置为选择对总体方向响度图142b具有最高贡献的候选信号1121至1123的一个或多个对用于联合编码。这意味着,例如通过信号选择350来选择与因子a、b和c中的最高因子相关联的候选信号对。
可替换地,音频编码器被配置为选择对总体方向响度图142b的贡献大于预定阈值的候选信号1121至1123的一个或多个对用于联合编码。这意味着例如选择预定阈值并且将每个因子a、b、c与预定阈值进行比较以选择与大于预定阈值的因子相关联的每个信号对。
根据实施例,贡献可以在0%至100%的范围内,这意味着,例如因子a、b和c在0至1的范围内。例如100%的贡献与完全等于总体方向响度图142b的方向响度图142a相关联。根据实施例,预定阈值取决于输入音频内容中包括多少输入音频信号。根据实施例,预定阈值可以被定义为至少35%或至少50%或至少60%或至少75%的贡献。
根据实施例,预定阈值取决于必须由信号选择350选择多少信号用于联合编码。例如如果必须选择至少两个信号对,则可以选择与对总体方向响度图142b具有最高贡献的方向响度图142a相关联的两个信号对。这意味着,例如选择350具有最高贡献和第二高贡献的信号对。
有利的是,将待由音频编码器编码的信号的选择基于方向响度图142,因为方向响度图的比较可以指示收听者对编码音频信号的感知的质量。根据一个实施例,信号选择350由音频编码器执行,使得其方向响度图142a与总体方向响度图142b最相似的一个或多个信号对被选择。这可以导致与所有输入音频信号的感知相比,所选择的一个或多个候选对的类似感知。因此,可以提高编码音频内容的质量。
图15示出了用于对包括一个或多个输入音频信号的输入音频内容112进行编码310的音频编码器300的实施例。优选地,两个或更多个输入音频信号由音频编码器300编码310。音频编码器300被配置为基于两个或更多个输入音频信号112,或基于从其得出的两个或更多个信号110来提供一个或多个编码音频信号320。信号110可以通过可选的处理330从输入音频信号112中得出。根据实施例,可选的处理330可以包括如关于在此描述的其他音频编码器300所描述的特征和/或功能。利用编码310,待编码的信号例如被量化,然后无损编码。
音频编码器300被配置为基于输入音频信号112确定100总体方向响度图和/或确定100与单独的输入音频信号112相关联的一个或多个单独的方向响度图142。总体方向响度图可以用L(m,φ0,j)表示,而单独的方向响度图可以用Li(m,φ0,j)表示。根据实施例,总体方向响度图可以表示场景的目标方向响度图。换言之,总体方向响度图可以与编码音频信号的组合的期望方向响度图相关联。附加地或可替换地,可能的是可以通过音频编码器300确定100信号对或三个或更多个信号的组的方向响度图Li(m,φ0,j)。
音频编码器300被配置为将总体方向响度图142和/或一个或多个单独的方向响度图142和/或信号对或三个或更多个输入音频信号112的组的一个或多个方向响度图编码310为边信息。因此,编码的音频内容320包括编码的音频信号和编码的方向响度图。根据实施例,编码310可以取决于一个或多个方向响度图142,由此也对这些方向响度图142进行编码以使得能够对编码的音频内容320进行高质量解码是有利的。利用方向响度图142作为编码的边信息,编码的音频内容320提供原始预期的质量特性(例如将由编码310和/或音频解码器可实现的质量特性)。
根据实施例,音频编码器300被配置为基于输入音频信号112来确定100总体方向响度图L(m,φ0,j),使得总体方向响度图表示与输入音频信号112所表示的音频场景的例如音频分量的不同方向相关联的响度信息。可替换地,总体方向响度图L(m,φ0,j)表示与例如由输入音频信号在解码器侧渲染之后待表示的音频场景的例如音频分量的不同方向相关联的响度信息。响度信息确定100可以由音频编码器300可选地结合关于扬声器的位置的知识或边信息和/或描述输入音频信号112中的音频对象的位置的知识或边信息来执行。
根据实施例,响度信息确定100可如本文中其他描述的音频编码器300来实施。
音频编码器300例如被配置为以与不同方向相关联的一组值(例如标量值)的形式对总体方向响度图L(m,φ0,j)进行编码310。根据实施例,值额外地与频带的多个频率仓相关联。可以对总体方向响度图的离散方向上的每个值或多个值进行编码。这意味着,例如,对于离散方向,对如图10a至图10c所示的颜色矩阵的每个值、或者如图5所示的不同直方图仓的值、或者如图14所示的方向响度图曲线的值进行编码。
可替换地,音频编码器300例如被配置为使用中心位置值和斜率信息来编码总体方向响度图L(m,φ0,j)。中心位置值描述例如给定频带或频率仓或多个频率仓或频带的总体方向响度图的最大值所在的角度或方向。斜率信息表示例如描述总体方向响度图的值在角度方向上的斜率的一个或多个标量值。斜率信息的标量值例如是与中心位置值相邻的方向的总体方向响度图的值。中心位置值可以表示响度信息的标量值和/或与响度值对应的方向的标量值。
可替换地,音频编码器例如被配置为以多项式表示的形式或者以样条表示的形式对总体方向响度图L(m,φ0,j)进行编码。
根据实施例,对于总体方向响度图L(m,φ0,j)的上述编码可能性310也可以应用于单独的方向响度图Li(m,φ0,j)和/或应用于与信号对或三个或更多个信号的组相关联的方向响度图。
根据实施例,音频编码器300被配置为对基于多个输入音频信号112获得的一个下混信号和总体方向响度图L(m,φ0,j)进行编码。可选地,还将与下混信号相关联的方向响度图对总体方向响度图的贡献例如编码为边信息。
可替换地,音频编码器300例如被配置为对多个信号(例如输入音频信号112或从其得出的信号110)进行编码310,并且对被编码310的多个信号112/110(例如单独的信号、信号对或三个或更多个信号的组)的单独响度图Li(Li(m,φ0,j)进行编码310。编码的多个信号和编码的单独的方向响度图例如被传输到编码的音频表示320中,或者被包括到编码的音频表示320中。
根据替换实施例,音频编码器300被配置为对总体方向响度图L(m,φ0,j),多个信号(例如输入音频信号112或从其得出的信号110),以及描述贡献(例如,被编码到总体方向响度图的信号的相对贡献)的参数进行编码310。根据实施例,参数可以由图14中描述的参数a、b和c表示。因此,例如音频编码器300被配置为对编码310所基于的所有信息进行编码310,以提供例如用于对所提供的编码音频内容320进行高质量解码的信息。
根据实施例,音频编码器可以包括或组合如关于图11至图15中描述的音频编码器300中的一个或多个所描述的单独的特征和/或功能。
图16示出了用于对编码的音频内容420进行解码410的音频解码器400的实施例。编码的音频内容420可以包括一个或多个音频信号的编码表示422和编码的方向响度图信息424。
音频解码器400被配置为接收一个或多个音频信号的编码表示422,并提供一个或多个音频信号的解码表示412。此外,音频解码器400被配置为接收编码的方向响度图信息424并解码410编码的方向响度图信息424,以获得一个或多个解码的方向响度图414。解码的方向响度图414可包括如关于上述方向响度图142所描述的特征和/或功能。
根据实施例,解码410可以由音频解码器400使用类似AAC的解码或使用熵编码的谱值的解码或使用熵编码的响度值的解码来执行。
音频解码器400被配置为使用一个或多个音频信号的解码表示412并使用一个或多个方向响度图414来重建430音频场景。基于重建430,解码的音频内容432,像多声道表示,可以由音频解码器400确定。
根据实施例,方向响度图414可以表示由解码的音频内容432可实现的目标方向响度图。因此,利用方向响度图414,可以优化音频场景430的重建,以产生解码的音频内容432的收听者的高质量感知。这基于这样的思想:方向响度图414可以指示收听者所期望的感知。
图17示出了具有解码参数的适配440的可选特征的图16的编码器400。根据实施例,解码的音频内容可以包括输出信号432,其表示例如时域信号或谱域信号。音频解码器400例如被配置为获得输出信号432,使得与输出信号432相关联的一个或多个方向响度图接近或等于一个或多个目标方向响度图。一个或多个目标方向响度图基于一个或多个解码的方向响度图414,或等于一个或多个解码的方向响度图414。可选地,音频解码器400被配置为使用一个或多个解码的方向响度图414的适当缩放或组合来确定一个或多个目标方向响度图。
根据实施例,与输出信号432相关联的一个或多个方向响度图可以由音频解码器400确定。音频解码器400包括例如用于确定与输出信号432相关联的一个或多个方向响度图的音频分析器,或者被配置为从外部音频分析器100接收与输出信号432相关联的一个或多个方向响度图。
根据实施例,音频解码器400被配置为比较与输出信号432相关联的一个或多个方向响度图和解码的方向响度图414;或者将与输出信号432相关联的一个或多个方向响度图与从解码的方向响度图414得出的方向响度图进行比较,并且基于该比较来适配440解码参数或重建430。根据实施例,音频解码器400被配置为适配440解码参数或适配重建430,使得与输出信号432相关联的一个或多个方向响度图与一个或多个目标方向响度图之间的偏差低于预定阈值。这可以表示反馈回路,由此解码410和/或重建430被适配为使得与输出信号432相关联的一个或多个方向响度图以至少75%、或至少80%、或至少85%、或至少90%、或至少95%与一个或多个目标方向响度图近似。
根据实施例,音频解码器400被配置为接收作为一个或多个音频信号的编码表示422的一个编码的下混信号和作为编码的方向响度图信息424的总体方向响度图。编码的下混信号例如是基于多个输入音频信号获得的。可替换地,音频解码器400被配置为接收作为一个或多个音频信号的编码表示422的多个编码音频信号以及作为编码的方向响度图信息424的多个编码信号的单独的方向响度图。编码的音频信号表示例如由编码器编码的输入音频信号或从由编码器编码的输入音频信号得出的信号。可替换地,音频解码器400被配置为接收作为编码的方向响度图信息424的总体方向响度图,作为一个或多个音频信号的编码表示422的多个编码的音频信号,以及附加地包括描述编码的音频信号对总体方向响度图的贡献的参数。因此,编码的音频内容420可以附加地包括参数,并且音频解码器400可以被配置为使用这些参数来改进解码参数的适配440,和/或改进音频场景的重建430。
音频解码器400被配置为基于前述的编码的音频内容420之一来提供输出信号432。
图18示出了用于转换510表示音频场景的音频内容520的格式的格式转换器500的实施例。格式转换器500例如接收第一格式的音频内容520,并将音频内容520转换510为第二格式的音频内容530。换言之,格式转换器500被配置为基于第一格式的音频内容的表示520来提供第二格式的音频内容的表示530。根据实施例,音频内容520和/或音频内容530可以表示空间音频场景。
第一格式可以例如包括第一数量的声道或输入音频信号以及适合于第一数量的声道或输入音频信号的边信息或空间边信息。第二格式可以例如包括可以不同于第一数量的声道或输入音频信号的第二数量的声道或输出音频信号以及适配于第二数量的声道或输出音频信号的边信息或空间边信息。第一格式的音频内容520包括例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号、一个或多个中间信号、一个或多个侧信号和/或一个或多个差分信号。
格式转换器500被配置为根据第一格式的输入音频信号对音频场景的总体方向响度图142的贡献来调节540格式转换510的复杂度。音频内容520包括例如第一格式的输入音频信号。贡献可以直接表示第一格式的输入音频信号对音频场景的总体方向响度图142的贡献,或者可以表示第一格式的输入音频信号的单独的方向响度图对总体方向响度图142的贡献,或者可以表示第一格式的输入音频信号的对的方向响度图对总体方向响度图142的贡献。根据实施例,可以通过如图13或图14所述的格式转换器500来计算贡献。根据实施例,总体方向响度图142可以例如通过由格式转换器500接收的第一格式的边信息来描述。可替换地,格式转换器500被配置为基于音频内容520的输入音频信号来确定总体方向响度图142。可选地,格式转换器500包括如关于图1至图4b描述的音频分析器,以计算总体方向响度图142,或者格式转换器500被配置为从如关于图1至图4b描述的外部音频分析器接收总体方向响度图142。
第一格式的音频内容520可以包括第一格式的输入音频信号的方向响度图信息。基于方向响度图信息,格式转换器500例如被配置为获得总体方向响度图142和/或一个或多个方向响度图。一个或多个方向响度图可以表示第一格式的每个输入音频信号的方向响度图和/或第一格式的信号组或信号对的方向响度图。格式转换器500例如被配置为从一个或多个方向响度图或方向响度图信息得出总体方向响度图142。
例如执行复杂度调节540,使得控制是否可以跳过对方向响度图作出贡献低于阈值的第一格式的输入音频信号中的一个或多个。换言之,格式转换器500例如被配置为计算或估计给定输入音频信号对音频场景的总体方向响度图142的贡献,并根据贡献的计算或估计来确定是否在格式转换510中考虑给定输入音频信号。格式转换器500例如将所计算或估计的贡献与预定的绝对或相对阈值进行比较。
第一格式的输入音频信号对总体方向响度图142的贡献可以指示相应输入音频信号对于第二格式的音频内容530的感知质量的相关性。因此,例如只有具有高相关性的第一格式的音频信号经历格式转换510。这可以导致第二格式的高质量音频内容530。
图19示出了用于对编码的音频内容420进行解码410的音频解码器400。音频解码器400被配置为接收一个或多个音频信号的编码表示420并且提供一个或多个音频信号的解码表示412。解码410使用例如AAC类解码或熵编码的谱值的解码。音频解码器400被配置为使用一个或多个音频信号的解码表示412来重建430音频场景。音频解码器400被配置为根据编码信号对解码的音频场景434的总体方向响度图142的贡献来调节440解码复杂度。
解码复杂度调节440可以由音频解码器400执行,类似于图18中的格式转换器500的复杂度调节540。
根据实施例,音频解码器400被配置为接收例如从编码的音频内容420中提取的编码的方向响度图信息。编码的方向响度图信息可由音频解码器400解码410以确定解码的方向响度信息414。基于解码的方向响度信息414,可以获得编码的音频内容420的一个或多个音频信号的总体方向响度图和/或编码的音频内容420的一个或多个音频信号的一个或多个单独的方向响度图。编码的音频内容420的一个或多个音频信号的总体方向响度图例如是从一个或多个单独的方向响度图得出的。
可通过方向响度图确定100来计算解码的音频场景434的总体方向响度图142,方向响度图确定100可以可选地由音频解码器400来执行。根据实施例,音频解码器400包括如关于图1或图4b描述的音频分析器,以执行方向响度图确定100,或者音频解码器400可以将解码的音频场景434发送到外部音频分析器,并从外部音频分析器接收解码的音频场景434的总体方向响度图142。
根据实施例,音频解码器400被配置为计算或估计给定编码信号对解码的音频场景的总体方向响度图142的贡献,并根据贡献的计算或估计来确定是否解码410给定编码信号。因此,例如可将编码的音频内容420的一个或多个音频信号的总体方向响度图与解码的音频场景434的总体方向响度图进行比较。可以如上所述(例如参见图13或图14所述)或类似地执行贡献的确定。
可替换地,音频解码器400被配置为计算或估计给定编码信号对编码的音频场景的解码的总体方向响度图414的贡献,并根据贡献的计算或估计来确定是否解码410给定编码信号。
例如执行复杂度调节440,使得控制是否可以跳过对方向响度图做出贡献低于阈值的一个或多个输入音频信号的编码表示中的一个或多个。
附加地或可替换地,解码复杂度调节440可以被配置为基于贡献来适配解码参数。
附加地或可替换地,解码复杂度调节440可以被配置为将解码的方向响度图414与解码的音频场景434的总体方向响度图(例如解码的音频场景434的总体方向响度图是目标方向响度图)进行比较,以适配解码参数。
图20示出了渲染器600的实施例。渲染器600例如是双声道渲染器或条形音箱渲染器或扬声器渲染器。利用渲染器600,音频内容620被渲染以获得经渲染的音频内容630。音频内容620可以包括一个或多个输入音频信号622。渲染器600使用例如一个或多个输入音频信号622来重建640音频场景。优选地,由渲染器600执行的重建640基于两个或更多个输入音频信号622。根据实施例,输入音频信号622可以包括一个或多个音频信号,一个或多个下混信号,一个或多个残差信号,其他音频信号和/或附加信息。
根据实施例,为了音频场景的重建640,渲染器600被配置为分析一个或多个输入音频信号622以优化渲染以获得期望的音频场景。因此,例如,渲染器600被配置为修改音频内容620的音频对象的空间布置。这意味着,例如渲染器600可以重建640新的音频场景。与音频内容620的原始音频场景相比,新音频场景包括例如重新布置的音频对象。这意味着例如吉他家和/或歌手和/或其他音频对象在新音频场景中被定位在与在原始音频场景中不同的空间位置处。
附加地或可替换地,音频渲染器600渲染多个音频声道或音频声道之间的关系。因此,例如渲染器600可以将包括多声道信号的音频内容620渲染为例如双声道信号。例如如果只有两个扬声器可用于音频内容620的表示,则这是所期望的。
根据实施例,由渲染器600执行渲染,使得新音频场景仅显示相对于原始音频场景的微小偏差。
渲染器600被配置为根据输入音频信号622对经渲染的音频场景642的总体方向响度图142的贡献来调节650渲染复杂度。根据实施例,经渲染的音频场景642可以表示上述新的音频场景。根据实施例,音频内容620可以包括作为边信息的总体方向响度图142。由渲染器600作为边信息接收的该总体方向响度图142可以指示经渲染的音频内容630的期望音频场景。可替换,方向响度图确定100可基于从重建单元640接收的经渲染的音频场景来确定总体方向响度图142。根据实施例,渲染器600可以包括方向响度图确定100或接收外部方向响度图确定100的总体方向响度图142。根据实施例,方向响度图确定100可以由如上所述的音频分析器来执行。
根据实施例,例如通过跳过输入音频信号622中的一个或多个来执行对渲染复杂度的调节650。要跳过的输入音频信号622例如是对方向响度图142作出贡献低于阈值的信号。因此,音频渲染器600仅渲染相关的输入音频信号。
根据实施例,渲染器600被配置为计算或估计给定输入音频信号622对音频场景,例如经渲染的音频场景642的总体方向响度图142的贡献。此外,渲染器600被配置为根据贡献的计算或估计来确定是否在渲染中考虑给定输入音频信号。因此,例如将计算或估计的贡献与预定的绝对或相对阈值进行比较。
图21示出了用于分析音频信号的方法1000。方法包括基于两个或更多个输入音频信号(xL,xR,xi)的XDM,b(m,k)的一个或多个谱域(例如时频域)表示(例如,例如对于i={L;R},Xi,b(m,k);或者XDM,b(m,k))获得1100多个加权谱域(例如时频域)表示(针对不同的Ψ0(j∈[1;J]),
Figure BDA0003136099550000571
“方向信号”)。根据两个或更多个输入音频信号中的(例如谱仓或谱带的)的音频分量(例如来自乐器或歌手的曲调)的(例如通过加权因子Ψ(m,k)来表示)的不同方向(例如平移方向Ψ0)来对一个或多个谱域表示(例如Xi,b(m,k))的值进行加权1200,以获得多个加权谱域表示(对于不同的Ψ0(j∈[1;J]的
Figure BDA0003136099550000572
“方向信号”)。此外,方法包括基于多个加权谱域表示(对于不同的Ψ0(j∈[1;J]的
Figure BDA0003136099550000573
“方向信号”)获得1300与不同方向(例如平移方向Ψ0)相关联的响度信息(例如针对多个不同Ψ0的L(m,Ψ0,j);例如“方向响度图”)作为分析结果。
图22示出了用于评估音频信号的相似性的方法2000。方法包括基于第一组两个或更多个输入音频信号(xR,xL,xi)获得2100与不同(例如平移)方向(例如Ψ0,j)相关联的第一响度信息(L1(m,Ψ0,j);方向响度图;组合响度值,以及比较2200第一响度信息(L1(m,Ψ0,j))和与不同平移方向(例如Ψ0,j)相关联并且与一组两个或更多个参考音频信号(xR,xL,xi)相关联的第二(例如对应的)响度信息(L2(m,Ψ0,j);参考响度信息;参考方向响度图;参考组合响度值,以获得2300描述第一组两个或更多个输入音频信号(xR,xL,xi)和一组两个或多个参考音频信号(x2,R,x2,L,x2,i)之间的相似性(或者表示第一组两个或更多个输入音频信号与一组两个或多个参考音频信号相比较的质量)的相似性信息(例如“模型输出变量”(MOV))。
图23示出了用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的方法3000。方法包括:基于一个或多个输入音频信号(例如左信号和右信号)或从其得出的一个或多个信号(例如中间信号或下混信号和侧信号或差分信号)来提供3100一个或多个编码的(例如量化的且然后无损编码的)音频信号(例如编码的谱域表示)。另外,方法3000包括根据表示与待编码的一个或多个信号的多个不同方向(例如平移方向)相关联的响度信息的一个或多个方向响度图(例如根据待量化的一个或多个信号的单独的方向响度图对例如与多个输入音频信号(例如与一个或多个输入音频信号的每个信号)相关联的总体方向响度图的贡献),来适配3200一个或多个编码音频信号的提供。
图24示出了用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的方法4000。方法包括基于两个或更多个输入音频信号(例如左信号和右信号)或基于从其得出的两个或更多个信号,使用待联合编码的两个或更多个信号的联合编码(例如使用中间信号或下混信号以及侧信号或差分信号)来提供4100一个或多个编码的(例如量化的并且然后无损编码的)音频信号(例如编码的谱域表示)。此外,方法4000包括根据表示与候选信号或候选信号对的多个不同方向(例如平移方向)相关联的响度信息的方向响度图(例如根据候选信号的单独的方向响度图对例如与多个输入音频信号相关联的(例如与一个或多个输入音频信号中的每个信号相关联的)总体方向响度图的贡献,或者根据候选信号对的方向响度图对总体方向响度图的贡献),从多个候选信号中或从多个候选信号对中(例如从两个或更多个输入音频信号中或从从其得出的两个或更多个信号中)选择4200待联合编码的信号。
图25示出了用于对包括一个或多个输入音频信号(优选地多个输入音频信号)的输入音频内容进行编码的方法5000。方法包括基于两个或更多个输入音频信号(例如左信号和右信号)或基于从其得出的两个或更多个信号来提供5100一个或多个编码的(例如量化的且然后无损编码的)音频信号(例如编码的谱域表示)。另外,方法5000包括基于输入音频信号确定5200总体方向响度图(例如场景的目标方向响度图),和/或确定与单独的输入音频信号相关联的一个或多个单独的方向响度图,并且将5300总体方向响度图和/或一个或多个单独的方向响度图编码为边信息。
图26示出了用于解码编码的音频内容的方法6000,包括接收6100一个或多个音频信号的编码表示,以及提供6200一个或多个音频信号的解码表示(例如使用AAC类解码或使用熵编码的谱值的解码)。方法6000包括接收6300编码的方向响度图信息并解码6400编码的方向响度图信息,以获得6500一个或多个(解码的)方向响度图。另外,方法6000包括使用一个或多个音频信号的解码表示并使用一个或多个方向响度图重建6600音频场景。
图27示出了用于将表示音频场景(例如空间音频场景)的音频内容的格式从第一格式转换7100为第二格式的方法7000,其中第一格式例如可以包括第一数量的声道或输入音频信号以及适配于第一数量的声道或输入音频信号的边信息或空间边信息,并且其中第二格式可以例如包括可以与第一数量的声道或输入音频信号不同的第二数量的声道或输出音频信号以及适合于第二数量的声道或输出音频信号的边信息或空间边信息。方法7000包括基于第一格式的音频内容的表示来提供第二格式的音频内容的表示,以及根据第一格式的输入音频信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对音频场景的总体方向响度图(其中总体方向响度图例如可以通过由格式转换器接收的第一格式的边信息来描述)的贡献来调节7200格式转换的复杂度(例如通过在格式转换处理中跳过对方向响度图作出贡献低于阈值的第一格式的输入音频信号中的一个或多个)。
图28示出了用于解码编码的音频内容的方法8000,包括接收8100一个或多个音频信号的编码表示以及提供8200一个或多个音频信号的解码表示(例如使用AAC类解码或使用熵编码的谱值的解码)。方法8000包括使用一个或多个音频信号的解码表示来重建8300音频场景。另外,方法8000包括根据编码信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对解码的音频场景的总体方向响度图的贡献来调节8400解码复杂度。
图29示出了用于渲染音频内容(例如用于将使用第一数量的输入音频声道和描述期望的空间特性的边信息表示的音频内容上混成包括大于第一数量的输入音频声道的多个声道的表示,空间特性如音频对象的布置或音频声道之间的关系)的方法9000,包括基于一个或多个输入音频信号(或基于两个或更多个输入音频信号)重建9100音频场景。方法9000包括根据输入音频信号(例如一个或多个音频信号、一个或多个下混信号、一个或多个残差信号等)对经渲染的音频场景的总体方向响度图(其中总体方向响度图可以例如由渲染器接收的边信息来描述)的贡献来调节9200渲染复杂度(例如通过在渲染过程中跳过对方向响度图作出贡献低于阈值的输入音频信号中的一个或多个)。
备注:
在下文中,将在章节“使用方向响度图的空间音频质量的客观评估”中,在章节“方向响度在音频编码和客观质量测量中的应用”中,在章节“用于音频的方向响度”中,在章节“用于计算方向响度图(DirLoudMap)的一般步骤”中,在章节“示例:使用从平移索引得出的加窗/选择函数恢复方向信号”和在章节“使用广义标准函数计算响度图的不同形式的实施例”中描述不同的发明实施例和方面。
另外,其他实施例将由所附权利要求来限定。
应当注意,由权利要求限定的任何实施例可以由上述章节中描述的任何细节(特征和功能)来补充。
并且,在上述章节中描述的实施例可以单独使用,并且还可以由另一章中的任何特征或者由权利要求中包括的任何特征来补充。
此外,应当注意,本文描述的单独的方面可以单独或组合使用。因此,可将细节添加到所述单独的方面中的每一者而不将细节添加到所述方面中的另一者。
还应当注意,本公开明确地或隐含地描述了在音频编码器(用于提供输入音频信号的编码表示的装置)和音频解码器(用于基于编码表示提供音频信号的解码表示的装置)中可使用的特征。因此,本文中所描述的特征中的任一者可在音频编码器的情况下和在音频解码器的情况下使用。
此外,在此公开的涉及方法的特征和功能也可以用在(被配置为执行这样的功能的)装置中。此外,在此公开的关于装置的任何特征和功能也可以用在相应的方法中。换言之,这里公开的方法可以由关于装置描述的任何特征和功能来补充。
此外,这里描述的任何特征和功能可以用硬件或软件来实现,或者使用硬件和软件的组合来实现,如将在“备选实现方案”部分中描述的。
备选实现方案
尽管已经在装置的情况下描述了一些方面,但是清楚的是,这些方面还表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的情况下描述的各方面还表示对相应装置的相应块或项目或特征的描述。这些方法步骤中的一些或全部可以通过(或使用)硬件装置(例如微处理器、可编程计算机或电子电路)来执行。在一些实施例中,可以由这种装置来执行一个或多个最重要的方法步骤。
根据某些实现要求,本发明的实施例可以用硬件或软件来实现。所述实现可以使用其上存储有电子可读控制信号的数字存储介质(例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行,数字存储介质与可编程计算机系统协作(或能够协作),从而执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作,使得执行这里描述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码用于执行方法之一。程序代码例如可以存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的用于执行本文所述方法之一的计算机程序。
换言之,本发明方法的实施例因此是一种具有程序代码的计算机程序,当计算机程序在计算机上运行时,程序代码用于执行这里描述的方法之一。
因此,本发明方法的另一个实施例是一种数据载体(或数字存储介质或计算机可读介质),包括记录在其上的用于执行这里描述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一个实施例是表示用于执行这里描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如经由因特网)传输。
另一个实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置为或适于执行这里描述的方法之一。
另一实施例包括其上安装有用于执行本文所述方法之一的计算机程序的计算机。
根据本发明的另一实施例包括被配置为将用于执行这里描述的方法之一的计算机程序(例如电子地或光学地)传输到接收器的装置或系统。接收器例如可以是计算机、移动设备、存储设备等。装置或系统例如可以包括用于将计算机程序传送到接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行在此描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作以执行本文中所描述的方法中的一者。通常,这些方法优选地由任何硬件装置来执行。
本文描述的装置可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地以硬件和/或软件来实现。
本文描述的方法可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或软件来执行。
上述实施例仅仅说明本发明的原理。应当理解,这里描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,意图仅由即将出现的专利权利要求的范围限制,而不是由通过本文实施例的描述和解释呈现的具体细节限制。
使用方向响度图的空间音频质量的客观评估
摘要
本工作介绍例如从立体声/双耳音频信号提取的特征,其用作经处理的空间听觉场景中的感知质量降级的量度。特征可以基于假定由使用幅度等级平移技术定位的方向信号所创建的立体声混合的简化模型。例如在短时傅里叶变换(STFT)域中针对每个方向信号计算立体声图像中的相关响度,以比较参考信号和恶化版本,并且得出旨在描述在收听测试中报告的感知退化分数的失真量度。
在具有立体声信号的广泛收听测试数据库上对量度进行测试,所述立体声信号由最先进的感知音频编解码器使用非波形保持技术(例如带宽扩展和联合立体声编码)来处理,已知这对现有质量预测器提出了挑战[1],[2]。结果表明,所得出的失真测度可以作为现有自动感知质量评估算法的扩展而被并入,以改进对空间编码的音频信号的预测。
索引项-空间音频,客观质量评估,PEAQ,平移索引
1.引言
我们提出一个简单的特征,目的是描述在感知的立体声图像中的退化,例如基于在共享共同的平移索引的区域的响度的变化[13]。即,例如双耳信号的时间和频率区域在左右声道之间共享相同的强度等级比,因此对应于听觉图像的水平面中的给定感知方向。
[14]中还提出了将方向响度测量用于复杂虚拟环境中音频渲染的听觉场景分析的情况中,而目前的工作主要集中在总体空间音频编码质量客观评估上。
所感知的立体图像失真可以被反映为与作为参数的待评估的平移索引值的量相对应的给定粒度的方向响度图上的变化。
2.方法
根据实施例,对参考信号(REF)和测试信号(SUT)进行并行处理,以提取旨在描述(当比较时)由为了产生SUT而执行的操作引起的感知听觉质量退化的特征。
双耳信号可首先由外周耳模型块处理。例如使用M=1024个样本的块大小和M/2的重叠的Hann窗口,将每个输入信号分解到STFT域中,以Fs=48kHz的采样率给出21ms的时间分辨率。然后,例如将变换后的信号的频率仓遵循ERB规模分组为总计B=20个频率仓子集或带,以考虑人耳蜗的频率选择性[15]。然后,如在[3]中所解释的,可以通过从对外耳和中耳进行建模的组合线性传输函数得出的值来对每个谱带进行加权。
外周模型然后在每个时间帧m和频率仓k中,并且对于每个声道i={L,R}和每个频率组b∈{0,...,B-1},输出信号Xi,b(m,k),其中在频率仓中表示不同的宽度Kb
2.1方向响度计算(例如由在此描述的音频分析器和/或音频相似性评估器执行)
根据实施例,可以针对不同的方向执行方向响度计算,使得例如给定的平移方向Ψ0可以被解释为Ψ0,j,其中j∈[1;J]。以下概念基于[13]中提出的方法,其中可以使用STFT域中的双耳信号的左和右声道之间的相似性度量来基于立体声记录中的每一源在混合过程期间所指定的平移系数来提取所述源所占用的时间和频率区域。
给定外周模型Xi,b(m,k)的输出,时间-频率(T/F)片段
Figure BDA0003136099550000631
可以通过将输入乘以窗口函数
Figure BDA0003136099550000632
从对应于给定方向Ψ0的输入信号中恢复:
Figure BDA0003136099550000633
恢复的信号将具有在容差内对应于平移方向Ψ0的输入的T/F分量。窗口函数可以被定义为以所期望的平移方向为中心的高斯窗口:
Figure BDA0003136099550000641
其中Ψ(m,k)是如在[13]中计算的平移索引,具有与分别完全向左或向右平移的信号相对应的[-1,1]的定义的支持。实际上,
Figure BDA0003136099550000644
可以包含在左和右声道中的值将使函数Ψ具有Ψ0或在其附近的值的频率仓。可以根据高斯函数对所有其他分量进行衰减。ξ的值表示窗口的宽度,因此表示每个平移方向的所述邻近区域。例如对于-60dB的信号干扰比(SIR),选择ξ=0.006的值[13]。可选地,根据经验选择在[-1,1]内的一组22个相等间隔的平移方向用于Ψ0的值。对于每个恢复的信号,在每个ERB谱带并根据平移方向的响度计算[16]被表示为例如:
Figure BDA0003136099550000642
其中YDM是声道i={L,R}的和信号。然后例如在所有ERB谱带上对响度进行平均,以提供在时间帧m上在平移域Ψ0∈[-1,1]上定义的方向响度图:
Figure BDA0003136099550000643
对于进一步的改进,根据二元说[17],可以仅考虑对应于1.5kHz及以上频率区域的ERB谱带的子集来计算等式4,以适应人类听觉系统对所述区域中的级差的灵敏度。根据一个实施例,对应于从1.34kHz到Fs/2的频率使用带b∈{7,...,19}。
作为一个步骤,例如对参考信号和SUT的持续时间的方向响度图进行相减,然后在所有平移方向和时间上对残差的绝对值进行平均,产生称为模型输出变量(MOV)的单个数值(遵循[3]中的术语)。该数值有效地表示参考和SUT的方向响度图之间的失真被预期是在收听测试中报告的相关主观质量降级的预测因子。
图9示出了所提出的MOV(模型输出值)计算的框图。图10a至10c示出将方向响度图的概念应用于一对参考(REF)和退化(SUT)信号以及它们的差的绝对值(DIFF)的示例。图10a到10c展示向左平移5秒持续时间的独奏小提琴记录的示例。例如图上更清晰的区域表示更响的内容。退化信号(SUT)在时间2-2.5秒和3-3.5秒之间呈现听觉事件的平移方向从左至中心的时间崩溃。
3.实验描述
为了测试和验证所提出的MOV的有用性,进行了类似于[18]中的回归实验,其中针对数据库中的参考和SUT对计算MOV并且将其与来自收听测试的它们各自的主观质量得分进行比较。如[3]所述,使用该MOV的系统的预测性能在与主观数据的相关性(R)、绝对误差分数(AES)和异常值数量(ν)方面来评估。
用于实验的数据库对应于统一语音和音频编码(USAC)验证测试[19]集2的一部分,其包含使用联合立体声[12]和带宽扩展工具以16至24kbps范围内的比特率编码的立体声信号以及其在MUSHRA标度上的质量得分。由于所提出的MOV不期望描述语音信号失真的主要原因,因此排除了语音项目。在用于实验的数据库中总共保留了88个项目(例如,平均长度8秒)。
为了考虑数据库中可能的单声道/音质失真,将称为目标差等级(ODG)的标准PEAQ(高级版本)和称为平均意见得分(MOS))的POLA的实现方式的输出作为补充例如在前一章节中描述的方向响度失真(DirLoudDist;例如DLD)的额外MOV。所有MOV可以被归一化并且适配于给出分数0以指示最佳质量并且给出分数1以指示最差的可能质量。相应地缩放收听测试得分。
保留数据库的可用内容的一个随机部分(60%,53个项目)用于使用将MOV映射到项目主观得分的多元适配回归样条(MARS)[8]训练回归模型。剩余(35项)用于检验训练的回归模型的性能。为了从总体MOV性能分析中去除训练过程的影响,训练/测试循环例如以随机的训练/测试项目进行500次,并且R、AES和ν的平均值被认为是性能量度。
4.结果和讨论
Figure BDA0003136099550000651
表1:针对具有不同MOV集的回归模型的500个训练/验证(例如测试)循环的平均性能值。CHOI表示如[20]中计算的3个双耳MOV,EITDD对应于如[1]中计算的高频包络ITD失真MOV。SEO对应于来自[1]的4个双耳MOV,包括EITDD。DirLoudDist是建议的MOV。括号中的数字表示所使用的MOV的总数。(可选)
表1示出了第3节中描述的实验的平均性能值(相关性、绝对误差分数、异常值数量)。除了所提出的MOV之外,还测试了在[20]和[1]中提出的用于空间编码的音频信号的客观评估的方法以用于比较。两种被比较的实现都利用在引言中提到的经典的耳间提示失真:IACC失真(IACCD、ILD失真(ILDD)和ITDD。
如上所述,基准性能由ODG和MOS给出,两者分别实现R=0.66,但是呈现R=0.77的组合性能,如表1所示。这确认这些特征在单声道失真的评估中是互补的。
考虑Choi等人的工作[20],向两个单声道质量指示符添加三个双声道失真(表1中的CHOI)(组成五个联合MOV)在所使用数据集的预测性能方面不会向系统提供任何进一步的增益。
在[1]中,从侧平面定位和信号失真可检测性方面对上述特征进行了进一步的可选模型改进。此外,例如引入了考虑高频包络耳间时间差失真(EITDD)的新颖MOV[21]。这四个双耳MOV(在表1中标记为SEO)加上两个单耳描述符(总共6个MOV)的集合显着地改善了当前数据集的系统性能。
考虑到EITDD对改进的贡献,建议在联合立体声技术[12]中使用的频率时间-能量包络表示总体质量感知的显著方面。
然而,与EITDD相比,所呈现的基于方向响度图失真(DirLoudDist)的MOV与所感知的质量降级甚至更好地相关,甚至达到与[1]的所有双耳MOV的组合类似的性能图,同时对两个单耳质量描述符使用一个附加MOV,而不是四个。对于相同的性能使用较少的特征将降低过拟合的风险并且指示它们的较高的感知相关性。
针对数据库的主观得分的最大平均相关性为0.88,表明仍有改进的余地。
根据实施例,所提出的特征基于在此描述的模型,所述模型假设对立体声信号的简化描述,其中听觉对象仅借助于ILD被定位在侧平面中,这通常是在演播室产生的音频内容中的情况[13]。对于在编码多麦克风录音或更多自然声音时通常存在的ITD失真,模型需要通过适当的ITD失真量度来扩展或补充。
5.结论和今后的工作
根据实施例,引入描述基于对应于给定平移方向的事件的响度的听觉场景的表示中的改变的失真度量。关于单声道质量预测的性能的显著提高表明了所提出的方法的有效性。方法还建议在低比特率空间音频编码的质量测量中的可能的替换或补充,在低比特率空间音频编码的质量测量中,基于经典双耳提示的所建立的失真测量不能令人满意地执行,这可能是由于所涉及的音频处理的非波形保留性质。
性能测量显示,对于还包括基于除声道等级差之外的效果的听觉失真的更完整的模型,仍然存在改进的区域。未来的工作还包括研究与静态失真相比,模型如何能够描述如[12]中报告的立体图像中的时间不稳定性/调制。
参考文献
[1]Jeong-Hun Seo,Sang Bae Chon,Keong-Mo Sung,and Inyong Choi,“Perceptual objective quality evaluation method for high quality multichannelaudio codecs,”J.Audio Eng.Soc,vol.61,no.7/8,pp.535–545,2013.
[2]M.
Figure BDA0003136099550000672
M.Bahram,and P.Vary,“An extension of the PEAQ measure bya binaural hearing model,”in 2013 IEEE International Conference on Acoustics,Speech and Signal Processing,May 2013,pp.8164–8168.
[3]ITU-R Rec.BS.1387,Method for objective measurements of perceivedaudio quality,ITU-T Rec.BS.1387,Geneva,Switzerland,2001.
[4]ITU-T Rec.P.863,“Perceptual objective listening qualityassessment,”Tech.Rep.,International Telecommunication Union,Geneva,Switzerland,2014.
[5]Sven
Figure BDA0003136099550000673
Judith Liebetrau,Sebastian Schneider,and Thomas Sporer,“Standardization of PEAQ-MC:Extension of ITU-R BS.1387-1 to MultichannelAudio,”in Audio Engineering Society Conference:40th International Conference:Spatial Audio:Sense the Sound of Space,Oct 2010.
[6]K Ulovec and M Smutny,“Perceived audio quality analysis in digitalaudio broadcasting plus system based on PEAQ,”Radioengineering,vol.27,pp.342–352,Apr.2018.
[7]C.Faller and F.Baumgarte,“Binaural cue coding-Part II:Schemes andapplications,”IEEE Transactions on Speech and Audio Processing,vol.11,no.6,pp.520–531,Nov 2003.
[8]Jan-Hendrik Fleβner,Rainer Huber,and Stephan D.Ewert,“Assessmentand prediction of binaural aspects of audio quality,”J.Audio Eng.Soc,vol.65,no.11,pp.929–942,2017.
[9]Marko Takanen and
Figure BDA0003136099550000674
Lorho,“A binaural auditory model for theevaluation of reproduced stereo-phonic sound,”in Audio Engineering SocietyConference:45th International Conference:Applications of Time-FrequencyProcessing in Audio,Mar 2012.
[10]Robert Conetta,Tim Brookes,Francis Rumsey,Slawomir Zielinski,Martin Dewhirst,Philip Jackson,
Figure BDA0003136099550000671
Bech,David Meares,and Sunish George,“Spatial audio quality perception(part 2):A linear regression model,”J.AudioEng.Soc,vol.62,no.12,pp.847–860,2015.
[11]ITU-R Rec.BS.1534-3,“Method for the subjective assessment ofintermediate quality levels of coding systems,”Tech.Rep.,InternationalTelecommunication Union,Geneva,Switzerland,Oct.2015.
[12]Frank Baumgarte and Christof Faller,“Why binaural cue coding isbetter than intensity stereo coding,”in Audio Engineering Society Convention112,Apr 2002.
[13]C.Avendano,“Frequency-domain source identification andmanipulation in stereo mixes for enhancement,suppression and re-panningapplications,”in 2003 IEEE Workshop on Applications of Signal Processing toAu-dio and Acoustics,Oct 2003,pp.55–58.
[14]Nicolas Tsingos,Emmanuel Gallo,and George Drettakis,“Perceptualaudio rendering of complex virtual environments,”in ACM SIGGRAPH 2004 Papers,New York,NY,USA,2004,SIGGRAPH’04,pp.249–258,ACM.
[15]B.C.J.Moore and B.R.Glasberg,“A revision of Zwicker’s loudnessmodel,”Acustica United with Acta Acustica:the Journal of the EuropeanAcoustics Associ-ation,vol.82,no.2,pp.335–345,1996.
[16]E.Zwicker,“
Figure BDA0003136099550000681
psychologische und methodische Grundlagen derLautheit[On the psychological and methodological bases of loudness],”Acustica,vol.8,pp.237–258,1958.
[17]Ewan A.Macpherson and John C.Middlebrooks,“Listener weighting ofcues for lateral angle:The duplex theory of sound localization revisited,”TheJournal of the Acoustical Society of America,vol.111,no.5,pp.2219–2236,2002.
[18]Pablo Delgado,Jürgen Herre,Armin Taghipour,and Nadja Schinkel-Bielefeld,“Energy aware modeling of interchannel level difference distortionimpact on spatial audio perception,”in Audio Engineering Society Conference:2018 AES International Conference on Spatial Reproduction-Aesthetics andScience,Jul 2018.
[19]ISO/IEC JTC1/SC29/WG11,“USAC verification test report N12232,”Tech.Rep.,International Organisation for Standardisation,2011.
[20]Inyong Choi,Barbara G.Shinn-Cunningham,Sang Bae Chon,and Koeng-MoSung,“Objective measurement of perceived auditory quality in multichannelaudio compression coding systems,”J.Audio Eng.Soc,vol.56,no.1/2,pp.3–17,2008
[21]E R Hafter and Raymond Dye,“Detection of interaural differencesof time in trains of high-frequency clicks as a function of interclickinterval and number,”The Journal of the Acoustical Society of America,vol.73,pp.644–51,03 1983.
方向响度在音频编码和客观质量测量中的应用
关于进一步的描述,请参见章节“使用方向响度图的空间音频质量的客观评估”。
说明:(例如图9的说明)
呈现从例如空间(立体声)听觉场景中的立体声/双耳音频信号中提取的特征。特征例如基于提取立体图像中的事件的平移方向的立体混合的简化模型。可以计算针对短时傅里叶变换(STFT)域中的每个平移方向的立体图像中的关联响度。可选地为参考和编码信号计算特征,然后比较特征以得出旨在描述在收听测试中报告的感知退化分数的失真测量。结果表明,与现有方法相比的面向低比特率非波形保持参数化技术工具,如联合立体声和带宽扩展等的改进的鲁棒性。它可以集成在标准化的客观质量评估测量系统,例如PEAQ或POLA(PEAQ=感知音频质量的客观测量;POLA=感知客观收听质量分析)中。
·术语:
·信号:例如表示对象的立体声信号、下混、残差等的立体声信号。
方向响度图(DirLoudMap):例如从每个信号得出。例如表示与听觉场景中的每个平移方向相关联的T/F(时间/频率)域中的响度。其可通过使用双耳渲染(HRTF(头相关传输函数)/BRIR(双声道房间脉冲响应)从多于两个信号得出。
应用(实施例):
1.质量的自动评估(实施例1):
·如章节“使用方向响度图的空间音频质量的客观评估”中所描述的
2.音频编码器中基于方向响度的比特分布(实施例2),其基于单独的信号DirLoudMap对总体DirLoudMap的比率(贡献)。
·可选的变型1(独立立体声对:作为扬声器或对象的音频信号。
·可选的变型2(下混/残差对):下混信号DirLoudMap和残差DirLoudMap对总体DirLoudMap的贡献。用于比特分布标准的听觉场景中的“贡献量”。
1.音频编码器,执行两个或更多个声道的联合编码,例如产生每一个或多个下混和残差信号,其中例如根据固定的解码规则(例如MS-Stereo)或通过根据联合编码参数(例如MCT中的旋转)估计逆联合编码过程来确定每个残差信号对总体方向响度图的贡献。基于残差信号对总体DirLoudMap的贡献,例如通过控制信号的量化精度,或通过在贡献低于阈值的情况下直接丢弃残差信号,来适配下混和残差信号之间的比特率分布。“贡献”的可能标准例如是平均比率或最大相对贡献的方向上的比率。
·问题:单个响度图对最终/总体响度图的组合和贡献估计。
3.(实施例3)对于解码器侧,方向响度可以帮助解码器做出关于以下的知情决策:
·复杂度缩放/格式转换器:每个音频信号可基于其对总体DirLoudMap的贡献(作为单独参数传输或从其他参数估计)而包括或排除在解码过程中,且因此改变用于不同应用/格式转换的渲染的复杂度。这使得能够在仅有限资源可用时(即渲染给移动设备的多声道信号)以降低的复杂度进行解码
由于所得到的DirLoudMap可以取决于目标再现设置,这确保了再现用于单独的场景的最重要/显著的信号,因此这相对于像简单信号/对象优先级那样的非空间通知方法是有利的。
4.用于联合编码决策(实施例4)(例如图14的说明)
·确定每个信号,或每个候选信号的方向响度图对总体场景的DirLoudMap的贡献。
1.可选变型1)选择对总响度图具有最高贡献的信号对
2.可选变型2)选择其中信号在它们各自的DirLoudMap中具有高接近度/相似性的信号对=>可以由下混来联合表示
·由于可以存在信号的级联联合编码,例如下混信号的DirLoudMap不必对应于来自一个方向的点源(例如一个扬声器),因此例如根据联合编码参数来估计对DirLoudMap的贡献。
·可以通过考虑信号的方向的某种下混或双声道化来计算整个场景的DirLoudMap。
5.基于方向响度的参数音频编解码器(实施例5)
传输例如场景的方向响度图-->作为边信息以参数形式被传输,例如
1.“PCM-Style”=方向上的量化值
2.中心位置+左/右的线性斜率
3.多项式或样条表示
传输例如一个信号/更少的信号/高效传输。
1.可选的变型1)传输1下混声道+场景的参数化目标DirLoudMap
2.可选的变型2)传输多个信号,每个信号具有相关联的DirLoudMap
3.可选的变型3)传输总体目标DirLoudMap以及多个信号加上参数化的对总体DirLoudMap的相对贡献
·例如基于场景的方向响度图,从传输的信号合成完整的音频场景。
用于音频编码的方向响度
引言和定义
DirLoudMap=方向响度图
用于计算DirLoudMap的实施例:
a)进行t/f分解(+分组成临界频带(CB)(例如通过滤波器组、STFT……)
b)对每个t/f片段运行方向分析功能
c)可选地(如果应用需要的话),输入/累积b)的结果至DirLoudMap直方图中:
d)总结CB上的输出,以提供宽带DirLoudMap
DirLoudMap/方向分析功能的级别的实施例:
-级别1(可选):根据信号(声道/对象)的空间再现位置绘制贡献方向的图(没有关于利用的信号内容的知识)。使用仅考虑声道/对象的再现方向+/-声道/对象+/-扩散窗口(这可以是宽带,即对于所有频率是相同的)的扩散窗口L1再现方向的方向分析函数
-级别2(可选):根据信号(声道/对象)的空间再现位置加上不同复杂度等级的声道/对象信号的内容的*动态*函数(方向分析函数)来绘制贡献方向的图。
允许识别
可选地,L2a)平移的幻象源(平移索引)[等级],或可选地,L2b)等级+时间延迟平移的幻象源[等级和时间],或可选地,L2c)加宽的(去相关的)平移的幻象源(甚至更先进的)
用于感知音频编码的应用
实施例A)每个声道/对象的掩蔽-无联合编码工具->目标
控制编码器量化噪声(使得原始和编码的/解码的DirLoudMap偏离小于某个阈值,即DirLoudMap域中的目标标准)
实施例B)每个声道/对象的掩蔽-联合编码工具(例如M/S+预测,MCT)
->目标:控制经工具处理的信号中的编码器量化噪声(例如M或旋转的“加和”信号)以在DirLoudMap域中满足目标标准
B)的示例
1)根据例如所有信号来计算总体DirLoudMap
2)应用联合编码工具
3)考虑到解码功能(例如通过旋转/预测的平移),确定经工具处理的信号(例如“总和”和“残差”)对DirLoudMap的贡献。
4)通过以下控制量化:
a)考虑量化噪声对DirLoudMap的影响
b)考虑将信号部分量化为0对DirLoudMap的影响
实施例C)控制联合编码工具的应用(例如MS开/关)和/或参数(例如,预测因子)
目标:控制联合编码工具的编/解码器参数以在DirLoudMap域中满足目标标准
C)的示例
-基于DirLoudMap控制M/S开/关决策
-基于改变参数对DirLoudMap的影响来控制频率相关预测因子的平滑
(用于较便宜的参数的差分编码)
(=控制边信息和预测精度之间的折衷)
实施例D)确定*参数化*联合编码工具(例如强度立体声)的参数(开/关、ILD……)
->目标:控制参数化联合编码工具的参数以在DirLoudMap域中满足目标标准
实施例E)将DirLoudMap作为边信息(而不是传统空间线索,例如ILD、ITD/IPD、ICC……)传输的参数化编码器/解码器系统
->编码器基于分析DirLoudMap来确定参数,产生下混信号和(比特流)参数,例如总体DirLoudMap+每个信号对DirLoudMap的贡献
->解码器通过适当手段合成传输的DirLoudMap
实施例F)解码器/渲染器/格式转换器的复杂度降低
(可能基于所传输的边信息)确定每个信号对总体DirLoudMap的贡献以确定每个信号的“重要性”。在具有受限计算能力的应用中,跳过对DirLoudMap做出贡献低于阈值的信号的解码/渲染。
计算方向响度图(DirLoudMap)的一般步骤
例如这对于任何实现方式都是有效的:(例如图3a和/或图4a的描述)
a)执行数个输入音频信号的t/f分解。
-可选:将频谱分量分组成与人类听觉系统(HAS)的频率分辨率有关的处理频带
-可选:根据不同频率区域中的HAS灵敏度(例如外耳/中耳传递函数)进行加权
->结果:t/f片段(例如谱域表示、谱带、谱仓……)
用于数个(例如每个)频带(循环):
b)计算例如数个音频输入声道的t/f片段的方向分析函数->结果:方向d(例如方向Ψ(m,k)或平移方向Ψ0,j)。
c)例如计算数个音频输入声道的t/f片段上的响度
->结果:响度L
-响度计算可以是简单的能量或更复杂的能量(或Zwicker模型:alpha=0.25-0.27)
d.a)例如在方向d下将I贡献输入/累加到DirLoudMap中
-可选:相邻方向之间的I分布的扩展(平移索引:加窗)
结束
可选地,(如果应用需要):计算宽带DirLoudMap
d.b)在数个(避免:所有)频带上加和DirLoudMap,以提供宽带DirLoudMap,表示作为方向/空间的函数的声音“活动”
示例:使用从平移索引得出的加窗/选择函数来恢复方向信号(例如图6的描述)
左(参见图6a;红色)和右(参见图6b;蓝色)声道信号例如在图6a和图6b中示出。条可以是整个频谱的DFT仓(离散傅立叶变换)、临界谱带(频率仓组)或临界谱带内的DFT仓等。
标准函数任意定义为:Ψ=levell/levelr
标准例如是“根据等级的平移方向”。例如每个或数个个FFT仓的等级。
a)从标准函数中,我们可以提取选择适当的频率仓/频谱组/分量并恢复方向信号的加窗函数/加权函数。因此输入谱(例如L和R)将乘以不同的窗口函数Θ(每个平移方向Ψ0一个窗口函数)
b)根据标准函数,我们具有与Ψ的不同值(即L和R之间的等级比率)相关联的不同方向。
用于使用方法a)恢复信号
示例1)平移方向中心,Ψ0=1(仅保持具有关系Ψ=Ψ0=1的条。这是方向信号(参见图6a和图6b1)。
示例2)平移方向,略向左,Ψ0=4/2(仅保持具有关系Ψ=Ψ0=4/2的条。这是方向信号(参见图6a2和图662)。
示例3)平移方向,略向右,Ψ0=3/4(仅保持具有关系Ψ=Ψ0=3/4的条。这是方向信号(参见图6a3.1和图663.1)。
标准函数可任意定义为每个DFT仓的等级、每个DFT仓组(临界谱带)的能量
Figure BDA0003136099550000731
或每个临界谱带的响度
Figure BDA0003136099550000732
对于不同的应用可以有不同的标准。
加权(可选)
注意:不要与(外周模型)传递函数加权混淆,外耳/中耳传递函数加权例如对临界谱带进行加权。
加权:可选地,代替取Ψ0的精确值,使用容限范围,并且较不重要地加权偏离Ψ0的值,即“取服从4/3关系的所有条形,并使它们以权重1通过,对于接近的值,使它们以小于1的权重通过→为此可以使用高斯函数。在上述示例中,方向信号将具有更多的没有用1进行加权而是以更低的值进行加权的仓。
动机:加权使得能够在不同的方向信号之间实现“更平滑的”过渡,由于在不同的方向信号之间存在一些“泄漏”,因此分离不是如此突然。
对于示例3,它可以看起来像图6a3.2和图6b3.2所示。
使用广义标准函数计算响度图的不同形式的实施例
选项1:平移索引法(参见图3a和图3b):
对于(全部)不同的Ψ0,可以收集该函数在时间上的“值”图。所谓的“方向响度图”可以通过以下方式来构造:
·示例1)使用“根据单个FFT仓的等级的平移方向”的标准函数
Figure BDA0003136099550000741
因此方向信号例如由单个DFT仓组成。然后,例如计算每个方向信号的每个临界谱带(DFT仓组)中的能量,然后将每个临界谱带的这些能量提升到0.25或类似的指数。→类似于章节“使用方向响度图的空间音频质量的客观评估”。
·示例2)代替对幅度谱加窗,可以对响度谱加窗。方向信号将已处于响度域。
·示例3)直接使用“根据每个临界谱带的响度的平移方向”的标准函数
Figure BDA0003136099550000742
然后,方向信号将由遵循由Ψ0给出的值的全部临界谱带的大块组成。
例如对于Ψ0=4/3,方向信号可以是:
Y=1*critical_band_1+0.2*critical_band_2+0.001*critical_band_3。
以及应用其他平移方向/方向信号的不同组合。注意,在使用加权的情况下,不同的平移方向可以包含相同的临界谱带,但是最可能具有不同的权重值。如果不应用加权,则方向信号是互斥的。
选项2:直方图法(见图4b):
这是总体方向响度的更一般描述。它不一定使用平移索引(即不需要通过对用于计算响度的频谱加窗来恢复“方向信号”。频谱的总响度根据其在相应频率区域中的“分析的方向”而“分布”。方向分析可以基于级差、基于时间差或为其他形式。
对于每个时间帧(参见图5):
直方图HΨ的分辨率将例如由给予Ψ0的集合的值的量给出。例如这是当在时间帧内评估Ψ时,可用于对Ψ0的出现进行分组的仓的数量。例如可能使用“遗忘因子”α随时间累加和平滑值:
Figure BDA0003136099550000751
其中n是时间帧索引。

Claims (86)

1.一种音频分析器(100),
其中,所述音频分析器(100)被配置为获得两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的谱域表示(110,1101,1102,110a,110b);
其中,所述音频分析器(100)被配置为获得与所述谱域表示(110,1101,1102,110a,110b)的谱带相关联的方向信息(122,1221,1222,125,127);
其中,所述音频分析器(100)被配置为获得与不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)作为分析结果,
其中,根据方向信息(122,1221,1222,125,127)来确定对响度信息(142,1421,1422,142a,142b)的贡献(132,1321,1322,1351,1352)。
2.根据权利要求1所述的音频分析器(100),其中,所述音频分析器(100)被配置为基于所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的所述谱域表示(110,1101,1102,110a,110b)获得多个加权谱域表示(135,1351,1352,132);
其中,根据所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)中的音频分量的不同方向(125)对所述一个或多个谱域表示(110,1101,1102,110a,110b)的值进行加权(134),以获得所述多个加权谱域表示(135,1351,1352,132);
其中,所述音频分析器(100)被配置为基于所述加权谱域表示(135,1351,1352,132)来获得与所述不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)作为分析结果。
3.根据权利要求1或2所述的音频分析器(100),其中,所述音频分析器(100)被配置为将所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)分解为短时傅里叶变换(STFT)域,以获得两个或更多个经变换音频信号(110,1101,1102,110a,110b)。
4.根据权利要求3所述的音频分析器(100),其中,所述音频分析器(100)被配置为将所述两个或更多个经变换音频信号(110,1101,1102,110a,110b)的谱仓分组为所述两个或更多个经变换音频信号(110,1101,1102,110a,110b)的谱带;以及
其中,所述音频分析器(100)被配置为基于外耳和中耳模型(116)使用不同权重对所述谱带进行加权,以获得所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的一个或多个谱域表示(110,1101,1102,110a,110b)。
5.根据权利要求1至4中的一项所述的音频分析器(100),其中,所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)与不同的方向或不同的扬声器位置相关联。
6.根据权利要求1至5中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为确定每个谱仓和多个预定方向(121)的方向相关加权(127,122)。
7.根据权利要求1至6中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为使用高斯函数来确定方向相关加权(127,122),使得所述方向相关加权(127,122)随着相应的提取方向值(125,122)与相应的预定方向值(121)之间的偏差的增加而减小。
8.根据权利要求7所述的音频分析器(100),其中,所述音频分析器(100)被配置为确定平移索引值作为提取方向值(125,122)。
9.根据权利要求7或8所述的音频分析器(100),其中,所述音频分析器(100)被配置为根据输入音频信号(112,1121,1122,1123,112a,112b)的谱域值(110)来确定提取方向值(125,122)。
10.根据权利要求6至9中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为根据下式获得与预定方向(121)、由时间索引m指示的时间和由谱仓索引k指示的谱仓相关联的方向相关加权(127,122)
Figure FDA0003136099540000021
Figure FDA0003136099540000022
其中ξ是预定值;
其中Ψ(m,k)指示与由时间索引m指示的时间和由谱仓索引k指示的谱仓相关联的提取方向值(125,122);以及
其中Ψ0,j是指示预定方向(121)的方向值。
11.根据权利要求6至10中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为将所述方向相关加权(127,122)应用于所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的所述一个或多个谱域表示(110,1101,1102,110a,110b),以便获得所述加权谱域表示(135,1351,1352,132)。
12.根据权利要求6至11中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为获得所述加权谱域表示(135,1351,1352,132),
使得在第一加权谱域表示(135,1351,1352,132)中,具有关联的第一预定方向(121)的信号分量相对于具有关联的其他方向(125)的信号分量得到强调,并且
使得在第二加权谱域表示(135,1351,1352,132)中,具有关联的第二预定方向(121)的信号分量相对于具有关联的其他方向(125)的信号分量得到强调。
13.根据权利要求1至12中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为根据下式获得与由索引i指示的输入音频信号(112,1121,1122,1123,112a,112b)或输入音频信号(112,1121,1122,1123,112a,112b)的组合,由索引b指示的谱带,由索引Ψ0,j指示的方向(121),由时间索引m指示的时间以及由谱仓索引k指示的谱仓相关联的加权谱域表示(135,1351,1352,132)
Figure FDA0003136099540000031
Figure FDA0003136099540000032
其中Xi,b(m,k)指示与由索引i指示的输入音频信号(112)或输入音频信号(112,1121,1122,1123,112a,112b)的组合,由索引b指示的谱带,由时间索引m指示时间以及由谱仓索引k指示的谱仓相关联的谱域表示(110);以及
其中,
Figure FDA0003136099540000033
表示与由索引Ψ0,j指示的方向(121)、由时间索引m指示的时间以及由谱仓索引k指示的谱仓相关联的方向相关加权(127,122)。
14.根据权利要求1至13中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为确定多个带响度值(145)的平均值,以便获得组合响度值(142)。
15.根据权利要求1至14中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为基于表示多个输入音频信号(112,1121,1122,1123,112a,112b)的加权组合谱域表示(137)来获得多个谱带的带响度值(145);以及
其中,所述音频分析器(100)被配置为基于针对多个不同方向(121)获得的带响度值(145)来获得多个组合响度值(142)作为分析结果。
16.根据权利要求14或15所述的音频分析器(100),其中,所述音频分析器(100)被配置为在频带的谱值上计算所述加权组合谱域表示(137)的均方谱值,并且将具有在0和1/2之间的指数的取幂应用于所述均方谱值,以确定所述带响度值(145)。
17.根据权利要求14至16中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为根据下式获得与由索引b指示的谱带、由索引Ψ0,j指示的方向(121)和由时间索引m指示的时间相关联的带响度值(145)
Figure FDA0003136099540000041
Figure FDA0003136099540000042
其中,Kb指示频带索引为b的频带中的谱仓的数量;
其中,k是游动变量并指示频带索引为b的频带中的谱仓;
其中,b指示谱带;以及
其中,
Figure FDA0003136099540000043
指示与由索引b指示的谱带、由索引Ψ0,j指示的方向(121)、由时间索引m指示的时间和由谱仓索引k指示的谱仓相关联的加权组合谱域表示(137)。
18.根据权利要求1至17中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为根据下式获得与由索引Ψ0,j指示的方向(121)和由时间索引m指示的时间相关联的多个组合响度值(142)L(m,Ψ0,j):
Figure FDA0003136099540000044
其中B指示谱带b的总数,以及
其中
Figure FDA0003136099540000045
指定与由索引b指示的谱带、由索引Ψ0,j指示的方向(121)和由时间索引m指示的时间相关联的带响度值(145)。
19.根据权利要求1至18中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为根据所述方向信息(122,1221,1222,125,127)将响度贡献(132,1321,1322,1351,1352)分配给与不同方向(121)相关联的直方图仓,以获得所述分析结果。
20.根据权利要求1至19中的一项所述的音频分析器(100),其中,所述音频分析器(100)被配置为基于所述谱域表示(110,1101,1102,110a,110b)获得与谱仓相关联的响度信息,以及
其中,所述音频分析器(100)被配置为基于与给定谱仓相关联的响度信息将响度贡献(132,1321,1322,1351,1352)添加到一个或多个直方图仓;
其中,对哪一个或多个直方图仓做出响度贡献(132,1321,1322,1351,1352)的选择基于对给定谱仓的方向信息的确定。
21.根据权利要求1至20中的一项所述的音频分析器(100),
其中,所述音频分析器(100)被配置为基于与给定谱仓相关联的响度信息将响度贡献(132,1321,1322,1351,1352)添加到多个直方图仓,
使得最大贡献(132,1321,1322,1351,1352)被添加到与对应于与给定谱仓相关联的方向信息(125,122)的方向(121)相关联的直方图仓,并且使得减少的贡献(132,1321,1322,1351,1352)被添加到与另外的方向(121)相关联的一个或多个直方图仓。
22.根据权利要求1至21中的一项所述的音频分析器(100),
其中,所述音频分析器(100)被配置为基于所述两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的音频内容来获得方向信息(122,1221,1222,125,127)。
23.根据权利要求1至22中的一项所述的音频分析器(100),
其中,所述音频分析器(100)被配置为基于对音频内容的幅度平移的分析来获得方向信息(122,1221,1222,125,127);和/或
其中,所述音频分析器(100)被配置为基于对两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的音频内容之间的相位关系和/或时延和/或相关性的分析来获得方向信息(122,1221,1222,125,127);和/或
其中,所述音频分析器(100)被配置为基于对加宽源的识别来获得方向信息(122,1221,1222,125,127),和/或
其中,所述音频分析器被配置为使用传入声音的谱信息与在不同方向上与头相关传输函数相关联的模板的匹配来获得方向信息(122,1221,1222,125,127)。
24.根据权利要求1至23中的一项所述的音频分析器(100),
其中,所述音频分析器(100)被配置为根据扩展规则将响度信息扩展到多个方向(121)。
25.一种音频相似性评估器(200),
其中,所述音频相似性评估器(200)被配置为基于第一组两个或更多个输入音频信号(112a)来获得与不同方向(121)相关联的第一响度信息(142,1421,1422,142a,142b),以及
其中,所述音频相似性评估器(200)被配置为将所述第一响度信息(142,1421,1422,142a,142b)与第二响度信息(142,1421,1422,142a,142b)进行比较(220),所述第二响度信息与不同的平移方向和一组两个或更多个参考音频信号(112b)相关联,以获得描述所述第一组两个或更多个输入音频信号(112a)与所述一组两个或更多个参考音频信号(112b)之间的相似性的相似性信息(210)。
26.根据权利要求25所述的音频相似性评估器(200),其中,所述音频相似性评估器(200)被配置为获得所述第一响度信息(142,1421,1422,142a,142b),使得所述第一响度信息(142,1421,1422,142a,142b)包括与所述第一组两个或更多个输入音频信号(112a)相关联并且与相应的预定方向(121)相关联的多个组合响度值(142),其中所述第一响度信息(142,1421,1422,142a,142b)的组合响度值(142)描述与所述相应的预定方向(121)相关联的第一组两个或更多个输入音频信号(112a)的信号分量的响度。
27.根据权利要求25或26所述的音频相似性评估器(200),其中,所述音频相似性评估器(200)被配置为获得所述第一响度信息(142,1421,1422,142a,142b),使得所述第一响度信息(142,1421,1422,142a,142b)与和相应的预定方向(121)相关联的所述第一组两个或更多个输入音频信号(112a)的多个加权谱域表示(135,1351,1352,132)的组合相关联。
28.根据权利要求25至27中的一项所述的音频相似性评估器(200),其中,所述音频相似性评估器(200)被配置为确定所述第二响度信息(142,1421,1422,142a,142b)与所述第一响度信息(142,1421,1422,142a,142b)之间的差(210)以获得残差响度信息(210)。
29.根据权利要求28所述的音频相似性评估器(200),其中,所述音频相似性评估器(200)被配置为确定在多个方向上量化所述差(210)的值(210)。
30.根据权利要求25至29中的一项所述的音频相似性评估器(200),其中,所述音频相似性评估器(200)被配置为使用根据权利要求1至24中的一项所述的音频分析器(100)来获得所述第一响度信息(142,1421,1422,142a,142b)和/或所述第二响度信息(142,1421,1422,142a,142b)。
31.根据权利要求25至30中的一项所述的音频相似性评估器(200),
其中,所述音频相似性评估器(200)被配置为使用表示与输入音频信号(112,1121,1122,1123,112a,112b)相关联的扬声器的位置信息的元数据来获得用于获得与不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)的方向分量。
32.一种音频编码器(300),用于对包括一个或多个输入音频信号(112,1121,1122,1123,112a,112b)的输入音频内容(112)进行编码(310),
其中,所述音频编码器(300)被配置为基于一个或多个输入音频信号(112,1121,1122,1123,112a,112b)或从其得出的一个或多个信号(110,1101,1102,110a,110b)来提供一个或多个编码音频信号(320);
其中,所述音频编码器(300)被配置为根据表示与待编码的一个或多个信号的多个不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)的一个或多个方向响度图适配(340)编码参数。
33.根据权利要求32所述的音频编码器(300),其中,所述音频编码器(300)被配置为根据待编码的所述一个或多个信号和/或参数的单独的方向响度图对总体方向响度图(142,1421,1422,142a,142b)的贡献来适配(340)待编码的所述一个或多个信号和/或参数之间的比特分布。
34.根据权利要求32或33所述的音频编码器(300),其中,所述音频编码器(300)被配置为当待编码信号中的给定一个信号的单独的方向响度图对总体方向响度图的贡献低于阈值时,禁用对所述待编码信号中的所述给定一个信号的编码(310)。
35.根据权利要求32至34中的一项所述的音频编码器(300),其中,所述音频编码器(300)被配置为根据所述待编码的一个或多个信号的单独的方向响度图对总体方向响度图的贡献来适配(342)所述待编码的一个或多个信号的量化精度。
36.根据权利要求32至35中的一项所述的音频编码器(300),其中,所述音频编码器(300)被配置为使用一个或多个量化参数来量化(312)所述一个或多个输入音频信号(112,1121,1122,1123,112a,112b)或从其得出的一个或多个信号(110,1101,1102,110a,110b)的谱域表示(110,1101,1102,110a,110b),以获得一个或多个量化谱域表示(313);
其中,所述音频编码器(300)被配置为根据表示与待量化的一个或多个信号的多个不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)的一个或多个方向响度图调整(342)一个或多个量化参数,以适配于提供所述一个或多个编码音频信号(320);以及
其中,所述音频编码器(300)被配置为对所述一个或多个量化谱域表示(313)进行编码,以便获得所述一个或多个编码音频信号(320)。
37.根据权利要求36所述的音频编码器(300),其中,所述音频编码器(300)被配置为根据待量化的所述一个或多个信号的单独的方向响度图对总体方向响度图的贡献来调整(342)所述一个或多个量化参数。
38.根据权利要求36或权利要求37所述的音频编码器(300),其中,所述音频编码器(300)被配置为基于所述输入音频信号(112,1121,1122,1123,112a,112b)来确定总体方向响度图,使得所述总体方向响度图表示与由输入音频信号(112,1121,1122,1123,112a,112b)表示的音频场景的不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)。
39.根据权利要求36至38中的一项所述的音频编码器(300),其中,所述待量化的一个或多个信号与不同方向(121)相关联,或者与不同的扬声器相关联,或者与不同的音频对象相关联。
40.根据权利要求36至39中的一项所述的音频编码器(300),其中,所述待量化的信号包括两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)的联合多信号编码的分量。
41.根据权利要求36至40中的一项所述的音频编码器(300),其中,所述音频编码器(300)被配置为估计所述联合多信号编码的残差信号对所述总体方向响度图的贡献,并且根据其来调整(342)所述一个或多个量化参数。
42.根据权利要求32至41中的一项所述的音频编码器(300),其中,所述音频编码器(300)被配置为针对不同谱仓单独地或针对不同频带单独地适配(340)待编码的所述一个或多个信号和/或参数之间的比特分布;和/或
其中,所述音频编码器(300)被配置为针对不同谱仓单独地或针对不同频带单独地适配(342)待编码的所述一个或多个信号的量化精度。
43.根据权利要求32至42中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为根据待编码的两个或更多个信号之间的空间掩蔽的评估来适配(340)待编码的一个或多个信号和/或参数之间的比特分布,
其中,所述音频编码器(300)被配置为基于与待编码的所述两个或更多个信号相关联的所述方向响度图评估所述空间掩蔽。
44.根据权利要求43所述的音频编码器(300),其中,所述音频编码器(300)被配置为评估与待编码的第一信号的第一方向相关联的响度贡献(132,1321,1322,1351,1352)对与待编码的第二信号的第二方向相关联的响度贡献(132,1321,1322,1351,1352)的掩蔽效果。
45.根据权利要求32至44中的一项所述的音频编码器(300),其中,所述音频编码器(300)包括根据权利要求1至24中的一项所述的音频分析器(100),其中与不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)形成所述方向响度图。
46.根据权利要求32至45中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为根据所述一个或多个方向响度图适配(340)由所述编码器引入的噪声。
47.根据权利要求46所述的音频编码器(300),
其中,所述音频编码器(300)被配置为使用与给定的未编码的输入音频信号相关联的方向响度图和由所述给定的输入音频信号的编码版本可实现的方向响度图之间的偏差作为适配所述给定的编码音频信号的提供的标准。
48.根据权利要求32至47中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为根据表示与待编码的一个或多个信号的多个不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)的一个或多个方向响度图来激活和去激活联合编码工具。
49.根据权利要求32至48中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为根据表示与待编码的一个或多个信号的多个不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)的一个或多个方向响度图来确定联合编码工具的一个或多个参数。
50.根据权利要求32至49中的一项所述的音频编码器(300),其中,所述音频编码器(300)被配置为确定或估计控制所述一个或多个编码音频信号(320)的提供的一个或多个控制参数的变化对一个或多个编码信号的方向响度图的影响,以及根据所述影响的确定或估计来调整所述一个或多个控制参数。
51.根据权利要求32至50中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为使用表示与输入音频信号(112,1121,1122,1123,112a,112b)相关联的扬声器的位置信息的元数据来获得用于获得一个或多个方向响度图的方向分量。
52.一种音频编码器(300),用于对包括一个或多个输入音频信号(112,1121,1122,1123,112a,112b)的输入音频内容(112)进行编码(310),
其中,所述音频编码器(300)被配置为基于两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)或基于从其得出的两个或更多个信号(110,1101,1102,110a,110b)使用待联合编码的两个或更多个信号的联合编码(310)来提供一个或多个编码音频信号(320);
其中,所述音频编码器(300)被配置为根据表示与候选信号(110,1101,1102)或候选信号对(110,1101,1102)的多个不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)的方向响度图,从多个候选信号(110,1101,1102)中或从多个候选信号对(110,1101,1102)中选择(350)待联合编码的信号。
53.根据权利要求52所述的音频编码器(300),
其中,所述音频编码器(300)被配置为根据候选信号(110,1101,1102)的单独的方向响度图对总体方向响度图的贡献或者根据候选信号对(110,1101,1102)的方向响度图对总体方向响度图的贡献,从多个候选信号(110,1101,1102)中或者从多个候选信号对(110,1101,1102)中选择(350)待联合编码的信号。
54.根据权利要求52或53所述的音频编码器(300),
其中,所述音频编码器(300)被配置为确定候选信号对(110,1101,1102)对总体方向响度图的贡献;以及
其中,所述音频编码器(300)被配置为选择对所述总体方向响度图具有最高贡献的一个或多个候选信号对(110,1101,1102)用于联合编码(310),或
其中,所述音频编码器(300)被配置为选择对所述总体方向响度图的贡献大于预定阈值的一个或多个候选信号对(110,1101,1102)用于联合编码(310)。
55.根据权利要求52至54中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为确定两个或更多个候选信号(110,1101,1102)的单独的方向响度图,
其中,所述音频编码器(300)被配置为将所述两个或更多个候选信号(110,1101,1102)的单独的方向响度图进行比较,以及
其中,所述音频编码器(300)被配置为根据所述比较的结果来选择(350)所述候选信号(110,1101,1102)中的两个或更多个候选信号用于联合编码(310)。
56.根据权利要求52至55中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为使用所述输入音频信号(112,1121,1122,1123,112a,112b)的下混或使用所述输入音频信号(112,1121,1122,1123,112a,112b)的双声道化来确定总体方向响度图。
57.一种音频编码器(300),用于对包括一个或多个输入音频信号(112,1121,1122,1123,112a,112b)的输入音频内容(112)进行编码(310),
其中,所述音频编码器(300)被配置为基于两个或更多个输入音频信号(112,1121,1122,1123,112a,112b)或基于从其得出的两个或更多个信号(110,1101,1102,110a,110b)来提供一个或多个编码音频信号(320);
其中,所述音频编码器(300)被配置为基于所述输入音频信号(112,1121,1122,1123,112a,112b)来确定总体方向响度图,和/或确定与单独的输入音频信号(112,1121,1122,1123,112a,112b)相关联的一个或多个单独的方向响度图;以及
其中,所述音频编码器(300)被配置为将所述总体方向响度图和/或一个或多个单独的方向响度图编码为边信息。
58.根据权利要求57所述的音频编码器(300),
其中,所述音频编码器(300)被配置为基于所述输入音频信号(112,1121,1122,1123,112a,112b)确定所述总体方向响度图,使得所述总体方向响度图表示与由所述输入音频信号(112,1121,1122,1123,112a,112b)表示的音频场景的不同方向(121)相关联的响度信息(142,1421,1422,142a,142b)。
59.根据权利要求57至58中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为以与不同方向(121)相关联的值的集合的形式对所述总体方向响度图进行编码;或
其中,所述音频编码器(300)被配置为使用中心位置值和斜率信息对所述总体方向响度图进行编码;或
其中,所述音频编码器(300)被配置为以多项式表示的形式对所述总体方向响度图进行编码;或
其中,所述音频编码器(300)被配置为以样条表示的形式对所述总体方向响度图进行编码。
60.根据权利要求57至59中的一项所述的音频编码器(300),
其中,所述音频编码器(300)被配置为对基于多个输入音频信号(112,1121,1122,1123,112a,112b)获得的一个下混信号和总体方向响度图进行编码;或
其中,所述音频编码器(300)被配置为对多个信号进行编码,并且对被编码的多个信号的单独的方向响度图进行编码;或
其中,音频编码器(300)被配置为对总体方向响度图、多个信号和描述被编码的信号对总体方向响度图的贡献的参数进行编码。
61.一种音频解码器(400),用于解码(410)编码音频内容(420),
其中,所述音频解码器(400)被配置为接收一个或多个音频信号的编码表示(420)并且提供所述一个或多个音频信号的解码表示(432);
其中,所述音频解码器(400)被配置为接收编码的方向响度图信息(424)并且解码所述编码的方向响度图信息(424),以获得一个或多个方向响度图(414);以及
其中,所述音频解码器(400)被配置为使用所述一个或多个音频信号的所述解码表示(432)且使用所述一个或多个方向响度图来重建(430)音频场景。
62.根据权利要求61所述的音频解码器(400),其中,所述音频解码器(400)被配置为获得输出信号,使得与所述输出信号相关联的一个或多个方向响度图近似或等于一个或多个目标方向响度图,
其中,所述一个或多个目标方向响度图基于所述一个或多个解码的方向响度图(414)或者等于所述一个或多个解码的方向响度图(414)。
63.根据权利要求61或62所述的音频解码器(400),
其中,所述音频解码器(400)被配置为接收
-一个编码的下混信号和总体方向响度图;或
-多个编码音频信号(422)以及多个编码信号的单独的方向响度图;或
-总体方向响度图、多个编码音频信号(422)和描述所述编码音频信号(422)对总体方向响度图的贡献的参数;以及
其中,所述音频解码器(400)被配置为基于其提供所述输出信号。
64.一种格式转换器(500),用于将表示音频场景的音频内容(520)的格式从第一格式转换(510)为第二格式,
其中,所述格式转换器(500)被配置为基于第一格式的音频内容的表示来提供第二格式的音频内容的表示(530);
其中,所述格式转换器(500)被配置为根据所述第一格式的输入音频信号(112,1121,1122,1123,112a,112b)对所述音频场景的总体方向响度图的贡献来调整(540)所述格式转换的复杂度。
65.根据权利要求64所述的格式转换器(500),
其中,所述格式转换器(500)被配置为接收方向响度图信息,并且基于所述方向响度图信息获得所述总体方向响度图和/或一个或多个方向响度图。
66.根据权利要求65所述的格式转换器(500),
其中,所述格式转换器(500)被配置为从所述一个或多个方向响度图得出所述总体方向响度图。
67.根据权利要求64至66中的一项所述的格式转换器(500),
其中,所述格式转换器(500)被配置为计算或估计给定输入音频信号对音频场景的总体方向响度图的贡献;以及
其中,所述格式转换器(500)被配置为根据所述贡献的计算或估计来确定是否在所述格式转换中考虑所述给定输入音频信号。
68.一种音频解码器(400),用于解码(410)编码音频内容(420),
其中,所述音频解码器(400)被配置为接收一个或多个音频信号的编码表示(420)并且提供所述一个或多个音频信号的解码表示(432);
其中,所述音频解码器(400)被配置为使用所述一个或多个音频信号的所述解码表示(432)来重建(430)音频场景;
其中,所述音频解码器(400)被配置为根据编码信号对解码音频场景的总体方向响度图的贡献来调整(440)解码复杂度。
69.根据权利要求68所述的音频解码器(400),
其中,所述音频解码器(400)被配置为接收编码的方向响度图信息(424)并且对所述编码的方向响度图信息(424)解码以获得所述总体方向响度图和/或一个或多个方向响度图。
70.根据权利要求69所述的音频解码器(400),
其中,所述音频解码器(400)被配置为从所述一个或多个方向响度图得出所述总体方向响度图。
71.根据权利要求68至70中的一项所述的音频解码器(400),
其中,所述音频解码器(400)被配置为计算或估计给定编码信号对所述解码音频场景的所述总体方向响度图的贡献;以及
其中,所述音频解码器(400)被配置为根据所述贡献的计算或估计来确定是否对所述给定编码信号进行解码。
72.一种用于渲染音频内容的渲染器(600),
其中,所述渲染器(600)被配置为基于一个或多个输入音频信号(112,1121,1122,1123,112a,112b)来重建(640)音频场景;
其中,所述渲染器(600)被配置为根据所述输入音频信号(112,1121,1122,1123,112a,112b)对所渲染的音频场景(642)的总体方向响度图(142)的贡献来调整(650)渲染复杂度。
73.根据权利要求72所述的渲染器(600),
其中,所述渲染器(600)被配置为获得方向响度图信息(142),并且基于所述方向响度图信息获得所述总体方向响度图和/或一个或多个方向响度图。
74.根据权利要求73所述的渲染器(600),
其中,所述渲染器(600)被配置为从所述一个或多个方向响度图得出所述总体方向响度图。
75.根据权利要求72至74中的一项所述的渲染器(600),
其中,所述渲染器(600)被配置为计算或估计给定输入音频信号对所述音频场景的所述总体方向响度图的贡献;以及
其中,所述渲染器(600)被配置为根据所述贡献的计算或估计来决定是否在所述渲染中考虑所述给定输入音频信号。
76.一种用于分析音频信号的方法(1000),所述方法包括:
基于两个或更多个输入音频信号的一个或多个谱域表示来获得(1100)多个加权谱域表示,
其中,根据两个或更多个输入音频信号中的音频分量的不同方向对所述一个或多个谱域表示的值进行加权(1200),以获得所述多个加权谱域表示;以及
基于所述多个加权谱域表示获得(1300)与所述不同方向相关联的响度信息作为分析结果。
77.一种用于评估音频信号的相似性的方法(2000),所述方法包括:
基于第一组两个或更多个输入音频信号来获得(2100)与不同方向相关联的第一响度信息,以及
将所述第一响度信息与和不同平移方向以及一组两个或更多个参考音频信号相关联的第二响度信息进行比较(2200),以获得(2300)描述所述第一组两个或更多个输入音频信号与所述一组两个或更多个参考音频信号之间的相似性的相似性信息。
78.一种用于对包括一个或多个输入音频信号的输入音频内容进行编码的方法(3000),
其中,所述方法包括基于一个或多个输入音频信号或从其得出的一个或多个信号来提供(3100)一个或多个编码音频信号;以及
其中,所述方法包括根据表示与待编码的一个或多个信号的多个不同方向相关联的响度信息的一个或多个方向响度图来适配(3200)所述一个或多个编码音频信号的提供。
79.一种用于对包括一个或多个输入音频信号的输入音频内容进行编码的方法(4000),
其中,所述方法包括基于两个或更多个输入音频信号或基于从其得出的两个或更多个信号,使用待联合编码的两个或更多个信号的联合编码来提供(4100)一个或多个编码音频信号;以及
其中,所述方法包括根据表示与候选信号或候选信号对的多个不同方向相关联的响度信息的方向响度图,从多个候选信号或多个候选信号对中选择(4200)待联合编码的信号。
80.一种用于对包括一个或多个输入音频信号的输入音频内容进行编码的方法(5000),
其中,所述方法包括基于两个或更多个输入音频信号或基于从其得出的两个或更多个信号来提供(5100)一个或多个编码音频信号;
其中,所述方法包括基于所述输入音频信号确定(5200)总体方向响度图,和/或确定与单独的输入音频信号相关联的一个或多个单独的方向响度图;以及
其中,所述方法包括将所述总体方向响度图和/或一个或多个单独的方向响度图编码(5300)为边信息。
81.一种用于对编码音频内容进行解码的方法(6000),
其中,所述方法包括接收(6100)一个或多个音频信号的编码表示以及提供(6200)所述一个或多个音频信号的解码表示;
其中,所述方法包括接收(6300)编码的方向响度图信息并解码(6400)所述编码的方向响度图信息,以获得(6500)一个或多个方向响度图;以及
其中,所述方法包括使用所述一个或多个音频信号的解码表示并且使用所述一个或多个方向响度图重建(6600)音频场景。
82.一种用于将表示音频场景的音频内容的格式从第一格式转换(7100)为第二格式的方法(7000),
其中,方法包括基于所述第一格式的所述音频内容的表示提供所述第二格式的所述音频内容的表示;
其中,所述方法包括根据所述第一格式的输入音频信号对所述音频场景的总体方向响度图的贡献来调整(7200)格式转换的复杂度。
83.一种用于对编码音频内容进行解码的方法(8000),
其中,所述方法包括接收(8100)一个或多个音频信号的编码表示以及提供(8200)所述一个或多个音频信号的解码表示;
其中,所述方法包括使用所述一个或多个音频信号的所述解码表示来重建(8300)音频场景;
其中,所述方法包括根据编码信号对解码的音频场景的总体方向响度图的贡献来调整(8400)解码复杂度。
84.一种用于渲染音频内容的方法(9000),
其中,所述方法包括基于一个或多个输入音频信号来重建(9100)音频场景;
其中,所述方法包括根据所述输入音频信号对所渲染的音频场景的总体方向响度图的贡献来调整(9200)渲染复杂度。
85.一种计算机程序,具有当在计算机上运行时用于执行根据权利要求100至108所述的方法的程序代码。
86.一种编码的音频表示,包括:
一个或多个音频信号的编码表示;和
编码的方向响度图信息。
CN201980086950.1A 2018-10-26 2019-10-28 基于方向响度图的音频处理 Pending CN113302692A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18202945 2018-10-26
EP18202945.4 2018-10-26
EP19169684 2019-04-16
EP19169684.8 2019-04-16
PCT/EP2019/079440 WO2020084170A1 (en) 2018-10-26 2019-10-28 Directional loudness map based audio processing

Publications (1)

Publication Number Publication Date
CN113302692A true CN113302692A (zh) 2021-08-24

Family

ID=68290255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980086950.1A Pending CN113302692A (zh) 2018-10-26 2019-10-28 基于方向响度图的音频处理

Country Status (6)

Country Link
US (1) US20210383820A1 (zh)
EP (3) EP4213147A1 (zh)
JP (2) JP2022505964A (zh)
CN (1) CN113302692A (zh)
BR (1) BR112021007807A2 (zh)
WO (1) WO2020084170A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3944240A1 (en) * 2020-07-20 2022-01-26 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk Onderzoek TNO Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product
US11637043B2 (en) 2020-11-03 2023-04-25 Applied Materials, Inc. Analyzing in-plane distortion
KR20220151953A (ko) * 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
EP4346234A1 (en) * 2022-09-29 2024-04-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for perception-based clustering of object-based audio scenes
EP4346235A1 (en) * 2022-09-29 2024-04-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method employing a perception-based distance metric for spatial audio

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6341165B1 (en) * 1996-07-12 2002-01-22 Fraunhofer-Gesellschaft zur Förderdung der Angewandten Forschung E.V. Coding and decoding of audio signals by using intensity stereo and prediction processes
KR20070017441A (ko) * 1998-04-07 2007-02-09 돌비 레버러토리즈 라이쎈싱 코오포레이션 저 비트속도 공간 코딩방법 및 시스템
JP2010130411A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置とその方法とプログラム
CN101884065A (zh) * 2007-10-03 2010-11-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成
CN103052983A (zh) * 2010-04-13 2013-04-17 弗兰霍菲尔运输应用研究公司 音频或视频编码器、音频或视频解码器及利用可变预测方向处理多信道音频或视频信号的相关方法
US20140358565A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
EP2958343A1 (en) * 2014-06-20 2015-12-23 GN Otometrics A/S Apparatus for testing directionality in hearing instruments

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922655A (zh) * 2004-07-06 2007-02-28 松下电器产业株式会社 音频信号编码装置、音频信号解码装置、方法及程序
KR100714980B1 (ko) * 2005-03-14 2007-05-04 한국전자통신연구원 가상음원위치정보를 이용한 멀티채널 오디오 신호의 압축및 복원 방법
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
UA122050C2 (uk) * 2013-01-21 2020-09-10 Долбі Лабораторіс Лайсензін Корпорейшн Аудіокодер і аудіодекодер з метаданими гучності та границі програми
US9521501B2 (en) * 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
JP6591477B2 (ja) * 2017-03-21 2019-10-16 株式会社東芝 信号処理システム、信号処理方法及び信号処理プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6341165B1 (en) * 1996-07-12 2002-01-22 Fraunhofer-Gesellschaft zur Förderdung der Angewandten Forschung E.V. Coding and decoding of audio signals by using intensity stereo and prediction processes
KR20070017441A (ko) * 1998-04-07 2007-02-09 돌비 레버러토리즈 라이쎈싱 코오포레이션 저 비트속도 공간 코딩방법 및 시스템
CN101884065A (zh) * 2007-10-03 2010-11-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成
JP2010130411A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 複数信号区間推定装置とその方法とプログラム
CN103052983A (zh) * 2010-04-13 2013-04-17 弗兰霍菲尔运输应用研究公司 音频或视频编码器、音频或视频解码器及利用可变预测方向处理多信道音频或视频信号的相关方法
US20140358565A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
EP2958343A1 (en) * 2014-06-20 2015-12-23 GN Otometrics A/S Apparatus for testing directionality in hearing instruments

Also Published As

Publication number Publication date
WO2020084170A1 (en) 2020-04-30
RU2022106058A (ru) 2022-04-05
BR112021007807A2 (pt) 2021-07-27
EP3871216A1 (en) 2021-09-01
EP4213147A1 (en) 2023-07-19
JP2022505964A (ja) 2022-01-14
RU2022106060A (ru) 2022-04-04
EP4220639A1 (en) 2023-08-02
JP2022177253A (ja) 2022-11-30
US20210383820A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
US10861468B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
US7983922B2 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
KR101139880B1 (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
CN113302692A (zh) 基于方向响度图的音频处理
US8843378B2 (en) Multi-channel synthesizer and method for generating a multi-channel output signal
CN110890101B (zh) 用于基于语音增强元数据进行解码的方法和设备
RU2628195C2 (ru) Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования
US10089990B2 (en) Audio object separation from mixture signal using object-specific time/frequency resolutions
JP2009503615A (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
EP3762923A1 (en) Audio coding
Delgado et al. Objective assessment of spatial audio quality using directional loudness maps
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
CN114270437A (zh) 参数编码与解码
RU2771833C1 (ru) Обработка аудиоданных на основе карты направленной громкости
RU2798019C2 (ru) Обработка аудиоданных на основе карты направленной громкости
RU2793703C2 (ru) Обработка аудиоданных на основе карты направленной громкости
JP2007025290A (ja) マルチチャンネル音響コーデックにおける残響を制御する装置
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
Puigt et al. Effects of audio coding on ICA performance: An experimental study
Mouchtaris et al. Multichannel Audio Coding for Multimedia Services in Intelligent Environments
Tzagkarakis Multichannel Audio Modeling and Coding for Immersive Audio Based on the Sinusoidal Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination