CN110800048A - 多通道空间音频格式输入信号的处理 - Google Patents

多通道空间音频格式输入信号的处理 Download PDF

Info

Publication number
CN110800048A
CN110800048A CN201880041822.0A CN201880041822A CN110800048A CN 110800048 A CN110800048 A CN 110800048A CN 201880041822 A CN201880041822 A CN 201880041822A CN 110800048 A CN110800048 A CN 110800048A
Authority
CN
China
Prior art keywords
spatial
audio signal
signal
format
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880041822.0A
Other languages
English (en)
Other versions
CN110800048B (zh
Inventor
D·S·麦格拉思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority claimed from PCT/US2018/030680 external-priority patent/WO2018208560A1/en
Publication of CN110800048A publication Critical patent/CN110800048A/zh
Application granted granted Critical
Publication of CN110800048B publication Critical patent/CN110800048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供用于处理多通道空间音频格式输入信号的设备、计算机可读媒体和方法。举例来说,一种此类方法包括基于所接收的空间音频格式输入信号确定对象方位元数据;和基于所述所接收的空间音频格式输入信号提取对象音频信号,其中所述基于所述所接收的空间音频格式输入信号提取对象音频信号包含确定对象音频信号和残余音频信号。

Description

多通道空间音频格式输入信号的处理
相关申请案的交叉引用
本申请案主张2017年12月13申请的美国临时专利申请案第62/598,068号、2017年7月3日申请的欧洲专利申请案第17179315.1号和2017年5月9日申请的美国临时专利申请案第62/503,657号的优先权益,所述申请案中的每一个以引用的方式并入本文中。
技术领域
本公开涉及沉浸式音频格式转换,包含空间音频格式(例如,立体混响、高阶立体混响或B格式)转换成基于对象的格式(例如杜比全景声(Dolby's Atmos)格式)。
发明内容
本文献解决将空间音频格式(例如,立体混响、高阶立体混响或B格式)转换成基于对象的格式(例如,杜比全景声格式)的技术问题。
在这点上,如在整个说明书和权利要求书中所使用的术语“空间音频格式”特定地涉及提供与扩音器无关的信号的音频格式,所述与扩音器无关的信号表示在一或多个方位处记录的声场的方向特性。此外,如在整个说明书和权利要求书中所使用的术语“基于对象的格式”特定地涉及提供表示声音源的与扩音器无关的信号的音频格式。
本文献的方面涉及一种处理多通道空间格式输入音频信号(即,包含多个通道的空间格式(空间音频格式)的音频信号)的方法。所述空间格式(空间音频格式)可为例如立体混响、高阶立体混响(HOA)或B格式。所述方法可包含分析所述输入音频信号以确定包含在所述输入音频信号中的音频对象的多个对象方位。对象方位可为例如由笛卡尔或球面坐标中的3向量指示的空间方位。替代地,取决于应用,可在两个维度中指示对象方位。
所述方法可另外包含对于输入音频信号的多个频率子频带中的每一个,针对每一对象方位,确定所述频率子频带和所述对象方位的混频增益。为此目的,所述方法可包含将时间-频率变换应用于输入音频信号并且将所得频率系数布置到频率子频带中。替代地,所述方法可包含将滤波器组应用于输入音频信号。混频增益可以被称作对象增益。
所述方法可另外包含对于每一频率子频带,针对每一对象方位,基于输入音频信号、所述频率子频带和所述对象方位的混频增益以及空间格式的空间映射函数,产生频率子频带输出信号。空间映射函数可为空间解码函数,例如空间解码函数DS(loc)。
所述方法可另外包括针对每一对象方位,通过在所述对象方位的频率子频带输出信号上进行求和,产生输出信号。所述总和可为加权总和。所述对象方位可输出为对象方位元数据(例如,可产生和输出指示对象方位的对象方位元数据)。输出信号可以被称作对象信号或对象通道。可在每一预定时间段内(例如,战每一时间块,或时间-频率变换的每一变换窗内)执行上述处理。
通常,用于从空间格式到基于对象的格式的格式转换的已知方法当提取与主方向集相关联的音频对象信号时应用宽频带方法。相比之下,所提议的方法应用用于确定音频对象信号的基于子频带的方法。如此配置的所提议方法可提供每子频带的明确平移/控制决策。进而,可达成音频对象方向的增加的离散性,且在所得音频对象中存在较小“拖尾(smearing)”。举例来说,在确定主方向(可能地使用宽频带方法或使用基于子频带的方法)之后,结果可能是特定音频对象在第一频率子频带中平移到一个主方向,但在第二频率子频带平移到另一主方向。音频对象在不同子频带中的此不同平移行为不被已知用于格式转换的方法捕获,其代价为减小的方向离散性和增加的拖尾。
在一些实例中,对象方位的混频增益可为频率相依的。
在一些实例中,空间格式可定义多个通道。接着,空间映射函数可为用于从空间格式的多个通道提取给定方位处的音频信号的空间格式的空间解码函数。举例来说,在给定方位处意味着从给定方位入射。
在一些实例中,空间格式的空间平移函数可为用于将源方位处的源信号映射到由空间格式定义的多个通道的函数。举例来说,在源方位处应意味着从源方位入射。映射可以被称作平移。空间解码函数可定义成使得空间平移函数和空间解码函数的连续应用产生单位球面上的所有方位的单位增益。空间解码函数可进一步定义成使得平均解码功率最小化。
在一些实例中,确定给定频率子频带和给定对象方位的混频增益可基于给定对象方位和给定频率子频带中的输入音频信号的协方差矩阵。
在一些实例中,给定频率子频带和给定对象方位的混频增益可取决于在给定对象方位处评估的给定频率子频带中的输入音频信号的控制函数。
在一些实例中,控制函数可基于给定频率子频带中的输入音频信号的协方差矩阵。
在一些实例中,确定给定频率子频带和给定对象方位的混频增益可进一步基于给定对象方位随时间的变化率。混频增益可取决于给定对象方位的变化率而衰减。举例来说,混频增益可在变化率为高的情况下衰减,并且可针对静态对象方位不衰减。
在一些实例中,针对每一频率子频带并且针对每一对象方位,产生频率子频带输出信号可涉及将增益矩阵和空间解码矩阵应用于输入音频信号。可依次应用增益矩阵和空间解码矩阵。增益矩阵可包含所确定的所述频率子频带的混频增益。举例来说,增益矩阵可为对角矩阵,具有经适当地排序的混频增益作为其对角元素。空间解码矩阵可包含多个映射向量,每一对象方位一个映射向量。可通过评估相应对象方位处的空间解码函数获得每一映射向量。举例来说,空间解码函数可为向量值函数(例如,在多通道空间格式输入音频信号定义为ns×1列向量的情况下产生1×ns行向量,)。
在一些实例中,所述方法可另外包含将多个输出信号重新编码成空间格式以获得多通道空间格式音频对象信号。所述方法可另外包括从所述输入音频信号减去所述音频对象信号以获得多通道空间格式残余音频信号。空间格式残余信号可与输出信号和方位元数据(如果存在的话)一起输出。
在一些实例中,所述方法可另外包含将降混应用于残余音频信号以获得经降混残余音频信号。所述经降混残余音频信号的通道的数目可小于所述输入音频信号的通道的数目。经降混空间格式残余信号可与输出信号和方位元数据(如果存在的话)一起输出。
在一些实例中,分析输入音频信号可涉及针对每一频率子频带,确定一或多个主声音到达方向的集。分析输入音频信号可另外涉及确定确定多个频率子频带的一或多个主方向的集的并集。分析输入音频信号可另外涉及将集群算法应用于所述集的并集以确定多个对象方位。
在一些实例中,确定主声音到达方向集可涉及以下中的至少一个:从频率子频带中的输入音频信号的协方差矩阵提取元素,以及确定频率子频带中的输入音频信号的投影函数的局部最大值。投影函数可基于输入音频信号的协方差矩阵和空间格式的空间平移函数。
在一些实例中,每一主方向可具有相关联权重。接着,集群算法可执行主方向的加权集群。每一权重可指示例如其主方向的置信度值。置信度值可指示音频对象是否实际上位于对象方位处的可能性。
在一些实例中,集群算法可为k均值算法、经加权k均值算法、期望最大化算法和经加权均值算法中的一个。
在一些实例中,所述方法可另外包含产生指示对象方位的对象方位元数据。对象方位元数据可与输出信号和(经降混)空间格式残余信号(如果存在的话)一起输出。
本文献的另一方面涉及一种用于处理多通道空间格式输入音频信号的设备。所述设备可包含处理器。所述处理器可适于分析分析输入音频信号以确定包含在所述输入音频信号中的音频对象的多个对象方位。所述处理器可另外适于对于所述输入音频信号的多个频率子频带中的每一个,针对每一对象方位,确定所述频率子频带和所述对象方位的混频增益。所述处理器可另外适于对于每一频率子频带中,针对每一对象方位,基于输入音频信号、所述频率子频带和所述对象方位的混频增益以及空间格式的空间映射函数,产生频率子频带输出信号。所述处理器可另外适于针对每一对象方位,通过在所述对象方位的频率子频带输出信号上进行求和,产生输出信号。所述设备可另外包括耦合到处理器的存储器。所述存储器可存储供处理器执行的相应指令。
本文献的另一方面涉及软件程序。所述软件程序可适于在处理器上执行且当在计算装置上实施时适于执行本文献中概述的方法步骤。
本文献的另一方面涉及存储媒体。所述存储媒体可包括适于在处理器上执行且当在处理器上实施时适于执行本文献中概述的方法步骤的软件程序。
本文献的另一方面涉及计算机程序产品。所述计算机程序可包含当在计算机上执行时执行本文献中概述的方法步骤的可执行指令。
本文献的另一方面涉及一种用于处理多通道空间音频格式输入信号的方法,所述方法包括基于所接收的空间音频格式输入信号确定对象方位元数据;和基于所接收的空间音频格式输入信号提取对象音频信号。所述基于所接收的空间音频格式输入信号提取对象音频信号包含确定对象音频信号和残余音频信号。
每一提取的音频对象信号可具有对应的对象方位元数据。对象方位元数据可指示对象的到达方向。对象方位元数据可从所接收的空间音频格式输入信号的统计数据导出。所述对象方位元数据可随时间改变。基于所接收的空间音频格式输入信号的数个子频带中的每一个中的线性混频矩阵来确定对象音频信号。残余信号可为多通道残余信号,所述多通道残余信号可由小于所接收的空间音频格式输入信号的通道的数目的数个通道组成。
提取对象音频信号可通过从所述空间音频格式输入信号减去所述对象音频信号的作用来确定的。提取对象音频信号还可包含确定可供后续处理以产生一或多个对象音频信号和残余信号的线性混频矩阵系数。矩阵系数可针对每一频率频带是不同的。
本文献的另一方面涉及一种用于处理多通道空间音频格式输入信号的设备,所述设备包括用于基于所接收的空间音频格式输入信号确定对象方位元数据的处理器;和基于所接收的空间音频格式输入信号提取对象音频信号的提取器,其中所述基于所接收的空间音频格式输入信号提取对象音频信号包含确定对象音频信号和残余音频信号。
应注意,如本专利申请案中所概述的包括其实施例的方法和系统可单独或与本文献中所公开的其它方法和系统组合使用。此外,本专利申请案中概述的方法和系统的所有方面可任意组合。特定来说,权利要求书的特征可以任意方式彼此组合。
附图说明
参考附图在下文以示范性方式解释本发明,其中
图1说明示范性概念框图,其说明本发明的一方面;
图2说明示范性概念框图,其说明本发明的与频域变换有关的一方面;
图3说明频域频带化增益bandb(f)的示范性图式;
图4说明用于协方差计算的时间窗winb(k)的示范性图式;
图5示出用于将空间音频格式(例如,立体混响、HOA或B格式)转换成基于对象的音频格式(例如,杜比全景声格式)的示范性方法的流程图。
图6示出用于将空间音频格式转换成基于对象的音频格式的方法的另一实例的流程图;
图7是实施图6的方法的步骤的方法的实例的流程图;和
图8是可结合图6的方法执行的方法的实例的流程图。
具体实施方式
图1说明示范性概念框图其说明本发明的示范性系统100。系统100包含ns通道空间音频格式101,其可为由系统100接收的输入。空间音频格式101可为B格式、立体混响格式或HOA格式。系统100的输出可包含:
●no音频输出通道,表示no个音频对象;
●方位数据,指定no个对象的时变方位;
●nr个残余音频信道的集,表示移除no对象的原始声场。
系统100可包含用于确定对象方位的第一处理块102和用于提取对象音频信号的第二处理块103。块102可被配置成包含用于在有规律的时刻(由时间间隔τm定义),分析空间音频信号101并确定数目(no)的对象方位的处理。即,所述处理可在每一预定时间段内执行。
举例来说,通过3向量给出在时间t=kτm的对象方位o(1≤o≤no):
取决于应用(例如,针对平面配置),可通过2个向量给出在时间t=kτm的对象方位o(1≤o≤no)。
块102可输出对象方位元数据111并且可将对象方位信息提供到块103以用于进一步处理。
块103可被配置成包含用于处理空间音频信号(输入音频信号)101以提取表示no个音频对象(具有由定义的方位,其中1≤o≤no)的no个音频信号(输出信号、对象信号或对象通道)112的处理。还提供nr通道残余音频信号(空间格式残余音频信号或经降混空间格式残余音频信号)113作为此第二阶段的输出。
图2说明示范性概念框图,其说明本发明的与频域变换有关的一方面。在优选实施例中,在频域中(例如,通过使用经CQMF变换信号)处理输入和输出音频信号。图2中示出的变量可定义如下:
索引:
i∈[1,ns]=输入通道数目 (1)
o∈[1,no]=输出通道数目 (2)
r∈[1,nr]=输出残余通道数目 (3)
f∈[1,nf]=频率窗口(frequency bin)数目 (5)
b∈[1,nb]=频率频带数目 (6)
时域信号:
si(t)=用于通道i的输入信号 (7)
to(t)=用于对象o的输出信号 (8)
ur(t)=输出残余通道r (9)
频域信号:
Si(k,f)=用于通道i的频域输入 (10)
To(k,f)=用于对象o的频域输出 (11)
Ur(k,f)=频域输出残余通道r (12)
对象方位元数据:
Figure BDA0002329458110000061
时间频率分组:
bandb(f)=用于频带b的频率频带窗 (14)
winb(k)=针对频带b,用于协方差分析的时间窗 (15)
Cb(k)=频带b的协方差 (16)
C′b(k)=频带b的归一化协方差 (17)
pwrb(k)=频带b中的空间音频信号的总功率 (18)
Mb(k)=针对频带b用于对象创建的矩阵 (19)
Lb(k)=针对频带b用于残余通道创建的矩阵 (20)
图2示出变换到频域中和变换出频域。在此图中,示出CQMF和CQMF-1变换,但其它频域变换在所属领域中是已知的,且可在此情况下适用。而且,举例来说,滤波器组可应用于输入音频信号。
在一个实例中,图2说明包含接收输入信号(例如,多通道空间格式输入音频信号,或简称为输入音频信号)的系统200。输入信号可包含每一通道i的输入信号si(t)201。即,输入信号可包括多个通道。所述多个通道由空间格式定义。可通过输出Si(k,f)(通道i的频域输入)203的CQMF变换202将通道i的输入信号201变换到频域中。通道i的频域输入203可提供给块204和205。块204可执行类似于图1的块102的功能性并且可输出
Figure BDA0002329458110000071
(对象方位o)211。输出
Figure BDA0002329458110000072
211可为一组输出(例如,对于o=1、2、…n)。块204可将对象方位信息提供到块205以用于进一步处理。块205可执行类似于图1的块103的功能性。块205可输出To(k,f)(对象o的频域输出)212,接着可通过CQMF-1变换将To(k,f)从频域变换到时域以确定to(t)(对象o的输出信号)213。块205可进一步输出Ur(k,f)(频域输出残余通道r)214,接着可通过CQMF-1变换将Ur(k,f)从频域变换到时域以确定ur(t)(输出残余通道r)215。
以有规律的时间间隔τm执行频域变换,使得块k处的经变换信号Si(k,f)是此输入信号在围绕时间t=kτm的时间间隔内的频域表示:
Si(k,f)=CQMF{si(t-kτm)} 方程式2
在一些实施例中,对数目nb个频带执行频域处理。这通过将所述组频率窗口(f∈{1,2,…,nf})分配给nb个频带来达成。如图3中所示,此分组可经由一组nb个增益向量bandb(f)达成。在此实例中,nf=64且nb=13。
空间音频输入(输入音频信号)可定义ns个通道。在一些实施例中,通过首先计算ns个空间音频信号的协方差矩阵,分析空间音频输入。可通过图1的块102和图2的块204确定协方差矩阵。在此处描述的实例中,针对每一时间块k,计算每一频率频带(频率子频带)b中的协方差。将ns个频域输入信号布置成列向量提供:
Figure BDA0002329458110000081
作为非限制性实例,可如下计算输入音频信号的协方差(协方差矩阵):
其中■*运算符标示复共轭转置。
一般来说,块k的协方差Cb(k)是[ns×ns]矩阵,其从频域中的输入音频信号的外积:S(k′,f)×S(k′,f)*的总和(加权总和)计算。可选择加权函数(如果存在的话)winb(k-k′)和bandb(f),以便将较大权重应用于围绕频带b的频率窗口和围绕块k的时间块。
在图4中示出典型时间窗winb(k)。在此实例中,
Figure BDA0002329458110000087
从而确保协方差计算是有因果的(因此,用于块k的协方差计算仅取决于块k处或更早的频域输入信号)。
可如下计算功率和归一化协方差:
pwrb(k)=tr(Cb(k)) 方程式5
Figure BDA0002329458110000083
其中tr()标示矩阵的迹。
接下来,将描述定义输入格式和残余格式的平移函数(Panning Function)。
假设空间音频输入信号含有根据平移规则组合的听觉元素(其中元素c由平移到方位locc(t)的信号sigc(t)组成):
Figure BDA0002329458110000084
使得由平移函数PS:
Figure BDA0002329458110000085
定义空间输入格式,其取单位向量作为输入,并且产生长度ns的列向量作为输出。
一般来说,空间格式(空间音频格式)定义多个通道(例如,ns.通道)。平移函数(或空间平移函数)是用于将源方位处(例如,从源方位入射的源信号映射(平移)到如以上实例中所示由空间格式定义的多个通道的函数。在此,平移函数(空间平移函数)实施相应平移规则。类似陈述适用于下文描述的残余输出信号的平移函数(例如,平移函数PR)。
类似地,假设残余输出信号含有根据平移规则组合的听觉元素,其中平移函数PR:
Figure BDA0002329458110000086
其取单位向量作为输入,并且产生长度nr的列向量作为输出。应注意,这些平移函数PS()和PR()分别定义空间输入信号和残余输出信号的特性,但这不意味着必然根据方程式7的方法构建这些信号。在一些实施例中,残余输出信号的通道数目nr和空间输入信号的通道数目ns可为相等的,nr=ns
接下来,将描述输入解码函数。
给定空间输入格式平移函数(例如,PS:),其还适用于导出空间输入格式解码函数(空间解码函数)DS:其取单位向量作为输入,并且返回长度ns的列向量作为输出。函数DS(loc)应定义为提供适用于从多通道空间输入信号提取单个音频信号的行向量,其与围绕由loc指定的方向的音频分量对应。
一般来说,平移器/解码器组合可被配置成提供单位增益:
Figure BDA0002329458110000095
此外,可最小化平均经解码功率(在单位球面上积分):
Figure BDA0002329458110000093
举例来说,假设空间输入信号含有按照方程式10中示出的平移函数根据二阶立体混响平移规则平移的音频分量::
Figure BDA0002329458110000094
可如下确定最优解码函数DS():
解码函数DS是本公开的上下文中的空间格式的空间解码函数的实例。一般来说,空间格式的空间解码函数是用于从由空间格式定义的多个通道提取给定方位loc(例如,从给定方位入射)的音频信号的函数。空间解码函数可定义(例如,确定、计算)成使得空间平移函数(例如,PS)和空间解码函数(例如,DS)的连续应用产生单位球面上的所有方位的单位增益。空间解码函数可进一步定义(例如,确定、计算)成使得最小化平均经解码功率。
接下来,将描述控制(steering)函数。
假设空间音频输入信号由具有相应入射到达方向的多个音频分量组成,且因此需要用于通过协方差矩阵的检查,估计在特定方向上呈现的音频信号的比例的方法。下文定义的控制函数Steer可提供这类估计。
一些复杂空间输入信号将含有多个音频分量,且空间输入格式平移函数的有限空间分辨率将意味着可存在总音频输入功率的被视为“扩散”的某一分数(意味着此信号分数被视为均匀散布在所有方向上)。
因此,对于任何给定到达方向
Figure BDA0002329458110000102
需要能够做出对存在于围绕向量
Figure BDA0002329458110000105
的区中的空间音频输入信号的量的估计,不包括估计的扩散量。
函数(控制函数)
Figure BDA0002329458110000103
可定义成使得每当输入空间信号完全由方位
Figure BDA0002329458110000106
处的音频分量组成时,所述函数呈现值1.0,且当输入空间信号表现出无朝向方向
Figure BDA0002329458110000107
的偏置时,所述函数可呈现值0.0。一般来说,控制函数是基于(例如,取决于)输入音频信号的协方差矩阵C。而且,控制函数可归一化到不同于范围[0.0,1.0]的数值范围。
现在常见的是在具有归一化协方差C的声场中,通过使用投影函数,估计特定方向
Figure BDA0002329458110000108
上的功率的分数:
Figure BDA0002329458110000104
此投影函数每当归一化协方差矩阵对应于在靠近的方向上具有大信号分量的输入信号时呈现较大值。同样地,此投影函数每当归一化协方差矩阵对应于在靠近
Figure BDA0002329458110000112
的方向上无显著信号分量的输入信号时呈现较小值。
因此,此投影函数可用以通过形成从投影函数的单调映射以形成控制函数
Figure BDA0002329458110000113
估计朝方向
Figure BDA0002329458110000114
偏置的输入信号的比例。,
为了确定此单调映射,首先应针对两个假设性用例,估计函数
Figure BDA0002329458110000115
的期望值:(1)当输入信号含有扩散声场时,和(2)当输入信号在
Figure BDA0002329458110000116
的方向上含有单个声分量时。以下解释将产生如结合方程式20和21描述的基于如在以下方程式16和19中定义的DiffusePower和SteerPower的函数的定义。
给定任何输入平移函数(例如,输入平移函数PS()),有可能确定平均协方差(表示扩散声场的协方差):
可如下计算扩散声场的归一化协方差:
Figure BDA0002329458110000119
现在常见的是在具有归一化协方差C的声场中,通过使用如下投影函数,估计特定方向
Figure BDA00023294581100001110
上的功率的分数:
Figure BDA00023294581100001111
当投影应用于扩散声场时,可如下确定方向
Figure BDA00023294581100001112
附近的扩散功率:
Figure BDA00023294581100001113
通常,为实常数,(例如,
Figure BDA00023294581100001115
独立于方向),且因此可预先计算,仅从声场输入平移函数PS()和解码函数DS()的定义导出(作为空间平移函数和空间解码函数的实例)。
假设空间输入信号由位于方向
Figure BDA00023294581100001117
上的单个音频分量组成,则所得协方差矩阵是:
Figure BDA00023294581100001118
且归一化协方差是:
Figure BDA00023294581100001119
且因此,可应用proj()函数以确定SteerPower:
Figure BDA00023294581100001120
通常,
Figure BDA00023294581100001121
为实常数,且因此可预先计算,仅从声场输入平移函数PS()和解码函数DS()的定义导出(作为空间平移函数和空间解码函数的实例)。
通过计算经缩放投影函数
Figure BDA0002329458110000121
以及因此控制函数
Figure BDA0002329458110000122
形成对输入空间信号含有来自方向的主导信号的程度的估计:
Figure BDA0002329458110000124
Figure BDA0002329458110000125
一般来说,控制函数
Figure BDA0002329458110000126
每当输入空间信号完全由方位
Figure BDA0002329458110000127
处的音频分量组成时呈现值1.0,且当输入空间信号表现出无朝方向
Figure BDA0002329458110000128
的偏置时呈现值0.0。如上所述,控制函数可归一化到不同于范围[0.0,1.0]的数值范围。
在一些实施例中,当空间输入格式是由平移函数定义的一阶立体混响格式时:
Figure BDA0002329458110000129
且适合的解码函数是:
则Steer()函数可定义为:
Figure BDA00023294581100001211
接下来,将描述残余格式。
在一些实施例中,残余输出信号可依据与空间输入格式相同的空间格式定义(使得平移函数是相同的:
Figure BDA00023294581100001212
可通过图1的块103和图2的块205确定残余输出信号。在此情况下,残余通道的数目等于输入通道的数目:nr=ns。此外,在此情况下,可定义残余降混矩阵:
Figure BDA00023294581100001213
单位矩阵)。
在一些实施例中,残余输出信号与空间输入信号相比由较小数目个通道组成:nr<ns。在此情况下,定义残余格式的平移函数不同于空间输入平移函数。另外,需要形成[nr×ns]降混矩阵R,其适用于将ns通道空间输入信号转换成nr通道残余输出通道。
优选地,R可经选择以提供从PS()到PR()的线性变换(作为空间格式和残余格式的空间平移函数的实例):
Figure BDA00023294581100001214
依据方程式25的矩阵R的实例是在空间输入格式是三阶立体混响且残余格式是一阶立体混响的情况下适用的残余降混矩阵:
Figure BDA0002329458110000131
替代地,R可经选择以提供“最小误差”映射。举例来说,给定大致均匀散布在单位球面上的nb单位向量的集
Figure BDA0002329458110000132
可通过使nb列向量堆叠在一起形成一对矩阵:
Figure BDA0002329458110000133
Figure BDA0002329458110000134
其中BS是空间输入平移向量的[ns×nb]矩阵,且BR是残余输出平移向量的[nr×nb]矩阵。
通过下式给出对残余降混矩阵R的适合选择:
Figure BDA0002329458110000135
其中
Figure BDA0002329458110000136
指示BS矩阵的伪逆。
接下来,将参考图6描述根据本公开的实施例处理多通道空间格式输入音频信号的方法600的实例。所述方法可使用上文所描述的概念中的任一个。举例来说,方法600的处理可在每一时间块k处执行。即,方法600可在每一预定时间段内(例如,在时间-频率变换的每一变换窗内)执行。多通道空间格式输入音频信号可为空间格式(空间音频格式)的音频信号并且可包括多个通道。空间格式(空间音频格式)可为但不限于立体混响、HOA或B格式。
在步骤S610处,分析输入音频信号以确定包含在输入音频信号中的音频对象的多个对象方位。举例来说,可确定no个对象(o∈[1,no])的方位
Figure BDA0002329458110000137
这可涉及执行输入音频信号的场景分析。此步骤可由基于子频带的方法和宽频带方法中的任一种执行。
在步骤S620处,对于输入音频信号的多个频率子频带中的每一个,且对于每一对象方位,确定所述频率子频带和所述对象方位的混频增益。在此步骤之前,所述方法可另外包含将时间-频率变换应用于时域输入音频信号的步骤。
在步骤S630处,对于每一频率子频带,且对于每一对象方位,基于输入音频信号、所述频率子频带和所述对象方位的混频增益以及空间格式的空间映射函数,产生频率子频带输出信号。空间映射函数可为空间解码函数(例如,空间解码函数PS)。
在步骤S640处,对于每一对象方位,通过在所述对象方位的频率子频带输出信号上进行求和,产生输出信号。此外,对象方位可输出为对象方位元数据。因此,此步骤可另外包括产生指示对象方位的对象方位元数据。对象方位元数据可与输出信号一起输出。所述方法可另外包含将逆时间-频率变换应用于频域输出信号的步骤。
现将参考图7描述可用于步骤S610处的输入音频信号的分析(即,对象方位的确定)的处理的非限制性实例。举例来说,此处理可由图1的块102和图2的204执行。本发明的目标是确定声场内的主音频对象的方位(如由围绕t=kτm的时间处的空间音频输入信号si(t)表示)。此过程可由简写名称DOL指代,且在一些实施例中,此过程通过步骤DOL1、DOL2和DOL3达成(例如,在每一时间块k处)。
在步骤S710处,对于每一频率子频带,确定一或多个主声音到达方向的集。这可涉及执行下文描述的过程DOL1。
DOL1:对于每一频带b,确定主声音到达方向
Figure BDA0002329458110000142
的集vb。每一主声音到达方向可具有相关联的加权因子wb,j,其指示指配给相应方向向量的“置信度”:
Figure BDA0002329458110000143
第一步骤(1)DOL1可通过数种不同的方法来达成。一些替代方案例如:
DOL1(a):
●所属领域中已知的MUSIC算法(参见例如Schmidt,R.O的“多个发射体方位和信号参数估计(Multiple Emitter Location and Signal Parameter Estimation)”,IEEETrans.Antennas Propagation,第AP-34卷(1986年3月),第276-280页)可用以确定数个主到达方向
Figure BDA0002329458110000144
DOL1(b):对于一些普遍使用的空间格式,可从协方差矩阵的元素确定单个主到达方向。在一些实施例中,当空间输入格式是由平移函数定义的一阶立体混响格式时,
Figure BDA0002329458110000145
接着可针对频带b中的主到达方向,通过从协方差矩阵提取三个元素,并且接着进行归一化以形成单位向量,以进行估计:
Figure BDA0002329458110000146
DOL1(b)的处理据称可涉及从相关频率子频带中的输入音频信号的协方差矩阵提取元素的实例。
DOL1(c):可通过找到投影函数的所有局部最大值来确定频带b的主到达方向:
Figure BDA0002329458110000147
可用以搜索局部最小值的一个实例方法通过以下步骤操作:以梯度搜索方法细化初始估计值以便使的值最大化。可通过以下操作找到初始估计值:
-选择数个随机方向作为始点,
-取来自前一时间块k-1的主方向(针对此频带b)中的每一个作为始点
因此,确定主声音到达方向集可涉及以下操作中的至少一个:从相关频率子频带中的输入音频信号的协方差矩阵提取元素,以及确定频率子频带中的输入音频信号的投影函数的局部最大值。投影函数可基于例如输入音频信号的协方差矩阵(例如,归一化协方差矩阵)和空间格式的空间平移函数。
在步骤S720处,确定多个频率子频带的一或多个主方向的集的并集。这可涉及执行下文描述的过程DOL2。
DOL2:从一系列主声音到达方向形成所有频带的主声音到达方向集的并集:
v=Ubvb 方程式34
上文概述的方法(DOL1(a)、DOL1(b)和DOL1(c))可用以确定频带b的主声音到达方向
Figure BDA0002329458110000152
的集。对于这些中的每一个,可确定对应的“置信度因子”(wb,1、wb,2),其指示应给予每一主声音到达方向多少加权。
在最一般的情况下,可如下通过将数个因子组合在一起,计算加权:
Figure BDA0002329458110000153
在方程式35中,函数WeightL()提供响应于时间块k处的频带b中的输入信号的功率的“响度”加权因子。举例来说,可使用频带b中的音频信号的特定响度的近似值:
WeightL(x)=x0.3 方程式36
同样地,在方程式35中,函数Steer()提供响应于输入信号在方向
Figure BDA0002329458110000154
上含有功率的度的“定向控制”加权因子。
对于每一频带b,定义主声音到达方向
Figure BDA0002329458110000155
和其相关联的权重(wb,1、wb,2)(依据算法步骤DOL1)。接下来,依据算法步骤DOL2,将所有频带的方向和权重组合到一起以形成方向和权重的单个集(分别被称为
Figure BDA0002329458110000156
和w′j):
Figure BDA0002329458110000157
在步骤S730处,将集群算法应用于所述集的并集以确定多个对象方位。这可涉及执行下文描述的过程DOL3。
DOL3:从经加权主声音到达方向集确定no对象方向:
Figure BDA0002329458110000158
算法步骤DOL3接着确定数目的对象方位。这可通过集群算法达成。如果主方向具有相关联的权重,那么集群算法可执行主方向的经加权集群。用于DOL3的一些替代性方法例如:
DOL3(a)经加权k均值算法(例如由Steinley,Douglas.的“k均值集群:半世纪合成(K-means clustering:A half-century synthesis.)”(British Journal ofMathematical and Statistical Psychology 59.1(2006):1-34))所描述)可用以通过将方向的集集群成no子集,找到no质心的集
Figure BDA0002329458110000161
根据下式,接着归一化和置换此质心集以产生对象方位集
Figure BDA0002329458110000162
Figure BDA0002329458110000163
其中执行置换perm()以便最小化块到块的对象位置改变:
Figure BDA0002329458110000164
DOL3(b)可使用其它集群算法,例如期望最大化
DOL3(c)在特殊情况下,当no=1时,可使用主声音到达方向的经加权均值:
Figure BDA0002329458110000165
且接着进行归一化:
Figure BDA0002329458110000166
因此,S730步骤中的集群算法可为例如k均值算法、经加权k均值算法、期望最大化算法和经加权均值算法中的一个。
图8是可任选地结合图6的方法600例如在步骤S640之后执行的方法800的实例的流程图。
在步骤S810处,将多个输出信号重新编码成空间格式以获得多通道空间格式音频对象信号。
在步骤S820处,从输入音频信号减去音频对象信号以获得多通道空间格式残余音频信号。
在步骤S830处,将降混应用于残余音频信号以获得经降混残余音频信号。其中,经降混残余音频信号的通道的数目可小于输入音频信号的通道的数目。步骤S830可为任选的。
接下来描述与对象音频信号的提取有关的可用于实施步骤S620、S630和S640的处理。此处理可由例如图1的块103和图2的205执行/在例如图1的块103和图2的205处执行。DOL过程(上文所描述的DOL1到DOL3)确定每一时间块k处的no对象(o∈[1,no])的方位
Figure BDA0002329458110000171
基于这些对象方位,处理空间音频输入信号(例如,在块103或205处)以形成no对象输出信号和nr残余输出信号的集。此过程可由简写名称EOS指代,且在一些实施例中,此过程(例如,在每一时间块k处)通过步骤EOS1到EOS6达成:
EOS1:通过堆叠no行向量,确定[no×ns]对象解码矩阵:
Figure BDA0002329458110000172
对象解码矩阵D是空间解码矩阵的实例。一般来说,空间解码矩阵包含多个映射向量(例如,向量
Figure BDA0002329458110000173
),每一对象方位一个映射向量。可通过评估相应对象方位处的空间解码函数,获得这些映射向量中的每一个。空间解码函数可为向量值函数(例如,多通道空间格式输入音频信号的1×ns行向量定义为ns×1列向量)
Figure BDA0002329458110000174
EOS2:通过堆叠no列向量,确定[ns×no]对象编码矩阵:
Figure BDA0002329458110000175
对象编码矩阵E是空间平移矩阵的实例。一般来说,空间平移矩阵包含多个映射向量(例如,向量
Figure BDA0002329458110000176
),每一对象方位一个映射向量。可通过评估相应对象方位处的空间平移函数,获得这些映射向量中的每一个。空间平移函数可为向量值函数(例如,多通道空间格式输入音频信号的ns×1列向量定义为ns×1列向量)
Figure BDA0002329458110000177
EOS3:对于每一频带b∈[1,nb],且对于每一输出对象o∈[1,no],确定对象增益gb,o,其中0≤gb,o≤1。这些对象或混频增益可为频率相依的。在一些实施例中:
布置这些对象增益系数以形成对象增益矩阵Gb(这是no×no]对角矩阵):
Figure BDA0002329458110000179
对象增益矩阵Gb在下文中可以被称作增益矩阵。此增益矩阵包含所确定的频率子频带b的混频增益。更详细地,对角矩阵具有混频增益(每一对象方位一个混频增益,经适当地排序)作为其对角元素。
因此,过程EOS3针对每一频率子频带且针对每一对象方位,确定所述频率子频带和所述对象方位的混频增益(例如,频率相依性混频增益)。因而,过程EOS3是上文所描述的方法600的步骤S620的实施方案的实例。一般来说,确定给定频率子频带和给定对象方位的混频增益可基于给定对象方位和给定频率子频带中的输入音频信号的协方差矩阵(例如,归一化协方差矩阵)。对协方差矩阵的相依性可通过控制函数
Figure BDA0002329458110000181
其基于(例如取决于)输入音频信号的协方差矩阵C(或归一化协方差矩阵C′)。即,给定频率子频带和给定对象方位的混频增益可取决于在给定对象方位处评估的给定频率频带中的输入音频信号的控制函数。
EOS4通过将对象解码矩阵和对象增益矩阵应用于空间输入信号S(k,f),并且通过在频率子频带b上进行求和,计算频域对象输出信号T(k,f):
Figure BDA0002329458110000182
(参考用于定义S(k,f)的方程式第3号)。频域对象输出信号T(k,f)可以被称作频率子频带输出信号。所述总和可为例如加权总和。
过程EOS4是上文所描述的方法600的步骤S630和S640的实施方案的实例。
一般来说,在步骤S630处产生频率子频带和对象方位的频率子频带输出信号可涉及将增益矩阵(例如,矩阵Gb)和空间解码矩阵(例如,矩阵D)应用于输入音频信号。其中,可依次应用增益矩阵和空间解码矩阵。
EOS5:通过重新编码对象输出信号T(k,f),并且从空间输入减去此经重新编码信号,计算频域残余空间信号:
S′(k,f)=S(k,f)-E×T(k,f) 方程式49
确定[nr×ns]残余降混矩阵R(例如,经由方程式29的方法),并且计算经由此残余降混矩阵变换残余空间信号的频域残余输出信号:
Figure BDA0002329458110000183
因而,过程EOS5是上文所描述的方法800的步骤S810、S820和S830的实施方案的实例。将多个输出信号重新编码成空间格式因此可基于空间平移矩阵(例如,矩阵E)。举例来说,将多个输出信号重新编码成空间格式可涉及将空间平移矩阵(例如,矩阵E)应用于多个输出信号的向量。将降混应用于残余音频信号(例如,S')可涉及将降混矩阵(例如,降混矩阵R)应用于残余音频信号。
EOS过程中的第一个2步骤EOS1和EOS2涉及矩阵系数的计算,其适用于(使用D矩阵)从空间音频输入提取对象音频信号,并且(使用E矩阵)将这些对象往回重新编码成空间音频格式。通过使用PS()和DS()函数形成这些矩阵。在方程式10和11中给出这些函数的实例(针对其中输入空间音频格式是二阶立体混响的情况)。
可以数种方式实施EOS3步骤。一些替代性方法是:
EOS3(a):可使用方程式51的方法计算对象增益(gb,o:o∈[1,no]):
Figure BDA0002329458110000191
在此实施例中,Steer()函数用以指示空间输入信号存在于方向
Figure BDA0002329458110000192
上的比例。
进而,可确定(例如,计算)每一频率子频带和每一对象方位的混频增益(例如,频率相依混频增益)。一般来说,确定给定频率子频带和给定对象方位的混频增益可基于给定对象方位和给定频率子频带中的输入音频信号的协方差矩阵(例如,归一化协方差矩阵)。对协方差矩阵的相依性可通过控制函数
Figure BDA0002329458110000193
其基于(例如取决于)输入音频信号的协方差矩阵C(或归一化协方差矩阵C′)。即,给定频率子频带和给定对象方位的混频增益可取决于在给定对象方位处评估的给定频率频带中的输入音频信号的控制函数。
EOS3(b):一般来说,确定给定频率子频带和给定对象方位的混频增益可进一步基于给定对象方位随时间的变化率。举例来说,混频增益可取决于给定对象方位的变化率而衰减。
换句话说,可通过组合数个增益因子(其中的每一个通常是范围[0,1]内的实值)计算对象增益。举例来说:
Figure BDA0002329458110000194
其中
Figure BDA0002329458110000195
Figure BDA0002329458110000196
每当对象方位是静态的
Figure BDA0002329458110000197
)时计算为近似等于1,且当对象方位在围绕时间块k的区中显著“跳转”时(举例来说,对于某一阈值α,当
Figure BDA0002329458110000198
Figure BDA0002329458110000199
时)计算为近似等于0的增益因数。
增益因子
Figure BDA00023294581100001910
既定每当对象方位快速改变时衰减对象振幅,所述对象方位快速改变可当在其中在时间块k-1期间不存在对象的方位中在时间块k“呈现”新对象时发生。
在一些实施例中,通过首先计算跳变值,计算
Figure BDA00023294581100001911
Figure BDA00023294581100001912
且接着计算
Figure BDA00023294581100001913
Figure BDA00023294581100001914
在一些实施例中,α的适合值是0.5,一般来说,选择α以使得0.05<α<1。
图5说明根据当前原理的示范性方法500。方法500包含在501处接收空间音频信息。所述空间音频信息可与图1中示出的ns通道空间音频格式101和图2中示出的si(t)(针对通道i的输入信号)201一致。在502处,可基于所接收到的空间音频信息确定对象方位。举例来说,可如结合图1中示出的块102和图2中示出的块204所描述确定对象方位。块502可输出对象方位元数据504。对象方位元数据504可类似于图1中示出的对象方位元数据111和图2中示出的
Figure BDA0002329458110000201
(对象方位o)211。
在503处,可基于所接收到的空间音频信息提取对象音频信号。举例来说,可如结合图1中示出的块103和图2中示出的块205所描述提取对象音频信号。块503可输出对象音频信号505。对象音频信号505可类似于图1中示出的对象音频信号112和图2中示出的对象o的输出信号213。块503可进一步输出残余音频信号506。残余音频信号506可类似于图1中示出的残余音频信号113和图2中示出的输出残余通道r 215。
上文已描述处理多通道空间格式输入音频信号的方法。应理解,本公开同样涉及用于处理多通道空间格式输入音频信号的设备。所述设备可包括适于执行上文所描述的过程中(例如方法600、700和800的步骤以及其相应实施方案DOL1到DOL3和EOS1到EOS5)的任一个的处理器。这类设备可另外包括耦合到处理器的存储器,所述存储器存储供处理器执行的相应指令。
本公开中所描述的实施方案的各种修改对所属领域的技术人员可以是显而易见的。在不脱离本公开的精神或范围的情况下,本文中所定义的一般原理可应用于其它实施方案。因此,权力要求书并不希望限于本文中所展示的实施方案,而应符合与本公开、本文所公开的原理和新颖特征相一致的最广泛范围。
本文献中描述的方法和系统可实施为软件、固件和/或硬件。某些组件可例如实施为在数字信号处理器或微处理器上运行的软件。其它组件可例如实施为硬件和/或实施为专用集成电路。所描述的方法和系统中遇到的信号可存储于如随机存取存储器或光学存储媒体的媒体上。所述信号可经由例如无线电网络、卫星网络、无线网络或有线网络(例如因特网)等网络传送。利用本文献中描述的方法和系统的典型装置是用于存储和/或再现音频信号的便携式电子装置或其它消费者设备。
在下文列出的枚举性实例实施例(EEE)中概述本发明的进一步的实施实例。
第一EEE涉及一种用于处理多通道空间音频格式输入信号的方法。所述方法包括基于所接收的空间音频格式输入信号确定对象方位元数据,和基于所述所接收的空间音频格式输入信号提取对象音频信号。所述基于所接收的空间音频格式输入信号提取对象音频信号包含确定对象音频信号和残余音频信号。
第二EEE涉及根据第一EEE的方法,其中每一提取的音频对象信号具有对应的对象方位元数据。
第三EEE涉及根据第一或第二EEE的方法,其中对象方位元数据指示对象的到达方向。
第四EEE涉及根据第一到第三EEE中的任一个的方法,其中对象方位元数据是从所接收的空间音频格式输入信号的统计数据导出。
第五EEE涉及根据第一到第四EEE中的任一个的方法,其中所述对象方位元数据随时间改变。
第六EEE涉及根据第一到第五EEE中的任一个的方法,其中基于所接收的空间音频格式输入信号的数个子频带中的每一个中的线性混频矩阵来确定所述对象音频信号。
第七EEE涉及根据第一到第六EEE中的任一个的方法,其中所述残余信号是多通道残余信号。
第八EEE涉及根据第七EEE的方法,其中所述多通道残余信号是由小于所接收的空间音频格式输入信号的通道的数目的数个通道组成。
第九EEE涉及根据第一到第八EEE中的任一个的方法,其中提取对象音频信号是通过从所述空间音频格式输入信号减去所述对象音频信号的作用来确定的。
第十EEE涉及根据第一到第九EEE中的任一个的方法,其中提取对象音频信号包含确定可供后续处理以产生一或多个对象音频信号和残余信号的线性混频矩阵系数。
第十一EEE涉及根据第一到第十EEE中的任一个的方法,其中所述矩阵系数针对每一频率频带是不同的。
第十二EEE涉及一种用于处理多通道空间音频格式输入信号的设备。所述设备包括用于基于所接收的空间音频格式输入信号确定对象方位元数据的处理器和用于基于所述所接收的空间音频格式输入信号提取对象音频信号的提取器。所述基于所接收的空间音频格式输入信号提取对象音频信号包含确定对象音频信号和残余音频信号。

Claims (21)

1.一种用于处理多通道空间格式输入音频信号的方法,所述方法包括
基于所述输入音频信号确定对象方位;和
基于所述所确定的对象方位,从所述输入音频信号提取对象音频信号,
其中所述确定对象方位包括针对数个频率子频带中的每一个,确定一或多个主声音到达方向。
2.根据权利要求1所述的方法,其中所述基于所述所确定的对象方位从所述输入音频信号提取对象音频信号包括:
对于所述输入音频信号的所述数个频率子频带中的每一个,针对每一对象方位,确定所述频率子频带和所述对象方位的混频增益;
对于所述数个频率子频带中的每一个,针对每一对象方位,基于所述输入音频信号、所述频率子频带和所述对象方位的所述混频增益以及所述空间格式的空间映射函数,产生频率子频带输出信号;和
针对每一对象方位,通过在所述对象方位的所述频率子频带输出信号上进行求和,产生输出信号。
3.根据权利要求2所述的方法,其中所述对象方位的所述混频增益是频率相依的。
4.根据权利要求2或3所述的方法,
其中所述空间格式定义多个通道;且
所述空间映射函数是所述空间格式的空间解码函数,其用于从所述空间格式的所述多个所述通道提取给定方位处的音频信号。
5.根据权利要求4所述的方法,
其中所述空间格式的空间平移函数是用于将源方位处的源信号映射到由所述空间格式定义的所述多个通道的函数;且
所述空间解码函数定义成使得所述空间平移函数和所述空间解码函数的连续应用产生单位球面上的所有方位的单位增益。
6.根据权利要求2所述的方法,其中确定给定频率子频带和给定对象方位的所述混频增益是基于所述给定对象方位和所述给定频率子频带中的所述输入音频信号的协方差矩阵。
7.根据权利要求6所述的方法,其中所述给定频率子频带和所述给定对象方位的所述混频增益取决于在所述给定对象方位处评估的所述给定频率子频带中的所述输入音频信号的控制函数。
8.根据权利要求7所述的方法,其中所述控制函数是基于所述给定频率子频带中的所述输入音频信号的协方差矩阵。
9.根据权利要求6到8中任一权利要求所述的方法,其中确定所述给定频率子频带和所述给定对象方位的所述混频增益进一步基于所述给定对象方位随时间的变化率,其中所述混频增益取决于所述给定对象方位的所述变化率而衰减。
10.根据权利要求2所述的方法,其中针对每一频率子频带并且针对每一对象方位,产生所述频率子频带输出信号涉及:
将增益矩阵和空间解码矩阵应用于所述输入音频信号,其中所述增益矩阵包含所述频率子频带的所述所确定的混频增益;且
所述空间解码矩阵包含多个映射向量,其中每一对象方位一个映射向量,其中通过评估相应对象方位处的所述空间解码函数获得每一映射向量。
11.根据权利要求1所述的方法,其另外包括:
将所述多个输出信号重新编码成所述空间格式以获得多通道空间格式音频对象信号;和
从所述输入音频信号减去所述音频对象信号以获得多通道空间格式残余音频信号。
12.根据权利要求11所述的方法,其另外包括:
将降混应用于所述残余音频信号以获得经降混残余音频信号,其中所述经降混残余音频信号的通道的数目小于所述输入音频信号的通道的数目。
13.根据权利要求1所述的方法,其中所述确定对象方位另外包括:
确定所述数个频率子频带的主声音到达方向集的并集;和
将集群算法应用于所述并集以确定所述多个对象方位。
14.根据权利要求13所述的方法,其中确定所述主声音到达方向集涉及以下中的至少一个:
从所述频率子频带中的所述输入音频信号的协方差矩阵提取元素;和
确定所述频率子频带中的所述音频输入信号的投影函数的局部最大值,其中所述投影函数是基于所述音频输入信号的所述协方差矩阵和所述空间格式的空间平移函数。
15.根据权利要求13或14所述的方法,其中每一主方向具有相关联权重;且
所述集群算法执行所述主方向的加权集群。
16.根据权利要求13到15中任一权利要求所述的方法,其中所述集群算法是以下各项中的一个:
k均值算法、经加权k均值算法、期望最大化算法和经加权均值算法。
17.根据权利要求1到16中任一权利要求所述的方法,其另外包括:
产生指示所述对象方位的对象方位元数据。
18.根据前述权利要求中任一权利要求所述的方法,其中基于所述所接收的空间音频格式输入信号的所述数个子频带中的每一个中的线性混频矩阵来确定所述对象音频信号。
19.根据权利要求18所述的方法,其中矩阵系数针对每一频率频带是不同的。
20.根据前述权利要求中任一权利要求所述的方法,其中提取对象音频信号是通过从所述输入音频信号减去所述对象音频信号的作用来确定的。
21.一种用于处理多通道空间格式输入音频信号的设备,所述设备包括适于进行以下操作的处理器:
分析所述输入音频信号以确定包含在所述输入音频信号中的音频对象的多个对象方位,其中所述分析包括针对数个频率子频带中的每一个,确定一或多个主声音到达方向;
对于所述输入音频信号的所述数个频率子频带中的每一个,针对每一对象方位,确定所述频率子频带和所述对象方位的混频增益;
对于所述数个频率子频带中的每一个,针对每一对象方位,基于所述输入音频信号、所述频率子频带和所述对象方位的所述混频增益以及所述空间格式的空间映射函数,产生频率子频带输出信号;和
针对每一对象方位,通过在所述对象方位的所述频率子频带输出信号上进行求和,产生输出信号。
CN201880041822.0A 2017-05-09 2018-05-02 多通道空间音频格式输入信号的处理 Active CN110800048B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762503657P 2017-05-09 2017-05-09
US62/503,657 2017-05-09
EP17179315.1 2017-07-03
EP17179315 2017-07-03
US201762598068P 2017-12-13 2017-12-13
US62/598,068 2017-12-13
PCT/US2018/030680 WO2018208560A1 (en) 2017-05-09 2018-05-02 Processing of a multi-channel spatial audio format input signal

Publications (2)

Publication Number Publication Date
CN110800048A true CN110800048A (zh) 2020-02-14
CN110800048B CN110800048B (zh) 2023-07-28

Family

ID=62111278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041822.0A Active CN110800048B (zh) 2017-05-09 2018-05-02 多通道空间音频格式输入信号的处理

Country Status (4)

Country Link
US (1) US10893373B2 (zh)
EP (1) EP3622509B1 (zh)
JP (1) JP7224302B2 (zh)
CN (1) CN110800048B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3990937A1 (en) * 2019-07-24 2022-05-04 Huawei Technologies Co., Ltd. Apparatus for determining spatial positions of multiple audio sources
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102508815B1 (ko) * 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101133441A (zh) * 2005-02-14 2008-02-27 弗劳恩霍夫应用研究促进协会 音源的参数联合编码
CN101341793A (zh) * 2005-09-02 2009-01-07 Lg电子株式会社 从立体声信号产生多声道音频信号的方法
CN101473645A (zh) * 2005-12-08 2009-07-01 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
US20100114582A1 (en) * 2006-12-27 2010-05-06 Seung-Kwon Beack Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
CN101853660A (zh) * 2004-10-20 2010-10-06 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
CN102124516A (zh) * 2008-08-14 2011-07-13 杜比实验室特许公司 音频信号格式变换
CN104160442A (zh) * 2012-02-24 2014-11-19 杜比国际公司 音频处理
CN104471640A (zh) * 2012-07-20 2015-03-25 高通股份有限公司 基于对象的环绕声编码解码器的具有反馈的可缩放降混设计
WO2015058991A1 (en) * 2013-10-22 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
WO2017019781A1 (en) * 2015-07-29 2017-02-02 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
PL2285139T3 (pl) 2009-06-25 2020-03-31 Dts Licensing Limited Urządzenie i sposób konwersji przestrzennego sygnału audio
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
MY176406A (en) 2012-08-10 2020-08-06 Fraunhofer Ges Forschung Encoder, decoder, system and method employing a residual concept for parametric audio object coding
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
GB2515089A (en) 2013-06-14 2014-12-17 Nokia Corp Audio Processing
GB2517690B (en) * 2013-08-26 2017-02-08 Canon Kk Method and device for localizing sound sources placed within a sound environment comprising ambient noise
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015105748A1 (en) 2014-01-09 2015-07-16 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
WO2015145782A1 (en) 2014-03-26 2015-10-01 Panasonic Corporation Apparatus and method for surround audio signal processing
US9847087B2 (en) 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US9838819B2 (en) 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP2963948A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
CN106463132B (zh) 2014-07-02 2021-02-02 杜比国际公司 对压缩的hoa表示编码和解码的方法和装置
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
US10448188B2 (en) 2015-09-30 2019-10-15 Dolby Laboratories Licensing Corporation Method and apparatus for generating 3D audio content from two-channel stereo content
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853660A (zh) * 2004-10-20 2010-10-06 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101133441A (zh) * 2005-02-14 2008-02-27 弗劳恩霍夫应用研究促进协会 音源的参数联合编码
CN101341793A (zh) * 2005-09-02 2009-01-07 Lg电子株式会社 从立体声信号产生多声道音频信号的方法
CN101473645A (zh) * 2005-12-08 2009-07-01 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
US20100114582A1 (en) * 2006-12-27 2010-05-06 Seung-Kwon Beack Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
CN102124516A (zh) * 2008-08-14 2011-07-13 杜比实验室特许公司 音频信号格式变换
CN104160442A (zh) * 2012-02-24 2014-11-19 杜比国际公司 音频处理
CN104471640A (zh) * 2012-07-20 2015-03-25 高通股份有限公司 基于对象的环绕声编码解码器的具有反馈的可缩放降混设计
WO2015058991A1 (en) * 2013-10-22 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
WO2017019781A1 (en) * 2015-07-29 2017-02-02 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BYONGHWA LEE ET AL: "Efficient Residual Coding Method of Spatial Audio Object Coding with Two-Step Coding Structure for Interactive Audio Services" *
JONGHWA LEE ET AL: "Spatial-temporal multi-channel audio coding" *
沈勇等: "国际音频技术研究进展" *

Also Published As

Publication number Publication date
JP7224302B2 (ja) 2023-02-17
EP3622509A1 (en) 2020-03-18
CN110800048B (zh) 2023-07-28
US20200169824A1 (en) 2020-05-28
EP3622509B1 (en) 2021-03-24
JP2020519950A (ja) 2020-07-02
US10893373B2 (en) 2021-01-12

Similar Documents

Publication Publication Date Title
CN110800048B (zh) 多通道空间音频格式输入信号的处理
US10650836B2 (en) Decomposing audio signals
US8964994B2 (en) Encoding of multichannel digital audio signals
CN104285390B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
US8718293B2 (en) Signal separation system and method for automatically selecting threshold to separate sound sources
US9313598B2 (en) Method and apparatus for stereo to five channel upmix
US10410641B2 (en) Audio source separation
US10827295B2 (en) Method and apparatus for generating 3D audio content from two-channel stereo content
US20130170319A1 (en) Apparatus and method for resolving an ambiguity from a direction of arrival estimate
JP2024029071A (ja) パラメータの符号化および復号
WO2018208560A1 (en) Processing of a multi-channel spatial audio format input signal
US20220358937A1 (en) Determining corrections to be applied to a multichannel audio signal, associated coding and decoding
Han et al. Location estimation of predominant sound source with embedded source separation in amplitude-panned stereo signal
US20230260522A1 (en) Optimised coding of an item of information representative of a spatial image of a multichannel audio signal
Rajitha et al. PCA-ICA based acoustic ambient extraction
EP4346234A1 (en) Apparatus and method for perception-based clustering of object-based audio scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant