CN117083881A - 分离空间音频对象 - Google Patents

分离空间音频对象 Download PDF

Info

Publication number
CN117083881A
CN117083881A CN202180096745.0A CN202180096745A CN117083881A CN 117083881 A CN117083881 A CN 117083881A CN 202180096745 A CN202180096745 A CN 202180096745A CN 117083881 A CN117083881 A CN 117083881A
Authority
CN
China
Prior art keywords
audio
frame
audio object
separated
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180096745.0A
Other languages
English (en)
Inventor
M-V·莱蒂南
A·S·拉莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN117083881A publication Critical patent/CN117083881A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Quality & Reliability (AREA)

Abstract

尤其公开了一种用于空间音频编码的装置,该装置被配置为:从音频帧的多个音频对象中(1281),确定用于分离的音频对象(306);从多个音频对象中,将用于分离的音频对象进行分离(308),以提供经分离的音频对象(126)以及至少一个剩余音频对象(124);用音频对象编码器对经分离的音频对象进行编码;以及将多个剩余音频对象与另一输入音频格式一起编码。

Description

分离空间音频对象
技术领域
本申请涉及用于对音频对象进行编码的装置和方法。
背景技术
参数空间音频处理是音频信号处理的领域,其中使用参数的集合来描述声音的空间方面。例如,在来自麦克风阵列的参数空间音频捕获中,从麦克风阵列信号估计参数的集合是典型且有效的选择,诸如频带中声音的方向,以及频带中所捕获的声音的定向和非定向部分之间的比率。已知这些参数很好地描述了在麦克风阵列的位置处所捕获的声音的感知空间属性。这些参数可以相应地被利用在空间声音的合成中,用于双耳耳机、扬声器、或到其他格式,诸如Ambisonics。
频带中的方向和直接能量与总能量比率因此是对于空间音频捕获特别有效的参数化。
由频带中的方向参数和频带中的能量比率参数(指示声音的方向性)组成的参数集也可以被用作音频编解码器的空间元数据(其还可以包括其他参数,诸如环绕相干、扩展相干、方向的数量、距离等)。例如,可以从麦克风阵列捕获的音频信号中,来估计这些参数,并且例如可以从要与空间元数据一起传送的麦克风阵列信号中,来生成立体声或单声道信号。立体声信号可以例如用AAC编码器编码,并且单声道信号可以用EVS编码器编码。解码器可以将音频信号解码为PCM信号,并(使用空间元数据)处理频带中的声音,以获得空间输出,例如双耳输出。
上述解决方案特别适合于对来自麦克风阵列(例如,在移动电话、VR相机、独立麦克风阵列中)的所捕获的空间声音进行编码。然而,对于此种编码器来说,可能期望还具有除麦克风阵列捕获的信号之外的其他输入类型,例如扬声器信号、音频对象信号、或Ambisonic信号。
在与定向音频编码(DirAC)和谐平面波扩展(Harpex)相关的科学文献中,已充分记录了分析用于空间元数据提取的一阶Ambisonics(FOA)输入。这是因为存在直接提供FOA信号(更准确地说:其变体,B格式信号)的麦克风阵列,并因此分析此种输入一直是该领域中的研究点。此外,用于多方向空间元数据提取的高阶Ambisonics(HOA)输入的分析也已被记录在与高阶定向音频编码(HO-DirAC)相关的科学文献中。
编码器的另一输入也是多声道扬声器输入,诸如5.1或7.1声道环绕输入和音频对象。
上述过程可能涉及通过时频域中的多声道分析来获得定向参数(诸如方位角和仰角)以及能量比率作为空间元数据。另一方面,可以在单独的处理链中处理针对各个音频对象的定向元数据和音频对象信号。然而,如果一些音频信号被单独处理,则在处理不同类型的音频信号时可能的协同作用不能被有效利用。
发明内容
根据第一方面,提出了一种用于空间音频编码的方法,包括:从音频帧的多个音频对象中,确定用于分离的音频对象;从多个音频对象中,将用于分离的音频对象进行分离,以提供经分离的音频对象以及至少一个剩余音频对象;用音频对象编码器对经分离的音频对象进行编码;以及将多个剩余音频对象与另一输入音频格式一起编码。
多个音频对象中的每个音频对象可以包括音频对象信号和音频对象元数据,其中从音频帧的多个音频对象中确定用于分离的音频对象可以包括:确定音频帧上的多个音频对象信号中的每个音频对象信号的能量;确定音频帧上的另一输入音频格式的至少一个音频信号的能量;通过从多个音频对象信号的能量中选择最大能量来确定最响亮能量;确定能量比例因子;根据能量比例因子来确定针对音频帧的阈值;确定最响亮能量与在音频帧上计算的前一音频帧的经分离的音频对象的能量的比率;将最响亮能量与在音频帧上计算的前一音频帧的经分离的音频对象的能量的比率与阈值进行比较;以及取决于该比较,针对音频帧,将与最响亮能量对应的音频对象识别为用于分离的音频对象,或者将针对前一音频帧的经分离的音频对象识别为用于分离的音频对象。
确定能量比例因子可以包括:通过对音频帧上的多个音频对象信号中的每个音频对象信号的能量、前一音频帧上的多个音频对象信号中的每个音频对象信号的能量、音频帧上的另一音频输入格式的至少一个音频信号的能量、以及前一音频帧上的另一音频输入格式的至少一个音频信号的能量求和,来确定总能量;以及确定最响亮能量、来自前一音频帧的最响亮能量、在音频帧上计算的前一音频帧的经分离的音频对象的能量和在音频帧上计算的前一音频帧的经分离的音频对象的能量的和能量与总能量的比率。
从音频帧的多个音频对象中确定音频对象还可以包括:确定转换方式,通过该转换方式执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的改变。
确定转换方式可以包括:将能量比例因子与阈值进行比较;当能量比例因子小于阈值时,确定使用硬转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式;以及当能量比例因子大于或等于阈值时,确定使用淡出淡入转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式。
从多个音频对象中将用于分离的音频对象进行分离以提供经分离的音频对象以及至少一个剩余音频对象可以包括:针对至少一个剩余音频对象,将用于分离的已识别音频对象的音频对象信号设置为零;将音频帧的经分离的音频对象的元数据设置为用于分离的已识别音频对象的元数据;将音频帧的经分离的音频对象的音频对象信号设置为用于分离的已识别音频对象的音频对象信号;将剩余音频对象中的至少一个剩余音频对象的音频对象信号设置为未被识别用于分离的音频对象的音频对象信号;以及将剩余音频对象中的至少一个剩余音频对象的元数据设置为未被识别用于分离的音频对象的元数据。
在上面,可以使用硬转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式。
从多个音频对象中将用于分离的音频对象进行分离以提供经分离的音频对象以及至少一个剩余音频对象还可以包括:从多个音频对象中,将用于分离的音频对象分离以提供至少一个跟随音频帧的经分离的音频对象和至少一个跟随音频帧的多个剩余音频对象,其中至少一个跟随音频帧跟随了该音频帧,其中该方法还可以包括:将音频帧的经分离的音频对象的音频对象信号设置为前一音频帧的经分离的音频对象的音频帧的音频对象信号乘以淡出窗口函数;将至少一个跟随音频帧的经分离的音频对象的音频对象信号设置为用于分离的音频对象的至少一个跟随音频帧的音频对象信号乘以淡入窗口函数;将与音频帧的至少一个剩余音频对象内的前一音频帧的经分离的音频对象对应的音频对象信号设置为来自前一音频的经分离的音频对象的音频帧的音频对象信号乘以淡入窗口函数;以及将与至少一个跟随音频帧的至少一个剩余音频对象内的音频帧的经分离的音频对象对应的音频对象信号设置为用于分离的音频对象的音频对象信号乘以淡出窗口函数。
该方法还可以包括:将音频帧的至少一个剩余音频对象的元数据设置为音频帧的未被识别用于分离的音频对象的元数据;将至少一个跟随音频帧的至少一个剩余音频对象的元数据设置为至少一个跟随音频帧的未被识别用于分离的音频对象的元数据;将音频帧的经分离的音频对象的元数据设置为音频帧的用于分离的音频对象的元数据;以及将至少一个跟随音频帧的经分离的音频对象的元数据设置为至少一个跟随音频帧的用于分离的音频对象的元数据。
在上面,可以使用淡入淡出转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式。
淡出窗口函数可以是Hann窗口函数的后半部分,并且其中淡入窗口函数可以是1减去Hann窗口函数的后半部分。
确定音频帧上的多个音频对象信号中的每个的能量还可以包括:通过使用来自前一音频帧的对应音频对象信号的能量来平滑多个音频对象信号中的每个音频对象信号的能量,并且其中确定音频帧上的多个音频传送信号的能量还包括:通过使用来自前一音频帧的多个音频信号中的每个音频信号的对应能量来平滑多个音频信号中的每个音频信号的能量。
另一输入音频格式可以包括以下至少一项:至少一个音频信号和输入音频格式元数据集;以及至少两个音频信号。
根据第二方面,提供了一种用于空间音频编码的装置,该装置包括用于以下的部件:从音频帧的多个音频对象中,确定用于分离的音频对象;从多个音频对象中,将用于分离的音频对象进行分离,以提供经分离的音频对象以及至少一个剩余音频对象;用音频对象编码器对经分离的音频对象进行编码;以及将多个剩余音频对象与另一输入音频格式一起编码。
多个音频对象中的每个音频对象可以包括音频对象信号和音频对象元数据,其中用于从音频帧的多个音频对象中确定用于分离的音频对象的部件可以包括用于以下的部件:确定音频帧上的多个音频对象信号中的每个音频对象信号的能量;确定音频帧上的另一输入音频格式的至少一个音频信号的能量;通过从多个音频对象信号的能量中选择最大能量来确定最响亮能量;确定能量比例因子;根据能量比例因子来确定针对音频帧的阈值;确定最响亮能量与在音频帧上计算的前一音频帧的经分离的音频对象的能量的比率;将最响亮能量与在音频帧上计算的前一音频帧的经分离的音频对象的能量的比率与阈值进行比较;以及取决于该比较,针对音频帧,将与最响亮能量对应的音频对象识别为用于分离的音频对象,或者将前一音频帧的经分离的音频对象识别为用于分离的音频对象。
用于确定能量比例因子的部件可以包括用于以下的部件:通过对音频帧上的多个音频对象信号中的每个音频对象信号的能量、前一音频帧上的多个音频对象信号中的每个音频对象信号的能量,音频帧上的另一音频输入格式的至少一个音频信号的能量、和前一音频帧上的另一音频输入格式的至少一个音频信号的能量求和,来确定总能量;以及确定最响亮能量、来自前一音频帧的最响亮能量、在音频帧上计算的前一音频帧的经分离的音频对象的能量和在音频帧上计算的前一音频帧的经分离的音频对象的能量的能量和与总能量的比率。
用于从音频帧的多个音频对象中确定音频对象的部件还可以包括用于确定转换方式的部件,通过该转换方式执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的改变。
用于确定转换方式的部件可以包括用于以下的部件:将能量比例因子与阈值进行比较;当能量比例因子小于阈值时,确定使用硬转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式;以及当能量比例因子大于或等于阈值时,确定使用淡出淡入转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式。
用于从多个音频对象中将用于分离的音频对象进行分离以提供经分离的音频对象和至少一个剩余音频对象的部件可以包括用于以下的部件:针对至少一个剩余音频对象将用于分离的已识别音频对象的音频对象信号设置为零;将音频帧的经分离的音频对象的元数据设置为用于分离的已识别音频对象的元数据;将音频帧的经分离的音频对象的音频对象信号设置为用于分离的已识别音频对象的音频对象信号;将剩余音频对象中的至少一个剩余音频对象的音频对象信号设置为未被识别用于分离的音频对象的音频对象信号;以及将剩余音频对象中的至少一个剩余音频对象的元数据设置为未被识别用于分离的音频对象的元数据。
在上面,可以使用硬转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式。
用于从多个音频对象中将用于分离的音频对象进行分离以提供经分离的音频对象以及至少一个剩余音频对象的部件还可以包括:从多个音频对象中将用于分离的音频对象进行分离,以提供至少一个跟随音频帧的经分离的音频对象以及至少一个跟随音频帧的多个剩余音频对象,其中该至少一个跟随音频帧可以跟随音频帧,其中该装置还可以包括用于以下的部件:将音频帧的经分离的音频对象的音频对象信号设置为前一音频帧的经分离的音频对象的音频帧的音频对象信号乘以淡出窗口函数;将至少一个跟随音频帧的经分离的音频对象的音频对象信号设置为用于分离的音频对象的至少一个跟随音频帧的音频对象信号乘以淡入窗口函数;将与音频帧的至少一个剩余音频对象内的前一音频帧的经分离的音频对象对应的音频对象信号设置为来自前一音频的经分离的音频对象的音频帧的音频对象信号乘以淡入窗口函数;以及将与至少一个跟随音频帧的至少一个剩余音频对象内的音频帧的经分离的音频对象对应的音频对象信号设置为用于分离的音频对象的音频对象信号乘以淡出窗口函数。
该装置可以进一步包括用于以下的部件:将音频帧的至少一个剩余音频对象的元数据设置为音频帧的未被识别用于分离的音频对象的元数据;将至少一个跟随音频帧的至少一个剩余音频对象的元数据设置为至少一个跟随音频帧的未被识别用于分离的音频对象的元数据;将音频帧的经分离的音频对象的元数据设置为音频帧的用于分离的音频对象的元数据;以及将至少一个跟随音频帧的经分离的音频对象的元数据设置为至少一个跟随音频帧的用于分离的音频对象的元数据。
在上面,可以使用淡入淡出转换来执行从前一音频帧的经分离的音频对象到音频帧的经分离的音频对象的转换方式。
淡出窗口函数可以是Hann窗口函数的后半部分,并且其中淡入窗口函数可以是1减去Hann窗口函数的后半部分。
确定音频帧上的多个音频对象信号中的每个音频对象信号的能量还可以包括:通过使用来自前一音频帧的对应音频对象信号的能量来平滑多个音频对象信号中的每个音频对象信号的能量,并且其中确定音频帧上的多个音频传送信号的能量还包括:通过使用来自前一音频帧的多个音频信号中的每个音频信号的对应能量来平滑多个音频信号中的每个音频信号的能量。
另一输入音频格式可以包括以下至少一项:至少一个音频信号和输入音频格式元数据集;以及至少两个音频信号。
根据第三方面,提供了一种用于空间音频编码的装置,该装置包括至少一个处理器和至少一个存储器,至少一个存储器包括计算机程序代码,至少一个存储器和计算机程序代码被配置为:从音频帧的多个音频对象中,确定用于分离的音频对象;从多个音频对象中将用于分离的音频对象进行分离,以提供经分离的音频对象以及至少一个剩余音频对象;用音频对象编码器对经分离的音频对象进行编码;以及将多个剩余音频对象与另一输入音频格式一起编码。
一种计算机程序产品,被存储在介质上,可以使装置执行如本文所述的方法。
一种电子设备,可以包括如本文所述的装置。
一种芯片组,可以包括如本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,在附图中:
图1示意性地示出了适用于实现一些实施例的装置的系统;
图2示意性地示出了根据一些实施例的分析处理器;
图3示意性地示出了适用于实现一些实施例的音频对象分离器装置;以及
图4示意性地示出了适用于实现所示装置的示例设备。
具体实施方式
以下进一步详细描述用于提供有效的空间分析导出的元数据参数的合适装置和可能机制。在以下讨论中,关于多声道麦克风实施方式来讨论多声道系统。然而,如上所讨论,输入格式可以是任何合适的输入格式,诸如多声道扬声器、ambisonic(FOA/HOA)等。应当理解,在一些实施例中,声道位置基于麦克风的位置、或者为虚拟位置或方向。此外,示例系统的输出是多声道扬声器布置。然而,应当理解的是,输出可以经由扬声器以外的部件呈现给用户。此外,多声道扬声器信号可以被概括为两个或更多个回放音频信号。此种系统目前正由3GPP标准化机构标准化为沉浸式语音和音频服务(IVAS)。IVAS旨在是对现有3GPP增强语音服务(EVS)编解码器的扩展,以便在现有和未来的移动(蜂窝)和固定线路网络上促进沉浸式的语音和音频服务。IVAS的应用可以是通过3GPP第四代(4G)和第五代(5G)网络提供沉浸式的语音和音频服务。此外,作为EVS的扩展的IVAS编解码器可以被用在存储和转发应用中,其中音频和话音内容被编码并存储在文件中以用于回放。应当认识到,IVAS可以与具有对音频和话音信号的样本进行编码的功能的其他音频和话音编码技术结合使用。
元数据辅助空间音频(MASA)是针对IVAS提出的一种输入格式。MASA输入格式可以包括多个音频信号(例如1或2个)以及对应的空间元数据。可以使用空间音频捕获,通过例如可以被安装在移动设备中的麦克风阵列,来捕获MASA输入流。然后可以从所捕获的麦克风信号来估计空间音频参数。
对于每个考虑的时间-频率(TF)块或瓦(tile),换句话说,时间/频率子带,MASA空间元数据可以至少由球面方向(仰角、方位角)、结果方向的至少一个能量比率、扩展相干、以及独立于方向的环绕相干组成。总的来说,IVAS可以具有用于每个时间-频率(TF)瓦的多个不同类型的元数据参数。构成MASA的空间元数据的空间音频参数的类型在下面表1中示出。
该数据可以由编码器编码和传输(或存储),以便能够在解码器处重构空间信号。
除了随后被编码为MASA音频信号的多声道输入信号之外,还可能需要编码系统对表示各种声源的音频对象进行编码。无论是以元数据的形式还是以某种其他机制的形式,每个音频对象都可以伴随着方位角和仰角值形式的方向数据,这些值指示音频对象在物理空间内的位置。通常,音频对象可以具有每个音频帧一个方向参数值。
下文中讨论的概念是为改进将多个输入编码到空间音频编码系统诸如IVAS系统中。虽然此种系统呈现有如上所讨论的多声道音频信号流和音频对象的单独输入流,但是设想了可以使用输入音频信号的其他组合。概括了下文中讨论的概念的实施例可以在可以利用各种不同输入音频流之间的相似性来改进整体编码效率的前提下进行。为了实现这点,具有功能机制可能是有利的,该功能机制使得音频对象流能够被分离成可以与其他输入音频信号一起编码的音频对象(以便利用音频信号之间的协同作用)以及使用专用音频对象编码技术编码的音频对象。为此,可以通过将已分离音频对象的编码与其他音频输入流诸如MASA音频信号流组合来达到编码效率。
在这方面,图1描绘了用于实现本申请的实施例的示例装置和系统。该系统被示出为具有“分析”部分121。“分析”部分121是从接收多声道信号直到对元数据和下混合信号进行编码的部分。
系统“分析”部分121的输入是多声道信号102。在以下示例中,描述了麦克风声道信号输入,然而在其他实施例中可以实现任何合适的输入(或合成多声道)格式。例如,在一些实施例中,空间分析器和空间分析可以被实现在在编码器外部。例如,在一些实施例中,与音频信号相关联的空间(MASA)元数据可以作为单独的位流提供给编码器。在一些实施例中,空间(MASA)元数据可以被提供为空间(方向)索引值的集合。
此外,图1还描绘了多个音频对象128,作为分析部分121的另一输入,以及包括多个对象的音频对象流。如上所述,这些多个音频对象(或音频对象流)128可以表示在物理空间内的各种声源。每个音频对象可以由音频对象信号和伴随的元数据来表征,该元数据包括方向数据(以方位角和仰角值的形式),其指示基于音频帧的在物理空间内音频对象的位置。
多声道信号102被传递到传送信号发生器103和分析处理器105。
在一些实施例中,传送信号发生器103被配置为接收多声道信号并生成包括所确定数量的声道的合适的传送信号,并输出传送信号104(MASA传送音频信号)。例如,传送信号发生器103可以被配置为生成多声道信号的2音频声道下混合。所确定数量的声道可以是任何合适数量的声道。在一些实施例中,传送信号发生器被配置为例如通过波束成形技术,以其他方式将输入音频信号选择或组合到所确定数量的声道,并将这些作为传送信号输出。
在一些实施例中,传送信号发生器103是可选的,并且以与该示例中的传送信号相同的方式,将多声道信号未经处理地传递到编码器107。
在一些实施例中,分析处理器105还被配置为接收多声道信号,并分析信号以产生与多声道信号相关联并因此与传送信号104相关联的元数据106。分析处理器105可以被配置为生成元数据,对于每个时频分析区间,该元数据可以包括方向参数108和能量比率参数110以及相干参数112(并且在一些实施例中可以包括扩散度参数)。在一些实施例中,方向、能量比率、和相干参数可以被认为是MASA空间音频参数(或MASA元数据)。换句话说,空间音频参数包括:目标是表征由多声道信号(或通常的两个或更多个音频信号)创建/捕获的声场的参数。
在一些实施例中,所生成的参数可能因频带而异。因此,例如,在频带X中,生成并传输所有参数;而在频带Y中,仅生成并传输参数之一;并且此外,在频带Z中,不生成或传输任何参数。这方面的实际示例可以是,对于一些频带(诸如最高频带),由于感知原因参数中的一些参数是不需要的。MASA传送信号104和MASA元数据106可以被传递到编码器107。
音频对象128可以被传递到音频对象分离器122以用于处理。在其他实施例中,音频对象分离器122可以位于编码器107的功能内。
在实施例中,音频对象分离器122执行分析输入音频对象流128的功能,以便确定哪些对象可以与其他音频信号(诸如MASA音频信号流(104、106))组合以用于编码,以及哪些音频对象被编码为音频对象特定编码。在这方面,图3进一步详细地描绘了根据实施例的音频对象分离器122。
音频对象分离器122可以接收MASA传送信号102和音频对象128。在图3内,音频对象128被描绘为音频对象信号1281和音频对象元数据1282。
音频对象元数据1282可以至少包括:音频对象流内的每个音频对象的方向参数。音频对象流128包括多个音频对象。
MASA音频传送信号104和音频对象信号1281可以由能量估计器301接收。在实施例中,能量估计器301可以被布置成基于音频帧为呈现给它的每个音频信号声道来估计能量。换句话说,能量估计器301可以被配置为估计每个MASA传送声道信号和每个音频对象声道信号的能量。通常,音频帧n上的能量Ei可以针对每个音频声道信号i表示为
其中t=0至T-1是音频帧n的样本。
能量估计器301的输出,即声道能量311(声道能量是MASA传送音频信号的每个声道的能量和音频对象信号的每个声道的能量),可以被传递到时间平滑器302。
在实施例中,时间平滑器302可以被配置为向接收到的声道能量311提供(随时间的)平滑函数。平滑运算可以针对每个声道能量信号Ei表示为
E′i(n)=(1-α)Ei(n)+αE′i(n-1)
其中E′i(n)是音频帧n和音频声道信号i的经平滑的声道能量信号,并且α是平滑系数,α的典型值可以取0.8范围内的值。
在一些实施例中,上述平滑步骤可以被省略。因此,在这些实施例中,可以使用音频声道能量信号Ei(n)作为后续处理步骤,而不是经平滑的音频声道能量信号E′i(n)。
经平滑的音频声道能量信号E′i(n)312然后可以被传递到最响亮选择器303。最响亮选择器303可以被布置成选择具有音频帧n的经平滑的音频声道能量信号的最大值的音频对象。换句话说,最响亮选择器可以被配置为从所有音频对象中选择最响亮音频对象。具有最响亮的经平滑的音频声道信号的音频对象(对于音频帧n)可以由名字对象iloudest(n)(最响亮音频对象索引313)表示。
在实施例中,可以将最响亮音频对象索引313iloudest(n)传递到音频对象选择器306和比例计算机304两者。
在实施例中,比例计算机304还可以被布置成接收声道能量Ei(n)311和来自前一音频帧的所选的音频对象索引iselected(n-1)(前一所选的音频对象索引317)。前一所选的音频对象索引317是由音频对象选择器306为前一音频帧n-1所确定的音频对象索引。
比例计算机304可以被配置为计算前一所选的音频对象和最响亮音频对象的能量相对于当前音频帧n和前一音频帧n-1中的总声道能量的比例。比例计算机304的技术效果可以被量化为度量,该度量提供了未选择的音频对象和MASA音频信号的组合对前一所选的音频对象索引iselected(n-1)371和当前音频帧的最响亮对象索引iloudest(n)313之间的过渡可具有的掩盖效果的测量。然后,该信息可以用于指导针对当前音频帧n的经分离的(多个)音频对象的选择。在一些实施例中,针对音频帧n的能量比例度量ξ(n)可以被表示为
其中是在前一音频帧上计算的前一帧的所选的音频对象信号的能量,/>是在当前音频帧上计算的前一帧的所选的音频对象信号的能量,是(在当前音频帧上计算的)当前音频帧的所选的最响亮音频对象的能量,以及/>是(在前一音频帧上计算的)当前音频帧的所选的最响亮音频对象的能量。项/>表示来自前一音频帧的MASA和所有音频对象信号的能量以及当前音频帧的MASA和所有音频对象信号的能量之和,其中M是MASA音频信号和音频对象信号的总数。
来自比例计算机305的输出,即能量比例度量ξ(n)315,可以被传递到阈值确定器307。
在实施例中,阈值确定器307可以被配置为计算自适应阈值,其功能是随后引导音频对象选择过程。为了实现这点,阈值确定器306的功能可以遵循这样的原理,即如果能量比例度量ξ(n)315低,则暗示总能量是由MASA音频信号主导的。在这种情况下,由于将经分离的音频对象(或所选的音频对象索引)从一帧改变到下一帧而可能发生的任何伪影都可以被认为是充分掩盖的。在这种情况下,阈值应该是低的,以便确保音频对象的能量水平的微小变化可以引起在当前音频帧中新选择的经分离的音频对象的变化。然而,如果能量比例度量315具有高值,则可以假设当前最响亮音频对象将主导总音频能量。这意味着总音频场景内的其他音频信号(MASA和剩余的(未分离的)音频对象)将不会掩盖可能由所选的经分离的音频对象的改变引起的任何伪影。在这种情况下,不期望切换经分离的音频对象。为此,可以使用下面的自适应阈值方程来确定是否应当将来自前一帧的所选的经分离的音频对象切换为当前音频帧的不同音频对象。当前帧的改变阈值(用于确定是否改变所选的经分离的音频对象)τchange(n)316可以给出为
τchange(n)=aξ(n)+b
其中a和b是具有例如a=9和b=1的值的常数。在该特定示例中,a和b的上述值是以分贝为单位给出的。
一旦阈值确定器306已经计算出改变阈值316,就可以将其传递给音频对象选择器306以用于进一步处理。此外,音频对象选择器306还可以被配置为接收最响亮音频对象索引313和经平滑的声道能量信号312。音频对象选择器306然后可以被配置为使用最响亮音频对象索引iloudest(n)313来确定最响亮音频对象的经平滑能量,这可以被表示为音频帧n的音频对象选择器306还可以使用来自前一音频帧的所选的经分离的音频对象的索引,来计算来自前一音频帧(n-1)的所选的经分离的音频对象的经平滑能量。这两个能量可以表示为当前音频帧的最响亮音频对象uloudest(n)的能量与前一帧的所选的经分离的音频对象iselected(n-1)的能量的比率。换句话说,计算出的比率r(n)可以以分贝为单位表示为
然后,音频对象选择器304可以使用计算出的比率r(n)与改变阈值τchange(n),来确定经分离的音频对象(针对当前音频帧)是否保持为针对前一帧的所选的经分离的音频对象iselected(n-1),或者经分离的音频对象是否应切换到当前音频帧的最响亮音频对象iloudest(n),因此成为当前音频帧的所选的经分离的音频对象。在实施例中,该确定步骤可以根据以下逻辑来执行
如果r(n)>τchange(n),则iselected(n)=iloudest(n)
如果r(n)≤τchange(n),则iselected(n)=iselected(n-1)
当前音频帧n的所选的经分离的音频对象索引iselected(n)318是音频对象选择器306的输出。
在实施例中,改变方法确定器305可以被布置成:对于当音频对象选择器306确定针对当前音频帧的所选的经分离的音频对象中应该存在改变时的情况,确定所选的经分离的音频对象从一个帧切换到另一个帧的方式。
改变方法确定器305可以在能量比例度量ξ(n)315的帮助下,确定在经分离的音频对象中执行切换的方式。例如,如果能量比例度量ξ(n)315低,则这将意味着其他音频声道信号将掩盖对所选的经分离的音频对象的任何改变。在这种情况下,可以使用硬切换来改变音频帧的所选的经分离的音频对象。可替代地,如果能量比例度量ξ(n)315高,则这将意味着在所选发音频对象的切换期间将不存在(或非常少的)声道掩盖。在此类情况下,对所选的经分离的音频对象的改变可以更谨慎地使用更渐进的方法。诸如淡出和淡入方法,或者换句话说,“淡出淡入”选择。
该决策步骤可以通过将能量比例度量ξ(n)315与固定阈值τchange进行比较来进行。例如,决策可以被表示为
如果ξ(n)<τmethod,则ζ(n)=硬切换
如果ξ(n)≥τmethod,则ζ(n)=淡出淡入
其中ζ(n)表示所选择的选择方法,即改变方法指示符。实验表明,在0.25的范围内的阈值τchange值产生了有利的结果。
来自改变方法确定器307的输出,即改变方法指示符ζ(n)319,可以被用作音频对象分离器308的输入。
音频对象分离器功能308可以被布置成从音频对象流中移除由所选的经分离的音频对象索引iselected(n)318指示的所选的经分离的音频对象。为此,音频对象分离器可以被配置为接收音频对象流,该音频对象流在图3中被描绘为包括音频对象流128的音频对象的、单独音频对象信号(每个音频对象一个)1281的集合以及单独音频对象元数据集(每个音频对象一个)1282的集合。换句话说,每个音频对象包括音频对象信号(或音频信号)以及音频对象元数据集。音频对象分离器功能308然后可以使用改变方法指示符319和所选的分离音频对象索引318,来从音频对象流128中分离所选的音频对象。因此,这可以产生剩余音频对象流124,包括剩余音频对象信号1241和音频对象元数据流1242。换句话说,当所选的经分离的音频对象信号和元数据集已经从流128中移除时,剩余的音频对象信号和元数据集。音频对象分离器功能308还可以被布置成产生音频帧n的经分离的音频对象流126。即经分离的音频对象的音频对象信号1261和经分离的音频对象的元数据集1262。
在第一种情况下,音频对象元数据集可以包括针对音频对象i和帧n的方位角θi(n)和仰角φi(n)。
在实施例中,音频对象分离器功能308可以具有多个操作模式,这些操作模式可以取决于各种参数,诸如改变方法指示符ζ(n)319、所选的经分离的音频对象索引iselected(n)318、以及针对前一音频帧n-1的所选的经分离的音频对象索引iselected(n-1)317。
在一个操作场景中,所选的经分离的音频对象索引iselected(n)318和前一音频帧n-1的所选的经分离的音频对象索引iselected(n-1)317可以是相同的,换句话说,当从前一音频帧n-1转换到当前音频帧n时,在经分离的音频对象中没有切换。
在这种情况下,帧n的所选的经分离的音频对象信号ssep(t)保持与先前帧所选的经分离的音频对象信号相同。这可以更新为:
对于iselected(n)=iselected(n-1)的情况
对于t=0至T-1,其中s(t)是从t=0至T-1运行的音频帧n的音频对象信号的样本。
对应地,可以对所选的经分离的音频对象元数据集执行更新程序,例如方位角θ和仰角φ。
关于剩余音频对象,对于除音频对象i=iselected之外的所有音频对象,可以为每个音频对象i简单地更新它们
srem(n),i(t)=si(t)
其中对于音频对象i,srem(t)是音频帧n的剩余音频对象信号的样本,从t=0运行至T-1。这对于除了所选的音频对象(i=iselected)之外的每个音频对象i重复。在剩余音频对象的集合内,与所选的经分离的音频对象信号对应的音频信号可以被设置为零
对于从t=0至T-1,
在另一操作场景中,所选的经分离的音频对象索引iselected(n)318和针对前一音频帧n-1的所选的经分离的音频对象索引iselected(n-1)317可能不同,换句话说,当从前一音频帧n-1转换到当前音频帧n时,在经分离的音频帧中的切换是需要的。另外,改变方法指示符ζ(n)319可以指示切换可以是硬切换,即ζ(n)=硬切换。
在这种情况下,帧n的所选的经分离的音频对象信号ssep(t)可以被设置为与所选的经分离的音频对象索引iselected(n)对应的音频对象信号。
对于iselected(n)≠iselected(n-1)的情况,帧n的ssep(t)可以被更新为
对于t=0至T-1,
对应地,帧n的经分离的音频对象元数据集可以被更新为
如上所述,关于剩余音频对象,对于除音频对象i=iselected之外的所有音频对象,可以为每个音频对象i简单地更新它们
srem,i(t)=si(t)
其中对于音频对象i,srem(t)是音频帧n的剩余音频对象信号的样本,从t=0运行至T-1。这对于除了所选的音频对象之外的每个音频对象i重复。如上所述,在剩余音频对象的集合内,与所选的经分离的音频对象信号对应的音频信号也可以被设置为零。
对于t从0至T-1,
剩余音频对象元数据集可以被更新为
θrem,i(n)=θi(n)
φrem,i(n)=φi(n)
对于除音频对象i=iselected(n)之外的所有音频对象i。
在另一个操作场景中,所选的经分离的音频对象索引iselected(n)318和前一音频帧n-1的所选的经分离的音频对象索引iselected(n-1)317可能与之前不同,换句话说,当从前一音频帧n-1帧转换到当前音频帧n时,需要经分离的音频对象的切换。然而,在这种情况下,改变方法指示符ζ(n)319可以指示该切换可以是淡出淡入切换以改换所选的经分离的音频对象,即ζ(n)=淡出淡入。
在该特别操作场景中,音频对象分离器功能308可以被布置成最初从经分离的音频对象信号ssep(t)中淡出前一所选的经分离的音频对象,并且还将前一所选的音频对象淡入回到剩余音频对象信号srem,i(t)的集合。这可以具有避免音频对象信号s(t)中的任何潜在不连续性的优点。此外,淡出和淡入的过程具有避免需要执行音频对象元数据的插值的进一步优点。
在实施例中,通过在音频帧的长度上对经分离的音频对象信号ssep(t)的样本应用倾斜窗口函数wfadeout,可以从经分离的音频对象信号ssep(t)中淡出来自前一音频帧n-1的所选的经分离的音频对象信号。例如,当前帧n的经分离的音频对象信号可以给出为对于t=0至T-1,其中时间样本0至T-1是长度为T的当前音频帧n的样本。其中/>是来自前一音频时间帧n-1的所选的经分离的音频对象信号。
在实施例中,应用于经分离的音频对象信号的样本的淡出窗口的形状可以采用Hann窗口函数的后半部分的形式,如下式给出
就音频对象元数据而言,当前音频帧n的经分离的音频对象元数据可以遵循与上面相同的程序,并且被设置为
如上所述,前一帧的所选的经分离的音频对象信号可以在当前音频帧n的剩余音频对象信号srem,i(t)的集合中淡入(或逐步引入)。在实施例中,这可以通过对当前帧n的长度的前一帧的所选的经分离的音频对象信号/>的样本应用淡入窗口函数来执行。剩余音频对象信号的该淡入过程可表示为
对于t=0至T-1,
在实施例中,应用于经分离的音频对象信号的样本的淡入窗口的形状可以采用Hann窗口函数的后半部分的逆形式,如下式给出
wfadein(t)=1-wfadeout(t)
如上所述,其他剩余音频对象信号被相应地更新为与前一音频帧相同的音频对象,
对于t=0至T-1,srem,i(t)=si(t)
对于除音频对象i=iselected(n-1)之外的所有音频对象i。
类似地,剩余音频对象的音频对象元数据集可以以类似的方式更新。
θrem,i(n)=θi(n)
φrem,i(n)=φi(n)
对于除音频对象i=iselected(n)之外的所有音频对象i。
在下一音频帧期间,当前所选的经分离的音频对象信号可以在音频帧的过程中从剩余音频对象信号srem,i(t)淡出(或逐步退出)。此外,在音频帧期间,当前所选的经分离的音频对象信号可以淡入到经分离的音频对象信号ssep(t)。
在实施例中,在下一音频帧期间从剩余音频对象信号的集合中去除当前所选的经分离的音频对象信号可以表示为
对于t=0至T-1,
可以通过简单地保持来自前一音频帧的音频对象信号,来更新其他剩余音频对象信号。即
对于t=0至T-1,srem,i(t+T)=si(t+T)
对于除音频对象i=iselected(n)之外的所有音频对象i。
当前所选的经分离的音频对象信号淡入到经分离的音频对象信号ssep(t)可以表示为
对于t=0至T-1,/>
此外,针对下一个的剩余音频对象信号
就该“下一个”音频帧n+1的经分离的音频对象元数据集而言,所选的经分离的声音对象元数据集(索引或标识符)保持相同,即iselected(n)。然而,经分离的音频对象元数据集的值可以被更新为具有下一音频帧n+1的所选的经分离的音频对象iselected(n)的元数据的值。这可以被表示为
类似地,“下一个”音频帧n+1的剩余音频对象元数据集的集合可以通过具有相同的音频对象成员来维持,即,对于该帧,所有音频对象索引i与前一帧保持相同。然而,音频对象元数据集的值被更新为下一个音频帧的值。对于除音频对象i=iselected(n)之外的所有音频对象i,这可以表示为
θrem,i(n+1)=θi(n+1)
φrem,i(n+1)=φi(n+1)
如上所述,来自音频对象分离器122的输出可以包括剩余音频对象124,其包括剩余音频对象信号1241和音频对象元数据流1242。输出可以进一步包括经分离的音频对象126,其包括经分离的音频对象的音频传送信号1261(音频对象信号)和经分离的音频对象的元数据集1262。
返回图1,经分离的音频对象126可以被传递到编码器107内的专用的音频对象编码器121。音频对象编码器121可以被布置成专门地对音频对象进行编码。来自音频对象编码器121的输出然后可以为经编码的经分离的音频对象117。
同时,剩余音频对象流124可以被传递到组合编码核心109(在编码器107内),由此可以将剩余音频对象流与MASA传送音频信号104和元数据106一起编码。
组合编码器核心109可以被配置为接收MASA传送音频(例如下混合)信号104和剩余音频对象信号1241,以便生成这些音频信号的适当编码作为经编码的传送音频信号115。组合编码器核心109还可以包括空间参数集编码器,其可以被配置为接收MASA元数据106和剩余音频对象元数据1241,并输出信息的经编码或经压缩的形式作为经编码的元数据116。
在实施例中,组合编码器核心109可以接收MASA传送音频(例如下混合)信号104和剩余音频对象信号1241。在组合编码器核心109内,可以例如通过下混合到立体声,来创建对象传送音频信号。然后将这些对象传送音频信号与MASA传送音频信号混合在一起,从而产生组合传送音频信号集(例如立体声信号)以用于编码。组合传送音频信号的编码可以由编码器执行,该编码器的示例可以包括3GPP增强语音服务编解码器或MPEG高级音频编解码器。
在一些实施例中,编码器107可以是计算机或移动设备(运行存储在存储器和至少一个处理器上的适当软件),或者可替代地是利用例如FPGA或ASIC的特定设备。该编码可以使用任何合适的方案实施。在一些实施例中,编码器107可以在图1中虚线所示的传输或存储之前,进一步将经编码的组合元数据、经编码的组合音频传送信号、经编码的经分离的音频对象元数据、经编码的经分离的音频对象信号交织、多路复用到单个数据流,或者嵌入经编码的组合元数据、经编码的组合音频传送信号、经编码的经分离的音频对象元数据、经编码的经分离的音频对象信号。多路复用可以使用任何合适的方案实施。
因此,总之,首先,系统(分析部分)被配置为接收多声道音频信号。
然后,系统(分析部分)被配置为生成合适的传送音频信号(例如,通过选择或下混合音频信号声道中的一些)和空间音频参数作为元数据。
然后,该系统被配置为对传送信号和元数据进行编码以用于存储/传输。
在此之后,系统可以存储/传输经编码的传送和元数据。
在图1中,分析部分(分析处理器105、传送信号发生器103、以及音频对象分离器122)被描绘为与编码器107耦合在一起。然而,应当理解,一些实施例可以不那么紧密地耦合这两个相应的处理实体,使得分析部分可以存在于与编码器107不同的设备上。因此,可以向包括编码器107的设备呈现传送信号和元数据流,以用于独立于捕获和分析的过程进行处理和编码。
关于图2,进一步详细示出了用于处理多声道输入信号的示例分析处理器105。图2是在提供用于生成MASA元数据和MASA传送音频信号的处理和分析的上下文中示出的。
在一些实施例中,分析处理器105包括时频域变换器201。
在一些实施例中,时频域变换器201被配置为接收多声道信号102,并应用诸如短时傅立叶变换(STFT)的合适的时间到频率域变换,以便将输入的时域信号转换为合适的时频信号。这些时频信号可以被传递到空间分析器203。
因此,例如,时频信号202可以在时频域表示中由下式表示
S(b,n,i),
其中b是频率槽(bin)索引,并且n是时间-频率块(帧)索引,并且i是声道索引。在另一种表达中,n可以被认为是采样率低于原始时域信号的采样率的时间索引。这些频率槽可以被分组为子带,该子带将槽中的一个或多个分组为带索引的子带k=0,…,K-1。每个子带k具有最低槽bk,low和最高槽bk,high,并且子带包含从bk,low至bk,high的所有槽。子带的宽度可以近似于任何合适的分布。例如,等效矩形带宽(ERB)刻度或巴克刻度。
时频(TF)瓦(n,k)(或块)因此是帧n的子帧内的特定子带k。
可以理解,表示空间音频参数所需的位数可以至少部分地取决于TF(时间-频率)瓦分辨率(即,TF子帧或瓦的数量)。例如,对于“MASA”输入多声道音频信号,20ms的音频帧可以被划分为每段5ms的4个时域子帧,并且每个时域子帧可以具有根据巴克刻度、其近似值、或任何其他合适的划分在频域中划分的多达24个频率子带。在该特别示例中,音频帧可以被划分为96个TF子帧/瓦,换句话说,具有24个频率子带的4个时域子帧。因此,表示音频帧的空间音频参数所需的位数可以取决于TF瓦分辨率。例如,如果根据上面表1的分布对每个TF瓦进行编码,则每个TF瓦将需要每个声源方向64位。对于每个TF瓦的两个声源方向,两个方向的完整编码将需要2x64位。应注意的是,术语声源的使用可以表示TF瓦中传播声音的主导方向。
在实施例中,分析处理器105可以包括空间分析器203。空间分析器203可以被配置为接收时频信号202并且基于这些信号估计方向参数108。方向参数可以基于任何基于音频的“方向”确定来确定。
例如,在一些实施例中,空间分析器203被配置为利用两个或更多个信号输入来估计声源的方向。
空间分析器203因此可以被配置为提供音频信号的帧内的每个频带和时间性的时频块的至少一个方位角和仰角,表示为方位角φMASA(k,n)和仰角θMASA(k,n)。时间子帧的方向参数108可以被传递给MASA空间参数集(元数据)集编码器111以用于编码和量化。
空间分析器203还可以被配置为确定能量比率参数110。能量比率可以被认为是音频信号的能量的确定,该音频信号可以被认为从一个方向到达。直接能量与总能量比率rMASA(k,n)可以被估计,例如,使用方向估计的稳定性测量,或者使用任何相关测量,或者任何其他合适的方法,以获得比率参数。每个直接能量与总能量比率对应于特定空间方向,并描述了与总能量相比,有多少能量来自特定空间方向。该值也可以分别针对每个时间-频率瓦表示。空间方向参数和直接能量与总能量比率描述了每个时间-频率瓦的总能量中有多少来自特定方向。通常,空间方向参数也可以被认为是到达方向(DOA)。
通常,多声道捕获的麦克风阵列信号的直接能量与总能量比率参数可以基于频带k处的麦克风对之间的归一化互相关参数cor'(k,n)来估计,该互相关参数的值介于-1和1之间。直接能量与总能量比率参数r(k,n)可通过将归一化互相关参数与扩散场归一化互相关参数cor′D(k,n)进行比较来确定,其为直接能量与总能量比率在PCT公布WO2017/005978中进一步解释,该公布通过引用并入本文。
对于多声道输入音频信号的情况,可以将直接能量与总能量比率参数rMASA(k,n)比率传递到MASA空间参数集(元数据)集编码器111以用于编码和量化。
空间分析器203还可以被配置为确定多个相干参数112(用于多声道信号102),其可以包括两者都在时间-频率域中分析的环绕相干(γMASA(k,n))和扩展相干(ζMASA(k,n))。
空间分析器203可以被配置为向MASA空间参数集(元数据)集编码器111输出所确定的相干参数扩展相干参数ζMASA和环绕相干参数γMASA以用于编码和量化。
因此,对于每个TF瓦,将存在与每个声源方向相关联的MASA空间音频参数的集合。在这种情况下,每个TF瓦可以基于每个声源方向具有与其相关联的以下音频空间参数;表示为方位角φMASA(k,n)和仰角θMASA(k,n)的方位角和仰角、扩展相干(ζMASA(k,n))、以及直接能量与总能量比率参数rMASA(k,n)。此外,每个TF瓦还可以具有环绕相干(γMASA(k,n)),该环绕相干不是基于每个声源方向分配的。
以与分析处理器105执行的处理类似的方式,组合编码器核心109内的音频对象分析器和音频对象编码器121内的音频对象分析器可以分析它们的相应输入音频对象流,以各自产生音频对象时频域信号,该音频对象时频域信号可以表示为
Sobj(b,n,i),
其中,如前所述,b是频率槽索引,并且n是时间-频率块(TF瓦)(帧)索引,并且i是声道索引。音频对象时频域信号的分辨率可以与对应的MASA时频域信号相同,使得两组信号可以在时间和频率分辨率方面对齐。例如,音频对象时频域信号Sobj(b,n,i)可以基于TF瓦n具有相同的时间分辨率,并且频率槽b可以被分组到与针对MASA时频域信号部署的子带k的相同模式中。换句话说,音频对象时频域信号的每个子带k也可以具有最低槽bk,low和最高槽bk,high,并且子带k包含从bk,low至bk,high的所有槽。
应注意的是,音频对象时频域信号可以被称为音频对象信号1281(在图3中),并且MASA时频域信号可被称为在图1中的MASA传送音频信号104。
关于图4,示出了可以被用作分析或综合设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码,诸如在本文中所描述的方法。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407耦合到存储器1411。存储器1411可以是任何合适的存储装置。在一些实施例中,存储器1411包括用于存储程序代码的程序代码部分,该程序代码可在处理器1407上实施。此外,在一些实施例中,存储器1411还可以包括用于存储数据的存储数据部分,例如,根据在本文所述的实施例中的已经被处理或将要被处理的数据。存储在程序代码部分内的实施的程序代码、以及存储在存储数据部分内的数据可以由处理器1407在需要时经由存储器-处理器耦合来检索。
在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可以耦合到处理器1407。在一些实施例中,处理器1407可以控制用户接口1405的操作,并从用户接口1405接收输入。在一些实施例中,用户接口1405可以使用户能够例如经由键盘向设备1400输入命令。在一些实施例中,用户接口1405可以使用户能够从设备1400获得信息。例如,用户接口1405可以包括显示器,被配置为向用户显示来自设备1400的信息。在一些实施例中,用户接口1405可以包括触摸屏或触摸接口,其能够使信息能够要被输入的信息到达设备1400并且还向设备1400的用户显示信息。在一些实施例中,用户接口1405可以是如在本文中所述的用于与位置确定器通信的用户接口。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发器。在此类实施例中,收发器可以耦合到处理器1407,并且被配置为使能与其他装置或电子设备的通信,例如经由无线通信网络。在一些实施例中,收发器或任何合适的收发器或发射器和/或接收器装置可以被配置为经由电线或有线耦合与其他电子设备或装置通信。
收发器可以通过任何合适的已知通信协议与另外的装置通信。例如,在一些实施例中,收发器可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(诸如,例如,IEEE 802.X)、合适的短程射频通信协议(诸如,蓝牙)、或红外数据通信路径(IRDA)。
收发器输入/输出端口1409可以被配置为接收信号,并且在一些实施例中通过使用执行适当代码的处理器1407来确定如在本文中所述的参数。此外,该设备可以生成要传输到合成设备的合适的下混合信号和参数输出。
在一些实施例中,设备1400可以被用作合成设备的至少一部分。这样,输入/输出端口1409可以被配置为接收下混合信号以及在一些实施例中接收如在本文中所述的在捕获设备或处理设备处确定的参数,并且通过使用执行适当代码的处理器1407来生成合适的音频信号格式输出。
输入/输出端口1409可以耦合到任何合适的音频输出,例如耦合到多声道扬声器系统和/或耳机或类似物。
通常,本发明的各种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以在硬件中实现,而其他方面可以在固件或软件中实现,这些固件或软件可以由控制器、微处理器、或其他计算设备执行,尽管本发明不限于此。虽然本发明的各个方面可以被图示和描述为框图、流程图、或使用一些其他图片表示,但是应当理解,作为非限制性示例,本文所述的这些块、装置、系统、技术、或方法可以在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或它们的某种组合中实现。
本发明的实施例可以通过可由移动设备的数据处理器执行的计算机软件(诸如在处理器实体中)、或通过硬件、或通过软件和硬件的组合来实现。此外,在这方面应注意的是,如图所示的逻辑流的任何块可以表示程序步骤,或者互连的逻辑电路、块和功能,或者程序步骤与逻辑电路、框、和功能的组合。软件可以被存储在诸如存储器芯片或在处理器内实施的存储器块之类的物理介质、诸如硬盘或软盘之类的磁介质,以及诸如例如DVD及其数据变体、CD之类的光介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器、以及可移除存储器。数据处理器可以是适合于本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、和基于多核处理器架构的处理器中的一种或多种,作为非限制性示例。
本发明的实施例可以在诸如集成电路模块的各种组件中实践。总的来说,集成电路的设计是高度自动化的过程。复杂且强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序可以使用建立良好的设计规则以及预先存储的设计模块库,在半导体芯片上路由导体和定位组件。一旦完成了半导体电路的设计,就可以将标准化电子格式的最终设计传输到半导体制造设施或“晶圆厂”进行制造。
前面的描述已经通过示例性和非限制性示例的方式提供了对本发明的示例性实施例的完整和信息性的描述。然而,当结合附图和所附权利要求阅读时,鉴于前面的描述,各种修改和改编对于相关领域的技术人员来说可能变得显而易见。然而,本发明的教导的所有此类的和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims (26)

1.一种用于空间音频信号编码的方法,包括:
从音频帧的多个音频对象中确定用于分离的音频对象;
从所述多个音频对象中将所述用于分离的音频对象进行分离,以提供经分离的音频对象以及至少一个剩余音频对象;
用音频对象编码器对所述经分离的音频对象进行编码;以及
将所述多个剩余音频对象与另一输入音频格式一起编码。
2.根据权利要求1所述的方法,其中所述多个音频对象中的每个音频对象包括:音频对象信号以及音频对象元数据,其中从所述音频帧的所述多个音频对象中确定用于分离的音频对象包括:
确定所述音频帧上的所述多个音频对象信号中的每个音频对象信号的能量;
确定所述音频帧上的所述另一输入音频格式的至少一个音频信号的能量;
通过从所述多个音频对象信号的所述能量中选择最大能量,来确定最响亮能量;
确定能量比例因子;
根据所述能量比例因子,确定针对所述音频帧的阈值;
确定所述最响亮能量与在所述音频帧上计算的前一音频帧的经分离的音频对象的所述能量的比率;
将所述最响亮能量与在所述音频帧上计算的所述前一音频帧的所述经分离的音频对象的所述能量的所述比率与所述阈值进行比较;以及
取决于所述比较,针对所述音频帧,将与所述最响亮能量对应的所述音频对象识别为所述用于分离的音频对象,或者将针对所述前一音频帧的所述经分离的音频对象识别为所述用于分离的音频对象。
3.根据权利要求2所述的方法,其中所述确定所述能量比例因子包括:
通过对所述音频帧上的所述多个音频对象信号中的每个音频对象信号的所述能量、所述前一音频帧上的多个音频对象信号中的每个音频对象信号的所述能量、所述音频帧上的所述另一音频输入格式的所述至少一个音频信号的所述能量、以及所述前一音频帧上的所述另一音频输入格式的所述至少一个音频信号的所述能量求和,来确定总能量;以及
确定所述最响亮能量、来自所述前一音频帧的最响亮能量、在所述音频帧上计算的所述前一音频帧的所述经分离的音频对象的所述能量、以及在所述音频帧上计算的所述前一音频帧的所述经分离的音频对象的所述能量的和能量与所述总能量的比率。
4.根据权利要求2和3所述的方法,其中从所述音频帧的所述多个音频对象中确定所述音频对象还包括:确定转换方式,通过所述转换方式执行从所述前一音频帧的经分离的音频对象到所述音频帧的所述经分离的音频对象的改变。
5.根据权利要求4所述的方法,其中确定所述转换方式包括:
将所述能量比例因子与阈值进行比较;
当所述能量比例因子小于所述阈值时,确定使用硬转换来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的经分离的音频对象的所述转换方式;以及
当所述能量比例因子大于或等于所述阈值时,确定使用淡出淡入转换来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的所述经分离的音频对象的所述转换方式。
6.根据权利要求2至5所述的方法,其中从所述多个音频对象中将所述用于分离的音频对象进行分离,以提供所述经分离的音频对象以及至少一个剩余音频对象包括:
针对所述至少一个剩余音频对象,将所述用于分离的已识别音频对象的所述音频对象信号设置为零;
将所述音频帧的所述经分离的音频对象的元数据设置为所述用于分离的已识别音频对象的元数据;
将所述音频帧的所述经分离的音频对象的音频对象信号设置为所述用于分离的已识别音频对象的所述音频对象信号;
将所述剩余音频对象中的所述至少一个剩余音频对象的音频对象信号设置为未被识别用于分离的音频对象的所述音频对象信号;以及
将所述剩余音频对象中的至少一个剩余音频对象的元数据设置为未被识别用于分离的音频对象的所述元数据。
7.根据权利要求6所述的方法,其中使用所述硬转换,来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的经分离的音频对象的所述转换方式。
8.根据权利要求2至7所述的方法,其中从所述多个音频对象中将所述用于分离的音频对象进行分离,以提供所述经分离的音频对象以及至少一个剩余音频对象还包括:
从所述多个音频对象中将所述用于分离的音频对象进行分离,以提供至少一个跟随音频帧的所述经分离的音频对象、以及所述至少一个跟随音频帧的多个剩余音频对象,其中所述至少一个跟随音频帧跟随了所述音频帧,其中所述方法还包括:
将所述音频帧的所述经分离的音频对象的所述音频对象信号设置为所述前一音频帧的所述经分离的音频对象的所述音频帧的所述音频对象信号乘以淡出窗口函数;
将所述至少一个跟随音频帧的所述经分离的音频对象的音频对象信号设置为所述用于分离的音频对象的所述至少一个跟随音频帧的所述音频对象信号乘以淡入窗口函数;
将与所述音频帧的所述至少一个剩余音频对象内的所述前一音频帧的所述经分离的音频对象对应的音频对象信号设置为来自所述前一音频的所述经分离的音频对象的所述音频帧的所述音频对象信号乘以淡入窗口函数;以及
将与所述至少一个跟随音频帧的所述至少一个剩余音频对象内的所述音频帧的所述经分离的音频对象对应的音频对象信号设置为所述用于分离的音频对象的所述音频对象信号乘以淡出窗口函数。
9.根据权利要求8所述的方法,其中所述方法还包括:
将所述音频帧的所述至少一个剩余音频对象的元数据设置为所述音频帧的未被识别用于分离的音频对象的所述元数据;
将所述至少一个跟随音频帧的所述至少一个剩余音频对象的元数据设置为所述至少一个跟随音频帧的未被识别用于分离的音频对象的所述元数据;
将所述音频帧的所述经分离的音频对象的元数据设置为所述音频帧的所述用于分离的音频对象的元数据;以及
将所述至少一个跟随音频帧的所述经分离的音频对象的元数据设置为所述至少一个跟随音频帧的用于分离的音频对象的元数据。
10.根据权利要求8和9所述的方法,其中使用所述淡入淡出转换,来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的经分离的音频对象的所述转换方式。
11.根据权利要求8至10所述的方法,其中所述淡出窗口函数是Hann窗口函数的后半部分,并且其中所述淡入窗口函数是1减去所述Hann窗口函数的所述后半部分。
12.根据权利要求2至11所述的方法,其中确定音频帧上的所述多个音频对象信号中的每个音频对象信号的所述能量还包括:通过使用来自前一音频帧的对应音频对象信号的能量,来平滑所述多个音频对象信号中的每个音频对象信号的所述能量,并且其中确定所述音频帧上的所述多个音频传送信号的所述能量还包括:通过使用来自所述前一音频帧的所述多个音频信号中的每个音频信号的对应能量,来平滑所述多个音频信号中的所述每个音频信号的所述能量。
13.根据权利要求1至12所述的方法,其中所述另一输入音频格式包括以下至少一项:
至少一个音频信号以及输入音频格式元数据集;以及
至少两个音频信号。
14.一种用于空间音频信号编码的装置,包括用于以下的部件:
从音频帧的多个音频对象中确定用于分离的音频对象;
从所述多个音频对象中将所述用于分离的音频对象进行分离,以提供经分离的音频对象以及至少一个剩余音频对象;
用音频对象编码器对所述经分离的音频对象进行编码;以及
将所述多个剩余音频对象与另一输入音频格式一起编码。
15.根据权利要求14所述的装置,其中所述多个音频对象中的每个音频对象包括:音频对象信号以及音频对象元数据,其中所述用于从所述音频帧的所述多个音频对象中确定用于分离的音频对象的部件包括用于以下的部件:
确定所述音频帧上的所述多个音频对象信号中的每个音频对象信号的能量;
确定所述音频帧上的所述另一输入音频格式的至少一个音频信号的能量;
通过从所述多个音频对象信号的所述能量中选择最大能量,来确定最响亮能量;
确定能量比例因子;
根据所述能量比例因子,确定针对所述音频帧的阈值;
确定所述最响亮能量与在所述音频帧上计算的前一音频帧的经分离的音频对象的所述能量的比率;
将所述最响亮能量与在所述音频帧上计算的所述前一音频帧的所述经分离的音频对象的所述能量的所述比率与所述阈值进行比较;以及
取决于所述比较,针对所述音频帧,将与所述最响亮能量对应的所述音频对象识别为所述用于分离的音频对象,或者将针对所述前一音频帧的所述经分离的音频对象识别为所述用于分离的音频对象。
16.根据权利要求15所述的装置,其中所述用于确定所述能量比例因子的部件包括用于以下的部件:
通过对所述音频帧上的所述多个音频对象信号中的每个音频对象信号的所述能量、所述前一音频帧上的多个音频对象信号中的每个音频对象信号的所述能量、所述音频帧上的所述另一音频输入格式的所述至少一个音频信号的所述能量、以及所述前一音频帧上的所述另一音频输入格式的所述至少一个音频信号的所述能量求和,来确定总能量;以及
确定所述最响亮能量、来自所述前一音频帧的最响亮能量、在所述音频帧上计算的所述前一音频帧的所述经分离的音频对象的所述能量以及在所述音频帧上计算的所述前一音频帧的所述经分离的音频对象的所述能量的和能量与所述总能量的比率。
17.根据权利要求15和16所述的装置,其中所述用于从所述音频帧的所述多个音频对象中确定所述音频对象的部件还包括:用于确定转换方式的部件,通过所述转换方式执行从所述前一音频帧的经分离的音频对象到所述音频帧的所述经分离的音频对象的改变。
18.根据权利要求17所述的装置,其中所述用于确定转换方式的部件包括用于以下的部件:
将所述能量比例因子与阈值进行比较;
当所述能量比例因子小于所述阈值时,确定使用硬转换来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的经分离的音频对象的所述转换方式;以及
当所述能量比例因子大于或等于所述阈值时,确定使用淡出淡入转换来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的所述经分离的音频对象的所述转换方式。
19.根据权利要求15至18所述的装置,其中所述用于从所述多个音频对象中将所述用于分离的音频对象进行分离以提供所述经分离的音频对象以及至少一个剩余音频对象的部件包括用于以下的部件:
针对所述至少一个剩余音频对象,将所述用于分离的已识别音频对象的所述音频对象信号设置为零;
将所述音频帧的所述经分离的音频对象的元数据设置为所述用于分离的已识别音频对象的元数据;
将所述音频帧的所述经分离的音频对象的音频对象信号设置为所述用于分离的已识别音频对象的所述音频对象信号;
将所述剩余音频对象中的所述至少一个剩余音频对象的音频对象信号设置为未被识别用于分离的音频对象的所述音频对象信号;以及
将所述剩余音频对象中的至少一个剩余音频对象的元数据设置为未被识别用于分离的音频对象的所述元数据。
20.根据权利要求17所述的装置,其中使用所述硬转换,来执行从所述前一音频帧的经分离的音频对象到所述音频帧的经分离的音频对象的转换方式。
21.根据权利要求15至20所述的装置,其中所述用于从所述多个音频对象中将所述用于分离的音频对象进行分离以提供所述经分离的音频对象以及至少一个剩余音频对象的部件还包括:从所述多个音频对象中将所述用于分离的音频对象进行分离,以提供至少一个跟随音频帧的所述经分离的音频对象以及所述至少一个跟随音频帧的多个剩余音频对象,其中所述至少一个跟随音频帧跟随了所述音频帧,其中所述装置还包括用于以下的部件:
将所述音频帧的所述经分离的音频对象的所述音频对象信号设置为所述前一音频帧的所述经分离的音频对象的所述音频帧的所述音频对象信号乘以淡出窗口函数;
将所述至少一个跟随音频帧的所述经分离的音频对象的音频对象信号设置为所述用于分离的音频对象的所述至少一个跟随音频帧的所述音频对象的信号乘以淡入窗口函数;
将与所述音频帧的所述至少一个剩余音频对象内的所述前一音频帧的所述经分离的音频对象对应的音频对象信号设置为来自所述前一音频的所述经分离的音频对象的所述音频帧的所述音频对象信号乘以淡入窗口函数;以及
将与所述至少一个跟随音频帧的所述至少一个剩余音频对象内的所述音频帧的所述经分离的音频对象对应的音频对象信号设置为所述用于分离的音频对象的所述音频对象信号乘以淡出窗口函数。
22.根据权利要求21所述的装置,其中所述装置还包括用于以下的部件:
将所述音频帧的所述至少一个剩余音频对象的元数据设置为所述音频帧的未被识别用于分离的音频对象的所述元数据;
将所述至少一个跟随音频帧的所述至少一个剩余音频对象的元数据设置为所述至少一个跟随音频帧的未被识别用于分离的音频对象的所述元数据;
将所述音频帧的所述经分离的音频对象的元数据设置为所述音频帧的所述用于分离的音频对象的元数据;以及
将所述至少一个跟随音频帧的所述经分离的音频对象的元数据设置为所述至少一个跟随音频帧的用于分离的音频对象的元数据。
23.根据权利要求21和22所述的装置,其中使用所述淡入淡出转换,来执行从所述前一音频帧的所述经分离的音频对象到所述音频帧的经分离的音频对象的所述转换方式。
24.根据权利要求21至23所述的装置,其中所述淡出窗口函数是Hann窗口函数的后半部分,并且其中所述淡入窗口函数是1减去所述Hann窗口函数的所述后半部分。
25.根据权利要求15至24所述的装置,其中确定音频帧上的所述多个音频对象信号中的每个音频对象信号的所述能量还包括:通过使用来自前一音频帧的对应音频对象信号的能量,来平滑所述多个音频对象信号中的每个音频对象信号的所述能量,并且其中确定所述音频帧上的所述多个音频传送信号的所述能量还包括:通过使用来自所述前一音频帧的所述多个音频信号中的每个音频信号的对应能量,来平滑所述多个音频信号中的所述每个音频信号的所述能量。
26.根据权利要求14至25所述的装置,其中所述另一输入音频格式包括以下至少一项:
至少一个音频信号以及输入音频格式元数据集;以及
至少两个音频信号。
CN202180096745.0A 2021-04-08 2021-04-08 分离空间音频对象 Pending CN117083881A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2021/050257 WO2022214730A1 (en) 2021-04-08 2021-04-08 Separating spatial audio objects

Publications (1)

Publication Number Publication Date
CN117083881A true CN117083881A (zh) 2023-11-17

Family

ID=83546028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180096745.0A Pending CN117083881A (zh) 2021-04-08 2021-04-08 分离空间音频对象

Country Status (4)

Country Link
EP (1) EP4320876A1 (zh)
KR (1) KR20230165855A (zh)
CN (1) CN117083881A (zh)
WO (1) WO2022214730A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240057243A (ko) * 2022-10-24 2024-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104428835B (zh) * 2012-07-09 2017-10-31 皇家飞利浦有限公司 音频信号的编码和解码
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio

Also Published As

Publication number Publication date
EP4320876A1 (en) 2024-02-14
WO2022214730A1 (en) 2022-10-13
KR20230165855A (ko) 2023-12-05

Similar Documents

Publication Publication Date Title
US20230197086A1 (en) The merging of spatial audio parameters
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
US20230402053A1 (en) Combining of spatial audio parameters
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
CN117083881A (zh) 分离空间音频对象
CN113646836A (zh) 声场相关渲染
US20240046939A1 (en) Quantizing spatial audio parameters
KR102664650B1 (ko) 공간 오디오 파라미터의 유의성의 결정 및 관련 인코딩
US20230335143A1 (en) Quantizing spatial audio parameters
US20240079014A1 (en) Transforming spatial audio parameters
EP4315324A1 (en) Combining spatial audio streams
WO2021250312A1 (en) The reduction of spatial audio parameters
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
WO2023031498A1 (en) Silence descriptor using spatial parameters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination