CN117501361A - 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性 - Google Patents
用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性 Download PDFInfo
- Publication number
- CN117501361A CN117501361A CN202180099390.0A CN202180099390A CN117501361A CN 117501361 A CN117501361 A CN 117501361A CN 202180099390 A CN202180099390 A CN 202180099390A CN 117501361 A CN117501361 A CN 117501361A
- Authority
- CN
- China
- Prior art keywords
- itd
- audio signal
- determining
- channel audio
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000004044 response Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 49
- 238000001914 filtration Methods 0.000 claims description 28
- ULFUJLFTRWWLPO-UHFFFAOYSA-N ethyl 2,7,7-trimethyl-5-oxo-4-(4-phenylphenyl)-1,4,6,8-tetrahydroquinoline-3-carboxylate Chemical compound CCOC(=O)C1=C(C)NC(CC(C)(C)CC2=O)=C2C1C(C=C1)=CC=C1C1=CC=CC=C1 ULFUJLFTRWWLPO-UHFFFAOYSA-N 0.000 claims description 18
- 230000006641 stabilisation Effects 0.000 claims description 17
- 238000011105 stabilization Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000000087 stabilizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000003381 stabilizer Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 229940060587 alpha e Drugs 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
提供了一种在编码器或解码器中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法和装置(110,120,1000,1006)。该方法包括:对于多声道音频信号的每个帧m:生成多声道音频信号的声道对的互相关性;基于该互相关性,确定第一ITD估计;确定多声道音频信号是否是CC信号;以及响应于确定多声道音频信号是CC信号,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD。
Description
技术领域
本公开一般地涉及通信,并且更具体地,涉及支持音频编码和解码的方法以及相关的编码器和解码器。
背景技术
空间或3D音频是表示各种多声道音频信号的通用表述。取决于捕获和呈现方法,音频场景由空间音频格式表示。由捕获方法(麦克风)定义的典型空间音频格式例如被表示为立体声、双耳、立体混响等。空间音频呈现系统(耳机或扬声器)能够使用立体声(左声道和右声道2.0)或更高级的多声道音频信号(2.1、5.1、7.1等)来呈现空间音频场景。
用于传输和操纵这种音频信号的最新技术允许最终用户具有空间质量更高的增强音频体验,这通常导致更好的可懂度以及增强现实。空间音频编码技术(例如MPEGSurround或MPEG-H 3D Audio)生成空间音频信号的紧凑表示,其与数据速率约束应用(例如通过互联网的流式发送)兼容。但是,当数据速率约束较强时,空间音频信号的传输受到限制,并且因此解码后的音频声道的后处理也被用于增强空间音频播放。常用的技术例如能够将解码后的单声道或立体声信号盲目上混成多声道音频(5.1声道或更多声道)。
为了有效地呈现空间音频场景,空间音频编码和处理技术利用多声道音频信号的空间特性。特别地,空间音频捕获的声道之间的时差和声级差被用于近似表征我们在空间中对定向声音的感知的耳间线索。因为声道间时差和声级差仅是听觉系统能够检测到的内容的近似(即,耳朵入口的耳间时差和声级差),所以声道间时差从感知方面相关是非常重要的。声道间时差和声级差(ICTD和ICLD)通常被用于对多声道音频信号的定向分量进行建模,而声道间互相关性(ICC)(其对耳间互相关性(IACC)进行建模)被用于表征音频图像的宽度。特别是对于低频,立体声图像也可以使用声道间相位差(ICPD)来建模。
注意,与空间听觉感知相关的双耳线索被称为耳间声级差(ILD)、耳间时差(ITD)以及耳间相干性或相关性(IC或IACC)。当考虑一般多声道信号时,与声道相关的对应线索是声道间声级差(ICLD)、声道间时差(ICTD)以及声道间相干性或相关性(ICC)。因为空间音频处理主要在所捕获的音频声道上进行操作,所以有时省略“C”,并且当提及音频声道时还使用术语ITD、ILD和IC。
图1示出了采用参数空间音频分析的常规设置。立体声信号对被输入到立体声编码器110。空间分析器112辅助下混频器114,下混频器114产生两个输入声道的单个声道表示。下混频过程旨在补偿声道在时间、相关性和相位上的差异,从而最大化下混频信号的能量。这实现了对立体声信号的有效编码。下混频后的信号被转发到下混频编码器116。来自空间分析的参数由参数编码器118编码,并且与编码后的下混频一起被发送到解码器。通常,一些立体声参数以感知频率标度(例如等效矩形带宽(ERB)标度)上的频谱子带来表示。立体声解码器120基于来自下混频解码器124的信号和来自参数解码器122的参数,在空间合成器126中执行立体声合成。立体声合成操作旨在恢复声道在时间、声级、相关性和相位上的差异,从而产生类似于所输入的音频信号的立体声图像。
因为编码后的参数被用于针对人类听觉系统呈现空间音频,所以可以借助感知考虑对声道间参数进行提取和编码以最大化感知质量。
立体声和多声道音频信号是可能难以建模的复杂信号,尤其是当环境嘈杂或混响时,或者是当混合声中的各种音频分量在时间和频率上重叠时,即,嘈杂的语音、音乐中的语音或同时说话者等。
当涉及估计ICTD时,常规参数方法依赖于互相关函数(CCF)rxy,其是两个波形x(n)和y(n)之间的相似性的度量,并且通常在时域中被定义为:
rxy(n,τ)=E[x(n)y(n+τ)]
其中τ是时滞参数,E[·]是期望算子。对于长度为N的信号帧,互相关性通常被估计为:
通常,ICC被获得为CCF的最大值,其根据以下公式通过信号能量被规范化:
对应于ICC的时滞τ被确定为声道x与y之间的ICTD。CCF还可以使用离散傅立叶变换被计算为:
rxy(τ)=DFT-1(X(k)Y*(k))
其中X[k]是时域信号x[n]的离散傅立叶变换(DFT),Y*[k]是时域信号y[n]的离散傅立叶变换(DFT)的复共轭,即:
并且DFT-1(·)或IDFT(·)表示逆离散傅立叶变换。但是应当注意,DFT将分析帧复制到周期信号中,从而产生x(n)和y(n)的循环卷积。基于此,分析帧通常被用零填充以匹配真正的互相关性。
对于y(n)纯粹是x(n)的延迟版本的情况,互相关函数由以下公式提供
其中*表示卷积,δ(τ-τ0)是克罗内克增量(Kronecker delta)函数,即,在τ0时等于1,否则等于0。这意味着x与y之间的互相关函数是通过与rxx(τ)卷积而扩展的函数,rxx(τ)是x(n)的自相关函数。对于具有多个延迟分量(例如多个说话者)的信号帧,在信号之间存在的每个延迟处将具有峰值,并且互相关性变为:
rxy(τ)=rxx(τ)*∑iδ(τ-τi)。
然后,这些增量函数可能扩展到彼此中,并且使得识别信号帧内的多个延迟变得困难。但是,广义互相关(GCC)函数没有这种扩展。GCC通常被定义为:
其中ψ[k]是频率加权。对于空间音频,相位变换(PHAT)因其在低噪声环境中对混响的稳健性而已得到了应用。相位变换基本上是每个频率系数的绝对值,即:
由此,这种加权将使交叉频谱(cross-spectrum)变白,以使得每个分量的功率变得相等。在信号x[n]和y[n]中具有纯延迟和不相关噪声的情况下,相位变换后的GCC(GCC-PHAT)恰好变成克罗内克增量函数δ(τ-τ0),即:
图2示出了纯延迟情况下具有声道间时差的信号对、它们的互相关性以及具有相位变换分析的广义互相关性。
在分析所记录的立体声信号的真实场景中,声道不只是在延迟方面不同,而是例如将具有不同的噪声、麦克风和记录设备的频率响应的变化、以及可能具有不同的混响模式。在这种情况下,通常通过查找GCC-PHAT的最大值来找到时滞τ。在这种情况下,分析还可能显示帧与帧之间的变化。这是短期傅立叶分析中的典型特性,但也是因为源信号的级别和频谱含量可能变化,例如对于语音记录是这种情况。为此,在时滞的最终分析中应用稳定化是有益的。这可以通过以下方式实现:当信号能量相对于背景噪声低时,减慢或阻止时滞的更新。
在美国申请公开号2020/0194013A1中,通过应用GCC-PHAT的自适应低通滤波器来稳定ITD选择。通过对连续帧的互相关性进行自适应滤波,对互相关性应用低通滤波。低通滤波器还被应用于互相关性的时域表示。对于估计信噪比(SNR)高的干净信号,使用更高程度的低通滤波。
美国申请公开号US20200211575A1描述了一种根据SNR估计来重用先前存储的ITD值的方法,从而获得随时间更稳定的ITD参数。
立体声记录中的声道之间的时滞来自于麦克风之间的物理距离。如图3所示,AB麦克风配置通常在麦克风之间具有相对大的距离,约为1-1.5米。因此,取决于所捕获的音频源的位置,使用AB配置的记录通常在声道之间具有时间延迟。一些麦克风配置(例如XY和MS)尝试将麦克风膜片定位为尽可能靠近彼此,即,所谓的重合麦克风配置。这些重合麦克风配置通常在声道之间具有非常小或为零的时间延迟。XY配置主要通过声级差来捕获立体声图像。MS设置(Mid-Side(中侧)的缩写)具有定向到前方的中声道以及带有八字形拾音模式的麦克风,以捕获侧声道中的环境。使用以下关系将中侧表示转换成左-右表示:
其中侧声道S以相反的符号被添加到左声道和右声道。更一般地说,可以通过将两个或更多个单声道信号转换成立体声表示来获得立体声表示,其中信号之间的时差(其与捕获的物理距离相关)应当很小。合适的捕获技术的另一个示例是使用四面体麦克风,其具有四个间隔紧密的心形,可以从中形成立体表示。
发明内容
对于MS重合麦克风配置(以下称为“重合配置”,并且缩写为“CC”),理想情况下时滞应当始终接近零。但是,由于混响和噪声,可能检测到偶尔的时滞。如果在立体声或多声道音频编码器的上下文中对时滞进行编码,则由错误地检测到的滞后引起的时滞中的突然跳变可能给出重构音频信号的音源位置不稳定的印象。此外,错误或不稳定的时滞将对下混频信号产生负面影响,下混频信号可能由于这些错误而展现出不稳定的能量。
即使按照US20200194013A1中的建议对GCC-PHAT进行低通滤波,也可能在CC信号中检测到错误的ITD。如US20200211575A1中概述的重用先前存储的ITD值的能力不能防止CC信号中的错误的ITD估计。事实上,所添加的稳定化可能使错误决策持续更长时间。
本公开的某些方面及其实施例能够提供这些或其他挑战的解决方案。本文描述的本发明概念的各种实施例检测例如MS麦克风配置的重合配置。如果检测到这种配置(例如MS麦克风配置),则可以适配时滞检测,以使得偏向更接近零的时滞。
根据本发明概念的一些实施例,提供了一种在编码器或解码器中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法。所述方法包括:对于多声道音频信号的每个帧m,生成所述多声道音频信号的声道对的互相关性。所述方法包括:基于所述互相关性,确定第一ITD估计。所述方法包括:确定所述多声道音频信号是否是CC信号。所述方法包括:响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置为偏向接近零的ITD以获得最终ITD。
在本发明概念的其他实施例中提供了类似的装置、计算机程序和计算机程序产品。
可以实现的优点使得能够稳定时滞或ITD检测,这提高了重合配置(例如来自MS配置)的立体声信号的重构音频的编码质量和稳定性。稳定时滞或ITD检测提高了重合配置(例如来自MS配置)的立体声信号的重构音频的编码质量和稳定性。
配置检测可以基于GCC-PHAT频谱,该频谱已经被计算以估计时滞,与基线系统相比,仅需非常小的计算开销。
附图说明
被包括以提供对本公开的进一步理解并且被结合在本申请中并构成本申请的一部分的附图示出了本发明概念的某些非限制性实施例。在附图中:
图1是示出立体声编码器和解码器系统的框图;
图2是具有声道间时差的信号对、它们的互相关性以及具有相位变换分析的广义互相关性的图示;
图3是麦克风配置及其捕获模式的图示;
图4是对于CC信号可能出现的反对称形式的图示;
图5是根据本发明概念的一些实施例的用于强调接近零的ITD的示例性屏蔽的图示;
图6是示出根据本发明概念的一些实施例的用于识别CC信号并且适配ITD搜索的操作的流程图;
图7是示出根据本发明概念的一些实施例的编码器/解码器装置识别CC信号并且适配ITD搜索的操作的框图;
图8是示出根据本发明概念的一些实施例的用于识别MS配置信号并且适配ITD搜索的操作的流程图;
图9是示出根据本发明概念的一些实施例的编码器/解码器装置识别MS配置信号并且适配ITD搜索的操作的框图;
图10是示出根据本发明概念的一些实施例的编码器和/或解码器可以在其中操作的示例性环境的框图;
图11是根据一些实施例的虚拟化环境的框图;
图12是示出根据本发明概念的一些实施例的编码器的框图;
图13是示出根据本发明概念的一些实施例的解码器的框图;以及
图14-15是示出根据本发明概念的一些实施例的编码器或解码器的操作的流程图。
具体实施方式
现在将参考附图更全面地描述本文中设想的一些实施例。通过示例的方式来提供实施例以将主题的范围传达给本领域技术人员,其中示出了本发明概念的实施例的示例。但是,本发明概念可以以多种不同的形式体现,并且不应被解释为限于本文阐述的实施例。相反,提供这些实施例以使得本公开详尽并完整,并且将本发明概念的范围完全传达给本领域技术人员。还应当注意,这些实施例并不相互排斥。来自一个实施例的组件可以默认为在另一个实施例中存在/使用。
在进一步详细描述实施例之前,图10示出了可以被用于对本文所述的位流进行编码的编码器110的操作环境的示例。编码器110从网络1002和/或从存储装置1004接收音频,将音频编码为如下所述的位流,以及经由网络1008将经编码的音频发送到解码器120。存储设备1004可以是多声道音频信号的存储库(例如商店或流音频服务的存储库)的一部分、单独的存储组件、移动设备的组件等。解码器120可以是具有媒体播放器1012的设备1010的一部分。设备1010可以是移动设备、机顶盒设备、台式计算机等。
图11是示出其中可以虚拟化由一些实施例实现的功能的虚拟化环境1100的框图。在当前上下文中,虚拟化意味着创建装置或设备的虚拟版本,其可以包括虚拟化硬件平台、存储设备和联网资源。如本文所使用的,虚拟化可以被应用于本文描述的任何设备或其组件,并且涉及一种实现,其中至少一部分功能被实现为一个或多个虚拟组件。本文描述的一些或所有功能可以被实现为由在由一个或多个硬件节点(例如作为网络节点、UE、核心网络节点或主机操作的硬件计算设备)托管的一个或多个虚拟环境1100中实现的一个或多个虚拟机(VM)执行的虚拟组件。此外,在其中虚拟节点不需要无线电连接(例如核心网络节点或主机)的实施例中,节点可以被完全虚拟化。
应用1102(其可以替代地被称为软件实例、虚拟设备、网络功能、虚拟节点、虚拟网络功能等)在虚拟化环境1100中运行,以实现本文公开的一些实施例的一些特征、功能和/或益处。
硬件1104包括处理电路、存储能够由硬件处理电路执行的软件和/或指令的存储器、和/或如本文所述的其他硬件设备,例如网络接口、输入/输出接口等。软件可以由处理电路执行以实例化一个或多个虚拟化层1106(也称为系统管理程序或虚拟机监视器(VMM)),提供VM 1108A和1108B(其中一个或多个通常可以被称为VM 1108),和/或执行结合本文描述的一些实施例而描述的任何功能、特征和/或益处。虚拟化层1106可以向VM 1108呈现看起来像联网硬件的虚拟操作平台。
VM 1108包括虚拟处理、虚拟存储器、虚拟联网或接口以及虚拟存储装置,并且可以由对应的虚拟化层1106运行。虚拟设备1102的实例的不同实施例可以在一个或多个VM1108上实现,并且可以以不同的方式来实现。在一些上下文中,硬件的虚拟化被称为网络功能虚拟化(NFV)。NFV可以被用于将许多网络设备类型整合到可以位于数据中心和客户驻地设备中的行业标准的大容量服务器硬件、物理交换机和物理存储装置上。
在NFV的上下文中,VM 1108可以是物理机的软件实现,该软件实现运行程序就好像程序是在物理的非虚拟机器上执行一样。每个VM 1108以及硬件1104的执行该VM的部分(专用于该VM的硬件和/或该VM与其他VM共享的硬件)形成单独的虚拟网元。仍然在NFV的上下文中,虚拟网络功能负责处理在硬件1104之上的一个或多个VM 1108中运行的特定网络功能,并且对应于应用1102。
硬件1104可以在具有通用或特定组件的独立网络节点中被实现。硬件1104可以经由虚拟化来实现一些功能。替代地,硬件1104可以是较大的硬件群集(例如诸如在数据中心或CPE)的一部分,其中许多硬件节点一起工作并且经由管理和编排1100进行管理,除其他项以外,管理和编排1100监督应用1102的生命周期管理。在一些实施例中,硬件1104被耦接到一个或多个无线电单元,每个无线电单元包括可以被耦接到一个或多个天线的一个或多个发射机和一个或多个接收机。无线电单元可以经由一个或多个适当的网络接口与其他硬件节点直接通信,以及可以与虚拟组件组合使用以提供具有无线电能力的虚拟节点,例如无线电接入节点或基站。在一些实施例中,可以使用控制系统1112来提供一些信令,控制系统1112可以替代地被用于硬件节点与无线电单元之间的通信。
图12是示出根据本发明概念的一些实施例的被配置为对音频帧进行编码的编码器1000的单元的框图。如图所示,编码器1000可以包括网络接口电路1205(也称为网络接口),其被配置为提供与其他设备/实体/功能等的通信。编码器1000还可以包括耦接到网络接口电路1205的处理器电路1201(也称为处理器)以及耦接到处理器电路的存储器电路1203(也称为存储器)。存储器电路1203可以包括计算机可读程序代码,该计算机可读程序代码在由处理器电路1201执行时使得处理器电路执行根据本文公开的实施例的操作。
根据其他实施例,处理器电路1201可以被定义为包括存储器,以使得不需要单独的存储器电路。如本文所讨论的,编码器1000的操作可以由处理器1201和/或网络接口1205执行。例如,处理器1201可以控制网络接口1205以通过网络接口1205向解码器1006发送通信和/或从一个或多个其他网络节点/实体/服务器(例如其他编码器节点、存储库服务器等)接收通信。此外,模块可以被存储在存储器1203中,并且这些模块可以提供指令,以使得当模块的指令由处理器1201执行时,处理器1201执行相应的操作。
图13是示出根据本发明概念的一些实施例的被配置为对音频帧进行解码的解码器1006的单元的框图。如图所示,解码器1006可以包括网络接口电路1305(也称为网络接口),其被配置为提供与其他设备/实体/功能等的通信。解码器1006还可以包括耦接到网络接口电路1305的处理器电路1301(也称为处理器)以及耦接到处理器电路的存储器电路1303(也称为存储器)。存储器电路1303可以包括计算机可读程序代码,该计算机可读程序代码在由处理器电路1301执行时使得处理器电路执行根据本文公开的实施例的操作。
根据其他实施例,处理器电路1301可以被定义为包括存储器,以使得不需要单独的存储器电路。如本文所讨论的,解码器1006的操作可以由处理器1301和/或网络接口1305执行。例如,处理器电路1301可以控制网络接口电路1305以从编码器1000接收通信。此外,模块可以被存储在存储器1303中,并且这些模块可以提供指令,以使得当模块的指令由处理器电路1301执行时,处理器电路1301执行相应的操作。
考虑一种系统,其被指定为获得包括两个或更多个音频声道的音频输入的空间表示参数。该系统可以是如图1所示的立体声编码和解码系统的一部分,或者是编码器/解码器的一部分。音频输入被分段成时间帧m。对于多声道方法,通常针对声道对获得空间参数,而对于立体声设置,该对仅是在声道和右声道L和R。在编码器中,该方法可以是空间分析的一部分,以辅助下混频过程并且对空间参数进行编码以表示空间图像。在解码器中,当接收到的声道的数量大于解码器单元(例如具有单声道音频播放能力的立体声解码器)可以处理的数量时,该方法可以作为下混频过程的补充。以下,我们专注于作为由空间分析器112针对单个声道对l(n,m)和r(n,m)导出的空间参数集的一部分的声道间时差(ITD)参数,其中n表示样本号,m表示帧号。以下,索引m被用于指示针对帧m计算的值。
转到图6,该系统具有一种针对来自重合配置的立体声信号而激活的指定方法。空间表示参数包括ITD参数,在一些实施例中,可以在方框610中使用输入声道的具有相位变换的广义互相关性(GCC-PHAT)分析来导出ITD参数。如US20200194013A1中所建议的,这种分析可以包括对时间帧之间的互相关性进行平滑。在方框620中,在这些实施例中,针对帧m的第一ITD0(m)参数估计是GCC-PHAT的绝对最大值。可以根据以下公式来确定第一估计:
其中ITD0(m)是ITD的第一估计,τ是时滞参数,是GCC-PHAT。
已观察到,MS信号(即,特定种类的CC)的GCC-PHAT可能显示反对称模式,如图4所示。这种结构来自由于MS设置中的麦克风之间的微小距离而导致的时差,以及S信号以相反的符号被加到左声道和右声道的事实。在方框630计算CC检测变量中,当针对帧m形成重合配置检测变量D(m)时可以利用这种模式。
被发现针对多个立体声表示给出重合配置的肯定指示的替代检测变量是:
或者
其中R是搜索范围,W定义在对称性的时滞下所匹配的在ITD的第一估计周围的区域-ITD0(m),ITD′0(m)是限于搜索范围[-R,R]的ITD候选,例如被确定为:
对于重合配置(例如MS信号),对称性将出现在τ=0附近,并且合适的搜索范围可以是R=10或在范围R∈[5,20]内。定义匹配区域的合适值是W=1或在范围[0,5]内。本文描述的实施例假设音频信号的采样频率为32kHz,并且合适的参数范围可以取决于采样频率。
为了稳定检测器,可能需要对决策变量进行低通滤波,
DLP(m)=αD(m)+(1-α)DLP(m-1)
其中α是低通滤波器系数。合适的α值可以是α=0.1或在范围α∈(0,0.2]内。如果在形成D(m)时不包括绝对值,则低通滤波可以包括绝对值。
DLP(m)=α|D(m)|+(1-α)DLp(m-1)
因为检测器变量仅当源活动时才给出有效值,所以将决策变量的更新限于这种情况是有益的。低通滤波后的决策变量表达式然后变为
其中如果帧m活动(即,被分类为包含活动源信号(例如语音)),则A(m)为TRUE,否则为FALSE。例如,A(m)可以是语音活动检测器(VAD)的输出,或者是GCC-PHAT与阈值相比的绝对最大值,
指示源处于活动。在此,Cthr是常量,其中合适的值可以是Cthr=0.5或在范围Cthr∈[0.3,0.9]内。用于实现这种行为的另一种方法是使用活动指示符A(m)来适配低通滤波器系数α:
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
其中合适的滤波器系数值可以是αhigh=0.1或在范围α∈[αlow,0.5]内以及αlow=0.01或在范围αlow∈[0,αhigh]内。如果活动指示符为假(A(m)=FALSE),则检测器变量可能不可靠,并且可能需要使检测器变量朝向预定义值衰减:
其中D0是预定义值,例如D0=0或D0=DTHR,其中DTHR是下面描述的决策阈值。
在方框640中,为了确定信号是否是CC信号,检测器变量可以被与阈值进行比较。
如果在形成D(m)并且因此形成DLP(m)时不包括绝对值,则与阈值的比较可以包括绝对值。
注意,指示信号是CC信号意味着信号来自重合麦克风配置。如果已检测到CC信号,则可以对ITD搜索施加影响,以使得偏向接近零的ITD。在方框650中,例如美国申请公开号US20200194013A1中所述,应用ITD的稳定化,从而产生经稳定化的ITD(ITDstab(m))。在本发明概念的一些实施例中,在方框660,如果检测到CC信号,则选择具有最小绝对值的ITD。
其中ITD1(m)是最终ITD,ITD0(m)是第一ITD估计,ITDstab(m)是经稳定化的ITD。应当注意,稳定化过程可能产生与第一ITD估计相同的经稳定化的ITD,这意味着ITD1(m)可能与ITD0(m)相同,即使未检测到CC信号(检测到CC=FALSE)。在另一个实施例中,仅当绝对值在从零开始的范围[-R1,R1]内时才切换到更小的绝对值。
对于32kHz的采样频率,合适的R1值是R1=10或在范围R1∈[5,20]内。
还可以应用其他稳定化,例如考虑先前的ITD值,如在美国申请公开号US20200211575A1中那样。同样,在方框660中,在已检测到CC信号的情况下,如果绝对值更接近零,则接受稳定化的结果。同样,决定保留先前获得的ITD而不是经稳定化的ITD还可以取决于先前获得的ITD是否在从零开始的范围(例如[-R1,R1])内。
用于偏向接近零的ITD的另一种方法是应用GCC-PHAT的加权,以通过向接近零的值提供更大的权重来补充稳定化660。可以通过以下公式来获得加权w(τ):
w(τ)=max(0,1-|τ(1+C)/ITDMAX|)
另一方面,如果没有检测到CC信号,则省略加权,这相当于将加权设置为1。
如图5所示,对于C=5和ITDMAX=200(对于32kHz的采样频率,它们是这些常量的合适值),该加权函数有效地屏蔽了零周围的楔形相关值。ITD估计然后是加权GCC-PHAT的绝对最大值
注意,在检测到CC=FALSE的情况下,可以使用已经获得的ITD0(m)。
转到图7,上述实施例可以由互相关性分析器710来实现,互相关性分析器710可以产生输入信号L和R的GCC-PHAT分析。第一ITD估计由ITD分析器720生成。CC检测器730至少使用互相关性分析器的输出以及可选地使用第一ITD估计来检测低ITD信号,例如CC信号。CC检测器形成CC检测器变量,该CC检测器变量被与阈值进行比较以确定是否存在CC信号。如果检测到CC信号,则指示ITD稳定器740偏向接近零的ITD值。
图8示出了其中CC检测是基于对前一个帧的分析的实施例。在方框810中,在系统的启动期间初始化MS检测器变量存储器和MS检测器标志。对于每个帧m,执行方框820至850。
在方框820中,计算互相关性在方框830中,根据以下公式来确定加权互相关性的绝对最大值ITD1(m):
该加权可以与上述方框640相同,但是决策是基于来自前一个帧的CC检测。
还可以在可选的方框840中进一步稳定所识别的最大值,类似于如上所述的方框660中的稳定。在方框850中导出CC检测变量,类似于上面在方框630中描述的导出。然后存储该值以在下一个帧中使用。
如果在形成D(m)并且因此形成DLP(m)时不包括绝对值,则与阈值的比较可以包括绝对值。
在这种情况下,可以使用瞬时估计ITD0(m)或最终ITD值ITD(m)(包括方框840中的潜在稳定化方法)来形成决策变量。
转到图9,图8中描述的实施例可以通过互相关性分析器910来实现,互相关性分析器910可以产生输入信号L和R的GCC-PHAT分析。加权器和绝对最大值查找器920对互相关性进行加权,并且确定加权互相关性的绝对最大ITD。可选的ITD稳定器930稳定所识别的最大ITD以获得最终ITD1(m)。MS检测器变量和CC检测器标志更新器940导出CC检测变量,并且将CC检测变量提供给CC检测器变量和CC检测器标志存储器950以存储CC检测器变量以便在下一个帧中使用。
在下面的描述中,尽管编码器可以是立体声编码器110、编码器1000、虚拟化硬件1104或虚拟机1108A、1108B中的任何一个,但是编码器1000将被用于描述编码器的操作的功能。类似地,尽管解码器可以是立体声解码器120、解码器1006、硬件1104或虚拟机1108A、1108B中的任何一个,但是解码器1006将被用于描述解码器的操作的功能。现在将根据本发明概念的一些实施例,参考图14的流程图来讨论编码器1000(使用图12的框图的结构来实现)或解码器1006(使用图13的框图的结构来实现)的操作。例如,模块可以被存储在图12的存储器1203或图13的存储器1303中,并且这些模块可以提供指令,以使得当模块的指令由相应的处理电路1201/1301执行时,处理电路1201/1301执行流程图的相应操作。
图14示出了一种在编码器或解码器中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法。对于解码器,主要使用该方法的时间是当解码器接收到立体声信号但音频设备仅具有单声道播放能力时。
转到图14,针对多声道音频信号的每个帧m执行方框1401至1409中的操作。在方框1401中,处理电路1201/1301生成多声道音频信号的声道对的互相关性。可以如上面在图6和8中所述来生成互相关性。在本发明概念的一些实施例中,互相关性是具有相位变换的广义互相关性(GCC-PHAT)。
在方框1403中,处理电路1201/1301基于互相关性,确定第一ITD估计。处理电路1201/1301可以通过将第一ITD估计确定为互相关性的绝对最大值,确定第一ITD估计。在一些实施例中,处理电路1201/1301根据以下公式来确定互相关性的绝对最大值:
其中ITD0(m)是第一ITD估计,是互相关性,τ是时滞参数。
在方框1405中,处理电路1201/1301确定多声道音频信号是否是CC信号。
在本发明概念的一些实施例中,处理电路1201/1301基于CC检测变量,确定多声道音频信号是否是CC信号。图15示出了基于CC检测变量来确定多声道音频信号是否是CC信号的实施例。转到图15,在方框1501中,处理电路1201/1301计算CC检测变量。上面描述了计算CC检测变量。
在方框1503中,处理电路1201/1301确定CC检测变量是否高于阈值。在这些实施例的一些中,处理电路1201/1301通过确定CC检测变量的绝对值是否高于阈值,确定CC检测变量是否高于阈值。
在方框1505中,处理电路1201/1301响应于确定CC检测变量高于阈值,确定多声道音频信号是CC信号。在方框1507中,处理电路1201/1301响应于确定CC检测变量不高于阈值,确定多声道音频信号不是CC信号。
在其他实施例中,处理电路1201/1301通过检测多声道音频信号的声道对中的互相关性中的反对称模式和对称模式中的一个模式,确定多声道音频信号是否是CC信号。在一些实施例中,检测分量中的反对称模式包括根据以下公式来检测反对称模式:
其中D(m)是CC检测变量,是GCC-PHAT,ITD0(m)是第一ITD估计。
在本发明概念的其他实施例中,处理电路1201/1301通过根据以下中的至少一项检测反对称模式,检测互相关性中的反对称模式和对称模式中的该模式:
或者
其中D(m)是CC检测变量,是GCC-PHAT,R是搜索范围,W定义所匹配的在ITD的第一估计周围的区域,ITD'0(m)是限于搜索范围[-R,R]的ITD候选。
返回到图14,在方框1407中,处理电路1201/1301响应于确定多声道音频信号是CC信号,偏置ITD搜索以偏向接近零的ITD以便获得最终ITD。
在一些实施例中,处理电路1201/1301通过选择具有最小绝对值的ITD,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD。在这些实施例中,处理电路1201/1301选择具有最小绝对值的ITD包括:根据以下公式,选择ITD作为最终ITD:
其中,ITD1(m)是最终ITD,ITD0(m)是第一ITD估计,ITDstab(m)是经稳定化的ITD。
在本发明概念的其他实施例中,处理电路1201/1301通过从在零周围的有限范围内的ITD候选中选择最终ITD,将ITD搜索偏置为偏向接近零的ITD。
在本发明概念的其他实施例中,处理电路1201/1301通过应用互相关性的加权以将更大的权重分配给接近零的互相关性的值,将ITD搜索偏置为偏向接近零的ITD。
返回到图14,在方框1409中,处理电路1201/1301响应于确定多声道音频信号不是CC信号,获得最终ITD而不偏向接近零的ITD。
在本发明概念的一些其他实施例中,处理电路1201/1301向所选择的ITD候选应用稳定化以获得最终ITD。所选择的ITD候选是从所生成的至少一个ITD候选中选择的。
针对编码器/解码器和相关方法的一些实施例,图14的流程图中的各种操作可以是可选的。例如,关于示例实施例1的方法(下面阐述),图14的方框1409的操作可以是可选的。
尽管本文描述的计算设备(例如UE、网络节点、主机)可以包括所示的硬件组件的组合,但是其他实施例可以包括具有不同组件组合的计算设备。将理解,这些计算设备可以包括执行本文公开的任务、特征、功能和方法所需的硬件和/或软件的任何合适的组合。本文描述的确定、计算、获得或类似的操作可以由处理电路来执行,处理电路可以例如通过将所获得的信息转换成其他信息、将所获得的信息或转换后的信息与存储在网络节点中的信息进行比较、和/或执行基于所获得的信息或转换后的信息的一个或多个操作来处理信息;以及作为所述处理的结果做出确定。此外,尽管将组件描绘为位于较大框内或嵌套在多个框内的单个框,但实际上,计算设备可以包括构成单个所示组件的多个不同物理组件,并且功能可以在单独的组件之间划分。例如,通信接口可以被配置为包括本文描述的任何组件,和/或组件的功能可以在处理电路与通信接口之间划分。在另一个示例中,任何这种组件的非计算密集型功能可以以软件或固件来实现,而计算密集型功能可以以硬件来实现。
在某些实施例中,本文描述的一些或全部功能可以通过处理电路执行存储在存储器上的指令来提供,在某些实施例中,存储器可以是非暂时性计算机可读存储介质形式的计算机程序产品。在替代实施例中,一些或全部功能可以由处理电路提供,而无需诸如以硬连线方式执行存储在单独的或分离的设备可读存储介质上的指令。在这些特定实施例的任何一个中,无论是否执行存储在非暂时性计算机可读存储介质上的指令,处理电路都可以被配置为执行所描述的功能。这种功能所提供的益处不仅限于处理电路或计算设备的其他组件,而是整体上由计算设备和/或通常由最终用户和无线网络享有。
下面讨论示例实施例。
实施例1.一种在编码器(110,1000)或解码器(120,1006)中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法,该方法包括:
对于多声道音频信号的每个帧m:
生成(1401)多声道音频信号的声道对的互相关性;
基于互相关性,确定(1403)第一ITD估计;
确定(1405)多声道音频信号是否是CC信号;以及
响应于确定多声道音频信号是CC信号,将ITD搜索偏置
(1407)为偏向接近零的ITD以获得最终ITD。
实施例2.根据实施例1所述的方法,还包括:
响应于确定多声道音频信号不是CC信号,获得(1409)最终ITD而不偏向接近零的ITD。
实施例3.根据实施例2所述的方法,其中,当多声道音频信号不是CC信号时获得最终ITD包括:通过将最终ITD设置为第一ITD估计,获得最终ITD。
实施例4.根据实施例1-2中任一项所述的方法,还包括:向所选择的ITD应用稳定化以获得最终ITD。
实施例5.根据实施例4所述的方法,其中,应用稳定化进一步包括:生成至少一个ITD候选。
实施例6.根据实施例1-5中任一项所述的方法,其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:通过选择具有最小绝对值的ITD,获得最终ITD。
实施例7.根据实施例6所述的方法,其中,选择具有最小绝对值的ITD包括:根据以下公式,选择ITD作为最终ITD:
其中,ITD1(m)是最终ITD,ITD0(m)是第一ITD估计,ITDstab(m)是经稳定化的ITD。
实施例8.根据实施例1-7中任一项所述的方法,其中,将ITD搜索偏置为偏向接近零的ITD包括:从在零周围的有限范围内的ITD候选中选择最终ITD。
实施例9.根据实施例1-3中任一项所述的方法,其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:应用互相关性的加权以将更大的权重分配给接近零的互相关性的值。
实施例10.根据实施例1-9中任一项所述的方法,其中,确定第一ITD估计包括:将第一ITD估计确定为互相关性的绝对最大值。
实施例11.根据实施例10所述的方法,其中,将第一ITD估计确定为互相关性的绝对最大值包括:根据以下公式,确定绝对最大值:
其中,ITD0(m)是第一ITD估计,是互相关性,τ是时滞参数。
实施例12.根据前述实施例中任一项所述的方法,其中,互相关性是具有相位变换的广义互相关性GCC-PHAT。
实施例13.根据实施例1-12中任一项所述的方法,其中,确定多声道音频信号是否是CC信号包括:
检测多声道音频信号的声道对中的互相关性中的反对称模式和对称模式中的一个模式。
实施例14.根据实施例13所述的方法,其中,检测分量中的反对称模式包括:根据以下公式,检测反对称模式:
其中,D(m)是CC检测变量,是GCC-PHAT,ITD0(m)是第一ITD估计。
实施例15.根据实施例13所述的方法,其中,检测互相关性中的反对称模式和对称模式中的该模式包括:根据以下中的至少一项,检测反对称模式:
或者
其中,D(m)是CC检测变量,是GCC-PHAT,R是搜索范围,W定义所匹配的在ITD的第一估计周围的区域,ITD'0(m)是限于搜索范围[-R,R]的ITD候选。
实施例16.根据实施例1-12中任一项所述的方法,其中,确定多声道音频信号是否是CC信号包括:
计算(1501)CC检测变量;
确定(1503)CC检测变量是否高于阈值;以及
响应于确定CC检测变量高于阈值,确定(1505)多声道音频信号是CC信号。
实施例17.根据实施例16所述的方法,其中,确定CC检测变量是否高于阈值包括:确定CC检测变量的绝对值是否高于阈值。
实施例18.根据实施例14-17中任一项所述的方法,还包括:使用低通滤波对CC检测变量进行滤波以稳定CC检测。
实施例19.根据实施例18所述的方法,其中,对CC检测变量的低通滤波是自适应的,至少取决于活动检测器的输出A(m)。
实施例20.根据实施例19所述的方法,其中,使用低通滤波对CC检测变量进行滤波包括:根据以下公式,使用自适应低通滤波进行滤波:
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
其中,A(m)是活动检测器的输出,αhigh和αlow是滤波器系数。
实施例21.一种装置(110,120,1000,1006),包括:
处理电路(1201,1301);以及
与处理电路耦接的存储器(1205,1305),其中,该存储器包括指令,这些指令在由处理电路执行时使得装置:
对于多声道音频信号的每个帧m:
生成(1401)多声道音频信号的声道对的互相关性;
基于互相关性,确定(1403)第一ITD估计;
确定(1405)多声道音频信号是否是CC信号;以及
响应于确定多声道音频信号是CC信号,将ITD搜索偏置
(1407)为偏向接近零的ITD以获得最终ITD。
实施例22.根据实施例21所述的装置(110,120,1000,1006),还包括:
响应于确定多声道音频信号不是CC信号,获得(1409)最终ITD而不偏向接近零的ITD。
实施例23.根据实施例22所述的装置(110,120,1000,1006),其中,当多声道音频信号不是CC信号时获得最终ITD包括:通过将最终ITD设置为第一ITD估计,获得最终ITD。
实施例24.根据实施例21-22中任一项所述的装置(110,120,1000,1006),其中,存储器包括其他指令,其他指令在由处理电路执行时使得装置:向所选择的ITD候选应用稳定化以获得最终ITD。
实施例25.根据实施例24所述的装置(110,120,1000,1006),其中,应用稳定化进一步包括:生成至少一个ITD候选。
实施例26.根据实施例21-25中任一项所述的装置(110,120,1000,1006),其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:通过选择具有最小绝对值的ITD,获得最终ITD。
实施例27.根据实施例26所述的装置(110,120,1000,1006),其中,选择具有最小绝对值的ITD包括:根据以下公式,选择ITD作为最终ITD:
其中,ITD1(m)是最终ITD,ITD0(m)是第一ITD估计,ITDstab(m)是经稳定化的ITD。
实施例28.根据实施例21-27中任一项所述的装置(110,120,1000,1006),其中,将ITD搜索偏置为偏向接近零的ITD包括:从在零周围的有限范围内的ITD候选中选择最终ITD。
实施例29.根据实施例21-27中任一项所述的装置(110,120,1000,1006),其中,将ITD搜索偏置为偏向接近零的ITD以获得最终ITD包括:应用互相关性的加权以将更大的权重分配给接近零的互相关性的值。
实施例30.根据实施例21-29中任一项所述的装置(110,120,1000,1006),其中,确定第一ITD估计包括:将第一ITD估计确定为互相关性的绝对最大值。
实施例31.根据实施例30所述的装置(110,120,1000,1006),其中,将第一ITD估计确定为互相关性的绝对最大值包括:根据以下公式,确定绝对最大值:
其中,ITD0(m)是第一ITD估计,是互相关性,τ是时滞参数。
实施例32.根据前述实施例中任一项所述的装置(110,120,1000,1006),其中,互相关性是具有相位变换的广义互相关性GCC-PHAT。
实施例33.根据实施例21-32中任一项所述的装置(110,120,1000,1006),其中,确定多声道音频信号是否是CC信号包括:
检测多声道音频信号的声道对中的互相关性中的反对称模式和对称模式中的一个模式。
实施例34.根据实施例33所述的装置(110,120,1000,1006),其中,检测分量中的反对称模式包括:根据以下公式,检测反对称模式:
其中,D(m)是CC检测变量,是GCC-PHAT,ITD0(m)是第一ITD估计。
实施例35.根据实施例33所述的装置(110,120,1000,1006),其中,检测互相关性中的反对称模式和对称模式中的该模式包括:根据以下中的至少一项,检测反对称模式:
或者
其中,D(m)是CC检测变量,是GCC-PHAT,R是搜索范围,W定义所匹配的在ITD的第一估计周围的区域,ITD'0(m)是限于搜索范围[-R,R]的ITD候选。
实施例36.根据实施例21-32中任一项所述的装置(110,120,1000,1006),其中,确定多声道音频信号是否是CC信号包括:
计算(1501)CC检测变量;
确定(1503)CC检测变量是否高于阈值;以及
响应于确定CC检测变量高于阈值,确定(1505)多声道音频信号是CC信号。
实施例37.根据实施例36所述的装置(110,120,1000,1006),其中,确定CC检测变量是否高于阈值包括:确定CC检测变量的绝对值是否高于阈值。
实施例38.根据实施例34-37中任一项所述的装置(110,120,1000,1006),其中,存储器包括其他指令,其他指令在由处理电路执行时使得装置:使用低通滤波对CC检测变量进行滤波以稳定CC检测。
实施例39.根据实施例38所述的装置(110,120,1000,1006),其中,对CC检测变量的低通滤波是自适应的,至少取决于活动检测器的输出A(m)。
实施例40.根据实施例39所述的装置(110,120,1000,1006),其中,使用低通滤波对CC检测变量进行滤波包括:根据以下公式,使用自适应低通滤波进行滤波:
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
其中,A(m)是活动检测器的输出,αhigh和αlow是滤波器系数。
实施例41.一种装置(110,120,1000,1006),适于:
对于多声道音频信号的每个帧m:
生成(1401)多声道音频信号的声道对的互相关性;
基于互相关性,确定(1403)第一ITD估计;
确定(1405)多声道音频信号是否是CC信号;以及
响应于确定多声道音频信号是CC信号,将ITD搜索偏置
(1407)为偏向接近零的ITD以获得最终ITD。
实施例42.根据实施例41所述的装置(110,120,1000,1006),其中,装置(110,120,1000,1006)适于根据实施例2-20来执行。
实施例43.一种计算机程序,包括要由装置(110,120,1000,1006)的处理电路(1201/1301)执行的程序代码,由此程序代码的执行使得装置(110,120,1000,1006):
对于多声道音频信号的每个帧m:
生成(1401)多声道音频信号的声道对的互相关性;
基于互相关性,确定(1403)第一ITD估计;
确定(1405)多声道音频信号是否是CC信号;以及
响应于确定多声道音频信号是CC信号,将ITD搜索偏置
(1407)为偏向接近零的ITD以获得最终ITD。
实施例44.根据实施例43所述的计算机程序,其中,程序代码包括其他程序代码以使得装置(110,120,1000,1006)根据实施例2-20中任一项来执行。
实施例45.一种包括非暂时性存储介质的计算机程序产品,非暂时性存储介质包括要由装置(110,120,1000,1006)的处理电路(1201/1301)执行的程序代码,由此程序代码的执行使得装置(110,120,1000,1006):
对于多声道音频信号的每个帧m:
生成(1401)多声道音频信号的声道对的互相关性;
基于互相关性,确定(1403)第一ITD估计;
确定(1405)多声道音频信号是否是CC信号;以及
响应于确定多声道音频信号是CC信号,将ITD搜索偏置
(1407)为偏向接近零的ITD以获得最终ITD。
实施例46.根据实施例45所述的计算机程序,其中,非暂时性存储介质包括其他程序代码以使得装置(110,120,1000,1006)根据实施例2-20中任一项来执行。
下面提供对本公开中使用的各种缩写/首字母缩略词的说明。
缩写 说明
CC 重合麦克风配置
ILD 耳间声级差或声道间声级差
ITD 耳间时差或声道间时差
IC或IACC 耳间相干性或相关性或声道间相干性或相关性
GCC 广义互相关性
GCC-PHAT 具有相位变换的广义互相关性
Claims (46)
1.一种在编码器(110,1000)或解码器(120,1006)中识别重合麦克风配置CC并且适配声道间时差ITD搜索的方法,所述方法包括:
对于多声道音频信号的每个帧m:
生成(1401)所述多声道音频信号的声道对的互相关性;
基于所述互相关性,确定(1403)第一ITD估计;
确定(1405)所述多声道音频信号是否是CC信号;以及
响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置(1407)为偏向接近零的ITD以获得最终ITD。
2.根据权利要求1所述的方法,还包括:
响应于确定所述多声道音频信号不是CC信号,获得(1409)所述最终ITD而不偏向接近零的ITD。
3.根据权利要求2所述的方法,其中,当所述多声道音频信号不是CC信号时获得所述最终ITD包括:通过将所述最终ITD设置为所述第一ITD估计,获得所述最终ITD。
4.根据权利要求1-2中任一项所述的方法,还包括:向ITD应用稳定化以获得所述最终ITD。
5.根据权利要求4所述的方法,其中,应用稳定化进一步包括:生成至少一个ITD候选。
6.根据权利要求1-5中任一项所述的方法,其中,将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括:通过选择具有最小绝对值的ITD,获得所述最终ITD。
7.根据权利要求6所述的方法,其中,选择具有所述最小绝对值的所述ITD包括:根据以下公式,选择所述ITD作为所述最终ITD:
其中,ITD1(m)是所述最终ITD,ITD0(m)是所述第一ITD估计,ITDstab(m)是经稳定化的ITD。
8.根据权利要求1-7中任一项所述的方法,其中,将所述ITD搜索偏置为偏向接近零的ITD包括:从在零周围的有限范围内的ITD候选中选择所述最终ITD。
9.根据权利要求1-3中任一项所述的方法,其中,将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括:应用互相关性的加权以将更大的权重分配给接近零的所述互相关性的值。
10.根据权利要求1-9中任一项所述的方法,其中,确定所述第一ITD估计包括:将所述第一ITD估计确定为所述互相关性的绝对最大值。
11.根据权利要求10所述的方法,其中,将所述第一ITD估计确定为所述互相关性的所述绝对最大值包括:根据以下公式,确定所述绝对最大值:
其中,ITD0(m)是所述第一ITD估计,是所述互相关性,τ是时滞参数。
12.根据前述权利要求中任一项所述的方法,其中,所述互相关性是具有相位变换的广义互相关性GCC-PHAT。
13.根据权利要求1-12中任一项所述的方法,其中,确定所述多声道音频信号是否是CC信号包括:
检测所述多声道音频信号的所述声道对中的所述互相关性中的反对称模式和对称模式中的一个模式。
14.根据权利要求13所述的方法,其中,检测所述分量中的所述反对称模式包括:根据以下公式,检测所述反对称模式:
其中,D(m)是CC检测变量,是所述GCC-PHAT,ITD0(m)是所述第一ITD估计。
15.根据权利要求13所述的方法,其中,检测所述互相关性中的反对称模式和对称模式中的所述一个模式包括:根据以下中的至少一项,检测所述反对称模式:
或者
其中,D(m)是CC检测变量,是所述GCC-PHAT,R是搜索范围,W定义所匹配的在所述ITD的所述第一估计周围的区域,ITD'0(m)是限于所述搜索范围[-R,R]的ITD候选。
16.根据权利要求1-12中任一项所述的方法,其中,确定所述多声道音频信号是否是CC信号包括:
计算(1501)CC检测变量;
确定(1503)所述CC检测变量是否高于阈值;以及
响应于确定所述CC检测变量高于所述阈值,确定(1505)所述多声道音频信号是CC信号。
17.根据权利要求16所述的方法,其中,确定所述CC检测变量是否高于所述阈值包括:确定所述CC检测变量的绝对值是否高于所述阈值。
18.根据权利要求14-17中任一项所述的方法,还包括:使用低通滤波对所述CC检测变量进行滤波以稳定所述CC检测。
19.根据权利要求18所述的方法,其中,对所述CC检测变量的所述低通滤波是自适应的,至少取决于活动检测器的输出A(m)。
20.根据权利要求19所述的方法,其中,使用低通滤波对所述CC检测变量进行滤波包括:根据以下公式,使用自适应低通滤波进行滤波:
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
其中,A(m)是活动检测器的所述输出,αhigh和αlow是滤波器系数。
21.一种装置(110,120,1000,1006),包括:
处理电路(1201,1301);以及
与所述处理电路耦接的存储器(1205,1305),其中,所述存储器包括指令,所述指令在由所述处理电路执行时使得所述装置:
对于多声道音频信号的每个帧m:
生成(1401)所述多声道音频信号的声道对的互相关性;
基于所述互相关性,确定(1403)第一ITD估计;
确定(1405)所述多声道音频信号是否是CC信号;以及
响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置(1407)为偏向接近零的ITD以获得最终ITD。
22.根据权利要求21所述的装置(110,120,1000,1006),其中,所述存储器包括其他指令,所述其他指令在由所述处理电路执行时使得所述装置:
响应于确定所述多声道音频信号不是CC信号,获得(1409)所述最终ITD而不偏向接近零的ITD。
23.根据权利要求22所述的装置(110,120,1000,1006),其中,当所述多声道音频信号不是CC信号时获得所述最终ITD包括:通过将所述最终ITD设置为所述第一ITD估计,获得所述最终ITD。
24.根据权利要求21-22中任一项所述的装置(110,120,1000,1006),其中,所述存储器包括其他指令,所述其他指令在由所述处理电路执行时使得所述装置:向ITD应用稳定化以获得所述最终ITD。
25.根据权利要求24所述的装置(110,120,1000,1006),其中,应用稳定化进一步包括:生成至少一个ITD候选。
26.根据权利要求21-25中任一项所述的装置(110,120,1000,1006),其中,将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括:通过选择具有最小绝对值的ITD,获得所述最终ITD。
27.根据权利要求26所述的装置(110,120,1000,1006),其中,选择具有所述最小绝对值的所述ITD包括:根据以下公式,选择所述ITD作为所述最终ITD:
其中,ITD1(m)是所述最终ITD,ITD0(m)是所述第一ITD估计,ITDstab(m)是经稳定化的ITD。
28.根据权利要求21-27中任一项所述的装置(110,120,1000,1006),其中,将所述ITD搜索偏置为偏向接近零的ITD包括:从在零周围的有限范围内的ITD候选中选择所述最终ITD。
29.根据权利要求21-27中任一项所述的装置(110,120,1000,1006),其中,将所述ITD搜索偏置为偏向接近零的ITD以获得所述最终ITD包括:应用互相关性的加权以将更大的权重分配给接近零的所述互相关性的值。
30.根据权利要求21-29中任一项所述的装置(110,120,1000,1006),其中,确定所述第一ITD估计包括:将所述第一ITD估计确定为所述互相关性的绝对最大值。
31.根据权利要求30所述的装置(110,120,1000,1006),其中,将所述第一ITD估计确定为所述互相关性的所述绝对最大值包括:根据以下公式,确定所述绝对最大值:
其中,ITD0(m)是所述第一ITD估计,是所述互相关性,τ是时滞参数。
32.根据前述权利要求中任一项所述的装置(110,120,1000,1006),其中,所述互相关性是具有相位变换的广义互相关性GCC-PHAT。
33.根据权利要求21-32中任一项所述的装置(110,120,1000,1006),其中,确定所述多声道音频信号是否是CC信号包括:
检测所述多声道音频信号的所述声道对中的所述互相关性中的反对称模式和对称模式中的一个模式。
34.根据权利要求33所述的装置(110,120,1000,1006),其中,检测所述分量中的所述反对称模式包括:根据以下公式,检测所述反对称模式:
其中,D(m)是CC检测变量,是所述GCC-PHAT,ITD0(m)是所述第一ITD估计。
35.根据权利要求33所述的装置(110,120,1000,1006),其中,检测所述互相关性中的反对称模式和对称模式中的所述一个模式包括:根据以下中的至少一项,检测所述反对称模式:
或者
其中,D(m)是CC检测变量,是所述GCC-PHAT,R是搜索范围,W定义所匹配的在所述ITD的所述第一估计周围的区域,ITD'0(m)是限于所述搜索范围[-R,R]的ITD候选。
36.根据权利要求21-32中任一项所述的装置(110,120,1000,1006),其中,确定所述多声道音频信号是否是CC信号包括:
计算(1501)CC检测变量;
确定(1503)所述CC检测变量是否高于阈值;以及
响应于确定所述CC检测变量高于所述阈值,确定(1505)所述多声道音频信号是CC信号。
37.根据权利要求36所述的装置(110,120,1000,1006),其中,确定所述CC检测变量是否高于所述阈值包括:确定所述CC检测变量的绝对值是否高于所述阈值。
38.根据权利要求34-37中任一项所述的装置(110,120,1000,1006),其中,所述存储器包括其他指令,所述其他指令在由所述处理电路执行时使得所述装置:使用低通滤波对所述CC检测变量进行滤波以稳定所述CC检测。
39.根据权利要求38所述的装置(110,120,1000,1006),其中,对所述CC检测变量的所述低通滤波是自适应的,至少取决于活动检测器的输出A(m)。
40.根据权利要求39所述的装置(110,120,1000,1006),其中,使用低通滤波对所述CC检测变量进行滤波包括:根据以下公式,使用自适应低通滤波进行滤波:
DLP(m)=α(m)D(m)+(1-α(m))DLP(m-1)
其中,A(m)是活动检测器的所述输出,αhigh和αlow是滤波器系数。
41.一种装置(110,120,1000,1006),适于:
对于多声道音频信号的每个帧m:
生成(1401)所述多声道音频信号的声道对的互相关性;
基于所述互相关性,确定(1403)第一ITD估计;
确定(1405)所述多声道音频信号是否是CC信号;以及
响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置(1407)为偏向接近零的ITD以获得最终ITD。
42.根据权利要求41所述的装置(110,120,1000,1006),其中,所述装置(110,120,1000,1006)适于根据权利要求2-20来执行。
43.一种计算机程序,包括要由装置(110,120,1000,1006)的处理电路(1201/1301)执行的程序代码,由此所述程序代码的执行使得所述装置(110,120,1000,1006):
对于多声道音频信号的每个帧m:
生成(1401)所述多声道音频信号的声道对的互相关性;
基于所述互相关性,确定(1403)第一ITD估计;
确定(1405)所述多声道音频信号是否是CC信号;以及
响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置(1407)为偏向接近零的ITD以获得最终ITD。
44.根据权利要求43所述的计算机程序,其中,所述程序代码包括其他程序代码以使得所述装置(110,120,1000,1006)根据权利要求2-20中任一项来执行。
45.一种包括非暂时性存储介质的计算机程序产品,所述非暂时性存储介质包括要由装置(110,120,1000,1006)的处理电路(1201/1301)执行的程序代码,由此所述程序代码的执行使得所述装置(110,120,1000,1006):
对于多声道音频信号的每个帧m:
生成(1401)所述多声道音频信号的声道对的互相关性;
基于所述互相关性,确定(1403)第一ITD估计;
确定(1405)所述多声道音频信号是否是CC信号;以及
响应于确定所述多声道音频信号是CC信号,将所述ITD搜索偏置(1407)为偏向接近零的ITD以获得最终ITD。
46.根据权利要求45所述的计算机程序,其中,所述非暂时性存储介质包括其他程序代码以使得所述装置(110,120,1000,1006)根据权利要求2-20中任一项来执行。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2021/066159 WO2022262960A1 (en) | 2021-06-15 | 2021-06-15 | Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117501361A true CN117501361A (zh) | 2024-02-02 |
Family
ID=76601207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180099390.0A Pending CN117501361A (zh) | 2021-06-15 | 2021-06-15 | 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20240282319A1 (zh) |
EP (1) | EP4356373A1 (zh) |
JP (1) | JP2024521486A (zh) |
CN (1) | CN117501361A (zh) |
AU (1) | AU2021451130B2 (zh) |
BR (1) | BR112023026064A2 (zh) |
WO (1) | WO2022262960A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103339670B (zh) * | 2011-02-03 | 2015-09-09 | 瑞典爱立信有限公司 | 确定多通道音频信号的通道间时间差 |
CN103403801B (zh) * | 2011-08-29 | 2015-11-25 | 华为技术有限公司 | 参数多通道编码器和解码器 |
KR102083200B1 (ko) | 2016-01-22 | 2020-04-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 |
US10832689B2 (en) * | 2016-03-09 | 2020-11-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing stability of an inter-channel time difference parameter |
CN107742521B (zh) | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
JP7204774B2 (ja) * | 2018-04-05 | 2023-01-16 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
-
2021
- 2021-06-15 AU AU2021451130A patent/AU2021451130B2/en active Active
- 2021-06-15 BR BR112023026064A patent/BR112023026064A2/pt unknown
- 2021-06-15 CN CN202180099390.0A patent/CN117501361A/zh active Pending
- 2021-06-15 EP EP21734311.0A patent/EP4356373A1/en active Pending
- 2021-06-15 JP JP2023577407A patent/JP2024521486A/ja active Pending
- 2021-06-15 WO PCT/EP2021/066159 patent/WO2022262960A1/en active Application Filing
- 2021-06-15 US US18/568,713 patent/US20240282319A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2021451130A1 (en) | 2023-11-16 |
US20240282319A1 (en) | 2024-08-22 |
JP2024521486A (ja) | 2024-05-31 |
BR112023026064A2 (pt) | 2024-03-05 |
EP4356373A1 (en) | 2024-04-24 |
AU2021451130B2 (en) | 2024-07-25 |
WO2022262960A1 (en) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111316354B (zh) | 目标空间音频参数和相关联的空间音频播放的确定 | |
US10573328B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
US10311881B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
US8532999B2 (en) | Apparatus and method for generating a multi-channel synthesizer control signal, multi-channel synthesizer, method of generating an output signal from an input signal and machine-readable storage medium | |
JP5149968B2 (ja) | スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法 | |
TWI714046B (zh) | 用於估計聲道間時間差的裝置、方法或計算機程式 | |
WO2019193248A1 (en) | Spatial audio parameters and associated spatial audio playback | |
CN110024421A (zh) | 用于自适应控制去相关滤波器的方法和装置 | |
WO2017202680A1 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
AU2021451130B2 (en) | Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture | |
CN113302692B (zh) | 基于方向响度图的音频处理 | |
JP2024096910A (ja) | パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム | |
CN113302692A (zh) | 基于方向响度图的音频处理 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |