CN103403800A - 确定多声道音频信号的声道间时间差 - Google Patents

确定多声道音频信号的声道间时间差 Download PDF

Info

Publication number
CN103403800A
CN103403800A CN2011800667842A CN201180066784A CN103403800A CN 103403800 A CN103403800 A CN 103403800A CN 2011800667842 A CN2011800667842 A CN 2011800667842A CN 201180066784 A CN201180066784 A CN 201180066784A CN 103403800 A CN103403800 A CN 103403800A
Authority
CN
China
Prior art keywords
sound channel
mistiming
correlativity
channel
currency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800667842A
Other languages
English (en)
Other versions
CN103403800B (zh
Inventor
曼纽尔·白里安
托马斯·特夫特加德·詹森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN103403800A publication Critical patent/CN103403800A/zh
Application granted granted Critical
Publication of CN103403800B publication Critical patent/CN103403800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

提供了一种用于确定具有至少两个声道的多声道音频信号的声道间时间差的方法和设备。基本思想是在多个连续时刻基于互相关函数来确定(S1)声道间相关性,其中,互相关函数涉及所述多声道音频信号的至少两个不同的声道。声道间相关性的每一个值与声道间时间差的相应值相关联。基于在时间上对声道间相关性进行自适应平滑来自适应地确定(S2)自适应声道间相关性阈值。然后,关于自适应声道间相关性阈值来评估(S3)声道间相关性的当前值,以确定声道间时间差的相应的当前值是否是有关的。基于该评估的结果,确定(S4)声道间时间差的更新值。

Description

确定多声道音频信号的声道间时间差
技术领域
本技术大体上涉及音频编码和/或解码的领域以及确定多声道音频信号的声道间时间差的问题。
背景技术
空间或3D音频是表示各种类型的多声道音频信号的通用表示。根据采集方法和渲染方法,音频场景是用空间音频格式来表示的。例如,通过采集方法(麦克风)定义的典型的空间音频格式被表示为立体声、双声道、环绕立体声等。通常被表示为环绕声系统的空间音频渲染系统(头戴式耳机或扬声器)能够利用立体声(左声道和右声道2.0)或者更先进的多声道音频信号(2.1、5.1、7.1等)来渲染空间音频场景。
最近开发的用于传输和处理此类音频信号的技术允许终端用户在更高的空间质量的情况下具有增强的音频体验,这通常导致更好的清晰度以及增强现实。空间音频编码技术生成空间音频信号的压缩表示,其与诸如互联网上的流式传输等的数据速率约束的应用兼容。然而,当数据速率约束太强时,空间音频信号的传输受到极限,因此,还使用对解码的音频声道的后处理来增强空间音频回放。例如,常用的技术能够将解码的单声道或立体声信号盲地上混音为多声道音频(5.1声道或者以上的声道)。
为了有效地渲染空间音频场景,这些空间音频编码和处理技术利用多声道音频信号的空间特征。
具体地说,诸如声道间时间差ICTD和声道间电平差ICLD等的空间音频采集的声道之间的时间差和电平差用于近似诸如耳间时间差ITD和耳间电平差ILD等的耳间提示,耳间提示表征我们对空间中的声音的感知。在声音定位的领域中使用术语“提示”,并且术语“提示”通常意味着参数或描述符。人类听觉系统使用多个提示来进行声源定位,其包括:耳朵之间的时间差和电平差、频谱信息以及定时分析、相关分析和模式匹配的参数。
图1示出了利用参数方法对空间音频信号进行建模的潜在的困难。声道间时间差和声道间电平差(ICTD和ICLD)通常用于对多声道音频信号的方向分量进行建模,而声道间相关性ICC-其对耳间互相关性IACC进行建模-用于表征音频图像的宽度。因此,从音频声道中提取出诸如ICTD、ICLD和ICC等的声道间参数以近似ITD、ILD和IACC,其中,ITD、ILD和IACC对我们对空间中的声音的感知进行建模。因为ICTD和ICLD仅是对我们的听觉系统能够检测的内容(耳朵入口处的ITD和ILD)的近似,因此从感知的角度来看,极为重要的是,ICTD提示是有关的(relevant)。
图2是示出了作为多声道音频编码/解码的示例性示例的参数立体声编码/解码的示意性框图。编码器10主要包括下混音单元12、单声道编码器14和参数提取单元16。解码器20主要包括单声道解码器22、解相关器24和参数合成单元26。在该特定的示例中,立体声声道由下混音单元12下混音为和信号,该和信号由单声道编码器14编码并被发送到解码器20、22,并且立体声声道由参数提取单元16提取并且由量化器Q量化为空间量化的(子带)参数。基于左声道和右声道的输入频率转换的子带分解来估计空间参数。通常根据诸如等效矩形带宽-ERB等的感知尺度(perceptual scale)来定义每一个子带。解码器和参数合成单元26尤其基于来自单声道解码器22的经解码的单声道信号、从编码器10发送的量化的(子带)参数和由解相关器24生成的单声道信号的解相关版本来(在相同的子带域中)执行空间合成。然后,通过量化的子带参数来控制立体声图像的重构。因为这些量化的子带参数打算近似空间或耳间提示,因此极为重要的是,根据感知考虑来提取和发送声道间参数(ICTD、ICLD和ICC)使得对于听觉系统而言近似是可接受的。
立体声和多声道音频信号通常是难以建模的复杂信号,特别是当环境是嘈杂的时或者当混音(mixture)的各个音频分量在时间上和频率上是重叠的时,即,带噪的话音(speech)、音乐承载的话音或者同时的说话者等等。
可以例如参照图3A至图3B(干净话音分析)和图4A至图4B(带噪话音分析),图4A至图4B示出了当干扰噪声与话音信号混音时互相关函数(CCF)的减小,CCF通常被归一化到-1与1之间的区间。
图3A示出了左声道和右声道的针对“干净话音”的波形的示例。图3B示出了左声道和右声道的一部分之间的互相关函数的相应示例。
图4A示出了左声道和右声道的由干净话音和人造噪声的混音构成的波形的示例。图4B示出了左声道和右声道的一部分之间的互相关函数的相应示例。
背景噪声具有与话音信号可比较的能量并且在左声道与右声道之间具有低相关性,因此,在这种环境条件下,CCF的最大值不一定与话音内容有关。这导致对话音信号的建模不准确,这在提取的参数的流中产生了不稳定性。在该情况下,使CCF最大化的时移或延迟(ICTD)与CCF(即,声道间相关性或相干性(ICC))的最大值无关。在室外、在汽车中或者甚至在具有计算机风扇的办公环境等中频繁地观测这种环境条件。该现象需要更加小心以提供对声道间时间差(ICTD)的可靠且稳定的估计。
语音活动检测或者更准确地说立体声声道中的音调分量的检测在[1]中用于随时间调节ICTD的更新速率。即,使用滑动分析窗口和子带频率分解来在时频网格上提取ICTD。根据音调测量和依据ICC提示的声道间相关性的水平的组合来在时间上平滑ICTD。算法允许当将信号检测为音调时对ICTD进行较强的平滑,并且当音调测量较低时使用ICC作为遗忘因子来对ICTD进行自适应平滑。虽然针对完全的音调分量来平滑ICTD是可接受的,但是当信号不完全是音调时使用遗忘因子是有问题的。实际上,ICC提示越低,对ICTD的平滑越强,这使得ICTD的提取非常近似和有问题,特别是当源正在空间中移动时。关于“低”ICC允许平滑ICTD的假设并不总是成立的,并且在很大程度上取决于环境条件,即,噪声电平、混响、背景分量等。换言之,[1]中描述的使用在时间上平滑ICTD的算法不允许准确地跟踪ICTD,特别是当信号特征(ICC、ICTD和ICLD)在时间上快速地演变时不允许准确地跟踪ICTD。
存在对声道间时间差ICTD的改善的提取或确定的一般性需求。
发明内容
一般目的是提供一种用于确定或估计具有至少两个声道的多声道音频信号的声道间时间差的更好的方法。
另一个目的是提供改善的音频编码和/或音频解码,其包括对声道间时间差的改善的估计。
由所附的专利权利要求限定的实施例满足这些目的和其它目的。
在第一方面,提供了一种用于确定具有至少两个声道的多声道音频信号的声道间时间差的方法。基本思想是在多个连续时刻基于互相关函数来确定声道间相关性,所述互相关函数涉及所述多声道音频信号的至少两个不同的声道。所述声道间相关性的每一个值与所述声道间时间差的相应值相关联。基于在时间上对所述声道间相关性的自适应平滑来自适应地确定自适应声道间相关性阈值。然后,关于所述自适应声道间相关性阈值来评估声道间相关性的当前值,以确定所述声道间时间差的所述相应的当前值是否是有关的。基于所述评估的结果来确定所述声道间时间差的更新值。
通过这种方式,显著地改善了对声道间时间差的确定。具体地说,获得了所确定的声道间时间差的更好的稳定性。
在另一个方面,提供了一种音频编码方法,包括这种用于确定声道间时间差的方法。
在另一个方面,提供了一种音频解码方法,包括这种用于确定声道间时间差的方法。
在有关的方面,提供了一种用于确定具有至少两个声道的多声道音频信号的声道间时间差的设备。该设备包括声道间相关性确定器,被配置为在多个连续时刻基于互相关函数来确定声道间相关性,所述互相关函数涉及所述多声道音频信号的至少两个不同的声道。所述声道间相关性的每一个值与所述声道间时间差的相应值相关联。该设备还包括:自适应滤波器,被配置为在时间上对所述声道间相关性执行自适应平滑;以及阈值确定器,被配置为基于对所述声道间相关性的自适应平滑来自适应地确定自适应声道间相关性阈值。声道间相关性评估器被配置为关于所述自适应声道间相关性阈值来评估声道间相关性的当前值,以确定所述声道间时间差的所述相应的当前值是否是有关的。声道间时间差确定器被配置为基于所述评估的结果来确定所述声道间时间差的更新值。
在另一个方面,提供了一种音频编码器,包括这种用于确定声道间时间差的设备。
在另一个方面,提供了一种音频解码器,包括这种用于确定声道间时间差的设备。
当阅读下面对实施例的描述时,将清楚本技术所提供的其它优点。
附图说明
通过下面参照结合附图给出的描述,可以最佳地理解实施例及其其它目的和优点,在附图中:
图1是示出了利用5.1环绕声系统的空间音频回放的示例的示意图;
图2是示出了作为多声道音频编码/解码的示例性示例的参数立体声编码/解码的示意性框图。
图3A是示出了左声道和右声道的针对“干净话音”的波形的示例的示意图。
图3B是示出了左声道和右声道的一部分之间的互相关函数的相应示例的示意图。
图4A是示出了左声道和右声道的由干净话音和人造噪声的混音构成的波形的示例的示意图。
图4B是示出了左声道和右声道的一部分之间的互相关函数的相应示例的示意图。
图5是示出了根据一个实施例的用于确定具有至少两个声道的多声道音频信号的声道间时间差的基本方法的示例的示意性流程图。
图6A至图6C是示出了表征ICC以使得ICTD(和ICLD)是有关的问题的示意图。
图7A至图7D是示出了使用自适应ICC极限的益处的示意图。
图8A至图8C是示出了使用ICC在时间上的缓慢自适应和快速自适应的组合以提取感知有关的ICTD的益处的示意图。
图9A至图9C是示出了根据ICTD对输入声道进行对准如何在下混音过程期间避免梳状滤波效应和能量损失的示例的示意图。
图10是示出了根据一个实施例的用于确定具有至少两个声道的多声道音频信号的声道间时间差的设备的示例的示意性框图。
图11是示出了解码器的示例的示意图,包括提取改善的一组空间提示(ICC、ICTD和/或ICLD)以及上混音为多声道信号。
图12是示出了根据一个实施例的在立体声音频的示例性情况下具有参数自适应的参数立体声编码器的示例的示意性框图。
图13是示出了根据一个实施例的计算机实现的示例的示意性框图。
图14是示出了根据一个实施例的根据当前的ICTD值是否是有关的来确定更新的ICTD值的示例的示意性流程图。
图15是示出了根据示例性实施例的自适应地确定自适应声道间相关性阈值的示例的示意性流程图。
具体实施方式
在附图中,针对类似的或相应的元素,使用相同的参考数字。
现在将参照图5的示意性流程图来描述用于确定具有至少两个声道的多声道音频信号的声道间时间差的基本方法的示例。
步骤S1包括在多个连续时刻基于互相关函数来确定声道间相关性ICC,互相关函数涉及多声道音频信号的至少两个不同的声道,其中,声道间相关性的每一个值与声道间时间差ICTD的相应值相关联。
这可以例如是两个或更多个不同的声道(通常是一对声道)的互相关函数,但是也可以是不同的声道组合之间的互相关函数。更一般地,只要总体上涉及至少两个不同的声道,这就可以是一组声道表示的互相关函数,所述一组声道表示至少包括一个或多个声道的第一表示和一个或多个声道的第二表示。
步骤S2包括基于在时间上对声道间相关性的自适应平滑来自适应地确定自适应声道间相关性ICC的阈值。步骤S3包括关于自适应声道间相关性阈值来评估声道间相关性的当前值,以确定声道间时间差ICTD的相应的当前值是否是有关的。步骤S4包括基于该评估的结果来确定声道间时间差的更新值。
通常,考虑多声道信号的一个或多个声道对,并且通常针对每一对声道存在CCF并且针对每一对分析的声道存在自适应阈值。更一般地,针对每一组考虑的声道表示存在CCF和自适应阈值。
现在,将参照图14。如果确定声道间时间差的当前值是有关的(是),则在步骤S4-1中在确定声道间时间差的更新值时通常将考虑当前值。如果声道间时间差的当前值是无关的(否),则在确定声道间时间差的更新值时通常不应当使用当前值。取而代之的,可以在步骤S4-2中使用ICTD的一个或多个先前的值来更新ICTD。
换言之,关于自适应声道间相关性阈值进行评估的目的通常是确定在确定声道间时间差的更新值时是否应当使用声道间时间差的当前值。
通过这种方式,并且通过使用自适应声道间相关性阈值,获得了声道间时间差的改善的稳定性。
例如,当当前的声道间相关性ICC较低(即,ICC低于自适应ICC阈值)时,通常不期望使用相应的当前声道间时间差。然而,当相关性较高(即,ICC高于自适应ICC阈值)时,在更新声道间时间差时应当考虑当前声道间时间差。
举例说明,当ICC的当前值足够高(即,相当高的相关性)时,可以选择ICTD的当前值作为声道间时间差的更新值。
可替换地,可以将ICTD的当前值与声道间时间差的一个或多个先前值一起使用来确定更新的声道间时间差(参见图14中的从步骤S4-1至步骤S4-2的虚线箭头)。在示例性的实施例中,可以根据声道间相关性的值来确定多个声道间时间差值的组合,其中,对每一个声道间时间差值施加的权重是在同一时刻声道间相关性的函数。例如,可以根据ICC的值来设想多个ICTD的组合,例如:
ICTD [ n ] = Σ m = 0 M ( [ ICC [ n - m ] Σ m = 0 M ICC [ n - m ] ] × ICTD [ n - m ] )
其中,n是当前时间索引,并且使用索引m=0,...,M来对以前的值进行求和,其中:
Σ m = 0 M [ ICC [ n - m ] Σ m = 0 M ICC [ n - m ] ] = 1 .
在该特定的示例中,思想是对每一个ICTD施加的权重是在同一时刻ICC的函数。
当ICC的当前值不够高(即,相对低的相关性)时,ICTD的当前值不被视为是有关的(图14中为否),因此不应当考虑ICC的当前值,而是使用ICTD的一个或多个先前(历史)值来更新声道间时间差(参见图14中的步骤S4-2)。例如,声道间时间差的先前值可以被选择为(当作)声道间时间差。通过这种方式,将保持声道间时间差的稳定性。在更详细的示例中,可以将ICTD的以前的值的组合设想为:
ICTD [ n ] = Σ m = 1 M ( [ ICC [ n - m ] Σ m = 1 M ICC [ n - m ] ] × ICTD [ n - m ] )
其中,n是当前时间索引,并且使用索引m=1,...,M(注意,m是从1开始的)来对以前的值进行求和,其中:
Σ m = 1 M [ ICC [ n - m ] Σ m = 1 M ICC [ n - m ] ] = 1 .
在某种意义上说,ICTD被认为是共同具有感知和相干的有关性(relevancy)的一组空间提示(ICC、ICTD和ICLD)的空间提示部分。因此,根据多声道音频信号特征,假设ICTD提示仅在ICC相对较高时是感知有关的。图6A至图6C是示出了表征ICC以使得ICTD(和ICLD)是有关的并且与混音中的相干源有关的问题的示意图。还可以使用“方向的”一词,这是因为ICTD和ICLD是与方向源有关的空间提示,而ICC能够表征混音的扩散分量。
ICC可以被确定为归一化的互相关系数,然后具有0与1之间的范围。一方面,ICC为1指示分析的声道是相干的并且相应的提取出的ICTD意味着两个声道中的相关分量被潜在地视为是延迟的。另一方面,ICC接近零意味着分析的声道具有不同的声音分量,其不能被视为是延迟的,至少在近似的ITD的范围(即,几毫秒)内不能被视为是延迟的。
问题实质上是ICC如何有效地控制ICTD的有关性,特别是因为ICC提示在很大程度上取决于构成多声道音频信号的混音的环境声音。因此,思想是在评估ICTD提示的有关性时对此进行考虑。这导致基于自适应ICC标准进行感知有关的ICTD提示选择。不是如[2]中所提出的关于固定阈值来评估相关性(ICC)的量,而是引入以下方式将更加有利:根据信号特征的演变对ICC极限进行自适应,如稍后将用例证说明的。
在特定的示例中,如果声道间相关性的当前值ICC[i](等于或)大于自适应声道间相关性极限/阈值的当前值AICCL[i],则选择声道间时间差的当前值ICTD[i],并且如果声道间相关性的当前值ICC[i]小于自适应声道间相关性极限/阈值的当前值AICCL[i],则选择声道间时间差的前一值ICTD[i-1]:
ICTD [ i ] = ICTD [ i , ] | ICC [ i ] &GreaterEqual; AICCL [ i ] ICTD [ i ] = ICTD [ i - 1 ] | ICC [ i ] < AICCL [ i ]
其中,AICCL[i]是基于诸如ICC[i]和ICC[i-1]等的声道间相关性在两个或更多个不同的时刻的值来确定的。索引i用于表示时间上的不同时刻,并且可以指代采样或帧。换言之,处理可以例如是逐帧地或者逐采样地执行的。
这还意味着当声道间相关性较低(即,低于自适应阈值)时,将不考虑根据互相关函数的全局最大值提取出的声道间时间差。
应当理解的是,本技术不限于对ICC进行估计的任何特定的方式。原则上,可以使用给出可接受的结果的任何现有方法。可以使用互相关技术在时域或频域上提取出ICC。例如,针对传统的一般化的互相关方法的GCC是一种可能的完善的方法。稍后将描述在估计的复杂度和鲁棒性方面合理的其它确定ICC的方式。通常,将声道间相关性ICC确定为能量归一化的互相关函数的最大值。
在另一个实施例中,如图15的示例中所示,自适应地确定自适应ICC阈值的步骤涉及考虑声道间相关性的多于一个的演变。
例如,自适应地确定自适应ICC阈值以及自适应地平滑声道间相关性的步骤包括:在步骤S2-1,估计声道间相关性的相对缓慢的演变和相对快速的演变并且定义声道间相关性的组合的混合演变,其中,如果声道间相关性随时间不断增加,则混合演变相对快速地遵循声道间相关性的改变,而如果声道间相关性随时间不断减小,则混合演变相对缓慢地遵循改变。
在该上下文中,基于对声道间相关性的自适应平滑来确定自适应声道间相关性阈值的步骤还考虑了声道间相关性的相对缓慢的演变和相对快速的演变。例如,在步骤S2-2中,可以将自适应声道间相关性阈值选择为在所考虑的时刻声道间相关性的混合演变、相对缓慢的演变和相对快速的演变中的最大值。
在另一个方面,还提供了用于对具有至少两个声道的多声道音频信号进行编码的音频编码方法,其中,音频编码方法包括如本文所描述的确定声道间时间差的方法。
在另一个方面,改善的ICTD确定(参数提取)可以被实现为解码侧上的后处理级。因此,还提供了一种用于重构具有至少两个声道的多声道音频信号的音频解码方法,其中,音频解码方法包括如本文所描述的确定声道间时间差的方法。
为了更好地理解,现在将参照非限制性的示例来更详细地描述本技术。
本技术依靠自适应ICC标准以提取感知有关的ICTD提示。
互相关是两个波形x[n]和y[n]的相似性的测量,并且可以例如在索引n的时域中将互相关定义为:
r xy [ &tau; ] = 1 N &Sigma; n = 0 N - 1 ( x [ n ] &times; y [ n + &tau; ] ) - - - ( 1 )
其中,τ是时间滞后参数,N是所考虑的音频段的采样的数量。ICC通常被定义为通过信号能量归一化的互相关函数的最大值:
ICC = max &tau; = ICTD ( r xy [ &tau; ] r xx [ 0 ] r yy [ 0 ] ) - - - ( 2 )
通过利用变换X和Y(离散频率索引k)根据下式将互相关函数重新定义为互谱的函数,ICC的等效估计在频域中也是可能的:
其中,X[k]是时域信号x[n]的离散傅里叶变换(DFT),例如:
X [ k ] = &Sigma; n = 0 N - 1 x [ n ] &times; e - 2 &pi;i N kn , k = 0 , . . . , N - 1 - - - ( 4 )
并且DFT-1(.)或IDFT(.)是通常通过标准IFFT(快速傅里叶逆变换)给出的频谱X的离散傅里叶逆变换,*表示复共轭运算,
Figure BDA00003613848500115
表示实部函数。
在等式(2)中,使归一化的互相关性最大化的时间滞后τ被选择作为两个信号之间的潜在的ICTD,但是迄今为止,没有任何证据表明该ICTD实际上与来自x声道和y声道二者的相干声音分量相关联。
基于自适应极限的过程
为了提取和可以利用ICTD,所提取的ICC用于帮助决策。通过对ICC使用自适应非线性滤波来计算索引为i的分析的帧上的自适应ICC极限(AICCL)。滤波的简单实现可以例如被定义为:
AICC[i]=α×ICC[i]+(1-α)×AICC[i-1]              (5)
然后,可以进一步限制AICCL,并且通过常数值β来补偿AICCL,这是由于可能通过互相关估计技术引入估计偏差:
AICCL[i]=max(AICCL0,AICC[i]-β)              (6)
恒定补偿仅是可选择的,并且根据下式允许ICTD具有一定的可变的选择性:
ICTD [ i ] = ICTD [ i ] | ICC [ i ] &GreaterEqual; AICCL [ i ] ICTD [ i ] = ICTD [ i - 1 ] | ICC [ i ] < AICCL [ i ] . - - - ( 7 )
额外的极限AICCL0用于评估AICCL,并且可以根据对听觉环境(即,具有热烈鼓掌的剧场、办公室的背景噪声等)的了解而固定或估计AICCL0。在没有关于噪声电平(更一般地说,听觉环境的特征)的额外了解的情况下,AICCL0的适合的值被固定为0.75。
已经展示出提取的ICTD的改善准确度的特定的一组系数是例如:
&alpha; = 0.08 &beta; = 0.1 - - - ( 8 )
为了说明算法的性能,使用完全控制的ICTD来生成由话音和记录的风扇噪声的混音构成的人造立体声信号。
图7A至图7D是示出了使用自适应ICC极限AICCL(图7C的实曲线)的益处的示意图,其中,使用自适应ICC极限AICCL允许即使在声学环境极差(即,立体声混音中存在高噪声电平)时也提取出稳定的ICTD(图7D的实曲线)。
图7A是示出了由话音信号和立体声风扇噪声之和构成的合成立体声信号的示例的示意图,其中,该信号具有逐渐减小的SNR。
图7B是示出了在立体声声道上根据正弦函数人为地延迟以近似从1ms改变为-1ms(采样频率fs=48000Hz)的ICTD的话音信号的示例的示意图。
图7C是示出了(由于不相关的噪声的量逐渐增加引起)逐渐减小并且还由于有声段之间的静默时段引起从低值切换为高值的提取的ICC的示例的示意图。实线表示自适应ICC极限。
图7D是示出了传统提取的ICTD和根据相干分量提取的感知有关的ICTD的重叠的示例的示意图。
根据AICCL所选择的ICTD与原始(真实)ICTD是相干的。该算法能够随着时间稳定源的位置,而不遵循原始ICC提示的不稳定的演变。
基于组合的/混合的自适应极限的过程
下面描述针对感知有关的ICTD提取的有关的ICC的另一个可能的推导。有关的ICC的该可替换的计算需要根据下式使用ICC随时间(索引为i的帧)的缓慢演变和快速演变来估计多个自适应ICC极限:
AICCs [ i ] = &alpha; s &times; ICC [ i ] + ( 1 - &alpha; s ) &times; AICC s [ i - 1 ] AICCf [ i ] = &alpha; f &times; ICC [ i ] + ( 1 - &alpha; f ) &times; AICC f [ i - 1 ] - - - ( 9 )
然后,根据以下标准基于ICC的快速演变和缓慢演变来定义ICC的混合演变。如果ICC随着时间而增加(或者减小),则混合自适应ICC(AICCh)快速地(或者缓慢地)遵循ICC的演变。ICC随时间的演变被评估,并且按下式指示如何计算当前(索引为i的帧)的AICCh:
Figure BDA00003613848500132
其中,通过下式给出适合于话音信号的特定的一组示例性参数:
&alpha; s = 0.008 &alpha; f = 0.6 &lambda; = 3 - - - ( 11 )
其中,通常λ>1,然后控制遵循演变的快速程度。
然后,通过使用下式来获得混合AICC极限(AICCLh):
AICCLh[i]=max(AICCh[i],AICCLf[i])               (12)
其中,将快速AICC极限(AICCLf)定义为ICC系数的缓慢演变和快速演变之间的最大值:
AICCLf[i]=max(AICCs[i],AICCf[i])               (13)
基于该自适应混合ICC极限(AICCLh),将有关的ICC定义为允许根据下式提取感知有关的ICTD:
ICTD [ i ] = ICTD [ i ] | ICC [ i ] &GreaterEqual; AICCLh [ i ] ICTD [ i ] = ICTD [ i - 1 ] | ICC [ i ] < AICCLh [ i ] . - - - ( 14 )
图8A-C是示出了使用ICC随时间的缓慢自适应和快速自适应的组合来从嘈杂的环境、混响室等方面提取重要的话音信号的立体声声道之间的感知有关的ICTD的益处的示意图。在该示例中,分析的立体声信号是在嘈杂的办公环境中使用AB麦克风记录的移动话音源(从中心到立体声图像的右侧)。在该特定的立体声信号中,在嘈杂的办公环境(键盘、风扇等噪声)中记录话音。
图8A是示出了ICC以及ICC随着帧的缓慢演变(AICCLs)和快速演变(AICCLf)的重叠的示例的示意图。混合自适应ICC极限(AICCLh)基于AICCLs和AICCLf二者。
图8B是示出了针对其将使用ICC值来提取感知有关的ICTD的(由十字线段和实线段指示的)段的示例的示意图。ICCoL代表超越极限的ICC(ICC over Limit),而f代表快速(fast)而h代表混合(hybrid)。
图8C是在其中虚线表示在无需任何特定处理的情况下通过最大化CCF进行的基本传统延迟提取的示意图。十字线和实线分别是指当ICC高于AICCLf和AICCLh时所提取的ICTD。
在未对ICC进行任何特定处理的情况下,所提取的ICTD(图8C中的虚线)非常不稳定,这是由于不需要提取来自键盘的背景噪声、定向噪声或二次源,至少在话音是活动的并且是主要的源时不需要提取来自键盘的背景噪声、定向噪声或二次源。所提出的算法/过程能够导出与所关注的定向和主要话音源有关的ICTD的更准确的估计。
上述过程是针对逐帧分析方案(索引为i的帧)来描述的,但是针对具有索引为b的多个分析子带的频域中的方案也可以使用上述过程,并且上述过程可以得出类似的性能和结果。在该情况下,可以针对每一个帧和每一个子带(其是等式(3)中的定义的频谱的子集,即,b={k,kb<k<(kb+1)},其中,kb是频率子带的边界)定义CCF。通常根据等式(2)和相应的rxy[i,b]独立地将算法/过程应用于每一个分析的子带。通过这种方式,还可以在由索引i和b的网格定义的时频域中提取改善的ICTD。
可以设想本技术使得它既不会引入任何额外的复杂度,也不会引入延迟,而是由于对噪声、混响和背景/二次源的灵敏度减小而增加了解码/渲染/上混音多声道音频信号的质量。
本技术由于更好地提取了ICTD提示和ICLD提示二者,因此允许对每一个频率子带中的主要源进行更准确的定位估计。已经在上文中说明了来自具有相干特征的声道的ICTD的稳定性。当声道在时间上对准时,对于提取ICTD而言,也存在同样的益处。
在多声道音频渲染的上下文中,下混音和上混音是非常常见的处理技术。当前的算法允许在对准(即,时间延迟-ICTD-补偿)之后生成相干的下混音信号。
图9A至图9C是示出了根据ICTD对输入声道进行对准如何在下混音过程期间(例如,从2到1声道,或者更一般地说,从N到M声道,其中,(N≥2)且(M≤2))避免梳状滤波效应和能量损耗的示例的示意图。根据实现考虑,全带(在时域中)和子带(频域)对准是可能的。
图9A是示出了不相干的立体声声道的下混音的声谱图的示例的示意图,其中,可以按照水平线来观测梳状滤波效应。
图9B是示出了对准的下混音(即,对准的/相干的立体声声道之和)的声谱图的示例的示意图。
图9C是示出了两个下混音信号的功率谱的示例的示意图。如果声道未对准(这相当于在单声道下混音中存在能量损失),则存在较大的梳状滤波。
当ICTD用于空间合成的目的时,当前的方法允许具有稳定的空间图像的相干合成。重构的源的空间位置在空间中不是浮动的,这是因为未对ICTD使用平滑。实际上,所提出的算法/过程可以选择当前的ICTD,这是因为它被认为是根据相干声音分量提取的,或者保持在先前分析的段(帧或块)中源的位置以稳定空间图像,即,当提取的ICTD与不相干分量有关时,空间图像没有扰动。
在有关的方面,提供了一种用于确定具有至少两个声道的多声道音频信号的声道间时间差的设备。参照图10的示意性框图,可以看出,设备30包括声道间相关性ICC确定器32、自适应滤波器33、阈值确定器34、声道间相关性ICC评估器35和声道间时间差ICTD确定器38。
声道间相关性ICC确定器32被配置为在多个连续时刻基于互相关函数来确定声道间相关性,该互相关函数涉及多声道输入信号的至少两个不同的声道。
这可以例如是两个或更多个声道(通常为一对声道)的互相关函数,但是也可以是不同的声道组合的互相关函数。更一般地,只要总体上涉及至少两个不同的声道,这就可以是一组声道表示的互相关函数,所述一组声道表示至少包括一个或多个声道的第一表示和一个或多个声道的第二表示。
声道间相关性的每一个值与声道间时间差的相应值相关联。
自适应滤波器33被配置为在时间上对声道间相关性执行自适应平滑,并且阈值确定器34被配置为基于声道间相关性的自适应平滑来自适应地确定自适应声道间相关性阈值。
声道间相关性ICC评估器34被配置为关于自适应声道间相关性阈值来评估声道间相关性的当前值,以确定声道间时间差的相应的当前值是否是有关的。
声道间时间差ICTD确定器38被配置为基于该评估的结果来确定声道间时间差的更新值。在确定与ICC确定器的ICC值相对应的ICTD值时,ICTD确定器38可以使用来自ICC确定器32的信息或者原始多声道输入信号。
通常,考虑多声道信号的一个或多个声道对,并且通常针对每一对声道存在CCF并且针对每一对分析的声道存在自适应阈值。更一般地,针对每一组考虑的声道表示存在CCF和自适应阈值。
如果确定声道间时间差的当前值是有关的,则在确定声道间时间差的更新值时通常将考虑当前值。如果声道间时间差的当前值是无关的,则在确定声道间时间差的更新值时通常不应当使用当前值。换言之,由ICC评估器执行的关于自适应声道间相关性阈值进行评估的目的通常是确定在建立更新的ICTD值时是否应当由ICTD确定器使用声道间时间差的当前值。这意味着ICC评估器35被配置为关于自适应声道间相关性阈值来评估声道间相关性的当前值,以确定在确定声道间时间差的更新值时是否应当由ICTD确定器38使用声道间时间差的当前值。然后,ICTD确定器38优选地被配置为如果确定声道间时间差的当前值是有关的,则在确定声道间时间差的更新值时考虑当前值。ICTD确定器38优选地被配置为如果确定声道间时间差的当前值是无关的,则基于声道间时间差的一个或多个先前值来确定声道间时间差的更新值。
通过这种方式,获得了声道间时间差的改善的稳定性。
例如,当当前声道间相关性为低(即,低于自适应阈值)时,通常不期望使用相应的当前声道间时间差。然而,当相关性为高(即,高于自适应阈值)时,应当在更新声道间时间差时考虑当前的声道间时间差。
设备可以执行用于确定多声道音频信号的声道间时间差的方法的前述变型中的任意一个。
例如,ICTD差确定器38可以被配置为选择声道间时间差的当前值作为声道间时间差的更新值。
可替换地,ICTD确定器38可以被配置为基于声道间时间差的当前值以及声道间时间差的一个或多个先前值来确定声道间时间差的更新值。例如,ICTD确定器38被配置为根据声道间相关性的值来确定多个声道间时间差值的组合,其中,对每一个声道间时间差值施加的权重是在同一时刻声道间相关性的函数。
举例说明,自适应滤波器33被配置为估计声道间相关性的相对缓慢的演变和相对快速的演变,并且定义声道间相关性的组合的混合演变,其中,如果声道间相关性随时间不断增加,则混合演变相对快速地遵循声道间相关性的改变,而如果声道间相关性随时间不断减小,则混合演变相对缓慢地遵循改变。在这一方面,阈值确定器34然后可以被配置为将自适应声道间相关性阈值选择为在所考虑的时刻声道间相关性的混合演变、相对缓慢的演变和相对快速的演变中的最大值。
可以将自适应滤波器33、阈值确定器34、ICC评估器35、可选择地还有ICC确定器32认为是用于自适应ICC计算的单元37。
在另一方面,提供了一种音频编码器,其被配置为对具有至少两个声道的多声道音频信号的一组输入声道的信号表示进行操作,其中,音频编码器包括被配置为如本文所描述的确定声道间时间差的设备。举例说明,图10的用于确定声道间时间差的设备30可以包含在图2的音频编码器中。应当理解的是,本技术可以与任何多声道编码器一起使用。
在另一方面,提供了一种用于重构具有至少两个声道的多声道音频信号的音频解码器,其中,音频解码器包括被配置为如本文所描述的确定声道间时间差的设备。举例说明,图10的用于确定声道间时间差的设备30可以包含在图2的音频解码器中。应当理解的是,本技术可以与任何多声道解码器一起使用。
在例如使用双单声道解码器(独立解码的单声道)执行传统的立体声解码的情形中或者在如图11中所示的传输立体声声道的任何其它情形中,这些立体声声道可以被扩展或上混音为N个声道的多声道音频信号,其中,N>2。传统的上混音方法存在并且已经可用。本技术可以与这些上混音方法中的任意一个结合使用和/或在这些上混音方法中的任意一个之前使用,以提供改善的一组空间提示ICC、ICTD和/或ICLD。例如,如图11中所示,解码器包括用于提取改善的一组空间提示(ICC、ICTD和/或ICLD)的ICC、ICTD、ICLD确定器80,以及用于上混音为多声道信号的立体声到多声道上混音单元90。
图12是示出了根据一个实施例的在立体声音频的示例性情况下具有参数自适应的参数立体声编码器的示例的示意性框图。本技术不限于立体声音频,而是通常可以应用于涉及两个或更多个声道的多声道音频。整个编码器包括可选择的时频划分单元25、用于自适应ICC计算的单元37、ICTD确定器38、可选择的对准器40、可选择的ICLD确定器50、相干下混音器60和复用器MUX70。
用于自适应ICC计算的单元37被配置用于确定ICC、执行自适应平滑并且确定自适应ICC阈值和关于自适应ICC阈值的ICC评估。所确定的ICC可以被转发给MUX70。
图12的用于自适应ICC计算的单元37基本上对应于图10的ICC确定器32、自适应滤波器33、阈值确定器34和ICC评估器35。
用于自适应ICC计算的单元37和ICTD确定器38基本上对应于用于确定声道间时间差的设备30。
ICTD确定器38基于ICC评估来确定或提取有关的ICTD,并且所提取的参数被转发给复用器MUX70以作为输出参数传送到解码侧。
对准器40根据有关的ICTD对输入声道执行对准,以在相干下混音器60进行下混音过程期间避免梳状滤波效应和能量损失。然后,可以将对准的声道用作LCTD确定器50的输入,以提取有关的ICTD,该有关的ICTD被转发给MUX70以作为输出参数的一部分传送到解码侧。
将清楚的是,可以以各种方式来组合和重新布置上述方法和设备,并且可以由一个或多个适当编程或配置的数字信号处理器和其它已知的电子电路(例如,被互连以执行专门的功能的分立的门控逻辑,或者专用集成电路)来执行这些方法。
围绕可以由例如可编程计算机系统的元件执行的动作序列来描述本技术的很多方面。
采用本技术的用户设备包括例如移动电话、寻呼机、手机、膝上型计算机和其它移动终端等等。
可以使用任何传统的技术(例如,分立的电路或集成电路技术,包括通用电子电路和专用电路)在硬件中实现上述步骤、功能、过程和/或框。
可替换地,可以在软件中实现上述步骤、功能、过程和/或框中的至少一些,以由适合的计算机或处理设备(例如,微处理器、数字信号处理器(DSP)和/或诸如现场可编程门阵列(FPGA)设备和可编程逻辑控制器(PLC)设备等的任何适合的可编程逻辑设备)执行。
还应当理解的是,可以重新使用可以在其中执行本技术的任何设备的一般处理功能。还可以例如通过重新编程现有的软件或者通过添加新的软件组件来重新使用现有的软件。
在下文中,将参照图13描述计算机实现的示例。该实施例基于诸如微处理器或数字信号处理器等的处理器100、存储器160和输入/输出(I/O)控制器170。在该特定的示例中,在软件中实现上述步骤、功能和/或框中的至少一些,所述软件被装载到存储器160中以由处理器100来执行。经由系统总线对处理器100和存储器160进行互连以实现常规的软件执行。I/O控制器170可以经由I/O总线互连到处理器100和/或存储器160以实现对有关的数据(例如,输入参数和/或由此产生的输出参数)的输入和/或输出。
在该特定的示例中,存储器160包括多个软件组件110-150。软件组件110实现与上述实施例中的框32相对应的ICC确定器。软件组件120实现与上述实施例中的框33相对应的自适应滤波器。软件组件130实现与上述实施例中的框34相对应的阈值确定器。软件组件140实现与上述实施例中的框35相对应的ICC评估器。软件组件150实现与上述实施例中的框38相对应的ICTD确定器。
I/O控制器170通常被配置为接收多声道音频信号的声道表示,并且向处理器100和/或存储器160传送所接收的声道表示以在执行软件期间用作输入。可替换地,多声道音频信号的输入声道表示可能已经在存储器160中以数字形式可用。
可以经由I/O控制器170将由此产生的ICTD值作为输出进行传送。如果存在需要由此产生的ICTD值作为输入的额外的软件,则可以直接从存储器取回ICTD值。
此外,可以另外认为本技术完整地具体实现在任意形式的计算机可读存储介质中,该计算机可读存储介质中存储有适合的指令集,该指令集由以下各项使用或者与以下各项结合使用:指令执行系统、装置或设备(例如,基于计算机的系统、包含处理器的系统或者可以从介质获取指令并且执行指令的其它系统)。
软件可以实现为计算机程序产品,其通常被承载在非瞬时计算机可读介质(例如,CD、DVD、USB存储器、硬盘驱动器或者任何其它传统的存储设备)上。因此,可以将软件装载到计算机或等同的处理系统的操作存储器中以由处理器执行。计算机/处理器不必专用于仅执行上述步骤、功能、过程和/或框,而是还可以执行其它软件任务。
上述实施例将被理解为本技术的几个示意性的示例。本领域技术人员将理解的是,可以在不偏离本技术的范围的情况下对实施例进行各种修改、组合和改变。具体地说,在技术上可行的情况下,可以在其它配置中组合不同的实施例中的不同的部分解决方案。然而,本技术的范围由所附权利要求来限定。
缩写词
AICC   自适应ICC
AICCL  自适应ICC极限
CCF    互相关函数
ERB    等效矩形带宽
GCC    归一化互相关性
ITD    耳间时间差
ICTD   声道间时间差
ILD    耳间电平差
ICLD   声道间电平差
ICC    声道间相干性
TDE    时域估计
DFT    离散傅里叶变换
IDFT   离散傅里叶逆变换
IFFT   快速傅里叶逆变换
DSP    数字信号处理器
FPGA   现场可编程门阵列
PLC    可编程逻辑控制器
参考文献
[1]C.Tournery,C.Faller,Improved Time Delay Analysis/Synthesis forParametric Stereo Audio Coding,AES120th,Proceeding6753,Paris,May2006.
[2]C.Faller,“Parametric coding of spatial audio”,PhD thesis,Chapter7,Section7.2.3,pages113-114.

Claims (22)

1.一种用于确定具有至少两个声道的多声道音频信号的声道间时间差的方法,其中,所述方法包括以下步骤:
-在多个连续时刻基于互相关函数来确定(S1)声道间相关性,所述互相关函数涉及所述多声道音频信号的至少两个不同的声道,其中,所述声道间相关性的每一个值与所述声道间时间差的相应值相关联;
-基于在时间上对所述声道间相关性的自适应平滑来自适应地确定(S2)自适应声道间相关性阈值;
-关于所述自适应声道间相关性阈值来评估(S3)声道间相关性的当前值,以确定所述声道间时间差的所述相应的当前值是否是有关的;以及
-基于所述评估的结果来确定(S4)所述声道间时间差的更新值。
2.根据权利要求1所述的方法,其中,执行所述关于所述自适应声道间相关性阈值来评估声道间相关性的当前值的步骤(S3),以确定在确定所述声道间时间差的所述更新值时是否应当使用所述声道间时间差的所述当前值。
3.根据权利要求1或2所述的方法,其中,所述确定所述声道间时间差的更新值的步骤(S4)包括以下步骤(S4-1):如果确定所述声道间时间差的所述当前值是有关的,则在确定所述声道间时间差的所述更新值时考虑所述当前值。
4.根据权利要求3所述的方法,其中,所述在确定所述声道间时间差的所述更新值时考虑所述当前值的步骤(S4-1)包括:选择所述声道间时间差的所述当前值作为所述声道间时间差的所述更新值。
5.根据权利要求3所述的方法,其中,所述在确定所述声道间时间差的所述更新值时考虑所述当前值的步骤(S4-1)包括以下步骤:将所述声道间时间差的所述当前值与所述声道间时间差的一个或多个先前值一起用于确定所述声道间时间差的所述更新值。
6.根据权利要求5所述的方法,其中,所述将所述声道间时间差的所述当前值与所述声道间时间差的一个或多个先前值一起用于确定所述声道间时间差的所述更新值的步骤包括:根据所述声道间相关性的所述值来确定多个声道间时间差值的组合,其中,向每一个声道间时间差值施加的权重是在同一时刻所述声道间相关性的函数。
7.根据权利要求1或2所述的方法,其中,所述确定所述声道间时间差的更新值的步骤(S4)包括以下步骤(S4-2):如果确定所述声道间时间差的所述当前值是无关的,则使用所述声道间时间差的一个或多个先前值来确定所述声道间时间差的所述更新值。
8.根据权利要求1所述的方法,其中,所述基于在时间上对所述声道间相关性的自适应平滑来自适应地确定自适应声道间相关性阈值的步骤(S2)包括以下步骤(S2-1):估计所述声道间相关性的相对缓慢的演变和相对快速的演变,以及定义所述声道间相关性的组合的混合演变,其中,如果所述声道间相关性随时间不断增加,则所述混合演变相对快速地遵循所述声道间相关性的改变,而如果所述声道间相关性随时间不断减小,则所述混合演变相对缓慢地遵循改变。
9.根据权利要求8所述的方法,其中,所述基于在时间上对所述声道间相关性的自适应平滑来自适应地确定自适应声道间相关性阈值的步骤(S2)包括以下步骤(S2-2):将所述自适应声道间相关性阈值选择为在所考虑的时刻所述声道间相关性的所述混合演变、所述相对缓慢的演变和所述相对快速的演变中的最大值。
10.一种音频编码方法,包括:根据权利要求1至9中的任意一项所述的用于确定声道间时间差的方法。
11.一种音频解码方法,包括:根据权利要求1至9中的任意一项所述的用于确定声道间时间差的方法。
12.一种用于确定具有至少两个声道的多声道音频信号的声道间时间差的设备(30),其中,所述设备包括:
-声道间相关性确定器(32;100、110),被配置为在多个连续时刻基于互相关函数来确定声道间相关性,所述互相关函数涉及所述多声道音频信号的至少两个不同的声道,其中,所述声道间相关性的每一个值与所述声道间时间差的相应值相关联;
-自适应滤波器(33;100、120),被配置为在时间上对所述声道间相关性执行自适应平滑;
-阈值确定器(34;100、130),被配置为基于对所述声道间相关性的自适应平滑来自适应地确定自适应声道间相关性阈值;
-声道间相关性评估器(35;100、140),被配置为关于所述自适应声道间相关性阈值来评估声道间相关性的当前值,以确定所述声道间时间差的所述相应的当前值是否是有关的;以及
-声道间时间差确定器(38;100、150),被配置为基于所述评估的结果来确定所述声道间时间差的更新值。
13.根据权利要求12所述的设备,其中,所述声道间相关性评估器(35;100、140)被配置为关于所述自适应声道间相关性阈值来评估所述声道间相关性的当前值,以确定在确定所述声道间时间差的所述更新值时是否应当由声道间时间差确定器(38;100、150)使用所述声道间时间差的所述当前值。
14.根据权利要求12或13所述的设备,其中,所述声道间时间差确定器(38;100、150)被配置为如果确定所述声道间时间差的所述当前值是有关的,则在确定所述声道间时间差的所述更新值时考虑所述当前值。
15.根据权利要求14所述的设备,其中,所述声道间时间差确定器(38;100、150)被配置为选择所述声道间时间差的所述当前值作为所述声道间时间差的所述更新值。
16.根据权利要求14所述的设备,其中,所述声道间时间差确定器(38;100、150)被配置为基于所述声道间时间差的所述当前值以及所述声道间时间差的一个或多个先前值来确定所述声道间时间差的所述更新值。
17.根据权利要求16所述的设备,其中,所述声道间时间差确定器(38;100、150)被配置为根据所述声道间相关性的所述值来确定多个声道间时间差值的组合,其中,向每一个声道间时间差值施加的权重是在同一时刻所述声道间相关性的函数。
18.根据权利要求12或13所述的设备,其中,所述声道间时间差确定器(38;100、150)被配置为如果确定所述声道间时间差的所述当前值是无关的,则基于所述声道间时间差的一个或多个先前值来确定所述声道间时间差的所述更新值。
19.根据权利要求12所述的设备,其中,所述自适应滤波器(33;100、120)被配置为估计所述声道间相关性的相对缓慢的演变和相对快速的演变,以及定义所述声道间相关性的组合的混合演变,其中,如果所述声道间相关性随时间不断增加,则所述混合演变相对快速地遵循所述声道间相关性的改变,而如果所述声道间相关性随时间不断减小,则所述混合演变相对缓慢地遵循改变。
20.根据权利要求19所述的设备,其中,所述阈值确定器(34;100、130)被配置为将所述自适应声道间相关性阈值选择为在考虑的时刻所述声道间相关性所述混合演变、所述相对缓慢的演变和所述相对快速的演变中的最大值。
21.一种音频编码器,包括:根据权利要求12至20中的任意一项所述的用于确定声道间时间差的设备(30)。
22.一种音频解码器,包括:根据权利要求12至20中的任意一项所述的用于确定声道间时间差的设备(30)。
CN201180066784.2A 2011-02-02 2011-04-07 确定多声道音频信号的声道间时间差 Active CN103403800B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161438720P 2011-02-02 2011-02-02
US61/438,720 2011-02-02
PCT/SE2011/050423 WO2012105885A1 (en) 2011-02-02 2011-04-07 Determining the inter-channel time difference of a multi-channel audio signal

Publications (2)

Publication Number Publication Date
CN103403800A true CN103403800A (zh) 2013-11-20
CN103403800B CN103403800B (zh) 2015-06-24

Family

ID=46602964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180066784.2A Active CN103403800B (zh) 2011-02-02 2011-04-07 确定多声道音频信号的声道间时间差

Country Status (5)

Country Link
US (5) US9424852B2 (zh)
EP (2) EP3035330B1 (zh)
CN (1) CN103403800B (zh)
PL (2) PL3035330T3 (zh)
WO (1) WO2012105885A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016141732A1 (zh) * 2015-03-09 2016-09-15 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033672A (zh) * 2015-03-09 2016-10-19 华为技术有限公司 确定声道间时间差参数的方法和装置
WO2017193550A1 (zh) * 2016-05-10 2017-11-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107782977A (zh) * 2017-08-31 2018-03-09 苏州知声声学科技有限公司 多个usb数据采集卡输入信号延时测量装置及测量方法
CN108369809A (zh) * 2015-12-18 2018-08-03 高通股份有限公司 时间偏移估计
CN108885877A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 用于估计声道间时间差的设备及方法
CN109215667A (zh) * 2017-06-29 2019-01-15 华为技术有限公司 时延估计方法及装置
WO2019037714A1 (zh) * 2017-08-23 2019-02-28 华为技术有限公司 立体声信号的编码方法和编码装置
CN110168637A (zh) * 2017-01-19 2019-08-23 高通股份有限公司 多个音频信号的译码

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3035330B1 (en) * 2011-02-02 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
CN103400582B (zh) * 2013-08-13 2015-09-16 武汉大学 面向多声道三维音频的编解码方法与系统
CN105895112A (zh) * 2014-10-17 2016-08-24 杜比实验室特许公司 面向用户体验的音频信号处理
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
EP3079074A1 (fr) 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
FR3034892B1 (fr) * 2015-04-10 2018-03-23 Orange Procede de traitement de donnees pour l'estimation de parametres de mixage de signaux audio, procede de mixage, dispositifs, et programmes d'ordinateurs associes
DE102015008000A1 (de) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10832689B2 (en) * 2016-03-09 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing stability of an inter-channel time difference parameter
CN107742521B (zh) 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
US10395667B2 (en) * 2017-05-12 2019-08-27 Cirrus Logic, Inc. Correlation-based near-field detector
CN109300480B (zh) * 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
MX2020010462A (es) * 2018-04-05 2020-10-22 Fraunhofer Ges Forschung Aparato, metodo o programa de computacion para estimar la diferencia de tiempo entre canales.
GB201808897D0 (en) * 2018-05-31 2018-07-18 Nokia Technologies Oy Spatial audio parameters
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
CN115132214A (zh) * 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
US11671793B2 (en) 2020-12-10 2023-06-06 Samsung Electronics Co., Ltd. Channel frequency response reconstruction assisted time-of-arrival estimation method
US20240064483A1 (en) * 2021-01-18 2024-02-22 Panasonic Intellectual Property Corporation Of America Signal processing device and signal processing method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006091150A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Improved filter smoothing in multi-channel audio encoding and/or decoding
WO2006108456A1 (en) * 2005-04-15 2006-10-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN101188878A (zh) * 2007-12-05 2008-05-28 武汉大学 一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构
WO2010000313A1 (en) * 2008-07-01 2010-01-07 Nokia Corporation Apparatus and method for adjusting spatial cue information of a multichannel audio signal
WO2010115850A1 (en) * 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
EP3035330B1 (en) * 2011-02-02 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006091150A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Improved filter smoothing in multi-channel audio encoding and/or decoding
WO2006108456A1 (en) * 2005-04-15 2006-10-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
CN101188878A (zh) * 2007-12-05 2008-05-28 武汉大学 一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构
WO2010000313A1 (en) * 2008-07-01 2010-01-07 Nokia Corporation Apparatus and method for adjusting spatial cue information of a multichannel audio signal
WO2010115850A1 (en) * 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016141732A1 (zh) * 2015-03-09 2016-09-15 华为技术有限公司 确定声道间时间差参数的方法和装置
RU2670843C1 (ru) * 2015-03-09 2018-10-25 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство для определения параметра межканальной временной разности
CN106033671A (zh) * 2015-03-09 2016-10-19 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
RU2670843C9 (ru) * 2015-03-09 2018-11-30 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство для определения параметра межканальной временной разности
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033672A (zh) * 2015-03-09 2016-10-19 华为技术有限公司 确定声道间时间差参数的方法和装置
US10210873B2 (en) 2015-03-09 2019-02-19 Huawei Technologies Co., Ltd. Method and apparatus for determining inter-channel time difference parameter
CN108369809A (zh) * 2015-12-18 2018-08-03 高通股份有限公司 时间偏移估计
CN108369809B (zh) * 2015-12-18 2019-08-13 高通股份有限公司 时间偏移估计
US11887609B2 (en) 2016-01-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
CN108885877B (zh) * 2016-01-22 2023-09-08 弗劳恩霍夫应用研究促进协会 用于估计声道间时间差的设备及方法
CN108885877A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 用于估计声道间时间差的设备及方法
WO2017193550A1 (zh) * 2016-05-10 2017-11-16 华为技术有限公司 多声道信号的编码方法和编码器
CN110168637B (zh) * 2017-01-19 2023-05-30 高通股份有限公司 多个音频信号的译码
CN110168637A (zh) * 2017-01-19 2019-08-23 高通股份有限公司 多个音频信号的译码
TWI666630B (zh) * 2017-06-29 2019-07-21 大陸商華為技術有限公司 時延估計方法及裝置
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
US11304019B2 (en) 2017-06-29 2022-04-12 Huawei Technologies Co., Ltd. Delay estimation method and apparatus
CN109215667A (zh) * 2017-06-29 2019-01-15 华为技术有限公司 时延估计方法及装置
US11950079B2 (en) 2017-06-29 2024-04-02 Huawei Technologies Co., Ltd. Delay estimation method and apparatus
US11244691B2 (en) 2017-08-23 2022-02-08 Huawei Technologies Co., Ltd. Stereo signal encoding method and encoding apparatus
US11636863B2 (en) 2017-08-23 2023-04-25 Huawei Technologies Co., Ltd. Stereo signal encoding method and encoding apparatus
WO2019037714A1 (zh) * 2017-08-23 2019-02-28 华为技术有限公司 立体声信号的编码方法和编码装置
CN107782977A (zh) * 2017-08-31 2018-03-09 苏州知声声学科技有限公司 多个usb数据采集卡输入信号延时测量装置及测量方法

Also Published As

Publication number Publication date
US20160198279A1 (en) 2016-07-07
EP3035330B1 (en) 2019-11-20
US20170061972A1 (en) 2017-03-02
EP3035330A1 (en) 2016-06-22
PL3035330T3 (pl) 2020-05-18
CN103403800B (zh) 2015-06-24
EP2671222B1 (en) 2016-03-02
US20190267013A1 (en) 2019-08-29
EP2671222A4 (en) 2014-10-22
US20200152210A1 (en) 2020-05-14
EP2671222A1 (en) 2013-12-11
US9424852B2 (en) 2016-08-23
PL2671222T3 (pl) 2016-08-31
US10573328B2 (en) 2020-02-25
WO2012105885A1 (en) 2012-08-09
US9525956B2 (en) 2016-12-20
US20130301835A1 (en) 2013-11-14
US10332529B2 (en) 2019-06-25

Similar Documents

Publication Publication Date Title
CN103403800B (zh) 确定多声道音频信号的声道间时间差
US10531198B2 (en) Apparatus and method for decomposing an input signal using a downmixer
US10395660B2 (en) Apparatus and method for multichannel direct-ambient decompostion for audio signal processing
CN103339670B (zh) 确定多通道音频信号的通道间时间差
MX2013013058A (es) Aparato y metodo para generar una señal de salida que emplea un descomponedor.
CN104205211A (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant