CN110024421B - 用于自适应控制去相关滤波器的方法和装置 - Google Patents

用于自适应控制去相关滤波器的方法和装置 Download PDF

Info

Publication number
CN110024421B
CN110024421B CN201780072339.4A CN201780072339A CN110024421B CN 110024421 B CN110024421 B CN 110024421B CN 201780072339 A CN201780072339 A CN 201780072339A CN 110024421 B CN110024421 B CN 110024421B
Authority
CN
China
Prior art keywords
decorrelation
control parameter
parameters
calculating
decorrelator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780072339.4A
Other languages
English (en)
Other versions
CN110024421A (zh
Inventor
托马斯·詹森托夫特戈德
汤米·福克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Priority to CN202011398462.5A priority Critical patent/CN112397076A/zh
Publication of CN110024421A publication Critical patent/CN110024421A/zh
Application granted granted Critical
Publication of CN110024421B publication Critical patent/CN110024421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

一种用于自适应调整去相关器的音频信号处理方法和装置。该方法包括获得控制参数并计算控制参数的平均值和变化。计算控制参数的变化与平均值的比率,并基于所述比率计算去相关参数。然后将去相关参数提供给去相关器。

Description

用于自适应控制去相关滤波器的方法和装置
技术领域
本申请涉及空间音频编码和渲染。
背景技术
空间或3D音频是表示各种多声道音频信号的通用公式。取决于捕获和渲染方法,音频场景由空间音频格式表示。由捕获方法(麦克风)定义的典型空间音频格式例如表示为立体声、双耳、立体声等。空间音频渲染系统(耳机或扬声器)能够利用立体声(左右声道2.0)或更高级的多声道音频信号(2.1、5.1、7.1等)渲染空间音频场景。
用于传输和操纵这类音频信号的最新技术利用更高空间质量使终端用户能够具有增强音频体验,其中更高空间质量通常导致更好的可理解性以及增强现实。诸如MPEG环绕或MPEG-H 3D音频之类的空间音频编码技术生成空间音频信号的紧凑表示,其与诸如例如通过互联网流式传输的数据速率约束应用兼容。然而,当数据速率约束很强时,空间音频信号的传输受到限制,因此解码的音频声道的后处理也用于增强空间音频回放。通常使用的技术例如能够将解码的单声道或立体声信号盲目地混合成多声道音频(5.1声道或更多声道)。
为了有效地渲染空间音频场景,空间音频编码和处理技术利用多声道音频信号的空间特性。特别地,空间音频捕获的声道之间的时间和电平差用于近似耳间线索,其表征我们对空间中的定向声音的感知。由于声道间时间和电平差仅是听觉系统能够检测到的近似值(即耳朵入口处的耳间时间和电平差),因此从感知方面而言声道间时间差相关是非常重要。声道间时间和电平差(ICTD和ICLD)通常用于对多声道音频信号的方向分量进行建模,而对耳间互相关(IACC)进行建模的声道间互相关(ICC)用于表征音频图像的宽度。特别是对于较低频率,立体声图像也可以用声道间相位差(ICPD)进行建模。
应当注意,与空间听觉感知相关的双耳线索被称为耳间电平差(ILD)、耳间时间差(ITD)和耳间相干或相关(IC或IACC)。在考虑一般多声道信号时,与声道相关的对应线索是声道间电平差(ICLD)、声道间时间差(ICTD)和声道间相干性或相关性(ICC)。由于空间音频处理主要在捕获的音频声道上操作,因此有时省略“C”并且在引用音频声道时也经常使用术语ITD、ILD和IC。图1给出了这些参数的说明。在图1中,示出了具有5.1环绕系统(5个分立+1个低频效果)的空间音频回放。从音频声道中提取诸如ICTD、ICLD和ICC之类的声道间参数,以便近似对人类对空间声音的感知进行建模的ITD、ILD和IACC。
在图2中,示出了采用参数空间音频分析的典型设置。图2示出了参数立体声编码器的基本方框图。立体声信号对被输入到立体声编码器201。参数提取202辅助降混过程,其中降混器204准备要用单声道编码器206编码的两个输入声道的单声道表示。提取的参数由参数编码器208进行编码。即,立体声声道被降混成单声道信号207,该单声道信号被编码并与描述空间图像的编码参数205一起传输到解码器203。通常,一些立体声参数在诸如等效矩形带宽(ERB)标度之类的感知频率标度上以频谱子带表示。解码器基于解码的单声道信号和传输的参数执行立体声合成。即,解码器使用单声道解码器210重建单个声道,并使用参数表示来合成立体声声道。解码的单声道信号和接收的编码参数被输入到参数合成单元212或对参数进行解码的过程,使用解码的参数合成立体声声道,并输出合成的立体声信号对。
由于编码的参数用于针对人类听觉系统渲染空间音频,因此重要的是提取声道间参数并在感知考虑下进行编码以获得最大化的感知质量。
由于可能不显式地编码侧声道,所以可以通过中间声道的去相关来近似侧声道。去相关技术通常是用于生成输出信号的滤波方法,从精细结构视角而言该输出信号与输入信号不相干。理想情况下,去相关信号的频谱和时间包络应保持不变。去相关滤波器通常是对输入信号进行相位修改的全通滤波器。
发明内容
实施例的本质是对用于表示在多声道音频解码器中使用的非相干信号分量的去相关器特征的自适应控制。自适应是基于传输的性能测量及其随时间变化的方式。可以使用相同的基本方法自适应地控制去相关器的不同方面,以匹配输入信号的特征。去相关特征的最重要方面之一是在具体实施方式中描述的去相关器滤波器长度的选择。可以以类似的方式自适应地控制去相关器的其他方面,诸如控制去相关分量的强度或可能需要自适应地控制以匹配输入信号的特征的其他方面。
提供了一种用于去相关滤波器长度的自适应的方法。该方法包括接收或获得控制参数,以及计算控制参数的平均值和变化。计算控制参数的变化与平均值的比率,并且基于当前比率计算最佳或目标去相关滤波器长度。然后将最佳或目标去相关滤波器长度应用或提供给去相关器。
根据第一方面,提出了一种用于自适应地调整去相关器的音频信号处理方法。该方法包括获得控制参数并计算控制参数的平均值和变化。计算控制参数的变化与平均值的比率,并基于所述比率计算去相关参数。然后将去相关参数提供给去相关器。
控制参数可以是性能测量。可以从估计的混响长度、相关性测量、空间宽度的估计或预测增益中获得性能测量。
从诸如参数立体声编码器之类的编码器接收控制参数,或者从在解码器处已经可用的信息中获得控制参数,或通过可用的信息和传输的信息(即解码器接收的信息)的组合获得控制参数。
可以在至少两个子带中进行去相关滤波器长度的自适应,使得每个频带可以具有最佳去相关滤波器长度。这意味着比目标长度更短或更长的滤波器可以用于某些频率子带或系数。
该方法由参数立体声解码器或立体声音频编解码器执行。
根据第二方面,提供了一种用于自适应地调整去相关器的装置。该装置包括处理器和存储器,所述存储器包括可由所述处理器执行的指令,由此所述装置可操作以获得控制参数并计算控制参数的平均值和变化。该装置可操作以计算控制参数的变化与平均值的比率,并基于所述比率计算去相关参数。该装置还可操作以将去相关参数提供给去相关器。
根据第三方面,提供了一种计算机程序,包括指令,所述指令当由处理器执行时使装置执行第一方面的方法的动作。
根据第四方面,提供了一种在非暂时性计算机可读介质上具体化的计算机程序产品,包括计算机代码,该计算机代码包括使处理器执行第一方面的过程的计算机可执行指令。
根据第五方面,提供了一种用于自适应调整去相关器的音频信号处理方法。该方法包括获得控制参数并基于所述控制参数的变化计算目标去相关参数。
根据第六方面,提供了一种多声道音频编解码器,包括用于执行第五方面的方法的装置。
附图说明
为了更完整地理解本发明的示例实施例,现在结合附图参考以下描述,附图中:
图1示出了5.1环绕系统的空间音频回放。
图2示出了参数立体声编码器的基本方框图。
图3示出了作为IACC的函数的听觉对象的宽度。
图4示出了音频信号的示例。
图5是描述根据实施例的方法的方框图。
图6是描述根据替代实施例的方法的方框图。
图7示出了装置的示例。
图8示出了包括去相关滤波器长度计算器的设备。
具体实施方式
通过参考附图中的图1至图8,可以理解本发明的示例实施例及其潜在的优点。
用于表示非相干信号分量的现有解决方案基于时不变去相关滤波器,并且解码的多声道音频中的非相干分量的量通过去相关和非去相关信号分量的混合来控制。
这种时不变去相关滤波器的问题在于去相关信号不适合于受到听觉场景中变化影响的输入信号的属性。例如,在低混响环境中对单个语音源录制的氛围将由来自与在具有显著较长混响的大型音乐厅中对交响乐团的录制相同的滤波器的去相关信号分量表示。即使随时间控制去相关分离的量,也不控制去相关长度和去相关的其他属性。这可能导致低混响录制声音的氛围太宽敞,而高混响录制的听觉场景被感知为太窄。低混响录制所需的短混响长度通常会在录制更宽敞的录音时导致金属和不自然的氛围。
所提出的解决方案通过在表示解码和渲染的多声道音频信号中的非相干分量时考虑非相干音频如何随时间变化来改善对非相干音频信号的控制,并且使用该信息来自适应地控制去相关的特征,例如混响长度。
自适应可以基于编码器中的输入信号的信号属性,并且通过将一个或多个控制参数传输到解码器来控制。或者,可以在不传输显式控制参数的情况下,根据在解码器处已经可用的信息或者通过可用的信息和传输的信息(即,解码器从编码器接收的信息)的组合来控制它。
传输的控制参数可以例如基于空间属性的参数描述的估计性能,即在双声道输入的情况下的立体声图像。即,控制参数可以是性能测量。可以从估计的混响长度、相关性测量、空间宽度的估计或预测增益中获得性能测量。
该解决方案提供了对解码的渲染音频信号中的混响的更好控制,这改善了各种信号类型(诸如具有低混响的清晰语音信号或具有大混响和宽音频场景的宽敞音乐信号)的感知质量。
实施例的本质是用于表示在多声道音频解码器中使用的非相干信号分量的去相关滤波器长度的自适应控制。自适应是基于传输的性能测量及其随时间变化的方式。另外,可以基于与去相关长度相同的控制参数来控制去相关分量的强度。
所提出的解决方案可以例如利用分立傅里叶变换(DFT)在滤波器组或变换域中的频带上对时域中的帧或样本进行操作以对频带的频率系数进行处理。在一个域中执行的操作可以在另一个域中等效地执行,并且给定的实施例不限于示例的域。
在一个实施例中,所提出的解决方案用于具有编码的降混声道和空间属性的参数描述的立体声音频编解码器,即如图2中所示。参数分析可以提取描述声道之间的非相干分量的一个或多个参数,其可用于自适应地调整合成立体声音频中的非相干分量的感知量。如图3中所示,IACC(即声道之间的相干性)将影响空间听觉对象或场景的感知宽度。当IACC减小时,源宽度增加,直到声音被感知为两个不同的不相关音频源为止。为了能够在立体声录制中呈现宽广的氛围,必须在解码器处合成声道之间的非相干分量。
可以从以下等式获得两个输入声道X和Y的降混声道:
Figure BDA0002068696390000061
其中M是降混声道,而S是侧声道。可以选择降混矩阵U1,使得M声道能量最大化并且S声道能量最小化。降混操作可以包括输入信号的相位或时间对准。下面给出了被动降混的示例
Figure BDA0002068696390000062
侧声道S可以不被显式编码,而是例如通过使用预测滤波器来参数化地建模,其中根据解码的中间声道
Figure BDA0002068696390000063
预测
Figure BDA0002068696390000064
并在解码器处将
Figure BDA0002068696390000065
用于空间合成。在这种情况下,预测参数(例如预测滤波器系数)可以被编码并传输到解码器。
对侧声道进行建模的另一种方法是通过中间声道的去相关来近似它。去相关技术通常是用于生成输出信号的滤波方法,从精细结构视角而言该输出信号与输入信号不相干。理想情况下,去相关信号的频谱和时间包络应保持不变。去相关滤波器通常是对输入信号进行相位修改的全通滤波器。
在该实施例中,所提出的解决方案用于在参数立体声解码器中自适应地调整用于空间合成的去相关器。
通过以下等式获得编码的单声道
Figure BDA0002068696390000066
的空间渲染(上混)
Figure BDA0002068696390000067
其中U2是上混矩阵,而在精细结构视角下D在理想情况下与
Figure BDA0002068696390000071
不相关。上混矩阵控制合成的左
Figure BDA0002068696390000072
和右
Figure BDA0002068696390000073
声道中的
Figure BDA0002068696390000074
和D量。应注意.上混还可以涉及附加的信号分量,诸如编码的残留信号。
由以下等式给出在传输ILD和ICC的参数立体声中使用的上混矩阵的示例
Figure BDA0002068696390000075
其中
Figure BDA0002068696390000076
Figure BDA0002068696390000077
旋转角度α用于确定合成声道之间的相关量,并由以下等式给出
Figure BDA0002068696390000078
如下获得整体旋转角度β
Figure BDA0002068696390000079
由以下等式给出两个声道x[n]和y[n]之间的ILD
Figure BDA00020686963900000710
其中n=[1,...,N]是具有N个样本的帧上的样本索引。
可以通过声道间互相关(ICC)来估计声道之间的相干性。常规ICC估计依赖于互相关函数(CCF)rxy,rxy是两个波形x[n]和y[n]之间相似性的测量,并且通常在时域中定义为
rxy[n,τ]=E[x[n]y[n+τ]] (10)
其中τ是时滞,而E[·]是期望运算符。对于长度N的信号帧,通常将互相关估计为
Figure BDA00020686963900000711
然后作为CCF的最大值获得ICC,该CCF如下由信号能量进行归一化
Figure BDA00020686963900000712
可以在立体图像的描述中使用附加参数。这些可以例如反映声道之间的相位或时间差。
去相关滤波器可以通过其在DFT域中的脉冲响应hd(n)或传递函数Hd(k)来定义,其中n和k分别是样本和频率索引。在DFT域中,通过以下等式获得去相关信号Md
Figure BDA0002068696390000081
其中k是频率系数索引。在时域中操作时,通过滤波获得去相关信号
Figure BDA0002068696390000082
其中n是样本索引。
在一个实施例中,如下获得基于A串联连接的全通滤波器的混响器
Figure BDA0002068696390000083
其中ψ[a]和d[a]指定反馈的衰减和延迟。这仅是可以用于去相关的混响器的示例,并且存在替代的混响器,例如可以利用分数采样延迟。可以在区间[0,1)中选择衰减因子ψ[a],因为大于1的值会导致不稳定的滤波器。通过选择衰减因子ψ[a]=0,滤波器将是样本的延迟d[a]。在这种情况下,滤波器长度将由混响器中滤波器组中的最大延迟d[a]给出。
取决于信号特性,多声道音频或者在该示例中为双声道音频在声道之间自然具有不同的相干量。对于在良好阻尼环境中录制的单个扬声器,将存在少量的反射和混响,这将导致声道之间的高相干性。随着混响的增加,相干性通常会降低。这意味着对于具有少量噪声和环境噪声的清晰语音信号,去相关滤波器的长度应该比混响环境中的单个扬声器的去相关滤波器的长度短。去相关器滤波器的长度是控制所生成的去相关信号的特征的一个重要参数。本发明的实施例还可以用于自适应地控制其他参数(诸如与去相关信号的电平控制有关的参数),以便将去相关信号的特征与输入信号的特征匹配。
通过利用混响器来渲染非相干信号分量,可以控制延迟量以适应编码音频的不同空间特性。更一般地,可以控制去相关滤波器的脉冲响应的长度。如上所述,控制滤波器长度可以等效于在没有反馈的情况下控制混响器的延迟。
在一个实施例中,在没有反馈的情况下的混响器延迟d(在这种情况下等效于滤波器长度)是控制参数c1的函数f1(·)。
d=f1(c1) (16)
传输的控制参数可以例如基于空间属性的参数描述的估计性能,即在双声道输入的情况下的立体声图像。性能测量r可以例如根据估计的混响长度、相关性测量、空间宽度的估计或预测增益来获得。然后可以基于该性能测量来控制去相关滤波器长度d,即,c1是性能测量r。由以下等式给出合适的控制函数f1(·)的一个示例
Figure BDA0002068696390000091
其中γ1是通常位于范围[0,Dmax](Dmax是最大允许延迟)内的调谐参数,而θ1是g(r)的上限。如果g(r)>θ1,则选择较短的延迟,例如d=1。
θ1是例如可以设置为θ1=7.0的调谐参数。θ1和g(r)的动态之间存在关系,并且在另一个实施例中,例如可以是θ1=0.22。
子函数g(r)可以定义为r的变化与r随时间的平均值之间的比率。对于性能测量中与其平均值相比具有很大变化的声音(这通常是具有很小背景噪声或混响的稀疏声音的情况),该比率将较高。对于更密集的声音,如音乐或具有背景噪声的语音,该比率将较低,因此像声音分类器一样工作,对原始输入信号的非相干分量的特征进行分类。该比率可以计算为
Figure BDA0002068696390000092
其中θmax是上限,例如设置为200,而θmin是下限,例如设置为0。例如,限度可以与调谐参数θ1相关,例如θmax=1.5θ1
针对帧i,如下获得传输的性能测量的平均值的估计的
Figure BDA0002068696390000093
对于第一帧,rmean[i-1]可以初始化为0。可以选择平滑因子αpos和αneg,使得不同地遵循r的向上和向下的变化。在一个示例中,αpos=0.005并且αneg=0.5,这意味着平均估计在更大程度上遵循平均性能测量在时间上的最小值。在另一实施例中,正和负平滑因子是相等的,例如,αpos=αneg=0.1。
类似地,如下获得性能测量变化的平滑估计
Figure BDA0002068696390000101
其中
rc[i]=|r[i]-rmean[i]| (21)
或者,可以将r的方差估计为
Figure BDA0002068696390000102
然后该比率g(r)可以将标准偏差
Figure BDA0002068696390000103
与平均值rmean有关,即
Figure BDA0002068696390000104
或者方差可能与平方均值有关,即
Figure BDA0002068696390000105
可以由以下等式给出标准偏差的另一估计
Figure BDA0002068696390000106
其复杂性较低。
可以选择平滑因子βpos和βneg,使得不同地遵循rc的向上和向下的变化。在一个示例中,βpos=0.5并且βneg=0.05,这意味着平均估计在更大程度上遵循性能测量在时间上的最大值。在另一实施例中,正和负平滑因子是相等的,例如βpos=βneg=0.1。
通常,对于所有给定示例,可以针对与当前帧的更新值进行比较的任何阈值进行两个平滑因子之间的转换。即在等式25的给定示例中,rc[i]>θthres
另外,控制延迟的比率g(r)可以根据以下等式随时间而平滑
Figure BDA0002068696390000107
其中平滑因子αs是调谐因子,例如设置为0.01。这意味着针对帧i在等式17中的g(r[i])替换为
Figure BDA0002068696390000108
在另一实施例中,基于性能测量c1有条件地平滑该比率g(r),即
Figure BDA0002068696390000111
这种函数的一个示例是
Figure BDA0002068696390000112
其中平滑参数是性能测量的函数。例如
Figure BDA0002068696390000113
取决于所使用的性能测量,可以不同地选择函数fthres。例如,它可以是一组帧或样本上或一组频率子带或系数上的平均值、百分位数(例如中值)、最小值或最大值,即例如
fthres(c1)=max(c1[b]) (30)
其中b=b0,...bN-1是N个频率子带的索引。分别在超过、不超过例如设置为0.6的阈值θhigh并且对于正和负更新可以相等或不同时,例如κpos_high=0.03,κneg_high=0.05,κneg_low=0.001,平滑因子控制平滑量。
可以注意到,在样本或帧之间的获得的去相关滤波器长度的附加平滑或变化限制是可能的,以便避免伪像。另外,可以限制用于去相关的该组滤波器长度,以便减少在混合信号时获得的不同显色的数量。例如,可能存在两种不同的长度,其中第一种相对较短而第二种较长。
在一个实施例中,使用包括两个不同长度d1和d2的一组可用滤波器。例如,可以如下获得目标滤波器长度d
Figure BDA0002068696390000114
其中γ1是例如由以下等式给出的调谐参数
γ1=d2-d1+δ (32)
其中δ是偏移项,例如可以设置为2。这里假设d2大于d1。注意,目标滤波器长度是控制参数,但是不同的滤波器长度或混响器延迟可以用于不同的频率。这意味着比目标长度更短或更长的滤波器可以用于某些频率子带或系数。
在这种情况下,控制合成声道
Figure BDA0002068696390000115
Figure BDA0002068696390000116
中的去相关信号D的量的去相关滤波器强度s可以由相同的控制参数控制,在这种情况下具有一个控制参数,即性能测量c1≡r。
在另一实施例中,去相关滤波器长度的自适应在若干个(即至少两个)子带中进行,使得每个频带可具有最佳去相关滤波器长度。
在混响器使用具有反馈的一组滤波器的实施例中,如等式15中所示,反馈量ψ[a]也可以以与延迟参数d[a]类似的方式进行调整。在这样的实施例中,所生成的环境的长度是这两个参数的组合,因此可能需要调整两者以便实现合适的环境长度。
在又一个实施例中,按照两个或更多个不同控制参数的函数来控制去相关滤波器长度或混响器延迟d和去相关信号强度s,即
d=f2(c21,c22,...) (33)
s=f3(c31,c32,...) (34)
在又一个实施例中,通过对解码的音频信号进行分析来控制去相关滤波器长度和去相关信号强度。
此外,可以特别地控制混响长度以用于瞬态(即突然的)能量增加,或者用于具有特殊特性的其他信号。
当滤波器随时间变化时,应该对帧或样本进行一些更改处理。例如,这可以是具有重叠帧的内插或窗口函数。可以在相应受控长度的先前滤波器与若干样本或帧上的当前目标滤波器长度之间进行内插。可以通过连续减小先前滤波器的增益同时增加样本或帧上的当前目标长度的当前滤波器的增益来获得内插。在另一实施例中,目标滤波器长度控制每个可用滤波器的滤波器增益,使得当目标滤波器长度不可用时存在不同长度的可用滤波器的混合。在分别具有长度d1和d2的两个可用滤波器h1和h2的情况下,可以如下获得它们的增益s1和s2
s1=f3(d1,d2,c1) (35)
s2=f4(d1,d2,c1) (36)
滤波器增益也可以相互依赖,例如以便获得滤波信号的相等能量,即在h1是增益受c1控制的参考滤波器情况下有s2=f(s1)。例如,可以如下获得滤波器增益s1
s1=(d2-d)/(d2-d1) (37)
其中d是在范围[d1,d2]中的目标滤波器长度并且d2>d1。然后可以例如如下获得第二滤波器增益
Figure BDA0002068696390000131
如果滤波操作是在时域中执行,则如下获得滤波信号md[n]
Figure BDA0002068696390000132
在去相关信号强度s由控制参数c1控制的情况下,作为先前帧的控制参数和去相关滤波器长度d的函数f4(·)来控制去相关信号强度可能是有益的。即
s[i]=f4(d,c1[i],c1[i-1],...,c1[i-NM]) (40)
这种函数的一个示例是
s[i]=min(β4c1[i-d],c1[i-d](1-α4)+α4c1[i]) (41)
其中α4和β4是调谐参数,例如α4=0.8或者α4=0.6并且β4=1.0。α4通常应该在范围[0,1]内,而β4也可以大于1。
在多于一个滤波器的混合的情况下,即在两个滤波器h1和h2的情况下,可以例如基于加权平均值获得在与
Figure BDA0002068696390000133
上混中的滤波信号md[n]的强度s
s[i]=min(β4w[i],w[i](1-α4)+α4c1[i]) (42)
其中
w[i]=s1c1[i-d1]+s2c1[i-d2] (43)
图4示出了其中前半部分包含清晰的语音而后半部分包含古典音乐的信号的示例。对于包含音乐的后半部分,性能测量平均值相对较高。对于后半部分的性能测量变化也较高,但它们之间的比率相当低。性能测量变化远高于性能测量平均值的信号被认为是具有连续大量漫射分量的信号,因此对于该示例的前半部分,去相关滤波器的长度应该低于后半部分。应注意,图中的信号已经被平滑并且部分地受到限制以用于更受控制的行为。在这种情况下,目标去相关滤波器长度以分立数量的帧表示,但是在其他实施例中,滤波器长度可以连续变化。
图5和图6示出了用于调整去相关器的示例方法。该方法包括获得控制参数,以及计算控制参数的平均值和变化。计算控制参数的变化与平均值的比率,并基于该比率计算去相关参数。然后将去相关参数提供给去相关器。
图5描述了去相关滤波器长度的自适应中所涉及的步骤。方法500开始于接收501性能测量参数,即控制参数。在音频编码器中计算性能测量并传输到音频解码器。或者,从在解码器处已经可用的信息中获得控制参数或通过可用的信息和传输的信息的组合获得控制参数。首先,如方框502和504中所示,计算性能测量的平均值和变化。然后,计算506性能测量的变化与平均值的比率。基于该比率计算508最佳去相关滤波器长度。最后,应用510新的去相关滤波器长度以从例如接收到的单声道信号中获得去相关信号。
图6描述了去相关滤波器长度的自适应的另一个实施例。方法600开始于接收601性能测量参数,即控制参数。在音频编码器中计算性能测量并传输到音频解码器。或者,从在解码器处已经可用的信息中获得控制参数或通过可用的信息和传输的信息的组合获得控制参数。首先,如方框602和604中所示,计算性能测量的平均值和变化。然后,计算606性能测量的变化与平均值的比率。基于该比率计算608目标去相关滤波器长度。最后一步是将新的目标去相关滤波器长度提供610给去相关器。
该方法可以由参数立体声解码器或立体声音频编解码器执行。
图7示出了执行图5和图6中所示方法的装置的示例。装置700包括处理器710,例如中央处理单元(CPU),以及呈存储器形式的计算机程序产品720,用于存储指令,例如计算机程序730,当从存储器获取并由处理器710执行时计算机程序730使装置700执行与自适应调整去相关器的实施例相关的过程。处理器710通信地耦合到存储器720。该装置还可包括用于接收输入参数(即性能测量)的输入节点,以及用于输出处理参数(诸如去相关滤波器长度)的输出节点。输入节点和输出节点都通信地耦合到处理器710。
装置700可以包括在音频解码器(诸如图2下部所示的参数立体声解码器)中。它可以包括在立体声音频编解码器中。
图8示出了包括去相关滤波器长度计算器802的设备800。该设备可以是解码器,例如语音或音频解码器。输入信号804是具有描述空间图像的编码参数的编码的单声道信号。输入参数可以包括控制参数,诸如性能测量。输出信号806是合成的立体声或多声道信号,即重建的音频信号。该设备还可以包括用于从音频编码器接收输入信号的接收器(未示出)。该设备还可以包括单声道解码器和参数合成单元,如图2中所示。
在实施例中,去相关长度计算器802包括用于接收或获得性能测量参数(即控制参数)的获得单元。它还包括用于计算性能测量的平均值和变化的第一计算单元,用于计算性能测量的变化与平均值的比率的第二计算单元,以及用于计算目标去相关滤波器长度的第三计算单元。它还可以包括用于将目标去相关滤波器长度提供给去相关单元的提供单元。
举例来说,软件或计算机程序730可以实现为计算机程序产品,其通常被承载或存储在计算机可读介质上,计算机可读介质优选地是非易失性计算机可读存储介质。计算机可读介质可以包括一个或多个可移动或不可移动存储器设备,包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字通用盘(DVD)、蓝光盘、通用串行总线(USB)存储器、硬盘驱动器(HDD)存储设备、闪存、磁带或任何其他常规存储器设备。
本发明的实施例可以用软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器、微处理器或中央处理单元上。如果需要,则软件、应用逻辑和/或硬件的一部分可以驻留在主机设备上或主机的存储器、微处理器或中央处理单元上。在示例实施例中,应用逻辑、软件或指令集保存在各种常规计算机可读介质中的任何一个上。
缩略语
ILD/ICLD 声道间电平差
IPD/ICPD 声道间相位差
ITD/ICTD 声道间时间差
IACC 耳间互相关
ICC 声道间相关性
DFT 分立傅里叶变换
CCF 互相关函数。

Claims (25)

1.一种由音频解码器执行的用于自适应调整去相关器的音频信号处理方法(500、600),该方法包括:
获得(501、601)控制参数;
计算(502、602)所述控制参数的平均值;
计算(504、604)所述控制参数的变化;
计算(506、606)所述控制参数的所述变化与平均值的比率;以及
基于所述比率计算(508、608)去相关参数。
2.根据权利要求1所述的方法,还包括:将所计算的去相关参数提供给去相关器。
3.根据权利要求1或2所述的方法,其中所述计算所述去相关参数包括:计算目标去相关滤波器长度。
4.根据权利要求1或2所述的方法,其中从编码器接收所述控制参数,或者从在解码器处可用的信息中获得所述控制参数或通过可用的信息和接收的信息的组合获得所述控制参数。
5.根据权利要求1或2所述的方法,其中所述控制参数是性能测量。
6.根据权利要求1或2所述的方法,其中基于输入音频信号的空间属性的参数描述的估计性能来确定所述控制参数。
7.根据权利要求5所述的方法,其中从估计的混响长度、相关性测量、空间宽度估计或预测增益中获得所述性能测量。
8.根据权利要求1或2所述的方法,其中所述去相关参数的自适应在至少两个子带中进行,每个频带具有最佳去相关参数。
9.根据权利要求3所述的方法,其中通过对解码的音频信号的分析来控制所述去相关滤波器长度和去相关信号强度中的至少一个。
10.根据权利要求3所述的方法,其中按照两个或更多个不同控制参数的函数来控制所述去相关滤波器长度和去相关信号强度中的至少一个。
11.一种用于自适应调整去相关器的音频信号处理装置,包括用于执行根据权利要求1至10中至少一项所述的方法的装置。
12.一种用于在音频解码器处自适应调整去相关器的装置(700、802),所述装置包括处理器(710)和存储器(720),所述存储器包括可由所述处理器执行的指令,由此所述装置操作以:
获得控制参数;
计算所述控制参数的平均值;
计算所述控制参数的变化;
计算所述控制参数的所述变化与平均值的比率;以及
基于所述比率计算去相关参数。
13.根据权利要求12所述的装置,还被配置为:将所计算的去相关参数提供给去相关器。
14.根据权利要求12或13所述的装置,其中计算所述去相关参数包括:计算目标去相关滤波器长度。
15.根据权利要求12或13所述的装置,还被配置为:从编码器接收所述控制参数,或者从在所述装置处可用的信息中获得所述控制参数,或者从可用的信息和接收的信息的组合中获得所述控制参数。
16.根据权利要求12或13所述的装置,其中所述控制参数是性能测量。
17.根据权利要求12或13所述的装置,其中基于输入音频信号的空间属性的参数描述的估计性能来确定所述控制参数。
18.根据权利要求16所述的装置,其中所述性能测量是从估计的混响长度、相关性测量、空间宽度估计或预测增益中获得的。
19.根据权利要求12或13所述的装置,还被配置为:在至少两个子带中执行所述去相关参数的自适应,每个频带具有最佳去相关参数。
20.根据权利要求14所述的装置,还被配置为:通过对解码的音频信号的分析来控制所述去相关滤波器长度和去相关信号强度中的至少一个。
21.根据权利要求14所述的装置,还被配置为:按照两个或更多个不同控制参数的函数来控制所述去相关滤波器长度和去相关信号强度中的至少一个。
22.一种用于参数立体声解码器中的空间合成的去相关器,包括根据权利要求11至21中至少一项所述的装置。
23.一种立体声音频编解码器,包括根据权利要求11至21中至少一项所述的装置。
24.一种参数立体声解码器,包括根据权利要求11至21中至少一项所述的装置。
25.一种存储计算机程序(730)的计算机可读存储介质,所述计算机程序包括指令,所述指令当由处理器(710)执行时使装置执行根据权利要求1至10中任一项所述的方法的动作。
CN201780072339.4A 2016-11-23 2017-11-23 用于自适应控制去相关滤波器的方法和装置 Active CN110024421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011398462.5A CN112397076A (zh) 2016-11-23 2017-11-23 用于自适应控制去相关滤波器的方法和装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662425861P 2016-11-23 2016-11-23
US62/425,861 2016-11-23
US201662430569P 2016-12-06 2016-12-06
US62/430,569 2016-12-06
PCT/EP2017/080219 WO2018096036A1 (en) 2016-11-23 2017-11-23 Method and apparatus for adaptive control of decorrelation filters

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011398462.5A Division CN112397076A (zh) 2016-11-23 2017-11-23 用于自适应控制去相关滤波器的方法和装置

Publications (2)

Publication Number Publication Date
CN110024421A CN110024421A (zh) 2019-07-16
CN110024421B true CN110024421B (zh) 2020-12-25

Family

ID=60450667

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011398462.5A Pending CN112397076A (zh) 2016-11-23 2017-11-23 用于自适应控制去相关滤波器的方法和装置
CN201780072339.4A Active CN110024421B (zh) 2016-11-23 2017-11-23 用于自适应控制去相关滤波器的方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011398462.5A Pending CN112397076A (zh) 2016-11-23 2017-11-23 用于自适应控制去相关滤波器的方法和装置

Country Status (9)

Country Link
US (3) US10950247B2 (zh)
EP (3) EP3734998B1 (zh)
JP (3) JP6843992B2 (zh)
KR (2) KR102349931B1 (zh)
CN (2) CN112397076A (zh)
ES (1) ES2808096T3 (zh)
IL (1) IL266580B (zh)
MX (1) MX2019005805A (zh)
WO (1) WO2018096036A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6843992B2 (ja) 2016-11-23 2021-03-17 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 相関分離フィルタの適応制御のための方法および装置
WO2020044244A1 (en) 2018-08-29 2020-03-05 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
US11586411B2 (en) * 2018-08-30 2023-02-21 Hewlett-Packard Development Company, L.P. Spatial characteristics of multi-channel source audio
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data
CN112653985B (zh) * 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
KR20230054597A (ko) 2021-10-16 2023-04-25 김은일 외장 태양에너지시스템과 이의 건설방법
GB2623999A (en) * 2022-11-03 2024-05-08 The Univ Of Derby Speaker system and calibration method

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
DE60142583D1 (de) * 2001-01-23 2010-08-26 Koninkl Philips Electronics Nv Asymmetrisches mehrkanalfilter
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
ATE430360T1 (de) * 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
JP2007065497A (ja) 2005-09-01 2007-03-15 Matsushita Electric Ind Co Ltd 信号処理装置
EP1879181B1 (en) * 2006-07-11 2014-05-21 Nuance Communications, Inc. Method for compensation audio signal components in a vehicle communication system and system therefor
JP4928918B2 (ja) * 2006-11-27 2012-05-09 株式会社東芝 適応フィルタを用いた信号処理装置
JP5554065B2 (ja) * 2007-02-06 2014-07-23 コーニンクレッカ フィリップス エヌ ヴェ 複雑さの軽減されたパラメトリックステレオデコーダ
CN101521010B (zh) * 2008-02-29 2011-10-05 华为技术有限公司 一种音频信号的编解码方法和装置
CN102656627B (zh) * 2009-12-16 2014-04-30 诺基亚公司 多信道音频处理方法和装置
WO2012008891A1 (en) * 2010-07-16 2012-01-19 Telefonaktiebolaget L M Ericsson (Publ) Audio encoder and decoder and methods for encoding and decoding an audio signal
JP5730555B2 (ja) 2010-12-06 2015-06-10 富士通テン株式会社 音場制御装置
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
JP6473330B2 (ja) 2011-12-21 2019-02-20 ザ リージェンツ オブ ザ ユニヴァーシティ オブ コロラド,ア ボディ コーポレイト RalGTPアーゼを標的とする抗がん化合物及びその使用方法
JP2013156109A (ja) * 2012-01-30 2013-08-15 Hitachi Ltd 距離計測装置
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US9754596B2 (en) 2013-02-14 2017-09-05 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
JP6843992B2 (ja) * 2016-11-23 2021-03-17 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 相関分離フィルタの適応制御のための方法および装置

Also Published As

Publication number Publication date
KR20210006007A (ko) 2021-01-15
JP2021101242A (ja) 2021-07-08
ES2808096T3 (es) 2021-02-25
KR102201308B1 (ko) 2021-01-11
EP4149122A1 (en) 2023-03-15
KR20190085988A (ko) 2019-07-19
US11501785B2 (en) 2022-11-15
KR102349931B1 (ko) 2022-01-11
CN110024421A (zh) 2019-07-16
JP6843992B2 (ja) 2021-03-17
US20210201922A1 (en) 2021-07-01
US10950247B2 (en) 2021-03-16
MX2019005805A (es) 2019-08-12
JP7201721B2 (ja) 2023-01-10
US11942098B2 (en) 2024-03-26
JP2020502562A (ja) 2020-01-23
WO2018096036A1 (en) 2018-05-31
JP2023052042A (ja) 2023-04-11
IL266580B (en) 2021-10-31
CN112397076A (zh) 2021-02-23
EP3734998B1 (en) 2022-11-02
US20200184981A1 (en) 2020-06-11
EP3545693A1 (en) 2019-10-02
IL266580A (en) 2019-07-31
EP3734998A1 (en) 2020-11-04
US20230071136A1 (en) 2023-03-09
EP3545693B1 (en) 2020-06-24

Similar Documents

Publication Publication Date Title
CN110024421B (zh) 用于自适应控制去相关滤波器的方法和装置
TWI396188B (zh) 依聆聽事件之函數控制空間音訊編碼參數的技術
JP6374502B2 (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
US11869518B2 (en) Method and apparatus for increasing stability of an inter-channel time difference parameter
WO2012105885A1 (en) Determining the inter-channel time difference of a multi-channel audio signal
US20110123031A1 (en) Multi channel audio processing
JP7383685B2 (ja) バイノーラル・ダイアログ向上

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant