CN101548555B

CN101548555B - 用于隐藏多通道布置的一条或多条通道中的信息失落的方法

Info

Publication number: CN101548555B
Application number: CN2006800565725A
Authority: CN
Inventors: 马丁·奥皮茨; 科妮莉亚·福尔克; 罗伯特·霍尔德里克
Original assignee: AKG Acoustics GmbH
Current assignee: AKG Acoustics GmbH
Priority date: 2006-12-07
Filing date: 2006-12-07
Publication date: 2012-10-03
Anticipated expiration: 2026-12-07
Also published as: EP2092790A1; JP2010512078A; CN101548555A; ATE473605T1; US20090306972A1; DE602006015376D1; EP2092790B1; US8260608B2; JP4976503B2; WO2008067834A1

Abstract

本发明涉及用于隐藏在包括至少两条通道(Z，S)的多通道布置的一条或多条通道(Z)中的信息失落的方法，其中，在一条通道(Z)中发生信息失落的情况下，在至少一条无差错通道(S)的帮助下生成替换信号，该方法的特征在于，在通道(Z，S)的无差错信号传输期间，将被传输的信号(x_Z，x_S)映射到频域中，确定幅度谱(|S_Z|，|S_S|)，计算谱滤波器系数(H)，该谱滤波器系数(H)将通道(Z)的幅度谱(|S_Z|)与至少一条其他通道(S)的幅度谱(|S_S|)关联起来，并且，在通道(Z)发生信息失落的情况下，通过对由至少一条无差错通道(S)组成的代换信号应用在信息失落发生前计算出的滤波器系数(H)，来生成替换信号。

Description

用于隐藏多通道布置的一条或多条通道中的信息失落的方法

技术领域

本发明涉及对多通道布置的一条或多条通道的信息失落(dropout)进行隐藏的方法，该多通道布置包括至少两条通道，其中替换(replacement)信号是在一条通道发生信息失落的情况下在至少一条无差错通道的帮助下生成的。

背景技术

自从无线麦克风在二十世纪九十年代初进入市场以来，音频信号的无线传输技术已构成重要的研究领域。目前，这些产品已成为舞台表演、音乐会和现场直播的标准器材。与模拟系统相比，数字传输链路的使用带来了能够发送音频数据以外的元数据的有益效果。这种元数据可包括，例如，关于舞台设置的全部设想的信息。此外，通过数字技术，可在未来的系统中实现对多个独立通道的组合和对这些通道的协同工作能力的利用。尽管如此，基础硬件在计算能力和存储容量方面的迅速发展支持着软件实现的进步。

通常，信号的无线传输方法并不能对抗沿着传输链路可能出现的影响。在数字无线电链路的情况下，干扰会直接导致数据的丢失，并因此而导致整个信号的信息失落(dropout)。信号质量的下降，导致在声学上能感知到噼啪声(cracks)或喀喇音(clicks)，这是无论如何都不可接受的，必须用结合在接收器侧的适当技术来补偿。由于隐藏单元(concealment unit)代表信号路径中的有源元件，所以必须考虑隐藏单元固有的处理延迟带来的影响。

由Wah B.W.Su X.和Lin D.发表的“A Survey of Error ConcealmentSchemes for Real-Time Audio and Video Transmission over the Internet”；Proc.IEEE Int.Symposium on Multimedia Software Engineering，Dec.2000，提供了对音频和视频实时传输的错误隐藏技术的一般分类。这里，对信源编码的依赖性构成了基本的区分特性，利用该区分特性，区分为发射器控制的技术和基于接收器的技术。根据本发明的方法属于“基于接收器的方法”这一类，即，该方法工作时完全不受发射器或信源编码的影响，因此不会受到发射器控制技术固有的附加延迟的影响。

最简单的基于接收器的信息失落隐藏方法以所谓的通道内隐藏技术为代表，在这种技术中，多通道布置的每条通道被分别处理。标准的隐藏方法利用代换(substitution)算法和预测算法。后者通常包括两个阶段，分析单元，以及线性预测差错滤波器(linear prediction error filter)的重新合成模型。第一阶段用于估计滤波器系数，并在无差错信号传输期间持续执行该第一阶段。如果发生信息失落，则由滤波处理重新构造丢失的信号样本。这对应于外插法(extrapolation)，并适合于对一般的宽带音频信号中发生的几毫秒的信息失落进行隐藏。在实时限制并不严格(例如，允许对数据进行缓冲)的一些情况下，外插被转换成内插，这样就可以处理较长的信息失落。

单通道系统到多通道系统的扩展——所谓的通道间隐藏技术——导致自适应滤波器的实施。与线性预测算法相比，对滤波器系数的估计并不仅涉及单个通道的信号，而是也要利用来自其他并行通道的信息。通常认为，对通道互相关的利用改善了隐藏方法的性能。然而，该技术的功效主要是由自适应滤波器的收敛行为(convergence behavior)带来的，而该收敛行为主要取决于输入信号的平稳性。由于，宽带音频通常是非常不平稳的，因此自适应滤波器的行为将是相当弱的。在US 2005/0182996A1(以及相应的EP1649452A1)中，描述了这种方法的一种可能实现方式，该申请的全部内容通过引用结合在本说明书中。

上述滤波器技术的共同特征表示时域中的处理，一些算法还提供了频域中的等效描述。然而，变换的目的是提高计算的效率，并保留时域方法的特性。

以下，简要地描述几种隐藏方法，首先描述单通道系统：

US 2006/0171373A1中公开了用于隐藏数据丢失的单通道方法，其对紧接在信息失落之前的完好的信号分量进行线性预测估计。利用频谱分析滤波器获得的预测系数被用于估计残留信号。在几个阶段内为残留信号确定最大的可重复范围。对传输信号的频谱分析仅仅用于改善对周期性的检测，该周期性会导致典型的信号重复。此周期被重复，并且对其应用线性预测的全极点(all-pole)滤波器。残留信号根据之前的完好的信号分量来生成，用当前计算出的滤波器系数对该完好的信号分量进行反向滤波，从而生成估计出的替换信号。重新构造信号所需的所有计算都是在时域中执行的，这是该申请提出的方法的特征，这也会产生相当大的处理延迟。因此，这种方法并不能够用于实时应用。

DE 19735675C2也公开了一种单通道隐藏方法。该算法基于心理学角度，结合了适应知觉的子带分解。信号重构的概念是维持每个子带中的频谱能量。如果发生信息失落，则通过适当滤波后的噪音信号来获得信号的估计。大的信息失落会产生不能改变的“声表面(sound surface)”。滤波器系数仅暗含能量信息，因此，并没有结合之前的时间样本。

EP 1 145 227 B1公开了对MPEG编码标准的上下文中传输编码的音频信号的单通道隐藏方法。这样，发送的数据包括谱系数，而不包括时间样本。通过将几个MDCT(修正的离散余弦变换)系数组合到一个子带中，对信息失落之前的信号分段采用适应知觉的子带分割。由于信息失落影响某些子带，这些子带又被变换回时域，并在时域上预测窄带信号。估计出的窄带信号继而经过MDC转换，并被插入到在MPEG编码中发送的MDCT流中。

2005年5月28日至31日，在西班牙巴塞罗那召开的AES第118次会议上，由Ofir等人发表的文章“Packet Loss Concealment for Audio StreamingBased on the GAPES Algorithm”描述了MPEG编码标准上下文中的单通道方法，因此也是基于MDCT的。

由于MDCT的性质避免了在连续的MDCT块之间进行足够多次内插，STFT(短时傅立叶变换)表达式是直接从MDCT表达式计算出的。在STFT域中获得内插结果，因此需要信息失落之前的信号分量，即，该方法引入了附加时延。内插本身是通过利用GAPES(缺口数据(gapped-data)幅度和相位估计)算法、逐个DFT-bin(离散傅立叶变换)来执行的。在进行内插之后，STFT数据被变换回MDCT数据。

上述的单通道系统基本上依赖于以前的信号分量，因此，对替换信号的估计是在假设输入信号长时间保持稳定的基础上进行的。尽管那些结合了谱分析的方法在频域中应用滤波器，但与之前的样本进行的比较和对未来样本的预测都仅在时域中进行。

在Karadimou等人的文章″Packet Loss Concealment for MultichannelAudio Using the Multiband Source/Filter Model″，40th Annual Asilomar Conf.on Signals，Systems and Computers，Oct.29-Nov.01，2006中，公开了依靠若干条通道的隐藏方法。传输格式是以一定方式构成的，使得实际的音频通道仅仅在单条所谓的“信源通道”中传送，而LSF(线状谱频率(line spectralfrequencies))向量在剩余通道中传送。LSF向量代表时间信号的(复值的)谱解释(spectral interpretation)，并准确地对应于线性预测系数。这样，它们就包含了关于谱包络的相位关系的所有信息。在这种方法中，信息失落隐藏被限制到易出错的“信源通道”。因此，可仅在LSF通道中处理信息失落。对LSF向量的估计是利用高斯混合模型(GMM)作出的。但，该方法通过对基准残余信号的适当滤波，将每个频带和通道预测的子带分解和重新变换结合到线性预测系数中。在计算替换信号(即，LSF向量)的期间，总是发送包括相位信息的所有信号信息。各条通道的不同LSF向量包含了与不同麦克风的特性有关的信息，这些麦克风彼此分隔开，并且同时拾取声音事件(例如，音乐会)。因此，各个LSF向量之间的相关性是可以预测到的，并且可利用所谓的交叉通道估计，即，如果在一个LSF向量中发生信息失落，则可利用并行的LSF向量。

为了代换，提前建立起基准通道，并且该基准通道的LP残留信号(LPresiduum)用作所有其他通道的信号合成(不仅在信息失落的情况下，而且也适用于正常操作期间)。所作的基本假设是在目标和基准通道之间存在相关性。然而，这种假设从未经过核实，并且在许多情况下这种假设并不一定正确。隐藏过程的所有处理步骤(子带滤波、LP分析、LSF计算、合成滤波器)都是在单条路径上实施的，因此会产生不得不接受的相当大的处理延迟，并且不可能实现低延迟。由于子带技术，计算的复杂度很高(逐个子带和通道来执行预测，并且在重新合成期间也要在每个子带中实现全极点滤波器)。

处理多通道隐藏的另一个公开文献是Sinha等人的“Loss Concealmentfor Multi-Channel Streaming Audio”，NOSSDAV’03，June 1-3，2003，Monterey，California，USA。“distributed immersive musical performance”的特定应用描述了一种通过互联网上的数据传递而实现的空间上分离的音乐家的合作式音乐会。该文献提出了信号代换的一种可能方法，该方法是基于：在多通道设置中，多个扬声器的位置在空间上彼此邻近。在该方法中，特定类型的交叉分组传输对于隐藏是必不可少的。

多通道系统的现有技术目前限于与简单的代换规则交织的时域中或发射器侧通道的自适应滤波器的不同实现方式，这在由Gerzon提出的上行混合/下行混合矩阵化策略中(M.Gerzon：″Hierarchical System of SurroundSound Transmission for HDTV，″AES preprint# 3339，92nd Convention，March24-27，1992，Vienna；以及M.Gerzon：″Problems of Upward and DownwardCompatibility in Multichannel Stereo Systems，″AES preprint# 3404，93rdConvention，Oct.1-4，1992，San Francisco)是很典型的。这种技术的效率或者主要受限于其应用领域(例如，预先混合的多通道记录)，或者主要特征在于自适应滤波器的收敛行为，因此由于与目标信号的信息失落有关的不平稳输入信号，这种技术的效率是非常易变的。

发明内容

本发明的目的在于提供一种隐藏方法，该方法以一定方式使用多通道系统的完好通道来代替丢失的信号，使得原始信号与其替换信号之间的差异变得听不见。除了传输的可靠性之外，在对延迟要求严格的实时系统中的可用性构成重要标准，因为这个原因，对于信号的处理来说，需要一种时延极低的技术。

根据本发明，这个目标是通过开头提到的方法实现的，在该方法中，在通道的无差错信号传输期间，将被传输的信号映射到频域，确定频谱的绝对值，计算出频谱滤波器系数，该频谱滤波器系数将通道的幅度谱与至少一个其它通道的幅度谱关联起来；而在一条通道发生信息失落的情况下，通过计算发生信息失落之前的滤波器系数，并将这些滤波器系数应用到由至少一条无差错通道组成的代换信号，来产生替换信号。

利用幅度谱计算出隐藏滤波器，这样，就不需考虑相位信息，从而分别提供了更稳定的滤波器，并改善了替换信号的质量。与当前使用的单通道方法相比，本发明所具有的显著的有益效果还在于：利用了各个信号之间的协同工作能力。

作为基本方法的延伸，提出了对相位信息的改进型处理。在这样做时，通过考虑目标和替换信号之间的平均时间延迟，来改善在信息失落的开始处和结尾处的相位跃迁的不变性。各个通道之间的时间延迟，与这些通道的信源方向无关，是根据多通道录音系统的空间布置形成的。

附图说明

以下，根据附图，更详细地描述本发明。

图1示出了根据本发明的传输链的示意图；

图2示出了用于双通道系统的本发明的信息失落隐藏的详细框图；

图3示出了例如八通道的多通道布置的框图；

图4示出了整个发明的流程图，本发明由以下步骤组成：估计频谱滤波器、确定各通道之间的时间延迟，以及加权叠加所有通道以便生成代换信号；以及

图5示出了根据本发明的用于信息失落隐藏的装置的配置图，该信息失落隐藏被整合到多通道布置的每条通道中。

具体实施方式

本发明的优选应用领域在多通道(可选地，通过无线方式)传输数字音频数据的整个系统内。图1示出了传输链的完整结构，通常包括关于一条通道的以下阶段：信号源1(例如，用于记录信号的传感器(麦克风))、模数转换器2(ADC)、可选的位于发射器侧的信号压缩和编码、发射器3、传输通道、接收器4和隐藏模块5。在隐藏模块5的输出端，可得到数字形式的音频信号——该输出端还可直接连接其他信号处理单元，例如，前置放大器、均衡器等。

本发明提供的隐藏方法与发射器/接收器以及信源编码无关，并且只在接收器侧运作(基于接收器的技术)。因此，其可作为独立模块灵活地整合到任何传输路径中。在一些传输系统(例如，数字音频流)中，可同时实施不同的隐藏策略。尽管图1所示的应用并没有提供任何其他隐藏单元，但是与可替代技术进行结合也是可行的。

出于举例的目的，提供了以下应用场景：

a)在音乐事件和舞台安装中，多通道布置的范围包括从立体声录音到环绕声录音的不同变形(例如，OCT环绕、笛卡树(Decca Tree)、HamasakiSquare等)，这些布置均可由定点麦克风的不同形式来支持。特别是对于主要的麦克风设置，单个通道的信号包括类似分量，这些分量中的特定组成部分通常是非常不稳定的。例如，可根据本发明隐藏一个主要麦克风通道中的信息失落，本发明仅引入了少许时延，甚至不引入时延。

b)演播室中的多通道音频传输在不同的物理层(例如，光纤波导、AES-EBU、CAT5)上进行，并且信息失落的发生可能是因为各种原因，例如，由于同步的丢失，尤其在诸如无线电台传输操作这样的严格的应用的情况下，必须避免或隐藏信息失落。并且，这里，根据本发明的隐藏方法可被用作具有低处理时延的安全单元(safety unit)。

c)尽管，与上述领域相比，互联网上进行的音频传输对延迟比较不敏感，但传输差错发生得更频繁，致使感知音频质量恶化的程度增大。本发明的隐藏方法提供了对服务质量的改善。

d)根据本发明的方法也可用在空间分布式临境音乐表演的框架中，即，用在空间上彼此分离的多个音乐家的合作音乐会的实施方式中。在这种情况下，本发明提供的算法的极低时延处理策略对系统总的延迟有益。

本发明并不受限于以下实施例。以下实施例仅旨在解释本发明的原理，和说明可能的实施方式。以下，描述了关于遭受信息失落的一条通道的信息失落隐藏方法。如果在多通道布置的多于一条的通道中发生传输错误，可很容易地将系统扩展。

在描述中使用了以下术语：遭受信息失落的通道被定义为目标通道或信号。在信息失落期间产生的这种信号的复制物(估计)被称为替换信号。为了计算替换信号，需要至少一条代换通道。

本发明提供的算法包括两部分。第一部分的计算被持久地执行，而第二部分仅在目标通道发生信息失落时才执行。在无差错传输期间，持久地在频域中估计长度为L_Filter的线性相位FIR(有限脉冲响应)滤波器。所需的信息由目标和代换通道的可选的非线性变形的和可选的在时间上平均的短时幅度谱提供。这种新的滤波器计算方法不考虑任何相位信息，因此在基本原理上就不同于依赖于相关性的自适应滤波器。

对单条代换通道或多条代换通道的选择

图2示出了对于目标信号x_z和代换信号x_S的多通道信息失落隐藏方法。该方法的各个步骤分别用包含附图标记的方框来表示，各步骤如下表所示。

6 变换成谱表达方式

7 确定幅度谱的包络

8 非线性变形(可选)

9 时间平均(可选)

10 计算滤波器系数

11 时间平均滤波器系数(可选)

12 利用开窗技术变换到时域

13 变换到频域(可选)

14 分别在时域或频域对代换信滤波号

15 估计复相干函数或GXPSD

16 时间平均(可选)

17 估计GCC和时域中的最大值检测

18 确定时间延迟Δτ

19 实施时间延迟Δτ(可选)

在此实例中，目标信号和替换信号之间的转换由开关20表示。以下描述中给出了对该方法的各个步骤的详细解释。

对代换通道的正确选择取决于代换信号和目标信号之间的相似性。这种相关性可通过估计互相关或相干性来确定。(参见在本说明书的结尾处对相干性和广义交叉功率谱密度(GXPSD)的解释)。根据本发明，(GXPSD)被提议为潜在的选择策略。复相干函数Γ_ZS，j(k)被用作实施例1至实施例9的特定实例(总计观察K个通道，通道x₀(n)被指定为目标通道x_z(n)。)：

1.对于目标通道x_z(n)，根据通道x_j(n)(1≤j≤K-1)和目标通道x_s(n)＝x_j(n)之间的可选时间平均相干函数

第J条通道被定义为代换信号，其复相干函数的频率平均值

具有根据

的最大值。

2.可替换地，如果用户(例如，声学工程师)(根据所选的记录方法)知道各个通道的特性，并因此知道它们的联合信号信息，则可提前在各通道之间建立起固定的分配。

3.同样，可选地，以加权方式将几条通道叠加成一条代换通道。这种加权组合可由用户提前设置。

4.在可替代实现方法中，对于所有{do(j)＝false}，将几条通道叠加成一条代换通道的步骤是通过下式基于对目标通道的宽带相干率执行的：

x_{s} (n) = \frac{\underset{j}{Σ} {χ (j) \cdot x_{j} (n - Δ τ_{j})}}{\underset{j}{Σ} χ (j)} .

这里，x_s(n)表示由通道x_j(n-Δτ_j)组成的代换通道，χ(j)代表目标通道x_z(n)和相应通道x_j(n-Δτ_j))之间的频率平均相关函数。所选的通道对之间的时间延迟被表示为Δτ_j(c.f.section″Estimation of the time delay between target andsubstitution channel″)。结合状态比特do(j)，对潜在信号(potential signal)的有效性进行验证。

5.实施例4的简化方式，考虑预选通道的集合，

而不是所有可用的信道j。利用

构造加权和。预选步骤旨在得到其频率平均相干函数超过规定阈值Θ的通道：

6.此外，可根据下式建立

将其最大个数为M个通道(优选情况下，M＝2...5)作为标准：

7.限制条件5和6的联合实施方式也是可行的：

8.可替代地，可为不同的频带独立地执行选择步骤，即，在每个带中，基于相干函数确定“最优”代换通道，利用根据本发明的方法，可选地，以时间延迟的方式(c.f.″Estimation of the time delay between target andsubstitution channel″)，对各个带通信号进行滤波，各个带通信号被叠加，并被用作替换信号。在进行这些操作时，应用与实施例1、4、5、6和7中相同的标准，但必须实施与频率无关的函数

而不是频率平均函数χ(i)。

9.也可以选择几个代换通道。这种情况下，为每个通道单独地执行处理，即，产生几个替换信号。根据其相干函数对这些替换信号加权，组合并插入到信息失落中。

通常，在实施例1至9中使用的函数是时变的，因此数学上恰当的概念必须考虑以(块)索引m计的时间依赖性。为了简化等式，省略了m。

在无差错传输期间的计算

在无差错传输期间的计算是在频域中执行的，因此，在第一步骤中，必须进行适当的短时变换，结果导致需要对目标和代换信号进行缓存的面向块的算法。优选地，块的大小应符合编码格式。对目标和代换信号的幅度谱包络的估计，被用于确定隐藏滤波器的幅度响应。两个信号的确切窄带幅度谱不相关，而宽带近似是充分的，可选地，通过对数函数或幂函数进行时间平均和/或非线性变形。谱包络的估计可以各种方式实现。有关计算效率的最有效的可能方式是具有短块长度的短时DFT，即，谱分辨率很低。将信号块乘以窗函数(例如，Hanning)，经过DFT，可选地，短时DFT的幅度经过非线性变形，之后经过时间平均。

其他实施方式：

○小波变换(如Daubechies I.；″Ten Lectures on Wavelets″；Society forIndustrial and Applied Mathematics；Capital City Press，ISBN 0-89871-274-2，1992中描述的。该印刷出版物的全部内容通过引用结合到本说明书中)，可选的是，随后对小波变换绝对值的可选非线性变形进行可选时间平均。

○Gammatone滤波器组(如Irino T.，Patterson R.D.；″A compressivegammachirp auditory filter for both physiological and psychophysical date″；J.Acoust.Soc.Am.，Vol.109，pp.2008-2022，2001中所描述的。该印刷出版物的全部内容通过引用结合在本说明书中)，随后形成各单个子带的信号包络，可选地，接着进行非线性变形。

○线性预测(如Haykin S.；″Adaptive Filter Theory″；Prentice Hall Inc.；Englewood Cliffs；ISBN 0-13-048434-2，2002中所描述的。该印刷出版物的全部内容通过引用结合在本说明书中)，随后对信号块的谱包络的幅度进行采样，用综合滤波器来代表，可选地，接着进行非线性变形，在此之后，进行时间平均。

○实数倒频谱(real cepstrum)估计(如Deller J.R.，Hansen J.H.L.，ProakisJ.G.；″Discrete-Time Processing of Speech Signals″；IEEE Press；ISBN0-7803-5386-2，2000中所描述。该印刷出版物的全部内容通过引用结合在本说明书中)，随后，将倒频谱域重新变换到频域，并采用逆对数，可选地，接着对这样获得的幅度谱的包络进行非线性变形，在此之后，进行时间平均。

○短时DFT以及最大值检测和内插：这里，在短时DFT的幅度谱中检测最大值，并且通过线性或非线性内插来计算相邻最大值之间的包络，可选地，接着对这样获得的幅度谱包络进行非线性变形，之后进行时间平均。

对于可选地使用的对包络的时间平均，可以对可选地经过非线性变形的幅度谱使用指数平滑，如等式(1)所表示，该等式(1)具有用于指数平滑的时间常量α。可替代地，时间平均可用移动平均滤波器(moving averagefilter)来形成。非线性变形可以通过，例如，具有随机指数的幂函数来执行，可以通过不同的方式来为目标和代换信道选择随机指数，如等式(1)中分别用指数γ和δ表示。(可替代地，也可使用对数函数。)

非线性变形带来的有益效果是，在沿着每个频率分量的随时间变化的前进过程，用不同的或高或低的信号能量对时间周期进行加权。不同的加权影响着在各个频率分量内进行的时间平均的结果。因此，大于1的指数γ和δ表示扩大，即，沿信号前进过程中的峰值对时间平均的结果占支配地位，而小于1的指数意味着缩小，即，增大了具有低信号能量的时间周期。指数值的最优选择取决于待处理的声音材料。

\overset{&OverBar;}{| S_{Z} (m) |} = {α {| S_{Z} |}^{γ} + (1 - α) {\overset{&OverBar;}{| S_{Z} (m - 1) |}}^{γ}}^{\frac{1}{γ}}, - - - (1 a)

\overset{&OverBar;}{| S_{S} (m) |} = {α {| S_{S} |}^{δ} + (1 - α) {\overset{&OverBar;}{| S_{S} (m - 1) |}}^{δ}}^{\frac{1}{δ}} - - - (1 b)

其中，|S_Z|，|S_S|：目标和代换通道的幅度谱的包络，

|S_Z|和|S_S|的时间平均形式，

α：指数平滑的时间常数，0＜α≤1，

γ，δ：

和

的非线性变形的指数，优选值范围为：0.5≤γ，δ≤2，m：块索引。

作为例子，等式(1)构成了具有指数平滑和随机变形指数的用于计算目标和代换通道的谱包络的专用情况。以下，将指数设置成γ＝δ＝1，以简化公式(即，不再明确表示出非线性变形)。但，本发明包括利用任何时间平均方法和对幅度谱的包络进行任何非线性变形的方法，因此，包括使用任何值作为指数γ和δ。此外，本发明还包括利用对指数函数进行对数运算。尽管诸如

或H的所有幅度值都被认为是时间变量，因此都是块索引m的函数，但为了简化表达式，省略了块索引m。

计算隐藏滤波器

在标准的自适应系统中，通过最小化目标信号和其估计之间的均方误差，计算隐藏滤波器。用给出差分信号。相反，本发明研究估计出的幅度谱的误差：

E (k) = \overset{&OverBar;}{| S_{Z} (k) |} - \overset{&OverBar;}{| {\hat{S}}_{Z} (k) |} = \overset{&OverBar;}{| S_{Z} (k) |} - H (k) \overset{&OverBar;}{| S_{S} (k) |} - - - (2)

E(k)对应于经过可选的平滑步骤的目标信号的经过可选的非线性变形步骤的幅度谱包络与目标信号的估计之间的差值。分别对每个频率分量k观察优化问题。对频谱滤波器H(k)的最简单的实施方式可用下式通过两个包络来确定，

H (k) = \frac{\overset{&OverBar;}{| S_{Z} (k) |}}{\overset{&OverBar;}{| S_{S} (k) |}} - - - (3)

可替代地，建议通过引入正则化参数来对H(k)进行约束。这样做的基本意图是避免滤波器的放大率在

的信号功率太弱时不均衡地增大，从而避免背景噪音变得可听见或系统变得在感知上不稳定。如果，例如，

和

中的一个时间块的谱峰并没有处于完全相同的频带中，H(k)将在这些频带中增长得过大，并且在这些频带中，

具有最大值，而

具有最小值。为了避免这个问题，通过与频率相关的正则化参数β(k)建立起对H(k)的约束，得到：

H (k) = \frac{\overset{&OverBar;}{| S_{Z} (k) |} \overset{&OverBar;}{| S_{S} (k) |}}{{\overset{&OverBar;}{| S_{S} (k) |}}^{2} + β (k)} - - - (4)

通过取正实数值的β(k)，即使

为很小的值，滤波器放大率也不会无节制地增大，因此，将会避免出现不希望的信号峰。β(k)的最优值取决于期望的信号统计值，同时，提出了有创造性的基于对每频带的背景噪音功率的估计来进行计算。可结合经过时间平均的最小统计值，来估计背景噪音功率P_g(k)。根据

正则化参数β(k)与背景噪音功率的均方根值成正比，其中，c典型地在1和5之间。

专门为准平稳输入信号提出了H的可替代实施方式。首先在不进行时间平均和可选的非线性变形的情况下估计幅度谱的包络。根据下式，在确定滤波器系数的过程中将两种修正都考虑进来：

\overset{&OverBar;}{H (m, k)} = {α {[\frac{| S_{Z} (m, k) | | S_{S} (m, k) |}{{| S_{S} (m, k) |}^{2} + β (k)}]}^{γ} + (1 - α) {\overset{&OverBar;}{H (m - 1, k)}}^{γ}}^{\frac{1}{γ}} - - - (5)

在等式(5)中，示出了块索引m和频率索引k，因为在这种情况下，该计算同时取决于这两个索引。参数α和γ决定时间平均或非线性变形的行为。

在目标信号中发生信息失落的情况下的计算

在现有技术中，检测信息失落的可用方法很多并且广为人知。例如，可在各个音频流内(例如，在音频数据帧之间)的保留位置处传输状态位，并在接收器侧持续对状态位进行登记。还可以想到，可对各个帧执行能量分析，并在其落到某个阈值以下时识别为发生信息失落。还可通过发射器和接收器之间的同步来检测信息失落。

如果在目标信号中检测到信息失落(例如，图2中用状态位“dropout y/n”代表；虚线表示实际上与音频信号连续发送的状态位)，则必须使用最后估计出的滤波器系数和(一个或多个)代换通道来生成替换信号，并将替换信号直接提供给隐藏单元的输出端。在信息失落期间，对滤波器系数的估计被停止。基本上，假设任何开关式人工制品都保持听不见，可通过开关实现目标和替换信号之间的转换。根据本发明，提出信号之间的交叉衰落(cross-fade)，这种交叉衰落是有益的，但这需要对目标信号进行缓存，因此会引入额外的时延。尤其在对延迟要求严格的实时系统中，不允许进行任何额外的缓存，因此交叉衰落不太可行。这种情况下，提出目标信号的外插，例如，通过线性预测。通过利用根据本发明的方法，在外插的目标信号和替换信号之间执行交叉衰落。

通过用重新变换到时域的滤波器系数对代换信号进行滤波，最终生成替换信号。滤波器系数的逆变换T^-1{H}应利用与首次变换相同的方法来执行。在滤波之前，可选地，通过窗函数w(n)(例如，矩形的，Hanning)对滤波器脉冲响应进行时间限制。

h_{w} (n) = w (n) T^{- 1} {H (k)} or \overset{&OverBar;}{h_{w} (n)} = w (n) T^{- 1} {\overset{&OverBar;}{H (k)}} - - - (6)

脉冲响应h_w(n)或

必须分别在信息失落的开始处计算一次，因为在信息失落期间会停止对滤波器系数的连续估计。对于替换信号

的样本宽度(sample-wise)的确定，代换信号x_s的适当向量是必需的：

{\hat{x}}_{Z} (n) = h_{w}^{T} x_{S} (n)

或

{\hat{x}}_{Z} (n) = {\overset{&OverBar;}{h_{w}}}^{T} x_{S} (n) - - - (7)

在一些应用中，可在频域中执行滤波。这样，可选地在时域中被开窗的系数被变换回频域，以便通过下式计算块的替换信号：

{\hat{x}}_{Z} (n) = T^{- 1} {H_{w}^{*} (k) X_{S} (k)} - - - (8)

通过利用诸如重叠相加(overlap and add)或者重叠保存(overlap andsave)这样的方法，将连续的块组合起来。替换信号被延续到超过信息失落结束点，使交叉衰落能融合到重新出现的目标信号中。

对目标和代换信号之间的时间延迟的估计

在本隐藏方法的特别优选的实施例中，还可改善目标和替换信号的时间对齐(time-alignment)。因此，与估计谱滤波器系数并行地来估计时间延迟，该估计考虑了两方面因素。一方面，由于滤波处理而导致的替换信号的延迟必须得到补偿，

另一方面，由于各个麦克风的空间布置，引起了目标和代换通道之间的时间延迟τ₂。该时间延迟可以通过例如广义互相关(GCC)来估计，这种广义互相关需要计算复杂的短时谱。在优选实施方式中，还可利用为估计隐藏滤波器而采用的短时DFT，以消除额外的计算复杂度。(要了解关于GCC特性的更多信息，请具体参见Carter，G.C.：″Coherenceand Time Delay Estimation″；Proc.IEEE，Vol.75，No.2，Feb.1987；和OmologoM.，Svaizer P.：″Use of the Crosspower-Spectrum Phase in Acoustic EventLocation″；IEEE Trans.on Speech and Audio Processing，Vol.5，No.3，May1997。这些公开文献的全部内容通过引用结合在本说明书中。)GCC是使用估计出的广义交叉功率谱密度(GXPSD)计算出来的，广义交叉功率谱密度可定义为：

Φ_{G, ZS} (k) = G (k) X_{Z} (k) X_{S}^{*} (k) - - - (9)

(同样，在等式9至等式12中，也省略了块索引m。)

在等式(9)中，X_Z(k)和X_S(k)分别是目标或代换通道的块的DFT，*表示复共轭。G(k)代表前置滤波器，以下将解释该前置滤波器的目标。

时间延迟τ₂通过指出互相关的最大值来确定。对该最大值的检测可通过使其形状接近增量函数来改善。前置滤波器G(k)直接影响GCC的形状，因此，改善了对τ₂的估计。适当的实现方式表示相位变换滤波器(PHAT)：

G_{PHAT} (k) = \frac{1}{| X_{Z} (k) X_{S}^{*} (k) |} . - - - (10)

这样就产生了具有PHAT滤波器的GXPSD：

Φ_{G, ZS} (k) = \frac{X_{Z} (k) X_{S}^{*} (k)}{| X_{Z} (k) X_{S}^{*} (k) |} = \frac{Φ_{ZS} (k)}{| X_{Z} (k) X_{S}^{*} (k) |}, - - - (11)

其中，Φ_ZS：目标和代换信号的交叉功率谱密度。

另一种可行的实施方式由复相干函数提供，该复相干函数的前置滤波器可从功率密度谱计算出来，得到：

Γ_{ZS} (k) = \frac{Φ_{ZS} (k)}{\sqrt{Φ_{ZZ} (k) Φ_{SS} (k)}} - - - (12)

Φ_ZZ：目标信号的自功率谱密度，

Φ_SS：代换信号的自功率谱密度。

将各信号变换到频域通常是通过短时离散傅里叶变换来实现的。一方面，块长度必须被选择为足够大，以便能在预期的时间延迟中检测出GCC中的峰值，但另一方面，过长的块长度会增大对存储容量的需求。为了能充分跟踪时间延迟τ₂的变化，提出了对GXPSD或对复相干函数进行时间平均(例如，通过指数平滑)。

\overset{&OverBar;}{Φ_{G, ZS} (m, k)} = μ \frac{Φ_{ZS} (m, k)}{| X_{Z} (m, k) X_{S}^{*} (m, k) |} + (1 - μ) \overset{&OverBar;}{Φ_{G, ZS} (m - 1, k)}, - - - (13)

\overset{&OverBar;}{Γ_{ZS} (m, k)} = v \frac{Φ_{ZS} (m, k)}{| Φ_{ZZ} (m, k) Φ_{SS} (m, k) |} + (1 - v) \overset{&OverBar;}{Γ_{ZS} (m - 1, k)} . - - - (14)

在等式(13)和(14)中，m表示块索引。平滑常量用μ和v表示。这些都必须适于短时离散傅里叶变换的跳跃距离(jump distance)和τ₂的平稳性，以便能分别获得对相干函数或广义交叉功率谱密度的优良的估计。

在重新变换到时域和检测GCC的最大值之后，目标和替换信号之间的全部时间延迟元素可通过以下公式来表示：

Δτ＝τ₂-τ₁。(15)

对于一个目标和一个代换信号，各个处理步骤可总结为图2中的框图。目标和替换信号之间的转换或者相反的转换过程在图中表示为简单的开关；如上文已经描述的那样，信号的交叉衰落是可取的。

图3示出了具有多于两条的通道的多通道建立的发明性概念。根据哪条通道受到信息失落的影响，从而该通道因此变成目标通道，利用剩余的完好通道生成代换信号。图3中的各独立的方框对应于以下处理步骤：

21 选择(一个或多个)代换通道

22 计算滤波器系数

23 应用时间延迟

24 产生替换信号

在图3的最上一行中，为受到信息失落影响的通道1生成替换信号。为了实现该目的，可使用通道2至通道7中的一条通道、多条通道或所有通道。第二行对应于对通道2的重构，依此类推。

图4示出了结合扩展阶段(即，时间延迟估计)的基本算法的示意图，以示出各个处理步骤之间的相互依赖关系。为了简化框图，并行的信号(DFT块)或从其得到的(谱)映射被合并到一条(实)线中，其数目分别表示为K或K-1。虚线连接表示参数的传送或输入。对替换通道的首次选择是根据GXPSD在标注为“选择器”的方框中完成的。一方面，这影响对代换信号的幅度谱包络的计算，另一方面，这是其加权叠加所需要的。第二选择标准是由时间延迟τ₂提供的。通道的状态位没有明确示出，但在相关的信号处理方框中考虑了它们的验证。此外，可从该说明图中省略对目标信号的特定确定步骤。

硬件实施方式

根据本发明，用于信息失落隐藏的算法作为独立的模块工作，并旨在安装到数字信号处理链中，其中，专用的软件算法是在市场上可购买到的数字信号处理器(DSP)上实施的，优选地在音频应用的专用DSP上实施。因此，对于多通道布置的每个通道，诸如图5中示例性示出的适当装置是必不可少的，优选情况下，这种适当的装置可被直接集成到用于对被传输的数字音频数据进行接收和解码的设备中。

用于信息失落隐藏的设备配备有主音频输入，其采用来自接收器单元的数字信号帧，并将它们临时存储在存储单元25中。该设备配备有至少一个辅助音频输入，可选地，配备有若干个辅助音频输入，在辅助音频输入处，可得到(一个或多个)代换通道的数字数据，并且这些数字数据类似地被临时存储到一个存储单元25中，或可选地，临时存储到多个存储单元25中。

此外，该装置以用于传输控制数据的接口为特征，其中控制数据诸如是信号帧的状态位(信息失落y/n)或用于选择(一条或多条)代换通道的信息位，后一种情况需要(a)双向数据线路，和(b)临时存储单元25。

为了转发主通道的原始数据帧或隐藏数据帧，设备配备有音频输出。对于待输出的数据块，并不必须有独立的存储单元来存储，因为这些数据块可根据需要存储在输入信号的存储单元中。

Claims

1.一种用于隐藏多通道布置的一条或多条通道(Z)中的信息失落的方法，该多通道布置包括至少两条通道(Z，S)，其中在一条通道(Z)中发生信息失落的情况下，在至少一条无差错通道(S)的帮助下生成替换信号，该方法的特征在于：在所述通道(Z，S)的无差错信号传输期间，将被传输的信号(x_Z，x_S)映射到频域中，确定幅度谱(|S_Z|，|S_S|)，计算谱滤波器系数(H)，该谱滤波器系数(H)将一条通道(Z)的幅度谱(|S_Z|)与至少一条其他通道(S)的幅度谱(|S_S|)关联起来，并且，在一条通道(Z)发生信息失落的情况下，通过对由至少一条无差错通道(S)组成的代换信号应用在所述信息失落发生前计算出的滤波器系数(H)，来生成替换信号。

2.根据权利要求1所述的方法，其特征在于，在计算所述滤波器系数(H)之前，对所述幅度谱(|S_Z|，|S_S|)进行非线性变形。

3.根据权利要求1或2所述的方法，其特征在于，在计算所述滤波器系数(H)之前，对所述幅度谱(|S_Z|，|S_S|)进行时间平均。

4.根据权利要求1所述的方法，其特征在于，通过使经过非线性变形和/或时间平均的通道(Z)的幅度谱(|S_Z|)与经过非线性变形和/或时间平均的使用所述滤波器系数(H)进行滤波的至少一条其他通道(S)的幅度谱(|S_S|)之间的差异最小化，计算所述滤波器系数(H)。

5.根据权利要求1所述的方法，其特征在于，所述滤波器系数(H)是根据下式计算幅度谱(|S_Z|，|S_S|)之商而得到的：

H (k) = \frac{| S_{Z} (k) |}{| S_{S} (k) |} .

6.根据权利要求1所述的方法，其特征在于，在与频率有关的参数β(k)的帮助下，对所述滤波器系数(H)进行正则化。

7.根据权利要求6所述的方法，其特征在于，所述正则化根据以下公式完成：

H (k) = \frac{| S_{Z} (k) | | S_{S} (k) |}{{| S_{S} (k) |}^{2} + β (k)}

8.根据权利要求7所述的方法，其特征在于，根据背景噪音水平P_g(k)的均方根值，得到对β(k)的估计，其中

因数c便于改善自适应，c的优选值为c＝1...5。

9.根据权利要求1所述的方法，其特征在于，对所述幅度谱的包络的计算是通过对短块长度的短时离散傅立叶变换来获得的。

10.根据权利要求1所述的方法，其特征在于，对所述幅度谱的包络的计算能够分别结合幅度谱的小波变换、或gammatone滤波器组的每通道的均方根、或线性预测以及随后对信号帧的谱包络的幅度进行采样，由综合滤波器代表、或实数倒频谱分析以及随后将倒频谱域重新变换到频域并采用逆对数、或对幅度谱进行短时离散傅立叶变换以及最大值检测和内插。

11.根据权利要求3所述的方法，其特征在于，对幅度谱(|S_Z|，|S_S|)进行的时间平均结合了利用平滑常量(α)的指数平滑。

12.根据权利要求3所述的方法，其特征在于，对幅度谱(|S_Z|，|S_S|)进行的时间平均是通过移动平均滤波器来实现的。

13.根据权利要求2所述的方法，其特征在于，对幅度谱(|S_Z|，|S_S|)进行的非线性变形和时间平均服从公式