CN102144405B

CN102144405B - 耳间时间延迟恢复系统和方法

Info

Publication number: CN102144405B
Application number: CN200980134440.3A
Authority: CN
Inventors: J·D·约翰斯顿
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2008-09-04
Filing date: 2009-08-14
Publication date: 2014-12-31
Anticipated expiration: 2029-08-14
Also published as: EP2321977A4; HK1156171A1; CN102144405A; TWI533718B; EP2321977A1; US8233629B2; KR20110063807A; TW201014372A; JP5662318B2; US20100054482A1; JP2012502550A; WO2010027403A1; WO2010027403A8; KR101636592B1; EP2321977B1

Abstract

一种用于处理音频数据的设备，包括：耳间时间延迟校正系数单元，用于接收多个音频数据通道并生成耳间时间延迟校正系数。耳间时间延迟校正系数插入单元，用于根据所述耳间时间延迟校正系数，修改所述多个音频数据通道。

Description

耳间时间延迟恢复系统和方法

技术领域

本发明涉及用于处理音频数据的系统，更具体地涉及用于恢复立体声或其它多通道音频数据的耳间时间延迟(interaural time delay)的系统和方法。

背景技术

当音频数据被处理以生成合成音频时，通常使用混音器来混合这样的音频数据，混音器利用声像电位器(panning potentiometer)或模拟声像电位器功能的其它系统或装置。声像电位器可以用于将单个输入通道分配至两个或更多个输出通道，例如左和右立体声输出，从而模拟在相对于听众的最左位置和最右位置之间的空间位置。然而，这样的声像电位器通常不会加入在现场表演中通常存在的耳间时间差。

发明内容

根据本发明，提供了用于耳间时间延迟恢复的系统和方法，其基于两个或更多个音频数据通道的相对幅度，在这些音频数据通道之间加入与所估计的耳间延迟相对应的时间延迟。

根据本发明的示例性实施例，提供了用于处理音频数据的设备。该设备包括耳间时间延迟校正系数单元，用于接收多个音频数据通道并生成耳间时间延迟校正系数，诸如在这多个音频数据通道包括不具有相关联的耳间时间延迟的声像数据的情况下。耳间时间延迟校正系数插入单元根据耳间时间延迟校正系数修改这多个音频数据通道，以便加入所估计的耳间时间延迟来改善音频质量。

本领域的技术人员在阅读下面结合附图的具体描述之后，将进一步理解本发明的优点和优越特征，以及其它重要方面。

附图说明

图1是根据本发明的示例性实施例的用于耳间时间校正的系统的示意图；

图2是根据本发明的示例性实施例的用于检测特定频带的左通道音频数据和右通道音频数据的峰值差的系统的示意图；

图3是根据本发明的示例性实施例的用于平滑耳间时间差和水平(level)差的系统的示意图；

图4是根据本发明的示例性实施例的用于处理音频数据以引入耳间时间或水平差的方法的示意图；

图5是根据本发明的示例性实施例的用于耳间时间延迟校正的系统的示意图；以及

图6是根据本发明的示例性实施例的用于控制与声像控制设置相关联的耳间时间延迟的方法的流程图。

具体实施方式

在下面的描述中，整个说明书和附图中相同的部件分别用相同的参考标号来标注。绘制的附图可能不是成比例的，并且为了简洁清楚，某些部件可能被示出为概括或示例性形式，并可能用商业代号来标识。

图1是根据本发明的示例性实施例的用于耳间时间校正的系统100的示意图。系统100可以由硬件、软件、或硬件和软件的适当组合来实现，并且可以是运行在数字信号处理平台上的一个或多个软件系统。如在此所使用的，“硬件”可以包括分立器件的组合、集成电路、专用集成电路、现场可编程门阵列、或其它适当硬件。如在此所使用的，“软件”可以包括一个或多个对象、代理、线程、代码行、子例程、单独的软件应用程序、以两个或更多个软件应用程序运行或在两个或更多个处理器上运行的两行或更多行代码或其它适当软件结构、或其它适当软件结构。在一个示例性实施例中，软件可以包括以通用软件应用程序运行的一行或多行代码或其它适当软件结构，诸如操作系统，以及以专用软件应用程序运行的一行或多行代码或其它适当软件结构。

系统100包括低延迟滤波器组102和104，其分别接收左通道音频时间信号和右通道音频时间信号。在一个示例性实施例中，低延迟滤波器组102和104能够以采样频率接收音频数据的一系列采样，以及能够基于预定数量的采样来处理采样到的音频数据。低延迟滤波器组102和104被用来确定在一个时间段期间多个频带的峰值幅度之间的时间延迟。在一个示例性实施例中，频带的数量可能与bark数量、等效矩形带宽(ERB)或其它适当的音频数据心理声学频带有关，因此低延迟滤波器组102和104的总输出数量等于每个输入采样的bark数量或ERB数量。类似地，过采样可以被用来减少产生音频伪像(audio artifacts)的可能性，例如通过使用多个滤波器，其中每个滤波器用于每个频带的多个相应子带之一(从而为每个相关联的频带产生多个子带)，或者以其它适当的方式。

通道延迟检测器106从低延迟滤波器组102和104接收输入，并且确定用于多个频带中每个频带的差校正系数。在一个示例性实施例中，通道延迟检测器106可以生成要添加到频域信号的相位差的量，以便例如在左通道和右通道之间产生时间差，从而将耳间时间延迟插入到已经使用了声像但是不包括相关联的时间延迟的信号中。在一个示例性实施例中，音频数据可以使用声像电位器来混音，以使得输入通道具有在立体声数据的最左通道和最右通道之间的明显的空间位置，或者可以使用其它适当方式，包括存在两个以上通道的情况。尽管这样的声像定位可以被用来模拟空间位置、移动或其它效果，但是与现场音频数据相关联的耳间时间延迟无法通过这样的声像定位来重建。例如，当声音源位于听众的左侧时，在听众的左耳接收到来自该源的音频信号的时间与听众的右耳接收到该音频信号的时间之间将存在时间延迟。同样地，当声音源从听众的左侧移动到听众的右侧时，相关联的时间延迟在声音源位于听众正前方时将降低为零，然后将相对于右耳增加。使用简单的声像电位器来模拟空间位置或移动不能创建这些相关联的时间延迟，而这样的相关联的时间延迟可以使用通道延迟检测器106来建模并插入到立体声或其它多通道音频信号中。

类似地，通道延迟检测器106也可以用于校正耳间水平差，诸如在左通道和右通道之间存在时间延迟但是不存在相关联的幅度差的情况下。例如，音频处理可能使得与进行过声像定位的音频信号相关联的水平改变，从而已经准确记录有左通道和右通道之间的相关联的时间延迟的音频信号仍然会使得左通道声音水平和右通道声音水平不反映现场音频信号。通道延迟检测器106还可以或可作为替换地被用于建模并将相关联的水平校正系数插入到立体声或其它多通道音频信号中。

通道延迟检测器106输出多个M校正系数，其被用于将耳间时间差或水平差插入多个音频数据通道中。校正系数的数量可以小于利用过采样来平滑感知频带中的变化的低延迟滤波器组102或104的输出的数量。在一个示例性实施例中，感知频带以三倍于带宽的频率被采样，N将等于M的三倍。

系统100包括延迟108和110，其接收左和右时变音频通道信号，并且将这些信号延迟一定量，该量对应于经过低延迟滤波器组102和104和通道延迟检测器106的延迟减去由补零Hann窗(zero-padded Hann window)112和114以及快速傅里叶变换器116和118产生的延迟。

补零Hann窗112和114用一定量来修改左和右通道的时变音频信号，从而产生Hann窗修改信号。补零Hann窗112和114可以被用于防止在所处理的信号中产生不连续，这种不连续可能生成相移变化，导致在所处理的音频数据中生成音频伪像。可以另外使用或可替换地使用其它类型的Hann窗或其它适当处理来防止不连续。

快速傅里叶变换器116和118将时域左和右通道音频数据转换为频域数据。在一个示例性实施例中，快速傅里叶变换器116和118接收时域信号的预定数量的时间采样(其被补零Hann窗112和114修改以增加采样的数量)，并且生成该时域信号的相应数量的频率分量。

相移插入120接收来自快速傅里叶变换器116和118的快速傅里叶变换数据，并基于从通道延迟检测器106接收到的校正系数来在信号中插入相移，例如通过修改单个频率窗口(frequency bin)或频率窗口组的傅里叶变换数据的实部和虚部分量而不修改每个窗口或窗口组的相关联的幅度。在一个示例性实施例中，相移可以与由通道延迟检测器106确定的电子通道之间的角度差相关，从而主通道的相位提前该角度差的一半，而次通道的相位滞后该角度差的一半。

快速傅里叶逆变换器122和124接收来自相移插入120的相移后的频域信号，并对该信号执行快速傅里叶逆变换以生成时变信号。左和右通道时变信号然后被分别提供至重叠相加(overlap add)126和128，其对信号执行重叠相加操作以解释(account for)补零Hann窗112和114的处理。重叠相加126和128输出信号至移位相加寄存器130和132，其输出移位的时间信号L^idc(t)和R^idc(t)。

在操作中，系统100使得包括不具有相关联的耳间时间差的声像的信号能够被补偿，从而插入耳间时间差。因此，系统100恢复通常会出现在音频信号中的耳间时间差，从而改进音频质量。

图2是根据本发明的示例性实施例的用于检测特定频带的左和右通道音频数据的峰值差的系统200的示意图。系统200可以被用于检测音频数据的各个单独频带的左通道数据和右通道数据之间的峰值，并且为每个频带生成校正系数。

系统200包括Hilbert包络(Hilbert envelope)202和204，其接收左和右时域信号并生成这些信号的预定频带的Hilbert包络。在一个示例性实施例中，与系统100的快速傅里叶变换器116和118所处理的相比，Hilbert包络202可以对较少数量的时域采样进行操作，因此使得系统200能够迅速生成校正系数，并且避免可能由于将时间通道时域数据转换到频域以生成相关联的校正系数而引起的额外延迟。

峰值检测器206和208分别接收左和右通道Hilbert包络，并且确定每个信号的峰值幅度和该峰值幅度的相关联的时间。峰值和时间数据然后被提供给幅度和时间差检测器210，其确定对于相应的峰值幅度，是否存在时间差。如果幅度和时间差检测器210确定在峰值幅度时间之间不存在相应的差，则可以使用耳间时间差校正214，以便通过比较左和右通道峰值幅度的幅度值来确定要插入到频域音频数据中的校正系数角T^COR。在一个示例性实施例中，校正系数角T^COR可以通过确定atan2(左通道幅度，右通道幅度)减去45度的角来确定。类似地，其它适当的处理可以被用来确定校正系数角。适当的阈值也可以被应用，以使得当峰值幅度值之间存在小的时间差时能够生成校正系数角。

在左和右通道数据的峰值之间存在时间差但幅度相等的情况下，可以使用耳间水平差校正212。在该示例性实施例中，幅度可以通过校正系数L^COR来调节，从而给予具有领先的音频峰值的通道较高的值，以及给予具有落后的音频峰值的通道较低的值，例如，通过从滞后通道减去L^COR，增加0.5＊L^COR至领先通道并且从滞后通道减去0.5＊L^COR，或者以其它适当方式。耳间水平差校正212还可以使用阈值，以便确立当高于其值时则施加水平校正的阈值时间差，以及当低于其值时不施加水平校正的阈值时间差。

在操作中，可以利用系统200生成左和右信号的时间和水平差校正系数，从而为具有左或右声像但是没有相关联的时间差的信号生成耳间时间差校正系数，以及为存在耳间时间差但是不存在相关联的声像幅度的信号生成水平校正。

图3是根据本发明的示例性实施例的用于平滑耳间时间和水平差的系统300的示意图。系统300包括耳间时间和水平差校正单元302至306，其分别生成用于不同频带的耳间时间和/或水平差校正系数。在一个示例性实施例中，所述频带可以是bark、ERB或其它适当心理声学的频带的一些部分，从而系统300可以被用于基于心理声学频带的子分量生成用于该心理声学频带的单个校正系数。

时间平滑单元308至312被用于分别对来自耳间时间或水平差校正系统302至306的输出进行时间平滑。在一个示例性实施例中，时间平滑单元308至312可以接收来自耳间时间和水平差校正单元302至306的输出序列，并且可以存储该序列的预定数量的采样，从而使得连续采样之间的变化能够被平均，或以其它方式被平滑。

频带平滑单元314接收来自耳间时间或水平差校正单元302至306的每个耳间时间或水平差校正系数，并且对这些耳间时间或水平差校正系数进行平滑。在一个示例性实施例中，在bark或ERB频带已经被分成三个的情况下，频带平滑314可以平均该相关联的频带的三个频率校正系数，可以确定加权平均，可以使用时间上被平滑的系数，或者可以执行其它适当的平滑处理。频带平滑314为每个频带生成单个相位校正系数。

在操作中，系统300基于时间、频率、时间和频率、或其它适当基础，为耳间时间或水平差校正系数执行平滑，其中，通过分析左和右通道音频数据以检测不具有相关联的水平或时间差的声像设置，从而生成耳间时间或水平差校正系数。因此，系统300通过确保耳间时间或水平差校正系数之间的变化不会迅速地改变，来帮助避免产生音频伪像。

图4是根据本发明的示例性实施例的用于处理音频数据以引入耳间时间或水平差的方法400的示意图。方法400在402开始，确定左和右幅度包络。在一个示例性实施例中，Hilbert包络检测器或其它适当系统可以被用于确定频带的峰值的幅度、与该峰值相关联的时间、以及其它适当数据。方法然后进行到404。

在404，检测幅度包络中的峰值以及峰值的相关联的时间。在一个示例性实施例中，诸如幅度检测器之类的简单的峰值检测器可以被用于检测出现峰值处的相关联的时间间隔。方法进行到406。

在406，确定在左和右通道数据的峰值之间是否存在时间差。在一个示例性实施例中，时间差可以包括相关联的缓冲，从而，如果峰值之间的时间小于预定量，则确定不存在时间差。如果确定存在时间差，从而不需要耳间时间延迟恢复，则方法进行到408，确定在两个信号的幅度之间是否存在水平差。如果确定存在水平差，则方法进行到410。否则，方法进行到412，校正左和右通道音频数据之间的水平。在一个示例性实施例中，领先的通道幅度可以被保留不改变，而落后的通道幅度被减小与领先和落后通道之间的差相关的系数，或者可以使用其它适当处理。

如果确定在左和右通道峰值幅度值之间不存在时间差，则方法进行到414，在此，水平差被转换为相位校正角。在一个示例性实施例中，相位校正角可以通过从atan2(左通道幅度，右通道幅度)减去45度来确定，或者可以使用其它适当关系。方法然后进行到416，相位差被分配至左和右通道。在一个示例性实施例中，该分配可以通过等分该相位差来执行，从而使这些通道提前和滞后相同量。另外，在适当时，可以使用加权差，或者可以使用其它适当处理。方法然后进行到418。

在418，平滑左和右通道相位校正角之间的差。在一个示例性实施例中，该差可以按时间平滑、基于邻近通道的相位校正角来平滑、或以其它适当方式来平滑。方法然后进行到420。

在420，差校正系数被应用于音频信号。在一个示例性实施例中，可以在频域中加上与时间差相对应的相位差，例如使用周知的通过在频域中加上或减去相关联的相移来在时间信号中加上或减去时间差的方法。类似地，也可以使用其它的适当处理。

在操作中，方法400使得耳间相位或幅度校正系数能够被确定并应用于多个音频数据通道。尽管示出了两个示例性通道，但是在适当时，更多音频数据通道也可以被处理，诸如在5.1音响系统、7.1音响系统或其它适当音响系统中，增加耳间相位或幅度校正系数至音频数据。

图5是根据本发明的示例性实施例的用于耳间时间延迟校正的系统500的示意图。系统500使得耳间时间延迟能够在混音之前被补偿，从而生成更准确反映与在相关联的物理位置处产生的声源相关联的耳间时间延迟的声像控制输出。

系统500包括左通道可变延迟502、右通道可变延迟504以及声像控制506，其每一个都可以以硬件、软件、或硬件和软件的适当组合来实现，并且可以是在数字信号处理平台上运行的一个或多个软件系统。声像控制506允许用户选择声像设置以将时变的音频数据输入分配给左通道信号和右通道信号。在一个示例性实施例中，声像控制506可以包括针对虚拟左位置和虚拟右位置之间的多个相关联的位置设置中每一个的相关联的时间延迟值。在该示例性实施例中，声像控制506可以在最左、中心或最右位置被选择的情况下，禁用可变延迟控制，因为对于这些设置不需要延迟。对于在声像控制506的最左、中心或最右之间的设置，可以生成与为位于相关联的位置的声源生成的耳间时间延迟相对应的延迟值。

声像控制506也可以包括活动(active)声像调整特征，其使得用户能够选择活动声像调整，例如在用户打算从左向右或从右向左调整声像时。在该示例性实施例中，可以为最左或最右声像控制506设置提供时间延迟，从而使得用户在声像控制506设置从最左或最右设置移开时能够调整音频输入的声像而不生成音频伪像，否则，时间延迟将从用于最左或最右设置的零延迟跳到用于邻近最左或最右设置的声像控制506设置的最大延迟值。

左通道可变延迟502和右通道可变延迟504可以使用系统100的耳间时间延迟校正系数插入单元或以其它适当方式来实现。

在操作中，系统500使得当音频通道在两个输出通道(例如，左通道和右通道、或其它适当通道)之间调整声像时能够加入耳间时间延迟。系统500在不需要时间延迟的情况下能够禁用设置的时间延迟。

图6是根据本发明的示例性实施例的用于控制与声像控制设置相关联的耳间时间延迟的方法600的流程图。方法600在602开始，接收诸如用户所选择的通道的时域音频通道数据。该方法然后进行到604，检测声像控制设置。声像控制可以是电位器、虚拟声像控制、或其它适当控制。方法然后进行到606。

在606，确定是否需要声像延迟设置。在一个示例性实施例中，可以禁用预定声像控制位置的声像延迟，所述预定声像控制位置诸如最左、最右、或中心位置。在另一示例性实施例中，可以为最左或最右位置生成声像延迟，例如在用户已选择了声像控制设置以允许用户在最左和最右位置之间活动地调整声像的情况下，从而避免当声像控制从最右或最左位置离开时在生成时间延迟中的不连续性。如果确定不需要声像延迟，方法进行到612，否则方法进行到608。

在608，基于声像控制设置计算延迟量。在一个示例性实施例中，可以在声像控制处于最左或最右位置时生成最大时间延迟，例如在已选择了活动声像调整的情况下。类似地，在已经选择了固定声像设置时，对于最左或最右设置不需要时间延迟(因为没有为相对的通道生成相关联的信号)。对于最右和最左位置设置之间的声像控制设置，与它们之间的位置处的时间延迟相对应的时间延迟被计算，该时间延迟随着声像控制位置接近中心位置而减小。方法然后进行到610。

在610，计算出的延迟被应用到一个或多个可变延迟。在一个示例性实施例中，延迟被加到左通道或右通道之一，或者可以使用其它适当的延迟设置。在另一示例性实施例中，可以使用系统100的耳间时间延迟校正系数插入单元或以其它适当方式加入延迟。方法然后进行到612。

在612，确定是否有其它音频通道数据需要处理，例如，通过确定在数据缓冲器中是否存在其它数据采样，或通过其它适当方式。如果需要其它的数据处理，方法返回至602，否则方法进行到614并结束。

在操作中，方法600允许基于声像控制设置生成耳间时间延迟。方法600通过使用声像控制使得声音位置能够以比没有进行时间校正的在左通道和右通道之间的简单声像定位更接近实际声音源位置的方式被模拟。

尽管在此已经描述了本发明的系统和方法的示例性实施例，但是本领域的技术人员还应该理解，在不背离所附权利要求的范围和精神的情况下，能够对该系统和方法进行各种替换和修改。

Claims

1.一种用于处理音频数据的设备，包括：

声像控制单元，用于把音频数据分配给左通道音频数据和右通道音频数据；

耳间时间延迟校正系数单元，用于接收所述左通道音频数据和所述右通道音频数据，并基于声像控制单元把音频数据分配给左通道音频数据和右通道音频数据来生成耳间时间延迟校正系数，其中所述耳间时间延迟校正系数单元包括：

时间差检测器，用于接收预定频带的左通道音频数据和右通道音频数据中每一个的峰值幅度值和相关联的时间，并生成耳间差校正数据；

耳间时间差校正单元，用于接收所述耳间差校正数据，并生成用于耳间时间延迟校正系数插入单元的时间校正系数；以及

耳间水平差校正单元，用于生成用于所述耳间时间延迟校正系数插入单元的水平校正系数；

所述耳间时间延迟校正系数插入单元，用于根据所述耳间时间延迟校正系数，修改所述左通道音频数据和右通道音频数据，以生成修改后的左通道音频数据和修改后的右通道音频数据；

多个时间平滑单元，用于分别对来自耳间时间差校正单元或耳间水平差校正单元的输出进行时间平滑；以及

频带平滑单元，用于对耳间时间差校正系数和耳间水平差校正系数进行平滑。

2.根据权利要求1所述的设备，其中所述耳间时间延迟校正系数单元包括低延迟滤波器组，用于接收左通道音频数据和右通道音频数据之一，并为预定的频带生成作为时间的函数的幅度包络。

3.根据权利要求1所述的设备，其中所述耳间时间延迟校正系数单元包括峰值检测器，用于接收左通道音频数据和右通道音频数据之一，并为预定的频带生成峰值幅度值和相关联的时间。

4.根据权利要求1所述的设备，其中所述耳间时间延迟校正系数插入单元包括延迟单元，用于将左通道音频数据和右通道音频数据之一延迟与所述耳间时间延迟校正系数单元的延迟相关的量。

5.根据权利要求1所述的设备，其中所述耳间时间延迟校正系数插入单元包括Hann窗单元，用于接收左通道音频数据和右通道音频数据之一，并将Hann窗应用到所接收的通道音频数据。

6.根据权利要求1所述的设备，其中所述耳间时间延迟校正系数插入单元包括相移插入单元，用于在多个频域音频通道信号中插入相移。

7.一种用于处理音频数据的方法，包括：

通过声像控制单元把音频数据分配给左通道音频数据和右通道音频数据；

确定左通道音频数据和右通道音频数据中每一个的峰值幅度；

检测与所述峰值幅度相关联的延迟；以及

如果检测到的延迟小于阈值，在左通道音频数据和右通道音频数据之间插入延迟，包括：

在所述左通道音频数据和所述右通道音频数据之间存在耳间时间差但不存在相关联的声像幅度的情况下，使用耳间水平差校正单元生成耳间水平差校正系数，且在所述左通道音频数据和所述右通道音频数据之间具有左或右声像但没有相关联的时间差的情况下，使用耳间时间差校正单元生成耳间时间差校正系数；

利用时间平滑单元分别对来自耳间时间差校正单元或耳间水平差校正单元的输出进行时间平滑；以及

利用频带平滑单元分别对耳间时间差校正系数和耳间水平差校正系数进行平滑。

8.根据权利要求7所述的方法，其中确定左通道音频数据和右通道音频数据中每一个的幅度包络包括：确定左通道音频数据和右通道音频数据中每一个的预定频带的幅度包络。

9.根据权利要求7所述的方法，其中确定左通道音频数据和右通道音频数据中每一个的幅度包络包括：用Hilbert包络单元处理左通道音频数据和右通道音频数据中每一个的预定频带。

10.根据权利要求7所述的方法，其中检测与每个幅度包络的峰值相关联的延迟包括：将和一个通道的峰值幅度相关联的时间与和第二通道的峰值幅度相关联的时间进行比较。

11.根据权利要求7所述的方法，还包括基于峰值幅度生成所插入的延迟。

12.根据权利要求7所述的方法，还包括基于峰值幅度生成所插入的延迟，其包括通过确定atan2(peak1，peak2)减去45度来生成所插入的延迟，其中atan2是两变量反正切函数，得到角度输出，peak1是第一峰值幅度的值，peak2是第二峰值幅度的值。

13.根据权利要求7所述的方法，其中如果检测到的延迟小于阈值，则在左通道音频数据和右通道音频数据之间插入延迟包括：

将所述左通道音频数据和右通道音频数据从时域转换到频域；

将所插入的延迟转换为相移值；

在频域中，将所述相移值的第一部分加到左通道音频数据；以及

在频域中，从右通道音频数据中减去所述相移值的第二部分。