CN1600045A

CN1600045A - 立体声的时间定标技术

Info

Publication number: CN1600045A
Application number: CNA02824107XA
Authority: CN
Inventors: 肯尼思·H·P·张
Original assignee: SSI Corp
Current assignee: SSI Corp
Priority date: 2001-12-05
Filing date: 2002-11-27
Publication date: 2005-03-23
Also published as: KR20040063930A; TW580842B; US7079905B2; WO2003049498A2; WO2003049498A3; EP1452069A2; US20030105539A1; JP2005512140A

Abstract

一多信道(例如：立体声)音频信号的时间定标处理对所有信道使用共同时间偏移，并借此避免音源所在位置的不稳定。在时间定标处理中，共同时间偏移对应于音频信号的个别时间区间。在此时间定标处理中，每个音频信道的数据被划分为对应于多个时间区间的多个帧，且所有对应于相同区间的帧使用共同时间偏移。一区间的共同时间偏移可自全体信道数据集中导出，或自对个别信道独立计算的个别时间偏移导出。预先处理可计算包括在增大音频数据结构中的共同时间偏移，低处理功率播放系统使用该增大音频数据结构进行实时时间定标操作。

Description

立体声的时间定标技术

技术领域

本发明涉及一种立体声的时间定标技术。

背景技术

数字音频信号的时间定标(例如：时间压缩或延展)改变已记录音频信号的播放速率而不改变音频系统的感知音调。因此，使用具有时间定标能力的播放系统的听者可以加速播放以加快接收信息或者减速播放以减慢接收信息，由于此时间定标技术提供如同原始音频的音调而使信息更易聆听与了解。理想地，具有时间定标能力的本发明应赋予听者播放速率的控制能力或者时间定标的能力，使得听者可以选择与正在播放信息复杂程度对应的速率以及听者本身对信息的专注程度。

图1A示出了使用立体声数据100及时间定标的立体声数据110的立体声信号。立体声数据100包括表现立体声左信道的左输入数据100L及表现立体声右信道的右输入数据100R。类似的，由立体声数据100生成的时间定标的立体声数据110包括左时间定标的音频数据110L及右时间定标的音频数据110R。

对立体声做时间定标的传统处理是对左、右信道做独立的时间定标。关于时间定标处理，左音频数据100L内的左音频信号的取样倍划分为输入帧IL1至ILX，右音频数据100R内的右音频信号倍划分为输入帧IR1至IRX。时间定标处理生成分别包括用于一时间定标立体声信号的左、右信道取样的左时间定标输出帧OL1至OLX及右时间定标输出帧OR1至ORX。一般而言，一个输入帧内的取样数m与对应输出帧内取样数n的比值等于在时间定标处理中所使用的时间标度，且对大于1的时间标度而言，时间定标的输出帧OL1至OLX及OR1至ORX包括少于各输入帧IL1至ILX及IR1至IRX的取样。对于小于1的时间标度，时间定标的输出帧OL1到OLX和OR1到ORX包含多于输入帧IL1到ILX和IR1到IRX的取样。

有些时间定标处理使用指出被重叠及结合以减少或扩展输出时间定标音频数据内的取样数的部分输入音频的时间偏移。在组合取样时为了达到良好的音效品质，这种时间定标处理通常搜索取样的匹配块，及时移位其中的一块以和匹配块重叠，然后组合取样的匹配块。此类时间定标处理可独立施于立体声信号的左、右信道。如图1B所示出了，分别从左和右缓冲器120L和120R开始的时间偏移ΔTLi和ΔTri分别唯一地识别与输入帧ILi和Iri最匹配的块125L和125R。每个最匹配块125L或125R可与对应的输入帧ILi或Iri算术组合以生成输出时间定标数据的修改取样。

如图1B所示，由于对左、右音频数据100L和100R的偏移是单独地确定的，所以，对应于相同帧数(即，在输入立体声的相同时间区间)的时间偏移ΔTLi和ΔTRi彼此可不相同，。一般，左、右信道的时间偏移的差异是变化的，因此，偏移ΔTli短于某些帧的偏移ΔTRi(即帧索引i的某些值)和ΔTri短于用于其它帧偏移的偏移ΔTLi(即，帧索引i的其他值)。

对于一般的立体声而言，当来自同源的匹配声经由左、右扬声器播放时，听者对该匹配声的定时差异感觉微弱以至于以为是一发源自介于左、右信道间的位置的单一声音。若定时差异改变，音源位置似乎移动。在时间定标立体数据中，在具有帧索引i的偏移ΔTLi和ΔTri中的人为变化是正被播放的音源位置的震荡和变化。类似的，偏移ΔTLi和ΔTRi的变化会导致在诸如经由不同信道播放的不同乐器的不同信道中的相关声的定时变化。这些人为噪声困扰着一些听者，因而我们寻求一些避免时间定标立体声信号的明显音源位置变化的系统和方法。

发明内容

依据本发明的一方面，时间定标处理使用一共同偏移用于多信道(立体声)音频信号的所有信道的对应区间。对所有信道使用共同时间偏移避免信道中的匹配或相关声的定时变化以及避免生成诸如音源位置明显震荡与变化等的人造噪声。为了有更佳的音质，共同时间偏移依不同时间的音频信号的内容变化，且可借最匹配搜索来所确定。

用于多信道音频信号的一种时间定标处理将多信道音频信号划分为多个时间区间。每个区间对应于多个帧，每个信道中的一个帧表示多信道音频信号。对于每个区间，此处理确定一用于所有信道的共同时间偏移，且对每个输入帧，时间定标处理使用由共同偏移识别的数据块生成用于与该帧对应的时间区间的时间定标数据。通常，时间定标处理将被识别块的每个取样和与输入音频帧对应的块中的相应取样组合起来，用于这种组合的方法包括将取样乘以第一个加权函数的一个值、将输入帧的对应取样乘以第二个加权函数的一个值、然后将生成的乘积相加以生成一个经修改的取样。

一区间的共同偏移可由多种技术确定。一种技术是确定通过对来自多信道音频信号的各信道的对应取样求平均所创建的平均音频信号的偏移。对于平均音频信号，搜索一个最匹配的块以识别平均帧的单一时间偏移，而此平均帧的时间偏移即是共同偏移，因而该单独的时间定标处理被用于所有的信道。

另一种获得共同偏移的技术将为各信道单独确定的偏移相互组合。对于每个数据信道，搜索识别与该信道最匹配块的偏移，而在不同信道的相同区间的偏移被用来(例如：平均)确定一个区间共同偏移。

另一种用于确定一个区间共同偏移的技术包括确定用于一系列候选偏移中每一个候选偏移的在由候选偏移所识别的各块和各帧之间的累计差。区间共同偏移即是提供最小累积差的候选偏移。

而还有另一种用于确定时间区间时间偏移的方法是使用包含用于简化时间定标处理的输入音频数据及参数的增大音频数据结构。对于立体声，增加的音频数据结构包括左、右帧，和该音频数据结构包括用于每个该左、右帧对的一组对应于该对左右帧和一组时间标度的预先计算好的偏移。用于所选择时间标度和区间的正确共同偏移可由该组时间标度的预定偏移组中取得，或者通过在预定偏移之间插入与确定与所需子区间和时间标度对应的共同偏移来获取。

本发明的一个具体实施例是立体声的时间定标处理。对于一个立体声信号，此处理包括将表示立体声左右信道的左右数据分别划分成左右帧。每个个右帧对应其中一左帧且表示在其中对应左帧表示左信道的时间区间期间的右信道。对于每对相对的左、右帧，此处理确定用于识别在生成时间定标左右音频数据的处理中使用的右块和左块的共同偏移。诸如前署的许多方法可用来确定共同偏移。

附图说明

图1A示出了从输入音频数据帧的时间定标输出的时间定标音频数据帧。

图1B示出了用于图1A中时间定标处理的用于识别左、右最匹配块的偏移。

图2是依据本发明的一实施例的立体声时间定标处理的流程图。

图3A、3B、及3C是另外的识别出用于多信道音频的时间定标的共同偏移的方法的流程图。

图4示出了通过将左、右源数据与左、右缓冲器内的取样相互组合产生左右时间定标的数据。

图5A的流程示出了用于产生简化立体声时间定标的增大音频数据结构的处理。

图5B的流程示出了使用增大音频数据结构以在立体声信号的实时时间定标中减少处理负荷的立体声时间定标处理。

不同图中所使用的相同参考符号指示相似或相同的项目。

具体实时方式

依据本发明的一方面，对立体声或是其他的多信道音频信号做时间定标的方法避免或减少了人为造成的音源位置明显变化或波动或者是对相对音源的定时波动。使用对所有信道都相同的共同时间偏移，时间定标生成与相同时间区间对应的时间定标的音源，而不是对给信道执行完整的独立时间定标处理。

图2的流程图示出了用于由左、右信道100L及100R(图1A)表示的立体声信号的范例性时间定标处理200。在该范例性实施例中，左信道数据100L包括一个立体声信号的左音频信道取样，而右信道数据100R包括一个立体声信号的右音频信道取样。左和右信道数据100L和100R被分成固定大小的帧IL1至ILX及IR1至IRX，且对范围从1到X的一帧索引i，帧ILi和Iri表示一个帧索引i在立体声信号中识别出的时间区间。

时间定标处理200以一个初始化步骤210开始。初始化步骤210包括分别将第一左、右输出帧IL1及IR1存储在左、右缓冲器中，将第一时间区间的共同偏移设置为等于0，且将帧索引i设定初始值设置为2以指定接下来被处理的左、右输入帧。通常，左输入帧IL1至ILX被连续地组合到左缓冲器中以生成一个流过左音频信道的音频数据，而右输入帧IR1至IRX被连续组合到右缓冲器中以生成一个流过右音频信道的音频数据。步骤210分别将入帧IL1和IR1存储到左、右缓冲器的开始部分处。

步骤220与225分别将跟随最后被使用的音源数据的音源数据填入到左、右缓冲器中。一开始，步骤220和225分别将一个左、右输入帧IL2和IR2加载到左、右缓冲器中，和后续跟随的源数据可以依据所选择缓冲器的大小跟随帧IL2和IR2。通常，左和右缓冲器包括至少n+M个连续取样，其中，m是输入帧内的取样数而n是输出帧内的取样数。填充在左、右缓冲器中的音源数据位于跟随左、右缓冲器中最后修改数据块的存储位置处。为了首先执行步骤220和225，左、右缓冲器内的最后修改块是输入帧IL1和IR1。为了随后执行步骤220和225，最后修改块分别是在每个缓冲器中由共同偏移识别的左、右块。

步骤230确定用于由帧索引i所识别的时间区间的共同时间偏移ΔTi。共同时间偏移ΔTi用在左、或信道的时间定标处理中，图2示出了使用共同时间偏移的范例性时间定标方法，并且在接下来加以叙述。图3A、3B及3C是另三种确定共同偏移ΔTi的方法。

在图3A的处理310中，步骤312准备一个包括取样的平均缓冲器，所述取样是来自左和右缓冲器的对应取样的平均取样。类似的，步骤314准备一个包含取样的平均输入帧，该取样其是左和右输入帧ILi和IRi内对应取样的平均取样。步骤316接着从平均缓冲器的开始部分搜索一个取样块，其最匹配平均输入帧且少于g个取样，g是在一个输入帧中的m个取样以及输出帧中的n个取样中的较大者。步骤318将共同偏移ΔTi设置为等于从平均缓冲器开始至步骤316中找到的最匹配块的偏移。

另外，在图3B的处理320中，步骤322在左缓冲器中搜索从该左缓冲器开始部分算起不超过g个取样数的块和最匹配左输入帧ILi。步骤324类似的在右缓冲器中搜索从该右缓冲器的开始部分算起不超过g个取样的块以及最匹配右输入帧IRi。如前述，由于左、右音频信号不同，用于分别识别左、右最匹配块的左、右时间偏移ΔTLi和ΔTri通常也是不同的。步骤326使用左、右偏移ΔTLi和ΔTri确定该时间区间的共同偏移ΔTi。在一个特定的例子中，步骤326将共同偏移ΔTi设置为等于左、右偏移ΔTLi和ΔTRi的平均或中间数或者选择偏移ΔTLi和ΔTRi其中之一当做共同偏移ΔTi。

图3C的处理330还提供了另一种用于与时间区间i相关的共同偏移ΔTi的确定处理。特别是，对每个介于0和g间的候选偏移ΔTc，步骤332确定在左输入帧ILi中的取样与在偏移ΔTC处的左缓冲器中的块内对应取样之间的绝对或平方差的和以及在右输入帧IRi中的取样与在偏移ΔTC处的右缓冲器中的块内对应取样之间的绝对或平方差的和。步骤334将共同偏移ΔTi设置为等于提供最小总和的候选偏移。

在处理200(图2)的步骤230确定共同偏移ΔTi后，步骤240将包括左输入帧IL1(即，步骤220正存储在左缓冲器内的输入帧)的左音源数据的g个取样与共同偏移ΔTi在左缓冲器中识别出的一个块的g个取样相互组合。对大于1的时间标度，g等于m，而在输入帧IL1内的m个取样因而及时往前移以与具有之前时间索引的m个取样组合。步骤245类似的将具有右输入帧IR1的右音源数据的g个取样与与共同偏移ΔTi在右缓冲器中识别的一个块的g个取样组合，且对大于1的时间标度，步骤245将右输入帧IRi内的取样及时前移以与之前的匹配取样向组合。

步骤240和245中所使用的特定组合处理取决于所使用的特定时间定标处理。图4示出了一范例性组合处理400。为了此组合处理，共同时间偏移ΔTi分别识别在左、右缓冲器中的左、右块BLi和BRi。BLi和Bri中的每个块包括做为音频数据的g个取样，和可以在1和g之间指定取样索引j以根据帧或块的取样顺序识别个别取样。。对于取样索引j的每个值，组合处理400将左缓冲器内块BL1中的对应取样乘以加权函数F1的对应值F1(j)，将输入帧ILi内的对应取样乘以加权函数F2的对应值F2(j)，将此两乘积相加在左缓冲器中生成经修改的取样。类似的，组合处理400将值F1(j)乘以块BRi内具有取样索引j的取样，将值F2(j)乘以输入帧IRi内的对应取样，然后将两乘积相加在右缓冲器中生成经修改的取样。

加权函数F1和F2随取样索引j而变化，且通常将与相同取样索引对应的两个加权值相加为1(例如，对于所有的j＝1到g，F1(j)+F2(j)＝1)。在图4中，加权函数F1在块的开始处具有值1，因而，经修改的取样在左或右缓冲器中与之前的取样连续。加权函数F2在块结尾处具有值1，因而，修改的取样将与在步骤220或225(图2)的下一次执行中添加到左或右缓冲器的输入取样呈连续性。更广泛地，加权函数视所使用的特定时间定标处理而定。

在图2的组合处理240和245之后，步骤150将左缓冲器的内容左移n个取样以输出一个左输出帧OL(i-1)，且将右缓冲器的内容左移n个取样以输出一个右输出帧OR(i-1)。步骤260和270增加帧索引i，且如果还存在需要进行时间定标的另外的输入帧则跳回步骤220，或是所有的输入帧都已被处理时结束时间定标步骤200。在再执行步骤220和225的过程中，跟随在步骤240和245所组合的音源数据后面的输入数据分别被存储在左、右缓冲器中紧跟在由步骤250移位的最后经修改块后面的位置处。为了时间压缩(g＝n)，用于索引i的新值的左、右输入帧ILi和Iri被分别存储在左、右缓冲器中紧跟在由步骤250移位的最后经修改块后面的位置处。为了时间扩展，填充数据连续地跟随在左、右输入音频数据流中的最后使用的音源数据。然后，步骤230从左、右缓冲起的开始处确定用于组合步骤240与245的再执行的下个共同偏移ΔTi。

在最后输入帧被组合到各缓冲器中之后，步骤280将最后的左、右输出帧OLX和ORX移出左、右缓冲器。然后，处理200结束。

图5A和图5B示出了依据本发明实施例使用增加音频数据结构的处理510和500。处理500非常适于在具有相对较少可用处理功率的播放系统中对音频数据实施实时时间定标。一个名称为“具有实时时间定标参数的数字音频技术”而代理人编号SSI004US的联合专利申请案进一步描述了适用于低功率系统的实时时间定标处理，这里引入其全部内容作为参考。

处理510在实时时间定标处理500之前执行并对一个立体声信号进行预先处理，以便构成一个包含便于在低计算功率播放系统中进行时间定标的参数的增大数据结构。特别是，步骤512使用不同的时间标度通过每个时间定标操作反复对相同的立体声信号做时间定标。步骤512根据输入立体声确定一组共同时间偏移ΔT(i，k)，其中，i是帧索引而k是时间标度索引。当利用与时间标度索引k对应的时间标度进行时间定标时，每个共同时间偏移ΔT(i，k)被用在与帧索引i对应的左和右帧的时间定标中。

步骤514构造增大数据结构，该结构包括确定的共同时间偏移ΔT(i，k)及立体声的左、右输入帧。然后，该增大数据结构可以被存储在媒体中或发送给播放系统。

如上所述，实时时间定标处理500在步骤520中访问增大数据结构，然后在步骤210中初始化左、右缓冲器、第一共同偏移ΔT1以及帧索引i。然后，时间定标处理500继续图2所示除步骤530根据增大音频数据中的参数确定共同偏移ΔT1以外的后续处理。

如果当前时间标度与处理500对立体声数据进行时间定标中使用的时间标度中的一个匹配，播放系统可使用来自所述增大音频数据结构的预定共同偏移ΔT(i，k)，且播放系统不需计算共同时间偏移。若当前时间标度无法匹配任何处理510用于时间定标立体声数据的时间标度k，则播放系统可以内插或外推所提供的时间偏移ΔT(i，k)以确定用于当前帧索引和时间标度的共同时间偏移。在任一情况下，播放系统所执行的时间索引计算较不复杂且较不费时，从而保证上述对最匹配块的搜索。

虽然已经借助参考特定实施例对本发明进行了描述，但这些描述仅提供关于本发明应用的范例而不应成为一种限制。例如，虽然前述集中在立体(或两信道)声信号，但本发明的原理也适用于具有三个或多信道的多信道音频信号。此外，虽然，所描述的实施例在时间定标中使用了特殊用途的时间偏移，但本发明的概念可以不同方式应用于使用时间偏移或取样偏移的时间定标中。所披露实施例特性的各种其它应用和组合都落入由后述权利要求书所限定的本发明的范围内。

Claims

1.一种多信道音频信号的时间定标处理，包括：

将该音频信号划分为多个区间，每个该区间对应于该多信道音频信号的多个数据信道中每个数据信道的一个帧；

对每个该区间，确定该区间的偏移；以及

对该多重数据信道做时间定标，其中，对于每个帧，该时间定标步骤包括在对该帧作时间定标时使用于该帧对应的该区间的偏移。

2.如权利要求1所述的时间定标处理，其中，在对一帧做时间定标时使用偏移的步骤包括使用该偏移来识别与该帧结合的块。

3.如权利要求2所述的方法，其中，对于每个该帧，时间定标步骤还包括将该块的取样与来自该帧的对应取样结合。

4.如权利要求3所述的方法，其中，对于与来自该帧的对应取样结合的该块中的每个取样，该结合步骤包括：

将该取样乘以一第一加权函数的一值；

将来自该帧的该对应取样乘以一第二加权函数的一值；及

将相乘所得的乘积相加以生成一修改取样。

5.如权利要求1所述的方法，其中，确定一区间取样的偏移的步骤包括搜索由对在多数据信道执行时间定标过程中使用的数据进行平均所导致的平均数据。

6.如权利要求1所述的方法，其中，确定一区间偏移的步骤包括：

根据对应于区间的所有帧的组合确定平均帧；

搜索与该平均帧最匹配的最匹配块；以及

选择用于该区间偏移的识别位该平均帧所找出的该最匹配块的值。

7.如权利要求6所述的方法，其中，搜索该最匹配块的步骤包括搜索一个缓冲器，其包含由平均在多数据信道的时间定标中使用对应取样发现的取样。

8.如权利要求1所述的方法，其中，确定一个区间偏移的步骤包括：

对每个多数据信道，搜索对应于该信道的数据缓冲器，以识别与位于该数据信道内并对应于该区间的该帧最匹配的最匹配块；以及

根据到数据缓冲器中最匹配块的偏移导出该区间的偏移。

9.如权利要求1所述的方法，其中，确定区间偏移的步骤包括：

对于一系列候选偏移中的每个每个偏移，累积在对应于该区间的每个帧与该候选偏移所识别的个别块之间的差；及

选择提供最小累积差的候选偏移做为偏移。

10.如权利要求1所述的方法，其中，确定区间偏移的步骤包括：

从包括该帧和对应于该帧的一组预定偏移以及一组时间标度的增大音频数据结构中提取偏移。

11.如权利要求1所述的方法，其中，确定区间偏移的步骤包括：

访问包括该帧和对应于该帧的一组预定偏移以及一组时间标度的增大音频数据结构；和

在预定偏移之间插入，以确定对应于该区间的一偏移以及用于该处理的当前时间标度。

12.一种用于立体声信号的时间定标处理，包括：

将表示立体声信号左信道的左数据划分成为一系列左帧；

将表示立体声信号右信道的右数据划分成为一系列右帧，其中，每个右帧对应于左帧中的一个，并在其中对应左帧表示右信道的时间间隔内表示右信道；且用于每对对应的左、右帧；

确定用于识别左取样块和右取样块的一组偏移；及

在生成用于该右信道的时间定标取样中使用右块；及

在生成用于该左信道的时间定标取样中使用左块。

13.如权利要求12所述的方法，其中，使用该右块的步骤包括：

将该右块内的取样乘以第一加权函数的一对应值；

将得自该成对左右帧中的该右帧的取样乘以第二加权函数的一对应值；及

把由相乘步骤生成的对应乘积相加以生成一修改取样。

14.如权利要求13所述的方法，其中，使用该左块的步骤包括：

将左块内的取样乘以第一加权函数的对应值；

将来自该对左帧的取样乘以该第二加权函数的对应值；及

把由相乘步骤生成的对应乘积相加以生成一修改取样。

15.如权利要求12所述的时间定标处理，其中，确定该偏移的步骤包括：

搜索一左缓冲器以识别与该左帧最匹配的块，一左偏移识别该块在该左缓冲器内的位置；

搜索一右缓冲器以识别与该右帧最匹配的块，一右偏移识别该块在该右缓冲器内的位置；及

从该左、右偏移导出该偏移。

16.如权利要求12所述的时间定标处理，其中，确定该偏移的步骤包括：

对于一系列候选偏移中的每个偏移，确定在左、右帧之间的累计差以及该候选偏移在左、右各缓冲器中所识别的各个块；及

选择提供具有最小值累计差的候选偏移作为偏移。

17.如权利要求12所述的方法，其中，确定偏移的步骤包括从一增大音频数据结构中提取该偏移，该增大音频数据结构包括左帧和右帧、以及用于该对左、右帧的一组与左和右帧对应的预定偏移和一组时间标度。

18.如权利要求12所述的方法，其中，确定该偏移的步骤包括：

访问一增加的音频数据结构，该增大音频数据结构包括左帧和右帧、以及用于该对左、右帧的一组与左和右帧对应的预定偏移和一组时间标度。

19.如权利要求12所述的方法，其中，所有区间都具有相同的持续时间。

20.如权利要求12所述的方法，其中，确定偏移的步骤包括：

根据成对的左、右帧确定一平均帧；

搜索与该平均帧最匹配的一个最匹配块；及

选择用于识别为该平均帧发现的最匹配块的值以用于该偏移。

21.如权利要求20所述的方法，其中，搜索最匹配块的步骤包括搜索一个缓冲器，该缓冲器包含通过平均左信道时间定标中使用的对应取样和右信道时间定标中使用的对应取样而发现的取样。