CN101620856B

CN101620856B - 对输入信号值序列进行时间缩放的方法和设备

Info

Publication number: CN101620856B
Application number: CN2009101425370A
Authority: CN
Inventors: 马库斯·施洛瑟
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS; International Digital Madison Patent Holding SAS
Priority date: 2008-07-03
Filing date: 2009-06-29
Publication date: 2013-07-17
Anticipated expiration: 2029-06-29
Also published as: EP2141696A1; KR20100004876A; TWI466109B; US8676584B2; JP5606694B2; CN101620856A; ATE528753T1; JP2010015152A; BRPI0902006A2; EP2141697B1; US20100004937A1; EP2141697A1; KR101582358B1; TW201017649A; BRPI0902006B1

Abstract

本发明涉及一种数字信号处理技术，用于改变音频信号的长度并从而有效改变其播放速度。该技术用于帧率转换、声音效果、快进或慢动作。根据所述方法，对波形相似度叠加方法进行修改，以确定子序列对的相似度度量中的最大化相似度，每个所述子序列对包括来自输入窗(SW)的待匹配子序列(B1，..，B^*，..Bn)和来自搜索窗(MW)的匹配子序列(C1，..C^*，..Ck)，其中，所述子序列对包括至少两个子序列对，所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。所述输入窗允许找到具有比使用基于单一待匹配子序列的WSOLA方法所找到的相似度更高的子序列对。这产生了较少的可感知伪像。

Description

对输入信号值序列进行时间缩放的方法和设备

技术领域

本发明涉及一种数字信号处理技术，该技术改变音频信号的长度并从而有效改变其播放速度。在专业市场中，该技术用于电影工业中的帧率转换或音乐制作中的声音效果。此外，消费电子设备，例如mp3播放器、录音机或应答机利用时间缩放来进行快进或慢动作音频播放。

背景技术

在Dorran等人的“A Comparison of Time-Domain Time-Scale Modification Algorithms，”AES 2006中，可以找到用于对音频信号进行时间缩放的以下应用列表：

-用于数字图书馆和远程学习的语音材料的快速浏览

-音乐和外语学习/教学

-电话应答机和录音电话机的快/慢回放

-视频-电影标准转换

-对音频加水印

-针对盲人的加速听觉阅读

-音乐合成

-音频-视频同步

-音频数据压缩

-心脏紊乱诊断

-针对无线电/电视产业中分配的时隙来编辑音频/视觉记录

-声音性别转换

-文本至语音的合成

-唇形同步和配音

-韵律移植和卡拉OK

实现这种用于音频信号长度改变的数字信号处理技术的一种方式是所谓的波形相似度叠加(WSOLA)方法。WSOLA能够产生高质量的时间缩放的输出信号。由固定长度(典型地约为20ms)的块来构造WSOLA输出信号。这些块重叠50％，以保证固定的交叉渐变长度。追加至输出信号的下一块是如下的块：首先该块与将正常跟随当前块的块最相似，其次该块位于理想位置(由缩放因子确定)周围的搜索窗内。因此，与理想位置的偏差典型地限制在小于5ms，从而产生10ms大小的搜索窗。

Demol等人在“Efficient Non-Uniform Time-Scaling of Speech with WSOLA，”Speech and Computers(SPECOM)，2005中描述：也可以通过改变缩放因子来将WSOLA扩展为将处理后的信号的变化特性列入考虑之中。

发明内容

本发明的目的是通过提出一种使用修改的波形相似度叠加方法来对输入信号值序列进行时间缩放的方法，以及一种使用修改的波形相似度叠加方法来对输入信号值序列进行时间缩放的设备，来增强WSOLA方法。

根据所述方法，对波形相似度叠加方法进行修改，以确定子序列对的相似度度量中的最大化相似度，每个所述子序列对包括来自输入窗的待匹配子序列和来自搜索窗的匹配子序列，其中，所述子序列对包括至少两个子序列对，所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。

所述输入窗允许找到具有比使用基于单一待匹配子序列的WSOLA方法所找到的相似度更高的子序列对。这产生了较少的可感知伪像。

在实施例中，所述第一对包括第一匹配子序列，所述第二对包括不同的第二匹配子序列。

在另一实施例中，所述第一对和所述第二对包括相同的匹配子序列。

有利地，对所述波形相似度叠加方法的修改包括：拷贝子序列，直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差，所述累计时间偏差依赖于所拷贝的子序列的累计持续时间和期望的时间缩放因子。

这减小了接合点(splice point)的数目，从而减小了时间缩放的可听性。

每个子序列对的相似度度量可以包括加权，所述加权考虑所述对中的子序列之间的时间距离。

考虑时间距离能够使WSOLA方法偏向优选的时间距离。

例如，在实施例中，对相似度进行加权，使其偏向较大的时间距离。这允许追加更长的子序列，继而使得所需接合点更少。

在所述方法的又一实施例中，对相似度进行加权，使其偏向与期望的时间缩放因子相对应的时间距离。

然后，即使时间缩放后的序列的一部分也很好地反映了时间缩放因子。

在又一实施例中，确定所述输入窗，使其包括至少一个暂停信号段。

已知对于信号暂停而言接合在计算上较为简单。

在另一实施例中，确定所述输入窗，使其不包括任何瞬变信号段。

已知对于瞬变信号段而言接合在计算上较为困难。

附图说明

在附图中示意并在以下描述中更详细说明了本发明的示例实施例。

在附图中：

图1示出了示例性原始采样序列和示例性的时间缩放的采样序列，以及

图2示出了示例性加权函数。

具体实施方式

本发明的示例实施例按照两个阶段过程来实现根据时间缩放因子α的时间缩放。在这两个阶段之一中，简单地将原始采样序列ORIG中的采样拷贝至时间缩放的采样序列SCLD。

令时间缩放差等于1-α的绝对值。然后，每个拷贝的采样的持续时间与理想的时间缩放的采样的持续时间的偏差为一个原始采样D_OS的持续时间乘以时间缩放差。因此，对L个采样进行拷贝产生的累计时间偏差为：

Δ_L＝L·D_OS·|α-1|+Δ₀

其中Δ₀是初始时间偏差，该偏差可以为0，或者在确定累计时间偏差时可以忽略该偏差。

所拷贝的最小采样数目应使累计时间偏差超过偏差下阈值Δ_min。所拷贝的最大采样数目应使累计时间偏差不超过偏差上阈值Δ_max。

偏差下阈值Δ_min确保了时间缩放的采样序列中的接合点之间的最小距离。随着音频信号的能量趋向于集中在低频范围内使得自相似度函数在0附近具有宽峰，接合点之间的最小跳距离将成为问题。如果Δ_min远小于该峰值，则模板匹配可能判定搜索窗的边界在行中多次最接近理想点(直到Δ_min的和超过自相似度函数的上述峰值的宽度)。在这种情况下，输出信号将包含许多小信号段的拼接。该最小距离与两个拷贝的块之间的交叉渐变长度相对应，即在时间缩放的信号中为N个采样。理想地，使用N/α个采样来形成时间缩放的信号中的这N个采样。这产生了原始信号中的偏差下阈值Δ_min：

Δ_{\min} = N \cdot \frac{| 1 - α |}{α} D_{OS} .

此外，可以确定偏差下阈值Δ_min，使其至少达到下界LB：

Δ_{\min} = \max (LB, N \cdot \frac{| 1 - α |}{α} D_{OS})

使用LB＝2ms可以实现很好的结果。尤其是如果α较小，则下界LB有助于防止引入伪像。

偏差上阈值Δ_max确保了时间缩放的采样序列中的接合点之间的最大距离。该最大距离限制了累计时间偏差Δ_L并从而限制了输入信号中省略或重复的连续子序列的长度。继而也限制了由于重复或省略而导致的伪像的可听性。

在拷贝操作导致满足或刚刚超过偏差上阈值Δ_max时，处理进入第二阶段。在第二阶段中，执行修改的WSOLA。对于原始采样序列SCLD中接下来将要拷贝的N个采样组成的模板子序列，在原始采样序列ORIG中执行模板匹配来在搜索窗MW内找到候选子序列C1，...，C*，...，Ck中最适合用于进行接合的候选子序列C*。模板匹配是基于相似度度量(如相关、均方差或平均绝对差)，使用权值W来对该相似度度量进行加权，权值W依赖于候选子序列的时间位置与原始采样序列中模板的位置之间的时间差Δ_t。

权值W还可以依赖于候选子序列C1，...，C*，...，Ck的理想时间偏移ITS，所述理想时间偏移ITS是由原始采样序列ORIG中的候选子序列的时间位置以及时间缩放因子来确定的。

图2中示意性示出了示例加权函数WF1、WF2、WF3。

加权函数可以是线性函数WF1、WF2，使得最佳匹配偏向将产生较大初始时间偏差(延迟或预先呈现)并从而产生被追加在后时较大的信号段的那些候选。

加权函数可以是钟形函数WF3，使得最佳匹配偏向将产生被追加在后时与理想时间偏移ITS最佳对应的初始时间偏差的那些候选。

如果对包括同步的音频和视频信号在内的电影进行时间缩放，则可以使用另一加权函数。人类感知系统适应于对事件的视觉印象的感知早于所述事件的相应可听印象的情形。例如，如果某人从远方呼喊，则该事件的视觉印象以光速传播至观察者，而喊声仅以音速传播。因此，观察者可能忽略音频信号相对于视频信号的小延迟。但是，大到使音频信号不再与视频信号相匹配的音频信号延迟是一种恼人的伪像。同样恼人的是视频信号相对于音频信号的任何延迟。

因此，依赖于针对视频信号而实现的时间缩放、使得确保时间缩放的音频信号不超前于时间缩放的视频信号同时又不延迟过多的加权函数是有益的。例如，钟形函数WF3的中心可以位于确保时间缩放的音频信号相对于时间缩放的视频信号具有小而不过大的延迟的偏移位置。

还可以针对包括最后拷贝至时间缩放的序列SCLD的采样紧接之前的N个最后拷贝的采样在内的子序列来执行模板匹配。将倒数第二个子序列与其最佳匹配模板之间的相似度与最后子序列与最后子序列的最佳匹配模板之间的相似度进行比较，其中可以对这些相似度进行加权也可以不进行加权。将与较大的加权相似度相关联的子序列与时间缩放的采样序列中其最佳匹配模板进行接合或交叉渐变。类似地，可以考虑包括从倒数第n个子序列至最后子序列的所有子序列B1，...，B*，...，Bn在内的子序列集合以最大化加权的相似度。

因此，不仅针对单一潜在接合点，而是针对优选地密集位于输入窗SW中的潜在接合点的整个集合来最大化相似度度量。结果是二维相似度函数。

但是，用于计算所述二维相似度函数的额外计算工作仍然有限。

对于N个采样的模板长度和K个采样的搜索窗宽度，一维相似度函数需要进行N*K次乘法或绝对/平方差值等计算。然后，通过将N个产生的值求和来确定K个相似度值。

如果α接近于1，则可以对输入窗中的所有模板使用共同的搜索窗。

然而，具有宽度L的输入窗的二维相似度函数需要(N+L)*K个值的计算，并将这些值求和以得到L*K个相似度值。因此，二维搜索的额外计算工作随搜索窗的大小呈线性增长。

在一维框架内，必须确定K个不同相似度，而二维框架需要计算L*K个不同相似度。但是在二维框架中，可以以迭代方式来确定一些相似度。

这就是说，确定第一模板与第一候选的第一相似度值的第一和值与确定第二模板与第二候选的第二相似度值的第二和值的差别仅在于一个被加数。其中，第二模板和第二候选分别相对于第一模板和第一候选偏移一个采样。

根据所述L*K个不同相似度，必须从头开始确定的仅有K+L个相似度，其余(K-1)*(L-1)个相似度可以迭代方式确定。

如果α远大于或远小于1，则使用一组交叉搜索窗，对来自输入窗的每个模板使用一个搜索窗。这些搜索窗中的每一个的中心位于与使用对应模板的理想时间偏移相对应的时间点。

可以确定输入窗SW，使其包括至少一个暂停信号段和/或至少一个准周期性信号段。已知这种信号段提供很好的接合点，而瞬变信号段不那么适于接合或交叉渐变。此外或可选地，对相似度度量的加权可以被适配为使其进一步或完全依赖于子序列B1，...，B*，...，Bn中的信号特性，其中待接合的段中的暂停和/或准周期性导致权值增大，而瞬变信号特性导致权值减小。

使用包括来自输入窗SW的被最佳匹配的子序列B*和来自搜索窗MW的最佳匹配候选子序列C*(其相似度最大)在内的子序列用来产生时间缩放的信号SCLD的交叉渐变区CF的采样。

交叉渐变区中的采样数可以与这些子序列之一中的采样数相对应，使得这些子序列中的所有采样都用于交叉渐变。或者，交叉渐变区中的采样数较少，即仅使用这些子序列中的一些采样。例如，子序列长度与块长度或2*N个采样相对应，而交叉渐变区长度与半块的长度或N个采样相对应。使用比交叉渐变区更长的子序列可能有利于通过将接合点偏向音素(phoneme)的中心来进一步减小接合点的可听性。

提供了根据时间缩放因子来对信号值序列进行时间缩放的方法的示例实施例，其中，所述方法包括以下步骤：使用WSOLA方法对在前的子序列进行时间缩放；以及使用内插方法来对连续子序列进行时间缩放。

在另一示例实施例中，所述方法包括以下步骤：(a)形成包括待匹配子序列B1、B*、Bn和匹配子序列C1、C*、Ck在内的子序列对；(b)对于每一对，确定对中包括的子序列之间的相似度；(c)确定优选对B*、C*，所述优选对具有最大相似度；(d)在时间缩放的序列SCLD中，对优选匹配子序列与所述优选被匹配子序列进行交叉渐变；(e)借助于优选匹配子序列来确定待拷贝的子序列的长度；(f)将该子序列拷贝至时间缩放的序列SCLD并返回步骤(a)，其中，待拷贝的子序列的长度依赖于阈值。

优选地，步骤(b)包括：根据所述阈值依赖于对中的待匹配子序列与匹配子序列之间的时间距离来确定阈值。

在又一实施例中，步骤(e)包括：使用时间因子以及优选匹配子序列与优选被匹配子序列之间的时间距离来确定待拷贝的子序列的长度。

Claims

1.一种基于波形相似度叠加方法对原始采样序列进行时间缩放的方法，所述方法采用将紧接在所述原始采样序列的当前子序列之后的子序列的采样拷贝至所述原始采样序列的时间缩放版本，所述时间缩放版本称为时间缩放采样序列，所述方法包括：

向所述时间缩放采样序列的当前子序列追加所述原始采样序列的子序列的拷贝，所拷贝的子序列紧接在所述原始采样序列的对应当前子序列之后；

其中，如果所述原始采样序列的连续子序列的采样至所述时间缩放采样序列的拷贝会超过所述时间缩放采样序列中的偏差阈值，则不追加所述原始采样序列的采样的紧接在后的所述子序列的拷贝，而使用所述原始采样序列的采样的在前子序列来进行所述拷贝，

所述在前子序列与所述原始采样序列的采样的紧接在后的所述子序列最相似，并位于所述原始采样序列的搜索窗内，所述搜索窗位于由所述时间缩放采样序列的缩放因子确定的位置周围，

并且其中对所述在前子序列的相似度度量加权，使其偏向与所述原始采样序列的采样的所述当前子序列的较大时间距离。

2.如权利要求1所述的方法，包括：

确定采样子序列对的相似度度量中的最大化相似度，每个所述采样子序列对包括来自所述原始采样序列中的输入窗的待匹配采样子序列和来自所述原始采样序列中的搜索窗的匹配采样子序列，

其中所述采样子序列对包括至少两个采样子序列对，所述至少两个采样子序列对中的第一采样子序列对包括第一待匹配采样子序列而第二采样子序列对包括与第一待匹配采样子序列不同的第二待匹配采样子序列，

并且其中所述第一采样子序列对包括第一匹配采样子序列，所述第二采样子序列对包括与第一匹配采样子序列不同的第二匹配采样子序列。

3.如权利要求1或2所述的方法，还包括：

拷贝来自所述原始采样序列的采样子序列，直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差，所述累计时间偏差依赖于所拷贝的采样子序列的累计持续时间和期望的时间缩放因子。

4.如权利要求2所述的方法，其中，每个采样子序列对的所述相似度度量的所述加权考虑该对中的采样子序列之间的时间距离。

5.如权利要求2所述的方法，其中所述输入窗被确定为包括至少一个暂停信号段。

6.如权利要求2所述的方法，其中所述输入窗被确定为不包括任何瞬变信号段。

7.一种基于波形相似度叠加方法对对原始采样序列进行时间缩放的设备，所述设备采用将紧接在所述原始采样序列的当前子序列之后的子序列的采样拷贝至所述原始采样序列的时间缩放版本，所述时间缩放版本称为时间缩放采样序列，所述设备包括：

用于向所述时间缩放采样序列的当前子序列追加所述原始采样序列的子序列的拷贝的装置，所拷贝的子序列紧接在所述原始采样序列的对应当前子序列之后；

8.如权利要求7所述的设备，包括：

用于确定采样子序列对的相似度度量中的最大化相似度的装置，每个所述采样子序列对包括来自所述原始采样序列中的输入窗的待匹配采样子序列和来自所述原始采样序列中的搜索窗的匹配采样子序列，

9.如权利要求7或8所述的设备，还包括：用于拷贝来自所述原始采样序列的采样子序列直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差的装置，所述累计时间偏差依赖于所拷贝的采样子序列的累计持续时间和期望的时间缩放因子。

10.如权利要求8所述的设备，其中每个采样子序列对的所述相似度度量的所述加权考虑该对中的采样子序列之间的时间距离。

11.如权利要求8所述的设备，其中所述输入窗被确定为包括至少一个暂停信号段。

12.如权利要求8所述的设备，其中所述输入窗被确定为不包括任何瞬变信号段。