CN1244901C

CN1244901C - 用于时序转换的非线性重叠方法

Info

Publication number: CN1244901C
Application number: CN 03127827
Authority: CN
Inventors: 吴俊德
Original assignee: Ali Corp
Current assignee: Ali Corp
Priority date: 2003-08-11
Filing date: 2003-08-11
Publication date: 2006-03-08
Anticipated expiration: 2023-08-11
Also published as: CN1581292A

Abstract

本发明是提供一种用来将S₁[n]及S₂[n]合成为S₃[n]的非线性重叠的时序转换方法，其中S₁[n]包含N₁个信号，而S₂[n]包含N₂个信号，该方法含下列步骤：(a)将S₂[n]延迟一预定数目以形成S₅[n]，(b)建立S₁[n]及S₅[n]的相关表，以及(c)将S₃[n]设定成：S₁[n]，当0＜＝n＜(该预定数目+该相关表中的最大相关值所对应的最大索引值+第一临界值)时；S₁[n]加权合成S₄[n]，当(该预定数目+该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时；S₄[n-(该预定数目+该最大索引值)]，当(N₁-该第二临界值)＜＝n＜＝N₂+该预定数目+该最大索引值；其中该第一、第二临界值不同时为零，而S₄[n]是S₅[n]延迟该最大索引值。

Description

用于时序转换的非线性重叠方法

技术领域

本发明涉及提供一种信号合成方法，尤其涉及一种应用于时序转换(timescaling)的非线性重叠(nonlinear overlap)方法。

背景技术

随着科技的进步，一些如卡拉OK之类的影音播放装置所能提供的功能也越来越多，例如像是音效净化(audio clean-up)、梦幻音场(dream)、及时序转换(time scaling)等功能。所谓的时序转换(又称为time stretching、time compression/expansion或time correction)是在不影响声调(pitch)的情况下，改变音频信号的长度，亦即改变该音频信号的播放速率(tempo)。

目前，市面上的影音装置大都是透过以下的三种方法以完成时序转换，一为Phase Vocoder、一为MPEX(Minimum Perceived Loss TimeExpansion/Compression)、而另一则为Time Doma in Harmonic Scaling(TDHS)。Phase vocoder是先利用STFT(Short Time Fourier Transform)的方式将一音频信号转换成一傅立叶型式的频域信号(complex Fourierrepresentation)，再利用内差及iSTFT(inverse)的方式将该频域信号转换成一对应于该音频信号的时序转换过(time scaled)的音频信号。MPEX是近来由Prosoniq所研发出来的，MPEX是一种模拟人类听觉特性的方法，类似于人工神经网络(artificial neural network)。MPEX是依据特定时序内所收录的音频信号，并进而“学习”该特定时段内的音频信号的各种特性，以试图延长或缩短该音频信号。而TDHS则为一种较普遍的时序转换的方法，其是先计算第一音频信号的相关表(autocorrelogram)中的每一相关值(magnitudes of a autocorrelation function)，接着依据该相关表中的最大相关值所对应的最大索引值延迟该第一音频信号以产生第二音频信号，然后再将该第一音频信号以重叠加成(synchronized overlap-add，SOLA)的方式复制于该第二音频信号上，以产生较第一音频信号长的第三音频信号。

一般而言，上述的相关表是透过数位信号处理器(DSP)来建立，而DSP是专门作为处理如回旋计算(convolution)、快速傅立叶转换(fast Fouriertransform，FFT)等复杂的数学运算之用。虽然如此，DSP将该第一音频信号中所有重叠于该第二音频信号的部分皆重叠合成于该第二音频信号以形成该第三音频信号的过程不仅冗长，而且就某种程度而言也没有必要。

发明内容

因此本发明的主要目的在于提供一种用于时序转换的非线性重叠方法，该方法在快速地将该第一音频信号及该第二音频信号合成于该第三音频信号的同时，又不至于显著地影响该第三音频信号的品质。

根据本发明，本发明是揭露一种用来将S₁[n]及S₂[n]合成为S₃[n]的非线性重叠的时序转换方法，其中S₁[n]包含N₁个信号，而S₂[n]包含N₂个信号，该方法包含下列步骤：(a)将S₂[n]延迟一预定数目以形成S₅[n]，(b)建立S₁[n]及S₅[n]的相关表，以及(c)将S₃[n]设定成：

S₁[n]，当0＜＝n＜(该预定数目+该相关表中的最大相关值所对应的最大索引值+第一临界值)时；

S₁[n]加权合成于S₄[n]，当(该预定数目+该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时；

S₄[n-(该预定数目+该最大索引值)]，当(N₁-该第二临界值)＜＝n＜＝N₂+该预定数目+该最大索引值；

其中该第一、第二临界值不同时为零，而S₄[n]是S₅[n]延迟该最大索引值。

本发明的方法是仅将该第一音频信号中重叠于该第二音频信号的部分中的一部分加权合成于该第二音频信号以产生该第三音频信号，因此，可增加用来处理时序转换的DSP所在的电脑的运作效能。

附图说明

图1为本发明方法的流程图。

图2为本发明方法将S₁[n]及S₂[n]合成为S₃[n]的示意图。

图3为本发明方法增长音频信号的示意图。

图4为本发明方法缩短音频信号的示意图。

图式的符号说明

Δ 预定数目 τ_max 最大索引值

th₁ 第一临界值 th₂ 第二临界值

具体实施方式

在建立对应于第一音频信号及第二音频信号(或延迟于该第二音频信号的音频信号)的相关表后，本发明的较佳实施例中的方法100是依据该相关表中的最大相关值所对应的最大索引值、第一临界值、第二临界值和该第一音频信号及该第二音频信号来计算第三音频信号。具体地讲，为了节省用以合成该第一音频信号及该第二音频信号以产生该第三音频信号的DSP的计算时间，方法100在计算出该最大索引值并将该第二音频信号延迟该最大索引值后，并非将该第一音频信号中所有重叠于该第二音频信号的部分皆加权合成于该第二音频信号，反而是仅将该第一音频信号中重叠于该第二音频信号的部分中的一部分(亦即该重叠部分中位于该第一临界值及该第二临界值间的重叠部分)加权合成于该第二音频信号以产生该第三音频信号。

请参阅图1，图1为本发明的较佳实施例中方法100的流程图。方法100包含下列步骤：

步骤102：开始；

(S₁[n]及S₂[n]将被合成为S₃[n]，假设S₁[n]及S₂[n]分别包含N₁及N₂个信号)

步骤104：将S₂[n]延迟一预定数目Δ以形成S₅[n]；

(为了避免影音播放装置内的光学读取头(pickuphead)在读取S₃[n]时发生读取数据不足(run-in)的现象，所以本发明的方法100是先将S₂[n]延迟预定数目Δ后，才计算合成S₁[n]及S₅[n]所需的最大索引值τ_max。在本发明的优选实施例中，预定数目Δ是等于[N₁/3])

步骤106：建立S₁[n]及S₅[n]的相关表(crosscorrelogram)并依据该相关表中的最大相关值所对应的最大索引值τ_max延迟S₅[n]以形成S₄[n]；

(该相关表中包含多个相关值(magnitudes of a crosscorrelationfunction)，每一相关值皆对应一索引值)

步骤108：将S₁[n]及S₄[n]合成于S₃[n]；

(S₃[n]是被设定成：

S₁[n]，当0＜＝n＜(预定数目Δ+最大索引值τ_max+第一临界值th₁)时；

S₁[n]加权合成于S₄[n]，当(预定数目Δ+最大索引值τ_max+第一临界值th₁)＜＝n＜(N₁-第二临界值th₂)时；

S₄[n-(预定数目Δ+最大索引值τ_max)]，当(N₁-第二临界值th₂)＜＝n＜＝N₂+预定数目Δ+最大索引值τ_max

其中第一临界值th₁及第二临界值th₂不同时为零)

步骤110：结束。

请参阅图2，图2为本发明的优选实施例中的S₁[n]及S₂[n]合成为S₃[n]的示意图。图4中的第一部分401是显示方法100的步骤102中的S₁[n]及S₂[n]、第二部分402是显示方法100的步骤104中的S₁[n]及S₅[n]、第三部分403是显示方法100的步骤106中所计算出的τ_max及S₄[n]、而第四部分404及第五部分405则显示方法100的步骤108中由S₁[n]及S₄[n]所合成的S₃[n]。

在图2的第四部分404中所显示的S₃[n]在(预定数目Δ+最大索引值τ_max+第一临界值th₁)＜＝n＜(N₁-第二临界值th₂)时是等于：

\frac{(N_{1} - {th}_{2} - n)}{(N_{1} - (Δ + τ_{\max} + {th}_{1} + {th}_{2}))} * S_{1} [n] + \frac{n - (Δ + {th}_{1} + τ_{\max})}{(N_{1} - (Δ + τ_{\max} + {th}_{1} + {th}_{2}))} * S_{4} [n - (Δ + τ_{\max})]

而图2的第五部分405中所显示的S₃[n]在(预定数目Δ+最大索引值τ_max+第一临界值th₁)＜＝n＜(N₁-第二临界值th₂)时是等于：

\frac{(N_{1} - n)}{(N_{1} - (Δ + τ_{\max}))} * S_{1} [n] + \frac{n - (Δ + τ_{\max})}{(N_{1} - (Δ + τ_{\max}))} * S_{4} [n - (Δ + τ_{\max})]

上述的S₁[n]若全等于S₂[n]，亦即S₁[n]与S₂[n]皆是分离自S[n]的同一位置，如图3所示，则方法100是增长S₁[n]。相反地，S₁[n]及S₂[n]若不相等，亦即S₁[n]与S₂[n]皆是分离自S[n]的不同位置，如图4所示，则方法100是将S₁[n]、S₆[n](被舍弃)、及S₂[n]缩短为S₃[n]。

与已知的TDHS相比较，本发明的方法是依据相关表中的最大相关值所对应的最大索引值及两个用来缩减S₁[n]及S₂[n]的重叠部分的第一及第二临界值来计算合成于S₁[n]及S₂[n]的S₃[n]。由于本发明在计算出该最大索引值后，不需一一计算S₁[n]重叠于S₂[n]的全部数值，亦即仅需计算S₃[n]中介于该第一及第二临界值间的部分数值，因此可节省用来依据S₁[n]及S₂[n]以合成S₃[n]的DSP计算S₃[n]所需花费的时间，连带地，也增加该DSP所在的电脑的运作效能。

以上所述仅为本发明的优选实施例，凡依本发明权利要求所做的均等变化与修改，皆应属本发明专利的涵盖范围。

Claims

1.一种用于时序转换的非线性重叠方法，用来将S₁[n]及S₂[n]合成为S₃[n]，S₁[n]包含N₁个信号，而S₂[n]包含N₂个信号，该方法包含下列步骤：

(a)将S₂[n]延迟一预定数目以形成S₅[n]；

(b)建立S₁[n]及S₅[n]的相关表，该相关表中包含多个相关值，每一相关值皆对应一索引值；以及

(c)依据该相关表中的最大相关值所对应的最大索引值，将S₃[n]设定成：

S₁[n]，当0＜＝n＜(该预定数目+该最大索引值+第一临界值)时；

S₁[n]加权合成于S₄[n]，当(该预定数目+该最大索引值+该第一临界值)＜＝(N₁-第二临界值)时；

2.如权利要求1所述的方法，其中当(该预定数目+该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时，S₃[n]是等于(N₁-该第二临界值-n)/(N₁-(该预定数目+该最大索引值+该第一临界值+该第二临界值))*S₁[n]+(n-(该预定数目+该最大索引值+该第一临界值))/(N₁-(该预定数目+该最大索引值+该第一临界值+该第二临界值))*S₄[n-(该预定数目+该最大索引值)]。

3.如权利要求1所述的方法，其中当(该预定数目+该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时，S₃[n]是等于(N₁-n)/(N₁-(该预定数目+该最大索引值))*S₁[n]+(n-(该预定数目+该最大索引值))/(N₁-(该预定数目+该最大索引值))*S₄[n-(该预定数目+该最大索引值)]。

4.如权利要求1所述的方法，其中S₁[n]及S₂[n]是分别取样自S₁(t)及S₂(t)。

5.如权利要求4所述的方法，其中S₁(t)及S₂(t)是分离自一原始信号。

6.如权利要求5所述的方法，其中该原始信号是一音频信号。

7.如权利要求5所述的方法，其中该原始信号是一视频信号。

8.如权利要求4所述的方法，其中S₁(t)是等于S₂(t)。

9.如权利要求4所述的方法，其中S₁(t)是不等于S₂(t)。

10.如权利要求1所述的方法，其中该预定数目是等于[N₁/3]。

11.一种用于时序转换的非线性重叠方法，用来将S₁[n]及S₂[n]合成为S₃[n]，S₁[n]包含N₁个信号，而S₂[n]包含N₂个信号，该方法包含下列步骤：

(a)建立S₁[n]及S₂[n]的相关表，该相关表中包含多个相关值，每一相关值皆对应一索引值；以及

(b)依据该相关表中的最大相关值所对应的最大索引值，将S₃[n]设定成：

S₁[n]，当0＜＝n＜(该最大索引值+第一临界值)时；

S₁[n]加权合成于S₄[n]，当(该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时；

S₄[n-该最大索引值]]，当(N₁-该第二临界值)＜＝n＜＝(N₂+该最大索引值)；

其中该第一、第二临界值不同时为零，而S₄[n]是S₂[n]延迟该最大索引值。

12.如权利要求11所述的方法，其中当(该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时，S₃[n]是等于(N₁-该第二临界值-n)/(N₁-(该最大索引值+该第一临界值+该第二临界值))*S₁[n]+(n-(该最大索引值+该第一临界值))/(N₁-(该最大索引值+该第一临界值+该第二临界值))*S₄[n-(该最大索引值)]。

13.如权利要求11所述的方法，其中当(该预定数目+该最大索引值+该第一临界值)＜＝n＜(N₁-第二临界值)时，S₃[n]是等于(N₁-n)/(N₁-(该预定数目+该最大索引值))*S₁[n]+(n-(该预定数目+该最大索引值))/(N₁-(该预定数目+该最大索引值))*S₄[n-(该预定数目+该最大索引值)]。

14.如权利要求11所述的方法，其中S₁[n]及S₂[n]是分别取样自S₁(t)及S₂(t)。

15.如权利要求14所述的方法，其中S₁(t)及S₂(t)是分离自一原始信号。

16.如权利要求15所述的方法，其中该原始信号是一音频信号。

17.如权利要求15所述的方法，其中该原始信号是一视频信号。

18.如权利要求14所述的方法，其中S₁(t)是等于S₂(t)。

19.如权利要求14所述的方法，其中S₁(t)是不等于S₂(t)。