CN1244901C - 用于时序转换的非线性重叠方法 - Google Patents
用于时序转换的非线性重叠方法 Download PDFInfo
- Publication number
- CN1244901C CN1244901C CN 03127827 CN03127827A CN1244901C CN 1244901 C CN1244901 C CN 1244901C CN 03127827 CN03127827 CN 03127827 CN 03127827 A CN03127827 A CN 03127827A CN 1244901 C CN1244901 C CN 1244901C
- Authority
- CN
- China
- Prior art keywords
- value
- maximum index
- index value
- critical value
- predetermined number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
本发明是提供一种用来将S1[n]及S2[n]合成为S3[n]的非线性重叠的时序转换方法,其中S1[n]包含N1个信号,而S2[n]包含N2个信号,该方法含下列步骤:(a)将S2[n]延迟一预定数目以形成S5[n],(b)建立S1[n]及S5[n]的相关表,以及(c)将S3[n]设定成:S1[n],当0<=n<(该预定数目+该相关表中的最大相关值所对应的最大索引值+第一临界值)时;S1[n]加权合成S4[n],当(该预定数目+该最大索引值+该第一临界值)<=n<(N1-第二临界值)时;S4[n-(该预定数目+该最大索引值)],当(N1-该第二临界值)<=n<=N2+该预定数目+该最大索引值;其中该第一、第二临界值不同时为零,而S4[n]是S5[n]延迟该最大索引值。
Description
技术领域
本发明涉及提供一种信号合成方法,尤其涉及一种应用于时序转换(timescaling)的非线性重叠(nonlinear overlap)方法。
背景技术
随着科技的进步,一些如卡拉OK之类的影音播放装置所能提供的功能也越来越多,例如像是音效净化(audio clean-up)、梦幻音场(dream)、及时序转换(time scaling)等功能。所谓的时序转换(又称为time stretching、time compression/expansion或time correction)是在不影响声调(pitch)的情况下,改变音频信号的长度,亦即改变该音频信号的播放速率(tempo)。
目前,市面上的影音装置大都是透过以下的三种方法以完成时序转换,一为Phase Vocoder、一为MPEX(Minimum Perceived Loss TimeExpansion/Compression)、而另一则为Time Doma in Harmonic Scaling(TDHS)。Phase vocoder是先利用STFT(Short Time Fourier Transform)的方式将一音频信号转换成一傅立叶型式的频域信号(complex Fourierrepresentation),再利用内差及iSTFT(inverse)的方式将该频域信号转换成一对应于该音频信号的时序转换过(time scaled)的音频信号。MPEX是近来由Prosoniq所研发出来的,MPEX是一种模拟人类听觉特性的方法,类似于人工神经网络(artificial neural network)。MPEX是依据特定时序内所收录的音频信号,并进而“学习”该特定时段内的音频信号的各种特性,以试图延长或缩短该音频信号。而TDHS则为一种较普遍的时序转换的方法,其是先计算第一音频信号的相关表(autocorrelogram)中的每一相关值(magnitudes of a autocorrelation function),接着依据该相关表中的最大相关值所对应的最大索引值延迟该第一音频信号以产生第二音频信号,然后再将该第一音频信号以重叠加成(synchronized overlap-add,SOLA)的方式复制于该第二音频信号上,以产生较第一音频信号长的第三音频信号。
一般而言,上述的相关表是透过数位信号处理器(DSP)来建立,而DSP是专门作为处理如回旋计算(convolution)、快速傅立叶转换(fast Fouriertransform,FFT)等复杂的数学运算之用。虽然如此,DSP将该第一音频信号中所有重叠于该第二音频信号的部分皆重叠合成于该第二音频信号以形成该第三音频信号的过程不仅冗长,而且就某种程度而言也没有必要。
发明内容
因此本发明的主要目的在于提供一种用于时序转换的非线性重叠方法,该方法在快速地将该第一音频信号及该第二音频信号合成于该第三音频信号的同时,又不至于显著地影响该第三音频信号的品质。
根据本发明,本发明是揭露一种用来将S1[n]及S2[n]合成为S3[n]的非线性重叠的时序转换方法,其中S1[n]包含N1个信号,而S2[n]包含N2个信号,该方法包含下列步骤:(a)将S2[n]延迟一预定数目以形成S5[n],(b)建立S1[n]及S5[n]的相关表,以及(c)将S3[n]设定成:
S1[n],当0<=n<(该预定数目+该相关表中的最大相关值所对应的最大索引值+第一临界值)时;
S1[n]加权合成于S4[n],当(该预定数目+该最大索引值+该第一临界值)<=n<(N1-第二临界值)时;
S4[n-(该预定数目+该最大索引值)],当(N1-该第二临界值)<=n<=N2+该预定数目+该最大索引值;
其中该第一、第二临界值不同时为零,而S4[n]是S5[n]延迟该最大索引值。
本发明的方法是仅将该第一音频信号中重叠于该第二音频信号的部分中的一部分加权合成于该第二音频信号以产生该第三音频信号,因此,可增加用来处理时序转换的DSP所在的电脑的运作效能。
附图说明
图1为本发明方法的流程图。
图2为本发明方法将S1[n]及S2[n]合成为S3[n]的示意图。
图3为本发明方法增长音频信号的示意图。
图4为本发明方法缩短音频信号的示意图。
图式的符号说明
Δ 预定数目 τmax 最大索引值
th1 第一临界值 th2 第二临界值
具体实施方式
在建立对应于第一音频信号及第二音频信号(或延迟于该第二音频信号的音频信号)的相关表后,本发明的较佳实施例中的方法100是依据该相关表中的最大相关值所对应的最大索引值、第一临界值、第二临界值和该第一音频信号及该第二音频信号来计算第三音频信号。具体地讲,为了节省用以合成该第一音频信号及该第二音频信号以产生该第三音频信号的DSP的计算时间,方法100在计算出该最大索引值并将该第二音频信号延迟该最大索引值后,并非将该第一音频信号中所有重叠于该第二音频信号的部分皆加权合成于该第二音频信号,反而是仅将该第一音频信号中重叠于该第二音频信号的部分中的一部分(亦即该重叠部分中位于该第一临界值及该第二临界值间的重叠部分)加权合成于该第二音频信号以产生该第三音频信号。
请参阅图1,图1为本发明的较佳实施例中方法100的流程图。方法100包含下列步骤:
步骤102:开始;
(S1[n]及S2[n]将被合成为S3[n],假设S1[n]及S2[n]分别包含N1及N2个信号)
步骤104:将S2[n]延迟一预定数目Δ以形成S5[n];
(为了避免影音播放装置内的光学读取头(pickuphead)在读取S3[n]时发生读取数据不足(run-in)的现象,所以本发明的方法100是先将S2[n]延迟预定数目Δ后,才计算合成S1[n]及S5[n]所需的最大索引值τmax。在本发明的优选实施例中,预定数目Δ是等于[N1/3])
步骤106:建立S1[n]及S5[n]的相关表(crosscorrelogram)并依据该相关表中的最大相关值所对应的最大索引值τmax延迟S5[n]以形成S4[n];
(该相关表中包含多个相关值(magnitudes of a crosscorrelationfunction),每一相关值皆对应一索引值)
步骤108:将S1[n]及S4[n]合成于S3[n];
(S3[n]是被设定成:
S1[n],当0<=n<(预定数目Δ+最大索引值τmax+第一临界值th1)时;
S1[n]加权合成于S4[n],当(预定数目Δ+最大索引值τmax+第一临界值th1)<=n<(N1-第二临界值th2)时;
S4[n-(预定数目Δ+最大索引值τmax)],当(N1-第二临界值th2)<=n<=N2+预定数目Δ+最大索引值τmax
其中第一临界值th1及第二临界值th2不同时为零)
步骤110:结束。
请参阅图2,图2为本发明的优选实施例中的S1[n]及S2[n]合成为S3[n]的示意图。图4中的第一部分401是显示方法100的步骤102中的S1[n]及S2[n]、第二部分402是显示方法100的步骤104中的S1[n]及S5[n]、第三部分403是显示方法100的步骤106中所计算出的τmax及S4[n]、而第四部分404及第五部分405则显示方法100的步骤108中由S1[n]及S4[n]所合成的S3[n]。
在图2的第四部分404中所显示的S3[n]在(预定数目Δ+最大索引值τmax+第一临界值th1)<=n<(N1-第二临界值th2)时是等于:
而图2的第五部分405中所显示的S3[n]在(预定数目Δ+最大索引值τmax+第一临界值th1)<=n<(N1-第二临界值th2)时是等于:
上述的S1[n]若全等于S2[n],亦即S1[n]与S2[n]皆是分离自S[n]的同一位置,如图3所示,则方法100是增长S1[n]。相反地,S1[n]及S2[n]若不相等,亦即S1[n]与S2[n]皆是分离自S[n]的不同位置,如图4所示,则方法100是将S1[n]、S6[n](被舍弃)、及S2[n]缩短为S3[n]。
与已知的TDHS相比较,本发明的方法是依据相关表中的最大相关值所对应的最大索引值及两个用来缩减S1[n]及S2[n]的重叠部分的第一及第二临界值来计算合成于S1[n]及S2[n]的S3[n]。由于本发明在计算出该最大索引值后,不需一一计算S1[n]重叠于S2[n]的全部数值,亦即仅需计算S3[n]中介于该第一及第二临界值间的部分数值,因此可节省用来依据S1[n]及S2[n]以合成S3[n]的DSP计算S3[n]所需花费的时间,连带地,也增加该DSP所在的电脑的运作效能。
以上所述仅为本发明的优选实施例,凡依本发明权利要求所做的均等变化与修改,皆应属本发明专利的涵盖范围。
Claims (19)
1.一种用于时序转换的非线性重叠方法,用来将S1[n]及S2[n]合成为S3[n],S1[n]包含N1个信号,而S2[n]包含N2个信号,该方法包含下列步骤:
(a)将S2[n]延迟一预定数目以形成S5[n];
(b)建立S1[n]及S5[n]的相关表,该相关表中包含多个相关值,每一相关值皆对应一索引值;以及
(c)依据该相关表中的最大相关值所对应的最大索引值,将S3[n]设定成:
S1[n],当0<=n<(该预定数目+该最大索引值+第一临界值)时;
S1[n]加权合成于S4[n],当(该预定数目+该最大索引值+该第一临界值)<=(N1-第二临界值)时;
S4[n-(该预定数目+该最大索引值)],当(N1-该第二临界值)<=n<=N2+该预定数目+该最大索引值;
其中该第一、第二临界值不同时为零,而S4[n]是S5[n]延迟该最大索引值。
2.如权利要求1所述的方法,其中当(该预定数目+该最大索引值+该第一临界值)<=n<(N1-第二临界值)时,S3[n]是等于(N1-该第二临界值-n)/(N1-(该预定数目+该最大索引值+该第一临界值+该第二临界值))*S1[n]+(n-(该预定数目+该最大索引值+该第一临界值))/(N1-(该预定数目+该最大索引值+该第一临界值+该第二临界值))*S4[n-(该预定数目+该最大索引值)]。
3.如权利要求1所述的方法,其中当(该预定数目+该最大索引值+该第一临界值)<=n<(N1-第二临界值)时,S3[n]是等于(N1-n)/(N1-(该预定数目+该最大索引值))*S1[n]+(n-(该预定数目+该最大索引值))/(N1-(该预定数目+该最大索引值))*S4[n-(该预定数目+该最大索引值)]。
4.如权利要求1所述的方法,其中S1[n]及S2[n]是分别取样自S1(t)及S2(t)。
5.如权利要求4所述的方法,其中S1(t)及S2(t)是分离自一原始信号。
6.如权利要求5所述的方法,其中该原始信号是一音频信号。
7.如权利要求5所述的方法,其中该原始信号是一视频信号。
8.如权利要求4所述的方法,其中S1(t)是等于S2(t)。
9.如权利要求4所述的方法,其中S1(t)是不等于S2(t)。
10.如权利要求1所述的方法,其中该预定数目是等于[N1/3]。
11.一种用于时序转换的非线性重叠方法,用来将S1[n]及S2[n]合成为S3[n],S1[n]包含N1个信号,而S2[n]包含N2个信号,该方法包含下列步骤:
(a)建立S1[n]及S2[n]的相关表,该相关表中包含多个相关值,每一相关值皆对应一索引值;以及
(b)依据该相关表中的最大相关值所对应的最大索引值,将S3[n]设定成:
S1[n],当0<=n<(该最大索引值+第一临界值)时;
S1[n]加权合成于S4[n],当(该最大索引值+该第一临界值)<=n<(N1-第二临界值)时;
S4[n-该最大索引值]],当(N1-该第二临界值)<=n<=(N2+该最大索引值);
其中该第一、第二临界值不同时为零,而S4[n]是S2[n]延迟该最大索引值。
12.如权利要求11所述的方法,其中当(该最大索引值+该第一临界值)<=n<(N1-第二临界值)时,S3[n]是等于(N1-该第二临界值-n)/(N1-(该最大索引值+该第一临界值+该第二临界值))*S1[n]+(n-(该最大索引值+该第一临界值))/(N1-(该最大索引值+该第一临界值+该第二临界值))*S4[n-(该最大索引值)]。
13.如权利要求11所述的方法,其中当(该预定数目+该最大索引值+该第一临界值)<=n<(N1-第二临界值)时,S3[n]是等于(N1-n)/(N1-(该预定数目+该最大索引值))*S1[n]+(n-(该预定数目+该最大索引值))/(N1-(该预定数目+该最大索引值))*S4[n-(该预定数目+该最大索引值)]。
14.如权利要求11所述的方法,其中S1[n]及S2[n]是分别取样自S1(t)及S2(t)。
15.如权利要求14所述的方法,其中S1(t)及S2(t)是分离自一原始信号。
16.如权利要求15所述的方法,其中该原始信号是一音频信号。
17.如权利要求15所述的方法,其中该原始信号是一视频信号。
18.如权利要求14所述的方法,其中S1(t)是等于S2(t)。
19.如权利要求14所述的方法,其中S1(t)是不等于S2(t)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03127827 CN1244901C (zh) | 2003-08-11 | 2003-08-11 | 用于时序转换的非线性重叠方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03127827 CN1244901C (zh) | 2003-08-11 | 2003-08-11 | 用于时序转换的非线性重叠方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1581292A CN1581292A (zh) | 2005-02-16 |
CN1244901C true CN1244901C (zh) | 2006-03-08 |
Family
ID=34578871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 03127827 Expired - Fee Related CN1244901C (zh) | 2003-08-11 | 2003-08-11 | 用于时序转换的非线性重叠方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1244901C (zh) |
-
2003
- 2003-08-11 CN CN 03127827 patent/CN1244901C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1581292A (zh) | 2005-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6073100A (en) | Method and apparatus for synthesizing signals using transform-domain match-output extension | |
US20050025263A1 (en) | Nonlinear overlap method for time scaling | |
US6718309B1 (en) | Continuously variable time scale modification of digital audio signals | |
EP1519363B1 (en) | Method for time aligning signals using characterizations based on auditory events | |
CN1144369A (zh) | 音乐伴奏演奏装置的自动音调调整 | |
CN113314140A (zh) | 一种端到端时域多尺度卷积神经网络的音源分离算法 | |
GB2060321A (en) | Speech synthesizer | |
WO1997034289A1 (en) | System for automatically morphing audio information | |
JPH06266390A (ja) | 波形編集型音声合成装置 | |
JPH0863197A (ja) | 符号化音声信号の復号化方法 | |
CN113241082B (zh) | 变声方法、装置、设备和介质 | |
CN111192594B (zh) | 人声和伴奏分离方法及相关产品 | |
CN1135531C (zh) | 音调转换装置 | |
EP1074968B1 (en) | Synthesized sound generating apparatus and method | |
CN1244901C (zh) | 用于时序转换的非线性重叠方法 | |
Ferreira-Paiva et al. | A survey of data augmentation for audio classification | |
US20070055397A1 (en) | Constant pitch variable speed audio decoding | |
CN101290775B (zh) | 一种快速实现语音信号变速的方法 | |
Jensen | The timbre model | |
CN112309425B (zh) | 一种声音变调方法、电子设备及计算机可读存储介质 | |
JP2005292207A (ja) | 音楽分析の方法 | |
CN118696375A (zh) | 使用神经网络和可微分数字信号处理器进行音频的实时低延迟合成的方法和系统 | |
CN100343893C (zh) | 用于稳定音信号合成的方法和文本到语音转换的合成系统 | |
US5647005A (en) | Pitch and rate modifications of audio signals utilizing differential mean absolute error | |
US7337109B2 (en) | Multiple step adaptive method for time scaling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060308 Termination date: 20140811 |
|
EXPY | Termination of patent right or utility model |