CN101620856B - 对输入信号值序列进行时间缩放的方法和设备 - Google Patents

对输入信号值序列进行时间缩放的方法和设备 Download PDF

Info

Publication number
CN101620856B
CN101620856B CN2009101425370A CN200910142537A CN101620856B CN 101620856 B CN101620856 B CN 101620856B CN 2009101425370 A CN2009101425370 A CN 2009101425370A CN 200910142537 A CN200910142537 A CN 200910142537A CN 101620856 B CN101620856 B CN 101620856B
Authority
CN
China
Prior art keywords
sampling
subsequence
sequence
time
scaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101425370A
Other languages
English (en)
Other versions
CN101620856A (zh
Inventor
马库斯·施洛瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
International Digital Madison Patent Holding SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN101620856A publication Critical patent/CN101620856A/zh
Application granted granted Critical
Publication of CN101620856B publication Critical patent/CN101620856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种数字信号处理技术,用于改变音频信号的长度并从而有效改变其播放速度。该技术用于帧率转换、声音效果、快进或慢动作。根据所述方法,对波形相似度叠加方法进行修改,以确定子序列对的相似度度量中的最大化相似度,每个所述子序列对包括来自输入窗(SW)的待匹配子序列(B1,..,B*,..Bn)和来自搜索窗(MW)的匹配子序列(C1,..C*,..Ck),其中,所述子序列对包括至少两个子序列对,所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。所述输入窗允许找到具有比使用基于单一待匹配子序列的WSOLA方法所找到的相似度更高的子序列对。这产生了较少的可感知伪像。

Description

对输入信号值序列进行时间缩放的方法和设备
技术领域
本发明涉及一种数字信号处理技术,该技术改变音频信号的长度并从而有效改变其播放速度。在专业市场中,该技术用于电影工业中的帧率转换或音乐制作中的声音效果。此外,消费电子设备,例如mp3播放器、录音机或应答机利用时间缩放来进行快进或慢动作音频播放。 
背景技术
在Dorran等人的“A Comparison of Time-Domain Time-Scale Modification Algorithms,”AES 2006中,可以找到用于对音频信号进行时间缩放的以下应用列表: 
-用于数字图书馆和远程学习的语音材料的快速浏览 
-音乐和外语学习/教学 
-电话应答机和录音电话机的快/慢回放 
-视频-电影标准转换 
-对音频加水印 
-针对盲人的加速听觉阅读 
-音乐合成 
-音频-视频同步 
-音频数据压缩 
-心脏紊乱诊断 
-针对无线电/电视产业中分配的时隙来编辑音频/视觉记录 
-声音性别转换 
-文本至语音的合成 
-唇形同步和配音 
-韵律移植和卡拉OK 
实现这种用于音频信号长度改变的数字信号处理技术的一种方式是所谓的波形相似度叠加(WSOLA)方法。WSOLA能够产生高质量的时间缩放的输出信号。由固定长度(典型地约为20ms)的块来构造WSOLA输出信号。这些块重叠50%,以保证固定的交叉渐变长度。追加至输出信号的下一块是如下的块:首先该块与将正常跟随当前块的块最相似,其次该块位于理想位置(由缩放因子确定)周围的搜索窗内。因此,与理想位置的偏差典型地限制在小于5ms,从而产生10ms大小的搜索窗。 
Demol等人在“Efficient Non-Uniform Time-Scaling of Speech with WSOLA,”Speech and Computers(SPECOM),2005中描述:也可以通过改变缩放因子来将WSOLA扩展为将处理后的信号的变化特性列入考虑之中。 
发明内容
本发明的目的是通过提出一种使用修改的波形相似度叠加方法来对输入信号值序列进行时间缩放的方法,以及一种使用修改的波形相似度叠加方法来对输入信号值序列进行时间缩放的设备,来增强WSOLA方法。 
根据所述方法,对波形相似度叠加方法进行修改,以确定子序列对的相似度度量中的最大化相似度,每个所述子序列对包括来自输入窗的待匹配子序列和来自搜索窗的匹配子序列,其中,所述子序列对包括至少两个子序列对,所述至少两个子序列对中的第一对包括第一待匹配子序列而第二对包括不同的第二待匹配子序列。 
所述输入窗允许找到具有比使用基于单一待匹配子序列的WSOLA方法所找到的相似度更高的子序列对。这产生了较少的可感知伪像。 
在实施例中,所述第一对包括第一匹配子序列,所述第二对包括不同的第二匹配子序列。 
在另一实施例中,所述第一对和所述第二对包括相同的匹配子序列。 
有利地,对所述波形相似度叠加方法的修改包括:拷贝子序列,直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差,所述累计时间偏差依赖于所拷贝的子序列的累计持续时间和期望的时间缩放因子。 
这减小了接合点(splice point)的数目,从而减小了时间缩放的可听性。 
每个子序列对的相似度度量可以包括加权,所述加权考虑所述对中的子序列之间的时间距离。 
考虑时间距离能够使WSOLA方法偏向优选的时间距离。 
例如,在实施例中,对相似度进行加权,使其偏向较大的时间距离。这允许追加更长的子序列,继而使得所需接合点更少。 
在所述方法的又一实施例中,对相似度进行加权,使其偏向与期望的时间缩放因子相对应的时间距离。 
然后,即使时间缩放后的序列的一部分也很好地反映了时间缩放因子。 
在又一实施例中,确定所述输入窗,使其包括至少一个暂停信号段。 
已知对于信号暂停而言接合在计算上较为简单。 
在另一实施例中,确定所述输入窗,使其不包括任何瞬变信号段。 
已知对于瞬变信号段而言接合在计算上较为困难。 
附图说明
在附图中示意并在以下描述中更详细说明了本发明的示例实施例。 
在附图中: 
图1示出了示例性原始采样序列和示例性的时间缩放的采样序列,以及 
图2示出了示例性加权函数。 
具体实施方式
本发明的示例实施例按照两个阶段过程来实现根据时间缩放因子α的时间缩放。在这两个阶段之一中,简单地将原始采样序列ORIG中的采样拷贝至时间缩放的采样序列SCLD。 
令时间缩放差等于1-α的绝对值。然后,每个拷贝的采样的持续时间与理想的时间缩放的采样的持续时间的偏差为一个原始采样DOS的持续时间乘以时间缩放差。因此,对L个采样进行拷贝产生的累计时间偏差为: 
ΔL=L·DOS·|α-1|+Δ0
其中Δ0是初始时间偏差,该偏差可以为0,或者在确定累计时间偏差时可以忽略该偏差。 
所拷贝的最小采样数目应使累计时间偏差超过偏差下阈值Δmin。所拷贝的最大采样数目应使累计时间偏差不超过偏差上阈值Δmax。 
偏差下阈值Δmin确保了时间缩放的采样序列中的接合点之间的最小距离。随着音频信号的能量趋向于集中在低频范围内使得自相似度函数在0附近具有宽峰,接合点之间的最小跳距离将成为问题。如果Δmin远小于该峰值,则模板匹配可能判定搜索窗的边界在行中多次最接近理想点(直到Δmin的和超过自相似度函数的上述峰值的宽度)。在这种情况下,输出信号将包含许多小信号段的拼接。该最小距离与两个拷贝的块之间的交叉渐变长度相对应,即在时间缩放的信号中为N个采样。理想地,使用N/α个采样来形成时间缩放的信号中的这N个采样。这产生了原始信号中的偏差下阈值Δmin Δ min = N · | 1 - α | α D OS .
此外,可以确定偏差下阈值Δmin,使其至少达到下界LB: 
Δ min = max ( LB , N · | 1 - α | α D OS )
使用LB=2ms可以实现很好的结果。尤其是如果α较小,则下界LB有助于防止引入伪像。 
偏差上阈值Δmax确保了时间缩放的采样序列中的接合点之间的最大距离。该最大距离限制了累计时间偏差ΔL并从而限制了输入信号中省略或重复的连续子序列的长度。继而也限制了由于重复或省略而导 致的伪像的可听性。 
在拷贝操作导致满足或刚刚超过偏差上阈值Δmax时,处理进入第二阶段。在第二阶段中,执行修改的WSOLA。对于原始采样序列SCLD中接下来将要拷贝的N个采样组成的模板子序列,在原始采样序列ORIG中执行模板匹配来在搜索窗MW内找到候选子序列C1,...,C*,...,Ck中最适合用于进行接合的候选子序列C*。模板匹配是基于相似度度量(如相关、均方差或平均绝对差),使用权值W来对该相似度度量进行加权,权值W依赖于候选子序列的时间位置与原始采样序列中模板的位置之间的时间差Δt。 
权值W还可以依赖于候选子序列C1,...,C*,...,Ck的理想时间偏移ITS,所述理想时间偏移ITS是由原始采样序列ORIG中的候选子序列的时间位置以及时间缩放因子来确定的。 
图2中示意性示出了示例加权函数WF1、WF2、WF3。 
加权函数可以是线性函数WF1、WF2,使得最佳匹配偏向将产生较大初始时间偏差(延迟或预先呈现)并从而产生被追加在后时较大的信号段的那些候选。 
加权函数可以是钟形函数WF3,使得最佳匹配偏向将产生被追加在后时与理想时间偏移ITS最佳对应的初始时间偏差的那些候选。 
如果对包括同步的音频和视频信号在内的电影进行时间缩放,则可以使用另一加权函数。人类感知系统适应于对事件的视觉印象的感知早于所述事件的相应可听印象的情形。例如,如果某人从远方呼喊,则该事件的视觉印象以光速传播至观察者,而喊声仅以音速传播。因此,观察者可能忽略音频信号相对于视频信号的小延迟。但是,大到使音频信号不再与视频信号相匹配的音频信号延迟是一种恼人的伪像。同样恼人的是视频信号相对于音频信号的任何延迟。 
因此,依赖于针对视频信号而实现的时间缩放、使得确保时间缩放的音频信号不超前于时间缩放的视频信号同时又不延迟过多的加权函数是有益的。例如,钟形函数WF3的中心可以位于确保时间缩放的音频信号相对于时间缩放的视频信号具有小而不过大的延迟的偏移位置。 
还可以针对包括最后拷贝至时间缩放的序列SCLD的采样紧接之前的N个最后拷贝的采样在内的子序列来执行模板匹配。将倒数第二个子序列与其最佳匹配模板之间的相似度与最后子序列与最后子序列的最佳匹配模板之间的相似度进行比较,其中可以对这些相似度进行加权也可以不进行加权。将与较大的加权相似度相关联的子序列与时间缩放的采样序列中其最佳匹配模板进行接合或交叉渐变。类似地,可以考虑包括从倒数第n个子序列至最后子序列的所有子序列B1,...,B*,...,Bn在内的子序列集合以最大化加权的相似度。 
因此,不仅针对单一潜在接合点,而是针对优选地密集位于输入窗SW中的潜在接合点的整个集合来最大化相似度度量。结果是二维相似度函数。 
但是,用于计算所述二维相似度函数的额外计算工作仍然有限。 
对于N个采样的模板长度和K个采样的搜索窗宽度,一维相似度函数需要进行N*K次乘法或绝对/平方差值等计算。然后,通过将N个产生的值求和来确定K个相似度值。 
如果α接近于1,则可以对输入窗中的所有模板使用共同的搜索窗。 
然而,具有宽度L的输入窗的二维相似度函数需要(N+L)*K个值的计算,并将这些值求和以得到L*K个相似度值。因此,二维搜索的额外计算工作随搜索窗的大小呈线性增长。 
在一维框架内,必须确定K个不同相似度,而二维框架需要计算L*K个不同相似度。但是在二维框架中,可以以迭代方式来确定一些相似度。 
这就是说,确定第一模板与第一候选的第一相似度值的第一和值与确定第二模板与第二候选的第二相似度值的第二和值的差别仅在于一个被加数。其中,第二模板和第二候选分别相对于第一模板和第一候选偏移一个采样。 
根据所述L*K个不同相似度,必须从头开始确定的仅有K+L个相似度,其余(K-1)*(L-1)个相似度可以迭代方式确定。 
如果α远大于或远小于1,则使用一组交叉搜索窗,对来自输入窗 的每个模板使用一个搜索窗。这些搜索窗中的每一个的中心位于与使用对应模板的理想时间偏移相对应的时间点。 
可以确定输入窗SW,使其包括至少一个暂停信号段和/或至少一个准周期性信号段。已知这种信号段提供很好的接合点,而瞬变信号段不那么适于接合或交叉渐变。此外或可选地,对相似度度量的加权可以被适配为使其进一步或完全依赖于子序列B1,...,B*,...,Bn中的信号特性,其中待接合的段中的暂停和/或准周期性导致权值增大,而瞬变信号特性导致权值减小。 
使用包括来自输入窗SW的被最佳匹配的子序列B*和来自搜索窗MW的最佳匹配候选子序列C*(其相似度最大)在内的子序列用来产生时间缩放的信号SCLD的交叉渐变区CF的采样。 
交叉渐变区中的采样数可以与这些子序列之一中的采样数相对应,使得这些子序列中的所有采样都用于交叉渐变。或者,交叉渐变区中的采样数较少,即仅使用这些子序列中的一些采样。例如,子序列长度与块长度或2*N个采样相对应,而交叉渐变区长度与半块的长度或N个采样相对应。使用比交叉渐变区更长的子序列可能有利于通过将接合点偏向音素(phoneme)的中心来进一步减小接合点的可听性。 
提供了根据时间缩放因子来对信号值序列进行时间缩放的方法的示例实施例,其中,所述方法包括以下步骤:使用WSOLA方法对在前的子序列进行时间缩放;以及使用内插方法来对连续子序列进行时间缩放。 
在另一示例实施例中,所述方法包括以下步骤:(a)形成包括待匹配子序列B1、B*、Bn和匹配子序列C1、C*、Ck在内的子序列对;(b)对于每一对,确定对中包括的子序列之间的相似度;(c)确定优选对B*、C*,所述优选对具有最大相似度;(d)在时间缩放的序列SCLD中,对优选匹配子序列与所述优选被匹配子序列进行交叉渐变;(e)借助于优选匹配子序列来确定待拷贝的子序列的长度;(f)将该子序列拷贝至时间缩放的序列SCLD并返回步骤(a),其中,待拷贝的子序列的长度依赖于阈值。 
优选地,步骤(b)包括:根据所述阈值依赖于对中的待匹配子序列与匹配子序列之间的时间距离来确定阈值。 
在又一实施例中,步骤(e)包括:使用时间因子以及优选匹配子序列与优选被匹配子序列之间的时间距离来确定待拷贝的子序列的长度。 

Claims (12)

1.一种基于波形相似度叠加方法对原始采样序列进行时间缩放的方法,所述方法采用将紧接在所述原始采样序列的当前子序列之后的子序列的采样拷贝至所述原始采样序列的时间缩放版本,所述时间缩放版本称为时间缩放采样序列,所述方法包括:
向所述时间缩放采样序列的当前子序列追加所述原始采样序列的子序列的拷贝,所拷贝的子序列紧接在所述原始采样序列的对应当前子序列之后;
其中,如果所述原始采样序列的连续子序列的采样至所述时间缩放采样序列的拷贝会超过所述时间缩放采样序列中的偏差阈值,则不追加所述原始采样序列的采样的紧接在后的所述子序列的拷贝,而使用所述原始采样序列的采样的在前子序列来进行所述拷贝,
所述在前子序列与所述原始采样序列的采样的紧接在后的所述子序列最相似,并位于所述原始采样序列的搜索窗内,所述搜索窗位于由所述时间缩放采样序列的缩放因子确定的位置周围,
并且其中对所述在前子序列的相似度度量加权,使其偏向与所述原始采样序列的采样的所述当前子序列的较大时间距离。
2.如权利要求1所述的方法,包括:
确定采样子序列对的相似度度量中的最大化相似度,每个所述采样子序列对包括来自所述原始采样序列中的输入窗的待匹配采样子序列和来自所述原始采样序列中的搜索窗的匹配采样子序列,
其中所述采样子序列对包括至少两个采样子序列对,所述至少两个采样子序列对中的第一采样子序列对包括第一待匹配采样子序列而第二采样子序列对包括与第一待匹配采样子序列不同的第二待匹配采样子序列,
并且其中所述第一采样子序列对包括第一匹配采样子序列,所述第二采样子序列对包括与第一匹配采样子序列不同的第二匹配采样子序列。
3.如权利要求1或2所述的方法,还包括:
拷贝来自所述原始采样序列的采样子序列,直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差,所述累计时间偏差依赖于所拷贝的采样子序列的累计持续时间和期望的时间缩放因子。
4.如权利要求2所述的方法,其中,每个采样子序列对的所述相似度度量的所述加权考虑该对中的采样子序列之间的时间距离。
5.如权利要求2所述的方法,其中所述输入窗被确定为包括至少一个暂停信号段。
6.如权利要求2所述的方法,其中所述输入窗被确定为不包括任何瞬变信号段。
7.一种基于波形相似度叠加方法对对原始采样序列进行时间缩放的设备,所述设备采用将紧接在所述原始采样序列的当前子序列之后的子序列的采样拷贝至所述原始采样序列的时间缩放版本,所述时间缩放版本称为时间缩放采样序列,所述设备包括:
用于向所述时间缩放采样序列的当前子序列追加所述原始采样序列的子序列的拷贝的装置,所拷贝的子序列紧接在所述原始采样序列的对应当前子序列之后;
其中,如果所述原始采样序列的连续子序列的采样至所述时间缩放采样序列的拷贝会超过所述时间缩放采样序列中的偏差阈值,则不追加所述原始采样序列的采样的紧接在后的所述子序列的拷贝,而使用所述原始采样序列的采样的在前子序列来进行所述拷贝,
所述在前子序列与所述原始采样序列的采样的紧接在后的所述子序列最相似,并位于所述原始采样序列的搜索窗内,所述搜索窗位于由所述时间缩放采样序列的缩放因子确定的位置周围,
并且其中对所述在前子序列的相似度度量加权,使其偏向与所述原始采样序列的采样的所述当前子序列的较大时间距离。
8.如权利要求7所述的设备,包括:
用于确定采样子序列对的相似度度量中的最大化相似度的装置,每个所述采样子序列对包括来自所述原始采样序列中的输入窗的待匹配采样子序列和来自所述原始采样序列中的搜索窗的匹配采样子序列,
其中所述采样子序列对包括至少两个采样子序列对,所述至少两个采样子序列对中的第一采样子序列对包括第一待匹配采样子序列而第二采样子序列对包括与第一待匹配采样子序列不同的第二待匹配采样子序列,
并且其中所述第一采样子序列对包括第一匹配采样子序列,所述第二采样子序列对包括与第一匹配采样子序列不同的第二匹配采样子序列。
9.如权利要求7或8所述的设备,还包括:用于拷贝来自所述原始采样序列的采样子序列直到所述拷贝所产生的累计时间偏差等于或大于预定最小时间偏差的装置,所述累计时间偏差依赖于所拷贝的采样子序列的累计持续时间和期望的时间缩放因子。
10.如权利要求8所述的设备,其中每个采样子序列对的所述相似度度量的所述加权考虑该对中的采样子序列之间的时间距离。
11.如权利要求8所述的设备,其中所述输入窗被确定为包括至少一个暂停信号段。
12.如权利要求8所述的设备,其中所述输入窗被确定为不包括任何瞬变信号段。
CN2009101425370A 2008-07-03 2009-06-29 对输入信号值序列进行时间缩放的方法和设备 Active CN101620856B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08159578A EP2141696A1 (en) 2008-07-03 2008-07-03 Method for time scaling of a sequence of input signal values
EP08159578.7 2008-07-03

Publications (2)

Publication Number Publication Date
CN101620856A CN101620856A (zh) 2010-01-06
CN101620856B true CN101620856B (zh) 2013-07-17

Family

ID=39689304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101425370A Active CN101620856B (zh) 2008-07-03 2009-06-29 对输入信号值序列进行时间缩放的方法和设备

Country Status (8)

Country Link
US (1) US8676584B2 (zh)
EP (2) EP2141696A1 (zh)
JP (1) JP5606694B2 (zh)
KR (1) KR101582358B1 (zh)
CN (1) CN101620856B (zh)
AT (1) ATE528753T1 (zh)
BR (1) BRPI0902006B1 (zh)
TW (1) TWI466109B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
BR112012012635A2 (pt) * 2009-12-18 2016-07-12 Honda Motor Co Ltd sistema e método para fornecer alerta de aviso de acidente em veículo
CN102074239B (zh) * 2010-12-23 2012-05-02 福建星网视易信息系统有限公司 一种实现声音变速的方法
EP3321935B1 (en) 2013-06-21 2019-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time scaler, audio decoder, method and a computer program using a quality control
AU2014283320B2 (en) * 2013-06-21 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
US10080068B2 (en) * 2014-02-28 2018-09-18 United Technologies Corporation Protected wireless network
CN105812902B (zh) * 2016-03-17 2018-09-04 联发科技(新加坡)私人有限公司 数据播放的方法、设备及系统
CN109102821B (zh) * 2018-09-10 2021-05-25 思必驰科技股份有限公司 时延估计方法、系统、存储介质及电子设备
US11087738B2 (en) * 2019-06-11 2021-08-10 Lucasfilm Entertainment Company Ltd. LLC System and method for music and effects sound mix creation in audio soundtrack versioning
CN111916053B (zh) * 2020-08-17 2022-05-20 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341432A (en) * 1989-10-06 1994-08-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for performing speech rate modification and improved fidelity
US5806023A (en) * 1996-02-23 1998-09-08 Motorola, Inc. Method and apparatus for time-scale modification of a signal

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
CN1079180C (zh) * 1995-02-28 2002-02-13 摩托罗拉公司 通信系统中的语音压缩方法及设备
US5920840A (en) 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US5828995A (en) 1995-02-28 1998-10-27 Motorola, Inc. Method and apparatus for intelligible fast forward and reverse playback of time-scale compressed voice messages
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6324501B1 (en) * 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4442239B2 (ja) 2004-02-06 2010-03-31 パナソニック株式会社 音声速度変換装置と音声速度変換方法
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7873515B2 (en) * 2004-11-23 2011-01-18 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for error reconstruction of streaming audio information
US7693716B1 (en) * 2005-09-27 2010-04-06 At&T Intellectual Property Ii, L.P. System and method of developing a TTS voice
US7565289B2 (en) * 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
WO2009010831A1 (en) * 2007-07-18 2009-01-22 Nokia Corporation Flexible parameter update in audio/speech coded signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341432A (en) * 1989-10-06 1994-08-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for performing speech rate modification and improved fidelity
DE69024919D1 (de) * 1989-10-06 1996-02-29 Matsushita Electric Ind Co Ltd Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
US5806023A (en) * 1996-02-23 1998-09-08 Motorola, Inc. Method and apparatus for time-scale modification of a signal

Also Published As

Publication number Publication date
EP2141696A1 (en) 2010-01-06
KR20100004876A (ko) 2010-01-13
TWI466109B (zh) 2014-12-21
US8676584B2 (en) 2014-03-18
JP5606694B2 (ja) 2014-10-15
CN101620856A (zh) 2010-01-06
ATE528753T1 (de) 2011-10-15
JP2010015152A (ja) 2010-01-21
BRPI0902006A2 (pt) 2010-04-13
EP2141697B1 (en) 2011-10-12
US20100004937A1 (en) 2010-01-07
EP2141697A1 (en) 2010-01-06
KR101582358B1 (ko) 2016-01-04
TW201017649A (en) 2010-05-01
BRPI0902006B1 (pt) 2019-09-24

Similar Documents

Publication Publication Date Title
CN101620856B (zh) 对输入信号值序列进行时间缩放的方法和设备
CN112400325B (zh) 数据驱动的音频增强
US9294862B2 (en) Method and apparatus for processing audio signals using motion of a sound source, reverberation property, or semantic object
TWI221561B (en) Nonlinear overlap method for time scaling
Jiang et al. Geometric methods for spectral analysis
CN100555876C (zh) 声信号处理装置和方法
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
KR20080061747A (ko) 오디오 배속 재생 방법 및 장치
US20050038534A1 (en) Fixed-size cross-correlation computation method for audio time scale modification
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Li et al. Audiovisual source association for string ensembles through multi-modal vibrato analysis
Crockett High quality multi-channel time-scaling and pitch-shifting using auditory scene analysis
Shafie et al. Al-Quran recitation speech signals time series segmentation for speaker adaptation using Dynamic Time Warping
JP3081108B2 (ja) 話者分類処理装置及び方法
Soens et al. On split dynamic time warping for robust automatic dialogue replacement
Alghamdi et al. Real time blind audio source separation based on machine learning algorithms
Oliveira et al. Live assessment of beat tracking for robot audition
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
US10891966B2 (en) Audio processing method and audio processing device for expanding or compressing audio signals
Saz et al. Lightly supervised alignment of subtitles on multi-genre broadcasts
El-Sallam et al. Correlation based speech-video synchronization
Dutta et al. A hierarchical approach for silence/speech/music classification
KR100359988B1 (ko) 실시간 화속 변환 장치
KR20130037910A (ko) OpenVG 기반 다중 레이어 중첩부분의 위치좌표 결정 방법
House 2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: French Boulogne - Bilang Kurt

Patentee before: THOMSON LICENSING

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190130

Address after: Paris France

Patentee after: International Digital Madison Patent Holding Co.

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

Effective date of registration: 20190130

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING