CN101290775A - 一种快速实现语音信号变速的方法 - Google Patents

一种快速实现语音信号变速的方法 Download PDF

Info

Publication number
CN101290775A
CN101290775A CNA2008101155682A CN200810115568A CN101290775A CN 101290775 A CN101290775 A CN 101290775A CN A2008101155682 A CNA2008101155682 A CN A2008101155682A CN 200810115568 A CN200810115568 A CN 200810115568A CN 101290775 A CN101290775 A CN 101290775A
Authority
CN
China
Prior art keywords
wov
analysis window
value
sample point
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101155682A
Other languages
English (en)
Other versions
CN101290775B (zh
Inventor
冯宇红
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Vimicro Corp
Original Assignee
Vimicro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vimicro Corp filed Critical Vimicro Corp
Priority to CN2008101155682A priority Critical patent/CN101290775B/zh
Publication of CN101290775A publication Critical patent/CN101290775A/zh
Application granted granted Critical
Publication of CN101290775B publication Critical patent/CN101290775B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

一种快速实现语音信号变速的方法,对每一帧语音进行变速处理时,先进行第一级搜索,从输入序列中的分析窗移动范围内的第一个样本点开始按预设步长移动分析窗,搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第一同步位置,然后进行第二级搜索,在第一同步位置与相邻的一个或两个移动位置之间逐点移动分析窗,再次搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第二同步位置,然后将处于第二同步位置的分析窗前Wov个样本点和输出缓存前Wov个样本点进行叠加,其中,Wov是分析语音与合成语音相叠加部分的长度。本发明可以大大降低计算复杂度。

Description

一种快速实现语音信号变速的方法
技术领域
本发明涉及语音技术,尤其涉及一种快速实现语音信号变速的方法。
背景技术
语音信号变速操作,指的是在不改变基音、音色等特征的前提下,改变信号播放的时间信息。现有多种重要的应用,例如,语言学习机,语音合成,卡拉OK,语音压缩,视频编缉中音视频信号同步等。
现有的变速算法可分为两大类:一类是基于时域叠接相加技术(OLA,Overlap-Add);另一类是基于频域相位声码器(Phase Vocoder)技术。频域技术使用短时傅里叶变换(STFT,Short time Fourier Transform),一般适用于音乐信号和大尺度变速,一般来说频域技术通常会引入可感知的相位失真,导致合成后声音不是很自然。时域技术使用叠接相加技术,为了解决叠加时的相位同步问题,通常需要在分析信号或合成信号中搜索一段同叠加部分波形相似的部分。时域同步技术利用了语音信号的准周期性特征,可以得到高质量的合成语音。
但时域技术通常适用于小尺度变速。常见的时域技术有:同步叠接相加技术(SOLA,Synchronized Overlap-Add),基音同步叠接相加技术(PSOLA,Pitch Synchronized Overlap-Add),波形相似叠接相加技术(WSOLA,WaveformSimilarity Overlap-Add)。
下面介绍一下采用WSOLA技术的语音信号变速方法,先介绍一下几个重要参数,请同时参照图1:
W:分析信号窗长度,表示了接受处理的语音信号的长度。
Sa:输入信号帧长,表示了按帧依次截取并进行处理的分析信号的帧长。
Ss:输出信号帧长。表示了按帧依次输出的合成信号的帧长。
Km:搜索得到的同步位置。
Wov:分析语音与合成语音相叠加部分的长度。
Kmax:分析窗移动量的最大值。
目前,整个方法的具体的实时处理流程是:首先从输入信号buffer里(长度为2W),从第一个点开始,一直取W个点,作为一个分析窗;
然后将分析窗中的前Wov个点与输出buffer里(长度为W)的前Wov个点进行比较,比较它们之间的一致性。记录下比较的情况;
然后整个分析窗向后移动一个样本点,再将新分析窗中的前Wov个点与输出序列(文中指输出缓存中的样本点序列)中的前Wov个点进行比较,同时记录下比较结果;
这样依次做Kmax次,然后取出比较结果中最一致即相似度最大的那种情况;
然后将最一致的那种情况下的分析窗中前Wov个点与输出序列的前Wov个点按某种方式进行叠加,再将分析窗中剩余的Ss个点存入到输出buffer中去,并将输出buffer中的前Ss个点移出作为输出信号。
至此完成了一帧语音处理。下一帧语音处理,与上面基本相同,只不过要先将输入buffer中最老的Sa个点移出,并将新的Sa个点移入。
km是分析窗的移动量,km取值范围是0至Kmax,每次移动量为一个样本点。对于每一个分析窗口,通过比较分析窗前Wov个点与输出序列中的前Wov个点的一致性。从中取出一致性最好的那个分析窗,将其前Wov个点叠加到输出序列中去。设叠加时输入序列(文中指缓入缓存中的样本点序列)的窗用x(n)表示,输出序列用y(n)表示,那么:
y [ n ] = b [ n ] y [ n ] + ( 1 - b [ n ] ) x [ n + km ] , n = 0,1 , . . . , W ov - 1 x [ n + km ] , n = W ov , . . . , W - - - ( 1 )
公式(1)表明,已经在输出buffer中的前Wov个点通过与输入buffer中所选定的分析窗中的前Wov个语音点以加权的方式叠加。叠加后将分析窗中剩余的Ss(Ss=W-Wov)个点补充到输出序列中去。通过调整Sa的值和Ss的值就可以达到对语音信号进行时间长度上的变化。
加权窗函数b(n)的选取应当使得输入与输出序列之间实现平滑的连接。实验表明,采用简单的斜坡函数也可以达到较好的语音效果。斜坡函数的定义为:
b(n)=1-n/Wov  n=0,1,Wov-1
每一个语音帧对应的同步位置km如何确定,关键在于解决时域一致性的判决标准。采用互相关系数来表示一致性的程度。那么对于第m个语音帧:
k m = max 0 ≤ k ≤ K max ( R xy m [ k ] ) - - - ( 2 )
其中Rxy m[k]是第m个语音帧中所取的输入序列中分析窗前Wov个点和输出序列中前Wov个点之间的归一化互相关系数,k表示分析窗起始位置所在的样本点序号,0≤k≤Kmax,定义如下:
R xy m [ k ] = r xy m [ k ] r xx m [ k ] r yy m [ k ] - - - ( 3 )
其中,rxy m[k]为输入序列和输出序列的互相关值,rxx m和ryy m分别是输入序列和输出序列的自相关值。有:
r xy m [ k ] = Σ n = 0 Wov - 1 x [ mSa + k + n ] y [ mSs + n ] - - - ( 4 )
r xx m [ k ] = Σ n = 0 Wov - 1 x 2 [ mSa + k + n ] - - - ( 5 )
r yy m [ k ] = Σ n = 0 Wov - 1 y 2 [ mSs + n ] - - - ( 6 )
在上述算法中,要保证输出信号的质量,需要选择合适参数,其中最重要的是Wov和Kmax。一般要求保证Wov长度最少为2个基音周期,Kmax长度最少1个基音周期。语音的基音频率范围在60~500Hz范围内,如果按60Hz计算,则Kmax长度最少为16ms,Wov长度最少为32ms。以8KHz采样频率语音信号为例(后面的参数取值都是以8KHz采样频率为例),我们选择Kmax为128个样本,Wov为256个样本,W为384个样本(对应Ss为128个样本),Sa则根据变速因子来确定。
从上述算法描述中,可以看到计算量主要集中在Km搜索。在0~Kmax范围内,如果采用全搜索,则需搜索Kmax点。对于每个搜索点,需要计算一个长度为Wov序列的互相关rxy m和两个长度为Wov序列的自相关rxx m和ryy m,以及一个计算平方根和一个除法操作。其计算的复杂度较高,在以ARM,DSP等低功耗CPU为平台的资源受限的嵌入式设备上难以实现。
发明内容
本发明要解决的技术问题是提供一种快速实现语音信号变速的方法,大大降低计算复杂度。
采用WSOLA技术的时域变速算法在波形叠加时为了避免引入可感知失真,需要使用基于波形相似度测量的同步机制。现有大部分时域算法都采用计算分析信号和合成信号之间归一化的互相关值,选取对应互关值最大的样本点作为叠加时的同步点。时域变速算法计算量主要是同步点搜索过程(约占80%以上)。为了减少算法实现复杂度,本发明提出了一种新的时域变速的方法,主要从两方面入手降低计算复杂度,一是采用两级快速搜索算法,以减少搜索点数;二是对归一化的互相关值计算公式进行了简化,降低归一化互相关系数Rxy m的计算复杂度。在保证合成质量的前提下,大大降低实现计算复杂度。
为了解决上述问题,本发明提供了一种快速实现语音信号变速的方法,包括以下步骤:
对每一帧语音进行变速处理时,先进行第一级搜索,从输入序列中的分析窗移动范围内的第一个样本点开始按预设步长移动分析窗,搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第一同步位置,然后进行第二级搜索,在第一同步位置与相邻的一个或两个移动位置之间逐点移动分析窗,再次搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第二同步位置,然后将处于第二同步位置的分析窗前Wov个样本点和输出缓存前Wov个样本点进行叠加,其中,Wov是分析语音与合成语音相叠加部分的长度。
进一步地,上述方法还可具有以下特点:所述两级搜索过程包括依序执行的以下步骤:
在范围[0,Kmax]内,以d为搜索的预设步长移动分析窗,在每一个移动位置,计算分析窗前Wov个点和输出序列前Wov个点之间的归一化互相关系数Rxy m,Kmax是分析窗移动量的最大值;
从上一步计算出的Rxy m值中,选出Rxy m最大值对应的第一同步位置Lm;
在以Lm为中心位置,间距为d的范围(Lm-d,Lm+d)内逐点移动分析窗,并在每一个移动位置k处计算Rxym值,其中Lm等于0时,0≤k<d,Lm等于Kmax时,Kmax-d<k≤Kmax,在其它情况下,Lm-d<k<Lm+d;
从上一步计算出的Rxy m值中,选出Rxy m最大值对应的第二同步位置Km。
进一步地,上述方法还可具有以下特点:
对第m个语音帧,在移动量为k的每一移动位置,0≤k≤Kmax,先判断计算出的输入序列和输出序列的互相关值rxy m[k]为正还是为负,只计算rxy m[k]为正时的所述归一化互相关系数的平方(Rxy m[k])2
从得到的所有(Rxy m[k])2值中选出一个最大值,做第一级搜索时,该最大值对应的移动位置即为所述第一同步位置,做第二级搜索时,该最大值对应的移动位置即为所述第二同步位置;
在进行所述叠加时,将分析窗前Wov个样本点与输出缓存前Wov个样本点直接进行加权叠加。
进一步地,上述方法还可具有以下特点:
对第m个语音帧,在移动量为k的每一移动位置,0≤k≤Kmax,无论计算出的输入序列和输出序列的互相关值rxy m[k]为正还是为负,均计算出所述归一化互相关系数的平方(Rxy m[k])2
从得到的所有(Rxy m[k])2值中选出一个最大值,做第一级搜索时,该最大值对应的移动位置即为所述第一同步位置,做第二级搜索时,该最大值对应的移动位置即为所述第二同步位置;
在进行所述叠加时,如果所述第二同步位置对应的rxy m[k]为负,先将分析窗样本点的符号变反,再与输出缓存前Wov个样本点进行加权叠加,否则直接进行加权叠加。
进一步地,上述方法还可具有以下特点:
计算所述归一化互相关系数的平方(Rxy m[k])2的公式如下:
( R xy m ) 2 = ( r xy m ) 2 / r xx m
其中,用递推方法计算输入序列的自相关值rxx m,即:
r xx m [ k + 1 ] = r xx m [ k ] + x 2 [ m S a + k + W ov ] - x 2 [ m S a + k ]
其中:rxx m和ryy m分别是输入序列和输出序列的自相关值,Sa为输入信号帧长,k为当前的移动量,x[n]为输入序列中的样本点。
进一步地,上述方法还可具有以下特点:
使用在时域上抽取后的部分序列代替原始序列计算输入序列的自相关值rxx m和输入序列和输出序列的互相关值rxy m
进一步地,上述方法还可具有以下特点:
所述方法基于波形相似叠接相加技术,在完成所述叠加后,再将分析窗中剩余的Ss个点存入到输出缓存中,并将输出缓存中的前Ss个点移出作为输出信号,至此完成了一帧语音处理,对下一帧语音处理前,将输入缓存中最老的Sa个点移出,并将新的Sa个点移入,其中Sa为输入信号帧长,Ss为输出信号帧长。
采用本发明在时域WSOLA算法基础上的快速算法,实验结果表明,在保证合成语音信号质量前提下(SNR只下降0.5dB),计算复杂度降低为原始算法的1/10以下。适合在以ARM,DSP等低功耗CPU为平台的嵌入式设备上实现。
附图说明
图1是现有语音变速算法的示意图。
图2是本发明提出的时域变速的方法实现的流程图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细说明。
在全搜索算法中,输入信号需要逐个样本点移动分析窗以比较同输出信号一致性,从中找到对应归一化互相关系数最大的样本点位置,此时得到的是一种最优搜索结果。本实施例使用一种次优搜索算法,目的是得到一种接近最优的匹配结果,而且不会引入明显主观听觉失真。基于这个思想,本实施例采用一种两级搜索方法。第一级粗粒度搜索,可以让搜索步长为一常数,然后以此步长为单位来移动分析窗以获得粗粒度的同步位置;第二级细粒度搜索,在上一级搜索获得的位置附近,逐个样本点进行细粒度搜索。下面描述算法详细步骤:
第一步:在范围[0,Kmax]内,以d为搜索步长,移动分析窗计算Rxy m值;粗粒度搜索点位置Ln定义如下:
Ln=n*d,0≤n≤Kmax/d    (7)
第二步:从第一步计算出的Rxy m值中,选出Rxy m最大值对应的样本点位置;
第三步:在以上述选出的样本点为中心位置,间距为d的范围(Lm-d,Lm+d)内逐点移动分析窗以计算Rxy m值,细粒度搜索点位置k定义如下:
0≤k<d,if Lm==0
Kmax-d<k≤Kmax,if Lm==Kmax    (8)
Lm-d<k<Lm+d,其他情况
第四步:从第三步计算出的Rxy m值中,选出Rxy m最大值对应的样本点位置Km。
从上述算法描述可以看出,快速算法实际搜索的点数Kmax/d+2*d。同全搜索算法相比,可认为计算复杂度下降为原来1/d(因为Kmax>>d,因此可忽略2*d)
d值的选取会直接影响搜索算法的精度,大的d值,常常会陷入局部最优的问题中。通过实验,d值可以选择3~5个样本点,较佳为4个样本点,对应输出信号SNR值只有0.5dB的下降,而且主观质量没有明显下降。
此外,本实施例还对搜索过程中用于一致性评价的归一化互相关系数的计算进行简化。
通常嵌入式设备的CPU,如ARM或DSP,都不直接支持开平方根计算。因此可以直接计算Rxy m的平方(Rxy m)2
Rxy m计算过程中,需要计算两个自相关值rxx m和ryy m时,因为ryy m值对于所有搜索点相同,公式(3)可简化为
( R xy m ) 2 = ( r xy m ) 2 / r xx m - - - ( 10 )
对于rxx m可以采用递推方法进行计算,即
r xx m [ k + 1 ] = r xx m [ k ] + x 2 [ m S a + k + W ov ] - x 2 [ m S a + k ] - - - ( 9 )
但当以(Rxy m)2作为一致性评价准则时,(Rxy m)2最大值有可能对应负的Rxy m值。此时,一种处理方法是在按公式(4)先计算出rxy m[k],如果rxy m[k]为负,则不再计算(Rxy m)2。即只计算rxy m[k]为正时的(Rxy m)2,从这些(Rxy m)2值中选出最大的一个,认为此时的比较结果最一致,然后基于该最大的(Rxy m)2对应的分析窗进行后续的叠加和其他运算。
另一种处理方式是同时考虑rxy m[k]为正和为负的情况,即无论rxy m[k]为正还是为负均计算出此时的(Rxy m)2值,从得到的(Rxy m)2值中选出最大的一个,基于该最大的(Rxy m)2对应的分析窗进行后续运算。但是,在进行叠加时,需要将叠加公式修改如下:
y [ n ] = b [ n ] y [ n ] + ( 1 - b [ n ] ) x [ n + km ] , n = 0,1 , . . . , W ov - 1 x [ n + km ] , n = W ov , . . . , W R xy m ≥ 0 - - - ( 1 )
y [ n ] = b [ n ] y [ n ] - ( 1 - b [ n ] ) x [ n + km ] , n = 0,1 , . . . , W ov - 1 - x [ n + km ] , n = W ov , . . . , W R xy m < 0 - - - ( 11 )
即在该最大的(Rxy m)2对应于正的rxy m[k]时,仍采用原来的叠加公式(1),但在最大的(Rxy m)2对应于负的rxy m[k]时,则采用上述公式(11)。上述公式(11)中,相当于将公式(1)分析窗样本点的符号变反,再与输出缓存前Wov个样本点进行叠加。因为rxy m[k]为负但值较大时,相比较的两段样本点序列的波形只是在相位上差异较大,加以延时后两者的波形可能更为相似,因此在公式(11)中将其符号取反后再进行叠加。实验结果表明,采用这种处理方式得到的合成语音信号质量较佳。
此外,在计算rxy m和rxx m时,可以使用在时域上抽取后的序列代替原始序列,设抽取因子为c,则公式(4)和(5)简化为:
r xy m [ k ] = &Sigma; n = 0 Wov - 1 x [ mSa + k + n ] y [ mSs + n ] for n = n + c - - - ( 12 )
r xx m [ k ] = &Sigma; n = 0 Wov - 1 x 2 [ mSa + k + n ] for n = n + c - - - ( 13 )
结合快速搜索算法(搜索步长d为4)和简化后的一致性评价准则(抽取因子c为2)两项改进后,实验结果表明,在保证合成语音信号质量前提下(SNR只下降0.5dB),计算复杂度降低为原先1/10以下。并且输出信号SNR值和主观质量没有明显下降。

Claims (7)

1、一种快速实现语音信号变速的方法,包括以下步骤:
对每一帧语音进行变速处理时,先进行第一级搜索,从输入序列中的分析窗移动范围内的第一个样本点开始按预设步长移动分析窗,搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第一同步位置,然后进行第二级搜索,在第一同步位置与相邻的一个或两个移动位置之间逐点移动分析窗,再次搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第二同步位置,然后将处于第二同步位置的分析窗前Wov个样本点和输出缓存前Wov个样本点进行叠加,其中,Wov是分析语音与合成语音相叠加部分的长度。
2、如权利要求1所述的方法,其特征在于,所述两级搜索过程包括依序执行的以下步骤:
在范围[0,Kmax]内,以d为搜索的预设步长移动分析窗,在每一个移动位置,计算分析窗前Wov个点和输出序列前Wov个点之间的归一化互相关系数Rxy m,Kmax是分析窗移动量的最大值;
从上一步计算出的Rxy m值中,选出Rxy m最大值对应的第一同步位置Lm;
在以Lm为中心位置,间距为d的范围(Lm-d,Lm+d)内逐点移动分析窗,并在每一个移动位置k计算Rxy m值,其中Lm等于0时,0≤k<d,Lm等于Kmax时,Kmax-d<k≤Kmax,在其它情况下,Lm-d<k<Lm+d;
从上一步计算出的Rxy m值中,选出Rxy m最大值对应的第二同步位置Km。
3、如权利要求2所述的方法,其特征在于:
对第m个语音帧,在移动量为k的每一移动位置,0≤k≤Kmax,先判断计算出的输入序列和输出序列的互相关值rxy m[k]为正还是为负,只计算rxy m[k]为正时的所述归一化互相关系数的平方(Rxy m[k])2
从得到的所有(Rxy m[k])2值中选出一个最大值,做第一级搜索时,该最大值对应的移动位置即为所述第一同步位置,做第二级搜索时,该最大值对应的移动位置即为所述第二同步位置;
在进行所述叠加时,将分析窗前Wov个样本点与输出缓存前Wov个样本点直接进行加权叠加。
4、如权利要求2所述的方法,其特征在于:
对第m个语音帧,在移动量为k的每一移动位置,0≤k≤Kmax,无论计算出的输入序列和输出序列的互相关值rxy m[k]为正还是为负,均计算出所述归一化互相关系数的平方(Rxy m[k])2
从得到的所有(Rxy m[k])2值中选出一个最大值,做第一级搜索时,该最大值对应的移动位置即为所述第一同步位置,做第二级搜索时,该最大值对应的移动位置即为所述第二同步位置;
在进行所述叠加时,如果所述第二同步位置对应的rxy m[k]为负,先将分析窗样本点的符号变反,再与输出缓存前Wov个样本点进行加权叠加,否则直接进行加权叠加。
5、如权利要求3或4所述的方法,其特征在于:
计算所述归一化互相关系数的平方(Rxy m[k])2的公式如下:
( R xy m ) 2 = ( r xy m ) 2 / r xx m
其中,用递推方法计算输入序列的自相关值rxx m,即:
r xx m [ k + 1 ] = r xx m [ k ] + x 2 [ m S a + k + W ov ] - x 2 [ m S a + k ]
其中:rxx m和ryy m分别是输入序列和输出序列的自相关值,Sa为输入信号帧长,k为当前的移动量,x[n]为输入序列中的样本点。
6、如权利要求5所述的方法,其特征在于:
使用在时域上抽取后的部分序列代替原始序列计算输入序列的自相关值rxx m和输入序列和输出序列的互相关值rxy m
7、如权利要求1所述的方法,其特征在于:
所述方法基于波形相似叠接相加技术,在完成所述叠加后,再将分析窗中剩余的Ss个点存入到输出缓存中,并将输出缓存中的前Ss个点移出作为输出信号,至此完成了一帧语音处理,对下一帧语音处理前,将输入缓存中最老的Sa个点移出,并将新的Sa个点移入,其中Sa为输入信号帧长,Ss为输出信号帧长。
CN2008101155682A 2008-06-25 2008-06-25 一种快速实现语音信号变速的方法 Expired - Fee Related CN101290775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101155682A CN101290775B (zh) 2008-06-25 2008-06-25 一种快速实现语音信号变速的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101155682A CN101290775B (zh) 2008-06-25 2008-06-25 一种快速实现语音信号变速的方法

Publications (2)

Publication Number Publication Date
CN101290775A true CN101290775A (zh) 2008-10-22
CN101290775B CN101290775B (zh) 2011-09-14

Family

ID=40035000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101155682A Expired - Fee Related CN101290775B (zh) 2008-06-25 2008-06-25 一种快速实现语音信号变速的方法

Country Status (1)

Country Link
CN (1) CN101290775B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074239A (zh) * 2010-12-23 2011-05-25 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN106469559A (zh) * 2015-08-19 2017-03-01 中兴通讯股份有限公司 语音数据的调整方法及装置
CN107749302A (zh) * 2017-10-27 2018-03-02 广州酷狗计算机科技有限公司 音频处理方法、装置、存储介质及终端
CN108509558A (zh) * 2018-03-23 2018-09-07 太原理工大学 一种抗变速干扰的采样计数音频检索方法
WO2020108555A1 (zh) * 2018-11-28 2020-06-04 广州市百果园信息技术有限公司 音频数据的处理方法、装置、设备及存储介质
CN112750456A (zh) * 2020-09-11 2021-05-04 腾讯科技(深圳)有限公司 即时通信应用中的语音数据处理方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
CN100561577C (zh) * 2006-09-11 2009-11-18 北京中星微电子有限公司 声音信号的变速方法和系统
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102074239A (zh) * 2010-12-23 2011-05-25 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN102074239B (zh) * 2010-12-23 2012-05-02 福建星网视易信息系统有限公司 一种实现声音变速的方法
CN106469559A (zh) * 2015-08-19 2017-03-01 中兴通讯股份有限公司 语音数据的调整方法及装置
CN106469559B (zh) * 2015-08-19 2020-10-16 中兴通讯股份有限公司 语音数据的调整方法及装置
CN107749302A (zh) * 2017-10-27 2018-03-02 广州酷狗计算机科技有限公司 音频处理方法、装置、存储介质及终端
CN108509558A (zh) * 2018-03-23 2018-09-07 太原理工大学 一种抗变速干扰的采样计数音频检索方法
CN108509558B (zh) * 2018-03-23 2021-11-05 太原理工大学 一种抗变速干扰的采样计数音频检索方法
WO2020108555A1 (zh) * 2018-11-28 2020-06-04 广州市百果园信息技术有限公司 音频数据的处理方法、装置、设备及存储介质
US11875814B2 (en) 2018-11-28 2024-01-16 Bigo Technology Pte. Ltd. Audio data processing method, apparatus and device, and storage medium
CN112750456A (zh) * 2020-09-11 2021-05-04 腾讯科技(深圳)有限公司 即时通信应用中的语音数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN101290775B (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN101290775B (zh) 一种快速实现语音信号变速的方法
US20070276657A1 (en) Method for the time scaling of an audio signal
US7809560B2 (en) Method and system for identifying speech sound and non-speech sound in an environment
CN101093661B (zh) 一种音高跟踪和播放方法及其系统
CN112133277B (zh) 样本生成方法及装置
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Sebastian et al. Group delay based music source separation using deep recurrent neural networks
Lee et al. Variable time-scale modification of speech using transient information
CN100541609C (zh) 一种实现开环基音搜索的方法和装置
CN101093660B (zh) 一种基于双峰值检测的音符切分方法及其装置
Roberts et al. Time-scale modification using fuzzy epoch-synchronous overlap-add (FESOLA)
US6125344A (en) Pitch modification method by glottal closure interval extrapolation
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
Ryynänen Singing transcription
JP4217616B2 (ja) 二段階ピッチ判断方法および装置
Bäckström et al. Voice activity detection
Ouzounov A robust feature for speech detection
Samad et al. Pitch detection of speech signals using the cross-correlation technique
Wong et al. Fast SOLA-based time scale modification using modified envelope matching
Fierro et al. Extreme audio time stretching using neural synthesis
RU2174714C2 (ru) Способ выделения основного тона
US11495200B2 (en) Real-time speech to singing conversion
KR100359988B1 (ko) 실시간 화속 변환 장치
Lawlor et al. A novel high quality efficient algorithm for time-scale modification of speech
Lohiya et al. Survey on Computer Aided Language Learning using automatic accent assessment techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: WUXI VIMICRO CO., LTD.

Free format text: FORMER OWNER: VIMICRO CORPORATION

Effective date: 20110126

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100083 16/F, SHINING BUILDING, NO. 35, XUEYUAN ROAD, HAIDIAN DISTRICT, BEIJING TO: 214028 610, NATIONAL IC DESIGN PARK (CHUANGYUAN BUILDING), NO. 21-1, CHANGJIANG ROAD, WUXI NEW DISTRICT, JIANGSU PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20110126

Address after: 214028 national integrated circuit design (21-1), Changjiang Road, New District, Jiangsu, Wuxi, China, China (610)

Applicant after: Wuxi Vimicro Co., Ltd.

Address before: 100083 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 16

Applicant before: Beijing Vimicro Corporation

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20170625