CN102855884A - 基于短时连续非负矩阵分解的语音时长调整方法 - Google Patents

基于短时连续非负矩阵分解的语音时长调整方法 Download PDF

Info

Publication number
CN102855884A
CN102855884A CN2012103353627A CN201210335362A CN102855884A CN 102855884 A CN102855884 A CN 102855884A CN 2012103353627 A CN2012103353627 A CN 2012103353627A CN 201210335362 A CN201210335362 A CN 201210335362A CN 102855884 A CN102855884 A CN 102855884A
Authority
CN
China
Prior art keywords
matrix
voice
sigma
short
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103353627A
Other languages
English (en)
Other versions
CN102855884B (zh
Inventor
张雄伟
吴海佳
黄建军
陈卫卫
赵改华
李铁南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA University of Science and Technology
Original Assignee
PLA University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA University of Science and Technology filed Critical PLA University of Science and Technology
Priority to CN201210335362.7A priority Critical patent/CN102855884B/zh
Publication of CN102855884A publication Critical patent/CN102855884A/zh
Application granted granted Critical
Publication of CN102855884B publication Critical patent/CN102855884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于短时连续非负矩阵分解的语音时长调整方法,该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵;保持基矩阵不变,按语音时长调整比例,对编码矩阵进行线性内插;通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱;最后,利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明提升了语音时长调整的性能,改善了时长调整后语音的质量。

Description

基于短时连续非负矩阵分解的语音时长调整方法
技术领域
本发明属于语音信号处理技术领域,特别是一种基于短时连续非负矩阵分解的语音时长调整方法。
背景技术
语音时长调整技术可以在改变语音播放速度的同时保持语音的基音周期、共振峰结构等感知特征,使处理后的语音就像说话人主动改变语速一样。据调查,人说话的最快语速大约是每分钟110到180个单词,而人耳能够听懂的最大语速是它的2到3倍(1.M.R.Portnoff.Time-scale modification of speech based onshort-time fourier analysis[D].PhD Thesis,MIT,1978)。因此,如果使用语音时长调整技术按需调整语音资料的播放速度,则可最大限度的发挥人耳的听觉潜力,使人能够像浏览报纸一样“浏览”语音资料。
语音时长调整技术在音频信号处理中有着重要意义,例如:在语音识别、说话人识别中,可通过语音时长调整实现识别模版和参考模版的时间对齐;语音时长调整技术在广播电台对时间的要求方面也发挥了重要作用,如电视节目可利用语音时长调整技术达到视音频流的同步;语音时长调整技术也可用于语言、歌曲学习播放等,大大提高了学习效率;另外,通过语音时长调整还可以改善拥塞网络中的语音听觉效果(2.G.Hakki,G.Saadettin.Adaptive time scale modification ofspeech for graceful degrading voice quality in congested networks for VoIPapplications[J].Signal Processing,2006,86(1):127-139)。
在过去的研究中,语音时长调整主要有频域和时域两类方法。其中,时域方法简单直观、易于实现,因此得到了较快发展。早在1984年,Griffin和Lim提出了重叠相加法(OLA)(3.D.W.Griffin,J.S.Lim.Signal estimation from modifiedshort-time fourier transforms[J].IEEE Trans.On ASS P,1984,32(2):236-243),利用窗函数把语音信号分割成一系列相互重叠的帧,通过改变重叠部分长度来实现语音信号的压缩或扩展。但OLA算法存在相位不连续的问题。为了克服该问题,Roucos和Wilgus提出了同步叠加方法(SOLA)(4.S.Roucos,A.Wilgus.Highquality time-scale modification for speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Tampa,FL,USA,1985,10:493-496),Verhelst和Roelands提出了波形相似叠加法(WSOLA)(5.W.Verhelst,M.Roelands.An overlap-add technique based on waveform similarity(WSOLA)forhigh quality time-scale modification of speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Minneapolis,MN,USA,1993:554-557)。这两种算法在OLA算法的基础上引入一个偏移量来克服相位不连续的问题,不同的是前者在分帧叠加过程中引入偏移量,而后者在分帧提取过程中引入偏移量。然而,由于语音中的浊音段具有较强基音周期,分帧叠加的方法可能会破坏浊音段的基音结构,导致扩展后的语音存在机器音,而且随着扩展尺度的增大,机器音快速增强。为了克服这一问题,Moulines和Charpentier提出了时域基音同步叠加算法(TDPSOLA)(6.H.Valbret,E.Moulines,J.P.Tubach.Voicetransformation using PSOLA technique[J].Speech Communication,1992,11(2-3):175-187),该算法以基音周期为单位进行语音段的插入、删除和修改,达到在不破坏基音结构的前提下调整语音时长的目的。然而,由于该方法在对语音时长进行扩展时所操作的单位为固定的基音周期长度,只有当调整尺度为整数个基音周期时,才能获得较好的语音质量,对于连续时长调整,存在不稳定的问题。另外,TDPSOLA算法依赖于精确的基音周期标注,而这一点也是难以做到的。
发明内容
本发明的目的在于提供一种基于短时连续非负矩阵分解的语音时长调整方法,提升了语音时长调整的性能,改善了时长调整后语音的质量。
实现本发明目的的技术解决方案为:一种基于短时连续非负矩阵分解的语音时长调整方法,将一段语音资料调整出不同的播放速度,包括如下步骤:
第一步,获取原语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X;
第二步,对编码矩阵X按时长调整比例进行线性内插,获得内插后的新编码矩阵
Figure BDA00002121667400021
第三步,由基矩阵A与新编码矩阵
Figure BDA00002121667400022
合成新幅度谱
Figure BDA00002121667400023
Figure BDA00002121667400024
第四步,使用波形估计算法从
Figure BDA00002121667400025
迭代重构时长调整后的语音段
Figure BDA00002121667400026
本发明与现有技术相比,其显著优点:本发明对语音幅度谱进行非负矩阵分解后得到基矩阵与编码矩阵,其中基矩阵中的各基向量为原幅度谱空间中具有代表性的频谱,因此基矩阵能够包含原语音的基音周期信息等听觉感知特性,在对语音时长进行调整时,保持基矩阵不变,从而能够维持语音的感知特性,克服了SOLA与WSOLA算法在大尺度时长调整时存在的强机器音问题;同时,由于本发明的时长调整是对编码矩阵进行线性内插实现的,算法易于实现,避免了TDPSOLA算法以固定基音周期长度对语音波形进行操作,克服了其依赖于精确的基音周期标注问题,以及在连续时长调整时存在性能不稳定的问题。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法的流程图。
图2是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,获取语音段的幅度谱,并对幅度谱进行非负矩阵分解的流程图。
图3是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,使用短时连续非负矩阵分解算法对M进行分解的流程图。
图4是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,对编码矩阵进行线性内插的示意图。
图5是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,使用波形估计算法从
Figure BDA00002121667400031
迭代重构时长调整后的语音段
Figure BDA00002121667400032
的流程图。
图6是应用本发明的较佳实施例的实施过程示意图。
具体实施方式
参考图1,本发明基于短时连续非负矩阵分解的语音时长调整方法,针对一段语音资料,在保持该段语音的听觉感知特性条件下,调整出不同的播放速度。首先获取该语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X(步骤100);接着对编码矩阵X按时长调整比例进行线性内插,获得内插后的新编码矩阵
Figure BDA00002121667400033
(步骤200);然后由基矩阵A与新编码矩阵
Figure BDA00002121667400034
合成新幅度谱
Figure BDA00002121667400035
(步骤300);最后使用波形估计算法从
Figure BDA00002121667400036
迭代重构时长调整后的语音段
Figure BDA00002121667400041
(步骤400)。
其中步骤100包括如图2所示的流程。首先对y(n)进行分帧加窗处理,窗函数为Hamming窗,帧长为L,帧移为R(步骤110);
接着对各帧进行K点离散傅里叶变换,获得语音的时频谱Y(k,t),具体计算公式如下:
Y ( k , t ) = Σ n = - ∞ ∞ y ( n ) h ( n - tR ) e - j 2 πkn / K , 0≤k≤K-1
这里,k=0,1,…,K-1表示离散频率点,t=0,1,…,T-1表示帧序号,K表示离散傅里叶变换时的频率点数,一般取2的整数次幂,如256或512等,T是指对y(n)分帧后的总帧数,h(n)为Hamming窗函数(步骤120);
然后,保留时频谱Y(k,t)中的幅度信息,则得到y(n)的幅度谱M(k,t),具体计算公式为如下:
M(k,t)=|Y(k,t)|
为了便于标记,使用列向量mt表示[M(0,t),M(1,t),…,M(K-1,t)]T,从而y(n)的幅度谱可表示为M=[m0,m1,…,mT-1](步骤130);
最后,使用短时连续非负矩阵分解算法对M进行分析,得到如下分解结果:
M ≈AX
这里,
Figure BDA00002121667400043
称为基矩阵,称为编码矩阵,r选择比K小的值,经过对比测试,r的取值范围为50~70时能获得较好效果(步骤140)。
在步骤140中,对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X,该步骤更包括如图3所示的流程。其中在步骤141中,使用随机正数初始化A与X,这里
Figure BDA00002121667400046
T表示总帧数,K表示离散傅里叶变换时的频率点数,r为一正整数,需满足(K+T)×r《K×T,r取值范围为40~80;在步骤142中,使用如下公式对A进行更新:
A ( i + 1 ) = A ( i ) . × M A ( i ) X ( i ) ( X ( i ) ) ′ E K × T ( X ( i ) ) ′
这里,A(i)是第i次迭代时对A的估计值,X(i)是第i次迭代时对X的估计值,A.×B与
Figure BDA00002121667400048
表示两个矩阵对应位置元素相乘与相除,X'表示对矩阵X求转置,EK×T表示K行T列的全1矩阵;在步骤143中,使用如下公式对X进行更新:
X ( i + 1 ) = X ( i ) . × ▿ c - ( A ( i ) , X ( i ) ) ▿ c + ( A ( i ) , X ( i ) )
这里, ▿ c - ( A ( i ) , X ( i ) ) = ( A ( i ) ) ′ M A ( i ) X ( i ) + a [ 2 T X l , j - 1 ( i ) + X l , j + 1 ( i ) Σ j = 0 T - 1 ( X l , j ( i ) ) 2 + X l , j ( i ) Σ j = 1 T - 1 ( X l , j ( i ) + X l , j - 1 ( i ) ) 2 ( Σ j = 0 T - 1 ( X l , j ( i ) ) 2 ) 2 ] r × T , ▿ c + ( A ( i ) , X ( i ) ) = ( A ( i ) ) ′ E K × T + a [ 4 TX l , j ( i ) Σ j = 0 T - 1 ( X l , j ( i ) ) 2 ] r × T , 其中a的推荐取值为100,
Figure BDA00002121667400054
表示第i次迭代后,矩阵X第l行j列处的元素,[·]r×T表示r行T列的矩阵,该矩阵中元素按·所提供的计算方法得到;在步骤144中,使用如下公式对C进行更新:
C ( i ) = Σ i = 0 K - 1 Σ j = 0 T - 1 [ M i , j log M i , j ( A ( i ) X ( i ) ) i , j - M i , j + ( A ( i ) X ( i ) ) i , j ] + a Σ l = 0 r - 1 Σ j = 1 T - 1 ( X l , j ( i ) - X l , j - 1 ( i ) ) 2 1 T Σ j = 0 T - 1 ( X l , j ( i ) ) 2
在步骤145中,若C(i)-C(i-1)的值足够小(判定阈值的取值范围为[10-3,10-2]),则停止迭代,否则跳转到步骤142。
在步骤200中,对编码矩阵各行进行线性内插,内插后得到新的编码矩阵如图4所示,为该内插过程的示意图,内插公式如下:
Figure BDA00002121667400057
这里,设定时长调整比例为α,α的意义在于α=调整后语音的时/原语音时长,
Figure BDA00002121667400058
表示对t/α下取整,
Figure BDA00002121667400059
表示对t/α上取整。
在步骤300中,由基矩阵A与新编码矩阵
Figure BDA000021216674000510
合成新幅度谱
Figure BDA000021216674000511
是指
Figure BDA000021216674000512
在步骤400中,使用波形估计算法从
Figure BDA000021216674000513
迭代重构时长调整后的语音段
Figure BDA000021216674000514
该步骤更包括如图5所示的流程。其中在步骤410中,初始化待估语音时频谱
Figure BDA000021216674000515
在步骤420中,第i次估计的时频谱
Figure BDA000021216674000516
的计算公式如下:
Y ^ ( i ) ( k , t ) = M ^ ( k , t ) Y ^ ( i - 1 ) ( k , t ) | Y ^ ( i - 1 ) ( k , t ) |
这里,
Figure BDA00002121667400061
为第i次迭代所估计的目标语音,
Figure BDA00002121667400063
的时频谱,
Figure BDA00002121667400064
Figure BDA00002121667400065
的幅度谱;在步骤430中,由
Figure BDA00002121667400066
估计语音波形
Figure BDA00002121667400067
的公式如下:
y ^ ( i + 1 ) ( n ) = Σ t = 0 T - 1 { h ( n - tR ) 1 2 π Σ k = 0 K - 1 [ M ^ ( k , t ) Y ^ ( i ) ( k , t ) | Y ^ ( i ) ( k , t ) | e j 2 πk ( n - tR ) / L ] } Σ t = 0 T - 1 h 2 ( n - tR )
这里,h(n)为Hamming窗函数,T表示总帧数,K表示离散傅里叶变换时的频率点数,L表示帧长,R表示帧移;在步骤440中,迭代的停止条件为迭代次数i超过一个设定值,该设定值一般选择不超过50的正整数;在步骤450中,计算
Figure BDA00002121667400069
的时频谱的方法与步骤120相同。
实施例
图6为对一段男声语音资料(办公室里都装备上了微电脑。)的时长调整比例α为2的时长调整过程示意图,其中语音的采样率为8KHz,分帧时窗长L为256,帧移R为64,对每帧进行离散傅里叶变换时,频率点数K=256,对幅度谱进行短时连续非负矩阵分解时,r取值为50,从幅度谱重构语音波形时,迭代次数为30。从图中可以看出,原语音y(n)经过本方法的语音时长调整后,得到调整后的语音
Figure BDA000021216674000610
Figure BDA000021216674000611
的时长为y(n)的两倍。

Claims (5)

1.一种基于短时连续非负矩阵分解的语音时长调整方法,其特征在于将一段语音资料调整出不同的播放速度,包括如下步骤:
第一步,获取原语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X;
第二步,对编码矩阵X按时长调整比例进行线性内插,获得内插后的新编码矩阵
Figure FDA00002121667300011
第三步,由基矩阵A与新编码矩阵
Figure FDA00002121667300012
合成新幅度谱
Figure FDA00002121667300013
Figure FDA00002121667300014
第四步,使用波形估计算法从
Figure FDA00002121667300015
迭代重构时长调整后的语音段
Figure FDA00002121667300016
2.根据权利要求1所述的基于短时连续非负矩阵分解的语音时长调整方法,其特征在于第一步的具体实现步骤如下:
(1)对y(n)进行分帧加窗处理,窗函数为Hamming窗,帧长为L,帧移为R;
(2)对各帧进行K点离散傅里叶变换,获得语音的时频谱Y(k,t),具体计算公式如下:
Y ( k , t ) = Σ n = - ∞ ∞ y ( n ) h ( n - tR ) e - j 2 πkn / K , 0 ≤ k ≤ K - 1
这里,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,t=0,1,…,T-1表示帧序号,T是指对y(n)分帧后的总帧数,h(n)为Hamming窗函数;
(3)保留时频谱Y(k,t)中的幅度信息,则得到y(n)的幅度谱M,具体计算公式为如下:
M(k,t)=|Y(k,t)|
使用列向量mt表示[M(0,t),M(1,t),…,M(K-1,t)]T,从而y(n)的幅度谱可表示为M=[m0,m1,…,mT-1];
(4)使用短时连续非负矩阵分解算法对M进行分析,得到如下分解结果:
M≈AX
这里,
Figure FDA00002121667300018
称为基矩阵,
Figure FDA00002121667300019
称为编码矩阵,r选择比K小的正整数。
3.根据权利要求2所述的基于短时连续非负矩阵分解的语音时长调整方法,其特征在于步骤(4)中,将M分解为A与X的乘积步骤为:
①使用随机正数初始化A与X,这里
Figure FDA00002121667300021
Figure FDA00002121667300022
T表示总帧数,K表示离散傅里叶变换时的频率点数,r为一正整数,满足(K+T)×r《K×T;
②使用如下公式对A进行更新:
A ( i + 1 ) = A ( i ) . × M A ( i ) X ( i ) ( X ( i ) ) ′ E K × T ( X ( i ) ) ′
这里,A(i)是第i次迭代时对A的估计值,X(i)是第i次迭代时对X的估计值,A.×B与
Figure FDA00002121667300024
表示两个矩阵对应位置元素相乘与相除,X'表示对矩阵X求转置,EK×T表示K行T列的全1矩阵;
③使用如下公式对X进行更新:
X ( i + 1 ) = X ( i ) . × ▿ c - ( A ( i ) , X ( i ) ) ▿ c + ( A ( i ) , X ( i ) )
这里,
▿ c - ( A ( i ) , X ( i ) ) = ( A ( i ) ) ′ M A ( i ) X ( i ) + α [ 2 T X l , j - 1 ( i ) + X l , j + 1 ( i ) Σ j = 0 T - 1 ( X l , j ( i ) ) 2 + X l , j ( i ) Σ j = 1 T - 1 ( X l , j ( i ) + X l , j - 1 ( i ) ) 2 ( Σ j = 0 T - 1 ( X l , j ( i ) ) 2 ) 2 ] r × T , ▿ c + ( A ( i ) , X ( i ) ) = ( A ( i ) ) ′ E K × T + α [ 4 TX l , j ( i ) Σ j = 0 T - 1 ( X l , j ( i ) ) 2 ] r × T , 其中α的推荐取值为100,
Figure FDA00002121667300028
表示第i次迭代后,矩阵X第l行j列处的元素,[·]r×T表示r行T列的矩阵,该矩阵中元素按·所提供的计算方法得到;
④使用如下公式对C进行更新:
C ( i ) = Σ i = 0 K - 1 Σ j = 0 T - 1 [ M i , j log M i , j ( A ( i ) X ( i ) ) i , j - M i , j + ( A ( i ) X ( i ) ) i , j ] + α Σ l = 0 r - 1 Σ j = 1 T - 1 ( X l , j ( i ) - X l , j - 1 ( i ) ) 2 1 T Σ j = 0 T - 1 ( X l , j ( i ) ) 2
⑤若C(i)-C(i-1)的值小于判定阈值,则停止迭代,否则跳转到步骤②,判定阈值的取值范围为[10-3,10-2]。
4.根据权利要求1所述的基于短时连续非负矩阵分解的语音时长调整方法,其特征在于第二步的具体实现步骤如下:
(1)设定时长调整比例为α,α的意义在于α=调整后语音的时长/原语音时长;
(2)对编码矩阵X的各行进行线性内插,内插后得到新的编码矩阵
Figure FDA00002121667300031
内插公式如下:
Figure FDA00002121667300032
这里,
Figure FDA00002121667300033
表示对t/α下取整,
Figure FDA00002121667300034
表示对t/α上取整。
5.根据权利要求1所述的基于短时连续非负矩阵分解的语音时长调整方法,其特征在于第四步中,使用波形估计算法从
Figure FDA00002121667300035
迭代重构时长调整后的语音段
Figure FDA00002121667300036
步骤中迭代公式如下:
y ^ ( i + 1 ) ( n ) = Σ t = 0 T - 1 { h ( n - tR ) 1 2 π Σ k = 0 K - 1 [ M ^ ( k , t ) Y ^ ( i ) ( k , t ) | Y ^ ( i ) ( k , t ) | e j 2 πk ( n - tR ) / L ] } Σ t = 0 T - 1 h 2 ( n - tR )
这里,
Figure FDA00002121667300038
为第i次迭代所估计的目标语音,
Figure FDA00002121667300039
Figure FDA000021216673000310
的时频谱,
Figure FDA000021216673000311
Figure FDA000021216673000312
的幅度谱,h(n)为Hamming窗函数,T表示总帧数,K表示离散傅里叶变换时的频率点数,L表示帧长,R表示帧移,迭代的初始条件为
Figure FDA000021216673000313
迭代的停止条件为迭代次数超过一个设定值。
CN201210335362.7A 2012-09-11 2012-09-11 基于短时连续非负矩阵分解的语音时长调整方法 Active CN102855884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210335362.7A CN102855884B (zh) 2012-09-11 2012-09-11 基于短时连续非负矩阵分解的语音时长调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210335362.7A CN102855884B (zh) 2012-09-11 2012-09-11 基于短时连续非负矩阵分解的语音时长调整方法

Publications (2)

Publication Number Publication Date
CN102855884A true CN102855884A (zh) 2013-01-02
CN102855884B CN102855884B (zh) 2014-08-13

Family

ID=47402410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210335362.7A Active CN102855884B (zh) 2012-09-11 2012-09-11 基于短时连续非负矩阵分解的语音时长调整方法

Country Status (1)

Country Link
CN (1) CN102855884B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN105930308A (zh) * 2016-04-14 2016-09-07 中国科学院西安光学精密机械研究所 基于低秩恢复的非负矩阵分解方法
CN106469559A (zh) * 2015-08-19 2017-03-01 中兴通讯股份有限公司 语音数据的调整方法及装置
CN107068160A (zh) * 2017-03-28 2017-08-18 大连理工大学 一种语音时长规整系统及方法
CN109671433A (zh) * 2019-01-10 2019-04-23 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0865026A2 (de) * 1997-03-14 1998-09-16 GRUNDIG Aktiengesellschaft Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
US20020143526A1 (en) * 2000-09-15 2002-10-03 Geert Coorman Fast waveform synchronization for concentration and time-scale modification of speech
WO2007124582A1 (en) * 2006-04-27 2007-11-08 Technologies Humanware Canada Inc. Method for the time scaling of an audio signal
CN102007537A (zh) * 2008-07-11 2011-04-06 弗劳恩霍弗实用研究促进协会 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序
CN102306492A (zh) * 2011-09-09 2012-01-04 中国人民解放军理工大学 基于卷积非负矩阵分解的语音转换方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0865026A2 (de) * 1997-03-14 1998-09-16 GRUNDIG Aktiengesellschaft Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
US20020143526A1 (en) * 2000-09-15 2002-10-03 Geert Coorman Fast waveform synchronization for concentration and time-scale modification of speech
WO2007124582A1 (en) * 2006-04-27 2007-11-08 Technologies Humanware Canada Inc. Method for the time scaling of an audio signal
CN102007537A (zh) * 2008-07-11 2011-04-06 弗劳恩霍弗实用研究促进协会 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序
CN102306492A (zh) * 2011-09-09 2012-01-04 中国人民解放军理工大学 基于卷积非负矩阵分解的语音转换方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559888B (zh) * 2013-11-07 2016-10-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN106469559B (zh) * 2015-08-19 2020-10-16 中兴通讯股份有限公司 语音数据的调整方法及装置
CN106469559A (zh) * 2015-08-19 2017-03-01 中兴通讯股份有限公司 语音数据的调整方法及装置
CN105930308B (zh) * 2016-04-14 2019-01-15 中国科学院西安光学精密机械研究所 基于低秩恢复的非负矩阵分解方法
CN105930308A (zh) * 2016-04-14 2016-09-07 中国科学院西安光学精密机械研究所 基于低秩恢复的非负矩阵分解方法
CN107068160A (zh) * 2017-03-28 2017-08-18 大连理工大学 一种语音时长规整系统及方法
CN107068160B (zh) * 2017-03-28 2020-04-28 大连理工大学 一种语音时长规整系统及方法
CN109671433A (zh) * 2019-01-10 2019-04-23 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
WO2020143652A1 (zh) * 2019-01-10 2020-07-16 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
TWI730584B (zh) * 2019-01-10 2021-06-11 大陸商騰訊科技(深圳)有限公司 關鍵詞的檢測方法以及相關裝置
CN109671433B (zh) * 2019-01-10 2023-06-16 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
US11749262B2 (en) 2019-01-10 2023-09-05 Tencent Technology (Shenzhen) Company Limited Keyword detection method and related apparatus

Also Published As

Publication number Publication date
CN102855884B (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
EP2352145A1 (en) Transient signal encoding method and device, decoding method and device and processing system
CN102855884B (zh) 基于短时连续非负矩阵分解的语音时长调整方法
CN102306492B (zh) 基于卷积非负矩阵分解的语音转换方法
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
US10249314B1 (en) Voice conversion system and method with variance and spectrum compensation
WO2015139452A1 (zh) 根据频域能量对语音信号进行处理的方法和装置
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Mousa Voice conversion using pitch shifting algorithm by time stretching with PSOLA and re-sampling
CN103489443B (zh) 一种声音模仿方法及装置
Parekh et al. Speech-to-singing conversion in an encoder-decoder framework
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
Mandel et al. Audio super-resolution using concatenative resynthesis
CN113179444B (zh) 一种基于语音识别的音字同步方法
Toma et al. A TD-PSOLA based method for speech synthesis and compression
KR101434592B1 (ko) 뇌의 음향처리에 기반한 음성신호 프레임 분할 방법
Zhu et al. Analysis of hybrid feature research based on extraction LPCC and MFCC
KR102078350B1 (ko) 음성 신호 대역폭 확장 장치 및 방법
CN113179442B (zh) 一种基于语音识别的视频中音频流替换方法
Prasad et al. Multi-frame rate based multiple-model training for robust speaker identification of disguised voice
Yan et al. A greedy adaptive method for time scale modification based on acoustic prediction characteristics of human auditory system
CN114550733B (zh) 一种可用于芯片端的语音合成方法
Huang et al. Recovery of lost speech segments using incremental subspace learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant