CN102855884A - 基于短时连续非负矩阵分解的语音时长调整方法 - Google Patents
基于短时连续非负矩阵分解的语音时长调整方法 Download PDFInfo
- Publication number
- CN102855884A CN102855884A CN2012103353627A CN201210335362A CN102855884A CN 102855884 A CN102855884 A CN 102855884A CN 2012103353627 A CN2012103353627 A CN 2012103353627A CN 201210335362 A CN201210335362 A CN 201210335362A CN 102855884 A CN102855884 A CN 102855884A
- Authority
- CN
- China
- Prior art keywords
- matrix
- voice
- sigma
- short
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种基于短时连续非负矩阵分解的语音时长调整方法,该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵;保持基矩阵不变,按语音时长调整比例,对编码矩阵进行线性内插;通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱;最后,利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明提升了语音时长调整的性能,改善了时长调整后语音的质量。
Description
技术领域
本发明属于语音信号处理技术领域,特别是一种基于短时连续非负矩阵分解的语音时长调整方法。
背景技术
语音时长调整技术可以在改变语音播放速度的同时保持语音的基音周期、共振峰结构等感知特征,使处理后的语音就像说话人主动改变语速一样。据调查,人说话的最快语速大约是每分钟110到180个单词,而人耳能够听懂的最大语速是它的2到3倍(1.M.R.Portnoff.Time-scale modification of speech based onshort-time fourier analysis[D].PhD Thesis,MIT,1978)。因此,如果使用语音时长调整技术按需调整语音资料的播放速度,则可最大限度的发挥人耳的听觉潜力,使人能够像浏览报纸一样“浏览”语音资料。
语音时长调整技术在音频信号处理中有着重要意义,例如:在语音识别、说话人识别中,可通过语音时长调整实现识别模版和参考模版的时间对齐;语音时长调整技术在广播电台对时间的要求方面也发挥了重要作用,如电视节目可利用语音时长调整技术达到视音频流的同步;语音时长调整技术也可用于语言、歌曲学习播放等,大大提高了学习效率;另外,通过语音时长调整还可以改善拥塞网络中的语音听觉效果(2.G.Hakki,G.Saadettin.Adaptive time scale modification ofspeech for graceful degrading voice quality in congested networks for VoIPapplications[J].Signal Processing,2006,86(1):127-139)。
在过去的研究中,语音时长调整主要有频域和时域两类方法。其中,时域方法简单直观、易于实现,因此得到了较快发展。早在1984年,Griffin和Lim提出了重叠相加法(OLA)(3.D.W.Griffin,J.S.Lim.Signal estimation from modifiedshort-time fourier transforms[J].IEEE Trans.On ASS P,1984,32(2):236-243),利用窗函数把语音信号分割成一系列相互重叠的帧,通过改变重叠部分长度来实现语音信号的压缩或扩展。但OLA算法存在相位不连续的问题。为了克服该问题,Roucos和Wilgus提出了同步叠加方法(SOLA)(4.S.Roucos,A.Wilgus.Highquality time-scale modification for speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Tampa,FL,USA,1985,10:493-496),Verhelst和Roelands提出了波形相似叠加法(WSOLA)(5.W.Verhelst,M.Roelands.An overlap-add technique based on waveform similarity(WSOLA)forhigh quality time-scale modification of speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Minneapolis,MN,USA,1993:554-557)。这两种算法在OLA算法的基础上引入一个偏移量来克服相位不连续的问题,不同的是前者在分帧叠加过程中引入偏移量,而后者在分帧提取过程中引入偏移量。然而,由于语音中的浊音段具有较强基音周期,分帧叠加的方法可能会破坏浊音段的基音结构,导致扩展后的语音存在机器音,而且随着扩展尺度的增大,机器音快速增强。为了克服这一问题,Moulines和Charpentier提出了时域基音同步叠加算法(TDPSOLA)(6.H.Valbret,E.Moulines,J.P.Tubach.Voicetransformation using PSOLA technique[J].Speech Communication,1992,11(2-3):175-187),该算法以基音周期为单位进行语音段的插入、删除和修改,达到在不破坏基音结构的前提下调整语音时长的目的。然而,由于该方法在对语音时长进行扩展时所操作的单位为固定的基音周期长度,只有当调整尺度为整数个基音周期时,才能获得较好的语音质量,对于连续时长调整,存在不稳定的问题。另外,TDPSOLA算法依赖于精确的基音周期标注,而这一点也是难以做到的。
发明内容
本发明的目的在于提供一种基于短时连续非负矩阵分解的语音时长调整方法,提升了语音时长调整的性能,改善了时长调整后语音的质量。
实现本发明目的的技术解决方案为:一种基于短时连续非负矩阵分解的语音时长调整方法,将一段语音资料调整出不同的播放速度,包括如下步骤:
第一步,获取原语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X;
本发明与现有技术相比,其显著优点:本发明对语音幅度谱进行非负矩阵分解后得到基矩阵与编码矩阵,其中基矩阵中的各基向量为原幅度谱空间中具有代表性的频谱,因此基矩阵能够包含原语音的基音周期信息等听觉感知特性,在对语音时长进行调整时,保持基矩阵不变,从而能够维持语音的感知特性,克服了SOLA与WSOLA算法在大尺度时长调整时存在的强机器音问题;同时,由于本发明的时长调整是对编码矩阵进行线性内插实现的,算法易于实现,避免了TDPSOLA算法以固定基音周期长度对语音波形进行操作,克服了其依赖于精确的基音周期标注问题,以及在连续时长调整时存在性能不稳定的问题。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法的流程图。
图2是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,获取语音段的幅度谱,并对幅度谱进行非负矩阵分解的流程图。
图3是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,使用短时连续非负矩阵分解算法对M进行分解的流程图。
图4是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中,对编码矩阵进行线性内插的示意图。
图6是应用本发明的较佳实施例的实施过程示意图。
具体实施方式
参考图1,本发明基于短时连续非负矩阵分解的语音时长调整方法,针对一段语音资料,在保持该段语音的听觉感知特性条件下,调整出不同的播放速度。首先获取该语音段y(n)的幅度谱M,并对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X(步骤100);接着对编码矩阵X按时长调整比例进行线性内插,获得内插后的新编码矩阵(步骤200);然后由基矩阵A与新编码矩阵合成新幅度谱(步骤300);最后使用波形估计算法从迭代重构时长调整后的语音段(步骤400)。
其中步骤100包括如图2所示的流程。首先对y(n)进行分帧加窗处理,窗函数为Hamming窗,帧长为L,帧移为R(步骤110);
接着对各帧进行K点离散傅里叶变换,获得语音的时频谱Y(k,t),具体计算公式如下:
这里,k=0,1,…,K-1表示离散频率点,t=0,1,…,T-1表示帧序号,K表示离散傅里叶变换时的频率点数,一般取2的整数次幂,如256或512等,T是指对y(n)分帧后的总帧数,h(n)为Hamming窗函数(步骤120);
然后,保留时频谱Y(k,t)中的幅度信息,则得到y(n)的幅度谱M(k,t),具体计算公式为如下:
M(k,t)=|Y(k,t)|
为了便于标记,使用列向量mt表示[M(0,t),M(1,t),…,M(K-1,t)]T,从而y(n)的幅度谱可表示为M=[m0,m1,…,mT-1](步骤130);
最后,使用短时连续非负矩阵分解算法对M进行分析,得到如下分解结果:
M ≈AX
在步骤140中,对M进行短时连续非负矩阵分解,获得基矩阵A与编码矩阵X,该步骤更包括如图3所示的流程。其中在步骤141中,使用随机正数初始化A与X,这里 T表示总帧数,K表示离散傅里叶变换时的频率点数,r为一正整数,需满足(K+T)×r《K×T,r取值范围为40~80;在步骤142中,使用如下公式对A进行更新:
这里,A(i)是第i次迭代时对A的估计值,X(i)是第i次迭代时对X的估计值,A.×B与表示两个矩阵对应位置元素相乘与相除,X'表示对矩阵X求转置,EK×T表示K行T列的全1矩阵;在步骤143中,使用如下公式对X进行更新:
在步骤145中,若C(i)-C(i-1)的值足够小(判定阈值的取值范围为[10-3,10-2]),则停止迭代,否则跳转到步骤142。
在步骤200中,对编码矩阵各行进行线性内插,内插后得到新的编码矩阵如图4所示,为该内插过程的示意图,内插公式如下:
实施例
Claims (5)
2.根据权利要求1所述的基于短时连续非负矩阵分解的语音时长调整方法,其特征在于第一步的具体实现步骤如下:
(1)对y(n)进行分帧加窗处理,窗函数为Hamming窗,帧长为L,帧移为R;
(2)对各帧进行K点离散傅里叶变换,获得语音的时频谱Y(k,t),具体计算公式如下:
这里,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,t=0,1,…,T-1表示帧序号,T是指对y(n)分帧后的总帧数,h(n)为Hamming窗函数;
(3)保留时频谱Y(k,t)中的幅度信息,则得到y(n)的幅度谱M,具体计算公式为如下:
M(k,t)=|Y(k,t)|
使用列向量mt表示[M(0,t),M(1,t),…,M(K-1,t)]T,从而y(n)的幅度谱可表示为M=[m0,m1,…,mT-1];
(4)使用短时连续非负矩阵分解算法对M进行分析,得到如下分解结果:
M≈AX
3.根据权利要求2所述的基于短时连续非负矩阵分解的语音时长调整方法,其特征在于步骤(4)中,将M分解为A与X的乘积步骤为:
②使用如下公式对A进行更新:
③使用如下公式对X进行更新:
这里,
④使用如下公式对C进行更新:
⑤若C(i)-C(i-1)的值小于判定阈值,则停止迭代,否则跳转到步骤②,判定阈值的取值范围为[10-3,10-2]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210335362.7A CN102855884B (zh) | 2012-09-11 | 2012-09-11 | 基于短时连续非负矩阵分解的语音时长调整方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210335362.7A CN102855884B (zh) | 2012-09-11 | 2012-09-11 | 基于短时连续非负矩阵分解的语音时长调整方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102855884A true CN102855884A (zh) | 2013-01-02 |
CN102855884B CN102855884B (zh) | 2014-08-13 |
Family
ID=47402410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210335362.7A Active CN102855884B (zh) | 2012-09-11 | 2012-09-11 | 基于短时连续非负矩阵分解的语音时长调整方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102855884B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN105930308A (zh) * | 2016-04-14 | 2016-09-07 | 中国科学院西安光学精密机械研究所 | 基于低秩恢复的非负矩阵分解方法 |
CN106469559A (zh) * | 2015-08-19 | 2017-03-01 | 中兴通讯股份有限公司 | 语音数据的调整方法及装置 |
CN107068160A (zh) * | 2017-03-28 | 2017-08-18 | 大连理工大学 | 一种语音时长规整系统及方法 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0865026A2 (de) * | 1997-03-14 | 1998-09-16 | GRUNDIG Aktiengesellschaft | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
US20020143526A1 (en) * | 2000-09-15 | 2002-10-03 | Geert Coorman | Fast waveform synchronization for concentration and time-scale modification of speech |
WO2007124582A1 (en) * | 2006-04-27 | 2007-11-08 | Technologies Humanware Canada Inc. | Method for the time scaling of an audio signal |
CN102007537A (zh) * | 2008-07-11 | 2011-04-06 | 弗劳恩霍弗实用研究促进协会 | 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序 |
CN102306492A (zh) * | 2011-09-09 | 2012-01-04 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
-
2012
- 2012-09-11 CN CN201210335362.7A patent/CN102855884B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0865026A2 (de) * | 1997-03-14 | 1998-09-16 | GRUNDIG Aktiengesellschaft | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
US20020143526A1 (en) * | 2000-09-15 | 2002-10-03 | Geert Coorman | Fast waveform synchronization for concentration and time-scale modification of speech |
WO2007124582A1 (en) * | 2006-04-27 | 2007-11-08 | Technologies Humanware Canada Inc. | Method for the time scaling of an audio signal |
CN102007537A (zh) * | 2008-07-11 | 2011-04-06 | 弗劳恩霍弗实用研究促进协会 | 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序 |
CN102306492A (zh) * | 2011-09-09 | 2012-01-04 | 中国人民解放军理工大学 | 基于卷积非负矩阵分解的语音转换方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559888B (zh) * | 2013-11-07 | 2016-10-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN103559888A (zh) * | 2013-11-07 | 2014-02-05 | 航空电子系统综合技术重点实验室 | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 |
CN106469559B (zh) * | 2015-08-19 | 2020-10-16 | 中兴通讯股份有限公司 | 语音数据的调整方法及装置 |
CN106469559A (zh) * | 2015-08-19 | 2017-03-01 | 中兴通讯股份有限公司 | 语音数据的调整方法及装置 |
CN105930308B (zh) * | 2016-04-14 | 2019-01-15 | 中国科学院西安光学精密机械研究所 | 基于低秩恢复的非负矩阵分解方法 |
CN105930308A (zh) * | 2016-04-14 | 2016-09-07 | 中国科学院西安光学精密机械研究所 | 基于低秩恢复的非负矩阵分解方法 |
CN107068160A (zh) * | 2017-03-28 | 2017-08-18 | 大连理工大学 | 一种语音时长规整系统及方法 |
CN107068160B (zh) * | 2017-03-28 | 2020-04-28 | 大连理工大学 | 一种语音时长规整系统及方法 |
CN109671433A (zh) * | 2019-01-10 | 2019-04-23 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
WO2020143652A1 (zh) * | 2019-01-10 | 2020-07-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
TWI730584B (zh) * | 2019-01-10 | 2021-06-11 | 大陸商騰訊科技(深圳)有限公司 | 關鍵詞的檢測方法以及相關裝置 |
CN109671433B (zh) * | 2019-01-10 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
US11749262B2 (en) | 2019-01-10 | 2023-09-05 | Tencent Technology (Shenzhen) Company Limited | Keyword detection method and related apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN102855884B (zh) | 2014-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2352145A1 (en) | Transient signal encoding method and device, decoding method and device and processing system | |
CN102855884B (zh) | 基于短时连续非负矩阵分解的语音时长调整方法 | |
CN102306492B (zh) | 基于卷积非负矩阵分解的语音转换方法 | |
US9135923B1 (en) | Pitch synchronous speech coding based on timbre vectors | |
US10249314B1 (en) | Voice conversion system and method with variance and spectrum compensation | |
WO2015139452A1 (zh) | 根据频域能量对语音信号进行处理的方法和装置 | |
US10008218B2 (en) | Blind bandwidth extension using K-means and a support vector machine | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
US20210335364A1 (en) | Computer program, server, terminal, and speech signal processing method | |
US20100217584A1 (en) | Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program | |
Mousa | Voice conversion using pitch shifting algorithm by time stretching with PSOLA and re-sampling | |
CN103489443B (zh) | 一种声音模仿方法及装置 | |
Parekh et al. | Speech-to-singing conversion in an encoder-decoder framework | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
CN113179444B (zh) | 一种基于语音识别的音字同步方法 | |
Toma et al. | A TD-PSOLA based method for speech synthesis and compression | |
KR101434592B1 (ko) | 뇌의 음향처리에 기반한 음성신호 프레임 분할 방법 | |
Zhu et al. | Analysis of hybrid feature research based on extraction LPCC and MFCC | |
KR102078350B1 (ko) | 음성 신호 대역폭 확장 장치 및 방법 | |
CN113179442B (zh) | 一种基于语音识别的视频中音频流替换方法 | |
Prasad et al. | Multi-frame rate based multiple-model training for robust speaker identification of disguised voice | |
Yan et al. | A greedy adaptive method for time scale modification based on acoustic prediction characteristics of human auditory system | |
CN114550733B (zh) | 一种可用于芯片端的语音合成方法 | |
Huang et al. | Recovery of lost speech segments using incremental subspace learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |