CN102855884A

CN102855884A - 基于短时连续非负矩阵分解的语音时长调整方法

Info

Publication number: CN102855884A
Application number: CN2012103353627A
Authority: CN
Inventors: 张雄伟; 吴海佳; 黄建军; 陈卫卫; 赵改华; 李铁南
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2012-09-11
Filing date: 2012-09-11
Publication date: 2013-01-02
Anticipated expiration: 2032-09-11
Also published as: CN102855884B

Abstract

本发明公开了一种基于短时连续非负矩阵分解的语音时长调整方法，该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵；保持基矩阵不变，按语音时长调整比例，对编码矩阵进行线性内插；通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱；最后，利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明提升了语音时长调整的性能，改善了时长调整后语音的质量。

Description

基于短时连续非负矩阵分解的语音时长调整方法

技术领域

本发明属于语音信号处理技术领域，特别是一种基于短时连续非负矩阵分解的语音时长调整方法。

背景技术

语音时长调整技术可以在改变语音播放速度的同时保持语音的基音周期、共振峰结构等感知特征，使处理后的语音就像说话人主动改变语速一样。据调查，人说话的最快语速大约是每分钟110到180个单词，而人耳能够听懂的最大语速是它的2到3倍（1.M.R.Portnoff.Time-scale modification of speech based onshort-time fourier analysis[D].PhD Thesis,MIT,1978）。因此，如果使用语音时长调整技术按需调整语音资料的播放速度，则可最大限度的发挥人耳的听觉潜力，使人能够像浏览报纸一样“浏览”语音资料。

语音时长调整技术在音频信号处理中有着重要意义，例如：在语音识别、说话人识别中，可通过语音时长调整实现识别模版和参考模版的时间对齐；语音时长调整技术在广播电台对时间的要求方面也发挥了重要作用，如电视节目可利用语音时长调整技术达到视音频流的同步；语音时长调整技术也可用于语言、歌曲学习播放等，大大提高了学习效率；另外，通过语音时长调整还可以改善拥塞网络中的语音听觉效果（2.G.Hakki,G.Saadettin.Adaptive time scale modification ofspeech for graceful degrading voice quality in congested networks for VoIPapplications[J].Signal Processing,2006,86(1):127-139）。

在过去的研究中，语音时长调整主要有频域和时域两类方法。其中，时域方法简单直观、易于实现，因此得到了较快发展。早在1984年，Griffin和Lim提出了重叠相加法（OLA）（3.D.W.Griffin,J.S.Lim.Signal estimation from modifiedshort-time fourier transforms[J].IEEE Trans.On ASS P，1984,32(2):236-243），利用窗函数把语音信号分割成一系列相互重叠的帧，通过改变重叠部分长度来实现语音信号的压缩或扩展。但OLA算法存在相位不连续的问题。为了克服该问题，Roucos和Wilgus提出了同步叠加方法（SOLA）（4.S.Roucos,A.Wilgus.Highquality time-scale modification for speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Tampa,FL,USA,1985,10:493-496），Verhelst和Roelands提出了波形相似叠加法（WSOLA）（5.W.Verhelst,M.Roelands.An overlap-add technique based on waveform similarity(WSOLA)forhigh quality time-scale modification of speech[C].IEEE International Conference onAcoustics,Speech,and Signal Processing,Minneapolis,MN,USA,1993:554-557）。这两种算法在OLA算法的基础上引入一个偏移量来克服相位不连续的问题，不同的是前者在分帧叠加过程中引入偏移量，而后者在分帧提取过程中引入偏移量。然而，由于语音中的浊音段具有较强基音周期，分帧叠加的方法可能会破坏浊音段的基音结构，导致扩展后的语音存在机器音，而且随着扩展尺度的增大，机器音快速增强。为了克服这一问题，Moulines和Charpentier提出了时域基音同步叠加算法（TDPSOLA）（6.H.Valbret,E.Moulines,J.P.Tubach.Voicetransformation using PSOLA technique[J].Speech Communication,1992,11(2-3):175-187），该算法以基音周期为单位进行语音段的插入、删除和修改，达到在不破坏基音结构的前提下调整语音时长的目的。然而，由于该方法在对语音时长进行扩展时所操作的单位为固定的基音周期长度，只有当调整尺度为整数个基音周期时，才能获得较好的语音质量，对于连续时长调整，存在不稳定的问题。另外，TDPSOLA算法依赖于精确的基音周期标注，而这一点也是难以做到的。

发明内容

本发明的目的在于提供一种基于短时连续非负矩阵分解的语音时长调整方法，提升了语音时长调整的性能，改善了时长调整后语音的质量。

实现本发明目的的技术解决方案为：一种基于短时连续非负矩阵分解的语音时长调整方法，将一段语音资料调整出不同的播放速度，包括如下步骤：

第一步，获取原语音段y(n)的幅度谱M，并对M进行短时连续非负矩阵分解，获得基矩阵A与编码矩阵X；

第二步，对编码矩阵X按时长调整比例进行线性内插，获得内插后的新编码矩阵

第三步，由基矩阵A与新编码矩阵

合成新幅度谱

即

第四步，使用波形估计算法从

迭代重构时长调整后的语音段

本发明与现有技术相比，其显著优点：本发明对语音幅度谱进行非负矩阵分解后得到基矩阵与编码矩阵，其中基矩阵中的各基向量为原幅度谱空间中具有代表性的频谱，因此基矩阵能够包含原语音的基音周期信息等听觉感知特性，在对语音时长进行调整时，保持基矩阵不变，从而能够维持语音的感知特性，克服了SOLA与WSOLA算法在大尺度时长调整时存在的强机器音问题；同时，由于本发明的时长调整是对编码矩阵进行线性内插实现的，算法易于实现，避免了TDPSOLA算法以固定基音周期长度对语音波形进行操作，克服了其依赖于精确的基音周期标注问题，以及在连续时长调整时存在性能不稳定的问题。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法的流程图。

图2是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中，获取语音段的幅度谱，并对幅度谱进行非负矩阵分解的流程图。

图3是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中，使用短时连续非负矩阵分解算法对M进行分解的流程图。

图4是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中，对编码矩阵进行线性内插的示意图。

图5是本发明所公开的基于短时连续非负矩阵分解的语音时长调整方法中，使用波形估计算法从

迭代重构时长调整后的语音段

的流程图。

图6是应用本发明的较佳实施例的实施过程示意图。

具体实施方式

参考图1，本发明基于短时连续非负矩阵分解的语音时长调整方法，针对一段语音资料，在保持该段语音的听觉感知特性条件下，调整出不同的播放速度。首先获取该语音段y(n)的幅度谱M，并对M进行短时连续非负矩阵分解，获得基矩阵A与编码矩阵X（步骤100）；接着对编码矩阵X按时长调整比例进行线性内插，获得内插后的新编码矩阵

（步骤200）；然后由基矩阵A与新编码矩阵

合成新幅度谱

（步骤300）；最后使用波形估计算法从

迭代重构时长调整后的语音段

（步骤400）。

其中步骤100包括如图2所示的流程。首先对y(n)进行分帧加窗处理，窗函数为Hamming窗，帧长为L，帧移为R（步骤110）；

接着对各帧进行K点离散傅里叶变换，获得语音的时频谱Y(k,t)，具体计算公式如下：

Y (k, t) = Σ_{n = - \infty}^{\infty} y (n) h (n - tR) e^{- j 2 πkn / K},

0≤k≤K-1

这里，k＝0,1,…,K-1表示离散频率点，t＝0,1,…,T-1表示帧序号，K表示离散傅里叶变换时的频率点数，一般取2的整数次幂，如256或512等，T是指对y(n)分帧后的总帧数，h(n)为Hamming窗函数（步骤120）；

然后，保留时频谱Y(k,t)中的幅度信息，则得到y(n)的幅度谱M(k,t)，具体计算公式为如下：

M(k,t)＝|Y(k,t)|

为了便于标记，使用列向量m_t表示[M(0,t),M(1,t),…,M(K-1,t)]^T，从而y(n)的幅度谱可表示为M＝[m₀,m₁,…,m_T-1]（步骤130）；

最后，使用短时连续非负矩阵分解算法对M进行分析，得到如下分解结果：

M ≈AX

这里，

称为基矩阵，称为编码矩阵，r选择比K小的值，经过对比测试，r的取值范围为50~70时能获得较好效果（步骤140）。

在步骤140中，对M进行短时连续非负矩阵分解，获得基矩阵A与编码矩阵X，该步骤更包括如图3所示的流程。其中在步骤141中，使用随机正数初始化A与X，这里

T表示总帧数，K表示离散傅里叶变换时的频率点数，r为一正整数，需满足(K+T)×r《K×T，r取值范围为40~80；在步骤142中，使用如下公式对A进行更新：

A^{(i + 1)} = A^{(i)} . \times \frac{\frac{M}{A^{(i)} X^{(i)}} {(X^{(i)})}^{'}}{E_{K \times T} {(X^{(i)})}^{'}}

这里，A⁽ⁱ⁾是第i次迭代时对A的估计值，X⁽ⁱ⁾是第i次迭代时对X的估计值，A.×B与

表示两个矩阵对应位置元素相乘与相除，X'表示对矩阵X求转置，E_K×T表示K行T列的全1矩阵；在步骤143中，使用如下公式对X进行更新：

X^{(i + 1)} = X^{(i)} . \times \frac{&dtri; c^{-} (A^{(i)}, X^{(i)})}{&dtri; c^{+} (A^{(i)}, X^{(i)})}

这里，

&dtri; c^{-} (A^{(i)}, X^{(i)}) = {(A^{(i)})}^{'} \frac{M}{A^{(i)} X^{(i)}} + a {[2 T \frac{X_{l, j - 1}^{(i)} + X_{l, j + 1}^{(i)}}{Σ_{j = 0}^{T - 1} {(X_{l, j}^{(i)})}^{2}} + \frac{X_{l, j}^{(i)} Σ_{j = 1}^{T - 1} {(X_{l, j}^{(i)} + X_{l, j - 1}^{(i)})}^{2}}{{(Σ_{j = 0}^{T - 1} {(X_{l, j}^{(i)})}^{2})}^{2}}]}_{r \times T},

&dtri; c^{+} (A^{(i)}, X^{(i)}) = {(A^{(i)})}^{'} E_{K \times T} + a {[\frac{4 {TX}_{l, j}^{(i)}}{Σ_{j = 0}^{T - 1} {(X_{l, j}^{(i)})}^{2}}]}_{r \times T},

其中a的推荐取值为100，

表示第i次迭代后，矩阵X第l行j列处的元素，[·]_r×T表示r行T列的矩阵，该矩阵中元素按·所提供的计算方法得到；在步骤144中，使用如下公式对C进行更新：

C^{(i)} = Σ_{i = 0}^{K - 1} Σ_{j = 0}^{T - 1} [M_{i, j} \log \frac{M_{i, j}}{{(A^{(i)} X^{(i)})}_{i, j}} - M_{i, j} + {(A^{(i)} X^{(i)})}_{i, j}] + a Σ_{l = 0}^{r - 1} \frac{Σ_{j = 1}^{T - 1} {(X_{l, j}^{(i)} - X_{l, j - 1}^{(i)})}^{2}}{\frac{1}{T} Σ_{j = 0}^{T - 1} {(X_{l, j}^{(i)})}^{2}}

在步骤145中，若C⁽ⁱ⁾-C^(i-1)的值足够小（判定阈值的取值范围为[10^-3,10^-2]），则停止迭代，否则跳转到步骤142。

在步骤200中，对编码矩阵各行进行线性内插，内插后得到新的编码矩阵如图4所示，为该内插过程的示意图，内插公式如下：

这里，设定时长调整比例为α，α的意义在于α＝调整后语音的时/原语音时长，

表示对t/α下取整，

表示对t/α上取整。

在步骤300中，由基矩阵A与新编码矩阵

合成新幅度谱

是指

在步骤400中，使用波形估计算法从

迭代重构时长调整后的语音段

该步骤更包括如图5所示的流程。其中在步骤410中，初始化待估语音时频谱

在步骤420中，第i次估计的时频谱

的计算公式如下：

{\hat{Y}}^{(i)} (k, t) = \hat{M} (k, t) \frac{{\hat{Y}}^{(i - 1)} (k, t)}{| {\hat{Y}}^{(i - 1)} (k, t) |}

这里，

为第i次迭代所估计的目标语音，为

的时频谱，

为

的幅度谱；在步骤430中，由

估计语音波形

的公式如下：

{\hat{y}}^{(i + 1)} (n) = \frac{Σ_{t = 0}^{T - 1} {h (n - tR) \frac{1}{2 π} Σ_{k = 0}^{K - 1} [\hat{M} (k, t) \frac{{\hat{Y}}^{(i)} (k, t)}{| {\hat{Y}}^{(i)} (k, t) |} e^{j 2 πk (n - tR) / L}]}}{Σ_{t = 0}^{T - 1} h^{2} (n - tR)}

这里，h(n)为Hamming窗函数,T表示总帧数，K表示离散傅里叶变换时的频率点数，L表示帧长，R表示帧移；在步骤440中，迭代的停止条件为迭代次数i超过一个设定值，该设定值一般选择不超过50的正整数；在步骤450中，计算

的时频谱的方法与步骤120相同。

实施例

图6为对一段男声语音资料（办公室里都装备上了微电脑。）的时长调整比例α为2的时长调整过程示意图，其中语音的采样率为8KHz，分帧时窗长L为256，帧移R为64，对每帧进行离散傅里叶变换时，频率点数K=256，对幅度谱进行短时连续非负矩阵分解时，r取值为50，从幅度谱重构语音波形时，迭代次数为30。从图中可以看出，原语音y(n)经过本方法的语音时长调整后，得到调整后的语音

的时长为y(n)的两倍。