CN101290775A

CN101290775A - 一种快速实现语音信号变速的方法

Info

Publication number: CN101290775A
Application number: CNA2008101155682A
Authority: CN
Inventors: 冯宇红; 张晨
Original assignee: Vimicro Corp
Current assignee: Wuxi Vimicro Corp
Priority date: 2008-06-25
Filing date: 2008-06-25
Publication date: 2008-10-22
Anticipated expiration: 2028-06-25
Also published as: CN101290775B

Abstract

一种快速实现语音信号变速的方法，对每一帧语音进行变速处理时，先进行第一级搜索，从输入序列中的分析窗移动范围内的第一个样本点开始按预设步长移动分析窗，搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第一同步位置，然后进行第二级搜索，在第一同步位置与相邻的一个或两个移动位置之间逐点移动分析窗，再次搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第二同步位置，然后将处于第二同步位置的分析窗前Wov个样本点和输出缓存前Wov个样本点进行叠加，其中，Wov是分析语音与合成语音相叠加部分的长度。本发明可以大大降低计算复杂度。

Description

一种快速实现语音信号变速的方法

技术领域

本发明涉及语音技术，尤其涉及一种快速实现语音信号变速的方法。

背景技术

语音信号变速操作，指的是在不改变基音、音色等特征的前提下，改变信号播放的时间信息。现有多种重要的应用，例如，语言学习机，语音合成，卡拉OK，语音压缩，视频编缉中音视频信号同步等。

现有的变速算法可分为两大类：一类是基于时域叠接相加技术(OLA，Overlap-Add)；另一类是基于频域相位声码器(Phase Vocoder)技术。频域技术使用短时傅里叶变换(STFT，Short time Fourier Transform)，一般适用于音乐信号和大尺度变速，一般来说频域技术通常会引入可感知的相位失真，导致合成后声音不是很自然。时域技术使用叠接相加技术，为了解决叠加时的相位同步问题，通常需要在分析信号或合成信号中搜索一段同叠加部分波形相似的部分。时域同步技术利用了语音信号的准周期性特征，可以得到高质量的合成语音。

但时域技术通常适用于小尺度变速。常见的时域技术有：同步叠接相加技术(SOLA，Synchronized Overlap-Add)，基音同步叠接相加技术(PSOLA，Pitch Synchronized Overlap-Add)，波形相似叠接相加技术(WSOLA，WaveformSimilarity Overlap-Add)。

下面介绍一下采用WSOLA技术的语音信号变速方法，先介绍一下几个重要参数，请同时参照图1：

W：分析信号窗长度，表示了接受处理的语音信号的长度。

Sa：输入信号帧长，表示了按帧依次截取并进行处理的分析信号的帧长。

Ss：输出信号帧长。表示了按帧依次输出的合成信号的帧长。

Km：搜索得到的同步位置。

Wov：分析语音与合成语音相叠加部分的长度。

Kmax：分析窗移动量的最大值。

目前，整个方法的具体的实时处理流程是：首先从输入信号buffer里(长度为2W)，从第一个点开始，一直取W个点，作为一个分析窗；

然后将分析窗中的前Wov个点与输出buffer里(长度为W)的前Wov个点进行比较，比较它们之间的一致性。记录下比较的情况；

然后整个分析窗向后移动一个样本点，再将新分析窗中的前Wov个点与输出序列(文中指输出缓存中的样本点序列)中的前Wov个点进行比较，同时记录下比较结果；

这样依次做Kmax次，然后取出比较结果中最一致即相似度最大的那种情况；

然后将最一致的那种情况下的分析窗中前Wov个点与输出序列的前Wov个点按某种方式进行叠加，再将分析窗中剩余的Ss个点存入到输出buffer中去，并将输出buffer中的前Ss个点移出作为输出信号。

至此完成了一帧语音处理。下一帧语音处理，与上面基本相同，只不过要先将输入buffer中最老的Sa个点移出，并将新的Sa个点移入。

km是分析窗的移动量，km取值范围是0至Kmax，每次移动量为一个样本点。对于每一个分析窗口，通过比较分析窗前Wov个点与输出序列中的前Wov个点的一致性。从中取出一致性最好的那个分析窗，将其前Wov个点叠加到输出序列中去。设叠加时输入序列(文中指缓入缓存中的样本点序列)的窗用x(n)表示，输出序列用y(n)表示，那么：

y [n] = \{\begin{matrix} b [n] y [n] + (1 - b [n]) x [n + km], n = 0,1, . . ., W_{ov} - 1 \\ x [n + km], n = W_{ov}, . . ., W \end{matrix} - - - (1)

公式(1)表明，已经在输出buffer中的前Wov个点通过与输入buffer中所选定的分析窗中的前Wov个语音点以加权的方式叠加。叠加后将分析窗中剩余的Ss(Ss＝W-Wov)个点补充到输出序列中去。通过调整Sa的值和Ss的值就可以达到对语音信号进行时间长度上的变化。

加权窗函数b(n)的选取应当使得输入与输出序列之间实现平滑的连接。实验表明，采用简单的斜坡函数也可以达到较好的语音效果。斜坡函数的定义为：

b(n)＝1-n/Wov n＝0，1，Wov-1

每一个语音帧对应的同步位置km如何确定，关键在于解决时域一致性的判决标准。采用互相关系数来表示一致性的程度。那么对于第m个语音帧：

k_{m} = \max_{0 \leq k \leq K \max} (R_{xy}^{m} [k]) - - - (2)

其中R_xy ^m[k]是第m个语音帧中所取的输入序列中分析窗前Wov个点和输出序列中前Wov个点之间的归一化互相关系数，k表示分析窗起始位置所在的样本点序号，0≤k≤K_max，定义如下：

R_{xy}^{m} [k] = \frac{r_{xy}^{m} [k]}{\sqrt{r_{xx}^{m} [k] r_{yy}^{m} [k]}} - - - (3)

其中，r_xy ^m[k]为输入序列和输出序列的互相关值，r_xx ^m和r_yy ^m分别是输入序列和输出序列的自相关值。有：

r_{xy}^{m} [k] = Σ_{n = 0}^{Wov - 1} x [mSa + k + n] y [mSs + n] - - - (4)

r_{xx}^{m} [k] = Σ_{n = 0}^{Wov - 1} x^{2} [mSa + k + n] - - - (5)

r_{yy}^{m} [k] = Σ_{n = 0}^{Wov - 1} y^{2} [mSs + n] - - - (6)

在上述算法中，要保证输出信号的质量，需要选择合适参数，其中最重要的是Wov和Kmax。一般要求保证Wov长度最少为2个基音周期，Kmax长度最少1个基音周期。语音的基音频率范围在60～500Hz范围内，如果按60Hz计算，则Kmax长度最少为16ms，Wov长度最少为32ms。以8KHz采样频率语音信号为例(后面的参数取值都是以8KHz采样频率为例)，我们选择Kmax为128个样本，Wov为256个样本，W为384个样本(对应Ss为128个样本)，Sa则根据变速因子来确定。

从上述算法描述中，可以看到计算量主要集中在Km搜索。在0～Kmax范围内，如果采用全搜索，则需搜索Kmax点。对于每个搜索点，需要计算一个长度为Wov序列的互相关r_xy ^m和两个长度为Wov序列的自相关r_xx ^m和r_yy ^m，以及一个计算平方根和一个除法操作。其计算的复杂度较高，在以ARM，DSP等低功耗CPU为平台的资源受限的嵌入式设备上难以实现。

发明内容

本发明要解决的技术问题是提供一种快速实现语音信号变速的方法，大大降低计算复杂度。

采用WSOLA技术的时域变速算法在波形叠加时为了避免引入可感知失真，需要使用基于波形相似度测量的同步机制。现有大部分时域算法都采用计算分析信号和合成信号之间归一化的互相关值，选取对应互关值最大的样本点作为叠加时的同步点。时域变速算法计算量主要是同步点搜索过程(约占80％以上)。为了减少算法实现复杂度，本发明提出了一种新的时域变速的方法，主要从两方面入手降低计算复杂度，一是采用两级快速搜索算法，以减少搜索点数；二是对归一化的互相关值计算公式进行了简化，降低归一化互相关系数R_xy ^m的计算复杂度。在保证合成质量的前提下，大大降低实现计算复杂度。

为了解决上述问题，本发明提供了一种快速实现语音信号变速的方法，包括以下步骤：

对每一帧语音进行变速处理时，先进行第一级搜索，从输入序列中的分析窗移动范围内的第一个样本点开始按预设步长移动分析窗，搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第一同步位置，然后进行第二级搜索，在第一同步位置与相邻的一个或两个移动位置之间逐点移动分析窗，再次搜索到分析窗前Wov个样本点与输出缓存前Wov个样本点相似度最大时的第二同步位置，然后将处于第二同步位置的分析窗前Wov个样本点和输出缓存前Wov个样本点进行叠加，其中，Wov是分析语音与合成语音相叠加部分的长度。

进一步地，上述方法还可具有以下特点：所述两级搜索过程包括依序执行的以下步骤：

在范围[0，Kmax]内，以d为搜索的预设步长移动分析窗，在每一个移动位置，计算分析窗前Wov个点和输出序列前Wov个点之间的归一化互相关系数R_xy ^m，Kmax是分析窗移动量的最大值；

从上一步计算出的R_xy ^m值中，选出R_xy ^m最大值对应的第一同步位置Lm；

在以Lm为中心位置，间距为d的范围(Lm-d，Lm+d)内逐点移动分析窗，并在每一个移动位置k处计算Rxym值，其中Lm等于0时，0≤k＜d，Lm等于Kmax时，Kmax-d＜k≤Kmax，在其它情况下，Lm-d＜k＜Lm+d；

从上一步计算出的R_xy ^m值中，选出R_xy ^m最大值对应的第二同步位置Km。

进一步地，上述方法还可具有以下特点：

对第m个语音帧，在移动量为k的每一移动位置，0≤k≤K_max，先判断计算出的输入序列和输出序列的互相关值r_xy ^m[k]为正还是为负，只计算r_xy ^m[k]为正时的所述归一化互相关系数的平方(R_xy ^m[k])²；

从得到的所有(R_xy ^m[k])²值中选出一个最大值，做第一级搜索时，该最大值对应的移动位置即为所述第一同步位置，做第二级搜索时，该最大值对应的移动位置即为所述第二同步位置；

在进行所述叠加时，将分析窗前Wov个样本点与输出缓存前Wov个样本点直接进行加权叠加。

进一步地，上述方法还可具有以下特点：

对第m个语音帧，在移动量为k的每一移动位置，0≤k≤K_max，无论计算出的输入序列和输出序列的互相关值r_xy ^m[k]为正还是为负，均计算出所述归一化互相关系数的平方(R_xy ^m[k])²；

在进行所述叠加时，如果所述第二同步位置对应的r_xy ^m[k]为负，先将分析窗样本点的符号变反，再与输出缓存前Wov个样本点进行加权叠加，否则直接进行加权叠加。

进一步地，上述方法还可具有以下特点：

计算所述归一化互相关系数的平方(R_xy ^m[k])²的公式如下：

{(R_{xy}^{m})}^{2} = {(r_{xy}^{m})}^{2} / r_{xx}^{m}

其中，用递推方法计算输入序列的自相关值r_xx ^m，即：

r_{xx}^{m} [k + 1] = r_{xx}^{m} [k] + x^{2} [m S_{a} + k + W_{ov}] - x^{2} [m S_{a} + k]

其中：r_xx ^m和r_yy ^m分别是输入序列和输出序列的自相关值，S_a为输入信号帧长，k为当前的移动量，x[n]为输入序列中的样本点。

进一步地，上述方法还可具有以下特点：

使用在时域上抽取后的部分序列代替原始序列计算输入序列的自相关值r_xx ^m和输入序列和输出序列的互相关值r_xy ^m。

进一步地，上述方法还可具有以下特点：

所述方法基于波形相似叠接相加技术，在完成所述叠加后，再将分析窗中剩余的Ss个点存入到输出缓存中，并将输出缓存中的前Ss个点移出作为输出信号，至此完成了一帧语音处理，对下一帧语音处理前，将输入缓存中最老的Sa个点移出，并将新的Sa个点移入，其中Sa为输入信号帧长，Ss为输出信号帧长。

采用本发明在时域WSOLA算法基础上的快速算法，实验结果表明，在保证合成语音信号质量前提下(SNR只下降0.5dB)，计算复杂度降低为原始算法的1/10以下。适合在以ARM，DSP等低功耗CPU为平台的嵌入式设备上实现。

附图说明

图1是现有语音变速算法的示意图。

图2是本发明提出的时域变速的方法实现的流程图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细说明。

在全搜索算法中，输入信号需要逐个样本点移动分析窗以比较同输出信号一致性，从中找到对应归一化互相关系数最大的样本点位置，此时得到的是一种最优搜索结果。本实施例使用一种次优搜索算法，目的是得到一种接近最优的匹配结果，而且不会引入明显主观听觉失真。基于这个思想，本实施例采用一种两级搜索方法。第一级粗粒度搜索，可以让搜索步长为一常数，然后以此步长为单位来移动分析窗以获得粗粒度的同步位置；第二级细粒度搜索，在上一级搜索获得的位置附近，逐个样本点进行细粒度搜索。下面描述算法详细步骤：

第一步：在范围[0，Kmax]内，以d为搜索步长，移动分析窗计算R_xy ^m值；粗粒度搜索点位置Ln定义如下：

Ln＝n*d，0≤n≤Kmax/d (7)

第二步：从第一步计算出的R_xy ^m值中，选出R_xy ^m最大值对应的样本点位置；

第三步：在以上述选出的样本点为中心位置，间距为d的范围(Lm-d，Lm+d)内逐点移动分析窗以计算R_xy ^m值，细粒度搜索点位置k定义如下：

0≤k＜d，if Lm＝＝0

Kmax-d＜k≤Kmax，if Lm＝＝Kmax (8)

Lm-d＜k＜Lm+d，其他情况

第四步：从第三步计算出的R_xy ^m值中，选出R_xy ^m最大值对应的样本点位置Km。

从上述算法描述可以看出，快速算法实际搜索的点数Kmax/d+2*d。同全搜索算法相比，可认为计算复杂度下降为原来1/d(因为Kmax＞＞d，因此可忽略2*d)

d值的选取会直接影响搜索算法的精度，大的d值，常常会陷入局部最优的问题中。通过实验，d值可以选择3～5个样本点，较佳为4个样本点，对应输出信号SNR值只有0.5dB的下降，而且主观质量没有明显下降。

此外，本实施例还对搜索过程中用于一致性评价的归一化互相关系数的计算进行简化。

通常嵌入式设备的CPU，如ARM或DSP，都不直接支持开平方根计算。因此可以直接计算R_xy ^m的平方(R_xy ^m)²。

R_xy ^m计算过程中，需要计算两个自相关值r_xx ^m和r_yy ^m时，因为r_yy ^m值对于所有搜索点相同，公式(3)可简化为

{(R_{xy}^{m})}^{2} = {(r_{xy}^{m})}^{2} / r_{xx}^{m} - - - (10)

对于r_xx ^m可以采用递推方法进行计算，即

r_{xx}^{m} [k + 1] = r_{xx}^{m} [k] + x^{2} [m S_{a} + k + W_{ov}] - x^{2} [m S_{a} + k] - - - (9)

但当以(R_xy ^m)²作为一致性评价准则时，(R_xy ^m)²最大值有可能对应负的R_xy ^m值。此时，一种处理方法是在按公式(4)先计算出r_xy ^m[k]，如果r_xy ^m[k]为负，则不再计算(R_xy ^m)²。即只计算r_xy ^m[k]为正时的(R_xy ^m)²，从这些(R_xy ^m)²值中选出最大的一个，认为此时的比较结果最一致，然后基于该最大的(R_xy ^m)²对应的分析窗进行后续的叠加和其他运算。

另一种处理方式是同时考虑r_xy ^m[k]为正和为负的情况，即无论r_xy ^m[k]为正还是为负均计算出此时的(R_xy ^m)²值，从得到的(R_xy ^m)²值中选出最大的一个，基于该最大的(R_xy ^m)²对应的分析窗进行后续运算。但是，在进行叠加时，需要将叠加公式修改如下：

y [n] = \{\begin{matrix} b [n] y [n] + (1 - b [n]) x [n + km], n = 0,1, . . ., W_{ov} - 1 \\ x [n + km], n = W_{ov}, . . ., W \end{matrix} R_{xy}^{m} &GreaterEqual; 0 - - - (1)

y [n] = \{\begin{matrix} b [n] y [n] - (1 - b [n]) x [n + km], n = 0,1, . . ., W_{ov} - 1 \\ - x [n + km], n = W_{ov}, . . ., W \end{matrix} R_{xy}^{m} < 0 - - - (11)

即在该最大的(R_xy ^m)²对应于正的r_xy ^m[k]时，仍采用原来的叠加公式(1)，但在最大的(R_xy ^m)²对应于负的r_xy ^m[k]时，则采用上述公式(11)。上述公式(11)中，相当于将公式(1)分析窗样本点的符号变反，再与输出缓存前Wov个样本点进行叠加。因为r_xy ^m[k]为负但值较大时，相比较的两段样本点序列的波形只是在相位上差异较大，加以延时后两者的波形可能更为相似，因此在公式(11)中将其符号取反后再进行叠加。实验结果表明，采用这种处理方式得到的合成语音信号质量较佳。

此外，在计算r_xy ^m和r_xx ^m时，可以使用在时域上抽取后的序列代替原始序列，设抽取因子为c，则公式(4)和(5)简化为：

\begin{matrix} r_{xy}^{m} [k] = Σ_{n = 0}^{Wov - 1} x [mSa + k + n] y [mSs + n] & for & n = n + c \end{matrix} - - - (12)

\begin{matrix} r_{xx}^{m} [k] = Σ_{n = 0}^{Wov - 1} x^{2} [mSa + k + n] & for & n = n + c \end{matrix} - - - (13)

结合快速搜索算法(搜索步长d为4)和简化后的一致性评价准则(抽取因子c为2)两项改进后，实验结果表明，在保证合成语音信号质量前提下(SNR只下降0.5dB)，计算复杂度降低为原先1/10以下。并且输出信号SNR值和主观质量没有明显下降。

Claims

1、一种快速实现语音信号变速的方法，包括以下步骤：

2、如权利要求1所述的方法，其特征在于，所述两级搜索过程包括依序执行的以下步骤：

在以Lm为中心位置，间距为d的范围(Lm-d，Lm+d)内逐点移动分析窗，并在每一个移动位置k计算R_xy ^m值，其中Lm等于0时，0≤k＜d，Lm等于Kmax时，Kmax-d＜k≤Kmax，在其它情况下，Lm-d＜k＜Lm+d；

3、如权利要求2所述的方法，其特征在于：

4、如权利要求2所述的方法，其特征在于：

5、如权利要求3或4所述的方法，其特征在于：

计算所述归一化互相关系数的平方(R_xy ^m[k])²的公式如下：

{(R_{xy}^{m})}^{2} = {(r_{xy}^{m})}^{2} / r_{xx}^{m}

其中，用递推方法计算输入序列的自相关值r_xx ^m，即：

r_{xx}^{m} [k + 1] = r_{xx}^{m} [k] + x^{2} [m S_{a} + k + W_{ov}] - x^{2} [m S_{a} + k]

6、如权利要求5所述的方法，其特征在于：

7、如权利要求1所述的方法，其特征在于：