CN106373590A

CN106373590A - 一种基于语音实时时长调整的声音变速控制系统和方法

Info

Publication number: CN106373590A
Application number: CN201610736919.6A
Authority: CN
Inventors: 谢海欧; 李文; 吴小明
Original assignee: Hunan Institute of Science and Technology
Current assignee: Hunan Institute of Science and Technology
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2017-02-01
Anticipated expiration: 2036-08-29
Also published as: CN106373590B

Abstract

本发明公开了一种基于PSOLA改进的检测基本周期波形（基音）的算法，涉及一种基于语音实时时长调整的声音变速控制系统和方法。该发明通过将输入信号（例如音频解码器音频源的输出）存储在缓冲存储器中；从缓冲存储器中成对抽取具有相同长度的相邻语音信号，并搜索出相邻两个语音信号之间失真最小的波形；将搜索到的两个的语音信号重叠相加;通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制；或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。本发明在语音实时时长调整中使用搜索算法进行基音检测来改进性能，精确的基本周期波形能够保持时长调整处理后语音（音调、音色、音质）的质量。

Description

一种基于语音实时时长调整的声音变速控制系统和方法

技术领域

本发明涉及语音信号处理技术领域，并且更具体的，涉及一种语音时长调整中的声音变速控制系统和方法。

背景技术

改变语音播放速度而不改变音调、音色和音质，这个有关语音时长调整技术的需求，早在20世纪50年代初，国内外很多学者就开始进行了广泛而深入的研究。现有方法主要包括时域法、频域法和参数法三种。但由于语音参数多, 抽取的算法比较复杂, 合成语音的自然度和清晰度都比较差。对语音信号的时长调整和基音标记修改,是语音信号处理领域中理论研究和实际应用的热门课题。为了实现高质量的时长调整和基音标记修改, 在过去几十年里, 已经提出了许多算法,但真正能在实时的语音处理方面, 尤其在语音连续的变速不变调的功能实现上不理想。语音时长调整算法PICOLA（指针间隔控制的重叠和相加，Pointer Interval Controlled Overlap and Add）提供了一种较为理想的基音检测。PICOLA假设待处理的数据从初始位置起是周期性的。随后使用前两个基本周期波形（基音）构成重叠相加的波形。通过用重叠相加的波形替代输入信号的一部分或者通过将重叠相加的波形插入输入信号中来实现语音速度控制功能。然而，PICOLA算法中基音检测的假设并非总是成立。

发明内容

本发明基于PICOLA算法，提出了一种动态搜索算法进行基音检测方法。在待处理样本的范围内搜索基音，获取准确的用来产生重叠相加的波形所需的基本周期语音信号。包括以下步骤：

通过将输入信号（例如音频解码器音频源的输出）存储在缓冲存储器中；

从缓冲存储器中成对抽取具有相同长度的相邻语音信号，并搜索到相邻两个语音信号之间失真最小的波形；

将搜索到的语音信号重叠相加，通过用重叠相加的语音信号替代被搜索到的语音信号或者通过将重叠相加的语音信号插入被搜索到的相邻两个语音信号中实现速度控制。

本发明在语音实时时长调整中使用动态搜索算法进行基音检测来改进性能，精确的基本周期波形能够保持时长调整处理后语音（音调、音色、音质）的质量。

附图说明

图1是语音时长调整的框图；

图2是时间尺度压缩原理图，其中（A）是原始信号，（B）是重叠-相加的波形，（C）是压缩信号；

图3是时间尺度扩展原理图，其中（A）是原始信号，（B）是重叠-相加的波形，（C）是扩展信号。

具体实施方式

下面结合附图1语音时长调整的框图，对本发明作进一步详细描述。

(1)本发明将输入信号（音频解码器的音频源输出）存储在缓冲存储器中。

(2)从缓冲存储器中成对抽取具有相同长度的相邻语音信号，并且挑选两个语音信号之间失真最小的那对波形。这里涉及到的具体细节为动态搜索基音检测算法运用：

本发明修改了PICOLA中的检测基本周期语音信号（基音）的算法。基本周期波形的精确度决定了语音时长调整的性能。查找基本周期的新方法如下：

如果波形的基本周期是Pl，速度控制因子是γ，L是待处理的语音信号长度。那么，

查找基本周期语音信号的步骤如下：

1. for Pl = Lmin: Lmax；

2. 根据Pl和γ计算采样长度L；

3. for shiftPos = 0:L-2·Pl

4. periodPos = betterPos，bestPeriod = betterPeriod。

Lmin是待处理语音的最小基本周期，而Lmax是待处理语音的最大基本周期。语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz。所以Lmin =采样率/600；Lmax =采样率/40。是当基本周期长度为Pl时两个语音信号之间的平均失真，和是相邻的语音信号，shiftPos是候选基本周期语音信号的起始点。挑选使失真最小的起始点shiftPos和长度Pl，并由此确定对应的基本周期。为了降低计算成本，可以使用阈值来确定基本周期位置和长度。

(3)将挑选的那对语音信号重叠相加。涉及到时间尺度压缩：

在图2中示出了压缩原理。b0是缓冲存储器中待处理数据的起始位置。周期位置（periodPos）和最佳周期（bestPeriod）使用上述方法来确定。L是最佳周期为bestPeriod时对应的需处理语音信号的长度。

波形A是起点位置为periodPos长度为bestPeriod的语音信号，函数S_A（i）=(periodPos+bestPeriod -i)/ periodPos,periodPos≤i<periodPos+bestPeriod。把波形A和函数S_A相乘得到S_A(A);

波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号，函数S_B（i）=( i-periodPos-bestPeriod )/ periodPos, periodPos+bestPeriod≤i<periodPos+2·bestPeriod。把波形B和函数S_B相乘得到S_B(B);

重叠-相加的波形C通过将窗口化的语音信号S_A(A)和语音信号S_B(B)线性相加获得。用语音信号C替代原始语音信号A和B。则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。

(4)通过用重叠相加的语音信号替代输入信号的一部分或者通过将重叠相加的语音信号插入输入信号中实现速度控制。涉及到时间尺度扩展：

在图3中示出了扩展原理。b0是缓冲存储器中待处理语音的起始位置。使用与在用于基音检测的动态搜索方法来确定periodPos和bestPeriod。语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同。

将重叠-相加的语音信号C插入语音信号A和语音信号B之间。则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。

结论

本发明在语音时长调整中使用动态搜索算法进行基音检测来改进性能。精确的基本周期波形能够保持时长调整处理后语音（音调、音色）的质量。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于语音实时时长调整的声音变速控制系统和方法，其特征在于：

(1)通过将输入信号（例如音频解码器音频源的输出）存储在缓冲存储器中；

(2)从缓冲存储器中成对抽取具有相同长度的相邻语音信号，并搜索出相邻两个语音信号之间失真最小的波形；

(3)将搜索到的两个的语音信号重叠相加;

(4)通过用重叠相加的语音信号替代原输入信号中被搜索出来的相邻的两个语音实现语音速度变快的控制；或者通过将重叠相加的语音信号插入原输入中被搜索出来的相邻两个语音之间实现语音速度变慢的控制。

2.如权利要求1(2)所述的动态搜索基音检测算法，其特征在于修改了PICOLA中的检测基本周期语音信号（基音）的算法，基本周期波形的精确度决定了语音时长调整的性能，查找基本周期的新方法如下：

如果波形的基本周期是Pl，速度控制因子是γ，L是待处理的语音信号长度，那么，

查找基本周期语音信号的步骤如下：

（1）for Pl = Lmin: Lmax；

（2）根据Pl和γ计算采样长度L；

（3）for shiftPos = 0:L-2·Pl

（4）periodPos = betterPos，bestPeriod = betterPeriod;

Lmin是待处理语音的最小基本周期，而Lmax是待处理语音的最大基本周期,

语音的基本频率可以从低沉的男性嗓音的40Hz变化到儿童或者声调高的女性嗓音的600Hz,

所以Lmin =采样率/600；Lmax =采样率/40,是当基本周期长度为Pl时两个语音信号之间的平均失真，和是相邻的语音信号，shiftPos是候选基本周期语音信号的起始点,挑选使失真最小的起始点shiftPos和长度Pl，并由此确定对应的基本周期,为了降低计算成本，使用阈值来确定基本周期位置和长度。

3.如权利要求1(3)所述，其特征在于时间尺度压缩：

在图2中示出了压缩原理,b0是缓冲存储器中待处理数据的起始位置,周期位置（periodPos）和最佳周期（bestPeriod）使用上述方法来确定,L是最佳周期为bestPeriod时对应的需处理语音信号的长度;

波形A是起点位置为periodPos长度为bestPeriod的语音信号，函数S_A（i）=( periodPos+bestPeriod -i)/ periodPos,periodPos≤i<periodPos+bestPeriod,把波形A和函数S_A相乘得到S_A(A);

波形B是起点位置为periodPos+bestPeriod长度为bestPeriod的语音信号，函数S_B（i）=( i-periodPos-bestPeriod )/ periodPos, periodPos+bestPeriod≤i<periodPos+2·bestPeriod;把波形B和函数S_B相乘得到S_B(B);

重叠-相加的波形C通过语音信号 S_A(A)和语音信号S_B(B)线性相加获得,用语音信号C替代原始语音信号A和B,则长度L的原始数据转换成长度为L-bestPeriod的压缩数据。

4.如权利要求1(4)所述的动态搜索基音检测算法，其特征在于时间尺度扩展：

在图3中示出了扩展原理.b0是缓冲存储器中待处理语音的起始位置,使用与在用于基音检测的动态搜索方法来确定periodPos 和 bestPeriod,语音信号A和语音信号B构成重叠-相加的语音信号C的方法与时间尺度压缩中相同;

将重叠-相加的语音信号C插入语音信号A和语音信号B之间,则长度为L的原始语音信号转换成长度L+bestPeriod的扩展语音信号。