CN102201240A

CN102201240A - 基于逆滤波的谐波噪声激励模型声码器

Info

Publication number: CN102201240A
Application number: CN2011101402696A
Authority: CN
Inventors: 陶建华; 温正棋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2011-05-27
Filing date: 2011-05-27
Publication date: 2011-09-28
Anticipated expiration: 2031-05-27
Also published as: CN102201240B

Abstract

本发明基于逆滤波的谐波噪声激励模型声码器，声码器包含有：参数提取模块接收语音数据，分析基频参数和频谱参数；逆滤波模块接收频谱参数设计逆滤波器，得到去除谱信息的残差信号；最大浊音频率估计模块接收基频参数和逆滤波后的残差信号，计算最大浊音频率将残差信号的频谱划分为低频段的谐波和高频段的噪声；浊音激励生成模块接收基频参数和最大浊音频率，分别用一组正弦波和高通滤波的高斯白噪声来构建激励模型中的低频谐波和高频噪声；清音激励生成模块用高斯白噪声；参数语音合成器模块接收频谱参数和清音激励信号或浊音激励信号，调用合成器输出语音。依据本发明实现对逆滤波后的残差信号建模，合成语音具有较好的自然度和清晰度。

Description

基于逆滤波的谐波噪声激励模型声码器

技术领域

本发明涉及一种混合激励模型声码器，具体涉及基于逆滤波的谐波噪声激励模型声码器。

背景技术

和谐人机交互技术一直都是人们关注的对象，声码器技术是其重要组成部分，它能够对一个人的声音进行处理，使之能够产生接近自然人发音的语音，其研究成果对参数语音合成技术、语音编码技术、个性化语音合成技术等的发展具有重要的意义。而目前的大多数声码器技术采用脉冲加白噪声激励模型，这种激励模型在浊音段用脉冲串构建激励信号，由于脉冲串周期性过强，采用这种激励模型合成语音音质不高，有很严重的机器声。残差信号是语音信号经过逆滤波去除谱信息后的残留信号，是激励建模的目标信号。脉冲加白噪声激励模型在高频段不能很好的模拟残差信号。与之相比，直接对残差信号进行建模的谐波噪声激励模型能够很好的解决这个问题。

发明内容

为了解决现有技术问题，本发明的目的是提出一种技术，可以对逆滤波后的残差信号进行建模，使生成的激励信号具有较高的准确性；根据浊音残差信号的频谱具有低频谐波和高频噪声的特性，求取最大浊音频率将浊音残差信号的频谱划分为高频段和低频段，分别采用一组正弦函数和高通滤波的高斯白噪声来构建，为此，本发明构建一种基于逆滤波的谐波噪声激励模型声码器。

为实现上述目的，本发明的基于逆滤波的谐波噪声激励模型声码器，利用电脑终端，分析语音数据的频谱、基频和最大浊音频率，用低频段的谐波和高频段的噪声构建谐波噪声激励模型来复现逆滤波后的残差信号，在激励建模过程中，对任何输入语音进行激励建模，所述谐波噪声激励模型声码器中：

具有一参数提取模块，输入端接收待分析语音数据，加窗分帧，计算基频参数和频谱参数；具有一输出端输出基频参数和频谱参数；

具有一逆滤波模块，输入端接收频谱参数和待分析语音数据，根据频谱参数设计逆滤波器对语音数据逆滤波；具有一输出端输出逆滤波后的残差信号；

具有一最大浊音频率估计模块，输入端接收基频参数和逆滤波后的残差信号；具有一输出端输出计算出的最大浊音频率；

具有一浊音激励生成模块，输入端接收基频参数和最大浊音频率，分低频段和高频段分别生成浊音激励信号；具有一输出端按帧输出生成浊音激励信号；

具有一清音激励生成模块，用高斯白噪声作为清音激励；具有一输出端按帧输出清音激励信号；

具有一参数语音合成器模块，输入端接收频谱参数和清音激励信号或浊音激励信号，调用语音合成器合成语音；具有一输出端输出语音合成结果；

优选地，所述最大浊音频率估计模块具有一频谱计算模块，输入端接收逆滤波后的残差信号，加窗分帧后进行短时傅里叶分析计算每帧残差信号的频谱幅度值；具有一输出端输出每帧残差信号的频谱幅度值；具有一子带划分模块，输入端接收基频参数和每帧残差信号的频谱幅度值，对残差信号的频谱幅度值的正频率部分按照基频划分为多个子带；具有一输出端输出每帧残差信号的频谱幅度值的子带划分结果；具有一K-均值聚类模块，输入端接收每帧残差信号的频谱幅度值的子带划分结果，定义子带之间的距离度量方法，采用K-均值聚类方法将子带划分为两类，将聚类结果一类视为谐波，一类视为噪声；具有一输出端输出每个子带的聚类结果；具有一Viterbi搜索模块，输入端接收每个子带的聚类结果，通过计算子带的K-均值聚类结果的斜率定义一帧残差信号可能的谐波/噪声转换点，定义相邻子带的谐波之间的拼接代价，运用Viterbi算法通过搜索最大拼接代价来得到最大浊音频率的最优路径；具有一输出端输出最大浊音频率的最优路径。

优选地，浊音激励生成模块具有一低频段谐波模块，输入端接收基频参数和最大浊音频率，采用一组正弦波构建低频段谐波；具有一输出端输出浊音激励低频段谐波信号；具有一高频段噪声模块，输入端接收最大浊音频率，设计截止频率为最大浊音频率的理想高通滤波器对高斯白噪声进行滤波得到浊音激励高频段噪声信号；具有一输出端输出浊音激励高频段噪声信号。

优选地，参数语音合成器模块具有一语音参数合成器模型，输入端接收频谱参数和清音激励信号或浊音激励信号，调用语音合成器合成语音；具有一输出端输出语音合成结果。

本发明的有益效果：本发明的第一方面，在最大浊音频率估计阶段，利用K-均值聚类和Viterbi搜索的方法。传统的基于频谱的最大浊音频率计算方法，往往需要定义一个谐波的度量方法，同时确定一个阈值来对候选的谐波成分进行判断。这种方法的准确性很大程度上取决于定义的谐波度量方法和采用的阈值大小，这样往往需要耗费大量的人力做实验来选择谐波度量方法和确定所采用的阈值，在不同情况下的语音又需要重新通过实验调整阈值。但是在本方法是通过K-均值聚类来确定可能的谐波/噪声转换点，通过Viterbi算法来搜索最大浊音频率的最优路径，不需要任何手工标注信息，从而大大降低了系统实现的复杂度和人工参与程度。

本发明的第二方面，在计算子带之间的距离时采用夹角度量方法。传统的基于欧式距离的度量方法，定义的是欧式空间的真实距离。由于子带之间的欧式距离较小，影响K-均值聚类。但是采用夹角度量方法，能够将子带之间的距离经过一个非线性变换放大，使聚类结果更加准确。

本发明的第三方面，在浊音激励建模阶段，采用一组正弦波构成的低频段和高通滤波的高斯白噪声构成的高频段组成。传统基于脉冲串的浊音激励，周期性太强，合成语音有严重的机器声，脉冲串频谱的零频段存在半个谐波与残差信号的频谱不符。但是本方法采用低频段和高频段对浊音激励分两段建模，能够有效去除合成语音的机器声，同时去除零频段半个谐波的干扰。

附图说明

图1是本发明所提出的基于逆滤波的谐波噪声模型声码器的总体框图。

图2是本发明的最大浊音频率估计的框图。

图3是本发明的构建浊音语音激励模型的框图。

图4是本发明的参数语音合成器的框图。

具体实施方式

下面结合附图和实例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。应该指出，所描述的实例仅仅视为说明的目的，而不是对本发明的限制。

图1是本发明基于逆滤波的谐波噪声激励模型声码器的系统示意图，系统以matlab语言编写，在windows平台下和在linux平台下均可使用Matlab程序编程运行。在附图1本发明的优选实施方案中，本系统被分为六部分：参数提取模块1、逆滤波模块2、最大浊音频率估计模块3、浊音激励生成模块4、清音激励生成模块5和参数语音合成器模块6组成。其中，输入的语音数据与参数提取模块1相连，逆滤波模块2与参数提取模块1相连，最大浊音频率估计模块3与逆滤波模块2相连，浊音激励生成模块4和清音激励生成模块5与最大浊音频率估计模块相连，参数语音合成器模块与浊音激励生成模块4和清音激励生成模块5选择相连。

具有一参数提取模块1，其输入端接收待分析语音数据，加窗分帧，计算基频参数和频谱参数；具有一输出端输出基频参数和频谱参数。

具有一逆滤波模块2，其输入端接收频谱参数和待分析语音数据，根据频谱参数设计逆滤波器对语音数据逆滤波；具有一输出端输出逆滤波后的残差信号。

具有一最大浊音频率估计模块3，其输入端接收基频参数和逆滤波后的残差信号；具有一输出端输出计算出的最大浊音频率。

具有一浊音激励生成模块4，其输入端接收基频参数和最大浊音频率，分低频段和高频段分别生成浊音激励信号；具有一输出端按帧输出生成浊音激励信号。

具有一清音激励生成模块5，用高斯白噪声作为清音激励；具有一输出端按帧输出清音激励信号。

具有一参数语音合成器模块6，其输入端接收频谱参数和清音激励信号或浊音激励信号，调用语音合成器合成语音；具有一输出端输出语音合成结果。

如图2最大浊音频率估计模块的框图所示：最大浊音频率估计模块3由频谱计算模块10、子带划分模块20、K-均值聚类模块30和Viterbi算法模块40。

频谱计算模块10的输入端接收逆滤波后的残差信号，加窗分帧后进行短时傅里叶分析计算每帧残差信号的频谱幅度值；具有一输出端输出每帧残差信号的频谱幅度值；在进行傅里叶分析时采用的长度为4096，这样能够确保接下来子带划分模块20划分出的子带具有较高的准确度。

子带划分模块20的输入端接收基频参数和每帧残差信号的频谱幅度值，对残差信号的频谱幅度值的正频率部分按照基频划分为多个子带，每个子带用一维向量表示；具有一输出端输出每帧残差信号的频谱幅度值的子带划分结果；子带长度和子带个数可以通过基频和采样率确定，使用公式为：

其中N为傅里叶分析的长度为4096，fs该帧语音的基频，Fs为语音信号的采样率，

为取整运算，length为子带长度，number为子带个数。

K-均值聚类模块30的输入端接收每帧残差信号的频谱幅度值的子带划分结果，定义子带之间的距离度量方法，采用K-均值聚类方法将子带划分为两类，将聚类结果一类视为谐波，一类视为噪声；具有一输出端输出每个子带的聚类结果；子带之间的距离定义采用向量夹角距离度量方法，使用公式为：

d (x_{i}, x_{j}) = \cos^{- 1} (\frac{Σ_{k = 1}^{M} x_{i} (k) \cdot x_{j} (k)}{\sqrt{Σ_{k = 1}^{M} {(x_{i} (k))}^{2}} \cdot \sqrt{Σ_{k = 1}^{M} {(x_{j} (k))}^{2}}})

其中，x_i、x_j为第i个和第j个子带的一维向量，M为每个子带的长度。

Viterbi搜索模块40的输入端接收每个子带的聚类结果，通过计算子带的K-均值聚类结果的斜率定义一帧残差信号可能的谐波/噪声转换点，使用公式为：

gradient_i，k＝|mark_k-mark_k+1|

其中，mark_k，mark_k+1为相邻两个子带的聚类结果，gradient_k为第i帧残差信号的第k个谐波的斜率；定义相邻两帧每个子带之间的拼接代价，使用公式为：

d(i_m，(i+1)_n)＝1/(|m-n|+l)

其中，i_m第i帧残差信号频谱的第m个子带，(i+1)_n第(i+1)帧残差信号频谱的第n个子带，l为定义距离偏移量，主要用来调整最大浊音频率最优路径的平滑程度；运用Viterbi算法通过搜索最大拼接代价来得到最大浊音频率的最优路径，使用公式为：

V_0，k＝P(x₀|k)·gradient_0，k

V_{t, k} = P (x_{t} / k) \cdot \max_{m &Element; M_{t}} (d ({(t - 1)}_{m}, t_{k}) \cdot V_{t - 1, m})

y_{T} = \arg \max x_{m &Element; M_{T}} (V_{T, m})

y_t-1＝Ptr(y_t，t)

其中，P(x₀|k)初始第1帧残差信号第k个谐波的概率，V_t，k为从第1帧残差信号开始第t帧残差信号的第k个谐波的最优路径代价，M_t为第t帧残差信号的谐波个数，Ptr为一回溯过程；具有一输出端输出最大浊音频率的最优路径。

如图3所示浊音激励生成模块的框图所示：浊音激励产生模块4由低频段谐波模块50和高频段噪声模块模块60。

低频段谐波模块50的输入端接收基频参数和最大浊音频率，计算谐波个数，使用公式为：

Num = \frac{VCO}{fs}

其中，VCO为该帧残差的最大浊音频率，fs为该帧语音的基频，Num为谐波个数；采用一组正弦波构建低频段谐波，正弦波的个数为Num，使用公式为：

x [n] = Σ_{k = 1}^{Num} \cos (2 π \cdot k \cdot n / fs + φ_{k, 0})

其中，fs为该帧语音的基频，Num为谐波个数，φ_k，0为第k个谐波的初始相位；具有一输出端输出浊音激励低频段谐波信号。

高频段噪声模块60的输入端接收最大浊音频率，设计截止频率为最大浊音频率的理想高通滤波器对高斯白噪声进行滤波得到浊音激励高频段噪声信号；具有一输出端输出浊音激励高频段噪声信号。

如图4所示参数语音合成器模块的框图所示：参数语音合成器模块6由LPC合成器模型(语音参数合成器模型)70组成。

LPC合成器模型70的输入端接收频谱参数和清音激励信号或浊音激励信号，调用语音合成器合成语音；具有一输出端输出语音合成结果。

上述实施例为本发明的较佳实施例，本发明的应用不仅限于电脑终端，还可应用到多种手持式移动设备或其它形式的移动设备。根据本发明的主要构思，本领域普通技术人员均可以产生多种相类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换。

Claims

1.一种基于逆滤波的谐波噪声激励模型声码器，利用电脑终端，分析语音数据的频谱、基频和最大浊音频率，用低频段的谐波和高频段的噪声构建谐波噪声激励模型来复现逆滤波后的残差信号，在激励建模过程中，对任何输入语音进行激励建模，其特征在于：所述谐波噪声激励模型声码器中：

具有一参数语音合成器模块，输入端接收频谱参数和清音激励信号或浊音激励信号，调用语音合成器合成语音；具有一输出端输出语音合成结果。

2.根据权利要求1所述的基于逆滤波的谐波噪声激励模型建模方法，其特征在于：所述最大浊音频率估计模块中：

具有一频谱计算模块，输入端接收逆滤波后的残差信号，加窗分帧后进行短时傅里叶分析计算每帧残差信号的频谱幅度值；具有一输出端输出每帧残差信号的频谱幅度值；

具有一子带划分模块，输入端接收基频参数和每帧残差信号的频谱幅度值，对残差信号的频谱幅度值的正频率部分按照基频划分为多个子带；具有一输出端输出每帧残差信号的频谱幅度值的子带划分结果；

具有一K-均值聚类模块，输入端接收每帧残差信号的频谱幅度值的子带划分结果，定义子带之间的距离度量方法，采用K-均值聚类方法将子带划分为两类，将聚类结果一类视为谐波，一类视为噪声；具有一输出端输出每个子带的聚类结果；

具有一Viterbi搜索模块，输入端接收每个子带的聚类结果，通过计算子带的K-均值聚类结果的斜率定义一帧残差信号可能的谐波/噪声转换点，定义相邻子带的谐波之间的拼接代价，运用Viterbi算法通过搜索最大拼接代价来得到最大浊音频率的最优路径；具有一输出端输出最大浊音频率的最优路径。

3.根据权利要求1所述的基于逆滤波的谐波噪声激励模型建模方法，其特征在于：浊音激励生成模块中：

具有一低频段谐波模块，输入端接收基频参数和最大浊音频率，采用一组正弦波构建低频段谐波；具有一输出端输出浊音激励低频段谐波信号；

具有一高频段噪声模块，输入端接收最大浊音频率，设计截止频率为最大浊音频率的理想高通滤波器对高斯白噪声进行滤波得到浊音激励高频段噪声信号；具有一输出端输出浊音激励高频段噪声信号。

4.根据权利要求1所述的基于逆滤波后残差信号的谐波噪声激励模型建模方法，其特征在于：参数语音合成器模块具有一语音参数合成器模型，输入端接收频谱参数和清音激励信号或浊音激励信号，调用语音合成器合成语音；具有一输出端输出语音合成结果。