CN102436807A

CN102436807A - 自动生成重读音节语音的方法和系统

Info

Publication number: CN102436807A
Application number: CN2011102707598A
Authority: CN
Inventors: 王欢良; 邹平
Original assignee: Suzhou Speech Information Technology Co Ltd
Current assignee: Suzhou Speech Information Technology Co Ltd
Priority date: 2011-09-14
Filing date: 2011-09-14
Publication date: 2012-05-02

Abstract

一种自动生成重读音节语音的系统，包括：音素定位模块，用于确定接收到的语音信号中每个音素的位置，得到每个词、音节和音素的时间边界；声学特征提取模块，用于从语音信号中提取和重读相关的特征以及频谱特征；声学特征参数修正模块，用于把输入语音特征参数调整为对应的表示给定音节重读的特征参数，并对调整后的特征参数进行平滑处理；语音重构模块，用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音；特征变换参数库，用于存放每个音素的声学特征从非重读到重读的统计的变换矩阵参数。

Description

自动生成重读音节语音的方法和系统

技术领域

本发明涉及语音信号领域，具体地说，尤其是涉及一种自动生成重读音节语音的系统及方法。

背景技术

在言语交流中，为了表示强调或者引起关注，人们通常需要对语音中的某些音节进行重读。在某些语言中，重读位置的不同也会影响词语所表达的意思。此外，语言的抑扬顿挫主要依赖于重读位置和强度的控制。

当前计算机已被广泛应用于语音处理领域。计算机可以通过语音的声学特征来判断语音中重读音节的位置，也可以通过语音合成技术来生成带有重读音节的语音。语音合成技术通过预先训练的模型可以把一段文本转换成对应的语音。该合成语音的重音位置和输入文本内容直接相关，是通过文本分析确定的，如专利申请CN101223572A所述的。此外，合成的语音通常是特定人的，且自然度难以保证。而在一些实际应用场景中，需要计算机对一段输入语音进行处理，输出指定音节重读的语音。比如在计算机辅助的口语教学习系统中，对于用户发音错误的位置，需要系统播放错误位置重读的标准音来提示用户；或者系统自动生成重读位置不同的语音，让学习者来区分或者听辨不同的词。

为了控制语音的重音位置，现有方法主要是通过预先录制同一单词不同重音位置的读法，然后通过简单重组重音音素来产生音节重读的语音，如专利申请CN1474318A所述的。这种方法是非常低效，难以保证生成语音的自然度。

发明内容

为了解决上述问题，本发明公开一种自动生成重读音节语音的系统和方法。该系统可以对接收到的语音进行处理，使得任意指定音节的语音变为重读，而不影响原始语音的可懂度、自然度和音质。该系统可用于口语语言教学任务中，用来生成反馈指导信息或者重读听辨练习。

原理上，本发明利用预先学习得到的特征变换参数矩阵，通过对输入语音指定音节以及相关音素声学特征进行修正，然后重新合成来自动生成重读音节语音。

本发明采用如下的技术方案：

一种自动生成重读音节语音的系统，包括：

音素定位模块，用于确定接收到的语音信号中每个音素的位置，得到每个词、音节和音素的时间边界；

特征提取模块，用于从语音信号中提取和音节重读相关的特征以及频谱特征；

特征修正模块，用于利用预先估计出的特征变换参数，把输入语音特征参数调整为对应的表示给定音节重读的特征参数，并对调整后的特征参数进行平滑处理；

语音重构模块，用于采用修正后的语音声学特征参数通过源-滤波器模型重新合成语音；

特征变换参数库，用于存放统计的每个音素从非重读到重读的声学特征的变换矩阵参数。

以及一种自动生成重读音节语音的方法，包括如下步骤：

步骤1、通过语音识别技术获得输入语音的词、音节以及音素的时间边界；

步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征；

步骤3、根据音素类型和相对重读音节的位置，从特征变换参数库中获取每个音素对应的特征变换矩阵，通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量：

{\tilde{V}}_{i} (x_{p}) = A (x_{p}) V_{i} (x_{p}) - - - (1)

其中：V_i(x_p)表示输入语音中音素x_p的第i个特征向量，p表示音素x相对于重读音节的位置类型，A(x_p)表示位置类型为p的音素x的变换矩阵，

表示位置类型为p的音素x的第i个特征向量变换后的特征向量；

步骤4、根据变换后每个音素片段的时长，通过下式对每个音素的基音周期特征、声强特征和频谱特征进行线性插值：

{\hat{V}}_{i} (x_{p}) = \frac{1}{K_{e} - K_{s} + 1} Σ_{k = K_{s}}^{K_{e}} {\tilde{V}}_{k} (x_{p}), i = 1 . . . \hat{d} (x_{p}) - - - (2)

其中：d(x_p)表示位置类型为p的音素的时长，

表示位置类型为p的音素重读变换后的时长，表示音素x_p重读变换后的基音周期、声强和频谱特征组成的第k个特征向量，

表示插值后音素x_p的基音周期、声强和频谱特征组成的第i个特征向量；

步骤5、在变换之后的特征上，对相邻音素边界处的频谱特征逐帧采用长度为9的汉明窗(Hamming Window)进行插值平滑处理，对相邻音素边界处的基音周期和声强特征逐帧采用长度为11的矩形窗进行均值平滑处理；

步骤6、用变换之后的特征，包括基音周期，声强和频谱特征，通过源-滤波模型重新合成语音，输出指定音节重读的语音。

以及一种自动估计重音特征变换矩阵参数的方法，包括如下步骤：

步骤1、构建两个语音数据库，数据库Da存储中性语音，中性语音是指所有音节都不重读的语音；数据库Db存储和数据库Da语音对应的带有重读音节的语音；

步骤2、基于数据库Da和数据库Db分别训练一套音素上下文相关的3数据流的隐半马尔可夫模型(HSMM)；

步骤3、利用数据库Da上训练的HSMM音素模型通过强制对齐算法获得数据库Da上所有语音的音素边界；

步骤4、对数据库Db上的每个音素x，根据其相对于重读音节的位置，通过下式估计其音素时长特征的变换矩阵

{\hat{A}}^{2} (x_{p}) = \underset{A^{2} (x_{p})}{\arg \max} \underset{k = 1 . . . K}{Σ} p (A^{2} (x_{p}) V_{k}^{2} (x_{p}) | λ_{d}^{b} (x)) - - - (3)

其中：

表示在数据库Db上训练的音素x的时长统计分布模型，

表示数据库Da中与数据库Db上音素x_p对应的第k个音素样本的时长特征向量，A²(x_p)为位置类型为p的音素x的时长特征变换矩阵；

步骤5、对数据库Db上的每个音素x，根据其相对于重音音节的位置，通过下式估计其基音周期和声强特征的变换矩阵

{\hat{A}}^{1} (x_{i}) = \underset{A^{1} (x_{i})}{\arg \max} \underset{k = 1 . . . K}{Σ} p (g (f (A^{1} (x_{i}), V_{k}^{1} (x_{i})), {\hat{d}}_{k} (x_{i})), g (S_{k} (x_{i}), {\hat{d}}_{k} (x_{i})) | λ_{c}^{b} (x)) - - - (4)

其中：

表示在数据库Db上训练的音素x的声学特征的统计分布模型，S_k(x_p)表示数据库Da中与数据库Db上音素x_p对应的第k个音素片段的所有帧的谱特征组成的超向量，

表示数据库Da上音素x_p的第k个样本经过重读时长特征变换后的时长，

V_{k}^{1} (x_{p}) = [V_{k 1}^{1} (x_{p}), . . ., V_{kJ}^{1} (x_{p}), . . ., V_{kJ}^{1} (x_{p})],

V_{kJ}^{1} (x_{p}) = [p_{kJ} (x_{p}), e_{kJ} (x_{p}), 1]

表示数据库Da中与数据库Db上音素x_p对应的第k个音素片段的第j帧基音周期和声强特征组成的向量，A¹(x_p)为位置类型为p的音素x的基音周期和声强特征的变换矩阵，函数

f (A^{1} (x_{p}), V_{k}^{1} (x_{p})) = [A^{1} (x_{p}) V_{k 1}^{1} (x_{p}), . . ., A^{1} (x_{p}) V_{kJ}^{1} (x_{p}), . . ., A^{1} (x_{p}) V_{kJ}^{1} (x_{p})],

函数g(v₁，l)表示对向量v₁做长度为l的内插操作；

步骤6、把上述估计的特征变换矩阵

和

的参数存放到变换参数数据库，并根据音素种类x和音素位置类型p建立索引。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1示出了本发明的系统模块结构的示意图；

图2示出了本发明的生成任意音节重读语音的操作流程的示意图；

图3示出了本发明的变换音素声学特征的算法流程的示意图；

图4示出了本发明的估计特征变换参数矩阵的操作流程的示意图；

图5示出了本发明的一个通过重读提示用户发音错误的例子的示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细描述：

图1给出了本发明公开系统的模块结构示意图。

一种自动生成重读音节语音的系统装置共由6个模块组成，可分为两大部分：变换参数估计部分(训练阶段)和重读音节语音自动生成部分。

模块100是一个音素定位模块，其作用是获得输入语音中每个音素的准确时间边界，得到每个词、音节和音素的时间边界。预先训练一个基于隐马尔科夫模型(HMM)的声学模型。若输入语音文本已知，利用该HMM模型通过采用强制对齐(Forced Alignment)技术得到每个音素的时间边界；若输入语音文本未知，利用该HMM模型通过采用网络解码技术得到每个音素的时间边界。

模块101是一个特征提取模块，其作用是用于从语音信号中提取和音节重读相关的特征以及频谱特征。表示音素重读特性的特征包括：音素时长，音素上的基音周期值和声强值。音素时长可以通过音素定位模块100获得的音素时间边界计算得到。音素上的基音周期值可通过经典的基频提取算法来计算【D.Talkin，“A Robust Algorithm for Pitch Tracking (RAPT)，”in Speech Coding and Synthesis，W.B.Kleijn and K.K.Paliwal，Eds.，chapter 14，pp.495-518.Elsevier Science，Amsterdam，NL，1995.】。音素的频谱特征提取采用经典的基频自适应的时频平滑频谱分析技术【Hideki Kawahara，Ikuyo Masuda-Kasuse and Alain de Cheveigne：Restructuring speech representations using a pitch-adaptivetime-frequency smoothing and an instantaneous-frequency-based F0 extraction：Possible role of a reptitive structure in sounds，Speech Communication，27，pp.187-207(1999)】。

模块102是一个特征修正模块，其作用是通过矩阵变换运算，即利用预先计算的映射变换参数通过一个线性映射函数来对表示音素重读特性的特征和频谱特征进行修正，得到具有重读特性的声学特征参数。首先根据音素相对于重读音节的位置对音素进行分类；然后根据其类别对每个音素采用对应的变换参数对时长特征、基音周期和声强特征进行变换；接着对根据变换后的音素时长，对基音周期和声强特征以及频谱特征进行插值处理；最后采用汉明窗和矩形窗对频谱特征和基音周期、声强特征进行插值和均值平滑处理。

模块103是一个语音重构模块，其作用是利用变换后的特征重新生成指定音节重读的语音信号。采用变换后的频谱特征和基音周期、声强特征，语音重构模块基于源-滤波器模型来重新生成语音信号。

模块104是一个存储特征变换参数的数据库——特征变换参数库。该数据库用来存储每个音素在不同位置情况下从非重读到重度变换时其时长、基音周期和声强特征的变换矩阵参数。该数据库以音素名称和其类别建立索引。

模块105是一个特征变换参数估计模块。该模块用来计算音素声学特征从非重读到重读所需要的变换矩阵的参数。变换参数的估计采用基于最大似然准则的迭代重估算法来获得。

每类音素的声学特征的变换参数需要预先估计出来。利用模块100，101和模块105可以实现声学特征变换参数的估计过程。

根据本发明提供的自动生成重读音节语音的系统，本发明还公开一种自动生成重读音节语音的方法，包括如下步骤：

步骤1通过语音识别技术获得输入语音的词、音节以及音素的时间边界。

步骤2、从输入语音中提取每个音素的重音相关特征和频谱特征。

步骤3根据音素类型和相对重读音节的位置，从特征变换参数库中获取每个音素对应的特征变换矩阵，通过下式计算特定音节重读之后语音中每个音素的重音相关特征向量：

{\tilde{V}}_{i} (x_{p}) = A (x_{p}) V_{i} (x_{p})

(公式1)

表示位置类型为p的音素x的第i个特征向量变换后的特征向量。

{\hat{V}}_{i} (x_{p}) = \frac{1}{K_{e} - K_{s} + 1} Σ_{k = K_{s}}^{K_{e}} {\tilde{V}}_{k} (x_{p}), i = 1 . . . \hat{d} (x_{p})

(公式2)

其中：d(x_p)表示位置类型为p的音素的时长，

表示位置类型为p的音素重读变换后的时长，

表示音素x_p重读变换后的基音周期、声强和频谱特征组成的第k个特征向量，

表示插值后音素x_p的基音周期、声强和频谱特征组成的第i个特征向量。

步骤5、在变换之后的特征上，对相邻音素边界处的频谱特征逐帧采用长度为9的汉明窗(Hamming Window)进行插值平滑处理，对相邻音素边界处的基音周期和声强特征逐帧采用长度为11的矩形窗进行均值平滑处理。

具体地，语音识别采用预先训练的基于HMM的声学模型，该声学模型建模了语音中的每个音素单元。

具体地，输入语音的词、音节和音素边界采用通过强制对齐或者识别解码生成，在最大后验准则下使得语音中的每帧数据(通常为10～20ms长的片段)都归属于某个HMM模型，归属于同一HMM模型的数据即对应于该HMM模型所表示的音素。

典型地，音素重音特征采用基音周期、声强和音素时长。

典型地，根据相对重读音节的位置，句子中的音素归为6类：1)当前重读音节内的音素；2)当前词中位于重读音节之前的音素；3)当前词中位于重读音节之后的音素；4)当前重读音节所在词之前的词中的音素；5)当前重读音节所在词之后的词中的音素；6)其他词中的音素。

典型地，对于输入语音中的第6类音素，其重音相关特征和频谱特征不做修正。

典型地，同一个音素，其相对于重读音节的位置不同，所对应的特征变换矩阵不同。

典型地，所述的输入语音中位置类型为p的音素x的第i个特征向量V_i(x_p)分为两类，一类为基音周期和声强组成的3维特征向量，即：V_i ¹(x_p)＝[p_pi，e_pi，1]^T；另一类对应于音素时长组成的特征向量，即：V_i ²(x_p)＝[d_p，1]^T。

典型地，每个音素有一个时长特征向量，有N个基音周期和声强组成的特征向量，其中N为该音素的时长，单位为帧(通常设为5ms)。

典型地，所述的特征变换矩阵A(x_p)有两类，一类为基音周期和声强组成的特征向量对应的变换矩阵，记为A¹(x_p)，是一个2×3的矩阵；另一类为音素时长特征对应的变换矩阵，记为A²(x_p)，是一个1×2的矩阵。

典型地，在基于源-滤波器模型的重读音节语音生成过程中，基音周期特征用来生成激励信号，频谱特征用来构造表示声道响应的滤波器，声强特征用来控制合成信号的幅度增益。

图2给出了一个生成任意音节重读语音的操作流程图。首先获取用户输入或者系统预先录制的中性语音，然后利用预先训练的声学模型通过强制对齐或者网络解码来获得语音中每个音素的时间边界，根据音素时间边界提取音素的重读相关特征，包括音素时长，音素的基音周期和声强特征序列以及频谱特征序列，获得重读音节的位置，根据相对重读音节位置对音素进行分类，对每个音素的声学特征进行修正，最后采用频谱特征、基音周期和声强特征基于源-滤波模型重构语音信号获得指定音节重读的语音。

图3给出了一个音素声学特征变换的算法流程图。首先获得重读音节的位置，根据相对重读音节位置对音素进行分类，根据音素及其类别检索特征变换参数数据库，得到该音素的重读特征变换矩阵，然后根据1)式对音素基音周期和声强特征以及音素时长进行修正，根据2)式和变换后的音素时长对音素的频谱特征和变换后的基音周期和声强特征进行插值操作，对变换后的音素边界处的频谱特征、基音周期和声强特征进行平滑处理，最后得到变换修正后的音素声学特征。

本发明公开一种自动估计重音特征变换矩阵参数的方法，包括如下步骤：

步骤1、构建两个语音数据库，数据库Da存储中性语音(即所有音节都不重读的语音)；数据库Db存储和数据库Da语音对应的带有重读音节的语音。

步骤2、基于数据库Da和数据库Db分别训练一套音素上下文相关的3数据流的隐半马尔可夫模型(HSMM)【H.Zen，K.Tokuda，T.Masuko，T.Kobayashi，T.Kitamura，Hidden semi-Markov model based speech synthesis，Proc.of ICSLP 2004，vol.II，pp.1397-1400，Oct.2004】。

步骤3、利用数据库Da上训练的HSMM音素模型通过强制对齐算法获得数据库Da上所有语音的音素边界。

{\hat{A}}^{2} (x_{p}) = \underset{A^{2} (x_{p})}{\arg \max} \underset{k = 1 . . . K}{Σ} p (A^{2} (x_{p}) V_{k}^{2} (x_{p}) | λ_{d}^{b} (x))

(公式3)

其中：

表示在数据库Db上训练的音素x的时长统计分布模型，

表示数据库Da中与数据库Db上音素x_p对应的第k个音素样本的时长特征向量，A²(x_p)为位置类型为p的音素x的时长特征变换矩阵。

{\hat{A}}^{1} (x_{i}) = \underset{A^{1} (x_{i})}{\arg \max} \underset{k = 1 . . . K}{Σ} p (g (f (A^{1} (x_{i}), V_{k}^{1} (x_{i})), {\hat{d}}_{k} (x_{i})), g (S_{k} (x_{i}), {\hat{d}}_{k} (x_{i})) | λ_{c}^{b} (x))

(公式4)

其中：

V_{k}^{1} (x_{p}) = [V_{k 1}^{1} (x_{p}), . . ., V_{kJ}^{1} (x_{p}), . . ., V_{kJ}^{1} (x_{p})],

V_{kJ}^{1} (x_{p}) = [p_{kJ} (x_{p}), e_{kJ} (x_{p}), 1]

f (A^{1} (x_{p}), V_{k}^{1} (x_{p})) = [A^{1} (x_{p}) V_{k 1}^{1} (x_{p}), . . ., A^{1} (x_{p}) V_{kJ}^{1} (x_{p}), . . ., A^{1} (x_{p}) V_{kJ}^{1} (x_{p})],

函数g(v₁，l)表示对向量v₁做长度为l的内插操作，具体操作请见公式2。

步骤6、把上述估计的特征变换矩阵

和

典型地，所述的音素上下文相关的3数据流的隐半马尔可夫模型的声学特征采用基音周期、声强和频谱特征，组成3个独立数据流。

图4给出了估计音素特征变换参数矩阵的操作流程示意图。首先收集两批语音数据，一批是中性语音数据，另一批是和中性语音数据内容相同的但是每句语音中至少有一个字或单词重读的语音，然后用这两批数据分别训练的两组声学模型，采用7状态的HSMM来建模型每个音素，特征采用频谱特征、基音周期和声强特征，组成3个独立数据流，采用中性语音上训练的HSMM模型通过强制对齐对中性语音中的音素进行自动切分，然后基于最大似然准则估计时长特征的变换矩阵参数，具体操作可参考公式3)，在获得变换后的时长特征后，再基于最大似然准则估计音素基音周期和声强特征的变换矩阵参数，具体操作参考公式4)，最后把估计得到变换参数保存到变换参数数据库，并以音素及其类别建立索引。基于最大似然准则估计时长特征的变换矩阵参数的基本原理是：寻找一组变换参数对切分后的音素时长特征进行变换来最大化在相应重读音节对应的HSMM模型上的似然度。基于最大似然度准则估计音素基音周期和声强特征的变换矩阵参数的基本原理是：寻找一组变换参数对切分后的音素基音周期和声强特征进行变换并进行时长插值后来最大化在相应重读音节对应的HSMM模型上的似然度。参数搜索的过程可以采用文献【K.Tokuda，T.Yoshimura，T.Masuko，T.Kobayashi，T.Kitamura，Speech parameter generation algorithms for HMM-based speech synthesis，Proc.of ICASSP，pp.1315-1318，June 2000.】提出的经典算法来实现。

图5给出了一个利用本发明进行重读语音生成的具体实施例的示意图。在这个实施例中，系统提示用户练习句子“We heard Jack talking.”。用户在练习多遍后，总是把单词“heard”的发音发错。系统检测到这个发音错误之后，就可以提示用户说“heard”发音有错误，正确的发音应该是“We heard Jack talking.”，其中“heard”的发音是重读的。用户可以多次重放带有重读的系统提示语音，体会该单词的正确发音。

本发明的另外一个是实施例是在智能人机对话中，自动生成个性的、有感染力的可表述不同意义的语音。比如在一个对话中，系统需要生成“We heard Jack talking.”的语音。如果在该对话场景中，系统想强调我们听到的是“Jack”的谈话，而不是其他人的，那么合成的语音是“We heard Jack talking.”，即需要对“Jack”进行重读。如果在这个对话场景中，系统想强调的是我们听到的是“talking”的Jack，而不是“crying”或者“laughing”的Jack，那么合成的语音应该是“We heard Jack talking.”，即需要对“talking”进行重读。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但是这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种自动生成重读音节语音的系统，包括：

2.如权利要求1所述的自动生成重读音节语音的系统，其中音素定位模块采用语音识别技术通过强制对齐或者网络解码来获得音素边界。

3.如权利要求1所述的自动生成重读音节语音的系统，其中所述重读相关的特征包括基音周期，声强和音素时长；所述频谱特征采用基频自适应的平滑频谱；所述重新生成的语音中指定音节的语音具有重读特性；所述变换矩阵参数包括声强和基音周期特征的变换参数和音素时长特征的变换参数。

4.如权利要求1所述的自动生成重读音节语音的系统，其中特征修正模块进行参数调整是利用预先计算的映射变换参数通过一个线性映射函数来完成。

5.一种自动生成重读音节语音的方法，包括如下步骤：

{\tilde{V}}_{i} (x_{p}) = A (x_{p}) V_{i} (x_{p}) - - - (1)

{\hat{V}}_{i} (x_{p}) = \frac{1}{K_{e} - K_{s} + 1} Σ_{k = K_{s}}^{K_{e}} {\tilde{V}}_{k} (x_{p}), i = 1 . . . \hat{d} (x_{p}) - - - (2)

其中：d(x_p)表示位置类型为p的音素的时长，

表示位置类型为p的音素重读变换后的时长，

6.如权利要求5所述的自动生成重读音节语音的方法，其中步骤1具体包括：所述语音识别技术是采用预先训练的基于隐马尔科夫模型(HMM)的声学模型，该声学模型建模了语音中的每个音素单元；输入语音的词、音节和音素边界采用通过强制对齐或者识别解码生成，在最大后验准则下使得语音中的每帧数据都归属于某个HMM模型，归属于同一HMM模型的数据即对应于该HMM模型所表示的音素。

7.如权利要求5所述的自动生成重读音节语音的方法，其中具体包括；

音素重音特征采用基音周期、声强和音素时长；

根据相对重读音节的位置，句子中的音素归为6类：1)当前重读音节内的音素；2)当前词中位于重读音节之前的音素；3)当前词中位于重读音节之后的音素；4)当前重读音节所在词之前的词中的音素；5)当前重读音节所在词之后的词中的音素；6)其他词中的音素；对于输入语音中的第6类音素，其重音相关特征和频谱特征不做修正；

同一个音素，其相对于重读音节的位置不同，所对应的特征变换矩阵不同。

8.如权利要求5所述的自动生成重读音节语音的方法，其中具体包括：