CN101276584A

CN101276584A - 韵律图样产生装置、语音合成装置及其方法

Info

Publication number: CN101276584A
Application number: CNA2008100869346A
Authority: CN
Inventors: 益子贵史; 赤岭政巳
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-28
Filing date: 2008-03-28
Publication date: 2008-10-01
Also published as: JP2008242317A; US20080243508A1; JP4455610B2; US8046225B2

Abstract

本发明涉及韵律图样产生装置、语音合成装置及其方法，通过计算初始韵律图样和语音文集的训练句子的韵律图样的平均值和标准偏差在归一化参数产生单元产生归一化参数。然后根据所述归一化参数在韵律图样归一化单元对初始韵律图样的变化范围或变化宽度进行归一。结果，使用很小的计算量可以产生接近于人类语音的、自然度提高的韵律图样。

Description

韵律图样产生装置、语音合成装置及其方法

技术领域

本发明涉及韵律图样(prosody-pattern)产生装置、语音合成装置及其方法。

背景技术

将用于语音识别的隐马尔可夫模型(HMM)应用到从文本合成语音的语音合成技术的技术已经受到关注。具体地，通过使用作为一种HMM的韵律模型产生定义语音特征的韵律图样(基本频率图样和音素持续时间图样)来合成语音(例如，参见非专利文献1：T.Yoshimura，K.Tokuda，T.Masuko，T.Kobayashi和T.Kitamura在1999年9月的Proc.EUROSPEECH’99的第2347-2350页的“Simultaneous modeling ofspectrum，pitch and duration in HMM-based speech synthesis”)。

利用通过使用HMM本身来输出语音参数进而合成语音的语音合成技术，可以容易地实现各种说话者的各种语音风格。

除了上述的基于HMM的基本频率图样的产生，还提出了一种技术，利用该技术，通过考虑整个句子的基本频率分布来产生图样，可以提高基本频率图样的自然度(例如，参见非专利文献2：T.Toda和K.Tokuda在2005年9月的Proc.INTERSPEECH 2005的第2801-2804页的“Speechparameter generation algorithm considering global variance forHMM-based speech synthesis”)。

但是，在非专利文献2提出的技术中存在一个问题。由于通过重复使用一些算法来搜索最佳参数串，因此在产生基本频率图样的时候，计算量会增加。

此外，由于非专利文献2的技术利用了整个文本句子的基本频率的分布，因此，不能顺序地为句子的每个片段或相似物产生图样。因此，存在整个文本的基本频率图样不完成就不能输出语音的问题。

发明内容

根据本发明一个方面，一种韵律图样产生装置包括：初始韵律图样产生单元，该单元基于语言信息和韵律模型产生初始韵律图样，所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的；归一化参数产生单元，该单元分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数；归一化参数存储单元，该单元存储归一化参数；以及韵律图样归一化单元，该单元根据所述归一化参数对初始韵律图样的变化范围或变化宽度进行归一化。

根据本发明另一方面，一种语音合成装置包括：韵律模型存储单元，该单元存储韵律模型，在该韵律模型中韵律信息以构成语音数据的音素、音节和单词为单位被建模；文本分析单元，该单元分析输入到其中的文本，并输出语言信息；根据权利要求1的韵律图样产生装置，该装置通过使用韵律模型根据所述语言信息来产生指示语音方式的特征的韵律图样；以及语音合成单元，该单元通过使用该韵律图样来合成语音。

根据本发明又一方面，一种韵律图样产生方法包括：基于语言信息和韵律模型产生初始韵律图样，所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的；分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数；将归一化参数存储在存储单元中；以及根据所述归一化参数对初始韵律图样的变化范围或变化宽度进行归一化。

附图说明

图1是根据本发明一个实施例的语音合成装置的硬件结构的框图；

图2是所述语音合成装置的功能结构的框图；

图3是示出HMM的一个示例的示意图；

图4是韵律图样产生单元的功能结构的框图；以及

图5是产生归一化参数的过程的流程图。

具体实施方案

以下参照附图解释本发明所述的韵律图样产生装置、语音合成装置及其方法的示例性实施例。

现在参照图1-5解释本发明的一个实施例。图1是根据本发明实施例的语音合成装置1的硬件结构的框图。基本地，根据本实施例的语音合成装置1被配置为使用隐马尔可夫模型(HMM)执行语音合成处理，以从文本中合成语音。

如图1所示，语音合成装置1可以是个人计算机，该个人计算机包括中央处理单元(CPU)2，CPU 2用作计算机的主要部件并处于中心地位以控制计算机的其他单元。存储BIOS和类似内容的只读存储器(ROM)3和以可重写方式存储各种数据的随机访问存储器(RAM)4通过总线5被连接到CPU 2。

此外，通过未示出的I/O连接到总线5的有：存储各种程序以及类似内容的硬盘驱动器(HDD)6，用作读取计算机软件(即，被派发的程序)的机构并读取CD-ROM 7的CD(致密光盘)-ROM驱动器8，控制语音合成装置1和网络9之间的通信的通信控制设备10，诸如键盘和鼠标的用来指令进行各种操作的输入设备11，以及显示各种信息的显示设备12，诸如阴极射线管(CRT)以及液晶显示器(LCD)。

RAM 4具有以可重写方式在其中存储各种数据的性质，因此为CPU 2提供一个工作区域，作用为一个缓冲器。

图1中示出的CD-ROM 7用作本发明的记录介质，其中记录了操作系统(OS)和各种程序。CPU 2在CD-ROM驱动器8上读取记录在CD-ROM 7中的程序并将他们安装在HDD 6上。

不仅是CD-ROM 7，还有各种光盘，诸如DVD，各种磁光盘，各种磁盘，诸如软磁盘，以及各种系统的介质，诸如半导体存储器都可以被采用作为记录介质。并且，可以利用通信控制设备10通过诸如互联网的网络9将程序下载，并安装到HDD 6上。如果是这种情况，存储有程序的发送方的服务器的存储设备也包括在本发明的记录介质中。所述程序可以是在特定操作系统(OS)上运行的类型，可以执行一些各种处理，这将在稍后进行论述，或者所述程序可以包含在构成特定应用软件程序或OS的程序文件组中。

控制整个系统的操作的CPU 2基于载入到用作系统的主要存储器的HDD 6中的程序执行各种处理。

在CPU 2根据安装到语音合成装置1的HDD6中的程序而实现的功能中，现在要解释根据实施例的语音合成装置1的特征性功能。

图2是语音合成装置1的功能结构的框图。当语音合成装置1执行语音合成程序时，在其中体现出学习单元21和合成单元22。接下来是对学习单元21和合成单元22的简单解释。

学习单元21包括韵律模型学习单元31和韵律模型存储单元32。韵律模型学习单元31执行与韵律模型(HMM)的参数有关的训练。对于该训练，要求语音数据、音素标签串和语言信息。如图3所示，韵律模型(HMM)被定义为在状态转换概率a_ij＝P(q_t＝j|q_t-1＝i)的条件下组合起来的若干个信号源(状态)，在所述信号源(状态)处输出一个输出向量O_t的概率分布为b_i(O_t)。i，j的每一个代表一个状态号。输出向量O_t是表达短时间语音频谱和基本频率的参数。在这样的HMM中，在时间方向上和参数方向上的状态转换被依照统计学建模，因此HMM适合于表达由于不同因素而变化的语音参数。为了对基本频率建模，采用不同空间的概率分布。HMM中的模型参数学习是公知技术，因此省略对其的解释。以上述方式，韵律模型(HMM)由韵律模型学习单元31产生，并存储在韵律模型存储单元32，在所述韵律模型(HMM)中对构成语音数据的音素的参数串建模。

合成单元22包括文本分析单元33，作为韵律图样产生装置的韵律图样产生单元34，和语音合成单元35。文本分析单元33分析输入其中的日文文本，并输出语言信息。基于由文本分析单元33通过分析获得的语言信息，韵律图样产生单元34通过利用存储在韵律模型存储单元32中的韵律模型(HMM)产生确定语音特征的韵律图样(基本频率图样和音素持续时间图样)。可以采用非专利文献1中描述的技术来产生韵律图样。语音合成单元35基于韵律图样产生单元34产生的韵律图样来合成语音，并输出该合成的语音。

现在解释执行根据本实施例的语音合成装置1的特征功能的韵律图样产生单元34。

图4是韵律图样产生单元34的功能结构框图。韵律图样产生单元34包括初始韵律图样产生单元41，归一化参数产生单元42，归一化参数存储单元43以及韵律图样归一化单元44。

初始韵律图样产生单元41从存储在韵律模型存储单元32中的韵律模型(HMM)和语言信息(从文本分析单元33获得的语言信息或用于归一化参数训练的语言信息)产生初始韵律图样。

归一化参数产生单元42利用用于归一化参数训练的语音文集(speechcorpus)来产生归一化参数，用于将初始韵律图样归一化。该语音文集是通过将预先记录的语音波形剪切为音素并逐个地定义这些音素而创建的数据库。

图5是产生归一化参数的处理的流程图。如图5所示，归一化参数产生单元42从初始韵律图样产生单元41接收根据用于归一化参数训练的语言信息而产生的初始韵律图样(步骤S1)。接下来，归一化参数产生单元42从用于归一化参数训练的语音文集中提取对应于用于归一化参数训练的语言信息的训练句子的韵律图样(步骤S2)。所述语音文集的所述训练句子并不必须完全与用于训练的语言信息匹配。在步骤S3，产生归一化参数。所述归一化参数是在步骤S1接收到的初始韵律图样的平均值和标准偏差，以及在步骤S2中从用于归一化参数训练的语音文集中提取的对应于所述语言信息的训练句子的韵律图样的平均值和标准偏差。

归一化参数存储单元43在其中存储由归一化参数产生单元42产生的归一化参数。

韵律图样归一化单元44通过使用存储在韵律模型存储单元32中的韵律模型(HMM)和语言信息(由文本分析单元33提供的语言信息)，根据存储在归一化参数存储单元43中的归一化参数，对初始韵律图样产生单元41产生的初始韵律图样的变化范围或变化宽度进行归一化。换句话说，韵律图样归一化单元44对初始韵律图样产生单元41产生的初始韵律图样的变化范围或变化宽度进行归一化，用以将其调到与语音文集的训练句子韵律图样的变化范围或变化宽度同样的级别。

现在解释归一化处理。当要对初始韵律图样的变化范围进行归一化时，采用下面的公式用于归一化。

F(n)＝(f(n)-m_g)/σ_g×σ_t+m_t

其中：

f(n)是在第n个采样点的初始韵律图样的值；

F(n)是归一化之后韵律图样的值；

m_t是训练句子的韵律图样的平均值；

σ_t是训练句子的韵律图样的标准偏差；

m_g是初始韵律图样的平均值；以及

σ_g是初始韵律图样的标准偏差。

另一方面，当要对初始韵律图样的变化宽度进行归一化时，采用下面的公式用于归一化。

F(n)＝(f(n)-m_g)/σ_g×σ_t+m_g

在这个公式中，对于不同特质的声音(诸如音素、音拍以及重读短语)归一化参数m_t、σ_t、m_g和σ_g可被赋予不同的值。在这种情况下，通过施用线性内插技术或类似方法，每一采样点处的归一化参数的变异能够被平滑化。

根据该实施例，对初始韵律图样和语音文集的训练句子的韵律图样计算平均值和标准偏差，并采用该平均值和标准偏差作为归一化参数。初始韵律图样的变化范围或变化宽度根据这些归一化参数被归一化。这使得该语音声音与人类语音相接近，并提高其自然度，同时降低了产生韵律图样时的计算量。

此外，归一化参数，即初始韵律图样的平均值和标准偏差以及语音文集的训练句子的韵律图样的平均值和标准偏差，独立于初始韵律图样。因此，对每个采样点执行所述处理，语音可以以音素、单词或句子片段为单位被相继输出。

Claims

1.一种韵律图样产生装置，包括：

初始韵律图样产生单元，该单元基于语言信息和韵律模型产生初始韵律图样，所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的；

归一化参数产生单元，该单元分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数；

归一化参数存储单元，该单元存储所述归一化参数；以及

韵律图样归一化单元，该单元根据所述归一化参数对所述初始韵律图样的变化范围或变化宽度进行归一化。

2.如权利要求1所述的装置，其中由所述归一化参数产生单元产生的归一化参数对构成语音数据的音素、音节和单词单位具有不同的值。

3.如权利要求1所述的装置，其中所述韵律信息是基本频率。

4.如权利要求1所述的装置，其中所述韵律模型是隐马尔可夫模型(HMM)。

5.一种语音合成装置，包括：

韵律模型存储单元，该单元存储韵律模型，在该韵律模型中韵律信息以构成语音数据的音素、音节和单词为单位被建模；

文本分析单元，该单元分析输入到其中的文本，并输出语言信息；

根据权利要求1所述的韵律图样产生装置，该装置通过使用所述韵律模型根据所述语言信息来产生指示语音方式的特征的韵律图样；以及

语音合成单元，该单元通过使用所述韵律图样来合成语音。

6.一种韵律图样产生方法，包括：

基于语言信息和韵律模型产生初始韵律图样，所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的；

分别产生所述初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数；

将该归一化参数存储在存储单元中；以及

根据所述归一化参数对所述初始韵律图样的变化范围或变化宽度进行归一化。