CN101276584A - 韵律图样产生装置、语音合成装置及其方法 - Google Patents

韵律图样产生装置、语音合成装置及其方法 Download PDF

Info

Publication number
CN101276584A
CN101276584A CNA2008100869346A CN200810086934A CN101276584A CN 101276584 A CN101276584 A CN 101276584A CN A2008100869346 A CNA2008100869346 A CN A2008100869346A CN 200810086934 A CN200810086934 A CN 200810086934A CN 101276584 A CN101276584 A CN 101276584A
Authority
CN
China
Prior art keywords
unit
rhythm
rhythm pattern
normalized parameter
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100869346A
Other languages
English (en)
Inventor
益子贵史
赤岭政巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101276584A publication Critical patent/CN101276584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及韵律图样产生装置、语音合成装置及其方法,通过计算初始韵律图样和语音文集的训练句子的韵律图样的平均值和标准偏差在归一化参数产生单元产生归一化参数。然后根据所述归一化参数在韵律图样归一化单元对初始韵律图样的变化范围或变化宽度进行归一。结果,使用很小的计算量可以产生接近于人类语音的、自然度提高的韵律图样。

Description

韵律图样产生装置、语音合成装置及其方法
技术领域
本发明涉及韵律图样(prosody-pattern)产生装置、语音合成装置及其方法。
背景技术
将用于语音识别的隐马尔可夫模型(HMM)应用到从文本合成语音的语音合成技术的技术已经受到关注。具体地,通过使用作为一种HMM的韵律模型产生定义语音特征的韵律图样(基本频率图样和音素持续时间图样)来合成语音(例如,参见非专利文献1:T.Yoshimura,K.Tokuda,T.Masuko,T.Kobayashi和T.Kitamura在1999年9月的Proc.EUROSPEECH’99的第2347-2350页的“Simultaneous modeling ofspectrum,pitch and duration in HMM-based speech synthesis”)。
利用通过使用HMM本身来输出语音参数进而合成语音的语音合成技术,可以容易地实现各种说话者的各种语音风格。
除了上述的基于HMM的基本频率图样的产生,还提出了一种技术,利用该技术,通过考虑整个句子的基本频率分布来产生图样,可以提高基本频率图样的自然度(例如,参见非专利文献2:T.Toda和K.Tokuda在2005年9月的Proc.INTERSPEECH 2005的第2801-2804页的“Speechparameter generation algorithm considering global variance forHMM-based speech synthesis”)。
但是,在非专利文献2提出的技术中存在一个问题。由于通过重复使用一些算法来搜索最佳参数串,因此在产生基本频率图样的时候,计算量会增加。
此外,由于非专利文献2的技术利用了整个文本句子的基本频率的分布,因此,不能顺序地为句子的每个片段或相似物产生图样。因此,存在整个文本的基本频率图样不完成就不能输出语音的问题。
发明内容
根据本发明一个方面,一种韵律图样产生装置包括:初始韵律图样产生单元,该单元基于语言信息和韵律模型产生初始韵律图样,所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的;归一化参数产生单元,该单元分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数;归一化参数存储单元,该单元存储归一化参数;以及韵律图样归一化单元,该单元根据所述归一化参数对初始韵律图样的变化范围或变化宽度进行归一化。
根据本发明另一方面,一种语音合成装置包括:韵律模型存储单元,该单元存储韵律模型,在该韵律模型中韵律信息以构成语音数据的音素、音节和单词为单位被建模;文本分析单元,该单元分析输入到其中的文本,并输出语言信息;根据权利要求1的韵律图样产生装置,该装置通过使用韵律模型根据所述语言信息来产生指示语音方式的特征的韵律图样;以及语音合成单元,该单元通过使用该韵律图样来合成语音。
根据本发明又一方面,一种韵律图样产生方法包括:基于语言信息和韵律模型产生初始韵律图样,所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的;分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数;将归一化参数存储在存储单元中;以及根据所述归一化参数对初始韵律图样的变化范围或变化宽度进行归一化。
附图说明
图1是根据本发明一个实施例的语音合成装置的硬件结构的框图;
图2是所述语音合成装置的功能结构的框图;
图3是示出HMM的一个示例的示意图;
图4是韵律图样产生单元的功能结构的框图;以及
图5是产生归一化参数的过程的流程图。
具体实施方案
以下参照附图解释本发明所述的韵律图样产生装置、语音合成装置及其方法的示例性实施例。
现在参照图1-5解释本发明的一个实施例。图1是根据本发明实施例的语音合成装置1的硬件结构的框图。基本地,根据本实施例的语音合成装置1被配置为使用隐马尔可夫模型(HMM)执行语音合成处理,以从文本中合成语音。
如图1所示,语音合成装置1可以是个人计算机,该个人计算机包括中央处理单元(CPU)2,CPU 2用作计算机的主要部件并处于中心地位以控制计算机的其他单元。存储BIOS和类似内容的只读存储器(ROM)3和以可重写方式存储各种数据的随机访问存储器(RAM)4通过总线5被连接到CPU 2。
此外,通过未示出的I/O连接到总线5的有:存储各种程序以及类似内容的硬盘驱动器(HDD)6,用作读取计算机软件(即,被派发的程序)的机构并读取CD-ROM 7的CD(致密光盘)-ROM驱动器8,控制语音合成装置1和网络9之间的通信的通信控制设备10,诸如键盘和鼠标的用来指令进行各种操作的输入设备11,以及显示各种信息的显示设备12,诸如阴极射线管(CRT)以及液晶显示器(LCD)。
RAM 4具有以可重写方式在其中存储各种数据的性质,因此为CPU 2提供一个工作区域,作用为一个缓冲器。
图1中示出的CD-ROM 7用作本发明的记录介质,其中记录了操作系统(OS)和各种程序。CPU 2在CD-ROM驱动器8上读取记录在CD-ROM 7中的程序并将他们安装在HDD 6上。
不仅是CD-ROM 7,还有各种光盘,诸如DVD,各种磁光盘,各种磁盘,诸如软磁盘,以及各种系统的介质,诸如半导体存储器都可以被采用作为记录介质。并且,可以利用通信控制设备10通过诸如互联网的网络9将程序下载,并安装到HDD 6上。如果是这种情况,存储有程序的发送方的服务器的存储设备也包括在本发明的记录介质中。所述程序可以是在特定操作系统(OS)上运行的类型,可以执行一些各种处理,这将在稍后进行论述,或者所述程序可以包含在构成特定应用软件程序或OS的程序文件组中。
控制整个系统的操作的CPU 2基于载入到用作系统的主要存储器的HDD 6中的程序执行各种处理。
在CPU 2根据安装到语音合成装置1的HDD6中的程序而实现的功能中,现在要解释根据实施例的语音合成装置1的特征性功能。
图2是语音合成装置1的功能结构的框图。当语音合成装置1执行语音合成程序时,在其中体现出学习单元21和合成单元22。接下来是对学习单元21和合成单元22的简单解释。
学习单元21包括韵律模型学习单元31和韵律模型存储单元32。韵律模型学习单元31执行与韵律模型(HMM)的参数有关的训练。对于该训练,要求语音数据、音素标签串和语言信息。如图3所示,韵律模型(HMM)被定义为在状态转换概率aij=P(qt=j|qt-1=i)的条件下组合起来的若干个信号源(状态),在所述信号源(状态)处输出一个输出向量Ot的概率分布为bi(Ot)。i,j的每一个代表一个状态号。输出向量Ot是表达短时间语音频谱和基本频率的参数。在这样的HMM中,在时间方向上和参数方向上的状态转换被依照统计学建模,因此HMM适合于表达由于不同因素而变化的语音参数。为了对基本频率建模,采用不同空间的概率分布。HMM中的模型参数学习是公知技术,因此省略对其的解释。以上述方式,韵律模型(HMM)由韵律模型学习单元31产生,并存储在韵律模型存储单元32,在所述韵律模型(HMM)中对构成语音数据的音素的参数串建模。
合成单元22包括文本分析单元33,作为韵律图样产生装置的韵律图样产生单元34,和语音合成单元35。文本分析单元33分析输入其中的日文文本,并输出语言信息。基于由文本分析单元33通过分析获得的语言信息,韵律图样产生单元34通过利用存储在韵律模型存储单元32中的韵律模型(HMM)产生确定语音特征的韵律图样(基本频率图样和音素持续时间图样)。可以采用非专利文献1中描述的技术来产生韵律图样。语音合成单元35基于韵律图样产生单元34产生的韵律图样来合成语音,并输出该合成的语音。
现在解释执行根据本实施例的语音合成装置1的特征功能的韵律图样产生单元34。
图4是韵律图样产生单元34的功能结构框图。韵律图样产生单元34包括初始韵律图样产生单元41,归一化参数产生单元42,归一化参数存储单元43以及韵律图样归一化单元44。
初始韵律图样产生单元41从存储在韵律模型存储单元32中的韵律模型(HMM)和语言信息(从文本分析单元33获得的语言信息或用于归一化参数训练的语言信息)产生初始韵律图样。
归一化参数产生单元42利用用于归一化参数训练的语音文集(speechcorpus)来产生归一化参数,用于将初始韵律图样归一化。该语音文集是通过将预先记录的语音波形剪切为音素并逐个地定义这些音素而创建的数据库。
图5是产生归一化参数的处理的流程图。如图5所示,归一化参数产生单元42从初始韵律图样产生单元41接收根据用于归一化参数训练的语言信息而产生的初始韵律图样(步骤S1)。接下来,归一化参数产生单元42从用于归一化参数训练的语音文集中提取对应于用于归一化参数训练的语言信息的训练句子的韵律图样(步骤S2)。所述语音文集的所述训练句子并不必须完全与用于训练的语言信息匹配。在步骤S3,产生归一化参数。所述归一化参数是在步骤S1接收到的初始韵律图样的平均值和标准偏差,以及在步骤S2中从用于归一化参数训练的语音文集中提取的对应于所述语言信息的训练句子的韵律图样的平均值和标准偏差。
归一化参数存储单元43在其中存储由归一化参数产生单元42产生的归一化参数。
韵律图样归一化单元44通过使用存储在韵律模型存储单元32中的韵律模型(HMM)和语言信息(由文本分析单元33提供的语言信息),根据存储在归一化参数存储单元43中的归一化参数,对初始韵律图样产生单元41产生的初始韵律图样的变化范围或变化宽度进行归一化。换句话说,韵律图样归一化单元44对初始韵律图样产生单元41产生的初始韵律图样的变化范围或变化宽度进行归一化,用以将其调到与语音文集的训练句子韵律图样的变化范围或变化宽度同样的级别。
现在解释归一化处理。当要对初始韵律图样的变化范围进行归一化时,采用下面的公式用于归一化。
F(n)=(f(n)-mg)/σg×σt+mt
其中:
f(n)是在第n个采样点的初始韵律图样的值;
F(n)是归一化之后韵律图样的值;
mt是训练句子的韵律图样的平均值;
σt是训练句子的韵律图样的标准偏差;
mg是初始韵律图样的平均值;以及
σg是初始韵律图样的标准偏差。
另一方面,当要对初始韵律图样的变化宽度进行归一化时,采用下面的公式用于归一化。
F(n)=(f(n)-mg)/σg×σt+mg
在这个公式中,对于不同特质的声音(诸如音素、音拍以及重读短语)归一化参数mt、σt、mg和σg可被赋予不同的值。在这种情况下,通过施用线性内插技术或类似方法,每一采样点处的归一化参数的变异能够被平滑化。
根据该实施例,对初始韵律图样和语音文集的训练句子的韵律图样计算平均值和标准偏差,并采用该平均值和标准偏差作为归一化参数。初始韵律图样的变化范围或变化宽度根据这些归一化参数被归一化。这使得该语音声音与人类语音相接近,并提高其自然度,同时降低了产生韵律图样时的计算量。
此外,归一化参数,即初始韵律图样的平均值和标准偏差以及语音文集的训练句子的韵律图样的平均值和标准偏差,独立于初始韵律图样。因此,对每个采样点执行所述处理,语音可以以音素、单词或句子片段为单位被相继输出。

Claims (6)

1.一种韵律图样产生装置,包括:
初始韵律图样产生单元,该单元基于语言信息和韵律模型产生初始韵律图样,所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的;
归一化参数产生单元,该单元分别产生初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数;
归一化参数存储单元,该单元存储所述归一化参数;以及
韵律图样归一化单元,该单元根据所述归一化参数对所述初始韵律图样的变化范围或变化宽度进行归一化。
2.如权利要求1所述的装置,其中由所述归一化参数产生单元产生的归一化参数对构成语音数据的音素、音节和单词单位具有不同的值。
3.如权利要求1所述的装置,其中所述韵律信息是基本频率。
4.如权利要求1所述的装置,其中所述韵律模型是隐马尔可夫模型(HMM)。
5.一种语音合成装置,包括:
韵律模型存储单元,该单元存储韵律模型,在该韵律模型中韵律信息以构成语音数据的音素、音节和单词为单位被建模;
文本分析单元,该单元分析输入到其中的文本,并输出语言信息;
根据权利要求1所述的韵律图样产生装置,该装置通过使用所述韵律模型根据所述语言信息来产生指示语音方式的特征的韵律图样;以及
语音合成单元,该单元通过使用所述韵律图样来合成语音。
6.一种韵律图样产生方法,包括:
基于语言信息和韵律模型产生初始韵律图样,所述韵律模型是通过以构成语音数据的音素、音节和单词为单位对韵律信息进行建模而获得的;
分别产生所述初始韵律图样的平均值和标准偏差以及包括在语音文集中的训练句子的韵律图样的平均值和标准偏差作为归一化参数;
将该归一化参数存储在存储单元中;以及
根据所述归一化参数对所述初始韵律图样的变化范围或变化宽度进行归一化。
CNA2008100869346A 2007-03-28 2008-03-28 韵律图样产生装置、语音合成装置及其方法 Pending CN101276584A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP085981/2007 2007-03-28
JP2007085981A JP4455610B2 (ja) 2007-03-28 2007-03-28 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法

Publications (1)

Publication Number Publication Date
CN101276584A true CN101276584A (zh) 2008-10-01

Family

ID=39795852

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100869346A Pending CN101276584A (zh) 2007-03-28 2008-03-28 韵律图样产生装置、语音合成装置及其方法

Country Status (3)

Country Link
US (1) US8046225B2 (zh)
JP (1) JP4455610B2 (zh)
CN (1) CN101276584A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578462A (zh) * 2012-07-18 2014-02-12 株式会社东芝 语音处理系统
CN103632662A (zh) * 2012-08-20 2014-03-12 株式会社东芝 韵律编辑装置、方法及程序
CN106409283A (zh) * 2016-08-31 2017-02-15 上海交通大学 基于音频的人机混合交互系统及方法
CN111739510A (zh) * 2020-06-24 2020-10-02 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP5726822B2 (ja) * 2012-08-16 2015-06-03 株式会社東芝 音声合成装置、方法及びプログラム
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6614745B2 (ja) * 2014-01-14 2019-12-04 インタラクティブ・インテリジェンス・グループ・インコーポレイテッド 提供されたテキストの音声合成のためのシステム及び方法
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
CN104485099A (zh) * 2014-12-26 2015-04-01 中国科学技术大学 一种合成语音自然度的提升方法
JP6420198B2 (ja) * 2015-04-23 2018-11-07 日本電信電話株式会社 閾値推定装置、音声合成装置、その方法及びプログラム
JP2015212845A (ja) * 2015-08-24 2015-11-26 株式会社東芝 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
CN107924678B (zh) 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
CN105302509B (zh) * 2015-11-29 2018-08-07 沈阳飞机工业(集团)有限公司 一种用于3d打印设计的半球面边界结构设计方法
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
CN110992927B (zh) * 2019-12-11 2024-02-20 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备
CN113658577A (zh) * 2021-08-16 2021-11-16 腾讯音乐娱乐科技(深圳)有限公司 一种语音合成模型训练方法、音频生成方法、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05232991A (ja) 1992-02-21 1993-09-10 Meidensha Corp 音声合成方法
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP4387822B2 (ja) 2004-02-05 2009-12-24 富士通株式会社 韻律正規化システム
JP4417892B2 (ja) 2005-07-27 2010-02-17 株式会社東芝 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578462A (zh) * 2012-07-18 2014-02-12 株式会社东芝 语音处理系统
CN103632662A (zh) * 2012-08-20 2014-03-12 株式会社东芝 韵律编辑装置、方法及程序
US9601106B2 (en) 2012-08-20 2017-03-21 Kabushiki Kaisha Toshiba Prosody editing apparatus and method
CN106409283A (zh) * 2016-08-31 2017-02-15 上海交通大学 基于音频的人机混合交互系统及方法
CN106409283B (zh) * 2016-08-31 2020-01-10 上海交通大学 基于音频的人机混合交互系统及方法
CN111739510A (zh) * 2020-06-24 2020-10-02 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质

Also Published As

Publication number Publication date
JP2008242317A (ja) 2008-10-09
US20080243508A1 (en) 2008-10-02
JP4455610B2 (ja) 2010-04-21
US8046225B2 (en) 2011-10-25

Similar Documents

Publication Publication Date Title
CN101276584A (zh) 韵律图样产生装置、语音合成装置及其方法
Shi et al. Aishell-3: A multi-speaker mandarin tts corpus and the baselines
CN110050302B (zh) 语音合成
CN101236743B (zh) 生成高质量话音的系统和方法
CN106688034A (zh) 具有情感内容的文字至语音转换
US10930264B2 (en) Voice quality preference learning device, voice quality preference learning method, and computer program product
Sangeetha et al. Speech translation system for english to dravidian languages
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
KR20230039750A (ko) 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기
Chen et al. The ustc system for blizzard challenge 2011
Do et al. Preserving word-level emphasis in speech-to-speech translation using linear regression HSMMs
US20090240501A1 (en) Automatically generating new words for letter-to-sound conversion
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Jeon et al. Automatic prosodic event detection using a novel labeling and selection method in co-training
Bernard et al. Shennong: A Python toolbox for audio speech features extraction
Chen et al. Speaker and expression factorization for audiobook data: Expressiveness and transplantation
JP4716125B2 (ja) 発音評定装置、およびプログラム
Rashmi et al. Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model
Ribeiro et al. Learning word vector representations based on acoustic counts
Jayakumari et al. An improved text to speech technique for tamil language using hidden Markov model
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
Wang et al. Combining extreme learning machine and decision tree for duration prediction in HMM based speech synthesis.
Moradi et al. Spoken language identification using a genetic-based fusion approach to combine acoustic and universal phonetic results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081001