JP2002268660A - テキスト音声合成方法および装置 - Google Patents

テキスト音声合成方法および装置

Info

Publication number
JP2002268660A
JP2002268660A JP2001071098A JP2001071098A JP2002268660A JP 2002268660 A JP2002268660 A JP 2002268660A JP 2001071098 A JP2001071098 A JP 2001071098A JP 2001071098 A JP2001071098 A JP 2001071098A JP 2002268660 A JP2002268660 A JP 2002268660A
Authority
JP
Japan
Prior art keywords
excitation source
precision
speech
text
parameter sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001071098A
Other languages
English (en)
Inventor
Keiichi Tokuda
恵一 徳田
Takakatsu Yoshimura
貴克 吉村
Takao Kobayashi
隆夫 小林
Takashi Masuko
貴史 益子
Tadashi Kitamura
正 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP2001071098A priority Critical patent/JP2002268660A/ja
Publication of JP2002268660A publication Critical patent/JP2002268660A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】スペクトルパラメータ列をHMMに学習させ、
テキストによりHMMからスペクトルパラメータ列を生
成して音声合成するボコーダ型のテキスト音声合成シス
テムにおいて、より高品質の合成音声を出力できるよう
にするとともに、システムの自動構築を容易にすること
にある。 【解決手段】ボコーダ型の音声符号化方式における高精
度励振源モデルのパラメータ列を隠れマルコフモデルの
学習によりモデル化し、テキストに基づいてこの隠れマ
ルコフモデルから高精度励振源パラメ一タ列を生成して
高精度励振源を制御し、高精度励振源からつくられた励
振信号を合成フィルタに加えることにより、音声波形を
生成するようにした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ボコーダ型の音
声符号化方式によりテキストから高品質な音声を合成す
るテキスト音声合成方法および装置に関するものであ
る。
【0002】
【従来の技術】自動電話番号案内/自動残高照会/電子
メール読み上げなどの電話サービス、カーナビゲーショ
ンにおける音声インタフェース、パソコンの音声入出力
インタフェース、自動翻訳電話、など、音声認識、音声
合成の技術を用いた各種システムが実用化の段階に入ろ
うとしており、その将来への期待が高まっている。本発
明は、このような応用における音声合成方式と装置に関
するものである。従来の多くのテキスト音声合成方式に
おいては、音素、音節などの音声単位をつなぎ会わせる
ことにより、任意のテキストに対応する音声を合成して
いる。音声単位接続に際しては、音声波形そのものを接
続するものと、音声波形から抽出されたスペクトルパラ
メータ(合成フィルタのパラメータ)の領域で接続を行
った後、時間波形領域に戻すものに大別される。波形接
続によるものでは、音声単位内部では、高品質な音声が
得られるが、接続部において、不連続が起こり、接続歪
と呼ばれる品質劣化が起こる欠点がある。一方、スペク
トルパラメ一タ領域で接続を行うものでは、スペクトル
領域で適切な平滑化や補間を行うことにより、接続歪の
問題が起こりにくいという利点があるが、一度スペクト
ル領域に変換し、そこから音声波形領域に戻すことによ
って起こる音声品質の劣化が問題となる。波形接続、ス
ペクトル領域接続、いずれの場合に関しても、音声単位
の接続法に関して様々な工夫がなされている。しかし、
これらの多くは試行錯誤的なものであり、音声合成シス
テムを構築する度に、高度な専門知識を有した者が多大
な時間と労力をかけて、接続のための規則を記述した
り、接続の際のなんらかのパラメータをチューニングし
たりする必要があった。
【0003】ところで、スペクトルパラメ一タから音声
を合成する際には、スペクトルパラメータによって与え
られる合成フィルタを、何らかの励振信号によって励振
することにより、合成音声を得ている。通常は、励振信
号として、有声音部分にはパルス列、無声音部分には白
色雑音が用いられるが、これらは励振源モデルとして単
純化され過ぎており、合成音声の品質劣化は、このよう
な単純な励振源モデルを用いることが原因である。一
方、音声の低ビットレート符号化においても、同様の合
成フィルタを何らかの励根源信号により励振する音声生
成モデルが広く用いられている。このような音声符号化
方式は、ボコーダ型音声符号化方式と呼ばれる。近年、
励振源モデルの高精度化により、ボコーダ型音声符号化
方式の音声品質は格段に向上しつつある。
【0004】図6に、従来のボコーダ型音声符号化方式
による音声符号化システムの概略構成を示す。符号化器
41は、高精度励振源パラメータ抽出部42とスペクト
ルパラメータ抽出部43を備え、復号化器44は、高精
度励振源生成部45と合成フィルタ46を備えている。
【0005】符号化器41では、高精度励振源パラメー
タ抽出部42が入力音声信号から励振源パラメータ列を
抽出して高精度励振源モデルの符号化を行ない、またス
ペクトルパラメータ抽出部43が入力音声信号のスペク
トルパラメータ列を抽出して符号化している。これらの
符号化された音声情報は、任意に蓄積あるいは伝送され
たあと、復号化器44により復号化される。復号化器4
4では、高精度励振源生成部45が励振源パラメータ列
から高精度励振源モデルを生成して、合成フィルタ46
への励振信号をつくり、合成フィルタ46は、スペクト
ルパラメータ列から音道特性をシミュレートして、励振
信号から音声波形を生成し、出力する。ボコーダ型音声
符号化システムとして、MELP方式を考えた場合に
は、励振源パラメータ列は、フーリエ振幅、有声強度、
有声/無声フラグ、ピッチを含む。
【0006】
【発明が解決しようとする課題】音声合成システムの普
及に伴い、様々な話者の声質や発話様式で音声を合成す
ることが要求されるようになってきているが、これらの
要求のたびに、上記のような試行錯誤的な作業を行うこ
とは効率的ではない。このため、与えられた音声データ
から、音声合成システムを自動構築する方法が検討され
ている。このような手法のひとつに隠れマルコフモデル
(以下、HMMともいう)によるものがある。これは、
HMMを用いてスペクトルパラメータ列およびその動的
特徴量を学習し、音声合成時には、スペクトルパラメー
タ列をHMMから生成するもので、システムの自動構築
が可能である(*参考文献1)。更に、この手法では、
HMMのパラメータを適切に変換することにより,多様
な声質や発話様式の音声を合成することが可能となる利
点がある。但し、上記のHMMに基づく手法は、スペク
トル領域の処理を行う方式の一つとなっているため、一
度スペクトル領域に変換し、そこから音声波形領域に戻
すことによって起こる音声品質の劣化を避けることはで
きないという問題があった(*参考文献2,3)。 * 参考文献1: 吉村貴克,徳田恵一,益子貴史,小
林隆夫,北村正,“HMMに基づく音声合成におけるス
ペクトル・ピッチ・継続長の同時モデル化,”電子情報
通信学会論文誌(D-II),vol.J83-D-II,no.11,pp.2099-21
07,Nov.2000. * 参考文献2: 徳田恵一,“HMMによる音声合成
の基礎, ”信学技報,vol.100no.392,SP2000-74,pp.43-5
0,Oct.2000 (ビギナーセミナー) * 参考文献3: 徳田恵一,“隠れマルコフモデルの
音声合成への応用”信学技報vol.99, no.255,SP99-61,p
p.47-54,Aug.1999 (特別講演)
【0007】
【課題を解決するための手段】本発明は、スペクトルパ
ラメータ列をHMMに学習させ、テキストによりHMM
からスペクトルパラメータ列を生成して音声合成するボ
コーダ型のテキスト音声合成システムにおいて、高精度
励振源のパラメータもHMMにモデル化して、音声合成
時に高精度励振源パラメータをHMMから得て励振信号
を生成するようにして、上記の課題を解決するものであ
る。
【0008】図1に、本発明によるテキスト音声合成装
置の概要構成を示す。テキスト音声合成装置は、学習部
1と音声合成部2からなり、学習部1は、音声データベ
ース3、高精度励振源パラメータ抽出部4、スペクトル
パラメータ抽出部5、HMMの学習部6を備えている。
また音声合成部2は、コンテキスト依存HMMファイル
7、テキスト解析部8、パラメータ生成部9、高精度励
振源生成部10、合成フィルタ11を備えている。
【0009】学習部1は、音声データベース3の音声情
報でコンテキスト依存HMMファイル7を学習させる機
能をもつ。音声データベース3には、あらかじめサンプ
ルとして用意された多数の音声情報が格納されている。
音声情報は、図示の例のように,音声信号に波形の各音
素等の部分を識別するラベル(arauruやnuuy
ooku)を付加したものである。高精度励振源パラメ
ータ抽出部4とスペクトルパラメータ抽出部5は、それ
ぞれ音声データベース3から取り出した音声信号ごと
に、高精度励振源パラメータ列とスペクトルパラメータ
列を抽出する。HMMの学習部6は、抽出された高精度
励振源パラメータ列とスペクトルパラメータ列につい
て、音声データベース3から音声信号とともに取り出し
たラベルおよび時間情報を用いて、HMMの学習処理を
行なう。学習されたHMMは、コンテキスト依存HMM
ファイル7に格納される。
【0010】励振源モデルのパラメータは、有声・無声
などのモ一ドにより、パラメータの数や次元数が異なる
ことが多いため、直接、従来の離散HMMや連続HMM
によりこのようなパラメータ列のモデル化を行うことは
できないが、本発明では、多空間分布HMM(*参考文
献4)を用いることによりこれを可能としている。多空
間分布HMMは、パラメータベクトルの次元が、毎回、
異なることを許すように拡張されたHMMであり、有声
/無声フラグを含んだピッチは、このような次元が変化
するパラメータ列の例である。つまり、有声時には1次
元、無声時には0次元のパラメータベクトルとなる。学
習部1では、この多空間分布HMMによる学習を行って
いる。ラベル情報とは、具体的には、例えば、以下のよ
うなものを指し、各HMMは、これらを属性名(コンテ
キスト)としてもつ。 ・{先行、当該、後続}音素 ・当該音素のアクセント句内でのモーラ位置 ・{先行、当該,後続}の品詞,活用形,活用型 ・{先行,当該、後続}アクセント句のモーラ長,アク
セント型 ・当該アクセント句の位置,前後のポーズの有無 ・{先行,当該,後続}呼気段落のモーラ長 ・当該呼気段落の位置 ・文のモーラ長 このようなHMMは、コンテキスト依存HMMと呼ばれ
る。
【0011】音声合成部2は、任意の電子的なテキスト
から読み上げ形式の音声信号列を生成する機能をもつ。
テキスト解析部8は、入力されたテキストを解析して、
音素の配列であるラベル情報に変換する。パラメータ生
成部9は、ラベル情報に基づいてコンテキスト依存HM
Mファイル7を検索し、得られたコンテキスト依存HM
Mを接続し、文HMMを構成する。得られた文HMMか
ら、さらにパラメータ生成アルゴリズムにより、高精度
励振源パラメータ、およびスペクトルパラメータの列を
生成する。得られた高精度励振源パラメータ列とスペク
トルパラメータ列を、それぞれ高精度励振源生成部10
と合成フィルタ11に与える。高精度励振源生成部10
は、与えられた高精度励振源パラメータに対応する励振
源モデルにより励振信号を生成して、合成フィルタ11
に加える。合成フィルタ11は、与えられたスペクトル
パラメータに対応するフィルタ特性を形成し、入力され
た励振信号を逐次周波数領域で変形して、テキストに対
応する音声波形を生成する。
【0012】このように、本発明は、スペクトルパラメ
ータだけでなく、励振源モデルのパラメータをもHMM
によってモデル化することにより、以下の特徴をもつテ
キスト音声合成システムを構築することができる。 a.システムの自動構築が可能 b.HMMのパラメータ変換により多様な声質、発話様
式の実現が可能 c.高い品質の合成音声を出力可能 本発明は、以下のように構成される。 (1) ボコーダ型の音声符号化方式における高精度励
振源モデルのパラメータ列を隠れマルコフモデルにより
モデル化し、テキストに基づいてこの隠れマルコフモデ
ルから高精度励振源パラメ一タ列を生成して高精度励振
源を制御し、高精度励振源からつくられた励振信号を合
成フィルタに加えることにより、音声波形を生成するこ
とを特徴とするテキスト音声合成方法の構成。 (2) 学習用音声データベースの音声信号から抽出し
た高精度励振源パラメータ列およびスペクトルパラメー
タ列を、その音声信号のラベルおよび時間情報を用い
て、隠れマルコフモデルに学習させる段階と、入力され
たテキストから生成したラベル情報に基づいて上記隠れ
マルコフモデルから対応する高精度励振源パラメ一タ列
およびスペクトルパラメータ列を生成して、それぞれ高
精度励振源および合成フィルタを制御し、高精度励振源
からつくられた励振信号を合成フィルタに加えて音声波
形を生成する段階とからなることを特徴とするテキスト
音声合成方法の構成。 (3) 前項(1)または(2)において、高精度励振
源パラメータ列は、フーリエ振幅、有声強度、有声/無
声フラグ、ピッチであることを特徴とするテキスト音声
合成方法の構成。 (4) ボコーダ型の音声符号化方式における高精度励
振源モデルのパラメータ列を学習によりモデル化した隠
れマルコフモデルと、テキストに基づいてこの隠れマル
コフモデルから励振源パラメ一タを生成して高精度励振
源を制御し、高精度励振源からつくらボコーダ型の音声
符号化方式における高精度励振源モデルのパラメータ列
をモデル化した隠れマルコフモデルと、テキストに基づ
いてこの隠れマルコフモデルから高精度励振源パラメ一
タを生成して高精度励振源を制御し、高精度励振源から
つくられる励振信号を合成フィルタに加えて音声波形を
生成する音声合成部とを有することを特徴とするテキス
ト音声合成装置の構成。 (5) 前項(4)において、音声信号から抽出する高
精度励振源パラメータ列は、フーリエ振幅、有声強度、
有声/無声フラグ、ピッチであることを特徴とするテキ
スト音声合成装置の構成。 (6) 前項(4)において、高精度励振源は、パルス
とノイズを混合した混合励振源であることを特徴とする
テキスト音声合成装置の構成。 (7) 入力されたテキストを解析してラベル情報を生
成し、生成したラベル情報に基づいて、高精度励振源パ
ラメータ列をモデル化した隠れマルコフモデルから対応
する高精度励振源パラメ一タ列を生成し、高精度励振源
を制御し、高精度励振源からつくられた励振信号を合成
フィルタに加えて音声波形を生成する音声合成プログラ
ムを格納したプログラム記憶媒体の構成。 (8) 学習用音声データベースの音声信号から高精度
励振源パラメータ列およびスペクトルパラメータ列を抽
出し、その音声信号のラベルおよび時間情報とを用い
て、高精度励振源モデルを隠れマルコフモデルに学習さ
せる励振源モデル学習プログラムを格納したプログラム
記憶媒体の構成。 * 参考文献4:徳田恵一,益子貴史,宮崎 昇, 小林
隆夫,多空間上の確率分布基づいたHMM,”電子情報
通信学会論文誌(D-II),vol.J83-D-II,no.7,pp.1579-158
9,July 2000.
【0013】
【発明の実施の形態】本発明の実施の態様として、具体
例を説明する。特徴ベクトル 学習データとしてATR日本語音声データベースの男性
話者MHTによる音韻バランス450文章を用いた、サ
ンプリング周波数は16kHz、分析周期は5msとし
た。図2に、特徴ベクトルの構成を示す。
【0014】スペクトルパラメータとしては、25ms
長ブラックマン窓を用いて24次メルケプストラム分析
により得られたc(0)〜c(24)のメルケプストラ
ム係数を用いた。励振源パラメータとしては、MELP
と同様に、 ・ピッチ(p)(有声/無声フラグを含む) ・有声強度(bandpass voicing strength (Vbp)) ・フーリエ振幅(Fourier magnitude (M)) の3つを用いた、ピッチは対数周波数に変換して用い
た。有声強度は5つの周波数帯域0−1kHz、1−2
kHz、2−4kHz、4−6kHz、6−8kHzで
それぞれ求め、5次元のベクトルとした。フーリエ振幅
は10次元のベクトルとした。
【0015】学習に用いる特徴べクトルはスペクトルパ
ラメータ、励振源パラメータとそれぞれのデルタ、デル
タデルタパラメータから成る計213次元のべクトルと
した。HMMの学習 HMMは5状態のleft-to-right モデルとし、音素単位
で用意する。メルケプストラム、有声強度、フーリエ振
幅はそれぞれ連続分布HMM、ピッチは多空間分布HM
M(MSD−HMM)、継続長は多次元ガウス分布でモ
デル化する。ここでは、有声強度とフーリエ振幅が、メ
ルケプストラム、ピッチ、継続長の学習に影響を与えな
いよう、有声強度とフーリエ振幅のストリーム重みを0
とした。また使用するHMMは、音素環境、品詞、アク
セントなどのコンテキストを考慮したコンテキスト依存
モデルとした。
【0016】作成したコンテキスト依存HMMは、決定
木に基づくコンテキストクラスタリングによりメルケプ
ストラム、ピッチ、有声強度、フーリエ振幅、継続長
を、それぞれ別々に状態クラスタリングする。クラスタ
リングの結果、メルケプストラム、ピッチ、有声強度、
フーリエ振幅、継続長の総状態数はそれぞれ934、1
055、1651、1016となった。混合励振源モデルによる音声合成 図3に、音声合成システムのブロック構成を示す。ま
ず、入力テキストに基づき連結された文HMMからメル
ケプストラム、ピッチ、有声強度、フーリエ振幅を生成
する。次に、生成したピッチとフーリエ振幅に基づいて
パルス列を出力する。このとき、低域の有声強度が0.
5以下になるとき、ピッチに揺らぎを加えるようにす
る。有声強度の有声/無声の閾値を0.5に設定し、5
つの帯域それぞれについて有声/無声を判定する。有声
ならパルス列、無声ならノイズを各帯域に割り当て、周
波数帯域上で混合する。混合された信号はpulse disper
sion filter に通される。本稿に用いるpulse dispersi
on filter は、MELPと同様に三角パルスのスペクト
ルを白色化したものを使用する。最後に、メルケプスト
ラムに基づき構成されたMLSAフィルタを、得られた
混合励振源により励振し、合成音声を得た。但し、puls
e dispersion filter には遅延があるため、MELPで
は合成フィルタとpulse dispersion filter の処理の順
を逆にしており、ここでも、図3に示されているよう
に、MLSAフィルタとpulse dispersion filter の処
理の順を逆にしている。
【0017】HMMから生成した励振源として、パルス
とノイズを混合した混合励振源の例を図4(b)に示
す。図4(a)は従来の励振源の例である。ここで、図
4(b)の混合励振源は、MLSAフィルタに通す前に
pulse dispersion filter に通したものである。この図
から、生成された混合励振源が有声摩擦音“z”で周期
性と非周期性を共にもつ様子が観察できる。主観評価実験 混合励振源モデルを導入したテキスト音声合成システム
を主観評価実験により評価した。本稿で行なった主観評
価実験では、従来のパルスとノイズを切替える方式の励
振源によって得られた合成音声と混合励振源によって得
られた合成音声の比較を行い、さらに、有声強度、フー
リエ振幅、ピッチ揺らぎ、pulse dispersion filter の
それぞれの効果を確かめた。
【0018】受聴試験に用いた文章は53の中から被験
者毎にランダムに8文章を選んだ。受聴試験のサンプル
として以下の5種類の励振源を用いて合成した音声を用
意し、被験者8名に対比較試験をさせた。 ・ 従来のパルスとノイズを切替える方式の励振源(N
O) ・ 有声強度を用いてパルスとノイズを混合した混合励
振源(BP) ・ BPにおいて、パルスを発振する際にフーリエ振幅
を考慮したもの(FM) ・ FMパルス発生器にピッチ揺らぎを加えたもの(J
T) ・ JTで得られた信号をpulse dispersion filter に
通したもの(PD) 図5に、評価結果のプレファレンススコアを示す。結果
から、混合励振源によって得られた合成音声の品質が、
従来のものよりも向上することが確認できた。また、本
実験においては、フーリエ振幅(FM)やピッチ揺らぎ
(JT)の効果はなかったものの、pulse dispersion f
ilter (PD)による品質の向上がみられた。
【0019】以上説明した本発明に基づくテキスト音声
合成装置の機能は、マイクロプロセッサあるいはDSP
を含むハードウェア上で、プログラムにより実現され
る。プログラムはHDDなどのファイル記憶装置に記憶
され、動作中は主記憶にロードされるが、CD−ROM
などの可搬型の各種記憶媒体に記録しておくことも可能
である。
【0020】
【発明の効果】本発明のHMMを用いた励振源モデルに
よるテキスト音声合成方法および装置によれば、高い品
質の合成音声を出力できるとともに、システムの自動構
築が可能であり、また、HMMのパラメータ変換により
多様な声質、発話様式を容易に実現できる利点が得られ
る。さらに励振源として混合励振源を用いた場合、従来
のパルスとノイズを切替える方式の励振源を用いた場合
に比べて合成音声の品質を一層向上させることができ
る。
【図面の簡単な説明】
【図1】本発明によるテキスト音声合成装置の概要構成
図である。
【図2】本発明の1実施の形態においてHMMの学習に
用いられる特徴ベクトルの説明図である。
【図3】本発明の1実施の形態における音声合成シテム
の構成図である。
【図4】HMMから生成した励振源の例「少しずつ(s
ukoshizutsu)」の説明図である。
【図5】本発明の1実施の形態におけるパルスとノイズ
の混合励振源の効果の説明図である。
【図6】従来の高精度励振源モデルを用いたボコーダ型
音声符号化システムの概要構成図である。
【符号の説明】
1: 学習部 2: 音声合成部 3: 音声データベース 4: 高精度励振源パラメータ抽出部 5: スペクトルパラメータ抽出部 6: HMMの学習部 7: コンテキスト依存HMMファイル 8: テキスト解析部 10:高精度励振源生成部 11:合成フィルタ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 益子 貴史 東京都町田市南成瀬5−3−8 ハイツか ねこ102 (72)発明者 北村 正 名古屋市瑞穂区彌富町字円山16−2 八事 雲雀ヶ岡パークホームズ503 Fターム(参考) 5D045 AA01 CA02 CA04 CC01 CC07

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 ボコーダ型の音声符号化方式における高
    精度励振源モデルのパラメータ列を隠れマルコフモデル
    によりモデル化し、テキストに基づいてこの隠れマルコ
    フモデルから高精度励振源パラメ一タ列を生成して高精
    度励振源を制御し、高精度励振源からつくられた励振信
    号を合成フィルタに加えることにより、音声波形を生成
    することを特徴とするテキスト音声合成方法。
  2. 【請求項2】 学習用音声データベースの音声信号から
    抽出した励振源パラメータ列およびスペクトルパラメー
    タ列を、その音声信号のラベルおよび時間情報を用い
    て、隠れマルコフモデルに学習させる段階と、入力され
    たテキストから生成したラベル情報に基づいて上記隠れ
    マルコフモデルから対応する励振源パラメ一タ列および
    スペクトルパラメータ列を生成して、それぞれ高精度励
    振源および合成フィルタを制御し、高精度励振源からつ
    くられた励振信号を合成フィルタに加えて音声波形を生
    成する段階とからなることを特徴とするテキスト音声合
    成方法。
  3. 【請求項3】 請求項1または請求項2において、励振
    源パラメータ列は、フーリエ振幅、有声強度、有声/無
    声フラグ、ピッチであることを特徴とするテキスト音声
    合成方法。
  4. 【請求項4】 ボコーダ型の音声符号化方式における高
    精度励振源モデルのパラメータ列をモデル化した隠れマ
    ルコフモデルと、テキストに基づいてこの隠れマルコフ
    モデルから高精度励振源パラメ一タを生成して高精度励
    振源を制御し、高精度励振源からつくられる励振信号を
    合成フィルタに加えて音声波形を生成する音声合成部と
    を有することを特徴とするテキスト音声合成装置。
  5. 【請求項5】 請求項4において、高精度励振源パラメ
    ータ列は、フーリエ振幅、有声強度、有声/無声フラ
    グ、ピッチであることを特徴とするテキスト音声合成装
    置。
  6. 【請求項6】 請求項4において、高精度励振源は、パ
    ルスとノイズを混合した混合励振源であることを特徴と
    するテキスト音声合成装置。
  7. 【請求項7】 入力されたテキストを解析してラベル情
    報を生成し、生成したラベル情報に基づいて、高精度励
    振源パラメータをモデル化した隠れマルコフモデルから
    対応する高精度励振源パラメ一タ列を生成し、高精度励
    振源を制御し、高精度励振源からつくられた励振信号を
    合成フィルタに加えて音声波形を生成する音声合成プロ
    グラムを格納したプログラム記憶媒体。
  8. 【請求項8】 学習用音声データベースの音声信号から
    高精度励振源パラメータ列およびスペクトルパラメータ
    列を抽出し、その音声信号のラベルおよび時間情報とを
    用いて、高精度励振源モデルを隠れマルコフモデルに学
    習させる励振源モデル学習プログラムを格納したプログ
    ラム記憶媒体。
JP2001071098A 2001-03-13 2001-03-13 テキスト音声合成方法および装置 Pending JP2002268660A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001071098A JP2002268660A (ja) 2001-03-13 2001-03-13 テキスト音声合成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001071098A JP2002268660A (ja) 2001-03-13 2001-03-13 テキスト音声合成方法および装置

Publications (1)

Publication Number Publication Date
JP2002268660A true JP2002268660A (ja) 2002-09-20

Family

ID=18928868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001071098A Pending JP2002268660A (ja) 2001-03-13 2001-03-13 テキスト音声合成方法および装置

Country Status (1)

Country Link
JP (1) JP2002268660A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007256866A (ja) * 2006-03-24 2007-10-04 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2008191368A (ja) * 2007-02-05 2008-08-21 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
US7454343B2 (en) 2005-06-16 2008-11-18 Panasonic Corporation Speech synthesizer, speech synthesizing method, and program
JP2010224418A (ja) * 2009-03-25 2010-10-07 Kddi Corp 音声合成装置、方法およびプログラム
EP2270773A1 (en) 2009-07-02 2011-01-05 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
EP2276019A1 (en) 2009-07-02 2011-01-19 YAMAHA Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP2012048154A (ja) * 2010-08-30 2012-03-08 Toshiba Corp 音声合成装置、音声合成方法およびプログラム
JP2012058293A (ja) * 2010-09-06 2012-03-22 National Institute Of Information & Communication Technology 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
WO2012164835A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP2016085408A (ja) * 2014-10-28 2016-05-19 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
CN107924686A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音处理装置、语音处理方法以及语音处理程序
WO2020158891A1 (ja) * 2019-02-01 2020-08-06 ヤマハ株式会社 音信号合成方法およびニューラルネットワークの訓練方法
JP2020166299A (ja) * 2017-11-29 2020-10-08 ヤマハ株式会社 音声合成方法
US10878801B2 (en) 2015-09-16 2020-12-29 Kabushiki Kaisha Toshiba Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations
US11289066B2 (en) 2016-06-30 2022-03-29 Yamaha Corporation Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454343B2 (en) 2005-06-16 2008-11-18 Panasonic Corporation Speech synthesizer, speech synthesizing method, and program
JP2007256866A (ja) * 2006-03-24 2007-10-04 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
WO2007141993A1 (ja) * 2006-06-05 2007-12-13 Panasonic Corporation 音声合成装置
JP2008176132A (ja) * 2007-01-19 2008-07-31 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2008191368A (ja) * 2007-02-05 2008-08-21 Casio Comput Co Ltd 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
JP2010224418A (ja) * 2009-03-25 2010-10-07 Kddi Corp 音声合成装置、方法およびプログラム
EP2270773A1 (en) 2009-07-02 2011-01-05 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
EP2276019A1 (en) 2009-07-02 2011-01-19 YAMAHA Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US8115089B2 (en) 2009-07-02 2012-02-14 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US8338687B2 (en) 2009-07-02 2012-12-25 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
US8423367B2 (en) 2009-07-02 2013-04-16 Yamaha Corporation Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method
JP2012048154A (ja) * 2010-08-30 2012-03-08 Toshiba Corp 音声合成装置、音声合成方法およびプログラム
US9058807B2 (en) 2010-08-30 2015-06-16 Kabushiki Kaisha Toshiba Speech synthesizer, speech synthesis method and computer program product
JP2012058293A (ja) * 2010-09-06 2012-03-22 National Institute Of Information & Communication Technology 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
JPWO2012164835A1 (ja) * 2011-05-30 2015-02-23 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
US9324316B2 (en) 2011-05-30 2016-04-26 Nec Corporation Prosody generator, speech synthesizer, prosody generating method and prosody generating program
WO2012164835A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP2016085408A (ja) * 2014-10-28 2016-05-19 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
US11348569B2 (en) 2015-09-16 2022-05-31 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product using compensation parameters
CN107924686A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音处理装置、语音处理方法以及语音处理程序
US10650800B2 (en) 2015-09-16 2020-05-12 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US11423874B2 (en) 2015-09-16 2022-08-23 Kabushiki Kaisha Toshiba Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
CN107924686B (zh) * 2015-09-16 2022-07-26 株式会社东芝 语音处理装置、语音处理方法以及存储介质
US10878801B2 (en) 2015-09-16 2020-12-29 Kabushiki Kaisha Toshiba Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations
US11170756B2 (en) 2015-09-16 2021-11-09 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US11289066B2 (en) 2016-06-30 2022-03-29 Yamaha Corporation Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
JP2020166299A (ja) * 2017-11-29 2020-10-08 ヤマハ株式会社 音声合成方法
WO2020158891A1 (ja) * 2019-02-01 2020-08-06 ヤマハ株式会社 音信号合成方法およびニューラルネットワークの訓練方法

Similar Documents

Publication Publication Date Title
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
US8719030B2 (en) System and method for speech synthesis
US7977562B2 (en) Synthesized singing voice waveform generator
Huang et al. Recent improvements on Microsoft's trainable text-to-speech system-Whistler
US20060129399A1 (en) Speech conversion system and method
JP2002268660A (ja) テキスト音声合成方法および装置
EP2179414A1 (en) Synthesis by generation and concatenation of multi-form segments
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
Balyan et al. Speech synthesis: a review
JP2002244689A (ja) 平均声の合成方法及び平均声からの任意話者音声の合成方法
Reddy et al. Excitation modelling using epoch features for statistical parametric speech synthesis
Yoshimura et al. Incorporating a mixed excitation model and postfilter into HMM‐based text‐to‐speech synthesis
Lee et al. A segmental speech coder based on a concatenative TTS
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JPH0887297A (ja) 音声合成システム
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Irino et al. Evaluation of a speech recognition/generation method based on HMM and straight.
Ronanki et al. The CSTR entry to the Blizzard Challenge 2017
Govender et al. The CSTR entry to the 2018 Blizzard Challenge
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
Hirose et al. Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis
Baudoin et al. Advances in very low bit rate speech coding using recognition and synthesis techniques
Qin et al. An improved spectral and prosodic transformation method in STRAIGHT-based voice conversion
JP3552200B2 (ja) 音声信号伝送装置および音声信号伝送方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060711