JP4539537B2

JP4539537B2 - 音声合成装置，音声合成方法，およびコンピュータプログラム

Info

Publication number: JP4539537B2
Application number: JP2005332354A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-11-17
Filing date: 2005-11-17
Publication date: 2010-09-08
Anticipated expiration: 2025-11-17
Also published as: US7739113B2; US20070112570A1; JP2007140002A

Description

本発明は，音声合成装置，音声合成方法，およびコンピュータプログラムに関する。詳しくは，テキストを読み上げる合成音声を，予め収録された音声を用いて生成する，音声合成装置，音声合成方法，およびコンピュータプログラムに関する。

予め録音された人の自然音声を用いて，ＰＣ（パーソナルコンピュータ）等に入力されたテキスト文書を音声に変換して読み上げる音声合成装置が一般に知られている。このような音声合成装置は，品詞単位に分割可能な自然音声が記録されている音声コーパスに基づいて音声を合成する。

上記音声合成装置は，まず，入力されたテキストに対して，例えば，形態素解析，係り受け解析を実行し，音素記号，アクセント記号などに変換する。次に，音素記号，アクセント記号列，および形態素解析結果から得られる入力テキストの品詞情報を用いて，音素持続時間（声の長さ），基本周波数（声の高さ），母音中心のパワー（声の大きさ）等の韻律パラメータの推定を行う。推定された韻律パラメータに最も近く，かつ波形辞書に蓄積されている合成単位（音素片）を接続したときのゆがみが最も小さくなる合成単位の組み合わせを動的計画法を用いて選択する。

韻律パラメータは，合成音声によるテキスト読み上げ時のイントネーションやアクセントなどに関係する。従来の音声合成装置は，上述のように，テキストの解析結果から推定された韻律パラメータに基づいて音声を合成するため，ユーザの希望に沿ったイントネーションやアクセントをもつ合成音声を生成することは困難であった。そこで，ユーザの所望のイントネーションやアクセントをもつ合成音声を生成するために，ＧＵＩを介してユーザに韻律パラメータを指定させて，指定された韻律パラメータに基づいて音声を合成する装置が提案されている。

「コーパス・ベース音声合成システムXIMERA」電子情報通信学会，信学技報，SP2005-18,P37-42(2005.5)

しかし，一般のユーザは，どの韻律パラメータをどのような値にすれば所望のイントネーションを作り出すことができるか分からない場合が多い。従って，上記のような韻律パラメータを指定させる装置では，一般のユーザが所望のイントネーション等の合成音声を生成させることは難しかった。

そこで，本発明は，このような問題に鑑みてなされたもので，その目的とするところは，一般のユーザでも簡単に所望のイントネーション，アクセントをもつ合成音声を生成させることの可能な，新規かつ改良された音声合成装置，音声合成方法，およびコンピュータプログラムを提供することにある。

上記課題を解決するために，本発明のある観点によれば，予め録音された音声を用いて，テキストを読み上げる合成音声を作成する音声合成装置において，予め録音された音声である収録音声が格納されている収録音声記憶部と，収録音声記憶部に格納されている収録音声に基づいて予め生成された，収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと，収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと，が格納されている音韻モデル記憶部と，合成音声を作成する対象のテキストを入力するテキスト入力部と，テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力部と，読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と，各ラベルに対応する各音素の境界位置を示すラベル情報と，を入力する属性情報入力部と，テキストを解析し，言語韻律情報を取得するテキスト解析部と，ラベル列，ラベル情報，および読み上げ音声に基づいて，読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出部と，ラベル列と，ラベル情報と，韻律パラメータと，言語韻律情報と，音韻モデル記憶部に格納されている音響モデルおよび韻律モデルとに基づいて，テキストが読み上げられる際の自然音声の音響的特徴を推定し，該特徴を示す音響パラメータを導出する特徴推定部と，収録音声記憶部から，韻律パラメータおよび音響パラメータを含む特徴パラメータに応じて収録音声を選択し，選択した収録音声を合成してテキストを読み上げる合成音声を作成する音声合成部と，を備える音声合成装置が提供される。

上記発明によれば，合成音声を作成する対象のテキストを読み上げた際の自然音声である読み上げ音声から，その音声の特徴を示す特徴パラメータが抽出され，抽出された特徴パラメータに応じて収録音声が選択される。そのため，自然音声の特徴に類似した特徴をもつ収録音声を選択し，その収録音声を合成して合成音声を作成することにより，自然音声の特徴に類似した特徴をもつ合成音声が生成される。従って，ユーザは，合成音声を作成する対象のテキストを読み上げた際の自然音声を本発明にかかる音声合成装置に入力することにより，その自然音声に類似した合成音声を生成させることができる。また，上記発明によれば，入力された自然音声の音響的特徴，および韻律的特徴と同一または類似した音響的特徴と韻律的特徴をもつ合成音声を生成することができる。音響的特徴としては，スペクトル，ケプストラム，デルタケプストラム，デルタデルタケプストラム，パワー，デルタパワー，デルタデルタパワー，それらの組み合わせを挙げることができる。韻律的特徴としては，基本周波数（声の高さ），母音中心のパワー（声の大きさ），音素の継続時間などを挙げることができる。さらに，上記発明によれば，収録音声の音響的特徴をモデル化した音響モデル，収録音声の韻律的特徴をモデル化した韻律モデルを用いて，合成音声に持たせるべき音響的特徴が推定される。つまり，発話者によって相違する音響的特徴が，収録音声の発話者自身の音声の音響的特徴をモデル化した音響モデルに従って推定される。そのため，入力された自然音声の発話者と，収録音声の発話者とが異なる場合であっても，合成音声が不自然になることを防止できる。言語韻律情報には，例えば，品詞やアクセントの情報が含まれる。

上記音声合成装置は，ラベル毎に，ラベルに対応する各音素の音響的な特徴をモデル化したラベル別音響モデルが格納されているラベル別音響モデル記憶部と，読み上げ音声と，ラベル列と，ラベル別音響モデルとに基づいて，ラベル情報を導出するラベル情報導出部と，をさらに備えていてもよい。かかる構成によれば，音声合成装置がラベル情報を導出するため，ユーザがラベル情報を作成しなくても済み，より簡単に合成音声を作成させることができる。

上記課題を解決するために，本発明の別の観点によれば，コンピュータに上記の音声合成装置として機能させるコンピュータプログラムが提供される。コンピュータプログラムは，コンピュータが備える記憶部に格納され，コンピュータが備えるＣＰＵに読み込まれて実行されることにより，そのコンピュータを上記の音声合成装置として機能させる。また，コンピュータプログラムが記録された，コンピュータで読み取り可能な記録媒体も提供される。記録媒体は，例えば，磁気ディスク，光ディスクなどである。

上記課題を解決するために，本発明の別の観点によれば，予め録音された音声を用いて，テキストを読み上げる合成音声を作成する音声合成方法において，合成音声を作成する対象のテキストを入力するテキスト入力ステップと，テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力ステップと，読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と，各ラベルに対応する各音素の境界位置を示すラベル情報と，を入力する属性情報入力ステップと，テキストを解析し，言語韻律情報を取得するテキスト解析ステップと，ラベル列，ラベル情報，および読み上げ音声に基づいて，読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出ステップと，ラベル列と，ラベル情報と，韻律パラメータと，言語韻律情報と，予め録音された音声である収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと，収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと，テキストが読み上げられる際の自然音声の音響的特徴を推定し，該特徴を示す音響パラメータを導出する特徴推定ステップと，収録音声記憶部から，韻律パラメータおよび音響パラメータを含む特徴パラメータに応じて収録音声を選択する選択ステップと，選択ステップにより選択された収録音声を合成してテキストを読み上げる合成音声を作成する音声合成ステップと，を含む音声合成方法が提供される。

以上説明したように本発明によれば，一般のユーザでも簡単に所望のイントネーション，アクセントをもつ合成音声を生成させることの可能な音声合成装置，音声合成方法，およびコンピュータプログラムを提供できるものである。

以下に添付図面を参照しながら，本発明の好適な実施の形態について詳細に説明する。なお，本明細書及び図面において，実質的に同一の機能構成を有する構成要素については，同一の符号を付することにより重複説明を省略する。

（第１実施形態）
第１実施形態では，本発明にかかる音声合成装置を，ネットワーク１０６を介して接続されたサーバ装置１０２とクライアント装置１０４を含む音声合成システム１００に適用して説明する。音声合成システム１００では，合成音声を生成させる対象のテキストを読み上げる自然音声を入力され，入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション，アクセントを持つ合成音声が生成され，出力される。従って，ユーザは，合成音声を生成させる対象のテキストを，所望のイントネーションやアクセントで読み上げて，読み上げた際の自然音声を音声合成システム１００に入力することにより，所望のイントネーション，アクセントにより対象のテキストを合成音声で読み上げさせることができる。

具体的には，例えば，音声合成システム１００にテキスト「こんにちは」の京都弁風の合成音声を生成させたい場合には，ユーザは自ら京都弁風に「こんにちは」を読み上げて，その自然音声を音声合成システム１００に入力する。または，他人により京都弁で「こんにちは」と読み上げられた自然音声を収録するなどして，その収録された自然音声を音声合成システム１００に入力してもよい。このように，音声合成システム１００では，ユーザは，所望のイントネーション，アクセントを持つ合成音声を生成させるために，そのイントネーション，アクセントで実際に読み上げられた自然音声を入力すればよいため，感覚的に所望のイントネーション等を指定することができ，一般のユーザでも簡単に指定を行うことができる。

なお，本実施形態において，サーバ装置１０２とクライアント装置１０４に備えられる各構成要素のすべてが，ひとつのコンピュータに備えられており，そのコンピュータをして音声合成装置としてもよい。

まず，図１に基づいて，音声合成システム１００の全体構成について説明する。図１に示すように，音声合成システム１００は，サーバ装置１０２と，クライアント装置１０４と，ネットワーク１０６とを備える。

サーバ装置１０２は，クライアント装置１０４からの要求を受けて，合成音声を生成する機能を有する。詳細には，サーバ装置１０２は，クライアント装置１０４から，合成音声を生成する対象のテキストを読み上げた際の自然音声（以下，合成音声を生成する対象のテキストを読み上げた際の自然音声を，読み上げ音声とも称する。）と，その自然音声の属性情報とをネットワーク１０６を介して受信する。サーバ装置１０２は，受信した自然音声の特徴を示す特徴パラメータを導出し，導出した特徴パラメータと属性情報とに基づいて合成音声を生成する。

属性情報には，テキストのラベル列と，ラベル情報が含まれる。ラベル列は，読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたものである。ラベル情報は，各ラベルに対応する各音素の境界位置を示す情報であり，各音素の開始時間，終了時間，継続時間などである。本実施形態では，各音素の継続時間とする。

特徴パラメータには，読み上げ音声の音響的特徴を示す音響パラメータ，および読み上げ音声の韻律的特徴を示す韻律パラメータが含まれる。音響的特徴としては，スペクトル，ケプストラム，デルタケプストラム，デルタデルタケプストラム，パワー，デルタパワー，デルタデルタパワー，それらの組み合わせを挙げることができる。本実施形態では，音響的特徴を主にスペクトルとし，音響パラメータ＝スペクトルを示す値とする。韻律的特徴としては，基本周波数（声の高さ），母音中心のパワー（声の大きさ），音素の継続時間などを挙げることができる。本実施形態では，韻律的特徴を主に基本周波数（以後，ピッチとも称する。）と音素の継続時間とする。そして，韻律パラメータ＝ピッチを示す値とし，音素の継続時間＝ラベル情報とする。

以上，音声合成装置１００の全体構成について説明した。次に，図１に基づいて，音声合成装置１００に含まれるサーバ装置１０２およびクライアント装置１０４の機能構成について説明する。

クライアント装置１０４は，読み上げ音声と，読み上げ音声の属性情報を入力される機能と，入力された読み上げ音声および属性情報をネットワーク１０６を介してサーバ装置１０２に送信する機能と，サーバ装置１０２から合成音声を受信して出力する機能とを主に備えるコンピュータである。クライアント装置１０４としては，パーソナルコンピュータ，携帯電話やＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等の携帯端末，テレビ，ゲーム機器などを例示することができる。

クライアント装置１０４は，図１に示すように，音声入力部１１０，属性情報入力部１１２，および合成音受信部１１４などを主に備える。音声入力部１１０は，合成音声を生成する対象となるテキストを読み上げた際の自然音声を入力する機能を有する。音声入力部１１０は，例えば，ユーザが自らテキストを読み上げて，その読み上げ音声を入力することができるように，マイクを含んでいてもよい。または，音声入力部１１０は，コンパクトディスクやフレキシブルディスク，ＵＳＢメモリなどの記録媒体に予め記録された読み上げ音声を入力できるように，各記録媒体から読み上げ音声を読み取ることができてもよい。音声入力部１１０は，入力した読み上げ音声をネットワーク１０６を介してサーバ装置１０２に送信する。

属性情報入力部１１２は，ラベル列およびラベル情報を入力する機能を有する。詳細には，属性情報入力部１１２は，ユーザにより予め生成されたラベル列と，ラベル情報を入力する。ユーザは，音声入力部１１０に入力した読み上げ音声に基づいて，ラベル列とラベル情報を生成し，属性情報入力部１１２に入力する。ここで，ラベル列およびラベル情報について，図２を参照して説明する。

図２では，音声入力部１１０に入力された音声が，テキスト「むかし」を読み上げた音声であった場合の，ラベル列とラベル情報を示す。ラベル列１１２０は，テキスト「むかし」を各音素に分け，各音素を示すラベルを時系列に並べたものである。ラベル情報１１２２は，各音素の継続時間を示す。図２において，ラベル情報の各数値の単位はミリ秒である。図２によれば，音声入力部１１０に入力された音声は，テキスト「むかし」を読み上げた音声であり，「むかし」を構成する音素のうち，「Ｍ」の音が２００ミリ秒継続し，「Ｕ」の音が１５０ミリ秒継続し，同様に「Ｋ」が２５ミリ秒，「Ａ」が３００ミリ秒，「ＳＨ」が１１０ミリ秒，「Ｉ」が１３０ミリ秒継続していることが分かる。

図１に戻り，クライアント装置１０４の機能構成についての説明を続ける。属性情報入力部１１２は，入力されたラベル列とラベル情報を，ネットワーク１０６を介してサーバ装置１０２に送信する。

合成音受信部１１４は，サーバ装置１０２から，サーバ装置１０２によって生成された合成音声をネットワーク１０６を介して受信する。また，合成音受信部１１４は，受信した合成音声をクライアント装置１０４が備えるスピーカを通じて出力するようにしてもよい。以上，クライアント装置１０４の機能構成について説明した。

次に，サーバ装置１０２の機能構成について説明する。サーバ装置１０２は，クライアント装置１０４から，読み上げ音声，ラベル列，およびラベル情報をネットワーク１０６を介して受信し，受信した読み上げ音声，ラベル列およびラベル情報に基づいて読み上げ音声の特徴パラメータを導出し，導出したパラメータに従って音声を合成し，生成した合成音声をネットワーク１０６を介してクライアント装置１０４に送信するコンピュータである。

図１に示すように，サーバ装置１０２は，パラメータ抽出部１１６，音声合成部１２２，収録音声記憶部１２４，合成音送信部１２６などを主に備える。パラメータ抽出部１１６は，クライアント装置１０４から受信した読み上げ音声，ラベル列およびラベル情報を入力されて，読み上げ音声の特徴パラメータを導出する機能を有する。詳細には，パラメータ抽出部１１６は，ピッチ抽出部１１８およびスペクトル抽出部１２０を備える。ピッチ抽出部１１８は，読み上げ音声の韻律的特徴のひとつであるピッチを抽出する。スペクトル抽出部１２０は，読み上げ音声の音響的特徴のひとつであるスペクトルを抽出する。音声のピッチ抽出およびスペクトル抽出は，公知の方法を用いて行うことができる。パラメータ抽出部１１６は，ピッチ抽出部１１８により抽出されたピッチと，スペクトル抽出部１２０により抽出されたスペクトルと，パラメータ抽出部１１６に入力されたラベル列およびラベル情報とを，音声合成部１２２に出力する。

音声合成部１２２は，読み上げ音声のピッチ，スペクトル，ラベル列，およびラベル情報をパラメータ抽出部１１６から入力されて，入力された各情報に基づいて合成音声を生成する機能を有する。詳細には，音声合成部１２２は，ラベル列により示される各音素に基づいて，該当する音声を収録音声記憶部１２４から取得し，取得した音声をラベル列により示された時系列に従って並べてつなぎ合わせることにより，合成音声を生成する。そして，音声合成部１２２は，各音声を収録音声記憶部１２４から取得する際に，入力されたピッチ，スペクトル，およびラベル情報を基に，最も近いピッチ，スペクトル，および継続時間を持つ音声を選択し，取得する。それにより，音声合成部１２２により生成される合成音声は，読み上げ音声のピッチ，スペクトルに類似したピッチ，スペクトルを持ち，かつ，合成音声を構成する各音素の継続時間もまた，読み上げ音声を構成する各音素の継続時間と類似した継続時間を持つ。ピッチは声の高さを示し，ピッチの変化は声の抑揚を示すので，ピッチと各音素の継続時間が類似していれば，イントネーションおよびアクセントが類似すると言える。このように，音声合成部１２２は，入力されたピッチ，スペクトル，ラベル列，およびラベル情報を用いて，読み上げ音声と類似したイントネーションおよびアクセントを持つ合成音声を生成する。音声合成部１２２は，生成した合成音声を合成音送信部１２６に出力する。

合成音送信部１２６は，音声合成部１２２から入力された合成音声を，ネットワーク１０６を介してクライアント装置１０４に送信する。

収録音声記憶部１２４には，予め録音された音声である収録音声が格納されている。収録音声は，多様なテキスト，文章などを人が読み上げた際の自然音声を録音したものであり，音素単位，または，音素を２分割した単位に分割可能な自然音声が記録されている音声コーパスである。以後，収録音声記憶部１２４に格納されている音声を発した人を，話者とも称する。収録音声記憶部１２４には，一人の話者の音声が格納されていてもよいし，複数の話者の音声が格納されていてもよい。また，クライアント装置１０４の音声入力部１１０に読み上げ音声を入力するユーザと，話者とが同一人物であってもよいし，別人であってもよい。以上，サーバ装置１０２の機能構成について説明した。

次に，図３に基づいて，音声合成システム１００による音声合成処理の流れについて説明する。図３に示すように，まず音声合成システム１００は自然音声を入力する（Ｓ１００）。詳細には，ユーザにより所望のテキストを読み上げられた自然音声を入力する。続いて，音声合成システム１００は，Ｓ１００で入力された自然音声のラベル列，およびラベル情報を入力する（Ｓ１０２）。入力後，音声合成システム１００は，入力された自然音声のピッチ，スペクトルを抽出する（Ｓ１０４）。そして，音声合成システム１００は，抽出されたピッチ，スペクトル，およびＳ１０２で入力されたラベル列，ラベル情報に基づいて，収録音声を選択する（Ｓ１０６）。音声合成システム１００は，Ｓ１０６で選択した音声をつなぎ合わせて合成し（Ｓ１０８），生成した合成音声を出力する（Ｓ１１０）。

以上，第１実施形態にかかる音声合成システム１００について説明した。第１実施形態において，クライアント装置１０４とサーバ装置１０２が上記のように構成されることによって，ユーザがクライアント装置１０４に所望のテキストを所望のイントネーション，アクセントで読み上げた音声を入力することにより，サーバ装置１０２がその読み上げ音声と類似したイントネーション，アクセントを持つ合成音声を生成し，クライアント装置１０４がその合成音声を出力する。つまり，ユーザは，合成音声に望むイントネーション，アクセントを，自らが実施することにより指定できる。感覚的な指定が可能であるため，ユーザは簡単に所望のイントネーション，アクセントを指定することができる。

（第２実施形態）
第２実施形態では，本発明にかかる音声合成装置を，ネットワーク１０６を介して接続されたサーバ装置２０２とクライアント装置２０４を含む音声合成システム２００に適用して説明する。音声合成システム２００でも，第１実施形態にかかる音声合成システム１００と同様に，合成音声を生成させる対象のテキストを読み上げる自然音声を入力され，入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション，アクセントを持つ合成音声が生成され，出力される。第１実施形態では，入力された読み上げ音声から，ピッチとスペクトルの双方を抽出したが，本実施形態では，ピッチのみを抽出し，スペクトルは，抽出されたピッチと，入力されたラベル列およびラベル情報と，後述の言語韻律情報と，音韻モデルとによって推測する点で，第１実施形態と異なる。以後，第１実施形態と異なる点を中心に説明する。

まず，図４に基づいて，音声合成システム２００の全体構成について説明する。図４に示すように，音声合成システム２００は，サーバ装置２０２と，クライアント装置２０４と，ネットワーク１０６とを備える。

サーバ装置２０２は，クライアント装置２０４からの要求を受けて，合成音声を生成する機能を有する。詳細には，サーバ装置２０２は，クライアント装置２０４から，読み上げ音声と，その自然音声の属性情報と，読み上げられたテキストとをネットワーク１０６を介して受信する。サーバ装置２０２は，受信したテキストを品詞単位に解析して，テキストの品詞毎に，該当する品詞とアクセントとを付与した言語韻律情報を生成する。また，サーバ装置２０２は，受信した自然音声の韻律的特徴を示す特徴パラメータであるピッチを抽出する。そして，サーバ装置２０２は，生成した言語韻律情報，抽出したピッチ，クライアント装置２０４から受信したラベル列およびラベル情報を基に，音韻モデルを参照し，該当するスペクトルを導出する。その後，サーバ装置２０２は，読み上げ音声から抽出したピッチ，上述のように導出したスペクトル，およびクライアント装置２０４から受信したラベル列およびラベル情報に基づいて合成音声を生成する。

なお，本実施形態において，サーバ装置２０２とクライアント装置２０４に備えられる各構成要素のすべてが，ひとつのコンピュータに備えられており，そのコンピュータをして音声合成装置としてもよい。

以上，音声合成システム２００の全体構成について説明した。次に，図４に基づいて，クライアント装置２０４およびサーバ装置２０２の機能構成について説明する。なお，第１実施形態と同一の機能を有するものについては，同一の符号を付しており，詳細な説明を省略する。

クライアント装置２０４は，読み上げ音声と，読み上げ音声の属性情報と，読み上げられたテキストとを入力される機能と，入力された読み上げ音声，属性情報，およびテキストをネットワーク１０６を介してサーバ装置２０２に送信する機能と，サーバ装置２０２から合成音声を受信して出力する機能とを主に備えるコンピュータである。

図４に示すように，クライアント装置２０４は，テキスト入力部２３０，音声入力部１１０，属性情報入力部１１２，および合成音受信部１１４などを主に備える。

テキスト入力部２３０は，音声入力部１１０に入力された読み上げ音声により読み上げられているテキストを入力する。詳細には，テキスト入力部２３０は，例えばキーボード等の入力装置を含んで構成され，ユーザによりテキストを入力され，入力されたテキストをネットワーク１０６を介してサーバ装置２０２に送信する。

サーバ装置２０２は，クライアント装置２０４から，読み上げ音声，テキスト，ラベル列，およびラベル情報をネットワーク１０６を介して受信し，受信した読み上げ音声，ラベル列およびラベル情報に基づいて読み上げ音声の韻律的特徴を示す特徴パラメータを導出する。そしてサーバ装置２０２は，導出したパラメータ，テキストの解析結果，および音韻モデルから，合成音声に持たせるべき音響的特徴を示すパラメータを導出し，各パラメータに従って音声を合成し，生成した合成音声をネットワーク１０６を介してクライアント装置２０４に送信するコンピュータである。

図４に示すように，サーバ装置２０２は，テキスト解析部２３２，パラメータ抽出部２１６，音韻モデル記憶部２３４，韻律予測部２３６，音声合成部１２２，収録音声記憶部１２４，および合成音送信部１２６などを主に備える。パラメータ抽出部２１６は，クライアント装置２０４から受信した読み上げ音声，ラベル列およびラベル情報を入力されて，読み上げ音声の特徴パラメータを導出する機能を有する。詳細には，パラメータ抽出部２１６は，ピッチ抽出部１１８を備え，読み上げ音声のピッチを抽出する。

テキスト解析部２３２は，クライアント装置２０４から受信したテキストを対象に形態素解析，係り受け解析等を行い，品詞単位に解析して，テキストの品詞毎に，該当する品詞とアクセントとを付与した言語韻律情報を生成する機能を有する。テキストの解析は，公知の方法により実施することができる。

韻律予測部２３６は，ピッチと，ラベル列およびラベル情報（図２中では，まとめて属性情報と示す）と，言語韻律情報とを基に，音韻モデル記憶部２３４に記憶される音韻モデルを参照し，合成音声に持たせるべきスペクトルを導出する機能を有する。音韻モデル記憶部２３４には，収録音声記憶部１２４に格納されている収録音声に基づいて予め生成された，収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと，収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと，が格納されている。ここで，収録音声記憶部１２４について，図５を参照して説明する。

図５に示すように，音韻モデル記憶部２３４には，ラベル毎に音響モデルと韻律モデルとが対になって格納される。詳細には，ラベルａ２３４０についての話者の音響的な特徴をモデル化した音響モデルが，音響モデルａ２３４２であり，ラベルａ２３４０についての話者の韻律的な特徴をモデル化した韻律モデルが，韻律モデルａ２３４４であり，音響モデルａ２３４２と韻律モデルａ２３４４は関連付けられている。同様に，ラベルｉ２３４６についての話者の音響的な特徴をモデル化した音響モデルが，音響モデルｉ２３４８であり，ラベルｉ２３４６についての話者の韻律的な特徴をモデル化した韻律モデルが，韻律モデルｉ２３５０であり，音響モデルｉ２３４８と韻律モデルｉ２３５０は関連付けられている。このように，音韻モデル記憶部２３４には，各ラベルについて，音響モデルと韻律モデルの対が格納されている。なお，音響モデルおよび韻律モデルは，ＨＭＭモデル（ヒドゥンマルコフモデル）であってもよい。

また，音響モデルと韻律モデルの対が，図５に示すようにグループ分けされていてもよい。グループ分けは，例えば，収録音声記憶部１２４に複数の話者の音声が格納されている場合には，話者ごとのグループであってもよいし，口調ごとのグループであってもよい。口調ごとのグループとは，例えば，会話口調で発せられた音声と，ニュースを読み上げるように読み上げ口調で発せられた音声とを，異なるグループとしてそれぞれモデル化されてもよい。また，標準語で発せられた音声と関西弁で発せられた音声とを，異なるグループとしてそれぞれモデル化されてもよい。具体的には，例えば，図５のグループ１（符号２３４１）は，収録音声記憶部１２４に格納されている音声のうち，会話口調で発せられた音声によりモデル化された音響モデルおよび韻律モデルであり，グループ２は，読み上げ口調で発せられた音声によりモデル化された音響モデルおよび韻律モデルであるようにしてもよい。

図４に戻り，サーバ装置２０２の機能構成についての説明を続ける。韻律予測部２３６は，テキスト解析部２３２により生成された言語韻律情報，ピッチ抽出部により抽出されたピッチ，クライアント装置２０４から受信したラベル列およびラベル情報とに基づいて，音韻モデル記憶部２３４を参照し，適切なスペクトルを導出する。詳細には，韻律予測部２３６は，ラベル列に含まれる各ラベルに関連付けられている音響モデルを音韻モデル記憶部２３４から取得し，取得した音響モデルを並べ，フレームシフト長とラベル情報にあわせてスペクトルを求める。そして，韻律予測部２３６は，求めたスペクトルを音声合成部１２２に出力する。

音声合成部１２２は，ピッチ抽出部１１８により抽出されたピッチと，クライアント装置１０４から受信したラベル列およびラベル情報と，韻律予測部２３６により求められたスペクトルとに基づいて，合成音声を生成する。以上，サーバ装置２０２の機能構成について説明した。

次に，図６に基づいて，音声合成システム２００による音声合成処理の流れについて説明する。まず，音声合成システム２００は，合成音声を生成する対象のテキストを入力する（Ｓ２００）。また，音声合成システム２００は，テキストを読み上げた自然音声を入力する（Ｓ２０４）。さらに，音声合成システム２００は，Ｓ２０２で入力された自然音声のラベル列およびラベル情報を入力する（Ｓ２０４）。なお，Ｓ２００とＳ２０２の順序は逆でも構わない。

続いて，音声合成システム２００は，Ｓ２００で入力されたテキストを解析して言語韻律情報を生成する（Ｓ２０６）。また，音声合成システム２００は，Ｓ２０２で入力された読み上げ音声からピッチを抽出し（Ｓ２０８），スペクトルを導出する（Ｓ２１０）。そして，音声合成システム２００は，Ｓ２０８で抽出されたピッチ，Ｓ２１０で導出されたスペクトル，およびＳ２０４で入力されたラベル列並びにラベル情報に基づいて，収録音声を選択する（Ｓ２１２）。その後，音声合成システム２００は，選択した音声を合成して合成音声を生成し（Ｓ２１４），生成した合成音声を出力する（Ｓ２１６）。

次に，図６のＳ２１０におけるスペクトル導出処理の詳細を，図７を参照して説明する。図７は，音声合成システム２００においてスペクトル導出処理を行う韻律予測部２３６による処理の流れを示している。図７に示すように，韻律予測部２３６は，属性情報（ラベル列およびラベル情報）を入力し（Ｓ３００），言語韻律情報を入力する（Ｓ３０２）。そして，ラベル列の最後尾に至るまで（Ｓ３０４），ラベル毎に対応する音響モデルを音韻モデル記憶部２３４から取得する（Ｓ３０６）。ラベル列に含まれる全てのラベルについてＳ３０６の処理を行った後，韻律予測部２３６は，取得した音響モデルを並べる（Ｓ３０８）。そして，フレームシフト長およびラベル情報にあわせて，スペクトルを求める（Ｓ３１０）。フレームシフト長とは，スペクトルを求める間隔であり，ここではピッチ抽出部１１８により読み上げ音声からピッチが抽出される間隔と同一の間隔とする。具体的には例えば，読み上げ音声の開始時点から５ミリ秒ごとにピッチが抽出された場合には，フレームシフト長を５ミリ秒とし，スペクトルが求められる。

以上，第２実施形態にかかる音声合成システム２００について説明した。第２実施形態において，クライアント装置２０４とサーバ装置２０２が上記のように構成されることによって，ユーザがクライアント装置２０４に所望のテキストを所望のイントネーション，アクセントで読み上げた音声を入力することにより，サーバ装置２０２がその読み上げ音声と類似したイントネーション，アクセントを持つ合成音声を生成し，クライアント装置２０４がその合成音声を出力する。つまり，ユーザは，合成音声に望むイントネーション，アクセントを，自らが実施することにより指定できる。感覚的な指定が可能であるため，ユーザは簡単に所望のイントネーション，アクセントを指定することができる。さらに，第２実施形態では，サーバ装置２０２が，入力された読み上げ音声から抽出したピッチ，入力されたラベル情報等と，収録音声記憶部１２４に格納される音声データからモデル化された音韻モデルとに基づいて最適なスペクトルを導出している。そのため，読み上げ音声の発話元であるユーザと，収録音声に収録されている音声の発話元である話者とが異なる場合でも，音質劣化を軽減でき，さらに，微妙な韻律変更を行うことができる。

（第３実施形態）
第３実施形態では，本発明にかかる音声合成装置を，ネットワーク１０６を介して接続されたサーバ装置３０２とクライアント装置３０４を含む音声合成システム３００に適用して説明する。音声合成システム３００でも，第１実施形態にかかる音声合成システム１００と同様に，合成音声を生成させる対象のテキストを読み上げる自然音声を入力され，入力された自然音声のイントネーションやアクセントと同一または類似したイントネーション，アクセントを持つ合成音声が生成され，出力される。第１実施形態では，入力された読み上げ音声から，ピッチとスペクトルの双方を抽出したが，本実施形態では，ピッチのみを抽出し，スペクトルは，抽出されたピッチと，ラベル列およびラベル情報と，言語韻律情報と，音韻モデルとによって推測する点で，第１実施形態と異なる。また，スペクトルを上記のように推測する点で第２実施形態と同様であるが，第２実施形態ではラベル列およびラベル情報がクライアント装置２０４から入力されたのに対し，本実施形態ではサーバ装置２０２でラベル列およびラベル情報を生成する点で異なる。以後，第１実施形態および第２実施形態と異なる点を中心に説明する。

まず，図８に基づいて，音声合成システム３００の全体構成について説明する。図８に示すように，音声合成システム３００は，サーバ装置３０２と，クライアント装置３０４と，ネットワーク１０６とを備える。

サーバ装置３０２は，クライアント装置３０４からの要求を受けて，合成音声を生成する機能を有する。詳細には，サーバ装置３０２は，クライアント装置３０４から，読み上げ音声と，読み上げられたテキストとをネットワーク１０６を介して受信する。サーバ装置３０２は，受信したテキストを品詞単位に解析し，言語韻律情報およびラベル列を生成する。また，サーバ装置３０２は，受信した自然音声の韻律的特徴を示す特徴パラメータであるピッチを抽出する。さらに，サーバ装置３０２は，テキスト解析により得たラベル列と，入力された読み上げ音声と，後述のラベル別音響モデル記憶部３４２に格納されるラベル別音響モデルとに基づいて，読み上げ音声のラベル情報を生成する。そして，サーバ装置３０２は，生成した言語韻律情報，生成したラベル列およびラベル情報，抽出したピッチを基に，音韻モデルを参照し，該当するスペクトルを導出する。その後，サーバ装置３０２は，読み上げ音声から抽出したピッチ，上述のように導出したスペクトル，およびクライアント装置３０４から受信したラベル列およびラベル情報に基づいて合成音声を生成する。

なお，本実施形態において，サーバ装置３０２とクライアント装置３０４に備えられる各構成要素のすべてが，ひとつのコンピュータに備えられており，そのコンピュータをして音声合成装置としてもよい。

以上，音声合成システム３００の全体構成について説明した。次に，図８に基づいて，クライアント装置３０４およびサーバ装置３０２の機能構成について説明する。なお，第１実施形態または第２実施形態と同一の機能を有するものについては，同一の符号を付しており，詳細な説明を省略する。

クライアント装置３０４は，読み上げ音声と，読み上げられたテキストとを入力される機能と，入力された読み上げ音声およびテキストをネットワーク１０６を介してサーバ装置３０２に送信する機能と，サーバ装置３０２から合成音声を受信して出力する機能とを主に備えるコンピュータである。

図８に示すように，クライアント装置３０４は，テキスト入力部２３０，音声入力部１１０，および合成音受信部１１４などを主に備える。クライアント装置３０４には，第１実施形態にかかるクライアント装置１０４，および第２実施形態にかかるクライアント装置２０４に備えられていた属性情報入力部１１２が備えられていない。従って，ユーザは，テキストと，テキストを読み上げた自然音声とをクライアント装置３０４に入力すればよい。

サーバ装置３０２は，クライアント装置３０４から，読み上げ音声とテキストをネットワーク１０６を介して受信し，テキストを解析してラベル列を生成し，ラベル列と読み上げ音声とを用いて読み上げ音声のラベル情報を生成する。また，サーバ装置３０２は，受信した読み上げ音声，生成したラベル列およびラベル情報に基づいて読み上げ音声の韻律的特徴を示す特徴パラメータを導出する。そしてサーバ装置３０２は，導出したパラメータ，テキストの解析結果，および音韻モデルから，合成音声に持たせるべき音響的特徴を示すパラメータを導出し，各パラメータに従って音声を合成し，生成した合成音声をネットワーク１０６を介してクライアント装置３０４に送信する。

図８に示すように，サーバ装置３０２は，テキスト解析部３３２，パラメータ抽出部３１６，音韻モデル記憶部２３４，韻律予測部２３６，音声合成部１２２，収録音声記憶部１２４，および合成音送信部１２６などを主に備える。テキスト解析部３３２は，クライアント装置３０４から受信したテキストを解析して，言語韻律情報とラベル列とを生成する機能を有する。テキスト解析部３３２は，生成したラベル列をパラメータ抽出部３１６に出力する。

パラメータ抽出部３１６は，読み上げ音声のピッチを抽出するピッチ抽出部１１８と，読み上げ音声のラベル情報を導出するラベル情報導出部３４０とを含む。ラベル情報導出部３４０は，クライアント装置２０４から受信した読み上げ音声と，テキスト解析部３３２から入力されたラベル列とに基づいて，読み上げ音声のラベル情報を導出する機能を有する。詳細には，ラベル情報導出部３４０は，読み上げ音声のスペクトルを抽出し，抽出されたスペクトルを基に，ラベル別音響モデル記憶部３４２中の，読み上げ音声を構成する各音素に対応する音響モデルから，ラベル情報を算出する。ここで，ラベル別音響モデル記憶部３４２について図９を参照して説明する。

図９に示すように，ラベル別音響モデル記憶部３４２には，ラベル毎に不特定話者の音響モデルが格納されている。不特定話者の音響モデルは，不特定の単数または複数の話者の音声に基づいて，各ラベルに対応する音素の音響的な特徴を統計的にモデル化したものである。図９によれば，ラベルａ３４２０に対応する音響モデルは，不特定話者の音響モデルａ３４２２であり，ラベルｉ３４２４に対応する音響モデルは，不特定話者の音響モデルｉ３４２６である。

図８に戻り，サーバ装置３０２の機能構成についての説明を続ける。ラベル情報導出部３４０は，読み上げ音声から抽出したスペクトル（音響的特徴）の時系列であるスペクトル列と，ラベル列とを用意し，ラベル別音響モデル記憶部３４２に格納された音響モデルに従って，ラベルとスペクトル列の音響的類似性に基づいて両者の時間的対応を決定することで，読み上げ音声のラベル情報を算出する。

韻律予測部２３６は，テキスト解析部３３２により生成された言語韻律情報と，ピッチ抽出部１１８により抽出されたピッチと，ラベル情報導出部３４０により算出されたラベル情報と，音韻モデル記憶部２３４とに基づいて，最適なスペクトルを求める。その他は第２実施形態と同様であるため，説明を省略する。以上，サーバ装置３０２の機能構成について説明した。

次に，図１０に基づいて，音声合成システム３００による音声合成処理の流れについて説明する。まず，音声合成システム３００は，合成音声を生成する対象のテキストを入力する（Ｓ４００）。また，音声合成システム３００は，テキストを読み上げた自然音声を入力する（Ｓ４０２）。

続いて，音声合成システム３００は，Ｓ４００で入力されたテキストを解析して言語韻律情報とラベル列を生成する（Ｓ４０４）。また，音声合成システム３００は，Ｓ４０２で入力された読み上げ音声からピッチを抽出する（Ｓ４０６）。音声合成システム３００は，Ｓ４０２で入力された自然音声と，Ｓ４０４で生成されたラベル列とに基づいて，読み上げ音声のラベル情報を導出する（Ｓ４０８）。そして，音声合成システム３００は，スペクトルを導出し（Ｓ４１０），Ｓ４０６で抽出されたピッチ，Ｓ４１０で導出されたスペクトル，Ｓ４０４で生成されたラベル列，およびＳ４０８で導出されたラベル情報に基づいて，収録音声を選択する（Ｓ４１２）。その後，音声合成システム３００は，選択した音声を合成して合成音声を生成し（Ｓ４１４），生成した合成音声を出力する（Ｓ４１６）。

以上，第３実施形態にかかる音声合成システム３００について説明した。第３実施形態において，クライアント装置３０４とサーバ装置３０２が上記のように構成されることによって，ユーザがクライアント装置３０４に所望のテキストを所望のイントネーション，アクセントで読み上げた音声を入力することにより，サーバ装置３０２がその読み上げ音声と類似したイントネーション，アクセントを持つ合成音声を生成し，クライアント装置３０４がその合成音声を出力する。つまり，ユーザは，合成音声に望むイントネーション，アクセントを，自らが実施することにより指定できる。感覚的な指定が可能であるため，ユーザは簡単に所望のイントネーション，アクセントを指定することができる。また，第３実施形態では，第２実施形態と同様に，サーバ装置３０２が，入力された読み上げ音声から抽出したピッチ，ラベル情報等と，収録音声記憶部１２４に格納される音声データからモデル化された音韻モデルとに基づいて最適なスペクトルを導出している。そのため，読み上げ音声の発話元であるユーザと，収録音声に収録されている音声の発話元である話者とが異なる場合でも，音質劣化を軽減でき，さらに，微妙な韻律変更を行うことができる。さらに，第３実施形態では，サーバ装置３０２がラベル列およびラベル情報を生成するため，ユーザはラベル列およびラベル情報をクライアント装置３０４に入力しなくてもよく，ユーザはより簡単に所望のイントネーション，アクセントを指定することができる。

（第４実施形態）
第４実施形態では，本発明にかかる音声合成装置を，ネットワーク１０６を介して接続されたサーバ装置４０２とクライアント装置４０４を含む音声合成システム４００に適用して説明する。音声合成システム４００は，第１〜第３実施形態と異なり，読み上げ音声は入力されない。音声合成システム４００では，ラベル情報を詳細に設定することにより，ユーザの所望のイントネーションに近い合成音声を生成する。

まず，図１１に基づいて，音声合成システム４００の全体構成について説明する。図１１に示すように，音声合成システム４００は，サーバ装置４０２と，クライアント装置４０４と，ネットワーク１０６とを備える。

サーバ装置４０２は，クライアント装置４０４からの要求を受けて，合成音声を生成する機能を有する。詳細には，サーバ装置４０２は，クライアント装置４０４から，合成音声を生成する対象のテキストと，ラベル列およびラベル情報と，ラベルフレームの情報とをネットワーク１０６を介して受信する。ラベルフレームの情報とは，ラベル情報を詳細に設定するための情報である。ラベル情報は，ラベルに対応する音素の継続時間であるが，ひとつの音素には複数の状態が含まれる。この複数の状態は，ＨＭＭモデルに従って区別することの可能な状態であってもよい。各音素について，各状態の継続時間を変化させることで，イントネーションの微妙な調整が可能となる。ユーザは，クライアント装置４０４から各音素の各状態のフレーム数を指定することにより，各状態の継続時間を変化させることができる。ラベル毎のフレーム数は，各ラベルに対応する音素の継続時間を，ピッチやスペクトルの値が指定される間隔（フレームシフト長）で割った値となる。図１２を参照して具体的に説明する。

図１２によれば，ラベル「ｕ」の継続時間は１５０ミリ秒（符号５０２）である。フレームシフト長を５ミリ秒とすると，ラベル「ｕ」には１５０÷５で３０フレームが割り当てられていることとなる。ラベル「ｕ」に対応する音素には，ＨＭＭモデルに従った状態が，状態１〜４の４つある。図１２によれば，状態１には８フレームが割り当てられており（符号５０４），つまり状態１は４０ミリ秒継続することとなる。同様に，状態２には１４フレーム（符号５０６），状態３には６フレーム（符号５０８），状態４には２フレーム（符号５１０）が各々割り当てられている。ユーザは，クライアント装置４０４から，所望の状態に所望のフレーム数を指定することにより，各状態のフレーム数を変更し，合成音声のイントネーションを調整することができる。

サーバ装置４０２は，クライアント装置４０４からテキストと，ラベル列およびラベル情報（属性情報）を受信し，受信したテキストを読み上げる合成音声を生成する。その際に，クライアント装置４０４から上述のフレーム数を指定されて，指定に基づいてラベル情報を変更し，変更されたラベル情報に基づいて合成音声を生成する。以上，音声合成システム４００の全体構成について説明した。次に，図１１に基づいて，クライアント装置４０４およびサーバ装置４０２の機能構成について説明する。

図１１に示すように，クライアント装置４０４は，テキスト入力部２３０，属性情報入力部１１２，ラベルフレーム入力部４４０，および合成音受信部１１４などから主に構成される。ラベルフレーム入力部４４０は，属性情報入力部１１２に入力されるラベル情報に関連し，所望のラベルの所望の状態と，その状態に割り当てるフレーム数とをユーザに入力される。ラベルフレーム入力部４４０は，入力されたフレーム数の情報を，サーバ装置４０２に送信する。クライアント装置４０４は，第１〜第３実施形態にかかるクライアント装置と異なり，読み上げ音声を入力されなくてもよい。

サーバ装置４０２は，テキスト解析部３３２，ラベルフレーム変更部４４２，韻律予測部４４４，音韻モデル記憶部２３４，音声合成部１２２，収録音声記憶部１２４，および合成音送信部１２６などを主に備える。ラベルフレーム変更部４４２は，クライアント装置４０４からラベル列，ラベル情報，およびラベルフレームの情報を受信し，ラベル情報をラベルフレームの情報に基づいて変更する。ラベルフレーム入力部４４０とラベルフレーム変更部４４２の組み合わせは，ラベルに対応する音素の韻律的／音響的に異なる複数の状態に従って，各状態の境界位置を設定するラベル情報調整部の一例として構成される。

韻律予測部４４４は，テキスト解析部３３２により生成された言語韻律情報と，ラベルフレーム変更部４４２から出力されるラベル列およびラベル情報と，音韻モデル記憶部２３４とに基づいて，適切なピッチとスペクトルを導出する。その他は，第１実施形態等と同様であるため，説明を省略する。サーバ装置４０２は，第１〜第３実施形態にかかるサーバ装置と異なり，クライアント装置４０４から読み上げ音声が入力されないので，入力されたテキスト，ラベル列およびラベル情報に基づいてピッチ，スペクトルを求める。以上，サーバ装置４０２の機能構成について説明した。

次に，図１３に基づいて，音声合成システム４００による音声合成処理の流れについて説明する。まず，音声合成システム４００は，合成音声を生成する対象のテキストを入力する（Ｓ５００）。続いて，音声合成システム４００は，Ｓ５００で入力されたテキストのラベル列とラベル情報を入力する（Ｓ５０２）。さらに，音声合成システム４００は，ラベル毎に，各状態のフレーム数を入力する（Ｓ５０４）。そして，音声合成システム４００は，Ｓ５０４で入力されたフレーム数に基づいて，Ｓ５０２で入力されたラベル情報を変更する（Ｓ５０６）。また，音声合成システム４００は，Ｓ５００で入力されたテキストを解析して，言語韻律情報を導出する（Ｓ５０８）。その後，音声合成システム４００は，ラベル列，ラベル情報，言語韻律情報，および音韻モデル記憶部２３４に格納される音響モデル並びに韻律モデルに基づいて，ピッチとスペクトルを導出する（Ｓ５１０）。そして，音声合成システム４００は，導出したピッチとスペクトルに基づいて収録音声を選択し（Ｓ５１２），選択した音声を合成してＳ５００で入力されたテキストを読み上げる合成音声を生成し（Ｓ５１４），出力する（Ｓ５１６）。

以上，第４実施形態にかかる音声合成システム４００について説明した。音声合成システム４００によれば，サーバ装置４０２で生成される合成音声について，ラベルフレーム数を指定することにより，微妙なイントネーションを調節することができる。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明は係る例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

本発明は，音声合成装置に適用可能であり，特に，所望のテキストを読み上げる合成音声を，予め収録された音声を用いて生成する，音声合成装置に適用可能である。

本発明の第１の実施形態にかかる音声合成システムを示すブロック図である。同実施の形態におけるラベル列およびラベル情報を示す説明図である。同実施の形態における音声合成処理を示すフローチャートである。本発明の第２の実施形態にかかる音声合成システムを示すブロック図である。同実施の形態における音韻モデル記憶部を示す説明図である。同実施の形態における音声合成処理を示すフローチャートである。同実施の形態における音声合成処理の一部を示すフローチャートである。本発明の第３の実施形態にかかる音声合成システムを示すブロック図である。同実施の形態におけるラベル別音響モデル記憶部を示す説明図である。同実施の形態における音声合成処理を示すフローチャートである。本発明の第４の実施形態にかかる音声合成システムを示すブロック図である。同実施の形態におけるラベルフレームを説明するための説明図である。同実施の形態における音声合成処理を示すフローチャートである。

符号の説明

１００，２００，３００，４００音声合成システム
１０２，２０２，３０２，４０２サーバ装置
１０４，２０４，３０４，４０４クライアント装置
１１０音声入力部
１１２属性情報入力部
１１４合成音受信部
１１６，２１６，３１６パラメータ抽出部
１１８ピッチ抽出部
１２０スペクトル抽出部
１２２音声合成部
１２４収録音声記憶部
１２６合成音送信部
２３０テキスト入力部
２３２，３３２テキスト解析部
２３４音韻モデル記憶部
２３６韻律予測部
３４０ラベル情報導出部
３４２ラベル別音響モデル記憶部
４４０ラベルフレーム入力部
４４２ラベルフレーム変更部

Claims

予め録音された音声を用いて，テキストを読み上げる合成音声を作成する音声合成装置において：
予め録音された音声である収録音声が格納されている収録音声記憶部と；
前記収録音声記憶部に格納されている収録音声に基づいて予め生成された，前記収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと，前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと，が格納されている音韻モデル記憶部と；
前記合成音声を作成する対象のテキストを入力するテキスト入力部と；
前記テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力部と；
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と，前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と，を入力する属性情報入力部と；
前記テキストを解析し，言語韻律情報を取得するテキスト解析部と；
前記ラベル列，前記ラベル情報，および前記読み上げ音声に基づいて，前記読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出部と；
前記ラベル列と，前記ラベル情報と，前記韻律パラメータと，前記言語韻律情報と，前記音韻モデル記憶部に格納されている前記音響モデルおよび前記韻律モデルとに基づいて，前記テキストが読み上げられる際の自然音声の音響的特徴を推定し，該特徴を示す音響パラメータを導出する特徴推定部と；
前記収録音声記憶部から，前記韻律パラメータおよび前記音響パラメータを含む特徴パラメータに応じて前記収録音声を選択し，選択した前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成部と；
を備えることを特徴とする音声合成装置。
前記ラベル毎に，前記ラベルに対応する前記各音素の音響的な特徴をモデル化したラベル別音響モデルが格納されているラベル別音響モデル記憶部と；
前記読み上げ音声と，前記ラベル列と，前記ラベル別音響モデルとに基づいて，前記ラベル情報を導出するラベル情報導出部と；
を備えることを特徴とする，請求項１に記載の音声合成装置。
コンピュータをして，予め録音された音声を用いて，テキストを読み上げる合成音声を作成する音声合成装置であって：
前記合成音声を作成する対象のテキストを入力するテキスト入力処理と；
前記テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力処理と；
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と，前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と，を入力する属性情報入力処理と；
前記テキストを解析し，言語韻律情報を取得するテキスト解析処理と；
前記ラベル列，前記ラベル情報，および前記読み上げ音声に基づいて，前記読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出処理と；
前記ラベル列と，前記ラベル情報と，前記韻律パラメータと，前記言語韻律情報と，予め録音された音声である収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと，前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと，前記テキストが読み上げられる際の自然音声の音響的特徴を推定し，該特徴を示す音響パラメータを導出する特徴推定処理と；
前記収録音声記憶部から，前記韻律パラメータおよび前記音響パラメータを含む特徴パラメータに応じて前記収録音声を選択する選択処理と；
前記選択処理により選択された前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成処理と；
を実行せしめることを特徴とするコンピュータプログラム。
予め録音された音声を用いて，テキストを読み上げる合成音声を作成する音声合成方法において：
前記合成音声を作成する対象のテキストを入力するテキスト入力ステップと；
前記テキストを読み上げた際の自然音声である読み上げ音声を入力する音声入力ステップと；
前記読み上げ音声に含まれる各音素に付与されたラベルを時系列に並べたラベル列と，前記各ラベルに対応する前記各音素の境界位置を示すラベル情報と，を入力する属性情報入力ステップと；
前記テキストを解析し，言語韻律情報を取得するテキスト解析ステップと；
前記ラベル列，前記ラベル情報，および前記読み上げ音声に基づいて，前記読み上げ音声の韻律的特徴を示す韻律パラメータを抽出するパラメータ抽出ステップと；
前記ラベル列と，前記ラベル情報と，前記韻律パラメータと，前記言語韻律情報と，予め録音された音声である収録音声に含まれる各音素の音響的な特徴をモデル化した音響モデルと，前記収録音声に含まれる各音素の韻律的な特徴をモデル化した韻律モデルと，前記テキストが読み上げられる際の自然音声の音響的特徴を推定し，該特徴を示す音響パラメータを導出する特徴推定ステップと；
前記収録音声記憶部から，前記韻律パラメータおよび前記音響パラメータを含む特徴パラメータに応じて前記収録音声を選択する選択ステップと；
前記選択ステップにより選択された前記収録音声を合成して前記テキストを読み上げる合成音声を作成する音声合成ステップと；
を含むことを特徴とする音声合成方法。