JP2005234337A

JP2005234337A - 音声合成装置、音声合成方法、及び音声合成プログラム

Info

Publication number: JP2005234337A
Application number: JP2004044852A
Authority: JP
Inventors: Takehiko Kawahara; 毅彦川▲原▼; Hidenori Kenmochi; 秀紀劔持
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-02-20
Filing date: 2004-02-20
Publication date: 2005-09-02
Also published as: CN100337104C; TWI300551B; KR20060043023A; KR100759172B1; TW200535235A; CN1658281A

Abstract

【課題】ハードウェア資源に大きな制約が課されている環境下においても、様々な種類の声質の合成音声を生成することができる音声合成装置等を提供する。
【解決手段】１種類の音韻データを備えた音声合成装置１００に声質変更部２５０及び声質データベース２６０を設ける。声質変更部２５０は、テキスト解析部２２０から供給される声質データ番号を検索キーとして声質データベース２６０を検索し、声質パラメータを取得する。声質変更部２５０は、取得した声質パラメータに基づいて、音韻データ取得部２３０によって取得される音韻データに示される各音韻の声質を変更する。
【選択図】図１

Description

本発明は、入力されるテキスト情報から合成音声を生成する音声合成装置、音声合成方法、及び音声合成プログラムに関する。

図１７は、入力されるテキスト情報から合成音声を生成する従来の音声合成装置１００の構成を示す図である。
入力部１１０は、図示せぬ操作部等から「こんにちわ」等のテキスト情報を受け取ると、このテキスト情報をテキスト解析部１２０に供給する。テキスト解析部１２０は、受け取ったテキスト情報について、単語辞書等を用いて単語解析、構文解析等を行い、「こ」、「ん」、「に」、「ち」、「わ」といったモーラ単位の各音韻をあらわす音韻情報、及び各音韻の長さ、高さ、強さをあらわす韻律情報を生成し、音声合成部１３０に供給する。音声合成部１３０は、テキスト解析部１２０から供給される各音韻情報に基づいて、モーラ単位の音声データ（以下、音韻データ）を音韻データベース１４０から取得する。そして、音声合成部１３０は、取得した各音韻データを韻律情報に従って適宜加工・接続等して合成音声信号を生成し、スピーカ等から合成音声として出力する。ユーザは、音声合成装置から出力される合成音声を聴取することで、入力されたテキスト情報の内容を確認することができる。

ところが、上記音韻データベースには、特定話者（例えば、男性話者）による１種類の音韻データしか登録されていない。このため、例えば若い女性等が好んで使用するであろうテキスト情報（「ちょう・・・的」や「・・・みたいなぁ」等のテキスト情報）を、上記特定話者の声質を有する合成音声で出力した場合には、ユーザは声質と音声内容との間に違和感を感じてしまう等の問題があった。

かかる問題を解消するべく、複数種類の音韻データ（例えば、男性、女性、子供、老人のそれぞれの音韻データ）を音韻データベースに予め登録し、入力されるテキスト情報の内容等に応じて最適な音韻データを選択し、選択した音韻データを用いて合成音声を生成する技術が提案されている（例えば、特許文献１参照）。

特開２０００−３３９１３７号公報（第３−４頁）

特許文献１に開示された技術によれば、確かに適切な合成音声を得ることができるが、これを実現するためには複数種類の音韻データを音韻データベースに登録しなければならない。しかしながら、メモリやＣＰＵ等のハードウェア資源に大きな制約が課されている携帯端末等にこのような複数種類の音韻データを実装することはできず、結局、携帯端末等においては様々な声質の合成音声を生成することができないという問題があった。

本発明は、以上説明した事情を鑑みてなされたものであり、ハードウェア資源に大きな制約が課されている環境下においても、様々な種類の声質の合成音声を生成することができる音声合成装置、音声合成方法、及び音声合成プログラムを提供することを目的とする。

上述した問題を解決するため、本発明に係る音声合成装置は、入力されるテキスト情報から、合成音声の音韻を指定する音韻指定情報及び該合成音声の声質を指定する声質指定情報を取得する取得手段と、特定話者の各音韻をあらわす一連の音韻データを記憶する第１記憶手段と、前記各音韻の声質を変更するために必要な情報であって、音韻データの加工内容をあらわす音韻データ加工情報を複数種類記憶する第２記憶手段と、前記第１記憶手段から、前記音韻指定情報に示される音韻に対応する音韻データを抽出する第１抽出手段と、前記第２記憶手段から、前記声質指定情報に示される声質に対応する音韻データ加工情報を抽出する第２抽出手段と、前記抽出された音韻データを、前記抽出された音韻データ加工情報に基づいて加工し、前記合成音声を生成する生成手段とを具備することを特徴とする。

かかる構成によれば、第１抽出手段によって抽出された音韻データが第２抽出手段によって抽出された音韻データ加工情報に基づいて加工され、これにより、合成音声が生成される。この音韻データ加工情報に様々な加工条件（例えば、音韻のフォルマントの変更内容等）を設定することで、１種類の音韻データ（例えば、男性話者の音韻データ）から様々な音質の合成音声を得ることが可能となる。

ここで、上記構成にあっては、前記各音韻データは、それぞれ対応する音韻のフォルマントを複数備え、前記音韻データ加工情報には、前記フォルマントの変更内容をあらわすフォルマント変更情報が含まれ、前記生成手段は、前記音韻データに示される音韻の各フォルマントを、前記フォルマント変更情報に基づいて変更し、変更後の各フォルマントを加算した後の信号波形に基づいて前記合成音声を生成する態様が好ましい。
これに加え、前記フォルマントは、フォルマント周波数とフォルマントレベルとの対によって構成され、前記フォルマント変更情報には、前記フォルマント周波数の変更内容をあらわすフォルマント周波数変更情報と前記フォルマントレベルの変更内容をあらわすフォルマントレベル変更情報が含まれ、前記生成手段は、前記音韻データに示される音韻の各フォルマント周波数と各フォルマントレベルのそれぞれを、前記フォルマント周波数変更情報及び前記フォルマントレベル変更情報に基づいて変更することにより、前記変更後の各フォルマントを得る態様がより好ましい。

また、前記取得手段は、前記テキスト情報から前記音韻指定情報及び前記声質指定情報を取得するほか、前記合成音声のピッチを指定するピッチ指定情報を取得し、前記生成手段は、前記変更後の各フォルマントを加算した後の信号波形に対して前記ピッチ指定情報に示されるピッチを与えることにより、前記合成音声を得る態様も好ましい。

以上説明したように、本発明によれば、ハードウェア資源に大きな制約が課されている環境下においても、様々な種類の声質の合成音声を生成することが可能となる。

以下、本発明に係る実施の形態について図面を参照しながら説明する。
Ａ．本実施形態
図１は、本実施形態に係る音声合成装置１００の機能構成を示す図である。なお、本実施形態では、携帯電話やＰＨＳ（Personal Handyphone System）、ＰＤＡ（Personal Digital Assistance）などハードウェア資源に大きな制約が課される携帯端末に実装される場合を想定するが、これに限らず様々な電子機器に適用可能である。

入力部２１０は、図示せぬ操作部等を介して入力されるテキスト情報をテキスト解析部２２０に供給する。図２は、テキスト情報を例示した図である。
テキスト本文情報は、合成音声として出力すべきテキストの内容（例えば「こんにちわ」）をあらわす情報である。なお、図２ではひらがなのみによって表されたテキスト本文情報を示しているが、ひらがなのみならず、漢字、ローマ字、カタカナ等の各種文字や各種記号によって表されたものであっても良い。

声質データ番号（声質指定情報）は、後述する複数の声質パラメータ（音韻データ加工情報）をそれぞれ識別するためのユニークな番号（図２では、Ｋ１〜Ｋｎ）である。本実施形態では、この声質パラメータを適宜選択・利用することで、特定話者（本実施形態では、「男性話者」を想定）による１種類の音韻データから、様々な声質の合成音声を得ることが可能となる（詳細は後述）。

ピッチ情報（ピッチ指定情報）は、合成音声にピッチを与える（いいかえれば、合成音声のピッチを指定する）ための情報であり、「Ｃ（ド）」〜「Ｈ（シ）」等の音階を指定する情報によって構成されている（図２参照）。

テキスト解析部２２０は、入力部２１０から供給されるテキスト情報を解析し、解析結果を音韻データ取得部２３０、声質変更部２５０、音声信号生成部２７０にそれぞれ供給する。具体的には、図２に示すようなテキスト情報が供給されると、テキスト解析部２２０は、まず、「こんにちわ」といったテキスト本文情報を「こ」、「ん」、「に」、「ち」、「わ」といったモーラ単位の音韻に分解する。なお、モーラとは、読みの単位をあらわし、基本的には１つの子音と１つの母音から構成されるものをいう。

テキスト解析部（取得手段）２２０は、このようにしてテキスト本文情報をモーラ単位の音韻に分解すると、これら合成音声の各音韻を指定する音韻情報（音韻指定情報）を生成し、音韻データ取得部２３０に順次供給する。さらに、テキスト解析部２２０は、声質データ番号（例えばＫ３）、ピッチ情報（例えばＣ（ド））をテキスト情報からそれぞれ取得し、取得した声質データ番号を声質変更部２５０に供給する一方、取得したピッチ情報を音声信号生成部２７０に供給する。

音韻データ取得部（第１抽出手段）２３０は、テキスト解析部２２０から供給される音韻情報を検索キーとして音韻データベース２４０を検索することにより、音韻情報に示される音韻に対応する音韻データを取得する。図３は、音韻データベース２４０の登録内容を例示した図である。図３に示すように、音韻データベース（第１記憶手段）２４０には、１人の男性話者のモーラ単位の各音韻（「あ」、「い」、・・・「ん」等）をあらわす一連の音韻データ１〜ｍが登録されるほか、該一連の音韻データの数（以下、登録音韻データ数）等が登録されている。

図４は、ある音韻（例えば「こ」等）をあらわす音韻データの構成を例示した図であり、図５は、音韻データに含まれる各フレーム情報を説明するための図である。なお、図５のＡは、上記男性話者がある音韻（例えば「こ」等）を発声したときの音声波形ｖｗと各フレームＦＲとの関係を示しており、図５のＢ、図５のＣ、図５のＤは、それぞれ第１フレームＦＲ１、第２フレームＦＲ２、第ｎフレームＦＲｎに係るフォルマント分析結果を示している。

図４に示すように、音韻データは、第１フレーム情報〜第ｎフレーム情報によって構成されている。各フレーム情報は、対応する各フレームＦＲ（図５参照）をフォルマント分析することにより得られる第１フォルマント情報〜第ｋフォルマント情報と、各フレームＦＲの音声が有声であるか無声であるかをあらわす有声／無声判別フラグ（例えば、“１”＝有声、“０”＝無声）とを備えている。

各フレーム情報を構成する第１フォルマント情報〜第ｋフォルマント情報は、対応するフォルマントをあらわすフォルマント周波数ＦとフォルマントレベルＡとの対によって構成されている（図５のＢ〜図５のＤ参照）。例えば、第１フレーム情報を構成する第１フォルマント情報〜第ｋフォルマント情報は、それぞれ（Ｆ１１、Ａ１１）、（Ｆ１２、Ａ１２）、・・・（Ｆ１ｋ、Ａ１ｋ）といったフォルマント周波数とフォルマントレベルとの対によって構成され（図５のＢ参照）、・・・第ｎフレーム情報を構成する第１フォルマント情報〜第ｋフォルマント情報は、それぞれ（Ｆｎ１、Ａｎ１）、（Ｆｎ２、Ａｎ２）、・・・（Ｆｎｋ、Ａｎｋ）といったフォルマント周波数とフォルマントレベルとの対によって構成される（図５のＤ参照）。

音韻データ取得部２３０は、テキスト解析部２２０から供給される各音韻情報（「こ」、「ん」、「に」、「ち」、「わ」等をあらわす各音韻情報）に基づいて対応する各音韻データを取得すると、これらを声質変更部２５０に供給する。

声質変更部２５０は、音韻データ取得部２３０によって取得された各音韻データに示される音韻の声質を変更する。詳述すると、声質変更部（第２抽出手段）２５０は、まず、テキスト解析部２２０から供給される声質データ番号を検索キーとして声質データベース（第２記憶手段）２６０を検索し、対応する声質パラメータを取得する。そして、声質変更部２５０は、取得した声質パラメータに基づいて、上記各音韻の声質の変更を行う。

図６は、声質データベース２６０の登録内容を例示した図である。
図６に示すように、声質データベース（第２記憶手段）２６０には、上記各音韻の声質を変更するために必要な情報であって、音韻データの加工内容をあらわす複数種類の声質パラメータ１〜Ｌと、該声質パラメータの数をあらわす登録数情報とが格納されている。

図７は、声質パラメータの構成の一例を示す図である。
図７に示すように、声質パラメータ（音韻データ加工情報）は、当該パラメータを特定するための声質データ番号と、合成音声の性別を変更するか否かをあらわす性別変更フラグと、第１〜第ｋフォルマントの変更内容をあらわす第１〜第ｋフォルマント変更情報とを備えている。ここで、例えば上記性別変更フラグが“１”に設定されている場合には、声質変更部２５０によって合成音声の性別を変更するための処理（以下、性別変更処理）が行われる一方、上記性別変更フラグが“０”に設定されている場合には、上記性別変更処理は行われない（詳細は後述）。なお、本実施形態では、男性話者による１種類の音韻データを想定しているため、この性別変更フラグが“１”に設定されている場合には、合成音声の特徴は男性的なものから女性的なものに変更される。一方、性別変更フラグが“０”に設定されている場合には、合成音声の特徴は男性的なもののまま変更されない。

一方、各フォルマント変更情報は、後述する各フォルマントの基本波形（正弦波等）を選択するための基本波形選択情報と、各フォルマント周波数の変更内容をあらわすフォルマント周波数変更情報と、フォルマント周波数の各レベルの変更内容をあわすフォルマントレベル変更情報とを備えている。

各フォルマント周波数変更情報及び各フォルマントレベル変更情報には、それぞれフォルマント周波数のシフト量、発振速度、発振レベルをあらわす情報及びフォルマントレベルのシフト量、発振速度、発振レベルをあらわす情報が含まれている。なお、フォルマント周波数及びフォルマントレベルのシフト量、発振速度、発振レベルに関する詳細は後述する。

図８は、声質変更部２５０によって実行される声質変更処理を示すフローチャートである。
声質変更部（生成手段）２５０は、テキスト解析部２２０から声質データ番号を受け取ると、該声質データ番号を検索キーとして声質データベース２６０を検索し、対応する声質パラメータを取得する（ステップＳ１）。そして、声質変更部２５０は、取得した声質パラメータに含まれる性別変更フラグを参照し、合成音声の性別を変更すべきか（すなわち、性別変更処理を実行すべきか）否かを判断する（ステップＳ２）。声質変更部２５０は、例えば性別変更フラグが“０”に設定され、性別変更すべきでないと判断すると、ステップＳ３をスキップしてステップＳ４に進む一方、例えば性別変更フラグが“１”に設定され、性別変更すべきと判断すると、ステップＳ３に進み、性別変更処理を実行する。

図９は、記憶手段（図示略）に格納されている性別変更処理用のマッピング関数ｍｆを例示した図であり、図１０及び図１１は、男性及び女性がそれぞれ同一の音韻（例えば、「あ」等）を発声したときの分析結果を示す図である。なお、図９に示すマッピング関数ｍｆの横軸は入力周波数（声質変更部２５０に入力されるフォルマント周波数）、縦軸は出力周波数（声質変更部２５０から出力される周波数変更後のフォルマント周波数）をあらわし、ｆｍａｘは入力可能なフォルマント周波数の最大値をあらわす。また、図１０及び図１１に示す分析グラフｇ１、ｇ２の横軸は周波数、縦軸はレベルをあらわす。

図１０と図１１に示す分析グラフｇ１、ｇ２を比較して明らかなように、男性の音韻の第１フォルマント周波数ｆｍ１〜第４フォルマント周波数ｆｍ４は、女性の音韻の第１フォルマント周波数ｆｆ１〜第４フォルマント周波数ｆｆ４と比較して低い。そこで、本実施形態では、図９に示すように、直線ｎｌ（入力周波数＝出力周波数；破線部分参照）よりも上側に位置するマッピング関数ｍｆ（実線部分参照）を用いることにより、男性的な特徴を有する音韻を女性的な特徴を有する音韻に変更する。

具体的には、声質変更部２５０は、入力される音韻データの各フォルマント周波数を、図９に示すマッピング関数ｍｆを用いて周波数の高い方向にシフトする。これにより、入力される男性の音韻の各フォルマント周波数は、女性的な特徴を有するものに変更される。なお、女性の音韻のフォルマント周波数が入力される場合には、上記とは逆に、直線ｎｌよりも下側に位置するマッピング関数ｍｆ’（図９に一点鎖線で示す部分参照）を利用すれば良い。

声質変更部２５０は、上記性別変更処理を実行し、ステップＳ４に進むと、各フォルマント周波数変更情報に示される各フォルマント周波数のシフト量に従って、各フォルマント周波数をシフトする。さらに、声質変更部２５０は、シフトした各フォルマント周波数を発振させるべく、周波数発振処理を実行する（ステップＳ５）。

図１２は、記憶手段（図示略）に格納されている周波数発振処理に用いられる発振テーブルＴＡを例示した図であり、図１３は、該発振テーブルＴＡから読み出される発振値と時間の関係を例示した図である。なお、本実施形態では、便宜上、同一の発振テーブルＴＡを用いて上記各フォルマント周波数を発振させる場合を想定するが、各フォルマント周波数毎に発振値等が異なる発振テーブルを用いても良い。

発振テーブルＴＡは、発振値を時系列順に登録したテーブルである。声質変更部２５０は、各フォルマント周波数変更情報に示されるフォルマント周波数の発振速度に従って、発振テーブルＴＡに登録されている発振値の読み出し速度（あるいは発振値を読み飛ばす数）を制御する一方、読み出した各発振値に対して各フォルマント周波数変更情報に示されるフォルマント周波数の発振レベルを乗するといった周波数発振処理を実行する。これにより、図１４に示すようなフォルマント周波数ｆｍを発振速度ｓｐ、発振レベルｌｖで発振させた波形を得ることができる。なお、本実施形態では、フォルマント周波数の発振レベルの演算量を削減するために、上記発振テーブルＴＡを利用する態様を例示したが、発振テーブルＴＡを利用することなく所定の関数等を利用してフォルマント周波数の発振レベルを求めても良い。

声質変更部２５０は、周波数発振処理を実行すると、ステップ６に進み、各フォルマント周波数変更情報に示される各フォルマントレベルのシフト量に従って、各フォルマントレベルをシフトする。さらに、声質変更部２５０は、シフトした各フォルマントレベルを発振させるべく、レベル発振処理を実行し（ステップＳ７）、処理を終了する。なお、レベル発振処理に用いられる発振テーブルや該発振テーブルを用いて各フォルマントレベルを発振させる場合の動作については、上記各フォルマント周波数を発振させる場合とほぼ同様に説明することができるため割愛する。また、フォルマントレベルの発振について、フォルマント周波数の発振と同一の発振テーブルを用いて発振させても良いが、フォルマント周波数の発振とは異なる発振テーブルを用いて発振させても良い。

声質変更部（生成手段）２５０は、取得した声質パラメータ（音韻データ加工情報）に基づいて各音韻の声質を変更（すなわち、音韻データを加工）すると、各フォルマント毎の基本波形選択情報、各フォルマント周波数、及び各フォルマントレベルを音声信号生成部２７０に供給する。
音声信号生成部２７０は、声質変更部２５０から供給される基本波形選択情報を受け取ると、この基本波形選択情報に示される波形データを波形データベース２８０から取得する。なお、この基本波形選択情報に示される基本波形は、各フォルマント毎に異なっていても良く、例えば低い周波数のフォルマントの基本波形を正弦波とする一方、個性を表す高い周波数のフォルマントの基本波形を正弦波以外の波形（例えば、矩形波やのこぎり波など）等としても良い。もちろん、複数種類の基本波形を利用することなく、単一の基本波形（例えば、正弦波）のみを利用しても良い。

音声信号生成部（生成手段）２７０は、このようにして各波形データを選択すると、選択した各波形データ、各フォルマント周波数、各フォルマントレベルを用いて各フォルマント毎のフォルマント波形を生成する。そして、音声信号生成部（生成手段）２７０は、各フォルマント波形を加算し、合成音声信号を生成する。さらに、音声信号生成部２７０は、生成した合成音声信号に、テキスト解析部２２０から供給されるピッチ情報（ピッチ指定情報）に示されるピッチを与える処理（以下、ピッチ付与処理）を施す。

図１５は、ピッチ付与処理を説明するための図である。なお、図１５では、説明の理解を容易にするために、正弦波の合成音声信号にピッチが付与される場合を例示している。
音声信号生成部２７０は、テキスト解析部２２０から供給されるピッチ情報に基づいて図１５に示す時間エンベロープｔｐの周期を算出する。ここで、合成音声のピッチは、時間エンベロープｔｐの周期に依存し、時間エンベロープｔｐの周期が長くなればピッチは低くなる一方、時間エンベロープｔｐの周期が短くなればピッチは高くなる。音声信号生成部２７０は、このようにして時間エンベロープｔｐの周期を求めると、時間エンベロープｔｐと合成音声信号との乗算を、求めた時間エンベロープｔｐの周期で繰り返し行うことにより、所定のピッチが付与された合成音声信号を得る。

図１６は、声質変更処理及びピッチ付与処理が施された特定フォルマントのフォルマント波形を例示した図である。図１６に示すように、声質変更に関わる処理（例えば、フォルマント周波数やフォルマントレベルの発振処理等）は、フレーム周期（フレーム単位）で制御することが可能となっている。音声信号生成部（生成手段）２７０は、上記の如く所定のピッチが付与された合成音声信号を得ると、これを合成音声として外部へ出力する。これにより、ユーザは、音声合成装置１００に入力したテキスト本文（「こんにちわ」等）の内容を、所望する声質の合成音声によって確認することが可能となる。

以上説明したように、本実施形態に係る音声合成装置によれば、声質変更部においてフォルマントを単位とする様々な声質変更処理が施されるため、記憶される音韻データが１種類（すなわち、特定話者の音韻データのみ）であっても、様々な声質の音声合成が可能となる。

Ｂ．その他
以上説明した本実施形態では、音声合成装置１００に入力されるテキスト情報にピッチ情報が含まれている場合を例示したが（図２参照）、該テキスト情報にピッチ情報が含まれない場合もある。かかる場合を想定して音韻データベース２４０に予め代替ピッチ情報を登録し（図３の括弧書き参照）、テキスト情報にピッチ情報が含まれていない場合には、この代替ピッチ情報に示されるピッチ（例えば、Ｃ（ド）等）を合成音声のピッチとして利用するようにしても良い。また、代替ピッチ情報のほか、図４に示す各フレーム毎のフォルマント情報の数（フォルマント数情報；図３の括弧書き参照）を音韻データベース２４０に予め登録しておいても良い。

また、以上説明した音声合成装置１００に係る諸機能は、ＣＰＵ（或いはＤＳＰ）がＲＯＭ等のメモリに格納されたプログラムを実行することによって実現されるため、かかるプログラムについてＣＤ−ＲＯＭ等の記録媒体に記録して頒布したり、インターネット等の通信ネットワークを介して頒布しても良い。

本実施形態に係る音声合成装置の機能構成を示すブロック図である。同実施形態に係るテキスト情報を例示した図である。同実施形態に係る音韻データベースの登録内容を例示した図である。同実施形態に係る音韻データの構成を例示した図である。同実施形態に係る音韻データに含まれる各フレーム情報を説明するための図である。同実施形態に係る声質データベースの登録内容を例示した図である。同実施形態に係る声質パラメータの構成の一例を示す図である。同実施形態に係る声質変更処理を示すフローチャートである。同実施形態に係るマッピング関数を例示した図である。同実施形態に係る男性の音韻の分析結果を示す図である。同実施形態に係る女性の音韻の分析結果を示す図である。同実施形態に係る発振テーブルを例示した図である。同実施形態に係る発振テーブルから読み出される発振値と時間の関係を例示した図である。同実施形態に係るフォルマント周波数発振を説明するための図である。同実施形態に係るピッチ付与処理を説明するための図である。同実施形態に係る声質変更処理及びピッチ付与処理が施された特定フォルマントのフォルマント波形を例示した図である。従来の音声合成装置の機能構成を示す図である。

符号の説明

１００・・・音声合成装置、２１０・・・入力部、２２０・・・テキスト解析部、２３０・・・音韻データ取得部、２４０・・・音韻データベース、２５０・・・声質変更部、２６０・・・声質データベース、２７０・・・音声信号生成部、２８０・・・波形データベース。

Claims

入力されるテキスト情報から、合成音声の音韻を指定する音韻指定情報及び該合成音声の声質を指定する声質指定情報を取得する取得手段と、
特定話者の各音韻をあらわす一連の音韻データを記憶する第１記憶手段と、
前記各音韻の声質を変更するために必要な情報であって、音韻データの加工内容をあらわす音韻データ加工情報を複数種類記憶する第２記憶手段と、
前記第１記憶手段から、前記音韻指定情報に示される音韻に対応する音韻データを抽出する第１抽出手段と、
前記第２記憶手段から、前記声質指定情報に示される声質に対応する音韻データ加工情報を抽出する第２抽出手段と、
前記抽出された音韻データを、前記抽出された音韻データ加工情報に基づいて加工し、前記合成音声を生成する生成手段と
を具備することを特徴とする音声合成装置。
前記各音韻データは、それぞれ対応する音韻のフォルマントを複数備え、
前記音韻データ加工情報には、前記フォルマントの変更内容をあらわすフォルマント変更情報が含まれ、
前記生成手段は、前記音韻データに示される音韻の各フォルマントを、前記フォルマント変更情報に基づいて変更し、変更後の各フォルマントを加算した後の信号波形に基づいて前記合成音声を生成することを特徴とする請求項１に記載の音声合成装置。
前記フォルマントは、フォルマント周波数とフォルマントレベルとの対によって構成され、
前記フォルマント変更情報には、前記フォルマント周波数の変更内容をあらわすフォルマント周波数変更情報と前記フォルマントレベルの変更内容をあらわすフォルマントレベル変更情報が含まれ、
前記生成手段は、前記音韻データに示される音韻の各フォルマント周波数と各フォルマントレベルのそれぞれを、前記フォルマント周波数変更情報及び前記フォルマントレベル変更情報に基づいて変更することにより、前記変更後の各フォルマントを得ることを特徴とする請求項２に記載の音声合成装置。
前記取得手段は、前記テキスト情報から前記音韻指定情報及び前記声質指定情報を取得するほか、前記合成音声のピッチを指定するピッチ指定情報を取得し、
前記生成手段は、前記変更後の各フォルマントを加算した後の信号波形に対して前記ピッチ指定情報に示されるピッチを与えることにより、前記合成音声を得ることを特徴とする請求項２または３に記載の音声合成装置。
入力されるテキスト情報から、合成音声の音韻を指定する音韻指定情報及び該合成音声の声質を指定する声質指定情報を取得する取得過程と、
特定話者の各音韻をあらわす一連の音韻データを記憶する第１記憶手段から、前記音韻指定情報に示される音韻に対応する音韻データを抽出する第１抽出過程と、
前記各音韻の声質を変更するために必要な情報であって、音韻データの加工内容をあらわす音韻データ加工情報を複数種類記憶する第２記憶手段から、前記声質指定情報に示される声質に対応する音韻データ加工情報を抽出する第２抽出過程と、
前記抽出された音韻データを、前記抽出された音韻データ加工情報に基づいて加工し、前記合成音声を生成する生成過程と
を具備することを特徴とする音声合成方法。
特定話者の各音韻をあらわす一連の音韻データを記憶する第１記憶手段と、前記各音韻の声質を変更するために必要な情報であって、音韻データの加工内容をあらわす音韻データ加工情報を複数種類記憶する第２記憶手段とを備えたコンピュータを、
入力されるテキスト情報から、合成音声の音韻を指定する音韻指定情報及び該合成音声の声質を指定する声質指定情報を取得する取得手段と、
前記第１記憶手段から、前記音韻指定情報に示される音韻に対応する音韻データを抽出する第１抽出手段と、
前記第２記憶手段から、前記声質指定情報に示される声質に対応する音韻データ加工情報を抽出する第２抽出手段と、
前記抽出された音韻データを、前記抽出された音韻データ加工情報に基づいて加工し、前記合成音声を生成する生成手段として機能させるための音声合成プログラム。