JP3883780B2

JP3883780B2 - 音声合成装置

Info

Publication number: JP3883780B2
Application number: JP2000130918A
Authority: JP
Inventors: 達也三次
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-04-28
Filing date: 2000-04-28
Publication date: 2007-02-21
Anticipated expiration: 2020-04-28
Also published as: JP2001312290A

Description

【０００１】
【発明の属する技術分野】
この発明は、ナビゲーションシステム、またはパーソナルコンピュータなどの電子機器に用いられ、所望の人の音声により音声出力する音声合成装置に関するものである。
【０００２】
【従来の技術】
図３は例えば特開昭６３−２１２９９５号公報に示された従来の音声合成装置を示す機能ブロック図であり、図において、１は入力文字列の音韻記号系列、アクセント、およびイントネーションを解析する文字列解析部、２は単語辞書である。３は母音の特徴を表すターゲット特徴パラメータファイル４、および子音の特徴を表す時系列特徴パラメータファイル５からなる特徴パラメータファイル、６は音韻制御規則と韻律制御規則からなる規則ファイルである。７は特徴パラメータファイル３、および規則ファイル６を参照して、文字列解析部１から入力された音韻記号系列、アクセントおよびイントネーションによる音声合成に必要なパラメータを生成する規則制御部、８は規則制御部７から入力されたパラメータに基づいて音声合成を行い、入力文字列に応じた規則合成音声を出力する音声合成器である。
【０００３】
次に動作について説明する。
図３において、文字列解析部１は、任意の入力文字列が入力されると、文字列全体の構文解釈を行い、文字列全体のイントネーションを決定する。また、単語辞書２を参照して、入力文字列に含まれる単語を検索し、文字列内の各単語のアクセント、および音韻記号系列を決定する。
規則制御部７は、母音の特徴を表すターゲット特徴パラメータファイル４、および子音の特徴を表す時系列特徴パラメータファイル５からなる特徴パラメータファイル３、音韻を結合させるための音韻制御規則、および韻律を制御するための韻律制御規則からなる規則ファイル６を参照して、文字列解析部１から入力された文字列全体のイントネーション、文字列の音韻記号系列、および文字列のアクセントに応じた、文字列の音韻特徴パラメータ、各音韻間のピッチ値、各音韻パワー、および継続時間長などの音声合成に必要なパラメータを生成する。
音声合成器８は、規則制御部７から入力された各パラメータに基づいて音声合成を行い、入力文字列に応じた規則合成音声を出力する。
以上説明した音声合成装置において、音韻の個人性を表すパラメータは、母音の特徴を表すターゲット特徴パラメータファイル４、および子音の特徴を表す時系列特徴パラメータファイル５からなる特徴パラメータファイル３に含まれている。
【０００４】
【発明が解決しようとする課題】
従来の音声合成装置は以上のように構成されているので、音韻の個人性を表すパラメータが特徴パラメータファイル３に記憶されているが、これは音韻の結合を良好にするために利用されるものであり、従来の音声合成装置では、好みの人の音声の特徴に応じた合成音声を出力することができないなどの課題があった。
【０００５】
この発明は上記のような課題を解決するためになされたもので、所望の人の音声を入力することで、その所望の人の音声の特徴に応じた合成音声を出力する音声合成装置を得ることを目的とする。
【０００６】
【課題を解決するための手段】
この発明に係る音声合成装置は、所望の音声を入力する音声入力部と、音声入力部により入力された所望の音声の音声波形を音声データとして記憶する音声データ記憶部と、基本となる音声波形が基本音声データとして予め記憶された基本音声データ記憶部と、音声データ記憶部に記憶された音声データの音声波形と基本音声データ記憶部に記憶された基本音声データの音声波形との比較に基づいて入力された音声データの音声特徴データを分析するスペクトラム分析部と、基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、基本音素辺データ記憶部に記憶された基本音素辺データを分析された音声特徴データに応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、生成された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部と、音声合成された音声データを出力する音声出力部とを備えたものである。
【０００７】
この発明に係る音声合成装置は、スペクトラム分析部により分析された音声特徴データを記憶する音声特徴データ記憶部と、音声特徴データ記憶部に既に記憶された音声特徴データをスペクトラム分析部により新たに分析された音声特徴データに応じて学習して、その学習された音声特徴データをその音声特徴データ記憶部に記憶させる音声特徴データ学習部とを備えたものである。
【０００８】
この発明に係る音声合成装置は、音声特徴データ記憶部に既に記憶された音声特徴データとスペクトラム分析部により新たに分析された音声特徴データとを照合して、一致が認められた場合に、既に記憶された音声特徴データを新たに分析された音声特徴データに応じて学習し、その学習した音声特徴データをその音声特徴データ記憶部に記憶させ、一致が認められない場合に、新たに分析された音声特徴データをそのままその音声特徴データ記憶部に記憶させる音声特徴データ学習部と、基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、基本音素辺データ記憶部に記憶された基本音素辺データを音声特徴データ記憶部に記憶された複数の音声特徴データ毎にそれぞれ応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、生成された複数の合成音素辺データを記憶する合成音素辺データ記憶部と、記憶された複数の合成音素辺データのうちのいずれかを選択する合成音素辺データ選択部と、選択された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部とを備えたものである。
【０００９】
この発明に係る音声合成装置は、音声合成部において、テキストデータに応じて合成音素辺データまたは基本音素辺データを抽出して音声合成するようにしたものである。
【００１０】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声合成装置を示す機能ブロック図であり、図において、１１は所望の音声を入力する音声入力部、１２はその音声入力部１１により入力された音声データを記憶する音声データ記憶部である。１３は基本音声データを記憶した基本音声データ記憶部、１４は基本音声データに基づいて音声データの音声特徴データを分析するスペクトラム分析部、１５はスペクトラム分析部１４により分析された音声特徴データを記憶する音声特徴データ記憶部である。
１６は音声特徴データ記憶部１５に既に記憶された音声特徴データとスペクトラム分析部１４により新たに分析された音声特徴データとを照合して、一致が認められた場合に、既に記憶された音声特徴データを新たに分析された音声特徴データに応じて学習し、その学習した音声特徴データを音声特徴データ記憶部１５に記憶させ、一致が認められない場合に、新たに分析された音声特徴データをそのまま音声特徴データ記憶部１５に記憶させる音声特徴データ学習部である。
【００１１】
１７は基本音素辺データを記憶した基本音素辺データ記憶部、１８はその基本音素辺データを音声特徴データ記憶部１５に記憶された複数の音声特徴データ毎にそれぞれ応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部、１９はその合成音素辺データ生成部１８により生成された複数の合成音素辺データを記憶する合成音素辺データ記憶部である。２０は合成音素辺データ記憶部１９に記憶された複数の合成音素辺データのうちのいずれかを選択する合成音素辺データ選択部、２１は合成音素辺データ選択部２０により選択された合成音素辺データまたは基本音素辺データ記憶部１７に記憶された基本音素辺データからテキストデータ２２に応じた合成音素辺データまたは基本音素辺データを抽出して音声合成する音声合成部、２３は音声合成部２１により音声合成された音声データを出力する音声出力部である。
【００１２】
次に動作について説明する。
図１において、基本音声データ記憶部１３には、基本となる音声波形が基本音声データとして予め記憶されている。この基本音声データとしては、例えば、アナウンサーの声などを基本として、その音声波形を記憶しても良い。
また、基本音素辺データ記憶部１７には、基本となる音素辺毎の音声波形が基本音素辺データとして予め記憶されている。この基本音素辺データとしては、基本音声データ記憶部１３に記憶された基本音声データがアナウンサーの声である場合には、そのアナウンサーの声を基本として、それら音素辺毎の音声波形を記憶する。ここで、音素辺とは、言葉を組み立てる上での音声単位であり、例えば、「今日は」という言葉であれば、「こ」、「ん」、「に」、「ち」、「は」のそれぞれの音声単位が音素辺である。基本音素辺データ記憶部１７には、日常用いられる言葉に対応した様々な基本音素辺データが記憶されている。
【００１３】
そして、この音声合成装置の利用者が、好みの人の音声の特徴に応じた合成音声を出力させたい場合には、音声入力部１１から好みの人の音声を入力する。この音声入力部１１は、マイクロホンなどによって構成されたものである。また、好みの人の音声は、通常の話し言葉、あるいは書物などを読んでもらって、その音声を入力するようにしても良い。音声データ記憶部１２は、その音声入力部１１により入力された音声データを記憶する。
スペクトラム分析部１４は、基本音声データ記憶部１３に記憶された基本音声データに基づいて、音声データ記憶部１２に記憶された音声データの音声特徴データを分析する。
図２はスペクトラム分析部および音声特徴データ学習部の処理を示すフローチャートであり、スペクトラム分析部１４では、音声データの音声波形から音声スペクトラムを生成して、基本音声データの音声波形から生成された基本音声スペクトラムとのピッチ分析（ＳＴ１）、および周波数分布分析（ＳＴ２）を行い、それら基本音声データを基準としたピッチ差分、および周波数分布差分を入力された音声データの音声特徴データとして出力する。
【００１４】
音声特徴データ学習部１６は、そのスペクトラム分析部１４から入力されたピッチ差分、および周波数分布差分を音声特徴データ記憶部１５に記憶する（ＳＴ４）。
ここで、音声特徴データ学習部１６では、スペクトラム分析部１４からのピッチ差分、および周波数分布差分の入力が今回が初回であったので、それらピッチ差分、および周波数分布差分をそのまま音声特徴データ記憶部１５に記憶したが、音声特徴データ記憶部１５に既にピッチ差分、および周波数分布差分が記憶されている場合には、スペクトラム分析部１４から入力されたピッチ差分、および周波数分布差分と、音声特徴データ記憶部１５に既に記憶されたピッチ差分、および周波数分布差分とを照合して、所定範囲内の類似度であれば一致と認める（ＳＴ３）。そして、その一致が認められた既に記憶されたピッチ差分、および周波数分布差分を音声特徴データ記憶部１５から抽出して、その既に記憶されていたピッチ差分、および周波数分布差分と、スペクトラム分析部１４から入力されたピッチ差分、および周波数分布差分とを平均演算する（ＳＴ５）。この平均演算は、次式により演算される。
Ｐａ＝｛Ｐｒ（ｎ＋１）＋Ｐ｝／（ｎ＋２）
Ｆａ＝｛Ｆｒ（ｎ＋１）＋Ｆ｝／（ｎ＋２）
但し、Ｐａ：平均演算されたピッチ差分
Ｐｒ：音声特徴データ記憶部から抽出したピッチ差分
ｎ：過去に平均演算された回数
Ｐ：スペクトラム分析部から新たに入力されたピッチ差分
Ｆａ：平均演算された周波数分布差分
Ｆｒ：音声特徴データ記憶部から抽出した周波数分布差分
Ｆ：スペクトラム分析部から新たに入力された周波数分布差分
この平均演算されたピッチ差分Ｐａ、および周波数分布差分Ｆａと、過去に平均演算された回数ｎに１を加えた値を平均演算された回数として、音声特徴データ記憶部１５に記憶させる（ＳＴ６）。
なお、ＳＴ３の照合により、類似度が所定範囲内でない場合は、一致していないと判断して、スペクトラム分析部１４から入力されたピッチ差分、および周波数分布差分をそのまま音声特徴データ記憶部１５に記憶させる（ＳＴ４）。
このようにして、音声特徴データ学習部１６は、音声入力部１１への好みの人の音声入力が初回の場合は、その入力された音声に応じた音声特徴データを音声特徴データ記憶部１５に記憶させ、同一の好みの人の音声入力があった場合は、その入力された音声に応じて、音声特徴データ記憶部１５に記憶された音声特徴データを学習させ、さらに、他の好みの人の音声入力があった場合は、その入力された音声に応じた音声特徴データを音声特徴データ記憶部１５に別途記憶させる。よって、複数人の好みの人の音声入力に応じた音声特徴データを記憶できると共に、それぞれの音声特徴データは、該当する好みの人の音声入力の回数に応じて、より近似させることができる。
【００１５】
合成音素辺データ生成部１８は、基本音素辺データ記憶部１７に記憶された基本音素辺データを音声特徴データ記憶部１５に記憶された音声特徴データに応じて波形整形して合成音素辺データを生成する。上述したように、基本音素辺データ記憶部１７には、基本となる音素辺毎の音声波形が基本音素辺データとして予め記憶されている。この様々な基本音素辺データを音声特徴データ記憶部１５に記憶されたピッチ差分、および周波数分布差分に応じて波形整形して、好みの人の音声に近似する様々な合成音素辺データを生成する。そして、合成音素辺データ生成部１８により生成された合成音素辺データは、合成音素辺データ記憶部１９に記憶される。
なお、音声特徴データ記憶部１５に、複数人の好みの人の音声入力に応じた複数の音声特徴データが記憶されている場合には、この合成音素辺データ記憶部１９には、複数人分の合成音素辺データがそれぞれ記憶されることになる。
【００１６】
合成音素辺データ選択部２０は、合成音素辺データ記憶部１９に記憶された複数の合成音素辺データのうちのいずれかを選択する。すなわち、複数人の好みの人のうち、利用者が聴きたい好みの人に応じた合成音素辺データを選択する。
音声合成部２１は、合成音素辺データ選択部２０により選択された合成音素辺データからテキストデータ２２に応じた合成音素辺データを抽出して音声合成する。ここで、テキストデータ２２とは、音声出力させたい言葉を文字列としたものであり、例えば、ナビゲーションシステムとして、この音声合成装置を利用する場合には、「１００メートル先の○○交差点を右折します。」などを文字列として、予め記憶したものである。よって、この場合、音声合成部２１では、その文字列を音素辺毎に分解して、分解した音素辺毎に該当する合成音素辺データをそれぞれ抽出して、それら抽出した合成音素辺データを合成する。
音声出力部２３は、音声合成部２１により音声合成された音声データを出力する。この音声出力部２３は、スピーカーなどにより構成されるものであり、上述の例では、「１００メートル先の○○交差点を右折します。」などを利用者が聴きたい好みの人の音声の特徴に応じた合成音声を出力する。
なお、音声合成部２１は、音声合成の際に、合成音素辺データだけではテキストデータ２２に応じた音声合成を満たすことができない場合には、基本音素辺データ記憶部１７に記憶された基本音素辺データから抽出して、その抽出した基本音素辺データを利用することで、テキストデータ２２に応じた音声合成を満たすようにしても良い。
【００１７】
以上のように、この実施の形態１によれば、好みの人の音声を入力することで、好みの人の音声の特徴に応じた合成音声を出力することができる。
また、好みの人の音声入力の回数に応じて、より近似した好みの人の音声の特徴に応じた合成音声を出力することができる。
さらに、複数人の好みの人の音声から利用者が聴きたい好みの人を選択して、その選択した人の音声の特徴に応じた合成音声を出力することができる。
さらに、音声合成部２１では、音声合成の際に基本音素辺データ記憶部１７に記憶された基本音素辺データを合成音素辺データのバックアップとして用いることができ、より信頼性の高い合成音声を出力することができる。
【００１８】
【発明の効果】
以上のように、この発明によれば、所望の音声を入力する音声入力部と、音声入力部により入力された所望の音声の音声波形を音声データとして記憶する音声データ記憶部と、基本となる音声波形が基本音声データとして予め記憶された基本音声データ記憶部と、音声データ記憶部に記憶された音声データの音声波形と基本音声データ記憶部に記憶された基本音声データの音声波形との比較に基づいて入力された音声データの音声特徴データを分析するスペクトラム分析部と、基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、基本音素辺データ記憶部に記憶された基本音素辺データを分析された音声特徴データに応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、生成された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部と、音声合成された音声データを出力する音声出力部とを備えるように構成したので、所望の音声の入力により、テキストデータに応じた所望の音声の特徴に応じた合成音声を出力することができる効果が得られる。
【００１９】
また、この発明によれば、スペクトラム分析部により分析された音声特徴データを記憶する音声特徴データ記憶部と、音声特徴データ記憶部に既に記憶された音声特徴データをスペクトラム分析部により新たに分析された音声特徴データに応じて学習して、その学習された音声特徴データをその音声特徴データ記憶部に記憶させる音声特徴データ学習部とを備えるように構成したので、音声特徴データ学習部により、所望の音声の入力回数に応じて、より近似した所望の音声の特徴に応じた合成音声を出力することができる効果が得られる。
【００２０】
さらに、この発明によれば、音声特徴データ記憶部に既に記憶された音声特徴データとスペクトラム分析部により新たに分析された音声特徴データとを照合して、一致が認められた場合に、既に記憶された音声特徴データを新たに分析された音声特徴データに応じて学習し、その学習した音声特徴データをその音声特徴データ記憶部に記憶させ、一致が認められない場合に、新たに分析された音声特徴データをそのままその音声特徴データ記憶部に記憶させる音声特徴データ学習部と、基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、基本音素辺データ記憶部に記憶された基本音素辺データを音声特徴データ記憶部に記憶された複数の音声特徴データ毎にそれぞれ応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、生成された複数の合成音素辺データを記憶する合成音素辺データ記憶部と、記憶された複数の合成音素辺データのうちのいずれかを選択する合成音素辺データ選択部と、選択された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部とを備えるように構成したので、音声特徴データ学習部により、所望の音声の入力回数に応じて、より近似した所望の音声の特徴に応じた合成音声を出力することができる。また、複数人の所望の音声から利用者が聴きたい所望の音声を選択して、その選択した音声の特徴に応じた合成音声を出力することができる効果が得られる。
【００２１】
さらに、この発明によれば、音声合成部において、テキストデータに応じて合成音素辺データまたは基本音素辺データを抽出して音声合成するように構成したので、音声合成部では、音声合成の際に基本音素辺データを合成音素辺データのバックアップとして用いることができ、より信頼性の高い合成音声を出力することができる効果が得られる。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声合成装置を示す機能ブロック図である。
【図２】スペクトラム分析部および音声特徴データ学習部の処理を示すフローチャートである。
【図３】従来の音声合成装置を示す機能ブロック図である。
【符号の説明】
１１音声入力部、１２音声データ記憶部、１３基本音声データ記憶部、１４スペクトラム分析部、１５音声特徴データ記憶部、１６音声特徴データ学習部、１７基本音素辺データ記憶部、１８合成音素辺データ生成部、１９合成音素辺データ記憶部、２０合成音素辺データ選択部、２１音声合成部、２２テキストデータ、２３音声出力部。

Claims

所望の音声を入力する音声入力部と、上記音声入力部により入力された所望の音声の音声波形を音声データとして記憶する音声データ記憶部と、基本となる音声波形が基本音声データとして予め記憶された基本音声データ記憶部と、上記音声データ記憶部に記憶された音声データの音声波形と上記基本音声データ記憶部に記憶された基本音声データの音声波形との比較に基づいて上記音声入力部により入力された音声データの音声特徴データを分析するスペクトラム分析部と、上記基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、上記基本音素辺データ記憶部に記憶された基本音素辺データを上記スペクトラム分析部により分析された音声特徴データに応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、上記合成音素辺データ生成部により生成された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部と、上記音声合成部により音声合成された音声データを出力する音声出力部とを備えた音声合成装置。
所望の音声を入力する音声入力部と、上記音声入力部により入力された所望の音声の音声波形を音声データとして記憶する音声データ記憶部と、基本となる音声波形が基本音声データとして予め記憶された基本音声データ記憶部と、上記音声データ記憶部に記憶された音声データの音声波形と上記基本音声データ記憶部に記憶された基本音声データの音声波形との比較に基づいて上記音声入力部により入力された音声データの音声特徴データを分析するスペクトラム分析部と、上記スペクトラム分析部により分析された音声特徴データを記憶する音声特徴データ記憶部と、上記音声特徴データ記憶部に既に記憶された音声特徴データを上記スペクトラム分析部により新たに分析された音声特徴データに応じて学習して、その学習された音声特徴データをその音声特徴データ記憶部に記憶させる音声特徴データ学習部と、上記基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、上記基本音素辺データ記憶部に記憶された基本音素辺データを上記音声特徴データ記憶部に記憶された音声特徴データに応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、上記合成音素辺データ生成部により生成された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部と、上記音声合成部により音声合成された音声データを出力する音声出力部とを備えた音声合成装置。
所望の音声を入力する音声入力部と、上記音声入力部により入力された所望の音声の音声波形を音声データとして記憶する音声データ記憶部と、基本となる音声波形が基本音声データとして予め記憶された基本音声データ記憶部と、上記音声データ記憶部に記憶された音声データの音声波形と上記基本音声データ記憶部に記憶された基本音声データの音声波形との比較に基づいて上記音声入力部により入力された音声データの音声特徴データを分析するスペクトラム分析部と、上記スペクトラム分析部により分析された音声特徴データを記憶する音声特徴データ記憶部と、上記音声特徴データ記憶部に既に記憶された音声特徴データと上記スペクトラム分析部により新たに分析された音声特徴データとを照合して、一致が認められた場合に、既に記憶された音声特徴データを新たに分析された音声特徴データに応じて学習し、その学習した音声特徴データをその音声特徴データ記憶部に記憶させ、一致が認められない場合に、新たに分析された音声特徴データをそのままその音声特徴データ記憶部に記憶させる音声特徴データ学習部と、上記基本音声データ記憶部に記憶された基本音声データを基本としてそれらの音素辺毎の音声波形が基本音素辺データとして予め記憶された基本音素辺データ記憶部と、上記基本音素辺データ記憶部に記憶された基本音素辺データを上記音声特徴データ記憶部に記憶された複数の音声特徴データ毎にそれぞれ応じて波形整形して合成音素辺データを生成する合成音素辺データ生成部と、上記合成音素辺データ生成部により生成された複数の合成音素辺データを記憶する合成音素辺データ記憶部と、上記合成音素辺データ記憶部に記憶された複数の合成音素辺データのうちのいずれかを選択する合成音素辺データ選択部と、上記合成音素辺データ選択部により選択された合成音素辺データからテキストデータに応じた合成音素辺データを抽出して音声合成する音声合成部と、上記音声合成部により音声合成された音声データを出力する音声出力部とを備えた音声合成装置。
音声合成部は、テキストデータに応じて合成音素辺データまたは基本音素辺データを抽出して音声合成することを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声合成装置。