JP2009271190A

JP2009271190A - 音声素片辞書作成装置及び音声合成装置

Info

Publication number: JP2009271190A
Application number: JP2008119758A
Authority: JP
Inventors: Satoshi Furuta; 訓古田; Takahiro Otsuka; 貴弘大塚; Tadashi Yamaura; 正山浦; Hirohisa Tazaki; 裕久田崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-05-01
Filing date: 2008-05-01
Publication date: 2009-11-19

Abstract

【課題】明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書に登録することができるようにする。
【解決手段】入力テキスト及び韻律情報に基づき、音声素片辞書３に格納されている音声素片の中から対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成部６ａと、合成音生成部６ａにより生成された複数の合成音と入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索部６ｂと、音声素片探索部６ｂにより探索された代表音声素片を音声素片辞書３に登録する音声素片登録部６ｃを備えた。
【選択図】図１

Description

この発明は、例えば、ＴＶ、ラジオ、ビデオレコーダ、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）、パーソナルコンピュータ、ゲーム機、携帯オーディオなどの情報機器や、カーナビゲーションシステム、カーオーディオ機器、ＥＴＣ（ＥｌｅｃｔｒｏｎｉｃＴｏｌｌＣｏｌｌｅｃｔｉｏｎｓｙｓｔｅｍ）などの車載機器に搭載されて、任意の文章から人工的に音声信号を作り出す際に参照する音声素片を作成する音声素片辞書作成装置と、任意の文章から人工的に音声信号を作り出す音声合成装置とに関するものである。

任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」と呼ばれ、「テキスト音声合成」を実施する音声合成装置は、一般的に、言語処理部（テキスト解析）、音韻処理部（韻律設定）及び音声合成部の３つの処理部によって構成されている。即ち、音声合成装置の言語処理部が入力テキストに対する形態素解析や構文解析などを実施し、音韻処理部がアクセントやイントネーションに関する処理を実施することにより、例えば、音韻記号、ピッチ長、継続時間長などからなる韻律情報を生成する。そして、音声合成部が音声素片辞書に登録されている音声素片の中から、言語処理部により生成された韻律情報に対応する音声素片を選択し、その音声素片から合成音を生成する。

ここで、音声素片は、「ＣＶ」、「ＶＣ」、「ＶＣＶ」などの音声合成単位（「Ｖ」は母音、「Ｃ」は子音を表す記号）、複数の音声合成単位からなる音素列単位、単語単位、あるいは、短文章単位で、音声信号中から切り出される素片であり、切り出された音声波形又は音声波形から何らかの方法で抽出されたパラメータ系列を表すものである。また、韻律情報は、音声素片の環境要因であり、例えば、音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、ＣとＶの音素境界位置、パワー、モーラ数、アクセント位置などの要素が該当する。

例えば、以下の特許文献１には、波形歪が最小の音声素片を選択して、合成音を生成するようにしている音声合成装置が開示されている。この特許文献１に開示されている音声合成装置は、学習段階では、複数の第１の音声素片のピッチ（または、継続時間長）にしたがって複数の第２の音声素片のピッチ（または、継続時間長）を変更し、ピッチ変更後の第２の音声素片を組み合わせることにより複数の合成音声素片を生成する。その後、複数の合成音声素片と第１の音声素片との間の距離尺度に基づいて、第２の音声素片から複数の代表音声素片を選択して学習用辞書に登録する。一方、合成音の生成段階では、学習用辞書に登録されている代表音声素片の中から所定の代表音声素片を選択し、その代表音声素片から合成音を生成する。

特開平９−３１９３９１号公報（第４頁〜８頁、第１図）

従来の音声合成装置は以上のように構成されているので、学習用辞書に登録されている音声素片の単位（例えば、ＣＶなどの素片単位）では、波形歪が最小化されている。しかし、最終的に生成される合成音（例えば、文章全体の合成音声）のレベルで、波形歪が最小化されるような音声素片を選択することができない。このため、音声素片単位の波形歪を最小化することができても、音声素片の個々の品質（音色）のバランスを改善することができず、また、音声素片の接続歪や音素素片接続後の補間処理による補間歪などを最小化することができず、明瞭で自然性が高い合成音を生成することが困難であるなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書に登録することができる音声素片辞書作成装置を得ることを目的とする。また、明瞭で自然性が高い合成音を生成することができる音声合成装置を得ることを目的とする。

この発明に係る音声素片辞書作成装置は、音声素片を格納する音声素片辞書と、入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、上記音声素片探索手段により探索された代表音声素片を上記音声素片辞書に登録する音声素片登録手段とを備えるようにしたものである。

この発明によれば、音声素片を格納する音声素片辞書と、入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片辞書から対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、合成音生成手段により生成された複数の合成音と入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、音声素片探索手段により探索された代表音声素片を音声素片辞書に登録する音声素片登録手段とを備えように構成したので、明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書に登録することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声合成装置を示す構成図である。この音声合成装置は、テキスト入力端子１、言語辞書２、音声素片辞書３、言語処理部（テキスト解析手段）４、韻律分析部（韻律分析手段）５、素片評価部６、音声合成部（音声合成手段）７及び合成音声出力端子８で構成されている。また、言語辞書２、音声素片辞書３、言語処理部４、韻律分析部５及び素片評価部６により音声素片辞書作成装置が構成されている。

テキスト入力端子１は、事前学習時及び合成音生成時において、テキスト（例えば、日本語文章（漢字カナ混じり文、ひらがな、数字、アルファベット、記号などを含む文章）、単語など）を入力する端子である。言語辞書２は各文字に対応する読み方や品詞の種類などを格納している辞書である。音声素片辞書３は音声素片を格納している辞書である。

言語処理部４は、言語辞書２を参照して、テキスト入力端子１から入力されたテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を出力

韻律分析部５は、言語処理部４が出力するテキスト解析結果とテキスト入力端子１から入力されたテキストの内容を示す事前学習用の音声信号を用いて韻律を分析（例えば、アクセント、イントネーション（ピッチ周期列（ピッチパターン）、音素の継続時間長）などを分析）し、音韻系列、アクセント及びイントネーションなどで表される韻律情報を生成し、出力する。なお、ピッチパターンと継続時間長の分析方法としては、例えば、自己相関法や、波形直接視察による方法などを用いることができる。

素片評価部６は、合成音生成部（合成音生成手段）６ａ、音声素片探索部（音声素片探索手段）６ｂ及び音声素片登録部（音声素片登録手段）６ｃにより構成されている。合成音生成部６ａは音声素片辞書３に格納されている音声素片の中から、韻律分析部５により生成された韻律情報に含まれている音韻系列に対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する。

音声素片探索部６ｂは、合成音生成部６ａにおいて生成された複数の合成音と事前学習用の音声信号との間の誤差を評価し、複数の合成音の中から、その誤差の評価結果に基づいて適正な合成音を構成している音声素片の組を探索する。即ち、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する。音声素片登録部６ｃは、音声素片探索部６ｂにおいて探索された音声素片の組を代表音声素片として音声素片辞書３に登録する。

音声合成部７は、合成音生成時に音声素片辞書３に格納されている代表音声素片の中から、韻律分析部５により生成された韻律情報に含まれている音韻系列に対応する代表音声素片を取り出し、その代表音声素片から合成音を生成する。合成音声出力端子８は、音声合成部７により生成された合成音を出力する端子である。なお、ピッチ周期及び音韻継続時間長を変更して音声を合成する方法としては、例えば、ＬＳＰ（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒ）パラメータ上で合成する残差駆動ＬＳＰ方法、スペクトルパラメータ上で合成するＭＢＥ（ＭｕｌｔｉＢａｎｄＥｘｃｉｔａｔｉｏｎ）方法、２ピッチ長波形を重畳合成するピッチ波形重畳方法、音素単位等の信号波形を接続合成する波形編集方法などの手法を用いることができる。

図１では、音声合成装置の構成要素である言語処理部４、韻律分析部５、素片評価部６及び音声合成部７のそれぞれが専用のハードウェア（例えば、ＣＰＵを搭載している半導体集積回路基板）で構成されているものを想定しているが、音声合成装置がコンピュータで構成される場合には、言語処理部４、韻律分析部５、素片評価部６及び音声合成部７の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。

次に、この実施の形態１に係る音声合成装置の動作について説明する。図２は、この発明の実施の形態１に係る音声合成装置の素片評価部６の処理内容を示すフローチャートである。まず、事前に学習を行い、音声素片を音声素片辞書３に登録する、音声素片辞書作成動作について説明する。
言語処理部４は、テキスト入力端子１からテキスト（例えば、日本語文章（漢字カナ混じり文、ひらがな、数字、アルファベット、記号などを含む文章）、単語など）が入力されると、言語辞書２を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部５に出力する。

韻律分析部５は、テキスト入力端子１から入力されたテキストの内容を示す事前学習用の音声信号を受けると、その音声信号の韻律を分析（例えば、アクセント、イントネーション（ピッチ周期列（ピッチパターン）、音素の継続時間長）などを分析）し、音韻系列、アクセント及びイントネーションなどで表される韻律情報を生成する。

素片評価部６の合成音生成部６ａは、韻律分析部５が韻律情報を生成すると、音声素片辞書３に格納されている音声素片の中から、その韻律情報に含まれている音韻系列に対応する複数の音声素片の取り出しを行う（ステップＳＴ１）。
例えば、素片単位がＣＶであって、音韻系列が示すテキストの内容が「雪（ユキ）」である場合、音声素片辞書３に格納されている音声素片の中から、読み方が「ユ」の音声素片“／ｙｕ／”と、読み方が「キ」の音声素片“／ｋｉ／”を取り出す。このとき、音声素片／ｙｕ／が音声素片辞書３に５個登録されており、音声素片／ｋｉ／が音声素片辞書３に２個登録されていれば、合計７（＝５＋２）個の音声素片を取り出す。ここでは、説明の簡単化のため、音韻系列に対応する音声素片を取り出すものについて示しているが、音韻系列だけでなく、ピッチパターンや継続時間長などに対応する音声素片を取り出すようにしてもよい。

素片評価部６の合成音生成部６ａは、音声素片辞書３から複数の音声素片を取り出すと、韻律分析部５から出力された韻律情報に含まれているイントネーション（ピッチパターン、継続時間長など）と一致するように、複数の音声素片のピッチパターンや継続時間長などを変更する。そして、合成音生成部６ａは、ピッチパターンや継続時間長などを変更した複数の音声素片を組み合わせて複数の合成音を生成する（ステップＳＴ２）。また、上述したステップＳＴ１及びステップＳＴ２の処理を音素系列に対応する音声素片の数だけ繰り返す（ステップＳＴ３）。

例えば、音声素片／ｙｕ／として５個の音声素片を取り出し、音声素片／ｋｉ／として２個の音声素片を取り出している場合、音声素片／ｙｕ／と音声素片／ｋｉ／の組み合わせ数が１０個あるので、合計１０個の合成音を生成する。なお、音声素片の組み合わせ数が大きくなる場合には、例えば、組み合わせる音声素片同士のピッチパターンの差や、音声素片の接続歪などを用いて、ピッチパターンの差や接続歪が大きい組み合わせに関しては、組み合わせ数から除外するなど、予備選択を行ってもよい。

素片評価部６の音声素片探索部６ｂは、合成音生成部６ａが複数の合成音を生成すると、複数の合成音と事前学習用の音声信号との間の誤差を評価する（ステップＳＴ４）。複数の合成音と音声信号間の誤差評価手法として、例えば、時間波形レベルでの２乗誤差（ユークリッド距離）を用いることができる。また、その合成音及び音声信号をＦＦＴ（高速フーリエ変換）してパワースペクトルを求め、ＦＦＴ窓の各フレームにおけるパワースペクトル間の距離を評価する方法を用いることができる。また、その合成音及び音声信号について、線形予測分析を実施することによりＬＳＰパラメータ等を求め、各パラメータ間の距離を評価する方法を用いることができる。また、時間・周波数等に関連する公知の分析手法によるパラメータ分析を行った上で、誤差評価を行う手法でも構わない。

音声素片探索部６ｂは、複数の合成音と音声信号間の誤差を評価すると、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する。素片評価部６の音声素片登録部６ｃは、音声素片探索部６ｂが音声信号との誤差が最小の合成音を構成している音声素片の組を探索すると、その音声素片の組を代表音声素片として、音声素片辞書３に登録する（ステップＳＴ５）。ここでは、代表音声素片を音声素片辞書３に登録する構成を示したが、その代表音声素片を音声合成部７に直接出力するようにしてもよい。

次に、入力テキストから合成音を生成する音声合成動作について説明する。
言語処理部４は、テキスト入力端子１からテキストが入力されると、事前学習時と同様に、言語辞書２を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部５に出力する。韻律分析部５は、言語処理部４からテキスト解析結果を受けると、そのテキスト解析結果を用いて韻律情報を生成し、その韻律情報を音声合成部７に出力する。

音声合成部７は、韻律分析部５から韻律情報を受けると、音声素片辞書３に格納されている代表音声素片の中から、その韻律情報に含まれている音韻系列に対応する代表音声素片の取り出し、その代表音声素片のピッチ周期や音韻継続時間長を変更する。そして、音声合成部７は、その代表音声素片を構成している複数の音声素片を接続して合成音を生成し、その合成音を合成音声出力端子８に出力する。

以上で明らかなように、この実施の形態１によれば、音声素片辞書３に格納されている音声素片の中から、言語処理部４のテキスト解析結果である音韻系列に対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成部６ａと、合成音生成部６ａにより生成された複数の合成音と入力テキストの内容を示す事前学習用の音声信号との間の誤差を評価し、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する音声素片探索部６ｂとを設け、音声素片登録部６ｃが音声素片探索部６ｂにより探索された音声素片の組を代表音声素片として、音声素片辞書３に登録するように構成したので、明瞭で自然性が高い合成音の生成を可能にする音声素片を音声素片辞書３に登録することができる効果を奏する。

また、この実施の形態１によれば、音声合成部７が音声素片辞書３に格納されている代表音声素片の中から、韻律分析部５により生成された韻律情報に含まれている音韻系列に対応する代表音声素片を取り出し、その代表音声素片から合成音を生成するように構成したので、明瞭で自然性が高い合成音を生成することができる効果を奏する。即ち、最終出力結果である合成音声レベルで歪最小化するように音声素片の選択を行うことができるので、音声素片の波形変形歪だけでなく、素片個々の品質（音色）のバランス、音声素片接続歪や素片接続後の補間処理による補間歪も併せて総合評価することができるようになり、明瞭で自然性が高い合成音を得ることが可能となる。

また、この実施の形態１によれば、事前学習用の音声信号の韻律を分析する韻律分析部５を設け、合成音生成部６ａが複数の合成音を生成する際、言語処理部４のテキスト解析結果を韻律分析部５の分析結果にしたがって変更し、韻律変更後の音声素片を組み合わせて複数の合成音を生成するように構成したので、複数の合成音の波形歪を抑制することができる効果を奏する。

なお、上記実施の形態１では、韻律分析部５及び素片評価部６が事前学習用の音声信号を入力するものについて示したが、その音声信号として、ナレータ等から収録した音声（自然音声）の他、例えば、コーパスベース方式等の波形接続法による高品質な音声合成方法によって生成された合成音を用いることも可能である。コーパスベース方式等による合成音を用いる場合のピッチパターンには、高品質な音声合成方法が生成するピッチパターンを直接用いることもできるし、合成音を分析してピッチパターンを抽出して用いることもできる。なお、当該音声信号は、品質の高い代表音声素片を選択できるように仮に用いられるデータ、即ち、音声素片辞書３の事前学習に用いられるデータ（トレーニングデータ）であって、実際の音声合成処理時には必要がないものである。

また、上記実施の形態１では、韻律分析部５が韻律情報を生成するものについて示したが、その韻律情報におけるピッチパターンは、物理量としてのピッチ周期列そのものである必要はなく、ピッチパターンに基づく韻律制御規則パラメータであってもよい。即ち、音声波形のピッチパターンに近似した韻律の制御点パラメータであってもよい。また、この実施の形態１では、入力テキストとして日本語文章を用いるものについて示したが、言語依存性はない。日本語以外の言語として、例えば、英語や中国語でも適用が可能である。その場合には、言語処理部、言語辞書及び音声素片辞書には対応する言語に応じた、例えば公知の処理手段を用いればよい。

実施の形態２．
図３は、この発明の実施の形態２による音声合成装置を示す構成図である。この音声合成装置は、実施の形態１に係る音声合成装置にインデックステーブル格納部を追加して構成している。以下では、実施の形態１に係る音声合成装置の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

この実施の形態２では、多量のテキストあるいは韻律情報と、これらに対応する音声信号を用いて例えば実施の形態１の素片評価部６における誤差評価手法や、音声信号と合成音信号との比較視聴などを用いてあらかじめ代表音素片を選択しておき、テキストそれぞれに代表音声素片を対応付けるインデックステーブル（テーブル）などを作成し、このインデックステーブルなどを格納するメモリであるインデックステーブル格納部９を設けて構成している。

素片評価部６の対応情報登録部（対応情報登録手段）６ｄは、音声素片探索部６ｂにより探索された音声素片の組である代表音声素片と言語処理部４のテキスト解析結果である音韻系列の対応情報をインデックステーブルに登録する。音声合成部（音声合成手段）１０は、合成音生成時に、インデックステーブル格納部９に格納されているインデックステーブルを参照して、言語処理部４のテキスト解析結果である音韻系列に対応する代表音声素片を特定し、その代表音声素片から合成音を生成する。

図３では、音声合成装置の構成要素である言語処理部４、韻律分析部５、素片評価部６及び音声合成部１０のそれぞれが専用のハードウェア（例えば、ＣＰＵを搭載している半導体集積回路基板）で構成されているものを想定しているが、音声合成装置がコンピュータで構成される場合には、言語処理部４、韻律分析部５、素片評価部６及び音声合成部１０の処理内容を記述しているプログラムをコンピュータのメモリに格納し、当該コンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。

次に動作について説明する。
図４はこの発明の実施の形態２による音声合成装置の素片評価部６の処理内容を示すフローチャートである。まず、事前に学習し、代表音声素片と音韻系列の対応情報をインデックステーブルに登録する際の処理内容を説明する。
言語処理部４は、テキスト入力端子１からテキストが入力されると、上記実施の形態１と同様に、言語辞書２を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部５に出力する。

韻律分析部５は、テキスト入力端子１から入力されたテキストの内容を示す事前学習用の音声信号を受けると、上記実施の形態１と同様に、その音声信号の韻律を分析し、音韻系列、アクセント及びイントネーションなどからなる韻律情報を生成する。

素片評価部６の合成音生成部６ａは、韻律分析部５が韻律情報を生成すると、上記実施の形態１と同様に、音声素片辞書３に格納されている音声素片の中から、その韻律情報に含まれている音韻系列に対応する複数の音声素片の取り出しを行う。合成音生成部６ａは、音声素片辞書３から複数の音声素片を取り出すと、上記実施の形態１と同様に、韻律分析部５から出力された韻律情報に含まれているイントネーション（ピッチパターン、継続時間長など）と一致するように、複数の音声素片のピッチパターンや継続時間長などを変更し、変更後の複数の音声素片を組み合わせて複数の合成音を生成する。

素片評価部６の音声素片探索部６ｂは、合成音生成部６ａが複数の合成音を生成すると、上記実施の形態１と同様に、複数の合成音と事前学習用の音声信号との間の誤差を評価する。音声素片探索部６ｂは、複数の合成音と音声信号間の誤差を評価すると、上記実施の形態１と同様に、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する。

素片評価部６の対応情報登録部６ｄは、音声素片探索部６ｂが音声信号との誤差が最小の合成音を構成している音声素片の組を探索すると、その音声素片の組である代表音声素片と言語処理部４のテキスト解析結果の対応情報をインデックステーブルに登録する。
例えば、音韻系列が示すテキストの内容が「雪（ユキ）」である場合、「雪（ユキ）」に対応する音声素片の組（音声信号との誤差が最小の合成音を構成している音声素片の組）は、音声素片辞書３に格納されている音声素片の中で、どの音声素片であるかを示す対応情報をインデックステーブルに登録する。

次に、入力テキストから合成音を生成する音声合成動作について説明する。
言語処理部４は、テキスト入力端子１からテキストが入力されると、事前学習時と同様に、言語辞書２を参照して、そのテキストに対する形態素解析や構文解析を実施することにより、そのテキストの読み方や品詞の種類などを特定し、そのテキストの読み方や品詞の種類などを示すテキスト解析結果を韻律分析部５に出力する。
韻律分析部５は、言語処理部４からテキスト解析結果を受けると、上記実施の形態１と同様に、そのテキスト解析結果を用いて韻律情報を生成し、その韻律情報を音声合成部１０に出力する。

音声合成部１０は、韻律分析部５から韻律情報を受けると、インデックステーブル格納部９に格納されているインデックステーブルを参照して（ステップＳＴ１１）、その韻律情報に含まれている音韻系列に対応する代表音声素片を特定する（ステップＳＴ１２，ＳＴ１３）。ただし、その韻律情報に含まれている音韻系列に係る対応情報がインデックステーブルに登録されていない場合には（ステップＳＴ１２）、音声素片辞書３に格納されている音声素片の頻度情報（インデックステーブルが参照されることにより、当該音声素片が代表音声素片として特定された回数を示す情報）を参照し（ステップＳＴ１４）、頻度情報が最も高い音声素片を代表音声素片として特定する（ステップＳＴ１５）。

音声合成部１０は、代表音声素片を特定すると、音声素片辞書３から当該代表音声素片を取り出し、その代表音声素片のピッチ周期や音韻継続時間長を変更する。さらに音声合成部１０は、上記実施の形態１と同様に、その代表音声素片を構成している複数の音声素片を接続して合成音を生成し、その合成音を合成音声出力端子８に出力する。なお、音声合成部１０は、音韻系列に対応する代表音声素片を特定すると、その代表音声素片を構成している複数の音声素片の頻度情報を更新する。

以上で明らかなように、この実施の形態２によれば、音声素片辞書３に格納されている音声素片の中から、言語処理部４のテキスト解析結果である音韻系列に対応する複数の音声素片を取り出し、複数の音声素片を組み合わせて複数の合成音を生成する合成音生成部６ａと、合成音生成部６ａにより生成された複数の合成音と入力テキストの内容を示す事前学習用の音声信号との間の誤差を評価し、複数の合成音の中で、その音声信号との誤差が最小の合成音を構成している音声素片の組を探索する音声素片探索部６ｂとを設け、対応情報登録部６ｄが音声素片探索部６ｂにより探索された音声素片の組である代表音声素片と上記音韻系列の対応情報をインデックステーブルに登録するように構成したので、明瞭で自然性が高い合成音の生成を可能にする音声素片を特定することができる効果を奏する。

また、この実施の形態２によれば、音声合成部１０がインデックステーブル格納部９に格納されているインデックステーブルを参照して、言語処理部４のテキスト解析結果である音韻系列に対応する代表音声素片を特定し、その代表音声素片から合成音を生成するように構成したので、明瞭で自然性が高い合成音を生成することができるほかに、上記実施の形態１よりも、代表音声素片の特定に要する処理量を削減することができる効果を奏する。

また、この実施の形態２によれば、韻律情報に含まれている音韻系列に係る対応情報がインデックステーブルに登録されていない場合、音声素片辞書３に格納されている音声素片の頻度情報を参照し、頻度情報が最も高い音声素片を代表音声素片として特定するように構成したので、対応情報がインデックステーブルに登録されていない音韻系列についても、明瞭で自然性が高い合成音を生成することができる効果を奏する。

なお、上記実施の形態２では、入力テキストとして日本語文章を用いるものについて示したが言語依存性はない。日本語以外の言語として、例えば、英語や中国語でも適用が可能である。その場合には、言語処理部、言語辞書及び音声素片辞書には対応する言語に応じた、例えば公知の処理手段及び辞書を用いればよい。

実施の形態３．
図５は、この発明の実施の形態３による音声合成装置を示す構成図である。この音声合成装置は、実施の形態１に係る音声合成装置に音声認識部と代表音声素片辞書を追加して構成している。この実施の形態３の音声合成装置では、入力された音声信号に対して音声認識処理を行い、音声信号に対応するテキストを分析して上述した実施の形態１の構成などを組み合わせることにより、新規な音声通話システム、あるいは音声蓄積システムを構築することが可能である。以下では、実施の形態１に係る音声合成装置の構成要素と同一または相当する部分には、実施の形態１で使用した符合と同一の符号を付して説明を省略または簡略化する。

音声認識部（音声認識手段）１２は、音声入力端子から、例えば日本語で発話された音声信号が入力されると音声認識処理を行い、認識結果であるテキストを出力する。言語処理部４は、音声認識部１２から入力されるテキストに対して言語辞書２を参照して形態素解析及び構文解析を行い、テキストの読みや品詞情報などのテキスト解析結果を出力する。

韻律分析部５は、言語処理部４から入力されるテキスト解析結果とテキストの内容に対応する音声信号に基づき、音韻系列、アクセント及びイントネーション（ピッチパターン、継続時間長）の制御情報である韻律情報を出力する。ここで、韻律情報のうちピッチパターン及び継続時間長の分析には、自己相関法など公知の手法や、波形直接視察などの手法を用いることができる。

素片評価部６は実施の形態１と同様に、合成音生成部６ａ、音声素片探索部６ｂ及び音声素片登録部６ｃにより構成されている。音声素片探索部６ｂが音声素片の組を探索すると、音声素片登録部６ｃが当該音声素片の組を代表音声素片として、代表音声素片辞書１３に登録する点で相違している。代表音声素片辞書１３は代表音声素片を格納している辞書である。

音声合成部（音声合成手段）１４は通信路１５を介して素片評価部６と接続されており、代表音声素片辞書１３に格納されている代表音声素片の中から、韻律分析部５により生成された韻律情報に含まれている音韻系列に対応する代表音声素片を取り出し、その代表音声素片から合成音を生成する処理を実施する。

上記実施の形態１と比較して、音声認識部１２が音声素片辞書作成装置に実装されている点と、音声合成部１４及び代表音声素片辞書１３が通信路１５を介して素片評価部６と接続され、代表音声素片が代表音声素片辞書１３に登録される点において相違している。
音声認識部１２が設けられていることにより、事前学習時において、テキストを入力することなく、事前学習用の音声信号からテキストを生成することができる。

素片評価部６の音声素片登録部６ｃが、通信路１５を介して、代表音声素片を代表音声素片辞書１３に登録するようにしているので、音声素片辞書作成装置と音声合成部１４が遠隔に位置している場合でも、上記実施の形態１と同様に、音声合成部１４が明瞭で自然性が高い合成音を生成することができる。なお、素片評価部６の音声素片登録部６ｃが代表音声素片や韻律情報を通信路１５に出力する際、代表音声素片や韻律情報を圧縮あるいは符号化して送信するようにしてもよい。

以上で明らかなように、この実施の形態３によれば、音声認識部１２を実装すると共に、音声合成部１４及び代表音声素片辞書１３が通信路を介して素片評価部６と接続され、代表音声素片が代表音声素片辞書１３に登録されるように構成してので、明瞭で自然性の高い合成音で、極めて低ビットレートな音声通信システム、あるいは極めて省メモリな音声蓄積システムを構築することができる。

なお、この実施の形態３では、音声合成部１４及び代表音声素片辞書１３が通信路１５を介して素片評価部６と接続されている極めて低ビットレートな音声通信システムを示したが、通信路１５を省略して、音声合成部１４及び代表音声素片辞書１３が素片評価部６と直接的に接続されている極めて省メモリな音声蓄積システムであってもよい。

なお、この実施の形態３では、音声合成部１４が素片評価部６と同じ内容の音声素片辞書を用いているが、音声合成部１４が、例えば、別の音声素片辞書を用いることにより、ボイスチェンジャ（女声から男声、あるいは、男声から女声などに変換する装置）として用いることもできる。また、韻律情報を変更することでも可能である。

なお、上記実施の形態３では、入力テキストとして日本語文章を用いるものについて示したが言語依存性はない。日本語以外の言語として、例えば、英語や中国語でも適用が可能である。その場合には、音声認識部及び言語処理部には対応する言語に応じた、例えば公知の処理手段を用いればよい。

実施の形態４．
上記実施の形態１−３における形態素解析、構文解析及び韻律分析の全て、または、一部については、予め処理を行っておいて、その解析結果を例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、不揮発メモリ、磁気ディスクなどの記憶手段に蓄えておき、音声合成時に解析結果を記憶手段から読み出すことで省略することも可能である。また、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネット、赤外線通信、携帯電話パケット通信などの通信手段経由で、サーバコンピュータ等の処理手段で解析された解析結果や韻律情報、あるいは、サーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略することが可能である。

さらに、解析結果や韻律情報を、例えば、コンピュータのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）、キーボード、押しボタン、１次元／２次元バーコードリーダ、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）等の入力手段から直接入力するようにしてもよい。これは、カーナビゲーションシステム、携帯電話、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）、ビデオレコーダ、監視システム、ゲーム機器、電子書籍、玩具等において決まった文章、例えば、カーナビの市町村名や操作案内（ガイダンス）文、防犯警告合成音声、ゲームのキャラクタ合成音、新聞の文章などを読み上げる場合に有効である。

上記実施の形態１−３における全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラムを実行したり、ＣＰＵ等の組み込みソフトウエアやファームウエアとしてプログラムを実行することで達成できるものである。また、同様の動作をする回路、例えば、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩＣ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、論理ＩＣ等の集積回路で実現してもよいし、あるいは、ディスクリート素子を組み合わせて実現してもよい。

また、上記のソフトウエア等は、例えば、ＲＯＭ、磁気ディスク（例えば、ハードディスク、リムーバブルディスクなど）、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、ＬＡＮ、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの近距離無線通信、携帯電話のパケット通信等の有線・無線通信手段を用いて、サーバ上の記憶手段からダウンロードしたり、例えば、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＭＯディスク、磁気ディスク、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された上記ソフトウエアのプログラムコードが、上記実施の形態１−３の機能を実現することになり、これら記憶媒体等は本発明を構成するものとなる。

上記実施の形態１−３においては、各処理部が同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、例えば、ネットワーク上に分散された計算機や処理装置などに分かれて、各処理部が構成されていてもよい。また、上記実施の形態１〜３においては、１つ以上の複数の機器から構成されるシステムに適用してもよい。サーバコンピュータが上記実施の形態１〜３を実現するプログラム等をネットワーク等の通信手段を用いて配信するようにすれば、複数のクライアントコンピュータ、携帯電話、ＰＤＡ等の携帯端末機器が配信されたプログラムを実行することができる。

上記実施の形態１−３で用いる音声素片は、人間が発声した自然音声に限るものではなく、自然音声から解析的に生成された音声波形、例えば、所定の基準（例えば、スペクトル上の相互距離が所定の閾値以下）の下に選択された波形の平均的な波形、準最適波形、パワー補正された音声波形などでもよい。また、人工的に生成された波形と自然音声の両者が混合された信号波形でも適用可能である。また、動物の鳴き声、楽器、電子音等の人以外から抽出された擬似的な音声信号波形でもよい。さらに、人工的に生成された音声波形等に雑音波形等が混入されていてもよい。

この発明の実施の形態１による音声合成装置を示す構成図である。この発明の実施の形態１による音声合成装置の素片評価部６の処理内容を示すフローチャートである。この発明の実施の形態２による音声合成装置を示す構成図である。この発明の実施の形態２による音声合成装置の素片評価部６の処理内容を示すフローチャートである。この発明の実施の形態３による音声合成装置を示す構成図である。

符号の説明

１テキスト入力端子、２言語辞書、３音声素片辞書、４言語処理部（テキスト解析手段）、５韻律分析部（韻律分析手段）、６素片評価部、６ａ合成音生成部（合成音生成手段）、６ｂ音声素片探索部（音声素片探索手段）、６ｃ音声素片登録部（音声素片登録手段）、６ｄ対応情報登録部（対応情報登録手段）、７，１０，１４音声合成部（音声合成手段）、８合成音声出力端子、９インデックステーブル格納部、１１音声入力端子、１２音声認識部（音声認識手段）、１３代表音声素片辞書、１５通信路。

Claims

音声素片を格納する音声素片辞書と、
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、
上記音声素片探索手段により探索された代表音声素片を上記音声素片辞書に登録する音声素片登録手段とを備えた音声素片辞書作成装置。
音声素片を格納する音声素片辞書と、
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、
上記音声素片探索手段により探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録手段とを備えた音声素片辞書作成装置。
音声素片辞書は、音声素片を格納する第１音声素片辞書と代表音声素片を格納する第２音声素片辞書を備えることを特徴とする請求項１記載の音声素片辞書作成装置。
音声素片探索手段は、複数の合成音の中で音声信号との誤差が最小の合成音を構成する代表音声素片を探索することを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声素片辞書作成装置。
音声素片を格納する音声素片辞書と、
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、上記評価結果に基づき代表音声素片を探索する音声素片探索手段と、
上記音声素片探索手段により探索された代表音声素片を上記音声素片辞書に登録する音声素片登録手段と、
上記音声素片辞書に登録された上記代表音声素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成手段とを備えた音声合成装置。
音声素片を格納する音声素片辞書と、
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、上記音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成手段と、
上記合成音生成手段により生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索手段と、
上記音声素片探索手段により探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録手段と、
上記テーブルを参照して上記入力テキストに対応する代表素片を特定すると共に、当該代表音素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成手段とを備えた音声合成装置。
対応情報登録手段は、テーブルから参照された回数を示す頻度情報を各音声素片について記憶し、
音声合成手段は、上記テーブルと対応しない入力テキストあるいは韻律情報について上記頻度情報が高い最も高い代表音声素片から合成音を生成することを特徴とする請求項６記載の音声合成装置。
音声素片辞書は、音声素片を格納する第１音声素片辞書と代表音声素片を格納する第２音声素片辞書を備えることを特徴とする請求項５記載の音声素片辞書作成装置。
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
上記音声素片探索ステップにおいて探索された代表音声素片を上記音声素片辞書に登録する音声素片登録ステップとを備えた音声素片辞書作成方法。
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
上記音声素片探索ステップにおいて探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録ステップとを備えた音声素片辞書作成方法。
音声素片探索ステップは、複数の合成音の中で音声信号との誤差が最小の合成音を構成する代表音声素片を探索することを特徴とする請求項９または請求項１０のうちのいずれか１項記載の音声素片辞書作成方法。
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
上記音声素片探索ステップにおいて探索された代表音声素片を上記音声素片辞書に登録する音声素片登録ステップと、
上記音声素片辞書に登録された上記代表音声素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成ステップとを備えた音声合成方法。
入力テキスト及び当該入力テキストに基づく音声信号の韻律情報に基づき、音声素片を格納する音声素片辞書から対応する複数の音声素片を取り出し、上記複数の音声素片を組み合わせて複数の合成音を生成する合成音生成ステップと、
上記合成音生成ステップにおいて生成された複数の合成音と上記入力テキストに基づく音声信号との間の誤差を評価し、当該評価結果に基づき代表音声素片を探索する音声素片探索ステップと、
上記音声素片探索手段により探索された代表音声素片と上記入力テキストとの対応情報をテーブルに登録する対応情報登録ステップと、
上記テーブルを参照して上記入力テキストに対応する代表音素片を特定すると共に、当該代表音素片、上記入力テキスト及び上記韻律情報に基づき合成音を生成する音声合成ステップとを備えた音声合成方法。
対応情報登録ステップは、テーブルから参照された回数を示す頻度情報を各音声素片について記憶し、
音声合成ステップは、上記テーブルと対応しない入力テキストあるいは韻律情報について上記頻度情報が高い最も高い代表音声素片から合成音を生成することを特徴とする請求項１３記載の音声合成方法。