JP4564416B2

JP4564416B2 - 音声合成装置および音声合成プログラム

Info

Publication number: JP4564416B2
Application number: JP2005204289A
Authority: JP
Inventors: 礼子齋藤; 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-07-13
Filing date: 2005-07-13
Publication date: 2010-10-20
Anticipated expiration: 2025-07-13
Also published as: JP2007025042A

Description

本発明は、特定話者および複数話者の音声データベースを用いて音声合成を行う音声合成装置および音声合成プログラムに関する。

従来、音声合成する場合には、特定話者の音声データベースを使用することが一般的に行われており（例えば、特許文献１，２参照）、当該特定話者の音声データベースと特定話者以外の音声データベースとを同時に使用して、音声合成を行うものはあまり知られていない。それゆえ、音声合成する場合において、これら特定話者の音声データベースと特定話者以外の音声データベースとを複数話者の音声データベースとし、１つの音声データベースとして利用することは、あまり想定されていない。
特開平９−３０５１９７号公報特開２００２−２１５１９９号公報

しかしながら、従来の方法、つまり、特定話者の音声データベースを音声合成に使用する際に、適当な素片（音素等）がない場合、例えば、一人の特定話者が発声した音声でも、体調によって、当該音声の音質が変わる場合があり、合成した合成音声の自然性（自然に聞こえること）が劣化する事態が生じる。そして、こういった事態に、特定話者以外のデータベースを使用しようとしても、どのように、特定話者の音声データベースから特定話者以外の音声データベースに切り替えるのかが確立されていないという問題がある。

また、特定話者の音声データベースを使用して、音声合成しようとした場合に、当該特定話者の音声データベースに保存されているデータ量の不足によって、そのままでは、入力されたテキストデータの音声合成が行えないといった事態が生じ、特定話者以外の音声データベースによって補完したい（補いたい）という要求がある。

そこで、本発明では、前記した問題を解決し、特定話者の音声データベースから特定話者以外の音声データベースに切り替える仕方を確立し、合成した合成音声の自然性の劣化を防止することができ、また、特定話者の音声データベースのデータ量が不足した場合に、特定話者以外の音声データベースによって補完することができる音声合成装置および音声合成プログラムを提供することを目的とする。

前記課題を解決するため、請求項１記載の音声合成装置は、特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行う音声合成装置であって、合成テキスト解析処理手段と、特定話者素片選択処理手段と、複数話者素片選択処理手段と、合成音声選択手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、合成テキスト解析処理手段によって、入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成する。ここで、素片とは、音声合成する際の最小単位であり、例えば、音素である。続いて、音声合成装置は、特定話者素片選択処理手段によって、合成テキスト解析処理手段で生成された素片情報と、素片データを接続した際の連続性をコストとして評価するためのコスト関数とを使用して、特定話者音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する。

そして、音声合成装置は、複数話者素片選択処理手段によって、特定話者素片選択処理手段で生成された選択素片情報と、予め設定した前記特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、類似声質音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する。この複数話者素片選択処理手段では、選択素片情報に含まれているコスト閾値情報に従って、接続コストがコスト閾値情報における閾値を越えている場合に、声質類似リストに載っている素片データに置き換えるように、類似声質音声データベースに収められている素片データを選択して、類似声質選択素片情報を生成する。

そして、音声合成装置は、合成音声選択手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベースと類似声質音声データベースとの少なくとも一方から素片データを読み出して当該素片データ同士を接続し、接続した素片データを、音声合成された合成音声として出力する。

請求項２に記載の音声合成装置は、請求項１に記載の音声合成装置において、特性話者素片確認手段と、複数話者素片確認手段とを備えることを特徴とする。

かかる構成によれば、音声合成装置は、特定話者素片確認手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号に基づいて、特定話者音声データベースに収められている素片データを読み出して接続し、出力すると共に、合成音声の品質劣化につながる素片を指定した指定素片情報を入力する。つまり、音声波形である素片データを繋ぎあわせた音声を出力して、聴取者に聴取させることで、音声合成される音声の聴取確認を行って、聴取した結果、品質劣化につながる素片を指定した指定素片情報を、素片単体（一つの素片）または素片連鎖（連続した素片）について入力する。

また、音声合成装置は、複数話者素片確認手段によって、複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号に基づいて、類似声質音声データベースに収められている素片データを読み出して素片データ同士を接続した後出力し、合成音声の品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示すると共に、合成音声の品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。つまり、特定話者素片確認手段と同様に、音声波形である素片データを繋ぎあわせた音声を出力して、聴取者に聴取させることで、音声合成される音声の聴取確認を行って、聴取した結果、品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示し、品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。

請求項３に記載の音声合成装置は、請求項１に記載の音声合成装置において、特性話者素片確認手段と、複数話者素片確認手段とを備えることを特徴とする。

かかる構成によれば、音声合成装置は、特定話者素片確認手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号を合成音声選択手段に送出すると共に、合成音声の品質劣化につながる素片を指定した指定素片情報を入力する。また、音声合成装置は、複数話者素片確認手段によって、複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号を合成音声選択手段に送出すると共に、合成音声の品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示すると共に、合成音声の品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。つまり、特定話者素片確認手段と同様に、音声波形である素片データを繋ぎあわせた音声を出力して、聴取者に聴取させることで、音声合成される音声の聴取確認を行って、聴取した結果、品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示し、品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。

請求項４に記載の音声合成プログラムは、特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行うために、コンピュータを、合成テキスト解析処理手段、特定話者素片選択処理手段、複数話者素片選択処理手段、合成音声選択手段、として機能させる構成とした。

かかる構成によれば、音声合成プログラムは、合成テキスト解析処理手段によって、入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成し、特定話者素片選択処理手段によって、合成テキスト解析処理手段で生成された素片情報と、素片データを接続した際の連続性をコストとして評価したコスト関数とを使用して、特定話者音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する。

そして、音声合成プログラムは、複数話者素片選択処理手段によって、特定話者素片選択処理手段で生成された選択素片情報と、予め設定した特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、類似声質音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する。

そして、音声合成プログラムは、合成音声選択手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、複数話者素片選択処理手段で出力された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベースと類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力する。

請求項１または４に記載の発明によれば、選択素片情報に含まれる素片番号と、類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベースと類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力するので、特定話者の音声データベースのデータ量が不足した場合に、特定話者以外の音声データベースによって補完することができる。

請求項２または３に記載の発明によれば、特定話者音声データベースに収められている素片データの接続コストが高くなった場合に、類似声質音声データベース（特定話者以外の音声データベース）に切り替える際に、声質類似リストに基づいて、接続コストが高くなった素片（素片単体、素片連鎖）について、声質が類似した素片データに置き換えることによって、特定話者の音声データベースから特定話者以外の音声データベースに切り替える仕方を確立することとなり、聴取者が最終的な音声合成を行う前に確認することで、合成した合成音声の自然性の劣化を防止することができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声合成装置の構成〉
図１は音声合成装置のブロック図である。この図１に示すように、音声合成装置１は、入力されたテキストデータである合成テキストを、音声合成するもので、音声データベース３と、合成テキスト解析処理手段５と、特定話者素片選択処理手段７と、特定話者素片確認手段９と、複数話者素片選択処理手段１１と、複数話者素片確認手段１３と、合成音声選択手段１５とを備えている。
なお、この図１の音声合成装置１の構成の説明において、図２または図３を適宜参照して、生成される情報（素片情報、選択素片情報、類似声質選択素片情報等）を説明する。

音声データベース３は、特定話者が発声した音声（音声波形データ）から抽出した素片データからなる特定話者音声データベース３ａと、この特定話者が発声した音声と声質が類似する類似音声（音声波形データ）から抽出した素片データからなる類似声質音声データベース３ｂとを記憶しているもので、一般的な記録媒体によって構成されている。

特定話者音声データベース３ａは、アナウンサ等の発話の訓練を受けた特定話者が、予め用意された複数の文章を発声（発話）した際に、収録された音声波形データから抽出した素片データと、当該文章に含まれている素片（単語や音素）とが対応付けられているものである。

類似声質音声データベース３ｂは、特定話者が発声した際に、収録された音声波形データに予め設定した基準に従い声質が類似する類似音声素片データ（音声波形データ）と、後記する声質類似リストとが対応付けられているものである。なお、予め設定した基準とは、例えば、特開平８−５４８９１号公報等で開示されている技術や、特開２０００−２５９１６９号公報（音声認識）等で用いられる技術によって得られたものである。

なお、これら特定話者音声データベース３ａおよび類似声質音声データベース３ｂに収められている素片データには、それぞれ当該素片データを識別するための識別番号に当たる素片番号が付されている。

合成テキスト解析処理手段５は、入力された合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成するものである。
素片情報は、合成テキストと、合成テキストの素片と、指定されている特定話者の名前とが対応付けられているものである。合成テキストの素片とは、当該合成テキストを音声合成する最小単位（ここでは、音素）に分割されたものである。

図２（ａ）を参照して説明すると、この合成テキスト解析処理手段５に、例えば、指定されている特定話者が話者Ａであり、合成テキストとして、“例です”という文章が入力されると、合成テキスト解析処理による素片情報は、「例です。［｛ｒ，ｅ，ｉ，ｄ，ｅ，ｓ，ｕ｝，｛話者Ａ｝］」といったようになる。図１に戻る。

特定話者素片選択処理手段７は、合成テキスト解析処理手段５で生成された素片情報と、素片データを接続した際の連続性、つまり、音声合成した際の自然さを、コストとして評価した素片選択コスト関数（コスト関数）とを使用して、特定話者データベース３ａに収められている素片データの選択を行うものである。

この素片選択コスト関数は、コストが低い場合に素片データの連続性が良い、つまり、音声合成した合成音声が、より自然に聞こえるとしており、逆に、コストが高い場合に素片データの連続性が悪い、つまり、音声合成した合成音声が不自然に聞こえるとしている。ここで用いている素片選択コスト関数は、素片データを周波数分析した結果、周波数成分における高低差が少ないことを、コストが低いと定義したものである。

そして、この特定話者素片選択処理手段７は、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成するものである。

図２（ｂ）を参照して説明すると、特定話者素片選択処理手段７による特定話者素片選択処理では、生成される選択素片情報として、“閾値｛３｝”、“類似声質話者｛Ｂ｝”、“読み”、“素片番号”、“前素片との接続コスト”が含まれている。ここで、“閾値｛３｝”がコスト閾値情報に該当し、“読み”が各素片に該当する。また、“類似声質話者｛Ｂ｝”は、話者Ａが発声する音声と声質が似ている者として、話者Ｂを類似声質話者として特定したものである。

この図２（ｂ）に示すように、「例です。［｛ｒ，ｅ，ｉ，ｄ，ｅ，ｓ，ｕ｝，｛話者Ａ｝］」という素片情報に対して、素片ｒの素片番号がＡ−１０００、素片ｅの素片番号がＡ−３００であり、素片ｒとの接続コストが５となる。また、素片ｉの素片番号がＡ−９００であり、素片ｅとの接続コストが２となり、素片ｄの素片番号がＡ−４００であり、素片ｉとの接続コストが１となる。さらに、素片ｓの素片番号がＡ−１２００であり、直前の素片ｅとの接続コストが１となる。ここでは、素片ｒと素片ｅとの接続コストが高くなっており、連続性が悪いことになる。図１に戻る。

特定話者素片確認手段９は、特定話者素片選択処理手段７で生成された選択素片情報に含まれる素片番号に基づいて、音声データベース３の特定話者音声データベース３ａに収められている素片データを読み出して接続し出力すると共に、合成音声の品質劣化につながる素片を指定した指定素片情報（聴取結果）を入力するものである。つまり、この特定話者素片確認手段９は、図示を省略したスピーカ等の音声出力装置に接続されており（接続することを点線で示している）、この音声出力装置から素片データを接続した仮の合成音声を出力させて、当該装置１の使用者（聴取者）に、仮の合成音声を試聴させるものである。そして、また、特定話者素片確認手段９は、図示を省略した入力装置によって、指定素片情報を入力するものである。

また、この特定話者素片確認手段９は、特定話者素片選択処理手段７で生成された選択素片情報に含まれる素片番号を合成音声選択手段１５に出力して、この合成音声選択手段１５で出力された合成音声を、聴取者に聴取させた結果（聴取結果）を入力することも可能である。

図２（ｃ）を参照して説明すると、特定話者素片確認手段９による特定話者素片確認では、当該装置１の使用者（聴取者）に素片データを接続した仮の合成音声を試聴させた後、指定素片情報（聴取結果）を“１”（自然に聞こえる）、“０”（自然に聞こえない、不自然に聞こえる）といった形式で入力させることで、合成音声の品質劣化につながる素片を指定させている。この図２（ｃ）に示すように、素片ｅと素片ｓとの聴取結果が“０”となっている。すなわち、特定話者音声データベース３ａに収められている素片データを用いて音声合成しても、素片ｅと素片ｓとは不自然に聞こえることを示している。図１に戻る。

複数話者素片選択処理手段１１は、特定話者素片選択処理手段７で生成された選択素片情報と、特定話者素片確認手段９で入力された指定素片情報と、予め設定した特定話者の素片データと声質が類似する素片データを列挙した（示す）声質類似リストとに基づいて、音声データベース３の類似声質音声データベース３ｂに収められている素片データの選択を行うものである。

そして、この複数話者素片選択処理手段１１は、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成するものである。

図２（ｄ）を参照して説明すると、複数話者素片選択処理手段１１による複数話者素片選択処理では、生成される類似声質選択素片情報として、“閾値｛３｝”、“類似声質話者｛Ｂ｝”、“読み”、“素片番号”、“前素片との接続コスト”が含まれている。

この図２（ｄ）に示すように、「例です。［｛ｒ，ｅ，ｉ，ｄ，ｅ，ｓ，ｕ｝，｛話者Ａ｝］」という素片情報に対して、素片ｒの素片番号がＡ−１０００、素片ｅの素片番号がＢ−２００であり、素片ｒとの接続コストが２となる。また、素片ｉの素片番号がＡ−９００であり、素片ｅとの接続コストが２となり、素片ｄの素片番号がＡ−４００であり、素片ｉとの接続コストが１となる。さらに、素片ｓの素片番号がＢ−１３００であり、直前の素片ｅとの接続コストが１となる。ここでは、どの素片の接続コストも低くなり、連続性が良いことになる。図１に戻る。

複数話者素片確認手段１３は、複数話者素片選択処理手段１１で生成された類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース３の類似声質音声データベース３ｂに収められている素片データを読み出して接続し出力すると共に、合成音声の品質劣化につながる素片があった場合には、複数話者素片選択処理手段１１に再び（繰り返し）素片データの選択を指示すると共に、合成音声の品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力するものである。つまり、この複数話者素片確認手段１３は、図示を省略したスピーカ等の音声出力装置に接続されており（接続することを点線で示している）、この音声出力装置から素片データを接続した仮の合成音声を出力させて、当該装置１の使用者（聴取者）に、仮の合成音声を試聴させるものである。そして、また、複数話者素片確認手段１３は、図示を省略した入力装置によって、指定素片情報（聴取結果）を入力するものである。

また、この複数話者素片確認手段１３は、複数話者素片選択処理手段１１で生成された類似声質選択素片情報に含まれる素片番号を合成音声選択手段１５に出力して、この合成音声選択手段１５で出力された合成音声を、聴取者に聴取させた結果（聴取結果）を入力することも可能である。

図３（ａ）〜（ｄ）を参照して説明すると、複数話者素片確認手段１３による複数話者素片確認では、当該装置１の使用者（聴取者）に素片データを接続した仮の合成音声を試聴させた後、指定素片情報（聴取結果）を“１”（自然に聞こえる）、“０”（自然に聞こえない、不自然に聞こえる）といった形式で入力させることで、合成音声の品質劣化につながる素片を指定させている。

まず、図３（ａ）に示すように、複数話者素片選択処理手段１１で生成された類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース３の類似声質音声データベース３ｂに収められている素片データを読み出して接続し出力すると、図３（ｂ）に示すように、素片ｅの聴取結果が“０”となっている。すなわち、類似声質音声データベース３ｂに収められている素片データ（類似声質話者Ｂ）を用いて音声合成しても、素片ｅは不自然に聞こえることを示している。

そこで、複数話者素片確認手段１３は、複数話者素片選択処理手段１１に再び素片データを選択することを指示する。そうすると、図３（ｃ）に示すように、複数話者素片選択処理手段１１は、素片ｅの素片番号Ｃ−２１０（類似声質話者Ｃの素片データ）を選択する。この場合、素片ｒとの接続コストは２．５になる。

そうしてから、複数話者素片確認手段１３は、複数話者素片選択処理手段１１で生成された類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース３の類似声質音声データベース３ｂに収められている素片データを読み出して接続し出力すると、図３（ｄ）に示すように、全ての素片の聴取結果が“１”となり、音声合成される合成音声は自然に聞こえることになる。図１に戻る。

合成音声選択手段１５は、特定話者素片選択処理手段７で生成された選択素片情報（特定話者素片確認手段９において、合成音声の品質劣化につながる素片のない選択素片情報）に含まれる素片番号と、複数話者素片確認手段１３から出力された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、音声データベース３の特定話者音声データベース３ａと類似声質音声データベース３ｂとの少なくとも一方から素片データを読み出して接続し、接続した素片データを合成音声として出力するもので、素片接続処理手段１５ａと、出力手段１５ｂとを備えている。

素片接続処理手段１５ａは、選択素片情報に含まれる素片番号と、類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、音声データベース３の特定話者音声データベース３ａと類似声質音声データベース３ｂとの少なくとも一方から素片データを読み出して接続するものである。

出力手段１５ｂは、素片接続処理手段１５ａで接続された素片データを、音声合成した結果である合成音声として、外部に出力するものである。

音声合成装置１によれば、特定話者素片選択処理手段７で生成された選択素片情報に含まれる素片番号と、複数話者素片確認手段１３で出力された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベース３ａと類似声質音声データベース３ｂとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力するので、音声合成する際に、特定話者音声データベース３ａのデータ量が不足した場合に、類似声質音声データベース３ｂによって補完することができる。

また、音声合成装置１によれば、特定話者音声データベース３ａに収められている素片データの接続コストが高くなった場合に、類似声質音声データベース３ｂに切り替える際に、声質類似リストに基づいて、接続コストが高くなった素片（素片単体、素片連鎖）について、声質が類似した素片データに置き換えることによって、特定話者音声データベース３ａから類似声質音声データベース３ｂに切り替える仕方を確立することとなり、特定話者素片確認手段９および複数話者素片確認手段１３によって、聴取者が最終的な音声合成を行う前に確認することで、合成した合成音声の自然性の劣化を防止することができる。

〈音声合成装置の動作〉
次に、図４に示すフローチャートを参照して、音声合成装置１の動作について説明する（適宜図１参照）。なお、ここでは、音声合成装置１における動作の概略を説明することにする。
まず、音声合成装置１は、合成テキスト解析処理手段５によって、入力された合成テキストを解析し、素片情報を特定話者素片選択処理手段７に出力する（ステップＳ１）。続いて、音声合成装置１は、特定話者素片選択処理手段７によって、選択素片情報を生成する（ステップＳ２）。

そして、音声合成装置１は、特定話者素片確認手段９によって、選択素片情報に含まれる素片番号に基づいて、音声データベース３の特定話者音声データベース３ａに収められている素片データを読み出して接続して出力し、指定素片情報（聴取結果）を入力する（ステップＳ３）。そして、音声合成装置１は、複数話者素片選択処理手段１１によって、類似声質素片情報を生成する（ステップＳ４）。

それから、音声合成装置１は、複数話者素片確認手段１３によって、類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース３の類似声質音声データベース３ａに収められている素片データを読み出して接続して出力し、指定素片情報（聴取結果）を入力し、品質劣化につながる素片がない場合には類似声質選択素片情報を出力する（ステップＳ５）。その後、音声合成装置１は、合成音声選択手段１５によって、音声データベース３から、素片データを読み出して接続し、接続した素片データを合成音声として出力する（ステップＳ６）。

なお、ステップＳ３において、選択素片情報に含まれる素片番号に基づいて、音声データベース３の特定話者音声データベース３ａに収められている素片データを読み出して接続して出力した結果、指定素片情報（聴取結果）の入力がない場合、つまり、聴取者が、品質劣化につながる素片がないと判断した場合には、ステップＳ６に移行する。つまり、選択素片情報に含まれる素片番号に基づいて合成した音声が、合成音声として出力されることになる。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声合成装置１として説明したが、当該装置１を構成する各手段の処理を、特殊または汎用的なコンピュータ言語で記述した音声合成プログラムとして構成することも可能である。この場合、音声合成装置１と同様の効果を得ることができる。

本発明の実施形態に係る音声合成装置のブロック図である。素片情報、選択素片情報、類似声質選択素片情報の例を説明した図である。類似声質選択素片情報の変化の例を説明した図である。図１に示した音声合成装置の動作の概略を説明したフローチャートである。

符号の説明

１音声合成装置
３音声データベース
３ａ特定話者音声データベース
３ｂ類似声質音声データベース
５合成テキスト解析処理手段
７特定話者素片選択処理手段
９特定話者素片確認手段
１１複数話者素片選択処理手段
１３複数話者素片確認手段
１５合成音声選択手段
１５ａ素片接続処理手段
１５ｂ出力手段

Claims

特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行う音声合成装置であって、
入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成する合成テキスト解析処理手段と、
この合成テキスト解析処理手段で生成された素片情報と、前記素片データを接続した際の連続性をコストとして評価するためのコスト関数とを使用して、前記特定話者音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する特定話者素片選択処理手段と、
この特定話者素片選択処理手段で生成された選択素片情報と、予め設定した前記特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、前記類似声質音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する複数話者素片選択処理手段と、
前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、前記特定話者音声データベースと前記類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力する合成音声選択手段と、
を備えることを特徴とする音声合成装置。
前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号に基づいて、前記特定話者音声データベースに収められている素片データを読み出して当該素片データ同士を接続し、出力すると共に、出力された出力音声を聴取した聴取者により指定された素片にかかる指定素片情報を入力する特定話者素片確認手段と、
前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号に基づいて、前記類似声質音声データベースに収められている素片データを読み出して当該素片データ同士を接続して出力し、出力された出力音声を聴取した聴取者により指定された素片があった場合には、前記複数話者素片選択処理手段に再び素片データの選択を指示すると共に、出力された出力音声を聴取した聴取者により指定された素片がなかった場合には、入力された類似声質選択素片情報を出力する複数話者素片確認手段と、
を備えることを特徴とする請求項１に記載の音声合成装置。
前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号を前記合成音声選択手段に送出すると共に、出力された出力音声を聴取した聴取者により指定された素片にかかる指定素片情報を入力する特定話者素片確認手段と、
前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号を前記合成音声選択手段に送出すると共に、出力された出力音声を聴取した聴取者により指定された素片があった場合には、前記複数話者素片選択処理手段に再び素片データの選択を指示すると共に、出力された出力音声を聴取した聴取者により指定された素片がなかった場合には、入力された類似声質選択素片情報を出力する複数話者素片確認手段と、
を備えることを特徴とする請求項１に記載の音声合成装置。
特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行うために、コンピュータを、
入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成する合成テキスト解析処理手段、
この合成テキスト解析処理手段で生成された素片情報と、前記素片データを接続した際の連続性をコストとして評価するためのコスト関数とを使用して、前記特定話者音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する特定話者素片選択処理手段、
この特定話者素片選択処理手段で生成された選択素片情報と、予め設定した前記特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、前記類似声質音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する複数話者素片選択処理手段、
前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、前記特定話者音声データベースと前記類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力する合成音声選択手段、
として機能させることを特徴とする音声合成プログラム。