JP4564416B2 - 音声合成装置および音声合成プログラム - Google Patents

音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP4564416B2
JP4564416B2 JP2005204289A JP2005204289A JP4564416B2 JP 4564416 B2 JP4564416 B2 JP 4564416B2 JP 2005204289 A JP2005204289 A JP 2005204289A JP 2005204289 A JP2005204289 A JP 2005204289A JP 4564416 B2 JP4564416 B2 JP 4564416B2
Authority
JP
Japan
Prior art keywords
segment
speech
unit
speaker
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005204289A
Other languages
English (en)
Other versions
JP2007025042A (ja
Inventor
礼子 齋藤
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2005204289A priority Critical patent/JP4564416B2/ja
Publication of JP2007025042A publication Critical patent/JP2007025042A/ja
Application granted granted Critical
Publication of JP4564416B2 publication Critical patent/JP4564416B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、特定話者および複数話者の音声データベースを用いて音声合成を行う音声合成装置および音声合成プログラムに関する。
従来、音声合成する場合には、特定話者の音声データベースを使用することが一般的に行われており(例えば、特許文献1,2参照)、当該特定話者の音声データベースと特定話者以外の音声データベースとを同時に使用して、音声合成を行うものはあまり知られていない。それゆえ、音声合成する場合において、これら特定話者の音声データベースと特定話者以外の音声データベースとを複数話者の音声データベースとし、1つの音声データベースとして利用することは、あまり想定されていない。
特開平9−305197号公報 特開2002−215199号公報
しかしながら、従来の方法、つまり、特定話者の音声データベースを音声合成に使用する際に、適当な素片(音素等)がない場合、例えば、一人の特定話者が発声した音声でも、体調によって、当該音声の音質が変わる場合があり、合成した合成音声の自然性(自然に聞こえること)が劣化する事態が生じる。そして、こういった事態に、特定話者以外のデータベースを使用しようとしても、どのように、特定話者の音声データベースから特定話者以外の音声データベースに切り替えるのかが確立されていないという問題がある。
また、特定話者の音声データベースを使用して、音声合成しようとした場合に、当該特定話者の音声データベースに保存されているデータ量の不足によって、そのままでは、入力されたテキストデータの音声合成が行えないといった事態が生じ、特定話者以外の音声データベースによって補完したい(補いたい)という要求がある。
そこで、本発明では、前記した問題を解決し、特定話者の音声データベースから特定話者以外の音声データベースに切り替える仕方を確立し、合成した合成音声の自然性の劣化を防止することができ、また、特定話者の音声データベースのデータ量が不足した場合に、特定話者以外の音声データベースによって補完することができる音声合成装置および音声合成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1記載の音声合成装置は、特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行う音声合成装置であって、合成テキスト解析処理手段と、特定話者素片選択処理手段と、複数話者素片選択処理手段と、合成音声選択手段と、を備える構成とした。
かかる構成によれば、音声合成装置は、合成テキスト解析処理手段によって、入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成する。ここで、素片とは、音声合成する際の最小単位であり、例えば、音素である。続いて、音声合成装置は、特定話者素片選択処理手段によって、合成テキスト解析処理手段で生成された素片情報と、素片データを接続した際の連続性をコストとして評価するためのコスト関数とを使用して、特定話者音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する。
そして、音声合成装置は、複数話者素片選択処理手段によって、特定話者素片選択処理手段で生成された選択素片情報と、予め設定した前記特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、類似声質音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する。この複数話者素片選択処理手段では、選択素片情報に含まれているコスト閾値情報に従って、接続コストがコスト閾値情報における閾値を越えている場合に、声質類似リストに載っている素片データに置き換えるように、類似声質音声データベースに収められている素片データを選択して、類似声質選択素片情報を生成する。
そして、音声合成装置は、合成音声選択手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベースと類似声質音声データベースとの少なくとも一方から素片データを読み出して当該素片データ同士を接続し、接続した素片データを、音声合成された合成音声として出力する。
請求項2に記載の音声合成装置は、請求項1に記載の音声合成装置において、特性話者素片確認手段と、複数話者素片確認手段とを備えることを特徴とする。
かかる構成によれば、音声合成装置は、特定話者素片確認手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号に基づいて、特定話者音声データベースに収められている素片データを読み出して接続し、出力すると共に、合成音声の品質劣化につながる素片を指定した指定素片情報を入力する。つまり、音声波形である素片データを繋ぎあわせた音声を出力して、聴取者に聴取させることで、音声合成される音声の聴取確認を行って、聴取した結果、品質劣化につながる素片を指定した指定素片情報を、素片単体(一つの素片)または素片連鎖(連続した素片)について入力する。
また、音声合成装置は、複数話者素片確認手段によって、複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号に基づいて、類似声質音声データベースに収められている素片データを読み出して素片データ同士を接続した後出力し、合成音声の品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示すると共に、合成音声の品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。つまり、特定話者素片確認手段と同様に、音声波形である素片データを繋ぎあわせた音声を出力して、聴取者に聴取させることで、音声合成される音声の聴取確認を行って、聴取した結果、品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示し、品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。
請求項3に記載の音声合成装置は、請求項1に記載の音声合成装置において、特性話者素片確認手段と、複数話者素片確認手段とを備えることを特徴とする。
かかる構成によれば、音声合成装置は、特定話者素片確認手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号を合成音声選択手段に送出すると共に、合成音声の品質劣化につながる素片を指定した指定素片情報を入力する。また、音声合成装置は、複数話者素片確認手段によって、複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号を合成音声選択手段に送出すると共に、合成音声の品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示すると共に、合成音声の品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。つまり、特定話者素片確認手段と同様に、音声波形である素片データを繋ぎあわせた音声を出力して、聴取者に聴取させることで、音声合成される音声の聴取確認を行って、聴取した結果、品質劣化につながる素片があった場合には、複数話者素片選択処理手段に再び素片データの選択を指示し、品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力する。
請求項4に記載の音声合成プログラムは、特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行うために、コンピュータを、合成テキスト解析処理手段、特定話者素片選択処理手段、複数話者素片選択処理手段、合成音声選択手段、として機能させる構成とした。
かかる構成によれば、音声合成プログラムは、合成テキスト解析処理手段によって、入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成し、特定話者素片選択処理手段によって、合成テキスト解析処理手段で生成された素片情報と、素片データを接続した際の連続性をコストとして評価したコスト関数とを使用して、特定話者音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する。
そして、音声合成プログラムは、複数話者素片選択処理手段によって、特定話者素片選択処理手段で生成された選択素片情報と、予め設定した特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、類似声質音声データベースに収められている素片データの選択を行って、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する。
そして、音声合成プログラムは、合成音声選択手段によって、特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、複数話者素片選択処理手段で出力された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベースと類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力する。
請求項1または4に記載の発明によれば、選択素片情報に含まれる素片番号と、類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベースと類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力するので、特定話者の音声データベースのデータ量が不足した場合に、特定話者以外の音声データベースによって補完することができる。
請求項2または3に記載の発明によれば、特定話者音声データベースに収められている素片データの接続コストが高くなった場合に、類似声質音声データベース(特定話者以外の音声データベース)に切り替える際に、声質類似リストに基づいて、接続コストが高くなった素片(素片単体、素片連鎖)について、声質が類似した素片データに置き換えることによって、特定話者の音声データベースから特定話者以外の音声データベースに切り替える仕方を確立することとなり、聴取者が最終的な音声合成を行う前に確認することで、合成した合成音声の自然性の劣化を防止することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声合成装置の構成〉
図1は音声合成装置のブロック図である。この図1に示すように、音声合成装置1は、入力されたテキストデータである合成テキストを、音声合成するもので、音声データベース3と、合成テキスト解析処理手段5と、特定話者素片選択処理手段7と、特定話者素片確認手段9と、複数話者素片選択処理手段11と、複数話者素片確認手段13と、合成音声選択手段15とを備えている。
なお、この図1の音声合成装置1の構成の説明において、図2または図3を適宜参照して、生成される情報(素片情報、選択素片情報、類似声質選択素片情報等)を説明する。
音声データベース3は、特定話者が発声した音声(音声波形データ)から抽出した素片データからなる特定話者音声データベース3aと、この特定話者が発声した音声と声質が類似する類似音声(音声波形データ)から抽出した素片データからなる類似声質音声データベース3bとを記憶しているもので、一般的な記録媒体によって構成されている。
特定話者音声データベース3aは、アナウンサ等の発話の訓練を受けた特定話者が、予め用意された複数の文章を発声(発話)した際に、収録された音声波形データから抽出した素片データと、当該文章に含まれている素片(単語や音素)とが対応付けられているものである。
類似声質音声データベース3bは、特定話者が発声した際に、収録された音声波形データに予め設定した基準に従い声質が類似する類似音声素片データ(音声波形データ)と、後記する声質類似リストとが対応付けられているものである。なお、予め設定した基準とは、例えば、特開平8−54891号公報等で開示されている技術や、特開2000−259169号公報(音声認識)等で用いられる技術によって得られたものである。
なお、これら特定話者音声データベース3aおよび類似声質音声データベース3bに収められている素片データには、それぞれ当該素片データを識別するための識別番号に当たる素片番号が付されている。
合成テキスト解析処理手段5は、入力された合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成するものである。
素片情報は、合成テキストと、合成テキストの素片と、指定されている特定話者の名前とが対応付けられているものである。合成テキストの素片とは、当該合成テキストを音声合成する最小単位(ここでは、音素)に分割されたものである。
図2(a)を参照して説明すると、この合成テキスト解析処理手段5に、例えば、指定されている特定話者が話者Aであり、合成テキストとして、“例です”という文章が入力されると、合成テキスト解析処理による素片情報は、「例です。[{r,e,i,d,e,s,u},{話者A}]」といったようになる。図1に戻る。
特定話者素片選択処理手段7は、合成テキスト解析処理手段5で生成された素片情報と、素片データを接続した際の連続性、つまり、音声合成した際の自然さを、コストとして評価した素片選択コスト関数(コスト関数)とを使用して、特定話者データベース3aに収められている素片データの選択を行うものである。
この素片選択コスト関数は、コストが低い場合に素片データの連続性が良い、つまり、音声合成した合成音声が、より自然に聞こえるとしており、逆に、コストが高い場合に素片データの連続性が悪い、つまり、音声合成した合成音声が不自然に聞こえるとしている。ここで用いている素片選択コスト関数は、素片データを周波数分析した結果、周波数成分における高低差が少ないことを、コストが低いと定義したものである。
そして、この特定話者素片選択処理手段7は、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成するものである。
図2(b)を参照して説明すると、特定話者素片選択処理手段7による特定話者素片選択処理では、生成される選択素片情報として、“閾値{3}”、“類似声質話者{B}”、“読み”、“素片番号”、“前素片との接続コスト”が含まれている。ここで、“閾値{3}”がコスト閾値情報に該当し、“読み”が各素片に該当する。また、“類似声質話者{B}”は、話者Aが発声する音声と声質が似ている者として、話者Bを類似声質話者として特定したものである。
この図2(b)に示すように、「例です。[{r,e,i,d,e,s,u},{話者A}]」という素片情報に対して、素片rの素片番号がA−1000、素片eの素片番号がA−300であり、素片rとの接続コストが5となる。また、素片iの素片番号がA−900であり、素片eとの接続コストが2となり、素片dの素片番号がA−400であり、素片iとの接続コストが1となる。さらに、素片sの素片番号がA−1200であり、直前の素片eとの接続コストが1となる。ここでは、素片rと素片eとの接続コストが高くなっており、連続性が悪いことになる。図1に戻る。
特定話者素片確認手段9は、特定話者素片選択処理手段7で生成された選択素片情報に含まれる素片番号に基づいて、音声データベース3の特定話者音声データベース3aに収められている素片データを読み出して接続し出力すると共に、合成音声の品質劣化につながる素片を指定した指定素片情報(聴取結果)を入力するものである。つまり、この特定話者素片確認手段9は、図示を省略したスピーカ等の音声出力装置に接続されており(接続することを点線で示している)、この音声出力装置から素片データを接続した仮の合成音声を出力させて、当該装置1の使用者(聴取者)に、仮の合成音声を試聴させるものである。そして、また、特定話者素片確認手段9は、図示を省略した入力装置によって、指定素片情報を入力するものである。
また、この特定話者素片確認手段9は、特定話者素片選択処理手段7で生成された選択素片情報に含まれる素片番号を合成音声選択手段15に出力して、この合成音声選択手段15で出力された合成音声を、聴取者に聴取させた結果(聴取結果)を入力することも可能である。
図2(c)を参照して説明すると、特定話者素片確認手段9による特定話者素片確認では、当該装置1の使用者(聴取者)に素片データを接続した仮の合成音声を試聴させた後、指定素片情報(聴取結果)を“1”(自然に聞こえる)、“0”(自然に聞こえない、不自然に聞こえる)といった形式で入力させることで、合成音声の品質劣化につながる素片を指定させている。この図2(c)に示すように、素片eと素片sとの聴取結果が“0”となっている。すなわち、特定話者音声データベース3aに収められている素片データを用いて音声合成しても、素片eと素片sとは不自然に聞こえることを示している。図1に戻る。
複数話者素片選択処理手段11は、特定話者素片選択処理手段7で生成された選択素片情報と、特定話者素片確認手段9で入力された指定素片情報と、予め設定した特定話者の素片データと声質が類似する素片データを列挙した(示す)声質類似リストとに基づいて、音声データベース3の類似声質音声データベース3bに収められている素片データの選択を行うものである。
そして、この複数話者素片選択処理手段11は、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成するものである。
図2(d)を参照して説明すると、複数話者素片選択処理手段11による複数話者素片選択処理では、生成される類似声質選択素片情報として、“閾値{3}”、“類似声質話者{B}”、“読み”、“素片番号”、“前素片との接続コスト”が含まれている。
この図2(d)に示すように、「例です。[{r,e,i,d,e,s,u},{話者A}]」という素片情報に対して、素片rの素片番号がA−1000、素片eの素片番号がB−200であり、素片rとの接続コストが2となる。また、素片iの素片番号がA−900であり、素片eとの接続コストが2となり、素片dの素片番号がA−400であり、素片iとの接続コストが1となる。さらに、素片sの素片番号がB−1300であり、直前の素片eとの接続コストが1となる。ここでは、どの素片の接続コストも低くなり、連続性が良いことになる。図1に戻る。
複数話者素片確認手段13は、複数話者素片選択処理手段11で生成された類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース3の類似声質音声データベース3bに収められている素片データを読み出して接続し出力すると共に、合成音声の品質劣化につながる素片があった場合には、複数話者素片選択処理手段11に再び(繰り返し)素片データの選択を指示すると共に、合成音声の品質劣化につながる素片がなかった場合には、入力された類似声質選択素片情報を出力するものである。つまり、この複数話者素片確認手段13は、図示を省略したスピーカ等の音声出力装置に接続されており(接続することを点線で示している)、この音声出力装置から素片データを接続した仮の合成音声を出力させて、当該装置1の使用者(聴取者)に、仮の合成音声を試聴させるものである。そして、また、複数話者素片確認手段13は、図示を省略した入力装置によって、指定素片情報(聴取結果)を入力するものである。
また、この複数話者素片確認手段13は、複数話者素片選択処理手段11で生成された類似声質選択素片情報に含まれる素片番号を合成音声選択手段15に出力して、この合成音声選択手段15で出力された合成音声を、聴取者に聴取させた結果(聴取結果)を入力することも可能である。
図3(a)〜(d)を参照して説明すると、複数話者素片確認手段13による複数話者素片確認では、当該装置1の使用者(聴取者)に素片データを接続した仮の合成音声を試聴させた後、指定素片情報(聴取結果)を“1”(自然に聞こえる)、“0”(自然に聞こえない、不自然に聞こえる)といった形式で入力させることで、合成音声の品質劣化につながる素片を指定させている。
まず、図3(a)に示すように、複数話者素片選択処理手段11で生成された類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース3の類似声質音声データベース3bに収められている素片データを読み出して接続し出力すると、図3(b)に示すように、素片eの聴取結果が“0”となっている。すなわち、類似声質音声データベース3bに収められている素片データ(類似声質話者B)を用いて音声合成しても、素片eは不自然に聞こえることを示している。
そこで、複数話者素片確認手段13は、複数話者素片選択処理手段11に再び素片データを選択することを指示する。そうすると、図3(c)に示すように、複数話者素片選択処理手段11は、素片eの素片番号C−210(類似声質話者Cの素片データ)を選択する。この場合、素片rとの接続コストは2.5になる。
そうしてから、複数話者素片確認手段13は、複数話者素片選択処理手段11で生成された類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース3の類似声質音声データベース3bに収められている素片データを読み出して接続し出力すると、図3(d)に示すように、全ての素片の聴取結果が“1”となり、音声合成される合成音声は自然に聞こえることになる。図1に戻る。
合成音声選択手段15は、特定話者素片選択処理手段7で生成された選択素片情報(特定話者素片確認手段9において、合成音声の品質劣化につながる素片のない選択素片情報)に含まれる素片番号と、複数話者素片確認手段13から出力された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、音声データベース3の特定話者音声データベース3aと類似声質音声データベース3bとの少なくとも一方から素片データを読み出して接続し、接続した素片データを合成音声として出力するもので、素片接続処理手段15aと、出力手段15bとを備えている。
素片接続処理手段15aは、選択素片情報に含まれる素片番号と、類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、音声データベース3の特定話者音声データベース3aと類似声質音声データベース3bとの少なくとも一方から素片データを読み出して接続するものである。
出力手段15bは、素片接続処理手段15aで接続された素片データを、音声合成した結果である合成音声として、外部に出力するものである。
音声合成装置1によれば、特定話者素片選択処理手段7で生成された選択素片情報に含まれる素片番号と、複数話者素片確認手段13で出力された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、特定話者音声データベース3aと類似声質音声データベース3bとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力するので、音声合成する際に、特定話者音声データベース3aのデータ量が不足した場合に、類似声質音声データベース3bによって補完することができる。
また、音声合成装置1によれば、特定話者音声データベース3aに収められている素片データの接続コストが高くなった場合に、類似声質音声データベース3bに切り替える際に、声質類似リストに基づいて、接続コストが高くなった素片(素片単体、素片連鎖)について、声質が類似した素片データに置き換えることによって、特定話者音声データベース3aから類似声質音声データベース3bに切り替える仕方を確立することとなり、特定話者素片確認手段9および複数話者素片確認手段13によって、聴取者が最終的な音声合成を行う前に確認することで、合成した合成音声の自然性の劣化を防止することができる。
〈音声合成装置の動作〉
次に、図4に示すフローチャートを参照して、音声合成装置1の動作について説明する(適宜図1参照)。なお、ここでは、音声合成装置1における動作の概略を説明することにする。
まず、音声合成装置1は、合成テキスト解析処理手段5によって、入力された合成テキストを解析し、素片情報を特定話者素片選択処理手段7に出力する(ステップS1)。続いて、音声合成装置1は、特定話者素片選択処理手段7によって、選択素片情報を生成する(ステップS2)。
そして、音声合成装置1は、特定話者素片確認手段9によって、選択素片情報に含まれる素片番号に基づいて、音声データベース3の特定話者音声データベース3aに収められている素片データを読み出して接続して出力し、指定素片情報(聴取結果)を入力する(ステップS3)。そして、音声合成装置1は、複数話者素片選択処理手段11によって、類似声質素片情報を生成する(ステップS4)。
それから、音声合成装置1は、複数話者素片確認手段13によって、類似声質選択素片情報に含まれる素片番号に基づいて、音声データベース3の類似声質音声データベース3aに収められている素片データを読み出して接続して出力し、指定素片情報(聴取結果)を入力し、品質劣化につながる素片がない場合には類似声質選択素片情報を出力する(ステップS5)。その後、音声合成装置1は、合成音声選択手段15によって、音声データベース3から、素片データを読み出して接続し、接続した素片データを合成音声として出力する(ステップS6)。
なお、ステップS3において、選択素片情報に含まれる素片番号に基づいて、音声データベース3の特定話者音声データベース3aに収められている素片データを読み出して接続して出力した結果、指定素片情報(聴取結果)の入力がない場合、つまり、聴取者が、品質劣化につながる素片がないと判断した場合には、ステップS6に移行する。つまり、選択素片情報に含まれる素片番号に基づいて合成した音声が、合成音声として出力されることになる。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声合成装置1として説明したが、当該装置1を構成する各手段の処理を、特殊または汎用的なコンピュータ言語で記述した音声合成プログラムとして構成することも可能である。この場合、音声合成装置1と同様の効果を得ることができる。
本発明の実施形態に係る音声合成装置のブロック図である。 素片情報、選択素片情報、類似声質選択素片情報の例を説明した図である。 類似声質選択素片情報の変化の例を説明した図である。 図1に示した音声合成装置の動作の概略を説明したフローチャートである。
符号の説明
1 音声合成装置
3 音声データベース
3a 特定話者音声データベース
3b 類似声質音声データベース
5 合成テキスト解析処理手段
7 特定話者素片選択処理手段
9 特定話者素片確認手段
11 複数話者素片選択処理手段
13 複数話者素片確認手段
15 合成音声選択手段
15a 素片接続処理手段
15b 出力手段

Claims (4)

  1. 特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行う音声合成装置であって、
    入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成する合成テキスト解析処理手段と、
    この合成テキスト解析処理手段で生成された素片情報と、前記素片データを接続した際の連続性をコストとして評価するためのコスト関数とを使用して、前記特定話者音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する特定話者素片選択処理手段と、
    この特定話者素片選択処理手段で生成された選択素片情報と、予め設定した前記特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、前記類似声質音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する複数話者素片選択処理手段と、
    前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、前記特定話者音声データベースと前記類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力する合成音声選択手段と、
    を備えることを特徴とする音声合成装置。
  2. 前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号に基づいて、前記特定話者音声データベースに収められている素片データを読み出して当該素片データ同士を接続し、出力すると共に、出力された出力音声を聴取した聴取者により指定された素片にかかる指定素片情報を入力する特定話者素片確認手段と、
    前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号に基づいて、前記類似声質音声データベースに収められている素片データを読み出して当該素片データ同士を接続して出力し、出力された出力音声を聴取した聴取者により指定された素片があった場合には、前記複数話者素片選択処理手段に再び素片データの選択を指示すると共に、出力された出力音声を聴取した聴取者により指定された素片がなかった場合には、入力された類似声質選択素片情報を出力する複数話者素片確認手段と、
    を備えることを特徴とする請求項1に記載の音声合成装置。
  3. 前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号を前記合成音声選択手段に送出すると共に、出力された出力音声を聴取した聴取者により指定された素片にかかる指定素片情報を入力する特定話者素片確認手段と、
    前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号を前記合成音声選択手段に送出すると共に、出力された出力音声を聴取した聴取者により指定された素片があった場合には、前記複数話者素片選択処理手段に再び素片データの選択を指示すると共に、出力された出力音声を聴取した聴取者により指定された素片がなかった場合には、入力された類似声質選択素片情報を出力する複数話者素片確認手段と、
    を備えることを特徴とする請求項1に記載の音声合成装置。
  4. 特定話者が発声した音声から抽出した素片データからなる特定話者音声データベースと、前記音声に予め設定した基準により声質が類似するとした類似音声から抽出した素片データからなる類似声質音声データベースとを切り替えて用いて、音声合成を行うために、コンピュータを、
    入力された、音声合成するテキストデータである合成テキストを解析して、当該合成テキストに含まれる素片に関する情報である素片情報を生成する合成テキスト解析処理手段、
    この合成テキスト解析処理手段で生成された素片情報と、前記素片データを接続した際の連続性をコストとして評価するためのコスト関数とを使用して、前記特定話者音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストと、予め設定したコスト閾値情報とを含む選択素片情報を生成する特定話者素片選択処理手段、
    この特定話者素片選択処理手段で生成された選択素片情報と、予め設定した前記特定話者の素片データと声質が類似する素片データを示す声質類似リストとに基づいて、前記類似声質音声データベースに収められている素片データの選択を行い、選択した素片データに付されている素片番号と、選択した素片データを接続した場合の接続コストとを含む類似声質選択素片情報を生成する複数話者素片選択処理手段、
    前記特定話者素片選択処理手段で生成された選択素片情報に含まれる素片番号と、前記複数話者素片選択処理手段で生成された類似声質選択素片情報に含まれる素片番号との少なくとも一方の素片番号に基づいて、前記特定話者音声データベースと前記類似声質音声データベースとの少なくとも一方から素片データを読み出して接続し、接続した素片データを、音声合成された合成音声として出力する合成音声選択手段、
    として機能させることを特徴とする音声合成プログラム。
JP2005204289A 2005-07-13 2005-07-13 音声合成装置および音声合成プログラム Expired - Fee Related JP4564416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005204289A JP4564416B2 (ja) 2005-07-13 2005-07-13 音声合成装置および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005204289A JP4564416B2 (ja) 2005-07-13 2005-07-13 音声合成装置および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2007025042A JP2007025042A (ja) 2007-02-01
JP4564416B2 true JP4564416B2 (ja) 2010-10-20

Family

ID=37785927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005204289A Expired - Fee Related JP4564416B2 (ja) 2005-07-13 2005-07-13 音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4564416B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5301376B2 (ja) * 2009-07-03 2013-09-25 日本放送協会 音声合成装置およびプログラム
JP5411845B2 (ja) * 2010-12-28 2014-02-12 日本電信電話株式会社 音声合成方法、音声合成装置及び音声合成プログラム
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
JP2014066916A (ja) * 2012-09-26 2014-04-17 Brother Ind Ltd 音声合成装置
JP6170384B2 (ja) * 2013-09-09 2017-07-26 株式会社日立超エル・エス・アイ・システムズ 音声データベース生成システム、音声データベース生成方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070214A (ja) * 2003-08-21 2005-03-17 Advanced Telecommunication Research Institute International 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070214A (ja) * 2003-08-21 2005-03-17 Advanced Telecommunication Research Institute International 声質差評価テーブル作成装置、音声コーパスの声質差評価テーブル作成システム、及び音声合成システム

Also Published As

Publication number Publication date
JP2007025042A (ja) 2007-02-01

Similar Documents

Publication Publication Date Title
JP3984207B2 (ja) 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
CN105788589B (zh) 一种音频数据的处理方法及装置
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP3078205B2 (ja) 波形の連結及び部分的重複化による音声合成方法
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
JP4946293B2 (ja) 音声強調装置、音声強調プログラムおよび音声強調方法
JP4878538B2 (ja) 音声合成装置
EP1213704A2 (en) Speech synthesis apparatus and method
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JP2003150187A (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP2007140200A (ja) 語学学習装置およびプログラム
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP2012042974A (ja) 音声合成装置
JP2931059B2 (ja) 音声合成方式およびこれに用いる装置
JP5275470B2 (ja) 音声合成装置およびプログラム
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP2005524118A (ja) 合成音声
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体
JP2009025328A (ja) 音声合成装置
EP1589524A1 (en) Method and device for speech synthesis
JP3426957B2 (ja) 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100730

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130806

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140806

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees