JP2004151324A

JP2004151324A - 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム

Info

Publication number: JP2004151324A
Application number: JP2002315854A
Authority: JP
Inventors: Hiroyuki Segi; 寛之世木; Toru Tsugi; 徹都木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-10-30
Filing date: 2002-10-30
Publication date: 2004-05-27

Abstract

【課題】音声合成データの補正を効率的に行うことができる音声合成用データベースに補正することができる音声合成用データベース補正方法、装置およびプログラムを提供する。
【解決手段】音声合成用データベース中に含まれている音声合成用データを使用した使用頻度によって補正する音声合成用データベース補正装置１であって、音声合成用データの使用頻度を記録する音声合成用データ使用頻度記録部５と、使用頻度閾値を設定する音声合成用データ使用頻度設定部７と、使用頻度と使用頻度閾値と比較する音声合成用データ使用頻度比較部９と、比較結果に基づき音声合成用データのリストを生成する音声合成用データリスト生成部１１と、リストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正部１３と、補正した結果を出力する入出力部３と、を備えた。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成する際に利用される音声合成用データベース内の音声合成用データを整備して、音声合成用データベースの補正を行う音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラムに関する。
【０００２】
【従来の技術】
従来、音声合成用データベースを使用して音声合成を行う装置に、自然発話音声波形信号接続型音声合成装置（特許文献１参照）がある。この音声合成装置には、音素およびこの音素の発話時間が記録された音声合成用データベースが備えられており、この合成音声装置は当該装置に入力された文章を音素列に分解した後、分解した音素列の音素単位で音声合成用データベースを探索して音声合成を行い、合成音声（合成音声データ）を出力するものである。当該装置における音声合成は、音声合成用データベースに記録されている音素を自動的にアラインメントすることで行われている。
【０００３】
【特許文献１】
特開平１０−４９１９３号公報（段落番号１４〜段落番号４８、第１
図）
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置では、自動的にアラインメントして音素の発話時間に基づいて音素を区分けし、音声合成用データベースの探索単位を決定していたので、仮に音素の発話時間が誤った発話時刻（開始時刻および終了時刻）で区切られていた場合、音声合成した際の、合成音声データの品質劣化の要因となってしまっていた。この品質劣化を解消するために、人手で音声合成用データの発話時間を調整し、音声合成データベースの補正が行われていた。
【０００５】
例えば、具体的に説明すると、音声合成用データベースに含まれている文章「今日のニュースです」中の単語「ニュース」の終端「ス（ｓｕ）」の音素「ｕ」の終了時刻が３０００ｍｓと記録されていた場合で、実際にこの文章を試聴してみると、「ニュース」の終端「ス（ｓｕ）」の音素「ｕ」の終了時刻が３０００ｍｓより遅く感じられた場合、この「ニュース」の終端「ス（ｓｕ）」の音素「ｕ」の区切り人手で、３１５０ｍｓといったように発話時間を調整していた。しかし、近年、音声合成用データの増加により、音声合成用データベースのデータ量も膨大となって、人手で補正することは現実的に不可能であるという問題がある。
【０００６】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの補正を効率的に行うことができ、正確な発話時間を備えた音声合成用データからなる音声合成用データベースに補正することができる音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラムを提供することにある。
【０００７】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項１記載の音声合成用データベース補正方法は、音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正方法であって、前記音声合成用データを使用した使用頻度を記録装置に記録する音声合成用データ使用頻度記録ステップと、この音声合成用データ使用頻度記録ステップにて記録した使用頻度が、大きい順に、当該使用頻度に係る音声合成用データをリストアップする音声合成用データリストアップステップと、この音声合成用データリストアップステップにて、リストアップされた音声合成用データの発話時間を補正する音声合成用データ補正ステップと、この音声合成用データ補正ステップにて補正した結果である音声合成用データベース補正情報を出力する補正情報出力ステップと、を含むことを特徴とする。
【０００８】
この方法によれば、まず、音声合成用データ使用頻度記録ステップにおいて、音声合成する際の音声合成用データの使用頻度、すなわち、音声合成用データの使用された回数／音声合成の回数が記録される。例えば、３／１０（１０回の音声合成で同じ音声合成用データが３回使用された）といったように表される。続いて、音声合成用データリストアップステップにおいて、音声合成用データ使用頻度記録ステップにて記録された使用頻度が、大きい順に、当該使用頻度に係る音声合成用データがリストアップされる。このリストは、音声合成用データと、使用頻度とが関連付けられているものであって、使用頻度の高い順に記載されているものである。そして、音声合成用データ補正ステップにおいて、リストアップされた音声合成用データの発話時間が補正される。この音声合成用データの補正作業は、リストアップされた音声合成用データを表示画面等に表示させて人手で行ってもよいし、基準となる音声合成用データベースを予め用意しておいて、この音声合成用データベースに含まれている音声合成用データの発話時間等に基づいて、自動的に補正（調整）するようにしてもよい。その後、補正情報出力ステップにおいて、音声合成用データ補正ステップにて補正した結果である音声合成用データベース補正情報が出力される。
【０００９】
つまり、使用頻度の高い音声合成用データをリストアップしておいて、この音声合成用データを優先的に補正して、使用頻度の低い音声合成用データは関知しないことで、少なくとも使用頻度の高い音声合成用データに関しては正確な発話時間を備えることができ、これらの音声合成用データからなる音声合成用データベースに補正することができる。
【００１０】
請求項２記載の音声合成用データベース補正方法は、請求項１に記載の音声合成用データベース補正方法において、前記音声合成用データベースが複数の文章を含んで構成され、前記音声合成用データ使用頻度記録ステップにおいて、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を記録することを特徴とする。
【００１１】
この方法によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が、音声合成用データ使用頻度記録ステップにおいて記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、音声合成用データ補正ステップにおいて、この使用頻度の高い音声合成用データに関してのみ補正が行われることになる。
【００１２】
請求項３記載の音声合成用データベース補正装置は、音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正装置であって、前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段と、前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段と、前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段と、この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段と、この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段と、この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段と、を備えることを特徴とする。
【００１３】
かかる構成によれば、まず、音声合成用データ使用頻度記録手段で音声合成用データベースに含まれている音声合成用データの使用頻度が記録される。また、音声合成用データ使用頻度設定手段で音声合成用データを補正する際の基準となる使用頻度閾値が設定される。この使用頻度閾値は、音声合成用データベースの規模（データ量）に応じて設定することができる。そして、音声合成用データ使用頻度比較手段で、音声合成用データ使用頻度記録手段にて記録された使用頻度と、音声合成用データ使用頻度設定手段にて設定された使用頻度閾値とが比較され、比較結果が出力される。この比較結果に基づいて、音声合成用データリスト生成手段で、優先的に補正の対象となる、使用頻度が大きい（高い）音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が音声合成用データ補正手段で補正される。この音声合成用データ補正手段における音声合成用データの補正は、例えば、基準となる音声合成用データベースを予め用意しておいて、この音声合成用データベースに含まれている音声合成用データの発話時間等に基づいて、自動的に行うものである。その後、補正情報出力手段で、音声合成用データ補正手段にて補正した結果である音声合成用データベース補正情報が出力される。
【００１４】
請求項４記載の音声合成用データベース補正装置は、請求項３に記載の音声合成用データベース補正装置において、前記音声合成用データベースが複数の文章を含んで構成され、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする。
【００１５】
かかる構成によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が、音声合成用データ使用頻度記録手段で記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、音声合成用データ補正手段で、この使用頻度の高い音声合成用データに関してのみ補正が行われることになる。
【００１６】
請求項５記載の音声合成用データベース補正プログラムは、音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段、前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段、前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段、この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段、この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段、この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段、である。
【００１７】
かかる構成によれば、音声合成用データ使用頻度記録手段で音声合成用データベースに含まれている音声合成用データの使用頻度が記録され、音声合成用データ使用頻度設定手段で音声合成用データを補正する際の基準となる使用頻度閾値が設定される。音声合成用データ使用頻度比較手段で、音声合成用データ使用頻度記録手段にて記録された使用頻度と、音声合成用データ使用頻度設定手段にて設定された使用頻度閾値とが比較され、比較結果が出力される。この比較結果に基づいて、音声合成用データリスト生成手段で、優先的に補正の対象となる、使用頻度が大きい（高い）音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が音声合成用データ補正手段で補正される。その後、補正情報出力手段で、音声合成用データ補正手段にて補正した結果である音声合成用データベース補正情報が出力される。
【００１８】
請求項６記載の音声合成用データベース補正プログラムは、請求項５に記載の音声合成用データベース補正プログラムにおいて、前記音声合成用データベースが複数の文章を含んで構成され、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする。
【００１９】
かかる構成によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が、音声合成用データ使用頻度記録手段で記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、音声合成用データ補正手段で、この使用頻度の高い音声合成用データに関してのみ補正が行われることになる。
【００２０】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
（音声合成用データベース補正システムの構成）
図１は音声合成用データベース補正システムのブロック図である。この図１に示すように、音声合成用データベース補正システムは、音声合成用データベース補正装置１と音声合成装置２とからなる。まず、音声合成装置２の構成を説明し、その後、音声合成用データベース補正装置１の構成について説明することとする。
【００２１】
音声合成装置２は、音声合成用データベース４を備えており、当該装置２に入力されたテキストデータを単語または音素の単位に分割し、これらを探索候補として、音声合成用データベース４内に保持されている音声合成用データ（単位音声）を探索し、探索した音声合成用データを接続した（結びつけた）音声合成用データの列を合成音声（合成音声データ）として出力するものである。
【００２２】
この音声合成装置２に備えられる音声合成用データベース４で保持されている（収められている）音声合成用データ（単位音声）は、「単語」および「音素」を基盤としており、この実施の形態では、複数の単語および音素からなる「文章」が当該データベース４の構成単位となっている。そして、各文章には、単語または音素毎に発話時間（開始時刻および終了時刻）が記録されており、さらに各文章には「文番号」が付されている。
【００２３】
なお、音声合成装置２の他の構成（例えば、音声合成に関係する構成）については、本発明と直接関係がないので図示および説明を省略する。
【００２４】
これより、音声合成用データベース補正装置１の構成を説明する。
音声合成用データベース補正装置１は、入出力部３と、音声合成用データ使用頻度記録部５と、音声合成用データ使用頻度設定部７と、音声合成用データ使用頻度比較部９と、音声合成用データリスト生成部１１と、音声合成用データ補正部１３と、表示出力部１５と、操作部１７と、記憶部１９とを備えている。
【００２５】
音声合成用データベース補正装置１は、音声合成装置２において音声合成される度に利用される音声合成用データベース４内の音声合成用データの中で、使用頻度の高い音声合成用データに関して、この音声合成用データをリストアップし、優先的に当該音声合成データの発話時間（開始時刻および終了時刻）の補正を行うものである。
【００２６】
なお、この実施の形態における音声合成用データベース補正装置１では、音声合成用データベース（各音声合成用データの整備、修正）の補正を人手または自動的に行うことを選択することができる構成となっており、この音声合成用データベースの補正によって、音声合成装置２において音声合成した際に生じがちな、合成音声データの品質劣化を解消することができる。
【００２７】
入出力部３は、音声合成用データベース１と音声合成装置２との間で取り交わされる情報の入出力を行うインターフェースに相当するものである。音声合成用データベース１と音声合成装置２との間で取り交わされる情報には、音声合成装置２において音声合成される度に出力される音声合成用データそれぞれの使用頻度（以下、音声合成用データ使用頻度という）と、音声合成用データベース補正装置１において音声合成用データを整備、修正した情報である音声合成用データベース補正情報とがある。
【００２８】
この入出力部３から音声合成用データ使用頻度が音声合成用データ使用頻度記録部５に出力される。この入出力部３は、特許請求の範囲の請求項に記載した補正情報出力手段を兼ね備えている（相当する）ものである。なお、この入出力部３はインターネット等の通信回線網（図示を省略）を介して情報の入出力（送受信）が行えるように構成されてもよい。
【００２９】
音声合成用データ使用頻度記録部５は、音声合成装置２の音声合成用データベース４を使って音声合成する度に、使用された単位音声（音声合成用データ）の使用頻度（音声合成用データ使用頻度）を記憶部１９に記録するものである。つまり、この音声合成用データ使用頻度記録部５は音声合成された場合に、音声合成用データ使用頻度を音声合成装置２から入出力部３を介して取得するものであるといえる。
【００３０】
この音声合成用データ使用頻度記録部５では、例えば、音声合成装置２において音声合成用データベース補正用のテストセット（頻繁に音声合成されるテキストデータ、例えば、ニュース等で読み上げられる複数の文章）を用意しておき、このテストセットの文章（テキストデータ）が音声合成装置２で音声合成した結果、使用された音声合成用データ使用頻度が取得され、記憶部１９に記録される。この実施の形態では、音声合成装置２の音声合成用データベース４の構成単位が文章であるので、この音声合成用データ使用頻度は、どの文章の（どの文章番号の）どの単語（または、音素）を使用したのかを記録したものである。また、この音声合成用データ使用頻度は、音声合成の回数と使用された回数とが関連付けられたものである。
【００３１】
また、この音声合成用データ使用頻度記録部５は、この実施の形態のように音声合成装置２の音声合成用データベース４中の音声合成用データが文章単位で記録されている場合には、一つの文章をその文章以外の他の文章に含まれている音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データの使用頻度を記憶部１９に記録するものである。この音声合成用データ使用頻度記録部５が特許請求の範囲の請求項に記載した音声合成用データ使用頻度記録手段に相当するものである。
【００３２】
音声合成用データ使用頻度設定部７は、音声合成用データを整備、修正する際の基準となる使用頻度閾値を設定するものである。この使用頻度閾値は、音声合成用データの使用された回数／音声合成の回数の基準となるものであり、例えば、３／１０（１０回の音声合成で同じ音声合成用データが３回使用）といったように表される。つまり、この使用頻度閾値より大きい（高い）とは、４／１０以上、すなわち、１０回の音声合成で同じ音声合成用データが４回以上使用された場合を指している。
【００３３】
この音声合成用データ使用頻度設定部７で設定される使用頻度閾値は、当該装置１のユーザが操作部１７を使って入力して、設定されるものである。使用頻度閾値は、音声合成用データベース４のデータ量に応じて、当該装置１のユーザが任意に設定することができるものである。例えば、音声合成用データベース４のデータ量が非常に多い場合、各音声合成用データが使用される確率は低くなる傾向にあり、逆に、音声合成用データベース４のデータ量が非常に少ない場合、各音声合成用データが使用される確率は高くなる傾向にあるので、こういった傾向や、或いは、音声合成装置２に入力するテキストデータの属性（ニュース原稿なのか、日常会話なのか等）を鑑みて、使用頻度閾値を設定すればよいことになる。この音声合成用データ使用頻度設定部７が特許請求の範囲の請求項に記載した音声合成用データ使用頻度設定手段に相当するものである。
【００３４】
音声合成用データ使用頻度比較部９は、音声合成用データ使用頻度記録部５で取得された音声合成用データ使用頻度と、音声合成用データ使用頻度設定部７で設定された使用頻度閾値とを比較して、比較結果を音声合成用データリスト生成部１１に出力するものである。この音声合成用データ使用頻度比較部９における比較結果は、「使用頻度閾値以上」または「使用頻度閾値未満」のいずれかとなる。つまり、「使用頻度閾値以上」であるに該当した音声合成用データは、頻繁に使用される音声合成用データであり、音声合成用データ補正部１３で整備、修正する必要性の高い（優先順位が高い）ものであると言えるし、「使用頻度閾値未満」であるに該当した音声合成用データは、使用頻度が低い音声合成用データであり、音声合成用データ補正部１３で整備、修正しなくても、音声合成装置２で音声合成した際の品質にはあまり関係がないものであると言える。
【００３５】
音声合成用データリスト生成部１１は、音声合成用データ使用頻度比較部９で比較された比較結果に基づいて、音声合成用データのリストを生成して、音声合成用データ補正部１３および表示出力部１５に出力するものである。この音声合成用データのリストは、音声合成用データベース４内に含まれている音声合成用データの中で、優先的に整備、修正をすべきもの（使用頻度の高いもの）を上位に、整備、修正の必要性の少ないもの（使用頻度の低いもの（使用頻度閾値以上であってその中で低いもの））を下位に示した一覧表である。
【００３６】
なお、この音声合成用データリスト生成部１１で生成されるリスト（一覧表）には、使用頻度閾値未満の音声合成用データを記載することもできる。この音声合成用データリスト生成部１１が特許請求の範囲の請求項に記載した音声合成用データリスト生成手段に相当するものである。
【００３７】
音声合成用データ補正部１３は、音声合成用データリスト生成部１１で生成されたリストに基づいて、人手または自動で、音声合成用データを整備、修正して、その結果（音声合成用データベース補正情報）を入出力部３を介して音声合成装置２に反映させるものである。この音声合成用データ補正部１３には、補正手段選択機能（図示せず）が備えられており、この補正手段選択機能によって、補正手段（「人手」または「自動」）の選択肢が表示出力部１５の表示画面に表示され、音声合成用データベース補正装置１のユーザは、この選択肢を選択することで補正手段を決定する。音声合成用データの補正を人手で行う場合については後記する（図３、図４を参照して後ほど説明する）。
【００３８】
補正手段の選択肢で「自動」を選択した場合には、音声合成用データリスト生成手段１１で生成されたリストの中で上位（使用頻度の高い）に位置する音声合成用データ（以下、リストアップ音声合成用データという）と、記憶部１９に予め記憶されている、基準となる音声合成用データベース（以下、基準音声合成用データベースという）の音声合成用データ（以下、基準音声合成用データという）とが比較され、リストアップ音声合成用データが基準音声合成用データを基準とする一定内に収まるように修正が施される。
【００３９】
例えば、基準音声合成用データ「雨」がある文章「今日は雨ですね」の開始時刻２０００ｍｓから終了時刻２２００ｍｓに位置しており、この文章の長さ（発話時間）が、４０００ｍｓであり、リストアップ音声合成用データ「雨」がある文章「今日は雨ですね」の開始時刻１８００ｍｓから終了時刻２１００ｍｓに位置しており、この文章の長さ（発話時間）が３６００ｍｓであった場合を想定して説明する。
【００４０】
基準音声合成用データ「雨」が「今日は雨ですね」という文章に標準的に現れる（発話が開始される）タイミングは、２０００／４０００＝０．５であり、消える（発話が終了される）タイミングは、２２００／４０００＝０．５５である。これに基づいて、リストアップ音声合成用データ「雨」の開始時刻および終了時刻を算出すると、開始時刻は３６００ｍｓ×０．５＝１８００ｍｓとなり、終了時刻は３６００×０．５５＝１９８０ｍｓとなる。つまり、この計算によって、リストアップ音声合成用データ「雨」の終了時刻は１９８０ｍｓに修正されることになる。
【００４１】
このように、各音声合成用データを修正し、修正した複数の音声合成用データを一つのファイル形式にまとめた音声合成用データベース補正情報として、入出力部３を介して、音声合成装置２に出力される。この音声合成用データベース補正情報に基づいて、音声合成装置２の音声合成用データベース４が補正される（書き換えられる）。
【００４２】
表示出力部１５は、液晶やＣＲＴディスプレイとスピーカ等の音声出力装置等を備えてなるもので、音声合成用データリスト生成部１１で生成されたリストを液晶やＣＲＴディスプレイ等の表示画面に表示すると共に、このリストに記載されている音声合成用データをスピーカ等の音声出力装置等で出力するものである。このスピーカ等の音声出力装置は、音声合成用データ補正部１３の補正手段選択機能によって表示される補正手段「人手」を、当該装置１のユーザが選択した場合に、ユーザの手入力によって（操作部１７を使用）、音声合成用データを修正する際に使用するものである。
【００４３】
操作部１７は、キーボード、マウス等によって構成されており、音声合成用データベース補正装置１の操作を行う際、つまり、音声合成用データ使用頻度設定部７で使用頻度閾値を設定する際や、音声合成用データリスト生成部１１で生成されたリストの整備、修正する際に使用するものである。
【００４４】
記憶部１９は、音声合成装置２から出力される音声合成用データ使用頻度、音声合成用データ使用頻度設定部７で設定された使用頻度閾値、音声合成用データベース補正部１３で自動的に音声合成用データを整備、修正する際に供される基準となる音声合成用データベースを記憶するものである。
【００４５】
この音声合成用データベース補正装置１によれば、音声合成用データ使用頻度記録部５で音声合成用データベース４に含まれている音声合成用データの使用頻度が記録される。また、音声合成用データ使用頻度設定部７で音声合成用データを補正する際の基準となる使用頻度閾値が設定される。そして、音声合成用データ使用頻度比較部９で、音声合成用データ使用頻度記録部５にて記憶部１９に記録された使用頻度と、音声合成用データ使用頻度設定部７にて設定された使用頻度閾値とが比較され、比較結果が出力される。この比較結果に基づいて、音声合成用データリスト生成部１１で、優先的に補正の対象となる、使用頻度が大きい（高い）音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が音声合成用データ補正部１３で補正される（調整される）。その後、入出力部３で、音声合成用データ補正部１３にて補正した結果である音声合成用データベース補正情報が出力される。このため、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの整備、修正を、生成されたリストに基づき使用頻度の高い音声合成用データについて、効率的に行うことができるので、正確な発話時間（開始時刻および終了時刻）を備えた音声合成用データからなる音声合成用データベース４に補正することができる。
【００４６】
（音声合成用データベース補正装置の動作）
次に、図２に示すフローチャートを参照して、音声合成用データベース補正装置１の動作について説明する（適宜、図１参照）。なお、この動作は、音声合成用データ補正部１１で、補正手段「自動」が選択された場合を説明したものである。
【００４７】
まず、音声合成用データ使用頻度設定部７で使用頻度閾値が設定される（Ｓ１）。この使用頻度閾値は、音声合成用データベース補正装置１のユーザが操作部１７を使用して入力される。そして、音声合成装置２にテキストデータが入力され音声合成が実行されると、入出力部３に音声合成用データ使用頻度が入力される（Ｓ２）。
【００４８】
すると、音声合成用データ使用頻度記録部５で音声合成用データ使用頻度が記憶部１９に記録される。続いて、音声合成用データ使用頻度比較部９で、音声合成用データ使用頻度記録部５で記録された音声合成用データ使用頻度と、音声合成用データ使用頻度設定部７で設定された使用頻度閾値とが比較され、音声合成用データ使用頻度が使用頻度閾値より大きいかどうかが判定される（Ｓ４）。音声合成用データ使用頻度が使用頻度閾値より大きいと判定されない場合（Ｓ４、Ｎｏ）、この動作では、リストは全く生成されずに動作が終了する。
【００４９】
また、合成用データ使用頻度が使用頻度閾値より大きいと判定された場合（Ｓ４、Ｙｅｓ）、音声合成用データリスト生成部１１で音声合成用データのリスト（リストアップ音声合成用データからなる一覧表）が生成される（Ｓ５）。すると、音声合成用データ補正部１３で記憶部１９に記憶されている基準音声合成用データベースの基準音声合成用データに基づいて、リスト中のリストアップ音声合成用データの発話時間が修正（補正）され（Ｓ６）、リスト中のすべてのリストアップ音声合成用データに関して、修正がなされ、これらが一つのファイルにまとめられた音声合成用データベース補正情報が生成される。
【００５０】
その後、この音声合成用データ補正部１３で生成された音声合成用データベース補正情報が入出力部３から音声合成装置２に出力される（Ｓ７）。音声合成装置２では、音声合成用データベース４に音声合成用データベース補正情報が反映される（上書きされる）。
【００５１】
（音声合成用データの補正の仕方について）
次に、図３、図４を参照して、音声合成用データベース補正装置１による具体的な音声合成用データの補正の仕方について説明する。
【００５２】
図３は、音声合成用データのリストを説明した図であり、音声合成用データリスト生成部１１で生成され、表示出力部１５の表示画面に表示されているリストを示したものである。図４は音声合成用データを補正する際の音声波形を示した図であり、表示出力部１５の表示画面に表示されているリストの一行目の「ニュース」を操作部１７に備えられているマウスでダブルクリックしたときの変化およびその後の修正を示したもので、図４（ａ）「ニュース」をダブルクリックした直後、「ニュース」の音声波形を示したものである。図４（ｂ）はこの「ニュース」の音声が表示出力部１５に備えられているスピーカから出力され、この音声を当該装置１のユーザが耳でききながら、「ニュース」の発話開始時刻（開始時刻）および発話終了時刻（終了時刻）を補正した図である。
【００５３】
図３に示したように、音声合成用データリスト生成部１１で生成され表示出力部１５の表示画面に表示されているリストは、「使用頻度」、「データ」（データ名）、「文番号」（文章番号）、「開始時刻」、「終了時刻」からなるもので、使用頻度の高いものから順にリストの上位（図３中上方）に位置するように記載されている一覧表である。
【００５４】
また、図４（ａ）では、ある文章（文番号８）における「ニュース」の発話開始時刻２１２５ｍｓと、発話終了時刻２８４０ｍｓとが明確になるように、「ニュース」の音声波形を横断する破線が表示画面に示されていることを示している。
【００５５】
そして、図４（ｂ）では、この「ニュース」を当該装置１のユーザが耳でききながら、音声波形を横断する破線を操作部１７のマウスでドラッグして、発話開始時刻２０５０ｍｓと、発話終了時刻３１２０ｍｓとに補正していることを示している。
【００５６】
これら図３、図４に示したように、音声合成用データリスト生成部１１で生成されたリスト中の補正したい音声合成用データを、操作部１７のマウスでダブルクリックし、音声波形を表示させ、音声を聞きながら、当該マウスをドラッグすることで容易に音声合成用データの発話開始時刻および発話終了時刻を補正することができる。
【００５７】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成用データベース補正装置１の各構成の処理を一ずつの過程ととらえた音声合成用データベース補正方法とみなすことや、音声合成用データベース補正装置１の各構成の処理をコンピュータ言語で記述した音声合成用データベース補正プログラムとみなすことは可能である。これらの場合、音声合成用データベース補正装置１と同様の効果を得ることができる。
【００５８】
【発明の効果】
請求項１記載の発明によれば、音声合成用データベースに含まれている音声合成用データの使用頻度が記録され、大きい順に音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が補正される。補正した結果である音声合成用データベース補正情報が出力される。このため、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの整備、修正を、生成されたリストに基づき使用頻度の高い（大きい）音声合成用データについて、効率的に行うことができるので、正確な発話時間（開始時刻および終了時刻）を備えた音声合成用データからなる音声合成用データベースに補正することができる。
【００５９】
請求項３、５記載の発明によれば、音声合成用データベースに含まれている音声合成用データの使用頻度が記録され、使用頻度と使用頻度閾値とが比較され、比較結果が出力される。優先的に補正の対象となる、使用頻度が大きい（高い）音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が補正される。補正した結果である音声合成用データベース補正情報が出力される。このため、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの整備、修正を、生成されたリストに基づき使用頻度の高い音声合成用データについて、効率的に行うことができるので、正確な発話時間（開始時刻および終了時刻）を備えた音声合成用データからなる音声合成用データベースに補正することができる。
【００６０】
請求項２、４、６記載の発明によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、この使用頻度の高い音声合成用データに関してのみ補正を行うことができる。
【図面の簡単な説明】
【図１】本発明による一実施の形態である音声合成用データベース補正システム（音声合成用データベース補正装置を含む）のブロック図である。
【図２】図１に示した音声合成用データベース補正装置の動作を説明したフローチャートである。
【図３】音声合成用データのリストを説明した図である。
【図４】音声合成用データを補正する際の音声波形を示した図である。
【符号の説明】
１音声合成用データベース補正装置
３入出力部
５音声合成用データ使用頻度記録部
７音声合成用データ使用頻度設定部
９音声合成用データ使用頻度比較部
１１音声合成用データリスト生成部
１３音声合成用データ補正部
１５表示出力部
１７操作部
１９記憶部

Claims

音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正方法であって、
前記音声合成用データを使用した使用頻度を記録装置に記録する音声合成用データ使用頻度記録ステップと、
この音声合成用データ使用頻度記録ステップにて記録した使用頻度が、大きい順に、当該使用頻度に係る音声合成用データをリストアップする音声合成用データリストアップステップと、
この音声合成用データリストアップステップにて、リストアップされた音声合成用データの発話時間を補正する音声合成用データ補正ステップと、
この音声合成用データ補正ステップにて補正した結果である音声合成用データベース補正情報を出力する補正情報出力ステップと、
を含むことを特徴とする音声合成用データベース補正方法。
前記音声合成用データベースが複数の文章を含んで構成され、
前記音声合成用データ使用頻度記録ステップにおいて、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を記録することを特徴とする請求項１に記載の音声合成用データベース補正方法。
音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正装置であって、
前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段と、
前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段と、
前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段と、
この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段と、
この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段と、
この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段と、
を備えることを特徴とする音声合成用データベース補正装置。
前記音声合成用データベースが複数の文章を含んで構成され、
前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする請求項３に記載の音声合成用データベース補正装置。
音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する装置を、
前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段、
前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段、
前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段、
この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段、
この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段、
この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段、
として機能させることを特徴とする音声合成用データベース補正プログラム。
前記音声合成用データベースが複数の文章を含んで構成され、
前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする請求項５に記載の音声合成用データベース補正プログラム。