JP2004151324A - 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム - Google Patents

音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム Download PDF

Info

Publication number
JP2004151324A
JP2004151324A JP2002315854A JP2002315854A JP2004151324A JP 2004151324 A JP2004151324 A JP 2004151324A JP 2002315854 A JP2002315854 A JP 2002315854A JP 2002315854 A JP2002315854 A JP 2002315854A JP 2004151324 A JP2004151324 A JP 2004151324A
Authority
JP
Japan
Prior art keywords
data
voice
speech synthesis
synthesis
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002315854A
Other languages
English (en)
Inventor
Hiroyuki Segi
寛之 世木
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002315854A priority Critical patent/JP2004151324A/ja
Publication of JP2004151324A publication Critical patent/JP2004151324A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声合成データの補正を効率的に行うことができる音声合成用データベースに補正することができる音声合成用データベース補正方法、装置およびプログラムを提供する。
【解決手段】音声合成用データベース中に含まれている音声合成用データを使用した使用頻度によって補正する音声合成用データベース補正装置1であって、音声合成用データの使用頻度を記録する音声合成用データ使用頻度記録部5と、使用頻度閾値を設定する音声合成用データ使用頻度設定部7と、使用頻度と使用頻度閾値と比較する音声合成用データ使用頻度比較部9と、比較結果に基づき音声合成用データのリストを生成する音声合成用データリスト生成部11と、リストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正部13と、補正した結果を出力する入出力部3と、を備えた。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成する際に利用される音声合成用データベース内の音声合成用データを整備して、音声合成用データベースの補正を行う音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラムに関する。
【0002】
【従来の技術】
従来、音声合成用データベースを使用して音声合成を行う装置に、自然発話音声波形信号接続型音声合成装置(特許文献1参照)がある。この音声合成装置には、音素およびこの音素の発話時間が記録された音声合成用データベースが備えられており、この合成音声装置は当該装置に入力された文章を音素列に分解した後、分解した音素列の音素単位で音声合成用データベースを探索して音声合成を行い、合成音声(合成音声データ)を出力するものである。当該装置における音声合成は、音声合成用データベースに記録されている音素を自動的にアラインメントすることで行われている。
【0003】
【特許文献1】
特開平10−49193号公報(段落番号14〜段落番号48、第1
図)
【0004】
【発明が解決しようとする課題】
しかしながら、従来の音声合成装置では、自動的にアラインメントして音素の発話時間に基づいて音素を区分けし、音声合成用データベースの探索単位を決定していたので、仮に音素の発話時間が誤った発話時刻(開始時刻および終了時刻)で区切られていた場合、音声合成した際の、合成音声データの品質劣化の要因となってしまっていた。この品質劣化を解消するために、人手で音声合成用データの発話時間を調整し、音声合成データベースの補正が行われていた。
【0005】
例えば、具体的に説明すると、音声合成用データベースに含まれている文章「今日のニュースです」中の単語「ニュース」の終端「ス(su)」の音素「u」の終了時刻が3000msと記録されていた場合で、実際にこの文章を試聴してみると、「ニュース」の終端「ス(su)」の音素「u」の終了時刻が3000msより遅く感じられた場合、この「ニュース」の終端「ス(su)」の音素「u」の区切り人手で、3150msといったように発話時間を調整していた。しかし、近年、音声合成用データの増加により、音声合成用データベースのデータ量も膨大となって、人手で補正することは現実的に不可能であるという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの補正を効率的に行うことができ、正確な発話時間を備えた音声合成用データからなる音声合成用データベースに補正することができる音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1記載の音声合成用データベース補正方法は、音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正方法であって、前記音声合成用データを使用した使用頻度を記録装置に記録する音声合成用データ使用頻度記録ステップと、この音声合成用データ使用頻度記録ステップにて記録した使用頻度が、大きい順に、当該使用頻度に係る音声合成用データをリストアップする音声合成用データリストアップステップと、この音声合成用データリストアップステップにて、リストアップされた音声合成用データの発話時間を補正する音声合成用データ補正ステップと、この音声合成用データ補正ステップにて補正した結果である音声合成用データベース補正情報を出力する補正情報出力ステップと、を含むことを特徴とする。
【0008】
この方法によれば、まず、音声合成用データ使用頻度記録ステップにおいて、音声合成する際の音声合成用データの使用頻度、すなわち、音声合成用データの使用された回数/音声合成の回数が記録される。例えば、3/10(10回の音声合成で同じ音声合成用データが3回使用された)といったように表される。続いて、音声合成用データリストアップステップにおいて、音声合成用データ使用頻度記録ステップにて記録された使用頻度が、大きい順に、当該使用頻度に係る音声合成用データがリストアップされる。このリストは、音声合成用データと、使用頻度とが関連付けられているものであって、使用頻度の高い順に記載されているものである。そして、音声合成用データ補正ステップにおいて、リストアップされた音声合成用データの発話時間が補正される。この音声合成用データの補正作業は、リストアップされた音声合成用データを表示画面等に表示させて人手で行ってもよいし、基準となる音声合成用データベースを予め用意しておいて、この音声合成用データベースに含まれている音声合成用データの発話時間等に基づいて、自動的に補正(調整)するようにしてもよい。その後、補正情報出力ステップにおいて、音声合成用データ補正ステップにて補正した結果である音声合成用データベース補正情報が出力される。
【0009】
つまり、使用頻度の高い音声合成用データをリストアップしておいて、この音声合成用データを優先的に補正して、使用頻度の低い音声合成用データは関知しないことで、少なくとも使用頻度の高い音声合成用データに関しては正確な発話時間を備えることができ、これらの音声合成用データからなる音声合成用データベースに補正することができる。
【0010】
請求項2記載の音声合成用データベース補正方法は、請求項1に記載の音声合成用データベース補正方法において、前記音声合成用データベースが複数の文章を含んで構成され、前記音声合成用データ使用頻度記録ステップにおいて、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を記録することを特徴とする。
【0011】
この方法によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が、音声合成用データ使用頻度記録ステップにおいて記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、音声合成用データ補正ステップにおいて、この使用頻度の高い音声合成用データに関してのみ補正が行われることになる。
【0012】
請求項3記載の音声合成用データベース補正装置は、音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正装置であって、前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段と、前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段と、前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段と、この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段と、この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段と、この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段と、を備えることを特徴とする。
【0013】
かかる構成によれば、まず、音声合成用データ使用頻度記録手段で音声合成用データベースに含まれている音声合成用データの使用頻度が記録される。また、音声合成用データ使用頻度設定手段で音声合成用データを補正する際の基準となる使用頻度閾値が設定される。この使用頻度閾値は、音声合成用データベースの規模(データ量)に応じて設定することができる。そして、音声合成用データ使用頻度比較手段で、音声合成用データ使用頻度記録手段にて記録された使用頻度と、音声合成用データ使用頻度設定手段にて設定された使用頻度閾値とが比較され、比較結果が出力される。この比較結果に基づいて、音声合成用データリスト生成手段で、優先的に補正の対象となる、使用頻度が大きい(高い)音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が音声合成用データ補正手段で補正される。この音声合成用データ補正手段における音声合成用データの補正は、例えば、基準となる音声合成用データベースを予め用意しておいて、この音声合成用データベースに含まれている音声合成用データの発話時間等に基づいて、自動的に行うものである。その後、補正情報出力手段で、音声合成用データ補正手段にて補正した結果である音声合成用データベース補正情報が出力される。
【0014】
請求項4記載の音声合成用データベース補正装置は、請求項3に記載の音声合成用データベース補正装置において、前記音声合成用データベースが複数の文章を含んで構成され、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする。
【0015】
かかる構成によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が、音声合成用データ使用頻度記録手段で記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、音声合成用データ補正手段で、この使用頻度の高い音声合成用データに関してのみ補正が行われることになる。
【0016】
請求項5記載の音声合成用データベース補正プログラムは、音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段、前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段、前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段、この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段、この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段、この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段、である。
【0017】
かかる構成によれば、音声合成用データ使用頻度記録手段で音声合成用データベースに含まれている音声合成用データの使用頻度が記録され、音声合成用データ使用頻度設定手段で音声合成用データを補正する際の基準となる使用頻度閾値が設定される。音声合成用データ使用頻度比較手段で、音声合成用データ使用頻度記録手段にて記録された使用頻度と、音声合成用データ使用頻度設定手段にて設定された使用頻度閾値とが比較され、比較結果が出力される。この比較結果に基づいて、音声合成用データリスト生成手段で、優先的に補正の対象となる、使用頻度が大きい(高い)音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が音声合成用データ補正手段で補正される。その後、補正情報出力手段で、音声合成用データ補正手段にて補正した結果である音声合成用データベース補正情報が出力される。
【0018】
請求項6記載の音声合成用データベース補正プログラムは、請求項5に記載の音声合成用データベース補正プログラムにおいて、前記音声合成用データベースが複数の文章を含んで構成され、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする。
【0019】
かかる構成によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が、音声合成用データ使用頻度記録手段で記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、音声合成用データ補正手段で、この使用頻度の高い音声合成用データに関してのみ補正が行われることになる。
【0020】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(音声合成用データベース補正システムの構成)
図1は音声合成用データベース補正システムのブロック図である。この図1に示すように、音声合成用データベース補正システムは、音声合成用データベース補正装置1と音声合成装置2とからなる。まず、音声合成装置2の構成を説明し、その後、音声合成用データベース補正装置1の構成について説明することとする。
【0021】
音声合成装置2は、音声合成用データベース4を備えており、当該装置2に入力されたテキストデータを単語または音素の単位に分割し、これらを探索候補として、音声合成用データベース4内に保持されている音声合成用データ(単位音声)を探索し、探索した音声合成用データを接続した(結びつけた)音声合成用データの列を合成音声(合成音声データ)として出力するものである。
【0022】
この音声合成装置2に備えられる音声合成用データベース4で保持されている(収められている)音声合成用データ(単位音声)は、「単語」および「音素」を基盤としており、この実施の形態では、複数の単語および音素からなる「文章」が当該データベース4の構成単位となっている。そして、各文章には、単語または音素毎に発話時間(開始時刻および終了時刻)が記録されており、さらに各文章には「文番号」が付されている。
【0023】
なお、音声合成装置2の他の構成(例えば、音声合成に関係する構成)については、本発明と直接関係がないので図示および説明を省略する。
【0024】
これより、音声合成用データベース補正装置1の構成を説明する。
音声合成用データベース補正装置1は、入出力部3と、音声合成用データ使用頻度記録部5と、音声合成用データ使用頻度設定部7と、音声合成用データ使用頻度比較部9と、音声合成用データリスト生成部11と、音声合成用データ補正部13と、表示出力部15と、操作部17と、記憶部19とを備えている。
【0025】
音声合成用データベース補正装置1は、音声合成装置2において音声合成される度に利用される音声合成用データベース4内の音声合成用データの中で、使用頻度の高い音声合成用データに関して、この音声合成用データをリストアップし、優先的に当該音声合成データの発話時間(開始時刻および終了時刻)の補正を行うものである。
【0026】
なお、この実施の形態における音声合成用データベース補正装置1では、音声合成用データベース(各音声合成用データの整備、修正)の補正を人手または自動的に行うことを選択することができる構成となっており、この音声合成用データベースの補正によって、音声合成装置2において音声合成した際に生じがちな、合成音声データの品質劣化を解消することができる。
【0027】
入出力部3は、音声合成用データベース1と音声合成装置2との間で取り交わされる情報の入出力を行うインターフェースに相当するものである。音声合成用データベース1と音声合成装置2との間で取り交わされる情報には、音声合成装置2において音声合成される度に出力される音声合成用データそれぞれの使用頻度(以下、音声合成用データ使用頻度という)と、音声合成用データベース補正装置1において音声合成用データを整備、修正した情報である音声合成用データベース補正情報とがある。
【0028】
この入出力部3から音声合成用データ使用頻度が音声合成用データ使用頻度記録部5に出力される。この入出力部3は、特許請求の範囲の請求項に記載した補正情報出力手段を兼ね備えている(相当する)ものである。なお、この入出力部3はインターネット等の通信回線網(図示を省略)を介して情報の入出力(送受信)が行えるように構成されてもよい。
【0029】
音声合成用データ使用頻度記録部5は、音声合成装置2の音声合成用データベース4を使って音声合成する度に、使用された単位音声(音声合成用データ)の使用頻度(音声合成用データ使用頻度)を記憶部19に記録するものである。つまり、この音声合成用データ使用頻度記録部5は音声合成された場合に、音声合成用データ使用頻度を音声合成装置2から入出力部3を介して取得するものであるといえる。
【0030】
この音声合成用データ使用頻度記録部5では、例えば、音声合成装置2において音声合成用データベース補正用のテストセット(頻繁に音声合成されるテキストデータ、例えば、ニュース等で読み上げられる複数の文章)を用意しておき、このテストセットの文章(テキストデータ)が音声合成装置2で音声合成した結果、使用された音声合成用データ使用頻度が取得され、記憶部19に記録される。この実施の形態では、音声合成装置2の音声合成用データベース4の構成単位が文章であるので、この音声合成用データ使用頻度は、どの文章の(どの文章番号の)どの単語(または、音素)を使用したのかを記録したものである。また、この音声合成用データ使用頻度は、音声合成の回数と使用された回数とが関連付けられたものである。
【0031】
また、この音声合成用データ使用頻度記録部5は、この実施の形態のように音声合成装置2の音声合成用データベース4中の音声合成用データが文章単位で記録されている場合には、一つの文章をその文章以外の他の文章に含まれている音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データの使用頻度を記憶部19に記録するものである。この音声合成用データ使用頻度記録部5が特許請求の範囲の請求項に記載した音声合成用データ使用頻度記録手段に相当するものである。
【0032】
音声合成用データ使用頻度設定部7は、音声合成用データを整備、修正する際の基準となる使用頻度閾値を設定するものである。この使用頻度閾値は、音声合成用データの使用された回数/音声合成の回数の基準となるものであり、例えば、3/10(10回の音声合成で同じ音声合成用データが3回使用)といったように表される。つまり、この使用頻度閾値より大きい(高い)とは、4/10以上、すなわち、10回の音声合成で同じ音声合成用データが4回以上使用された場合を指している。
【0033】
この音声合成用データ使用頻度設定部7で設定される使用頻度閾値は、当該装置1のユーザが操作部17を使って入力して、設定されるものである。使用頻度閾値は、音声合成用データベース4のデータ量に応じて、当該装置1のユーザが任意に設定することができるものである。例えば、音声合成用データベース4のデータ量が非常に多い場合、各音声合成用データが使用される確率は低くなる傾向にあり、逆に、音声合成用データベース4のデータ量が非常に少ない場合、各音声合成用データが使用される確率は高くなる傾向にあるので、こういった傾向や、或いは、音声合成装置2に入力するテキストデータの属性(ニュース原稿なのか、日常会話なのか等)を鑑みて、使用頻度閾値を設定すればよいことになる。この音声合成用データ使用頻度設定部7が特許請求の範囲の請求項に記載した音声合成用データ使用頻度設定手段に相当するものである。
【0034】
音声合成用データ使用頻度比較部9は、音声合成用データ使用頻度記録部5で取得された音声合成用データ使用頻度と、音声合成用データ使用頻度設定部7で設定された使用頻度閾値とを比較して、比較結果を音声合成用データリスト生成部11に出力するものである。この音声合成用データ使用頻度比較部9における比較結果は、「使用頻度閾値以上」または「使用頻度閾値未満」のいずれかとなる。つまり、「使用頻度閾値以上」であるに該当した音声合成用データは、頻繁に使用される音声合成用データであり、音声合成用データ補正部13で整備、修正する必要性の高い(優先順位が高い)ものであると言えるし、「使用頻度閾値未満」であるに該当した音声合成用データは、使用頻度が低い音声合成用データであり、音声合成用データ補正部13で整備、修正しなくても、音声合成装置2で音声合成した際の品質にはあまり関係がないものであると言える。
【0035】
音声合成用データリスト生成部11は、音声合成用データ使用頻度比較部9で比較された比較結果に基づいて、音声合成用データのリストを生成して、音声合成用データ補正部13および表示出力部15に出力するものである。この音声合成用データのリストは、音声合成用データベース4内に含まれている音声合成用データの中で、優先的に整備、修正をすべきもの(使用頻度の高いもの)を上位に、整備、修正の必要性の少ないもの(使用頻度の低いもの(使用頻度閾値以上であってその中で低いもの))を下位に示した一覧表である。
【0036】
なお、この音声合成用データリスト生成部11で生成されるリスト(一覧表)には、使用頻度閾値未満の音声合成用データを記載することもできる。この音声合成用データリスト生成部11が特許請求の範囲の請求項に記載した音声合成用データリスト生成手段に相当するものである。
【0037】
音声合成用データ補正部13は、音声合成用データリスト生成部11で生成されたリストに基づいて、人手または自動で、音声合成用データを整備、修正して、その結果(音声合成用データベース補正情報)を入出力部3を介して音声合成装置2に反映させるものである。この音声合成用データ補正部13には、補正手段選択機能(図示せず)が備えられており、この補正手段選択機能によって、補正手段(「人手」または「自動」)の選択肢が表示出力部15の表示画面に表示され、音声合成用データベース補正装置1のユーザは、この選択肢を選択することで補正手段を決定する。音声合成用データの補正を人手で行う場合については後記する(図3、図4を参照して後ほど説明する)。
【0038】
補正手段の選択肢で「自動」を選択した場合には、音声合成用データリスト生成手段11で生成されたリストの中で上位(使用頻度の高い)に位置する音声合成用データ(以下、リストアップ音声合成用データという)と、記憶部19に予め記憶されている、基準となる音声合成用データベース(以下、基準音声合成用データベースという)の音声合成用データ(以下、基準音声合成用データという)とが比較され、リストアップ音声合成用データが基準音声合成用データを基準とする一定内に収まるように修正が施される。
【0039】
例えば、基準音声合成用データ「雨」がある文章「今日は雨ですね」の開始時刻2000msから終了時刻2200msに位置しており、この文章の長さ(発話時間)が、4000msであり、リストアップ音声合成用データ「雨」がある文章「今日は雨ですね」の開始時刻1800msから終了時刻2100msに位置しており、この文章の長さ(発話時間)が3600msであった場合を想定して説明する。
【0040】
基準音声合成用データ「雨」が「今日は雨ですね」という文章に標準的に現れる(発話が開始される)タイミングは、2000/4000=0.5であり、消える(発話が終了される)タイミングは、2200/4000=0.55である。これに基づいて、リストアップ音声合成用データ「雨」の開始時刻および終了時刻を算出すると、開始時刻は3600ms×0.5=1800msとなり、終了時刻は3600×0.55=1980msとなる。つまり、この計算によって、リストアップ音声合成用データ「雨」の終了時刻は1980msに修正されることになる。
【0041】
このように、各音声合成用データを修正し、修正した複数の音声合成用データを一つのファイル形式にまとめた音声合成用データベース補正情報として、入出力部3を介して、音声合成装置2に出力される。この音声合成用データベース補正情報に基づいて、音声合成装置2の音声合成用データベース4が補正される(書き換えられる)。
【0042】
表示出力部15は、液晶やCRTディスプレイとスピーカ等の音声出力装置等を備えてなるもので、音声合成用データリスト生成部11で生成されたリストを液晶やCRTディスプレイ等の表示画面に表示すると共に、このリストに記載されている音声合成用データをスピーカ等の音声出力装置等で出力するものである。このスピーカ等の音声出力装置は、音声合成用データ補正部13の補正手段選択機能によって表示される補正手段「人手」を、当該装置1のユーザが選択した場合に、ユーザの手入力によって(操作部17を使用)、音声合成用データを修正する際に使用するものである。
【0043】
操作部17は、キーボード、マウス等によって構成されており、音声合成用データベース補正装置1の操作を行う際、つまり、音声合成用データ使用頻度設定部7で使用頻度閾値を設定する際や、音声合成用データリスト生成部11で生成されたリストの整備、修正する際に使用するものである。
【0044】
記憶部19は、音声合成装置2から出力される音声合成用データ使用頻度、音声合成用データ使用頻度設定部7で設定された使用頻度閾値、音声合成用データベース補正部13で自動的に音声合成用データを整備、修正する際に供される基準となる音声合成用データベースを記憶するものである。
【0045】
この音声合成用データベース補正装置1によれば、音声合成用データ使用頻度記録部5で音声合成用データベース4に含まれている音声合成用データの使用頻度が記録される。また、音声合成用データ使用頻度設定部7で音声合成用データを補正する際の基準となる使用頻度閾値が設定される。そして、音声合成用データ使用頻度比較部9で、音声合成用データ使用頻度記録部5にて記憶部19に記録された使用頻度と、音声合成用データ使用頻度設定部7にて設定された使用頻度閾値とが比較され、比較結果が出力される。この比較結果に基づいて、音声合成用データリスト生成部11で、優先的に補正の対象となる、使用頻度が大きい(高い)音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が音声合成用データ補正部13で補正される(調整される)。その後、入出力部3で、音声合成用データ補正部13にて補正した結果である音声合成用データベース補正情報が出力される。このため、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの整備、修正を、生成されたリストに基づき使用頻度の高い音声合成用データについて、効率的に行うことができるので、正確な発話時間(開始時刻および終了時刻)を備えた音声合成用データからなる音声合成用データベース4に補正することができる。
【0046】
(音声合成用データベース補正装置の動作)
次に、図2に示すフローチャートを参照して、音声合成用データベース補正装置1の動作について説明する(適宜、図1参照)。なお、この動作は、音声合成用データ補正部11で、補正手段「自動」が選択された場合を説明したものである。
【0047】
まず、音声合成用データ使用頻度設定部7で使用頻度閾値が設定される(S1)。この使用頻度閾値は、音声合成用データベース補正装置1のユーザが操作部17を使用して入力される。そして、音声合成装置2にテキストデータが入力され音声合成が実行されると、入出力部3に音声合成用データ使用頻度が入力される(S2)。
【0048】
すると、音声合成用データ使用頻度記録部5で音声合成用データ使用頻度が記憶部19に記録される。続いて、音声合成用データ使用頻度比較部9で、音声合成用データ使用頻度記録部5で記録された音声合成用データ使用頻度と、音声合成用データ使用頻度設定部7で設定された使用頻度閾値とが比較され、音声合成用データ使用頻度が使用頻度閾値より大きいかどうかが判定される(S4)。音声合成用データ使用頻度が使用頻度閾値より大きいと判定されない場合(S4、No)、この動作では、リストは全く生成されずに動作が終了する。
【0049】
また、合成用データ使用頻度が使用頻度閾値より大きいと判定された場合(S4、Yes)、音声合成用データリスト生成部11で音声合成用データのリスト(リストアップ音声合成用データからなる一覧表)が生成される(S5)。すると、音声合成用データ補正部13で記憶部19に記憶されている基準音声合成用データベースの基準音声合成用データに基づいて、リスト中のリストアップ音声合成用データの発話時間が修正(補正)され(S6)、リスト中のすべてのリストアップ音声合成用データに関して、修正がなされ、これらが一つのファイルにまとめられた音声合成用データベース補正情報が生成される。
【0050】
その後、この音声合成用データ補正部13で生成された音声合成用データベース補正情報が入出力部3から音声合成装置2に出力される(S7)。音声合成装置2では、音声合成用データベース4に音声合成用データベース補正情報が反映される(上書きされる)。
【0051】
(音声合成用データの補正の仕方について)
次に、図3、図4を参照して、音声合成用データベース補正装置1による具体的な音声合成用データの補正の仕方について説明する。
【0052】
図3は、音声合成用データのリストを説明した図であり、音声合成用データリスト生成部11で生成され、表示出力部15の表示画面に表示されているリストを示したものである。図4は音声合成用データを補正する際の音声波形を示した図であり、表示出力部15の表示画面に表示されているリストの一行目の「ニュース」を操作部17に備えられているマウスでダブルクリックしたときの変化およびその後の修正を示したもので、図4(a)「ニュース」をダブルクリックした直後、「ニュース」の音声波形を示したものである。図4(b)はこの「ニュース」の音声が表示出力部15に備えられているスピーカから出力され、この音声を当該装置1のユーザが耳でききながら、「ニュース」の発話開始時刻(開始時刻)および発話終了時刻(終了時刻)を補正した図である。
【0053】
図3に示したように、音声合成用データリスト生成部11で生成され表示出力部15の表示画面に表示されているリストは、「使用頻度」、「データ」(データ名)、「文番号」(文章番号)、「開始時刻」、「終了時刻」からなるもので、使用頻度の高いものから順にリストの上位(図3中上方)に位置するように記載されている一覧表である。
【0054】
また、図4(a)では、ある文章(文番号8)における「ニュース」の発話開始時刻2125msと、発話終了時刻2840msとが明確になるように、「ニュース」の音声波形を横断する破線が表示画面に示されていることを示している。
【0055】
そして、図4(b)では、この「ニュース」を当該装置1のユーザが耳でききながら、音声波形を横断する破線を操作部17のマウスでドラッグして、発話開始時刻2050msと、発話終了時刻3120msとに補正していることを示している。
【0056】
これら図3、図4に示したように、音声合成用データリスト生成部11で生成されたリスト中の補正したい音声合成用データを、操作部17のマウスでダブルクリックし、音声波形を表示させ、音声を聞きながら、当該マウスをドラッグすることで容易に音声合成用データの発話開始時刻および発話終了時刻を補正することができる。
【0057】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成用データベース補正装置1の各構成の処理を一ずつの過程ととらえた音声合成用データベース補正方法とみなすことや、音声合成用データベース補正装置1の各構成の処理をコンピュータ言語で記述した音声合成用データベース補正プログラムとみなすことは可能である。これらの場合、音声合成用データベース補正装置1と同様の効果を得ることができる。
【0058】
【発明の効果】
請求項1記載の発明によれば、音声合成用データベースに含まれている音声合成用データの使用頻度が記録され、大きい順に音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が補正される。補正した結果である音声合成用データベース補正情報が出力される。このため、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの整備、修正を、生成されたリストに基づき使用頻度の高い(大きい)音声合成用データについて、効率的に行うことができるので、正確な発話時間(開始時刻および終了時刻)を備えた音声合成用データからなる音声合成用データベースに補正することができる。
【0059】
請求項3、5記載の発明によれば、音声合成用データベースに含まれている音声合成用データの使用頻度が記録され、使用頻度と使用頻度閾値とが比較され、比較結果が出力される。優先的に補正の対象となる、使用頻度が大きい(高い)音声合成用データのリストが生成される。このリストに含まれている音声合成用データの発話時間が補正される。補正した結果である音声合成用データベース補正情報が出力される。このため、合成音声データの品質劣化の要因となる音声合成データの発話時間の誤りを含めた、音声合成データの整備、修正を、生成されたリストに基づき使用頻度の高い音声合成用データについて、効率的に行うことができるので、正確な発話時間(開始時刻および終了時刻)を備えた音声合成用データからなる音声合成用データベースに補正することができる。
【0060】
請求項2、4、6記載の発明によれば、音声合成する際に、音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる合成文章対象外音声合成用データに基づいて、音声合成をした際に使用した合成文章対象外音声合成用データの使用頻度が記録される。これによって、音声合成用データベース中で使用頻度の高い音声合成用データを振り分けることができ、この使用頻度の高い音声合成用データに関してのみ補正を行うことができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態である音声合成用データベース補正システム(音声合成用データベース補正装置を含む)のブロック図である。
【図2】図1に示した音声合成用データベース補正装置の動作を説明したフローチャートである。
【図3】音声合成用データのリストを説明した図である。
【図4】音声合成用データを補正する際の音声波形を示した図である。
【符号の説明】
1 音声合成用データベース補正装置
3 入出力部
5 音声合成用データ使用頻度記録部
7 音声合成用データ使用頻度設定部
9 音声合成用データ使用頻度比較部
11 音声合成用データリスト生成部
13 音声合成用データ補正部
15 表示出力部
17 操作部
19 記憶部

Claims (6)

  1. 音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正方法であって、
    前記音声合成用データを使用した使用頻度を記録装置に記録する音声合成用データ使用頻度記録ステップと、
    この音声合成用データ使用頻度記録ステップにて記録した使用頻度が、大きい順に、当該使用頻度に係る音声合成用データをリストアップする音声合成用データリストアップステップと、
    この音声合成用データリストアップステップにて、リストアップされた音声合成用データの発話時間を補正する音声合成用データ補正ステップと、
    この音声合成用データ補正ステップにて補正した結果である音声合成用データベース補正情報を出力する補正情報出力ステップと、
    を含むことを特徴とする音声合成用データベース補正方法。
  2. 前記音声合成用データベースが複数の文章を含んで構成され、
    前記音声合成用データ使用頻度記録ステップにおいて、前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を記録することを特徴とする請求項1に記載の音声合成用データベース補正方法。
  3. 音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する音声合成用データベース補正装置であって、
    前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段と、
    前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段と、
    前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段と、
    この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段と、
    この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段と、
    この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段と、
    を備えることを特徴とする音声合成用データベース補正装置。
  4. 前記音声合成用データベースが複数の文章を含んで構成され、
    前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする請求項3に記載の音声合成用データベース補正装置。
  5. 音声合成用データベース中に含まれている音声合成用データを使用した使用頻度に応じて、当該音声合成用データの発話時間を補正する装置を、
    前記音声合成用データを使用した使用頻度を記録する音声合成用データ使用頻度記録手段、
    前記音声合成用データを補正する際の基準となる使用頻度閾値を設定する音声合成用データ使用頻度設定手段、
    前記音声合成用データ使用頻度記録手段で記録した使用頻度と、前記音声合成用データ使用頻度設定手段で設定された使用頻度閾値と比較する音声合成用データ使用頻度比較手段、
    この音声合成用データ使用頻度比較手段で比較された結果に基づいて、前記音声合成用データ使用頻度記録手段で記録した使用頻度が大きい場合に当該使用頻度に係る音声合成用データのリストを生成する音声合成用データリスト生成手段、
    この音声合成用データリスト生成手段で生成されたリストに含まれる音声合成用データの発話時間を補正する音声合成用データ補正手段、
    この音声合成用データ補正手段で補正した結果である音声合成用データベース補正情報を出力する補正情報出力手段、
    として機能させることを特徴とする音声合成用データベース補正プログラム。
  6. 前記音声合成用データベースが複数の文章を含んで構成され、
    前記音声合成用データベース中に含まれている文章を、この文章以外の全ての文章に含まれる音声合成用データである合成文章対象外音声合成用データによって音声合成した際に、当該合成文章対象外音声合成用データを使用した使用頻度を、前記音声合成用データ使用頻度記録手段が記録することを特徴とする請求項5に記載の音声合成用データベース補正プログラム。
JP2002315854A 2002-10-30 2002-10-30 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム Pending JP2004151324A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002315854A JP2004151324A (ja) 2002-10-30 2002-10-30 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002315854A JP2004151324A (ja) 2002-10-30 2002-10-30 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム

Publications (1)

Publication Number Publication Date
JP2004151324A true JP2004151324A (ja) 2004-05-27

Family

ID=32459733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002315854A Pending JP2004151324A (ja) 2002-10-30 2002-10-30 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム

Country Status (1)

Country Link
JP (1) JP2004151324A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016183993A (ja) * 2015-03-25 2016-10-20 ブラザー工業株式会社 音声データ生成装置、音声データ生成方法、及びプログラム
JP2017058472A (ja) * 2015-09-15 2017-03-23 株式会社東芝 編集支援装置、編集支援方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016183993A (ja) * 2015-03-25 2016-10-20 ブラザー工業株式会社 音声データ生成装置、音声データ生成方法、及びプログラム
JP2017058472A (ja) * 2015-09-15 2017-03-23 株式会社東芝 編集支援装置、編集支援方法及びプログラム

Similar Documents

Publication Publication Date Title
US8862478B2 (en) Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8311832B2 (en) Hybrid-captioning system
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2007108407A (ja) 音声認識システムと音声認識方法およびプログラム
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US20140222415A1 (en) Accuracy of text-to-speech synthesis
JP6327848B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
KR20080031357A (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
KR20000077120A (ko) 텍스트-대-스피치 및 스피치 인식 시스템에서의 발음 수정방법 및 그래픽 사용자 인터페이스
CN110740275B (zh) 一种非线性编辑系统
CN109326284A (zh) 语音搜索的方法、装置和存储介质
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
CN113591491B (zh) 语音翻译文本校正系统、方法、装置及设备
WO2006118683A1 (en) Speech dialog method and system
JP5870686B2 (ja) 合成音声修正装置,方法,及びプログラム
JP2004151324A (ja) 音声合成用データベース補正方法、音声合成用データベース補正装置および音声合成用データベース補正プログラム
JP2014174278A (ja) 音声合成辞書編集装置、音声合成辞書編集方法及び音声合成辞書編集プログラム
US20050108013A1 (en) Phonetic coverage interactive tool
JP2010183372A (ja) 音声自動応答装置、音声自動応答方法および音声自動応答プログラム
JP6543755B1 (ja) 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP2020086113A (ja) カラオケシステム、カラオケ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070314

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070711