JP2008139631A - 音声合成方法、装置、プログラム - Google Patents
音声合成方法、装置、プログラム Download PDFInfo
- Publication number
- JP2008139631A JP2008139631A JP2006326743A JP2006326743A JP2008139631A JP 2008139631 A JP2008139631 A JP 2008139631A JP 2006326743 A JP2006326743 A JP 2006326743A JP 2006326743 A JP2006326743 A JP 2006326743A JP 2008139631 A JP2008139631 A JP 2008139631A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal processing
- unit
- prosody
- quality degradation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】テキストデータから合成音声を生成する音声合成装置において、合成音声の音質を向上させる。
【解決手段】入力テキストをテキスト解析し、音声素片系列に変換する。音声素片系列の韻律を評価し、その評価値に従って信号処理を必要とするか否かを判定する。信号処理を不要とする場合はそのまま音声素片系列を音声合成し、合成音声データとして出力する。信号処理を必要とする場合は、信号処理適用判定部で各種の信号処理をした結果を予測し、各信号処理毎に品質劣化の度合いが許容範囲内であるか否かを判定する。品質劣化の度合いが許容範囲内になる信号処理が存在した場合は、音声素片系列をその信号処理手法で信号処理を行う。許容範囲外である場合は、再度音声素片系列探索を実施し、最良の音声素片系列を探索する。
【選択図】図2
【解決手段】入力テキストをテキスト解析し、音声素片系列に変換する。音声素片系列の韻律を評価し、その評価値に従って信号処理を必要とするか否かを判定する。信号処理を不要とする場合はそのまま音声素片系列を音声合成し、合成音声データとして出力する。信号処理を必要とする場合は、信号処理適用判定部で各種の信号処理をした結果を予測し、各信号処理毎に品質劣化の度合いが許容範囲内であるか否かを判定する。品質劣化の度合いが許容範囲内になる信号処理が存在した場合は、音声素片系列をその信号処理手法で信号処理を行う。許容範囲外である場合は、再度音声素片系列探索を実施し、最良の音声素片系列を探索する。
【選択図】図2
Description
入力する任意のテキストと一致した音声を出力する音声合成技術に関する。
テキストを入力するだけで所望の音声を生成することができる音声合成技術は、電子メールやWeb記事の読み上げ、コンタクトセンタなどのような電話音声による情報案内のための読み上げなどに利用されており、実際にテキストを読み上げるための作業コスト削減に貢献している。
しかしながら、合成音声の品質は、人間の生音声と比較すると依然として及ばず、さらなる市場の拡大を実現するための一要素として、合成音声の品質向上が必要であると考えられる。
特に合成音声の韻律が誤ると、同音異義語の取り違いが生じたり、単語を認識する弊害になったりするため、音声の発生内容を理解する妨げになる。よって、合成音声を作成する際、正しい韻律を実現することは重要である。
任意のテキストを音声へ変換する音声合成技術の1つである波形接続型音声合成(特許文献1)は、大規模な音声コーパスから任意長の音声波形の断片(音声素片)を探索、接続することで合成音声を生成する。
多くの波形接続型音声合成では、まず始めに、入力された漢字かな混じり文をテキスト解析することで、目標となる音韻系列、韻律パタンなどを作成する。
しかしながら、合成音声の品質は、人間の生音声と比較すると依然として及ばず、さらなる市場の拡大を実現するための一要素として、合成音声の品質向上が必要であると考えられる。
特に合成音声の韻律が誤ると、同音異義語の取り違いが生じたり、単語を認識する弊害になったりするため、音声の発生内容を理解する妨げになる。よって、合成音声を作成する際、正しい韻律を実現することは重要である。
任意のテキストを音声へ変換する音声合成技術の1つである波形接続型音声合成(特許文献1)は、大規模な音声コーパスから任意長の音声波形の断片(音声素片)を探索、接続することで合成音声を生成する。
多くの波形接続型音声合成では、まず始めに、入力された漢字かな混じり文をテキスト解析することで、目標となる音韻系列、韻律パタンなどを作成する。
次に、これらの目標にできるだけ近くなるような音声素片の組合せの探索を、複数の基準パラメータを総合的に評価することで行う。
基準パラメータを総合的に評価する一般的な方法には、基本周波数や音韻環境、音韻継続時間などの複数のパラメータに関するサブコストを計算し、それらを重み付け加算した総合コストが最も低い音声素片系列を出力音声とする方法がある。
しかし、音声コーパスの発声内容と入力テキストの整合性が低い場合には適切な音声素片が音声コーパス内に存在せず、正しい韻律が生成できない場合がある。
また、場合によっては、音声コーパス中に存在している適切な音声素片を選択することができずに韻律が劣化することがある。
このような場合に、正しい韻律を解決するための方法として、音声波形を変形させ、適切な素片を作り出す合成音声に対する信号処理を行うことで、正しい韻律を実現する方法がある。
特許第2761552号明細書
基準パラメータを総合的に評価する一般的な方法には、基本周波数や音韻環境、音韻継続時間などの複数のパラメータに関するサブコストを計算し、それらを重み付け加算した総合コストが最も低い音声素片系列を出力音声とする方法がある。
しかし、音声コーパスの発声内容と入力テキストの整合性が低い場合には適切な音声素片が音声コーパス内に存在せず、正しい韻律が生成できない場合がある。
また、場合によっては、音声コーパス中に存在している適切な音声素片を選択することができずに韻律が劣化することがある。
このような場合に、正しい韻律を解決するための方法として、音声波形を変形させ、適切な素片を作り出す合成音声に対する信号処理を行うことで、正しい韻律を実現する方法がある。
しかし、現在の技術を適用する場合、合成音声に対する信号処理を施すと少なからず雑音などが生じ、肉声らしさがなくなる傾向にある。このために信号処理による変形量が大きいなど、場合によっては信号処理を行う前よりも品質が劣化してしまう危険性がある。
本発明は、信号処理による品質劣化を最小限に抑える合成音声生成方法に関するものであり、高品質な合成音声を安定して得ることを目的としている。
本発明は、信号処理による品質劣化を最小限に抑える合成音声生成方法に関するものであり、高品質な合成音声を安定して得ることを目的としている。
この発明による音声合成装置は、大量の音声データを保持した音声コーパスと、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースとを備え、
入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、
テキスト解析処理部で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理部と、
合成音声の韻律パタンを目標韻律パタンに合わせるなど、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理部と、
韻律が不自然である音声素片系列データに信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、
信号処理適用判定部で信号処理による品質劣化が許容範囲内であると判定された場合に信号処理を施す信号処理部と、
信号処理適用判定部において、品質劣化が大きく信号処理を適用できないと判定された場合に韻律評価処理で得られた評価結果、もしくは、信号処理適用判定処理で得られた判定結果を反映させて、信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、
音声素片探索を行った回数によって、信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、
によって構成される。
入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、
テキスト解析処理部で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理部と、
合成音声の韻律パタンを目標韻律パタンに合わせるなど、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理部と、
韻律が不自然である音声素片系列データに信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、
信号処理適用判定部で信号処理による品質劣化が許容範囲内であると判定された場合に信号処理を施す信号処理部と、
信号処理適用判定部において、品質劣化が大きく信号処理を適用できないと判定された場合に韻律評価処理で得られた評価結果、もしくは、信号処理適用判定処理で得られた判定結果を反映させて、信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、
音声素片探索を行った回数によって、信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、
によって構成される。
本発明によれば、合成音声に対して信号処理を適用することで生じる品質の劣化を予測し、どの信号処理を適用するかを選択したり、信号処理を適用しても品質劣化が少ない合成音声を選択し直したりすることで、信号処理による品質劣化を最小限に抑え、高品質な合成音声を安定して得ることができる。
また、信号処理を実際に施してから品質劣化を調査するのではなく、信号処理による品質劣化を予測することや、韻律評価結果に基づいて品質劣化が少ないと予測される信号処理手法を優先的に評価することで、計算処理時間を大幅に削減でき、システム動作をスムーズにすることができる。
また、信号処理を実際に施してから品質劣化を調査するのではなく、信号処理による品質劣化を予測することや、韻律評価結果に基づいて品質劣化が少ないと予測される信号処理手法を優先的に評価することで、計算処理時間を大幅に削減でき、システム動作をスムーズにすることができる。
本発明による音声合成方法を実行する音声合成装置はハードウェアによって構成することも可能であるが、最も簡素に実現するには、本発明による音声合成プログラムをコンピュータにインストールし、コンピュータに備えられているCPUに音声合成プログラムを解読させ、音声合成装置として機能させる実施形態が最良の実施形態である。
コンピュータに本発明の音声合成装置として機能させるには、大量の音声データを保持した音声コーパスを備え、入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースと、テキスト解析処理部で得られた情報を利用し、目標韻律パタンを生成する韻律生成部と、合成音声の韻律パタンを目標韻律パタンに合わせるなど、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、韻律評価部から音声素片系列を使用するかどうかを判定する出力音声素片系列決定部と、韻律が不自然である音声素片系列データに信号処理を適用した場合に信号処理による品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、信号処理適用判定部で信号処理による品質劣化が許容範囲内であると判定された場合に信号処理を施す信号処理部と、信号処理適用判定部において、品質劣化が大きく信号処理を適用できないと判定された場合に韻律評価部で得られた評価結果、もしくは、信号処理適用判定部で得られた判定結果を反映させて、信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、音声素片探索を行った回数によって、信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、を構築することで実現される。
コンピュータに本発明の音声合成装置として機能させるには、大量の音声データを保持した音声コーパスを備え、入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースと、テキスト解析処理部で得られた情報を利用し、目標韻律パタンを生成する韻律生成部と、合成音声の韻律パタンを目標韻律パタンに合わせるなど、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、韻律評価部から音声素片系列を使用するかどうかを判定する出力音声素片系列決定部と、韻律が不自然である音声素片系列データに信号処理を適用した場合に信号処理による品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、信号処理適用判定部で信号処理による品質劣化が許容範囲内であると判定された場合に信号処理を施す信号処理部と、信号処理適用判定部において、品質劣化が大きく信号処理を適用できないと判定された場合に韻律評価部で得られた評価結果、もしくは、信号処理適用判定部で得られた判定結果を反映させて、信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、音声素片探索を行った回数によって、信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、を構築することで実現される。
この構成とすることにより、信号処理を行うことで処理前の合成音声よりも品質が劣化するのを抑制することで高品質な合成音声を安定して得ることができるとする本発明の独特の作用効果を得ることができる。
本発明で適用する音声合成手法は波形接続型音声合成であり、音声合成処理装置の全体の構成は、図1のように、音声合成処理の対象である入力テキスト1に対して、テキスト解析処理部2で形態素解析を行うことで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与する。
これらの情報を利用し、韻律生成部3で目標韻律パタンを生成する。音韻系列が入力テキスト1と一致した上で、ここで得られた韻律パタンや音声素片の音韻環境などができるだけ一致している音声素片系列を音声データベース4から探索し、必要に応じて信号処理を用いて韻律を修正する処理を音声素片探索部兼合成処理部5にて行うことで合成音声データ6を作成する。
これらの情報を利用し、韻律生成部3で目標韻律パタンを生成する。音韻系列が入力テキスト1と一致した上で、ここで得られた韻律パタンや音声素片の音韻環境などができるだけ一致している音声素片系列を音声データベース4から探索し、必要に応じて信号処理を用いて韻律を修正する処理を音声素片探索部兼合成処理部5にて行うことで合成音声データ6を作成する。
本発明と従来手法との差は音声素片探索部兼合成処理部5にある。本発明で適用する音声素片探索部兼合成処理部5の内部構成を図2に示す。それ以外のテキスト解析処理部2、韻律生成部3、音声データベース4については、従来手法と変わらないので、ここでは詳細な説明は省略する。
本発明の特徴とする音声素片探索部兼合成処理部5は韻律評価結果格納部50と、音声素片系列探索部51と、第1韻律評価部52と、出力音声素片系列決定部53と、音声素片系列データ格納部54と、信号処理適用前提音声素片系列探索部55と、再選択回数制御部56と、第2韻律評価部57と、信号処理適用判定部58と、信号処理部59と、品質−変形データベース60とによって構成される。
本発明の特徴とする音声素片探索部兼合成処理部5は韻律評価結果格納部50と、音声素片系列探索部51と、第1韻律評価部52と、出力音声素片系列決定部53と、音声素片系列データ格納部54と、信号処理適用前提音声素片系列探索部55と、再選択回数制御部56と、第2韻律評価部57と、信号処理適用判定部58と、信号処理部59と、品質−変形データベース60とによって構成される。
先ず始めに、音声素片系列探索部51は従来手法と同様に、図1に示した韻律生成部3で生成された目標韻律パタンにできるだけ近く、テキスト解析処理部2から得られる音韻系列などの入力テキスト1と一致した音声素片系列を音声データベース4から探索する処理を行う。
次に選択された音声素片系列が持つ韻律が自然であるかどうかを第1韻律評価部52で行う。韻律の評価は、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションについて行う。話速やイントネーションの評価は、例えば音韻間で継続時間長や基本周波数を比較し、自然であると言える比率や差分の許容範囲をあらかじめ調査し、その許容範囲に収まるかどうか判定することで行うことができる。
次に選択された音声素片系列が持つ韻律が自然であるかどうかを第1韻律評価部52で行う。韻律の評価は、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションについて行う。話速やイントネーションの評価は、例えば音韻間で継続時間長や基本周波数を比較し、自然であると言える比率や差分の許容範囲をあらかじめ調査し、その許容範囲に収まるかどうか判定することで行うことができる。
第1韻律評価部52において話速とイントネーションのどちらも自然と判定された場合、出力音声素片系列決定部53は韻律が正しく信号処理を行う必要がないと判定し、音声素片系列探索部51において選択された音声素片系列を補間処理などで滑らかに接続し、音声素片系列データ格納部54を通じて合成音声データ6Aとして出力する。
第1韻律評価部52において話速とイントネーションの少なくともどちらかが不自然と判定された場合、出力音声素片系列決定部53は信号処理が必要と判定し、音声素片系列探索部51において選択した音声素片系列を信号処理適用判定部58に移動させる。
第1韻律評価部52において話速とイントネーションの少なくともどちらかが不自然と判定された場合、出力音声素片系列決定部53は信号処理が必要と判定し、音声素片系列探索部51において選択した音声素片系列を信号処理適用判定部58に移動させる。
信号処理適用判定部58は出力音声素片系列決定部53から受け取った音声素片系列データを読み込んで信号処理特有の雑音等の品質劣化が許容範囲内であるか否かの判定を行う。この許容範囲内であるか否かの判定に用いる知識源は図3に示すように話速やイントネーション(基本周波数)等の信号処理による変形量(横軸)に対する品質劣化の許容度合(縦軸)との関係を変形するパラメータごとに予め統計的に収集し、収集したデータをプロットして近似的に求めた曲線Aを用いる。曲線Aは各信号処理の種別毎に収集され、品質−変形データベース60として用意される。つまり、信号処理部59において適用する信号処理手法によって品質劣化の許容範囲が異なると考えられるため、信号処理適用判定部58は信号処理手法の違いによって許容範囲に関する異なる知識源(品質−変形データベース)を利用する。
どの信号処理手法に関する適用判定処理を優先的に行うか、信号処理を用いてどのパラメータに対して修正を行うかは、第1韻律評価部52で不自然と判定されたパラメータによって決定される。信号処理手法は複数用意されていて、話速の変化に最も強い信号処理、イントネーションの変形に最も強い信号処理があらかじめ分かっているものとする。
例えば、話速のみが不自然であると判定された場合、時間軸方向の伸縮処理に頑健であるPSOLA(Pitch-Synchronous Overlap-Add)のような信号処理手法を用いて話速のみを修正した場合の適用判定を優先的に行う。一方、イントネーションのみが不自然であると判定された場合、参考文献1のような周波数軸方向の変形に頑健である信号処理手法の適用判定を優先的に行い、イントネーションのみを修正した場合の、イントネーションに関する信号処理適用判定のみを行う。話速とイントネーションのどちらも不自然であると判定された場合は、音声合成システムに用意されている信号処理手法を用いた話速とイントネーションの両方を修正した場合の適用判定を全手法に対して行う。話速とイントネーションの両方を修正した場合の許容範囲に関する知識源は、話速の変形量とイントネーションの変形量の2つのパラメータから得られる許容度合から判定する。これらのどの場合でも、適用可と判定される信号処理手法が見つかった時点で、信号処理部59へ進み、信号処理後、合成音声データ6Bとして出力する。このフローは有効と思われる処理を先に行うことで、処理時間の削減が可能となる。
例えば、話速のみが不自然であると判定された場合、時間軸方向の伸縮処理に頑健であるPSOLA(Pitch-Synchronous Overlap-Add)のような信号処理手法を用いて話速のみを修正した場合の適用判定を優先的に行う。一方、イントネーションのみが不自然であると判定された場合、参考文献1のような周波数軸方向の変形に頑健である信号処理手法の適用判定を優先的に行い、イントネーションのみを修正した場合の、イントネーションに関する信号処理適用判定のみを行う。話速とイントネーションのどちらも不自然であると判定された場合は、音声合成システムに用意されている信号処理手法を用いた話速とイントネーションの両方を修正した場合の適用判定を全手法に対して行う。話速とイントネーションの両方を修正した場合の許容範囲に関する知識源は、話速の変形量とイントネーションの変形量の2つのパラメータから得られる許容度合から判定する。これらのどの場合でも、適用可と判定される信号処理手法が見つかった時点で、信号処理部59へ進み、信号処理後、合成音声データ6Bとして出力する。このフローは有効と思われる処理を先に行うことで、処理時間の削減が可能となる。
また、品質を重視したフローとしては、適用判定の優先順位を考慮せずに全ての信号処理手法を用いて不自然と判定されたパラメータの修正を行い、品質−変形データベースから得られる変形量に対する品質劣化の度合を比較し、品質劣化が許容範囲であると判定された信号処理手法の内、最も劣化度合が低い手法を適用すると決定する手順が考えられる。
信号処理を行った後の音声を評価することで品質劣化がどれくらい生じたかを判定することも可能であるが、信号処理を行わずに品質−変形データベース60を用いて品質劣化が起きるかどうかを予測することで、計算処理時間の大幅な削減が可能となり、リアルタイム性を重視する使用方法において非常に有効である。
信号処理を行った後の音声を評価することで品質劣化がどれくらい生じたかを判定することも可能であるが、信号処理を行わずに品質−変形データベース60を用いて品質劣化が起きるかどうかを予測することで、計算処理時間の大幅な削減が可能となり、リアルタイム性を重視する使用方法において非常に有効である。
信号処理適用判定部58において品質劣化が許容範囲である信号処理が見つからなかった場合には、信号処理適用前提音声素片系列探索部55において、信号処理を行うことを前提として音声素片系列の探索を再度行う。ここでの探索方法では第1韻律評価部52での評価結果が反映され、例えばイントネーションが不自然であると判定された場合には、基本周波数に関するサブコストの重みを大きくし、基本周波数を重視した素片選択を行う。もしくは、信号処理適用判定部58において許容範囲に最も近かった音声素片系列に対して許容されなかったパラメータに対するサブコストの重みを大きくすることで、許容範囲に含まれる音声素片系列が選択されることを期待することができる。このように、信号処理を前提とした音声素片の再選択を行うことにより、信号処理による品質劣化が少ない合成音声を生成することが可能となる。
新たに選択された音声素片系列に対して、第2韻律評価部57で韻律が自然であるかを判定し、信号処理適用判定部58においてどのパラメータに対して修正を行なうか、どの信号処理の適用判定処理を優先的に行なうかを第2韻律評価部57の出力結果によって決定した上で再び信号処理判定を行い、適用可と判定された信号処理が見つからなかった場合は再度素片選択をし直すという繰り返し処理を行う。適用可と判定された信号処理が見つかった場合には、信号処理適用判定部58の判定に従い信号処理部59で信号処理を適用して合成音声として出力する。
一定回数の素片の再選択を行っても適用可と判定される信号処理が見つからなかった場合は、再選択回数制御部56は最初の素片探索処理で得られた音声素片系列を信号処理を行わずに音声素片系列データ格納部54を通じて合成音声データ6Aとして出力する。もしくは、韻律の劣化度合と信号処理による劣化度合いを比較した主観評価実験により、韻律が不自然な場合と信号処理による異音が生じる場合でどちらがどれくらい劣化しており、何れが許容できるかを示す情報を品質−変形データベース60に持っていることで、信号処理を行うかどうかを最終的に判定することも可能である。
以上説明した本発明による音声合成装置はコンピュータが解読可能なプログラム言語によって記述された音声合成プログラムをコンピュータにインストールし、コンピュータに備えられたCPUに解読させ、音声合成プログラムを実行させることにより実現される。
本発明による音声合成プログラムはコンピュータが読み取り可能な磁気ディスク、CD−ROM或いは半導体メモリ等の記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。
〔参考文献1〕特許第355712号明細書
本発明による音声合成プログラムはコンピュータが読み取り可能な磁気ディスク、CD−ROM或いは半導体メモリ等の記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。
〔参考文献1〕特許第355712号明細書
自動読み上げ装置、自動音声案内装置等の分野に活用される。
1 入力テキスト
2 テキスト解析処理部
3 韻律生成部
4 音声データベース
5 音声素片探索部兼合成処理部
6、6A、6B 音声合成データ
50 韻律評価結果格納部
51 音声素片系列探索部
52 第1韻律評価部
53 出力音声素片系列決定部
54 音声素片系列データ格納部
55 信号処理適用前提音声素片系列探索部
56 再選択回数制御部
57 第2韻律評価部
58 信号処理適用判定部
59 信号処理部
60 品質−変形データベース
2 テキスト解析処理部
3 韻律生成部
4 音声データベース
5 音声素片探索部兼合成処理部
6、6A、6B 音声合成データ
50 韻律評価結果格納部
51 音声素片系列探索部
52 第1韻律評価部
53 出力音声素片系列決定部
54 音声素片系列データ格納部
55 信号処理適用前提音声素片系列探索部
56 再選択回数制御部
57 第2韻律評価部
58 信号処理適用判定部
59 信号処理部
60 品質−変形データベース
Claims (9)
- 大量の音声データを保持した音声コーパスと、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースとを備え、入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成方法において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理と、
前記テキスト解析処理で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理と、
合成音声の韻律パタンを目標韻律パタンに合わせ、基準となる複数のパラメータを評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索処理と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価処理と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理と、
韻律が不自然である音声素片系列データに前記信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定処理と、
前記信号処理適用判定処理で前記信号処理による品質劣化が許容範囲内であると判定された場合に前記信号処理を施す信号処理と、
信号処理適用判定処理において、品質劣化が大きく前記信号処理を適用できないと判定された場合に前記韻律評価処理で得られた評価結果、もしくは、前記信号処理適用判定処理で得られた判定結果を反映させて、前記信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索処理と、
音声素片探索を行った回数によって、前記信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御処理と、
を含むことを特徴とする音声合成方法。 - 請求項1記載の音声合成方法において、前記信号処理による品質劣化度合を推定することにより、前記信号処理を適用するかどうかを判定する音声合成方法。
- 請求項1又は2の何れかに記載の音声合成方法において前記韻律評価処理の判定結果、もしくは、前記信号処理適用判定処理の判定結果に基づいて、前記信号処理による品質劣化が生じない音声素片系列を選択する再選択機能を有する音声合成方法。
- 請求項1乃至3の何れかに記載の音声合成方法において前記韻律評価処理の判定結果に基づいて使用する前記信号処理を選択する音声合成方法。
- 大量の音声データを保持した音声コーパスと、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースとを備え、
入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、
テキスト解析処理部で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理部と、
合成音声の韻律パタンを目標韻律パタンに合わせ、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理部と、
韻律が不自然である音声素片系列データに前記信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、
前記信号処理適用判定部で前記信号処理による品質劣化が許容範囲内であると判定された場合に前記信号処理を施す信号処理部と、
前記信号処理適用判定部において、品質劣化が大きく前記信号処理を適用できないと判定された場合に前記韻律評価処理で得られた評価結果、もしくは、前記信号処理適用判定処理で得られた判定結果を反映させて、前記信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、
音声素片探索を行った回数によって、前記信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、
を備えることを特徴とする音声合成装置。 - 請求項5記載の音声合成装置において、前記信号処理による品質劣化度合を推定することにより、前記信号処理を適用するかどうかを判定する音声合成装置。
- 請求項5又は6の何れかに記載の音声合成装置において前記韻律評価部の判定結果、もしくは、前記信号処理適用判定部の判定結果に基づいて、前記信号処理による品質劣化が生じない音声素片系列を選択する再選択機能を有する音声合成装置。
- 請求項5乃至7の何れかに記載の音声合成方法において、前記韻律評価部の判定結果に基づいて使用する信号処理を選択する音声合成装置。
- コンピュータが解読可能なプログラム言語によって記述され、コンピュータを請求項5乃至8記載の音声合成装置として機能させる音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006326743A JP2008139631A (ja) | 2006-12-04 | 2006-12-04 | 音声合成方法、装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006326743A JP2008139631A (ja) | 2006-12-04 | 2006-12-04 | 音声合成方法、装置、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008139631A true JP2008139631A (ja) | 2008-06-19 |
Family
ID=39601158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006326743A Pending JP2008139631A (ja) | 2006-12-04 | 2006-12-04 | 音声合成方法、装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008139631A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102009023146A1 (de) | 2008-05-28 | 2010-02-18 | Toshiba Kikai K.K. | Folienbildungseinrichtung und Folienbildungsverfahren |
JP2010078808A (ja) * | 2008-09-25 | 2010-04-08 | Toshiba Corp | 音声合成装置及び方法 |
CN103474067A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 语音信号传输方法及系统 |
CN103474075A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 语音信号发送方法及系统、接收方法及系统 |
CN104575487A (zh) * | 2014-12-11 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 一种语音信号的处理方法及装置 |
JP2016080944A (ja) * | 2014-10-20 | 2016-05-16 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP2016529536A (ja) * | 2013-06-21 | 2016-09-23 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 時間スケーラ、オーディオデコーダ、方法および品質制御を用いるコンピュータプログラム |
WO2017197809A1 (zh) * | 2016-05-18 | 2017-11-23 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
US9997167B2 (en) | 2013-06-21 | 2018-06-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Jitter buffer control, audio decoder, method and computer program |
CN112669810A (zh) * | 2020-12-16 | 2021-04-16 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01284898A (ja) * | 1988-05-11 | 1989-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法 |
JP2004347653A (ja) * | 2003-05-20 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
JP2004354644A (ja) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
-
2006
- 2006-12-04 JP JP2006326743A patent/JP2008139631A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01284898A (ja) * | 1988-05-11 | 1989-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法 |
JP2004347653A (ja) * | 2003-05-20 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
JP2004354644A (ja) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102009023146A1 (de) | 2008-05-28 | 2010-02-18 | Toshiba Kikai K.K. | Folienbildungseinrichtung und Folienbildungsverfahren |
JP2010078808A (ja) * | 2008-09-25 | 2010-04-08 | Toshiba Corp | 音声合成装置及び方法 |
US11580997B2 (en) | 2013-06-21 | 2023-02-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Jitter buffer control, audio decoder, method and computer program |
US10714106B2 (en) | 2013-06-21 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Jitter buffer control, audio decoder, method and computer program |
US10984817B2 (en) | 2013-06-21 | 2021-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Time scaler, audio decoder, method and a computer program using a quality control |
US10204640B2 (en) | 2013-06-21 | 2019-02-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Time scaler, audio decoder, method and a computer program using a quality control |
US9997167B2 (en) | 2013-06-21 | 2018-06-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Jitter buffer control, audio decoder, method and computer program |
JP2016529536A (ja) * | 2013-06-21 | 2016-09-23 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 時間スケーラ、オーディオデコーダ、方法および品質制御を用いるコンピュータプログラム |
CN103474075A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 语音信号发送方法及系统、接收方法及系统 |
CN103474067B (zh) * | 2013-08-19 | 2016-08-24 | 科大讯飞股份有限公司 | 语音信号传输方法及系统 |
CN103474067A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 语音信号传输方法及系统 |
JP2016080944A (ja) * | 2014-10-20 | 2016-05-16 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US10217452B2 (en) | 2014-10-20 | 2019-02-26 | Yamaha Corporation | Speech synthesis device and method |
US10789937B2 (en) | 2014-10-20 | 2020-09-29 | Yamaha Corporation | Speech synthesis device and method |
CN104575487A (zh) * | 2014-12-11 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 一种语音信号的处理方法及装置 |
WO2017197809A1 (zh) * | 2016-05-18 | 2017-11-23 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN112669810A (zh) * | 2020-12-16 | 2021-04-16 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
CN112669810B (zh) * | 2020-12-16 | 2023-08-01 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008139631A (ja) | 音声合成方法、装置、プログラム | |
JP4130190B2 (ja) | 音声合成システム | |
JP4241762B2 (ja) | 音声合成装置、その方法、及びプログラム | |
JP2003150187A (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
CN101131818A (zh) | 语音合成装置与方法 | |
JP2008225254A (ja) | 音声合成装置及び方法並びにプログラム | |
JP4639932B2 (ja) | 音声合成装置 | |
KR102072627B1 (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
JP2016118722A (ja) | 音声合成装置、方法、およびプログラム | |
US8249874B2 (en) | Synthesizing speech from text | |
JP2006337476A (ja) | 音声合成方法および装置 | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP6400526B2 (ja) | 音声合成装置、その方法、およびプログラム | |
TWI307876B (en) | A method of synthesis for a ateady sound signal | |
JP5387410B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP5020759B2 (ja) | 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム | |
JP2013117638A (ja) | 音声合成装置および音声合成プログラム | |
JP2005091747A (ja) | 音声合成装置 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2009237015A (ja) | 音声素片接続装置及びプログラム | |
JP5366919B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP4630038B2 (ja) | 音声波形データベース構築方法、この方法を実施する装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110802 |