JP2008139631A

JP2008139631A - 音声合成方法、装置、プログラム

Info

Publication number: JP2008139631A
Application number: JP2006326743A
Authority: JP
Inventors: Akihiro Yoshida; 明弘吉田; Hideyuki Mizuno; 秀之水野; Kazunori Mano; 一則間野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2008-06-19

Abstract

【課題】テキストデータから合成音声を生成する音声合成装置において、合成音声の音質を向上させる。
【解決手段】入力テキストをテキスト解析し、音声素片系列に変換する。音声素片系列の韻律を評価し、その評価値に従って信号処理を必要とするか否かを判定する。信号処理を不要とする場合はそのまま音声素片系列を音声合成し、合成音声データとして出力する。信号処理を必要とする場合は、信号処理適用判定部で各種の信号処理をした結果を予測し、各信号処理毎に品質劣化の度合いが許容範囲内であるか否かを判定する。品質劣化の度合いが許容範囲内になる信号処理が存在した場合は、音声素片系列をその信号処理手法で信号処理を行う。許容範囲外である場合は、再度音声素片系列探索を実施し、最良の音声素片系列を探索する。
【選択図】図２

Description

入力する任意のテキストと一致した音声を出力する音声合成技術に関する。

テキストを入力するだけで所望の音声を生成することができる音声合成技術は、電子メールやWeb記事の読み上げ、コンタクトセンタなどのような電話音声による情報案内のための読み上げなどに利用されており、実際にテキストを読み上げるための作業コスト削減に貢献している。
しかしながら、合成音声の品質は、人間の生音声と比較すると依然として及ばず、さらなる市場の拡大を実現するための一要素として、合成音声の品質向上が必要であると考えられる。
特に合成音声の韻律が誤ると、同音異義語の取り違いが生じたり、単語を認識する弊害になったりするため、音声の発生内容を理解する妨げになる。よって、合成音声を作成する際、正しい韻律を実現することは重要である。
任意のテキストを音声へ変換する音声合成技術の１つである波形接続型音声合成（特許文献１）は、大規模な音声コーパスから任意長の音声波形の断片（音声素片）を探索、接続することで合成音声を生成する。
多くの波形接続型音声合成では、まず始めに、入力された漢字かな混じり文をテキスト解析することで、目標となる音韻系列、韻律パタンなどを作成する。

次に、これらの目標にできるだけ近くなるような音声素片の組合せの探索を、複数の基準パラメータを総合的に評価することで行う。
基準パラメータを総合的に評価する一般的な方法には、基本周波数や音韻環境、音韻継続時間などの複数のパラメータに関するサブコストを計算し、それらを重み付け加算した総合コストが最も低い音声素片系列を出力音声とする方法がある。
しかし、音声コーパスの発声内容と入力テキストの整合性が低い場合には適切な音声素片が音声コーパス内に存在せず、正しい韻律が生成できない場合がある。
また、場合によっては、音声コーパス中に存在している適切な音声素片を選択することができずに韻律が劣化することがある。
このような場合に、正しい韻律を解決するための方法として、音声波形を変形させ、適切な素片を作り出す合成音声に対する信号処理を行うことで、正しい韻律を実現する方法がある。
特許第２７６１５５２号明細書

しかし、現在の技術を適用する場合、合成音声に対する信号処理を施すと少なからず雑音などが生じ、肉声らしさがなくなる傾向にある。このために信号処理による変形量が大きいなど、場合によっては信号処理を行う前よりも品質が劣化してしまう危険性がある。
本発明は、信号処理による品質劣化を最小限に抑える合成音声生成方法に関するものであり、高品質な合成音声を安定して得ることを目的としている。

この発明による音声合成装置は、大量の音声データを保持した音声コーパスと、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースとを備え、
入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、
テキスト解析処理部で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理部と、
合成音声の韻律パタンを目標韻律パタンに合わせるなど、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理部と、
韻律が不自然である音声素片系列データに信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、
信号処理適用判定部で信号処理による品質劣化が許容範囲内であると判定された場合に信号処理を施す信号処理部と、
信号処理適用判定部において、品質劣化が大きく信号処理を適用できないと判定された場合に韻律評価処理で得られた評価結果、もしくは、信号処理適用判定処理で得られた判定結果を反映させて、信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、
音声素片探索を行った回数によって、信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、
によって構成される。

本発明によれば、合成音声に対して信号処理を適用することで生じる品質の劣化を予測し、どの信号処理を適用するかを選択したり、信号処理を適用しても品質劣化が少ない合成音声を選択し直したりすることで、信号処理による品質劣化を最小限に抑え、高品質な合成音声を安定して得ることができる。
また、信号処理を実際に施してから品質劣化を調査するのではなく、信号処理による品質劣化を予測することや、韻律評価結果に基づいて品質劣化が少ないと予測される信号処理手法を優先的に評価することで、計算処理時間を大幅に削減でき、システム動作をスムーズにすることができる。

本発明による音声合成方法を実行する音声合成装置はハードウェアによって構成することも可能であるが、最も簡素に実現するには、本発明による音声合成プログラムをコンピュータにインストールし、コンピュータに備えられているＣＰＵに音声合成プログラムを解読させ、音声合成装置として機能させる実施形態が最良の実施形態である。
コンピュータに本発明の音声合成装置として機能させるには、大量の音声データを保持した音声コーパスを備え、入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースと、テキスト解析処理部で得られた情報を利用し、目標韻律パタンを生成する韻律生成部と、合成音声の韻律パタンを目標韻律パタンに合わせるなど、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、韻律評価部から音声素片系列を使用するかどうかを判定する出力音声素片系列決定部と、韻律が不自然である音声素片系列データに信号処理を適用した場合に信号処理による品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、信号処理適用判定部で信号処理による品質劣化が許容範囲内であると判定された場合に信号処理を施す信号処理部と、信号処理適用判定部において、品質劣化が大きく信号処理を適用できないと判定された場合に韻律評価部で得られた評価結果、もしくは、信号処理適用判定部で得られた判定結果を反映させて、信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、音声素片探索を行った回数によって、信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、を構築することで実現される。

この構成とすることにより、信号処理を行うことで処理前の合成音声よりも品質が劣化するのを抑制することで高品質な合成音声を安定して得ることができるとする本発明の独特の作用効果を得ることができる。

本発明で適用する音声合成手法は波形接続型音声合成であり、音声合成処理装置の全体の構成は、図１のように、音声合成処理の対象である入力テキスト１に対して、テキスト解析処理部２で形態素解析を行うことで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与する。
これらの情報を利用し、韻律生成部３で目標韻律パタンを生成する。音韻系列が入力テキスト１と一致した上で、ここで得られた韻律パタンや音声素片の音韻環境などができるだけ一致している音声素片系列を音声データベース４から探索し、必要に応じて信号処理を用いて韻律を修正する処理を音声素片探索部兼合成処理部５にて行うことで合成音声データ６を作成する。

本発明と従来手法との差は音声素片探索部兼合成処理部５にある。本発明で適用する音声素片探索部兼合成処理部５の内部構成を図２に示す。それ以外のテキスト解析処理部２、韻律生成部３、音声データベース４については、従来手法と変わらないので、ここでは詳細な説明は省略する。
本発明の特徴とする音声素片探索部兼合成処理部５は韻律評価結果格納部５０と、音声素片系列探索部５１と、第１韻律評価部５２と、出力音声素片系列決定部５３と、音声素片系列データ格納部５４と、信号処理適用前提音声素片系列探索部５５と、再選択回数制御部５６と、第２韻律評価部５７と、信号処理適用判定部５８と、信号処理部５９と、品質−変形データベース６０とによって構成される。

先ず始めに、音声素片系列探索部５１は従来手法と同様に、図１に示した韻律生成部３で生成された目標韻律パタンにできるだけ近く、テキスト解析処理部２から得られる音韻系列などの入力テキスト１と一致した音声素片系列を音声データベース４から探索する処理を行う。
次に選択された音声素片系列が持つ韻律が自然であるかどうかを第１韻律評価部５２で行う。韻律の評価は、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションについて行う。話速やイントネーションの評価は、例えば音韻間で継続時間長や基本周波数を比較し、自然であると言える比率や差分の許容範囲をあらかじめ調査し、その許容範囲に収まるかどうか判定することで行うことができる。

第１韻律評価部５２において話速とイントネーションのどちらも自然と判定された場合、出力音声素片系列決定部５３は韻律が正しく信号処理を行う必要がないと判定し、音声素片系列探索部５１において選択された音声素片系列を補間処理などで滑らかに接続し、音声素片系列データ格納部５４を通じて合成音声データ６Ａとして出力する。
第１韻律評価部５２において話速とイントネーションの少なくともどちらかが不自然と判定された場合、出力音声素片系列決定部５３は信号処理が必要と判定し、音声素片系列探索部５１において選択した音声素片系列を信号処理適用判定部５８に移動させる。

信号処理適用判定部５８は出力音声素片系列決定部５３から受け取った音声素片系列データを読み込んで信号処理特有の雑音等の品質劣化が許容範囲内であるか否かの判定を行う。この許容範囲内であるか否かの判定に用いる知識源は図３に示すように話速やイントネーション（基本周波数）等の信号処理による変形量（横軸）に対する品質劣化の許容度合（縦軸）との関係を変形するパラメータごとに予め統計的に収集し、収集したデータをプロットして近似的に求めた曲線Ａを用いる。曲線Ａは各信号処理の種別毎に収集され、品質−変形データベース６０として用意される。つまり、信号処理部５９において適用する信号処理手法によって品質劣化の許容範囲が異なると考えられるため、信号処理適用判定部５８は信号処理手法の違いによって許容範囲に関する異なる知識源（品質−変形データベース）を利用する。

どの信号処理手法に関する適用判定処理を優先的に行うか、信号処理を用いてどのパラメータに対して修正を行うかは、第１韻律評価部５２で不自然と判定されたパラメータによって決定される。信号処理手法は複数用意されていて、話速の変化に最も強い信号処理、イントネーションの変形に最も強い信号処理があらかじめ分かっているものとする。
例えば、話速のみが不自然であると判定された場合、時間軸方向の伸縮処理に頑健であるＰＳＯＬＡ（Pitch-Synchronous Overlap-Add）のような信号処理手法を用いて話速のみを修正した場合の適用判定を優先的に行う。一方、イントネーションのみが不自然であると判定された場合、参考文献１のような周波数軸方向の変形に頑健である信号処理手法の適用判定を優先的に行い、イントネーションのみを修正した場合の、イントネーションに関する信号処理適用判定のみを行う。話速とイントネーションのどちらも不自然であると判定された場合は、音声合成システムに用意されている信号処理手法を用いた話速とイントネーションの両方を修正した場合の適用判定を全手法に対して行う。話速とイントネーションの両方を修正した場合の許容範囲に関する知識源は、話速の変形量とイントネーションの変形量の２つのパラメータから得られる許容度合から判定する。これらのどの場合でも、適用可と判定される信号処理手法が見つかった時点で、信号処理部５９へ進み、信号処理後、合成音声データ６Ｂとして出力する。このフローは有効と思われる処理を先に行うことで、処理時間の削減が可能となる。

また、品質を重視したフローとしては、適用判定の優先順位を考慮せずに全ての信号処理手法を用いて不自然と判定されたパラメータの修正を行い、品質−変形データベースから得られる変形量に対する品質劣化の度合を比較し、品質劣化が許容範囲であると判定された信号処理手法の内、最も劣化度合が低い手法を適用すると決定する手順が考えられる。
信号処理を行った後の音声を評価することで品質劣化がどれくらい生じたかを判定することも可能であるが、信号処理を行わずに品質−変形データベース６０を用いて品質劣化が起きるかどうかを予測することで、計算処理時間の大幅な削減が可能となり、リアルタイム性を重視する使用方法において非常に有効である。

信号処理適用判定部５８において品質劣化が許容範囲である信号処理が見つからなかった場合には、信号処理適用前提音声素片系列探索部５５において、信号処理を行うことを前提として音声素片系列の探索を再度行う。ここでの探索方法では第１韻律評価部５２での評価結果が反映され、例えばイントネーションが不自然であると判定された場合には、基本周波数に関するサブコストの重みを大きくし、基本周波数を重視した素片選択を行う。もしくは、信号処理適用判定部５８において許容範囲に最も近かった音声素片系列に対して許容されなかったパラメータに対するサブコストの重みを大きくすることで、許容範囲に含まれる音声素片系列が選択されることを期待することができる。このように、信号処理を前提とした音声素片の再選択を行うことにより、信号処理による品質劣化が少ない合成音声を生成することが可能となる。

新たに選択された音声素片系列に対して、第２韻律評価部５７で韻律が自然であるかを判定し、信号処理適用判定部５８においてどのパラメータに対して修正を行なうか、どの信号処理の適用判定処理を優先的に行なうかを第２韻律評価部５７の出力結果によって決定した上で再び信号処理判定を行い、適用可と判定された信号処理が見つからなかった場合は再度素片選択をし直すという繰り返し処理を行う。適用可と判定された信号処理が見つかった場合には、信号処理適用判定部５８の判定に従い信号処理部５９で信号処理を適用して合成音声として出力する。

一定回数の素片の再選択を行っても適用可と判定される信号処理が見つからなかった場合は、再選択回数制御部５６は最初の素片探索処理で得られた音声素片系列を信号処理を行わずに音声素片系列データ格納部５４を通じて合成音声データ６Ａとして出力する。もしくは、韻律の劣化度合と信号処理による劣化度合いを比較した主観評価実験により、韻律が不自然な場合と信号処理による異音が生じる場合でどちらがどれくらい劣化しており、何れが許容できるかを示す情報を品質−変形データベース６０に持っていることで、信号処理を行うかどうかを最終的に判定することも可能である。

以上説明した本発明による音声合成装置はコンピュータが解読可能なプログラム言語によって記述された音声合成プログラムをコンピュータにインストールし、コンピュータに備えられたＣＰＵに解読させ、音声合成プログラムを実行させることにより実現される。
本発明による音声合成プログラムはコンピュータが読み取り可能な磁気ディスク、ＣＤ−ＲＯＭ或いは半導体メモリ等の記録媒体に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。
〔参考文献１〕特許第３５５７１２号明細書

自動読み上げ装置、自動音声案内装置等の分野に活用される。

一般的なテキストデータから音声を合成する音声合成装置の概要を説明するためのブロック図。本発明の特徴とする音声素片探索部兼合成処理部の実施例を説明するためのブロック図。本発明の実施例に用いた品質−変形データベースを説明するためのグラフ。

符号の説明

１入力テキスト
２テキスト解析処理部
３韻律生成部
４音声データベース
５音声素片探索部兼合成処理部
６、６Ａ、６Ｂ音声合成データ
５０韻律評価結果格納部
５１音声素片系列探索部
５２第１韻律評価部
５３出力音声素片系列決定部
５４音声素片系列データ格納部
５５信号処理適用前提音声素片系列探索部
５６再選択回数制御部
５７第２韻律評価部
５８信号処理適用判定部
５９信号処理部
６０品質−変形データベース

Claims

大量の音声データを保持した音声コーパスと、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースとを備え、入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成方法において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理と、
前記テキスト解析処理で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理と、
合成音声の韻律パタンを目標韻律パタンに合わせ、基準となる複数のパラメータを評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索処理と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価処理と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理と、
韻律が不自然である音声素片系列データに前記信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定処理と、
前記信号処理適用判定処理で前記信号処理による品質劣化が許容範囲内であると判定された場合に前記信号処理を施す信号処理と、
信号処理適用判定処理において、品質劣化が大きく前記信号処理を適用できないと判定された場合に前記韻律評価処理で得られた評価結果、もしくは、前記信号処理適用判定処理で得られた判定結果を反映させて、前記信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索処理と、
音声素片探索を行った回数によって、前記信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御処理と、
を含むことを特徴とする音声合成方法。
請求項１記載の音声合成方法において、前記信号処理による品質劣化度合を推定することにより、前記信号処理を適用するかどうかを判定する音声合成方法。
請求項１又は２の何れかに記載の音声合成方法において前記韻律評価処理の判定結果、もしくは、前記信号処理適用判定処理の判定結果に基づいて、前記信号処理による品質劣化が生じない音声素片系列を選択する再選択機能を有する音声合成方法。
請求項１乃至３の何れかに記載の音声合成方法において前記韻律評価処理の判定結果に基づいて使用する前記信号処理を選択する音声合成方法。
大量の音声データを保持した音声コーパスと、合成音声に対する信号処理による音声素片の変形量と品質劣化の許容範囲の関係が信号処理手法ごとに記述されている品質−変形データベースとを備え、
入力された任意のテキストを音声へと変換するために、音声コーパスに含まれる任意長の音声素片を探索、接続することで入力テキストと内容が一致した合成音声を生成する音声合成装置において、
入力されたテキストを形態素解析することで読みを得、韻律生成に必要な情報である、アクセント型・音調結合型を付与するテキスト解析処理部と、
テキスト解析処理部で得られた情報を利用し、目的とする韻律パタンを生成する韻律生成処理部と、
合成音声の韻律パタンを目標韻律パタンに合わせ、基準となる複数のパラメータを総合的に評価し、その評価結果に基づいて音声素片を選択する音声素片系列探索部と、
生成された合成音声の韻律が自然であるかを、音韻間の継続時間長の関係である話速と、音韻間の基本周波数の関係であるイントネーションのように複数のパラメータについてそれぞれ判定する韻律評価部と、
韻律評価結果から音声素片系列を使用するかどうかを判定する出力音声素片系列決定処理部と、
韻律が不自然である音声素片系列データに前記信号処理を適用した場合に品質劣化が許容範囲であるかどうかを判定する信号処理適用判定部と、
前記信号処理適用判定部で前記信号処理による品質劣化が許容範囲内であると判定された場合に前記信号処理を施す信号処理部と、
前記信号処理適用判定部において、品質劣化が大きく前記信号処理を適用できないと判定された場合に前記韻律評価処理で得られた評価結果、もしくは、前記信号処理適用判定処理で得られた判定結果を反映させて、前記信号処理を適用しても品質劣化が許容できる音声素片系列を探索する信号処理適用前提音声素片系列探索部と、
音声素片探索を行った回数によって、前記信号処理を適用するための音声素片系列の探索を続けるかどうかを判定する再選択回数制御部と、
を備えることを特徴とする音声合成装置。
請求項５記載の音声合成装置において、前記信号処理による品質劣化度合を推定することにより、前記信号処理を適用するかどうかを判定する音声合成装置。
請求項５又は６の何れかに記載の音声合成装置において前記韻律評価部の判定結果、もしくは、前記信号処理適用判定部の判定結果に基づいて、前記信号処理による品質劣化が生じない音声素片系列を選択する再選択機能を有する音声合成装置。
請求項５乃至７の何れかに記載の音声合成方法において、前記韻律評価部の判定結果に基づいて使用する信号処理を選択する音声合成装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータを請求項５乃至８記載の音声合成装置として機能させる音声合成プログラム。