JP2011028131A

JP2011028131A - 音声合成装置

Info

Publication number: JP2011028131A
Application number: JP2009175903A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2009-07-28
Filing date: 2009-07-28
Publication date: 2011-02-10

Abstract

【課題】テキストの内容にかかわらず口調の選択を可能にした音声合成装置を提供する。
【解決手段】基準話者について異なる口調の情報を有するＨＭＭパラメータが格納された複数個の基準話者データベース１４ａ，１４ｂを備える。波形生成部１２は、口調選択手段３３により選択された口調のＨＭＭパラメータを格納した基準話者データベース１４ａ，１４ｂを選択し、選択した基準話者データベース１４ａ，１４ｂに格納されたＨＭＭパラメータを用いて合成音声を出力する。
【選択図】図１

Description

本発明は、入力されたテキストに応じた合成音声を出力する音声合成装置に関するものである。

この種の音声合成装置には、漢字仮名混じりのテキストを入力すると、入力されたテキストに対応した合成音声を生成する装置が提供されている（たとえば、特許文献１）。特許文献１に記載された音声合成装置は、状況に応じた音声案内を行うものであり、状況に応じて合成音声の口調を切り換える構成を採用している。

特許文献１では、口調を声質と韻律とにより特徴付けており、声質は主として周波数領域に現れる特徴とし、韻律は、ピッチ、パワー、話速などを含んでいると定義し、明るい口調、警告口調、優しい口調などの口調を表現するパラメータを口調データとして登録してあり、音声波形を生成する際に登録した口調データの中から必要な口調データを選択して用いる構成が採用されている。

特開２００７−１９３７９２号公報（００２９〜００３２段落）

上述した特許文献１に記載の技術では、口調を考慮して合成音声を生成しているが、口調はテキストに結合されており、利用者が所望の口調を選択することはできない。たとえば、任意のテキストに対応する合成音声の口調を変更可能として、登録した口調とは異なる口調で合成音声を出力させることはできない。

本発明は上記事由に鑑みて為されたものであり、その目的は、テキストにかかわらず口調を選択可能にした音声合成装置を提供することにある。

請求項１の発明は、テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するＨＭＭパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからＨＭＭパラメータを探索し探索したＨＭＭパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の口調を指示する口調選択手段とを有し、波形生成部は、口調選択手段により指示された口調のＨＭＭパラメータを、音声波形データベースのＨＭＭパラメータに含まれる口調のＨＭＭパラメータに係数を適用することにより生成することを特徴とする。

請求項２の発明では、請求項１の発明において、前記音声波形データベースは、所定の話者について口調の異なるＨＭＭパラメータが格納された複数個の話者データベースを有し、前記口調選択手段が選択する口調に応じて話者データベースに格納されたＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値を重み付け加算するための重み係数を配合ルールとして格納した配合ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の配合ルールである重み係数を各話者データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に適用して指示された口調の合成音声を出力することを特徴とする。

請求項３の発明では、請求項１の発明において、前記口調選択手段が選択する口調のうちのいずれかの口調に対応するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の口調韻律ルールである係数を前記音声波形データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする。

請求項４の発明では、請求項１〜３のいずれかの発明において、情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記音声波形データベースとを備え、クライアントコンピュータは、前記テキスト入力手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする。

請求項１の発明の構成によれば、口調選択手段により口調を指示することで、音声波形データベースのＨＭＭパラメータに含まれる口調の情報を用いて口調のＨＭＭパラメータを生成するから、所望の口調の合成音声を出力することが可能になる。すなわち、合成音声について、テキストの内容にかかわらず口調（読み上げ口調、明るい口調、優しい口調など）が選択可能になる。

請求項２の発明の構成によれば、口調の異なるＨＭＭパラメータが格納された複数個の話者データベースを設け、さらに、各話者データベースに格納されたＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値について口調選択手段から指示された口調に対応する配合ルールを適用して重み付け加算し、配合ルールを適用したＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値を用いて合成音声を生成するから、話者データベースの個数よりも多くの種類の口調を実現することが可能になる。

請求項３の発明の構成によれば、口調に対応するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する他の口調の係数を口調韻律ルールとして格納した口調韻律ルールデータベースを設け、口調選択手段により口調を指示すると口調韻律ルールを選択して、音声波形データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることで、所望の口調の合成音声を生成するから、口調韻律ルールを登録するだけで、様々な口調を実現することができる。この場合、合成音声の全体について同様の口調になるから、いわば大域的な口調の制御が可能になる。

請求項４の発明の構成によれば、サーバコンピュータにおいて音声合成および話者適応を行い、サーバコンピュータとは情報通信網を介して通信可能なクライアントコンピュータにおいてテキストの入力、口調の選択を行うから、クライアントコンピュータを情報通信網に接続するだけで、場所を選ばずに合成音声を利用することが可能になる。また、処理負荷の大きい音声合成の処理はサーバコンピュータで一括して行うから、クライアントコンピュータには大きなハードウェアリソースが不要になる。

実施形態１を示すブロック図である。実施形態２を示すブロック図である。実施形態３を示すブロック図である。

（共通構成）
以下に説明する各実施形態では、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づく音声合成の技術を採用している。ＨＭＭのパラメータは、スペクトル、基本周波数、時間継続長の３種類のパラメータで表される。以下の説明において、「口調」は、読み上げ口調、明るい口調、優しい口調などの口調であり、主としてピッチ、音素の時間継続長、パワー、話速のような韻律情報に対応付けられる。たとえば、明るい口調はピッチが高くなり、優しい口調は話速が遅くなる。また、「話者」は、アナウンサなどの基準話者のほか、利用者自身や利用者の家族などの特定の個人を意味し、主としてスペクトル成分により決まる声質に対応付けられる。すなわち、基準話者ではない話者は、利用者自身の声や利用者の家族の声などの特定の個人の声に対応付けられる。

まず、以下の実施形態に共通する構成を図１に示す。図示する装置は、合成音声を生成する合成部１０を有している。合成部１０は、入力されたテキストを音素列に変換するとともに各音素について前後の音素・アクセント型・品詞・音素継続長などのコンテキスト情報を抽出する言語解析部１１と、ＨＭＭパラメータが格納された音声波形データベース１３（図は実施形態１を示している）と、言語解析部１１から与えられる音素列およびコンテキスト情報を用いて、音声波形データベース１３に格納されたＨＭＭパラメータを接続することにより音声波形を生成する波形生成部１２とにより構成される。

言語解析部１１に入力されるテキストは漢字仮名混じりテキストであり、キーボードのようなテキスト入力手段３１を用いて利用者により入力される。もちろん、テキストは漢字仮名混じりテキストではなく、仮名テキストやローマ字テキストなどでもよいがコンテキスト情報を抽出するためには、漢字仮名混じりテキストが有効である。

以下に説明する実施形態においては、テキスト入力手段３１は、合成部１０を備えるコンピュータとは別のコンピュータに設けられており、両コンピュータの間で、インターネットやローカルエリアネットワークのような情報通信網ＮＴを介してデータ通信を行う場合を例示している。ただし、合成部１０とともにテキスト入力手段３１が１台のコンピュータに設けられた構成を採用することも可能である。

音声波形データベース１３に格納されたＨＭＭパラメータは、スペクトル成分、ピッチ、音素の時間継続長の３種類のＨＭＭパラメータからなる。上述のように、話者の声質は主としてスペクトル成分により決まり、口調は主として音素の時間継続長およびピッチ（基本周波数）により決まる。また、ＨＭＭパラメータは、それぞれコンテキスト情報に対応付けてクラスタリングがなされた状態で音声波形データベース１３に格納されている。

したがって、波形生成部１２は、言語解析部１１から与えられたコンテキスト情報を音声波形データベース１３に照合し、該当するＨＭＭパラメータをそれぞれ探索する。また、探索したＨＭＭパラメータの値から、音素の時間継続長を探索して音素の長さを決定し、音素の長さに合わせてピッチおよびスペクトル成分の値を探索することで、ピッチ列とスペクトル列とを求め、ＨＭＭパラメータから合成音声の波形を生成する。波形成形部１２において、口調の選択は口調選択手段３３により指示される。つまり、波形生成部１２は、音声波形データベース１３に格納されたＨＭＭパラメータを用いて、指示された口調を付与した音声波形を生成する。波形生成部１２で生成された合成音声（音声波形）は、スピーカを備えた音声再生手段３４から出力される。

図示例では、合成部１０を備えるコンピュータとは別のコンピュータに口調選択手段３３を設け、また、音声再生手段３４も合成部１０とは別に設け、情報通信網ＮＴを介してデータ通信を行う場合を例示しているが、テキスト入力手段３１と同様に口調選択手段３３、音声再生手段３４を合成部１０と同じコンピュータに設けてもよい。口調の制御（口調を付与した音声波形の生成）の技術については、各実施形態において説明する。

なお、上述したように、情報通信網ＮＴを用いる構成は必須ではないが、以下に説明する各実施形態では、合成部１０がサーバコンピュータ１に設けられ、テキスト入力手段３１、口調選択手段３３、音声再生手段３４がクライアントコンピュータ２に設けられ、サーバコンピュータ１とクライアントコンピュータ２が、インターネットのような情報通信網ＮＴを介して通信可能である構成として説明する。クライアントコンピュータ２に設けたテキスト入力手段３１、口調選択手段３３は、クライアントコンピュータ２で実行されるウェブブラウザの表示画面において提供される。

すなわち、クライアントコンピュータ２からサーバコンピュータ１にアクセスし、合成音声を生成するサービスの享受を開始すると、ウェブブラウザの表示画面には、テキストを入力するフィールドが表示される。テキストをフィールドに入力してサーバコンピュータ１に送信すると、サーバコンピュータ１の合成部１０において音声波形データベース１３に格納されているＨＭＭパラメータを用いて合成音声が生成される。サーバコンピュータ１で合成音声の生成が完了すると、クライアントコンピュータ２に通知されるから、クライアントコンピュータ２においてダウンロードを行うことが可能になる。なお、全文をダウンロードするのではなく、一部の試聴を行うことも可能である。

サーバコンピュータ１の波形生成部１２では、口調選択手段３３で選択された口調に応じて以下の実施形態において説明する技術を適用し、口調選択手段３３により選択された口調の合成音声を生成する。

（参考例）
本例は、図１に示すように、音声波形データベース１３に、話者データベースとして２個の基準話者データベース１４ａ，１４ｂを設けている。各基準話者データベース１４ａ，１４ｂには、基準話者について口調の異なるＨＭＭパラメータが格納される。基準話者データベース１４ａ，１４には、１人の話者から得られたＨＭＭパラメータまたは複数人の話者から得られたＨＭＭパラメータの平均値が格納される。ここでは、一方の基準話者データベース１４ａには、テキストを読み上げ口調で読んだときの音声データにより生成したＨＭＭパラメータを格納し、他方の基準話者データベース１４ｂには、テキストを明るい口調で読んだときの音声データにより生成したＨＭＭパラメータを格納しているものとする。基準話者データベース１４ａ，１４ｂはあらかじめ作成されるが、話者データベースとして、利用者などの特定話者が作成した特定話者データベースを用いることも可能である。

このように、基準話者について、読み上げ口調と明るい口調との２種類の口調のＨＭＭパラメータを格納した２個の基準話者データベース１４ａ，１４ｂを設け、波形成形部１３において、口調選択手段３３に指示された口調のＨＭＭパラメータが得られるように、２個の基準話者データベース１４ａ，１４ｂの一方を選択することで、読み上げ口調および明るい口調以外の口調の合成音声を生成している。

すなわち、口調選択手段３３により読み上げ口調を選択すると、波形生成部１２では、基準話者データベース１４ａを選択し、基準話者データベース１４ａに格納されたＨＭＭパラメータを用いて合成音声を生成する。また、口調選択手段３３により明るい口調を選択すると、波形成形部１３では、基準話者データベース１４ｂを選択し、基準話者データベース１４ｂに格納されたＨＭＭパラメータを用いて合成音声を生成する。したがって、どのようなテキストの内容にかかわらず、読み上げ口調と明るい口調との選択が可能になる。

なお、２種類の口調の基準話者データベース１４ａ，１４ｂとして利用しやすい読み上げ口調と明るい口調とを例示したが、他の口調の組み合わせであってもよいのはもちろんのことである。また、３種類以上の口調について基準話者データベースを設けることが可能ではあるが、ＨＭＭパラメータの学習に膨大な時間を要するから現実的ではなく、２種類の口調の基準話者データベースを用いるだけでも十分に実用に供するものである。他の構成および動作は共通構成と同様である。

（実施形態１）
参考例では、口調の異なる２種類の基準話者データベース１４ａ，１４ｂを設けるとともに、波形成形部１２が口調選択手段３３により指示された一方の基準話者データベース１４ａ，１４ｂを選択する構成を採用しているが、本実施形態では、図２に示すように、基準話者データベース１４ａ，１４ｂに格納された口調に関するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値の重み付け加算を行うための重み係数である配合ルールを格納した配合ルールデータベース１６を設け、波形生成部１２において合成音声を生成する際に、配合ルールを適用することによって、合成音声の口調を制御する。

上述したように、音声波形データベース１３には、３種類のＨＭＭパラメータ（スペクトル成分、ピッチ、音素の時間継続長）が格納されている。本実施形態では、これらのＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対して重み付け加算を行うための重み係数の組を口調ごとに規定した表１のような配合ルールを設定し、配合ルールを格納した配合ルールデータベース１６を設けている。波形生成部１２において合成音声を生成する際には、口調選択手段３３により指示された口調に対応する配合ルール（重み係数の組）を配合ルールデータベース１６から抽出し、配合ルールによる重み付き加算を行うことにより合成音声の口調を制御する。

図２には、２種類の口調（読み上げ口調、明るい口調）の基準話者データベース１４ａ１，１４ｂを示しているが、表１に示す例では、３種類の口調（読み上げ口調、明るい口調、優しい口調）の基準話者データベースを用いる例を示している。

配合ルールを実際に適用するにあたっては、言語解析部１１によりテキストから抽出した音素列（ここでは、コンテキスト情報を含むコンテキストラベル列）に従って、各口調の基準話者データベース１４ａ，１４ｂのＨＭＭパラメータからそれぞれ文ＨＭＭパラメータを作成する。文ＨＭＭパラメータは、基準話者データベース１４ａ，１４ｂの個数分だけ生成される。

次に、各文ＨＭＭパラメータのスペクトル成分、ピッチ、音素の時間継続長の各分布の統計値に基づいて表１の重み係数（配合ルール）を適用して重み付け加算を行い、新たな文ＨＭＭパラメータを生成するのである。波形生成部１２では、新たに生成した文ＨＭＭパラメータからスペクトル成分とピッチとのＨＭＭパラメータを生成する。すなわち、新たな口調の合成音声を生成することが可能になる。

上述のように波形生成部１２において、口調に関するＨＭＭパラメータの重み付け加算を行うことにより、複数の口調の補間を行うことになるから、音声波形データベース１２に登録されている口調以外の口調であっても合成音声として出力することが可能になる。他の構成および動作は共通構成と同様である。

（実施形態３）
実施形態１、２では、口調の異なる２種類の基準話者データベース１４ａ，１４ｂを用いる例を示したが、本実施形態では、話者データベースとして１種類の口調（読み上げ口調が望ましい）の特定話者データベース１５を用いる例を示す。特定話者データベースは、基準話者ではない特定の話者の音声を用いて作成したＨＭＭパラメータを登録したものである。

口調を決める要素には、ピッチおよび音素の時間継続長だけでなく、話速やパワーもある。これらの要素は韻律情報に含まれている。以下では、口調を決める韻律情報を口調韻律ルールと呼ぶ。口調韻律ルールは、読み上げ口調のピッチ、話速、パワーを表すパラメータに対して、表２に示す係数で表すことができる。口調韻律ルールは、基準話者の複数の口調（たとえば、読み上げ口調、明るい口調、優しい口調など）から求めたＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値を比較することにより作成される。

表２からわかるように、明るい口調では読み上げ口調よりもピッチが高くなり、優しい口調では読み上げ口調よりも話速が遅くなる。

したがって、口調選択部３３により指示される口調に対応する口調韻律ルールを規定しておくことで、波形生成部１２では、特定話者データベース１５に格納されている特定話者の読み上げ口調でのＨＭＭパラメータから任意の口調の合成音声を生成することが可能になる。表２では、ピッチ、話速、パワーについて、ダイナミクスを含めて記載してあり、このダイナミクスの値が大きくなるほど抑揚が大きくなる。

口調韻律ルールは、図３に示すように、波形成形部１３に付設した口調韻律ルールデータベース１７に登録されている。口調韻律ルールデータベース１７では、上述した係数が口調に対応付けて格納されており、口調選択部３３において口調を選択すると、口調韻律ルールである係数の組み合わせが選択される。

波形成形部１３では、口調選択手段３３で選択された口調に対応する口調韻律ルールを口調韻律ルールデータベース１７から抽出し、ＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に口調韻律ルールを適用することによって、所望の口調の合成音声を出力する。

本実施形態の構成では、口調韻律ルールによって、口調を表すＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値の全体に係数を乗じるから、いわば大域的に合成音声を制御していることになる。たとえば、合成音声のピッチを一律に２倍にしたり、話速を一律に２倍にしたりすることにより口調を制御することになる。

上述したように、本実施形態の構成では、複数の口調を生成するために、複数の基準話者データベースを設ける必要がなく、実施形態１、２の構成に比較して音声波形データベース１３に格納するデータ量を低減することができる。他の構成および動作は共通構成と同様である。

なお、実施形態１、２のように複数個（図示例では２個）の基準話者データベース１４ａ，１４ｂを用いる場合に、所要の口調（読み上げ口調が望ましい）の基準話者データベース１４ａのみを基準話者の実音声を用いて作成し、他の口調の基準話者データベース１４ｂは口調韻律ルールを適用して生成することが可能である。この場合、複数個の基準話者データベース１４ａ，１４ｂを基準話者の実音声で作成する場合よりも、基準話者の負担を軽減することができる。

１サーバコンピュータ
２クライアントコンピュータ
１０合成部
１１言語解析部
１２音声波形データベース
１３波形生成部
１４ａ，１４ｂ基準話者データベース
１５特定話者データベース
１６配合ルールデータベース
１７口調韻律ルールデータベース
３１テキスト入力手段
３３口調選択手段
３４音声出力手段
ＮＴ情報通信網

Claims

テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するＨＭＭパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからＨＭＭパラメータを探索し探索したＨＭＭパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の口調を指示する口調選択手段とを有し、波形生成部は、口調選択手段により指示された口調のＨＭＭパラメータを、音声波形データベースのＨＭＭパラメータに含まれる口調のＨＭＭパラメータに係数を適用することにより生成することを特徴とする音声合成装置。
前記音声波形データベースは、所定の話者について口調の異なるＨＭＭパラメータが格納された複数個の話者データベースを有し、前記口調選択手段が選択する口調に応じて話者データベースに格納されたＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値を重み付け加算するための重み係数を配合ルールとして格納した配合ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の配合ルールである重み係数を各話者データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に適用して指示された口調の合成音声を出力することを特徴とする請求項１記載の音声合成装置。
前記口調選択手段が選択する口調のうちのいずれかの口調に対応するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の口調韻律ルールである係数を前記音声波形データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする請求項１記載の音声合成装置。
情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記音声波形データベースとを備え、クライアントコンピュータは、前記テキスト入力手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする請求項１〜３のいずれか１項に記載の音声合成装置。