JP2011028130A

JP2011028130A - 音声合成装置

Info

Publication number: JP2011028130A
Application number: JP2009175862A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2009-07-28
Filing date: 2009-07-28
Publication date: 2011-02-10

Abstract

【課題】所望の特定話者の声を有した合成音声を出力可能にし、かつ口調も選択可能にした音声合成装置を提供する。
【解決手段】基準話者の声質および口調の情報を有するＨＭＭパラメータが格納された基準話者データベース１４を備える。話者適応部２１は、音声入力手段３５から入力された特定話者の音声データを用いて話者適応を行い、基準話者データベース１４のＨＭＭパラメータを変換して特定話者データベース１５に格納する。話者選択手段３２は、基準話者データベース１４と特定話者データベース１５とから話者を選択する。口調のＨＭＭパラメータは、基準話者データベース１４に格納されている口調の情報から生成される。波形生成部１２は、話者選択手段３２により選択された話者のＨＭＭパラメータと口調選択手段３３により選択された口調のＨＭＭパラメータとを用いて合成音声を出力する。
【選択図】図１

Description

本発明は、入力されたテキストに応じた合成音声を出力する音声合成装置に関するものである。

この種の音声合成装置には、漢字仮名混じりのテキストを入力すると、入力されたテキストに対応した合成音声を生成する装置が提供されている（たとえば、特許文献１）。特許文献１に記載された音声合成装置は、状況に応じた音声案内を行うものであり、状況に応じて合成音声の口調を切り換える構成を採用している。

特許文献１では、口調を声質と韻律とにより特徴付けており、声質は主として周波数領域に現れる特徴とし、韻律は、ピッチ、パワー、話速などを含んでいると定義し、明るい口調、警告口調、優しい口調などの口調を表現するパラメータを口調データとして登録してあり、音声波形を生成する際に登録した口調データの中から必要な口調データを選択して用いる構成が採用されている。

特開２００７−１９３７９２号公報（００２９〜００３２段落）

上述した特許文献１に記載の技術では、口調を考慮して合成音声を生成しているが、所望の特定話者の声での合成音声を出力するとともに、口調を選択することはできない。たとえば、利用者が自身の声を登録することによって合成音声を自身の声とし、しかも、任意のテキストに対応する合成音声の口調を変更可能として、登録した口調とは異なる口調で合成音声を出力させることはできない。

本発明は上記事由に鑑みて為されたものであり、その目的は、所望の特定話者の声を有した合成音声を出力可能にし、かつ口調も選択可能にした音声合成装置を提供することにある。

請求項１の発明は、テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するＨＭＭパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからＨＭＭパラメータを探索し探索したＨＭＭパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の話者を指示する話者選択手段と、波形生成部に対して合成音声の口調を指示する口調選択手段と、特定話者の音声データを入力する音声入力手段と、音声入力手段から入力された音声を用いて音声波形データベースにあらかじめ格納された基準話者のＨＭＭパラメータの話者適応を行って特定話者のＨＭＭパラメータに変換する話者適応部とを有し、音声波形データベースは、基準話者の声質および口調の情報を有するＨＭＭパラメータがあらかじめ格納された基準話者データベースと、話者適応部で基準話者のＨＭＭパラメータから変換された特定話者のＨＭＭパラメータが格納される特定話者データベースとを有し、波形生成部は、話者選択手段により指示された話者のＨＭＭパラメータを、基準話者データベースと特定話者データベースとから選択するとともに、基準話者データベースと特定話者データベースとから選択したＨＭＭパラメータを用いて、口調選択手段により指示された口調を付与した音声波形を生成することを特徴とする。

請求項２の発明では、請求項１の発明において、前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、各基準話者データベースに格納されている基準話者のＨＭＭパラメータを同じ口調の特定話者のＨＭＭパラメータに変換して前記特定話者データベースに格納し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した特定話者データベースを選択することを特徴とする。

請求項３の発明では、請求項１の発明において、前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、いずれかの基準話者データベースに格納されているＨＭＭパラメータを同じ口調の特定話者のＨＭＭパラメータに変換して前記特定話者データベースに格納するとともに、各基準話者データベースに格納されている口調に関するＨＭＭパラメータの相対関係を用いることにより、前記特定話者データベースに格納されている口調に関するＨＭＭパラメータを補正した新たな特定話者データベースを生成し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した特定話者データベースを選択することを特徴とする。

請求項４の発明では、請求項１の発明において、前記口調選択手段が選択する口調のうちのいずれかの口調に対応するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記話者選択手段により基準話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記基準話者データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることにより指示された口調の合成音声を出力し、前記話者選択手段により特定話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記特定話者データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする。

請求項５の発明では、請求項１〜４のいずれかの発明において、前記基準話者データベースは、基準話者についての音素の時間継続長とピッチとスペクトル成分との３種類のＨＭＭパラメータが格納され、前記話者適応部は、基準話者データベースに格納されたスペクトル成分のＨＭＭパラメータについて特定話者への話者適応を行い、前記特定話者データベースは、基準話者データベースに格納された音素の時間継続長とピッチとの２種類のＨＭＭパラメータと、話者適応部での話者適応により変換された特定話者のスペクトル成分のＨＭＭパラメータとが格納されることを特徴とする。

請求項６の発明では、請求項１〜５のいずれかの発明において、情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記基準話者データベースと前記特定話者データベースと前記話者適応部とを備え、クライアントコンピュータは、前記テキスト入力手段と前記音声入力手段と前記話者選択手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする。

請求項１の発明の構成によれば、基準話者データベースのＨＭＭパラメータから話者適応により特定話者データベースのＨＭＭパラメータを生成するから、特定話者データベースのＨＭＭパラメータを用いることにより、所望の特定話者の声を有した合成音声を出力することができる。しかも、口調選択手段により口調を指示することで、基準話者データベースと１乃至複数の特定話者データベースとから話者選択手段の指示に基づいて選択されたＨＭＭパラメータを用いて口調を付与した音声波形を生成するから、所望の口調の合成音声を出力することが可能になる。すなわち、合成音声について、話者（基準話者、利用者など）と口調（読み上げ口調、明るい口調、優しい口調など）との両方が選択可能になる。

請求項２の発明の構成によれば、口調の情報が異なる複数個の基準話者データベースを設け、話者適応部において少なくとも１種類の基準話者データベースから特定話者のＨＭＭパラメータを生成して特定話者データベースに格納し、口調選択手段により所望の口調の情報を持つ基準話者データベースまたは特定話者データベースを選択するから、基準話者と特定話者とについて基準話者データベースの個数分の口調が選択可能になる。

請求項３の発明の構成によれば、異なる口調の複数の標準話者データベースを用いるとともに、いずれかの口調について話者適応を行った特定話者データベースを生成し、この特定話者データベースにおける口調に関するＨＭＭパラメータを、標準話者データベースでの口調に関するＨＭＭパラメータの相対関係によって補正することにより、特定話者に関する他の口調の特定話者データベースを生成するから、特定話者データベースの口調を決定する情報が多くなることにより、特定話者に関して精度のよい口調を付与した音声波形を生成することが可能になる。しかも、口調の異なる特定話者データベースを生成することで、波形生成部の処理負荷が軽減される。

請求項４の発明の構成によれば、口調に対応するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する他の口調の係数を口調韻律ルールとして格納した口調韻律ルールデータベースを設け、口調選択手段により口調を指示すると口調韻律ルールを選択して、基準話者データベースと特定話者データベースとのいずれかに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることで、所望の口調を付与した音声波形を生成するから、口調韻律ルールを登録するだけで、様々な口調を実現することができる。この場合、合成音声の全体について同様の口調になるから、いわば大域的な口調の制御が可能になる。

請求項５の発明の構成によれば、音素の時間継続長とピッチとのＨＭＭパラメータについては基準話者データベースのＨＭＭパラメータを特定話者データベースに格納し、スペクトル成分のＨＭＭパラメータについては基準話者データベースのＨＭＭパラメータに話者適応を行ったＨＭＭパラメータを特定話者データベースに格納するから、スペクトル成分のみに対する話者適応であるから処理負荷が軽減される。また、基準話者データベースに含まれる音素の時間継続長およびピッチをそのまま利用するから、口調の制御を局所的に行うことが可能になる。

請求項６の発明の構成によれば、サーバコンピュータにおいて音声合成および話者適応を行い、サーバコンピュータとは情報通信網を介して通信可能なクライアントコンピュータにおいてテキストの入力、話者および口調の選択、特定話者の音声入力を行うから、クライアントコンピュータを情報通信網に接続するだけで、場所を選ばずに合成音声を利用することが可能になる。また、処理負荷の大きい音声合成および話者適応の処理はサーバコンピュータで一括して行うから、クライアントコンピュータには大きなハードウェアリソースが不要になる。

本発明の共通構成、実施形態３を示すブロック図である。実施形態１を示すブロック図である。実施形態２、実施形態４を示すブロック図である。

（共通構成）
以下に説明する各実施形態では、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づく音声合成の技術を採用している。ＨＭＭのパラメータは、スペクトル、基本周波数、時間継続長の３種類のパラメータで表される。以下の説明において、「話者」は、アナウンサなどの基準話者のほか、利用者自身や利用者の家族などの特定の個人を意味し、主としてスペクトル成分により決まる声質に対応付けられる。すなわち、基準話者ではない話者は、利用者自身の声や利用者の家族の声などの特定の個人の声に対応付けられる。また、「口調」は、読み上げ口調、明るい口調、優しい口調などの口調であり、主としてピッチ、音素の時間継続長、パワー、話速のような韻律情報に対応付けられる。たとえば、明るい口調はピッチが高くなり、優しい口調は話速が遅くなる。

まず、以下の実施形態に共通する構成を図１に示す。図示する装置は、合成音声を生成する合成部１０と、特定の話者の声質や口調の特徴を抽出することにより合成音声を当該話者に適応させる適応部２０とを有している。

合成部１０は、入力されたテキストを音素列に変換するとともに各音素について前後の音素・アクセント型・品詞・音素継続長などのコンテキスト情報を抽出する言語解析部１１と、ＨＭＭパラメータが格納された音声波形データベース１３と、言語解析部１１から与えられる音素列およびコンテキスト情報を用いて、音声波形データベース１３に格納されたＨＭＭパラメータを接続することにより音声波形を生成する波形生成部１２とにより構成される。

言語解析部１１に入力されるテキストは漢字仮名混じりテキストであり、キーボードのようなテキスト入力手段３１を用いて利用者により入力される。もちろん、テキストは漢字仮名混じりテキストではなく、仮名テキストやローマ字テキストなどでもよいがコンテキスト情報を抽出するためには、漢字仮名混じりテキストが有効である。

以下に説明する実施形態においては、テキスト入力手段３１は、合成部１０および適応部２０を備えるコンピュータとは別のコンピュータに設けられており、両コンピュータの間で、インターネットやローカルエリアネットワークのような情報通信網ＮＴを介してデータ通信を行う場合を例示している。ただし、合成部１０および適応部２０とともにテキスト入力手段３１が１台のコンピュータに設けられた構成を採用することも可能である。

音声波形データベース１３には、基準話者の音声によるＨＭＭパラメータがあらかじめ格納された学習済みの基準話者データベース１４と、特定話者によるＨＭＭパラメータが格納される後学習用の特定話者データベース１５とが設けられる。

基準話者データベース１４には、１人の話者から得られたＨＭＭパラメータまたは複数人の話者から得られたＨＭＭパラメータの平均値が格納される。また、基準話者データベース１４と特定話者データベース１５とはそれぞれ１ないし複数設けられ、複数設ける場合には、それぞれ口調の異なるＨＭＭパラメータが格納される。

音声波形データベース１３のＨＭＭパラメータは、スペクトル成分、ピッチ、音素の時間継続長の３種類のＨＭＭパラメータからなる。すなわち、音声波形データベース１３に設けた基準話者データベース１４および特定話者データベース１５には、それぞれ基準話者と特定話者とについて、スペクトル、基本周波数、時間継続長の３種類のパラメータからなるＨＭＭパラメータが格納される。話者の声質は主としてスペクトル成分により決まり、口調は主として音素の時間継続長およびピッチ（基本周波数）により決まる。また、ＨＭＭパラメータは、それぞれコンテキスト情報に対応付けてクラスタリングがなされた状態で音声波形データベース１３に格納されている。

波形生成部１２は、音声波形データベース１３に設けた基準話者データベース１４に格納されたＨＭＭパラメータと特定話者データベース１５に格納されたＨＭＭパラメータとの少なくとも一方を用いて、指定された話者および口調の合成音声を生成する。

すなわち、波形生成部１２は、言語解析部１１から与えられたコンテキスト情報を音声波形データベース１３に照合し、該当するＨＭＭパラメータをそれぞれ探索する。また、探索したＨＭＭパラメータの値から、音素の時間継続長を探索して音素の長さを決定し、音素の長さに合わせてピッチおよびスペクトル成分の値を探索することで、ピッチ列とスペクトル列とを求め、ＨＭＭパラメータから合成音声の波形を生成する。波形成形部１２において、話者の選択は話者選択手段３２により指示され、口調の選択は口調選択手段３３により指示される。波形生成部１２で生成された合成音声（音声信号）は、スピーカを備えた音声再生手段３４から出力される。

図示例では、合成部１０および適応部２０を備えるコンピュータとは別のコンピュータに話者選択手段３２および口調選択手段３３を設け、また、音声再生手段３４も合成部１０および適応部２０とは別に設け、情報通信網ＮＴを介してデータ通信を行う場合を例示しているが、テキスト入力手段３１と同様に話者選択手段３２、口調選択手段３３、音声再生手段３４を合成部１０および適応部２０と同じコンピュータに設けてもよい。

適応部２０は、マイクロホンを備える音声入力手段３５から入力された特定の話者の音声を用いて、音声波形データベース１３の基準話者データベース１４に格納されているＨＭＭパラメータを特定の話者に対応するＭＨＨパラメータに変換する話者適応部２１を備える。

話者適応部２１では、音声入力手段３５から入力される特定の個人の音声を用いて話者適応を行う。話者適応部２１に入力される音声は、規定の複数個（４個程度でよいことが知られている）のテキスト（文章）を音読することによって得られる。話者適応には、たとえば最尤線形回帰法（ＭＬＬＲ＝ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎｏｆＬｉｎｅａｒＲｅｇｒｅｓｓｉｖｅｃｏｅｆｆｉｃｉｅｎｔｓ）を用いる。

話者適応部２１は、基準話者データベース１４に格納されているＨＭＭパラメータを、音声入力手段３５から得られる特定の話者の少量の音声データを用いて、基準話者データベース１４に格納されているＨＭＭパラメータから特定の話者に対応するＨＭＭパラメータに変換し、変換したＨＭＭパラメータを特定話者データベース１５に格納する。

基準話者データベース１４と特定話者データベース１５とにそれぞれＨＭＭパラメータが登録されていると、波形生成部１２では、基準話者データベース１４と特定話者データベース１５とに登録されている複数の話者の声質のいずれかを用いるとともに、基準話者データベース１３と特定話者データベース１５とに登録されている口調に基づいて口調を付与した音声波形を生成する。口調の制御（口調を付与した音声波形の生成）の技術については、各実施形態において説明する。

なお、上述したように、情報通信網ＮＴを用いる構成は必須ではないが、以下に説明する各実施形態では、合成部１０および適応部２０がサーバコンピュータ１に設けられ、テキスト入力手段３１、話者選択手段３２、口調選択手段３３、音声再生手段３４、音声入力手段３５がクライアントコンピュータ２に設けられ、サーバコンピュータ１とクライアントコンピュータ２が、インターネットのような情報通信網ＮＴを介して通信可能である構成として説明する。クライアントコンピュータ２に設けたテキスト入力手段３１、話者選択手段３２、口調選択手段３３は、クライアントコンピュータ２で実行されるウェブブラウザの表示画面において提供される。

すなわち、クライアントコンピュータ２からサーバコンピュータ１にアクセスし、合成音声を生成するサービスの享受を開始すると、ウェブブラウザの表示画面には、テキストを入力するフィールドが表示される。デフォルトでは基準話者が選択されており、テキストをフィールドに入力してサーバコンピュータ１に送信すると、サーバコンピュータ１の合成部１０において基準話者データベース１４に格納されているＨＭＭパラメータを用いて合成音声が生成される。サーバコンピュータ１で合成音声の生成が完了すると、クライアントコンピュータ２に通知されるから、クライアントコンピュータ２においてダウンロードを行うことが可能になる。なお、全文をダウンロードするのではなく、一部の試聴を行うことも可能である。

一方、特定話者の声による合成音声を生成する場合は、ウェブブラウザの画面上に表示されたオプションにより、話者の新規作成を選択する。クライアントコンピュータ２において話者の新規作成が選択されると、サーバコンピュータ１は適応部２０を起動し、基準話者データベース１４のＨＭＭパラメータから特定話者のＨＭＭパラメータを生成する学習モードに移行する。このとき、クライアントコンピュータ２では、学習用のウィザードが起動され、特定話者のＨＭＭパラメータを生成するのに必要な複数個のテキストがウェブブラウザの画面に提示される。

提示されたテキストを特定の話者が読み上げ、画面に表示された終了釦を押すと（ポインティングデバイスでクリックするかリターンキーを押すと）、音声入力手段３５から入力された音声がサーバコンピュータ１に送信され、上述のように特定話者に話者適応したＨＭＭパラメータが生成され、特定話者データベース１５に格納される。

また、ウェブブラウザの画面上には、話者を識別する情報を入力するフィールドが提示されるから、話者を識別する情報としては名前（たとえば、「太郎」）などを入力する。話者を識別する情報は、特定話者データベース１５において特定話者のＨＭＭパラメータに対応付けて登録される。したがって、以後は当該情報を入力することで、特定話者データベース１５に格納されたＨＭＭパラメータを用いることが可能になる。

すなわち、クライアントコンピュータ２において、話者選択手段３２で話者を選択し、口調選択手段３３で口調を選択すると、話者識別情報と口調識別情報がサーバコンピュータ１に送信され、サーバコンピュータ１の波形生成部１２では、話者識別情報と口調識別情報とに基づいて、基準話者データベース１４と特定話者データベース１５とのいずれかを選択する。このように、基準話者が選択されたときには基準話者データベース１４を選択し、登録済みの特定話者が選択されたときには特定話者データベース１５を選択する。

ここで、特定話者が未登録である場合、あるいは新規の話者を登録する選択がなされた場合には、クライアントコンピュータ２の画面に上述した学習用のウィザードを表示させる。このウィザードによって特定話者のＨＭＭパラメータを生成することができるから、上述したように、話者適応部２１において、基準話者データベース１４に格納されたＨＭＭパラメータを用いて話者適応を行い、特定話者データベース１５に格納するＨＭＭパラメータを生成する。

また、サーバコンピュータ１の波形生成部１２では、口調選択手段３３で選択された口調に応じて以下の実施形態において説明する技術を適用し、口調選択手段３３により選択された口調の合成音声を生成する。

（実施形態１）
本実施形態は、図２に示すように、音声波形データベース１３に、２個の基準話者データベース１４ａ，１４ｂを設けている。各基準話者データベース１４ａ，１４ｂには、基準話者（単独話者あるいは複数話者の平均）について口調の異なるＨＭＭパラメータが格納される。ここでは、一方の基準話者データベース１４ａには、テキストを読み上げ口調で読んだときの音声データにより生成したＨＭＭパラメータを格納し、他方の基準話者データベース１４ｂには、テキストを明るい口調で読んだときの音声データにより生成したＨＭＭパラメータを格納しているものとする。

上述したように、話者の声質は、主としてスペクトル成分によって決まるから、話者に関しては、上述した最尤線形回帰法の技術により、音声入力手段３５から入力された特定話者の音声に基づいて基準話者データベース１４に登録された基準話者のＨＭＭパラメータから特定話者のＨＭＭパラメータに変換することが可能である。すなわち、同じ口調で話者のみが変化するようにＨＭＭパラメータを変換することが可能である。

本実施形態では、一例として、話者適応部２１において、読み上げ口調の基準話者データベース１４ａのＨＭＭパラメータに基づき、特定話者について読み上げ口調のＨＭＭパラメータを生成して特定話者データベース１５に格納している。話者適応部２１において、明るい口調の基準話者データベース１４ｂのＨＭＭパラメータを用いれば、特定話者について明るい口調のＨＭＭパラメータを生成することも可能である。

このように、特定話者データベース１５を基準話者データベース１４ａ，１４ｂと同じ口調で生成すれば、話者適応部２１での話者適応のみを行えばよく、また波形生成部１２では選択された口調に適合するＨＭＭパラメータを選択するだけでよいから、波形生成部１２成績部１２における処理負荷が少なく実時間での応答が可能になる。

特定話者について明るい口調のＨＭＭパラメータを生成する技術としては、あらかじめ読み上げ口調の特定話者データベース１５を生成しておき、読み上げ口調の基準話者データベース１４ａと明るい口調の基準話者データベース１４ｂとに格納した音素の時間継続長およびピッチのＨＭＭパラメータの相対関係（相対差あるいは相対比）を用いて、読み上げ口調の特定話者データベース１５に格納した音素の時間継続長およびピッチのＨＭＭパラメータを補正する方法も採用可能である。

上述のように明るい口調の標準話者データベース１４ｂのみを用いて明るい口調の特定話者データベース１５を生成する場合に比較すると、補正演算を行う技術のほうが多くの情報を用いて生成することで、より精度の高い合成音声を得ることが可能になる。

補正演算によって口調を表現する技術では、話者適応部２１での話者適応と同時に明るい口調の特定話者データベース１５を生成する場合と、合成音声を生成するたびに波形生成部１２において補正の演算を行う場合とがある。前者の場合、明るい口調の特定話者データベースをあらかじめ作成しておくから波形生成部１２の処理負荷が小さくなり、後者の場合、波形生成部１２の処理負荷は大きくなるが、音声波形データベース１３の記憶容量を小さくすることができる。

なお、２種類の口調の基準話者データベース１４ａ，１４ｂとして利用しやすい読み上げ口調と明るい口調とを例示したが、他の口調の組み合わせであってもよいのはもちろんのことである。また、３種類以上の口調について基準話者データベースを設けることが可能ではあるが、ＨＭＭパラメータの学習に膨大な時間を要するから現実的ではなく、２種類の口調の基準話者データベースを用いるだけでも十分に実用に供するものである。他の構成および動作は共通構成と同様である。

（実施形態２）
実施形態１では、口調の異なる２種類の基準話者データベース１４ａ，１４ｂを用いる例を示したが、本実施形態では、１種類の口調（読み上げ口調が望ましい）の基準話者データベース１４のみを用いている。この構成では、特定話者データベース１５に格納されるＨＭＭパラメータで表される口調は、基準話者データベース１４のＨＭＭパラメータで表される口調と同じである。すなわち、実施形態１の話者適応部２１では、基準話者データベース１４に格納されたＨＭＭパラメータを用いて、同じ口調かつ特定話者の声質を有するＨＭＭパラメータを生成して特定話者データベース１５に格納している。

一方、口調を決める要素には、音素の時間継続長およびピッチだけでなく、話速やパワーもある。これらの要素は韻律情報に含まれている。以下では、口調を決める韻律情報を口調韻律ルールと呼ぶ。口調韻律ルールは、読み上げ口調のピッチ、話速、パワーを表すパラメータに対して、表１に示す係数で表すことができる。口調韻律ルールは、基準話者の複数の口調（たとえば、読み上げ口調、明るい口調、優しい口調など）から求めたＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値を比較することにより作成される。

表１からわかるように、明るい口調では読み上げ口調よりもピッチが高くなり、優しい口調では読み上げ口調よりも話速が遅くなる。

したがって、口調選択部３３により指示される口調に対応する口調韻律ルールを規定しておくことで、波形生成部１２では、特定話者データベース１５に格納されている特定話者の読み上げ口調でのＨＭＭパラメータから任意の口調の合成音声を生成することが可能になる。表１では、ピッチ、話速、パワーについて、ダイナミクスを含めて記載してあり、このダイナミクスの値が大きくなるほど抑揚が大きくなる。

口調韻律ルールは、図３に示すように、波形成形部１３に付設した口調韻律ルールデータベース１６に登録されている。口調韻律ルールデータベース１６では、上述した係数が口調に対応付けて格納されており、口調選択部３３において口調を選択すると、口調韻律ルールである係数の組み合わせが選択される。

波形成形部１３では、話者選択部３２で選択された話者に応じて、基準話者データベース１４または特定話者データベース１５に登録されたＨＭＭパラメータを採用するとともに、口調選択手段３３で選択された口調に対応する口調韻律ルールを口調韻律ルールデータベース１６から抽出し、ＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に口調韻律ルールを適用することによって、所望の話者について所望の口調の合成音声を出力する。

本実施形態の構成では、口調韻律ルールによって、口調を表すＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値の全体に係数を乗じるから、いわば大域的に合成音声を制御していることになる。たとえば、合成音声のピッチを一律に２倍にしたり、話速を一律に２倍にしたりすることにより口調を制御することになる。

上述したように、本実施形態の構成では、基準話者の複数の口調について、それぞれＨＭＭパラメータを登録した基準話者データベースを設ける必要がなく、実施形態１の構成に比較して基準話者データベース１４に格納するデータ量を低減することができる。他の構成および動作は共通構成と同様である。

なお、実施形態１のように複数個（図示例では２個）の基準話者データベース１４ａ，１４ｂを用いる場合に、所要の口調（読み上げ口調が望ましい）の基準話者データベース１４ａのみを基準話者の実音声を用いて作成し、他の口調の基準話者データベース１４ｂは口調韻律ルールを適用して生成することが可能である。この場合、複数個の基準話者データベース１４ａ，１４ｂを基準話者の実音声で作成する場合よりも、基準話者の負担を軽減することができる。

（実施形態３）
実施形態２の構成では、口調韻律ルールデータベース１６を設けることによって、合成音声の口調を口調韻律ルールに従って制御するから、少ない情報量で口調を制御することができるという利点を有する反面、合成音声の全体に亘って口調韻律ルールを適用するから口調を大域的にしか制御することができない。たとえば、明るい口調では、語尾のピッチが上げる傾向を有しているという知見があるが、実施形態２のように係数を乗じる構成では、語尾のみのピッチを上げるという局所的な制御はできない。

ところで、話者適応の技術では、上述した３種類のＨＭＭパラメータ（スペクトル成分、ピッチ、音素の時間継続長）のすべてについて話者適応を行うのが一般的である。これに対して、本実施形態では、話者については、声質を決めるスペクトル成分に関する１種類のＨＭＭパラメータのみについて話者適応を行うことで、任意の話者の声質での合成音声の出力を可能にしている。また、口調については、音素の時間継続長とピッチとの２種類のＨＭＭパラメータを用いることにより、任意の口調での合成音声の出力を可能にしている。

本実施形態では、図１に示すように、１個の基準話者データベース１４を設け、話者適応部２１では、基準話者データベース１４におけるスペクトル成分に関するＨＭＭパラメータを、音声入力手段３５から入力された特定話者の音声データに基づいて、特定話者の声質に対応するスペクトル成分を有したＨＭＭパラメータを生成する。また、音素の時間継続長およびピッチに関するＨＭＭパラメータは、基準話者のＨＭＭパラメータをそのまま用いる。

すなわち、音声入力手段３５から入力された特定話者の音声データのうち声質にのみ着目して基準話者データベース１４に格納されたスペクトル成分のＨＭＭパラメータを特定話者に話者適合するように変換するとともに、基準話者データベース１４に格納された音素の時間継続長およびピッチのＨＭＭパラメータを変更せずに特定話者のＨＭＭパラメータとして用い、特定話者データベース１５に格納する。

この場合、音声入力手段３５から入力される特定話者の音声の口調にかかわらず、合成音声の口調は基準話者の口調が反映されるから、基準話者データベース１４には合成音声として出力しようとする口調に対応した音素の時間継続長およびピッチを有するＨＭＭパラメータを登録しておく必要がある。

本実施形態の構成では、基準話者データベース１４に格納された音素の時間継続長およびピッチのＨＭＭパラメータが、そのまま特定話者データベース１５に登録されるから、たとえば、特定話者の声質を有し、かつ明るい口調の合成音声を音声出力手段３４から出力しようとすれば、特定話者データベース１５に登録する音素の時間継続長およびピッチのＨＭＭパラメータが明るい口調に対応したものでなければならない。つまり、基準話者データベース１４に格納するＨＭＭパラメータを作成する際に明るい口調で作成することが必要である。

一方、音声入力手段３５から入力する特定話者の音声は、声質のみが重要であり、口調についてはとくに指定する必要がない。ただし、経験的に、読み上げ口調が自然に発声しやすいとされているから、特定話者は、読み上げ口調で音声入力手段３５から音声を入力すればよい。

本実施形態の構成を採用することで、特定話者がどのような口調で音声を入力するかにかかわらず、基準話者データベース１４に格納されたＨＭＭパラメータにより規定された口調での合成音声を出力することが可能になるから、実施形態２の構成のように、口調韻律ルールデータベース１６を用いる必要がなく、それだけ構成が簡単になる。

また、基準話者データベース１４に格納した音素の時間継続長およびピッチのＨＭＭパラメータに対応する口調の合成音声が得られるから、基準話者の口調の局所的な特徴を合成音声に反映させることができる。他の構成および動作は共通構成と同様である。

（実施形態４）
本実施形態は、図３に示すように、図１に示した実施形態３の構成について、実施形態２と同様に、口調韻律ルールデータベース１６を付加したものである。実施形態３の構成では、基準話者と特定話者との声質の相違にスペクトル成分のみの変更で対応しているから、基準話者が女性であって特定話者が男性である場合のように、基準話者と特定話者との声の音響特徴の差が大きい場合には、特定話者データベース１５において、特定話者の男性よりもピッチの高いＨＭＭパラメータが格納される可能性がある。この場合、基準話者データベース１４が明るい口調に対応しており読み上げ口調よりもピッチが高いとすると、特定話者データベース１５に格納されるＨＭＭパラメータで表される声が極端に高くなる可能性がある。

本実施形態では、基準話者と特定話者との声質が大きく異なる場合に備えて口調韻律ルールを設定した口調韻律ルールデータベース１６を設けている。口調韻律ルールデータベース１６は、実施形態２と同様に、ピッチ、話速、パワーおよびそれらのダイナミクスに関する係数を格納しており、波形成形部１３では、口調選択手段３３により指示された口調に応じて口調韻律ルールデータベース１６から選択した係数をＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に適用する。

また、本実施形態の口調韻律ルールデータベース１６では、各ＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する制限範囲が規定されており、たとえば、ピッチが高くすぎたり低すぎたりすることのないように、適正なピッチの範囲が規定されている。

したがって、基準話者が女性であり特定話者が男性であるような場合に、明るい口調が選択されたとしても、ピッチが高くなりすぎないように、ピッチを補正して制限することができ、特定話者の口調や性別に依存することなく、所望の声質かつ口調の合成音声を生成することが可能になる。なお、他の実施形態と同様に、音声入力手段３５から特定話者が入力する音声は、読み上げ口調とするのが望ましい。他の構成および動作は共通構成と同様である。

１サーバコンピュータ
２クライアントコンピュータ
１０合成部
１１言語解析部
１２波形生成部
１３音声波形データベース
１４基準話者データベース
１４ａ，１４ｂ基準話者データベース
１５特定話者データベース
１６口調韻律ルールデータベース
２０適応部
２１話者適応部
３１テキスト入力手段
３２話者選択手段
３３口調選択手段
３４音声出力手段
３５音声入力手段
ＮＴ情報通信網

Claims

テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するＨＭＭパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからＨＭＭパラメータを探索し探索したＨＭＭパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の話者を指示する話者選択手段と、波形生成部に対して合成音声の口調を指示する口調選択手段と、特定話者の音声データを入力する音声入力手段と、音声入力手段から入力された音声を用いて音声波形データベースにあらかじめ格納された基準話者のＨＭＭパラメータの話者適応を行って特定話者のＨＭＭパラメータに変換する話者適応部とを有し、音声波形データベースは、基準話者の声質および口調の情報を有するＨＭＭパラメータがあらかじめ格納された基準話者データベースと、話者適応部で基準話者のＨＭＭパラメータから変換された特定話者のＨＭＭパラメータが格納される特定話者データベースとを有し、波形生成部は、話者選択手段により指示された話者のＨＭＭパラメータを、基準話者データベースと特定話者データベースとから選択するとともに、基準話者データベースと特定話者データベースとから選択したＨＭＭパラメータを用いて、口調選択手段により指示された口調を付与した音声波形を生成することを特徴とする音声合成装置。
前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、各基準話者データベースに格納されている基準話者のＨＭＭパラメータを同じ口調の特定話者のＨＭＭパラメータに変換して前記特定話者データベースに格納し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した特定話者データベースを選択することを特徴とする請求項１記載の音声合成装置。
前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、いずれかの基準話者データベースに格納されているＨＭＭパラメータを同じ口調の特定話者のＨＭＭパラメータに変換して前記特定話者データベースに格納するとともに、各基準話者データベースに格納されている口調に関するＨＭＭパラメータの相対関係を用いることにより、前記特定話者データベースに格納されている口調に関するＨＭＭパラメータを補正した新たな特定話者データベースを生成し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のＨＭＭパラメータを格納した特定話者データベースを選択することを特徴とする請求項１記載の音声合成装置。
前記口調選択手段が選択する口調のうちのいずれかの口調に対応するＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記話者選択手段により基準話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記基準話者データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることにより指示された口調の合成音声を出力し、前記話者選択手段により特定話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記特定話者データベースに含まれる口調のＨＭＭパラメータまたはＨＭＭパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも１つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする請求項１記載の音声合成装置。
前記基準話者データベースは、基準話者についての音素の時間継続長とピッチとスペクトル成分との３種類のＨＭＭパラメータが格納され、前記話者適応部は、基準話者データベースに格納されたスペクトル成分のＨＭＭパラメータについて特定話者への話者適応を行い、前記特定話者データベースは、基準話者データベースに格納された音素の時間継続長とピッチとの２種類のＨＭＭパラメータと、話者適応部での話者適応により変換された特定話者のスペクトル成分のＨＭＭパラメータとが格納されることを特徴とする請求項１〜４のいずれか１項に記載の音声合成装置。
情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記基準話者データベースと前記特定話者データベースと前記話者適応部とを備え、クライアントコンピュータは、前記テキスト入力手段と前記音声入力手段と前記話者選択手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする請求項１〜５のいずれか１項に記載の音声合成装置。