JP4584511B2

JP4584511B2 - 規則音声合成装置

Info

Publication number: JP4584511B2
Application number: JP2001273235A
Authority: JP
Inventors: 幸雄田部井
Original assignee: Oki Semiconductor Co Ltd
Current assignee: Lapis Semiconductor Co Ltd
Priority date: 2001-09-10
Filing date: 2001-09-10
Publication date: 2010-11-24
Anticipated expiration: 2021-09-10
Also published as: JP2003084787A

Description

【０００１】
【発明の属する技術分野】
本発明は規則音声合成装置に関し、例えば、任意の語彙を音声合成する場合などに用いて好適なものである。
【０００２】
【従来の技術】
従来、テキスト文章を音声にして出力するテキスト音声変換は、テキスト解析部と規則音声合成部（パラメータ生成部と音声合成部）から構成される。
【０００３】
テキスト解析部では、漢字かな混じり文（日本語テキスト）を入力して、単語辞書を参照して当該テキストに対し形態素解析を行い（必要なら構文解析、意味解析等も行って）、各形態素の読み、およびその読みに関する韻律（すなわち、アクセント、イントネーション等）を示す韻律記号を決定し、韻律記号付き発音記号（中間言語）を出力する。
【０００４】
この韻律記号付き発音記号から音声を合成するのが、規則音声合成部であり、パラメータ生成部と音声合成部から構成される。
【０００５】
パラメータ生成部では、韻律に関するピッチ周波数パターンや音韻継続時間長、ポーズ、振幅等の設定を行う。
【０００６】
音声合成部では、目的とする音韻系列（中間言語）中にあらわれる音声合成単位を、あらかじめ蓄積されている音声データから選択し、パラメータ生成部で決定したパラメータに従って、結合／変形して音声の合成処理を行う。
【０００７】
音声合成の単位である音声合成単位としては、音素、音節（ＣＶ）、ＶＣＶ，ＣＶＣ（Ｃ：子音、Ｖ：母音）が使用可能である。
【０００８】
このうち音素は、たかだか５０種類程度しか存在しないため、取り扱う音響データの種類が少ない点で有利であるが、調音結合に対する規則化が不可欠であり、またその規則化が困難でもある。そのため、音質は悪く、音素は合成単位としては現在ではほとんど用いられていない。
【０００９】
これに対し、複数の音素を包含する音節を音声合成単位とした場合には、音素間の調音結合特性も１音節単位のなかに含まれるために調音結合に関する規則を生成する必要はない。特に、ＶＣＶ形音節は母音で子音をはさむため、子音の明瞭度が高い。また、ＣＶＣ形音節は振幅の小さい子音で接続するため接続歪みは小さい。さらに最近では、合成単位として音韻連鎖を拡張した単位も一部用いられている。
【００１０】
音声合成単位中の音声データとしては、原音声波形をそのまま利用して、これに基づいて品質劣化の少ない高品質の合成音を得る手法が用いられるようになって来ている。
【００１１】
一方、上述した従来のテキスト音声変換によって、より自然性の高い合成音声を出力するためには、音声合成単位の種類、素片品質、合成方式と共に、前記パラメータ生成部でのパラメータ（ピッチ周波数パターン、音韻継続時間長、ポーズ、振幅）をいかに自然音声に近くなるよう適切に制御するかがきわめて重要となる。
【００１２】
それらのパラメータの中で、特に、ポーズ長は、いわゆる間（ま）に相当し、長すぎると止まっているような感じで、短すぎると聞いていてせわしなく疲れてしまう。ポーズ長を制御する方法としては、従来、次の文献１に記載された方法がある。
【００１３】
文献１：特開平６−５９６９５公報
当該文献１に記載された技術では、主に局所的な係り受け関係を用いて、１モーラ長と３モーラ長の２種類のポーズを設定する。
【００１４】
この方法では、まず、ポーズの種類を分類し、次の式（１）にしたがってポーズ長を推定する。
【００１５】
【数１】

例えば、３モーラ長処理の場合には、この式（１）のポーズグループの平均ポーズ長を３モーラとする。
【００１６】
【発明が解決しようとする課題】
ところがこの方法では、前記式（１）にしたがってポーズ長を推定するとき、特定個人の発声する自然音声に応じたデータを用いることがあり得るが、その場合には、前記推定ポーズ長に当該個人の自然音声の癖が出て、それを変更できず、柔軟性に欠ける。
【００１７】
また、複数人の発声する自然音声に応じたデータを用いて推定する場合、複数人の発声速度がそれぞれ異なるのでポーズ長も異なり、複数人のデータをまとめて扱うと不適切であり、自然な合成音声を得られない可能性が高まる。
【００１８】
さらに、これらのいずれのケースでも、合成音声を生成しようとするユーザが好みの長さのポーズ長を選択できないことも、合成音声生成の自由度や、柔軟性の点で問題である。
【００１９】
かかる問題点に鑑み、本発明は、自由度が高く、柔軟性に富み、自然な合成音声を生成することができる規則音声合成装置を提供することを目的とする。
【００２０】
【課題を解決するための手段】
かかる課題を解決するために、本発明では、統計モデルを利用し、少なくともポーズ長に関する制御規則を含む韻律規則を用いて音声を合成する規則音声合成装置において、（１）所定の学習用基礎音声データをもとに、前記ポーズ長に関する所定の統計量を算出する統計量算出手段と、（２）当該統計量を用いて前記学習用基礎データを正規化して正規化量を算出する学習用正規化手段と、（３）当該正規化量に応じて前記ポーズ長を学習して学習結果量を算出するポーズ長学習手段と、（４）供給される音韻記号に由来する第１の入力量と当該学習結果量をもとに予測ポーズ長を算出する統計モデル予測手段と、（５）前記統計量に由来する第２の入力量を用いて逆正規化することにより、当該予測ポーズ長を変更する逆正規化手段とを備えたことを特徴とする。
【００２１】
【発明の実施の形態】
（Ａ）実施形態
以下、本発明にかかる規則音声合成装置を、入力された文音声（テキスト音声）に応じた合成音声を出力するテキスト音声変換装置に適用した場合を例に、第１〜第４の実施形態について説明する。
【００２２】
（Ａ−１）第１の実施形態の構成
本実施形態のテキスト音声変換装置の全体構成例を図２に示す。当該テキスト音声変換装置は、全体として、一種の音声合成装置を構成している。
【００２３】
図２において、当該テキスト音声変換装置は、テキスト解析部１０１と、単語辞書１０２と、パラメータ生成部１０３と、音声合成部１０４と、素片辞書１０５と、素片作成部１０６とを備えている。
【００２４】
このうちテキスト解析部１０１は、漢字かな混じり文Ｓ１１を入力し、単語辞書１０２を参照して当該文Ｓ１１の形態素解析を行い、（必要なら構文解析、意味解析等も行って）この解析により得られた形態素の読み、アクセント、およびイントネーションを決定し、韻律記号付き発音記号（中間言語）Ｓ１２を出力する部分である。
【００２５】
当該中間言語Ｓ１２を受け取るパラメータ生成部１０３は、中間言語Ｓ１２自身に基づいて使用すべき素片辞書１０５内の素片アドレスを選択し、また、ピッチ周波数パターンや音韻継続時間長、ポーズ長、振幅等の設定を行う。このうち当該ポーズ長の設定に寄与する部分が、後述するポーズ長算出部１０３Ａである。
【００２６】
素片辞書１０５は、音素や音節よりも細かい１ピッチ周期単位の波形（音声素片）を格納している辞書である。当該素片辞書１０５に格納される素片は、音声データＳ１９をもとに素片作成部１０６が予め作成し、当該素片辞書１０５に格納しておくものである。本実施形態のテキスト音声変換装置によって合成される合成音声は、当該素片辞書１０５が各素片アドレスで指定される記憶領域に格納している素片をもとにして合成される。
【００２７】
パラメータ生成部１０３では、韻律に関するピッチ周波数パターンや音韻継続時間長、ポーズ、振幅等の設定を行い、音声合成部１０４では、目的とする音韻系列（中間言語）中にあらわれる音声合成単位を、あらかじめ蓄積されている音声データから選択し、パラメータ生成部１０３で決定したパラメータに従って、結合／変形して音声の合成処理を行う。当該パラメータ生成部１０３は、音声合成部１０４とともに、規則音声合成部を構成する。
【００２８】
なお、本実施形態は、上述した音声合成単位に関しては、原音声波形（ここでは、音声素片）をそのまま利用するケースに近いので、規則音声合成方式でありながら、編集合成方式に近い一面を有している。これによって品質劣化の少ない高品質の合成音を得ることが可能となる。
【００２９】
また、本実施形態においても従来同様、より自然性の高い合成音声を出力するためには、音声合成単位の種類、素片品質、合成方式と共に、前記パラメータ生成部１０３でのパラメータ（ピッチ周波数パターン、音韻継続時間長、ポーズ、振幅）をいかに自然音声に近くなるよう適切に制御するかが極めて重要となる。
【００３０】
これらのパラメータの中でも、本実施形態が主として取り扱うポーズ長は、いわゆる間（ま）に相当し、長すぎると止まっているような感じで、短すぎると聞いていてせわしなく疲れてしまうため、人間にとって快適で、自然な合成音声を得るために特に重要なパラメータである。
【００３１】
前記音声合成部１０４が音声合成に用いる方法としては、従来の種々の方法が適用できるが、例えば、波形重畳法を用いることも好ましい。
【００３２】
波形重畳法は、特開平１０−２５４４９５号公報に記載されたように、ピッチマークを中心とする窓を掛けて音声素片を作成しておき、パラメータ生成部１０３が生成するピッチ周期間隔でピッチマークをずらしながら重畳して行くものである。ピッチマークとしては例えば個々の音声素片の最初の極大値を用いることができる。
【００３３】
前記パラメータ生成部１０３で決定した音韻の継続時間長は、日本語の等モーラ規則（自然音声中のモーラ長がほぼ等しい性質で、英語などにはみられない特質）に基づき、主に母音部の伸縮によって音韻継続時間長を調整する。すなわち、決定した音韻継続時間が素片より長い場合は、最後尾の素片を繰り返し使用し（伸長）、反対に短い場合は、途中で打ち切る（圧縮）処理を行なう。
【００３４】
パラメータ生成部１０３で決定したポーズ長は、音声合成部１０４が出力する合成音声Ｓ１４の有音区間のあいだに当該ポーズ長の長さの無音区間を挿入することによって、合成音声Ｓ１４に反映される。
【００３５】
次に、図１を参照しながら、本実施形態に特徴的な前記パラメータ生成部１０３の主要部であるポーズ長算出部１０３Ａの構成例について説明する。パラメータ生成部１０３以外のテキスト音声変換装置の構成要素、すなわち、前記テキスト解析部１０１、単語辞書１０２、音声合成部１０４、素片辞書１０５、素片作成部１０７は、従来のものを利用することが可能である。
【００３６】
また図１には、ポーズ長を出力するために必要なポーズ長算出部１０３Ａだけを図示しているが、パラメータ生成部１０３内に、ピッチ周波数パターン、音韻継続時間長、振幅など、ポーズ長以外のパラメータを生成する構成要素も存在することは当然である。パラメータ生成部１０３内部のポーズ長算出部１０３Ａ以外の構成要素（図示せず）は、従来のものをそのまま使用することが可能である。
【００３７】
（Ａ−１−１）ポーズ長算出部（パラメータ生成部）の構成例
図１において、当該ポーズ長算出部１０３Ａは、ポーズ記号同定部２０１と、要因抽出部２０２と、ポーズ長予測部２０３と、逆正規化部２０４と、学習データ蓄積部２０５と、要因抽出部２０６と、正規化部２０７と、ポーズ統計量算出部２０８と、ポーズ長学習部２０９と、統計量選択部２１０とを備えている。
【００３８】
このうち学習データ蓄積部２０５は、複数の話者が発声した自然音声に関する音韻記号のうちポーズ記号のラベリングされた音声データを学習データとして蓄積しておく部分である。この学習データの蓄積は、前記合成音声Ｓ１４の生成に先立って実行される。当該学習データ蓄積部２０５内に蓄積される学習データは、全部でＭ人分のデータである。各話者の学習データは、当該話者が発声した自然音性から得られたポーズ長を示すデータで、一人分の学習データは、Ｌ_ｍ個の要素データから構成されている。
【００３９】
したがって、各話者を一意に指定する話者番号をｍ（ｍ＝１，２，…，Ｍ）とし、各要素データを識別する要素番号をｌ（ｌ＝１，２，…，Ｌ_ｍ）とすると、当該学習データは一般に、ｇ（ｍ，ｌ）の形で記述することができる。
【００４０】
当該学習データ蓄積部２０５から当該学習データｇ（ｍ，ｌ）を受け取るポーズ統計量算出部２０８は、話者毎にポーズ長の統計量（平均、標準偏差）を算出する部分で、算出した統計量は正規化部２０７と、統計量選択部２１０に供給する。当該平均と標準偏差は、前記話者番号ごとに算出されるので、話者番号がｍの場合、前記各要素データが示すポーズ長の平均はμ_ｍと書くことができ、標準偏差はσ_ｍと書くことができる。
【００４１】
前記学習データ蓄積部２０５から各学習データｇ（ｍ，ｌ）を受け取ると共にとポーズ統計量算出部２０８から当該統計量を受け取る正規化部２０７は、これらをもとに次の式（２）で示される演算を実行して、ｇ（ｍ，ｌ）の正規化を行う部分である。学習データｇ（ｍ，ｌ）は当該正規化によって正規化学習データｎ（ｍ，ｌ）に変換される。学習データｇ（ｍ，ｌ）はポーズ長を示すから、当該正規化学習データｎ（ｍ，ｌ）は、正規化されたポーズ長を示すものである。
【００４２】
【数２】

同様に、前記学習データ蓄積部２０５から学習データｇ（ｍ，ｌ）を受け取る要因抽出部２０６は、学習（すなわち、ポーズ長学習部２０９が行う演算）を介してポーズ長を制御するための要因を抽出する部分である。学習を介してポーズ長を制御するため、当該要因の抽出は、少なくとも学習よりも先に実行しておく必要がある。一例としては、正規化部２０７が行う正規化と同時並列的に実行してもよい。
【００４３】
抽出する要因の具体例としては、ポーズ前後の呼気段落（一息で発声される音声区間）の長さ（すなわちモーラ数）や、係り受け関係（係り受けの距離）などを用いることができる。なお、係り受けの距離とは、あるアクセント句（ひとまとまりの音調区間）と当該アクセント句との間に意味上の係り受けの関係を持つ他のアクセント句との距離を示す量である。
【００４４】
前記正規化部２０７から前記正規化学習データｎ（ｍ，ｌ）を受け取り、当該要因抽出部２０６から要因を受け取るポーズ長学習部２０９は、所定の演算を実行することによりポーズ長に関する学習を実行する部分で、最終的には当該学習により後述する重み係数ｘ（ｊｋ）を出力する。当該学習に対応する演算としては、統計モデルを用いた様々な演算を使用可能であるが、ここでは数量化Ｉ類モデルを用いるものとする。
【００４５】
数量化Ｉ類モデルは、公知のように、多変量解析の１つであり、かつ質的な要因に基づいて目的となる外的基準（ここでは、ポーズ長）を算出するもので、以下の式（３）〜（５）で定式化される。
【００４６】
【数３】

【数４】

【数５】

ｉ番目のデータの要因アイテムをｊ、その属するカテゴリをｋ、そのカテゴリ数量（カテゴリに付与する係数）をｘ（ｊｋ）とするとき、ポーズ長の予測値ｙ（ｉ）は、前記式（３）で与えられる。また、前記式（４）は当該式（３）中のδ（ｊｋ）を示し、データｉがｊアイテムのｋカテゴリに反応した時は１、それ以外の時は０を取る。
【００４７】
式（３）中のｘ（ｊｋ）は、最小２乗法で求められる。すなわち、式（５）に示すように、ポーズ長の予測値ｙ（ｉ）と実測値Ｙ（ｉ）の２乗誤差が最小になるようにして求められる。本実施形態の場合、当該実測値Ｙ（ｉ）としては、正規化部２０７から供給される前記正規化学習データｎ（ｍ，ｌ）を用いる。
【００４８】
式（５）の２乗誤差を最小にするｘ（ｊｋ）を求めるには、式（５）をｘ（ｊｋ）で偏微分して方程式を解く必要があり、コンピュータによる実際の計算としては、連立方程式を解く数値解析問題に帰着できる。このようにしてポーズ長学習部２０９が算出した重み係数ｘ（ｊｋ）は、ポーズ長予測部２０３に供給される。
【００４９】
一方、統計量選択部２１０は、前記ポーズ統計量算出部２０８から統計量を受け取る点では前記正規化部２０７と同じであるが、受け取る統計量は必ずしも正規株２０７と同じである必要はない。すなわち、前記ポーズ統計量算出部２０８が前記正規化部２０７に供給した統計量の基礎となった学習データの話者番号と、統計量選択部２１０に供給する統計量の基礎となる学習データの話者番号は同じであってもよく、相違してもよい。
【００５０】
ただし本実施形態の利点は、これらを相違させたときに顕在化する。
【００５１】
いずれにしても統計量選択部２１０は何らかの方法で話者番号に対する選択操作を行う必要がある。当該選択操作は、ポーズ統計量算出部２０８から複数の話者番号に関する統計量を予め取得して、取得した複数話者分の統計量のなかから特定の統計量を選択する操作であってもよく、あるいは、選択する話者番号をポーズ統計量算出部２０８に伝えて当該話者番号に対応する統計量だけを取得する操作であってもよい。
【００５２】
統計量選択部２１０が取得し選択した統計量は、前記逆正規化部２０４に供給される。統計量選択部２１０が選択した話者番号を例えば、ｍ０とすると、ポーズ長の平均μ_ｍ０と、標準偏差σ_ｍ０が当該逆正規化部２０４に供給されることになる。
【００５３】
学習データには話者番号ごとに、自然音声発声（ここではポーズ長）に関する話者の個性（癖）が反映されているため、どの話者番号の学習データを用いるかによって、ポーズ長の特徴が変化し、合成音声Ｓ１４が変質することになるが、正規化部２０７に供給された学習データの話者番号（ｍ）と統計選択部２１０が選択した話者番号（ｍ０）が相違する場合には、異なる二人の話者の個性が合成音声Ｓ１４に反映されることになる。この場合、一般的には、正規化部２０７に供給され正規化を施された学習データの話者（話者番号ｍの話者）の個性よりも、統計選択部２１０が選択し正規化を施されていない話者（話者番号ｍ０の話者）の個性のほうが支配的となるのが普通である。
【００５４】
次に、当該逆正規化部２０４やポーズ長予測部２０３を含む、構成要素２０１〜２０４の第１の系統について説明する。上述したポーズ長学習部２０９，統計量選択部２１０などを含む構成要素２０５〜２１０の第２の系統が、合成音声Ｓ１４の主として個性（特徴）に関する制御を行うのに対し、この第１の系統は、当該合成音声Ｓ１４の主として無個性的で最大公約数的な部分を制御する。
【００５５】
第１の系統の構成要素のうちポーズ記号同定部２０１は、前記テキスト解析部１０１が出力する中間言語Ｓ２１に含まれる多種類の音韻記号列のなかからポーズ記号を同定することで、ポーズの入る位置を同定する部分である。中間言語Ｓ２１は同定されたポーズの入る位置を示す情報とともに、要因抽出部２０２に供給される。
【００５６】
これを受けた要因抽出部２０２は、ポーズ長に関連する所定の要因を抽出する。当該要因抽出部２０２の機能は、基本的に前記要因抽出部２０６の機能と同じであってよい。したがって当該要因抽出部２０２は、ポーズ前後の呼気段落のモーラ数や、係り受けの距離などを抽出してポーズ長予測部２０３に供給する。
【００５７】
ポーズ長予測部２０３は、前記ポーズ長学習部２０９から重み係数ｘ（ｊｋ）を受け取るので、要因抽出部２０２から受け取った要因のアイテムｊやカテゴリｋを用いて前記式（３）の演算を実行し、ポーズ長の予測値ｙ（ｉ）を算出することができる。当該ポーズ長の下限は０に制限しておくとよい。
【００５８】
当該予測値ｙ（ｉ）を受け取るとともに、前記統計量選択部２１０が選択した統計量（前記平均μ_ｍ０と、標準偏差σ_ｍ０）を受け取る逆正規化部２０４は、これらを用いて次の式（６）で示す逆正規化を実行する部分である。
【００５９】
【数６】

この逆正規化の結果は、信号Ｓ２５として前記音声合成部Ｓ１４に供給される。
【００６０】
当該信号Ｓ２５は、図２の音声合成部１０４に供給されるピッチ周波数パターン、音韻継続時間長、振幅などのパラメータＳ１３の一構成要素となり、合成音声Ｓ１４に反映される。
【００６１】
以下、上記のような構成を有する本実施形態の動作について説明する。
【００６２】
（Ａ−３）第１の実施形態の動作
ここでは、前記学習データ蓄積部２０５の内部に例えば話者番号１〜６の話者に関する学習データが蓄積されているものとする。そして、各話者の学習データをもとにポーズ統計量算出部２０８が算出したポーズ長の平均と標準偏差が図４に示す通りであったものとする。
【００６３】
図４において、例えば、話者番号１の話者の平均ポーズ長は４２２ｍｓ（ミリ秒）、ポーズ長の標準偏差は２２０ｍｓであり、話者番号４の話者の平均ポーズ長は２６１ｍｓ、ポーズ長の標準偏差は２１０ｍｓである。この数値から、話者番号１の話者は、比較的発声速度が遅くポーズ長の長い話者であり、話者番号４の話者は比較的発声速度が早くポーズ長の短い話者でることが分かる。
【００６４】
そして前記統計量選択部２１０は、ポーズ統計量算出部２０８との連携により、少なくとも当該話者番号１および４の話者に関する各統計量をいつでも逆正規化部２０４に供給できる状態にある。
【００６５】
いま、前記テキスト解析部１０１に図５（Ａ）に示す文章が入力されものとする。新聞記事などの一部であるこの文章は、「当初予算比では過去最高の五兆七千億円、年度途中の所得税減税などを考慮すると七兆七千億円の自然増収があった計算になる。」というものであり、学習データ蓄積部２０５などには格納されていないものである。
【００６６】
この文章のポーズが入る位置ＰＳ１〜ＰＳ５は、自然性の高い発声（あるいは合成音声）では例えば、「当初予算比では（ＰＳ１）過去最高の五兆七千億円、（ＰＳ２）年度途中の所得税減税などを（ＰＳ３）考慮すると（ＰＳ４）七兆七千億円の（ＰＳ５）自然増収があった計算になる。」のようになる。
【００６７】
当該文章に対応する合成音声Ｓ１４における各位置のポーズは、前記要因に応じて自然性を高めるように生成される。各位置のポーズ長の詳細は各式（２）〜（６）を解くことによって決定されるが、一般的には、前記要因のうち例えば、ポーズ前の呼気段落のモーラ数が多いほどポーズ長は長くなり、反対にポーズ前の呼気段落のモーラ数が少ないほどポーズ長は短くなる傾向を有する。ポーズ後の呼気段落のモーラ数についても同様であり、図５（Ｂ）の方法１，方法２に対応する各ポーズ長の各方法内における相対的な大小関係もこのような傾向にしたがったものとなっている。しかしながら、異なる方法間で同じ位置（例えばＰＳ１）のポーズ長の値（例えば、５０６ｍｓと３４１ｍｓ）を比較するとかなり大きく相違している。
【００６８】
当該方法１は、話者番号１の話者の学習データを用いて正規化部２０７で正規化を行うとともにポーズ長学習部２０９で学習を行い、話者番号１の話者の学習データを基礎とする統計量を用いて逆正規化部２０４で逆正規化を行うケースである。また、方法２は、話者番号１の話者の学習データを用いて正規化部２０７で正規化を行うとともにポーズ長学習部２０９で学習を行い、話者番号４の話者の学習データを基礎とする統計量を用いて逆正規化部２０４で逆正規化を行うケースである。
【００６９】
図５（Ｂ）の方法１の行と方法２の行とを対比すると、統計量選択部２１０による選択操作が合成音声Ｓ１４に与える影響が大きいことは明らかである。学習にも逆正規化にも話者番号１の学習データに由来するデータを使用する方法１の合成音声Ｓ１４は純粋に話者番号１の話者の（ポーズ長に関する）個性だけを反映したものとなっているのに対し、学習には話者番号１の学習データに由来するデータを使用するものの逆正規化には話者番号４の学習データに由来するデータを使用する方法２の合成音声Ｓ１４は、話者番号１の話者の個性と話者番号４の話者の個性の双方を反映し、これらがミックスされた個性を持つ。ただし当該方法２の合成音声Ｓ１４では通常、話者番号４の話者の個性のほうが話者番号１の話者の個性よりも強く作用し、支配的である点は上述した通りである。
【００７０】
このことから、当該テキスト音声変換装置のユーザは、当該統計量選択部２１０の選択操作を行うことによって、自由に合成音声Ｓ１４の個性（特徴）を変化させることができることが分かる。逆正規化に用いる話者の個性のほうが支配的であるから、例えば、学習に用いる話者は話者番号１の話者に固定したままでも、逆正規化に用いる話者を話者番号４から変化させるだけで、簡便に、合成音声Ｓ１４の個性を変化させることも可能である。
【００７１】
なお、図５（Ｃ）は図５（Ａ）とは別な文章の一例を示し、図５（Ｄ）は当該文章を本実施形態のテキスト音声変換装置で処理することによって得られるポーズ長の一例である。図５（Ｄ）の方法１，方法２の意味は、図５（Ｂ）と同様である。
【００７２】
また、ポーズ長の平均や標準偏差などの統計量は必ずしも学習データ蓄積部２０５から得た学習データをもとにポーズ統計量算出部２０８が算出したものである必要はない。したがって、一例としては、発声を模倣したい人が存在する場合には、その人のポーズ長の平均、標準偏差が既知であれば、その人に近い個性を持つ合成音声Ｓ１４を出力することも可能である。
【００７３】
なお、以上の説明では統計量選択部２１０における選択操作で逆正規化に用いる統計量の基礎となる学習データの話者番号を選択するものとしたが、正規化部２０７が正規化する学習データの話者番号も選択することができるようにしてもよいことは当然である。
【００７４】
（Ａ−３）第１の実施形態の効果
以上のように本実施形態によれば、自然性の高い合成音声（Ｓ１４）を出力することができるだけでなく、学習データ蓄積部に蓄積されている学習データ等を活用して、当該合成音声（Ｓ１４）の個性（特徴）を柔軟に変化させたり、自由自在に作り出すことが可能である。
【００７５】
また、必要に応じて、統計量選択部（２１０）の選択操作だけで合成音声（Ｓ１４）の個性を変化させることもできるため、操作性が高く、使い勝手がよい。
【００７６】
（Ｂ）第２の実施形態
以下では、本実施形態が第１の実施形態と相違する点についてのみ説明する。
【００７７】
この相違点は、前記統計量の選択操作に関連する部分にかぎられる。
【００７８】
（Ｂ−１）第２の実施形態の構成および動作
本実施形態のポーズ長算出部１０３Ｂの主要部の構成例を図３に示す。図３において図１と同じ符号を付与した各構成要素および各信号の機能は、第１の実施形態と同じである。また、本実施形態のテキスト音声変換装置の全体構成例は第１の実施形態とまったく同じで、図２はそのまま本実施形態の全体構成例も示している。
【００７９】
第１の実施形態では図１に示す統計量選択部２１０に関連する部分の構成が必ずしも明確でなかったが、本実施形態では図３に示すように、この部分に選択テーブル部３０１を配置してある。
【００８０】
この選択テーブル３０１の論理的な構成は、例えば図４に示すものであってよい。第１の実施形態では図４のテーブルを、単に話者番号ごとに平均ポーズ長とポーズ長の標準偏差を対応づけてまとめた表として使用したが、本実施形態では同じ図４が、選択テーブル部３０１に格納された選択テーブルの論理的な実体を示す。
【００８１】
図４からも明らかなように、当該選択テーブルは、一種のデータベースを構成する。
【００８２】
この選択テーブルを格納した選択テーブル部３０１に対して供給するユーザ切替信号Ｓ４０によって、本実施形態のテキスト音声変換装置のユーザは選択テーブル上の組を選択することができる。テキスト音声変換装置を、ユーザが所望の個性を持つ合成音声Ｓ１４を作成するための装置として使用する場合、ユーザが組（例えば、話者番号３，平均ポーズ長３２０ｍｓ、ポーズ長の標準偏差１６８ｍｓの組もその１つ）の選択を行うためには、何らかの方法で、当該ユーザに選択テーブルの内容を知らせることが必要になると考えられるが、それはユーザインタフェースの問題である。
【００８３】
例えば、直接的に、図４に示す通りの選択テーブルの内容をディスプレイ装置（図示せず）上に画面表示してユーザに選択させることで当該選択に応じた前記ユーザ切替信号Ｓ４０を選択テーブル部３０１に供給するようにしてもよいが、そのようなことは行わずに、検索キーとして話者番号をユーザに入力させ、当該話者番号に対応した組の内容を統計量Ｓ３５として逆正規化部２０４に供給するようにしてもよい。
【００８４】
いずれにしても有効なユーザ切替信号Ｓ４０が選択テーブル部３０１に供給されると、当該ユーザ切替信号Ｓ４０に応じた検索が実行され、検索結果として特定された組中の平均ポーズ長とポーズ長の標準偏差が、統計量Ｓ３５として逆正規化部２０４に供給される。
【００８５】
一例として、ユーザ切替信号Ｓ４０によって話者番号４の組が特定された場合には、検索結果として平均ポーズ長２６１ｍｓとポーズ長の標準偏差２１０ｍｓが逆正規化部２０４に供給されることとなり、逆正規化部２０４では、当該平均ポーズ長２６１ｍｓが前記式（６）中のσ_ｍ０に代入され、ポーズ長の標準偏差２１０ｍｓがμ_ｍ０に代入されることで第１の実施形態と同様な逆正規化が行われる。
【００８６】
なお、選択テーブルの内容は、ユーザからの要求に応じて更新することができるようにするとよい。当該更新では、指定した組を削除したり、新たに生成した組と入れ替えたり、従前の組は残したまま新たな組を追加したりすることができる。
【００８７】
通常、このように新たな組の追加を行うには、その追加に対応できるだけの学習データが学習データ蓄積部２０５に存在しなければならないが、ユーザインタフェースがユーザから、任意の平均ポーズ長やポーズ長の標準偏差の入力を許している場合には、この限りではない。習熟したユーザならば、選択テーブル中に、好みの平均ポーズ長やポーズ長の標準偏差を入力することで、所望の特徴を持つ合成音声Ｓ１４を生成することも容易である。
【００８８】
また、第１の実施形態で述べた発声を模倣したい人が存在する場合には、ユーザが、その人のポーズ長の平均、標準偏差を当該選択テーブルに入力することになる。
【００８９】
（Ｂ）第２の実施形態の効果
以上のように、本実施形態では、第１の実施形態の効果と同等な効果を得ることができる。
【００９０】
加えて、本実施形態では、選択テーブル部を設けることによって、操作性を高めることが可能となる。
【００９１】
（Ｃ）第３の実施形態
以下では、本実施形態が第１および第２の実施形態と相違する点についてのみ説明する。
【００９２】
この相違点は、前記選択テーブル部３０１に関連する部分にかぎられる。
【００９３】
（Ｃ−１）第３の実施形態の構成および動作
本実施形態のポーズ長算出部１０３Ｃの主要部の構成例を図６に示す。図６において図３と同じ符号を付与した各構成要素および各信号の機能は、第２の実施形態と同じである。また、本実施形態のテキスト音声変換装置の全体構成例は第１の実施形態とまったく同じで、図２はそのまま本実施形態の全体構成例も示している。
【００９４】
本実施形態の選択テーブル部３０１には、第２の実施形態で述べたディスプレイ装置に相当するＧＵＩ表示選択部６０１が接続されている。
【００９５】
当該ＧＵＩ表示選択部６０１は、ボタン、スライダなどの各種のコントロールを含むＧＵＩ（グラフィカル・ユーザ・インタフェース）を用い、マウスやトラックボールなどのポインティングデバイスによって前記コントロールを操作することでユーザの指示を受け付けるユーザフレンドリな操作環境を提供する。
【００９６】
ＧＵＩ画面の表示内容については様々なものが考えられるが、例えば、次のような画面表示も好ましい。
【００９７】
すなわち、直感的にポーズ長の形態を表現する語（ゆっくり←ふつう→はやい、だらだら←ふつう→てきぱき、のろい←ふつう→速い、止まるような←ふつう→せわしない、ポーズの長い←ふつう→ポーズの短い等）を画面表示するものである。
【００９８】
一例として、「ゆっくり←ふつう→はやい」を採用し、「ゆっくり」を示す押しボタンコントロールと、「ふつう」を示す押しボタンコントロールと、「はやい」を示す押しボタンコントロールを画面表示するようにしてもよい。
【００９９】
図４の選択テーブルは上の組ほど平均ポーズ長が長くなるように整列されているため、例えば、合成音声Ｓ１４の現時点のポーズ長が話者番号３に対応するものである場合、「ゆっくり」を示す押しボタンコントロールを１回押してユーザ切替信号Ｓ４０が選択テーブル部３０１に供給されると話者番号２の組が選択され、２回押すと話者番号１の組が選択されるようになる。
【０１００】
反対に、「はやい」を示す押しボタンコントロールを押すと、そのたびに平均ポーズ長が話者番号３の組よりも短い話者番号４の組や、話者番号５の組などが選択されるようになる。
【０１０１】
また、現時点のポーズ長が話者番号３のポーズ長よりも長い場合や短い場合には、「ふつう」を示す押しボタンコントロールを押すたびに話者番号３（４でも可）の組に向かって選択を変化させることとなる。
【０１０２】
なお、図４には６つの組しか存在しないが、選択テーブル内の組は７つ以上であってもよいことは当然である。組数を増やして、隣接組間の平均ポーズ長の差を小さくすれば、合成音声Ｓ１４のポーズ長に関し、より細密な制御を行うことが可能となる。
【０１０３】
また、組数は必要ならば５つ以下であってもかまわない。
【０１０４】
（Ｃ−２）第３の実施形態の効果
本実施形態によれば、第２の実施形態と同等な効果を得ることができる。
【０１０５】
加えて、本実施形態では、選択テーブル部（３０１）とユーザのあいだにＧＵＩ表示選択部を介在させることにより、間接的にポーズ長を選択できるので、ユーザーは直接的に数値を扱う必要が無く、直感的に選択可能である。
【０１０６】
したがって本実施形態によれば、テキスト音声変換装置などの音声合成装置に不慣れなユーザであっても、自然性の高い合成音声（Ｓ１４）の特徴を柔軟に変化させることが可能である。
【０１０７】
（Ｄ）第４の実施形態
以下では、本実施形態が第１〜第３の実施形態と相違する点についてのみ説明する。
【０１０８】
この相違点は、前記統計量選択部２１０あるいは選択テーブル部３０１に関連する部分にかぎられる。
【０１０９】
（Ｄ−１）第４の実施形態の構成および動作
本実施形態のポーズ長算出部１０３Ｄの主要部の構成例を図７に示す。図７において図６と同じ符号を付与した各構成要素および各信号の機能は、第３の実施形態と同じである。また、本実施形態のテキスト音声変換装置の全体構成例は第１の実施形態とまったく同じで、図２はそのまま本実施形態の全体構成例も示している。
【０１１０】
本実施形態で、前記ポーズ統計量算出部２０８から統計量を受け取るのは、統計量記憶部７０５である。
【０１１１】
この統計量記憶部７０５に加えて、本実施形態のポーズ長算出部１０３Ｄは、図７に示すように、第１〜第３の実施形態には存在しなかった各構成要素７０１〜７０４を備えている。
【０１１２】
すなわちポーズ長算出部１０３Ｄは、入力部７０１と、表示器７０２と、制御部７０３と、画像メモリ７０４とを備えている。
【０１１３】
統計量記憶部７０５はポーズ統計量算出部２０８が算出した統計量またはユーザが任意に入力した統計量を記憶しておき、ユーザからの要求に応じて画像メモリ７０４に供給する部分である。
【０１１４】
画像メモリ７０４に供給された統計量は、表示器７０２によってユーザに目視され認識される。当該表示器７０２は、第３の実施形態と同様なＧＵＩや、ＣＵＩ（キャラクタ・ユーザ・インタフェース）であってもかまわないが、所定の統計量以外の汎用的な情報を表示できる画面を持たない統計量専用の表示器であってもよい。表示器７０２が汎用的な情報を表示できる画面を持たない場合、構成要素７０４も画像メモリである必要はなく、例えば、２４ビット程度のレジスタで十分である。
【０１１５】
当該表示器７０２は少なくとも、画像メモリ７０４内の統計量がユーザにとって可読な形になるように変換する機能（例えば、２進数から１０進数への変換機能など）を備えている。
【０１１６】
入力部７０１はユーザからの統計量に関する入力を受け付ける部分である。入力部７０１の具体例としては、通常のキーボード、テンキー等の他に、手書き文字認識装置、音声認識装置などを用いて差し支えない。また、入力部７０１と表示器７０２が一体となったタッチパネルなどを用いることもできる。本実施形態の入力部７０１は統計量以外の汎用的な入力情報を受け付ける必要はないため、数字の入力だけを受け付けることができれば十分である。
【０１１７】
ユーザが当該入力部７０１から入力した統計量はいったん画像メモリ７０４に格納されるので、そのときユーザは、表示器７０２を介して自身の入力を目視確認することができ、必要なだけ修正を繰り返すこともできる。ユーザがその統計量を最終的に選択する旨の操作を行えば、当該統計量は、統計量記憶部７０５を介して前記逆正規化部２０４に供給される。
【０１１８】
一般的に、どのような統計量を入力したとしても何らかの合成音声Ｓ１４を出力することは可能であるが、自然性の高い合成音声Ｓ１４を出力したり、所望の特徴を持つ合成音声Ｓ１４を出力するためには、テキスト音声変換装置の機構および合成音声の原理に関する十分な知識と習熟が必要である。本実施形態は主として、このような知識を持つ習熟したユーザを想定したものである。
【０１１９】
習熟したユーザの場合、予め用意された選択肢（前記選択テーブルの組）のなかから選択するよりも、本実施形態のように任意の統計量を入力するような構成を取ったほうが、逆正規化部２０４に供給する統計量をきめ細かく設定し、より細密に合成音声Ｓ１４の特徴を指定することが可能である。
【０１２０】
例えば、当該ユーザが音声合成装置開発者である場合には、本実施形態は、設定したポーズ長をチューニングするのにも好適である。
【０１２１】
（Ｄ−２）第４の実施形態の効果
本実施形態によれば、第１〜第３の実施形態とほぼ同等な効果を得ることが可能である。
【０１２２】
加えて、本実施形態では、逆正規化部（２０４）に供給する統計量をきめ細かく設定し、より細密に合成音声（Ｓ１４）の特徴を指定することが可能である。
【０１２３】
（Ｅ）他の実施形態
なお、上記第１〜第４の本実施形態では、学習・予測に数量化Ｉ類を用いる構成としたが、本発明はこれに限定されるものではなく、他の回帰モデルを用いても良い。
【０１２４】
また、上記第３の実施形態では、ボタン、スライダ等から構成されるＧＵＩ表示選択部５０１は、ポーズ長の形態を表現する語を含むように構成したが、ボタン、スライダ等は単独で構成しても良い。さらに、ポーズ長の形態を表現する語からなるテーブルから選択テーブル部３０１内の選択テーブルが参照されるような構成にしても良い。
【０１２５】
なお、第１〜第４の実施形態では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
【０１２６】
【発明の効果】
以上に説明したように、本発明によれば、規則音声合成装置の柔軟性や自由度を高め、なおかつ、自然な合成音声が得ることが可能となる。
【図面の簡単な説明】
【図１】第１の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【図２】第１の実施形態に係るテキスト音声変換装置の主要部の構成例を示す概略図である。
【図３】第２の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【図４】第２の実施形態に係るテキスト音声変換装置で使用する選択テーブルの構成例を示す概略図である。
【図５】第１〜第４の実施形態の動作説明図である。
【図６】第３の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【図７】第４の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【符号の説明】
１０１…テキスト解析部、１０２…単語辞書、１０３…パラメータ生成部、１０３Ａ…ポーズ長算出部、１０４…音声合成部、１０５…素片辞書、１０６…素片作成部、２０１…ポーズ記号同定部、２０２、２０６…要因抽出部、２０３…ポーズ長予測部、２０４…逆正規化部、２０５…学習データ蓄積部、２０７…正規化部、２０８…ポーズ統計量算出部、２０９…ポーズ長学習部、２１０…統計量選択部、３０１…選択テーブル、６０１…ＧＵＩ表示選択部、７０４…画像メモリ、７０５…統計量記憶部。

Claims

統計モデルを利用し、少なくともポーズ長に関する制御規則を含む韻律規則を用いて音声を合成する規則音声合成装置において、
所定の学習用基礎音声データをもとに、前記ポーズ長に関する所定の統計量を算出する統計量算出手段と、
当該統計量を用いて前記学習用基礎データを正規化して正規化量を算出する学習用正規化手段と、
当該正規化量に応じて前記ポーズ長を学習して学習結果量を算出するポーズ長学習手段と、
供給される音韻記号に由来する第１の入力量と当該学習結果量をもとに予測ポーズ長を算出する統計モデル予測手段と、
前記統計量に由来する第２の入力量を用いて逆正規化することにより、当該予測ポーズ長を変更する逆正規化手段とを備えたことを特徴とする規則音声合成装置。
請求項１の規則音声合成装置において、
前記学習用基礎音声データを、複数人の話者が発声する自然音声をもとに話者ごとに区別して生成した話者音声データから構成しておき、複数の話者音声データの中から、前記第２の入力量として使用する話者音声データを選択する音声データ選択手段を備えたことを特徴とする規則音声合成装置。
請求項１または２の規則音声合成装置において、
文字データを解析することで前記音韻記号を生成する文字データ解析手段を備えたことを特徴とする規則音声合成装置。
請求項２の規則音声合成装置において、
算出された各統計量を予め蓄積するか、又は前記統計量算出手段が同時に複数の話者音声データに関して統計量の算出を行うようにしておき、各統計量に対するユーザからの明示的な選択操作に応じて、蓄積してある、または同時に算出した各統計量の中から選択した統計量を前記第２の入力量とする統計量選択手段を備えたことを特徴とする規則音声合成装置。