JP2009237564A

JP2009237564A - 音声合成用データの選択方法

Info

Publication number: JP2009237564A
Application number: JP2009049853A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山; Keiichi Tokuda; 恵一徳田
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2008-03-05
Filing date: 2009-03-03
Publication date: 2009-10-15

Abstract

【課題】音素とアクセントパターンとを音声データベースに登録するために、母集団の一部である子集団を構成する例文を適正に選択する。
【解決手段】第１ステップでは、母集団の例文を登録した母集団ファイルから指定した個数の例文を取り出して仮の子集団とする。第２ステップでは、子集団の例文について音素の出現頻度の分散の程度を評価する第１の評価値およびアクセントパターンの出現頻度の分散の程度を評価する第２の評価値をそれぞれ求める。第３ステップでは、母集団から子集団を除いた残余集団の１個の例文と子集団の１個の例文とを交換したときに第１および第２の評価値により求められる分散の程度の増減を判断し交換によって分散の程度が大きくなる場合には例文を交換する。第１の評価値と第２の評価値との少なくとも一方が規定値以上になるか交換回数が規定回数に達するまで第３ステップを繰り返す。
【選択図】図１

Description

本発明は、例文を読み上げた収録音声から抽出された音響単位が登録されている音声データベースを用い、入力されたテキストから合成音声を生成するにあたり、テキストに応じた適正な音響単位を音声データベースに登録するために、例文の集合を選択する音声合成用データの選択方法に関するものである。

従来から、音声データベースに登録された音響単位を用いることにより入力されたテキストから合成音声による音声メッセージを生成する技術が知られている。たとえば、隠れマルコフモデル（以下、「ＨＭＭ」と略称する）を用いて合成音声を生成する場合にはＨＭＭ学習によって生成された音声パラメータと音響単位とを関係付けたデータを音声データベースに登録する。

ＨＭＭを用いた音声合成では、スペクトル情報、Ｆ０（基本周波数）情報、時間継続長がそれぞれ数値表現された音声パラメータの組が用いられ、音声パラメータの組はＨＭＭ集合としてモデル化される。ＨＭＭ集合は、コンテキスト情報（前後の音素、音素が属する単語の属性）によりクラスタリングされ、決定木の形で音声データベースに蓄積される。なお、単語の属性とは、品詞やアクセント型（実施形態において説明する）などを意味する。

さらに、ＨＭＭを用いた音声合成では、テキスト（漢字かな混じりのテキスト）を音素列に分解し、音素ごとにコンテキスト情報を分析・決定し、当該コンテキスト情報に適合する音声パラメータを音声データベースに蓄積されたＨＭＭ集合から選択する。その後、入力されたテキストの音素列に従って選択した音声パラメータを接続し、音声波形に変換して出力するのである。

ところで、音声データベースに登録する音声パラメータと音響単位とは、例文を読み上げることによる実際の音声からＨＭＭ学習により獲得される。ここでの「例文」は、文として完結していなくてもよく、少なくとも１個のアクセント句（「アクセント句」は後述する）を含んでいればよい。

合成音声として出力しようとする音声メッセージの種類が多い場合には、読み上げる例文の種類は出力する音声メッセージの種類よりも少なくてよい。たとえば、日本人の姓名における名前であれば数万種類程度であるが、読み上げる音声は千種類程度にすることが望ましい。以下では、合成音声として出力しようとする音声メッセージに対応した例文の略全種類を含む文字列集団を「母集団」と呼び、音声パラメータおよび音響単位を生成するために母集団から選択した例文の文字列集団を「子集団」と呼ぶことにする。

ＨＭＭを用いて合成音声を生成するには、子集団を学習データに用いてＨＭＭ学習により音声パラメータを生成する。すなわち、子集団として収録された音声から、上述した音声パラメータを抽出し、ＨＭＭ学習により音声パラメータを生成する。生成された音声パラメータは音声データベースに登録される。

ところで、上述したように自然な合成音声を生成するには、音声パラメータを抽出するための子集団に含まれる例文の選択が重要であると言える。

音声データベースに登録する音声パラメータを生成する技術としては、現実に使用された言語表現を集積・整理した言語データである文コーパスから、音声パラメータを抽出するための例文を選択するにあたり、文コーパス中の各音声素片（２音素連鎖、３音素連鎖など）の出現率に着目し、文コーパスの各テキスト（例文）に含まれる音声素片の出現率から各例文にスコアを付与し、スコアの高い例文から音声パラメータを抽出する技術が提案されている（たとえば、特許文献１参照）。

また、音声データベースに登録する音声パラメータを生成する技術として、さまざまな原典から集められた例文の母集団から子集団となる文セット（例文の部分集合）を抽出する技術も考えられている（たとえば、特許文献２参照）。特許文献２では、適宜の文セットからなる仮の子集団を作成し、母集団から仮の子集団を除いた残りと仮の子集団との１文同士を交換するとともに子集団について情報のエントロピーに相当する評価値（音響単位の相対出現頻度を用いて求める情報エントロピー）を算出し、交換に伴って評価値が増加すれば例文の交換を行うという作業を繰り返し、交換による評価値の変化が定常的になると、その子集団を音声データベースの作成に用いるという技術を用いている。

特開２００４−２４６１４０号公報特開２００２−２６８６７２号公報

特許文献１に記載された技術は、文コーパスから適正な例文を選択するために音声素片の出現率に着目しており、特許文献２に記載された技術は、母集団である例文の集合から適正な子集団を構成する例文の集合を評価値により選択している。

ところで、自然な合成音声を生成するには、音素の選択だけではなく韻律を生成するための情報が必要であるが、特許文献１、２に記載の技術では、例文（テキストないし文セット）の選択にあたって韻律の生成のための情報が考慮されていない。すなわち、音声データベースに登録される音声パラメータを抽出するにあたり、音素を用いるだけでは韻律を十分に表現することができない。

本発明は上記事由に鑑みて為されたものであり、その目的は、音声データベースに登録する音声パラメータを作成するための例文を選択するにあたり、音素に加えて韻律を表現する情報を含めることを可能にし、結果的に音素のみを考慮して選択した例文を用いる場合よりも自然な合成音声を出力することを可能にした音声合成用データの選択方法を提供することにある。

請求項１の発明は、少なくとも１個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第１の評価値およびアクセントパターンの出現確率を評価する第２の評価値が、ともに規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする。

請求項２の発明は、少なくとも１個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第１の評価値およびアクセントパターンの出現確率を評価する第２の評価値との合計が規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする。

請求項３の発明は、少なくとも１個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、母集団の要素である例文を登録した母集団ファイルから指定した個数の例文を取り出して仮の子集団とする第１ステップと、仮の子集団に含まれる例文について音素の出現確率を評価する第１の評価値およびアクセントパターンの出現確率を評価する第２の評価値をそれぞれ求める第２ステップと、母集団から子集団を除いた残余集団に含まれる１個の例文と子集団に含まれる１個の例文とを仮に交換したときに第１および第２の評価値の増減を判断し交換によって第１および第２の評価値が増大する場合には例文を交換する第３ステップとを有し、第１の評価値と第２の評価値との少なくとも一方が規定値以上になるか交換回数が規定回数に達するまで第３ステップを繰り返すことを特徴とする。

請求項４の発明では、請求項３の発明において、前記第３ステップで前記第１の評価値と前記第２の評価値とを規定値と比較するにあたり、第１の評価値と第２の評価値との重み付き加算の結果を比較することを特徴とする。

請求項５の発明では、請求項３の発明において、前記第３ステップで前記第１の評価値と前記第２の評価値とを規定値と比較するにあたり、第１の評価値と第２の評価値との合計を比較することを特徴とする。

請求項６の発明では、請求項１〜５のいずれかの発明において、前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対であることを特徴とする。

請求項７の発明では、請求項１〜５のいずれかの発明において、前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対を、連続する規定の複数個のアクセント句に関して連結したデータ組であることを特徴とする。

なお、以下に説明する実施形態において用いる主な用語の意味を以下に簡単に記載しておく。「母集団」：合成音声として出力しようとする音声メッセージに対応した例文の略全種類を含む文字列集団。「子集団」：音声パラメータと音響単位とを生成するために母集団から選択した例文の文字列集団。「例文」：母集団と子集団とのそれぞれの要素であるテキストデータ。これを読み上げた実際の音声から、ＨＭＭ学習により音響単位と音声パラメータとが生成される。例文は、少なくとも１個のアクセント句を含み、文として完結していなくてもよい。「音響単位」：ＨＭＭ学習により生成される。音素とアクセントパターンを用いる。「音声パラメータ」：ＨＭＭ学習により生成される。スペクトル情報、Ｆ０（基本周波数）情報、時間継続長がそれぞれ数値表現されている。「音声メッセージ」：入力されたテキストから生成される合成音声。「入力テキスト」：音声メッセージを生成するために入力されるテキスト。「アクセント句」：最大１つのアクセント核を持つひとまとまりの音声。アクセント核が０の場合もある。「音素」：実施形態では、前後の音素の組み合わせを用いている。たとえば、音素記号の並びから２個ずつ連接した音素記号を抽出した組み合わせを音素とする。「あらゆる」を音素記号で表せば「ａｒａｊｕｒｕ」であるから、音素は、ａｒ，ｒａ，ａｊ，ｊｕ，ｕｒ，ｒｕの６個になる。ただし、音素としてモーラを用いることも可能である。また、形態素、語長などの情報を含んでいてもよい。「アクセントパターン」：アクセント句ごとに（モーラ数−アクセント型）で表されるデータ対。「連接アクセントパターン」：連続する複数個（実施形態２では２個）の連続するアクセントパターンのデータ組。「アクセント型」：アクセント句内でのアクセント位置に応じた数値。

請求項１〜３の方法によれば、音声データベースに格納する情報として、音韻に関する情報である音素だけではなく、韻律に関する情報であるアクセントパターンも用いるから、音声合成時に韻律情報を考慮した音声合成データベースを利用することで、自然な合成音声を得ることが可能になる。しかも、音素とアクセントパターンとの両方について出現確率が均一化されるように音声データベースのデータを作成するから、母集団のすべての例文を合成音声で出力するのに必要な音素やアクセントパターンを音声データベースに登録することができ、結果的に高音質の合成音声の出力が期待できる。

とくに、請求項３の方法によれば、子集団と残余集団との例文を交換したときに音韻環境やアクセントパターンの出現確率が均一化される方向に変化する場合に、残余集団と子集団との間で例文を交換するから、音素とアクセントパターンとの出現確率が均一化されるように音声データベースのデータを作成することができる。つまり、音声データベースにおいて音素やアクセントパターンの出現確率に偏りが生じないから、母集団のすべての例文を合成音声で出力するのに必要な音素やアクセントパターンを音声データベースに登録することができ、結果的に高音質の合成音声の出力が期待できる。

請求項４、５の方法によれば、音素とアクセントパターンとの評価値を合算しているから、規定値との比較を個別に行う必要がなく、とくに、請求項４の方法によれば、重み係数を調節することにより、音素とアクセントパターンとの一方を優先させることも可能になる。

請求項６の方法によれば、アクセントパターンを簡単な形に定式化することにより、韻律に関する情報を音素と同様に扱うことが可能になる。

請求項７の方法によれば、アクセントパターンを簡単な形に定式化するとともに、連続する規定の複数個のアクセント句のアクセントパターンを用いるから、合成音声のつながりが滑らかになり、自然な合成音声を出力することが可能になる。

本発明の実施形態を示す動作説明図である。同上のブロック図である。同上の母集団と子集団との関係を図である。同上に用いるアクセント句の概念を説明する図である。同上の動作説明図である。

（実施形態１）
以下に説明する実施形態では、合成音声により出力しようとする音声メッセージが姓名のうちの名前である場合を想定し、名前を漢字かな混じりのテキストとして入力すると、当該テキストを含む音声を出力する場合について説明する。なお、以下に説明する実施形態では、音声データベースに登録する情報を生成するための例文であるテキストと、出力する合成音声を指示する文字列であるテキストとを区別するために、後者を入力テキストと呼ぶ。もちろん、前者と後者とのどちらのテキストも電気的処理が可能であるようにテキストデータとして与えられる。

また、音声データベースに登録する音声パラメータおよび韻律を表現する情報を生成するために母集団および子集団に登録される要素の単位を「例文」と呼ぶ。例文は、文だけではなく、単語、複数の単語を結合した語、句を含む。より具体的には、１個以上のアクセント句を含む文字列を「例文」と呼ぶ。

アクセント句は、最大１つのアクセント核（アクセントのある音節の終わり近くからピッチ周波数が急激に下降する領域）を持つひとまとまりの音声であり、基本周波数の山にほぼ相当し、文節にほぼ対応している。アクセント核は０の場合もある（図４の２番目のアクセント句を参照）。

図４に示す例は、例文の一部であり、「あらゆるげんじつをすべてじぶんのほうへねじま」という単語列について得られる音声信号の波形（図４（ａ））から図４（ｂ）のようにピッチ周波数を抽出したときに、ピッチ周波数が急激に下降する領域からピッチ周波数が下降しなくなる領域（無音領域も含む）に移行する時点をアクセント句の境界ＢＬとしている。図４において、各アクセント句の中でのアクセントの位置は単語列の文字に下線を付与することで示している。アクセント句の境界ＢＬを求める方法については種々提案されているので、ここでは説明を省略する。

本発明は、母集団から子集団を生成する技術に関するものであり、音声合成の技術は要旨ではないが、音声合成の技術について簡単に触れておく。図２に示すように、音声合成部１は、入力テキストが入力されると音声生成手段１０において合成音声を生成して出力する。入力テキストは、適宜の記憶部に保存したものやキーボードのような入力手段から入力したものを用いる。音声生成手段１０では、入力テキストから抽出した中間情報を音声データベースＦ１に照合し、入力テキストに相当する合成音声を生成する。

入力テキストを音声生成手段１０で扱うのに適した形式に変換するために言語解析手段１１を設けている。言語解析手段１１では、入力テキストを形態素に分割するとともに、文型（後述する）の分類を行う。

また、言語解析手段１１では、入力テキストの読み方およびイントネーション（アクセントを含む）を抽出する。ここに、「イントネーション」とは、１または複数の単語を含む区間（アクセント句）のピッチの時間変化のパターンを意味している。したがって、イントネーションには１単語のアクセントも含まれる。名前の読み方については、同じ文字で異なる読み方があるから、あらかじめ入力テキストに読み方を含めたり、読み方の候補を利用者に提示して選択させるようにしてもよい。

さらに、言語解析手段１１では、音声データベースＦ１と照合するために音素の集合の時系列である中間テキストを生成し、音声生成手段１０に中間テキストを与える。音声データベースＦ１には、音素を音声パラメータに関係付けたデータが格納されているから、音声生成手段１０では音素の集合である中間テキストを音声データベースＦ１に照合することにより、中間テキストに対応する音声パラメータを取得することができ、この音声パラメータにより合成音声を生成することができる。

音声データベースＦ１に格納される音声パラメータと音素とは学習部２において生成される。学習部２では、収録音声データベースＦ３に格納された実際の音声と、書起しテキスト集合ファイルＦ４に格納した例文（テキストデータとして格納されている）とを用いて音声パラメータを生成する。収録音声データベースＦ３に格納された音声は、書起しテキスト集合ファイルＦ４に格納された例文を、アナウンサやナレータが読み上げた音声であって、この収録音声からメルケプストラム抽出手段２１とＦ０検出手段２２と音素境界情報抽出手段２３とを用いて、メルケプストラム、Ｆ０（基本周波数）、音素境界を抽出する。また、学習部２に設けた中間ファイル作成手段２４では、書起しテキスト集合ファイルＦ４に格納された例文に付随した音素を中間ファイルとする。

音声パラメータと中間ファイルとは学習データとしてＨＭＭ学習手段２５に与えられ、ＨＭＭ学習により音声パラメータのクラスタリングが行われ、音声パラメータが中間ファイルと関係付けられた形で音声データベースＦ１に格納される。すなわち、音声パラメータと音素とが音響単位として音声データベースＦ１に格納される。

上述の説明からわかるように、書起こしテキスト集合ファイルＦ４に格納された例文の集合が子集団であり、書起こしテキスト集合ファイルＦ４に格納された例文は、母集団ファイルＦ２を用いて生成される。

ところで、本実施形態における例文は上述のように名前であって、日本人の名前には読み方だけで数万種類（３万種類程度）あると言われている。音声データベースＦ１に登録する情報を生成するために、すべての名前について収録した実際の音声を用いれば確実性の高い情報が得られるが、このような多数の名前のすべてを収録するのは、収録に要する時間、費用、記憶容量などの点で現実的とは言えない。

したがって、音声データベースＦ１に登録する情報は、母集団である所定種類の名前（全種類の名前を含む母集団は実現できないが、できるだけ多種類の名前を母集団に含むように、略全種類の名前を含む母集団を形成することが望ましい）から一部の名前を抽出して形成した子集団を用いることになる。

すなわち、図３に示すように、数万種類の例文を含む母集団Ｍの中から１千種類程度の例文からなる子集団σを形成する名前（例文）を選択し、子集団σについて収録した実際の音声から音声データベースＦ１に登録する情報を生成するのである。この場合、子集団σに含まれる名前は、母集団Ｍに含まれるすべての名前に適用できる情報を抽出することができるものでなければならない。

そこで、学習部２には、全種類の名前を登録した母集団ファイルＦ２に格納された母集団Ｍのうち、音声データベースＦ１を作成するのに最適な名前を含む子集団σを生成するための収録テキスト集合最適化手段２０が設けられている。すなわち、母集団ファイルＦ２に格納された名前のうち収録テキスト集合最適化手段２０で選択された名前が書起しテキスト集合ファイルＦ４に登録され、書起しテキスト集合ファイルＦ４に登録された名前を読み上げた音声が収録音声データベースＦ３に格納されるのである。

ここに、母集団ファイルＦ２に格納された名前（音素表記される）には、音素とアクセントパターンとを関係付けてあり、音素とアクセントパターンとは以後の処理で用いられる。音素およびアクセントパターンは、あらかじめ母集団の各要素である名前を分析することにより定義される。

なお、上述した音声合成部１および学習部２は、コンピュータもしくはデジタルシグナルプロセッサを主構成要素としており、適宜のプログラムを実行することにより上述した動作を行うものである。

以下では、収録テキスト集合最適化手段２０により母集団Ｍである名前から子集団σである名前を選択する方法について説明する。

ＨＭＭの説明変数として、モーラ、形態素、語長などの各種情報を含めることによりさまざまな音素を正確に表すことができるが、ここでは、説明を簡単にするために、音素として、音素記号の並びから２個ずつ連接した音素記号を抽出した組み合わせを用いる。たとえば、「げんじつ」を音素記号で表せば「ｇｅｎｚｉｃｕ」であるから、音素として、ｇｅ，ｅｎ，ｎｚ，ｚｉ，ｉｃ，ｃｕの６個を抽出する。ただし、音素としてモーラ（［ｋａ］や［ｋｉ］のような１カナに相応する長さを表す単位であり、拗音、促音、長音も１つのモーラになる）を用いてもよい。

また、イントネーションを表すために、アクセント句を単位としてアクセント句中のモーラ数とアクセント型（アクセント句内でのアクセント位置に応じた数値で表す）とのデータ対を用いる。具体的には、（モーラ数−アクセント型）の形式で表す。このように表記されたイントネーションを「アクセントパターン」と呼ぶ。アクセントパターンをこのように表記することにより、簡単な表記でイントネーションを表すことが可能になる。

たとえば、「アイ」「アキ」のようにアクセント位置が１番目のモーラであるアクセント句はアクセント型を１型とし、これらのアクセント句はモーラ数が２であるから、アクセントパターンは（２−１）になる。アクセント型は、アクセントの音節位置にほぼ対応しており、アクセント位置が１番目のモーラの場合は１型、２番目のモーラの場合は２型などとなり、アクセントがない場合には０型になる。言い換えると、アクセント句の中でピッチが相対的に高く、降下する場所をアクセント位置とし、ピッチの降下がない場合は、０型になる。したがって、「ハシ」を例とすると、端は０型、箸は１型、橋は２型になる。

アクセントパターンは、音素とともに、書起しテキスト集合ファイルＦ４に格納されたテキストデータに所定のルールを適用して決められる。たとえば、書起しテキスト集合ファイルＦ４に格納されたテキストデータが、「ハナコ」「マサヤ」「タロウ」などであるものとし、言語情報に基づいてアクセント位置を決める一般的ルールを適用して、アクセントパターンを推定する。たとえば、「ハナコ」のように３モーラの名前で末尾が「コ」である場合には、第１モーラにアクセントが存在するという一般的ルールがあるので、ハナコのイントネーション型は、（３−１）になる。

本実施形態では、音声データベースＦ１には音素に関係付けた音声パラメータのほかに、アクセント句を単位とするアクセントパターンが登録される。音声合成部１の言語解析手段１１から出力される中間テキストには、音素の属するアクセント句のモーラ数のほかに、アクセント位置の情報も含まれており、音声生成手段１０において、中間テキストのコンテキスト情報を照合することにより、音声データベースＦ１から音声パラメータが抽出され、中間テキストに対応した合成音声が生成される。

ところで、収録テキスト集合最適化手段２０では、ＨＭＭ学習に用いる学習データにおいて、各音素および各アクセントパターンの出現確率がそれぞれ等しくなるように、学習データである子集団σに含まれる例文を選択する。すなわち、子集団σとして選択した例文（名前）に含まれる音素の出現確率がほぼ等しくなり、また、当該例文におけるアクセントパターンの出現確率がほぼ等しくなるように例文を選択する。

そのため、収録テキスト集合最適化手段２０では、図１に示すように、まず母集団Ｍから複数種類の名前を適宜に選択して子集団σを仮に作成する（Ｓ１）。ここに選択する例文の個数は利用者が定めた個数とする。すなわち、子集団σのサイズを利用者が指定できるように、収録テキスト集合最適化手段２０には個数指定用の入力手段が設けられる。子集団σを作成した後、子集団σにおける各音素の出現確率および各アクセントパターンの出現確率に基づいた評価値を求める。後述するように、これらの評価値は情報エントロピーに類似した形になるから、以下ではエントロピーと呼ぶ。

次に、母集団Ｍから子集団σを除いた残余集団Σと子集団σとの中からそれぞれ適宜数の例文を抽出し（Ｓ２）、残余集団Σと子集団σとからそれぞれ抽出した例文を入れ換えた場合の子集団σのエントロピーを求める（Ｓ３）。例文の交換によってエントロピーが増大する場合（規定の閾値を超えて増大する場合）には（Ｓ４：Ｙｅｓ）、残余集団Σと子集団σ間で例文を入れ換える（Ｓ５）。また、例文の交換ではエントロピーに変化がないかエントロピーが減少する場合には（Ｓ４：Ｎｏ）、残余集団Σと子集団σとの間で例文の入れ換えは行わない。

上述の処理は、残余集団Σと子集団σとの間での例文を、交換する回数が規定の回数に達するまで行い、例文の交換が規定の回数に達すると処理を終了し（Ｓ６：Ｙｅｓ）、子集団σを書起しテキスト集合ファイルＦ４に転送する。

上述のようにして得られた子集団σでは、エントロピーが最大になる保証はないが、交換回数を多くすれば、各音素の出現確率および各アクセントパターンの出現確率の偏りが低減されることになる。すなわち、子集団σに含まれる比較的少数の名前を用いながらも、母集団Ｍに含まれるすべての名前について同程度の品質の音声を出力するのに必要な音素およびアクセントパターンを音声データベースＦ１に登録することができる。

上述したように、音素およびアクセントパターンについてエントロピーが増大するように小集団σに含まれる例文（名前）を母集団Ｍから選択することにより、少数の例文（名前）を用いるだけで、高品質の合成音声が得られるように音声データベースＦ１のデータを生成することができる。ただし、音素とアクセントパターンとの両方のエントロピーを同時に増加させるように例文（名前）を選択しようとすれば、子集団σに含まれる例文が収束するまでの例文の交換回数を多くしなければならず、子集団σを決定するまでに要する時間が長くなる。

そこで、本実施形態では、音素とアクセントパターンとの一方を優先させて例文を収束させることを可能として交換回数を調節可能にしている。すなわち、数１に示すように、音素に関するエントロピーＳａとアクセントパターンに関するエントロピーＳｂとの重み付き加算による評価値Ｓを用い、重み係数ｗａ，ｗｂの割合を適宜に変更することによって、音素とアクセントパターンとの優先度を調節するのである。

ただし、ｐ_ｎ、ｑ_ｍは各音素と各アクセントパターンとの出現確率であり、Ｎ，Ｍは音素とアクセントパターンとの抽出すべき要素数ｐ_ｎ、ｑ_ｍである。

上述のように、音素とアクセントパターンとの優先度を調節可能としているから、たとえば、例文を名前だけではなく姓や場所名（リビング、大阪など）などに拡張する場合に、名前に関する小集団σを生成する際には音素の優先度を高くし、姓や場所名に関する小集団σを生成する際にはアクセントパターンの優先度を高めるという動作が可能になる。この場合、名前に関する小集団σから得られた音声パラメータは姓や場所名にも適用でき、また姓や場所名の小集団σから得られた音声パラメータは名前にも適用できるから、音素とアクセントパターンとについて適正な音声パラメータを生成する例文を抽出することができる。

（実施形態２）
実施形態１では、１個のアクセント句からなる名前、姓、地名などを例文として扱う例を示したが、本実施形態では複数個のアクセント句を含む文章を例文を扱う場合を例として説明する。

１個のアクセント句からなる例文を扱う場合には、子集団σ（書起こしテキスト集合ファイルＦ４）に含まれる例文についてアクセント句ごとに音素とアクセントパターンとを求め、音素とアクセントパターンとのエントロピーを最大化するように、母集団ファイルＦ２の例文から書起こしテキスト集合ファイルＦ４となる例文を抽出すればよい。

しかしながら、本発明者らの研究によれば、複数個のアクセント句を含む例文を扱う場合に、各アクセント句を個別に扱うだけでは、滑らかな口調の合成音声を生成することができないという知見が得られた。そこで、本実施形態では、アクセント句の連鎖を考慮することにより、より自然感の高い合成音声を得るようにしている。

すなわち、本実施形態では、母集団Ｍ（母集団ファイルＦ２）に、例文として、表１のような文章が含まれているものとする。表１では３段ずつに区切って記載しており、各３段のうちの１段目が文章、２段目が音素表記、３段目がアクセントパターン（「Ａパターン」と記載している）である。また、ハイフンの前の数値がモーラ数であり、ハイフンの後の数値がアクセント型を示している。また、音素表記における大文字の「Ｓ」は、無音区間を示している。

本実施形態では、母集団Ｍから子集団σを生成するにあたって、アクセントパターンの前後関係を用いるものであり、基本的には、連続する２個のアクセントパターンを１単位に用いる。もちろん、連続する３個以上のアクセントパターンを１単位として用いることは可能であり、とくに連続する３個のアクセントパターンを１単位に用いると、連続する２個のアクセントパターンを１単位とする場合よりも合成音声の滑らかさが向上するが、処理負荷が大きくなるから、ここでは連続する２個のアクセントパターンを用いる例を示す。

また、実施形態１のようにアクセントパターンが１個である例文については、アクセントパターンとして無音区間と有音区間との別を含むようにすることにより、連続する２個のアクセントパターンとして表すことが可能である。たとえば、無音区間をＳ、有音区間をＶとして、Ｓ，Ｖをアクセントパターンに用いるのである。

しかるに、連続する２個のアクセントパターンを例文から抽出するには、まず母集団ファイルＦ２の例文から、音素とともにアクセントパターンを抽出する。その後、（２−１＿２−０）（２−１＿２−１）（２−１＿２−２）のように、連続する各２個のアクセントパターンについて連接関係を抽出する。１個のアクセントパターンが独立している例文では、（Ｓ＿３−２）（３−１＿Ｓ）（３−０＿Ｖ）のように無音区間Ｓや有音区間Ｖとの連接関係を用いる。以下では、２個連列したアクセントパターンのデータ組を「連接アクセントパターン」と呼ぶ。

ここに、抽出すべき連接アクセントパターンの種類は、音声メッセージを出力しようとする合成音声の種類に応じて利用者があらかじめ定義しておく。たとえば、音素について３８６種類、連接アクセントパターンについて１５９種類を定義しておく。また、母集団Ｍの例文数はたとえば５０６個、作成する子集団σの例文数はたとえば２００個などと規定しておく。

このような制約の中で、母集団Ｍから子集団σとして選択した例文で、定義したすべての音素およびすべての連接アクセントパターンを含むとは限らないが、収録テキスト集合最適化手段２０において以下の手順を用いて例文の選択を最適化することにより、定義した大部分の音素および連接アクセントパターンを含む例文の集合としての子集団σを生成することができる。

すなわち、音素に関するエントロピーとともに、連接アクセントパターンに関するエントロピーを算出し、実施形態１と同様に、２種類のエントロピーについては、重み付き加算を行うことにより、音素と連接アクセントパターンとの優先度を調節する。ここでは、各エントロピーに対する重み係数として０．５を用いるものとする。すなわち、音素と連接アクセントパターンとの重み係数を等しくする。

母集団Ｍから子集団σを生成するには、上述のようにして２種類のエントロピーについて重み付き加算を行った結果を評価値に用い、実施形態１と同様に、仮の子集団σを生成した後に、母集団Ｍの例文から仮の子集団σに含まれる例文を除いた残余集団Σと、仮の子集団σとの間で例文との交換を行い、評価値の増減を判定する。この交換により評価値が増大する場合（規定の閾値を超えて増大する場合）は当該交換を採用し、評価値が増加しない場合には当該交換を採用せずに別の例文の交換を行う。

残余集団Σと子集団σとの間で例文の交換を行うと、交換回数に対する評価値の変化は、たとえば図５のような傾向を示す。したがって、交換による評価値の変化がほぼ飽和した時点で交換の処理を終了すればよい。すなわち、実施形態１と同様に、終了のタイミングを交換の回数により規定しておけばよい。ただし、規定回数（たとえば、５回）の交換を行ったときの評価値の平均変化率を求め、平均変化率が規定値以下になった時点で交換の処理を終了してもよい。

他の構成および動作は実施形態１と同様であり、実施形態１では、韻律情報について１個のアクセント句についてのみ着目していたのに対して本実施形態では、複数のアクセント句の連接関係に着目しているので、韻律情報に関して大幅な情報量の増加を伴うことなく、合成音声の品質を高めることが可能になる。

１音声合成部
２学習部
１０音声生成手段
２０収録テキスト集合最適化手段
Ｆ１音声データベース
Ｆ２母集団ファイル
Ｆ３収録音声データベース
Ｆ４書起しテキスト集合ファイル
M 母集団
σ 子集団
Σ 残余集団

Claims

少なくとも１個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第１の評価値およびアクセントパターンの出現確率を評価する第２の評価値が、ともに規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする音声合成用データの選択方法。
少なくとも１個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第１の評価値およびアクセントパターンの出現確率を評価する第２の評価値との合計が規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする音声合成用データの選択方法。
少なくとも１個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、母集団の要素である例文を登録した母集団ファイルから指定した個数の例文を取り出して仮の子集団とする第１ステップと、仮の子集団に含まれる例文について音素の出現確率を評価する第１の評価値およびアクセントパターンの出現確率を評価する第２の評価値をそれぞれ求める第２ステップと、母集団から子集団を除いた残余集団に含まれる１個の例文と子集団に含まれる１個の例文とを仮に交換したときに第１および第２の評価値の増減を判断し交換によって第１および第２の評価値が増大する場合には例文を交換する第３ステップとを有し、第１の評価値と第２の評価値との少なくとも一方が規定値以上になるか交換回数が規定回数に達するまで第３ステップを繰り返すことを特徴とする音声合成用データの選択方法。
前記第３ステップで前記第１の評価値と前記第２の評価値とを規定値と比較するにあたり、第１の評価値と第２の評価値との重み付き加算の結果を比較することを特徴とする請求項３記載の音声合成用データの選択方法。
前記第３ステップで前記第１の評価値と前記第２の評価値とを規定値と比較するにあたり、第１の評価値と第２の評価値との合計を比較することを特徴とする請求項３記載の音声合成用データの選択方法。
前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対であることを特徴とする請求項１〜５のいずれか１項に記載の音声合成用データの選択方法。
前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対を、連続する規定の複数個のアクセント句に関して連結したデータ組であることを特徴とする請求項１〜５のいずれか１項に記載の音声合成用データの選択方法。