JP2009237564A - 音声合成用データの選択方法 - Google Patents

音声合成用データの選択方法 Download PDF

Info

Publication number
JP2009237564A
JP2009237564A JP2009049853A JP2009049853A JP2009237564A JP 2009237564 A JP2009237564 A JP 2009237564A JP 2009049853 A JP2009049853 A JP 2009049853A JP 2009049853 A JP2009049853 A JP 2009049853A JP 2009237564 A JP2009237564 A JP 2009237564A
Authority
JP
Japan
Prior art keywords
accent
evaluation value
population
child group
example sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009049853A
Other languages
English (en)
Inventor
Masaya Hanazono
正也 花園
Takashi Nishiyama
高史 西山
Keiichi Tokuda
恵一 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Electric Works Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Electric Works Co Ltd filed Critical Panasonic Electric Works Co Ltd
Priority to JP2009049853A priority Critical patent/JP2009237564A/ja
Publication of JP2009237564A publication Critical patent/JP2009237564A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音素とアクセントパターンとを音声データベースに登録するために、母集団の一部である子集団を構成する例文を適正に選択する。
【解決手段】第1ステップでは、母集団の例文を登録した母集団ファイルから指定した個数の例文を取り出して仮の子集団とする。第2ステップでは、子集団の例文について音素の出現頻度の分散の程度を評価する第1の評価値およびアクセントパターンの出現頻度の分散の程度を評価する第2の評価値をそれぞれ求める。第3ステップでは、母集団から子集団を除いた残余集団の1個の例文と子集団の1個の例文とを交換したときに第1および第2の評価値により求められる分散の程度の増減を判断し交換によって分散の程度が大きくなる場合には例文を交換する。第1の評価値と第2の評価値との少なくとも一方が規定値以上になるか交換回数が規定回数に達するまで第3ステップを繰り返す。
【選択図】図1

Description

本発明は、例文を読み上げた収録音声から抽出された音響単位が登録されている音声データベースを用い、入力されたテキストから合成音声を生成するにあたり、テキストに応じた適正な音響単位を音声データベースに登録するために、例文の集合を選択する音声合成用データの選択方法に関するものである。
従来から、音声データベースに登録された音響単位を用いることにより入力されたテキストから合成音声による音声メッセージを生成する技術が知られている。たとえば、隠れマルコフモデル(以下、「HMM」と略称する)を用いて合成音声を生成する場合にはHMM学習によって生成された音声パラメータと音響単位とを関係付けたデータを音声データベースに登録する。
HMMを用いた音声合成では、スペクトル情報、F0(基本周波数)情報、時間継続長がそれぞれ数値表現された音声パラメータの組が用いられ、音声パラメータの組はHMM集合としてモデル化される。HMM集合は、コンテキスト情報(前後の音素、音素が属する単語の属性)によりクラスタリングされ、決定木の形で音声データベースに蓄積される。なお、単語の属性とは、品詞やアクセント型(実施形態において説明する)などを意味する。
さらに、HMMを用いた音声合成では、テキスト(漢字かな混じりのテキスト)を音素列に分解し、音素ごとにコンテキスト情報を分析・決定し、当該コンテキスト情報に適合する音声パラメータを音声データベースに蓄積されたHMM集合から選択する。その後、入力されたテキストの音素列に従って選択した音声パラメータを接続し、音声波形に変換して出力するのである。
ところで、音声データベースに登録する音声パラメータと音響単位とは、例文を読み上げることによる実際の音声からHMM学習により獲得される。ここでの「例文」は、文として完結していなくてもよく、少なくとも1個のアクセント句(「アクセント句」は後述する)を含んでいればよい。
合成音声として出力しようとする音声メッセージの種類が多い場合には、読み上げる例文の種類は出力する音声メッセージの種類よりも少なくてよい。たとえば、日本人の姓名における名前であれば数万種類程度であるが、読み上げる音声は千種類程度にすることが望ましい。以下では、合成音声として出力しようとする音声メッセージに対応した例文の略全種類を含む文字列集団を「母集団」と呼び、音声パラメータおよび音響単位を生成するために母集団から選択した例文の文字列集団を「子集団」と呼ぶことにする。
HMMを用いて合成音声を生成するには、子集団を学習データに用いてHMM学習により音声パラメータを生成する。すなわち、子集団として収録された音声から、上述した音声パラメータを抽出し、HMM学習により音声パラメータを生成する。生成された音声パラメータは音声データベースに登録される。
ところで、上述したように自然な合成音声を生成するには、音声パラメータを抽出するための子集団に含まれる例文の選択が重要であると言える。
音声データベースに登録する音声パラメータを生成する技術としては、現実に使用された言語表現を集積・整理した言語データである文コーパスから、音声パラメータを抽出するための例文を選択するにあたり、文コーパス中の各音声素片(2音素連鎖、3音素連鎖など)の出現率に着目し、文コーパスの各テキスト(例文)に含まれる音声素片の出現率から各例文にスコアを付与し、スコアの高い例文から音声パラメータを抽出する技術が提案されている(たとえば、特許文献1参照)。
また、音声データベースに登録する音声パラメータを生成する技術として、さまざまな原典から集められた例文の母集団から子集団となる文セット(例文の部分集合)を抽出する技術も考えられている(たとえば、特許文献2参照)。特許文献2では、適宜の文セットからなる仮の子集団を作成し、母集団から仮の子集団を除いた残りと仮の子集団との1文同士を交換するとともに子集団について情報のエントロピーに相当する評価値(音響単位の相対出現頻度を用いて求める情報エントロピー)を算出し、交換に伴って評価値が増加すれば例文の交換を行うという作業を繰り返し、交換による評価値の変化が定常的になると、その子集団を音声データベースの作成に用いるという技術を用いている。
特開2004−246140号公報 特開2002−268672号公報
特許文献1に記載された技術は、文コーパスから適正な例文を選択するために音声素片の出現率に着目しており、特許文献2に記載された技術は、母集団である例文の集合から適正な子集団を構成する例文の集合を評価値により選択している。
ところで、自然な合成音声を生成するには、音素の選択だけではなく韻律を生成するための情報が必要であるが、特許文献1、2に記載の技術では、例文(テキストないし文セット)の選択にあたって韻律の生成のための情報が考慮されていない。すなわち、音声データベースに登録される音声パラメータを抽出するにあたり、音素を用いるだけでは韻律を十分に表現することができない。
本発明は上記事由に鑑みて為されたものであり、その目的は、音声データベースに登録する音声パラメータを作成するための例文を選択するにあたり、音素に加えて韻律を表現する情報を含めることを可能にし、結果的に音素のみを考慮して選択した例文を用いる場合よりも自然な合成音声を出力することを可能にした音声合成用データの選択方法を提供することにある。
請求項1の発明は、少なくとも1個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第1の評価値およびアクセントパターンの出現確率を評価する第2の評価値が、ともに規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする。
請求項2の発明は、少なくとも1個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第1の評価値およびアクセントパターンの出現確率を評価する第2の評価値との合計が規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする。
請求項3の発明は、少なくとも1個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、母集団の要素である例文を登録した母集団ファイルから指定した個数の例文を取り出して仮の子集団とする第1ステップと、仮の子集団に含まれる例文について音素の出現確率を評価する第1の評価値およびアクセントパターンの出現確率を評価する第2の評価値をそれぞれ求める第2ステップと、母集団から子集団を除いた残余集団に含まれる1個の例文と子集団に含まれる1個の例文とを仮に交換したときに第1および第2の評価値の増減を判断し交換によって第1および第2の評価値が増大する場合には例文を交換する第3ステップとを有し、第1の評価値と第2の評価値との少なくとも一方が規定値以上になるか交換回数が規定回数に達するまで第3ステップを繰り返すことを特徴とする。
請求項4の発明では、請求項3の発明において、前記第3ステップで前記第1の評価値と前記第2の評価値とを規定値と比較するにあたり、第1の評価値と第2の評価値との重み付き加算の結果を比較することを特徴とする。
請求項5の発明では、請求項3の発明において、前記第3ステップで前記第1の評価値と前記第2の評価値とを規定値と比較するにあたり、第1の評価値と第2の評価値との合計を比較することを特徴とする。
請求項6の発明では、請求項1〜5のいずれかの発明において、前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対であることを特徴とする。
請求項7の発明では、請求項1〜5のいずれかの発明において、前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対を、連続する規定の複数個のアクセント句に関して連結したデータ組であることを特徴とする。
なお、以下に説明する実施形態において用いる主な用語の意味を以下に簡単に記載しておく。「母集団」:合成音声として出力しようとする音声メッセージに対応した例文の略全種類を含む文字列集団。「子集団」:音声パラメータと音響単位とを生成するために母集団から選択した例文の文字列集団。「例文」:母集団と子集団とのそれぞれの要素であるテキストデータ。これを読み上げた実際の音声から、HMM学習により音響単位と音声パラメータとが生成される。例文は、少なくとも1個のアクセント句を含み、文として完結していなくてもよい。「音響単位」:HMM学習により生成される。音素とアクセントパターンを用いる。「音声パラメータ」:HMM学習により生成される。スペクトル情報、F0(基本周波数)情報、時間継続長がそれぞれ数値表現されている。「音声メッセージ」:入力されたテキストから生成される合成音声。「入力テキスト」:音声メッセージを生成するために入力されるテキスト。「アクセント句」:最大1つのアクセント核を持つひとまとまりの音声。アクセント核が0の場合もある。「音素」:実施形態では、前後の音素の組み合わせを用いている。たとえば、音素記号の並びから2個ずつ連接した音素記号を抽出した組み合わせを音素とする。「あらゆる」を音素記号で表せば「arajuru」であるから、音素は、ar,ra,aj,ju,ur,ruの6個になる。ただし、音素としてモーラを用いることも可能である。また、形態素、語長などの情報を含んでいてもよい。「アクセントパターン」:アクセント句ごとに(モーラ数−アクセント型)で表されるデータ対。「連接アクセントパターン」:連続する複数個(実施形態2では2個)の連続するアクセントパターンのデータ組。「アクセント型」:アクセント句内でのアクセント位置に応じた数値。
請求項1〜3の方法によれば、音声データベースに格納する情報として、音韻に関する情報である音素だけではなく、韻律に関する情報であるアクセントパターンも用いるから、音声合成時に韻律情報を考慮した音声合成データベースを利用することで、自然な合成音声を得ることが可能になる。しかも、音素とアクセントパターンとの両方について出現確率が均一化されるように音声データベースのデータを作成するから、母集団のすべての例文を合成音声で出力するのに必要な音素やアクセントパターンを音声データベースに登録することができ、結果的に高音質の合成音声の出力が期待できる。
とくに、請求項3の方法によれば、子集団と残余集団との例文を交換したときに音韻環境やアクセントパターンの出現確率が均一化される方向に変化する場合に、残余集団と子集団との間で例文を交換するから、音素とアクセントパターンとの出現確率が均一化されるように音声データベースのデータを作成することができる。つまり、音声データベースにおいて音素やアクセントパターンの出現確率に偏りが生じないから、母集団のすべての例文を合成音声で出力するのに必要な音素やアクセントパターンを音声データベースに登録することができ、結果的に高音質の合成音声の出力が期待できる。
請求項4、5の方法によれば、音素とアクセントパターンとの評価値を合算しているから、規定値との比較を個別に行う必要がなく、とくに、請求項4の方法によれば、重み係数を調節することにより、音素とアクセントパターンとの一方を優先させることも可能になる。
請求項6の方法によれば、アクセントパターンを簡単な形に定式化することにより、韻律に関する情報を音素と同様に扱うことが可能になる。
請求項7の方法によれば、アクセントパターンを簡単な形に定式化するとともに、連続する規定の複数個のアクセント句のアクセントパターンを用いるから、合成音声のつながりが滑らかになり、自然な合成音声を出力することが可能になる。
本発明の実施形態を示す動作説明図である。 同上のブロック図である。 同上の母集団と子集団との関係を図である。 同上に用いるアクセント句の概念を説明する図である。 同上の動作説明図である。
(実施形態1)
以下に説明する実施形態では、合成音声により出力しようとする音声メッセージが姓名のうちの名前である場合を想定し、名前を漢字かな混じりのテキストとして入力すると、当該テキストを含む音声を出力する場合について説明する。なお、以下に説明する実施形態では、音声データベースに登録する情報を生成するための例文であるテキストと、出力する合成音声を指示する文字列であるテキストとを区別するために、後者を入力テキストと呼ぶ。もちろん、前者と後者とのどちらのテキストも電気的処理が可能であるようにテキストデータとして与えられる。
また、音声データベースに登録する音声パラメータおよび韻律を表現する情報を生成するために母集団および子集団に登録される要素の単位を「例文」と呼ぶ。例文は、文だけではなく、単語、複数の単語を結合した語、句を含む。より具体的には、1個以上のアクセント句を含む文字列を「例文」と呼ぶ。
アクセント句は、最大1つのアクセント核(アクセントのある音節の終わり近くからピッチ周波数が急激に下降する領域)を持つひとまとまりの音声であり、基本周波数の山にほぼ相当し、文節にほぼ対応している。アクセント核は0の場合もある(図4の2番目のアクセント句を参照)。
図4に示す例は、例文の一部であり、「あらゆる げんじつを すべて じぶんのほうへ ねじま」という単語列について得られる音声信号の波形(図4(a))から図4(b)のようにピッチ周波数を抽出したときに、ピッチ周波数が急激に下降する領域からピッチ周波数が下降しなくなる領域(無音領域も含む)に移行する時点をアクセント句の境界BLとしている。図4において、各アクセント句の中でのアクセントの位置は単語列の文字に下線を付与することで示している。アクセント句の境界BLを求める方法については種々提案されているので、ここでは説明を省略する。
本発明は、母集団から子集団を生成する技術に関するものであり、音声合成の技術は要旨ではないが、音声合成の技術について簡単に触れておく。図2に示すように、音声合成部1は、入力テキストが入力されると音声生成手段10において合成音声を生成して出力する。入力テキストは、適宜の記憶部に保存したものやキーボードのような入力手段から入力したものを用いる。音声生成手段10では、入力テキストから抽出した中間情報を音声データベースF1に照合し、入力テキストに相当する合成音声を生成する。
入力テキストを音声生成手段10で扱うのに適した形式に変換するために言語解析手段11を設けている。言語解析手段11では、入力テキストを形態素に分割するとともに、文型(後述する)の分類を行う。
また、言語解析手段11では、入力テキストの読み方およびイントネーション(アクセントを含む)を抽出する。ここに、「イントネーション」とは、1または複数の単語を含む区間(アクセント句)のピッチの時間変化のパターンを意味している。したがって、イントネーションには1単語のアクセントも含まれる。名前の読み方については、同じ文字で異なる読み方があるから、あらかじめ入力テキストに読み方を含めたり、読み方の候補を利用者に提示して選択させるようにしてもよい。
さらに、言語解析手段11では、音声データベースF1と照合するために音素の集合の時系列である中間テキストを生成し、音声生成手段10に中間テキストを与える。音声データベースF1には、音素を音声パラメータに関係付けたデータが格納されているから、音声生成手段10では音素の集合である中間テキストを音声データベースF1に照合することにより、中間テキストに対応する音声パラメータを取得することができ、この音声パラメータにより合成音声を生成することができる。
音声データベースF1に格納される音声パラメータと音素とは学習部2において生成される。学習部2では、収録音声データベースF3に格納された実際の音声と、書起しテキスト集合ファイルF4に格納した例文(テキストデータとして格納されている)とを用いて音声パラメータを生成する。収録音声データベースF3に格納された音声は、書起しテキスト集合ファイルF4に格納された例文を、アナウンサやナレータが読み上げた音声であって、この収録音声からメルケプストラム抽出手段21とF0検出手段22と音素境界情報抽出手段23とを用いて、メルケプストラム、F0(基本周波数)、音素境界を抽出する。また、学習部2に設けた中間ファイル作成手段24では、書起しテキスト集合ファイルF4に格納された例文に付随した音素を中間ファイルとする。
音声パラメータと中間ファイルとは学習データとしてHMM学習手段25に与えられ、HMM学習により音声パラメータのクラスタリングが行われ、音声パラメータが中間ファイルと関係付けられた形で音声データベースF1に格納される。すなわち、音声パラメータと音素とが音響単位として音声データベースF1に格納される。
上述の説明からわかるように、書起こしテキスト集合ファイルF4に格納された例文の集合が子集団であり、書起こしテキスト集合ファイルF4に格納された例文は、母集団ファイルF2を用いて生成される。
ところで、本実施形態における例文は上述のように名前であって、日本人の名前には読み方だけで数万種類(3万種類程度)あると言われている。音声データベースF1に登録する情報を生成するために、すべての名前について収録した実際の音声を用いれば確実性の高い情報が得られるが、このような多数の名前のすべてを収録するのは、収録に要する時間、費用、記憶容量などの点で現実的とは言えない。
したがって、音声データベースF1に登録する情報は、母集団である所定種類の名前(全種類の名前を含む母集団は実現できないが、できるだけ多種類の名前を母集団に含むように、略全種類の名前を含む母集団を形成することが望ましい)から一部の名前を抽出して形成した子集団を用いることになる。
すなわち、図3に示すように、数万種類の例文を含む母集団Mの中から1千種類程度の例文からなる子集団σを形成する名前(例文)を選択し、子集団σについて収録した実際の音声から音声データベースF1に登録する情報を生成するのである。この場合、子集団σに含まれる名前は、母集団Mに含まれるすべての名前に適用できる情報を抽出することができるものでなければならない。
そこで、学習部2には、全種類の名前を登録した母集団ファイルF2に格納された母集団Mのうち、音声データベースF1を作成するのに最適な名前を含む子集団σを生成するための収録テキスト集合最適化手段20が設けられている。すなわち、母集団ファイルF2に格納された名前のうち収録テキスト集合最適化手段20で選択された名前が書起しテキスト集合ファイルF4に登録され、書起しテキスト集合ファイルF4に登録された名前を読み上げた音声が収録音声データベースF3に格納されるのである。
ここに、母集団ファイルF2に格納された名前(音素表記される)には、音素とアクセントパターンとを関係付けてあり、音素とアクセントパターンとは以後の処理で用いられる。音素およびアクセントパターンは、あらかじめ母集団の各要素である名前を分析することにより定義される。
なお、上述した音声合成部1および学習部2は、コンピュータもしくはデジタルシグナルプロセッサを主構成要素としており、適宜のプログラムを実行することにより上述した動作を行うものである。
以下では、収録テキスト集合最適化手段20により母集団Mである名前から子集団σである名前を選択する方法について説明する。
HMMの説明変数として、モーラ、形態素、語長などの各種情報を含めることによりさまざまな音素を正確に表すことができるが、ここでは、説明を簡単にするために、音素として、音素記号の並びから2個ずつ連接した音素記号を抽出した組み合わせを用いる。たとえば、「げんじつ」を音素記号で表せば「genzicu」であるから、音素として、ge,en,nz,zi,ic,cuの6個を抽出する。ただし、音素としてモーラ([ka]や[ki]のような1カナに相応する長さを表す単位であり、拗音、促音、長音も1つのモーラになる)を用いてもよい。
また、イントネーションを表すために、アクセント句を単位としてアクセント句中のモーラ数とアクセント型(アクセント句内でのアクセント位置に応じた数値で表す)とのデータ対を用いる。具体的には、(モーラ数−アクセント型)の形式で表す。このように表記されたイントネーションを「アクセントパターン」と呼ぶ。アクセントパターンをこのように表記することにより、簡単な表記でイントネーションを表すことが可能になる。
たとえば、「アイ」「アキ」のようにアクセント位置が1番目のモーラであるアクセント句はアクセント型を1型とし、これらのアクセント句はモーラ数が2であるから、アクセントパターンは(2−1)になる。アクセント型は、アクセントの音節位置にほぼ対応しており、アクセント位置が1番目のモーラの場合は1型、2番目のモーラの場合は2型などとなり、アクセントがない場合には0型になる。言い換えると、アクセント句の中でピッチが相対的に高く、降下する場所をアクセント位置とし、ピッチの降下がない場合は、0型になる。したがって、「ハシ」を例とすると、端は0型、箸は1型、橋は2型になる。
アクセントパターンは、音素とともに、書起しテキスト集合ファイルF4に格納されたテキストデータに所定のルールを適用して決められる。たとえば、書起しテキスト集合ファイルF4に格納されたテキストデータが、「ハナコ」「マサヤ」「タロウ」などであるものとし、言語情報に基づいてアクセント位置を決める一般的ルールを適用して、アクセントパターンを推定する。たとえば、「ハナコ」のように3モーラの名前で末尾が「コ」である場合には、第1モーラにアクセントが存在するという一般的ルールがあるので、ハナコのイントネーション型は、(3−1)になる。
本実施形態では、音声データベースF1には音素に関係付けた音声パラメータのほかに、アクセント句を単位とするアクセントパターンが登録される。音声合成部1の言語解析手段11から出力される中間テキストには、音素の属するアクセント句のモーラ数のほかに、アクセント位置の情報も含まれており、音声生成手段10において、中間テキストのコンテキスト情報を照合することにより、音声データベースF1から音声パラメータが抽出され、中間テキストに対応した合成音声が生成される。
ところで、収録テキスト集合最適化手段20では、HMM学習に用いる学習データにおいて、各音素および各アクセントパターンの出現確率がそれぞれ等しくなるように、学習データである子集団σに含まれる例文を選択する。すなわち、子集団σとして選択した例文(名前)に含まれる音素の出現確率がほぼ等しくなり、また、当該例文におけるアクセントパターンの出現確率がほぼ等しくなるように例文を選択する。
そのため、収録テキスト集合最適化手段20では、図1に示すように、まず母集団Mから複数種類の名前を適宜に選択して子集団σを仮に作成する(S1)。ここに選択する例文の個数は利用者が定めた個数とする。すなわち、子集団σのサイズを利用者が指定できるように、収録テキスト集合最適化手段20には個数指定用の入力手段が設けられる。子集団σを作成した後、子集団σにおける各音素の出現確率および各アクセントパターンの出現確率に基づいた評価値を求める。後述するように、これらの評価値は情報エントロピーに類似した形になるから、以下ではエントロピーと呼ぶ。
次に、母集団Mから子集団σを除いた残余集団Σと子集団σとの中からそれぞれ適宜数の例文を抽出し(S2)、残余集団Σと子集団σとからそれぞれ抽出した例文を入れ換えた場合の子集団σのエントロピーを求める(S3)。例文の交換によってエントロピーが増大する場合(規定の閾値を超えて増大する場合)には(S4:Yes)、残余集団Σと子集団σ間で例文を入れ換える(S5)。また、例文の交換ではエントロピーに変化がないかエントロピーが減少する場合には(S4:No)、残余集団Σと子集団σとの間で例文の入れ換えは行わない。
上述の処理は、残余集団Σと子集団σとの間での例文を、交換する回数が規定の回数に達するまで行い、例文の交換が規定の回数に達すると処理を終了し(S6:Yes)、子集団σを書起しテキスト集合ファイルF4に転送する。
上述のようにして得られた子集団σでは、エントロピーが最大になる保証はないが、交換回数を多くすれば、各音素の出現確率および各アクセントパターンの出現確率の偏りが低減されることになる。すなわち、子集団σに含まれる比較的少数の名前を用いながらも、母集団Mに含まれるすべての名前について同程度の品質の音声を出力するのに必要な音素およびアクセントパターンを音声データベースF1に登録することができる。
上述したように、音素およびアクセントパターンについてエントロピーが増大するように小集団σに含まれる例文(名前)を母集団Mから選択することにより、少数の例文(名前)を用いるだけで、高品質の合成音声が得られるように音声データベースF1のデータを生成することができる。ただし、音素とアクセントパターンとの両方のエントロピーを同時に増加させるように例文(名前)を選択しようとすれば、子集団σに含まれる例文が収束するまでの例文の交換回数を多くしなければならず、子集団σを決定するまでに要する時間が長くなる。
そこで、本実施形態では、音素とアクセントパターンとの一方を優先させて例文を収束させることを可能として交換回数を調節可能にしている。すなわち、数1に示すように、音素に関するエントロピーSaとアクセントパターンに関するエントロピーSbとの重み付き加算による評価値Sを用い、重み係数wa,wbの割合を適宜に変更することによって、音素とアクセントパターンとの優先度を調節するのである。
Figure 2009237564
ただし、p、qは各音素と各アクセントパターンとの出現確率であり、N,Mは音素とアクセントパターンとの抽出すべき要素数p、qである。
上述のように、音素とアクセントパターンとの優先度を調節可能としているから、たとえば、例文を名前だけではなく姓や場所名(リビング、大阪など)などに拡張する場合に、名前に関する小集団σを生成する際には音素の優先度を高くし、姓や場所名に関する小集団σを生成する際にはアクセントパターンの優先度を高めるという動作が可能になる。この場合、名前に関する小集団σから得られた音声パラメータは姓や場所名にも適用でき、また姓や場所名の小集団σから得られた音声パラメータは名前にも適用できるから、音素とアクセントパターンとについて適正な音声パラメータを生成する例文を抽出することができる。
(実施形態2)
実施形態1では、1個のアクセント句からなる名前、姓、地名などを例文として扱う例を示したが、本実施形態では複数個のアクセント句を含む文章を例文を扱う場合を例として説明する。
1個のアクセント句からなる例文を扱う場合には、子集団σ(書起こしテキスト集合ファイルF4)に含まれる例文についてアクセント句ごとに音素とアクセントパターンとを求め、音素とアクセントパターンとのエントロピーを最大化するように、母集団ファイルF2の例文から書起こしテキスト集合ファイルF4となる例文を抽出すればよい。
しかしながら、本発明者らの研究によれば、複数個のアクセント句を含む例文を扱う場合に、各アクセント句を個別に扱うだけでは、滑らかな口調の合成音声を生成することができないという知見が得られた。そこで、本実施形態では、アクセント句の連鎖を考慮することにより、より自然感の高い合成音声を得るようにしている。
すなわち、本実施形態では、母集団M(母集団ファイルF2)に、例文として、表1のような文章が含まれているものとする。表1では3段ずつに区切って記載しており、各3段のうちの1段目が文章、2段目が音素表記、3段目がアクセントパターン(「Aパターン」と記載している)である。また、ハイフンの前の数値がモーラ数であり、ハイフンの後の数値がアクセント型を示している。また、音素表記における大文字の「S」は、無音区間を示している。
Figure 2009237564
本実施形態では、母集団Mから子集団σを生成するにあたって、アクセントパターンの前後関係を用いるものであり、基本的には、連続する2個のアクセントパターンを1単位に用いる。もちろん、連続する3個以上のアクセントパターンを1単位として用いることは可能であり、とくに連続する3個のアクセントパターンを1単位に用いると、連続する2個のアクセントパターンを1単位とする場合よりも合成音声の滑らかさが向上するが、処理負荷が大きくなるから、ここでは連続する2個のアクセントパターンを用いる例を示す。
また、実施形態1のようにアクセントパターンが1個である例文については、アクセントパターンとして無音区間と有音区間との別を含むようにすることにより、連続する2個のアクセントパターンとして表すことが可能である。たとえば、無音区間をS、有音区間をVとして、S,Vをアクセントパターンに用いるのである。
しかるに、連続する2個のアクセントパターンを例文から抽出するには、まず母集団ファイルF2の例文から、音素とともにアクセントパターンを抽出する。その後、(2−1_2−0)(2−1_2−1)(2−1_2−2)のように、連続する各2個のアクセントパターンについて連接関係を抽出する。1個のアクセントパターンが独立している例文では、(S_3−2)(3−1_S)(3−0_V)のように無音区間Sや有音区間Vとの連接関係を用いる。以下では、2個連列したアクセントパターンのデータ組を「連接アクセントパターン」と呼ぶ。
ここに、抽出すべき連接アクセントパターンの種類は、音声メッセージを出力しようとする合成音声の種類に応じて利用者があらかじめ定義しておく。たとえば、音素について386種類、連接アクセントパターンについて159種類を定義しておく。また、母集団Mの例文数はたとえば506個、作成する子集団σの例文数はたとえば200個などと規定しておく。
このような制約の中で、母集団Mから子集団σとして選択した例文で、定義したすべての音素およびすべての連接アクセントパターンを含むとは限らないが、収録テキスト集合最適化手段20において以下の手順を用いて例文の選択を最適化することにより、定義した大部分の音素および連接アクセントパターンを含む例文の集合としての子集団σを生成することができる。
すなわち、音素に関するエントロピーとともに、連接アクセントパターンに関するエントロピーを算出し、実施形態1と同様に、2種類のエントロピーについては、重み付き加算を行うことにより、音素と連接アクセントパターンとの優先度を調節する。ここでは、各エントロピーに対する重み係数として0.5を用いるものとする。すなわち、音素と連接アクセントパターンとの重み係数を等しくする。
母集団Mから子集団σを生成するには、上述のようにして2種類のエントロピーについて重み付き加算を行った結果を評価値に用い、実施形態1と同様に、仮の子集団σを生成した後に、母集団Mの例文から仮の子集団σに含まれる例文を除いた残余集団Σと、仮の子集団σとの間で例文との交換を行い、評価値の増減を判定する。この交換により評価値が増大する場合(規定の閾値を超えて増大する場合)は当該交換を採用し、評価値が増加しない場合には当該交換を採用せずに別の例文の交換を行う。
残余集団Σと子集団σとの間で例文の交換を行うと、交換回数に対する評価値の変化は、たとえば図5のような傾向を示す。したがって、交換による評価値の変化がほぼ飽和した時点で交換の処理を終了すればよい。すなわち、実施形態1と同様に、終了のタイミングを交換の回数により規定しておけばよい。ただし、規定回数(たとえば、5回)の交換を行ったときの評価値の平均変化率を求め、平均変化率が規定値以下になった時点で交換の処理を終了してもよい。
他の構成および動作は実施形態1と同様であり、実施形態1では、韻律情報について1個のアクセント句についてのみ着目していたのに対して本実施形態では、複数のアクセント句の連接関係に着目しているので、韻律情報に関して大幅な情報量の増加を伴うことなく、合成音声の品質を高めることが可能になる。
1 音声合成部
2 学習部
10 音声生成手段
20 収録テキスト集合最適化手段
F1 音声データベース
F2 母集団ファイル
F3 収録音声データベース
F4 書起しテキスト集合ファイル
M 母集団
σ 子集団
Σ 残余集団

Claims (7)

  1. 少なくとも1個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第1の評価値およびアクセントパターンの出現確率を評価する第2の評価値が、ともに規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする音声合成用データの選択方法。
  2. 少なくとも1個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、子集団に含まれる例文について音素の出現確率を評価する第1の評価値およびアクセントパターンの出現確率を評価する第2の評価値との合計が規定値以上になることを判断基準として子集団に含める例文を選択することを特徴とする音声合成用データの選択方法。
  3. 少なくとも1個のアクセント句を含んだ例文を要素とする集合である母集団の部分集合としての子集団を生成するにあたり、当該子集団に含まれるすべての例文を読み上げた音声から母集団に含まれるすべての例文の合成音声を生成するのに必要な音響単位が抽出可能になるように、子集団を構成する例文を母集団の例文から選択する方法であって、音響単位として音素とアクセント句のアクセントパターンとを用い、母集団の要素である例文を登録した母集団ファイルから指定した個数の例文を取り出して仮の子集団とする第1ステップと、仮の子集団に含まれる例文について音素の出現確率を評価する第1の評価値およびアクセントパターンの出現確率を評価する第2の評価値をそれぞれ求める第2ステップと、母集団から子集団を除いた残余集団に含まれる1個の例文と子集団に含まれる1個の例文とを仮に交換したときに第1および第2の評価値の増減を判断し交換によって第1および第2の評価値が増大する場合には例文を交換する第3ステップとを有し、第1の評価値と第2の評価値との少なくとも一方が規定値以上になるか交換回数が規定回数に達するまで第3ステップを繰り返すことを特徴とする音声合成用データの選択方法。
  4. 前記第3ステップで前記第1の評価値と前記第2の評価値とを規定値と比較するにあたり、第1の評価値と第2の評価値との重み付き加算の結果を比較することを特徴とする請求項3記載の音声合成用データの選択方法。
  5. 前記第3ステップで前記第1の評価値と前記第2の評価値とを規定値と比較するにあたり、第1の評価値と第2の評価値との合計を比較することを特徴とする請求項3記載の音声合成用データの選択方法。
  6. 前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対であることを特徴とする請求項1〜5のいずれか1項に記載の音声合成用データの選択方法。
  7. 前記アクセントパターンは、例文においてアクセント句ごとに抽出したモーラ数とアクセント型とのデータ対を、連続する規定の複数個のアクセント句に関して連結したデータ組であることを特徴とする請求項1〜5のいずれか1項に記載の音声合成用データの選択方法。
JP2009049853A 2008-03-05 2009-03-03 音声合成用データの選択方法 Pending JP2009237564A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009049853A JP2009237564A (ja) 2008-03-05 2009-03-03 音声合成用データの選択方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008055243 2008-03-05
JP2009049853A JP2009237564A (ja) 2008-03-05 2009-03-03 音声合成用データの選択方法

Publications (1)

Publication Number Publication Date
JP2009237564A true JP2009237564A (ja) 2009-10-15

Family

ID=41251498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009049853A Pending JP2009237564A (ja) 2008-03-05 2009-03-03 音声合成用データの選択方法

Country Status (1)

Country Link
JP (1) JP2009237564A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102328A (ja) * 2015-12-03 2017-06-08 日本電信電話株式会社 文章セット生成装置、文章セット生成方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981173A (ja) * 1995-09-12 1997-03-28 Canon Inc 音声規則合成方法とその装置
JP2002268672A (ja) * 2001-03-13 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声データベース用文セットの選択方法
JP2004246140A (ja) * 2003-02-14 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト選択方法、装置及びプログラム
JP2006284700A (ja) * 2005-03-31 2006-10-19 Sanyo Electric Co Ltd 音声合成装置および音声合成処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981173A (ja) * 1995-09-12 1997-03-28 Canon Inc 音声規則合成方法とその装置
JP2002268672A (ja) * 2001-03-13 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声データベース用文セットの選択方法
JP2004246140A (ja) * 2003-02-14 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト選択方法、装置及びプログラム
JP2006284700A (ja) * 2005-03-31 2006-10-19 Sanyo Electric Co Ltd 音声合成装置および音声合成処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102328A (ja) * 2015-12-03 2017-06-08 日本電信電話株式会社 文章セット生成装置、文章セット生成方法、プログラム

Similar Documents

Publication Publication Date Title
US7809572B2 (en) Voice quality change portion locating apparatus
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
EP1221693B1 (en) Prosody template matching for text-to-speech systems
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
MXPA01006594A (es) Metodo y sistema para la preseleccion de unidades adecuadas para habla por concatenacion.
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
JP4811557B2 (ja) 音声再生装置及び発話支援装置
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP2016151736A (ja) 音声加工装置、及びプログラム
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP2009237564A (ja) 音声合成用データの選択方法
JP2011197124A (ja) データ作成システム及びプログラム
JP3571925B2 (ja) 音声情報処理装置
Bettayeb et al. A Study to Build a Holy Quran Text-To-Speech System
JPH06318094A (ja) 音声規則合成装置
Dessai et al. Development of Konkani TTS system using concatenative synthesis
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK
Jha et al. Maithili text-to-speech system
Lazaridis et al. Phone duration modeling: overview of techniques and performance optimization via feature selection in the context of emotional speech
Morais et al. Data-driven text-to-speech synthesis

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100714

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110915

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130129