JP2017102328A

JP2017102328A - 文章セット生成装置、文章セット生成方法、プログラム

Info

Publication number: JP2017102328A
Application number: JP2015236629A
Authority: JP
Inventors: 勇祐井島; Yusuke Ijima; 明弘吉田; Akihiro Yoshida
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2017-06-08
Anticipated expiration: 2035-12-03
Also published as: JP6479637B2

Abstract

【課題】音韻、韻律などの文章選択のための要素においてバランスのとれた学習用文章セットを生成する文章セット生成装置を提供する。
【解決手段】決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、解析後文章記録部１０４に記録した、母集団文章セットの選択元文章と文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部１３０とを有する。
【選択図】図３

Description

本発明は、音声合成用モデルの学習に用いる文章を選択する技術に関し、特にモデル適応により変換元となる音声合成用モデルから別の音声合成用モデルを学習する際に用いる文章を選択する技術に関する。

コーパスベース音声合成技術では、学習用文章セット（コーパス）を発話した音声から音声合成用モデルを学習し、当該モデルを用いて合成音声を生成する。近年、コーパスベース音声合成技術の一つとして、任意の話者に関する少量の音声データを用いて、事前に学習した音声合成用モデル（変換元モデル）から当該話者の音声合成用モデル（変換後モデル）を生成し、変換後モデルから当該話者の合成音声を生成する手法であるモデル適応技術が提案されている（非特許文献１）。このモデル適応技術は、目標話者の音声を合成するために必要な音声データが少量でよいという特徴を有する。

コーパスベース音声合成技術を用いて、できる限り低コストで高品質な合成音声を生成するためには、音韻、韻律などにおいてバランスが取れた学習用文章セットを準備する必要がある。バランスが取れた学習用文章セットを生成するためには、事前に用意する大量の文章の集合（以下、母集団文章セットという）から、音素（ｍｏｎｏｐｈｏｎｅ、ｄｉｐｈｏｎｅ、ｔｒｉｐｈｏｎｅなど）、音節、単語といった音韻情報をできるだけ多くカバーするように学習用文章セットを生成する手法（特許文献１）や発話単位に加えてアクセント等も考慮して学習用文章セットを生成する手法（非特許文献２）等が提案されている。

特開２００４−２４６１４０号公報

田村正統、益子貴史、徳田恵一、小林隆夫、"ＨＭＭに基づく音声合成におけるピッチ・スペクトルの話者適応"、電子情報通信学会論文誌、電子情報通信学会、２００２年４月、Vol.J85-D-II No.4 pp.545-553．荒生侑介、能勢隆、郡山知樹、篠崎隆宏、小林隆夫、"音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価"、日本音響学会２０１４年春季研究発表会講演論文集、日本音響学会、２０１４年３月、pp.405-406．

これらの文献に記載の手法では、学習用文章セットを発話した音声によりカバーされる対象となる音韻、韻律などの文章選択に用いる要素（以下、文章選択要素という）が膨大とならないように、事前に人手で絞り込む必要がある。例えば、非特許文献２に記載の手法では、音素の連鎖を考慮する際に人手で音素をグルーピングすることで、カバー対象となる文章選択要素を絞り込んでいる。しかし、このような人手での絞り込みは、音声合成用モデルの学習で用いる情報を落としてしまう可能性があり、必ずしも最適な学習用文章セットが生成されているとは限らない。

そこで、変換元モデルを用いて、変換後モデル学習に用いる音声データの元になる学習用文章セットを母集団文章セットから生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成する文章セット生成装置を提供することを目的とする。

本発明の一態様は、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部とを有する。

本発明によれば、変換元モデルを用いて母集団文章セットから学習用文章セットを生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成することが可能となる。

モデル適応技術の概要を示す図。決定木により表現した変換元モデルの一例を示す図。実施例１の文章セット生成装置１００の構成を示すブロック図。実施例１の文章セット生成装置１００の動作を示すフローチャート。実施例１の文章選択用情報テーブルの一例を示す図。コンテキストの一例を示す図。実施例１の文章選択部１３０の構成を示す図。実施例１の文章選択部１３０の動作を示すフローチャート。実施例３の文章セット生成装置３００の構成を示すブロック図。実施例３の文章セット生成装置３００の動作を示すフローチャート。実施例３の文章選択用情報テーブルの一例を示す図。実施例３の文章選択部３３０の構成を示す図。実施例３の文章選択部３３０の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

まず、図１を参照してモデル適応技術の概略について説明する。モデル適応では、変換元モデル学習用音声データから変換元モデルを学習する処理（変換元モデル学習処理）、変換後モデル学習用音声データを用いて変換元モデルを変換後モデルに変換する処理（変換後モデル学習処理）が行われる。変換後モデル学習用音声データは、学習用文章セットの文章を発話した音声であり、この学習用文章セットの文章は母集団文章セットから選択される。この選択処理を行う（つまり、学習用文章セットを生成する）のが、本願発明の文章セット生成装置である。

次に、いくつかの用語について定義・説明を与える。音声合成用モデルとは、音声合成の際に必要となる音声の特徴量（例えば、基本周波数（Ｆ０）などの音高パラメータ、ケプストラムやメルケプストラムなどのスペクトルパラメータ）、継続時間長を音声合成単位ごとに統計的にモデル化したものである。音声合成単位の例として、音素、音節、単語などがある。

本願発明では音声合成用モデルの中でも決定木構造を持つモデルを扱う。決定木構造を持つモデルとして代表的なものにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）音声合成（参考非特許文献３）がある。ＨＭＭ音声合成では、パラメータごとに音声合成用モデルが決定木で表現される。その例として、スペクトルパラメータ、音高パラメータ、継続時間長の３つのパラメータを用いたＨＭＭ音声合成モデルの二分決定木を図２に示す。決定木の表現に用いられている情報は変換元モデルの学習に用いた情報であり、文章選択に用いる文章選択要素となるものである。決定木は文章選択要素を用いて表現される木である。具体的には、リーフノード以外の内部ノードには文章選択要素に関する問いが付与されており、ＹＥＳ（該当する）、ＮＯ（該当しない）の判断に従い、次の深さのノード（内部ノードまたはリーフノード）に進むような決定木となっている。
（参考非特許文献３）益子貴史、徳田恵一、小林隆夫、今井聖、“動的特徴を用いたＨＭＭに基づく音声合成”、電子情報通信学会論文誌、電子情報通信学会、１９９６年１２月、Vol.J79-D-II No.12 pp.2184-2190．

以下、図３、図４を参照して実施例１の文章セット生成装置１００について説明する。図３は、実施例１の文章セット生成装置１００の構成を示すブロック図である。図４は、実施例１の文章セット生成装置１００の動作を示すフローチャートである。図３に示すように文章セット生成装置１００は、文章選択用情報テーブル作成部１１０と、文章選択用情報テーブル記録部１０３と、テキスト解析部１２０と、解析後文章記録部１０４と、文章選択部１３０を含む。文章セット生成装置１００は、変換元モデル記録部１０１、選択元文章記録部１０２と接続している。

変換元モデル記録部１０１には、モデル適応の変換元モデル学習処理で学習した変換元モデルを記録しておく。選択元文章記録部１０２には、母集団文章セットの要素である選択元文章を記録しておく。

文章選択用情報テーブル作成部１１０は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する（Ｓ１１０）。文章選択用情報テーブルは、各パラメータの決定木に対応して作成される。例えば、スペクトルパラメータ、音高パラメータ、継続時間長の３つのパラメータを用いた音声合成用モデルでは、３つの決定木（図２参照）から３つの文章選択用情報テーブル（図５参照）が作成される。スペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数をＮ_ｓｐ、Ｎ_Ｆ０、Ｎ_ｄｕｒとし、リーフノードが１〜Ｎ_ｓｐ、１〜Ｎ_Ｆ０、１〜Ｎ_ｄｕｒで識別されるとすると、スペクトルパラメータ、音高パラメータ、継続時間長の文章選択用情報テーブルはリーフノード１〜Ｎ_ｓｐ、リーフノード１〜Ｎ_Ｆ０、リーフノード１〜Ｎ_ｄｕｒの選択頻度を保持するテーブルとなる。選択頻度は選択元文章を処理する過程でそのリーフノードが選択された回数を表すが、詳細については文章選択部１３０で説明する。文章選択用情報テーブル作成部１１０では、各テーブルの各リーフノードの選択頻度の値を０で初期化する。

当該文章選択用情報テーブルは、文章選択用情報テーブル記録部１０３に記録する。文章選択用情報テーブル記録部１０３は、ＲＡＭ、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。

テキスト解析部１２０は、母集団文章セットの各選択元文章に対して、読み、アクセントなどの情報を付与した後、読み、アクセント、形態素などの文章選択要素を用いて表現されるコンテキストを音声合成単位ごとに付与した文章である解析後文章を生成する（Ｓ１２０）。つまり、解析後文章とは、選択元文章と１以上のコンテキストの組である。また、コンテキストは、文章選択部１３０による処理に必要な情報であり、決定木構造をたどるために用いられる。コンテキストは、例えば、図６のコンテキストラベルを用いて表現することができる（参考非特許文献４）。
（参考非特許文献４）吉岡元貴、田村正統、益子貴史、小林隆夫、徳田恵一、“ＨＭＭ音声合成における韻律の変動要因の検討”、電子情報通信学会技術研究報告．ＳＰ，音声、電子情報通信学会、２００１年１０月、Vol.101, No.352, pp.51-56．

したがって、（読み、アクセント、形態素などの）コンテキストの表現に用いる文章選択要素の種類は、決定木の表現に用いられているものと同一である必要がある。例えば、変換元モデルの学習に読みとアクセントを使用した場合は、テキスト解析部１２０で得られるコンテキストは読みとアクセントのみでよい。

当該解析後文章は、解析後文章記録部１０４に記録する。解析後文章記録部１０４は、文章選択用情報テーブル記録部１０３と同様、ＲＡＭ、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。

また、コンテキストは何らかのテキスト解析手法により付与されるものとする。なお、テキスト解析する代わりに事前に人手で付与しておいてもよい。この場合、テキスト解析部１２０は不要である。文章セット生成装置１００はテキスト解析部１２０を有さない構成となり、選択元文章記録部１０２と接続する代わりに母集団文章セットの選択元文章を解析した解析後文章を記録した解析後文章記録部１０４と接続することになる。このときの解析後文章記録部１０４は永続的な記録媒体を用いて構成されることになる。

文章選択部１３０は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する（Ｓ１３０）。以下、図７、図８を参照して文章選択部１３０の処理について詳細に説明する。図７は、文章選択部１３０の構成を示すブロック図である。図８は、文選択部１３０の動作を示すフローチャートである。図７に示すように文章選択部１３０は、リーフノード決定部１３１と、スコア計算部１３２と、最高スコア文章選択部１３３と、文章選択用情報テーブル更新部１３４と、終了判定部１３５を含む。

母集団文章セットに含まれる選択元文章の数をＳとして、選択元文章をＢ_１、Ｂ_２、…、Ｂ_Ｓで表す。また、選択元文章Ｂ_ｉ（ｉ＝１，２，…，Ｓ）をテキスト解析部１２０が処理した結果である解析後文章をＡ_ｉで表す。解析後文章をＡ_ｉに含まれるコンテキストの数（つまり、音声合成単位の数）をｋ（ｉ）とし、コンテキストをＣ_ｊ（ｊ＝１，…，ｋ（ｉ））で表すことにすると、Ａ_ｉ＝（Ｂ_ｉ，Ｃ_１，…，Ｃ_ｋ（ｉ））と表すことができる。各コンテキストＣ_ｊには文章選択要素の種類数の情報が含まれる。例えば、図６のコンテキストラベルには、音素、形態素、アクセント句の３種類の文章選択要素が含まれている。

リーフノード決定部１３１は、母集団文章セットの選択元文章Ｂ_ｉ（ｉ＝１，２，…，Ｓ、ただし、すでに学習用文章セットの要素となっている文章（以下、このすでに学習用文章セットの要素となっている文章の集合のことを生成済み学習用文章セットという）を除く）に対応する解析後文章Ａ_ｉに含まれるコンテキストＣ_ｊ（ｊ＝１，…，ｋ（ｉ））について、各パラメータの決定木をたどり、コンテキストＣ_ｊに対応するリーフノードを決定する（Ｓ１３１）。あわせて当該リーフノードの選択頻度を１増加させることで文章選択用情報テーブルを更新する。決定木をたどるとは、コンテキストを表現するために用いられている文章選択要素を用いて、内部ノードに付与されている問いに対してＹＥＳ−ＮＯを判断し、ルートからリーフノードに向かって進んでいくことをいう。なお、ルートからリーフノードに至るまでの判断結果のノードの列をパスといい、パスに含まれる内部ノード、リーフノードのことをカバーされる内部ノード、リーフノードという。

スコア計算部１３２は、Ｓ１３１で更新した文章選択用情報テーブル（つまり、生成済み学習用文章セットに選択元文章Ｂ_ｉを追加した集合に対応する文章選択用情報テーブル）を用いて、スコアＳＣ_ｉを算出する（Ｓ１３２）。なお、生成済み学習用文章セットは最初のＳ１３１の処理が始まるまでに空集合で初期化されているものとする。

文章選択におけるスコアの代表的なものとして、カバー率（特許文献１）、エントロピー（非特許文献２）がある。以下では、スコアにカバー率を採用して説明する。文章選択におけるカバー率とは、選択された１以上の文章により（音素環境などの）文章選択要素がどれだけカバーされているかを示す指標である。本実施例では、決定木のリーフノードを用いてカバー率を算出する。リーフノードを用いたカバー率の計算式は次式により表される。

ここで、Ｎ_ｓｐ、Ｎ_Ｆ０、Ｎ_ｄｕｒはスペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数である。また、関数ｏ_ｓｐ（ｋ）、ｏ_Ｆ０（ｋ）、ｏ_ｄｕｒ（ｋ）は、スペクトルパラメータ、音高パラメータ、継続時間長の決定木のｋ番目のリーフノードがカバー（選択）されているかどうかを出力する関数である。これらの関数は当該リーフノードの選択頻度が１以上であれば１を、０であれば０を出力する。これにより、学習用文章セット（Ｓ１３１とＳ１３２の繰り返し処理の過程では、生成済み学習用文章セットに選択元文章Ｂ_ｉを追加した集合）に含まれる文章を用いて３つの決定木に含まれるリーフノードが選択される割合を示すことができる。

スコアを算出した後、Ｓ１３１で更新した文章選択用情報テーブルを更新前の文章選択用情報テーブルに戻す。ただし、Ｓ１３１で更新した文章選択用情報テーブルの情報は文章選択用情報テーブル更新部１３４で用いるので、元に戻す際に当該情報は文章選択用情報テーブル更新部１３４が後ほど利用できるよう、コピーするなどして退避しておく。リーフノード決定部１３１での処理（Ｓ１３１）及びスコア計算部１３２での処理（Ｓ１３２）を母集団文章セットの選択元文章Ｂ_１、Ｂ_２、…、Ｂ_Ｓ（ただし、生成済み学習用文章セットに含まれるものを除く）に対して実行する。

最高スコア文章選択部１３３は、スコア計算部１３２が計算したＳＣ_１、ＳＣ_２、…、ＳＣ_Ｓ（ただし、生成済み学習用文章セットの文章に対応するものを除く）のうち、最も高くなるスコア（最高スコア）に対応する選択元文章Ｂ_ｋを選択し、生成済み学習用文章セットに追加する（Ｓ１３３）。

文章選択用情報テーブル更新部１３４は、リーフノード決定部１３１が選択元文章Ｂ_ｋを処理した際に生成した文章選択用情報テーブルの情報により、文章選択用情報テーブルを更新する（Ｓ１３４）。

終了判定部１３５は、終了条件を満たしているかどうかの判定を行い、満たしている場合、生成済み学習用文章セットを学習用文章セットとして出力する（Ｓ１３５）。終了条件としては、選択された文章数が所定値に達したか（例えば、生成済み学習用文章セットの濃度が｜Ｓ｜／２を超えたか）、Ｓ１３３で計算した最高スコアが所定値に達したか（例えば、最高スコアが０．８を超えたか）などがある。また、これらの組合せであってもよい。なお、最高スコアが所定値に達することがなかったために、すべての選択元文章を生成済み学習用文章セットに追加することもありえる。

変換元モデルの決定木を利用して学習用文章セットを生成するための基準となる（音素、アクセント等の）文章選択要素をモデル適応の過程において動的に設定することにより、文章選択要素においてバランスのとれた学習用文章セットを生成することが可能となる。また、その結果、当該学習用文章セットと同程度の文章量の文章セットを発話した音声データに基づいて生成する合成音声に比して、合成音声の品質が向上する。

実施例１では、スコア計算時に各パラメータのリーフノードを同等に扱っているため、ある特定のパラメータを重視して文章選択を行うことができない。そこで、実施例２では、パラメータに重みづけをしてスコアを計算する。これにより、文章選択の基準として特定のパラメータを重視した形で学習用文章セットを生成することが可能となる。

以下に、実施例１と相違するスコア計算部１３２の計算式について説明する。スコア計算部１３２は、次式のようにパラメータごとのサブスコアを算出し、それらの重み付き和としてスコアＳＣ_ｉを計算する（Ｓ１３２）。

ここで、ｗ_ｓｐ、ｗ_Ｆ０、ｗ_ｄｕｒはスペクトルパラメータ、音高パラメータ、継続時間長の各パラメータの重みである。

この重みを調整することで、特定のパラメータを重視した文章選択が可能になる。

実施例１及び２では、スコア計算時にリーフノードの情報しか利用しない。相対的には深さが深い位置にあるリーフノードの方が多いため、リーフノードを用いて文章を選択してしまうと、学習用文章セットに偏りが出てしまい、その結果バランスよく適切な文章が選択されない可能性がある。そこで、実施例３では、リーフノードだけでなく、内部ノードも活用してスコア計算を行うこととする。これにより、全体のバランスを考慮した文章選択を行うことが可能となる。

以下、図９、図１０を参照して実施例３の文章セット生成装置３００について説明する。図９は、実施例３の文章セット生成装置３００の構成を示すブロック図である。図１０は、実施例３の文章セット生成装置３００の動作を示すフローチャートである。図９に示すように文章セット生成装置３００は、文章選択用情報テーブル作成部３１０と、文章選択用情報テーブル記録部１０３と、テキスト解析部１２０と、文章選択部３３０を含む。文章セット生成装置３００は、変換元モデル記録部１０１、選択元文章記録部１０２と接続している。

実施例１と相違するのは、文章選択用情報テーブル作成部３１０、文章選択部３３０である。

文章選択用情報テーブル作成部３１０は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する（Ｓ３１０）。ここで作成される文章選択用情報テーブルを図１１に示す。３つのパラメータ（スペクトルパラメータ、音高パラメータ、継続時間長）について、テーブルが作成される点では実施例１と同じであるが、リーフノードでなく、決定木の深さごとにレコードが作成される点で相違する。スペクトルパラメータの決定木の深さをＤ_ｓｐ、深さ１のノード数をＮ_ｓｐ、１、深さ２のノード数をＮ_ｓｐ、２、…、深さＤ_ｓｐのノード数をＮ_{ｓｐ、Ｄｓｐ}とし、深さ１のノードが１〜Ｎ_ｓｐ、１、深さ２のノードが１〜Ｎ_ｓｐ、２、…、深さＤ_ｓｐのノードが１〜Ｎ_{ｓｐ、Ｄｓｐ}で識別されるとすると、スペクトルパラメータの文章選択用情報テーブルは深さ１のノード１〜Ｎ_ｓｐ、１、深さ２のノード１〜Ｎ_ｓｐ、２、…、深さＤ_ｓｐのノード１〜Ｎ_{ｓｐ、Ｄｓｐ}での選択頻度を保持するテーブルとなる。音高パラメータの文章選択用情報テーブル、継続時間長の文章選択用情報テーブルも同様である。ただし、音高パラメータの決定木の深さをＤ_Ｆ０、深さ１のノード数をＮ_Ｆ０、１、深さ２のノード数をＮ_Ｆ０、２、…、深さＤ_Ｆ０のノード数をＮ_{Ｆ０、ＤＦ０}とする。また、継続時間長の決定木の深さをＤ_ｄｕｒ、深さ１のノード数をＮ_{ｄｕｒ、１}、深さ２のノード数をＮ_{ｄｕｒ、２}、…、深さＤ_ｄｕｒのノード数をＮ_{ｄｕｒ、Ｄｄｕｒ}とする。文章選択用情報テーブル作成部３１０では、実施例１同様、各テーブルの各ノードの選択頻度の値を０で初期化する。

文章選択部３３０は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する（Ｓ３３０）。以下、図１２、図１３を参照して文章選択部３３０の処理について詳細に説明する。図１２は、文章選択部３３０の構成を示すブロック図である。図１３は、文選択部３３０の動作を示すフローチャートである。図１２に示すように文章選択部３３０は、ノード決定部３３１と、スコア計算部３３２と、最高スコア文章選択部１３３と、文章選択用情報テーブル更新部１３４と、終了判定部１３５を含む。

ノード決定部３３１は、母集団文章セットの選択元文章Ｂ_ｉ（ｉ＝１，２，…，Ｓ、ただし、生成済み学習用文章セットの文章を除く）に対応する解析後文章Ａ_ｉに含まれるコンテキストＣ_ｊ（ｊ＝１，…，ｋ（ｉ））について、各パラメータの決定木をたどり、ルートからリーフノードに至るまでのパスに含まれる内部ノード、リーフノードを決定する（Ｓ３３１）。あわせて当該ノードの選択頻度を１増加させることで文章選択用情報テーブルを更新する。

スコア計算部３３２は、Ｓ３３１で更新した文章選択用情報テーブル（つまり、生成済み学習用文章セットに選択元文章Ｂ_ｉを追加した集合に対応する文章選択用情報テーブル）を用いて、スコアＳＣ_ｉを算出する（Ｓ３３２）。なお、生成済み学習用文章セットは最初のＳ３３１の処理が始まるまでに空集合で初期化されているのは、実施例１と同様である。

スコアＳＣ_ｉは、各決定木の内部ノードとリーフノードを用いたサブスコアの重み付き和として計算される。

ここで、ＳＣ_ｓｐ,ｉ、ＳＣ_Ｆ０,ｉ、ＳＣ_{ｄｕｒ,ｉ}はスペクトルパラメータ、音高パラメータ、継続時間長のサブスコアである。Ｎ_ｓｐ,ｄ、Ｎ_Ｆ０,ｄ、Ｎ_{ｄｕｒ,ｄ}はスペクトルパラメータ、音高パラメータ、継続時間長の決定木の深さｄのノード数である。また、関数ｏ_ｓｐ,ｄ（ｋ）、ｏ_Ｆ０,ｄ（ｋ）、ｏ_{ｄｕｒ,ｄ}（ｋ）は、各パラメータの決定木の深さｄのｋ番目のノードがカバー（選択）されているかどうかを出力する関数である。この関数は当該ノードの選択頻度が１以上であれば１を、０であれば０を出力する。ｗ_ｓｐ,ｄ、ｗ_Ｆ０,ｄ、ｗ_{ｄｕｒ,ｄ}は、各パラメータの決定木の深さｄの重みを示す。これにより、各パラメータの決定木のノードのうち、どれだけの割合を選択できているか示すことができる。最後に、ｗ_ｓｐ、ｗ_Ｆ０、ｗ_ｄｕｒを各パラメータの重みとし、上記サブスコアを用いてＳＣ_ｉを計算する。

スコア計算方法を内部ノードも含めたカバー率とすることにより、スコア計算時に内部ノードの選択頻度を考慮したうえで文章選択をすることが可能になる。これにより、一部の部分木のみに偏って文章が選択されてしまうことを避けることが可能になる。その結果、文章選択のための要素がバランスよく選択されるため、実施例１よりも合成音声の品質が向上する。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、
前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部と
を有する文章セット生成装置。
請求項１に記載の文章セット生成装置であって、
前記文章選択部は、
前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされるリーフノードを決定するリーフノード決定部と、
生成済み学習用文章セットの文章と前記解析後文章によりカバーされるリーフノードの数を用いて前記解析後文章のスコアを計算するスコア計算部と、
前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
を有する文章セット生成装置。
請求項１に記載の文章セット生成装置であって、
前記文章選択部は、
前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされる内部ノードとリーフノードを決定するノード決定部と、
生成済み学習用文章セットの文章と前記解析後文章によりカバーされる内部ノードとリーフノードに基づいて算出される数を用いて前記解析後文章のスコアを計算するスコア計算部と、
前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
を有する文章セット生成装置。
文章セット生成装置が、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成方法であって、
前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
前記文章セット生成装置が備える解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択ステップと
を実行する文章セット生成方法。
請求項１ないし３のいずれか１項に記載の文章セット生成装置としてコンピュータを機能させるためのプログラム。