JP5226867B2

JP5226867B2 - 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム

Info

Publication number: JP5226867B2
Application number: JP2011515936A
Authority: JP
Inventors: 隆輝立花; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-05-28
Filing date: 2010-03-16
Publication date: 2013-07-03
Anticipated expiration: 2030-03-16
Also published as: TW201108203A; US8744853B2; JPWO2010137385A1; EP2357646A1; EP2357646B1; EP2357646A4; CN102341842A; CN102341842B; US20120059654A1; WO2010137385A1

Description

本発明は、合成音声の話者適応技術に関し、特に、基本周波数における話者適応技術に関する。

従来、システムの基準音声とは異なる目標話者の話し声に似て聴こえるように音声を合成する、合成音声の話者適応技術が知られている（例えば、特許文献１、２参照）。また、入力されたテキストを音声信号に変換する際に、指定された発話スタイルの合成音声を生成する発話スタイル適応の技術も知られている（例えば、特許文献３、４参照）。

このような話者適応や発話スタイル適応において、音声の音の高さ、即ち基本周波数（Ｆ０）の再現は、声の印象を再現する上で重要である。基本周波数を再現する従来手法としては、基本周波数を線形に変換する単純な手法（例えば、非特許文献１参照）や、そのバリエーション（例えば、非特許文献２参照）、スペクトルと周波数の連結特徴ベクトルを混合ガウス分布でモデル化する手法（例えば、非特許文献３参照）がある。

特開平１１−５２９８７号公報特開２００３−３３７５９２号公報特開平７−９２９８６号公報特開平１０−１１０８３号公報

Ｚ．Ｓｈｕａｎｇ、Ｒ．Ｂａｋｉｓ、Ｓ．Ｓｈｅｃｈｔｍａｎ、Ｄ．ＣｈａｚａｎＹ．Ｑｉｎ、「Ｆｒｅｑｕｅｎｃｙｗａｒｐｉｎｇｂａｓｅｄｏｎｍａｐｐｉｎｇｆｏｒｍａｔｐａｒａｍｅｔｅｒｓ」、ｉｎＰｒｏｃ．ＩＣＳＬＰ、Ｓｅｐ．２００６、ＰｉｔｔｓｂｕｒｇＰＡ，ＵＳＡ．Ｂ．Ｇｉｌｌｅｔ、Ｓ．Ｋｉｎｇ、「ＴｒａｎｓｆｏｒｍｉｎｇＦ０、Ｃｏｎｔｏｕｒｓ」、ｉｎＰｒｏｃ．ＥＵＲＯＳＰＥＥＣＨ２００３．宇藤陽介、南角吉彦、李晃伸、徳田恵一、「声質変換のためのスペクトル・Ｆ０の同時モデリング」、信学技報ＮＬＣ２００７−５０、ＳＰ２００７−１１７（２００７−１２）

しかしながら、非特許文献１の技術は、基本周波数の時間的変化を表した基本周波数パターンのカーブをシフトしているだけであって基本周波数パターンの形状が変わらないため、形状の起伏に現れる話者の特徴は表現できない。一方非特許文献３の技術は、上記非特許文献１や２の技術に比べて精度が高い。

しかし非特許文献３の技術には、スペクトルと連結して基本周波数のモデルを学習しなければならないので、大量の学習データが必要であるという問題がある。また、非特許文献３の技術には、アクセント型やモーラ位置などの重要なコンテキスト情報を考慮することができないという問題、更には、アクセント核が早まったり立ち上がりが遅れたりするような時間軸方向のずれ（移動）を表現することが不可能という問題がある。

なお、上記特許文献１乃至４では、基準となる音声の周波数パターンを、目標話者又は指定された発話スタイルの特徴を表す周波数パターンの差分データで補正する技術が開示されている。しかしいずれの文献にも、基準となる音声の周波数パターンを補正すべき差分データそれ自体の具体的な算出方法についての記述はない。

この発明は、上記の問題点を解決するためになされたものであって、少量の学習データのみに基づいて、目標話者の音声の基本周波数の特徴を精度よく再現できるような技術を提供することを目的とする。また、目標話者の音声の基本周波数の特徴を再現するにあたり、アクセント型やモーラ位置などの重要なコンテキスト情報を考慮することができるような技術を提供することを他の目的とする。更に、アクセント核が早まったり立ち上がりが遅れたりするような時間軸方向のずれ（移動）に関しても、目標話者の音声の基本周波数の特徴を再現できるような技術を提供することを他の目的とする。

上記課題を解決するために、本発明の第１の態様においては、基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習装置であって、学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、前記目標話者の音声の基本周波数パターン上の各点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、前記学習用テキストの解析結果である言語情報を入力特徴量、及び算出した前記移動量を出力特徴量として決定木を学習する学習部とを含む学習装置を提供する。

ここで基準となる音声の基本周波数パターンは、基準とする特定の話者（以下、元話者という）の統計モデルにより得られる合成音声の基本周波数パターンであってよい。また、移動量算出部により算出される周波数軸方向の移動量は、周波数の対数の移動量であってよい。

好ましくは、前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換算出部と、基本周波数パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、前記基準となる音声の基本周波数パターン上の各点を、該点のＸ座標の値を対応する前記アフィン変換により変換した値をＸ座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付けるアフィン変換部とを含む。

より好ましくは、前記アフィン変換算出部は、前記アフィン変換を求める処理単位の初期値にイントネーション句を設定し、前記目標話者の音声の基本周波数パターンとの差が最小になるように前記基準となる音声の基本周波数パターンを変換するアフィン変換が求まるまで、前記処理単位を再帰的に２分する。

好ましくは、前記対応付け部による対応付け及び移動量算出部による移動量の算出は、フレーム単位又は音声素片単位で行われる。

好ましくは、前記学習装置は、算出された前記移動量の各々について、隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出する変化量算出部を更に含む。そして前記学習部は、静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習する。

より好ましくは、前記移動量の変化量は、前記移動量の傾きである１次の動的特徴量と、前記移動量の曲率である２次の動的特徴量とを含む。

またより好ましくは、前記変化量算出部は、更に前記目標話者の音声の基本周波数パターン上の各点について隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出する。そして、前記学習部は、前記静的特徴量に前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値を、前記動的特徴量に前記時間軸方向及び周波数軸方向の変化量を各々加えて、前記決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める。なお、前記周波数軸方向の値及び前記周波数軸方向の変化量はそれぞれ、周波数の対数又は周波数の対数の変化量であってよい。

またより好ましくは、前記学習部は、前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する。

またより好ましくは、前記目標話者の音声の基本周波数パターン上の各点について算出される移動量は、フレーム単位又は音声素片単位で算出された移動量である。

好ましくは、前記言語情報は、アクセント型、品詞、音素、モーラ位置の少なくとも１つに関する情報を含む。

上記課題を解決するために、本発明の第２の態様においては、基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、算出された前記移動量の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、前記学習用テキストの解析結果である言語情報を入力特徴量、及び静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を求める学習部と、合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記出力特徴量の分布を予測する分布列予測部と、予測した前記出力特徴量の分布の列から算出される尤度を最大とする移動量の列を求めることにより、前記移動量の最適化を行う最適化処理部と、合成用テキストに対応する基準となる音声の基本周波数パターンに前記移動量の列を加算することにより、前記合成用テキストに対応する前記目標話者の音声の基本周波数パターンを生成する目標話者の周波数パターン生成部とを含む基本周波数パターン生成装置を提供する。なお、移動量算出部により算出される周波数軸方向の移動量は、周波数の対数の移動量であってよい。

上記課題を解決するために、本発明の第３の態様においては、基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、算出された前記移動量と前記目標話者の音声の基本周波数パターン上の各点の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、前記学習用テキストの解析結果である言語情報を入力特徴量、静的特徴量である前記移動量と前記目標話者の音声の基本周波数パターン上の各点の値、及び動的特徴量である前記移動量の変化量と前記目標話者の音声の基本周波数パターン上の各点の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める学習部と、合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記各出力特徴量及び前記出力特徴量の組み合わせの分布を予測する分布列予測部と、予測した前記出力特徴量の組み合わせの分布の列から算出される尤度を最大とする前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値とを求めることにより、最適化処理を行う最適化処理部と、前記最適化処理部により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べて前記目標話者の音声の基本周波数パターンとする目標話者の周波数パターン生成部とを含む基本周波数パターン生成装置を提供する。なお、移動量算出部により算出される周波数軸方向の移動量は、周波数の対数の移動量であってよい。同様に、前記周波数軸方向の値及び前記周波数軸方向の変化量は、それぞれ、周波数の対数又は周波数の対数の変化量であってよい。

以上、基準となる音声の基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせを学習する学習装置及びそのような学習装置による学習結果を利用した目標話者の音声の基本周波数パターン生成装置として本発明を説明したが、本発明は、コンピュータにより実行される、目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせの学習方法、目標話者の音声の基本周波数パターンの生成方法及び目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせの学習プログラムとして把握することもできる。

本願発明では、基準となる音声の周波数パターンを補正して目標話者の音声の周波数パターンを得るべく、基準となる音声の基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせを学習するにあたり、基準となる音声の基本周波数パターンと目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付けて移動量を取得する。そのため、学習された移動量を用いて生成される目標話者の音声の基本周波数パターンは、形状の起伏に現れる話者の特徴を表現することが可能となり、目標話者の基本周波数の特徴を精度よく再現できる。本発明のその他の効果については、各実施の形態の記載から理解される。

図１は、本実施形態に係る学習装置５０及び基本周波数パターン生成装置１００の機能構成を示す。図２は、本発明の実施形態に係る学習装置５０による移動量の学習処理の流れの一例を示すフローチャートである。図３は、図２に示すフローチャートのステップ２２５のＦ０パターンの対応付けの前半の処理であるアフィン変換のセットを算出する処理の流れの一例を示すフローチャートである。図４は、図３に示すフローチャートのステップ３０５及び３４５のアフィン変換の最適化処理の詳細を示すフローチャートである。図５は、図２に示すフローチャートのステップ２２５のＦ０パターンの対応付けの後半の処理であるアフィン変換のセットを用いたＦ０パターンの対応付け処理の流れの一例を示すフローチャートである。図６（ａ）は、学習用テキストに対応する基準となる音声のＦ０パターンと、同一の学習テキストに対応する目標話者の音声のＦ０パターンの一例を示す図である。図６（ｂ）は、処理単位ごとのアフィン変換の一例を示す図である。図７（ａ）は、図６（ｂ）に示すアフィン変換のセットにより変換した後の、図６（ａ）に示す基準となる音声のＦ０パターンを示す図である。図７（ｂ）は、図６（ａ）に示す基準となる音声のＦ０パターンからの、図６（ａ）に示す目標話者の音声のＦ０パターンの移動量を示す図である。図８は、本発明の実施形態に係る基本周波数パターン生成装置１００による基本周波数パターン生成処理の流れの一例を示すフローチャートである。図９（ａ）は、本発明を適用して得られた目標話者の基本周波数パターンを示す。図９（ｂ）は、本発明を適用して得られた目標話者の他の基本周波数パターンを示す。図１０は、本発明の実施の形態による学習装置５０及び基本周波数パターン生成装置１００を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。

以下、本発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。

図１に、本実施形態に係る学習装置５０及び基本周波数パターン生成装置１００の機能構成を示す。本実施形態に係る学習装置５０は、基準となる音声の基本周波数の時間変化を表した基本周波数パターン（以下、Ｆ０パターンという）に対する目標話者の音声のＦ０パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせを学習する装置である。また、本実施形態に係る基本周波数パターン生成装置１００は、学習装置５０を含み、学習結果を用いて、基準となる音声のＦ０パターンを基に目標話者の音声のＦ０パターン（以下、目標Ｆ０パターンという）を生成する基本周波数パターン生成装置である。本実施例では、基準となる音声のＦ０パターンとして、元話者の音声のＦ０パターン（以下、元Ｆ０パターンという）を採用する。元Ｆ０パターンについては、元話者の大量の音声データを用いて予め既知の技術により元Ｆ０パターンの統計モデルが取得されているものとする。

図１に示されるように、本実施例に係る学習装置５０は、テキスト解析部１０５、言語情報格納部１１０、Ｆ０パターン分析部１１５、元話者モデル情報格納部１２０、Ｆ０パターン予測部１２２、対応付け部１３０、移動量算出部１４０、変化量算出部１４５、移動量・変化量学習部１５０、及び決定木情報格納部１５５を備える。ここで本実施例に係る対応付け部１３０は、アフィン変換セット算出部１３４とアフィン変換部１３６を含む。

また図１に示されるように、本実施例に係る基本周波数パターン生成装置１００は、学習装置５０を含み、更に分布列予測部１６０、最適化処理部１６５、及び目標Ｆ０パターン生成部１７０を備える。以下では第１実施形態として目標話者の音声のＦ０パターンの移動量を学習する学習装置５０を説明し、その後第２実施形態として第１実施形態に係る学習装置５０の学習結果を利用する基本周波数パターン生成装置１００を説明する。第２実施形態に係る基本周波数パターン生成装置１００は、学習処理において「移動量」をモデル化し、生成処理では「移動量」をまず予測してこれを「元Ｆ０パターン」に加算することによって「目標Ｆ０パターン」を生成する。

そして最後に第３実施形態として、目標話者の音声のＦ０パターンとその移動量の組み合わせを学習する学習装置５０とその学習結果を利用する基本周波数パターン生成装置１００を説明する。第３実施形態における基本周波数パターン生成装置１００は、学習処理において「移動量」と「目標Ｆ０パターン」とを組み合わせてモデル化し、生成処理では最適化により「元Ｆ０パターン」を参照して直接「目標Ｆ０パターン」を生成する。

（第１実施形態）テキスト解析部１０５は、入力されたテキストに対し、形態素解析や構文分析などを行い、言語情報を生成する。言語情報は、アクセント型、品詞、音素、及びモーラ位置等のコンテキスト情報を含む。なお第１実施形態に係るテキスト解析部１０５に入力されるテキストは、元Ｆ０パターンに対する目標Ｆ０パターンの移動量を学習するために使用される学習用テキストである。

言語情報格納部１１０は、テキスト解析部１０５により生成された言語情報を格納する。上述したように、言語情報は、少なくともアクセント型、品詞、音素、及びモーラ位置の１つを含むコンテキスト情報を含む。

Ｆ０パターン分析部１１５は、学習用テキストを読み上げた目標話者の音声情報を入力として受け取り、目標話者の音声のＦ０パターンを分析する。Ｆ０パターンの分析は公知の技術であるため詳細な説明は省略するが、例えばｐｒａａｔなどの自己相関やウェーブレットなどの技術に基づいたツールを利用できる。分析結果である目標Ｆ０パターンはその後、Ｆ０パターン分析部１１５から後述する対応付け部１３０へ渡される。

元話者モデル情報格納部１２０は、元話者の大量の音声データを用いて学習して得られた元話者のＦ０パターンの統計モデルを格納する。Ｆ０パターンの統計モデルは、決定木や数量化Ｉ類などを利用したものであってよい。このようなＦ０パターンの統計モデルの学習は公知技術であるため本明細書では予め用意されるものとして記載するが、例えばＣ４．５やｗｅｋａなどのツールを利用できる。

Ｆ０パターン予測部１２２は、元話者モデル情報格納部１２０に格納される元話者のＦ０パターンの統計モデルを用いて、学習用テキストに対応する元話者のＦ０パターンを予測する。具体的には、Ｆ０パターン予測部１２２は、言語情報格納部１１０から学習用テキストに対応する言語情報を読み出し、該言語情報を元話者のＦ０パターンの統計モデルに入力する。そして、Ｆ０パターン予測部１２２は、元話者のＦ０パターンの統計モデルから出力として元話者のＦ０パターンを取得する。予測された元Ｆ０パターンはその後、Ｆ０パターン予測部１２２から後述する対応付け部１３０へ渡される。

対応付け部１３０は、学習用テキストに対応する元Ｆ０パターンと、同一の学習用テキストに対応する目標Ｆ０パターンとを、山と山及び谷と谷とが対応するように対応付ける。２つの異なるＦ０パターンを対応付ける方法としてDynamic Time Warpingと呼ばれる手法がある。この手法では一方の音声の各フレームと他方の音声のフレームを、それらのケプストラムやF0の類似度に基づいて対応付ける。類似度の定義によって、Ｆ０パターンの山や谷の形状を対応付けることも、ケプストラムやＦ０パターンの絶対値を重視して対応付けることもできる。かかる手法とは別に本出願の発明者等は、より正確な対応付けを行うべく鋭意研究した結果、元Ｆ０パターンを目標Ｆ０パターンに近い形状へと変換させるアフィン変換を利用する方法を新たに考案した。Dynamic Time Warpingそれ自体は公知であるため、本実施例ではアフィン変換を利用した対応付けを採用し、以下ではアフィン変換を利用した対応付けについて説明する。

アフィン変換を利用する本実施形態に係る対応付け部１３０は、アフィン変換セット算出部１３４とアフィン変換部１３６を含む。

アフィン変換セット算出部１３４は、元Ｆ０パターンを目標Ｆ０パターンとの差が最小になるように変換するアフィン変換のセットを算出する。具体的には、アフィン変換セット算出部１３４は、アフィン変換を求めるＦ０パターンの処理単位の初期値にイントネーション句（呼気段落）を設定する。そしてアフィン変換セット算出部１３４は、目標Ｆ０パターンとの差が最小になるように元Ｆ０パターンを変換するアフィン変換が求まるまでその処理単位を再帰的に２分し、新たな処理単位に対しアフィン変換を求める。最終的にアフィン変換算出部１３４は、イントネーション句ごとに１以上のアフィン変換を取得する。求まったアフィン変換は各々、該アフィン変換が求まった際の処理単位とその元Ｆ０パターン上の処理範囲の始点の情報とともに一時的に記憶領域に記憶される。なお、アフィン変換のセットを算出する詳細な手順は後述する。

ここで図６及び図７を参照して、アフィン変換セット算出部１３４により算出されるアフィン変換のセットを説明する。まず図６（ａ）に示すグラフは、同じ学習用テキストに対応する元Ｆ０パターン（記号Ａ参照）と目標Ｆ０パターン（記号Ｂ参照）の一例である。図６（ａ）においてグラフの横軸は時間を示し、その単位は音声素片である。またグラフの縦軸は周波数を示し、その単位はヘルツ（Ｈｚ）である。図６に示すように、横軸は秒の代わりに音素番号や音節番号を用いても良い。そして図６（ｂ）に、記号Ａの付された元Ｆ０パターンを記号Ｂの付された目標Ｆ０パターンに近い形状へと変換させるアフィン変換のセットを示す。図６（ｂ）に示されるように、各アフィン変換に対応する処理単位は、イントネーション句を最大値として処理範囲ごとに異なる。

そして、図６（ｂ）に示すアフィン変換のセットを用いて実際に変換された後の元Ｆ０パターン（記号Ｃ参照）を図７（ａ）に示す。図７（ａ）から明らかなように、変換後の元Ｆ０パターンの形状は、目標Ｆ０パターン（記号Ｂ参照）の形状に近いものとなっている。

アフィン変換部１３６は、Ｆ０パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、元Ｆ０パターン上の各点を、該点のＸ座標の値を対応するアフィン変換により変換した値をＸ座標の値とする目標Ｆ０パターン上の点に対応付ける。即ち、アフィン変換部１３６は、元Ｆ０パターン上の各点（Ｘ_Ｓ、Ｙ_ｓ）のＸ座標Ｘ_Ｓを、その範囲について求まったアフィン変換で変換しＸ_ｔを得る。そしてアフィン変換部１３６は、Ｘ座標がＸ_ｔである目標Ｆ０パターン上の点（Ｘ_ｔ、Ｙ_ｔ）を求め、該点（Ｘ_ｔ、Ｙ_ｔ）を元Ｆ０パターン上の点（Ｘ_Ｓ、Ｙ_ｓ）に対応付ける。対応付けの結果は、一時的に記憶領域に記憶される。なお、対応付けはフレーム単位又は音声素片単位で行ってよい。

移動量算出部１４０は、目標Ｆ０パターンの各点（Ｘ_ｔ、Ｙ_ｔ）について、対応付け部１３０による対応付けの結果を参照して、元Ｆ０パターン上の対応する点（Ｘ_Ｓ、Ｙ_ｓ）からの時間軸方向及び周波数軸方向の移動量（ｘ_ｄ、ｙ_ｄ）＝（Ｘ_ｔ、Ｙ_ｔ）―（Ｘ_ｓ、Ｙ_ｓ）を算出する。ここで周波数軸方向の移動量は、目標Ｆ０パターン上の周波数の対数から元Ｆ０パターン上の対応する点の周波数の対数を差し引いた値であってよい。なお、フレーム単位又は音声素片単位で算出された各移動量は、その後移動量算出部１４０から後述する変化量算出部１４５と移動量・変化量学習部１５０とへ渡される。

図７（ｂ）に、対応付け部１３０による対応付けの結果を参照して求められた、目標Ｆ０パターン（記号Ｂ参照）上の各点ごとの元Ｆ０パターン（記号Ａ参照）からの移動量を矢印（記号Ｄ参照）で示す。なお、図７（ｂ）において参照される対応付けの結果は、図６（ｂ）及び図７（ａ）に示すアフィン変換のセットを利用して得られたものである。

変化量算出部１４５は、移動量算出部１４０により算出された時間軸方向及び周波数軸方向の移動量の各々について、隣接する点との間の変化量を算出する。なお、周波数軸方向の移動量の変化量は、上述したように周波数の対数の移動量の変化量であってよい。本実施例では移動量の変化量は、移動量の傾きである１次の動的特徴量と、移動量の曲率である２次の動的特徴量とを含む。ここで、ある値Ｖの１次の動的特徴量及び２次の動的特徴量はそれぞれ、３フレームで近似した場合、ｉ番目のフレーム又は音声素片での値をＶ[ｉ]とすると、一般に次のように表すことができる。
△Ｖ[ｉ]＝０．５＊（Ｖ[ｉ＋１]−Ｖ[ｉ−１]）
△^２Ｖ[ｉ]＝０．５＊（−Ｖ[ｉ＋１] ＋２Ｖ[ｉ]−Ｖ[ｉ−１]）
算出された１次及び２次の動的特徴量はそれぞれ後述する移動量・変化量学習部１５０へと渡される。

移動量・変化量学習部１５０は、言語情報格納部１１０から読み出した学習用テキストに対応する言語情報を入力特徴量、及び算出された時間軸方向及び周波数軸方向の移動量を出力特徴量として決定木を学習する。なお決定木の学習においては、静的特徴量である移動量のみならず、動的特徴量である移動量の変化量を出力特徴量に加えるのが好ましい。この場合、後に当該学習結果を用いて目標Ｆ０パターンを生成する段階において、句全体にわたって最適な移動量系列を予測することが可能となる。

移動量・変化量学習部１５０はまた、決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する。モデル化の結果、出力特徴量の各々に対し平均値、分散、及び共分散といった値が得られる。なお、上述したように決定木の学習方法は公知の技術であるため詳細な説明は省略するが、学習には例えばＣ４．５やｗｅｋａ等のツールを利用できる。

決定木情報格納部１５５は、移動量・変化量学習部１５０により学習された決定木の情報及び決定木の葉ノードごとの出力特徴量の分布情報（平均値、分散、及び共分散）を格納する。なお、上述したように本実施例における出力特徴量は、時間軸方向及び周波数軸方向の移動量、該移動量の変化量（１次及び２次の動的特徴量）を含む。

次に図２を参照して、本発明の第１実施形態に係る学習装置５０による目標Ｆ０パターンの移動量の学習処理の流れを説明する。なお以下では、「周波数軸方向の移動量」及び「移動量の変化量」との記載は、それぞれ周波数の対数の移動量又は周波数の対数の移動量の変化量を含むものとする。図２は、学習装置５０としてのコンピュータにより実行される、元Ｆ０パターンに対する目標Ｆ０パターンの移動量の学習処理の全体の流れの一例を示すフローチャートである。処理はステップ２００から開始し、学習装置５０はユーザから提供された学習用テキストを読み込む。ユーザは、例えばキーボード等の入力装置や記録媒体読み込み装置、また通信インタフェースを介して、学習装置５０に学習用テキストを提供してよい。

学習用テキストを読み込んだ学習装置５０は、次にこれを解析し、アクセント型、音素、品詞、モーラ位置等のコンテキスト情報を含む言語情報を取得する（ステップ２０５）。そして学習装置５０は、元話者モデル情報格納部１２０から元話者の統計モデル情報を読み出してこれに取得した言語情報を入力し、出力として学習用テキストに対応する元Ｆ０パターンを取得する（ステップ２１０）。

学習装置５０はまた、同一の学習用テキストを読み上げた目標話者の音声情報を取得する（ステップ２１５）。ユーザは、例えばマイク等の入力装置や記録媒体読み込み装置、また通信インタフェースを介して、学習装置５０に目標話者の音声情報を提供してよい。そして学習装置５０は、取得した目標話者の音声情報を分析し、目標話者のＦ０パターン、即ち目標Ｆ０パターンを得る（ステップ２２０）。

次に学習装置５０は、学習用テキストに対応する元Ｆ０パターンと、同一の学習用テキストに対応する目標Ｆ０パターンとを、山と山及び谷と谷とが対応するように対応付け、対応関係をその記憶領域に記憶する（ステップ２２５）。対応付けの詳細な処理手順は図３及び図４を参照して後述する。続いて学習装置５０は、記憶した対応関係を参照して、目標Ｆ０パターンを構成する各時系列点について、元Ｆ０パターンを構成する各時系列点のうち対応する時系列点からの時間軸方向及び周波数軸方向の移動量、即ち対応する時系列点間の時間軸方向及び周波数軸方向の差分を求め、求めた移動量を記憶領域に記憶する（ステップ２３０）。

学習装置５０はまた、記憶領域から求めた時間軸方向及び周波数軸方向の移動量を読み出して、時系列点ごとに、時間軸方向及び周波数軸方向の移動量の変化量として移動量の１次の動的特徴量及び２次的特徴量を算出し、記憶領域に記憶する（ステップ２３５）。

最後に学習装置５０は、学習用テキストの解析結果である言語情報を入力特徴量、時間軸方向及び周波数軸方向の移動量を含む静的特徴量と、該静的特徴量に対応する１次及び２次の動的特徴量とを出力特徴量として、決定木を学習する（ステップ２４０）。そして学習装置５０は、学習した決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を求め、学習した決定木の情報と葉ノードごとの分布情報を、決定木情報格納部１５５に格納する（ステップ２４５）。そして処理は終了する。

ここで本出願の発明者等によって新たに考案された、元Ｆ０パターンを目標Ｆ０パターンに近い形状へと変換させるアフィン変換のセットを再帰的に求める手法を説明する。

本手法では、同一の学習用テキストに対応する元Ｆ０パターンと目標Ｆ０パターンの両Ｆ０パターンをそれぞれイントネーション句で分割し、分割して得られた両Ｆ０パターンの処理範囲ごとに独立して最適な１以上のアフィン変換を求める。ここで最適なアフィン変換とは、該アフィン変換後の元Ｆ０パターンと目標Ｆ０パターンとの処理範囲内における誤差を最小にするようなアフィン変換である。このようなアフィン変換は、処理単位に対し１つ求められる。

即ち、例えば処理単位を２分して２つのより小さな処理単位とすると、その新たな２つの処理単位のそれぞれに対して新たに１つの最適なアフィン変換が求まる。そこで、いずれのアフィン変換が最適なアフィン変換であるかを判定するために、処理単位を２分する前と後で、アフィン変換後の元Ｆ０パターンと目標Ｆ０パターンとの誤差の自乗和を比較する（処理単位を２分した場合における誤差の自乗和とは、２分した前部分と後ろ部分のそれぞれに対して求められた誤差の自乗和の和である。）。但し上記比較は、元Ｆ０パターンを２分し得る点と目標Ｆ０パターンを２分し得る点とのあらゆる組み合わせの中で、誤差の自乗和を最小とする２分点の組み合わせに対してのみ行うものとして無駄を省く。

２分した後の誤差の自乗和が十分に小さいと判定されなければ、２分する前の処理単位に対し求められたアフィン変換が最適なアフィン変換である。従って、２分した後の誤差の自乗和が十分に小さいと判定されなくなるまで、若しくは処理単位が十分に長くないと判定されるまで、上記一連の処理を再帰的に行う。

次に図３乃至図５を参照して、同一の学習用テキストに各々対応する元Ｆ０パターンと目標Ｆ０パターンの対応付け処理の詳細を説明する。図３は、アフィン変換セット算出部１３４により実行される、アフィン変換セットの算出処理の流れの一例を示すフローチャートである。なお、図３に示すアフィン変換セットの算出処理は、イントネーション句単位で分割された両Ｆ０パターンの処理範囲ごとに実行される。図４は、アフィン変換セット算出部１３４により実行される、アフィン変換の最適化処理の流れの一例を示すフローチャートである。図４は、図３に示すフローチャートのステップ３０５及びステップ３４５における処理の詳細を示している。

図５は、アフィン変換部１３６により実行される、アフィン変換及び対応付け処理の流れの一例を示すフローチャートである。図５に示す処理は、図３に示す処理が全処理範囲に対して実行された後に実行される。なお、図３乃至図５は、図２に示すフローチャートのステップ２２５における処理の詳細を示している。

図３において、処理はステップ３００で開始し、アフィン変換セット算出部１３４は、元Ｆ０パターンの処理単位の初期値Ｕ_ｓ（０）及び目標Ｆ０パターンの処理単位の初期値Ｕ_ｔ（０）に、それぞれイントネーション句を設定する。そしてアフィン変換セット算出部１３４は、現在の処理単位に対し最適なアフィン変換を求める（ステップ３０５）。アフィン変換の最適化処理の詳細は図４を参照して後述する。アフィン変換が求まると、アフィン変換セット算出部１３４は、元Ｆ０パターンを算出したアフィン変換で変換し、目標Ｆ０パターンとの誤差の自乗和ｅ（０）を求める（ステップ３１０）

次にアフィン変換セット算出部１３４は、現在の処理単位が十分長いか否かを判定し（ステップ３１５）、十分長くないと判定した場合（ステップ３１５：ＮＯ）、処理を終了する。一方処理単位が十分に長いと判定した場合（ステップ３１５：ＹＥＳ）、アフィン変換セット算出部１３４は、各Ｆ０パターンについて、現在の処理単位内のＦ０パターンを２分し得る全ての点を仮の点として各々Ｐ_ｓ（ｊ）、Ｐ_ｔ（ｋ）に格納する（ステップ３２０）。ここで変数ｊは１からＮの整数を、変数ｋは１からＭの整数の値をとる。

次にアフィン変換セット算出部１３４は、変数ｊ及び変数ｋの初期値を１とし（ステップ３２５、ステップ３３０）、Ｕ_ｔ（０）内の目標Ｆ０パターンを２分する点Ｐ_ｔ（１）より前の処理範囲をＵ_ｔ（１）に、２分する点Ｐ_ｔ（１）より後ろの処理範囲をＵ_ｔ（２）に設定する（ステップ３３５）。同様にアフィン変換セット算出部１３４は、Ｕ_ｓ（０）内の元Ｆ０パターンを２分する点Ｐ_ｓ（１）より前の処理範囲をＵ_ｓ（１）に、２分する点Ｐ_ｓ（１）より後ろの処理範囲をＵ_ｓ（２）に設定する（ステップ３４０）。そしてアフィン変換セット算出部１３４は、Ｕ_ｔ（１）及びＵ_ｓ（１）の組とＵ_ｔ（２）及びＵ_ｓ（２）の組のそれぞれに対し、最適なアフィン変換の求める（ステップ３４５）。アフィン変換の最適化処理の詳細は図４を参照して後述する。

各組に対してアフィン変換が求まると、アフィン変換セット算出部１３４は各組に対し、元Ｆ０パターンを算出したアフィン変換で変換して、目標Ｆ０パターンとの誤差の自乗和ｅ（１）、ｅ（２）をそれぞれ求める（ステップ３５０）。ここでｅ（１）は２分した前の部分の組に対し求められた誤差の自乗和であり、ｅ（２）は後ろの部分の組に対し求められた誤差の自乗和である。アフィン変換セット算出部１３４は、算出した誤差の自乗和ｅ（１）、ｅ（２）の和をＥ（１、１）に格納する。上記一連の処理、即ち、ステップ３２５乃至ステップ３５５の処理は、変数ｊ及びｋの初期値を１、増分を１として、変数ｊは終値がＮ、変数ｋは終値がＭとなるまで繰り返す。なお変数ｊ及びｋの増分は互いに独立して行われる。

ループの終了条件が満たされると処理はステップ３６０へ進み、アフィン変換セット算出部１３４は、Ｅ（ｊ、ｋ）の値を最小とする（ｊ、ｋ）の組み合わせ（ｌ、ｍ）を特定する。そして、アフィン変換セット算出部１３４は、処理単位を２分する前に求められた誤差の自乗和ｅ（０）よりもＥ（ｌ、ｍ）が十分に小さいか否か判定する（ステップ３６５）。十分に小さくない場合（ステップ３６５：ＮＯ）、処理は終了する。一方誤差の自乗和ｅ（０）よりもＥ（ｌ、ｍ）が十分に小さい場合（ステップ３６５：ＹＥＳ）、処理は２つに別れ、それぞれステップ３７０及びステップ３７５へ進む。

ステップ３７０においてアフィン変換セット算出部１３４は、Ｕ_ｔ（０）内の目標Ｆ０パターンを２分する点Ｐ_ｔ（ｍ）より前の処理範囲を、新たに目標Ｆ０パターンの処理範囲の初期値Ｕ_ｔ（０）に、また、Ｕ_ｓ（０）内の元Ｆ０パターンを２分する点Ｐｓ（ｌ）より前の処理範囲を、新たに元Ｆ０パターンの処理範囲の初期値Ｕ_ｓ（０）に設定する。同様にステップ３７５においてアフィン変換セット算出部１３４は、Ｕ_ｔ（０）内の目標Ｆ０パターンを２分する点Ｐ_ｔ（ｍ）より後ろの処理範囲を、新たに目標Ｆ０パターンの処理範囲の初期値Ｕ_ｔ（０）に、また、Ｕ_ｓ（０）内の元Ｆ０パターンを２分する点Ｐ_ｓ（ｌ）より後ろの処理範囲を、新たに元Ｆ０パターンの処理範囲の初期値Ｕ_ｓ（０）に設定する。ステップ３７０及びステップ３７５から処理はステップ３０５へ戻り、それぞれに対し独立して上記一連の処理が再帰的に行われる。

次に図４を参照してアフィン変換の最適化処理を説明する。図４において処理はステップ４００で開始し、アフィン変換セット算出部１３４は、処理単位についてサンプル数を一致させるため、一方のＦ０パターンをリサンプリングする。そしてアフィン変換セット算出部１３４は、目標Ｆ０パターンとの誤差が最小となるように元Ｆ０パターンを変換するアフィン変換を算出する（ステップ４０５）。そのようなアフィン変換の算出方法を以下に説明する。

今、Ｘ軸を時間、Ｙ軸を周波数とし、時間軸の１目盛りは１フレーム又は音声素片に対応するものとする。そして対応をとる範囲の元Ｆ０パターンを構成する時系列点の（Ｘ、Ｙ）座標を（Ｕ_ｘｉ、Ｕ_ｙｉ）とし、目標Ｆ０パターンを構成する時系列点の（Ｘ、Ｙ）座標を（Ｖ_ｘｉ、Ｖ_ｙｉ）とする。但し変数ｉは１からＮの整数とする。既にリサンプリングが済んでいるので点の個数は等しく、また各点はＸ軸方向に等間隔に並んでいるものとする。今、次の数１によって、（Ｖ_ｘｉ、Ｖ_ｙｉ）に近い（Ｗ_ｘｉ、Ｗ_ｙｉ）へと（Ｕ_ｘｉ、Ｕ_ｙｉ）を変換する変換パラメータ（ａ、ｂ、ｃ、ｄ）を求めるのがここでの問題である。

まずＸ成分について検討する。先頭の点のＸ座標Ｖ_ｘ１はＷ_ｘ１に一致する必要があることから、パラメータｃが求まる。即ち、ｃ＝Ｖ_ｘ１となる。同様に末端の点同士も一致する必要があることから、パラメータａが次のように求まる。

次にＹ成分について検討する。変換によって得られるＹ座標Ｗ_ｙｉと目標のＹ座標Ｖ_ｙｉの誤差の自乗和は次式で定義される。

偏微分方程式を解けば、これを最小とするパラメータｂとｄはそれぞれ次式のように求まる。

このようにして、処理単位について最適なアフィン変換が求まる。

図４に戻って、処理はステップ４０５からステップ４１０へ進み、アフィン変換セット算出部１３４は、現在の最適なアフィン変換を求める処理が処理単位Ｕ_ｓ（０）及びＵ_ｔ（０）に対してなされるものであるか否かを判定する。処理単位Ｕ_ｓ（０）及びＵ_ｔ（０）に対する処理でない場合（ステップ４１０：ＮＯ）、処理は終了する。一方処理単位Ｕ_ｓ（０）及びＵ_ｔ（０）に対する処理である場合（ステップ４１０：ＹＥＳ）、アフィン変換セット算出部１３４は、ステップ４０５において算出したアフィン変換を、現在の処理単位と元Ｆ０パターン上の現在の処理位置とに対応付けて、一時的に記憶領域に記憶する（ステップ４１５）。そして処理は終了する。

次に図５を参照してアフィン変換部１３６によるアフィン変換と対応付け処理を説明する。図５において処理はステップ５００で開始し、アフィン変換部１３６は、アフィン変換セット算出部１３４により算出され記憶されているアフィン変換のセットを読み出す。対応する処理位置が重複するアフィン変換が複数存在する場合、対応する処理単位が最も小さいアフィン変換のみ残し他は削除する（ステップ５０５）。

その後アフィン変換部１３６は、元Ｆ０パターンを構成する各点（Ｘ_ｓ、Ｙ_ｓ）について、Ｘ座標Ｘｓをその処理範囲に対して求まったアフィン変換で変換して、それぞれ値Ｘ_ｔを取得する（ステップ５１０）。なお、ここではＸ軸を時間、Ｙ軸を周波数とする。そしてアフィン変換部１３６は、算出した各Ｘ_ｔに対し、Ｘ座標がＸ_ｔであるときの目標Ｆ０パターンのＹ座標Ｙ_ｔを取得する（ステップ５１５）。最後に、アフィン変換部１３６は、算出した各（Ｘ_ｔ、Ｙ_ｔ）を、該値を取得する基となった（Ｘ_ｓ、Ｙ_ｓ）に対応付けて記憶領域に記憶する（ステップ５２０）。そして処理は終了する。

（第２実施形態）図１に戻って、次に第１実施形態に係る学習装置５０の学習結果を利用する基本周波数パターン生成装置１００の機能構成を説明する。基本周波数パターン生成装置１００に含まれる学習装置５０の各構成要素は、第１実施形態に関して説明したのと同じであるためここでは説明を省略する。但し、基本周波数パターン生成装置１００に含まれる学習装置５０の構成要素としてのテキスト解析部１０５は、更に入力テキストとして、それについて目標話者のＦ０パターンを生成することを希望する合成用テキストを受け取る。従って、言語情報格納部１１０には、学習用テキストに対応する言語情報と合成用テキストに対応する言語情報とが格納される。

また、合成時におけるＦ０パターン予測部１２２は、元話者モデル情報格納部１２０に格納される元話者のＦ０パターンの統計モデルを用いて、合成用テキストに対応する元話者のＦ０パターンを予測する。即ち、Ｆ０パターン予測部１２２は、言語情報格納部１１０から合成用テキストに対応する言語情報を読み出し、該言語情報を元話者のＦ０パターンの統計モデルに入力する。そして、Ｆ０パターン予測部１２２は、元話者のＦ０パターンの統計モデルから出力として元話者のＦ０パターンを取得する。予測された元Ｆ０パターンはその後、Ｆ０パターン予測部１２２から後述する目標Ｆ０パターン生成部１７０へ渡される。

分布列予測部１６０は、合成用テキスに対応する言語情報を学習結果の決定木に入力し、各時系列点における出力特徴量の分布を予測する。即ち、分布列予測部１６０は、決定木情報格納部１５５から決定木の情報及び決定木の葉ノードごとの出力特徴量の分布情報（平均値、分散、及び共分散）を、また、言語情報格納部１１０から合成用テキストに対応する言語情報を読み出す。そして分布列予測部１６０は、読み出した決定木に合成用テキスに対応する言語情報を入力し、その出力として各時系列点における出力特徴量の分布（平均値、分散、及び共分散）を取得する。

なお、上述したように本実施例では、出力特徴量として静的特徴量とその動的特徴量とを含む。そして、静的特徴量は時間軸方向及び周波数軸方向の移動量を含む。また、静的特徴量に対応する動的特徴量は、１次の動的特徴量と２次の動的特徴量とを含む。予測された出力特徴量の分布（平均値、分散、及び共分散）の列、即ち出力特徴量の平均値ベクトルと分散共分散行列は、その後分布列予測部１６０から後述する最適化処理部１６５へ渡される。

最適化処理部１６５は、出力特徴量の分布の列から算出される尤度を最大とする移動量の列を求めることにより、移動量の最適化を行う。以下、最適化処理の手順を説明する。なお、以下に説明する最適化処理の手順は、時間軸方向の移動量と周波数軸方向の移動量とについてそれぞれ別々に行われる。

まず、出力特徴量の変数をＣ_ｉとする。ここでｉは時間によるインデックスを示す。即ちＣ_ｉは、時間軸方向についての最適化処理の場合、ｉフレーム目或いはｉ音声素片目の時間軸方向の移動量である。同様に、周波数軸方向についての最適化処理の場合、Ｃ_ｉはｉフレーム目或いはｉ音声素片目の周波数の対数の移動量である。またＣ_ｉに対応する１次の動的特徴量と２次の動的特徴量を△Ｃ_ｉと△^２Ｃ_ｉで表す。そしてこれらを並べた観測ベクトルｏを次のように定義する。

ここで△Ｃ_ｉと△^２Ｃ_ｉは、第１実施形態において説明したようにＣ_ｉの単純な線形和である。そのため観測ベクトルｏは、全時刻のＣ_ｉを並べた特徴量ベクトルｃを用いてｏ＝Ｗｃと表すことができる。ここで行列Ｗは次式を満たす。

但し、ｉ３＝３（ｉ−１）である。

さて、分布列予測部１６０により観測ベクトルｏの分布列λ_Ｏが求まるとする。すると、観測ベクトルｏの各要素は本実施例においてガウス分布に従うとしていることから、観測ベクトルｏのその予測された分布列λ_Ｏに対する尤度は次式により表すことができる。

上式において、μ_ＯとΣ_Ｏはそれぞれ平均値ベクトルと分散共分散行列であり、分布列λ_Ｏの内容、即ち、分布列予測部１６０により算出されたものである。そして、Ｌ_１を最大化する出力特徴量ベクトルｃは次式を満たす。

この方程式はコレスキー分解や最急降下法などの反復計算によって特徴量ベクトルｃについて解くことができ、従って時間軸方向の移動量及び周波数軸方向の移動量それぞれについて最適解が求まる。このように、最適化部１６５は、出力特徴量の分布の列から、最も尤もらしい時間軸方向及び周波数軸方向のそれぞれの移動量の列を求める。算出された時間軸方向及び周波数軸方向のそれぞれの移動量の列は、その後最適化処理部１６５から後述する目標Ｆ０パターン生成部へ渡される。

目標Ｆ０パターン生成部１７０は、合成用テキストに対応する元Ｆ０パターンに、算出された時間軸方向及び周波数軸方向のそれぞれの移動量の列を加算することにより、合成用テキストに対応する目標Ｆ０パターンを生成する。

次に図８を参照して、本発明の第２実施形態に係る基本周波数パターン生成装置１００による目標Ｆ０パターンの生成処理の流れを説明する。図８は、基本周波数パターン生成装置１００としてのコンピュータにより実行される、元Ｆ０パターンに対する目標Ｆ０パターンの生成処理の全体の流れの一例を示すフローチャートである。処理はステップ８００から開始し、基本周波数パターン生成装置１００はユーザから提供された合成用テキストを読み込む。ユーザは、例えばキーボード等の入力装置や記録媒体読み込み装置、また通信インタフェースを介して、基本周波数パターン生成装置１００に学習用テキストを提供してよい。

合成用テキストを読み込んだ基本周波数パターン生成装置１００は、次にこれを解析し、アクセント型、音素、品詞、モーラ位置等のコンテキスト情報を含む言語情報を取得する（ステップ８０５）。そして基本周波数パターン生成装置１００は、元話者モデル情報格納部１２０から元話者の統計モデル情報を読み出してこれに取得した言語情報を入力し、出力として合成用テキストに対応する元Ｆ０パターンを取得する（ステップ８１０）。

続いて基本周波数パターン生成装置１００は、決定木情報格納部１５５から決定木情報を読み出してこれに合成用テキストに対応する言語情報を入力し、その出力として、時間軸方向及び周波数軸方向の移動量及びこれら移動量の変化量（１次及び２次の動的特徴量を含む）の分布の列を取得する（ステップ８１５）。そして基本周波数パターン生成装置１００は、取得した移動量及びその移動量の変化量の分布の列から算出される尤度を最大にする移動量の列を求めることにより、最適化された移動量の列を取得する（ステップ８２０）。

最後に基本周波数パターン生成装置１００は、合成用テキストに対応するＦ０パターンに、最適化された時間軸方向及び周波数軸方向の移動量を加算することにより、同一の合成用テキストに対応する目標Ｆ０パターンを生成する（ステップ８２５）。そして処理は終了する。

図９に、第２実施形態として説明した本発明を適用して得られた目標Ｆ０パターンを示す。但し、図９（ａ）では、合成用テキストとして学習用テキストに含まれる文を利用している。一方図９（ｂ）では、本合成用テキストとして学習用テキストにはない文を利用している。いずれの図においても、記号Ａの実線のパターンが基準となる元話者の音声のＦ０パターン、記号Ｂの一点鎖線のパターンが実際の目標話者の音声を分析して得られたＦ０パターン、記号Ｃの点線のパターンが本発明を適用して生成した目標話者のＦ０パターンを示す。

まず図９（ａ）について検討する。記号ＢのＦ０パターンを記号ＡのＦ０パターンと比較すると、目標話者には句末で周波数をあげるという癖（記号Ｐ１を参照）、また周波数の谷間が前にずれるという癖（記号Ｐ２を参照）があることが分る。そこで記号Ｃを付されたＦ０パターンをみてみると、本発明を適用して生成した目標話者のＦ０パターンは確かにこれらの癖を再現している（記号Ｐ１、Ｐ２を参照）。

次に図９（ｂ）について検討する。記号ＢのＦ０パターンを記号ＡのＦ０パターンと比較すると、ここでも目標話者には句末で周波数をあげるという癖（記号Ｐ３を参照）がみられる。そこで記号Ｃを付されたＦ０パターンをみてみると、本発明を適用して生成した目標話者のＦ０パターンは正しくこの癖を再現している。（記号Ｐ３を参照）。なお図９（ｂ）に示す記号ＢのＦ０パターンには、３番目のイントネーション句において第一のアクセント句（最初の周波数の山）よりも第二のアクセント句（次の周波数の山）の方がピークが高い特徴がみられる（記号Ｐ４，Ｐ４‘を参照）。そこで記号Ｃを付されたＦ０パターンをみてみると、本発明を適用して生成した目標話者のＦ０パターンにおいても第一のアクセント句を小さく第二のアクセント句を大きく変化させようという傾向がみられる（記号Ｐ４、Ｐ４’を参照）。言語情報に、強調箇所（この場合は第二アクセント句）を含めれば、さらにこの部分の特徴を表現できる可能性がある。

（第３実施形態）図１に戻って、目標話者の音声のＦ０パターンとその移動量の組み合わせを学習する学習装置５０とその学習結果を利用する基本周波数パターン生成装置１００を説明する。なお、第３実施形態における学習装置５０の各構成要素は、第１実施形態及び第２実施形態に関連して説明した学習装置５０の各構成要素と基本的に同じであるため、ここでは、異なる機能を果たす構成要素、即ち、変化量算出部１４５、移動量・変化量学習部１５０及び決定木情報格納部１５５についてのみ説明する。

第３実施形態における変化量算出部１４５は、第１実施形態における変化量算出部１４５の機能に加えて、次の機能を果たす。即ち第３実施形態における変化量算出部１４５は更に、目標Ｆ０パターン上の各点についても、隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出する。なお、ここでも変化量は１次及び２次の動的特徴量を含む。また周波数軸方向の変化量は、周波数の対数の変化量であってよい。算出された１次及び２次の動的特徴量はそれぞれ後述する移動量・変化量学習部１５０へと渡される。

第３実施形態における移動量・変化量学習部１５０は、言語情報格納部１１０から読み出した学習用テキストの解析結果である言語情報を入力特徴量、静的特徴量である移動量と目標Ｆ０パターン上の各点の値、及び動的特徴量である移動量の変化量と目標Ｆ０パターン上の各点の変化量を出力特徴量として決定木を学習し、学習した決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める。この場合、当該学習結果を用いて目標Ｆ０パターンを生成する段階において、移動量よりも絶対値が特徴的な箇所においては絶対量のモデル化が可能となる。なお、目標Ｆ０パターン上の周波数軸方向の値は周波数の対数であってよい。

本実施例においても移動量・変化量学習部１５０は、決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する。モデル化の結果、出力特徴量及び出力特徴量の組み合わせの各々に対し平均値、分散、共分散といった値が得られる。なお、上述したように決定木の学習方法は公知の技術であるため詳細な説明は省略するが、学習には例えばＣ４．５やｗｅｋａ等のツールを利用できる。

第３実施形態における決定木情報格納部１５５は、移動量・変化量学習部１５０により学習された決定木の情報及び決定木の葉ノードごとの出力特徴量及び出力特徴量の組み合わせの分布情報（平均値、分散、共分散）を格納する。具体的には、時間軸方向及び周波数軸方向の移動量、目標Ｆ０パターン上の各点の時間軸方向及び周波数軸方向の値、及びこれらの組み合わせ、即ち時間軸方向の移動量と時間軸方向の目標Ｆ０パターン上の値の組み合わせ、及び周波数軸方向の移動量と周波数軸方向の目標Ｆ０パターン上の値の組み合わせそれぞれについての分布情報を格納する。更に、上記移動量及び目標Ｆ０パターン上の各点のそれぞれについての変化量（１次及び２次の動的特徴量）の分布情報を格納する。

なお、第３実施形態に係る学習装置５０による移動量の学習処理の流れもまた、第１実施形態に係る学習装置５０による移動量の学習処理の流れと基本的に同じである。但し、第３実施形態に係る学習装置５０は、図２に示すフローチャートのステップ２３５において、更に、目標Ｆ０パターン上の時間軸方向及び周波数軸方向の値について１次の動的特徴量及び２次的特徴量を算出し、それぞれ記憶領域に記憶する。

そして続くステップ２４０では、第３実施形態に係る学習装置５０は、学習用テキストの解析結果である言語情報を入力特徴量、時間軸方向及び周波数軸方向の移動量と目標Ｆ０パターンの時間軸方向及び周波数軸方向の値とを含む静的特徴量と、該静的特徴量に対応する１次及び２次の動的特徴量とを出力特徴量として、決定木を学習する。最後のステップ２４５では、第３実施形態に係る学習装置５０は、学習した決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量及び出力特徴量の組み合わせの分布を求め、学習した決定木の情報と葉ノードごとの分布情報を、決定木情報格納部１５５に格納し、そして処理は終了する。

次に第３実施形態に係る学習装置５０の学習結果を利用する基本周波数パターン生成装置１００の構成要素のうち、学習装置５０を除く構成要素を説明する。第３実施形態における分布列予測部１６０は、合成用テキスに対応する言語情報を学習結果の決定木に入力し、各時系列点における出力特徴量及び出力特徴の組み合わせの分布を予測する。

即ち、分布列予測部１６０は、決定木情報格納部１５５から決定木の情報及び決定木の葉ノードごとの出力特徴量及び出力特徴量の組み合わせの分布情報（平均値、分散、及び共分散）を、また、言語情報格納部１１０から合成用テキストに対応する言語情報を読み出す。そして分布列予測部１６０は、読み出した決定木に合成用テキスに対応する言語情報を入力し、その出力として各時系列点における出力特徴量及び出力特徴量の組み合わせの分布（平均値、分散、及び共分散）を取得する。

なお、上述したように本実施例では、出力特徴量として静的特徴量とその動的特徴量とを含む。そして、静的特徴量は時間軸方向及び周波数軸方向の移動量と、目標Ｆ０パターン上の時間軸方向及び周波数軸方向の値を含む。また、静的特徴量に対応する動的特徴量は、１次の動的特徴量と２次の動的特徴量とを含む。予測された出力特徴量及び出力特徴量の組み合わせの分布（平均値、分散、及び共分散）の列、即ち出力特徴量及び出力特徴量の組み合わせの平均値ベクトルと分散共分散行列は、その後分布列予測部１６０から後述する最適化処理部１６５へ渡される。

最適化処理部１６５は、出力特徴量の組み合わせの分布の列から算出される尤度を最大とする移動量の列を求めることにより、移動量の最適化を行う。以下、最適化処理の手順を説明する。なお、以下に説明する最適化処理の手順は、時間軸方向の移動量と目標Ｆ０パターン上の時間軸方向の値との組み合わせと、周波数軸方向の移動量と目標Ｆ０パターン上の周波数軸方向の値との組み合わせそれぞれについて、別々に行われる。

まず、目標Ｆ０パターン上の値をｙ_ｔ[ｊ]、移動量の値をδ_ｙ[ｉ]する。なおｙ_ｔ[ｊ]とδ_ｙ[ｉ]の間にはδ_ｙ[ｉ]＝ｙ_ｔ[ｊ]―ｙ_ｓ[ｉ]の関係が成立する。但しｙ_ｓ[ｉ]は、ｙ_ｔ[ｊ]に対応する元Ｆ０パターン上の点の値である。またここでｊは時間によるインデックスを示す。即ちｙ_ｔ[ｊ]は、時間軸方向についての最適化処理の場合、ｊフレーム目或いはｊ音声素片目の時間軸方向の値（位置）である。同様に、周波数軸方向についての最適化処理の場合、ｙ_ｔ[ｊ]はｊフレーム目或いはｊ音声素片目の周波数の対数である。またｙ_ｔ[ｊ]に対応する１次の動的特徴量と２次の動的特徴量を△ｙ_ｔ[ｊ]と△^２ｙ_ｔ[ｊ]で表す。同様に、δ_ｙ[ｉ]に対応する１次の動的特徴量と２次の動的特徴量を△δ_ｙ[ｉ]と△^２δ_ｙ[ｉ]で表す。そしてこれら組み合わせを並べた観測ベクトルｏを次のように定義する。

上記のように定義された観測ベクトルｏは、次のように表すことができる。

但しＵ＝（Ｗ^ＴＷ^Ｔ）Ｔ、Ｖ＝（０^ＴＷ^ＴＴ）^Ｔとする。ここで０は零行列を表し、また、行列Ｗは数式７を満たす。

さて、分布列予測部１６０により観測ベクトルｏの分布列λ_Ｏが求まるとする。すると観測ベクトルｏのその予測された分布列λ_Ｏに対する尤度は次式により表すことができる
。

但し「μ′ _ｏ＝Ｖｙ_ｓ＋μ_ｏとする。なおｙｓは、上述したように元Ｆ０パターン上の時間軸方向又は周波数軸方向の値である。

上式において、μ_ＯとΣ_Ｏはそれぞれ平均値ベクトルと分散共分散行列であり、分布列λ_Ｏの内容、即ち、分布列予測部１６０により算出されたものである。具体的にはμ_ＯとΣ_Ｏはそれぞれ次のように表される。

但し、μ_zyはｚｙの平均値ベクトル、μ_ｄｙはｄｙの平均値ベクトルであり、ここでｚｙ＝Ｗｙ_ｓ,
ｄｙ＝Ｗδ_ｙである。なおここでも行列Ｗは数式７を満たす。

但しΣ_ｚｙｔは、目標Ｆ０パターン（時間軸方向又は周波数軸方向いずれか一方）の共分散行列、Σ_ｄｙは移動量（時間軸方向又は周波数軸方向いずれか一方）の共分散行列、Σ_{ｚｙｔｄｙ}は目標Ｆ０パターンと移動量（時間軸方向同士又は周波数軸同士の組み合わせ）の共分散行列である。

そして、Ｌを最大化するｙ_ｔの最適解は次式により求められる。

但し、Ｒ＝Ｕ^ＴΣ_ｏ ^−１Ｕ、ｒ＝Ｕ^ＴΣ_ｏ ^−１μ′ _ｏである。Ｒを求めるためにΣ_Ｏの逆行列を求める必要があるが、これはΣ_ｚｙｔ、Σ_{ｚｙｔｄｙ} 、Σ_ｄｙのそれぞれが対角行列とすれば簡単に求めることができる。例えば、その対角成分を順にａ[ｉ]、ｂ[ｉ]、ｃ[ｉ]とすると、Σ_Ｏの逆行列の対角成分はｃ[ｉ]／（ａ[ｉ] ｃ[ｉ]―ｂ[ｉ]^２）として求めることができる。

このように本実施例では、移動量を介さずに最適化処理により直接目標Ｆ０パターンを求めることができる。なお、ｙ_ｔの最適解を求めるにあたり、ｙ_Ｓ、即ち元Ｆ０パターンの値を参照する必要があることに留意されたい。算出された時間軸方向及び周波数軸方向のそれぞれの値の列は、その後最適化処理部１６５から後述する目標Ｆ０パターン生成部へ渡される。

目標Ｆ０パターン生成部１７０は、最適化処理部１６５により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べることにより、合成用テキストに対応する目標Ｆ０パターンを生成する。

なお、第３実施形態に係る基本周波パターン生成装置１００による目標Ｆ０パターンの生成処理の流れもまた、第２実施形態に係る基本周波パターン生成装置１００による目標Ｆ０パターンの生成処理の流れと基本的に同じである。但し、第３実施形態に係る基本周波パターン生成装置１００は、図８に示すフローチャートのステップ８１５において、決定木情報格納部１５５から決定木情報を読み出してこれに合成用テキストに対応する言語情報を入力し、その出力として、出力特徴量及び出力特徴量の組み合わせの分布（平均値、分散、及び共分散）の列を取得する。

そして続くステップ８２０において基本周波数パターン生成装置１００は、出力特徴量の組み合わせの分布の列から算出される尤度を最大とする目標Ｆ０パターンの時間軸方向の値の列及び目標Ｆ０パターンの周波数軸方向の値の列を求めることにより、最適化処理を行う。

最後のステップ８２５において基本周波数パターン生成装置１００は、最適化部１６５により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べることにより、合成用テキストに対応する目標Ｆ０パターンを生成する。

図１０は、本発明の実施の形態による学習装置５０及び基本周波数パターン生成装置１００を実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。コンピュータは、バス２に接続されたＣＰＵ（中央処理装置）１とメインメモリ４を含んでいる。ハードディスク装置１３、３０、およびＣＤ−ＲＯＭ装置２６、２９、フレキシブル・ディスク装置２０、ＭＯ装置２８、ＤＶＤ装置３１のようなリムーバブル・ストレージ（記録メディアを交換可能な外部記憶システム）がフレキシブル・ディスクコントローラ１９、ＩＤＥコントローラ２５、ＳＣＳＩコントローラ２７などを経由してバス２へ接続されている。

フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置１３、３０、ＲＯＭ１４には、オペレーティング・システムと協働してＣＰＵ等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、学習装置５０又は基本周波数パターン生成装置１００としてのコンピュータの上記説明した数々の記憶装置には、本発明に係る移動量又は該移動量と目標Ｆ０パターンの組み合わせの学習プログラムや基本周波数パターン生成プログラム、上記説明した元話者モデル情報等のデータを格納できる。そして複数のコンピュータ・プログラムはメインメモリ４にロードされることによって実行される。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる

コンピュータは、キーボード／マウス・コントローラ５を経由して、キーボード６やマウス７のような入力デバイスからの入力を受ける。コンピュータは、オーディオコントローラ２１を経由して、マイク２４からの入力を受け、またスピーカー２３から音声を出力する。コンピュータは、視覚データをユーザに提示するための表示装置１１に、グラフィックスコントローラ８を経由して接続される。コンピュータは、ネットワーク・アダプタ１８（イーサネット（Ｒ）・カードやトークンリング・カード）等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。

以上の説明により、本発明の実施の形態による学習装置５０及び基本周波数パターン生成装置１００を実現するのに好適なコンピュータは、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、または、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。例えば、本実施例では基本周波数パターン生成装置１００は学習装置５０を含むものとした。しかし基本周波数パターン生成装置１００を、学習装置５０の一部のみ（テキスト解析部１０５、言語情報格納部１１０、元話者モデル情報格納部１２０、Ｆ０パターン予測部１２２、決定木情報格納部１５５）を含むように構成してもよい。従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

Claims

基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習装置であって、
学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、
前記目標話者の音声の基本周波数パターン上の各点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、
前記学習用テキストの解析結果である言語情報を入力特徴量、及び算出した前記移動量を出力特徴量として決定木を学習する学習部と、
を含む学習装置。
前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換セット算出部と、
基本周波数パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、前記基準となる音声の基本周波数パターン上の各点を、該点のＸ座標の値を対応する前記アフィン変換により変換した値をＸ座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付けるアフィン変換部とを含む、請求項１に記載の学習装置。
前記アフィン変換セット算出部は、前記アフィン変換を求める処理単位の初期値にイントネーション句を設定し、前記目標話者の音声の基本周波数パターンとの差が最小になるように前記基準となる音声の基本周波数パターンを変換するアフィン変換が求まるまで、前記処理単位を再帰的に２分する、請求項２に記載の学習装置。
前記対応付け部による対応付け及び移動量算出部による移動量の算出は、フレーム単位又は音声素片単位で行われる、請求項１に記載の学習装置。
算出された前記移動量の各々について、隣接する点との間の変化量を算出する変化量算出部を更に含み、前記学習部は、静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習する、請求項１に記載の学習装置。
前記移動量の変化量は、前記移動量の傾きである１次の動的特徴量と、前記移動量の曲率である２次の動的特徴量とを含む、請求項５に記載の学習装置。
前記変化量算出部は、更に前記目標話者の音声の基本周波数パターン上の各点について隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出し、前記学習部は、前記静的特徴量に前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値を、前記動的特徴量に前記時間軸方向及び周波数軸方向の変化量を各々加えて、前記決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める、請求項５に記載の学習装置。
前記学習部は、前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する、請求項５に記載の学習装置。
前記目標話者の音声の基本周波数パターン上の各点について算出される移動量は、フレーム単位又は音声素片単位で算出された移動量である、請求項５に記載の学習装置。
前記言語情報は、アクセント型、品詞、音素、モーラ位置の少なくとも１つに関する情報を含む、請求項１に記載の学習装置。
基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、
学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、
前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、
算出された前記移動量の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、
前記学習用テキストの解析結果である言語情報を入力特徴量、及び静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を求める学習部と、
合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記出力特徴量の分布を予測する分布列予測部と、
予測した前記出力特徴量の分布の列から算出される尤度を最大とする移動量の列を求めることにより、前記移動量の最適化を行う最適化処理部と、
合成用テキストに対応する基準となる音声の基本周波数パターンに前記移動量の列を加算することにより、前記合成用テキストに対応する前記目標話者の音声の基本周波数パターンを生成する目標話者の周波数パターン生成部と、
を含む基本周波数パターン生成装置。
前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換セット算出部と、
基本周波数パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、前記基準となる音声の基本周波数パターンの前記各時系列点を、該時系列点のＸ座標の値を対応する前記アフィン変換により変換した値をＸ座標の値とする前記目標話者の音声の基本周波数パターンの前記時系列点に対応付けるアフィン変換部とを含む、請求項１１に記載の基本周波数パターン生成装置。
前記学習部は、前記葉ノードに振り分けられた出力特徴量の平均値、分散、及び共分散を求める、請求項１１に記載の基本周波数パターン生成装置。
基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、
学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、
前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、
算出された前記移動量と前記目標話者の音声の基本周波数パターン上の各点の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、
前記学習用テキストの解析結果である言語情報を入力特徴量、静的特徴量である前記移動量と前記目標話者の音声の基本周波数パターン上の各点の値、及び動的特徴量である前記移動量の変化量と前記目標話者の音声の基本周波数パターン上の各点の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める学習部と、
合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記各出力特徴量及び前記出力特徴量の組み合わせの分布を予測する分布列予測部と、
予測した前記出力特徴量及び該出力特徴量の組み合わせの分布の列から算出される尤度を最大とする前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値とを求めることにより、最適化処理を行う最適化処理部と、
前記最適化処理部により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べて前記目標話者の音声の基本周波数パターンとする目標話者の周波数パターン生成部と、
を含む基本周波数パターン生成装置。
前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換セット算出部と、
基本周波数パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、前記基準となる音声の基本周波数パターンの前記各時系列点を、該時系列点のＸ座標の値を対応する前記アフィン変換により変換した値をＸ座標の値とする前記目標話者の音声の基本周波数パターンの前記時系列点に対応付けるアフィン変換部とを含む、請求項１４に記載の基本周波数パターン生成装置。
コンピュータの計算処理によって、基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習方法であって、
学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付け、対応関係を前記コンピュータの記憶領域に記憶するステップと、
前記記憶領域から前記対応関係を読み出して、前記目標話者の基本周波数パターン上の各点について、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求め、該移動量を前記記憶領域に記憶するステップと
前記記憶領域から前記移動量を読み出して、前記学習用テキストの解析結果である言語情報を入力特徴量、及び前記移動量を出力特徴量として決定木を学習するステップと、を含む学習方法。
前記対応付けは、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出する第１サブステップと、
基本周波数パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、前記基準の基本周波数パターン上の各点を、該点のＸ座標の値を対応する前記アフィン変換により変換した値をＸ座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付ける第２サブステップとを含む、請求項１６に記載の学習方法。
基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習プログラムであって、前記学習プログラムは、プロセッサと記憶部を備えたコンピュータに、
学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキ
ストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付け、対応関係を前記コンピュータの前記記憶部に記憶するステップと、
前記記憶部から前記対応関係を読み出して、前記目標話者の音声の基本周波数パターン上の各点について、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求め、該移動量を前記記憶部に記憶するステップと、
前記記憶部から前記移動量を読み出して、前記学習用テキストの解析結果である言語情報を入力特徴量、及び前記移動量を出力特徴量として決定木を学習するステップと、を実行させる学習プログラム。
前記学習プログラムは、前記コンピュータに前記基準となる音声の基本周波数パターン上の点と前記目標話者の音声の基本周波数パターン上の点を対応させるために、前記コンピュータに、
前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出する第１サブステップと、
基本周波数パターンの時間軸方向をＸ軸及び周波数軸方向をＹ軸とした場合に、前記基準となる音声の基本周波数パターン上の各点を、該点のＸ座標の値を対応する前記アフィン変換により変換した値をＸ座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付ける第２サブステップとを実行させる、請求項１８に記載の学習プログラム。