JP5226867B2 - 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム - Google Patents

話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム Download PDF

Info

Publication number
JP5226867B2
JP5226867B2 JP2011515936A JP2011515936A JP5226867B2 JP 5226867 B2 JP5226867 B2 JP 5226867B2 JP 2011515936 A JP2011515936 A JP 2011515936A JP 2011515936 A JP2011515936 A JP 2011515936A JP 5226867 B2 JP5226867 B2 JP 5226867B2
Authority
JP
Japan
Prior art keywords
frequency pattern
fundamental frequency
learning
voice
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011515936A
Other languages
English (en)
Other versions
JPWO2010137385A1 (ja
Inventor
隆輝 立花
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2011515936A priority Critical patent/JP5226867B2/ja
Publication of JPWO2010137385A1 publication Critical patent/JPWO2010137385A1/ja
Application granted granted Critical
Publication of JP5226867B2 publication Critical patent/JP5226867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Description

本発明は、合成音声の話者適応技術に関し、特に、基本周波数における話者適応技術に関する。
従来、システムの基準音声とは異なる目標話者の話し声に似て聴こえるように音声を合成する、合成音声の話者適応技術が知られている(例えば、特許文献1、2参照)。また、入力されたテキストを音声信号に変換する際に、指定された発話スタイルの合成音声を生成する発話スタイル適応の技術も知られている(例えば、特許文献3、4参照)。
このような話者適応や発話スタイル適応において、音声の音の高さ、即ち基本周波数(F0)の再現は、声の印象を再現する上で重要である。基本周波数を再現する従来手法としては、基本周波数を線形に変換する単純な手法(例えば、非特許文献1参照)や、そのバリエーション(例えば、非特許文献2参照)、スペクトルと周波数の連結特徴ベクトルを混合ガウス分布でモデル化する手法(例えば、非特許文献3参照)がある。
特開平11−52987号公報 特開2003−337592号公報 特開平7−92986号公報 特開平10−11083号公報
Z.Shuang、R.Bakis、S.Shechtman、D.Chazan Y.Qin、「Frequency warping based on mapping format parameters」、in Proc.ICSLP、Sep.2006、Pittsburg PA, USA. B.Gillet、S.King、「Transforming F0、Contours」、in Proc.EUROSPEECH 2003. 宇藤 陽介、南角 吉彦、李 晃伸、徳田恵一、「声質変換のためのスペクトル・F0の同時モデリング」、信学技報 NLC2007−50、SP2007−117(2007−12)
しかしながら、非特許文献1の技術は、基本周波数の時間的変化を表した基本周波数パターンのカーブをシフトしているだけであって基本周波数パターンの形状が変わらないため、形状の起伏に現れる話者の特徴は表現できない。一方非特許文献3の技術は、上記非特許文献1や2の技術に比べて精度が高い。
しかし非特許文献3の技術には、スペクトルと連結して基本周波数のモデルを学習しなければならないので、大量の学習データが必要であるという問題がある。また、非特許文献3の技術には、アクセント型やモーラ位置などの重要なコンテキスト情報を考慮することができないという問題、更には、アクセント核が早まったり立ち上がりが遅れたりするような時間軸方向のずれ(移動)を表現することが不可能という問題がある。
なお、上記特許文献1乃至4では、基準となる音声の周波数パターンを、目標話者又は指定された発話スタイルの特徴を表す周波数パターンの差分データで補正する技術が開示されている。しかしいずれの文献にも、基準となる音声の周波数パターンを補正すべき差分データそれ自体の具体的な算出方法についての記述はない。
この発明は、上記の問題点を解決するためになされたものであって、少量の学習データのみに基づいて、目標話者の音声の基本周波数の特徴を精度よく再現できるような技術を提供することを目的とする。また、目標話者の音声の基本周波数の特徴を再現するにあたり、アクセント型やモーラ位置などの重要なコンテキスト情報を考慮することができるような技術を提供することを他の目的とする。更に、アクセント核が早まったり立ち上がりが遅れたりするような時間軸方向のずれ(移動)に関しても、目標話者の音声の基本周波数の特徴を再現できるような技術を提供することを他の目的とする。
上記課題を解決するために、本発明の第1の態様においては、基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習装置であって、学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、前記目標話者の音声の基本周波数パターン上の各点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、前記学習用テキストの解析結果である言語情報を入力特徴量、及び算出した前記移動量を出力特徴量として決定木を学習する学習部とを含む学習装置を提供する。
ここで基準となる音声の基本周波数パターンは、基準とする特定の話者(以下、元話者という)の統計モデルにより得られる合成音声の基本周波数パターンであってよい。また、移動量算出部により算出される周波数軸方向の移動量は、周波数の対数の移動量であってよい。
好ましくは、前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換算出部と、基本周波数パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、前記基準となる音声の基本周波数パターン上の各点を、該点のX座標の値を対応する前記アフィン変換により変換した値をX座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付けるアフィン変換部とを含む。
より好ましくは、前記アフィン変換算出部は、前記アフィン変換を求める処理単位の初期値にイントネーション句を設定し、前記目標話者の音声の基本周波数パターンとの差が最小になるように前記基準となる音声の基本周波数パターンを変換するアフィン変換が求まるまで、前記処理単位を再帰的に2分する。
好ましくは、前記対応付け部による対応付け及び移動量算出部による移動量の算出は、フレーム単位又は音声素片単位で行われる。
好ましくは、前記学習装置は、算出された前記移動量の各々について、隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出する変化量算出部を更に含む。そして前記学習部は、静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習する。
より好ましくは、前記移動量の変化量は、前記移動量の傾きである1次の動的特徴量と、前記移動量の曲率である2次の動的特徴量とを含む。
またより好ましくは、前記変化量算出部は、更に前記目標話者の音声の基本周波数パターン上の各点について隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出する。そして、前記学習部は、前記静的特徴量に前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値を、前記動的特徴量に前記時間軸方向及び周波数軸方向の変化量を各々加えて、前記決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める。なお、前記周波数軸方向の値及び前記周波数軸方向の変化量はそれぞれ、周波数の対数又は周波数の対数の変化量であってよい。
またより好ましくは、前記学習部は、前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する。
またより好ましくは、前記目標話者の音声の基本周波数パターン上の各点について算出される移動量は、フレーム単位又は音声素片単位で算出された移動量である。
好ましくは、前記言語情報は、アクセント型、品詞、音素、モーラ位置の少なくとも1つに関する情報を含む。
上記課題を解決するために、本発明の第2の態様においては、基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、算出された前記移動量の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、前記学習用テキストの解析結果である言語情報を入力特徴量、及び静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を求める学習部と、合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記出力特徴量の分布を予測する分布列予測部と、予測した前記出力特徴量の分布の列から算出される尤度を最大とする移動量の列を求めることにより、前記移動量の最適化を行う最適化処理部と、合成用テキストに対応する基準となる音声の基本周波数パターンに前記移動量の列を加算することにより、前記合成用テキストに対応する前記目標話者の音声の基本周波数パターンを生成する目標話者の周波数パターン生成部とを含む基本周波数パターン生成装置を提供する。なお、移動量算出部により算出される周波数軸方向の移動量は、周波数の対数の移動量であってよい。
上記課題を解決するために、本発明の第3の態様においては、基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、算出された前記移動量と前記目標話者の音声の基本周波数パターン上の各点の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、前記学習用テキストの解析結果である言語情報を入力特徴量、静的特徴量である前記移動量と前記目標話者の音声の基本周波数パターン上の各点の値、及び動的特徴量である前記移動量の変化量と前記目標話者の音声の基本周波数パターン上の各点の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める学習部と、合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記各出力特徴量及び前記出力特徴量の組み合わせの分布を予測する分布列予測部と、予測した前記出力特徴量の組み合わせの分布の列から算出される尤度を最大とする前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値とを求めることにより、最適化処理を行う最適化処理部と、前記最適化処理部により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べて前記目標話者の音声の基本周波数パターンとする目標話者の周波数パターン生成部とを含む基本周波数パターン生成装置を提供する。なお、移動量算出部により算出される周波数軸方向の移動量は、周波数の対数の移動量であってよい。同様に、前記周波数軸方向の値及び前記周波数軸方向の変化量は、それぞれ、周波数の対数又は周波数の対数の変化量であってよい。
以上、基準となる音声の基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせを学習する学習装置及びそのような学習装置による学習結果を利用した目標話者の音声の基本周波数パターン生成装置として本発明を説明したが、本発明は、コンピュータにより実行される、目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせの学習方法、目標話者の音声の基本周波数パターンの生成方法及び目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせの学習プログラムとして把握することもできる。
本願発明では、基準となる音声の周波数パターンを補正して目標話者の音声の周波数パターンを得るべく、基準となる音声の基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせを学習するにあたり、基準となる音声の基本周波数パターンと目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付けて移動量を取得する。そのため、学習された移動量を用いて生成される目標話者の音声の基本周波数パターンは、形状の起伏に現れる話者の特徴を表現することが可能となり、目標話者の基本周波数の特徴を精度よく再現できる。本発明のその他の効果については、各実施の形態の記載から理解される。
図1は、本実施形態に係る学習装置50及び基本周波数パターン生成装置100の機能構成を示す。 図2は、本発明の実施形態に係る学習装置50による移動量の学習処理の流れの一例を示すフローチャートである。 図3は、図2に示すフローチャートのステップ225のF0パターンの対応付けの前半の処理であるアフィン変換のセットを算出する処理の流れの一例を示すフローチャートである。 図4は、図3に示すフローチャートのステップ305及び345のアフィン変換の最適化処理の詳細を示すフローチャートである。 図5は、図2に示すフローチャートのステップ225のF0パターンの対応付けの後半の処理であるアフィン変換のセットを用いたF0パターンの対応付け処理の流れの一例を示すフローチャートである。 図6(a)は、学習用テキストに対応する基準となる音声のF0パターンと、同一の学習テキストに対応する目標話者の音声のF0パターンの一例を示す図である。図6(b)は、処理単位ごとのアフィン変換の一例を示す図である。 図7(a)は、図6(b)に示すアフィン変換のセットにより変換した後の、図6(a)に示す基準となる音声のF0パターンを示す図である。図7(b)は、図6(a)に示す基準となる音声のF0パターンからの、図6(a)に示す目標話者の音声のF0パターンの移動量を示す図である。 図8は、本発明の実施形態に係る基本周波数パターン生成装置100による基本周波数パターン生成処理の流れの一例を示すフローチャートである。 図9(a)は、本発明を適用して得られた目標話者の基本周波数パターンを示す。図9(b)は、本発明を適用して得られた目標話者の他の基本周波数パターンを示す。 図10は、本発明の実施の形態による学習装置50及び基本周波数パターン生成装置100を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。
以下、本発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
図1に、本実施形態に係る学習装置50及び基本周波数パターン生成装置100の機能構成を示す。本実施形態に係る学習装置50は、基準となる音声の基本周波数の時間変化を表した基本周波数パターン(以下、F0パターンという)に対する目標話者の音声のF0パターンの移動量又は該移動量と目標話者の音声の基本周波数パターンとの組み合わせを学習する装置である。また、本実施形態に係る基本周波数パターン生成装置100は、学習装置50を含み、学習結果を用いて、基準となる音声のF0パターンを基に目標話者の音声のF0パターン(以下、目標F0パターンという)を生成する基本周波数パターン生成装置である。本実施例では、基準となる音声のF0パターンとして、元話者の音声のF0パターン(以下、元F0パターンという)を採用する。元F0パターンについては、元話者の大量の音声データを用いて予め既知の技術により元F0パターンの統計モデルが取得されているものとする。
図1に示されるように、本実施例に係る学習装置50は、テキスト解析部105、言語情報格納部110、F0パターン分析部115、元話者モデル情報格納部120、F0パターン予測部122、対応付け部130、移動量算出部140、変化量算出部145、移動量・変化量学習部150、及び決定木情報格納部155を備える。ここで本実施例に係る対応付け部130は、アフィン変換セット算出部134とアフィン変換部136を含む。
また図1に示されるように、本実施例に係る基本周波数パターン生成装置100は、学習装置50を含み、更に分布列予測部160、最適化処理部165、及び目標F0パターン生成部170を備える。以下では第1実施形態として目標話者の音声のF0パターンの移動量を学習する学習装置50を説明し、その後第2実施形態として第1実施形態に係る学習装置50の学習結果を利用する基本周波数パターン生成装置100を説明する。第2実施形態に係る基本周波数パターン生成装置100は、学習処理において「移動量」をモデル化し、生成処理では「移動量」をまず予測してこれを「元F0パターン」に加算することによって「目標F0パターン」を生成する。
そして最後に第3実施形態として、目標話者の音声のF0パターンとその移動量の組み合わせを学習する学習装置50とその学習結果を利用する基本周波数パターン生成装置100を説明する。第3実施形態における基本周波数パターン生成装置100は、学習処理において「移動量」と「目標F0パターン」とを組み合わせてモデル化し、生成処理では最適化により「元F0パターン」を参照して直接「目標F0パターン」を生成する。
(第1実施形態)テキスト解析部105は、入力されたテキストに対し、形態素解析や構文分析などを行い、言語情報を生成する。言語情報は、アクセント型、品詞、音素、及びモーラ位置等のコンテキスト情報を含む。なお第1実施形態に係るテキスト解析部105に入力されるテキストは、元F0パターンに対する目標F0パターンの移動量を学習するために使用される学習用テキストである。
言語情報格納部110は、テキスト解析部105により生成された言語情報を格納する。上述したように、言語情報は、少なくともアクセント型、品詞、音素、及びモーラ位置の1つを含むコンテキスト情報を含む。
F0パターン分析部115は、学習用テキストを読み上げた目標話者の音声情報を入力として受け取り、目標話者の音声のF0パターンを分析する。F0パターンの分析は公知の技術であるため詳細な説明は省略するが、例えばpraatなどの自己相関やウェーブレットなどの技術に基づいたツールを利用できる。分析結果である目標F0パターンはその後、F0パターン分析部115から後述する対応付け部130へ渡される。
元話者モデル情報格納部120は、元話者の大量の音声データを用いて学習して得られた元話者のF0パターンの統計モデルを格納する。F0パターンの統計モデルは、決定木や数量化I類などを利用したものであってよい。このようなF0パターンの統計モデルの学習は公知技術であるため本明細書では予め用意されるものとして記載するが、例えばC4.5やwekaなどのツールを利用できる。
F0パターン予測部122は、元話者モデル情報格納部120に格納される元話者のF0パターンの統計モデルを用いて、学習用テキストに対応する元話者のF0パターンを予測する。具体的には、F0パターン予測部122は、言語情報格納部110から学習用テキストに対応する言語情報を読み出し、該言語情報を元話者のF0パターンの統計モデルに入力する。そして、F0パターン予測部122は、元話者のF0パターンの統計モデルから出力として元話者のF0パターンを取得する。予測された元F0パターンはその後、F0パターン予測部122から後述する対応付け部130へ渡される。
対応付け部130は、学習用テキストに対応する元F0パターンと、同一の学習用テキストに対応する目標F0パターンとを、山と山及び谷と谷とが対応するように対応付ける。2つの異なるF0パターンを対応付ける方法としてDynamic Time Warpingと呼ばれる手法がある。この手法では一方の音声の各フレームと他方の音声のフレームを、それらのケプストラムやF0の類似度に基づいて対応付ける。類似度の定義によって、F0パターンの山や谷の形状を対応付けることも、ケプストラムやF0パターンの絶対値を重視して対応付けることもできる。かかる手法とは別に本出願の発明者等は、より正確な対応付けを行うべく鋭意研究した結果、元F0パターンを目標F0パターンに近い形状へと変換させるアフィン変換を利用する方法を新たに考案した。Dynamic Time Warpingそれ自体は公知であるため、本実施例ではアフィン変換を利用した対応付けを採用し、以下ではアフィン変換を利用した対応付けについて説明する。
アフィン変換を利用する本実施形態に係る対応付け部130は、アフィン変換セット算出部134とアフィン変換部136を含む。
アフィン変換セット算出部134は、元F0パターンを目標F0パターンとの差が最小になるように変換するアフィン変換のセットを算出する。具体的には、アフィン変換セット算出部134は、アフィン変換を求めるF0パターンの処理単位の初期値にイントネーション句(呼気段落)を設定する。そしてアフィン変換セット算出部134は、目標F0パターンとの差が最小になるように元F0パターンを変換するアフィン変換が求まるまでその処理単位を再帰的に2分し、新たな処理単位に対しアフィン変換を求める。最終的にアフィン変換算出部134は、イントネーション句ごとに1以上のアフィン変換を取得する。求まったアフィン変換は各々、該アフィン変換が求まった際の処理単位とその元F0パターン上の処理範囲の始点の情報とともに一時的に記憶領域に記憶される。なお、アフィン変換のセットを算出する詳細な手順は後述する。
ここで図6及び図7を参照して、アフィン変換セット算出部134により算出されるアフィン変換のセットを説明する。まず図6(a)に示すグラフは、同じ学習用テキストに対応する元F0パターン(記号A参照)と目標F0パターン(記号B参照)の一例である。図6(a)においてグラフの横軸は時間を示し、その単位は音声素片である。またグラフの縦軸は周波数を示し、その単位はヘルツ(Hz)である。図6に示すように、横軸は秒の代わりに音素番号や音節番号を用いても良い。そして図6(b)に、記号Aの付された元F0パターンを記号Bの付された目標F0パターンに近い形状へと変換させるアフィン変換のセットを示す。図6(b)に示されるように、各アフィン変換に対応する処理単位は、イントネーション句を最大値として処理範囲ごとに異なる。
そして、図6(b)に示すアフィン変換のセットを用いて実際に変換された後の元F0パターン(記号C参照)を図7(a)に示す。図7(a)から明らかなように、変換後の元F0パターンの形状は、目標F0パターン(記号B参照)の形状に近いものとなっている。
アフィン変換部136は、F0パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、元F0パターン上の各点を、該点のX座標の値を対応するアフィン変換により変換した値をX座標の値とする目標F0パターン上の点に対応付ける。即ち、アフィン変換部136は、元F0パターン上の各点(X、Y)のX座標Xを、その範囲について求まったアフィン変換で変換しXを得る。そしてアフィン変換部136は、X座標がXである目標F0パターン上の点(X、Y)を求め、該点(X、Y)を元F0パターン上の点(X、Y)に対応付ける。対応付けの結果は、一時的に記憶領域に記憶される。なお、対応付けはフレーム単位又は音声素片単位で行ってよい。
移動量算出部140は、目標F0パターンの各点(X、Y)について、対応付け部130による対応付けの結果を参照して、元F0パターン上の対応する点(X、Y)からの時間軸方向及び周波数軸方向の移動量(x、y)=(X、Y)―(X、Y)を算出する。ここで周波数軸方向の移動量は、目標F0パターン上の周波数の対数から元F0パターン上の対応する点の周波数の対数を差し引いた値であってよい。なお、フレーム単位又は音声素片単位で算出された各移動量は、その後移動量算出部140から後述する変化量算出部145と移動量・変化量学習部150とへ渡される。
図7(b)に、対応付け部130による対応付けの結果を参照して求められた、目標F0パターン(記号B参照)上の各点ごとの元F0パターン(記号A参照)からの移動量を矢印(記号D参照)で示す。なお、図7(b)において参照される対応付けの結果は、図6(b)及び図7(a)に示すアフィン変換のセットを利用して得られたものである。
変化量算出部145は、移動量算出部140により算出された時間軸方向及び周波数軸方向の移動量の各々について、隣接する点との間の変化量を算出する。なお、周波数軸方向の移動量の変化量は、上述したように周波数の対数の移動量の変化量であってよい。本実施例では移動量の変化量は、移動量の傾きである1次の動的特徴量と、移動量の曲率である2次の動的特徴量とを含む。ここで、ある値Vの1次の動的特徴量及び2次の動的特徴量はそれぞれ、3フレームで近似した場合、i番目のフレーム又は音声素片での値をV[i]とすると、一般に次のように表すことができる。
△V[i]=0.5*(V[i+1]−V[i−1])
V[i]=0.5*(−V[i+1] +2V[i]−V[i−1])
算出された1次及び2次の動的特徴量はそれぞれ後述する移動量・変化量学習部150へと渡される。
移動量・変化量学習部150は、言語情報格納部110から読み出した学習用テキストに対応する言語情報を入力特徴量、及び算出された時間軸方向及び周波数軸方向の移動量を出力特徴量として決定木を学習する。なお決定木の学習においては、静的特徴量である移動量のみならず、動的特徴量である移動量の変化量を出力特徴量に加えるのが好ましい。この場合、後に当該学習結果を用いて目標F0パターンを生成する段階において、句全体にわたって最適な移動量系列を予測することが可能となる。
移動量・変化量学習部150はまた、決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する。モデル化の結果、出力特徴量の各々に対し平均値、分散、及び共分散といった値が得られる。なお、上述したように決定木の学習方法は公知の技術であるため詳細な説明は省略するが、学習には例えばC4.5やweka等のツールを利用できる。
決定木情報格納部155は、移動量・変化量学習部150により学習された決定木の情報及び決定木の葉ノードごとの出力特徴量の分布情報(平均値、分散、及び共分散)を格納する。なお、上述したように本実施例における出力特徴量は、時間軸方向及び周波数軸方向の移動量、該移動量の変化量(1次及び2次の動的特徴量)を含む。
次に図2を参照して、本発明の第1実施形態に係る学習装置50による目標F0パターンの移動量の学習処理の流れを説明する。なお以下では、「周波数軸方向の移動量」及び「移動量の変化量」との記載は、それぞれ周波数の対数の移動量又は周波数の対数の移動量の変化量を含むものとする。図2は、学習装置50としてのコンピュータにより実行される、元F0パターンに対する目標F0パターンの移動量の学習処理の全体の流れの一例を示すフローチャートである。処理はステップ200から開始し、学習装置50はユーザから提供された学習用テキストを読み込む。ユーザは、例えばキーボード等の入力装置や記録媒体読み込み装置、また通信インタフェースを介して、学習装置50に学習用テキストを提供してよい。
学習用テキストを読み込んだ学習装置50は、次にこれを解析し、アクセント型、音素、品詞、モーラ位置等のコンテキスト情報を含む言語情報を取得する(ステップ205)。そして学習装置50は、元話者モデル情報格納部120から元話者の統計モデル情報を読み出してこれに取得した言語情報を入力し、出力として学習用テキストに対応する元F0パターンを取得する(ステップ210)。
学習装置50はまた、同一の学習用テキストを読み上げた目標話者の音声情報を取得する(ステップ215)。ユーザは、例えばマイク等の入力装置や記録媒体読み込み装置、また通信インタフェースを介して、学習装置50に目標話者の音声情報を提供してよい。そして学習装置50は、取得した目標話者の音声情報を分析し、目標話者のF0パターン、即ち目標F0パターンを得る(ステップ220)。
次に学習装置50は、学習用テキストに対応する元F0パターンと、同一の学習用テキストに対応する目標F0パターンとを、山と山及び谷と谷とが対応するように対応付け、対応関係をその記憶領域に記憶する(ステップ225)。対応付けの詳細な処理手順は図3及び図4を参照して後述する。続いて学習装置50は、記憶した対応関係を参照して、目標F0パターンを構成する各時系列点について、元F0パターンを構成する各時系列点のうち対応する時系列点からの時間軸方向及び周波数軸方向の移動量、即ち対応する時系列点間の時間軸方向及び周波数軸方向の差分を求め、求めた移動量を記憶領域に記憶する(ステップ230)。
学習装置50はまた、記憶領域から求めた時間軸方向及び周波数軸方向の移動量を読み出して、時系列点ごとに、時間軸方向及び周波数軸方向の移動量の変化量として移動量の1次の動的特徴量及び2次的特徴量を算出し、記憶領域に記憶する(ステップ235)。
最後に学習装置50は、学習用テキストの解析結果である言語情報を入力特徴量、時間軸方向及び周波数軸方向の移動量を含む静的特徴量と、該静的特徴量に対応する1次及び2次の動的特徴量とを出力特徴量として、決定木を学習する(ステップ240)。そして学習装置50は、学習した決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を求め、学習した決定木の情報と葉ノードごとの分布情報を、決定木情報格納部155に格納する(ステップ245)。そして処理は終了する。
ここで本出願の発明者等によって新たに考案された、元F0パターンを目標F0パターンに近い形状へと変換させるアフィン変換のセットを再帰的に求める手法を説明する。
本手法では、同一の学習用テキストに対応する元F0パターンと目標F0パターンの両F0パターンをそれぞれイントネーション句で分割し、分割して得られた両F0パターンの処理範囲ごとに独立して最適な1以上のアフィン変換を求める。ここで最適なアフィン変換とは、該アフィン変換後の元F0パターンと目標F0パターンとの処理範囲内における誤差を最小にするようなアフィン変換である。このようなアフィン変換は、処理単位に対し1つ求められる。
即ち、例えば処理単位を2分して2つのより小さな処理単位とすると、その新たな2つの処理単位のそれぞれに対して新たに1つの最適なアフィン変換が求まる。そこで、いずれのアフィン変換が最適なアフィン変換であるかを判定するために、処理単位を2分する前と後で、アフィン変換後の元F0パターンと目標F0パターンとの誤差の自乗和を比較する(処理単位を2分した場合における誤差の自乗和とは、2分した前部分と後ろ部分のそれぞれに対して求められた誤差の自乗和の和である。)。但し上記比較は、元F0パターンを2分し得る点と目標F0パターンを2分し得る点とのあらゆる組み合わせの中で、誤差の自乗和を最小とする2分点の組み合わせに対してのみ行うものとして無駄を省く。
2分した後の誤差の自乗和が十分に小さいと判定されなければ、2分する前の処理単位に対し求められたアフィン変換が最適なアフィン変換である。従って、2分した後の誤差の自乗和が十分に小さいと判定されなくなるまで、若しくは処理単位が十分に長くないと判定されるまで、上記一連の処理を再帰的に行う。
次に図3乃至図5を参照して、同一の学習用テキストに各々対応する元F0パターンと目標F0パターンの対応付け処理の詳細を説明する。図3は、アフィン変換セット算出部134により実行される、アフィン変換セットの算出処理の流れの一例を示すフローチャートである。なお、図3に示すアフィン変換セットの算出処理は、イントネーション句単位で分割された両F0パターンの処理範囲ごとに実行される。図4は、アフィン変換セット算出部134により実行される、アフィン変換の最適化処理の流れの一例を示すフローチャートである。図4は、図3に示すフローチャートのステップ305及びステップ345における処理の詳細を示している。
図5は、アフィン変換部136により実行される、アフィン変換及び対応付け処理の流れの一例を示すフローチャートである。図5に示す処理は、図3に示す処理が全処理範囲に対して実行された後に実行される。なお、図3乃至図5は、図2に示すフローチャートのステップ225における処理の詳細を示している。
図3において、処理はステップ300で開始し、アフィン変換セット算出部134は、元F0パターンの処理単位の初期値U(0)及び目標F0パターンの処理単位の初期値U(0)に、それぞれイントネーション句を設定する。そしてアフィン変換セット算出部134は、現在の処理単位に対し最適なアフィン変換求める(ステップ305)。アフィン変換の最適化処理の詳細は図4を参照して後述する。アフィン変換が求まると、アフィン変換セット算出部134は、元F0パターンを算出したアフィン変換で変換し、目標F0パターンとの誤差の自乗和e(0)を求める(ステップ310)
次にアフィン変換セット算出部134は、現在の処理単位が十分長いか否かを判定し(ステップ315)、十分長くないと判定した場合(ステップ315:NO)、処理を終了する。一方処理単位が十分に長いと判定した場合(ステップ315:YES)、アフィン変換セット算出部134は、各F0パターンについて、現在の処理単位内のF0パターンを2分し得る全ての点を仮の点として各々P(j)、P(k)に格納する(ステップ320)。ここで変数jは1からNの整数を、変数kは1からMの整数の値をとる。
次にアフィン変換セット算出部134は、変数j及び変数kの初期値を1とし(ステップ325、ステップ330)、U(0)内の目標F0パターンを2分する点P(1)より前の処理範囲をU(1)に、2分する点P(1)より後ろの処理範囲をU(2)に設定する(ステップ335)。同様にアフィン変換セット算出部134は、U(0)内の元F0パターンを2分する点P(1)より前の処理範囲をU(1)に、2分する点P(1)より後ろの処理範囲をU(2)に設定する(ステップ340)。そしてアフィン変換セット算出部134は、U(1)及びU(1)の組とU(2)及びU(2)の組のそれぞれに対し、最適なアフィン変換の求める(ステップ345)。アフィン変換の最適化処理の詳細は図4を参照して後述する。
各組に対してアフィン変換が求まると、アフィン変換セット算出部134は各組に対し、元F0パターンを算出したアフィン変換で変換して、目標F0パターンとの誤差の自乗和e(1)、e(2)をそれぞれ求める(ステップ350)。ここでe(1)は2分した前の部分の組に対し求められた誤差の自乗和であり、e(2)は後ろの部分の組に対し求められた誤差の自乗和である。アフィン変換セット算出部134は、算出した誤差の自乗和e(1)、e(2)の和をE(1、1)に格納する。上記一連の処理、即ち、ステップ325乃至ステップ355の処理は、変数j及びkの初期値を1、増分を1として、変数jは終値がN、変数kは終値がMとなるまで繰り返す。なお変数j及びkの増分は互いに独立して行われる。
ループの終了条件が満たされると処理はステップ360へ進み、アフィン変換セット算出部134は、E(j、k)の値を最小とする(j、k)の組み合わせ(l、m)を特定する。そして、アフィン変換セット算出部134は、処理単位を2分する前に求められた誤差の自乗和e(0)よりもE(l、m)が十分に小さいか否か判定する(ステップ365)。十分に小さくない場合(ステップ365:NO)、処理は終了する。一方誤差の自乗和e(0)よりもE(l、m)が十分に小さい場合(ステップ365:YES)、処理は2つに別れ、それぞれステップ370及びステップ375へ進む。
ステップ370においてアフィン変換セット算出部134は、U(0)内の目標F0パターンを2分する点P)より前の処理範囲を、新たに目標F0パターンの処理範囲の初期値U(0)に、また、U(0)内の元F0パターンを2分する点Ps()より前の処理範囲を、新たに元F0パターンの処理範囲の初期値U(0)に設定する。同様にステップ375においてアフィン変換セット算出部134は、U(0)内の目標F0パターンを2分する点P)より後ろの処理範囲を、新たに目標F0パターンの処理範囲の初期値U(0)に、また、U(0)内の元F0パターンを2分する点P)より後ろの処理範囲を、新たに元F0パターンの処理範囲の初期値U(0)に設定する。ステップ370及びステップ375から処理はステップ305へ戻り、それぞれに対し独立して上記一連の処理が再帰的に行われる。
次に図4を参照してアフィン変換の最適化処理を説明する。図4において処理はステップ400で開始し、アフィン変換セット算出部134は、処理単位についてサンプル数を一致させるため、一方のF0パターンをリサンプリングする。そしてアフィン変換セット算出部134は、目標F0パターンとの誤差が最小となるように元F0パターンを変換するアフィン変換を算出する(ステップ405)。そのようなアフィン変換の算出方法を以下に説明する。
今、X軸を時間、Y軸を周波数とし、時間軸の1目盛りは1フレーム又は音声素片に対応するものとする。そして対応をとる範囲の元F0パターンを構成する時系列点の(X、Y)座標を(Uxi、Uyi)とし、目標F0パターンを構成する時系列点の(X、Y)座標を(Vxi、Vyi)とする。但し変数iは1からNの整数とする。既にリサンプリングが済んでいるので点の個数は等しく、また各点はX軸方向に等間隔に並んでいるものとする。今、次の数1によって、(Vxi、Vyi)に近い(Wxi、Wyi)へと(Uxi、Uyi)を変換する変換パラメータ(a、b、c、d)を求めるのここでの問題である。
Figure 0005226867
まずX成分について検討する。先頭の点のX座標Vx1はWx1に一致する必要があることから、パラメータcが求まる。即ち、c=Vx1となる。同様に末端の点同士も一致する必要があることから、パラメータaが次のように求まる。
Figure 0005226867

次にY成分について検討する。変換によって得られるY座標Wyiと目標のY座標Vyiの誤差の自乗和は次式で定義される。
Figure 0005226867

偏微分方程式を解けば、これを最小とするパラメータbとdはそれぞれ次式のように求まる。
Figure 0005226867



Figure 0005226867



このようにして、処理単位について最適なアフィン変換が求まる。
図4に戻って、処理はステップ405からステップ410へ進み、アフィン変換セット算出部134は、現在の最適なアフィン変換を求める処理が処理単位U(0)及びU(0)に対してなされるものであるか否かを判定する。処理単位U(0)及びU(0)に対する処理でない場合(ステップ410:NO)、処理は終了する。一方処理単位U(0)及びU(0)に対する処理である場合(ステップ410:YES)、アフィン変換セット算出部134は、ステップ405において算出したアフィン変換を、現在の処理単位と元F0パターン上の現在の処理位置とに対応付けて、一時的に記憶領域に記憶する(ステップ415)。そして処理は終了する。
次に図5を参照してアフィン変換部136によるアフィン変換と対応付け処理を説明する。図5において処理はステップ500で開始し、アフィン変換部136は、アフィン変換セット算出部134により算出され記憶されているアフィン変換のセットを読み出す。対応する処理位置が重複するアフィン変換が複数存在する場合、対応する処理単位が最も小さいアフィン変換のみ残し他は削除する(ステップ505)。
その後アフィン変換部136は、元F0パターンを構成する各点(X、Y)について、X座標Xsをその処理範囲に対して求まったアフィン変換で変換して、それぞれ値Xを取得する(ステップ510)。なお、ここではX軸を時間、Y軸を周波数とする。そしてアフィン変換部136は、算出した各Xに対し、X座標がXであるときの目標F0パターンのY座標Yを取得する(ステップ515)。最後に、アフィン変換部136は、算出した各(X、Y)を、該値を取得する基となった(X、Y)に対応付けて記憶領域に記憶する(ステップ520)。そして処理は終了する。
(第2実施形態)図1に戻って、次に第1実施形態に係る学習装置50の学習結果を利用する基本周波数パターン生成装置100の機能構成を説明する。基本周波数パターン生成装置100に含まれる学習装置50の各構成要素は、第1実施形態に関して説明したのと同じであるためここでは説明を省略する。但し、基本周波数パターン生成装置100に含まれる学習装置50の構成要素としてのテキスト解析部105は、更に入力テキストとして、それについて目標話者のF0パターンを生成することを希望する合成用テキストを受け取る。従って、言語情報格納部110には、学習用テキストに対応する言語情報と合成用テキストに対応する言語情報とが格納される。
また、合成時におけるF0パターン予測部122は、元話者モデル情報格納部120に格納される元話者のF0パターンの統計モデルを用いて、合成用テキストに対応する元話者のF0パターンを予測する。即ち、F0パターン予測部122は、言語情報格納部110から合成用テキストに対応する言語情報を読み出し、該言語情報を元話者のF0パターンの統計モデルに入力する。そして、F0パターン予測部122は、元話者のF0パターンの統計モデルから出力として元話者のF0パターンを取得する。予測された元F0パターンはその後、F0パターン予測部122から後述する目標F0パターン生成部170へ渡される。
分布列予測部160は、合成用テキスに対応する言語情報を学習結果の決定木に入力し、各時系列点における出力特徴量の分布を予測する。即ち、分布列予測部160は、決定木情報格納部155から決定木の情報及び決定木の葉ノードごとの出力特徴量の分布情報(平均値、分散、及び共分散)を、また、言語情報格納部110から合成用テキストに対応する言語情報を読み出す。そして分布列予測部160は、読み出した決定木に合成用テキスに対応する言語情報を入力し、その出力として各時系列点における出力特徴量の分布(平均値、分散、及び共分散)を取得する。
なお、上述したように本実施例では、出力特徴量として静的特徴量とその動的特徴量とを含む。そして、静的特徴量は時間軸方向及び周波数軸方向の移動量を含む。また、静的特徴量に対応する動的特徴量は、1次の動的特徴量と2次の動的特徴量とを含む。予測された出力特徴量の分布(平均値、分散、及び共分散)の列、即ち出力特徴量の平均値ベクトルと分散共分散行列は、その後分布列予測部160から後述する最適化処理部165へ渡される。
最適化処理部165は、出力特徴量の分布の列から算出される尤度を最大とする移動量の列を求めることにより、移動量の最適化を行う。以下、最適化処理の手順を説明する。なお、以下に説明する最適化処理の手順は、時間軸方向の移動量と周波数軸方向の移動量とについてそれぞれ別々に行われる。
まず、出力特徴量の変数をCとする。ここでiは時間によるインデックスを示す。即ちCは、時間軸方向についての最適化処理の場合、iフレーム目或いはi音声素片目の時間軸方向の移動量である。同様に、周波数軸方向についての最適化処理の場合、Cはiフレーム目或いはi音声素片目の周波数の対数の移動量である。またCに対応する1次の動的特徴量と2次の動的特徴量を△Cと△で表す。そしてこれらを並べた観測ベクトルoを次のように定義する。
Figure 0005226867

ここで△Cと△は、第1実施形態において説明したようにCの単純な線形和である。そのため観測ベクトルoは、全時刻のCを並べた特徴量ベクトルcを用いてo=Wcと表すことができる。ここで行列Wは次式を満たす。
Figure 0005226867



但し、i3=3(i−1)である。
さて、分布列予測部160により観測ベクトルoの分布列λが求まるとする。すると、観測ベクトルoの各要素は本実施例においてガウス分布に従うとしていることから、観測ベクトルoのその予測された分布列λに対する尤度は次式により表すことができる。
Figure 0005226867

上式において、μとΣはそれぞれ平均値ベクトルと分散共分散行列であり、分布列λの内容、即ち、分布列予測部160により算出されたものである。そして、Lを最大化する出力特徴量ベクトルcは次式を満たす。
Figure 0005226867

この方程式はコレスキー分解や最急降下法などの反復計算によって特徴量ベクトルcについて解くことができ、従って時間軸方向の移動量及び周波数軸方向の移動量それぞれについて最適解が求まる。このように、最適化部165は、出力特徴量の分布の列から、最も尤もらしい時間軸方向及び周波数軸方向のそれぞれの移動量の列を求める。算出された時間軸方向及び周波数軸方向のそれぞれの移動量の列は、その後最適化処理部165から後述する目標F0パターン生成部へ渡される。
目標F0パターン生成部170は、合成用テキストに対応する元F0パターンに、算出された時間軸方向及び周波数軸方向のそれぞれの移動量の列を加算することにより、合成用テキストに対応する目標F0パターンを生成する。
次に図8を参照して、本発明の第2実施形態に係る基本周波数パターン生成装置100による目標F0パターンの生成処理の流れを説明する。図8は、基本周波数パターン生成装置100としてのコンピュータにより実行される、元F0パターンに対する目標F0パターンの生成処理の全体の流れの一例を示すフローチャートである。処理はステップ800から開始し、基本周波数パターン生成装置100はユーザから提供された合成用テキストを読み込む。ユーザは、例えばキーボード等の入力装置や記録媒体読み込み装置、また通信インタフェースを介して、基本周波数パターン生成装置100に学習用テキストを提供してよい。
合成用テキストを読み込んだ基本周波数パターン生成装置100は、次にこれを解析し、アクセント型、音素、品詞、モーラ位置等のコンテキスト情報を含む言語情報を取得する(ステップ805)。そして基本周波数パターン生成装置100は、元話者モデル情報格納部120から元話者の統計モデル情報を読み出してこれに取得した言語情報を入力し、出力として合成用テキストに対応する元F0パターンを取得する(ステップ810)。
続いて基本周波数パターン生成装置100は、決定木情報格納部155から決定木情報を読み出してこれに合成用テキストに対応する言語情報を入力し、その出力として、時間軸方向及び周波数軸方向の移動量及びこれら移動量の変化量(1次及び2次の動的特徴量を含む)の分布の列を取得する(ステップ815)。そして基本周波数パターン生成装置100は、取得した移動量及びその移動量の変化量の分布の列から算出される尤度を最大にする移動量の列を求めることにより、最適化された移動量の列を取得する(ステップ820)。
最後に基本周波数パターン生成装置100は、合成用テキストに対応するF0パターンに、最適化された時間軸方向及び周波数軸方向の移動量を加算することにより、同一の合成用テキストに対応する目標F0パターンを生成する(ステップ825)。そして処理は終了する。
図9に、第2実施形態として説明した本発明を適用して得られた目標F0パターンを示す。但し、図9(a)では、合成用テキストとして学習用テキストに含まれる文を利用している。一方図9(b)では、本合成用テキストとして学習用テキストにはない文を利用している。いずれの図においても、記号Aの実線のパターンが基準となる元話者の音声のF0パターン、記号Bの一点鎖線のパターンが実際の目標話者の音声を分析して得られたF0パターン、記号Cの点線のパターンが本発明を適用して生成した目標話者のF0パターンを示す。
まず図9(a)について検討する。記号BのF0パターンを記号AのF0パターンと比較すると、目標話者には句末で周波数をあげるという癖(記号P1を参照)、また周波数の谷間が前にずれるという癖(記号P2を参照)があることが分る。そこで記号Cを付されたF0パターンをみてみると、本発明を適用して生成した目標話者のF0パターンは確かにこれらの癖を再現している(記号P1、P2を参照)。
次に図9(b)について検討する。記号BのF0パターンを記号AのF0パターンと比較すると、ここでも目標話者には句末で周波数をあげるという癖(記号P3を参照)がみられる。そこで記号Cを付されたF0パターンをみてみると、本発明を適用して生成した目標話者のF0パターンは正しくこの癖を再現している。(記号P3を参照)。なお図9(b)に示す記号BのF0パターンには、3番目のイントネーション句において第一のアクセント句(最初の周波数の山)よりも第二のアクセント句(次の周波数の山)の方がピークが高い特徴がみられる(記号P4,P4‘を参照)。そこで記号Cを付されたF0パターンをみてみると、本発明を適用して生成した目標話者のF0パターンにおいても第一のアクセント句を小さく第二のアクセント句を大きく変化させようという傾向がみられる(記号P4、P4’を参照)。言語情報に、強調箇所(この場合は第二アクセント句)を含めれば、さらにこの部分の特徴を表現できる可能性がある。
(第3実施形態)図1に戻って、目標話者の音声のF0パターンとその移動量の組み合わせを学習する学習装置50とその学習結果を利用する基本周波数パターン生成装置100を説明する。なお、第3実施形態における学習装置50の各構成要素は、第1実施形態及び第2実施形態に関連して説明した学習装置50の各構成要素と基本的に同じであるため、ここでは、異なる機能を果たす構成要素、即ち、変化量算出部145、移動量・変化量学習部150及び決定木情報格納部155についてのみ説明する。
第3実施形態における変化量算出部145は、第1実施形態における変化量算出部145の機能に加えて、次の機能を果たす。即ち第3実施形態における変化量算出部145は更に、目標F0パターン上の各点についても、隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出する。なお、ここでも変化量は1次及び2次の動的特徴量を含む。また周波数軸方向の変化量は、周波数の対数の変化量であってよい。算出された1次及び2次の動的特徴量はそれぞれ後述する移動量・変化量学習部150へと渡される。
第3実施形態における移動量・変化量学習部150は、言語情報格納部110から読み出した学習用テキストの解析結果である言語情報を入力特徴量、静的特徴量である移動量と目標F0パターン上の各点の値、及び動的特徴量である移動量の変化量と目標F0パターン上の各点の変化量を出力特徴量として決定木を学習し、学習した決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める。この場合、当該学習結果を用いて目標F0パターンを生成する段階において、移動量よりも絶対値が特徴的な箇所においては絶対量のモデル化が可能となる。なお、目標F0パターン上の周波数軸方向の値は周波数の対数であってよい。
本実施例においても移動量・変化量学習部150は、決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する。モデル化の結果、出力特徴量及び出力特徴量の組み合わせの各々に対し平均値、分散、共分散といった値が得られる。なお、上述したように決定木の学習方法は公知の技術であるため詳細な説明は省略するが、学習には例えばC4.5やweka等のツールを利用できる。
第3実施形態における決定木情報格納部155は、移動量・変化量学習部150により学習された決定木の情報及び決定木の葉ノードごとの出力特徴量及び出力特徴量の組み合わせの分布情報(平均値、分散、共分散)を格納する。具体的には、時間軸方向及び周波数軸方向の移動量、目標F0パターン上の各点の時間軸方向及び周波数軸方向の値、及びこれらの組み合わせ、即ち時間軸方向の移動量と時間軸方向の目標F0パターン上の値の組み合わせ、及び周波数軸方向の移動量と周波数軸方向の目標F0パターン上の値の組み合わせそれぞれについての分布情報を格納する。更に、上記移動量及び目標F0パターン上の各点のそれぞれについての変化量(1次及び2次の動的特徴量)の分布情報を格納する。
なお、第3実施形態に係る学習装置50による移動量の学習処理の流れもまた、第1実施形態に係る学習装置50による移動量の学習処理の流れと基本的に同じである。但し、第3実施形態に係る学習装置50は、図2に示すフローチャートのステップ235において、更に、目標F0パターン上の時間軸方向及び周波数軸方向の値について1次の動的特徴量及び2次的特徴量を算出し、それぞれ記憶領域に記憶する。
そして続くステップ240では、第3実施形態に係る学習装置50は、学習用テキストの解析結果である言語情報を入力特徴量、時間軸方向及び周波数軸方向の移動量と目標F0パターンの時間軸方向及び周波数軸方向の値とを含む静的特徴量と、該静的特徴量に対応する1次及び2次の動的特徴量とを出力特徴量として、決定木を学習する。最後のステップ245では、第3実施形態に係る学習装置50は、学習した決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量及び出力特徴量の組み合わせの分布を求め、学習した決定木の情報と葉ノードごとの分布情報を、決定木情報格納部155に格納し、そして処理は終了する。
次に第3実施形態に係る学習装置50の学習結果を利用する基本周波数パターン生成装置100の構成要素のうち、学習装置50を除く構成要素を説明する。第3実施形態における分布列予測部160は、合成用テキスに対応する言語情報を学習結果の決定木に入力し、各時系列点における出力特徴量及び出力特徴の組み合わせの分布を予測する。
即ち、分布列予測部160は、決定木情報格納部155から決定木の情報及び決定木の葉ノードごとの出力特徴量及び出力特徴量の組み合わせの分布情報(平均値、分散、及び共分散)を、また、言語情報格納部110から合成用テキストに対応する言語情報を読み出す。そして分布列予測部160は、読み出した決定木に合成用テキスに対応する言語情報を入力し、その出力として各時系列点における出力特徴量及び出力特徴量の組み合わせの分布(平均値、分散、及び共分散)を取得する。
なお、上述したように本実施例では、出力特徴量として静的特徴量とその動的特徴量とを含む。そして、静的特徴量は時間軸方向及び周波数軸方向の移動量と、目標F0パターン上の時間軸方向及び周波数軸方向の値を含む。また、静的特徴量に対応する動的特徴量は、1次の動的特徴量と2次の動的特徴量とを含む。予測された出力特徴量及び出力特徴量の組み合わせの分布(平均値、分散、及び共分散)の列、即ち出力特徴量及び出力特徴量の組み合わせの平均値ベクトルと分散共分散行列は、その後分布列予測部160から後述する最適化処理部165へ渡される。
最適化処理部165は、出力特徴量の組み合わせの分布の列から算出される尤度を最大とする移動量の列を求めることにより、移動量の最適化を行う。以下、最適化処理の手順を説明する。なお、以下に説明する最適化処理の手順は、時間軸方向の移動量と目標F0パターン上の時間軸方向の値との組み合わせと、周波数軸方向の移動量と目標F0パターン上の周波数軸方向の値との組み合わせそれぞれについて、別々に行われる。
まず、目標F0パターン上の値をy[j]、移動量の値をδ[i]する。なおy[j]とδ[i]の間にはδ[i]=y[j]―y[i]の関係が成立する。但しy[i]は、y[j]に対応する元F0パターン上の点の値である。またここでjは時間によるインデックスを示す。即ちy[j]は、時間軸方向についての最適化処理の場合、jフレーム目或いはj音声素片目の時間軸方向の値(位置)である。同様に、周波数軸方向についての最適化処理の場合、y[j]はjフレーム目或いはj音声素片目の周波数の対数である。またy[j]に対応する1次の動的特徴量と2次の動的特徴量を△y[j]と△[j]で表す。同様に、δ[i]に対応する1次の動的特徴量と2次の動的特徴量を△δ[i]と△δ[i]で表す。そしてこれら組み合わせを並べた観測ベクトルoを次のように定義する。
Figure 0005226867

上記のように定義された測ベクトルoは、次のように表すことができる。
Figure 0005226867

但しU=(W)T、V=(0T)とする。ここで0は零行列を表し、また、行列Wは数式7を満たす。
さて、分布列予測部160により観測ベクトルoの分布列λが求まるとする。すると観測ベクトルoのその予測された分布列λに対する尤度は次式により表すことができる

Figure 0005226867

但し「μ =Vy+μとする。なおysは、上述したように元F0パターン上の時間軸方向又は周波数軸方向の値である。
上式において、μとΣはそれぞれ平均値ベクトルと分散共分散行列であり、分布列λの内容、即ち、分布列予測部160により算出されたものである。具体的にはμとΣはそれぞれ次のように表される。
Figure 0005226867



但し、μzyはzyの平均値ベクトル、μdyはdyの平均値ベクトルであり、ここでzy=Wy,
dy=Wδである。なおここでも行列Wは数式7を満たす。
Figure 0005226867



但しΣzytは、目標F0パターン(時間軸方向又は周波数軸方向いずれか一方)の共分散行列、Σdyは移動量(時間軸方向又は周波数軸方向いずれか一方)の共分散行列、Σzytdyは目標F0パターンと移動量(時間軸方向同士又は周波数軸同士の組み合わせ)の共分散行列である。
そして、Lを最大化するyの最適解は次式により求められる。
Figure 0005226867

但し、R=UΣ −1U、r=UΣ −1μ である。Rを求めるためにΣの逆行列を求める必要があるが、これはΣzyt 、Σzytdy 、Σdyのそれぞれが対角行列とすれば簡単に求めることができる。例えば、その対角成分を順にa[i]、b[i]、c[i]とすると、Σの逆行列の対角成分はc[i]/(a[i] c[i]―b[i])として求めることができる。
このように本実施例では、移動量を介さずに最適化処理により直接目標F0パターンを求めることができる。なお、yの最適解を求めるにあたり、y、即ち元F0パターンの値を参照する必要があることに留意されたい。算出された時間軸方向及び周波数軸方向のそれぞれの値の列は、その後最適化処理部165から後述する目標F0パターン生成部へ渡される。
目標F0パターン生成部170は、最適化処理部165により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べることにより、合成用テキストに対応する目標F0パターンを生成する。
なお、第3実施形態に係る基本周波パターン生成装置100による目標F0パターンの生成処理の流れもまた、第2実施形態に係る基本周波パターン生成装置100による目標F0パターンの生成処理の流れと基本的に同じである。但し、第3実施形態に係る基本周波パターン生成装置100は、図8に示すフローチャートのステップ815において、決定木情報格納部155から決定木情報を読み出してこれに合成用テキストに対応する言語情報を入力し、その出力として、出力特徴量及び出力特徴量の組み合わせの分布(平均値、分散、及び共分散)の列を取得する。
そして続くステップ820において基本周波数パターン生成装置100は、出力特徴量の組み合わせの分布の列から算出される尤度を最大とする目標F0パターンの時間軸方向の値の列及び目標F0パターンの周波数軸方向の値の列を求めることにより、最適化処理を行う。
最後のステップ825において基本周波数パターン生成装置100は、最適化部165により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べることにより、合成用テキストに対応する目標F0パターンを生成する。
図10は、本発明の実施の形態による学習装置50及び基本周波数パターン生成装置100を実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。コンピュータは、バス2に接続されたCPU(中央処理装置)1とメインメモリ4を含んでいる。ハードディスク装置13、30、およびCD−ROM装置26、29、フレキシブル・ディスク装置20、MO装置28、DVD装置31のようなリムーバブル・ストレージ(記録メディアを交換可能な外部記憶システム)がフレキシブル・ディスクコントローラ19、IDEコントローラ25、SCSIコントローラ27などを経由してバス2へ接続されている。
フレキシブル・ディスク、MO、CD−ROM、DVD−ROMのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置13、30、ROM14には、オペレーティング・システムと協働してCPU等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、学習装置50又は基本周波数パターン生成装置100としてのコンピュータの上記説明した数々の記憶装置には、本発明に係る移動量又は該移動量と目標F0パターンの組み合わせの学習プログラムや基本周波数パターン生成プログラム、上記説明した元話者モデル情報等のデータを格納できる。そして複数のコンピュータ・プログラムはメインメモリ4にロードされることによって実行される。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる
コンピュータは、キーボード/マウス・コントローラ5を経由して、キーボード6やマウス7のような入力デバイスからの入力を受ける。コンピュータは、オーディオコントローラ21を経由して、マイク24からの入力を受け、またスピーカー23から音声を出力する。コンピュータは、視覚データをユーザに提示するための表示装置11に、グラフィックスコントローラを経由して接続される。コンピュータは、ネットワーク・アダプタ18(イーサネット(R)・カードやトークンリング・カード)等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
以上の説明により、本発明の実施の形態による学習装置50及び基本周波数パターン生成装置100を実現するのに好適なコンピュータは、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、または、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。例えば、本実施例では基本周波数パターン生成装置100は学習装置50を含むものとした。しかし基本周波数パターン生成装置100を、学習装置50の一部のみ(テキスト解析部105、言語情報格納部110、元話者モデル情報格納部120、F0パターン予測部122、決定木情報格納部155)を含むように構成してもよい。従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

Claims (19)

  1. 基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習装置であって、
    学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、
    前記目標話者の音声の基本周波数パターン上の各点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、
    前記学習用テキストの解析結果である言語情報を入力特徴量、及び算出した前記移動量を出力特徴量として決定木を学習する学習部と、
    を含む学習装置。
  2. 前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換セット算出部と、
    基本周波数パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、前記基準となる音声の基本周波数パターン上の各点を、該点のX座標の値を対応する前記アフィン変換により変換した値をX座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付けるアフィン変換部とを含む、請求項1に記載の学習装置。
  3. 前記アフィン変換セット算出部は、前記アフィン変換を求める処理単位の初期値にイントネーション句を設定し、前記目標話者の音声の基本周波数パターンとの差が最小になるように前記基準となる音声の基本周波数パターンを変換するアフィン変換が求まるまで、前記処理単位を再帰的に2分する、請求項2に記載の学習装置。
  4. 前記対応付け部による対応付け及び移動量算出部による移動量の算出は、フレーム単位又は音声素片単位で行われる、請求項1に記載の学習装置。
  5. 算出された前記移動量の各々について、隣接する点との間の変化量を算出する変化量算出部を更に含み、前記学習部は、静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習する、請求項1に記載の学習装置。
  6. 前記移動量の変化量は、前記移動量の傾きである1次の動的特徴量と、前記移動量の曲率である2次の動的特徴量とを含む、請求項5に記載の学習装置。
  7. 前記変化量算出部は、更に前記目標話者の音声の基本周波数パターン上の各点について隣接する点との間の時間軸方向及び周波数軸方向の変化量を算出し、前記学習部は、前記静的特徴量に前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値を、前記動的特徴量に前記時間軸方向及び周波数軸方向の変化量を各々加えて、前記決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める、請求項5に記載の学習装置
  8. 前記学習部は、前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を多次元の単一又は混合ガウス分布を用いてモデル化する、請求項5に記載の学習装置。
  9. 前記目標話者の音声の基本周波数パターン上の各点について算出される移動量は、フレーム単位又は音声素片単位で算出された移動量である、請求項5に記載の学習装置。
  10. 前記言語情報は、アクセント型、品詞、音素、モーラ位置の少なくとも1つに関する情報を含む、請求項1に記載の学習装置。
  11. 基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、
    学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、
    前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、
    算出された前記移動量の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、
    前記学習用テキストの解析結果である言語情報を入力特徴量、及び静的特徴量である前記移動量及び動的特徴量である前記移動量の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた出力特徴量の分布を求める学習部と、
    合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記出力特徴量の分布を予測する分布列予測部と、
    予測した前記出力特徴量の分布の列から算出される尤度を最大とする移動量の列を求めることにより、前記移動量の最適化を行う最適化処理部と、
    合成用テキストに対応する基準となる音声の基本周波数パターンに前記移動量の列を加算することにより、前記合成用テキストに対応する前記目標話者の音声の基本周波数パターンを生成する目標話者の周波数パターン生成部と、
    を含む基本周波数パターン生成装置。
  12. 前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換セット算出部と、
    基本周波数パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、前記基準となる音声の基本周波数パターンの前記各時系列点を、該時系列点のX座標の値を対応する前記アフィン変換により変換した値をX座標の値とする前記目標話者の音声の基本周波数パターンの前記時系列点に対応付けるアフィン変換部とを含む、請求項11に記載の基本周波数パターン生成装置。
  13. 前記学習部は、前記葉ノードに振り分けられた出力特徴量の平均値、分散、及び共分散を求める、請求項11に記載の基本周波数パターン生成装置。
  14. 基準となる音声の基本周波数の時間変化を表した基本周波数パターンを基に目標話者の音声の基本周波数パターンを生成する基本周波数パターン生成装置であって、
    学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付ける対応付け部と、
    前記目標話者の音声の基本周波数パターンを構成する各時系列点について、対応付けの結果を参照して、前記基準となる音声の基本周波数パターンを構成する各時系列点のうち対応する点からの時間軸方向及び周波数軸方向の移動量を求める移動量算出部と、
    算出された前記移動量と前記目標話者の音声の基本周波数パターン上の各点の各々について、隣接する時系列点との間の変化量を算出する変化量算出部と、
    前記学習用テキストの解析結果である言語情報を入力特徴量、静的特徴量である前記移動量と前記目標話者の音声の基本周波数パターン上の各点の値、及び動的特徴量である前記移動量の変化量と前記目標話者の音声の基本周波数パターン上の各点の変化量を出力特徴量として決定木を学習し、学習した前記決定木の各葉ノードについて、該葉ノードに振り分けられた各出力特徴量及び前記出力特徴量の組み合わせの分布を求める学習部と、
    合成用テキスの解析結果である言語情報を前記決定木に入力し、前記各時系列点における前記各出力特徴量及び前記出力特徴量の組み合わせの分布を予測する分布列予測部と、
    予測した前記出力特徴量及び該出力特徴量の組み合わせの分布の列から算出される尤度を最大とする前記目標話者の音声の基本周波数パターン上の各点の時間軸方向及び周波数軸方向の値とを求めることにより、最適化処理を行う最適化処理部と、
    前記最適化処理部により求められた時間軸方向の値及び対応する周波数軸方向の値の各組み合わせを時間順に並べて前記目標話者の音声の基本周波数パターンとする目標話者の周波数パターン生成部と、
    を含む基本周波数パターン生成装置。
  15. 前記対応付け部は、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出するアフィン変換セット算出部と、
    基本周波数パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、前記基準となる音声の基本周波数パターンの前記各時系列点を、該時系列点のX座標の値を対応する前記アフィン変換により変換した値をX座標の値とする前記目標話者の音声の基本周波数パターンの前記時系列点に対応付けるアフィン変換部とを含む、請求項14に記載の基本周波数パターン生成装置。
  16. コンピュータの計算処理によって、基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習方法であって、
    学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付け、対応関係を前記コンピュータの記憶領域に記憶するステップと、
    前記記憶領域から前記対応関係を読み出して、前記目標話者の基本周波数パターン上の各点について、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求め、該移動量を前記記憶領域に記憶するステップと
    前記記憶領域から前記移動量を読み出して、前記学習用テキストの解析結果である言語情報を入力特徴量、及び前記移動量を出力特徴量として決定木を学習するステップと、 を含む学習方法。
  17. 前記対応付けは、前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出する第1サブステップと、
    基本周波数パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、前記基準の基本周波数パターン上の各点を、該点のX座標の値を対応する前記アフィン変換により変換した値をX座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付ける第2サブステップとを含む、請求項16に記載の学習方法。
  18. 基準となる音声の基本周波数の時間変化を表した基本周波数パターンに対する目標話者の音声の基本周波数パターンの移動量を学習する学習プログラムであって、前記学習プログラムは、プロセッサと記憶部を備えたコンピュータに、
    学習用テキストに対応する基準となる音声の基本周波数パターンと、前記学習用テキ
    ストに対応する目標話者の音声の基本周波数パターンとを、山と山及び谷と谷とが対応するように対応付け、対応関係を前記コンピュータの前記記憶部に記憶するステップと、
    前記記憶部から前記対応関係を読み出して、前記目標話者の音声の基本周波数パターン上の各点について、前記基準となる音声の基本周波数パターン上の対応する点からの時間軸方向及び周波数軸方向の移動量を求め、該移動量を前記記憶部に記憶するステップと、
    前記記憶部から前記移動量を読み出して、前記学習用テキストの解析結果である言語情報を入力特徴量、及び前記移動量を出力特徴量として決定木を学習するステップと、 を実行させる学習プログラム。
  19. 前記学習プログラムは、前記コンピュータに前記基準となる音声の基本周波数パターン上の点と前記目標話者の音声の基本周波数パターン上の点を対応させるために、前記コンピュータに、
    前記基準となる音声の基本周波数パターンを、前記目標話者の音声の基本周波数パターンとの差が最小になるように変換するアフィン変換のセットを算出する第1サブステップと、
    基本周波数パターンの時間軸方向をX軸及び周波数軸方向をY軸とした場合に、前記基準となる音声の基本周波数パターン上の各点を、該点のX座標の値を対応する前記アフィン変換により変換した値をX座標の値とする前記目標話者の音声の基本周波数パターン上の点に対応付ける第2サブステップとを実行させる、請求項18に記載の学習プログラム。
JP2011515936A 2009-05-28 2010-03-16 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム Active JP5226867B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011515936A JP5226867B2 (ja) 2009-05-28 2010-03-16 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009129366 2009-05-28
JP2009129366 2009-05-28
PCT/JP2010/054413 WO2010137385A1 (ja) 2009-05-28 2010-03-16 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP2011515936A JP5226867B2 (ja) 2009-05-28 2010-03-16 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2010137385A1 JPWO2010137385A1 (ja) 2012-11-12
JP5226867B2 true JP5226867B2 (ja) 2013-07-03

Family

ID=43222509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011515936A Active JP5226867B2 (ja) 2009-05-28 2010-03-16 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム

Country Status (6)

Country Link
US (1) US8744853B2 (ja)
EP (1) EP2357646B1 (ja)
JP (1) JP5226867B2 (ja)
CN (1) CN102341842B (ja)
TW (1) TW201108203A (ja)
WO (1) WO2010137385A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
KR101495410B1 (ko) * 2007-10-05 2015-02-25 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US10832264B1 (en) * 2014-02-28 2020-11-10 Groupon, Inc. System, method, and computer program product for calculating an accepted value for a promotion
WO2016042659A1 (ja) * 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6468519B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6472005B2 (ja) * 2016-02-23 2019-02-20 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6468518B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
GB201621434D0 (en) * 2016-12-16 2017-02-01 Palantir Technologies Inc Processing sensor logs
JP6876642B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
CN112562633A (zh) * 2020-11-30 2021-03-26 北京有竹居网络技术有限公司 一种歌唱合成方法、装置、电子设备及存储介质
CN117476027B (zh) * 2023-12-28 2024-04-23 南京硅基智能科技有限公司 语音转换方法及装置、存储介质、电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241596A (ja) * 1992-02-28 1993-09-21 N T T Data Tsushin Kk 音声の基本周波数抽出システム
JPH08248994A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2006276660A (ja) * 2005-03-30 2006-10-12 Advanced Telecommunication Research Institute International イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム
JP2010049196A (ja) * 2008-08-25 2010-03-04 Toshiba Corp 声質変換装置及び方法、音声合成装置及び方法
WO2010110095A1 (ja) * 2009-03-25 2010-09-30 株式会社 東芝 音声合成装置及び音声合成方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6411083A (en) 1987-07-01 1989-01-13 Hitachi Ltd Laser beam marker
JPH01152987A (ja) 1987-12-08 1989-06-15 Toshiba Corp 速度帰還選別装置
JPH0792986A (ja) 1993-09-28 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法
JP3233184B2 (ja) 1995-03-13 2001-11-26 日本電信電話株式会社 音声符号化方法
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3240908B2 (ja) * 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
JP3575919B2 (ja) 1996-06-24 2004-10-13 沖電気工業株式会社 テキスト音声変換装置
JP3914612B2 (ja) 1997-07-31 2007-05-16 株式会社日立製作所 通信システム
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
US6101469A (en) * 1998-03-02 2000-08-08 Lucent Technologies Inc. Formant shift-compensated sound synthesizer and method of operation thereof
JP2003337592A (ja) 2002-05-21 2003-11-28 Toshiba Corp 音声合成方法及び音声合成装置及び音声合成プログラム
CN100440314C (zh) * 2004-07-06 2008-12-03 中国科学院自动化研究所 基于语音分析与合成的高品质实时变声方法
WO2006104988A1 (en) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Hybrid speech synthesizer, method and use
CN101004911B (zh) * 2006-01-17 2012-06-27 纽昂斯通讯公司 用于生成频率弯曲函数及进行频率弯曲的方法和装置
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
CN101064104B (zh) * 2006-04-24 2011-02-02 中国科学院自动化研究所 基于语音转换的情感语音生成方法
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
JP2010008853A (ja) * 2008-06-30 2010-01-14 Toshiba Corp 音声合成装置及びその方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241596A (ja) * 1992-02-28 1993-09-21 N T T Data Tsushin Kk 音声の基本周波数抽出システム
JPH08248994A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2006276660A (ja) * 2005-03-30 2006-10-12 Advanced Telecommunication Research Institute International イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム
JP2010049196A (ja) * 2008-08-25 2010-03-04 Toshiba Corp 声質変換装置及び方法、音声合成装置及び方法
WO2010110095A1 (ja) * 2009-03-25 2010-09-30 株式会社 東芝 音声合成装置及び音声合成方法

Also Published As

Publication number Publication date
TW201108203A (en) 2011-03-01
US8744853B2 (en) 2014-06-03
JPWO2010137385A1 (ja) 2012-11-12
EP2357646A1 (en) 2011-08-17
EP2357646B1 (en) 2013-08-07
EP2357646A4 (en) 2012-11-21
CN102341842A (zh) 2012-02-01
CN102341842B (zh) 2013-06-05
US20120059654A1 (en) 2012-03-08
WO2010137385A1 (ja) 2010-12-02

Similar Documents

Publication Publication Date Title
JP5226867B2 (ja) 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5159279B2 (ja) 音声処理装置及びそれを用いた音声合成装置。
Veaux et al. Intonation conversion from neutral to expressive speech
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20080243508A1 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
Wang et al. An RNN-based quantized F0 model with multi-tier feedback links for text-to-speech synthesis
KR20070077042A (ko) 음성처리장치 및 방법
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2015152630A (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
Nirmal et al. Voice conversion using general regression neural network
JP2009251029A (ja) 音声処理装置、音声処理方法及びプログラム
US20160189705A1 (en) Quantitative f0 contour generating device and method, and model learning device and method for f0 contour generation
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP2009069179A (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2008256942A (ja) 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法
CN110431546A (zh) 发音者检索装置、发音者检索方法以及发音者检索程序
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2008191477A (ja) ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2016151709A (ja) 音声合成装置及び音声合成プログラム
JP2016085408A (ja) 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130314

R150 Certificate of patent or registration of utility model

Ref document number: 5226867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3