JP2015049433A

JP2015049433A - 音声信号解析装置、方法、及びプログラム

Info

Publication number: JP2015049433A
Application number: JP2013182112A
Authority: JP
Inventors: 弘和亀岡; Hirokazu Kameoka; 幸太吉里; Kota Yoshizato; 大輔齋藤; Daisuke Saito; 茂樹嵯峨山; Shigeki Sagayama; 伸克北条; Nobukatsu Hojo
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2013-09-03
Filing date: 2013-09-03
Publication date: 2015-03-16
Anticipated expiration: 2033-09-03
Also published as: JP6137479B2

Abstract

【課題】音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる。【解決手段】観測スペクトル包絡系列算出部２２により、音声信号の時系列データを入力として、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙω,tを表すスペクトル包絡を算出し、初期パラメータ設定部２４により、パラメータ各々の初期値を設定し、パラメータ更新部３０により、各時刻ｔにおけるスペクトル包絡が与えられたときの、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻ｔにおけるスペクトル包絡、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列に基づいて、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列を更新し、収束判定部２８により、予め定められた収束条件を満たすまで、パラメータ更新部３０による更新を繰り返し行う。【選択図】図６

Description

本発明は、音声信号からフォルマント周波数軌跡と音素境界を推定する音声信号解析装置、方法、及びプログラムに関する。

人間らしい音声合成を実現するにあたっては、音声のダイナミクスに現れる非言語情報やパラ言語情報を詳細にモデリングすることが重要である。例えば、音素特徴量の動的特徴には、話者の個人性が現れていることが知られており、音声認識、話者認識、及び音声合成などにおいて重要な特徴量の一つとして扱われている。

統計的モデルに基づくテキスト音声合成方式の基本戦略は、音声の確率的な生成モデルを立て、学習データからそのモデルパラメータを学習させ、当該モデルを用いて任意のテキスト入力に対して音声を生成するというものである。従って、音声における様々な性質や挙動をいかに適切に生成モデルの形で記述できるかが剛性音声の品質を左右する。特に音声の音韻に着目すると、スペクトル包絡特徴量の時系列をいかに適切にモデル化するかが重要であるが、従来の隠れマルコフモデル（Hidden Markov Model,HMM）またはその変種による音声合成（以後、ＨＭＭ音声合成）方式は音声スペクトル系列の時間伸縮を確率的な現象としてとらえようするものである（非特許文献１）。

スペクトル包絡ピークの周波数とパワーは、声道における共振の共振周波数とパワーに相当するため、音声のスペクトル包絡には実際にパワー方向と周波数方向の双方の揺らぎが存在する。共振周波数とパワーは、声道形状の物理的な変化に従い時間方向に連続に変化すると考えられるため、例えばある音素の中央部分付近と、後続音素との接続部分付近のスペクトル包絡を比較した場合、後者は声道形状が後続音素の声道形状へ連続的に変化する過程にあり、両者の間には、スペクトル包絡の共振周波数とパワーに差異があり、これを揺らぎとしてモデル化することが重要である。

音声分析合成系のための音声スペクトルモデルとして、スペクトル包絡の各ピークがガウス分布で近似可能という仮定に基づいて、スペクトル包絡全体を混合ガウス関数モデル（Gaussian Mixture Modes;GMM）によって表現した複合ウェーブレットモデル（Composite Wavelet Model;CWM）と呼ぶモデルがある（非特許文献２）。

ＣＷＭは、スペクトル包絡ピークの周波数とパワーの双方をパラメータとして持つため、スペクトル包絡のパワー方向と周波数方向の双方の揺らぎを確率モデル化するのに適している。なお、ＣＷＭパラメータから音声波形を合成する際は、周波数領域におけるガウス分布関数は時間領域ではＧａｂｏｒ関数に対応するため、このＧａｂｏｒ関数を基本周波数に対応する時間間隔で配置することにより音声波形が合成される、ＣＷＭに基づく分析合成は、ＦＩＲフィルタによる合成手法であり、従来のＬＳＰやケプストラムなどの巡回型フィルタによる合成手法に比べ、Ｑ値の高いフィルタであっても、基本周波数によらず時間特性のよい音声が合成可能である（非特許文献２）。そのため、ＣＷＭの利点より、ＣＷＭパラメータを音声特徴量としたＨＭＭ音声合成方式がある（非特許文献３）。

T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, "Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," in Proc. of Eurospeech 1999, 1999, pp. 2347−2350. 槐武也, 松本恭輔, 酒向慎司, 嵯峨山茂樹, "複合ウェーブレットモデルによる音声合成の検討," 日本音響学会2006 年春季研究発表会講演論文集, no. 2-11-7, pp. 315−316, Mar. 2006. 北条伸克, 南賢太郎, 齋藤大輔, 亀岡弘和, 嵯峨山茂樹, "複合ウェーブレットモデル分析合成系に基づくHMM 音声合成," 日本音響学会2012 年秋季研究発表会, 2-2-7, Sep. 2012.

しかし、非特許文献１のＨＭＭ音声合成方式では、スペクトル包絡を表現する音声特徴量として、ケプストラムや線スペクトル対（Line Spectral Pairs;LSP）が用いられている。ケプストラムを特徴量とした場合、スペクトル包絡がパワー方向にのみ確率的に揺らぐ現象を表現したモデルに相当し、ＬＳＰを特徴量とした場合、スペクトル包絡のピークが周波数方向にのみ確率的に揺らぐ現象を表現したモデルに相当する。ケプストラムを特徴量としたＨＭＭ音声合成方式では、生成モデルがスペクトルの周波数方向の揺らぎを上手くとらえられないモデルであるため、合成音声のスペクトル包絡が周波数方向に平滑化される傾向にあるという問題がある。スペクトル包絡が平滑化されると一般にはbuzzyな音になる。そのため、例えば、スペクトル包絡のピークとディップの間を強調する目的で、確率モデルにGlobal Variance（ＧＶ）を導入することにより改善が図られているが、いったん平滑化されたスペクトル包絡からは本来あるべきピークとディップを復元することは難しいという問題がある。

また、非特許文献３の方法のテキスト音声合成方式では、ＣＷＭパラメータの時間軌跡がＨＭＭによってモデル化されていたが、もともとＨＭＭは区分定常な系列を表現するための確率モデルであるため、フォルマントの連続的な時間変化といった音声が本来もつダイナミクスを必ずしも反映したモデルではないという問題がある。そのため、人間らしく自然な合成音声を得るために、この枠組みにおいて、ＣＷＭパラメータのダイナミクスを確率モデルの形で組み込めるかが問題となる。

本発明は、上記問題点を解決するために成されたものであり、音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる音声信号解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明の音声信号解析装置は、音声信号の時系列データを入力として、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,tを表すスペクトル包絡を算出する観測スペクトル包絡系列算出部と、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lを含むＣＷＭパラメータ群と、隠れマルコフモデルの各時刻ｋの状態のインデックスｓ_kからなる状態系列＾ｓ、隠れマルコフモデルの前記状態ｉ'，ｉ間の各々の遷移確率Φ_i',i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記重みｗ_k,lの分布を表すパラメータｂ^(w) _k,i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記分散の逆数ρ_k,lの分布を表すパラメータｂ^(ρ) _k,i、及びＫ個のガウス分布ｋの各々についての各状態ｉにおける前記平均μ_k,lの正規分布の平均ｍ_k,iを含むＨＭＭパラメータ群と、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lを含む調音ターゲット系列との各々の初期値を設定する初期パラメータ設定部と、各時刻ｔにおける前記スペクトル包絡が与えられたときの、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻ｔにおける前記スペクトル包絡、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列に基づいて、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列を更新するパラメータ更新部と、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、を含んで構成されている。

第２の発明のモデル音声信号解析方法は、観測スペクトル包絡系列算出部と、初期パラメータ設定部と、パラメータ更新部と、収束判定部と、を含む音声信号解析装置における音声信号解析方法であって、前記観測スペクトル包絡系列算出部は、音声信号の時系列データを入力として、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,tを表すスペクトル包絡を算出し、前記初期パラメータ設定部は、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lを含むＣＷＭパラメータ群と、隠れマルコフモデルの各時刻ｋの状態のインデックスｓ_kからなる状態系列＾ｓ、隠れマルコフモデルの前記状態ｉ'，ｉ間の各々の遷移確率Φ_i',i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記重みｗ_k,lの分布を表すパラメータｂ^(w) _k,i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記分散の逆数ρ_k,lの分布を表すパラメータｂ^(ρ) _k,i、及びＫ個のガウス分布ｋの各々についての各状態ｉにおける前記平均μ_k,lの正規分布の平均ｍ_k,iを含むＨＭＭパラメータ群と、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lを含む調音ターゲット系列との各々の初期値を設定し、前記パラメータ更新部は、各時刻ｔにおける前記スペクトル包絡が与えられたときの、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻ｔにおける前記スペクトル包絡、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列に基づいて、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列を更新し、前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。

第１の発明及び第２の発明によれば、音声信号の時系列データを入力として、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,tを表すスペクトル包絡を算出し、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lを含むＣＷＭパラメータ群と、隠れマルコフモデルの各時刻ｋの状態のインデックスｓ_kからなる状態系列＾ｓ、隠れマルコフモデルの前記状態ｉ'，ｉ間の各々の遷移確率Φ_i',i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記重みｗ_k,lの分布を表すパラメータｂ^(w) _k,i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける分散の逆数ρ_k,lの分布を表すパラメータｂ^(ρ) _k,i、及びＫ個のガウス分布ｋの各々についての各状態ｉにおける前記平均μ_k,lの正規分布の平均ｍ_k,iを含むＨＭＭパラメータ群と、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lを含む調音ターゲット系列との各々の初期値を設定し、各時刻ｔにおけるスペクトル包絡が与えられたときの、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻ｔにおけるスペクトル包絡、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列に基づいて、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列を更新するパラメータ更新部と、予め定められた収束条件を満たすまで、更新を繰り返し行う。

また、前記目的関数を、ＣＷＭパラメータ群が与えられたときの各時刻ｔにおける前記スペクトル包絡の確率、前記状態系列＾ｓの確率、前記状態系列＾ｓが与えられたときの、前記Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,lの確率、前記状態系列＾ｓが与えられたときの、前記Ｋ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lの確率、前記状態系列＾ｓが与えられたときの前記調音ターゲット系列の確率、前記状態系列＾ｓ及び前記調音ターゲット系列が与えられたときの前記Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,lの確率を用いて表される関数とし、前記パラメータ更新部は、前記関数を最大化するように、各時刻ｔにおける前記スペクトル包絡、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列に基づいて、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列を更新してもよい。

また、補助変数更新部を更に含み、前記目的関数を、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,t、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,l、（ｋ、ω、ｌ）の全ての組み合わせについての補助変数γ_k,ω,l、（τ、ｋ、ｌ）の全ての組み合わせについての補助変数λ_τ,k,l、及び（ｋ、ｌ）の全ての組み合わせについての補助変数ξ_k,lを用いて表され、かつ、前記関数の対数の下限関数である補助関数とし、前記補助変数更新部は、前記補助関数を大きくするように、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lに基づいて、（ｋ、ω、ｌ）の全ての組み合わせについての補助変数γ_k,ω,l、（τ、ｋ、ｌ）の全ての組み合わせについての補助変数λ_τ,k,l、及び（ｋ、ｌ）の全ての組み合わせについての補助変数ξ_k,lを更新し、前記パラメータ更新部は、前記補助関数を大きくするように、各時刻ｔにおける前記スペクトル包絡、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列（ｋ、ω、ｌ）の全ての組み合わせについての補助変数γ_k,ω,l（τ、ｋ、ｌ）の全ての組み合わせについての補助変数λ_τ,k,l（ｋ、ｌ）の全ての組み合わせについての補助変数ξ_k,lに基づいて、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列を更新してもよい。

また、前記補助関数は、二次関数の凸性を利用するＪｅｎｓｅｎの不等式を用いて定められた下限関数としてもよい。

また、本発明のプログラムは、コンピュータに、上記の音声信号解析装置を構成する各部を実行させるためのプログラムである。

以上説明したように、音声信号解析装置、方法、及びプログラムによれば、音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる。

調音ターゲット関数とフォルマント周波数軌跡の例を示す図である。音素／ｅ／のスペクトル包絡（点線）と、そのＧＭＭ近似（実線）の例を示す図である（混合数１０）。ＨＭＭの構成の例を示す図である。状態／ｋ／の４つの小状態への分割の例を示す図である。ＨＭＭをまとめた例を示す図である。本発明の実施の形態に係る音声信号解析装置の機能的構成を示すブロック図である。本発明の実施の形態に係る音声信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。 No.４３６のスペクトル包絡と推定フォルマント周波数の時間軌跡の例を示す図である。 No.４３６の音素／ａ／のスペクトル包絡（点線）のＧＭＭ近似（実践）の例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の原理＞
本実施の形態においては、音声のスペクトル系列を入力として、フォルマント周波数軌跡の生成過程モデルのパラメータ（調音ターゲット、音素境界）を推定するアルゴリズムを提案する。動的計画法や補助関数法の原理を適用することで、効率的かつ収束性が保証されたアルゴリズムを実現する。具体的には、以下の（１）〜（４）により実現する。

（１）ＨＭＭのパラメータとＣＷＭのパラメータ（各フォルマントの強度、バンド幅、周波数に対応するパラメータ）と調音ターゲット系列によって表される目的関数を大きくするように、ＨＭＭパラメータとＣＷＭパラメータと調音ターゲット系列を交互に更新する。

（２）上記（１）において、目的関数をＣＷＭパラメータが決まった時にスペクトル系列が出力される確率と、ＨＭＭの状態系列の確率と、ＨＭＭの状態系列が決まった時にフォルマント周波数以外のＣＷＭパラメータ（フォルマントの強度とバンド幅）の系列が出力される確率と、状態系列が決まった時の調音ターゲット系列が出力される確率と、調音ターゲット系列が決まった時のフォルマント周波数パラメータの系列がフォルマント周波数パラメータの系列が出力される確率（又はその対数）とする（下記（１０）式参照）。

（３）上記（２）において、ＨＭＭのパラメータとＣＷＭのパラメータと調音ターゲット系列と補助変数λ、γ、ξによって表される関数であって、上記（１）における目的関数を上回らず、かつ１点で接する関数を規準とし、この規準を大きくするようにＨＭＭのパラメータとＣＷＭのパラメータと調音ターゲット系列と補助変数を交互に更新する。

（４）上記（３）において、上記（３）における規準は、二次関数の凸性を利用して立てられるJensenの不等式と対数関数の二乗に対して立てられる不等式を用いて作られる下限関数である。

次に、音声スペクトル生成過程の確率モデル化について説明する。フォルマント（本実施の形態においてはスペクトル包絡のピークとする。）は、音声を特徴づける極めて重要な要素である。声帯振動が共振することによって生じるフォルマントの周波数軌跡には物理的な制約が付随するが、本実施の形態においては、藤崎のＦ_０パターン生成過程モデルと同様のメカニズムによって生じると仮定する。具体的には、図１に示すように、音素区間ごとに一定の周波数値をとる階段状の関数である調音ターゲット系列に、インパルス応答である下記（１）式が畳み込まれ、二次線形系の出力としてフォルマント周波数軌跡が生じるとする。なお、αは固有角周波数とする。また、このようにフォルマント周波数の動特性に関して二次の臨界制動系の仮定が置かれたモデルがある（非特許文献４：L. R. Rabiner, “Speech synthesis by rule: An acoustic domain approach,” Ph. D. Thesis,M. I. T., 1967.参照）、（非特許文献５；板橋, 横山, “線形2次系モデルによるホルマント軌跡の記述とセグメンテーション,” 電子技術総合研究所彙報, vol. 40, no. 6, pp. 530−541, 1976.参照）。

実音声から直接観測できるのはスペクトル包絡であり、フォルマント周波数ではない。そのため、本実施の形態においては、フォルマント周波数軌跡からスペクトル包絡をどのようにして生成されるかをモデル化する方法について説明する。

本実施の形態では、各フォルマントをガウス関数で近似的に表現する。複数のスペクトルピークの重ね合わせがスペクトル包絡であるとみなすと、スペクトル包絡は混合ガウス関数モデル（Gaussian Mixture Model;GMM）で近似できる。近似の例を図２に示す。この表現は複合ウェーブレットモデル（Composite Wavelet Model;CWM）（非特許文献２）と呼ばれ、スペクトル包絡における各時刻ｔ及び各周波数ωの周波数成分φ_ω,tが下記（２）式のように表現される。

ただし、ｋはガウス分布関数のインデックス、即ちフォルマントのインデックスに対応する。ＫはＧＭＭの混合数である。また、μ_ｋ，ｔ、σ_ｋ，ｔ、ｗ_ｋ，ｔはｋ番目のガウス分布関数の平均、分散、重みを表すＣＷＭのパラメータであり、それぞれｋ番目のフォルマントの周波数、バンド幅、強度に対応する。

本実施の形態においては、フォルマント周波数の時間軌跡を潜在パラメータとしてもつ音声スペクトル生成過程の確率モデルを定式化する。

本実施の形態では、図３のような、各離散時刻ｌごとにＣＷＭパラメータを出力する隠れマルコフモデル（Hidden Markov Model;HMM）により記述する。これは、区分的に定数値をとる調音ターゲット系列ｕ_ｋ，ｌをＨＭＭで表現していることに相当し、各状態が音素、自己遷移回数が調音ターゲットの各区間の時間長、異なる状態への遷移のタイミングが音素境界にそれぞれ対応している。各状態はＧＭＭの重みｗ_ｋ，ｌ、分散の逆数ρ_ｋ，ｌ、調音ターゲット系列ｕ_ｋ，ｌを確率的に出力する。加えて、自己遷移の持続長をパラメータ化するために、Ferguson型ＨＭＭを導入する。Ferguson型ＨＭＭは、各状態を十分大きな数の小状態に分割し、分割後の各小状態がすべて同じ出力分布を持つように拘束し、かつ状態遷移に関して図４のような制約を課したＨＭＭである。図４には、状態／ｋ／を分割した例を示している。このような分割により、ある状態にある離散時間だけとどまる確率を個別にパラメータ化することが出来る。そのため、本実施の形態の提案モデルのＨＭＭは図５のようにまとめられる。なお、Gamma（x;a,b）はガンマ分布であり、下記（３）式のように定義される。

本実施の形態における提案モデルでは、調音ターゲット関数＾ｕ_ｋ，ｌに二次線形系のインパルス応答が畳み込まれてガウス関数の平均値の軌跡、すなわちフォルマント周波数軌跡μ_ｋ，ｌが生じると考える。具体的には、下記（４）式のようになる。

ここで、

は対数正規分布であり、ｌｏｇｘが正規分布Ｎ（ｘ；μ，σ^２）に従うことと等価である。また、Ｇ_ｋ，ｌは上記（１）式のＧ（ｔ）の離散時間表現であり（固有表現はα_ｋとする。）、^ｌ＊は離散時刻に関する畳み込みを表す。

なお、パラメータをまとめてρ＝｛ρ_ｋ，ｌ｝_ｋ，ｌ、＾ｗ＝｛＾ｗ_ｋ，ｌ｝、＾ｕ＝｛ｕ_ｋ，ｌ｝_ｋ，ｌ，μ＝｛μ_ｋ，ｌ｝_ｋ，ｌとする。

全てのＣＷＭパラメータと状態系列＾ｓが与えられた時に観測スペクトル包絡における時刻ｌ及び周波数ωの周波数成分ｙ_ω，ｌが生じる確率を下記（７）式〜下記（９）式に示す。

ここで、Ｐｏｉｓｓｏｎ（ｘ；λ）＝λ^−ｘｅ^−λ／ｘ！はポワソン分布である。このように定式化することで、以下に説明するパラメータ推定アルゴリズムを適用することができる。

次に、パラメータ推定アルゴリズムについて説明する。本実施の形態においては、パラメータ｛ａ^（ｗ） _ｋ，ｉ，ａ^（ρ） _ｋ，ｉ，η^２ _ｋ，ｉ，ν^２ _ｋ，ｉ｝_ｋ，ｉ、｛α_ｋ｝_ｋを全て定数とする。また、推定するパラメータをまとめてΘ＝｛ρ，＾ｗ，μ，＾ｕ，＾ｓ，θ｝とする。ただし、θ＝｛ｂ^（ｗ） _ｋ，ｉ，ｂ^（ρ） _ｋ，ｉ，ｍ_ｋ，ｉ｝_ｋ，ｉであり、θの事前分布は一様であるとする。

観測スペクトル包絡＾ｙ＝｛ｙ_ω，ｌ｝_ω，ｌが与えられた時にＰ（Θ｜＾ｙ）を最大化するΘを求めることは難しいが、各変数に関してＰ（Θ｜＾ｙ）が大きくなるように更新を繰り返すことは可能であり、ｌｏｇＰ（Θ｜＾ｙ）は下記（１０）式のようになる。

本実施の形態における提案アルゴリズムでは、各変数についてｌｏｇＰ（Θ｜＾ｙ）が大きくなるように更新する操作を反復することでパラメータ推定を行う。そのため、補助関数法や近似式を用いる。まず、−ｌｏｇＰ（＾ｙ｜Θ）は観測スペクトル包絡ｙ_ω，ｌとＣＷＭパラメータによってあらわされるスペクトル包絡モデルφ_ω，ｌをＩダイバージェンス基準と定数項を除いて等しく、下記（１２）式のようになる。

上記（１２）式のｙ_ω，ｌｌｏｇφ_ω，ｌにJensenの不等式を用いることで、下記（１３）式の下限関数を設計できる。

同様に、ｌｏｇＰ（μ｜＾ｓ，＾ｕ）の−（Ｇ_ｋ，τ ^τ＊ｕ_ｋ，τ）^２ _ｌにＪｅｎｓｅｎの不等式を用いることで下記（１４）式の下限関数を設計できる。

また、ｌｏｇＰ（μ｜＾ｓ，＾ｕ）の−（ｌｏｇμ_ｋ，ｌ）^２は下記（１５）式の下限関数とすることができる。

ここで、γ_{ｋ，ω，ｌ}、λ_{τ，ｋ，ｌ}、ξ_ｋ，ｌは補助変数である。上記（１３）式〜上記（１５）式の不等式を用いて、ＣＷＭパラメータ、ＨＭＭパラメータ、調音ターゲット系列、補助変数からなるｌｏｇＰ（Θ｜＾ｙ）の下限関数を生成する。

補助関数法の原理により、補助変数とΘを下記（１６）式〜下記（２８）式の更新式により交互に更新することで、ｌｏｇＰ（＾ｙ｜Θ）を局所最大化する。

Τ_ｉ＝｛ｌ｜ｓ_ｌ＝ｉ｝である。そのため、μについては、下記（２４）式の正の解のうちｌｏｇＰ（Θ｜＾ｙ）が最も大きくなるμ_ｋ，ｌを選択する。なお、下記（２４）式〜下記（２８）式がμに関する更新式となる。

そのため、上記の更新式の各々を十分な回数反復することで、Ｐ（Θ｜＾ｙ）を局所最大化するパラメータΘを推定する。

＜本実施の形態に係る音声信号解析装置の構成＞
まず、本発明の実施の形態に係る音声信号解析装置の構成について説明する。図６に示すように、本発明の実施の形態に係る音声信号解析装置１００は、ＣＰＵと、ＲＡＭと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この音声信号解析装置１００は、機能的には図６に示すように入力部１０と、演算部２０と、出力部５０と、記憶部６０とを備えている。

入力部１０により、マイクロホンから出力された音響信号の時系列データが入力される。記憶部６０は、入力部１０により入力された音響信号の時系列データを記憶する。また、記憶部６０は、後述する各処理での結果を記憶する。

演算部２０は、観測スペクトル包絡系列算出部２２、初期パラメータ設定部２４、補助変数更新部２６、パラメータ更新部３０、及び収束判定部２８を含んで構成されている。

観測スペクトル包絡系列算出部２２は、マイクロホンの時系列信号としての観測された音響信号を入力として観測スペクトル包絡ｙ_ω，ｔ（ω＝１，…，Ｎ、ｔ＝１，…，Ｔは、それぞれ周波数、時間フレームに対応するインデックスを示す。）を各（ω，ｔ）の要素にもつ二次元配列＾ｙを計算する。また、計算した観測スペクトル包絡ｙ_ω，ｔを記憶部６０に記憶しておく。より詳細には、観測スペクトル包絡系列算出部２２は、マイクロホンの音響信号の時系列データを入力として、短時間フーリエ変換（short-Time Fourier Transform;STFT）を用いて時間周波数解析を行うことにより観測スペクトル包絡ｙ_ω，ｔを計算し、観測スペクトル包絡ｙ_ω，ｔを格納した行列を出力する。なお、観測スペクトル包絡ｙ_ω，ｔはウェーブレット変換を用いて計算してもよい。

初期パラメータ設定部２４は、ＨＭＭパラメータ群であるｍ_ｋ，ｉ、ｂ^（ρ） _ｋ，ｉ、ｂ^（ｗ） _ｋ，ｉ、ｓ、Φ_i',i、及びΦ_iと、調音ターゲット系列ｕ_ｋ，ｌと、ＣＷＭパラメータ群であるμ_ｋ，ｌ、ρ_ｋ，ｌ、及びｗ_ｋ，ｌとの各々に対して、初期値を設定する。具体的には、ＣＷＭパラメータの各々の初期値として、従来の手法（非特許文献６：北条伸克, 南賢太郎, 齋藤大輔, 亀岡弘和, 嵯峨山茂樹, "複合ウェーブレットモデル分析合成系に基づくHMM 音声合成," 日本音響学会秋季研究発表会講演論文集, No. 2-2-7, pp. 287−290, 2012.参照）を用いて推定された値を設定する。なお、その他のパラメータについては適切な値を設定する。

補助変数更新部２６は、補助変数であるγ_{ｋ，ω，ｌ}、λ_{τ，ｋ，ｌ}、及びξ_ｋ，ｌの各々を更新し、記憶部６０に記憶する。具体的には、補助変数γ_{ｋ，ω，ｌ}を、（ｋ，ω，ｌ）の全ての組み合わせの各々について、初期パラメータ設定部２４において初期値が設定され又は前回更新されたρ_ｋ，ｌと、μ_ｋ，ｌと、ｗ_ｋ，ｌとに基づいて、上記（８）式、上記（９）式、及び上記（１７）式に従って、補助関数を大きくするように更新し、補助変数λ_{τ，ｋ，ｌ}を、（τ，ｋ，ｌ）の全ての組み合わせの各々について、記憶部６０に記憶されている定数｛α_ｋ｝_ｋと、初期パラメータ設定部２４において初期値が設定され又は前回更新されたｕ_ｋ，ｌとに基づいて、上記（１）式、及び上記（１６）式に従って補助関数を大きくするように更新し、補助変数ξ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、初期パラメータ設定部２４において初期値が設定され又は前回更新されたμ_ｋ，ｌに基づいて、上記（１８）式に従って補助関数を大きくするように更新する。

パラメータ更新部３０は、ＣＷＭパラメータ更新部３２と、ＨＭＭパラメータ更新部３４と、調音ターゲット系列更新部３６とを含んで構成されている。

ＣＷＭパラメータ更新部３２は、補助関数を大きくするように、ＣＷＭパラメータ群であるフォルマント強度系列ｗ_ｋ，ｌ、フォルマントバンド幅系列ρ_ｋ，ｌ、及びフォルマント周波数系列μ_ｋ，ｌの各々のパラメータを更新し、記憶部６０に記憶する。

具体的には、フォルマント強度系列ｗ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、入力部１０において受け付けた定数｛ａ^（ｗ） _ｋ，ｉ｝_ｋ，ｉと、観測スペクトル包絡系列算出部２２において算出された観測スペクトル包絡ｙ_ω，ｌと、補助変数更新部２６において前回更新された補助変数γ_{ｋ，ω，ｌ}と、初期パラメータ設定部２４において初期値が設定され又は前回更新されたＨＭＭパラメータｂ^（ｗ） _ｋ，ｉとに基づいて、上記（２３）式に従って更新する。

また、フォルマントバンド幅系列ρ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、記憶部６０に記憶されている定数｛ａ^（ρ） _ｋ，ｉ｝_ｋ，ｉと、観測スペクトル包絡系列算出部２２において算出された観測スペクトル包絡ｙ_ω，ｌと、補助変数更新部２６において前回更新された補助変数γ_{ｋ，ω，ｌ}と、初期パラメータ設定部２４において初期値が設定され又は前回更新されたＨＭＭパラメータｂ^（ρ） _ｋ，ｉと、初期パラメータ設定部２４において初期値が設定され又は前回更新されたフォルマント周波数系列μ_ｋ，ｌとに基づいて、上記（２２）式に従って更新する。

また、フォルマント周波数系列μ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、記憶部６０に記憶されている定数｛ν^２ _ｋ，ｉ｝_ｋ，ｉ及び｛α_ｋ｝_ｋと、観測スペクトル包絡系列算出部２２において算出された観測スペクトル包絡ｙ_ω，ｌと、補助変数更新部２６において前回更新された補助変数γ_{ｋ，ω，ｌ}及びξ_ｋ，ｌと、ＣＷＭパラメータ更新部３２において前回更新されたフォルマントバンド幅系列ρ_ｋ，ｌと、初期パラメータ設定部２４において初期値が設定され又は前回更新された調音ターゲット系列ｕ_ｋ，ｌとに基づいて、上記（１）式、及び上記（２４）〜上記（２８）式に従って更新する。

ＨＭＭパラメータ更新部３４は、補助関数を大きくするように、ＨＭＭパラメータ群のパラメータであるｍ_ｋ，ｉ、ｂ^（ρ） _ｋ，ｉ、ｂ^（ｗ） _ｋ，ｉ、ｓ、Φ_i',i、及びΦ_iの各々のパラメータを更新し、記憶部６０に記憶する。

具体的には、ｍ_ｋ，ｉを、（ｋ，ｉ）の全ての組み合わせの各々について、記憶部６０に記憶されている定数｛η^２ _ｋ，ｉ｝_ｋ，ｉと、初期パラメータ設定部２４において初期値が設定され又は前回更新された調音ターゲット系列ｕ_ｋ，ｌとに基づいて、上記（１９）式に従って更新する。

また、ｂ^（ρ） _ｋ，ｉを、（ｋ，ｉ）の全ての組み合わせの各々について、記憶部６０に記憶されている定数｛ａ^（ρ） _ｋ，ｉ｝_ｋ，ｉと、ＣＷＭパラメータ更新部３２において前回更新されたフォルマントバンド幅系列ρ_ｋ，ｌとに基づいて、上記（２０）式に基づいて、更新する。

また、ｂ^（ｗ） _ｋ，ｉを、（ｋ，ｉ）の全ての組み合わせの各々について、記憶部６０に記憶されている定数｛ａ^（ｗ） _ｋ，ｉ｝_ｋ，ｉと、ＣＷＭパラメータ更新部３２において前回更新されたフォルマントバンド強度系列ｗ_ｋ，ｌとに基づいて、上記（２０）式に基づいて、更新する。

また、状態系列＾ｓ、状態遷移確率Φ_i',i、初期状態確率Φ_iを、従来より周知の隠れマルコフモデルにおける状態系列、状態遷移確率、初期状態確率の推定方法を用いて、更新する。例えば、ＶｉｔｅｒｂｉアルゴリズムやＶｉｔｅｒｂｉ学習アルゴリズムを用いて、状態系列＾ｓ、状態遷移確率Φ_i',i、初期状態確率Φ_iを推定することにより、状態系列＾ｓ、状態遷移確率Φ_i',i、初期状態確率Φ_iを更新する。

調音ターゲット系列更新部３６は、補助関数を大きくするように、調音ターゲット系列ｕ_ｋ，ｌを更新し、記憶部６０に記憶する。具体的には、記憶部６０に記憶されている定数｛α_ｋ｝_ｋ、｛η^２ _ｋ，ｉ｝_ｋ，ｉ及び｛ν^２ _ｋ，ｉ｝_ｋ，ｉと、ＨＭＭパラメータ更新部３４において前回更新されたＨＭＭパラメータｍ_ｋ，ｉと、ＣＷＭパラメータ更新部３２において前回更新されたフォルマント周波数系列μ_ｋ，ｌと、補助変数更新部２６前回更新された補助変数λ_{τ，ｋ，ｌ}とに基づいて、上記（１）式、及び上記（２１）式に従って更新する。

収束判定部２８は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部２６、及びパラメータ更新部３０の各処理を繰り返す。収束判定部２８は、収束条件を満足したと判定した場合には、記憶部６０に記憶されている各パラメータを出力部５０に出力する。

なお、収束条件としては、繰り返し回数ｘが予め定めた回数Ｘに達したことを用いればよい。なお、ｘ−１回目のパラメータを用いた時の目的関数ｌｏｇＰ（Θ｜＾ｙ）の値とｓｘ回目の目的関数ｌｏｇＰ（Θ｜＾ｙ）の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。

記憶部６０は、定数であるパラメータ｛ａ^（ｗ） _ｋ，ｉ，ａ^（ρ） _ｋ，ｉ，η^２ _ｋ，ｉ，ν^２ _ｋ，ｉ｝_ｋ，ｉ、及び｛α_ｋ｝_ｋの値と、補助変数更新部２６において更新された補助変数の各々と、パラメータ更新部３０において更新されたパラメータの各々とを記憶している。なお、本実施の形態においては、ａ^（ｗ） _ｋ，ｉ及びａ^（ρ） _ｋ，ｉの値を３とする。

＜実施の形態に係る音声信号解析装置の作用＞
次に、本発明の実施の形態に係る音声信号解析装置１００の作用について説明する。入力部１０によりマイクロホンから出力された音響信号の時系列データが入力されると、音声信号解析装置１００は、図７に示すパラメータ推定処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０により入力された時系列データを受け付ける。

次に、ステップＳ１０２では、記憶部６０に記憶されている定数のパラメータ（｛ａ^（ｗ） _ｋ，ｉ，ａ^（ρ） _ｋ，ｉ，η^２ _ｋ，ｉ，ν^２ _ｋ，ｉ｝_ｋ，ｉ、及び｛α_ｋ｝_ｋの値）の各々の値を読み込む。

次に、ステップＳ１０４では、ステップＳ１００において取得した時系列データから観測スペクトル包絡ｙ_ω，ｔを各（ω，ｔ）の要素にもつ二次元配列＾ｙを算出する。

次に、ステップＳ１０６では、ＨＭＭパラメータ群であるｍ_ｋ，ｉ、ｂ^（ρ） _ｋ，ｉ、ｂ^（ｗ） _ｋ，ｉ、ｓ、Φ_i',i、及びΦ_iの各々と、調音ターゲット系列ｕ_ｋ，ｌと、ＣＷＭパラメータ群であるμ_ｋ，ｌ、ρ_ｋ，ｌ、及びｗ_ｋ，ｌの各々とに、初期値として適切な値を設定する。

次に、ステップＳ１０８では、補助変数γ_{ｋ，ω，ｌ}を、（ｋ，ω，ｌ）の全ての組み合わせの各々について、ステップＳ１０６において初期値が設定され又はステップＳ１１２において前回更新されたρ_ｋ，ｌと、ステップＳ１０６において初期値が設定され又はステップＳ１１４において前回更新されたμ_ｋ，ｌと、ステップＳ１０６において初期値が設定され又はステップＳ１１０において前回更新されたｗ_ｋ，ｌとに基づいて、上記（８）式、上記（９）式、及び上記（１７）式に従って更新する。また、補助変数λ_{τ，ｋ，ｌ}を、（τ，ｋ，ｌ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛α_ｋ｝_ｋと、ステップＳ１０６において初期値が設定され又はステップＳ１１８において前回更新されたｕ_ｋ，ｌとに基づいて、上記（１）式、及び上記（１６）式に従って更新する。補助変数ξ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、ステップＳ１０６において初期値が設定され又はステップＳ１１４において前回更新されたμ_ｋ，ｌに基づいて、上記（１８）式に従って更新する。

次に、ステップＳ１１０では、フォルマント強度系列ｗ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛ａ^（ｗ） _ｋ，ｉ｝_ｋ，ｉと、ステップＳ１０４において取得した観測スペクトル包絡ｙ_ω，ｌと、ステップＳ１０８において更新された補助変数γ_{ｋ，ω，ｌ}と、ステップＳ１０６において初期値が設定され又はステップＳ１１６において更新されたＨＭＭパラメータｂ^（ｗ） _ｋ，ｉとに基づいて、上記（２３）式に従って更新する。

次に、ステップＳ１１２では、フォルマントバンド幅系列ρ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛ａ^（ρ） _ｋ，ｉ｝_ｋ，ｉと、ステップＳ１０４において取得した観測スペクトル包絡ｙ_ω，ｌと、ステップＳ１０８において前回更新された補助変数γ_{ｋ，ω，ｌ}と、ステップＳ１０６において初期値が設定され又はステップＳ１１６において前回更新されたＨＭＭパラメータｂ^（ρ） _ｋ，ｉと、ステップＳ１０６において初期値が設定され又はステップＳ１１４において前回更新されたフォルマント周波数系列μ_ｋ，ｌとに基づいて、上記（２２）式に従って更新する。

次に、ステップＳ１１４では、フォルマント周波数系列μ_ｋ，ｌを（ｋ，ｌ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛ν^２ _ｋ，ｉ｝_ｋ，ｉ及び｛α_ｋ｝_ｋと、観測スペクトル包絡系列算出部２２において算出された観測スペクトル包絡ｙ_ω，ｌと、ステップＳ１０８において前回更新された補助変数γ_{ｋ，ω，ｌ}及びξ_ｋ，ｌと、ステップＳ１１２において前回更新されたフォルマントバンド幅系列ρ_ｋ，ｌと、ステップＳ１０６において初期値が設定され又はステップＳ１１８において前回更新された調音ターゲット系列ｕ_ｋ，ｌとに基づいて、上記（１）式、及び上記（２４）〜上記（２８）式に従って更新する。

次に、ステップＳ１１６では、ＨＭＭパラメータであるｍ_ｋ，ｉ、ｂ^（ρ） _ｋ，ｉ、ｂ^（ｗ） _ｋ，ｉ、＾ｓ、Φ_i',i及び、Φ_iの各々のパラメータを更新し、記憶部６０に記憶する。具体的には、ｍ_ｋ，ｉを、（ｋ，ｉ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛η^２ _ｋ，ｉ｝_ｋ，ｉと、ステップＳ１０６において初期値が設定され又はステップＳ１１８において前回更新された調音ターゲット系列ｕ_ｋ，ｌとに基づいて、上記（１９）式に従って更新する。ｂ^（ρ） _ｋ，ｉを、（ｋ，ｉ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛ａ^（ρ） _ｋ，ｉ｝_ｋ，ｉと、ステップＳ１１２において前回更新されたフォルマントバンド幅系列ρ_ｋ，ｌとに基づいて、上記（２０）式に基づいて、更新する。ｂ^（ｗ） _ｋ，ｉを、（ｋ，ｉ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛ａ^（ｗ） _ｋ，ｉ｝_ｋ，ｉと、ステップＳ１１２において前回更新されたフォルマントバンド強度系列ｗ_ｋ，ｌとに基づいて、上記（２０）式に基づいて、更新する。＾ｓ、Φ_i',i及び、Φ_iを、従来より周知の隠れマルコフモデルにおける状態系列、状態遷移確率、初期状態確率の推定方法を用いて、更新する。

次に、ステップＳ１１８では、調音ターゲット系列ｕ_ｋ，ｌを、（ｋ，ｌ）の全ての組み合わせの各々について、ステップＳ１０２において取得した定数｛α_ｋ｝_ｋ、｛η^２ _ｋ，ｉ｝_ｋ，ｉ及び｛ν^２ _ｋ，ｉ｝_ｋ，ｉと、ステップＳ１１６において前回更新されたＨＭＭパラメータｍ_ｋ，ｉと、ステップＳ１１４において前回更新されたフォルマント周波数系列μ_ｋ，ｌと、ステップＳ１０８において前回更新された補助変数λ_{τ，ｋ，ｌ}とに基づいて、上記（１）式、及び上記（２１）式に従って更新する。

次に、ステップＳ１２０では、予め定められた収束条件を満たすか否かの判定を行い、予め定められた収束条件を満たす場合には、ステップＳ１２２へ移行し、予め定められた収束条件を満たさない場合には、ステップＳ１０８へ移行する。

次に、ステップＳ１２２では、ステップＳ１１０〜ステップＳ１１８において取得した各パラメータを出力部５０に出力して処理を終了する。

以上説明したように、本実施の形態に係る音声信号解析装置によれば、音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる。

また、ＣＷＭは、音声のフォルマント周波数に対応していると解釈できるパラメータを有しているため、フォルマント周波数軌跡の生成過程モデル（非特許文献４及び非特許文献５参照）をヒントにしたフォルマント周波数軌跡の確率モデルを構築し、そのパラメータを推定することができる。

＜実験例＞
実験は大きく分けて学習フェイズと推定フェイズの２段階からなる。学習フェイズでは、ＡＴＲ日本語音声データベースのＢセットから男性話者１人を選択し、No.１〜No.４００までの４００文を対象として、音素ごとに定まるパラメータθの学習を行った。また、推定フェイズでは、学習に使っていない発話文を対象にＣＷＭパラメータの推定を行った。ここで、θは学習フェイズでの推定値を用いて定数とみなす。なお、本実験においてスペクトル包絡の抽出にはＳＴＲＡＩＧＨＴ法を用い、また、音素ラベルのデータを与えることで状態系列＾ｓを定数とする。本実験では、ＧＭＭの混合数は１０、パラメータ推定アルゴリズムの反復回数は１０、α_ｋ＝５０とし、その他のＣＷＭパラメータの初期値はＣｈａｉｎ（非特許文献３参照）を導入しない推定アルゴリズムを用いて決定した。

また、図８にNo.４３６のスペクトル包絡に推定したフォルマント周波数の時間軌跡を重ねた図を示し、図９にNo.４３６の音素／ａ／のスペクトル包絡と推定パラメータによるＧＭＭ近似を示し、これらの結果から、推定したスペクトルピークが実音声のフォルマント周波数軌跡を上手く推定していることが確認できる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０入力部
２０演算部
２２観測スペクトル包絡系列算出部
２４初期パラメータ設定部
２６補助変数更新部
２８収束判定部
３０パラメータ更新部
３２ＣＷＭパラメータ更新部
３４ＨＭＭパラメータ更新部
３６調音ターゲット系列更新部
５０出力部
６０記憶部
１００音声信号解析装置

Claims

音声信号の時系列データを入力として、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,tを表すスペクトル包絡を算出する観測スペクトル包絡系列算出部と、
Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lを含むＣＷＭパラメータ群と、隠れマルコフモデルの各時刻ｋの状態のインデックスｓ_kからなる状態系列＾ｓ、隠れマルコフモデルの前記状態ｉ'，ｉ間の各々の遷移確率Φ_i',i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記重みｗ_k,lの分布を表すパラメータｂ^(w) _k,i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記分散の逆数ρ_k,lの分布を表すパラメータｂ^(ρ) _k,i、及びＫ個のガウス分布ｋの各々についての各状態ｉにおける前記平均μ_k,lの正規分布の平均ｍ_k,iを含むＨＭＭパラメータ群と、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lを含む調音ターゲット系列との各々の初期値を設定する初期パラメータ設定部と、
各時刻ｔにおける前記スペクトル包絡が与えられたときの、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻ｔにおける前記スペクトル包絡、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列に基づいて、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列を更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、
を含む音声信号解析装置。
前記目的関数を、
ＣＷＭパラメータ群が与えられたときの各時刻ｔにおける前記スペクトル包絡の確率、前記状態系列＾ｓの確率、前記状態系列＾ｓが与えられたときの、前記Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,lの確率、前記状態系列＾ｓが与えられたときの、前記Ｋ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lの確率、前記状態系列＾ｓが与えられたときの前記調音ターゲット系列の確率、前記状態系列＾ｓ及び前記調音ターゲット系列が与えられたときの前記Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,lの確率を用いて表される関数とし、
前記パラメータ更新部は、前記関数を最大化するように、各時刻ｔにおける前記スペクトル包絡、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列に基づいて、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列を更新する請求項１記載の音声信号解析装置。
補助変数更新部を更に含み、
前記目的関数を、
各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,t、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,l、（ｋ、ω、ｌ）の全ての組み合わせについての補助変数γ_k,ω,l、（τ、ｋ、ｌ）の全ての組み合わせについての補助変数λ_τ,k,l、及び（ｋ、ｌ）の全ての組み合わせについての補助変数ξ_k,lを用いて表され、かつ、前記関数の対数の下限関数である補助関数とし、
前記補助変数更新部は、前記補助関数を大きくするように、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lに基づいて、（ｋ、ω、ｌ）の全ての組み合わせについての補助変数γ_k,ω,l、（τ、ｋ、ｌ）の全ての組み合わせについての補助変数λ_τ,k,l、及び（ｋ、ｌ）の全ての組み合わせについての補助変数ξ_k,lを更新し、
前記パラメータ更新部は、前記補助関数を大きくするように、各時刻ｔにおける前記スペクトル包絡、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列（ｋ、ω、ｌ）の全ての組み合わせについての補助変数γ_k,ω,l（τ、ｋ、ｌ）の全ての組み合わせについての補助変数λ_τ,k,l（ｋ、ｌ）の全ての組み合わせについての補助変数ξ_k,lに基づいて、ＣＷＭパラメータ群、ＨＭＭパラメータ群、及び調音ターゲット系列を更新する請求項２記載の音声信号解析装置。
前記補助関数は、二次関数の凸性を利用するＪｅｎｓｅｎの不等式を用いて定められた下限関数である請求項３記載の音声信号解析装置。
観測スペクトル包絡系列算出部と、初期パラメータ設定部と、パラメータ更新部と、収束判定部と、を含む音声信号解析装置における音声信号解析方法であって、
前記観測スペクトル包絡系列算出部は、音声信号の時系列データを入力として、各時刻ｔにおける各周波数ωの観測時間周波数成分ｙ_ω,tを表すスペクトル包絡を算出し、
前記初期パラメータ設定部は、Ｋ個のガウス分布ｋの各々についての各時刻ｌの平均μ_k,l、Ｋ個のガウス分布ｋの各々についての各時刻ｌの分散の逆数ρ_k,l、及びＫ個のガウス分布ｋの各々についての各時刻ｌの重みｗ_k,lを含むＣＷＭパラメータ群と、隠れマルコフモデルの各時刻ｋの状態のインデックスｓ_kからなる状態系列＾ｓ、隠れマルコフモデルの前記状態ｉ'，ｉ間の各々の遷移確率Φ_i',i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記重みｗ_k,lの分布を表すパラメータｂ^(w) _k,i、Ｋ個のガウス分布ｋの各々についての各状態ｉにおける前記分散の逆数ρ_k,lの分布を表すパラメータｂ^(ρ) _k,i、及びＫ個のガウス分布ｋの各々についての各状態ｉにおける前記平均μ_k,lの正規分布の平均ｍ_k,iを含むＨＭＭパラメータ群と、Ｋ個のガウス分布ｋの各々についての各時刻ｌの調音ターゲットのパラメータｕ_k,lを含む調音ターゲット系列との各々の初期値を設定し、
前記パラメータ更新部は、各時刻ｔにおける前記スペクトル包絡が与えられたときの、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻ｔにおける前記スペクトル包絡、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列に基づいて、前記ＣＷＭパラメータ群、前記ＨＭＭパラメータ群、及び前記調音ターゲット系列を更新し、
前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
音声信号解析方法。
コンピュータを、請求項１〜４の何れか１項記載の音声信号解析装置を構成する各部として機能させるためのプログラム。