JP5705086B2

JP5705086B2 - 声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラム

Info

Publication number: JP5705086B2
Application number: JP2011227187A
Authority: JP
Inventors: 定男廣谷; 岳美持田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-10-14
Filing date: 2011-10-14
Publication date: 2015-04-22
Anticipated expiration: 2031-10-14
Also published as: JP2013088522A

Description

この発明は音声信号から声道スペクトルを抽出する声道スペクトル抽出装置、声道スペクトル抽出方法及びプログラムに関する。

人間の音声生成メカニズムに基づき、音声信号を気管や肺などの声門下インピーダンスの特性を含む音源信号と声門から口唇までの声道スペクトルに精度良く分離することは、音声を用いたアプリケーションのための基盤技術となる。図１はこのような人間の音声生成過程を模式的に示したものである。

声門下インピーダンスは気管や気管支の長さに依存しているため、個人によって異なる。そこで、非特許文献１では声門下インピーダンスの情報を用いた音声信号に含まれる個人性の除去法を提案している。音声信号から声門下インピーダンスの影響を取り除いた声道スペクトルの抽出ができれば、音声信号と得られた声道スペクトルから個人の声門下インピーダンスの抽出が可能となり、音声信号に含まれる個人性の分析などの応用に利用することができると期待される。

音源信号と声道スペクトルの分離には、線形予測（ＬＰＣ）分析が広く用いられているが、有声音においては音源信号の基本周波数や声門下インピーダンスの影響を受け、音声信号からの声道スペクトルの推定精度が不十分であるという問題があった。

そこで、ＬＰＣ分析における音源信号の影響を回避するために、複数声門閉鎖区間線形予測法が提案されている（例えば、非特許文献２参照）。これは、有声音の音源である声帯振動は声帯の開閉運動であり、声帯が閉じているときの音声信号は声門から口唇のみの特性、つまり声道スペクトルを示す一方で、声帯が開くと肺や気管が接続されるという事実を利用したものである。

この事実を利用して、声帯が閉じているときの音声信号のみを用いて線形予測法を行えば、声門下インピーダンスに影響されない声道スペクトルの推定を行うことができると期待される。

Shizhen Wang, Abeer Alwan, Steven M.Lulich,"SPEAKER NORMALIZATION BASED ON SUBGLOTTAL RESONANCES", Proc.ICASSP, pp.4277-4280, 2008 陸金林、村上秀紀、粕谷英樹，"複数閉鎖区間を用いた声道伝達関数の推定"，電子情報通信学会論文誌，Vol.J73-A，No.5，pp.1011-1014，1990

しかしながら、人間が発声した音声信号は、声帯と声道のカップリングにより複雑な位相特性を示すため、声帯が閉じているときの音声信号であっても声門下インピーダンスの影響が含まれてしまっている。そのため、例え正確な声門閉鎖区間を抽出することができ、その声門が閉じているときの音声信号のみを用いた線形予測法であっても正確な声道スペクトルを得ることは難しい。

この発明の目的はこのような状況に鑑み、音声信号から声門下インピーダンスの影響を受けない正確な声道スペクトルを抽出することができるようにした声道スペクトル抽出装置及び声道スペクトル抽出方法を提供することにある。

請求項１の発明によれば、声道スペクトル抽出装置は、入力された音声信号の音声区間を検出する音声区間検出部と、前記音声区間に対して前記音声信号から基本周波数を推定する基本周波数分析部と、前記基本周波数に基づき決定した窓長で前記音声信号を切り出してＬＰＣ分析を行い、ＬＰＣ逆フィルタに前記音声信号を通すことによりＬＰＣ残差信号を求める第１ＬＰＣ分析部と、前記基本周波数から得られる基本周期に応じたピッチ波形を生成し、そのピッチ波形と前記ＬＰＣ残差信号とを用いてピッチマーク時刻群を抽出するピッチマーク分析部と、前記ピッチマーク時刻群と前記ＬＰＣ残差信号とを用いて求めた位相等化フィルタを前記音声信号に施すことにより位相等化音声信号を生成する位相等化音声生成部と、前記ピッチマーク時刻群を声門閉鎖区間の始点とし、声門閉鎖区間の長さを前記基本周期に対して所定の比率として声門閉鎖区間を推定する第１声門閉鎖区間推定部と、前記位相等化音声信号の一次差分を求める傾斜特性補正部と、前記位相等化音声信号の一次差分に対して前記声門閉鎖区間におけるＬＰＣ分析を行い、ＬＰＣ残差信号を最小にするようなＬＰＣ係数を求める声門閉鎖区間ＬＰＣ分析部よりなる。

請求項２の発明では請求項１の発明において、前記ＬＰＣ係数を用いたＬＰＣ逆フィルタに前記位相等化音声信号を通すことにより声門下インピーダンスの特性を含む音源信号を求めるＬＰＣ逆フィルタ計算部と、前記ピッチマーク時刻群を声門閉鎖区間の始点とし、前記音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出する第２声門閉鎖区間推定部とを備え、声門閉鎖区間ＬＰＣ分析部は前記位相等化音声信号の一次差分に対して第２声門閉鎖区間推定部で抽出された声門閉鎖区間を用いて再帰的にＬＰＣ分析を行ってＬＰＣ係数を求める。

請求項３の発明によれば、声道スペクトル抽出方法は、入力された音声信号の音声区間を検出する音声区間検出過程と、前記音声区間に対して前記音声信号から基本周波数を推定する基本周波数分析過程と、前記基本周波数に基づき決定した窓長で前記音声信号を切り出してＬＰＣ分析を行い、ＬＰＣ逆フィルタに前記音声信号を通すことによりＬＰＣ残差信号を求める第１ＬＰＣ分析過程と、前記基本周波数から得られる基本周期に応じたピッチ波形を生成し、そのピッチ波形と前記ＬＰＣ残差信号とを用いてピッチマーク時刻群を抽出するピッチマーク分析過程と、前記ピッチマーク時刻群と前記ＬＰＣ残差信号とを用いて求めた位相等化フィルタを前記音声信号に施すことにより位相等化音声信号を生成する位相等化音声生成過程と、前記ピッチマーク時刻群を声門閉鎖区間の始点とし、声門閉鎖区間の長さを前記基本周期に対して所定の比率として声門閉鎖区間を推定する第１声門閉鎖区間推定過程と、前記位相等化音声信号の一次差分を求める傾斜特性補正過程と、前記位相等化音声信号の一次差分に対して前記声門閉鎖区間におけるＬＰＣ分析を行い、ＬＰＣ残差信号を最小にするようなＬＰＣ係数を求める声門閉鎖区間ＬＰＣ分析過程よりなる。

請求項４の発明では請求項３の発明において、前記ＬＰＣ係数を用いたＬＰＣ逆フィルタに前記位相等化音声信号を通すことにより声門下インピーダンスの特性を含む音源信号を求めるＬＰＣ逆フィルタ計算過程と、前記ピッチマーク時刻群を声門閉鎖区間の始点とし、前記音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出する第２声門閉鎖区間推定過程と、前記位相等化音声信号の一次差分に対して前記第２声門閉鎖区間推定過程で抽出された声門閉鎖区間を用いて再帰的にＬＰＣ分析を行ってＬＰＣ係数を求める声門閉鎖区間ＬＰＣ分析再帰処理過程とを有する。

この発明によれば、音声信号から声門下インピーダンスの影響を受けない正確な声道スペクトルを抽出することができる。

音声の生成過程を模式的に示した図。この発明による声道スペクトル抽出装置の第１の実施例の機能構成を示すブロック図。図２に示した声道スペクトル抽出装置における処理の流れを示すフローチャート（その１）。図２に示した声道スペクトル抽出装置における処理の流れを示すフローチャート（その２）。（Ａ）は音声信号（原音声）の一例を示す図、（Ｂ）は（Ａ）に対し、位相等化処理を行った後の音声信号（位相等化音声信号）を示す図。この発明による声道スペクトル抽出装置の第２の実施例の機能構成を示すブロック図。図６に示した声道スペクトル抽出装置における処理の流れの要部を示すフローチャート。図６における第２声門閉鎖区間推定部の処理例を示す図。声門閉鎖区間線形予測法により得られたフォルマント周波数を示すグラフ、（Ａ）は従来法による場合、（Ｂ）はこの発明の第２の実施例による場合。

この発明では音声信号の振幅特性を変えず、位相特性のみを変換する前処理を音声信号に施す。音声信号の位相特性を変換する方法として、下記文献Ａに記載されている位相等化処理を用いる。これは、音声信号のエネルギを声門閉鎖時点に集中させる方法である。
文献Ａ：特許第２０６１８１６号公報

位相等化処理によって得られる位相等化音声信号は最小位相特性を持つフィルタのインパルス応答とみなせるため、声門閉鎖区間では声道スペクトルの情報が声門下インピーダンスの情報よりも相対的に大きくなることが期待され、その結果、位相等化音声信号の声門閉鎖区間では声門下インピーダンスの影響が少ないと考えられる。

以下、この発明の実施形態を図面を参照して実施例により説明する。

図２はこの発明による声道スペクトル抽出装置の実施例１の機能構成を示したものであり、この例では声道スペクトル抽出装置は音声区間検出部１１と基本周波数分析部１２と第１ＬＰＣ分析部１３とピッチマーク分析部１４と位相等化音声生成部１５と第１声門閉鎖区間推定部１６と傾斜特性補正部１７と声門閉鎖区間ＬＰＣ分析部１８とによって構成されている。

図３〜４は図２に示した声道スペクトル抽出装置における処理の流れを示したものであり、以下、図２〜４を参照して各部の機能、処理の流れについて説明する。

＜音声区間検出部＞
まず、音声区間検出部１１にて、音声信号（原音声）のパワーの閾値処理に基づき、音声区間の検出を行う（ステップＳ１）。

＜基本周波数分析部＞
次に、基本周波数分析部１２にて、得られた音声区間に対して音声信号からピッチ抽出アルゴリズムを用いて基本周波数を推定する。例えば、本実施例では、３０ｍｓの分析窓長（分析区間）と、４ｍｓの分析シフト長により、瞬時周波数振幅スペクトルに基づき、基本周波数を求める（ステップＳ２）。なお、基本周波数の分析には例えば下記文献Ｂに記載されている瞬時周波数振幅スペクトルに基づく手法を用いる。

文献Ｂ：Arifianto D., Tanaka T., Masuko T., and kobayashi T.,“Robust F0 estimation of speech signal using harmonicity measure based on instantaneous frequency”, IEICE Trans. Information and Systems, Vol.E87-D, No.12, pp.2812-2820, 2004

＜第１ＬＰＣ分析部＞
第１ＬＰＣ分析部１３は、位相等化処理に用いるＬＰＣ残差信号を得るために、４ｍｓの分析シフト長で、音声信号を基本周期（基本周期＝１÷基本周波数）の２．５倍を窓長としたブラックマン窓で切り出し、自己相関法によるＬＰＣ分析を行う（ステップＳ３）。そして、音声信号をＬＰＣ逆フィルタに通すことによりＬＰＣ残差信号を得る（ステップＳ４）。この際、基本周波数の影響を避けるために、ラグ窓（１００Ｈｚ）を用いる。

さらに、窓関数を用いたパワースペクトルの分析は分析時刻に依存するという問題があるため、声道スペクトルの時間方向平滑化を目的として、下記文献Ｃに記載されているようなＴＡＮＤＥＭ窓を用いる。これは、当該分析フレームと基本周期の半分シフトした分析フレームのパワースペクトルを足して２で割ることで分析時刻に依存しないパワースペクトルを推定する手法である。

文献Ｃ：森勢将雅、高橋徹、河原英紀、入野俊夫，“分析時刻に依存しない周期信号のパワースペクトル推定法を用いた音声分析”，電子情報通信学会論文誌，Vol.J92-A，No.３，pp.163-171，2009

ＬＰＣ残差信号ｅ（ｔ，ｋ）は、以下のようにして求められる。

但し、ｔ：フレーム番号
ｋ：時刻
ｓ：音声信号（原音声）
ｐ：ＬＰＣ分析次数
ａ：ＬＰＣ係数

＜ピッチマーク分析部＞
ピッチマーク分析部１４は、位相等化処理に用いるピッチマーク（ピッチマーク時刻群）を得るために、音声区間内で、基本周波数から得られる基本周期に応じたパルス系列信号（ピッチ波形）を生成する（ステップＳ５）。フレーム番号ｔ、時刻ｋにおいて、音声区間内で、ピッチ波形ｅｘ（ｔ，ｋ）の絶対値と、ＬＰＣ残差信号ｅ（ｔ，ｋ）の絶対値の間で、フレームｔ毎に、相互相関関数
ｒ（ｔ，ｊ）＝Σ_ｋ｜ｅ（ｔ，ｋ）｜×｜ｅｘ（ｔ，ｋ＋ｊ）｜
を計算し、Σ_ｔｒ（ｔ，ｊ）が最大となるようなｊの系列を、動的計画法を用いて求め、ピッチマーク時刻群の候補を得る。そして、得られたピッチマーク時刻の近傍で、ＬＰＣ残差信号の絶対値が最大となる時刻を探索し、ピッチマーク時刻群の候補を得る。このピッチマーク時刻群の中で残差信号の絶対値が最大となるピッチマーク時刻をｋ（０）とし、時刻ｋ（０）と前後のピッチマーク時刻ｋ（−１）またはｋ（１）の近傍における変形自己相関関数
Σ_ｋｅ（ｔ，ｋｍ）×ｅ（ｔ，ｋ（０））ｋｍ＝ｋ（−１）−２〜ｋ（−１）＋２
Σ_ｋｅ（ｔ，ｋｍ）×ｅ（ｔ，ｋ（０））ｋｍ＝ｋ（１）−２〜ｋ（１）＋２
を最大にする時刻ｋｍを求める。ｋ（０）を得られたｋｍ、ｋｍをｋｍの前または後のピッチマーク時刻とし、順次変形自己相関関数を最大にする時刻を求め、ピッチマーク時刻群とする（ステップＳ６）。

＜位相等化音声生成部＞
位相等化音声生成部１５は、位相等化音声信号を得るために、ピッチマーク（ピッチマーク時刻群）とＬＰＣ残差信号を用いて、ＬＰＣ残差信号の値をピッチマーク時刻を中心として反転させ、正規化した値を係数として持つ位相等化フィルタを求め、これを音声信号に施すことにより位相等化音声信号を得る（ステップＳ７）。位相等化フィルタのタップ数は基本周期の長さと同じとする。

＜第１声門閉鎖区間推定部＞
第１声門閉鎖区間推定部１６は、声門閉鎖区間を推定する（ステップＳ８）。分析フレーム内におけるｊ番目の声門閉鎖区間の始点ｎ_ｊは、ピッチマーク時刻群とすることができる。しかし、声門閉鎖区間の長さの推定は難しいことが知られているため、ここでは基本周期に対する声門解放時間率（ＯＱ）として一般的な値である３５％を考える。つまり、声門閉鎖区間の長さは基本周期の６５％とする。

＜傾斜特性補正部＞
傾斜特性補正部１７は、音声信号に含まれる音源スペクトルの傾斜特性を取り除くために、位相等化音声信号の一次差分を求める（ステップＳ９）。位相等化音声信号をｘとするとき、位相等化音声信号の一次差分Δｘは、
Δｘ（ｔ）＝ｘ（ｔ）−ｘ（ｔ−１）ｔ＝２〜Ｔ（２ａ）
Δｘ（１）＝０ｔ＝１（２ｂ）
で求められる。

＜声門閉鎖区間ＬＰＣ分析部＞
声門閉鎖区間ＬＰＣ分析部１８は、傾斜特性補正部１７で求められた位相等化音声信号の一次差分、ｊ番目の声門閉鎖区間の始点ｎ_ｊと声門閉鎖区間の長さＮ_ｊに対して、共分散を用いたＬＰＣ分析を行う（ステップＳ１０）。つまり、以下のＬＰＣ残差信号ｅ（ｔ）を最小にするようなＬＰＣ係数ａを求める。

ここで、φ_ｊとΦ_ｊを以下のように定義すると、

ＬＰＣ係数ａは以下の連立方程式を解くことで得ることができる。Ｊは分析フレームに含まれる声門閉鎖区間の数を表す。なお、^Ｔは行列の転置を表す。

［Φ_１ ^ＴΦ_１＋…＋Φ_Ｊ ^ＴΦ_Ｊ］ａ＾＝［Φ_１ ^Ｔφ_１＋…＋Φ_Ｊ ^Ｔφ_Ｊ］（６）
以上のようにして、ＬＰＣ係数ａを得ることができ、ＬＰＣ係数ａが得られれば、声道スペクトルを求めることができる。

図５は位相等化音声生成部１５での位相等化処理後の音声信号（位相等化音声信号）の一例を原音声信号と共に例示したものであり、この例では日本語母音「い」と「う」の間の遷移部の音声信号波形を示している。図５中、開／閉は声門の開／閉を示す。

図５において声門閉鎖区間の波形を比較すると、（Ｂ）の位相等化音声信号の方が、波形の山のピークが各声門閉鎖区間の中央近くに位置し、声門閉鎖区間からはみ出している波形の山の裾野部分が少なくなっていることがわかる。つまり、声門閉鎖区間において、声道スペクトルに係る情報量が声門下インピーダンスに係る情報量に比べて相対的に大きくなっていることがわかる。

このように、この例では位相等化処理により、声門閉鎖区間における音声信号のエネルギが高められ、これにより声道スペクトルを精度良く抽出することができるものとなっている。

図６はこの発明による声道スペクトル抽出装置の実施例２の機能構成を示したものであり、図２に示した実施例１の構成に対し、ＬＰＣ逆フィルタ計算部１９と第２声門閉鎖区間推定部２０が付加された構成となっている。

図７は図６に示した声道スペクトル抽出装置における処理の流れの要部を示したものであり、図３〜４に示した実施例１の処理（ステップＳ１〜Ｓ１０）に加え、ステップＳ１１〜Ｓ１３を実行するものとなっている。

以下、ＬＰＣ逆フィルタ計算部１９及び第２声門閉鎖区間推定部２０の機能及び処理の流れについて説明する。

＜ＬＰＣ逆フィルタ計算部＞
ＬＰＣ逆フィルタ計算部１９は、声門閉鎖区間ＬＰＣ分析部１８により得られるＬＰＣ係数を用いたＬＰＣ逆フィルタに位相等化音声信号を通すことにより、ＬＰＣ残差信号、つまり声門下インピーダンスの特性を含む音源信号を求める（ステップＳ１１）。声門下インピーダンスの特性を含む音源信号（ＬＰＣ残差信号）は以下のようにして求められる。

ここで、声門閉鎖区間ＬＰＣ分析部１８により得られるＬＰＣ係数は基本周期毎に求められるため、男声のように基本周期が長い場合は、時間的に滑らかなＬＰＣ係数が得られない。その場合、ＬＰＣ係数をＰＡＲＣＯＲやＬＳＰなどに変換し、隣り合う声門閉鎖区間でのパラメータ間を線形補間し、再びＬＰＣ係数に戻せばよい。

＜第２声門閉鎖区間推定部＞
ＬＰＣ逆フィルタ計算部１９で得られた音源信号は、人間が発声する声門体積流の波形に近いことが期待される。第２声門閉鎖区間推定部２０は、ピッチマーク時刻群を声門閉鎖区間の始点として、音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出することで声門閉鎖区間の推定を行う（ステップＳ１２）。

第２声門閉鎖区間推定部２０で得られた声門閉鎖区間は、声門閉鎖区間ＬＰＣ分析部１８に入力され、声門閉鎖区間ＬＰＣ分析部１８は入力された声門閉鎖区間を用いて位相等化音声信号の一次差分に対して再帰的にＬＰＣ分析を行い、ＬＰＣ係数を求める（ステップＳ１３）。

以上説明したように、この例では音源信号より推定した声門閉鎖区間を用いて再帰的にＬＰＣ係数を求めるものとなっており、これにより声道スペクトルの抽出精度をより向上させることができ、正確な声道スペクトルを抽出することができるものとなっている。

図８は上述した第２声門閉鎖区間推定部２０における音源信号からの声門閉鎖区間の抽出処理例を示したものである。

［実験例］
男性日本語母国語話者が発声した母音連鎖「いうえ」より抽出したフォルマント周波数を図９に示す。本実験では、位相等化処理のためのＬＰＣ分析次数は５０次、ＬＰＣスペクトルを得るための分析次数は１７次とした。音声信号のサンプリングレートは１６ｋＨｚである。図９（Ａ）は式（３）のΔｘを原音声信号の一次差分とした声門閉鎖区間線形予測法（従来法）により得られた第１，第２フォルマント周波数を示し、図９（Ｂ）はこの発明による声門閉鎖区間線形予測法（実施例２）により得られた第１，第２フォルマント周波数を示す。分析のために用いた声門閉鎖区間の数は２である。

声門下インピーダンスの影響の例として、第２フォルマント周波数（Ｆ２）が大きく遷移するような発声の場合に、不連続なＦ２が抽出されることが知られている。図９（Ａ）に示した従来法では声門閉鎖区間線形予測法を用いているにも関わらず、「い」と「う」の間でＦ２が不連続になっており、声門下インピーダンスの影響が見られる。

一方、図９（Ｂ）に示したこの発明の実施例２による方法では「い」と「う」の間でフォルマント周波数が連続的に遷移しており、声門下インピーダンスの影響を受けないことが分かる。

以上説明した声道スペクトル抽出装置及び声道スペクトル抽出方法は、コンピュータと、コンピュータにインストールされたプログラムによって実現することができる。コンピュータにインストールされたプログラムはコンピュータのＣＰＵによって解読されてコンピュータに上述した声道スペクトル抽出方法を実行させる。

１１音声区間検出部１２基本周波数分析部
１３第１ＬＰＣ分析部１４ピッチマーク分析部
１５位相等化音声生成部１６第１声門閉鎖区間推定部
１７傾斜特性補正部１８声門閉鎖区間ＬＰＣ分析部
１９ＬＰＣ逆フィルタ計算部２０第２声門閉鎖区間推定部

Claims

入力された音声信号の音声区間を検出する音声区間検出部と、
前記音声区間に対して前記音声信号から基本周波数を推定する基本周波数分析部と、
前記基本周波数に基づき決定した窓長で前記音声信号を切り出してＬＰＣ分析を行い、ＬＰＣ逆フィルタに前記音声信号を通すことによりＬＰＣ残差信号を求める第１ＬＰＣ分析部と、
前記基本周波数から得られる基本周期に応じたピッチ波形を生成し、そのピッチ波形と前記ＬＰＣ残差信号とを用いてピッチマーク時刻群を抽出するピッチマーク分析部と、
前記ピッチマーク時刻群と前記ＬＰＣ残差信号とを用いて求めた位相等化フィルタを前記音声信号に施すことにより音声信号のエネルギが声門閉鎖区間に集中した位相等化音声信号を生成する位相等化音声生成部と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、声門閉鎖区間の長さを前記基本周期に対して所定の比率として声門閉鎖区間を推定する第１声門閉鎖区間推定部と、
前記位相等化音声信号の一次差分を求める傾斜特性補正部と、
前記位相等化音声信号の一次差分に対して前記声門閉鎖区間におけるＬＰＣ分析を行い、ＬＰＣ残差信号を最小にするようなＬＰＣ係数を求める声門閉鎖区間ＬＰＣ分析部と、よりなることを特徴とする声道スペクトル抽出装置。
請求項１記載の声道スペクトル抽出装置において、
前記ＬＰＣ係数を用いたＬＰＣ逆フィルタに前記位相等化音声信号を通すことにより声門下インピーダンスの特性を含む音源信号を求めるＬＰＣ逆フィルタ計算部と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、前記音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出する第２声門閉鎖区間推定部とを備え、
前記声門閉鎖区間ＬＰＣ分析部は前記位相等化音声信号の一次差分に対して前記第２声門閉鎖区間推定部で抽出された声門閉鎖区間を用いて再帰的にＬＰＣ分析を行ってＬＰＣ係数を求めることを特徴とする声道スペクトル抽出装置。
入力された音声信号の音声区間を検出する音声区間検出過程と、
前記音声区間に対して前記音声信号から基本周波数を推定する基本周波数分析過程と、
前記基本周波数に基づき決定した窓長で前記音声信号を切り出してＬＰＣ分析を行い、ＬＰＣ逆フィルタに前記音声信号を通すことによりＬＰＣ残差信号を求める第１ＬＰＣ分析過程と、
前記基本周波数から得られる基本周期に応じたピッチ波形を生成し、そのピッチ波形と前記ＬＰＣ残差信号とを用いてピッチマーク時刻群を抽出するピッチマーク分析過程と、
前記ピッチマーク時刻群と前記ＬＰＣ残差信号とを用いて求めた位相等化フィルタを前記音声信号に施すことにより音声信号のエネルギが声門閉鎖区間に集中した位相等化音声信号を生成する位相等化音声生成過程と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、声門閉鎖区間の長さを前記基本周期に対して所定の比率として声門閉鎖区間を推定する第１声門閉鎖区間推定過程と、
前記位相等化音声信号の一次差分を求める傾斜特性補正過程と、
前記位相等化音声信号の一次差分に対して前記声門閉鎖区間におけるＬＰＣ分析を行い、ＬＰＣ残差信号を最小にするようなＬＰＣ係数を求める声門閉鎖区間ＬＰＣ分析過程と、
よりなることを特徴とする声道スペクトル抽出方法。
請求項３記載の声道スペクトル抽出方法において、
前記ＬＰＣ係数を用いたＬＰＣ逆フィルタに前記位相等化音声信号を通すことにより声門下インピーダンスの特性を含む音源信号を求めるＬＰＣ逆フィルタ計算過程と、
前記ピッチマーク時刻群を声門閉鎖区間の始点とし、前記音源信号の絶対値が所定の閾値よりも小さい区間を声門閉鎖区間として抽出する第２声門閉鎖区間推定過程と、
前記位相等化音声信号の一次差分に対して前記第２声門閉鎖区間推定過程で抽出された声門閉鎖区間を用いて再帰的にＬＰＣ分析を行ってＬＰＣ係数を求める声門閉鎖区間ＬＰＣ分析再帰処理過程と、
を有することを特徴とする声道スペクトル抽出方法。
請求項３又は４記載の声道スペクトル抽出方法をコンピュータに実行させるためのプログラム。