JP5300000B2

JP5300000B2 - 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム

Info

Publication number: JP5300000B2
Application number: JP2008241072A
Authority: JP
Inventors: 恒雄新田
Original assignee: Toyohashi University of Technology NUC
Current assignee: Toyohashi University of Technology NUC
Priority date: 2008-09-19
Filing date: 2008-09-19
Publication date: 2013-09-25
Anticipated expiration: 2028-09-19
Also published as: JP2010072446A

Description

本発明は、調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラムに関する。より詳細には、音声発話に伴う調音運動を高い精度で識別する調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラムに関する。

音声を用いたユーザインタフェースとして音声認識技術が一般的に知られている。音声認識技術では、周波数スペクトルなどの特徴分析処理結果をもとに、音素・音節・単語などを認識単位とするパターン認識処理を行うことが一般に行われてきた。これは、人間の聴覚神経系がスペクトル分析能力を持ち、続いて大脳において高次言語処理を行うという推測に基づいている。これまで開発されている音声認識装置は、音響特徴から直接単語分類を行う。これに対して近年の脳研究から、人間は音響信号としての音声ではなく、調音運動としての音声を知覚しているとする仮説が有力視されつつある（非特許文献１参照）

標準的な音声認識技術の概要について、図１５を参照して説明する。図１５は、音声認識装置に搭載される標準的な音声認識技術の一例を示す機能ブロック図である。図１５に示すように、音声認識に必要な機能ブロックとして、入力部１０１、Ａ／Ｄ変換部１０２、特徴分析部１０３、単語分類部１０４、出力部１０５、及び記憶部１０６が設けられている。また記憶部１０６には、単語発音辞書１０７、隠れマルコフモデル（ＨＭＭ）１０８、言語モデル１０９、及びその他のデータが記憶される。この音声認識装置では、認識対象単語セットを予め定め，言語モデル１０９（単語間の連鎖確率をテーブルに表現したもの。通常，三単語連鎖の確率が利用される。これを３（ｔｒｉ）−ｇｒａｍという。）を参照しながら、音声信号中の単語列が探索される。

入力部１０１は、外部から入力される音声を受け付け、アナログ電気信号に変換するために設けられる。Ａ／Ｄ変換部１０２は、入力部１０１にて受け付けられたアナログ信号をデジタル信号に変換するために設けられる。特徴分析部１０３は、音声認識のための所定の特徴量を抽出する為に設けられる。単語分類部１０４は、特徴分析部１０３にて抽出された特徴量に基づいて、音声に含まれる単語を検索するために設けられる。記憶部１０６は、単語分類部１０４において単語を検索する場合に必要なデータを記憶しており、単語分類部１０４より参照される。出力部１０５は、単語分類部１０４において検索された結果の単語を出力するために設けられる。

図１５の機能ブロックに基づいた単語列決定の流れについて概説する。入力部１０１より入力された未知の音声は、Ａ／Ｄ変換部１０２を通して離散化され、デジタル信号に変換される。次いで特徴分析部１０３において、変換されたデジタル信号はフーリエ解析され、２４チャネル程度の帯域通過フィルタ（ＢＰＦ）に通されてノイズ成分が除去された結果、音声のスペクトルが抽出される。なお，近年の標準的音声認識では、音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに，スペクトルの対数値を離散コサイン変換（ＤＣＴ）したメルケプストラム（Mel Frequency Cepstrum Coefficient; ＭＦＣＣ）を音声のスペクトル特徴として使用することが多い。

次に単語分類部１０４において、特徴分析部１０３において得られたスペクトルに基づき、入力された音声に含まれる単語が検索される。単語分類部１０４では、はじめに、単語を構成する音素系列（これらは単語発音辞書１０７に記憶されている。）が抽出される。次いで、音素単位に用意されたＨＭＭ１０８が参照されて音響尤度が算出される。入力音声特徴Ｘの単語ｋ（もしくは音素Ｋ）に対する音響尤度Ｌｋは、式（１）で計算された後、ＨＭＭ１０８の状態遷移に沿って音響尤度Ｌｋを累積加算したものが用いられる。

ここで、μ_ｋは平均ベクトル、Σ_ｋ ^−１と｜Σ_ｋ｜は、各々共分散行列の逆行列と行列式である。なお実際には、単語発音辞書１０７から音素系列を逐次読み出す方法は効率が悪いため、認識対象の単語全てについて音素系列が予め単一の木構造グラフに縮退表現され、グラフ上で音素の音響尤度を累積しながら探索を進めるなどの手法が用いられる。

また単語分類部１０４における単語探索の途中には、累積尤度が低いパスをカットする、所謂ビームサーチが一般的に適用され、高速化が図られている。どの単語について探索を行うかを決定する場合には、言語モデル１０９が参照される。そして、検索の最初では文頭にくる単語全てが対象とされ、この探索が終了すると、言語モデル１０９の連鎖確率が参照され、次に接続可能な単語が決定される。

なお、単語分類部１０４における単語探索の途中で使用される累積尤度は、音響尤度と単語連鎖尤度（これらは確率値を対数化した値として使用される）を重み付き加算することにより求められる。重み付き加算時における重み係数は、ＨＭＭ１０８の音響尤度と、言語コーパスから求められた単語連鎖尤度（値としては、単語連鎖尤度の方が一桁程度小さい。）という二つの異種な尤度を結合することから必要となり、シミュレーションから両者のバランスを取って決定される。入力音声の終端では，最大の累積尤度を与える単語系列が、認識結果として取り出される。（非特許文献２及び非特許文献３参照）

以上の処理を経て検索された単語は、入力部１０１より受け付けられた音声に含まれる単語を認識した結果として、出力部１０５より出力される。このように、従来の標準的な音声認識装置では、ＨＭＭ１０８の音響尤度と言語モデル１０９の単語連鎖尤度とを組み合わせることにより、高い認識精度を得ることが可能となっている。

ここで、音声認識可能な単語数は、単語発音辞書に格納される言語コーパスの規模に依存する。そして、言語コーパスの規模を大きくする程、認識可能な単語数が大きくなるものの、記憶領域や処理時間の制約上、言語コーパスの規模には限界がある。このような中、所定回数繰り返して入力された単語を言語モデルとして登録し使用することによって、音声の認識精度を維持しつつ、言語モデルの容量を抑制して処理時間を短縮することが可能な音声認識装置が提案されている（例えば、特許文献１参照）。
特開２００７−２４８５２９号公報柏野牧夫、音声知覚の運動理論をめぐって、日本音響学会誌第６２巻５号，ｐｐ．３９１−３９６（平成１８年）安藤彰男、リアルタイム音声認識、電子情報通信学会（２００３年（平成１５年））ｐｐ．４〜９「１．３音声認識技術の概要」鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、音声認識システム，オーム社（２００１年（平成１３年））ｐｐ．９３〜１１０「第６章大語彙連続音声認識アルゴリズム」

しかしながら上述の音声認識装置では、未知語の認識が不可能となるという問題点がある。また、大規模な言語コーパスを使用した場合であっても、すべての単語をカバーすることは不可能であるという問題点がある。

また、未知語への対応を可能にする音声認識装置の実現には、高精度に音素を認識できる手段が必要になるが、現在の音声認識装置は、言語モデルなし、即ち、単語辞書を参照できない場合の音素認識性能は６０〜８０％に留まる（なお、人間は９８％以上の高い精度で音素を聞き取ることができるため、未知語についても効果的に聞き直すなどして効率よく処置できる。）。以上の理由が、未知語の認識が不可欠な音声対話や音声検索などのアプリケーションにおいて、音声によるインタフェースの導入が阻害される大きな要因となっているという問題点がある。

一方、音声を調音特徴で表現する方法が古くから音声学の分野で提案されている。国際音声記号（International Phonetic Alphabet：IPA）として標準的な記法も提案されている。また、調音に関わる構造的な特徴を基に音素（音韻）を分類する、弁別的特徴（有声性／非有声性／連続性／半母音性／破裂性／摩擦性／破擦性／舌端性／鼻音性／高舌性／低舌性／（舌の盛上る位置が）前方性／後方性／・・・；Distinctive Feature：DF）も古くから提案されている。また、音声から弁別的特徴などの調音特徴を直接抽出する方法も，ニューラルネットワークを利用する手法など多く提案されている（非特許文献４参照）。

日本語の音素に関する弁別的音素特徴（Distinctive Phonetic Feature; DPF）を図１６に示す。ここで弁別的音素特徴とは、調音特徴の表現方法の一つである。図は、縦欄が弁別的特徴を示しており、横欄が個々の音素を示している。そして、この表から一つの音素を生成する際に必要な発声器官の動作を知ることができる。図１６のうちｎｉｌ（高／低）およびｎｉｌ（前／後）は、各々、高舌性／低舌性のどちらにも属さない音素、及び（舌の盛上る位置が）前方性／後方性のどちらにも属さない音素に対して、弁別特徴を割り当てるため，新たに追加した特徴であることを示す。このように音素間のバランスをとることで，音声認識性能が向上することが知られている。

しかしながら、抽出した弁別的音素特徴から音声認識を行った場合、音声スペクトルもしくは音声ケプストラムを特徴とする従来の特徴と比べて顕著な性能が得られていないのが実情である（非特許文献５参照）。

本発明は上記の問題点を解決するためになされたものであり、未知語への対応が可能であり、音声対話や音声検索からの要求に耐えうる高い音素識別精度を有する調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラムを提供することを目的とする。
板橋秀一編，音声工学，森北出版（１９７３年（昭和４８年））ｐｐ．６〜ｐｐ．１０２．１．１．音声・音素・音節（表２．２日本語の弁別素性）福田隆，新田恒雄，"Orthogonalized Distinctive Phonetic Feature Extraction for Noise-robust Automatic Speech Recognition", 電子情報通信学会英文論文誌，Vol.E87-D, No.5，pp.1110-1118，(2004-5)．

上述の問題点を解決するために、請求項１に係る発明の調音特徴抽出装置では、音声を取得する音声取得手段と、前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、前記調音特徴抽出手段にて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出手段と、前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正手段と、前記調音運動修正手段にて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御手段とを備え、前記調音運動修正手段は、前記成分抽出手段にて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする。

また、調音特徴抽出装置に係る前記発明においては、その構成に加えて、前記変位成分、前記速度成分、及び前記加速度成分のうち少なくともいずれかに基づき、前記変位成分を時間軸に沿って観測した場合において、その推移が凹パターンとなるか凸パターンとなるかを認識するパターン認識手段を備え、前記調音運動修正手段は、前記パターン認識手段にて認識されたパターンに基づき、前記調音運動を前記修正調音運動に修正することを特徴とする。

また、調音特徴抽出装置に係る前記各発明においては、その構成に加えて、前記調音運動修正手段における抑制強調関数は、ニューラルネットワークに前記変位成分、前記速度成分、及び前記加速度成分を通すことによって、シグモイド関数を利用して算出されるものであることを特徴とする。

また、請求項２に係る発明の調音特徴抽出方法では、音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出ステップと、前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正ステップと、前記調音運動修正ステップにて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御ステップとを備え、前記調音運動修正ステップは、前記成分抽出ステップにて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする。

また、調音特徴抽出方法に係る前記発明においては、その発明の構成に加えて、前記変位成分、前記速度成分、及び前記加速度成分のうち少なくともいずれかに基づき、前記変位成分を時間軸に沿って観測した場合において、その推移が凹パターンとなるか凸パターンとなるかを認識するパターン認識ステップを備え、前記調音運動修正ステップは、前記パターン認識ステップにて認識されたパターンに基づき、前記調音運動を前記修正調音運動に修正することを特徴とする。

また、調音特徴抽出方法に係る前記各発明においては、その構成に加えて、前記調音運動修正ステップにおける抑制強調関数は、ニューラルネットワークに前記変位成分、前記速度成分、及び前記加速度成分を通すことによって、シグモイド関数を利用して算出されるものであることを特徴とする。

また、請求項３に係る発明の調音特徴抽出プログラムでは、請求項１に記載の調音特徴抽出装置の各処理手段としてコンピュータを駆動させる。

請求項１に係る発明の調音特徴抽出装置は、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。これにより、音声スペクトルを使用して音声を認識する従来の音声認識装置と比較して、精度の高い音声認識を行うことが可能となる。

従来の音声のスペクトルを特徴とした音声認識では、話者や発話時の文脈、周囲騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するＨＭＭの設計に多くの音声データを必要としていた。また、ＨＭＭの混合数も１０以上が必要とされ，高性能な音声認識装置とするためにはコストが嵩んでしまっていた。これに対し本発明の調音特徴抽出装置では、音声中の調音特徴を高精度に抽出できるため、ＨＭＭの混合数は数個程度で済む。音声スペクトルを特徴として利用する従来法の場合，その中に言語情報以外の様々な情報，例えば外部騒音や発話時の調音結合（前後の音素の影響）が混入する結果，分類目的の音素や単語の変形が爆発的に増えることになる。近年のＨＭＭに基づく音声認識装置では，音声スペクトル（実際に多用されるのは，音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに，スペクトルの対数値を離散コサイン変換(DCT)した「メルケプストラム (Mel Frequency Cepstrum Coefficient; 通称MFCC)」が使用される）を直接，入力特徴として使用した場合，個々のベクトル要素の変動を複数の正規分布から表現する。複数の正規分布は混合分布と呼ばれ，この数は前述した様々な変形に対処するため，近年では６０〜７０の分布を使用するものが現れている。このように，厖大なメモリと演算が必要となった原因は，音声中に隠された変数を特定せずに，音素や単語を分類しようとした結果といえる。本発明は，隠れ変数を調音動作と特定した結果，音素分類器や単語分類器の規模（ここでは混合数）を小規模に押さえることが可能になる。

また、調音特徴の高精度抽出は、音素認識性能を飛躍的に向上させ、未知語の問題に対して人間が行っている対応と同様の対応を行うことが可能となる。従って、音素系列を利用した確認発話文の合成により，対話をスムースに進めることが可能になる。

さらに，調音特徴は多くの場合，テキスト（かな系列に変換した読み）と一対一に対応するため、音声ドキュメントとテキストドキュメントに対する検索を，音声およびテキスト（キーボード）の双方から相互に検索することが可能となる。

また、上記調音特徴抽出装置における調音運動は、成分抽出手段にて抽出された加速度成分に基づいて、抑制強調関数を算出するとともに、その抑制強調関数を調音特徴系列に乗算することにより、修正調音運動に修正されるので、話者や発話時の文脈、周囲の騒音等に依存せず、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。

また、調音特徴抽出装置に係る発明では、前記の効果に加えて、修正調音運動は、変位成分を時間軸に沿って観察した場合における推移のパターン（凹パターン、凸パターン）に基づいて修正されるので、調音結合により音素が単音の状態と異なる状態となった場合であっても、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。

また、調音特徴抽出装置に係る発明では、前記の効果に加えて、ニューラルネットワークを使用することにより、高速に修正調音運動を得ることができる。

また、請求項２に係る発明の調音特徴抽出方法は、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。これにより、音声スペクトルを使用して音声を認識する従来の音声認識装置と比較して、精度の高い音声認識を行うことが可能となる。

従来の音声のスペクトルを特徴とした音声認識では、話者や発話時の文脈、周囲騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用する隠れマルコフモデル（ＨＭＭ）の設計に多くの音声データを必要としていた。また、ＨＭＭの混合数も１０以上が必要とされ，高性能な音声認識装置とするためにはコストが嵩んでしまっていた。これに対し本発明の調音特徴抽出装置では、音声中の調音特徴を高精度に抽出できるため、ＨＭＭの混合数は数個程度で済む。音声スペクトルを特徴として利用する従来法の場合，その中に言語情報以外の様々な情報，例えば外部騒音や発話時の調音結合（前後の音素の影響）が混入する結果，分類目的の音素や単語の変形が爆発的に増えることになる。近年のＨＭＭに基づく音声認識装置では，音声スペクトル（実際に多用されるのは，音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに，スペクトルの対数値を離散コサイン変換(DCT)した「メルケプストラム (Mel Frequency Cepstrum Coefficient; 通称MFCC)」が使用される）を直接，入力特徴として使用した場合，個々のベクトル要素の変動を複数の正規分布から表現する。複数の正規分布は混合分布と呼ばれ，この数は前述した様々な変形に対処するため，近年では６０〜７０の分布を使用するものが現れている。このように，厖大なメモリと演算が必要となった原因は，音声中に隠された変数を特定せずに，音素や単語を分類しようとした結果といえる。本発明は，隠れ変数を調音動作と特定した結果，音素分類器や単語分類器の規模（ここでは混合数）を小規模に押さえることが可能になる。

また、上記調音特徴抽出方法における調音運動は、成分抽出手段にて抽出された加速度成分に基づいて、抑制強調関数を算出するとともに、その抑制強調関数を調音特徴系列に乗算することにより、修正調音運動に修正されるので、話者や発話時の文脈、周囲の騒音等に依存せず、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。

また、調音特徴抽出方法に係る発明では、前記の効果に加えて、修正調音運動は、変位成分を時間軸に沿って観察した場合における推移のパターン（凹パターン、凸パターン）に基づいて修正されるので、調音結合により音素が単音の状態と異なる状態となった場合であっても、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。

また、調音特徴抽出方法に係る発明では、前記の効果に加えて、ニューラルネットワークを使用することにより、高速に修正調音運動を得ることができる。

また、請求項３に係る発明の調音特徴抽出プログラムは、請求項１に記載の調音特徴抽出装置の各処理手段としてコンピュータを駆動させることが可能となる。

以下、本発明の調音特徴抽出装置、調音特徴抽出方法の実施の形態について、図面を参照して説明する。なお、これらの図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。

はじめに、図１を参照し、調音特徴抽出装置１の電気的構成について説明する。図１は、調音特徴抽出装置１の電気的構成を示す模式図である。図１に示すように、調音特徴抽出装置１は、中央演算処理装置１１、入力装置１２、出力装置１３、記憶装置１４、及び、外部記憶装置１５から構成されている。

中央演算処理装置１１は、数値演算・制御などの処理を行うために設けられており、本実施の形態において説明する処理手順に従って演算・処理を行う。例えばＣＰＵ等が使用可能である。入力装置１２は、マイクロホンやキーボード等で構成され、利用者が発声した音声やキー入力された文字列が入力される。出力装置１３は、ディスプレーやスピーカ等で構成され、特徴抽出結果，あるいは特徴抽出結果を処理することによって得られた情報が出力される。記憶装置１４は、中央演算処理装置１１によって実行される処理手順（調音特徴抽出プログラム）や，その処理に必要な一時データが格納される。例えば、ＲＯＭ（リード・オンリー・メモリ）やＲＡＭ（ランダム・アクセス・メモリ）が使用可能である。また外部記憶装置１５は、調音特徴抽出処理に使用される特徴分析用係数セット、調音特徴抽出処理に使用されるニューラルネットの重み係数セット、調音運動修正処理に使用される係数セット、音声認識処理に必要なモデル、入力された音声のデータ、解析結果データ等を記憶する為に設けられている。例えばハードディスクドライブ（ＨＤＤ）が使用可能である。そしてこれらは、互いにデータの送受信が可能なように、バス２２を介して電気的に接続されている。

なお，本発明の調音特徴抽出装置１のハードウエア構成は，図1に示す構成に限定されるものではない。従って、インターネット等の通信ネットワークと接続する通信Ｉ／Ｆを備えていても構わない。

また、本実施の形態では、調音特徴抽出装置１および調音特徴抽出プログラムは他のシステムから独立した構成を有しているが、本発明はこの構成に限定されるものではない。従って、他の装置の一部として組込まれた構成や，他のプログラムの一部として組込まれた構成とすることも可能である。またその場合における入力は，上述の他の装置やプログラムを介して間接的に行われることになる。

次いで、外部記憶装置１５に記憶されている記憶データについて説明する。図１に示すように、外部記憶装置１５には、単語発音辞書が記憶されている単語発音辞書記憶領域１６、隠れマルコフモデルが記憶されている隠れマルコフモデル記憶領域１７、言語モデルが記憶されている言語モデル記憶領域１８、各処理時に使用される係数が記憶されている係数記憶領域１９、入力された音声が記憶される入力音声記憶領域２０、処理後のデータが記憶される処理結果記憶領域２１、及びその他の領域が設けられている。

単語発音辞書記憶領域１６には、単語を構成する音素列が記憶されている。隠れマルコフモデル記憶領域１７には、中央演算処理装置１１において音声認識が行われる場合に参照される隠れマルコフモデルが記憶されている。言語モデル記憶領域１８には、認識可能な単語モデル（言語コーパス）が記憶されている。係数記憶領域１９には、調音特徴抽出処理に使用される特徴分析用係数セット、調音特徴抽出処理に使用されるニューラルネットの重み係数セット、調音運動修正処理に使用される係数セット等が記憶される。入力音声記憶領域２０には、入力装置１２を介して入力された音声データが記憶される。処理結果記憶領域２１には、中央演算処理装置１１において実行される各種処理の結果得られたデータが記憶される。なおこれらのデータの詳細は後述する。

次に、本発明の調音特徴抽出装置１にて実行される音声認識処理について、図２〜８を参照して説明する。図２は、調音特徴抽出装置１にて実行される調音特徴抽出処理を示す機能ブロック図である。図３は、特徴分析部２１０の機能詳細を示すブロック図である。図４は、調音特徴抽出部２２０の機能詳細を示すブロック図である。図５は、局所特徴抽出部２２１より得られる特徴分析部時間方向の局所特徴の一例である。図６は、局所特徴抽出部２２１より得られる周波数方向の局所特徴の一例である。図７は、弁別的音素特徴抽出部２２２にて得られる調音特徴の一例である。図８は、調音運動修正部２３０の機能詳細を示すブロック図である。図９は、調音運動修正処理部２３２における処理を示したフローチャートである。

図２に示すように、本発明の調音特徴抽出装置１において実行される調音抽出処理に必要な機能ブロックとして、入力部２０１、Ａ／Ｄ変換部２０２、特徴分析部２１０、調音特徴抽出部２２０、調音運動修正部２３０、単語分類部２０４、出力部２０５、記憶部２０６及び記憶部２０７が設けられている。

記憶部２０７には、各種係数セット２０７１が記憶されている。そして、特徴分析部２１０、調音特徴抽出部２２０、及び調音運動修正部２３０より、記憶されている係数セットが参照可能な状態となっている。記憶部２０６には、発音単語辞書２０６１、隠れマルコフモデル２０６２、言語モデル２０６３、及びその他のデータが記憶されている。そして、単語分類部２０４より記憶されているデータが参照可能な状態となっている。

なお、図２における入力部２０１、Ａ／Ｄ変換部２０２、単語分類部２０４、及び出力部２０５については、図１５にて示した従来の音声認識処理装置における該当部分の機能と同一であるため、説明を省略し又は簡略する。

入力部２０１は、外部から入力される音声を受け付け、アナログ電気信号に変換するために設けられる。Ａ／Ｄ変換部２０２は、入力部２０１にて受け付けられたアナログ信号をデジタル信号に変換するために設けられる。特徴分析部２１０は、音声認識のために必要となる所定の特徴量を抽出するために設けられる（図３参照、詳細後述。）。調音特徴抽出部２２０は、特徴分析部２１０において抽出された特徴量の時系列データから、調音特徴の時系列データ（以下、「調音特徴系列」という。）を抽出するために設けられる（図４参照、詳細後述）。調音運動修正部２３０は、調音特徴抽出部２２０にて抽出された調音特徴系列を運動軌跡に変換し、さらに、変換された運動軌跡を所定の規則に基づいて修正するために設けられる（図８参照、詳細後述。）。

単語分類部２０４は、調音運動修正部２３０より得られる修正された調音運動（以下「修正調音運動」という。）に基づいて、音声に含まれる単語を検索するために設けられる。記憶部２０７は、特徴分析部２１０、調音特徴抽出部２２０、及び、調音運動修正部２３０において処理が実行される場合に参照される。記憶部２０６は、単語分類部２０４において単語を検索する場合に参照される。出力部２０５は、単語分類部２０４において検索された結果の単語を出力するために設けられている。

図２の機能ブロックに基づいた音声認識処理の流れについて説明する。入力部２０１より入力された未知の音声は、Ａ／Ｄ変換部２０２を通して離散化され、デジタル信号に変換される。そして変換されたデジタル信号は、特徴分析部２１０に出力される。

特徴分析部２１０の機能詳細について、図３を参照して説明する。図３に示すように、特徴分析部２１０は、フーリエ変換部２１１とフィルタ部２１２とから構成されている。特徴分析部２１０では、Ａ／Ｄ変換部２０２にて変換されたデジタル信号は、はじめに、フーリエ変換部２１１においてフーリエ分析（窓幅２４〜３２ｍｓｅｃのハミング窓使用）される。次いでフィルタ部２１２において、２４チャネル程度の帯域通過フィルタに通されてノイズ成分が除去される。これにより、５〜１０ｍｓｅｃ間隔の音声スペクトル系列及び音声パワー系列が抽出される。そして得られた音声スペクトル系列及び音声パワー系列は、調音特徴抽出部２２０に対して出力される。

調音特徴抽出部２２０の機能詳細について、図４を参照して説明する。調音特徴抽出部２２０では、調音に関わる運動特徴が抽出される。図４に示すように、調音特徴抽出部２２０は、局所特徴抽出部２２１と弁別的音素特徴抽出部２２２とから構成されている。

特徴分析部２１０より得られる音声スペクトル系列は、はじめに局所特徴抽出部２２１に入力される。局所特徴抽出部２２１では、時間軸微分特徴抽出部２２３及び周波数軸微分特徴抽出部２２４により時間軸方向及び周波数軸方向の微分特徴が抽出される。またこれとは別に、音声パワー系列の時間軸微分特徴が計算される。これらの微分特徴（以下「局所特徴」という。）の抽出にあたっては、ノイズ変動などの影響を抑えるため線形回帰演算が用いられる。これらの微分特徴抽出の際には、ノイズ変動などの影響を抑制するため、（２）式及び（３）式にて与えられる線形回帰演算が用いられる。

ここで、ｘ（ｉ，ｔ）は音声スペクトル系列もしくは音声パワー系列を示す。ｉは周波数チャンネルを示す（なお音声パワー系列の場合は、ｉ＝１の関係が成立する。）。ｔは時刻を示す。Δ_ｔｘ（ｉ，ｔ）、Δ_ｆｘ（ｉ，ｔ）は、各々、ｘ（ｉ，ｔ）の時間方向の一次微分量と周波数方向の一次微分量であることを示す。

式中のｋは、線形回帰演算を行う位置を示す。δはその片側の幅である。具体的には、局所特徴抽出の場合、δ＝１で線形回帰演算は三点、すなわち時間方向では着目する時刻を中心としてｔ＝−１，０，＋１の三点が，また周波数方向では着目するチャンネルを中心としてｉ＝−１，０，＋１の三点から線形回帰係数が各々（２）式と（３）式とを用いて求められる。局所特徴抽出部２２１にて算出された時間方向の局所特徴（図５参照）、及び周波数方向の局所特徴（図６参照）の一例について、図５及び図６に示す。図５及び図６は、「人工衛星」（ｊｉｎｋｏｅｓｅ）という発話に対して求められた局所特徴を示している。そして、抽出された局所特徴は、弁別的音素特徴抽出部２２２に出力される。

なお、弁別的音素特徴抽出部２２２の入力データとしては，上述した局所特徴以外にも、性能は若干劣るが、音声スペクトル、あるいは音声スペクトルを直交化したケプストラム（実際には周波数軸をメル尺度化して求めるメルケプストラムが用いられる）を使用してもよい。

次いで図４に示すように、弁別的音素特徴抽出部２２２では、局所特徴抽出部２２１にて抽出された局所特徴に基づき、調音特徴系列が抽出される。弁別的音素特徴抽出部２２２は、二段のニューラルネットワーク（第一多層ニューラルネット２２５、第二多層ニューラルネット２２６）から構成される。

弁別的音素特徴抽出部２２２を構成するニューラルネットワークについて詳説する。弁別的音素特徴抽出部２２２を構成するニューラルネットワークは、図４に示すように、初段の第一多層ニューラルネット２２５と、次段の第二多層ニューラルネット２２６との二段から構成される。第一多層ニューラルネット２２５では、音声スペクトル系列及び音声パワー系列より求めた局所特徴間の相関から、調音特徴系列を抽出する。また、第二多層ニューラルネット２２６では、調音特徴系列が持つ相互依存関係から意味のある部分空間を抽出し、精度の高い調音特徴系列を求める。弁別的音素特徴抽出部２２２にて算出された調音特徴抽出結果の一例について、図７に示す。図７は、「人工衛星」（ｊｉｎｋｏｅｓｅ）という発話に対して求められた調音特徴抽出結果を示している。

なお、調音特徴系列を求めるニューラルネットワークの構成は、図４にて述べた二段構成のほか、性能を犠牲にすれば一段構成でも実現可能である（非特許文献５参照）。個々のニューラルネットワークは階層構造を持っており、入力層と出力層を除く隠れ層を１から２層持つ（多層ニューラルネットワーク）。また、出力層や隠れ層から入力層にフィードバックする構造を持つ、所謂リカレントニューラルネットワークが利用されることもある。調音特徴抽出に対する性能という点で比較すると、其々のニューラルネットワークにおいて算出された結果にそれほど大きな差はない。これらのニューラルネットワークは，非特許文献６に示される重み係数の学習を通して調音特徴抽出器として機能する（非特許文献６参照）。
坂和正敏，田中雅博，ニューロコンピューティング入門，森北出版（１９９７年平成９年）多層ニューラルネットワークについては，ｐｐ．１３- ４８２章「階層型ネットワークと学習メカニズム」に，誤差逆伝播法による重み係数の計算方法が記述されている。また，リカレントニューラルネットワークについては，ｐｐ．８３-９６４章「リカレントニューラルネットワーク」に同じく重み係数の計算方法が記載されている。

弁別的音素特徴抽出部２２２のニューラルネットワークでの学習は、入力層に音声の局所特徴データを加え，出力層には，音声の調音特徴を教師信号として与えることで行われる。

一方，調音特徴系列自体は脳から調音器官へ指令される信号であり，音声から求められた調音特徴系列は，指令を受けて調音動作した結果，すなわち発話器官の筋動作によるなまけを伴っていると考えられる。そこで，発話のアナログ的筋運動の結果を理想的な調音の系列（２値の離散系列）に近づける処理として，本発明では調音運動修正部２３０を導入している。

調音運動修正部２３０について、図８を参照して説明する。図８に示すように、調音運動修正部２３０は、速度／加速度成分抽出部２３１と調音運動修正処理部２３２とから構成されている。速度／加速度成分抽出部２３１では、調音特徴系列（弁別的音素特徴系列など）から，速度及び加速度が求められる。また調音運動修正処理部２３２では，速度／加速度成分抽出部２３１にて求められた速度及び加速度の値に基づき、調音特徴系列により表わされる調音の運動（「調音運動」という。）が修正される。調音運動とは、調音運動変位（変位成分、調音特徴の振幅値），調音運動速度（速度成分、調音特徴の時間微分値），および調音運動加速度（加速度成分、調音運動速度の時間微分値，調音運動変位の２階微分値）の三つから規定される。

はじめに、速度／加速度成分抽出部２３１における処理の詳細について、図８を参照して説明する。速度／加速度成分抽出部２３１において調音特徴系列の変位成分より速度成分と加速度成分を求める場合には，はじめに、（２）式におけるｘ（ｉ，ｔ）を調音特徴系列ＤＰＦ（ｍ，ｔ）と置き換える。これにより，速度成分系列ＶＤＰＦ（ｍ，ｔ）が求められる。なお式中、「ｍ」（＝１，２、・・・Ｍ）は，破裂性，高舌性などを示す調音特徴番号を示しており、「ｔ」（＝１，２、・・・Ｔ）は時刻を示している。

次に、上述により求めた速度成分系列ＶＤＰＦ（ｍ，ｔ）を，同じく（２）式のｘ（ｉ，ｔ）に代入する。これにより，加速度成分系列ＡＤＰＦ（ｍ，ｔ）が求められる。図８のうち、速度／加速度成分抽出部２３１のＶ／ＡＤＰＦ（１）・・・（１５）２３３は，この算出アルゴリズムを示している。

次に、調音運動修正処理部２３２における処理の詳細について、図８を参照して説明する。調音運動修正処理部２３２では、速度／加速度成分抽出部２３１にて得られた速度成分及び加速度成分（ＶＤＰＦ（ｍ，ｔ）、ＡＤＰＦ（ｍ，ｔ））を用い、調音特徴ｍ毎に調音運動を修正する。図８のうち、調音運動修正処理部２３２のＭＤＰＦ（１）・・・（１５）２３４は，この修正アルゴリズムを示している。

調音運動修正部２３０における具体的な処理内容について、図９に示すフローチャートを参照して説明する。なお本処理では，「調音運動は調音動作(唇が閉じる／前舌が上がる／・・・)を実現するべく行われ，その結果として，上に凸の運動が観測される。一方，調音が終了すると下に凸の運動が観測される」という推定に基づいている。

図９に示すように、調音運動修正部２３０では、はじめに、速度／加速度成分抽出部２３１において調音特徴系列ＤＰＦ（ｍ，ｔ）から加速度成分ＡＤＰＦ（ｍ，ｔ）が算出される（Ｓ１１）。次いで、算出された加速度成分ＡＤＰＦ（ｍ，ｔ）の値が正であるか、負であるか、又は零であるかが判断される（Ｓ１３、Ｓ１５）。そして、判断結果に応じ、調音運動の修正が行われる（Ｓ１７、Ｓ１９、Ｓ２１）。加速度成分ＡＤＰＦ（ｍ，ｔ）が負である場合は、調音特徴系列の運動軌跡はピークを示し、極大値（この時点を調音点と呼ぶ）に接近した後、離れていく途中であることを意味する。また正である場合は、調音特徴系列の運動軌跡は下降の状態、すなわち調音動作が終了したか、次の調音動作に向かう準備中であることし、調音動作が終了して調音点から離れていく動作を意味する。

図９に示すように、ＡＤＰＦ（ｍ，ｔ）の値が正である場合（Ｓ１３：ＹＥＳ）、調音動作を抑制する為に、（４）式に加速度成分ＡＤＰＦ（ｍ，ｔ）が代入される。その結果、抑制強調関数ｆ（ｍ，ｔ）が求められる（Ｓ１７）。（４）式は、ニューラルネットワークで利用されることの多いシグモイド関数を用いて、抑制を実現したものである。そしてＳ２３の処理に移行する。

一方、ＡＤＰＦ（ｍ，ｔ）の値が零である場合（Ｓ１３：ＮＯ、Ｓ１５：ＹＥＳ）、加速度成分ＡＤＰＦ（ｍ，ｔ）に修正は行われない。その結果、抑制強調関数ｆ（ｍ，ｔ）には１が代入される（（５）式参照）（Ｓ１９）。そしてＳ２３の処理に移行する。

一方、ＡＤＰＦ（ｍ，ｔ）の値が負である場合（Ｓ１５：ＮＯ）、調音動作を強調する為に、（６）式に加速度成分ＡＤＰＦ（ｍ，ｔ）が代入される。その結果、抑制強調関数ｆ（ｍ，ｔ）が求められる（Ｓ２１）。（６）式は、（４）式と同様、ニューラルネットワークで利用されることの多いシグモイド関数を用いて、強調を実現したものである。そしてＳ２３の処理に移行する。

次いで、Ｓ２３において、調音特徴系列ＤＰＦ（ｍ，ｔ）に算出された抑制強調関数ｆ（ｍ，ｔ）が乗算される（Ｓ２３）。これにより、調音運動が修正される。そして処理が終了される。

このように、図９に示すフローチャートでは、シグモイド関数を利用して、抑制強調関数ｆ（ｍ，ｔ）を算出する。そして，算出された値を元の調音特徴系列ＤＰＦ（ｍ，ｔ）に乗算することで，調音運動を修正し、修正調音運動ＤＰＦ'を得ている。

なお、図８及び図９を参照して説明した調音運動修正部２３０の調音運動修正処理は，本実施の形態に限定されず、他の方法でも実現可能である。図１０及び図１１を参照し、異なる調音運動修正部の変形例について説明する。図１０は、調音運動修正部３３０の機能詳細を示すブロック図である。図１１は、調音運動修正部４３０の機能詳細を示すブロック図である。

はじめに図１０を参照して、ニューラルネットワークを使用した調音運動修正部３３０の構成について説明する。図１０に示す調音運動修正部３３０では、調音運動修正処理部３３２が調音特徴毎に設けられたニューラルネットワークＮＤＰＦ（１）・・・（１５）３３４にて構成されている。調音運動修正部３３０では、はじめに、速度／加速度成分抽出部３３１において、調音特徴系列ＤＰＦ（ｍ，ｔ）より速度成分系列ＶＤＰＦ（ｍ，ｔ）、及び、加速度成分系列ＡＤＰＦ（ｍ，ｔ）が算出される（図１０のうち、速度／加速度成分抽出部３３１のＶ／ＡＤＰＦ（１）・・・（１５）３３３は，この算出アルゴリズムを示している。）。

そして、調音特徴系列ＤＰＦ（ｍ，ｔ）と、算出された速度成分系列ＶＤＰＦ（ｍ，ｔ）及び加速度成分系列ＡＤＰＦ（ｍ，ｔ）とが、調音運動修正処理部３３２のニューラルネットワークＮＤＰＦ（１）・・・（１５）３３４に入力される。そしてＮＤＰＦ（１）・・・（１５）３３４において調音運動が修正され、修正調音運動が出力される。

次に、図１１を参照して、統合ニューラルネットワークを使用した調音運動修正部４３０の構成について説明する。図１１に示す調音運動修正部４３０では、調音運動修正処理部４３２が、図１０にて示した調音特徴毎に独立したニューラルネットワークの代わりに、調音特徴間の制約を入れた，統合型のニューラルネットワークＮＤＰＦ４３４として構成されている。速度／加速度成分抽出部４３１における処理、及び、調音運動修正処理部４３２に対して出力されるデータについては、図１０の場合と同様であるので、説明を省略する。

図４に示すように、調音運動修正部２３０（調音運動修正部３３０、及び調音運動修正部３３０も同様）において修正された修正調音運動は、単語分類部２０４において単語発音辞書２０６１、ＨＭＭ２０６２、及び言語モデル２０６３が参照され、発話された単語が特定される。そして、特定された単語が出力部２０５より出力される。単語分類における計算過程は、背景技術に述べた従来方式と同じである。すなわち（１）式中の入力音声特徴ｘ（ｉ，ｔ）（従来方式では音声スペクトルやMFCC）に，調音特徴（ＤＰＦ（ｍ，ｔ））を代入することで，単語ｋ（もしくは音素ｋ）の音響尤度が得られる。

以上説明したように、本発明の調音特徴抽出装置では、調音特徴系列を抽出する処理（調音特徴抽出部２２０）と，その結果得られる調音特徴系列に対して，本来の調音動作に近づけ修正する処理（調音運動修正部２３０）とが設けられている。これにより、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となるので、音声スペクトルを使用して音声を認識する従来の音声認識装置と比較して、精度の高い音声認識を行うことが可能となる。

従来の音声のスペクトルを特徴とした音声認識では、話者や発話時の文脈、周囲騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用する隠れマルコフモデル（ＨＭＭ）の設計に多くの音声データを必要としていた。また、ＨＭＭの混合数も１０以上が必要とされ，高性能な音声認識装置とするためにはコストが嵩んでしまっていた。これに対し本発明の調音特徴抽出装置では、音声中の調音特徴を高精度に抽出できるため、ＨＭＭの混合数は数個程度で済む。また、調音特徴の高精度抽出は、音素認識性能を飛躍的に向上させ、未知語の問題に対して人間が行っている対応と同様の対応を行うことが可能となる。従って、音素系列を利用した確認発話文の合成により，対話をスムースに進めることが可能になる。

また，調音特徴は多くの場合，テキスト（かな系列に変換した読み）と一対一に対応するため、音声ドキュメントとテキストドキュメントに対する検索を，音声およびテキスト（キーボード）の双方から相互に検索することが可能となる。

また、調音運動は、変位成分、速度成分、及び加速度成分に基づいて修正調音運動に修正されるので、話者や発話時の文脈、周囲の騒音等に依存せず、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。

また、修正調音運動は、運動軌跡のパターン（凹パターン、凸パターン）に基づいて修正されるので、調音結合により音素が単音の状態と異なる状態となった場合であっても、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。

また、調音運動を修正する為の処理はニューラルネットワークを介して実行されるので、高速に修正調音運動を得ることができる。

なお、図１の入力装置１２が、本発明の「音声取得手段」に相当し、図２の調音特徴抽出部２２０の処理を行う中央演算処理装置１１が、本発明の「調音特徴抽出手段」に相当し、調音運動修正部２３０の処理を行う中央演算処理装置１１が、本発明の「調音運動修正手段」に相当し、図１における外部記憶装置１５が、本発明の「記憶手段」に相当し、記憶手段に修正調音運動のデータを記憶する処理を行う中央演算処理装置１１が、本発明の「記憶制御手段」に相当する。

また、図８の速度／加速度成分抽出部２３１において速度成分及び加速度成分を抽出する処理を行う中央演算処理装置１１が、本発明の「成分抽出手段」に相当し、図９のＳ１３、Ｓ１５の処理を行う中央演算処理装置１１が、本発明の「パターン認識手段」に相当する。
＜実験例＞

以下、上述の調音特徴抽出装置を使用した実験例について、図面を参照して説明する。はじめに、図１２及び図１３を参照し、調音運動修正前後における発話音声の調音特徴の抽出例について説明する。図１２は、調音運動修正前における調音特徴の抽出例を示している。図１３は、調音運動修正後における調音特徴の抽出例を示す。なお本実施例では、調音特徴として弁別的音素特徴を使用しているが、他の調音特徴表示（例えば国際音声記号（ＩＰＡ）の表にある調音特徴を利用するなど）を用いても効果が得られるものと推察される。

図１２を参照し、調音運動修正前における調音特徴の抽出例について説明する。図１２は、発話「人工衛星」に対する調音特徴の抽出例を示す。なおこの例では，弁別的音素特徴抽出部２２２（図４参照）におけるニューラルネットワーク（第一多層ニューラルネット２２５、第二多層ニューラルネット２２６）の入力として，時刻ｔの局所特徴と共に，ｔ−３フレーム目の局所特徴およびｔ＋３フレーム目の局所特徴の三フレームにまたがるデータを加えている。また併せて、弁別的音素特徴抽出部２２２（図４参照）におけるニューラルネットの出力も、時刻（ｔ−３，ｔ，ｔ＋３）に対応する調音特徴系列（ＤＰＦ（ｍ，ｔ−３），ＤＰＦ（ｍ，ｔ），ＤＰＦ（ｍ，ｔ＋３））（（ｍ：調音特徴の番号、ｍ＝１，２，・・・，１５））と，前後の文脈を含む調音特徴系列が得られる形式を採用した。図１２ではそれらのうち，中央の調音特徴系列ＤＰＦ（ｍ，ｔ）についての調音特徴の推移を示したものである。

図１２には、縦欄として弁別的特徴が示され、横欄として個々の音素が示されている。また、最上欄「silB」（silence of beginning part）と示された部分は、無音の区間であることを示しており、「ｊｉｎｋｏｅｓｅ」と示された部分は、それぞれの音声の発声区間であることを示している。また、図１２中点線は、理想的な正しい調音特徴を示しており、実線が実際に算出された調音特徴（弁別的音素特徴抽出部２２２（図４参照）より抽出された状態のもの）を示している。

図１２に示すように、実線（算出データ）と点線（理想データ）とを比較すると、無音の区間、及び発声区間において、点線と実線との間には大きな隔たりがあり、また実線の推移に大きな変動が確認される。

次に、図１３を参照し、調音運動修正後における調音特徴の抽出例について説明する。図１３は、図１２と同様、発話「人工衛星」に対する弁別液音素特徴の抽出例を示す。なおこの例では、調音運動修正部として、図１０にて説明した、調音特徴毎に学習したニューラルネットワークを使用した調音運動修正部３３０が使用されている。また、ニューラルネットワークＮＤＰＦ（１）・・・（１５）３３４への入力として，７フレームのＤＰＦ（ｍ，ｔ）、ＶＤＰＦ（ｍ，ｔ），及びＡＤＰＦ（ｍ，ｔ）が使用されている。ここで一般的に使用するフレーム数が小さいと効果が少なく，大きすぎると平滑され過ぎの傾向を示すため，調音特徴に依って，３〜９の間の値を用いることが望ましい（破裂音などでは短く，一方，母音などでは長く設定することが望ましい。）。

図１３に示すように、実線（算出データ）と点線（理想データ）とを比較すると、双方は値がよく一致し、算出結果が実際の発話に非常に近い値となることがわかった。また、図１２の結果と比較して実線の推移が平滑となっていることがわかった。さらに、無音の区間にて発生していたノイズも抑制されていることがわかった。また，ＤＰＦ（ｍ，ｔ）が実際の発話に沿った値を示していることが確認された。これにより，調音運動修正により調音特徴系列が大きく改善することがわかった。

次に、調音特徴抽出率を算出した結果について、図１４を参照して説明する。図１４は、調音特徴正解率の算出結果を示したグラブである。調音特徴正解率は、日本語の新聞読み上げコーパス（約１００名の男声データ）を用い、調音運動修正処理の有無、及び調音運動修正処理の条件を変化させた場合に得られる調音特徴に基づいて音声認識が行われた場合の正解率を算出することにより得た。

調音運動修正処理の条件を変化させた場合の評価を行う場合には、方式１：簡易修正処理、方式２：調音特徴毎のニューラルネット処理（図８参照）、方式３：統合ニューラルネットワーク処理（図１１参照）の合計３種類の条件にて調音運動修正処理を行った。そして、得られる調音特徴に基づいて音声認識が行われた場合の正解率を算出することにより行った。

図１４に示すように、調音運動の修正を施さない場合（図中「修正無」），抽出性能は９０％に満たない程度となる。一方、調音運動の修正処理を施した場合（図中「方式１」「方式２」「方式３」）、修正を施さない場合と比較して、正解率が大きく向上することがわかった。

また図１４に示すように、方式１（９２％），方式２（９３％），方式３（９４％）の順で正解率が向上することがわかった。しかしながら、調音運動の修正処理に必要な計算量は、方式１、方式２、方式３の順に大きくなるため，目的に応じ、方式を選択して利用することが望ましい。

次に、上述の調音特徴抽出装置を使用した場合に必要となるＨＭＭ（音素認識器）の混合数と認識精度との関係について、表１を参照して説明する。表１は、調音特徴抽出時におけるＨＭＭの混合数と認識率との関係を示している。表１においては、ＨＭＭに基づく音素認識器に対して，ＭＦＣＣを直接入力する場合と，調音特徴を入力する場合とを比較した結果が示されている。表１中、調音特徴（修正無）は，弁別的音素特徴（ＤＰＦ）をニューラルネットワークで抽出した場合の混合数を示しており、調音特徴（修正有）は、本発明に係る調音動作の修正を加えた場合の混合数を示している。

表１の結果から，従来法のＭＦＣＣを直接入力した場合では，認識精度を高めるために大きな混合数が必要となることがわかった。一方、調音特徴を入力した場合では、混合数が１である場合も比較的高い性能を得ることが可能であることがわかった。さらに、調音動作の修正を行った調音特徴を入力した場合では，さらに一段高い性能を得ることが可能であることがわかった。これにより、音素分類器や単語分類器の規模（ここでは混合数）を小規模に押さえることが可能であることが明らかとなった。

なお実施例では、調音運動を修正する手段として、ニューラルネットワークを用い、これに調音特徴（変位）成分、速度成分、及び加速度成分を通すことで、調音運動を修正する方法を示したが、本発明はこれに限られるものではない。例えば、本申請では音素や単語認識にＨＭＭを用いたが、調音特徴修正手段としてのニューラルネットワークに代えて、ＨＭＭなどの統計的パターン分類手段を導入して調音特徴修正手段とすることも可能である。この場合、ＨＭＭなどは音素や単語に対するモデルではなく，調音特徴に対するモデルとして用いられることになる。要は、「調音特徴を抽出する手段」により実現された調音運動に対して、これを「修正する手段」を設けるとともに、調音運動を表現する、調音特徴（変位）成分、速度成分、及び加速度成分をこの調音運動修正手段に通すことにより修正を実現することがキーである。

調音特徴抽出装置１の電気的構成を示す模式図である。調音特徴抽出装置１にて実行される調音特徴抽出処理を示す機能ブロック図である。特徴分析部２１０の機能詳細を示すブロック図である。調音特徴抽出部２２０の機能詳細を示すブロック図である。局所特徴抽出部２２１より得られる特徴分析部時間方向の局所特徴の一例である。局所特徴抽出部２２１より得られる周波数方向の局所特徴の一例である。弁別的音素特徴抽出部２２２にて得られる調音特徴の一例である。調音運動修正部２３０の機能詳細を示すブロック図である。調音運動修正処理部２３２における処理を示したフローチャートである。調音運動修正部３３０の機能詳細を示すブロック図であり、調音運動修正部４３０の機能詳細を示すブロック図である。調音運動修正前における調音特徴の抽出例である。調音運動修正後における調音特徴の抽出例である。調音特徴抽出率の算出結果を示したグラブである。従来の音声認識装置における音声認識処理を示す機能ブロック図である。弁別的音素特徴を示している

符号の説明

１調音特徴抽出装置
１１中央演算処理装置
１２入力装置
１３出力装置
１４記憶装置
１５外部記憶装置
２０１入力部
２０２変換部
２０４単語探索部
２０５出力部
２０６記憶部
２０７記憶部
２１０特徴分析部
２１２フィルタ部
２２０調音特徴抽出部
２３０調音運動修正部
３３０調音運動修正部
４３０調音運動修正部

Claims

音声を取得する音声取得手段と、
前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、
前記調音特徴抽出手段にて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出手段と、
前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正手段と、
前記調音運動修正手段にて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御手段とを備え、
前記調音運動修正手段は、前記成分抽出手段にて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする調音特徴抽出装置。
音声を取得する音声取得ステップと、
前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、
前記調音特徴抽出ステップにて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出ステップと、
前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正ステップと、
前記調音運動修正ステップにて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御ステップとを備え、
前記調音運動修正ステップは、前記成分抽出ステップにて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする調音特徴抽出方法。
請求項１に記載の調音特徴抽出装置の各処理手段としてコンピュータを駆動させるための調音特徴抽出プログラム。