JP3654831B2

JP3654831B2 - 自動音声認識のための特徴量抽出方法

Info

Publication number: JP3654831B2
Application number: JP2000357217A
Authority: JP
Inventors: リガツィオルカ; クリズダヴィド; アップルバウムテッド; ジュンカジャン−クロード
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-11-24
Filing date: 2000-11-24
Publication date: 2005-06-02
Anticipated expiration: 2020-11-24
Also published as: EP1103951A3; EP1103951A2; EP1103951B1; JP2001184083A; CN1152367C; US6513004B1; ES2240019T3; CN1299127A; DE60018886T2; DE60018886D1; TW546630B

Description

【０００１】
【発明の属する技術分野】
この発明は、自動音声認識のための特徴量抽出方法に関する。さらに詳しくは、種々のクラスの音について最適化された認識のための特徴を抽出するためのウエーブレットに基づいた方法に関する。
【０００２】
【従来の技術】
音声信号分析では、まず、その音声信号を特徴づける有用な情報を表す特徴量を抽出する。通常、特徴量の抽出は以下のようにして行われる。所定のフレーム長の窓を時間軸上にオーバーラップさせて移動し窓幅分の音声信号を切り出し、切り出した音声信号に高速フーリエ変換（ＦＦＴ）を施す。得られたスペクトルの対数にフーリエ（逆）変換を施し、高次の項（高ケフレンシー部）を切り捨てることによってケプストラム係数の有限の集合を抽出する。このようにして得られたケプストラム係数を用いて隠れマルコフモデルなどの音声モデルを作成することができる。
【０００３】
【発明が解決しようとする課題】
上述のＦＦＴを用いた音声信号分析では、時間−周波数分解能は一定である。音声信号分析では、時間−周波数平面上に非直線的に分布する音声情報をよりよく抽出するために、複数の異なった時間−周波数分解能を使用できることが望ましい。例えば、比較的速く変化する摩擦音あるいは他の子音については高い時間分解能で、比較的遅く変化する母音については低い時間分解能で分析できることが望ましい。ところが現在の技術ではこれを達成することは困難である。各々が特定の音の特徴に対応して設計された一組の認識装置を用意して各認識装置を並列に使用することによって達成できるが、これでは装置の規模が大きくなる。
【０００４】
【課題を解決するための手段】
この発明による自動音声認識のための特徴量抽出方法では、音声信号を１組のウエーブレットを用いて分解し、特定のクラスの音声の識別力を高めるためのウエーブレット基底を定義かつ選択し、上記１組のウエーブレットに上記基底を適用して音声信号から抽出された特徴量を表す複数の展開係数を生成する。
【０００５】
好ましくは、上記特徴量抽出方法ではさらに、１組のウエーブレットを展開係数として表し、次いで、当該係数を非相関にし圧縮する。
【０００６】
好ましくは、上記音声信号は、サンプリングされデジタル形式で表される。
【０００７】
好ましくは、上記１組のウエーブレットはツリー構成を有する。
【０００８】
好ましくは、上記ツリー構成は、基本処理ブロックの連鎖によって得られる２分木構成である。
【０００９】
好ましくは、上記基本処理ブロックは、ハイパスフィルタリング処理と、ローパスフィルタリング処理と、当該ハイパスおよびローパスフィルタリング処理に続くダウンサンプリング処理とを行うものである。
【００１０】
好ましくは、上記ツリー構成は、各々が展開係数を与える複数の葉ノードを定義する。
【００１１】
好ましくは、上記ツリー構成は、根ノードを定義し、上記特徴量抽出方法ではさらに、根ノードに音声信号を連続的に与える。
【００１２】
好ましくは、上記ツリー構成は、所定のクラスの音の識別力を最大にすべく選択された複数の葉ノードを定義する。
【００１３】
好ましくは、上記特徴量抽出方法ではさらに、展開係数を窓時間にわたって積分する。
【００１４】
好ましくは、上記特徴量抽出方法ではさらに、展開係数に対して非線型演算を施す。
【００１５】
好ましくは、上記非線型演算は、展開係数の圧縮を含む。
【００１６】
好ましくは、上記１組のウエーブレットは、複数のノードを有するデータ構造に組織化される。
【００１７】
好ましくは、上記特徴量抽出方法ではさらに、各ノードについて平均振幅を計算する。
【００１８】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードのうちの選択したノードに対して離散コサイン変換（ＤＣＴ）を施すことによってケプストラム係数を求める。
【００１９】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードの各々についてエネルギーを示す値を計算し計算した値が所定のしきい値よりも小さいときはそのノードを切り捨てることによって上記複数のノードのうち一部を選択する。
【００２０】
好ましくは、上記エネルギーを示す値は圧縮されたエネルギーである。
【００２１】
好ましくは、上記特徴量抽出方法ではさらに、複数のノードのうち第１のノードの識別力を計算し、さらに第１のノードから派生する子ノードの識別力を計算し、子ノードの識別力の和が第１のノードの識別力よりも小さいとき当該子ノードを切り捨てることによって複数のノードのうち一部を選択する。
【００２２】
好ましくは、上記特徴量抽出方法において、第１のクラスの音を表すための第１の複数の展開係数を生成し、第２のクラスの音を表すための第２の複数の展開係数を生成し、音声認識に使用するための第１および第２の特殊化されたモデルの集合を第１および第２の複数の展開係数を使用して作成する。
【００２３】
好ましくは、上記第１および第２のモデルの集合はマルチパス構成において使用され、第１のモデルの集合が認識結果とともにまず使用され、次いで第２のモデルの集合が使用されて処理される。
【００２４】
好ましくは、上記第１および第２のモデルの集合はともに、第１および第２のクラスの音に対応する認識結果を与えるために使用される。
【００２５】
好ましくは、上記第１のクラスの音は広いクラスの音の間での第１のレベルの識別に対応し、上記第２のクラスの音は狭いクラスの音の間での第２のレベルの識別に対応する。
【００２６】
上記抽出方法では、種々のクラスに属する音の広い範囲にわたる取り合わせをカバーする１つの分析技術を提供するウエーブレット技術が用いられる。この発明におけるウエーブレット技術を用いることによって、１つの認識装置だけで認識装置を構成することができ、その認識装置では、独特の特徴量抽出処理によって種々のクラスの音について最適化された音声モデル使用することができる。このように、この発明に従った認識装置は、認識分析処理の複雑さを増大させることなく、種々のクラスの音について最適化される。
【００２７】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一符号を付しその説明は繰り返さない。
【００２８】
この発明の実施の形態による局部的な特徴量抽出システムでは、音声波形のウエーブレット分解を使用する。ウエーブレット分解により、音声情報を時間的および周波数的に局在する関数として表す方法が得られる。このように、ウエーブレット分解は従来のフーリエ級数分解と異なる。従来のフーリエ分析においては、正弦波および余弦波は周波数的には局在するが時間的および空間的には無限に続く。したがって、例えば、短いパルスが有するゆっくりと減衰する係数を、ＦＦＴを使用して測定し表すことは困難である。そのようなパルスを表すためには、フーリエ級数は相殺に強く依存しなければならない。関数の性質を係数の性質に関連づけるすべてのフーリエ分析では、無限に続く正弦波関数のために困難になっている。
【００２９】
ベクトル空間Ｓが与えられ、その空間Ｓ内に張られたベクトル（ｅ１，・・・，ｅｎ：ｅｉ∈Ｓ）がベクトル空間Ｓの基底であるとする。ｉ≠ｊのときｅｉがｅｊと線形独立であれば、その基底は完備であるという。また、線形代数により、スカラー積＜ｘ，ｙ＞：Ｓ→Ｒ（Ｒは実数の集合）が定義されると、すべてのベクトルｘ（ｘ∈Ｓ）は基底に分解することができる（基底を構成することができる）。ベクトルｘは以下に示す［数１］によって表される。
【００３０】
【数１】

【００３１】
ここで、＜ｅｉ，ｘ＞ｅｉは、ｅｉに沿ったベクトルの要素である。集合（＜ｅｉ，ｘ＞ｅｉ：ｉ＝１，・・・，ｎ）は、基底（ｅ１，・・・，ｅｎ）上へのベクトルの射影である。
【００３２】
以下の［数２］に示すようなスカラー積が定義されるとき、関数（その結果、信号も）は、ひとつのベクトル空間である。
【００３３】
【数２】

【００３４】
ここで、ｆ，ｇは関数または信号である。数学的には、関数および信号は同じ対象についての二つの名前である。また、ｇ＊は、ｇの随伴行列（ａｄｊｏｉｎｔ）である。このことは、関数空間のための基底を構成することができ、そのような基底に関数を射影することができ、後述の［数３］および［数４］を使用して信号を再構成することができることを意味する。
【００３５】
特に、ウエーブレット基底は、基本ウエーブレット（ｍｏｔｈｅｒｗａｖｅｌｅｔ）と呼ばれる基本関数Ｗ（ｘ）を時間軸上で平行移動［Ｗ（ｘ）→Ｗ（ｘ＋ｂ）］または／および伸縮［Ｗ（ｘ）→Ｗ（ａｘ）］して構成される。基本ウエーブレットがいくつかの基本的な性質を満足させると、基本ウエーブレットを時間軸上で平行移動または／および伸縮することによって関数空間の基底を得ることができる。
【００３６】
その目的は、関数とくに時間的および周波数的に局在した関数を表すための新しい方法である。フーリエ級数と比べた場合、正弦波および余弦波は周波数的には完全に局在しているが時間的あるいは空間的には無限に続いている。
【００３７】
この実施の形態では、ウエーブレットを利用して時間と周波数の両方の分析を可能とする。ウエーブレット分解を実現する方法は多数存在するけれども、この実施の形態では、再帰アルゴリズムを使用する。再帰アルゴリズムとは、ローパスフィルタおよびハイパスフィルタにより再帰的に信号の低域を分割していくものである。代わりに反復処理を使用することができる。
【００３８】
図１は、ウエーブレット分解がどのようにして行われるかを示す図である。図１に示すように、複数のローパスフィルタ１２およびハイパスフィルタ１０が縦続的ツリー構造に配置されている。ツリーの各ノードには、ハイパスフィルタ１０とこれに対応するローパスフィルタ１２とで構成される要素ブロック（基本処理ブロック）が含まれている。各フィルタの後段にはダウンサンプリング処理手段１４が設けられており、無駄のない信号表現が得られる。原信号はノード１６（根ノード）に入力される。逆の操作を行うことによってサブ信号から原信号が完全に再構成される。
【００３９】
このシステムでは、階層的な時間−周波数分割分析（ｈｉｅｒａｒｃｈｉａｌｔｉｍｅ−ｆｒｅｑｕｅｎｃｙｒｅｓｏｌｕｓｉｏｎａｎａｌｙｓｉｓ）によって最適化された方法で局所的な特徴量が抽出される。この分析は、ウエーブレット分解ツリー１８を不均衡な方法で分解することによって達成される。これに関連して、ツリーの底の方にあるノード２０は、ツリーの上の方にあるノード２２よりも細かく周波数分割されている。
【００４０】
図２は、分解結果を時間−周波数平面上に示す図である。図２に示したツリーの底にあたる最も低い周波数（０〜１ｋＨｚ）においては最も高い周波数分解能が必要とされ、７段のフィルタリング・ダウンサンプリングを経てサブ信号が得られる。これに対応する１６ｋＨｚでサンプリングされた信号に対するウエーブレット長は２４ｍｓであり周波数分解能は１２５Ｈｚである。これに対して、図２に示したツリーの上にあたる最も高い周波数（６ＫＨｚ以上）においては音声情報はより悪くより詳細でなくなり、３段のフィルタリング・ダウンサンプリングを経てサブ信号が得られる。これに対応するウエーブレット長は３ｍｓであり周波数分解能は１ｋＨｚである。
【００４１】
図３は、この実施の形態による特徴量抽出システムを示す図である。まず、音声信号３０がウエーブレットパケット変換部３２に供給される。ウエーブレットパケット変換部３２において、音声信号３０は図１に関して説明したような非平衡な方法で分解される。音声信号３０の処理は、縦続したフィルタ・バンクに信号を与えることによって、連続した基底上で実行可能である。ウエーブレット変換結果は範囲が限られている（ｌｏｃａｌｓｕｐｐｏｒｔ）ため、生の信号（ｒａｗｓｉｇｎａｌ）に対して直接処理を施すことができる。すなわち、通常のＦＦＴ処理において必要とされる窓技術（ｗｉｎｄｏｗｔｅｃｈｎｉｑｕｅｓ）を適用する必要がない。
【００４２】
この実施の形態では、フィルタ出力の脈動を最小化するために理想的なローパスフィルタ（またはハイパスフィルタ）の周波数応答を長さ１５のカイサー窓（Ｋａｉｓｅｒｗｉｎｄｏｗ）とともに巻き込んで（ｃｏｎｎｖｏｌｖｅ）設計されたフィルタを使用する。通過帯域と遮断帯域との間の急峻な移り変わりを得ることが目的である。したがって、フィルタのオーバーラップを最小にすることが必要とされる。これにより、フィルタ・バンクの出力における相関が弱められる。このようにローパスフィルタを計算した後、離散ディラック関数（ｔｈｅｄｉｓｃｒｅｔｅＤｉｒａｃｆｕｎｃｔｉｏｎ）に対するインパルス応答の和を用いてハイパスフィルタが決定される。
【００４３】
図３において、変換部３２の出力は、時間−周波数分割された形で３４に表される。これは図２において詳細に示されている。
【００４４】
ローパスフィルタの出力は、ダウンサンプリング後に直接使用することができる。一方、ハイパスフィルタの出力に対しては、グレイ・コード効果（Ｇｒａｙｃｏｄｅｅｆｆｅｃｔ）といわれるエリアシング効果を逆転させるためのさらなる処理が施される。図４はエリアシングの概略を示す図である。ローパスフィルタリングおよびダウンサンプリングによって周波数ゼロからナイキスト周波数までのレンジの周波数が得られる。これは図４の４０に示される。これと対照的に、ハイパスフィルタリングおよびダウンサンプリングの後にゼロ周波数からナイキスト周波数までの周波数レンジに残るスペクトルは、フィルタリングされた信号の高帯域スペクトルの鏡像である。高域の高域を抽出するために（２つのハイパスフィルタを１つそしてまた１つと適用する）ハイパスフィルタの出力の低域を取ることが必要である。この結果、ハイパスフィルタリング処理の後に、ハイパスフィルタとローパスフィルタとの不必要な逆転処理が生じる。
【００４５】
補償するために、ハイパスフィルタリング段階より下のすべてのフィルタリング段階において、別のハイパスフィルタリング段階が行われるまで、反転操作を行う。二つの連続したエリアシング効果が結合されるとお互いを打ち消される。図４において、逆転された高域は４２に示されている。
【００４６】
エリアシングが修正されると、葉（ｌｅａｆ）のフィルタの出力は図３のブロック３６に示したような積分処理によって平滑化される。各サブバンドｌに対してこのシステムでは、対応するサブ信号ｘｌ（ｎ）についての平均振幅（∝＝１のとき）または平均エネルギー（∝＝２のとき）を計算する。平均振幅（∝＝１のとき）または平均エネルギー（∝＝２のとき）は以下の［数３］におけるｅｌで表される。
【００４７】
【数３】

【００４８】
上記平均は、各サブバンドに対して同じ数Ｎの係数について計算される。ツリー構造を下っていく各ステップでサンプルレートは２で割られるため、図２に示すような階層的な時間分解能が保存される。より大きな平均の窓（ａｖｅｒａｇｉｎｇｗｉｎｄｏｗ）のサイズ（最も低いサブバンドに対応する）は、窓幅（ｗｉｎｄｏｗｓｉｚｅ）と呼ばれる。平均の窓（ａｖｅｒａｇｉｎｇｗｉｎｄｏｗ）はフレームレートでフレームサイズだけシフトされサブバンドの振幅が得られる。平均化されたサブ信号のサンプルの数Ｎは、最も高いサブバンドについて調整されるため、平均の窓時間の拡張は決して１フレームより小さくならない。
【００４９】
次に、ブロック３７に示すように、圧縮操作が施される。施される圧縮操作のタイプは音声信号の性質に依存する。ノイズのない鮮明な音声（ｃｌｅａｎｓｐｅｅｃｈ）に対しては、非線型対数演算（ｎｏｎ−ｌｉｎｅａｒｌｏｇｏｐｅｒａｔｉｏｎ）が施される。ノイズを含んだ音声（ｎｏｉｓｅｃｏｒｒｕｐｔｅｄｓｐｅｅｃｈ）に対しては、累乗根圧縮演算（ｒｏｏｔｃｏｍｐｒｅｓｓｉｏｎｏｐｅｒａｔｉｏｎ）が施される。これらの演算はいずれもｅｌに対して非線型演算を適用する。上述の対数演算がより好ましいけれども他の非線型演算を適用してもよい。
【００５０】
ブロック３８において離散コサイン変換（ＤＣＴ）が施されてケプストラム係数が抽出される。離散コサイン変換は以下の数４で示される。
【００５１】
【数４】

【００５２】
この結果、サブバンドの特徴量の集合３９が得られる。サブバンドの特徴量の集合３９は、隠れマルコフモデルなどの音声モデルを構成する際に原音声信号３０を表すために使用することができる。
【００５３】
サブバンド分析によって多くの自由度が与えられる。フィルタ・バンクのツリーにおけるいずれのノードを選択してもある特定の音に対する時間−周波数分割が与えられる。すなわち、葉のノードだけを使用してウエーブレット分解をするという必要はない。葉のノードと中間のノードとのいずれの組合せを使用することができる。ある特定のクラスの音（摩擦音・破裂音・子音・母音など）に対して使用するノードを選択することによって、これら種々のクラスの音に対する最適の結果が局所的な特徴量抽出システムによって与えられることになる。
【００５４】
与えられたクラスの音に対してどのノードの組合せが最もよく機能するかを見出す処理は、以下に示すような反復処理である。
【００５５】
図５を参照して、与えられたクラスの音に対する最適なツリー構成をラベリングされたデータ１００上で選択する処理が行われる。最初のステップ１０２では、ラベリングされたデータから関連するクラスの音が抽出される。もしツリーが摩擦音に対して最適化されていれるときは、ラベリングされた訓練データ（ｔｒａｉｎｉｎｇｄａｔａ）から摩擦音を表すすべての音素が抽出される。そしてステップ１０４において、ウエーブレットツリーが上述のようにして計算される。ツリーが計算された後、次のステップにおいて、考慮中のクラスの音を最もよくマッチさせるためにはどのようにツリーを切り捨てればよいかが決定される。図に示した処理では再帰的あるいは反復的な方法で各ノードの検査が行われる。
【００５６】
次いでステップ１０６において、ツリーの各ノードについて、正規化されたエネルギーが計算される。このエネルギー（または、エネルギーが変換されたもの）は、すべてのノードに対するすべてのエネルギーの和が１に等しくなるように適当なスケールで正規化される。ステップ１０８におけるテストで現在のノードに対するエネルギーが所定のしきい値を下回っているときは、ツリー・プルーニング（ｔｒｅｅ−ｐｒｕｎｉｎｇ）アルゴリズムによってそのノードおよびそのノードのすべての子が切り捨てられる。それ以外のときは、ステップ１１０において、そのノードは、適当な距離計算を用いての識別力（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｏｗｅｒ）の計算によってさらに調べられる。その後、ステップ１１２において、上記ノード（親ノード）のすべての子ノードについて同様に識別力（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｏｗｅｒ）の計算が行われる。
【００５７】
親ノードと子ノードについて識別力（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｏｗｅｒ）が計算されると、ステップ１１４において、親ノードの識別力（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｏｗｅｒ）と子ノードの識別力（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｐｏｗｅｒ）の和とが比較される。ステップ１１６において、子ノードの和のほうが親ノードよりも大きいときは子ノードはそのツリーに含められる。それ以外のときはステップ１１８において、子ノードおよびそれら子ノードから派生するすべての子がツリーから切り捨てられる。
【００５８】
各ノードについて、上述したテストが行われまたは切り捨てられたノードの子であるために切り捨てられるまで、図５に示す処理が行われる。その結果、考慮中のクラスの音に対して最適に余分なものが取り除かれたウエーブレットツリーが得られる。この方法でひとつのツリーが構成された後、このシステムでは、他のクラスの音に対する別のツリーを続けて構成することができる（異なった切り捨て方で）。
【００５９】
あるグループの音の間での識別のために種々のツリーを最適化することができる。それらツリーはある大きなツリーからすべて抽出されるので、ひとつの分解だけが必要とされ、最適なサブツリーに対応するノードは所望の特徴量を計算するために使用される。
【００６０】
特殊化された隠れマルコフモデルをこれら特殊化された特徴量の各々に基づいて作成することができる。たとえば、母音を子音から識別する一組の特殊化されたモデルが、そのような音の間で高い識別を得るように最適化された特殊化された特徴量から構成される。
【００６１】
粗い分割から細かい分割にわたるモデリングの分割よって、マルチパスの認識パラダイム（ｍｕｌｔｉ−ｐａｓｓｒｅｃｏｇｎｉｔｉｏｎｐａｒａｄｉｇｍ）において、幅広いクラスの認識（たとえば、母音に対する子音のように）をまず行い、次いであるクラス内での特定の音の認識を行うことができる。発話についての情報を与える一連の広く細かい音を生成するために、すべてのモデル（細かい分割と粗い分割との両方）を、シングルパスのシステム（ｏｎｅ−ｐａｓｓｓｙｓｔｅｍ）において一緒に使用することができる。
【００６２】
【発明の効果】
この発明による特徴量抽出方法を用いることによって、１つの認識装置だけで認識装置を構成することができ、その認識装置では、独特の特徴量抽出処理によって種々のクラスの音について最適化された音声モデル使用することができる。このように、この発明による特徴量抽出方法を用いた認識装置は、認識分析処理の複雑さを増大させることなく、種々のクラスの音について最適化される。
【図面の簡単な説明】
【図１】ウエーブレット分解がどのようにして行われるかを示す図である。
【図２】分解結果を時間−周波数平面上に示す図である。
【図３】サブバンドの特徴量の抽出を実現する手段のブロック図である。
【図４】ハイパスフィルタのエィアシング効果を制御する技術を示す図である。
【図５】特定のクラスの音に対して最適なウエーブレットツリーを選択する処理を示すフローチャートである。
【符号の説明】
１０ハイパスフィルタ
１２ローパスフィルタ
１４ダウンサンプリング処理手段
３０音声信号
３２ウエーブレットパケット変換部

Claims

音声信号を１組のウエーブレットを用いて分解し、
前記１組のウェーブレットは、１つの根ノードと複数の葉ノードとを有するツリー構成に組織化されており、前記音声信号は前記ツリー構成の根ノードに連続的に与えられ、
前記分解された音声信号に関して特定のクラスの音声の識別力を最大化することによってウェーブレット基底を定義し、
前記１組のウエーブレットに前記ウェーブレット基底を適用して前記音声信号から抽出された特徴量を表す複数の展開係数を生成する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１に記載の特徴量抽出方法において、
前記１組のウエーブレットを展開係数として表し、次いで、前記係数を非相関にし圧縮する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１に記載の特徴量抽出方法において、
前記展開係数を窓時間にわたって積分する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１に記載の特徴量抽出方法において、
前記展開係数に対して非線型演算を施す
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項４に記載の特徴量抽出方法において、
前記非線型演算は、前記展開係数の圧縮を含む
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１に記載の特徴量抽出方法において、
前記１組のウエーブレットは、複数のノードを有するデータ構造に組織化される
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項６に記載の自動音声認識のための特徴量抽出方法において、
各ノードについて平均振幅を計算する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項６に記載の特徴量抽出方法において、
前記複数のノードのうちの選択したノードに対して離散コサイン変換（ＤＣＴ）を施すことによてケプストラム係数を求める
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項６に記載の特徴量抽出方法において、
前記複数のノードの各々についてエネルギーを示す値を計算し計算した値が所定のしきい値よりも小さいときはそのノードを切り捨てることによって前記複数のノードのうち一部を選択する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項９に記載の特徴量抽出方法において、
前記エネルギーを示す値は圧縮されたエネルギーである
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１に記載の特徴量抽出方法において、
前記複数のノードのうち第１のノードの識別力を計算し、さらに前記第１のノードから派生する子ノードの識別力を計算し、前記子ノードの識別力の和が前記第１のノードの識別力よりも小さいとき前記子ノードを切り捨てることによって前記複数のノードのうち一部を選択する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１に記載の特徴量抽出方法において、
第１のクラスの音を表すための第１の複数の展開係数を生成し、第２のクラスの音を表すための第２の複数の展開係数を生成し、音声認識に使用するための第１および第２の特殊化されたモデルの集合を前記第１および第２の複数の展開係数を使用して作成する
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１２に記載の特徴量抽出方法において、
前記第１および第２のモデルの集合はマルチパス構成において使用され、前記第１のモデルの集合が認識結果とともにまず使用され、次いで前記第２のモデルの集合が使用されて処理される
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１２に記載の特徴量抽出方法において、
前記第１および第２のモデルの集合はともに、前記第１および第２のクラスの音に対応する認識結果を与えるために使用される
ことを特徴とする自動音声認識のための特徴量抽出方法。
請求項１２に記載の特徴量抽出方法において、
前記第１のクラスの音は広いクラスの音の間での第１のレベルの識別に対応し、前記第２のクラスの音は狭いクラスの音の間での第２のレベルの識別に対応する
ことを特徴とする自動音声認識のための特徴量抽出方法。