JPH03201161A

JPH03201161A - 音声認識装置

Info

Publication number: JPH03201161A
Application number: JP1344045A
Authority: JP
Inventors: Kenji Sakamoto; 憲治坂本; Koichi Yamaguchi; 耕市山口; Toshio Akaha; 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1989-12-28
Filing date: 1989-12-28
Publication date: 1991-09-03

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、不特定話者の発声する言葉を認識し得るニュ
ーラルネットワークを用いた音声認識装置に関する。

［従来の技術］従来の音声認識方法には、次のような方法がある。

一つの方法は、入力音声を音響分析し、各フレーム毎に
特徴ベクトルを抽出し、抽出した特徴ベクトルを時系列
の２次元パターンとしてニューラルネットワークの入力
層に入力して、入力音声を識別できるような教師信号を
出力層に与え、多層パーセプトロン型ニューラルネット
ワークを利用した誤差逆伝播法により各結合の重み係数
を求める学習を行って、学習されたニューラルネットワ
ークに入力音声の特徴量を入力することにより、出力層
からの出力値に応じて入力音声を認識するもう一つの方
法は、入力音声の特徴ベクトル系列のうち代表的な特徴
ベクトルを、フラスタリング等の方法によって選出し、
選出された特徴ベクトルを標準パターンとして記憶して
おき、入力音声の特徴ベクトル系列との間でＤＰマツチ
ング等を行い、両方のパターン間の距離を計算し、最も
近い標準パターンの音声を認識結果とする。

［発明が解決しようとする問題点］従来のニューラルネットワークを用いた音声認識装置に
は、話者及び発声の変化により、音声の各音韻の継続時
間等が変化し、ニューラルネットワークの入力層に入力
される特徴量が変化してしまうために、安定した重み係
数を求めることができず、入力層のユニット数に時間軸
を適合するように時間軸を伸縮した場合、入力音声の特
徴ベクトルを圧縮し、音声の識別に必要となる情報を欠
落させてしまうと共に、単語中の各音韻の局所的な継続
時間のずれを吸収できないという問題点がある。

また、標準パターンとして、特徴ベクトルの時系列をも
っておき、時間軸の非線形な伸縮を正規化して、入カバ
ターンと標準パターンとの距離を計算するＤＰマツチン
グの手法は、計算量が多く、処理に時間がかかってしま
う。さらに、不特定話者に対応するために標準パターン
を複数個もつことが考えられるが、どのパターンを標準
パターンにするかなど、その作成方法が難しかった。

本発明の目的は、安定した重み係数を求め得ると共に、
発声された単語中の各音韻の局所的な継続時間のずれを
吸収し得るニューラルネットワークを用いた音声認識装
置を提供することにある。

［課題を解決するための手段］本発明によれば、前記目的は、入力音声を音響分析して
得られた特徴量を多層パーセプトロン型ニューラルネッ
トワークの入力層の各ユニットに入力し、出力層の各ユ
ニットからの出力値に応じて音声認識を行う音声認識装
置であって、入力音声に対して、認識対象語索のうち特
定の単語の部分音韻系列との類似度に相当する値を出力
する複数のイベントネットと、前記イベントネットに接
続されており、当該イベントネットからの出力の全てを
入力し、前記入力音声に対して前記特定の単語との類似
度に相当する値を出力するワードネットとを有し、前記
イベントネットと前記ワードネットとが接続されたネッ
トワークが認識語素数あり、前記ワードネットに接続さ
れたおり、当該ワードネットからの出力の全てを入力し
、前記入力音声の属する認識分類に応じた値を出力する
スーパーネットとを備えており、前記入力音声を各フレ
ーム毎に音響分析して得られた特徴量を時間的に移動し
、当該移動された特徴量の中で、前記類似度に相当する
前記複数のイベントネットの夫々の出力値が最大になる
ように入力フレームを選択して音声認識を行うことを特
徴とする音声認識装置によって達成される。

［作　用］本発明の音声認識装置によれば、複数のイベントネット
が入力音声に対して、認識対象語索のうち特定の単語の
部分音韻系列との類似度に相当する値を出力し、ワード
ネットがイベントネットからの出力の全てを入力し、入
力音声に対して特定の単語との類似度に相当する値を出
力し、スーパーネットがワードネットからの出力の全て
を入力し、入力音声の属する認識分類に応じた値を出力
するが故に、入力音声を各フレーム毎に音響分析して得
られた特徴量を時間的に移動し得、移動された特徴量の
中で、類似度に相当する複数のイベントネットの夫々の
出力値が最大になるように入力フレームを選択し得、そ
の結果入力音声を認識し得る。

［実施例］以下、本発明を図面に示す一実施例により詳細に説明す
る。

第１図は、本実施例による音声認識装置の構成を示す。

第２図を参照して詳述すると、マイクロホン１０１から
入力された音声は、アンプ１０２によって増幅され、Ａ
／Ｄ変換器１０３でアナログからディジタルに変換され
た後、音響分析部１０４に入力される。音響分析部１０
４では、帯域濾波器（以下、ＢＰＦという）　１０５を
用いて入力された音声を音響分析し、フレーム毎に各Ｂ
　Ｐ　Ｆ　１０５の出力パワーの値を出力する。また、
ネットワークの規模を小さくするために、特徴ベクトル
をに−Ｌ変換を用いて圧縮部１０６で圧縮し、入力音声
の特徴ベクトルの次元を減少させる。

入力音声の特徴ベクトルは、複数のイベントネット１０
？から構成されているイベントネット群１１４　（第１
図を参照）に入力され、各イベントネット群１１４から
の出力が各ワードネット１０８にそれぞれ入力される。

イベントネット群１１４とワードネット１０８との組の
数は認識対象語量のカテゴリー数に対応しており、それ
ぞれのワードネット１０８の出力はスーパーネット１０
９に入力される。

再び第１図を参照して詳述すると、入力音声の特徴ベク
トル１１Ｇの特定の位置におけるイベントネット１０７
の入力層の入力フレーム１１１に相当する範囲が、イベ
ントネット１０７の入力層に入力され、特定の認識対象
の単語について入力層に入力する入力フレーム１１１を
時間軸方向にずらしたものが５つある。イベントネット
１０７は、それぞれ入力された入力フレーム１１１の特
徴ベクトル１１０とイベントネット１０７が識別する特
定の単語の部分音韻系列との類似度に相当する値を出力
する。

ワードネット１０ｇは、入力音声とワードネット１０８
が識別する特定の単語との類似度に相当する値を出力す
べき認識対象語素数に等しい数だけ備えられており、そ
の出力すべてがスーパーネット１０９の入力層に入力さ
れる。

スーパーネット１０９の出力層には、認識対象の分類番
号に対応する３０個のユニットと、リジェクトを表す１
個のユニットとを備えている。スーパーネッ）　１０９
は、入力音声が認識対象語量の中にあるなら、その分類
番号に対応する出力層のユニットの出力値が、他のユニ
ットに比べ最大になるように各結合の重み係数を決定す
る。

入力音声が認識対象語量でない場合、リジェクトに対応
する出力層のユニットの出力値が他のユニットに比べ最
大になる。

スーパーネット１０９の出力は、認識結果判定部１１２
に入力される。認識結果判定部１１２では、スーパーネ
ット１０９の出力層において最大の出力を出しているユ
ニットのユニット番号を検索して出力する。出力された
ユニット番号の値が結果出力部１！３に入力され、認識
結果が表示される。

音響分析部１０４から認識結果判定部１１２までをディ
ジタルシグナルプロセッサ（以下、ＤＳＰと略称）上に
構成することが可能である。

次に、各ニューラルネットワークの結合の重み係数を求
める方法、即ち学習方法について詳述する。

（Ａ）イベントネットの学習方法本実施例においてイベントネット１０７は、第２図に示
す３層構造の多層パーセプトロン型ニューラルネットワ
ークにより構成されている。

第３図（ｒ）は、入力層ユニット２０１　、中間層ユニ
ット２０２、及び出力層ユニット２０３の結合状態を示
す。入力層ユニット２０１は、特徴ベクトル方向（第３
図Ｏ）では紙面に対して垂直方向）に特徴ベクトルの次
元数に等しい数だけ配列されている。音声認識において
は、隣接するフレーム間の相関が高く、複数のフレーム
をまとめて圧縮した方が効率がよいので、本実施例では
、１６チヤンネルのＢＰＦの２つのフレーム分の出力パ
ワー値をに−Ｌ変換で６次元に圧縮したデータとフレー
ム毎のパワーに相当する値とから構成された７次元の特
徴ベクトルを用いており、入力層ユニット２０１は７つ
の特徴ベクトル方向に並列に配置されている。また、入
力音声の分析周期がｌＱｍ　ｓで、２つのフレームを１
フレームに圧縮しているため、時間軸方向（第３図Ｏ）
では紙面に対して横方向）の入力層ユニット２０１の各
ユニット間の時間差は２０ｍ　ｓに相当する。

中間層ユニット２０２も５つのユニットが特徴ベクトル
方向に並列に配置されている。

第３図で、各中間層ユニット２０２は全ての入力層ユニ
ット２０１と互いに接続されている。同様に、出力層ユ
ニット２０３も２つのユニットが特徴ベクトル方向に並
列に配置されている。

各出力層ユニット２０３は全ての中間層ユニット２０２
と互いに接続されている。

中間層ユニット２０２及び出力層ユニット２０３の入出
力特性を表す関数としてシグンモイド（ｓｉｇｍｏｉｄ
）関数が用いられている。

第３図（ｂ）は、イベントネットｌｏｔの規模を小型化
し、処理を高速にするために、中間層ユニット２０２と
入力層ユニット２０１との間の結線を減少して、相互接
続を制限している場合を示す。

音声の場合、互いに離れた特徴ベクトル同士が、局所的
にはあまり影響を及ぼさないために、このような接続が
可能である。

次に学習時の操作について述べる。まず、入力音声の特
徴ベクトルをスペクトログラムにより、音韻に応じて表
１に示すラベルの種類に分類する。上記ラベル付けされ
た特徴ベクトルのうち、ある認識対象語彙のカテゴリー
に含まれる単語のｎ番目の特徴ベクトルにおいて、その
単語のに番目のラベルＬｋと、（ｋ＋１）番目のラベル
Ｌｋ＋、との境界の生起時刻、即ち語頭を時刻０とした
場合のラベルＬ　カ咄現する時刻をｔ　Ｓ、　（ａ）　
、単に語長（全体の継続時間）をＷ（１）とし、学習に用いる
同一カテゴリー内の単語数をＮｃとすると、ラベルＬ　
とラベルＬ　　　の境界の平均生起時ｋ　　　　　　ｋ
＋１刻ｔ、は、式（１）で与えられる。

界を、ラベルの標準パターンと呼ぶ。

第４図（０に単語／１ｃｈｉ／のラベルの標準パターン
を示す。第４図（０において矢印は、イベントネットｌ
Ｏ７に入力すべき特徴ベクトル１１０の中心フレーム（
イベントネットｌＯ７の入力層は７フレームに相当する
ので、７フレームの内の先頭から４フレーム目のこと）
を示す。

入力すべき特徴ベクトル１１０の中心フレームは、１つ
目から５つ目のイベントネット１０７の夫々の中心フレ
ームが等間隔に並ぶよう決定される。

第４図（ｂ）を参照すると、学習時において個々のイベ
ントネット１０７の中心フレームは、標準パターンと単
語のラベルパターンとを比較することで同じ部分音韻系
列の特徴量が入力される位置に決定され得る。

上述のように中心フレームが決定された位置から、音声
の特徴ベクトル１１０をイベントネット１０７の入力層
に入力すると、発声の変動で音韻の時系列が非線形に伸
縮していても、常に一定の部分音韻系列の特徴ベクトル
１１０が入力される。

認識対象語彙のｉ番目の分類を認識する１番目のイベン
トネット１０７の名称をＥ、、とすると、イ口ベントネットＥ６．の出力層には２つのユニットＣ１ｉｊ”ｉｊがある。認識すべき認−識対象の部分音韻系
列が入力された場合、（ｃ、、、ｃ、）＝　（１，０）　　　・・・・・・（
２）１１　　　１１という教師信号を与え、上記の部分音韻系列以外のものが入力された場合、（ｃ、１．　ｃ、）　＝　（０，１）　　・・・・・・
（３）と１１　　　　＋１いう教師信号を与えて学習を行う。

学習時の高速化をはかるため、教師信号のうち、１を０
．９に０を０．１として学習を行ってもよい。また、教
師信号を簡単に作成するために、認識すべき単語が入力
された場合、（ｃｏｌ、　ｃ、）　＝　（１，Ｏ）　　・・・・・・
（４）を１１　　　　１１、その他の単語が入力されたら、（ｃｌ、　ｃ、）　＝　（０，１）　　・・・・・・（
５）を１１　　　　１Ｊ教師信号として用いてもよい。

このようにして、イベントネットＥ１．の各結合１の重み係数を求める。

イベントネットＥ、、が、認識すべき単語以外の１単語を学習する場合、夫々のイベントネットＥ、。

Ｊの中心フレームは、標準パターンで中心フレームを決定
したときと同様の方法、即ち各イベントネットＥ９．を
等間隔に配置する方法で決定され得る１学習を行ったイベントネットＥ１．は、認識すべ＋１暮単語の部分音韻が入力された場合には、Ｃ１，の＋１ユニットの出力値が最大に、「買のユニットの出力値が
最小に、逆にその他の部分音韻が入力されたときにＣ，
、のユニットの出力値が最小に、Ｃ１゜目　　　　　　
　　　　　　　　　　　　　　　　　１１のユニットが
最大になる。

イベントネットＥ９．の数は、５つに限定する必１要はなく、認識する単語毎に可変としてもよい。

例えば、（単語の音節数）＋２個としてもよい。

（Ｂ）　　ワードネットの学習実際の認識時には、イベントネットＥ１．を適当４な位置に決めて、入力音声の特徴ベクトル１１０を入力
しなければならないが、イベントネットＥ、。

１の夫々の位置は、各イベントネットＥ１．の出力層１のユニットの出力ｃ１．の値が最大になる位置とすｌする。

本実施例では、イベントネットＥ９．の中心フレＩ −ムを決定する際に、イベントネットＥ０．を時間Ｊ軸方向にシフトさせ、出力層のユニットからの出力値を
比較する回数を３回としているが、比較回数は計算量と
の兼ね合いで決定すればよい。

以下、各イベントネットＥ１．の配置を容易に求１めるために５Ｘ３＝１５個のイベントネットＥ、。

＋４を等間隔に配置した場合を考える。

イベントネットＥ０．のラベルの標準パターンでＩＩ、イベントネットＥ、の中心フレームを決定した方法に
よって、シフト分のイベントネットＥ０．を１含めて各イベントネットＥ１．を配置する。

目まず、それぞれのイベントネットＥ１．を、＋４Ｅ、　　　　Ｅ、　　　　Ｅ・　　、　　　　、、Ｅ、
　　　　Ｅｌｌ−１ゝ　１１−２１　＋１−３’−°ｌ
５−１ゝ１５−２、”　１５−３、と呼ぶことにする。

そして、Ｅｉｌ−２を入力単語の語頭から後２０ｍ５の
ところに中心フレームが来るように配置し、”　１５−
２を語尾から前２０ｍ　ｓのところに中心フレームが来
るように配置し、その間をＥｉｔ−３から”１５−１の
イベントネットＥ１．を等間隔で配置する。これと同じ
間隔でＥｌｌｉｆ−１と”　１５−３とを配置し、すべてのイベント
ネットＥ、、が等間隔に並ぶように配置する。

ＩＪ上述のようにして、各イベントネットＥ２．の配置】置を行い、１つのイベントネットＥ１．について、！」Ｅ、、　　　Ｅ、、　　　Ｅ、、　　の出力値を夫々求
めｃ、−＋　１−１ゝ　ＩＪ−２１Ｉ　Ｊ−３１Ｊの出
力値が最大になっているイベントネットＥ、。

＋４の出力層のユニットからの出力値だけをワードネット１
０８の入力層のユニットに入力にする。これを５つのイ
ベントネットＥ０．すべてについて行う１第５図は、１６チヤンネルＢＰＦの出力パワー３０１の
時系列とイベントネットＥ６．に入力する入力１フレームＨ１との間の関係を示す図である。１６チヤン
ネルＢＰＦの出力パワー３０１の部分は、縦方向がＢＰ
Ｆのチャンネル番号で、各ＢＰＦの出力値を線で結んで
表現している。また、横方向が時間方向である。

第５図では、イベントネットＥｉ２を時間的にシフトす
る場合を示している。夫々のイベントネットＥ１．に図
示した入力フレーム１１１を入力し、出１」六層のユニットからの出力Ｃ１の値が夫々、Ｊ２２、ｃ、−−１ｃ、−−−とすると、そのうち最２１２大の値を出力しているイベントネットＥ、の出力層のユ
ニットの出力値をワードネット１０８の入力層のユニッ
トに入力する。

ワードネット１０ｇは、第６図（０に示す３層パーセプ
トロン型ニューラルネットワークにより構成されている
。

入力層のユニット５０１は各イベントネットＥ、。

１の出力層のユニット２０３からの出力を入力するために
１０ユニツト、中間層のユニット５０２は５ユニツト、
出力層のユニット５０３は２ユニツトとする。また、出
力層のユニット５０３をｃ、、ｃ、と呼Ｎぶ。

ネットワークの規模を小型化し、処理を高速に行うため
に第６　図（ｂ）のように２７１パーセプトロン型ニユ
ーラルネツトワークを構成してもよい。

この場合、学習を始めるときの各結合の重み係数をｃｉ
及びＣＩＩの結合と、ｃｉ及びＣ＋＋の結合とにおける
重み係数は正に、ｃ、及びｃｌ、の結合と０、Ｃｉ及びＣ（ｊの結合とにおける重み係数は負に、夫
々設定することにより、重み係数を速く収束し得る。

ワードネット！０８の学習時には、認識すべき認識対象
の単語が入力された場合、（ｃ　、、　　ｃ　−）’　＝　（１，０）　　・・・
・・・（６）１という教師信号を与えて学習を行い、その他の単語が入
力された場合、（ｃ　ｉｎ　ｃ　１）　＝　（０，１）　　・・・・・
・（７）という教師信号を与えて学習を行う。

ワードネット１０８を学習する時は、イベントネットＥ
８．の各結合の重み係数の値は固定しておくＪ。上記の方法で、ワードネット１０８の各結合の重み係
数の値が十分に収束するまで学習を行う。。

これで、イベントネットＥ０．とワードネット１０ｇ１との学習が終了する。

更に、認識の精度を上げるために次のような方法を実行
する。まず、イベントネットＥ０．とワー１ドネット１０８とを連結して、４層または５層のパーセ
プトロン型ニューラルネットワークを構成する。この構
成されたネットワークにおいて、学習時の各結合の重み
係数の初期値としては、前述した方法で求めた値を夫々
用いる。この方法で学習することにより、単独でイベン
トネットＥ０．を学１１　　。

習させた時よりも更に細かい重み係数の調整が可能にな
る。また、イベントネットＥ８．を学習させ＋３る際には、特定の部分音韻について教師データを考えな
ければならず、音韻レベルでは曖昧性及び矛盾性を含ん
でいたが、これら曖昧性及び矛盾性が補正され得る。

（Ｃ）スーパーネットの学習第７図に示すように、スーパーネット１０９は、３層の
パーセプトロン型ニューラルネットワークから構成され
ている。本実施例では、認識対象の語彙数が３０個なの
で、入力層のユニット６０１のユニット数は６０個とな
る。入力層のユニット６０１にはそれぞれのワードネッ
ト１０８の出力値が入力される。中間層のユニット６０
２のユニット数は３０個とする。出力層のユニット６０
３は、認識対象の踏量のカテゴリ一番号に対応するユニ
ット３０個と、リジェクトを表すユニット１個との合計
３１個のユニットを備えている。

（０人力音声が認識し得る語彙に含まれる場合そのカテ
ゴリ一番号をＩとすると、出力層のユニットＣＣ、、Ｃ
３１に、１′　　　２′ （ｃ　　　　ｃ　　　　、　　　　　、ｃ）＝１’２’
Ｉ・　　　　３１（０，０，，１，，０）　　　・・・（８）として、■
番目のユニットだけが１の値を有し、その他のユニット
が０になるような教師信号を与えて学習する。

（ｂ）入力音声が認識し得る踏量に含まれない場合出力
層の各ユニットに、（ＣＣ、、＊　Ｃ３０，Ｃ３１）　” １′２′ （０，０，、、、０，１）　　・・・（９）として、Ｃ
３１のユニットだけが１の値を有し、その他のユニット
が０になるような教師信号を与えて学習する。

以上のようにして、各ネットワークの各結合の重み係数
を求めておく。

次に、認識時には、入力音声の特徴ベクトルｔｉＯが入
力されると、パワーしきい値切り出しなどの方法で、入
力音声の語頭、語尾のフレームを抽出し、各イベントネ
ットＥｉｊの特徴ベクトル１１０を入力する中心フレー
ムの位置をワードネット１０８の学習時に用いたのと同
様の方法によって決定し、１つのイベントネットＥ１、
について、３回シ、＋１フトを行い、イベントネットＥ、、の出力層のユニ１ットの出力値Ｃ０，が３回の内で最大になる位置を１選択する。これを５つのイベントネットＥ１．全て＋１について行う。これを認識語素数の組だけあるすべての
イベントネット群について行う。

イベントネットＥ１．の配置が決まると、イベン目トネットＥ９．の入力層のユニットに入力された特Ｊ微ベクトル１１０の値から最終的にスーパーネット１０
９の出力層のユニットからの出力値を得る。スーパーネ
ット１０９の出力は、認識結果判定部１１２に送られて
、認識結果が得られる。この時の判定アルゴリズムを第
２図に示す。第１図において、θはスーパーネット１０
９の各出力層のユニットからの出力値の最大値が所定の
値よりも小さい場合に、リジェクトするか否かを決定す
るしきい値であり、本実施例ではθ＝０．５である。

［発明の効果］本発明の音声認識装置によれば、入力音声を各フレーム
毎に音響分析して得られた特徴量を時間的に移動し得、
移動された特徴量の中で、類似度に相当する複数のイベ
ントネットの夫々の出力値が最大になるように入力フレ
ームを選択し得、その結果入力音声を認識し得る。

【図面の簡単な説明】

第１図は本発明の一実施例における構成図、第２図は本
発明の一実施例を示すブロック図、第３図（１）及び第
３図（ｂ）は本発明の一実施例におけるイベントネット
の構成図、第４図０）及び第４図（ｂ）は本発明の一実
施例におけるラベルとイベントネットの中心フレームと
の関係を示す図、第５図はＢＰＦ出力パワーとイベント
ネットの入力フレームとの関係を示す図、第６図０）及
び第６図（ｂ）は本発明の一実施例におけるワードネッ
トの構成図、第７図はスーパーネットの構成図、第８図
は認識結果判定部の判定アルゴリズムを示す図。１０１・・・マイク、１０２・・・アンプ、１０３・・
・Ａ／Ｄ変換器、１０４・・・音響分析部、１０５・・
・帯域濾波器、１０６・・・圧縮部、１０７・・・イベ
ントネット、１０８・・・ワードネット、１０９・・・
スーパーネット、１１Ｇ・・・特徴ベクトル系列、１１
１・・・入力フレーム、！１２・・・認識結果判定部、
１１３・・・結果出力部、ｌｉ　４・・・イベントネッ
ト群。第１表（ａ）（ｂ）第３図第４図１Ｃ１（ａ）Ｃｉ＋　Ｃｉ＋　ｃｉ２ζ＋２Ｃｔ３ｅ＋３ＣＩ４ζｉ
４　Ｃ１５ζ１５（ｂ）第６図第７図

Claims

【特許請求の範囲】

入力音声を音響分析して得られた特徴量を多層パーセプ
トロン型ニューラルネットワークの入力層の各ユニット
に入力し、出力層の各ユニットからの出力値に応じて音
声認識を行う音声認識装置であって、入力音声に対して
、認識対象語彙のうち特定の単語の部分音韻系列との類
似度に相当する値を出力する複数のイベントネットと、
前記イベントネットに接続されており、当該イベントネ
ットからの出力の全てを入力し、前記入力音声に対して
前記特定の単語との類似度に相当する値を出力するワー
ドネットとを有し、前記イベントネットと前記ワードネ
ットとが接続されたネットワークが認識語彙数あり、前
記ワードネットに接続されたおり、当該ワードネットか
らの出力の全てを入力し、前記入力音声の属する認識分
類に応じた値を出力するスーパーネットとを備えており
、前記入力音声を各フレーム毎に音響分析して得られた
特徴量を時間的に移動し、当該移動された特徴量の中で
、前記類似度に相当する前記複数のイベントネットの夫
々の出力値が最大になるように入力フレームを選択して
音声認識を行うことを特徴とする音声認識装置。