JPH03269500A

JPH03269500A - 音声認識装置

Info

Publication number: JPH03269500A
Application number: JP2069248A
Authority: JP
Inventors: Koichi Yamaguchi; 耕市山口; Kenji Sakamoto; 憲治坂本
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1990-03-19
Filing date: 1990-03-19
Publication date: 1991-12-02
Anticipated expiration: 2013-09-03
Also published as: JP2792709B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コ本発明は、不特定話者の発声する言葉を認識し得るニュ
ーラルネットワークを用いた音声認識装置に係り、特に
時間軸の非線形整合を高精度化することができる音声認
識装置に関する。

［従来の技術］ニューラルネットワークと呼ばれる神経回路網をモデル
化した新しい手法が音声認識の分野に応用されつつあり
、「ニューラルネットによる音声情報処理」、牛用・著
、ｂｉｔ９月号、１８３〜１９５頁、　１９８９年Ｖｏ
ｌ　、　２１．　Ｎｏ、　１１及び「ニューラルネット
の音声情報処理への応用」、鹿野・著、信学会専門講習
会講演論文集、２７〜４ｏ頁、昭和６３年９月に記載さ
れているように、誤差逆伝播法（以後、ＢＰ法と呼ぶ）
を用いた多層パーセプトロン型ニューラルネットワーク
の他に様々なアプローチが試みられている。

従来の音声認識方法には、次のような方法がある。一つ
の方法は、入力音声を音響分析し、各フレーム毎に特徴
ベクトルを抽出し、抽出した特徴ベクトルを時系列の２
次元パターンとしてニューラルネットワークの入力層に
入力して、入力音声を識別できるような教師信号を出力
層に与え、ＢＰ法により各結合の重み係数が学習される
。入力音声は、同じ単語でも発声されるたびに継続時間
長が変わるのに対し、ニューラルネットワークの入力層
のユニット数は一定なので、入力音声データ系列を一定
の長さに正規化し、学習されたニューラルネットワーク
に未知の入力音声の特徴ベクトル系列を入力し、ニュー
ラルネットワークの出力層のユニットの出力値に応じて
入力音声を認識する。

もう一つの方法は、マルチテンプレート方式と呼ばれて
おり、各単語ごとに多数話者の音声データをクラスタ化
して、各クラスタの中心の音声データ又は各クラスタに
属する音声データの平均値を標準パターンとして蓄える
。クラスタ化には複数のアルゴリズムを組合せて用いる
。未知の入力音声に対しては、全単語の全標準パターン
と動的計画法（以後、ＤＰ　（Ｄｙｎａｍｉｃ　　Ｐｒ
ｏｇｒａｍｍｉｎｇ）マツチングと呼ぶ）を行って距離
を計算し、最も距離の小さい標準パターンが属する単語
を発声されたものと判断する。この方法にニューラルネ
ットワークを応用したものとして、出願人等による「音
声認識装置」　（特願平１−３４４０４５号）がある。

上述した従来の方法では、いずれも入力音声の語頭及び
語尾を検出する必要があり、語頭及び語尾により定めら
れる音声区間の検出は、一定のしきい値以上の短時間パ
ワーが一定時間以上継続したか否かによって行われる。

短時間パワーのしきい値としては２種類が設定され、音
声区間は、これら２種類のしきい値を組み合わせること
により、または、短時間パワーの他に零交叉、雑音区間
のスペクトルとの差等を用いて検出する。

しかし、音声は時系列パターンであり、同じ単語でも発
声されるたびに継続時間長が変わり、その内部における
音韻事象の時間変動も線形ではない。また、咳払い、紙
を捲る音等に対しても、誤動作しないことが望ましいが
不要音と認識対象語索とを区別するには、任意の文章音
声中からあらかじめ定められた言葉だけを自動的に抽出
するワードスポツティング方式が必要である。

［発明が解決しようとする問題点コ上述のＤＰマツチングを用いたマルチテンプレート方式
は、認識処理に先立って音声区間の検出が必要で、音声
区間を正しく検出すること自体容易ではなく、特に音声
の始端及び終端の子音及びレベルの低い母音の検出が難
しい。また、音声の終端に付加される呼吸音等を正しく
除去する必要があるが、短時間パワーまたは零交叉数等
を用いる従来の方法では、これらの要求を充分に満たす
ことができないので、音声区間を誤って検出し、認識率
を低下させるという問題がある。

上述のワードスポツティング方式においては、連続ＤＰ
は計算量も多く、また、余計な言葉の付加及び単語音韻
の脱落を生じやすいという問題がある。

上述のニューラルネットワークを用いた方式においては
、ニューラルネットワークの入力層は一定数のユニット
から構成されているので、入力音声区間を正規化しなけ
ればならない。正規化を線形で行うと、音声に含まれて
いると共に識別に必要な音韻に固有の動的な情報が歪曲
または欠落してしまう可能性があり、単語中の非線形な
時間伸縮が補正できない。

また、上述のイベントネットを用いる方式では、音声区
間を各イベントネットの入力層に所定のアルゴリズムで
分割しているので、イベントネットを作用させる前に入
力音声区間の検出が必要であり、検出された音声区間を
一定数で分割する方式を用いているので、イベントネッ
ト等、ニューラルネットワークの標準パターンに相当す
る部分に対応する単語のもつ継続時間長に関する情報が
直接的には入力されず、従って、入力音声の継続時間長
の長短にかかわらず、ニューラルネットワークの出力を
算出して、すべての標準パターンと照合するため、リジ
ェクト能力の低下を生ずる可能性があり、更に、音声区
間内の非線形な時間軸変動に対して、同じイベントネッ
トを時間軸の前後に一定量だけ移動して追従しようとし
ているので、より大きな非線形の時間変動を伴う入力音
声について対応できないという問題がある。

本発明の目的は、安定した重み係数を求め得ると共に、
入力される音声区間内の非線形な時間軸変動に対して音
声の単語中の各音韻の局所的な継続時間のずれに適応で
きるニューラルネットワークを用いた音声認識装置を提
供することにある。

［課題を解決するための手段］本発明によれば、前記目的は、入力音声を音響分析して
得られた特徴量を多層パーセプトロン型ニューラルネッ
トワークの入力層の各ユニットに入力し、出力層の各ユ
ニットとからの出力値に応じて音声認識を行う音声認識
装置であって、入力音声を各フレーム毎に音響分析して
得られた特徴量から該入力音声の始端を検出する検出手
段と、前記検出された入力音声の始端付近から順次、多
数話者の音声サンプルから抽出された時間間隔情報に基
づいて前記特徴量を所定の範囲内で時間的にずらし、当
該時間的にずらされた特徴量のなかで出力値が最大にな
る位置を選択して、認識対象語紮のうち特定の単語の部
分音韻系列との類似度に相当する値を出力するイベント
ネットと、前記イベントネットに接続されており当該イ
ベントネットからの出力の全てを入力し、前記入力音声
に対して前記特定の単語との類似度に相当する値を出力
するワードネットと、前記ワードネットに接続されてお
り当該ワードネットからの出力の全てを入力し、該入力
音声の属する認識分類に応じた値を出力するスーパーネ
ットとを備えていることを特徴とする音声認識装置によ
って遠戚される。

［作用］イベントネットが入力音声に対して、認識対象語索のう
ち特定の単語の部分音韻系列との類似度に相当する値を
出力し、多数話者の音声サンプルを分析することにより
隣接する前記イベントネット間の時間間隔情報を抽出し
、前記入力音声を各フレーム毎に音響分析して得られた
特徴量から該入力音声の始端を検出手段によって検出し
て該特徴量前記イベントネットの入力層の各ユニットに
入力し、前記検出された入力音声の始端付近から順次、
前記抽出された時間間隔情報に基づいて所定の範囲内で
前記イベントネットに入力する特徴量を時間的に移動し
、ワードネットがイベントネットからの出力の全てを入
力し、入力音声に対して特定の単語との類似度に相当す
る値を出力し、スーパーネットがワードネットからの出
力の全てを入力し、入力音声の属する認識分類に応じた
値を出力する。

［実施例］以下、本発明を図面に示す一実施例により詳細に説明す
る。

第３図は、本実施例による音声認識装置の構成を示す。

マイクロホン１０１から入力された音声は、アンプ１０
２によって増幅され、Ａ／Ｄ変換器１０３でアナログか
らディジタルに変換された後、音響分析部１０４に入力
される。

音響分析部１０４では、複数の帯域濾波器（以下、ＢＰ
Ｆという）１０５を用いて入力された音声を音響分析し
、フレーム毎に各Ｂ　Ｐ　Ｆ　１０５の出力パワーの値
を出力する。

また、ネットワークの規模を小さくするために、特徴ベ
クトル１０６をに−Ｌ変換を用いて圧縮部１０７で圧縮
し、入力音声の特徴ベクトル１０６の次元を減少させる
。

圧縮部１０７で圧縮された特徴ベクトルＩＱ６は、検出
手段としての語頭検出部１０８で判定され、その判定結
果により入力音声の始端としての語頭が検出された場合
には、イベントネット群１０９の各イベントネッ）１１
０　　（第１図及び第２図参照）に入力される。

語頭が検出されない場合には、特徴ベクトル１０６は、
イベントネット群ＩＱ９に入力されない。

語頭検出部１０８としては、一定のしきい値以上の値が
一定時間以上継続したか否かに依存する短時間パワーの
他に、零交叉数またはＢＰＦ分析結果を利用した低域パ
ワー比、高域パワー比等を用いることもある。

イベントネット群１０９への特徴ベクトル１０６の送付
は、検出された語頭直後から送るのではなく検出された
語頭より少し前にさかのぼった時点から送る。

このために、圧縮部１０７では圧縮された複数の特徴ベ
クトル１０６から形成された特徴ベクトル系列１１１（
第１図及び第２図参照）を一定フレーム分バッファに貯
えておく必要がある。

入力音声の特徴ベクトル１０６は、各イベントネット１
１０に入力され、各イベントネット１１０からの出力が
各ワードネット１１２にそれぞれ入力される。イベント
ネット１１０　とワードネット１１２との組の数は認識
対象語量の分類数に対応しており、それぞれのワードネ
ット１１２の出力はスーパーネット１１３に入力される
。

入力音声の特徴ベクトル１０６の特定の位置におけるイ
ベントネット１１０の入力層の入力フレーム１１４に相
当する範囲が、イベントネット１１０の入力層に入力さ
れ、特定の認識対象の単語について入力層に入力する入
力フレーム１１４を時間軸方向に移動したものがＮ個（
但し、Ｎは、正の整数）あり、本実施例ではＮ＝５であ
る。

以下、時間軸方向への移動のし方について、認識時の動
作について詳述する。

認識対象の第１番目の単語を認識する第ｊ番目のイベン
トネットの名称をＥｌ、とすると、各Ｅｊ１、の出力層には２つのユニットｃ、”Ｉ　Ｃ，。

１　　」　　　　　　　　　　　　　　　　　　　　　
　　　ＩＪ　　　　　ｌｊがある。

Ｅｌ、が認識を担当している単語（第１番目にＩＪ相当する）の部分音韻系列（単語の継続時間長をｌとお
くと、語頭からｊ／Ｎ付近に相当する）が入力された場
合には、（Ｃ０９，Ｃ−、）＝　　（１，０）ＩＪ　　　　　　ＩＪとなるように学習されている。

逆に、上記の部分音韻系列以外のものが入力された場合
は、（Ｃ，３，Ｃ，、）＝　　（０，１）ＩＪ　　　　　　ＩＪとなるように学習されている。

即ち、Ｃ１はＣ６，が担当する単語中のあるＩＪ　　　
　　ＩＪ時点に対して高い値になる。

時間軸方向へのずらし間隔は、圧縮特徴ベクトル１０６
の１フレームとする。計算量を削減させたいときには、
２フレームとしてもよい。

時間軸方向へのずらし範囲の量、即ちフレームの数をｎ
とすると、Ｅｏ、は前から順に、Ｅ、。

ＩＪ　　　　　　　　　　　　　　　　１ＪＥ、　　　
　　　　、、ｎ１、１ｊ２、・・・・・・、Ｃ９，と呼び、それぞれの
出力をＣ，、Ｃ，・・・・・・、Ｃ１，とｌＪｌ′　　
ｌｊ２ゝ　　　　　ＩＪｎおくと、ワードネットへの入
力としては、このｎ個中の最大値を選択する。

ｎの値は、Ｅ、によって異なり、本実施例では、第１図
に示すようにＥｉｌに対して、ｎ＝５、Ｅ、２に対して
、ｎ＝７に設定されている。第１図においては、各イベ
ントネットのサーチ範囲が横棒の矢印で示されており、
各Ｃ−−（ｊ＝１゜１２、・・・、５）の最大値選択で最大値として選択され
た位置が太い実線で表されている。例えば、Ｅｉｌでは
、Ｅｉｌ２、Ｅｉ２ではＥ、　　がそれ　２５ぞれ選択されている。

Ｅｉｌのサーチ範囲は、検出された語頭を中心として、
その前後に一定量、例えば３フレームずつとするか、ま
たは、多数話者の統計により、単語全体の継続時間長の
標準偏差の定数倍としてもよい。

Ｅｌ、（但し、ｊ〉１）のサーチ範囲は、多数ｊ話者の統計によりあらかじめ求められているＥ。

、と１つ前のＥｌ、　　　（但し、マイナス−の記ＩＪ
−１号は、ｊのみに作用する、以下同様）との時間的な差の
平均ｍ及び標準偏差σ、に基づいて、以下に詳述するよ
うに算出される。尚、平均ｍは、ｊに依存せず一定であ
る。Ｃ，、Ｃ，。

ｚ−１’１Ｊ−２〜・・・、Ｃ９，の中から最大値を選ぶことでＥ・ＩＪ−
ｎｌｊ−１の位置が決定される。例えば、第１図において、
ｊ＝２のときＣ０が最大となって選択１２されている。

Ｃ９，のサーチ範囲は、このｃｏ、　　の最大ＪＩＪ−
１位置を基準にｍ−にσ、からｍ＋にσ、の範囲でｊ　　
　　　　　　　　　　Ｊある。ここでｋは定数で２〜３とする。但し、Ｃ１ｊ−
１の一最大位置よりｍ−にσ、が小さい場合」は、サーチ範囲をｍ−にσｊとする。即ち、サーチ範囲
を（Ｌ、、Ｒ，）と設定すると、ｊ　　　　」Ｌ、＝ＭＡＸ　（ｍ−にσ−，Ｃ、−の最大位置）、」　　　
１ｊ−１Ｒ、＝ｍ＋にσ　。

Ｊ　　　　　　　　　　Ｊとして表される。

第２図は、１６チヤンネルＢＰＦの出力パワーの時系列
とイベントネットＥｉｊに入力する入力フレーム１１４
との間の関係を示す。１６チヤンネルＢＰＦの出力パワ
ーの部分は、縦方向にＢＰＦの番号を示して、各ＢＰＦ
の出力値を結んで連続線で表し、また、横方向に時間を
示している。

第２図は、更に、イベントネットＥｉ２を時間的にシフ
トする場合を示している。各イベントネットＥ１．に、
図示した入力フレーム１１４を入力Ｊし、出力層のユニットからの出力を０１２の値が夫々、
Ｃ１２１、Ｃ１２２、・・・・・・、Ｃ１とす　２７ると、そのうち最大の値を出力しているイベントネット
Ｅ０．　　（ｊ！＝１．２．・・・、７）の出力層１」
ｌのユニットの出力値をワードネット１１２の入力層のユ
ニットに入力する。

ここでも、最大値を出力したＥ、　　が太い実２５線で表されている。図中、ラベルは、ここで用いた音声
サンプル「はちＪ／ｈａｃｈｉ／の音素記号表記であり
、ｈは［ｈコ、ａは［ａコ、Ｃ１は無音区間、ｃｈは［
ｔｆ］、ｉは［ｉコに夫々対応する。

再び第１図を参照すると、第１図では、Ｅｉ□２が選択
されているので、Ｅ　ｓ　２のサーチ範囲は、Ｅ、　　
の位置から始まり、前述の時間間隔情報１３を用いて１＝７までとなっている。

ｊ＝２のとき、Ｃ，、Ｃ，、・・・・・・、Ｃ１２１１
２２ｉ２□の中から、最大値であるＣ１　　が選択さ　２５れる。

最大値選択に際しては、単純にＭＡＸ（Ｃｉｊｌ）とせ
ずに、イベントネットの性質及び計算量により、次のよ
うな変形も考えられる。

まず、第１に、全てのＣ，、（ｊ！＝１．２゜ｆｌ・・・、ｎ）が小さい値の場合は、最大値選択を行わず
に範囲の中心ｊｉｍを選択する。これによりＥｏ、の担
当する単語以外の入力に対して、不必要Ｊな整合を避け、リジェクト能力を高めることができる。

第２に、全てのＣ９−（ｊ！＝１．２．−、ｎ）ｆｌが大きい値のときも上述の場合と同様、ｌ＝ｍとする。

、これにより、長母音等に見られる同じような特徴ベク
トルが長く続く場合に、不自然な整合を避けることがで
きる。

第３に、全てのＣ−−（ｊ！＝１．２．−、　ｍ）Ｊｉが小さい値のときは、サーチ範囲を一定量αだけ拡大し
、ｍ　＝　ｍ　＋　ａとしてｌ＝ｍ＋１、ｍ＋２、・−
・・・・ｍ＋αについてＣ１ｊＪ！を求め、最大値の選
択を行う。これにより、特に発声速度の遅いサンプルに
対して有効に作用する。

第４に、第ｊ番目まで、Ｃｉｊが全て小さい値のときは
、ｊ千１番目以降のイベントネットの計算は行わず、こ
のイベントネットに接続するワードネットの出力を（０
，１）とする。つまり、第１番目の単語については、途
中で計算を打ち切り、次の第−ｉ＋１番目の単語に処理
を進める。ｊの値としては２〜３が適当であり、認識語
量に類似単語が少ない場合は、計算量がおよそ半分に削
減できる。

以上のように、イベントネット１１０は、それぞれ入力
された入力フレーム１１４の特徴ベクトル１０６とイベ
ントネット１１０が識別する特定の単語の部分音韻系列
との類似度に相当する値を出力する。

ワードネット１１２は、入力音声とワードネット１１２
が識別する特定の単語との類似度に相当する値を出力す
る。５つのイベントネット１１０の出力は全てワードネ
ット１１２の入力層に入力される。

ワードネット１１２は、単語全体として入力音声とワー
ドネット１１２が識別する特定の単語との類似度に相当
する値を出力する。認識対象語素数を３０個とすると、
ワードネット１１２は３０個あり、その出力すべてがス
ーパーネット１１３の入力層に入力される。スーパーネ
ット１１３の出力層には、認識対象の分類番号に対応す
る３０個のユニットと。

リジェクトを表す１個のユニットとを備えている。

スーパーネット１１３は、入力音声が認識対象語量の中
にあるなら、その分類番号に対応する出力層のユニット
の出力値が他のユニットに比べ最大になるように各結合
の重み係数を決定する。

入力音声が認識対象語量でない場合、リジェクトに対応
する出力層のユニットの出力値が他のユニットに比べ最
大になる。スーパーネット１１３の出力は、認識結果判
定部１１５に入力される。認識結果判定部１１５では、
スーパーネット１１３の出力層において最大の出力を出
しているユニットのユニット番号を検索して出力する。

出力されたユニット番号の値が結果出力部１１６に入力
され、認識結果が表示される。音響分析部１０４から認
識結果判定部１１５までをディジタルシグナルプロセッ
サ（以下、ＤＳＰと略称）上に構成することが可能であ
る。

実際の認識時においては、語頭検出の直後から各標準パ
ターンのイベントネットＥｉ１の計算を始める。即ち、
時間の経過と共に順次各Ｅｉ□、Ｅ、　　・・・・・・
、のサーチ範囲の特徴ベクトルが入１２ゝ力されるのと同期して、各Ｅ　ｉｌ、Ｅ　ｉ２、・・・
・・・が計算される。

次に、Ｅｉ５の計算が終了した標準パターンから順次そ
のワードネット１１２が計算される。最終的に全ての標
準パターンのワードネット１１２が計算されると、スー
パーネット１１３が計算され、認識結果判定部に処理が
移行する。

従来のように語尾検出の後に認識処理を行うのではなく
、語頭の出直後から認識処理が始まり、発声時間の経過
とほぼ同時に進行してイベントネットＥ１．による認識
処理が行なわれるので認識Ｊ応答時間の大幅な短縮が可能になる。

次に、各ニューラルネットワークの結合の重み係数を求
める方法、即ち学習方法について詳述する。

（Ａ）イベントネットの学習方法本実施例においてイベントネット１１０は、第４図に示
す３層構造の多層パーセプトロン型ニューラルネットワ
ークにより構成されている。

第４図（ａ）は、入力層ユニット２０１１中間層ユニッ
ト２０２、及び出力層ユニワード２０３の結合状態を示
す。入力層ユニット２０１は、特徴ベクトル方向（第４
図（ａ）では紙面に対して垂直方向）に特徴ベクトルの
次元数に等しい数だけ配列されている。音声認識におい
ては、隣接するフレーム間の相関が高く、複数のフレー
ムをまとめて圧縮した方が効率がよいので、本実施例で
は、１６チヤンネルのＢＰＦの２つのフレーム分の出力
パワー値をに−Ｌ変換で６次元に圧縮したデータとフレ
ーム毎のパワーに相当する値とから構成された７次元の
特徴ベクトルを用いており、入力層ユニット２０１は７
つのユニットが特徴ベクトル方向に並列に配置されてい
る。また、入力音声の分析周期がｌＱｍ　ｓで、２つの
フレームを１フレームに圧縮しているため、時間軸方向
（第４図（ａ）では紙面に対して横方向）の入力層ユニ
ット２０１の各ユニット間の時間差は２０ｍ５に相当す
る。中間層ユニット２０２も５つのユニットが特徴ベク
トル方向に並列に配置されている。

第４図で、各中間層ユニット２０２は全ての入力層ユニ
ット２０１　と互いに接続されている。同様に、出力層
ユニット２０３も２つのユニットが特徴ベクトル方向に
並列に配置されている。各出力層ユニット２０３は全て
の中間層ユニット２０２と互いに接続されている。

中間層ユニット２０２及び出力層ユニット２０３の入出
力特性を表す関数としてシグンモイド（ｓｉｇｍｏ　ｉ
　ｄ）関数が用いられている。

第４図（ｂ）は、イベントネット１１０の規模を小型化
し、処理を高速にするために、中間層ユニット２０２と
入力層ユニット２０１　との間の結線を減少して、相互
接続を制限している場合を示す。

音声の場合、互いに離れた特徴ベクトル同士が局所的に
はあまり影響を及ぼさないためにこのような接続が可能
である。

次に学習時の操作について述べる。まず、入力音声の特
徴ベクトル１０６をスペクトログラムにより、音韻に応
じて第１表に示すラベルの種類に分類する。上記ラベル
付けされた特徴ベクトル１０６のうち、ある認識対象語
量の分類に含まれる単語のｎ番目の特徴ベクトル１０６
において、その単語のに番目のラベルＬｋと、（ｋ＋１
）番目のラベル”ｋ＋１との境界の生起時刻、即ち語頭
を時刻０とした場合のラベルＬｋが出現する時刻をｔ。

（ｎ）、単語長（全体の継続時間）をＷ（ｎ）とし、学
習に用いる同−分類内の単語数をＮ　とすると、ラベル
Ｌ　とラベルＬ　　　の境界の平均ｋ　　　　　　ｋ＋
１界を、ラベルの標準パターンと呼ぶ。

第５図（ａ）に単語／　ｉ　ｃ　ｈ　ｉ　／のラベルの
標準パターンを示す。第５図（ａ）において矢印は、イ
ベントネット１１０に入力すべき特徴ベクトル１０６の
中心フレーム（イベントネット１１０の入力層は７フレ
ームに相当するので、７フレームの内の先頭から４フレ
ーム目のこと）を示す。入力すべき特徴ベクトル１０６
の中心フレームは、１つ目から５つ目のイベントネｙＮ
１０の夫々の中心フレームが等間隔に並ぶよう決定され
る。

第５図（ｂ）を参照すると、上述のようにラベルの標準
パターンを作成し、実際に、学習時において個々のイベ
ントネット１１０の中心フレームは、標準パターンと単
語のラベルパターンとを比較することで同じ部分音韻系
列の特徴量が入力される位置に決定され得る。

上述のように中心フレームが決定された位置から、音声
の特徴ベクトル１０６をイベントネット１１０の入力層
に入力すると、発声の変動で音韻の時系列が非線形に伸
縮していても、常に一定の部分音韻系列の特徴ベクトル
１０６が入力される。

認識対象語業のｉ番目の分類を認識するｊ番目のイベン
トネット１１０の名称をＥｌ、とすると、ｊイベントネットＥ１、の出力層には２つのユニツＪトＣ・　・、Ｃ・　・がある。

１　　ｊ　　　　　ＩＪ認識すべき認識対象の部分音韻系列が入力された場合、（Ｃ・　・、Ｃ・　・）＝ＩＪ　　　　　　ＩＪという教師信号を与える。

（１，Ｏ）上記の部分音韻系列以外のものが入力された場（Ｃ，、
、Ｃ，、）＝　（０，１）１３　　　　１Ｊという教師信号を与えて学習を行う。

学習時の高速化をはかるため、教師信号のうち、１を０
．９、Ｏを０．１として学習を行ってもよい。

また、教師信号を簡単に作成するために、認識すべき単
語が入力された場合、（Ｃ・　・、Ｃ・　・）＝（１，０）ＩＪ　　　　　　ＩＪを教師信号として用いてもよく、その他の単語が入力された場合、（Ｃ，、、Ｃ，、）＝　（０，１）ＩＪ　　　　　　１３を教師信号として用いてもよい。

このようにして、イベントネットＥ９、の冬枯ｌ　」合の重み係数を求める。

イベントネットＥ１．が、認識すべき単語以外ｊの単語を学習する場合、夫々のイベントネットＥ３、の
中心フレームは、標準パターンで中心フレＪ −ムを決定したときと同様の方法、即ち各イベントネッ
トＥ０．を等間隔に配置する方法で決定さＩＪれ得る。

学習を行ったイベントネットＥ１、は、認識すＩＪべき単語の部分音韻が入力された場合には、Ｃ１、のユ
ニットの出力値が最大に、Ｃ１，のユニッＪ　　　　　
　　　　　　　　　　　ＩＪトの出力値が最小に、逆に
その他の部分音韻が入力されたときにＣ１，のユニット
の出力値が最小Ｊに、Ｃ１，のユニットが最大になる。

ｌ　」イベントネットＥ０．の数は、５つに限定するＩＪ必要はなく、認識する単語毎に可変として、例えば（単
語の音節数）＋２個としてもよい。

（Ｂ）ワードネットの学習ワードネットの構成は、第６図のような３層または２眉
のパーセプトロン型ニューラルネットワークである。出
力層のユニットをＣ８、Ｃ１と呼１ぶ。以下に、学習時のデータの与え方について述べる。

第１に、認識すべき単語が学習サンプルの場合は、各イ
ベントネット１１０は、イベントネット１１］自体の学
習時に定めたように、ラベル−の情報に基づいて時間軸
の非線形変動を取り除いた位置を用いる。そして、ワー
ドネット１１２への入力は、この時の各イベントネット
１１Ｇの出力を用いる。

この時のワードネット１１２の教師信号は、（Ｃ１，Ｃ
０）＝　（１，０）１であり、各イベントネット１１０は、それぞれ最も望ま
しい位置で出力するので、実際の認識時に近い学習にな
る。

第２に、認識すべき以外の単語が学習サンプルの場合は
、各イベントネット１１０の時間軸方向のシフトは、本
実施例では３回とする。この回数は、固定されたもので
はなく、計算量との兼ね合いで３回よりも多く設定して
よい。

イベントネット１１Ｇは、５つで、それぞれが３回シフ
トするので合計１５個の配置を決定する必要があり、配
置は等間隔である。

（Ｃ）スーパーネットの学習第７図に示すように、スーパーネット１１３は、３ｍの
パーセプトロン型ニューラルネットワークから構成され
ている。本丈施例では、認識対象の誘電数が３０個なの
で、入力層のユニット６０１のユニット数は６０個とな
る。入力層のユニット６０１にはそれぞれのワードネッ
ト１１０の出力値が入力される。中間層のユニット６０
２のユニット数は３０個とする。出力層のユニット６０
３は、認識対象の誘電のカテゴリ一番号に対応するユニ
ット３０個と、リジェクトを表すユニット１個との合計
３１個のユニットを備えている。

入力音声が認識し得る語索に含まれる場合は、そのカテ
ゴリ一番号を１とすると、出力層のユニットｃ　　　ｃ
　　　、、、Ｃ３１に、１゛２゛（ＣＣ、Ｃ、Ｃ）＝１’　　　２’　　　　Ｉ’　　　　３１（０，０，、
１，、０）として、１番目のユニットだけが１の値を有し、その他
のユニットがＯになるような教師信号を与えて学習する
。

また、入力音声が認識し得る誘電に含まれない場合出力
層の各ユニットに（ＣＣ、、、Ｃ３ｏ、　Ｃ３１）＝１・　　２′ （０，０，、、，０，１）として、Ｃ３１のユニットだけが１の値を有し、その他
のユニットがＯになるような教師信号を与えて学習する
。

以上のようにして、各ネットワークの各結合の重み係数
を求めておく。

次に、認識時には、入力音声の特徴ベクトル１０６が入
力されると、パワーしきい値を用いた切り出し等の手法
で、入力音声の語頭のフレームを検出し、前述の手法を
用いて、検出された語頭より少し手前のフレームから第
１番目のイベントネットから順次作用させて行く。

最終的に第５番目のイベントネット１１０の最大出力値
が観測された時点で、ワードネット１１２の入力値が定
まり、その入力値に対応する出力値も決定される。各認
識単語毎に、このようにワードネット１１２の出力値を
算出し、これらを、スーパーネット１１３の入力とする
。スーパーネット１１３の出力は、第３図の認識結果判
定部１１５に送られ、認識結果が得られる。この時の判
定アルゴリズムを第８図に示す。第８図において、θは
スーパーネット１１３の各出力層のユニット６０３から
の出力値の最大値が所定の値よりも小さい場合に、リジ
ェクトするか否かを決定するしきい値であり、本実施例
ではθ＝０．５である。

［発明の効果コ本発明の音声認識装置によれば、話者及び発声の違いに
より、単語中の各音韻の継続時間が非線形的に変動する
ことを、各イベントネットに入力される特徴ベクトル系
列の範囲をイベントネット間の時間間隔情報に基づいて
、語頭から順に適切に選択することで、時間軸を整合し
て同じ部分音韻系列が常に同じイベントネットに入力さ
れるので、イベントネットを語頭から順に適切に選択す
ることによって語尾の検出を行うことができる。

従って、ニューラルネットワークの各結合の重み係数を
安定して求めることができ、ニューラルネットワークの
規模を縮小することができと共に、計算量を削減でき、
語尾付近の付加雑音及びパヮ−の小さい語尾音韻、話者
及び発声の変動に対して高い認識性能を得る。また、語
頭の検出直後からイベントネットによる認識処理が発声
時間の経過と共にほぼ同時進行で実行され、発声終了後
の主な認識処理が、ワードネット及びスーパーネットの
計算だけなので、認識応答時間の大幅な短縮ができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１図に示した実施例を「ハチ／ｈａｃｈｉＪの音声認
識に対して示した図、第３図は本発明の一実施例におけ
る構成図、第４図（ａ）及び第４図（ｂ）は本発明の一
実施例におけるイベントネットの構成図、第５図（ａ）
及び第５図（ｂ）は本発明の一実施例におけるラベルと
イベントネットの中心フレームとの関係を示す図、第６
図（ａ）及び第６図（ｂ）は本発明の一実施例における
ワードネットの構成図、第７図はスーパーネットの構成
図、第８図は認識結果判定部の判定アルゴリズムを示す
図、である。１０１・・・マイク、１０２・・・アンプ、１０３・・
・Ａ／Ｄ変換器、１０４・・・音響分析部、１０５・・
・ＢＰＦ、ＨＩ６・・・特徴ベクトル、１０７・・・圧
縮部、１０８・・・語頭検出部、１０９・・・イベント
ネット群、１１０・・・イベントネット、１１１・・・
特徴ベクトル系列、１１２・・・ワードネット、１１３
・・・スーパーネット、１１４・・・入力フレーム、１
１５・・・認識結果判定部、１１６・・・結果出力部。第１表ｊｌｉ２図（ａ）（ｂ）第４図第５図第７図ＣｉＣｉＣｉ。１Ｃｉ２Ｃｉ２Ｃ；３Ｃｉ３Ｃｉ４１４Ｃｉｓ　Ｃ＋５（ａ）Ｃｉ。Ｃｉ＋Ｃｌ２Ｃ；２Ｃｉ３　Ｃｉ３１４１４Ｃｉ５　ｃｉｓ（ｂ）第６図

Claims

【特許請求の範囲】

入力音声を音響分析して得られた特徴量を多層パーセプ
トロン型ニューラルネットワークの入力層の各ユニット
に入力し、出力層の各ユニットとからの出力値に応じて
音声認識を行う音声認識装置であって、入力音声を各フ
レーム毎に音響分析して得られた特徴量から該入力音声
の始端を検出する検出手段と、前記検出された入力音声
の始端付近から順次、多数話者の音声サンプルから抽出
された時間間隔情報に基づいて前記特徴量を所定の範囲
内で時間的にずらし、当該時間的にずらされた特徴量の
なかで出力値が最大になる位置を選択して、認識対象語
彙のうち特定の単語の部分音韻系列との類似度に相当す
る値を出力するイベントネットと、前記イベントネット
に接続されており当該イベントネットからの出力の全て
を入力し、前記入力音声に対して前記特定の単語との類
似度に相当する値を出力するワードネットと、前記ワー
ドネットに接続されており当該ワードネットからの出力
の全てを入力し、該入力音声の属する認識分類に応じた
値を出力するスーパーネットとを備えていることを特徴
とする音声認識装置。