JP3533773B2

JP3533773B2 - 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置

Info

Publication number: JP3533773B2
Application number: JP21567495A
Authority: JP
Inventors: 俊之小高; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-08-24
Filing date: 1995-08-24
Publication date: 2004-05-31
Anticipated expiration: 2015-08-24
Also published as: JPH0962292A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、時系列パターン認識装
置に係り、特に、認識対象外のパターンが入力された場
合にそれを検出することができるリジェクト方法および
それを実装した時系列パターン認識装置に関するもので
ある。

【０００２】なお、リジェクト方法あるいはリジェクシ
ョンとは、認識処理が「認識対象外データの入力」ある
いは「（確度の高い）認識結果の該当なし」等を認識結
果として出力する機能である。

【０００３】

【従来の技術】一般に認識処理は、認識対象として予め
与えられている基準データのうち、入力データに一番類
似している基準データを認識結果として出力する。

【０００４】音声、音楽、筆記文字、手話、ジェスチ
ャ、動画像、等は時系列パターンに変換し、これを例え
ば統計的な手法であるＨＭＭ（Hidden Markov Model）
を用いて、認識できる。これらの認識技術を様々な応用
システムに組み込み実用化するにあたっては、リジェク
ションが必須の機能である。なぜならば、例えば音声認
識応用システムの場合、利用者の発声内容を誤認識した
結果でシステムが誤動作を起こすよりも、リジェクショ
ンを組み込み、利用者に再発声を促すような仕組みを持
たせた方が使い勝手が良くなる。

【０００５】リジェクションの実現方法として、確率値
に対して予め絶対的なしきい値を設けてリジェクション
を行うことが考えられる。しかし、認識結果が同じで
も、入力データの生成環境が異なればＨＭＭで得られる
確率値自身も変動するので、絶対的なしきい値の設定は
困難である。

【０００６】これに対して、確率値に相対的なしきい値
を設定するリジェクションがある。音声認識における例
としては、”渡辺他：音節認識を用いたゆう度補正によ
る未知語発話のリジェクション、電子情報通信学会論文
誌、Ｖｏｌ．Ｊ７５−ＤーＩＩ、Ｎｏ．１２、ｐｐ．２
００２−２００９”に示される方法がある。この方法
は、アプリケーションに関する認識対象の単語あるいは
文を表す第１のＨＭＭネットワーク（標準パターンに相
当する）の照合を行い、さらにこの第１のネットワーク
とは別に、音節の並びに制約のない音節列を表す第２の
ＨＭＭネットワークに対する照合（音節タイプライタと
も言う）も行う。ここで、第２のＨＭＭネットワーク照
合結果の確率値を相対的に参照することでリジェクショ
ンを実現する。

【０００７】

【発明が解決しようとする課題】上記のような従来の時
系列パターン認識処理におけるリジェクト方法では、第
２のＨＭＭネットワークの照合処理に伴う処理量および
処理に必要な記憶容量が増加してしまうという課題があ
った。計算量が増えれば、応答速度が遅くなる問題が生
じる。また、計算機資源が限られた環境では使用する記
憶容量をできる限り節約する必要がある。例えば携帯端
末の入力手段の１つとして音声認識等の応用を考えた場
合には、同レベルの機能が消費電力の観点からも計算量
や記憶容量をできる限り少なくすることが要求される。

【０００８】本発明の目的は、オートマトン等を含む確
率モデルに基づく時系列パターンの認識処理において、
処理量及び記憶容量を増加させないリジェクト方法を提
供することにある。特に、オートマトンの一種であるＨ
ＭＭを用いたリジェクト方法を提供する。

【０００９】本発明の他の目的は、認識対象を表すＨＭ
Ｍネットワークの照合処理以外に、処理量および記憶容
量を増加させないリジェクト方法およびそのリジェクト
方法を実装した時系列パターン認識装置を提供すること
にある。特に、認識対象外の音や音声入力、あるいは一
部が欠落した音声（無声化音声）の誤入力による誤動作
を防ぐリジェクト方法およびそのリジェクト方法を実装
した音声認識装置を提供する。

【００１０】

【課題を解決するための手段】上記の目的を達成するた
めに本発明では、時系列入力パターンに対するＨＭＭネ
ットワーク上の各状態の確率計算を終了した時点で、認
識対象を表すＨＭＭネットワークで終端となりうる状態
のうち最大確率を持つ状態から得られる最適パスと、認
識対象を表すＨＭＭネットワークで全状態のうち最大確
率を持つ状態を求め、該ＨＭＭネットワークの全状態の
うち最大確率を持つ状態が前記最適パス上の状態でない
場合にリジェクションと判定することで、認識対象外の
パターン入力を検出し、誤動作を防ぐリジェクト方法、
およびそのリジェクト方法を実装した時系列パターン認
識装置が提供される。

【００１１】具体的な本発明の構成では、オートマトン
等を含む確率モデルに基づく時系列パターン認識処理に
おいて、時系列入力パターンに対する確率モデル上の各
状態の確率計算を終了した時点で、認識対象を表す確率
モデルで終端となりうる状態のうち最大確率を持つ状態
から得られる最適パスと、認識対象を表す確率モデルで
全状態のうち最大確率を持つ状態を求め、前記全状態の
うち最大確率を持つ状態が前記最適パス上の状態でない
場合にリジェクションと判定する。

【００１２】また、本発明の他の構成ではオートマトン
等を含む確率モデルに基づく時系列パターン認識処理に
おいて、時系列入力パターンに対する確率モデル上の各
状態の確率計算を終了した時点で、認識対象を表す確率
モデルで終端となりうる状態のうち最大確率を持つ状態
と、認識対象を表す確率モデルで全状態のうち最大確率
を持つ状態を求め、前記２つの最大確率を持つ状態の確
率値を比較し、確率値の差が予め定めたしきい値より大
きい場合にリジェクションと判定する。

【００１３】ＨＭＭを利用する際の具体的な構成では、
ＨＭＭに基づく時系列パターン認識処理において、時系
列入力パターンに対するＨＭＭネットワーク上の各状態
の確率計算を終了した時点で、認識対象を表すＨＭＭネ
ットワークで終端となりうる状態のうち最大確率を持つ
状態から得られる最適パスと、認識対象を表すＨＭＭネ
ットワークで全状態のうち最大確率を持つ状態を求め、
前記全状態のうち最大確率を持つ状態が前記最適パス上
の状態でない場合にリジェクションと判定する。

【００１４】ＨＭＭを利用する際の具体的な他の構成で
は、ＨＭＭに基づく時系列パターン認識処理において、
時系列入力パターンに対するＨＭＭネットワーク上の各
状態の確率計算を終了した時点で、認識対象を表すＨＭ
Ｍネットワークで終端となりうる状態のうち最大確率を
持つ状態と、認識対象を表すＨＭＭネットワークで全状
態のうち最大確率を持つ状態を求め、前記２つの最大確
率を持つ状態の確率値を比較し、確率値の差が予め定め
たしきい値より大きい場合にリジェクションと判定す
る。

【００１５】本発明の音声認識装置は、音声を電気信号
として取り込む音声入力手段と、該入力音声の特徴を時
系列パターンに変換して出力する音声分析手段と、認識
対象となる音声パターンを表すＨＭＭネットワークを保
持する記憶手段と、該記憶手段に記憶されているＨＭＭ
ネットワークと前記時系列パターンとを照合してＨＭＭ
ネットワーク上の各状態の確率を計算する照合手段と、
前記ＨＭＭネットワークで終端となりうる状態のうち最
大確率を持つ状態から得られる最適パスを求める最適パ
ス算出手段と、前記ＨＭＭネットワークで全状態のうち
最大確率を持つ状態を求める最大尤度算出手段と、上記
最大確率を持つ状態が上記最適パス上の状態であるか否
かを判定し、上記最適パス上にない場合には「該当無
し」との認識結果を出力する判定手段を有する。

【００１６】この判定手段は、上記最適パス確率を求め
て上記最大確率と比較し、該比較結果が所定の閾値より
大きい場合には「該当無し」との認識結果を出力する判
定手段としてもよい。

【００１７】

【作用】本発明によれば、認識対象を表すＨＭＭネット
ワークの照合処理のみで、認識対象外パターンの検出が
可能となるので、処理量および記憶容量をほとんど増加
させることなくリジェクションを実現できる。

【００１８】

【実施例】以下、図を用いて本発明の実施例を説明す
る。なお、ＨＭＭによるパターン認識の詳細な説明は、
例えば”中川聖一：確率モデルによる音声認識、電子情
報通信学会、１９８８”等にあり、ここでは詳細は述べ
ない。また、本発明ではＨＭＭ等の認識単位モデルの種
類を限定しない。

【００１９】図１は、本発明の処理手順の一実施例を示
すフローチャートである。図２は、ＨＭＭネットワーク
の一例を示す図である。

【００２０】図１のフローチャートに基づいて本発明の
処理手順を説明する。まず、入力されるパターンに対し
て、ＨＭＭネットワーク上の確率を計算する（１００
１）。入力パターンは時系列パターンで、例えばアルフ
ァベット等のシンボル列で表すと、「ａａａａｂｃｃｃ
ｃｄｄ」のような時系列パターンになる。初期設定で
は、始端の状態（図２でＳs）に確率１を与え、その他
の状態は確率０とする。その後は単位時間毎に、確率を
持つ状態（Ｓ1）が、アークで繋がれた状態（Ｓ2）に遷
移し、かつその時刻の入力シンボルが出現する確率を求
め、後の状態Ｓ2の新たな確率とする。最終時点では、
ＨＭＭネットワーク上で遷移の伝わった状態がそれぞれ
確率値を持つことになる。通常、この最終時点でＨＭＭ
ネットワーク上の終端となり得る状態（図２でＳf1、Ｓ
f2、Ｓf3、…）のみの間でその確率の大小を比較し、そ
の中で一番確率の高い状態が求められ、そこに至ったＨ
ＭＭネットワーク上のパスが認識結果の候補として選択
される（１００２）。図２の例では、”ＡＢＣ”であ
る。ここで求めた状態をＳbestとし、選択されたパスを
Ｒbestとする。本発明では、さらに、ＨＭＭネットワー
ク上の全状態の中で一番確率の高い状態を求める（１０
０３）。ここで得られる状態をＳmaxとする。次に状態
ＳmaxがパスＲbest上の状態の１つであるか検査する
（１００４）。ここで、もしＳmaxがパスＲbest上の状
態の１つであれば、Ｒbestに対応するパターン（”ＡＢ
Ｃ”）を認識結果として出力し（１００５）、Ｓmaxが
パスＲbest上の状態でなければ、”該当なし”を認識結
果として出力する（１００６）。”該当なし”を出力す
る機能がリジェクションである。

【００２１】ここで、ＲbestとＳmaxはそれぞれ同じ確
率を持ったパスあるいは状態が複数個ずつ求められるケ
ースもあり得るが、同様な考え方でＳmaxがＲbest上の
状態となる組み合わせがある場合その結果を出力し、な
い場合はリジェクションと判定すれば良い。

【００２２】入力パターンが認識対象内のデータとして
非常に尤もらしい場合には、照合がうまく行われ、Ｓbe
stとＳmaxは一致するはずである。ただし、認識対象外
の入力の場合は、必ずしもこれらが一致するとは限らな
い。これは、与えられたＨＭＭネットワークの一部分
で、最大確率を持つ状態Ｓmaxに至ったパスから入力さ
れた認識対象外の時系列パターンの認識結果が無理矢理
に近似解として求められることを意味している。ＨＭＭ
ネットワークが大きければ大きいほど、そのネットワー
クの表現の広さから真の解に近い近似解が得られ易くな
り、認識対象外の入力の検出がしやすくなる。音声認識
装置の場合を例にとると、ネットワークが十分大きけれ
ば、１音節ずつ認識する音節認識した場合と十分近似し
た結果が得られることになる。また、認識対象外入力の
検出の場合と同様の原理で、息、咳、咳払い等の短い雑
音をリジェクトでき、さらに未知語もリジェクトでき
る。また、無声化音声などに対する音声区間検出処理の
ミスを検出できる。

【００２３】なお、図１における１００３と１００４の
処理量は、入力パターンに対するＨＭＭネットワークの
確率計算（１００１）に比較すれば無視できるほど小さ
い。また、本方法では面倒なしきい値の設定が不要であ
るという特徴がある。

【００２４】図３に、本発明による処理手順の他の実施
例を示す。本実施例は、先の実施例に対して、確率値に
しきい値を設定し、リジェクト判定する点が異なる。

【００２５】図３のフローチャートに基づいて本発明の
処理手順を説明する。まず、入力されるパターンに対し
て、ＨＭＭネットワーク上の確率を計算する（２００
１）。通常、この最終時点でＨＭＭネットワーク上の終
端となり得る状態のみの間でその確率の大小を比較し、
その中で一番確率の高い状態が求められ、そこに至った
ＨＭＭネットワーク上のパスが認識結果の候補として選
択される（２００２）。ここで求めた状態をＳbestと
し、選択されたパスをＲbestとする。ここまでは、図１
を使って説明した１つ目の実施例と同じである。さらに
Ｓbestでの確率をＰbestとして保持する（２００２）。
次に、ＨＭＭネットワーク上の全状態の中で一番高い確
率Ｐmaxを求める（２００３）。次に、ＰmaxとＰbestの
差を入力パターンの長さ（フレーム数Ｎとする）で割っ
て正規化した値を参照確率値（ΔＰ）として求める（２
００４）。次にΔＰと予め設定したしきい値（Ｐth）を
比較検査する（２００５）。ここで、もしΔＰがＰthよ
りも小さければ、Ｐbestに対応するパターンを認識結果
として出力し（２００６）、ΔＰがＰthよりも大きけれ
ば、”該当なし”を認識結果として出力する（２００
６）。

【００２６】図４は、本発明によるパターン認識装置の
構成を示すブロック図である。

【００２７】図４において、ＨＭＭネットワーク格納手
段１０２は、認識対象を表現するＨＭＭネットワークを
格納する。本発明では、ＨＭＭネットワーク格納手段１
０２におけるＨＭＭネットワークの格納方法は限定され
ない。照合手段１０１は、入力パターンが、前記ＨＭＭ
のネットワークに表現されている個々のパターンとなる
確率を算出する。最適パス算出手段１０３は、照合手段
１０１から得られる確率のうち終端となり得る状態から
得られて、かつその中で最大の確率を求め、その確率を
持つ最適パスを求める。最大尤度状態算出手段１０４
は、照合手段から得られる全確率の中で最大の確率を求
め、その確率を持つ状態を求める。判定手段１０５は、
最適パス算出手段１０３から求められる最適パス上に最
大尤度状態算出手段１０４から求められる状態が存在し
ているかどうかを判定し、存在する場合は、最適パス算
出手段１０３から求められる最適パスで表現されるパタ
ーンを認識結果として出力し、存在しない場合は、リジ
ェクションを認識結果として出力する。

【００２８】図５は、本発明に係る音声認識装置の一実
施例を示すブロック図である。

【００２９】図５において、音声入力手段２０６は、マ
イクとアナログ−デジタル変換器からなり、空気振動で
ある音声波形を入力とし、一定のサンプリング周期でサ
ンプリングされた振幅値のデータ列を出力する。音声分
析手段２０７は、音声入力手段２０６の出力であるデー
タ列を一定時間間隔あるいは一定個数分ずつ分析処理
し、入力されたデータ列の特徴をいくつかのパラメータ
を含む特徴ベクトル列に変換して出力する。ここでの特
徴ベクトル列は、図１に関する説明の中でのシンボル列
に相当する。本発明は、この分析処理のパラメータの種
類を限定しない。例えば、ＬＰＣケプストラム係数や短
区間パワー値等を用いることができるが、その他のパラ
メータも含め詳細は”古井：音響・音声工学、近代科学
社、１９９２”等にある。続いて、ＨＭＭネットワーク
格納手段２０２は、認識対象（文あるいは単語）を表現
するＨＭＭネットワークを格納する。本発明では、ＨＭ
Ｍネットワーク格納手段２０２におけるＨＭＭネットワ
ークの格納方法は限定されない。照合手段２０１は、入
力パターンである前記特徴ベクトル列が、前記ＨＭＭの
ネットワークに表現されている個々のパターンとなる確
率を算出する。最適パス算出手段２０３は、照合手段２
０１から得られる確率のうち終端となり得る状態から得
られて、かつその中で最大の確率を求め、その確率を持
つ最適パスを求める。最大尤度状態算出手段２０４は、
照合手段から得られる全確率の中で最大の確率を求め、
その確率を持つ状態を求める。判定手段２０５は、最適
パス算出手段２０３から求められる最適パス上に最大尤
度状態算出手段２０４から求められる状態が存在してい
るかどうかを判定し、存在する場合は、最適パス算出手
段２０３から求められる最適パスで表現されるパターン
を認識結果として出力し、存在しない場合は、リジェク
ションを認識結果として出力する。判定手段２０５にお
いては、図１とその説明に示すリジェクト方法を用いれ
ばよい。

【００３０】また、判定手段２０５においては、第３図
に示したように、ＨＭＭネットワーク上の終端となりえ
る状態の確率の中で一番確率の高い状態の確率（Ｐbes
t)とＨＭＭネットワーク上の全状態の中で一番高い確率
とを比較検査し、その差が所定の閾値よりも大きい場合
には「該当無し」を認識結果として出力してもよい。

【００３１】

【発明の効果】本発明によれば、処理量および記憶容量
をほとんど増加させることなくリジェクションを実現で
きる効果が得られる。例えば、音声認識に応用した場合
は、息、咳、咳払い等の短い雑音をリジェクトでき、さ
らに未知語もリジェクトできる。また、無声化音声に対
する音声区間検出処理のミスを検出できる効果が得られ
る。したがって、本発明のリジェクション方法を実装し
た応用システムでは、利用者の誤入力や認識処理の誤認
識に起因するシステムの誤動作を防げる。

【００３２】なお、本発明によるリジェクションは、Ｈ
ＭＭネットワークが大規模になればなるほど任意の入力
パターンを表現でき、効果がでやすくなる。

【００３３】

【図面の簡単な説明】

【図１】本発明の処理手順の一例を示すフローチャート
である。

【図２】本発明におけるＨＭＭネットワークの一例を示
すブロック図である。

【図３】本発明の処理手順の他の例を示すフローチャー
トである。

【図４】本発明による時系列パターン認識装置の構成の
一実施例を示すブロック図である。

【図５】本発明による音声認識装置の構成の一実施例を
示すブロック図である。

【符号の説明】

１０１…照合手段、１０２…ＨＭＭネットワーク格納手
段、１０３…最適パス算出手段、１０４…最大尤度状態
算出手段、１０５…判定手段。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平９−62290（ＪＰ，Ａ) 渡辺，塚田，音節認識を用いた尤度補正による未知発話のリジェクション, 電子情報通信学会論文誌Ｄ−ＩＩ，日本，1992年12月，ＶｏｌｕｍｅＪ75− Ｄ−ＩＩ，Ｐａｇｅｓ 2002−2009 小高，天野，音声認識におけるリジェクト方式の検討，日本音響学会平成７年度秋季研究発表会講演論文集，日本, 1995年９月，３−２−５，Ｐａｇｅｓ 115−116 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28

Claims

(57)【特許請求の範囲】

【請求項１】確率モデルに基づく時系列パターン認識処
理において、時系列入力パターンに対する確率モデル上の各状態の確
率計算を終了した時点で、認識対象を表す確率モデルで終端となりうる状態のうち
最大確率を持つ状態から得られる最適パスと、前記認識
対象を表す確率モデルで全状態のうち最大確率を持つ状
態を求め、前記全状態のうち最大確率を持つ状態が前記
最適パス上の状態でない場合にリジェクションと判定す
ることを特徴とするリジェクト方法。
【請求項２】確率モデルに基づく時系列パターン認識処
理において、時系列入力パターンに対する確率モデル上の各状態の確
率計算を終了した時点で、認識対象を表す確率モデルで
終端となりうる状態のうち最大確率を持つ状態と、前記
認識対象を表す確率モデルで全状態のうち最大確率を持
つ状態を求め、前記２つの最大確率を持つ状態の確率値
を比較し、確率値の差が予め定めたしきい値より大きい
場合にリジェクションと判定することを特徴とするリジ
ェクト方法。
【請求項３】ＨＭＭに基づく時系列パターン認識処理に
おいて、時系列入力パターンに対するＨＭＭネットワー
ク上の各状態の確率計算を終了した時点で、認識対象を
表すＨＭＭネットワークで終端となりうる状態のうち最
大確率を持つ状態から得られる最適パスと、前記認識対
象を表すＨＭＭネットワークで全状態のうち最大確率を
持つ状態を求め、前記全状態のうち最大確率を持つ状態
が前記最適パス上の状態でない場合にリジェクションと
判定することを特徴とするリジェクト方法。
【請求項４】ＨＭＭに基づく時系列パターン認識処理に
おいて、時系列入力パターンに対するＨＭＭネットワー
ク上の各状態の確率計算を終了した時点で、認識対象を
表すＨＭＭネットワークで終端となりうる状態のうち最
大確率を持つ状態と、前記認識対象を表すＨＭＭネット
ワークで全状態のうち最大確率を持つ状態を求め、前記
２つの最大確率を持つ状態の確率値を比較し、確率値の
差が予め定めたしきい値より大きい場合にリジェクショ
ンと判定することを特徴とするリジェクト方法。
【請求項５】音声を電気信号として取り込む音声入力手
段と、該入力音声の特徴を時系列パターンに変換して出力する
音声分析手段と、認識対象となる音声パターンを表すＨＭＭネットワーク
を保持する記憶手段と、該記憶手段に記憶されているＨ
ＭＭネットワークと前記時系列パターンとを照合してＨ
ＭＭネットワーク上の各状態の確率を計算する照合手段
と、前記ＨＭＭネットワークで終端となりうる状態のうち最
大確率を持つ状態から得られる最適パスを求める最適パ
ス算出手段と、前記ＨＭＭネットワークで全状態のうち最大確率を持つ
状態を求める最大尤度算出手段と、上記最大確率を持つ
状態が上記最適パス上の状態であるか否かを判定し、上
記最適パス上にない場合には「該当無し」との認識結果
を出力する判定手段を有することを特徴とする音声認識
装置。
【請求項６】音声を電気信号として取り込む音声入力手
段と、該入力音声の特徴を時系列パターンに変換して出力する
音声分析手段と、認識対象となる音声パターンを表すＨＭＭネットワーク
を保持する記憶手段と、該記憶手段に記憶されているＨ
ＭＭネットワークと前記時系列パターンとを照合してＨ
ＭＭネットワーク上の各状態の確率を計算する照合手段
と、前記ＨＭＭネットワークで終端となりうる状態のうち最
大確率を持つ状態から得られる最適パスを求める最適パ
ス算出手段と、前記ＨＭＭネットワークで全状態のうち最大確率を持つ
状態を求める最大尤度算出手段と、上記最適パス確率を
求めて上記最大確率と比較し、該比較結果が所定の閾値
より大きい場合には「該当無し」との認識結果を出力す
る判定手段を有することを特徴とする音声認識装置。