JP2020162765A

JP2020162765A - 認識システム及び認識方法

Info

Publication number: JP2020162765A
Application number: JP2019064938A
Authority: JP
Inventors: 岡田　光弘; Mitsuhiro Okada; 岡田　　光弘; 谷田部　祐介; Yusuke Yatabe; 祐介谷田部; 洋輝大橋; Hiroki Ohashi; 克行中村; Katsuyuki Nakamura; 拓杜佐藤; Takuto SATO
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-08

Abstract

【課題】複数のセンサのうち、一部のセンサデータが何らかの原因で欠損、又は異常値であるようなときでも認識率を安定させる。【解決手段】異常検出部１４〜１６と、行動認識部７〜１３と、出力選択部１７とを備える。異常検出部１４〜１６は、異なるパターンのセンサデータを出力する各センサ部１〜３のセンサデータについて異常の有無を検出し異常検出結果を出力する。認識部７〜１３は、複数の認識結果を出力する。出力選択部１７は、複数の認識結果と、各センサ部１〜３のセンサデータの異常検出結果とを入力として最終的な認識結果を出力する。複数の認識結果は、センサデータの一部又は全部と、いずれかの他の認識部の認識結果との少なくとも一つを入力とした認識の結果である。出力選択部１７は、異常の検出されたセンサデータ又はそれに基づく認識結果を入力とした認識結果以外のいずれかの認識結果を選択する。【選択図】図１

Description

本発明は、センサデータを用いて静止物又は動作を認識するシステム及び方法に関する。

監視システムや、ライフログ、顧客行動ごとのマーケティング等のために、カメラや加速度センサ等のセンサから得られるデータを分析して、人間の行動を認識したいという需要がある。このような需要に対し、これまでに数多くの行動認識技術が開発されてきた。

行動認識技術の中でも、代表的な方法は、認識対象となる行動ごとに、学習データ（それぞれの行動が実際に行われた際のセンサデータと、その行動名のラベルデータ）を収集し、ニューラルネットワークやＳＶＭ（Support Vector Machine）等の手法を用いて、センサデータと行動ラベルとの対応付けを学習する方法であった。

ＳＶＭは、現在知られている手法の中でも認識性能が優れた学習モデルの一つである。このＳＶＭは、未学習データに対して高い識別性能を得るための工夫がなされており、優れた認識性能を発揮できる。

特許文献１には、被験体がした動作又は行動と、披検体に取り付けられた加速度センサのデータを予め収集して、その対応関係をニューラルネットワークにより学習させることによって、多種類の複雑な動作を認識する行動認識装置が開示されている。

特許文献１の行動認識装置に対し、特許文献２には、さらに高精度に認識するための患者行動識別方法が開示されている。すなわち、患者が使用する複数の機器や部材に力や位置を検知する各種センサを設け、患者の動作から得られるセンサデータを識別し、その動作状態を判別する、というものである。この患者行動識別方法は、複数のセンサを使って動作又は行動を認識するため、１つのセンサを用いた場合に比べて認識率の向上が期待できる。

特開２０１１−２２４１２２号公報特開２０１３−３９３００号公報

しかしながら、特許文献２の患者行動識別方法のように、複数のセンサを使って行動を認識する場合、複数のセンサのうち、一部のセンサデータが何らかの原因で欠損、あるいは異常値であるようなときに、正常データで学習した認識モデルを適用すると認識率が極端に低下してしまう、という課題がある。

上記課題を解決するため、例えば請求項１に記載の構成を備える。すなわち、静止物又は動作を認識する認識システムであって、異なるパターンのセンサデータを出力する複数のセンサ部と、前記複数のセンサ部の各々について当該センサ部からのセンサデータの異常の有無を検出し異常検出結果を出力する異常検出部と、複数の認識結果を出力する複数の認識部と、複数の認識結果と前記複数のセンサ部の各々についてのセンサデータの異常検出結果とを入力として最終的な認識結果を出力する出力選択部と、を備え、前記複数の認識結果は、センサデータの一部又は全部と、いずれかの他の認識部の認識結果との少なくとも一つを入力とした認識の結果であり、該出力選択部は、異常の検出されたセンサデータ又はそれに基づく認識結果を入力とした認識結果以外のいずれかの認識結果を選択するものである。

本発明によれば、一部のセンサデータが欠損、あるいは異常値であるようなときでも認識率を安定させることができる。

実施例１に係る認識システムの構成例を示すブロック図である。加速度センサの例である。ニューラルネットワークの構成例である。出力選択部のテーブルの例である。出力選択部のテーブルの他の例である。実施例２に係る認識システムの構成例を示すブロック図である。実施例２の変形例に係る認識システムの構成例を示すブロック図である。本発明の実施形態に係る認識方法の概略を説明するためのフローチャートである。

以下、図面を参照して、本発明の実施例について説明する。なお、以下の実施例では、人の行動の認識を代表的に例に取り、そのため、以下の実施例では「行動認識部」という機能が採用されているが、本発明では、人の行動に限らず人以外の物体の動作を認識することも、物体の動作に限らず静止物（静止している物体）を認識することもできる。物体の動作に代えて又は加えて静止物を認識することができる機能は、「認識部」と呼ばれてよい。つまり、「行動認識部」は、「認識部」の一例である。

図１は、本発明の実施例１に係る認識システムの構成例を示すブロック図である。認識システム１９は、複数のセンサ部１〜３からそれぞれのセンサデータを受信する受信部４〜６と、受信部４〜６毎に受信したセンサデータの欠損又は異常値を検出する異常検出部１４〜１６と、センサデータの一部又は全てを入力として行動を認識する複数の行動認識部７〜１３と、異常検出結果と行動認識結果に基づいて、最終的な行動認識結果を出力する出力選択部１７と、行動認識結果を記録する記録部１８で構成される。

図１の認識システム１９では、３つのセンサ部１〜３から出力されたセンサデータを用いて、リアルタイムで行動を認識する例を示す。認識する行動として、８つの生活行動（第一の行動：食事する、第二の行動：料理する、第三の行動：掃除する、第四の行動：ＴＶを見る、第五の行動：本を読む、第六の行動：歩く、第七の行動：寝る、第八の行動：その他）を自動的にリアルタイムで認識して、行動ログ（ライフログ）を取得する例で説明する。なお、ライフログ（lifelog）とは、人間の生活・行い・体験を、映像・音声・位置情報などのデジタルデータとして記録する技術、あるいは記録自体のことをいう。

センサ部１〜３のセンサは、それぞれ、左手に装着した加速度センサ１、右手に装着した加速度センサ２、胸につけた加速度センサ３とする。加速度センサからは、３軸の加速度情報を取得でき、この加速度から人間の動作を認識する。加速度センサの情報は、１０ｆｐｓ（frame per second）で取得できるとする。また、認識システム１９は、例えば、自宅のＰＣ（personal computer）を想定しており、センサ部１〜３と認識システム１９の間は、Wi-Fi（登録商標）その他の無線通信規格で定められた無線LAN等により通信する。

センサ部２，３で取得した加速度情報は、タイムスタンプを付けて、リアルタイムで認識システム１９に転送される。なお、このタイムスタンプは、各センサ部２，３で時刻がずれていると正しい認識ができない。したがって、電源の起動時をはじめ、適宜周期的にそれぞれのセンサ部２，３の時刻を合わせる処理を実行することで、ずれないように同期させておく必要がある。

３つのセンサ部１〜３それぞれの加速度情報（センサデータ）は、認識システム１９のそれぞれの受信部４〜６で受信する。受信部４〜６で受信したセンサデータは、複数の行動認識部７〜１３に供給し、タイムスタンプ情報は、受信部４〜６それぞれにある異常検出部１４〜１６に供給する。ここで、行動認識部７〜１３に供給するセンサデータは、図２を用いて後述する単位時間ウインドウ４１，４２毎のデータとする。

図２は、加速度センサの例である。図２の例に従うグラフは、横軸を時間ｔ、縦軸を加速度αとし、一つのセンサ部について、時間経過に伴う加速度変化を示したものである。ｘ軸、ｙ軸、ｚ軸の３軸加速度の情報が各センサ部から出力される。

認識システム１９では、このセンサデータを１０秒間の単位時間ウインドウ４１で切り取ったセンサデータを行動認識部７〜１３の入力データとする。なお、他のセンサ部も同時刻で、同様に単位時間ウインドウ内のセンサデータを取得して、行動認識部７〜１３の入力データとする。単位時間ウインドウ４１，４２の幅とずらし方は、ユーザが取得したい粒度に応じて変更すれば良い。図２に例示するように、単位時間ウインドウ４２は、単位時間ウインドウ４１との隣接関係を維持しながらも、重ならないように動かされる。

行動認識部７〜１３は、事前に正解ラベル付きのセンサデータで学習した認識モデルを用いて行動認識結果を出力する。ここで行動認識の一例として、ニューラルネットワークを用いた例を示す。

図３は、ニューラルネットワーク５０の構成例である。ニューラルネットワーク５０は、入力層５３、出力層５４、及び隠れ層５９から構成される。入力層５３は、一つ以上の入力ニューロンが属する層である。出力層５４は、一つ以上の出力ニューロンが属する層である。隠れ層５９は、複数の隠れニューロンが属する層である。

行動認識部７〜１３は、上述したように、事前に正解ラベル付きのセンサデータで学習した認識モデルを用いて行動認識結果を出力する。また、本例において、入力ニューロンの数は、行動認識部毎に異なる。例えば、行動認識部７の場合、３つのセンサ部１〜３のセンサデータを入力として行動認識するため、入力ニューロンの数は、１０秒×１０fps×３軸×３センサ＝９００となる。

また、本例では、隠れ層５９は、第一隠れ層５１及び第二隠れ層５２の２層を有している。最終的には８つの行動にクラス分類したいので、出力層５４における出力ニューロン数は８となる。学習するときは、入力となるセンサデータとその正解ラベルに基づき、逆誤差伝播法（Backpropagation）を用い、各ニューロンの係数を正解に近づけるように更新することにより、認識モデルを作成する。

一方、学習済みの認識モデルを用いて、行動認識をするときは、認識モデルにセンサデータを入力することで、出力層５４に出力された８つの行動それぞれの確率が出力される。一般的には、第一の行動〜第八の行動で区別される８つの行動の内、最も大きい確率の行動を選択する。選択された行動が該当するものと決定されることにより行動認識される。

図１には、複数の行動認識部７〜１３が存在するが、ここでのポイントは入力されるセンサデータがそれぞれ異なっている点である。これは、どのセンサデータが無くなっても、どれかの行動認識部が正常に認識できるようにするためである。例えば、行動認識部７は、１０秒×１０ｆｐｓ×３軸×３センサの入力となっている。行動認識部８は１０秒×１０ｆｐｓ×３軸×２センサの入力となっている。行動認識部１１は１０秒×１０ｆｐｓ×３軸×１センサの入力となっている。

つぎに、異常検知部１４〜１６について説明する。受信部４〜６から、行動認識部に入力するセンサデータのタイムスタンプの情報を取得して、これにより該当の単位時間にセンサデータの入力数が正常かどうかを判定する。例えば、該当の単位時間ウインドウ４１のスタートとエンドの時刻内に所定の個数のタイムスタンプが無かった場合、検知結果情報を出力選択部１７に通知する。この場合の実例として、例えば、充電された蓄電池等により供給されるセンサ部の電源が予期せずに切れてしまった場合のほか、無線通信の受信状況が悪かった場合が挙げられる。

図４は、出力選択部１７のテーブルの例である。出力選択部１７は、各行動認識部７〜１３の行動認識結果と、異常検知部の検知結果情報が入力となり、検知結果情報と図４に記載の対応テーブルに基づいて、どの行動認識部の認識結果を使うかを決定する。図４のセンサ部２，３の〇と×は、異常検知部１４〜１６の結果に基づき、異常データと検知された場合は「×」、検知されなかった場合は、「〇」となる。

行動認識部７〜１３の「１」は、その行動認識結果を使うことを示しており、「０」はその行動認識結果を使用しないことを示している。例えば、センサ部１が「〇」、センサ部２が「〇」、センサ部３が「×」だった場合、図４の対応テーブルに基づいて、行動認識部８の結果を採用する。このように、各異常検知部１４〜１６の検知結果に基づき、正常に動作している行動認識部を判断して、その結果を使うことで、入力のセンサデータに欠損があった場合でも、認識率の低下を最小限に抑えることが可能となる。

なお、認識システム１９は、不図示のコンピュータにより構成されている。そのコンピュータは、例えば、ＣＰＵ（Central Processing Unit）と、メモリと、通信装置と、入出力装置と、を備える。ＣＰＵは、メモリに記憶されるプログラムを実行することで、図１に例示の機能を実現する。このコンピュータのメモリに、出力選択部１９のテーブルが格納される。

最後に、この行動認識結果を時間とともに記録部１８で行動ログとして保存すれば、行動ログを残すことができる。この行動ログを使って、例えば、「もう３時間も本を読んでいます。そろそろ掃除しませんか？」等と、リアルタイムでフィードバックするアプリケーションに応用もできるし、行動ログを１か月単位で集計して、どんな行動にどれぐらい時間をかけたかをダッシュボードに表示して、今後の生活改善に役立てるといった使い方もできる。

［システム］
本実施例では、センサ部１〜３と認識システム１９と通信は、Wi-Fi（登録商標）としたが、特に制限はなく、有線を用いても良いし、Bluetooth（登録商標）等他の無線通信でも良い。また、センサ部２，３と認識システム１９が直接通信する例を記載したが、転送するだけの転送デバイスを挟んでも良い。例えば、スマートフォンで３つのセンサ部２，３のセンサデータをBluetooth（登録商標）経由で受信した後、Wi-Fi（登録商標）を使って認識システム１９に入力する等の構成でも良い。

また、認識システム１９はＰＣとして説明したが、これに限定されない。例えば、タブレット、スマートフォン、ノートＰＣ等のモバイル機器で処理しても良いし、クラウドで処理しても良い。クラウドで処理する場合場合、クラウド上にデータを送信する必要があるが、例えば、一旦スマートフォンでセンサ部２，３のデータを受信して、ＬＴＥ回線でクラウドに送信する等すれば良い。認識結果はクラウド上に保存しておいても良いし、ＰＣやスマートフォン等の表示したい表示デバイスに転送しても良い。

また、リアルタイムで行動を認識する例を示したが、保存してあるデータを受信部に入力しても良い。具体例を挙げると、センサ部２，３のデータをスマートフォンで受信してＳＤカードや内部メモリ等の記憶媒体にタイムスタンプ付きでセンサデータを長時間保存しておき、その記憶媒体からの読出したセンサデータを受信部４〜６に入力するとしても良い。

［センサ］
本実施例では、センサ部１〜３が全て加速度センサの例を説明したが、センサ部の数やセンサの種類は限定しない。例えば、センサ部としてウエアラブルカメラや、ウエアラブルマイク、ビーコンやＧＰＳ（Global Positioning System, Global Positioning Satellite、全地球測位システム）等を使っても良いし、加速度センサの数を増やしても良い。

さらに、身に着けているセンサに限らず、監視カメラの映像を使う等、外部から人を対象とした情報を取る方法でも良い。この場合は、例えば、画像認識で、人の骨格を検出し、骨格情報を入力とすることで、しゃがんでいる、立っている等全身の動き情報も加味した、行動認識が可能になる。

また、センサ部でタイムスタンプ付きのデータを出力する例を示したが、受信部４〜６で受信したときにタイムスタンプを付けてもよい。この場合、３つの受信部４〜６は認識システム１９内にあり同一時刻で動いているため、各センサ部１〜３に対して時刻同期を取る必要が無くなるという利点がある。

また、図２では固定の単位時間ウインドウ４１，４２を用意して、行動認識部７〜１３に入力する例を示したが、単位時間ウインドウを複数用意する、又は可変にするとしても良い。また、単位時間ウインドウ４１，４２の幅やずらし方に関しても、制限はなく、どんな幅や、どんなずらし方でも良い。

［異常判定部］
本実施例では、タイムスタンプが所定個数あるなしで異常検出をしたが、データの欠損だけではなく異常値を検出しても良い。例えば、行動認識部に入力する単位時間ウインドウのセンサデータを異常検出部に入力して異常検出しても良い。具体例としては、取得した大量の正常データから、正常範囲を求めておき、その範囲を逸脱した場合に、異常と検出する方法がある。

他の例として認識対象を認識する方法がある。例えば、監視カメラの場合、行動認識を行いたい対象人物が写っていないが、別の人が写っている場合、別の人の骨格情報を入れても認識率を低下させるだけになってしまう。そこで、異常検知部で、顔認識エンジンを動かして、対象の人物の時のみ、骨格情報を使って、行動認識を行うことで、認識率の向上が見込める。

［行動認識部］
本実施例では、行動認識部７〜１３として、ニューラルネットワーク５０を用いた例を挙げて説明したがそれに限らない。ニューラルネットワーク５０に代えて、例えば、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short Term Memory）等を用いても良い。あるいは、機械学習による認識モデルとして、ＳＶＭ、その他（Random Forest，Gradient Boosting）等を用いても良い。さらに、これらの機械学習による認識モデルと異なり、人間がルールベースで考えた認識モデルを使っても良い。

また、本実施例では、行動認識部７〜１３に、センサデータをそのまま入力して認識する手法を記載した。これとは異なる手法として、センサデータに対し、高速フーリエ変換等の特徴量変換を施した後に、上述した各種の認識モデルを用いて行動認識する構成でも良い。

［出力部］
図５は、出力選択部１７のテーブルの他の例である。本実施例では、図４に示したテーブルで、一番正常なセンサデータを多く使えるモデルを採用する例を説明したが、それに限らない。

例えば、図５のように、正常に認識できる認識モデルの利用割合を定義しておき、各行動認識部の認識結果に割合をかけ合わせて、それぞれの行動認識部の認識結果を足し合わせてから、最も確率の高いものを採用するとしても良いし、ＩＦ文を含むプログラムで全てのパターンを記載するとしても良い。

［アプリケーション］
本実施例では、生活行動を認識する例を記載したが、これに限定されない。例えば、設備保守を定期的に行う作業員に対して、加速度センサを装着して、どんな作業をしているかを認識するとしても良い。この場合、例えば、チェックリストの項目を認識項目として学習した認識モデルを作ることで対応できる。

この行動認識結果は、例えば、チェックリストのチェックを自動的に付けることもできる。また、リアルタイムで認識する時は、全ての行動が認識されなかった場合に、「チェックリストＸ（不図示）の作業を忘れていませんか？」というようにリアルタイムで確認を促す等の用途にも応用可能である。

［その他］
また、本実施例では、行動認識部をセンサデータの異常検出結果によらず計算する例を記載したが、異常検出結果を先に計算して結果を出すことによって、図４及び図５に示したテーブルにおいて、「０」の部分の行動認識部は使用していないので計算しないという制御を行うこともできる。これにより、認識結果が速く出力される、消費電力が少なくなるという利点もある。

図６は、本発明の実施例２に係る認識システムの構成例を示すブロック図である。実施例２に係る認識システム６１において、認識システム１９と同一機能に対しては、同一符号を付して説明を省略し、主に相違点の説明を行う。

認識システム６１は、認識システム１９と行動認識部の構成が異なる。認識システム６１は、第一の行動認識部２０〜２２と第二の行動認識部２３〜２６のように２段階の階層構造で構成される。これによる動作は、以下のとおりである。

第一の行動認識部２０〜２２へ、各受信部４〜６からの信号のみが入力されて、そこからの認識結果は、一方の出力が実線の矢印で示すように出力されて出力選択部１７へ入力される。また、他方の出力として、点線の矢印で示すように、第二の行動認識部２３〜２６へ入力される。点線の矢印で示す出力は、図３に示すニューラルネットワーク５０の第二隠れ層５２から出力される信号である。

第一の行動認識部２０〜２２の第二隠れ層５２の出力を入力された第二の行動認識部２３〜２６は、そこからの認識結果を出力する。第二の行動認識部２３〜２６の入力パターンは、実施例１と同様に、どのセンサが無くなっても、どれかは正常に認識できるように設定されている。

このような行動認識部を階層構造の構成とすることの利点は、認識システム１９に比べて、第一の行動認識部２０〜２２における単体の認識率の向上が見込めることである。それは、例えば、第二の行動認識部２３を学習するときに、誤差逆伝播法により、第一の行動認識部２０と、同２１と、それら両方のニューロンの係数を更新することができる。

これは、第一の行動認識部２０単体で学習したときに比べて、他のセンサデータ情報も用いて学習できていることになり、第一の行動認識部２０単体の認識率の向上が見込める。

一般的には、マルチタスク学習と呼ばれる学習方法があり、上述のように階層構造の行動認識部２０〜２２，２３〜２６において学習することにより、認識率が向上することをいくつかの文献で確認できている。ただし、一般的なマルチタスク学習は入力データが同じ物に対して行われている。その点について、認識システム６１は入力データが全て異なっているので、上述した一般的なマルチタスク学習とは異なる。

［実施例２の変形例］
図７は、実施例２の変形例に係る認識システムの構成を示すブロック図である。実施例２では、２段構成の例を説明したが、図７に示す認識システム６２のように３段構成にしても良い。

その３段構成の１段目は、第一の行動認識部３０〜３２である。つぎの２段目は、第二の行動認識部３３〜３５である。つぎの３段目は、第三の行動認識部３６である。なお、図７の点線の矢印と実線の矢印と、それぞれの意味は、図６で用いたものと同じ意味である。ここでも、点線の矢印で示す出力は、図３に示すニューラルネットワーク５０の第二隠れ層５２から出力される信号である。

第一の行動認識部３０〜３２へ、各受信部４〜６からの信号のみが入力されて、そこからの認識結果は、一方の出力が実線の矢印で示すように出力されて出力選択部１７へ入力される。また、他方の出力として、点線の矢印で示すように、第二の行動認識部３３〜３６へ入力される。

そこからの認識結果は、一方の出力が実線の矢印で示すように出力されて出力選択部１７へ入力される。また、他方の出力として、点線の矢印で示すように、第三の行動認識部３６へ入力される。第三の行動認識部３６からの認識結果は、その出力が実線の矢印で示すように出力されて出力選択部１７へ入力される。

このように、複数の行動認識部２０〜２２，２３〜２６，３０〜３２，３３〜３６，３６は階層構造であることが好ましい。すなわち、この階層構造は、少なくとも、第一の行動認識部２０〜２２と、第二の行動認識部２３〜２６と、を含む多段階の階層構造を意味する。

図８は、本発明の実施形態に係る認識方法（以下、本認識方法）の概略を説明するためのフローチャートである。本認識方法は、静止物又は動作を認識するものであり、図８に示すように、ステップＳ１〜ステップＳ５を有する。ステップＳ１では、複数のセンサ部１〜３がパターンの全て異なるセンサデータを出力する。ステップＳ２では、異常検出部１４〜１６がセンサ部１〜３毎にセンサデータの異常を検知する。ステップＳ３では、複数の認識部７〜１３，２０〜２２，３０〜３２に、センサデータの一部又は全てを入力する。

ステップＳ４では、異常検出部１４〜１６の出力する異常検出結果と、複数の認識部７〜１３，２０〜２２，３０〜３２の認識結果と、を出力選択部１７に入力する。ステップＳ５では、出力選択部１７が、異常検出部１４〜１６の異常検出結果に基づいて、異常の検出されたセンサデータの入力が排除された認識部の認識結果を選択して最終的な認識結果を出力する。これによれば、認識システム１９，６１，６２と同等の作用効果が得られる。

認識システム６１において、つぎの構成を例示した。まず、第一の行動認識部２０〜２２へ、各受信部４〜６からの信号のみが入力されるステップ（図８のＳ３）がある。また、第一の行動認識部２０〜２２の認識結果のうち、一方の出力が出力選択部１７へ入力されるとともに、他方の出力が第二の行動認識部２３〜２６へ入力されるステップ（図８のＳ４）もある。

認識システム６２において、つぎの構成でも良いことを例示した。すなわち、第一の行動認識部３０〜３２の認識結果を第二の行動認識部３３〜３５へ入力し、第二の行動認識部３３〜３５の認識結果を第三の行動認識部３６の入力する構成でも良い。以上、センサ部１〜３が３つの例で説明したが、センサ数の増減がある場合も、行動認識部の階層構造の段数を変えることで対応可能である。

［補足］
上述のニューラルネットワーク５０に限らず、人工知能が学習するということは、ＩＦ文のようなプログラムを自ら生成して蓄積し、同一の場合に遭遇すれば、同一の答えを出力できるように機能が成長することを意味する。また、認識システム６１，６２において、多段階の階層構造を有する行動認識部（認識部）２０〜２２，２３〜２６，３０〜３２，３３〜３５，３６は、学習効果が別の階層にまで波及する。

これには以下の作用効果が期待できる。すなわち、異常が検出されたセンサデータの入力を排除すると、センサデータから得られる情報量が減少する。このように、情報量が減少した中で、行動認識部の認識結果を選択した場合であっても、別の階層に蓄積された学習内容を生かすことによって、認識率を安定させ易くなる。

ここに、簡単な一例を示しておく。認識システム６２を防犯システムに適用した一例として、センサ部１を可視光カメラ、センサ部２を赤外線カメラ、センサ部３を可聴音マイクロフォン、により、それぞれ構成した。行動認識部２０〜２２，２３〜２６は、不審者が侵入したことを各センサ１〜３から得られる異なるパターンのセンサ出力を用いて学習する。

センサ部１のセンサデータは、可視光カメラのレンズが曇る不具合や暗がりのため、異常検出部１４が異常検出したとする。この場合、異常検出結果に基づいて、センサ部１のセンサデータを入力された第一の行動認識部２０の認識結果は、出力選択部１７において排除される。

その結果、３つのセンサデータのうち、残る２つのセンサデータ２，３から得られる情報量のみに減少する。しかし、行動認識部２０〜２２，２３〜２６は、予め、センサ部２の赤外線カメラによるセンサデータと、センサ部３の可聴音マイクロフォンによるセンサデータと、により、不審者が侵入した場合のパターンを学習している。

このため、情報量が減少した中で、行動認識部の認識結果を選択した場合であっても、異なるパターンのセンサ出力を用いれば、別の階層に蓄積された学習内容を生かすことによって、認識率を安定させ易い。つまり、可視光カメラの出力が異常なときでも、赤外線カメラと可聴音マイクロフォンと、により、学習内容を生かせる。その結果、認識システム６２は、高い認識率を維持できる。

１〜３センサ部、４〜６受信部、７〜１３行動認識部、１４〜１６異常検出部、１７出力選択部、１８記録部、１９，６１，６２認識システム、５０ニューラルネットワーク、５１第一隠れ層、５２第二隠れ層、５３入力層、５４出力層、５９隠れ層、ｔ時刻、α 加速度

Claims

静止物又は動作を認識する認識システムであって、
異なるパターンのセンサデータを出力する複数のセンサ部と、
前記複数のセンサ部の各々について当該センサ部からのセンサデータの異常の有無を検出し異常検出結果を出力する異常検出部と、
複数の認識結果を出力する複数の認識部と、
複数の認識結果と前記複数のセンサ部の各々についてのセンサデータの異常検出結果とを入力として最終的な認識結果を出力する出力選択部と、
を備え、
前記複数の認識結果は、センサデータの一部又は全部と、いずれかの他の認識部の認識結果との少なくとも一つを入力とした認識の結果であり、
該出力選択部は、異常の検出されたセンサデータ又はそれに基づく認識結果を入力とした認識結果以外のいずれかの認識結果を選択する、
認識システム。
前記複数の認識部は階層構造であり、
第一層に属する認識部は、センサデータの全部又は一部を入力とし、
第一層以外の層に属する認識部は、当該認識部が属する層より上位の層に属する認識部からの認識結果を入力とする、
請求項１に記載の認識システム。
前記複数の認識部の各々は、入力を基に認識結果を出力する認識モデルを有する、
請求項１に記載の認識システム。
前記出力選択部は、正常なセンサデータを出力したセンサ部の複数通りの組合せと、当該複数通りの組合せの各々について、当該組合せに属する一つ以上のセンサ部から出力された正常なセンサデータ又はそれの認識結果を入力とする認識部との対応関係から、前記複数のセンサ部の各々についてのセンサデータの異常検出結果に該当する組合せに対応した認識部を特定し、当該特定した認識部から出力された認識結果を選択する、
請求項１に記載の認識システム。
前記出力選択部は、正常なセンサデータを出力したセンサ部の複数通りの組合せと、当該複数通りの組合せの各々について認識部毎の正常に認識できる割合である利用割合との対応関係から、前記複数のセンサ部の各々についてのセンサデータの異常検出結果に該当する組合せに対応した認識部毎の利用割合を特定し、各認識部について特定された利用割合と、当該各認識部の認識結果とを基に、正常に認識できる確率の最も高い認識結果を選択する、
請求項１に記載の認識システム。
静止物又は動作を認識する認識方法であって、
異なるパターンのセンサデータを出力する複数のセンサ部の各々について当該センサ部からのセンサデータの異常の有無を検出し異常検出結果を出力するステップと、
複数の認識結果を出力するステップと、
前記複数の認識結果と前記複数のセンサ部の各々についてのセンサデータの異常検出結果とを入力として最終的な認識結果を出力するステップと
を有し、
前記複数の認識結果は、センサデータの一部又は全部と、いずれかの他の認識部の認識結果との少なくとも一つを入力とした認識の結果であり、
前記出力するステップでは、異常の検出されたセンサデータ又はそれに基づく認識結果を入力とした認識結果以外のいずれかの認識結果を選択する、
認識方法。
前記複数の認識結果は、階層構造を持つ複数の認識部により出力された認識結果であり、
第一層に属する認識部は、センサデータの全部又は一部を入力とし、
第一層以外の層に属する認識部は、当該認識部が属する層よりに属する認識部からの認識結果を入力とする、
請求項６に記載の認識方法。