JP2018147153A

JP2018147153A - 行動認識システムおよび行動認識方法

Info

Publication number: JP2018147153A
Application number: JP2017040291A
Authority: JP
Inventors: 高行秋山; Takayuki Akiyama; 洋輝大橋; Hiroki Ohashi; 克行中村; Katsuyuki Nakamura; オサムアデルアルナサーモハマド; Osamh Adel Naser Mohammad; アーメドシェラツ; Ahmed Sheraz
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2018-09-20
Anticipated expiration: 2037-03-03
Also published as: WO2018159542A1; JP6895276B2

Abstract

【課題】行動認識システムにおいて、ユーザが簡単に認識させたい行動を定義するようにし、ユーザの意図する行動認識を可能とする。
【解決手段】基底認識部は、基底認識用ＤＢの情報に基づいて、センサの出力値またはそれを所定の変換を施して得られる値から、基底の認識処理を行う。次に、基底を用いた行動の定義情報を格納する行動定義ＤＢの定義情報と、基底認識部の認識結果により、行動認識を行う。次に、結果表示部は、基底認識部の認識結果および行動認識部の認識結果を表示し、基底・関連語表示部は、基底・関連語ＤＢの基底および関連語のリストを表示する。そして、行動定義部は、ユーザから選択された基底および関連語のリストに基づき、行動を基底の組み合わせとして定義し、行動定義変換部は、行動定義部により定義された行動定義情報を、行動定義ＤＢに格納する行動定義の形式に変換する。
【選択図】図１

Description

本発明は、行動認識システムおよび行動認識方法に係り、特に、センサデータを用いて人間の行動を自動認識する際に、ユーザの意図した認識結果を得るのに好適な行動認識システムおよび行動認識方法に関する。

近年、センサ機器、映像機器などのハードウェア、画像認識技術などのソフトウェアの進歩に伴って、監視システムや、ライフログ、顧客行動ごとのマーケティングなどのために、カメラなどから得られるセンサデータを分析して、人間の行動を自動認識する行動認識技術に注目が集まっている。

行動認識技術に関しては、非特許文献１に記載されているように、これまでに数多くの行動認識技術の手法が開発されてきた。中でも、代表的な方法は、認識対象となる行動ごとに、学習データ（それぞれの行動が実際に行われた際のセンサデータと、その行動名のラベルデータ）を収集し、ニューラルネットワークやＳＶＭ（Support Vector Machine）などの手法を用いて、センサデータと行動ラベルとの対応付けを学習する方法である。例えば、特許文献１には、被験体がした動作または行動と、被験体に取り付けられた加速度センサのデータを予め収集して、その対応関係をニューラルネットワークによって学習させることによって、多種類の複雑な動作を認識する行動認識装置が開示されている。また、非特許文献２では、複雑な行動を、基本的な動作（Motion）とオブジェクト（モノ）（object）の組み合わせとして一定のルールに従って表現し、これを用いて行動認識をする方法を提案している。

特開２０１１−２２４１２２号公報

Vrigkas，M．，Nikou，C． and Kakadiaris，I．A．；A Review of Human Activity Recognition Methods，Frontiers in Robotics and AI，2015 Ryoo，M．S．and Aggarwal，J．K．；Hierarchical Recognition of Human Activities Interacting with Objects，2nd International Workshop on Semantic Learning Applications in Multimedia in conjunction with CVPR，2007

しかしながら、上記従来技術の記載において、代表的なものとした認識対象の行動ごとに学習データを収集し、センサデータと行動ラベルとの対応付けを学習する手法では、対象となる行動ごとに、大量の学習データを用意する必要があり、実世界の様々な行動を認識できるシステムを実現することはできなかった。

これに対し、非特許文献２のように、複雑な行動を、簡単かつ多くの行動に共通する汎用的な基本要素（以下、本明細書においては、これを「基底」という）に分解し、その基底の認識結果からより複雑な行動を認識する方法が提案されている。基底の認識モジュールを様々な行動の認識に再利用することで、一つ一つの行動ごとに学習データを用意することなく、高精度に行動認識ができることが期待できる。

ところが、非特許文献２に記載されている行動を基本的な動作とオブジェクトを組み合わせて表現する方法は、専門的な記述様式に拠っており、始めてシステムを使うようなユーザが、この記述様式を理解して、自分がシステムに認識させたい行動を表現することは困難である。

本発明の目的は、ユーザが簡単に認識させたい行動を定義することができ、ユーザの意図する行動認識を可能とする行動認識システム及びその方法を提供することにある。

本発明に係る行動認識システムは、好ましくは、行動を表現するための構成要素となる基底と、基底や行動間の関係性を記述するための関連語とリストを格納する第一のデータベースと、人の行動に関する情報を収集するセンサと、センサの出力値またはセンサの出力値に対して所定の変換を施して得られる値と、基底とを対応付けるための情報を格納する第二のデータベースと、第二のデータベースに格納された情報に基づいて、センサの出力値またはセンサの出力値に対して所定の変換を施して得られる値から、基底の認識処理を行う基底認識部と、基底を用いた行動の定義情報を格納する第三のデータベースと、基底認識部の認識結果と、第三のデータベースに格納されている行動の定義情報を照らし合わせて、行動認識を行う行動認識部と、基底認識部の認識結果および行動認識部の認識結果を表示する認識結果表示部と、第一のデータベースに格納されている基底および関連語のリストを表示する基底・関連語表示部と、表示部に表示された基底および関連語のリストの選択を入力して、行動を基底の組み合わせとして定義する行動定義部と、行動定義部により定義された行動定義情報を、第三のデータベースに格納する行動定義の形式に変換する行動定義変換部とを備えるものである。

本発明によれば、ユーザが簡単に認識させたい行動を定義することができ、ユーザの意図する行動認識を可能とする行動認識システムを提供することができる。

実施形態１に係る行動認識システムの機能構成を示すブロック図である。実施形態１に係る行動認識システムを実現するための情報処理装置のハードウェア構成・ソフトウェア構成を示すブロック図である。行動定義ＤＢに格納されている行動定義の例を示す図である。関連語の概念を説明する図である。行動”Calling help”を認識するための行動認識部の処理の一例を示すフローチャートである。ユーザに基底の組み合わせで行動を定義させる際に提示するユーザインタフェース画面の例を示す図である。実施形態２に係る行動認識システム（行動定義自動生成機能付行動認識システム）の機能構成を示すブロック図である。ユーザに行動開始時刻と行動終了時刻を指定させる際に提示するユーザインタフェース画面の例を示す図である。行動定義自動生成部の処理の一例を示すフローチャートである。ユーザが指定した時間と、システムが自動認識した基底・定義済み行動等の関係を説明する概念図である。部分行動の集合から、構成し得る全ての行動を生成する処理を示すフローチャートである。実施形態３に係る行動認識システム（自然言語解釈機能付行動認識システム）の機能構成を示すブロック図である。基底類似語ＤＢ１２０３に格納されているデータの例を示す図である。自然言語入力機能付行動定義部がユーザに提示するユーザインタフェース画面の例を示す図である。本実施形態で説明をする、基底要素別事前情報付行動認識システム１５００の構成例を示すブロック図である。基底要素別事前情報ＤＢ１５０１に格納されているデータの例を示す図である。実施形態５に係る行動認識システム（関連語カスタマイズ機能付行動認識システム）の機能構成を示すブロック図である。関連語カスタマイズ部１７０１がユーザに関連語をカスタマイズさせる際に、提示するユーザインタフェース画面の例を示す図である。関連語をカスタマイズした場合の行動定義ＤＢに格納されているデータの例を示す図である。行動定義修正案提案機能付行動認識システムの機能構成を示すブロック図である。ユーザの入力した正解・不正解情報で区分されたある行動定義に対する基底認識の結果の例を示した図である。行動統計情報表示機能付行動認識システム２２００の機能構成を示すブロック図である。行動統計情報表示機能付行動認識システム２２００のユーザインタフェース画面の例を示す図である。行動認識時動作設定機能付行動認識システムの機能構成を示すブロック図である。行動認識時動作設定機能付行動認識システム２４００のユーザインタフェース画面の例を示す図である。

以下、本発明に係る各実施形態を、図１ないし図２５を用いて説明する。

〔実施形態１〕
以下、本発明の実施形態１を、図１ないし図６を用いて説明する。

先ず、図１および図２を用いて本発明の実施形態１に係る行動認識システムの構成について説明する。
行動認識システム１００は、図１に示されるように、センサ１０１、基底認識部１０２、基底認識用ＤＢ（Date Base）１０３、行動認識部１０４、行動定義ＤＢ１０５、認識結果表示部１０６、行動定義部１０７、行動定義変換部１０８、基底・関連語表示部１０９、基底・関連語ＤＢ１１０の各機能部とデータベースを有している。ここで、図１では、説明を簡単化するため、基底認識部１０２や基底認識用ＤＢ１０３は一つしか記載していないが、これらは用いる基底の種類に応じて、複数存在してもよい。例えば、行動を記述するための基底としては、オブジェクト、動作、姿勢、シーンなどが挙げられる。

以下、本実施形態の行動認識システムは、収集したセンサデータをリアルタイムで処理して、行動認識結果を出力することを想定して説明する。しかしながら、センサ１０１からの出力をハードディスクなどの記録装置に一度保存してから、改めてそれを処理する場合についても、センサから値を読み取る部分を、記録装置から値を読み取るものと読みかえれば、同様の方法を適用することが可能である。この場合、図１に記載の構成例にセンサデータ格納用ＤＢを追加すればよい。したがって、本発明が適用される対象は、リアルタイム処理のシステム構成に限定されるものではない。

次に、行動認識システム１００の処理概要について説明する。行動認識システム１００は、先ずセンサ１０１から値を読み取る。そして、基底認識部１０２が、その値を用いて必要に応じて特徴抽出処理などを施し、基底認識用ＤＢ１０３に格納された学習済みのパラメータを用いて、基底認識を行う。ここで、基底認識とは、センサのデータが表現する時間的領域、空間的領域に対して、基底認識用ＤＢ１０３に格納された基底を表現する情報（文字列、識別ＩＤなど）に対応付けることを意味する。行動認識部１０４は、その基底認識の結果を受け取り、行動定義ＤＢ１０５に格納されている行動定義を基に行動認識を行う。ここで、行動認識とは、基底認識の結果を行動定義に合致するか否かを判定して、合致するときに、その行動であるとする処理である。そして、認識結果表示部１０６は、基底認識の結果や行動認識の結果を、システムのユーザに表示する。基底・関連語表示部１０９は、基底・関連語ＤＢ１１０の内容をユーザに表示する。また、本実施形態の行動認識システム１００においては、行動定義ＤＢ１０５に格納されている行動定義は、ユーザに提示されるＧＵＩ（Graphical User Interface）上で動作する行動定義部１０７により、ユーザが表示された基底・関連語ＤＢ１１０の内容を選択することにより、自由に決定することができ、そのＧＵＩ上でのユーザの操作結果に応じて、行動定義変換部１０８が適切な変換を施し、行動定義ＤＢ１０５に格納する。

次に、図２を用いて本実施形態の行動認識システムを実現するための情報処理装置のハードウェア構成・ソフトウェア構成について説明する。
本実施形態の行動認識システム１００を実現するための情報処理装置は、例えば、図２に示すようなハードウェア構成を備える情報処理装置２００を用いて実行することができる。

情報処理装置２００は、入力装置２０１、中央演算処理装置２０２、主記憶装置２０３、補助記憶装置２０４、出力装置２０５がバス２０６により接続された形態である。

中央演算処理装置（ＣＰＵ：Central Processing Unit）２０２は、主記憶装置２０３に記憶されているプログラムを実行する。主記憶装置２０３は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）のような高速かつ揮発性の半導体記憶装置であり、補助記憶装置２０４に格納されているオペレーティングシステムとアプリケーションプログラムをロードして記憶する。そして、中央演算処理装置２０２がオペレーティングシステムを実行することによって、情報処理装置２００の基本機能が実現され、アプリケーションプログラムを実行することによって、基底認識部１０２、行動認識部１０４、認識結果表示部１０６、行動定義部１０７、行動定義変換部１０８の機能が実現される。なお、この処理の詳細については後に述べることにする。

補助記憶装置２０４は、例えば、磁気記憶装置、フラッシュメモリ等の大容量かつ不揮発性の記憶装置であり、中央演算処理装置２０２によって実行されるプログラムとプログラム実行時に使用されるデータを格納する。すなわち、中央演算処理装置２０２が実行するプログラムは、補助記憶装置２０４から読み出され、主記憶装置２０３にロードされ、中央演算処理装置２０２によって実行される。本実施形態の行動認識システム１００を実現するための情報処理装置２００には、基底認識プログラム２１０、行動認識プログラム２１２、行動定義変換プログラム２１４、認識結果表示プログラム２１６、基底・関連語表示プログラム２１８、行動定義プログラム２２０が格納され、それらが実行されることにより、それぞれ基底認識部１０２、行動認識部１０４、行動定義変換部１０８、認識結果表示部１０６、基底・関連語表示部１０９、行動定義部１０７の機能が実現される。

また、基底認識用ＤＢ１０３、行動定義ＤＢ１０５、基底・関連語ＤＢ１１０の各種データベースは、補助記憶装置２０４内に格納することができる。センサ１０１の計測値は、例えば、ＵＳＢ（Universal Serial Bus）ケーブルなどを用いてセンサ１０１と情報処理装置２００を接続して情報処理装置２００に送信してもよいし、ネットワークを経由して送信してもよいし、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などのメディアに一度書き出してから、それを情報処理装置２００が読み込むようにしてもよい。入力装置２０１は、例えば、キーボードやマウスである。出力装置２０５は、例えば、液晶ディスプレイやプロジェクタ、プリンタなどであり、認識結果表示部の出力を表示したり、印刷することができる。このほかに、基底認識部１０２や行動認識部１０４の演算の高速化のために、ＧＰＵ（Graphics Processing Unit）を用いてもよい。なお、これらの装置は、バス２０６を介してデータのやり取りを行う。

次に、行動認識システム１００の基本概念と基本原理について、より詳細に説明する。
センサ１０１としては、様々な種類のセンサを用いることができる。例えば、天井などに固定したビデオカメラを用いてもよいし、スマートグラスなどの装着者の一人称視点の映像が取得できるカメラを用いてもよい。また、装着者の注視箇所の位置情報が得られるアイトラッキンググラスを用いてもよい。距離センサを用いてもよいし、マイクなどの音響センサを用いてもよい。加速度センサやジャイロセンサなどを搭載するウェアラブルセンサを対象の人やモノにつけてもよい。脈拍や心拍数、筋電位などの生理指標を計測するセンサを用いてもよい。圧力を計測するマットなどを用いてもよい。いずれにしても、基底を認識するための情報が得られるセンサであれば、本実施形態で用いるセンサの種類については限定されない。

基底認識部１０２、基底認識用ＤＢ１０３としては、任意の既存の手法を用いることができる。基底の例としては、オブジェクト、動作、姿勢、シーンなどが挙げられるが、複雑な行動を記述するためのより簡易な要素であれば任意のものを基底として採用することができ、本実施形態の対象はこれらの具体的な基底の例に限定されるわけではない。ここで、本実施形態において、「動作」とは、例えば、「腕を上げる」「しゃがむ」「右へ移動する」などの比較的単純な身体活動および物体の動きを指し、「行動」とは、例えば、「部品を探し回る」「マニュアルをチェックする」など、一般に複数の基底、すなわち、動作やオブジェクトなどが関与して、より高次の意味を持つ行為を指す。実際には、「動作」と「行動」を明確に区別することは困難であるが、本発明の主旨は、複雑な現象を、単純かつ基本的な現象の組み合わせとして表現するということであり、その意味でここで言う「動作」と「行動」を明確に定義することは、本発明のシステムおよび方法を実施する上では必ずしも必要ではない。

例えば、必要に応じて、上記で動作の一例として説明した「右へ移動する」を、行動と捉え、より細かな脚の動きを動作として捉えてもよいし、また行動の一例として説明した「部品を探し回る」を、より複雑な「組立の準備をする」という行動に対する基本的な動作要素として捉えてもよい。実際に、このように、より複雑な行動を記述するために、より単純な行動を基底として用いることで、複雑な行動を再帰的に定義することも可能である。

以下、基底認識部１０２および基底認識用ＤＢ１０３について、基底として「オブジェクト」（以下、オブジェクトの基底を「基底オブジェクト」ということがある）および「動作」（以下、動作の基底を「基底動作」ということがある）を用いる場合を例にして、より詳細に説明する。なお、以下で説明するオブジェクトおよび動作の認識手法は、本発明のシステムおよび方法を実施するための一例であって、これらの具体的な手法に本発明の範囲を限定するものではない。実際には、これら基底の認識には任意の手法を用いることができる。認識について用いられるセンサについても、同様に一例を示しており、これらの具体的なセンサに限定されない。

例えば、基底として、「オブジェクト」を用いる場合、任意の既存の一般物体認識技術を用いることができる。例えば、先ず学習用データとして、カメラなどで撮影された認識対象のオブジェクトの画像と、そのオブジェクト名のラベルを用意する。そして、ディープラーニング技術を用いて、画像とオブジェクト名の対応付けを学習させる。基底認識用ＤＢ１０３には、学習後のネットワークのパラメータ、すなわち、ネットワークのレイヤーの数、各レイヤー内のノードの数、ノード間の重みの値などを格納する。未知の画像からオブジェクトを認識する際には、基底認識部１０２は、先ず基底認識用ＤＢ１０３に格納されたネットワークパラメータを読み出し、与えられた画像を必要に応じてリサイズした後、ネットワークに入力して、出力値を計算する。ネットワークからの典型的な出力は、認識対象の各オブジェクトが所与の画像の中に映っている確率の列である。基底認識部１０２は、この各オブジェクトに対応する各確率の数値列を、そのまま、行動認識部１０４や認識結果表示部１０６に送信してもよい。

あるいは、最も確率の高いオブジェクトのオブジェクト名を、オブジェクト認識結果として送信してもよいし、所定の閾値以上の確率を持つオブジェクトのオブジェクト名全てを認識結果として送信してもよい。また、最も確率の高いオブジェクトに対応する確率でも所定の閾値以下である場合に、「対象オブジェクトなし」という結果を送信してもよい。もちろん認識手法として、ＳＶＭやｋＮＮ（k-Nearest Neighbor）など、別の方法を用いることも可能である。その場合、それらの手法に応じたパラメータを基底認識用ＤＢ１０３に格納しておけばよい。

また、ここで説明したオブジェクト認識は、天井などに固定したカメラを用いた三人称視点の画像・映像を用いて行ってもよいし、行動認識対象の人物に装着したスマートグラスなどから得られる一人称視点の画像・映像を用いて行ってもよい。さらには、一人称視点の画像・映像に加えて、装着者の注視箇所の位置情報が得られるアイトラッキンググラスを用いてもよい。また、距離センサなどを用いてもよい。さらに、人やモノにＲＦＩＤ（Radio Frequency IDentifier）などを付与することで、対象エリア内に所定のオブジェクトが存在するかを判定するようにしてもよい。

例えば、基底として、「動作」を用いる場合、任意の既存の動作認識技術を用いることができる。例えば、動作認識用のセンサとして３軸の加速度センサおよび３軸のジャイロセンサを用いる場合、先ず学習用データとして、認識対象の動作を行っている間にこれらのセンサで収集されたデータと、当該動作名のラベルを用意する。

そして、ディープラーニング技術を用いて、センサ値と動作名の対応付けを学習させる。センサ値は、動作を行っている一定時間の間収集され続けるので、一般に時系列データとなっている。ある時刻tにおける加速度センサの値(Ax_t，Ay_t，Az_t)およびジャイロセンサの値(Gx_t，Gy_t，Gz_t)の合計６次元のデータを、そのままニューラルネットワークへ入力するようにしてもよいが、時系列の情報をよりよく利用するために、一定の時間窓幅を設定してその間の各センサ・各軸のセンサ値の統計情報、より具体的には平均値や分散値、および、周波数領域の情報などを計算してから、これらをニューラルネットワークへ入力するようにしてもよい。基底認識用ＤＢ１０３には、学習後のネットワークのパラメータ、すなわち、ネットワークのレイヤーの数、各レイヤー内のノードの数、ノード間の重みの値などと、時間窓幅などのパラメータを必要に応じて格納する。未知のセンサ値から動作を認識する際には、基底認識部１０２は、先ず基底認識用ＤＢ１０３に格納されたネットワークパラメータおよび時間窓幅などのパラメータを読み出し、与えられたセンサ値を必要に応じて統計情報や周波数領域の情報などに変換した後、ネットワークに入力して、出力値を計算する。ネットワークからの典型的な出力は、認識対象の各動作が行われている確率の列である。基底認識部１０２は、この各動作に対応する各確率の数値列を、そのまま行動認識部１０４や認識結果表示部１０６に送信してもよい。

あるいは、最も確率の高い動作の動作名を、動作認識結果として送信してもよいし、所定の閾値以上の確率を持つ動作の動作名全てを認識結果として送信してもよい。また、最も確率の高い動作に対応する確率でも所定の閾値以下である場合に、「対象動作なし」という結果を送信してもよい。もちろん認識手法として、ＳＶＭやｋＮＮなど、別の方法を用いることも可能であるし、時系列データをよりよく扱うために隠れマルコフモデルやリカレントニューラルネットワーク、ＬＳＴＭ(Long Short Term Memory)などの方法を用いることも可能である。その場合、それらの手法に応じたパラメータを基底認識用ＤＢ１０３に格納しておけばよい。

また、ここで説明した動作認識は、カメラや距離センサなどの視覚情報を用いて行ってもよいし、マイクなどの音響センサを用いて行ってもよい。脈拍計や筋電位センサなどの生理指標を計測するようなセンサを用いて行ってもよい。床面に設置した圧力センサなどを用いて行ってもよい。

次に、図３ないし図５を用いて行動認識部の処理について説明する。
行動認識部１０４は、基底認識の結果と、行動定義ＤＢ１０５に格納されている行動定義を照らし合わせて、行動を認識する。

以下では先ず、行動定義ＤＢ１０５に格納する行動定義とその解釈方法について説明する。図３には、行動定義ＤＢ１０５に格納されている行動定義の例が示されている。図３に示されているように、行動定義は、例えば、ＸＭＬ（Extensible Markup Language）形式で記述することができる。行動定義の表現形式としては、ＸＭＬ形式以外にも、行動定義を情報処理装置が一意に解釈可能な形であればよい。

ここでは、ある行動（Activity）は、二つの部分行動（Sub Activity）とそれらの関係性を表す関連語（Relation）、あるいは単に一つの部分行動のみによって表現するものとする。例えば、図３に示すように、「電話をしている」という行動”Phoning”は、”Person”，猫ookAt”，捻hone”という部分行動と、”Then”という関連語と、”Person”，燃aiseArm”という部分行動で表現されているし、「マニュアルをチェックしている」という行動”Checking manual”は”Person”，猫ookAt”，捻aper”という一つの部分行動のみによって表現されている。なお、説明を簡単にするために、最大二つの部分行動と関連語を用いて行動を表現するという制約を設けたが、実際にはより複雑な表現形式を用いてもよい。

部分行動は、最大三つの基底の組み合わせで表現する。例えば、図３では、「マニュアルをチェックする」という行動”Checking manual”を、基底オブジェクト”Person”、基底動作”LookAt”、および基底オブジェクト”Paper”の組み合わせで表現している。この場合、行動認識部１０４は、例えば、オブジェクトとして”Person”と”Paper”が検出されていて、かつ動作として”LookAt”が検出されている時間帯を、この部分行動が発生している時間帯として認識する。定性的には、人が紙のマニュアルを見続けている時間帯が認識されると解釈できる。また、部分行動として、既に定義されている他の行動を用いることも可能である。例えば、図３に示すように、「マニュアルについて問い合わせをしている」という行動”Inquiring about manual”は、既に定義されている”Checking manual”という行動と、”Phoning”という行動を、部分行動として有している。

なお、部分行動の表現の仕方についても、ここでは説明を簡単にするために、本実施形態では、最大三つの基底を組み合わせて表現することにしたが、実際にはより複雑な表現形式を用いてもよい。例えば、この後に説明する関連語のような概念を用いて、基底の組み合わせ方を表現するようにすることもできる。また、例えば副詞・形容詞などを用いて「しばらくの間」などの時間的情報や、「近くに」などの空間的情報、「しばしば」などの頻度情報、「強く」などの強度に関する情報などを表現できるようにしてもよい。また、ウェアラブルセンサなどのセンサを用いて基底認識および行動認識を行う場合など、行動の主語が常に一つに限定される場合は、それを省略することも可能である。例えば、上で説明をした”Person”，猫ookAt”，捻hone”という部分行動は、単に”LookAt”，捻hone”と表現してもよい。

関連語は、二つの部分行動の関係性を表すもので、例えば、”And”，念r”，乃hen”，埜ithout”などを用いることができる。図４には、これらの関連語の表す関係性が説明されている。

図４（ａ）では、関連語”And”の表す関係性を説明している。関連語”And”は、部分行動１と部分行動２が共に起こっている時間帯を表す。すなわち、関連語”And”が用いられている場合、行動認識部１０４は、図４（ａ）におけるts2からte1の時間帯を、対象の行動が起こっている時間帯として検出する。図４（ｂ）では、関連語”Or”の表す関係性を説明している。関連語”Or”は、部分行動１と部分行動２の少なくとも一方が起こっている時間帯を表す。すなわち、関連語”Or”が用いられている場合、行動認識部１０４は、図４（ｂ）におけるts1からte2の時間帯を、対象の行動が起こっている時間帯として検出する。図４（ｃ）では、関連語”Then”の表す関係性を説明している。関連語”Then”は、部分行動１の後に部分行動２が起こっている場合の、部分行動１の開始時刻から部分行動２の終了時刻の間の時間帯を表す。すなわち、関連語”Then”が用いられている場合、行動認識部１０４は、図４（ｃ）におけるts1からte2の時間帯を、対象の行動が起こっている時間帯として検出する。図４（ｄ）では、関連語”Without”の表す関係性を説明している。関連語”Without”は、部分行動１が起こっている時間帯のうち、部分行動２が起こっていない時間帯を表す。すなわち、関連語”Without”が用いられている場合、行動認識部１０４は、図４（ｄ）における、ts1からts2の時間帯を、対象の行動が起こっている時間帯として検出する。

以上のようにして、行動認識部１０４は、基底認識部１０２から受け取る基底認識結果と、行動定義ＤＢ１０５に格納されている認識対象の行動定義に基づいて、対象行動を認識することが可能である。以下ではその処理を、図３の第三段に記載の”Calling help”という行動を例にして、より具体的に説明する。

図５のフローチャートには、行動”Calling help”を認識するための行動認識部１０４の処理が示されている。行動認識部１０４は、先ず現在の時刻を変数tに格納する（Ｓ５０１）。次に、基底認識部１０２から、基底動作の認識結果を受け取る（Ｓ５０２）。ここでは、例えば各対象動作がその時の時刻において発生した確率の列を受け取るとする。その中から、”Calling help”の部分行動内に含まれる基底動作”RaiseArm”の確率が、所定の閾値θaよりも大きいか否かを調べ（Ｓ５０３）、大きい場合には（Ｓ５０３：Ｙｅｓ）、flagRaiseArmをTrueに（Ｓ５０４）、そうでない場合には（Ｓ５０３：Ｎｏ）、flagRaiseArmをFalseに設定する（Ｓ５０５）。

なお、図と以下の説明において、p(base)により、基底baseが起こる確率を表記する。同様に、基底動作”Wave hand”の確率が、所定の閾値θaよりも大きいか否かを調べ（Ｓ５０６）、大きい場合には（Ｓ５０６：Ｙｅｓ）、flagWaveHandをTrueに（Ｓ５０７）、そうでない場合には（Ｓ５０６：Ｎｏ）、flagWaveHandをFalseに設定する（Ｓ５０８）。次に、行動認識部１０４は、基底オブジェクトの認識結果を受け取る（Ｓ５０９）。基底動作の場合と同様、ここでは、例えば、各対象オブジェクトがその時の時刻において存在する確率の列を受け取るとする。そしてその中から、”Calling help”の部分行動内に含まれる基底オブジェクト”Person”の確率が、所定の閾値θoよりも大きいか否かを調べ（Ｓ５１０）、大きい場合には（Ｓ５１０：Ｙｅｓ）、flagPersonをTrueに（Ｓ５１１）、そうでない場合には（Ｓ５１０：Ｎｏ）、flagPersonをFalseに設定する（Ｓ５１２）。次に、時刻tにおいて、部分行動１が発生しているか否かを調べるため、flagPersonおよびflagRaiseArmの両方ともがTrueになっているかを調べる（Ｓ５１３）。両方ともがTrueの場合には（Ｓ５１３：Ｙｅｓ）、flagSub1をTrueに（Ｓ５１４）、少なくともいずれか一方がFalseの場合には（Ｓ５１３：Ｎｏ）、flagSub1をFalseに設定する（Ｓ５１５）。同様に、時刻tにおいて、部分行動２が発生しているか否かを調べるため、flagPersonおよびflagWaveHandの両方ともがTrueになっているかを調べる（Ｓ５１６）。両方ともがTrueの場合には（Ｓ５１６：Ｙｅｓ）、flagSub2をTrueに（Ｓ５１７）、少なくともいずれか一方がFalseの場合には（Ｓ５１６：Ｎｏ）、flagSub2をFalseに設定する（Ｓ５１８）。次に、flagSub1およびflagSub2の両方ともがTrueになっているかを調べる（Ｓ５１９）。両方ともがTrueになっている場合には（Ｓ５１９：Ｙｅｓ）、flagCallingHelpをTrueに設定（Ｓ５２０）した後、時刻tの行動認識結果として”Calling help”を出力する（Ｓ５２２）。flagSub1またはflagSub2の少なくとも一方がFalseの場合には（Ｓ５１９：Ｎｏ）、flagCallingHelpをFalseに設定する（Ｓ５２１）。

そして、例えば、ＧＵＩを通じて、行動認識の終了命令が来ているか否かを調べ（Ｓ５２３）、終了命令が来ている場合には（Ｓ５２３：Ｙｅｓ）、ここで処理を終了する。そうでない場合には（Ｓ５２３：Ｎｏ）、Ｓ５０１に戻って同様の処理を続ける。このようにして、フレームごとに行動認識処理を行うことができる。

行動定義ＤＢ１０５に格納された他の行動についても、このように行動定義を解釈して処理を行うことにより、当該行動が各時刻ごとに発生しているか否かを判断することができる。なお、ここでは簡単のため、各部分行動が生じているか否かを判断するために、その構成要素となる基底ごとに、その存在の有無を判断すると説明したが、ここを確率的に処理してもよい。例えば、部分行動”Person”，燃aiseArm”が生じているか否かを判断するために、同時確率p(Person)p(RaiseArm)の値を計算し、その値を閾値処理するようにすることもできる。同様に、最終的な行動認識結果を判断する際にも、部分行動１と部分行動２の発生確率をもとに、確率的な処理をするようにしてもよい。

次に、図６を用いて行動定義部１０７および行動定義変換部１０８が行う処理について説明をする。
先ず、システムのユーザが行動定義部１０７の提示するＧＵＩを通じて、新規行動を定義する方法について説明をする。図６（ａ）には、初期状態のＧＵＩの例が、図６（ｂ）には、新規行動定義に関する情報を入力しているＧＵＩの例が示されている。ここで、基底オブジェクトリスト６０５、基底動作リスト６０６は、ユーザが選択可能な基底とその基底に含まれる基底要素のリストを表しており、関連語リスト６０７は、ユーザが選択可能な関連語を表している。これら選択可能な基底要素および関連語のリストは、基底・関連語ＤＢ１１０に予め格納しておき、それを行動定義部１０７が読み出して、例えば、図６（ａ）のような形でユーザに提示する。同様に、定義済み行動リスト６０８は、ユーザが選択可能な定義済み行動を表しており、これは行動定義ＤＢ１０５からリストを読み出した上で表示する。

ユーザは、このＧＵＩを通じて、自身が行動認識を行いたい対象に合わせた行動の定義をすることができる。先ずユーザは、行動名入力テキストボックス６０１に、新しく定義する行動の名前を入力する。例えば、図６（ｂ）の例では、定義する行動にPhoningという名前をつけている。次に、ユーザは、当該行動を構成する部分行動１、関連語、部分行動２をそれぞれ入力する。部分行動１を記述するには、基底オブジェクトリスト６０５、基底動作リスト６０６、または定義済み行動リスト６０８から、ポインタ６１０を操作して所望の基底要素または定義済み行動を選択し、ドラッグアンドドロップによって、部分行動１入力枠６０２の枠内に配置する。例えば、図６（ｂ）の例では、部分行動１として、”Person”，猫ook at”，捻hone”という基底動作および基底オブジェクトを選択し、配置している。当該行動が、一つの部分行動のみからなる場合は、行動の記述はこれで終了である。

そうでない場合、同様にして、部分行動２入力枠６０４で示される枠内に、部分行動２を記述するための基底要素または定義済みの行動を配置するとともに、部分行動１と部分行動２の関係を表現するための関連語を関連語リスト６０７の中から選択し、関連語入力枠６０３で示される枠内に配置する。例えば、図６（ｂ）の例では、関連語として”Then”を配置し、部分行動２を基底動作”RaiseArm”と基底オブジェクト”Person”によって表現している。この後、ユーザは登録ボタン６０９をマウスなどのポインティングデバイスによりクリックして、新しい行動の定義を完了する。

続いて、登録ボタン６０９がクリックされた後の、行動定義変換部１０８の処理について説明をする。行動定義変換部１０８は、ユーザの入力内容を解析して、行動定義ＤＢ１０５に、規定の形式で行動定義を格納する。具体的には、先ず行動名入力テキストボックス６０１の行動名を読み取り、それを行動定義ＤＢ１０５の行動名として登録すると共に、行動定義用のＸＭＬのActivity要素のname属性に行動名を設定する。この際、必要に応じて、行動名中に含まれる空白を削除する、単語の区切りごとに大文字にするなどの処理を行う。後に説明する基底名等のデータを格納する際についても同様である。続いて、部分行動１入力枠６０２に配置された部分行動１を構成する基底要素名あるいは定義済みの行動名を読み取る。もし、部分行動１入力枠６０２に配置されているのが基底要素である場合は、それぞれの基底要素名をダブルクオート（””）で囲み、複数の基底がある場合は、カンマ（，）で区切って、それをSubActivity1要素のコンテンツとする。

もし、部分行動１入力枠６０２に配置されているのが定義済みの別の行動である場合には、その行動名をキーに、行動定義ＤＢ１０５を検索し、その定義の記述をSubActivity1要素のコンテンツとする。関連語入力枠６０３に関連語が配置されている場合には、それを読み取り、Relation要素のコンテンツとする。関連語入力枠６０３が空の場合には、Relation要素のコンテンツも空とする。さらに、部分行動２入力枠６０４に部分行動２が配置されている場合には、部分行動２入力枠６０４に配置された部分行動２を構成する基底要素名あるいは定義済みの行動名を読み取る。もし、部分行動２入力枠６０４に配置されているのが基底要素である場合は、それぞれの基底要素名をダブルクオート（””）で囲み、複数の基底要素がある場合は、カンマ（，）で区切って、それをSubActivity2要素のコンテンツとする。もし、部分行動２入力枠６０４に配置されているのが定義済みの別の行動である場合には、その行動名をキーに、行動定義ＤＢ１０５を検索し、その定義の記述をSubActivity2要素のコンテンツとする。

このようにして、新たな行動の定義が行動定義ＤＢ１０５に格納されたら、行動定義部１０７は、定義済み行動リスト６０８の中に、今新たに定義された行動名を追加する。このようなユーザの定義処理によって、この新たに定義された行動を用いて、さらに複雑な行動を再帰的に記述することが可能となる。

行動の定義については、このようにユーザが自由に定義することが可能であるが、システムの利便性のために、予めいくつか標準的な行動定義を行動定義ＤＢ１０５に入れておくようにするとよい。

また、図６のように、基底や基底要素、定義済みの行動の名前だけをＧＵＩに表示するだけでは、具体的にそれがどんなオブジェクトやどんな動作を表すかが分かりにくい場合は、例えば、各基底要素名を図６のＧＵＩ上でダブルクリックすると、その基底要素や定義済み行動に対応する画像・映像や音声、センサ値の波形などの例がヘルプ情報として表示されるようにしておくと、さらに、ユーザに使い勝手のよいインタフェースを提供することができる。

さらに、既に蓄積されているデータがある場合に、ユーザが新たに行動定義を行ったとする。このとき、登録ボタン６０９をクリックした後に、例えば、ポップアップウィンドウを表示して今定義した行動の検出例を確認するか否かをユーザに問い、ユーザが確認することを選択した場合には、既に蓄積されているデータの中から今の定義にマッチする行動を検索してユーザに表示するようにすれば、ユーザはその場でその定義によって思い通りの認識結果が得られそうか否かを確認することができ、必要に応じて定義を修正することができるようになる。

また、ここでは、新規の行動を定義する例を説明したが、同様の手続きによって既存の定義を更新することもできる。特に、上記で述べたように、標準的な行動定義を、ユーザが自らの特殊な環境に合うように書き換える際に、このような機能が利便性を向上させる。

また、ここでは、図６に示されるようなＧＵＩ上で、ドラッグアンドドロップを主な操作として、行動を定義できるような例を示したが、もちろんＧＵＩの表現の仕方はこの例に限定されるものではなく、例えば、選択可能な基底要素や関連語、定義済みの行動などをドロップダウンリストの中から選ぶようにしてもよい。

以上のようにして、本実施形態の行動認識システム１００によれば、ユーザはＧＵＩ上の簡単な操作のみでシステムに認識させたい行動を定義することができる。これによって、例えば、行動名が同じでも、環境の変化によって、その行動の表出のされ方が変化するような場合にも、一からその行動の学習用データを収集し、認識器を再学習させる必要がなくなる。例えば、行動認識システムをある工場で使用し、マニュアルをチェックしているという行動”Checking manual”を認識させているとする。このようなときに、マニュアルの形式を、紙ベースのマニュアルから、ディスプレイ上に表示する電子マニュアルへと変更したとする。同じマニュアルをチェックしているという行動であっても、その外見上の様子は大きく異なるため、従来の行動認識手法では一から電子マニュアルをチェックしている際の学習用データを収集し直して、認識器を再学習させる必要があるが、本発明のシステムを用いると、例えば図３のように定義されている”Checking manual”の部分行動１の定義”Person”，猫ookAt”，捻aper”を、例えば、”Person”，猫ookAt”，妊isplay”に更新するだけでよい。その際、当該行動認識システムそのものや行動定義の記述形式などに精通しているエンジニアがいなくても、簡単なＧＵＩ上の操作のみで、ユーザ自らが行動定義の仕方を変更することができる。また、このように行動定義の変更が容易であるので、ユーザが試行錯誤をしながらより良い基底要素の組み合わせ方など、行動定義の仕方を検討することも容易になる。

〔実施形態２〕
以下、本発明の実施形態２を、図７ないし図１１を用いて説明する。

実施形態１で説明したシステムにより、ユーザはシステムに認識させたい行動を簡単な操作で定義できるようになった。しかしながら、ユーザが、認識させたい行動について明示的に理解している場合はよいが、認識させたい行動について漠然としたイメージだけを持っている場合は、それを適切な基底要素の組み合わせに落とし込むことは容易ではない。そこで、本実施形態では、既にセンサデータがある程度蓄積されている場合に、ユーザが認識させたい行動が含まれている区間を指定すれば、そこからシステムがその行動を表す定義を自動的に生成することができる行動認識システム（行動定義自動生成機能付行動認識システム）について説明をする。これによって、ユーザが認識させたい行動を明示的に理解していない場合でも、その行動を基底要素の組み合わせとして表現し、認識をさせることが可能になる。

先ず、図７を用いて実施形態２に係る行動認識システム（行動定義自動生成機能付行動認識システム）の機能構成を説明する。
本実施形態の行動定義自動生成機能付行動認識システム７００は、図１に記載の行動認識システム１００に加えて、図７に示されるように、センサデータＤＢ７０１、行動始終点情報付与部７０２、行動定義自動生成部７０３を有している。

次に、図８ないし図１１を用いて本実施形態の行動定義自動生成機能付行動認識システムの処理について説明する。
行動定義自動生成機能付行動認識システム７００は、先ずセンサ１０１からの出力をセンサデータＤＢ７０１に格納する。一定の量のデータがセンサデータＤＢ７０１に蓄積された後、ユーザは、行動始終点情報付与部７０２を介して、システムに認識させたい行動の開始時刻および終了時刻を入力する。行動始終点情報付与部７０２は、例えば、図８に示すようなユーザインタフェース画面を介して、ユーザからの対象行動の始終点情報の入力を受け付けるようにするとよい。センサデータ表示用ウィンドウ８０１は、センサデータＤＢ７０１に蓄積されているセンサデータに関する情報を表示するウィンドウであり、センサデータがビデオである場合にはそのビデオの再生映像を、加速度データやジャイロデータ、音響データである場合には、その時系列データをプロットした波形を表示する。この他に例えば、音響データに関しては、同時にその音を再生するなどしてもよい。タイムスライダー８０２は、再生時刻カーソル８０３で示される時刻のセンサデータに関する情報をセンサデータ表示用ウィンドウ８０１に表示するようにする。ユーザは、再生時刻カーソル８０３を移動させることにより、センサデータ表示用ウィンドウ８０１に表示する時刻を変えることができる。再生制御ボタン８０４の操作は、例えば、中央の三角のボタンをクリックすると、ビデオなどが再生される。

また、再生中に再度そのボタンを押すと、再生が一時停止される。左右のボタンは、再生する時刻をそれぞれ１フレームだけ戻したり進めたりするのに用いる。ユーザは、このインタフェースを用いて、先ず認識させたい行動の開始時刻に再生時刻カーソル８０３を合わせ、開始時刻・終了時刻設定用ボタン８０５をマウスなどのポインティングデバイスによりクリックする。それにより、行動始終点情報付与部７０２は、対応する時刻を開始時刻として記録し、開始時刻・終了時刻設定用ボタン８０５の表示テキスト（ボタンフェイス）を”Set Start”から、”Set End”に変更する。もし、ユーザが誤ってボタンをクリックした場合や、時刻の修正をしたい場合には、リセットボタン８０６をクリックし、再度開始時刻の設定を行う。同様にして、ユーザは、認識させたい行動の終了時刻に再生時刻カーソル８０３を合わせ、再度開始時刻・終了時刻設定用ボタン８０５をクリックする。

それにより、行動始終点情報付与部７０２は、対応する時刻を終了時刻として記録し、開始時刻・終了時刻設定用ボタン８０５の表示テキストを”Set End”から、”Create activity definition”に変更する。誤ってボタンをクリックした場合や、時刻の修正をしたい場合はリセットボタン８０６をクリックし、再度、開始時刻の設定から行う。入力した開始時刻、終了時刻に間違いがない場合には、ユーザは再度開始時刻・終了時刻設定用ボタン８０５をクリックする。それにより、行動始終点情報付与部７０２は、記録した行動の開始時刻および終了時刻を、行動定義自動生成部７０３に送信する。

次に、図９ないし図１１を用いて行動定義自動生成部７０３の処理の一例を説明する。
ここで、説明のため、行動始終点情報付与部７０２を通して、ユーザが入力した認識対象行動の開始時刻をts、終了時刻をteとおく。

行動定義自動生成部７０３は、先ず、時刻tsから時刻teまでの時間帯について、基底認識部１０２および行動認識部１０４を利用して、基底認識処理および定義済みの行動認識処理を行う（Ｓ９０１）。その結果、例えば、図１０（ａ）のような結果が得られる。図１０（ａ）の矢印に対応する時間帯が、各基底要素および定義済み行動が認識されている時間帯である。

次に、tsの時点で認識されている基底要素または定義済み行動があるか否かを調べ（Ｓ９０２）、もしある場合には（Ｓ９０２：Ｙｅｓ）、その基底要素または定義済み行動の開始時刻を調べる（Ｓ９０３）。図１０（ａ）の例では、基底要素Ａおよび基底要素Ｂについて、それぞれの開始時刻を調べる。同様にして、teの時点で認識されている基底要素または定義済み行動があるか否かを調べ（Ｓ９０４）、もしある場合には（Ｓ９０４：Ｙｅｓ）、その基底要素または定義済み行動の終了時刻を調べる（Ｓ９０５）。これらの処理により、図１０（ｂ）のような結果が得られる。図１０（ｂ）の表示では、図１０（ａ）と比較して、基底要素Ａと基底要素Ｂが、時刻tsより前に、延伸されており、行動Ｂが時刻teより後ろに延伸されている。

次に、基底要素または定義済み行動から構成し得る全ての部分行動を生成する（Ｓ９０６）。図１０（ｂ）を例に、この処理を具体的に説明する。基底要素または定義済み行動は単独でも部分行動を構成することができるので、先ず、「”基底要素Ａ”」、「”基底要素Ｂ”」、「”基底要素Ｃ”」、「”行動Ｄ”」の四つが部分行動になり得る。さらに、基底要素を２種類または３種類組み合わせて部分行動を構成することが可能なので、「”基底要素Ａ”，”基底要素Ｂ”」、「”基底要素Ｂ”，”基底要素Ｃ”」、「”基底要素Ｃ”，”基底要素Ａ”」の三つと、「”基底要素Ａ”，”基底要素Ｂ” ，”基底要素Ｃ”」の一つが部分行動になり得る。この際、組み合わせる基底要素同士の間で、時間的なオーバーラップがない場合は部分行動を構成できないので、取り除く。一般に、基底要素および定義済み行動がtsからteまでの間に合計Ｎ個認識されている場合には、それらを用いて構成し得る部分行動は最大_ＮＣ_１＋_ＮＣ_２＋_ＮＣ_３個となる。ここで、_ＮＣ_ｒは、Ｎ個のものからｒ個のものをとる組合せの数である。次に、これらの部分行動から構成し得る全ての行動を生成する（Ｓ９０７）。Ｓ９０７の詳細は、後に、図１１を用いて説明する。

行動定義自動生成部７０３は、Ｓ９０７において求めた全ての行動に対して、その行動の時間帯（i番目の行動の時間帯をt_system_iとおく）と、ユーザが行動始終点情報付与部７０２を通して入力した、認識対象行動の開始時刻tsから終了時刻teの間の時間帯（これをt_userとおく）のＩＯＵ（Intersection over union）を、以下の（式１）により求める。

（式１）に使用されているt_user∪t_system_iは、時間帯t_userと、時間帯t_system_iの合併（Union）を取ることを意味し、t_user∩t_system_iは、時間帯t_userと、時間帯t_system_iの共通部分（Intersection）を取ることを意味する。また、｜time zone｜は、時間帯time zoneの長さである。例えば、図１０（ｃ）のような場合、（式１）の分母は、単位を秒として、２４−２＝２２［秒］となり、分子は２０−４＝１６［秒］となるので、ＩＯＵの値は約０．７３となる。このＩＯＵの値は、定性的には、ユーザが定義した時間帯と、システムが自動生成した行動の時間帯がどの程度過不足なく適合しているかを測る指標となる。

そして、行動定義自動生成部７０３は、このＩＯＵの値の最も大きいものを、ユーザが指定した時間帯に起こった行動定義の候補として提示する（Ｓ９０９）。そのときには、ＩＯＵの値の順に複数件候補を提示するようにしてもよい。さらに、ユーザにこの候補を提示した後、図６で説明したようなユーザインタフェース画面を用いてその行動に名前をつけ、そのままその定義を受け入れるか、これに少し修正を加えるかを選択させるようにするとよい。

次に、図１１を用いてステップＳ９０７の処理の一例を詳細に説明する。
Sを、Ｓ９０６において求めた部分行動から構成し得る全ての行動の集合とする。全ての部分行動は、単独でそのまま行動となることができるため、先ず、Ｓ９０６において求めた部分行動の集合をSとおく（Ｓ１１０１）。次に、新たな行動が定義されたか否かを表すフラグflagAddedNewActivityをFalseにセットし、集合Sの要素数｜S｜を変数Mにセットする（Ｓ１１０２）。そして、集合Sの中から、二つの部分行動siとsjを順次取り出し、これらを用いて新たな行動の定義が可能か否かをチェックしていく。ここで、図１１のフローチャートのループの表記として、Ｃ言語のfor文の文法を用いて記述している。

先ず、siがsjの定義に含まれるか、あるいは、sjがsiの定義に含まれるかを否かをチェックする（Ｓ１１０３）。定義済みの行動が単独で部分行動を構成することがあるため、siがsjに含まれる、またはsjがsiに含まれる、ということが起こりうる。例えば、siが”Person”，猫ook at”，捻hone”で、sjが図３に記載の定義済み行動”Phoning”である場合などがこれに当たる。この場合、これらから新たに行動を定義することはできないので、これ以上の処理を行わず、次の部分行動の組み合わせをチェックする。そうでない場合には（Ｓ１１０３：Ｎｏ）、siとsjを用いて生成可能な行動を全て生成し、この集合をSnewとおく（Ｓ１１０４）。より具体的には、各関連語について、si And sj、si Or sj、si Then sj、sj Then si、si Without sj、sj Without si、となる時間帯を計算し、これらが成立する時間があればこの行動は生成可能とみなし、Snewに加える。ここで、関連語AndやOrについてはsi And sjとsj And siなどは同じ意味を持つので両方をチェックする必要はない。

次に、Snewに一つ以上の要素が含まれているか否か（Ｓ１１０５）、すなわち、何か新たに行動を定義することができたか否かをチェックし、含まれていれば（Ｓ１１０５：Ｙｅｓ）、それらをSに追加し（Ｓ１１０６）、ＳflagAddedNewActivityをTrueにセットする（Ｓ１１０７）。このようにして、siとsjの全ての組み合わせについて、それらを用いて新たな行動が定義可能か否かをチェックする。一つでも新たに行動が定義された場合はflagAddedNewActivityがTrueになっている。そこで、ループを抜けたときに、flagAddedNewActivityがTrueになっているか否かをチェックし（Ｓ１１０８）、Trueになっている場合には（Ｓ１１０：Ｙｅｓ）、Ｓ１１０２に戻って、新たな集合Sに対して同様の処理を行う。flagAddedNewActivityがTrueになっていない場合（Ｓ１１０：Ｎｏ）、すなわち新たな行動が一つも定義されなかった場合には、処理を終了する。

以上のような処理により、本実施形態では、ユーザが認識させたい行動を明示的に理解していない場合でも、ユーザは一度認識させたい行動の開始時刻と終了時刻を選ぶだけで、システムがその行動を表現するための基底の組み合わせを自動的に抽出し、その行動を認識させることができるようになる。

〔実施形態３〕
以下、本発明の実施形態３を、図１２ないし図１４を用いて説明する。
本実施形態では、システムに認識させたい行動を自然言語を用いて記述することができる行動認識システム（自然言語解釈機能付行動認識システム）の例について説明をする。これにより、ユーザは行動を構成する基底要素さえも意識することなく、行動を定義することが可能になる。

先ず、図１２を用いて実施形態３に係る行動認識システム（自然言語解釈機能付行動認識システム）の機能構成を説明する。
自然言語解釈機能付行動認識システム１２００は、図１に記載の行動認識システム１００の構成に加えて、基底類似語ＤＢ１２０３を有すると共に、図１２に示されるように、行動定義部１０７に変えて自然言語入力機能付行動定義部１２０１、行動定義変換部１０８に変えて自然言語解釈機能付行動定義変換部１２０２を有している。

次に、図１３を用いて基底類似語ＤＢ１２０３について説明する。
基底類似語ＤＢ１２０３には、各基底要素の類似語を予め登録しておく。図１３は、基底類似語ＤＢ１２０３に格納されているデータの一例を示す図であり、例えば、”Person”には、「人」「人間」「男性」「女性」などの類似概念を表現する語が記録されている。

次に、図１４を用いて実施形態３に係る行動認識システム（自然言語解釈機能付行動認識システム）のユーザインタフェースについて説明する。
図６のＧＵＩに加えて、ユーザ自らが基底要素を組み合わせて行動を定義するか、自然言語を用いて行動を定義するかを択一的に選択する基底利用行動定義用ラジオボタン１４０１および自然言語利用行動定義用ラジオボタン１４０２と、自然言語入力用の行動定義用自然言語入力テキストボックス１４０３が備わっている。

自然言語を用いて行動を定義する場合、ユーザは、自然言語利用行動定義用ラジオボタン１４０２を選択し、行動を記述する文章を行動定義用自然言語入力テキストボックス１４０３に入力する。入力が終われば、登録ボタン６０９をクリックする。登録ボタン６０９がクリックされると、自然言語入力機能付行動定義部１２０１は、行動定義用自然言語入力テキストボックス１４０３に入力された文章を、自然言語解釈機能付行動定義変換部１２０２に送信する。

自然言語解釈機能付行動定義変換部１２０２は、その文字列を任意の既存の自然言語処理手法を用いて解析する。例えば、入力された文章が、日本語のように単語の区切りが明確でない言語の場合、自然言語解釈機能付行動定義変換部１２０２は、必要に応じて形態素解析を行い、文章を単語列に分解する。そして、ここで得られた各単語を類似語に持つ基底要素がないか、図１３に示したような基底類似語ＤＢ１２０３に格納されたデータを参照して調べる。そして、そのような基底要素が見つかれば、その単語をその基底に置き換え、見つからなければその単語は無視する。こうして得られた基底要素の列をWとおく。続いて、Wの中から、関連語を検索する。関連語が含まれていなければ、W全体を部分行動１とし、当該行動はこの部分行動１のみを含む行動として定義する。Wの中に関連語が含まれていれば、その関連語の前の単語列をW１、その関連語の後の単語列をW２とおき、いったんW1を部分行動１、W２を部分行動２として、当該行動を定義する。

続いて、W１およびW2に対して同様の処理を再帰的に行い、その中に関連語が含まれている場合はさらに詳細に分解をしていく。関連語が複数ある場合は、初めに出現する関連語を用いて単語列を分解してもよいし、最後に出現する関連語を用いて単語列を分解してもよいし、W1とW2の長さが最も近くなるような関連語を用いて単語列を分解してもよい。また、関連語の中に優先順位を予め設けておき、最も優先度の高い関連語の前後で単語列を分解するようにしてもよい。さらに、単語の意味も含めてより詳細に解析をした上で単語列を分解する関連語を選ぶようにしてもよい。

以上のような処理により、本実施形態の自然言語解釈機能付行動定義変換部１２０２は、ユーザが入力する自然言語による認識対象行動の記述から、システムが解釈可能な基底要素の組み合わせによる行動定義を、自動生成することが可能になる。

〔実施形態４〕
以下、本発明の実施形態４を、図１５および図１６を用いて説明する。
基底要素や部分行動・行動の種類によっては、一般的な継続時間や、センサとしてカメラを用いる際の画像内の大きさなど、何らかのコンテキスト情報を含んでいることがある。そこで、本実施形態では、これを事前知識としてシステムに与えることで、より高精度に基底認識および行動認識を行うことのできる行動認識システム（基底要素別事前情報付行動認識システム）の例を説明する。

先ず、図１５を用いて実施形態４に係る行動認識システム（基底要素別事前情報付行動認識システム）の機能構成を説明する。
基底要素別事前情報付行動認識システム１５００は、図１に記載の行動認識システム１００の構成に加えて、基底要素別事前情報ＤＢ１５０１を有していると共に、図１５に示されように、基底認識部１０２に変えて事前情報付基底認識部１５０２を有している。

次に、図１６を用いて実施形態４に係る行動認識システム（基底要素別事前情報付行動認識システム）の処理について説明する。

事前情報付基底認識部１５０２は、先ず実施形態１で説明した基底認識部１０２の処理と同様の処理を行い、例えば、各動作や各オブジェクトごとの当該時間帯における存在確率の列を計算する。次に、基底要素別事前情報ＤＢ１５０１を参照して、それらの存在確率を補正する。例えば、基底要素別事前情報ＤＢ１５０１に、各基底要素ごとの存在時間の平均値や標準偏差の値を格納しておき、それらをパラメータとする正規分布によって確率を補正することができる。図１６（ａ）には、このような補正を行う場合に、基底要素別事前情報ＤＢ１５０１に格納されているデータの例が示されている。このデータは、経験的に定めてもよいし、過去のデータからサンプル平均およびサンプル標準偏差を計算することで求めてもよい。より具体的には、例えば、ある種類の基底（例えば「動作」）に対して、その基底のi番目の要素（例えば”Walk”，韮end down”など）をbi、実施形態１に記載の基底認識部１０２と同様の処理によって得られる基底要素biの存在確率をp(bi)とおくと、補正確率p^(bi)は、以下の（式２）によって計算することができる。

ただし、Ｎ（ｔ；・，・）は、平均μｉ、標準偏差σｉで表現される正規分布であり、ｔｉはｂｉが認識されている時間の長さ、αは例えば、０．２などの任意の定数である。もちろん、事前情報の与え方は、この例で説明したような正規分布に限定する必要はなく、任意の確率分布とそのパラメータを用いることができるし、必ずしも確率分布を用いなく、パラメータは、離散的変量であってもよい。さらに、ここでは、時間に関する事前情報を与える例を説明したが、例えば、空間に関する事前情報を与えてもよい。

例えば、センサとして固定カメラを用いて、基底としてオブジェクトを認識する際には、各オブジェクトに関するおおよその大きさに関する情報を事前情報として、基底要素別事前情報ＤＢ１５０１に格納しておいてもよい。この場合、例えば、オブジェクトのBounding Boxの面積によってオブジェクトの大きさを表してもよいし、オブジェクトの大きさをピクセル数で表してもよい。いずれにしても上述した時間に関する事前情報を与える場合の処理と同様に、例えば、正規分布を用いて各オブジェクトの存在確率を補正することができる。

また、大きさの絶対値の代わりに、図１６（ｂ）のように、各オブジェクトの大きさの相対値に関する情報を格納しておいてもよい。こうすることで、例えば、ウェアラブルセンサなど、センサが移動して、計測される基底要素の見かけ上の大きさが大きく変化する場合でも正確な補正ができるようになる。具体的な処理としては、例えば、各フレームにおいて認識されている基底要素の中で、最も確率が高い基底要素を基準として、各オブジェクトの相対的な大きさとその確率を計算することができる。より具体的には、最も確率が高い基底要素の現在フレームにおける大きさの絶対値がsmax、相対的大きさの平均値がμmaxであった時、基底要素biの補正確率p^(bi)は、以下の（式３）によって計算することができる。また、先に説明した時間に関する事前情報と組み合わせて用いることも可能である。

さらに、基底要素間に相関関係がある場合、その関係性を事前情報として、基底要素別事前情報ＤＢ１５０１に格納しておくことも可能である。例えば、一般に「金槌」という基底オブジェクトと「回す」という基底動作が同時に観測される確率よりも、「金槌」という基底オブジェクトと「叩く」という基底動作が同時に観測される確率の方が高いと考えられる。このような関係性を、例えば、条件付確率として、基底要素別事前情報ＤＢ１５０１に格納しておくことができる。図１６（ｃ）はそのようなデータの例である。図１６（ｃ）のi行j列目は、条件付確率p(bi｜bj)を表している。すなわち、p(bi｜bj)は、基底要素bjが観測されたときに、基底要素biが観測される確率である。これを用いて、例えば、以下の（式４）のようにして補正確率p^(bi)を求めることができる。

ここで、Bは基底要素の集合を現し、αは重み付けを表す定数である。（式４）を定性的に解釈すれば、事前情報として、基底要素bjが観測されたときに、基底要素biも観測される確率が高いことが分かっている場合において、実際の基底要素bjの存在確率も高ければp^(bi)はp(bi)より高くなり、実際の基底要素bjの存在確率が低ければp^(bi)はp(bi)より低くなるということである。反対に、事前情報として、基底要素bjが観測されたときに、基底要素biも観測される確率が低いことが分かっている場合は、実際の基底要素bjの存在確率も低ければp^(bi)はp(bi)より高くなり、実際の基底要素bjの存在確率が高ければp^(bi)はp(bi)より低くなるということである。

以上で述べたような方法を用いて、本実施形態の行動認識システムにおいて、個々の基底要素や基底要素間の関連性に関する事前情報を導入することで、より精度良く基底認識を行うことができるようになり、行動認識の精度も向上させることができる。なお、本実施形態において述べた事前情報の格納の仕方やその使い方は、基底要素別事前情報付行動認識システム１５００が行う処理の例を説明するためのものであって、事前情報の格納の仕方やその使い方については、本実施形態中で説明したものに限定されない。

〔実施形態５〕
以下、本発明の実施形態５を、図１７および図１９を用いて説明する。
関連語の中には、基底要素や部分行動間の時間的・空間的関係性を表す言葉が含まれうる。例えば、関連語”Then”は部分行動１が生じた一定時間後に、部分行動２が生じることを表すために用いる。これまでに述べた実施形態の中では、暗黙的にこの一定時間というのは状況によらず不変であると仮定して詳細には説明をしてこなかったが、行動の種類によって、この間隔が長い傾向があるものもあれば短い傾向があるものもあり得る。

そこで、本実施形態では、ある定義済み行動に対して、既に蓄積されているデータの中から、その行動の定義にマッチするシーンを検索してユーザに提示し、その提示結果に対してユーザが簡単なフィードバックを与えることにより、関連語を自動的にその行動向けにカスタマイズし、より精度良く行動認識を行うことのできる行動認識システム（関連語カスタマイズ機能付行動認識システム）の例を説明する。

先ず、図１７を用いて関連語カスタマイズ機能付行動認識システム１７００の機能構成を説明する。
関連語カスタマイズ機能付行動認識システム１７００は、図１に記載の行動認識システム１００の構成に加えて、図１７に示されるように、関連語カスタマイズ部１７０１を有している。

次に、図１８および図１９を用いて本実施形態の関連語カスタマイズ機能付行動認識システムの処理について説明する。
ユーザは先ず、図１８に示されたユーザインタフェース画面の行動名選択用ドロップダウンリスト１８０１から関連語のカスタマイズを行いたい行動を選択する。行動名選択用ドロップダウンリスト１８０１には、行動定義ＤＢ１０５に格納されている定義済みの行動を予め設定しておく。ユーザは、次に、読み込みボタン１８０２をクリックする。これにより、関連語カスタマイズ部１７０１は、行動定義ＤＢ１０５から当該行動の定義を読み込み、それを行動定義表示欄１８０３に表示する。さらに、行動認識部１０４等を用いて、既に蓄積されているデータに対して当該行動の認識処理を行う。そこで、例えば、当該行動の確率が一定の閾値以上である時間帯の列を抽出する。

そして、その中の一つ目の時間帯のデータをセンサデータ表示欄１８０４に表示する。ユーザが再生ボタン１８０６をクリックすると、関連語カスタマイズ部１７０１は当該時間帯のデータをセンサデータ表示欄１８０４に表示する。例えば、センサデータがビデオデータである場合には、そのビデオデータの再生画像を、加速度データやジャイロデータ、音響データである場合には、その時系列データをプロットした波形を表示する。ユーザはこれを見て、この時間帯が認識したい行動を過不足なく含んでいるか否か、すなわち、認識結果が正しいか否かを判断し、正しい場合は、正解ボタン１８０８をクリックする。正しくない場合は、不正解ボタン１８０９をクリックする。この後、ユーザが次の時間帯を表示するための後に進むボタン１８０７をクリックすると、関連語カスタマイズ部１７０１は、次の時間帯のデータをセンサデータ表示欄１８０４に表示する。もし、前の時間帯のデータを見て、再度正解・不正解をつけなおしたい場合は、ユーザは、前に戻るボタン１８０５をクリックする。すると関連語カスタマイズ部１７０１は、前の時間帯のデータをセンサデータ表示欄１８０４に表示する。

このようにして、ユーザは自らが定義した行動に合致するシーンを確認し、その一つ一つに正解・不正解のラベルをつけることができる。関連語カスタマイズ部１７０１は、この情報を用いて、当該行動をより精度良く認識できるよう、関連語にカスタマイズ情報を付与する。

以下では、関連語”Then”をカスタマイズする場合を例にとって、図１９を用いてこの処理を具体的に説明する。関連語”Then”は、部分行動１の後に部分行動２が観測されることを表現するものである。より具体的には、閾値tを用いて、部分行動１が終了した後、時間t以内に部分行動２が開始されていれば、部分行動１の開始時刻から部分行動２の終了時刻までを、当該行動が発生していた時間として出力する。カスタマイズを行う前のデフォルトでは、例えばt＝5（秒）など、任意の値を設定しておき、この値を全ての行動の認識に用いる。関連語カスタマイズ部１７０１は、このデフォルト値を用いて抽出された時間帯の列をユーザに提示し、先に述べた手順を経て、それらが正解であったか、不正解であったかの情報を得られる。ここで、このデフォルト値を用いて抽出された時間帯の列を｛T0，T1，…，Tn-1｝とし、Tiにおける部分行動１の終了時刻から部分行動２の開始時刻までの経過時間をδTiとおくと、関連語カスタマイズ部１７０１は、以下の（式５）を用いて閾値tを更新することができる。

ここで、（式５）におけるCは、デフォルト値を用いて抽出された時間帯の列のうち、ユーザが正解ラベルを付与した時間帯のインデックスの集合を現す。また、αは学習係数であり、カスタマイズによって大きくデフォルト値を変化させたい場合は大きな値を、そうでない場合は小さな値を設定すればよい。（式５）を定性的に解釈すれば、関連語カスタマイズ部１７０１は、ユーザが正解と判断したデータにおける、部分行動１の終了時刻から部分行動２の開始時刻までの経過時間δTiに、デフォルト値であるtが近づくように、tを更新するということである。関連語カスタマイズ部１７０１は、このようにして補正した閾値tの値を、行動定義ＤＢ１０５の中に、関連語の属性として記録する。具体的には、例えば、図１９のように、Relation要素に、threshhold属性を指定する形で記録することができる。行動認識部１０４は、関連語に属性が付与されていない場合はデフォルトの閾値tを用いて行動認識を行い、属性が付与されている場合は、その値を用いて行動認識を行うようにする。

以上、本実施形態では、関連語”Then”をカスタマイズする場合を例にとって、関連語カスタマイズ部１７０１の処理の例を説明したが、他の関連語についても同様の処理を施すことで、各行動ごとにその関連語をカスタマイズすることができる。例えば、空間的な近接関係を表すような関連語”Near”がある場合には、その距離の閾値を本実施形態で説明したような方法で行動ごとにカスタマイズすることも可能である。

〔実施形態６〕
以下、本発明の実施形態６を、図２０および図２１を用いて説明する。
これまでに述べたいずれかの方法によって、ユーザが認識をさせたい行動を定義したとき、それが必ずしもユーザが認識させたい行動の最適な定義になっているとは限らない。例えば、ユーザは本来必要でない余分な基底要素を含んだ形で行動を定義してしまうかもしれないし、逆に本来必要な基底要素を含まずに行動を定義してしまうかもしれない。あるいは、関連語の使い方を誤ってしまうこともあり得る。

そこで本実施形態では、ある定義済みの行動に対し、既に蓄積されているデータの中から、その行動定義にマッチするシーンを検索してユーザに提示し、その提示結果に対してユーザが簡単なフィードバックを与えることで、その行動の定義の修正案をユーザに提示することのできる行動認識システム（行動定義修正案提案機能付行動認識システム）の例を説明する。

先ず、図２０を用いて行動定義修正案提案機能付行動認識システムの機能構成を説明する。
行動定義修正案提案機能付行動認識システム２０００は、図１に記載の行動認識システム１００の構成に加えて、図２０に示されるように、行動定義修正提案部２００１を有している。

次に、図２１を用いて本実施形態の行動定義修正案提案機能付行動認識システム２０００の処理について説明する。
行動定義修正提案部２００１は、上記で説明した関連語カスタマイズ部１７０１がユーザに提示する図１８のユーザインタフェース画面と同様のユーザインタフェース画面を有する。このユーザインタフェース画面を用いて、上記の説明と同様の処理で、既に蓄積されているデータに対するある行動の認識結果について、ユーザに正解・不正解の情報を入力させる。

行動定義修正提案部２００１は、この情報を用いて、当該行動のより良い定義をユーザに提案する。以下、ある行動を、ユーザは部分行動１として基底”A”，韮”を、関連語として”And”を、部分行動２として基底”C”を用いて定義していたとし、その結果、図２１に示すような認識結果が得られたとして、行動定義修正提案部２００１の具体的な処理について説明をする。ここで、図２１（ａ）、図２１（ｂ）、図２１（ｃ）は、ユーザが正解と判断した認識結果、図２１（ｄ）、図２１（ｅ）は、ユーザが不正解と判断した認識結果を示している。また、tsおよびteは、当該行動として検出された時間の開始および終了に対応する時刻である。ここで、説明のため、Cをユーザが正解と判断した認識結果に対応する時間帯の集合、すなわち図２１（ａ）、図２１（ｂ）、図２１（ｃ）それぞれの開始時刻から終了時刻までの時間帯の集合とし、ICをユーザが不正解と判断した認識結果に対応する時間帯の集合、すなわち、図２１（ｄ）、図２１（ｅ）それぞれの開始時刻から終了時刻までの時間帯の集合とする。

先ず、行動定義修正提案部２００１は、正解・不正解に関わらず、検出された時間内に含まれる全ての基底を列挙し、次に、先に、図９のステップＳ９０６およびステップＳ９０７として説明した方法と同様の方法を用いて、これらの基底から構成し得る全ての行動定義を生成する。そして、この全ての行動定義に対して、以下の（式６）を用いてスコアを計算する。ここで、siはi番目の行動定義に対応するスコアである。tijはtjに対応する時間帯に前後一定時間を加えた時間帯の中で、i番目の行動定義によって当該行動と認識された時間帯である。IOU(x，y)は時間帯xと時間帯yのIOUを計算する関数であり、以下の（式７）により定義される。

（式６）を定性的に解釈すれば、新しい行動定義が、ユーザが正解と判断した時間帯を当該行動が発生していた時間帯として検出するとスコアは大きくなり、かつ、新しい行動定義が、ユーザが不正解と判断した時間帯を当該行動が発生していた時間帯として検出しないとスコアは大きくなるということである。例えば、図２１の例では、元々のユーザ定義｛”A”，韮”｝”And”｛”C”｝のスコアは、おおよそ(1＋0＋0)-(1＋0)＝0となる。例えば、図４（ａ）に示したAndの意味を鑑みれば、図２１（ａ）の例では、基底”A”，韮”と基底”C”のAndにあたる時間帯は、全て開始ts、終了teの時間帯に含まれるため、IOUは、１であり、図２１（ｂ）の例では、基底”C”がそもそも含まれていないため、Andにあたる時間帯は、IOUは、０となることが分かる。

これに対し、例えば、｛尿”，韮媒埜ithout倍濡媒という定義は、おおよそ(1＋1＋1)-(0＋0)＝3となる。図４（ｂ）に示したWithoutの意味を鑑みれば、例えば、図２１（ａ）の例では、基底”G”が含まれていないため、IOUは、1であり、図２１（ｅ）の例では、基底”A”，韮”の時間帯から基底”G”の時間帯を除いた時間帯と、ユーザが指定した開始ts、終了teば時間帯は、一致する所がないため、IOUは、0となる。なお、ここで、｛基底，基底｝、｛基底｝は、部分行動を示し、それを関連語で接続する表記で行動定義を表現した。行動定義修正提案部２００１は、このようにして求めたスコアの中で最も高いスコアを持つ行動定義を、修正案としてユーザに提示する。ユーザはシステムの提案する新しい定義をそのまま受け入れてもよいし、自らが元々行った定義を引き続き使用することにしてもよいし、システムの提案する新しい定義を参考にして既存の定義を自ら修正してもよい。また、スコアの高い順に複数の修正案を提案するようにすることも可能である。

〔実施形態７〕
以下、本発明の実施形態７を、図２２および図２３を用いて説明する。
本実施形態では、これまでに説明した行動認識システムを用いて行動認識を行い、認識された行動の結果を用いて、ユーザに更なる付加価値をもたらすことのできる行動認識システム（行動統計情報表示機能付行動認識システム）を説明する。

先ず、図２２を用いて行動統計情報表示機能付行動認識システムの機能構成を説明する。
行動統計情報表示機能付行動認識システム２２００は、図１に記載の行動認識システム１００の構成に加えて、図２２に示されるように、行動統計情報表示部２２０１を有している。

次に、図２３を用いて行動統計情報表示機能付行動認識システム２２００のユーザインタフェースについて説明する。
図２３は、行動統計情報表示機能付行動認識システム２２００のユーザインタフェース画面の例を示す図である。

図２３（ａ）には、行動統計情報表示部２２０１がユーザに提示するユーザインタフェース画面のテンプレートが示されている。ユーザは区間入力用テキストボックス２３０１に統計情報を表示したい区間を入力する。そして、ユーザが、表示ボタン２３０２をクリックすると、行動統計情報表示部２２０１は、指定された区間の日別統計情報を統計情報表示用ウィンドウ２３０３に表示する。具体的には、センサデータＤＢ７０１に格納されているセンサデータの中から、指定された区間のセンサデータを読み出し、そのデータに対して、行動認識部１０４を用いて行動認識処理を行う。

図２３（ｂ）には、図２３（ａ）のユーザインタフェース画面に実際に統計情報の表示した例が示されている。ここでは、工場の作業員の作業中の行動について分析をする例が示されている。ユーザはこれを見ながら、例えば、１月２７日は”Look for parts”、すなわち部品を探している時間が長かったことが分かる。そこで、必要に応じてその日の現場の映像データを確認したり、１月２７日の作業に必要であった部品リストとその格納場所について確認をしたり、当該作業員に聞き込みをして、この理由を検討することができる。

なお、ここでは日ごとの統計情報を表示する例を説明したが、時間スケールについては自由に変えることが可能であり、例えば、もっと細かい時間粒度で分析をしたい場合は、例えば時間ごとの統計情報を表示するようにすることも可能であるし、逆にもっと粗い時間粒度で分析をしたい場合は、例えば月ごとの統計情報を表示するようにすることも可能である。また、これらに加え、週ごとの各行動の時間の平均値や標準偏差値などを表示するようにしてもよい。さらには、複数の作業員の行動統計を同時に表示して比較分析ができるようにしてもよいし、作業現場ごとの比較ができるようにしてもよい。

ここまで、行動認識結果を用いた統計情報を表示する例について説明をしたが、例えば、これまでに説明した行動認識システムをリアルタイムで用い、認識対象の行動が検出された際に、システムにユーザ所望の動作をさせるようにすることも可能である。

〔実施形態８〕
以下、本発明の実施形態７を、図２４および図２５を用いて説明する。
実施形態７では、行動統計情報表示する機能を有する動認識システムについて説明したが、本実施形態では、認識された行動の結果によって、ユーザが具体的にシステムに対して、行動認識時動作設定できる行動認識システム（行動認識時動作設定機能付行動認識システム）を説明する。

先ず、図２４を用いて行動認識時動作設定機能付行動認識システムの機能構成について説明する。
行動認識時動作設定機能付行動認識システム２４００は、図１に記載の行動認識システム１００の構成に加えて、図２４に示されるように、認識時動作設定部２４０１を有している。

次に、図２５を用いて行動認識時動作設定機能付行動認識システム２４００の処理について説明する。

ユーザは先ず、図２５に示される行動名選択用ドロップダウンリスト２５０１から、認識時のシステムの動作を設定したい行動の名前を選択する。次に、ユーザは、行動選択用チェックボックス２５０２中から、当該行動が認識されたときに、システムに行ってほしいことを選択する。そのときには、複数のチェックボックスにチェックをすることも可能である。図２５の例では、認識時の動作として、「大きなウィンドウにその場所の映像を表示する」（Display in large window）、「テキストボックス］で指定するe-mailアドレスに通知を送る」（Send e-mail to：）、「［テキストボックス］で指定する電話番号へ電話を発信する」（Call：）、「センサデータをデータベースに格納する」（Record sensor data）の４種類の動作の中から所望の動作を選択することができる。もとより、行動認識時のシステムの動作はこれらに限る必要はない。この後、ユーザは登録ボタン２５０３をクリックして、当該行動認識時のシステム動作の設定を終了する。ユーザインタフェース画面に関しては、図２５のようなものに限る必要はなく、行動認識時のシステムの動作をユーザが簡単に設定できるようなものであれば、その形式は任意に定めることができる。

１００…行動認識システム
１０１…センサ
１０２…基底認識部
１０３…基底認識用ＤＢ
１０４…行動認識部
１０５…行動定義ＤＢ
１０６…認識結果表示部
１０７…行動定義部
１０８…行動定義変換部
２００…情報処理装置
２０１…入力装置
２０２…中央演算処理装置
２０３…主記憶装置
２０４…補助記憶装置
２０５…出力装置
２０６…バス
６００…ユーザインタフェース画面（行動認識システム１００）
６０１…行動名入力テキストボックス
６０２…部分行動１入力枠
６０３…関連語入力枠
６０４…部分行動２入力枠
６０５…基底オブジェクトリスト
６０６…基底動作リスト
６０７…関連語リスト
６０８…定義済み行動リスト
６０９…登録ボタン
６１０…ポインタ
７００…行動定義自動生成機能付行動認識システム
７０１…センサデータＤＢ
７０２…行動始終点情報付与部
７０３…行動定義自動生成部
８００…行動開始時刻・行動終了時刻指定用ユーザインタフェース画面
８０１…センサデータ表示用ウィンドウ
８０２…タイムスライダー
８０３…再生時刻カーソル
８０４…再生制御ボタン
８０５…開始時刻・終了時刻設定用ボタン
８０６…リセットボタン
１２００…自然言語解釈機能付行動認識システム
１２０１…自然言語入力機能付行動定義部
１２０２…自然言語解釈機能付行動定義変換部
１２０３…基底類似語ＤＢ
１４００…ユーザインタフェース画面（自然言語解釈機能付行動認識システム１２００）
１４０１…基底利用行動定義用ラジオボタン
１４０２…自然言語利用行動定義用ラジオボタン
１４０３…行動定義用自然言語入力テキストボックス
１５００…基底要素別事前情報付行動認識システム
１５０１…基底要素別事前情報ＤＢ
１５０２…事前情報付基底認識部
１７００…関連語カスタマイズ機能付行動認識システム
１７０１…関連語カスタマイズ部
１８００…ユーザインタフェース画面（関連語カスタマイズ機能付行動認識システム１７００）
１８０１…行動名選択用ドロップダウンリスト
１８０２…読み込みボタン
１８０３…行動定義表示欄
１８０４…センサデータ表示欄
１８０５…前に戻るボタン
１８０６…再生ボタン
１８０７…後に進むボタン
１８０８…正解ボタン
１８０９…不正解ボタン
２０００…行動定義修正案提案機能付行動認識システム
２００１…行動定義修正提案部
２２００…行動統計情報表示機能付行動認識システム
２２０１…行動統計情報表示部
２３００…ユーザインタフェース画面（行動定義修正案提案機能付行動認識システム２０００）
２３０１…区間入力用テキストボックス
２３０２…表示ボタン
２３０３…統計情報表示用ウィンドウ
２４００…行動認識時動作設定機能付行動認識システム
２４０１…認識時動作設定部
２５００…ユーザインタフェース画面（行動認識時動作設定機能付行動認識システム２４００）
２５０１…行動名選択用ドロップダウンリスト
２５０２…行動選択用チェックボックス
２５０３…登録ボタン

ここでは、ある行動（Activity）は、二つの部分行動（Sub Activity）とそれらの関係性を表す関連語（Relation）、あるいは単に一つの部分行動のみによって表現するものとする。例えば、図３に示すように、「電話をしている」という行動”Phoning”は、”Person”, ”LookAt”, ”Phone”という部分行動と、”Then”という関連語と、”Person”, ”RaiseArm”という部分行動で表現されているし、「マニュアルをチェックしている」という行動”Checking manual”は”Person”, ”LookAt”, ”Paper”という一つの部分行動のみによって表現されている。なお、説明を簡単にするために、最大二つの部分行動と関連語を用いて行動を表現するという制約を設けたが、実際にはより複雑な表現形式を用いてもよい。

なお、部分行動の表現の仕方についても、ここでは説明を簡単にするために、本実施形態では、最大三つの基底を組み合わせて表現することにしたが、実際にはより複雑な表現形式を用いてもよい。例えば、この後に説明する関連語のような概念を用いて、基底の組み合わせ方を表現するようにすることもできる。また、例えば副詞・形容詞などを用いて「しばらくの間」などの時間的情報や、「近くに」などの空間的情報、「しばしば」などの頻度情報、「強く」などの強度に関する情報などを表現できるようにしてもよい。また、ウェアラブルセンサなどのセンサを用いて基底認識および行動認識を行う場合など、行動の主語が常に一つに限定される場合は、それを省略することも可能である。例えば、上で説明をした”Person”, ”LookAt”, ”Phone”という部分行動は、単に”LookAt”, ”Phone”と表現してもよい。

関連語は、二つの部分行動の関係性を表すもので、例えば、”And”, ”Or”, ”Then”, ”Without”などを用いることができる。図４には、これらの関連語の表す関係性が説明されている。

行動定義ＤＢ１０５に格納された他の行動についても、このように行動定義を解釈して処理を行うことにより、当該行動が各時刻ごとに発生しているか否かを判断することができる。なお、ここでは簡単のため、各部分行動が生じているか否かを判断するために、その構成要素となる基底ごとに、その存在の有無を判断すると説明したが、ここを確率的に処理してもよい。例えば、部分行動”Person”, ”RaiseArm”が生じているか否かを判断するために、同時確率p(Person)p(RaiseArm)の値を計算し、その値を閾値処理するようにすることもできる。同様に、最終的な行動認識結果を判断する際にも、部分行動１と部分行動２の発生確率をもとに、確率的な処理をするようにしてもよい。

ユーザは、このＧＵＩを通じて、自身が行動認識を行いたい対象に合わせた行動の定義をすることができる。先ずユーザは、行動名入力テキストボックス６０１に、新しく定義する行動の名前を入力する。例えば、図６（ｂ）の例では、定義する行動にPhoningという名前をつけている。次に、ユーザは、当該行動を構成する部分行動１、関連語、部分行動２をそれぞれ入力する。部分行動１を記述するには、基底オブジェクトリスト６０５、基底動作リスト６０６、または定義済み行動リスト６０８から、ポインタ６１０を操作して所望の基底要素または定義済み行動を選択し、ドラッグアンドドロップによって、部分行動１入力枠６０２の枠内に配置する。例えば、図６（ｂ）の例では、部分行動１として、”Person”, ”Look at”, ”Phone”という基底動作および基底オブジェクトを選択し、配置している。当該行動が、一つの部分行動のみからなる場合は、行動の記述はこれで終了である。

以上のようにして、本実施形態の行動認識システム１００によれば、ユーザはＧＵＩ上の簡単な操作のみでシステムに認識させたい行動を定義することができる。これによって、例えば、行動名が同じでも、環境の変化によって、その行動の表出のされ方が変化するような場合にも、一からその行動の学習用データを収集し、認識器を再学習させる必要がなくなる。例えば、行動認識システムをある工場で使用し、マニュアルをチェックしているという行動”Checking manual”を認識させているとする。このようなときに、マニュアルの形式を、紙ベースのマニュアルから、ディスプレイ上に表示する電子マニュアルへと変更したとする。同じマニュアルをチェックしているという行動であっても、その外見上の様子は大きく異なるため、従来の行動認識手法では一から電子マニュアルをチェックしている際の学習用データを収集し直して、認識器を再学習させる必要があるが、本発明のシステムを用いると、例えば図３のように定義されている”Checking manual”の部分行動１の定義”Person”, ”LookAt”, ”Paper”を、例えば、”Person”, ”LookAt”, ”Display”に更新するだけでよい。その際、当該行動認識システムそのものや行動定義の記述形式などに精通しているエンジニアがいなくても、簡単なＧＵＩ上の操作のみで、ユーザ自らが行動定義の仕方を変更することができる。また、このように行動定義の変更が容易であるので、ユーザが試行錯誤をしながらより良い基底要素の組み合わせ方など、行動定義の仕方を検討することも容易になる。

先ず、siがsjの定義に含まれるか、あるいは、sjがsiの定義に含まれるかを否かをチェックする（Ｓ１１０３）。定義済みの行動が単独で部分行動を構成することがあるため、siがsjに含まれる、またはsjがsiに含まれる、ということが起こりうる。例えば、siが”Person”, ”Look at”, ”Phone”で、sjが図３に記載の定義済み行動”Phoning”である場合などがこれに当たる。この場合、これらから新たに行動を定義することはできないので、これ以上の処理を行わず、次の部分行動の組み合わせをチェックする。そうでない場合には（Ｓ１１０３：Ｎｏ）、siとsjを用いて生成可能な行動を全て生成し、この集合をSnewとおく（Ｓ１１０４）。より具体的には、各関連語について、si And sj、si Or sj、si Then sj、sj Then si、si Without sj、sj Without si、となる時間帯を計算し、これらが成立する時間があればこの行動は生成可能とみなし、Snewに加える。ここで、関連語AndやOrについてはsi And sjとsj And siなどは同じ意味を持つので両方をチェックする必要はない。

次に、Snewに一つ以上の要素が含まれているか否か（Ｓ１１０５）、すなわち、何か新たに行動を定義することができたか否かをチェックし、含まれていれば（Ｓ１１０５：Ｙｅｓ）、それらをSに追加し（Ｓ１１０６）、flagAddedNewActivityをTrueにセットする（Ｓ１１０７）。このようにして、siとsjの全ての組み合わせについて、それらを用いて新たな行動が定義可能か否かをチェックする。一つでも新たに行動が定義された場合はflagAddedNewActivityがTrueになっている。そこで、ループを抜けたときに、flagAddedNewActivityがTrueになっているか否かをチェックし（Ｓ１１０８）、Trueになっている場合には（Ｓ１１０：Ｙｅｓ）、Ｓ１１０２に戻って、新たな集合Sに対して同様の処理を行う。flagAddedNewActivityがTrueになっていない場合（Ｓ１１０：Ｎｏ）、すなわち新たな行動が一つも定義されなかった場合には、処理を終了する。

事前情報付基底認識部１５０２は、先ず実施形態１で説明した基底認識部１０２の処理と同様の処理を行い、例えば、各動作や各オブジェクトごとの当該時間帯における存在確率の列を計算する。次に、基底要素別事前情報ＤＢ１５０１を参照して、それらの存在確率を補正する。例えば、基底要素別事前情報ＤＢ１５０１に、各基底要素ごとの存在時間の平均値や標準偏差の値を格納しておき、それらをパラメータとする正規分布によって確率を補正することができる。図１６（ａ）には、このような補正を行う場合に、基底要素別事前情報ＤＢ１５０１に格納されているデータの例が示されている。このデータは、経験的に定めてもよいし、過去のデータからサンプル平均およびサンプル標準偏差を計算することで求めてもよい。より具体的には、例えば、ある種類の基底（例えば「動作」）に対して、その基底のi番目の要素（例えば”Walk”, ”Bend down”など）をbi、実施形態１に記載の基底認識部１０２と同様の処理によって得られる基底要素biの存在確率をp(bi)とおくと、補正確率p^(bi)は、以下の（式２）によって計算することができる。

ただし、N(t;μi, σi)は、平均μi、標準偏差σiで表現される正規分布であり、tiはbiが認識されている時間の長さ、αは例えば、0.2などの任意の定数である。もちろん、事前情報の与え方は、この例で説明したような正規分布に限定する必要はなく、任意の確率分布とそのパラメータを用いることができるし、必ずしも確率分布を用いなく、パラメータは、離散的変量であってもよい。

行動定義修正提案部２００１は、この情報を用いて、当該行動のより良い定義をユーザに提案する。以下、ある行動を、ユーザは部分行動１として基底”A”, ”B”を、関連語として”And”を、部分行動２として基底”C”を用いて定義していたとし、その結果、図２１に示すような認識結果が得られたとして、行動定義修正提案部２００１の具体的な処理について説明をする。ここで、図２１（ａ）、図２１（ｂ）、図２１（ｃ）は、ユーザが正解と判断した認識結果、図２１（ｄ）、図２１（ｅ）は、ユーザが不正解と判断した認識結果を示している。また、tsおよびteは、当該行動として検出された時間の開始および終了に対応する時刻である。ここで、説明のため、Cをユーザが正解と判断した認識結果に対応する時間帯の集合、すなわち図２１（ａ）、図２１（ｂ）、図２１（ｃ）それぞれの開始時刻から終了時刻までの時間帯の集合とし、ICをユーザが不正解と判断した認識結果に対応する時間帯の集合、すなわち、図２１（ｄ）、図２１（ｅ）それぞれの開始時刻から終了時刻までの時間帯の集合とする。

（式６）を定性的に解釈すれば、新しい行動定義が、ユーザが正解と判断した時間帯を当該行動が発生していた時間帯として検出するとスコアは大きくなり、かつ、新しい行動定義が、ユーザが不正解と判断した時間帯を当該行動が発生していた時間帯として検出しないとスコアは大きくなるということである。例えば、図２１の例では、元々のユーザ定義｛”A”, ”B”｝”And”｛”C”｝のスコアは、おおよそ(1+0+0)-(1+0)=0となる。例えば、図４（ａ）に示したAndの意味を鑑みれば、図２１（ａ）の例では、基底”A”, ”B”と基底”C”のAndにあたる時間帯は、全て開始ts、終了teの時間帯に含まれるため、IOUは、１であり、図２１（ｂ）の例では、基底”C”がそもそも含まれていないため、Andにあたる時間帯は、IOUは、０となることが分かる。

これに対し、例えば、{”A”, ”B” ｝”Without” {”G” ｝という定義は、おおよそ(1+1+1)-(0+0)=3となる。図４（ｂ）に示したWithoutの意味を鑑みれば、例えば、図２１（ａ）の例では、基底”G”が含まれていないため、IOUは、1であり、図２１（ｅ）の例では、基底”A”, ”B”の時間帯から基底”G”の時間帯を除いた時間帯と、ユーザが指定した開始ts、終了teの時間帯は、一致する所がないため、IOUは、0となる。なお、ここで、{基底,基底}、{基底}は、部分行動を示し、それを関連語で接続する表記で行動定義を表現した。行動定義修正提案部２００１は、このようにして求めたスコアの中で最も高いスコアを持つ行動定義を、修正案としてユーザに提示する。ユーザはシステムの提案する新しい定義をそのまま受け入れてもよいし、自らが元々行った定義を引き続き使用することにしてもよいし、システムの提案する新しい定義を参考にして既存の定義を自ら修正してもよい。また、スコアの高い順に複数の修正案を提案するようにすることも可能である。

Claims

行動を表現するための構成要素となる基底と、基底や行動間の関係性を記述するための関連語のリストを格納する第一のデータベースと、
人の行動に関する情報を収集するセンサと、
前記センサの出力値または前記センサの出力値に対して所定の変換を施して得られる値と、基底とを対応付けるための情報を格納する第二のデータベースと、
前記第二のデータベースに格納された情報に基づいて、前記センサの出力値または前記センサの出力値に対して所定の変換を施して得られる値から、基底の認識処理を行う基底認識部と、
基底を用いた行動の定義情報を格納する第三のデータベースと、
前記基底認識部の認識結果と、前記第三のデータベースに格納されている行動の定義情報を照らし合わせて、行動認識を行う行動認識部と、
前記基底認識部の認識結果および前記行動認識部の認識結果を表示する認識結果表示部と、
前記第一のデータベースに格納されている基底および関連語のリストを表示する基底・関連語表示部と、
前記基底・関連語表示部に表示された基底および関連語から選択された基底および関連語に基づいて、行動を基底の組み合わせとして定義する行動定義部と、
前記行動定義部により定義された行動定義情報を、前記第三のデータベースに格納する行動定義の形式に変換する行動定義変換部と、を備えることを特徴とする行動認識システム。
前記センサの出力値を格納する第四のデータベースをさらに備え、
ユーザが基底を組み合わせて行動定義を行う際に、前記第四のデータベースに格納されたデータから、各基底要素に対応するデータに関する情報を抽出して表示することを特徴とする請求項１記載の行動認識システム。
前記センサの出力値を記録しておくための第四のデータベースをさらに備え、
ユーザが新たな行動を定義した際に、前記第四のデータベースに格納されたデータから、ユーザが行った行動定義に合致するシーンを抽出して表示することを特徴とする請求項１記載の行動認識システム。
前記センサの出力値を記録しておくための第四のデータベースと、
前記第四のデータベースに格納されたデータを表示し、ユーザが認識をさせたい行動の開始時刻と終了時刻を入力させる行動始終点情報付与部と、
前記行動始終点情報付与部に入力された行動の始終点の情報を取得し、その時間帯に起こった行動を記述する基底の組み合わせを自動生成する行動定義自動生成部とをさらに備えることを特徴とする請求項１記載の行動認識システム。
前記基底の類似語を格納する第五のデータベースと、
ユーザからの自然言語による行動の定義を入力させる自然言語入力機能付行動定義部と、
入力された自然言語による行動の定義と、前記第五のデータベースに格納された類似語の情報とに基づき、前記自然言語による行動の定義を、基底の組み合わせとして表現する自然言語解釈機能付行動定義変換部とをさらに備えることを特徴とする請求項１記載の行動認識システム。
基底ごとの事前情報を格納する第六のデータベースと、
前記第六のデータベースに格納された事前情報に基づき、前記基底認識部の認識結果を補正する事前情報付基底認識部とをさらに備えることを特徴とする請求項１記載の行動認識システム。
基底間の共起関係に関する事前情報を格納する第七のデータベースと、
前記第七のデータベースに格納された共起関係に関する事前情報に基づき、前記センサの出力値を用いた基底認識の結果を補正する事前情報付基底認識部とをさらに備えることを特徴とする請求項１記載の行動認識システム。
前記関連語を含む行動の認識処理を行った結果をユーザに表示し、その認識結果が正しいか正しくないかをユーザに入力させ、その入力情報を用いて、関連語の属性を当該行動用にカスタマイズする関連語カスタマイズ部をさらに備えることを特徴とする請求項１記載の行動認識システム。
ある行動の認識処理を行った結果をユーザに提示して、その認識結果が正しいか正しくないかをユーザに入力させ、その入力情報を用いて、行動定義の修正案を自動生成して表示する行動定義修正提案部をさらに備えることを特徴とする請求項１記載の行動認識システム。
前記第四のデータベースに格納されたデータの中から所定の区間のデータを読み出し、前記読み出したデータに対して、前記行動認識部を用いて行動認識処理を行い、前期行動認識処理の結果を用いて、行動統計情報を生成し、前記行動統計情報を表示する行動統計情報表示部をさらに備えることを特徴とする請求項２記載の行動認識システム。
前記行動認識部を用いて行動認識処理を行い、前期行動認識処理の結果に応じて行うシステムの動作を設定させる認識時動作設定部をさらに備えることを特徴とする請求項１記載の行動認識システム。
行動を表現するための構成要素となる基底として、身体活動と物体の動きとを表す動作を用い、前記動作を認識するためのセンサとして、加速度データが取得できるウェアラブルセンサを用いることを特徴とする請求項１記載の行動認識システム。
行動を表現するための構成要素となる基底として、オブジェクトを用い、前記オブジェクトを認識するためのセンサとして、装着者の視点の映像と注視箇所の情報が取得できるアイトラッキンググラスを用いることを特徴とする請求項１記載の行動認識システム。
行動を表現するための構成要素となる基底と、基底や行動間の関係性を記述するための関連語とリストを格納する第一のデータベースから前記基底のリストと関連語のリストを読み出すステップと、
人の行動に関する情報を収集するセンサの出力値または前記センサの出力値に対して所定の変換を施して得られる値と、基底とを対応付けるための情報を格納する第二のデータベースから基底と対応付けるための情報を読み出すステップと、
前記第二のデータベースに格納された情報に基づいて、前記センサの出力値または前記センサの出力値に対して所定の変換を施して得られる値から、基底の認識処理を行うステップと、
基底を用いた行動の定義情報を格納する第三のデータベースから前記定義情報を読み出すステップと、
前記基底認識部の認識結果と、前記第三のデータベースに格納されている行動の定義情報を照らし合わせて、行動認識を行うステップと、
前記基底認識部の認識結果および前記行動認識部の認識結果を表示するステップと、
前記第一のデータベースに格納されている基底および関連語のリストを表示するステップと、
表示された基底および関連語から選択された基底および関連語に基づいて、行動を基底の組み合わせとして定義するステップと、
前記行動定義部により定義された行動定義情報を、前記第三のデータベースに格納する行動定義の形式に変換するステップとを有することを特徴とする行動認識方法。