JP6945999B2

JP6945999B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6945999B2
Application number: JP2016249292A
Authority: JP
Inventors: 大岳八谷
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2021-10-06
Anticipated expiration: 2036-12-22
Also published as: JP2018106249A

Description

本発明は、動画像データを処理する情報処理装置、情報処理方法、及びプログラムに関する。

近年、カメラが撮影した動画像データを用いて、介護施設や一般家庭におけるお年寄りや子供の日常生活、駅や市街地などの公共施設における人や群衆の活動を観測し、長期的な活動パターンの分析や異常事態の発生を通報するサービスがある。このようなサービスを実現するために、カメラが撮影した動画像データから機械学習のモデルを学習し、観測対象の物体の状態を自動的に識別する技術がある。この機械学習のアプローチで重要なのは、ユーザが、観測対象の状態を撮影した十分なデータと、モデルの学習に有用なラベルなどの教師データとを用意するところである。

非特許文献１には、観測対象の正常な状態を撮影した動画像データから観測対象の正常状態を識別する機械学習のモデルを学習する手法が開示されている。この非特許文献１に記載の手法では、動画像を所定の大きさのブロックに分割し、各ブロックに対して機械学習のモデルで正常判定が行われる。そして、この非特許文献１に記載の手法では、該モデルが異常として判定したブロックを赤い枠で囲むことにより、異常発生個所をユーザに提示する。

また、特許文献１に記載の手法は、加速度や角速度などのセンサデータから観測対象の状態を識別する機械学習のモデルを学習し、観測対象の状態の識別結果を「歩く」などのテキストで表示する。そして、特許文献１に記載の手法では、状態の識別結果が誤っていた場合、該結果に関係する複数の状態の候補をテキストでユーザに提示し、ユーザから正しい状態の教示情報を取得して、機械学習のモデルを再構築する。

ＮＳＨ：ＮｏｒｍａｌｉｔｙＳｅｎｓｉｔｉｖｅＨａｓｈｉｎｇｆｏｒＡｎｏｍａｌｙＤｅｔｅｃｔｉｏｎ，ＨｉｒｏｔａｋａＨａｃｈｉｙａ，ＭａｓａｋａｚｕＭａｔｓｕｇｕ，Ｔｈｅ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＶｉｄｅｏＥｖｅｎｔＣａｔｅｇｏｒｉｚａｔｉｏｎ，ＴａｇｇｉｎｇａｎｄＲｅｔｒｉｅｖａｌ（ＶＥＣＴａＲ２０１３），２０１３．

特開２０１３−４１３２３号公報

しかしながら、非特許文献１に記載の手法では、機械学習のモデルにより、正常か異常かの識別結果が提示されるだけで、観測対象のどの状態が正常の状態として認識されているのかは、ユーザには提示されない。そのため、ユーザは、所望の異常検知を実現するために、学習データが十分なのか否かを判断できない。

一方、特許文献１に記載の手法は、加速度などのセンサデータに基づき観測対象の状態を識別した結果を「歩く」や「走る」などのテキストでユーザに提示するため、ユーザは該モデルが検出した状態を把握し、識別モデルの誤りを訂正することができる。しかしながら、動画像データを用いた人の日常生活や公共施設における活動の観測においては、同時に異なる場所に複数の観測対象が存在する場合や、連続的に観測対象の状態が変化する場合、さらに観測対象が移動する場合などがある。そのため、特許文献１に記載のテキストによる識別結果の表示では、ユーザは、一つ一つのテキストを読む必要があるため、結果が正しいのか否かが直感的にはわかり難いという問題がある。

そこで、本発明は、動画像データに対する機械学習モデルによる識別結果をユーザにわかり易く提示可能にすることを目的とする。

本発明は、動画像に含まれる物体の状態が識別できるように予め学習されたモデルを用いて、前記識別の結果を示す状態識別情報を生成する状態識別手段と、前記状態識別手段により生成された前記状態識別情報に基づき、前記識別の結果の意味を視覚的に表す状態マーク情報を生成する状態マーク生成手段と、前記状態マーク生成手段により生成された前記状態マーク情報を、前記動画像に描画する状態マーク描画手段と、前記描画手段が描画した前記状態マーク情報に対するユーザからの教示を示す教示情報を取得する取得手段と、前記取得手段により取得された前記教示情報に基づき、前記モデルを更新する更新手段と、を有することを特徴とする。

本発明によれば、動画像データに対する機械学習モデルによる識別結果をユーザにわかり易く提示可能となる。

第１の実施形態の状態識別システム構成の一例を示す図である。状態マーク原画記憶部が記憶する情報の一例を表す図である。状態マーク画像の原画の一例を示す図である。モデル記憶部が記憶する情報の一例を表す図である。状態マーク画像の動画像データに対する重畳の一例を示す図である。第１の実施形態の端末装置の表示の一例を示す図である。第１の実施形態におけるユーザの教示操作の一例を示す図である。モデルの更新に係る動作のフローチャートである。第２の実施形態の状態識別システムの構成の一例を示す構成図である。物体画像記憶部が記憶する情報の一例を表す図である。状態マーク画像の原画の生成に係る動作のフローチャートである。第３の実施形態の状態識別システムの構成の一例を示す構成図である。第３の実施形態の端末装置の表示の一例を示す図である。第３の実施形態におけるユーザの教示操作の一例を示す図である。

以下、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
［第１の実施形態］
図１は、第１の実施形態に係る状態識別システム１の構成例を示す概略ブロック図である。第１の実施形態の状態識別システム１は、情報処理装置としての状態識別装置１０と、データ取得装置１００と、端末装置２００とを備えている。なお、これらの装置間は、ネットワークを介して接続されていてもよい。このネットワークには、例えば、固定電話回線網や、携帯電話回線網、インターネット等の何れか、又は、それらの組み合わせが含まれる。

第１の実施形態では、ユーザが、リアルタイムに表示された動画像上の識別結果を見て、機械学習のモデルの識別動作の確認を行う場合を例に挙げて説明する。具体的には、状態識別システム１は、状態識別装置１０が観測対象の物体の状態を示す状態カテゴリを識別し、その識別結果に基づく状態マーク画像を端末装置２００の画面上に表示させて、ユーザに提示する。そして、ユーザは、端末装置２００を操作して、画面に表示される動画像を、一時停止、再生、又は巻き戻しをしながら識別結果を確認し、もし誤りがあれば修正を指示する。以下、本実施形態では、状態カテゴリの識別結果を表す情報を状態識別情報、状態マーク画像を表す情報を状態マーク情報と呼ぶ。また、本実施形態において、状態の観測対象には、例えば、介護施設や一般家庭で生活する人物、駅や市街などの公共施設で活動する人物や群衆、工場や運送センターなどで扱われる物品などが含まれる。また本実施形態において、ユーザとは、例えば、緊急通報などの用途で、本システムを直接利用するエンドユーザ、又は、本システムを第三者に提供するために機械学習のモデルの調整を行うシステムインテグレータである。

図１に示した状態識別システム１において、データ取得装置１００は、観測対象の状態を動画像で撮影するカメラを備える。データ取得装置１００は、取得した動画像データを、状態識別装置１０に送信する。この動画像データは、例えば、所定の解像度及びフレームレートで構成される。例えば、解像度は６８０×４８０ピクセルで、フレームレートは３０ｆｐｓである。

次に、状態識別装置１０の詳細な構成について説明する。状態識別装置１０は、動画像データから物体の状態を識別するためのモデルを学習する装置である。状態識別装置１０は、状態マーク原画記憶部Ｍ１と、モデル記憶部Ｍ２と、状態識別部１１と、状態マーク生成部１２と、状態マーク描画部１３と、状態マーク候補生成部１４と、教示取得部１５と、モデル更新部１６とを備えている。

状態マーク原画記憶部Ｍ１は、状態カテゴリを識別するための状態カテゴリＩＤと、状態のグループを識別するためのグループＩＤと、状態を視覚的に表す状態マーク画像の原画とを、状態カテゴリＩＤと関連付けて記憶する。ここで、状態カテゴリＩＤとは、ユーザにより予め設定された観測対象の物体の状態の種類を識別するための情報である。本実施形態における状態カテゴリは、例えば、「歩く」、「走る」など人間の行動の種類のカテゴリや、「座っている」、「横になっている」など人間の姿勢のカテゴリ、「読書している」などの動作の持続のカテゴリ、状況の種類などの各カテゴリを含む。グループＩＤとは、ユーザにより予め定められた状態のグループを識別するための情報である。本実施形態におけるグループは、例えば、観測対象の物体の種類毎のグループを含む。物体の種類のグループは、例えば、子供や大人などの人間の属性のグループや、歩行者、自転車、車など移動体の種類のグループを含む。状態マーク画像の原画とは、予め用意された、観測対象の状態を視覚的かつ簡易的に表す画像である。状態マーク画像の原画は、例えば、物体の状態を簡単な絵柄で記号化したアイコン画像や、物体の状態を描写したイラスト画像などである。

図２は、本実施形態の状態マーク原画記憶部Ｍ１が記憶する情報の一例を表にして示した図である。図２に示すように、状態カテゴリＩＤとグループＩＤとは、例えば、アルファベット及び数字から成る文字列である。例えば、二つの状態カテゴリは、状態カテゴリＩＤ「Ｓ０００１」と状態カテゴリＩＤ「Ｓ０００２」のように文字列により識別される。また、二つのグループは、グループＩＤ「Ｇ０１」と「Ｇ０２」のように文字列により識別される。そして、図２に示すように、状態マーク原画記憶部Ｍ１には、例えば状態カテゴリＩＤ「Ｓ０００１」に関連付けられて、状態マーク画像の原画のファイル名である「Ｓ０００１．ｐｎｇ」が格納されている。なお、状態マーク画像の原画は、外部の記憶装置に記憶されていてもよく、この場合は、該記憶装置の場所を示すアドレスが記憶される。外部の記憶装置としては、例えば、インターネットを介して接続したクラウド上のサーバなどを挙げることができる。また、アドレスには、例えば、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレスや、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）などが適用可能である。

図３（ａ）、図３（ｂ）は、状態マーク原画記憶部Ｍ１が記憶する状態マーク画像の原画の一例を示す図である。図３（ａ）の例では、人間の「歩く」行動が簡単な絵柄で記号化されたアイコン画像３１により表されている。また、人間の「歩く」行動による方向が、上下左右の方向を表す矢印のアイコン画像３２、３３、３４及び３５により表されている。例えば、人間の「左に歩く」行動は、アイコン画像３１とアイコン画像３２との組み合わせにより表される。また、図３（ｂ）の例は、人間の「走る」行動がアイコン画像３６により表されている。図３（ｂ）には図示していないが、人間の「走る」行動による方向が、上下左右の方向を表す矢印のアイコン画像により表されていてもよい。

モデル記憶部Ｍ２は、機械学習のモデルを識別するためのモデルＩＤと関連付けて、該モデルの識別対象の状態カテゴリＩＤと、該モデルのパラメータを示すパラメータ情報とを記憶する。

図４は、本実施形態のモデル記憶部Ｍ２が記憶する情報の一例を表にして示した図である。図４に示すように、モデルＩＤは、例えばアルファベット及び数字から成る文字列である。例えば、二つのモデルは、モデルＩＤ「Ｍ０００１」とモデルＩＤ「Ｍ０００２」のように文字列により識別される。そして、図４では、例えば、モデルＩＤ「Ｍ０００１」に関連付けられて、モデルの識別対象の二つの状態カテゴリＩＤ「Ｓ０００１，Ｓ０００２」と、モデルのパラメータｗの値「０．５」とパラメータｂの値「２」が格納されていることが示されている。このモデルのパラメータｗとパラメータｂは、状態識別部１１の説明にて後述する線形識別モデルのパラメータである。つまり、この例は、モデル「Ｍ０００１」が、二つの状態カテゴリ「Ｓ０００１」及び「Ｓ０００２」を、パラメータｗの値「０．５」及びパラメータｂの値「２」から構成される線形識別モデルを用いて識別されることを表している。

図１に示した状態識別装置１０の構成の説明に戻る。
状態識別部１１は、予め学習して記憶しておいた機械学習のモデルを用いて物体の状態を識別し、その識別の結果を示す状態識別情報を生成する。具体的には、所定の時間間隔で動画像データがデータ取得装置１００から状態識別部１１に出力され、状態識別部１１は、先ず、その動画像データから、所定の特徴量抽出方法により特徴量を抽出する。この特徴量抽出方法としては、動画像データの各フレームのアピアランスに関する特徴量を抽出する方法や、複数のフレーム間の物体の動きに関する特徴量を抽出する方法などを用いることができる。アピアランスに関する特徴量を抽出する方法としては、下記の参考文献１に記載のＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＧｒａｄｉｅｎｔ）などを挙げることができる。動きに関する特徴量を抽出する方法としては、下記の参考文献２に記載のＨＯＦ（ＨｉｓｔｏｇｒａｍｏｆＯｐｔｉｃａｌＦｌｏｗ）などを挙げることができる。なお、これらの方法は、特定の観測対象に特化してもよい。例えば、観測対象が人間の場合は、人間の姿勢、服の色、身長、人種、性別などの情報を特徴量として抽出する方法でもよい。

参考文献１：Ｎ．ＤａｌａｌａｎｄＢ．Ｔｒｉｇｇｓ，Ｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓｆｏｒｈｕｍａｎｄｅｔｅｃｔｉｏｎ，ＩｎｐｒｏｃｅｅｄｉｎｇｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐｐ．８８６−−８９３，２００５．
参考文献２：Ｊ．Ｐｅｒｓ，ｅｔａｌ．，Ｈｉｓｔｏｇｒａｍｓｏｆｏｐｔｉｃａｌｆｌｏｗｆｏｒｅｆｆｉｃｉｅｎｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｂｏｄｙｍｏｔｉｏｎ，ＰａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，ｖｏｌ．３１，ｎｏ．１１，ｐｐ．１３６９−−１３７６，２０１０．

次に、状態識別部１１は、入力された動画像データから観測対象の物体を検出する。物体の検出方法としては、例えば、各画像フレームから予め学習しておいた一般物体検出モデルで特定の物体を検出する方法や、複数の画像フレームの差分から移動している物体を検出する方法を用いることができる。一般物体検出モデルで特定の物体を検出する方法としては、参考文献３に記載のＤｅｆｏｍａｂｌｅＰａｒｔＭｏｄｅｌなどを挙げることができる。差分から移動している物体を検出する方法としては、参考文献４に記載の動的背景差分法などを用いることができる。

参考文献３：Ｐ．Ｆｅｌｚｅｎｓｚｗａｌｂ，ｅｔａｌ．，ＡＤｉｓｃｒｉｍｉｎａｔｉｖｅｌｙＴｒａｉｎｅｄ，Ｍｕｌｔｉｓｃａｌｅ，ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００８．
参考文献４：Ａ．Ｇｏｄｂｅｈｅｒｅ，Ａ．ＭａｔｓｕｋａｗａａｎｄＫ．Ｇｏｌｄｂｅｒｇ．ＶｉｓｕａｌＴｒａｃｋｉｎｇｏｆＨｕｍａｎＶｉｓｉｔｏｒｓｕｎｄｅｒＶａｒｉａｂｌｅ−ＬｉｇｈｔｉｎｇＣｏｎｄｉｔｉｏｎｓｆｏｒａＲｅｓｐｏｎｓｉｖｅＡｕｄｉｏＡｒｔＩｎｓｔａｌｌａｔｉｏｎ．ＡｍｅｒｉｃａｎＣｏｎｔｒｏｌＣｏｎｆｅｒｅｎｃｅ，Ｍｏｎｔｒｅａｌ，Ｊｕｎｅ２０１２．

次に、状態識別部１１は、検出した物体の幾何情報を生成する。この幾何情報とは、例えば、該物体を動画像上で囲う後述するバウンディングボックスの位置と大きさ示す情報である。位置は、例えば、該バウンディングボックスの左上の角の座標であり、大きさは、例えば、該バウンディングボックスの高さと幅である。

そして、状態識別部１１は、モデル記憶部Ｍ２から、モデルＩＤに関連付けられて記憶されている識別対象の状態カテゴリＩＤと、モデルの前述したパラメータｗ及びパラメータｂとを読み込む。そして、状態識別部１１は、検出した物体を、抽出した特徴量と、読み込んだ各モデルのパラメータｗ，ｂとに基づき、読み込んだ各状態カテゴリに識別する。このモデルとしては、例えば、参考文献５に記載のサポートベクトルマシンを挙げることができる。ここで、サポートベクトルマシンの線形識別モデルにおいて、パラメータｗ，ｂは、式（１）のように、線形識別境界の傾きｗとバイアスｂに対応している。

参考文献５：Ｖ．ＮＶａｐｎｉｋ，ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ，１９９８．

ここで、式（１）のｙは｛１，−１｝の二つの値をとり、それぞれは状態マーク原画記憶部Ｍ１から読み込んだ識別対象の状態カテゴリＩＤに対応する。例えば、図４に示したように、モデルＩＤ「Ｍ０００１」の識別対象の状態カテゴリＩＤは「Ｓ０００１」と「Ｓ０００２」とである。例えば、該線形識別モデルは、ｙが「１」の時は状態カテゴリＩＤ「Ｓ０００１」を選択し、ｙが「−１」の時は状態カテゴリＩＤ「Ｓ０００２」を選択する。なお、状態マーク原画記憶部Ｍ１は複数のモデルを記憶しておき、状態識別部１１は、複数のモデルの識別結果を統合して、状態カテゴリＩＤを選択してもよい。また、状態識別部１１は、識別結果の確信度を示す確信度情報を生成してもよい。この確信度情報は、例えば、０から１の範囲の実数値であり、１に近い程高い確信度を表す。

そして、状態識別部１１は、状態識別情報を生成し、入力された動画像データとともに、状態マーク生成部１２に出力する。ここで、状態識別情報には、例えば、識別した各状態カテゴリＩＤや、識別結果の確信度を示す確信度情報、識別した物体の位置及び大きさなどを示す幾何情報が含まれる。

状態マーク生成部１２は、状態識別部１１により生成された状態識別情報に基づき、識別の結果の意味を視覚的に表す状態マーク情報を生成する。具体的には、状態識別部１１から状態識別情報と動画像データとが入力されると、状態マーク生成部１２は、状態識別情報に含まれる状態カテゴリＩＤに関連付けられた状態マーク画像の原画を状態マーク原画記憶部Ｍ１から読み込む。そして、状態マーク生成部１２は、読み込んだ状態マーク画像の原画を、入力された状態識別情報に基づき以下のように変換する。ここで、マーク画像変換方法としては、例えば次の第１，第２のマーク画像変換方法を挙げることができる。

第１のマーク画像変換方法として、状態マーク生成部１２は、状態識別情報に含まれる物体の後述するバウンディングボックスの大きさに比例するように、読み込んだ状態マーク画像の原画の大きさを変換する。例えば、状態マーク生成部１２は、状態マーク画像の原画の矩形の面積と、物体のバウンディングボックスの面積の比が一定の値になるように、状態マーク画像の原画の大きさを調整する。ここで、状態マーク画像の原画の大きさが、バウンディングボックスに対して十分小さくなるように、この一定の値は、１未満の小さい実数値に設定される。

第２のマーク画像変換方法として、状態マーク生成部１２は、状態識別情報に含まれる確信度情報に基づき、読み込んだ状態マーク画像の原画の色を変換する。例えば、状態マーク生成部１２は、確信度情報が１に近い程濃く、０に近い程薄くなるように色を変換する。なお、確信度が所定の閾値より低い場合は、状態マーク生成部１２は、状態マーク画像をユーザに見えないように、白で塗りつぶしてもよい。

そして、状態マーク生成部１２は、前述のようにして生成した状態マーク画像を状態マーク情報として、入力された状態識別情報及び動画像データとともに、状態マーク描画部１３に出力する。

状態マーク描画部１３は、状態マーク生成部１２により生成された状態マーク画像を、動画像データに重畳する。具体的には、状態マーク生成部１２から状態マーク画像と状態識別情報と動画像データとが入力されると、状態マーク描画部１３は、入力された状態マーク画像を、状態識別情報に基づき動画像データに重畳する。この重畳方法として、状態マーク描画部１３は、例えば状態識別情報に含まれる物体のバウンディングボックスの位置に基づき、状態マーク画像の位置を決定する。そして、状態マーク描画部１３は、状態マーク画像を物体の近傍に、具体的には、状態マーク画像とバウンディングボックスの右下の角が合うように、状態マーク画像を動画像データに重畳する。状態マーク描画部１３は、生成した動画像データと、入力された状態識別情報とを、状態マーク候補生成部１４に出力する。

図５（ａ）と図５（ｂ）は、状態マーク生成部１２が生成した状態マーク画像を、状態マーク描画部１３が動画像データに重畳した画像の一例を示す図である。図５（ａ），図５（ｂ）に示すように、状態マーク生成部１２は、前述の第１のマーク画像変換方法により、状態マーク画像５３，５４の大きさを、バウンディングボックス５２の大きさに対して十分小さくなるように設定する。また図５（ａ）に示すように、状態マーク生成部１２は、前述の第２のマーク画像変換方法により、確信度が０．８と高い場合は、状態マーク画像５３の色を濃い色に変換する。一方、図５（ｂ）に示すように、状態マーク生成部１２は、確信度が０．３と低い場合は、状態マーク画像５４の色を薄い色に変換する。そして、状態マーク描画部１３は、入力された状態識別情報に含まれる物体のバウンディングボックス５２と、状態マーク画像５３又は５４との右下の角が合うようにして、状態マーク画像５３又は５４を、動画像データ５１に重畳する。

図１に示した状態識別装置１０の構成の説明に戻る。
状態マーク候補生成部１４は、状態マーク画像の候補を示す状態マーク候補情報を生成する。具体的には、状態マーク生成部１２から動画像データと状態識別情報とが入力されると、状態マーク候補生成部１４は、所定の候補選択方法で、状態カテゴリＩＤを選択する。そして、状態マーク候補生成部１４は、選択した状態カテゴリＩＤに関連付けられた状態マーク画像情報を、状態マーク原画記憶部Ｍ１から読み込む。ここで、所定の候補選択方法としては、次の第１，第２の候補選択方法を挙げることができる。

第１の候補選択方法として、状態マーク候補生成部１４は、状態マーク原画記憶部Ｍ１が記憶している全ての状態カテゴリＩＤを選択する。具体的には、状態マーク候補生成部１４は、状態マーク原画記憶部Ｍ１から全ての状態カテゴリＩＤと状態マーク画像情報とを読み込む。

第２の候補選択方法として、状態マーク候補生成部１４は、入力された状態識別情報に含まれる状態カテゴリＩＤが属するグループに属する全ての状態カテゴリＩＤを選択する。具体的には、状態マーク候補生成部１４は、入力された状態識別情報に含まれている状態カテゴリＩＤに関連付けられたグループＩＤを、状態マーク原画記憶部Ｍ１から読み込む。さらに、状態マーク候補生成部１４は、読み込んだグループＩＤと一致するグループＩＤに属する状態カテゴリＩＤと状態マーク画像情報とを、状態マーク原画記憶部Ｍ１から読み込む。

そして、状態マーク候補生成部１４は、第１又は第２の候補選択方法によって、状態マーク画像から読み込んだ状態カテゴリＩＤと状態マーク画像とを、状態マーク候補情報として、入力された動画像データとともに、端末装置２００に出力する。

教示取得部１５は、状態マーク描画部１３が描画した状態マーク画像に対するユーザからの教示を示す教示情報を、端末装置２００から取得する。具体的には、端末装置２００が備えている後述する操作検出部ＯＰからユーザ操作情報が入力された時、教示取得部１５は、その操作情報から、ユーザの、識別結果に対する教示を示す教示情報を取得する。この教示情報の取得方法には、例えば次の第１，第２の教示情報取得方法を挙げることができる。

第１の教示情報取得方法として、教示取得部１５は、状態カテゴリＩＤの「追加」を示す操作情報から、入力と出力の組みからなる教示情報を取得する。具体例は後述する図７で説明するが、教示取得部１５は、ユーザにより特定の状態マーク候補情報が選択され、動画像上に移動する操作が行われると、それらユーザの操作情報を、端末装置２００から取得する。なお、状態マーク候補情報を動画像上に移動する「追加」の操作は、例えば後述する図７のユーザ操作ＵＳ１に対応している。次に、教示取得部１５は、その操作情報に含まれる移動先の場所情報に基づく動画像データを、状態マーク描画部１３から受け取る。この場所情報には、例えば、動画像のフレーム番号や、バウンディングボックスの位置及び大きさなどが含まれている。さらに、教示取得部１５は、状態マーク描画部１３より入力された動画像データから、前述した特徴量抽出方法を用いて、特徴量を抽出する。そして、教示取得部１５は、その特徴量を入力情報とし、操作情報に含まれる特定の状態マーク候補情報に対応する状態カテゴリＩＤを出力情報とし、それら入力情報と出力情報との組を教示情報とする。教示取得部１５は、このように生成した入力情報と出力情報の組みからなる教示情報を、モデル更新部１６に出力する。

第２の教示情報の取得方法として、教示取得部１５は、状態カテゴリＩＤの「削除」を示す操作情報から、入力と出力の組みからなる教示情報を取得する。具体例は後述する図７で説明するが、教示取得部１５は、ユーザにより特定の動画像データ上の状態マーク画像が選択され、動画像の外に移動する操作が行われると、それらユーザの操作情報を、端末装置２００から取得する。なお、特定の状態マーク画像を選択し、動画像データの外に移動する「削除」の操作は、例えば後述する図７のユーザ操作ＵＳ２に対応している。次に、教示取得部１５は、その操作情報に含まれる移動先の場所情報に基づく動画像データを、状態マーク描画部１３から受け取る。さらに、教示取得部１５は、状態マーク描画部１３より入力された動画像データから、前述した特徴量抽出方法を用いて、特徴量を抽出する。そして、教示取得部１５は、その特徴量を入力情報とし、一方、出力情報を空の情報として生成する。教示取得部１５は、このようにして生成した入力情報と出力情報の組みからなる教示情報を、モデル更新部１６に出力する。

モデル更新部１６は、教示取得部１５により取得された教示情報に基づき、モデルを更新する。具体的には、教示取得部１５から教示情報が入力されると、モデル更新部１６は、教示情報に含まれる状態カテゴリＩＤと一致する状態カテゴリＩＤを有するモデルＩＤと関連付けられたパラメータｗ及びｂを、モデル記憶部Ｍ２から読み込む。そして、モデル更新部１６は、モデルの最適化の基準となる目的関数と、取得した教示情報とに基づいて、読み込んだパラメータｗ及びｂを更新する。そして、モデル更新部１６は、更新したパラメータｗ及びｂを、モデルＩＤと関連付けてモデル記憶部Ｍ２に記憶させる。

以下、サポートベクトルマシンの例を用いて、モデル更新部１６におけるパラメータの更新方法について具体的に説明する。前述の参考文献５に記載のサポートベクトルマシンでは、パラメータｗ及びｂを最適化するための目的関数は、下記式（２）で表される。

ここで、式（２）のＮは学習データの数、（ｘ_i，ｙ_i）は、それぞれｉ番目の学習データ点の入力と出力に対応している。つまり、教示取得部１５から入力された教示情報に含まれる状態カテゴリＩＤはｙ_i、特徴量はｘ_iに対応していて、データ数は一つ（Ｎ＝１）である。モデル更新部１６は、この教示情報を用いて、式（２）の目的関数を満たすように、下記の参考文献６に記載の逐次最小問題最適化法などを用いて、パラメータｗ及びｂを更新する。

参考文献６：Ｊ．Ｐｌａｔｔ，ＳｅｑｕｅｎｔｉａｌＭｉｎｉｍａｌＯｐｔｉｍｉｚａｔｉｏｎ：ＡＦａｓｔＡｌｇｏｒｉｔｈｍｆｏｒＴｒａｉｎｉｎｇＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｓ，１９９８．

なお、教示取得部１５が「削除」の教示情報を取得し、教示情報の出力情報が空の場合に対応するために、モデル記憶部Ｍ２は各状態カテゴリＩＤとそれ以外の２クラス識別を行うモデルを記憶し、モデル更新部１６は該モデルのパラメータを更新してもよい。

端末装置２００は、ユーザが利用するコンピュータ装置であり、図６に示すように、表示部ＤＳと操作検出部ＯＰとを備えている。図６は、端末装置２００が表示する画面の構成の一例を示す図である。端末装置２００には、例えばＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やタブレットＰＣ、スマートフォン、フューチャーフォン等が適用できる。

表示部ＤＳは、液晶パネルや有機ＥＬパネルなどの画像表示パネルを備えており、状態識別装置１０から入力された動画像データ（ＤＳ１）及び状態マーク候補情報（ＤＳ２）を表示する。なお、表示部ＤＳは、「再生」、「一時停止」及び「巻き戻し」などの動画像データに対する特定の制御を示す動画像制御情報（ＤＳ３，ＤＳ４，ＤＳ５等）を表示してもよい。詳細な説明を省くが、後述する操作検出部ＯＰが動画像制御情報に対するユーザ操作を示す操作情報を検出した場合、表示部ＤＳは、予め動画像制御情報に対応付けられた動画像データに対する制御を実行する。例えば、「再生」の動画像制御情報に対応付けられた制御は、動画像データの再生である。

操作検出部ＯＰは、表示部ＤＳの画像表示パネルに配置されたタッチセンサを備えており、ユーザの指やタッチペンの動きに基づくユーザ操作を検出するとともに、その検出した操作を示す操作情報を、状態識別装置１０の教示取得部１５に出力する。なお、操作検出部ＯＰは、コントローラ、キーボード及びマウスなどの入力デバイスを備え、画像表示パネルに表示された画像に対するユーザ操作を示す操作情報を取得してもよい。この操作情報としては、例えば、ユーザが特定の状態マーク候補情報（ＤＳ２）を選択して、動画像データ（ＤＳ１）に移動するいわゆるドラッグアンドドロップなどの操作情報を挙げることができる。操作検出部ＯＰは、ユーザによるドラッグアンドドロップの操作を検出した場合、該状態マーク候補情報（ＤＳ２）に含まれる状態カテゴリＩＤと、移動先の動画像データ（ＤＳ１）上の場所情報とを、ドラッグアンドドロップを示す操作情報に追加する。この場所情報には、例えば、動画像のフレーム番号、バウンディングボックスの位置及び大きさなどが含まれる。そして、操作検出部ＯＰは、検出した操作情報を状態識別装置１０に出力する。なお、操作検出部ＯＰは、表示部ＤＳに表示された「再生」、「一時停止」及び「巻き戻し」などの動画像制御情報（ＤＳ３，ＤＳ４，ＤＳ５等）に対するユーザ操作を検出し、表示部ＤＳにその動画像制御情報を出力してもよい。また、図示はしないが、表示部ＤＳは、ユーザからの識別結果に対する承認を得るための、「承認」ボタンを各状態マーク画像に表示してもよい。そして、操作検出部ＯＰは、ユーザからの「承認」ボタン押下の操作情報を取得した場合、その操作情報を教示取得部１５に出力する。この場合の教示取得部１５は、前述した教示情報の生成方法により、承認された動画像データの特徴量を入力情報、承認された状態カテゴリＩＤを出力情報とした教示情報を生成する。

図６に示したように、端末装置２００の表示部ＤＳには、状態識別装置１０から入力された動画像データＤＳ１と、状態マーク候補情報ＤＳ２とが表示される。また、表示部ＤＳには、動画像制御情報として、巻き戻しボタンＤＳ３と、一時停止ボタンＤＳ４と、再生ボタンＤＳ５等が表示される。

図７は、端末装置２００の表示部ＤＳの画面に対するユーザからの教示操作の一例を説明するための図である。図７に示すように、操作検出部ＯＰは、ユーザの指ＵＦの動きに基づくユーザ操作を示す操作情報を検出する。例えば、操作検出部ＯＰは、ユーザの指ＵＦが状態マーク候補情報ＤＳ２から特定の状態マーク候補情報を選択した状態で、動画像データＤＳ１に移動するような操作ＵＳ１を検出する。前述した状態カテゴリＩＤの「追加」を示す操作情報は、この操作ＵＳ１を検出した際に操作検出部ＯＰが生成する。また、操作検出部ＯＰは、ユーザの指ＵＦが特定の状態マーク画像を選択した状態で、動画像データＤＳ１の外に移動するような操作ＵＳ２を検出する。前述した状態カテゴリＩＤの「削除」を示す操作情報は、この操作ＵＳ２を検出した際に操作検出部ＯＰが生成する。

次に、図８を参照して、本実施形態の状態識別システム１における状態識別装置１０の動作について説明する。図８は、状態識別装置１０における機械学習のモデルの更新処理の一例を示すフローチャートである。なお、図８のフローチャートには、データ取得装置１００と端末装置２００で行われる処理も含まれている。以下の説明では、図８のフローチャートの各処理ステップをＵ１０１〜Ｕ１１３として表している。また、図８のフローチャートにおいて状態識別装置１０に係る処理は、状態識別装置１０の図示しないハードウェアが行ってもよいし、図示しないＣＰＵ等が本実施形態のプログラムを実行することにより実現されてもよい。このことは後述する他のフローチャートにおいても同様とする。

先ず、Ｕ１０１において、図１のデータ取得装置１００は、カメラにより観測対象を撮影して動画像データを取得する。そして、状態識別装置１０は、そのデータ取得装置１００のカメラにより撮影された動画像データを取得する。Ｕ１０１の後、状態識別システム１における処理は、状態識別装置１０の状態識別部１１にて行われるＵ１０２に進む。

Ｕ１０２において、状態識別部１１は、Ｕ１０１で取得された動画像データから特徴量を抽出する。具体的には、状態識別部１１は、データ取得装置１００から動画像データが入力されると、前述した特徴量抽出方法を用いて、その動画像データから特徴量を抽出する。
次に、状態識別部１１は、Ｕ１０３の処理として、Ｕ１０２で抽出した特徴量を基に、動画像データから観測対象の物体を検出する。具体的には、状態識別部１１は、前述した物体検出方法を用い、動画像から物体を検出し、その物体から前述した幾何情報を生成する。
次に、状態識別部１１は、Ｕ１０４の処理として、Ｕ１０３で検出した物体の状態を識別する。具体的には、状態識別部１１は、前述したモデルＩＤと関連付けられた状態カテゴリＩＤとパラメータとをモデル記憶部Ｍ２から読み込み、さらに、そのパラメータを用いて物体の状態を識別し、その識別結果に基づき状態識別情報を生成する。そして、状態識別部１１は、生成した状態識別情報と、入力された動画像データとを、状態マーク生成部１２に出力する。Ｕ１０４の後、状態識別装置１０の処理は、状態マーク生成部１２にて行われるＵ１０５に進む。

Ｕ１０５において、状態マーク生成部１２は、状態マーク画像の原画を読み込む。具体的には、状態マーク生成部１２は、状態識別部１１から入力された状態識別情報に含まれる状態カテゴリＩＤと一致する状態マーク画像の原画を、状態マーク原画記憶部Ｍ１から読み込む。
次に、状態マーク生成部１２は、Ｕ１０６の処理として、状態マーク画像の原画の大きさを調整する。具体的には、状態マーク生成部１２は、前述した第１のマーク画像変換方法を用い、状態マーク画像の原画の大きさを、状態識別情報に含まれる幾何情報に基づき調整する。
次に、状態マーク生成部１２は、Ｕ１０７の処理として、状態マーク画像の原画の色を調整する。具体的には、状態マーク生成部１２は、前述した第２のマーク画像変換方法を用いて、状態マーク画像の原画の色を、状態識別情報に含まれる前述の確信度情報に基づき調整する。そして、状態マーク生成部１２は、前述のようにして変換した状態マーク画像の原画を状態マーク画像として、入力された状態識別情報と動画像データとともに、状態マーク描画部１３に出力する。Ｕ１０７の後、状態識別装置１０の処理は、状態マーク描画部１３にて行われるＵ１０８に進む。

Ｕ１０８において、状態マーク描画部１３は、状態マーク画像を動画像データに重畳する。具体的には、状態マーク生成部１２から状態識別情報、状態マーク画像及び動画像データが入力されると、状態マーク描画部１３は、前述した重畳方法を用いて、状態識別情報の幾何情報に基づき位置を調整し、状態マーク画像を動画像データに重畳する。そして、状態マーク描画部１３は、動画像データと状態識別情報とを、状態マーク候補生成部１４に出力する。Ｕ１０８の後、状態識別装置１０の処理は、状態マーク候補生成部１４にて行われるＵ１０９に進む。

Ｕ１０９において、状態マーク候補生成部１４は、状態マーク候補情報を生成する。具体的には、状態マーク描画部１３から動画像データと状態識別情報とが入力されると、状態マーク候補生成部１４は、状態マーク原画記憶部Ｍ１から状態マーク画像情報と状態カテゴリＩＤとを読み込む。そして、状態マーク候補生成部１４は、状態マーク画像情報と状態カテゴリＩＤを基に、前述した候補選択方法を用いて状態マーク候補情報を生成する。そして、状態マーク候補生成部１４は、Ｕ１０９で生成した動画像データと状態マーク候補情報とを、端末装置２００に出力する。Ｕ１０９の後、状態識別システム１における処理は、端末装置２００の表示部ＤＳにて行われるＵ１１０に進む。

Ｕ１１０において、端末装置２００の表示部ＤＳは、状態マーク候補生成部１４から動画像データと状態マーク候補情報が入力されると、それら動画像データと状態マーク候補情報を表示する。すなわち、このときの端末装置２００の表示部ＤＳには、前述の図６に示したように、動画像データＤＳ１と状態マーク候補情報ＤＳ２とが表示され、さらに、動画像制御情報として巻き戻しＤＳ３、一時停止ＤＳ４、再生ＤＳ５等も表示される。Ｕ１１０の後、状態識別システム１における処理は、端末装置２００の操作検出部ＯＰにて行われるＵ１１１に進む。

Ｕ１１１において、端末装置２００の操作検出部ＯＰは、ユーザからの操作情報を取得したか否かの判定を行う。操作検出部ＯＰは、Ｕ１１１において、例えばユーザによるドラッグアンドドロップの操作情報を取得したと判定（Ｙｅｓ）した場合、ドラッグアンドドロップの操作情報に、状態マーク候補情報に対応する状態カテゴリＩＤと移動先の場所情報とを追加する。そして、端末装置２００は、その情報を、状態識別装置１０の教示取得部１５に出力する。Ｕ１１１においてユーザからの操作情報を取得したと判定された場合、状態識別システム１における処理は、状態識別装置１０の教示取得部１５にて行われるＵ１１２に進む。一方、Ｕ１１１において、操作検出部ＯＰが、一定時間、ユーザからの操作情報を取得できなかったと判定（Ｎｏ）した場合、状態識別システム１における処理は、状態識別装置１０にて行われる前述のＵ１０２に戻る。

Ｕ１１２の処理に進むと、状態識別装置１０の教示取得部１５は、前述した教示情報を取得する。具体的には、教示取得部１５は、操作検出部ＯＰからユーザの操作情報が入力されると、その操作情報に含まれる幾何情報に基づく動画像データを、状態マーク描画部１３から取得する。そして、教示取得部１５は、前述した特徴量抽出方法を用いて、動画像データから特徴量を抽出する。教示取得部１５は、抽出した特徴量を入力情報とし、操作情報に含まれる状態カテゴリＩＤを出力情報とした組の前述した教示情報を生成して、モデル更新部１６に出力する。Ｕ１１２の後、状態識別装置１０の処理は、モデル更新部１６にて行われるＵ１１３に進む。

Ｕ１１３において、モデル更新部１６は、モデルの更新を行う。具体的には、モデル更新部１６は、教示取得部１５から教示情報が入力されると、教示情報に含まれている状態カテゴリＩＤと一致する状態カテゴリＩＤを有するモデルＩＤ及びパラメータｗ，ｂを、モデル記憶部Ｍ２から読み込む。そして、モデル更新部１６は、前述したモデル更新方法を用い、教示情報とモデルの目的関数とに基づき、パラメータｗ，ｂを更新する。その後、モデル更新部１６は、更新したパラメータｗ，ｂを、モデルＩＤと関連付けてモデル記憶部Ｍ２に記憶させる。Ｕ１１３の後、状態識別装置１０の処理は、前述したＵ１０２に戻る。

以上説明したように、本実施形態において、状態識別装置１０は、機械学習のモデルによる識別の結果を、状態マーク情報を用いてユーザに提示する。この状態マーク情報は、識別結果の意味を視覚的に表しているため、ユーザは、該モデルの識別の動作を直感的に理解することができる。これにより、ユーザは、画面上の複数の識別結果や、時間的な識別結果の変化を容易に確認することができる。

なお、状態識別装置１０の状態識別部１１は、識別した物体の動画像上の位置及び大きさを示す情報を、状態識別情報に含めて生成する。これにより、状態識別装置１０の状態マーク描画部１３は、該物体を隠さないように状態マーク画像を動画像に重畳することができる。そのため、ユーザは、物体の実際の状態と識別結果を表す状態マーク画像との比較により、モデルの識別動作の確認を直感的に行うことができる。

また、状態識別装置１０のモデル更新部１６は、ユーザにより操作された状態マーク画像に対応した教示情報に基づきモデルを更新する。すなわち、ユーザは、簡単な操作で学習モデルに対する教示を行うことができ、より多くの教示情報を状態識別装置１０に提供することができる。また、状態識別装置１０は、より多くの教示情報を取得することにより、学習の精度をより改善することができる。

また、状態識別装置１０の状態マーク生成部１２は、識別の確信度に基づき状態マーク画像の生成方法を変更してもよい。これにより、ユーザは、機械学習のモデルの識別結果に対する確信度合いを直感的に理解できる。そのため、ユーザは、機械学習のモデルに親近感を持ちながら、識別動作の確認することができる。例えば、ユーザは、機械学習のモデルについて確信がない場合、識別結果を注意深く確認することができる。

また、状態識別装置１０の状態マーク候補生成部１４は、状態マークの候補をユーザに提示する。そして、状態識別装置１０の教示取得部１５は、ユーザの状態マーク画像に対する「追加」及び「削除」の教示情報を取得する。これにより、ユーザは、簡単な操作で、識別結果の修正が出来るので、ユーザはより正確に、より多くの教示情報を状態識別装置１０に提供することができる。

［第２の実施形態］
図９は、第２の実施形態に係る状態識別システム１ａの構成の一例を示す構成図である。第２の実施形態の状態識別システム１ａは、状態識別装置１０ａと、データ取得装置１００と、端末装置２００とを備えている。なお、第２の実施形態において、前述した第１の実施形態の各構成と同一の構成については、同一の参照符号を付してそれらの説明を省略する。以下、第２の実施形態では、状態識別システム１ａにおいて、状態マーク画像の原画が学習データの中から選択される場合を例に挙げて説明する。つまり、第２の実施形態の状態識別装置１０ａの場合、状態マーク画像の原画が予めユーザにより設定されているわけではなく、自動的に学習データから選択される点において、第１の実施形態と異なる。ここでは、第１の実施形態と同様に、状態カテゴリの識別結果を表す情報を状態識別情報、状態マーク画像を表す情報を状態マーク情報と呼ぶ。

以下、第２の実施形態における状態識別装置１０ａの詳細な構成について説明する。
状態識別装置１０ａは、動画像データから物体の状態を識別するためのモデルを学習する装置である。状態識別装置１０ａは、前述した図１の状態識別装置１０が備えている各構成に加えて、物体画像記憶部Ｍ３とマーク原画生成部１７とを有している。

物体画像記憶部Ｍ３は、画像データを識別する画像データＩＤと関連付けて、状態カテゴリＩＤと画像データと特徴量を記憶する。ここで、画像データは、機械学習のモデルの学習用のデータから、前述の第１の実施形態で説明した物体検出方法を用いて検出された、物体のバウンディングボックス内の画像のデータである。また、特徴量は、前述の第１の実施形態の状態識別部１１で説明した特徴抽出方法を用いて抽出された学習用データの特徴量である。また、状態カテゴリＩＤは、学習データの設定時に、予めユーザにより割り振られた状態カテゴリＩＤである。なお、検出された物体が、動画の一連の複数のフレーム内に存在する場合は、画像データとしては、代表的なフレームのバウンディングボックス内の画像のデータが選択されるものとする。ここで、代表的なフレームとしては、例えば、物体が検出された最初のフレームや、中間のフレーム、連続したフレームの中で物体が最大の大きさになっているフレームなどが選択される。

図１０は、第２の実施形態における物体画像記憶部Ｍ３が記憶する情報の一例を表にして示した図である。図１０に示すように、画像データＩＤは、例えば、アルファベット及び数字から成る文字列である。例えば、二つの画像データは、画像データＩＤ「Ｉ０００１」と画像データＩＤ「Ｉ０００２」の文字列により識別される。なお、図１０では「Ｉ０００２」の図示は省略されている。そして、図１０の例の場合、物体画像記憶部Ｍ３には、例えば画像データＩＤ「Ｉ０００１」に関連付けられて、状態カテゴリＩＤ「Ｓ０００１」と画像データと特徴量とが格納されている。画像データは、図示しないが、例えばＰＮＧ（ＰｏｒｔａｂｌｅＮｅｔｗｏｒｋＧｒａｐｈｉｃｓ）など標準的な画像フォーマットで保存された画像データである。特徴量は、図示しないが、第１の実施形態の状態識別部１１で説明したＨＯＧ，ＨＯＦ，ＩｍｐｒｏｖｅｄＤｅｎｓｅＴｒａｊｅｃｔｏｒｙ及びＤｅｅｐＬｅａｒｎｉｎｇなどの特徴抽出方法で抽出された特徴量である。

図９に示した状態識別装置１０ａの構成の説明に戻る。
マーク原画生成部１７は、モデルを学習するのに用いた代表的なデータに基づき、状態マーク画像の原画を生成する。具体的には、状態識別装置１０ａからマーク原画生成処理開始のトリガーが入力されると、マーク原画生成部１７は、物体画像記憶部Ｍ３から状態カテゴリＩＤ毎に画像データと特徴量とを読み込む。なお、マーク原画生成処理開始のトリガーの詳細は省略するが、一例として所定時間のタイミングやユーザからの開始指示タイミングなどが挙げられる。そして、マーク原画生成部１７は、物体画像記憶部Ｍ３から読み込んだ各状態カテゴリＩＤと一致する状態カテゴリＩＤを有するモデルのパラメータｗ，ｂを、モデル記憶部Ｍ２から読み込む。さらに、マーク原画生成部１７は、モデル記憶部Ｍ２から読み込んだパラメータｗ，ｂに基づく機械学習のモデルで、物体画像記憶部Ｍ３から読み込んだ特徴量を識別し、その識別結果を生成する。そして、マーク原画生成部１７は、生成した識別結果に基づき、所定の代表選択方法で、各カテゴリの代表の画像データを選択して、状態カテゴリＩＤと関連付けて、状態マーク原画記憶部Ｍ１に記憶させる。ここで、代表選択方法として、マーク原画生成部１７は、例えば、各特徴量の正識別時の確信度に基づく選択方法を用いる。この確信度の計算方法としては、例えば、式（３）のようなサポートベクトルマシンの線形識別モデルと出力ラベルとの積が適用できる。
ｙ_i（ｗｘ_i−ｂ）・・・式（３）

ここで、式（３）のｙ_iは１又は−１の値を取る出力ラベルであり、ｗｘ_i−ｂはサポートベクトルマシンの線形識別器の出力であり、識別境界より離れるほど大きい値をとる。これらｙ_iとｗｘ_i−ｂの積は、線形識別器の出力の正負が正しければ、必ず正の値をとり、大きい値ほど識別境界から離れているため誤検出する可能性が低い。したがって、積の値が正に大きいほど、サポートベクトルマシンの識別に対する確信度が高いと考えられる。そして、マーク原画生成部１７は、最大の確信度を取る画像データを、状態カテゴリＩＤ毎の状態マーク画像の原画として選択する。なお、マーク原画生成部１７は、該画像データに対し、エッジ検出や、前景検出などの画像加工方法を用いて、状態の特徴を誇張及び強調してもよい。

次に、図１１を参照して、第２の実施形態の状態識別システム１ａにおける状態識別装置１０ａの動作について説明する。図１１は、本実施形態の状態識別装置１０ａのマーク原画生成部１７における状態マーク画像の生成処理動作の一例を示すフローチャートである。以下の説明では、図１１のフローチャートの各処理ステップをＣ１０１〜Ｃ１１１として表している。なお、状態識別装置１０ａの他の構成における処理は前述した図８のフローチャートの処理と同様であるため、ここではその説明は省略する。

先ず、Ｃ１０１において、マーク原画生成部１７は、状態カテゴリインデックスｃを初期化する。具体的には、マーク原画生成部１７は、状態識別装置１０ａからマーク原画生成処理開始のトリガーが入力されると、状態カテゴリインデックスｃの値を０に初期化する。

次に、Ｃ１０２において、マーク原画生成部１７は、画像データを読み込む。具体的には、マーク原画生成部１７は、状態カテゴリインデックスｃに予め対応付けられた状態カテゴリＩＤと一致する状態カテゴリＩＤを有する画像データと特徴量とを、物体画像記憶部Ｍ３から読み込む。

次に、Ｃ１０３において、マーク原画生成部１７は、モデルのパラメータｗ，ｂを読み込む。具体的には、マーク原画生成部１７は、状態カテゴリインデックスｃに予め対応付けられた状態カテゴリＩＤと一致する状態カテゴリＩＤを有するパラメータｗ，ｂを、モデル記憶部Ｍ２から読み込む。

次に、マーク原画生成部１７は、Ｃ１０４において画像データインデックスｎの値を０に初期化した後、Ｃ１０５において画像データｎの特徴量の確信度を計算する。具体的には、マーク原画生成部１７は、読み込んだパラメータｗ，ｂに基づく機械学習のモデルを用いて、前述の式（３）のように、画像データｎの特徴量に対する識別の確信度を計算する。そして、マーク原画生成部１７は、Ｃ１０６において、画像データインデックスｎに「１」を加算する。

次に、Ｃ１０７において、マーク原画生成部１７は、画像データインデックスｎの値が、物体画像記憶部Ｍ３から読み込んだ画像データ数Ｎ以上か否かを判定する。そして、Ｃ１０７において、画像データインデックスｎが該画像データ数Ｎ以上であると判定（Ｙｅｓ）した場合、マーク原画生成部１７は、処理をＣ１０８に進める。一方、画像データインデックスｎの値が画像データ数Ｎ未満であると判定（Ｎｏ）した場合、マーク原画生成部１７は、処理をＣ１０４に戻す。

Ｃ１０８に進むと、マーク原画生成部１７は、確信度が最大の画像データを原画として選択する。具体的には、マーク原画生成部１７は、状態カテゴリインデックスｃ毎に、確信度の最大値をとる画像データを、状態マーク画像の原画として選択する。

次に、Ｃ１０９において、マーク原画生成部１７は、状態マーク画像の原画を状態マーク原画記憶部Ｍ１に記憶させる。具体的には、マーク原画生成部１７は、選択した状態マーク画像の原画を、状態カテゴリＩＤと関連付けて、状態マーク原画記憶部Ｍ１に記憶させる。

次に、マーク原画生成部１７は、Ｃ１１０において状態カテゴリインデックスｃに「１」を加算した後、Ｃ１１１において状態カテゴリインデックスｃが状態カテゴリ数Ｃ以上か否かを判定する。そして、Ｃ１１１において、状態カテゴリインデックスｃが状態カテゴリ数Ｃ以上であると判定（Ｙｅｓ）した場合、マーク原画生成部１７は、処理を終了する。一方、状態カテゴリインデックスｃが状態カテゴリ数Ｃ未満であると判定（Ｎｏ）した場合、マーク原画生成部１７は、処理をＣ１０２に戻す。

以上説明したように、第２の実施形態において、状態識別装置１０ａは、状態マーク画像の原画を、モデルの学習に用いたデータに基づき生成する。これにより、ユーザは予め状態マーク画像の原画を用意する必要がなくなり、ユーザの負荷が軽減されることになる。

[第３の実施形態]
図１２は、第３の実施形態に係る状態識別システム１ｂの構成の一例を示す構成図である。第３の実施形態の状態識別システム１ｂは、状態識別装置１０ｂと、データ取得装置１００と、端末装置２００とを備えている。なお、第３の実施形態において、前述した第１の実施形態の各構成と同一の構成については、同一の参照符号を付してそれらの説明を省略する。第３の実施形態では、状態識別システム１ｂにおいて、ユーザが、識別された各状態の物体の移動範囲を確認し、誤りがあれば修正する場合を例に挙げて説明する。本実施形態の状態識別システム１ｂは、リアルタイムに状態識別の結果をユーザに提示するのではなく、長期間の識別結果をまとめた状態マーク情報をユーザに提示し、ユーザからの教示情報を取得する点において、第１の実施形態とは異なる。つまり、第３の実施形態の場合、状態マーク情報には、識別した状態に加え、該状態の物体の移動範囲の情報も含まれる。ここでは、第１の実施形態と同様に、状態カテゴリの識別結果を表す情報を状態識別情報、状態マーク画像を表す情報を状態マーク情報と呼ぶ。

以下、第３の実施形態における状態識別装置１０ｂの詳細な構成について説明する。
状態識別装置１０ｂは、動画像データから物体の状態を識別するためのモデルを学習する装置である。第３の実施形態の状態識別装置１０ｂは、状態識別部１１ｂ、状態マーク生成部１２ｂ、状態マーク描画部１３ｂ、教示取得部１５ｂ、モデル更新部１６ｂ、モデル記憶部Ｍ２ｂの各動作が、前述した図１の状態識別装置１０の対応した各構成とは異なる。さらに、第３の実施形態の状態識別装置１０ｂは、移動範囲生成部１８を備えている。

モデル記憶部Ｍ２ｂは、機械学習のモデルを識別するモデルＩＤと関連付けて、該モデルの識別対象の状態カテゴリを識別する状態カテゴリＩＤと、該モデルのパラメータ情報と、該モデルによる識別対象の領域を示す識別対象領域情報とを記憶する。つまり、モデル記憶部Ｍ２ｂは、識別対象領域情報を保持する点において、第１の実施形態のモデル記憶部Ｍ２とは異なる。

状態識別部１１ｂは、第１の実施形態の状態識別部１１と同様に、データ取得装置１００から動画像データが入力され、その動画像データから特徴量を抽出し、さらに物体を検出して、状態識別情報を生成する。ただし、状態識別部１１ｂは、これらの処理を連続する各フレームで繰り返し、複数の状態識別情報を生成する点において、第１の実施形態の状態識別部１１とは異なる。状態識別部１１ｂは、生成した状態識別情報と、入力された動画像データとを、移動範囲生成部１８に出力する。

移動範囲生成部１８は、状態識別部１１ｂにて識別された物体が移動する動画像上の範囲を示す移動範囲情報を生成する。具体的には、状態識別部１１ｂから状態識別情報と動画像データとが入力されると、移動範囲生成部１８は、その入力された状態識別情報に基づき、各状態カテゴリＩＤに対応した物体が移動する範囲を示す移動範囲情報を生成する。そして、移動範囲生成部１８は、生成した移動範囲情報と入力された動画像データとを、状態マーク生成部１２ｂに出力する。ここで、移動範囲情報の生成方法として、移動範囲生成部１８は、例えば、状態識別情報に含まれる各状態カテゴリＩＤの複数のバウンディングボックスを、入力された動画像データから抽出した背景画像に重ねる。そして、移動範囲生成部１８は、所定の閾値以上の枚数のバウンディングボックスが重なっている領域を、該状態カテゴリＩＤに対応した物体の移動範囲を示す移動範囲情報として生成する。ここで、背景画像とは、動画像データから人間などの移動体を取り除いた画像である。また、所定の閾値は、全ての状態カテゴリＩＤで共通の値が用いられてもよいし、状態カテゴリＩＤ毎に変更されてもよい。状態カテゴリ毎に閾値を変更する場合、閾値は、例えば状態カテゴリに対応するバウンディングボックスの値に対してある一定の値になるように設定されてもよい。また、移動範囲情報は、例えば、移動範囲に対応する動画像情報のピクセルを「１」、それ以外のピクセルを「０」とするマスク画像である。

状態マーク生成部１２ｂは、状態識別情報と移動範囲情報とに基づき、状態マーク画像を生成する。具体的には、移動範囲生成部１８から状態識別情報と動画像データと、移動範囲情報とが入力されると、状態マーク生成部１２ｂは、状態識別情報に含まれる状態カテゴリＩＤに関連付けられた状態マーク画像情報を、状態マーク原画記憶部Ｍ１から読み込む。そして、状態マーク生成部１２ｂは、入力された移動範囲情報に含まれているマスク画像に、読み込んだ状態マーク画像の原画情報を重畳して、各状態マーク画像を生成する。ここで、状態マーク画像の原画の位置や大きさは、対応する移動領域情報の領域からはみ出さないように調整される。そして、状態マーク生成部１２ｂは、生成した状態マーク画像と、入力された動画像データと、状態識別情報とを、状態マーク描画部１３ｂに出力する。

状態マーク描画部１３ｂは、状態マーク生成部１２ｂにより生成された状態マーク情報を動画像データに重畳する。具体的には、状態マーク生成部１２ｂから状態マーク画像と状態識別情報と動画像データとが入力されると、状態マーク描画部１３ｂは、入力された状態マーク画像を、状態識別情報に基づき動画像データに重畳する。この重畳方法として、状態マーク描画部１３ｂは、入力された動画像データから抽出した背景画像に対して、状態カテゴリＩＤ毎の状態マーク画像であるマスク画像を重畳する。そして、状態マーク描画部１３ｂは、生成した動画像データと、入力された状態識別情報とを、状態マーク候補生成部１４に出力する。

図１３は、端末装置２００が表示する画面の構成の一例を示す図である。図１３に示すように、端末装置２００が備える表示部ＤＳは、状態識別装置１０ｂから入力された動画像データＤＳ１と、状態マーク候補情報ＤＳ２とを表示する。また、図１３に示すように、状態マーク描画部１３ｂは、移動範囲情報に状態マーク画像の原画が重畳された状態マーク画像ＤＳ６，ＤＳ７，ＤＳ８を、動画像データから抽出した背景画像に重畳している。例えば、状態マーク画像ＤＳ８では、「左右に歩く」と「左右に走る」状態が識別された領域が示されている。

図１２に示した状態識別装置１０ｂの構成の説明に戻る。
教示取得部１５ｂは、第１の実施形態の教示取得部１５と同様に、状態マーク描画部１３ｂが描画した状態マーク画像に対するユーザからの教示を示す教示情報を取得する。教示取得部１５ｂにおいて、第１の実施形態の状態マーク描画部１３と異なる点は、状態マーク画像の位置や大きさの変更に関するユーザからの教示情報を取得する点である。ここで、特定の状態マーク画像を縮小・拡大又は移動する操作は、例えば、後述する図１４のユーザ操作ＵＳ３やＵＳ４の操作にそれぞれ対応している。具体的には、教示取得部１５ｂは、ユーザから特定の状態マーク画像が選択され、位置や大きさを変更する操作を示す操作情報が、端末装置２００から入力された時、操作情報に含まれる幾何情報及び状態カテゴリＩＤを取得する。この幾何情報には、例えば、状態マーク画像の位置及び大きさなどが含まれている。そして、教示取得部１５ｂは、状態カテゴリＩＤの識別対象の動画像上の領域を示す識別対象領域情報を、教示情報として生成する。そして、教示取得部１５ｂは、生成した教示情報を、モデル更新部１６ｂに出力する。

モデル記憶部Ｍ２ｂは、機械学習のモデルを識別するモデルＩＤと関連付けて、該モデルの識別対象の状態カテゴリ識別する状態カテゴリＩＤと、該モデルのパラメータ情報と、該モデルによる識別対象の動画像上の領域を示す識別対象領域情報とを記憶する。つまり、モデル記憶部Ｍ２ｂは、識別対象領域情報を記憶する点において、第１の実施形態のモデル記憶部Ｍ２と異なる。

モデル更新部１６ｂは、第１の実施形態のモデル更新部１６と同様に、モデルのパラメータｗ，ｂを更新する。モデル更新部１６ｂにおいて、第１の実施形態のモデル更新部１６と異なる点は、教示情報に含まれる識別対象領域情報をモデル記憶部Ｍ２ｂに記憶させる点である。具体的には、モデル更新部１６ｂは、読み込んだ各モデルＩＤの識別対象の状態カテゴリＩＤに対応する、識別対象領域情報を教示情報から取得する。そして、モデル更新部１６ｂは、該識別対象領域情報を、モデルＩＤに関連付けてモデル記憶部Ｍ２ｂに記憶させる。ここで、識別対象領域情報は、例えばマスク画像で表されていて、複数の識別対象領域情報は、対応する複数のマスク画像の和を取ることにより結合される。

図１４は、端末装置２００の表示部ＤＳが表示する画面において、ユーザによる教示操作の一例を示す図である。図１４に示すように、操作検出部ＯＰは、ユーザの指ＵＦの動きに基づくユーザの操作を示す操作情報を検出する。例えば、ユーザの指ＵＦが特定の状態マーク画像ＤＳ８を選択し、例えば縮小又は拡大する操作ＵＳ３がなされた場合、操作検出部ＯＰは、それらの操作を検出する。また、ユーザの指ＵＦが特定の状態マーク画像を選択し、動画像データＤＳ１上で移動する操作ＵＳ４がなされ場合、操作検出部ＯＰはその操作を検出する。
なお、第３の実施形態の状態識別システム１ｂにおける状態識別装置１０ｂの動作は、前述した第１の実施形態の状態識別装置１０の動作と基本的には同じであるため、説明は省略する。

以上説明したように、第３の実施形態の状態識別装置１０ｂの移動範囲生成部１８は、識別した物体の移動範囲を生成する。これにより、ユーザは、各状態の物体の移動範囲を直感的に理解できるため、ユーザが事前に把握している各状態の物体の移動範囲と比較して識別結果をより正確に確認することができる。

また、状態識別装置１０ｂの教示取得部１５ｂは、識別した状態の物体の移動範囲を表す状態マーク画像の位置や大きさなどに対するユーザの教示情報を取得する。これにより、ユーザは、簡単な操作で各状態が識別されるべき領域を設定することができる。

以上の第１〜第３の三つの実施形態で説明したように、ユーザは、親しみやすい状態マーク情報とのインタラクションを通して、より正確で多くの教示情報を状態識別装置（１０，１０ａ，１０ｂ）に提供することができる。そして、状態識別装置は、より多くのデータを用いて学習の精度を改善することができる。このようなユーザと状態識別装置との関係の相乗効果により、ユーザは、該モデルの挙動を直感的に理解し、親近感を持って機械学習モデルに教示することができる。また、それにより機械学習のモデルの精度及びユーザの満足度を向上させることができる。すなわち、前述した各実施形態によれば、動画像データに対する機械学習モデルによる識別結果の直感的な可視化及びユーザからのフィーバックに基づいた該モデルの学習精度改善が可能となる。

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。また、各実施形態は、上記の各実施形態が組み合わされて実施されてもよい。

また、上記の各実施形態においては、機械学習のモデルの学習に用いたデータとは異なるデータを用いて該モデルの動作確認をする例を説明したが、動作確認に学習に用いたデータを用いてもよい。

また、上記の各実施形態においては、複数の状態を識別する問題を例に挙げて説明したが、本発明の情報処理装置は、この発明の要旨を逸脱しない範囲内において一般的な識別問題に適用することが可能である。例えば、本発明の情報処理装置は、正常と異常を識別する異常検知の問題に適用することができる。

また、前述の各実施形態において、状態識別装置１０，１０ａ，１０ｂは、状態マーク原画記憶部Ｍ１、モデル記憶部Ｍ２、物体画像記憶部Ｍ３等を備えていると説明したが、ネットワークを介したサーバ上や、他の装置がこれらの構成を備えてもよい。

本発明は、前述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

前述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１：状態識別システム、１０，１０ａ，１０ｂ：状態識別装置、１１，１１ｂ：状態識別部、１２，１２ｂ：状態マーク生成部、１３，１３ｂ：状態マーク描画部、１４：状態マーク候補生成部、１５，１５ｂ：教示取得部、１６，１６ｂ：モデル更新部、１７：マーク画像生成部、１８：移動範囲生成部、１００：データ取得装置、２００：端末装置、Ｍ１：状態マーク原画記憶部、Ｍ２，Ｍ２ｂ：モデル記憶部、Ｍ３：物体画像記憶部

Claims

動画像に含まれる物体の状態が識別できるように予め学習されたモデルを用いて、前記識別の結果を示す状態識別情報を生成する識別手段と、
前記識別手段により生成された前記状態識別情報に基づき、前記識別の結果の意味を視覚的に表す状態マーク情報を生成するマーク生成手段と、
前記マーク生成手段により生成された前記状態マーク情報を、前記動画像に描画する描画手段と、
前記描画手段が描画した前記状態マーク情報に対するユーザからの教示を示す教示情報を取得する取得手段と、
前記取得手段により取得された前記教示情報に基づき、前記モデルを更新する更新手段と、
を有することを特徴とする情報処理装置。
前記状態マークの候補を示す状態マーク候補情報を、ユーザに提示する候補生成手段を有し、
前記取得手段は、ユーザによる、前記マーク候補情報を選択し前記動画像の上に移動する操作を示す情報を、前記教示情報として取得することを特徴とする請求項１に記載の情報処理装置。
前記取得手段は、ユーザによる、前記動画像に描画された前記状態マーク情報を選択し、前記動画像の外に移動させる操作を示す情報を、前記教示情報として取得することを特徴とする請求項１又は２に記載の情報処理装置。
前記取得手段は、ユーザによる、前記動画像に描画された前記状態マーク情報の位置と大きさの少なくとも何れか一方を変更する操作を示す情報を、前記教示情報として取得することを特徴とする請求項１から３の何れか１項に記載の情報処理装置。
前記モデルを学習するのに用いた代表的なデータに基づき前記状態マーク情報の原画を生成する原画生成手段を更に有し、
前記マーク生成手段は、前記原画生成手段が生成した原画を用いて前記状態マーク情報を生成することを特徴とする請求項１から４の何れか１項に記載の情報処理装置。
前記識別手段は、識別した前記物体の前記動画像の中の位置と大きさの少なくとも一方を示す情報を、前記状態識別情報に含めて生成することを特徴とする請求項１から５の何れか１項に記載の情報処理装置。
前記マーク生成手段は、前記状態識別情報に前記物体の前記動画像の中の大きさを示す情報が含まれている場合、前記大きさを示す情報を基に、前記状態マーク情報により表される画像の大きさを調整することを特徴とする請求項６に記載の情報処理装置。
前記識別手段は、識別の確信度を示す確信度情報を含む前記状態識別情報を生成し、
前記マーク生成手段は、前記確信度情報に基づき、前記状態マーク情報の生成方法を変更することを特徴とする請求項１から７の何れか１項に記載の情報処理装置。
前記マーク生成手段は、前記確信度情報に基づき、前記状態マーク情報により表される画像の色を変更することを特徴とする請求項８に記載の情報処理装置。
前記識別手段が識別した前記物体が移動する前記動画像の範囲を示す移動範囲情報を生成する範囲生成手段を更に有し、
前記マーク生成手段は、前記識別手段が生成した前記状態識別情報と、前記範囲生成手段が生成した前記移動範囲情報とに基づき、前記状態マーク情報を生成することを特徴とする請求項１から９の何れか１項に記載の情報処理装置。
前記識別手段は、前記動画像から取得した所定の特徴量を基に前記物体の状態を識別することを特徴とする請求項１から１０の何れか１項に記載の情報処理装置。
前記描画手段は、前記状態マーク情報により表される画像を、前記動画像の中の前記物体の近傍に描画することを特徴とする請求項１から１１の何れか１項に記載の情報処理装置。
動画像に含まれる物体の状態が識別できるように予め学習されたモデルを用いて、前記識別の結果を示す状態識別情報を生成する識別工程と、
前記識別工程により生成された前記状態識別情報に基づき、前記識別の結果の意味を視覚的に表す状態マーク情報を生成する生成工程と、
前記生成工程により生成された前記状態マーク情報を、前記動画像に描画する描画工程と、
前記描画工程により描画された前記状態マーク情報に対するユーザからの教示を示す教示情報を取得する取得工程と、
前記取得工程により取得された前記教示情報に基づき、前記モデルを更新する更新工程と、
を有することを特徴とする情報処理方法。
コンピュータを、請求項１から１２の何れか１項に記載の情報処理装置の各手段として機能させるためのプログラム。