以下、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
[第1の実施形態]
図1は、第1の実施形態に係る状態識別システム1の構成例を示す概略ブロック図である。第1の実施形態の状態識別システム1は、情報処理装置としての状態識別装置10と、データ取得装置100と、端末装置200とを備えている。なお、これらの装置間は、ネットワークを介して接続されていてもよい。このネットワークには、例えば、固定電話回線網や、携帯電話回線網、インターネット等の何れか、又は、それらの組み合わせが含まれる。
第1の実施形態では、ユーザが、リアルタイムに表示された動画像上の識別結果を見て、機械学習のモデルの識別動作の確認を行う場合を例に挙げて説明する。具体的には、状態識別システム1は、状態識別装置10が観測対象の物体の状態を示す状態カテゴリを識別し、その識別結果に基づく状態マーク画像を端末装置200の画面上に表示させて、ユーザに提示する。そして、ユーザは、端末装置200を操作して、画面に表示される動画像を、一時停止、再生、又は巻き戻しをしながら識別結果を確認し、もし誤りがあれば修正を指示する。以下、本実施形態では、状態カテゴリの識別結果を表す情報を状態識別情報、状態マーク画像を表す情報を状態マーク情報と呼ぶ。また、本実施形態において、状態の観測対象には、例えば、介護施設や一般家庭で生活する人物、駅や市街などの公共施設で活動する人物や群衆、工場や運送センターなどで扱われる物品などが含まれる。また本実施形態において、ユーザとは、例えば、緊急通報などの用途で、本システムを直接利用するエンドユーザ、又は、本システムを第三者に提供するために機械学習のモデルの調整を行うシステムインテグレータである。
図1に示した状態識別システム1において、データ取得装置100は、観測対象の状態を動画像で撮影するカメラを備える。データ取得装置100は、取得した動画像データを、状態識別装置10に送信する。この動画像データは、例えば、所定の解像度及びフレームレートで構成される。例えば、解像度は680×480ピクセルで、フレームレートは30fpsである。
次に、状態識別装置10の詳細な構成について説明する。状態識別装置10は、動画像データから物体の状態を識別するためのモデルを学習する装置である。状態識別装置10は、状態マーク原画記憶部M1と、モデル記憶部M2と、状態識別部11と、状態マーク生成部12と、状態マーク描画部13と、状態マーク候補生成部14と、教示取得部15と、モデル更新部16とを備えている。
状態マーク原画記憶部M1は、状態カテゴリを識別するための状態カテゴリIDと、状態のグループを識別するためのグループIDと、状態を視覚的に表す状態マーク画像の原画とを、状態カテゴリIDと関連付けて記憶する。ここで、状態カテゴリIDとは、ユーザにより予め設定された観測対象の物体の状態の種類を識別するための情報である。本実施形態における状態カテゴリは、例えば、「歩く」、「走る」など人間の行動の種類のカテゴリや、「座っている」、「横になっている」など人間の姿勢のカテゴリ、「読書している」などの動作の持続のカテゴリ、状況の種類などの各カテゴリを含む。グループIDとは、ユーザにより予め定められた状態のグループを識別するための情報である。本実施形態におけるグループは、例えば、観測対象の物体の種類毎のグループを含む。物体の種類のグループは、例えば、子供や大人などの人間の属性のグループや、歩行者、自転車、車など移動体の種類のグループを含む。状態マーク画像の原画とは、予め用意された、観測対象の状態を視覚的かつ簡易的に表す画像である。状態マーク画像の原画は、例えば、物体の状態を簡単な絵柄で記号化したアイコン画像や、物体の状態を描写したイラスト画像などである。
図2は、本実施形態の状態マーク原画記憶部M1が記憶する情報の一例を表にして示した図である。図2に示すように、状態カテゴリIDとグループIDとは、例えば、アルファベット及び数字から成る文字列である。例えば、二つの状態カテゴリは、状態カテゴリID「S0001」と状態カテゴリID「S0002」のように文字列により識別される。また、二つのグループは、グループID「G01」と「G02」のように文字列により識別される。そして、図2に示すように、状態マーク原画記憶部M1には、例えば状態カテゴリID「S0001」に関連付けられて、状態マーク画像の原画のファイル名である「S0001.png」が格納されている。なお、状態マーク画像の原画は、外部の記憶装置に記憶されていてもよく、この場合は、該記憶装置の場所を示すアドレスが記憶される。外部の記憶装置としては、例えば、インターネットを介して接続したクラウド上のサーバなどを挙げることができる。また、アドレスには、例えば、IP(Internet Protocol)アドレスや、URL(Uniform Resource Locator)などが適用可能である。
図3(a)、図3(b)は、状態マーク原画記憶部M1が記憶する状態マーク画像の原画の一例を示す図である。図3(a)の例では、人間の「歩く」行動が簡単な絵柄で記号化されたアイコン画像31により表されている。また、人間の「歩く」行動による方向が、上下左右の方向を表す矢印のアイコン画像32、33、34及び35により表されている。例えば、人間の「左に歩く」行動は、アイコン画像31とアイコン画像32との組み合わせにより表される。また、図3(b)の例は、人間の「走る」行動がアイコン画像36により表されている。図3(b)には図示していないが、人間の「走る」行動による方向が、上下左右の方向を表す矢印のアイコン画像により表されていてもよい。
モデル記憶部M2は、機械学習のモデルを識別するためのモデルIDと関連付けて、該モデルの識別対象の状態カテゴリIDと、該モデルのパラメータを示すパラメータ情報とを記憶する。
図4は、本実施形態のモデル記憶部M2が記憶する情報の一例を表にして示した図である。図4に示すように、モデルIDは、例えばアルファベット及び数字から成る文字列である。例えば、二つのモデルは、モデルID「M0001」とモデルID「M0002」のように文字列により識別される。そして、図4では、例えば、モデルID「M0001」に関連付けられて、モデルの識別対象の二つの状態カテゴリID「S0001,S0002」と、モデルのパラメータwの値「0.5」とパラメータbの値「2」が格納されていることが示されている。このモデルのパラメータwとパラメータbは、状態識別部11の説明にて後述する線形識別モデルのパラメータである。つまり、この例は、モデル「M0001」が、二つの状態カテゴリ「S0001」及び「S0002」を、パラメータwの値「0.5」及びパラメータbの値「2」から構成される線形識別モデルを用いて識別されることを表している。
図1に示した状態識別装置10の構成の説明に戻る。
状態識別部11は、予め学習して記憶しておいた機械学習のモデルを用いて物体の状態を識別し、その識別の結果を示す状態識別情報を生成する。具体的には、所定の時間間隔で動画像データがデータ取得装置100から状態識別部11に出力され、状態識別部11は、先ず、その動画像データから、所定の特徴量抽出方法により特徴量を抽出する。この特徴量抽出方法としては、動画像データの各フレームのアピアランスに関する特徴量を抽出する方法や、複数のフレーム間の物体の動きに関する特徴量を抽出する方法などを用いることができる。アピアランスに関する特徴量を抽出する方法としては、下記の参考文献1に記載のHOG(Histogram of Gradient)などを挙げることができる。動きに関する特徴量を抽出する方法としては、下記の参考文献2に記載のHOF(Histogram of Optical Flow)などを挙げることができる。なお、これらの方法は、特定の観測対象に特化してもよい。例えば、観測対象が人間の場合は、人間の姿勢、服の色、身長、人種、性別などの情報を特徴量として抽出する方法でもよい。
参考文献1:N. Dalal and B. Triggs, Histogram of oriented gradients for human detection, In proceedings of Computer Vision and Pattern Recognition (CVPR), pp.886−−893,2005.
参考文献2:J. Pers, et al., Histograms of optical flow for efficient representation of body motion, Pattern recognition Letters, vol.31,no.11,pp.1369−−1376,2010.
次に、状態識別部11は、入力された動画像データから観測対象の物体を検出する。物体の検出方法としては、例えば、各画像フレームから予め学習しておいた一般物体検出モデルで特定の物体を検出する方法や、複数の画像フレームの差分から移動している物体を検出する方法を用いることができる。一般物体検出モデルで特定の物体を検出する方法としては、参考文献3に記載のDefomable Part Modelなどを挙げることができる。差分から移動している物体を検出する方法としては、参考文献4に記載の動的背景差分法などを用いることができる。
参考文献3:P.Felzenszwalb, et al., A Discriminatively Trained, Multiscale, Deformable Part Model, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2008.
参考文献4:A.Godbehere, A.Matsukawa and K.Goldberg. Visual Tracking of Human Visitors under Variable−Lighting Conditions for a Responsive Audio Art Installation. American Control Conference, Montreal, June 2012.
次に、状態識別部11は、検出した物体の幾何情報を生成する。この幾何情報とは、例えば、該物体を動画像上で囲う後述するバウンディングボックスの位置と大きさ示す情報である。位置は、例えば、該バウンディングボックスの左上の角の座標であり、大きさは、例えば、該バウンディングボックスの高さと幅である。
そして、状態識別部11は、モデル記憶部M2から、モデルIDに関連付けられて記憶されている識別対象の状態カテゴリIDと、モデルの前述したパラメータw及びパラメータbとを読み込む。そして、状態識別部11は、検出した物体を、抽出した特徴量と、読み込んだ各モデルのパラメータw,bとに基づき、読み込んだ各状態カテゴリに識別する。このモデルとしては、例えば、参考文献5に記載のサポートベクトルマシンを挙げることができる。ここで、サポートベクトルマシンの線形識別モデルにおいて、パラメータw,bは、式(1)のように、線形識別境界の傾きwとバイアスbに対応している。
参考文献5:V.N Vapnik, Statistical Learning Theory, Wiley, New York, 1998.
ここで、式(1)のyは{1,−1}の二つの値をとり、それぞれは状態マーク原画記憶部M1から読み込んだ識別対象の状態カテゴリIDに対応する。例えば、図4に示したように、モデルID「M0001」の識別対象の状態カテゴリIDは「S0001」と「S0002」とである。例えば、該線形識別モデルは、yが「1」の時は状態カテゴリID「S0001」を選択し、yが「−1」の時は状態カテゴリID「S0002」を選択する。なお、状態マーク原画記憶部M1は複数のモデルを記憶しておき、状態識別部11は、複数のモデルの識別結果を統合して、状態カテゴリIDを選択してもよい。また、状態識別部11は、識別結果の確信度を示す確信度情報を生成してもよい。この確信度情報は、例えば、0から1の範囲の実数値であり、1に近い程高い確信度を表す。
そして、状態識別部11は、状態識別情報を生成し、入力された動画像データとともに、状態マーク生成部12に出力する。ここで、状態識別情報には、例えば、識別した各状態カテゴリIDや、識別結果の確信度を示す確信度情報、識別した物体の位置及び大きさなどを示す幾何情報が含まれる。
状態マーク生成部12は、状態識別部11により生成された状態識別情報に基づき、識別の結果の意味を視覚的に表す状態マーク情報を生成する。具体的には、状態識別部11から状態識別情報と動画像データとが入力されると、状態マーク生成部12は、状態識別情報に含まれる状態カテゴリIDに関連付けられた状態マーク画像の原画を状態マーク原画記憶部M1から読み込む。そして、状態マーク生成部12は、読み込んだ状態マーク画像の原画を、入力された状態識別情報に基づき以下のように変換する。ここで、マーク画像変換方法としては、例えば次の第1,第2のマーク画像変換方法を挙げることができる。
第1のマーク画像変換方法として、状態マーク生成部12は、状態識別情報に含まれる物体の後述するバウンディングボックスの大きさに比例するように、読み込んだ状態マーク画像の原画の大きさを変換する。例えば、状態マーク生成部12は、状態マーク画像の原画の矩形の面積と、物体のバウンディングボックスの面積の比が一定の値になるように、状態マーク画像の原画の大きさを調整する。ここで、状態マーク画像の原画の大きさが、バウンディングボックスに対して十分小さくなるように、この一定の値は、1未満の小さい実数値に設定される。
第2のマーク画像変換方法として、状態マーク生成部12は、状態識別情報に含まれる確信度情報に基づき、読み込んだ状態マーク画像の原画の色を変換する。例えば、状態マーク生成部12は、確信度情報が1に近い程濃く、0に近い程薄くなるように色を変換する。なお、確信度が所定の閾値より低い場合は、状態マーク生成部12は、状態マーク画像をユーザに見えないように、白で塗りつぶしてもよい。
そして、状態マーク生成部12は、前述のようにして生成した状態マーク画像を状態マーク情報として、入力された状態識別情報及び動画像データとともに、状態マーク描画部13に出力する。
状態マーク描画部13は、状態マーク生成部12により生成された状態マーク画像を、動画像データに重畳する。具体的には、状態マーク生成部12から状態マーク画像と状態識別情報と動画像データとが入力されると、状態マーク描画部13は、入力された状態マーク画像を、状態識別情報に基づき動画像データに重畳する。この重畳方法として、状態マーク描画部13は、例えば状態識別情報に含まれる物体のバウンディングボックスの位置に基づき、状態マーク画像の位置を決定する。そして、状態マーク描画部13は、状態マーク画像を物体の近傍に、具体的には、状態マーク画像とバウンディングボックスの右下の角が合うように、状態マーク画像を動画像データに重畳する。状態マーク描画部13は、生成した動画像データと、入力された状態識別情報とを、状態マーク候補生成部14に出力する。
図5(a)と図5(b)は、状態マーク生成部12が生成した状態マーク画像を、状態マーク描画部13が動画像データに重畳した画像の一例を示す図である。図5(a),図5(b)に示すように、状態マーク生成部12は、前述の第1のマーク画像変換方法により、状態マーク画像53,54の大きさを、バウンディングボックス52の大きさに対して十分小さくなるように設定する。また図5(a)に示すように、状態マーク生成部12は、前述の第2のマーク画像変換方法により、確信度が0.8と高い場合は、状態マーク画像53の色を濃い色に変換する。一方、図5(b)に示すように、状態マーク生成部12は、確信度が0.3と低い場合は、状態マーク画像54の色を薄い色に変換する。そして、状態マーク描画部13は、入力された状態識別情報に含まれる物体のバウンディングボックス52と、状態マーク画像53又は54との右下の角が合うようにして、状態マーク画像53又は54を、動画像データ51に重畳する。
図1に示した状態識別装置10の構成の説明に戻る。
状態マーク候補生成部14は、状態マーク画像の候補を示す状態マーク候補情報を生成する。具体的には、状態マーク生成部12から動画像データと状態識別情報とが入力されると、状態マーク候補生成部14は、所定の候補選択方法で、状態カテゴリIDを選択する。そして、状態マーク候補生成部14は、選択した状態カテゴリIDに関連付けられた状態マーク画像情報を、状態マーク原画記憶部M1から読み込む。ここで、所定の候補選択方法としては、次の第1,第2の候補選択方法を挙げることができる。
第1の候補選択方法として、状態マーク候補生成部14は、状態マーク原画記憶部M1が記憶している全ての状態カテゴリIDを選択する。具体的には、状態マーク候補生成部14は、状態マーク原画記憶部M1から全ての状態カテゴリIDと状態マーク画像情報とを読み込む。
第2の候補選択方法として、状態マーク候補生成部14は、入力された状態識別情報に含まれる状態カテゴリIDが属するグループに属する全ての状態カテゴリIDを選択する。具体的には、状態マーク候補生成部14は、入力された状態識別情報に含まれている状態カテゴリIDに関連付けられたグループIDを、状態マーク原画記憶部M1から読み込む。さらに、状態マーク候補生成部14は、読み込んだグループIDと一致するグループIDに属する状態カテゴリIDと状態マーク画像情報とを、状態マーク原画記憶部M1から読み込む。
そして、状態マーク候補生成部14は、第1又は第2の候補選択方法によって、状態マーク画像から読み込んだ状態カテゴリIDと状態マーク画像とを、状態マーク候補情報として、入力された動画像データとともに、端末装置200に出力する。
教示取得部15は、状態マーク描画部13が描画した状態マーク画像に対するユーザからの教示を示す教示情報を、端末装置200から取得する。具体的には、端末装置200が備えている後述する操作検出部OPからユーザ操作情報が入力された時、教示取得部15は、その操作情報から、ユーザの、識別結果に対する教示を示す教示情報を取得する。この教示情報の取得方法には、例えば次の第1,第2の教示情報取得方法を挙げることができる。
第1の教示情報取得方法として、教示取得部15は、状態カテゴリIDの「追加」を示す操作情報から、入力と出力の組みからなる教示情報を取得する。具体例は後述する図7で説明するが、教示取得部15は、ユーザにより特定の状態マーク候補情報が選択され、動画像上に移動する操作が行われると、それらユーザの操作情報を、端末装置200から取得する。なお、状態マーク候補情報を動画像上に移動する「追加」の操作は、例えば後述する図7のユーザ操作US1に対応している。次に、教示取得部15は、その操作情報に含まれる移動先の場所情報に基づく動画像データを、状態マーク描画部13から受け取る。この場所情報には、例えば、動画像のフレーム番号や、バウンディングボックスの位置及び大きさなどが含まれている。さらに、教示取得部15は、状態マーク描画部13より入力された動画像データから、前述した特徴量抽出方法を用いて、特徴量を抽出する。そして、教示取得部15は、その特徴量を入力情報とし、操作情報に含まれる特定の状態マーク候補情報に対応する状態カテゴリIDを出力情報とし、それら入力情報と出力情報との組を教示情報とする。教示取得部15は、このように生成した入力情報と出力情報の組みからなる教示情報を、モデル更新部16に出力する。
第2の教示情報の取得方法として、教示取得部15は、状態カテゴリIDの「削除」を示す操作情報から、入力と出力の組みからなる教示情報を取得する。具体例は後述する図7で説明するが、教示取得部15は、ユーザにより特定の動画像データ上の状態マーク画像が選択され、動画像の外に移動する操作が行われると、それらユーザの操作情報を、端末装置200から取得する。なお、特定の状態マーク画像を選択し、動画像データの外に移動する「削除」の操作は、例えば後述する図7のユーザ操作US2に対応している。次に、教示取得部15は、その操作情報に含まれる移動先の場所情報に基づく動画像データを、状態マーク描画部13から受け取る。さらに、教示取得部15は、状態マーク描画部13より入力された動画像データから、前述した特徴量抽出方法を用いて、特徴量を抽出する。そして、教示取得部15は、その特徴量を入力情報とし、一方、出力情報を空の情報として生成する。教示取得部15は、このようにして生成した入力情報と出力情報の組みからなる教示情報を、モデル更新部16に出力する。
モデル更新部16は、教示取得部15により取得された教示情報に基づき、モデルを更新する。具体的には、教示取得部15から教示情報が入力されると、モデル更新部16は、教示情報に含まれる状態カテゴリIDと一致する状態カテゴリIDを有するモデルIDと関連付けられたパラメータw及びbを、モデル記憶部M2から読み込む。そして、モデル更新部16は、モデルの最適化の基準となる目的関数と、取得した教示情報とに基づいて、読み込んだパラメータw及びbを更新する。そして、モデル更新部16は、更新したパラメータw及びbを、モデルIDと関連付けてモデル記憶部M2に記憶させる。
以下、サポートベクトルマシンの例を用いて、モデル更新部16におけるパラメータの更新方法について具体的に説明する。前述の参考文献5に記載のサポートベクトルマシンでは、パラメータw及びbを最適化するための目的関数は、下記式(2)で表される。
ここで、式(2)のNは学習データの数、(xi,yi)は、それぞれi番目の学習データ点の入力と出力に対応している。つまり、教示取得部15から入力された教示情報に含まれる状態カテゴリIDはyi、特徴量はxiに対応していて、データ数は一つ(N=1)である。モデル更新部16は、この教示情報を用いて、式(2)の目的関数を満たすように、下記の参考文献6に記載の逐次最小問題最適化法などを用いて、パラメータw及びbを更新する。
参考文献6:J.Platt, Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machiness,1998.
なお、教示取得部15が「削除」の教示情報を取得し、教示情報の出力情報が空の場合に対応するために、モデル記憶部M2は各状態カテゴリIDとそれ以外の2クラス識別を行うモデルを記憶し、モデル更新部16は該モデルのパラメータを更新してもよい。
端末装置200は、ユーザが利用するコンピュータ装置であり、図6に示すように、表示部DSと操作検出部OPとを備えている。図6は、端末装置200が表示する画面の構成の一例を示す図である。端末装置200には、例えばPC(Personal Computer)やタブレットPC、スマートフォン、フューチャーフォン等が適用できる。
表示部DSは、液晶パネルや有機ELパネルなどの画像表示パネルを備えており、状態識別装置10から入力された動画像データ(DS1)及び状態マーク候補情報(DS2)を表示する。なお、表示部DSは、「再生」、「一時停止」及び「巻き戻し」などの動画像データに対する特定の制御を示す動画像制御情報(DS3,DS4,DS5等)を表示してもよい。詳細な説明を省くが、後述する操作検出部OPが動画像制御情報に対するユーザ操作を示す操作情報を検出した場合、表示部DSは、予め動画像制御情報に対応付けられた動画像データに対する制御を実行する。例えば、「再生」の動画像制御情報に対応付けられた制御は、動画像データの再生である。
操作検出部OPは、表示部DSの画像表示パネルに配置されたタッチセンサを備えており、ユーザの指やタッチペンの動きに基づくユーザ操作を検出するとともに、その検出した操作を示す操作情報を、状態識別装置10の教示取得部15に出力する。なお、操作検出部OPは、コントローラ、キーボード及びマウスなどの入力デバイスを備え、画像表示パネルに表示された画像に対するユーザ操作を示す操作情報を取得してもよい。この操作情報としては、例えば、ユーザが特定の状態マーク候補情報(DS2)を選択して、動画像データ(DS1)に移動するいわゆるドラッグアンドドロップなどの操作情報を挙げることができる。操作検出部OPは、ユーザによるドラッグアンドドロップの操作を検出した場合、該状態マーク候補情報(DS2)に含まれる状態カテゴリIDと、移動先の動画像データ(DS1)上の場所情報とを、ドラッグアンドドロップを示す操作情報に追加する。この場所情報には、例えば、動画像のフレーム番号、バウンディングボックスの位置及び大きさなどが含まれる。そして、操作検出部OPは、検出した操作情報を状態識別装置10に出力する。なお、操作検出部OPは、表示部DSに表示された「再生」、「一時停止」及び「巻き戻し」などの動画像制御情報(DS3,DS4,DS5等)に対するユーザ操作を検出し、表示部DSにその動画像制御情報を出力してもよい。また、図示はしないが、表示部DSは、ユーザからの識別結果に対する承認を得るための、「承認」ボタンを各状態マーク画像に表示してもよい。そして、操作検出部OPは、ユーザからの「承認」ボタン押下の操作情報を取得した場合、その操作情報を教示取得部15に出力する。この場合の教示取得部15は、前述した教示情報の生成方法により、承認された動画像データの特徴量を入力情報、承認された状態カテゴリIDを出力情報とした教示情報を生成する。
図6に示したように、端末装置200の表示部DSには、状態識別装置10から入力された動画像データDS1と、状態マーク候補情報DS2とが表示される。また、表示部DSには、動画像制御情報として、巻き戻しボタンDS3と、一時停止ボタンDS4と、再生ボタンDS5等が表示される。
図7は、端末装置200の表示部DSの画面に対するユーザからの教示操作の一例を説明するための図である。図7に示すように、操作検出部OPは、ユーザの指UFの動きに基づくユーザ操作を示す操作情報を検出する。例えば、操作検出部OPは、ユーザの指UFが状態マーク候補情報DS2から特定の状態マーク候補情報を選択した状態で、動画像データDS1に移動するような操作US1を検出する。前述した状態カテゴリIDの「追加」を示す操作情報は、この操作US1を検出した際に操作検出部OPが生成する。また、操作検出部OPは、ユーザの指UFが特定の状態マーク画像を選択した状態で、動画像データDS1の外に移動するような操作US2を検出する。前述した状態カテゴリIDの「削除」を示す操作情報は、この操作US2を検出した際に操作検出部OPが生成する。
次に、図8を参照して、本実施形態の状態識別システム1における状態識別装置10の動作について説明する。図8は、状態識別装置10における機械学習のモデルの更新処理の一例を示すフローチャートである。なお、図8のフローチャートには、データ取得装置100と端末装置200で行われる処理も含まれている。以下の説明では、図8のフローチャートの各処理ステップをU101〜U113として表している。また、図8のフローチャートにおいて状態識別装置10に係る処理は、状態識別装置10の図示しないハードウェアが行ってもよいし、図示しないCPU等が本実施形態のプログラムを実行することにより実現されてもよい。このことは後述する他のフローチャートにおいても同様とする。
先ず、U101において、図1のデータ取得装置100は、カメラにより観測対象を撮影して動画像データを取得する。そして、状態識別装置10は、そのデータ取得装置100のカメラにより撮影された動画像データを取得する。U101の後、状態識別システム1における処理は、状態識別装置10の状態識別部11にて行われるU102に進む。
U102において、状態識別部11は、U101で取得された動画像データから特徴量を抽出する。具体的には、状態識別部11は、データ取得装置100から動画像データが入力されると、前述した特徴量抽出方法を用いて、その動画像データから特徴量を抽出する。
次に、状態識別部11は、U103の処理として、U102で抽出した特徴量を基に、動画像データから観測対象の物体を検出する。具体的には、状態識別部11は、前述した物体検出方法を用い、動画像から物体を検出し、その物体から前述した幾何情報を生成する。
次に、状態識別部11は、U104の処理として、U103で検出した物体の状態を識別する。具体的には、状態識別部11は、前述したモデルIDと関連付けられた状態カテゴリIDとパラメータとをモデル記憶部M2から読み込み、さらに、そのパラメータを用いて物体の状態を識別し、その識別結果に基づき状態識別情報を生成する。そして、状態識別部11は、生成した状態識別情報と、入力された動画像データとを、状態マーク生成部12に出力する。U104の後、状態識別装置10の処理は、状態マーク生成部12にて行われるU105に進む。
U105において、状態マーク生成部12は、状態マーク画像の原画を読み込む。具体的には、状態マーク生成部12は、状態識別部11から入力された状態識別情報に含まれる状態カテゴリIDと一致する状態マーク画像の原画を、状態マーク原画記憶部M1から読み込む。
次に、状態マーク生成部12は、U106の処理として、状態マーク画像の原画の大きさを調整する。具体的には、状態マーク生成部12は、前述した第1のマーク画像変換方法を用い、状態マーク画像の原画の大きさを、状態識別情報に含まれる幾何情報に基づき調整する。
次に、状態マーク生成部12は、U107の処理として、状態マーク画像の原画の色を調整する。具体的には、状態マーク生成部12は、前述した第2のマーク画像変換方法を用いて、状態マーク画像の原画の色を、状態識別情報に含まれる前述の確信度情報に基づき調整する。そして、状態マーク生成部12は、前述のようにして変換した状態マーク画像の原画を状態マーク画像として、入力された状態識別情報と動画像データとともに、状態マーク描画部13に出力する。U107の後、状態識別装置10の処理は、状態マーク描画部13にて行われるU108に進む。
U108において、状態マーク描画部13は、状態マーク画像を動画像データに重畳する。具体的には、状態マーク生成部12から状態識別情報、状態マーク画像及び動画像データが入力されると、状態マーク描画部13は、前述した重畳方法を用いて、状態識別情報の幾何情報に基づき位置を調整し、状態マーク画像を動画像データに重畳する。そして、状態マーク描画部13は、動画像データと状態識別情報とを、状態マーク候補生成部14に出力する。U108の後、状態識別装置10の処理は、状態マーク候補生成部14にて行われるU109に進む。
U109において、状態マーク候補生成部14は、状態マーク候補情報を生成する。具体的には、状態マーク描画部13から動画像データと状態識別情報とが入力されると、状態マーク候補生成部14は、状態マーク原画記憶部M1から状態マーク画像情報と状態カテゴリIDとを読み込む。そして、状態マーク候補生成部14は、状態マーク画像情報と状態カテゴリIDを基に、前述した候補選択方法を用いて状態マーク候補情報を生成する。そして、状態マーク候補生成部14は、U109で生成した動画像データと状態マーク候補情報とを、端末装置200に出力する。U109の後、状態識別システム1における処理は、端末装置200の表示部DSにて行われるU110に進む。
U110において、端末装置200の表示部DSは、状態マーク候補生成部14から動画像データと状態マーク候補情報が入力されると、それら動画像データと状態マーク候補情報を表示する。すなわち、このときの端末装置200の表示部DSには、前述の図6に示したように、動画像データDS1と状態マーク候補情報DS2とが表示され、さらに、動画像制御情報として巻き戻しDS3、一時停止DS4、再生DS5等も表示される。U110の後、状態識別システム1における処理は、端末装置200の操作検出部OPにて行われるU111に進む。
U111において、端末装置200の操作検出部OPは、ユーザからの操作情報を取得したか否かの判定を行う。操作検出部OPは、U111において、例えばユーザによるドラッグアンドドロップの操作情報を取得したと判定(Yes)した場合、ドラッグアンドドロップの操作情報に、状態マーク候補情報に対応する状態カテゴリIDと移動先の場所情報とを追加する。そして、端末装置200は、その情報を、状態識別装置10の教示取得部15に出力する。U111においてユーザからの操作情報を取得したと判定された場合、状態識別システム1における処理は、状態識別装置10の教示取得部15にて行われるU112に進む。一方、U111において、操作検出部OPが、一定時間、ユーザからの操作情報を取得できなかったと判定(No)した場合、状態識別システム1における処理は、状態識別装置10にて行われる前述のU102に戻る。
U112の処理に進むと、状態識別装置10の教示取得部15は、前述した教示情報を取得する。具体的には、教示取得部15は、操作検出部OPからユーザの操作情報が入力されると、その操作情報に含まれる幾何情報に基づく動画像データを、状態マーク描画部13から取得する。そして、教示取得部15は、前述した特徴量抽出方法を用いて、動画像データから特徴量を抽出する。教示取得部15は、抽出した特徴量を入力情報とし、操作情報に含まれる状態カテゴリIDを出力情報とした組の前述した教示情報を生成して、モデル更新部16に出力する。U112の後、状態識別装置10の処理は、モデル更新部16にて行われるU113に進む。
U113において、モデル更新部16は、モデルの更新を行う。具体的には、モデル更新部16は、教示取得部15から教示情報が入力されると、教示情報に含まれている状態カテゴリIDと一致する状態カテゴリIDを有するモデルID及びパラメータw,bを、モデル記憶部M2から読み込む。そして、モデル更新部16は、前述したモデル更新方法を用い、教示情報とモデルの目的関数とに基づき、パラメータw,bを更新する。その後、モデル更新部16は、更新したパラメータw,bを、モデルIDと関連付けてモデル記憶部M2に記憶させる。U113の後、状態識別装置10の処理は、前述したU102に戻る。
以上説明したように、本実施形態において、状態識別装置10は、機械学習のモデルによる識別の結果を、状態マーク情報を用いてユーザに提示する。この状態マーク情報は、識別結果の意味を視覚的に表しているため、ユーザは、該モデルの識別の動作を直感的に理解することができる。これにより、ユーザは、画面上の複数の識別結果や、時間的な識別結果の変化を容易に確認することができる。
なお、状態識別装置10の状態識別部11は、識別した物体の動画像上の位置及び大きさを示す情報を、状態識別情報に含めて生成する。これにより、状態識別装置10の状態マーク描画部13は、該物体を隠さないように状態マーク画像を動画像に重畳することができる。そのため、ユーザは、物体の実際の状態と識別結果を表す状態マーク画像との比較により、モデルの識別動作の確認を直感的に行うことができる。
また、状態識別装置10のモデル更新部16は、ユーザにより操作された状態マーク画像に対応した教示情報に基づきモデルを更新する。すなわち、ユーザは、簡単な操作で学習モデルに対する教示を行うことができ、より多くの教示情報を状態識別装置10に提供することができる。また、状態識別装置10は、より多くの教示情報を取得することにより、学習の精度をより改善することができる。
また、状態識別装置10の状態マーク生成部12は、識別の確信度に基づき状態マーク画像の生成方法を変更してもよい。これにより、ユーザは、機械学習のモデルの識別結果に対する確信度合いを直感的に理解できる。そのため、ユーザは、機械学習のモデルに親近感を持ちながら、識別動作の確認することができる。例えば、ユーザは、機械学習のモデルについて確信がない場合、識別結果を注意深く確認することができる。
また、状態識別装置10の状態マーク候補生成部14は、状態マークの候補をユーザに提示する。そして、状態識別装置10の教示取得部15は、ユーザの状態マーク画像に対する「追加」及び「削除」の教示情報を取得する。これにより、ユーザは、簡単な操作で、識別結果の修正が出来るので、ユーザはより正確に、より多くの教示情報を状態識別装置10に提供することができる。
[第2の実施形態]
図9は、第2の実施形態に係る状態識別システム1aの構成の一例を示す構成図である。第2の実施形態の状態識別システム1aは、状態識別装置10aと、データ取得装置100と、端末装置200とを備えている。なお、第2の実施形態において、前述した第1の実施形態の各構成と同一の構成については、同一の参照符号を付してそれらの説明を省略する。以下、第2の実施形態では、状態識別システム1aにおいて、状態マーク画像の原画が学習データの中から選択される場合を例に挙げて説明する。つまり、第2の実施形態の状態識別装置10aの場合、状態マーク画像の原画が予めユーザにより設定されているわけではなく、自動的に学習データから選択される点において、第1の実施形態と異なる。ここでは、第1の実施形態と同様に、状態カテゴリの識別結果を表す情報を状態識別情報、状態マーク画像を表す情報を状態マーク情報と呼ぶ。
以下、第2の実施形態における状態識別装置10aの詳細な構成について説明する。
状態識別装置10aは、動画像データから物体の状態を識別するためのモデルを学習する装置である。状態識別装置10aは、前述した図1の状態識別装置10が備えている各構成に加えて、物体画像記憶部M3とマーク原画生成部17とを有している。
物体画像記憶部M3は、画像データを識別する画像データIDと関連付けて、状態カテゴリIDと画像データと特徴量を記憶する。ここで、画像データは、機械学習のモデルの学習用のデータから、前述の第1の実施形態で説明した物体検出方法を用いて検出された、物体のバウンディングボックス内の画像のデータである。また、特徴量は、前述の第1の実施形態の状態識別部11で説明した特徴抽出方法を用いて抽出された学習用データの特徴量である。また、状態カテゴリIDは、学習データの設定時に、予めユーザにより割り振られた状態カテゴリIDである。なお、検出された物体が、動画の一連の複数のフレーム内に存在する場合は、画像データとしては、代表的なフレームのバウンディングボックス内の画像のデータが選択されるものとする。ここで、代表的なフレームとしては、例えば、物体が検出された最初のフレームや、中間のフレーム、連続したフレームの中で物体が最大の大きさになっているフレームなどが選択される。
図10は、第2の実施形態における物体画像記憶部M3が記憶する情報の一例を表にして示した図である。図10に示すように、画像データIDは、例えば、アルファベット及び数字から成る文字列である。例えば、二つの画像データは、画像データID「I0001」と画像データID「I0002」の文字列により識別される。なお、図10では「I0002」の図示は省略されている。そして、図10の例の場合、物体画像記憶部M3には、例えば画像データID「I0001」に関連付けられて、状態カテゴリID「S0001」と画像データと特徴量とが格納されている。画像データは、図示しないが、例えばPNG(Portable Network Graphics)など標準的な画像フォーマットで保存された画像データである。特徴量は、図示しないが、第1の実施形態の状態識別部11で説明したHOG,HOF,Improved Dense Trajectory及びDeep Learningなどの特徴抽出方法で抽出された特徴量である。
図9に示した状態識別装置10aの構成の説明に戻る。
マーク原画生成部17は、モデルを学習するのに用いた代表的なデータに基づき、状態マーク画像の原画を生成する。具体的には、状態識別装置10aからマーク原画生成処理開始のトリガーが入力されると、マーク原画生成部17は、物体画像記憶部M3から状態カテゴリID毎に画像データと特徴量とを読み込む。なお、マーク原画生成処理開始のトリガーの詳細は省略するが、一例として所定時間のタイミングやユーザからの開始指示タイミングなどが挙げられる。そして、マーク原画生成部17は、物体画像記憶部M3から読み込んだ各状態カテゴリIDと一致する状態カテゴリIDを有するモデルのパラメータw,bを、モデル記憶部M2から読み込む。さらに、マーク原画生成部17は、モデル記憶部M2から読み込んだパラメータw,bに基づく機械学習のモデルで、物体画像記憶部M3から読み込んだ特徴量を識別し、その識別結果を生成する。そして、マーク原画生成部17は、生成した識別結果に基づき、所定の代表選択方法で、各カテゴリの代表の画像データを選択して、状態カテゴリIDと関連付けて、状態マーク原画記憶部M1に記憶させる。ここで、代表選択方法として、マーク原画生成部17は、例えば、各特徴量の正識別時の確信度に基づく選択方法を用いる。この確信度の計算方法としては、例えば、式(3)のようなサポートベクトルマシンの線形識別モデルと出力ラベルとの積が適用できる。
yi(wxi−b) ・・・式(3)
ここで、式(3)のyiは1又は−1の値を取る出力ラベルであり、wxi−bはサポートベクトルマシンの線形識別器の出力であり、識別境界より離れるほど大きい値をとる。これらyiとwxi−bの積は、線形識別器の出力の正負が正しければ、必ず正の値をとり、大きい値ほど識別境界から離れているため誤検出する可能性が低い。したがって、積の値が正に大きいほど、サポートベクトルマシンの識別に対する確信度が高いと考えられる。そして、マーク原画生成部17は、最大の確信度を取る画像データを、状態カテゴリID毎の状態マーク画像の原画として選択する。なお、マーク原画生成部17は、該画像データに対し、エッジ検出や、前景検出などの画像加工方法を用いて、状態の特徴を誇張及び強調してもよい。
次に、図11を参照して、第2の実施形態の状態識別システム1aにおける状態識別装置10aの動作について説明する。図11は、本実施形態の状態識別装置10aのマーク原画生成部17における状態マーク画像の生成処理動作の一例を示すフローチャートである。以下の説明では、図11のフローチャートの各処理ステップをC101〜C111として表している。なお、状態識別装置10aの他の構成における処理は前述した図8のフローチャートの処理と同様であるため、ここではその説明は省略する。
先ず、C101において、マーク原画生成部17は、状態カテゴリインデックスcを初期化する。具体的には、マーク原画生成部17は、状態識別装置10aからマーク原画生成処理開始のトリガーが入力されると、状態カテゴリインデックスcの値を0に初期化する。
次に、C102において、マーク原画生成部17は、画像データを読み込む。具体的には、マーク原画生成部17は、状態カテゴリインデックスcに予め対応付けられた状態カテゴリIDと一致する状態カテゴリIDを有する画像データと特徴量とを、物体画像記憶部M3から読み込む。
次に、C103において、マーク原画生成部17は、モデルのパラメータw,bを読み込む。具体的には、マーク原画生成部17は、状態カテゴリインデックスcに予め対応付けられた状態カテゴリIDと一致する状態カテゴリIDを有するパラメータw,bを、モデル記憶部M2から読み込む。
次に、マーク原画生成部17は、C104において画像データインデックスnの値を0に初期化した後、C105において画像データnの特徴量の確信度を計算する。具体的には、マーク原画生成部17は、読み込んだパラメータw,bに基づく機械学習のモデルを用いて、前述の式(3)のように、画像データnの特徴量に対する識別の確信度を計算する。そして、マーク原画生成部17は、C106において、画像データインデックスnに「1」を加算する。
次に、C107において、マーク原画生成部17は、画像データインデックスnの値が、物体画像記憶部M3から読み込んだ画像データ数N以上か否かを判定する。そして、C107において、画像データインデックスnが該画像データ数N以上であると判定(Yes)した場合、マーク原画生成部17は、処理をC108に進める。一方、画像データインデックスnの値が画像データ数N未満であると判定(No)した場合、マーク原画生成部17は、処理をC104に戻す。
C108に進むと、マーク原画生成部17は、確信度が最大の画像データを原画として選択する。具体的には、マーク原画生成部17は、状態カテゴリインデックスc毎に、確信度の最大値をとる画像データを、状態マーク画像の原画として選択する。
次に、C109において、マーク原画生成部17は、状態マーク画像の原画を状態マーク原画記憶部M1に記憶させる。具体的には、マーク原画生成部17は、選択した状態マーク画像の原画を、状態カテゴリIDと関連付けて、状態マーク原画記憶部M1に記憶させる。
次に、マーク原画生成部17は、C110において状態カテゴリインデックスcに「1」を加算した後、C111において状態カテゴリインデックスcが状態カテゴリ数C以上か否かを判定する。そして、C111において、状態カテゴリインデックスcが状態カテゴリ数C以上であると判定(Yes)した場合、マーク原画生成部17は、処理を終了する。一方、状態カテゴリインデックスcが状態カテゴリ数C未満であると判定(No)した場合、マーク原画生成部17は、処理をC102に戻す。
以上説明したように、第2の実施形態において、状態識別装置10aは、状態マーク画像の原画を、モデルの学習に用いたデータに基づき生成する。これにより、ユーザは予め状態マーク画像の原画を用意する必要がなくなり、ユーザの負荷が軽減されることになる。
[第3の実施形態]
図12は、第3の実施形態に係る状態識別システム1bの構成の一例を示す構成図である。第3の実施形態の状態識別システム1bは、状態識別装置10bと、データ取得装置100と、端末装置200とを備えている。なお、第3の実施形態において、前述した第1の実施形態の各構成と同一の構成については、同一の参照符号を付してそれらの説明を省略する。第3の実施形態では、状態識別システム1bにおいて、ユーザが、識別された各状態の物体の移動範囲を確認し、誤りがあれば修正する場合を例に挙げて説明する。本実施形態の状態識別システム1bは、リアルタイムに状態識別の結果をユーザに提示するのではなく、長期間の識別結果をまとめた状態マーク情報をユーザに提示し、ユーザからの教示情報を取得する点において、第1の実施形態とは異なる。つまり、第3の実施形態の場合、状態マーク情報には、識別した状態に加え、該状態の物体の移動範囲の情報も含まれる。ここでは、第1の実施形態と同様に、状態カテゴリの識別結果を表す情報を状態識別情報、状態マーク画像を表す情報を状態マーク情報と呼ぶ。
以下、第3の実施形態における状態識別装置10bの詳細な構成について説明する。
状態識別装置10bは、動画像データから物体の状態を識別するためのモデルを学習する装置である。第3の実施形態の状態識別装置10bは、状態識別部11b、状態マーク生成部12b、状態マーク描画部13b、教示取得部15b、モデル更新部16b、モデル記憶部M2bの各動作が、前述した図1の状態識別装置10の対応した各構成とは異なる。さらに、第3の実施形態の状態識別装置10bは、移動範囲生成部18を備えている。
モデル記憶部M2bは、機械学習のモデルを識別するモデルIDと関連付けて、該モデルの識別対象の状態カテゴリを識別する状態カテゴリIDと、該モデルのパラメータ情報と、該モデルによる識別対象の領域を示す識別対象領域情報とを記憶する。つまり、モデル記憶部M2bは、識別対象領域情報を保持する点において、第1の実施形態のモデル記憶部M2とは異なる。
状態識別部11bは、第1の実施形態の状態識別部11と同様に、データ取得装置100から動画像データが入力され、その動画像データから特徴量を抽出し、さらに物体を検出して、状態識別情報を生成する。ただし、状態識別部11bは、これらの処理を連続する各フレームで繰り返し、複数の状態識別情報を生成する点において、第1の実施形態の状態識別部11とは異なる。状態識別部11bは、生成した状態識別情報と、入力された動画像データとを、移動範囲生成部18に出力する。
移動範囲生成部18は、状態識別部11bにて識別された物体が移動する動画像上の範囲を示す移動範囲情報を生成する。具体的には、状態識別部11bから状態識別情報と動画像データとが入力されると、移動範囲生成部18は、その入力された状態識別情報に基づき、各状態カテゴリIDに対応した物体が移動する範囲を示す移動範囲情報を生成する。そして、移動範囲生成部18は、生成した移動範囲情報と入力された動画像データとを、状態マーク生成部12bに出力する。ここで、移動範囲情報の生成方法として、移動範囲生成部18は、例えば、状態識別情報に含まれる各状態カテゴリIDの複数のバウンディングボックスを、入力された動画像データから抽出した背景画像に重ねる。そして、移動範囲生成部18は、所定の閾値以上の枚数のバウンディングボックスが重なっている領域を、該状態カテゴリIDに対応した物体の移動範囲を示す移動範囲情報として生成する。ここで、背景画像とは、動画像データから人間などの移動体を取り除いた画像である。また、所定の閾値は、全ての状態カテゴリIDで共通の値が用いられてもよいし、状態カテゴリID毎に変更されてもよい。状態カテゴリ毎に閾値を変更する場合、閾値は、例えば状態カテゴリに対応するバウンディングボックスの値に対してある一定の値になるように設定されてもよい。また、移動範囲情報は、例えば、移動範囲に対応する動画像情報のピクセルを「1」、それ以外のピクセルを「0」とするマスク画像である。
状態マーク生成部12bは、状態識別情報と移動範囲情報とに基づき、状態マーク画像を生成する。具体的には、移動範囲生成部18から状態識別情報と動画像データと、移動範囲情報とが入力されると、状態マーク生成部12bは、状態識別情報に含まれる状態カテゴリIDに関連付けられた状態マーク画像情報を、状態マーク原画記憶部M1から読み込む。そして、状態マーク生成部12bは、入力された移動範囲情報に含まれているマスク画像に、読み込んだ状態マーク画像の原画情報を重畳して、各状態マーク画像を生成する。ここで、状態マーク画像の原画の位置や大きさは、対応する移動領域情報の領域からはみ出さないように調整される。そして、状態マーク生成部12bは、生成した状態マーク画像と、入力された動画像データと、状態識別情報とを、状態マーク描画部13bに出力する。
状態マーク描画部13bは、状態マーク生成部12bにより生成された状態マーク情報を動画像データに重畳する。具体的には、状態マーク生成部12bから状態マーク画像と状態識別情報と動画像データとが入力されると、状態マーク描画部13bは、入力された状態マーク画像を、状態識別情報に基づき動画像データに重畳する。この重畳方法として、状態マーク描画部13bは、入力された動画像データから抽出した背景画像に対して、状態カテゴリID毎の状態マーク画像であるマスク画像を重畳する。そして、状態マーク描画部13bは、生成した動画像データと、入力された状態識別情報とを、状態マーク候補生成部14に出力する。
図13は、端末装置200が表示する画面の構成の一例を示す図である。図13に示すように、端末装置200が備える表示部DSは、状態識別装置10bから入力された動画像データDS1と、状態マーク候補情報DS2とを表示する。また、図13に示すように、状態マーク描画部13bは、移動範囲情報に状態マーク画像の原画が重畳された状態マーク画像DS6,DS7,DS8を、動画像データから抽出した背景画像に重畳している。例えば、状態マーク画像DS8では、「左右に歩く」と「左右に走る」状態が識別された領域が示されている。
図12に示した状態識別装置10bの構成の説明に戻る。
教示取得部15bは、第1の実施形態の教示取得部15と同様に、状態マーク描画部13bが描画した状態マーク画像に対するユーザからの教示を示す教示情報を取得する。教示取得部15bにおいて、第1の実施形態の状態マーク描画部13と異なる点は、状態マーク画像の位置や大きさの変更に関するユーザからの教示情報を取得する点である。ここで、特定の状態マーク画像を縮小・拡大又は移動する操作は、例えば、後述する図14のユーザ操作US3やUS4の操作にそれぞれ対応している。具体的には、教示取得部15bは、ユーザから特定の状態マーク画像が選択され、位置や大きさを変更する操作を示す操作情報が、端末装置200から入力された時、操作情報に含まれる幾何情報及び状態カテゴリIDを取得する。この幾何情報には、例えば、状態マーク画像の位置及び大きさなどが含まれている。そして、教示取得部15bは、状態カテゴリIDの識別対象の動画像上の領域を示す識別対象領域情報を、教示情報として生成する。そして、教示取得部15bは、生成した教示情報を、モデル更新部16bに出力する。
モデル記憶部M2bは、機械学習のモデルを識別するモデルIDと関連付けて、該モデルの識別対象の状態カテゴリ識別する状態カテゴリIDと、該モデルのパラメータ情報と、該モデルによる識別対象の動画像上の領域を示す識別対象領域情報とを記憶する。つまり、モデル記憶部M2bは、識別対象領域情報を記憶する点において、第1の実施形態のモデル記憶部M2と異なる。
モデル更新部16bは、第1の実施形態のモデル更新部16と同様に、モデルのパラメータw,bを更新する。モデル更新部16bにおいて、第1の実施形態のモデル更新部16と異なる点は、教示情報に含まれる識別対象領域情報をモデル記憶部M2bに記憶させる点である。具体的には、モデル更新部16bは、読み込んだ各モデルIDの識別対象の状態カテゴリIDに対応する、識別対象領域情報を教示情報から取得する。そして、モデル更新部16bは、該識別対象領域情報を、モデルIDに関連付けてモデル記憶部M2bに記憶させる。ここで、識別対象領域情報は、例えばマスク画像で表されていて、複数の識別対象領域情報は、対応する複数のマスク画像の和を取ることにより結合される。
図14は、端末装置200の表示部DSが表示する画面において、ユーザによる教示操作の一例を示す図である。図14に示すように、操作検出部OPは、ユーザの指UFの動きに基づくユーザの操作を示す操作情報を検出する。例えば、ユーザの指UFが特定の状態マーク画像DS8を選択し、例えば縮小又は拡大する操作US3がなされた場合、操作検出部OPは、それらの操作を検出する。また、ユーザの指UFが特定の状態マーク画像を選択し、動画像データDS1上で移動する操作US4がなされ場合、操作検出部OPはその操作を検出する。
なお、第3の実施形態の状態識別システム1bにおける状態識別装置10bの動作は、前述した第1の実施形態の状態識別装置10の動作と基本的には同じであるため、説明は省略する。
以上説明したように、第3の実施形態の状態識別装置10bの移動範囲生成部18は、識別した物体の移動範囲を生成する。これにより、ユーザは、各状態の物体の移動範囲を直感的に理解できるため、ユーザが事前に把握している各状態の物体の移動範囲と比較して識別結果をより正確に確認することができる。
また、状態識別装置10bの教示取得部15bは、識別した状態の物体の移動範囲を表す状態マーク画像の位置や大きさなどに対するユーザの教示情報を取得する。これにより、ユーザは、簡単な操作で各状態が識別されるべき領域を設定することができる。
以上の第1〜第3の三つの実施形態で説明したように、ユーザは、親しみやすい状態マーク情報とのインタラクションを通して、より正確で多くの教示情報を状態識別装置(10,10a,10b)に提供することができる。そして、状態識別装置は、より多くのデータを用いて学習の精度を改善することができる。このようなユーザと状態識別装置との関係の相乗効果により、ユーザは、該モデルの挙動を直感的に理解し、親近感を持って機械学習モデルに教示することができる。また、それにより機械学習のモデルの精度及びユーザの満足度を向上させることができる。すなわち、前述した各実施形態によれば、動画像データに対する機械学習モデルによる識別結果の直感的な可視化及びユーザからのフィーバックに基づいた該モデルの学習精度改善が可能となる。
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。また、各実施形態は、上記の各実施形態が組み合わされて実施されてもよい。
また、上記の各実施形態においては、機械学習のモデルの学習に用いたデータとは異なるデータを用いて該モデルの動作確認をする例を説明したが、動作確認に学習に用いたデータを用いてもよい。
また、上記の各実施形態においては、複数の状態を識別する問題を例に挙げて説明したが、本発明の情報処理装置は、この発明の要旨を逸脱しない範囲内において一般的な識別問題に適用することが可能である。例えば、本発明の情報処理装置は、正常と異常を識別する異常検知の問題に適用することができる。
また、前述の各実施形態において、状態識別装置10,10a,10bは、状態マーク原画記憶部M1、モデル記憶部M2、物体画像記憶部M3等を備えていると説明したが、ネットワークを介したサーバ上や、他の装置がこれらの構成を備えてもよい。
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
前述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。