JP7463052B2 - 情報処理装置、情報処理システム、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7463052B2 JP7463052B2 JP2018174814A JP2018174814A JP7463052B2 JP 7463052 B2 JP7463052 B2 JP 7463052B2 JP 2018174814 A JP2018174814 A JP 2018174814A JP 2018174814 A JP2018174814 A JP 2018174814A JP 7463052 B2 JP7463052 B2 JP 7463052B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- recognition
- information processing
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 87
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims description 83
- 238000006243 chemical reaction Methods 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 52
- 230000008859 change Effects 0.000 claims description 51
- 238000001514 detection method Methods 0.000 claims description 46
- 238000003384 imaging method Methods 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 24
- 210000003128 head Anatomy 0.000 description 24
- 230000002159 abnormal effect Effects 0.000 description 18
- 230000005021 gait Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 12
- 238000012790 confirmation Methods 0.000 description 10
- 238000009434 installation Methods 0.000 description 9
- 230000005856 abnormality Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 210000001503 joint Anatomy 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 210000003127 knee Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 210000003423 ankle Anatomy 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 210000003414 extremity Anatomy 0.000 description 2
- 210000004394 hip joint Anatomy 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 102100038779 Arfaptin-2 Human genes 0.000 description 1
- 101100523290 Escherichia coli (strain K12) qorB gene Proteins 0.000 description 1
- 101000809446 Homo sapiens Arfaptin-2 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
- G06F18/41—Interactive pattern learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Description
例えば特許文献1においては、カメラの設置環境と認識に用いるパラメーターをデータベースとして保持し、新たなカメラでは環境が似通った別のカメラでの認識パラメーターを用いて認識を行う手法が提案されている。
また、特許文献2においては、顔の回転量、又は影、装飾品の状態に基づいて、予め用意した検出モデルを切り替える手法が提案されている。
また、特許文献3においては、カメラから撮影される映像を、正面から見たように変換して、その正規化した映像を認識に用いる手法が提案されている。
似たドメインのモデルが準備できない場合は、特許文献3の方法のように認識対象の映像、及び特徴量に正規化等の変換を行って、別のドメインで作られた認識のパラメーターを用いることはできる。しかし、変換の計算負荷が余計にかかり、また映像からの推定となるため誤差の混入は避けられず、認識精度を下げる要因となりうる。
そのため適応したいカメラのドメインで学習したモデルを用いて認識を行えることが望ましいが、再学習を行う場合はそのカメラの環境で学習データを収集する必要があり、収集が完了するまで認識を実施できないことが課題となる。
撮影部9901は、映像を撮影する。撮影部9901は、後述する撮影部101によって具体化される。
認識部9902は、撮影部9901が撮影した映像に対して認識処理を行う。認識部9902は、認識処理にはモデルを使用する。認識部9902は、後述する認識部103によって具体される。
モデル更新部9903は、認識部9902が使用するモデルを更新する。モデル更新部9903は、後述するモデル更新部111によって具体化される。
更新タイミング決定部9904は、モデル更新部9903が、モデルを更新するタイミングを決定する。更新タイミング決定部9904は、後述する更新タイミング決定部112によって具体化される。
S9801において、撮影部9901は、映像を撮影し、その映像を取得する。S9801は、後述するS306によって具体化される。
次に、S9802において、認識部9902は、S9801において取得された映像に対して認識処理を行う。S9802は、後述するS311によって具体化される。
次に、S9803において、更新タイミング決定部9904は、モデル更新部9903がモデルを更新するタイミングであるかどうかを判定する。更新タイミング決定部9904は、モデルを更新するタイミングでないと判定すればS9801に戻り、モデルを更新するタイミングであると判定すればS9804に進む。S9803は、後述するS322によって具体化される。
S9804においては、モデル更新部9903は、認識部9902が認識処理に利用するモデルを更新する。S9804は、後述するS323によって具体化される。モデル更新部9903は、S9804の次は、S201に戻る。
図3は、情報処理システムのシステム構成の一例を示す図である。
監視カメラ群001は、それぞれ監視すべき場所に設置され、映像を送信する。それぞれの監視カメラは監視に最適な画角を得るため、各々に適当な高さ、角度で設置される。
各々の監視カメラ及びシステム管理サーバー003、解析サーバー004、録画サーバー005は、カメラネットワーク002によって接続されている。カメラネットワーク002は、例えばLANによって構成される。カメラネットワーク002は、各々の監視カメラの映像を、システム管理サーバー003、解析サーバー004、録画サーバー005がそれぞれ取得できるよう構成されている。
システム管理サーバー003、解析サーバー004、録画サーバー005はカメラネットワーク002と異なるクライアントネットワーク007によってもそれぞれ通信可能に接続されている。クライアントネットワーク007は、例えばLANによって構成され、利用者はクライアントネットワーク007に閲覧端末008を接続する。閲覧端末008は、ディスプレイを備えた計算機であり、指定した監視カメラの映像をシステム管理サーバー003に要求して、システム管理サーバー003を通じて映像を取得して閲覧し、監視を行う。また、閲覧端末008は、録画サーバー005に記録された過去の映像を閲覧したり、解析サーバー004の解析結果を合わせて閲覧したり、通知を受け取ったりする。
解析サーバー004は、計算機であり、システム管理サーバー003による設定に従って、各々の監視カメラから送信される映像、又は録画サーバー005に記録された映像を解析する。解析サーバー004は、各々の監視カメラの設置個所に応じて、例えば、顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知等の認識処理を行い、結果を集計して、設定に従って利用者に通知する。本実施形態においては、映像中で異常な行動を取った人物を認識する方法について説明する。
録画サーバー005は、システム管理サーバー003による設定に従って、各々の監視カメラから取得した映像をストレージ006に記録し、システム管理サーバー003、解析サーバー004、閲覧端末008等の要求に従って記録した映像を送信する。また、録画サーバー005は、解析サーバー004の解析結果を示すメタデータ等も併せて保存する。
ストレージ006は、ハードディスク等の記録メディア及びMPU等によって構成される。記録メディアの代わりに、NAS(Network Attached Storage)、又はSAN(Storage Area Network)、又はクラウドサービス等のネットワーク上のストレージを用いてもよい。
本実施形態では監視カメラ群001、システム管理サーバー003、解析サーバー004、録画サーバー005、閲覧端末008は異なるコンピュータ装置としているが、これに限定されない。例えば、システム管理サーバー003、解析サーバー004、録画サーバー005を1つのサーバー装置の中のアプリケーション、又は仮想サーバーとして実現してもよい。また、システム管理サーバー003、又は解析サーバー004に閲覧端末008の機能を設けてもよい。また、解析サーバー004、録画サーバー005の機能を監視カメラ群001の各カメラ装置に搭載してもよい。
解析サーバー004は、ハードウェア構成として、CPU(Central Processing Unit)10、記憶部11、通信部12、を含む。
CPU10は、解析サーバー004の全体を制御する。記憶部11は、メモリ、又はハードディスク等の記録メディア等によって構成され、プログラム、画像等を記憶する。記録メディアの代わりに、解析サーバー004は、記憶部11としてNAS、又はSAN等のネットワーク上のストレージを用いてもよい。通信部12は、解析サーバー004をネットワーク等に接続し、他の装置との通信等を制御する。CPU10が記憶部11に記録されたプログラムに基づき処理を実行することによって、後述する図5、図6、図12に示す解析サーバー004の機能構成、及び図8、図13、図14、図16のフローチャートの解析サーバー004に関する情報処理が実現される。他の例としては、解析サーバー004の機能の少なくとも一部は、例えば複数のCPU、記憶部を協働させることにより実現してもよい。また、他の例としては、解析サーバー004の機能の少なくとも一部は、ハードウェア回路を用いて実現されてもよい。また、他の例としては、解析サーバー004の機能は、複数の装置が協働して実現されてもよい。
また、閲覧端末008のハードウェア構成は、解析サーバー004のハードウェア構成と同様のハードウェア構成を有すると共に、表示部及び入力部を更に有する。表示部は、液晶画面等で構成され、閲覧端末008のCPUによる処理結果、他のサーバーより受信したデータ等を表示する。入力部は、スイッチ及びタッチパネル等によって構成され、利用者による操作を感知して操作情報を入力する。タッチパネルの代わりにマウス、トラックボール等の他のポインティングデバイスが用いられてもよい。閲覧端末008のCPUが閲覧端末008の記憶部に記憶されたプログラムに基づき処理を実行することにより、後述する図5、図6、図12に示す閲覧端末008の機能構成が実現される。
情報処理システムは、撮影部101、特徴量抽出部102、認識部103、モデル学習部104、撮影環境管理部105、記憶処理部106、特徴量変換部107、モデル評価部108、表示処理部109、操作部110、モデル更新部111、更新タイミング決定部112、条件変動検出部113、を機能構成として、有する。
撮影部101は、図3に示す監視カメラ群001に対応する。撮影部101に含まれる監視カメラは、撮像素子及びレンズ、これらを駆動するモーター及び制御するMPU等によって構成される監視カメラであり、動画を撮影して電子データに変換する。撮影部101の監視カメラは複数、設置され、例えばLAN等のネットワークによって接続されている。
特徴量抽出部102は、撮影部101が撮影した映像から、特徴量を抽出する。
認識部103は、統計モデルを保持し、特徴量抽出部102が抽出した特徴量に対して、映像に含まれる対象の認識を行う。
モデル学習部104は、特徴量抽出部102で抽出された特徴量を教師データとして学習し、新たにモデルを作成する。
特徴量変換部107は、特徴量抽出部102で抽出された特徴量を変換して新たな特徴量を生成する。特徴量変換部107は、条件変動検出部113によって検出された、撮影に伴う条件の変動に基づいて特徴量の変換方法を決定する。
本実施形態においては、モデルは混合ガウス分布モデルを用いて、分布関数に特徴量の値を代入して得られる値を認識スコアとする。モデル評価部108は、モデルMを用いた際の特徴量xの認識スコアS(x;M)を以下の式で計算する。
但し、モデルはこれに限らず、例えばニューラルネットワーク、又は最近傍モデルでもよい。
モデル更新部111は、認識部103が保持する統計モデルを、更新タイミング決定部112に従って更新する。
更新タイミング決定部112は、モデル更新部111がモデルを更新するタイミングを決定する。
条件変動検出部113は、撮影部101に含まれる2つの監視カメラ、又は異なる時刻の監視カメラについて、撮影に伴う条件が変動しているかどうかを行うかどうかを判定する。
撮影環境管理部105は、撮影部101のそれぞれの監視カメラの設置状況から定まる撮影環境を管理する。本実施形態における撮影環境には監視カメラのPTZ角、設置高さを含む。また、撮影環境管理部105は、各監視カメラにおいて認識部103が利用するための統計モデルを、各監視カメラに紐づけて保持し、認識部103等の撮影環境取得のリクエストに応じて撮影環境の情報の送信を行う。
記憶処理部106は、図3に示す録画サーバー005に含まれる。
記憶処理部106は、撮影部101が撮影した映像、特徴量抽出部102が抽出した特徴量、認識部103が認識を行った結果の情報、モデル学習部104が作成したモデル、撮影環境管理部105が管理する撮影環境、及びモデル等をストレージ006に保存する。また、記憶処理部106は、これらの関係を表現する情報、及び作成時刻等のメタデータもあわせてストレージ006に保存する。
表示処理部109は、利用者に情報を提示し、また操作を行うユーザーインターフェース(UI)画面を作成して表示部に表示する。
操作部110は、入力部を介した利用者による操作を感知して情報処理システムに入力する。
本実施形態においては映像から異常行動を認識する装置を用いて説明するが、認識対象はこれに限らない。例えば映像から特定の人物、又は車種等を検出したり、イベント、又は時間帯等を認識したりしてもよいし、また認識の対象が映像でなく音声及び文書の何れか又は双方であってもよい。
図7の(a)、(b)、(c)は、撮影部101で撮影している映像を表示処理部109が表示部に表示している状態の例を示す模式図である。撮影部101は監視カメラとして監視対象箇所に設置され、表示部にライブ映像が表示される。利用者は映像を見て、監視対象箇所に異常が発生しないかを監視している。
図7(a)は、最近追加で設置した新設監視カメラの映像を監視する画面表示の一例を示す図である。認識部103は、人物202及び203のような映像中に出現する人物について異常かどうかを判定し、異常の場合はそのことを通知する。ここでは人物203が転倒したので、その人物の外枠と警報表示204とが表示部に表示される。
情報処理システムは、この新設監視カメラにおいて、転倒の認識を、他の異なる監視カメラをリファレンスとして、リファレンスカメラで作られた統計モデルを用いて行う。即ち人物203が転倒したことと、人物202が転倒していないことは、リファレンスカメラでの事例に基づいて作られたモデルを、新設監視カメラのドメインに適用することで判定された結果である。
一方で、モデル学習部104は、新設監視カメラで得られた人物202及び人物203のような人物データを用いて、監視の運用を行っている間、バックグラウンドで新たなモデルを学習している。棒グラフ205は、モデルの学習の進捗を表す棒グラフである。図7(a)のようにモデルの学習の進捗が充分に進んでいない場合は、情報処理システムは、リファレンスモデルでの認識結果を優先し、新しいモデルについては学習の進捗のみを表示する。
情報処理システムは、同じ認識結果を示した場合は特に何も表示しないが、スコアの差が大きい場合、及びスコアが極端に小さい場合等は確認を求めるようにしてもよいし、一方が異常を示した場合はすべて確認を求めるようにしてもよい。また、情報処理システムは、学習の進捗に応じて挙動を変えるようにしてもよい。
利用者は提示された情報から判断して、モデルを更新して以降新しいモデルを使うと判断すれば「はい」、学習が不十分で追加学習が必要と判断すれば「学習継続」、何らかの原因で誤りが非常に多い等更新すべきでないと判断すれば「中止」を選択する。
利用者は、撮影部101の一部となる新設監視カメラを設置し、撮影環境管理部105に登録する。
S302において、撮影環境管理部105は、新設監視カメラのカメラパラメーターを取得する。カメラパラメーターには新設監視カメラの高さ及び水平面に対する撮像方向の角度を含む。
S303において、撮影環境管理部105は、リファレンスカメラとして新設監視カメラとは異なる監視カメラを一つ選択する。
撮影環境管理部105は、後述する学習済みフラグが既に立っている、即ちモデル学習部104の学習が完了している監視カメラを検索する。そして、撮影環境管理部105は、カメラパラメーターを比較して、類似しているものを選択する。
S324において、条件変動検出部113は、新設監視カメラのカメラパラメーターとリファレンスカメラのカメラパラメーターとを比較し、2つの監視カメラの撮影条件に変動があるかどうかを判定する。条件変動検出部113は、水平面に対する俯角の大きさと監視カメラの設置高さとを比較して、俯角の大きさの差が5度以内、かつ、高さの差が10cmであれば、同じ撮影条件であり変動がないと判定し、そうでなければ撮影条件に変動があると判定する。条件変動検出部113は、変動がないと判定すればS325に進み、あると判定すればS305に進む。
撮影条件に変動があるかどうかを判定する方法はここで示したものに限らず、例えば、条件変動検出部113は、被写界深度、又はホワイトバランス等の監視カメラの設定の比較を加えてもよい。また、条件変動検出部113は、それぞれの監視カメラで撮影した背景画像を画像比較して、差の大きさで変動を判定する等してもよい。
S325においては、条件変動検出部113は、学習済みフラグを立ててS306に進む。即ち、条件変動検出部113は、撮影条件の変動が小さいためリファレンスカメラのモデルをそのまま使えると判定して、後述するS315以降の学習処理を行わないようにする。
S305においては、特徴量変換部107は、新設監視カメラのカメラパラメーターとリファレンスカメラのカメラパラメーターとを比較して、特徴量の変換方法を決定する。
図9(a)は、撮影部101が撮影した映像のフレーム画像の一例を示す模式図である。縦に長い廊下が映っており、人物402が歩いている。特徴量変換部107は、この画像にまず、例えばFaster-RCNN等の人物検出を行って人物に外接する矩形を検出する。そして、特徴量変換部107は、図9(b)のように、検出した人物のそれぞれについて、例えば非特許文献1に記載されている手法等を用いて、画像中の関節位置を推定する。特徴量変換部107は、頭頂、首、右肩、右ひじ、右手首、左肩、左ひじ、左手首、胴体中心、腰部中心、右股関節、右ひざ、右足首、左股関節、左ひざ、左足首の16点を検出する(便宜上、頭頂も関節と呼ぶことにする)。検出する関節はここで挙げたものに限らず、手指の各関節及び脊椎の各椎骨についても対象としたり、逆に例えばひじとひざとを省略して単純化したりしてもよい。
各関節は、図9(c)のように人物検出した矩形の内部の点であり、左上を(0,0)、横辺の長さを1とする座標で表現する。横辺の長さを1に正規化するのは撮影時の人物のサイズを吸収するためであるが、サイズ情報が重要と考えられる場合には正規化をしないようにしてもよい。これらの座標値を順に並べた32次元実ベクトルを本実施形態における特徴量とする。
図10(イ)は、撮影部101で撮影された2D映像である。特徴量変換部107は、ある2つの関節を選び、それぞれの監視カメラに対する距離及び角度と、2つの関節間の長さとを推定する。これは3D空間上の関節位置の推定に用いられる。ここでは頭頂と胴体中心とを用いることにする。これは後述するように頭部を用いて監視カメラへの距離を推定することと、頭部と胴体との位置関係は手足と比較して相対位置の変化が小さいためである。
特徴量変換部107は、2D映像の垂直方向について推定する。特徴量変換部107は、2D映像中における、頭部の大きさDと、頭頂と胴体中心との高さ方向の長さA、頭頂から画面上端までの高さ方向の長さB、胴体中心から画面下端までの高さ方向の長さCを測定する。
次に、特徴量変換部107は、頭部の大きさDから、頭部から監視カメラまでの距離Lを求める。頭部は比較的球形に近く、個人差が身長及び四肢長よりも比較的小さいため、同じサイズで映っている頭部は角度によらずほぼ同じ距離にあると考えられる。事前に標準的なサイズの頭部又はその模型を様々なカメラ距離に置いて2D映像を撮影して、その高さを調べることによってDからLへの換算表を作成することができる。特徴量変換部107は、予め換算表をテーブルとして保持し、それを用いてDからLを求める。
点Pは人物の頭頂の位置である。線分OPの長さは先ほど求めたLである。点Q'は実際の胴体中心の位置である。点Oから画角中心の方向へ延びる直線に垂直な面のうち、点Pを通過するものを面Kとして、面Kに対する点Oから画角中心の方向へ延びる直線の足をHとする。2D映像501は面K上への投影像と考える。直線OHと直線R1R2とは垂直であり、角OR1Hと角OR2Hとの大きさは同じである。点Qは、胴体中心の点Q'の面Kへの投影点である。また、面Kと直線OS1との交点をそれぞれ点R1、面Kと直線OS2との交点を点R2とする。
線分PQ、線分PR1、線分QR2は、2D映像501における頭部中心を通る垂線に対応し、長さをそれぞれa,b,cとすると、その比a:b:cはA:B:Cと等しくなる。この条件で角POR1=φ、角QOR2=ψをそれぞれ求める。
線分OHの長さをL'とすると、長さa,b,cは以下のように表せる。
求めるのは頭頂の画角正面に対する角度の大きさωである。水平画角の大きさΩは監視カメラの設定により既知とする。また、頭頂から近い方の左右端までの2D映像における長さをE、頭頂から画角正面(2D映像を等分割する垂直方向の直線)までの2D映像における長さをFとする。
このとき、頭頂の中心に対する角度ωは以下のように求められる。
S306において、撮影部101は、撮影中の映像を静止画像の電子データに変換して、現在のフレーム画像を作成する。S306以降のフローチャートは、撮影部101から映像の1フレームが入力される度に情報処理システムが実行する処理を表す。情報処理システムは、以降の処理を毎フレーム行わずに、例えば10フレームおきに処理を行い、残りの9フレーム分は読み捨てるようにしてもよいし、処理負荷に応じて変更してもよい。特に後述する学習済みフラグが立ち、S310の処理及びS315以降の処理が不要となってから処理の頻度を上げるようにしてもよい。
S307において、特徴量抽出部102は、画像から特徴量の検出対象となる人物を検出する。人物検出は、例えばFaster-RCNN等の公知の一般物体検出を用いて行う。
S308において、特徴量抽出部102は、S307で検出されたそれぞれの人物の特徴量を抽出する。
S310において、モデル学習部104は、S308で抽出されたそれぞれの特徴量を、S305で決定された変換方法に従って変換する。この変換によって、リファレンスカメラの撮影環境から見た姿勢の特徴量となることで、リファレンスカメラのモデルで認識することができる。S308で抽出したままの特徴量も以下の処理で使用するため、モデル学習部104は、変換後の特徴量とは別に保持しておく。
即ち、学習済みフラグが立っていない状態では、認識部103は、S310で変換された特徴量(リファレンスカメラの撮影環境へ変換された特徴量)に対して、S304で取得し、保持するリファレンスカメラのモデルを用いて認識を行う。一方、学習済みフラグが立った状態では、認識部103は、S308で抽出された特徴量そのものについて、後述するS317で保持するようになった、モデル学習部104で作成されたモデルを用いて認識を行う。つまり、新しい監視カメラの撮影環境における特徴量とモデルとが用いられる。
何れにせよ、認識は特徴量xとモデルMとについて、スコアS(x;M)を計算することにより行われる。スコアが所定の閾値、例えば0.7より小さければ「異常」、そうでなければ「正常」として検出される。リファレンスカメラのモデルを使う場合と、モデル学習部104で作成されたモデルを使う場合とで、閾値を変えるようにしてもよいし、その他の認識パラメーターを変更するようにしてもよい。
S313において、表示処理部109は、表示部に異常を表示する。
S314において、認識部103は、後述するS317によって立てられる学習済みフラグが立っているかどうかを判定する。認識部103は、学習済みフラグが立っている場合はそのままS306に戻って次の映像フレームの処理に移り、そうでなければS315に進んで、これ以降、学習中のモデルの学習を進行する手順に入る。
S315においては、更新タイミング決定部112は、学習中モデルの学習の進捗が所定の基準以上に達しているかどうかを判定する。更新タイミング決定部112は、学習中モデルの学習の進捗が所定の基準以上に達していればS316に進み、達していなければS319に進む。
モデル評価部108は、学習中モデルを評価し、その認識精度pと、予め定めた目標認識精度Pとの比較によって進捗度合いを抽出し、その値によってモデルの学習の進捗を定める。モデル評価部108は、進捗度合いを(1-p)/(1-P)で求める。例えばp=80%、P=95%であれば進捗度合いは25%となる。更新タイミング決定部112は、進捗度合いが所定の基準値、例えば70%に達すれば、学習中モデルがある程度信用できる水準まで学習が進んだと判定して、リファレンスモデルと異なる結果について利用者に確認を求めることを開始する。
後述するS319において、まだ初期モデルが作成されていない段階である場合は、モデル評価部108は、基準未満と判定する。
S317において、認識部103は、S311で行ったリファレンスモデルでの異常検知の結果と、ステップ316で行った学習中モデルでの異常検知の結果と、を比較して、異なる結果を得た特徴量があるかどうかを判定する。認識部103は、異なる結果を得た特徴量があった場合はS318に進んでからS319に進み、ない場合はそのままS319に進む。
S318においては、表示処理部109は、S317でリファレンスモデルと異なると判定された特徴量のデータについて、確認ダイアログ208に示したような利用者に確認を求める表示を提示する。提示する情報には、対象の特徴量の元となった映像と、2つの結果がどのように食い違ったか示す情報と、を含む。利用者は提示された情報をもとに判定して、入力部を介して実際に「正常」であったか「異常」であったかを入力する。操作部110は、入力された「正常」であったか「異常」であったかの情報を、記憶処理部106を介して記憶部11に記憶する。S317でリファレンスモデルと異なると判定された特徴量のすべてについて表示、及び記憶が完了すると、S318に進む。
ここでは最終的な認識結果が「正常」と「異常」とで異なる特徴量について確認を行うとしたが、これに限るものではない。例えば、スコアの差が大きい場合、又はスコアが極端に小さい場合、又はスコアに関わらず一方又は両方の結果が異常を示した場合等に確認を求めるようにしてもよい。また、S315で求めた学習の進捗に応じて挙動を変えるようにしてもよい。
モデル学習部104は、学習の初期においては特徴量を蓄積しておき、例えば1000個の特徴量が集まった時点でそれらの平均と分散共分散行列とを求めて初期モデルとしてのガウス分布を作成し、それ以降から追加学習を行う。
また、モデル学習部104は、S311における検出結果が「正常」であった特徴量を学習するのではなく、例えばスコアS(x;M)の値が例えば0.75よりも大きかったものに限って学習するようにしてもよい。これによって正常である可能性がより高いものに学習対象を限ることで誤りの混入が避けられる反面、識別境界のデータが不足する可能性もある。
S320において、更新タイミング決定部112は、モデル学習部104の学習が完了したかどうかを判定する。更新タイミング決定部112は、S315と同様に、モデル評価部108で学習後のモデルを評価して、進捗が100%になれば学習が完了したと判定する。更新タイミング決定部112は、学習が完了したと判定した場合はS321に進み、完了していなければS306に戻る。
更新タイミング決定部112は、精度ではなく学習の収束性によって学習完了を判定してもよい。例えば、更新タイミング決定部112は、S319で学習した前後のモデルで、追加した特徴量の対数尤度を計算して比較し、その差の絶対値が例えば0.01未満ならば収束と判定して学習完了としてもよい。
S322において、モデル更新部111は、利用者が入力した情報に基づき、「交換する」ならばS323に進み、そうでなければS306に戻る。モデル更新部111は、「学習継続」の場合はそのまま戻り学習を継続するが、「中止」の場合は学習済みフラグのみを立ててから戻る。これによって以降のフローチャートの処理において、学習中モデルの学習が進行せず、リファレンスモデルが使われ続けるようになる。
S323において、モデル更新部111は、学習済みフラグと変換不要フラグとを共に立てて、かつ、認識部103が保持するモデルをS315で学習が完了したモデルに更新する。
このようにして、S323が実行された後は、S309で変換不要と判定され、かつ、S314で学習済みと判定されるようになるため、S310及びS315からS317までが実行されなくなる。即ち、S311ではリファレンス環境に変換した特徴量ではなく、新設監視カメラの撮影環境で得られた特徴量をそのまま用いて、かつ、S315で新設監視カメラの撮影環境で学習したモデルを用いて認識を行うようになる。
本実施形態では学習中のモデルの評価に基づいて学習の進捗を判定し、モデルの性能が充分に高いと評価されたタイミングによってモデルを更新しているが、モデル更新のタイミングの定め方はこれに限らない。例えば1万個等、一定数以上の特徴量を学習した時点で更新するとしてもよいし、学習開始から1週間経過した時点で更新するとしてもよい。また、監視対象個所の照明変動等の環境変動を検出して、環境の変動が小さい状態で例えば1週間経過すれば更新する、等としてもよい。これらの条件を組み合わせてもよいし、その組み合わせ方を利用者の入力によって定めてもよい。
実施形態1では監視カメラの姿勢に基づいて、人体の姿勢特徴量を回転によって変化させる方法を説明した。しかし、撮影環境の差異の内容によっては単純な特徴量の変換では足りず、映像処理によってリファレンス環境に近づけることを要することがある。
本実施形態では、顔画像を用いて、「異常」な人物、即ち非登録の部外者を検出するシステムについて説明する。本実施形態では、実施形態1に対して追加又は変更する部分について説明し、共通部分については説明を省略する。
撮影部101は、映像601のような映像を撮影し、人物の顔602を検出すると、その顔の部分を顔画像603として切り出す。撮影部101の監視カメラが上方から見下ろす画角で設置されているため、顔画像603の顔はやや下向きで、また照明条件によって陰影604のような陰影が付いている。
本実施形態では、情報処理システムは、このような顔画像を、605のように正面向きに正規化する。正規化した顔画像から目及び口等の顔パーツを検出し、それらの端点から606のような特徴点を検出して、特徴点集合607を作成する。これを特徴量として、情報処理システムは、予め登録した人物の正面顔から同様に作成した特徴量のモデルと比較することによって、登録済みの人物の顔であるかどうかを判定する。
一方で、情報処理システムは、正規化前の顔画像603からも同様に特徴点検出を行って、カメラ視点での特徴点集合609を作成する。情報処理システムは、正規化した特徴点集合607を用いて人物を同定した結果を用いて、カメラ視点での同人物の特徴点集合609を収集してモデルを作成することで、顔画像603からそのまま認識を可能にする。
また、本実施形態では人物ごとにモデルを作成することになるため、それぞれを一から作ると効率がよくない。そのため、他の監視カメラで作られた特徴量の辞書を利用する。即ち、情報処理システムは、他の監視カメラで作られたモデルをベースとして追加学習を行うことによって新しいモデルを作成する。また、情報処理システムは、類似した撮影環境にある監視カメラが複数ある場合、それぞれをベースモデルとしてモデル候補を複数学習して、評価のよいものを選ぶことで、認識に適したベースモデルを選び出す。
映像変換部711は、撮影部101が撮影した映像を変換した映像を出力する。本実施形態においては、映像変換部711は、正面以外を向いた人物の顔の画像を、CNN(Convolutional Neural Network)等の公知の手法を用いて、正面を向いた時の画像を推定して出力する。特徴量抽出部102は、撮影部101が撮影した映像及び、映像変換部711が変換した映像に対して特徴量の抽出を行う。
本実施形態のフローチャートの処理は、S324までは図8と同様である。但し、S304で撮影環境管理部105が取得するリファレンスカメラのモデルは、登録された人物ごとに設けられた混合ガウス分布モデルである。また、S324においては、条件変動検出部113は、監視カメラの俯角と高さとに加えて、照明条件の変動があるかどうかも判定する。条件変動検出部113は、それぞれの監視カメラから撮影された背景画像の色温度を計算して、その差が例えば1000K以上であれば照明条件に変動があったと判定する。S324で、条件変動検出部113は、条件変動があったと判定すると、S801に進む。
S801において、モデル学習部104は、撮影環境管理部105が管理するカメラ環境を取得して、類似した環境にある監視カメラに対応するモデルをベースモデルとして取得する。モデル学習部104は、後述するS805においてここで取得したベースモデルを初期モデルとして学習する。類似した環境にある監視カメラが複数あれば、モデル学習部104は、ベースモデルも複数取得する。
S803において、映像変換部711は、S307で検出された人物の頭部の画像を変換して、正面向きに正規化する。
S804において、特徴量抽出部102は、顔画像から特徴量を抽出する。特徴量抽出部102は、S803で顔画像の変換が行われなかった場合はS307で検出された人物の頭部の画像から抽出し、行われた場合はS803で変換された画像から抽出する。
次にS311に進み、本実施形態では、認識部103は、S804で抽出された特徴量について人物の同定を行い、登録済みの人物かどうかを判定する。そして、認識部103は、登録済みの人物でない場合は「異常」な人物であるという結果を保持する。
S314で、認識部103は、モデル学習済みフラグが立っていなかった場合は、S805に進む。
S805において、モデル学習部104は、モデルの学習を行う。学習の方法は図14を用いて説明する。
S901において、モデル学習部104は、学習中のベースモデルから一つを選ぶ。ここでは選択の順序は重要ではない。
S902において、モデル学習部104は、S315と同様に、選択したベースモデルの学習の進捗が所定の基準以上に達しているかどうかを判定する。モデル学習部104は、選択したベースモデルの学習の進捗が所定の基準以上に達していれば精度をチェックするためS903に進み、達していなければ特徴量の学習を継続するためS907に進む。
例外として、学習中のベースモデルが1つしかない場合は、精度によらずその学習モデルの学習を継続するため、モデル学習部104は、学習の進捗が所定の基準以上に達していてもS907に進むようにする。このケースはもともと類似した環境にある監視カメラが1つしかない場合に加え、後述するS906の処理によってベースモデルが破棄された結果、1つしか残っていない場合にも発生する。
S903においては、認識部103は、S307で検出された人物について、変換前の画像から抽出した特徴量について、学習中モデルを用いてS311と同様に認識を行って異常検知する。S903の処理は、S316と同様、学習中モデルにおける性能の確認のために行う。
S904において、モデル学習部104は、S311で行ったリファレンスモデルでの異常検知の結果と、S903で行った学習中モデルでの異常検知の結果と、を比較して、異なる結果を得た特徴量の数を累計して集計する。
S906においては、モデル学習部104は、現在のベースモデルを精度が基準に達する見込みがないものとして、破棄してベースモデルから除く。そして、モデル学習部104は、S910に進む。
S907においては、モデル学習部104は、未選択の特徴量を一つ選択する。ここでは選択の順序は重要ではない。
S908において、モデル学習部104は、S907で選択した特徴量を、S311でその特徴量について同定を行った人物として、モデルに追加して学習する。「異常」な人物であった場合は、モデル学習部104は、学習を行わない。但し、モデル学習部104は、「異常」な人物のモデルを学習してもよいし、新しい人物であるとして新たにモデルを学習するようにしてもよい。
S909において、モデル学習部104は、S907でまだ選択されていない特徴量があるかどうかを判定する。モデル学習部104は、S907でまだ選択されていない特徴量がある場合はS907に戻って処理を繰り返し、すべての特徴量の選択が完了するとS910に進む。
S910においては、モデル学習部104は、S901でまだ選択されていないベースモデルがあるかどうかを判定する。モデル学習部104は、S901でまだ選択されていないベースモデルがある場合はS901に戻って処理を繰り返し、すべてのベースモデルの選択が完了すると、図14のフローチャートの処理を終了する。
実施形態1及び実施形態2では、監視カメラの撮影環境に由来するドメイン変化へ対応する方法を説明した。しかし、頻出する被写体の条件に基づいてドメインが変化する場合もある。
本実施形態では、歩容解析を用いた非登録の部外者を検出する方法で、被写体の条件に対して適応する情報システムについて説明する。
実施形態3では、実施形態2に対して追加又は変更する部分について説明し、共通部分については説明を省略する。
本実施形態の情報処理システムの設置状況と目的とについて説明する。設置場所は複数の区画に分けられる建造物であり、各区画について入場管理が行われている。監視カメラは各区画にそれぞれ数台ずつ設置されており、撮影された映像中の人物が、登録済みの人物であるかどうかを歩容解析によって判定し、未登録の人物を検出すると異常を通知する。
各区画の人物は区画ごとに異なる制服を着用しており、映像的な特徴が異なる。例えば裾の長さが違う等の影響によって、異なる制服の場合には同一人物でも歩容の特徴が偏った分布を伴って現れる可能性がある。そのため、出現する人物の制服が異なる環境の監視カメラをリファレンスにしなければならない場合は、人物画像の服装をリファレンス環境の制服に変換することによって、分布の違いを吸収する。
撮影部101は、区画Aの監視カメラで1101のような映像を撮影する。情報処理システムは、区画Aにおける制服Aを着た人物1102を検出すると、人物の部分を人物画像1103として切り出し、切り出した画像を系列にして歩容特徴量1104を抽出する。すると、情報処理システムは、人物1102のモデル1105を学習し、学習が完了した後は人物1102の判定に用いる。
ここで、人物1102の配置が換わって区画Bに移り、異なる制服Bを着るようになったものとする。区画Bの監視カメラで1106のような映像を撮影する。そして、情報処理システムは、同様に歩容解析を行いたい。そのため、情報処理システムは、人物1102のモデルを保持する区画Aの監視カメラからモデル1105を取得するが、制服の変化のために歩容の分布が変化している可能性がある。
そのため、情報処理システムは、区画Aの監視カメラからモデル1105のコピーを取得して、区画B監視カメラ用モデル1110を作成する。区画Bにおいては、情報処理システムは、切り出した人物画像1107に対して、CNNを用いて画像変換を行い、制服Bを着た人物の映像を制服Aに変換した画像1108を作成する。そして、情報処理システムは、区画Bの監視カメラの歩容特徴量1109を抽出して、区画B監視カメラ用モデル1110を用いて歩容解析する。
区画Aの監視カメラから取得したモデル1105、及び取得したばかりの初期の区画B監視カメラ用モデル1110は歩容のモデルであって、直接には制服Aを表現しないが、制服Aに偏って学習が行われているために、予期しない影響がある可能性がある。そのため制服Bのデータを加えてロバスト化を行っている。
本実施形態においては、モデルを一から入れ替えるのではなくリファレンスモデルへの追加学習の形で適応を行い、追加学習中のモデルとリファレンスモデルとを並行して用いる。また、この適応は利用者が意識しない形で自動的に行うようにする。
本実施形態に係る情報処理システムの機能構成は、図12に示した実施形態2と同様である。但し、本実施形態において、特徴量抽出部102は、脚部の移動についての振動数等、歩容解析に適した特徴量を抽出する。そして、認識部103は、その特徴量を用いて登録済みの人物の歩容であるかどうかを判定することによって異常検知を行う。
また、映像変換部711は、CNN等を用いて、映像中に含まれる人物を、所定の服装を着用しているように変換する。
本実施形態においては、S302までは図13と同様である。S302の次はS1201に進む。
S1201においては、モデル学習部104は、撮影部101で撮影された人物について服装を推定して、同様の服装をした人物が多い監視カメラを優先してリファレンスカメラとして選択する。同様の服装をした人物がいない場合は、モデル学習部104は、カメラパラメーターが類似した監視カメラを選択する。
S1201の次はS304に進んで、撮影環境管理部105は、リファレンスカメラのモデルとカメラパラメーターとを取得する。
S304の次はS324に進み、条件変動検出部113は、リファレンスモデルについて以降の学習を行うかどうかを判定する。即ち、条件変動検出部113は、先ほどのS1201において、同様の服装をした人物が多い監視カメラが優先して選択されたかどうかを判定し、同様の服装をした人物が多い監視カメラが優先して選択されていない場合に学習を行うことを決定する。条件変動検出部113は、学習を行うと判定すればS306に進み、そうでない場合はS325に進む。S325において、条件変動検出部113は、学習済みフラグを立ててS306に進む。学習を行わない場合は、リファレンスモデルをそのまま用いて認識を行うことになる。
本実施形態では、条件変動検出部113は、被写体の属性の一例として被写体の人物の服装に基づいて条件変動を検出している。しかし、これに限るものではなく、例えば、条件変動検出部113は、年齢、性別、人種、携帯する物品等の被写体の属性を用いて条件変動を検出してもよい。また、人物に限らなくともよく、例えば被写体を車として、特定の車種が多いかどうかによって条件変動を検出する場合も同様の方法を用いることができる。
本実施形態におけるS314において、認識部103は、モデルが学習済みでないと判定した場合は、図8と同様のS315に進む。ここからS319までは、S317とS318とを省略することを除いて図8と同様である。本実施形態でS317とS318とを除くのは、利用者が意識しない形で自動的にモデルの更新を行うためである。
本実施形態におけるS319において、モデル学習部104は、リファレンスカメラから取得したモデルに対して直接追加学習を行い、一つのモデルについて順次学習を進捗させる形をとる。次のS320において、更新タイミング決定部112は、学習が充分であると判定するとS1204に進む。
S1204においては、モデル更新部111は、学習済みフラグと変換不要フラグとを立てる。本実施形態の情報処理システムは、S323と異なりモデルの交換は行わず、以降は学習済みのモデルに対して、変換を行わずに認識を行うようにする。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
例えば、上述した機能構成の一部又はすべてはハードウェア構成として各装置に実装されてもよい。
10 CPU
11 記憶部
Claims (23)
- 撮像手段で撮像された映像に対して認識処理を行う認識手段と、
前記認識処理の対象の条件の変動を検出する第1の検出手段と、
前記映像から第1の特徴量を抽出する第1の抽出手段と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第1の特徴量を変換することにより、当該変動量に応じた第2の特徴量を抽出する第2の抽出手段と、
前記認識処理の結果に基づいて、当該認識処理に用いる第1のモデルの更新に使用する第2のモデルを前記第2の特徴量を用いて作成する学習手段と、
前記第2のモデルの学習状況を評価する評価手段と、
前記評価手段による前記第2のモデルの学習状況の評価結果に基づき、前記第1のモデルを前記第2のモデルに更新するタイミングを決定する決定手段と、
前記決定手段により決定された前記タイミングで前記第1のモデルを前記第2のモデルに更新する更新手段と、
を有する情報処理装置。 - 前記認識処理の対象の条件の変動量は、前記撮像手段が映像を撮像する方向の角度であることを特徴とする請求項1記載の情報処理装置。
- 前記学習手段は、前記第1のモデルに追加学習を行って前記第2のモデルを作成する請求項1又は2記載の情報処理装置。
- 前記撮像手段の撮像に伴う条件の変動を検出する第2の検出手段を更に有し、
前記決定手段は、前記撮像に伴う条件の変動に基づいて前記更新のタイミングを決定する請求項1又は2記載の情報処理装置。 - 前記撮像手段が前記映像を撮像する撮像環境を取得する取得手段を更に有し、
前記第2の検出手段は、前記撮像環境に基づいて前記撮像に伴う条件の変動を検出する請求項4記載の情報処理装置。 - 前記決定手段は、前記認識処理の対象の条件の変動に基づいて前記更新のタイミングを決定する請求項1又は2記載の情報処理装置。
- 前記第1の検出手段は、前記撮像手段で撮像された被写体に基づいて前記認識処理の対象の条件の変動を検出する請求項6記載の情報処理装置。
- 前記第1の検出手段は、前記認識処理の対象の属性に基づいて前記認識処理の対象の条件の変動を検出する請求項6記載の情報処理装置。
- 前記第1の特徴量を変換する第1の変換手段を更に有し、
前記第2の抽出手段は、前記認識処理の対象の条件の変動量に基づいて前記第1の特徴量を前記第1の変換手段で変換することによって前記第2の特徴量を抽出する請求項1乃至8何れか1項記載の情報処理装置。 - 前記映像を変換する第2の変換手段を更に有し、
前記第2の抽出手段は、前記認識処理の対象の条件の変動量に基づいて前記映像を前記第2の変換手段で変換した映像から前記第2の特徴量を抽出する請求項1乃至8何れか1項記載の情報処理装置。 - 前記更新手段は、複数の前記第2のモデルの候補から一のモデル候補を選択し、選択した一のモデル候補で前記第1のモデルを更新する請求項1乃至10何れか1項記載の情報処理装置。
- 前記更新手段は、前記複数の第2のモデルの候補それぞれを用いて前記認識処理を行った結果と、前記第1のモデルを用いて前記認識処理を行った結果と、に基づき前記一のモデル候補を選択する請求項11記載の情報処理装置。
- 前記学習手段は、前記撮像手段とは異なる他の撮像手段で撮像された映像に対する認識処理に用いられるモデルをベースとして前記第2のモデルを生成することを特徴とする、請求項1記載の情報処理装置。
- 映像を撮像する撮像手段と、
前記撮像手段で撮像された映像に対して認識処理を行う認識手段と、
前記認識処理の対象の条件の変動を検出する第1の検出手段と、
前記映像から第1の特徴量を抽出する第1の抽出手段と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第1の特徴量を変換することにより、当該変動量に応じた第2の特徴量を抽出する第2の抽出手段と、
前記認識処理の結果に基づいて、当該認識処理に用いる第1のモデルの更新に使用する第2のモデルを前記第2の特徴量を用いて作成する学習手段と、
前記第2のモデルの学習状況を評価する評価手段と、
前記評価手段による前記第2のモデルの学習状況の評価結果に基づき、前記第1のモデルを前記第2のモデルに更新するタイミングを決定する決定手段と、
前記決定手段により決定された前記タイミングで前記第1のモデルを前記第2のモデルに更新する更新手段と、
を有する情報処理システム。 - 前記更新手段によるモデルの更新に関する情報を表示する表示手段を更に有する請求項14記載の情報処理システム。
- 前記表示手段は、前記情報として、新たなモデルの学習の進捗の情報を表示する請求項15記載の情報処理システム。
- 前記表示手段は、前記情報として、前記モデルの認識結果と学習中の新たなモデルの認識結果との差異の情報を表示する請求項15記載の情報処理システム。
- 前記表示手段は、前記情報として、前記モデルの認識結果と学習が完了した新たなモデルの認識結果との差異の情報を表示する請求項15記載の情報処理システム。
- 前記モデルの認識結果と前記学習中の新たなモデルの認識結果との何れが正しいかを入力する入力手段を更に有する請求項17記載の情報処理システム。
- 情報処理装置が実行する情報処理方法であって、
撮像手段で撮像された映像に対して認識処理を行う認識工程と、
前記認識処理の対象の条件の変動を検出する第1の検出工程と、
前記映像から第1の特徴量を抽出する第1の抽出工程と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第1の特徴量を変換することにより、当該変動量に応じた第2の特徴量を抽出する第2の抽出工程と、
前記認識処理の結果に基づいて、当該認識処理に用いる第1のモデルの更新に使用する第2のモデルを前記第2の特徴量を用いて作成する学習工程と、
前記第2のモデルの学習状況を評価する評価工程と、
前記評価工程における前記第2のモデルの学習状況の評価結果に基づき、前記第1のモデルを前記第2のモデルに更新するタイミングを決定する決定工程と、
前記決定工程において決定された前記タイミングで前記第1のモデルを前記第2のモデルに更新する更新工程と、
を含む情報処理方法。 - 情報処理システムが実行する情報処理方法であって、
映像を撮像する撮像工程と、
前記撮像工程で撮像された映像に対して認識処理を行う認識工程と、
前記認識処理の対象の条件の変動を検出する第1の検出工程と、
前記映像から第1の特徴量を抽出する第1の抽出工程と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第1の特徴量を変換することにより、当該変動量に応じた第2の特徴量を抽出する第2の抽出工程と、
前記認識処理の結果に基づいて、当該認識処理に用いる第1のモデルの更新に使用する第2のモデルを前記第2の特徴量を用いて作成する学習工程と、
前記第2のモデルの学習状況を評価する評価工程と、
前記評価工程における前記第2のモデルの学習状況の評価結果に基づき、前記第1のモデルを前記第2のモデルに更新するタイミングを決定する決定工程と、
前記決定工程において決定された前記タイミングで前記第1のモデルを前記第2のモデルに更新する更新工程と、
を含む情報処理方法。 - コンピュータを、請求項1乃至13何れか1項記載の情報処理装置の各手段として機能させるためのプログラム。
- 撮像された映像に対する認識処理の結果に基づいて学習手段により作成される第2のモデルであって、当該認識処理に用いる第1のモデルの更新に使用される前記第2のモデルの学習状況を評価する評価手段と、
前記評価手段による前記第2のモデルの学習状況の評価結果に基づき、前記第1のモデルを前記第2のモデルに更新するタイミングを決定する決定手段と、
前記決定手段により決定された前記タイミングで前記第1のモデルを前記第2のモデルに更新する更新手段と、
を有し、
前記第2のモデルは、検出された前記認識処理の対象の条件の変動量に基づいて前記映像又は前記映像から抽出される第1の特徴量を変換することにより抽出される、当該変動量に応じた第2の特徴量を用いて作成される
ことを特徴とする、情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174814A JP7463052B2 (ja) | 2018-09-19 | 2018-09-19 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
US16/570,877 US11188788B2 (en) | 2018-09-19 | 2019-09-13 | System and method to determine a timing update for an image recognition model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174814A JP7463052B2 (ja) | 2018-09-19 | 2018-09-19 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020046928A JP2020046928A (ja) | 2020-03-26 |
JP7463052B2 true JP7463052B2 (ja) | 2024-04-08 |
Family
ID=69772214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018174814A Active JP7463052B2 (ja) | 2018-09-19 | 2018-09-19 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11188788B2 (ja) |
JP (1) | JP7463052B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7394000B2 (ja) | 2020-03-30 | 2023-12-07 | 新明和工業株式会社 | 特装車 |
JP7394004B2 (ja) | 2020-03-31 | 2023-12-07 | 新明和工業株式会社 | 特装車 |
JP7465773B2 (ja) | 2020-09-17 | 2024-04-11 | 京セラ株式会社 | システム、電子機器、電子機器の制御方法、及びプログラム |
WO2022064639A1 (ja) * | 2020-09-25 | 2022-03-31 | 株式会社日立国際電気 | 異常検出装置、異常検出方法及び異常検出システム |
EP4209989A4 (en) * | 2020-10-27 | 2024-04-03 | Samsung Electronics Co Ltd | DEVICE AND METHOD FOR GENERATING AN IMAGE WITH A SUBJECT RECORDED THEREIN |
JP7357171B2 (ja) * | 2020-12-28 | 2023-10-05 | 富士フイルム株式会社 | 撮像支援装置、撮像装置、撮像支援方法、及びプログラム |
WO2022153711A1 (en) * | 2021-01-12 | 2022-07-21 | Nec Corporation | Training apparatus, classification apparatus, training method, classification method, and program |
WO2022190655A1 (ja) * | 2021-03-11 | 2022-09-15 | 株式会社日立国際電気 | 画像解析システム及び機械学習モデルの更新方法 |
US11544969B2 (en) * | 2021-04-27 | 2023-01-03 | Zhejiang Gongshang University | End-to-end multimodal gait recognition method based on deep learning |
WO2023152841A1 (ja) * | 2022-02-09 | 2023-08-17 | 日本電気株式会社 | 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体 |
WO2024069956A1 (ja) * | 2022-09-30 | 2024-04-04 | 日本電気株式会社 | 学習装置、学習システム、学習方法、およびコンピュータ可読媒体 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050334A1 (ja) | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
JP2012208710A (ja) | 2011-03-29 | 2012-10-25 | Panasonic Corp | 属性推定装置 |
JP2015064778A (ja) | 2013-09-25 | 2015-04-09 | 住友電気工業株式会社 | 検出対象識別装置、変換装置、監視システム、及びコンピュータプログラム |
JP2016015116A (ja) | 2014-06-12 | 2016-01-28 | パナソニックIpマネジメント株式会社 | 画像認識方法、カメラシステム |
JP2017117024A (ja) | 2015-12-22 | 2017-06-29 | キヤノン株式会社 | 画像認識装置、画像認識方法、及び撮像装置 |
US20180121732A1 (en) | 2016-11-03 | 2018-05-03 | Samsung Electronics Co., Ltd. | Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8266078B2 (en) * | 2009-02-06 | 2012-09-11 | Microsoft Corporation | Platform for learning based recognition research |
JP5594672B2 (ja) | 2011-04-14 | 2014-09-24 | 株式会社 日立産業制御ソリューションズ | 物体認識装置および物体認識方法 |
US10115185B2 (en) * | 2014-12-05 | 2018-10-30 | At&T Intellectual Property I, L.P. | Dynamic image recognition model updates |
WO2018117704A1 (en) * | 2016-12-23 | 2018-06-28 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
-
2018
- 2018-09-19 JP JP2018174814A patent/JP7463052B2/ja active Active
-
2019
- 2019-09-13 US US16/570,877 patent/US11188788B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010050334A1 (ja) | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
JP2012208710A (ja) | 2011-03-29 | 2012-10-25 | Panasonic Corp | 属性推定装置 |
JP2015064778A (ja) | 2013-09-25 | 2015-04-09 | 住友電気工業株式会社 | 検出対象識別装置、変換装置、監視システム、及びコンピュータプログラム |
JP2016015116A (ja) | 2014-06-12 | 2016-01-28 | パナソニックIpマネジメント株式会社 | 画像認識方法、カメラシステム |
JP2017117024A (ja) | 2015-12-22 | 2017-06-29 | キヤノン株式会社 | 画像認識装置、画像認識方法、及び撮像装置 |
US20180121732A1 (en) | 2016-11-03 | 2018-05-03 | Samsung Electronics Co., Ltd. | Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof |
Also Published As
Publication number | Publication date |
---|---|
US20200089994A1 (en) | 2020-03-19 |
US11188788B2 (en) | 2021-11-30 |
JP2020046928A (ja) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7463052B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
JP6942488B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
US10417775B2 (en) | Method for implementing human skeleton tracking system based on depth data | |
US8355529B2 (en) | Motion capture apparatus and method, and motion capture program | |
JP6664163B2 (ja) | 画像識別方法、画像識別装置及びプログラム | |
CA2748037C (en) | Method and system for gesture recognition | |
JP2019000136A (ja) | 視線計測装置及びプログラム | |
JP5085621B2 (ja) | 画像認識処理に適用する特徴情報選択装置、画像認識処理装置、監視システム、方法、及びプログラム | |
JP6362085B2 (ja) | 画像認識システム、画像認識方法およびプログラム | |
JP2016099982A (ja) | 行動認識装置、行動学習装置、方法、及びプログラム | |
KR20190099537A (ko) | 동작 학습 장치, 기능 판별 장치 및 기능 판별 시스템 | |
KR20100138202A (ko) | 이종 카메라를 이용한 객체 추적 시스템 및 방법 | |
JP2010123019A (ja) | 動作認識装置及び方法 | |
CN110991292A (zh) | 动作识别比对方法、系统、计算机存储介质和电子装置 | |
CN110910426A (zh) | 动作过程和动作趋势识别方法、存储介质和电子装置 | |
US11527090B2 (en) | Information processing apparatus, control method, and non-transitory storage medium | |
JP6873639B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2022048077A (ja) | 画像処理装置およびその制御方法 | |
CN113100755A (zh) | 一种基于视觉追踪控制的肢体康复训练与评估系统 | |
JP5688514B2 (ja) | 視線計測システム、方法およびプログラム | |
CN114740966A (zh) | 多模态图像显示控制方法、系统及计算机设备 | |
JP2020124367A5 (ja) | ||
JP2020087040A (ja) | 特定姿勢検出装置 | |
JP6543546B2 (ja) | 特定動作検出装置及び特定動作検出方法 | |
US20220138458A1 (en) | Estimation device, estimation system, estimation method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7463052 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |