JP7463052B2

JP7463052B2 - 情報処理装置、情報処理システム、情報処理方法及びプログラム

Info

Publication number: JP7463052B2
Application number: JP2018174814A
Authority: JP
Inventors: 俊介佐藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2024-04-08
Anticipated expiration: 2038-09-19
Also published as: US20200089994A1; US11188788B2; JP2020046928A

Description

本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

多様な環境に設置された監視カメラで映像認識を行うに当たり、各々のカメラ特有の設置環境における認識精度の向上のため、ドメインに適応する方法が知られている。
例えば特許文献１においては、カメラの設置環境と認識に用いるパラメーターをデータベースとして保持し、新たなカメラでは環境が似通った別のカメラでの認識パラメーターを用いて認識を行う手法が提案されている。
また、特許文献２においては、顔の回転量、又は影、装飾品の状態に基づいて、予め用意した検出モデルを切り替える手法が提案されている。
また、特許文献３においては、カメラから撮影される映像を、正面から見たように変換して、その正規化した映像を認識に用いる手法が提案されている。

特開２０１６－１５１１６号公報特開２０１７－１１７０２４号公報特開２０１２－２２１４３７号公報

Ｗｅｉ，Ｓｈｉｈ－Ｅｎ，ｅｔａｌ． "Ｃｏｎｖｏｌｕｔｉｏｎａｌｐｏｓｅｍａｃｈｉｎｅｓ．" ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１６．Ｍａｒｔｉｎｅｚ，Ｊｕｌｉｅｔａ，ｅｔａｌ． "Ａｓｉｍｐｌｅｙｅｔｅｆｆｅｃｔｉｖｅｂａｓｅｌｉｎｅｆｏｒ３ｄｈｕｍａｎｐｏｓｅｅｓｔｉｍａｔｉｏｎ．" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０５．０３０９８（２０１７）．

しかし、特許文献１の方法を用いても、適応したいドメインと似通った環境のカメラが必ずしもあるとは限らない。また、特許文献２の方法のように、予め様々等メインでのモデルを準備するとしても、多様な環境に対応するには限界がある。
似たドメインのモデルが準備できない場合は、特許文献３の方法のように認識対象の映像、及び特徴量に正規化等の変換を行って、別のドメインで作られた認識のパラメーターを用いることはできる。しかし、変換の計算負荷が余計にかかり、また映像からの推定となるため誤差の混入は避けられず、認識精度を下げる要因となりうる。
そのため適応したいカメラのドメインで学習したモデルを用いて認識を行えることが望ましいが、再学習を行う場合はそのカメラの環境で学習データを収集する必要があり、収集が完了するまで認識を実施できないことが課題となる。

本発明は、撮像手段で撮像された映像に対して認識処理を行う認識手段と、前記認識処理の対象の条件の変動を検出する第１の検出手段と、前記映像から第１の特徴量を抽出する第１の抽出手段と、前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第１の特徴量を変換することにより、当該変動量に応じた第２の特徴量を抽出する第２の抽出手段と、前記認識処理の結果に基づいて、当該認識処理に用いる第１のモデルの更新に使用する第２のモデルを前記第２の特徴量を用いて作成する学習手段と、前記第２のモデルの学習状況を評価する評価手段と、前記評価手段による前記第２のモデルの学習状況の評価結果に基づき、前記第１のモデルを前記第２のモデルに更新するタイミングを決定する決定手段と、前記決定手段により決定された前記タイミングで前記第１のモデルを前記第２のモデルに更新する更新手段と、を有する。

本発明によれば、異なるドメインで学習したモデルを利用して迅速に新たなカメラでの認識を開始することができ、かつ、新たなカメラのドメインでのモデル作成を並行して進めることができる。

情報処理システムの機能構成の概要を示す図である。情報処理システムの情報処理の概要を示すフローチャートである。情報処理システムのシステム構成の一例を示す図である。解析サーバーのハードウェア構成の一例を示す図である。実施形態１の情報処理システムの機能構成の一例を示す図（その１）である。実施形態１の情報処理システムの機能構成の一例を示す図（その２）である。表示部の動作及び利用者の操作の例について説明する図である。実施形態１の情報処理の一例を示すフローチャートである。特徴量と特徴量変換部が行う特徴量の変換方法とについて説明する図である。３Ｄ空間上における位置関係を推定する方法を説明する図である。実施形態２で行う画像の変換と特徴量とを説明する図である。実施形態２の情報処理システムの機能構成の一例を示す図である。実施形態２の情報処理の一例を示すフローチャートである。学習中モデルを学習する際の情報処理の一例を示すフローチャートである。実施形態３で行う画像の変換と特徴量とを説明する図である。実施形態３の情報処理の一例を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。

図１は、情報処理システムの機能構成の概要を示す図である。
撮影部９９０１は、映像を撮影する。撮影部９９０１は、後述する撮影部１０１によって具体化される。
認識部９９０２は、撮影部９９０１が撮影した映像に対して認識処理を行う。認識部９９０２は、認識処理にはモデルを使用する。認識部９９０２は、後述する認識部１０３によって具体される。
モデル更新部９９０３は、認識部９９０２が使用するモデルを更新する。モデル更新部９９０３は、後述するモデル更新部１１１によって具体化される。
更新タイミング決定部９９０４は、モデル更新部９９０３が、モデルを更新するタイミングを決定する。更新タイミング決定部９９０４は、後述する更新タイミング決定部１１２によって具体化される。

図２は、情報処理システムの情報処理の概要を示すフローチャートである。
Ｓ９８０１において、撮影部９９０１は、映像を撮影し、その映像を取得する。Ｓ９８０１は、後述するＳ３０６によって具体化される。
次に、Ｓ９８０２において、認識部９９０２は、Ｓ９８０１において取得された映像に対して認識処理を行う。Ｓ９８０２は、後述するＳ３１１によって具体化される。
次に、Ｓ９８０３において、更新タイミング決定部９９０４は、モデル更新部９９０３がモデルを更新するタイミングであるかどうかを判定する。更新タイミング決定部９９０４は、モデルを更新するタイミングでないと判定すればＳ９８０１に戻り、モデルを更新するタイミングであると判定すればＳ９８０４に進む。Ｓ９８０３は、後述するＳ３２２によって具体化される。
Ｓ９８０４においては、モデル更新部９９０３は、認識部９９０２が認識処理に利用するモデルを更新する。Ｓ９８０４は、後述するＳ３２３によって具体化される。モデル更新部９９０３は、Ｓ９８０４の次は、Ｓ２０１に戻る。

＜実施形態１＞
図３は、情報処理システムのシステム構成の一例を示す図である。
監視カメラ群００１は、それぞれ監視すべき場所に設置され、映像を送信する。それぞれの監視カメラは監視に最適な画角を得るため、各々に適当な高さ、角度で設置される。
各々の監視カメラ及びシステム管理サーバー００３、解析サーバー００４、録画サーバー００５は、カメラネットワーク００２によって接続されている。カメラネットワーク００２は、例えばＬＡＮによって構成される。カメラネットワーク００２は、各々の監視カメラの映像を、システム管理サーバー００３、解析サーバー００４、録画サーバー００５がそれぞれ取得できるよう構成されている。
システム管理サーバー００３、解析サーバー００４、録画サーバー００５はカメラネットワーク００２と異なるクライアントネットワーク００７によってもそれぞれ通信可能に接続されている。クライアントネットワーク００７は、例えばＬＡＮによって構成され、利用者はクライアントネットワーク００７に閲覧端末００８を接続する。閲覧端末００８は、ディスプレイを備えた計算機であり、指定した監視カメラの映像をシステム管理サーバー００３に要求して、システム管理サーバー００３を通じて映像を取得して閲覧し、監視を行う。また、閲覧端末００８は、録画サーバー００５に記録された過去の映像を閲覧したり、解析サーバー００４の解析結果を合わせて閲覧したり、通知を受け取ったりする。

システム管理サーバー００３は、ＶＭＳ（ＶｉｄｅｏＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）ソフトウェアが動作する計算機であり、各々の監視カメラ、解析サーバー００４、録画サーバー００５の設定を保持し、動作を管理する。
解析サーバー００４は、計算機であり、システム管理サーバー００３による設定に従って、各々の監視カメラから送信される映像、又は録画サーバー００５に記録された映像を解析する。解析サーバー００４は、各々の監視カメラの設置個所に応じて、例えば、顔認証、人物追跡、人流計測、侵入検知、人物属性検出、天候検知、渋滞検知等の認識処理を行い、結果を集計して、設定に従って利用者に通知する。本実施形態においては、映像中で異常な行動を取った人物を認識する方法について説明する。
録画サーバー００５は、システム管理サーバー００３による設定に従って、各々の監視カメラから取得した映像をストレージ００６に記録し、システム管理サーバー００３、解析サーバー００４、閲覧端末００８等の要求に従って記録した映像を送信する。また、録画サーバー００５は、解析サーバー００４の解析結果を示すメタデータ等も併せて保存する。
ストレージ００６は、ハードディスク等の記録メディア及びＭＰＵ等によって構成される。記録メディアの代わりに、ＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）、又はＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、又はクラウドサービス等のネットワーク上のストレージを用いてもよい。
本実施形態では監視カメラ群００１、システム管理サーバー００３、解析サーバー００４、録画サーバー００５、閲覧端末００８は異なるコンピュータ装置としているが、これに限定されない。例えば、システム管理サーバー００３、解析サーバー００４、録画サーバー００５を１つのサーバー装置の中のアプリケーション、又は仮想サーバーとして実現してもよい。また、システム管理サーバー００３、又は解析サーバー００４に閲覧端末００８の機能を設けてもよい。また、解析サーバー００４、録画サーバー００５の機能を監視カメラ群００１の各カメラ装置に搭載してもよい。

図４は、解析サーバー００４のハードウェア構成の一例を示す図である。
解析サーバー００４は、ハードウェア構成として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０、記憶部１１、通信部１２、を含む。
ＣＰＵ１０は、解析サーバー００４の全体を制御する。記憶部１１は、メモリ、又はハードディスク等の記録メディア等によって構成され、プログラム、画像等を記憶する。記録メディアの代わりに、解析サーバー００４は、記憶部１１としてＮＡＳ、又はＳＡＮ等のネットワーク上のストレージを用いてもよい。通信部１２は、解析サーバー００４をネットワーク等に接続し、他の装置との通信等を制御する。ＣＰＵ１０が記憶部１１に記録されたプログラムに基づき処理を実行することによって、後述する図５、図６、図１２に示す解析サーバー００４の機能構成、及び図８、図１３、図１４、図１６のフローチャートの解析サーバー００４に関する情報処理が実現される。他の例としては、解析サーバー００４の機能の少なくとも一部は、例えば複数のＣＰＵ、記憶部を協働させることにより実現してもよい。また、他の例としては、解析サーバー００４の機能の少なくとも一部は、ハードウェア回路を用いて実現されてもよい。また、他の例としては、解析サーバー００４の機能は、複数の装置が協働して実現されてもよい。

システム管理サーバー００３、録画サーバー００５のハードウェア構成も解析サーバー００４のハードウェア構成と同様である。各サーバーのＣＰＵが各サーバーの記憶部に記憶されたプログラムに基づき処理を実行することにより、後述する図５、図６、図１２に示す各サーバーの機能構成、及び図８、図１３、図１４、図１６のフローチャートの各サーバーに関する情報処理が実現される。
また、閲覧端末００８のハードウェア構成は、解析サーバー００４のハードウェア構成と同様のハードウェア構成を有すると共に、表示部及び入力部を更に有する。表示部は、液晶画面等で構成され、閲覧端末００８のＣＰＵによる処理結果、他のサーバーより受信したデータ等を表示する。入力部は、スイッチ及びタッチパネル等によって構成され、利用者による操作を感知して操作情報を入力する。タッチパネルの代わりにマウス、トラックボール等の他のポインティングデバイスが用いられてもよい。閲覧端末００８のＣＰＵが閲覧端末００８の記憶部に記憶されたプログラムに基づき処理を実行することにより、後述する図５、図６、図１２に示す閲覧端末００８の機能構成が実現される。

図５は、実施形態１の情報処理システムの機能構成の一例を示す図（その１）である。
情報処理システムは、撮影部１０１、特徴量抽出部１０２、認識部１０３、モデル学習部１０４、撮影環境管理部１０５、記憶処理部１０６、特徴量変換部１０７、モデル評価部１０８、表示処理部１０９、操作部１１０、モデル更新部１１１、更新タイミング決定部１１２、条件変動検出部１１３、を機能構成として、有する。
撮影部１０１は、図３に示す監視カメラ群００１に対応する。撮影部１０１に含まれる監視カメラは、撮像素子及びレンズ、これらを駆動するモーター及び制御するＭＰＵ等によって構成される監視カメラであり、動画を撮影して電子データに変換する。撮影部１０１の監視カメラは複数、設置され、例えばＬＡＮ等のネットワークによって接続されている。

特徴量抽出部１０２、認識部１０３、モデル学習部１０４、特徴量変換部１０７、モデル評価部１０８、モデル更新部１１１、更新タイミング決定部１１２、条件変動検出部１１３は、解析サーバー００４に含まれる。
特徴量抽出部１０２は、撮影部１０１が撮影した映像から、特徴量を抽出する。
認識部１０３は、統計モデルを保持し、特徴量抽出部１０２が抽出した特徴量に対して、映像に含まれる対象の認識を行う。
モデル学習部１０４は、特徴量抽出部１０２で抽出された特徴量を教師データとして学習し、新たにモデルを作成する。
特徴量変換部１０７は、特徴量抽出部１０２で抽出された特徴量を変換して新たな特徴量を生成する。特徴量変換部１０７は、条件変動検出部１１３によって検出された、撮影に伴う条件の変動に基づいて特徴量の変換方法を決定する。

モデル評価部１０８は、指定されたモデルについて性能を評価する。モデル評価部１０８は、指定されたモデルについて、記憶処理部１０６で予め保持するテストデータについて、認識部１０３による認識を行った結果を集計して適合率を計算し、それを認識精度として出力する。但し、評価の方法はこれに限るものではなく、再現率、又はＦ値等他の基準を使ってもよいし、またテストデータを稼働中に動的に作成するようにしてもよい。
本実施形態においては、モデルは混合ガウス分布モデルを用いて、分布関数に特徴量の値を代入して得られる値を認識スコアとする。モデル評価部１０８は、モデルＭを用いた際の特徴量ｘの認識スコアＳ（ｘ；Ｍ）を以下の式で計算する。

ここでＫは混合数である。Ｎ（ｘ；μ，σ）は平均μ、分散共分散行列σの多変量ガウス分布（正規分布）でのｘでの値である。ωｉ、μｉ、σｉはモデルＭのｉ番目の分布の重み、平均、分散共分散行列である。重みは正の実数値を取り、ω１からωＫの総計は１である。認識スコアの値域は［０，１］の範囲の実数値であり、１に近いほど正常、０に近いほど異常を表す。
但し、モデルはこれに限らず、例えばニューラルネットワーク、又は最近傍モデルでもよい。
モデル更新部１１１は、認識部１０３が保持する統計モデルを、更新タイミング決定部１１２に従って更新する。
更新タイミング決定部１１２は、モデル更新部１１１がモデルを更新するタイミングを決定する。
条件変動検出部１１３は、撮影部１０１に含まれる２つの監視カメラ、又は異なる時刻の監視カメラについて、撮影に伴う条件が変動しているかどうかを行うかどうかを判定する。

撮影環境管理部１０５は、図３に示すシステム管理サーバー００３に含まれる。
撮影環境管理部１０５は、撮影部１０１のそれぞれの監視カメラの設置状況から定まる撮影環境を管理する。本実施形態における撮影環境には監視カメラのＰＴＺ角、設置高さを含む。また、撮影環境管理部１０５は、各監視カメラにおいて認識部１０３が利用するための統計モデルを、各監視カメラに紐づけて保持し、認識部１０３等の撮影環境取得のリクエストに応じて撮影環境の情報の送信を行う。
記憶処理部１０６は、図３に示す録画サーバー００５に含まれる。
記憶処理部１０６は、撮影部１０１が撮影した映像、特徴量抽出部１０２が抽出した特徴量、認識部１０３が認識を行った結果の情報、モデル学習部１０４が作成したモデル、撮影環境管理部１０５が管理する撮影環境、及びモデル等をストレージ００６に保存する。また、記憶処理部１０６は、これらの関係を表現する情報、及び作成時刻等のメタデータもあわせてストレージ００６に保存する。

表示処理部１０９と操作部１１０とは、図３に示す閲覧端末００８に含まれる。
表示処理部１０９は、利用者に情報を提示し、また操作を行うユーザーインターフェース（ＵＩ）画面を作成して表示部に表示する。
操作部１１０は、入力部を介した利用者による操作を感知して情報処理システムに入力する。
本実施形態においては映像から異常行動を認識する装置を用いて説明するが、認識対象はこれに限らない。例えば映像から特定の人物、又は車種等を検出したり、イベント、又は時間帯等を認識したりしてもよいし、また認識の対象が映像でなく音声及び文書の何れか又は双方であってもよい。

また、図５で説明した機能構成は、必ずしもそれぞれ独立して設けなくともよい。図６は、実施形態１の情報処理システムの機能構成の一例を示す図（その２）である。図６の例では認識部１０３は、特徴量抽出部１０２の機能を含む。特徴量抽出部１０２は、特徴量変換部１０７の機能を含む。また、モデル更新部１１１は、モデル学習部１０４の機能を含む。また、更新タイミング決定部１１２は、条件変動検出部１１３及びモデル評価部１０８を含む。機能構成の関係は、図５及び図６に示した包含関係に限るものではなく、例えば図６から特徴量変換部１０７だけが独立していたり、認識部１０３に直接含まれていたりするようにしてもよい。また、更新タイミング決定部１１２が条件変動検出部１１３及びモデル評価部１０８の両方でなく一方のみを含むようにしてもよい。

次に、図７を用いて、本実施形態における表示部の動作及び利用者の操作の例について説明する。
図７の（ａ）、（ｂ）、（ｃ）は、撮影部１０１で撮影している映像を表示処理部１０９が表示部に表示している状態の例を示す模式図である。撮影部１０１は監視カメラとして監視対象箇所に設置され、表示部にライブ映像が表示される。利用者は映像を見て、監視対象箇所に異常が発生しないかを監視している。
図７（ａ）は、最近追加で設置した新設監視カメラの映像を監視する画面表示の一例を示す図である。認識部１０３は、人物２０２及び２０３のような映像中に出現する人物について異常かどうかを判定し、異常の場合はそのことを通知する。ここでは人物２０３が転倒したので、その人物の外枠と警報表示２０４とが表示部に表示される。
情報処理システムは、この新設監視カメラにおいて、転倒の認識を、他の異なる監視カメラをリファレンスとして、リファレンスカメラで作られた統計モデルを用いて行う。即ち人物２０３が転倒したことと、人物２０２が転倒していないことは、リファレンスカメラでの事例に基づいて作られたモデルを、新設監視カメラのドメインに適用することで判定された結果である。
一方で、モデル学習部１０４は、新設監視カメラで得られた人物２０２及び人物２０３のような人物データを用いて、監視の運用を行っている間、バックグラウンドで新たなモデルを学習している。棒グラフ２０５は、モデルの学習の進捗を表す棒グラフである。図７（ａ）のようにモデルの学習の進捗が充分に進んでいない場合は、情報処理システムは、リファレンスモデルでの認識結果を優先し、新しいモデルについては学習の進捗のみを表示する。

図７（ｂ）は、図７（ａ）の後、モデル学習部１０４による新しいモデルの学習がある程度進んだ状態での表示の一例を示す図である。情報処理システムは、この段階では新しいモデルによる認識の性能を検証するため、人物データで学習を行う前に新しいモデルで認識を行い、リファレンスモデルの結果との比較を行う。そして、情報処理システムは、認識結果が異なった場合は利用者に確認を要求する。人物２０７に対してリファレンスモデルでは正常、新しいモデルでは異常と認識した場合、確認ダイアログ２０８を表示して、人物２０７の状態が実際にはどちらなのかを利用者に確認を要求する。この例の場合は、人物２０７は実際には正常であり、新しいモデルの学習がまだ不十分であることを示しているが、実際には異常であって、リファレンスモデルが新設監視カメラのドメインでは十分に機能しないことを示している場合もありうる。
情報処理システムは、同じ認識結果を示した場合は特に何も表示しないが、スコアの差が大きい場合、及びスコアが極端に小さい場合等は確認を求めるようにしてもよいし、一方が異常を示した場合はすべて確認を求めるようにしてもよい。また、情報処理システムは、学習の進捗に応じて挙動を変えるようにしてもよい。

図７（ｃ）は、図７（ｂ）の更に後、モデル学習部１０４が新しいモデルの学習を完了した時点の表示の一例を示す図である。表示処理部１０９は、更新確認ダイアログ２１０を表示部に表示して、モデル更新を実行するかどうか利用者に確認を要求する。また、表示処理部１０９は、利用者への参考情報として、リファレンスモデルと新しいモデルとで結果が変化した人物映像を提示する。表示２１１はモデルの更新後に認識結果が正常に変化する人物のサムネイル表示である。表示処理部１０９は、リファレンスモデルで異常と判定されたが、新しいモデルで正常と判定された人物の映像を表示する。同様に表示２１２は、モデルの更新後に認識結果が異常に変化する人物のサムネイル表示である。表示処理部１０９は、リファレンスモデルで正常と判定されたが、新しいモデルで異常と判定された人物の映像を表示する。
利用者は提示された情報から判断して、モデルを更新して以降新しいモデルを使うと判断すれば「はい」、学習が不十分で追加学習が必要と判断すれば「学習継続」、何らかの原因で誤りが非常に多い等更新すべきでないと判断すれば「中止」を選択する。

図８は、実施形態１の情報処理の一例を示すフローチャートである。図８のフローチャートでは新設監視カメラを追加した際、又はカメラ環境が変化してリセット操作が行われた際に情報処理システムが実行する処理を表す。以下では監視カメラを新設したものとして説明を行うが、既設の監視カメラの画角、又は設定を変更してカメラ環境が変化した際も同様の手順を用いることができる。
利用者は、撮影部１０１の一部となる新設監視カメラを設置し、撮影環境管理部１０５に登録する。
Ｓ３０２において、撮影環境管理部１０５は、新設監視カメラのカメラパラメーターを取得する。カメラパラメーターには新設監視カメラの高さ及び水平面に対する撮像方向の角度を含む。
Ｓ３０３において、撮影環境管理部１０５は、リファレンスカメラとして新設監視カメラとは異なる監視カメラを一つ選択する。
撮影環境管理部１０５は、後述する学習済みフラグが既に立っている、即ちモデル学習部１０４の学習が完了している監視カメラを検索する。そして、撮影環境管理部１０５は、カメラパラメーターを比較して、類似しているものを選択する。

Ｓ３０４において、撮影環境管理部１０５は、リファレンスカメラのカメラパラメーターとモデルとを取得する。認識部１０３は、リファレンスカメラのモデルを保持する。
Ｓ３２４において、条件変動検出部１１３は、新設監視カメラのカメラパラメーターとリファレンスカメラのカメラパラメーターとを比較し、２つの監視カメラの撮影条件に変動があるかどうかを判定する。条件変動検出部１１３は、水平面に対する俯角の大きさと監視カメラの設置高さとを比較して、俯角の大きさの差が５度以内、かつ、高さの差が１０ｃｍであれば、同じ撮影条件であり変動がないと判定し、そうでなければ撮影条件に変動があると判定する。条件変動検出部１１３は、変動がないと判定すればＳ３２５に進み、あると判定すればＳ３０５に進む。
撮影条件に変動があるかどうかを判定する方法はここで示したものに限らず、例えば、条件変動検出部１１３は、被写界深度、又はホワイトバランス等の監視カメラの設定の比較を加えてもよい。また、条件変動検出部１１３は、それぞれの監視カメラで撮影した背景画像を画像比較して、差の大きさで変動を判定する等してもよい。
Ｓ３２５においては、条件変動検出部１１３は、学習済みフラグを立ててＳ３０６に進む。即ち、条件変動検出部１１３は、撮影条件の変動が小さいためリファレンスカメラのモデルをそのまま使えると判定して、後述するＳ３１５以降の学習処理を行わないようにする。
Ｓ３０５においては、特徴量変換部１０７は、新設監視カメラのカメラパラメーターとリファレンスカメラのカメラパラメーターとを比較して、特徴量の変換方法を決定する。

図９は、本実施形態において用いる特徴量と、特徴量変換部１０７が行う特徴量の変換方法とについて説明する図である。
図９（ａ）は、撮影部１０１が撮影した映像のフレーム画像の一例を示す模式図である。縦に長い廊下が映っており、人物４０２が歩いている。特徴量変換部１０７は、この画像にまず、例えばＦａｓｔｅｒ－ＲＣＮＮ等の人物検出を行って人物に外接する矩形を検出する。そして、特徴量変換部１０７は、図９（ｂ）のように、検出した人物のそれぞれについて、例えば非特許文献１に記載されている手法等を用いて、画像中の関節位置を推定する。特徴量変換部１０７は、頭頂、首、右肩、右ひじ、右手首、左肩、左ひじ、左手首、胴体中心、腰部中心、右股関節、右ひざ、右足首、左股関節、左ひざ、左足首の１６点を検出する（便宜上、頭頂も関節と呼ぶことにする）。検出する関節はここで挙げたものに限らず、手指の各関節及び脊椎の各椎骨についても対象としたり、逆に例えばひじとひざとを省略して単純化したりしてもよい。
各関節は、図９（ｃ）のように人物検出した矩形の内部の点であり、左上を（０，０）、横辺の長さを１とする座標で表現する。横辺の長さを１に正規化するのは撮影時の人物のサイズを吸収するためであるが、サイズ情報が重要と考えられる場合には正規化をしないようにしてもよい。これらの座標値を順に並べた３２次元実ベクトルを本実施形態における特徴量とする。

特徴量の変換を次のように定める。特徴量変換部１０７は、変換元での画像上の関節位置４０３、及び監視カメラの撮影環境４０５から、後述する方法によって監視カメラと人物との３Ｄ空間上における位置関係を推定する。そして、特徴量変換部１０７は、非特許文献２に記載されている手法等を用いて、３Ｄ空間上の関節位置４０６を推定する。次に、特徴量変換部１０７は、変換先撮影環境４０７から３Ｄ空間上の関節位置４０６を仮想的に撮影した際に、関節位置が投影される２次元位置４０８を求める。そして、特徴量変換部１０７は、２次元位置４０８の関節位置から特徴量を作成する。これは、特徴量変換部１０７が、撮影環境４０５から４０７へと移る３Ｄ空間上の回転行列と平行移動ベクトルを求め、４０６の各関節の３Ｄ座標へ逆方向の回転と平行移動を施すことによって求めることができる。特徴量変換部１０７は、新設監視カメラのカメラパラメーターとリファレンスカメラのカメラパラメーターとから、回転行列の逆行列と平行移動ベクトルを求めて保持し、変換に用いる。情報処理システムは、撮影環境が非常に近いと判定した場合は、変換をまったく行わず、以後の学習も行わずにそのままリファレンスカメラのモデルを利用するようにしてもよい。

図１０を用いて、姿勢特徴を求めるために行う、監視カメラと人物との３Ｄ空間上における位置関係を推定する方法の詳細を説明する。但し、これは一例であり、他の計算方法を用いることを妨げない。
図１０（イ）は、撮影部１０１で撮影された２Ｄ映像である。特徴量変換部１０７は、ある２つの関節を選び、それぞれの監視カメラに対する距離及び角度と、２つの関節間の長さとを推定する。これは３Ｄ空間上の関節位置の推定に用いられる。ここでは頭頂と胴体中心とを用いることにする。これは後述するように頭部を用いて監視カメラへの距離を推定することと、頭部と胴体との位置関係は手足と比較して相対位置の変化が小さいためである。
特徴量変換部１０７は、２Ｄ映像の垂直方向について推定する。特徴量変換部１０７は、２Ｄ映像中における、頭部の大きさＤと、頭頂と胴体中心との高さ方向の長さＡ、頭頂から画面上端までの高さ方向の長さＢ、胴体中心から画面下端までの高さ方向の長さＣを測定する。
次に、特徴量変換部１０７は、頭部の大きさＤから、頭部から監視カメラまでの距離Ｌを求める。頭部は比較的球形に近く、個人差が身長及び四肢長よりも比較的小さいため、同じサイズで映っている頭部は角度によらずほぼ同じ距離にあると考えられる。事前に標準的なサイズの頭部又はその模型を様々なカメラ距離に置いて２Ｄ映像を撮影して、その高さを調べることによってＤからＬへの換算表を作成することができる。特徴量変換部１０７は、予め換算表をテーブルとして保持し、それを用いてＤからＬを求める。

図１０（ロ）は、人物の頭部中心を通る垂線と、監視カメラの撮影焦点を通る平面とに注目した断面図である。点Ｏは監視カメラの焦点で、直線ＯＳ１と直線ＯＳ２とは監視カメラ画角の上端と下端とを示す平面の断面である。また、高さｈは監視カメラの撮影焦点の高さである。角度Ξは画角中心の地面への垂線に対する角度である。高さｈ、角度Ξ、直線ＯＳ１と直線ＯＳ２との角度Θは、監視カメラの設置によって定まり、撮影環境管理部１０５が保持する撮影環境の情報によって既知であるとする。
点Ｐは人物の頭頂の位置である。線分ＯＰの長さは先ほど求めたＬである。点Ｑ'は実際の胴体中心の位置である。点Ｏから画角中心の方向へ延びる直線に垂直な面のうち、点Ｐを通過するものを面Ｋとして、面Ｋに対する点Ｏから画角中心の方向へ延びる直線の足をＨとする。２Ｄ映像５０１は面Ｋ上への投影像と考える。直線ＯＨと直線Ｒ１Ｒ２とは垂直であり、角ＯＲ１Ｈと角ＯＲ２Ｈとの大きさは同じである。点Ｑは、胴体中心の点Ｑ'の面Ｋへの投影点である。また、面Ｋと直線ＯＳ１との交点をそれぞれ点Ｒ１、面Ｋと直線ＯＳ２との交点を点Ｒ２とする。
線分ＰＱ、線分ＰＲ１、線分ＱＲ２は、２Ｄ映像５０１における頭部中心を通る垂線に対応し、長さをそれぞれａ，ｂ，ｃとすると、その比ａ：ｂ：ｃはＡ：Ｂ：Ｃと等しくなる。この条件で角ＰＯＲ１＝φ、角ＱＯＲ２＝ψをそれぞれ求める。
線分ＯＨの長さをＬ'とすると、長さａ，ｂ，ｃは以下のように表せる。

これらと先ほどの比の条件ａ：ｂ：ｃ＝Ａ：Ｂ：Ｃを連立させると、φとψについて解くことができて、以下のように求められる。ここでＡｒｃｔａｎは逆正接関数の、値域を（－π，π］に制限した枝である。

これによって、ＯＰの地面への垂線に対する角度ξをξ＝Ξ＋Θ／２－φと求められる。

次に水平方向の角度について推定する。図１０（ハ）は図１０（イ）と同じ２Ｄ映像に対する、水平方向の頭頂の監視カメラに対する角度を求める方法を説明する図である。
求めるのは頭頂の画角正面に対する角度の大きさωである。水平画角の大きさΩは監視カメラの設定により既知とする。また、頭頂から近い方の左右端までの２Ｄ映像における長さをＥ、頭頂から画角正面（２Ｄ映像を等分割する垂直方向の直線）までの２Ｄ映像における長さをＦとする。
このとき、頭頂の中心に対する角度ωは以下のように求められる。

以上のようにして、監視カメラの撮影焦点Ｏに対する人物の距離Ｌ、垂直方向の角度ξ、水平方向の角度ωが求められ、監視カメラに対する人物（の頭頂）の３Ｄ空間上の位置が決定される。これら値を用いることによって、特徴量変換部１０７は、姿勢の３Ｄ位置を推定することができる。
Ｓ３０６において、撮影部１０１は、撮影中の映像を静止画像の電子データに変換して、現在のフレーム画像を作成する。Ｓ３０６以降のフローチャートは、撮影部１０１から映像の１フレームが入力される度に情報処理システムが実行する処理を表す。情報処理システムは、以降の処理を毎フレーム行わずに、例えば１０フレームおきに処理を行い、残りの９フレーム分は読み捨てるようにしてもよいし、処理負荷に応じて変更してもよい。特に後述する学習済みフラグが立ち、Ｓ３１０の処理及びＳ３１５以降の処理が不要となってから処理の頻度を上げるようにしてもよい。
Ｓ３０７において、特徴量抽出部１０２は、画像から特徴量の検出対象となる人物を検出する。人物検出は、例えばＦａｓｔｅｒ－ＲＣＮＮ等の公知の一般物体検出を用いて行う。
Ｓ３０８において、特徴量抽出部１０２は、Ｓ３０７で検出されたそれぞれの人物の特徴量を抽出する。

Ｓ３０９において、モデル学習部１０４は、後述するＳ３１７によって立てられる変換不要フラグが立っているかどうかを判定する。モデル学習部１０４は、変換不要フラグがまだ立っていない場合はＳ３１０に進み、変換不要フラグが既に立っている場合はＳ３１０を飛ばしてＳ３１１に進む。
Ｓ３１０において、モデル学習部１０４は、Ｓ３０８で抽出されたそれぞれの特徴量を、Ｓ３０５で決定された変換方法に従って変換する。この変換によって、リファレンスカメラの撮影環境から見た姿勢の特徴量となることで、リファレンスカメラのモデルで認識することができる。Ｓ３０８で抽出したままの特徴量も以下の処理で使用するため、モデル学習部１０４は、変換後の特徴量とは別に保持しておく。

Ｓ３１１において、認識部１０３は、Ｓ３０８で抽出された特徴量、又はＳ３１０で変換された特徴量について、認識部１０３が保持するモデルを用いて認識を行い、異常かどうかの検出を行う。用いられる特徴量とモデルとはフローチャートに従うことで、学習済みフラグの状態によって異なる。
即ち、学習済みフラグが立っていない状態では、認識部１０３は、Ｓ３１０で変換された特徴量（リファレンスカメラの撮影環境へ変換された特徴量）に対して、Ｓ３０４で取得し、保持するリファレンスカメラのモデルを用いて認識を行う。一方、学習済みフラグが立った状態では、認識部１０３は、Ｓ３０８で抽出された特徴量そのものについて、後述するＳ３１７で保持するようになった、モデル学習部１０４で作成されたモデルを用いて認識を行う。つまり、新しい監視カメラの撮影環境における特徴量とモデルとが用いられる。
何れにせよ、認識は特徴量ｘとモデルＭとについて、スコアＳ（ｘ；Ｍ）を計算することにより行われる。スコアが所定の閾値、例えば０．７より小さければ「異常」、そうでなければ「正常」として検出される。リファレンスカメラのモデルを使う場合と、モデル学習部１０４で作成されたモデルを使う場合とで、閾値を変えるようにしてもよいし、その他の認識パラメーターを変更するようにしてもよい。

Ｓ３１２において、認識部１０３は、Ｓ３１１で異常として検出された特徴量があるかどうかを判定する。認識部１０３は、異常として検出された特徴量が一つ以上あればＳ３１３に進み、そうでなければそのままＳ３１４に進む。
Ｓ３１３において、表示処理部１０９は、表示部に異常を表示する。
Ｓ３１４において、認識部１０３は、後述するＳ３１７によって立てられる学習済みフラグが立っているかどうかを判定する。認識部１０３は、学習済みフラグが立っている場合はそのままＳ３０６に戻って次の映像フレームの処理に移り、そうでなければＳ３１５に進んで、これ以降、学習中のモデルの学習を進行する手順に入る。
Ｓ３１５においては、更新タイミング決定部１１２は、学習中モデルの学習の進捗が所定の基準以上に達しているかどうかを判定する。更新タイミング決定部１１２は、学習中モデルの学習の進捗が所定の基準以上に達していればＳ３１６に進み、達していなければＳ３１９に進む。
モデル評価部１０８は、学習中モデルを評価し、その認識精度ｐと、予め定めた目標認識精度Ｐとの比較によって進捗度合いを抽出し、その値によってモデルの学習の進捗を定める。モデル評価部１０８は、進捗度合いを（１－ｐ）／（１－Ｐ）で求める。例えばｐ＝８０％、Ｐ＝９５％であれば進捗度合いは２５％となる。更新タイミング決定部１１２は、進捗度合いが所定の基準値、例えば７０％に達すれば、学習中モデルがある程度信用できる水準まで学習が進んだと判定して、リファレンスモデルと異なる結果について利用者に確認を求めることを開始する。
後述するＳ３１９において、まだ初期モデルが作成されていない段階である場合は、モデル評価部１０８は、基準未満と判定する。

Ｓ３１６において、認識部１０３は、Ｓ３０８で抽出された変換前の特徴量について、学習中モデルを用いてＳ３１１と同様に認識を行って異常検知する。これは学習中モデルにおける性能の確認のために行う。
Ｓ３１７において、認識部１０３は、Ｓ３１１で行ったリファレンスモデルでの異常検知の結果と、ステップ３１６で行った学習中モデルでの異常検知の結果と、を比較して、異なる結果を得た特徴量があるかどうかを判定する。認識部１０３は、異なる結果を得た特徴量があった場合はＳ３１８に進んでからＳ３１９に進み、ない場合はそのままＳ３１９に進む。
Ｓ３１８においては、表示処理部１０９は、Ｓ３１７でリファレンスモデルと異なると判定された特徴量のデータについて、確認ダイアログ２０８に示したような利用者に確認を求める表示を提示する。提示する情報には、対象の特徴量の元となった映像と、２つの結果がどのように食い違ったか示す情報と、を含む。利用者は提示された情報をもとに判定して、入力部を介して実際に「正常」であったか「異常」であったかを入力する。操作部１１０は、入力された「正常」であったか「異常」であったかの情報を、記憶処理部１０６を介して記憶部１１に記憶する。Ｓ３１７でリファレンスモデルと異なると判定された特徴量のすべてについて表示、及び記憶が完了すると、Ｓ３１８に進む。
ここでは最終的な認識結果が「正常」と「異常」とで異なる特徴量について確認を行うとしたが、これに限るものではない。例えば、スコアの差が大きい場合、又はスコアが極端に小さい場合、又はスコアに関わらず一方又は両方の結果が異常を示した場合等に確認を求めるようにしてもよい。また、Ｓ３１５で求めた学習の進捗に応じて挙動を変えるようにしてもよい。

Ｓ３１９においては、モデル学習部１０４は、Ｓ３０８で抽出されたそれぞれの特徴量を用いてモデルの追加学習を行う。モデル学習部１０４は、Ｓ３１１における検出結果が「正常」であった特徴量に、Ｓ３１８を行った場合は利用者が追加で「正常」と判定したものを加え、「異常」と判定したものを除いたものを、学習中モデルにＥＭアルゴリズムで追加学習する。ここで追加学習に用いるのはＳ３０８で抽出したままの特徴量であって、Ｓ３１０で変換した特徴量ではない。
モデル学習部１０４は、学習の初期においては特徴量を蓄積しておき、例えば１０００個の特徴量が集まった時点でそれらの平均と分散共分散行列とを求めて初期モデルとしてのガウス分布を作成し、それ以降から追加学習を行う。
また、モデル学習部１０４は、Ｓ３１１における検出結果が「正常」であった特徴量を学習するのではなく、例えばスコアＳ（ｘ；Ｍ）の値が例えば０．７５よりも大きかったものに限って学習するようにしてもよい。これによって正常である可能性がより高いものに学習対象を限ることで誤りの混入が避けられる反面、識別境界のデータが不足する可能性もある。
Ｓ３２０において、更新タイミング決定部１１２は、モデル学習部１０４の学習が完了したかどうかを判定する。更新タイミング決定部１１２は、Ｓ３１５と同様に、モデル評価部１０８で学習後のモデルを評価して、進捗が１００％になれば学習が完了したと判定する。更新タイミング決定部１１２は、学習が完了したと判定した場合はＳ３２１に進み、完了していなければＳ３０６に戻る。
更新タイミング決定部１１２は、精度ではなく学習の収束性によって学習完了を判定してもよい。例えば、更新タイミング決定部１１２は、Ｓ３１９で学習した前後のモデルで、追加した特徴量の対数尤度を計算して比較し、その差の絶対値が例えば０．０１未満ならば収束と判定して学習完了としてもよい。

Ｓ３２１において、表示処理部１０９は、利用者に学習中モデルの学習が完了したことを表示部に更新確認ダイアログ２１０のように提示する。そして、モデルを交換してよいかどうかを利用者に確認する。利用者は提示された情報をもとに判定して、入力部を介して「交換する」「学習継続」「中止」の何れかを入力する。操作部１１０は、入力された情報を受け取る。
Ｓ３２２において、モデル更新部１１１は、利用者が入力した情報に基づき、「交換する」ならばＳ３２３に進み、そうでなければＳ３０６に戻る。モデル更新部１１１は、「学習継続」の場合はそのまま戻り学習を継続するが、「中止」の場合は学習済みフラグのみを立ててから戻る。これによって以降のフローチャートの処理において、学習中モデルの学習が進行せず、リファレンスモデルが使われ続けるようになる。
Ｓ３２３において、モデル更新部１１１は、学習済みフラグと変換不要フラグとを共に立てて、かつ、認識部１０３が保持するモデルをＳ３１５で学習が完了したモデルに更新する。
このようにして、Ｓ３２３が実行された後は、Ｓ３０９で変換不要と判定され、かつ、Ｓ３１４で学習済みと判定されるようになるため、Ｓ３１０及びＳ３１５からＳ３１７までが実行されなくなる。即ち、Ｓ３１１ではリファレンス環境に変換した特徴量ではなく、新設監視カメラの撮影環境で得られた特徴量をそのまま用いて、かつ、Ｓ３１５で新設監視カメラの撮影環境で学習したモデルを用いて認識を行うようになる。

本実施形態の処理によれば、モデルの学習が完了した後は、特徴量の変換を行うことなく新設監視カメラの撮影環境の特徴量とモデルとを利用して認識が行えるようになり、特徴量の変換に伴う計算負荷及び精度劣化の可能性を回避することができる。
本実施形態では学習中のモデルの評価に基づいて学習の進捗を判定し、モデルの性能が充分に高いと評価されたタイミングによってモデルを更新しているが、モデル更新のタイミングの定め方はこれに限らない。例えば１万個等、一定数以上の特徴量を学習した時点で更新するとしてもよいし、学習開始から１週間経過した時点で更新するとしてもよい。また、監視対象個所の照明変動等の環境変動を検出して、環境の変動が小さい状態で例えば１週間経過すれば更新する、等としてもよい。これらの条件を組み合わせてもよいし、その組み合わせ方を利用者の入力によって定めてもよい。

＜実施形態２＞
実施形態１では監視カメラの姿勢に基づいて、人体の姿勢特徴量を回転によって変化させる方法を説明した。しかし、撮影環境の差異の内容によっては単純な特徴量の変換では足りず、映像処理によってリファレンス環境に近づけることを要することがある。
本実施形態では、顔画像を用いて、「異常」な人物、即ち非登録の部外者を検出するシステムについて説明する。本実施形態では、実施形態１に対して追加又は変更する部分について説明し、共通部分については説明を省略する。

図１１は、実施形態２で行う画像の変換と特徴量とを説明する図である。
撮影部１０１は、映像６０１のような映像を撮影し、人物の顔６０２を検出すると、その顔の部分を顔画像６０３として切り出す。撮影部１０１の監視カメラが上方から見下ろす画角で設置されているため、顔画像６０３の顔はやや下向きで、また照明条件によって陰影６０４のような陰影が付いている。
本実施形態では、情報処理システムは、このような顔画像を、６０５のように正面向きに正規化する。正規化した顔画像から目及び口等の顔パーツを検出し、それらの端点から６０６のような特徴点を検出して、特徴点集合６０７を作成する。これを特徴量として、情報処理システムは、予め登録した人物の正面顔から同様に作成した特徴量のモデルと比較することによって、登録済みの人物の顔であるかどうかを判定する。
一方で、情報処理システムは、正規化前の顔画像６０３からも同様に特徴点検出を行って、カメラ視点での特徴点集合６０９を作成する。情報処理システムは、正規化した特徴点集合６０７を用いて人物を同定した結果を用いて、カメラ視点での同人物の特徴点集合６０９を収集してモデルを作成することで、顔画像６０３からそのまま認識を可能にする。
また、本実施形態では人物ごとにモデルを作成することになるため、それぞれを一から作ると効率がよくない。そのため、他の監視カメラで作られた特徴量の辞書を利用する。即ち、情報処理システムは、他の監視カメラで作られたモデルをベースとして追加学習を行うことによって新しいモデルを作成する。また、情報処理システムは、類似した撮影環境にある監視カメラが複数ある場合、それぞれをベースモデルとしてモデル候補を複数学習して、評価のよいものを選ぶことで、認識に適したベースモデルを選び出す。

図１２は、実施形態２の情報処理システムの機能構成の一例を示す図である。図５の機能構成と比較すると、図１２の機能構成では特徴量変換部１０７に代わって映像変換部７１１が加わる。また、特徴量抽出部１０２は、上述した特徴点集合を作成することによって特徴量を抽出する。認識部１０３は、その特徴量を用いて登録済みの人物の顔であるかどうかを判定する。このことによって異常検知を行う。
映像変換部７１１は、撮影部１０１が撮影した映像を変換した映像を出力する。本実施形態においては、映像変換部７１１は、正面以外を向いた人物の顔の画像を、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）等の公知の手法を用いて、正面を向いた時の画像を推定して出力する。特徴量抽出部１０２は、撮影部１０１が撮影した映像及び、映像変換部７１１が変換した映像に対して特徴量の抽出を行う。

図１３は、実施形態２の情報処理の一例を示すフローチャートである。図１３のフローチャートでは図８のフローチャートと同様に、新設監視カメラを追加した際、又はカメラ環境が変化してリセット操作が行われた際に情報処理システムが実行する処理を表す。
本実施形態のフローチャートの処理は、Ｓ３２４までは図８と同様である。但し、Ｓ３０４で撮影環境管理部１０５が取得するリファレンスカメラのモデルは、登録された人物ごとに設けられた混合ガウス分布モデルである。また、Ｓ３２４においては、条件変動検出部１１３は、監視カメラの俯角と高さとに加えて、照明条件の変動があるかどうかも判定する。条件変動検出部１１３は、それぞれの監視カメラから撮影された背景画像の色温度を計算して、その差が例えば１０００Ｋ以上であれば照明条件に変動があったと判定する。Ｓ３２４で、条件変動検出部１１３は、条件変動があったと判定すると、Ｓ８０１に進む。
Ｓ８０１において、モデル学習部１０４は、撮影環境管理部１０５が管理するカメラ環境を取得して、類似した環境にある監視カメラに対応するモデルをベースモデルとして取得する。モデル学習部１０４は、後述するＳ８０５においてここで取得したベースモデルを初期モデルとして学習する。類似した環境にある監視カメラが複数あれば、モデル学習部１０４は、ベースモデルも複数取得する。

Ｓ３０７の次は、Ｓ８０２に進む。Ｓ８０２において、モデル学習部１０４は、変換不要フラグが立っているかどうかを判定する。モデル学習部１０４は、立っていなければＳ８０３に進んでからＳ８０４に進み、そうでなければそのままＳ８０４に進む。
Ｓ８０３において、映像変換部７１１は、Ｓ３０７で検出された人物の頭部の画像を変換して、正面向きに正規化する。
Ｓ８０４において、特徴量抽出部１０２は、顔画像から特徴量を抽出する。特徴量抽出部１０２は、Ｓ８０３で顔画像の変換が行われなかった場合はＳ３０７で検出された人物の頭部の画像から抽出し、行われた場合はＳ８０３で変換された画像から抽出する。
次にＳ３１１に進み、本実施形態では、認識部１０３は、Ｓ８０４で抽出された特徴量について人物の同定を行い、登録済みの人物かどうかを判定する。そして、認識部１０３は、登録済みの人物でない場合は「異常」な人物であるという結果を保持する。
Ｓ３１４で、認識部１０３は、モデル学習済みフラグが立っていなかった場合は、Ｓ８０５に進む。
Ｓ８０５において、モデル学習部１０４は、モデルの学習を行う。学習の方法は図１４を用いて説明する。

図１４は、Ｓ８０５において学習中モデルを学習する際の情報処理の一例を示すフローチャートである。
Ｓ９０１において、モデル学習部１０４は、学習中のベースモデルから一つを選ぶ。ここでは選択の順序は重要ではない。
Ｓ９０２において、モデル学習部１０４は、Ｓ３１５と同様に、選択したベースモデルの学習の進捗が所定の基準以上に達しているかどうかを判定する。モデル学習部１０４は、選択したベースモデルの学習の進捗が所定の基準以上に達していれば精度をチェックするためＳ９０３に進み、達していなければ特徴量の学習を継続するためＳ９０７に進む。
例外として、学習中のベースモデルが１つしかない場合は、精度によらずその学習モデルの学習を継続するため、モデル学習部１０４は、学習の進捗が所定の基準以上に達していてもＳ９０７に進むようにする。このケースはもともと類似した環境にある監視カメラが１つしかない場合に加え、後述するＳ９０６の処理によってベースモデルが破棄された結果、１つしか残っていない場合にも発生する。
Ｓ９０３においては、認識部１０３は、Ｓ３０７で検出された人物について、変換前の画像から抽出した特徴量について、学習中モデルを用いてＳ３１１と同様に認識を行って異常検知する。Ｓ９０３の処理は、Ｓ３１６と同様、学習中モデルにおける性能の確認のために行う。
Ｓ９０４において、モデル学習部１０４は、Ｓ３１１で行ったリファレンスモデルでの異常検知の結果と、Ｓ９０３で行った学習中モデルでの異常検知の結果と、を比較して、異なる結果を得た特徴量の数を累計して集計する。

Ｓ９０５において、モデル学習部１０４は、Ｓ９０４で集計した誤り数が基準の値、例えば１００個を超えたかどうかを判定する。モデル学習部１０４は、Ｓ９０４で集計した誤り数が基準の値を超えた場合はＳ９０６に進み、そうでない場合はＳ９０７に進む。
Ｓ９０６においては、モデル学習部１０４は、現在のベースモデルを精度が基準に達する見込みがないものとして、破棄してベースモデルから除く。そして、モデル学習部１０４は、Ｓ９１０に進む。
Ｓ９０７においては、モデル学習部１０４は、未選択の特徴量を一つ選択する。ここでは選択の順序は重要ではない。
Ｓ９０８において、モデル学習部１０４は、Ｓ９０７で選択した特徴量を、Ｓ３１１でその特徴量について同定を行った人物として、モデルに追加して学習する。「異常」な人物であった場合は、モデル学習部１０４は、学習を行わない。但し、モデル学習部１０４は、「異常」な人物のモデルを学習してもよいし、新しい人物であるとして新たにモデルを学習するようにしてもよい。
Ｓ９０９において、モデル学習部１０４は、Ｓ９０７でまだ選択されていない特徴量があるかどうかを判定する。モデル学習部１０４は、Ｓ９０７でまだ選択されていない特徴量がある場合はＳ９０７に戻って処理を繰り返し、すべての特徴量の選択が完了するとＳ９１０に進む。
Ｓ９１０においては、モデル学習部１０４は、Ｓ９０１でまだ選択されていないベースモデルがあるかどうかを判定する。モデル学習部１０４は、Ｓ９０１でまだ選択されていないベースモデルがある場合はＳ９０１に戻って処理を繰り返し、すべてのベースモデルの選択が完了すると、図１４のフローチャートの処理を終了する。

本実施形態の処理によれば、映像処理によってリファレンス環境のモデルを利用しつつ、新設監視カメラにおけるモデルの学習が完了した後は、映像処理を行うことなく新設監視カメラの撮影環境の特徴量とモデルとを利用して認識が行えるようになる。また、モデルの学習において最も効果的なベースモデルを、複数のカメラ環境から選び出して利用することができる。

＜実施形態３＞
実施形態１及び実施形態２では、監視カメラの撮影環境に由来するドメイン変化へ対応する方法を説明した。しかし、頻出する被写体の条件に基づいてドメインが変化する場合もある。
本実施形態では、歩容解析を用いた非登録の部外者を検出する方法で、被写体の条件に対して適応する情報システムについて説明する。
実施形態３では、実施形態２に対して追加又は変更する部分について説明し、共通部分については説明を省略する。
本実施形態の情報処理システムの設置状況と目的とについて説明する。設置場所は複数の区画に分けられる建造物であり、各区画について入場管理が行われている。監視カメラは各区画にそれぞれ数台ずつ設置されており、撮影された映像中の人物が、登録済みの人物であるかどうかを歩容解析によって判定し、未登録の人物を検出すると異常を通知する。
各区画の人物は区画ごとに異なる制服を着用しており、映像的な特徴が異なる。例えば裾の長さが違う等の影響によって、異なる制服の場合には同一人物でも歩容の特徴が偏った分布を伴って現れる可能性がある。そのため、出現する人物の制服が異なる環境の監視カメラをリファレンスにしなければならない場合は、人物画像の服装をリファレンス環境の制服に変換することによって、分布の違いを吸収する。

図１５は、実施形態３で行う画像の変換と特徴量とを説明する図である。
撮影部１０１は、区画Ａの監視カメラで１１０１のような映像を撮影する。情報処理システムは、区画Ａにおける制服Ａを着た人物１１０２を検出すると、人物の部分を人物画像１１０３として切り出し、切り出した画像を系列にして歩容特徴量１１０４を抽出する。すると、情報処理システムは、人物１１０２のモデル１１０５を学習し、学習が完了した後は人物１１０２の判定に用いる。
ここで、人物１１０２の配置が換わって区画Ｂに移り、異なる制服Ｂを着るようになったものとする。区画Ｂの監視カメラで１１０６のような映像を撮影する。そして、情報処理システムは、同様に歩容解析を行いたい。そのため、情報処理システムは、人物１１０２のモデルを保持する区画Ａの監視カメラからモデル１１０５を取得するが、制服の変化のために歩容の分布が変化している可能性がある。
そのため、情報処理システムは、区画Ａの監視カメラからモデル１１０５のコピーを取得して、区画Ｂ監視カメラ用モデル１１１０を作成する。区画Ｂにおいては、情報処理システムは、切り出した人物画像１１０７に対して、ＣＮＮを用いて画像変換を行い、制服Ｂを着た人物の映像を制服Ａに変換した画像１１０８を作成する。そして、情報処理システムは、区画Ｂの監視カメラの歩容特徴量１１０９を抽出して、区画Ｂ監視カメラ用モデル１１１０を用いて歩容解析する。

一方で、情報処理システムは、変換前の人物画像１１０７からも同様に歩容特徴量１１１１を抽出して、先ほどの変換後の歩容特徴量１１０９で歩容解析した結果が人物１１０２であれば、区画Ｂ監視カメラ用モデル１１１０に歩容特徴量１１１１を追加学習する。このようにして、追加学習によって区画Ｂ監視カメラ用モデル１１１０を制服Ｂにも対応させながら、学習途上の区画Ｂ監視カメラ用モデル１１１０を用いて制服Ａの検出も行い、充分に学習が進んだ時点で歩容特徴量１１１１を使って歩容解析するように切り替える。
区画Ａの監視カメラから取得したモデル１１０５、及び取得したばかりの初期の区画Ｂ監視カメラ用モデル１１１０は歩容のモデルであって、直接には制服Ａを表現しないが、制服Ａに偏って学習が行われているために、予期しない影響がある可能性がある。そのため制服Ｂのデータを加えてロバスト化を行っている。
本実施形態においては、モデルを一から入れ替えるのではなくリファレンスモデルへの追加学習の形で適応を行い、追加学習中のモデルとリファレンスモデルとを並行して用いる。また、この適応は利用者が意識しない形で自動的に行うようにする。
本実施形態に係る情報処理システムの機能構成は、図１２に示した実施形態２と同様である。但し、本実施形態において、特徴量抽出部１０２は、脚部の移動についての振動数等、歩容解析に適した特徴量を抽出する。そして、認識部１０３は、その特徴量を用いて登録済みの人物の歩容であるかどうかを判定することによって異常検知を行う。
また、映像変換部７１１は、ＣＮＮ等を用いて、映像中に含まれる人物を、所定の服装を着用しているように変換する。

図１６は、実施形態３の情報処理の一例を示すフローチャートである。図１６のフローチャートでは図１３のフローチャートと同様に、新設監視カメラを追加した際、又はカメラ環境が変化してリセット操作が行われた際に情報処理システムが実行する処理を表す。
本実施形態においては、Ｓ３０２までは図１３と同様である。Ｓ３０２の次はＳ１２０１に進む。
Ｓ１２０１においては、モデル学習部１０４は、撮影部１０１で撮影された人物について服装を推定して、同様の服装をした人物が多い監視カメラを優先してリファレンスカメラとして選択する。同様の服装をした人物がいない場合は、モデル学習部１０４は、カメラパラメーターが類似した監視カメラを選択する。
Ｓ１２０１の次はＳ３０４に進んで、撮影環境管理部１０５は、リファレンスカメラのモデルとカメラパラメーターとを取得する。
Ｓ３０４の次はＳ３２４に進み、条件変動検出部１１３は、リファレンスモデルについて以降の学習を行うかどうかを判定する。即ち、条件変動検出部１１３は、先ほどのＳ１２０１において、同様の服装をした人物が多い監視カメラが優先して選択されたかどうかを判定し、同様の服装をした人物が多い監視カメラが優先して選択されていない場合に学習を行うことを決定する。条件変動検出部１１３は、学習を行うと判定すればＳ３０６に進み、そうでない場合はＳ３２５に進む。Ｓ３２５において、条件変動検出部１１３は、学習済みフラグを立ててＳ３０６に進む。学習を行わない場合は、リファレンスモデルをそのまま用いて認識を行うことになる。
本実施形態では、条件変動検出部１１３は、被写体の属性の一例として被写体の人物の服装に基づいて条件変動を検出している。しかし、これに限るものではなく、例えば、条件変動検出部１１３は、年齢、性別、人種、携帯する物品等の被写体の属性を用いて条件変動を検出してもよい。また、人物に限らなくともよく、例えば被写体を車として、特定の車種が多いかどうかによって条件変動を検出する場合も同様の方法を用いることができる。

本実施形態におけるＳ３０６からＳ３１４までの処理は、図１３と同様である。但し、本実施形態におけるＳ８０３では、映像変換部７１１は、リファレンスカメラの被写体が着ている服装に合わせて、映像中に含まれる人物の服装を変換する。
本実施形態におけるＳ３１４において、認識部１０３は、モデルが学習済みでないと判定した場合は、図８と同様のＳ３１５に進む。ここからＳ３１９までは、Ｓ３１７とＳ３１８とを省略することを除いて図８と同様である。本実施形態でＳ３１７とＳ３１８とを除くのは、利用者が意識しない形で自動的にモデルの更新を行うためである。
本実施形態におけるＳ３１９において、モデル学習部１０４は、リファレンスカメラから取得したモデルに対して直接追加学習を行い、一つのモデルについて順次学習を進捗させる形をとる。次のＳ３２０において、更新タイミング決定部１１２は、学習が充分であると判定するとＳ１２０４に進む。
Ｓ１２０４においては、モデル更新部１１１は、学習済みフラグと変換不要フラグとを立てる。本実施形態の情報処理システムは、Ｓ３２３と異なりモデルの交換は行わず、以降は学習済みのモデルに対して、変換を行わずに認識を行うようにする。

本実施形態の処理によれば、リファレンス環境のモデルを利用しつつ、徐々にリファレンスカメラのモデルを新設監視カメラの被写体の条件に対して適応させることができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した機能構成の一部又はすべてはハードウェア構成として各装置に実装されてもよい。

以上、上述した各実施形態によれば、異なるドメインで学習したモデルを利用して迅速に新たなカメラでの認識を開始することができ、かつ、新たなカメラのドメインでのモデル作成を並行して進めることができる。

００４解析サーバー
１０ＣＰＵ
１１記憶部

Claims

撮像手段で撮像された映像に対して認識処理を行う認識手段と、
前記認識処理の対象の条件の変動を検出する第１の検出手段と、
前記映像から第１の特徴量を抽出する第１の抽出手段と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第１の特徴量を変換することにより、当該変動量に応じた第２の特徴量を抽出する第２の抽出手段と、
前記認識処理の結果に基づいて、当該認識処理に用いる第１のモデルの更新に使用する第２のモデルを前記第２の特徴量を用いて作成する学習手段と、
前記第２のモデルの学習状況を評価する評価手段と、
前記評価手段による前記第２のモデルの学習状況の評価結果に基づき、前記第１のモデルを前記第２のモデルに更新するタイミングを決定する決定手段と、
前記決定手段により決定された前記タイミングで前記第１のモデルを前記第２のモデルに更新する更新手段と、
を有する情報処理装置。
前記認識処理の対象の条件の変動量は、前記撮像手段が映像を撮像する方向の角度であることを特徴とする請求項１記載の情報処理装置。
前記学習手段は、前記第１のモデルに追加学習を行って前記第２のモデルを作成する請求項１又は２記載の情報処理装置。
前記撮像手段の撮像に伴う条件の変動を検出する第２の検出手段を更に有し、
前記決定手段は、前記撮像に伴う条件の変動に基づいて前記更新のタイミングを決定する請求項１又は２記載の情報処理装置。
前記撮像手段が前記映像を撮像する撮像環境を取得する取得手段を更に有し、
前記第２の検出手段は、前記撮像環境に基づいて前記撮像に伴う条件の変動を検出する請求項４記載の情報処理装置。
前記決定手段は、前記認識処理の対象の条件の変動に基づいて前記更新のタイミングを決定する請求項１又は２記載の情報処理装置。
前記第１の検出手段は、前記撮像手段で撮像された被写体に基づいて前記認識処理の対象の条件の変動を検出する請求項６記載の情報処理装置。
前記第１の検出手段は、前記認識処理の対象の属性に基づいて前記認識処理の対象の条件の変動を検出する請求項６記載の情報処理装置。
前記第１の特徴量を変換する第１の変換手段を更に有し、
前記第２の抽出手段は、前記認識処理の対象の条件の変動量に基づいて前記第１の特徴量を前記第１の変換手段で変換することによって前記第２の特徴量を抽出する請求項１乃至８何れか１項記載の情報処理装置。
前記映像を変換する第２の変換手段を更に有し、
前記第２の抽出手段は、前記認識処理の対象の条件の変動量に基づいて前記映像を前記第２の変換手段で変換した映像から前記第２の特徴量を抽出する請求項１乃至８何れか１項記載の情報処理装置。
前記更新手段は、複数の前記第２のモデルの候補から一のモデル候補を選択し、選択した一のモデル候補で前記第１のモデルを更新する請求項１乃至１０何れか１項記載の情報処理装置。
前記更新手段は、前記複数の第２のモデルの候補それぞれを用いて前記認識処理を行った結果と、前記第１のモデルを用いて前記認識処理を行った結果と、に基づき前記一のモデル候補を選択する請求項１１記載の情報処理装置。
前記学習手段は、前記撮像手段とは異なる他の撮像手段で撮像された映像に対する認識処理に用いられるモデルをベースとして前記第２のモデルを生成することを特徴とする、請求項１記載の情報処理装置。
映像を撮像する撮像手段と、
前記撮像手段で撮像された映像に対して認識処理を行う認識手段と、
前記認識処理の対象の条件の変動を検出する第１の検出手段と、
前記映像から第１の特徴量を抽出する第１の抽出手段と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第１の特徴量を変換することにより、当該変動量に応じた第２の特徴量を抽出する第２の抽出手段と、
前記認識処理の結果に基づいて、当該認識処理に用いる第１のモデルの更新に使用する第２のモデルを前記第２の特徴量を用いて作成する学習手段と、
前記第２のモデルの学習状況を評価する評価手段と、
前記評価手段による前記第２のモデルの学習状況の評価結果に基づき、前記第１のモデルを前記第２のモデルに更新するタイミングを決定する決定手段と、
前記決定手段により決定された前記タイミングで前記第１のモデルを前記第２のモデルに更新する更新手段と、
を有する情報処理システム。
前記更新手段によるモデルの更新に関する情報を表示する表示手段を更に有する請求項１４記載の情報処理システム。
前記表示手段は、前記情報として、新たなモデルの学習の進捗の情報を表示する請求項１５記載の情報処理システム。
前記表示手段は、前記情報として、前記モデルの認識結果と学習中の新たなモデルの認識結果との差異の情報を表示する請求項１５記載の情報処理システム。
前記表示手段は、前記情報として、前記モデルの認識結果と学習が完了した新たなモデルの認識結果との差異の情報を表示する請求項１５記載の情報処理システム。
前記モデルの認識結果と前記学習中の新たなモデルの認識結果との何れが正しいかを入力する入力手段を更に有する請求項１７記載の情報処理システム。
情報処理装置が実行する情報処理方法であって、
撮像手段で撮像された映像に対して認識処理を行う認識工程と、
前記認識処理の対象の条件の変動を検出する第１の検出工程と、
前記映像から第１の特徴量を抽出する第１の抽出工程と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第１の特徴量を変換することにより、当該変動量に応じた第２の特徴量を抽出する第２の抽出工程と、
前記認識処理の結果に基づいて、当該認識処理に用いる第１のモデルの更新に使用する第２のモデルを前記第２の特徴量を用いて作成する学習工程と、
前記第２のモデルの学習状況を評価する評価工程と、
前記評価工程における前記第２のモデルの学習状況の評価結果に基づき、前記第１のモデルを前記第２のモデルに更新するタイミングを決定する決定工程と、
前記決定工程において決定された前記タイミングで前記第１のモデルを前記第２のモデルに更新する更新工程と、
を含む情報処理方法。
情報処理システムが実行する情報処理方法であって、
映像を撮像する撮像工程と、
前記撮像工程で撮像された映像に対して認識処理を行う認識工程と、
前記認識処理の対象の条件の変動を検出する第１の検出工程と、
前記映像から第１の特徴量を抽出する第１の抽出工程と、
前記認識処理の対象の条件の変動量に基づいて前記映像又は前記第１の特徴量を変換することにより、当該変動量に応じた第２の特徴量を抽出する第２の抽出工程と、
前記認識処理の結果に基づいて、当該認識処理に用いる第１のモデルの更新に使用する第２のモデルを前記第２の特徴量を用いて作成する学習工程と、
前記第２のモデルの学習状況を評価する評価工程と、
前記評価工程における前記第２のモデルの学習状況の評価結果に基づき、前記第１のモデルを前記第２のモデルに更新するタイミングを決定する決定工程と、
前記決定工程において決定された前記タイミングで前記第１のモデルを前記第２のモデルに更新する更新工程と、
を含む情報処理方法。
コンピュータを、請求項１乃至１３何れか１項記載の情報処理装置の各手段として機能させるためのプログラム。
撮像された映像に対する認識処理の結果に基づいて学習手段により作成される第２のモデルであって、当該認識処理に用いる第１のモデルの更新に使用される前記第２のモデルの学習状況を評価する評価手段と、
前記評価手段による前記第２のモデルの学習状況の評価結果に基づき、前記第１のモデルを前記第２のモデルに更新するタイミングを決定する決定手段と、
前記決定手段により決定された前記タイミングで前記第１のモデルを前記第２のモデルに更新する更新手段と、
を有し、
前記第２のモデルは、検出された前記認識処理の対象の条件の変動量に基づいて前記映像又は前記映像から抽出される第１の特徴量を変換することにより抽出される、当該変動量に応じた第２の特徴量を用いて作成される
ことを特徴とする、情報処理装置。