JP6406886B2

JP6406886B2 - 画像処理装置、画像処理方法、コンピュータプログラム

Info

Publication number: JP6406886B2
Application number: JP2014120889A
Authority: JP
Inventors: 一郎梅田; 矢野　光太郎; 光太郎矢野; 睦凌郭; 内山　寛之; 寛之内山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-06-11
Filing date: 2014-06-11
Publication date: 2018-10-17
Anticipated expiration: 2034-06-11
Also published as: JP2016001397A

Description

本発明は、例えば動画像に映された物体を辞書の学習を行いながら検出する画像処理装置に関する。

撮像装置で撮影した動画像を解析し、その動画像に映された物体の動きを監視するシステムが知られている。動画像の解析には、物体を検出し、追尾する技術が必要となる。このような技術に関し、例えば特許文献１には、ネットワークに接続された撮像装置から取得した画像を学習し、その画像に映されている物体を追尾する技術が開示されている。また、非特許文献１には、ネットワークを用いて動画像を伝送する場合に、ネットワークで起こり得る異常の回復機能を持つ圧縮・復号技術が開示されている。また、非特許文献２には、物体を追尾する際に、物体の周囲の画像を物体画像として学習してしまうことに起因する性能の低下について言及されている。非特許文献２には、また、学習する画像に追尾対象となる物体ではない画像が含まれていたとしても、その物体に近いと思われる画像を優先的に選択する機械学習手法が開示されている。

特許第５１１６６０５号公報

ＩＴＵ＿ＴＨ．２６５ Boris Babenko et al, Visual Tracking with Online Multiple Instance Learning, Computer Vision andPattern Recognition 2009

撮像装置が振動やいたずらの影響を受けたり、ネットワークでパケットロスが起きたりする異常によって画像が壊れることがある。壊れた画像から取得した画像特徴は、物体の画像を正しく表すものではない。また、壊れた画像特徴を辞書として使用すると、その後の物体追尾の性能が劣化する。この劣化は、辞書が削除されるか、その後十分な数の正常な画像を学習し、異常の影響を受けた画像特徴が統計的に無視できるようになるまで継続する。
特許文献１に開示された技術は、このような異常を考慮していない。非特許文献１に開示された技術を用いてもこの異常の影響が残る。非特許文献２が開示する技術によっても、壊れた画像を学習することによる物体追尾の性能は劣化する可能性は高い。

本発明は、画像に映された物体の検出を辞書の学習を行いながら行う過程で異常が発生したときの影響を低減させる画像処理装置を提供することを主たる目的とする。

本発明は、物体が映された画像を時系列に取得する取得手段と、前記画像から前記物体およびその画像特徴を検出する検出手段と、前記取得された画像または検出された画像特徴の異常を検出する監視手段と、複数種類の辞書を管理し、取得された画像から検出された物体の画像特徴に基づいて、当該画像特徴について前記複数種類の辞書を学習するとともに、前記異常が検出されたときは、前記画像特徴に基づく前記学習を、前記異常が回復した後に、前記辞書の種類に応じて設定された所定条件を満たすまで抑制する辞書管理手段と、を有する画像処理装置を提供する。

本発明によれば、画像または画像特徴に異常が検出されたときの学習が、辞書の種類に応じて設定された所定条件を満たすまで抑制されるので、学習に対する異常の影響が低減する。そのため、例えばその後の物体の追尾性能が劣化する事態を回避することができる。

第１実施形態に係る追跡システムの全体構成図。画像処理装置のハードウェア構成図。画像処理装置の機能校正図。追跡対象となる歩行者の歩行経路とカメラとの配置説明図。（ａ）は画像の変移図、（ｂ）（ｃ）は検出枠の内容を示す図。（ａ）（ｂ）は追尾結果、（ｃ）は推定検出枠を示す図。ネットワーク異常が発生している場合の画像の変移図。（ａ）は追尾結果、（ｂ）は推定検出枠を示す図。第１実施形態における処理手順説明図。動作監視部の処理手順説明図。辞書学習処理の詳細手順説明図。

［第１実施形態］
以下、本発明の実施の形態例を説明する。図１は本実施形態に係る画像処理装置を含む追跡システムの全体構成図である。この追跡システムは、ネットワーク伝送路Ｎ１に、複数の画像処理装置１，２と、撮像装置の一例となるカメラＣ１，Ｃ２とを接続して構成される。ネットワーク伝送路Ｎ１は、インターネット、イーサネット（登録商標）、無線ＬＡＮ等である。撮像装置２には、ローカルのカメラＣ３が接続されている。画像処理装置１，２は、カメラの接続形態が異なるだけで、基本的な構成は共通となる。なお、ネットワーク伝送路Ｎ１に接続される画像処理装置およびカメラの数は任意である。また、ローカルのカメラＣ３は、必ずしも画像処理装置２に接続されている必要はない。

まず、画像処理装置１の構成について説明する。図２は、画像処理装置１のハードウエア構成図である。画像処理装置１は、バスＮ２を通じて相互に接続されたＣＰＵ１１、ＲＯＭ１２、ＲＡM１３、ストレージ１４を有するコンピュータである。バスＮ２には、また、ビデオＩ／Ｆ（Ｉ／Ｆはインタフェースの略。以下同じ）１５、ネットワークＩ／Ｆ１６、デバイスＩ／Ｆ１７も接続されている。
ＣＰＵ（Central Processing Unit）１１は、コンピュータプログラムを実行することにより、上記のコンピュータを画像処理装置１として動作させる。また、この画像処理装置１の全体動作を制御する。ＲＯＭ（Read Only Memory）１２は、ＣＰＵ１１が実行するコンピュータプログラムや各種パラメータデータを格納する。ＲＡＭ（Random Access Memory）１３は、ＣＰＵ１１のワークエリアやデータの一次待避領域として使用される。また、適宜、画像や処理情報を記憶する。ストレージ１４は、ハードディスクや半導体メモリであり、各種追尾辞書などが格納されている。ビデオＩ／Ｆ１５は、図示しないディスプレイへのデータの送信を行うインタフェースである。ネットワークＩ／Ｆ１６は、ネットワーク伝送路Ｎ１とＣＰＵ１１との間で双方向通信を行うインタフェースである。デバイスＩ／Ｆ１７は、図示しないポインティングデバイスや外部メモリの装着デバイスとの間でデータの受け渡しを行うインタフェースである。

図３は、ＣＰＵ１１がコンピュータプログラムを実行することにより、情報処理装置１０に形成される機能の構成例を示す図である。本実施形態では、情報処理装置１０を、主制御部２０、通信制御部２１、デバイス制御部２２，表示制御部２３として機能させる。また、情報処理装置１０を、復号部２４、動作監視部２５、物体検出部２６、物体追尾部２７および辞書管理部２８として機能させる。

通信制御部２１は、ネットワークＩ／Ｆ１６を介してネットワーク伝送路Ｎ１との間に通信路を確立し、以後の双方向通信を可能にする。例えば、各カメラＣ１，Ｃ２から、物体が映された画像を時系列に取得する。この時系列の画像を動画ストリームという。デバイス制御部２２は、デバイスＩ／Ｆ１７を介して図示しないデバイスの受け渡しを可能にする。表示制御部２３は、ビデオＩ／Ｆ１５を介して図示しないディスプレイへのデータ送出を可能にする。

復号部２４は、受信した動画ストリームを、連続する複数の静止画として復号する。復号には、例えば非特許文献１に開示された動画デコード技術を用いることができる。なお、通信制御部２１と復号部２４は、非同期に動作しても良い。すなわち、通信制御部２１が一定量の動画ストリームを受信してＲＡＭ１３に記憶しておき、復号部２４が、一定量の動画ストリームをまとめて復号し、その結果得られる複数の連続する画像をＲＡＭ１３に記憶するようにしても良い。

動作監視部２５は、本装置内の画像処理の状況を監視する。例えばネットワーク伝送路Ｎ１に異常が発生しているか否か、その異常が回復したか否かを検出する。ネットワーク伝送路Ｎ１の異常には通信路の輻輳やルーティング異常などによるパケットロスや遅延などがある。また、復号部２４および後述する物体検出部２６により検出された画像または画像特徴および物体追尾部２７における追尾検出の結果の異常も検出する。動作監視部２５は、動作基準値２５１を保持しており、この動作基準値２５１に基づいて上記の異常および回復を判定する。異常時には異常信号を出力し、他方、回復時には正常信号を出力する。動作監視部２５は、また、ＣＰＵ１１が有する公知のクロック計測機能を用いて異常時間の計測と、正常時間の計測とを行う。正常時間は、検出された異常が最後に回復してからの経過時間である。

物体検出部２６は、復号部２４で復号された画像中の物体およびその画像特徴を検出し、物体の位置を求める。検出する物体はその種別を問わない。物体の画像特徴は、物体の形状、サイズ、テクスチャなどである。物体は、検出枠の形で画像から切り出し可能とする。本例では、物体の例として歩行者を挙げる。歩行者の検出には、例えば以下の非特許文献３に開示された技術を用いることができる。
［非特許文献３］Navneet Dalal and Bill Triggs, Histograms of Oriented Gradients for Human Detection, CVPR2005

物体追尾部２７は、物体検出部２６で画像から歩行者を検出できなかった場合に、隣り合う画像で検出された歩行者の位置から、検出できなかった歩行者の位置を推定することにより追尾を行う。追尾の形態には、カメラ内追尾、カメラ間追尾、長期間追尾の３種類がある。「カメラ内追尾」とは、一つのカメラの撮影範囲において歩行者の同一性を識別する形態である。「カメラ間追尾」とは、複数のカメラの撮影範囲における歩行者の同一性を識別する形態である。「長期間追尾」とは、カメラの数に関わらず一定以上の時間差、例えば１日を超えて異なる複数の画像に映る歩行者の同一性を識別する形態である。

物体追尾部２７は、検出された歩行者の画像特徴に基づいて当該歩行者を追尾する。具体的には、物体検出部２６が検出に成功した画像における歩行者の位置と追尾辞書とに基づいて、物体検出部２６が検出に失敗した画像での歩行者の位置を推定する。この推定技術には、例えば以下の非特許文献４に開示された技術を用いることができる。
［非特許文献４］B.Benfold and I.Reid, Stable Multi-Target Tracking in Real-Time Surveillance Video, CVPR2011

辞書管理部２８は、取得された画像に映された歩行者の画像特徴が検出される度に、当該画像特徴の辞書を学習し、学習された辞書を保存する。但し、動作監視部２５から異常信号が出力されたときの画像の画像特徴に基づく学習は、辞書の種類に応じて設定された所定条件を満たすまで抑制する。学習手法には、例えば非特許文献２に開示されているいわゆる追加学習の手法を用いることができる。

辞書は、カメラ内追尾辞書２８１、カメラ間追尾辞書２８２、長期間追尾辞書２８３を保存する。カメラ内追尾辞書２８１は、カメラ内追尾に用いる追尾辞書である。カメラ間追尾辞書２８２は、カメラ間追尾に用いる追尾辞書である。長期間追尾辞書２８３は、長期間追尾に用いる追尾辞書である。これらの辞書２８１〜２８３は、一定の有効期間だけストレージ１４に保存される。有効期間は、歩行者がカメラ内に映り続けることが推定される時間であり、カメラ内追尾辞書２８１であれば数秒、カメラ間追尾辞書２８２であれば数十秒、長期間追尾辞書２８３であれば１日以上である。
学習が抑制される条件は、原則として、異常が回復してから所定時間が経過するまでとする。この所定時間も辞書の種類に応じて予め設定される。

辞書管理部２８は、他の画像処理装置２との間で共用される場合がある。例えば、画像処理装置１でカメラ内追尾を行った場合、辞書管理部２８は、歩行者のカメラ内での移動速度、移動方向、画像特徴などを学習したカメラ内追尾辞書２８１を作成する。カメラ間追尾を行った場合は、歩行者からカメラの設置位置を問わず類似する特徴、例えば衣服や荷物などの画像特徴を学習し、カメラ間追尾辞書２８２を作成する。カメラ間追尾辞書２８２は、他の画像処理装置２に接続するカメラとのカメラ間追尾を実現するために、画像処理装置１から画像処理装置２に送信される。その後、画像処理装置２でもカメラ間追尾辞書２８２はさらに学習される。長期間追尾を行った場合は、長期間追尾辞書２８３について学習を行い、この長期間追尾辞書が画像処理装置２へ送信される。

［動作概要］
次に、上記のように構成される追跡システムの動作例について説明する。以下、辞書管理部２８に保存されるカメラ内追尾辞書２８１、カメラ間追尾辞書２８２、長期間追尾辞書２８３を特に区別する必要がない場合は、単に「追尾辞書」という。
図４は、動作の概念図を示す。図示の例では、それぞれ単一では死角が発生する環境で、３つのカメラＣ１，Ｃ２，Ｃ３が、その死角を互いに補うように配置されている。歩行者４１が経路４１ａ、歩行者４２が経路４２ａのように歩くと、これらの歩行者４１，４２は、カメラＣ１で撮影され、次いで、カメラＣ２に撮影される。その後、カメラＣ３で撮影される。やがて、カメラＣ３でも撮影できなくなる。歩行者４２は、日を改めて経路４２ｂのように歩くと、この歩行者４２は、カメラＣ２，Ｃ３で撮影され、次いでカメラＣ１で撮影される。

経路４２ｂを歩く歩行者４２については、長期間追尾が行われるが、ここでは、説明の便宜上、画像処理装置１に、１台のカメラＣ１からの動画ストリームが送信され、カメラ内追尾を行う場合の例を説明する。画像処理装置１は、動画ストリームを通信制御部２１により受信し、復号部２４で復号することで、画像５０１〜画像５０５を時系列に得る。物体検出部２６は、画像５０１〜画像５０５に映されている歩行者４１，４２を検出しようとする。そのため、歩行者４１について検出枠５１１〜５１５、歩行者４２について検出枠５２１〜５２５を設定する。物体追尾部２７は、検出枠５１１〜５１５を、その位置や速度の比較などによりすべて歩行者４１の検出枠と認識する。その結果、歩行者４１について、図６（ａ）に示す追尾結果６１１を出力する。同様に、検出枠５２１〜５２５を、その位置や速度の比較などによりすべて歩行者４２の検出枠と認識する。その結果、歩行者４２について、図６（ａ）に示す追尾結果６１２を出力する。その後、辞書管理部２８は、追尾結果６０１，６０２から歩行者４１，４２の画像特徴を取得し、カメラ内追尾辞書２８１を学習する。

ここで、画像５０３において、歩行者４１と歩行者４２とが接近しすぎた結果、検出枠５１３，５２３が重なり、物体検出部２６が検出に失敗したとする。この場合、図５（ｃ）に示されるように、画像５０１では、検出枠５１１，５２１、画像５０２では検出枠５１２，５２２まで追尾されるが、画像５０３のときの検出枠は検出ができない。その後、画像５０４で検出枠５１４，５２４、画像５０５で検出枠５１５，５２５が回復したとする。このように検出を失敗した状況において、物体追尾部２７は、画像５０３における物体の位置を推定し、補完する。その結果、図６（ｂ）に示すように、歩行者４１について追尾結果６２１、歩行者４２について追尾結果６２２を出力する。この追尾結果６２１，６２２は、物体検出が失敗しなかった場合の追尾結果６１１，６１２と十分に近似する。この追尾結果６２１，６２２から、図６（ｃ）に示すように、検出に失敗した画像５０３における推定検出枠６３１，６３２を得ることができる。辞書管理部２８は、この推定検出枠６３１，６３２の画像の特徴をカメラ内追尾辞書２８１として学習する。これにより、その後の物体追尾部２７の精度を向上させることができる。

カメラ間追尾または長期間追尾において、物体検出部２６が、歩行者の検出に失敗した後、正常に回復した場合も、同様の推定、補完の処理が行われる。そして、推定検出枠の画像の特徴により、カメラ間追尾辞書２８２，長期間追尾辞書２８３の学習が行われる。

上述したとおり、追尾対象となる歩行者の検出に失敗しても、推定検出枠を導出し、この推定検出枠の画像の特徴で追尾辞書（例えばカメラ内追尾辞書２８１）を学習することで、追尾の精度を高めることができる。反面、追尾対象となる歩行者ではない画像の特徴で追尾辞書の学習を行うと、その後の歩行者の追尾や識別の性能が著しく低下する。この性能の低下は、その歩行者について十分な数の正常な画像を学習し、歩行者ではない特徴量が辞書内で統計的に無視できるようになるまで継続する。以下の説明では、このような性能低下の発生確率を低減させる場合の例を挙げる。

歩行者の追尾や識別の性能が劣化する原因の典型は、動画ストリームの乱れによる画像の部分的な破壊である。この現象は、主として、ネットワーク伝送路Ｎ１に異常が発生したときに起こる。この現象を図７および図８を参照して説明する。図７は、図５（ａ）に対応する。また、図８（ａ）は図６（ｂ）、図８（ｂ）は図６（ｃ）に対応する。すなわち、図４に示した状況において、ネットワーク伝送路Ｎ１で異常が発生し、その結果、時系列の画像７０１〜７０５のうち画像７０３が壊れたとする。物体検出部２６は、このときの画像特徴を検出できない。つまり、物体検出部２６は、歩行者４１，４２を検出できない。物体追尾部２７は、図８（ａ）に示すように追尾結果７２１，７２２を出力し、さらに、図８（ｂ）に示すように推定検出枠７５１を導出する。

但し、壊れた画像７０３の推定検出枠７５１内の画像特徴は、同じく壊れている可能性が高い。そのため、この推定検出枠７５１の画像特徴でカメラ内追尾辞書２８１を学習すると、その後の追尾および識別の精度が低下するおそれがある。そのため、本実施形態では、動作監視部２５が、異常の回復を検知するまで、辞書管理部２８が推定検出枠７５１の学習を抑制することとした。

但し、異常の回復の検知は、その手法の多くが推定であって、その後の画像が壊れていないことまで保障するものではない。一方、画像が壊れていたと判断されたとしても、多くの場合は、画像の一部分の細部が失われるような壊れ方であって、その画像から学習したとしても、必ず追尾精度が下がるわけではない。そのため、異常から回復したと判断された後であっても、壊れていない画像から追尾辞書を学習した場合の追尾性能の向上と、壊れている画像を学習した場合の追尾性能の低下とでリスクとメリットのトレードオフがある。このトレードオフのバランスは、追尾辞書の種別により異なる。このトレードオフを制御するために、本実施形態では、動作監視部２５において、異常が回復した後の経過時間を正常時間として計測するようにした。そして、辞書管理部２８は、正常時間が追尾辞書の種類に応じて設定された所定期間を超える場合に追尾辞書の学習を再開するようにした。

動作監視部２５は、通信制御部２１および復号部２４などの動作状況から、ネットワーク伝送路Ｎ１に異常が発生しているか否かを判別する。例えばネットワーク伝送路Ｎ１から取得した画像を成分として含む信号における、以下のいずれかの発生を検出したときに異常が発生したと判別する。
（ａ１）予め定めた閾値以下の強度低下。
（ａ２）タイミング情報、例えばフレーム番号またはシーケンス番号の不連続。
（ａ３）チェックサムの不一致。
（ａ４）フラグメンテーション再構築の失敗。
また、ネットワーク伝送路Ｎ１がイーサネットの場合、通信制御部２１において、輻輳によるフレームロスやパケットロス、経路の頻繁な変更による遅延の増加等があったとする。この場合、タイミング情報であるフレームチェックシーケンス（frame check sequence）の不連続が生じるので、異常が発生したと判別する。なお、ＩＰ層のヘッダチェックサム不一致、フラグメンテーション再構築の失敗、ＲＴＰやＵＤＰのシーケンス番号の不連続等が生じたときに、異常が発生したと判別することもできる。

ネットワーク伝送路Ｎ１の異常は、復号部２４の動作状況を監視することで検出することもできる。例えば復号部２４における符号化手段の動作中に以下の状態が検出された場合、異常と判別することができる。
（ｂ１）動画像における、復号時のチェックサムの異常。
（ｂ２）動画像における、タイミング情報の不連続。
（ｂ３）Ｈ．２６４／ＡＶＣで符号化されたときのＴＥＩ（Transport Error Indicator）の検出。
（ｂ４）Ｈ．２６４／ＨＥＶＣで符号化されたときの「timing information」の不連続。
あるいは、「NAL unit」での異常ビット列の検出。「NAL unit」での異常ビット列が検出されたときは、通常はフォーマット異常が生じていることを意味する。

なお、「MotionJPEG」コーデックなどを除く通常の動画圧縮方式では、過去の画像を参照しながら画像を圧縮する。そのため、異常が回復してから実際に画像から異常の影響が消えるまでには時間がかかる。この時間は、復号部２４の設定内容より推定が可能である。例えば復号部２４の符号化手段がＨ．２６４／ＡＶＣであれば、少なくとも一度のＩＤＲ（instantaneous decoding refresh）画像が正常にデコードされれば、画像には異常の影響は含まれていないことが保障される。この最大の時間は、ＩＤＲ画像の間隔である。あるいは、符号化手段がＨ．２６４／ＨＥＶＣであればＣＲＡ（clean random access）画像が正常にデコードされるまでの時間、すなわちＣＲＡ画像の間隔である。一方、通常のコーデック実装では、ＩＤＲ画像やＣＲＡ画像がデコードされたことを検知できない。よって、この場合、異常の回復を検知してから実際に画像から異常の影響が消えたことを保障するには、異常の回復後にＩＤＲ画像又はＣＲＡ画像の間隔分だけの時間を待つ必要がある。

動作監視部２５は、異常が回復してからの経過時間、つまり正常時間を計測する。辞書管理部２８は、その経過時間が所定時間を超えるまで追尾辞書の学習を再開しない。例えば、カメラ内追尾辞書２８１を学習する場合は、学習の抑制時間（所定時間）を１秒とする。カメラ内追尾では、追尾辞書の有効期間は上述したとおり通常は数秒なので、追尾精度の低下によるデメリットも小さい。そのため、異常の影響により壊れているかもしれない画像を学習するリスクを許容する。一方で、１秒待つだけで、ネットワーク輻輳などの、一旦回復した後は経過時間に応じて再発率が減る、いわゆるパレート分布に従う異常の再発を回避することができる。カメラ間追尾辞書２８２の場合、学習の抑制時間は３０秒とする。これにより、先に述べた通り通常の動画復号コーデック実装を用いる場合に、動画圧縮コーデックが画像から異常の影響を取り除くことを保障できる。長期間追尾辞書２８３の場合、学習の抑制時間を１日とする。これは、「長期間追尾」では、長期間追尾辞書２８３の有効期間が長く、異常の起きた画像を学習してしまうことのデメリットが非常に大きく、壊れた画像を学習するリスクを許容できないためである。

学習を再開するときの画像特徴は、図８の推定検出枠７５１の画像特徴ではなく、異常が回復された後の検出枠の画像特徴とする。すなわち、異常の回復から前記所定時間の経過後に物体追尾部２７が検出した検出枠５１４の画像特徴に基づいて辞書の学習を再開する。

次に、上記の動作を行うための画像処理装置１の動作手順を図９を参照して説明する。画像処理装置１は、まず、初期化処理を行う（Ｓ１０１）。初期化処理には、追尾辞書の学習の制御に用いる最終正常時刻、最終異常時刻の初期化が含まれる。次に、動画のストリームを受信し（Ｓ１０２）、受信したストリームを復号して静止画を取得する（Ｓ１０３）。次に、静止画から物体、例えば歩行者を検出し（Ｓ１０４）、その歩行者を追尾する（Ｓ１０５）。その後、追尾結果に基づいて辞書学習処理を行う（Ｓ１０６）。この詳細については後述する。次に、Ｓ１０６で学習した追尾辞書をストレージ１４に保存する（Ｓ１０７）。最後に、カメラ間追尾や長期間追尾を行う（Ｓ１０８）。追尾を終了しない場合はＳ１０２〜Ｓ１０８を繰り返す（Ｓ１０９：ＮＯ）。追尾を終了する場合（Ｓ１０９：ＹＥＳ）、処理を終える。

異常が発生した後、正常に回復するときの動作監視部２５の動作は、図１０に示すとおりとなる。すなわち、動作監視部２５は、異常を検出しない場合は、監視を続ける（Ｓ２０１：ＮＯ）。異常が検出された場合は（Ｓ２０１：ＹＥＳ）、異常信号を出力する（Ｓ２０２）。異常が回復するまで待ち（Ｓ２０３：ＮＯ）、回復したときは（Ｓ２０３：ＹＥＳ）、正常信号を出力する（Ｓ２０４）。

次に、図９の辞書学習処理（Ｓ１０６）の内容を図１１を参照して説明する。辞書管理部２８は、静止画群、物体（歩行者）の軌跡データ、最終正常時刻、最終異常時刻を取得する（Ｓ３０１）。動作監視部２５から異常信号を受信したときは（Ｓ３０２：ＹＥＳ）、その後に正常信号を受信したかどうかを判定する（Ｓ３０３）。異常信号を受信しない場合（Ｓ３０２：ＮＯ）あるいは正常信号を受信したときは（Ｓ３０３：ＹＥＳ）、最終正常時刻に現在時刻を設定する（Ｓ３０４）。異常信号を受信したが正常信号を受信しない場合は（Ｓ３０３：ＮＯ）、最終異常時刻に現在時刻を設定する（Ｓ３０５）。
その後、最終正常時刻から最終異常時刻を差し引いて正常時間とする（Ｓ３０６）。この正常時間が負になるなら異常発生中であることを意味する。
正常時間が１秒以上の場合（Ｓ３０７：ＹＥＳ）、カメラ内追尾辞書２８１を学習する（Ｓ３０８。１秒未満であればどの追尾辞書でも学習は行われない（Ｓ３０７：ＮＯ、Ｓ３０９：ＮＯ、Ｓ３１１：ＮＯ）。正常時間が３０秒以上であれば（Ｓ３０９：ＹＥＳ）、カメラ間追尾辞書２８２を学習する（Ｓ３１０）。３０秒未満であれば、カメラ内追尾辞書２８１以外の学習は行われない（Ｓ３０９：ＮＯ、Ｓ３１１：ＮＯ）。正常時間が１日以上の場合（Ｓ３１１：ＹＥＳ）、長期間追尾辞書２８３を学習する（Ｓ３１２）。１日未満であれば、カメラ内追尾辞書２８１およびカメラ間追尾辞書２８２以外の学習は行われない（Ｓ３１１：ＮＯ）。その後、辞書学習処理を終える。

以上説明したように、本実施形態によれば、ネットワーク伝送路Ｎ１に異常が発生した場合にそれを検知し、一定時間、追尾辞書の学習が抑制される。これにより、ネットワーク異常の影響を受け得る画像特徴を学習することによる追尾の性能劣化の可能性を低減することができる。

本実施形態では、また、物体検出部２６による物体の未検出を物体追尾部２７が補い、さらにその未検出の画像を辞書管理部２８が補う。物体の未検出の理由が物体検出部２６の性能限界かネットワーク伝送路Ｎ１の異常かどうかを識別し、後者の場合にだけ、追尾辞書の学習を抑制することができる。これによりネットワーク異常に由来する追尾性能の劣化の可能性を低減することができる。

本実施形態では、また、辞書管理部２８が、使用目的の異なる複数の追尾辞書を学習する場合に、動作監視部２５が異常が回復してからの正常時間を求め、追尾辞書の種別に応じて学習再開の遅延を変化させる。これによりネットワーク異常による追尾性能劣化、学習しないことによる性能低下、学習による性能向上とのバランスを辞書の特性に応じて変化させることができる。

［第２実施形態］
第１実施形態では、検出する異常はネットワークの異常としたが、カメラＣ１，Ｃ２，Ｃ３の異常であっても良い。この場合の異常は、例えばカメラと検出対象となる歩行者の間の空間を鳥などの遮蔽物が通過したり、地震やトラック通過などによりカメラが振動する場合などである。このときカメラから得る画像は、物体が映らないか、物体が映ってもフォーカスが合わなかったり、ブレていたりする。カメラに異常が発生しない場合の動作は、第１実施形態と同様である。そこで、以下は、カメラに異常が発生した場合の動作について説明する。第１実施形態と異なり、動作監視部２５は、物体検出部２６などの状況から、カメラの異常の発生を検出する。例えばカメラと歩行者の間に遮蔽物が通過すれば、物体検出部２６で検出する歩行者の数が前フレームから減少する。この場合、動作監視部２５は、近接する画像での物体検出部２６の物体検出数を記録しておいて、その物体検出数と最新の検出数とを比較し、その差もしくは比が予め設定された閾値を超える場合に異常として扱う。

カメラの振動であれば、画像から前フレームとの差分画素が増える。この場合、動作監視部２５は、近接する２画像間で、画像中のそれぞれの画素について同座標の画素値の差もしくは比が一定値を超える画素の数を数え、その画素数が予め設定された処理の閾値を超えていれば異常として扱う。

以上説明したように、第２実施形態では、動作監視部２５が、カメラが遮蔽物の通過の影響を受けたり振動を受けたりした場合にそれを検知できる。また、第１実施形態と同様に、検知した異常に基づき辞書学習を抑制する。よって、異常の影響を受け得る画像特徴を学習することによる追尾の性能劣化の可能性を低減できる。

［第３実施形態］
復号部２４によるネットワーク異常の検出及び回復について、第１実施形態では、辞書管理部２８が、ＩＤＲ画像やＣＲＡ画像が復号されるまでの間隔を待つ場合の例について説明した。第３実施形態では、復号部２４においてＩＤＲ画像やＣＲＡ画像などを正常に復号できたことを検知する場合の例を説明する。

ＩＤＲ画像やＣＲＡ画像の復号は、画像から異常の影響が取り除かれたことを意味するので、これらの検知を異常の回復が検出されたものとして扱うことができる。このとき、辞書管理部２８において、追尾辞書の学習を抑制する待ち時間は短いかゼロで良い。また、図１１において、正常時間が０より大きければ追尾辞書を学習するとして良い。

第３実施形態によれば、静止画からネットワーク異常の影響が除かれたことを検知することで、第１実施形態のように長い待ち時間を設定する必要がなく、学習を再開することができる。そのため、異常の影響を受け得る画像特徴の学習を抑制しつつ、より多くの画像特徴を学習し、後の追尾性能を向上することができる。

［第４実施形態］
第１実施形態では、異常検出法の一つとして復号部２４で復号するときに発生するエラーの有無について説明した。復号部２４の符号化手段は、部分領域ごとに符号化できる符号化手段である。また、異常が影響する部分画像領域を特定することができる。そのため、動作監視部２５は、その異常が影響する領域に学習する領域が含まれる場合に、異常が発生していると判断するようにしても良い。言い換えれば、異常を検出していても、復号部２４によりある部分画像領域が壊れていないことを保障できるのであれば、その部分画像領域内については追尾辞書の学習を抑制しなくとも良い。

部分領域ごとに符号化できる符号化手段には例えばＨ．２６４／ＳＶＣがある。Ｈ．２６４／ＳＶＣは、画像を分割し、その分割されたそれぞれをスライスとして管理する。このとき復号部２４で復号するときにエラーを発生したスライスにより復号される部分画像領域を異常が影響する部分画像領域とすれば良い。また、第３実施形態で説明したように、スライスごとに正常に復号できたことを検知しても良い。この場合、復号部２４がＩスライスを正常に復号することがその部分画像領域からネットワーク異常の影響が除かれたことを意味する。

第４実施形態によれば、復号部２４が異常が影響する部分画像領域を特定できる場合に、第１実施形態に比べて辞書管理部２８は、異常が影響していない部分画像領域から学習することができる。すなわちより多くの画像から追尾辞書を学習することができる。これにより、追尾精度を向上させることができる。

［画像処理方法］
本発明は、汎用のコンピュータに本発明のコンピュータプログラムを実行させることにより、画像処理方法としての使用形態が可能である。すなわち、物体が映された画像を時系列に取得し、取得した画像から物体およびその画像特徴を検出する度に当該画像特徴の辞書を学習する機能をコンピュータに形成する。そして、コンピュータが、上記のように取得した複数の画像間の画像特徴をもとに、取得された画像または検出された画像特徴における異常の有無を監視する。異常が検出されたときは、異常とされた画像の画像特徴に基づく学習を辞書の種類に応じて設定された所定条件を満たすまで抑制する処理を実行する。
この方法によれば、画像処理装置１と同様の効果を奏することができる。

［変形例］
第１ないし第４実施形態では、辞書管理部２８がカメラ内追尾辞書２８１、カメラ間追尾辞書２８２、長期間追尾辞書２８３をすべて保存する場合の例を説明したが、これらの追尾辞書にアクセス可能に構成されていれば、本発明の実施は可能である。

また、第１ないし第４実施形態では、ＣＰＵ１１が、ＲＯＭ１２などに記録されたコンピュータプログラムを実行することにより、図３に示した機能が実現され、図９ないし図１１に示した手順で処理が実行される場合の例を説明した。従って、本発明の機能等をコンピュータで実現するために該コンピュータにインストールされるこれらのコンピュータプログラムも本発明の実施を可能にするものである。つまり、本発明は、このようなコンピュータプログラムも含まれる。その場合、上記機能等を実現できるものであれば、オブジェクトコード、インタプリタにより実行されるプログラム、オペレーティングシステムに供給するスクリプトデータ等の形態のものであっても良い。
このようなコンピュータプログラムは、種々の記録媒体によって供給することができる。記録媒体としては、例えば、ハードディスク、光ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカードなどが挙げられる。また、ネットワークを介して外部装置からダウンロードすることでコンピュータに供給する形態もある。ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであっても良い。また、コンピュータプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なる外部装置からダウンロードすることによっても供給が可能である。また、本発明のプログラムを暗号化して供給するという形態をとることもできる。この場合、所定の条件をクリアした者に、別途、暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたコンピュータプログラムを復号させることになる。

Claims

物体が映された画像を時系列に取得する取得手段と、
前記画像から前記物体およびその画像特徴を検出する検出手段と、
前記取得された画像または検出された画像特徴の異常を検出する監視手段と、
複数種類の辞書を管理し、取得された画像から検出された物体の画像特徴に基づいて、当該画像特徴について前記複数種類の辞書を学習するとともに、前記異常が検出されたときは、前記画像特徴に基づく前記学習を、前記異常が回復した後に、前記辞書の種類に応じて設定された所定条件を満たすまで抑制する辞書管理手段と、
を有する画像処理装置。
前記監視手段は、前記異常が回復した後の経過時間を正常時間として計測し、
前記辞書管理手段は、前記正常時間が前記辞書の種類に応じて設定された所定期間を超える場合に前記辞書の学習を再開する、
請求項１記載の画像処理装置。
検出された前記物体の画像特徴に基づいて当該物体を追尾する追尾手段をさらに有し、
前記辞書管理手段は、前記異常の回復から前記所定時間の経過後に前記追尾手段が追尾する物体の画像特徴に基づいて前記辞書の学習を再開する、
請求項２記載の画像処理装置。
前記辞書管理手段は、一つの撮像装置の撮影範囲における物体の同一性を識別するために用いられる第１辞書と、複数の撮影装置の撮影範囲における物体の同一性を識別するために用いられる第２辞書と、撮影装置の数に関わらず一定以上の時間差で異なる複数の画像に映る物体の同一性を識別するために用いられる第３辞書との少なくとも１つの辞書にアクセス可能に構成されており、
前記正常時間が、前記第３辞書、第２辞書、第１辞書の順に長く設定されている、
請求項３記載の画像処理装置。
前記取得手段は、前記物体を撮影する撮像装置または前記画像を出力する外部装置が接続されたネットワーク伝送路とのインタフェースを含み、
前記監視手段は、前記ネットワーク伝送路から取得した前記画像を成分として含む信号における、閾値以下の強度低下、フレーム番号またはシーケンス番号の不連続、チェックサムの不一致、フラグメンテーション再構築の失敗、のいずれかの発生を前記異常として検出する、
請求項１ないし４のいずれか１項記載の画像処理装置。
前記取得手段は、前記物体を撮影する撮像装置または前記画像を出力する外部装置から受信した動画像を復号して出力する復号手段を含み、
前記監視手段は、前記動画像における、復号時のチェックサムの異常、タイミング情報の不連続、フォーマット異常、のいずれかの発生を前記異常として検出する、
請求項１ないし４のいずれか１項記載の画像処理装置。
前記監視手段は、隣り合う画像間での画素値または画素数の差もしくは比が予め設定された閾値を超える場合を前記異常として検出する、
請求項１ないし６のいずれか１項記載の画像処理装置。
前記監視手段は、隣り合う画像間で検出された物体の数の差もしくは比が予め設定された閾値を超える場合を前記異常として検出する、
請求項１ないし６のいずれか１項記載の画像処理装置。
物体が映された画像を取得し、取得した画像から前記物体およびその画像特徴に基づいて当該画像特徴について前記複数種類の辞書を学習する機能を有するコンピュータが、
複数種類の辞書を管理し、取得された画像または検出された画像特徴における異常の有無を監視し、異常が検出されたときは、前記画像特徴に基づく前記学習を、前記異常が回復した後に、前記辞書の種類に応じて設定された所定条件を満たすまで抑制する処理を実行することを特徴とする、
画像処理方法。
コンピュータを、請求項１ないし８のいずれか１項に記載された画像処理装置として機能させる、コンピュータプログラム。